
在过去五年中,日志文件越来越受到技术SEO的认可,这是有充分理由的。它们是了解搜索引擎已抓取的URL的最值得信赖的信息来源,这可能是帮助诊断技术SEO问题的关键信息。Google本身也意识到了它们的重要性,在Google Search Console中发布了新功能,并且可以轻松查看以前只能通过分析日志才能获得的数据样本。
此外,Google Search Advocate John Mueller曾公开表示日志文件保存了多少好的信息。围绕日志文件中的数据大肆宣传,您可能希望更好地了解日志、如何分析它们以及您正在处理的网站是否会从中受益。本文将回答所有这些以及更多内容。以下是我们将要讨论的内容:
·什么是服务器日志文件
·日志文件如何使SEO受益
·如何访问您的日志文件
·如何分析您的日志文件
什么是服务器日志文件?
服务器日志文件是由服务器创建和更新的文件,用于记录其已执行的活动。一个流行的服务器日志文件是一个访问日志文件,它保存了对服务器的HTTP请求历史记录(用户和机器人)。当非开发人员提到一个日志文件时,他们通常会提到访问日志。然而,开发人员发现自己花费更多时间查看错误日志,这些日志报告服务器遇到的问题。
以上很重要:如果您向开发人员索取日志,他们首先会问的是,“哪些?”因此,请始终针对日志文件请求进行具体说明。如果您希望日志分析爬取,请索取访问日志。访问日志文件包含有关向服务器发出的每个请求的大量信息,例如:
·IP地址
·用户代理
·网址路径
·时间戳(当机器人/浏览器发出请求时)
·请求类型(GET或POST)
·HTTP状态码
访问日志中包含的服务器因服务器类型而异,有时开发人员已将服务器配置为存储在日志文件中。日志文件的常见格式包括:
·Apache格式——这由Nginx和Apache服务器使用。
·W3C格式–这是由Microsoft IIS服务器使用的。
·ELB格式–这由Amazon Elastic Load Balancing使用。
·自定义格式——许多服务器支持输出自定义日志格式。
·存在其他形式,但这些是您将遇到的主要形式。
日志文件如何使SEO受益?
现在我们已经对日志文件有了基本的了解,让我们看看它们如何使SEO受益。
以下是一些关键方法:
·抓取监控——您可以查看搜索引擎抓取的URL,并使用它来发现抓取工具陷阱,注意抓取预算浪费,或者更好地了解获取内容更改的速度。
·状态代码报告——这对于优先修复错误特别有用。无需知道您有404,您可以准确地看到用户/搜索引擎访问404 URL的次数。
·趋势分析——通过监控对URL、页面类型/站点部分或整个站点的爬取,您可以发现变化并调查潜在原因。
·孤立页面发现——您可以交叉分析来自日志文件的数据,并通过您自己运行的站点爬网来发现孤立页面。
所有站点都将在一定程度上受益于日志文件分析,但收益量因站点大小而异。这是因为日志文件主要通过帮助您更好地管理爬网来使站点受益。谷歌本身表示管理抓取预算是更大规模或经常变化的网站将从中受益。
日志文件分析也是如此。例如,较小的网站可能会使用Google Search Console中提供的“抓取统计”数据并获得上述所有好处,而无需访问日志文件。Google不会向您提供所有抓取的网址(如日志文件),并且趋势分析仅限于三个月的数据。但是,不经常更改的较小站点也需要较少的持续技术SEO。让现场审核员发现和诊断问题可能就足够了。
例如,来自站点爬虫、XML站点地图、Google Analytics和Google Search Console的交叉分析可能会发现所有孤立页面。您还可以使用站点审核员从内部链接中发现错误状态代码。我指出这一点有几个关键原因:
获取访问日志文件并不容易。对于不经常更改的小型网站,日志文件的好处并不多,这意味着SEO的重点可能会转移到其他地方。
如何访问您的日志文件?
在大多数情况下,要分析日志文件,您首先必须向开发人员请求访问日志文件。然后,开发人员可能会遇到一些问题,他们会引起您的注意。这些包括:
·部分数据——日志文件可以包含分散在多个服务器上的部分数据。这通常发生在开发人员使用各种服务器时,例如源服务器、负载均衡器和CDN。获得所有日志的准确图片可能意味着编译来自所有服务器的访问日志。
·文件大小——高流量站点的访问日志文件最终可能达到TB,如果不是PB的话,这使得它们难以传输。
·隐私/合规——日志文件包括属于个人身份信息(PII)的用户IP地址。用户信息可能需要先删除,然后才能与您共享。
·存储历史——由于文件大小,开发人员可能已将访问日志配置为仅存储几天,这使得它们对于发现趋势和问题没有用处。
这些问题会让人质疑存储、合并、过滤和传输日志文件是否值得开发人员的努力,特别是如果开发人员已经有很长的优先级列表(通常是这种情况)。开发人员可能会将责任放在SEO上来解释或建立一个案例,说明为什么开发人员应该在这方面投入时间,您需要在其他SEO重点中优先考虑这一点。这些问题正是日志文件分析不经常发生的原因。
您从开发人员那里收到的日志文件也经常被流行的日志文件分析工具以不支持的方式格式化,使得分析更加困难。值得庆幸的是,有一些软件解决方案可以简化这个过程。我最喜欢的是Logflare,它可以将日志文件存储在您拥有的BigQuery数据库中。
如何分析您的日志文件?
现在是时候开始分析您的日志了。我将具体向您展示如何在Logflare的上下文中执行此操作;但是,有关如何使用日志数据的提示适用于任何日志。
1.首先设置Logflare(可选)
2.验证Googlebot
3.从日志文件中提取数据
4.添加到Google表格
5.添加Ahrefs数据
6.检查状态码
7.检测抓取预算浪费
8.监控重要的URL
9.查找孤立的URL
10.监控按目录爬取
11.查看Cloudflare缓存比率
12.检查哪些机器人最常抓取您的网站
写在最后
您现在应该对在审核站点时可以对日志文件进行的分析有了一个很好的了解。
相关推荐: 注册新加坡商标要具备哪些要求,应该注意什么事项?
图片来源:图虫创意 新加坡这个国家是一个开放、经济高度发达的国家,也是全球较为国际化的国家之一。吸引了全球许多国家的投资人以及投资商的眼光,来此投资开拓业务,那么注册新加坡商标要具备哪些要求,应该注意什么事项? 一、申请新加坡对有申请人的要求 商标申请人在…
码刀科技(www.lekshop.cn)是国内知名企业级电商平台提供商,为企业级商家提供最佳的电商平台搭建(多种模式电商平台搭建:B2B/B2B2C/B2C/O2O/新零售/跨境等)、平台管理系统开发及互联网采购解决方案服务, 联系客服了解更多.