
抓取预算(crawl budget)是指Google愿意花在抓取给定网站上的时间。虽然看起来谷歌有点全能,但他们的资源有限,而且网络庞大。因此,他们必须以某种方式确定优先级并分配一定的时间或资源来抓取给定的网站。现在他们根据网站在用户中的受欢迎程度和内容的新鲜度来确定优先级,因为谷歌机器人有点渴望新的、前所未见的URL。今天,我们将专注于如何充分利用您拥有的抓取预算,这通常在任何情况下都是一个更容易使用的杠杆。
抓取预算问题的原因
那么抓取预算问题实际上是如何产生的呢?
1.刻面(facet)
现在我认为网站上可能导致抓取预算问题的主要问题首先是方面。所以你可以想象在一个电子通信网站上,想象我们有一个笔记本电脑页面。我们也许可以按大小过滤它。您有一个15英寸的屏幕和16 GB的RAM。那里可能有很多不同的排列,可能会导致大量的URL,而实际上我们只有一个页面或一个类别——笔记本电脑页面。然后可以对这些重新排序以创建其他执行完全相同操作但必须单独抓取的URL。同样,它们的排序可能不同。可能会有分页等等。因此,您可以让一个类别页面生成大量URL。
2.搜索结果页面(Search results pages)
经常出现的其他一些事情是来自内部站点搜索的搜索结果页面通常可以,特别是如果它们是分页的,它们可能会生成许多不同的URL。
3.列表页面(Listings pages)
如果您允许用户上传他们自己的列表或内容,那么随着时间的推移,如果您考虑工作板或eBay之类的东西,并且它可能有大量页面,那么这可能会累积成大量的URL。
修复抓取预算问题
那么,您可以使用哪些工具来解决这些问题并充分利用您的抓取预算?作为基准,如果我们考虑正常URL与Googlebot的行为方式,我们会说,是的,它可以被抓取,是的,它可以被编入索引,是的,它通过了PageRank。所以像这样的URL,如果我链接到我网站上的某个地方,然后谷歌遵循该链接并索引这些页面,这些可能仍然具有顶部导航和站点范围的导航。
因此,实际上传递到这些页面的链接将被循环使用。当我们通过这么多不同的页面和这么多不同的过滤器进行链接时,会由于稀释而造成一些损失。但最终,我们正在回收这个。没有泄漏的PageRank的黑洞损失。
1.Robots.txt
现在处于相反的极端,您可以采用的最极端的抓取预算解决方案是robots.txt文件。如果你在robots.txt中屏蔽了一个页面,那么它就无法被抓取。从技术上讲,robots.txt中阻止的站点和页面可以编入索引。您有时会看到网站显示或SERP中显示的带有此元描述的页面无法显示,因为该页面在robots.txt或此类消息中被阻止。
所以从技术上讲,它们可以被索引,但在功能上,它们不会对任何东西或至少任何有效的东西进行排名。所以从技术上讲,他们没有通过PageRank。当我们链接到这样的页面时,我们仍在传递PageRank。但是,如果它随后在robots.txt中被阻止,则PageRank不会再进一步。所以我们创造了一个泄漏和一个黑洞。所以这是一个相当严厉的解决方案,尽管它很容易实现。
2.Link-level nofollow
如果我们在主要笔记本电脑类别页面上获取指向这些方面的链接,并且我们在这些链接内部放置了一个nofollow属性,那么这将有一些优点和缺点。我认为更好的用例实际上会更多地出现在列表案例中。所以想象一下,如果我们经营一个二手车网站,我们有数百万种不同的二手车产品列表。现在我们真的不希望谷歌在这些单独的列表上浪费时间,这可能取决于我们网站的规模。
但偶尔名人可能会上传他们的汽车或类似的东西,或者可能会上传非常稀有的汽车,这将开始获得媒体链接。所以我们不想在robots.txt中阻止该页面,因为在这种情况下我们会浪费这些外部链接。因此,我们可能会在指向该页面的内部链接上做些什么,我们可能会在内部不关注该链接。所以这意味着它可以被抓取,但前提是它被找到了,只有当谷歌以其他方式找到它时,比如通过外部链接或类似的东西。
我们在这里有一个中途之家。现在从技术上讲,这些nofollow是一个提示。根据我的经验,Google不会抓取仅通过内部nofollow链接的页面。如果它以其他方式找到页面,显然它仍然会抓取它。但总的来说,这可以作为一种限制爬网预算的有效方式,或者我应该说使用爬网预算更有效。该页面仍然可以被索引。
这就是我们在该示例中试图实现的目标。它仍然可以通过PageRank。这是我们试图实现的另一件事。尽管您仍然通过此nofollow链接失去了一些PageRank。这仍然算作一个链接,因此您将失去一些原本会被传送到该后续链接的PageRank。
3.Noindex,nofollow
noindex和nofollow对于ecomm网站上的这些页面来说,显然是一个非常常见的解决方案。在这种情况下,可以抓取页面。但是一旦谷歌到达那个页面,它会发现它是noindex,随着时间的推移它会抓取它的次数会少得多,因为抓取noindex页面的意义不大。再说一次,我们在这里有一个中途之家。
显然,它不能被索引。它没有索引。它不会向外传递PageRank。PageRank仍然传递到这个页面,但因为它在head部分有一个nofollow,它不会向外传递PageRank。这不是一个很好的解决方案。为了节省抓取预算,我们必须在此处达成一些妥协。
4.Noindex,follow
所以很多人曾经认为,哦,好吧,解决这个问题的方法是使用noindex follow作为两者的最佳选择。所以你在其中一个页面的头部放置了一个noindex follow标签,哦,是的,每个人都是赢家,因为我们仍然得到了同样的爬行好处。我们仍然没有索引这种我们不想索引的新重复页面,但PageRank解决方案是固定的。
几年前,谷歌出来说,“哦,我们自己没有意识到这一点,但实际上,随着时间的推移,我们越来越少地抓取这个页面,我们将不再看到链接,然后它就不会了。”所以他们有点暗示这不再是一种仍然通过PageRank的方式,最终它会被视为noindex和nofollow。再说一次,我们在那里有一种稍微妥协的解决方案。
5.规范(Canonical)
所有世界中真正最好的可能是规范的。使用规范标签,随着时间的推移,它仍然会被抓取得少一点,规范化的版本,很棒。它仍然不会被索引,规范化的版本,很好,它仍然通过PageRank。所以这看起来很棒。在很多情况下,这似乎是完美的。但这只有在页面接近足够重复的情况下才有效,谷歌愿意将它们视为重复并尊重规范。如果他们不愿意将它们视为重复项,那么您可能不得不重新使用noindex。或者,如果您认为实际上这个URL根本没有存在的理由,我不知道这种错误的顺序组合是如何产生的,但这似乎毫无意义。
6.301
我不会再链接到它了。但是,如果有些人仍然以某种方式找到URL,我们可以使用301作为一种经济,最终会表现得非常好……我会说比规范和noindex更能节省抓取预算,因为谷歌没有甚至不必在极少数情况下查看页面,它确实会检查它,因为它只是遵循301。它将解决我们的索引问题,并且将通过PageRank。但显然,这里的权衡是用户也不能访问这个URL,所以我们必须接受。
实施爬网预算策略
综上所述,我们将如何实际使用这些策略?那么,如果您想进行爬网预算项目,我会推荐哪些活动?不太直观的一种是速度。就像我之前说的,谷歌正在分配一定量的时间或资源来抓取给定的网站。因此,如果您的站点非常快,如果您的服务器响应时间很短,如果您使用轻量级HTML,它们将在相同的时间内浏览更多页面。
所以这违反直觉是解决这个问题的好方法。日志分析,这有点传统。通常,您网站上的哪些页面或哪些参数实际上消耗了您所有的抓取预算是非常不直观的。大型站点上的日志分析通常会产生令人惊讶的结果,因此您可能会考虑这一点。然后实际使用其中一些工具。
因此,我们认为用户甚至不需要查看的冗余URL,我们可以301。用户确实需要查看的变体,我们可以查看规范或noindex标签。但我们也可能希望首先避免链接到它们,这样我们就不会因为稀释或死胡同而将某种程度的PageRank丢失到那些规范化或无索引变体中。
Robots.txt和nofollow,正如我在浏览它时暗示的那样,这些是您希望非常谨慎地使用的策略,因为它们确实会造成这些PageRank的死胡同。如果您的网站上有一个您只使用的站点地图对于新鲜或最近的URL,您最近更改的URL,然后因为Googlebot如此渴望,就像我说的那样,对新鲜内容,他们将开始频繁地抓取此站点地图。因此,您可以使用这种策略将抓取预算定向到新的URL,这样每个人都会赢。
Googlebot只想查看新的网址。您可能只想让Googlebot看到新的网址。因此,如果您有一个仅用于该目的的站点地图,那么每个人都会获胜,这可能是一个很好且易于实施的技巧。所以这就是全部。
相关推荐: 快时尚短讯 | SHEIN打造关怀基金,千万美元助发展
图片来源:图虫创意 据美通社(PRNewswire)报道,SHEIN宣布启动关怀基金(SHEIN Cares Fund),以1000万美金赋能非营利组织扶持的企业家, 助力公共服务设施匮乏领域,关注动物健康与福利救济, 促进循环经济发展。 该基金首个资助对象为…
码刀科技(www.lekshop.cn)是国内知名企业级电商平台提供商,为企业级商家提供最佳的电商平台搭建(多种模式电商平台搭建:B2B/B2B2C/B2C/O2O/新零售/跨境等)、平台管理系统开发及互联网采购解决方案服务, 联系客服了解更多.