Skip to content

谷歌SEO:什么是Googlebot?

谷歌SEO:什么是Googlebot?

Googlebot是谷歌用来收集所需信息并建立网络可搜索索引的网络爬虫。Googlebot拥有移动和桌面抓取工具,以及专门的新闻、图片和视频抓取工具。谷歌有更多的爬虫用于特定任务,每个爬虫都会用一个称为“用户代理”的不同文本字符串来标识自己。

Googlebot是常青树,这意味着它可以像用户在最新的Chrome浏览器中一样看待网站。Googlebot在数千台机器上运行。他们决定在网站上抓取的速度和内容。但它们会减慢爬行速度,以免网站不堪重负。让我们看看他们构建网络索引的过程。

Googlebot如何抓取网络并将其编入索引?

谷歌过去曾分享过其管道的几个版本。以下是最新的。Google从其从各种来源收集的URL列表开始,例如页面、站点地图、RSS提要以及在Google Search Console或索引API中提交的URL。它优先考虑要抓取的内容,获取页面并存储页面的副本。

处理这些页面以查找更多链接,包括指向Google呈现页面所需的API请求、JavaScript和CSS等内容的链接。所有这些额外的请求都会被抓取和缓存(存储)。谷歌利用渲染服务使用这些缓存的资源来查看类似于用户的页面。

它再次处理这个并寻找对页面或新链接的任何更改。呈现页面的内容是存储在Google索引中并可搜索的内容。找到的任何新链接都会返回到URL存储桶以供其抓取。

如何控制Googlebot?

Google为您提供了几种方法来控制抓取和编入索引的内容。

1.控制爬行的方法

·Robots.txt–您网站上的此文件允许您控制抓取的内容。

·Nofollow–Nofollow是一个链接属性或元机器人标签,它建议不应遵循链接。它只被认为是一个提示,所以它可以被忽略。

·改变你的抓取速度——谷歌搜索控制台中的这个工具可以让你减慢谷歌的抓取速度。

2.控制索引的方法

·删除你的内容——如果你删除了一个页面,那么就没有什么可以索引的了。这样做的缺点是没有其他人可以访问它。

·限制对内容的访问——Google不会登录网站,因此任何类型的密码保护或身份验证都会阻止它查看内容。

·Noindex——元机器人标签中的noindex告诉搜索引擎不要索引您的页面。

·URL删除工具——谷歌的这个工具的名称有点误导,因为它的工作方式是暂时隐藏内容。Google仍会查看和抓取这些内容,但这些页面不会出现在搜索结果中。

·Robots.txt(仅限图片)——阻止Googlebot图片抓取意味着您的图片不会被编入索引。

如何验证Googlebot的真实性?

许多SEO工具和一些恶意机器人会伪装成Googlebot。这可能允许他们访问试图阻止他们的网站。过去,您需要运行DNS查找来验证Googlebot。但最近,谷歌让它变得更加容易,并提供了一个公共IP列表,您可以使用它来验证请求是否来自谷歌。您可以将其与服务器日志中的数据进行比较。

您还可以访问Google Search Console中的“抓取统计信息”报告。如果您转到“设置”>“抓取统计信息”,该报告包含大量有关Google如何抓取您的网站的信息。您可以查看哪个Googlebot正在抓取哪些文件以及它何时访问这些文件。

写在最后

网络是一个大而杂乱的地方。Googlebot必须浏览所有不同的设置以及停机时间和限制,以收集Google需要其搜索引擎工作的数据。一个有趣的事实是,Googlebot通常被描述为机器人,并且被恰当地称为“Googlebot”。还有一个蜘蛛吉祥物,名叫“克劳利(Crawley)”。

相关推荐: 亚马逊、速卖通、lazada店铺一直不出单,没流量怎么办?珑哥有方法!

近几年,跨境电商入驻的卖家越来越多,平台的流量越来越分散,导致店铺没有流量没有订单的情况经常发生,因此卖家对店铺的优化尤为主要。 对于亚马逊卖家来说,几乎每天都会问虽然我把我的产品放在货架上,但没有订单,但事实上,这些卖家不是卖不出去的问题,而是不知道他们的经…

    码刀科技(www.lekshop.cn)是国内知名企业级电商平台提供商,为企业级商家提供最佳的电商平台搭建(多种模式电商平台搭建:B2B/B2B2C/B2C/O2O/新零售/跨境等)、平台管理系统开发及互联网采购解决方案服务, 联系客服了解更多.

    电子商务网站建设的重要性和好处