谷歌机器人(Googlebot)如何访问你的网站原理详解

    google seo 小Q 来源:小Q网络营销 4701次浏览 0个评论

    很多新手朋友在还没搞清楚Googlebot的抓取原理的情况下就盲目的见一个网站,开始谷歌优化工作。导致做了很多无用工作,小Q现对谷歌的抓取原理整理如下,新手朋友在开始谷歌优化之前,最好先“熟读”这篇文章。

    Googlebot 是 Google 的网页抓取漫游器(有时称为“蜘蛛程序”)。抓取是 Googlebot 发现新网页和更新的网页以将这些网页添加到 Google 索引中的过程。

    谷歌使用许多计算机来提取(或“抓取”)网站上的大量网页。Googlebot 使用算法确定抓取过程:计算机程序确定要抓取的网站、抓取频率以及从每个网站抓取的网页数量。

    进 行抓取时,Googlebot 会先查看以前的抓取过程所生成的一系列网页网址,包含网站站长提供的站点地图数据。Googlebot 在访问其中的每个网站时,会检测各网页上的链接(SRC 和 HREF),并将这些链接添加到要抓取的网页列表。它会记录新出现的网站、现有网站的更新以及无效链接,并据此更新 Google 索引。

    Googlebot 如何访问你的网站?

    Googlebot 对大多数网站的平均访问频率为几秒钟一次。但是,如果网络有延迟,则访问频率可能会在短时间内有所提高。一般来说,Googlebot 每次只会下载各网页的一份副本。如果你发现 Googlebot 多次下载同一网页,可能是因为抓取工具停止后又重新启动所致。

    谷歌将 Googlebot 分布在多台计算机上,以便提高性能并随着网络规模的扩大而扩大。此外,为了降低带宽占用,谷歌会在几台计算机上运行多个抓取工具,而这些计算机通常位于它 们正在网络中编制索引的网站附近。因此,你的日志可能会显示来自 google.com 上的多台计算机的访问记录,而且所有计算机使用的都是用户代理 Googlebot。谷歌的目标是:每次访问你的网站时,以你服务器的带宽所允许的速度尽可能多地抓取网页。请求更改抓取速度。

    阻止 Googlebot 抓取您网站上的内容

    对 于网络服务器,要想通过不发布指向它的链接的方式来达到保密目的几乎是不可能的。只要有人通过你“私密”服务器上的链接访问其他网络服务器,你的“私密” 网址就会出现在引用页标签中,而其他网络服务器也会存储这些网址并将其发布在自己的引用页日志中。同样,网络中包含许多过期和已损坏的链接。只要有人发布 了指向你网站的不正确链接,或未能成功更新链接以反映你服务器的更改,Googlebot 就会尝试从你的网站下载不正确的链接。

    如果要阻止 Googlebot 抓取你网站上的内容,你可以选择使用多种方法,包括使用 robots.txt 阻止其访问你服务器上的文件和目录。

    你 创建完 robots.txt 文件后,Googlebot 可能需要一段时间才能发现你的更改。如果 Googlebot 仍继续抓取你在 robots.txt 文件中阻止的内容,请检查 robots.txt 文件的位置是否正确。该文件必须位于服务器的顶层目录(例如:www.myhost.com/robots.txt)中;如果位于子目录,则不会产生任何 效果。

    如果你只想阻止网络服务器日志显示“未找到文件”这样一种错误讯息,则可以创建名为 robots.txt 的空文件。如果你想阻止 Googlebot 跟踪你网站上某网页中的任何链接,则可以使用 nofollow 元标记。要阻止 Googlebot 跟踪某个链接,请在该链接中添加 rel=”nofollow” 属性。

    网站站长工具中的 Google 抓取方式工具可帮助你了解 Googlebot 究竟是以什么方式查看你网站的。对网站内容或网站在搜索结果中的出现率进行问题排查时,此工具非常有用。


    喜欢 (9)

    您必须 登录 才能发表评论!