一周前,我在自己的一个网站上添加了robots.txt文件,这应该可以阻止Googlebot尝试获取某些网址。但是,这个周末我可以看到Googlebot正在加载这些确切的网址。

Google会缓存robots.txt吗?如果可以的话,它应该缓存吗?

#1 楼

我强烈建议您使用Google Search Console(以前称为Google网站管理员工具)注册您的网站。站点配置下有一个搜寻器访问部分,它将告诉您上次下载robots.txt的时间。该工具还提供了有关爬虫如何查看您的网站,哪些内容被阻止或不起作用以及您在Google查询中出现的位置的许多详细信息。

据我所知,Google经常下载robots.txt。 Google Search Console网站还可以让您从索引中专门删除URL,因此您可以删除正在阻止的URL。

评论


我检查了网站站长工具:robots.txt文件有效,并且是Googlebot最近一次访问这些网页之前17个小时获取的。我怀疑这是通过Google网络传播的问题-最终所有googlebot服务器都会追上robots.txt指令。

– Quog
10年8月16日在14:31

Google僵尸程序不使用robots.txt,因为Search Console中会报告更新。自从我进行更新以来已经过去了四个星期,但Google机器人仍然使用了错误的robots.txt-并破坏了我们的访问量和排名。

–企业极客
19年4月29日在13:40

#2 楼

坚持下去我从robots.txt更改为meta noindex,nofollow。为了使元数据能够正常工作,必须首先解除robots.txt中被阻止的地址。

我通过完全删除robots.txt(并在Google网站站长中将其删除)来残酷地做到了这一点。 />
在网站管理员工具(被阻止的页面数)中看到的robots.txt删除过程完成了10个星期,其中大部分仅在最近2周内被Google删除。

评论


我倾向于同意你的看法。我们犯了一个错误,并且错误地更新了robots.txt文件。 Google对其进行了缓存,并在我们纠正了错误的四个星期后使用了它,并用新的robots.txt替换了它。我什至在Google网站站长工具中手动提交了刷新请求,但没有。这真的很糟糕,因为它导致流量和排名丢失。 :(

–企业极客
19年4月29日在13:38



#3 楼

是的,Google显然会在一定程度上缓存robots.txt-不会在每次查看页面时都下载它。我不知道它缓存了多长时间。但是,如果您设置了较长的Expires标头,则Googlebot可能会保留更长的时间来检查文件。

另一个问题可能是文件配置错误。 danivovich建议的网站站长工具中,有一个robots.txt检查器。它会告诉您哪些页面类型被阻止,哪些页面很好。

评论


请参阅对此答案的评论webmasters.stackexchange.com/questions/2272/…

– Quog
10年8月16日在14:32

@Quog:请观看以下最新视频:youtube.com/watch?v=I2giR-WKUfY Matt Cutts建议您每天或大约每100个请求下载一次robots.txt。

–心怀不满的山羊
10年8月17日在10:36

#4 楼

Google的文档指出,他们通常会缓存robots.txt一天,但是如果尝试刷新它时出错,则可能会使用更长时间。


robots.txt请求是通常最多缓存一天,但是在无法刷新缓存版本的情况下(例如,由于超时或5xx错误),缓存时间可能会更长。缓存的响应可以由不同的搜寻器共享。 Google可能会根据最大寿命的Cache-Control HTTP标头来增加或减少缓存的寿命。


#5 楼

是。他们说他们通常每天更新一次,但是有人建议他们也可以在一定数量的页面点击数(100?)之后检查它,以便更频繁地检查繁忙的网站。

请参阅https:/ /webmasters.stackexchange.com/a/29946以及@DisgruntedGoat在http://youtube.com/watch?v=I2giR-WKUfY上共享的视频。

#6 楼

根据我在用户访问的缓存上看到的内容,您需要做的是将robots.txt文件的网址输入Google搜索,然后单击绿色的小下拉箭头,然后单击“缓存”(请参见下图)这将为您提供Google服务器上该页面的最新版本。



#7 楼

您可以使用Google的网址删除工具请求将其删除。

评论


这不能回答问题。

–怀特先生
15年11月15日在21:15

为什么不回答呢?

– KOZASHI SOUZA
2015年11月16日,下午1:26

由于该问题专门针对robots.txt,因此涉及URL的缓存和爬网。结果之一可能是没有为URL编制索引,但这不是问题。 (Google的网址删除工具也是“临时”修复程序,您还需要执行其他步骤才能使其永久化。)

–怀特先生
15年11月16日在11:06