最小的有效robots.txt文件将允许对网站上的所有内容进行爬网?
#1 楼
如此处所示,在Web服务器的顶级目录中创建一个名为robots.txt的文本文件。您可以将其保留为空,或者添加:User-agent: *
Disallow:
如果您希望机器人抓取所有内容。如果不是,请参阅上面的链接以获取更多示例。
#2 楼
最好的最小robots.txt
是一个完全空的文件。其他任何“空”指令(例如空
Disallow
或Allow: *
)都是无操作的,它们不仅无用,而且会增加不必要的复杂性。 > 如果您不希望文件完全为空,或者希望使其更易于阅读,则只需添加以
#
字符开头的注释,例如# blank file allows all
。爬网程序会忽略以#
开头的行。#3 楼
我会这样说;User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
它将允许Google抓取所有内容,但不允许Google抓取您的管理员面板。这是您的理想情况。
评论
我可能会丢失一些东西,但我不认为提问者说他们正在使用Wordpress。
– Maximillian Laumeister
19年1月27日在1:18
评论
为什么要添加“不允许:”而不是仅添加“允许:*”?
– Athoxx
2014年1月5日14:18
@Patrik“ Allow”用于覆盖任何先前的“ Disallow”指令。如果没有“ Disallow”,则毫无意义。老实说,最好的解决方案是空白文件。
–心怀不满的山羊
2014年1月5日19:23
知道了我也同意空白文件是最好的。
– Athoxx
2014年1月5日在21:40
@PatrikAlienus,因为robots.txt规范中没有“允许”。
–user11153
15年3月6日在12:37
@ user11153:嗯? 1997年Internet草案规范“ Web机器人控制方法”的“ 3.2.2允许和禁止行”部分怎么办?
– David Cary
15年3月8日在12:25