我不喜欢在Web服务器的access.log中看到很多404错误。我收到这些错误消息是因为抓取工具尝试打开robots.txt文件,但找不到任何文件。因此,我想放置一个简单的robots.txt文件,以防止404错误出现在我的日志文件中。

最小的有效robots.txt文件将允许对网站上的所有内容进行爬网?

#1 楼

如此处所示,在Web服务器的顶级目录中创建一个名为robots.txt的文本文件。您可以将其保留为空,或者添加:

User-agent: *
Disallow:


如果您希望机器人抓取所有内容。如果不是,请参阅上面的链接以获取更多示例。

评论


为什么要添加“不允许:”而不是仅添加“允许:*”?

– Athoxx
2014年1月5日14:18

@Patrik“ Allow”用于覆盖任何先前的“ Disallow”指令。如果没有“ Disallow”,则毫无意义。老实说,最好的解决方案是空白文件。

–心怀不满的山羊
2014年1月5日19:23

知道了我也同意空白文件是最好的。

– Athoxx
2014年1月5日在21:40

@PatrikAlienus,因为robots.txt规范中没有“允许”。

–user11153
15年3月6日在12:37

@ user11153:嗯? 1997年Internet草案规范“ Web机器人控制方法”的“ 3.2.2允许和禁止行”部分怎么办?

– David Cary
15年3月8日在12:25

#2 楼

最好的最小robots.txt是一个完全空的文件。

其他任何“空”指令(例如空DisallowAllow: *)都是无操作的,它们不仅无用,而且会增加不必要的复杂性。 >
如果您不希望文件完全为空,或者希望使其更易于阅读,则只需添加以#字符开头的注释,例如# blank file allows all。爬网程序会忽略以#开头的行。

#3 楼

我会这样说;

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php


它将允许Google抓取所有内容,但不允许Google抓取您的管理员面板。这是您的理想情况。

评论


我可能会丢失一些东西,但我不认为提问者说他​​们正在使用Wordpress。

– Maximillian Laumeister
19年1月27日在1:18