什么是最低有效的robots.txt文件？

网站管理员 | 2021-01-08 | 编程黑洞网 | 0条评论 | 448 人阅读

我不喜欢在Web服务器的access.log中看到很多404错误。我收到这些错误消息是因为抓取工具尝试打开robots.txt文件，但找不到任何文件。因此，我想放置一个简单的robots.txt文件，以防止404错误出现在我的日志文件中。

最小的有效robots.txt文件将允许对网站上的所有内容进行爬网？

#1 楼

如此处所示，在Web服务器的顶级目录中创建一个名为robots.txt的文本文件。您可以将其保留为空，或者添加：

User-agent: *
Disallow:

如果您希望机器人抓取所有内容。如果不是，请参阅上面的链接以获取更多示例。

为什么要添加“不允许：”而不是仅添加“允许：*”？

– Athoxx
2014年1月5日14:18

@Patrik“ Allow”用于覆盖任何先前的“ Disallow”指令。如果没有“ Disallow”，则毫无意义。老实说，最好的解决方案是空白文件。

–心怀不满的山羊
2014年1月5日19:23

知道了我也同意空白文件是最好的。

– Athoxx
2014年1月5日在21:40

@PatrikAlienus，因为robots.txt规范中没有“允许”。

–user11153
15年3月6日在12:37

@ user11153：嗯？ 1997年Internet草案规范“ Web机器人控制方法”的“ 3.2.2允许和禁止行”部分怎么办？

– David Cary
15年3月8日在12:25

#2 楼

最好的最小robots.txt是一个完全空的文件。

其他任何“空”指令（例如空Disallow或Allow: *）都是无操作的，它们不仅无用，而且会增加不必要的复杂性。 >
如果您不希望文件完全为空，或者希望使其更易于阅读，则只需添加以#字符开头的注释，例如# blank file allows all。爬网程序会忽略以#开头的行。

#3 楼

我会这样说；

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

它将允许Google抓取所有内容，但不允许Google抓取您的管理员面板。这是您的理想情况。

我可能会丢失一些东西，但我不认为提问者说他们正在使用Wordpress。

– Maximillian Laumeister
19年1月27日在1:18