如果我不想设置任何特殊行为,那么我是否不愿意拥有robots.txt文件也可以吗?

或者缺少一个会有害吗?

#1 楼

缺少robots.txt文件不会有害。来自robotstxt.org网站:


允许所有机器人完全访问

用户代理:*
不允许:

(或者只是创建一个空的“ /robots.txt”文件,或者根本不使用一个文件)。即使您没有在机器人中指定任何内容,也可以使用。 txt文件,这是一种通知搜索引擎您XML Sitemap位置的好方法。您可以通过在robots.txt文件顶部添加类似于以下内容的行来做到这一点:


网站地图:http://www.example.com/sitemap-host1。 xml


您还应该知道,没有它会在您的Web日志中创建很多404条目。

评论


+1-不错的总结,尽管我真的会强调Kinopiko已经正确强调的内容:创建最基本甚至是一个空的页面以避免这些404,并且(取决于您网站的404页面处理)可能会带来一些流量/带宽,因为搜索引擎将应用适当的HTTP缓存控制来跳过再次下载文件(如果文件没有更改),无论文件是否为空。

–斯特芬·欧宝(Steffen Opel)
2010年7月10日在11:02

标记为Wiki,请根据需要进行编辑。

–JasonBirch
2010年7月11日在4:08

#2 楼

如果没有“ robots.txt”,则错误日志将在文件上显示很多404,这可能是一种烦恼,类似于没有图标的情况。

评论


一个很好的点..

–杰夫·阿特伍德
2010年7月9日在10:54

+1-我想补充一点,您不仅可以将自己从更大且嘈杂的日志文件中拯救出来,而且还可以(取决于您的站点404页的处理方式)避免由于大多数404页被占用而带来的相当大的流量/带宽大于简单的robots.txt文件,此外,由于搜索引擎应用了适当的HTTP缓存控制,因此下载频率也会降低。

–斯特芬·欧宝(Steffen Opel)
2010年7月10日11:00

#3 楼

我认为这一定可以,否则网络蜘蛛将无法索引庞大的网络。

#4 楼

缺少robots.txt文件会使爬虫程序自行决定可以做什么和不能做什么。由于只需几秒钟即可避免任何歧义,为什么不制作一个允许所有代理访问所有内容的方法呢?

#5 楼

好吧,因为robots.txt包含您的站点地图的地址,所以没有一个可能有害。

评论


站点地图仅对某些类型的网站有用,IMO

–杰夫·阿特伍德
2010年7月9日在10:55

我还看到了在没有robots.txt的情况下,爬网程序(尤其是Google)正在寻找/sitemap.xml或/sitemap.gz

– Tim Post
2010年7月9日在12:03

您无需在robots.txt中添加站点地图,也可以将其提交到Google / Yahoo / Bing。绝对不是“潜在有害”。

–心怀不满的山羊
2010年7月12日在16:24

#6 楼

根据您的内容,没有机械手文件应该没有问题,只要您希望网站上的每个页面都被搜索引擎编入索引即可。