或者缺少一个会有害吗?
#1 楼
缺少robots.txt文件不会有害。来自robotstxt.org网站:允许所有机器人完全访问
用户代理:*
不允许:
(或者只是创建一个空的“ /robots.txt”文件,或者根本不使用一个文件)。即使您没有在机器人中指定任何内容,也可以使用。 txt文件,这是一种通知搜索引擎您XML Sitemap位置的好方法。您可以通过在robots.txt文件顶部添加类似于以下内容的行来做到这一点:
网站地图:http://www.example.com/sitemap-host1。 xml
您还应该知道,没有它会在您的Web日志中创建很多404条目。
#2 楼
如果没有“ robots.txt”,则错误日志将在文件上显示很多404,这可能是一种烦恼,类似于没有图标的情况。评论
一个很好的点..
–杰夫·阿特伍德
2010年7月9日在10:54
+1-我想补充一点,您不仅可以将自己从更大且嘈杂的日志文件中拯救出来,而且还可以(取决于您的站点404页的处理方式)避免由于大多数404页被占用而带来的相当大的流量/带宽大于简单的robots.txt文件,此外,由于搜索引擎应用了适当的HTTP缓存控制,因此下载频率也会降低。
–斯特芬·欧宝(Steffen Opel)
2010年7月10日11:00
#3 楼
我认为这一定可以,否则网络蜘蛛将无法索引庞大的网络。#4 楼
缺少robots.txt文件会使爬虫程序自行决定可以做什么和不能做什么。由于只需几秒钟即可避免任何歧义,为什么不制作一个允许所有代理访问所有内容的方法呢?#5 楼
好吧,因为robots.txt
包含您的站点地图的地址,所以没有一个可能有害。评论
站点地图仅对某些类型的网站有用,IMO
–杰夫·阿特伍德
2010年7月9日在10:55
我还看到了在没有robots.txt的情况下,爬网程序(尤其是Google)正在寻找/sitemap.xml或/sitemap.gz
– Tim Post
2010年7月9日在12:03
您无需在robots.txt中添加站点地图,也可以将其提交到Google / Yahoo / Bing。绝对不是“潜在有害”。
–心怀不满的山羊
2010年7月12日在16:24
评论
+1-不错的总结,尽管我真的会强调Kinopiko已经正确强调的内容:创建最基本甚至是一个空的页面以避免这些404,并且(取决于您网站的404页面处理)可能会带来一些流量/带宽,因为搜索引擎将应用适当的HTTP缓存控制来跳过再次下载文件(如果文件没有更改),无论文件是否为空。
–斯特芬·欧宝(Steffen Opel)
2010年7月10日在11:02
标记为Wiki,请根据需要进行编辑。
–JasonBirch
2010年7月11日在4:08