是否有任何机制可以控制网站上Internet档案的存档?我知道禁止添加所有页面:

User-agent: ia_archiver
Disallow: /



我可以告诉机器人我希望他们每月一次或一次爬网我的网站吗?一年?
我有一个站点/页面由于资产未被提取而没有/没有被正确归档。如果要夺取网站,是否有办法告诉Internet Archive bot它需要什么资产?


评论

我对这个答案也很感兴趣。 +1 :)

相关:“是否有办法使Alexa的ia_archiver减慢其对我网站的爬行速度?”

#1 楼

注意:这个答案越来越过时了。

Internet档案馆网络收藏的最大贡献者是Alexa Internet。几个月后,Alexa为其目的爬网的材料已捐赠给IA。添加问题中提到的禁止规则不会影响这些爬网,但是Wayback会“追溯地”兑现它们(拒绝访问,该材料仍将保留在存档中-如果您确实想保留您的材料,则应排除Alexa的机器人Internet存档)。

也许有一些方法可以影响Alexa的爬网,但是我对此并不熟悉。

由于IA开发了自己的爬网程序(Heritrix),他们开始进行自己的爬网。 ,但它们往往是有针对性的抓取工具(他们为国会图书馆进行选举抓取,并为法国和澳大利亚进行了国家抓取等)。他们没有参与Google和Alexa进行的那种持续的世界范围爬网。 IA的最大爬网是一个特殊项目,它爬网20亿页。

由于这些爬网是根据项目特定的因素按计划进行的,因此您无法影响他们访问您网站的频率或访问网站的频率site。

直接影响IA爬网的方式和时间的唯一方法是使用其Archive-It服务。该服务允许您指定自定义爬网。最终的数据将(最终)合并到IA的Web集合中。但是,这是一项付费订阅服务。

评论


您对IA进行自己的爬网的评论在2011年是正确的,而在2016年不再适用:我们现在自己做很多爬网。

– Greg Lindahl
16年6月20日在20:52

@GregLindahl,欢迎您为这个问题添加更新的答案

–斯蒂芬·奥斯特米勒(Stephen Ostermiller)
17年6月18日在10:59

#2 楼

大多数搜索引擎支持“爬网延迟”指令,但我不知道IA是否支持。您可以尝试以下方法:

User-agent: ia_archiver
Crawl-delay: 3600


这会将请求之间的延迟限制为3600秒(即1小时),或每月约700个请求。

我认为#2不可能-IA机器人会在认为合适的时候抢占资产。它可能有文件大小限制,以避免使用过多的存储空间。

评论


@Kris:设置爬网延迟应该由代理来完成。如果您有30页,并且告诉抓取工具每天只点击一次,则每页可能大约每30天刷新一次。 (显然,这不是保证。)

–心怀不满的山羊
2010年7月14日在9:30

从理论上讲,是的,但是,如果您要进行档案爬网,则永远不会遵循这样的规则。每天在网站上爬网意味着您无法在特定的时间点上很好地捕获该网站。如果要尊重此属性,则在任何存档爬网中的上限为1-5分钟。

–克里斯
10年7月15日在22:42

好的,我明白你的意思了。

–心怀不满的山羊
2010年7月15日在23:43

我一直在查看最近发布的Heritrix 3,并且看到它们已经添加了对crawl-delay指令的处理,但是默认情况下,它最多仅遵守300秒(5分钟)的规定。

–克里斯
2010年7月21日在10:18