百度蜘蛛的爬虫频率已经做出了很多。的确是这样:“ Baiduspider像疯了似的爬行。”

我在与我合作的网站上经历了这种现象。在至少一种情况下,尽管百度提供的流量约为Google的0.1%,但我发现百度蜘蛛的抓取频率与Googlebot大致相同。

我想将这些访问次数保持在我的网站上(尽可能少)(也许有一天会增长吗?),但是我不能证明允许服务器上有如此沉重的负载。

上面链接的问题的公认答案表明,百度网站管理员工具提供了限制爬网速度的机会,但我很犹豫是否开放这种蠕虫病毒(仅限中文)。

有人对BWT限制Baiduspider爬网速度有任何经验吗?还有另一种方法来限制此负载吗?

#1 楼

这是一个很大的问题,由于百度蜘蛛极富侵略性,并且可以从服务器上窃取资源,因此许多网站管理员可能会对它感兴趣...

如百度的网络搜索新闻所述,百度蜘蛛不支持抓取延迟通知设置,而是要求您使用其网站上所述的百度网站管理员工具平台注册并验证您的网站。
这似乎是直接通过百度控制抓取频率的唯一选项。

问题是其他垃圾邮件机器人使用百度的用户代理(在此处列为第2位)来抓取您的网站,如其常见问题解答中第4条中所述。因此,请求降低百度的抓取速度可能无法解决所有问题。因此,如果您决定使用百度的网站站长工具,则明智的做法是还可以通过使用“机器人与浏览器数据库”之类的资源或使用反向DNS查找将其用户代理与已知与之关联的IP进行比较。唯一的其他选择是阻止所有百度用户-agents,从而牺牲了来自百度的潜在流量,或者尝试使用mod_qos for Apache之类的东西来限制过多的请求,该请求声称可以管理:


到一个位置的最大并发请求数/ resource
(URL)或虚拟主机。
带宽的限制,例如每秒对URL的最大允许请求数或每秒最大/最小下载千字节。
限制每秒的请求事件数(特殊请求条件)。
它还可以“检测”非常重要的人(VIP),这些人可以不受限制地访问网络服务器或受到较少的限制。
通用请求行和标头过滤器可拒绝未经授权的操作。请求正文数据限制和过滤(需要mod_parp)。
TCP连接级别的限制,例如,单个IP源地址或动态保持活动控制所允许的最大连接数。
服务器没有可用的TCP连接时,首选已知的IP地址。这可能会有所帮助,但是当然基于意见。

评论


这对@Dan真的很有帮助。尝试其中的一些解决方案(百度网站管理员工具实在是一件很痛苦的事情。)将向您报告。

–samthebrand
13年7月10日在15:00

谢谢!太好了-如果我也找到其他选择,我会进行更新。这个问题反映出许多网站管理员对积极的bot感到沮丧,并担心与其进行互动(例如,百度网站管理员工具)。希望合法的bot会考虑到这一点,并且会提供更好的工具/选项。

– dan♦
13年7月10日在21:56



@samthebrand和dan-请报告!您是否找到其他可以推荐的解决方案?

– lazysoundsystem
17年6月23日在14:37

#2 楼

经过大量的研究和试验,我终于忍不住了,并建立了一个百度网站管理员工具帐户。当在另一个窗口中使用Google翻译时,使用起来非常简单。您可能需要激活萤火虫才能从无法从普通浏览器模式捕获的按钮复制并粘贴中文文本。

设置后,您需要等待几天以使爬网数据出现,然后您可以自定义爬网速率。它显示在“压力”部分中,您应该可以使用以下URL进行访问:http://zhanzhang.baidu.com/pressure/adjust?site = http%3A%2F%2Fwww.yourURL.com%2F
请注意,只有在拥有百度网站管理员工具帐户设置并将您的网站URL与相关网站的帐户相关联后,您才能使用此URL)。在这里,您会看到一个滑块,其当前抓取速度位于中心(在我的情况下,每天的请求为12676。将其向左滑动以降低抓取速度。

我还不知道是否它实际上会尊重您的请求。它会向您发出类似这样的警告。“我们建议您使用默认网站百度抓取速度。只有当您的网站抓取我们的问题时,才可以使用此工具进行调整。抓取您的网站,百度会根据您的实际情况将您对抓取速度的调整考虑在内,因此不能保证会根据您的要求进行调整。“

评论


我确定我不是唯一愿意对此进行更新的人-它尊重请求吗?您会建议创建一个帐户吗?

– lazysoundsystem
17年6月23日在11:38

刚刚将直接网址更新到了抓取频率调整页,因为现在它已被更深地嵌入到网站站长工具中(不再在菜单中)。由于翻译混乱,很难找到Google翻译;-)

–odony
17年7月25日在9:37

#3 楼

是的,您可以使用robots.txt中的Crawl-delay参数设置为在对同一服务器的连续请求之间等待的秒数。

User-agent: Baiduspider
Crawl-delay: 100


第一行仅告诉百度爬虫以遵守该命令。第二行是请求服务器之间等待的时间(以秒为单位)。您可以根据需要添加任意时间延迟。

您需要将这些命令添加到现有的robots.txt文件中。如果您还没有robots.txt文件,请将上面的代码添加到文本文件,将文件另存为robots.txt并将其上传到您网站的根文件夹,这样它就会显示在以下地址:

www.examplesite.com/robots.txt


评论


Baiduspider不支持抓取延迟。看这里。

–samthebrand
13年7月10日在4:26



哎呀,在几个站点的robots.txt文件中都看到了它,所以以为它做到了!那句话怎么说?!

–最大
13年7月10日在10:34