我的日志充满了经常来自东欧和中国的漫游器访问者。
这些漫游器被标识为Ahrefs,Seznam,LSSRocketCrawler,Yandex,Sogou等。为什么?

哪个网站具有增加我的网站访问量的合法目的?
其中许多是SEO。自从僵尸程序大量涌入以来,一切都得到了解决。

阻止它们并不太难,因为它们都在其用户代理中承认自己是僵尸程序。

#1 楼

您可以阻止bot,但这取决于您对网站的需求。

如果不想看到您的网站在特定搜索引擎中被索引,则可以阻止搜索引擎bot。
示例:Yandex是俄语搜索引擎。如果您的业务不针对俄罗斯,则可以阻止其bot。

如果您不想使用其Web分析解决方案,则可以阻止SEO bot。
示例:Ahrefs是Web分析解决方案。如果您不使用此网络分析解决方案,则可以阻止其bot。

阻止bot的原因:


更少的机器人可以访问您的网站,甚至更多带宽归因于真正的访问者
可以防范恶意软件漫游器
日志大小

不阻止漫游器的原因:搜索引擎机器人可以通过为您的网站建立索引来增加访问量。

您可以通过阅读robotstxt.org的常见问题来了解有关机器人的更多信息。

如果要确定要阻止的多个机器人,则可以从该网站上获取启发。

请注意,某些机器人可能会忽略robots.txt,在此处提供更多信息。

评论


谢谢。顺便说一句,我也得到了Linode的访问。 UA表示这是Python脚本。我应该怀疑吗?

–坦率的E
2013年1月14日在16:25



如果我是你,我不会阻止Linode。我不知道托管的确切含义。

– Zistoloen
13年1月14日在16:39

IPStrada呢?我看到他们不时出现。他们从不注册帐户。

–坦率的E
13年1月15日在1:35

像Linode。机器人会扫描互联网,即使您或他们从未注册过帐户也是如此。但是不用担心,这没什么大不了的。

– Zistoloen
13年1月15日在8:39

#2 楼

虽然尝试阻止漫游器可以帮助释放资源并清理日志,但要注意的是,即使robots.txt甚至在noindex页面上使用meta标记也不会阻止漫游器访问您的网站。他们仍然偶尔可以爬网您的站点,以查看是否已删除了来自机器人的拒绝。许多漫游器甚至不使用用户代理,而会使用标准用户代理。我所指的漫游器通常是SEO收集漫游器,它们会扫描反向链接,而不是您在搜索引擎中找到的一般反向链接。

在主动监控您的站点一段时间后,您应该建立一个粗略的形象,而不是阻止机器人,而是在吸引访问者时只考虑这些机器人。大多数人都在关注独特的访问,这将机器人排除在外,因为它们不断返回。在当今时代,有很多服务器,可以处理这些机器人的共享主机,因此除了您不希望索引的页面之外,我没有理由阻止这些机器人。当然,您也有有害的机器人,但是这些机器人肯定不会使用用户代理;)。

我个人认为,阻止机器人是在浪费时间,因为它们根本不使用太多资源, SEO机器人可以在PR0页面上列出您的网站时提供帮助,这当然会增加您的PageRank并自动进行,因此您不会因此受到惩罚。

日志问题

您应该使用适当的日志查看器,该过滤器使您可以过滤掉某些请求,这使得在查看日志时更加容易。好的观众可以过滤掉很多东西,例如正常的访问,404s等。

评论


为什么SEO机器人会扫描反向链接?仅仅是因为这就是SEO顾问使用的东西吗?还是还有其他险恶的目的?

–坦率的E
13年1月14日在17:29

嗨,弗兰克,他们扫描反向链接并记录下来,以便网站管理员可以看到谁链接到他们。对于SEO公司来说,登录反向链接并向网站管理员收取费用是很可观的,他们可以查找链接到谁的链接,链接的创建时间,链接的删除,跟踪的对象或不跟踪的对象-他们使用的锚文本等等。 Google,Bing不会提供此信息,因此它是一项理想的服务,对于希望查看其链接网络的大多数Web管理员来说都是有价值的。

–西蒙·海特(Simon Hayter)♦
13年1月14日在18:03

毫无疑问,人们寻找的许多漏洞是通过使用搜索引擎收集的,而不是让漫游器扫描每个站点。例如,如果模块/插件已过期,并且存在已知的利用漏洞,则人们将使用Google定位这些网站以对其进行利用。阻止漫游器无法保护您的服务器:P

–西蒙·海特(Simon Hayter)♦
13年1月14日在18:05



@bybe通过“ vulablites”,您的意思是“漏洞”吗?

– DaveP
13年6月28日在16:19

@DaveP绝对;)thx-已更正。

–西蒙·海特(Simon Hayter)♦
13年6月28日在16:40