我应该阻止我的网站中的漫游器，为什么？

我的日志充满了经常来自东欧和中国的漫游器访问者。
这些漫游器被标识为Ahrefs，Seznam，LSSRocketCrawler，Yandex，Sogou等。为什么？

哪个网站具有增加我的网站访问量的合法目的？
其中许多是SEO。自从僵尸程序大量涌入以来，一切都得到了解决。

阻止它们并不太难，因为它们都在其用户代理中承认自己是僵尸程序。

#1 楼

您可以阻止bot，但这取决于您对网站的需求。

如果不想看到您的网站在特定搜索引擎中被索引，则可以阻止搜索引擎bot。
示例：Yandex是俄语搜索引擎。如果您的业务不针对俄罗斯，则可以阻止其bot。

如果您不想使用其Web分析解决方案，则可以阻止SEO bot。
示例：Ahrefs是Web分析解决方案。如果您不使用此网络分析解决方案，则可以阻止其bot。

阻止bot的原因：

更少的机器人可以访问您的网站，甚至更多带宽归因于真正的访问者
可以防范恶意软件漫游器
日志大小

不阻止漫游器的原因：搜索引擎机器人可以通过为您的网站建立索引来增加访问量。

您可以通过阅读robotstxt.org的常见问题来了解有关机器人的更多信息。

如果要确定要阻止的多个机器人，则可以从该网站上获取启发。

请注意，某些机器人可能会忽略robots.txt，在此处提供更多信息。

谢谢。顺便说一句，我也得到了Linode的访问。 UA表示这是Python脚本。我应该怀疑吗？

–坦率的E
2013年1月14日在16:25

如果我是你，我不会阻止Linode。我不知道托管的确切含义。

– Zistoloen
13年1月14日在16:39

IPStrada呢？我看到他们不时出现。他们从不注册帐户。

–坦率的E
13年1月15日在1:35

像Linode。机器人会扫描互联网，即使您或他们从未注册过帐户也是如此。但是不用担心，这没什么大不了的。

– Zistoloen
13年1月15日在8:39

#2 楼

虽然尝试阻止漫游器可以帮助释放资源并清理日志，但要注意的是，即使robots.txt甚至在noindex页面上使用meta标记也不会阻止漫游器访问您的网站。他们仍然偶尔可以爬网您的站点，以查看是否已删除了来自机器人的拒绝。许多漫游器甚至不使用用户代理，而会使用标准用户代理。我所指的漫游器通常是SEO收集漫游器，它们会扫描反向链接，而不是您在搜索引擎中找到的一般反向链接。

在主动监控您的站点一段时间后，您应该建立一个粗略的形象，而不是阻止机器人，而是在吸引访问者时只考虑这些机器人。大多数人都在关注独特的访问，这将机器人排除在外，因为它们不断返回。在当今时代，有很多服务器，可以处理这些机器人的共享主机，因此除了您不希望索引的页面之外，我没有理由阻止这些机器人。当然，您也有有害的机器人，但是这些机器人肯定不会使用用户代理;）。

我个人认为，阻止机器人是在浪费时间，因为它们根本不使用太多资源， SEO机器人可以在PR0页面上列出您的网站时提供帮助，这当然会增加您的PageRank并自动进行，因此您不会因此受到惩罚。

日志问题

您应该使用适当的日志查看器，该过滤器使您可以过滤掉某些请求，这使得在查看日志时更加容易。好的观众可以过滤掉很多东西，例如正常的访问，404s等。

为什么SEO机器人会扫描反向链接？仅仅是因为这就是SEO顾问使用的东西吗？还是还有其他险恶的目的？

–坦率的E
13年1月14日在17:29

嗨，弗兰克，他们扫描反向链接并记录下来，以便网站管理员可以看到谁链接到他们。对于SEO公司来说，登录反向链接并向网站管理员收取费用是很可观的，他们可以查找链接到谁的链接，链接的创建时间，链接的删除，跟踪的对象或不跟踪的对象-他们使用的锚文本等等。 Google，Bing不会提供此信息，因此它是一项理想的服务，对于希望查看其链接网络的大多数Web管理员来说都是有价值的。

–西蒙·海特（Simon Hayter）♦
13年1月14日在18:03

毫无疑问，人们寻找的许多漏洞是通过使用搜索引擎收集的，而不是让漫游器扫描每个站点。例如，如果模块/插件已过期，并且存在已知的利用漏洞，则人们将使用Google定位这些网站以对其进行利用。阻止漫游器无法保护您的服务器：P

–西蒙·海特（Simon Hayter）♦
13年1月14日在18:05

@bybe通过“ vulablites”，您的意思是“漏洞”吗？

– DaveP
13年6月28日在16:19

@DaveP绝对;）thx-已更正。

–西蒙·海特（Simon Hayter）♦
13年6月28日在16:40

编程黑洞网

我应该阻止我的网站中的漫游器，为什么？

#1 楼

评论

#2 楼

评论