发布到我的博客的“胡言乱语”评论的目的是什么？

通常，我博客上的联系表会收到类似于此的评论（每个字段代表一个文本框，用户可以在博客上输入HTML表单）：

名称：' ceguvzori'电子邮件：'gwizwo@avbhdu.com'网站：'QrSkUPWK'评论：

vaB5LN <a href="http://pepddqfgpcwe.com/">pepddqfgpcwe</a>, 
[url=http://hvyhfrijavkm.com/]hvyhfrijavkm[/url], 
[link=http://cwiolknjxdry.com/]cwiolknjxdry[/link], http://ubcxqsgqwtza.com/

我认为它们是垃圾邮件，但它们链接到的网站不存在，因此它们不会帮助SEO或传播恶意链接。甚至电子邮件主机avbhdu.com都不存在。这些评论的目的是什么？

我们收到加入Wiki的类似请求。内容永远不会公开显示，但这不会阻止他们尝试:-(

我碰到过一篇德国报纸关于情报服务的文章，该文章描述了各方如何在博客评论部分安排约会，以进行“匿名”和不起眼的交流。

#1 楼

他们正在探索您的网站。首先，是否发表评论。其次，请注意它们如何对链接使用几种流行的语法-试图检查其中哪些将导致实际的HTML链接。如果您的网站允许这些帖子通过，则可能会收到更多垃圾邮件，这一次会更加恶意。

非常有趣的概念，这种“探测”。我也想知道这样的评论。现在，它变得非常有意义，谢谢！

– F.P
2014年4月29日14:30在

但是有什么意义呢？似乎从未有过像未来的尝试比第一次尝试更成功的解决方案，那么为什么不直接将真正的有效载荷投入第一次呢？

– jjanes
2014年4月29日在15:23

@jjanes：他们可能只是在建立一个数据库，以便以后能够为客户提供“保证50000个不同的博客站点条目”。

– PlasmaHH
2014年4月29日在15:44

@jjanes在不检查水域的情况下首先丢弃有效载荷的问题是，如果将其捕获在蜜罐中，则整个域会因为毫无价值而被丢弃

–丹尼吉尔
2014年5月1日13:33

好问题，好答案。我当时不知道垃圾邮件发送者变得如此复杂。甚至更多的是：比起常规的垃圾邮件，这种垃圾更容易发现，因此，如果将其卡在任何页面上，则意味着它实际上没有被审核，甚至被丢弃，并成为垃圾邮件的理想目标。

–努比亚水手
2014年5月2日14:57

#2 楼

许多垃圾邮件过滤器使用贝叶斯分析来确定什么是垃圾邮件，什么不是垃圾邮件。这些通过将入站内容与“已知好”和/或“已知坏”示例进行比较并寻找相似之处来工作。通过缓慢增加“好”堆中的垃圾数量，攻击者可能会降低过滤器的效率。

#3 楼

他们试图混淆您可能使用的任何自动垃圾邮件过滤器。

随机字符串不太可能触发任何基于黑名单的过滤器，并且当您使用自学习过滤器时，这些字符串将对其进行训练。使用垃圾数据，只会降低其效率。

这种类型的垃圾内容实际上可以通过专门调整的过滤器轻松检测到-计算字母n-gram（成对/三胞胎/四进制）非常简单，快捷；可以使用英语或其他语言的参考频率，并且这种垃圾确实从“正常文字”（例如“正确的马电池钉书钉”）中脱颖而出。 nlp库可用于大多数编程语言，它们都是开箱即用的。副作用是，它还会将中文或俄语中的注释分类为垃圾；根据您的受众群体，这可能是好事还是坏事。

– Peteris
2014年4月29日13:29

@Peteris-喜欢xkcd参考！

–花
2014年4月30日14:53

@Peteris您需要注意合法的随机查找链接，例如URL缩短服务的典型链接。拒绝指向不存在的域的链接可能会更有用。

–mc0e
2014年5月4日13:35

@ mc0e-大多数帖子都会有一些非语言的乱码-错字，怪异的专有名称和url内容。缩短的URL将仅是帖子的一小部分（因为它们很短）-如果帖子中包含其他有意义的内容，那么这将使该内容变得毫无用处；但是，如果其他所有东西也都乱七八糟，那么将其丢弃是安全的。

– Peteris
2014年5月4日13:44

@Peteris我已经看到了很多OP询问的评论垃圾邮件，这些垃圾邮件几乎没有垃圾（您可以选择推断这只是部分示例，但是有时您是对的）。也许url和link标记很有用，但对于大多数贝叶斯工具而言，它们可能还不够用。您可以牢记这一点来构建贝叶斯分类器，使其了解非字母数字标记，并使用n-gram标记作为分类的基础，也许这是值得的。

–mc0e
2014年5月4日15:54

编程黑洞网

发布到我的博客的“胡言乱语”评论的目的是什么？

评论

#1 楼

评论

#2 楼

#3 楼

评论