通常,我博客上的联系表会收到类似于此的评论(每个字段代表一个文本框,用户可以在博客上输入HTML表单):


名称:' ceguvzori'电子邮件:'gwizwo@avbhdu.com'网站:'QrSkUPWK'评论:

vaB5LN <a href="http://pepddqfgpcwe.com/">pepddqfgpcwe</a>, 
[url=http://hvyhfrijavkm.com/]hvyhfrijavkm[/url], 
[link=http://cwiolknjxdry.com/]cwiolknjxdry[/link], http://ubcxqsgqwtza.com/



我认为它们是垃圾邮件,但它们链接到的网站不存在,因此它们不会帮助SEO或传播恶意链接。甚至电子邮件主机avbhdu.com都不存在。这些评论的目的是什么?

评论

我们收到加入Wiki的类似请求。内容永远不会公开显示,但这不会阻止他们尝试:-(

我碰到过一篇德国报纸关于情报服务的文章,该文章描述了各方如何在博客评论部分安排约会,以进行“匿名”和不起眼的交流。

#1 楼

他们正在探索您的网站。首先,是否发表评论。其次,请注意它们如何对链接使用几种流行的语法-试图检查其中哪些将导致实际的HTML链接。如果您的网站允许这些帖子通过,则可能会收到更多垃圾邮件,这一次会更加恶意。

评论


非常有趣的概念,这种“探测”。我也想知道这样的评论。现在,它变得非常有意义,谢谢!

– F.P
2014年4月29日14:30在

但是有什么意义呢?似乎从未有过像未来的尝试比第一次尝试更成功的解决方案,那么为什么不直接将真正的有效载荷投入第一次呢?

– jjanes
2014年4月29日在15:23

@jjanes:他们可能只是在建立一个数据库,以便以后能够为客户提供“保证50000个不同的博客站点条目”。

– PlasmaHH
2014年4月29日在15:44

@jjanes在不检查水域的情况下首先丢弃有效载荷的问题是,如果将其捕获在蜜罐中,则整个域会因为毫无价值而被丢弃

–丹尼吉尔
2014年5月1日13:33

好问题,好答案。我当时不知道垃圾邮件发送者变得如此复杂。甚至更多的是:比起常规的垃圾邮件,这种垃圾更容易发现,因此,如果将其卡在任何页面上,则意味着它实际上没有被审核,甚至被丢弃,并成为垃圾邮件的理想目标。

–努比亚水手
2014年5月2日14:57

#2 楼

许多垃圾邮件过滤器使用贝叶斯分析来确定什么是垃圾邮件,什么不是垃圾邮件。这些通过将入站内容与“已知好”和/或“已知坏”示例进行比较并寻找相似之处来工作。通过缓慢增加“好”堆中的垃圾数量,攻击者可能会降低过滤器的效率。

#3 楼

他们试图混淆您可能使用的任何自动垃圾邮件过滤器。

随机字符串不太可能触发任何基于黑名单的过滤器,并且当您使用自学习过滤器时,这些字符串将对其进行训练。使用垃圾数据,只会降低其效率。

评论


这种类型的垃圾内容实际上可以通过专门调整的过滤器轻松检测到-计算字母n-gram(成对/三胞胎/四进制)非常简单,快捷;可以使用英语或其他语言的参考频率,并且这种垃圾确实从“正常文字”(例如“正确的马电池钉书钉”)中脱颖而出。 nlp库可用于大多数编程语言,它们都是开箱即用的。副作用是,它还会将中文或俄语中的注释分类为垃圾;根据您的受众群体,这可能是好事还是坏事。

– Peteris
2014年4月29日13:29



@Peteris-喜欢xkcd参考!

–花
2014年4月30日14:53

@Peteris您需要注意合法的随机查找链接,例如URL缩短服务的典型链接。拒绝指向不存在的域的链接可能会更有用。

–mc0e
2014年5月4日13:35

@ mc0e-大多数帖子都会有一些非语言的乱码-错字,怪异的专有名称和url内容。缩短的URL将仅是帖子的一小部分(因为它们很短)-如果帖子中包含其他有意义的内容,那么这将使该内容变得毫无用处;但是,如果其他所有东西也都乱七八糟,那么将其丢弃是安全的。

– Peteris
2014年5月4日13:44

@Peteris我已经看到了很多OP询问的评论垃圾邮件,这些垃圾邮件几乎没有垃圾(您可以选择推断这只是部分示例,但是有时您是对的)。也许url和link标记很有用,但对于大多数贝叶斯工具而言,它们可能还不够用。您可以牢记这一点来构建贝叶斯分类器,使其了解非字母数字标记,并使用n-gram标记作为分类的基础,也许这是值得的。

–mc0e
2014年5月4日15:54