为什么博客垃圾邮件总是写得这么糟糕？

我的Wordpress过滤器提供了一些新鲜的垃圾邮件：

如果您不完全理解某些内容，问问题实际上是一件令人愉快的事情，除了这篇文章可以很好地理解

和

感谢您提供其他信息博客。以这种理想的方式我还能从哪里得到这样的信息？我有一个
项目，现在我正在忙着，我一直在寻找
这样的信息。

就是这样基本上所有博客垃圾邮件都来自非英语国家，还是针对该语言做出了某种战术决策？我问是因为，当我第一次看到它的时候，我以为它们是真实的，但表达不清。

Google是俄语翻译吗？

相关：为什么这么多大型网站（Salon，Wired等）具有如此糟糕的反垃圾邮件评论过滤器。过滤掉“我的妻子/女朋友/刚刚赚了XX美元）将消除大量垃圾邮件。）

@LarsH：绝对是安全问题。根据定义，安全性是保护宝贵资源免遭敌对攻击者利用。我的博客评论是宝贵的资源，我向您保证，它经常受到敌对方的攻击。<br />

@AJHenderson不能说相同的说法，例如台式计算机，该计算机可以进行计算，与Internet连接，提供数据访问等。闯入的人只是在使用它。问题是，我们只是不希望他们这样做，所以我们有安全系统来阻止他们。阻止人们去做您不想要的事情或对您的财产不想要的事情，对我而言，这似乎是安全的定义。垃圾邮件过滤器适合这种情况，它阻止人们发布他们想要的任何东西，因为该网站的所有者不希望这样做。

问题标题应该类似于“为什么博客垃圾邮件总是写得这么糟糕？”

#1 楼

垃圾邮件发送者通过获取现有评论并通过同义词库程序运行它们来自动生成新评论，该同义词库程序将同义词替换为同义词或相关词性。结果是一个有道理的句子，但有一个单词选择，这是没有母语的人能做到的：

我还能从哪里得到...

显然不是母语人士会写的东西，而是

她还能从哪里得到...

是，并且可以通过简单地将代词和同义词替换为垃圾邮件文本。

这样，即使反垃圾邮件力量拥有庞大的已知垃圾邮件评论数据库，垃圾邮件发送者也可以产生无限多个新的似乎是英文的。

我一直很怀疑是这种情况，但最近我得到了证明。现在，我偶尔会收到包含整个替换脚本的垃圾评论；它会是这样的：

我无法[相信/理解/理解] [出色/卓越/惊人] [内容/信息/数据] ...

由于垃圾邮件发送者很可能不是讲英语的人，因此他们没有注意到他们发送的是脚本而不是输出。

如果您检查一个足够大的垃圾邮件集，您可以很容易地弄清楚他们正在使用什么算法。在逆向工程中编写一个程序来推导从语料库中使用的算法将是一个有趣的挑战。

我问，因为当我第一次看到它时，我以为它们是真实的但说不清。

他们骗了你一次。

评论家TildalWave指出：

示例垃圾邮件中没有一个OP实际认可了任何产品，或正在推广任何其他原因。

让我举个例子：这是几分钟前在我的博客上发表的评论：

user name:  cuisinart compact toaster review
user url:   toasterovenpicks.com
user email: jeffryshuler@2-mail.com
user IP:    37.59.34.218 
Comment contents:
One in particular clue for that bride and groom essential their
own absolutely new everything, actually a surname burned which has a mode,
which render nearly girl thankful recognizing their refreshing surname
therefore distinctively printed.

产品在用户的元数据中提升，而不是在评论内容中提升。内容只是尝试通过垃圾邮件过滤器。（我怀疑在这种情况下，文本不是现有文本的变体，而是由马尔可夫过程在有关婚礼计划的文档集上生成的。）

显然，反垃圾邮件势力正在这也是，这就是为什么这是在我的垃圾邮件过滤器中的原因。我的垃圾邮件过滤器（akismet）平均每提交705个邮件就会通过一个垃圾邮件。同样，这就是垃圾邮件发送者的目标。他们知道99.9％的工作将永远不会被任何人看到。他们正在尝试随机探索垃圾邮件过滤器中误报的空间，而这个空间确实变得越来越小。

@TildalWave：当局部替换违反上下文相关规则时，句子变得不合语法。用“ is”代替“ am”，“ are”，“ were”，“ was”，“ been”或“ being”几乎总是使句子不合语法或听起来很奇怪。甚至英语中的“正常”字样和协定规则也很奇怪，很容易出错。

–埃里克·利珀特
13年6月13日在21:33

@TildalWave：首先，您似乎非常认真地对待这一点。这是一个StackExchange问题。减轻压力，如果您不喜欢此答案，请写一个更好的答案。您“接受”的内容并不是我特别关心的；我的答案未附带服务水平协议。其次，OP当然省略了细节。 OP总是忽略细节。由于OP和我一样都拥有WordPress博客，所以我已经看到大约100000个垃圾邮件，就像他一样。第三，许多网站都去除了用户元数据。第四，不要认为垃圾邮件发送者很聪明。他们每天要发送10亿封垃圾邮件，并希望能坚持不懈。

–埃里克·利珀特
2013年6月13日23:10

好答案。感谢您博客的见解。进行了有趣的阅读。很高兴，我不必担心我的网站受到如此严重的打击。

– AJ亨德森
2013年6月14日下午3:19

无法解析的主机名是一次启动并提供一些未经请求的内容的主机名，但是现在已经关闭了（其中一些主机名先上升后又很快下降）。对于没有链接的邮件，从邮件中删除链接是很简单的，有些人不阻止垃圾评论，而只是从中删除链接，这会导致出现很多看起来不真实的评论，没有明显的原因成为垃圾邮件，尽管如此。

– Ardesco
2013年6月14日7:43

我突然有最奇怪的冲动去买烤面包机。

–曼斯菲尔德
2013年6月14日12:12

#2 楼

该语言可能与TidalWave所说的信号有关。

无害的spamdexing。

我已经得到了一些第一个示例我的博客。尽管看上去无害，但他们实际上是在通过尝试将其用户帐户（和扩展名的网站链接）与博客中的关键字相关联来进行垃圾邮件处理（有点“黑帽子seo”）（例如Xander所说的是营销）。当您单击链接时，它将被视为来自博客的正面点击。如果博客对于关键字搜索具有足够的正面肯定，则其链接在关键字的相对性方面将获得+1的提升。大多数搜索引擎都抓住了这一点，并尝试通过公式中的相关性匹配来防止出现这种情况。

不利之处在于，如果用户由于此垃圾邮件而离开您的网站来寻找不合时宜的东西（跳动）搜索引擎将对您的整体排名（由于缺乏实质性内容）以及您对带有脱节内容的页面的排名进行惩罚。尽管垃圾邮件散布与IT安全无关（除非他们使用受感染的网站作为自己的URL），但如果有足够的垃圾邮件发送者这样做，并且将您的网站拒之门外，这确实会对网站的[社交]性能产生负面影响。

关于第二个示例，它包含两个垃圾邮件操作的钩子（在论坛中常见）。第一个发布者将创建一个帐户，并发布一个看起来像是合理的问题的问题。

...我还能在哪里获得以此类形式编写的此类信息？理想的手段？ ...

不久后（大约20分钟以内，甚至几天），另一个发布者（通常来自同一国家/地区，如果IP地址范围不同）通常会创建一个新帐户并发布答案，其中包含链接与原始海报问题的相关性。由于大多数董事会主持人不会删除真正的讨论内容，因此他们的垃圾邮件再次骗了某人……尽管它仍在垃圾邮件中。更好的营销风格示例可能是：

我在
[http://www.example.com/]上找到了[keywords here]的大量资源。。您应该看一下，因为它们具有与[更多关键字]相关的大量信息。它应该可以帮助您。

他们将执行的其他其他一些技巧是使用签名图像，该图像是仅1像素乘1像素的透明GIF，并包裹在<a>标签中。这将创建指向其他网站的链接，该网站位于张贴者键入其胡言乱语内容的任何位置。只是因为您看不到它，并不意味着它就不存在。

不是那么无害的垃圾邮件威胁会影响服务器安全性

实际上，一些最糟糕的垃圾邮件示例实际上会包含指向受感染网站的链接，否则他们将安装javascript键盘记录程序。（我已经看到签名行中使用了SVG hack来注入恶意脚本。）键盘记录器是您需要注意的一个，因为它们可以捕获博客/站点管理员或其他用户的用户名和密码。当他们尝试登录（或创建帐户的任何用户）在同一页面上以删除垃圾邮件时，将获得更高的特权。最好的情况是，如果用户具有足够的访问权限来查看其他用户，则攻击者将从用户下载电子邮件地址列表，并将垃圾邮件发送到以市场为目标的（营销）列表中。 />
无辜的新用户可能会窃取其凭据，并且由于大多数人在任何地方都使用相同的密码和相同的电子邮件地址，因此现在他们在其他地方的帐户可能会遭到破坏。（Facebook，LinkedIn等）

最坏的情况是，因为大多数CMS系统的Web开发人员都不希望具有“ skillz”的人通过这些方法之一（受信任）进入后端，所以他们没有做诸如检查所有XSS管理表单的操作或MySQL Injections（我已经吸引了一些开发人员利用这种方法偷工减料）。从XSS到SQL注入，它取决于安装盒的安全性，用户帐户的限制（不要以root用户身份运行Apache）以及读/写访问权限。由于它们将位于CMS中，因此您可以假设用户可能会在他们想要的盒子中写任何东西。删除数据库，用后门感染网站...这是IT安全问题。

#3 楼

我曾经工作过的公司曾经做过“旋转”，作为上面提到的答案之一，它是以编程方式进行同义词库搜索并替换为文本。但是，我们会在多个复杂的层次中执行此操作。

我们实际上聘用了真正的美国作家来编写原始副本。
那些原始作者会标记自己的文档使用我们创建的特殊语法，标记单词，单词组，短语和整个句子，包括它们认为适合每种情况的同义词。这意味着可以在不更改含义的情况下交换整个短语的同义词。他们将在我们创建的文本编辑软件中执行此操作，该软件会为他们提供自动完成建议。
每次作家对文档进行标记时，我们会将其所有同义词和短语存储在字典中并使用它们为作者的下一个作业添加建议。
在计算机上按一下GO，然后找出数百/数千种变体。
向菲律宾的SEO团队介绍各种变化，他们的唯一工作是发现过于笨拙的高级PR博客，论坛和其他网站。

有趣的是，我们从未自动化过实际的发布部分，因为这是发现机器最容易的事情。一个真正的人正在发布垃圾。

啊，过去毁了所有人的互联网的美好时光。

凉。好吧，完全不酷。但是感谢您的分享。

–卢卡斯
2013年6月14日4:17在

你们为什么要这样做？去赚钱？您如何通过发送垃圾邮件来赚钱？中国付钱给大家破坏互联网吗？

–Chani
13年6月14日在5:42

@RitwikG：赚钱的方式是：CrappyToasterOvens.com的所有者打电话给您，说我们希望成为当有人搜索“烤面包机结婚礼物”时排名第一的Google产品。实现它。那就是你的工作。你打算怎么做？ Google会寻找通过关键字链接到其他网站的热门网页，因此您认为可以，我将在100万个博客上添加100万条评论，并用“烤面包机结婚礼物”字样以及指向该网站的链接，其中一些将是受欢迎的博客。

–埃里克·利珀特
2013年6月14日16:11

在我看来，如果您对足够多的文档进行了此操作，则可以开始进行一些预测性处理，以确定可能的语法候选者。从本质上讲，知识库不仅会维护各种同义元素的集合，而且还会维护某些元素的通常排列方式（换句话说，是通过机器学习构建某种预测性分析树）。将其用于生成可能不会给出最佳结果，但是我认为它对于建议书面文档的标记可能很有用。

– JAB
13年6月14日在17:02

@EricLippert +1供烤箱参考；）

–卢卡斯
13年6月14日在17:31

#4 楼

我不知道您报告的文字是不是完整的注释（作为真正的注释还是垃圾邮件/骗局，其目的是什么？）。

并非如此-当垃圾邮件需要作为未来互动的序幕时-可能会故意用英文写出来，作为对笨拙的受害者的“检查”，使其无法立即识别该骗局，因此值得投资时间到了。

来源：为什么尼日利亚骗子说他们来自尼日利亚？由Microsoft Research的Cormac Herley提供。

+1提及Herley论文。上面的所有解释都假设垃圾邮件发送者的数量很多，而这往往并非一成不变。

–布鲁斯·埃迪格（Bruce Ediger）
13年6月14日在1:48

#5 楼

也许这不会回答OP的问题，但是这些垃圾邮件并不是要让任何人购买任何东西。

重点是创建最大数量的评论，其中包含指向垃圾邮件发送者想要改善其PageRank的特定页面或网站的链接。这些站点是诱使潜在购买者（或入侵潜在受害者的计算机，或两者都有）的真实工作。

这就是几乎每个垃圾邮件至少都有一个链接的原因。如果没有通过，通常是特制的评论（“精彩的文章”，“感谢您分享此信息” ...），其目的是使评论获得批准并准许机器人直接访问而不会通过审核队列。因为在某些CMS和论坛中，当用户达到已批准邮件的最小数量时，它将被“标记”为受信任的邮件，并且不必每次都获得批准。

因此，垃圾邮件并不意味着人类但是对于机器（搜索引擎）和垃圾邮件发送者来说，他们需要尽其所能来影响搜索引擎。因此，它们不会浪费时间在内容上，因为没有人会读它，而是专注于使大量消息变得更快，更简单的机制。

总之，您不是目标，您只是附带损害。

#6 楼

它可能是两者的结合。如果他们使用的语法不正确，那么别人可能会将其误解为帖子的实际反馈，因为他们会尝试以有意义的方式填补空白。最终，大多数此类垃圾邮件都试图在网络上散布链接，以尝试影响搜索排名。

为了使链接保持链接的状态，他们需要使评论看起来真实，使它们更难轻松退出真正的评论。它们发出的通用声音响应“可能”有效，希望它们保持活动状态。

在其他情况下，这是尝试在注释中插入关键字以便增加链接与那些关键字的关联。

#7 楼

除了上面列出的好答案之外，您的问题还存在很大的偏见。

您只会将制作精良的垃圾邮件博客帖子识别为博客垃圾邮件。您永远不会把精心制作的博客垃圾视为博客垃圾。因此，似乎所有博客垃圾邮件的制作方式都不尽人意。

对吗？

如果我花时间在博客上写有思想，语法上正确，相关，有用的等内容，而这些恰好是出于别有用心而添加链接的，那是博客垃圾邮件吗？

–emory
13年6月13日在21:55

@emory不，那是市场营销。 :-)

– Xander
2013年6月13日22:00

@Xander然后是一个定义问题，而不是采样偏差。如果我的自助博客文章制作不当，那么它们就是博客垃圾邮件；如果他们做工精良，那么他们就是营销。博客垃圾邮件的定义很差。

–emory
13年6月13日在22:21

其实不行如果我有一个非常成功的博客，那么也许你可以这么说，但是，从非垃圾邮件中分辨出垃圾邮件非常容易（我知道吗，不，这很可能是垃圾邮件）。

–卢卡斯
13年6月13日在22:21

您的回答让我想起了这个（亵渎）xkcd漫画：xkcd.com/810

–埃里克·利珀特
2013年6月13日23:02

#8 楼

博客垃圾邮件发送者经常使用内容微调器。他们用同义词替换单词，这在理论上应该起作用，但实际上，它使注释看起来像是4岁的孩子写的；或没有以英语为第一语言的人。

大多数内容微调器使用相同的语法（例如Eric Lippert的答案中的示例）：

I can't [believe/understand/comprehend] the [great/superior/amazing] [content/information/data]...

这意味着内容微调器将选择一个随机词从每个括号中构建句子。这样，您可以获得各种各样的相似评论，而无需重复重复，如果反垃圾邮件插件使用md5这样的校验和将评论与以前的垃圾邮件进行比较，则使反垃圾邮件插件很难识别相似的内容。

#9 楼

他们可能正在使用这样的模板：https://gist.github.com/shanselman/5422230，该模板最近意外发布到了Scott Hanselman的网站：http://www.hanselman.com/blog/ExposedABlogCommentSpammersSourceTemplate.aspx

正如其他人所提到的，要做的就是编写一个脚本，从括号中的列表中随机抽取一个单词。

#10 楼

可以简单地说，您必须了解SEO（搜索引擎优化）
IT主要有2种技术：1）黑帽和2）白帽

白帽真正的方式或可靠的工作。

但是，当出现黑帽问题时，您开始遇到的问题是，他们创建了用户名，密码或打开的博客列表的数量……他们不断发布内容

第一个答案说，他们使用部分理解语言的智能软件，并在此基础上创建了一个段落给出的关键字。

因此，这将是有一定道理的，但完全没有道理... :)

我希望这对您的问题有意义..

编程黑洞网