可以教机器自动标记垃圾邮件吗？

TL; DR：我们做到了，所以...是的。

这是什么？。该机器人会扫描整个网络中的新帖子，以查找垃圾邮件，并将其报告给各个聊天室，人们可以在其中进行操作。如果帖子是在网络上的任何地方创建或编辑的，我们可能已经看到了。该机器人利用了我们对垃圾邮件发送者的工作方式以及他们以前发布的内容的了解，提出了常见的模式和规则来检测新邮件和更新邮件中的垃圾邮件。如果您访问聊天室，例如Meta上的Tavern，木炭总部，SO Close Vote Reviewers和整个网络中的其他聊天室，则可能已经看到了SmokeDetector机器人。随着时间的流逝，该漫游器变得非常准确。

现在，我们利用多年的数据和准确性来自动投射垃圾邮件标志。借助大约58,000个帖子，以及超过46,000个真实值，我们可以利用大量数据。

这个问题解决了什么问题？垃圾邮件。 Stack Exchange是Internet上最受欢迎的网站网络之一，并且所有这些在某个时候都被垃圾邮件。我们的统计数据表明，每天大约有100封垃圾邮件通过系统过滤器。。我们越快将其从主页上删除，对所有相关人员越好。不幸的是，即使在较大的网站（例如图形设计）上，垃圾邮件也要持续数小时才是闻所未闻的。被删除。该项目是对它的扩展，现在可以在几秒钟内删除垃圾邮件了。

我们在做什么？

3年来，SmokeDetector已报告了整个Stack Exchange网络上的潜在垃圾邮件，以便用户可以适当地标记帖子。用户提供了反馈，以通知机器人检测是否正确（称为“反馈”）。此反馈存储在我们的Web仪表板metasmoke（代码）中。随着时间的流逝，我们已经使用该反馈来评估我们的模式（“原因”）并提高我们的准确性。我们的几个原因都达到了99.9％以上的准确度。在Stack Overflow上，当前标记垃圾邮件帖子的用户的准确性为85.7％。其余所有网络用户的准确率均为95.4％。我们确定可以击败这些数字，甚至更快地消除Stack Overflow和网络其余部分中的垃圾邮件。我们利用每个现有原因的准确性得出一个权重，该权重表示系统是否确定帖子是垃圾邮件。如果该值超过特定阈值，系统将在该帖子上最多投放三个垃圾邮件标志。我们使用许多不同的用户帐户和Stack Exchange API投射多个标志。通过metasmoke，用户有机会启用其帐户来标记垃圾邮件（如果您已经这样做的话，也可以）。如果帖子超出每个用户设置的阈值而有资格进行标记，则会从已启用的用户池中随机选择帐户，每个账户都投一个标志，每个帖子最多可以标记三个，这样我们就不会单方面n毁。（因此，不会选择在网站上拥有主持人特权的帐户来投射垃圾邮件自动标记，并且在删除阈值为3个标记的网站上仅投射一个标记。）安全检查？

我们在设计整个系统时会考虑准确性和健全性检查。我们的设计协作可助您轻松浏览（RFC1，RFC2和RFC3）。使该系统安全可靠的主要因素是：

我们为用户提供了一个选择，使他们可以选择自动标记的准确性。在投射任何标志之前，我们检查用户设置的首选项是否能对至少1000个帖子的样本进行垃圾邮件检测，准确率超过99.5％1。请记住，目前人类在SO上的准确度为85.7％，在整个网络上为95.4％。这意味着即使在垃圾邮件阈值较低的几个站点上，也必须由人来完成。
我们设计的系统可以容忍错误-如果系统中任何地方出现故障有权使用SmokeDetector的用户可以立即停止所有自动标记-这包括所有网络主持人。如果发生这种情况，则需要系统管理员介入才能重新启用标志。
我们已经与社区经理进行了讨论，并祝福他们在项目上。 />
我们已经连续两个月每天平均投放60-70个自动标记，网络范围内总共投放了6000多个标记。这些标志由22个不同的用户强制转换。那时，我们有四个误报。我们希望能够自动取消这些特殊情况。不过这是不可能的，因此我们创建了一个功能请求以通过API撤消标志。同时，标志要么由用户手动撤回，要么由主持人拒绝。

上图绘制了原因的权重与其报告总数和准确性的关系。随着最小重量的增加，左侧秤上的准确性（黄线和最右边的Y轴）和总报告（蓝线）都会增加。绿线表示报告的总数（可能的垃圾邮件帖子），蓝线表示真实的阳性数，已通过用户反馈进行了验证。显示上个月我们每天自动标记的帖子数。 2月15日的涨幅是由于自动标记的数量从每个帖子1个增加到每个帖子3个。您可以在metasmoke的自动标记页面上看到此图的实时版本。很容易看到一天中有很多垃圾邮件报告进入。上面的时间是UTC时间。一天中最繁忙的垃圾邮件时间是凌晨4点至中午8小时。我们在聊天室中亲切地将这个“垃圾邮件小时”命名为
。该图显示了从网络中删除报告的垃圾邮件所花费的时间。此部分有显示这些平均值的三个趋势线。第一个红色部分是当我们只是将帖子报告到聊天室并且所有标志都必须来自用户时。您可以看到，在此期间，我们清除垃圾邮件的时间相当稳定。平均来说，删除一个帖子只花了五分钟多。

绿色趋势线是当我们发布单个自动标记时。在实施时，我们消除了从删除到删除的一整分钟的时间，而一个月后，与没有自动标记的情况相比，我们消除了两整分钟。

最后一部分，橙色，是当我们对大多数站点实施三个自动标志时。上周推出了该功能，但是删除时间已经有了显着的改善。我们正在等待1-2分钟的删除时间。

如上所述，垃圾邮件泛滥成灾。图中的虚线表示这两个不同时间段内的平均删除时间。虚线显示了UTC凌晨4点和中午的删除时间，虚线显示了24小时的其余时间。该图显示的一个有趣的事情是，当我们没有投放任何自动标记时，在垃圾邮件小时内删除时间会更长。在垃圾邮件发送时间以外，它已被更快地删除。当我们开始发布单个自动标志时，情况就相反了。删除垃圾邮件的时间少于平均时间。比较这两个时间段，非标记时间段结束时非垃圾邮件小时内的删除时间与单个标记时间段结束时大致相同。

我们将更新同样在几周内就会出现这些情况，以便更好地显示我们看到的带有三个自动标记的趋势。。多年来，我们已经有许多有才华的开发人员为我们提供帮助，还有更多的用户提供了反馈以改进我们的检测规则。让我们知道您想要我们详细阐述的内容，您想知道的功能或希望添加的功能，或者我们在流程或工具中可能遗漏的内容。看一下我们真的希望Stack Exchange考虑的功能，以便我们可以进一步改进该系统（以及其他一些社区构建的系统）。我们将有木炭成员四处闲逛并回答您的问题。另外，也可以随意进入木炭总部聊天。

1截至2018-03-05，准确度阈值为99.75％，而不是99.5％。 >

/ me在这里留言，所以我很能听见。我是这里谈论的那些难以捉摸的“系统管理员”之一。

大家好！看起来棒极了。 Smokey本身已经很棒，并且自动标记看起来很整洁！我希望对API提出的更改建议能早日发布。

“这张图显示的一个有趣的事情是，当我们没有投放任何自动标记时，在垃圾邮件小时内删除的时间会更长。在垃圾邮件小时内删除时间更快。” -猜猜这与主持人倾向于活跃的时区相关，这是我们在标记垃圾邮件时可以看到多长时间的事。

木炭队：做得好！感谢您为此付出的所有努力（并将继续努力）。这真是太棒了。

我很高兴在这里看到有关它的公开帖子！

@ user3791372，通常，垃圾邮件发送者是懒惰的。极少数垃圾邮件发送者会阅读或深入研究此内容。很少有人这样做的是那些已经在积极工作以无论如何避免被发现的人。

第三张图不是帽子。那是一只消化大象的蟒蛇。

这将是很酷除了事实上，我只是失去了20 LBS在不到这个新的饮食2周！点击这里了解更多！

@billynoah -1，您的垃圾邮件在语法上过于正确

@fedorqui实际上，我们并没有这么想，我们只是想将所需的垃圾邮件标志数量减半：)但是，您在那里链接的内容确实加强了我们选择3个标志的决定

很棒的系统＆写出来。一个问题;如果SE与此相关，为什么您需要真实用户的帐户来标记事物；他们不能给Smokey一个不受限制的帐户吗？或如果有问题，请为其指定数百个帐户。这样做似乎更安全，因为这样就可以清楚地看出机器人与人类之间的关系，并避免了将来滥用此特权的任何风险（不是那样的话，但是在谈论垃圾邮件和安全性时，应该考虑该选项）。 />

@JohnLBevan，我们所做的一切都是通过API完成的。如果存在重大问题，SE可以使用我们的应用程序密钥查看已完成的操作。至于无限制的访问，这似乎更加危险，因为某人需要能够使用这些凭据。由于Smokey由社区成员而不是SE本身（例如社区用户）运行，因此这意味着用户具有主持人（或更高级别）访问权限。我们一直在谨慎地构建该系统，以禁止具有菱形标志的用户在其站点上标记垃圾邮件。我们想让一个人陷入困境。

@JohnLBevan这样的网络的维护将具有挑战性。我们需要为网络上的每个站点提供多个帐户（还要在每次公开测试版发布时对其进行管理），以及在每个站点进行标记所需的信誉。与管理垃圾邮件相比，我们花在管理帐户上的时间更多。

@EJP因为审查审核的全部目的是测试您是否关注……在任何情况下，审查审核与木炭之间都没有联系...

@SteveBennett未通过SE在这方面给了我们特殊待遇，那就是我们所能做的。木炭是社区的一项工作，与SE无关。因此，我们必须在很大程度上限制普通用户的业务范围。我们也不是为了行为而“挪用”人类账户，用户明确地同意我们这样做。

#1 楼

Stack Exchange有自己的垃圾邮件检测和防御系统。如果我正确理解其设计目标，它甚至可以防止垃圾邮件被发布。 SmokeDetector发现的基本上是通过测试的帖子。标记为垃圾邮件？如果没有，有什么计划吗？
是否有可用统计数据表明SpamRam在SmokeDetector及其人类奴隶的成功努力下通过阻止垃圾邮件而变得更好？

SpamRam这里是... SE自己的垃圾邮件检测/阻止程序？

– TylerH
17年2月20日在16:00

@TylerH是我了解的调用方式，是的

–rene
17年2月20日在16:01

（1）是的。可能吧。我们已经与Stack Exchange员工进行了讨论，以直接将Smokey系统与SE集成在一起，并且我们打算做更多事情。

–ArtOfCode
17年2月20日在16:04

（2）目前没有，但是SpamRam仅适用于IP，不适用于Smokey的帖子文本。

–ArtOfCode
17年2月20日在16:05

从SmokeDetector到SpamRam没有其他反馈。尽管通过垃圾邮件标记删除帖子确实可以喂入它，但间接地，这很有帮助。关于是否可以集成全部/部分烟雾探测器，已经进行了初步讨论。

–安迪
17年2月20日在16:05

要扩展对AOC的最后评论：“ SpamRam具有IP信誉和反馈”

–脑袋
17年2月20日在16:24

SmokeDetector很棒！一些令人难以置信的社区成员聚集在一起并独立于Stack Overflow的内部垃圾邮件工作而创建了它。碰巧的是，正如ArtOfCode所提到的，我一直（非常缓慢地）考虑探索在我们的系统与Smokey之间建立一些连接。尚无可靠计划。至于SpamRam，我们并没有公开谈论它。的确，垃圾邮件发送者来这里查找有关我们的信息的几率很低，但如果确实如此，那也许就是我们实际上需要担心的那个。

– Pops
17年2月20日在16:27

通过了解其工作原理可以绕开的垃圾邮件检测系统从根本上被破坏了。就像学校考试使用学生必须回答的一整套问题一样，仅记住足够多的问题就可以绕开。我们一生都知道，如果不设置愚蠢的限制（例如人们无法收回测试（啊！）或无法讨论垃圾邮件过滤器的设计方式），这是行不通的。测试或垃圾邮件过滤器的设计必须以以下假设为前提：所有测试都是公开的，任何人都可以使用。然后它将按设计工作。

–库巴没有忘记莫妮卡
17-2-28在13:27

@KubaOber从理论上讲，了解我们的过滤器可以使人们绕过它们。实际上，垃圾邮件发送者不是那么聪明，我们可以做出反应并根据需要添加新的过滤器。

– Mag
17年1月1日在6:31

@Magisch目前，过滤器还远未达到最新水平。从我所见，这主要是一堆正则表达式。这是不可扩展的，不能只是临时解决方案。

–库巴没有忘记莫妮卡
17年1月1日在13:45

@KubaOber我们的整个项目都基于模式检测。除了添加更多的模式和更聪明的模式外，这里的范围实际上并不多。不幸的是，我们不是机器学习专家。如果您有任何建议或想进一步讨论，请在聊天中加入木炭总部

– Mag
17 Mar 1 '17 at 13:47

现在已经进行了三年扩展，而且主要瓶颈是人类的疲劳，无论如何都要进行实际标记。

– John Dvorak
17 Mar 1 '17 at 13:49

@KubaOber Nope，这里没有最先进的东西。但这无关紧要-它起作用了，并且在过去三年中一直起作用，而且我看不出它为什么不能继续起作用的任何原因。

–ArtOfCode
17 Mar 1 '17 at 13:55

当然，这是一个很好的实用方法。现在，人类正在进行模式更新的明确工作。为了减少繁琐的工作，人们可以做标记垃圾邮件的工作，并且机器可以比我们更好地识别出这些模式。我也不是机器学习专家，所以我也没有太大帮助-我主要使用别人写的库:)

–库巴没有忘记莫妮卡
17 Mar 1 '17 at 14:04

不幸的是，我们都不是@KubaOber。我自己尝试ML的尝试惨遭失败，其他人也遭受了同样的命运。这是我们想做的事情，但是我们每个人都不具备必要的专业知识。

–ArtOfCode
17年1月1日14:39

#2 楼

我们确定可以击败这些数字，甚至更快地消除Stack Overflow和网络其余部分中的垃圾邮件。考虑到烟熏检测器（SD）具有广泛的范围和主题，您做了哪些工作来确保SmokeDetector（SD）在网络中不同站点上的鲁棒性？例如，您已经对SD进行了微调，以检测何时在Stack Overflow上出现垃圾邮件，但是SD的代码库如何依赖于“与编程无关的共享链接”？

翻转几个开关并在数组中添加六个短语以便使其在Biology.SE上工作（可能会经常提及药物名称），或者在Aviation.SE上可能经常提及航空公司？（我之所以选择这两个，是因为机票和药丸是两个常见的垃圾邮件主题），还是每个站点都需要一个简单的定制？

自成立以来，我们就在整个网络中运行-您在以上文章中看到的所有准确性数字都是网络范围的。某些原因针对特定站点进行了调整，某些原因在某些站点上被禁用。这是一个有趣的平衡游戏，但是我们已经非常擅长了。

–撤消
17年2月20日在15:41

例如，这是一些代码，用于检查与健康相关的垃圾邮件，但它仅在网络中某些经常成为目标的站点上起作用。这里是另一个“过滤器”，该过滤器在除少数几个站点之外的所有站点上都处于活动状态，很可能会产生许多误报。

– Glorfindel
17年2月20日在15:44

@撤消谢谢，阅读后不清楚。该帖子仅在谈论SD的标记行为时专门提到了堆栈溢出。

– TylerH
17年2月20日在15:44

@Undo再稍微关注一下这个主题，您每个站点都有数字吗？我很好奇是否有100％准确率的站点，也很好奇什么是最低精度的站点。

– TylerH
17年2月20日在15:51

Ask Patents可能是最糟糕的站点，目前只有64％的准确性。但是请记住，只有在达到特定阈值时，这些帖子通常才会被自动标记。

– Glorfindel
17年2月20日在15:53

但是AP只是...很奇怪，所以这并不奇怪。

–ArtOfCode
17年2月20日在15:54

@Glorfindel“但请记住”如果要记住该阈值，在哪里可以看到？您是在谈论每个用户的个人阈值吗？如果是这样，这是否意味着用户在设置bot标记为用户之前就设置了自己的阈值首选项？如果是这样，如果有一个用户将其阈值设置为60％，而其他所有人都将其阈值设置为更高，该怎么办？设置发布了吗？在那种情况下，它不是随机的……SD将始终使用60％的帐户和另外两个帐户。

– TylerH
17年2月20日在15:59

@TylerH对不起，我应该详细说明。我的链接显示了SmokeDetector报告的所有帖子，通常仅出于一个原因就被发现。仅当出于多种原因检测到帖子时，才会投射自动标记，并且它们也必须是“有效”的原因。您无法设置阈值，导致准确性低于99.5％。

– Glorfindel
17年2月20日在16:02

@Glorfindel感谢您的信息！

– TylerH
17年2月20日在16:04

应用看起来有些棘手。在这种情况下，我假设我必须先安装Linux？然后在PC上在后台运行此程序？

–阿德莱德爵士
17年2月23日在6:30

@SirAdelaide您不需要做任何事情，我们（木炭）托管了机器人（当前位置请参见此处）和metasmoke（具有所有标记），您需要做的就是注册并允许我们使用您的帐户用于举报。然后，我们使用SE API标记帖子。但是是的，由于我们广泛使用的bash和git的兼容性问题，该bot确实可以在linux / mac上运行。如有其他疑问，请随时加入木炭总部

– Anussidney
17-2-23在6:52

@Undo与新创建的Beta网站如何实现这种平衡？

–内森·美林（Nathan Merrill）
17-2-27在20:10

@NathanMerrill实际上，无论如何，新创建的Beta网站的流量都非常低。由于我们的正则表达式已经可以容纳约160个站点，因此新站点通常不会超出我们已经看到的范围。通常，我们唯一需要明确调整的时间是针对以健康为中心的网站。我们在网络上发现了很多皮肤垃圾邮件发送者，但是这些模式的本质在健康站点上看到了很高的误报率。它总是很快就被捕获，并在三十二秒的部署周期中处理。

–撤消
17年2月27日在20:19

#3 楼

虽然Charcoal HQ以及您的GitHub和网站过去可以公开访问，但此类帖子将提高您在Stack Exchange网络中的可见度，甚至可能会到达Google的顶级搜索结果。尽管大多数垃圾邮件发送者似乎很愚蠢（似乎他们甚至不能写正确的英语句子），但您是否不担心这会导致更狡猾的垃圾邮件发送者发现逃避SmokeDetector检测的方法，例如通过包含垃圾邮件来评论中的链接（指向他们自己的帖子）？

不要给他们任何想法：P（jk）。这实际上是一个有趣的建议。

–ɥʇǝS
17年2月20日在20:01

垃圾邮件发送者通常并不那么聪明。我们确实看到有人尝试在评论中发送垃圾邮件，但没有那么多。我们还看到垃圾邮件发送者偶尔会发布显然可以的答案，然后在垃圾邮件中进行编辑。随着人们注意到并标记它们，这些尝试几乎都失败了。

–ChrisF♦
17年2月20日在20:02

不，我不在意。很少有垃圾邮件发送者会阅读或查看网站或源代码。很少有人这样做的是那些已经在积极工作以避免被发现的人。

–安迪
17年2月20日在20:03

还要注意，木炭网站不会因此而被推高SEO-SE专门使这种情况不会发生。

–数学
17年2月20日在20:34

一般规则：垃圾邮件发送者是愚蠢的。您可以指望它们是愚蠢的。变得聪明需要时间，这可能会花费更多时间发布垃圾邮件。

–ArtOfCode
17年2月20日在20:35

请记住，评论通常不会被Google索引，因此垃圾邮件发送者不会因此赢得太多收益

– Ferrybig
17年2月20日在21:28

我们已经看到了将垃圾邮件链接置于注释而非问题正文中的情况。这不是很成功。如果我们能够继续提高垃圾邮件发送者的标准，那么他们就必须做出有意义的贡献。

–user307833
17-2-22在14:39

@Mego，请小心您的要求。

–左SE在10_6_19
17-2-22在20:36

看来实施起来可能是一个有趣的挑战。

– AJMansfield
17-2-23在2:16

关于“正确的英语句子”-有一种理论认为，垃圾邮件发送者/诈骗者故意使用错误，以拒斥那些不太可能被骗的人。

–罗伯特尼克
17年2月23日在6:15

@ArtOfCode，但是也有例外。我与一个垃圾邮件发送者打交道，他显然阅读了spamassassin-users邮件列表。我发布了阻止他的垃圾邮件的规则；他关闭了一天左右的时间，然后返回了修改后的垃圾邮件，但没有达到这些规定。

– andybalholm
17年2月23日在16:06

@andybalholm当然，总是有例外。但是这里的绝大多数垃圾邮件发送者都是愚蠢的-实际上，我们似乎在培育一种特别愚蠢的垃圾邮件发送者。

–ArtOfCode
17年2月23日在16:49

en.wikipedia.org/wiki/Wikipedia:BEANS

– Nemo
17-2-24在11:07

我认为大多数垃圾邮件发送者不会由于收益递减的规则而归咎于此。

– Klik
17年2月27日在23:27

我的第一个想法是，原则上不能明确地确定什么是垃圾邮件-因为它可以在接近真实邮件的情况下任意制作-即便如此，链接到的网站（或他们用来通过Google将您定向到该网站的关键字）也可以像垃圾邮件一样引人注目/可见！

– MikeW
17年2月28日在10:55

#4 楼

我知道这个问题是花言巧语，但无论如何我还是要回答。

英文维基百科有一台这样的机器已有一段时间了，主要是ClueBotNG，它遵循一些规则和一些学习知识。某些摘要位于

https://github.com/DamianZaremba/cluebotng
http://www.bbc.com/news/magazine-18892510

在Wikipedia审查中描述故意破坏行为，也提到了其他系统该系统自2015年开始投入使用，致力于为编辑人员提供最佳的机器学习猜测，使他们能对生产力做出贡献：人工智能服务“ ORES”为Wikipedians提供了X射线规范，以查看错误的编辑。

#5 楼

真是太棒了；恭喜那些参与其中的人：

两个简单的问题：我希望这是针对正确的人。

与Gmail相比，它如何大致比较，我可以现在回到PhysicsSE并说我们有可能在将来的某个时候过滤家庭作业问题（在某些情况下比垃圾邮件还差）吗？

我不确定它是否可以与Gmail相提并论-SmokeDetector是专门针对我们在SE上获得的内容量身定制的，我不确定直接比较是否可行/有用。也就是说，我们看到通过SE本机过滤器的所有垃圾邮件中有很大比例。

–ArtOfCode
17-2-22在23:12

至于（2），没有。 SmokeDetector是针对垃圾邮件量身定制的，其检测方法（正则表达式）不容易适应其他目的-我们有足够的垃圾邮件测试来达到世界贸易中心一号楼的顶部，而重新创建家庭作业将花费太长时间有用。它也不受主要Smokey项目的影响，但是当然欢迎任何人叉供自己使用。

–ArtOfCode
17-2-22在23:13

谢谢，我在php中使用了正则表达式，可以将其选中并（通常会错过）。祝一切顺利

–StudyStudy
17-2-22在23:19

不用担心，很高兴回答问题。如果有足够的东西样本，最终可以确定任何东西。我对作业问题的疑惑在于多样性-与垃圾邮件不同，作业似乎并不是每次都相同（或极其相似）的事物。

–ArtOfCode
17-2-22在23:20

这是一个连续的问题，您可能会劝阻/劝阻下一个爱因斯坦，但与此同时，一些用户只是忽略了所有警告，这很烦人。我没有一种或另一种议程，但是PSE社区会定期经历一系列考试之前出现的问题。我认为已经讨论并讨论了所有可能的程序。

–StudyStudy
17-2-22在23:26

是的，这不是一件容易的事情。我不确定Smokey可以提供很多帮助，但是如果您提出了自动化解决方案，我想听听。

–ArtOfCode
17-2-22在23:27

SmokeDetector是查看网站中所有内容的绝佳平台-您可以肯定地将其分叉并去除不必要的部分，然后添加用于检测这些问题的任何逻辑。但是，是的，对于木炭而言，这超出了范围。

–撤消
17年2月23日在0:59

有一个sobotics开发并运行的stackapp，用于检测Stack Overflow上的质量问题。您当然可以分叉，并为Physics.SE做一个。

–巴尔加夫（Bhargav Rao）
17-2-23在11:14

@BhargavRao非常感谢

–StudyStudy
17年2月23日在12:01

@AlternativeFacts我是FireAlarm的开发人员之一。如果您对此东西感兴趣，并希望在Physics.SE上运行它，请访问此聊天室，以获取更多详细信息。

– Ashish Ahuja
17年2月23日在14:00

海事组织，作业与垃圾邮件并没有真正的可比性。垃圾邮件通常总是负面的，并且垃圾邮件的发布者往往不是善意的。但是，尽管肯定有令人烦恼和恼人的家庭作业提问者，但也有一些非常有礼貌的学生正在向有用的资源寻求帮助，以帮助他们解释他们不了解的东西。 SE网站是许多知识渊博的人的大集合。如果特定用户滥用该网站（即经常发帖要求其他人解决特定的家庭作业问题），则应逐案处理。

–阿比盖尔·福克斯（Abigail Fox）
17-2-23在23:22

@AbigailFox您好，我同意您的意思，我上面有一条评论，希望能反映您的评论。当某人真的有尝试问题的能力时，我会喜欢上它，因为我可以看到自己（作为一个自学成才的人）处于同一位置，但是当OP忽略所有规则并基本上要求答案时，我就不会那么喜欢我的山羊有点。在我第一次发布消息时，几乎没有一个特定的PSE重复用户（根据我的经验），很多人常常因为考试一天而绝望。但是当我看到新的过滤器时，我只是好奇。

–StudyStudy
17-2-23在23:33

@ Countto10是的，这确实很烦人。对于机器人（我想像）来说，这是非常具体且困难的。它要么很像垃圾邮件，要么落在一个灰色区域，人们注意到这是为解决OP的特定问题做出的明显尝试。我只是认为这些应该是人为处理的，而不是自动标记，因为与真正的垃圾邮件发布者相比，这些问题的发布者往往（至少在某种程度上）具有更好的含义。

–阿比盖尔·福克斯（Abigail Fox）
17年2月23日在23:37

@ArtOfCode。仅作参考，您的下一个项目bbc.com/news/technology-39063863

–StudyStudy
17年2月24日在13:13

@ Countto10也有一个stackapp！奇怪的是，该应用的所有者在您发表评论前约24小时要求获得PerspectiveAPI密钥。（怪异的东西，对吧？）

–巴尔加夫（Bhargav Rao）
17-2-27在15:33

#6 楼

考虑到隔离区的问题吗？

鉴于您已经达到了令人难以置信的准确性，我想知道是否值得在这里切换策略：我不想在默认情况下发布并稍后删除，所以我想知道如果应该先进行检查，然后在检查通过的情况下立即“发布”，则将可疑内容放入隔离区（审核队列？），如果有投票权，用户可以投票取消机器人的决定

这样，检测到的垃圾邮件甚至不会出现在首页上（并由Google索引），从而进一步降低了垃圾邮件发送者从中获得的收益。

从理论上讲，这听起来不错，直到您查看每天在网络上创建的帖子数。有了这么多的卷，不幸的是，审查队列将在几个小时内不堪重负。

–安迪
17年2月23日在13:38

@Andy：等一下，OP说道：“我们已经连续两个月每天平均投放60-70个自动标记”，每天60-70个帖子如何在几个小时内淹没队列？

– Matthieu M.
17-2-23在14:22

假设我正确理解了您的帖子，那么那些60-70的标志仅说明通过SE自己的过滤器进行发布的错误帖子。如果我们要在发布之前隔离材料，以便对其进行审核，那么我们也必须考虑所有好的发布。这些将使审查队列不堪重负。与垃圾邮件相比，我们看到的“好/好”帖子数量高出几个数量级。 SmokeDetector还不够早，无法阻止发布帖子。它必须集成到SE发布过程中。

–安迪
17年2月23日在14:27

@安迪，我认为您不理解他们的建议。据我了解，这个想法是：在将帖子发送到网站之前，先对它进行熏制。如果失败，则将其隔离。否则将其发布。除了需要SE开发人员集成外，这听起来并不是一个坏主意。当然不应该填写审查队列。

–ɥʇǝS
17年2月23日在16:04

尽管在这一点上我不确定是否值得，因为任何冒烟的东西几乎都会立即被删除。

–ɥʇǝS
17年2月23日在16:05

@安迪：我不建议将所有东西都隔离。引用我自己：我想知道是否应该先检查，然后如果检查合格就“立即”发布，将可疑物品放入隔离区（审核队列？）=>仅可疑物品应该去进行隔离，根据OP，每天60-70个职位。

– Matthieu M.
17年2月23日在16:25

@ɥʇǝS：在几分钟的窗口中，这些帖子污染了首页并被索引。如果用户从未出现在首页上，将会给用户带来愉悦的感觉，而如果用户从来没有被索引，则对垃圾邮件发送者的吸引力将会降低。

– Matthieu M.
17年2月23日在16:26

@MatthieuM。实际上，冒烟的东西很少能持续超过2分钟，而且自从自动标记功能上线以来，我什至没有看到它持续1分钟。

–ɥʇǝS
17年2月23日在16:27

那我误会了。目前，无法阻止发布。但是，我们已经与SE进行了一些讨论，讨论如何更好地进行集成。接下来我们和他们交谈时，我会提起它。

–安迪
17年2月23日在16:29

@MatthieuM .：因为无论如何都没被关注，我看不出有任何理性的感觉对垃圾邮件制造者的吸引力可能会大大降低。

–内森·塔吉（Nathan Tuggy）
17年2月23日在18:10

@NathanTuggy：好点，我想他们甚至都没有意识到。

– Matthieu M.
17年2月24日在6:58

#7 楼

您认为您随时都将采用更高级的机器学习（例如神经网络）吗？

完全有可能。在进行某种机器学习之前，我们已经提出了很多想法。

–安迪
17年2月25日在2:36

我们已经尝试了各种形式的机器学习，但是由于缺乏该领域的经验，我们发现基于正则表达式的搜索更加有效。

– Anussidney
17年2月25日在4:25

前一段时间我确实写了Smokey的朴素贝叶斯ML版本，利用我们现有的数据进行分类集-但是我没有足够的ML经验来正确地做它，或者只是做不到，因为它的准确性不仅仅只是猜测。

–ArtOfCode
17-2-25在22:49

#8 楼

只有一句话：当垃圾邮件发送者训练他们的机器人来进行自动的，有建设性的评论时，您将做什么？阻止垃圾邮件首先发布（错误：由于垃圾邮件而无法发布）可能会导致垃圾邮件发送者更快地处理系统。人们应该假设，垃圾邮件发送者在预防系统周围工作的动机较弱，而当他们实际上仍然认为自己在传递信息时。因此，我喜欢这种务实而成功的方法！

这实际上是SE如此免费的垃圾邮件的核心部分。垃圾邮件发送者认为他们可以半自由地发帖，而他们没有回过头来的是，有时他们的发帖时间少于10秒。

– Mag
17 Mar 2 '17 at 16:35

#9 楼

为什么不进一步推动呢？它会更加透明和有效吗？
您已经证明了，我毫不怀疑，程序比人类更有效。
当前，您正在使用其他用户的标志来减少所需的人类数量为了减少发布的工作量和目的，以减少工作量和删除时间（这样做的好处是，减少对垃圾SE的兴趣，并减少SE用户对其进行标记的努力）。
毫无疑问，所使用的算法比任何人都更精确，更有效，责任问题依然存在，四个普通用户说“该机器人为我标记了”，较少普通用户决定该帖子是否应被删除。
进一步推！它将更加透明和有效。
我建议在不同站点上使用主持人帐户，直接通过垃圾邮件删除帖子。
如果这些主持人（我们）相信算法和统计信息，让他们使用自己的帐户，结果将是：

谁删除了该帖子的责任。

谁负责恢复声誉的可能性并发布是否有问题（是主持人）

提高垃圾邮件阻止系统的效率。如果我们和主持人都信任它，那么就立即删除这些帖子，而无需使用“套接字”用户。
这些主持人需要同意使用该帐户，并准备检查已删除的内容。如果造成任何伤害，他们有权恢复局势。

不允许主持人在ATM上对其网站进行自动标记，因为我们从不希望单方面举报某些内容。我们希望所有的木炭查看它是否需要采取行动-使用Mod核武器会否定它。

–数学
17年2月20日在20:28

这是我们不愿意采取的步骤。从凡人发送标志可以使我们向系统发送信号。从主持人帐户发送标志将是一个全新的步骤。如果我们要这样做，那么范围将非常有限，并且需要大量的员工咨询。

–撤消
17年2月20日在20:28

@PetterFriberg主要区别在于，使用主持人帐户可以在帖子发布后几秒钟内对其进行发布，从而带来100 rep的罚款和SpamRam的乐趣-所有这些都无需人为干预。

–撤消
17年2月20日在20:36

@PetterFriberg我们可能会扩展系统，但我们不会将其从3个标志扩展为主持人标志-它将分阶段进行。如果3个标记执行正常，也许我们移到4。考虑一下，直到我们准备好使用6个标记。

–ArtOfCode
17年2月20日在20:36

作为主持人，我认为授予其他人（甚至是自动化系统）访问我的主持人权限以代表我采取任何措施的权限是不合适的。作为主持人，我的举报是立即生效的，几乎不需要检查。

–托马斯·欧文斯（Thomas Owens）
17年2月20日在21:35

我认为让机器人访问主持人帐户不是一个好主意。甚至可能违反主持人协议，这肯定是非主持人有权访问该漫游器的情况。主持人帐户可以访问PII，如果漫游器要投射绑定标志，则应该通过SE提供的API进行操作，该API不需要给出真正的主持人具有的完整访问权限。

–疯狂科学家
17年2月20日在21:42

@PetterFriberg不，我们绝不会要求授予Smokey员工访问权限，SE也不会允许我们访问。它将有效地允许有权访问该帐户的任何人（包括像我这样的非mods）使用仅限员工的工具（否决曾经创建的每个问题？

– Anussidney
17-2-24在7:28

让普通用户这样做已经是不负责任的。抛开准确性，它会错误地表示用户正在做的事情以及标记的对象是谁。另一个考虑因素：标记权重仍然存在IIRC，只是在幕后-允许用户使用机器人在系统眼中提高自己的可信度，从而给自己的手动标记更大的权重。

–user154510
17年2月24日在23:00

@MatthewRead将某些东西与SE集成在一起的第一步是证明不需要他们的系统就可以完成。

–ɥʇǝS
17年2月25日在0:12

@ɥʇǝS我对此表示怀疑。无论如何，向后迈出的第一步是滥用其系统和用户帐户访问权限。我不能也不会代表SE，他们对此可能完全没问题，但与我所了解的mod冲突。

–user154510
17年2月25日在0:14

@MatthewRead很多木炭人都是mod，包括我自己。随着CM即将实施，我们已经与CM进行了数月的交谈，并获得了执行此操作的权限。

–ArtOfCode
17年2月25日在0:16

正如Pops在上方某处的评论中所言，我们也正在朝着与SE的更紧密集成的方向迈进，但这需要时间和开发人员的努力，而现在这种情况还很薄。这两种选择都有优点和缺点，但是我们认为更快地删除垃圾邮件的好处胜过该系统的缺点。

–ArtOfCode
17 Feb 25'0:18

@MatthewRead我实际上对您的一般异议性质有点困惑，因为SpamRam本质上已经是一个完全自动化的后期核系统，您大概可以接受。 Smokey只是用一些额外的规则扩展了垃圾邮件过滤器，并且，与通常的垃圾邮件过滤器不同，奖励仍然需要人工确认。如果将Smokey的规则集简单地集成到现有的全自动系统中，似乎您不会有相同的反对意见，那么您可能会喜欢SE改进他们现有的可以单方面破坏帖子（即垃圾邮件过滤器）的机器人。

–杰森C
17-2-25在0:38

@MatthewRead要解决“这使用户可以在系统中使用机器人来提高自身的可信度，从而更加重视自己的手动标记”：目前有100多个用户注册。我们每天发布约230面旗帜。它在这100个用户之间，然后在十几个高垃圾邮件站点之间实现了负载平衡（实际上是随机分布）。（230/100）/ 12是非常小的数字。它不会为你赢得选举。

–撤消
17年2月25日在0:48

我看不出我的评论怎么可能被解释为反对自动化。我反对滥用用户帐户。的确，我将它集成到系统中没有异议。 “它不会为你赢得选举”是一个稻草人。

–user154510
17-2-28在18:52

编程黑洞网