机器可以自动标记垃圾邮件。能做得更好吗？

自从发布此帖子以来，我们已经做了几件事：

我们现在在通过准确性阈值（当前99.9％的历史置信度）的帖子上投射四个标志
SmokeDetector现在在所有自动标记的帖子上投射第一个标志。这应该有助于解决有关标记队列和标记后时间轴上的透明度的担忧。

有一个用户脚本公开了标记内联的自动标记活动。很漂亮：

我们试图获取带有自动标记的帖子的RSS提要以供聊天使用，但是聊天RSS充满了危险。

TL; DR：木炭是SmokeDetector背后的组织。自2017年1月以来，我们一直在系统确信垃圾邮件的帖子上自动投放多达3个标志。我们希望将其增加到帖子上的5个自动标记，我们甚至可以确保减少垃圾邮件在网络上的有效停留时间。

您是谁？

Charcoal是一个由用户运营的组织，主要负责检测垃圾邮件的机器人SmokeDetector。在过去的四年中，借助SmokeDetector，我们一直在Stack Exchange网络上寻找垃圾邮件以进行手动标记和销毁。 2017年1月，在Stack Exchange的支持下，我们开始运行“自动标记”项目，如果我们的系统确信垃圾邮件是垃圾邮件，那么我们的系统会在其上自动投射三个标记。如果您完全错过了这种情况，请在Meta Stack Exchange上撰写一个元文章-或在我们的网站上有一个更为简洁的解释。

您的情况如何？

您打算提出什么？ />我们想扩展我们的自动标记系统。目前，我们对确信为垃圾邮件的帖子最多投放3个自动标记；我们希望将这些标记的数量增加到5个，这些标记可以自动确定这些标记为垃圾邮件。

为什么？

我们对此非常了解：这是一个实验。最终，我们将尝试做以下事情：

减少垃圾邮件在被删除之前花费在网站上的时间；
减少自愿看到的人数

增加我们在垃圾邮件上自动投射的标志的数量应该可以完成以下两项操作：

自动标志几乎是即时的；手动标记需要花费几分钟的时间-这意味着增加自动标记与手动标记的比率可以缩短6个标记的累积时间和垃圾邮件的删除时间。
自动标记不会被人工转换。因此，被更少的人被迫查看垃圾邮件/与垃圾邮件进行互动。

我们得到的数据支持了这一点。在删除时间方面，我们发现启动自动标记项目时删除垃圾邮件的时间大大减少了。从主题的元文章中查看该图，可以很好地看到该图。在开始自动标记之前，垃圾邮件平均每天在网络上停留56个小时。有了自动标记功能后，平均每天7小时左右的时间就更少了。

这种变化对网站意味着什么？

如果这种变化继续进行，这些事情可能会发生：

用户只需使用1或2个手动标志即可将垃圾邮件标记为自动标记的帖子，而不是当前的3个。当然，仍然需要6个标记来进行核对。
完全由木炭会员（无论是否活跃在该网站上）发送的垃圾邮件可能会增加。
您会发现垃圾邮件在被删除之前在网站上花费的时间有所减少。
更少的人将不得不非自愿地看到每个垃圾邮件。

其中的最后两个都是无可争议的好东西。但是，前两个更具争议性，这是我们希望在实现此功能之前在此处进行元讨论的原因。以下是我们已经看到的主要问题，以及我们可以采取哪些措施，或者为什么我们认为它们不是问题-我们希望听到您的想法。

我们正在寻找的是减少删除时间的方法。下图显示了垃圾邮件目前在前几个网站上的有效寿命。我们希望平均时间有适当的减少，而顶部异常值则有明显的减少。

下图来自我们已经进行的实验过去一周以来一直运行，在每个与我们正在考虑的设置相匹配的帖子上随机投放1至5个标志。

原始数据就是这样：

PostCount  FlagCount  ATTD      StdDev  CommonMax
173        1          191.474   243.63  678.73
166        2          98.7831   127.88  354.55
167        3          69.2814   156.62  382.51
194        4          33.3196   61.46   156.23
177        5          13.5254   12.43   38.39

PostCount是样本大小； FlagCount样本中每个帖子上标记的数量； ATTD平均删除时间，CommonMax是95％置信区间的最大值。从这些统计数据中得出的主要结论是，我们很可能会看到平均删除时间减少了约5倍，而异常值减少了约10倍。

准确性和误报率

垃圾邮件标志是一项强大的功能，需要正确应用才能谨慎对待。这是我们最初构建自动标记系统时出现的一个问题，因此我们已经内置了安全保护措施。

我们仅在我们大于99.75％的情况下才标记该帖子垃圾邮件。（从技术上讲，确切的确定性会因我们使用其帐户的用户所设置的条件而异，但始终高于99.75％-有关详细信息，请访问我们的网站）。
如果系统出现故障或错误，并开始标记不该标记的内容，则所有Charcoal成员和所有网络主持人都可以访问命令，该命令立即停止所有标记活动，并需要系统管理员的干预才能重新启用。在测试之外，无需使用kill-switch。
我们从不单方面批评一个帖子。除了自动标记以发布帖子外，目前还需要3个手动标记。这项增加提案仍然至少保留了一个人工标记。

我们还确保所有内容始终受到人为监督。虽然目前只有3个人要手动标记该帖子，但总有比查看系统决策和分类更多的用户。如果某个帖子被标记为不该发布，则我们会收到提醒，并可以提醒相关版主解决此问题。同样，这非常罕见：在过去的一年中，我们标记了66个本不该标记的帖子，相比之下，有29到592个垃圾邮件帖子（总准确率为99.7％）。我们允许用户设置自己的举报条件，只要他们不低于我们的基准99.75％的确定性即可。但是，我们建议您将确定的值定为较高的100.00％-将条件设置为低于此值的人，可能会发现使用其帐户标记的误报率更高。

此提案减少了所需的人工干预核发职位；为了弥补较低的人类参与障碍，我们将在投射额外的自动标记之前相应地提高所需的准确性。例如，我们目前要求在投放自动标记之前必须达到99.75％的精度；我们可能要求4个自动标记的精度为99.9％，而5个自动标记的精度为99.99％。（作为参考，人类在95％的时间内准确率是多少，在Stack Overflow上的准确率是87.3％-这些是jmac（前社区经理）去年在开始自动标记时为我们查询的统计信息。）

在极少数情况下，合法帖子会被自动标记，我们还设有适当的系统来确保不会意外删除或遗忘该帖子。无论是自动标记还是不自动标记，都有很多人查看我们捕获的每个帖子，并将其归类为垃圾邮件。如果自动标记的帖子被归类为非垃圾邮件，则系统会发布警报以聊天，以通知我们。这样一来，我们就可以对必要的人员执行ping操作，以撤回其标志，并密切关注该帖子以确保其不会被删除。

为了明确说明其准确性，以下是可视化：

这是按我们正在考虑的5个标记设置的标记下的每个帖子的时间顺序表示（左右，上下），以及它们是垃圾邮件（绿色方块）还是合法的（红色方块）。

社区机构和参与

正如我之前所说，该提案将所需的人工参与减少到核对帖子。由于Charcoal成员还在系统投放的自动标记的基础上投放了手动标记，因此也可能增加Charcoal成员完全忽略的帖子数量，而无需活跃于此站点的用户的参与。有些帖子已经用炭笔在上面贴了6个标志（包括自动标志和手动标志），但是适用于该帖子的比例可能会增加。

我们认为这不是问题主题专业知识的术语：无论您身在何处，我们在Stack Exchange网络上看到的垃圾邮件都大致相同-您不需要特定站点上的任何主题专业知识或活动就可以分辨出什么是垃圾邮件，什么不是垃圾邮件。但是，我们确实意识到，网站的社区可能要处理自己的垃圾邮件；如果是这样，我们很乐意在该站点上关闭自动标记系统或将其保持在当前水平。只需在您网站的meta上发布一些内容并将其链接到我们。

现在怎么办？

我们希望将自动标记的数量从3个增加到5个，以减少垃圾邮件在网络上的存活时间。我们想听听您的想法。我们很高兴看到我们在Charcoal所做的很多事情对于这些站点来说是相当隐蔽的，因此我们希望尽可能开放。如果您需要数据或特定的报告，请告诉我们，我们将尝试将其添加到其中-我们已经有很多有关自动标记的报告，因此可能已经存在。如果还有其他内容，我们可以帮助您做出解释或帮助您做出明智的决定，请在此信息上留下答案或发表评论。木炭成员将在本文中闲逛以回应您的担忧，或者您也可以通过聊天来访问我们。

h！还没有闲手圈子吗？我在哪里看？

只为您，@ BhargavRao。

那么只需要三个标志即可发布帖子的网站呢？会增加到两个自动标记吗？

@Ano将它们从上面的实验中排除。如果我们转到5，我希望那两个站点都转到2标志（一本手册进行核对，就像6标志站点上的5）。

@Ano“从实验中排除”表示“我们保持了现状”-3标记站点的现状目前是单个标记。

只有两个“三个标志站点”，在不久的将来可能会为零。让我们不要被束缚。

@Ano不久前，Workplace和ELU掀起了一股热潮；三个标志本来是权宜之计，只是...从未改变。这里真的不值得深入讨论。在您查看的任何统计信息中，这些网站都是网络的一小部分。

听起来像应该将此系统放在前端，甚至在发布之前检查帖子，而不必等待单个用户（甚至是自动）举报。

我们想要@JoshCaswell，但这需要与SE和SE开发人员时间集成，这现在很短。

@ChrisW问题：28036和2470的答案。

作为此问题的替代解决方案，StackExchange是否可以实施一种系统来隐藏站点中带有多个垃圾邮件标志的帖子，直到它们在审阅队列中（一种或另一种）得到处理？这样就可以实现“您将发现垃圾邮件在被删除之前在网站上花费的时间减少了”。和“更少的人将不得不自愿看到每个垃圾邮件。”而不减少对旗帜的人为监督。

您是否有任何统计信息将时间从50秒减少到10秒减少了多少次？除非您能证明在这段时间内有很多人看到了垃圾邮件，否则我不会关心40秒的差异。

@CodyP最终，每个垃圾邮件帖子都需要删除六个标志（暂时忽略主持人）。国际海事组织（IMO）将必须看这些东西的人眼数量从3个减少到1个。其中一些是令人讨厌的，讨厌的东西，旨在困扰您的思想-至少，我们正在减少要查看它以将其摧毁的人数量。

@sampablokuper我们在这里使用“ nuke”一词的方式与SE其余部分的使用方式一致。我很欣赏以前可能没有使用过这种用法，但这并不会使其无效-它在SE上的含义与您以前所用的含义略有不同。

我只想说，与使用Stack Overflow一样，我从来没有看到任何垃圾邮件，这确实证明了系统已经运行良好。干得好。

#1 楼

我看到移动到4个或5个自动标志之间有很大的不同。我不会有4个标志的任何问题，但5个标志意味着只需要一个用户即可发布帖子。如果单个用户自然地偶然发现了垃圾邮件，这可能仍然是安全的，在这种情况下，用户错误地标记为误报的几率非常低。但这不是我担心的情况。据我了解，您在各个位置都保留了指向自动标记帖子的链接，这对于管理该系统非常必要。如果粗心的用户监视粗心大意的帖子并添加自己的帖子，那将是非常危险的。

如果您假设所有旗帜都是垃圾邮件，那么实际上获得非垃圾邮件帖子的几率就非常低。独立。但是，如果您有可能的垃圾邮件列表供用户用来查找要标记的帖子，则此假设不一定正确。

我也看到这里的收益严重下降。确保在几分钟之内删除大部分垃圾邮件是一个值得的目标。我不认为将其推到一分钟以下还值得承担其他风险。

我的另一个关注点是木炭如何处理更加模糊的自我促进区域。我的理解是，没有任何自动标记可以定位可能是自我宣传但不是垃圾邮件的帖子。但这也是一个困扰真实用户的领域，因此与5标志选项结合使用会特别危险。

一般来说，我喜欢该项目，并且支持在所有站点上自动标记帖子。我主要担心的是，除非您知道它的存在，否则它根本不是透明的。您使用的是真实用户帐户进行标记，因此不遵循主要meta的主持人可能永远不会知道有任何自动垃圾邮件标记，因为他们只会看到真实用户。这不是一个新问题，但是我认为如果您以这种方式增加自动标记，透明性就变得更加重要。

帖子中的图形说明了5个标志的自动部分的准确性。至于最后一个标志上的人为因素，您说对了，不一定是独立的。但是，虽然有些人在举报方面比其他人更热心，但每个人都会看到多个（有意义的，而不仅仅是2个）人，任何分歧都会开始引起警觉。这意味着可能需要4或5个人同意该帖子是垃圾邮件，这样一个虚假的最后标志就不会被注意到，即使这样，当我阅读当天的成绩单时，我仍然可能会捡起它。

–ArtOfCode
18 Mar 5 '18 at 9:05

同时，透明度问题是我们一直在力求改进的地方。如果您在这方面有建议，我们很想听听（不但适用于所有人，不仅适用于@Mad）。

–ArtOfCode
18 Mar 5 '18在9:08

@ArtOfCode可以将所有可能有害的垃圾邮件标记的审核全部交给木炭团队，各个站点的社区成员和mods无法审阅此案（除非他们了解木炭并积极监视站点）。我对此有点不舒服。

–疯狂科学家
18 Mar 5 '18在9:08

我可以理解不完全满意。当然，请让我们知道是否可以缓解这种情况。 FWIW，我不认为我曾经见过一个严重的垃圾邮件标志，但木炭团队并未注意到。当然，这是轶事，不是确凿的证据。

–ArtOfCode
18 Mar 5 '18 at 9:10

哦-关于自我宣传的事情：您是对的，自动标记就可以避免这种情况。对于我们来说，应用网络范围的过滤器是一个太多问题。

–ArtOfCode
18 Mar 5 '18 at 9:10

提高透明度的最佳方法是拥有一个专用帐户（或伪帐户或五个）来进行标记，但这将需要开发团队的帮助（有关其优点的讨论应由Petter回答）

– John Dvorak
18 Mar 5 '18在9:54

@Undo除了专用的Bot帐户在其个人资料中带有解释说明的链接外，我看不到其他解决方案。其他所有事情都将取决于主持人，他们首先要了解木炭，并确切知道要看的地方。专用帐户将允许主持人使用现有工具查看标志，并使他们清楚地知道它们是自动的。

–疯狂科学家
18 Mar 5 '18 at 15:55

让我们来探讨一下@MadScientist。我对此并不保证，但可以选择：如果每个帖子都从SmokeDetector帐户（带有相关的个人资料链接）中获得一个标志，而其余所有都与现在相同，该怎么办？我认为这可以解决您的问题，而不会给我们增加5-10个帐户和获得代表的负担。

–撤消
18 Mar 5 '18在15:58

@Undo理想情况下说，僵尸帐户将由CM的宽限度生成，并带有无限标志和能够多次标记同一帖子的功能。

– John Dvorak
18 Mar 5 '18 at 16:08

@Undo对于不知道其工作方式的主持人仍然存在一些潜在的困惑，但这将解决我几乎所有的透明度问题。

–疯狂科学家
18 Mar 5 '18 at 16:40

@ArtOfCode关于自我推广。在生物信息学中，最近有一个新用户用自己的软件发布答案时，一个用户用一些激进的措辞从聊天中出来的问题。查看此聊天。它触发了有关元网站的讨论，以更改限制。但我主张让Beta网站自行运行。

–llrs
18 Mar 5 '18 at 16:50

@Llopis，我们已经与本地主持人讨论了这种情况。我们已经达成共识的解决方案是避免发表评论，指出如何看待自我提升。

–安迪
18 Mar 5 '18 at 16:59

我们要求自动标记用户在自己的个人简介中放些什么？不理想，但可以减轻一些僵尸程序帐户的替代。

–ɥʇǝS
18 Mar 6 '18 at 0:37

@撤消是的，我知道了风险因素，但是，如果到目前为止，这些较高风险职位的准确性为100％，那么删除合法职位的机会就非常低。既然其余的帖子仍然只会得到3个标志，对吗？那只是我的2美分。我认为奖励没有太大的风险:)

–alexr101
18-3-6在16:35

这就是我所看到的@ alexr101。是的，其余职位将保持当前状态。

–撤消
18 Mar 6 '18 at 16:36

#2 楼

到目前为止，我看到烟雾探测器项目运作方式的最大优势是它的透明度：使用这些站点最令人沮丧的方面之一是，要准确确定给定场景中发生的事情有多么困难（更不用说为什么发生了））-即使是主持人，也有很多数据不可用或更经常使用，但联系不明确，因此弄清投诉背后的事件顺序确实是一件令人头疼的事情。对于普通用户而言，解密他们遇到的奇怪事物可能需要了解隐藏的工具，并需要4年的Meta Minutiae学位。

但是烟雾探测器？一切都很好，处于开放状态且高度交联。报告的内容，原因/报告者，帖子所说的内容和撰写者，创建时间，删除时间，标记者...大量垃圾邮件记录，详细内容，供审查考虑到这一点的任何人。

切入点

考虑到这一点，似乎很讽刺的是，这里表达的大多数担忧都以某种方式与问责制有关。事实并非如此：对于所有数据（以及在Web界面中公开的强大搜索/过滤功能），Smoke Detector遭受着同样的问题之一困扰，这些问题困扰着Stack Exchange上其他功能强大的系统-可发现性！

我没有明显的方法可以看到（作为用户或主持人浏览我的网站）Smoke Detector项目已识别，标记或删除了什么（如果有的话）。
如果我确实收到了垃圾邮件删除的帖子，则没有明显的迹象表明Smoke Detector参与其中。我发现此问题的最可能途径是，观察通常不在我站点上活跃的某人的评论，但是这种罕见的情况仅适用于观察边界帖子的活动。我对项目范围和价值的看法不可避免地会歪曲。

幸运的是，我认为可以很轻松地解决这些问题。我最初的建议是为烟雾探测器在其上识别出帖子的每个站点生成一份月度报告，汇总已识别帖子的统计信息，并链接到一个搜索，其中提供了帖子的完整列表，供有兴趣的人阅读。这样的报告可以定期发布在每个元站点上，从而提供透明度和对项目的了解，而不会影响站点本身的日常运行。

对于主持人进行研究对于特定的投诉，在任何垃圾邮件删除的帖子上查找SD数据的用户脚本都应足以减轻对假阳性未引起注意的担忧。这可能需要烟雾探测器项目提供一些额外的支持，但是我认为这不需要太多工作。

有什么想法？

易于编写用户脚本；元发布可以通过模板自动执行，并且每3-6个月从bot自身发布一次。我喜欢它，感谢您的参与。

–撤消
18 Mar 5 '18 at 22:59

我们在Metasmoke上拥有一个全新的网站仪表板，可以做到这一点，但是有些mods（可以理解）对依赖第三方工具的谨慎。

–意大利面
18 Mar 5 '18 at 23:02

我对第三方方面@quartata并不太担心，相反，在任何Stack Exchange网站上，如果您不竭力寻找它，都不会发现任何线索来暗示它的存在。就像SO上的10K工具一样，除了/ review中甚至没有模糊的灰色链接-很棒的东西，但没人知道它的存在。

– Shog9
18 Mar 5 '18在23:03

每月报告* 173个站点=相当多的工作，除非这些帖子是由漫游器生成的（理想情况下是通过接受ping的帐户生成的）

– John Dvorak
18 Mar 5 '18在23:04

@quartata问题（至少对我来说）不是第三方性质，而是我必须去检查而不是被告知的事实。如果被告知的不是真正的SE审查队列，而是任何私人消息，电子邮件或聊天机器人，那总比让我记得签出仪表板要好。

–克里斯蒂安·劳（Christian Rau）
18 Mar 5 '18在23:04

另一种（但我认为更令人讨厌的）方法是在每个自动标记的帖子上引发带有“ SD”链接到报告@Undo的“其他”标志。我讨厌这个想法，因为在绝大多数情况下，它会成堆堆积，不需要采取任何措施，但是对于非常安静的站点，它可能比用户脚本更有意义。

– Shog9
18 Mar 5 '18在23:05

@ Shog9为什么不只让mods访问最近六旗的帖子？

– John Dvorak
18 Mar 5 '18在23:05

一旦掌握了技术细节，每n个月就可以自动执行报告元发布；完全乐意这样做。不过，也许值得让网站说他们不想要这些帖子。

–ArtOfCode
18 Mar 5 '18在23:06

no野实际上，我至少会拥有一个自定义标志，尤其是如果它具有粘性，会更快乐。感觉值得一试

–游侠怪胎♦
18 Mar 5 '18在23:07

也许有一种方法可以设置年度元发布，并且每个月都添加一个新答案？我使用的某些网站每年几乎没有12个帖子……很自然。

–Catija♦
18 Mar 5 '18在23:07

@JohnDvorak metasmoke可以在发布消息时提醒CHQ；我们可以看一下ping。完全没有问题。

–ArtOfCode
18 Mar 5 '18在23:07

有一些非常安静的站点，@ John。这些标志可能会使所有改装团队不为所动。他们称之为钻石疯狂号（Diamond Madness），有一天，您偶然发现在树林中一个被遗忘的孤独小屋中，也许是为了躲避行驶的积雪，打开门后，您会看到戴着蓝色帽子的干燥尸体……骨头仍然坚硬抓住最后一个标志。

– Shog9
18 Mar 5 '18 at 23:15

如果用户可以在任何类型的标志旁边提供自由格式的文本输入，Smokey可以提交带有“ Smoke Detector autoflag（报告链接）”的自由格式条目的自动标志，并通过“ Smoke Detector标志”提交通过人工审核制作的非自动化标志审核中的人员（报告链接）”。我并不是要用它来插入我建议的东西，而是...这似乎是一个理想且相关的时间来提及该东西。

–doppelgreener
18 Mar 5 '18在23:17

可能可以采取组合方法-最小站点上的“其他”标志以垃圾邮件方式显示，而在那些足够大以具有有意义数据的站点上的元帖子。

–撤消
18 Mar 5 '18 at 23:20

@Undo SD可以始终标记（标记中的1个），然后x站点根据您决定垃圾邮件标记还是其他标记，具体取决于主持人团队在相关站点上的决定。我知道很多config :(，但是通常这是让所有人开心的唯一方法。

–Petter Friberg
18 Mar 6 '18 at 7:36

#3 楼

关于5个自动标记的问题让我担心的是，有时用户错了，现在只需要一名用户就可以通过垃圾邮件删除帖子。一个可以帮助我更好地评估这一点的统计数据是：在每个站点上，有多少个有机垃圾邮件标志被驳回或引起争议？如果甚至站点用户有时都错了-并且他们确实这样做了（尤其是在期望答案中包含产品链接的问题上）-那么允许单个用户，本地用户或（特别是）从木炭来访问时，投放具有约束力的垃圾邮件标志会让我停下来。但是我有轶事，没有数据。我们可以获取数据吗？（我知道它必须来自SE。）

我很高兴看到您的团队正在使用工具来帮助主持人监视正在发生的事情。我将需要推送通知，而不仅仅是拉（仪表板），我知道这是可能的。

鉴于SD的用户可以看到报告，第六个旗帜也很有可能来自木炭访客。我不知道这与现在使用的三个人类标志是否有很大不同。

– JAD
18 Mar 5 '18 at 14:50

请注意，这些自动标记仅投在系统（至少）确定其为垃圾邮件的99.75％的帖子上。这意味着只有非常明显的垃圾邮件才有机会让1个“真实”用户进行有约束力的投票。（只是为了防止混乱）

–脑
18 Mar 5 '18 at 14:51

@Cerbrus我们确定100.00％的帖子上可能会使用五个标志。从历史上看，每30k出现一次误报。

–撤消
18 Mar 5 '18 at 14:53

我正在尝试获取有关木炭人准确度的数据。作为基准，总体人类举报者在95.4％的时间内对垃圾邮件的准确率。

–ArtOfCode
18 Mar 5 '18 at 14:54

粗略的数据显示，木炭人的准确率为99.27％。

–ArtOfCode
18 Mar 5 '18 at 15:02

@JAD是个好点；知道垃圾邮件在多大程度上已经完全被本网站以外的用户标记了，这很有趣。（不确定如何衡量-可能是仅参与标记的用户与进行其他活动的用户？）

– Monica Cellio
18 Mar 5 '18 at 15:26

@撤消可能是将聊天室的供稿替换为已用Smokey多标记删除的帖子。我猜那是Smokey多标记的，因为那几乎是相同的，并且可能更容易生成。我愿意接受其他实现；我知道您现在可以在聊天室中发送通知，这似乎可以达到目的。另外，感谢您和Cerbrus澄清了所有可能发生的更高标准；我错过了。

– Monica Cellio
18 Mar 5 '18在15:31

@ArtOfCode每个站点都有可用数据吗？由于我不知道自己的网站与其他网站的比较，因此总数不一定能告诉我网站上正在发生的事情。

– Monica Cellio
18 Mar 5 '18在15:33

现在不是，不是。 95.4％是我们去年从jmac获得的数字； 99.27％是我询问时在场的木炭秸秆。

–ArtOfCode
18 Mar 5 '18 at 15:38

可以做到的。甚至可以构建带有标记的帖子的RSS提要，您可以将其放入电子邮件/聊天室/ IRC /任何地方-这样行得通吗？这将比直接的Smokey帖子慢几分钟，但要灵活得多。

–撤消
18 Mar 5 '18在15:54

适中，@ Magisch是次优的选择。我们需要像我们的网站仪表板这样的东西，但是它是可推送的，而不是“一劳永逸”。

–ArtOfCode
18 Mar 6 '18 at 7:58

@ E.P。事实是，举报人并不完全独立。从统计上来说，这将是非常不错的，但是事实并非如此。如果帖子已被标记为垃圾邮件或被否定，则人类更可能将其标记为垃圾邮件。特别是在木炭人的干预下，这意味着人的旗帜是相互依存的，并且在统计上没有区别。

–ArtOfCode
18 Mar 7 '18 at 11:38

@ E.P。至于错误率-老实说，我们不知道。在我们考虑设置五个标志的设置中，目前在匹配的3万个帖子中没有误报。因此，目前它的准确率为100％，但我们不知道何时可能出现误报。可能是五百万分之一；可能会更少。可能更多。

–ArtOfCode
18-3-7的11:39

@ E.P。我没有硬性数据-您需要说服CM才能做到-但是人类举报者不是独立的前提很简单：如果给定的举报者（或两个）在帖子中犯了错误，可以肯定的是，该帖子中有某些内容可能会绊倒人类。这经常在Stack Overflow的标志队列中发挥作用：多个错误的垃圾邮件标志，来自彼此之间没有明显联系的用户。

–撤消
18-3-7在15:47

FWIW，如果需要，我很乐意提供有关垃圾邮件举报者准确性的数据...但是请单独提出一个问题，这样我就不必在评论中发帖了。逗乐：它可能比您想象的要糟糕得多。

– Shog9
18 Mar 7 '18 at 16:06

#4 楼

Art在评论中提到了这一点：

但是，虽然有些人比其他人更热衷于举报

我不知道是运气不好还是很好，它发生在昨天：

红色标记的用户是一个众所周知的过分热心的举报者。我看到他们的许多垃圾邮件标志在标记后仅几秒钟便被撤消，然后使用NAA标志。带有蓝色标记的用户是炭黑（或者，至少我非常尊重他们）受人尊敬的成员，并且非常擅长决策。

在这种情况下，狂热的用户几乎立即标记了该帖子。几秒钟后，受信任的用户naa-审查了烟熏帖子。之后，第一个用户立即撤回该标志并添加了naa标志。

通常这不是问题，但是如果该用户被赋予在5个自动标记的帖子中成为第6个标记的任务，那将有所不同。

为防止这种情况的一些建议：

检查用户是否有很多无效的反馈，并从其帐户中进行标记，以便您可以确定他们不是第六名。
检查用户是否有很多无效的反馈，并停止/责骂/教育用户要更加小心。
仅使用4而不是5，但是（从数据上）这有一个缺点，即没有太大帮助。因此，我对“使用4而不是5”的声明不太满意。

你们在这方面非常聪明，可以找到更好的方法。我的唯一要求是，如果您要标记5，请确保以某种方式确保热情的用户不是决定因素。

祝你好运！

经验丰富的用户可能会被过滤掉。说，如果您错误地用一个手动标志标记一个帖子，请给一个星期的冷却时间。如果再次出现，请花一个月的时间。所谓冷静，是指禁止旗帜；）

–安德拉斯·迪克（Andras Deak）
18 Mar 6 '18 at 0:15

@AndrasDeak较小站点上的某些主持人确实会向错误标记的用户发送mod消息。但是我认为我们不应该达到那个水平。木炭必须确保它不会达到如此极端的水平。不，mod不能添加标志禁令。如果是这样，我会做到的。

–巴尔加夫（Bhargav Rao）
18 Mar 6 '18 at 0:16

噢，太糟糕了：（我想回到绘图板上；）

–安德拉斯·迪克（Andras Deak）
18 Mar 6 '18 at 0:40

您是在说疯狂的问题举报者实际上是适当的木炭用户吗（直到为自动注册而注册了他们的帐户）？也许那也说了一些话，应该调查一下，而不是思考如何最好地“削弱”它们。

–克里斯蒂安·劳（Christian Rau）
18 Mar 6 '18 at 0:51

@ChristianRau Yep，他们是注册用户。我已将其中一些自动标记标记为有帮助。

–巴尔加夫（Bhargav Rao）
18 Mar 6 '18 at 0:52

如果几乎没有发生这种可能性，那么这很清楚地表明了不给个人木炭用户单方面的垃圾邮件删除权。

–克里斯蒂安·劳（Christian Rau）
18 Mar 6 '18 at 0:53

是的@ChristianRau，是的。这就是这篇文章的重点。但是，我不会集体说“木炭使用者”，而只是一小部分人会感到高兴。大多数木炭专家都非常熟练地处理垃圾邮件（就像我提到的受信任用户一样）。

–巴尔加夫（Bhargav Rao）
18 Mar 6 '18 at 0:56

尽管这确实表明有些人过分热心，但它也确实说明了我们的审核过程-即使错误地举起了旗帜，也几乎立即被其他木炭成员抓住。这很好地说明了为什么帖子不会被删除和遗忘；如果发生这种情况（这种情况很少见），那么我们会知道的并能够提醒必要的人员。

–ArtOfCode
18 Mar 6 '18 at 1:05

是的，@ Art，是因为有好心人正确地审查了他们，木炭才因此闻名。我只是指出一个偶然发现的非常小的问题。如果我们设法解决这些小问题，那么我们当然可以赢得对系统有些怀疑的其他人的信任。（我希望我的帖子不会被“立即发送”，因为这不是我的意图）

–巴尔加夫（Bhargav Rao）
18 Mar 6 '18 at 1:10

@BhargavRao根本不希望仅强调其中的元素。我们绝对有办法遏制这种情况。

–ArtOfCode
18-3-6的1:13

#5 楼

烟雾探测器是一个了不起的项目，它激发了我们许多人去做其他类型的审核机器人。

布拉德·拉尔森（Brad Larson）在评论中对我提出的一个问题进行了说明

我不为聊天室聚集在一起以协调内容上的标记以自动删除内容而感到非常兴奋

我意识到快速删除垃圾邮件的主要目的很重要但我想我们该坐标标志/在聊天室的行为有很大的责任，听取他们对特定网站的版主（他们已经当选），我们需要保证谁不参与聊天成员/萎靡不振从来没有针对性或游戏化。

这么说，这些是利用SmokeDetector强大的功能来发现垃圾邮件并让社区主持人参与的一些想法。

让每个站点上的主持人参与其中，听并让我们决定可以投放多少个自动标记，作为一个旁注，主持人可以直接投放fl如果他们认为这是最好的解决方案，那么将是负责任的，因为社区已经信任了他们。
代替使用其他用户“真实”帐户，请创建SmokeDetector标志帐户，例如。 SD_FLAGGER1，这都将消除用户参与获得“免费”标志和徽章的想法（我知道他们获得的标志很少，但这种想法对社区不利）。更重要的是，主持人可以清楚地标记该职位。

继续保持出色的工作！

您如何建议我们让172个网站中的每个网站的主持人都参与一个主要的元帖子以外的工作？

–数学
18 Mar 5 '18 at 9:35

当然。如果单个站点对此有疑问，那么我们绝对会与他们合作找到最佳解决方案-无论是完全关闭，在当前级别还是在其他级别。但是，关于此的决定必须是社区决定，而不是仅基于mod。关于机器人帐户的争论正在进行中。

–ArtOfCode
18 Mar 5 '18 at 9:36

回复：其他帐户-本质上是伪造的，不是吗？谁拥有这些帐户？这实际上是在用袜子铸造一个标志，然后用您的主要帐户手动进行标志，这几乎是禁止的。

–数学
18 Mar 5 '18 at 9:36

@Mithrandir我听不懂你的第一句话？您需要联系每个站点上的每个主持人（例如，教师休息室），因为第二个评论不是1个帐户（SD）与其他帐户一起投放5个标志吗？

–Petter Friberg
18 Mar 5 '18 at 9:39

@PetterFriberg的区别在于，在一种情况下，您有五个人为Smokey提供担保，在另一种情况下，您有Smokey为自己提供担保。另一种选择是通过为开发者提供一个特殊的特权帐户来为Smokey提供担保，但这似乎没有必要。

– John Dvorak
18 Mar 5 '18在10:36

@JohnDvorak我更喜欢Smokey为自己担保，因为它是铸造标志，对于主持人来说更清晰/透明，并且您避免了使用免费标志/免费徽章的想法。您不需要开发人员支持，只需设置标记帐户即可。

–Petter Friberg
18 Mar 5 '18 at 10:45

@PetterFriberg：每个帐户至少需要获得15个代表才能进行举报。我宁愿看到有经验的用户为某个工具担保，而不是由5个用户自行担保的工具。

–脑
18 Mar 5 '18 at 10:48

@Cerbrus更不用说后者违反了书面规定。

– John Dvorak
18 Mar 5 '18 at 10:51

@Cerbrus，您现在有215个用户在随机站点上投放随机标志，我怀疑概述会有所不同。我们已经信任木炭关注事物，而我们信任215个随机用户中的1个。

–Petter Friberg
18 Mar 5 '18 at 11:35

需要注意的是，它们自己发出的漫游器标记并不是堆栈溢出中的新特性，是否可以教机器标记不回答并自动在它们上发表评论？

–Petter Friberg
18 Mar 5 '18在11:43

我真的很喜欢让Smokey帐户删除徽章奖励（对某些人来说是一件事情）并与旗帜来自的mod进行清晰沟通的想法。

– Monica Cellio
18 Mar 5 '18 at 14:08

当您考虑主持人具有单方面自动删除内容的能力这一事实时，布拉德的评论很容易被反驳，这比它所需要的功能还要强大。唯一的区别是，版主当选（很多主持人都来自这种有组织的聊天室，所以它不是像这些都是不可信的完全用户相比，圣人/白骑士）

– TylerH
18 Mar 5 '18 at 15:38

如果真正关心的是：徽章和标志计数/统计，那么坦率地说，我们应该谈论将这种行为设置为100％准确度阈值，并传播到社区用户中，并由开发人员和CM而不是用户进行监视。

– TylerH
18 Mar 5 '18 at 15:40

@TylerH我们很乐意这样做，但这是SE开发时间。为此已经做出了一些努力。他们都失败了。为了获得我们现在所拥有的利益而进行的整合是不值得的（特别是如果我们可以在创建后可靠地垃圾邮件<10s）

–撤消
18 Mar 5 '18在15:53

我自己找到的。一些用户正在手动拒绝垃圾邮件。自动标记不会对它产生任何影响，无论是增加标记，减少标记还是没有标记。引用罗里·索尔索普（Rory Alsop）的话，我一点都没看到问题

–撤消
18-3-5在21:56

#6 楼

我认为增加的自动标记应在主持小组和相关社区的同意下选择加入。在更广泛的层面上，我认为各个项目何时应该影响项目的运作，每个社区都应该有发言权。

对我来说，正确的工作流程是让主持人成为联系人，可以选择讨论并做出决定，以社区代表的身份和/或将其引入meta。让任何组织（除SE之外）为我们做出决定我都感到不自在。

我认为这是这里问题的很大一部分-它使事情从个人社区手中夺走的程度超出了我所能接受的范围。

曾经有一个投票案，却不知您是否参加，我向您保证，投票的可能性不大，但有人可能会选择加入而忘记。我个人更希望直接输入一些信息。

尽管摆脱垃圾邮件的个案是值得的，但是这也意味着mods不太可能注意到和破坏帐户。这不仅是删除的时间。

那么，如果这是一个拥有大量垃圾邮件的小社区，他们想要吗？这可能有效。

值得考虑是否针对纸夹进行了优化。
作为主持人，我对此有很多疑问：

A。为缩短垃圾邮件的生存时间而进行的优化是否减少了它们被搜索引擎接收的机会？

B.除了更快地删除垃圾邮件以外，对社区有什么好处？

C.与删除较少的自动标记相比，这在时间上如何比较？或更准确地说，在什么情况下自动标记有用的最小标记数是多少？

D.不利的一面是，这是否会阻止Smokey之外的人举报垃圾邮件（因为他们没有养成习惯）？

答案：（a）是。（b）。这种好处是主要的好处，同时减少了处理垃圾邮件的人数。（c）帖子中的统计数据可以回答一个-1个标志的平均TTD为〜190s，3个标志〜50s，5个标志〜10s。（d）没有数据，甚至是轶事。我希望不会，但是可能会在较小的站点上发生。

–ArtOfCode
18 Mar 5 '18 at 5:19

好处之一：我有一个庞大的数据库，其中包含您出于各种原因确实不想看的东西。讨厌的，讨厌的东西旨在困扰您很长时间。国际海事组织（IMO）可以从2到5人的视线中脱颖而出。

–撤消
18 Mar 5 '18在5:21

关于这个例子，他们在不知情的情况下投票了……这正是我和前一篇帖子的目的。它向社区通报了该项目，并允许他们注册参加。这与我们随机选择要标记为的用户不同。他们必须授权使用他们的帐户。他们单击了按钮。他们读了警告

–安迪
18 Mar 5 '18在5:23

同样在nuking帐户方面-我们看到的大多数垃圾邮件发送者都使用一次帐户，然后将其放弃。是否将它们留在此处是否会造成任何损害，这确实有待商really，因为它们的个人资料没有与任何帖子链接（都是裸体），并且他们也不会再次使用它们。

–ArtOfCode
18 Mar 5 '18在5:30

除此之外，垃圾邮件是一回事，对现有垃圾邮件的了解有助于摆脱休眠的垃圾邮件帐户。

–游侠怪胎♦
18 Mar 5 '18 at 5:56

@Cerbrus我希望活跃的人和/或帮助运行网站来决定什么程度的适当输入，并且我对主要是自动生成的垃圾邮件的决定感到不自在，而很少有人对该网站进行输入。我对为我们完成多少个标志的决定感到不满意。基本上就是上面的答案。

–游侠怪胎♦
18 Mar 5 '18在11:16

获取一个国防部来要求它-我们要么由社区选举产生，要么被挑选来代表他们。对于一个人来说，发送消息或向木炭管理员发送电子邮件应该不难。

–游侠怪胎♦
18 Mar 5 '18 at 11:29

备选方案实际上是“我们正在这样做”，尽管他们做了出色的工作，但我认为没有人真正代表网络来决定事情的工作方式。

–游侠怪胎♦
18 Mar 5 '18 at 11:30

@Cerbrus的要点是，这组用户并未参与所有站点。他们不是SE员工，只是一群宣告反垃圾邮件的志愿者（之所以会获胜是因为坦率地说，他们非常擅长于此）。这并没有改变他们不是相关社区成员的事实，因此，该提案将赋予该组“外部人员”一定程度的“权力”，以决定该社区如何做事。这似乎令人担忧。因此，将选择权交给社区而不是外部用户群体是合理的。

– terdon
18 Mar 5 '18 at 11:46

@terdon与外界的权力从协会奖金中获得的收入有何显着不同？除了一个组织之外，局外人（从特定的SE社区角度而言）已经在他们寻找的新站点上获得了足够的力量，这似乎是设计使然

– Mag
18 Mar 5 '18 at 11:48

@Magisch的不同之处在于，当您以个人用户身份创建帐户时，便会参与社区并成为社区的一部分。如果您仅创建一个帐户，从不访问该网站并且仅投下旗帜，则您将永远没有机会了解当地的文化。实际上，标记文化在整个网络中确实有所不同。想象一下一群喜欢清洁的人。他们提议进入所有公共建筑并进行清洁。免费！不过，首先问在这些建筑物中工作的人是否合理？

– terdon
18 Mar 5 '18 at 11:51

您实际上仍然阅读了您在hnq中投票的帖子。如果您真的在那儿，我会说您不是自动投票。所以...比较糟糕的@magisch。

–游侠怪胎♦
18 Mar 5 '18 at 11:58

@Magisch不，正是出于这个原因，HNQs列表是SE最令人讨厌的功能之一。如果我可以从HNQ删除我参与的站点，我会很乐意这样做。但这不是重点。 JMG在此建议的是，是否需要外部帮助应由社区来决定。由于此meta帖子建议可以为不需要的站点关闭此更改，因此可以逐个站点地进行更改。如果是这样，也可以将其关闭，然后仅逐站点打开它。

– terdon
18 Mar 5 '18在11:58

@Cerbrus实际上是一个需要解决的问题。我一直听到“很难从所有177个站点获取输入”-但我们是利益相关者-我们在这些站点上运行并创建内容。一个成功的项目不仅涉及统计数据和令人眼花shiny乱的项目，还涉及人员，沟通和某些方面，就像autofac一样。 “您有垃圾邮件！我们清洁垃圾邮件！更干净！”当我们实际上希望人们也以老式的方式关注垃圾邮件时。

–游侠怪胎♦
18 Mar 5 '18 at 12:09

如果烟雾探测器/木炭掉下来，那么这些用户将是我们的后援。在某些情况下，作为mod，我实际上想查看垃圾邮件标志，因此我知道发生了什么。我有时会在“其他”下得到一些混乱的垃圾邮件标志。我更难以核算帐户。而且，在某些时候，垃圾邮件发送者无论如何都会发展其策略，因此，我宁愿使用一个运行良好的系统，并让人们参与到“奇怪的事情”的循环中，而不是仅仅通过最少的干预就摆脱所有这些问题。它的效率更高。

–游侠怪胎♦
18 Mar 5 '18 at 12:28

#7 楼

我感谢Charcoal和SmokeDetector开发人员和用户为在Stack Exchange网站上打击垃圾邮件所做的巨大的，值得称赞的努力。
但是，对于这个特定的建议，我想评论一个特定的观点。 OP两次：

用户只需发送1或2个手动标志即可将其自动标记为垃圾邮件，而不是当前的3标记。[...]
目前有除了要标记帖子的自动标记外，还需要3个手动标记；该增加的提议仍至少保留一个人工标记。

（强调我的）。
减少到两个人工标记仍将允许人类同行评审，即，由一个人确认或争议一个人的决定。另一个人。在我看来，这是防止人类无赖的最低限度基本安全检查。它比要求三个手动标记要安全得多，但是至少它不会完全放弃同行评审。当然，这将使人类的工作量减少约三分之一。我会对此表示支持。
减少到一个手动标志将消除此关键的安全检查。我不会对此表示支持。
编辑：我看到Monica Cellio已经提出了基本相同的观点，《疯狂科学家》也是如此。

从上面的图表之一来看，四个标志与3并无显着差异。我们已经建立了可以追溯回顾所有报告的系统。我计划修改这些内容，至少需要两只眼睛看待所有内容。我不知道我们已经举报了误报而错过了它的情况-但是，欢迎您自己查看数据。

–撤消
18-3-5在21:10

@Undo，“ [使用[六个]中的四个] [计算机]标志与[使用六个中的三个]没有显着差异”。那只是考虑一个指标：删除时间。但是，就人员的工作量而言，正如我在答复中提到的那样，差异大概会更大：减少了约三分之一。

–user136089
18 Mar 5 '18在22:05

@Undo，“我计划修改它们，以使所有内容至少需要两只眼睛。”暗示您将来将要执行此操作似乎与OP的提案部分“多人查看我们抓到的每条帖子（无论是否带有自动标记）”相抵触，这表明系统已经设置为需要即使提案已实施，也需要进行人工审核。（顺便说一句：如果系统确实已经需要人工同行评审，则该建议没有任何意义，或者它以非常误导的方式使用“ nuke”。“ Nuke”表示不可撤消的删除。）

–user136089
18 Mar 5 '18在22:14

目前，您必须至少有3个人查看所有内容，然后才能将其删除。带有5个自动标志，只有一个人可以核对。我要在核事故之后再增加一个人进行审查，这样我们就不会错过任何误报（历史上是三万分之一）-本质上，至少要有两只眼睛看着误报。

–撤消
18 Mar 5 '18 at 22:16

@Undo，“核后审查”是自相矛盾的，由于我之前的评论中给出的原因，即在计算机系统的上下文中，“核”（如“切丝”）表示不可撤销的删除。请您能写得懂吗？

–user136089
18-3-5在22:18

@sampablokuper-在这种情况下，“ nuke”表示删除。撤消的意思是查看事实之后发生的情况-在删除帖子后，事后回顾情况。

–数学
18 Mar 5 '18 at 22:20

♦主持人可以撤销对帖子的裸体。这是我们不想发生的事情；这种情况极不可能发生，但如果确实如此，我们可以将其解决。

– Glorfindel
18 Mar 5 '18 at 22:21

Glorfindel和Mithrandir，也许在Elrond中“裸体”的意思有所不同，但是如果OP希望普通SO用户理解他们的帖子，那么如果可以在计算环境中根据通用约定使用该术语，将会大有帮助，即意味着删除不可撤销。如果您＆撤消＆OP呼吁使用某种组内反模式重新定义通用术语，则应在尝试使其他人参与讨论之前放弃该做法，否则将发生完全可以避免的误解这里：（

–user136089
18 Mar 5 '18 at 22:31

我在这里同意sampablokuper，@ Undo-否定“ nuke”术语将是一件好事，因为它提出了更多……最终的含义，而不是这里实际讨论的内容。 Trivia：我的手机上有一个名为“ nukethis”的小书签，它可以将屏幕上显示的任何内容都删除，将其删除，然后销毁其作者，其理由是要确保其IP在接下来的一段时间内不能发布任何内容。这与我们在这里可以找到“ nuke”差不多。

– Shog9
18 Mar 6 '18 at 3:45

谢谢，Shog9 :)顺便说一句，s / Elrond / Rivendell /。显然，自从我阅读托尔金以来已经有很长时间了。

–user136089
18 Mar 6 '18 at 6:10

@sampablokuper是好是坏，“ spam-nuke”是我见过的6标记=自动删除机制中最常见的（短期）术语。我想我什至看过一些SO的mod都这样称呼：/

–mbrig
18年3月6日在17:24

为了澄清起见，当我们“查看”帖子时，通常是查看存储在网络信息中心中的镜像副本，这就是为什么在对其进行“裸体”（或删除）后仍然可以看到它的原因

– Anussidney
18 Mar 6 '18 at 20:23

@mrbrig：肯定会更糟。

–user136089
18 Mar 6 '18 at 21:14

@angussidney，感谢您的澄清。但是（这并不是针对您本人，而是针对导致它发生的小组思考）：将“镜像副本...存储在我们的Web仪表板中”（即迁移，归档或隔离）与“ “ nuke”通常是指在计算中，我什至无法开始表达使用该词来形容它是多么令人难以置信的误导。

–user136089
18 Mar 6 '18 at 21:18

#8 楼

与透明性问题相关，也许自动标记帖子下的自动评论将有助于理解和发现烟雾探测器的现场活动，而不是需要搜索Meta Smoke或每月报告，例如肖格建议。

当然，仍然可以使用这些工具，但是自动评论会出现在帖子中，并且更易于访问。它还会显示所有潜在的手动标记程序，它们已被自动标记。为了帮助用户不了解项目，当将Smokey添加到FAQ中时，自动注释可能包括指向Charcoal Wiki的链接或有关Meta的规范帖子，也许是FAQ。

垃圾邮件发送者会发现我们有一个更积极的系统来删除垃圾邮件，并且将更加积极地发送垃圾邮件。

–好奇号刺猬索尼克
18年3月6日在4:50

它可以喂入垃圾邮件过滤器，这样可以更快地清除它们，请记住，烟熏式垃圾邮件过滤器。我实际上认为有些反馈-可能通过自定义标志之一可能会对当前系统有所帮助

–游侠怪胎♦
18-3-6在4:55

@Ano在极少数情况下，垃圾邮件发送者查看他们自己的帖子（他们不这样做）对于他们来说发现我们不喜欢他们并采取行动对他们来说并不是一件坏事。当然，大多数人显然是re悔的，向他们提供过多有关我们对策的细节将是愚蠢的。但是我认为这不可能越过那条线。

–tripleee
18 Mar 6 '18 at 5:50

@Ano erm，敏锐的垃圾邮件发送者已经可以阅读所有这些内容？并可以访问普通社区拥有的所有内容。

–user310756
18 Mar 6 '18 at 6:21

@Ano（如果有的话）将使垃圾邮件发送者意识到，他们可以更好地将时间和资源花费在其他站点上，而对垃圾邮件的保护则更少。 :)

–影子向导正在接种疫苗
18 Mar 6 '18 at 7:22

有几个很好的理由不让烟雾探测器或其用户发出自动评论。主要原因是SD用户实际上无法采取任何措施来帮助帖子被自动删除的人-这需要主持人。 “嘿，我们出于[原因]删除了您的帖子-如果我们弄错了，请帮助我们训练分类器！”不是对该网站的出色介绍。除此之外，我们从经验中知道，准确地告诉垃圾邮件发送者垃圾邮件识别出的内容只会导致冗长而乏味的过程，从而禁止电话的所有可能的unicode表示＃

– Shog9
18 Mar 6 '18 at 17:49

但是，可能不发表评论的最好理由仅仅是他们是评论-大多数读者的期望是，在他们背后会有一个对反馈做出响应的人。如果无法实现，就无法确定反应是什么。我曾经让垃圾邮件发送者进行公开记录搜索并威胁我的家人。您通常不会从垃圾邮件标志中获得期望，因为它是完全匿名的。期望志愿者坚持自己的错误是可以的；期望他们不会容忍虐待。

– Shog9
18 Mar 6 '18 at 17:54

@ Shog9好吧，我当时以为Smokey会发表自动评论-所以缠着烟熏会很难-但如果您认为这会使垃圾邮件发送者更容易-事实是-他们可以在任何网站上点击垃圾邮件标签，找到他们需要知道的所有内容-也许评论会更容易。是的，希望得到答复-可以将用户引导到木炭聊天。无论如何-没什么大不了的-这是一个想法进行评估，听起来好像不是一个好主意。很抱歉您的家人受到威胁-太多的心理困扰

–user310756
18 Mar 7 '18 at 0:53

#9 楼

警告说明，我在这里没有阅读所有答案。我确定我写的东西在某处是重复的。
我喜欢烟熏，效果很好。是的，我相信它可以完全自动删除垃圾邮件。
我将指出一些“问题”，然后窥视它们（毕竟我们在meta上）。
移动有两个问题从3个标志到5个标志。

我们真的需要额外的速度吗？在我管理的网站上，我们没有收到太多垃圾邮件。（Smokey已自动标记8个帖子）。有了用户群，以及我们每天收到的问题数量，我们真的不需要在垃圾邮件上使用机枪。对我们来说，一只友好的熊似乎已经足够。

人类比机器更容易出错。是的，吸烟率在99.7％左右是正确的，但是人为错误率是多少？（我犯了错误，单击了错误的按钮，等等。）现在，只有一次人工投票，您就删除了人工自我检查。只有一个人投票才能避免人为错误。我不喜欢那个主意（我不信任BSE上的某些用户，而且我知道您的网站上也有此用户。）从本质上讲，我们将给遇到自动标记后主持人权限的任何人。

我知道，smokey只会自动标记最明显的垃圾邮件。帖子SE应该被过滤掉了。
鉴于此，我完全可以将Smokey移到5个标志。我相信冒烟的人，如果能很好地发现垃圾邮件真的很不错，我认为用户是不会陷入困境的。假设我们有一封垃圾邮件，如果用户认为它不是垃圾邮件（某种方式），则该邮件在队列中等待下一个家伙。
关于速度，这是垃圾邮件。我们越快摆脱它越好。我们可能不需要“速度”，但是更快地消除垃圾邮件不会有任何危害。
继续努力。
请记住，只有您可以阻止垃圾邮件。

请注意，只有能够获得5个自动标记的帖子才能被系统完全确定为垃圾邮件。在SD历史上将近3万个垃圾邮件帖子中，有严格的标准可以接收5个自动标记，其中没有一个是误报。任何不符合这些条件的帖子都不会获得5个自动标记，这反过来意味着更多的用户将需要参与其中以减少垃圾邮件的删除。基本上，该系统是设计使然的。

–脑
18 Mar 6 '18 at 20:38

#10 楼

建议1：网站透明度

提供被标记为垃圾邮件的清晰列表（作为单独的审阅队列或仅作为列表）。这样，网站社区可以选择游戏化，获得另一个金牌以供审核，以审查垃圾邮件的删除历史以确保准确性。

建议2：用户透明性

让它变得水晶般清晰向用户明确表明，他们的帖子已被删除为垃圾邮件，并且带有明显的链接，可用于对此进行争议（以及可靠的工作流程流程）。这可能无法解决100％的误报，其中有些可能来自新用户/未注册用户；但这至少有望减少误报用户带来的悲伤和不安。

＃2是需要在SE方面完成的工作。＃1但是，我们确实有：metasmoke.erwaysoftware.com/sites/dash（“自动标记”标签）

–ArtOfCode
18 Mar 5 '18在22:35

我刚刚发布了类似内容，但强烈反对＃2-这实际上是向垃圾邮件发送者/巨魔发送路线图。与任何处理不当的帖子一样，委屈的用户应标记主持人的注意力，并让他们确定需要采取的措施-不应有两条基于标记者的用户来补救的途径。现在缺少的工具是允许主持人从这样的帖子中快速访问Smoke Detector的工具。幸运的是，这更容易解决。

– Shog9
18 Mar 5 '18 at 22:58

@ Shog9-我应该更加清楚了，但是＃2只是提议-主持人的标志。我只是想使它变得明显可见，以使一些随机的新手受益，这些新手从未听说过主持人标志，并且不知道小“ flag”链接的作用。通过自定义消息，例如重复的VTC Q

–DVK
18 Mar 6 '18 at 0:37

现在，我们在显示@DVK帖子中显示删除原因方面做得更好-但任何人都可以使用标志。那和/ contact。这就是作者删除垃圾邮件的样子-使得更多的解释超出了本讨论的范围（被误删除的帖子很少发生，但是在不抽烟的情况下发生的更多而不是在其中）。就是说，如果您有想法，请不要犹豫在此处提出一个更直观的UI。

– Shog9
18 Mar 6 '18 at 3:54

@ Shog9-恕我直言，仅添加诸如“如果您认为这被标记为错误的垃圾邮件，请单击'标志'链接以警告主持人”之类的内容就足够了。

–DVK
18年3月6日在4:00

#11 楼

我的担心是提醒用户一般。也许有人建议避免将自己的问题/帖子误标记为垃圾邮件。这对于发布的任何链接来说尤其重要...例如“执行”或“不执行”等。...

尽管SmokeDetector可能检测到普通用户的“垃圾邮件边界”问题，但它绝对不会达到自动标记的阈值。

–脑
18 Mar 12'18在8:02

@Cerbrus认识

–JosephDoggie
18年3月13日在13:55

#12 楼

我并不反对这个想法-但我认为，使用实际的用户帐户执行自动入侵是一个狡猾的骇客，应该加以纠正，然后再进一步推广。虽然这是一个实验，但还算公平-但是现在这已经超出了实验阶段了。

创建一个可以抽出多个垃圾邮件投票的SmokeDetector用户是多么合理？我认为，如果发生这种情况，我们将解决其他答案中突出显示的透明度问题。

实现这种透明度后，我对将其提高到4票（即2票）的想法感到满意。仍然需要人工投票）。一旦我们尝试了一段时间，再次运行图形应该使我们对应该如何进行进行深入了解。

我不喜欢为此使用假/单独帐户的想法。从哲学上讲，这打破了传统：它允许控制该帐户的任何用户享有比其他用户更多的特权。从实践上讲，它消除了出错的成本：每个签约的人都这样做，尽管他们仍然对自己的行为负责，即使他们允许SD在某种程度上决定这些行为；如果轻率地承担起责任，他们将失去自己的账户。

– Shog9
18 Mar 6 '18 at 4:06

@ Shog9-这实际上是一个非常令人信服的观点...关于特殊用户的一件好事是，如果使用haywire，则只有一个用户要禁止（并且大概会使发现它造成的所有损害相对容易））。我还想象过，这样的用户几乎没有其他特权（即，它不能投票/回答/评论/等），因此除了垃圾邮件标记之外，它不是一个有用的帐户。但是潜在的责任追究是一个很好的反驳。

–阴影
18 Mar 6 '18 at 4:24

@Shadow如果事情变得一团糟，我们还有其他方法可以解决这个问题。无论有什么人注意，它都会很快关闭，如果有必要，我们可以撤回拥有的API访问令牌。

–ArtOfCode
18 Mar 6 '18 at 5:36

@ Shog9和Shadow，我仍然不同意；拥有专用的bot帐户会更干净，最终bot开发人员始终要负责（很难选择负责300个用户的随机选择），这对主持人来说很麻烦，而且是游戏标志和徽章（我不在乎，但是一些）。也许是的，如果改用开发者帐户，但最好是将一个机器人帐户连接到一个单一的开发人员，但这是最好的，但是我想最好是在另一个元数据上进行讨论，并专注于SD应该在此元数据上使用的标志数。

–Petter Friberg
18 Mar 6 '18 at 20:37

好的，所以您想要专用帐户@Petter吗？我认为这是我们必须非常非常小心的事情；整个系统是围绕个人责任而设计的，并且一个机器人帐户将其与任何个人分开。尝试着重于这种安排可以解决什么问题，以及如何减少错误或滥用的风险。

– Shog9
18 Mar 6 '18 at 20:43

@ Shog9是，无论是开发人员帐户（例如Andy，评论bot）还是1个连接到开发人员资料的单个bot帐户（例如BR，natty），开发人员都无法标记bot何时运行，这可以使主持人清楚地知道发生了什么（他们知道为什么要进行标记），该标记要么发给开发人员（优点），要么发给机器人帐户，但该规则与SD并没有直接的联系，更不是一般的规则。从+300个用户群中随机选择一个用户似乎很杂乱，没有优点。

–Petter Friberg
18 Mar 6 '18 at 20:48

要标记5次，您只需要5个开发人员（因此，对于SD来说可能不是问题），但是是的，连接到bot帐户的用户无法对其进行自我标记。如果bot混乱，您只需按照个人资料中的开发人员链接进行操作，找出谁应该负责并可以解决问题

–Petter Friberg
18-3-6在20:49

只是为了争辩，假设您有300个用户，并且错过标记300次，但是每个用户只有1个错过标记（您将如何指责该用户？）。对于SD而言，情况并非如此，而只是试图解释责任逻辑是如何失败的，而且由于徽章对于某些人来说是一件事情，这300个用户有什么优点？主持人如何轻松地识别出它是自动标记的，如果他们会看到随机的用户（他们甚至无法获得谁是谁的经验）

–Petter Friberg
18 Mar 6 '18 at 21:09

我认为您应该写一个答案，@ Petter;在最后两个评论中有很多要解压的地方。在编写该代码时，请考虑以下问题：一个机器人是不够的。 5个机器人可能还不够。具有15个代表的用户以10个标志开始，并且直到有数百个过去的有用标志时才显着增加-因此，在一个存在垃圾邮件问题的网站上，您将需要很多机器人。如果您想每天在40个帖子上增加5个标志/帖子，则最少需要200个机器人。即使创建200个网络范围的sockpuppets，也没关系。

– Shog9
18 Mar 6 '18 at 22:29

w，@ FTP是正确的，我在这里没有想清楚。 20个机器人仍然是个问题，但少于200个。

– Shog9
18 Mar 6 '18 at 23:25

@ Shog9从根本上讲，允许机器人代表我行动将责任（我的）与控制（机器人的）分开。如果其行为导致我被禁止，我无权追索，只能将其停用并道歉。我看不出有什么比拥有专门的帐户更好的方法，在这种帐户中，责任直接放在开发人员身上，而不是隐式地放在开发人员身上。

– jpaugh
18 Mar 7 '18 at 15:29

这就是追索权，@ jpaugh。您正在使用的工具-不能免除您的责任。在实践中，如果出现严重错误，我们可能会同时禁用该工具和使用该工具的人员，直到可以解决问题为止。但是与Petter的担忧一样，如果我们正在讨论假设的情况，那么这可能应该是单独的讨论。

– Shog9
18年3月7日在16:03

@Cerbrus负面。每个拥有SmokeDetector特权的人。那就是硬编码到Smokey的配置中的列表，可以在GH（以及所有mod）上找到。

–ArtOfCode
18 Mar 7 '18 at 16:29

@ Shog9是的，这是现状；这就是为什么不管精度如何我都不会启用烟雾探测器的原因。

– jpaugh
18 Mar 7 '18 at 16:40

我对此表示赞同。并且，如果SE接口断言用户X已经采取了行动，则其他用户应该能够信任此断言。目前，他们还不能。诸如en.wikipedia.org/wiki/Wikipedia:Bot_policy之类的内容将更加透明和负责。为了进行任何CRUD操作，第三方机器人不得伪装成人类用户，除非可以进行检索。我很失望SE认为它可以接受，更不用说如此规模了。打击垃圾邮件很重要，但很难证明如此严重地滥用问责制是合理的。

–user136089
18年8月8日在0:03

#13 楼

我也反对只将其归结为一个人。保持两个或多个。

垃圾邮件标记会将帖子/答案放在评论队列中吗？（如果有必要的话）（我认为）可以更快地获得最后两票。

Stack Exchange没有针对垃圾邮件内置的审核队列，不。实际上，垃圾邮件唯一放入的审核队列是我们在Metasmoke（木炭的Web仪表板）上进行操作的队列。

–ArtOfCode
18-3-7的3:37

也许值得改变。一个垃圾邮件标志（自动或手动）以及审阅者将收到警报。垃圾邮件虽然不好，但还不至于冒着由于四个错误的自动标记以及一个人的错误或意外而丢失好帖子的风险。

– WGroleau
18 Mar 7 '18 at 4:26

这在MSE上值得进行功能请求。由于我们不在SE团队中，这不是Charcoal可以实现的，但是我很高兴看到它。

–ArtOfCode
18-3-7的4:37

#14 楼

在单个“自动标记透明性”部分上，一个或几个想法就可以了，而不是需要具有特殊特权（例如“每个帖子多个标志”）的帐户来创建并注册系统范围内的5个帐户。说到CharcoalAutoflag1到5，或者说出更好的方法。他们可能需要额外的标记量，但不需要特殊的每条标记。他们只是像真实的人一样堆积。确实，如果它们是准确的，则可以通过将其标志归类为“有用”来获得与实际用户相同的额外标志量。

如果是这样的话：

99 ％垃圾邮件，CharcoalAutoflag1对其进行标记。

99.5 CharcoalAutoflag2也对其进行标记

99.75 CharcoalAutoflag3也对其进行标记

99.95 CharcoalAutoflag4也对其进行标记

99.99 CharcoalAutoflag5也会对其进行标记（或将其放置在99.999或许多小数位。）

我同意从垃圾邮件清除的角度看，自动标记似乎很好的一般想法，但如果假装是真正的用户在进行举报，则帖子是否被人员或漫游器举报完全不明显。无论有哪个帐户都与最高确定性相关，请发表以下评论，即“木炭的自动垃圾邮件检测将此帖子评估为99.5％可能是垃圾邮件”或类似消息的效果也可能会有所帮助（也许您正在这样做，我已经几乎没有花整个晚上的时间梳理整个背景故事，以对直到今天为止我还不知道的一小部分过程进行评论。）

如果您从垃圾邮件中删除垃圾邮件，则将其标记为垃圾邮件的可能性要小得多。删除垃圾邮件在禁止垃圾邮件发送者方面适得其反。

–脑
18 Mar 7 '18 at 14:40

SmodeDetector不会留下任何自动注释。使这些自动标记可识别确实是一个问题，但是我不确定注释是否是解决方案。

–脑
18 Mar 7 '18 at 14:42

我编辑了@Catija，删除了所有您忽略与问题相关的内容的附带注释部分。您可以删除3条与现在无关的评论，然后返回到实际问题。

– Ecnerwal
18 Mar 7 '18 at 16:47

您可以随意将帖子的这一部分归咎于下降投票，但您不是建议使用特殊帐户的第一人，因此您可能在阅读其他答案之前可以先实际阅读其他答案作为解释。例如，请参阅此答案的注释。您的答案可能会更详细，但它仍然表明不太可能是一个好的选择。

–Catija♦
18-3-7的16:55

您已经错过了需要多个帐户的原因-每个帐户都有有限的标志。尽管到那时为止您的想法都是有意义的，但是“ 99％”将需要在每个漫游器之间分配，否则第一个漫游器将在第5个漫游器之前用完标志。

–阴影
18 Mar 8 '18 at 0:22

这样做不起作用的原因之一是垃圾邮件泛滥成灾。我们将需要一大堆具有assoc奖金的帐户，因为像说平面设计这样的小网站一年内几乎什么都收不到，突然每天有20条帖子出左字段。

– Mag
18年8月8日在7:39

编程黑洞网