更新2017-05-04:仅供参考:昨晚的计划停机按计划进行。面向用户的“只读”时间段持续了大约12分钟(从00:01 UTC到00:13 UTC)。感谢大家的负面影响。感谢您的耐心配合。

好消息是该过程取得了预期的结果。最好是在受控测试中发现错误,而不是在中断期间发现错误。就是这样。我们发现了一些错误(配置问题和一些实际的软件问题),在真正的紧急情况下很难解决。相反,我们可以在常规软件推出过程中解决这些问题。实际上,许多错误已得到修复。

看到这么多有趣(有趣)的评论也很有趣。人们提出了有关声誉和其他问题的有趣案例。感谢所有提供反馈的人!我学到了很多!

更新:测试完成。它开始于世界标准时间00:01,结束于世界标准时间00:13。谢谢!


MicroVersion:计划的服务降级:所有Stack Overflow / Stack Exchange网站在美国东部时间晚上8点(UTC午夜)后不久(2017年5月3日,星期三)为只读状态,为20分钟。如果您眨眼,则会错过它。

短版:

美国东部标准时间晚上8点(UTC午夜)后不久,服务会降级长达20分钟在2017年5月3日星期三发布。在此期间,广告仍将显示,列表仍将有效,问题和答案仍将显示。但是,该网站将是“只读的”,即人们将无法添加/编辑新列表,发布/编辑问题/评论/答案等。我们不喜欢这样做,但这是不可避免的,并且将防止将来出现更大的问题。该测试应该不会造成很大的破坏,因为该站点仍可为大多数用户使用。受到影响的用户将看到警告标语。

有什么问题或疑问?请在下面发表评论或回答。

在LAYPERSON的条款中:

背景:


我们的网站在名为NY(位于泽西市)的数据中心的计算机上运行。
我们有一个名为CO(位于科罗拉多州丹佛)的重复数据中心。 br /> CO是我们的“故障转移”位置,仅在NY遇到问题(以及类似测试)时使用。

那是怎么回事?

服务降级期间,这些网站将从CO短暂运行,然后切换回NY。我们将执行此操作以发现NY和CO之间的任何不一致之处。我们希望在安全且可控制的环境中(而不是在紧急情况下)发现这些问题。通过禁用新内容(或编辑旧内容),整个过程变得更安全,更快捷。

为什么?

我们进行这些测试以确保我们为大批量生产做好了准备紧急情况。

我们现在希望在容易解决问题的时候发现问题,而不是在发生紧急情况时(例如飓风桑迪摧毁整个纽约州)发现问题。因此,就像小学生为了进行练习而进行消防演习一样,我们偶尔也会进行这些测试,以确保我们为真正的紧急情况做好了准备。可悲的是,我们一年没有进行测试,这很糟糕。

因此,我们将于5月3日进行小测试,以准备今年夏天进行更大的测试。具有讽刺意味的是,由于我们在这次测试中学到了什么,因此更大的测试对于我们的用户几乎是看不见的。

问题或疑虑?请在下面发表评论或回答。

在技术术语中:

这是对CO的“只读”故障转移,然后再切换回去。换句话说,CO当前正在待机模式下运行。激活CO以确保已正确配置它。

详细信息:


开始:美国东部时间2017年5月3日,星期三,美国东部时间下午8点后不久。 >结束:20分钟的用户可见的只读状态。
受影响的用户:所有服务(问答,人才等)将保持20分钟的只读状态。

我们做什么将会做:


将CO数据中心激活为我们的只读主位置。
测试服务。
回到纽约。

不会发生的事情:

我们不会在纽约关闭任何产品。它将保持运行。这使切换回程变得容易。

今年夏天发生了什么事?

在6月或7月,我们将在CO以外的地方运行一周(也许2天)。纽约州需要进行一些维护,这需要实际的停机时间。维护完成后,我们将切换回纽约。客户可见的任何停机都将非常短暂,并且会在周末发生,以最大程度地减少影响。设置日期后,再找其他帖子。

有什么疑问或疑问吗?请在下面发表评论或回答。

评论

编辑签名

外行的解释似乎比技术上的解释复杂,大声笑。

感到很幽默的是,在仍然要显示的内容列表中,您认为我们希望在顶部看到“广告”。

另外,20分钟是一个漫长的眨眼;)

除了笑话,谢谢您的提前通知。说真的:)

聊天会受到影响还是只是问答?

在夏天,纽约州因维护原因而停机而CO出故障时,会发生什么情况?一切都死了吗?神奇的独角兽爆炸?半条命3发布了吗? :P

@uɐɯsOuɐɥʇɐN:半交换3确认。但认真的说,这大概是他们正在测试的一部分:确保CO在主模式下可以在相当长的时间内保持稳定。而且,这个漏洞只有一周的时间……(“仅”)。

本应计划在一天后:五月四日与您同在

@uɐɯsOuɐɥʇɐN“在夏天,纽约州因维护原因而停产,而CO出了一些问题时会发生什么?”我们会失望的。技术术语是“双重故障”。它很少见但很恐怖。 SRE团队会竭尽全力使纽约州重新崛起。现实情况是,我们计划的工作只有几次短暂的全面中断,如果CO似乎不稳定,天气恶劣等情况,我们将暂停它们。如果我们是银行或其他高度关键的服务,我们将第三或第四数据中心。 (续)

@uɐɯsOuɐɥʇɐN(续)具有1个故障转移位置称为N + 1(运行节目的N个容量,1个备用)。 N + 2表示2个备用组件(N个用于运行节目的容量,1个用于维护的备用组件,1个用于在维护期间发生故障的备用组件)。对不起自我促销,但the-cloud-book.com的第6章提供了很多有关此信息。

爱透明!

最后,我将有时间查看我的Facebook,Instagram,Twitter和WhatsApp的个人资料。

请注意,当您说“ UTC午夜后星期三”时,您的意思实际上是“星期三EDT /周四UTC”,对吗?

那是我一生中最疯狂的20分钟。非常值得炒作。 A ++++,将再次变为只读!

#1 楼

是否会关闭并删除选票,更重要的是,标记仍然有效?如果不正确的内容在UTC 0:00之前发布,则如果禁用了标志和删除选项,则可能会停留20分钟。如何处理?

评论


不,只读确实意味着只读。不允许更改。该数据库将被及时冻结。如果发生实际问题,我们可以直接访问主Web层/数据中心并采取措施。

–尼克·克拉弗♦
17年4月27日在22:59

很好的问题,顺便说一句!下次,我将“投票”添加到模板中。

–汤姆·利蒙切利(Tom Limoncelli)♦
17年4月27日在23:00

这不能为问题提供答案。如果您有新问题,请单击“提问”按钮提问。如果它有助于提供上下文,请包括指向该问题的链接。开玩笑:-P

–兰德·托尔
17-4-27在23:18



很高兴知道。我将安排我的垃圾邮件机器人在世界标准时间23:59做一些额外的帖子。

– Suragch
17年4月28日在2:02

只是为了确认,@ NickCraver; 20分钟结束后,尚未生效的未决关闭/删除投票等仍会存在吗?

– MTL
17年4月28日在4:28

@Suragch :-D无论如何,我很想知道是否有人会真正做到这一点!

–法比奥说恢复莫妮卡
17年4月28日在9:41

@Suragch Smokey的平均删除时间约为30秒atm;)

– CalvT
17年4月28日在11:14

@CalvT在StackOverflow上暴露30秒就像在其他任何地方暴露一年一样。

–丹
17年5月3日在20:09

其实@Dan不,因为垃圾邮件发送者没有意识到,因此SO在所有链接中添加了rel =“ nofollow noreferrer”,因此Google不会为它们建立索引-因此,SO上的任何垃圾邮件仅对SO用户可见,并且仅适用于几秒钟

– CalvT
17年5月3日在23:03

@CalvT我不会仅出于劝阻垃圾邮件发送者的观点而与您不同意。 :)

–丹
17年5月4日在14:22

#2 楼





主站点-完全

元站点-完全

元堆栈交换-完全

区域51-未知(但可能如此)
堆栈溢出聊天室-未知

元堆栈交换聊天室-未知

堆栈交换聊天室-未知

文档-完全

工作-完全

开发人员故事-完全



评论


他们正在谈论“所有堆栈溢出/堆栈交换站点”,尼克·克拉弗说他们将冻结数据库,因此我认为您可以将列表替换为“全部-全部”。

–法比奥说恢复莫妮卡
17年4月28日在9:33

聊天是一个很好的问题,我们将讨论。文档,乔布斯,故事:是的,只读-它们都在Stack Overflow和Careers数据库中。

–尼克·克拉弗♦
17年4月28日在10:28

请注意,Mego最初在此评论中询问聊天。

– wizzwizz4
17年4月28日在17:06

无法聊天二十分钟对我来说太痛苦了。请不要这样做!

– John Dvorak
17年5月1日晚上11:15

你的意思是我要过20分钟才能有生命吗???

– Y12K
17年5月2日在5:37

#3 楼

由于数据库当时处于冻结状态,某些内容的5分钟宽限期将如何工作(对于冻结操作之前刚发布的帖子)?
预先感谢。

评论


让我澄清一下:数据库没有及时冻结。此只读测试有效定位的数据库副本是。它们是通过SQL可用性组的只读副本。成功发布的所有内容都将发布到主数据库,并将在几秒钟内复制到有问题的数据中心。

–尼克·克拉弗♦
17年4月29日在11:54

@NickCraver但是我的问题是宽限期。

– iBug说恢复莫妮卡
17年4月29日在12:23

@NickCraver对于提交某种不会被记录的内容的人来说,这将是一个竞赛条件吗?还是在最坏的情况下将其记录到纽约,但在测试结束前20分钟内看不到它。

– corsiKa
17年4月29日在22:30

@iBug您能指出我所指的宽限期吗?老实说,我不知道你在说什么...

–尼克·克拉弗♦
17年4月30日在15:49

@corsiKa没有任何竞争,从主服务器到副本服务器的复制将一直有效(总是如此),提交的任何机会通常应在一秒钟内反映到另一个数据中心中。

–尼克·克拉弗♦
17年4月30日在15:50

@NickCraver例​​如,上次编辑后5分钟内编辑的帖子将不会显示为其他版本,评论只能在原始帖子后5分钟内编辑,依此类推。

– iBug说恢复莫妮卡
17年5月1日在0:00

好吧,我个人希望我们将完全失去它。在只读期间延迟宽限期仅对监视只读精确结束的人员有用。大多数其他人可能会错过它,反正会丢失它。因此,令我惊讶的是,Stack Exchange工作人员会认为对实施此类推迟计划很有用。

–Frédéric
17年5月1日在11:41

如果在该宽限期内启动了只读模式,则除非我们退出只读模式,否则您将无法进行任何其他编辑。正如@Frédéric所说,宽限期不会延长。

–亚当·李尔♦
17年5月3日在8:06

你想得太多了。帖子的宽限期通常不会有太多的修订,而5分钟内再进行几次修订是微不足道的。评论的宽限期应是纠正错别字,而不是改变内容。如果您无法忍受某些错字,只需删除您的评论即可。

–吗?
17年5月4日在13:40

#4 楼

受影响的用户将看到一个警告标语。

如果标语有指向该元文章的链接,那将是很好的。否则,以为只有这种情况才会发生,因此不知道这一点的人可能会报告错误。

对于拥有100多个站点的网络来说,20分钟是很长的时间。

评论


与其链接到该帖子,我们的只读横幅指向我们的Twitter帐户。因为与这篇文章冻结在只读模式下(或更糟糕的是,由于某种原因离线)不同,我们可以提供实时更新。我们的Twitter帐户是@StackStatus。

–尼克·克拉弗♦
17年4月30日在19:01

以上文章的目的是告知人们这不仅对他们而且对所有人都有影响,这是一种设计状态,而不是错误。否则,有些人可能会引起不知道这一点的错误。是的,我同意你的看法。推特很好。 @NickCraver

–Optimus Prime
17年5月1日在7:47

“否则,人们可能会报告错误。”嗯,如果站点是只读的,他们将在哪里做?另外,打开只读模式时也很清楚地指出。

– wythagoras
17年5月1日在16:23

之后是只读的。有人可能会说我访问时只是Becore,我无法执行任何操作,看到此消息等。

–Optimus Prime
17年5月2日在14:06

#5 楼

会影响last seen吗?
由于我正忙于学术工作,除了每天访问fanatic徽章网站之外,我无法执行任何其他操作。因此,如果我在这20分钟内访问过,它会被计数并最后一次更新吗?
又一个
Area51在登录的情况下可以作为一个独立对象使用,目的也有所不同。帖子没有提到它。它说的是所有SE网站和人才。 Area51会属于所有SE网站吗?

评论


区域51在信誉计数等方面被视为相同。讨论区域51与Meta Stack Exchange类似;这是一个具有自己的信誉计数器的元网站;作为Meta Stack Exchange,我认为没有理由不应该将其设为只读。

– wizzwizz4
17年4月28日在17:03

但是目的是完全不同的,我认为Area51和其他SE网站的表结构有很多差异。

–Optimus Prime
17年4月28日在17:24

您是否真的仅限一天访问网站的20分钟时间?当然,您可以在一天中的任何几个时间点执行这样的10秒任务吗?

– TylerH
17年4月28日在17:26

@SagarV可能是。我已将其添加到“将x设为只读”表中。

– wizzwizz4
17年4月28日在17:27

一个真正的狂热者每天不只一次访问该站点。最好每小时一次(即使在睡觉时)。

–我说恢复莫妮卡
17年4月28日在17:37

@Twisty等待,可以关闭选项卡吗?

–user307833
17年4月28日在18:38

不幸的是。在此窗口期间将不会跟踪最后一次看到的内容。

–尼克·克拉弗♦
17年4月28日在21:07

@ wizzwizz4对我来说听起来像是他每天12:01都有一个机器人在这样做:D

–布莱恩
17年4月29日在8:00

设置cron作业,并使用适当的args运行curl? (ps。这不是我在SO上获得该徽章的方式)

–显示名称
17-4-29在8:15



@Twisty进一步完善了您编写的内容……而不仅仅是在单个SE网站上……!此外,如果您只是访问SE网站以获取“狂热”徽章,那么您将失去使用SE网站的意义所在

– Pierre.Vriens
17年4月29日在9:18

皮埃尔(Pierre),直到20天之前,我在SO上至少活跃了9个小时,徽章数量达到了60多岁。现在我有自己的考试和一些学术著作,我根本不想浪费时间。那是我访问的唯一目的。

–Optimus Prime
17年4月30日在15:47

是的,“最后访问”存储将在此期间受到影响。有点。如果我没记错代码(此刻暂时不在我面前),我们在这段时间内也将忽略您的登录cookie,因此我们甚至不会尝试记录您帐户的访问。

–亚当·李尔♦
17年5月3日在8:08

#6 楼

除了问题中描述的这项艰巨任务之外,您可能还需要考虑以下相关主题:


使用Monkeys和Gorillas。
关于将SE鸡蛋放置在何处的规则。

有关此方法的更多详细信息,请参阅我的DevOps.SE问题“如何改善SE站点的DRP测试?”的答案。

PS:如果您确实已经考虑了这些主题,因此也可能发布有关它们的类似问题。

#7 楼

杀死垃圾邮件的方法

在30分钟(UTC时间23:30到00:00 UTC)之间,我们应该有禁止创建规则。这意味着没有:


发布问题和答案
编辑和建议编辑
聊天
未登录用户会看到的其他更改
投票??

但仍然可以使用:


删除/关闭投票
冲击锤
标签燃烧
sudo rm -rf badPost/
标记(各种)

这意味着我们可以将在23:29创建的垃圾邮件处理30分钟。而且由于大量的举报者和关闭/删除投票者将在30分钟内寻找新的垃圾邮件,因此出现的可能性很小,因此我们没有垃圾邮件!

我的意思是我们在00:00之前还有30分钟的时间来删除垃圾邮件,而没有创建新的垃圾邮件。

评论


不知道您要在这里说什么。...已明确10000%的站点仅在中断期间可以读取。没有帖子,没有标志,没有接近的投票,没有垃圾邮件。

–影子向导正在接种疫苗
17年5月3日在10:20

@ShadowWizard,这是尝试解决meta.stackexchange.com/a/295290/205264的尝试。

–基兰
17年5月3日,10:21

@Keelan解决了什么?您的意思是说这是对该答案的评论?尼克在评论中对这个问题提供了官方答复,真的看不到任何遗漏的东西。

–影子向导正在接种疫苗
17年5月3日在10:22



@ShadowWizard解决了可以在午夜之前添加垃圾邮件的问题,并且可以在此停留20分钟。尼克的评论并不能解决问题,但承认它在那里。我认为这不是一个大问题,只需解释一下为什么找到这个答案即可。

–基兰
17年5月3日在10:24

@ShadowWizard我的意思是,我们在00:00之前还有30分钟的时间来删除垃圾邮件,而没有创建新的垃圾邮件。

–programmer5000
17年5月3日在10:29

因此,这值得单独讨论,我认为这不是中断公告的合适答案。

–影子向导正在接种疫苗
17年5月3日在10:38

@ShadowWizard我应该将其设为单独的功能请求吗?

–programmer5000
17年5月3日在10:39

不确定功能要求,需要更多讨论,但是可以,最好单独考虑

–影子向导正在接种疫苗
17年5月3日在10:40

我认为这不是一个好主意。您不想长期限制这么大的网站。 SE团队希望此选项迅速退出。由于它们可以在内部快速删除垃圾邮件,因此您不会在网站上看到很长一段时间(我认为在删除/关闭投票等期间,垃圾邮件的发布时间与之相似)。

–alpakyol
17年5月3日在10:40

@ user3280126也许是15分钟的窗口?

–programmer5000
17年5月3日,10:45

@ programmer5000我相信,他们认为20分钟是最好的情况,因此,除了该间隔以外,更接近0分钟是更好的选择。垃圾邮件在维护期间可以删除,因此,如果是垃圾邮件,则不会增加降级时间。

–alpakyol
17年5月3日,11:27

您如何在不编辑的情况下燃烧标签?对于非垃圾邮件/辱骂性帖子,最好在您关闭/标记该帖子时解释该帖子出了什么问题,而这是不允许的。此外,将重复投票作为重复始终会留下评论。

–月桂树
17年5月3日在21:27

我什至看不到大多数垃圾邮件问题,它们在一分钟或两分钟内就被删除了,因此只需要冻结2或3分钟就可以解决新问题。垃圾邮件发送者通常是新用户,因此未经批准不能进行编辑,因此无需停止IMO的编辑。至于答案...无论如何,它们将在已建立的Q列表的底部

– Xen2050
17年5月3日,21:56

-1,因为这会发明一个不存在的问题(假设在停机之前就出现了垃圾邮件涌现)(历史上一直不是事实,即使在RO期间可见一些帖子也没什么大不了的) ),并在此过程中产生更大的问题(更长的停机时间),从而影响更多的人。 RO模式下的时间越短越好。如果您担心垃圾邮件,请多加注意,在导致停机的几分钟内,为任何烟雾探测器添加手动标记。

–卡莱布
17年5月4日在9:05

即使在中断之前没有发现一些垃圾邮件,我认为我们可以在网站上与情侣色情链接一起生活20分钟。

–吗?
17年5月4日在13:43