好消息是该过程取得了预期的结果。最好是在受控测试中发现错误,而不是在中断期间发现错误。就是这样。我们发现了一些错误(配置问题和一些实际的软件问题),在真正的紧急情况下很难解决。相反,我们可以在常规软件推出过程中解决这些问题。实际上,许多错误已得到修复。
看到这么多有趣(有趣)的评论也很有趣。人们提出了有关声誉和其他问题的有趣案例。感谢所有提供反馈的人!我学到了很多!
更新:测试完成。它开始于世界标准时间00:01,结束于世界标准时间00:13。谢谢!
MicroVersion:计划的服务降级:所有Stack Overflow / Stack Exchange网站在美国东部时间晚上8点(UTC午夜)后不久(2017年5月3日,星期三)为只读状态,为20分钟。如果您眨眼,则会错过它。
短版:
美国东部标准时间晚上8点(UTC午夜)后不久,服务会降级长达20分钟在2017年5月3日星期三发布。在此期间,广告仍将显示,列表仍将有效,问题和答案仍将显示。但是,该网站将是“只读的”,即人们将无法添加/编辑新列表,发布/编辑问题/评论/答案等。我们不喜欢这样做,但这是不可避免的,并且将防止将来出现更大的问题。该测试应该不会造成很大的破坏,因为该站点仍可为大多数用户使用。受到影响的用户将看到警告标语。
有什么问题或疑问?请在下面发表评论或回答。
在LAYPERSON的条款中:
背景:
我们的网站在名为NY(位于泽西市)的数据中心的计算机上运行。
我们有一个名为CO(位于科罗拉多州丹佛)的重复数据中心。 br /> CO是我们的“故障转移”位置,仅在NY遇到问题(以及类似测试)时使用。
那是怎么回事?
服务降级期间,这些网站将从CO短暂运行,然后切换回NY。我们将执行此操作以发现NY和CO之间的任何不一致之处。我们希望在安全且可控制的环境中(而不是在紧急情况下)发现这些问题。通过禁用新内容(或编辑旧内容),整个过程变得更安全,更快捷。
为什么?
我们进行这些测试以确保我们为大批量生产做好了准备紧急情况。
我们现在希望在容易解决问题的时候发现问题,而不是在发生紧急情况时(例如飓风桑迪摧毁整个纽约州)发现问题。因此,就像小学生为了进行练习而进行消防演习一样,我们偶尔也会进行这些测试,以确保我们为真正的紧急情况做好了准备。可悲的是,我们一年没有进行测试,这很糟糕。
因此,我们将于5月3日进行小测试,以准备今年夏天进行更大的测试。具有讽刺意味的是,由于我们在这次测试中学到了什么,因此更大的测试对于我们的用户几乎是看不见的。
问题或疑虑?请在下面发表评论或回答。
在技术术语中:
这是对CO的“只读”故障转移,然后再切换回去。换句话说,CO当前正在待机模式下运行。激活CO以确保已正确配置它。
详细信息:
开始:美国东部时间2017年5月3日,星期三,美国东部时间下午8点后不久。 >结束:20分钟的用户可见的只读状态。
受影响的用户:所有服务(问答,人才等)将保持20分钟的只读状态。
我们做什么将会做:
将CO数据中心激活为我们的只读主位置。
测试服务。
回到纽约。
不会发生的事情:
我们不会在纽约关闭任何产品。它将保持运行。这使切换回程变得容易。
今年夏天发生了什么事?
在6月或7月,我们将在CO以外的地方运行一周(也许2天)。纽约州需要进行一些维护,这需要实际的停机时间。维护完成后,我们将切换回纽约。客户可见的任何停机都将非常短暂,并且会在周末发生,以最大程度地减少影响。设置日期后,再找其他帖子。
有什么疑问或疑问吗?请在下面发表评论或回答。
#1 楼
是否会关闭并删除选票,更重要的是,标记仍然有效?如果不正确的内容在UTC 0:00之前发布,则如果禁用了标志和删除选项,则可能会停留20分钟。如何处理?评论
不,只读确实意味着只读。不允许更改。该数据库将被及时冻结。如果发生实际问题,我们可以直接访问主Web层/数据中心并采取措施。
–尼克·克拉弗♦
17年4月27日在22:59
很好的问题,顺便说一句!下次,我将“投票”添加到模板中。
–汤姆·利蒙切利(Tom Limoncelli)♦
17年4月27日在23:00
这不能为问题提供答案。如果您有新问题,请单击“提问”按钮提问。如果它有助于提供上下文,请包括指向该问题的链接。开玩笑:-P
–兰德·托尔
17-4-27在23:18
很高兴知道。我将安排我的垃圾邮件机器人在世界标准时间23:59做一些额外的帖子。
– Suragch
17年4月28日在2:02
只是为了确认,@ NickCraver; 20分钟结束后,尚未生效的未决关闭/删除投票等仍会存在吗?
– MTL
17年4月28日在4:28
@Suragch :-D无论如何,我很想知道是否有人会真正做到这一点!
–法比奥说恢复莫妮卡
17年4月28日在9:41
@Suragch Smokey的平均删除时间约为30秒atm;)
– CalvT
17年4月28日在11:14
@CalvT在StackOverflow上暴露30秒就像在其他任何地方暴露一年一样。
–丹
17年5月3日在20:09
其实@Dan不,因为垃圾邮件发送者没有意识到,因此SO在所有链接中添加了rel =“ nofollow noreferrer”,因此Google不会为它们建立索引-因此,SO上的任何垃圾邮件仅对SO用户可见,并且仅适用于几秒钟
– CalvT
17年5月3日在23:03
@CalvT我不会仅出于劝阻垃圾邮件发送者的观点而与您不同意。 :)
–丹
17年5月4日在14:22
#2 楼
主站点-完全
元站点-完全
元堆栈交换-完全
区域51-未知(但可能如此)
堆栈溢出聊天室-未知
元堆栈交换聊天室-未知
堆栈交换聊天室-未知
文档-完全
工作-完全
开发人员故事-完全
评论
他们正在谈论“所有堆栈溢出/堆栈交换站点”,尼克·克拉弗说他们将冻结数据库,因此我认为您可以将列表替换为“全部-全部”。
–法比奥说恢复莫妮卡
17年4月28日在9:33
聊天是一个很好的问题,我们将讨论。文档,乔布斯,故事:是的,只读-它们都在Stack Overflow和Careers数据库中。
–尼克·克拉弗♦
17年4月28日在10:28
请注意,Mego最初在此评论中询问聊天。
– wizzwizz4
17年4月28日在17:06
无法聊天二十分钟对我来说太痛苦了。请不要这样做!
– John Dvorak
17年5月1日晚上11:15
你的意思是我要过20分钟才能有生命吗???
– Y12K
17年5月2日在5:37
#3 楼
由于数据库当时处于冻结状态,某些内容的5分钟宽限期将如何工作(对于冻结操作之前刚发布的帖子)?预先感谢。
评论
让我澄清一下:数据库没有及时冻结。此只读测试有效定位的数据库副本是。它们是通过SQL可用性组的只读副本。成功发布的所有内容都将发布到主数据库,并将在几秒钟内复制到有问题的数据中心。
–尼克·克拉弗♦
17年4月29日在11:54
@NickCraver但是我的问题是宽限期。
– iBug说恢复莫妮卡
17年4月29日在12:23
@NickCraver对于提交某种不会被记录的内容的人来说,这将是一个竞赛条件吗?还是在最坏的情况下将其记录到纽约,但在测试结束前20分钟内看不到它。
– corsiKa
17年4月29日在22:30
@iBug您能指出我所指的宽限期吗?老实说,我不知道你在说什么...
–尼克·克拉弗♦
17年4月30日在15:49
@corsiKa没有任何竞争,从主服务器到副本服务器的复制将一直有效(总是如此),提交的任何机会通常应在一秒钟内反映到另一个数据中心中。
–尼克·克拉弗♦
17年4月30日在15:50
@NickCraver例如,上次编辑后5分钟内编辑的帖子将不会显示为其他版本,评论只能在原始帖子后5分钟内编辑,依此类推。
– iBug说恢复莫妮卡
17年5月1日在0:00
好吧,我个人希望我们将完全失去它。在只读期间延迟宽限期仅对监视只读精确结束的人员有用。大多数其他人可能会错过它,反正会丢失它。因此,令我惊讶的是,Stack Exchange工作人员会认为对实施此类推迟计划很有用。
–Frédéric
17年5月1日在11:41
如果在该宽限期内启动了只读模式,则除非我们退出只读模式,否则您将无法进行任何其他编辑。正如@Frédéric所说,宽限期不会延长。
–亚当·李尔♦
17年5月3日在8:06
你想得太多了。帖子的宽限期通常不会有太多的修订,而5分钟内再进行几次修订是微不足道的。评论的宽限期应是纠正错别字,而不是改变内容。如果您无法忍受某些错字,只需删除您的评论即可。
–吗?
17年5月4日在13:40
#4 楼
受影响的用户将看到一个警告标语。如果标语有指向该元文章的链接,那将是很好的。否则,以为只有这种情况才会发生,因此不知道这一点的人可能会报告错误。
对于拥有100多个站点的网络来说,20分钟是很长的时间。
评论
与其链接到该帖子,我们的只读横幅指向我们的Twitter帐户。因为与这篇文章冻结在只读模式下(或更糟糕的是,由于某种原因离线)不同,我们可以提供实时更新。我们的Twitter帐户是@StackStatus。
–尼克·克拉弗♦
17年4月30日在19:01
以上文章的目的是告知人们这不仅对他们而且对所有人都有影响,这是一种设计状态,而不是错误。否则,有些人可能会引起不知道这一点的错误。是的,我同意你的看法。推特很好。 @NickCraver
–Optimus Prime
17年5月1日在7:47
“否则,人们可能会报告错误。”嗯,如果站点是只读的,他们将在哪里做?另外,打开只读模式时也很清楚地指出。
– wythagoras
17年5月1日在16:23
之后是只读的。有人可能会说我访问时只是Becore,我无法执行任何操作,看到此消息等。
–Optimus Prime
17年5月2日在14:06
#5 楼
会影响last seen
吗?由于我正忙于学术工作,除了每天访问
fanatic
徽章网站之外,我无法执行任何其他操作。因此,如果我在这20分钟内访问过,它会被计数并最后一次更新吗?又一个
Area51在登录的情况下可以作为一个独立对象使用,目的也有所不同。帖子没有提到它。它说的是所有SE网站和人才。 Area51会属于所有SE网站吗?
评论
区域51在信誉计数等方面被视为相同。讨论区域51与Meta Stack Exchange类似;这是一个具有自己的信誉计数器的元网站;作为Meta Stack Exchange,我认为没有理由不应该将其设为只读。
– wizzwizz4
17年4月28日在17:03
但是目的是完全不同的,我认为Area51和其他SE网站的表结构有很多差异。
–Optimus Prime
17年4月28日在17:24
您是否真的仅限一天访问网站的20分钟时间?当然,您可以在一天中的任何几个时间点执行这样的10秒任务吗?
– TylerH
17年4月28日在17:26
@SagarV可能是。我已将其添加到“将x设为只读”表中。
– wizzwizz4
17年4月28日在17:27
一个真正的狂热者每天不只一次访问该站点。最好每小时一次(即使在睡觉时)。
–我说恢复莫妮卡
17年4月28日在17:37
@Twisty等待,可以关闭选项卡吗?
–user307833
17年4月28日在18:38
不幸的是。在此窗口期间将不会跟踪最后一次看到的内容。
–尼克·克拉弗♦
17年4月28日在21:07
@ wizzwizz4对我来说听起来像是他每天12:01都有一个机器人在这样做:D
–布莱恩
17年4月29日在8:00
设置cron作业,并使用适当的args运行curl? (ps。这不是我在SO上获得该徽章的方式)
–显示名称
17-4-29在8:15
@Twisty进一步完善了您编写的内容……而不仅仅是在单个SE网站上……!此外,如果您只是访问SE网站以获取“狂热”徽章,那么您将失去使用SE网站的意义所在
– Pierre.Vriens
17年4月29日在9:18
皮埃尔(Pierre),直到20天之前,我在SO上至少活跃了9个小时,徽章数量达到了60多岁。现在我有自己的考试和一些学术著作,我根本不想浪费时间。那是我访问的唯一目的。
–Optimus Prime
17年4月30日在15:47
是的,“最后访问”存储将在此期间受到影响。有点。如果我没记错代码(此刻暂时不在我面前),我们在这段时间内也将忽略您的登录cookie,因此我们甚至不会尝试记录您帐户的访问。
–亚当·李尔♦
17年5月3日在8:08
#6 楼
除了问题中描述的这项艰巨任务之外,您可能还需要考虑以下相关主题:使用Monkeys和Gorillas。
关于将SE鸡蛋放置在何处的规则。
有关此方法的更多详细信息,请参阅我的DevOps.SE问题“如何改善SE站点的DRP测试?”的答案。
PS:如果您确实已经考虑了这些主题,因此也可能发布有关它们的类似问题。
#7 楼
杀死垃圾邮件的方法在30分钟(UTC时间23:30到00:00 UTC)之间,我们应该有禁止创建规则。这意味着没有:
发布问题和答案
编辑和建议编辑
聊天
未登录用户会看到的其他更改
投票??
但仍然可以使用:
删除/关闭投票
冲击锤
标签燃烧
sudo rm -rf badPost/
标记(各种)
这意味着我们可以将在23:29创建的垃圾邮件处理30分钟。而且由于大量的举报者和关闭/删除投票者将在30分钟内寻找新的垃圾邮件,因此出现的可能性很小,因此我们没有垃圾邮件!
我的意思是我们在00:00之前还有30分钟的时间来删除垃圾邮件,而没有创建新的垃圾邮件。
评论
不知道您要在这里说什么。...已明确10000%的站点仅在中断期间可以读取。没有帖子,没有标志,没有接近的投票,没有垃圾邮件。
–影子向导正在接种疫苗
17年5月3日在10:20
@ShadowWizard,这是尝试解决meta.stackexchange.com/a/295290/205264的尝试。
–基兰
17年5月3日,10:21
@Keelan解决了什么?您的意思是说这是对该答案的评论?尼克在评论中对这个问题提供了官方答复,真的看不到任何遗漏的东西。
–影子向导正在接种疫苗
17年5月3日在10:22
@ShadowWizard解决了可以在午夜之前添加垃圾邮件的问题,并且可以在此停留20分钟。尼克的评论并不能解决问题,但承认它在那里。我认为这不是一个大问题,只需解释一下为什么找到这个答案即可。
–基兰
17年5月3日在10:24
@ShadowWizard我的意思是,我们在00:00之前还有30分钟的时间来删除垃圾邮件,而没有创建新的垃圾邮件。
–programmer5000
17年5月3日在10:29
因此,这值得单独讨论,我认为这不是中断公告的合适答案。
–影子向导正在接种疫苗
17年5月3日在10:38
@ShadowWizard我应该将其设为单独的功能请求吗?
–programmer5000
17年5月3日在10:39
不确定功能要求,需要更多讨论,但是可以,最好单独考虑
–影子向导正在接种疫苗
17年5月3日在10:40
我认为这不是一个好主意。您不想长期限制这么大的网站。 SE团队希望此选项迅速退出。由于它们可以在内部快速删除垃圾邮件,因此您不会在网站上看到很长一段时间(我认为在删除/关闭投票等期间,垃圾邮件的发布时间与之相似)。
–alpakyol
17年5月3日在10:40
@ user3280126也许是15分钟的窗口?
–programmer5000
17年5月3日,10:45
@ programmer5000我相信,他们认为20分钟是最好的情况,因此,除了该间隔以外,更接近0分钟是更好的选择。垃圾邮件在维护期间可以删除,因此,如果是垃圾邮件,则不会增加降级时间。
–alpakyol
17年5月3日,11:27
您如何在不编辑的情况下燃烧标签?对于非垃圾邮件/辱骂性帖子,最好在您关闭/标记该帖子时解释该帖子出了什么问题,而这是不允许的。此外,将重复投票作为重复始终会留下评论。
–月桂树
17年5月3日在21:27
我什至看不到大多数垃圾邮件问题,它们在一分钟或两分钟内就被删除了,因此只需要冻结2或3分钟就可以解决新问题。垃圾邮件发送者通常是新用户,因此未经批准不能进行编辑,因此无需停止IMO的编辑。至于答案...无论如何,它们将在已建立的Q列表的底部
– Xen2050
17年5月3日,21:56
-1,因为这会发明一个不存在的问题(假设在停机之前就出现了垃圾邮件涌现)(历史上一直不是事实,即使在RO期间可见一些帖子也没什么大不了的) ),并在此过程中产生更大的问题(更长的停机时间),从而影响更多的人。 RO模式下的时间越短越好。如果您担心垃圾邮件,请多加注意,在导致停机的几分钟内,为任何烟雾探测器添加手动标记。
–卡莱布
17年5月4日在9:05
即使在中断之前没有发现一些垃圾邮件,我认为我们可以在网站上与情侣色情链接一起生活20分钟。
–吗?
17年5月4日在13:43
评论
编辑签名外行的解释似乎比技术上的解释复杂,大声笑。
感到很幽默的是,在仍然要显示的内容列表中,您认为我们希望在顶部看到“广告”。
另外,20分钟是一个漫长的眨眼;)
除了笑话,谢谢您的提前通知。说真的:)
聊天会受到影响还是只是问答?
在夏天,纽约州因维护原因而停机而CO出故障时,会发生什么情况?一切都死了吗?神奇的独角兽爆炸?半条命3发布了吗? :P
@uɐɯsOuɐɥʇɐN:半交换3确认。但认真的说,这大概是他们正在测试的一部分:确保CO在主模式下可以在相当长的时间内保持稳定。而且,这个漏洞只有一周的时间……(“仅”)。
本应计划在一天后:五月四日与您同在
@uɐɯsOuɐɥʇɐN“在夏天,纽约州因维护原因而停产,而CO出了一些问题时会发生什么?”我们会失望的。技术术语是“双重故障”。它很少见但很恐怖。 SRE团队会竭尽全力使纽约州重新崛起。现实情况是,我们计划的工作只有几次短暂的全面中断,如果CO似乎不稳定,天气恶劣等情况,我们将暂停它们。如果我们是银行或其他高度关键的服务,我们将第三或第四数据中心。 (续)
@uɐɯsOuɐɥʇɐN(续)具有1个故障转移位置称为N + 1(运行节目的N个容量,1个备用)。 N + 2表示2个备用组件(N个用于运行节目的容量,1个用于维护的备用组件,1个用于在维护期间发生故障的备用组件)。对不起自我促销,但the-cloud-book.com的第6章提供了很多有关此信息。
爱透明!
最后,我将有时间查看我的Facebook,Instagram,Twitter和WhatsApp的个人资料。
请注意,当您说“ UTC午夜后星期三”时,您的意思实际上是“星期三EDT /周四UTC”,对吗?
那是我一生中最疯狂的20分钟。非常值得炒作。 A ++++,将再次变为只读!