这里的问题是:整个房间都充满了异味。进行嗅探测试非常困难,因为气味已经渗入所有东西(更不用说使我们头昏眼花了)。我们几乎错误地关闭了生产数据库服务器,因为它是最臭的地方。活力似乎还不错(CPU温度显示60摄氏度,风扇速度也不错),但我们不确定。碰巧的是,烧坏的电池模块与机架上的服务器的高度大致相同,并且只有3英尺远。如果这是真正的紧急情况,我们将惨遭失败。罪魁祸首。但是,如果使用带有多个设备的多个机架,它很快就会成为一种猜测游戏。如何快速准确地确定实际上正在燃烧的设备?我意识到这个问题在很大程度上取决于环境变量,例如房间大小,通风,位置等,但是任何输入都会受到赞赏。
#1 楼
普遍的共识似乎是,您的问题的答案分为两个部分:我们如何找到有趣的燃烧气味的来源?
“如何”非常明确:
“嗅探测试”
寻找可见的烟雾/烟雾
用热像仪在房间里走动查找热点
检查监视和设备面板以获取警报
您可以通过多种方式提高快速发现问题的机会-改进监视通常是最容易的。有一些问题要问:
您是否从设备中获得温度和其他健康警报?
您的UPS系统是否向监视系统报告故障?
您是否从配电设备获得电流消耗警报?
房间烟雾探测器是否正在向监控系统报告? (并且可以吗?)
我们什么时候应该进行故障诊断而不是按下Big Red Switch?
这是一个更有趣的问题。
红色的大开关可能会急忙使您的公司损失巨额资金:清洁剂的释放可能会花费数万美元,并且在紧急关闭电源(EPO,“放弃房间”)后的停机/恢复成本会很高。
您不希望丢失数据中心,因为电源中的电容器突然弹出并散发了房间的气味。
相反,服务器机房火灾可能使公司蒙受损失。数据/设备,更重要的是您员工的生活。对“那种可笑的燃烧气味”进行故障排除永远不应该优先于安全,因此,有一些明确的规则来对“火灾前”状况进行故障排除非常重要。
遵循的准则是我的个人限制,在没有其他明确定义的程序/规则的情况下(或除此之外),我将其应用-他们为我服务,我可能会为您提供帮助,但明天他们也很容易将我杀害或解雇,因此请自担风险。
如果看到冒烟或着火,请放下房间
这应该不用说,但无论如何都要说:如果发生大火(或烟雾表明很快会出现),请撤离房间,切断电源,并排出灭火系统。
可能存在例外情况(锻炼一些常识),但这几乎总是正确的操作。
如果您要进行故障排除,请至少让另一个人参与
这有两个原因。首先,您不希望在数据中心中四处走动,突然间,在您要走的那排上放了一个机架,没人知道您在那里。其次,另一个人是您进行故障排除或放弃房间的健全性检查,并且如果您致电致电Big Red Switch,您将获得第二人同意这一决定的好处(有助于避免职业发展方面的障碍)
进行故障排除时要采取谨慎的安全措施
确保始终有逃生路径(行的开口端和通往出口的清晰路径)。
br />请有人驻扎在EPO /灭火释放装置上。
请随身携带灭火器(请使用哈龙或其他清洁剂)。
请记住上面的规则#1。
何时如有疑问,请离开房间。
注意呼吸:使用呼吸器或氧气面罩。如果发生化学火灾,这可能会挽救您的健康。
设置一个限值并坚持下去
更准确地说,设置两个限值:
状态(“我会让它变得更糟吗?”)和
时间(“我会继续尝试在问题风险太大之前找到问题的时间?”。)
/>
您设置的限制还可以用于让您的团队开始有序地关闭受影响的区域,因此,当您拉动电源时,不会使大量活动的计算机崩溃,并且恢复时间会短得多,但是请记住,如果有序的关机时间太长,则可能必须以安全为名让几个系统崩溃。排除故障并清理房间。
您可能会或可能不会出于直觉而放弃房间,但出于(相对)安全的考虑,在房间外面重新分组是谨慎的做法。
如果没有,迫在眉睫的危险,您可以选择采取任何紧急措施,如采取EPO或清洁剂释放措施,带入当地消防部门。 (他们可能仍然告诉您这样做:他们的任务是保护人员,然后是财产,但显然,他们是扑灭火灾的专家,因此您应该按照他们的意愿去做!) />我们已经在评论中解决了这个问题,但也可能会在一个答案中加以总结-@ DeerHunter,@ Chris,@ Sirex,以及其他许多人都为讨论做出了贡献
评论
我去了大学,安装了一个新的数据中心。他们实施了高度复杂的EPO /灭火系统。它所保护的设备价值数百万美元,还用于学校医学部分的数百万美元研究。显然,如果需要,将按下红色按钮,但是,如果按下红色按钮,则只需重置即可接近$ 200,000美元。纳税人美元,您可以肯定地说,如果在不需要时按下该开关,则按下该开关的人将不再有工作。
–瑞安
13年4月4日在23:14
伙伴系统+1。我认为有些DC可以使用EPO来转储灭火,这有点令人发疯。在很多情况下,您都希望EPO,而又不想在遭受电击的家伙身上丢掉halotron。 EPO是一项严肃的交易,但不是“破坏DC交易中的所有内容”,或者至少不应该这样做。华盛顿特区的人们应该希望对红色大按钮和灭火系统有足够的了解,以权衡按下按钮的效果。例如,EPO实际上可以停火并保存DC。
–克里斯
2013年4月5日3:00在
我没有提到的一个重要说明是,在大多数情况下,当某些东西发生故障以散发出灼热的气味时,无论检测到哪种气味,燃烧的东西都会自行熄灭,并且不会在发生故障的设备外部燃烧任何东西。有时,只要有电,一台设备就会继续冒烟,但是,如果发现有烟,应该可以识别该设备,仅切断设备的电源,然后查看烟是否会清除或持续恶化。
–超级猫
13年4月5日在16:21
@ryan:如果按红色的大按钮要花那么多纳税人钱,负责人希望已制定出解决与当地消防部门发生的不涉及危害雇员的小事故的计划。
– Christophh
13年4月6日在8:59
@ryan这让我想起了我最近看到的有关CERN的电视报道:摄像机团队和记者真的被带到了系统的胆量,有一次,其中一个摄像机人员几乎用背包撞了一个红色的紧急关闭按钮-向考虑重新启动成本的员工提供近乎心脏病的发作...
–哈根·冯·埃森(Hagen von Eitzen)
16-4-3在10:45
#2 楼
红外热像仪可以完成这项工作,并让您确定过热的地方。这样的设备还可以使您识别出烟雾弥漫的房间中火灾或燃烧的起因。
评论
如今,热像仪的使用情况并不理想,如果您要运行一个大型服务器机房,那么它们是值得拥有的工具。
–rackandboneman
13年4月4日在15:18
T.I.C.它并不昂贵,并且在数据中心或大型服务器机房中非常有用。不仅在电缆或设备过热等问题的情况下,而且还可以作为问题的预防性或早期发现,制冷优化,空气流通等。
– ddalcero
13年4月4日在15:19
像这样的激光温度枪是一种廉价的替代品
–MichaelHouse
13年4月4日在16:40
@mfinni电工也经常有热像仪。 (当我在托管公司工作时,每年或在进行任何主要布线工作后,对配电板进行热成像检查都是标准的)。
–voretaq7
13年4月4日在19:58
热像仪具有很大的局限性:1.视场可能会阻止其使用。2.您的环境可能非常密集。 [会发现大火,但不小的火] 3.需要平均温度来确定阈值
–僧侣
13年4月5日在15:43
#3 楼
您不做任何已经说过的事情。您离开危险环境,是因为从整个房间抽出的任何东西都会危害您的健康,甚至可能使您的肺部混乱。如果您找不到房间中燃烧着的刺鼻气味,请致电(911 | 112 | 999 |无论您遇到的紧急情况,请拨打紧急电话),然后让火(公司|大队)将其清除。计算机部件包含各种有趣的化学物质,包括汞,镉,铅和许多塑料外壳。请注意,我所做的所有链接都说明了低强度曝光如何导致持久损坏甚至快速死亡。这是一种可能立即威胁生命和健康的环境。
...因此,实际上,如果有东西在燃烧,请不要花数小时来闻烟气。如果您无法识别它并立即采取行动将其包含,请出去。
评论
应该补充的是,如果这种情况发生在一个“真实的”数据中心中,该数据中心集成了烟雾探测器和空调,并安装了灭火系统,则火警警报会响起,房间将被密封并自动充满氩气或二氧化碳,因此甚至没有想过跑来跑去和嗅探设备的想法。
– the-wabbit
13年4月5日在7:22
@ syneticon-dj这取决于安装的检测器的类型。电离探测器可能会触发灭火,但我曾在有光学烟雾探测器的地方(并且目前在主机设备处)工作-那些探测器在跳闸之前需要可见烟雾(或至少有良好的雾霾)。
–voretaq7
2013年4月5日15:57
我希望我能对此再投票。冒着争议的风险,“聘请专业”消防员是唯一的前进之路。
–user9517
13年4月6日在17:14
是的,作为一名前消防员,如果没有装备,我不会呆在那里。即使发生火灾,我们也经过训练可以保持有毒气体的状态。如果我要致电专业人士,您也应该这样做!
– Jeff Ferland
13年4月6日在17:50
即使召唤消防员,您仍然必须找出正在燃烧的设备。这不能回答问题。
– Navin
16年4月4日在9:09
#4 楼
如果您在UPS上进行了适当的监视(通常是通过SNMP),则设备本身应在监视系统上敲响警钟。如果没有,请与您的供应商联系。它要么发生故障,要么您的监视系统配置不正确。如果实际上有活动的内容正在燃烧,则应该以某种方式对其进行抱怨,或者只是断开网络连接,这也可能导致警报。
如果它像是通过绝缘层燃烧的实际电源轨,并且不在智能PDU上,那么我们回到您的原始问题,即“如何找到燃烧的东西?而且我认为正确的答案是“点击EPO并找出答案。您的生产服务器可能不足以冒生命危险。”
评论
EPO是什么意思?
– Midhat
13年4月4日在15:10
紧急关闭电源...红色大按钮会切断房间的所有电源。主要是因为其着火。
–授予
13年4月4日在15:15
强调+1,应该投票+1,000。按下按钮,撤离,等待,稍后再整理。经常在有火和烟的情况下进行业务(并尝试排除故障)是工程师可能犯的最严重错误之一。
–鹿猎人
13年4月4日在18:20
@chris我必须在“ EPO,请假,等待”上表示不同意-在充满生产设备的房间中激活EPO和/或清洁剂释放通常是我们喜欢的“职业限制举措”。如果没有进行任何初步检查的某些设备发出的活跃的,可见的火或浓烟,通常就是正确的选择。当然,您应该绝对准备在调查中的任何时候按一下适当的红色按钮,从房间中抽出来。
–voretaq7
13-4-4在19:52
甚至在UPS面板上显示“更换模块”的那一刻之前,甚至是一个完美的监视系统也可能没有意识到这一点-据说您当然希望监视系统将此类问题引起注意。下次某个模块可能在星期五的19:30发生故障时(没人在附近),监视警报将使您重新陷入困境,然后再发展为全面的紧急情况。如果您可以将监视与FACP配合使用,则烟雾和/或热量传感器甚至可能警告您有关绝缘材料会烧毁电源导轨等。
–voretaq7
2013年4月4日19:55
#5 楼
这是不适用的情况之一,您应该致电专业人士
>其他任何事情都是愚蠢的。
评论
@Navin不,你不是消防部门的人吗?
–user9517
16年4月4日在9:32
此处删除了一些评论,但正如所告知的那样,答案是直接的,但如果有东西在燃烧,则可能会因冒烟或任何其他意外而陶醉。不要试图去寻找正在燃烧的东西,因为它很危险,尤其是在隔离的服务器机房中。
–yagmoth555♦
1月6日17:52
#6 楼
作为以前曾从事电子技术的人,我曾经历过“燃烧的气味”而不是火。这并不少见。我不会因为气味而关闭数据中心。烟雾是另一回事,确实有东西在燃烧(通常,但是豌豆大小的钽电容器也可以充满烟雾)。令人惊讶的是,电源中的油炸组件会散发出多少气味。
TIC或IR温度计(一种有用的工具,比TIC便宜很多)不一定会显示出来,因为该组件没有根本不会产生很多热量,它在箱子里。但是,请检查设备是否无法正常运行,并使用监视工具。对于这样的气味,那么95%的时间将是影响整个设备性能的电源。
评论
+1,电源吹断是常见的。在大多数具有高气流速率的数据中心中,烟雾会被迅速吹走,并且很难找到气味的来源。但是,在一个小房间里,气味可能很差,并且会迅速散布到整个房间。
– Stefan Lasiewski
13年4月10日在20:15
#7 楼
我喜欢红外成像或温度计的答案,但也许还有帮助的是真正的“气味检测器”。毕竟引起您注意的是气味。烟雾,热量,红外线等都是替代物。类似的东西:。我个人从未使用过它们,甚至从未在数据中心中使用过它们。但是至少从理论上讲,它应该是一种简洁的工具。如果您有钱可以花在这个Gizmo上。
http://www.sca-shinyei.com/odormeter
或
http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ
它为您提供气味强度和分类。因此,应该可以将气味归巢。魔鬼当然在细节上。它多么灵敏,掩盖了杂散的背景气味等。
与纯粹基于温度的测量相比,优点之一是,气味通常发生在更早的点或阈值处。或者,如果过热的部件被身体/隐藏的布线等遮盖,则比视线热点更容易检测逃逸的分子。
另一种情况是与热量无关的气味。之前我们有冷却回路泄漏,冷却液的气味也很奇怪。我什至不愿讨论现在古老的管道中啮齿动物死亡的案例。 :)
我很惊讶这些传感器的灵敏度。可以检测到低于ppm级的H2S /硫醇等(通常是罪魁祸首)。
评论
@DeerHunter好,谢谢您,这是一天的结束,建筑中只有很少的人。感谢您的建设性批评,我将确保让我的主管知道她决定维持系统正常运行时可能面临的生命。@hydroparadise-有人必须敢说“停止,我们没有正确地做这件事”。如果您的主管不了解安全规则,除了做些脊椎手术和不屈服于弯腰的冲动之外,实际上没有什么可以做的。
@DeerHunter:当您闻到燃烧的东西时,适当的反应是什么?没有可见的烟雾,只有燃烧的气味。您是否关闭了整个数据中心,将其排空了几个小时,然后一一打开服务器,直到异味再次出现?一个25机架的小型数据中心可以检查1,000个服务器,这会导致“异味”的停机时间很大-OP并未报告可见的烟雾或火灾。
@Johnny-引用操作:“整个房间充满了气味。进行嗅探测试非常困难,因为气味已经渗入了所有东西(更不用说它使我们头昏眼花了)”回答您的问题-是的,您必须排空房间,并系统地进行故障排除。还有其他不负责任的事情。
那么,那些批评OP对气味处理的批评是否暗示着气味与火/烟之间的紧迫性没有区别?如果您闻到房子里有东西燃烧的气味,但看不到烟气,也听不到警报,您是否将您和家人赶出屋子并拨打911?