这听起来像是一个奇怪的问题,但却引起了我与一些同事的激烈讨论。考虑由八个或十二个磁盘组成的中等大小的RAID阵列。购买第一批磁盘或购买替换磁盘以扩大阵列或刷新硬件时,可以采用两种广泛的方法:供应商,然后收到一个装有所有磁盘的大盒子。 >
显然有一些中间立场,但这是主要的对立心态。我真的很好奇,哪种方法在降低阵列灾难性故障的风险方面更明智。 (让我们定义为“ 25%的磁盘在一个时间窗口内发生故障,该时间窗口等于重新刷新一次阵列所需的时间。”)逻辑是,如果所有磁盘都来自同一位置,则它们可能都具有相同的状态等待罢工的潜在缺陷。如果您愿意,可以使用相同的定时炸弹,并且在时钟上具有相同的初始倒计时。

我为每种方法收集了一些较常见的利弊,但其中有些感觉像是猜测和直觉

立即购买,专家



减少研究/订购阶段的时间。如果供应商对此收费,则需要支付费用。
可以保证磁盘具有相同的固件版本和相同的操作特性(温度,振动等)“怪异”。不可能在项目中途停顿。
每个下一个磁盘在需要安装时就在手边。
序列号都是预先已知的,可以按增加序列号的顺序在磁盘盒中安装磁盘。似乎过于挑剔,但有些人似乎对此很重视。 (我猜他们的管理接口是按序列号而不是硬件端口顺序对磁盘进行排序的??) (可能)来自同一工厂,同一时间使用相同的材​​料制造。它们被存储在相同的环境中,并且在运输过程中遭受相同的潜在滥用。一个磁盘中存在的任何缺陷或损坏很可能全部存在。
如果一次将驱动器更换到一个现有阵列中,并且每个新磁盘都需要单独重新装入银盘,则可能需要数周的时间订单中的最后一个磁盘已安装,发现有故障。与供应商的退货/换货窗口可能会在此期间到期。
不能利用项目期间可能发生的近期价格下跌。

专业人士单独购买
/>

如果一个磁盘出现故障,则与其他任何磁盘共享的制造/传输历史记录很少。如果故障是由于制造或运输过程中的某种原因引起的,则根本原因可能没有发生在任何其他磁盘上。
如果磁盘在到达时已死或在使用的最初几个小时内发生故障,则将在不久后检测到

单独购买,缺点



需要大量时间来寻找价格合理的足够的供应商。解决订单跟踪,交货失败,退回损坏的物品和其他问题可能很耗时。
运输成本可能更高。
很可能需要新磁盘,但不需要任何新磁盘。拖延项目。
想象中的好处。无论供应商或购买日期如何,所有磁盘都来自同一地点,并且实际上是相同的。质量缺陷将检测到制造缺陷,不合格的磁盘将不会被出售。运输损坏必须非常严重(肉眼可见),以至于拆开包装后损坏的驱动器就很明显。

如果仅按项目符号计数,“批量购买”很明显地获胜。但是,有些优点很弱,有些缺点很强。许多要点只是简单地陈述了其他一些逻辑上的逆。其中有些事情可能是荒谬的迷信。但是,如果迷信在维护数组完整性方面做得更好,我想我会愿意。

哪个小组在这里最明智?我有与此讨论相关的数据。我个人构建的最后一个阵列(大约四年前)有八个磁盘。我从一个供应商处订购,但将购买分成两个订单,每个订单四个磁盘,相隔大约一个月。阵列的一个磁盘在运行的最初几个小时内发生故障。它是从第一批开始的,并且在重新启动所有内容时,该订单的退货窗口已关闭。

四年后,七个原始磁盘和一个替换磁盘仍在运行错误-自由。 (敲木头。)

评论

向我+1提出问题,因为我很想亲自了解一下。我肯定已经看到大文件服务器的HDD几乎同时出现在浴缸曲线尽头的现象,但是通常批准这种服务器的供应商的数量非常少,因此“购买很多”的方法相当不错。硬。我期待看到包含真实数据的答案。

回覆。您的更新:这是一个数据点。对数千个磁盘重复此操作以获取任何有用的指标。这很难做到,特别是在磁盘产品周期较短的情况下,这会导致缺乏此类数据。

我似乎回想起前段时间在meta上达成的共识,即最佳实践问题是主题,只要它们不仅仅产生大量的轶事即可。我希望这个问题能提供一些很好的答案,我认为我们应该给它一个机会。

@Sven谢谢,你是一个绅士;这是希望。对于任何潜在的回答者:请提供数据,而不是轶事。

我用突袭来管理很多机器。所有磁盘最终都将发生故障,因此手头上有足够的备用磁盘,您可以在最早通知时交换它们,这很可能是预故障而不是等待完全故障。

#1 楼

实际上,从企业供应商(HPE,戴尔等)那里购买的人不必担心。

这些供应商提供的驱动器已经散布在同一零件号的多个制造商中。

特定SKU下的HP磁盘可以是HGST或Seagate或Western Digital。

但是,您不应该试图超越/胜过批次失败的可能性。欢迎您尝试一下是否可以让您省心,但这可能不值得。

群集,复制和可靠备份等良好实践是批量故障的真正保护。添加冷热备件。密切监视您的系统。充分利用ZFS之类的智能文件系统:)

请记住,硬盘故障并非总是机械故障...

评论


但是,存储/运输方面仍在起作用。如果HP或FedEx储藏室中的某个人丢了一个装满磁盘的盒子,则可能会影响整个收到的批次。

–smitelli
17年8月23日在16:36

@smitelli好的。备份,RAID,复制,DR,备件。所有驱动器一次出现故障的可能性很小,因此这并不是大多数人都应该准备遇到的问题。

–ewwhite
17年8月23日在17:00

需要注意的是,我从亚马逊购买了5个用于SW RAID盒的消费级归档驱动器。第一个在48个月后失败。第二个53个月。第三个和第四个在第55个月的两周内失败,最后一个在57个月内失败。幸运的是,我使用的是三向冗余,但仍然...并非我所期望的。我不知道这些序列是否是连续的,但是驱动器本身本质上是相同的。

–麋鹿男孩
17年8月24日在3:16

@ewwhite是的,但是如果您一次订购10个相同的SKU,则与您每月订购1个相比,它们来自多个供应商的可能性较小。这就是我要说的重点。

–凯塔尔
17年8月24日在17:15

这个答案似乎有点自以为是,似乎也没有给出任何关于为什么它可能是真的的论据……您是否与所有订购Dell的人交谈过?什么是“聪明”,而不是批次批处理失败?人们按照您的假设去做实际上是一件好事吗?

– AnoE
17年8月28日在5:59



#2 楼

为了尊重ewwhite的回答,一些系统管理员分批订购。我本人永远不会单独订购驱动器,但是我最后以这种能力工作的标准操作是批量订购驱动器。对于一台十二驱动器的计算机,SOP要求将驱动器分为三批,从而为该计算机提供三层冗余配置文件。

但是,我咨询过的其他小型服装遵循了不同的协议,其中一些与批量无关,而其他则将批量分为两个或四个阵列。简短的答案是根据您需要达到的服务水平做适当的事情。应用存储机器决定在整批驱动器上发生故障,并且我们发现该特定批处理都具有相同的故障。如果不遵循批处理协议,我们将遭受灾难性的数据丢失。

评论


我会考虑在前面做这个旁注!

–奇怪的思考
17年8月25日在6:27

#3 楼

花费大量时间来处理快要消失的RAID阵列和困难的驱动器的人的诚实回答:如果可以避免的话,不要将同一批驱动器中的所有驱动器都放在同一批次。批量订购时要考虑它们自己的问题和好处。
处理问题的最佳方法主要取决于您正在使用的阵列的大小,如果您正在使用带有2个驱动器的6个驱动器阵列冗余,您可能可以安全地从3个制造商处购买类似的驱动器,并按此方式拆分阵列。
如果您使用的是奇数驱动器,或者您正在使用无法轻易分区的阵列,则可以尝试其他方法。例如从不同供应商处购买相同的驱动器,或者批量购买时,您可以浏览并尝试根据一起制造的可能性来分离驱动器。
如果您运行的阵列足够小,正确的基础技术甚至值得您花时间从异构磁盘供应源逐步构建它。首先从您可以使用的最少数量的驱动器开始,然后在一个月或两个月后或在填充系统时购买下一个电源。这样一来,您还可以了解所选择的特定型号可能有的任何问题。当您有许多起源相似的驱动器时,> MTBF明显损坏。在统计数据中,我们称其为抽样偏差,因为样本中的相似性,平均效应的用处往往较小。如果批次甚至设计本身存在故障,并且发生的次数比您想象的要多,那么该批次的驱动器将比MTBF建议的更早发生故障。
如果驱动器分散开了,您可能会得到[MTF]的[50%,90%,120%,200%],但是如果所有驱动器都来自那50%的批次,那么您的手上就会一团糟。


RAID阵列重组会杀死磁盘。不完全是。如果您遇到驱动器故障并重建阵列,它将在其他驱动器上扫描数据时给它们增加额外的负载。如果您的驱动器快要发生故障,则重建很可能会将其取出,或者它可能已经具有一个故障位置,而您却不知道该位置,因为该部分最近没有被读取。
如果您已经如果同一批驱动器中有很多驱动器,则发生这种级联故障的机会要比它们不同时发生的机会高得多。您可以通过定期巡逻扫描,擦洗,重新同步来减轻这种情况,无论您对所使用的阵列类型有何建议的做法,但这都是不利的,因为这会影响性能,并且可能需要数小时才能完成。


对于某些驱动器寿命有多大变化的情况,Backblaze会定期发布驱动器故障统计报告...我与公司没有任何关系,但他们应该知道它们的含义。再谈驱动器的可靠性。例如https://www.backblaze.com/blog/hard-drive-failure-rates-q1-2017/ ...您的样本集可能会更小,因此外围数据可能会扰乱您自己的体验,但仍然一个很好的参考。

评论


这应该是正确的答案。具有类似磁盘(来自相同固件/批次的磁盘,或一起购买并在某些时候处理不当)的磁盘发生灾难性故障的风险要高得多

–奥利维尔·杜拉克(Olivier Dulac)
17年8月24日在9:18



@OlivierDulac,如果磁盘也发生了灾难性的设计故障,您的生活就会非常痛苦。 300GB / 600GB / 900GB 2.5英寸WD Raptor系列驱动器具有/必须要经历的故障率。

–凯塔尔
17年8月24日在16:18

引用Backblaze ...非常好。

– O. Jones
17年8月25日在11:55

#4 楼

几年前,我不得不为一个客户考虑这个问题。我结合了实践经验和研究经验,将建议推荐给了多源软件。自我驱动,您将它们多源化。快速浏览一下Wikipedia关于RAID弱点的讨论,可以找到两个有趣的参考资料。

第一个参考资料是ACM的RAID文件:高性能,可靠的二级存储(Chen,Lee,Gibson,Katz和Patterson (ACM Computing Surveys。26:145-185)。在3.4.4节中,作者指出,硬件故障并非总是统计上独立的事件,并给出了原因。在我撰写此答案时,该论文可在线获得。第19-22页讨论可靠性(http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.41.3889)。

第二个参考是现实世界中的磁盘故障。 :1百万小时的MTTF对您意味着什么? (Schroeder,Gibson。第5届USENIX文件和存储技术会议。)作者提供了统计数据来支持这样的断言,即驱动器故障可能会以比独立事件的预期速度更高的速度及时聚集。在我撰写此答案时,该论文也可在线获得(https://www.usenix.org/legacy/events/fast07/tech/schroeder/schroeder_html/index.html)。

Dell在2012年明确建议不使用RAID 5,因为大型磁盘环境中的磁盘相关故障;由于类似的原因,RAID 6预计将在2019年左右变得不可靠(ZDNet文章标题为“ why-raid-6-stops-working-in-2019”:http://www.zdnet.com/article/why-raid-6 -stops-working-in-2019 /)。虽然这两者的关键因素都是磁盘大小和重建时间,但建议使用较小的驱动器大小和多源作为缓解RAID 5问题的方法。

因此,是的,如果可以的话,将驱动器多源化。如果您是按照ewwhite的回答中所述从企业供应商那里购买的,这可能是透明地发生在您身上的。但是...我的客户从一家企业供应商那里购买了16个2TB驱动器。它们恰好来自同一制造商,并且似乎是在同一时间制造的。在配置RAID01阵列的两周内,有两个驱动器发生故障。因此,在获得驱动器时检查它们。 (反正您已经检查过了吧?)

评论


我真的不理解他们关于RAID6因存储容量增加而消失的说法。任何RAID阵列都需要良好的维护才能正常运行。我们有运行RAID6的超大型阵列,并且在重建期间从未遇到过会导致数据丢失的URE。就像每个MFG所建议的那样,只需执行计划的体积检查,就可以了。

– Brian D.
18年5月23日在19:46



#5 楼

单独订购驱动器的另一个潜在缺点是包装和搬运。

几乎从不以零售包装提供硬盘驱动器。如果您一次购买它们,几乎可以肯定,卖方会重新包装它们。我发现这种重新包装具有很大的可变性。有时您会得到一个带有大量填充物的好盒子,但有时却几乎一无所获。

#6 楼

如果要缓解“不良批次”情况,这意味着特定购买批次中的每个驱动器都可能/将在几乎同一时间发生故障,那么考虑阵列的大小和所使用的RAID级别也很重要。

如果您考虑进行多个订单,则没有适用的固定标准。推荐2-4个购买层的人们应该问自己,如果一整层驱动器发生故障,该阵列仍可以在线吗?因此,对于像1/5/10/50这样的冗余RAID级别,您将不得不一次购买驱动器1。对于RAID6,您一次可以购买2个磁盘。 >

#7 楼

我总是买二手货。我跟踪的订单几乎总是相同的设备型号,并且至少可以减轻对“不良批次”的担忧。网上有如此多的待售硬件,我很难证明购买新驱动器(或其他任何事情),除非它用于关键任务硬件(而且我们所有的备份硬件仍在翻新!)

+ PRO:具有竞争力的在线定价以及不断变化的业务环境中不断涌入的硬件意味着,无需花费任何努力就可以在工作环境中获得50-80%的零售折扣。

+ PRO:价格
低廉的价格释放了预算,可以过度购买并维持大量的更换硬件。

+ PRO:卖方关系
/>我有少数在线卖家,对于已经有一定数量的翻新/二手硬件折扣,我可以获得一些折扣。除非您大量购买或与他们一起拥有SLA,否则通常无法通过Monoprice获得该服务。另外,尤其是对于硬盘驱动器,只需确保立即对它们进行测试即可。我从未遇到卖方不退款或不更换DOA硬件的问题(除非这是我未能发现的骗局)。

-CON:保修,合法性问题
保修基于在设备的制造日期,您还需要注意寻找试图向您出售重新品牌,克隆等产品的在线行销商。测试开销的因素。无论如何,您也应该测试新的硬件,因此不确定是否适用。

-CON:使用寿命难以判断;请耐心等待。

注意:如果是客户端构建,并且它们不明确请求翻新/使用,则总是通过发亮/新建!

评论


完全。我购买了大量的经租赁和再制造的HP磁盘,原因是:价格便宜。另外,HP服务器保修通常涵盖机箱内部的所有内容,因此,只要它是有效的一部分,就表示它很好。

–ewwhite
17年9月3日于13:06

#8 楼

通过使用来自不同批次且理想情况下为制造商的硬盘驱动器,可以获得更高的可靠性。否则,它们可能无法及时关闭。 @Eliodorus的出色答案足以说明这一点。

当然,谁来洗盘都没关系。如果您的提供者确认已为您做到这一点,则无需担心。但是,对甚至不同的提供者进行取证,然后得出结论,如果没有直接告诉您,有人会替您这样做似乎是不合理的。提供者通常不会懒惰地宣传他们为提高驱动器可靠性而采取的各种措施。

#9 楼

实际上,这取决于廉价磁盘的冗余阵列(Raid)级别。在Raid 2、3、4、5和6中,确实有几个批次的驱动器确实有帮助,但这并不是决定性的:一个在使用这些级别时已经固有地丧失了可靠性和性能。

现在,对于通常明智的选择,是使用Raid 1(镜像)或1 + 0(在镜像上分割),在每个镜像的不同侧面(每个Raid 1阵列)安装不同的驱动器确实是有用的,在恢复过程中使镜像发生故障。此外,还应该有热备用以最大程度地减少恢复时间。

有关更多信息,请访问狂笑但内容丰富的“与任何突袭'F'2(Baarf)”网站,网址为:著名的高级DBA的Oak table网络。维基百科也很好地总结了这个问题。

评论


这似乎只是意见。如果您有资源,请引用并链接到它们。

– MadHatter
17年8月23日在19:20



好吧,实际上我提到了一个消息来源。而且我认为,这比逻辑意见更具逻辑性(针对条带化和校验和的镜像性质)。

–莱安德罗
17年8月23日在19:25



您未链接或引用的来源;期望其他人在您的源网站上搜索以搜索整个网站以获取支持数据并不能令人信服。至于逻辑上的问题,从原则上讲,我认为我们很清楚手工挥舞对这个特定问题的回答是有意义的,因此不会受到重视。

– MadHatter
17年8月23日在19:29



baarf.dk/BAARF/RAID5_versus_RAID10.txt

–主教
17年8月23日在19:44

@lfd链接到网站时,虽然使用“逻辑”来解释其位置,但未提供数据(我可以快速浏览一下)。 “逻辑”的问题在于,在这种情况下,它只是理论的另一个名称。且未经检验的理论存在的问题有望消除。请注意,由专家支持的未经检验的理论仍然与一般的未经检验的理论存在相同的问题。

–user2460798
17年8月24日在17:15

#10 楼

据我所知,工厂对磁盘存储的质量检查很高,而且我个人不会因为制造原因而担心大量硬件故障。

如果我有点偏执的话我只会从两个我不知道共享工厂的不同制造商那里通过同一供应商购买存储。几年后,您还将在公司内部注销存储,因此投资并不是那么大。从各个供应商那里购买的时间可能由于花费的时间而花费更多。如果您知道需要12个磁盘,则可以购买5到7个备用磁盘。那将是每TB 5到7乘以48的价格,而且我们仍然可以便宜一些,而不会导致系统不稳定或不安全,因为如果批量购买或二手磁盘打折(为什么是安全的)。与我们谈论重新银色/重新初始化阵列相比,现在我当然无法知道您的存储解决方案有多大,但是如果您花数周时间执行此任务,那么我可能考虑重新配置组织存储,因为听起来(对我而言)更多是作为一种错误配置,而不是通过一种或多种方式进行的其他任何配置。组织对于存储故障而言可能更便宜,这不仅是财富500强公司的选择。

我们还可以讨论卸载此时此地不需要的数据,例如(随机例如)我们最初加密的“云”供应商的多年历史财务数据。这样可以从我们自己的存储中消除存储需求,从而使我们从财务上或功能上解放出来。

根据您的身份,所处的位置和所从事的工作,他们将为您提供最佳的解决方案。

评论


如果比-1,您应该有礼貌地说明原因。也许你对事实过敏。

–克里斯蒂安·马蒂亚斯·安巴克(Cristian MatthiasAmbæk)
18年5月23日在5:56