查看原文
其他

2022年 Backblaze 机械硬盘故障统计报告

常华Andy Andy730 2024-03-16

Source: Andy Klein, Backblaze Drive Stats for 2022, January 31, 2023

截至 2022 年 12 月 31 日,我们共有 235608 个硬盘。其中,有 4299 个启动硬盘和 231309 个数据硬盘。此报告将重点介绍我们的数据硬盘。我们将回顾 2022 年的硬盘故障率,将这些率与往年进行比较,并展示截至 2022 年底数据中心中所有活跃硬盘型号的生命周期故障统计数据。在此过程中,我们将分享我们对所提供数据的观察和洞察。

截至 2022 年底,Backblaze 监控了 231309 个用于存储数据的硬盘硬盘。为了进行评估,我们从考虑中删除了 388 个硬盘,这些硬盘用于测试目的或我们没有超过 60 个硬盘的硬盘型号。这给我们留下了 230921 个硬盘硬盘来分析此报告。

2022 年,只有一款硬盘为零故障,是希捷 8TB(型号:ST8000NM000A)。这个“零”也确实有一些警告:我们的可用的同类硬盘只有 79 个,并且硬盘的运行天数有限——22839天。这些硬盘用作备件来替换出现故障的 8TB 硬盘。

老型号:

  • 希捷 6TB(型号:ST6000DX000)硬盘是我们数据中心使用最久的硬盘,平均使用时间为 92.5 个月。2021 年,它的年化故障率(AFR)仅为 0.11%,但 2022 年略微下滑至 0.68%。这在任何时候都是一个非常不错的数字,尤其是在服役近八年之后。

  • 东芝 4TB(型号:MD04ABA400V)硬盘的平均使用时间为91.3个月。2021 年,该硬盘的 AFR 为 2.04%,2022 年跃升至 3.13%,其中包括三个硬盘故障。鉴于此型号的硬盘数量和运行天数有限,如果 2022 年只有两个硬盘故障,AFR 将为 2.08%,或与 2021 年几乎相同。

这两种硬盘型号的运行天数都相对较少,因此对 AFR 数字的信心值得商榷。也就是说,这两个硬盘在其使用寿命期间都表现良好。

新型号:

2022 年,我们增加了 5 个新型号,同时没有停用的,因此我们总共跟踪了 29 种不同的型号。以下是五种新型号:

  • HUH728080ALE604–8TB

  • ST8000NM000A–8TB

  • ST16000NM002J–16TB

  • MG08ACA16TA–16TB

  • WUH721816ALE6L4–16TB

两种 8TB 硬盘型号用于替换出现故障的 8TB 硬盘。三种 16TB 硬盘型号是库存的附加功能。

对比2020年、2021年和 2022年的硬盘统计信息

下图比较了过去三年中每年的AFR。每年的数据仅包括当年的数据,以及每年年底显示的运行硬盘模型。

2022年硬盘故障上升

在 2020 年至 2021 年 AFR 略有增加之后,2022 年的 AFR 从 2021 年的 1.01% 增加到 1.37%。发生了什么事?在 2022 年第二季度和 2022 年第三季度的硬盘统计报告中,我们注意到整体 AFR 比上一季度有所增加,并将其归因于硬盘的老化。但是,事实真的是这样吗?让我们来看看可能导致 2022 年 AFR 上升的一些因素。我们将从硬盘大小开始。

硬盘大小和硬盘故障

下图比较了大型硬盘(我们定义为 12TB、14TB 和 16TB 硬盘)与小型硬盘(定义为 4TB、6TB、8TB 和 10TB 硬盘)的 2021 年和 2022 年 AFR。

 除 16TB 硬盘外,从 2021 年到 2022 年,每个硬盘大小的 AFR 都有所增加。就小型硬盘而言,增长明显,2.12% 远高于所有硬盘 2022 年 1.37% 的 AFR。

此外,虽然小型硬盘队列仅占 2022 年硬盘天数的 28.7%,但它们占硬盘故的 44.5%。我们的小硬盘故障更频繁,但它们也更,所以让我们仔细看看。

硬盘使用年限和硬盘故障

在检查硬盘年龄与硬盘故障的相关性时,我们应该从前文的硬盘故障浴盆曲线开始。在那篇文章中,我们得出结论,硬盘通常随着老化而更频繁地发生故障。为了洞悉这是否重要,我们将从下表开始,该表按大小显示了每个硬盘型号的平均寿命。 

除了我们最近购买的希捷8TB(型号:ST8000NM000A)作为故障 8TB 硬盘的备件外,这些硬盘整齐地分为上述两组 —— 10TB 及以下和 12TB 及以上。

现在,让我们将各个硬盘模型分组到由硬盘大小定义的队列中。但在此之前,我们应该记住,与其他硬盘组相比,6TB 和 10TB 硬盘型号的硬盘数量和硬盘天数相对较少。此外,6TB 和 10TB 硬盘队列由一个硬盘型号组成,而其他硬盘组至少具有四种不同的硬盘型号。尽管如此,将它们排除在外似乎并不完整,因此我们列出了包含和不具有 6TB 和 10TB 硬盘队列的表。

 每个表显示每个硬盘大小的关系,硬盘的平均年龄与其关联的 AFR 之间的关系。右侧的图表(V2)清楚地显示,按大小分组时,较久的硬盘发生故障的频率更高。随着驱动模型的老化,这种增长遵循我们之前提到的浴盆曲线。

那么,是什么导致了硬盘故障的增加,这是否重要?

我们硬盘的老化似乎是 2022 年 AFR 增加的最合乎逻辑的原因。我们可以进一步挖掘,但在这一点上可能没有意义。您看,我们花了 2022 年的时间在两个新的数据中心建立我们的业务,即加利福尼亚州斯托克顿的 Nautilus 工厂和弗吉尼亚州雷斯顿的 CoreSite 设施。到 2023 年,我们的重点预计将是用 16TB 和更大的硬盘替换我们的久硬盘。4TB硬盘,是的,即使是我们的零故障6TB希捷硬盘也会如此。我们会及时通知您。

按制造商看硬盘故障

我们已经按硬盘使用年限和硬盘大小查看了硬盘故障,因此按制造商查看硬盘故障是正确的。下面我们按制造商绘制了过去三年的季度 AFR。

 从 2021 年第一季度开始一直持续到 2022 年底,我们可以看到,在此期间整体 AFR 的整体增长似乎是由希捷带动的,在较小程度上是由东芝推动的,尽管 HGST 对 2022 年第一季度的增长做出了重大贡献。就希捷而言,这是有道理的,因为我们的大多数希捷硬盘都比任何其他制造商的硬盘久得多。

在将希捷和东芝硬盘扔进垃圾箱之前,您可能需要考虑给定硬盘型号的生命周期成本与其故障率。我们在 2022 年第 3 季度硬盘统计信息报告中对此进行了研究,并概述了硬盘成本和故障率之间的权衡。例如,一般来说,希捷硬盘在我们的环境中更便宜,并且它们的故障率通常更高。但是,它们的故障率通常不足以使它们在其生命周期内成本效益降低。您可以很好地证明,对我们来说,许多希捷硬盘型号与更昂贵的硬盘一样具有成本效益。我们的 B2 云存储平台在构建时考虑到了硬盘故障,这很有帮助,但我们会承认,减少硬盘故障从来都不是一件坏事。

硬盘寿命统计

下表是截至 2022 年 12 月 31 日生产的所有硬盘型号的生命周期 AFR。

 目前的生命周期AFR为1.39%,低于一年前(1.40%),也低于上一季度(1.41%)。由于硬盘故障的临时波动,使用寿命 AFR 不太容易发生快速变化,并且是硬盘型号 AFR 的良好指标。但是需要相当多的观察(在我们的例子中,运行天数)才能对这个数字充满信心。为此,下表仅显示了那些在其生命周期中累积了一百万天或更长时间的硬盘型号。我们按运行天数对列表进行了排序。 

最后,我们将在这里分享一点,分享我们从分析中删除的 388 个硬盘的结果,因为它们是测试硬盘或具有 60 个或更少硬盘的硬盘模型。这些硬盘分为 20 种不同的硬盘型号,下表列出了截至 2022 年 12 月 31 日在我们的数据中心运行的硬盘型号。这里需要注意的是:这些只是测试运行,所以要温和。我们通常会在报告中忽略它们,所以这是它们展示的机会,或者不包括进来。我们期待看到您的评论。 

这些硬盘在他们的 Backblaze 环境中走到这一步的原因有很多,但我们会将这些故事留到另一个时间。这里我们只是为了直截了当地分享数据,但肯定有故事要讲。敬请关注。

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存