查看原文
其他

2021年 Backblaze Drive Stats 报告(SSD版)

常华Andy Andy730 2024-03-16

Source: Andy Klein, The SSD Edition: 2021 Drive Stats Review, March 3, 2022


欢迎来到 Backblaze Drive Stats 报告的第一个 SSD 版本。本版将专门关注我们的 SSD,而不是我们的季度和年度 Drive Stats 报告,直到去年,这些报告都只关注 HDD。作为起步,我们计划每年发布两次SSD版报告,并能会根据其对读者的价值评估而有所调整。我们将继续每季度发布硬盘统计数据报告。



背 景


此报告中的 SSD 都是我们存储服务器中的启动盘。在早期的存储服务器中,专门将HDD用于启动盘。从 2018 年第 4 季度开始改为使用 SSD。从那时起,所有新的存储服务器和任何HDD启动盘都安装了SSD。我们环境中的引导盘不仅能引导存储服务器,还存储存储服务器生成的日志文件和临时文件。每天,启动盘都会读取、写入和删除文件,具体取决于存储服务器本身的访问情况。



概 述


截至 2021 年 12 月 31 日,我们使用了 2200 个 SSD。由于我们在下面分享了各种表格和图表,因此一些数字,特别是年化故障率(AFR)将令知情的读者感到非常惊讶。例如,AFR 为 43.22% 可能会引起您的注意。我们将在过程中解释这些异常值。大多数是由于新使用的驱动器,但我们会解释。


与 HDD 报告一样,我们发布了用于生成 SSD 报告的数据。实际上,我们持续发布此数据,因为它与HDD数据位于相同的文件中。现在是坏消息:数据目前不包括驱动器类型,SDD或HDD,因此您必须按型号进行研究。不好意思。您可以在我们的 Drive Stats Test Data 网页上找到下载数据文件的链接。如果您只是在寻找SSD数据,请从2018年第四季度开始,然后继续向前查看。


如果您不熟悉我们的 Drive Stats 报告,您可能想知道我们为什么要收集和分享这些信息。首先,我们为使用 Backblaze B2 Cloud Storage和 Backblaze Computer Backup服务的客户提供了大量可用的数据存储,迄今为止超过两EB。在这样做的过程中,我们需要深入了解我们的环境,其中一个方面是驱动器(包括HDD和SSD)发生故障的频率。从大约七年前开始,我们决定分享我们学到的东西,并阐明以前不透明的硬盘故障率。我们很自然地对SSD保持透明。请继续阅读。



2019 年、2020 年和 2021 年的年度 SSD 故障率


截至 2021 年底,我们的存储服务器中共有 2200 个 SSD,从 2018 年第 3 季度的零增长。我们将从过去三年的AFR开始,然后深入研究2021年的失败率,最后,看看自2019年以来的每月AFR率。我们将随时解释每个项。


下图显示了 2019 年、2020 年和 2021 年的故障率。

 


意见和评论


  • 每年(2019年,2020年和2021年)的数据包括当年发生的活动。

  • 2021年的失败率呈上升趋势。我们在上一篇文章中比较HDD和SSD启动盘时看到了这一点。当我们稍后在本文中进入季度图表时,这种趋势将更加清晰。

  • 两款 SSD 盘的故障率令人瞠目结舌 — 英睿达(Crucial)型号:CT250MX500SSD1 和希捷(Seagate)型号:ZA2000CM10002。在这两种情况下,驱动器天数和驱动器计数(未显示)都非常低。对于Crucial,只有20个驱动器是在2021年12月安装的。对于希捷来说,只有四个驱动器,一个在2021年初出现故障。在这两种情况下,AFR都基于非常少的数据,这导致非常宽的置信区间,我们将在下一节中看到。为了完整起见,我们加入了这些驱动器。

  • 驱动器日表示一个驱动器运行一天。因此,2021 年运行的一个驱动器将有 365 个驱动器天。如果驱动器在 200 天后出现故障,它将有 200 个驱动器天并标记为失败。对于指定时间段内的给定驱动器群,我们按如下方式计算 AFR: 


AFR  = (驱动器故障 / (驱动器天数 / 365)) * 100

 

这提供了任何时间段内的年化故障率 (AFR)。



2021 年度 SSD 故障率


让我们深入了解2021年,并添加更多细节。下表是上一张图表中2021年年度部分的扩展版本。


 

从表中可以清楚地看出,具有两位数 AFR 的 Crucial 和 Seagate盘在对我们环境中的可靠性做出任何判断之前,需要更多数据。每个驱动器的置信区间极宽都证明了这一点。一个体面的置信区间小于1.0%,0.6%或更低对我们来说是最佳的。只有希捷型号:ZA250CM10002符合1.0%的标准,尽管希捷型号:ZA250CM10003非常接近。


显然,需要时间来构建足够的数据,以确保所讨论的驱动器在预期的水平上运行。在我们的例子中,我们预计AFR为1%至2%。少一点就好,多看什么就值得一看。我们“观察”的方法之一是跟踪季度业绩,我们接下来将对此进行探讨。



随时间推移的季度 SSD 故障率


我们有两种不同的方式可以查看季度数据:在离散的时间段内,例如,一个季度或一年;或一段时间内的累积数据,例如,自 2018 年以来的所有数据。按季度划分的数据可能是不稳定的或峰值的,但对变化的反应很快。累积数据显示了长期趋势,但对快速变化的反应较少。


以下是从2019年第一季度开始的SSD的季度和累积数据图表。首先 ,我们将比较所有 SSD,然后深入研究一些感兴趣的单个驱动器。


 

累积曲线在低于我们关注的2%AFR阈值时轻松流动。如果我们只是遵循季度数字,我们可能会认为使用SSD作为启动盘是有问题的,因为在多个季度中,AFR处于或接近3%。也就是说,数据越多越好,随着SSD的老化,我们将希望更加警惕,看看它们能持续多久。我们有大量关于HDD主题的数据,但我们仍在学习SSD。


考虑到这一点,让我们来看看三个较旧的SSD,看看在这一点上是否有任何有趣的东西。



意见和评论


  • 对于 2021 年全年,所有三个驱动器的累积 AFR 率均低于 1%。

  • 这与截至2021年第四季度所有SSD驱动器的累积AFR相比,为1.07%(来自上一个图表)。

  • 扩展比较,如我们的2021年驱动器统计信息报告所述,我们硬盘驱动器的累积(生命周期)AFR为1.40%。但是,正如我们在对HDD和SSD的比较中指出的那样,这两组(SSD和HDD)在其生命周期中并不处于同一点。正如所承诺的那样,我们将在未来几个月内继续研究这种二分法。

  • 由红线表示的型号(ZA250CM10002)似乎遵循经典的浴盆故障曲线,在稳定到低于1%的AFR之前经历了早期故障。另一方面,另外两个驱动器没有显示早期驱动器故障的迹象,并且最近才开始出现故障。这种类型的故障模式类似于我们的HDD所展示的模式,这些HDD不再适合浴盆曲线模型。



实验和测试盘


如果您决定下载数据并研究一下,您将看到一些与SSD型号相关的异常。在您开始研究之前,我们想对这些异常值进行一些阐明。我们已经介绍了 AFR 数量高于预期的Crucial 和 Seagate的盘,但还有另外两种固态硬盘型号未显示在此报告中,但会显示在数据中。这些是三星850 EVO 1TB和HP SSD S700 250GB。


为什么他们没有出现在这份报告中?与 HDD 的硬盘统计信息审查一样,我们会移除用于测试目的的盘。以下是详细信息:


  • 三星 SSD 是第一批作为引导驱动器安装的 SSD。安装了10个驱动器来测试SSD如何作为启动盘工作。竖起大拇指!我们之前计划将这10个驱动器放在其它服务器上,大约两周后,三星驱动器与其它SSD交换并部署用于其原始目的。他们的开创性工作被记录在 Drive Stats 中,供后期参考。

  • HP SSD 是我们内部数据迁移平台测试的一部分,即将数据从较小的驱动器移动到较大的驱动器。这些驱动器出现在2021年第三季度和第四季度的数据中。与 Q3 或 Q4 中的这些驱动器相关的任何数据都不是基于在我们的生产环境中使用这些驱动器。



下一步工作


我们承认,2200 个 SSD 是执行分析的驱动器数量相对较少,虽然这个数字确实会导致比预期更宽的置信区间,但我们必须从某个地方开始。当然,我们将继续向研究组添加SSD启动盘,这将提高所呈现数据的保真度。此外,我们希望我们的读者将把他们通常的怀疑视角应用于所提供的数据,并帮助指导我们使这份报告越来越有教育意义和有用性。


在我们的环境中,其它类型的服务器中确实有SSD。例如,灾备还原服务器、应用程序服务器、API服务器等。我们正在考虑检测其中一些服务器中的驱动器,以便它们可以以与我们的启动盘类似的方式报告其统计信息。在我们这样做之前,有多种注意事项:

  1. 我们不影响其它服务器的性能。

  2. 我们认识到其它每台服务器中驱动器的工作负载很可能是不同的。这意味着我们最终可能会得到多个SSD驱动器队列,每个驱动器具有不同的工作负载,这些工作负载可能适合也可能不适合分组进行分析。

  3. 我们不希望通过在维护其它服务器时使用的流程中添加其它或冲突的步骤来影响数据中心技术人员完成工作的性能。

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存