查看原文
其他

SSD真的比HDD更可靠吗?

常华Andy Andy730 2024-03-16

Source: Backblaze, Are SSDs Really More Reliable Than Hard Drives?, September 30, 2021, Andy Klein

https://www.backblaze.com/blog/are-ssds-really-more-reliable-than-hard-drives/


关于HDD/SSD的故障率统计,Backblaze是全世界的权威,因为他们的统计来自于他们实际数据中心的运营统计。


这篇文章尝试回答大家常关注的一个问题:SSD真的比HDD更可靠吗?


作者分析的不无道理,但是他应该忽略了SSD(半导体封装)和HDD(机械装置)之间的故障率的本质上的不同,即SSD的故障率曲线不可能类似于HDD(要等寿命足够长了之后可以看出)。


另外,如作者最后提到的,对于企业级用户,是否选择SSD的考虑因素显然不至于故障率,可能还要关注业务需求、性能指标、整体TCO、节能等等。而且,SSD故障率和寿命的问题,可以通过软件来优化。


在各行业数字化转型的大潮之下,业务对于实时性、快速恢复、极致性能的诉求的场景越来越多、越来越迫切,SSD的是必然之选。



下面为原文:


固态硬盘 (SSD) 继续越来越多地成为数据存储领域的一部分。虽然我们的SSD 101系列涵盖了升级,故障排除和回收SSD等主题,但我们想测试SSD支持者更流行的宣称之一:SSD的故障频率远低于我们的老朋友硬盘驱动器(HDD)。这种说法通常归因于SSD没有移动部件,并得到供应商声明和模糊的平均故障间隔时间(MTBF)计算的支持。所有这些都适用于SSD营销目的,但是对于比较故障率,我们更喜欢Drive Stats方式:直接比较。让我们开始吧。


固态硬盘和硬盘的驱动器故障是什么样子的?

在我们的季度驱动器统计信息报告中,我们将硬盘驱动器故障定义为被动的,表示驱动器不再运行,或主动的,这意味着我们认为驱动器故障迫在眉睫。对于硬盘驱动器,我们用于确定主动故障的大部分数据来自驱动器报告的我们监控的 SMART 统计信息。


与HDD一样,我们还记录和监控SSD驱动器的SMART统计数据。不同的SSD型号报告不同的SMART统计数据,但有一些重叠。到目前为止,我们记录了31个与SSD相关的SMART属性。下面列出了25个。


1.Read Error Rate

5.Reallocated Sectors Count

9.Power-on Hours

12.Power Cycle Count

13.Soft Read Error Rate

173.SSD Wear Leveling Count

174.Unexpected Power Loss Count

177.Wear Range Delta

179.Used Reserved Block Count Total

180.Unused Reserved Block Count Total

181.Program Fail Count Total

182.Erase Fail Count

192.Unsafe Shutdown Count

194.Temperature Celsius

195.Hardware ECC Recovered

198.Uncorrectable Sector Count

199.UltraDMA CRC Error Count

201.Soft Read Error Rate

202.Data Address Mark Errors

231.Life Left

232.Endurance Remaining

233.Media Wearout Indicator

235.Good Block Count

241.Total LBAs Written

242.Total LBAs Read


1.读取错误率

5.重新分配的扇区数量

9.开机小时数

12.电源周期数量

13.软读取错误率

173.SSD 磨损均衡数量

174.意外断电次数

177.磨损范围 Delta

179.总计已用保留块数量

180.总计未使用的保留块数量

181.总计程序失败次数

182.擦除失败次数

192.不安全关机次数

194.温度摄氏度

195.已恢复的硬件 ECC

198.无法校正扇区数量

199.UltraDMA CRC 错误数量

201.软读取错误率

202.数据地址标记错误

231.剩余寿命

232.剩余耐久性

233.介质磨损指标

235.正常块数量

241.总计写入 LBA

242.总计读取 LBA


对于其余六个(16、17、168、170、218 和 245),我们无法找到它们的定义。请在评论中联系,如果您可以了解缺失的属性。


总而言之,我们才刚刚开始使用SMART统计数据来主动使SSD失败。引用的许多属性取决于驱动器型号或供应商。此外,如您所见,SSD故障的数量有限。这限制了我们用于研究的数据量。随着我们向服务器场添加和监视更多 SSD,我们打算针对主动式 SSD 驱动器故障制定规则。与此同时,迄今为止所有失败的SSD都是反应性故障,即:它们刚刚停止工作。


一一对应比较

在Backblaze数据中心,我们使用SSD和HDD作为存储服务器中的启动驱动器。在我们的例子中,将这些驱动器描述为启动驱动器是一个误称,因为启动驱动器还用于存储系统访问,诊断等的日志文件。换句话说,这些引导驱动器除了在启动时引导服务器的命名功能外,还会定期读取、写入和删除文件。


在我们的第一台存储服务器中,我们使用硬盘驱动器作为启动驱动器,因为它们价格低廉且可以达到目的。这种情况一直持续到2018年年中,当时我们能够以约50美元的价格购买200GB SSD,这是我们为每个存储服务器启动驱动器的高端价格点。这是一个实验,但事情进展得如此顺利,以至于从2018年年中开始,我们切换到仅在新的存储服务器中使用SSD,并用SSD替换了故障的HDD启动驱动器。


我们拥有的是两组驱动器,SSD和HDD,它们执行相同的功能,具有相同的工作负载,并且随着时间的推移在同一环境中运行。因此,很自然地,我们决定比较SSD和HDD启动驱动器的故障率。以下是截至 2021 年第 2 季度每个队列的失败率。



固态硬盘获胜。。等等,没那么快!

一切都结束了,SSD赢了。现在是时候将您的硬盘驱动器变成书挡和门挡,然后购买SSD了。虽然,在开始使用硬盘驱动器玩多米诺骨牌之前,有几件事需要考虑,这些事情超出了上面表格的面值:平均年龄和驱动器天数。


  • SSD 驱动器的平均使用年限为 14.2 个月,HDD 驱动器的平均使用年限为 52.4 个月。

  • 最旧的SSD驱动器大约有33个月,最年轻的HDD驱动器有27个月大。


基本上,SSD和HDD的平均年龄的时间线没有太多重叠。平均而言,HDD比SSD老三年以上。这会将每个队列置于其生命周期中非常不同的点。如果您同意驱动器随着年龄的增长而更频繁地发生故障的想法,则可能需要将HDD销毁延迟一点。


顺便说一句,我们将在几周内发布一篇关于驱动器故障率如何适合浴缸曲线的帖子;剧透警告:旧驱动器经常出现故障。


我们列出的另一个因素是驱动器天数,即每个队列中所有驱动器运行而不出现故障的天数。运行天数的巨大差异导致两个队列的置信区间存在很大差异,因为观察次数(即运行天数)差异很大。


为了创建更准确的比较,我们可以尝试在分析中控制平均年龄和运行天数。为此,我们可以在记录中及时回顾HDD队列,以查看2021年第二季度SDD的平均年龄和运行天数与SDD相似的地方。这将使我们能够在生命周期中同时比较每个队列。


将HDD的时钟拨回,我们发现使用2016年第四季度的HDD数据,我们能够创建以下比较。


突然之间,SSD和HDD之间的年化故障率(AFR)差异就不那么大了。实际上,每种驱动器类型都在另一种驱动器的 95% 置信区间窗口内。该窗口相当宽(加上或减去0.5%),因为驱动器天数相对较少。



这会把我们带向何方?我们有一些证据表明,当两种类型的驱动器都很年轻(在这种情况下平均为14个月)时,SSD的故障频率较低,但不会很多。但是您不会购买持续14个月的驱动器,而是希望它可以使用数年。我们对此了解多少?


长时间的故障率

我们有可追溯到 2013 年的 HDD 启动驱动器的数据,以及可追溯到 2018 年的 SSD 启动硬盘的数据。下图是截至 2021 年第 2 季度每种驱动器类型的生命周期 AFR。



如图所示,从2018年开始,HDD启动驱动器故障率加快。这种情况在2019年和2020年继续存在,然后在2021年(到目前为止)趋于平稳。显而易见的是,随着HDD启动驱动器组的年龄增加,故障率也随之增加。


一个有趣的点是两条曲线通过其前四个数据点的相似性。对于HDD队列来说,第五年(2018年)是故障率加速开始的地方。随着年龄的增长,等待我们的SSD的命运是否相同?虽然我们可以预期随着SSD时代的到来,AFR会增加一些,但它会像HDD系列一样引人注目吗?


决策时间:固态硬盘或硬盘

这让我们在购买SSD或HDD之间做出选择?鉴于我们目前所知道的情况,使用失败率作为您做出决定的一个因素是值得怀疑的。一旦我们控制了年龄和驱动器天数,两种驱动器类型是相似的,并且差异本身肯定不足以证明购买SSD与HDD的额外成本是合理的。此时,您最好根据其他因素做出决定:成本,所需的速度,电力,外形尺寸要求等。


在接下来的几年中,随着我们对SSD故障率有了更好的了解,我们将能够决定是否将AFR添加到SSD与HDD购买指南清单中。在此之前,我们期待着继续进行辩论。

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存