讨论一下300TB的闪存驱动器

Original 常华Andy Andy730 2024-03-16

Source: CHRIS EVANS, Dude, Here's Your 300TB Flash Drive!, 3 MARCH 2023

背景

早在2018年，我们就讨论了由Nimbus Data设计和构建的100TB驱动器的概念。当时，三星发布了30TB驱动器，希捷发布了60TB“概念”硬盘，随着主导的格式开始出现，我们开始谈论故障域和闪存密度。

Nimbus驱动器在几个方面都受到了挑战。它使用500MB/s的SATA接口，这意味着单线程读取/写入和事实上的0.43DWPD。该驱动器使用3.5英寸外形，而所有现代闪存驱动器都为2.5英寸。可以将两个或四个2.5英寸驱动器放入与3.5英寸驱动器相同的卷中，因此从空间角度来看，这是50TB或25TB的等效容量。作为归档闪存驱动器，如果价格合适，Nimbus DC可能是可行的（我们认为大约0.50GB–0.60美元/GB）。

故障域

将100TB的数据放在单个驱动器上可能会有问题。如果驱动器完全出现故障，则RAID或纠删码重建将非常重要，可能达到PB级。大量数据遍历I/O总线，对应用程序没有任何好处。重建会影响应用程序性能，当然，在重建完成之前，还会使数据面临风险。

理想情况下，我们希望最大限度地减少所需的重建工作量。首选选项是在发生故障之前将数据复制到另一台设备，称为预测性备用，几十年来一直是企业存储的一部分。该过程的关键是要知道驱动器何时可能发生故障，并在正确的时间预防故障。过于激进的预测性备用会产生不必要的I/O和物理驱动器更换。不太积极的预测性备盘会导致I/O成本更高的RAID重建。

随着驱动器容量的增加，管理故障的影响也越来越大。在HDD市场中，驱动器可以重新分配坏扇区，但这通常是即将发生故障的迹象。不良部门搬迁也会影响绩效。SSD可能有坏扇区，但更重要的是，具有基于写入活动（DWPD）的耐用性水平。您的SSD会在某个时候出现故障。请注意，HDD供应商也一直在为驱动器添加工作负载限制一段时间。

重建管理

对于300TB驱动器，设备故障的重建开销将是巨大的。当然，这是假设所有故障都会导致整个驱动器更换。SAS协议引入了HDD的逻辑填充概念-有效地将整个盘片标记为不可用。

NVMe SSD和SMR硬盘驱动器都可以划分为多个区域，几乎就像较小的逻辑设备一样。似乎可以合理地期望驱动器供应商可以使用命名空间等功能（如果他们还没有这样做）来最大限度地减少重建并更有效地管理设备故障。

此过程的关键不是将SSD或HDD视为黑盒设备，而是将内部管理公开给连接的主机。

当然，如果驱动器可修复，管理部分故障只会在成本方面有所帮助。HDD通常不会修复，而是回收或进入垃圾场。

如果您无法修复SSD或HDD，则故障的影响会直接影响TCO。设备（MTBF，AFR）的可靠性多年来几乎没有变化，通常在0.55 AFR（200万小时，MTBF）左右。

密度

第二个问题——产品密度——我们如何才能在与我们目前使用的外形相同或相似的外形尺寸中获得更多容量？

首先，我们可以假设硬盘驱动器将来不会有效地扩展。过去，硬盘容量通过面密度（每平方英寸硬盘盘片的数据位数）的改进而增加。面密度的增加充其量只是二维变化（X轴和Y轴），通过在Z轴上添加更多盘片可以实现一些好处。盘片的增加现在很小，不太可能增加，除非我们选择完全重新设计HDD架构（这将增加单位成本）。由于制造商努力使新技术可行，面密度的提高一直在放缓。

在SSD市场，供应商通过隧道和堆叠使用Z轴提高了密度。3D-NAND在2016年左右开始被存储设备供应商使用。如今，供应商已经开始出货232层NAND，预计单个芯片内可能出货400-500层；但是，这些尚未在企业存储设备中使用。这意味着我们可以预期仅从3D-NAND方面就将容量增加一倍或四倍。

PLC（五级单元）NAND将来可能会进入市场；然而，这项技术的改进是微不足道的，并被耐用性的进一步降低所抵消。更可能的情况是，我们看到混合设备的使用增加，其中NAND的各个部分被重新配置为在从SLC到PLC的任何位置上运行。非活动（或读取密集型）数据被移动到PLC部分，而活动数据位于SLC中。

2Tb NAND芯片即将问世。我们预计还有其他技术正在开发中，这些技术将继续增加密度。

另一个需要考虑的领域。IBM已经在FlashCore模块上应用了大量压缩。FCM3的原始容量为38.4TB，有效容量为87.95TB（取决于压缩比）。因此，增加密度的另一个角度是更有效地应用数据优化技术，如压缩。

成本

现在来看第三个问题，即成本问题。如果我们可以将更多数据打包到相同数量的NAND芯片上，那么存储成本应该会随着密度的增加而下降。多年来，我们已经在HDD市场看到了这种趋势。各代产品之间的BOM（物料清单）大致相同，导致新型号定价约为600美元/驱动器。如果制造过程在代际之间保持大致相同，则相同的逻辑应该适用于NAND。

由Pure Storage，IBM和ScaleFlux生产的定制驱动器都使用额外的板载处理。但是，与此相关的成本是有的。供应商正在从FPGA转向ASIC和定制SoC。在规模上，对于更大容量的驱动器，这种转换可能更具成本效益，同时增加了其他好处（如上面提到的压缩）。

维修费用

我们应该回过头来再次看看修复HDD和SSD的能力。在HDD市场中，驱动器的BOM和寿命相对静态。驱动器供应商知道保修期内的预期退货数量，并可以将其计入利润。退回的驱动器很可能不会被修复，但希望以某种形式回收。

在SSD市场中，高容量设备的单位成本要高得多，因此在可能的情况下对其进行维修是有意义的。作为比较，想象一下购买汽车并报废整辆车，因为轮胎需要更换！

SSD可以修复，但商品设备的使用带来了供应链挑战。客户将故障驱动器退回给保修期内的装置供应商，然后设备供应商必须根据两者之间存在的任何同等保修退回给设备供应商。对于最昂贵的驱动器，单位成本为5000美元到10000美元，因此构建高效的退货流程对最终用户和存储供应商都至关重要。

如果没有高效的供应链和维修流程，媒体供应商将不愿意将产能提高到当前水平以上，而物料清单成本将与当前的价格大致一致。同样，设备供应商可能希望限制他们部署的系统中单个驱动器的成本。

观点

那么，在Pure Storage和300TB DFM方面，这一切是如何发挥作用的呢？我们认为达到300TB容量的能力触手可及。这一里程碑将通过改进的NAND密度（PLC和3D-NAND），数据优化（压缩，重复数据删除）和重构（板载更小的处理器，更多的NAND芯片）来实现。

通过抽象的Flash转换层和直接数据放置来管理设备的能力意味着300TB的重建应该是可管理的。我们相信Pure Storage可能也在研究其他尚未公布的技术和想法。

第三，成本状况将通过受控耐久性（FTL），优于市场平均水平的AFR率以及构建可维修的硬件来管理。

那么市场的其他部分呢？只有IBM走上了开发定制模块的道路。日立是定制驱动器的早期开发者，但似乎已经远离了这项技术。市场的其余部分使用商品组件。

这重要吗？

有两个方面需要考虑；首先是成本——如果每TB 300TB DFM比10个30TB驱动器便宜（明显），那么是的，差异确实很重要。

其次，是环境影响问题。如果十个30TB驱动器需要更多空间，并且需要更多的电源和冷却，则TCO会受到影响。在某些时候，数据中心成本将成为所有企业的问题，因为可持续性在首席技术官的议程上越来越高。

2026年是实现DFM容量提高6倍的时间。我们将密切关注Pure Storage是否、何时以及如何实现这一里程碑目标。

继续滑动看下一个

Andy730

向上滑动看下一个

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

讨论一下300TB的闪存驱动器

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

讨论一下300TB的闪存驱动器

您可能也对以下帖子感兴趣