AI/ML和HPC的高效IO方案？

Original 常华Andy Andy730 2024-03-16

【ANDY】IOPS、带宽、时延，可靠性，规模，和成本必然要有一定的取舍，关键在于聚焦的场景，和该场景下可提供的价值优势。

Source: Chris Mellor, DDN says generative AI/ML work needs balanced read/write IO mix, July 28, 2023

DDN表示生成式AI和其它AI工作需要平衡的读写IO组合，声称其自有存储系统提供了最佳平衡，因为其写入速度优势超过竞争产品。

该公司为其Exascaler AI400X2阵列提供了Magnum I/O GPUDirect认证，可用于Nvidia的DGX SuperPod AI处理系统。它使用60TB的QLC固态硬盘，并配备了压缩功能以提高有效容量。据DDN表示，目前有48个AI400X2阵列在Nvidia的最大SuperPOD中使用，该公司称今年第一季度出货的AI存储量超过了2022年的总和。

DDN的产品高级副总裁James Coomer撰写了一篇名为《EXAScale? Let's Talk》的博客，在博客中他表示，AI存储系统必须支持AI工作负载周期的所有阶段。他说：“这意味着数据导入、准备、深度学习、检查点、后处理等等，需要为所有IO模式提供全面的支持。”

AI读/写混合操作

什么是IO模式？Coomer引用了OSTI.GOV的一份白皮书《Characterizing Machine Learning I/O Workloads on Leadership Scale HPC Systems》，该白皮书研究了“在全球第二快的超级计算机Summit上运行的超过23,000个HPC ML I/O作业的darshan日志”，其中Darshan是一个HPC IO表征工具。Summit的存储系统是GPFS（Storage Scale）并行文件系统。

白皮书表示：“通常可以观察到，ML工作负载具有小块读写访问模式”，并且“大多数ML作业被认为是读取密集型的，其中包含许多小块读取，而有少数ML作业也会执行小块写入”。

但是，“从我们的研究中观察到，ML工作负载会生成大量的小文件读取和写入”。

下面这张图表展示了他们针对使用GPFS的工作负载所得到的结果：

读写IO之间大致保持平衡。Coomer的博客中有一张图表显示了读写IO调用之间的平衡情况，小块调用（小于1MB）占据主导地位：

白皮书的作者们表示：“ML工作负载的时间趋势显示，ML工作负载的I/O活动呈指数增长，这表明未来将被ML主导。因此，需要设计更好的存储解决方案，以处理未来HPC ML I/O工作负载的多样化I/O模式。”

凭借这一平衡和小块读写优势的发现，Coomer对比了使用NFS的不同QLC闪存系统与DDN AI400X2存储的IO能力。

他对比了部分机架的DDN AI400X2系统，该系统可以提供800GBps的写入带宽，而竞争对手（未公开名称）需要20个机架才能达到相同的性能。

Coomer的图形显示了达到他800GBps写入目标所需的DDN（右侧）和竞争供应商的QLC/NFS系统（左侧）。白色矩形表示空的机架空间。

Coomer说：“服务器和存储都在那里（嵌入在AI400NVX2内部），后端不需要交换机。我们直接插入客户的IB或以太网网络。DDN的写入性能数字是由客户测量得出的，而不仅仅是数据表中的数字。”

竞品如何呢？

我们研究了各种QLC闪存/NFS系统，试图了解更多信息。

作为参考，AI400X2系统可以从其2RU机箱中提供90GBps的读带宽和65GBps的写带宽。其中12套系统可达到1.08TBps的读和780GBps的写。13套系统将达到1.17TBps的读和845GBps的写带宽，需要26个RU的机架空间。

为了与DDN系统进行直接比较，需要将替代系统中的服务器和交换机考虑在内。

VAST Data Lightspeed存储节点在44RU配置下提供50GBps。需要16个这样的节点才能达到800GBps的写入速度，还需要相应的计算节点和交换机。大约需要20个机架；具体取决于存储节点和计算节点的平衡。

较新的VAST Data Ceres系统在14个机架中提供680GBps，每个机架48.6GBps，意味着需要17个机架才能达到800GBps的写入速度：

底部的幻灯片标题提到了680GBps的写入带宽。

Pure Storage FlashArray//C60在其6RU机箱中具有高达8GBps的吞吐量。如果我们假设这是写入带宽，并且每个RU有1.3GBps，那么我们需要大约14个机架才能达到800GBps的写入速度。

扩展式NFS的效率低下

在Coomer看来，扩展式NFS系统架构效率低下，因为它们过于复杂：

DDN的Exascaler AI400X2系统消除了服务器-互连-缓冲区的复杂性，因为其客户节点知道数据的位置：

Coomer认为，根据OSTI.GOV的研究，它可以提供平衡的小块读写IO性能，满足ML工作负载（如生成式AI）的需求。相比替代的QLC闪存/NFS系统，它所需的机架空间要少得多。这意味着在使用DDN设备的AI数据中心需要更少的电力和冷却资源。

---【本文完】---

近期受欢迎的文章：

我们正处于数十年未见之大机遇中

新技术爆发式发展，催生新产品

然而，颠覆式创新并非简单的技术堆叠

而是异常复杂的系统工程

需要深度洞察

欢迎一起分享思考和见解

继续滑动看下一个

Andy730

向上滑动看下一个

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

“家属和记者取得联系”：记者的退场意味深长

圈内疯传某谣言

不要放过这些人渣

“被指居者”之死：嫌犯身体遭长时间束缚，警方称指居使用械具是惯例

AI/ML和HPC的高效IO方案？

您可能也对以下帖子感兴趣

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

“家属和记者取得联系”：记者的退场意味深长

圈内疯传某谣言

不要放过这些人渣

“被指居者”之死：嫌犯身体遭长时间束缚，警方称指居使用械具是惯例

生成图片，分享到微信朋友圈

AI/ML和HPC的高效IO方案？

您可能也对以下帖子感兴趣