查看原文
其他

AI/ML和HPC的高效IO方案?

常华Andy Andy730 2024-03-16

【ANDY】IOPS、带宽、时延,可靠性,规模,和成本必然要有一定的取舍,关键在于聚焦的场景,和该场景下可提供的价值优势。

Source: Chris Mellor, DDN says generative AI/ML work needs balanced read/write IO mix, July 28, 2023

DDN表示生成式AI和其它AI工作需要平衡的读写IO组合,声称其自有存储系统提供了最佳平衡,因为其写入速度优势超过竞争产品。

该公司为其Exascaler AI400X2阵列提供了Magnum I/O GPUDirect认证,可用于Nvidia的DGX SuperPod AI处理系统。它使用60TB的QLC固态硬盘,并配备了压缩功能以提高有效容量。据DDN表示,目前有48个AI400X2阵列在Nvidia的最大SuperPOD中使用,该公司称今年第一季度出货的AI存储量超过了2022年的总和。

DDN的产品高级副总裁James Coomer撰写了一篇名为《EXAScale? Let's Talk》的博客,在博客中他表示,AI存储系统必须支持AI工作负载周期的所有阶段。他说:“这意味着数据导入、准备、深度学习、检查点、后处理等等,需要为所有IO模式提供全面的支持。”

AI读/写混合操作

什么是IO模式?Coomer引用了OSTI.GOV的一份白皮书《Characterizing Machine Learning I/O Workloads on Leadership Scale HPC Systems》,该白皮书研究了“在全球第二快的超级计算机Summit上运行的超过23,000个HPC ML I/O作业的darshan日志”,其中Darshan是一个HPC IO表征工具。Summit的存储系统是GPFS(Storage Scale)并行文件系统。

白皮书表示:“通常可以观察到,ML工作负载具有小块读写访问模式”,并且“大多数ML作业被认为是读取密集型的,其中包含许多小块读取,而有少数ML作业也会执行小块写入”。

但是,“从我们的研究中观察到,ML工作负载会生成大量的小文件读取和写入”。

下面这张图表展示了他们针对使用GPFS的工作负载所得到的结果:

读写IO之间大致保持平衡。Coomer的博客中有一张图表显示了读写IO调用之间的平衡情况,小块调用(小于1MB)占据主导地位:

白皮书的作者们表示:“ML工作负载的时间趋势显示,ML工作负载的I/O活动呈指数增长,这表明未来将被ML主导。因此,需要设计更好的存储解决方案,以处理未来HPC ML I/O工作负载的多样化I/O模式。”

凭借这一平衡和小块读写优势的发现,Coomer对比了使用NFS的不同QLC闪存系统与DDN AI400X2存储的IO能力。

他对比了部分机架的DDN AI400X2系统,该系统可以提供800GBps的写入带宽,而竞争对手(未公开名称)需要20个机架才能达到相同的性能。

Coomer的图形显示了达到他800GBps写入目标所需的DDN(右侧)和竞争供应商的QLC/NFS系统(左侧)。白色矩形表示空的机架空间。

Coomer说:“服务器和存储都在那里(嵌入在AI400NVX2内部),后端不需要交换机。我们直接插入客户的IB或以太网网络。DDN的写入性能数字是由客户测量得出的,而不仅仅是数据表中的数字。”

竞品如何呢?

我们研究了各种QLC闪存/NFS系统,试图了解更多信息。

作为参考,AI400X2系统可以从其2RU机箱中提供90GBps的读带宽和65GBps的写带宽。其中12套系统可达到1.08TBps的读和780GBps的写。13套系统将达到1.17TBps的读和845GBps的写带宽,需要26个RU的机架空间。

为了与DDN系统进行直接比较,需要将替代系统中的服务器和交换机考虑在内。

VAST Data Lightspeed存储节点在44RU配置下提供50GBps。需要16个这样的节点才能达到800GBps的写入速度,还需要相应的计算节点和交换机。大约需要20个机架;具体取决于存储节点和计算节点的平衡。

较新的VAST Data Ceres系统在14个机架中提供680GBps,每个机架48.6GBps,意味着需要17个机架才能达到800GBps的写入速度:

底部的幻灯片标题提到了680GBps的写入带宽。

Pure Storage FlashArray//C60在其6RU机箱中具有高达8GBps的吞吐量。如果我们假设这是写入带宽,并且每个RU有1.3GBps,那么我们需要大约14个机架才能达到800GBps的写入速度。

扩展式NFS的效率低下

在Coomer看来,扩展式NFS系统架构效率低下,因为它们过于复杂:

DDN的Exascaler AI400X2系统消除了服务器-互连-缓冲区的复杂性,因为其客户节点知道数据的位置:

Coomer认为,根据OSTI.GOV的研究,它可以提供平衡的小块读写IO性能,满足ML工作负载(如生成式AI)的需求。相比替代的QLC闪存/NFS系统,它所需的机架空间要少得多。这意味着在使用DDN设备的AI数据中心需要更少的电力和冷却资源。


---【本文完】---

近期受欢迎的文章:


我们正处于数十年未见之大机遇中

新技术爆发式发展,催生新产品

然而,颠覆式创新并非简单的技术堆叠

而是异常复杂的系统工程

需要深度洞察

欢迎一起分享思考和见解

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存