查看原文
其他

存储在生成式AI中的作用

常华Andy Andy730 2024-03-16
【ANDY】用HDD堆叠的方法已经过去了,全闪存是新范式。

Source: Adam Armstrong, Storage's role in generative AI, 09 May 2023

由于包括存储在内的IT基础设施的增长,生成式AI越来越受欢迎。

生成式AI依赖于深度学习、算力和GPU,所有这些都在过去十年中已经成熟。它还需要高IOPS存储,以提供对技术供应商几十年来随着IT不断发展而不断改进的大型数据集的快速访问。存储工具(如对象存储)和分布式并行文件系统(可提供高性能、低延迟的数据处理)一直是云计算和大数据项目的支柱。

现在,存储正在成为人工智能的基础。一些人工智能模型足够小,可以在内存中执行,更加关注计算,IT分析公司Small World Big Data的分析师MikeM atchett表示。但是像ChatGPT这样的大型语言模型(LLM)在某些情况下需要数十亿个节点,成本过于高昂,无法保存在内存中。

“没有内存能保持[数十亿]个节点。存储就变得更加重要,”Matchett说。

尽管速度很快,但RAM等内存比存储更昂贵,NAND Research的分析师兼创始合伙人Steve McDowell表示。

“你总是会受到RAM成本的限制,而且它总是会平衡[与存储],”McDowell说。

他说,LLM需要一个并行文件系统,如Weka或Panasas,位于高性能可扩展存储系统之上,如戴尔的PowerMax,Vast Data的Universal Storage和Pure Storage的FlashBlade。

存储在生成式AI中的作用

生成式AI只有在接受大量数据的训练后才能产生良好的结果,根据Crater Labs的联合创始人兼首席技术官Khalid Eidoo的说法,Crater Labs是一家位于多伦多的人工智能和机器学习公司,与企业合作使用人工智能解决特定问题。Crater采用的一种方法是一种称为生成对抗网络(GAN)的生成式AI,用于在建造核电站时识别焊缝中的潜在结构缺陷。

在这种情况下,使用四种不同神经网络的GAN产生图像,然后进行协调。Eidoo说,在生成的数十万张图像中,只有五六张符合所需的高质量水平。

为了支持此功能,Crater需要可以同步读取和写入的高吞吐量存储,并选择了Pure Storage的FlashBlade产品。“在处理生成网络时,你同时读取数百万张图像来写入数百万张图像,”Eidoo说。

GPU通过加速模型训练在生成式AI中发挥着重要作用。但是当处理数百万张图像时,GPU缓冲区很快就会填满,图像需要快速写入存储,Eidoo说。高吞吐量存储可以减少数据瓶颈的可能性。

闪存不是必需的,但是是上佳选项

根据Matchett的说法,高IOPS存储可以提供高性能计算类似的用户体验。

“你可以在大量的机械硬盘上做并行文件系统,”Matchett说。

Matchett说,并行文件系统将数据从LLM提供给GPU,例如DDN的A3I,它将DDN的Exascalar并行文件系统与NVIDIA的DGX相结合。

McDowell说,Exascalar的混合闪存版本可用于生成式AI,但它缓存和分层存储,可能会影响性能。GPU不能闲置,因此聚合的HDD性能将缓存到运行速度快于内存的SSD中。

“那些认真对待大型语言模型的人,他们正在购买高端闪存,”McDowell说。

闪存在更密集的占用空间中提供高IOPS,还可以为LLM提供聚合性能,Eidoo说。可以使用数百万个HDD,但占用空间很重要。闪存比HDD更密集、性能更高、功耗更低。现在降低功耗的技术将有利于未来的生成式AI。

Eidoo说:“GPU的能量消耗几乎无穷无尽。”

云与本地化

LLM还需要空间来训练模型。Matchett说,无论是在本地,在公有云中还是两者的混合,都取决于模型的大小以及所需的性能和控制。

如果生成式AI用于研究,则将LLM存储在云上是理想的选择,因为用户可以在不投资资本支出基础设施的情况下获得所需的规模。然而,Matchett预测供应商将提供生成式AI应用程序,这些应用程序将成为其业务平台的核心。对于那些依赖于性能和安全性的用户,本地存储将是关键。

“作为企业级运营,生产工作负载以某种程度的连续性运行,这可能会变得昂贵,”Matchett说。

在选择Pure Storage之前,Crater Labs曾与AWS和Google Cloud合作,然后转向混合基础设施以提高速度、安全性和成本。Crater在选择Pure之前考虑了NetApp和HPE。

现在,Crater Labs使用本地组合——FlashBlade和FlashBlade与S3对象存储桶的内置连接,根据Eidoo的说法。Crater每周产生数TB的数据,仅在本地存储效率低下。使用S3对象存储,Crater可以访问云上的图像进行建模。

“当我们开始开发这些生成模型时,我们很快就知道我们在云中获得的性能是不够的,”Eidoo说。
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存