存储在生成式AI中的作用

Original 常华Andy Andy730 2024-03-16

【ANDY】用HDD堆叠的方法已经过去了，全闪存是新范式。

Source: Adam Armstrong, Storage's role in generative AI, 09 May 2023

由于包括存储在内的IT基础设施的增长，生成式AI越来越受欢迎。

生成式AI依赖于深度学习、算力和GPU，所有这些都在过去十年中已经成熟。它还需要高IOPS存储，以提供对技术供应商几十年来随着IT不断发展而不断改进的大型数据集的快速访问。存储工具（如对象存储）和分布式并行文件系统（可提供高性能、低延迟的数据处理）一直是云计算和大数据项目的支柱。

现在，存储正在成为人工智能的基础。一些人工智能模型足够小，可以在内存中执行，更加关注计算，IT分析公司Small World Big Data的分析师MikeM atchett表示。但是像ChatGPT这样的大型语言模型（LLM）在某些情况下需要数十亿个节点，成本过于高昂，无法保存在内存中。

“没有内存能保持[数十亿]个节点。存储就变得更加重要，”Matchett说。

尽管速度很快，但RAM等内存比存储更昂贵，NAND Research的分析师兼创始合伙人Steve McDowell表示。

“你总是会受到RAM成本的限制，而且它总是会平衡[与存储]，”McDowell说。

他说，LLM需要一个并行文件系统，如Weka或Panasas，位于高性能可扩展存储系统之上，如戴尔的PowerMax，Vast Data的Universal Storage和Pure Storage的FlashBlade。

存储在生成式AI中的作用

生成式AI只有在接受大量数据的训练后才能产生良好的结果，根据Crater Labs的联合创始人兼首席技术官Khalid Eidoo的说法，Crater Labs是一家位于多伦多的人工智能和机器学习公司，与企业合作使用人工智能解决特定问题。Crater采用的一种方法是一种称为生成对抗网络（GAN）的生成式AI，用于在建造核电站时识别焊缝中的潜在结构缺陷。

在这种情况下，使用四种不同神经网络的GAN产生图像，然后进行协调。Eidoo说，在生成的数十万张图像中，只有五六张符合所需的高质量水平。

为了支持此功能，Crater需要可以同步读取和写入的高吞吐量存储，并选择了Pure Storage的FlashBlade产品。“在处理生成网络时，你同时读取数百万张图像来写入数百万张图像，”Eidoo说。

GPU通过加速模型训练在生成式AI中发挥着重要作用。但是当处理数百万张图像时，GPU缓冲区很快就会填满，图像需要快速写入存储，Eidoo说。高吞吐量存储可以减少数据瓶颈的可能性。

闪存不是必需的，但是是上佳选项

根据Matchett的说法，高IOPS存储可以提供高性能计算类似的用户体验。

“你可以在大量的机械硬盘上做并行文件系统，”Matchett说。

Matchett说，并行文件系统将数据从LLM提供给GPU，例如DDN的A3I，它将DDN的Exascalar并行文件系统与NVIDIA的DGX相结合。

McDowell说，Exascalar的混合闪存版本可用于生成式AI，但它缓存和分层存储，可能会影响性能。GPU不能闲置，因此聚合的HDD性能将缓存到运行速度快于内存的SSD中。

“那些认真对待大型语言模型的人，他们正在购买高端闪存，”McDowell说。

闪存在更密集的占用空间中提供高IOPS，还可以为LLM提供聚合性能，Eidoo说。可以使用数百万个HDD，但占用空间很重要。闪存比HDD更密集、性能更高、功耗更低。现在降低功耗的技术将有利于未来的生成式AI。

Eidoo说：“GPU的能量消耗几乎无穷无尽。”

云与本地化

LLM还需要空间来训练模型。Matchett说，无论是在本地，在公有云中还是两者的混合，都取决于模型的大小以及所需的性能和控制。

如果生成式AI用于研究，则将LLM存储在云上是理想的选择，因为用户可以在不投资资本支出基础设施的情况下获得所需的规模。然而，Matchett预测供应商将提供生成式AI应用程序，这些应用程序将成为其业务平台的核心。对于那些依赖于性能和安全性的用户，本地存储将是关键。

“作为企业级运营，生产工作负载以某种程度的连续性运行，这可能会变得昂贵，”Matchett说。

在选择Pure Storage之前，Crater Labs曾与AWS和Google Cloud合作，然后转向混合基础设施以提高速度、安全性和成本。Crater在选择Pure之前考虑了NetApp和HPE。

现在，Crater Labs使用本地组合——FlashBlade和FlashBlade与S3对象存储桶的内置连接，根据Eidoo的说法。Crater每周产生数TB的数据，仅在本地存储效率低下。使用S3对象存储，Crater可以访问云上的图像进行建模。

“当我们开始开发这些生成模型时，我们很快就知道我们在云中获得的性能是不够的，”Eidoo说。

继续滑动看下一个

Andy730

向上滑动看下一个

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

存储在生成式AI中的作用

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

存储在生成式AI中的作用

您可能也对以下帖子感兴趣