Nvidia在其AL/ML中使用OpenStack Swift存储

Original 常华Andy Andy730 2024-03-16

Source: Steven J. Vaughan-Nichols, Nvidia Uses OpenStack Swift Storage as Part of Its AI/ML Process, Jun 30th, 2023

当你想到人工智能（AI）和机器学习（ML）时，OpenStack基础设施即服务（IaaS）云和其对象存储组件Swift可能不是首先想到的技术。但这正是价值超过万亿美元的芯片和人工智能巨头Nvidia用于支持其机器学习工作的技术。

Nvidia的首席系统软件工程师John Dickinson在最近的OpenInfra峰会上解释说，机器学习需要快速、强大的存储解决方案。Dickinson说：“随着人工智能和机器学习技术的兴起，我们作为存储提供商的主要任务是尽可能快地为引擎提供大量数据。”为了满足不断增长的需求，存储解决方案必须提供高容量、可用性和聚合吞吐量。

Dickinson继续说道：“尽管Nvidia的Grace和Hopper芯片以及Spectrum交换机正在推动计算和网络领域的界限，但存储速度同样重要。”开源的Swift是一个分布式对象存储系统，设计用于从单台机器扩展到数千台服务器，它针对多租户和高并发进行了优化。通常使用简单的基于REST API来访问Swift。

在会议上的主题演讲中，Dickinson阐述了机器学习的工作流程，并强调了在构建支持存储系统时理解数据访问模式的重要性。毕竟，机器学习需要处理规模巨大的数据集，这些数据集远远超出了GPU内存或服务器闪存存储的容量。

根据Dickinson的说法，答案在于对象存储。它提供了高吞吐量和大容量，尽管其API有所不同。尽管对象存储本身存在一系列挑战，包括缓存复杂性和不同的API，但他坚定地表示目标是“使用户能够做到以前不可能的事情”。

两个关键概念——内环和外环（Inner / Outer）

他透露，Nvidia正在实施两个关键概念来解决这些问题——“内环”和“外环”。内环具有高速、低延迟的特点，并与特定的GPU集群相连，类似于终端用户的文件存储。而外环则提供大容量、高吞吐量和高可用性。对于外环，Nvidia使用Swift，因为它适用于大容量和高吞吐量存储。

通过实施这些存储概念，Nvidia能够支持以前无法处理的大规模数据集，提高性能并增加工作负载的可移植性。Swift还通过从外环读取数据来提供改进的I/O性能，这些外环数据也可以从每个计算集群访问。此外，由于Swift支持许多标准API，如POSIX和NFS用于文件访问，以及S3、Azure和本机Swift用于对象访问，因此无论您如何访问数据集，与数据集的工作都变得非常容易。

这一战略不仅仅停留在提供内环和外环上。Nvidia认识到随着数据集的增长，数据探索变得越来越困难，因此他们创建了一个数据集服务，旨在简化这一过程。在现场演示中，Dickinson展示了这些存储服务如何促进大规模机器学习，并强调用户如何将数据集加载到Swift中，在Jupyter笔记本中进行探索，并运行机器学习任务，而无需担心访问存储的繁琐细节。

这个现场演示给大约750名OpenInfra的观众留下了深刻的印象。技术观众很少会对演示感到印象深刻。他们已经见过各种各样的演示，了解所有的技巧。但是这个演示引起了他们的注意。OpenStack和Swift在处理大规模机器学习数据集的重要工作中发挥着明确的作用。

继续滑动看下一个

Andy730

向上滑动看下一个

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

Nvidia在其AL/ML中使用OpenStack Swift存储

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

Nvidia在其AL/ML中使用OpenStack Swift存储

您可能也对以下帖子感兴趣