查看原文
其他

Nvidia在其AL/ML中使用OpenStack Swift存储

常华Andy Andy730 2024-03-16

Source: Steven J. Vaughan-Nichols, Nvidia Uses OpenStack Swift Storage as Part of Its AI/ML Process, Jun 30th, 2023

当你想到人工智能(AI)和机器学习(ML)时,OpenStack基础设施即服务(IaaS)云和其对象存储组件Swift可能不是首先想到的技术。但这正是价值超过万亿美元的芯片和人工智能巨头Nvidia用于支持其机器学习工作的技术。

Nvidia的首席系统软件工程师John Dickinson在最近的OpenInfra峰会上解释说,机器学习需要快速、强大的存储解决方案。Dickinson说:“随着人工智能和机器学习技术的兴起,我们作为存储提供商的主要任务是尽可能快地为引擎提供大量数据。”为了满足不断增长的需求,存储解决方案必须提供高容量、可用性和聚合吞吐量。

Dickinson继续说道:“尽管Nvidia的Grace和Hopper芯片以及Spectrum交换机正在推动计算和网络领域的界限,但存储速度同样重要。”开源的Swift是一个分布式对象存储系统,设计用于从单台机器扩展到数千台服务器,它针对多租户和高并发进行了优化。通常使用简单的基于REST API来访问Swift。

在会议上的主题演讲中,Dickinson阐述了机器学习的工作流程,并强调了在构建支持存储系统时理解数据访问模式的重要性。毕竟,机器学习需要处理规模巨大的数据集,这些数据集远远超出了GPU内存或服务器闪存存储的容量。

根据Dickinson的说法,答案在于对象存储。它提供了高吞吐量和大容量,尽管其API有所不同。尽管对象存储本身存在一系列挑战,包括缓存复杂性和不同的API,但他坚定地表示目标是“使用户能够做到以前不可能的事情”。

两个关键概念——内环和外环(Inner / Outer)

他透露,Nvidia正在实施两个关键概念来解决这些问题——“内环”和“外环”。内环具有高速、低延迟的特点,并与特定的GPU集群相连,类似于终端用户的文件存储。而外环则提供大容量、高吞吐量和高可用性。对于外环,Nvidia使用Swift,因为它适用于大容量和高吞吐量存储。

通过实施这些存储概念,Nvidia能够支持以前无法处理的大规模数据集,提高性能并增加工作负载的可移植性。Swift还通过从外环读取数据来提供改进的I/O性能,这些外环数据也可以从每个计算集群访问。此外,由于Swift支持许多标准API,如POSIX和NFS用于文件访问,以及S3、Azure和本机Swift用于对象访问,因此无论您如何访问数据集,与数据集的工作都变得非常容易。

这一战略不仅仅停留在提供内环和外环上。Nvidia认识到随着数据集的增长,数据探索变得越来越困难,因此他们创建了一个数据集服务,旨在简化这一过程。在现场演示中,Dickinson展示了这些存储服务如何促进大规模机器学习,并强调用户如何将数据集加载到Swift中,在Jupyter笔记本中进行探索,并运行机器学习任务,而无需担心访问存储的繁琐细节。

这个现场演示给大约750名OpenInfra的观众留下了深刻的印象。技术观众很少会对演示感到印象深刻。他们已经见过各种各样的演示,了解所有的技巧。但是这个演示引起了他们的注意。OpenStack和Swift在处理大规模机器学习数据集的重要工作中发挥着明确的作用。

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存