查看原文
其他

存储是AI场景的关键瓶颈

常华Andy Andy730 2024-03-16
Source: Antony Adshead, Storage the key bottleneck for AI processing, 01 Sep 2022

我与Jeff Whitaker讨论了为什么存储是人工智能(AI)处理的关键瓶颈,包括探讨AI处理的关键要求,关注它所需的存储如何带来好处。

Whitaker谈到了快速将大量数据输入AI计算资源的需求,以及一些人试图通过增加计算量来解决问题。相反,他认为应该注意具有足够吞吐量和延迟性能的文件存储,以处理大量小文件,就像在AI场景中发现的那样。

Adshead:在高性能应用程序的存储方面,行业用户面临哪些挑战?

Whitaker:当涉及到高性能应用时...应用程序在尝试快速获得结果。它试图做出决定,试图为应用程序的环境获取信息。

通常严重依赖计算方面,有时过度依赖。很多时候,可以通过[问]来解决,典型的应用程序环境是什么样的?是计算、网络、存储。

我之所以说存储为第三,是因为在尝试从应用程序环境中获取性能时,存储通常是最后考虑的事情。

我们喜欢关注的一件事是,当涉及到应用程序时,数据需求是什么?需要什么样的吞吐量,需要什么样的延迟,该应用程序需要什么才能尽可能高效地运行?

通常,客户和合作伙伴希望通过投入更多计算资源来提高应用程序速度来解决这一问题,但实际上瓶颈来自存储。

对于人们来说,重要的是要了解他们的环境,他们应该在去尝试仅通过计算解决问题之前查看数据需求。

因此,这实际上是一个尝试建立一个有效的环境以获得他们需要的结果的问题。他们需要了解哪种类型的存储环境可以解决其应用程序的挑战。

Adshead:您看到的主要趋势是什么,特别是围绕高性能计算(HPC)与高端企业存储、人工智能和机器学习的融合?

Whitaker:HPC传统上是一个需要大量数据的应用程序环境。很多时候,存储环境需要特殊的东西,可以扩展和解决吞吐量问题,以便计算不会闲置在那里。它需要大量的数据进入那里。

我们已经开始在人工智能世界中看到的,不仅仅是开发和提出想法,它们本质上是应用程序。人工智能环境试图处理大量数据并获得结果,尤其是在训练过程中,有大量数据被泵入计算。因此,在这种情况下,通常使用的是GPU,这些单元很昂贵,没有人愿意让它闲置。

因此,将数据泵入AI环境的速度对于应用程序运行或AI训练运行的速度至关重要。如果您查看它,它几乎与HPC环境的典型外观相当,在HPC环境中,您摄取大量数据试图获得结果,因此您确实需要查看这些数据对训练过程或不同类型的HPC工作负载的需求,并尝试从那里解决挑战。

我们在这里看到的一个区别通常是在HPC世界中,我们看到非常大的文件被泵入计算中。而在AI方面,我们看到大量较小的文件被泵入计算中。

真正的瓶颈是,你能以多快的速度将数据输入计算,以便得到一个结果。

真的会说,传统的企业存储环境能为您解决这一需要吗?

这是延迟、吞吐量。传统环境具有小延迟的能力,但尝试获得非常可扩展的吞吐量是非常具有挑战性的,这就是我们开始研究不同类型的架构,例如可以一致扩展的并行解决方案,具体取决于您需要多少性能,真正解决将大量数据摄取到这些计算环境中的挑战。
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存