查看原文
其他

生成式AI工具的动力源:数据存储在NLP和AI中的关键角色

常华Andy Andy730 2024-03-16

【ANDY】注意在训练和推理过程中对存储的不同要求。

Source: Bob O’Donnell, NLP and AI: The Role of Data Storage in Powering Generative AI Tools, May 9, 2023

鲜有技术现象像Dall-E和ChatGPT等新一批生成式AI工具那样迅速走红。似乎在一夜之间,这些引人入胜的新应用就被广泛应用于各种场景,从原创内容创作到电子邮件和报告撰写、软件开发、内容研究等等。

特别是基于文本的ChatGPT,由于其令人印象深刻的语言理解能力,已被证明特别适用于许多情况。它能够从最简单的输入中合成内容,甚至似乎从中获取知识,给人一种神奇的感觉。当然,实际上,这只是在大规模数据集上进行复杂数学计算的结果,但结果仍然令人惊叹。

ChatGPT及其背后的算法是自然语言处理(NLP)领域的一部分。NLP的目标是创建能够理解上下文和含义的工具,不仅仅是个别单词,还包括短语、句子甚至整个段落。凭借这种能力,使用符合NLP原则的正确训练的AI模型能够以连贯、有智慧组织(希望如此!)的方式回应常见的基于语言的请求(无论是文本还是音频形式)。最重要的是,它可以从庞大的信息库中构建回应,理论上可以包含尽可能多的知识。

为了实现这一目标,机器学习算法首先需要通过将大量文档和其他信息源(网站、图书、报告等)输入其中进行训练。从计算和系统的角度来看,这是一项艰巨的任务,因为它需要大量的AI数据存储、大量的计算引擎以及它们之间高速、高效的连接才能正常运行。

在基本的运作层面上,训练过程涉及分析所有这些不同的文档,将其分解为组成部分,发现这些元素之间的共同模式,然后开发数学模型来遵循这些模式。此外,由于这些模型是迭代构建的,它们需要能够学习并扩展模型,以适应更多的数据或者我们想要开发特定词汇(如科学研究或金融)的语言模型。

像ChatGPT这样的大型语言模型需要多次从存储器中读取和处理其源数据集,以建立对细微差别和含义的知识和理解。这个过程可能需要数周或数月的时间来调整数十亿个参数以完善模型。作为过程的关键部分,它们需要保存参数的检查点。

实际上,这种类型的AI训练数据处理工作负载对存储系统(和计算引擎)提出了特定的要求。首先,当然,您需要大量的存储容量,通常以PB为单位,以处理所有这些信息。您需要能够以非常高的速度读取源数据集,并尽快写出参数检查点。而且,由于每个阶段都加载和存储了数十亿个参数,您不能承受I/O链接的拥塞,而且希望在数据路径的两个方向上都没有瓶颈。

具体而言,这意味着您需要最快速的并行存储系统,配备高速多通道网络和巨大的计算阵列。在这些应用中,快速的固态硬盘(SSD)至关重要。可以将其与目前提供最高容量和每比特最便宜的传统硬盘结合使用,但新的SSD技术仍在不断提高竞争力。

DDN将这些不同功能结合到专门为这些AI工作负载优化的存储系统中。他们还提供混合SSD/HDD系统,包括“热池”概念,可以避免“分层”数据存储的低效性,并在SSD和HDD之间透明地移动数据。DDN集成到其产品中的智能存储控制器和并行文件系统技术,特别适合这些工作。

然而,尽管模型训练对于NLP应用至关重要,但这只是事情的一半。另一半涉及推理,其中经过训练的模型可以对用户输入/请求作出反应并生成输出。毫不奇怪,这种类型的工作负载对于训练来说有着不同的要求和系统需求。对于推理,AI存储系统的读取性能更为重要,因为它需要能够将存储的数十亿个模型参数应用于产生最佳回应。此外,由于这些模型的工作方式,多个并行计算需要同时访问同一组数据。再次强调,为了实现最佳性能,您需要一个提供并行数据传输路径的存储系统,而DDN正是专门为此设计其AI存储系统的。

像ChatGPT这样的NLP工具的能力凸显了过去几年中AI算法和软件的巨大进步。实际上,它们是科幻作家 Arthur C. Clarke 名言的一个很好的例子:“任何足够先进的技术都与魔法没有区别。”然而,在它们的魔力背后,实际上有着大量的计算、巧妙的软件和数据传输。让这些组件协同工作并不容易,但凭借适用于任务的合适工具,现在显然是可能的。

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存