企业级AI的存储选择策略：实现业务成功的关键因素

常华Andy Andy730 2024-03-16

【ANDY】注意本文来自于NVIDIA，有一定的厂商倾向性。

Source: André Franklin, Choosing the Right Storage for Enterprise AI Workloads, Jul 21, 2022

AI在企业中变得越来越普遍。语音识别、推荐系统和欺诈检测只是AI和DL驱动的数百种应用中的一小部分

为了支持这些AI应用，企业希望优化AI服务器和性能网络。不幸的是，在企业级AI的开发中，存储基础设施的要求经常被忽视。然而，要成功应用AI，考虑全面的存储部署策略至关重要，包括对AI的增长、面向未来的功能和互操作性。

本文重点介绍了企业在规划AI应用的数据存储基础设施时应考虑的重要因素，以最大化业务结果。我讨论了云存储与本地存储解决方案的比较，以及在支持启用GPU的虚拟机（VM）中对更高性能存储的需求。

为什么企业需要AI存储决策

流行的短语“要么现在付钱，要么以后不得不付钱”，这意味着在做出当前决策时最好考虑未来。很多时候，用于支持AI或DL应用程序的存储解决方案只能满足应用程序的即时需求，而没有充分考虑未来的成本和灵活性。

从长远来看，从存储的角度来看，今天花钱让你的AI环境面向未来可能更具成本效益。决策者必须扪心自问：

我的AI存储基础设施能否适应云或混合模式？
选择对象、块或文件存储是否会限制未来企业部署的灵活性？
对于归档或不需要昂贵、高速存储的数据集，是否有可能使用成本较低的存储层或者采用混合模式？

如果没有直接的A/B比较，企业存储决策对AI部署的影响并不总是显而易见的。今天的错误决策可能会导致性能降低，并且无法在未来有效地横向扩展业务运营。

规划AI存储基础设施时的主要考虑因素

以下是部署和规划存储时要考虑的各种因素。下面概述了数据中心、预算、互操作性和存储类型考虑因素。

数据中心

预算

互操作性

存储类型

DPU

现有与新的

云和数据中心

对象/块/文件

网络

全闪存/硬盘/混合

虚拟机环境

闪存/硬盘/混合

在GPU加速的AI应用程序上部署AI解决方案时IT的存储考虑因素

AI性能和GPU

在评估存储性能之前，请考虑AI性能的一个关键要素是拥有高性能企业GPU，以加速机器学习、DL和推理应用程序的训练。

许多数据中心服务器没有GPU来加速AI应用程序，因此在查看性能时最好先查看GPU资源。

大型数据集并不总是适合GPU内存。这一点很重要，因为当完整的数据集不适合GPU内存时，GPU提供的性能会降低。在这种情况下，数据会与GPU内存交换，从而影响性能。模型训练需要更长的时间，并且推理性能可能会受到影响。

某些应用（如欺诈检测）可能具有极端的实时要求，当GPU内存等待数据时，这些要求会受到影响。

存储的考虑因素

存储始终是一个重要的考虑因素。部署新的AI应用时，现有存储解决方案可能无法正常工作的情况。

也许你现在需要NVMe闪存存储或直接GPU内存访问以实现所需的性能。然而，你可能不知道未来的存储期望会是什么，因为随着对存储的AI数据需求逐渐增加。对于某些应用程序而言，存储性能几乎不存在过多的问题，特别是在实时使用场景下，比如预事务欺诈检测。

对于AI驱动的应用程序，没有“一刀切”的存储解决方案。

性能只是存储考虑的一方面。另一个方面是可扩展性。训练数据不断增长，推理数据也在增加。存储必须能够在容量和性能上进行扩展，并且在许多情况下跨多个存储节点进行扩展。简而言之，一个满足你当前需求的存储设备可能无法满足未来的挑战。

最重要的是：随着训练和推理工作负载的增长，容量和性能也必须相应增长。IT部门应该只考虑具有足够性能以保持GPU高效利用的可扩展存储解决方案，以获得最佳的AI性能。

数据中心的考虑因素

DPU是基础设施技术的最新补充，将数据中心和AI存储推向一个全新的水平。

虽然DPU不是一个存储产品，但它重新定义了数据中心存储。它的设计旨在将存储、处理和网络集成在一起，使整个数据中心成为企业的计算机。

在规划和部署存储时，了解DPU的功能非常重要，因为DPU可以从数据中心处理器和存储设备中卸载存储服务。对于许多存储产品来说，与DPU相连的数据中心可以实现更高效的扩展。

例如，NVIDIA BlueField DPU支持以下功能：

NVMe over Fabrics（NVMe-oF）
GPUDirect存储
加密
弹性块存储
纠删码（用于数据完整性）
解压缩
重复数据删除

远程存储访问的存储性能就像存储直接连接到AI服务器一样。DPU有助于实现可扩展的软件定义存储，以及网络和网络安全加速。

预算的考虑因素

成本仍然是一个关键因素。虽然部署最高吞吐量和最低延迟的存储是可取的，但根据AI应用的需求，这并不总是必要的。

为了进一步延长存储预算，IT部门必须了解每个AI应用的存储性能需求（带宽、IOPs和延迟）。

例如，如果一个AI应用具有大型数据集但性能要求较低，传统硬盘驱动器（HDD）可能足够，并且可以大大降低存储成本。尤其是当数据集的“热数据”完全适合GPU内存时，这一点尤为正确。

另一个节省成本的选择是使用混合存储，它将闪存用作缓存以加快性能，同时降低对存储在硬盘驱动器上的不经常访问数据的存储成本。有一些混合闪存/硬盘驱动器存储产品几乎与全闪存一样表现出色，因此对于没有极高性能要求的应用程序来说，探索混合存储选项是很有意义的。

较旧、已归档和不经常使用的数据和数据集可能仍具有未来价值，但将它们存放在昂贵的主存储上并不划算。

硬盘驱动器仍然在财务上是有意义的，特别是如果数据可以在需要时无缝访问。根据访问的规模和频率，两层云和本地存储解决方案也可能在财务上是有意义的。市场上有很多这样的解决方案可供选择。

互操作性因素

从存储的角度评估云和数据中心的互操作性是重要的。即使在以虚拟机为驱动的数据中心内部，也有需要评估的互操作性因素。

云和数据中心的考虑因素

AI应用程序是在本地运行、在云端运行还是两者兼有？即使应用程序可以在任一地方运行，也不能保证其性能不会随着位置的变化而改变。例如，如果云端使用的存储类别与本地使用的存储类别不同，可能会出现性能问题。必须考虑存储类别。

假设一个重新训练大型推荐模型的作业需要在8小时的时间窗口内完成，使用的是数据中心的启用GPU的服务器和高性能闪存存储。将相同的应用程序移到云端，即使具有相同的GPU计算能力，训练可能需要24小时才能完成，远超出8小时的要求。为什么会这样？

某些AI应用程序需要特定类别的存储，如快速闪存、大容量存储缓存、DMA（Direct Memory Access）存储访问、SCM读取性能等，这在云服务中并不总是可用。

关键在于，无论是选择数据中心还是云存储，某些AI应用程序将产生类似的结果。其他应用程序可能对存储敏感。

仅仅因为一个应用程序在云中由Kubernetes进行容器化和编排，并不能保证与数据中心的结果相似。从性能的角度来看，容器并不总是提供跨数据中心和云端的互操作性。为了实现有效的数据中心和云端互操作性，确保两个领域中的存储选择都能产生良好的结果。

虚拟机（VM）的考虑因素

如今，大多数数据中心服务器没有GPU来加速AI和创造性的工作负载。未来，数据中心的格局可能会有很大的变化。无论是会话式AI、欺诈检测、推荐系统、视频分析还是其他许多用例，企业都被迫使用AI来保持竞争力。

GPU在工作站上很常见，但是GPU工作站提供的加速效果不容易在整个组织内共享。

企业必须为之做好准备的范式转变是在VM环境中共享基于服务器的启用GPU资源。诸如NVIDIA AI Enterprise之类的解决方案使得可以与企业中的任何人共享启用GPU的VM。

简而言之，现在企业中的任何人都可以在vSphere环境中的VM中轻松运行耗费大量计算资源的AI应用程序。

那么，对于VM存储意味着什么呢？针对启用GPU的VM的存储必须满足AI应用程序和共享VM的用户的共享性能要求。这意味着给定VM所需的存储性能要比在非共享环境中需要的更高。

这也意味着为此类VM分配的物理存储可能在容量和性能方面更具可扩展性。在一个密集共享的VM环境中，使用专用的全闪存存储类内存（SCM）阵列通过RDMA over Converged Ethernet连接到启用GPU的服务器，以获得最高的性能和可扩展性是有意义的。

存储类型

深入讨论选择对象存储、块存储或文件存储用于AI应用超出了本文的范围。尽管如此，我在这里提及它是因为这是一个重要的考虑因素，但并不总是一个简单的决策。

对象存储

如果所需的应用程序需要对象存储，例如，所需的存储类型是显而易见的。一些AI应用程序利用对象元数据，同时也从扁平地址空间对象存储架构的无限扩展性中受益。AI分析可以利用丰富的对象元数据来实现精确的数据分类和组织，使数据更有用、更易于管理和理解。

块存储

尽管在云中支持块存储，但真正庞大的云数据集往往是基于对象的。对于结构化数据和事务应用程序，块存储可以提供更高的性能。

块存储缺乏元数据信息，这使得无法将块存储用于任何设计用于从元数据中获益的应用程序。许多传统企业应用程序是基于块存储构建的，但是随着云中对象存储的出现，许多现代应用程序被专门设计为使用对象存储进行本机云部署。

文件存储

当AI应用程序通过常见的文件协议访问数据时，明显的存储选择将是基于文件的。例如，以AI驱动的图像识别和分类引擎可能需要访问基于文件的图像。

部署选项可以从专用的文件服务器到建立在对象或块存储架构之上的NAS机头。NAS机头可以导出NFS或SMB文件协议，以访问底层的块或对象存储架构的文件。这可以提供高度的灵活性和未来性，在AI和数据中心网络客户端通过块或对象存储作为文件存储访问的共同基础。

对于AI的存储类型决策必须基于对当前需求以及长期AI部署战略的充分了解。全面评估每种存储类型的优缺点。通常没有一种适用于所有情况的答案，同时也会有情况下三种存储类型（对象、块和文件）都是合理的选择。

企业存储决策的关键要点

针对AI解决方案的存储需求，没有单一的方法来解决。然而，以下是一些核心原则，可以用来做出明智的AI存储决策：

如果训练和推理没有使用GPU加速，那么任何针对AI解决方案的存储选择可能都是无意义的。
为可能需要超出当前估计的IT资源和相关存储做好准备。
不要假设现有存储对于新的或扩展的AI解决方案已经足够好。与现有存储相比，具有更高成本、性能和可扩展性的存储实际上可能会更加有效和高效。
始终考虑与云的互操作性，因为本地存储选项可能在你的云服务商那里不可用。
战略性的IT规划应考虑DPU在基础设施和存储方面的优势。

在规划企业的AI时，不要将存储放在列表的末尾。存储对于你的AI成功的影响可能比你想象的要大。

继续滑动看下一个

Andy730

向上滑动看下一个

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

企业级AI的存储选择策略：实现业务成功的关键因素

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

企业级AI的存储选择策略：实现业务成功的关键因素

您可能也对以下帖子感兴趣