查看原文
其他

AI、ML和分析领域高效存储策略的探索

常华Andy Andy730 2024-03-16
Source: Stephen Pritchard, Storage requirements for AI, ML and analytics in 2022, 08 Apr 2022

人工智能(AI)和机器学习(ML)将改变整个经济和社会领域。从无人驾驶汽车到客户服务“机器人”,基于AI和ML的系统推动着下一波业务自动化浪潮。

它们还是数据的巨量消费者。经过大约十年的相对稳定增长,AI和ML模型使用的数据呈指数级增长,因为科学家和工程师努力提高系统的准确性。这对IT系统,包括存储,提出了新的、有时是极端的要求。

AI、ML和分析需要大量的数据,大部分是非结构化格式的。“所有这些环境都在利用大量的非结构化数据,”供应商 Pure Storage 在欧洲、中东和非洲(EMEA)地区的现场首席技术官 Patrick Smith 表示。“这是一个非结构化数据的世界,而不是块或数据库。”

特别是在训练AI和ML模型时,需要使用更大的数据集来获得更准确的预测。正如AI和ML专家OCF的 Vibin Vijay 指出的那样,基于单个服务器的基本概念验证模型可能期望达到80%的准确性。

通过在一组服务器上进行训练,这个准确性将提高到98%甚至99.99%。但这对IT基础设施提出了自己的要求。几乎所有开发人员都是根据更多的数据更好的原则工作,特别是在训练阶段。“这导致组织强制管理至少数PB的大规模数据集合,”IBM存储的首席市场营销官 Scott Baker 说。

存储系统可能成为瓶颈。最新的高级分析应用程序广泛使用CPU,尤其是通过Nvidia InfiniBand等技术连接的GPU集群。开发人员甚至考虑将存储直接连接到GPU

“在AI和ML工作负载中,学习阶段通常使用昂贵且供不应求的强大GPU,”供应商Scality的联合创始人兼现场首席技术官 Brad King说。“它们可以处理大量的数据,并且通常因为存储限制而等待更多的数据。”

“数据量通常很大。当然,大是一个相对的术语,但一般来说,为了从数据中提取有用的洞察,可用的相关数据越多,洞察越好。”

挑战在于提供高性能、可扩展且在预算范围内的存储。正如OCF的 Vijay 指出的那样,设计人员可能希望将所有存储都放在高性能的Tier 0闪存上,但这很少实际可行,甚至从未实现过。而且由于AI和ML的工作方式,特别是在训练阶段,可能并不需要这么做。

相反,组织正在部署分层存储,将数据从闪存移动到云端甚至磁带的各个层级。“您要寻找正确的数据,放在正确的位置,以正确的成本,”Vijay说。

公司还需要考虑数据保留。数据科学家无法预测哪些信息将用于未来的模型,而分析则需要访问历史数据来改进。具有成本效益的长期数据归档仍然很重要。

哪种存储方式最好?

没有单一的选项能够满足AI、ML和分析的所有存储需求。将分析视为高吞吐量、高I/O工作负载最适合块存储的传统观念必须与数据量、数据类型、决策速度以及预算相平衡。在实时工作中,AI训练环境提出了与基于Web的实时推荐引擎不同的需求。

“传统上,块存储非常适用于高吞吐量和高I/O工作负载,其中低延迟很重要,”日立Vantara的全球技术顾问 Tom Christensen 说。“然而,随着现代数据分析工作负载的出现,包括AI、ML甚至数据湖,传统的基于块的平台在满足这些平台的计算方面产生了扩展需求。因此,必须采用基于文件和对象的方法来支持这些现代工作负载。”

块存储

在原始性能方面,基于块的系统仍然具有优势,并支持数据集中化和高级功能。根据IBM的 Scott Baker 的说法,块存储阵列支持应用程序编程接口(API),AI和ML开发人员可以使用这些API改进重复操作,甚至将存储特定处理卸载到阵列上。完全排除块存储并不正确,尤其是在需要高IOPS和低延迟的情况下。

与此同时,需要为块存储构建特定的SAN(通常为FC),并且块存储依赖于阵列之外的(基于主机的)文件系统的开销。正如Baker指出的那样,如果AI系统使用多个操作系统,这变得更加困难。

文件和对象

因此,系统架构师更青睐面向AI和ML的文件或对象存储。对象存储考虑到了大容量(PB级别)的构建,并具备可扩展性。它还设计用于支持物联网(IoT)等应用程序。

纠删码提供了数据保护,对象系统中的高级元数据支持可以使AI和ML应用受益。

然而,与块系统相比,对象存储在性能方面有所不足,尽管随着较新的高性能对象技术的出现,这种差距正在缩小。而且应用程序的支持各不相同,并非所有AI、ML或分析工具都支持AWS的S3接口,这是对象的事实标准。

云存储

云存储主要是基于对象的,但对于AI和ML项目,它提供了其他优势。其中最重要的是灵活性和低前期成本。

云存储的主要缺点是延迟和潜在的数据出口成本。云存储在基于云的AI和ML系统中是一个不错的选择,但在需要将数据提取并加载到本地服务器进行处理的情况下,很难进行辩解,因为这会增加成本。但对于长期数据归档,云端是经济实惠的选择。

存储供应商推荐什么?

存储供应商的推荐并不令人意外,他们不会为AI、ML或分析推荐单一的解决方案,因为应用程序的种类太广泛了。相反,他们建议考虑项目背后的业务需求,并展望未来。

戴尔(Dell)欧洲、中东和非洲地区数据分析和AI总监 Paul Brook 表示:“在选择如何管理和存储数据时,首先应该考虑理解您需要的结果或业务目的。”他指出,有时同样的数据可能在不同的场合和不同的目的下需要使用。

Brook 指出,块存储和文件存储正在单一设备中融合,可以通过单一文件系统弥合文件和对象存储之间的差距。这将通过提供更通用的存储架构来帮助AI和ML开发人员。

例如,HPE推荐为AI提供本地部署、云和混合选项,并看到AI和高性能计算之间的融合。NetApp推广其面向AI的云连接全闪存存储系统ONTAP。

Cloudian的CTO Gary Ogasawara 预计将会看到数据仓库的高性能批处理和流数据处理架构之间的融合。这将推动用户转向对象存储解决方案。

他说:“块存储和文件存储存在着使得在一定程度上进行扩展成本高昂的架构限制。对象存储提供了无限的、高度具有成本效益的可扩展性。对象存储的高级元数据功能是支持AI/ML工作负载的另一个关键优势。”

在项目初期规划存储也至关重要,因为没有足够的存储容量,项目的性能将受到影响。

Hitachi Vantara的 Christensen 表示:“为了成功实施高级AI和ML工作负载,一个合适的存储策略与您选择的先进计算平台同样重要。给复杂、分布式、非常昂贵的计算平台提供不足的支持将导致性能下降,降低结果的质量,最终减少价值实现的时间。”
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存