查看原文
其他

为什么并行文件系统不是AI的万能解决方案的5个原因

常华Andy Andy730 2024-03-16

Source: Leon Clayton, 5 Reasons Why Parallel File Systems Are Not a Silver Bullet for AI, Apr 26, 2023

【ANDY】这是一篇厂商的文章,内容有些倾向性。

HPC利用计算机集群的强大功能来解决海量数据集的复杂问题。传统上,工作负载在并行文件系统上运行,因为它们具有大块和顺序I/O模式。然而,AI工作负载需要一种不同类型的系统,主要基于读I/O模式,尤其是随机读取。

为了适应这一变化,该行业正在转向由SSD驱动的全闪存系统。全闪存系统更适合处理HPC和AI工作负载。此外,SSD提供了更容易访问整个命名空间,这是使用HDD难以实现的。

以下是围绕工作负载、存储和基础设施的最新变化引起的问题讨论中得出的观点。

对于并行文件系统来说,高性能等于高复杂性

虽然并行文件系统一直是HPC工作负载的首选,但它们也带来了挑战。并行文件系统很难维护,需要额外考虑客户端。由于复杂性,升级任务变得复杂。

AI工作负载不需要写性能吗?

值得注意的是,95%的AI工作负载在处理客户时都是读密集型的。这与对读和写之间需要平衡的看法相反。当然也有例外情况(例如HPC或大型语言模型的检查点),但AI工作负载主要由读取操作占主导。必须满足适当的读/写带宽才能成功完成任务。

此外,闪存技术的价格越来越实惠,超过了硬盘的性能,并且具有更低的环境影响和更高的内存密度。

并行文件系统并不适用于非中断运维

在并行或集群中运行的文件系统在非中断运维方面是脆弱的。但我们拥有一种架构,可以保证100%的正常运行时间,并且不会受到维护操作的中断。这是怎么做到的呢?很简单!我们的存储适用于所有大小的集群,无需进行任何手动数据布局或调整。我们还通过行业标准协议公开其命名空间,不需要本地专有客户端。

Isilon/PowerScale的客户已经看到了该产品的好处,因为我们在持久性NVMe上保存了有状态协议的会话状态。NVMe是一种专门设计用于让系统访问非易失性内存设备(如SSD)的新协议。NVMe具有较低的开销,并且允许比旧的SCSI协议更多的并行I/O。因此,即使在滚动升级时,2个SMB会话也不会断开连接。

我们的Docker容器消除了技术复杂性,并允许快速升级和重新启动,无需担心元数据服务器或划分内容。此外,设置文件共享或导出数据非常简单。

一旦引入到您的系统堆栈中,我们可以确保几乎零故障工单,并以最少的努力实现系统的无缝运行。

专有文件系统客户端是必要之恶

专有文件系统客户端可以视为实现最佳性能的必要之恶。然而,这些本地客户端也有一些限制,比如与仅兼容一个存储平台并在基础系统更改时需要升级的问题。

幸运的是,已经开发出了使用行业标准客户端的先进方法。现在,用户可以在不对客户端进行任何更改的情况下平稳切换平台。我们的工程师对这个特定问题有着实际经验,并见过一些独特的情况,其中客户端可以成为文件系统的一部分,并以特殊的方式进行交互。

例如,DeepMind的Alphafold程序用于解决蛋白质折叠的复杂数学问题,它大量使用mmap()文件。在我们的系统上运行时,与并行文件系统相比,Alphafold的性能提高了500-700%。

科学研究场景部署困难

要开发和部署重度使用并行文件系统,需要一个对代码和操作系统有深入了解的优秀团队。对于并行文件系统来说,这一点尤为重要,因为在国家实验室中更常见,这些实验室可以接触顶级的专业知识。

不幸的是,许多商业企业缺乏这些资源,这就产生了对可持续解决方案的迫切需求,以使企业能够竞争。即使是高等教育机构也受益于使用并行文件系统,因为有研究生和博士后学生可以协助进行操作。

但是,部署这些解决方案需要远远超出技术知识。这还需要对文件系统的负担有透彻的了解,以确保它们能够得到有效的调整、管理和维护。


---【本文完】---

近期受欢迎的文章:


我们正处于数十年未见之大机遇中

新技术爆发式发展,催生新产品

然而,颠覆式创新并非简单的技术堆叠

而是异常复杂的系统工程

需要深度洞察

欢迎一起分享思考和见解

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存