查看原文
其他

适用于HPC-AI的高性能存储

常华Andy Andy730 2024-03-16

Source: Josephine Palencia, Ashish Nadkarni, High-Performance NFS Storage for HPC-AI, January 2023


IDC的观点

数字化转型正在导致性能密集型工作负载的用例迅速激增。这些曾经是学术界和政府机构独有的工作负载现在正在成为主流,这主要归功于迫切需要从对各种数据集的加速分析中获得洞察力。

IDC最近的一项调查发现,超过一半的组织表示2022年的数据增长率将从20%提高到50%,三分之一的组织预计数据增长率将高达99%。这些数据中有80%本质上是非结构化的,非常强调迭代、时间实现价值的洞察。提供此类洞察的工作负载利用算法方法和工作流,例如建模和模拟(也称为高性能计算[HPC])、传输和推理(用于人工智能[AI]和机器学习[ML])以及(高性能)数据分析。传统的计算和存储方法(植根于通用基础设施架构)无法满足此类方法的性能和可扩展性要求。

对这些工作负载的投资需要相应的计算、存储和网络基础设施支出,以承载一个或多个这些面向性能的环境。这个基础设施堆栈本质上是复杂的,高度相关,许多紧密相互连接的部分不能轻易地从彼此中分离出来。随着这些工作流和方法的融合,有一个越来越强烈的要求,即存储基础设施同时支持传统HPC建模和仿真(小数据进/大数据出)和新兴的AI/ML训练和推理模式(大数据进/小数据出)的不同I/O模式。基于传统的做法指导下,因为这些模式不同,导致存储基础设施的分叉。这导致了更高的成本,并与数字化转型的经济学相悖。

新兴的供应商正在寻求改变这种状况,通过提供一种独特的架构,满足寻求为传统HPC和新兴AI/ML工作负载部署融合环境的企业和机构客户的这些要求。采用此解决方案(使用高性能网络文件系统(NFS)进行数据访问)可提高融合HPC-AI基础设施环境的敏捷性、性能和安全性。它还使环境更易于管理,企业级数据服务也旨在满足机构用户的需求。这样的解决方案正被金融服务、政府、医疗保健、生命科学、媒体和娱乐、制造、电信和教育等众多市场所采用。


截至目前的旅程:HPC社区何时远离NFS

在建模和模拟部署(我们称之为传统HPC环境)的早期,HPC社区全心全意地支持网络文件系统作为跨HPC集群共享数据的访问协议。NFS因其广泛的适应性、多功能性和易用性而广受欢迎。作为一种久经考验的基于IP的协议,NFS为跨多个异构计算节点的网络文件共享提供了一种经济高效的解决方案。NFS进一步简化了文件管理,消除了存储孤岛,减少了节点之间的文件传输,并提供了透明的文件分层功能。

尽管有这些优势,但NFS在并行计算环境中仍存在固有的扩展挑战,其中性能胜过其它一切。这些问题通过高带宽、低延迟网络和协议的更新版本得到解决,但基本的协议级扩展挑战仍然存在。例如,如果多个客户端写入网络上同一文件的缓存副本并发出接近的close命令,则协议无法确保哪些位成为数据的权威版本,从而导致数据不一致。正是基于NFS的系统的传统实现导致了横向扩展的问题。

由于基于NFS的系统的传统实现从未为原子并行I/O而设计,HPC社区中的许多从业者转向其它并行(分布式)文件系统,例如Lustre,这些文件系统专为并行、集群计算环境而设计。并行文件系统有自己的驱动程序,需要根据与NFS驱动程序分开使用的服务器端运行的软件版本进行维护。这些环境nts利用特定于文件系统的客户端模块(安装在每个计算节点上)来增强用于共享数据访问的常用NFS驱动程序。

这种转变是深刻的。直到今天,大多数HPC环境(尤其是研究机构)都依赖于并行文件系统。IDC发现,对于部署这些并行文件系统的组织来说,一天或几天的集群停机被认为是可以接受的风险,企业功能被认为不太相关。

例如,在世界上最快的超级计算机的最高层,Lustre仍然被广泛采用,占40%的份额,其次是其它商业和开源文件系统。Frontier是世界上第一台exaflop超级计算机,部署在美国能源部橡树岭国家实验室(ORNL),使用三层Lustre文件系统,679PB(基于磁盘),读取速度为5.5TBps,峰值写入速度为4.6TBps,随机读取IOPS为200万次;基于闪存的NVMe设备在峰值10TBps读/写时为11.4PB,随机读取IOPS为200万;基于闪存的元数据容量为10PB。


并行文件系统的挑战

并行文件系统通常将POSIX缓存语义(仅针对单个主机定义)(它们更容易高效实现)扩展到主机集群(其中相应的同步工作通常会减慢速度,以至于共享文件写入等内容变得不可行,并且必须添加额外的中间层)。公共领域已发表的研究表明,并行文件系统(例如支持突发缓冲区的文件系统)对于读取密集型随机访问工作负载通常表现不佳。

此外,向并行文件系统的转变本身会给这些HPC环境带来更高的操作挑战:

  • 熟练的员工。随着向并行文件系统的转变,必须拥有高技能的HPC系统管理员来管理和优化设置。即使在今天,这些技能在工作场所仍然严重短缺,大型服务提供商意识到这些存储管理员的才能并雇用他们,导致人才培训和循环的周期性需求。

  • 版本控制。并行文件系统需要与内核版本和操作系统保持一定的一致性,以便在客户端和服务器上具有兼容的版本。由于并行文件系统不使用标准协议,因此其专有版本可能会随着每次更新而更改。

  • 实施。并行文件系统需要在实施阶段进行细致的规划。许多调优参数会导致延迟和吞吐量之间的权衡空间,而这些空间在给定系统体系结构的情况下无法解决(例如,设置默认inode最大限制、元数据管理、应用程序的已知I/O条带化模式的调整参数、启用HA和设置故障转移参数)。

  • 变更管理。离线和在线配置更改通常会破坏优化性能的微妙平衡。在集成软件管理器之外的多路径配置期间,对服务器、卷和目标进行任何配置修改或重新标记设备名称都会增加中断HA、文件系统管理和监控功能的风险。此外,系统的许多更新和扩展都需要停机,因为它们无法在环境运行时执行。

  • 网络复杂性。在使用混合代InfiniBand和以太网网络的异构网络环境中,需要合并网关和路由器,进一步引入配置管理和更高的管理开销。

运营开销反过来又转化为更高的成本。当考虑实施的总成本时,这可能会产生显着差异。


选择具有高性能NFS访问的存储系统

随着HPC和AI用例的融合,工作负载的整体性质正在发生变化。此外,技术格局正在以这样的方式发展:当使用正确的架构设计时,存储系统(具有基于NFS的访问)可以提供HPC-AI环境所需的扩展性和敏捷性。

克服HPC-AI环境中对NFS的感知

与使用NFS作为主要访问协议相关的耻辱和犹豫可以通过底层文件系统和协议的正确横向扩展架构来减少。它需要解决存储本身的并行性问题,而不是依赖于协议,这只会显著提高性能和扩展特征。

好消息是,在HPC社区中,NFS仍在大量使用。在传统的HPC环境中,基于NFS的存储通常被委派为跨异构和混合基础设施进行存储访问的协议。事实上,IDC的研究发现,大多数HPC环境使用多达三个存储层(主、辅助和第三),其中NFS通常用作第二层或第三层。这种分层明确地引入了更高的技术和管理复杂性、数据孤岛、数据碎片和不必要的数据迁移。

最近,IDC也注意到更成熟的HPC研究机构之间的转变。许多人寻求从企业存储系统的功能和易用性中受益。随着提高服务质量的压力,他们发现快照等功能提供了显著的额外业务价值,可以轻松地从意外删除重要文件中恢复。

但是,他们很难找到易于使用且功能齐全的解决方案。至关重要的是,他们需要能够以合理的价位提供并行文件系统横向扩展性能的存储解决方案。


NFS:当前比几年前成熟得多

幸运的是,在HPC中没有采用NFS作为主要协议并没有阻止供应商和开发人员继续投资NFS。以Linuxha为首的开源生态系统的快速增长导致了网络附加存储(NAS)行业的快速发展;高带宽、低延迟TCP/IP网络的增长;以及经过认证可与共享网络连接文件系统配合使用的应用程序。NFS成熟的主要受益者是企业。非结构化和半结构化数据的增长导致NFS在大多数行业的组织中被广泛采用。

企业中AI/ML工作负载的增长进一步推动了NFS的采用。去年,IT从业者在企业中实施AI/ML工作负载的几个案例显示,大多数企业都有某种类型的高度可扩展的文件系统,通常通过NFS进行共享网络访问。对于大多数具有适度I/O要求的工作负载,NFS运行良好,尽管一旦它开始进入规模,它就会遇到问题。这些性能问题的常见要求包括需要对单个大文件进行极高的顺序读/写性能,以及随着访问数据的其它客户端和应用程序的添加,扩展到所需的并发级别。


面向HPC-AI的融合基础设施增强了对NFS的需求

几十年来,不同的方法决定了企业IT和传统HPC环境的部署方式;在企业中,它是传统的三层架构,而在HPC社区中,它是软件定义的、大规模扩展或并行的架构。HPC、AI/ML和高性能数据分析(HPDA)用例的融合意味着大多数企业和机构可以追求利用两全其美的通用基础设施。

基于NFS的方法值得在此类体系结构的存储层中重新审视。NAS系统旨在通过使用底层文件系统、庞大的命名空间和依赖于高带宽低延迟网络的扩展功能进行扩展。通过正确的并行架构,此类系统可以扩展到数百PB。

IDC认为,在服务器端结合NFS、闪存介质和并行横向扩展架构的优势,可以为HPC-AI环境带来最大优势。这样的系统为传统HPC以及融合的HPC-AI工作负载提供了通用基础设施层。它大大降低了部署复杂性和管理负担。


改变HPC-AI支出和用例
随着HPC成为主流并与AI/ML、数据分析和工程工作负载融合,市场正在见证需求人口结构的转变。HPC已将其足迹扩展到所有正在进行数字化转型的组织,这些组织寻求在本地、云和边缘的基础设施中实现最佳性能和效率。作为验证,IDC的2022全球HPC调查收到了来自企业、营利性机构(例如,商业SS初创企业和合伙企业),传统客户,国家和政府研究实验室以及学术机构(例如大学)的受访者。
在支出方面,IDC发现,2022年,北美(美国)、亚洲(中国和日本)和欧洲(法国、德国和英国)的大多数组织都表示,他们将把HPC-AI总预算的三分之一用于高性能存储。
对于存储供应商来说,这提供了一个绝佳的机会,可以在小型存储市场中突出和脱颖而出,通过支持整个数据物流和数据管理操作(例如,策略引擎、数据保护、数据分类、元数据管理、复制服务、灾难恢复和冗余备份)的全面产品组合来增强卓越的存储性能。其它考虑因素包括HA;在异构HPC-AI计算、存储和网络环境中集成的高度灵活性;跨所有平台(本地、云和边缘)的业务敏捷性,易用性;最重要的是,针对CEO的成本节约目标进行短期和长期ROI/TCO分析。

适用于HPC-AI工作负载的解决方案
V是横向扩展非结构化数据存储解决方案的企业提供商。该公司为希望为传统高性能计算环境、新兴AI/ML工作负载甚至为HPC-AI环境部署通用融合堆栈的企业和机构组织提供了独特的架构来满足这些要求。通过这样做,V迅速成为金融服务、政府、医疗保健、生命科学、媒体和娱乐、制造、电信和教育市场等众多行业值得信赖的领头羊。该供应商的客户中有三家顶级云服务提供商和八家财富50强,这一事实说明了其平台的规模经济性。
V系统现已部署在许多排名前500的数据中心。V解耦共享一切(DASE)架构旨在扩展以满足HPC-AI时代最苛刻的基础设施要求(总计超过10000台存储服务器和1000个NVMe机箱1.5EB扩展到100TBps,IOPS超过5亿)。

系统架构
为了满足数字化转型组织的需求,V销售了一种全闪存scale-out存储系统(称为通用存储),该系统基于基于商用x86服务器的存储硬件和软件定义的存储控制器平台。
V数据通用存储的基础硬件平台包括优化的NVMe机箱(每个机箱容量从338TB到超过1PB)、18/6.4TB的存储类内存(SCM)、40/64GBps的性能以及4x/8x(100GBE/EDRIB)的网络选项。4个无状态V服务器/机箱每个机箱具有80个2.4GHz内核,每个机箱1TBDRAM和8个带宽(50/100GBE和/或IB)。
V的解耦共享一切架构使用一个软件堆栈,该堆栈应用全局算法MS以实现峰值性能和规模。系统的状态和存储容量由高密度NVMe-oF存储机箱构建而成,系统的逻辑由连接和管理所有介质的无状态Docker容器实现。由于compute元素与数据中心结构中的媒体分离,因此每个元素都可以独立缩放,从而分离容量和性能,并使它们能够彼此独立地缩放。通过跨高吞吐量商品网络进行扩展来消除群集内协调的需要,NFS文件服务可以跨连接的存储阵列的分布式网络扩展到百万兆次级比例。根据V的说法,DASE是自2003年引入“无共享”概念以来的第一个新数据架构。
全面的V集群软件堆栈支持NFS、具有Kerberos身份验证的NFSv4、基于RDMA的NFS、SMB以及DockerCSI和S3访问方法,并利用了较新的存储技术,如存储类内存、NVMeoverFabric和基于高密度四级单元(QLC)的固态磁盘(SSD)。所有V客户都将其用作横向扩展文件系统,但超过40%的客户也将其用于S3访问。
V支持各种企业级存储管理功能,可实现高可用性、密集的多租户工作负载整合以及极其高效地利用存储计算和容量资源。该供应商提供了一个企业级的统一数据平台,该平台支持对各种工作负载进行密集整合,而不会危及性能和/或可用性服务级别协议(SLA),与更传统的横向扩展存储设计相比,部署、管理和扩展要简单得多。对于数据服务,系统支持千字节级命名空间、快照和对象不变性、分布式文件锁定、LDAP和ActiveDirectory集成、全局数据压缩、多租户、对相同数据的多协议访问、访问控制列表、容量和性能分析以及零影响快照。
最后,与并行文件系统相比,V的优势在于前者使用NFS作为标准协议,不会随升级而改变。因此,当V服务器升级到新版本时,它不需要在客户端上进行相应的更改。这消除了在升级期间进行大量规划和实施的必要性,因为升级可能导致操作中断和/或停机。
内置RDMA支持
通用存储平台可以通过以太网和InfiniBand网络连接,而无需网关或协议路由器,从而为多变量网络提供了灵活性。通过添加RDMA,NFS性能可以超越TCP/IP的限制。该系统可以通过NFS或NFSoverRDMA访问,从而使单个NFS客户端能够饱和100Gb连接(例如,通过EDR的11GBps)。可以将V服务器池化到资源组中,这些资源组允许通过多个网络子网访问群集,而无需每个子网都有权访问整个服务器池。这样可以实现完整的网络解耦,允许每个服务器通过NVMe-oF访问集群的全局状态。
全局文件锁定,缓存一致性
V通用存储平台支持网络锁定管理器(NLM)字节范围锁定协议,以请求和释放文件和字节范围的锁定。NLM允许对应用程序进行共享和独占锁定,专为并行应用程序而设计,其中多个字节范围可以同时锁定在单个文件中。V的NLM锁定方法本质上是可扩展的,因为锁定和锁定管理完全分布在V集群中。V集群利用DASE架构消除了对集中锁管理的需求。相反,锁定信息作为扩展文件系统元数据存储在VV-Tree中的每个文件中,并跨系统的SCM全局分布。由于所有系统元数据都可用于群集中的所有存储节点,因此每个存储节点都可以创建、释放或查询它正在访问的每个文件的锁定状态,而无需中央锁管理器服务器,而中央锁管理器服务器可能会成为ystem上的瓶颈。虽然针对数据首次写入SCM的随机I/O进行了优化,但可以选择在应用程序不需要时禁用客户端缓存。使用同步或o_direct选项禁用客户端缓存时,写入将成为原子操作,并且旧版NFS系统中的客户端一致性问题得到解决。需要打开缓存的应用程序使用全局文件锁定。
全局数据压缩
V在数据缩减方面的创新(称为基于相似性的数据缩减)将压缩和重复数据删除结合到一项新功能中,可显著减少文件和对象数据占用空间。压缩器扫描数据以查找重复模式,用较小的符号替换它们,并构建字典,以便解压缩器可以反转该过程。它对所有文件全局工作(基于块的重复数据删除),模式匹配是字节粒度的。由于模式匹配的粒度是传统重复数据删除算法的1/4,000,因此对数据差异不太敏感。此功能可减少应用程序已压缩的数据。在许多大型HPC环境中,2.5:1是常见的数据缩减率。在实践中,使用基因组学(2:1)、地震数据(2.5:1)、备份设备(3.1,预复制)、动画/VFX文件(3:1)、索引和日志文件(4:1)、量化交易市场数据(8:1)和备份数据(20:1)中的pre压缩数据实现了数据缩减。这些缩减率适用于实时数据缩减,并且由于V数据缩减始终处于开启状态,因此它们始终会减少所有数据。
全闪存成本优化
通用存储平台设计为基于全闪存的单层存储系统,可提供基于HDD的存储的经济性。随着HPC(面向写入)和AI(面向读取)工作负载融合到由处理器和协处理器/加速器(例如CPU、GPU和FPGA)混合组成的通用性能密集型计算基础设施中,全闪存存储策略现在比以往任何时候都更加重要。
读取I/O还具有随机、大量小文件(LOSF)的特征,这些文件无法确定性地预取到存储中的某个缓冲区或缓存层中。缓存未命中到HDD存储可能会给组织带来高达98%的性能损失,并影响AI计算效率。这是因为HDD无法很好地管理随机读取。要读取磁盘上的随机块,磁头需要沿着盘片的半径移动到正确的轨道(时间长达~15ms)。然后盘片需要旋转,直到正确的扇区或块位于读/写磁头下方(旋转延迟~6ms)。因此,4K随机读取的HDD在50–90IOPS下以令人沮丧的1–3MBps执行。
V的全闪存方法使该公司能够以性能较低的HDD解决方案的价格为高性能吞吐量和无限IOPS为HPC和AI客户端提供服务。至于使用昂贵的全闪存组件的成本修复,V巧妙而积极地优化了硬件和软件层:
  • 对于硬件:通过集成NVMe-oF、QLC(4位/单元)、下一代PLC(5位/单元)和SCM来提高效率和性能。
  • 对于软件:具有相似性哈希的数据压缩和缩减技术以及具有可变块长度的自适应分块相对于类似产品提供了2-3倍的优势。
总体而言,这些有效地保留和增加了存储容量,并显着降低了采用V全闪存系统的成本。
V针对大多数企业和机构在进行技术更新时寻求实现的三个目标:
  1. 迁移到更高效、更敏捷且可扩展的基础设施架构
  2. 整合性能关键型工作负载,如HPC和AI/ML
  3. 减少运营开销和成本
虽然老牌企业存储提供商试图朝着更适合这个新时代要求的方向发展其现有架构,但一些初创公司在过去几年中从一张白纸开始从头开始设计存储架构,以满足不断变化的存储需求。在非结构化数据存储基础设施领域,V凭借独特的融合存储主张无可争议地脱颖而出。

面向HPC-AIIT决策者的核心指南
任何希望部署新的基于文件和/或对象的存储平台(有效容量接近1PB)的客户都应该评估V的通用存储。鉴于大多数数据系统的增长,横向扩展存储的需求变得越来越重要。此外,AI/ML和HPC的融合导致了对整个数据集语料库进行分析的需求,而大多数经典企业架构的可扩展性限制了这些数据集。与基于HDD的系统相比,预计不会增长到1PB及以上且无法从固态存储的任何功能中受益的工作负载组合可能无法获得良好的经济价值主张——系统的独特架构和功能在1PB及以上的规模上提供了最佳价值主张,因为系统需要更大的数据集用于AI/ML工作流程。虽然V确实提供了100TB的入门级容量点,但V的革命性固态经济性并没有真正达到这个水平,而关注这种低入门容量的潜在客户可能只想考虑将其用于快速增长的数据集,这将使他们达到1PB或更高。
鉴于V能够跨混合工作负载大规模提供亚毫秒级延迟,通用存储平台提供了在非结构化数据之上有效运行各种事务、分析和其它工作负载的机会。事实上,可以通过多个访问协议访问数据,这可以促进工作负载之间的数据共享,这一功能在大数据和分析工作负载中可能具有重要意义。系统的其它功能还支持事务工作负载感兴趣的其它特征(原子写入、发生故障时的极快恢复等)。通用存储平台的一个独特特征是,它能够满足元数据密集型任务关键型工作负载的要求,同时满足更传统的横向扩展工作负载的吞吐量、可扩展性和成本要求。

结论
HPC存储的圣杯是管理整个应用程序的单一解决方案,包括经典HPC建模和模拟、工程应用程序、AI/ML/深度学习训练和推理以及即将推出的量子计算应用程序。V数据通用存储具有所有必要的构建块和方法,可扩展到百万兆次级性能,同时为本地、云和边缘的复杂、异构、混合基础设施提供急需的简化。V还可以通过全面、完善的产品组合继续加强和扩展其产品,该产品组合详细介绍了对整个数据物流和数据管理操作(例如,策略引擎、数据保护、数据分类、元数据管理、复制服务、灾难覆盖和冗余备份)的支持。随着HPC和AI社区继续调查可用的高性能存储解决方案,这些解决方案具有成本效益、易于实施且易于集成,并在fast速度和加速的技术竞赛中提高了组织的整体业务敏捷性,V基于NFS的HPC-AI方法提供了一个强大且最令人信服的考虑案例。
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存