【白皮书】新存储技术如何增强HPC系统

Original 常华Andy Andy730 2024-03-16

Source: Scott Durrant, How New Storage Technologies Enhance HPC Systems, March 2022

高性能计算（HPC）在历史上主要供政府、研究机构和一些非常大的公司用于建模、仿真和预测应用。随着HPC平台在云中部署用于共享服务，高性能计算变得更加易于获得，并且正使各种规模的组织受益。在工业物联网（IIoT）、人工智能（AI）以及工程开发的电子设计自动化（EDA）和半导体IP方面的不断投资，是推动高性能计算系统使用增加的一些因素。因此，预计高性能计算市场在2020年至2025年间的年均增长率将超过6%。[1]

以下是受益于HPC平台的许多类型应用：

减少产品开发时间的详细设计仿真
在汽车、医疗保健和机器人等各个行业进行高保真建模
工业应用的物理模拟、优化和机器学习
金融建模
生命科学模拟

总体而言，大数据处理、仿真和预测越来越复杂的模型需要更多的计算能力和更大的存储容量和性能。本白皮书重点介绍了不同的存储技术如何最大限度地提高HPC系统的效率和效能，同时提供高容量和低延迟的存储，以及最小化网络带宽和功耗。

HPC存储系统面临的挑战

HPC应用中不断增加的复杂性和数据集大小给HPC基础设施带来了几个挑战，包括：

带宽：在存储和计算节点之间传输PB级数据
容量：系统容量必须扩展以容纳正在使用的、短期和长期存储
延迟：数据访问时间和网络延迟可能会显著延长应用程序运行时间
安全性：大多数HPC数据是专有和业务关键数据，因此需要访问控制、数据完整性保护和监管合规性（用于数据隐私）
访问管理：多节点并行文件系统需要强大的访问管理以防止竞争条件
功耗：超级计算机的功耗接近每个机架100kW，其中大部分用于数据传输。

随着HPC应用数据集的增长，需要在数据网络和设备接口上增加带宽，以在计算节点和存储节点之间传输数据。以太网、PCIe和其它接口技术逐渐增加带宽来满足这一需求。网络基础设施从100Gbps过渡到400Gbps以太网正在进行中。也有一些早期部署了800Gbps和1.6Tbps以太网。存储设备的数据接口速度也在增加，NVMe SSD采用PCIe 5.0和6.0，以利用每通道32Gbps和64Gbps的传输速率。

数据创建的快速速度也推动了对增加数据存储容量的需求。尽管创建的大部分数据是瞬态的，不会写入非易失性存储，但仍有大量数据存储用于未来使用，这推动了对增加存储容量的需求。IDC预测，全球存储容量将在2020年至2025年间以每年19.2%的速度增长，以支持不断增长的数据创建和存储[2]。

全球存储容量安装基数增长，2021-2025图1：根据IDC的数据，存储容量的安装基数将以每年近20%的速度增长，以适应数据创建的快速增长

除了带宽和容量的改进外，还有几种其它存储技术满足HPC的需求。以下几节将介绍其中一些技术。

HPC的存储技术

持久性内存、远程直接内存访问（RDMA）和以太网上的RDMA（RoCE）、基于非易失性内存的NVMe存储（NVMe-oF）以及计算型存储是HPC数据存储中的一些最新的技术创新。

持久性内存为存储提供了新的价格/性能优势，并在HPC系统中实现了新的存储层次。
RDMA和RoCE提供了一种低延迟、高效的远程存储设备访问方式
NVMe-oF使用类似于本地存储设备的延迟，通过网络传输，提供对解耦的存储设备的访问
计算型存储将计算能力集成到存储系统中，以减轻计算服务器的负担，并减少存储与内存/计算之间的数据传输量。

持久性内存

现代计算系统使用各种不同类型的内存和非易失性存储来满足数据在不同阶段的需求。这些不同类型的内存和存储涵盖了从非常高速、低延迟、昂贵的缓存内存到相对较低速、高延迟、廉价的归档磁带的广泛需求。然而，迄今为止，系统主内存（DRAM）和NAND闪存存储之间存在性能、容量和成本差距。持久性内存使用3D XPoint、BiCS Flash和Z-NAND等技术来解决这一差距。（图2）

图2：持久性内存和基于持久性内存的存储填补了当今内存和存储解决方案的带宽/成本/容量/延迟范围中的空白

持久性内存的容量接近NAND闪存驱动器的容量，延迟接近SDRAM。高容量和低延迟的特性使持久性内存成为容量和性能要求高的应用程序的理想选择，例如数据库加速器、建模和仿真、实时分析以及人工智能/深度学习训练。

RDMA/RoCE

随着数据集大小的增长，将数据从存储设备传输到计算服务器所需的网络和处理资源也在增加。使用传统数据网络解决方案从共享存储传输数据到计算服务器应用处理器需要几个步骤，如图3所示：

主机应用服务器通过网络栈发送消息，通知存储服务器所需的数据。
存储服务器处理器将数据从SSD复制到存储服务器用户空间内的缓冲区。
数据缓冲区从用户空间复制到存储服务器内核空间，以供网卡（NIC）驱动器访问。
NIC驱动程序将数据缓冲区分成数据包，并将数据通过网络传输到计算服务器中的NIC。
计算服务器NIC将数据存储在内核内存中，其中网络驱动程序重新组装并将其从计算服务器的内核内存复制到用户空间以供应用程序处理。

图3：传统网络数据传输需要多次数据复制和上下文切换，以将数据从远程存储传递到应用处理器（Source: RoCE Initiative）

所有这些数据复制（以及内核模式<-->用户模式上下文切换）都消耗了存储服务器和计算服务器上的大量处理资源。它们还在数据传输操作中引入了显著的延迟。

远程直接内存访问（RDMA）使得各自计算和存储服务器中的NIC管理数据传输。不需要上下文切换或中间数据复制，而且两个系统上的主机CPU周期都可用于应用程序处理。主机应用处理器设置连接并通知NIC要传输的数据，然后继续应用程序处理，而NIC检索和传输数据（图4）。这种简化的数据传输方法不仅减轻了主机CPU的处理负担，还可以将数据传输延迟降低一个数量级或更多。

图4：使用RDMA，数据传输由NIC管理，绕过主机CPU和内核内存复制（Source: RoCE Initiative）

随着以太网作为数据中心的数据传输基础设施的普遍部署，发展了一种称为RoCE（以太网上的RDMA）的标准，用于在以太网上执行RDMA传输。

随着以太网在数据中心中作为数据传输基础设施几乎普遍部署，一种名为RDMA over Converged Ethernet（RoCE）的标准被开发出来，用于在以太网上执行RDMA传输。RoCE及其后续版本RoCEv2使数据中心运营商能够在现有的以太网基础设施上利用RDMA的优势。几乎所有先进的NIC都已转向支持RoCEv2，它已成为RDMA技术的事实标准。RoCE消除了专用存储区域网络的需求，实现了数据中心计算、网络和存储资源在单个以太网结构上的部署。

NVMe-oF

NVMe-oF将NVMe的低延迟优势扩展到共享存储基础设施。当与低延迟的网络基础设施（如RoCE或Fibre Channel）结合使用时，NVMe-oF可以实现从共享介质访问数据，并具有与本地存储相媲美的延迟，如图5所示。

各种介质的数据访问延迟图5：NVMe-oF消除了I/O控制器的延迟，并显著降低了软件延迟，同时受益于固态内存的低延迟（Source: “Towards Hyperscale High Performance Computing with RDMA”，Omar Cardona，2019年6月）

计算型存储

另一种减少系统延迟并更有效利用数据中心资源的机制是将数据处理能力整合到存储系统中。通常称为计算型存储（Computational Storage），将微处理器放置在或接近存储设备中允许主机应用处理器向存储系统发送特定参数以返回数据。存储处理器可以搜索存储设备以获取相关数据并将仅该数据返回到计算服务器，如图6所示。

图6：在计算型存储系统中，存储设备过滤数据，只将相关结果返回给计算机服务器进行后处理

计算型存储节省了大量的网络带宽，将数据处理从应用处理器中卸载，并减少了系统的能耗。计算型存储的另一个有价值的附带效果是，大部分数据保留在存储系统中，因此不容易被拦截或窃取，从而提高了数据安全性。

在传统的计算基础设施中，所有计算能力都集中在中央处理单元中，当应用程序需要从文件中获取特定数据时，它必须从存储中加载整个文件，搜索文件以获取相关数据，执行必要的数据处理并返回结果，如图7所示。

图7：在传统HPC系统中，所有数据处理都在计算服务器上完成；共享存储系统无法预先过滤数据以卸载主机处理器

SNIA提出了多种实现计算型存储系统的方法。其中一种方法是将应用处理器集成到存储设备中，如下图8所示。这个嵌入式微处理器根据主机应用处理器的请求进行数据预处理，以分配工作负载并提高系统效率。

图8：计算型存储架构，带有嵌入式处理器，用于提供数据处理卸载

图9更详细地展示了一个计算型存储设备，包括闪存控制处理器、用于数据处理的应用处理器以及可以提供神经网络处理的机器学习处理器，用于元数据创建、对象检测和分类以及其它存储加速功能。

图9：计算型存储驱动器，带有闪存控制处理器、应用处理器和可选的机器学习处理器，用于数据处理

总结

随着数据集持续增长和HPC资源变得更加可用，我们预计HPC系统的使用将显著增长。为了最大程度地提高这些系统的效率和效果，必须整合提供高容量和低延迟的存储技术，并最小化网络流量和功耗。持久性内存、RDMA、NVMe-oF和计算型存储是帮助满足这些需求的几种技术。

Reference

“High-Performance Computing (HPC) Market—Growth, Trends, Forecasts (2020-2025),” Mordor Intelligence LLP. January 2021 (https://www.reportlinker.com/p06009456/High-performance-Computing-HPC-Market-Growth-Trends-Forecasts.html?utm_source=GNW)
"IDC's Global StorageSphere Forecast Shows Continued Strong Growth in the World's Installed Base of Storage Capacity," Businesswire (https://www.businesswire.com/news/home/20200513005075/en/IDCs-Global-StorageSphere-Forecast-Shows-Continued-Strong-Growth-in-the-Worlds-Installed-Base-of-Storage-Capacity)
For more information on the evolution of Ethernet networking in the data center, see “Evolution of Data Center Networking Technology—IP and Beyond” by Jerry Lotto. (https://www.synopsys.com/dw/doc.php/wp/Evolution_of_Data_Center_Networking_Technology-IP_and_Beyond_wp.pdf)

---【本文完】---

近期受欢迎的文章：

我们正处于数十年未见之大机遇中

新技术爆发式发展，催生新产品

然而，颠覆式创新并非简单的技术堆叠

而是异常复杂的系统工程

需要深度洞察

欢迎一起分享思考和见解

继续滑动看下一个

Andy730

向上滑动看下一个

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

“家属和记者取得联系”：记者的退场意味深长

圈内疯传某谣言

不要放过这些人渣

“被指居者”之死：嫌犯身体遭长时间束缚，警方称指居使用械具是惯例

【白皮书】新存储技术如何增强HPC系统

您可能也对以下帖子感兴趣

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

“家属和记者取得联系”：记者的退场意味深长

圈内疯传某谣言

不要放过这些人渣

“被指居者”之死：嫌犯身体遭长时间束缚，警方称指居使用械具是惯例

生成图片，分享到微信朋友圈

【白皮书】新存储技术如何增强HPC系统

您可能也对以下帖子感兴趣