重新思考数字时代的超级计算

Original 常华Andy Andy730 2024-03-16

【ANDY】HPC更加快速进入企业级场景，需要更新现有数据中心基础设施架构，和下一代高性能存储系统。

Source: Chirag Dekate, Tony Harvey, Rethink Supercomputing for a Digital Era, 9 June 2022

核心观点

虽然企业IT在其基础设施战略和交付方面变得更加敏捷，但高性能计算（HPC）运营模式仍然相对静态。
数十年前的单体式HPC中间件堆栈使IT领导者无法利用HPC获得更广泛的价值创造机会。
先锋企业正在制定数字原生超级计算战略，并利用超级计算来催化数字化转型和新价值创造。

主要建议

负责数据中心基础设施的IT领导者必须：

通过全面技术、技能和文化的转变，实现HPC运营模式的现代化，使企业能够随时随地利用超级计算的能力。
评估容器原生资源管理并将HPC工作负载封装在容器或虚拟机中，以重新构想整体式HPC中间件堆栈。
利用其HPC组织设计数字原生超级计算平台，并通过人工智能（AI）和数字孪生技能集提升其技能。

介绍

寻求实现HPC生态系统现代化的IT领导者应首先回答有关其HPC/超级计算实践状态的以下关键问题：

您是否不断发展您的超级计算产品组合和战略，以提供一致的（而不是偶发的）价值（如技术公司）？
组织中的业务领导者、超级计算团队和IT领导者是否协同工作以持续评估和交付改进（持续集成/持续交付[CI/CD]管道）？
您的超级计算战略和技术路线图是否以业务价值为基础，是否以业务为主导？
您的超级计算技能现代化路线图是什么，它是否与业务主导的技术路线图保持一致？
您在多大程度上优化了超级计算生态系统以支持更广泛的数字和分析计划？
您如何确保转型后的超级计算运营模式中设想的价值转化为交付的价值？

当前（通常是孤立的）HPC或超级计算环境缺乏满足数字化转型之旅需求的敏捷性，并且难以解决这些关键问题。因此，这些超级计算环境通常由过时的运营模型和单片中间件堆栈支持，正在沦为昂贵的分析孤岛，限制了价值创造机会。

要最大限度地发挥超级计算投资的价值创造潜力，需要重新设计运营模式，使企业能够利用无处不在的超级计算功能：本地、云和边缘。需要这些变革性的超级计算运营模式来重构创新步伐，并创造新的途径，从更广泛的数字化转型计划中催化价值。

任何以数字价值为中心的新运营模式都必须解决数字化转型的双重性（重叠的业务目标），并且：

实现核心转型：重振运营模式，开创数字原生超级计算平台。
构建新业务：创新超级计算驱动的数字产品。

专注于转型的超级计算先驱通过打破企业中各个细分市场的障碍而取得成功。与业务价值创造交织在一起的超级计算运营模式使他们能够改变基本经济性，将核心重新集中在平台上，而不是传统的孤立运行。

引领研发转型的IT领导者必须制定超级计算战略，跨不同的交付模式无缝运行，并促进企业数字化转型计划。

实现HPC运营模式现代化

当前的HPC运营模式植根于前数字环境，其实践已有三十多年的历史，包括主要以本地为中心的交付模型和严格的软件堆栈。由此产生的传统HPC运营模式通常是孤立的，并且与数字化转型计划脱节。专注于转型的CIO和IT领导者寻求在更广泛的企业云和超大规模环境中复制现代化实践的收益，他们努力利用超级计算产品组合来创造价值。

通过重新思考人员、流程、结构、技术和战略，实现HPC运营模式的现代化。

汽车、航空航天和能源领域的先驱IT领导者正在成功重新设计其超级计算运营模式，以战略性地利用超级计算作为数字化转型加速器（数字原生超级计算）。这些先驱者用于转变超级计算运营模式的剧本包括：

技术：使企业能够无缝利用从边缘到云的任何地方的超级计算功能，设计容器/云原生的HPC2.0架构，并提供先进的AI基础设施。
技能和文化：拥抱实验文化，降低失败成本，并奖励获得新技术经验，例如HPC优化的容器堆栈。

为数字原生超级计算奠定敏捷基础

数字原生超级计算先驱专注于创建敏捷的HPC基础，使企业能够在任何地方利用超级计算。一个关键策略涉及构建云原生或混合超级计算平台，而不是传统的静态规模本地模型。最常用的超级计算云服务商包括Amazon Web Services，Google Cloud Platform，Microsoft Azure，Oracle Cloud Infrastructure和Rescale。

这些云服务商提供无法在本地复制的差异化超级计算功能。其中包括：

AI增强的持续成本优化和价值最大化
工作负载优化的Web编排
自动管理HPC专用计算和存储环境

成功的数字原生超级计算先驱避免了在云环境中复制本地HPC基础设施复杂性的陷阱。相反，先驱者将云生态系统视为差异化技术平台，并重构技能、应用程序和技术，通过分阶段入口最大化云环境的价值获取。推荐的方法是避免非生产性的本地与云对话，并将组织精力集中在设计平台战略上，以最大限度地提高从任何地方（本地、云、多云和边缘）的超级计算功能中获取价值。

云增强型超级计算运营模式的价值捕获潜力将超过传统的HPC运营模式。

评估容器原生资源管理

数字原生超级计算先驱对其HPC应用交付实践进行现代化改造。数字研发先驱重新利用现有的企业技能组合来开发、验证、保护和管理针对超级计算优化的容器技术。

探索的一些选项包括：

Singularity
Apptainer
Docker
NVIDIA GPU加速容器（NGC）
行业化容器平台（例如，BioContainers）

先驱者还评估了像Warewulf这样的新兴开源配置平台，这些平台支持超级计算优化的容器，包括Docker，Singularity和Apptainer，以构建，保护和管理容器。此外，数字原生超级计算先驱们加快了从专有资源管理堆栈到开源成熟替代方案（包括Slurm）的过渡计划。Slurm等开源资源管理技术在任何本地或云服务提供商（CSP）场景中都受支持，并支持传统的批处理计划和容器管理。此外，Dell Omnia等技术简化了这些现代化HPC环境的开源和免费使用软件的部署。这些行动使数字原生超级计算先驱能够重新平衡他们的投资，并专注于创建一个数字原生平台，而不是重复几十年的做法。

为了最大限度地发挥数字原生超级计算的价值捕获潜力，IT领导者应将核心超级计算运营数字化：

利用工作负载管理技术，跨场景（本地、云和边缘）自动实现工作负载放置和价值最大化。
利用AI增强技术，通过结合以工作负载为中心的跨云价值优化措施，实现持续的价值最大化。
实现敏捷性，更快地从新技术中获取价值。超级计算云服务商基础设施升级周期比平均本地企业HPC升级周期快两倍。
通过评估容器本机资源管理并将HPC工作负载封装在容器或虚拟机中，试点HPC现代化活动。
构建技能集以利用SaaS和平台即服务（PaaS）HPC环境。

设计数字原生超级计算平台

数字原生超级计算先驱利用其转型后的超级计算运营模式来提供创新驱动的价值创造，包括新的数字产品（基于物联网和仿真驱动的数字孪生）和加速的产品开发（使用AI注入的HPC应用程序）。这些环境还促进了包括量子计算在内的新兴技术的探索和采用。

数字原生超级计算先驱用于创新超级计算驱动的数字产品的剧本包括三个关键主题：

利用超级计算运营模式为高级AI（深度学习）环境提供基础设施。
通过实现对基础设施的弹性访问并使用AI技术增强HPC应用程序，加快产品生命周期管理（PLM）和产品创新周期。
利用研究创新、数据和AI的力量，提供引人入胜的数字体验（跨AI、边缘和IoT场景）。

为高级AI提供基础设施

使用包含深度学习的高级AI工作负载实现价值创造需要专门的基础设施，包括GPU、深度神经网络（DNN）ASIC和新型系统。传统的IT环境缺乏支持高级分析环境的运营模式，导致AI计划停滞不前，从AI中获取价值的潜力有限。数字原生超级计算先驱将其超级计算运营模式定位为提供专门的基础设施并为加速AI提供支持。所有超级计算环境都对高级AI（深度学习）和HPC工作负载通常需要的加速器、互连、高端存储和中间件技术堆栈有深入的了解。

成功的先驱者将他们的交付流集中在颠覆性新技术的评估和主流部署上。其中包括管理和配置经过验证的人工智能基础设施堆栈，包括GPU（主要是NVIDIA），网络（主要是NVIDIA网络[前身为Mellanox]）和高端存储环境。此外，成功的先驱者加速了颠覆性云技术（Google Tensor Processing Units[TPU]、AWS Trainium和AWS Inferentia）和新兴创新的运营，包括SambaNova Systems、Cerberus、Graphcore和其他DNN ASIC技术。这样做使数字研发团队能够在更广泛的数字化转型之旅中催化新的价值创造机会。

利用AI增强HPC应用程序，加速产品创新

除了传统的仿真重点之外，数字原生超级计算先驱们正在积极探索利用人工智能技术增强HPC应用程序。例如，制造业中的产品设计和工程通常依赖于使用大规模科学计算模拟的高级设计空间探索。这些设计实验和设计空间探索问题是高度迭代的，需要多次大型仿真运行才能收敛到最佳设计。使用新的人工智能方法（例如物理信息神经网络）增强这些技术，理论上可以加速向最佳解决方案的收敛，并使用更少的模拟（更具可持续性），成本更低，并可能更快地实现价值。

通过为数字孪生和IoT提供基础设施基础，吸引数字体验

虽然数字孪生的概念并不新鲜，但由于将批处理模式HPC和模拟与来自IoT的流数据场景集成的复杂性，企业制定策略的计划通常会停滞不前。数字原生超级计算先驱正在设计新的生态系统，将物联网流数据与先进的模拟技术（包括降阶建模）集成在一起。这些环境使企业能够将现场部署的物联网传感器的操作数据与先进的基于物理的科学计算模拟相结合。支撑这些的是新兴基础设施堆栈，该堆栈使用中间高性能数据缓存，通过来自物联网端点的流数据来增强传统仿真。此类基础结构的示例包括：

SmartSim
NVIDIA Omniverse

附录1：高性能计算

高性能计算（也称为超级计算）是指密集耦合的计算、存储和网络系统，专门设计用于解决一些最复杂的问题。这些包括深度学习，天气模拟，药物发现，复杂的制造模拟（汽车，航空航天），能源模拟（O&G储层模拟，风能的最佳放置和定位）和快速消费品（设计高效洗涤剂豆荚，成型产品容器，模拟尿布效率，设计薯片形状）。HPC应用程序在体系结构、规模和复杂性方面与企业应用程序有着根本的不同。在许多情况下，单个HPC应用程序跨越数百个内核，在某些情况下，跨越数千个内核。HPC应用程序体系结构通常还需要跨系统的密集耦合。传统上，这些系统主要通过本地模型交付，因为它们的复杂性和高度耦合（使用高带宽、低延迟网络进行集成，这些网络通常以定制拓扑进行组织以最大限度地提高性能）。传统上，通过云环境利用这种专用基础设施堆栈具有挑战性。

附录2：HPC工作负载

HPC工作负载难以虚拟化，因为许多底层算法受内存限制、网络限制或I/O限制，并且通常需要裸机访问。进一步的企业应用程序往往是大型的（跨越100到1000个内核）和长时间运行（从几周到几个月），有专门的要求，包括加速器（例如GPU，FPGA）和高级远程直接内存访问功能。传统的企业虚拟机和容器技术不支持这些复杂的语义，即使支持，也往往会导致严重的性能损失。因此，寻求利用成熟技术和技能组合的企业IT领导者在超级计算环境中难以做到这一点，因为单体和传统的HPC中间件堆栈。这些技术和技能包括容器化、虚拟机、基于Kubernetes的编排、云原生无服务器基础设施、数据科学和机器学习以及边界数据和分析平台。

附录3：推荐的超级计算I&O模型现代化方法

推荐的Web现代化超级计算I&O模型的方法包括技术，运营，组织和团队战略的组合：

对HPCIT领导层围绕超级计算在数字化转型计划中的作用的愿景进行压力测试，并明确HPC在未来五年内需要发展的地方。

审核计算工程和HPC应用程序的当前组合，并捕获重要特征，包括软件类型（ISV、开源、内部应用程序）、许可证可移植性（如果适用）、应用程序所需的计算能力（高吞吐量计算、数据并行工作负载、小规模HPC应用程序、超大规模HPC应用程序）。

映射基础设施一致性要求（需要专用应用程序和分析应用程序，并映射它们对计算、网络、存储和内存占用的相关性）。

重新平衡HPC领导力和团队技能，使其能够利用基于云的功能，并一丝不苟地关注与业务线利益相关者的一致性和关系。

使应用程序组合和基础设施要求与超级计算云服务先驱保持一致，包括Rescale、Amazon、Google Cloud Platform、Microsoft Azure和Oracle云基础设施。

继续滑动看下一个

Andy730

向上滑动看下一个

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

重新思考数字时代的超级计算

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

重新思考数字时代的超级计算

您可能也对以下帖子感兴趣