查看原文
其他

CXL在数据中心蓄势待发

Andy730 2024-03-16

【ANDY】1.企业级场景中数据和规模的急速扩大,使得原来应用于大规模互联网和超级计算HPC场景的技术快速应用到企业级场景中来。2.从数据的角度来看,全闪存NVMe、高速以太网、RDMA、CXL等技术将对企业级数据中心带来革命性的现代化颠覆。3.Intel放弃傲腾而投入CXL,已经说明了这一切。

Source: MARIE C. BACA, CXL Picks Up Steam In Data Centers,JANUARY 26TH 2023

CXL在大型数据中心场景中越来越受欢迎,因为它可以提高不同计算单元(如内存和加速器)的利用率,同时最大限度地减少对额外服务器机架的需求。但是,该标准的扩展和修改速度如此之快,以至于很难跟上所有的变化,每个变化都需要在越来越多的异构且通常是定制的设计中进行验证(Verification)和确认(Validation)。

计算高速链路(CXL)的核心是用于内存、处理器和加速器的缓存一致性互连协议,可实现灵活的架构,从而更有效地处理不同的工作负载类型和大小。反过来,这将有助于缓解数据中心用更少的资源做更多事情的压力,考虑到需要处理的数据量的爆炸式增长,这似乎是一个巨大的挑战。

过去,典型的解决方案是在任何容量问题上投入更多的计算资源。但随着摩尔定律的放缓,以及为服务器机架供电和冷却所需的电量不断增加,系统公司一直在寻找替代方法。随着电网容量达到极限,社会对可持续性的需求增加,这一点变得更加重要。

CXL主要由英特尔开发,基于PCIe标准,在这些相互冲突的场景中提供了一个有吸引力的方案。优化数据中心使用内存的方式可以提高性能,同时还可以降低堆栈复杂性和系统成本。具体而言,CXL允许CPU和连接设备上的内存之间的低延迟连接和内存一致性,从而保持这些领域中的数据一致。

这对于大容量工作负载尤其重要,例如人工智能训练,其中更多的数据通常等同于更高的准确性,以及日益电气化的车辆、智能工厂、药物研发和天气测绘所需的大规模模拟,仅举几例。

CXL联盟(CXL Consortium)由创始成员谷歌、微软、HPE、戴尔EMC、思科、Meta和华为于2019年成立,当年推出了基于PCIe5.0的规范的第一个版本。从那时起,AMD、NVIDIA、三星、Arm、Renesas、IBM、Keysight、Synopsys和Marvell等都以各种身份加入,Gen-Z技术和OpenCAPI技术也已加入。8月,引入规范3.0,带宽翻倍,支持多级切换,内存共享的一致性改进。

就标准而言,这一标准进展非常快。鉴于财力雄厚的公司对CXL的支持激增,这一标准似乎很可能会变得普遍。但它的快速发展也使IP开发人员难以快速从一个版本的标准转向下一个版本。

前景看涨

“我们应该在未来几年看到这种情况真正起飞,”Cadence的PCIe,CXL和Interface IP产品营销组总监ArifKhan说。他指出,根据一些内存制造商的预测,到2030年,基于CXL的应用程序的总潜在市场预计将达到200亿美元。

其他人也同样乐观。“有大量客户将CXL用于下一代SoC、加速器、智能网卡和GPU以及内存扩展设备,”Synopsys PCI Express Controller IP技术营销经理Richard Solomon说。

“几乎每个人都在构建具有CXL功能的服务器,”Keysight高级规划和营销经理Brig Asay说。“JEDEC等标准已与CXL达成协议,在标准之间工作并确保可操作性。CXL还获得了来自Gen-Z和OpenCAPI的资产,它们提供与CXL类似的功能,但CXL具有强大的持久力。”

尽管如此,无论标准进展多快,广泛采用都需要时间。尽管共享资源具有吸引力,但数据中心在采用任何新技术时都是保守的。任何故障都可能造成数百万美元的停机时间。

“虽然围绕CXL有很多令人兴奋的事情,但该技术仍处于早期阶段,”Arm基础设施业务线产品管理高级总监Jeff Defilippi说。“为了实现快速发展,解决方案将需要与OEM和云服务服务商进行严格的功能和性能验证过程,然后才能看到生产部署。”

Synopsys高级产品营销经理Varun Agrawal观察到,在过去三年中,无数内存和服务器SoC公司都表示支持CXL。但是,将能够完全支持CXL拓扑和带宽的产品推向市场是一个较慢的过程。“现在越来越多的设计选择通过cxl.io将CXL作为其PCIe数据路径,以期扩展到其他类型的设备。就产品推出而言,CXL在数据中心的扩散速度一直很慢,原因之一是缺乏验证和确认基础设施。”

Agrawal指出,用户社区越来越多地将CXL事务处理器、虚拟模型和主机解决方案、在线速度适配器和接口卡硬件解决方案作为他们的首要要求,同时规划他们的验证/确认。“CXL为希望并行启动硬件-软件验证、软件启动和合规性以实现其上市时间目标的公司提供了软件优先方法的典范。”

系统级验证也是一项要求。“根据支持的功能,验证可以跨越资源共享、池化和扩展等内存功能;主机和设备之间的一致性;安全和路由;热删除并添加;具有不同虚拟层次结构的多个域;和互连性能-特别是.cache和.mem的延迟,“Agrawal解释说。

热门属性

那么,尽管存在这些差距,为什么仍采用CXL?Synopsys的Solomon表示,CXL最初的重点是缓存一致性,业界对其非对称一致性协议很感兴趣。直到后来,重点才转移到解决传统内存连接和DRAM接口的局限性上。

“现在你已经有了这种缓存方法和这种内存附加,它们中的每一个都以不同的方式将CXL驱动到数据中心,”他解释说。“对于人工智能和机器学习,智能网卡、数据处理单元、服务器附加设备专注于智能地处理服务器而不是主机CPU中的数据。这些人对缓存一致性互连非常感兴趣。对于超大规模数据中心,CXL在处理器和内存之间实现了分离,从而可以在需要不同数量的易失性和非易失性内存的作业之间更有效地分配资源。”

此外,低延迟、跨互连的一致性以及能够支持数据中心应用程序的内存分层需求使CXL具有吸引力,Agrawal说。“由于它使用现有的PCIe PHY层,互操作性有助于推动早期采用并延长产品生命周期。”

这使得CXL成为数据中心应用的理想选择。“CXL为内存提供了缓存一致性,以便访问CPU,”Keysight的Asay说。“它还支持内存资源的池化,这是理想的,因为它提高了数据中心DRAM的整体利用率。”

虽然CXL有多个,但Arm的Defilippi表示,云服务商对在一组节点之间共享内存容量并增加关键应用程序的GB/vCPU的能力非常乐观。“对于云供应商来说,在所有系统中丰富地配置DRAM的成本过高。但是,通过访问CXL连接的DRAM池,他们现在可以采用仅具有2GB/vCPU的系统并分配额外的DRAM容量,从而使这些系统更适合各种工作负载。对于已经高度配置的系统(即8GB/vCPU),额外的CXL附加内存现在可以使它们适用于需要大量内存占用的应用程序,例如一些ERP系统,这些应用程序今天可能无法在云中运行。在此示例中,CXL成为将更多工作负载迁移到云的网关。”

2020年11月发布的CXL 2.0引入了具有多个逻辑设备的内存池,Cadence的Khan表示这是对该规范的关键改进。“这种池化功能允许跨多个系统共享资源,包括系统内存。虽然CXL是为加速器设计的,但它也支持内存接口。分层配置还可以支持异构内存—封装上的高带宽内存、连接到处理器的快速DDR5以及CXL模块上的较慢内存。内存是数据中心的重要成本项目,而池化是管理系统的有效方法。”

图1:CXL 2.0引入了具有单个和多个逻辑设备的内存池

CXL和定制

去年推出的CXL 3.0更进一步,通过多级切换完成了类似结构的实现。“这允许实现全局结构附加内存,它将内存池与处理单元分离,”Khan说。“内存池也可以是异构的,具有各种类型的内存。未来,我们可以设想一种叶/主干架构,其中有用于NIC、CPU、内存和加速器的叶子,以及围绕CXL 3.0构建的互连主干交换机系统。”

图2:CXL 3.0通过多级切换提供类似结构的实施方案

这与数据中心相关,因为在AI/HPC世界中没有一个放之四海而皆准的系统架构。

Khan解释说,今天的服务器提供了这些应用程序可能需要的合理超集,经常导致利用率不足和能源浪费。“异构应用需要非常独特的解决方案来优化实施。HPC/AI/ML的常见应用程序工作负载都有不同的系统需求。分解系统的愿景是构建大型资源库:内存、GPU、计算和存储资源,以根据需要构建灵活的、可组合的架构。换句话说,CXL通过启用这些功能为分解和可组合系统铺平了道路。”

CXL的内存范例还为新的自定义CXL设备(如池内存控制器)打开了大门。

“另一个新兴场景是异构计算,利用CXL设备中的缓存一致性在主机CPU和CXL连接设备之间共享内存。这里的编程模型仍在制定中,但目标是能够在主机和加速器之间共享更大的数据集,这对于ML训练等非常有吸引力。对于正在开发的定制AI芯片和GPU/NPU来说,这可能是一个有吸引力的选择,”Defilippi说。

当谈到数据中心定制芯片设计中的CXL时,Keysight的Asay指出,如果这些设计想要缓存一致性或访问某些共享内存资源,则必须确保与CXL规范的互操作性。“一种常见的定制芯片设计是智能网卡,其中CXL作为一种传输数据的技术已经变得非常普遍。”

安全性也很重要,Synopsys的Agrawal认为交易和系统级别的安全功能可能会推动数据敏感应用程序的定制设计,因为多家公司都在通过CXL开发自己的应用程序级接口以优化其设计。

结论

在更广泛的内存生态系统中,还有其他定制可能性,因为它与数据中心和HPC有关,包括结合开源标准来创建新产品。

Blueshift Memory是一家总部位于英国的芯片初创公司,采用名为Cambridge Architecture的替代内存架构。该公司正在使用RISC-V和CXL来部署技术。首席执行官兼首席技术官 Peter Marosan表示,使用这些开放标准,该公司可以从制造商那里节省1000万美元的潜在支出,并“为我们和我们的整个群体打开了进入市场的大门”。

至于即将发生的事情,Synopsys高级产品营销经理GaryRuggles表示,他开始看到汽车行业对CXL 2.0和CXL 3.0的机会。“当你现在看到汽车时,它们就是正在漫游的超级计算机。这与我们在数据中心看到的完全相同的东西并不令人震惊。”

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存