查看原文
其他

《总线级数据中心网络技术白皮书》节选

常华Andy Andy730 2024-03-16

来源:开放数据中心委员会,总线级数据中心网络技术白皮书,2021年9月15日


网络成为数据中心大算力的重要组成部分


数据中心内数据处理包括数据的存储、计算和应用三个环节,分别对应三大资源区:

  • 数据存储区:存储服务器内置不同的存储介质,如机械硬盘、闪存盘、蓝光等,对于数据进行存储、读写与备份,存储节点间通过存储网络互联。

  • 高性能计算区:服务器较少虚拟化,配置CPU、GPU等计算单元进行高性能计算或AI训练,服务器节点间通过高性能计算网络互联。

  • 通用计算区:服务器大量使用VM(Virtual Machine)或容器等虚拟化技术,通过通用计算网络(又称为应用网络、业务网络、前端网络),与外部用户终端对接提供服务。


业务在某个区域内或多个区域间的数据流动,依赖于网络提供高质量的服务。在这个持续循环的过程中,网络就像联接计算和存储资源的中枢神经,贯穿数据处理的全生命周期。数据中心算力水平不仅取决于计算服务器和存储服务器的性能,很大程度上也受到网络性能的影响。如果网络算力水平无法满足要求,则会引发“木桶效应”拉低整个数据中心的实际算力水平。



网络性能成为提升数据中心算力的关键要素


数据中心算力是数据中心的服务器通过对数据进行处理后实现结果输出的一种能力。从广义上讲,数据中心算力是一个包含计算、存储、传输(网络)等多个内涵的综合概念,是衡量数据中心计算能力的一个综合指标。



网络成为高性能应用端到端瓶颈


在传统数据中心内,业务主要是基于Web服务的调用,业务特征在数学上属于基于时间的宏观统计复用,交换网络普遍采用TCP作为主要传输协议,通过10G~100G交换设备构建逐级收敛的Tree网络。TCP网络的时延由于丢包重传等因素,时延大概在ms级水平。然而,在围绕HDD和CPU开展存储和计算的传统数据中心内,存储和计算的时延由于器件性能受限,大概维持在10ms级别,因此网络原先并不是数据中心内业务端到端的性能瓶颈。


随着技术发展以及制造工艺的迭代,数据中心高性能应用的器件性能得到了长足发展。在存储场景,现在云存储的硬盘已经从HDD发展到SSD,介质的访问时延从1 ms下降到10us,而最新SCM存储技术的出现, 将介质访问时延进一步压缩到百纳秒的水平。随着存储介质不断发展,访问时延大幅降低。随着AI、大数据等业务的发展,数据中心算力近年来得到了百倍的提升,数据中心的单设备计算能力从2015年的7TFLOPS,飞速发展到2020年的624 TFLOPS。


E级超算已经成为世界各国在超算领域追逐的新目标。美国首台E级超算的交付时间预计在2021年左右;日本作为最早明确E级计算发展路线的国家,其目标是2020年研制成功第一台E级计算机;欧盟首台E级超算预计于2022年到2023年交付。在十三五期间,我国科技部实施了高性能计算重点研发专项,其目标就是依托自主可控技术研制E级高性能计算机系统。目前,由江南计算所、国防科大和中科曙光公司根据不同技术路线研制的三台E级原型系统已经完成并分别安装在济南、天津和深圳国家超级计算中心。据Hyperion Research公司按照系统验收的时间估算,2021至2026年期间,全球将建成28~38台E级或接近E级的超级计算机,总价值约在100~150亿美元。


在原先传统数据中心内,计算存储性能未提升前,端到端的时延主要在端侧,即计算和存储所消耗的时延占比较大,而当计算存储器件性能大幅提升后,网络成为了数据中心内端到端的性能瓶颈。图中显示了计算存储性能提升前后,端到端时延的占比变化。




RDMA 技术实现业务加速但制式种类繁多


在存储和计算性能提升后,数据中心内二者的访问时延已经从10ms优化达到了20us的水平量级,相比原来有了近千倍的提升。而此时,如若仍旧采用基于TCP协议的网络传输机制,由于TCP的丢包重传机制,其网络时延仍旧维持在ms级水平,无法满足高性能计算存储对于时延的要求。此时,RDMA技术的出现,为网络性能的提升提供了新的技术思路。


RDMA是一种概念,在两个或者多个计算机进行通讯的时候使用DMA, 从一个主机的内存直接访问另一个主机的内存。传统的TCP/IP技术在数据包处理过程中,要经过操作系统及其他软件层,需要占用大量的服务器资源和内存总线带宽,数据在系统内存、处理器缓存和网络控制器缓存之间来回进行复制移动,给服务器的CPU和内存造成了沉重负担。尤其是网络带宽、处理器速度与内存带宽三者的严重“不匹配性”,更加剧了网络延迟效应。


RDMA是一种新的直接内存访问技术,RDMA让计算机可以直接存取其他计算机的内存,而不需要经过处理器的处理。RDMA将数据从一个系统快速移动到远程系统的内存中,而不对操作系统造成任何影响。


在实现上,RDMA实际上是一种智能网卡与软件架构充分优化的远端内存直接高速访问技术,通过将RDMA协议固化于硬件(即网卡)上,以及支持Zero-copy和Kernel bypass这两种途径来达到其高性能的远程直接数据存取的目标。


其通信过程使得用户在使用RDMA时具备如下优势:

  • 零拷贝(Zero-copy) - 应用程序能够直接执行数据传输,在不涉及到网络软件栈的情况下。数据能够被直接发送到缓冲区或者能够直接从缓冲区里接收,而不需要被复制到网络层。

  • 内核旁路(Kernel bypass) - 应用程序可以直接在用户态执行数据传输,不需要在内核态与用户态之间做上下文切换。

  • 不需要CPU干预(No CPU involvement) - 应用程序可以访问远程主机内存而不消耗远程主机中的任何CPU。远程主机内存能够被读取而不需要远程主机上的进程(或CPU)参与。远程主机的CPU的缓存(cache)不会被访问的内存内容所填充。

  • 消息基于事务(Message based transactions) - 数据被处理为离散消息而不是流,消除了应用程序将流切割为不同消息/事务的需求。

  • 支持分散/聚合条目(Scatter/gather entries support) - RDMA原生态支持分散/聚合。也就是说,读取多个内存缓冲区然后作为一个流发出去或者接收一个流然后写入到多个内存缓冲区里去。


目前,RDMA技术在超算、AI训练、存储等多个高性能场景大量部署,已形成广泛应用。但是RDMA技术路线也有很多,用户及各家厂商对于RDMA技术路线的选择也不尽相同。


在三种主流的RDMA技术中,可以划分为两大阵营。一个是IB技术, 另一个是支持RDMA的以太网技术(RoCE和iWARP)。其中,IBTA主要聚焦IB和RoCE技术,而iWARP则是在IEEE/IETF标准化的技术。在存储领域,支持RDMA的技术早就存在,比如SRP(SCSI RDMA Protocol)和iSER(iSCSI Extensions for RDMA)。如今兴起的NVMe over Fabrics如果使用的不是FC网络的话,本质上就是NVMe over RDMA。换句话说,NVMe over InfiniBand, NVMe over RoCE和NVMe over iWARP都是NVMe over RDMA。



RoCE 成为主流但仍难以满足业务需求


以太网自面世以来,其生态开放多元、速率高速增长、成本优势明显,因此业界应用十分广泛。在RDMA的多种技术路线中,RoCE技术的应用最为广泛。在全球著名高性能计算榜单Top500中,以太互联技术占比超过一半。


在数据中心高质量发展大会DC-Tech上刚刚发布的《超融合数据中心白皮书》里,将全以太组网和IB+FC+Eth组网模式进行了收益对比,结果证明采用以太技术后,用户在物理网络建设以及网络管理运维方面,都具备了非常强的成本优势[8]。


然而受限于传统以太网络的性能瓶颈,一般的RoCE应用在高性能业务中,仍然存在拥塞丢包、延迟抖动等性能损失,难以满足高性能计算和存储的需求。


在高性能存储集群中,FC网络具备连接保持技术,网络升级&进程故障业务不感知,同时FC协议长帧头具备传输功能保障,协议开销小,网络无丢包,数据帧按序传送,网络可靠、时延低。相比FC,传统以太网容易出现拥塞丢包现象,丢包重传容易产生数据乱序,网络抖动较大,并且以太网采用的存储转发模式,查找流程较为复杂导致转发时延较高,多打一场景会导致队列积压加剧,队列时延不可忽视。在HPC应用中,传统以太消息封装能力较弱,查表流程复杂导致转发时延较高,网络的传输损失会造成处理器空闲等待数据,进而拖累整体并行计算性能,根据2017年ODCC组织的测试结果,传统以太和专网相比,在超算集群应用下,性能最高相差30%。



总线级数据中心网络内涵


网络时延由四部分组成:

  • 动态时延:主要由排队时延产生,受端口拥塞影响;

  • 静态时延:主要包括网络转发(查表)时延和转发接口时延,一般为固定值,当前以太交换静态时延远高于超算专网;

  • 网络跳数:指消息在网络中所经历的设备数;

  • 入网次数:指消息进入网络的次数。


总线级数据中心网络在动态时延、静态时延、网络跳数以及入网次数几个方面均作出了系统性的优化,大幅优化了网络性能,已满足高性能计算场景的实际诉求。



极低静态转发时延技术,转发时延从 us 降至百 ns


总线级数据中心网络技术提出了一种极简低时延以太转发机制,利用虚拟短地址,实现了快速线性表转发。基于虚拟地址路由转发技术,解决了传统二层环路和链路利用率的问题,同时保证了规模部署和扩展灵活性。



Bufferless 无阻塞流控技术,亚 us 级动态时延


总线级数据中心网络技术创新提出了收发混合驱动的网络拥塞控制机制。数据报文分为无调度(Unscheduled)和有调度(Scheduled)两类:无调度报文在端口级有限窗口控制下直接发送,快速启动,保证高吞吐;有调度报文由接收端分配令牌报文(Token)后继续发送,限制流量注入,提供(近似)零队列,支撑更大的网络规模。对两类报文进行协同调度,进一步保证高吞吐低队列。



DCI 长距无损技术动态时延, 100KM 内长距无损


总线级数据中心网络提出了“点刹”式长距互联的流控机制。采用细粒度的周期性扫描方式进行流控;每个周期检测入口buffer的变化速率,通过创新算法计算要求上游停止发送时间;构造反压帧,发送给上游设备,包含了要求上游停止发送的时间。



网络新拓扑架构路由技术,大规模组网实现跳数下降 20%


针对高性能计算场景,数据中心的流量特征关注静态时延,需要支持超大规模,传统的CLOS架构作为主流的网络架构,其主要关注通用性,但是牺牲了时延和性价比。业界针对该问题开展了多样的架构研究和新拓扑的设计。



网算一体技术,减少入网次数提升通信效率


超融合数据中心网络提出了网算一体技术。采用交换设备对集合通信加速,卸载一部分集合通信的计算过程,可以有效提高集合通信的效率,从而降低总的任务完成时间。



支持实现全以太化超融合数据中心


  • 全无损以太网络,实现流量承载融合:通用计算、存储、高性能计算网络统一承载在0丢包以太网技术栈上,实现大规模组网协议统一,TCP、RoCE数据混流运行,打破传统分散架构限制;

  • 全生命周期自动管理,实现管控析融合:基于统一网络数字孪生底座,加以大数据及AI手段,实现规划、建设、维护、优化全生命周期自动化,代替人工处理大量重复性、复杂性的操作,并可基于海量数据提升网络预测和预防能力,打破多工具多平台分散管理限制;

  • 全场景服务化能力,实现全场景融合:抽象数据中心网络“物理网络服务”、“逻辑网络服务”、“应用服务”、“互联服务”、“网络安全服务”、“分析服务”等核心服务能力,基于开放服务化架构实现多厂家、离线与在线数据的灵活接入。满足多私有云、多公有云、混合云、以及丰富行业场景下的网络统一编排需求,支持算力跨云灵活智能调度,打破区域与场景限制。

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存