查看原文
其他

电子行业专题研究:AI算力需求持续释放,重点看好AI服务器产业链

(报告出品:天风证券)

1. 人工智能服务器为算力支撑,助燃 AI 产业化

1.1. 从通用服务器到 AI 服务器的过渡

AI 服务器在众多服务器中脱颖而出源于其架构优势。AI 服务器是承载智慧计算中 AI 计算 的核心基础设施,是一种能够提供人工智能的数据服务器,既可以用于支持本地应用程序 和网页,也可以为云和本地服务器提供复杂的 AI 模型和服务,通过异构形式适应不同应用 范围以及提升服务器的数据处理能力,异构方式包括 CPU+GPU/TPU/ASIC/FPGA。

AI 服务器的发展脱胎自通用服务器的性能提升需求。复盘主流服务器的发展历程,随着数 据量激增、数据场景复杂化,诞生了适用于不同场景的服务器类型:通用服务器、云计算 服务器、边缘计算服务器、AI 服务器。随着大数据、云计算、人工智能及物联网等网络技 术的普及,充斥在互联网中的数据呈现几何倍数的增长,使得以 CPU 为主要算力来源的传 统服务器承受着越来越大的压力,并且对于目前 CPU 的制程工艺而言,单个 CPU 的核心 数已经接近极限,但数据的增加却还在继续,因此服务器数据处理能力必须得到新的提升, 在这种环境下,AI 服务器应运而生。面对 ChatGPT 所引出的大规模预训练模型,AI 服务 器以其架构优势带来的大吞吐量特点,有望在一众服务器中脱颖而出。

1.2. AI 服务器与普通服务器相比有着明显的性能优势

AI 服务器相较于传统服务器算力上大幅跃升。AI 服务器利用 CPU+的架构模式,CPU 仍作 为 CPU 的数据处理主要模块,同时植入并行式计算加速部件,如 ASIC、FPGA、GPU 等, 负责人工智能计算负载加速。总而言之,在 CPU+架构下,AI 服务器的技术选型和部件配 置针对不同的业务场景做相应的调整优化,通过合理的负载分担实现计算能力的提升。

1.3. AI 服务器的进步源于芯片,未来将关注更多功能性

我们认为 AI 服务器的技术迭代取决于硬件中 AI 芯片的选择。传统普通服务器数据处理核 心单一,以 CPU 为主,AI 服务器则采取 CPU+的异构方式完成数据处理能力提升。参考英 伟达 HGX 的产品迭代路径,核心差异在于搭载的 GPU,HGX-1、HGX-2 和 HGX A100 分 别对应 Tesla P100 GPU、Tesla V100 和 A100,在深度学习和高性能计算领域都展现出更高 的性能。因此,我们认为可以从 AI 芯片发展窥见 AI 服务器的技术迭代历程,主要以 CPU+GPU 为主的 AI 服务器,结合云服务趋势发展至 CPU+GPU/ASIC/FPGA 的多功能+优 性能+灵活性+高性价 AI 服务器。

结合整个人工智能技术和服务的发展,未来人工智能服务器将重点发展软硬件平台融合、 低功耗设计、智能边缘计算等领域。特别是随着量子计算、类脑芯片等新一代人工智能计 算加速技术的兴起,人工智能服务器的设计与实现可能会产生颠覆性变化。总之,人工智 能服务器作为提供计算能力的核心要素,都是人工智能研发应用体系中不可或缺的组成部 分,它的良性发展势必会为整个人工智能产业的成长奠定坚实的基础。

2. 庞大算力需求是 AI 服务器未来放量的关键驱动力

2.1. AI 模型优化迭代引发算力缺口,未来推理功能将需更多算力

计算力是人工智能研究的生产力。在当今以深度学习为中心的人工智能发展中,AI 模型的 进步主要依赖于模型的规模化扩展。在 AlexNet 网络模型出现后,ResNet、Transformer、 BERT 等优秀模型也在不断涌现,尤其在图像、语音、机器翻译、自然语言处理等领域带来 了跨越式提升。AI 模型智能程度不断发展的同时,AI 模型的数据量、结构的复杂程度也在 不断增加,其带来了模型的参数量增长,模型尺寸呈指数级增加。随着模型尺寸不断膨胀, 实现高效 AI 模型训练的重要支撑即更快的算力,即在短时间内完成大规模 AI 计算。

AI 训练模型的需求或将释放 AI 服务器海量产能。根据 OpenAI 在 2020 年发表的论文,训 练阶段算力需求与模型参数数量、训练数据集规模等有关,且为两者乘积的 6 倍:训练阶 段算力需求=6×模型参数数量×训练集规模。GPT-3 模型参数约 1750 亿个,预训练数据量为 45 TB,折合成训练集约为 3000 亿 tokens。即训练阶段算力需求=6×1.75×1011×3×1011=3.15×1023 FLOPS=3.15×108 PFLOPS 依据谷歌论文,OpenAI 公司训练 GPT-3 采用英伟达 V100 GPU,有效算力比率为 21.3%。GPT-3 的实际算力需求应为 1.48×109 PFLOPS(17117 PFLOPS-day)。假设应用 A100 640GB 服务器进行训练,该服务器 AI 算力性能为 5 PFLOPS,最大功率为 6.5 kw,则我们测算训练阶段需要服务器数量=训练阶段算力需求÷服务器 AI 算力性能 =2.96×108台(同时工作 1 秒),即 3423 台服务器工作 1 日。

后期推理侧算力需求将成为主力。据 IDC 数据,2021 年中国人工智能服务器工作负载中, 57.6%的负载用于推理,42.4%用于模型训练,预计至 2026 年 AI 推理的负载比例将进一步 提升至 62.2%。具体落到 ChatGPT 的算力需求场景中,可以将预训练、Finetune 归类为训 练,日常运营归类为推理。ChatGPT 的更新迭代已展示出对算力的高需求:从训练端来看, GPT1-3 经历了从 1.5 亿到 1750 亿参数的增长过程,预计需要 3640PFlop/s-day;从推理 端来看,据 SimilarWeb 数据,2023 年 1 月 ChatGPT 官网日访问量突破千万级别,1 月 31 日达到 2800 万访问量,以 3.4%的日增速度持续扩展,其中独立访客数量为 1570 万。据 CNBC,达到 1 亿级别活跃用户将产生成本约 4000 万美元,则该 1570 万用户所耗费互动 成本约为 628 万美元,推算得相对算力处理量为 5714.8 PFlop/s-day,随着新用户不断进 入并多次访问,该算力需求将不断推高,是未来算力的重点需求端。

国内大厂在 AI 元年坚定入局+国内算力基建化,或将成为国内 AI 服务器需求来源。在 ChatGPT 带动的浪潮中,国内大厂开始密切发布类 ChatGPT 产品,3 月 16 日百度正式推 出国内首款生成式 AI 产品“文心一言”、3 月 30 日腾讯推出“混元”AI 大模型、4 月 7 日 阿里的“通义千语”开启内测邀请,华为 4 月 8 日推出盘古大模型等。据 IDC 数据,2021 年中国智能算力规模为 155.2 EFLOPS,随着 AI 模型日益复杂、计算数据量快速增加、人 工智能应用场景不断深化,未来国内智能算力规模将持续增长,预计 2026 年智能算力规 模将达 1271.4 EFLOPS,5 年 CAGR 达到 52.3%。对于国内人工智能算力需求的高增长,我 国正牵头东数西算、智能计算中心,通过算力基础设施完成从点到网的升级,据 IDC 观点, 中国市场的人工智能硬件支出占人工智能总支出的比例将在未来 5 年保持在 65%左右,其 中服务器是硬件中的重要部分。我们认为,AI 服务器作为智能算力运算的主要载体,看好 未来持续放量的高预期走势。

2.2. AI 服务器作为承载算力主体将受益,成服务器市场的增长主力

AI 服务器市场扩张表现亮眼,中国市场领跑全球。根据 Statista 数据,2021 年全球服务器 市场规模达到 831.7 亿美元,同比增长 6.97%,其中 AI 服务器市场达到 156.3 亿美元,同 比增长 39.1%,在整体服务器市场中占比 18.79%,同比提升 4.34pct,这主要系随着人工智 力所需算力扩大,AI 服务器作为新型算力基础设施的主体将直接影响 AI 创新迭代和产业 落地,我们认为市场将需更多、更强算力的 AI 服务器作为核心解决方案,据 IDC 与浪潮信 息,预计 AI 服务器市场将在 2026 年达到 347.1 亿美元,5 年 CAGR 达到 17.3%。再看中国 市场,2021 年国内服务器市场规模达到 250.9 亿美元,同比增长 15.9%,高于全球增长速 度;其中 AI 服务器市场达到 59.2 亿美元,同比增长 68.2%,在国内服务器市场中占比 23.6%, 这主要得益于国内人工智能应用的加速落地,浪潮信息、新华三、宁畅等厂商助推人工智 能基础设施产品的优化更新,IDC 调研显示,超过 80%的中国厂商表示在未来将增加人工 智能服务器的投资规模,预计在 2026 年中国 AI 服务器市场规模将达到 123.4 亿美元,5 年 CAGR 为 15.82%。

全球服务器行业生产模式趋向白牌化,ODM 厂商市占率集中。服务器厂商可分为 ODM 厂商和品牌厂商两种类型。品牌服务器厂商以浪潮、华为、新华三为代表,ODM 厂商以 超微、广达为代表,根据品牌服务器厂商的委托完成硬件生产,加贴委托方商标并交付给 品牌持有者进行销售,近年不少客户会绕过品牌商向 ODM 厂商直接订购服务器成品,白 牌服务器生产模式的兴起对传统品牌服务器厂商造成一定冲击。在下游业务业务+成本+ 时间的需求考虑下,Facebook 在 2011 年率先主导成立 OCP 联盟,向内部成员统一硬件标 准与硬件开源,成员中的白牌厂商开始获得服务器设计方案,为白牌厂商绕过品牌厂商提 供技术支持,这将进一步推高服务器白牌厂商的市占率。据重磅数据,ODM 市场份额从 2014Q3 的 6.6%快速攀升至 2019Q3 的 26.4%,根据 2022 年全球服务器销售量(848.7 亿美 元)与全球服务器代工市值(4557 亿元)测算,2022 年出货的服务器中 ODM 生产市占 率或达 50%,我们认为这主要得益 CSP 客户(如微软、谷歌)的发展,服务器需求随着业 务成长而持续增长,采购量不断增加。根据 Digitimes Research,全球 ODM 厂商竞争格局 集中度高,CR5 高达 94.4%,分别为鸿海(43%)、广达(17%)、纬创(14%)、英业达(12.8%) 和超微(7.6%),主要客户涵盖惠普、戴尔、联想、亚马逊、微软、谷歌等国际巨头。随着 超大型资料中心需求强劲+下游云计算领域 Capex 扩大,造就白牌厂商的强劲发展势头。

国内服务器品牌厂商在 AI 服务器市场占优,未来有望放大优势。从全球 AI 服务器市场格 局来看,2021 年上半年数据显示,中国厂商在 TOP5 厂商中占据过半席位(浪潮、联想、 华为),累计占比为 31.1%,其中浪潮信息以 20%的市占率占据榜首。从国内 AI 服务器市场 竞争格局来看,市场集中度较高,浪潮信息占据近半市场,CR5 超过 80%。未来,随着国 产厂商在 AI 服务器的持续深耕,有望在既有市场优势中吸收更大来自 AI 产业的发展机遇。对比全球/中国 AI 服务器竞争格局,我们认为国产服务器厂商在 AI 服务器市场优势较为明 显,未来有望利用既有市场优势+推出具有竞争力的 AI 服务器进一步拓宽市场份额,吸收 来自 AI 产业的发展机遇,有望以技术优势打造盈利护城河,在国际市场上争取更高话语权。

2.3. Nvidia 高速互联助力 AI 运算,多 GPU 通信成为关键技术

DGX POD 是 NVIDIA 的 AI 基础架构,主要由运算、HCA(网络适配器)、交换机组成。1) 运算 NVIDIA DGX Systems:主要使用 DGX A100 和 DGX H100 Systems;2)HCA:NVIDIA DGX H100 系统配备了 NVIDIA ConnectX-7 HCA。NVIDIA DGX A100 系统配备 ConnectX-7 或 ConnectX-6 HCA;3)交换器:在系统之间提供多条高带宽、低延迟的路径,DGX BasePOD 配置可以配备四种类型的 NVIDIA 网络交换机。配置需求以 GPT 模型为例,参数范围从 10 亿到 1 万亿个,会有不同的配置需求;17~36 亿个参数预计需要 32~64 颗 GPU,大约需 要 4 到 8 个 DGX A100 POD,若达到 1450 亿个参数预计需要 1536 颗 GPU,需要在 GPU 集群上进行高效的大规模语言模型训练,需要 10 到 20 SUs 的 DGX A100 SuperPOD,其中 每个 SU 由 20 个 DGX A100 系统组成。

NVIDIA DGX Systems 实现服务器中所有 GPU 之间的高带宽、任意连接。2016 年 Nvidia 在 GPU 技术大会上推出全球首款深度学习超级计算机 NVIDIA DGX-1,实现了与硬件、深 度学习软件和开发工具的全面集成,为深度学习提供每秒高于 21 万亿次浮点运算峰值性 能的新型半精度指令技术。2017 年 NVIDIA NVSwitch 与 NVIDIA V100 Tensor Core GPU 和 第二代 NVLink 一起推出。2020 年 NVIDIA A100 Tensor Core GPU 引入了第三代 NVLink 和 第二代 NVSwitch,使每 CPU 带宽和减少带宽都增加了一倍。2022 年使用第四代 NVLink 和第三代 NVSwitch,具有八个 NVIDIA H100 Tensor Core GPU 的系统具有 3.6 TB/s 的二等 分带宽和 450 GB/s 的缩减操作带宽;与上一代相比,这两个数字分别增加了 1.5 倍和 3 倍。此外,使用第四代 NVLink 和第三代 NVSwitch 以及外部 NVIDIA NVLink 交换机,现在可以 实现 NVLink 速度跨多台服务器进行多 GPU 通信。

NVIDIA DGX A100 配置:8 个 NVIDIA A100 GPU 搭载共 640 GB GPU 内存,每个 GPU 使 用 12 个 NVLink,GPU 至 GPU 带宽每秒 600 GB,6 个第二代 NVSwitch 双向带宽每秒 4.8 TB 比前一代高出 2 倍。10 个 NVIDIA ConnectX-7 每秒 200GB 网络接口每秒 500 GB 的双向带 宽峰值。

NVIDIA DGX H100 配置:8 个 NVIDIA H100 GPU,总 GPU 内存高达 640GB,每个 GPU 都 拥有 18 个 NVIDIA NVLink,提供每秒 900GB 的 GPU至 GPU 双向带宽,4 个 NVIDIA NVSwitch, 每秒 7.2TB 的 GPU 双向带宽,比前一代快 1.5 倍。8 个 NVIDIA ConnectX-7 和 2 个搭载每 秒 400Gb 网络适配器的 NVIDIA BLUEFIELD DPU。

DGX H100 中 8 个 GPU+NVLink+NVSwitch 是关键的组成部分。DGX H100 拥有八个 H100 张量核 GPU 和四个第三代 NV 交换机。每个 H100 GPU 都有多个第四代 NVLink 端口,并 连接到所有四个 NVLink 交换机。每个 NVSwitch 都是一个完全无阻塞的交换机,完全连接 所有八个 H100 Tensor Core GPU。

DGX H100 可以支持 256 个 GPU 连接,并提供 57.6TB 的带宽。将新的 NVLINK Network 技术与新的第三代 NVSwitch 结合,而每一个 GPU 节点都会公开节点中 GPU 之所有 NVLink 带宽的 2:1 锥形层级。节点是通过 NVLink Switch 模块中包含的第二层 NVSwitch 连接在一起,这些模块常驻于运算节点外部,并将多个节点连接在一起。DGX H100 SuperPod 可以 横跨多达 256 个 GPU,连接之节点可以提供 57.6 TB 的全部对全部带宽,使用以第三代 NVSwitch 技术为基础的新型 NVLink Switch,通过 NVLink Switch System 完全连接。

NVLink 相较于 PCIe 能提供更大的带宽。以第二代 Volta NVLink 为例,通道带宽为 300GB/s, PCIe 3.0带宽为 16GB/s;以第四代 NVLink为例,每个通道的带宽为 100 Gbps,是PCIe Gen 5 的 32 Gbps 带宽的三倍多;此外通过组合多个 NVLink 以提供更高的聚合通道数,从而产 生更高的吞吐量。第四代 NVLink 技术为多 GPU 系统配置提供 1.5 倍带宽,并改善可扩充 性。单个 NVIDIA H100 Tensor 核心 GPU 最高可支持 18 个 NVLink 联机,总带宽可达每秒 900 GB(GB/秒),将近是第 5 代 PCIe 带宽的 7 倍。

NVLink 高速通信不断迭代,第四代相较于第三代带宽提升 0.5 倍。为了将训练时间从数 个月压缩至数天,需要在服务器集群中的每一个 GPU 之间进行高速无缝通讯。而 PCIe 因 带宽有限而造成瓶颈,因此需要更快速、更具扩充性的 NVLink 互连。NVIDIA A100 Tensor 核心 GPU 采用的第三代 NVLink(包含 12 个第三代 NVLink 链路,提供每秒 600 GB 的总 带宽),H100 GPU 采用新的第四代 NVLink(H100 包含 18 个第四代 NVLink 链路,提供每 秒 900 GB 的总带宽),H100 GPU 相较于 A100 提供 1.5 倍的通讯带宽。

NVLink 由物理层(PHY)、数据连接层(DL)以及交易层(TL)组成。1)物理层 PL 与 PHY,负责跨所有八个信道并确保原始的数据可在各种物理媒体上传输;2)DL 数据连接 层为位于物理层与网络层之间,在两个网络实体之间提供数据链路连接的建立、维持和释 放管理;3)TL 交易层请求和响应信息形成的基础。

NVSwitch 是 NVLink 交换系统的关键,实现 GPU 高速跨节点连接。新的第三代 NVSwitch 技术包含常驻于节点内部和外部的交换器,可以在服务器、丛集和数据中心环境中连接多 个 GPU。节点内部每一个新的第三代 NVSwitch 皆提供 64 个第四代 NVLink 链路端口,以 加快多 GPU 联机能力。第三代 NVSwitch 是 NVLink 交换机系统的关键,以 NVLink 速度实 现 GPU 跨节点的连接。

NVSwitch 为定制工艺构建,并行运行增加互联传输效率。NVSwitch 芯片并行运行,以支 持数量日益增加的 GPU 之间的互连,核心逻辑是让端口逻辑模块中的数据包转换,进出多GPU 的流量看似是通过单一 GPU。随着 NVLink 交换机系统提供的带宽是 InfiniBand 的 4.5 倍,大规模模型培训变得更加实用;例如,当使用 14 TB 嵌入表训练推荐引擎时,与使用 InfiniBand 的 H100 相比,预计使用 NVLink 交换系统的 H100 在性能上会有显着提升。第 三代 NVSwitch 它使用为 Nvidia 定制的 TSMC 4N 工艺构建,该芯片包含 251 亿个晶体管, 比NVIDIA V100 Tensor Core GPU的晶体管多,面积为294平方毫米封装尺寸为50 mm x 50 mm,共有 2645 个焊球。

NVIDIA Quantum InfiniBand 提供高效能运算网络解决方案。InfiniBand 和以太网持续竞 争网路通信世界的主导地位。作为被最广泛使用的网路通讯协议,以太网拥有优秀的性价 比以及和多数装置兼容的优势。然而,现今网路早已发展成一个更为庞大复杂的系统,大 量的数据运算需求让人们开始关注 InfiniBand 架构的优势。InfiniBand 主机信道适配卡 (HCA) 提供了超低延迟、极高传输量和创新的 NVIDIA 网络内运算引擎,以提供现代工作 负载所需的加速、可扩充性和功能丰富的技术。2020 年 Nvidia 于 SC20 大会上,宣布推出 NVIDIA Mellanox 400G InfiniBand,这是全球首个 400Gb/s 网速的端到端网络解决方案, 可为全球的人工智能(AI)和高效能运算用户提供最快的网络互连效能,同时成功将运算、 可程序化和软件定义三种技术结合,成为业界领先的软件定义、硬件加速的可程序设计网 络。

NVIDIA ConnectX InfiniBand 智能适配卡可运用更快的速度和创新的网络内运算。NVIDIA ConnectX 能降低营运成本,提升投资报酬率,实现高效能运算、机器学习、进阶 储存空间、丛集数据库、低延迟嵌入式 I/O 应用程序等强大功能。ConnectX-7 智能主通道 配接器 (HCA)采用 NVIDIA Quantum-2 InfiniBand 架构,可提供每秒 400GB 的吞吐量;ConnectX-6 HDR 智能主通道配接器(HCA)采用 NVIDIA Quantum InfiniBand 架构,可提供 每秒 200GB 的吞吐量。

NVIDIA Quantum InfiniBand 交换器,提供庞大吞吐量、网络内运算的架构。QM8700 InfiniBand 系列,具备高达每秒 16Tb 的无阻塞带宽,提供多达 40 埠、每埠每秒 200Gb 的 完整双向带宽。QM9700 InfiniBand 系列,拥有 64 个 400Gbps 端口或 128 个 200Gbps 端 口,能以多种切换器系统的设置供货,在 400Gbps 下最高搭载 2,048 个端口,或于 200Gbps 下最高搭载 4,096 个端口。

光模块是实现光信号传输过程中光电转换和电光转换功能的光电子器件。光模块工作在 OSI 模型的物理层,是光纤通信系统中的核心器件之一。它主要由光电子器件(光发射器、 光接收器)、功能电路和光接口等部分组成,主要作用就是实现光纤通信中的光电转换和 电光转换功能。光模块工作原理图所示,发送接口输入一定码率的电信号,经过内部的驱 动芯片处理后由驱动半导体激光器(LD)或者发光二极管(LED)发射出相应速率的调制 光信号,通过光纤传输后,接收接口再把光信号由光探测二极管转换成电信号,并经过前 置放大器后输出相应码率的电信号。

光模块中光芯片成本占比约 18%。光器件可分为有源、无源,其中光无源器件不需要外加 能源驱动工作,是光传输系统的关节,光有源器件是光通信系统中将电信号转换成光信号 或将光信号转换成电信号的关键器件。根据华经产业研究院数据,光模块成本中,光器件 占 73%、外壳占 4%、印刷电路板占 5%、光芯片占 18%。

光芯片按功能可以分为激光器芯片和探测器芯片。光芯片采用光波(电磁波)来作为信息 传输或数据运算的载体,一般依托于集成光学或硅基光电子学中介质光波导来传输导模光 信号,将光信号和电信号的调制、传输、解调等集成在同一块衬底或芯片上。按功能可以 分为:1)激光器芯片(发射信号),主要将电信号转化为光信号,按出光结构可进一步分 为面发射芯片和边发射芯片,面发射芯片包括 VCSEL 芯片,边发射芯片包括 FP、DFB 和 EML 芯片;2)探测器芯片(接收信号),主要将光信号转化为电信号,主要有 PIN 和 APD 两类。

800G 交换机陆续发布,下一代超宽互联蓄势待发。2022 年 10 月思科在 OCP 全球峰会上 发布了两款新的 800G 交换机系列及新的光模块,以支持超级数据中心运营商和电信运营 商对更大的交换容量、灵活性和提升功效的要求。2023 年 1 月 Juniper 宣布在线媒体连接 的 Virgin Media O2 成功使用 Juniper 网络升级了其 IP 核心骨干网络,Virgin Media O2 通 过 Juniper 网络 PTX10008(PTX10008 路由器支持 400G,未来还可以通过硅创新和机箱中 易于交换的线卡升级到 800G)分组传输路由器成功地将其在英国的六个骨干站点的所有 核心流量迁移。2023 年 4 月新华三重磅发布 S12500G-EF 新一代绿色智能交换机,支持超 宽 400G,未来可无缝升级 800G,为下一代超宽互联就绪。

3. AI 服务器放量预期利好上游核心部件,挑战机遇共存

各环节国产发展程度不一,机遇与挑战并存。我们认为,在算力和数字时代的背景下,AI 服务器作为算力载体为数字经济提供发展动力,更加彰显其重要性。纵观 AI 服务器的全景 产业链,我们认为当下可以把握的机遇有 AI 服务器上游中部分电子元件环节(PCB/存储 器),制约 AI 服务器发展的瓶颈主要在上游的 GPU 环节,未来有望突破的转折为 Chiplet 工艺。

3.1. 危机四伏:上游供应危机尚未解除,国产替代必需提上日程

拆解服务器的成本,芯片成本与性能高低成正比。据 IDC 2018 年关于服务器成本机构数 据,芯片成本在基础性服务器中约占总成本的 32%,该比重随着性能和运算能力的要求而 逐步攀升,在高性能或具有更强运算能力的服务器中,芯片相关成本可以高达 80%。

AI 产业化落地将推动人工智能芯片快速放量。由于 CPU 并不适合 AI 服务器中的大规模并 行计算,因此在 AI 服务器中,主要是用 GPU、FPGA、ASIC 等计算芯片补齐 CPU 中人工 智能负载处理的短板。在国家政策支持+资本推动+产业链和应用场景持续完善扩张的驱动 下,中国 AI 芯片需求有望持续上涨。据艾瑞咨询数据,2021 年中国 AI 芯片市场规模将达 到 297 亿元,未来在人工智能、云计算、数据中心、边缘计算等领域的广泛应用,中国市 场规模预计到 2025 年达到 1385 亿元,2021-2025 年 CAGR 预计达到 47%。

人工智能芯片搭载率将持续增高,GPU 仍为主流方案。据 IDC 调研显示,当前每台人工智 能服务器上配备 2 个 GPU、3 个 FPGA 或 3 个 ASIC 的比例最高,未来 18 个月,比例最高 的服务器有望配备 4 个 GPU、7 个 FPGA 或 5 个 ASIC,普遍搭载率均呈上升趋势。再看中 国市场,目前在国内市场主要是用以 GPU 为主实现数据中心计算加速,市场占有率近 90%, 这主要是因为 GPU 可以较好支持高度并行的工作负载。ASIC、FPGA、NPU 等非 GPU 芯片 市场占有率超过 10%,得益于近年智慧城市建设、无人驾驶载具、智慧医疗系统构建、智 能家居等成为热门领域,应用于该类领域的非 GPU 芯片也得到发展。我们认为,未来面对 需求的多元增长,AI 芯片将呈现百花齐放的发展空间。

GPU 海外寡头垄断格局+禁运风险或为国产 AI 服务器的主要瓶颈。GPU 主要分为独立 GPU 和集成 GPU,前者用于 AI 服务器、高性能电脑中,后者则主要用于移动端设备。目前 Nvidia 和 AMD 垄断独立 GPU 市场,其中 Nvidia 优势更为明显,2021Q1 市占率达到 83%。同时, 据电子发烧网,Nvidia的GPU芯片是AI大模型的关键,在大模型训练市场的市占比近100%, 而 GPT-3.5 大模型需要高达 2 万枚 GPU,未来商业化后或将超过 3 万枚。同时国内如浪 潮、宁畅等国内品牌厂商的 AI 服务器中同样配置 Nvidia 的芯片。受到中美脱钩的持续影 响,部分供应 AI 服务器的 GPU 成为限制出口的产品,直接影响国内 AI 服务器的出货量。根据美国商务部工业与安全局宣布的针对中国出口先进芯片的管制新规声明,凡输入/输出 (I/O)双向传输速度高于 600GB/s,同时每次操作的比特长度乘以 TOPS 计算出的处理性 能大于或等于 4800 的产品,将无法出口至中国,英伟达的 A100 即属于限制范围之内。从 AI 芯片行业投融资来看,目前国内 AI 芯片产业热度持续高涨,根据 IT 桔子的数据,2022 年中国 AI 芯片行业投融资额达到 179.5 亿元,资本的持续进入有望加速国内 GPU 国产化 进程,逐步切入 AI 服务器的供应链中。

国内厂商正在陆续推出 GPU 产品进行市场检验,国产替代提上日程。伴随资本和政策的 持续加码,一批国内 GPU 厂商逐渐崭露头角。然而,我们仍需看到在芯片设计 制造领域,我国仍缺乏设计软件、先进制程及设备与世界领先水平之间仍有差距,该领域 部分产品及装备仍十分依赖进口,国产 GPU 之路仍是路漫漫其修远兮。

3.2. 柳暗花明:以 Chiplet 工艺打开我国对算力的想象空间

Chiplet 有望成为我国先进制程及算力受限的困境的突破口。在 AI 时代浪潮的裹挟下,以 ChatGPT 为代表的是大数据+大模型+大算力的产物,每一代 GPT 模型的参数量高速增长, 随着科技头部企业类 ChatGPT 项目入局,整体在算力提升、数据存储及数据传输端需求迭 起。我们认为采用 Chiplet,即将模块化设计引入半导体制造和制造,协同计算助力 HPC 芯片算力突破及性能提升,从而满足大型模型的训练需求。国外厂商 AMD 于 2021 年 6 月 发布基于台积电 3D Chiplet 封装技术的第三代服务器处理芯片,国内华为于 2019 年推出 基于 Chiplet 技术的 7nm 鲲鹏 920 处理器,实现多核高并发和资源调度优化,计算性能提 高 20%。在美国对我国半导体产业持续封锁的状态下,国产算力和先进制程瓶颈有望在 Chiplet 助力下实现突破,甚至在该领域实现弯道超车,如璧仞科技和寒武纪推出采用 Chiplet 工艺的芯片,在部分性能上可以达到甚至超越英伟达供应 AI 服务器的 A100。国内这一领域的优势一方面是由于 Chiplet 开发模式将芯片工艺转向系统集成,因 而能够以我国在应用创新的优势换取光刻机受限的缓冲期;另一方面则是 Chiplet 的核心 为“先进封装”技术,国内 Chiplet 封装产业技术积累深厚,国际竞争力强,如长电科技、通富微电和华天科技具备 Chiplet 量产能力,并据 ittbank 数据,长电科技、通富微电和华 天科技均位列 2021 年全球营收前十的封测厂商排名中。

Chiplet 或将带来全产业链投资机遇。Chiplet 工艺有望突破国产芯片的算力瓶颈,成为半 导体发展核心,2022 年 12 月中国工信部中国电子工业标准化技术协会审定并发布了《小 芯片接口总线技术要求》,中国迎来了首个原生 Chiplet 小芯片标准。该推广将推动本土半 导体芯片这一领域的发展。

3.3. 适逢其会:为上游部分元件打开增量空间

3.3.1. AI 服务器或将打开 PCB 增量市场

AI 服务器价值量提升为 PCB 市场带来发展空间。PCB 主要参与服务器内部的主板、电源 背板、硬盘背板、网卡、Riser 卡等,随着服务器对运算及传输速率的要求不断提升,对 PCB 提出更严苛的电性能要求,同时也给对应的 PCB 市场带来良好机会。从 PCB 价值量来 看,传统通用服务器 PCB 以 8-10 层 M6 板为主,价值量约为 3400 元。AI 服务器分为训练 服务器和推理服务器。训练服务器 PCB 以 18-20 层 M8 板为主,价值量约 10350 元。推理 服务器 PCB 以 14-16 层 M6 为主,价值量约为 7140 元。总体来看,AI 服务器 PCB 价值量 约为普通服务器 PCB 的 2-3 倍。从 PCB 下游市场来看,根据 Prismark 数据,2021 年全球 服务器用 PCB 的产值为 78.04 亿美元,预计 2026 年产值达到 124.94 亿美元,5 年 CAGR 为 9.9%,增速快于其他 PCB 品类。服务器行业发展空间广阔+消费电子/PC 领域呈现疲态, 众多 PCB 企业在积极布局服务器用 PCB 领域。

3.3.2. 高算力使服务器芯片散热成为难题,散热模组应需求提高散热效率

服务器的高功率或将引导散热模组转型,开拓液冷新市场。以 NVIDIA DGX A100 为例, AI 服务器系统功耗达到了 6.5KW。散热效率一直是服务器厂商需要解决的问题之一,当前 主流模式是利用散热鳍片、热导管、风扇、空调等组成的风冷模式。随着大数据、云计算 带来天量的数据处理等高通量的计算业务,使得服务器芯片的散热收到严重挑战,芯片热 封装壳温也在不断提高,达到了风冷的极限。同时风冷的耗电量极高,数据中心的制冷空 调系统用电量占整个数据中心的 30-50%。相比之下,液体比热容为空气的 1000-3500 倍, 导热性能是空气的 15-25 倍,利用自然冷却显著降低耗电量,使得液冷成为风冷的不二选 择,在未来或将全面替代风冷,成为 AI 服务器乃至数据中心的标配。目前已有不少专注于 热功能的厂商,在加大对液冷模式的研发和布局,如老牌散热模组供应商双鸿、超众已切 入液体循环散热的领域,中石科技能够提供全方位热管理综合解决方案,飞荣达针对服务 器的散热需求开发轴流风扇、特种散热器、单相液冷冷板模组、两相液冷模组等产品。我 们认为,数据量增长给服务器带来更迫切的散热需求,散热组件的重要性将持续凸显,尤 其看好未来液冷对气冷替代所产生的需求。

3.3.3. 数据存力作为算力进阶需求迭起,看好国产存储器后续发展

服务器内的数据存力重要性成为存储器发展动力。在服务器行业,既需要高频宽的 DRAM 作为暂存,提供处理器技术时即时所需的资料;也需要 NAND Flash 用以存放资料,通常 以固态硬盘(SSD)的形态存在。·DRAM 存储器:目前我们生活中接触各种内存概念产品多为 DRAM,领导标准机构 JEDEC 将 DRAM 定义为标准 DDR、移动 DDR、图形 DDR 三个类别,分别指代为电脑内存、手机 运存、显卡显存,其中图形 DDR 能提供极高吞吐量,适合面向图形应用程序、数据中心加 速以及 AI 的数据密集型应用程序,并且将很多 DDR 芯片堆叠后与 GPU 封装在一起,就构 成了另一种形式的显存,即 HBM。我们认为,ChatGPT 催生对更高性能存储的需求,HBM 技术有望随着人工智能快速发展而发展,从而成为适配 AI 服务器的高阶选择。这从 2023 年初 ChatGPT 带动三星电子和 SK 海力士 HBM 订单激增可见一斑,AI 服务器中所需的英 特尔 A100、V100 均搭载了 HBM2。与其他 DRAM 相比,HBM 通过垂直连接多个 DRAM显著提高数据处理速度,售价是普通 DRAM 的五倍,但由于其生产的复杂性和技术的先进 性,国内外市场均由三星和 SK 海力士主导。HBM 当前在 DRAM 渗透率低,同时出于性价 比选择,传统服务器仍多选择 DDR 和 GDDR 以提高内存性能。根据前瞻产业研究所,2020 年 DRAM 市场由海外厂商三星、海力士和美光所主导,CR3 达到 94.5%。根据清枫资本公 众号,2020 年服务器用 DRAM 占比 34.9%。我们看好中长期内高算力需求增长将成为存储 器发展的成长驱动力。

SSD 固态硬盘:主要分为企业级和消费级,企业级 SSD 即应用于高性能计算、边缘计算、 高端存储、数据中心等各种企业级场景中的固态硬盘,具备不间断工作能力,能够处理 I/O 密集型工作负载。海量数据处理是人工智能计算负载的典型特点,当前 SSD 成本不断下降, 已经成为高性能服务器的必须,其中也包括人工智能服务器。并且,X86 处理器的发展也 对周边存储设备起到了带动作用,PCIe 4.0 SSD 在数据中心占比大幅增长,满足数据密集 型应用高速吞吐的需求。随着未来持续增加的数据存储、传输需求,只有性能更强、容量 更大、更稳定耐用的存储设备才能支撑数字经济发展,而企业级 SSD 面向企业级客户,比 消费级 SSD 具备更强性能、更高可靠性和更强耐用性,我们认为有望成为 AI 服务器的刚 性需求。当前的 SSD 市场的领先企业包括英特尔、西部数据、美光、东芝,国内 SSD 企业 仍处于追赶期,包括忆联、忆恒创源、浪潮、大普微等均推出企业级 SSD,从产品性能和 产能方面逐渐对标国际领先企业。当前企业级 SSD 下游客户主要来自云服务器&互联网, 我们预计在未来几年内,云计算与互联网仍是国内企业级 SSD 硬盘的购买主力,尤其是目 前处于人工智能元年,对 AI 服务器的增量需求或将稳固企业级 SSD 硬盘的增长。

3.4. 下游指明服务器发展方向,人工智能渗透率提高将扩展 AI 服务器应用

全球服务器需求以企业资料中心为主,超大型资料中心(HDC)占比稳步增长。企业资料 中心主要是由拥有庞大数据存储需求的公司建构,如 Netflix、Zoom 等互联网公司和部分金融企业等,市场份额正在被超大型资料中心所挤压,这主要是对存储需求大的企业数量 有限。超大型资料中心指的是云服务提供商(CSP),如亚马逊的 AWS,微软的 Azure、阿 里的阿里云,主要为有云端需求的企业提供服务,解決中小企业无法负担直接搭建企业资 料中心的成本困境,我们认为随着中小产业持续导入,或将成为云服务的重要增量市场, 从而拉动服务器的增长。

国内服务器下游重点关注互联网云服务商与电信运营商。中国服务器下游用户主要分布在 互联网、运营商、政府、金融等多个领域。互联网以超过 40%份额成为主流应用,BAT 和 第三方 IDC 服务器公司成为服务器行业的主要购买力来源,同时近年来云计算的支出也为 服务器出货量贡献力量。国内电信领域同样值得关注,国内三大运营商提出算网一体,算 力网络按照算网协同、算网融合和算网一体的三阶段演进路径已经成为业界共识,2022 年运营商进一步加大对算力底座的投资落地,2022 年三大运营商服务器相关招标中,共涉 及近 60 万台服务器,金额超过 200 亿元,预计 2023 年运营商的 capex 将维持扩张,其中 算力支出为最大支出。2022 年末在 AI 浪潮回卷趋势下,互联网巨头争先布局人工智能产 品,AI 服务器有望成为服务器产品的新兴业务负载。

下游需求预期饱满,持续受益于 AI 应用和模型逐步落地。根据 Trendforce 报告指出,2022 年 AI 服务器采购中,北美四大云端厂商谷歌、亚马逊 AWS、Meta、微软合计占比 66%, 国内字节跳动(6%)、腾讯(2.3%)、阿里巴巴(1.5%)和百度(1.5%)紧随其后。AI 服务 器需求和云计算及互联网客户的 Capex 直接挂钩,下游客户 capex 企稳回暖使得 AI 服务 器产能有望持续受益扩张,尤其是在 ChatGPT 的应用之下,AI 服务器采购商纷纷布局人工 智能应用,AI 服务器行业预计将迎来高景气。

(本文仅供参考,不代表我们的任何投资建议)

文琳编辑

免责声明:转载内容仅供读者参考,观点仅代表作者本人,不构成投资意见,也不代表本平台立场。若文章涉及版权问题,敬请原作者添加 wenlin-swl  微信联系删除。

为便于研究人员查找相关行业研究报告,特将2018年以来各期文章汇总。欢迎点击下面红色字体查阅!

文琳行业研究 2018年—2023年5月文章汇总


今日导读:点击下面链接可查阅

公众号 :文琳行业研究

  1. 中国人工智能行业概览(2023)

  2. 人工智能大模型体验报告(2023)

  3. 2023人工智能GPT4应用分析研究报告

  4. 人工智能行业专题报告:大模型突破技术奇点,海外应用百花齐放

  5. 人工智能行业专题研究:AI模型下沉至终端,提升边缘计算需求

  6. 人工智能行业深度报告:算力大时代,AI算力产业链全景梳理

  7. VR行业研究报告:硬件和内容良性循环,VR生态加速构建

  8. AIGC行业专题报告:华为算力编年史

    ▼长按2秒识别二维码关注我们


《文琳资讯》

提供每日最新财经资讯,判断经济形势,做有价值的传播者。欢迎关注

今日导读:点击下面链接可查阅

  1. 刚刚,国常会重磅定调!研究提出一批政策措施,推动经济持续回升向好!科技型企业迎利好

  2. 利好来了!国常会重磅决定!

  3. 国家发改委将重点在这6方面发力!

  4. 突发!美国数个政府机构遭黑客攻击

  5. 比尔盖茨和高层碰面,透露重大信号!

  6. 中国现在,铀矿缺到什么程度?

  7. 外媒:大批战机调往台海,要摊牌了!中方宣布随时能战


▼长按2秒识别二维码关注我们

今日导读:点击下面链接可查阅

公众号 :文琳阅读

  1. 最顶级的尊重(深度好文)

  2. 讣告:于2023年6月13日去世!

  3. 杭州跳桥男子冲上热搜,我才真正懂了网友为什么不放过川大女生

  4. 新发现:打了这种疫苗,老年痴呆居然变少了?

  5. 电影10部绝美高分电影,给你最大的视觉享受!03《逃离德黑兰》2012

  6. 音乐欣赏:小男孩惊艳演唱花腔女高音《复仇的火焰在我心中燃烧》

  7. 建议老年人:如果不差钱,尽量多吃这种食物,提高免疫力!

  8. 这些水果你吃过,但是你用英文都会说吗?

▼长按2秒识别二维码关注我们
公众号 :就业与创业
点击下方可看
  1. 2023数字生态青年就业创业发展报告

  2. 学生该如何读研?导师通过多年的研究生培养经历给出答案

  3. 老哥别跑!这家信托向前高管“反向讨薪”280多万!

  4. 三把火撑起千亿帝国,攒700亿身家成服装业首富



继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存