人工智能行业专题研究：AI模型下沉至终端，提升边缘计算需求

文琳行业研究 2024-04-11

（报告出品：中信建投证券）

一、AI算力将在边端云端灵活分配

边缘计算在万物互联场景中至关重要

边缘计算是一种分布式计算架构，将数据处理能力和应用程序部署在更接近数据源的位置，以提高响应性，增强安全性和保护用户隐私（参考边缘计算联盟（ECC）的定义）。所谓边缘，一般包括：设备边缘和云边缘。设备边缘：一般包括直接的终端设备以及一些异构加速卡、边缘网关等设备。云边缘：一般是在设备边缘和中心云之间，比如就近部署的边缘云节点/边缘IDC。万物互联场景中，云端处理存在时延较长、成本较高、涉及数据隐私等问题，引入边缘计算至关重要。

边缘AI将与云端AI相互补充

边缘AI将AI能力引入到边缘计算场景。相较于云端集中的AI资源池运算，边缘AI具有实时响应、增加隐私性、持续改进等优势。边缘AI与云端集中的AI是相互补充、相互关联的关系，而非替代关系。

高通公司表态向智能边缘计算公司升级，提出混合AI架构

2022年5月的世界智能科技创新合作峰会上，高通公司中国区董事长孟樸强调了混合AI重要性。在5G加持下，随着生成式AI的飞速普及和计算需求的日益增长，混合处理的重要性空前凸显。混合AI架构可以根据模型和查询需要的复杂度等因素，选择不同的方式在云端和边缘终端之间分配并协同处理AI工作负载。以终端侧AI为中心的混合AI架构中，端侧设备作为锚点，可以运行数十亿参数的模型，复杂的模型则可以跨云端和终端进行运行，根据需要在用户无缝感知的情况下，使用云端计算。

AI算力预计将灵活分配

我们认为AI算力将综合考虑硬件能力、成本等因素，在边端和云端灵活分配，简单涵盖：边端AI小模型场景：本地跑一些语音识别、图像识别等算法复杂度比较低、对算力要求比较小的AI模型，同时也可以通过API调用云端AI算力/应用来实现更加丰富的AI功能。边端AI大模型场景：直接在边缘侧运行AI大模型。这类场景我们认为可能会率先在手机、PC、智能驾驶、具身智能、元宇宙、工业控制等自身具备一定算力基础的场景落地。

联邦学习等方法研究在边缘计算架构下进行分布式训练

联邦学习FL（Federated Learning, FL）采用分布式学习架构，使得神经网络模型在移动边缘计算（MEC）架构下可以进行分布式训练，参与学习的客户端无需上传本地数据，只需将训练后的模型参数更新上传，再由边缘服务器节点聚合、更新参数并下发给参与学习的客户端。由于不需要共享和传输原始数据，采用类似集群的通信结构，FL更适合于移动终端等大规模、广分布的部署环境。

二、大模型向边缘端渗透初见端倪

大模型在边缘端渗透的条件：模型压缩+算力提升

大模型向边缘端渗透，需要算法、硬件协同优化，模型压缩和边缘侧计算性能提升是两大关键。模型压缩：比如GPT-175B 模型约有 1750 亿参数，以半精度（FP16）格式计算，至少占 320GB存储空间。模型压缩是大模型向边缘渗透的其中一个重要条件。计算性能提升：包括算力、显存、功耗等多方面的硬件综合能力。目前在这两个方向上，我们都可以看到不错的进展预期，大模型在边缘端渗透初见端倪。

模型压缩：包含量化、蒸馏、剪枝等多种方式

模型压缩主要包括Model Quantization模型量化、 knowledge distillation知识蒸馏、Model Pruning模型剪枝、 Low-Rank Adaptation低秩适应、weight sharing权值共享、architecture search结构搜索等方式。

模型压缩：SparseGPT可以一次性修剪至少50%的稀疏性

奥地利科技学院等机构的研究者提出SparseGPT，可以在100亿-1000亿参数的模型规模上有效地运作。SparseGPT将剪枝问题简化为一组极其大规模的稀疏回归实例，基于新的近似稀疏回归求解器用于解决分层压缩问题，效率足以在几个小时内使用单个 GPU 在175B参数的GPT 模型上执行。SparseGPT 可以在 OPT 家族的 1750 亿参数变量中剪枝到高达 60% 的均匀分层稀疏性。

模型压缩：逐步蒸馏法用7.7亿参数蒸馏超过5400亿的大语言模型

5月3日，华盛顿大学与Google一起公布逐步蒸馏（Distilling step-by-step）法，可使用更少的数据来做模型的蒸馏（据论文描述，平均只需要之前方法的一半数据，最好的情况只需要15%的数据就可以达到类似的效果），并可获得更小规模的模型（最多可比原模型小2000倍，即可获得大模型差不多的效果）。

模型压缩：开源模型原驼可以做到 ChatGPT 99%的能力

华盛顿大学发布开源大模型原驼（Guanaco），自动测试分数达到ChatGPT的99.3%，并且同时发布新方法QLoRA，把微调大模型的显存需求从>780GB降低到

算力提升：包括算力、显存、功耗等多维度

算力：Transformer模型更加依赖大算力的支撑。参考壁仞科技数据，对于40个字的文本序列，进行一次Bert推理需要7Gflops，由中文翻译到英文的Seq2Seq模型需要 20 Gflops。标准版BERT模型参数量是3.4 亿个参数。显存：以一个100亿参数模型，FP16精度为例，参数量需要20GB内存（10B*2Bytes），梯度需要20GB内存（10B*2Bytes），优化器状态需要40GB内存（10B*2Bytes*2），总计需要80GB内存。功耗：随着算力的提升，带来功耗提升，对于芯片的散热要求将明显提升，同时不同场景对于设备耗电量、待机时长等也都有不同要求。

当前进展：手机、PC端已经出现边缘大模型场景落地

手机：ChatGPT已推出IOS应用，安卓版后续也会发布。高通在搭载第二代骁龙8移动平台的Android智能手机上部署Stable Diffusion（参数超10亿个），在15秒内执行20步推理，生成一张512x512像素的图像。PC：微软和高通、英特尔在AI领域展开合作，部署推出搭载AI引擎的PC产品。具身智能：英伟达创始人黄仁勋表示AI下一个浪潮将是“具身智能”，并且公布了多模态具身人工智能系统Nvidia VIMA。

三、产业链新增AI，强化算力与连接

边缘计算市场快速增长

STL Partners数据显示，边缘计算潜在市场将在10年内以48%的复合年增长率从2020年的90亿美元增长到2030年的4450亿美元，其中边缘基础设施的增长速度是最快的。亿欧智库数据显示，2021年我国边缘计算市场规模已经达到427.9亿元，其中边缘硬件市场规模为281.7亿元，边缘软件与服务市场规模达146.2亿元，2021-2025年中国边缘计算产业规模预计年复合增速达到46.81%，2025年边缘计算市场整体规模将达1987.68亿元。

边缘计算产业链：新增AI，强化算力与连接

从产业链角度，边缘AI核心在于引入边缘侧的AI能力，进一步增强边缘侧的算力能力、连接能力。重点包括AI芯片、算力模组、边缘网关/服务器/控制器等硬件、AI算法/边缘计算平台等软件环节。

AI芯片：专门用于处理AI大量计算任务的模块

AI芯片是指专门用于处理人工智能应用中的大量计算任务的模块，其他非计算任务则更多仍由CPU负责。从技术架构来看，Al 芯片主要分为 GPU、FPGA、ASIC三大类。其中，GPU 是较为成熟的通用型人工智能芯片，FPGA 和 ASIC 则分别是针对人工智能需求特征的半定制和全定制芯片。典型AI运算通常需要CPU或者ARM内核来执行调度处理，大量的并行计算靠GPU、FPGA或ASIC来完成。

模组：标准化的模组形态可以有效满足物联网碎片化需求

无线模组是物联网中的连接器件，无线模组将芯片、存储器、功放器件等集成在一块线路板上，实现无线电波收发、信道噪声过滤及模拟信号与数字信号之间相互转换，并提供标准接口的功能模块，终端借助无线模组可以实现通信或定位。物联网的碎片化需求，基于芯片的开发技术门槛高，客户会选用标准的模组，直接使用模组的标准硬件接口和嵌入式应用协议，不必关心底层逻辑，只要做好应用侧适配。

智能控制器：家电等场景实现智能化的“大脑”

智能控制器和边缘节点算力同样直接相关。在智能家居、家电、工业控制等场景中，智能控制器是其实现智能化的大脑。AI带动下游智能化能力提升，智能场景的功能及其交互方式将更加丰富，包括机器视觉、语音识别等AI算法将更多与应用场景结合，同时控制器中也将引入算力芯片等，对于智能控制器的需求量和ASP也将会是直接正向的带动。

四、围绕受益环节、兼顾弹性选标的

用量和成本维度量化算力弹性

算力用量：不同场景对于算力的需求有所不同，智能家居等场景典型算力需求小于1Tops，自动驾驶随着级别升高算力需求在20Tops~4000Tops。AI大模型往终端渗透有望进一步提升算力需求。算力成本：单位算力成本与芯片研发成本、制造成本、出货规模、算力规模等直接相关，同时也需要考虑配套的存储、应用开发等环节。结合势乘资本的数据，我们简单量化匡算算力成本为5元/Tops-10元/Tops，相对总体算力越高，单位成本越低。

广和通：已推出基于高通QCS8250的高算力AI模组

广和通是全球蜂窝物联网通信模组头部企业，在PC、FWA等垂直行业蜂窝模组市场份额领先，收购锐凌无线后车载通信模组跻身全球第一梯队。2022年公司收入56.46亿元，归母净利润3.64亿元。公司积极布局算力模组，已经推出基于高通QCS8250芯片平台的高算力AI模组SCA825-W，可全面提供高达15TOPS的算力支持；FM160 5G模组与安提国际AI边缘计算平台AN810-XNX成功联调。公司算力模组目前在支付和车载领域应用比较多，并积极拓展边缘算力终端设备、机器人、IPC安防、工业检测和控制等领域，有望充分受益边缘AI发展。

拓邦股份：积极布局AI、机器人等新领域

拓邦股份是国内智能控制器头部厂商，以电控、电机、电池、电源、物联网平台的“四电一网”技术为核心，面向家电、工具、新能源、工业、智能解决方案等五大行业提供各种定制化解决方案，已形成家电、电动工具、新能源“三足鼎立、并驾齐驱” 局面。2022年公司收入88.75亿元，归母净利润5.83亿元。公司积极布局AI、机器人等新领域。公司持续推动 T-smart 一站式解决方案落地于不同智能家居场景，并且完成了主流 IoT 生态网关产品的开发认证。在扫地机器人、商用炒菜机器人、服务机器人等领域持续投入，已具备 AI、IOT、运动控制、BMS、电机驱动、Slam、路径规划等技术积累，产品涵盖控制器等零部件、ODM/自主品牌整机产品。

网宿科技：积极发掘边缘计算在AI上的资源和服务潜力

网宿科技围绕 CDN 及边缘计算、云安全两大核心主业，以及私有云/混合云、MSP、液冷等新业务方向，不断完善产品矩阵。2022年公司收入50.84亿元，归母净利润1.91亿元。公司推出边缘计算平台，基于全球广泛分布的节点资源，融合计算、网络、存储等核心能力构建的边缘开放平台，就近为用户提供边缘算力等服务。面向AI机会，公司表示AI在CDN及边缘计算的应用主要是AI推理模型计算和相关应用的传输及安全需求，公司正在积极探索发掘边缘计算在AI上的资源和服务潜力。通过“3+X+AI”SASE架构，网宿科技整合自身的安全、网络、边缘计算能力，构建能力开放平台，并将AI能力融入到安全防御各环节，落地了边缘计算全栈防护体系。

报告节选：

（本文仅供参考，不代表我们的任何投资建议）

文琳编辑

免责声明：转载内容仅供读者参考，观点仅代表作者本人，不构成投资意见，也不代表本平台立场。若文章涉及版权问题，敬请原作者添加 wenlin-swl 微信联系删除。

文琳行业研究 2018年—2023年5月文章汇总

今日导读：点击下面链接可查阅

公众号：文琳行业研究

《文琳资讯》

提供每日最新财经资讯，判断经济形势，做有价值的传播者。欢迎关注

今日导读：点击下面链接可查阅

▼长按2秒识别二维码关注我们

今日导读：点击下面链接可查阅

公众号：文琳阅读

▼长按2秒识别二维码关注我们

公众号：就业与创业

点击下方可看

继续滑动看下一个

文琳行业研究

向上滑动看下一个

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

劲爆！为了姜萍两位女CEO互揭老底！

谁会想到，裁员会裁到总编辑头上

消失11天的姜萍，这回麻烦大了…

“环评”提质增效助力高质量发展？

人工智能行业专题研究：AI模型下沉至终端，提升边缘计算需求

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗 是中国厄运的开始！

劲爆！为了姜萍两位女CEO互揭老底！

谁会想到，裁员会裁到总编辑头上

消失11天的姜萍，这回麻烦大了…

“环评”提质增效 助力高质量发展？

生成图片，分享到微信朋友圈

人工智能行业专题研究：AI模型下沉至终端，提升边缘计算需求

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

“环评”提质增效助力高质量发展？