查看原文
其他

新观察-下篇:大模型算力服务让云大厂难使劲,超算和矿机公司再逢春-A𝕀²ℙarad𝕚gm之“Shovels”服务路径范式解读

ai汤源 AI范儿 2023-08-23

图|Alvin Foo
文|汤源
AI Gold Rush Rule
经典淘金规则今天的AI狂潮中仍然适用

题记

新观察-上篇:大模型算力服务让云大厂难使劲,超算和矿机公司再逢春-AI²Paradigm之“Shovels”服务路径范式解读
A𝕀²·ℙarad𝕚gm-𝕀ntell𝕚gence as a Serv𝕚ce之“卖淘金铲子“(shovels)服务路径范式解读-上篇中:

首先分析了创投机构DG&Nat天使组合、以及Reid Hoffman的Greylock最近的布局,他们分别投资了提供GPU云服务的startup CoreWeave。CoreWeave正在为新创的AI公司以极具竞争力的价格提供大规模GPU集群服务,与AWS、Azure和GCP相比,CoreWeave更加专注于定制化的GPU集群服务。

文章参考semianalysis的分析,回顾了AWS云计算服务的起源,它的服务化架构奠定了其在第一和第二波云计算浪潮中的主导地位。但AWS现在面临新的机遇和挑战,边缘计算、AI模型算力新范式、安全合规以及开源可能会打破其长期垄断。

国内二线云厂商也面临困境,它们跟随大厂建设通用云平台,但缺乏大模型预训练和推理部署的经验。在GPU短缺的情况下,它们很难提供有竞争力的GPU云服务。

整体来看,这波大模型计算让传统云厂商陷入困境,而以CoreWeave为代表的创新型startup正在抢占这一红利市场。AWS或国内云计算平台需要在关键领域加快创新,才能保持其在云计算市场的领导地位。

文章放出后,引起了众多关注以及反馈,尤其是在国内GPU禁运和算力短缺的大前提下,除传统云厂商之外的、尤其是手头有GPU算力的,如科学计算HPC服务商、使用 AI 进行量化交易投资的对冲基金、甚至GPU国产替代厂商、做传统数字地产的数据中心机房服务商,都想趁这波AI淘金狂潮赚取“卖淘金铲子”的easy money。
但谈何容易,此shovels非彼shovels,大模型预训练GPU集群动辄千卡、万卡起,而1台8卡的A800就需要百万人民币以上,所以这简直就是“钻石”铲子,幸亏是人类智能积累的语言文本知识的价值空间够大,否则即使像OpenAI那样炼出地球上最好的“丹”(tokens),也没有办法收回“炼丹炉”的成本啊。
在这篇范式新观察-下篇中,作为AI范儿A𝕀²·ℙarad𝕚gm范式框架迭代主导者,笔者将进一步深度解读shovels服务路径,以期为社区内外有志于“卖铲子”的服务商提供参考新视角。

▩A𝕀²·ℙarad𝕚gm范式中“卖淘金铲子“(Shovel)服务路径标志

“AI范儿的A𝕀²·ℙarad𝕚gm商业范式框架v4.0”

A𝕀²·ℙarad𝕚gm-𝕀ntell𝕚gence as a Serv𝕚ce v1-v4范式迭代

▩炼丹(pre-training) (v1. AIGC) - tokens as a service

▩挖矿(prompting) (v1.AIGC) - prompts as a service

▩化身(fine-tuning) (v2&v4. Models Anywhere&Anyone) - models as a service

▩具生(agents) (v3&v4. promptless) - agents as a service


△附:A𝕀²·ℙarad𝕚gm-𝕀ntell𝕚gence as a Serv𝕚ce v1-v4范式迭代路径

科学计算范式走向CPU&GPU混合计算

也许每个人心中都有自己的对互联网模式的认知。从个体来说,更多的感受还是消费互联网对于整个社会生活带来的翻天覆地的变化-数字化大背景下的信息化、以及今天以AIGC为代表的知识化(模型化知识压缩与解压)。

而在消费与产业领域的上游科学领域,也在发生深刻的范式变化。

"四种科学范式:经验、理论、计算和数据驱动。每种范式既受益于其他范式,也有助于其他范式"

作为人类努力的一部分,科学因历史环境而不断重塑。信息技术的进步所带来的 "数据洪流 "正在深刻地影响着西方研究科学的方式。实验科学、理论科学和计算科学也负责产生大量的数据,并能从新的视角中受益。1998年图灵奖获得者吉姆-格雷(Jim Gray)在其最后一次演讲中历史性地提出了这一观点:

▩科学探索的第四种新范式
“最初只有实验科学,后来有了理论科学,如开普勒定律、牛顿运动定律、麦克斯韦方程等。然后,对于许多问题来说,理论模型变得过于复杂,无法通过分析来解决,人们不得不开始模拟。现在,这些模拟产生了大量数据,同时来自实验科学的数据也大量增加。现在,人们实际上并不通过望远镜来观察。
科学世界已经发生了变化,这是毋庸置疑的。新的模式是先用仪器采集数据或模拟生成数据,然后再用软件进行处理,并将处理后的信息或知识存储在计算机中。科学家只有在这一过程的后期才能看到他们的数据。
这种数据密集型科学的技术和科技是截然不同的,因此值得将数据密集型科学与计算科学区分开来,作为科学探索的第四种新范式

△附:Gray J 2009 The Fourth Paradigm: Data-Intensive Scientific Discovery

四种科学范式之间经过修订的联系。从经验数据到基础理论,在计算模拟中得以实现,从而产生更多的数据。统计学习反过来又可以获得简单的现象学模型,有助于理论理解。

正是第四科学范式的提出,对于计算形态也提出了新的要求。

▩神经形态计算架构与Spike NN的发展(neuromorphic architecture & Spike Neural Nets)

随着摩尔定律的终结和Dennard扩展的结束,计算领域正越来越多地寻求新技术来实现性能的持续提升。神经形态计算机就是这样一种新型计算技术。神经形态一词是由Carver Mead在20世纪80年代末创造的,当时主要指脑启发计算的模拟-数字混合实现;然而,随着该领域的不断发展,以及DARPA Synapse项目和欧盟人脑项目等针对脑启发计算系统的大规模资助机会的出现,神经形态一词已开始涵盖更广泛的硬件实现。

神经形态计算机定义为非冯-诺依曼计算机,其结构和功能受大脑启发,由神经元和突触组成。冯-诺依曼计算机由独立的CPU和存储单元组成,数据和指令存储在后者中。而在神经形态计算机中,处理和存储均由神经元和突触控制。神经形态计算机中的程序是由神经网络的结构及其参数定义的,而不是像冯-诺依曼计算机那样由明确的指令定义。此外,冯-诺依曼计算机将信息编码为二进制数值,而神经形态计算机接收Spike作为输入,Spike出现的相关时间、幅度和形状可用于编码数值信息。二进制值可以转换为Spike,反之亦然,但进行这种转换的精确方法仍是神经形态计算的一个研究领域。

from "Opportunities for neuromorphic computing algorithms and applications"

https://www.nature.com/articles/s43588-021-00184-y

鉴于上述两种架构之间的对比特征(上图),神经形态计算机在操作上存在一些根本性的差异:

  • 高度并行操作:神经形态计算机本质上是并行的,所有神经元和突触都有可能同时运行;然而,与并行化的冯-诺依曼系统相比,神经元和突触执行的计算相对简单。

  • 协同处理和记忆:神经形态硬件中不存在处理和记忆分离的概念。尽管神经元有时被认为是处理单元,而突触有时被认为是存储器,但在许多实现中,神经元和突触既执行处理,又存储数值。处理和存储的搭配有助于缓解冯-诺依曼关于处理器/存储器分离的瓶颈,该瓶颈会导致可实现的最大吞吐量放缓。此外,这种搭配还有助于避免像传统计算系统那样从主存储器访问数据,因为与计算能耗相比,主存储器的能耗相当可观。

  • 固有的可扩展性:神经形态计算机具有固有的可扩展性,因为增加额外的神经形态芯片需要增加可实现的神经元和突触数量。可以将多个物理神经形态芯片作为一个单一的大型神经形态实现来运行越来越大的网络。这已经在各种大规模神经形态硬件系统中成功实现,包括SpiNNaker和Loihi。

  • 事件驱动计算:神经形态计算机利用事件驱动计算(即只有在数据可用时才进行计算)和时间稀疏活动来实现极其高效的计算8,9。神经元和突触只有在有尖峰需要处理时才会执行工作,而通常情况下,尖峰在网络运行过程中相对稀疏。

  • 随机性:神经形态计算机可以包含随机性概念,例如神经元的发射,以允许噪声。

尽管神经形态系统可能是部署Spike神经网络(SNN)的最终平台,但其分布式性质和对特定类型模型的优化使其成为开发SNN的笨重工具。相反,SNN模型倾向于在具有标准冯-诺依曼CPU架构的计算机或计算机集群上开发和模拟。

▩GPU成为标准冯-诺依曼CPU架构的计算机或计算机集群上开发和模拟SNN的首选

在过去的十年中,英伟达™(NVIDIA®)GPU加速器已经成为许多工作站中的常用设备,并已进入高性能计算领域,目前全球前十大超级计算站点中有50%都采用了该加速器。

在模拟高连接皮层模型时,GPU在速度和能耗方面优于当前的HPC和神经形态解决方案
在2018年的一项研究中,作者使用GeNN代码生成器在GPU硬件上重新实现了两个新皮质启发的、电路规模的点神经元网络模型。
根据之前在传统HPC硬件上运行NEST所获得的结果验证了GPU仿真的正确性,并将速度和能耗方面的性能与基于CPU的HPC和神经形态硬件的公开数据进行了比较。
使用单个英伟达™(NVIDIA®)Tesla V100加速器可以以接近0.5倍的实时速度仿真大脑皮层柱的全尺寸模型--比目前使用基于CPU的集群或SpiNNaker神经形态系统更快。
此外,作者还发现,在一系列GPU系统中,微电路仿真的解能量以及每个突触事件的能量比SpiNNaker或基于CPU的仿真低14倍之多。除了仿真速度和能耗方面的性能,模型的高效初始化也是一个重要问题,特别是在需要重复运行和探索参数空间的研究环境中。
因此,该研究介绍了在最新版GeNN中实现的一些新型并行初始化方法,并演示了这些方法如何进一步提高速度和能耗优势。

△附:https://www.frontiersin.org/articles/10.3389/fnins.2018.00941/full

在开发SNN时,需要更灵活的加速器来加速大规模SNN的构建、初始化和仿真。现场可编程门阵列(FPGA)是由大量基于查找表的逻辑块组成的器件,使用可编程结构连接。FPGA已被用于构建各种 "硬连线 "SNN加速器(Moore等人,2012年;Wang和van Schaik,2018年),但Naylor等人(2013年)的研究表明,FPGA还可用于开发更灵活、性能相当的可编程加速器。然而,尽管这类系统理论上可用于加速SNN的构建和初始化以及仿真,但FPGA在工作站中尚未普及,而且它们缺乏对浮点运算的硬件支持,因此不适合仿真某些常见类别的神经元和突触模型。

GPU架构专为具有大量细粒度并行性的高吞吐量应用而设计。它们用连接到高带宽外部存储器的大量浮点运算单元取代了现代CPU架构为提高性能而依赖的大型连贯缓存。可编程GPU最初是为了加速三维图形的渲染而开发的,这通常涉及到对每个像素进行相同的、独立的计算,例如计算其光照度。

GPU加速在SNN仿真中的应用也很有前景,目前有许多针对GPU的活跃SNN仿真器项目。CARLsim(Chou等人,2018)是一个基于C++的模拟器,使用英伟达CUDA(计算统一设备架构),但由于CARLsim不是基于代码生成的,没有CUDA专业知识的用户很难添加新的神经元和突触模型。EDLUT(Garrido等人,2011年)最初是一个基于事件驱动CPU的SNN模拟器,但现在已经发展成为一个CPU/GPU混合系统,同时支持时间和事件驱动模型。ANNarchy(Vitay等人,2015)是一个基于代码生成的模拟器,可将Python模型描述转化为多核CPU或GPU代码,重点用于混合速率和Spike模型。过去2-4年中开发较少的其他模拟器包括NCS6(Hoang等人,2013年)、Myriad(Rittner和Cleland,2016年)和NeMo(Fidjeland等人,2009年)(参见Brette和Goodman(2012年)的综述)。GeNN(Yavuz等人,2016年)是一个代码生成库,旨在促进GPU硬件上的加速SNN模拟。其设计目的是在灵活性(允许用户定义自己的神经元和突触模型)和为并行SNN仿真中不明显的并行阶段(如Spike传播)生成优化CUDA代码的效率之间取得平衡。

位于美国田纳西州的Oak Ridge国家实验室(ORNL)的超算平台Titan于2019年8月退役,Titan正是ORNL应科学计算范式的改变首个引入混合计算架构的超算平台:

Titan, Cray® XK7™
Titan是一个混合架构的Cray® XK7™系统,理论峰值性能超过每秒27,000万亿次计算(27 petaflops)。它包含先进的16核AMD Opteron™中央处理器(CPU)和NVIDIA® Kepler图形处理单元(GPU)。这种组合使泰坦的速度和能效分别是其前身美洲虎超级计算机的10倍和5倍,而能耗仅略有增加,物理占地面积相同。

泰坦 "拥有18,688个计算节点、710兆字节的总系统内存以及Cray的高性能Gemini网络。它的299,008个CPU内核可指导模拟,而配套的GPU可同时处理数百项计算。该系统缩短了解决问题的时间,增加了模型的复杂性,提高了模拟的逼真度。随着计算能力接近超大规模(即每秒百万亿次计算),泰坦帮助开启了科学与工程的新纪元。


△附:https://www.olcf.ornl.gov/olcf-resources/compute-systems/titan/
2022年5月,Titan后的新一代混合计算平台Frontier,以1.1 exaflops的性能赢得了第59届TOP500榜单的第一名--每秒计算量超过五亿次,或1018次--使其成为世界上最快的计算机,也是第一个实现exascale的计算机。
▩GPU在SNN与DNN上的精度区别(flops)
事实证明,GPU加速对于加速包括深度学习系统训练在内的许多其他任务也非常有用,而且GPU现在已被广泛应用于现代人工智能系统中。但是科学计算与现代人工智能系统中的深度神经网络计算最大的差别是浮点运算精度要求。
浮点运算,即flops,是衡量超级计算速度的方法。每个flop代表一个可能的计算,如加法、减法、乘法或除法。每个Frontier计算节点包含4个AMD MI250X。AMD MI250X的双精度峰值性能为53 TFLOPS,用于建模和仿真。每个MI250X包含2个GPU,其中每个GPU的峰值性能为26.5 TFLOPS(fp64 双精度),110个计算单元,以及64GB的高带宽内存(HBM2),可以以1.6TB/s的峰值访问。MI250X上的2个GPU与Infinity Fabric连接,带宽为200 GB/s(同时在每个方向)。

由于Frontier使用AMD的GPU,用Nvidia的CUDA语言编写的代码将无法正常使用。它们需要转换为使用HIP,这是AMD的GPU编程框架,或者应该转换为其他支持AMD GPU作为后端的GPU框架,例如OpenMP Offload, Kokkos, RAJA, OCCA, SYCL/DPC++等。
相比于在AI界的说起flop,总是有意无意的忽略精度,科学计算的flop总是说的最高精度的FP64,也即双精度。按照H100 SXM的FP64为34teraFLOPS,DG&Nat的仙女座炼丹炉2512片H100的算力为:85petaFLOPs(FP64),而InflectionAI的22000片H100算力为:748petaFLOPS(FP64)。
"作为世界上最强大的人工智能机器,Frontier的新颖架构也非常适合于提供前所未有的机器学习和数据科学见解和自动化,可以极大地提高我们对关键过程的理解,从药物输送到核聚变到全球气候。" ORNL计算和计算科学局的副实验室主任兼Exascale计算项目主任Doug Kothe说。
"Frontier标志着科学计算的超大规模时代的开始,"存放Frontier的ORNL橡树岭领导计算设施的科学主任Bronson Messer说。"将在Frontier上完成的科学将点燃创新的火花--以及我们以前甚至没有想到的新问题。"
▩超级计算集群的能源效率:Nvidia GPU更胜一筹
ORNL的这台新HPC还在Green500榜单上名列前茅,该榜单以每瓦特的性能来评估超级计算机的能源效率。Frontier的速度为62.68 gigaflops,或近630亿次计算,每瓦特。Frontier还在新的混合精度计算基准中名列前茅,该基准对常用于人工智能问题的算术精度的性能进行评估。
虽然HPC主流以AMD&HPE的硬件架构构建,但基于Nvidia的最新H100的GPU构成的高性能科学计算集群也以其更优的能源效率而出现,就在ORNL的Frontier Test & Development System (TDS) 在能源效率榜首不久,2022年11月Nvidia就窃取了AMD的超级计算机能源效率世界纪录:Nvidia基于Hopper的超级计算机在绿色500强名单中名列榜首。

首批基于Nvidia H100计算GPU的超级计算机尚未在绝对性能方面创造记录,但它们已经在每瓦特性能方面显示出其威力。
Flatiron研究所的Henri超级计算机,基于英特尔的Xeon Platinum 8362(Ice Lake),本周由Nvidia的H100计算GPU加速,首次进入Top500和Green500名单。此外,它还将运行AMD EPYC和Instinct MI250X硬件的AMD驱动的Frontier测试和开发系统从Green500榜单的首位拉下。

亨利(Henri)超级计算机(见上图),是基于Intel CPU和Nvidia GPU混合的联想服务器建造,它目前是Top500榜单中排名第405位的最强大系统,最高性能为2.04 FP64 PFLOPS,算力本身很难说令人印象深刻。难能可贵的是,该机器仅消耗31千瓦的电力,展示了65.091 GFLOPS/瓦的能源效率,创下了世界纪录。为了说明这个数字,Frontier TDS机器达到了62.684 PFLOPS/W,Frontier--世界上最快的超级计算机--得分是52.227 PFLOPS/W,而Lumi系统达到了58.021 PFLOPS/W。

按照今天的标准,亨利机器是一台相对简单的超级计算机:它使用联想现成的风冷ThinkSystem SR670 V2服务器,采用英特尔的32核至强白金8362处理器(共5920个内核)和80个Nvidia的基于Hopper架构的H100 80GB PCIe卡。当然,为一个相对较小的系统使用空气冷却可能会对其每瓦性能结果产生一些其他影响。然而,Nvidia的最新计算型GPU总体上提供了令人印象深刻的性能。
"这台超级计算机为做新型科学提供了机会,"Flatiron研究所科学计算核心的联合主任Ian Fisk说。"这是一台工作母机,我们将让我们的研究人员尝试新事物,推动发现。[......] [它提供了]非常高的性能和非常高效的性能,而不是特别奇特。只需要几个人就能把系统装进去。这种效率现在可以被更多的团体使用,而不仅仅是最大的超级计算中心"。
说实话,基于Nvidia的超级计算机(在许多情况下由标准服务器组成)在Green500名单中成为每瓦性能的冠军已经有一段时间了,因此,期待H100在这里继续Nvidia的胜利是符合逻辑的。
同时,基于AMD EPYC和Instinct MI250X的机器在每瓦性能指标方面也不是局外人,特别是如果你考虑到由AMD技术驱动的Frontier、Lumi、AdAstra、Setonix和Dardel机器的规模。此外,在绿色500榜单的前10名超级计算机中,有6台使用了AMD的CPU和GPU,3台由Nvidia的计算GPU加速,1台使用英特尔基于Xeon Platinum 8260M的节点。
▩科学计算的新尝试:ORNL的混合计算模式
Frontier的9400多个节点中的每一个都配备了第三代AMD EPYC CPU和四个AMD Instinct MI250X图形处理单元,即GPU。自已于2019年退役的Titan超算平台开始,就将传统的CPU与GPU结合起来,加速领导级科学超级计算机的性能,这表明了ORNL及其合作伙伴开创的混合计算模式又上了一个新台阶。
Frontier超级计算机建成于COVID-19期间,包括来自AMD和HPE的一些世界最先进的技术。
每个节点包含一个优化的第三代AMD EPYC处理器和四个AMD Instinct MI250X加速器,全系统共有9472个CPU和37888个GPU。由于EPYC处理器和Instinct加速器的一致性,这些节点为开发人员提供了应用程序编程的便利。
HPE的Slingshot互连是世界上唯一为HPC和AI解决方案设计的高性能以太网结构。通过连接几个核心组件以提高性能(如CPU、GPU、高性能存储),Slingshot可以实现更大的数据密集型工作负载,否则会受到带宽限制,并提供更高的速度和拥堵控制,以确保应用程序顺利运行。由于这种独特的配置和扩大的性能,团队采取了一种深思熟虑的方法,将互连扩展到像Frontier这样由74个HPE Cray EX机柜组成的大规模超级计算机,以确保各应用的可靠性能。
HPE的一个I/O子系统将在今年上线,以支持Frontier和OLCF。该I/O子系统具有系统内存储层和Orion,它是一个基于Lustre的增强型全中心文件系统。系统内存储层将采用通过PCIe Gen4链接连接的计算节点本地存储设备,提供每秒超过75兆字节的峰值读取速度,每秒超过35兆字节的峰值写入速度,以及每秒超过150亿次随机读取输入/输出操作。Orion中心范围内的文件系统将提供约700PB的存储容量和每秒5TB的峰值写入速度。
作为下一代超级计算系统和世界上最快的开放科学系统,Frontier也是液体冷却的。这种冷却系统通过消除对噪音较大的空气冷却系统的需求,促进了更安静的数据中心。
与之前的两台计算机一样,Frontier也依赖于图形处理单元(或称GPU,大多数消费者都知道它是视频游戏的显卡)和CPU的组合。从2012年的泰坦开始,高性能计算机中增加了GPU,由于其功耗低,对超级计算机的能源效率来说是一个游戏规则的改变。
从编程模式角度,由于Frontier使用的是AMD GPU,用Nvidia的CUDA语言编写的代码将无法正常工作。它们需要转换为使用HIP,这是AMD的GPU编程框架,或者应该转换为其他支持AMD GPU作为后端的GPU框架,例如OpenMP Offload, Kokkos, RAJA, OCCA, SYCL/DPC++等。
▩科学计算的新尝试:GPU编程与新应用,新计算范式的门槛不仅仅是硬件
ORNL也认识到,研究人员需要一些帮助来确定如何使用这个新平台。他们这样做的一种方式是通过OLFC的加速应用准备中心,或CAAR。Titan(ORNL前2代HPC)是第一个真正做混合节点计算的设施:GPU加CPU。这对习惯只做过CPU上的科学计算的研究人员来说是一个小小的挑战:对GPU进行编程。GPU非常快,相比之下功率极低,但是很笨的属于GPU的编程,必须非常具体地告诉他们该怎么做。在ORNL为Titan做了适配,然后为Titan的下一代Summit也做了,现在为Frontier也在做同样的事。因此,我们为CAAR挑选了8个计算场景,这些团队为充分利用Frontier的新的混合计算能力,做了非常好的准备,能够在第一天就利用Frontier的优势。
这些项目涉及从基础核物理到地下水流再到分子动力学的方方面面。埃文-施耐德是匹兹堡大学物理和天文学系的助理教授。她在2012年为超级计算机Titan开发了Cholla代码,以模拟银河系的演变,如果没有超级计算机,你确实无法观察到这种情况。
我们在天文学中对观测的一个限制是,你只能得到一种正在发生的事情的快照。对。因此,事物在宇宙中的演变,在宇宙的长时间尺度上。所以你想了解像我们银河系这样的星系是如何形成的。对星系的观测,比如我们的银河系,是有帮助的,对吗?但是你不能观看实时发生的演变。你所能做的就是去获得一堆我们认为看起来像银河系的星系的图像,试着把它们随着时间的推移堆积在一起,然后回溯这个过程。因此,我们不是仅仅拥有该星系随时间变化的快照,对吗?我们将把我们需要的所有物理学放入我们的模拟软件,设置一些看起来像银河系的东西,然后按下播放键,让它运行,只是观察发生了什么。
在Frontier上运行代码将能够实现更多像这样的洞察力,因为它所产生的可视化将比在泰坦上产生的更多细节--或分辨率--。
限制性因素之一是我们可以得到的分辨率。因此,这些模型的工作方式,基本上是你可以想象采取一些三维空间的体积,也许是包含我们感兴趣的星系的空间区域,然后把它分成各个单元。每个单元可以说是一个小立方体。因此,你有一个大立方体,被分成许多许多小立方体。然后我们从本质上解决微分方程,告诉我们这些小单元中的物质属性如何随时间变化。而这是在一天结束时,所有这些,你知道,模型正在做的。对。把一些空间区域,我们把它分割开来。我们正试图了解该空间的物质属性,并根据这些基于物理定律的方程式,随着时间的推移改变它。我们需要非常大的计算机来做好这件事的原因是,你可以想象,如果你有一个非常低分辨率的图像,情况完全一样。如果你能在该图像上增加更多的像素,它就会变得更清晰。

企业计算范式的本质改变及发展

Marc Andreessen,高科技创投巨擘a16z的掌舵人,也是a16z的灵魂人物,安德森可能更出名的角色是作为一位公共知识分子,在这个角色中,他撰写了三篇开创性文章:《软件正在吞噬世界》、《现在是建设时候》以及仅仅几周前发布的《人工智能将拯救世界》。

从当年那句Slogan“Software are eating the world”,到这次“AI will save the world”,背后老安德森及其庞大对投资团队实际上前脚虽想踏入这波AI,但后脚仍带着web3的黑泥,某种程度上是错过了大模型这波创投的提前布局。即将迎来的显然是Models Anywhere & Anyone的世界,“Models are Eating Software!”,企业计算范式已经在发生本质的变化。

▩混合计算范式从科学领域来到了企业计算领域

"Multicomputation:理论科学的第四范式"

▩Multicomputation:理论科学的第四范式

  • 本文介绍了一种新的建模和理论科学的范式,基于多计算的概念,将计算的概念推广到允许多个交织的历史线程。
  • 作者声称这种范式可以解决物理学、生物学、社会科学和其他领域的许多长期存在的问题,以及提出新的探索方向和可能性。
  • 作者回顾了理论科学的前三种范式:结构范式,它使用简单的元素和逻辑推理来描述世界中的事物;数学范式,它使用数学方程及其解来描述现象;以及计算范式,它使用简单的程序及其行为来模拟复杂系统。
  • 作者解释了计算范式如何导致他的物理项目,该项目旨在基于一个简单的规则来寻找物理学的基本理论,该规则生成了一个多计算的超图系统。他还讨论了这个系统如何重现已知物理学的许多特征,如量子力学、相对论和引力,以及提出新的现象和预测。
  • 作者然后将多计算的概念推广到其他领域,如生物学,他提出生命可以被看作是探索多计算历史不同分支的过程。他还将多计算应用于社会科学,他认为人类历史可以被建模为一个因果影响和反事实的网络。他还探索了多计算如何用于研究人工智能、意识、数学、逻辑和哲学。
  • 作者总结了多计算范式的一些挑战和机遇,如寻找有效地模拟和分析多计算系统的方法,开发新的可视化和交互方式,以及发现从中产生的新原则和模式。他还邀请读者加入他探索这一理论科学新领域。

△附:https://writings.stephenwolfram.com/2021/09/multicomputation-a-fourth-paradigm-for-theoretical-science/

斯蒂芬-沃尔夫拉姆(Stephen Wolfram是Mathematica、Wolfram|Alpha和Wolfram语言的创始人;《一种新的科学》一书的作者;Wolfram物理项目的发起人;Wolfram研究公司的创始人兼首席执行官。四十多年来,他一直是开发和应用计算思维的先驱,并对科学、技术和商业领域的许多发现、发明和创新负有责任。

在他2021年的这篇文章中,从科学作为一个领域的计算范式改变来说,Multicomputation带来的底层计算基础设施的变化,则是CPU&GPU协同的混合计算。如同这种科学计算领域的范式改变,在企业计算领域,以OpenAI GPT为代表的LLM大模型带来了计算范式的改变。

前面提到Coreweave在GPU算力云服务的崛起,包括为硅谷AI创投组合DG&Nat搭建仙女座GPU集群-2512片H100的炼丹炉;赶上了这波大模型基础设施浪潮的微软Azure,一直对为OpenAI搭建的GPU算力集群规模秘而不宣,对外宣传也含糊的提到达到了万片规模;此前Elon Musk以X Corp的名义购买了1万片H100。

就算力集群规模来讲,Inflection宣称他们的集群仅次于位于田纳西州的Oak Ridge国家实验室(ORNL)的Frontier算力集群。

▩OpenAI的AGI路线分析看企业计算范式改变

AI范儿AI²Paradigm范式框架中,一直将OpenAI的通往AGI的捷径作为主线发展路径研究,这也是算力服务范式的演进代表。

随着最近OpenAI释放的code Interpreter的代码沙箱服务,受到了广大用户的欢迎,从企业计算范式维度来看,代码运行环境是完全的传统CPU计算,GPT-4+Interpreter服务,显示了企业计算领域GPU&CPU混合计算范式逐渐浮现,可以想象的是,随着model anywhere&anyone的浪潮逐步席卷而来,企业计算需求将呈现如下特征:

炼丹·预训练阶段-GPU集群算力(GPU千卡以上):根据基座模型参数大小,集群稳定性,集群资源完全独占型

化身·微调阶段-GPU集群+单GPU节点(GPU8卡~百卡):根据下游任务的难度而定,预计会有微调流水线平台服务出现,GPU算力可以分时使用

挖矿·推理阶段-混合算力多GPU节点组合+单GPU节点+CPU计算池(GPU8卡~数十卡,CPU计算池):根据最终用户规模,有GPU节点弹性需求,GPU节点完全独占型,CPU可池化复用。

正如《新观察-上篇》所分析的那样,以上企业计算的新特征,对于传统云厂商来说,在企业通用计算服务领域积累的技术、产品和服务、运营上的优势,完全使不上劲,甚至之前高昂的沉没成本,在今天大模型算力服务上,成为不可逾越的包袱。这也正是上篇中web3时代的挖矿公司以低成本提供微调和推理算力服务的优势所在,对于炼丹公司也以低成本的集群托管模式,直接参与到大模型创投新范式的利益闭环中。

▩传统科学计算领域的HPC服务商的机会

当前的Nvidia的GPU在软硬件层面,对于大模型企业计算范式的各个阶段都有深度的优化和适配。

在关键的预训练阶段,主流的Nvidia 80GB 显存的 GPU 卡中无法完成训练,需要利用张量并行和流水线并行等模型并行手段将模型切分到多台 GPU 服务器的多块 GPU 中,同时为了得到更强大的模型能力,基于 Chinchilla 模型能力缩放法则,参数量越大,所需的训练数据量越大,训练计算量越大,单次训练耗时越长,为了缩短单次训练的时间,加快模型的迭代速度,通常还会采用数据并行策略,将训练数据切分由多组 GPU 服务器进行并行训练。在训练过程中 GPU 服务器之间会频繁进行海量的数据交换(参数梯度同步),需要 GPU 节点间有无阻塞的高性能计算网络。

庞大的训练数据集(通常几 TB 至几十 TB),在训练过程中需要被所有 GPU 服务器频繁的访问读取,同时因为超长的训练时间,为了保障训练异常中断后可恢复需要定期进行 Checkpoint 的写入(Checkpoint 写入过程中无法进行训练,所以 Checkpoint 写入耗时越短越好),这些需求需要高性能的并行文件系统提供支持。

综合看大模型的分布式训练,需要大规模的算力高性能计算网络高性能的并行文件系统,以及超长的单一作业运行时间,这是一个典型的高性能计算(HPC)场景。

国内提供科学计算服务的除了国家队中的众多超算中心,更有传统芯片大厂高性能计算背景的专业公司,深耕 HPC 行业十多年,从高性能计算应用运行特征采集、分析,高性能计算集群建设、维护,高性能计算集群的系统调优和高性能计算应用的应用性能调优到超算云、行业云、智算云的运营服务,贯穿高性能计算的完整生命周期的各个方面都积累了丰富经验,沉淀下大量的最佳实践。

这些公司运营的的高性能计算集群(无论 CPU 或 GPU)主要基于 InfiniBand 高性能计算网络和高性能的并行文件系统进行构建,可为大规模并行计算提供极致的节点间通讯性能和强劲的高并发数据读写。为保障大规模并行计算的长时间稳定运行,需要健壮稳定的基础设施。

除此之外,这些公司多年来所参与建设、维护的高性能计算集群在正式投入使用前都会进行严格的性能基准测试和压力测试,保证投入使用的资源稳定且性能符合标准。同时建立了完备的计算资源、InfiniBand 高性能计算网络和高性能的并行文件系统的监控和质量监测体系,持续对高性能计算集群进行健康检查和性能监测,还有行业内首创的应用运行特征采集和持续分析,及时发现“拖慢”整体计算效率的“慢节点”和“慢网络”,保证计算性能持续高效。

与此同时这些公司还建设有一支经验丰富且响应及时的客户支持团队,可为用户提供小到系统和软件安装,大到软件代码调试调优的全面服务。

参考

说明:本文在公众号里标注为“原创”仅为防止未经许可的转发,本文引用内容的版权属于原作者和原媒体。

-stephenwolfram:Multicomputation- a fourth paradigm for theoretical science

https://writings.stephenwolfram.com/2021/09/multicomputation-a-fourth-paradigm-for-theoretical-science/

-ORNL:Frontier User Guide

https://docs.olcf.ornl.gov/systems/frontier_user_guide.html

-nature computational science: Opportunities for neuromorphic computing algorithms and applications

https://www.nature.com/articles/s43588-021-00184-y

-frontiersGPUs Outperform Current HPC and Neuromorphic Solutions in Terms of Speed and Energy When Simulating a Highly-Connected Cortical Model

https://www.frontiersin.org/articles/10.3389/fnins.2018.00941/full


END


扫码加群,

立变AI🍚!


AI范儿读者群


👇关注、标星哦~

那些prompt了我的,

是否也prompt了你...

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存