查看原文
其他

新观察-上篇:大模型算力服务让云大厂难使劲,超算和矿机公司再逢春-AI²Paradigm之“Shovels”服务路径范式解读

ai汤源 AI范儿 2023-08-22

图|Alvin Foo
文|汤源
AI Gold Rush Rule
经典淘金规则今天的AI狂潮中仍然适用

题记

AI范儿一直关注硅谷创投范式的新变化,最近代表这波AI创投两极¹的Reid Hoffman及旗下VC机构Greylock,以及DG&Nat天使投资组合动作频频,引人关注。
本章节注释:AI创投两极¹参见AI范儿公众号文章:新范式创投秘笈解读-引领硅谷开源大模型创投范式“第3极” -「AI²Paradigm」:暨DG&Nat专访-有关AI民主化,有关硅谷大模型三极鼎立背后的创投推动力:大模型创投以Google/Meta/Miscrosoft等传统大厂为1极,以OpenAI LP/Anthropic等新创AGI/ASI独角兽为另1极(背后是类似Reid Holfman及其VC Graylock),无疑DG&Nat在AI开源及初创业界的这一系列布局,可以算做是大模型创投范式“第3极”。
▩专属AI的新“AWS” - CoreWeave承建DG&Nat的仙女座“炼丹”炉
DG&Nat,作为AI创投两极¹之一,以AI民主化为出发点、形成AI开源社区背后的一股不可忽视的创投力量;在之前6月中旬的公众号文章中也提到,作为其创投范式三基石之一的仙女座GPU算力集群 - 由2512片英伟达H100构成,约10exaFLOPS(FP8),专为其孵化器(aigrant)的创业团队、以及投资的开源大模型相关企业使用,正所谓“肥水不流外人田”,一如当初微软投资OpenAI时强制要求其使用自家Azure Cloud的GPU算力一样,锁定这波大模型创投的最大成本开支项。

“Nat相关推文显示为仙女座GPU算力集群采购的Nvida H100已到货并由Coreweave公司承建“

7月初Nat Friedman的一则推文显示其2512片H100已经到货,而且发现其集群托管服务商也是CoreWeave,并且在4月份的融资中,获得NVIDIA的投资以及DG&Nat的跟投,并称之为一个专属AI的新"AWS"诞生了。

“早在4月份DG已经投资并称CoreWeave为专属AI的新AWS“

▩全球最大GPU集群-CoreWeave承建Inflection超级“炼丹炉”

Reid Hoffman及旗下的VC机构Greylock,在去年参与了Inflection AI的创立,Reid个人在去年因避免利益冲突辞任OpenAI的董事;Inflection AI在2023年6月底的这次13亿美金融资,Reid拉来了更多大佬跟投:Bill Gates 和 Eric Schmidt,Eric则投资了早期从OpenAI出走的Anthropic。

“CoreWeave作为Inflection AI的合作伙伴承建其全球最大H100集群“

作为早期发起OpenAI的投资人之一,Reid显然看到了OpenAI商业化后的潜力;随着ChatGPT与GPT-4等一系列服务的发布,OpenAI迅速成为AGI范式里估值达300亿美金的大模型超级独角兽;
同时Reid也看到微软作为OpenAI主要投资方这种大模型投资范式的价值:首先微软自家产品受益于一系列基于GPT-4的copilot功能的推出;其次OpenAI在大模型预训练以及服务推出后推理模型部署运行,都是在Azure Cloud上,大部分投资资金都作为OpenAI的云算力消耗收回了。
这是这波大模型创投全新的范式。在Inflection AI的这一轮融资,还宣布了一个由22000片H100组成的全球最大GPU集群,这家成立一年多、定位于面向个人智能体的创业公司,在5月份发布了自研的LLM基座模型:Inflection-1,号称在大范围基准测试中性能超越一众同级基础模型如:GPT-3.5、LLaMA、Chinchilla以及PaLM-540B。在这轮融资的同时,面向个人的智能服务:PI.com也同步推出。
Infection AI的创投型态很难用AI²Paradigm中任何一种来概括,而是一种全新的范式组合创新²:首先它有闭源自研的LLM基座模型:Inflection-1,这一点类似OpenAI;它“炼丹”做大语言模型预训练,但是并不像OpenAI那样卖“tokens”,而是直接在它的平台上卖面向个人的“models”(应该会采取量化稀疏等方式降低模型推理部署运行成本,也可以提供多个不同参数量级的模型),这一点类似“蒸馏”模式的models anywhere&anyone;但又不止于此,在models之上绑了旗下产品heypi,又是可以根据每个用户知识需求来自我学习迭代,但和Character AI的虚拟角色prompt互动又有区别;有点类似LLM Models驱动的twitter、substack、quora或者多模态的perplexity AI问答引擎?
而对于当年Bill Gates说过:We talked about a computer on every desk and in every home。也许Reid Hoffman也是类似这样打动了老Gates,这里脑补了一个画面

Reid Hoffman: Bill, we are doing a model for every single person. Deal or not ?

Bill Gates: Deal! Why not!
本章节注释:范式组合创新²参见AI范儿公众号文章深思考-英伟达不止卖“铲”;InflectionAI不卖“丹”: PIA范式新路径解读-AI²ParadigmV3.5框架图发布拥有自研LLM基座模型,Models Anywhere&Anyone 驱动的面向个人的知识型智能体(PIA:Personal Intelligent Agents);利用自“炼丹”的闭源基座模型(Inflection-1),“蒸馏”后形成每个人一个低成本推理model,利用model和用户交互(也是一种“挖矿”prompt)的过程学习发展,形成一个信息知识型的个人“智能体”服务(PIA)。

▩CoreWeave成为AI范儿AI²Paradigm范式中“Shovel”服务路径标志

“AI²Paradigm v4.0当前关注点-shovels服务路径“

正是以上两个投资案例的跟踪分析,CoreWeave这家公司进入了AI范儿AI²Paradigm范式研究视线(上图中紫色方框内)。图示中左上角区域蓝色箭头线条代表这波大模型淘金浪潮中的“卖铲子”(shovels)服务路径,包括创投三极背后的硬件基础设施与软件基础设施。本系列范式解读文章分为上、下两篇,针对算力GPU芯片厂商及延伸的GPU算力云的商业现象作出深度解读。

此前Nvidia官方blog里提到,Inflection由CoreWeave托管部署的3584片H100的炼丹炉已投入使用,这次的融资,Nvidia也作为投资方(而同时Nvidia也参与了Coreweave的B轮融资),与CoreWeave一起,将Inflection AI的炼丹炉火力扩大数倍至22000片,成为全球唯二的算力集群。但就GPU算力集群来讲,Inflection宣称其集群规模比5月份meta宣传的16000 GPU集群还要大不少。

“相关信息显示Inflection AI的22000片H100为全球唯二算力集群“

矿机公司的第二春:CoreWeave

CoreWeave专注GPU云服务,是一家专业的云计算供应商,在业界最快、最灵活的基础设施之上提供大规模的GPU。
CoreWeave如何全身心投入Nvidia以应对云大厂的挑战

“Photo by Laura Ockel / Unsplash” (May 25, 2023)
(https://www.runtime.news/how-coreweave-went-all-in-on-nvidia-to-take-on-big-cloud/?utm_content=250424223&utm_medium=social&utm_source=twitter&hss_channel=tw-979803443681349632)

CoreWeave是以加密货币挖矿业务起家的,它正在采取一种新的方法来提供云服务:它专注于以极具竞争力的价格为生成性人工智能热潮提供原始成分-GPU算力。

你不是每天都能遇到一家愿意并能够挑战三大云基础设施供应商的初创公司,但随着新的人工智能春天的到来,CoreWeave正在进行尝试。

AWS、微软和谷歌云在过去十年里建立了一系列令人难以置信的云计算服务和巨大的数据中心,旨在复制几乎所有潜在客户可以自己完成的事情。CoreWeave最初是一个加密货币采矿业务,正在采取完全相反的云服务方式:它专注于以极具竞争力的价格为生成性人工智能热潮提供原始成分-GPU算力集群服务。

"CoreWeave的首席技术官Brian Venturo在最近的一次采访中说:"当三巨头正在建设一个云区域时,他们正在为其用户群的数十万或数百万我称之为通用的用例提供服务,而在这些区域,他们可能只有一小部分容量被剥离出来用于GPU计算。" 在这些环境中,什么应该是真正一流的工作负载,很大程度上有点像容量规划的事后诸葛。"

Brian Venturo, Chief Technology Officer at CoreWeave)

这家公司--直接来自新泽西州郊区--自从转向云端GPU计算以来,已经筹集了3.71亿美元,包括上个月的2.21亿美元的融资。该轮融资得到了英伟达公司的支持,随着2023年的人工智能炒作狂潮对其芯片产生前所未有的需求,英伟达公司一直在努力跟上其GPU的需求。

"现在我们处于一个位置,(在那里)我们正在为地球上一些最大的人工智能实验室进行大规模的建设,其他云供应商只是不能像我们这样快速地做,"文图罗说。"这已经很疯狂了。"

CUDA shoulda |Nvidia的GPU一直是过去十年中两个最大的技术繁荣的引擎:加密货币和人工智能

早在2007年,这家芯片公司就有先见之明,开发了CUDA编程模型,使之更容易为其GPU编写软件,当时主要用于游戏。然而,在接下来的几年里,很明显,与英特尔和AMD的CPU相比,GPU是反复并行执行特定类型程序的伟大工具,后者的设计是为了预测各种各样的计算需求。

"我非常相信,Nvidia围绕CUDA和人工智能企业的开放生态系统是Nvidia平台的一个巨大的护城河,就在这上面做了这么多工作,"文图罗说。"与AMD或(谷歌的)TPU或AWS的训练和加速器(芯片)相比,在Nvidia基础上流畅运行和构建的开发人员多得多。"

加密货币矿工意识到,他们可以利用GPU进入比特币--以及后来的以太坊--采矿热潮的底层,CoreWeave开始向这股热潮出售硅镐和铲子。

"2016年,我们买了第一台GPU,插上电源,把它放在曼哈顿下城办公室的台球桌上,俯瞰东河,在以太坊网络上开采了我们的第一个区块,"CoreWeave首席执行官Michael Intrator在2021年一篇概述公司历史的博文中写道。当时,Intrator和Venturo在一家名为Hudson Ridge资产管理公司的纽约投资公司工作,该公司押注天然气期货,似乎已不再活跃。

文图罗说,随着CoreWeave开始在新泽西州郊区的一个车库里建立稳定的GPU硬件,以扩大其采矿业务--该业务一度是美国最大的以太坊业务--它开始听到其他公司希望获得GPU,但无法支付大云的价格。

"一个友好的同事找到我们说,'嘿,我们知道你有很多计算能力;我有一个朋友需要为他们的文字冒险游戏运行推理,'"文图罗说。"很快就变得非常明显,人们没有机会使用规模化的GPU基础设施来运行我称之为负载跟随型的工作负载,"或者说,工作负载可以随着需求的变化迅速增加和减少。

Nvidia也注意到了这一点,并与CoreWeave建立了伙伴关系。这种关系帮助这家初创公司获得了机器学习训练和推理工作负载所需的珍贵GPU,而此时加密货币的热潮正在消退,以太坊完成了 "合并",这使得挖矿的计算能力变得无关紧要。

Boomtown现在有150多名员工,CoreWeave专注于为初创企业和私人人工智能实验室建设云基础设施,在新泽西、拉斯维加斯和芝加哥有三个数据中心在运行。文图罗说,该公司目前有1300个客户,比去年同期的约300个增加数倍。

CoreWeave的主要业务包括按小时租赁GPU,包括最新的Nvidia H100 GPU(可能很难找到),但也包括每小时运行成本低得多的旧版本。该公司将为大客户建立定制的私有基础设施,而其他客户则在完全由CoreWeave管理的裸机服务器上租赁GPU(和一些传统的计算)。

大型人工智能机构或跨国企业客户可能不会发现CoreWeave的基础设施足以满足他们的需求,但Venturo说,该公司满足于为那些价格和响应能力最重要的客户提供服务。根据Andreessen Horowitz的分析,CoreWeave的定价远远低于客户在AWS、微软、谷歌甚至甲骨文购买GPU的价格,甲骨文一直在积极争取有价格意识的AI客户。

随着今年年初对生成性人工智能技术和研究的需求爆炸式增长,这种方法正在得到回报。"两个月前,一家公司可能还不存在,而现在他们可能有5亿美元的风险投资资金。而对他们来说,最重要的事情是确保获得计算资源;在他们拥有计算之前,他们无法推出他们的产品或开展他们的业务,"文图罗说。"我们的组织已经建立起来,以同样的速度,以同样的紧迫感,与这些人一起行动。"

云大厂的危机-AWS们将如何失去计算的未来(参考semianalysis)

了解CoreWeave在这波AI狂潮中崛起的秘诀之后,让我们将目光投向AWS-这个独步云计算时代的大厂,是如何崛起又如何眼看失去智能计算的未来。

尽管亚马逊的电商业务内部需求远小于谷歌、微软、Meta和腾讯,但其拥有的服务器数量却超过了世界上任何其他公司。亚马逊网络服务(AWS)长期以来一直是云计算的代名词。AWS通过提供可扩展、可靠、低成本的计算和存储解决方案,迎合创业公司和企业的需求,在市场上占据主导地位。这一引擎推动亚马逊成为世界上最杰出的计算公司,但这种情况正在发生变化。

▩AWS当初崛起正是引领了企业应用计算范式改变

亚马逊是一家出色的技术公司,但在某些方面还存在不足。技术实力、文化和/或商业决策将阻碍他们像前两个阶段一样抓住云计算的下一个浪潮。笔者在过去10年几乎完整的经历了云计算的三个阶段,亚马逊在前两个阶段的持续主导地位,并不能保证他们在未来的计算之战中占得先机。

企业软件的构建范式变革催生云服务随着亚马逊零售业务规模的不断扩大,其90年代的单体软件实践开始受到限制。梅特卡夫定律(Metcalfe’s law)在某种程度上适用;每增加一项服务或开发人员,复杂性就会以n^2的速度增长。即使是简单的更改或增强也会影响许多下游应用程序和用例,需要大量的通信。因此,亚马逊不得不在一年中的某个时间点冻结大部分代码变更,以便在假日季节专注于错误修复和稳定性。

继微软用人的方式(增加Program Manager)一定程度缓解企业软件复杂性问题后多年,亚马逊也遇到了同样的问题;但他们在遇到这些问题时采取了截然不同的方法。亚马逊并没有促进团队之间的沟通,而是试图利用 "硬化接口 "来减少沟通。他们从这种单一的软件开发模式转向了面向服务的架构。要明确的是,其他公司和学术界也在实施这种做法,但没有人像亚马逊那样强烈地采用这种技术。

亚马逊早期员工史蒂夫-耶格(Steve Yegge)回忆了亚马逊的这一关键时刻。以下是他在加入谷歌后抨击亚马逊的备忘录的一部分内容,这部分内容无意中被分享到了网上。

▩有一天,杰夫-贝索斯发布了一项任务指令(mandate)。当然,他经常这样做,每当这种情况发生时,人们就像被橡皮锤敲打的蚂蚁一样争相恐后。但有一次--我想是在2002年左右,前后约一年的时间--他发布了一项如此引人注目、如此庞大和令人瞠目结舌的任务指令,以至于他的所有其他指令看起来都像是不请自来的同等奖赏。
他的 "大任务 "大致如下:
1、从今以后,所有团队都将通过服务接口公开其数据和功能。
2、团队之间必须通过这些接口进行沟通。
3、不允许任何其他形式的进程间通信:不允许直接链接,不允许直接读取其他团队的数据存储,不允许共享内存模式,不允许任何后门。唯一允许的通信方式是通过网络调用服务接口。
4、使用什么技术并不重要。HTTP、Corba、Pubsub、自定义协议--都无所谓。贝索斯不在乎。
5、所有服务接口,无一例外,都必须从底层设计成可外部化的。也就是说,团队必须规划和设计出能够向外部世界的开发人员公开的接口。没有例外。
6、不这样做的人将被解雇。
7、谢谢,祝您愉快!
哈,哈!在座的150多位前亚马逊员工当然会马上意识到第7条只是我的一个小玩笑,因为贝索斯绝对不会在乎你们的一天。
以上就是贝索斯式“咆哮”(Rant)全文


△附:https://www.semianalysis.com/p/amazons-cloud-crisis-how-aws-will

这篇“咆哮”最有影响力的部分是第5条,即他们必须能够将这些加固接口外部化。这算是AWS的在2002年的起始。

从那时起,就开始了竞赛!以类似的方式抽象出计算和存储硬件是合乎逻辑的发展。由于许多团队一直在构建服务,并且被告知如果他们与其他团队交流就会被解雇,因此无法想象IT部门如何集中规划服务器需求以及计算和存储需求的增长。随着团队服务在内部的普及,他们需要能够为任务提供硬件。

这些想法又花了大约4年时间才得以实现,并成为AWS对外的公共产品:VM和S3。

亚马逊于2006年推出存储服务S3。随后不久,又推出了计算服务EC2。2009年,提供关系数据库服务。然后是Redshift和Dynamo DB。亚马逊与客户共同发布的重要版本多达数百个,甚至比任何竞争对手都要早。重点是,这个时代的特点是AWS拥有比其他任何人都更好/更多的产品、应用和服务,以及更好的文档。每当Google Cloud或Microsoft Azure推出新产品时,亚马逊都会领先很多步,而且/或者更容易使用。

虽然这是事实,特别是在云计算的初期,而且在某些类别中仍然延续至今。AWS出现的故事和生命周期仍在上演,尽管差距已经明显缩小。亚马逊让人们用信用卡支付的模式打破了6位数或7位数服务合同的传统业务,并且仍在继续。第一波云计算浪潮的长尾效应还在。

规模让AWS所主导云计算产业随着上个十年中期的发展,大多数财富500强公司也开始向云计算迁移。随着云计算市场的成熟,其他公司也认识到了这一机遇,并开始在其云产品上投入巨资。特别是微软Azure,利用其企业友好型方法成为强有力的竞争者。尽管谷歌云平台最初由于缺乏商业重点而难以获得市场份额,但它后来改进了产品,并将很快实现盈利。

竞争只会变得更加激烈和严峻,但亚马逊还有一张王牌:规模。我们可以从两个方面来看待这种规模优势

首先,亚马逊在云计算领域的规模和影响力远超其他公司。云服务提供商需要一定的规模来利用其规模优势以较低的价格购买硬件,并摊销其软件和硬件设计成本。

其次,云服务提供商还需要准备一定数量的容量,供他人随时使用。这一点尤为重要,因为云服务提供商无法集中规划其服务器的使用率。即使是长期合同,也经常会在何时使用信用额度方面存在高度不确定性。同时,云服务提供商必须拥有较高的利用率,才能获得足够的投资资本回报(RoIC)。规模越大,越容易实现高利用率,并有足够的冗余容量供客户增减。

由于云市场的规模意味着多家公司可以达到最低可行临界质量,因此这种透镜的持续时间大多有限。可以说,亚马逊在2010年代早期和中期就迎来了“曲棍球时刻”。2012年,亚马逊的AWS自成立以来共进行了23次降价,到2015年,他们共进行了51次降价。2017年之后,尽管竞争开始白热化,但公开降价明显放缓,尽管私人两位数%的折扣非常普遍。至少,微软和谷歌也早已实现了这种规模。在专业应用领域,其他云也达到了有意义的规模,如CDN领域的Cloudflare或人工智能服务器领域的甲骨文。

▩Hockey Stick Moment
曲棍球杆时刻 "是指当你过去决定的复合后果以显著的方式影响你的生活时所发生的事情。“
曲棍球杆 "是指当增长以指数形式而非定期或算术形式发生时,图表所呈现的形状。”

△附:来自google搜索结果

专用芯片|更重要的规模角度是从专用半导体的角度来看,无论是公司内部还是与生态系统中的合作伙伴合作。亚马逊和谷歌是这一转型的领头羊,但每家超大规模公司都已开始部署至少一些内部芯片。这包括从网络到通用计算再到ASIC。

Amazon Nitro-将这些工作负载从服务器CPU内核移至定制的Nitro芯片,不仅大大降低了成本,而且由于消除了与hypervisor相关的嘈杂邻居问题(如共享缓存、IO带宽和功率/热预算),还提高了性能。

通过在hypervisor管理层和服务器之间增加空气间隙,客户还可获得安全性提高的好处。这种物理隔离消除了来自恶意租户的侧信道升级攻击的可能载体。

除了管理程序卸载的节省,随着Nitro的发展,它还在许多网络工作负载中发挥了核心作用。例如,可以卸载IPsec,仅此一项就可为亚马逊的每个主要客户节省数百万美元。

亚马逊能够从每台服务器中移除这些存储,并将其转移到集中服务器中。客户租用的服务器可以从网络存储启动。即使使用高性能NVMe SSD,Nitro也能实现这一功能。存储架构的这一转变帮助亚马逊大大节省了存储成本,因为客户无需为超出其使用需求的存储付费。客户可以无缝地动态增加和减少其高性能存储池。

从计算和网络的角度来看,使用通用硬件的成本极高,但Nitro可以以较低的成本为租户的虚拟机提供虚拟磁盘等服务,因为它采用的是内部工作负载专用ASIC。

其他两大云计算公司也在尝试走同样的路线,但他们已经落后了很多年,而且需要一个要求有一定利润空间的合作伙伴。谷歌选择了与英特尔共同设计的Mount Evans IPU定制芯片,而微软则选择了AMD Pensando DPU和最终内部开发的基于Fungible的DPU的组合用于存储用例。这两家竞争对手在未来几年都将使用第一代或第二代商用芯片。

亚马逊正在安装自己设计的第五代Nitro。从基础设施成本的角度来看,Nitro带来的优势不容低估。它使亚马逊的成本大大降低,从而可以转嫁给客户,或带来更高的利润。

Arm at AWS 虽然Nitro确实使用了基于Arm的CPU内核,但关键在于各种固定功能的特定应用加速。AWS对基于Arm的定制芯片的兴趣不仅限于将自己的工作负载卸载到专用硬件上。2013年,AWS对使用自己的芯片的想法有了进一步的发展。在一份题为 "AWS定制硬件 "的文件中,工程师James Hamilton提出了两个关键点。

  • Arm CPU在移动和物联网平台上的大量出货将使投资能够创造出基于Arm的优秀服务器CPU,就像英特尔能够在90年代和00年代利用x86在客户端业务中的优势来接管服务器CPU业务一样。

  • 服务器功能最终将集成到一个SoC中。因此,为了在云计算领域实现创新,AWS需要在芯片上进行创新。

最终的结论是,AWS需要定制Arm服务器处理器。作为一个旁观者,如果这份文件在其10周年之际公开发布,以显示其多么有远见,那将是令人惊叹的。

让我们扩展一下James Hamilton的这篇论文,看看使用AWS设计的基于Arm的CPU与外部CPU相比有哪些优势。

首先,它们为AWS降低成本并为客户提供更好的价值提供了一种途径。如何实现这一点呢?根据James Hamilton的观点,它可以通过使用Arm设计的Neoverse内核,利用Arm在移动领域的规模。它还可以利用台积电的制造规模,主要由于智能手机市场,台积电的制造规模远远超过英特尔。当然,利用台积电还可以获得领先的工艺节点,领先于英特尔的制造能力。

同样重要的是,内部 CPU 使亚马逊能够设计 CPU 以最大限度地提高密度,并最大限度地降低服务器和系统级能耗,这对于总体拥有成本而言大有帮助。一个易于理解的工程决策是,亚马逊设计的Graviton 3只有64个内核,尽管有足够的空间来扩展芯片尺寸和功率。

当然,我们不应忘记,竞争也增加了英特尔和AMD降低CPU价格的压力。AWS也会在x86 CPU上节省开支!AMD和英特尔必须在很大程度上超越亚马逊,这样才能证明他们在商用芯片上的巨大利润是合理的。我们毫不怀疑AMD在CPU内核和SoC的工程设计方面更胜一筹,英特尔也可以做到这一点,但他们能否超越亚马逊2倍以上,以证明他们约60%的数据中心利润率是合理的?这个问题很难回答。

微软和谷歌都在进行内部服务器CPU方面的努力,但它们尚未批量安装任何产品。即使一旦他们这样做,很难想象他们将能够击败亚马逊的第3或第4次迭代。

亚马逊的巨大规模不容低估,尤其是在通用计算和存储相关的垂直领域。这将在未来许多年里继续推动云计算领域的持久优势。

▩AWS的危机也是因为企业应用计算范式的下一个时代开启

亚马逊、半导体和整个科技行业都是S曲线叠加的故事。亚马逊是一家不断成长的公司。他们从未真正退出投资周期。在许多方面,他们在文化上总是具备寻找下一个大事件的能力,而不一定是在他们的獠牙插入后才提取最大价值。

计算的下一个时代|亚马逊的企业文化、围绕其云服务提供商模式的有意识的商业决策,以及在定制计算和网络芯片方面的技术选择,可能会让他们在下一个计算时代被晾在一边。虽然云计算的前两个时代将继续上演,亚马逊也将从寡头垄断市场中的领先非管制公用事业中获取巨大价值,但下一个时代并不一定是他们的天下。来自现有竞争对手和新竞争对手的巨大竞争压力正在加速到来。

▩下一个云计算时代趋势
边缘计算的兴起:边缘计算是指在更靠近终端用户的地方提供计算服务。这与传统的云计算模式形成鲜明对比,传统的云计算模式是从集中的数据中心提供服务。随着联网设备数量的持续增长,边缘计算正变得越来越重要。
人工智能和机器学习的发展:人工智能和机器学习在计算的各个方面都变得越来越重要。云提供商正在大力投资这些技术,它们正在成为云提供商的关键差异化因素。
对安全性和合规性的需求日益增长:随着云计算的普及,对安全性和合规性的需求也在不断增加。云提供商正在这些领域投入巨资,它们正在成为云提供商的关键重点。

△附:来自google bard

亚马逊面临的挑战亚马逊在下一个云计算时代面临着诸多挑战。这些挑战包括:

其单体架构:亚马逊的云基础设施基于单体式架构。这种架构并不适合边缘计算和AI/ML的发展趋势。

缺乏对安全性和合规性的关注:亚马逊不像某些竞争对手那样重视安全性和合规性。随着对这些服务的需求增加,这可能成为一个主要问题。

创新缓慢:亚马逊在云计算的某些领域创新缓慢。这可能会使其竞争对手在下一个云计算时代占据优势。

开源的兴起:开源在云计算市场日益流行,亚马逊可能无法与开源提供商竞争。例如,亚马逊的定制计算和网络芯片不像开放标准那样被广泛使用,这可能使亚马逊难以与其他使用开放标准的云计算提供商竞争。

亚马逊可能路径|亚马逊是当前云计算领域的领导者,但它在下一个云计算时代面临着许多挑战。这些挑战可能导致AWS失去其在云计算市场的主导地位。

亚马逊需要采用微服务架构:与单体架构相比,微服务架构更具灵活性和可扩展性。这将使亚马逊能够更好地支持边缘计算和AI/ML趋势。

亚马逊需要关注安全性和合规性:亚马逊需要在安全性和合规性方面加大投入。这将有助于亚马逊满足对这些服务日益增长的需求。

需要加快创新:亚马逊需要在云计算的某些领域加快创新。这将有助于它领先于竞争对手。

如果亚马逊能够应对这些挑战,它将有能力在下一个时代继续保持云计算领域的领先地位。但是,如果亚马逊不能应对这些挑战,它就可能失去市场主导地位。

▩二线云厂商困境

过去的二线云厂商,实际上跟随一线云厂商亦步亦趋,在云计算弹性计算平台、SDN网络、以及存储的相关产品上投入巨量的开发人员与资源,甚至也和AWS一样发展专用芯片用于CPU通用服务器的虚拟化及I/O性能offload与加速。

但在回报上却受制于规模效应尚未成型,却因为错过企业上云的市场窗口,至今仍在盈亏平衡线上挣扎;而在后续产品的开发上也与一线厂商差距愈来愈大,很多二线云厂商要不转向小B甚至个人用户,要不守在利润率稍高的IaaS产品上:一方面想尽办法技术降本或裁员,同时用低价与一线厂商苦苦肉搏。

国内云计算市场情况更糟。随着云计算技术开发人才的外溢,电信、移动与联通三大运营商纷纷启动自研云计算平台及相关产品,凭借其巨大政企客户资源以及在基础设施、带宽以及骨干网上的天然优势,继续在IDC托管传统业务、云计算的政企客户业务,包括私有云业务上,逐步蚕食二线IDC与云厂商的市场份额。

虽然2023年以来,这波AI狂潮也在国内卷起“千”模大战,但二线厂商甚至一线云厂商都因Nvidia的产能及禁运,面临着GPU一卡难求的局面;在GPU算力云服务上,传统云厂商发现自己多年苦研的通用计算平台和产品完全用不上:

  • 预训练炼丹必需的GPU集群产品,不仅RoCE的高速网络面临着高昂的与平台集成开发成本,并行文件系统产品也欠缺;GPU裸金属托管,发现也欠缺IB网络的实施经验。

  • 在面向大模型预训练GPU集群计算的稳定性上更是一片空白,也没有性能调优能力。预训练的GPU集群,完全是东西向流量,客户租用模式是完全独占式,过去靠虚拟化或存储集中式带来的后端资源复用的运营“小把戏”也完全失灵。

  • 加上固有的人力和历史沉淀成本,导致即使GPU对外服务,其成本也不占优势。因内部缺乏类似大模型场景应用经验,无论是预训练还是推理模型的部署运行,对于如何提高客户的GPU使用率也毫无增值服务可以提供。

附录:国内千模大战中的大模型命名艺术

截图来自互联网,版权属于原作者

更进一步解读,敬请期待下篇。

参考

说明:本文在公众号里标注为“原创”仅为防止未经许可的转发,本文引用内容的版权属于原作者和原媒体。

-How CoreWeave went all-in on Nvidia to take on Big Cloud

https://www.runtime.news/how-coreweave-went-all-in-on-nvidia-to-take-on-big-cloud/?utm_content=250424223&utm_medium=social&utm_source=twitter&hss_channel=tw-979803443681349632

-Amazon’s Cloud Crisis: How AWS Will Lose The Future Of Computing

https://www.semianalysis.com/p/amazons-cloud-crisis-how-aws-will



END


扫码加群,

立变AI🍚!


AI范儿读者群


👇关注、标星哦~

那些prompt了我的,

是否也prompt了你...


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存