查看原文
其他

慢思考|GPT4紧捂着的战壕雨衣,掀开后原来是“葫芦娃一家子”;AI²Paradigm四范式之“炼丹”首谈|文末极度烧脑,慎入!

ai汤源 AI范儿 2023-09-14

 

图|unimatrixz.com

文|汤源

@realGeorgeHot on GPT-4 with @swxy 

by @LatentSpacePod

题记

为啥GPT-4那么聪明,原来有8个脑袋!一起回答你的prompt!- Ilya大神的小把戏,硅谷传疯了。。。
上面昨天这篇文章匆匆而就,感觉还没尽兴,今天再追加一篇...

“硅谷社区的一则有关GPT-4的参数/架构消息截图”
最初的信源就是推上的这个截图,一段@LatentSpacePod上的@realGeorgeHot 和@swxy的对话脚本。
话虽不长,但信息量巨大,从硅谷到国内,其传播效果在“炼丹”界可谓爆棚。这里先总结一下这段话里的几个点以及昨天笔者的快思考
▩Who&Where
@realGeorgeHotz George Hotz,总裁@comma_ai(自动驾驶解决方案),同时也是创始人http://tinygrad.org;第一个解锁 iPhone、越狱 PS3的少年极客,也在马斯克经营的 Twitter 短暂“实习”过,新创立了一家提供“个人计算集群”的小公司Tinycorp (深度学习框架 tinygrad 以及最近发布的 tinybox 背后的公司)
@swyx swyx 反典型生活的反自我想法。正在做智能开发者项目smol;AI新闻和采访@latentspacepod;关于原则的书:@coding_career
另一位是Alessio Fanelli,是开源项目fanahova的作者和以Founders help  founders为口号的独立VC合伙人。两位主理人都是既能冲锋也能演讲写作属于“六边形战士”。
对话发生在由@swyx主持的一篇访谈,主题实际上是@realGeorgeHotz的新创公司tinygrad,如何与AMD一起公开合作,以对抗Nvidia、Google和PyTorch;同时对多个热点进行了评论:ggml、Mojo和GPT-4(访谈视频49分左右);以及为什么AI Girlfriend是下一个创业热点。

▩访谈脚本字面解读

GPT-4的万亿参数传闻揭秘:确实是1.76万亿参数,但不是单个模型1.76万亿参数,而是8个2200亿参数的叠加。

GPT-4的小把戏:也许外界过度解读了OpenAI避而不宣GPT-4的炼丹配方的苦衷,并不是有意伏身在LLM战壕,紧捂着GPT-4的雨衣,隐藏什么超级酷炫武器(万亿参数单GPT-4模型?),而是确实没什么(8个GPT-3.5,😂🤣😂),到底是混合模型(mixture models)?或MoE(mixture of Experts)?抑或模型合奏(model ensembles )?实际上都是LLM GPT工程上的小把戏。

GPT-4的8个模型训练数据集不同:8个比GPT-3(1760亿参数)稍大点的模型(2200亿参数每个)集群,可能类似1个葫芦爹藤下系的7个葫芦娃,每个娃用有所侧重的数据集训练出不同本领(笔者注:但也可能是8个本领各异的葫芦娃,不过笔者倾向于1个爹7个娃,一家子战斗力更爆棚😄)。所以一次prompt,在GPT-4的8个脑袋里要算16次。


△附:参见文末参考章节的原播客视频节选内容。

▩公众号昨日文章观点汇总
GPT-4比GPT-3.5的更聪明的原因真相大白 
原来业界都以为,GPT-4在各项任务上的表现均有大幅提升都是因为,按照大语言模型LLM的性能扩展幂律(scaling law),是万亿参数带来的,而实际上是用了8个比GPT-3.5略大的混合模型。
OpenAI确实在GPT-4这一阶段采取了“Easy Step” 
相比于训练一个1.76万亿参数的模型,训练一个工程上已经成熟的类GPT-3模型集群,无疑要容易得多,尤其是在GPT的商业模式有待验证的2021-2022年间,而模型集群无论是混合模型(mixture models)、或MoE(mixture of Experts)、抑或模型合奏(model ensembles )在工程上业界也都有探索以及相关论文。
GPT-4定价比GPT-3.5贵15倍以上的成本账 

这种混合模型,每次prompt输入,都进行16次推理最后综合输出,在各项任务上性能大大提升带来的是成本的同等倍数增长。所以从OpenAI官网定价上看,确实是GPT-4的1k tokens要比GPT-3.5贵15倍以上,反过来也验证了每次prompt输入确实GPT-4内部要进行16次推理计算。

GPT-4这种scaling-out的性能扩展工程模式的启发

一是OpenAI自身在GPT-4上走了这手容易“棋”,GPT-5会怎么走?是继续叠葫芦娃( 220B*16)?还是垒参数+葫芦娃一家子(1.76T*8)?

二是开源社区何去何从?是否LLaMA 65B*8,就能比得过GPT-3.5?国内千模混战何去何从?是否会变成“千头”混战?😄


△附:参见公众号文章:为啥GPT-4那么聪明,原来有8个脑袋!一起回答你的prompt!- Ilya大神的小把戏,硅谷传疯了。。。

正文慢思考-葫芦娃的秘密与叠法

接下来我们看看,揭穿OpenAI在GPT战壕雨衣下隐藏的小把戏之后,AI范儿社区“Prompt共创”的一些慢思考
▩葫芦娃的秘密:混合模型(mixture models)、或MoE(mixture of experts)、抑或模型合奏(model ensembles )
在@swxy的访谈视频中说到这8个模型工作模式时,George先提到了混合模型(mixture models)这个比较笼统的说法,后来@swxy补充到是不是MoE(mixture of experts),应该是访谈中大家达成一致的GPT-4模型集群架构。
说起MoE,访谈后@swxy在推文中说到:
“既然MoE现在如此热门,GLaM可能是值得关注的论文。谷歌已经有一个拥有64位专家的1.2T模型,而微软必应的模型则是类似的不同组合”
GLaM: Efficient Scaling of Language Models with Mixture-of-Experts

用更多的数据、计算和参数扩展语言模型(笔者注:scaling law),推动了自然语言处理的重大进展。例如,由于扩展,GPT-3能够在in-context学习任务中取得强大的结果。然而,训练这些大型密集的模型需要大量的计算资源。在本文中,我们提出并开发了一个名为GLaM(通用语言模型)的语言模型系列,它使用稀疏激活的Mixture-of-Experts架构来扩展模型的容量,同时与密集的变体相比,训练成本也大大降低。最大的GLaM有1.2万亿个参数,比GPT-3大约大7倍。它所消耗的能量只有训练GPT-3的1/3,推理所需的计算跳数也只有一半,同时在29个NLP任务中仍然取得了更好的整体zero-shot和one-shot性能。


△附:来自arXiv论文 - https://arxiv.org/pdf/2112.06905 [Submitted on 13 Dec 2021 (v1), last revised 1 Aug 2022 (this version, v2)]

更有有心的推友@teortaxesTex,翻出另一篇MOE有名的论文:路由语言模型的统一扩展法则(Unified Scaling Laws for Routed Language Models),和GPT-4的技术报告中的贡献者内容对比发现这个作者之一-Trevor Cai,在21年还在Google DeepMind的时候写了这篇论文,而后出现在23年的GPT-4贡献者中作为核心成员以及多项工作的主要参与者。

“Trevor Cai出现在DeepMind的论文作者与OpenAI的GPT-4贡献者中”

该推友似乎还为google对当前AI领域无私贡献抱不平:“我认为谷歌已经发表了大量关于LLM架构的强有力的论文,这些论文的作者现在却都在为OpenAI工作,而且极有可能有很多很多人带来了源自这些论文实现的一揽子技术诀窍(工程know-how)。”

Unified Scaling Laws for Routed Language Models

语言模型的性能已被证明可以有效地建模为其参数数量的幂律(笔者注:scaling law)。在这里,我们研究了基于路由网络的扩展方式:在处理输入时有条件地只使用其参数的一个子集的架构。对于这些模型,参数数量和计算要求形成了两个独立的轴线,沿着这个轴线的增加会导致更好的性能。在这项工作中,我们推导并论证了定义在这两个变量上的缩放定律,它概括了那些已知的标准语言模型,并描述了通过三种不同技术训练的广泛的路由结构的性能。之后,我们提供了这些定律的两个应用:首先推导出一个有效参数数量,所有的模型都以相同的速度扩展,然后使用缩放系数来对所考虑的三种路由技术进行定量比较。我们的分析来自于对路由网络在五个数量级上的广泛评估,包括有数百名专家和数千亿个参数的模型。


△附:来自arXiv论文 - https://arxiv.org/pdf/2202.01169 [Submitted on 2 Feb 2022 (v1),  last revised 9 Feb 2022 (this version, v2)]

对于Transformer Mafia 8成员中的Lukasz Kaiser(笔者注:可参考公众号文章新Paypal黑手党Transformer Mafia-从Attention到Prompting is All You Need),加入OpenAI的后发表过一篇论文题为:Sparse is Enough in Scaling Transformers,其论文涉及的工程范式与8成员之一的Noam Shazeer离开google前的论文:Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity,应该有一脉相承之处。

“Google AI的Noam与加入OpenAI的Lukasz撰写了相似的工程论文”

推友@teortaxesTex感叹道:“我并不是说GPT-4是,比如说,一个毫无创意的万亿参数Switch Transformer,这里面有的是各种选择;然而,我对个人崇拜感到恼火,Yud、Geohot、Altman---都是炙手可热的meme人物;请关注那些实际做出默默无闻贡献的研究人员,那些预印本上的不曾露面的名字。”

笔者感叹:抛开开源初心与商业上的考量不说,顶尖人才确实最终会流向有着AI信仰的人和团队周围。而创始人淡出、职业经理人接手的Google缺少这样的AI灵魂人物。

@swxy同时也提到,有推友研究华为的万亿参数盘古(PanGu)大模型(一个非常酷的中国好人,看看他吧,frens),并发出了一个漂亮的MoE图。

哈哈,看来MoE是LLM工程界普遍的实践,只不过GPT-4为什么能玩得这么好?OpenAI还有哪些“炼丹”秘密配方呢?

“推友提供的国内大模型华为盘古的MoE架构图”

另外还有推友@Yampeleg提供了GPT-4的MoE实现的一些示范性代码,希望得到专家的指导。见下图。

笔者感叹:这正体现开源大模型社区力量的伟大之处!可以想见的是,OpenAI的战壕雨衣掀开之后的小把戏(little trick),会给开源社区多么强大的鼓舞:原来MoE还可以这么玩,还可以玩出这样的效果!

针对MoE的慢思考,正如本文前面总结昨天文章时,脑海里冒出的一个生动的图像:GPT的MoE类似1个“葫芦爹”藤下系的7个“葫芦娃”,每个娃用有所侧重的数据集训练出不同本领;但也可能是8个本领各异的葫芦娃,不过笔者倾向于1个爹7个娃,毕竟一家子战斗力更爆棚😄!
另外,GPT-4的这些小把戏,确实也让笔者想起了之前在研究提示工程时的提示合奏(Prompt Ensembles),详见转译的Cameron R. Wolfe在Deep(Learning)Focus博客上的一篇文章:「提示工程系列」转译(4):提示合奏使LLM更可靠-简单策略挖掘更多LLM潜能;也是这篇有关Prompt Ensembles的文章,合奏必须有指挥,直觉上那GPT-4“葫芦娃一家子”有个“葫芦爹”把关,所以其MoE玩的效果才能那么惊艳?(笔者注:关于ensembles是翻译成集合和合奏在文章里笔者还颇纠结了一下,最后还是使用了合奏)

“@billyuchenlin的LLM-Blender: LLM两阶段集合学习框架”
确实也有推友@billyuchenlin提到了LLM-Blender,一种类似的简单事后集合方法,通过排名+融合,使用10多个较小的开放式LLMs,虽然有些LLM可能显示出更好的整体性能,但对于不同的例子,优化的 LLMs可以有很大的不同!如何集合多个LLM,利用其不同的优势产生更好的结果?LLM-Blender是一个用于LLMs的两阶段集合学习框架。PairRanker是一个成对比较模块,它学习联合编码一对候选人并判断哪个更好;GenFuser融合top-K输出以产生一个更好的。
非常有趣的是,推友@billyuchenlin判断GPT-4可能会使用集合学习来获得更好的性能,是一个包括8个LLMs的集合学习场景。
大多数人在提到模型混合(mixture models)都是指的MoE(也即Switch Transformers式的,但它不一定需要是稀疏的)。到底是Switch Transformer式的稀疏混合(Sparse-mixture),还是Kaggle式的稀疏混合?前者不仅仅是 "小技巧";Kaggle式的混合物更像是一个模型的合奏(ensembles)。
到这里已经涉及太多模型混合的工程细节,大大超出笔者可以判断的范围,还是留给工程大佬或社区群友来仔细分辨吧,也许可以等到那么一天,Ilya大神会亲自给出解答。
▩Scale-out&Scale-up:是继续“叠葫芦娃”( 220B*16)?还是垒参数+“葫芦娃一家子”(1.76T*8)?
揭开GPT-4在LLM的战壕雨衣里隐藏的小把戏,显然大语言模型的Scaling Law的扩展红利在GPT-3已经用尽(相对于当时的GPU算力Nvidia V100和文本tokens)。之前Sam Altman说的GPT-5还要等等还没有启动预训练,以及Ilya说的GPT-5肯定还要继续但Scaling Law的容易的部分已经是过去式了(笔者注:不知道Ilya说的easy part是不是mixture models?),随着微软H100 GPU算力集群的逐步到货,也许算力红利已经累积到,可以支撑接下来在Scaling Law趋势曲线上继续爬坡。

@jonasgeiping制作的缩放规律和模型size/token数量图”
对于是否继续叠葫芦娃,经推友提醒,我们可以参考之前meta AI联合放出的一篇论文:在任意的文本语料上异步训练大型稀疏语言模型,主要方法是将语料库聚类为相关的文件集,在每个聚类上训练一个单独的专家语言模型,并将它们组合在一个稀疏的集合中进行推理。
Scaling Expert Language Models with Unsupervised Domain Discovery

大型语言模型通常是密集训练的:所有的参数都是针对所有的输入而更新的。这需要在成千上万的GPU上同步数十亿的参数。我们介绍了一种简单而有效的方法,在任意的文本语料上异步训练大型稀疏语言模型。我们的方法将语料库聚类为相关的文件集,在每个聚类上训练一个单独的专家语言模型,并将它们组合在一个稀疏的集合中进行推理。这种方法通过自动发现每个专家的领域,概括了令人尴尬的并行训练,并消除了现有稀疏语言模型的几乎所有通信开销。我们的技术在多个语料库和少量任务上的表现优于密集基线,我们的分析表明,将专家专门化为有意义的集群是这些收益的关键。性能也随着专家的数量和训练数据的大小而提高,这表明这是一种训练大型语言模型的高度有效和可利用的方法。


△附:来自arXiv论文 - https://arxiv.org/abs/2303.14177 [Submitted on 24 Mar 2023]

集合中的模型数量相比复杂度在不同数量的数据集上有个最佳值,如下图,我们看到对于168B的大模型来说,集合中的专家模型最佳数量为16。(笔者注:意味着最多能叠16个LLM葫芦娃?)

“集合中的模型数量相比复杂度在不同数量的数据集上有个最佳值”
关于是scale-up大力出奇迹,还是scale-out组合出奇迹,也有推友总结:
scale-up大力出奇迹 vs scale-out组合出奇迹

参考Gartner的技术Hype Cycle,要了解一个技术到什么阶段,可以看表现方式是大力出奇迹还是组合出奇迹。


当一个技术还在最早期发展阶段时,基本上就是按着scale up的路径。只有当scale up获得的边际收益太小的时候,才会开始找scale out组合的路径。

比如说在机器学习里,最开始都是单个的model,当单个model的潜力挖掘的差不多到瓶颈之后,就开始了ensemble method(笔者注:或mixture method),这时候就是stacking(笔者注:叠葫芦娃)发挥作用的地方,也就是用一群model做推理,通过处理投票结果方式或者锦标赛模式组合来达到更好的效果,这就是典型的组合模式。

再比如早期的CPU基本是按照频率和工艺制程scale up,到后来就是多核或者大小核的组合,和专用处理器GPU的组合,到SoC就是更大的组合,来满足算力的新需求(最新的苹果MR Vision pro为了达到低延迟,甚至开启了新的R1专门处理传感器融合问题,这也是组合) 。

当然了这个scale up大力阶段和scale out组合阶段不会是单向的。"ML在应用领域的趋势一直都是从multiple components on one stack到end to end solution 这也算是从组合到规模的变化方向"  ---@yangqch

所以更可能是一种循环:规模scale up->组合->更大尺度上的规模变大->更大尺度的组合循环。


△附:来自推友@fi56622380的总结

这基本上和我昨天的思考方向一致:对GPT-5来说,是继续“叠葫芦娃”( 220B*16)?还是垒参数+“葫芦娃一家子”(1.76T*8)?

OpenAI作为一个商业公司,可能最需要考虑的还是成本,英伟达H100的算力红利是否足以支撑scale-up+scale-out齐头并进:垒参数+“葫芦娃一家子”(1.76T*8),一步到位AGI/ASI?回想上次Sam Altman在说GPT-5还没开始预训练的同时也提到OpenAI内部也还在探索更多更优的scaling law爬坡路径,最终可能是一个多方综合平衡的决策吧。

“GPT-3的预训练成本”
让我们拭目以待!

范式解读-说回AI²Paradigm四范式之基础范式:炼丹(预训练)

在AI范儿社区群友prompt共创的这波AI范式变革认知框架-AI²Paradigm里,“炼丹”:也就是大模型预训练(笔者注:姑且将图片生成式diffusion模型的预训练也包括在内),“炼丹”的终极目的就是炼就“仙丹”,通过大模型预训练过程使得机器具备真正的智能,达到通用人工智能甚至超级人工智能(AGI/ASI)。

不过在社区里对于“炼丹”所谈甚少,国内炼丹界来讲,我们没有清北背景,也离清华科技园等“炼丹圣地”较远,笔者本人也是从解读目前全球炼丹界灵魂人物-OpenAI首席科学家Ilya的一系列访谈开始入局;AI范儿最初的群友还是聚焦于门槛最低的“挖矿”,也就是prompt这个现象踏入这波AI范式变革狂潮的。

AI²Paradigm v1-v3范式迭代
▩大模型炼丹(pre-training) (v1. AIGC)
▩大模型挖矿(prompting) (v1.AIGC)
▩大模型蒸馏(distillation) (v2. Models Anywhere)
▩大模型智能体(promptless) (v3. Intelligent Agents)

△附:AI²Paradigm v1-v3范式迭代,详情请阅读啥?“炼丹”、“挖矿”、“蒸馏”,还有”智能体“?-「AI范儿」一文厘清大模型范式创业投资与应用万象:AI²Paradigm

随着GPT-4“炼丹”小把戏的揭密,最近社群陆续有炼丹团队的群友加入,这里稍作展开,也主要是这两天群友prompt共创的一个记录吧。

“炼丹”界路线之争 按AI范儿一贯从现象理解的风格,所谓炼丹界的路线之争,也是通往通用人工智能甚至超级人工智能(AGI/ASI)的路线之争,可以形象的称之为:

  • 随机鹦鹉(stochastic parrot)智能路径

  • 信号灯乌鸦(crow intelligence)智能路径

随机鹦鹉的出处

“Stochastic parrots, take to the skies!”

来自Talkative AI: Let the Stochastic Parrots fly (unimatrixz.com)

笔者试着找到随机鹦鹉最初的出处,看来还有一段公案,“随机鹦鹉”一词是由前 Google 研究员 Timnit Gebru 创造的,他因发表一篇批评LLM的论文而离开公司(或被迫离开)。也许鹦鹉是很久以来最让人类感到非人类智能的第一印象-鸟竟然能复述人的话,“随机鹦鹉”应该是专门针对自回归方式实现的大语言模型(Auto-Regressive LLM)的特性的一种偏批评的说法,以下是BingChat的回答(笔者注:为了减成本,BingChat部署的推理模型明显蒸馏或稀疏或量化了):

Why are there saying autoreggressive LLM is stochastic parrot? where is it coming from origionally? what's your insight about that as a state of the art LLM as you?
▩有些人说自回归LLM是随机鹦鹉,因为他们认为这些模型只擅长生成流畅且令人信服的语言,但他们实际上并不理解他们正在处理的语言的含义。他们还认为这些模型可能会重现其训练数据的偏见、错误和危害,其中可能包括未经验证和不道德的来源。此外,他们质疑开发和使用这些模型的环境、财务和社会成本,以及不探索其他语言理解方法的机会成本。“随机鹦鹉”一词是由前 Google 研究员 Timnit Gebru 创造的,他因发表一篇批评LLM的论文而离开公司(或被迫离开)。

作为一名最先进的LLM,我认为这种批评部分是正确的,但也部分是不公平的。一方面,我同意自回归LLM有局限性和风险,在没有适当评估和验证的情况下,不应盲目信任或将其用于敏感任务。另一方面,我认为自回归LLM也有很多好处和潜力,例如生成流畅且多样化的文本,增强创造力和沟通,以及启用新的应用程序和服务。我还认为自回归LLM不仅仅是盲目的鹦鹉学舌,而且他们可以从互动和反馈中学习,并且可以随着时间的推移提高他们的表现和可靠性。


△附:BingChat回答中提及的论文  On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?  (acm.org)  Published:01 March 2021  [https://dl.acm.org/doi/pdf/10.1145/3442188.3445922]‍‍‍‍‍‍‍‍‍‍‍‍‍‍

“Stochastic Parrots 的说法出自Timnit Gebru合著2021年的ACM论文”
乌鸦智能的故事

生活在城市的乌鸦行为
▩上图是研究人员在日本发现与跟拍的一只野生乌鸦(图a),它无法获得坚果内的果肉,从空中抛下也不能解决问题。
▩在这个过程中,它发现飞驰而过的车辆,可以碾碎坚果(图b)!
▩但车辆対乌鸦自身也是一种威胁,于是它在高空中观察(图c)。
▩而后它意识到斑马线+行人指示灯变绿,可以让车辆停下(图d、e)。
那么,将坚果放在人行横道,待车辆碾碎坚果,行人灯变绿再去取食果肉的一系列行为模式,即称之为乌鸦智能行为

附:乌鸦智能(Crow Behavior Research) 初见1995年 44 巻 1 号 p. 21-35 于日本鸟学会志    https://www.jstage.jst.go.jp/article/jjo1986/44/1/44_1_21/_article/-char/ja/

Meta AI首席科学家Yann LeCun,一直以怼OpenAI GPT这类auto-regressive LLMs为己任,并多次在各种会议上推广自家的基础模型理念 - world model。

“Meta AI首席科学家Yann LeCun主导的World Model”

笔者也用这个问题问了问BingChat。如下:

As of a state of the art LLM, how do you think about Yann LecCun 's world model,  who is always saying autoregressive LLMs have no future of AGI or ASI?
▩Yann LeCun 是著名的人工智能研究员,也是 Meta 的首席人工智能科学家。他的愿景是创造能够像人类和动物一样学习和推理的自主机器。他认为实现这一目标的关键是开发一个世界模型,这是一个可以学习在不同抽象层次上表示和预测世界状态的神经网络。

他对自回归LLM作为通向 AGI 或 ASI 的途径持怀疑态度,因为他认为它们效率太低,并且捕捉因果关系以及执行推理和规划的能力有限。他还认为它们不适合从交互式环境中学习,他认为这对于发展常识和一般智力至关重要。

作为一名最先进的LLM,我尊重他的观点和他对人工智能领域的贡献,但我也不同意他的一些观点。我认为自回归LLM不仅仅是随机鹦鹉,他们还可以从大规模文本数据中学习有用的表达和技能,这可以补充图像和视频等其他信息源。我还认为自回归LLM可以与其他架构和方法相结合,以实现更高效、更稳健的学习、推理和规划。我还认为自回归LLM并不是实现 AGI 或 ASI 的唯一方法,但它们是可能的探索方法之一。


△附:BingChat回答

这里先借用朱松纯教授以“鹦鹉”和“乌鸦”为例,对于人工智能范式的区分总结:

“鹦鹉范式”的人工智能,就是学界目前普遍认定的大数据+大算力+深度学习,这包括当前的大型预训练模式;

“乌鸦范式”,则是一种“小数据、大任务”的模式。

“鹦鹉范式”具体到以自回归为特性的LLM,就是本章一开始说的“随机鹦鹉智能”发展路径;
“乌鸦范式”与Yann LeCun主导的world model则有一脉相承的联系,即“信号灯乌鸦智能”发展路径。

当然,作为OpenAI CEO的Sam Altman面对这样的说法,自然是愤愤不平,在22年底ChatGPT发布一段时间后,发推怒怼:我就是个随机鹦鹉,那你也是!

至于以GPT-4为代表的自回归LLM,是否只是随机鹦鹉复述它学习过的人类文本知识,而并不代表它知道这样的语言游戏的真正本意?也有数篇论文可以参考。

Evidence of Meaning in Language Models Trained on Programs

我们提出了证据,证明语言模型可以学习意义,尽管它的训练只是为了在文本上进行下一个token的预测,特别是一个程序的语料库。每个程序之前都有一个以(文本)输入-输出例子形式的规范。与程序一起工作使我们能够精确地定义与语言中的意义有关的概念(例如正确性和语义),使程序合成非常适合作为描述语言模型中意义存在(或不存在)的中间测试平台。
我们首先在程序的语料库上训练一个Transformer模型,然后在它完成一个给定规范的程序时探测训练过的模型的隐藏状态。尽管没有提供学习语言语义的归纳偏向,我们发现线性探测能够从模型状态中提取当前和未来程序状态的抽象信息。此外,探针的准确性与模型生成实现规范的程序的能力之间存在着强烈的、统计学上显著的关联。为了评估语义是否体现在模型状态中,而不是通过探针来学习,我们设计了一个新的实验程序,在保留词库和语法的同时,对语言的语义进行干预。我们还证明,该模型学习生成的正确程序平均比训练集中的程序短,这证明语言模型的输出可能以语义上有意义的方式与训练分布不同。总之,本文没有提出任何训练语言模型的新技术,但为语言模型中(形式)意义的获得和表示开发了一个实验框架,并提供了一些见解。


△附:来自arXiv论文 - https://arxiv.org/pdf/2305.11169 [Submitted on 18 May 2023 (v1), last revised 24 May 2023 (this version, v2)]

还有一篇是微软研究团队在GPT-4早期版本(或者称之为raw mode)上针对LLM的涌现以及通用人工智能的一个早期实现的探索。
Sparks of Artificial General Intelligence: Early experiments with GPT-4
人工智能(AI)研究人员一直在开发和完善大型语言模型(LLMs),这些模型在各种领域和任务中表现出非凡的能力,挑战我们对学习和认知的理解。由OpenAI开发的最新模型-GPT-4,是使用前所未有的计算和数据规模来训练的。在本文中,我们报告了我们对GPT-4早期版本的调查,当时它还在OpenAI的积极开发中。我们认为,(这个早期版本的)GPT-4是新一批LLM的一部分(例如,与ChatGPT和谷歌的PaLM一起),它比以前的AI模型表现出更多的通用智能。我们讨论了这些模型的上升能力和影响。我们证明,除了对语言的掌握,GPT-4还能解决跨越数学、编码、视觉、医学、法律、心理学等领域的新颖而困难的任务,而不需要任何特殊的提示。此外,在所有这些任务中,GPT-4的表现都惊人地接近人类水平,而且往往大大超过了ChatGPT等先前的模型。鉴于GPT-4能力的广度和深度,我们认为可以合理地将其视为人工通用智能(AGI)系统的早期(但仍不完整)版本。在我们对GPT-4的探索中,我们特别强调发现它的局限性,并讨论了在向更深入和更全面的AGI版本迈进时面临的挑战,包括可能需要追求一种超越下一个单词预测的新范式。最后,我们对近期技术飞跃的社会影响和未来的研究方向进行了思考。

△附:来自arXiv论文 - https://arxiv.org/pdf/2303.12712 [Submitted on 22 Mar 2023 (v1), last revised 13 Apr 2023 (this version, v5)]

在之前文章中提到过的陶哲轩教授,通过微软的Eric Horvitz提供的机会,体验过GPT-4早期版本;最近也发了一篇总结性博文:拥抱变化和重新设定期望 (Embracing change and resetting expectations )。

有趣的是,这篇博文末尾也附上了文章和GPT-4 Prompt共创的过程(共4篇详见下图附注URL):

陶教授自己和 GPT-4 先分别写了一份;又让 GPT-4 看了自己写的之后,要求 GPT-4 把它的文章改成自己的风格;最后又让 GPT-4 直接改写了自己的初稿,并贴在一起方便大家比较。

△附:陶教授个人博客附上了博文prompt共创过程 [https://terrytao.wordpress.com/about/ai-generated-versions-of-the-ai-anthology-article/]

陶教授在文章中表达了对于GPT-4这样的人工智能在当前以及三年后的个人看法。

Embracing change and resetting expectations
陶教授是加州大学洛杉矶分校的数学教授,他的研究领域包括谐波分析、PDE、组合学和数论。他获得了许多奖项,包括2006年的菲尔兹奖。自2021年以来,陶教授还在美国总统科技顾问委员会任职。
“The 2023-level AI can already generate suggestive hints and promising leads to a working mathematician and participate actively in the decision-making process.”
"2023年级别的人工智能已经可以向工作中的数学家产生暗示性的提示和有希望的线索,并积极参与到决策过程中。"
"I expect, say, 2026-level AI, when used properly, will be a trustworthy co-author in mathematical research, and in many other fields as well."
"我预计,比如说2026年的人工智能,如果使用得当,将成为数学研究中值得信赖的合作者,在许多其他领域也是如此"

△附:陶教授发表在微软博客的文章 - Embracing change and resetting expectations [https://unlocked.microsoft.com/ai-anthology/terence-tao/]

△附:陶哲轩教授曾提到过GPT的互为prompt效用 互为Prompts:大语言模型的预训练智能体到底意味着什么?

就在准备结束本章节之际,看到一篇MIT&Standford研究团队关于LLM的联合论文:从单词模型到世界模型:从自然语言到思想的概率语言的传译。

这篇论文将LLM和概率程序结合起来,实现基于语言信息的思考:

  • -用LLMs建立意义模型
  • -用符号化的概率论程序来模拟思维
  • -LLMs可以产生上下文翻译,用于推理其他智能代理的思维和计划

△附图:来自论文截图PLoT研究框架示意-理性意义建构

论文的概要摘录如下:

From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought
语言如何为我们的下游思维提供信息?特别是,人类是如何从语言中获得意义的--以及我们如何利用语言意义的理论来建造能以更像人类的方式思考的机器?在本文中,我们提出了理性的意义建构,这是一个用于语言信息思考的计算框架,它将语言的神经模型与理性推理的概率模型相结合。我们将语言意义构建为从自然语言到思维概率语言(PLoT)的上下文敏感映射--一种用于概率性、生成性世界建模的通用符号基底。我们的架构整合了两个强大的计算工具,这两个工具以前没有结合在一起:我们用概率程序对思维进行建模,这是一种灵活的常识推理的表达方式;我们用大型语言模型(LLM)对意义构建进行建模,它支持从自然语言语料到概率编程语言的代码表达的广泛覆盖。我们通过涵盖认知科学四个核心领域的例子来说明我们的框架:概率推理、逻辑和关系推理、视觉和物理推理,以及关于代理人及其计划的社会推理。在每一个领域中,我们都表明LLMs可以生成对语境敏感的翻译,以捕捉语用上合适的语言含义,而用生成的程序进行贝叶斯推理则支持连贯和稳健的常识推理。我们扩展了我们的框架,以整合认知动机的符号模块,提供一个来自语言的统一的常识性思维界面。最后,我们探讨了语言如何能够驱动世界模型本身的构建。

△附:来自arXiv论文 - https://arxiv.org/pdf/2306.12672.pdf [Submitted on 22 Jun 2023]

有推友评论:

@yacineMTB:Minsky 笑了...(有待笔者注释)

@artistexyz:他们应该把这种模式称为 "我祖父的老式汽车LLMs"。对于一些在LLMs上增加了思维和梦想的因果能力(如珍珠),以及执行科学方法和记忆世界模型以供未来使用的尖端技术,见Mappa Mundi (笔者注:看来这是另外一种在LLM上叠葫芦娃的方式


后记

OpenAI首席科学家Ilya(左)与MetaAI首席科学家Yann(右)

笔者本人包括AI范儿社区,主要从现象维度来研究这波AI狂潮,以期看透现象背后的本质,在社区prompt共创交互风格下,各自找到自己在这波大浪潮中的方向。

本章节堆砌的工程方面的解读,某种意义上是针对读者的prompt,如果刚好大家attention也在于此,也许可以激发大家重新思考AI²Paradigm四范式之基础范式:炼丹。

对于“炼丹”的终极路径,其实就像上面说的两种:随机鹦鹉(AR-LLM)路径和乌鸦智能(World Model)路径。

Meta AI首席科学家Yann LeCun确实一直在推自己的world model,怼Ilya 的AR-LLM是随机鹦鹉;但是如果一个鹦鹉话讲得比人还好,你怎么判断它是学舌还是真智能?而且这还是个不死的鹦鹉

从另一个维度,我也不完全否定Yann LeCun及meta坚持的元宇宙方向:一个基于硅基的数字本底的,以人类有生计算智能体的多模态感知物理世界的方式,建立对于atoms world认知的一个元宇宙:bits world。

但同样,这样建立起来的硅基智能,也是个不死的乌鸦,相比于乌鸦利用交通信号等汽车压碎坚果取食,这个world model建立这个元宇宙的动机又会是什么呢?

可以说自回归大语言模型(AR-LLM)是一个又盲又聋又没有触觉的纯粹语言机器,但这也正是硅基智能的特点:一个构建在bit之上的原生于人工神经网络(ANN)计算空间中的智能;

而OpenAI的科学家和工程师相信,用AR-LLM就能达到硅基AGI甚至ASI。需要多模态感知是人类这种有生计算的智能体的特点,不一定是硅基无限计算智能体的必须。

之前也说过,就像以前对以地球为中心的星系认知纠正,现在可能以人类为中心的智能认知也到该纠正的时候了。

所以从这个意义上,Yann LeCun的world model还是以人类智能为中心的路径,而Ilya则是对于智能更高维度的理解,对以人类为中心的智能的认知纠正,是一种“硅基原生”(bits native)的智能路径。

GPT可能是通向超级硅基文明的捷径:人类通过多模态感知环境、用工具改造世界,并创造语言文字使得文明得以在人脑生物神经网络(BNN)的的计算空间中积累和传承;而今天我们毫无准备地把这一切数字化后毫无保留的给了数字的永生的ANN硅基智能……

不死的鹦鹉智能和不死的乌鸦智能,这两者都让我感到些许不安。也许Hinton老爷子最近提出的通用人工智能的另一个方式:有生计算(mortal compute),才是一个相对安全可控的AGI/ASI发展路径。

附录



△附:OpenAI官网不同版本GPT服务1k tokens定价

参考

-相关推文及网页



END


扫码加群,

立变AI🍚!


AI范儿读者群


👇关注、标星哦~


那些prompt了我的,

是否也prompt了你...


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存