啥？“炼丹”、“挖矿”、“蒸馏”，还有”智能体“？-「AI范儿」一文厘清大模型范式创业投资与应用万象：AI²Paradigm

Original ai汤源 AI范儿 2023-08-21

收录于合集

#创业投资 8 个

#人工智能 62 个

##AI热点 21 个

#AI²Paradigm 19 个

图｜汤源

文｜汤源

AI²Paradigm大模型投资创业应用方向研究框架

▽

AI²Paradigm价值模型迭代路径

前文说到通过“现象”与“工程”两个系列，来跟进这波AI范式的研究路径，也算是我个人入局这波AI狂潮的价值模型迭代路径。

最初通过Ilya的访谈知道了GPT预训练（俗称炼丹）探索过程的艰辛与不易，转而研究如何与GPT 简单prompt交互问答（通过ChatGPT，BingChat以及其它类似集成Claude等的App如PoE），后来看到国内一众大佬纷纷入局，尤其是奇迹创坛陆奇博士的北上广深的“新范式”巡回演讲，将我的兴趣点（attention），在跟进GPT现象2个月后，逐步转到考虑在这波AI狂潮中，自己能做些什么（投资、创业与应用方向）的思考上，形成第一版的AI²范式：

AI²Paradigm v1

▩大模型炼丹(pre-training)

▩大模型挖矿(prompting)

AI²Paradigm v1（AIGC）
最初的版本很简单，就是炼丹与挖矿；就炼丹范式，那个时候清华科技园开始火起来，王慧文和王小川算是根据OpenAI的范式，先后入局。当然各个大厂则仿照Google、Meta和微软，纷纷匆匆推出自己的大语言模型。
而随着对prompt的理解从GPT交互工程层面，泛化延展到智能体（含人类）之间，以及对于GPT突破人类语言的理解与生成本质的思考，使得我们将AI范儿的slogan改为-
智能未来，始于Prompt！
并迅速引导社区交流的prompt风格，认为这是attention注意力最好的内在价值变现，也能在与这波通用人工智能甚至超级人工智能（AGI/ASI）的赛跑中不至于掉队太远。同时也迅速转译了prompt工程的一系列论文解读。

附：v1形成线索在访谈系列终结篇里可以找到一些：从「维特根斯坦」哲学“语言游戏”到「伊利亚」的大语言模型“GPT智能体” （三）

AI²Paradigm v1版说的预训练，当前阶段主要考虑的是最有可能通往通用人工智能/超级人工智能（AGI/ASI）路径的大语言模型（LLM）；笔者隐隐觉得语言应该有超模态地位，某种意义上是人类生物神经网络对环境感知到认知的必然产物，文生图（text2image）如Stable Diffusion和MidJourney目前只是阶段性产物；

△

“从'感知'到'语言'的产生及从‘语言’到‘文明’的必然性”

以GPT-4为代表的基于人工神经网络（ANN）的AGI/ASI路径，则直接从语言入手，取得学习、理解与生成突破后，然后向左往感知层面的多模态覆盖、往右则直奔AGI/ASI，这基本也是从2个系列Ilya访谈解读中可以得到印证，通过AI范儿的群友prompt逐步浮现在我脑海里的OpenAI的AGI/ASI发展路径。

如果把预训练过程形象的比作“矿脉“的形成，可能现阶段的文生图模型预训练后可以算“玛瑙矿”，在视觉创意生成方面有一定价值；而以GPT-4为代表的LLM预训练后，则形成了巨量多层次的语言矿脉，功用与价值空间表现在3个层次：

理解与生成人类语言 ---> 通过prompt方式实现与系统或应用的自然语言交互价值
人类文本知识精华的压缩 ---> 通过prompt方式的解压知识或fine tune对齐用于具体任务
具备人类语言类似的思维链能力 ---> 通过复杂prompt工程，利用其直觉推理能力解决复杂任务

总之，炼丹过程非常艰辛，这一点可以从NLP领域的LLM科技树可以看出，从这波生成式AI的工程实现关键：Transformer架构2017年发布以来，LLMs领域纷繁的科技树里面，也只有OpenAI的GPT系列取得了最先也是目前最好的突破。

△

图片来源：

https://github.com/Mooler0410/LLMsPracticalGuide

https://arxiv.org/pdf/2303.18223.pdf

参考人类生物神经网络（BNN）的ANN概念早在上世纪60年代就已经提出，60年代末Minsky断言认为单层感知器（perceptron）在表征能力上存在局限，人工智能进入了长达近20年的冰河期；不过期间人们在ANN训练的基础算法 - 反向传播（Back-Propagation）并没有停止探索的步伐：

反向传播（Back-Propagation）算法
反向传播算法是训练神经网络的经典算法。在20世纪70年代到80年代被多次重新定义。它的一些算法思想来自于60年代的控制理论。
在输入数据固定的情况下、反向传播算法利用神经网络的输出敏感度来快速计算出神经网络中的各种超参数。
「在David Rumelhart 之前，很多人提出了不同版本的反向传播。其中大部分是独立提出的，我觉得我承受了过多的赞誉。我看到媒体说我提出了反向传播，这是完全错误的。科研人员认为他因为某事获得了过多赞誉，这样的情况不常见，但这就是其中之一！我的主要贡献是展示如何使用 BP算法学习分布式表征，因此我要做出澄清。」by Hinton in Martin Ford's《Architects of Intelligence》
显然，反向传播算法的故事本身是相对复杂的，而关于「反向传播之父」的争议也还没有定论。正如 DeepMind 科学家 Oriol Vinyals 所建议的：「我们应当把荣耀归于思想本身，而不是人。」

多次在工程实现上的重新定义，直到Geoffrey Hinton与David在1986年的Nature上发布论文：

△

图片来源：https://www.nature.com/articles/323533a0

《Learning representations by back-propagating errors》

提出「通过让神经网络学习词向量表征，使之基于之前词的向量表征预测序列中的下一个词实现了这一点」。

到了 1986 年，计算成本几乎仅有 1970 年的千分之一，于是 Hinton、Rumelhart 等人的计算实验证明了反向传播可以在神经网络的隐藏层中产生有用的内部表征。这本质上是对已知方法的实验分析。同时也使得人工智能逐步走出冰河期。

之所以再次赘述回顾这段历史，主要是想说明人工智能走到今天初现AGI/ASI曙光，而今天以GPT-4为代表的大语言矿脉形成，实属无数人的前仆后继以及那些在工程上的天才般的灵光一现都密不可分。

近期AI范儿在保持跟进硅谷的最新范式进展之余，将更多的关注国内清华科技园及一众大厂的千模大战，显然乱花渐欲迷人眼，如何看一个团队或者公司是不是真在炼丹？或者能不能形成品相好的大矿脉？

除了亮出可用的GPT产品，试用和做基准测试比较之外，还有一个拨云见日的好方法：

请亮出炼丹炉的配置：训练集群有多少A100或A800卡？或者亮出向Nvidia的PO订单也行。

像前面DG和Nat亮出的仙女座算力集群-2512片H100（训练必备的3.2T IB配置），还只是供开源社区初创企业用作搞models anywhere的，但算力也接近1万片A100了；前一段时间说的Elon Musk搞的1万片H100大炼丹炉据说货还没到齐。

Models Anywhere创投现象-AI税
2022 年下半年，生成式 AI 爆火的同时，硅谷著名风险资本 a16z 走访了数十家 AI 创业公司和大科技公司。他们发现，创业公司转手就把 80%-90% 的早期融资款送给了云计算平台，以训练自己的模型。他们估算，即便这些公司的产品成熟了，每年也得把 10%-20% 的营收送给云计算公司。相当于一笔 “AI 税”。
这带来了在云上提供模型能力和训练服务，把算力租给其它客户和创业公司的大市场（这是DG&Nat搞算力集群的原因）。仅在国内，现在就至少有数十家创业公司和中小公司在自制复杂大语言模型，他们都得从云计算平台租 GPU。据 a16z 测算，一个公司一年的 AI 运算开支只有超过 5000 万美元，才有足够的规模效应支撑自己批量采购 GPU。

国内情况是，今年春节后，拥有云计算业务的中国各互联网大公司都向英伟达下了大单。字节今年向英伟达订购了超过 10 亿美元的 GPU，另一家大公司的订单也至少超过 10 亿元人民币。据一位接近英伟达的人士称，字节到货和没到货的 A100 与 H800 总计有 10 万块。

最近离职京东回澳洲的陶大程院士，前两年在京东科技探索研究院曾经搞了个当时国内最大的基于Nvidia原厂A100的2个SuperPoD，每个SuperPoD 70台DGX A100，用来搞可信AI，听说原来已经拆散的集群最近又复原了，交给何晓东博士炼丹大模型。

据了解，字节、腾讯、阿里、百度这四家中国投入 AI 和云计算最多的科技公司，过去 A100 的积累都达到上万块。其中字节的 A100 绝对数最多。不算今年的新增订单，字节 A100 和前代产品 V100 总数接近 10 万块。

成长期公司中，商汤今年也宣称，其 “AI 大装置” 计算集群中已总共部署了 2.7 万块 GPU，其中有 1 万块 A100。连看似和 AI 不搭边的量化投资公司幻方之前也购买了 1 万块 A100（注：笔者看好幻方投资复制DG&Nat模式）。

仅看总数，这些 GPU 供各公司训练大模型似乎绰绰有余——据英伟达官网案例，OpenAI 训练 1750 亿参数的 GPT-3 时用了 1 万块 V100 ，训练时长未公开；英伟达测算，如果用 A100 来训练 GPT-3 ，需要 1024 块 A100 训练 1 个月，A100 相比 V100 有 4.3 倍性能提升。但中国大公司过去采购的大量 GPU 要支撑现有业务，或放在云计算平台上售卖，并不能自由地用于大模型开发和对外支持客户的大模型需求。

这也解释了中国 AI 从业者对算力资源估算的巨大差别。清华智能产业研究院院长张亚勤 4 月底参加清华论坛时说，“如果把中国的算力加一块，相当于 50 万块 A100，训练五个模型没问题。”AI 公司旷视科技 CEO 印奇接受《财新》采访时则说：中国目前可用作大模型训练的 A100 总共只有约 4 万块。

据笔者了解，大模型算力应区分为预训练算力与推理算力。前者需要组成集群使用，节点内8卡NVLink是标配，节点间用高速InfiniBand互联，而且集群需要同一配置才能发挥整体优势；推理算力要求会低一些，甚至pcie的GPU也可以使用，而且可以随着应用的需求随时正确部署的推理模型数量。

从全球对于市场占优势软硬件垄断地位的Nvidia的GPU需求量和台积电的封装产能现状来看，预计GPU算力紧俏会持续到明年。

无疑对于整个生态链上的玩家来说，GPU算力生意是一桩好生意。据说现在最有含金量的人际关系是和英伟达老黄的关系。

AI²Paradigm v2

▩大模型炼丹(pre-training)

▩大模型挖矿(prompting)

▩大模型蒸馏(distillation)

AI²Paradigm v2 （Models Anywhere）
业界对于OpenAI从初期开源，到OpenAI LP的闭源，一直颇有微词。虽然GPT-3以后的预训练确实需要巨量的GPU训练算力开销使得继续开源无法维系，但Elon Musk的退出以及微软布局投资OpenAI LP的一进一出中，无疑微软是100倍OpenAI LP投资收益Cap内的最大赢家，投资资金大部分应该都是自家AzureCloud的代金劵，用于GPT系统的预训练和后续ChatGPT及GPT-4的服务云消耗。
社区那些曾经嘲讽Ilya在玩随机鹦鹉游戏的NLP大拿们，只能眼睁睁的看着OpenAI炼丹，个中滋味暂且不表，大概随着另一个AI元宇宙玩家-meta的大动作而稍有缓解。Meta开源了LLaMA（Large Language Model Meta AI），虽然没说可以商用，但确实也有意无意泄漏了7B，13B，30B和60B的权重文件（共200多G）。
社区沸腾了，在非常快的时间内，一长串通过各种fine-tunning手段（lora快速微调模型也适时开源了-low rank adaptation by microsoft）的开源LLMs纷纷推出。当然笔者认为这些模型能力拿来和OpenAI的ChatGPT竞争都是不现实的，更不用说GPT-4了, 但却是可以在很多细分场景落地。
随着笔者关注的硅谷天使投资组合DG&Nat，投资了llama.cpp项目，一个利用cpp重构llama的开源可以运行在PC和终端设备的推理模型，这使得终端推理（in-device inference），成为可能；
这里不得不佩服DG&Nat对于AI背景以及行业趋势的深度认知，也使得笔者的AI²范式迭代到第二个版本：即引入models anywhere理念，通过大模型蒸馏（distilling）一个个小模型，拓展出另一片广阔的应用天地。
比如6月5日 Apple WWDC大会上，展示了基于类似llama+lora可以在手机终端上运行的新功能，即一个由大型语言模型（LLM）驱动的键盘，这种键盘使用了Transformer模型，并可以在终端设备上进行运行和学习用户的打字输入模式，这个学习过程可能是在夜间通过LoRA（一种开源的LLM微调模型）完成的。
同时在前几天，知名油管大V也是MIT教授-Lex，放出了对meta CEO Mark Zuckerberg的长达数小时的专访，Zuckerberg也提到Meta也受益于llama开源，并计划使用基于llama.cpp的个人助理嵌入自家的WhatApp等应用中。
就在笔者撰写这篇文章的同时，DG&Nat更进一步，宣布为初创公司建立一个顶级大炼丹炉-仙女座星系（Andromeda Cluster）：一个由2512 H100 (314节点+3.2T IB网络互连）组成的GPU算力集群，提供10exaflops算力。足以训练65B的llama，而且比meta当初用的21天预训练时间减少到约10天。
DG&Nat这对天使组合无疑打开了大模型创投新格局，看来要引领AI开源及初创业界啊，非常令人期待！
应该也会给注意力在大模型创投的朋友提供一个极好的新模式参考，大模型GPU算力集群，某种意义上，DG&Nat学习吸收了微软投资OpenAI的模式，在大模型开源社区创业界搞了个复制。

△

“硅谷天使投资组合DG&Nat推出的为初创企业服务的顶级GPU集群”

附V2迭代线索公众号文章：当前AI²投资创业范式思考-Altman劝印度别玩大模型：没戏！Zuckerberg玩元宇宙搞LLaMA无处不在：继续！

AI²Paradigm v2版的迭代动力来自大模型开源社区，meta AI的开源策略是背后推手，使得Models Anywhere成为一种可能和趋势。

OpenAI的ChatGPT&GPT-4，本质上还是基于炼丹之后形成的预训练矿体，针对具体任务通过自身微调对齐或为大众挖矿提供token算力，OpenAI的GPT这样一种商业模式如同一个超级大章鱼，从早先就有的plugin store到最近推出的function call，如果前者plugin是借数字世界生态应用嫁接的触手，现在则是通过function call把无数吸盘的构建直接交到了最终的用户手上，目标是正在一点一点吞噬整个数字世界（world of bits）。

但构建于GPT之上应用的接纳与推广传播需要一个过程，而且当前的GPT大章鱼的运行成本相对较高（尤其是GPT-4）不一定适用所有的场景，以及应用构建还需要复杂的提示工程门槛，所以开源社区的力量与智慧在models anyhere范式上必然会有一片可以施展的广阔天地。

附v2创投范式参考：新范式创投秘笈解读-引领硅谷开源大模型创投范式“第3极” -「AI²Paradigm」：暨DG&Nat专访-有关AI民主化

AI²Paradigm v3

▩大模型炼丹(pre-training)

▩大模型挖矿(prompting)

▩大模型蒸馏(distillation)

▩大模型智能体(promptless)

AI²Paradigm v3 （Intelligent Agents）
就在AI²范式v2迭代的同一周，看到卡梅隆·沃尔夫博士（CAMERON R. WOLFE, PH.D.）在他的Deep(Learning)Focus博客放出了：LLM和它的朋友们（https://cameronrwolfe.substack.com/p/language-models-and-friends-gorilla）这篇文章，之前也注意到了像HuggingGPT、Gorilla这样的类似LLM集成器的应用框架，可以整合通用GPT和垂直模型，应用到B端场景，无疑给一众以大模型重构企业B端服务的ISV提供了一个非常好的方向和应用基础。
虽然随着OpenAI下一个GPT版本的迭代，预计达到通用人工智能（AGI）并逐步到超级人工智能（ASI），并在一定程度上吞噬专业深度模型，但正如在终端智能及个人模型方面大模型蒸馏的存在，随着模型无处不在的浪潮席卷而来，未来无论是个人还是企业无疑也会面临同时使用多个模型的情况。
笔者由此判断“模型的模型，从而形成面向复杂商业场景的B端智能体”作为一种创业投资方向，必不可少。这实际上就是完全可以独立运行（这里是否自主不确定）的大模型智能体的需求，而且与人类的交互甚至是完全自然语言或者能预测人类行为而采取计划与行动（promptless）。
面向个人，就是OpenAI请回Andrej负责的类似Javis的ChatGPT升级版的人类助手；
面向家庭，就是智能体管家；
面向复杂的企业场景，需要的则是类似HuggingGPT，Gorrila等整合社区的大量专业模型应用升级而来的商业智能体agent
由此，完成笔者当前阶段AI²Paradigm迭代，形成在投资创业应用方向的初步范式框架。

附V3迭代线索公众号文章：当前「AI²Paradigm」投资创业范式再思考-暨转译：LLM和它的朋友们形成的B端智能体

AI²Paradigm v3版的迭代背后预示了一种趋势：从人面向机器编程计算，到人面向模型Prompt，最后到硅基计算智能体为人类有生计算智能体的对等服务（也就是prompless）。

笔者预计最先看到的应该是OpenAI继ChatGPT后的另一个现象级产品-个人智能体助手。这一点从今年2月份刚从Tesla离开二进宫OpenAI的原创始成员Andrej Karpathy的个人简介可以看出。

△

“Andrej的个人介绍显示正在OpenAI构建类似JARVIS的项目”

至于家用场景，甚至更复杂的企业级场景，笔者认为还需要继续观察，但趋势必定是向智能体方向演进，会有越来越多可以自我学习的大模型深入到具体场景为人类服务。

AI²Paradigm内在逻辑（预告）

▩从GPT走向AGI/ASI

▩从Prompt走向Promptless

▩从AIGC走向Models Anywhere

▩......(有待来AI范儿Prompt微信群的朋友进一步prompt深化）

AI²Paradigm缘起与研究路径解读

时值ChatGPT公开发布半年之际，面对GPT引发的这波AI狂潮，作为AI范儿CPO（Chief Prompt Officer），在社区内外不停prompt下，沿着“GPT现象”和“相关arXiv论文”并行的两条研究轨道，循迹而行，快速跟进：

▩研究路径一：“关键GPT现象系列” [附部分公众号沉淀内容导读]

前者主要是以GPT背后的灵魂人物Ilya（OpenAI联合创始人兼首席科学家）为焦点，通过：

两个系列的关键访谈材料解读；
语言的功用参考；
GPT与人类之间交互prompt现象；

快速建立了对GPT现象的直觉认识；

▩访谈系列一：以2023/03/14（GPT-4发布前一日）英伟达老黄与OpenAI Ilya的访谈内容线索做了解读，主要是访谈内容基本按顺序覆盖了Ilya从1993年入学深度学习教父Hinton门下到2022年ChatGPT发布的20年生涯，共分为3个时间段：

△

“2023/03/14 英伟达老黄与OpenAI Ilya的访谈视频截图”

[E01S01] 解读内容时间覆盖[1993-2017]

AI大神Ilya访谈揭秘GPT-4成功背后的关键，20年如一日的AGI坚守终惊艳世界

[E02S01] 解读内容时间覆盖[2017-2020]

AGI创世者llya：为伊消得人憔悴，十年终迎GPT震撼崛起

[E03S01] 解读内容时间覆盖[2020-2025]

从「维特根斯坦」哲学“语言游戏”到「伊利亚」的大语言模型“GPT智能体” （三）

▩GPT现象的语言本质思考引入：语言功用及交互Prompt现象

互为Prompts：大语言模型的预训练智能体到底意味着什么？

△

“Diffusing Hands by Andrew Krill：一次“AI Art”尝试”

▩访谈系列二：则分别选取从2023/04/19倒推自2022/10/27的3篇不同风格的访谈，结合维特根斯坦的“哲学研究”中的“语言游戏”概念（受到复旦哲学系徐英瑾教授所著《心智语言与机器》prompt），做了第2季的3篇解读。一个有趣的现象是Ilya的访谈内容明显受到ChatGPT商业化后公司PR的微调限制，有趋向保守的现象，所以在3篇解读顺序上采取访谈时间倒叙成文，以涉及细节较多的ChatGPT发布前夕的访谈做了4万字的终结篇解读。

△

“左：伊利亚；右：维特根斯坦-笔者理解GPT现象本质的路标”

[E01S02] Inside OpenAI [Entire Talk] by Stanford eCorner [2023/04/19]

‍从「维特根斯坦」“语言游戏”到「Ilya」的 “LLM GPT智能体” （一）

[E02S02] Building AGI, Alignment, Spies, Microsoft & Enlightenment by Dwarkesh Patel@The Lunar Society [2023/03/27]

从「维特根斯坦」“语言游戏”到「Ilya」的 “LLM GPT智能体” （二）

[E03S02]What, if anything, do AIs understand? by Spencer Greenberg @Clearer Thinking - the podcast about ideas that matter [2022/10/27]

从「维特根斯坦」哲学“语言游戏”到「伊利亚」的大语言模型“GPT智能体” （三）

现象系列也许只能了解过去的GPT，当前整个AI范式狂潮仍旧快速发展，席卷而去，要跟进的话还需要时刻关注领军人物如：

2018图灵奖得主、深度学习三巨头Hinton、Bengio、LeCun的youtube访谈或者在Twitter等知识流平台的发声；

AGI大厂google、meta和microsoft的发展和OpenAI这些直奔AGI/ASI而去独角兽的发展动向；

Transformer论文8作者的去向选择；

等等这些都是需要关注的对象。

▩研究路径二：“SOTA工程技术系列” [附部分公众号沉淀内容导读]

后者所谓工程系列是通过转译卡梅隆·沃尔夫博士的Deep(Learning)Focus的有关LLM思维树以及提示工程相关arXiv论文总结，以及相关技术论文的阅读，尝试建立工程与应用上的由浅入深的递次认知。

「提示工程系列」转译(1)：思维链（CoT）提示-一种实用而简单的LLM“推理”方法

「提示工程系列」转译(2)：实用提示工程-成功提示 LLM 的提示和技巧

「提示工程系列」转译(3)：提示工程进阶-当小样本学习还不足以解决问题怎么办？

「提示工程系列」转译(4)：提示合奏使LLM更可靠-简单策略挖掘更多LLM潜能

从PaL到PoT，用程序辅助语言模型，释放大语言模型推理潜能

原作者作为专业PhD，每篇文章都是直接从十数篇相关arXiv论文总结而来，从思维链（CoT 转译1）到提示工程的进阶三部曲（转译2/3/4），如果加上前一段时间出现的ToT（Tree of Thoughts，笔者未做转译看自行参考相关arXiv论文），有关提示工程的arxiv论文总结基本告一段落，原作者后来提出程序辅助语言模型（基于PaL的PoT）无疑更高阶，笔者理解与最近OpenAI官方推出的code interpreter思路上是类似的。

△

“卡梅隆·沃尔夫博士的Deep(Learning)Focus”

另有以下公众号资源未覆盖，但确实是工程技术相关盲点理解需要，笔者自行阅读的arXiv论文及其概要介绍：

GPT-4技术报告：https://arxiv.org/pdf/2303.08774 [last revised 27 Mar 2023 (this version, v3)]

PT-4 Technical Report
我们报告了GPT-4的开发情况，这是一个大规模的多模态模型，可以接受图像和文本输入并产生文本输出。虽然在许多现实世界的场景中，GPT-4的能力不如人类，但在各种专业和学术基准上表现出人类水平的性能，包括在模拟的律师考试中，以大约前10%的考生的分数通过。GPT-4是一个基于Transformer的模型，经过预先训练，可以预测文档中的下一个token。训练后的对齐过程使事实性和期望行为的衡量标准测试上的表现得到改善。这个项目的一个核心部分是开发基础设施和优化方法，这些方法在广泛的尺度上表现得可预测。这使我们能够根据以不超过GPT-4计算量的1/1000的训练模型准确地预测GPT-4的某些方面的性能。

GPT-3论文: https://arxiv.org/pdf/2005.14165 [last revised 22 Jul 2020 (this version, v4)]

Language Models are Few-Shot Learners
最近的研究表明，在许多NLP任务和基准上，通过对大型文本语料库进行预训练，然后在特定任务上进行微调，可以获得巨大的收益。虽然在结构上通常是任务无关的，但这种方法仍然需要特定任务的微调数据集，包括几千或几万个例子。相比之下，人类通常可以从几个例子或简单的指令中完成一项新的语言任务--而目前的NLP系统在很大程度上仍然难以做到这一点。在这里，我们展示了扩大语言模型的规模，大大改善了与任务无关的、少量的性能，有时甚至达到了与之前最先进的微调方法的竞争力。具体来说，我们训练了GPT-3，一个具有1750亿个参数的自回归语言模型，比以前的任何非稀疏语言模型多10倍，并测试了它在少数情况下的性能。对于所有的任务，GPT-3的应用没有任何梯度更新或微调，纯粹通过与模型的文本互动来指定任务和少量演示。GPT-3在许多NLP数据集上取得了强大的性能，包括翻译、回答问题和cloze任务，以及一些需要即时推理或领域适应的任务，如解读单词、在句子中使用一个新词或进行3位数的算术。同时，我们也发现了一些数据集，在这些数据集中，GPT-3的少样本学习仍然很困难，还有一些数据集，GPT-3面临着与大型网络语料库训练有关的方法学问题。最后，我们发现，GPT-3可以生成人类评价者难以区分的新闻文章样本。我们讨论了这一发现和GPT-3总体上的更广泛的社会影响。

Scaling Law论文：https://arxiv.org/pdf/2001.08361 [Submitted on 23 Jan 2020]

Scaling Laws for Neural Language Models
论文研究了语言模型（LLMs）性能在交叉熵损失（the cross-entropy loss）上的经验扩展规律。损失随着模型大小、数据集大小和用于训练的计算量的增加而呈幂律变化，有些趋势跨越了七个数量级。其他架构细节，如网络宽度或深度，在很大范围内影响很小。简单的方程控制着过拟合对模型/数据集大小的依赖性以及训练速度对模型大小的依赖性。这些关系使我们能够确定固定计算预算的最佳分配。较大的模型明显地更有样本效率，因此，最佳计算效率的训练包括在相对较少的数据量上训练非常大的模型，并在收敛之前明显停止。

Transformer论文：https://arxiv.org/pdf/1706.03762 [last revised 6 Dec 2017 (this version, v5)]

Attention is all you need
占主导地位的序列转导模型是基于复杂的递归或卷积神经网络的编码器-解码器配置。性能最好的模型还通过注意机制将编码器和解码器连接起来。我们提出了一个新的简单的网络结构--Transformer，它只基于注意力机制，完全不需要递归和卷积。在两个机器翻译任务上的实验表明，这些模型在质量上更胜一筹，同时也更容易并行化，需要的训练时间也大大减少。我们的模型在WMT 2014英德翻译任务中达到了28.4 BLEU，比现有的最佳结果（包括合集）提高了2 BLEU以上。在WMT 2014英法翻译任务中，我们的模型在8个GPU上训练了3.5天后，建立了新的单模型最先进的BLEU得分，即41.8分，只是文献中最佳模型的训练成本的一小部分。我们通过将其成功地应用于有大量和有限训练数据的英语选区解析，表明Transformer可以很好地推广到其他任务。

Multi-modal DL会议文集：https://arxiv.org/pdf/2301.04856.pdf [Submitted on 12 Jan 2023]

Multimodal Deep Learning
本书是一个研讨会的成果，在这个研讨会上，我们回顾了多模态方法，并试图创建一个坚实的领域概述，从深度学习的两个子领域的当前最先进的方法开始。此外，我们还讨论了将一种模式转化为另一种模式的建模框架，以及利用一种模式来加强另一种模式的表达学习的模型。在第二部分的最后，我们介绍了侧重于同时处理两种模态的架构。最后，我们还介绍了其他模态以及通用的多模态模型，它们能够在一个统一的架构中处理不同模态的不同任务。一个有趣的应用（艺术生成）最终为这本小册子画上句号。

当然，这波GPT-4为代表的AI现象，一个显著的特征就是每天都有大量的arXiv的论文提交，以及在社区内传阅讨论；

随着个人对现象本质理解的递次深入，以上所列的论文是远远不能覆盖的。好在GPT已经突破人类语言理解与生成并广泛通过ChatGPT等应用传播的今天，我们只要紧紧跟进代表最领先技术发展水平（State-of-the-Art）的技术路线，就可以把前期论文阅读量降到最优，而不至于陷入前20年深度学习的工程文档泥潭。

另外，以上这些论文，除了自己阅读，在油管上也有非常多的工程大佬放出了详细的解读视频，可以一并参考，以及很多GPT工具如chatPDF，chatYoutube可以帮助快速提高论文学习效率。

对于NLP和图像生成扩散模型方向的最新突破，要有更深层次原理或本质理解，还需要更多的阅读。比如Sanjeev Arora and Tengyu Ma写得BP的原理介绍文章、stephenwolfram写的chatgpt长文、lesswrong的博客，@benthompson的Stratechery博客含金量也非常高，波炙手可热的这波AI投资机构a16z的AI圣经集（AI Canon）更是需要AI信仰才能全部读完吧......

凡此种种，不一而足；某种意义上，是为了理解人工神经网络（ANN），对人类生物神经网络（BNN）的预训练。从今天GPT理解生产人类语言的程度来看，ANN和BNN的底层数学原理和计算逻辑已经非常类似。

AI²Paradigm（案例）（预告）

参考

-AI范儿社区Prompts

END

扫码加群，

立变AI🍚！

AI范儿读者群

👇关注、标星哦～

那些prompt了我的，

是否也prompt了你...

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

谁会想到，裁员会裁到总编辑头上

太讽刺：搞宣传的，倒台了！

@所有人，今日起全部免费领取

现在有什么副业可以让人快速上岸? 可以试试这个行业，上岸其实不难!!

啥？“炼丹”、“挖矿”、“蒸馏”，还有”智能体“？-「AI范儿」一文厘清大模型范式创业投资与应用万象：AI²Paradigm

AI²Paradigm价值模型迭代路径

AI²Paradigm内在逻辑（预告）

AI²Paradigm缘起与研究路径解读

AI²Paradigm（案例）（预告）

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗 是中国厄运的开始！

谁会想到，裁员会裁到总编辑头上

太讽刺：搞宣传的，倒台了！

@所有人，今日起全部免费领取

现在有什么副业可以让人快速上岸? 可以试试这个行业，上岸其实不难!!

生成图片，分享到微信朋友圈

啥？“炼丹”、“挖矿”、“蒸馏”，还有”智能体“？-「AI范儿」一文厘清大模型范式创业投资与应用万象：AI²Paradigm

AI²Paradigm价值模型迭代路径

AI²Paradigm内在逻辑（预告）

AI²Paradigm缘起与研究路径解读

AI²Paradigm（案例）（预告）

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！