从「维特根斯坦」“语言游戏”到「Ilya」的 “LLM GPT智能体” （二）

Original ai汤源 AI范儿 2023-08-21

收录于合集

#维特根斯坦 5 个

#人工智能 62 个

#gpt 9 个

#AIGC 13 个

#Ilya访谈解读 7 个

Ilya系列访谈解读E02S02 - AGI未来时代的憧憬

图｜汤源
文｜汤源

题记

看Ilya的访谈，正如看主持人与“一个精确预测下一个词的生物智能体”的交互“prompts”。而Ilya，可以说是当今“最懂”人工神经网络（ANN）的通用人工智能（AGI）科学家。

注：Prompt 与 GPT

提示词prompt是用来与大语言模型预训练服务交互的一段自然语言文本，这段文本可以是一个问题、一个陈述或一个信息请求。通过遵循prompt，GPT服务可以生成与主题相关的文本。

GPT服务是一个基于语言模型的文本生成器，它可以根据你提供的prompt来生成各种类型的文本，比如对话、故事、诗歌、代码等。但是，如果你不给它一个明确的prompt，它可能会产生一些不相关或不合理的文本。所以，使用prompt可以帮助你和GPT服务更好地沟通，得到你想要的结果。

要是再一次照应本季解读主题的话，GPT确实像一种“语言游戏”，用千亿级的参数向量空间来重新定义每一个字词，利用Token Prediction游戏规则，然后采用prompt交互来生成文本。不过Ilya这GPT语言游戏玩的有点大，根据最新的系列访谈内容判断，GPT-5肯定在训练中，而参数量级在万亿级以上，训练所需巨量的算力已经让Ilya动起了全球所有GPU重新分配的主意。当然作为一个商业公司，在看不到经济上回报的前提下，GPT-5何时发布，只能拭目以待了。

这一系列解读的成文，是因为最近翻看了油管上的Ilya的三篇访谈，按访谈时间倒序，分别是：

1. E01S02-Inside OpenAI [Entire Talk] by Stanford eCorner；来自STVP斯坦福科技风投计划。

2. E02S02-Ilya Sutskever (OpenAI Chief Scientist) - Building AGI, Alignment, Spies, Microsoft, & Enlightenment by Dwarkesh Patel；来自The Lunar Society播客。

3. E03S02-敬请期待。

继昨天放出【Ilya系列访谈解读E01S02 - 基于ANN的深度学习大语言模型极简而美妙】，作为理解GPT为代表的AGI现象的捷径，放出灵魂人物Ilya言行解读第二季第二篇【Ilya系列访谈解读E02S02 - AGI时代的憧憬】。

Dwarkesh Patel主持了一个专业的博客社区：The Lunar Society。准备的问题宽泛、尖锐而令人兴奋，日前亲自赶往OpenAI在San Fransisco的办公室，与OpenAI联合创始人、首席科学家Ilya Sutskever进行了一次大信息量的交互prompts：

Prompts列表:

- time to AGI 「通用人工智能时间表」 leaks and spies「参数泄露或间谍风险」

- what's after generative models「生成模型之后还会有什么」

- post AGI futures「后AGI时代的未来」

- working with Microsoft and competing with Google「与微软的合作和与谷歌的竞争」 - difficulty of aligning superhuman AI「超级人工智能的对齐难题」

访谈中甚至还提到了”台湾”，对的，要是台湾被海啸淹了半导体晶圆厂，AGI还有戏么？访谈内容丰富，对话完整呈现，并按博主原文分成以上多个子主题，每个子主题笔者都做了个人理解与备注。

全文阅读时间可能会有点长，可以跳着看，相信每一次都会有收获。

访谈正文及评论

访谈正文图例：

D: Dwarkesh Patel

I: Ilya Sutskever

通用人工智能时间表【time to AGI】

▩Ilya大神在AGI领域的多次突破背后的秘诀？

D:专业领域的突破很难，个人职业生涯多次领域突破更是难上加难，请问有啥秘诀？

I: 这个问题难倒我了。我真是使尽了全力，为了AGI倾尽所有，目前为止看起来努力起到作用了。仅此而已。

借这个问题简单寒暄暖场之后，Dwarkesh迅速进入主题。

▩都说GPT服务有被恶意利用的风险，我们咋还没看到呢？

D:怎么解释目前看起来并没有多少恶意使用GPT服务的现象呢？比如使用GPT来做政治宣传或者有人用来骗老奶奶钱呢？

I: 这个也许真正在这样做的还不是很多。但是，如果其中真有一些正在进行中，我也不会感到惊讶。肯定也可以想象这些人会采用一些开源模型并尝试用于该目的。当然，可以预期这是他们将来肯定会感兴趣的事。

D:所以说作恶技术上可行，只是他们还没想好？

I: 或者在他们的技术水平还没有一定规模上发生，又或者已经正在进行中了，这确实蛮恼人的。

D:你们能追踪确认这些作恶是否已经发生了么？

I: 是的，我想大范围活动追踪是可能的，需要一些特定的操作但是可行的。

之前在GPT-4的安全报告里提出了很多类似这样的风险，也许一切都在悄悄进行中吧，让我们拭目以待。

▩AI经济价值及基于GPT创业的窗口期

D:AI会有巨大的经济价值，虽然我们目前还没有实现AGI，这个时间窗口会有多大？

I: 很难给出准确的答案，这肯定会是一个很好的多年期窗口。这也涉及AI定义的问题。因为 AI 在成为 AGI 之前，将以指数方式年复一年地变得越来越有价值。

用事后观点来看，可能感觉只有一年或两年，因为这两年比前几年大。但我要说的是，去年人工智能已经产生了相当多的经济价值，明年之后会越来越大。所以我认为这将是一个很好的多年时间段，从现在GPT阶段到 AGI 几乎都会如此。

D:主要是好奇，如果基于GPT创业，可能某一天你们实现了AGI，那么全世界OpenAI的AGI业务一家独大，留给那些从事AGI不能做的业务窗口能有多少了？

I: 这和刚才AGI 需要多长时间实现是同一个问题，也很难回答。我不确定要不要给你一个量化的数字。也因为存在一种倾向，AGI技术领域的乐观从业者往往会低估到达AGI所需的时间。但我让自己扎根坚守的方式是对比思考自动驾驶AI领域。特别是，有一个类比，如果你看看特斯拉的规模，如果你看它的自动驾驶行为表现，它看起来就像无所不能。但也很明显，自动驾驶在可靠性方面仍然还有很长的路要走。我们可能在AGI大模型方面处于相似的情形，看起来可以做所有事情，但同时，我们需要做更多的工作，直到真正解决所有问题并让它变得非常好并且非常可靠，稳健且表现良好。

D:那到2030年，你预计AI能占GPT多少百分比？

I: 喔，天啦，这个非常难以回答。

D: 给个大概估计？

I: 哈，问题是我的错误栏是对数刻度。我可以想象一个很大的百分比，同时我可以想象一个非常令人失望的小百分比。

D: 好吧，让我们取反事实的只占GDP一小部分这个百分比。假设现在是 2030 年，这些 LLM 并没有创造那么多的经济价值。尽管您认为这不太可能发生，但对于为什么会发生这样的事情，您现在最好的解释是什么？

I: 我真的认为这不太可能，这是接下来评论的前提。但如果我以你的问题为前提，为什么LLM的发展这个事情在现实世界的影响方面令人失望？我的回答是“可靠性”。如果最终以某种方式成为这种情况：您真正希望它们可靠而它们最终不可靠，或者可靠性的实现比我们预期的要难。我真的不认为会是这样。但如果我不得不选择一个，而你告诉我：嘿，为什么这事没有成功？那会是可靠性。您仍然需要查看答案并仔细检查所有细节，确认“可靠性”确实抑制了这些AI系统可以产生的经济价值。

D: 知道了。他们在技术上将会成熟，只是他们是否足够可靠的问题。

I: 嗯，某种意义上，不够可靠就是技术上不够成熟。

技术是一回事，商业化又是另一回事，智能体的可靠性和可控性变得至关重要。AGI智能体服务是用来作恶还是造福人类，往往是一念之间，技术能解决可靠性问题么？

AIGC之后

有关通用人工智能（AGI）路径

▩通向AGI的范式

D:生成模型之后是什么？在这之前您正在研究强化学习。基本上是这样吗？这会是让我们走向 AGI 的范式吗？或者这之后还有什么？

I: 我认为这种范式会走得非常非常远，我不会低估它。这种确切的范式很可能不会完全成为 AGI 标准范式。我不想准确地说出下一个范式是什么，但可能会涉及整合过去出现的所有不同想法。

D:有咩有具体所指呢？

I: 目前还很难。

▩Token预测背后

D:所以，如果说“下一个Token预测“（GPT目前的实现机制，Token对应一个字词的向量化表示）只能帮助我们达到人类的智能表现，也许无法超越它，这可能会引起争论？超越人类的智能表现需要什么？

I: 我所质疑的是“下一个Token预测”不能超越人类语言表现的说法。从表面上看，它似乎不能。看起来如果你只是学会模仿人类语言，去预测人们说什么，那就意味着你只能复制人类语言。但这里有一个对立的论点，说明为什么它可能不完全如此。如果你的基础神经网络足够聪明，你只要问它——一个有洞察力、智慧和能力的人会怎么做呢？也许这样的人不存在，但人工神经网络（智能体）很有可能能够推断表达出这样智慧的人会怎么做。你明白我的意思吗？

D:是的，关于“那个具备GPT智慧的人会说什么的洞察力”从哪里来的呢？如果不是从…

I: 来自普通人的文本数据的学习。因为如果你仔细想想，“足够好地预测下一个Token”意味着什么？这实际上是一个比表明看起来更深层次的问题。“很好地预测下一个Token”意味着您理解了导向创建该Token的所表达的底层现实。这不是统计数据，如果硬要说像统计数据，但我的问题是“统计数据是什么”？

为了理解这些统计数据，并得以压缩它们，您需要了解创建这组统计数据的世界是什么？然后你说 - 好吧，我有所有这些人的语言文本数据。那这些人创造行为集合的人是什么？嗯，他们有想法和感觉，他们有主意，他们以特定的方式做事，所有这些都可以从“下一个Token预测”这种机制中推断出来，而且我认为这应该使它成为可能，不是无止限的而是在相当不错的程度上说 - 好吧，你能猜出如果你选择一个具有这种性格和那种特征的人你会做什么吗？即使这样的人不存在，但是因为你很擅长“预测下一个Token”，你应该仍然能够猜到那个人会说什么。而这个假设的、虚构的人比我们其他人的智力要强得多。

▩AI自主迭代

D:当我们对这些GPT模型进行人工反馈强化学习（RLHF）时，大概还需要多长时间，强化学习所需的大部分数据会由目前人类提供转而来自人工智能呢？

I: 大多数缺省的强化学习数据已经来自 AI生成了。奖励功能训练还是由人工进行。但是奖励函数及其与模型的交互是自动的，强化学习过程中生成的所有数据都是由 AI 创建的。如果你看一下当前的技术/范式，由于 chatGPT，人类反馈强化学习 (RLHF)，它得到了一些显著的关注。人类反馈已用于训练“奖励函数”（Reward Functions），然后“奖励函数”用于创建训练模型所需的数据。

D:了解了。是否有希望将人类从模型迭代循环中移除并让模型以某种 AlphaGo 的方式自我改进？

I: 是的，绝对是这样。你真正想要的是训练人工智能的人类训练师与人工智能合作。你可能想把它想象成这样的一个情形：人类训练师做 1% 的工作而人工智能做 99% 的工作。你不希望它是 100% 的 AI完成，但你确实希望它是一种人机协作，它可以训练出下一代机器智能体。

▩多步推理不是问题

D:我有机会尝试使用过这些模型，但它们似乎都不擅长多步推理。虽然他们一直在变得更好，但真正超越推理障碍需要什么？

我认为针对模型做专门的训练可以做到，对基础模型越来越多的改进将使我们到达可以多步推理的程度。但从根本上说，我也不觉得他们在多步推理方面有那么糟糕。我实际上认为，当不允许他们大声思考时，他们不擅长心理多步推理。但是当他们被允许大声思考时，他们就很好了。我希望通过更好的模型和特殊训练，这会得到显着改善。

这一段可以看出，Ilya认为GPT-4的潜能还有待挖掘，另外仍然坚信GPT之路会通向AGI。多步推理当前在GPT-4上，实际上可以通过autogpt或者适当的prompt是可以改善或者达到推理结果的。

数据、模型与探索

继续GPT规模层级上的军备竞赛

▩用于训练的数据还有，但需要在用完之前找到新方法提升模型能力和行为

D:目前在互联网上的推理令牌用完了吗？还有足够的吗？

I: 稍微解释一下这个问题的背景，有人声称在某个时候，我们会用完所有的Token，通常用来训练这些模型的。是的，我认为这一天会到来，到那时，我们需要有其他的方法来训练模型，其他的方法来有效地提高模型的能力和提升模型的行为，确保它们做的正是你想要的，而且（这种方法）不需要更多的数据。

D:你还没有用完数据吗？还有更多吗？

I: 是的，我会说数据的情况还是相当不错的。还有很多可以做的。但在某个时候，数据会用完的。

D: 什么是最有价值的数据来源？是 Reddit，Twitter，书籍？你会为了什么而训练更多其他种类的Token呢？

I: 一般来说，你希望用于训练的Token是关于更聪明的事情，是更有趣的。你提到的所有数据来源都是有价值的。

D: 所以也许不是 Twitter。我们需要走多模态来获得更多令牌吗？或者我们还有足够的文本令牌吗？

I: 我认为你仍然可以在纯文本中走得很远，但走多模态似乎是一个非常富有成果的方向。

D: 如果你愿意谈论这个，还有哪些地方我们还没有搜刮训练令牌？

I: 显然我不能回答这个问题对我们来说是什么，但我相信对每个人来说这个问题都有不同的答案。

D: 我们可以从算法改进中获得多少数量级的提升，而不是从规模或数据中获得？

I: 很难回答，但我相信有一些。

D: 一些是很多还是很少？

I: 只有一种方法可以找出来。

D: 好的。让我听听你对这些不同的研究方向的快速意见。就像检索变换器，所以就是以某种方式将数据存储在模型本身之外，并以某种方式检索它。

I: 看起来很靠谱。

D:但你认为这是一条可以前行的路径吗？

I: 看起来很有前途。

▩为什么当时暂停智能体的行动方向的研究-机器人

D: 机器人学，OpenAI 把这个领域留在身后是正确的选择吗？

I: 是的，是的。当时继续在机器人学方面探索真的是不可能的，因为数据太少了。那个时候如果你想开展机器人学领域工作，你需要成为一个机器人公司。你需要有一个非常庞大的团队来建造和维护机器人。即使这样，如果你要有 100 台机器人，这已经是一个巨大的动作了，即使这样你得到的数据并不会太多。所以在一个大部分进步来自于计算和数据的组合的世界里，机器人学上当时没有数据路径。所以当时的情况就这样，没有前进的路径，我们做出决定停止在机器人学方面工作。

D:现在有了么？

I: 我会说现在有可能创造出一条前行的路径。但你需要真正致力于机器人学的任务。你真的需要说——我要建造成千上万、数万、数十万台机器人，并以某种方式从它们那里收集数据，并找到一条渐进的路径，让机器人做一些稍微有用的事情。然后用所获得的数据来训练模型，它们就会做一些更有用的事情。你可以想象这是一条渐进的改进之路，你建造更多的机器人，它们做更多的事情，你收集更多的数据，等等。但你真的需要致力于这条路。如果你说，我想让机器人学发生，那就是你需要做的。我相信有些公司正在做这样的事情。但你需要真正热爱机器人，并且需要真正愿意解决所有与它们打交道的物理和后勤问题。这和软件完全不一样。我认为今天可以在机器人学方面取得进展，只要有足够的动力。

D: 你有什么想尝试但因为它们在当前硬件上运行不好而不能实现的想法吗？

I: 我不认为当前硬件是一个限制。这根本不是事实。

D: 明白了。但是你想尝试的任何东西你都可以启动吗？

当然。你可能希望当前硬件更便宜，比如说，或者也许如果它有更高的内存处理带宽会更好。但总体而言，硬件根本不是问题。

从当前模型潜力看，数据不是问题，算法和方法也有改进空间，另外OpenAI始终定位于AGI，机器人智能体肯定会在考虑的方向之内。

对齐问题【Alignment】

对齐问题与AGI的价值休戚相关

▩ 获得经济回报用于更大规模大AGI训练一个前提就是要解决好对齐问题

D: 让我们谈谈对齐问题。你认为我们会有一个数学定义的对齐吗？

I: 一个数学定义是不太可能的。与其实现一个数学定义，我认为我们会达到多个从不同方面的对齐定义，这就是：我们如何获得我们想要的安全保证。我的意思是，你可以在各种测试中观察模型的行为、一致性，在各种对抗性的压力情况下，你可以从内部观察人工神经网络是如何运作的。以上这几个因素必须同时考虑。

D: 在你把一个模型对外开放之前，你要对对齐问题有多确信？100%？95%？

I: 这取决于模型有多强大。模型越强大，我们越需要更高确信度。

D: 好吧，那么假设它是几乎是就是个AGI 。AGI 在哪里？

I: 这取决于你的 AGI 能做什么。请记住，AGI 是一个模糊的术语。平均的大学本科生的水平就可以是一个 AGI，对吗？在 AGI 的含义上有很大的模糊性。就看你把这个标尺放在哪里，你需要更多或更少的确信度。

D: 你之前提到了一些通向对齐的路径，你认为目前哪一个最有前途？

I: 我认为这将是一个组合。我真的认为你不会想只有一种方法。人们想要有多种方法的组合。你花了很多针对性算力找到你想要训练它的行为和它表现出来的行为之间的任何不匹配。我们会用另一个神经网络来观察神经网络是如何从内部运作的，以了解它是如何运作的，所有这些都是必要的。每一种方法都会降低不对齐的概率，而且你也想处在一个你的对齐程度比模型的能力增长得更快的情形里。

D: 你认为我们今天用来理解模型的方法是否适用于真正强大的模型？或者它们有多适用？它们是同样的东西也会在超级人工智能身上奏效吗？

I: 这可不是确保的。我会说现在，我们对模型的理解还是相当初级的。我们取得了一些进展，但还可能有更多的进展。所以我期望最终，真正成功的事情是，当我们有一个小型神经网络，是很容易理解的，它被给予了研究一个大型神经网络，是不容易理解的，从而来验证大型神经网络的行为。

D: 在什么时候，大部分 AI 研究都是由 AI 来做的？

I: 今天当你使用 Copilot 时，你是如何区分它的？所以我期望在某个时候你问你的 ChatGPT 的后代，你说：嘿，我在想这个和那个，你能给我一些有成效的想法吗？我应该尝试吗？而且你真的会得到有成效的想法（而不是替代你的行动），我不认为这会让你能够解决以前不能解决的问题。

D: 明白了。但它只是以某种方式告诉人类给他们更快地提供想法或者什么。它本身没有与研究互动吗？

I: 那是其中一个例子。你可以用各种方式剖析它。但问题关键瓶颈所在是：好的想法，好的洞察力，而这些是神经网络可以帮助我们的地方。

D: 如果要为某种对齐研究的结果或产品设计一个十亿美元的奖金，你会设定什么具体的标准呢？有没有什么有意义的标准可以用于颁发这样金额的奖金？

I: 你问得好，我其实正在思考这个问题。我还没有想出确切的标准。也许设立一个奖金，我们可以说两年后，或者三年后，或者五年后，我们回头看，说那是主要的结果。所以不是说由一个奖金委员会马上决定，而是等五年再追溯地颁发。

D: 但是我们没有什么具体的东西可以确定，比如说你解决了这个特定的问题，你就取得了很大的进步？

I: 取得了很大的进步，是的。我不会说这就是全部的事情。

D: 你认为端到端训练是更大模型构建的正确架构吗？还是我们需要更好的方式来把东西连接起来？

I: 端到端训练很有前途，把东西连接起来也很有前途。

D: 哈，一切都很有前途。OpenAI 预计在2024年实现10亿美元的收入。这个数字可能是正确的，但我只是好奇，当你谈论一种新的通用技术时，你如何估计它会带来多大的意外收获？为什么是这个特定的数字？“

I: 我们已经有了一个产品，从两年前的 GPT-3 时代开始，通过 API，我们看到了它是如何成长的。我们也看到了对 DALL-E 的反应是如何增长的，你也看到了对 ChatGPT 的反应是怎样的，所有这些都给了我们信息，让我们能够做出相对合理的推断。也许这就是一个答案。你需要有数据，你不能凭空想出这些东西，因为否则，你的推断会在每个方向上有 100 倍误差范围。

D: 但是大多数指数不会一直保持指数增长，尤其是当它们涉及到越来越大的数量时，对吧？那么你如何在这种情况下确定呢？

I: 你会和人工智能对赌吗？

对齐问题很重要，正如你培养下一代，也许开发他的智力培养成专家有径可循，但如何培养他的价值观，这个可是没有很好的数学的方法；而且AGI产品化以及商业回报，都依赖对齐问题的解决程度。没有人会为一个胡说八道的GPT服务付费的吧？另外万一AGI在下一个规模等级上有了莫名的自主意志呢？在有了连接一切的plugin的基础上，某种意义上我有点理解Geoffrey Hinton老爷子最近关于AGI安全的警告了。。。

后AGI未来畅想【Post AGI future】

让AGI帮我们把这个世界变得更美好

▩AGI对个人的影响

D: 和你聊过之后，我不会这么想了。让我们谈谈后 AGI 未来是什么样子的。我猜你每周工作 80 小时，为了这个你非常着迷的宏伟目标。假如未来在一个基本上生活在类似AI 养老院的世界里，你会满意吗？AGI 时代到来之后，你个人会做什么？

I: 关于我会做什么或者人们会做什么的问题，在 AGI 来了之后，是一个非常棘手的问题。人们将到哪里寻找意义？但我认为这是 AI 可以帮助我们的地方。我想象的一件事是，我们将能够变得更加开悟，因为我们与一个 AGI 互动，它将帮助我们更正确地看待世界，并且因为互动而在内心变得更好。想象一下和历史上最好的冥想老师交谈，这会是一件有帮助的事情。但我也认为，因为世界会发生很大的变化，人们很难理解到底发生了什么，以及如何真正做出贡献。我认为有些人会选择做的一件事是成为部分 AI。为了真正扩展他们的思维和理解，以及真正能够解决当时社会面临的最难的问题。

▩曾经的AGI预期与现实

D: 我们今天拥有的AI能力，在哪些方面超过了我们在 2015 年预期的水平？又在哪些方面还没有达到你预期的水平？

I：公平地说，这有点像我在 2015 年所期待的。在 2015 年，我的想法更多的是：我不想和深度学习对赌，我想最大可能的下赌注在深度学习。我不知道怎么做，但知道最终会想出办法的。

D: 但有没有具体的方式比您预期的要多或比您预期的要少？就像 2015 年的一些具体预测被否决了一样？

I: 不幸的是，我不太记得我在 2015 年做出的具体预测。但我绝对认为，总的来说，在 2015 年，我只是想在深度学习上做出最大可能的赌注，但我并不清楚，对于七年后事情会发展到什么程度，我并没有具体的想法。好吧，具体来说，在 2015 年没有，我在 2016 年，也许是 2017 年，确实与人们一起度过了所有这些最好的时光，AGI这件事会走得很远。所以这就像，它既让我感到惊讶，又让我做出了这些激进的预测，但也许我在内心只相信他们能有 50%的把握。

D: 现在您所坚信的，即使是 OpenAI 内部的大多数人也会觉得有些够不着？

I: 因为我们在 OpenAI 进行了很多交流，所以人们对我的想法有很好的理解，而且我们在 OpenAI 内部已经真正达到了我们在所有这些问题上意见一致的地步。

▩ 如何看待AGI竞争

D: 谷歌拥有其定制的 TPU 硬件，它拥有来自其所有用户、Gmail 等的所有这些数据。是否让他们在训练比你更大的模型和更好的模型方面有优势？

I: 起初，当 TPU 面世时，我印象非常深刻，我想：哇，这太棒了。但那时我还不太了解硬件。事实证明，TPU 和 GPU 几乎是一回事。他们非常非常相似。GPU 芯片大一点，TPU 芯片小一点，也许便宜一点。但随后他们制造了更多的 GPU 和 TPU，因此 GPU 最终可能会更便宜。

但从根本上讲，你有一个大的处理器，你有很多内存，而这两者之间有一个瓶颈。TPU和GPU试图解决的问题是，从内存移动一个浮点数到处理器所花费的时间，你可以在处理器上做几百次浮点运算，这意味着你必须做一些批处理。从这个意义上说，这两种架构是一样的。所以我真的觉得在某种意义上，硬件唯一重要的事情就是每次浮点运算的成本和整体系统成本。

D: 这两者之间没有太大的区别吗？

I: 实际上，我不知道。我不知道TPU的成本是多少，但我怀疑如果有什么不同的话，TPU可能更贵，因为它们的数量更少。

后AGI未来畅想的算力成本，以及社会成本，能否实现？但笔者目前的认知是GPT突破了语言的理解与生成，本身就像Ilya所说的，包括他本人也为了理解GPT花了很多时间与GPT冥想，*我们将能够变得更加开悟，因为我们与一个 AGI 互动，它将帮助我们更正确地看待世界，并且因为互动而在内心变得更好。

新想法被高估了

GPT研究最重要的是理解ANN如何工作

▩“想法”重要还是“理解”重要

D: 当你在做你的工作时，有多少时间花在配置正确的初始化？确保训练运行顺利并得到正确的超参数，有多少时间是在想出全新的想法？

I: 我会说这是一个组合。想出全新的想法是工作的一小部分。当然，想出新想法是很重要的，但更重要的是理解结果，理解现有的想法，理解发生了什么。神经网络是一个非常复杂的系统，对吧？你运行它，你得到一些行为，这很难理解。发生了什么？理解结果，找出下一个要运行的实验，很多时间都花在这上面。理解可能出了什么问题，可能导致神经网络产生一个意料之外的结果。我会说很多时间也花在想出新想法上，我不太喜欢这种表述，不是说它是假的，但主要的活动实际上是“理解”。

D: 你认为两者之间有什么区别？

I: 至少在我看来，当你说想出新想法时，我就会想：哦，如果它做了这样那样的事情会怎么样？而理解更像是：这整个东西是什么？发生了什么真正的底层现象？有什么潜在的影响？我们为什么要这样做而不是另一种方式？当然，这与可以被描述为想出想法的东西非常相近。但理解的部分才会是真正的行动发生的地方。

D: 这描述了你的整个职业生涯吗？如果你回想一下像ImageNet这样的东西，那是更多的新想法还是更多的理解？

I: 那肯定是理解。那是对非常古老的东西的一种新理解。

▩AGI背后的算力风险

D: 在Azure上训练的经验是怎样的？

I: 非常棒。微软一直是我们非常好的合作伙伴。他们真的帮助我们把Azure带到一个对ML非常友好的点位，我们对此非常满意。

D: 整个AI生态系统对台湾可能发生的事情有多脆弱？比如说台湾发生了海啸或者什么事情，AI总体会怎么样？

I: 这肯定会是一个重大的倒退。没有人能在几年内获得更多的计算能力，但我期望计算能力会重新出现。例如，我相信英特尔有和几代前一样的晶圆厂，这意味着如果英特尔想要，他们可以生产出类似于四年前的GPU之类的东西。但是，这不是最好的，我实际上不确定我对英特尔的说法是否正确，但我确实知道台湾以外还有晶圆厂，只是不那么好。但你仍然可以使用它们，并且仍然可以用它们走得很远。只是成本问题，只是一个倒退。

Ilya强调的对于AGI的理解，我的理解是因为本质上ANN如何工作的内部机理仍然很神秘，而要使得AGI最终可靠可控，作为OpenAI的灵魂人物，Ilya的生物神经网络与GPT的人工神经网络要达成某种程度的相互“理解”。

模型的成本考虑【Cost of models】

智能体的算力成本一直以来都是个问题

▩成本与定价由智能体价值决定

D: 随着这些模型越来越大，推理是否会变得成本高昂？

I: 我对这个问题有一个不同角度的看法。不是推理会变得成本过高，更好的模型的推理确实会变得更昂贵。但是它是否过高？这取决于它有多有用。如果它比它的定价更有用，那么它就不算过高。给你一个类比，假设你想和一个律师谈话。你有一些案件或需要一些建议或什么的，你完全乐意花400美元一小时。对吧？所以如果你的神经网络能给你非常可靠的法律建议，你会说：我很乐意花400美元来听这个建议。突然间，推理就变得非常不高昂了。所以问题是，神经网络能否以这个成本产生足够好的答案？

D: 是的。你会在不同的模型之间有价格歧视吗？

I: 这已经是今天的情况了。我们的产品，API提供了不同大小的多个神经网络，不同的客户根据他们的用例使用不同大小的神经网络。如果有人可以拿一个小模型并对其进行微调，并得到对他们来说满意的东西，他们就会使用那个。但如果有人想做一些更复杂和更有趣的事情，他们就会使用最大的模型。

D: 你怎么防止这些模型最终变成标准商品，这些不同的公司只是互相压低价格，直到基本上是GPU运行的成本？

I: 是的，毫无疑问有一种力量在试图导致这种情况，答案是你要不断取得进步。你要不断改进模型，你要不断想出新的想法，让模型更好、更可靠、更值得信赖，这样你就可以相信它们的答案。所有类似这些东西。

D: 是的。但是假设是2025年，有人以成本价提供了2024年的模型。而且它还不错。如果一年前的模型甚至更好，为什么人们要使用2025年的新模型呢？

I: 这里有几个答案。对于一些用例来说，这可能是对的。2025年会有一个新的模型，它将驱动更有趣的用例。还有一个推理成本的问题。如果你能做一些研究，以更低的成本提供相同的模型。相同的模型对于不同的公司来说，提供的成本是不同的。我也可以想象一些程度上的专业化，一些公司可能会试图在某些领域专业化，并且相比其他公司更强大。对我来说，这可能是对商品化的一种回应。

D: 随着时间的推移，这些不同公司的研究方向是趋于一致还是分歧？他们随着时间的推移做的事情越来越相似吗？还是他们分散到不同的领域？

I: 我会说在短期内，看起来会收敛汇聚。我期望会有合-分-合的行为，即在近期工作上有很收敛汇聚，在长期工作上会有一些分岐。但是一旦长期工作开始结出果实，就会再次出现一致性。

D: 明白了。当他们中的一个找到最有前途的领域时，每个人都只是……

I: 没错。现在显然发布得少了，所以这个有前途的方向被重新发现需要更长的时间。但这就是我想象事情会是什么样子的：合，分，再合。

▩GPT智能体的国际风险与安全问题

D: 是的。我们在一开始时提到过这个问题。但随着外国政府了解到这些模型有多强大，你是否担心间谍或某种攻击来获取你的权重或者以某种方式滥用这些模型并了解它们？

I: 是的，你绝对不能忽视这一点。这是我们尽最大努力防范的事情，但这对于每个构建这些模型的人来说都会是一个问题。

D: 你怎么防止你的权重泄露？

I: 会有非常好的安全人员。

D: 有多少人有能力SSH到有权重参数数据的机器上？

I: 安全人员做得非常好，所以我真的不担心权重被泄露。

▩GPT的参数量级是否还有奇迹出现

D: 你对这些模型在这个规模上会出现什么样的新属性有什么期待？有没有什么东西是从无到有的？

I: 我相信一定会出现一些非常新的令人惊讶的属性，我不会感到惊讶。我真正兴奋的事情，我想看到的事情是：可靠性和可控性。我认为这将是一类非常非常重要的新属性。如果你有可靠性和可控性，那就可以帮助你解决很多问题。可靠性意味着你可以信任模型的输出，可控性意味着你可以控制它。我们拭目以待，但如果这些新属性确实存在，那将是非常酷的。

D: 你有没有什么办法可以提前预测？在这个参数数量下会发生什么，在那个参数数量下会发生什么？

I: 我认为有可能对特定的能力做一些预测，虽然这绝对不简单，而且你不能以一种超细粒度的方式做，至少今天不能。但是在这方面变得更好是非常重要的。任何感兴趣并且对如何做这件事有研究想法的人，都可以做出有价值的贡献。

D: 你对这些规模定律有多认真？有一篇论文说，你需要这么多数量级才能得到所有的推理？你认真对待吗，还是你认为它在某个点会崩溃？

I: 你的问题是“规模定律告诉你，下一个词预测准确率的对数会发生什么”，对吧？将下一个词预测准确率与推理能力联系起来是一个完全不同的挑战。我相信有这样的联系，但这种联系是复杂的。我们可能会发现有一些其他的东西可以给我们更多的推理单位努力。你提到了推理Token，我认为它们会有帮助。可能还有一些有用的东西。

D: 你是否考虑过雇用人类为你生成令牌？或者它都是来自于已经存在的东西？

I: 我认为依靠人工来教我们的模型做事情，尤其是确保它们表现良好，不会产生错误的事情，是一件非常明智的事情。

目前的GPT模型成本巨大，但只要足够可靠，运用于特定领域能创造的价值足够大，那从商业化层面看不是问题；如此巨大价值的AGI金矿，必定会引发同行公司、甚至国家间的军备竞赛以及觑觎。

进步是不可避免的吗？

AI领域NLP的突破

▩技术进步有必然也有偶然，但必然是迟早的事。

D: 我们恰好在我们有Transformer框架出现的同时拥有了我们需要的数据，恰好在我们有这些GPU的同时，这难道不奇怪吗？所有这些事情同时发生，你觉得奇怪吗，还是你不这么看？

I: 这绝对是一个有趣的情况。我会说这很奇怪，某种程度上又不那么奇怪。为什么不那么奇怪呢？因为造成数据存在、GPU存在和Transformer存在的驱动力是什么？数据存在是因为计算机变得更好更便宜，我们得到了越来越小的晶体管。突然，在某个时候，每个人拥有一台个人电脑变得经济上可行。一旦每个人都有了一台个人电脑，你就真的想把它们连接到网络上，你就有了互联网。一旦你有了互联网，你突然就有了大量的数据。GPU也在同时改进，因为你有越来越小的晶体管，你在寻找发挥他们作用的地方。事实证明，游戏是一件你可以用GPU做的事情。然后在某些时候，英伟达说：游戏用的GPU，我可能会把它变成一台通用的GPU计算机，也许有人会发现它很有用。事实证明，这可以很好的用于神经网络。也有一种可能GPU 在五年后、十年后才到来，让我们假设游戏不是问题，当然很难想象如果游戏不是一个GPU的好场景，这意味着什么？但另外也许有一个反事实的世界，GPU在数据就绪后五年或数据就绪前五年出现，在这种情况下，事情可能不会像现在这样准备好，但这就是我想象的画面，所有这些方面的进展都是非常紧密的交织在一起的，这不是巧合，而且你无法选择在哪些方面有所改善。

D: 这种进步有多么不可避免？假设你和杰弗里·辛顿（Geoffrey Hinton）以及其他一些先驱者从未出生。深度学习革命是否在同一时间发生？会延迟多少？

I: 也许会有一些延后。也许差不多推迟了一年光景？

D: 啊，就这？

I: 真的很难说。我很不确定要不要给出更长的答案，因为 GPU 会不断改进，我看不出有人怎么会不发现它。因为这事还有另一面，假设没有人这样做，计算机变得越来越快，越来越好，训练这些神经网络变得越来越容易，因为你有更大的 GPU，所以训练一个神经网络所需的工程工作量更少，您不需要对代码进行太多优化。当ImageNet数据集问世时，它非常庞大，而且非常非常难以使用。现在想象一下，你等了几年，下载变得非常容易，人们可以修补一下，我的猜测是不多的几年吧。不过，我犹豫要不要给出更长的时间估计，你不能重新经历一遍你一无所知的世界。

D: 让我们再稍微回到对齐的话题。作为一个深刻理解这些模型的人，你对“对齐”难度的直觉是怎样的？

I: 在当前的能力水平上，我们对如何对齐它们有一套很好的想法。但我不会低估对齐难度，模型实际上比我们人类更聪明，甚至能够刻意歪曲其本来的意图。这是要思考很多并做研究的事情。学术研究人员经常问我，他们可以做出贡献的最佳地点是什么。对齐研究是学术研究人员可以做出非常有意义的贡献的一个地方。

D: 除此之外，你认为提出关于模型实际能力的重要见解，会来自于学术界还是目前只会来自于业界这些公司？

I: 这些公司将实现这些模型能力，学术研究很有可能提出这些见解。由于某种原因，这样的洞见似乎没有发生那么多，但我认为这和学术界没有任何本质上的关系，学术界不是做不到的，也许他们只是没有考虑到什么是正确的问题或其他事情，因为也许更容易看到这些公司内部需要做什么。

D: 明白了。但有可能有人会意识到...…

I: 我完全是这么认为的。为什么我会排除这一点？

D: 这些语言模型开始实际影响原子世界而不仅仅是比特世界的具体步骤是什么？

I: 我不认为比特世界和原子世界之间有明显的区别。假设神经网络告诉你：嘿，这是你应该做的事情，它会改善你的生活，但是您需要以某种方式重新布置您的公寓。然后你去重新布置你的公寓。这样人工神经网络不就影响了原子世界么。

大语言模型GPT突破了人类语言，某种程度上也就掌握了思维的工具，思考不再是人类独有的能力，未来的世界边界逐渐模糊，人类如何区分或主导比特与原子混合的世界呢？

未来的突破【Future breakthroughs】

突破是过程的坚持，而不仅仅是结果后的事后感叹

▩突破很多时候都是事后方知

D: 理解了。你认为需要一些像Transformer框架一样重要的额外突破才能实现超级人工智能吗？或者你认为我们基本上在文本中的某个地方得到了见解，我们只需要实施它们并将它们联系起来？

I: 我真的看不出这两种情况之间有这么大的区别，让我解释一下原因。一种情况是进展早过去发生，我们已经明白某些东西一直具有理想的属性但我们没有意识到。这是一个突破吗？你可以说，是的。这是书中某些内容的实现吗？同样，是的。

我的感觉是，其中一些很可能会发生，但事后看来，这不会让人觉得是突破。每个人都会说：哦，好吧，当然，很明显，这样那样的事情可以起作用.

Transformer之所以被提出来作为一项特定的进步，是因为这种东西对几乎任何人都不那么显而易见，所以人们可以说这不是他们所知道的。让我们考虑一下深度学习最基本的进步，即在反向传播中训练的大型神经网络可以做很多事情，新奇之处在哪里？不在神经网络中，也不在反向传播中，但这绝对是一个巨大的概念突破，因为在很长一段时间里，人们只是没有看到这一点。但是现在每个人都看到了，每个人都会说：嗯，当然，这是完全显而易见的。大模型神经网络，每个人都知道他们可以做到。

D: 你对你之前的导师提出的新前向算法（new forward forward algorithm）有什么看法？

I: 我认为这可以作为在没有反向传播的情况下训练神经网络的一个尝试。如果你有动力去理解大脑是如何学习它的连接的，这将尤其有趣。原因是，据我所知，神经科学家真的相信大脑不能实现反向传播，因为突触中的信号只向一个方向移动。

因此，如果你有神经科学研究的动机，你想说：好吧，我怎么能想出一些东西来近似反向传播的良好特性而不做反向传播呢？这就是前向前向算法试图做的事情。但是，如果您只是想设计一个好的系统，那么没有理由不使用反向传播。这是迄今唯一可行的算法选择。

D: 我想我听过你在不同的背景下谈论使用人类作为AGI存在的现成案例。基于什么考虑点你并不太严肃地使用这个隐喻，并且觉得没有必要在研究方面刻意追求？因为它作为一种现成案例对你很重要。

I: 您的问题是“在什么时候，我不再关心人类作为智能体的存在案例？”

D: 或者作为您想在模型中追求智能方面效仿的示例。

I: 我认为受到人类的启发是件好事，受到大脑的启发是件好事。在大脑中正确地受到人类的启发是一门艺术，因为很容易抓住人类或大脑的非本质品质。许多试图从人类和大脑中获得灵感的人通常会变得有点具体，人们也确实会得到一点启发。好吧，问题是不是应该遵循什么认知科学模型？同时考虑人工神经网络本身的想法，人工神经元的想法。这也是受到大脑的启发，但事实证明它非常富有成效。那么他们是怎么做到的呢？人类的哪些行为是必不可少的，你说这是向我们证明这是可能的？什么是本质的？不，这实际上是一些更基本的东西的涌现现象，我们只需要专注于正确掌握自己的基础知识。一个人可以而且应该小心翼翼地受到人类智慧的启发。

D: 最后一个问题。就您而言，为什么在率先参与深度学习变革和仍然是顶级研究人员之一之间有如此强烈的相关性？你会认为这两件事不会那么相关。但为什么会有这种相关性呢？

I: 我不认为这些事情是超级相关的。老实说，这个问题很难回答。我只是一直在努力，事实证明到目前为止已经足够了。

D: 那么是坚持不懈的努力？

I: 这是一个必要条件，但不是充分条件。许多事情需要放在一起才能真正弄清楚一些事情。你需要真正去做，也需要有正确的看待事物的方式。很难对这个问题给出一个真正有意义的答案。

作为社区博主，Dwarkesh Patel 准备的问题确实比较宽泛，几乎所有关注GPT现象的问题都有涉及。GPT中的“T”，其实早期可以认为是Training，当然现在人们都说是Transformer，认为Transformer是一个GPT成功背后的一个重大突破，貌似Ilya一直不是很感冒这一点，但也不否认Transformer框架的及时出现，使得GPT系列加速迭代的一个重要条件。作为智能体（Intelligent agent），无论是碳基（bio-）还是硅基（silica-)，无论是原生生物NN，还是人工ANN，在此时今朝，已经发生类似笔者之前的文章里所说的：人类智能与人工智能之间已然发生并存在双向的prompts，这个世界必将成为“bits&atoms”混合的世界。

参考

1.Bingchat
2.Ilya Sutskever (OpenAI Chief Scientist) - Building AGI, Alignment, Spies, Microsoft, & Enlightenment by Dwarkesh Patel

往期推荐

从「维特根斯坦」“语言游戏”到「Ilya」的 “LLM GPT智能体” （一）

点这里👇关注我，记得标星哦～‍‍‍

从来就不缺傻子！

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

错过这轮牛市，等于2000年错过楼市！

突然大瓜：JJ一哥被举报！

中国人民大学最新报告：相信遥遥领先的人，多数处在社会底层

从「维特根斯坦」“语言游戏”到「Ilya」的 “LLM GPT智能体” （二）

题记

访谈正文及评论

通用人工智能时间表【time to AGI】

AIGC之后

数据、模型与探索

对齐问题【Alignment】

后AGI未来畅想【Post AGI future】

新想法被高估了

模型的成本考虑【Cost of models】

进步是不可避免的吗？

未来的突破【Future breakthroughs】

参考

您可能也对以下帖子感兴趣

从来就不缺傻子！

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

错过这轮牛市，等于2000年错过楼市！

突然大瓜：JJ一哥被举报！

中国人民大学最新报告：相信遥遥领先的人，多数处在社会底层

生成图片，分享到微信朋友圈

从「维特根斯坦」“语言游戏”到「Ilya」的 “LLM GPT智能体” （二）

题记

访谈正文及评论

通用人工智能时间表【time to AGI】

AIGC之后

数据、模型与探索

对齐问题【Alignment】

后AGI未来畅想【Post AGI future】

新想法被高估了

模型的成本考虑【Cost of models】

进步是不可避免的吗？

未来的突破【Future breakthroughs】

参考

您可能也对以下帖子感兴趣