ChatGPT的今天，早已被这本书预言了｜文末赠书

异步图书程序猿DD 2023-04-28

最近，ChatGPT大火了！推出之后，ChatGPT只用了两个月就积累了1亿用户，随着越来越多的人开始用ChatGPT，发现他能做的东西越来越多，写论文、写作业、写文案、写代码都不在话下。

于是，各种稀奇古怪的问题、要求，也被突发奇想的人类推到了它面前……

小异发现，竟然可以向ChatGPT询问《人工智能：现代方法（第4版）》书籍的推广提纲，并且它能够提供多个切入点和案例建议，实在是智能又方便！

正由于ChatGPT这种无所不包、什么都能干的特性，让许多人工智能领域的大佬都对其赞叹不已。

不过，这样的称赞都提到了ChatGPT的一个共同特点，那就是ChatGPT具有“孩子”一样的心智。

换句话说，虽然ChatGPT非常强大，但它就像一个正在成长中的孩子，能发挥多少本事，取决于你培养和训练。

输入的提示词说得越清楚，需求给的越多、越明确，ChatGPT的答复才更接近人们理想中的答案。

然而，问题来了：像训练ChatGPT这样调教AI的方式，人类之前也不是没试过，为什么今天的ChatGPT能有如此突破性的进展呢？

其实，对于ChatGPT的种种厉害之处，早已有一本权威书籍做出了分析和预测，它就是堪称人工智能领域“大百科全书”的《人工智能：现代方法（第4版）》。

△ 点击封面即可购买，限时特惠5折

今天，小异就带大家一起来看下，这本巨著的精彩之处吧！

— 01 —

隽永的智慧

本书的作者Stuart Russell，不仅是加利福尼亚大学伯克利分校计算机科学系的教授，也是人类兼容人工智能中心主任，同时还是计算机与思想奖的获奖人之一。

在任教的40多年间，在人工智能领域发表了300多篇论文，妥妥的领域内大佬啊。

到现在，《人工智能：现代方法》已经出到第四版了，这本书英文版成书于2021年，而上一版第三版在2010年。

而这一版本，也是本书最为重要的更新。因为这十年间，人工智能领域实在发生太多大事了，无论是AlphaGo和李世石的对决，还是AlphaFold更是完成了蛋白质结构的预测，再到现在ChatGPT的问世，都标志着人工智能领域的重大进展。

而这本书，则正好对这些关键进展背后的理论、技术进行了重要分析。

比如，里面就提到了ChatGPT为何如此牛的原因。

— 02 —

ChatGPT力量的源泉

在本书的第二章，作者就提到，其实ChatGPT如此过人的原因，是由于其采用了一种名为Transformer的架构，而这也是ChatGPT最核心的技术。

Transformer全称Generative Pre-trained Transformer（也是GPT名字的由来）系列是OpenAI发布的预训练语言模型，这种模型最大的特点，就是可以减少甚至消除人工监督和标记。

那这模型是怎么做到这一点的呢？

首先，海量的数据训练，对模型能力的提升总是立竿见影的。

但倘若只止步于此，那它和之前的循环神经网络也不会有太大不同，真正令Transformer拉开差距的，是它能够同时并行进行数据计算和模型训练的能力。

之前的循环神经网络，虽然能更好地处理有先后顺序的数据（比如语言），但在处理较长序列的数据，例如长文章、书籍时，往往就拉胯了。

因必须按顺序处理数据，这就无法同时并行训练，于是训练时间就被拉得很长，时间一长，模型就会不稳定，就会发生梯度消失之类的情况。

所谓梯度消失，指的是在神经网络中，当前面隐藏层的学习速率低于后面隐藏层的学习速率，即随着隐藏层数目的增加，分类准确率反而下降了。

而与之相比，Transformer不仅能够同时并行进行数据计算和模型训练，而且还克服了传统的神经网络技术用浅层的预训练网络来捕捉单词，并无法解决一词多义等问题缺陷。

简单地说，就是Transformer让ChatGPT学会举一反三了！这使得它的学习效率非常高。

— 03 —

字字珠玑，带你了解GPT的独特机理

除了核心架构Transformer外，书中还对ChatGPT背后运转的独特机理进行了揭示。

与BERT模型类似，ChatGPT或GPT-3.5都是根据输入语句，根据语言/语料概率来自动生成回答的每一个字（词语）。从数学或从机器学习的角度来看，语言模型是对词语序列的概率相关性分布的建模，即利用已经说过的语句（语句可以视为数学中的向量）作为输入条件，预测下一个时刻不同语句甚至语言集合出现的概率分布。

ChatGPT 使用来自人类反馈的强化学习进行训练，这种方法通过人类干预来增强机器学习以获得更好的效果。在训练过程中，人类训练者扮演着用户和人工智能助手的角色，并通过近端策略优化算法进行微调。

由于ChatGPT更强的性能和海量参数，它包含了更多的主题的数据，能够处理更多小众主题。ChatGPT现在可以进一步处理回答问题、撰写文章、文本摘要、语言翻译和生成计算机代码等任务。

— 04 —

想了解AI学习的奥秘？答案就在这里

书中还提到，ChatGPT之所以进化得如此迅速，主要归功于这么几个学习算法：

第一阶段：训练监督策略模型

GPT 3.5本身很难理解人类不同类型指令中蕴含的不同意图，也很难判断生成内容是否是高质量的结果。为了让GPT 3.5初步具备理解指令的意图，人类首先得用“填鸭教育”的方式，让 GPT-3.5模型知道什么是“标准答案”。

具体做法是：先在数据集中随机抽取问题，由人类标注人员，给出高质量答案，然后用这些人工标注好的数据来微调 GPT-3.5模型。

如果这一阶段GPT 3.5被训练得不错，人类就会对其鼓鼓掌，并表示：这孩子真聪明，现在可以做些开放式命题了。

第二阶段：训练奖励模型（Reward Mode，RM）

这个阶段的主要是通过人工标注训练数据（约33K个数据），来训练回报模型。在数据集中随机抽取问题，使用第一阶段生成的模型

只是到了这时，问题不再有“标准答案”，而是对于每个问题，生成多个不同的回答。

对于这些没有标准答案的“开放式问题”，人类标注者会对这些结果综合考虑给出排名顺序。

接下来，使用这个排序结果数据来训练奖励模型。对多个排序结果，两两组合，形成多个训练数据对。RM模型接受一个输入，给出评价回答质量的分数。这样，对于一对训练数据，调节参数使得高质量回答的打分比低质量的打分要高。

第三阶段：采用PPO（Proximal Policy Optimization，近端策略优化）强化学习来优化策略。

PPO的核心思路在于将Policy Gradient中On-policy的训练过程转化为Off-policy，即将在线学习转化为离线学习，你可以把这个过程理解为从开卷考试到闭卷考试的转变。

不但不让“翻书”了，而且问题的随机性也大大增加。

通过在第二阶段训练好的奖励模型数据集中随机抽取问题，使用PPO模型生成回答，并用上一阶段训练好的RM模型给出质量分数。把回报分数依次传递，由此产生策略梯度，通过强化学习的方式以更新PPO模型参数。

如果我们不断重复第二和第三阶段，通过迭代，会训练出更高质量的ChatGPT模型。

— 05 —

一份AI的藏宝图，等你来打开

除了上述内容外，小异发现书中还介绍了很多关于ChatGPT的技术点，其中就包括但不限于：

—— 卷积网络、循环神经网络

——机器学习（数据科学）

——深度学习（人工神经网络）

——语言模型（词向量、语料库）

——人类反馈强化学习（Reinforcement Learning from Human Feedback，RLHF）

——自监督学习

——GAN生成式对抗网络

甚至，怀有人文精神的作者，还在本书的第27章和第28章中，专门用两个章节的内容，来探讨了人工智能的哲学、伦理和安全性的问题。

可以说，这是一本既有技术，又有温度的巨著。

在这个AI技术日新月异的当下，ChatGPT背后强大学习算法，无疑代表了人工智能技术最闪亮的结晶，而本书正是对人工智能发展过程中，这些结晶的总结与分析。

△ 点击封面即可购买，限时特惠5折

从最初的图灵测试，一直到今天的强化学习算法，书中涵盖了人工智能发展过程中所涉及的数学、心理学、神经科学、计算机科学等多方面内容。

其内容之丰富，就像一张隐藏了无数宝藏的藏宝图，在眼前徐徐展开。

在这个瞬息万变的智能时代，倘若我们能对书中的理论、知识细细钻研，那么必将会使自己在即将到来的科技革命前获得更大优势。

文案：廖编辑：fine. 审校：桐希、罗玉淇、单瑞婷

参考来源：

1.《大模型正成为AI浪潮的重要拐点》

2.《ChatGPT发展历程、原理、技术架构详解和产业未来》

抽奖赠书

本次福利将送出《人工智能：现代方法（第4版）》* 5本，超高中奖率（参与人少，多期中奖率超过90%）

为避免撸羊毛的用户参与抽奖，让更多真实用户获得社区福利，现在把抽奖方式切换到 spring4all.com 网上通过积分参与。

本次抽奖地址：http://spring4all.com/forum-post/2244.html

还有一大波福利正在路上，一起来参与社区内容的建设，一起学习一起成长吧！

“家属和记者取得联系”：记者的退场意味深长

劲爆！为了姜萍两位女CEO互揭老底！

中石化一副总被曝出轨人妻，本人嚣张回应：旧情复燃尔

（待会删）大家低调浏览

又一女明星涉毒被判刑！自称为了“刺激大脑”创作，央视网发文痛批

ChatGPT的今天，早已被这本书预言了｜文末赠书

您可能也对以下帖子感兴趣

“家属和记者取得联系”：记者的退场意味深长

劲爆！为了姜萍两位女CEO互揭老底！

中石化一副总被曝出轨人妻，本人嚣张回应：旧情复燃尔

（待会删）大家低调浏览

又一女明星涉毒被判刑！自称为了“刺激大脑”创作，央视网发文痛批

生成图片，分享到微信朋友圈

ChatGPT的今天，早已被这本书预言了｜文末赠书

您可能也对以下帖子感兴趣