查看原文
其他

学习ChatGPT和扩散模型Diffusion的基础架构Transformer,看完这些论文就够了

走向未来 走向未来 2023-08-08




2022年年底,AIGC(Artificial Intelligence-Generated Content,人工智能生成内容)不仅在业内引起了巨大的讨论,甚至火到出圈,各路媒体竞相报道,路人也纷纷表示赞叹或惊恐,其中的代表是语言中的ChatGPT和图像生成的扩散模型(Diffusion Model)。本文细数了ChatGPT 和 DM 的基础架构 Transformer 的经典论文,囊括了在语言、图像、语音、图和时间序列等各个细分领域的经典论文。

2022年底人工智能领域最火的是什么?ChatGPT当仁不让。不仅AI 从业者纷纷表示赞叹,并且惊呼AGI(通用人工智能)或强人工智能即将来临。传闻 Google 内部也发出红色警报,CEO 亲自挂帅要更多投入研究,避免受到颠覆性影响。其更大的影响力则来自于爆火出圈,数百万人纷纷投入 ChapGPT 的狂欢中,玩转其所爆发出来的无所不能能力:能用数十种语言与用户谈天说地,上知天文,下知地理;能聊情感,可谈哲理;写诗作词,会码代码,会写童话,会写小说;生化环材,数学物理,土木工程,无所不能。



图1 Google内部对ChatGPT的警惕


图2 ChatGPT实例



另一个 AIGC 的爆火是 AI 作画,其中 StabilityAI的扩散模型是其代表。AI作画所展现出来的惊人的绘画能力,也让社交媒体惊呼 AI 绘画是否会取代画师的讨论。而前阵子美国的一个艺术比赛中,AI 作画甚至在与众多绘画大师的比赛中获得了一等奖。


图3 AI生成的绘画作品《太空歌剧院》获得一等奖


AI出色的绘画能力能够帮助不会绘画的人创作出高质量的作品。通过使用扩散模型等,AI 可以自动生成很像由人类绘制的作品的图像。以此为基础,加上人工后期修缮所得到的作品,使得不会绘画的人能够轻松地创作出高水平的作品,达到学习几年、十几年的画师同等水平。与此同时,一个高级画师在 AI 的协助下,能够达到一个团队的效率。这使得在某种程度上AI 取代了“画师”。


图4 扩散模型生成绘画作品实例



作为人工智能领域的从业人员,在知道了这些模型的强大能力之外,更重要的是要理解原理,以期望在接下来的工作中能够使用和创新。而要学习这类模型,2017年底 Google发明的 Transformer模型则是基础。从 Transformer开始,直到今天的 OpenAI ChatGPT 和 StabilityAI的Diffusion Model,有哪些经典的论文呢?下面为你一一道来。


1. Transformer 模型的架构论文

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems 30 (NIPS 2017). 5998-6008).

这篇论文描述了 Transformer 模型的架构,并在多种自然语言处理任务中进行了实验,证明了 Transformer 模型在自然语言处理任务中的有效性。这篇论文奠定了今天人工智能极大发展的一个里程碑,建议AI 算法工程师都应当阅读此论文。除了阅读论文之外,建议参阅珠峰书《知识图谱:认知智能理论与实战》第3章的内容。该章节对Transformer 和 BERT 模型进行了非常细致且深入浅出的拆解和剖析,并给出了代码示例,这对于理解 Transformer 模型和 BERT 模型来说事半功倍。

论文下载地址:

https://papers.nips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf

2.BERT 模型论文

Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. Association for Computational Linguistics.

这篇论文奠定了自然语言处理领域大模型的基础,证明了通过大规模语料集预训练的技术,能够大幅度提升各类文本阅读理解的效果,开启了NLP的新时代。在 BERT 之上,出现了许多预训练语言模型,比如XLNet、ALBERT、T5、RoBERTa、ERNIE、NEZHA等。可以这么说,今天大模型所展现出来的超级能力,就是从BERT开始的。要深入理解 BERT模型,除了阅读论文之外,建议详细阅读珠峰书《知识图谱:认知智能理论与实战》第3章的内容。该章节对Transformer 和 BERT 模型进行了非常细致且深入浅出的拆解和剖析,并给出了代码示例,这对于理解 Transformer 模型和 BERT 模型来说事半功倍。

论文下载地址:

https://aclanthology.org/N19-1423.pdf

书籍地址:

https://item.jd.com/13172503.html

其他论文:

[1]XLNet 模型
Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Russ R. Salakhutdinov, Quoc V. Le. XLNet: Generalized Autoregressive Pretraining for Language Understanding. Advances in Neural Information Processing Systems 32 (NeurIPS 2019). pages 5753-5763.
论文下载:
https://proceedings.neurips.cc/paper/2019/file/dc6a7e655d7e5840e66733e9ee67cc69-Paper.pdf
[2]ALBERT模型
Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. arXiv:1909.11942
论文下载:https://arxiv.org/pdf/1909.11942.pdf
[3]T5模型
Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. The Journal of Machine Learning Research. Volume 21. Issue 1 2020. Pages 5485–5551.
论文下载:https://jmlr.org/papers/volume21/20-074/20-074.pdf
[4]RoBERTa模型
Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov. RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv:1907.11692.
论文下载:https://arxiv.org/pdf/1907.11692.pdf
[5]ERNIE模型
Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang, Maosong Sun, and Qun Liu. 2019. ERNIE: Enhanced Language Representation with Informative Entities. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 1441–1451.
论文下载:https://aclanthology.org/P19-1139.pdf
[6]NeZha模型
Junqiu Wei, Xiaozhe Ren, Xiaoguang Li, Wenyong Huang, Yi Liao, Yasheng Wang, Jiashu Lin, Xin Jiang, Xiao Chen, Qun Liu. NEZHA: Neural Contextualized Representation for Chinese Language Understanding. arXiv:1909.00204.
论文下载:https://arxiv.org/pdf/1909.00204.pdf

3.GPT-3模型论文

Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei. Language Models are Few-Shot Learners. In Advances in Neural Information Processing Systems 33 (NeurIPS 2020). pages 1877-1901.

这篇论文描述了 GPT-3 模型,这是一种生成模型,刚出来就引起了轰动,能够撰写出令人惊讶的文章,有评论说“GPT-3生成的文本质量如此之高,很难确定它是否是由人类编写的。”在 GPT-3之后,还衍生出一系列的模型,发展为最近实现的更专家印象深刻并且出圈到街头巷尾的 ChatGPT。

论文下载地址:

https://papers.nips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf

更多的论文和材料:

[1]InstructGPT模型
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe. Training language models to follow instructions with human feedback. arXiv:2203.02155
论文下载:https://arxiv.org/pdf/2203.02155.pdf
[2]ChatGPT
https://openai.com/blog/chatgpt/

4.ViT 模型论文

Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations(ICLR2021).

这篇论文描述了 ViT 模型,它是一种基于 Transformer 的视觉模型。论文将Transformer直接应用于图像块并在大型数据集上进行预训练,在图像分类方面效果非常好。

论文下载:

https://arxiv.org/pdf/2010.11929.pdf

5.DETR模型

Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov & Sergey Zagoruyko. End-to-End Object Detection with Transformers. In ECCV 2020. Pages 213–229.

这篇论文描述了 DETR(DEtection TRAnsformer) 模型,它是一种基于 Transformer 的目标检测模型。DETR通过二分匹配强制进行唯一预测,给定一组固定的已学习目标的查询,DETR 对目标和全局图像上下文的关系进行推理,并直接并行输出最终的预测结果。论文在COCO数据集上比良好设计和高度优化的 Faster R-CNN 同样的准确性和运行时性能。

论文下载:

https://arxiv.org/pdf/2005.12872.pdf

6.DALL-E模型

Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever. Zero-Shot Text-to-Image Generation. arXiv:2102.12092

DALL-E是GPT-3的 120 亿参数版本,是一种基于Transformer的图像生成模型,可使用文本-图像对数据集从文本描述生成图像。该模型支持创建动物和物体的拟人化版本、以合理的方式组合不相关的概念、渲染文本以及对现有图像应用转换。

论文下载:

https://arxiv.org/pdf/2102.12092.pdf

DALL-E2模型是DALL-E的第二代,可以根据文字描述创作原型、逼真的图像和艺术作品。相比 DALL-E,DALL-E2在组合概念、属性和样式等方面更加强大,效果更好。

Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, Mark Chen. Hierarchical Text-Conditional Image Generation with CLIP Latents. arXiv:2204.06125

论文下载:

https://arxiv.org/pdf/2204.06125.pdf

7.Stable Diffusion模型

Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer. High-Resolution Image Synthesis with Latent Diffusion Models. arXiv:2112.10752.

Stable Diffusion是一种潜在的文本到图像的扩散模型,该模型使用冻结的CLIP ViT-L/14 文本编码器根据文本提示调节模型。模型通过将图像形成过程分解为去噪自动编码器的顺序应用,扩散模型(Diffusion Model,DM)在图像数据及其他数据上实现了当前最佳的合成结果,极大地提高了视觉保真度。除了无条件图像生成外,还支持语义场景合成和超分辨率等。

论文下载:

https://arxiv.org/pdf/2112.10752.pdf

8.DeiT模型

Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, Herve Jegou. Training data-efficient image transformers & distillation through attention. In Proceedings of the 38th International Conference on Machine Learning (ICMl2021), PMLR 139:10347-10357, 2021.

DeiT模型是一种基于Transformer的视觉模型,是对 ViT 的改进,通过蒸馏技术减小了模型的尺寸,同时保持了较高的准确率。论文中还对 Transformer 进行了优化,引入了师生策略(teacher-student strategy)——依赖于一个蒸馏令牌(distillation token)来使得学生通过注意力向老师学习,从而进一步提升了模型的准确率。

论文下载:

https://arxiv.org/pdf/2012.12877.pdf

http://proceedings.mlr.press/v139/touvron21a/touvron21a.pdf

9.Speech-Transformer模型

L. Dong, S. Xu and B. Xu, "Speech-Transformer: A No-Recurrence Sequence-to-Sequence Model for Speech Recognition," 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018, pp. 5884-5888, doi: 10.1109/ICASSP.2018.8462506.

Speech Transformer模型是较早的基于Transformer的语音识别模型,该模型是一种完全依赖注意机制来学习位置依赖性的无循环序列到序列模型,可以更快、更高效地进行并行训练。此外,模型还采用了一种称为2D-Attention 机制,实现共同关注二维语音输入的时间轴和频率轴,从而为Speech-Transformer 提供更具表现力的表示。

论文下载:

http://159.226.21.68/bitstream/173211/39274/1/Speech-Transformer_A%20No-Recurrence%20Sequence-to-Sequence%20Model%20for%20Speech%20Recognition.pdf

10. Transformer TTS 模型

Naihan Li, Shujie Liu, Yanqing Liu, Sheng Zhao, Ming Liu, Ming Zhou. Neural Speech Synthesis with Transformer Network. arXiv:1809.08895.

这是早期的一个用于语音合成的 Transformer 模型,模型借助多头自注意力,并行构造编码器和解码器中的隐藏状态,提高了训练效率。同时,任意两个不同时刻的输入通过self-attention机制直接连接,有效解决了长程依赖问题。在语音合成中,使用音素序列作为输入,利用Transformer TTS 网络生成梅尔声谱图,然后使用 WaveNet 声码器输出最终音频结果。

论文下载:

https://arxiv.org/pdf/1809.08895.pdf

11.FastSpeech模型

Yi Ren, Yangjun Ruan, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu. FastSpeech: Fast, Robust and Controllable Text to Speech. arXiv:1905.09263

FastSpeech是一种基于 Transformer 的新型前馈网络,用于为TTS并行生成梅尔谱图(mel-spectrogram)。相比前述的Transformer TTS,FastSpeech模型将梅尔频谱图生成速度提高了 270 倍,将端到端语音合成速度提高了 38 倍。

论文下载:

https://arxiv.org/pdf/1905.09263.pdf

Yi Ren, Chenxu Hu, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu. FastSpeech 2: Fast and High-Quality End-to-End Text to Speech. arXiv:2006.04558

FastSpeech2模型是对FastSpeech的进一步改善,提升了3倍的效率。同时,该论文还提出了从文本到语音的端到端模型FastSpeech2s。

12.Whisper模型

Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever. Robust Speech Recognition via Large-Scale Weak Supervision. arXiv:2212.04356.

Whisper 是一种基于 Transformer 的端到端的语音识别 (ASR) 系统,系统使用了从网络收集的 680,000 小时多语言和多任务监督数据进行训练。该模型表明,使用庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的健壮性。此外,它还支持多种语言的转录,以及将这些语言翻译成英语。

论文下载:

https://arxiv.org/pdf/2212.04356.pdf

13.Autoformer模型

Haixu Wu, Jiehui Xu, Jianmin Wang, Mingsheng Long. Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting. arXiv:2106.13008.

Autoformer是一种从Transformer 衍生出来的具有自相关机制的新型分解架构的模型。该模型具备复杂时间序列的渐进分解能力,支持在子序列级别进行依赖关系发现和表示聚合。Autoformer在能源、交通、经济、天气和疾病等多个领域的测试集上获得了较大的提升。

论文下载:

https://arxiv.org/pdf/2106.13008.pdf

14.FEDformer模型

Tian Zhou, Ziqing Ma, Qingsong Wen, Xue Wang, Liang Sun, Rong Jin. FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting. arXiv:2201.12740

FEDformer(频率增强分解变换器网络)是一种一种频率增强的Transformer模型,它利用了大多数时间序列在诸如傅立叶变换等众所周知的基础上往往具有稀疏表示的事实。对序列长度具有线性复杂度,FEDformer相比于标准的Transformer 更有效。

论文下载:

https://arxiv.org/pdf/2201.12740.pdf

15.Graph Transformer

Seongjun Yun, Minbyul Jeong, Raehyun Kim, Jaewoo Kang, Hyunwoo J. Kim. Graph Transformer Networks. In Advances in Neural Information Processing Systems 32 (NeurIPS 2019)

GTN(Graph Transformer Networks,图变换器网络)是一种能够生成新的图结构的模型。GTN 能够有效的为图中无连接的节点建立连接,并能够端到端地在新的图上进行节点的表示学习。图变换器层(Graph Transformer layer)能够学习边类型和复合关系的软选择(soft selection),以生成有用的多跳连接,即所谓的元路径。

论文下载:

https://proceedings.neurips.cc/paper/2019/file/9d63484abb477c97640154d40595a3bb-Paper.pdf

https://arxiv.org/pdf/1911.06455.pdf


相关学习材料:

1. 飞桨代码实例详解用BERT进行实体抽取【珠峰书 知识图谱 命名实体识别 NER】

2. CCKS2022发布《知识图谱发展报告(2022)》(福利)

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存