西湖大学蓝振忠：预训练语言模型的前沿发展趋势

拼搏现实的明天。 2022-09-14 12:28 180阅读 0赞

![西湖大学蓝振忠：预训练语言模型的前沿发展趋势][61d2d9a07200902cbb1187e30fb6f8d5.png]

蓝振忠，西湖大学助理教授

报告 | 蓝振忠

撰文 | 沈磊贤

我的报告主题为《预训练语言模型的前沿发展趋势》，主要从以下三个方面展开：

**1、为什么全网络预训练模型如此重要？**

**2、为什么语言预训练模型诞生得如此之迟？**

**3、如何预训练一个有效的模型？**

**1 为什么如此重要？**

全网络预训练模型目前在各个NLP项目中具有重要地位，之所以如此，是因为全网络的预训练相当于共享了大部分预训任务和下游任务的参数，跟以前的word2vector有明显的不同。

![西湖大学蓝振忠：预训练语言模型的前沿发展趋势][27c050821d3419dfc93266feb3453104.png]

图1 预训练语言模型为NLP打开新局面

左图显示了深度学习技术在ImageNet数据集上不断取得突破的趋势。右图显示了在全网络预训练出来以后，机器对自然语言理解能力的不断提升的趋势。

我们看到这两个图上所显示的趋势相似之处，都是在一个大的技术突破之后在很短时间内有不断的提升。

具体来讲，右图显示的是机器对初中生和高中生的英文阅读理解的理解能力的展示，2018年以前机器基本上是不及格的状态；在预训练出来之后，每隔几个月都有一个大的突破，在2019年能我们能做到89.4，基本上是因为预训练的功劳。现在我们已经做到90+了。预训练语言模型在最新的研究和应用中表现出强大的语言理解能力，为自然语言处理打开了全新的局面，并推动了整个人工智能领域在预训练方法上的发展。

**2 为什么如此之迟？**

既然语言预训练模型很重要，那么为什么诞生得却如此之迟呢？

语言预训练模型诞生迟主要有两个原因：

**一是因为相比于CV，NLP有太多的任务，所以很难把它整合起来，之前的研究大多都旨在为不同的任务设置不同的网络。**直到后来的GPT/EMLO将各种任务放到了一起，是的我们可以用一个网络来解决大部分的问题。

![西湖大学蓝振忠：预训练语言模型的前沿发展趋势][6f05f41daba5eba4691502cf90340250.png]

图2 NLP任务

**二是因为预训练需要很多的资源。**比如Roberta是一个被充分训练的BERT，它所需要的训练数据、训练步长和计算资源证明了预训练是非常难的一个事情。

![西湖大学蓝振忠：预训练语言模型的前沿发展趋势][7a65e6c4024634ae90728f16e7c15cb2.png]

图3 Roberta显示随着数据和训练步长的增加，预训练效果越来越好

**3 如何训练**

如何预训练一个有效的模型？

预训练一个有效的模型需要从**网络规模、网络架构、目标函数和预训练时长**四个方面进行综合考虑。

*  **网络规模**

关于网络大小，目前比较认可的认识是网络越大越好。为什么会越大越好呢？

一个原因是预训练是一个基础知识的学习，所用到的语料很多，所需要学习的知识也非常复杂。

另一个是，目前的经验显示，神经网络越大，学习越容易。这也是我们之前为什么需要用蒸馏的原因。因为大网络容易训练，小的网络难训练，所以大家先在大网络上做，再把它蒸馏到小网络上。我们把网络放的越大，其学习时长就越短，这就是模型越大越好的结果。下图显示了在GPT-3的训练中，参数越多训练越快。

![西湖大学蓝振忠：预训练语言模型的前沿发展趋势][b7b6ffa4fb7c6181ab6b217db25e6b76.png]

图4 GPT-3中参数量与训练时长的关系

*  **网络架构**

现如今普遍使用的架构如下图所示，

![西湖大学蓝振忠：预训练语言模型的前沿发展趋势][df5bd171dabbe43d92de38605755cf3b.png]

图5 常用的四种网络架构

基本都属于encoder-decoder架构。

BERT用的是encoder的架构，PEGASUS/T5用的是encoder-decoder的架构，Language model/GPT用的是decoder的架构，Prefix LM将encoder和decoder放在一起。

我们一般训练时encoder都是可以并行的，decoder都是串行的。从训练的速度和性能，我们基本上偏向于前面两种结构，如果要做文本理解则推荐使用类似于BERT的架构，如果要做文本生成则推荐使用类似于Pegasus的架构。

除此之外，还有一些训练技巧，主要有以下几点：

**Small word embedding**

Transformer由两部分组成，前面一部分是把one-hot映射到embedding的过程，one-hot 因为只是在单词级别，还没有到句子级别的理解，所包含的信息是比较少的，而词表是比较大，即下图中的V比较大，所以如果我们直接把把词表映射到隐层的表达，会占用过多的参数，一个更好的做法是先把单词映射到一个比较小的空间，再映射回去，这样不但减少了计算量，而且训练结果会更好。

![西湖大学蓝振忠：预训练语言模型的前沿发展趋势][85cd1e017a735387a3f88612e7b0f780.png]

图6 使用小的词嵌入表示

**跨层的参数共享**

另一个搭建网络的技巧是跨层的参数共享。初期有这个想法是因为各个层之间的注意力可视化结果看起来是相似的，所以在网络层之间做了参数共享。这种共享没有节省计算量，只是减少了参数量，而且会导致很小的性能降低。所以如果内存不是问题，还是推荐使用BERT的架构。

![西湖大学蓝振忠：预训练语言模型的前沿发展趋势][7324115dc98cf7228769a79f784b2140.png]

图7 跨层的参数共享

但是其实在很多的情况下，内存有问题，特别是现在有一些高性能的结算，内存是有问题的，如果要把很大的模型加载进内存是做不到。所以这种情况下推荐共享参数，这样可以把整个模型加载到内存中取，从而加快模型训练和推理速度。

**取消dropout**

另外一个技巧是去掉网络中的dropout。当把Dropout去掉以后，结果会好很多，训练内存也会少占用很多，实验结果显示基本上可以去掉一半的训练内存，进而可以训练更大的模型。

![西湖大学蓝振忠：预训练语言模型的前沿发展趋势][5c0c647358065bf261b00ee2ae0c663b.png]

图8 取消dropout

**使用talking-head attention**

在使用Transformer进行训练的过程中，常常发现 multi-head attention中的head的个数上升到一定程度其性能就不会再上升。经过探究发现，其实我们在做attention的时候，K\*Q算的相似度，我们希望这部分的embedidng更大，而multi-head attention中随着head的个数的增加，其K和Q的长度在变小，其相似度的计算变得不够准确的。假如有一个长vector，把它切成很多的小段去算相似度的时候就不能概括整个vector全局的信息。一个简单的调整方法是计算完局部相似度之后再乘以全局的vector做一个映射。这个非常简单的方法表现却非常好，结果也有明显的提升。

![西湖大学蓝振忠：预训练语言模型的前沿发展趋势][328916eb104e5dbe1594710ab6164b87.png]

图9 Talking-head attention

*  **目标函数**

从目标函数来说，下图有一个明显的对比。

![西湖大学蓝振忠：预训练语言模型的前沿发展趋势][8209f89321470302a621781f9cf73f71.png]

图10 GPT系列模型的低效目标函数

Encorder-decoder的结构对应的是BERT的架构，Language model对应的是GPT的架构，在同样的算力、参数的情况下， Language Model要比Encoder-decoder架构差很多，这也是为什么我们推荐encoder-decoder架构的原因。从图中，我们还可以看出，MLM是比LM更加有效的预训练目标函数。

除此之外，Span masking相比于random masking性能也更好。如图11所示。

![西湖大学蓝振忠：预训练语言模型的前沿发展趋势][b8cc5fb9f08e301b230e6891bc06749f.png]

图11 Span masking优于random masking

BERT mask掉了15%的token，所以只有在15%的token的情况下是有Loss的，这是比较低效的训练方法。Electra提出先用生成器把单词生成出来，然后我再用一个判别器判别出这些词生成出来的，还是原来的词，就使得在每一个token上都有Loss，如图12所示。

![西湖大学蓝振忠：预训练语言模型的前沿发展趋势][62fef5c4e4c4597d27a9139187ba3946.png]

图12 Electra引入生成器和判别器

PEGASUS中指出如果要训练一个生成器，最好的方法是mask掉一个句子，而不是像GPT那样逐个地生成，所以句子级别的mask效果会更好一些，如图13所示。

![西湖大学蓝振忠：预训练语言模型的前沿发展趋势][2c872c98500d38a50a49b42d636df8e0.png]

图13 句子级别的mask更优

BERT中正样本是相接的两个句子，负样本是来自不同Documents的两个句子。ALBER则简单的采用了让正样本中的两个句子对调，这可以避免让模型学到文档信息，如图14所示，这样在各个任务上都有较大的性能提升。

![西湖大学蓝振忠：预训练语言模型的前沿发展趋势][fbb22c218e6cf71038b0e94fe8bcac0d.png]

图14 句子级别的mask更优

*  **预训练时长**

RoBERTa中指出训练时间越长效果会越好。因为我们的预训练通常是训练在非常大的一个数据集上的，它训练的是普适性的知识，所以想要迁移到另一个任务上的时候，其实存在领域鸿沟，所以如果存在target数据集，则在target数据集上做持续的预训练会取得更好的效果。

![西湖大学蓝振忠：预训练语言模型的前沿发展趋势][109d928aa8bb8c142d85db75a21b54b8.png]

图15 持续训练效果更优

**4 总结**

预训练如今显得非常重要，未来也还有很多的工作要做。

现如今的研究如果仅仅是在调参等方面进行小的改进从而提升模型的效果，其所提升的模型性能很快会被更大的模型和更多的数据所掩盖，所以预训练的大模型在未来需要引起更多的重视。

此外，中文数据集具有重要意义，目前我们发布了名为CLUE的中文数据集，欢迎大家积极参与到中文的语言体系的建设中。

[61d2d9a07200902cbb1187e30fb6f8d5.png]: /images/20220828/ecc9ce05d4f1449c9642c9b5102e796a.png
[27c050821d3419dfc93266feb3453104.png]: /images/20220828/68664dd0c8914e4eacbfe3eb8bc6d887.png
[6f05f41daba5eba4691502cf90340250.png]: /images/20220828/88570341d60a4b5d8978aef951d1407e.png
[7a65e6c4024634ae90728f16e7c15cb2.png]: /images/20220828/2bfb847f237a483997e591956af15544.png
[b7b6ffa4fb7c6181ab6b217db25e6b76.png]: /images/20220828/69dbbbd3e6504b17b1a8a2c26cac827a.png
[df5bd171dabbe43d92de38605755cf3b.png]: /images/20220828/3ffb8183742a4220ab2d48dd306d3fc7.png
[85cd1e017a735387a3f88612e7b0f780.png]: /images/20220828/fc97bd97c4cf46ff89f9ee07322257fe.png
[7324115dc98cf7228769a79f784b2140.png]: /images/20220828/ecf5814e08424573befb84cbf901d03d.png
[5c0c647358065bf261b00ee2ae0c663b.png]: /images/20220828/ad2aacde722342d28bc9d190a80187fc.png
[328916eb104e5dbe1594710ab6164b87.png]: /images/20220828/89ae018430a643c7b9804d409d8a5ebf.png
[8209f89321470302a621781f9cf73f71.png]: /images/20220828/a311c3d820f24575b4e845d1d4f432f3.png
[b8cc5fb9f08e301b230e6891bc06749f.png]: /images/20220828/3fbeab09178d4802951e0d038c123092.png
[62fef5c4e4c4597d27a9139187ba3946.png]: /images/20220828/63f2e7e496e34419a5405787580cc79a.png
[2c872c98500d38a50a49b42d636df8e0.png]: /images/20220828/7a675facd26448fab563044b37bd521c.png
[fbb22c218e6cf71038b0e94fe8bcac0d.png]: /images/20220828/d62d26dfb36f4b1bbe288e7c80540022.png
[109d928aa8bb8c142d85db75a21b54b8.png]: /images/20220828/ac36f74393fd47ddb03547a1c4fe7a75.png