原标题: ALBERT 与ELECTRA,小排量的大飞机
原文 来自:CSDN 原文链接:https://blog.csdn.net/u013741019/article/details/102883553
前言随着BERT的横空出世,目前越来越多优秀的预训练语言模型涌现出来,学习的步伐跟不上发展的速度。 BERT 刚出来时,感觉,可预期的时间内,只要预训练目标任务足够好,相信效果会有更进一步提升。
预训练语言模型名称 特点 机构 ELMO 自回归语言模型,双层BiLSTM AllenNLP BERT 自编码语言模型,Transformer 谷歌 GPT,GPT 2.0 自回归,Transformer OpenAI ERINE 结合知识图谱的BERT 百度 MASS 联合训练encoder和decoder的模型 微软 XLNet 排列语言模型,Transformer XL CMU & 谷歌 RoBERTa 对比BERT,数据质量更优,剔除下一句预测任务 Facebook SG-Net 融入句法结构的BERT 上海交通大学 ALBERT Embedding因式分解,跨层的参数共享,移除dropout,参数量相比于BERT下降了一个数量级(Base 110M->11M) 谷歌 T5 整个 NLP 预训练模型领域提供了一个通用框架 ,以及预训练语料C4 谷歌 ELECTRA 把生成式的Masked language model(MLM)预训练任务改成了判别式的Replaced token detection(RTD)任务,判断当前token是否被语言模型替换过。 斯坦福
近期两篇下面分享最新的学术界两篇论文,他们有共同点:对比于BERT参数量少了一个量级,但是效果却反而提升了
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS
1.ELECTRA 摘要(原文)虽然像BERT这样的MASK语言建模(MLM)预训练方法在下游的NLP任务上产生了很好的结果,但是它们需要大量的计算才能有效。这些方法通过用[MASK]替换一些Token来破坏输入,然后训练一个模型来重构Token。作为一种替代方案,我们提出了一种更具效率的预训练,称为Replaced token detection(RTD)判断当前词是否被替换了。我们的方法不是屏蔽输入,而是用从小型GAN中提取的plausible alternatives sampled替换一些输入Token,从而破坏输入。然后,我们不是训练一个模型来预测[MASK],而是训练一个判别模型来[MASK]输入中的每个Token是否被生成器样本替换。实验表明,这种预训练模型更有效,因为它从所有的输入中学习,而不是仅仅从[MASK]中。结果,在相同的模型大小、数据和计算条件下,通过我们的方法学习的上下文表示大大优于通过BERT和XLNet等方法学习的上下文表示。例如,我们在一个GPU上训练一个模型4天,该模型在GLUE自然语言理解基准上的性能优于GPT(使用30倍以上的计算进行训练)。我们的方法在规模上也很有效,我们使用不到1/4的计算,就可以达到RoBERTa的性能。
MNLI QQP XLNet 89.8 91.8 RoBERTa 90.2 92.2 ALBERT 88 * T5 92 90.2 ELECTRA 90.5 92.4
1.1GAN的引入GAN在CV中大火,但是在NLP中却一直差点意思,效果不是很突出。这篇文章一个突出贡献就是将GAN引入到预训练语言模型中,并且取得了SOTA (state of the art)的效果。
Replaced Token Detection(RTD)
1.1.1Generator 生成器通过对MASK后的句子生成样本,这里使用的是MLM(maximum likelihood),而不是使用的 Adversarially。因为NLP和CV的差异性
1.1.2Discriminator 判别器通过序列标注的方法,判断当前词是否是原文(original,replaced)
1.2权重共享 1.3Smaller Generators 1.4Training Algorithms将Generator 和Discriminator 进行联合训练
Train only the generator with MLM for n steps. 开始只训练通过MLM去训练Generator
Initialize the weights of the discriminator with the weights of the generator. Then train the discriminator with Disc for n steps, keeping the generator’s weights frozen. 然后用Generator 的参数去初始化 Discriminator,通过Disc 去训练Discriminator 同时冻结 Generator 的参数
1.5 contrastive learning(对比学习) 2.ALBERT Other 参考ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS XLNet: Generalized Autoregressive Pretraining for Language Understanding T5:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。
合作及投稿邮箱:E-mail:editor@tusaishared.com