三分钟带你读懂 BERT

资源分类

三分钟带你读懂 BERT

2019-09-24 |

97 |

原标题：三分钟带你读懂 BERT

来源：AI研习社原文链接：https://www.yanxishe.com/TextTranslation/1509

发起：王立鱼校对：酱番梨审核：约翰逊 · 李加薪参与翻译（2人）：胡瑛皓、stone豪

英文原文：BERT Technology introduced in 3-minutes

由谷歌公司出品的用于自然语言理解的预训练BERT算法，在许自然语言处理的任务表现上远远胜过了其他模型。

BERT算法的原理由两部分组成，第一步，通过对大量未标注的语料进行非监督的预训练，来学习其中的表达法。其次，使用少量标记的训练数据以监督方式微调预训练模型以进行各种监督任务。预训练机器学习模型已经在各种领域取得了成功，包括图像处理和自然语言处理（NLP）。

BERT的含义是Transformer的双向编码器表示。它基于Transformer架构（由Google于2017年发布，《Attention Is All You Need》）。 Transformer算法使用编码-解码器网络，但是，由于BERT是预训练模型，它仅使用编码来学习输入文本中的潜在表达。

技术

BERT将多个transformer编码器堆叠在一起。tranformer基于著名的多头注意模块(multi-head attention)。它在视觉和语言任务方面都取得了巨大成功。关于attention的回顾，请参考此处。

BERT卓越的性能基于两点。首先创新预训练任务Masked Language Model (MLM)以及Next Sentence Prediction (NSP). 其次训练BERT使用了大量数据和算力。

MLM使得BERT能够从文本中进行双向学习，也就是说这种方式允许模型从单词的前后单词中学习其上下文关系。此前的模型这是做不到的。此前最优的算法称为Generative Pre-training (GPT) 该方法采用了从左到右的训练方式，另外ELMo 采用浅双向学习(shallow bidirectionality)。

MLM预训练任务将文本转换为tokens，把token表示作为训练的输入和输出。随机取其中15%的token进行mask，具体来说就是在训练输入时隐藏，然后用目标函数预测出正确的token内容。这种方式对比以往的训练方式，以往方式采用单方向预测作为目标或采用从左到右及从右到左两组(单方向)去近似双向。NSP任务通过预测后一个句子是否应该接在前一句之后，从而使得BERT可以学习句子间的关系。训练数据采用50%顺序正确的句子对加上另外50%随机选取的句子对。BERT同时训练MLM和NSP这两个目标。