资源技术动态ALBERT:语言表示自监督学习的轻量 BERT

ALBERT:语言表示自监督学习的轻量 BERT

2020-01-10 | |  102 |   0

原标题:ALBERT:语言表示自监督学习的轻量 BERT

来源:AI 研习社        链接:https://www.yanxishe.com/TextTranslation/2313


自从一年前 BERT 出现以来,自然语言研究已经采用了一种新的范式,利用大量现有文本通过自我监督去预训练模型的参数,而不需要数据注释。 因此,与其从头开始训练一个用于自然语言处理(NLP)的机器学习模型,不如从一个具备语言知识的模型开始。 但是,为了改进这种新的自然语言处理方法,我们必须理解究竟是什么促进了语言理解的表现ー网络的高度(即层数) ,它的宽度(隐藏层表示的大小) ,自我监督的学习标准,或者别其他完全不同的东西?


在 ICLR 2020接受的“ ALBERT: a Lite BERT for Self-supervised Learning of Language representation”中,我们对BERT进行了一次改进,提高了在12个任务上的最新性能,包括竞争性的斯坦福问答数据集(SQuAD v 2.0)和 sat- 风格的阅读理解比赛基准。 ALBERT是作为 TensorFlow 之上的一个开源实现发布的,包括一些现成的ALBERT 预训练的语言表示模型。  


什么有助于 NLP 的表现? 

确定 NLP 表现的主要驱动因素是复杂的ーー有些环境比其他环境更重要,而且,正如我们的研究所揭示的,对这些环境进行简单的、一次一个的探索不会得到正确答案。 


在 ALBERT 的设计中,优化性能的关键是更有效地分配模型的容量。 输入级嵌入(词、子标记等)需要学习与上下文无关的表示,例如单词“ bank”的表示。 相比之下,隐藏层嵌入需要将其细化为上下文相关的表示,例如,在金融交易中表示”银行” ,而在河流管理中表示”河岸”。 


这是通过嵌入参数的分解来实现的——嵌入矩阵在维数相对较低的输入级嵌入(如128)之间被分割,而隐层嵌入使用更高的维数(如 BERT 情况下的768或更多)。其他所有条件与 BERT 相同的情况下, 仅通过这一步,ALBERT 就以性能上的轻微降低实现了投影区块80% 的参数的减少——在SQuAD2.0数据集上从80.4分降到80.3分; 从RACE数据集上 的68.2分降到67.9分。


ALBERT的另一个关键设计决策来源于另一个关于冗余的观察。 基于 transformer 的神经网络体系结构(如 BERT、 XLNet 和 RoBERTa)依赖于相互叠加的独立层。 然而,我们观察到,网络经常学会在不同的层次执行类似的操作,使用不同的网络参数。 这种可能的冗余在 ALBERT 中通过相同层之间的参数共享消除了,即,叠加在彼此之上。 这种方法略微降低了精度,但更紧凑的尺寸是值得权衡的。 参数共享可以使注意前馈区域的参数减少90% (总体减少70%) ,这样,除了嵌入参量化的因子分解之外,在2.0到80.0中队的性能下降了-0.3,在比赛得分上下降3.9到了64.0分。


将这两个设计更改一起实现,可以得到一个只有12M参数的ALBERT-base模型,与BERT-base模型相比减少了89%的参数,但是仍然可以在考虑的基准上获得令人满意的性能。但是这种参数大小的减少提供了再次扩展模型的机会。假设内存大小允许,可以将隐藏层嵌入的大小扩展10-20倍。隐藏层大小为4096的ALBERT-xxlarge配置实现了与BERT-large模型相比30%的总体参数的减少,更重要的是,有了显著的性能提升:在SQuAD2.0上增加4.2(从83.9增加到88.1),在RACE上增加8.5(从73.8增加到82.3)。


这些结果表明,准确的语言理解依赖于开发健壮的、高容量的上下文表示。在隐藏层嵌入中建模的上下文捕获单词的含义,进而驱动整体理解,这是通过在标准基准上的模型性能直接度量的。


利用RACE数据集优化模型性能


要评估一个模型的语言理解能力,可以做一个阅读理解测试(例如,类似于SAT阅读测试)。这可以通过RACE数据集(2017年)来实现,这是用于此目的的最大公共可用资源。在这项阅读理解挑战中,计算机的表现很好地反映了过去几年来语言建模的进步:一个只使用上下文无关的单词表示的预训练模型在这项测试中得分很低(45.9;最低标准),而BERT的得分则相对较高,为72.0分。XLNet和RoBERTa等提炼出的BERT模型将得分标准抬得更高,在82-83分的范围内。上面提到的ALBERT-xxlarge配置在基本BERT数据集(维基百科和书籍)上进行训练时,取得了相同范围的分数(82.3分)。然而,当在与XLNet和RoBERTa相同的更大的数据集上进行训练时,它显著地优于迄今为止的所有其他方法,并取得了89.4分的最高分数。

01.png


ALBERT的成功证明了识别模型中产生强大上下文表示的各个方面的重要性。通过将改进工作集中在模型体系结构的这些方面,可以大大提高模型在各种NLP任务上的效率和性能。为了促进NLP领域的进一步发展,我们向研究界开放ALBERT的资源。

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:国外研究发现面部识别系统存在种族偏见

下一篇:Google Brain的最先进文本摘要

用户评价
全部评价

热门资源

  • 应用笔画宽度变换...

    应用背景:是盲人辅助系统,城市环境中的机器导航...

  • GAN之根据文本描述...

    一些比较好玩的任务也就应运而生,比如图像修复、...

  • 端到端语音识别时...

    从上世纪 50 年代诞生到 2012 年引入 DNN 后识别效...

  • 人体姿态估计的过...

    人体姿态估计是计算机视觉中一个很基础的问题。从...

  • 谷歌发布TyDi QA语...

    为了鼓励对多语言问答技术的研究,谷歌发布了 TyDi...