资源技术动态在没有监督的情况下,我们能从深层语境词嵌入中识别词义吗?

在没有监督的情况下,我们能从深层语境词嵌入中识别词义吗?

2020-02-06 | |  103 |   0

原标题:在没有监督的情况下,我们能从深层语境词嵌入中识别词义吗?

来源:AI 研习社          链接:https://www.yanxishe.com/TextTranslation/2375


在政治学等领域,应用文本分析(例如使用“词袋”方法的任务)通常会假设一个单词只有一种意义(含义)。这类似于诸如word2vec的流行单词嵌入模型,该模型也对单词的单个表示进行编码。但是,我们知道单词可以有多种含义:例如,“鼠标”可以指啮齿动物或计算机设备。不幸的是,带有手工注释的词义数据集的数量及其覆盖的词汇非常有限。


我们可以提取多义词表示形式以用于下游文本分析任务吗?我们转向BERT和ELMo(这是两个最新的最新语言模型)来生成离散的词义集合,这些词义可以在下游应用任务中解释。我们还将看看fastText,这是另一个最近的嵌入模型。


首先,我们使用来自Wikipedia的手动标记的句子展示“概念证明”示例,这些示例支持在上下文表示中捕获词义的概念。

1580955895248172.png


可视化描绘了包含单词“ mouse”的句子的ELMo表示,被PCA简化为2-D。颜色对应于在每个句子中使用的手动标记词义。图片来源:Elmo:http://images4.wikia.nocookie.net/__cb20111001210629/muppet/images/b/be/ElmoThinking.jpg /鼠标:https://emojipedia.org/three-button-mouse/


为了能够在没有任何监督的情况下检测词义,我们需要走得更远,开发一种方法来估计每个唯一词的词义数量。我们进行了一系列实验来实验性地预测词义的数量,并使用WordNet(通过PyDictionary)和Wiktionary(分别是常见的NLP数据集和众包在线词典)作为我们的词义“基本事实”。


但是,我们始终发现模型的预测词义数量与WordNet / Wiktionary之间的相关性很差。因此,尽管我们对手工标记的数据有了令人鼓舞的初步发现,但这种负面结果表明,简单的几何方法无法以完全无监督的方式识别单词的含义,因为无法可靠地估计含义。


我们指出了可能解释这些结果的几个问题。最后,我们提供一些想法供进一步研究。


情境表达

深度的情境化表示可以改善许多NLP任务(包括词义歧义消除)的性能。¹ELMo专为捕获多义性²而设计,并且BERT使用双向训练来学习语境³。因为BERT和ELMo学习了情境化表示,所以我们希望它们确实,fastText或word2vec⁴不能捕获语义信息的编码。实际上,最近的研究已经探索了如何在BERT⁵中编码词义。


在下面的部分中,我们描述了数据以及从BERT,ELMo和fastText中提取嵌入表示形式的方法。


数据

我们使用最近的简单Wikipedia⁶转储,我们使用开源软件⁷进行处理。数据集包含143,411篇Wikipedia文章中的文本。对于我们的实验,我们在整个语料库中使用出现在WordNet(通过PyDictionary)和Wiktionary中的1,000个最频繁出现的标记(不包括数字和标点符号)。


我们从语料库中提取句子(目标词出现的整个句子)和基于窗口的上下文(目标词周围{5,10}个词的窗口)。

1580955953458003.png

接下来,我们将这些上下文转换为矢量表示。


艾莫


我们使用具有默认权重和选项的预训练ELMo模型来计算上下文中单词的表示形式。 我们通过两种方式计算上下文表示:


“减去上下文”的表示形式:我们平均每个令牌的ELMo表示形式的3层。 我们对除目标词以外的所有标记的表示进行平均(我们将其称为context-except-target); 随后,我们从目标词的表示形式中减去“目标除外”; 我们将结果称为“减去上下文”表示。 我们这样做是为了使目标词的表示不包括上下文。 (我们感谢Dirk Hovy提出了这个想法。)


平均表示形式:将每个标记的3层平均后,我们可以简单地对标记表示形式进行平均-包括目标单词。


伯特


我们使用预训练的向量表示

BERT模型(基本BERT,无大小写,具有768个隐藏单元和12个磁头)⁸,并使用开源软件提取预先计算的矢量表示。⁹


1.“减去上下文”的表示形式:与上面相同。


2.平均表示形式:与上述相同。


3.Concat CLS:我们将“减去上下文”的表示形式串联起来

以及该上下文的“ [CLS]”分类令牌表示形式。


fastText


我们使用经过预训练的fastText,该词已在英语Wikipedia¹⁰上进行了训练。


我们将每个单词向量除以它的L2范数,然后取平均向量一起计算句子向量。


1.“减去上下文”’:与上述相同; 我们还将tf-idf权重应用于每个令牌表示。 与前面几节中的上下文表示法不同,无论上下文如何,目标词都有一个表示形式。 但是,目标减上下文包含了上下文。


2.平均表示形式:与上述相同。


例子

嵌入表示实际上捕获了单词的含义吗? 我们首先使用来自每个语料库的一小组手工标记的单词来图形化地探讨这个问题。 尽管有局限性,但这些结果显示了给定单词的相似用法的清晰空间聚类。


选择单词是因为它们被认为具有多种不同的含义。 感官数量是在检查上下文句子之后选择的。 我们从三个嵌入模型的每一个中提取上下文的平均表示,然后使用PCA,UMAP和t-SNE将向量分解为2-D。


图上各点的颜色代表手工标记的群集分配。 嵌入模型和分解方法的不同组合会产生相似的结果:按颜色(即根据词义)对上下文进行空间分组。

1580956022909584.png

(a)BERT。 橙色是动物,蓝色(正方形)是运动器材。

1580956045317001.png

(b)ELMo。 橙色是动物,蓝色(正方形)是运动器材。

1580956063862476.png

(c)fastText。 橙色是动物,蓝色(正方形)是运动器材。


高斯混合模型的频繁实验

1580956100167662.png

图片来源:Bert: https://d827xgdhgqbnd.cloudfront.net/wp-content/uploads/2019/04/09110726/Bert-Head.png / Elmo: https://vignette.wikia.nocookie.net/muppet/images/5/5a/Elmo-elmo-elmo.jpg/revision/latest/scale-to-width-down/280?cb=20110917000614 / 图片为作者提供


对于语料库中前1,000个单词中的每一个,我们提取1,500个上下文⁵,然后使用PCA,t-SNE和UMAP对其进行分解。接下来,我们使用5倍交叉验证对{2:30}中的每个k拟合高斯混合模型。对于每个单词,预测的k是来自模型的k,在保留的数据上概率最高,平均为5倍。 (在此处未报告的一个较小的实验中,我们也使用AIC和BIC作为选择k的标准,但结果大致相同。)


(在另一个未在此处报告的实验中,我们将原始嵌入表示法(未进行任何分解)用作我们的高斯混合模型的输入。在该实验中,几乎所有单词的k均预计为2。)


评价


我们的“基本真理”是WordNet和英语维基词典中含义的数量。¹²


我们在下面以“减去上下文”的表示形式显示常客的结果。结果与用于计算嵌入表示的其他方法大致相同,相关性主要在-0.1和0.1之间。

1580956152865912.png


高斯混合模型的贝叶斯实验


我们的流水线与上面的流水线相同,只是我们先将贝叶斯高斯混合模型与Dirichlet过程拟合。 我们拟合了具有随机起始且最大k = 30的50个模型。 对于每个单词,我们采用这50次迭代的平均有效组件数。


评价

贝叶斯实验的结果与频繁实验相似,不同之处在于有多个分解设置(例如具有200维的PCA)可以产生恒定值。 这导致NaN与基本事实相关。

1580956199542470.png

该表中的NaN值是由模型在某些超参数组合下预测k的相同值得出的。


结论

我们在视觉化词义上的初步实验是有前途的:将词义在视觉上分成几类,这表明上下文化表示包含必要的信息。然而,在那些例子中,k是固定的。我们发现,自动确定每个唯一单词的正确k是一项艰巨的任务。


值得注意的是,维基词典和WordNet之间的相关性很低:0.377。尽管这比与我们估计的k的相关性要大,但由于没有模型可以与它们两者高度相关,因此提出了一个问题,即应将这些数据集中用作“地面真理”。


关于这一点,亚当·基尔加里夫(Adam Kilgarriff)提出了一般性的观点,他认为适当的词义可能取决于手头的任务或领域。¹因此,我们应谨慎尝试生成一个“一刀切”的全集单词感官,尤其是在表现的上限较低时。但是,非几何方法(我们未在方法中进行检查)可能是其他研究的起点。

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:暗中观察,AI摄像头可以看出你是否走神

下一篇:在 PyTorch 中真实感风格转换所需的一切

用户评价
全部评价

热门资源

  • 应用笔画宽度变换...

    应用背景:是盲人辅助系统,城市环境中的机器导航...

  • GAN之根据文本描述...

    一些比较好玩的任务也就应运而生,比如图像修复、...

  • 端到端语音识别时...

    从上世纪 50 年代诞生到 2012 年引入 DNN 后识别效...

  • 人体姿态估计的过...

    人体姿态估计是计算机视觉中一个很基础的问题。从...

  • 谷歌发布TyDi QA语...

    为了鼓励对多语言问答技术的研究,谷歌发布了 TyDi...