在没有监督的情况下，我们能从深层语境词嵌入中识别词义吗?

2020-02-06 |

103 |

原标题：在没有监督的情况下，我们能从深层语境词嵌入中识别词义吗?

来源：AI 研习社链接：https://www.yanxishe.com/TextTranslation/2375

在政治学等领域，应用文本分析（例如使用“词袋”方法的任务）通常会假设一个单词只有一种意义（含义）。这类似于诸如word2vec的流行单词嵌入模型，该模型也对单词的单个表示进行编码。但是，我们知道单词可以有多种含义：例如，“鼠标”可以指啮齿动物或计算机设备。不幸的是，带有手工注释的词义数据集的数量及其覆盖的词汇非常有限。

我们可以提取多义词表示形式以用于下游文本分析任务吗？我们转向BERT和ELMo（这是两个最新的最新语言模型）来生成离散的词义集合，这些词义可以在下游应用任务中解释。我们还将看看fastText，这是另一个最近的嵌入模型。

首先，我们使用来自Wikipedia的手动标记的句子展示“概念证明”示例，这些示例支持在上下文表示中捕获词义的概念。

可视化描绘了包含单词“ mouse”的句子的ELMo表示，被PCA简化为2-D。颜色对应于在每个句子中使用的手动标记词义。图片来源：Elmo：http://images4.wikia.nocookie.net/__cb20111001210629/muppet/images/b/be/ElmoThinking.jpg /鼠标：https://emojipedia.org/three-button-mouse/

为了能够在没有任何监督的情况下检测词义，我们需要走得更远，开发一种方法来估计每个唯一词的词义数量。我们进行了一系列实验来实验性地预测词义的数量，并使用WordNet（通过PyDictionary）和Wiktionary（分别是常见的NLP数据集和众包在线词典）作为我们的词义“基本事实”。

但是，我们始终发现模型的预测词义数量与WordNet / Wiktionary之间的相关性很差。因此，尽管我们对手工标记的数据有了令人鼓舞的初步发现，但这种负面结果表明，简单的几何方法无法以完全无监督的方式识别单词的含义，因为无法可靠地估计含义。

我们指出了可能解释这些结果的几个问题。最后，我们提供一些想法供进一步研究。

情境表达

深度的情境化表示可以改善许多NLP任务（包括词义歧义消除）的性能。¹ELMo专为捕获多义性²而设计，并且BERT使用双向训练来学习语境³。因为BERT和ELMo学习了情境化表示，所以我们希望它们确实，fastText或word2vec⁴不能捕获语义信息的编码。实际上，最近的研究已经探索了如何在BERT⁵中编码词义。

在下面的部分中，我们描述了数据以及从BERT，ELMo和fastText中提取嵌入表示形式的方法。

数据

我们使用最近的简单Wikipedia⁶转储，我们使用开源软件⁷进行处理。数据集包含143,411篇Wikipedia文章中的文本。对于我们的实验，我们在整个语料库中使用出现在WordNet（通过PyDictionary）和Wiktionary中的1,000个最频繁出现的标记（不包括数字和标点符号）。

我们从语料库中提取句子（目标词出现的整个句子）和基于窗口的上下文（目标词周围{5,10}个词的窗口）。

接下来，我们将这些上下文转换为矢量表示。

艾莫

我们使用具有默认权重和选项的预训练ELMo模型来计算上下文中单词的表示形式。我们通过两种方式计算上下文表示：

“减去上下文”的表示形式：我们平均每个令牌的ELMo表示形式的3层。我们对除目标词以外的所有标记的表示进行平均（我们将其称为context-except-target）；随后，我们从目标词的表示形式中减去“目标除外”；我们将结果称为“减去上下文”表示。我们这样做是为了使目标词的表示不包括上下文。（我们感谢Dirk Hovy提出了这个想法。）

平均表示形式：将每个标记的3层平均后，我们可以简单地对标记表示形式进行平均-包括目标单词。

伯特

我们使用预训练的向量表示

BERT模型（基本BERT，无大小写，具有768个隐藏单元和12个磁头）⁸，并使用开源软件提取预先计算的矢量表示。⁹

1.“减去上下文”的表示形式：与上面相同。

2.平均表示形式：与上述相同。

3.Concat CLS：我们将“减去上下文”的表示形式串联起来

以及该上下文的“ [CLS]”分类令牌表示形式。

fastText

我们使用经过预训练的fastText，该词已在英语Wikipedia¹⁰上进行了训练。

我们将每个单词向量除以它的L2范数，然后取平均向量一起计算句子向量。

1.“减去上下文”’：与上述相同；我们还将tf-idf权重应用于每个令牌表示。与前面几节中的上下文表示法不同，无论上下文如何，目标词都有一个表示形式。但是，目标减上下文包含了上下文。

2.平均表示形式：与上述相同。

例子

嵌入表示实际上捕获了单词的含义吗？我们首先使用来自每个语料库的一小组手工标记的单词来图形化地探讨这个问题。尽管有局限性，但这些结果显示了给定单词的相似用法的清晰空间聚类。

选择单词是因为它们被认为具有多种不同的含义。感官数量是在检查上下文句子之后选择的。我们从三个嵌入模型的每一个中提取上下文的平均表示，然后使用PCA，UMAP和t-SNE将向量分解为2-D。

图上各点的颜色代表手工标记的群集分配。嵌入模型和分解方法的不同组合会产生相似的结果：按颜色（即根据词义）对上下文进行空间分组。

（a）BERT。橙色是动物，蓝色（正方形）是运动器材。

（b）ELMo。橙色是动物，蓝色（正方形）是运动器材。

（c）fastText。橙色是动物，蓝色（正方形）是运动器材。

高斯混合模型的频繁实验

图片来源：Bert: https://d827xgdhgqbnd.cloudfront.net/wp-content/uploads/2019/04/09110726/Bert-Head.png / Elmo: https://vignette.wikia.nocookie.net/muppet/images/5/5a/Elmo-elmo-elmo.jpg/revision/latest/scale-to-width-down/280?cb=20110917000614 / 图片为作者提供

对于语料库中前1,000个单词中的每一个，我们提取1,500个上下文⁵，然后使用PCA，t-SNE和UMAP对其进行分解。接下来，我们使用5倍交叉验证对{2:30}中的每个k拟合高斯混合模型。对于每个单词，预测的k是来自模型的k，在保留的数据上概率最高，平均为5倍。（在此处未报告的一个较小的实验中，我们也使用AIC和BIC作为选择k的标准，但结果大致相同。）

（在另一个未在此处报告的实验中，我们将原始嵌入表示法（未进行任何分解）用作我们的高斯混合模型的输入。在该实验中，几乎所有单词的k均预计为2。）

评价

我们的“基本真理”是WordNet和英语维基词典中含义的数量。¹²

我们在下面以“减去上下文”的表示形式显示常客的结果。结果与用于计算嵌入表示的其他方法大致相同，相关性主要在-0.1和0.1之间。