第四期知识与认知图谱：神经机器翻译也应该嵌入「知识」

资源分类

2019-09-25 |

95 |

原标题：第四期知识与认知图谱：神经机器翻译也应该嵌入「知识」

来源：机器之心原文链接：https://www.jiqizhixin.com/articles/2019-06-03-12

5月30日，第四期智源论坛在清华大学中央主楼接待厅举行。本期的主题主要围绕知识与认知图谱展开，清华大学李涓子、刘洋、刘知远、刘奕群等研究者针对知识与人工智能介绍了不同方面的研究。本文将简要介绍各位研究者的主要演讲主题，并重点介绍知识驱动的可解释神经机器翻译系统，这也是刘洋老师重点解释的。

清华大学唐杰教授表示：“智源论坛基本的思路即邀请某一个领域顶尖学者，从而和大家一起探讨前沿技术、分享经验，并帮助大家成为更好的研究者和工程师。”在这一次论坛中，演讲主题都围绕着知识与知识图谱展开，希望为深度学习系统嵌入“知识”的小伙伴们，这一场论坛就是你们所需的。

演讲主题简介

第一位演讲者是清华大学长聘教授李涓子，她表示：“让计算机拥有大规模高质量的知识是实现机器智能的一项重要任务，大数据时代需要突破大数据向通用/领域知识转化的知识引擎关键技术。”因此，李娟子老师主要介绍了当前知识工程的挑战和相关工作。具体而言主要从以下三方面介绍知识工程：

知识工程在机器智能中的主要作用
文本和知识相结合：如何对文本中的词和知识库实体的知识进行联合表示学习
前沿研究工作：构建专家的知识库或学者画像

第二位演讲者是清华大学长聘副教授刘洋，他的演讲主题是：“Towards Knowledge-Guided, Interpretable and Robust Neural Machine Translation”。刘洋老师表示，从统计机器翻译到神经机器翻译，机器翻译已经有了很大的提升，但如何用知识指导机器翻译、如何提高可解释性和鲁棒性仍是非常前沿的研究领域。这一次的演讲，刘洋老师就从这三方面探讨机器翻译的解决方案。

第三位演讲者是清华大学副教授刘知远，他表示作为典型的数据驱动方法，深度学习面临可解释性不强等难题，如何将人类积累的大量语言知识和世界知识引入深度学习模型，是改进NLP深度学习模型性能的重要方向。

刘知远老师认为深度学习比较成功的地方在于，它为字、词、短语、句子、文档等语言单位建立了统一的语义空间。在这个空间内可以建立语言单位之间的复杂联系，从而解决各种NLP任务。但是这个过程并不完整，深度学习还需要更多的语言知识、常识知识、世界知识、领域知识，因此它才能理解语言“词层面”之下的意义。

最后，清华大学长聘副教授刘奕群重点介绍了信息检索课题组近来在该方向上进行的相关研究工作。刘奕群老师重点介绍了异质环境下的用户交互行为模型构建、异质多模态资源的聚合排序、异质环境下的搜索性能评价、异质环境下的可解释推荐等研究工作。

通向知识引导的可解释神经机器翻译

自2016年以来，神经机器翻译就已经成为最主流的方法。从最开始的Encoder-Decoder框架到嵌入注意力机制，再到近来Transformer全注意力结构，神经机器翻译已经有了很多提升。但神经机器翻译还是存在很多问题，我们该怎样嵌入专业领域的字典？我们该怎样解释译文与原文之间的关系，怎样解释NMT系统的内部运行机制？我们又该怎样建立稳健的翻译系统，从而不会因为原文的微小扰动而影响译文？

为了介绍这些问题，以及对应的解决方案，本文将介绍刘洋老师在智源论坛上的简要演讲精要。

为NMT嵌入知识

为NMT嵌入知识非常难，难点在于表示上的壁垒。人类知识采用一种符号表示方法，例如简单的词典将“抗议活动”翻译成protests。而神经机器翻译系统采用的是数值表示，里面全都是数值运算。所以因为表示性差异，我们很难把人类知识嵌入到神经网络里。

清华希望能提供一种通用的框架，所有的知识都能加入到其中。因此我们把人类的知识表示成符号空间，把深度学习表示成数值空间。然后我们尝试把两个空间关联起来，并将基于符号表示的知识都压缩到数值空间，从而令其指导深度学习过程。

统一的框架其实可以加多种知识，初步探索是加了一些对机器翻译非常重要的知识，例如双语辞典。我们需要将双语词典表示成特征的形式，嵌入到上面的系统而成为一种约束。以下展示了不同的特征以编码不同的知识。

NMT可解释性

深度学习很大问题在于黑盒子问题，内部全部是数值运算，且它们没有物理意义、语言学意义，与人类语法也没有任何对应关系。所以我们并没有办法分析里面过程，只知道给定输入就会有输出，当出现错误时也不知道它的产生原因是什么。如果能打开这个黑盒子，知道内部信息是怎么传递的，那么其对NMT非常有意义。

对于可解释性，有一种名为 Layer-wise Relevance Propagation（LRP）的新技术。它尝试为人工智能预测做出解释，例如我们不仅想知道某张图片可以分类为“猫”，同时还需要知道为什么神经网络会认为它是猫。这种方法的核心思想即从所做的决策倒退到输入端，从而知道哪一些特征对决策的影响最大。

LRP进行推广后可用到机器翻译中，因为我们关心当生成某个词时，它的上下文词对其有什么样的影响。我们提出了一些技术来处理这个问题，例如假设想了解下图三个蓝色节点对红色节点的影响，那么我们可以通过后向传播技术，对它们的共性进行分解。