情感分析纵览

资源分类

情感分析纵览

2020-03-06 |

115 |

原标题：情感分析纵览

来源：AI研习社链接：https://www.yanxishe.com/TextTranslation/2440

假新闻、人气、健康、财务和社会风险：情绪分析有助于理解所有这些。

……甚至可能让我们明白原因。

人们自然对彼此的意见产生了兴趣，但分析意见的科学工作可追溯到20世纪初，当时人们试图从问卷中捕捉、分析和量化公众意见。大约在同一时间，学术科学期刊《舆论季刊》出现在1937年[1]。然而，正是社交媒体平台的出现和采用，导致了“情绪分析”这一研究领域的诞生，以分析这种大规模的非结构化意见在线资源。

广义上讲，情绪分析利用文本分析来捕捉民意。它是自然语言处理（NLP）中最吸引人的用例之一，受到了业界和学术界的关注。在情感分析中，基于NLP的数据挖掘过程和技术被应用于从用户生成的内容（UGC）中提取和分析主观信息，主要是从社交媒体中提取和分析主观信息。

它允许你测量对某些产品、人或想法的情绪（观点，但也包括情绪）。情绪分析传统上是关于意见极性的，即某人对某人或某事是否有积极、中立或消极的意见，但也可以是关于某人或对象的特定方面。

它的流行自然源于它的广泛应用。客户服务、商业智能和产品或品牌声誉管理等商业应用尤为突出。在医疗保健领域，它可以用来检测药物不良反应的异常。它可以帮助监测金融市场上的犯罪活动或情绪，也可以衡量公众对政治候选人的看法。

在任何事件都能被潜在的数百万人以闪电般的速度在社交媒体上发布、观看、评论和分享的时候，情绪分析是一个重要的工具，可以让一切变得有意义，并在必要时做出反应。

情绪分析是如何随着时间的推移而发展的

情绪分析的研究任务和方法随着社交媒体渠道的发展而不断增长。在它的早期，情绪分析仅仅是把一个全球性的，整体的极性标签（积极的，消极的，有时是中性的）分配给英语客户评论。目前的研究包括句子层面的主观性检测、基于方面的情感分析、基于比喻语言的情感分析、基于话题的极性分类、事件的内隐极性分类，即在没有提及外显极性标记的情况下识别“愉快”或“不愉快”事件，情感分类以及最近的立场检测和论点挖掘，都涉及到多种语言和多种媒体来源（尽管使用Twitter数据已经成为“必须的”）。任务定义随后演变为更复杂的挑战，其中主观性、极性识别和意见挖掘已经丰富了细粒度方面和主题级预测。极性作为一个概念已经被心理学研究中定义的情感模型所补充。

用于情绪分析的方法、算法和资源也在不断发展。现有的研究已经为不同的任务产生了许多技术，包括有监督和无监督的方法。在有监督的背景下，早期的论文采用了各种有监督的机器学习方法（如支持向量机、最大熵、朴素贝叶斯等）和特征组合。无监督的方法包括利用情感词汇、语法分析和句法模式的方法。近年来，随着深度学习在其他领域的成功和普及，它被用于情感分析[2]，通常使用单词嵌入来表示输入文本。

对于情感分类，递归神经网络（RNN）特别是长短期记忆（LSTM）网络及其捕获长距离依赖关系的能力在极性分类方面取得了最新的成果。注意模型也被证明能产生有趣的结果，因为它们能捕捉句子中有关方面的重要信息[3]。

NLP和深度学习方法并存。经典的NLP方法利用语言先验知识来降低对包括情感分析在内的各种任务的精确监控水平。深度学习方法的主要缺点是需要大量带注释的数据。这意味着一定的代价，特别是对于复杂和结构化的语义。有鉴于此，当前的研究趋势提倡将先前的语言知识整合到文本分析的深层学习架构中[4]，一些工作已经为情感分析带来了有趣的结果[5]。

长期挑战与新领域

尽管越来越多的研究和情感分析取得了长足的进步，但文本中的情感现象，如主观性、观点、情感、情绪、情感、态度和情感，已经被证明是一个复杂的、跨学科的问题，远未得到解决。必须考虑许多参数，如作者的简介、文本类型、样式、域、文档源、目标语言和最终应用程序的目标。公开获得的实验结果（通常在相对有利的环境下获得）和系统在现实世界中获得的结果之间也存在差距。

自然语言

准确的情感分析的主要障碍一直是，而且仍然是，自然语言有许多不同的原因。

自然语言是模棱两可的；根据上下文和领域的不同，单词可能有不同的极性取向，例如形容词“可预测”在用于描述电影结尾时可能是否定的，但在涉及产品质量时是肯定的。

为了表达自己的观点，人们经常使用比喻性的语言，如反讽和讽刺。对于NLP来说，这些都是极具挑战性的任务，机器学习方法很容易被极性很强但却被讽刺性地使用的单词所误导（这意味着相反的极性是有意的）。

否定（虚假的表达）和情态（必然性、允许性和可能性的表达，例如应该是或可能是什么）是一种复杂的语言现象，它们对表达观点时所使用的表达方式的语义有很大的影响。在情感分析中，处理否定和情态的范围尤为重要。

理解语境是理解观点的必要条件。回指消解，即消解代词或名词短语所指的人或物，是自然语言处理技术的一个众所周知的挑战，也是理解观点的一个重要步骤。

最后，隐性情绪（事实表达暗示积极或消极情绪）在教资会中猖獗，例如“她仍在寻找另一个奥斯卡点头”中暗示推理和推理的语句。但不是在这里”。这些表达方式与可取和不可取的事实或行为相关，但不要使用固执己见的词汇，这意味着它们很难自动捕获。

挑战性任务

情绪分析在本质上具有挑战性，但人们对其他可能更加困难的相关任务的兴趣也在增长。

基于方面的情感分析（ABSA）旨在捕捉用户评论中实体（如产品、电影、公司等）不同方面表达的情感。方面是实体的属性，例如手机的屏幕（与它的重量或大小等）、餐厅的服务（与位置或定价等）或相机的图像质量等。它可以由与实体关联的本体来描述。ABSA意味着识别一个实体的不同方面以及相应的情感。最近，人们对这项任务越来越感兴趣，特别是随着专门针对它的SemEval挑战[6]它正在成为基本文档极性检测的情绪分析“标准”任务，我们正在开发一个ABSA系统，该系统在2016年SemEval挑战[7]中获得了最新的结果。我们现在正在将其集成到地图搜索引擎中，以创建感兴趣点的情感感知地图搜索。我们还在调查最终应用程序设置[8]中的ABSA评估，并为此创建了一个新的带注释的ABSA数据集（基于FourSquare数据），可以从该站点下载。

情感分析检测并识别文本中的情感类型，如愤怒、厌恶、恐惧、快乐、悲伤和惊讶。这六种基本情绪是最广泛使用的，从美国心理学家保罗·埃克曼和华莱士·V·弗里森的理论来看。这里最大的挑战之一是，在大多数情况下，情绪是隐含在文本中的，例如，一个句子可以有愤怒的成分，而不使用“愤怒”一词或其任何同义词。再加上不需要情感注释的文本数据，这就更加困难了。目前通常使用标准的分类技术，结合诸如WordNet情感或SentiWordnet之类的资源，再加上从隐含情感中获取常识知识的途径[9]。

垃圾邮件和虚假检测：虚假评论和虚假新闻是一个密切相关的现象，两者都包括写作和传播虚假信息或信仰。这里最大的挑战是缺乏一种有效的方法来区分真实的评论和虚假的评论。即使是人类也很难区分。再一次，我们面临着严重的缺乏地面真相数据集来帮助我们。大多数方法侧重于评论的内容（评论的长度、特定词汇、词性等）和评论人的行为（如发帖时间、发帖频率、产品初评人等）[10]。

多语种情感分析。目前大多数情绪分析系统通常只关注英语，而在线意见则以多种语言存在。只有一种语言的情感分析工具极大地增加了丢失其他语言中重要信息的风险。为了解决这一难题，目前的方法主要集中在极性信息与多语言单词嵌入的结合上[11]，[12]。

多模态情感分析：随着社会多媒体的普及，多模态情感分析将通过整合其他互补的数据流带来新的机遇，如面部和声音的显示，以及表达情感的表达方式往往非常强大。这样做不仅可以改善基于文本的情感分析，甚至可以超越它。困难在于在真实世界环境中提取视觉情感（低分辨率、主题运动）和从音频转录本中可靠地提取语言和副语言特征[13]。

实时情绪分析：全球每秒都会产生大量的实时数据，主要是非结构化文本消息。如果我们能够实时分析这些数据，我们不仅可以快速发现问题的答案，而且还可以解决实时问题。这将需要专门的预处理或分布式架构的开发，这些架构本身就致力于在线分析算法[14]。

最后，论证挖掘是未来情绪分析技术中最具挑战性的方向之一。情感分析是了解用户在某些方面的意见，论证的目的是找出这些意见产生的原因和整体的推理路径。

其主要目标是从通用文本语料库中自动提取参数，为参数计算模型和推理引擎提供结构化数据。

理论上，论点挖掘可以发现一些知识，这些知识可以让我们发现共同观点的“正当理由”（即人们为什么会这样思考），为复杂的政治问题生成细粒度的辩论图，或者改进共同观点挖掘算法。论据挖掘与另一个新兴的任务立场分类密切相关，立场分类的（更简单）目标是确定评论的作者是否赞成（通常）有争议的评论目标话题。挖掘论据是一项极具挑战性的任务[15]，因为它需要大量的常识、世界知识、领域知识和上下文知识。已经提出了许多论证模型，然后适用于自动识别[16]；它们作为文本注释的基础。

近年来，深度学习模型被广泛地应用于模型上下文的观点挖掘中，对世界知识的获取有很大的帮助。然而，这些模型自动从文本数据获取常识和世界知识方面存在局限性。观点挖掘在某些方面可以被认为是情感分析的一种演变：意见挖掘的目的是了解人们对某事的看法，而观点挖掘的目的是了解人们产生这些看法的原因，即挖掘人们的正反观点，从而揭示推理过程。

情感分析是自然语言处理中最活跃的研究领域之一，但还远未解决。它涉及对结合了词汇、句法和语义规则等背景知识的深刻理解。自然语言的内在复杂性和新的具有挑战性的情感分析任务都以大数据为背景，这意味着对情感语言的理解比以往任何时候都更具吸引力。我发现最令人鼓舞的是复杂的问题，包括检测隐含的情绪和情感，能够处理多种语言，欺骗检测，实时事件分析以及对常识，世界和上下文知识的自动获取。

关于作者：Caroline Brun是NLP小组的资深科学家。她专门研究情绪分析和观点挖掘，鲁棒性分析，命名实体识别和语义。

发起：唐里校对：邓普斯•杰弗审核：--

参与翻译（2人）：

当前翻译9段，已有9段被认领

英文原文： Back to Blog New horizons in sentiment analysis research

一THE END一

免责声明：本文来自互联网新闻客户端自媒体，不代表本网的观点和立场。

合作及投稿邮箱：E-mail:editor@tusaishared.com

上一篇：超30亿人脸数据被泄露，美国AI公司遭科技巨头联合“封杀”

下一篇：自然语言处理的中的 Attention

用户评价