语义不畅低质文本识别与应用如何撑起58同城海量数据？

2020-03-06 |

79 |

原标题：语义不畅低质文本识别与应用如何撑起58同城海量数据？

来源：今日头条链接：https://www.toutiao.com/a6799810641247863307/

为了识别业务数据中存在的随机字、语义不连贯、不符合常用规范的语言现象，本文提出了一种利用大规模无监督语料，训练语言模型计算语句困惑度的方法，将低质文本识别问题转化为阈值判定问题。实际应用效果表明，该方法具有无数据标注成本、识别准确率高、领域迁移性强等特点，可以快速有效地推广到其他业务场景。

背景

移动互联网蓬勃发展的时代，随着互联网服务提供商竞争的加剧，国家对重点行业服务水平要求的不断提高，促使信息服务提供商对其业务质量、用户体验越来越关注，进而提升客户满意度，减少投诉，增加核心竞争力和品牌价值。

58同城作为国内最大的生活服务平台，拥有招聘、房产、二手车、本地服务、金融等业务板块和庞大的用户群体，每天业务信息发布数据量高达数亿，文字作为内容信息的主要载体，承载着人们表达、沟通的需求，严格控制文本信息质量，具有重要的意义。

由于用户基数大，信息覆盖范围广，网民素质参差不齐，难免存在劣质用户发布虚假、涉黄、涉政、广告、灌水等违规帖子数据。如在招聘业务场景中，存在一些生僻字、随机字、语义不连贯等语言现象，如：“30/小时招聘日结小时工假期兼职-荡贸”、“淄博桓台县萍敢诙捞环胁恫有限公司”。

58同城坚持用户至上的原则，坚决杜绝这种降低数据信息质量、影响用户体验的行为发生，海量的数据给信息审核工作带来了巨大的挑战。我们从低质文本的特点分析入手，利用大规模的无监督文本数据，训练神经概率语言模型，通过计算困惑度的方式进行识别，为做好发帖质量优化、违禁信息过滤、信息质量监控提供了落地方案。

低质文本特点分析

1. 低质文本的定义

低质文本：是指在具体业务场景下，句子中出现无意义文字或符号，语义表达不连贯，不符合常用规范的语言现象。

2. 低质文本的特点

2.1 对抗性强，变化快

黑产通过发帖机短时间内生成大量的低质文本，在被业务线发觉拦截后，会不断的变化生成的方式，绕过风控的策略，表现出较强的对抗性。

目前，业务线主要是通过寻找字面上的规律，制定规则，对文本进行匹配的方式进行拦截，这种做法主要有三个问题：

a) 滞后性，只能识别已经被发觉的低质文本，时间上表现为滞后性，此时低质文本已经对用户体验产生了伤害。

b) 只能识别特定模式的低质文本，对于对抗后变换规则的低质文本，识别方法失效。

c) 覆盖率低，很难覆盖线上所有类型的低质文本。

2.2 数据稀疏性，收集成本高

低质文本虽然类型繁多，变化多端，特定类型的低质文本数据，表现出较强的数据稀疏性，通过人工筛选的方式耗时耗力，实施成本高。

2.3 数据量大，人工推审效率低

业务场景低质文本数据量大，风控难度高。目前，各业务线主要是通过规则的方式，拦截低质文本，然后通过人工推审的方式做相应的处理，效率低下。

低质文本识别方案设计

那么有没有一种方式，可以只利用正常的线上业务数据或网络上公开的百科数据、新闻类数据训练模型，对某一条语句从语义连贯性、符合规范性上进行度量，根据度量的大小来识别低质文本呢？

本文通过利用正常数据训练语言模型，计算某个单词在上文环境下出现的概率，再去计算整个语句的困惑度得分score，如果得分score大于特定阈值的情况下，该语句就是低质文本。识别流程如图1所示：

图1：低质文本识别流程图

1. 困惑度的定义

困惑度（Perplexity）:是自然语言处理领域衡量一条语句是否符合已知某种语言概率分布的度量，计算公式如（1）所示：

2. 模型结构设计v1

模型结构基于Transformer Block，结构设计如图2所示：

图2：语言模型结构图

对比与传统的RNN，Transformer有4个优势：

a) 解决长程依赖性的问题；虽然RNN可以通过LSTM引入长期记忆的方式缓解梯度消失、梯度爆炸等问题，但依然无法从根本上解决长程依赖性的问题。Transformer通过引入Self-Attention机制，把任意两个字符之间的距离缩减为1，有效解决了长程依赖性的问题。

b) 可以并行计算，解决RNN计算速度慢的问题；RNN的序列结构决定了其计算过程只能串行，计算速度慢。Transformer取消了不同时间步的依赖关系，计算量主要体现在矩阵乘法计算上，更适合用GPU等并行计算单元来提速。

c) 提取特征能力更强；大量研究论文已经表明，Transformer提取特征的能力更强。

d) 可以通过堆叠的方式叠加N层，更适合捕获深层的语义特征。

本文把语言模型建模看成一个Seq2Seq的模型，针对每条训练本，输入输出的关系如图3所示：

图3：语言模型输入输出关系

在Transformer Block的计算过程中，考虑到语言模型要计算单词基于上文环境下出现的概率，在Self-Attention的计算出匹配得分矩阵M后，需要对矩阵M取下三角，抹掉该词及其下文环境的信息。

3. 模型v1遇到的问题

3.1 被平均问题

由公式（1）可知，困惑度PPL的计算涉及到若干词概率的对数的平均值，如果文本长度n特别大，文本中只有个别几个位置出现了生僻字，概率值较小，通过平均值的计算，对局部概率值变化大的地方起到了平滑的作用，可能会导致无法识别出低质文本。

对于这个问题，我们可以通过移动平均（Moving Average）的方式解决。设置合适窗口宽度w,分别计算滑动窗口内语句的困惑度，然后取困惑度的最大值作为整个语句的得分。

3.2 定长截断问题

在训练模型时，模型都对样本有最大序列长度MaxLength的限制，如果直接对于小于MaxLength的样本进行填充处理，样本中充斥的大量无意义的PAD字符，会导致训练模型过程中无法收敛的问题。我们应用了大量论文中提到的定长截断的Trick，即把所有样本拼接成一个长字符串，然后按照最大序列长度进行截取，然而这也会引入一定的噪声。截取操作如图4所示：