资源行业动态搞清文本挖掘的这3个要点才是王道!

搞清文本挖掘的这3个要点才是王道!

2020-03-06 | |  100 |   0

原标题: 搞清文本挖掘的这3个要点才是王道!

来源:今日头条    链接:https://www.toutiao.com/a6574658376045691406/


在NLP中,我们希望找到句子或文档之间的相似性。文本不像数字和协调,我们无法比较“Apple”和“Orange”之间的差异,但可以计算相似度得分。

01.jpg

为什么?

因为我们不能简单地在“Apple is fruit”和“Orange is fruit”之间做减法,所以我们必须找到一种方法将文本转换为数字以便计算它。得分后,我们可以理解两个对象之间的相似程度。

什么时候?

在我的数据科学工作中,我试过:

  • 比较2篇文章是否描述相同的新闻

  • 识别类似的文件

  • 通过提供产品描述对类别进行分类

如何做?

在本文中,我们将通过4个基本距离测量:

  • 欧几里德距离

  • 余弦距离

  • Jaccard相似度

在进行任何距离测量之前,必须对文本进行标记。如果您不熟悉单词标记化,则可以访问此文章。(https://medium.com/@makcedward/nlp-pipeline-word-tokenization-part-1-4b2b547e6a3)

欧几里德距离

02.jpg

比较两个物体之间的最短距离。它使用的是从中学学到的毕达哥拉斯定理。

分数表示两个对象之间的距离。如果为0,则表示两个对象相同。以下示例显示了比较第一句时的分数。

03.jpg

输出

04.jpg

余弦相似度

05.jpg

确定两个对象之间的角度是查找相似度的计算方法。得分范围是0到1。如果得分为1,则意味着它们在方向上相同(不是幅度)。以下示例显示了比较第一句时的分数。

06.jpg

输出

07.jpg

Jaccard相似度

08.jpg

测量是指所有单词上的常用单词数。更多的共性意味着两个对象应该是相似的。

Jaccard相似度=(A和B的交点)/(A和B的联合)

范围是0到1。如果得分为1,则表示它们是相同的。在第一句和最后一句之间没有任何常用词,因此得分为0。以下示例显示了在比较第一句时的得分。

09.jpg

输出

10.jpg

总结

三种方法也有相同的假设,即如果有共同的话,文件(或句子)是相似的。这个想法很简单直接。它适合一些基本情况,例如比较前2个句子。然而,通过比较第一句和第三句,得分相对较低,尽管它们都描述了相同的新闻。

另一个限制是上述方法不处理同义词场景。例如buy和purchase,它们应该具有相同的含义(在某些情况下),但上述方法对待这两个词是不同的。

那么提示是什么?您可以考虑使用由Tomas Mikolov在2013年引入的Word嵌入。

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:语义识别VS语音识别 一字之差意味着什么?

下一篇:文本挖掘从小白到精通(一):语料、向量空间和模型的概念

用户评价
全部评价

热门资源

  • 国内人才报告:机...

    近日,BOSS 直聘职业科学实验室 &BOSS 直聘研究院...

  • AI使物联网更智能...

    看到微软对物联网和人工智能的结合感兴趣是一个明...

  • 推荐一批学习自然...

    这里推荐一批学习自然语言处理相关的书籍,当然,...

  • 安防智能化大势下...

    大部分传统安防设备不仅拍摄视野有限,而且无法事...

  • 20亿创业基金、10...

    近日,杭州举办了建设国家新一代人工智能创新发展...