搞清文本挖掘的这3个要点才是王道！

搞清文本挖掘的这3个要点才是王道！

2020-03-06 |

|

100 |

0

原标题：搞清文本挖掘的这3个要点才是王道！

来源：今日头条链接：https://www.toutiao.com/a6574658376045691406/

在NLP中，我们希望找到句子或文档之间的相似性。文本不像数字和协调，我们无法比较“Apple”和“Orange”之间的差异，但可以计算相似度得分。

为什么？

因为我们不能简单地在“Apple is fruit”和“Orange is fruit”之间做减法，所以我们必须找到一种方法将文本转换为数字以便计算它。得分后，我们可以理解两个对象之间的相似程度。

什么时候？

在我的数据科学工作中，我试过：

比较2篇文章是否描述相同的新闻
识别类似的文件
通过提供产品描述对类别进行分类

如何做？

在本文中，我们将通过4个基本距离测量：

欧几里德距离
余弦距离
Jaccard相似度

在进行任何距离测量之前，必须对文本进行标记。如果您不熟悉单词标记化，则可以访问此文章。（https://medium.com/@makcedward/nlp-pipeline-word-tokenization-part-1-4b2b547e6a3）

欧几里德距离

比较两个物体之间的最短距离。它使用的是从中学学到的毕达哥拉斯定理。

分数表示两个对象之间的距离。如果为0，则表示两个对象相同。以下示例显示了比较第一句时的分数。

输出

余弦相似度

确定两个对象之间的角度是查找相似度的计算方法。得分范围是0到1。如果得分为1，则意味着它们在方向上相同（不是幅度）。以下示例显示了比较第一句时的分数。

输出

Jaccard相似度

测量是指所有单词上的常用单词数。更多的共性意味着两个对象应该是相似的。

Jaccard相似度=（A和B的交点）/（A和B的联合）

范围是0到1。如果得分为1，则表示它们是相同的。在第一句和最后一句之间没有任何常用词，因此得分为0。以下示例显示了在比较第一句时的得分。

输出

总结

三种方法也有相同的假设，即如果有共同的话，文件（或句子）是相似的。这个想法很简单直接。它适合一些基本情况，例如比较前2个句子。然而，通过比较第一句和第三句，得分相对较低，尽管它们都描述了相同的新闻。

另一个限制是上述方法不处理同义词场景。例如buy和purchase，它们应该具有相同的含义（在某些情况下），但上述方法对待这两个词是不同的。

那么提示是什么？您可以考虑使用由Tomas Mikolov在2013年引入的Word嵌入。

一THE END一

免责声明：本文来自互联网新闻客户端自媒体，不代表本网的观点和立场。

合作及投稿邮箱：E-mail:editor@tusaishared.com

上一篇：语义识别VS语音识别一字之差意味着什么？

下一篇：文本挖掘从小白到精通（一）：语料、向量空间和模型的概念

用户评价

全部评价

热门资源

国内人才报告：机...

近日，BOSS 直聘职业科学实验室 &BOSS 直聘研究院...
AI使物联网更智能...

看到微软对物联网和人工智能的结合感兴趣是一个明...
推荐一批学习自然...

这里推荐一批学习自然语言处理相关的书籍，当然，...
安防智能化大势下...

大部分传统安防设备不仅拍摄视野有限，而且无法事...
20亿创业基金、10...

近日，杭州举办了建设国家新一代人工智能创新发展...

智能在线

400-630-6780
聆听.建议反馈

E-mail: support@tusaishared.com