原标题: 搞清文本挖掘的这3个要点才是王道!
来源:今日头条 链接:https://www.toutiao.com/a6574658376045691406/
在NLP中,我们希望找到句子或文档之间的相似性。文本不像数字和协调,我们无法比较“Apple”和“Orange”之间的差异,但可以计算相似度得分。
为什么?
因为我们不能简单地在“Apple is fruit”和“Orange is fruit”之间做减法,所以我们必须找到一种方法将文本转换为数字以便计算它。得分后,我们可以理解两个对象之间的相似程度。
什么时候?
在我的数据科学工作中,我试过:
比较2篇文章是否描述相同的新闻
识别类似的文件
通过提供产品描述对类别进行分类
如何做?
在本文中,我们将通过4个基本距离测量:
在进行任何距离测量之前,必须对文本进行标记。如果您不熟悉单词标记化,则可以访问此文章。(https://medium.com/@makcedward/nlp-pipeline-word-tokenization-part-1-4b2b547e6a3)
欧几里德距离
比较两个物体之间的最短距离。它使用的是从中学学到的毕达哥拉斯定理。
分数表示两个对象之间的距离。如果为0,则表示两个对象相同。以下示例显示了比较第一句时的分数。
输出
余弦相似度
确定两个对象之间的角度是查找相似度的计算方法。得分范围是0到1。如果得分为1,则意味着它们在方向上相同(不是幅度)。以下示例显示了比较第一句时的分数。
输出
Jaccard相似度
测量是指所有单词上的常用单词数。更多的共性意味着两个对象应该是相似的。
Jaccard相似度=(A和B的交点)/(A和B的联合)
范围是0到1。如果得分为1,则表示它们是相同的。在第一句和最后一句之间没有任何常用词,因此得分为0。以下示例显示了在比较第一句时的得分。
输出
总结
三种方法也有相同的假设,即如果有共同的话,文件(或句子)是相似的。这个想法很简单直接。它适合一些基本情况,例如比较前2个句子。然而,通过比较第一句和第三句,得分相对较低,尽管它们都描述了相同的新闻。
另一个限制是上述方法不处理同义词场景。例如buy和purchase,它们应该具有相同的含义(在某些情况下),但上述方法对待这两个词是不同的。
那么提示是什么?您可以考虑使用由Tomas Mikolov在2013年引入的Word嵌入。
一THE END一
免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。
合作及投稿邮箱:E-mail:editor@tusaishared.com