资源经验分享jieba的使用

jieba的使用

2019-12-03 | |  68 |   0

原标题:jieba的使用

原文来自:博客园      原文链接:https://www.cnblogs.com/zrmw/p/11058554.html


1. 分词

分词是自然语言处理中最基础的一个步骤。而jieba分词是中文分词的一个比较好的工具。下面看看可以怎么用jieba进行分词。

import jieba

# 全模式
seg_list1 = jieba.cut('今天我到杭州游玩', cut_all= True)
print('/'.join(seg_list1))

# 精确模式
seg_list2 = jieba.cut('今天我到杭州游玩', cut_all= False)
print('/'.join(seg_list2))

# 默认是精确模式
seg_list4 = jieba.cut('我一个人开心地在杭州西湖附近逛逛')
print('/'.join(seg_list4))

# 搜索引擎模式
seg_list3 = jieba.cut_for_search('老王毕业于北京师范大学,毕业后又到台湾大学深造')
print('/'.join(seg_list3))

结果:

01.png

2. 词性识别

import jieba.posseg as psg

s = '我今天开心地到杭州西湖旅游,惊讶地看到了白娘子和法海在打架'

words = psg.cut(s)
for word, flag in words:
    print(word, flag)


结果:

02.png

 

有关于词性识别,还是比较重要的。一般我们识别一句话或一段话,首先要提取的是这句话的主语谓语宾语,接着是形容词等,进而提取有用的情感信息内容。


免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:《数据挖掘导论》实验课——实验四、数据挖掘之KNN,Naive Bayes

下一篇:图像几何变换之平移(Matlab)

用户评价
全部评价

热门资源

  • Python 爬虫(二)...

    所谓爬虫就是模拟客户端发送网络请求,获取网络响...

  • TensorFlow从1到2...

    原文第四篇中,我们介绍了官方的入门案例MNIST,功...

  • TensorFlow从1到2...

    “回归”这个词,既是Regression算法的名称,也代表...

  • 机器学习中的熵、...

    熵 (entropy) 这一词最初来源于热力学。1948年,克...

  • TensorFlow2.0(10...

    前面的博客中我们说过,在加载数据和预处理数据时...