原标题:jieba的使用
原文来自:博客园 原文链接:https://www.cnblogs.com/zrmw/p/11058554.html
1. 分词
分词是自然语言处理中最基础的一个步骤。而jieba分词是中文分词的一个比较好的工具。下面看看可以怎么用jieba进行分词。
import jieba
# 全模式
seg_list1 = jieba.cut('今天我到杭州游玩', cut_all= True)
print('/'.join(seg_list1))
# 精确模式
seg_list2 = jieba.cut('今天我到杭州游玩', cut_all= False)
print('/'.join(seg_list2))
# 默认是精确模式
seg_list4 = jieba.cut('我一个人开心地在杭州西湖附近逛逛')
print('/'.join(seg_list4))
# 搜索引擎模式
seg_list3 = jieba.cut_for_search('老王毕业于北京师范大学,毕业后又到台湾大学深造')
print('/'.join(seg_list3))
结果:
2. 词性识别
import jieba.posseg as psg
s = '我今天开心地到杭州西湖旅游,惊讶地看到了白娘子和法海在打架'
words = psg.cut(s)
for word, flag in words:
print(word, flag)
结果:
有关于词性识别,还是比较重要的。一般我们识别一句话或一段话,首先要提取的是这句话的主语谓语宾语,接着是形容词等,进而提取有用的情感信息内容。
免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。
合作及投稿邮箱:E-mail:editor@tusaishared.com