资源经验分享NLTK实现文本切分

NLTK实现文本切分

2019-12-06 | |  60 |   0

原标题:NLTK实现文本切分

原文来自:博客园      原文链接:https://www.cnblogs.com/zrmw/p/10875684.html


之前已经了解了使用nltk库,将文本作为参数传入相应函数进行切分的方法,下面看看使用正则表达式如何来进行文本切分。

1. 使用正则表达式切分

1.1 通过RegexpTokenizer 进行切分。先导入 RegexpTokenizer 模块,然后构建一个与文本中的标识符相匹配的正则表达式。将此正则表达式作为参数传入RegexpTokenizer ,同时实例化一个对象,使用此对象对文本进行切分。

from nltk.tokenize import RegexpTokenizer
# RegexpTokenizer() 参数是将要匹配的字符串的正则表达式,返回值是所有匹配到的字符串组成的列表
tokenizer = RegexpTokenizer("w+")
print(tokenizer.tokenize("Don't hesitate to ask questions!"))

运行结果:

['Don', 't', 'hesitate', 'to', 'ask', 'questions']

1.2 使用 regexp_tokenize 切分。

from nltk.tokenize import regexp_tokenize
sentence = "My name is QWE, and I'm 22 years old."
print(regexp_tokenize(sentence, pattern= 'w+|$[d.]+|S+'))

运行结果:

['My', 'name', 'is', 'QWE', ',', 'and', 'I', "'m", '22', 'years', 'old', '.']

1.3 以空格为分界点进行切分

from nltk.tokenize import RegexpTokenizer

tok = RegexpTokenizer('s+', gaps= True)
print(tok.tokenize("Don't hesitate to ask questions"))

1.4 筛选以大写字母开头的单词

from nltk.tokenize import RegexpTokenizer
sentence = "My name is QWE, and I'm 22 years old.I'm from China"
capt = RegexpTokenizer('[A-Z]w+')
print(capt.tokenize(sentence))

结果:

['My', 'QWE', 'China']

(看起来都像是直接用正则匹配的。。)

1.5 使用WhitespaceTokenizer可以通过返回元组形式的序列来进行切分,该序列为标识符在语句中的位置和偏移量。

from nltk.tokenize import WhitespaceTokenizer
sentence = " She secured 90.56 % in class X n. She is a meritorious studentn"
print(list(WhitespaceTokenizer().span_tokenize(sentence)))

结果:

[(1, 4), (5, 12), (13, 18), (19, 20), (21, 23), (24, 29), (30, 31), (33, 34), (35, 38), (39, 41), (42, 43), (44, 55), (56, 63)]

 

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:从网络架构方面简析循环神经网络RNN

下一篇:nltk的安装和简单使用

用户评价
全部评价

热门资源

  • Python 爬虫(二)...

    所谓爬虫就是模拟客户端发送网络请求,获取网络响...

  • TensorFlow从1到2...

    原文第四篇中,我们介绍了官方的入门案例MNIST,功...

  • TensorFlow从1到2...

    “回归”这个词,既是Regression算法的名称,也代表...

  • 机器学习中的熵、...

    熵 (entropy) 这一词最初来源于热力学。1948年,克...

  • TensorFlow2.0(10...

    前面的博客中我们说过,在加载数据和预处理数据时...