概述
停用词的过滤
在自然语言处理中,我们通常把停用词、出现频率很低的词汇过滤掉。这个过程其实类似于特征筛选的过程。当然停用词过滤,是文本分析中一个预处理方法。它的功能是过滤分词结果中的噪声。比如:的、是、啊等。在英文里,我们经常会遇到比如“the”,“an”,“their”等这些都可以作为停用词来处理,但是也考虑自己的应用场景。当然如果出现一种出现频率特别低的词汇对分析作用不大,所以一般般也会去掉。把停用词、出现频率低的词过滤之后,即可以得到一个我们的词典库。以下我们用python实现停用词过滤的实现:
from collections import Counter
import jieba
# jieba.load_userdict('userdict.txt')
# 创建停用词list
def stopwordslist(filepath):
stopwords = [line.strip() for line in open(filepath, 'r').readlines()]
return stopwords
# 对句子进行分词
def seg_sentence(sentence):
sentence_seged = jieba.cut(sentence.strip())
stopwords = stopwordslist('filename') # 这里加载停用词的路径
outstr = ''
for word in sentence_seged:
if word not in stopwords:
if word != 't':
最后
以上就是魔幻心情为你收集整理的python怎么过滤停用词_第6天:文本处理流程——停用词的过滤、正则化操作的全部内容,希望文章能够帮你解决python怎么过滤停用词_第6天:文本处理流程——停用词的过滤、正则化操作所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复