我是靠谱客的博主 魔幻心情,这篇文章主要介绍python怎么过滤停用词_第6天:文本处理流程——停用词的过滤、正则化操作,现在分享给大家,希望可以做个参考。

停用词的过滤

在自然语言处理中,我们通常把停用词、出现频率很低的词汇过滤掉。这个过程其实类似于特征筛选的过程。当然停用词过滤,是文本分析中一个预处理方法。它的功能是过滤分词结果中的噪声。比如:的、是、啊等。在英文里,我们经常会遇到比如“the”,“an”,“their”等这些都可以作为停用词来处理,但是也考虑自己的应用场景。当然如果出现一种出现频率特别低的词汇对分析作用不大,所以一般般也会去掉。把停用词、出现频率低的词过滤之后,即可以得到一个我们的词典库。以下我们用python实现停用词过滤的实现:

from collections import Counter

import jieba

# jieba.load_userdict('userdict.txt')

# 创建停用词list

def stopwordslist(filepath):

stopwords = [line.strip() for line in open(filepath, 'r').readlines()]

return stopwords

# 对句子进行分词

def seg_sentence(sentence):

sentence_seged = jieba.cut(sentence.strip())

stopwords = stopwordslist('filename') # 这里加载停用词的路径

outstr = ''

for word in sentence_seged:

if word not in stopwords:

if word != 't':

最后

以上就是魔幻心情最近收集整理的关于python怎么过滤停用词_第6天:文本处理流程——停用词的过滤、正则化操作的全部内容,更多相关python怎么过滤停用词_第6天:文本处理流程——停用词内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(152)

评论列表共有 0 条评论

立即
投稿
返回
顶部