python怎么过滤停用词_第6天：文本处理流程——停用词的过滤、正则化操作

83 阅读 0 评论 55 点赞

我是靠谱客的博主魔幻心情，最近开发中收集的这篇文章主要介绍python怎么过滤停用词_第6天：文本处理流程——停用词的过滤、正则化操作，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

停用词的过滤

在自然语言处理中，我们通常把停用词、出现频率很低的词汇过滤掉。这个过程其实类似于特征筛选的过程。当然停用词过滤，是文本分析中一个预处理方法。它的功能是过滤分词结果中的噪声。比如：的、是、啊等。在英文里，我们经常会遇到比如“the”，“an”，“their”等这些都可以作为停用词来处理，但是也考虑自己的应用场景。当然如果出现一种出现频率特别低的词汇对分析作用不大，所以一般般也会去掉。把停用词、出现频率低的词过滤之后，即可以得到一个我们的词典库。以下我们用python实现停用词过滤的实现：

from collections import Counter

import jieba

# jieba.load_userdict('userdict.txt')

# 创建停用词list

def stopwordslist(filepath):

stopwords = [line.strip() for line in open(filepath, 'r').readlines()]

return stopwords

# 对句子进行分词

def seg_sentence(sentence):

sentence_seged = jieba.cut(sentence.strip())

stopwords = stopwordslist('filename') # 这里加载停用词的路径

outstr = ''