我是靠谱客的博主 魔幻心情,最近开发中收集的这篇文章主要介绍python怎么过滤停用词_第6天:文本处理流程——停用词的过滤、正则化操作,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

停用词的过滤

在自然语言处理中,我们通常把停用词、出现频率很低的词汇过滤掉。这个过程其实类似于特征筛选的过程。当然停用词过滤,是文本分析中一个预处理方法。它的功能是过滤分词结果中的噪声。比如:的、是、啊等。在英文里,我们经常会遇到比如“the”,“an”,“their”等这些都可以作为停用词来处理,但是也考虑自己的应用场景。当然如果出现一种出现频率特别低的词汇对分析作用不大,所以一般般也会去掉。把停用词、出现频率低的词过滤之后,即可以得到一个我们的词典库。以下我们用python实现停用词过滤的实现:

from collections import Counter

import jieba

# jieba.load_userdict('userdict.txt')

# 创建停用词list

def stopwordslist(filepath):

stopwords = [line.strip() for line in open(filepath, 'r').readlines()]

return stopwords

# 对句子进行分词

def seg_sentence(sentence):

sentence_seged = jieba.cut(sentence.strip())

stopwords = stopwordslist('filename') # 这里加载停用词的路径

outstr = ''

for word in sentence_seged:

if word not in stopwords:

if word != 't':

最后

以上就是魔幻心情为你收集整理的python怎么过滤停用词_第6天:文本处理流程——停用词的过滤、正则化操作的全部内容,希望文章能够帮你解决python怎么过滤停用词_第6天:文本处理流程——停用词的过滤、正则化操作所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(46)

评论列表共有 0 条评论

立即
投稿
返回
顶部