概述
停用词是一些完全没有用或者没有意义的词,例如助词、语气词等。本文的停用词表是笔者首先从网上下载的哈工大停用词表,含有767个停用词,过滤掉训练集中的停用词。由于停用词过滤得不干净,于是整合了其他词表,结合笔者自己根据实验需求制作的停用词,进行二次过滤。
直接上代码:
# -*- coding: UTF-8 -*-
stopwords=[]
st = open('/Users/Administrator/Desktop/stopwords3.txt', 'rb')
for line in st:
stopwords.append(line)
for j in range(1,10):
for i in range(10, 510):
print u'正在处理',(j,i)
try:
f = open('/Users/Administrator/Desktop/delstopwords2/%d/%d.txt' % (j,i), 'rb')
for line in f:
if line not in stopwords:
b = open('/Users/Administrator/Desktop/delstopwords3/%d/%d.txt' % (j,i), 'a')
line=line.strip()
b.write(line)
b.write('n')
b.close()
except:
continue
最后
以上就是幸福小蚂蚁为你收集整理的去停用词的全部内容,希望文章能够帮你解决去停用词所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复