停用词是一些完全没有用或者没有意义的词,例如助词、语气词等。本文的停用词表是笔者首先从网上下载的哈工大停用词表,含有767个停用词,过滤掉训练集中的停用词。由于停用词过滤得不干净,于是整合了其他词表,结合笔者自己根据实验需求制作的停用词,进行二次过滤。
直接上代码:
# -*- coding: UTF-8 -*-
stopwords=[]
st = open('/Users/Administrator/Desktop/stopwords3.txt', 'rb')
for line in st:
stopwords.append(line)
for j in range(1,10):
for i in range(10, 510):
print u'正在处理',(j,i)
try:
f = open('/Users/Administrator/Desktop/delstopwords2/%d/%d.txt' % (j,i), 'rb')
for line in f:
if line not in stopwords:
b = open('/Users/Administrator/Desktop/delstopwords3/%d/%d.txt' % (j,i), 'a')
line=line.strip()
b.write(line)
b.write('n')
b.close()
except:
continue
最后
以上就是幸福小蚂蚁最近收集整理的关于去停用词的全部内容,更多相关去停用词内容请搜索靠谱客的其他文章。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复