我是靠谱客的博主 幸福小蚂蚁,最近开发中收集的这篇文章主要介绍去停用词,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

停用词是一些完全没有用或者没有意义的词,例如助词、语气词等。本文的停用词表是笔者首先从网上下载的哈工大停用词表,含有767个停用词,过滤掉训练集中的停用词。由于停用词过滤得不干净,于是整合了其他词表,结合笔者自己根据实验需求制作的停用词,进行二次过滤。

直接上代码:

# -*- coding: UTF-8 -*-  

stopwords=[]
st = open('/Users/Administrator/Desktop/stopwords3.txt', 'rb')  
for line in st: 
    stopwords.append(line)  
                
for j in range(1,10):
    for i in range(10, 510):
        print u'正在处理',(j,i)
        try:
            f = open('/Users/Administrator/Desktop/delstopwords2/%d/%d.txt' % (j,i), 'rb') 
            for line in f:    
                if line not in stopwords:  
                    b = open('/Users/Administrator/Desktop/delstopwords3/%d/%d.txt' % (j,i), 'a')
                    line=line.strip()
                    b.write(line)
                    b.write('n')
                    b.close()
        except:
            continue


最后

以上就是幸福小蚂蚁为你收集整理的去停用词的全部内容,希望文章能够帮你解决去停用词所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(31)

评论列表共有 0 条评论

立即
投稿
返回
顶部