概述
import jieba # 创建停用词列表 def stopwordslist(): stopwords = [line.strip() for line in open(r'stopwords.txt',encoding='UTF-8').readlines()] return stopwords #扩展jieba分词词库 dict='fencibuchong.txt' jieba.load_userdict(dict) # 对句子进行中文分词 def seg_depart(sentence): # 对文档中的每一行进行中文分词 print("正在分词") sentence_depart = jieba.cut(sentence.strip()) # 创建一个停用词列表 stopwords = stopwordslist() # 输出结果为outstr outstr = '' # 去停用词 for word in sentence_depart: if word not in stopwords: if word != 't': outstr += word outstr += " " return outstr # 给出文档路径 filename = r"com.txt" outfilename = r"out.txt" inputs = open(filename, 'r', encoding='UTF-8') outputs = open(outfilename, 'w', encoding='UTF-8') # 将输出结果写入out.txt中 for line in inputs: line_seg = seg_depart(line) outputs.write(line_seg + 'n') print("-------------------正在分词和去停用词-----------") outputs.close() inputs.close() print("删除停用词和分词成功!!!")
第一步:准备好要进行分词的文本以及停用词表和分词补充表(txt格式)
第二步:创建停用词列表stopwords
第三步:扩展jieba分词表,被分词的文档领域可能有一些新型用词,因此为了保证分词的准确性,故使用jieba.load_userdict对结巴分词词库进行扩充
第四步:使用以上代码对文档进行分词,查看分词结果out.txt文档,如果有没有被分好的词可补充在分词补充表。如果有没有过滤掉的词,可在停用词表进行补充。如此循环往复,直至与目标契合。
参考:python使用jieba实现中文文档分词和去停用词 - 醉曦 - 博客园 (cnblogs.com)
最后
以上就是忧虑跳跳糖为你收集整理的中文文本实现分词+去停用词(PYTHON)的全部内容,希望文章能够帮你解决中文文本实现分词+去停用词(PYTHON)所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复