我是靠谱客的博主 忧虑跳跳糖,最近开发中收集的这篇文章主要介绍中文文本实现分词+去停用词(PYTHON),觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

import jieba

# 创建停用词列表
def stopwordslist():
    stopwords = [line.strip() for line in open(r'stopwords.txt',encoding='UTF-8').readlines()]
    return stopwords

#扩展jieba分词词库
dict='fencibuchong.txt'
jieba.load_userdict(dict)

# 对句子进行中文分词
def seg_depart(sentence):
    # 对文档中的每一行进行中文分词
    print("正在分词")
    sentence_depart = jieba.cut(sentence.strip())
    # 创建一个停用词列表
    stopwords = stopwordslist()
    # 输出结果为outstr
    outstr = ''
    # 去停用词
    for word in sentence_depart:
        if word not in stopwords:
            if word != 't':
                outstr += word
                outstr += " "
    return outstr

# 给出文档路径
filename = r"com.txt"
outfilename = r"out.txt"
inputs = open(filename, 'r', encoding='UTF-8')
outputs = open(outfilename, 'w', encoding='UTF-8')

# 将输出结果写入out.txt中
for line in inputs:
    line_seg = seg_depart(line)
    outputs.write(line_seg + 'n')
    print("-------------------正在分词和去停用词-----------")
outputs.close()
inputs.close()
print("删除停用词和分词成功!!!")

第一步:准备好要进行分词的文本以及停用词表和分词补充表(txt格式)

第二步:创建停用词列表stopwords

第三步:扩展jieba分词表,被分词的文档领域可能有一些新型用词,因此为了保证分词的准确性,故使用jieba.load_userdict对结巴分词词库进行扩充

第四步:使用以上代码对文档进行分词,查看分词结果out.txt文档,如果有没有被分好的词可补充在分词补充表。如果有没有过滤掉的词,可在停用词表进行补充。如此循环往复,直至与目标契合。

参考:python使用jieba实现中文文档分词和去停用词 - 醉曦 - 博客园 (cnblogs.com)

最后

以上就是忧虑跳跳糖为你收集整理的中文文本实现分词+去停用词(PYTHON)的全部内容,希望文章能够帮你解决中文文本实现分词+去停用词(PYTHON)所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(44)

评论列表共有 0 条评论

立即
投稿
返回
顶部