中文文本实现分词+去停用词（PYTHON）

68 阅读 0 评论 45 点赞

我是靠谱客的博主忧虑跳跳糖，这篇文章主要介绍中文文本实现分词+去停用词（PYTHON），现在分享给大家，希望可以做个参考。

import jieba

# 创建停用词列表
def stopwordslist():
    stopwords = [line.strip() for line in open(r'stopwords.txt',encoding='UTF-8').readlines()]
    return stopwords

#扩展jieba分词词库
dict='fencibuchong.txt'
jieba.load_userdict(dict)

# 对句子进行中文分词
def seg_depart(sentence):
    # 对文档中的每一行进行中文分词
    print("正在分词")
    sentence_depart = jieba.cut(sentence.strip())
    # 创建一个停用词列表
    stopwords = stopwordslist()
    # 输出结果为outstr
    outstr = ''
    # 去停用词
    for word in sentence_depart:
        if word not in stopwords:
            if word != 't':
                outstr += word
                outstr += " "
    return outstr

# 给出文档路径
filename = r"com.txt"
outfilename = r"out.txt"
inputs = open(filename, 'r', encoding='UTF-8')
outputs = open(outfilename, 'w', encoding='UTF-8')

# 将输出结果写入out.txt中
for line in inputs:
    line_seg = seg_depart(line)
    outputs.write(line_seg + 'n')
    print("-------------------正在分词和去停用词-----------")
outputs.close()
inputs.close()
print("删除停用词和分词成功！！！")

第一步：准备好要进行分词的文本以及停用词表和分词补充表（txt格式）

第二步：创建停用词列表stopwords

第三步：扩展jieba分词表，被分词的文档领域可能有一些新型用词，因此为了保证分词的准确性，故使用jieba.load_userdict对结巴分词词库进行扩充

第四步：使用以上代码对文档进行分词，查看分词结果out.txt文档，如果有没有被分好的词可补充在分词补充表。如果有没有过滤掉的词，可在停用词表进行补充。如此循环往复，直至与目标契合。