数据结构:搜狗数据集(最外层文件夹)类别(第二层文件夹,比如说 军事)
10.txt(军事类别下面的一个文本文件)
import os
import jieba
# 保存文件的函数
def savefile(savepath, content):
fp = open(savepath, 'w', encoding='ANSI',errors='ignore')
fp.write(content)
fp.close()
# 读取文件的函数
def readfile(path):
fp = open(path, "r", encoding='ANSI', errors='ignore')
content = fp.read()
fp.close()
return content
## 去除停用词的2个函数
# 创建停用词list
def stopwordslist(filepath):
stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
return stopwords
# 对句子去除停用词
def movestopwords(sentence):
s
最后
以上就是喜悦大叔最近收集整理的关于数据预处理一:文本分词并且去停用词代码的全部内容,更多相关数据预处理一内容请搜索靠谱客的其他文章。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复