概述
数据结构:搜狗数据集(最外层文件夹)类别(第二层文件夹,比如说 军事)10.txt(军事类别下面的一个文本文件)
import os
import jieba
# 保存文件的函数
def savefile(savepath, content):
fp = open(savepath, 'w', encoding='ANSI',errors='ignore')
fp.write(content)
fp.close()
# 读取文件的函数
def readfile(path):
fp = open(path, "r", encoding='ANSI', errors='ignore')
content = fp.read()
fp.close()
return content
## 去除停用词的2个函数
# 创建停用词list
def stopwordslist(filepath):
stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
return stopwords
# 对句子去除停用词
def movestopwords(sentence):
s
最后
以上就是喜悦大叔为你收集整理的数据预处理一:文本分词并且去停用词代码的全部内容,希望文章能够帮你解决数据预处理一:文本分词并且去停用词代码所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复