数据预处理一：文本分词并且去停用词代码

63 阅读 0 评论 42 点赞

我是靠谱客的博主喜悦大叔，这篇文章主要介绍数据预处理一：文本分词并且去停用词代码，现在分享给大家，希望可以做个参考。

数据结构：搜狗数据集（最外层文件夹） $rightarrow$ 类别（第二层文件夹，比如说军事） $rightarrow$ 10.txt（军事类别下面的一个文本文件）

import os
import jieba

# 保存文件的函数
def savefile(savepath, content):
    fp = open(savepath, 'w', encoding='ANSI',errors='ignore')
    fp.write(content)
    fp.close()

# 读取文件的函数
def readfile(path):
    fp = open(path, "r", encoding='ANSI', errors='ignore')
    content = fp.read()
    fp.close()
    return content

## 去除停用词的2个函数
# 创建停用词list
def stopwordslist(filepath):
    stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
    return stopwords

# 对句子去除停用词
def movestopwords(sentence):
    s

最后

以上就是喜悦大叔最近收集整理的关于数据预处理一：文本分词并且去停用词代码的全部内容，更多相关数据预处理一内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(42)

本文分类：文本分类
浏览次数：63 次浏览
发布日期：2024-08-08 06:45:01
本文链接：https://www.kaopuke.com/article/k-p-k_13_u_7_o_18_f4_13__7_cz.html

相关文章

文本挖掘 - 分词

中文文本挖掘的分词原理 By 刘建平Pinard + 我的cheatsheet1. 分词的基本原理2. N元模型3. 维特比算法与分词4. 常用分词工具5. 结语

中文文本挖掘的分词原理 By 刘建平Pinard + 我的cheatsheet1. 分词的基本原理2. N元模型3. 维特比算法与分词4. 常用分词工具5. 结语

文本挖掘1分词

文本挖掘的分词原理1. 分词的基本原理2. N元模型3. 维特比算法与分词4. 常用分词工具5. 结语

文本挖掘的分词原理1. 分词的基本原理2. N元模型3. 维特比算法与分词4. 常用分词工具5. 结语

数据预处理一：文本分词并且去停用词代码

数据预处理一：文本分词并且去停用词代码

文本预处理---批量去除停用词—小白代码详细解释

文本预处理---批量去除停用词—小白代码详细解释

中文文本实现分词+去停用词（PYTHON）

中文文本实现分词+去停用词（PYTHON）

基于分词+停用词处理使用Gensim实现Word2Vec导读一、准备环境二、导入库三、分词+停用词处理四、将分词结果导入txt文件中五、用预处理的语料库训练模型六、加载模型，验证模型

基于分词+停用词处理使用Gensim实现Word2Vec导读一、准备环境二、导入库三、分词+停用词处理四、将分词结果导入txt文件中五、用预处理的语料库训练模型六、加载模型，验证模型

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部