如何高效剔除jieba分词中的标点符号和其他特殊字符

309 阅读 0 评论 204 点赞

我是靠谱客的博主冷傲星星，这篇文章主要介绍如何高效剔除jieba分词中的标点符号和其他特殊字符，现在分享给大家，希望可以做个参考。

关于分词有两个令人头痛的问题：一个是常用词，一个是标点符号。
如果使用jieba分词的，那么这两种‘符号’都会混杂在我们的结果中。
常用词可以使用停用词字典。而标点符号可以使用正则剔除，具体如下：

...
text = re.sub('W*', '', file.readlines())
word_list = jieba.cut(text)
...

注：如果文件很大时，建议按行读取，逐行分词。

最后

以上就是冷傲星星最近收集整理的关于如何高效剔除jieba分词中的标点符号和其他特殊字符的全部内容，更多相关如何高效剔除jieba分词中内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(204)

本文分类：原创_感言
浏览次数：309 次浏览
发布日期：2024-08-08 08:35:01

相关文章

python读取float类型的csv文件，逐行去除逗号，回车，再写入csv中

python读取float类型的csv文件，逐行去除逗号，回车，再写入csv中

NLP_learning 中文基本任务与处理（分词、停用词、词性标注、语句依存分析、关键词抽取、命名实体识别）介绍、jieba工具库1、分词2、停用词和N-gram3、更多任务（词性标注、依赖分析、NER、关键词抽取）4、 jieba工具库使用

NLP_learning 中文基本任务与处理（分词、停用词、词性标注、语句依存分析、关键词抽取、命名实体识别）介绍、jieba工具库1、分词2、停用词和N-gram3、更多任务（词性标注、依赖分析、NER、关键词抽取）4、 jieba工具库使用

分词去停用词操作

使用FudanNLP分词工具分词并移除停用词

使用FudanNLP分词工具分词并移除停用词

如何高效剔除jieba分词中的标点符号和其他特殊字符

如何高效剔除jieba分词中的标点符号和其他特殊字符

NLTK在去停用词、分词、分句以及词性标注的使用

NLTK在去停用词、分词、分句以及词性标注的使用

python去除中文停用词_python利用jieba进行中文分词去停用词

python去除中文停用词_python利用jieba进行中文分词去停用词

Gensim：word2vec（jieba分词，去停用词）

Gensim：word2vec（jieba分词，去停用词）

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部