jieba分词的停用词问题

63 阅读 0 评论 42 点赞

我是靠谱客的博主欢喜山水，这篇文章主要介绍jieba分词的停用词问题，现在分享给大家，希望可以做个参考。

去掉停用词一般要自己写个去除的函数(def....)，一般的思想是先分好词，然后看看分的词在不在停用词表中，在就remove，最后呈现的结果就是去掉停用词的分词结果。

后来找到一个jieba.analyse.set_stop_words(filename)，以为可以直接设置一下停用词文件分词时就自动给我去除了，没想到分词的结果根本没有任何改变！

找了半天资料，又看了下jieba包里analyse文件夹里的各py文件，发现这个是为了作关键词提取用的，也就是：

用jieba.analyse.extract_tags时，设置jieba.analyse.set_stop_words才有用！

用jieba.lcut时，设置jieba.analyse.set_stop_words根本没有用！

比较了一下二者的最后结果，关键词提取的结果是简洁明了而且囊括了不少关键词，但是还是有些词没有包括进来，所以，如果想去除停用词+较为全面的分词结果，还是老老实实的自己写方法吧！

最后再附上比较全的一个停用词表：

https://github.com/goto456/stopwords

以上就是欢喜山水最近收集整理的关于jieba分词的停用词问题的全部内容，更多相关jieba分词内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。