我是靠谱客的博主 炙热纸鹤,最近开发中收集的这篇文章主要介绍jieba分词自定义词库无效果,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

首先我自定义了一个词库,内容为:

乾清宫 5
太和殿 3
黄琉璃瓦 3
午门 1
我是一个 5
凯的试接 1

我的分词内容为

故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等我是一个好孩子我是一个好孩子我是一个好孩子
故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等凯的试接 
故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等
故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等

分词后的效果:

故宫 的 著名景点 包括 乾清宫 、 太和殿 和 黄琉璃瓦 等 我 是 一个 好孩子 我 是 一个 好孩子 我 是 一个 好孩子 
 故宫 的 著名景点 包括 乾清宫 、 太和殿 和 黄琉璃瓦 等 凯的试接   
 故宫 的 著名景点 包括 乾清宫 、 太和殿 和 黄琉璃瓦 等 故宫 的 著名景点 包括 乾清宫 、 太和殿 和 黄琉璃瓦 等 
 故宫 的 著名景点 包括 乾清宫 、 太和殿 和 黄琉璃瓦 等

对于  我是一个5  这个不想被分开的词,分词后还是被分开了,后来看了jieba自己的分词词典dict.txt,发现在词典中有三个词:我  ,是  ,一个 。所以自己定义的  我是一个  这个词就没有效果了。

添加的  凯的试接  因为dict.txt中没有这个词,就正常执行了。

如果还想按照自己自定义的词典分词,需要把dict.txt中相应的词删掉。

最后

以上就是炙热纸鹤为你收集整理的jieba分词自定义词库无效果的全部内容,希望文章能够帮你解决jieba分词自定义词库无效果所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(28)

评论列表共有 0 条评论

立即
投稿
返回
顶部