概述
为了分词效果更好,可以自己建立分词词典加入到jieba词典中:
jieba.load_userdict()
()内为分词词典路径+名称。
写一个分词的小函数:
import jieba
def preprocess(path):
text = ""
fenci = open(path, "r", encoding="utf-8").read()
jieba.load_userdict("C:/Users/idmin/Desktop/dict.txt")
fenci = jieba.cut(fenci)
#fenci = "/".join(fenci)
for word in fenci:
text=text+word
return text
print(preprocess('C:/Users/idmin/Desktop/one.txt'))
'''
#或以下程序
import jieba
def preprocess(path):
text = ""
fenci = open(path, "r", encoding="utf-8").read()
jieba.load_userdict("C:/Users/idmin/Desktop/dict.txt")
fenci = jieba.cut(fenci)
fenci = "/".join(fenci)
#for word in fenci:
# text=text+word
return fenci
print(preprocess('C:/Users/idmin/Desktop/one.txt'))
'''
one.txt内容为:
分词词典dict.txt内容为:
分词词典的格式要为“utf-8”.(另存为即可。)
加入分词词典前,分词效果如下:
/你好/您好/python/中/jieba/分词/快速/入门/落叶/数据挖掘/新浪/博客
加入后,效果为:
/你好/您好/python/中/jieba/分词/快速入门/落叶/数据挖掘/新浪/博客
“快速入门”没有被分开哦。
最后
以上就是光亮哈密瓜为你收集整理的jieba分词(添加分词词典)的全部内容,希望文章能够帮你解决jieba分词(添加分词词典)所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复