概述
关注上方蓝字关注我们
01
特点
(一)支持三种分词模式:
精确模式,试图将句子最精确地切开,适合文本分析;
全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;
搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率。适合用于搜索引擎分词。
(二)支持繁体分词
(三)支持自定义分词
(四)MIT授权协议
02
主要功能
1.分词
jieba.cut方法接受三个输入参数:需要分词的字符串;cut_all参数用来控制是否采用全模式;HMM参数用来控制是否使用HMM模型。
jieba_cut_for_search方法接受两个参数:需要分词的字符串;是否使用HMM模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细。
待分词的字符串可以是unicode或UTF-8字符串、GBK字符串。注意:不建议直接输入GBK字符串&
最后
以上就是缥缈可乐为你收集整理的jieba textrank关键词提取 python_Jieba库基本用法的全部内容,希望文章能够帮你解决jieba textrank关键词提取 python_Jieba库基本用法所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复