# coding=utf-8
”’
Created on 2018年3月19日
@author: chenkai
结巴分词
支持三种分词模式:
精确模式: 试图将句子最精确地切开,适合文本分析;
全模式: 把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
搜索引擎模式: 在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
”’
import jieba
import jieba.analyse
seg_list = jieba.cut(“我来到北京清华大学找妹子,我很开心”,cut_all=True)
print “全模式: “, “/”.join(seg_list)
seg_list2 = jieba.cut(“我来到北京清华大学找妹子,我很开心”,cut_all=False)
print “精确模式: “, “/”.join(seg_list2)
#jieba.cut() 默认是精确模式
seg_list3 = jieba.cut_for_search(“我来到北京清华大学找妹子,我很开心”) # 搜索引擎模式
print “搜索引擎模式: “, “#”.join(seg_list3)
list2=”/”.join(seg_list3)
”’
关键词提取
基于 TF-IDF 算法的关键词抽取
jieba.analyse.extract_tags(sentence, topK=20, with
最后
以上就是欢喜鞋子最近收集整理的关于python词性统计,python结巴分词以及词频统计实例的全部内容,更多相关python词性统计内容请搜索靠谱客的其他文章。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复