概述
# coding=utf-8
”’
Created on 2018年3月19日
@author: chenkai
结巴分词
支持三种分词模式:
精确模式: 试图将句子最精确地切开,适合文本分析;
全模式: 把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
搜索引擎模式: 在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
”’
import jieba
import jieba.analyse
seg_list = jieba.cut(“我来到北京清华大学找妹子,我很开心”,cut_all=True)
print “全模式: “, “/”.join(seg_list)
seg_list2 = jieba.cut(“我来到北京清华大学找妹子,我很开心”,cut_all=False)
print “精确模式: “, “/”.join(seg_list2)
#jieba.cut() 默认是精确模式
seg_list3 = jieba.cut_for_search(“我来到北京清华大学找妹子,我很开心”) # 搜索引擎模式
print “搜索引擎模式: “, “#”.join(seg_list3)
list2=”/”.join(seg_list3)
”’
关键词提取
基于 TF-IDF 算法的关键词抽取
jieba.analyse.extract_tags(sentence, topK=20, with
最后
以上就是欢喜鞋子为你收集整理的python词性统计,python结巴分词以及词频统计实例的全部内容,希望文章能够帮你解决python词性统计,python结巴分词以及词频统计实例所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复