python词性统计,python结巴分词以及词频统计实例

363 阅读 0 评论 240 点赞

我是靠谱客的博主欢喜鞋子，这篇文章主要介绍python词性统计,python结巴分词以及词频统计实例，现在分享给大家，希望可以做个参考。

# coding=utf-8

”’

Created on 2018年3月19日

@author: chenkai

结巴分词

支持三种分词模式：

精确模式: 试图将句子最精确地切开，适合文本分析；

全模式: 把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；

搜索引擎模式: 在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

”’

import jieba

import jieba.analyse

seg_list = jieba.cut(“我来到北京清华大学找妹子，我很开心”,cut_all=True)

print “全模式: “, “/”.join(seg_list)

seg_list2 = jieba.cut(“我来到北京清华大学找妹子，我很开心”,cut_all=False)

print “精确模式: “, “/”.join(seg_list2)

#jieba.cut() 默认是精确模式

seg_list3 = jieba.cut_for_search(“我来到北京清华大学找妹子，我很开心”) # 搜索引擎模式

print “搜索引擎模式: “, “#”.join(seg_list3)

list2=”/”.join(seg_list3)

”’

关键词提取

基于 TF-IDF 算法的关键词抽取

jieba.analyse.extract_tags(sentence, topK=20, with

以上就是欢喜鞋子最近收集整理的关于python词性统计,python结巴分词以及词频统计实例的全部内容，更多相关python词性统计内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。