我是靠谱客的博主 欢喜鞋子,最近开发中收集的这篇文章主要介绍python词性统计,python结巴分词以及词频统计实例,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

# coding=utf-8

”’

Created on 2018年3月19日

@author: chenkai

结巴分词

支持三种分词模式:

精确模式:     试图将句子最精确地切开,适合文本分析;

全模式:       把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

搜索引擎模式: 在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

”’

import jieba

import jieba.analyse

seg_list =  jieba.cut(“我来到北京清华大学找妹子,我很开心”,cut_all=True)

print  “全模式: “, “/”.join(seg_list)

seg_list2 =  jieba.cut(“我来到北京清华大学找妹子,我很开心”,cut_all=False)

print  “精确模式: “, “/”.join(seg_list2)

#jieba.cut() 默认是精确模式

seg_list3 = jieba.cut_for_search(“我来到北京清华大学找妹子,我很开心”)  # 搜索引擎模式

print  “搜索引擎模式: “, “#”.join(seg_list3)

list2=”/”.join(seg_list3)

”’

关键词提取

基于 TF-IDF 算法的关键词抽取

jieba.analyse.extract_tags(sentence, topK=20, with

最后

以上就是欢喜鞋子为你收集整理的python词性统计,python结巴分词以及词频统计实例的全部内容,希望文章能够帮你解决python词性统计,python结巴分词以及词频统计实例所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(41)

评论列表共有 0 条评论

立即
投稿
返回
顶部