概述
说明:本文代码均来自 Natural Language Processing with Python
1. concordance(" ")
搜索某个特定词语在文章中出现的位置,并显示上下文
2. similar(" ")
搜索文章中与目标用法、意义相似的词
3. common_contexts([" "," "])
这个函数和similar有点类似,但是不同的是,这个函数是用来搜索list中的所有单词的上下文.即: word1,word2 相同的上下文
4. generate( )
用来自动生成文章,其中输出时,标点符号被从前面的词分裂出去
5. 统计词汇
(1)len(text):计算text, list等的长度
(2)set(text):去掉list, text中的重复元素
(3)sorted(set(text)):将list, text中的元素按首字母排序(先标点符号再大写后小写)
(4)count( ):计算某个特定词在text,list中出现的次数(频数)
(5)简单函数:
#建立函数测算某个文本中所有单词出现的平均次数
def lexical_diversity(text):
return len(text) / len(set(text));
#建立函数测算某个单词在某个文本中所占的百分比
def percentage(count, total):
return 100 * count / total;
print(lexical_diversity(text3));
print(percentage(text4.count("a"), len(text4)));
最后
以上就是不安香烟为你收集整理的NLTK简单入门函数小汇总的全部内容,希望文章能够帮你解决NLTK简单入门函数小汇总所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复