NLTK简单入门函数小汇总

275 阅读 0 评论 182 点赞

我是靠谱客的博主不安香烟，这篇文章主要介绍NLTK简单入门函数小汇总，现在分享给大家，希望可以做个参考。

说明：本文代码均来自 Natural Language Processing with Python

1. concordance(" ")
搜索某个特定词语在文章中出现的位置，并显示上下文

2. similar(" ")
搜索文章中与目标用法、意义相似的词

3. common_contexts([" "," "])
这个函数和similar有点类似，但是不同的是,这个函数是用来搜索list中的所有单词的上下文.即: word1,word2 相同的上下文

4. generate( )
用来自动生成文章，其中输出时，标点符号被从前面的词分裂出去

5. 统计词汇
（1）len(text)：计算text， list等的长度
（2）set(text)：去掉list， text中的重复元素
（3）sorted(set(text))：将list， text中的元素按首字母排序（先标点符号再大写后小写）
（4）count( )：计算某个特定词在text，list中出现的次数（频数）
（5）简单函数：

#建立函数测算某个文本中所有单词出现的平均次数
def lexical_diversity(text):
    return len(text) / len(set(text));
#建立函数测算某个单词在某个文本中所占的百分比
def percentage(count, total):
    return 100 * count / total;    
print(lexical_diversity(text3));
print(percentage(text4.count("a"), len(text4)));