【Python】文本词频统计
第一步:分解并提取单词/词语对于英文:同一个单词会存在大小写的不同形式,但计数却不能区分大小写,于是可以通过 string.lower() 将字母编程小写,排除原文大小写差异对词频统计的干扰。英文单词的分隔可以是空格、标点符号或特殊符号,为统一分隔方式,可以将各种特殊字符和标点符号使用 string.replace() 方法替换成空格,再提取单词。对于中文:中文文章需要分词才能进行词频统...