Python 文本挖掘淘宝客服日志挖掘
本文没有使用特别高端的挖掘算法,也没有使用专用的第三方分词工具,是基于统计的原理进行分词和文章句子的统计的。基本逻辑如下: 1、导入文章,进行分句。 2、按照2个字一个词的规则,对统计的句子进行分词并统计。 3、对分得的词进行处理,去除词左右交接的组合,比如ABCD中,BC出现的频率高于AB、CD,则AB、CD在ABCD同时出现的句子中不应被视为词语,但如果在后续的句子中,存在BCDF,CD...