Spark-基于scala实现文章特征提取(TF-IDF)
一.基本原理: TF-IDF(term frequency–inverse document frequency):TF表示 词频,IDF表示 反文档频率.TF-IDF主要内容就是:如果一个词语在本篇文章出现的频率(TF)高,并且在其他文章出现少(即反文档频率IDF高),那么就可以认为这个词语是本篇文章的关键词,因为它具有很好的区分和代表能力.二.SparkML库:TF:HashingTF ...