醉熏画笔

文章
6
资源
0
加入时间
3年1月10天

Spark Mlib(四)用spark计算tf-idf值

tf-idf算法是用统计的手法衡量一个元素在一个集合中的重要程度。在自然语言处理中,该算法可以衡量一个词在语料中的重要程度。其本思想很简单,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。下面是spark官网(http://spark.apache.org/docs/latest/ml-features.html#tf-idf)给出的例子packag...