大数据平台复习10.基于pySpark的TF-IDF算法实践
from pyspark import SparkConf, SparkContextimport math #以下为计算过程中需要用到的几个函数# 该函数主要是统计一个文档中包含哪些单词def word_contains(words_list): words_set=set(words_list)#将列表转为set,去除重复的单词 return list(words_set)#再将set转为列表返回 # 计算每个单词的逆文档频率idfdef computeIDF(w