Spark特征提取---TF-IDF
词频(Term Frequency,缩写为TF)在一篇文档中出现次数最多的词是----"的"、"是"、"在"----这一类最常用的词。它们叫做"停用词"(stop words),表示对找到结果毫无帮助、必须过滤掉的词。还有长度小于2大于10的,数字也过滤掉,根据词性过滤,留下有实际意义的词。假设我们把它们都过滤掉了,只考虑剩下的有实际意义的词。这样又会遇到了另一个问题,我们可能