向量空间模型(VSM)算法
(转载他人 以备自己查阅)在该方法中,我们把一篇文章抽象成一个向量。 假设向量由n个词组成,每个词的权重是kn。假设文章D是你喜欢的文章,那么 文章 D=(k1,k2,k3,k4,k5.....kn),这是一个多维的向量。 如果维数很多,将来计算起来很麻烦,我们需要降维处理,所谓的降维就是,选出有代表性的特征词,这样就降低了维数。 可以人工选择。也可以自动选择,自