顺利刺猬

文章
9
资源
0
加入时间
2年10月21天

基于kmeans聚类算法的微博舆情热点事件分析系统

首先,我们知道任何一条微博都是由单词构成的,我们在最初之时就构建了一个包含全部文档集合的词典,只要文 档集合中出现了的单词,我们的词典之中就会有。Cosine计算,余弦计算的好处是,正好是一个介于0到1的数,如果向量一致就是1,如果正交就是0,符合相 似度百分比的特性,余弦的计算方法为,向量内积/各个向量的模的乘积。搜寻时,输入的检索词也被转换成类似于文件的向量,这个模型假设,文件和搜寻词的相关程度,可以经由比较每个文件(向量)和检索词(向量)的夹角偏差程度而得知。