现代小馒头

文章
7
资源
0
加入时间
2年10月21天

文本分析--tfidf、word2vec

TF-IDF词频(TF) = 某个词在文章中的出现次数 / 文章总词数 或者 词频(TF) = 某个词在文章中的出现次数 / 拥有最高词频的词的次数。逆文档频率(IDF) = log(语料库的文档总数/包含该词的文档总数+1)TF-IDF = 词频(TF) * 逆文档频率(IDF)主要应用:关键词提取,找相似文章,文章自动摘要,作为分类或聚类的输入。word2vecword...