概述
TF-IDF
- 词频(TF) = 某个词在文章中的出现次数 / 文章总词数 或者 词频(TF) = 某个词在文章中的出现次数 / 拥有最高词频的词的次数。
- 逆文档频率(IDF) = log(语料库的文档总数/包含该词的文档总数+1)
- TF-IDF = 词频(TF) * 逆文档频率(IDF)
主要应用:
- 关键词提取,找相似文章,文章自动摘要,作为分类或聚类的输入。
word2vec
- word2vec主要分为CBOW(Continuous Bag of Words)和Skip-Gram两种模式。CBOW是从原始语句推测目标字词;而Skip-Gram正好相反,是从目标字词推测出原始语句。CBOW对小型数据库比较合适,而Skip-Gram在大型语料中表现更好。
- 对同样一个句子:Hangzhou is a nice city。我们要构造一个语境与目标词汇的映射关系,其实就是input与label的关系。
这里假设滑窗尺寸为1 - CBOW可以制造的映射关系为:[Hangzhou,a]—>is,[is,nice]—>a,[a,city]—>nice
- Skip-Gram可以制造的映射关系为(is,Hangzhou),(is,a),(a,is), (a,nice),(nice,a),(nice,city)
主要应用:
- 推荐(音乐、大V),商品相似度计算,作为分类或聚类的输入。
- https://www.zhihu.com/question/25269336
实现:
- python:Gensim
- java:dl4j
- spark:mlib
实战:
https://blog.csdn.net/qq_41664845/article/details/80305101
最后
以上就是现代小馒头为你收集整理的文本分析--tfidf、word2vec的全部内容,希望文章能够帮你解决文本分析--tfidf、word2vec所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复