我是靠谱客的博主 现代小馒头,最近开发中收集的这篇文章主要介绍文本分析--tfidf、word2vec,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

TF-IDF

  • 词频(TF) = 某个词在文章中的出现次数 / 文章总词数 或者 词频(TF) = 某个词在文章中的出现次数 / 拥有最高词频的词的次数。
  • 逆文档频率(IDF) = log(语料库的文档总数/包含该词的文档总数+1)
  • TF-IDF = 词频(TF) * 逆文档频率(IDF)

主要应用:

  • 关键词提取,找相似文章,文章自动摘要,作为分类或聚类的输入。

word2vec

  • word2vec主要分为CBOW(Continuous Bag of Words)和Skip-Gram两种模式。CBOW是从原始语句推测目标字词;而Skip-Gram正好相反,是从目标字词推测出原始语句。CBOW对小型数据库比较合适,而Skip-Gram在大型语料中表现更好。
  • 对同样一个句子:Hangzhou is a nice city。我们要构造一个语境与目标词汇的映射关系,其实就是input与label的关系。
    这里假设滑窗尺寸为1
  • CBOW可以制造的映射关系为:[Hangzhou,a]—>is,[is,nice]—>a,[a,city]—>nice
  • Skip-Gram可以制造的映射关系为(is,Hangzhou),(is,a),(a,is), (a,nice),(nice,a),(nice,city)

主要应用:

  • 推荐(音乐、大V),商品相似度计算,作为分类或聚类的输入。
  • https://www.zhihu.com/question/25269336

实现:

  • python:Gensim
  • java:dl4j
  • spark:mlib

实战:

https://blog.csdn.net/qq_41664845/article/details/80305101

最后

以上就是现代小馒头为你收集整理的文本分析--tfidf、word2vec的全部内容,希望文章能够帮你解决文本分析--tfidf、word2vec所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(62)

评论列表共有 0 条评论

立即
投稿
返回
顶部