TF-IDF的简单理解

378 阅读 0 评论 250 点赞

我是靠谱客的博主清新电源，这篇文章主要介绍TF-IDF的简单理解，现在分享给大家，希望可以做个参考。

1、TF-IDF简介
TF：Term Frequency 词频，指的是给定一个词在该文档中出现的次数
IDF：Inverse Document Frequency 逆文档频率
可以简单的理解成：一个词语在一篇文章中出现的次数越多，同时在其他的所有文档中出现的次数越少，越能够代表该文章
2、TF IDF计算
2.1 TF
TF指的是某一个给定的词语在该文档中出现的次数，由于文档的长度不一，防止TF偏向于长文档，需要对其进行归一化处理，一般采取词频除以文章的总词数

TF = 在某一文档中词W出现的次数/该文档中所有的词条数目
2.2 IDF
如果包含词W的文档越少，IDF越大，则说明该词具有很好的类别区分能力，某一特定词语的IDF，可以由总文档数除以包含该词语的文档的数目，再将得到的商取对数得到
IDF = 文档的总数/(包含该词条的文档数+1)
为了防止分母为0，则对分母加了1

2.3 TF-IDF
某一特定文件内的高词语频率，以及该词在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF，因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语
TF-IDF = TF*IDF

3、例子
一个文档中，总共有1000个词，“中国”出现5次、 “体育”出现20次，总共有100份文档，其中包含“中国”的有30份文档，包含“体育”的有10份文档
中国： TF = 5/1000 = 0.005 IDF = log(100/(30+1)) 大概为0.51
体育： TF = 20/1000 = 0.02 IDF = log(100/(10+1)) 大概为0.95

中国：TF-IDF = 0.005*0.51 = 0.00255
体育：TF-IDF = 0.02*0.95 = 0.019

从计算的结果可以看出，“中国”比“体育”小，如果对文档选择关键词，则选择“体育”

这是我对TF-IDF的简单理解，有不对的地方，互相交流一下