概述
1、TF-IDF简介
TF:Term Frequency 词频,指的是给定一个词在该文档中出现的次数
IDF:Inverse Document Frequency 逆文档频率
可以简单的理解成:一个词语在一篇文章中出现的次数越多,同时在其他的所有文档中出现的次数越少,越能够代表该文章
2、TF IDF计算
2.1 TF
TF指的是某一个给定的词语在该文档中出现的次数,由于文档的长度不一,防止TF偏向于长文档,需要对其进行归一化处理,一般采取词频除以文章的总词数
TF = 在某一文档中词W出现的次数/该文档中所有的词条数目
2.2 IDF
如果包含词W的文档越少,IDF越大,则说明该词具有很好的类别区分能力,某一特定词语的IDF,可以由总文档数除以包含该词语的文档的数目,再将得到的商取对数得到
IDF = 文档的总数/(包含该词条的文档数+1)
为了防止分母为0,则对分母加了1
2.3 TF-IDF
某一特定文件内的高词语频率,以及该词在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF,因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语
TF-IDF = TF*IDF
3、例子
一个文档中,总共有1000个词,“中国”出现5次、 “体育”出现20次,总共有100份文档,其中包含“中国”的有30份文档,包含“体育”的有10份文档
中国: TF = 5/1000 = 0.005 IDF = log(100/(30+1)) 大概为0.51
体育: TF = 20/1000 = 0.02 IDF = log(100/(10+1)) 大概为0.95
中国:TF-IDF = 0.005*0.51 = 0.00255
体育:TF-IDF = 0.02*0.95 = 0.019
从计算的结果可以看出,“中国”比“体育”小,如果对文档选择关键词,则选择“体育”
这是我对TF-IDF的简单理解,有不对的地方,互相交流一下
最后
以上就是清新电源为你收集整理的TF-IDF的简单理解的全部内容,希望文章能够帮你解决TF-IDF的简单理解所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复