概述
TF—IDF是什么
TF-IDF的算法,目的是计算词的权重,由两部分组成,一部分是TF(词项频率),另一部分是IDF(逆向文档频率)。通俗的讲,就是,TF-IDF = TF * IDF。也就是说,我们在考虑词的权重的时候,不再只考虑这个词在文档中出现多少次。
TF
TF考虑了词项的类内代表性,其实,我也不懂什么叫类内代表性,总之,它就是像数数一样,看一个词在一个句子中出现多少次,然后计算频率。但是这个指标并不能完全反映文本类别的区分度,文档高频词极有可能在其他文档中也重复出现,例如“的”、“一”等。Term Frequency中文翻译就是词频。
举个例子:
这个词语在此文本出现的频率 除以 此文本词语的总个数 即是词频。如“你们”在一个文本出现10次,此文本一共100个词语,那么“你们”的词频就是10/100=0.1。
IDF
考虑到TF的缺点之后,我们又引入了IDF,意思是逆向文档频率,考虑了词项的全局代表性,表示文档中总文档数目与文档中包含该词项数目的比值:
举个例子:
IDF的具体计算方式是总文本的数目除以包含该词语文件的数目再取对数,以达到给每个词语赋予不同权重的意义。我们一共有100个文本,其中10个中找到了我们想要的词语,那么我们的IDF值为log(100/10)= 1。
IDF值随着数字分母的变大而变小,也就是说当我们在总文本里找到越多的文本包含我们想要的词,这就证明这个词非常的普遍,并没有任何的指引性,导致我们的IDF值下降。极端的例子,如果说所有文件里都有我们想要查找的这个词语,那么分子分母相等再取对数,最后的结果为0,就代表在我们现有的文本或语料库里,这个词语没有任何特殊的意义和识别性。
最终我们的TF-IDF值就等于 TF值IDF值,例如词语“原子弹”的TF值是0.1,IDF值是2.8,那么它的TFIDF值为0.28。
如果我们有3个词语A、B、C,它们的TF-IDF值分别为0,28、0.53和0.77,那么我们加起来,这三个词语在文章中加起来的TF*IDF值就为1.58。
最后
以上就是怕孤独蜜粉为你收集整理的TF-IDF是什么学习笔记(基础版)的全部内容,希望文章能够帮你解决TF-IDF是什么学习笔记(基础版)所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复