我是靠谱客的博主 单薄嚓茶,最近开发中收集的这篇文章主要介绍25.TF&IDF算法以及向量空间模型算法,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

主要知识点:

  • boolean model
  • IF/IDF
  • vector space model

   

一、boolean model

   

在es做各种搜索进行打分排序时,会先用boolean model 进行初步的筛选,boolean model类似and这种逻辑操作符,先过滤出包含指定termdocmust/must not/should(过滤、包含、不包含 、可能包含)这几种情况,这一步不会对各个doc进行打分,只分过滤,为下一步的IF/IDF算法筛选数据。

   

二、TF/IDF

   

这一步就是esboolean model过滤出来的doc进行打分,但是这一步也只是单个termdoc中的分数。现假如:

   

query: hello world

doc1: java is my favourite programming language, hello world !!!

doc2: hello java, you are very good, oh hello world!!!

   

hellodoc1的评分

   

TF: term frequency

   

找到hellodoc1中出现了几次,1次,会根据出现的次数给个分数

一个term在一个doc中,出现的次数越多,那么最后给的相关度评分就会越高

   

IDFinversed document frequency

   

找到hello在所有的doc中出现的次数,3

一个term在所有的doc中,出现的次数越多,那么最后给的相关度评分就会越低

   

length norm

   

hello搜索的那个field的长度,field长度越长,给的相关度评分越低; field长度越短,给的相关度评分越高

   

最后,会将hello这个term,对doc1的分数,综合TFIDFlength norm,计算出来一个综合性的分数

   

3vector space model

   

我们在做搜索时,搜索条件中可能会有多个term,es出来的分数结果也是对多个term的综合分数,多个term对一个doc的总分数的计算,在es中使用的是vector space model(空间向量模型),这个模型的算法很复杂,我们在使用es时不需要知道这种算法,只需要知道综合分数是由灾这种模型计算得出的就行。

转载于:https://www.cnblogs.com/liuqianli/p/8527702.html

最后

以上就是单薄嚓茶为你收集整理的25.TF&IDF算法以及向量空间模型算法的全部内容,希望文章能够帮你解决25.TF&IDF算法以及向量空间模型算法所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(46)

评论列表共有 0 条评论

立即
投稿
返回
顶部