我是靠谱客的博主 落寞大山,最近开发中收集的这篇文章主要介绍向量空间搜索引擎基本理论,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

  向量空间搜索引擎所运用的简单技术源自矩阵代数,它基于字符在文件中出现的频率来比较文件。向量空间搜索引擎中第一个重要的元素是项空间(term space)的概念,简而言之,一个项空间由文件中出现的每个独立的词组成.
  向量空间搜索引擎中第二个重要的元素是项数(termcounts)。项数就是文件中每个字符出现的次数,通常可由表的形式列出,通过将项空间作为坐标空间,项数作为项空间中的坐标,我们可为每个文件生成一个向量。

  为了了解怎样生成这些向量,我们看一个简单例子.大家可能对笛卡尔坐标比较熟悉,点的刻画沿X,Y,Z轴.类似的,在我们的例子中一个项空间由三个独立项组成,我们把它们分别称作项1轴,项2轴,项3轴.(在向量空间搜索引擎理论中这些轴通常被称作维数.)通过计算文件中各项出现的次数,并沿各项轴画出坐标,我们就可确定出与文件所对应的项空间中的点.由这些点则可生成该文件的向量.一旦在项空间中画出该文件的向量,我们就可计算向量的大小.我们把大小看作是原点(我们的例子中是坐标(0,0,0)点)到当前文件点之间连线的距离.这样就可运用向量的长度通过计算夹角的余旋来比较不同的文件.例如,相同的文件夹角余旋为1,文件中含有类似项的夹角余旋会是正小数,文件中含有截然不同项的夹角余旋会是0.

转载于:https://www.cnblogs.com/sunfie/p/6679069.html

最后

以上就是落寞大山为你收集整理的向量空间搜索引擎基本理论的全部内容,希望文章能够帮你解决向量空间搜索引擎基本理论所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(47)

评论列表共有 0 条评论

立即
投稿
返回
顶部