向量空间搜索引擎基本理论
向量空间搜索引擎所运用的简单技术源自矩阵代数,它基于字符在文件中出现的频率来比较文件。向量空间搜索引擎中第一个重要的元素是项空间(term space)的概念,简而言之,一个项空间由文件中出现的每个独立的词组成. 向量空间搜索引擎中第二个重要的元素是项数(termcounts)。项数就是文件中每个字符出现的次数,通常可由表的形式列出,通过将项空间作为坐标空间,项数作为项空间中的坐标,我们可为...