概述
向量空间模型,可用于计算文本相似度。
首先我们希望将文章向量化。可以将一篇文章表示成从该文章抽取的关键词及其权重所构成的向量。
但如何提取文章的关键词和他的权重? e.g. TF-IDF(词频-逆文档频率)
当然首先我们要对文档向量降维:去除文章中的停用词,e.g. 的,这,那,是 …
然后:
第一步,计算词频:
或
第二步,计算逆文档频率:
即判断每个词在该文章中的重要程度(权重),若在本文中出现的多,而平时又不常见,则该词更能体现文章的特性,即越重要,如一文中中国和蜂蜜词频相同,中国更常见,故蜂蜜相对更能体现主题。
(已经提供了语料库)词约常见,分母越大,IDF越小,
第三步,计算TF-IDF:
T F − I D F = 词 频 ( T F ) × 逆 文 档 频 率 ( I D F ) TF-IDF = 词频(TF) times逆文档频率(IDF) TF−IDF=词频(TF)×逆文档频率(IDF)
以上
自动提取关键词的算法。计算每个词的TF-IDF值,按降序排列,取排在最前面的几个词。
「
用处:
1.自动提取文档关键词;
2.信息检索。对于每篇文档,计算搜索词的TF-IDF值,值最高的文档即为与搜索词最相关的文档。
缺点:词频衡量标准,不全面;忽略了词的位置信息(对全文第一段和每段第一句,给予较大权重)。
」
对文章进行向量空间建模
文本用D(Document)表示,特征项(Term)用
t
i
t_i
ti 表示,即出现在文本D中且经过提取的能够代表D的内容的基本语言单位(方法
e
.
g
.
e.g.
e.g.TF-IDF)。于是文本可表示成D(
t
1
t_1
t1,
t
2
t_2
t2,…,
t
n
t_n
tn)。 通常在建立向量空间模型时,一般会给每个特征项一个权值来表示该特征项对该文本的重要性,常见的是取TF-IDF值(
w
i
w_i
wi)。
于是文章可用此向量表示:D(
t
1
t_1
t1,
w
1
w_1
w1,…,
t
n
t_n
tn,
w
n
w_n
wn) ,简化为D(
w
1
w_1
w1,
w
2
w_2
w2,…,
w
n
w_n
wn) . 文本的向量表示
e
.
g
.
e.g.
e.g.
文档(d) 特征项(t) | a | b | c | d | e |
---|---|---|---|---|---|
d1 | 5.92 | 3.18 | 0 | 1.23 | 0 |
d2 | 2.34 | 2.73 | 0.4 | 3.2 | 3.1 |
d3 | 2.5 | 1.3 | 1.8 | 0 | 0 |
于是,每个文档都能被表示成维数为|n|的向量。
第j篇文档:dj=(
w
1
w_1
w1,
w
2
w_2
w2,…,
w
j
w_j
wj) ; queries(查询):q=(
w
1
q
w_{1q}
w1q,
w
2
q
w_{2q}
w2q,…,
w
n
q
w_{nq}
wnq)
实际情况下特征项非常多,每个向量非常稀疏。
如何比较查询(queries)和文档(document)之间的相似度?
常见:余弦测量(cosin measure)
公式中的分母称作规范化因子(normalization factor),使文档得分不受文档长度的影响。
最后
以上就是任性小虾米为你收集整理的向量空间模型(VSM)与TF-IDF的全部内容,希望文章能够帮你解决向量空间模型(VSM)与TF-IDF所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复