概述
文章目录
- 典型的信息度量指标及算法
- 指标
- 1 熵(entropy自信息)
- 2 熵的变形
- 2.1 联合熵(joint entropy)
- 2.2 条件熵(conditional entropy)
- 2.3 相对熵(relative entropy,KL距离,信息散度)
- 2.4 交叉熵(cross entropy)
- 3 信息增益
- 4 困惑度(perplexity)
- 5 互信息(mutual information)
- 6 点互信息PMI(Pointwise Mutual Information)
- 7 对称不确定性SU(symmetrical uncertainty)
- 8 信息标准变化NVI(Normalized variation of information)
- 相关算法描述
- 1 基于相关的快速滤波器选择算法 FCBF(fast correlation-based filter selection algorithm)
- 2 最大相关最小冗余算法 mRmR
典型的信息度量指标及算法
参考CSDN博主「xbmatrix」的原创文章
指标
1 熵(entropy自信息)
表示随机变量的不确定性。一个随机变量的熵越大,它的不确定性越大,那么正确估计其值的可能性就越小。
如果X是一个离散型随机变量,其概率分布为
p
(
x
)
=
P
(
X
=
x
)
,
x
∈
X
p(x)=P(X=x), x∈X
p(x)=P(X=x),x∈X,
X
X
X的熵
H
(
X
)
H(X)
H(X)为:
H
(
X
)
=
−
Σ
x
∈
X
p
(
x
)
log
2
p
(
x
)
Hleft( X right) =-underset{xin X}{varSigma}pleft( x right) log _2pleft( x right)
H(X)=−x∈XΣp(x)log2p(x)
2 熵的变形
2.1 联合熵(joint entropy)
联合熵实际上就是描述一对随机变量平均所需要的信息量。
如果
X
,
Y
X,Y
X,Y是一对离散型随机变量,
X
,
Y
∼
p
(
x
,
y
)
X,Ysim p(x,y)
X,Y∼p(x,y),
X
,
Y
X,Y
X,Y的联合熵
H
(
X
,
Y
)
H(X,Y)
H(X,Y)为:
H
(
X
,
Y
)
=
−
Σ
x
∈
X
Σ
y
∈
Y
p
(
x
,
y
)
log
2
p
(
x
,
y
)
Hleft( X,Y right) =-underset{xin X}{varSigma}underset{yin Y}{varSigma}pleft( x,y right) log _2pleft( x,y right)
H(X,Y)=−x∈XΣy∈YΣp(x,y)log2p(x,y)
2.2 条件熵(conditional entropy)
给定
X
X
X的值前提下随机变量
Y
Y
Y的随机性的量,表示在一个条件下,随机变量的不确定性。
H
(
Y
∣
X
)
=
Σ
x
∈
X
p
(
x
)
H
(
Y
∣
X
=
x
)
=
Σ
x
∈
X
p
(
x
)
[
−
Σ
y
∈
Y
p
(
y
∣
x
)
log
2
p
(
y
∣
x
)
]
=
−
Σ
x
∈
X
Σ
y
∈
Y
p
(
x
,
y
)
log
2
p
(
y
∣
x
)
Hleft( Y|X right) = underset{xin X}{varSigma}pleft( x right) Hleft( Y|X=x right)= underset{xin X}{varSigma}pleft( x right) left[ -underset{yin Y}{varSigma}pleft( y|x right) log _2pleft( y|x right) right] = -underset{xin X}{varSigma}underset{yin Y}{varSigma}pleft( x,y right) log _2pleft( y|x right)
H(Y∣X)=x∈XΣp(x)H(Y∣X=x)=x∈XΣp(x)[−y∈YΣp(y∣x)log2p(y∣x)]=−x∈XΣy∈YΣp(x,y)log2p(y∣x)
2.3 相对熵(relative entropy,KL距离,信息散度)
衡量两个概率分布的匹配程度,两个分布差异越大,KL散度越大,设
P
(
x
)
,
Q
(
x
)
P(x),Q(x)
P(x),Q(x)是随机变量
X
X
X上的概率分布
K
L
(
P
∣
∣
Q
)
=
Σ
P
(
x
)
log
P
(
x
)
Q
(
x
)
K
L
(
P
∣
∣
Q
)
=
∫
P
(
x
)
log
P
(
x
)
Q
(
x
)
d
x
KLleft( P||Q right) =varSigma Pleft( x right) log frac{Pleft( x right)}{Qleft( x right)}\ KLleft( P||Q right) =int{Pleft( x right) log frac{Pleft( x right)}{Qleft( x right)}dx}
KL(P∣∣Q)=ΣP(x)logQ(x)P(x)KL(P∣∣Q)=∫P(x)logQ(x)P(x)dx
2.4 交叉熵(cross entropy)
H
(
p
,
q
)
=
−
Σ
i
=
1
n
p
(
x
i
)
log
(
q
(
x
i
)
)
Hleft( p,q right) =-varSigma _{i=1}^{n}pleft( x_i right) log left( qleft( x_i right) right)
H(p,q)=−Σi=1np(xi)log(q(xi))
3 信息增益
信息增益=信息熵-条件熵
表示在一个条件下,信息不确定性减少的程度。在特征选择的时候常常用信息增益,如果IG(信息增益大)的话那么这个特征对于分类来说很关键
4 困惑度(perplexity)
用来度量一个概率分布或概率模型预测样本的好坏程度。语言模型训练完之后,测试集中的句子都是正常的句子,在测试集上的概率越高,迷惑度越小,语言模型越好
P
P
(
W
)
=
P
(
w
1
,
w
2
,
.
.
.
,
w
N
)
−
1
N
=
1
P
(
w
1
,
w
2
,
.
.
.
,
w
N
)
N
PPleft( W right) =Pleft( w_1,w_2,...,w_N right) ^{-frac{1}{N}}=sqrt[N]{frac{1}{Pleft( w_1,w_2,...,w_N right)}}
PP(W)=P(w1,w2,...,wN)−N1=NP(w1,w2,...,wN)1
5 互信息(mutual information)
如果
(
X
,
Y
)
∼
P
(
x
,
y
)
(X, Y) sim P(x, y)
(X,Y)∼P(x,y),
X
,
Y
X, Y
X,Y 之间的互信息
I
(
X
;
Y
)
I(X; Y)
I(X;Y)定义为:
I
(
X
;
Y
)
=
Σ
x
∈
X
Σ
y
∈
Y
p
(
x
,
y
)
log
p
(
x
,
y
)
p
(
x
)
p
(
y
)
Ileft( X;Y right) =underset{xin X}{varSigma}underset{yin Y}{varSigma}pleft( x,y right) log frac{pleft( x,y right)}{pleft( x right) pleft( y right)}
I(X;Y)=x∈XΣy∈YΣp(x,y)logp(x)p(y)p(x,y)
I
(
X
;
Y
)
I (X; Y)
I(X;Y)取值为非负。当
X
、
Y
X、Y
X、Y相互独立时,
I
(
X
,
Y
)
I(X,Y)
I(X,Y)最小为0
6 点互信息PMI(Pointwise Mutual Information)
点互信息只是对其中两个点进行相关性判断,互信息其实就是对X和Y的所有可能的取值情况的点互信息PMI的加权和
P
M
I
(
x
;
y
)
=
log
p
(
x
,
y
)
p
(
x
)
p
(
y
)
=
log
p
(
x
∣
y
)
p
(
x
)
=
log
p
(
y
∣
x
)
p
(
y
)
PMIleft( x;y right) =log frac{pleft( x,y right)}{pleft( x right) pleft( y right)}=log frac{pleft( x|y right)}{pleft( x right)}=log frac{pleft( y|x right)}{pleft( y right)}
PMI(x;y)=logp(x)p(y)p(x,y)=logp(x)p(x∣y)=logp(y)p(y∣x)
7 对称不确定性SU(symmetrical uncertainty)
如果直接使用互信息量来选取特征,会导致倾向于选取取值较大的特征,SU修正了使用互信息选取特征的偏置,并对互信息量做了归一化处理,使得在进行特征相关性比较时相对公平。对称不确定性将取值标准化到0到1之间,取值为1是表示两个特征完全相关,即根据一个变量的值完全可以预测出另一个变量的值。取值为0时表示两个变量是完全独立的。
I
(
X
;
Y
)
I(X;Y)
I(X;Y)表示信息增益
S
U
(
X
,
Y
)
=
I
(
X
;
Y
)
H
(
X
)
+
H
(
Y
)
SUleft( X,Y right) =frac{Ileft( X;Y right)}{Hleft( X right) +Hleft( Y right)}
SU(X,Y)=H(X)+H(Y)I(X;Y)
8 信息标准变化NVI(Normalized variation of information)
R
(
X
,
Y
)
R(X,Y)
R(X,Y)反映了变量间独立性的偏离程度。引入规范化的
N
V
I
∈
[
0
,
1
]
NVI∈[0,1]
NVI∈[0,1]来描述变量间的独立程度。
R
(
X
,
Y
)
=
I
(
X
;
Y
)
H
(
X
,
Y
)
N
V
I
=
1
−
R
(
X
,
Y
)
=
V
I
(
X
,
Y
)
H
(
X
,
Y
)
Rleft( X,Y right) =frac{Ileft( X;Y right)}{Hleft( X,Y right)}\ NVI=1-Rleft( X,Y right) =frac{VIleft( X,Y right)}{Hleft( X,Y right)}
R(X,Y)=H(X,Y)I(X;Y)NVI=1−R(X,Y)=H(X,Y)VI(X,Y)
相关算法描述
1 基于相关的快速滤波器选择算法 FCBF(fast correlation-based filter selection algorithm)
FCBF算法实验基于信息论的对称不确定性度量SU来衡量两个特征的相关性,并提出一个可以有效分析冗余特征的快速过滤特征选择算法。
该算法的核心思想是如果一个特征和类别之间的不确定程度很高,且它与已选特征之间的不确定性程度很低,那么这个特征就是重要的,该特征将给分类性能带来更多的信息含量,即特征与类别之间是强相关关系(predominant correlation)。
强相关关系:当且仅当在相关子集S中不存在另外一个特征,它们之间的 SU 值大于该特征与类别之间的 SU 值。
算法框架: 1.选择与类别相关的特征。采用对称不确定性度量方法 SU,计算每个特征与类别之间的相关性,根据设置的阈值,选出其中最相关的特征,形成相关子集S,并对其按照 SU的值排序。 2.去除冗余特征,保留强相关特征。从相关子集S的第一个特征 F1开始判断,如果这个特征与S中其它特征 Fp(Fp是相关子集中第二个特征到最后一个特征)的 SU值大于该特征与类别之间 SU值,那么说明特征 Fp 的信息对于已选子集而言是多余的,直接从相关子集中删除,反之说明特征 Fp是重要的,它包含了特征 F1没有包含的分类信息,因此必须保留。以F1为基准判断完成之后,从F2开始判断, 重复以上过程,知道没有特征被移走或者全部判断完毕为止。2 最大相关最小冗余算法 mRmR
常用的特征选择方法是最大化特征与分类变量之间的相关度,就是选择与分类变量拥有最高相关度的前k个变量。但是单个好的特征的组合并不一定能增加分类器的性能,因为有可能特征之间是高度相关的,这就导致了特征变量的冗余。
mRMR的核心思想即最大化特征与分类变量之间的相关性,而最小化特征与特征之间的相关性。特征集S与类c的相关性由各个特征f i和类c之间的所有互信息值的平均值定义:
D
(
S
,
c
)
=
1
∣
S
∣
Σ
f
i
∈
S
I
(
f
i
;
c
)
Dleft( S,c right) =frac{1}{|S|}underset{f_iin S}{varSigma}Ileft( f_i;c right)
D(S,c)=∣S∣1fi∈SΣI(fi;c)
集合S中所有特征的冗余是特征f i和特征f j之间的所有互信息值的平均值定义:
R
(
S
)
=
1
∣
S
∣
2
Σ
f
i
,
f
j
∈
S
I
(
f
i
;
f
j
)
Rleft( S right) =frac{1}{|S|^2}underset{f_i,f_jin S}{varSigma}Ileft( f_i;f_j right)
R(S)=∣S∣21fi,fj∈SΣI(fi;fj)
mRMR标准是上面给出的两种措施的组合,定义如下:
m
R
M
R
=
max
S
[
D
(
S
,
c
)
−
R
(
S
)
]
mRMR= underset{S}{max}left[ Dleft( S,c right) -Rleft( S right) right]
mRMR= Smax[D(S,c)−R(S)]
最后
以上就是文静流沙为你收集整理的典型的信息度量指标及算法典型的信息度量指标及算法的全部内容,希望文章能够帮你解决典型的信息度量指标及算法典型的信息度量指标及算法所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复