概述
文章目录
- 1. 概念、公式
- 熵
- 交叉熵
- 条件熵
- 互信息
- 2. softmax和交叉熵
- 3. 互信息和交叉熵
1. 概念、公式
熵
随机事件X有n种可能发生的情况,每种情况发生的概率为
p
i
p_i
pi
H
(
X
)
=
−
∑
i
=
1
n
p
i
l
o
g
(
p
i
)
H(X)=-sum_{i=1}^{n} p_ilog(p_i)
H(X)=−i=1∑npilog(pi)
交叉熵
度量两个概率分布p、q之间的差异,
y
i
y_i
yi服从q分布,
p
i
p_i
pi服从p分布。对于单个样本来说:
C
i
=
−
∑
j
=
1
C
y
j
l
o
g
(
p
j
)
C_i = -sum_{j=1}^{C} y_j log(p_j)
Ci=−j=1∑Cyjlog(pj)
i是第i个样本。C为类别数。
j
j
j代表类别
j
j
j。
p
j
p_j
pj是当前样本
i
i
i 属于类别
j
j
j 的概率。当样本
i
i
i 的真实类别为
j
j
j时,
y
j
=
1
y_j=1
yj=1,其余
y
j
=
0
y_j=0
yj=0,
y
j
y_j
yj也叫指示变量
C
=
1
M
∑
i
=
1
M
C
i
C=frac{1}{M}sum_{i=1}^{M}C_i
C=M1i=1∑MCi
M为样本数,每个样本属于C个类别中的1个类别。
条件熵
H
(
X
∣
Y
)
=
−
∑
i
,
j
=
1
m
,
n
p
(
x
i
,
y
j
)
l
o
g
[
p
(
x
i
∣
y
j
)
]
H(X|Y)=-sum_{i,j=1}^{m,n}p(x_i,y_j)log[p(x_i|y_j)]
H(X∣Y)=−i,j=1∑m,np(xi,yj)log[p(xi∣yj)]
随机事件X有m种可能发生的情况,随机事件Y有n种可能发生的情况
互信息
互信息也叫信息增益
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
I(X;Y)=H(X)-H(X|Y)
I(X;Y)=H(X)−H(X∣Y)
2. softmax和交叉熵
关于softmax和交叉熵:probability,odds,logit, softmax, logSoftmax,交叉熵
3. 互信息和交叉熵
利用KL散度作为过渡
I
(
x
,
y
)
=
∑
∑
p
(
x
,
y
)
l
o
g
p
(
x
,
y
)
p
(
x
)
p
(
y
)
=
K
L
[
p
(
x
,
y
)
∣
∣
p
(
x
)
p
(
y
)
]
=
∑
p
(
x
,
y
)
l
o
g
[
p
(
x
,
y
)
]
−
∑
p
(
x
,
y
)
l
o
g
[
p
(
x
)
p
(
y
)
]
=
−
H
[
p
(
x
,
y
)
]
+
C
r
o
s
s
E
n
t
r
o
p
y
[
p
(
x
,
y
)
,
p
(
x
)
p
(
y
)
]
=
H
(
x
,
y
)
−
H
(
x
)
≥
0
begin{aligned} I(x,y) = & sum sum p(x,y)logfrac {p(x,y)}{p(x)p(y)} \ = & KL[p(x,y)||p(x)p(y)] \ = & sum p(x,y)log[p(x,y)]-sum p(x,y)log[p(x)p(y)] \ = & - H[p(x,y)] + CrossEntropy[p(x,y), p(x)p(y)] \ = & H(x,y) - H(x) geq 0 \ end{aligned}
I(x,y)=====∑∑p(x,y)logp(x)p(y)p(x,y)KL[p(x,y)∣∣p(x)p(y)]∑p(x,y)log[p(x,y)]−∑p(x,y)log[p(x)p(y)]−H[p(x,y)]+CrossEntropy[p(x,y),p(x)p(y)]H(x,y)−H(x)≥0
- 问题1:交叉熵 C r o s s E n t r o p y [ p ( x , y ) , p ( x ) p ( y ) ] CrossEntropy[p(x,y), p(x)p(y)] CrossEntropy[p(x,y),p(x)p(y)] 和联合熵 H ( x , y ) H(x,y) H(x,y)等同吗?
- 问题2:互信息 I ( x , y ) I(x,y) I(x,y) 和交叉熵 C r o s s E n t r o p y [ p ( x , y ) , p ( x ) p ( y ) ] CrossEntropy[p(x,y), p(x)p(y)] CrossEntropy[p(x,y),p(x)p(y)] 成正比还是反比?
参考答案:反比。最小化交叉熵等价于增大互信息量的下界,通过减小交叉熵可以增大互信息量。参考文献234有证明。另外,从直观上来看,随着最小化损失函数,模型能够让不同身份类别的人脸特征互相远离,它们在特征空间中的分布会趋于分散(这一点在人脸识别相关论文中有提到,例如RegularFace,UniformFace等),这表示人脸特征的熵是增大的趋势,而相同身份类别的人脸特征会互相靠近,这代表它们之间的条件熵是减小的趋势。因此,随着交叉熵损失函数的减小,相同身份类别的人脸特征之间的互信息量是增大的。
参考文献:
[1] 《Towards NIR-VIS Masked Face Recognition》
[2] Boudiaf, Malik et al. “A Unifying Mutual Information View of Metric Learning: Cross-Entropy vs. Pairwise Losses.” ECCV (2020).
[3] Oord, Aäron van den et al. “Representation Learning with Contrastive Predictive Coding.” ArXiv abs/1807.03748 (2018)
[4] Tian, Yonglong et al. “Contrastive Multiview Coding.” ECCV (2020).
https://zhuanlan.zhihu.com/p/32401995
https://zhuanlan.zhihu.com/p/35709485
http://fourier.eng.hmc.edu/e176/lectures/probability/node6.html
最后
以上就是缓慢鲜花为你收集整理的熵、交叉熵、条件熵、互信息1. 概念、公式2. softmax和交叉熵3. 互信息和交叉熵的全部内容,希望文章能够帮你解决熵、交叉熵、条件熵、互信息1. 概念、公式2. softmax和交叉熵3. 互信息和交叉熵所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复