我是靠谱客的博主 缓慢鲜花,最近开发中收集的这篇文章主要介绍熵、交叉熵、条件熵、互信息1. 概念、公式2. softmax和交叉熵3. 互信息和交叉熵,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

文章目录

  • 1. 概念、公式
    • 交叉熵
    • 条件熵
    • 互信息
  • 2. softmax和交叉熵
  • 3. 互信息和交叉熵

1. 概念、公式

随机事件X有n种可能发生的情况,每种情况发生的概率为 p i p_i pi
H ( X ) = − ∑ i = 1 n p i l o g ( p i ) H(X)=-sum_{i=1}^{n} p_ilog(p_i) H(X)=i=1npilog(pi)

交叉熵

度量两个概率分布p、q之间的差异, y i y_i yi服从q分布, p i p_i pi服从p分布。对于单个样本来说:
C i = − ∑ j = 1 C y j l o g ( p j ) C_i = -sum_{j=1}^{C} y_j log(p_j) Ci=j=1Cyjlog(pj)
i是第i个样本。C为类别数。 j j j代表类别 j j j p j p_j pj是当前样本 i i i 属于类别 j j j 的概率。当样本 i i i 的真实类别为 j j j时, y j = 1 y_j=1 yj=1,其余 y j = 0 y_j=0 yj=0 y j y_j yj也叫指示变量
C = 1 M ∑ i = 1 M C i C=frac{1}{M}sum_{i=1}^{M}C_i C=M1i=1MCi
M为样本数,每个样本属于C个类别中的1个类别。

条件熵

H ( X ∣ Y ) = − ∑ i , j = 1 m , n p ( x i , y j ) l o g [ p ( x i ∣ y j ) ] H(X|Y)=-sum_{i,j=1}^{m,n}p(x_i,y_j)log[p(x_i|y_j)] H(XY)=i,j=1m,np(xi,yj)log[p(xiyj)]
随机事件X有m种可能发生的情况,随机事件Y有n种可能发生的情况

互信息

互信息也叫信息增益
I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) I(X;Y)=H(X)-H(X|Y) I(X;Y)=H(X)H(XY)

2. softmax和交叉熵

关于softmax和交叉熵:probability,odds,logit, softmax, logSoftmax,交叉熵

3. 互信息和交叉熵

利用KL散度作为过渡
I ( x , y ) = ∑ ∑ p ( x , y ) l o g p ( x , y ) p ( x ) p ( y ) = K L [ p ( x , y ) ∣ ∣ p ( x ) p ( y ) ] = ∑ p ( x , y ) l o g [ p ( x , y ) ] − ∑ p ( x , y ) l o g [ p ( x ) p ( y ) ] = − H [ p ( x , y ) ] + C r o s s E n t r o p y [ p ( x , y ) , p ( x ) p ( y ) ] = H ( x , y ) − H ( x ) ≥ 0 begin{aligned} I(x,y) = & sum sum p(x,y)logfrac {p(x,y)}{p(x)p(y)} \ = & KL[p(x,y)||p(x)p(y)] \ = & sum p(x,y)log[p(x,y)]-sum p(x,y)log[p(x)p(y)] \ = & - H[p(x,y)] + CrossEntropy[p(x,y), p(x)p(y)] \ = & H(x,y) - H(x) geq 0 \ end{aligned} I(x,y)=====p(x,y)logp(x)p(y)p(x,y)KL[p(x,y)p(x)p(y)]p(x,y)log[p(x,y)]p(x,y)log[p(x)p(y)]H[p(x,y)]+CrossEntropy[p(x,y),p(x)p(y)]H(x,y)H(x)0

      - 问题1:交叉熵 C r o s s E n t r o p y [ p ( x , y ) , p ( x ) p ( y ) ] CrossEntropy[p(x,y), p(x)p(y)] CrossEntropy[p(x,y),p(x)p(y)] 和联合熵 H ( x , y ) H(x,y) H(x,y)等同吗?

      - 问题2:互信息 I ( x , y ) I(x,y) I(x,y) 和交叉熵 C r o s s E n t r o p y [ p ( x , y ) , p ( x ) p ( y ) ] CrossEntropy[p(x,y), p(x)p(y)] CrossEntropy[p(x,y),p(x)p(y)] 成正比还是反比?

       参考答案:反比。最小化交叉熵等价于增大互信息量的下界,通过减小交叉熵可以增大互信息量。参考文献234有证明。另外,从直观上来看,随着最小化损失函数,模型能够让不同身份类别的人脸特征互相远离,它们在特征空间中的分布会趋于分散(这一点在人脸识别相关论文中有提到,例如RegularFace,UniformFace等),这表示人脸特征的熵是增大的趋势,而相同身份类别的人脸特征会互相靠近,这代表它们之间的条件熵是减小的趋势。因此,随着交叉熵损失函数的减小,相同身份类别的人脸特征之间的互信息量是增大的。

       参考文献:
       [1] 《Towards NIR-VIS Masked Face Recognition》
       [2] Boudiaf, Malik et al. “A Unifying Mutual Information View of Metric Learning: Cross-Entropy vs. Pairwise Losses.” ECCV (2020).
       [3] Oord, Aäron van den et al. “Representation Learning with Contrastive Predictive Coding.” ArXiv abs/1807.03748 (2018)
       [4] Tian, Yonglong et al. “Contrastive Multiview Coding.” ECCV (2020).
      
      
      



https://zhuanlan.zhihu.com/p/32401995
https://zhuanlan.zhihu.com/p/35709485
http://fourier.eng.hmc.edu/e176/lectures/probability/node6.html

最后

以上就是缓慢鲜花为你收集整理的熵、交叉熵、条件熵、互信息1. 概念、公式2. softmax和交叉熵3. 互信息和交叉熵的全部内容,希望文章能够帮你解决熵、交叉熵、条件熵、互信息1. 概念、公式2. softmax和交叉熵3. 互信息和交叉熵所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(62)

评论列表共有 0 条评论

立即
投稿
返回
顶部