搞懂多维高斯分布的由来

212 阅读 0 评论 140 点赞

我是靠谱客的博主文静电源，这篇文章主要介绍搞懂多维高斯分布的由来，现在分享给大家，希望可以做个参考。

PRML的2.3节一开始就给出了多维高斯分布的形式：

$&=frac{1}{(2pi)^{frac{d}{2}}left|Sigmaright|^frac{1}{2}}exp{{-frac{1}{2}(mathbf x-mu)^TSigma^{-1}(mathbf x-mu)}}end{aligned}quadquadquad(1)$

其中， $μ$ 是D维 mean vector， $Σ$ 是 $D \times D$ 协方差矩阵，里面的第 i 行第 j 列元素表示第 i 个变量第 j 个变量的协方差， $∣ Σ ∣$ 代表协方差矩阵的行列式。

书上没有说式(1)到底是怎么来的，而本文主要就是讲式(1)的由来。

首先考虑一维标准正态分布，概率密度函数为：

$f(x)=frac{1}{sqrt{2pi}}exp(-frac{x^2}{2})quadquadquad(2)$

然后考虑 n 维独立标准高斯分布，就是 n 个独立的一维标准正态分布随机变量的联合分布：

$p(x_1,dots,x_n) = p(x_1)dots p(x_n) = (2pi)^{-frac{n}{2}}expleft( -frac{{x_1}^2+ dots +{x_n}^2}{2}right)quadquadquad(3)$

为了表达方便，用向量的形式来表示，设 $(x_1,dots,x_n)^T$ ，式（3）写作：

$(2pi)^{-frac{n}{2}}expleft( -frac{1}{2}mathbf{x}^Tmathbf{x}right)quadquadquad(4)$

一般的，设 $y$ 由 $x$ 的线性变换得到：

$y = A x + μ (5)$

其中A是 $n \times n$ 的非奇异矩阵， $μ$ 是n维向量

可把 $x$ 用 $y$ 表示：

$A^{-1}(mathbf{y} - mu)quadquadquad(6)$

注意到，式（6）线性变换的雅可比行列式是 $A^{-1}|$ （关于雅可比行列式参见我的另一篇文章)

因此： $|A^{-1}| d mathbf yquadquadquad(7)$

设 $Sigma^{-1}=(A^{-1})^T A^{-1}$ ，则 $|A|=|Sigma|^{frac{1}{2}}$ ，由联合概率分布密度的定义，有：

$f(A^{-1}(mathbf{y} - mu)) |mathbf A^{-1}| d mathbf y \ &= intdotsintfrac{1}{sqrt{2 pi}^n |A|}expleft[ -frac{1}{2}(mathbf{y} - mu) ^T (A^{-1})^T A^{-1}(mathbf{y} - mu)right] d mathbf y \ &= intdotsintfrac{1}{sqrt{2 pi}^n |Sigma|^{frac{1}{2}}}expleft[ -frac{1}{2}(mathbf{y} - mu) ^T Sigma^{-1}(mathbf{y} - mu)right] dmathbf y end{aligned}quad10)$