概述
PRML的2.3节一开始就给出了多维高斯分布的形式:
N ( x ∣ μ , Σ ) = 1 ( 2 π ) d 2 ∣ Σ ∣ 1 2 exp { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } ( 1 ) begin{aligned}Bbb{N}(mathbf x|mathbf{mu},mathbfSigma) &=frac{1}{(2pi)^{frac{d}{2}}left|Sigmaright|^frac{1}{2}}exp{{-frac{1}{2}(mathbf x-mu)^TSigma^{-1}(mathbf x-mu)}}end{aligned}quadquadquad(1) N(x∣μ,Σ)=(2π)2d∣Σ∣211exp{−21(x−μ)TΣ−1(x−μ)}(1)
其中, μ mu μ 是D维 mean vector, Σ Sigma Σ 是 D × D D times D D×D 协方差矩阵,里面的第 i 行第 j 列元素表示第 i 个变量第 j 个变量的协方差, ∣ Σ ∣ |Sigma| ∣Σ∣ 代表协方差矩阵的行列式。
书上没有说式(1)到底是怎么来的,而本文主要就是讲式(1)的由来。
首先考虑一维标准正态分布,概率密度函数为:
f ( x ) = 1 2 π exp ( − x 2 2 ) ( 2 ) f(x)=frac{1}{sqrt{2pi}}exp(-frac{x^2}{2})quadquadquad(2) f(x)=2π1exp(−2x2)(2)
然后考虑 n 维独立标准高斯分布,就是 n 个独立的一维标准正态分布随机变量的联合分布:
p ( x 1 , … , x n ) = p ( x 1 ) … p ( x n ) = ( 2 π ) − n 2 exp ( − x 1 2 + ⋯ + x n 2 2 ) ( 3 ) p(x_1,dots,x_n) = p(x_1)dots p(x_n) = (2pi)^{-frac{n}{2}}expleft( -frac{{x_1}^2+ dots +{x_n}^2}{2}right)quadquadquad(3) p(x1,…,xn)=p(x1)…p(xn)=(2π)−2nexp(−2x12+⋯+xn2)(3)
为了表达方便,用向量的形式来表示,设 x = ( x 1   …   x n ) T mathbf{x} = (x_1,dots,x_n)^T x=(x1…xn)T ,式(3)写作:
f ( x ) = ( 2 π ) − n 2 exp ( − 1 2 x T x ) ( 4 ) f(mathbf{x}) = (2pi)^{-frac{n}{2}}expleft( -frac{1}{2}mathbf{x}^Tmathbf{x}right)quadquadquad(4) f(x)=(2π)−2nexp(−21xTx)(4)
一般的,设 y mathbf{y} y 由 x mathbf x x 的线性变换得到:
y = A x + μ ( 5 ) mathbf{y} = Amathbf{x} + muquadquadquad(5) y=Ax+μ(5)
其中A是 n × n n times n n×n 的非奇异矩阵, μ mu μ 是n维向量
可把 x mathbf{x} x 用 y mathbf{y} y 表示:
x = A − 1 ( y − μ ) ( 6 ) mathbf{x} = A^{-1}(mathbf{y} - mu)quadquadquad(6) x=A−1(y−μ)(6)
注意到,式(6)线性变换的雅可比行列式是 ∣ A − 1 ∣ |mathbf A^{-1}| ∣A−1∣ (关于雅可比行列式参见我的另一篇文章)
因此: d x = ∣ A − 1 ∣ d y ( 7 ) rm d mathbf x = |A^{-1}| d mathbf yquadquadquad(7) dx=∣A−1∣dy(7)
设 Σ − 1 = ( A − 1 ) T A − 1 Sigma^{-1}=(A^{-1})^T A^{-1} Σ−1=(A−1)TA−1 ,则 ∣ A ∣ = ∣ Σ ∣ 1 2 displaystyle |A|=|Sigma|^{frac{1}{2}} ∣A∣=∣Σ∣21 ,由联合概率分布密度的定义,有:
1 = ∫ ​ ⋯ ∫ f ( x ) d x = ∫ ​ ⋯ ∫ f ( A − 1 ( y − μ ) ) ∣ A − 1 ∣ d y = ∫ ​ ⋯ ∫ 1 2 π n ∣ A ∣ exp [ − 1 2 ( y − μ ) T ( A − 1 ) T A − 1 ( y − μ ) ] d y = ∫ ​ ⋯ ∫ 1 2 π n ∣ Σ ∣ 1 2 exp [ − 1 2 ( y − μ ) T Σ − 1 ( y − μ ) ] d y 10 ) begin{aligned} 1= intdotsint f(mathbf{x}) d mathbf x &= intdotsint f(A^{-1}(mathbf{y} - mu)) |mathbf A^{-1}| d mathbf y \ &= intdotsintfrac{1}{sqrt{2 pi}^n |A|}expleft[ -frac{1}{2}(mathbf{y} - mu) ^T (A^{-1})^T A^{-1}(mathbf{y} - mu)right] d mathbf y \ &= intdotsintfrac{1}{sqrt{2 pi}^n |Sigma|^{frac{1}{2}}}expleft[ -frac{1}{2}(mathbf{y} - mu) ^T Sigma^{-1}(mathbf{y} - mu)right] dmathbf y end{aligned}quad10) 1=∫⋯∫f(x)dx=∫⋯∫f(A−1(y−μ))∣A−1∣dy=∫⋯∫2πn∣A∣1exp[−21(y−μ)T(A−1)TA−1(y−μ)]dy=∫⋯∫2πn∣Σ∣211exp[−21(y−μ)TΣ−1(y−μ)]dy10)
因此,向量 y mathbf y y 的联合概率概率密度函数是:
f ( y ) = 1 ( 2 π ) n 2 ∣ Σ ∣ 1 2 exp [ − 1 2 ( y − μ ) T Σ − 1 ( y − μ ) ] d y ( 11 ) f(mathbf y)=frac{1}{(2pi)^{frac{n}{2}} |Sigma|^{frac{1}{2}}}expleft[ -frac{1}{2}(mathbf{y} - mu) ^T Sigma^{-1}(mathbf{y} - mu)right] dmathbf y quadquad(11) f(y)=(2π)2n∣Σ∣211exp[−21(y−μ)TΣ−1(y−μ)]dy(11)
也就是式(1)
转载自:
博主:清雅的机器学习笔记
博文地址:https://zhuanlan.zhihu.com/p/39763207
来源:知乎
最后
以上就是文静电源为你收集整理的搞懂多维高斯分布的由来的全部内容,希望文章能够帮你解决搞懂多维高斯分布的由来所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复