我是靠谱客的博主 文静电源,最近开发中收集的这篇文章主要介绍搞懂多维高斯分布的由来,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

PRML的2.3节一开始就给出了多维高斯分布的形式:

N ( x ∣ μ , Σ ) = 1 ( 2 π ) d 2 ∣ Σ ∣ 1 2 exp ⁡ { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } ( 1 ) begin{aligned}Bbb{N}(mathbf x|mathbf{mu},mathbfSigma) &=frac{1}{(2pi)^{frac{d}{2}}left|Sigmaright|^frac{1}{2}}exp{{-frac{1}{2}(mathbf x-mu)^TSigma^{-1}(mathbf x-mu)}}end{aligned}quadquadquad(1) N(xμ,Σ)=(2π)2dΣ211exp{21(xμ)TΣ1(xμ)}(1)

其中, μ mu μ 是D维 mean vector, Σ Sigma Σ D × D D times D D×D 协方差矩阵,里面的第 i 行第 j 列元素表示第 i 个变量第 j 个变量的协方差, ∣ Σ ∣ |Sigma| Σ 代表协方差矩阵的行列式。

书上没有说式(1)到底是怎么来的,而本文主要就是讲式(1)的由来。

首先考虑一维标准正态分布,概率密度函数为:

f ( x ) = 1 2 π exp ⁡ ( − x 2 2 ) ( 2 ) f(x)=frac{1}{sqrt{2pi}}exp(-frac{x^2}{2})quadquadquad(2) f(x)=2π 1exp(2x2)(2)

然后考虑 n 维独立标准高斯分布,就是 n 个独立的一维标准正态分布随机变量的联合分布:

p ( x 1 , … , x n ) = p ( x 1 ) … p ( x n ) = ( 2 π ) − n 2 exp ⁡ ( − x 1 2 + ⋯ + x n 2 2 ) ( 3 ) p(x_1,dots,x_n) = p(x_1)dots p(x_n) = (2pi)^{-frac{n}{2}}expleft( -frac{{x_1}^2+ dots +{x_n}^2}{2}right)quadquadquad(3) p(x1,,xn)=p(x1)p(xn)=(2π)2nexp(2x12++xn2)(3)

为了表达方便,用向量的形式来表示,设 x = ( x 1   …   x n ) T mathbf{x} = (x_1,dots,x_n)^T x=(x1xn)T ,式(3)写作:

f ( x ) = ( 2 π ) − n 2 exp ⁡ ( − 1 2 x T x ) ( 4 ) f(mathbf{x}) = (2pi)^{-frac{n}{2}}expleft( -frac{1}{2}mathbf{x}^Tmathbf{x}right)quadquadquad(4) f(x)=(2π)2nexp(21xTx)(4)

一般的,设 y mathbf{y} y x mathbf x x 的线性变换得到:

y = A x + μ ( 5 ) mathbf{y} = Amathbf{x} + muquadquadquad(5) y=Ax+μ(5)

其中A是 n × n n times n n×n 的非奇异矩阵, μ mu μ 是n维向量

可把 x mathbf{x} x y mathbf{y} y 表示:

x = A − 1 ( y − μ ) ( 6 ) mathbf{x} = A^{-1}(mathbf{y} - mu)quadquadquad(6) x=A1(yμ)(6)

注意到,式(6)线性变换的雅可比行列式是 ∣ A − 1 ∣ |mathbf A^{-1}| A1 (关于雅可比行列式参见我的另一篇文章)

因此: d x = ∣ A − 1 ∣ d y ( 7 ) rm d mathbf x = |A^{-1}| d mathbf yquadquadquad(7) dx=A1dy(7)

Σ − 1 = ( A − 1 ) T A − 1 Sigma^{-1}=(A^{-1})^T A^{-1} Σ1=(A1)TA1 ,则 ∣ A ∣ = ∣ Σ ∣ 1 2 displaystyle |A|=|Sigma|^{frac{1}{2}} A=Σ21 ,由联合概率分布密度的定义,有:

1 = ∫ ​ ⋯ ∫ f ( x ) d x = ∫ ​ ⋯ ∫ f ( A − 1 ( y − μ ) ) ∣ A − 1 ∣ d y = ∫ ​ ⋯ ∫ 1 2 π n ∣ A ∣ exp ⁡ [ − 1 2 ( y − μ ) T ( A − 1 ) T A − 1 ( y − μ ) ] d y = ∫ ​ ⋯ ∫ 1 2 π n ∣ Σ ∣ 1 2 exp ⁡ [ − 1 2 ( y − μ ) T Σ − 1 ( y − μ ) ] d y 10 ) begin{aligned} 1= intdotsint f(mathbf{x}) d mathbf x &= intdotsint f(A^{-1}(mathbf{y} - mu)) |mathbf A^{-1}| d mathbf y \ &= intdotsintfrac{1}{sqrt{2 pi}^n |A|}expleft[ -frac{1}{2}(mathbf{y} - mu) ^T (A^{-1})^T A^{-1}(mathbf{y} - mu)right] d mathbf y \ &= intdotsintfrac{1}{sqrt{2 pi}^n |Sigma|^{frac{1}{2}}}expleft[ -frac{1}{2}(mathbf{y} - mu) ^T Sigma^{-1}(mathbf{y} - mu)right] dmathbf y end{aligned}quad10) 1=f(x)dx=f(A1(yμ))A1dy=2π nA1exp[21(yμ)T(A1)TA1(yμ)]dy=2π nΣ211exp[21(yμ)TΣ1(yμ)]dy10)

因此,向量 y mathbf y y 的联合概率概率密度函数是:

f ( y ) = 1 ( 2 π ) n 2 ∣ Σ ∣ 1 2 exp ⁡ [ − 1 2 ( y − μ ) T Σ − 1 ( y − μ ) ] d y ( 11 ) f(mathbf y)=frac{1}{(2pi)^{frac{n}{2}} |Sigma|^{frac{1}{2}}}expleft[ -frac{1}{2}(mathbf{y} - mu) ^T Sigma^{-1}(mathbf{y} - mu)right] dmathbf y quadquad(11) f(y)=(2π)2nΣ211exp[21(yμ)TΣ1(yμ)]dy(11)

也就是式(1)

转载自:
博主:清雅的机器学习笔记
博文地址:https://zhuanlan.zhihu.com/p/39763207
来源:知乎

最后

以上就是文静电源为你收集整理的搞懂多维高斯分布的由来的全部内容,希望文章能够帮你解决搞懂多维高斯分布的由来所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(64)

评论列表共有 0 条评论

立即
投稿
返回
顶部