我是靠谱客的博主 激动自行车,最近开发中收集的这篇文章主要介绍机器学习之高斯分布例题,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

考虑三维正态分布 p ( x ∣ ω ) ∼ N ( μ ∣ Σ ) p({bf x}midomega)sim N({bf mu}midSigma) p(xω)N(μΣ),其中 μ = ( 1 2 2 ) {bf mu}=left( begin{matrix}1\2\2end{matrix} right) μ=122 Σ = ( 1 0 0 0 5 2 0 2 5 ) Sigma=left( begin{matrix} 1 & 0 & 0 \ 0 & 5 & 2 \ 0 & 2 &5 end{matrix} right) Σ=100052025

(a) 求点 x 0 = ( 0.5 , 0 , 1 ) T x_0=(0.5,0,1)^T x0=(0.5,0,1)T处的概率密度;

解:根据正态分布密度公式:

N ( μ ∣ Σ ) = 1 ( 2 π ) D / 2 1 ∣ Σ ∣ 1 / 2 e x p { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } N({bf mu}midSigma)= frac {1}{(2pi)^{D/2}}frac {1}{|Sigma|^{1/2}}expleft { frac{-1}{2}(x-mu)^TSigma^{-1}(x-mu) right } N(μΣ)=(2π)D/21Σ1/21exp{21(xμ)TΣ1(xμ)}

其中,由题目条件可知 x 0 − μ = ( − 0.5 − 2 − 1 ) , ∣ Σ ∣ − 1 = ( 1 0 0 0 5 21 − 2 21 0 − 2 21 5 21 ) , ∣ Σ ∣ = 21 x_0-mu=left( begin{matrix}-0.5\-2\-1end{matrix} right),|Sigma|^{-1}=left( begin{matrix} 1&0&0 \ 0&frac{5}{21}&-frac{2}{21} \ 0&-frac{2}{21}&frac{5}{21} end{matrix} right),|Sigma|=21 x0μ=0.521,Σ1=10002152120212215,Σ=21

因此,
p ( x 0 ∣ μ ) = 1 ( 2 π ) 3 / 2 1 ∣ Σ ∣ 1 / 2 e x p { − 1 2 ( x 0 − μ ) T Σ − 1 ( x 0 − μ ) } = 1 168 π 3 e x p { − 89 168 } begin{aligned} p(x_0midmu)&=frac {1}{(2pi)^{3/2}}frac {1}{|Sigma|^{1/2}}expleft { frac{-1}{2}(x_0-mu)^TSigma^{-1}(x_0-mu) right } \ &=frac{1}{sqrt{168pi^3}}exp left { -frac{89}{168} right } end{aligned} p(x0μ)=(2π)3/21Σ1/21exp{21(x0μ)TΣ1(x0μ)}=168π3 1exp{16889}

(b) 构造白化变换矩阵 A ω ( A ω = Φ Λ − 1 / 2 ) A_omega(A_omega=PhiLambda^{-1/2}) Aω(Aω=ΦΛ1/2),计算分别表示本征向量和本征值的矩阵 Φ 和 Λ Phi和Lambda ΦΛ;然后,将此分布转换为以原点为中心,协方差矩阵为单位阵的分布,即 p ( x ∣ ω ) ∼ N ( 0 ∣ I ) p({bf x}midomega)sim N({bf 0}mid I) p(xω)N(0I)

解:设 Σ Sigma Σ的特征值为 λ i lambda_i λi,对应的特征向量为 ξ i xi_i ξi,由矩阵的性质得:

Σ ξ i = λ i ξ i , Sigmaxi_i=lambda_ixi_i, Σξi=λiξi解得 λ = [ λ 1 , λ 2 , λ 3 ] T = [ 1 , 3 , 7 ] T , ξ 1 = [ 1 , 0 , 0 ] T , ξ 2 = [ 0 , 2 2 , − 2 2 ] T , ξ 3 = [ 0 , 2 2 , 2 2 ] T lambda=[lambda_1,lambda_2,lambda_3]^T=[1,3,7]^T,xi_1=[1,0,0]^T,xi_2=[0,frac{sqrt{2}}{2},-frac{sqrt{2}}{2}]^T,xi_3=[0,frac{sqrt{2}}{2},frac{sqrt{2}}{2}]^T λ=[λ1,λ2,λ3]T=[1,3,7]Tξ1=[1,0,0]T,ξ2=[0,22 ,22 ]T,ξ3=[0,22 ,22 ]T

因此对应的本征值矩阵和本征向量为:

Λ = d i a g [ λ 1 , λ 2 , λ 3 ] = ( 1 0 0 0 3 0 0 0 7 ) ; Lambda=diag[lambda_1,lambda_2,lambda_3]=left( begin{matrix} 1 & 0 & 0 \ 0 & 3 & 0 \ 0 & 0 & 7 end{matrix} right); Λ=diag[λ1,λ2,λ3]=100030007

Φ = [ ξ 1 , ξ 2 , ξ 3 ] = ( 1 0 0 0 − 2 2 2 2 0 2 2 2 2 ) Phi=[xi_1,xi_2,xi_3]=left( begin{matrix} 1 & 0 & 0 \ 0 & -frac{sqrt{2}}{2} & frac{sqrt{2}}{2} \ 0 & frac{sqrt{2}}{2} & frac{sqrt{2}}{2} end{matrix} right) Φ=[ξ1,ξ2,ξ3]=100022 22 022 22

A ω ( A ω = Φ Λ − 1 / 2 ) = ( 1 0 0 0 − 6 6 14 14 0 6 6 14 14 ) A_omega(A_omega=PhiLambda^{-1/2})=left( begin{matrix} 1 & 0 & 0 \ 0 & -frac{sqrt{6}}{6} & frac{sqrt{14}}{14} \ 0 & frac{sqrt{6}}{6} & frac{sqrt{14}}{14} end{matrix} right) Aω(Aω=ΦΛ1/2)=100066 66 01414 1414

下面推导变换过程:

y = A T x y=A^Tx y=ATx,则 x = ( A T ) − 1 y x=(A^T)^{-1}y x=(AT)1y

( x − μ ) T Σ − 1 ( x − μ ) = ( ( A T ) − 1 y − ( A T ) − 1 μ y ) T Σ − 1 ( ( A T ) − 1 y − ( A T ) − 1 μ y ) = ( y − μ y ) T ( A − 1 ) T Σ − 1 A − 1 ( y − μ y ) = ( y − μ y ) T ( A T Σ A ) − 1 ( y − μ y ) begin{aligned} & (x-mu)^TSigma^{-1}(x-mu) \ = & ((A^T)^{-1}y-(A^T)^{-1}mu_y)^TSigma^{-1}((A^T)^{-1}y-(A^T)^{-1}mu_y) \ = & (y-mu_y)^T (A^{-1})^T Sigma^{-1} A^{-1} (y-mu_y)\ =& (y-mu_y)^T (A^T Sigma A)^{-1} (y-mu_y) end{aligned} ===(xμ)TΣ1(xμ)((AT)1y(AT)1μy)TΣ1((AT)1y(AT)1μy)(yμy)T(A1)TΣ1A1(yμy)(yμy)T(ATΣA)1(yμy)

其中 μ y = ( A T ) − 1 μ mu_y=(A^T)^{-1}mu μy=(AT)1μ

由上式可知 p ( y ∣ ω ) ∼ N ( A T μ ∣ A T Σ A ) p({bf y}midomega)sim N({bf A^Tmu}mid A^TSigma A) p(yω)N(ATμATΣA)

A T Σ A = ( Φ Λ − 1 / 2 ) T Σ Φ Λ − 1 / 2 = Λ − 1 / 2 Φ T Σ Φ Λ = Λ − 1 / 2 Λ Λ − 1 / 2 = I A^TSigma A=(PhiLambda^{-1/2})^T Sigma PhiLambda^{-1/2}=Lambda^{-1/2} Phi^T SigmaPhiLambda =Lambda^{-1/2}LambdaLambda^{-1/2}=I ATΣA=(ΦΛ1/2)TΣΦΛ1/2=Λ1/2ΦTΣΦΛ=Λ1/2ΛΛ1/2=I

若要变换后的高斯分布 p ( y ∣ ω ) ∼ N ( 0 ∣ I ) p({bf y}midomega)sim N({bf 0}mid I) p(yω)N(0I),则只需要将y平移 μ mu μ个单位,因此此变换为:

y = ( A ω ) T ( x − μ ) y=(A_omega)^T(x-mu) y=(Aω)T(xμ)

( c ) 将整个同样的变换过程应用于点 x 0 x_0 x0以产生一变换点 x w ; x_w; xw

x w = ( A w ) T ( x 0 − μ ) = [ 1 2 , − 6 6 , 3 14 14 ] T x_w=(A_w)^T(x_0-mu)=left[ frac{1}{2},-frac{sqrt{6}}{6} ,frac{3sqrt{14}}{14}right]^T xw=(Aw)T(x0μ)=[21,66 ,14314 ]T

( d ) 通过详细计算说明,证明原分布中从 x 0 x_0 x0到均值 μ mu μ的mahalanobis距离与变换后的分布中从 x ω x_omega xω到 0 的mahalanobis距离相等;

因为马氏距离的平方为:$nabla2=(x-mu)T Sigma^{-1}(x-mu) $

所以分别计算变换前和变换后马氏距离的平方可得:

x 0 → μ , ∇ 2 = ( x 0 − μ ) T Σ − 1 ( x 0 − μ ) = 89 84 x w → 0 , ∇ 2 = x w T x w = 89 84 begin{aligned} &x_0 rightarrow mu , nabla^2=(x_0-mu)^T Sigma^{-1}(x_0-mu)=frac{89}{84} \ & x_w rightarrow 0,nabla^2=x_w^Tx_w=frac{89}{84} end{aligned} x0μ2=(x0μ)TΣ1(x0μ)=8489xw02=xwTxw=8489

由计算可知,两者的马氏距离相等。

( e ) 概率密度在某个线性变换下是否保持不变?换句话说,对于某线性变换T,是否有 p ( x 0 ∣ N ( μ , Σ ) ) = p ( T t x 0 ∣ N ( T t μ , T t Σ T ) ) p({bf x_0}mid N(mu , Sigma)) = p(T^tx_0 mid N(T^tmu,T^t Sigma T)) p(x0N(μ,Σ))=p(Ttx0N(Ttμ,TtΣT))?解释原因

通常会变化。以高斯分布为例,分析 p ( x ) p(x) p(x)的表达式,尽管 e e e的指数项上的值在变换前后不变,但 ∣ S ∣ | S | S的值变化了,这将使得 p ( x ) p(x) p(x)的值变化。方差(或协方差矩阵)用于衡量总体与均值的偏离程度。在变换中总体的分布范围会改变,自然会造成方差(或协方差矩阵)的变化。

( f ) 证明:当把一个一般的白化变换 A ω ( A ω = Φ Λ − 1 / 2 ) A_omega(A_omega=PhiLambda^{-1/2}) Aω(Aω=ΦΛ1/2)应用于一个高斯分布时可保证最终分布的协方差与单位阵 I I I成比例,检查变换后的矩阵是否仍具有归一化特性;

证明:令原始高斯分布的协方差矩阵为 Σ Sigma Σ ,变换后高斯分布的协方差矩阵为 Σ ω Sigma_omega Σω ,由协方差矩阵的定义

Σ = E [ ( x − μ ) ( x − μ ) T ] Sigma=E[(x-mu)(x-mu)^T] Σ=E[(xμ)(xμ)T]

Σ ω = E [ ( A ω T x − A ω T μ ) ( A ω T x − A ω T μ ) T ] = E [ ( A ω T x − A ω T μ ) ( x T A ω − μ T A ω ) ] = E [ A ω T ( x − μ ) ( x − μ ) T A ω ) ] = A ω T E [ ( x − μ ) ( x − μ ) T ] A ω ) = A ω T Σ A ω begin{aligned}Sigma_omega &=E[(A_omega^Tx-A_omega^Tmu)(A_omega^Tx-A_omega^Tmu)^T] \ &=E[(A_omega^Tx-A_omega^Tmu)(x^TA_omega-mu^TA_omega)] \&= E[A_omega^T(x-mu)(x-mu)^TA_omega)] \ &=A_omega^TE[(x-mu)(x-mu)^T]A_omega) \ &=A_omega^TSigma A_omega end{aligned} Σω=E[(AωTxAωTμ)(AωTxAωTμ)T]=E[(AωTxAωTμ)(xTAωμTAω)]=E[AωT(xμ)(xμ)TAω)]=AωTE[(xμ)(xμ)T]Aω)=AωTΣAω

前面的解题中为了方便将 Φ Phi Φ取为正交的,在一般情况下表示本征向量的矩阵不一定正交,不妨设为 Φ = k Ω Phi=kOmega Φ=kΩ,其中 Ω Omega Ω为正交阵, k k k为常数。由于 Σ Sigma Σ为对称阵,故有分解 Σ = Ω Λ Ω T Sigma=OmegaLambdaOmega^T Σ=ΩΛΩT,将之代入 Σ ω Sigma_omega Σω中有

Σ ω = A ω T Ω Λ Ω T A ω = ( k Ω Λ − 1 2 ) T Ω Λ Ω T ( k Ω Λ − 1 2 ) = k 2 ( Λ − 1 2 ) T Ω T Ω Λ Ω T Ω Λ − 1 2 Sigma_omega=A_omega^TOmegaLambdaOmega^TA_omega=(kOmegaLambda^{-frac{1}{2}})^TOmegaLambdaOmega^T(kOmegaLambda^{-frac{1}{2}})=k^2(Lambda^{-frac{1}{2}})^TOmega^TOmegaLambdaOmega^TOmegaLambda^{-frac{1}{2}} Σω=AωTΩΛΩTAω=(kΩΛ21)TΩΛΩT(kΩΛ21)=k2(Λ21)TΩTΩΛΩTΩΛ21

由于 Λ Lambda Λ为对角阵, ( Λ − 1 2 ) T = Λ − 1 2 (Lambda^{-frac{1}{2}})^T=Lambda^{-frac{1}{2}} (Λ21)T=Λ21,而 Ω T = Ω − 1 Omega^T=Omega^{-1} ΩT=Ω1,因此

Σ ω = k 2 ( Λ − 1 2 ) T Ω T Ω Λ Ω T Ω Λ − 1 2 = k 2 Λ − 1 2 Λ Λ − 1 2 = k 2 I Sigma_omega=k^2(Lambda^{-frac{1}{2}})^TOmega^TOmegaLambdaOmega^TOmegaLambda^{-frac{1}{2}}=k^2Lambda^{-frac{1}{2}}LambdaLambda^{-frac{1}{2}}=k^2I Σω=k2(Λ21)TΩTΩΛΩTΩΛ21=k2Λ21ΛΛ21=k2I

最后

以上就是激动自行车为你收集整理的机器学习之高斯分布例题的全部内容,希望文章能够帮你解决机器学习之高斯分布例题所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(40)

评论列表共有 0 条评论

立即
投稿
返回
顶部