概述
多元高斯分布及其线性性质
文章目录
- 多元高斯分布及其线性性质
- 1. 高斯过程定义
- 2. 从高斯分布到多元高斯分布
- 2.1 定义
- 2.2 多元高斯概率密度函数
- 2.3 多元高斯特征函数
- 2.4 多元高斯的线性性质
- 3. 高斯边缘分布与联合分布
- 3.1 从联合分布到边缘分布
- 3.2 从边缘分布到联合分布
- 3.3 联合高斯分布判据
- 4. 高斯分布的相关性与独立性
- 4.1 独立性和相关性
- 4.2 高斯分布的不相关和独立
- 4.3 联合高斯分布的不相关和独立
- 4.4 两个例子
- 4.4.1 利用独立性求条件概率
- 4.4.2 解释方差和样本方差的关系
- (1) 问题描述
- (2) 独立性
- (3) 无偏估计
- 5. 高斯条件分布
- 5.1 条件高斯分布的计算
- 5.2 条件期望与最优估计
- 5.2.1 高斯条件分布得到的条件期望的意义
- 5.2.2 随机变量的最优线性估计
- 5.2.3 随机变量的最优估计
- 5.2.4 条件高斯分布的条件方差
1. 高斯过程定义
上一部分,我们通过分子扩散、最大熵优化、中心极限定理三个问题,对高斯分布及高斯过程的应用性有了一定的了解。
那么,到底什么是高斯过程呢?
Gaussian Processes text{Gaussian Processes} Gaussian Processes
如果一个随机过程是高斯过程,那么我们在这个随机过程中任意取n个点,得到一个随机矢量,那么这个随机矢量,一定是服从多元高斯分布的
Z ( t ) is Gaussian ∀ n ∀ t t 1 ≤ t 2 . . . ≤ t n Z = { Z 1 ( t ) , . . . , Z n ( t ) } T Z ∼ N ( μ , Σ ) Z ∈ R n Z(t) text{ is Gaussian} \ forall n quad forall t quad t_1 leq t_2 ... leq t_n \ Z = {Z_1(t),...,Z_n(t) }^T \ Z sim N(mu,Sigma) quad Z in R^n Z(t) is Gaussian∀n∀tt1≤t2...≤tnZ={Z1(t),...,Zn(t)}TZ∼N(μ,Σ)Z∈Rn
2. 从高斯分布到多元高斯分布
2.1 定义
因为高斯过程的采样行为就得到了多元高斯分布。我们对高斯过程的了解首先就会从多元高斯分布开始。
如果n=1,得到的是一个一维的高斯分布
n = 1 f Z ( x ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) E ( Z ) = μ V a r ( Z ) = σ 2 n=1 quad f_Z(x) = frac{1}{sqrt{2 pi}sigma} exp(-frac{(x-mu)^2}{2 sigma^2}) \ E(Z) = mu quad Var(Z) = sigma^2 n=1fZ(x)=2πσ1exp(−2σ2(x−μ)2)E(Z)=μVar(Z)=σ2
如果n=2得到的是一个二维的高斯分布
n = 2 f Z 1 Z 2 ( x 1 , x 2 ) = 1 2 π σ 1 σ 2 1 − ρ 2 e x p ( − 1 2 ( 1 − ρ 2 ) ( ( x 1 − μ 1 σ 1 ) 2 + ( x 2 − μ 2 σ 1 ) 2 − 2 ρ x 1 − μ 1 ρ 1 x 2 − μ 2 ρ 2 ) ) E ( Z 1 ) = μ 1 E ( Z 2 ) = μ 2 V a r ( Z 1 ) = σ 1 2 V a r ( Z 2 ) = σ 2 2 n = 2 quad f_{Z_1Z_2}(x_1,x_2) = frac{1}{2 pisigma_1 sigma_2 sqrt{1 - rho^2}} exp(-frac{1}{2(1-rho^2)}((frac{x_1 - mu_1}{sigma_1})^2+(frac{x_2-mu_2}{sigma_1})^2-2rho frac{x_1-mu_1}{rho_1}frac{x_2-mu_2}{rho_2})) \ E(Z_1) = mu_1 quad E(Z_2) = mu_2 quad Var(Z_1) = sigma_1^2 quad Var(Z_2) = sigma_2^2 n=2fZ1Z2(x1,x2)=2πσ1σ21−ρ21exp(−2(1−ρ2)1((σ1x1−μ1)2+(σ1x2−μ2)2−2ρρ1x1−μ1ρ2x2−μ2))E(Z1)=μ1E(Z2)=μ2Var(Z1)=σ12Var(Z2)=σ22
其中ρ是两个随机变量的协方差
ρ = E ( Z 1 − μ 1 ) E ( Z 2 − μ 2 ) rho = E(Z_1 - mu_1)E(Z_2 - mu_2) ρ=E(Z1−μ1)E(Z2−μ2)
然后我们就可以给出n元高斯分布的定义了
n f Z ( x ) = 1 ( 2 π ) n 2 ( det Σ ) 1 2 e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) μ ∈ R n E ( Z ) = μ Σ ∈ R n ∗ n E ( ( Z − μ ) T ( Z − μ ) ) = Σ n quad f_Z(x) = frac{1}{(2pi)^{frac{n}{2}} (det Sigma)^{frac{1}{2}}} exp(-frac{1}{2}(x - mu)^T Sigma^{-1} (x-mu)) \ mu in R^n quad E(Z) = mu \ Sigma in R^{n*n} quad E((Z-mu)^T(Z - mu)) = Sigma nfZ(x)=(2π)2n(detΣ)211exp(−21(x−μ)TΣ−1(x−μ))μ∈RnE(Z)=μΣ∈Rn∗nE((Z−μ)T(Z−μ))=Σ
这里面Z表示n个随机变量组成的随机矢量,这个随机矢量是均值向量是μ,随机矢量的协方差矩阵是∑。并且注意,在指数中的协方差矩阵是个逆。det是取行列式
2.2 多元高斯概率密度函数
有了多元高斯分布的概率密度函数之后,我们可以先做一番检查,看看是否符合一般概率密度函数的性质
f
Z
(
x
)
=
1
(
2
π
)
n
2
(
det
Σ
)
1
2
e
x
p
(
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
)
μ
∈
R
n
E
(
Z
)
=
μ
Σ
∈
R
n
∗
n
E
(
(
Z
−
μ
)
T
(
Z
−
μ
)
)
=
Σ
quad f_Z(x) = frac{1}{(2pi)^{frac{n}{2}} (det Sigma)^{frac{1}{2}}} exp(-frac{1}{2}(x - mu)^T Sigma^{-1} (x-mu)) \ mu in R^n quad E(Z) = mu \ Sigma in R^{n*n} quad E((Z-mu)^T(Z - mu)) = Sigma
fZ(x)=(2π)2n(detΣ)211exp(−21(x−μ)TΣ−1(x−μ))μ∈RnE(Z)=μΣ∈Rn∗nE((Z−μ)T(Z−μ))=Σ
首先检查多元高斯的概率密度函数是否是大于0的。
由于指数函数大于0,只需要考虑行列式即可。而相关矩阵(协方差矩阵)必定是非负定的,因此其行列式必定也大于等于0
f Z ( x ) ≥ 0 f_Z(x) geq 0 fZ(x)≥0
然后检查概率密度函数积分是否为1
∫ R n f Z ( x ) d x = 1 int_{R^n} f_Z(x) dx = 1 ∫RnfZ(x)dx=1
我们来计算一下这个积分
∫ R n 1 ( 2 π ) n 2 ( det Σ ) 1 2 e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) d x int_{R^n} frac{1}{(2pi)^{frac{n}{2}} (det Sigma)^{frac{1}{2}}} exp(-frac{1}{2}(x - mu)^T Sigma^{-1} (x-mu)) dx ∫Rn(2π)2n(detΣ)211exp(−21(x−μ)TΣ−1(x−μ))dx
这里面比较难搞的就是相关矩阵的逆,如果能够把相关矩阵对角化,就能够变成累加和的形成分别积分。
由于相关矩阵是对称的,因此必然可以做特征分解
Σ = Σ T Σ = U T Λ U Σ − 1 = U T Λ − 1 U Sigma = Sigma^T \ Sigma = U^T Lambda U \ Sigma^{-1} = U^T Lambda^{-1} U Σ=ΣTΣ=UTΛUΣ−1=UTΛ−1U
其中
U ∗ U T = U T U = I Λ = d i a g ( λ 1 , . . . , λ n ) Λ ≥ 0 ⇒ λ k ≥ 0 U*U^T = U^T U = I \ Lambda = diag(lambda_1,...,lambda_n) \ Lambda geq 0 Rightarrow lambda_k geq 0 U∗UT=UTU=IΛ=diag(λ1,...,λn)Λ≥0⇒λk≥0
然后拆分成两部分,方便分给左右的矢量
Σ − 1 = ( U T Λ − 1 2 U ) ( U T Λ − 1 2 U ) = L T L Sigma^{-1} =( U^T Lambda^{-frac{1}{2}} U) (U^T Lambda^{-frac{1}{2}} U) = L^T L Σ−1=(UTΛ−21U)(UTΛ−21U)=LTL
因此
( x − μ ) T Σ − 1 ( x − μ ) = ( ( x − μ ) T L T ) ( L ( x − μ ) ) (x - mu)^T Sigma^{-1} (x-mu) = ((x - mu)^T L^T) (L (x-mu)) (x−μ)TΣ−1(x−μ)=((x−μ)TLT)(L(x−μ))
然后做积分换元
y = L ( x − μ ) y = L (x-mu) y=L(x−μ)
d x = ∣ d e t ( d x d y ) ∣ d y d x d y = ( d y d x ) − 1 = ∣ d e t L − 1 ∣ = ∣ d e t L ∣ − 1 dx = |det(frac{dx}{dy})| dy frac{dx}{dy} = (frac{dy}{dx})^{-1} = |det L^{-1}| = |det L|^{-1} dx=∣det(dydx)∣dydydx=(dxdy)−1=∣detL−1∣=∣detL∣−1
∫ R n 1 ( 2 π ) n 2 ( det Σ ) 1 2 e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) d x = ∫ R n 1 ( 2 π ) n 2 ( det Σ ) 1 2 e x p ( − 1 2 y T y ) ∣ d e t L ∣ − 1 d y int_{R^n} frac{1}{(2pi)^{frac{n}{2}} (det Sigma)^{frac{1}{2}}} exp(-frac{1}{2}(x - mu)^T Sigma^{-1} (x-mu)) dx \ = int_{R^n} frac{1}{(2pi)^{frac{n}{2}} (det Sigma)^{frac{1}{2}}} exp(-frac{1}{2}y^Ty) |det L|^{-1}dy ∫Rn(2π)2n(detΣ)211exp(−21(x−μ)TΣ−1(x−μ))dx=∫Rn(2π)2n(detΣ)211exp(−21yTy)∣detL∣−1dy
然后
Σ − 1 = L T L ∣ d e t Σ − 1 ∣ = ∣ d e t L ∣ 2 ∣ d e t Σ ∣ − 1 = ∣ d e t L ∣ 2 ⇒ ∣ d e t L ∣ = ∣ d e t Σ ∣ − 1 2 Sigma^{-1} = L^T L \ |det Sigma^{-1}| = |detL|^2 \ |det Sigma|^{-1} = |det L|^2 \ Rightarrow |det L| = |det Sigma|^{-frac{1}{2}} Σ−1=LTL∣detΣ−1∣=∣detL∣2∣detΣ∣−1=∣detL∣2⇒∣detL∣=∣detΣ∣−21
代入原式
∫ R n f Z ( x ) d x = ∫ R n 1 ( 2 π ) n 2 ( det Σ ) 1 2 e x p ( − 1 2 y T y ) ∣ d e t L ∣ − 1 d y = ∫ R n 1 ( 2 π ) n 2 ( det Σ ) 1 2 e x p ( − 1 2 y T y ) ∣ d e t Σ ∣ 1 2 d y = ∫ R n 1 ( 2 π ) n 2 e x p ( − 1 2 y T y ) d y = 1 ( 2 π ) n 2 ∫ − ∞ + ∞ . . . ∫ − ∞ + ∞ e x p ( − 1 2 ( y 1 2 + . . . + y n 2 ) ) d y 1 . . . d y n = ∏ k = 1 n ( 1 2 π ∫ − ∞ + ∞ e x p ( − y k 2 2 ) d y k ) = 1 int_{R^n} f_Z(x) dx= int_{R^n} frac{1}{(2pi)^{frac{n}{2}} (det Sigma)^{frac{1}{2}}} exp(-frac{1}{2}y^Ty) |det L|^{-1}dy \ = int_{R^n} frac{1}{(2pi)^{frac{n}{2}} (det Sigma)^{frac{1}{2}}} exp(-frac{1}{2}y^Ty) |det Sigma|^{frac{1}{2}}dy \ = int_{R^n} frac{1}{(2pi)^{frac{n}{2}}} exp(-frac{1}{2}y^Ty) dy \ = frac{1}{(2pi)^{frac{n}{2}}}int_{-infty}^{+infty}...int_{-infty}^{+infty} exp(-frac{1}{2}(y_1^2 +...+y_n^2))dy_1...dy_n\ =prod_{k=1}^n (frac{1}{sqrt{2 pi}} int_{-infty}^{+infty} exp(-frac{y_k^2}{2}) dy_k) = 1 ∫RnfZ(x)dx=∫Rn(2π)2n(detΣ)211exp(−21yTy)∣detL∣−1dy=∫Rn(2π)2n(detΣ)211exp(−21yTy)∣detΣ∣21dy=∫Rn(2π)2n1exp(−21yTy)dy=(2π)2n1∫−∞+∞...∫−∞+∞exp(−21(y12+...+yn2))dy1...dyn=k=1∏n(2π1∫−∞+∞exp(−2yk2)dyk)=1
2.3 多元高斯特征函数
然后再来研究一下多元高斯的特征函数,假设Z满足n维高斯分布
Z ∈ R n Z ∼ N ( μ , Σ ) Z in R^n quad Z sim N(mu, Sigma) Z∈RnZ∼N(μ,Σ)
n元高斯特征函数就是做多维傅里叶变换(不完全一样,复指函数符号不同)
ϕ Z ( ω ) = E ( e x p ( j ω T Z ) ) = ∫ R n f Z ( x 1 , . . . , x n ) e x p ( j ( ω 1 x 1 + . . . + ω n x n ) ) d x 1 . . . d x n phi_Z(omega) = E(exp(j omega^T Z)) = int_{R^n} f_Z(x_1,...,x_n) exp(j(omega_1 x_1 +...+ omega_n x_n)) dx_1 ... dx_n ϕZ(ω)=E(exp(jωTZ))=∫RnfZ(x1,...,xn)exp(j(ω1x1+...+ωnxn))dx1...dxn
一元的表示为
Z ∼ N ( μ , σ 2 ) ϕ Z ( ω ) = e x p ( j ω μ − 1 2 σ 2 ω 2 ) Z sim N(mu, sigma^2) \ phi_Z(omega) = exp(jomega mu - frac{1}{2} sigma^2 omega^2) Z∼N(μ,σ2)ϕZ(ω)=exp(jωμ−21σ2ω2)
多元即把标量变成向量即可
Z ∈ R n Z ∼ N ( μ , Σ ) ϕ Z ( ω ) = e x p ( j ω T μ − 1 2 ω T Σ ω ) Z in R^n quad Z sim N(mu, Sigma) \ phi_Z(omega) = exp(jomega^T mu - frac{1}{2} omega^T Sigma omega) Z∈RnZ∼N(μ,Σ)ϕZ(ω)=exp(jωTμ−21ωTΣω)
需要与概率密度函数比较一下
- 概率密度函数指数中的协方差是个逆
- 特征函数指数中的协方差不是逆,因此更加的好求
2.4 多元高斯的线性性质
多元高斯的线性性质:总的来说就是,如果一个随机矢量满足多元高斯分布,对这个随机矢量做任意线性变换,得到的随机矢量仍然满足多元高斯分布
Linearity Z ∈ R m Z ∼ N ( μ Z , Σ Z ) A ∈ R n ∗ m Y = A Z Y ∈ R n text{Linearity} \ Z in R^m quad Z sim N( mu_Z,Sigma_Z) \ A in R^{n*m} quad Y = AZ quad Y in R^n LinearityZ∈RmZ∼N(μZ,ΣZ)A∈Rn∗mY=AZY∈Rn
我们可以计算一下经过线性变换A之后,得到的Y是什么分布,我们从特征函数的角度来进行计算
ϕ Y ( ω ) = E ( e x p ( j ω T Y ) ) = E ( e x p ( j ω T A Z ) ) = E ( e x p ( j ( A T ω ) T Z ) ) = ϕ Z ( ω ′ ) ∣ ω ′ = A T ω = e x p ( j ω ′ T μ − 1 2 ω ′ T Σ ω ′ ) ∣ ω ′ = A T ω = e x p ( j ω T A μ − 1 2 ω T A Σ A T ω ) phi_Y(omega) = E(exp(j omega^T Y)) = E(exp(jomega^T AZ)) \ =E(exp(j(A^Tomega)^TZ)) =phi_Z(omega')|_{omega' = A^T omega} \ = exp(jomega'^T mu - frac{1}{2} omega'^T Sigma omega')|_{omega' = A^T omega} \ = exp(jomega^T A mu -frac{1}{2} omega^T A Sigma A^T omega ) ϕY(ω)=E(exp(jωTY))=E(exp(jωTAZ))=E(exp(j(ATω)TZ))=ϕZ(ω′)∣ω′=ATω=exp(jω′Tμ−21ω′TΣω′)∣ω′=ATω=exp(jωTAμ−21ωTAΣATω)
得到的仍然是一个高斯分布,并且新的高斯分布的均值和协方差分别是
μ Y = A μ Z Σ Y = A Σ Z A T Y ∼ N ( A μ , A Σ Z A T ) mu_Y = A mu_Z \ Sigma_Y= ASigma_Z A^T\ Y sim N(A mu,ASigma_Z A^T) μY=AμZΣY=AΣZATY∼N(Aμ,AΣZAT)
可以说明高斯具有线性不变性
Linearity Invariance text{Linearity Invariance} Linearity Invariance
3. 高斯边缘分布与联合分布
接下来,我们探究一下高斯边缘分布和联合分布的关系。也就是探究这样一个问题,如果一个分布是联合高斯分布,从中任取一些随机变量得到的分布是否是高斯分布?如果每一个随机变量的分布都是高斯分布,把他们组合在一起是否是联合高斯分布?
3.1 从联合分布到边缘分布
事实上,从联合高斯分布到边缘高斯分布是成立的,可以通过我们高斯线性不变性得到证明
Z
=
(
Z
1
,
.
.
.
,
Z
n
)
T
∼
N
Z
~
=
(
Z
n
1
,
.
.
.
,
Z
n
k
)
(
n
1
,
.
.
.
,
n
k
)
⊂
{
1
,
.
.
.
,
n
}
Z = (Z_1,...,Z_n)^T sim N \ widetilde {Z} = (Z_{n_1},...,Z_{n_k}) \ (n_1,...,n_k) subset { 1,...,n}
Z=(Z1,...,Zn)T∼NZ
=(Zn1,...,Znk)(n1,...,nk)⊂{1,...,n}
证明
( Z n 1 . . . . . . Z n k ) = A ∗ ( Z 1 . . . . . . Z n ) A = ( 0 . . . 1 . . . 0 1 0 . . . 0 0 . . . . . . . . . . . . . . . ) begin{pmatrix} Z_{n_1} \ ...\ ...\ Z_{n_k} end{pmatrix} = A*begin{pmatrix} Z_{1} \ ...\ ...\ Z_{n} end{pmatrix} \ A = begin{pmatrix} 0& ... &1&...&0 \ 1& 0 & ...&0&0\ ...&...&...&...&... end{pmatrix} ⎝⎜⎜⎛Zn1......Znk⎠⎟⎟⎞=A∗⎝⎜⎜⎛Z1......Zn⎠⎟⎟⎞A=⎝⎛01......0...1.........0...00...⎠⎞
只要让第n1到第nk个随机变量所在的位置是1,其他位置为0即可。
3.2 从边缘分布到联合分布
但是反过来不一定成立。如果Z1,…,Zn全部服从高斯分布,Z1,…,Zn的联合分布不一定是高斯分布。
Z 1 ∼ N , Z 2 ∼ N , . . . , Z n ∼ N ⇒ Z = ( Z 1 , . . . , Z n ) T ∼ N Z_1 sim N,Z_2 sim N ,...,Z_n sim N \ cancel Rightarrow Z = (Z_1,...,Z_n)^T sim N Z1∼N,Z2∼N,...,Zn∼N⇒ Z=(Z1,...,Zn)T∼N
我们可以构造一个函数f(x,y),这个函数的边缘分布是高斯,但是联合分布不是高斯。
先写出高斯加一个扰动项的形式,也就是这个分布主体是高斯的,但是边缘有波动。
f ( x , y ) = 1 2 π e x p ( − x 2 + y 2 2 ) + g ( x , y ) f(x,y) = frac{1}{2 pi} exp(-frac{x^2 + y^2}{2}) +g(x,y) f(x,y)=2π1exp(−2x2+y2)+g(x,y)
我们希望这个g(x,y)的边缘分布都是0,即
∫ − ∞ + ∞ g ( x , y ) d x = ∫ − ∞ + ∞ g ( x , y ) d y = 0 int_{-infty}^{+infty} g(x,y) dx = int_{-infty}^{+infty} g(x,y) dy = 0 ∫−∞+∞g(x,y)dx=∫−∞+∞g(x,y)dy=0
如果我们增加这样一项
g ( x , y ) = s i n x s i n y g(x,y) = sinx siny g(x,y)=sinxsiny
有两个问题,概率密度函数不能是负的,这个函数会在(-1,1)b波动,有些地方比如是-1,而高斯的边缘很小,就会产生负值,不满足概率密度公式必须大于0的条件,需要修改一下这个函数
g ( x , y ) = 1 + s i n x s i n y g(x,y) = 1+ sinxsiny g(x,y)=1+sinxsiny
因此,我们就可以得到一个例子
f ( x , y ) = 1 2 π e x p ( − x 2 + y 2 2 ) + ( 1 + s i n x s i n y ) f(x,y) = frac{1}{2 pi} exp(-frac{x^2 + y^2}{2}) +(1+sinxsiny) f(x,y)=2π1exp(−2x2+y2)+(1+sinxsiny)
对x和对y的边缘分布都是高斯的,但是联合分布不是高斯分布。
3.3 联合高斯分布判据
那么,什么样的判据才能推出联合高斯分布呢?
Joint Gaussian ⇒ Bounding Gaussian text{Joint Gaussian} Rightarrow text{Bounding Gaussian} Joint Gaussian⇒Bounding Gaussian
我们要求,有一个确定性矢量,对Z的分量进行任意的加权求和,得到的都是一维的高斯分布,这样才能够认为Z是联合高斯分布
Z ∈ R n Z ∼ N ⇔ ∀ α ∈ R n α T Z ∼ N Zin R^n \ Z sim N Leftrightarrow forall alpha in R^n quad alpha^T Z sim N Z∈RnZ∼N⇔∀α∈RnαTZ∼N
从联合高斯到任意线性组合都是一维高斯的充分性证明就不需要了。
我们证明必要性即可。
用特征函数来进行证明。Z的特征函数如下
ϕ Z ( ω ) = E ( e x p ( j ω T Z ) ) phi_Z(omega) = E(exp(j omega^T Z)) ϕZ(ω)=E(exp(jωTZ))
根据判据,对Z任意的线性组合得到的都应该是一维的高斯分布。所以ωTZ就是高斯分布,我们可以把ωTZz作为随机变量,然后把式子看做是特征函数在ω为1时候的分布
ϕ Z ( ω ) = E ( e x p ( j ω T Z ) ) = ϕ ω T Z ( 1 ) = e x p ( j μ ω T Z ω ′ − 1 2 σ ω T z 2 ω ′ 2 ) ∣ ω ′ = 1 = e x p ( j μ ω T Z − 1 2 σ ω T z 2 ) phi_Z(omega) = E(exp(j omega^T Z)) = phi_{omega^T Z}(1) \ = exp(jmu_{omega^T Z} omega' - frac{1}{2} sigma^2_{omega^T z} omega'^2)|_{omega' = 1} \ = exp(j mu_{omega^T Z} - frac{1}{2} sigma^2_{omega^T z} ) ϕZ(ω)=E(exp(jωTZ))=ϕωTZ(1)=exp(jμωTZω′−21σωTz2ω′2)∣ω′=1=exp(jμωTZ−21σωTz2)
然后,我们要求新高斯分布的均值和方差。
μ ω T Z = E ( ω T Z ) = ω T E ( Z ) = ω T μ σ ω T Z 2 = E [ ( ω T Z − E ( ω T Z ) ) 2 ] = E ( ω T Z − ω T E ( Z ) ) 2 = ω T E ( ( Z − E ( Z ) ) ( Z − E ( Z ) ) T ) ω = ω T Σ ω mu_{omega^T Z} = E(omega^T Z) = omega^T E(Z) = omega^T mu \ sigma^2_{omega^T Z} = E[(omega^T Z - E(omega^T Z))^2] \ = E(omega^T Z- omega^T E(Z))^2 = omega^TE((Z - E(Z))(Z-E(Z))^T) omega = omega^T Sigma omega μωTZ=E(ωTZ)=ωTE(Z)=ωTμσωTZ2=E[(ωTZ−E(ωTZ))2]=E(ωTZ−ωTE(Z))2=ωTE((Z−E(Z))(Z−E(Z))T)ω=ωTΣω
代入特征函数可得
ϕ Z ( ω ) = e x p ( j ω T μ − 1 2 ω T Σ ω ) phi_Z(omega) = exp(j omega^T mu - frac{1}{2} omega^T Sigma omega ) ϕZ(ω)=exp(jωTμ−21ωTΣω)
得到联合高斯分布的特征函数,可以证明结论。
我们现在有了一个从边缘分布到联合高斯的一个判据,但是这个判据不好用,是理论上的,现在没有一个特别好的方法进行判断联合高斯性。
4. 高斯分布的相关性与独立性
4.1 独立性和相关性
所谓两个随机变量不相关,就是两个随机变量的期望,等于其各自的期望的乘积
Uncorrelation E ( Z Y ) = E ( Z ) E ( Y a ) text{Uncorrelation} \ E(ZY) = E(Z)E(Ya) UncorrelationE(ZY)=E(Z)E(Ya)
而两个随机变量独立,就是他们的联合分布等于各自概率密度的乘积
f Z Y ( z , y ) = f Z ( z ) f Y ( y ) f_{ZY}(z,y) = f_Z(z)f_Y(y) fZY(z,y)=fZ(z)fY(y)
独立一定不相关,但是不相关不一定独立。独立是不相关的子集,要求更加高。
我们可以举一个二者不独立,但是也不相关的例子
θ ∼ U ( 0 , 2 π ) Z = c o s ( θ ) Y = s i n ( θ ) theta sim U(0,2 pi) \ Z = cos(theta) quad Y = sin(theta) θ∼U(0,2π)Z=cos(θ)Y=sin(θ)
这两个随机变量一定不独立
Z 2 + Y 2 = 1 Z^2 +Y^2 = 1 Z2+Y2=1
但是也不相关
E ( Z ) = E ( c o s ( θ ) ) = ∫ 0 2 π 1 2 π c o s ( θ ) d θ = 0 E ( Y ) = E ( s i n ( θ ) ) = ∫ 0 2 π 1 2 π s i n ( θ ) d θ = 0 E ( Z Y ) = E ( s i n ( θ ) c o s ( θ ) ) = 1 2 E ( s i n ( 2 θ ) ) = 1 2 ∫ 0 2 π 1 2 π s i n ( 2 θ ) d θ = 0 ⇒ E ( Z Y ) = E ( Z ) E ( Y ) E(Z)=E(cos(theta))=int_{0}^{2pi} frac{1}{2pi}cos(theta) dtheta = 0 \ E(Y)=E(sin(theta))=int_{0}^{2pi} frac{1}{2pi}sin(theta) dtheta = 0 \ E(ZY) = E(sin(theta)cos(theta)) = frac{1}{2} E(sin(2theta)) = frac{1}{2}int_{0}^{2pi} frac{1}{2pi}sin(2theta) dtheta = 0 \ Rightarrow E(ZY) = E(Z)E(Y) E(Z)=E(cos(θ))=∫02π2π1cos(θ)dθ=0E(Y)=E(sin(θ))=∫02π2π1sin(θ)dθ=0E(ZY)=E(sin(θ)cos(θ))=21E(sin(2θ))=21∫02π2π1sin(2θ)dθ=0⇒E(ZY)=E(Z)E(Y)
4.2 高斯分布的不相关和独立
刚才证明了,两个随机变量不相关,不能得到二者独立。如果两个高斯分布是不相关的,能够得到二者独立吗?
答案也是不行的。我们假设X服从高斯分布,而Z是一个伯努利分布,Y是二者的乘积。同时X和Z是独立的
X ∼ N ( 0 , 1 ) Z = { 1 P = 1 2 − 1 P = 1 2 X , Z independent Y = Z X X sim N(0,1) \ Z = begin{cases} 1 &P = frac{1}{2} \ -1 &P = frac{1}{2} end{cases} \ X,Z quad text{independent} \ Y = ZX X∼N(0,1)Z={1−1P=21P=21X,ZindependentY=ZX
我们可以看下Y是否是个高斯分布,用特征函数来进行推断
ϕ Y ( ω ) = E ( e x p ( j ω Y ) ) = E ( e x p ( j ω Z X ) ) = E Z ( E X ( e x p ( j ω Z X ) ∣ Z ) ) = E Z ( e x p ( − 1 2 ω 2 Z 2 ) ) = 1 2 e x p ( − 1 2 ω 2 ) + 1 2 e x p ( − 1 2 ω 2 ) = e x p ( − 1 2 ω 2 ) phi_Y(omega) =E( exp(jomega Y)) =E (exp(jomega ZX))\ =E_Z(E_X (exp(jomega ZX)|Z)) = E_Z(exp(-frac{1}{2}omega^2 Z^2)) \ = frac{1}{2}exp(-frac{1}{2} omega^2) + frac{1}{2}exp(-frac{1}{2} omega^2) = exp(-frac{1}{2} omega^2) ϕY(ω)=E(exp(jωY))=E(exp(jωZX))=EZ(EX(exp(jωZX)∣Z))=EZ(exp(−21ω2Z2))=21exp(−21ω2)+21exp(−21ω2)=exp(−21ω2)
我们发现Y仍然是个高斯分布
Y ∼ N ( 0 , 1 ) Y sim N(0,1) Y∼N(0,1)
然后再计算一下二者的相关
E ( X Y ) = E ( Z X 2 ) = E ( Z ) E ( X 2 ) = 0 E ( X ) = E ( Y ) = 0 ⇒ E ( X Y ) = E ( X ) E ( Y ) = 0 E(XY) = E(ZX^2) = E(Z)E(X^2) = 0 \ E(X)=E(Y)=0 \ Rightarrow E(XY) = E(X)E(Y)=0 E(XY)=E(ZX2)=E(Z)E(X2)=0E(X)=E(Y)=0⇒E(XY)=E(X)E(Y)=0
能够看出,两个高斯分布不相关,但是不是独立的。
4.3 联合高斯分布的不相关和独立
既然两个随便的随机变量不相关得不得独立,两个高斯分布不相关得不得独立,什么条件下才能够通过不相关推导出独立呢?
当两个随机变量是联合高斯分布的时候,二者如果不相关,则一定独立
{ Joint Gaussian Uncorrelated ⇒ independent begin{cases} text{Joint Gaussian} \ text{Uncorrelated} end{cases} Rightarrow text{independent} {Joint GaussianUncorrelated⇒independent
我们可以证明一下
f X , Y ( x , y ) = 1 2 π σ x σ y 1 − ρ 2 e x p ( − 1 2 ( x − μ x y − μ y ) ( σ x 2 σ x y σ x y σ y 2 ) − 1 ( x − μ x y − μ y ) ) quad f_{X,Y}(x,y) = frac{1}{2 pisigma_x sigma_y sqrt{1 - rho^2}} exp(-frac{1}{2}begin{pmatrix} x - mu_x & y - mu_y \ end{pmatrix}begin{pmatrix} sigma_x^2 & sigma_{xy} \ sigma_{xy} & sigma_y^2 end{pmatrix}^{-1}begin{pmatrix} x - mu_x \ y - mu_y end{pmatrix}) \ fX,Y(x,y)=2πσxσy1−ρ21exp(−21(x−μxy−μy)(σx2σxyσxyσy2)−1(x−μxy−μy))
如果x和y不相关,意味着x和y的互相关是0,并且相关系数ρ也是0
f X , Y ( x , y ) = 1 2 π σ x σ y e x p ( − 1 2 ( x − μ x y − μ y ) ( σ x 2 0 0 σ y 2 ) − 1 ( x − μ x y − μ y ) ) = 1 2 π σ x e x p ( − ( x − μ x ) 2 2 σ x 2 ) 1 2 π σ y e x p ( − ( y − μ y ) 2 2 σ y 2 ) = f X ( x ) f Y ( y ) quad f_{X,Y}(x,y) = frac{1}{2 pisigma_x sigma_y} exp(-frac{1}{2}begin{pmatrix} x - mu_x & y - mu_y \ end{pmatrix}begin{pmatrix} sigma_x^2 & 0 \ 0 & sigma_y^2 end{pmatrix}^{-1} begin{pmatrix} x - mu_x \ y - mu_y end{pmatrix}) \ = frac{1}{sqrt{2pi} sigma_x} exp(-frac{(x-mu_x)^2}{2sigma_x^2})frac{1}{sqrt{2pi} sigma_y} exp(-frac{(y-mu_y)^2}{2sigma_y^2}) \ = f_X(x) f_Y(y) fX,Y(x,y)=2πσxσy1exp(−21(x−μxy−μy)(σx200σy2)−1(x−μxy−μy))=2πσx1exp(−2σx2(x−μx)2)2πσy1exp(−2σy2(y−μy)2)=fX(x)fY(y)
就能够证明,如果两个随机变量满足联合高斯分布,如果二者不相关,必然独立
这里可以说一下PCA和ICA的区别,PCA得到的分量是不相关的,但是不是独立的。ICA得到的分量是独立的。如果我们处理的数据是高斯的,PCA和ICA是等价的
类似的结论可以推广到n元高斯,如果彼此之间不相关,必然彼此之间是独立的。
Z = ( Z 1 , . . . , Z n ) T ∼ N E ( Z i Z j ) = E ( Z i ) E ( Z j ) ⇒ Σ = d i a g ⇒ ( Z 1 , . . . , Z n ) is independent Z =(Z_1,...,Z_n)^T sim N \ E(Z_iZ_j) = E(Z_i) E(Z_j) Rightarrow Sigma = diag \ Rightarrow (Z_1,...,Z_n) text{is independent} Z=(Z1,...,Zn)T∼NE(ZiZj)=E(Zi)E(Zj)⇒Σ=diag⇒(Z1,...,Zn)is independent
这个结论反之也成立。如果相互独立的n个随机变量,每个都符合高斯分布,则他们满足联合高斯分布
Z 1 , . . . , Z n independent Z k ∼ N ⇒ Z = ( Z 1 , . . . , Z n ) ∼ N Z_1,...,Z_n text{ independent} \ Z_k sim N Rightarrow Z = (Z_1,...,Z_n) sim N Z1,...,Zn independentZk∼N⇒Z=(Z1,...,Zn)∼N
4.4 两个例子
4.4.1 利用独立性求条件概率
第一个例子,如果Z和Y是独立的,并且都满足高斯分布,我们求一个条件期望
Z , Y i.i.d ∼ N ( 0 , 1 ) ⇒ E ( ( Z − Y ) 2 ∣ Z + Y ) Z,Y text{ i.i.d} sim N(0,1) Rightarrow E((Z-Y)^2 |Z+Y) Z,Y i.i.d∼N(0,1)⇒E((Z−Y)2∣Z+Y)
首先,如果Z和Y满足高斯分布,并且是独立的,他们一定满足联合高斯分布。
Step 1 Z , Y i.i.d ∼ N ( 0 , 1 ) ( Z , Y ) T ∼ N ( ( 0 0 ) , ( 1 0 0 1 ) ) text{Step 1} \ Z,Y text{ i.i.d} sim N(0,1) \ (Z,Y)^T sim N( begin{pmatrix} 0 \ 0 end{pmatrix}, begin{pmatrix} 1&0 \ 0&1 end{pmatrix} ) Step 1Z,Y i.i.d∼N(0,1)(Z,Y)T∼N((00),(1001))
其次,然后他们的和差也是高斯分布,因为高斯的线性变换还是高斯
Step 2 ( Z − Y Z + Y ) = ( 1 − 1 1 1 ) ( Z Y ) = A ( Z Y ) text{Step 2} begin{pmatrix} Z-Y \ Z+Y end{pmatrix} = begin{pmatrix} 1 & -1 \ 1 & 1 end{pmatrix} begin{pmatrix} Z \ Y end{pmatrix} = A begin{pmatrix} Z \ Y end{pmatrix} Step 2(Z−YZ+Y)=(11−11)(ZY)=A(ZY)
然后我们计算一下新的联合高斯的均值和方差
Step 3 ( Z − Y Z + Y ) ∼ N ( A ( 0 0 ) , A T ( 1 0 0 1 ) A ) = ∼ N ( ( 0 0 ) , ( 2 0 0 2 ) ) text{Step 3} begin{pmatrix} Z-Y \ Z+Y end{pmatrix} sim N( Abegin{pmatrix} 0 \ 0 end{pmatrix}, A^Tbegin{pmatrix} 1&0 \ 0&1 end{pmatrix}A )\ =sim N( begin{pmatrix} 0 \ 0 end{pmatrix}, begin{pmatrix} 2&0 \ 0&2 end{pmatrix} )\ Step 3(Z−YZ+Y)∼N(A(00),AT(1001)A)=∼N((00),(2002))
我们发现得到的新联合高斯分布是不相关的,则必然Z-Y和Z+Y是独立的,然后我们要求的这个条件期望其实是与后面没有关系的。要求的就是Z-Y这个随机变量的方差,也就是2
Step 4 E ( ( Z − Y ) 2 ∣ Z + Y ) = E ( ( Z − Y ) 2 ) = 2 text{Step 4} \ E((Z-Y)^2 |Z+Y) = E((Z-Y)^2) = 2 Step 4E((Z−Y)2∣Z+Y)=E((Z−Y)2)=2
4.4.2 解释方差和样本方差的关系
(1) 问题描述
我们知道,如果要估计一组采样数据,可以通过多次实验取平均的方法,这是因为取均值可以降低方差。这里多次实验要求彼此之间结果是不相关的。
{ Z 1 , . . . , Z n } i.i.d ⇒ Z = 1 n ∑ k = 1 n Z k { Z_1,...,Z_n} text{ i.i.d} \ Rightarrow Z = frac{1}{n} sum_{k=1}^n Z_k \ {Z1,...,Zn} i.i.d⇒Z=n1k=1∑nZk
求期望
E ( Z ) = E ( 1 n ∑ k = 1 n Z k ) = E ( Z 1 ) Z k = A + N k ⇒ E ( Z k ) = A E(Z) = E( frac{1}{n} sum_{k=1}^n Z_k) = E(Z_1) \ Z_k = A +N_k Rightarrow E(Z_k) = A \ E(Z)=E(n1k=1∑nZk)=E(Z1)Zk=A+Nk⇒E(Zk)=A
求方差,由于彼此不相关,交叉项为0
V a r ( Z ) = E ( ( Z − E ( Z ) ) 2 ) = E ( ( 1 n ∑ k = 1 n Z k − A ) 2 ) = 1 n 2 E ( ∑ k = 1 n Z k − n A ) 2 = 1 n 2 E ( ∑ k = 1 n ( Z k − A ) ) 2 = 1 n 2 E ( ∑ k = 1 n ( Z k − A ) 2 + ∑ i = j ( Z i − A ) ( Z j − A ) ) = 1 n 2 ∑ k = 1 n E ( ( Z k − A ) 2 ) + ∑ i = j E ( Z i − A ) ( Z j − A ) ) = 1 n 2 ∑ k = 1 n E ( ( Z k − A ) 2 ) = 1 n E ( ( Z k − A ) 2 ) = 1 n V a r ( Z 1 ) Var(Z) = E((Z - E(Z))^2) = E((frac{1}{n} sum_{k=1}^n Z_k - A)^2) \ = frac{1}{n^2} E(sum_{k=1}^n Z_k - nA)^2 \ = frac{1}{n^2} E(sum_{k=1}^n (Z_k - A))^2 \ = frac{1}{n^2} E(sum_{k=1}^n (Z_k - A)^2 + sum_{i cancel=j}(Z_i - A)(Z_j - A) ) \ = frac{1}{n^2}sum_{k=1}^n E((Z_k - A)^2) + sum_{i cancel=j} E(Z_i - A)(Z_j - A) ) \ = frac{1}{n^2}sum_{k=1}^n E((Z_k - A)^2) = frac{1}{n}E((Z_k - A)^2) = frac{1}{n} Var(Z_1) Var(Z)=E((Z−E(Z))2)=E((n1k=1∑nZk−A)2)=n21E(k=1∑nZk−nA)2=n21E(k=1∑n(Zk−A))2=n21E(k=1∑n(Zk−A)2+i= j∑(Zi−A)(Zj−A))=n21k=1∑nE((Zk−A)2)+i= j∑E(Zi−A)(Zj−A))=n21k=1∑nE((Zk−A)2)=n1E((Zk−A)2)=n1Var(Z1)
但是,我们实际实验中,是得不得期望的,我们只能用实验数据平均值作为期望,然后用这个数据来求方差。这样得到的方差叫做样本方差
E
(
Z
−
E
Z
)
2
Sample Variance
σ
^
2
=
1
n
−
1
∑
k
=
1
n
(
Z
k
−
1
n
∑
k
=
1
n
Z
k
)
2
E(Z-EZ)^2 \ text{Sample Variance} \ hat sigma^2 = frac{1}{n-1} sum_{k=1}^n(Z_k - frac{1}{n}sum_{k=1}^n Z_k)^2
E(Z−EZ)2Sample Varianceσ^2=n−11k=1∑n(Zk−n1k=1∑nZk)2
只有样本方差前面是n-1,这个对方差的估计才是个无偏估计
E ( σ ^ 2 ) = V a r ( Z 1 ) E(hat sigma^2) = Var(Z_1) E(σ^2)=Var(Z1)
有了样本方差之后,再来表示一下样本均值
S ^ = 1 n ∑ k = 1 n Z k hat S = frac{1}{n}sum_{k=1}^n Z_k S^=n1k=1∑nZk
(2) 独立性
这里我们想证明一个有趣的事情。如果我们所有的采样数据,不但是独立同分布的,而且还都是高斯分布,我们其实可以证明样本均值和样本方差之间是独立的。
我们假设随机矢量Z
Z = ( Z 1 , . . . , Z n ) T Z = (Z_1,...,Z_n)^T Z=(Z1,...,Zn)T
由于每个Zk都是独立的高斯分布,因此,随机矢量Z必定是联合高斯分布
Z ∼ N ( μ , σ 2 I ) Z sim N( mu,sigma^2 I) Z∼N(μ,σ2I)
并且,我们假设有一个正交矩阵U,正交矩阵的第一行我们定义全部是1/sqrt{n},其余的参数不做限定,只要能够构成正交矩阵即可
U = ( 1 n . . . 1 n ∗ ∗ ∗ ∗ ∗ ∗ ) U = begin{pmatrix} frac{1}{sqrt{n}} & ...&frac{1}{sqrt{n}} \ * & * &* \ * & * &* end{pmatrix} U=⎝⎛n1∗∗...∗∗n1∗∗⎠⎞
则,我们定义经过Z经过线性变换U之后得到的新随机矢量为Y。新随机矢量的第一个参数就是sqrt{n}*样本均值。其余位置我们不在乎
Y
=
U
Z
=
(
1
n
.
.
.
1
n
∗
∗
∗
∗
∗
∗
)
∗
(
Z
1
.
.
.
Z
n
)
=
(
1
n
Z
1
+
.
.
.
+
1
n
Z
n
.
.
.
∗
)
=
(
n
S
^
.
.
.
∗
)
Y = UZ = begin{pmatrix} frac{1}{sqrt{n}} & ...&frac{1}{sqrt{n}} \ * & * &* \ * & * &* end{pmatrix}* begin{pmatrix} Z_1 \ ... \ Z_n end{pmatrix} \ =begin{pmatrix} frac{1}{sqrt{n}}Z_1 + ..._+ frac{1}{sqrt{n}}Z_n\ ... \ * end{pmatrix} = begin{pmatrix} sqrt{n}hat S\ ... \ * end{pmatrix}
Y=UZ=⎝⎛n1∗∗...∗∗n1∗∗⎠⎞∗⎝⎛Z1...Zn⎠⎞=⎝⎛n1Z1+...+n1Zn...∗⎠⎞=⎝⎛nS^...∗⎠⎞
可得
Y 1 = 1 n Z 1 + . . . + 1 n Z n = n S ^ Y = { Y 1 , . . . , Y n } Y_1 = frac{1}{sqrt{n}}Z_1 + ..._+ frac{1}{sqrt{n}}Z_n = sqrt{n}hat S \ Y = {Y_1,...,Y_n} Y1=n1Z1+...+n1Zn=nS^Y={Y1,...,Yn}
由于Z是联合高斯,Y必然也是联合高斯的
Y ∼ N ( U T μ , U T σ 2 I U ) = N ( U T μ , σ 2 I ) Y sim N( U^T mu,U^T sigma^2 I U) = N( U^T mu, sigma^2 I ) Y∼N(UTμ,UTσ2IU)=N(UTμ,σ2I)
然后我们表示一下样本方差
σ
^
2
=
1
n
−
1
∑
k
=
1
n
(
Z
k
−
1
n
∑
k
=
1
n
Z
k
)
2
=
1
n
−
1
∑
k
=
1
n
(
Z
k
−
S
^
)
2
=
1
n
−
1
(
∑
k
=
1
n
Z
k
2
−
2
∑
k
=
1
n
Z
k
S
^
+
∑
k
=
1
n
S
^
2
)
hat sigma^2 = frac{1}{n-1} sum_{k=1}^n(Z_k - frac{1}{n}sum_{k=1}^n Z_k)^2 \ = frac{1}{n-1} sum_{k=1}^n(Z_k - hat S)^2 \ = frac{1}{n-1} (sum_{k=1}^nZ_k^2 - 2sum_{k=1}^n Z_k hat S +sum_{k=1}^n hat S^2) \
σ^2=n−11k=1∑n(Zk−n1k=1∑nZk)2=n−11k=1∑n(Zk−S^)2=n−11(k=1∑nZk2−2k=1∑nZkS^+k=1∑nS^2)
由于
S ^ = 1 n ∑ k = 1 n Z k hat S = frac{1}{n}sum_{k=1}^n Z_k S^=n1k=1∑nZk
可得
∑
k
=
1
n
Z
k
=
n
S
^
sum_{k=1}^n Z_k = nhat S
k=1∑nZk=nS^
代入可得
σ ^ 2 = 1 n − 1 ( ∑ k = 1 n Z k 2 − 2 n ∗ S ^ 2 + n S ^ 2 ) = 1 n − 1 ( ∑ k = 1 n Z k 2 − n ∗ S ^ 2 ) = 1 n − 1 ( Z T Z − n ∗ S ^ 2 ) = 1 n − 1 ( Z T Z − n ∗ S ^ 2 ) hat sigma^2= frac{1}{n-1} (sum_{k=1}^nZ_k^2 -2n*hat S^2 + n hat S^2) \ = frac{1}{n-1} (sum_{k=1}^nZ_k^2 -n*hat S^2 ) \ = frac{1}{n-1} (Z^TZ -n*hat S^2 ) = frac{1}{n-1} (Z^TZ -n*hat S^2 ) σ^2=n−11(k=1∑nZk2−2n∗S^2+nS^2)=n−11(k=1∑nZk2−n∗S^2)=n−11(ZTZ−n∗S^2)=n−11(ZTZ−n∗S^2)
由于
Y T Y = Z T U T U Z = Z T Z Y^TY = Z^T U ^T UZ = Z^T Z YTY=ZTUTUZ=ZTZ
代入可得
σ ^ 2 = 1 n − 1 ( Y T Y − n ∗ S ^ 2 ) = 1 n − 1 ( ∑ k = 1 n Y k 2 − n ∗ S ^ 2 ) hat sigma^2= frac{1}{n-1} (Y^TY -n*hat S^2 ) \ = frac{1}{n-1} (sum_{k=1}^nY_k^2 - n *hat S^2 ) σ^2=n−11(YTY−n∗S^2)=n−11(k=1∑nYk2−n∗S^2)
由于我们前面构造的Y1满足这样的关系,所以我们可以把后面的东西减掉。
Y 1 2 = n ∗ S ^ 2 Y_1 ^2 = n *hat S^2 Y12=n∗S^2
σ ^ 2 = 1 n − 1 ( ∑ k = 1 n Y k 2 − Y 1 2 ) = 1 n − 1 ∑ k = 2 n Y k 2 hat sigma^2 = frac{1}{n-1} (sum_{k=1}^nY_k^2 - Y_1^2 ) \ = frac{1}{n-1} sum_{k=2}^nY_k^2 σ^2=n−11(k=1∑nYk2−Y12)=n−11k=2∑nYk2
由于,Y是相互独立的,并且样本方差和样本均值具有如下表示形式,因此能够证明样本方差和样本均值之间是独立的。
Sample Mean
S
^
=
n
Y
1
Sample Variance
σ
^
2
=
1
n
−
1
∑
k
=
2
n
Y
k
2
=
1
n
−
1
(
Y
2
2
+
.
.
.
+
Y
n
2
)
text{Sample Mean} \ hat S = sqrt{n} Y_1 \ text{Sample Variance} \ hat sigma^2 = frac{1}{n-1} sum_{k=2}^nY_k^2 = frac{1}{n-1} (Y_2^2 +...+Y_n^2)
Sample MeanS^=nY1Sample Varianceσ^2=n−11k=2∑nYk2=n−11(Y22+...+Yn2)
也能够证明,实际上方差只有n-1个自由度。这个结论非常有名,叫做Cochran Theorem。
Cochran Theorem text{Cochran Theorem} Cochran Theorem
(3) 无偏估计
然后,我们想来证明一下,为什么样本方差前面是n-1,这主要是因为,只有前面是n-1,才能保证样本方差是个无偏估计,样本方差和方差之间的期望相同,即
E ( σ ^ 2 ) = V a r ( Z ) E(hat sigma^2) = Var(Z) E(σ^2)=Var(Z)
下面证明一下
σ ^ 2 = 1 n − 1 ∑ k = 1 n ( Z k − S ^ ) 2 E ( σ ^ 2 ) = 1 n − 1 E ( ∑ k = 1 n ( Z k − S ^ ) 2 ) = 1 n − 1 E ( ∑ k = 1 n Z k 2 − 2 ∑ k = 1 n S ^ Z k + ∑ k = 1 n S ^ 2 ) = 1 n − 1 E ( ∑ k = 1 n Z k 2 − 2 n S ^ 2 + n S ^ 2 ) = 1 n − 1 E ( ∑ k = 1 n Z k 2 − n S ^ 2 ) hat sigma^2 = frac{1}{n-1} sum_{k=1}^n (Z_k - hat S)^2 \ E(hat sigma^2) = frac{1}{n-1} E(sum_{k=1}^n (Z_k - hat S)^2) \ = frac{1}{n-1}E (sum_{k=1}^nZ_k^2 -2sum_{k=1}^nhat S Z_k+sum_{k=1}^nhat S^2) \ = frac{1}{n-1} E(sum_{k=1}^n Z_k^2 - 2n hat S^2 +nhat S^2) \ = frac{1}{n-1} E(sum_{k=1}^n Z_k^2 - n hat S^2) σ^2=n−11k=1∑n(Zk−S^)2E(σ^2)=n−11E(k=1∑n(Zk−S^)2)=n−11E(k=1∑nZk2−2k=1∑nS^Zk+k=1∑nS^2)=n−11E(k=1∑nZk2−2nS^2+nS^2)=n−11E(k=1∑nZk2−nS^2)
由于
S ^ 2 = 1 n 2 ( ∑ k = 1 n Z k 2 + ∑ i = j Z i Z j ) hat S^2 = frac{1}{n^2} (sum_{k=1}^n Z_k^2 +sum_{i cancel = j}Z_i Z_j) S^2=n21(k=1∑nZk2+i= j∑ZiZj)
则
E ( σ ^ 2 ) = 1 n − 1 E ( ∑ k = 1 n Z k 2 − 1 n ( ∑ k = 1 n Z k 2 + ∑ i = j Z i Z j ) ) = 1 n − 1 ( ∑ k = 1 n E ( Z k 2 ) − 1 n ∑ k = 1 n E ( Z k 2 ) − 1 n ∑ i = j E ( Z i ) E ( Z j ) ) = 1 n − 1 ( n ∗ E ( Z 1 2 ) − 1 n n E ( Z 1 2 ) − 1 n n ∗ ( n − 1 ) E ( Z 1 ) E ( Z 1 ) ) = 1 n − 1 ( ( n − 1 ) E ( Z 1 2 ) − ( n − 1 ) E ( Z 1 ) 2 ) = E ( Z 1 2 ) − E ( Z 1 ) 2 ) = V a r ( Z 1 ) E(hat sigma^2) = frac{1}{n-1} E(sum_{k=1}^n Z_k^2 - frac{1}{n}(sum_{k=1}^n Z_k^2 +sum_{i cancel = j}Z_i Z_j)) \ = frac{1}{n-1} (sum_{k=1}^n E(Z_k^2) - frac{1}{n} sum_{k=1}^n E(Z_k^2 ) - frac{1}{n} sum_{i cancel = j} E(Z_i)E(Z_j)) \ = frac{1}{n-1}(n*E(Z_1^2) - frac{1}{n} n E(Z_1^2) - frac{1}{n} n*(n-1) E(Z_1) E(Z_1)) \ = frac{1}{n-1}((n-1)E(Z_1^2) - (n-1)E(Z_1)^2) \ = E(Z_1^2) -E(Z_1)^2) = Var(Z_1) E(σ^2)=n−11E(k=1∑nZk2−n1(k=1∑nZk2+i= j∑ZiZj))=n−11(k=1∑nE(Zk2)−n1k=1∑nE(Zk2)−n1i= j∑E(Zi)E(Zj))=n−11(n∗E(Z12)−n1nE(Z12)−n1n∗(n−1)E(Z1)E(Z1))=n−11((n−1)E(Z12)−(n−1)E(Z1)2)=E(Z12)−E(Z1)2)=Var(Z1)
能够证明,只有除以n-1,才是对方差的无偏估计
5. 高斯条件分布
5.1 条件高斯分布的计算
Conditional Distribution text{Conditional Distribution} Conditional Distribution
假设Z符合联合高斯分布,并且可以分成Z1和Z2两个联合高斯分布,则Z可以表示为
Z = ( Z 1 , Z 2 ) T ∈ R m + n Z 1 ∈ R m Z 2 ∈ R n Z = (Z_1,Z_2)^T in R^{m+n} \ Z_1 in R^m \ Z_2 in R^n Z=(Z1,Z2)T∈Rm+nZ1∈RmZ2∈Rn
Z ∼ N ( ( μ 1 μ 2 ) , ( Σ 11 Σ 12 Σ 21 Σ 22 ) ) Z sim N(begin{pmatrix} mu_1 \ mu_2 end{pmatrix},begin{pmatrix} Sigma_{11} & Sigma_{12} \ Sigma_{21} & Sigma_{22} end{pmatrix}) Z∼N((μ1μ2),(Σ11Σ21Σ12Σ22))
要求条件分布Z2|Z1,条件分布就是二者的联合分布,然后除以Z2的边缘分布
Z 2 ∣ Z 1 = f Z 2 ∣ Z 1 ( z 2 ∣ z 1 ) = f Z 1 Z 2 ( z 1 z 2 ) f Z 2 ( z 2 ) Z_2 | Z_1 = f_{Z_2 | Z_1} (z_2 | z_1) = frac{f_{Z_1Z_2}(z_1z_2)}{f_{Z_2}(z_2)} Z2∣Z1=fZ2∣Z1(z2∣z1)=fZ2(z2)fZ1Z2(z1z2)
由于联合高斯中取出来一部分还是高斯,所以上面是个高斯,下面还是个高斯,因此得到的结果就是,前面是个常数,然后知识里面有加减,最终得到的还是一个高斯分布
f Z 1 Z 2 ( z 1 z 2 ) f Z 2 ( z 2 ) = c 1 e x p ( − 1 2 ( z 1 T − μ 1 T , z 2 T − μ 2 T ) Σ − 1 ( z 1 − μ 1 , z 2 − μ 2 ) ) c 2 e x p ( − 1 2 ( z 2 T − μ 2 T ) Σ 22 − 1 ( z 2 − μ 2 ) ) frac{f_{Z_1Z_2}(z_1z_2)}{f_{Z_2}(z_2)} = frac{c_1 exp(-frac{1}{2}(z_1^T-mu_1^T,z_2^T - mu_2^T) Sigma^{-1}(z_1-mu_1,z_2 - mu_2))}{c_2 exp(-frac{1}{2}(z_2 ^T - mu_2^T) Sigma_{22}^{-1} (z_2-mu_2) )} fZ2(z2)fZ1Z2(z1z2)=c2exp(−21(z2T−μ2T)Σ22−1(z2−μ2))c1exp(−21(z1T−μ1T,z2T−μ2T)Σ−1(z1−μ1,z2−μ2))
其中
Σ = ( Σ 11 Σ 12 Σ 21 Σ 22 ) Sigma = begin{pmatrix} Sigma_{11} & Sigma_{12} \ Sigma_{21} & Sigma_{22} end{pmatrix} Σ=(Σ11Σ21Σ12Σ22)
指数相除可以转化为加减,我们只表示指数即可
− 1 2 ( z 1 T − μ 1 T , z 2 T − μ 2 T ) Σ − 1 ( z 1 − μ 1 , z 2 − μ 2 ) + 1 2 ( z 2 T − μ 2 T ) Σ 22 − 1 ( z 2 − μ 2 ) -frac{1}{2}(z_1^T-mu_1^T,z_2^T-mu_2^T) Sigma^{-1}(z_1-mu_1,z_2-mu_2) + frac{1}{2}(z_2 ^T - mu_2^T) Sigma_{22}^{-1} (z_2-mu_2) \ −21(z1T−μ1T,z2T−μ2T)Σ−1(z1−μ1,z2−μ2)+21(z2T−μ2T)Σ22−1(z2−μ2)
首先,我们要处理逆矩阵,把这个逆矩阵对角化,但是不是用特征分解的方法,先用行变换去掉右上角的数,然后用列变换去掉左下角的数即可
( I − Σ 12 Σ 22 − 1 0 I ) ∗ ( Σ 11 Σ 12 Σ 21 Σ 22 ) ∗ ( I 0 − Σ 22 − 1 Σ 21 I ) = ( Σ 11 − Σ 12 Σ 22 − 1 Σ 21 0 0 Σ 22 ) begin{pmatrix} I & -Sigma_{12}Sigma_{22}^{-1} \ 0 & I end{pmatrix}* begin{pmatrix} Sigma_{11} & Sigma_{12} \ Sigma_{21} & Sigma_{22} end{pmatrix}* begin{pmatrix} I & 0 \ -Sigma_{22}^{-1}Sigma_{21} & I end{pmatrix} \ = begin{pmatrix} Sigma_{11} -Sigma_{12}Sigma_{22}^{-1}Sigma_{21} & 0 \ 0 & Sigma_{22} end{pmatrix} (I0−Σ12Σ22−1I)∗(Σ11Σ21Σ12Σ22)∗(I−Σ22−1Σ210I)=(Σ11−Σ12Σ22−1Σ2100Σ22)
移相
( Σ 11 Σ 12 Σ 21 Σ 22 ) = ( I − Σ 12 Σ 22 − 1 0 I ) − 1 ∗ ( Σ 11 − Σ 12 Σ 22 − 1 Σ 21 0 0 Σ 22 ) ∗ ( I 0 − Σ 22 − 1 Σ 21 I ) − 1 begin{pmatrix} Sigma_{11} & Sigma_{12} \ Sigma_{21} & Sigma_{22} end{pmatrix} = begin{pmatrix} I & -Sigma_{12}Sigma_{22}^{-1} \ 0 & I end{pmatrix}^{-1} *begin{pmatrix} Sigma_{11} -Sigma_{12}Sigma_{22}^{-1}Sigma_{21} & 0 \ 0 & Sigma_{22} end{pmatrix}* begin{pmatrix} I & 0 \ -Sigma_{22}^{-1}Sigma_{21} & I end{pmatrix}^{-1} (Σ11Σ21Σ12Σ22)=(I0−Σ12Σ22−1I)−1∗(Σ11−Σ12Σ22−1Σ2100Σ22)∗(I−Σ22−1Σ210I)−1
求逆
( Σ 11 Σ 12 Σ 21 Σ 22 ) − 1 = ( I 0 − Σ 22 − 1 Σ 21 I ) ∗ ( Σ 11 − Σ 12 Σ 22 − 1 Σ 21 0 0 Σ 22 ) − 1 ∗ ( I − Σ 12 Σ 22 − 1 0 I ) = ( I 0 − Σ 22 − 1 Σ 21 I ) ∗ ( ( Σ 11 − Σ 12 Σ 22 − 1 Σ 21 ) − 1 0 0 Σ 22 − 1 ) ∗ ( I − Σ 12 Σ 22 − 1 0 I ) begin{pmatrix} Sigma_{11} & Sigma_{12} \ Sigma_{21} & Sigma_{22} end{pmatrix}^{-1} = begin{pmatrix} I & 0 \ -Sigma_{22}^{-1}Sigma_{21} & I end{pmatrix}* begin{pmatrix} Sigma_{11} -Sigma_{12}Sigma_{22}^{-1}Sigma_{21} & 0 \ 0 & Sigma_{22} end{pmatrix}^{-1} * begin{pmatrix} I & -Sigma_{12}Sigma_{22}^{-1} \ 0 & I end{pmatrix} \ = begin{pmatrix} I & 0 \ -Sigma_{22}^{-1}Sigma_{21} & I end{pmatrix}* begin{pmatrix} (Sigma_{11} -Sigma_{12}Sigma_{22}^{-1}Sigma_{21})^{-1} & 0 \ 0 & Sigma_{22}^{-1} end{pmatrix} * begin{pmatrix} I & -Sigma_{12}Sigma_{22}^{-1} \ 0 & I end{pmatrix} (Σ11Σ21Σ12Σ22)−1=(I−Σ22−1Σ210I)∗(Σ11−Σ12Σ22−1Σ2100Σ22)−1∗(I0−Σ12Σ22−1I)=(I−Σ22−1Σ210I)∗((Σ11−Σ12Σ22−1Σ21)−100Σ22−1)∗(I0−Σ12Σ22−1I)
求联合分布的二次型
− 1 2 ( z 1 T − μ 1 T , z 2 T − μ 2 T ) Σ − 1 ( z 1 − μ 1 , z 2 − μ 2 ) = − 1 2 ( z 1 T − μ 1 T , z 2 T − μ 2 T ) ( I 0 − Σ 22 − 1 Σ 21 I ) ∗ ( ( Σ 11 − Σ 12 Σ 22 − 1 Σ 21 ) − 1 0 0 Σ 22 − 1 ) ∗ ( I − Σ 12 Σ 22 − 1 0 I ) ( z 1 − μ 1 , z 2 − μ 2 ) = − 1 2 ( ( z 1 T − μ 1 T ) − ( z 2 T − μ 2 T ) Σ 22 − 1 Σ 21 , z 2 T − μ 2 T ) ∗ ( ( Σ 11 − Σ 12 Σ 22 − 1 Σ 21 ) − 1 0 0 Σ 22 − 1 ) ∗ ( ( z 1 − μ 1 ) − Σ 12 Σ 22 − 1 ( z 2 − μ 2 ) , z 2 − μ 2 ) = − 1 2 [ ( z 2 T − μ 2 T ) Σ 22 − 1 ( z 2 − μ 2 ) + ( ( z 1 T − μ 1 T ) − ( z 2 T − μ 2 T ) Σ 22 − 1 Σ 21 ) ( Σ 11 − Σ 12 Σ 22 − 1 Σ 21 ) − 1 ( ( z 1 − μ 1 ) − Σ 12 Σ 22 − 1 ( z 2 − μ 2 ) ) ] -frac{1}{2}(z_1^T-mu_1^T,z_2^T-mu_2^T) Sigma^{-1}(z_1-mu_1,z_2-mu_2) \ = -frac{1}{2}(z_1^T-mu_1^T,z_2^T-mu_2^T) begin{pmatrix} I & 0 \ -Sigma_{22}^{-1}Sigma_{21} & I end{pmatrix}* \ begin{pmatrix} (Sigma_{11} -Sigma_{12}Sigma_{22}^{-1}Sigma_{21})^{-1} & 0 \ 0 & Sigma_{22}^{-1} end{pmatrix}* \ begin{pmatrix} I & -Sigma_{12}Sigma_{22}^{-1} \ 0 & I end{pmatrix}(z_1-mu_1,z_2-mu_2) \ = -frac{1}{2} begin{pmatrix} (z_1^T-mu_1^T)- (z_2^T-mu_2^T)Sigma_{22}^{-1}Sigma_{21},z_2^T-mu_2^T \ end{pmatrix} \*begin{pmatrix} (Sigma_{11} -Sigma_{12}Sigma_{22}^{-1}Sigma_{21})^{-1} & 0 \ 0 & Sigma_{22}^{-1} end{pmatrix}* \ ((z_1-mu_1)-Sigma_{12}Sigma_{22}^{-1}(z_2-mu_2),z_2 - mu_2) \ = -frac{1}{2}[(z_2^T-mu_2^T) Sigma_{22}^{-1}(z_2 - mu_2)+ \ ((z_1^T-mu_1^T)- (z_2^T-mu_2^T)Sigma_{22}^{-1}Sigma_{21}) (Sigma_{11} -Sigma_{12}Sigma_{22}^{-1}Sigma_{21})^{-1}((z_1-mu_1)-Sigma_{12}Sigma_{22}^{-1}(z_2-mu_2))] −21(z1T−μ1T,z2T−μ2T)Σ−1(z1−μ1,z2−μ2)=−21(z1T−μ1T,z2T−μ2T)(I−Σ22−1Σ210I)∗((Σ11−Σ12Σ22−1Σ21)−100Σ22−1)∗(I0−Σ12Σ22−1I)(z1−μ1,z2−μ2)=−21((z1T−μ1T)−(z2T−μ2T)Σ22−1Σ21,z2T−μ2T)∗((Σ11−Σ12Σ22−1Σ21)−100Σ22−1)∗((z1−μ1)−Σ12Σ22−1(z2−μ2),z2−μ2)=−21[(z2T−μ2T)Σ22−1(z2−μ2)+((z1T−μ1T)−(z2T−μ2T)Σ22−1Σ21)(Σ11−Σ12Σ22−1Σ21)−1((z1−μ1)−Σ12Σ22−1(z2−μ2))]
我们发现得到的联合分布的二次型能与后面边缘分布的二次型抵消一部分
−
1
2
(
z
1
T
−
μ
1
T
,
z
2
T
−
μ
2
T
)
Σ
−
1
(
z
1
−
μ
1
,
z
2
−
μ
2
)
+
1
2
(
z
2
T
−
μ
2
T
)
Σ
22
−
1
(
z
2
−
μ
2
)
=
1
2
(
z
2
T
−
μ
2
T
)
Σ
22
−
1
(
z
2
−
μ
2
)
−
1
2
[
(
z
2
T
−
μ
2
T
)
Σ
22
−
1
(
z
2
−
μ
2
)
+
(
(
z
1
T
−
μ
1
T
)
−
(
z
2
T
−
μ
2
T
)
Σ
22
−
1
Σ
21
)
(
Σ
11
−
Σ
12
Σ
22
−
1
Σ
21
)
−
1
(
(
z
1
−
μ
1
)
−
Σ
12
Σ
22
−
1
(
z
2
−
μ
2
)
)
]
=
−
1
2
[
(
(
z
1
T
−
μ
1
T
)
−
(
z
2
T
−
μ
2
T
)
Σ
22
−
1
Σ
21
)
(
Σ
11
−
Σ
12
Σ
22
−
1
Σ
21
)
−
1
(
(
z
1
−
μ
1
)
−
Σ
12
Σ
22
−
1
(
z
2
−
μ
2
)
)
]
=
−
1
2
[
(
z
1
T
−
(
μ
1
T
+
(
z
2
T
−
μ
2
T
)
Σ
22
−
1
Σ
21
)
)
(
Σ
11
−
Σ
12
Σ
22
−
1
Σ
21
)
−
1
(
z
1
−
(
μ
1
+
Σ
12
Σ
22
−
1
(
z
2
−
μ
2
)
)
)
]
=
(
z
1
−
μ
1
∣
2
)
T
Σ
1
∣
2
(
z
1
−
μ
1
∣
2
)
-frac{1}{2}(z_1^T-mu_1^T,z_2^T-mu_2^T) Sigma^{-1}(z_1-mu_1,z_2-mu_2) + frac{1}{2}(z_2 ^T - mu_2^T) Sigma_{22}^{-1} (z_2-mu_2) \ = frac{1}{2}(z_2 ^T - mu_2^T) Sigma_{22}^{-1} (z_2-mu_2)-frac{1}{2}[(z_2^T-mu_2^T) Sigma_{22}^{-1}(z_2 - mu_2)+ \ ((z_1^T-mu_1^T)- (z_2^T-mu_2^T)Sigma_{22}^{-1}Sigma_{21}) (Sigma_{11} -Sigma_{12}Sigma_{22}^{-1}Sigma_{21})^{-1}((z_1-mu_1)-Sigma_{12}Sigma_{22}^{-1}(z_2-mu_2))] \ = -frac{1}{2}[((z_1^T-mu_1^T)- (z_2^T-mu_2^T)Sigma_{22}^{-1}Sigma_{21}) (Sigma_{11} -Sigma_{12}Sigma_{22}^{-1}Sigma_{21})^{-1}((z_1-mu_1)-Sigma_{12}Sigma_{22}^{-1}(z_2-mu_2))] \ = -frac{1}{2}[(z_1^T-(mu_1^T+ (z_2^T-mu_2^T)Sigma_{22}^{-1}Sigma_{21})) (Sigma_{11} -Sigma_{12}Sigma_{22}^{-1}Sigma_{21})^{-1}(z_1-(mu_1+Sigma_{12}Sigma_{22}^{-1}(z_2-mu_2)))] = (z_1-mu_{1|2})^T Sigma_{1|2}(z_1-mu_{1|2})
−21(z1T−μ1T,z2T−μ2T)Σ−1(z1−μ1,z2−μ2)+21(z2T−μ2T)Σ22−1(z2−μ2)=21(z2T−μ2T)Σ22−1(z2−μ2)−21[(z2T−μ2T)Σ22−1(z2−μ2)+((z1T−μ1T)−(z2T−μ2T)Σ22−1Σ21)(Σ11−Σ12Σ22−1Σ21)−1((z1−μ1)−Σ12Σ22−1(z2−μ2))]=−21[((z1T−μ1T)−(z2T−μ2T)Σ22−1Σ21)(Σ11−Σ12Σ22−1Σ21)−1((z1−μ1)−Σ12Σ22−1(z2−μ2))]=−21[(z1T−(μ1T+(z2T−μ2T)Σ22−1Σ21))(Σ11−Σ12Σ22−1Σ21)−1(z1−(μ1+Σ12Σ22−1(z2−μ2)))]=(z1−μ1∣2)TΣ1∣2(z1−μ1∣2)
这个式子可以表示为新的高斯分布,并且我们可以表示一下条件高斯分布中的条件期望和条件方差
μ 1 ∣ 2 = μ 1 + Σ 12 Σ 22 − 1 ( z 2 − μ 2 ) Σ 1 ∣ 2 = Σ 11 − Σ 12 Σ 22 − 1 Σ 21 mu_{1|2} = mu_1+Sigma_{12}Sigma_{22}^{-1}(z_2-mu_2) \ Sigma_{1|2} = Sigma_{11} -Sigma_{12}Sigma_{22}^{-1}Sigma_{21} μ1∣2=μ1+Σ12Σ22−1(z2−μ2)Σ1∣2=Σ11−Σ12Σ22−1Σ21
5.2 条件期望与最优估计
5.2.1 高斯条件分布得到的条件期望的意义
我们可以看我们上面得到的条件均值μ1|2,这里面,相当于,我们本来1和2的信息都不知道,现在了解到了2的信息,我们就可以基于2的信息对1的均值进行适当的调整。
μ 1 ∣ 2 = μ 1 + Σ 12 Σ 22 − 1 ( z 2 − μ 2 ) mu_{1|2} = mu_1+Sigma_{12}Sigma_{22}^{-1}(z_2-mu_2) \ μ1∣2=μ1+Σ12Σ22−1(z2−μ2)
后面部分其实是一个投影,随机矢量1向随机矢量2上的投影,因为1的信息不知道,但是我们知道2的信息,通过把未知的随机矢量往已知的上面靠,能够更好的利用已知信息修正未知量。
Σ 12 Σ 22 − 1 ( z 2 − μ 2 ) Sigma_{12}Sigma_{22}^{-1}(z_2-mu_2) Σ12Σ22−1(z2−μ2)
5.2.2 随机变量的最优线性估计
我们可以看,利用一个随机变量去估计另外一个随机变量会得到什么。我们采用线性估计的方法,用y去估计x
x , y r . v . E ( x ) = E ( y ) = 0 Let x = α y m i n E ( x − α y ) 2 x,y quad r.v. \ E(x) = E(y) = 0\ text{Let }x = alpha y \ min E(x-alpha y)^2 \ x,yr.v.E(x)=E(y)=0Let x=αyminE(x−αy)2
来算一下这个目标函数
f ( α ) = E ( x − α y ) 2 = E ( x 2 − 2 α x y + α 2 y 2 ) = E ( x 2 ) − 2 α E ( x y ) + α 2 E ( y 2 ) d f d α = − 2 E ( x y ) + 2 α E ( y 2 ) = 0 α = E ( x y ) E ( y 2 ) f(alpha)=E(x-alpha y)^2 = E(x^2 - 2 alpha xy + alpha^2 y^2) \ = E(x^2) - 2alpha E(xy) + alpha^2 E(y^2) \ frac{df}{d alpha} = -2 E(xy) + 2alpha E(y^2) = 0 \ alpha = frac{E(xy)}{E(y^2)} f(α)=E(x−αy)2=E(x2−2αxy+α2y2)=E(x2)−2αE(xy)+α2E(y2)dαdf=−2E(xy)+2αE(y2)=0α=E(y2)E(xy)
我们可以发现,x在y上的投影,就是y对x的最优线性估计。
如果我们的随机变量是满足高斯分布的,那么最优的线性估计就是最优估计。因为能够达到卡拉美罗下界。
5.2.3 随机变量的最优估计
但是对于一般的随机变量,y对x的最优估计,是条件期望 E(x|y)
我们也来定义均方意义下的最优估计模型
m i n E ( x − g ( y ) ) 2 g o p t ( y ) = E ( x ∣ y ) E ( x − E ( x ∣ y ) + E ( x ∣ y ) − g ( y ) ) 2 = E ( ( x − E ( x ∣ y ) ) 2 + ( E ( x ∣ y ) − g ( y ) ) 2 + ( x − E ( x ∣ y ) ) ( E ( x ∣ y ) − g ( y ) ) ) = E ( ( x − E ( x ∣ y ) ) 2 ) + E ( ( E ( x ∣ y ) − g ( y ) ) 2 ) + E ( ( x − E ( x ∣ y ) ) ( E ( x ∣ y ) − g ( y ) ) ) min E(x - g(y))^2 \ g_{opt}(y) = E(x|y) \ E(x-E(x|y) + E(x|y) -g(y))^2 \ = E((x-E(x|y))^2 + (E(x|y) -g(y))^2 + (x-E(x|y))(E(x|y) - g(y)) ) \ = E((x-E(x|y))^2) + E((E(x|y) -g(y))^2) + E((x-E(x|y))(E(x|y) - g(y))) minE(x−g(y))2gopt(y)=E(x∣y)E(x−E(x∣y)+E(x∣y)−g(y))2=E((x−E(x∣y))2+(E(x∣y)−g(y))2+(x−E(x∣y))(E(x∣y)−g(y)))=E((x−E(x∣y))2)+E((E(x∣y)−g(y))2)+E((x−E(x∣y))(E(x∣y)−g(y)))
我们证明一下交叉项为0
E ( ( x − E ( x ∣ y ) ) ( E ( x ∣ y ) − g ( y ) ) ) = E y E x [ ( ( x − E ( x ∣ y ) ) ( E ( x ∣ y ) − g ( y ) ) ) ∣ y ] = E y ( ( E ( x ∣ y ) − g ( y ) ) E x ( x − E ( x ∣ y ) ) ∣ y ) = E y ( ( E ( x ∣ y ) − g ( y ) ) ( E ( x ∣ y ) − E ( x ∣ y ) ) ) = 0 E((x-E(x|y))(E(x|y) - g(y))) \ = E_y E_x[((x-E(x|y))(E(x|y) - g(y)))|y] \ = E_y ((E(x|y) - g(y) ) E_x(x-E(x|y))|y) \ = E_y((E(x|y) - g(y) )(E(x|y)-E(x|y))) = 0 E((x−E(x∣y))(E(x∣y)−g(y)))=EyEx[((x−E(x∣y))(E(x∣y)−g(y)))∣y]=Ey((E(x∣y)−g(y))Ex(x−E(x∣y))∣y)=Ey((E(x∣y)−g(y))(E(x∣y)−E(x∣y)))=0
所以目标函数变成了
E ( x − g ( y ) ) 2 = E ( ( x − E ( x ∣ y ) ) 2 ) + E ( ( E ( x ∣ y ) − g ( y ) ) 2 ) E(x - g(y))^2 = E((x-E(x|y))^2) + E((E(x|y) -g(y))^2) E(x−g(y))2=E((x−E(x∣y))2)+E((E(x∣y)−g(y))2)
这是两个平方和的期望,如果希望最小,必定有
g o p t ( y ) = E ( x ∣ y ) g_{opt}(y) = E(x|y) gopt(y)=E(x∣y)
因此,我们知道了,一般的随机变量的最优估计,是条件期望。如果是用y估计x就是E(x|y)
5.2.4 条件高斯分布的条件方差
我们再来看一下这个条件方差
Σ 1 ∣ 2 = Σ 11 − Σ 12 Σ 22 − 1 Σ 21 Sigma_{1|2} = Sigma_{11} -Sigma_{12}Sigma_{22}^{-1}Sigma_{21} Σ1∣2=Σ11−Σ12Σ22−1Σ21
因为协方差都是大于0的,因此这个条件方差必然比z1的方差会小。因为条件期望,使得某些部分得到了确定,随机性就变小了,方差也就小了
并且这个条件方差必然大于0。不仅仅是从定义角度来看成立。而且也是一个柯西不等式
σ 11 ≥ σ 12 2 σ 22 ⇒ σ 12 2 ≤ σ 11 σ 22 ⇒ ∣ < x , y > ∣ 2 ≤ < x , x > < y , y > sigma_{11} geq frac{sigma_{12}^2}{sigma_{22}} \ Rightarrow sigma_{12}^2 leq sigma_{11} sigma_{22} \ Rightarrow|<x,y>|^2 leq <x,x> <y,y> σ11≥σ22σ122⇒σ122≤σ11σ22⇒∣<x,y>∣2≤<x,x><y,y>
最后
以上就是搞怪歌曲为你收集整理的【随机过程】8 - 多元高斯分布及其线性性质多元高斯分布及其线性性质的全部内容,希望文章能够帮你解决【随机过程】8 - 多元高斯分布及其线性性质多元高斯分布及其线性性质所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复