最大似然和EM算法最大似然EM算法

228 阅读 0 评论 151 点赞

我是靠谱客的博主寂寞小松鼠，这篇文章主要介绍最大似然和EM算法最大似然EM算法，现在分享给大家，希望可以做个参考。

最大似然

你知道一个分布，但是不知道分布的具体参数，比如你知道学校男生身高分布服从高斯分布，但是你不知道其参数，即 $θ = [u, σ]$ 。这是就可以使用最大似然来求解参数。
首先需要从该分布中采样获取数据，比如你获取了 $N$ 个数据，就可以得到其似然函数，如下：
$L(theta)=L(x_1,dots,x_n;theta)=prod_{i=1}^Np(x_i;theta)$
其中，每次采样获得的 $x_i$ 都是独立同分布服从 $N (u, σ)$ ，所以似然函数可以理解为采样获得这组数据的概率。
为了求得参数 $θ ^ hat{theta}$ ，我们只要求：
$hat{theta}=argmax_thetalog L(theta)$
那为什么 $θ ^ hat{theta}$ 就是我们所需要的参数呢，这个就是最大似然的思想：采样得到的数据客观来讲就是概率最大数据。举个最简单的例子，从装有8个黑球和2个红球的袋子中随机取出一个球，在没看到这个球的颜色前，要你猜一个你肯定会猜是黑色的。如果还是不理解可以参考下面的链接。

EM算法

EM算法是在最大似然的基础上的，就刚刚学校男生身高的例子中，如果给你采样的数据中有男生也有女生，明显男生女生身高服从不同的分布，那如何来求出我们所需要的 $θ$ 呢？这边我们需要引入隐变量 $Z$ 。同样我们还是要最大化似然函数，为了方便我们记似然函数为：
$L (θ) = p (X ∣ θ)$
这个和上面的似然函数的表达式是等价的， $X$ 就是我们采样得到的数据。

算法推导一

目标：
$hat{theta}=argmax_thetalog p(X|theta)$
$\ &=log frac{p(X,Z|theta)}{q(Z)}-log frac{p(Z|X,theta)}{q(Z)}(引入概率密度q(Z)不为0) end{aligned}$
等号两边都乘以 $q (Z)$ ，然后对 $Z$ 积分，得到：
$lo g p (X ∣ θ) = E L B O + K L (q ∣ ∣ p)$
$KL(q||p)=int_Zq(Z)log frac{p(Z|X,theta)}{q(Z)}dZge0$ ，可以用jensen不等式证明。
补充jensen不等式：

如果 $f (x)$ 为凸函数，则 $E [f (x)] \geq f (E [x])$ ，凹函数则相反。上式等号成立时， $p ( Z ∣ X , θ ) q ( Z ) frac{p(Z|X,theta)}{q(Z)}$ 取常数，即 $p ( Z ∣ X , θ ) q ( Z ) = c frac{p(Z|X,theta)}{q(Z)}=c$ ， $int_Zp(Z|X,theta)dZ=cint_Zq(Z)dZRightarrow c=1$ ，所以得 $q(Z)=p(Z|X,theta^{(t)})$ 。

我们取 $q(Z)=p(Z|X,theta^{(t)})$ ，EM算法为迭代算法， $theta^{(t)}$ 为上一轮得到的 $θ ^ hat{theta}$ 。
那么我们要求使得 $lo g p (X ∣ θ)$ 最大的 $θ$ 值，而ELBO是其下届，我们只要不断最大化下届即可，如下式：
$hat{theta}&=argmax_theta ELBO\ &=argmax_thetaint_Zp(Z|X,theta^{(t)})logfrac{p(X,Z|theta)}{p(Z|X,theta^{(t)})}dZ\ &=argmax_thetaint_Zp(Z|X,theta^{(t)})log p(X,Z|theta)dZ end{aligned}$
最后的EM算法总结为：
E-step:
$q(Z)=p(Z|X,theta^{(t)})$
M-step:
$hat{theta}=argmax_thetaint_Zp(Z|X,theta^{(t)})log p(X,Z|theta)dZ$
循环E-step，M-step，直到参数 $θ$ 收敛。

算法推导二

目标函数还是一样的，但是处理方式不同，如下：
$int_Zp(X,Z|theta)dZ \ &=log int_Zfrac{p(X,Z|theta)}{q(Z)}q(Z)dZ\ &=log E_{q(Z)}[frac{p(X,Z|theta)}{q(Z)}](使用jensen不等式)\ &ge E_{q(Z)}[logfrac{p(X,Z|theta)}{q(Z)}] end{aligned}$
等号成立时， $p(X,Z|theta^{(t)})=cq(Z)$ ，两边对 $Z$ 积分得：
$&int_Z p(X,Z|theta^{(t)})dZ=cint_Zq(Z)dZ\ &Rightarrow c=p(X|theta^{(t)})\ &q(Z)=frac{p(X,Z|theta^{(t)})}{c}=frac{p(X,Z|theta^{(t)})}{p(X|theta^{(t)})}=p(Z|X,theta^{(t)}) end{aligned}$
结论和上面一致。
参考：
https://blog.csdn.net/zouxy09/article/details/8537620
https://www.bilibili.com/video/av31906558/?p=1