【机器学习系列】变分推断第三讲：基于随机梯度上升法SGD的变分推断解法一、本文结论二、问题分析三、公式推导四、重参数化技巧

96 阅读 0 评论 64 点赞

我是靠谱客的博主大力小兔子，这篇文章主要介绍【机器学习系列】变分推断第三讲：基于随机梯度上升法SGD的变分推断解法一、本文结论二、问题分析三、公式推导四、重参数化技巧，现在分享给大家，希望可以做个参考。

作者：CHEONG

公众号：AI机器学习与知识图谱

研究方向：自然语言处理与知识图谱

阅读本文之前，首先注意以下两点：

1. 机器学习系列文章常含有大量公式推导证明，为了更好理解，文章在最开始会给出本文的重要结论，方便最快速度理解本文核心。需要进一步了解推导细节可继续往后看。

2. 文中含有大量公式，若读者需要获取含公式原稿Word文档，可关注公众号【AI机器学习与知识图谱】后回复：变分推断第三讲，可添加微信号【17865190919】进学习交流群，加好友时备注来自CSDN。原创不易，转载请告知并注明出处！

本文将先对变分推断所要解决的问题进行分析，然后给出基于随机梯度上升法的变分推断解法。

一、本文结论

结论1： 变分推断的主要思想：在给定数据集 $X$ 下，问题是求后验概率 $p$ ，简单情况下后验概率 $p$ 可直接通过贝叶斯公式推导求出，但有些情况无法直接求解。因此变分推断想法是先假设另一个简单的概率分布 $q$ ，如高斯分布，通过优化 $p$ 和 $q$ 之间距离最小化，让概率分布 $q$ 逼近 $p$ ，这样就可以用概率分布 $q$ 近似表示后验概率 $p$ 。

结论2： 基于随机梯度上升法主要思路就是对优化的目标函数 $q^*=argmax_qELBO$ 求梯度的过程。最后使用MCMC采样的方式近似求出梯度，并且考虑到求解出梯度近似值的稳定性，使用了重参数化技巧Reparameterization Trick。在梯度求出之后便可使用迭代方式求出参数。

二、问题分析

在上一节详细介绍了变分推断所要解决的问题，下面我们首先重新明确优化的目标函数

在这里插入图片描述

其中：

在这里插入图片描述

为了表示方便，这里假设 $q (z)$ 中 $z$ 是关于参数 $ϕ$ 的函数，这样优化函数就变成：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RYM5IxiA-1617961098543)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image024.png)]

在明确了优化函数后，接下来就通过随机梯度上升法求解，因此下面通过公式推导求求梯度。

三、公式推导

下面是 $L (ϕ)$ 关于 $ϕ$ 求梯度的过程：

在这里插入图片描述

这里为了方便表示，做以下赋值操作，用 $A$ 表示公式前半部分，用 $B$ 表示公式后半部分：

在这里插入图片描述

先看 $B$ 项，其中 $logp_theta(x,z)$ 与 $L (ϕ)$ 无关，所以有：

在这里插入图片描述

所以最终化简可得 $B$ 项为0，所以原始公式就只剩下 $A$ 项：

在这里插入图片描述

所以可以将上述式子写成 $q_phi$ 期望的形式如下：

在这里插入图片描述

这样我们就将 $L (ϕ)$ 关于 $ϕ$ 的梯度求出来了，是一个关于 $q_phi$ 的期望，就可以通过MCMC采样的方式把梯度具体表示出来，知道了梯度便可以利用梯度上升法进行求解了。首先通过MCMC采样法对 $z$ 进行采样， $z^l sim q_{phi}, l=1,2,...,L$ ，得到 $L (ϕ)$ 关于 $ϕ$ 的梯度为：