【GAN优化】GAN训练的小技巧

203 阅读 0 评论 134 点赞

我是靠谱客的博主正直大白，这篇文章主要介绍【GAN优化】GAN训练的小技巧，现在分享给大家，希望可以做个参考。

头一阵子放假了，专栏都没有怎么更新了，今天开始继续更新（想问问小伙伴们都放了多久的假期？我们只有两周感觉时间好短呀~）

作者&编辑 | 小米粥

上一期中，我们说明了GAN训练中的几个问题，例如由于把判别器训练得太好而引起的梯度消失的问题、通过采样估算距离而造成偏差的问题、minmax问题不清晰以及模式崩溃、优化选择在参数空间而非函数空间的问题等，今天这篇小文将从博弈论的角度出发来审视一下GAN训练时的问题，说明训练GAN其实是在寻找纳什均衡，然后说明达到纳什均衡或者说损失函数收敛是很难的，并最后给出了3个稳定训练的小技巧。

1 博弈论与GAN

大家对GAN的基本模型想必已经非常熟悉了，我们先从博弈论的角度来重新描述GAN模型。游戏中有两个玩家：D（判别器）和G（生成器），D试图在判别器的参数空间上寻找最好的解使得它的损失函数最小：

640?wx_fmt=jpeg

G也试图在生成器的参数空间上寻找最好的解使得它的损失函数最小：

640?wx_fmt=jpeg

需要说明，D和G并不是彼此独立的，对于GAN，整个博弈是“交替进行决策”的。例如先确定生成器G的参数，则D会在给定的G的参数的条件下更新判别器的参数以此最小化D的损失函数，如下面中蓝线过程（提升D的辨别能力）；接着G会在给定的D的参数的条件下更新判别器的参数以此来最小化G的损失函数，如下面中绿线过程（提升G的生成能力）......直到达到一个稳定的状态：纳什均衡。

640?wx_fmt=jpeg

在纳什均衡点，两者的参数到达一种“制衡”状态。在给定G的参数情况下，D当前的参数便对应了D损失函数的最小值，同样在给定D的参数情况下，G当前的参数便对应了G损失函数的最小值，也就是说在交替更新过程中，D和G均不可能单独做出任何改变。

解空间中可能存在多个纳什均衡点，而且纳什均衡点并不意味着全局最优解，但是是一种经过多次博弈后的稳定状态，所以说GAN的任务是并非寻找全局最优解，而是寻找一个纳什均衡状态，损失函数收敛即可。在损失函数非凸、参数连续、参数空间维度很高的情况下，不可能通过严格的数学计算去更新参数从而找到纳什均衡，在GAN中，每次参数更新（对应蓝线、绿线表示的过程）使用的是梯度下降法；另外，每次D或者G对自身参数更新都会减少自身的损失函数同时加大对方的损失函数，这导致了寻找GAN的纳什均衡是比较困难的。

这里有一个比GAN简单多的例子表明很多时候纳什均衡的状态难以达到：

640?wx_fmt=jpeg

使用梯度下降法发现x,y在参数空间中并不会收敛到纳什均衡点(0,0)，损失函数的表现为：不收敛。

640?wx_fmt=jpeg

针对GAN训练的收敛性问题，我们接下来将介绍几种启发式的训练技巧。

2 特征匹配

在GAN中，判别器D输出一个0到1之间的标量表示接受的样本来源于真实数据集的概率，而生成器的训练目标就是努力使得该标量值最大。如果从特征匹配(feature matching)的角度来看，整个判别器D(x)由两部分功能组成，先通过前半部分f(x)提取到样本的抽象特征，后半部分的神经网络根据抽象特征进行判定分类，即

640?wx_fmt=jpeg

f(x)表示判别器中截止到中间某层神经元激活函数的输出。在训练判别器时，我们试图找到一种能够区分两类样本的特征提取方式f(x)，而在训练生成器的时候，我们可以不再关注D(x)的概率输出，我们可以关注：从生成器生成样本中用f(x)提取的抽象特征是否与在真实样本中用f(x)提取的抽象特征相匹配，另外，为了匹配这两个抽象特征的分布，考虑其一阶统计特征：均值，即可将生成器的目标函数改写为：

640?wx_fmt=jpeg