CVPR2020 GAN论文整理

295 阅读 0 评论 195 点赞

我是靠谱客的博主魁梧水壶，这篇文章主要介绍CVPR2020 GAN论文整理，现在分享给大家，希望可以做个参考。

点击上方“机器学习与生成对抗网络”，关注"星标"

获取有趣、好玩的前沿干货！

来自 | 知乎

地址 | https://zhuanlan.zhihu.com/p/114303075

作者 | 江山如画

文仅交流，侵删

笔者做过一篇CVPR2020人脸GAN的论文速递：人脸图像GAN，今如何？（附多篇论文下载），可在公众号后台回复 001 即可获取打包下载9篇人脸GAN论文。今天分享一篇在知乎上看到的更详细的汇总：

以后会持续更新，希望大家能够一起探讨，共同学习，有兴趣可以私信我。

5月21日已更新，增加1篇，共41篇。

1、Interpreting the Latent Space of GANs for Semantic Face Editing

https://genforce.github.io/interfacegan/ genforce.github.io

CUHK Bolei Zhou团队的文章，第一作者Yujun Shen目前在FacekBook做Research intern。该文章主要讲对已经训练好的GAN进行编辑，训练超平面，将图像的特征和latent code对应起来，通过编辑latent code距离超平面的距离来控制图像的特征信息。主要的实验是在StyleGAN和ProGAN上进行的。目前从效果上来看尚未能够完全的将特征解耦。由于我比较关注ID信息，发现变化过程中ID信息难以维持。这篇文章挂出来比较久，应该很多人都知道了。

2、Image Processing Using Multi-Code GAN Prior

https://arxiv.org/pdf/1912.07116.pdf arxiv.org

和第一篇文章是相同团队的作品，所以研究内容也是一脉相承。该文章主要讲利用已经训练好额GAN网络对训练集不可见domain图像的重构，同样也是在styleGAN和proGAN上进行试验的。由于单一噪声学习到的是训练集的分布，所以为了完成对未知domain图像的重构，作者采用多个噪声输入。作者认为“每一个噪声无法重构完整的图像，但是能够重构出图像的一部分内容，所以多个噪声联合，便能够重构出完整的图像”。当然，如果在噪声域进行联合，则依然跳不出噪声的分布，所以是在生成器的中间层，多特征进行融合。最终效果也是非常好，对于不可见图像完成逼真的重构。该方法可以作为无监督的方法实现图像的超分、去噪、上色等等。具有较大的应用价值，强烈推荐。

3、Cascade EF-GAN: Progressive Facial Expression Editing with Local Focuses

https://arxiv.org/pdf/2003.05905.pdf arxiv.org

该文章主要实现的是人脸表情编辑。

4、Alleviation of Gradient Exploding in GANs: Fake Can Be Real

https://arxiv.org/pdf/1912.12485.pdf arxiv.org

GAN的判别。

5、Noise Robust Generative Adversarial Networks

https://arxiv.org/pdf/1911.11776.pdf arxiv.org

这篇文章讲的是在有噪声的训练集上训练GAN网络生成无噪声的图像，并且不需要预先给定噪声的分布数值。后续作者又挂出了该文章的升级版《Blur, Noise, and Compression Robust Generative Adversarial Networks》（arxiv.org/pdf/2003.0784）

6、PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models

https://arxiv.org/pdf/2003.03808.pdf arxiv.org

这篇文章是Duke大学的文章，与第二篇文章相同，同样是实现不同domain图像的重构，我看了一下，可能没懂。我感觉作者认为噪声分布能够重构出其他domain的图像。latent code对应的一个超球面上分布，基于梯度的方法无法实现在球面的上优化，而是使得latent code向球心运动，所以为了重构出其他domain的数据，需要一些技巧在球面上移动latent code。

7、A Characteristic Function Approach to Deep Implicit Generative Modeling

https://arxiv.org/pdf/1909.07425.pdf arxiv.org

该文章类似于WGAN-GP，讲的是GAN的基础架构,。

8、Your Local GAN: Designing Two Dimensional Local Attention Mechanisms for Generative Models

https://arxiv.org/pdf/1911.12287.pdf arxiv.org

该文章讲的是一种稀疏的注意力机制，作者认为，不仅在GAN上，在其他注意力相关任务上也可以应用。

9、Semantic Pyramid for Image Generation

https://arxiv.org/pdf/2003.06221.pdf arxiv.org

该文章讲利用训练好的分类等提取高层语义的网络，通过不同layer的加入融合，来控制生成图像。语义信心越low，则图像越和输入接近，否则和输入变化越大，只是保留相同的语义。

10、MSG-GAN: Multi-Scale Gradient GAN for Stable Image Synthesis

https://arxiv.org/pdf/1903.06048.pdf arxiv.org

这篇文章和proGAN比较类似，不同的是proGAN是逐层渐进训练的，而该方法是每一层都约束，由于该文章比较早就挂出来了，网上讲解的有很多。这里便不做过多介绍。

11、From Patches to Pictures (PaQ-2-PiQ): Mapping the Perceptual Space of Picture Quality

PaQ-2-PiQ baidut.github.io

严格来说，这并不是一篇GAN的文章。而是一种图像质量的评价方法，近年来已经有很多文章研究真实的感知损失，替代在一些情况下容易失效的L1和L2 Loss。而我们知道在GAN的训练中，除了GANloss之外，其他的Loss也同样重要，所以研究感知损失，也是和GAN息息相关的。

12、CNN-generated images are surprisingly easy to spot... for now

https://arxiv.org/pdf/1912.11035.pdf arxiv.org

同样，该文章也不是GAN方法的文章。而是讲述如何区分真实的图像和GAN生成的图像。那么作为“强大的敌人”，如果将其引入到GAN的鉴别器中，应该对GAN质量的提高带来一定的帮助。

13、Face X-ray for More General Face Forgery Detection

https://arxiv.org/pdf/1912.13458.pdf arxiv.org

这篇文章与第12篇属于相同的范畴，不做不过介绍，对GAN和真实图像区分感性的同学可以看看。

14、Watch your Up-Convolution: CNN Based Generative Deep Neural Networks are Failing to Reproduce Spectral Distributions

https://arxiv.org/pdf/2003.01826.pdf arxiv.org

这篇文章是从频率的角度来讲GAN损失情况，也就是对真实图像和GAN生成的图像进行频谱分析，发现即便是styleGAN这种效果卓群的网络，在频域上依然与真实的图像存在差异，为此设计添加频率约束的生成网络，保证了生成图像的质量。

15、On Positive-Unlabeled Classification in GAN

https://arxiv.org/pdf/2002.01136.pdf arxiv.org

该文章的主要思路是，鉴别器判断图像的质量而不是图像的real和fake，通过该方式提高生成图像的质量。

16、GAN Compression: Efficient Architectures for Interactive Conditional GANs

https://arxiv.org/pdf/2003.08936.pdf arxiv.org

该文章讲述的是GAN的压缩方法，在保证GAN效果的同时，能够大大降低生成器的冗余，在pixel2pixel，cycleGAN等条件GAN网络上取得了显著的效果，压缩率超过了1/9。

17、BachGAN: High-Resolution Image Synthesis from Salient Object Layout

https://arxiv.org/pdf/2003.11690.pdf arxiv.org

从布局生成图像的方法，相较于GauGAN从语义生成图像，该方法对于用户的输入要求更低，只需要给出几个boundingbox便可以生成图像。同样任务论文，arxiv也新挂出来一篇，感兴趣的可以看看arxiv.org/pdf/2003.1169。这个领域应该是一个月来越得到重视的GAN的子领域。

18、Controllable Person Image Synthesis with Attribute-Decomposed GAN

https://arxiv.org/pdf/2003.12267.pdf arxiv.org

北大和字节跳动的文章，主要是描写人物的合成，从文章给出的图来看效果还是很好的，可以提取不同人的特征组合出一个新的人物来，实现控制一个人的姿势穿着等等。

19、Augmenting Colonoscopy using Extended and Directional CycleGAN for Lossy Image Translation

https://arxiv.org/pdf/2003.12473.pdf arxiv.org

主要是cycleGAN在医学图像转换中的应用，但是文章提出的训练技巧在所有的cycleGAN相关任务中应该都能够有着较好的应用，对于使用cycleGAN的人还是值得一看的。

20、Adversarial Feature Hallucination Networks for Few-Shot Learning

https://arxiv.org/pdf/2003.13193.pdf arxiv.org

利用条件WGAN实现特征的合成，进而实现分类的数据集扩增。

21、One-Shot Domain Adaptation For Face Generation

https://arxiv.org/pdf/2003.12869.pdf arxiv.org

FAIR的文章，利用已经训练好的styleGAN网络，反向编辑latent code，再微调GAN网络。生成和单张target image具有相同分布图像，实现数据集扩增。该文章已经完成解析，详见

江山如画：One-Shot Domain Adaptation For Face Generation论文解析 zhuanlan.zhihu.com

22、Semantically Mutil-modal Image Synthesis

https://arxiv.org/pdf/2003.12697.pdf arxiv.org

华中科大的文章，利用语义生成图像，GroupDNet—— Group Decreasing Network。网络非常规地采用群卷积，并修改卷积的组数以减少解码器中的数量，从而大大提高了训练效果。

23、StyleRig: Rigging StyleGAN for 3D Control over Portrait Images

https://arxiv.org/pdf/2004.00121.pdf arxiv.org

将styleGAN和3DMM结合在一起，优势互补，利用训练好的styleGAN在自监督模式下，学习3DMM输入的特性，实现特定属性的人脸编辑。

24、Guided Variational Autoencoder for Disentanglement Learning

https://arxiv.org/pdf/2004.01255.pdf arxiv.org

这不是一篇GAN的文章，而是VAE。但是GAN和VAE并不分家，所以VAE的文章也一并整理了。一种可以实现解纠缠的VAE算法，在表示学习和元学习中都有着应用价值。

25、S2A: Wasserstein GAN with Spatio-Spectral Laplacian Attention for Multi-Spectral Band Synthesis

https://arxiv.org/pdf/2004.03867.pdf arxiv.org

该文章主要针对卫星图的合成问题，通过时空拉普拉斯频谱注意力机制进行合成。

26、PatchVAE: Learning Local Latent Codes for Recognition

https://arxiv.org/pdf/2004.03623.pdf arxiv.org

这篇文章是一篇VAE的文章，主要贡献点在于提出了一种基于patch的无监督VAE方法，并且利用 bottleneck formulation实现了中间层的表示。

27、Attentive Normalization for Conditional Image Generation

Attentive Normalization for Conditional Image Generation arxiv.org

相较于传统GAN方法，进行了远程依赖关系建模。并且通过注意力归一化（AN）实现远程依赖关系，具体地，基于输入特征图的内部语义相似度将输入特征图软划分成几个区域，并分别进行归一化。它通过语义对应关系增强了遥远区域之间的一致性。与自我注意力GAN相比，注意力归一化不需要测量所有位置的相关性，因此可以直接应用于大型特征图而无需太多计算负担。

PS：今年已经有好几篇关于attention相关的GAN文章了，这个方向值得研究一下，近期会选择一篇尽心解析。

28、Semantic Image Manipulation Using Scene Graphs

https://arxiv.org/pdf/2004.03677.pdf arxiv.org

图像到语义图再到图像得到处理过程，利用GAN对图像进行编辑。

29、Cross-domain Correspondence Learning for Exemplar-based Image Translation

https://arxiv.org/pdf/2004.05571.pdf arxiv.org

一种图像生成的框架，该框架从给定示例图像的不同域（例如语义分割蒙版或边缘贴图或姿势关键点）的输入中合成出逼真的图像，该合成的图像与示例图像具有相似的风格（文理等）。

30、MixNMatch: Multifactor Disentanglement and Encoding for Conditional Image Generation

https://arxiv.org/pdf/1911.11758.pdf arxiv.org

在FineGAN基础上，通过最小监督，实现输入特征的解纠缠，融合多种输入生成目标图像，可以用在sketch2color，cartoon2img和img2gif应用程序。

31、MineGAN: effective knowledge transfer from GANs to target domains with few images

https://arxiv.org/pdf/1912.05270.pdf arxiv.org

提出了一种知识迁移的生成方法，训练一个 identifies网络，在多个domain中训练选择最接近target domain的部分。实现在target domain的良好泛化。

32、Normalizing Flows with Multi-Scale Autoregressive Priors

https://arxiv.org/pdf/2004.03891.pdf arxiv.org

通过多尺度自回归先验（mAR）在潜在空间中引入基于通道的依赖关系，从而提高了基于流的模型的表示能力。对于具有分离式耦合流动层（mAR-SCF）的模型，mAR先验技术可以更好地捕获复杂多峰数据中的依存关系，提高生成网络的效果。

33、Semi-supervised Learning for Few-shot Image-to-Image Translation

https://arxiv.org/pdf/2003.13853.pdf arxiv.org

半监督方法，应用了循环一致性约束，通过噪声伪标签实现image的domain transfer，原域和目标域的数据都需求较少。

34、Panoptic-based Image Synthesis

https://arxiv.org/pdf/2004.10289.pdf arxiv.org

之前的条件图像合成算法主要依赖于语义图，在多个示例互相遮挡的情况下容易失败。本文提出了一种全景感知图像合成网络，在卷积和上采样层中有效地使用了全景图，以生成以全景图为条件的高保真度和真实感图像，该全景图将语义和实例信息统一起来。该方法在mIoU和detAP的度量标准方面也优于以前的最新方法。

35、Adversarial Latent Autoencoders

https://arxiv.org/pdf/2004.04467.pdf arxiv.org

无监督方式的自动编码网络，通过编解码的方式生成特定属性。可以利用GAN方式进行训练。设计了两种自动编码器：一种基于MLP编码器，另一种基于StyleGAN生成器，将其称为StyleALAE。并且验证两种体系结构的解缠结特性。显示，StyleALAE不仅可以生成质量与StyleGAN相当的1024x1024人脸图像，而且在相同的分辨率下还可以基于真实图像生成人脸重建和操作。

36、Disentangled and Controllable Face Image Generation via 3D Imitative-Contrastive Learning

https://arxiv.org/pdf/2004.11660.pdf arxiv.org

联合3D和对抗网络的精确人脸属性控制方法。文章中展示的效果还是很不错的，值得一读。

37、Deep 3D Portrait from a Single Image

https://arxiv.org/pdf/2004.11598.pdf arxiv.org

与36相同团队的文章，由单张图非监督的人头像3D重构。

38、Neural Head Reenactment with Latent Pose Descriptors

https://arxiv.org/pdf/2004.12000.pdf arxiv.org

也是人脸属性控制的方法，在姿势和表情上都能够有很好的效果。

39、StereoGAN: Bridging Synthetic-to-Real Domain Gap by Joint Optimization of Domain Translation and Stereo Matching

https://arxiv.org/pdf/2005.01927.pdf

实现图像的domain迁移和立体匹配框架，引入了两个新颖的损失，即双向多尺度特征重投影损失和相关一致性损失。