【论文阅读】人脸对齐|特征点定位《3FabRec: Fast Few-shot Face alignment by Reconstruction》

396 阅读 0 评论 262 点赞

我是靠谱客的博主英勇曲奇，这篇文章主要介绍【论文阅读】人脸对齐|特征点定位《3FabRec: Fast Few-shot Face alignment by Reconstruction》，现在分享给大家，希望可以做个参考。

《3FabRec: Fast Few-shot Face alignment by Reconstruction》（CVPR 2020）
论文链接
源代码

摘要

目前有监督的人脸特征点检测方法需要大量的训练数据，且由于参数量大，容易在特定的数据集上过拟合。这篇论文引入了半监督学习，其关键思想是从现有的大量无标签的人脸图像中生成隐含的人脸知识。首先在无监督的阶段，训练一个对抗自编码器通过低维的人脸嵌入来重建人脸。然后在监督学习阶段，将解码器与传输层交错，以重新处理彩色图像的生成，预测特征点热图。所设计的框架(3FabRec)在几个常见基准数据集上实现了最先进的性能，且能够在极少训练集上保持惊人的准确性，少至仅10张图像。由于交错层只向解码器添加少量参数，整个推理在GPU上以几百帧每秒的速度运行。

介绍

对特征点的定位严重受到遮挡、姿态变化、不均匀照明或极端面部表情等大的非刚性变形的影响。于是应尽可能利用在当前pool下，包含的关于人脸形状的隐含知识，确保跨数据集下更好的泛化。
论文提出的框架（3FabRec），基于一个两级架构。关键在于首先，一个对抗自编码器在大型人脸数据集上被训练（无监督的），产生一个低维的嵌入，这个嵌入捕获了“face knowledge”，能够通过各种外观来重建人脸图像。在第二个阶段（监督学习），在有标签数据集上训练定位特征点任务，在这里，生成器被重新要求通过生成概率热图来预测一组特征点的位置。
这个方法能够在标准数据集上以>300帧每秒的运行获得先进的结果。重构编码器图像能够“explain away”外部因素，如遮挡或化妆，产生最佳拟合的面部形状，以便精确定位。

方法

用无监督学习，利用大型人脸数据集中关于人脸形状的“implicit knowledge”。这个知识是在自编码器框架的低维潜在空间中捕获的。该自编码器还具有生成功能，即在训练时，任务是根据潜在向量重建人脸。
监督阶段，实现了一种混合重建管道（hybrid reconstruction pipeline），该管道使用生成器和交叉传输层来重建面部和概率特征点热图。因此，潜在向量空间的变化将在监督学习下被映射到特征点的位置。鉴于在无监督阶段已经捕获了关于面部外观和脸型的知识，这些信息将在监督阶段迅速被明确，故而支持了跨数据集的泛化。

无监督学习

通过四个损失函数训练对抗自编码器，含L_rec、L_enc、L_adv。由于方法中预测的特征点位置直接来自于重构的面部元素的位置。训练自编码器的首要任务就是准确地重建这些特征，由此引入structural image loss（L_cs）。最终训练是所有损失项的加权和。

Structural image loss

为了惩罚那些没有很好地将面部结构与输入图像对齐的重建，而添加的一个基于SSIM图像相似性度量的结构图像损失。

监督学习

对于特征点的检测，主要感兴趣的不是生成RGB图像，而是包含特征点概率图的L通道图像。这可以看作是一种样式转换的形式，在这种形式中，生成的人脸外观被转换为允许我们读取特征点位置的表示。所以目标是在不丢失从大量(无标记)图像中提取的面部知识的情况下，创建这种转换。为此，在生成器G中引入了额外的交叉传输层。
之后进行编译器的整合。