我是靠谱客的博主 隐形月饼,最近开发中收集的这篇文章主要介绍论文阅读——Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding网络结构 ,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

论文链接:

[2203.00867] Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding (arxiv.org)

代码链接:

DQiaole/ZITS_inpainting: Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding (CVPR2022) (github.com)

本文创新点:使用transformer对图像结构进行修复,作为修复图像的辅助信息;

网络结构 

 

Transformer Structure Restoration

为了减少计算复杂度,交替使用轴向注意力和标准注意力。标准的注意力的计算复杂度为,而轴向注意力的计算复杂度为

轴向注意力

其中,为X 的第 i、j 行特征向量,为X 的第 i、j 列特征向量,为第 i 行和第 j 行之间的相对位置编码。

使用二元交叉熵进行优化, 

 其中,Il为ground truth。

Simple Structure Upsampler

首先对线条进行上采样,然后通过网络的泛化得到高分辨率的边缘图。

ZeroRA Structure Enhanced Inpainting

Fourier CNN Texture Restoration (FTR)

FTR主要由下采样、自编码器和上采样三个部分构成。关键模块是Fast Fourier Convolution (FFC) layer,主要有两个分支:一个是局部分支使用常规卷积,另一个是全局分支在快速傅里叶变换后对特征进行卷积。

Structure Feature Encoder (SFE)

SFE是一个自编码器模型,主要由 3 层下采样门控卷积(编码器)、3层带扩张卷积的残差块和3层上采样门控卷积(解码器)。门控卷积选择性地传输有用的特征,输入到 FTR。

 其中,S为最后一个残差块和3个解码器层从粗到精的特征映射。

Masking Positional Encoding (MPE).

用全为1的3*3卷积核计算每个位置的掩码距离Ddis,通过正弦位置编码(SPE)对距离进行裁剪和映射得到 

其中,i为通道索引,Dmax=128,d=64,为Pdis总通道数。

对于掩码方向,用4个不同的二进制卷积核来获得4通道one-hot向量

Ddir 的值取决于哪个卷积核首先覆盖掩码区域。Ddir表示从掩码位置到未掩码位置的最近方向。然后将Ddir投影到具有d维特征的参数空间

Zero-initialized Residual Addition (ZeroRA)

对于给定的输入特征x,经过跳跃连接,得到输出特征x' 。

其中,α从零初始化。

 在本文中用ZeroRA 将结构信息从SFE添加到FTR

 

最后

以上就是隐形月饼为你收集整理的论文阅读——Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding网络结构 的全部内容,希望文章能够帮你解决论文阅读——Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding网络结构 所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(47)

评论列表共有 0 条评论

立即
投稿
返回
顶部