论文阅读——Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding网络结构

86 阅读 0 评论 57 点赞

我是靠谱客的博主隐形月饼，这篇文章主要介绍论文阅读——Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding网络结构，现在分享给大家，希望可以做个参考。

论文链接：

[2203.00867] Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding (arxiv.org)

代码链接：

DQiaole/ZITS_inpainting: Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding (CVPR2022) (github.com)

本文创新点：使用transformer对图像结构进行修复，作为修复图像的辅助信息；

网络结构

Transformer Structure Restoration

为了减少计算复杂度，交替使用轴向注意力和标准注意力。标准的注意力的计算复杂度为，而轴向注意力的计算复杂度为。

轴向注意力

其中，、为X 的第 i、j 行特征向量，、为X 的第 i、j 列特征向量，为第 i 行和第 j 行之间的相对位置编码。

使用二元交叉熵进行优化，

其中，和Il为ground truth。

Simple Structure Upsampler

首先对线条进行上采样，然后通过网络的泛化得到高分辨率的边缘图。

ZeroRA Structure Enhanced Inpainting

Fourier CNN Texture Restoration (FTR)

FTR主要由下采样、自编码器和上采样三个部分构成。关键模块是Fast Fourier Convolution (FFC) layer，主要有两个分支：一个是局部分支使用常规卷积，另一个是全局分支在快速傅里叶变换后对特征进行卷积。

Structure Feature Encoder (SFE)

SFE是一个自编码器模型，主要由 3 层下采样门控卷积（编码器）、3层带扩张卷积的残差块和3层上采样门控卷积（解码器）。门控卷积选择性地传输有用的特征，输入到 FTR。

其中，S为最后一个残差块和3个解码器层从粗到精的特征映射。

Masking Positional Encoding (MPE).

用全为1的3*3卷积核计算每个位置的掩码距离Ddis，通过正弦位置编码（SPE）对距离进行裁剪和映射得到

其中，i为通道索引，Dmax=128，d=64，为Pdis总通道数。

对于掩码方向，用4个不同的二进制卷积核来获得4通道one-hot向量。

Ddir 的值取决于哪个卷积核首先覆盖掩码区域。Ddir表示从掩码位置到未掩码位置的最近方向。然后将Ddir投影到具有d维特征的参数空间。

Zero-initialized Residual Addition (ZeroRA)

对于给定的输入特征x，经过跳跃连接，得到输出特征x' 。

其中，α从零初始化。

在本文中用ZeroRA 将结构信息从SFE添加到FTR

最后

以上就是隐形月饼最近收集整理的关于论文阅读——Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding网络结构的全部内容，更多相关论文阅读——Incremental内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(57)

本文分类：论文
浏览次数：86 次浏览
发布日期：2023-08-19 12:55:04
本文链接：https://www.kaopuke.com/article/k-p-k_14_uzo_18_fy_14_jc2.html

相关文章

CVPR 2022 | 二阶相似性测度，让传统配准方法取得比深度学习更好的性能，并达到深度学习的速度...本文分享 CVPR 2022 论文『SC^2-PCR: A Second Order Spatial Compatibility for Efficient and Robust Point Cloud Registration』，二阶相似性测度，让传统配准方法取得比深度学习更好的性能，并达到深度学习的速度。

CVPR 2022 | 二阶相似性测度，让传统配准方法取得比深度学习更好的性能，并达到深度学习的速度...本文分享 CVPR 2022 论文『SC^2-PCR: A Second Order Spatial Compatibility for Efficient and Robust Point Cloud Registration』，二阶相似性测度，让传统配准方法取得比深度学习更好的性能，并达到深度学习的速度。

Mask Transfiner实例分割算法运行环境的搭建一、算法原理二、算法代码运行（跑预训练模型）

Mask Transfiner实例分割算法运行环境的搭建一、算法原理二、算法代码运行（跑预训练模型）

CVPR2022 | 单目车道线检测新方案（苏黎世联邦理工）

CVPR2022 | 单目车道线检测新方案（苏黎世联邦理工）

数据增强：AlignMixup: Improving Representations By Interpolating Aligned Features阅读笔记AlignMixup: Improving Representations By Interpolating Aligned Features一、先验知识二、论文内容三、实验结果参考文献

数据增强：AlignMixup: Improving Representations By Interpolating Aligned Features阅读笔记AlignMixup: Improving Representations By Interpolating Aligned Features一、先验知识二、论文内容三、实验结果参考文献

论文阅读——Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding网络结构

论文阅读——Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding网络结构

多卡同步bn的原理与推导bn的计算bn的作用多卡为什么同步BN怎么实现多卡同步BN

多卡同步bn的原理与推导bn的计算bn的作用多卡为什么同步BN怎么实现多卡同步BN

报名啦！旷视研究院解读COCO 2017物体检测夺冠算法 | 吃瓜社嘉宾介绍分享提纲活动详情主办方

报名啦！旷视研究院解读COCO 2017物体检测夺冠算法 | 吃瓜社嘉宾介绍分享提纲活动详情主办方

MegDet论文详解(coco2017检测冠军)

MegDet论文详解(coco2017检测冠军)

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部