自觉荔枝

文章
6
资源
0
加入时间
3年0月28天

Swin-Transformer论文笔记

本文介绍了一种新的视觉 Transformer,称为 Swin Transformer,它可以作为计算机视觉的通用主干。将 Transformer 从语言应用到视觉的挑战来自两个领域之间的差异,例如视觉实体规模的巨大变化以及与文本中的文字相比图像中像素的高分辨率。为了解决这些差异,我们提出了一种分层 Transformer,其表示是使用 Shifted 窗口计算的。移位窗口方案通过将自注意力计算限制在非重叠的本地窗口同时还允许跨窗口连接来提高效率。这种分层架构可以灵活地在各种比例下进行建模。