计算机视觉最新进展概览(2021年7月25日到2021年7月31日)

307 阅读 0 评论 203 点赞

我是靠谱客的博主愉快发夹，这篇文章主要介绍计算机视觉最新进展概览(2021年7月25日到2021年7月31日)，现在分享给大家，希望可以做个参考。

参考计算机视觉最新进展概览(2021年7月25日到2021年7月31日) - 云+社区 - 腾讯云

1、CP-loss: Connectivity-preserving Loss for Road Curb Detection in Autonomous Driving with Aerial Images

路面路缘检测是自动驾驶的重要环节。它可以用来确定道路边界，约束道路上的车辆，从而避免潜在的事故。目前的大多数方法都是通过车载传感器在线检测路缘，比如摄像头或3D激光雷达。然而，这些方法通常会有严重的咬合问题。特别是在高度动态的交通环境中，大部分视场被动态物体所占据。为了解决这一问题，本文采用高分辨率航拍图像对道路路缘进行离线检测。此外，检测到的路缘可以用来为自动驾驶汽车创建高清地图。具体来说，我们先预测路缘的像素分割图，然后进行一系列的后处理步骤提取路缘的图结构。为了解决分割图中的不连通性问题，我们提出了一种新颖的保持连接丢失(CP-loss)方法来提高分割性能。在公共数据集上的实验结果证明了本文提出的损失函数的有效性。

2、Exploring Sequence Feature Alignment for Domain Adaptive Detection Transformers

近年来，Transformers检测器显示出良好的目标检测结果，引起人们越来越多的关注。然而，如何开发有效的域自适应技术来提高其跨域性能仍然是未知的。在本文中，我们深入研究了这一主题，并通过经验发现，在CNN主干上直接特征分布对齐只带来有限的改进，因为它不能保证用于预测的Transformers中的域不变序列特征。为了解决这一问题，我们提出了一种新的序列特征对齐(SFA)方法，它是专门为Transformers检测器的自适应而设计的。从技术上讲，SFA由一个基于域查询的特征对齐(DQFA)模块和一个基于token-wise的特征对齐(TDA)模块组成。在DQFA中，一个新的域查询用于从两个域的token-wise序列聚合和对齐全局上下文。 DQFA减少了部署在Transformers编码器和解码器中的全局特征表示和目标关系的域差异。同时，TDA从两个域对序列中的令牌特征进行比对，从而分别减少了Transformers编码器和解码器中的局部和实例级特征表示中的域间隙。此外，提出了一种新的二部匹配一致性损失算法，以增强特征的可鉴别性，实现鲁棒性目标检测。在三个具有挑战性的基准上的实验表明，SFA优于最先进的领域自适应目标检测方法。

3、Adaptive Boundary Proposal Network for Arbitrary Shape Text Detection

由于场景文本的高度复杂性和多样性，任意形状文本检测是一项具有挑战性的任务。在这项工作中，我们提出了一种新的自适应边界提议网络任意形状文本检测，它可以学习直接生成精确的边界任意形状文本不需要任何后处理。该方法主要由边界建议模型和自适应边界变形模型两部分组成。采用多层扩张卷积构建边界建议模型，生成先验信息(包括分类图、距离场和方向场)和粗边界建议。自适应边界变形模型是一种编码器-解码器网络，其中编码器主要由图卷积网络(GCN)和递归神经网络(RNN)组成。其目的是在边界建议模型的先验信息指导下，以迭代的方式获取文本实例形状来进行边界变形。这样，我们的方法可以直接高效地生成准确的文本边界，而不需要复杂的后处理。在公开可用的数据集上进行的大量实验证明了我们方法的最先进的性能。

4、SimROD: A Simple Adaptation Method for Robust Object Detection

提出了一种简单有效的无监督自适应鲁棒目标检测方法。为了克服域移位和伪标签噪声的挑战，我们的方法集成了新的以域为中心的增强方法、逐步的自标签适应过程和教师引导的微调机制。使用我们的方法，可以利用目标域样本来适应目标检测模型，而无需改变模型架构或生成合成数据。当应用于图像腐蚀和高水平跨域自适应基准时，我们的方法在多个域自适应基准上优于先前的基准。 SimROD在标准的真实到合成和跨相机设置基准上实现了新的艺术水平。在图像corruption基准上，采用我们方法的模型在Pascal-C上获得了15-25% AP50的相对鲁棒性提高，在COCO-C和cityscape - c上获得了5-6% AP的相对鲁棒性提高。在跨域基准上，我们的方法在Comic数据集上比最佳基准性能高出8% AP50，在水彩数据集上高出4%。

5、Geometry Uncertainty Projection Network for Monocular 3D Object Detection

几何投影是单目三维目标检测中一种强大的深度估计方法。它根据高度来估计深度，这在深度模型中引入了数学先验。但投影过程中也引入了误差放大问题，估计高度的误差会被放大，在输出深度上得到很大的反映。这种性质会导致深度推理不可控，影响训练效率。在本文中，我们提出了一个几何不确定性投影网络(GUP网络)来解决误差放大问题的推理和训练阶段。具体地，提出了GUP模块来获取推断深度的几何引导不确定性，这不仅为每个深度提供了高可靠的置信度，而且有利于深度学习。此外，在训练阶段，我们提出了一种分层任务学习策略，以减少错误放大造成的不稳定性。该学习算法通过提出的指标监控每个任务的学习情况，并根据任务前的情况自适应地为不同任务分配合适的损失权重。在此基础上，每个任务只有在其前任务学习良好的情况下才开始学习，这可以显著提高训练过程的稳定性和效率。大量的实验证明了该方法的有效性。整体模型可以比现有方法推断出更可靠的物体深度，并在KITTI基准上比最先进的基于图像的单目3D探测器的汽车和行人类别分别高出3.74%和4.7%的AP40。