CVPR 2021预讲：前沿视觉技术如何在实践中落地（内含视频&PPT）

284 阅读 0 评论 188 点赞

我是靠谱客的博主风趣河马，这篇文章主要介绍CVPR 2021预讲：前沿视觉技术如何在实践中落地（内含视频&PPT），现在分享给大家，希望可以做个参考。

CVPR是世界顶级的计算机视觉会议。CVPR 2021大会将于6月19日至25日在线上举行。美团共有5篇论文被本届CVPR大会收录，内容覆盖实例分割、表情识别、快速图像分割、特征选择和对齐等多个技术领域。近日，美团与智源社区联合主办了CVPR 2021预讲 · 美团专场论文分享活动。本文系本次分享活动的视频和内容整理。

关注「美团技术团队」，在对话框回复「CVPR2021」，即可获取本次活动的演讲稿合集。

开场致辞

美团视觉智能中心负责人魏晓林为本次活动做了开场致辞。他表示，美团是一家科技驱动型公司，现在研发团队已经远超1万人。其中人工智能是美团最重要的技术方向之一，在人才和科研合作上都有持续的投入。

美团视觉智能中心负责人魏晓林

目前，美团与国内外超过20所知名高校及科研机构建立了交流和合作机制，围绕人工智能、无人驾驶、运筹优化、大数据、信息基础设施等研究领域开展了多项课题合作。在人才培养方面，特别是高层次人才，我们建立了美团博士后工作站；面向在校大学生，我们有「北斗」高精尖校招计划，每年会有大量的校招实习生加入美团，他们会在真实的业务场景中开展学术研究，且取得了很多落地的科研成果。

丰富多样的应用场景

魏晓林说，很多同学加入美团之后，都会感受到很大的幸福感，而这种幸福感主要来自于两个方面：一方面是感觉上的「反差」，美团是一家比较低调的公司，但是大家加入美团之后，会发现美团在视觉AI的学术研究上已经做了很多的工作，可能会远超自己的预期。另一方面，美团丰富的线上和线下业务中有众多的真实应用场景，这也让做视觉的同学们产生了幸福感。比如，美团的线上场景有搜索、推荐、广告、内容安全审核、地图、相机扫一扫等；线下场景有配送、智慧门店、智慧仓储物流、无人车、无人机等等，这些场景中都大量用到了视觉AI技术来实现数字化甚至是自动化。

这些场景可以让各种视觉技术能够迅速落地并且快速得到验证，美团真正提供了一个可持续的研发环境。比如今年被CVPR收录的这5篇论文，虽然看起来也都是在一些经典数据集上去做一些实验和验证，但是这些论文背后都对应着美团真实的应用场景，而且论文的价值最终也会在美团业务上得到很好的体现。

积极探索前沿科技

美团视觉智能中心一直都在关注视觉领域的前沿科技，比如近几年的自监督学习、多模态学习、Visual Transformer、AutoML等领域，美团都做了很多研究和探索工作。同时，公司也鼓励同学们将这些前沿的研究成果发表在各种国际顶会上。

美团今年在CVPR发表的这些论文，涵盖了视频实例分割、弱监督语义分割、实时语义分割、人脸表情建模以及多模态域适应的研究。从论文研究方向的多样性也可以看出，美团在视觉的各个领域都有一定的积累和沉淀。从另一个角度来看，这5篇论文来自美团不同的技术部门，有视觉智能中心、无人车配送中心，还有大众点评技术部，侧面说明整个美团技术团队对科技前沿都是非常重视的。美团也欢迎更多优秀的人才加入，一起在真实场景中探索科技前沿。

| 论文一：End-to-End Video Instance Segmentation with Transformers

| 王钰晴，美团无人车配送中心算法工程师

| 报告视频（B站）

| 内容简介：本文是第一个将Transformers应用于视频分割领域的方法。视频实例分割指的是同时对视频中感兴趣的物体进行分类，分割和跟踪的任务。现有的方法通常设计复杂的流程来解决此问题。本文提出了一种基于Transformers的视频实例分割新框架VisTR，该框架将视频实例分割任务视为直接端到端的并行序列解码和预测的问题。给定一个含有多帧图像的视频作为输入，VisTR直接按顺序输出视频中每个实例的掩码序列。该方法的核心是一种新的实例序列匹配和分割的策略，该策略在整个序列级别上对实例进行监督和分割。VisTR将实例分割和跟踪统一到了相似度学习的框架下，从而大大简化了流程。在没有任何trick的情况下，VisTR在所有使用单一模型的方法中获得了最佳效果，并且在YouTube-VIS数据集上实现了最快的速度。

| 论文二：Feature Decomposition and Reconstruction Learning for Effective Facial Expression Recognition

| 报告视频（B站）

| 阮德莲，厦门大学硕士生

| 内容简介：考虑到不同类别的表情之间存在着相似性，本文认为人脸表情信息由不同表情之间的共享信息与每个表情的特定信息组成，提出了一种基于特征解构与重构学习的人脸表情识别方法。具体地，首先使用特征分解网络将基本特征分解为一系列能够感知面部动作的潜在特征，这些潜在特征有效地建模了表情中的共享信息。然后，特征重构网络分别对这一系列潜在特征向量进行特征内部和特征之间的相关性建模，从而学习表情的特有信息。实验结果表明该方法在三个室内数据集（包括 CK+、 MMI 和 OuluCASIA）和两个室外数据集（包括 RAFDB 和 SFEW）上都有优越的性能表现。

| 论文三：Rethinking BiSeNet For Real-time Semantic Segmentation

| 报告视频（B站）

| 范铭源，美团视觉智能中心算法工程师

| 内容简介：本文从减少深度模型的结构性冗余的角度重新思考了经典的快速图像分割方法BiSeNet，从而对基础网络结构和解码器部分同时进行改进。在基础网络部分，提出了一种高效的短时密集连接网络，在不降低性能的情况下，大幅度提升推理速度。在解码器部分，通过使用细节引导模块加强浅层特征来代替细节分支，进一步减少了网络的结构性冗余。该模型在快速图像分割领域取得了领先水平，在相同性能下，速度比当前最好方法快45%以上。在美团的场景下，此项技术已经应用在图像水印去除中，用于获取水印Mask。未来也会应用在需要快速语义分割的场景，比如地图建设中的场景解析。

| 论文四：Embedded Discriminative Attention Mechanism for Weakly Supervised Semantic Segmentation

| 报告视频（B站）

| 吴桐，美团视觉智能中心实习生，北京理工大学硕士生

| 内容简介：使用图像级标注的弱监督语义分割通常将分类网络的类别激活图（CAM）视为语义分割的伪标签。然而这些激活图通常仅仅突显局部的具有区分性的区域，而不是语义分割所要求的物体的完整区域。为了生成更加完整的类别激活图，我们提出了Embedded Discriminative Attention Mechanism （EDAM）将类别激活图的生成直接融合进了分类网络中。具体来说，我们使用了一个Discriminative Activation（DA）层来生成类别独立的掩膜，并通过这些掩膜提取出各个类别独立的特征。随后我们通过Collaborative Multi-Attention （CMA）机制，聚合图片内和图片间的上下文信息。我们的方法在PASCAL VOC 2012的测试集上取得了70.6%的mIoU，达到了最优性能。

| 论文五：Partial Feature Selection and Alignment for Multi-Source Domain Adaptation

| 报告视频（B站）

| 张明，点评事业部实习生，电子科技大学硕士生

| 内容简介：现有的多源域适应设置和方法常常忽略了两个方面的「部分性」，一是目标域的类别标签空间不完全包含于源域，二是源域特征中只有部分是与目标域高度相关的。我们提出了一个更加一般的多源域适应研究主题，名为多源部分域适应（MSPDA），同时提出一个部分特征选择和对齐框架网络（PFSA）能够处理传统MSDA问题和新提出的MSPDA问题。框架利用源域和目标域特征之间的相似性对源域特征进行选择，得到源域特征中与目标域更相关的部分。然后通过多种对齐损失实现了类别级别上的对齐。我们的方法在MSDA和MSPDA两个场景中的分类问题上都取得了领先。

招聘信息

视觉智能中心

视觉智能中心面向美团多样化的生活服务场景，通过计算机视觉技术提升业务价值。愿景是「打造生活服务场景下领先的视觉智能引擎，建成行业一流的视觉AI团队，以视觉技术来拓展商业边界」。

目前项目及业务包括细粒度图像识别、商品检索、人脸识别、活体验证、刷脸支付、文字识别、视频理解与生产、内容安全审核、AR导航、相机扫一扫、地图视觉应用、移动端推理、大规模自监督学习、模型压缩、AutoML等。视觉智能中心既深耕主线视觉技术方向，也推动新视觉方向的研发与落地，来提高业务流程效率和提升用户体验，践行「帮大家吃得更好，生活更好」的企业使命。