清华叉院高阳：打造真正「看世界」的机器人 | 青源专栏

60 阅读 0 评论 40 点赞

我是靠谱客的博主暴躁流沙，最近开发中收集的这篇文章主要介绍清华叉院高阳：打造真正「看世界」的机器人 | 青源专栏，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

导读：为了启发下一代青年学者研究思路，激发科研灵感，智源社区现推出青年学者访谈栏目。清华大学交叉信息研究院助理教授高阳为我们介绍了他一路走来的科研经历。在清华求学阶段，高阳在朱军老师的引领下深入理解贝叶斯基础理论，奠定了科研的基础。在UC Berkeley，他在Trevor Darrell和Pieter Abbeel的指导下继续深造，两位AI名师虽风格迥异，却各有千秋。以教师的身份重回清华，他从视觉入手，力求打造能够真正「看世界」的机器人，并将EfficientZero等高采样效率强化学习算法应用到现实环境中。

高阳，清华大学交叉信息研究院助理教授。博士毕业于美国加州大学伯克利分校，本科毕业于清华大学计算机系。主要研究计算机视觉与机器人学。

整理：李梦佳

爱上「暴力」运算，计算机是一个高智商玩具

我对计算机的热忱和兴趣源于中学时代。我初二开始接触计算机竞赛，高中就读于沈阳市东北育才中学，获得过数学和计算机竞赛省一等奖。我还参加了一次科技创新比赛，这个比赛和做科研有点像：参赛者要选择一个研究题目，在这个题目之下做一些创新。在比赛中我实现了一个新的密码学算法，凭借这个算法拿到了国家一等奖，于是高二结束就获得了保送清华的资格。

计算机算法最吸引我的地方是它的工作机制十分直观简洁，又丰富多彩：你只需要写一个程序，就能让计算机去做很多你想让它做的事。例如，用数学方法求数列的第1000项，需要掌握精妙的公式；而在计算机上，编写一个程序，借助计算机的运算能力「暴力」地算1000次就可以得到结果。这让我觉得计算机的本质非常有趣，是一个高智商玩具。

进入清华以后，我师从朱军老师。朱老师是我的一个楷模，他非常刻苦，治学态度严谨。我读了大量朱老师的论文，观摩朱老师和他的学生如何做研究。这期间，我接触到科研的一些基本概念，打下了比较牢固的机器学习基础，也接触了一些艰深的数学。朱老师研究的贝叶斯推理，其实是基础性非常强的工作。它是一个贯穿很多领域的重要技术，也会帮助理解很多高级的模型。视觉中比较常用的VAE、最新的diffusion model等都基于贝叶斯。对贝叶斯的理解让我在后来的研究中受益匪浅。

在UC Berkeley与各有千秋的两位名师结缘

研究生申请的时候，我同时收获了四大名校MIT、斯坦福、UC Berkeley 和CMU的offer。选择Berkeley，是因为那时我想做机器学习——在这方面，Berkeley大佬云集。等到真正入学之后，去听Michael I. Jordan等机器学习大佬的课，我才发现理想和现实有一定差距：他们的博士生都是数学专业出身，做的研究和我想象中的不太一样，属于纯理论，大部分时间都在推公式，很少写程序。

机缘巧合之下，我找到了后来的博士导师Trevor Darell，计算机视觉领域的领军人物。由于不太了解我的能力，他决定给我一个项目，考察我的表现。在项目中他觉得我做得还不错，就把我收下了。

Trevor很擅长挖掘学生的自主性和自驱力。当时清华的贾扬清师兄在Trevor组做出了早期最流行的深度学习框架之一——caffe。贾扬清认为，在科研的过程中复现别人的模型太痛苦了，每次都要写一个新的程序非常麻烦。于是乎他想到要做一个通用的深度学习框架，Trevor给予了大力支持。Trevor认为虽然caffe是一个工程项目，不能产出很多paper，但能给现实世界带来深刻影响。果然，caffe掀起了各大公司和高校研发深度学习框架的浪潮。

Trevor对我的影响主要是带我入门，让我切实感受到国际化的研究是怎么做出来的。我在清华本科期间并没有发过paper，对研究还没有十分具体的认知，而Berkeley培养我在博士期间走完了整个做科研、发paper的流程。值得一提的是，Trevor本人非常善于平衡工作和家庭：每天下午6点准时下班回家，去接孩子；周末一般也不在办公室；冬天的时候每两周去滑一次雪。

Trevor Darell

我刚入学的时候是2014年，Deep Learning方兴未艾，可挖掘的空间很大。当时我在Trevor组里很开心，几乎没什么压力，老板也不怎么施压。我起初做了一个深度学习网络结构的课题，随后做了一些自动驾驶方面的工作。我的第一篇oral paper是发表于2016年的End-to- End Learning of Driving Models From Large-Scale Video Datasets。当时Trevor对我的启示是，数据有多好，模型就有多好。于是我们通过行车记录仪采集了几万小时的视频数据，几乎把旧金山这个城市的每条街道都看过一遍。这项工作当时的反响很好。Trevor“数据为王道”的观点在现在看来十分超前。

后来，我发现仅从纯视觉角度研究是不够充分的，于是和Sergey Levine教授合作，开始强化学习方面的探索。

博后这一年，我跟随曾荣获ACM Computing Award的Pieter Abbeel教授做强化学习。他和Trevor风格完全不一样，是一个注重效率，非常高产的老师。Pieter跟每个学生的weekly meeting都控制在半小时；因为学生太多，在组会的分享环节上，他会要求分享的人提前给自己讲一遍，根据feedback修改之后再讲给大家。他的理论是，给大家讲组会相当于占用了20个人的一小时，这是非常多的时间。

与Pieter交流的感觉和Trevor显著不同。除了极度重效率，他也会给我很多项目基础上的启发。比如，强化学习的算法普遍都很难调，对超参数非常敏感。Pieter告诉我，可以尽量将问题简化，把一个问题简化成一个不能再简化的问题去调试。这个思路可以说放之四海皆准，对我后来的EfficientZero项目也有很大的帮助。

学术之外，Pieter在创业方面也做得非常好。他曾创立过一家公司叫做GradeScope，这家公司做了一套机器学习系统辅助老师电子化判卷；后来他又创建了Covariant AI，一个做机器人自动化的公司，目前已经处于C轮融资阶段。他还非常擅长宣传自己的工作。他做的视频vlog，有非常多人在看。这是他作为一个学者能给世界带来更大影响力的方式。

Pieter Abbeel

Berkeley的合作氛围非常开放。所有AI方向的学生都坐在一起，比如Pieter Abbeel的学生，Sergey Levine的学生等等。不同研究方向的学生也是朋友，大家合作比较充分。能够有机会把其他领域比较新的东西引入到自己领域当中。这也是过去10年中Berkeley在人工智能方向上引领了众多前沿的主要原因之一。

打造「看世界」的机器人，真正实现具身智能

目前，我主要关注的是计算机视觉和机器人的结合领域。这个领域的核心问题是如何让一个机器人通过“看”去操纵周围的事物。这个问题非常困难，有很多没有解决的部分。

机器人相关工作的主要难点是数据匮乏。自然语言或视觉研究的数据可以从网上收集，而机器人的数据要靠它自己的探索去解决。具体方法主要是让机器人在物理形态的限制下，去环境中，与环境交互采集数据。这个过程涉及到具身智能，类似一个婴儿的学习，让他自己在环境中、从他的经验里学到很多常识。获取数据和规划行为，是一个鸡生蛋、蛋生鸡的过程。如何拿到高质量的数据，是机器人领域的关键问题。

另一个难点是缺少监督信号。一般强化学习算法实现中，需要预先指定一个目标，这个目标以奖励函数的形式出现，相当于一个监督信号。而在自然的现实场景中，并没有一个全知视角的“评分员”给机器人提供这样的监督信号。如果想把强化学习应用到现实世界中，解决监督信号或者奖励函数的问题，是非常关键的。

我想实现的终极场景是，在物理实体上实现科学研究中的算法，建立一个可以“用眼睛看”的机器人，让它去做很多家庭场景的事情。比如说，让机器人去“做一杯咖啡”，他就会走到咖啡机前，进行磨豆子等等一系列操作。这是我的长远目标，短期之内可能很难实现。

目前，我们持续探索强化学习在机器人领域的应用。我们的上一个工作EfficientZero已经把强化学习算法中的样本效率问题解决了，我目前正在做的课题之一是将EfficientZero用到现实世界的自动驾驶汽车上，类似李升波老师所讲的，用强化学习将自动驾驶变得更好。

Q&A

Q1：对刚进入人工智能领域的学生，有什么建议吗？

A：我觉得，博士期间首先要做完一整个科研流程，例如完整经历一个投paper的周期。要先有一个具象化的感受和体验，即做研究是什么样的，这是第一步。

第二步，需要去和学长学姐、导师以及尽可能多的学者去谈，了解他们在做什么，他们做的工作有没有意义；去读这个领域顶会的paper，了解国际顶尖的组在做什么；通过这样的过程来了解什么样的问题是重要的、下一个5年的发展等等，形成自己在小领域当中的世界观、价值观。这是一个比较高的要求，但对于真正想长期做学术的人，是很有必要的。

Q2：近期的顶会paper有哪些要分享的？

A：我们最近有一篇ECCV的oral，Semantic-Aware Fine-Grained Correspondence。这篇paper的重点是，不需要任何标签，完全非监督，只需要告诉他（机器人）你想要跟踪的是什么，就可以完整地把视频跟下来。比如想要跟踪视频中的一个瓶子，我们的算法不用任何标签，就可以非监督地去跟踪瓶子在视频中每一帧的确切位置，在大量案例中效果都很好。这是机器人领域比较基础性的工作。

受人类感知过程的启发，这篇文章提出了一个前人忽略的点。我们人类跟踪一个物体，比如一个瓶子时，其实在做两件事：一方面，我们粗糙地知道，这个物体是在我右边的一个瓶子；另一方面，我们知道瓶子边缘的样子，以及一些非常局部的特征。也就是说，跟踪物体的过程可以分解为语义层次和非语义层次。通过这种分解，非常简单的算法就能达到很高的性能，并且不需要任何标签。

今年ECCV上我们还有一篇工作，CYBORGS: Contrastively Bootstrapping Object Representations by Grounding in Segmentation。这项工作关于非监督图像语义分割，能够帮助机器人对看到的东西进行分类。

Q3：你近期的研究重点是什么？

A：我最近在做一些EfficientZero的后续工作，大致思路是把EfficientZero做到真实的机器人上。因为EfficientZero是一个样本效率比较高的强化学习算法，比较适合真实场景——相比模拟环境，真实场景中机器人只能采集到极其有限的数据，但是需要学到很多东西。

Q4：在科研方向选择上，你对青年学者有怎样的寄语？

A：第一点，你需要做一些“真的科研”，真正地去体验idea成功和失败的过程，不要想当然地认为自己的想法都能work。第二点，一定要积极开阔自己的眼界，通过各种各样的方式，包括读paper，和自己领域领先的研究者有一些思维上的对话。如果这两点尤其是第二点做得好的话，自然会有自己的科研想法。

Q5：EfficientZero（NeurlPS 2021）的工作是如何实现的？

A：从根本上，我相信它会work。另一方面，我觉得这个东西非常令人振奋，如果真的能做出来，会是一个影响力很大的工作。事实上，在做这个工作的时候，我经常坐在一作叶葳蕤同学旁边，和他一起debug。我们花了一年半的时间才让它work。

Q6：这个工作的灵感来源于？

A：这个工作的灵感是RL的样本效率可以被自监督学习来提升，虽然已经有一些先导性工作，但我觉得仍然可以进一步大幅度提升。我们的工作结合基于模型的强化学习和自监督学习。同期可能有很多研究者都在尝试，但是因为具体实现上困难重重，很多人发现做不出来就放弃了。我的小组最终还是坚持了下来。