概述
大多数视频推理数据集的侧重点是从复杂的视觉和语言输入中进行模式识别,而不是基于因果结构。在这篇 ICLR 2020 论文中,麻省理工、DeepMind 的研究者提出了一种针对时间和因果推理问题的数据集,包含 20,000 个关于碰撞物体的合成视频以及 300,000 多个问题和答案,从互补的角度研究了视频中的时间和因果推理问题。
-
论文链接:https://arxiv.org/abs/1910.01442
-
项目链接:http://clevrer.csail.mit.edu/
从视频的物理事件中识别物体并推断其运动轨迹的能力是人类认知发展的核心。人类,即使是幼儿,也能够通过运动将图片区域划分为多个物体,并使用物体的永久性、实体性和连贯性的概念来解释发生了什么,推断将发生什么以及想象在反事实情况下会发生什么。
在静态图像和视频上提出的各种数据集的推动下,复杂视觉推理问题已经在人工智能和计算机视觉领域得到了广泛研究。然而,大多数视频推理数据集的侧重点是从复杂的视觉和语言输入中进行模式识别,而不是基于因果结构。尽管这些数据集涵盖了视觉的复杂性和多样性,但推理过程背后的基本逻辑、时间和因果结构却很少被探索。
在这篇论文中,麻省理工和 DeepMind 的研究者从互补的角度研究了视频中的时间和因果推理问题。受视觉推理数据集 CLEVR 的启发,
最后
以上就是尊敬猫咪为你收集整理的ICLR 2020 | MIT、DeepMind等联合发布CLEVRER数据集,推动视频理解的因果逻辑推理的全部内容,希望文章能够帮你解决ICLR 2020 | MIT、DeepMind等联合发布CLEVRER数据集,推动视频理解的因果逻辑推理所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复