动人云朵

文章
4
资源
0
加入时间
2年10月17天

论文笔记之LIGHTEN: Learning Interactions with Graph and Hierarchical TEmporal Networks for HOI in videos1. 总述2. 网络结构3. 数据集及实验

视频人物交互检测,首先利用图卷积网络学习空间特征,然后利用RNN学习帧间时间线索,接着利用注意力从帧间时间线索中学习片段间时间线索,最后细化回归人的活动和物体的启示。ACM Multimedia-20201. 总述由于多方面的原因,学习视频中的人-物交互是一个挑战性的问题。首先,该模型需要考虑场景中物体相对于人的方向变化。这使得基于图像的方法很难将人与物结合的RoI特征扩展到视频场景中。其次,大规模视频数据集(除了CAD-120)的难获取性使得很难训练出一个通用的、在现实场景视频中表现良好的HO