《HandVoxNet: Deep Voxel-Based Network for 3D Hand Shape and Pose Estimation from a Single Depth Map》论文解读
- Abstract
- 1. Introduction
- 2. Method Overview
- 3. The Proposed HandVoxNet Approach
- 4. Result
原文:HandVoxNet: Deep Voxel-Based Network for 3D Hand Shape and Pose Estimation from a Single Depth Map
收录:CVPR2020
Abstract
本文实现从单张深度图里来进行3D手部姿态估计,当前好多方法则是从2D深度图直接回归3D hand meshes,这样不好之处在:因为透视失真使得复原后的图形存在人工痕迹,即便往网络中嵌入一个真实统计手模型(例如 MANO),也会出现同样的问题。
在弱监督学习下,HandVoxNet 输入一个3D体素化深度图,并依赖于两个手形表示( hand shape representations),第一个是3D体素化手形(3D voxelized grid of the shape) ,它是准确的,但不保持mesh的拓扑结构和mesh的顶点数量;第二种则是3D手部表面(3D hand surface ),其精度较低,但不受第一种表示的限制。结合这两种表示的优点,将 手的表面 与 体素化的手形 结合起来。
1. Introduction
从单张深度图同时估计3D手部姿态和形状是一个新兴的计算机视觉问题,它比姿态估计更具挑战性,由于手形状多样、遮挡、高自由度(DOF)和自相似性,对真实图像进行形状标注非常困难。密集的3D手网格比稀疏的3D节点表示效果更丰富。
V2V-PoseNet 是第一个通过使用深度图的3D体素化网格来估计3D关节点热图,且避免透视失真,然而通过直接回归网格顶点的3D热图来做到形状估计,发现在实践中是不可行的。
之前也说到,本文使用两种表示,第一个表示是 体素化网格的手形表示。通过一个体素到体素(voxel-to-voxel)网络,实现将体素化深度图和体素化形状之间建立一对一的映射。第二种表示则是体素到面( voxel-to-surface )网络来估计手表面。
主要贡献:
- 基于体素的手的形状和姿态估计方法有以下组成部分:
(i)Voxel-to-voxel 3D CNN-based network;
(ii)Voxel-to-surface 3D CNN-based network;
(iii)3D CNN-based voxelized depth map synthesizers;
(iv)Hand shape registration components. - 提出一种新的深度图体素化网格3D数据增强策略。
2. Method Overview
如上图所示,输入单张深度图,目标就是估计出
N
N
N维3D手部关节点坐标
J
∈
R
3
×
N
(
i
.
e
.
,
3
D
p
o
s
e
)
mathcal{Jin R}^{3times N} (i.e., 3D pose)
J∈R3×N (i.e.,3D pose) 以及 K=1193维3D顶点坐标
V
∈
R
3
×
K
(
i
.
e
.
,
3
D
s
h
a
p
e
)
mathcal{Vin R}^{3times K} (i.e., 3D shape)
V∈R3×K (i.e.,3D shape),首先将输入的深度图转化为体素化网格,即:
V
D
(
s
i
z
e
=
88
×
88
×
88
)
V_{D} (size=88times 88times 88)
VD (size=88×88×88),通过 V2V-PoseNet 直接估计3D关节点热图
{
H
j
}
j
=
1
N
(
s
i
z
e
=
44
×
44
×
44
)
mathcal{{H_{j}}}_{j=1}^{N} (size=44times 44times 44)
{Hj}j=1N (size=44×44×44),这个关节点热图也是体素化网格,然后将
V
D
V_{D}
VD resize to
V
D
′
V_{D}'
VD′,其中
V
D
′
V_{D}'
VD′ 大小为
44
×
44
×
44
44times 44times 44
44×44×44,最后将两者结合在一起,用
I
S
mathcal{I}_{S}
IS 来表示。
通过 V2V-ShapeNet 之后得到的 Voxelized Shape V ^ S ( s i z e = 64 × 64 × 64 ) mathcal{hat{V}_{S}} (size=64times 64times 64) V^S (size=64×64×64),V2V-SynNet 和 S2V-SynNet 重建 V D ′ V_{D}' VD′,并在训练中作为监督,测试时就去除掉。
3. The Proposed HandVoxNet Approach
- Voxelized Shape Estimation
它允许网络以最小化透视失真机会的方式来估计形状,V2V-ShapeNet 可以看作是3D形状解码器:
上式中,p(·)是解码分布,解码器不断学习,使得重构的体素化手形 V ^ S mathcal{hat{V}_{S}} V^S 尽可能接近体素化手形GT值 V S mathcal{V_{S}} VS,V2V-ShapeNet 直接估计体素化形状中每个体素的概率,表明它是否是背景(i.e.,0)或是形状体素(i.e.,1),体素化形状重建的每体素的 二元交叉熵损失 表示如下:
由于没有对真实手形的注释,因此要有效地学习真正的手形,弱监督是必不可少的,V2V-SynNet 从估计的体素化形状中合成体素化深度图。给出了用于体素化深度图重建的单体素二元交叉熵损失Lv VD:
-
Shape Surface Estimation
为了便于 Shape Registration ,手部姿态的表面形状应该要和体素化形状相似,这样才能匹配合成。和之前一样,V2S-Net 的输入也是 I S mathcal{I}_{S} IS ,损失函数则是 standard Euclidean loss:
S2V-Net的损失函数 L V D s mathcal{L}_{V_{D}}^{s} LVDs 类似等式(3)。
-
Shape Registration
在测试时,对于real dataset使用 NRGA,对于合成数据则使用 DispVoxNets -
Total Loss
4. Result
最后
以上就是忧伤云朵最近收集整理的关于手势识别2020(二)HandVoxNet Abstract 1. Introduction 2. Method Overview 3. The Proposed HandVoxNet Approach 4. Result的全部内容,更多相关手势识别2020(二)HandVoxNet内容请搜索靠谱客的其他文章。
发表评论 取消回复