概述
《HandVoxNet: Deep Voxel-Based Network for 3D Hand Shape and Pose Estimation from a Single Depth Map》论文解读
- Abstract
- 1. Introduction
- 2. Method Overview
- 3. The Proposed HandVoxNet Approach
- 4. Result
原文:HandVoxNet: Deep Voxel-Based Network for 3D Hand Shape and Pose Estimation from a Single Depth Map
收录:CVPR2020
Abstract
本文实现从单张深度图里来进行3D手部姿态估计,当前好多方法则是从2D深度图直接回归3D hand meshes,这样不好之处在:因为透视失真使得复原后的图形存在人工痕迹,即便往网络中嵌入一个真实统计手模型(例如 MANO),也会出现同样的问题。
在弱监督学习下,HandVoxNet 输入一个3D体素化深度图,并依赖于两个手形表示( hand shape representations),第一个是3D体素化手形(3D voxelized grid of the shape) ,它是准确的,但不保持mesh的拓扑结构和mesh的顶点数量;第二种则是3D手部表面(3D hand surface ),其精度较低,但不受第一种表示的限制。结合这两种表示的优点,将 手的表面 与 体素化的手形 结合起来。
1. Introduction
从单张深度图同时估计3D手部姿态和形状是一个新兴的计算机视觉问题,它比姿态估计更具挑战性,由于手形状多样、遮挡、高自由度(DOF)和自相似性,对真实图像进行形状标注非常困难。密集的3D手网格比稀疏的3D节点表示效果更丰富。
V2V-PoseNet 是第一个通过使用深度图的3D体素化网格来估计3D关节点热图,且避免透视失真,然而通过直接回归网格顶点的3D热图来做到形状估计,发现在实践中是不可行的。
之前也说到,本文使用两种表示,第一个表示是 体素化网格的手形表示。通过一个体素到体素(voxel-to-voxel)网络,实现将体素化深度图和体素化形状之间建立一对一的映射。第二种表示则是体素到面( voxel-to-surface )网络来估计手表面。
主要贡献:
- 基于体素的手的形状和姿态估计方法有以下组成部分:
(i)Voxel-to-voxel 3D CNN-based network;
(ii)Voxel-to-surface 3D CNN-based network;
(iii)3D CNN-based voxelized depth map synthesizers;
(iv)Hand shape registration components. - 提出一种新的深度图体素化网格3D数据增强策略。
2. Method Overview
如上图所示,输入单张深度图,目标就是估计出
N
N
N维3D手部关节点坐标
J
∈
R
3
×
N
(
i
.
e
.
,
3
D
p
o
s
e
)
mathcal{Jin R}^{3times N} (i.e., 3D pose)
J∈R3×N (i.e.,3D pose) 以及 K=1193维3D顶点坐标
V
∈
R
3
×
K
(
i
.
e
.
,
3
D
s
h
a
p
e
)
mathcal{Vin R}^{3times K} (i.e., 3D shape)
V∈R3×K (i.e.,3D shape),首先将输入的深度图转化为体素化网格,即:
V
D
(
s
i
z
e
=
88
×
88
×
88
)
V_{D} (size=88times 88times 88)
VD (size=88×88×88),通过 V2V-PoseNet 直接估计3D关节点热图
{
H
j
}
j
=
1
N
(
s
i
z
e
=
44
×
44
×
44
)
mathcal{{H_{j}}}_{j=1}^{N} (size=44times 44times 44)
{Hj}j=1N (size=44×44×44),这个关节点热图也是体素化网格,然后将
V
D
V_{D}
VD resize to
V
D
′
V_{D}'
VD′,其中
V
D
′
V_{D}'
VD′ 大小为
44
×
44
×
44
44times 44times 44
44×44×44,最后将两者结合在一起,用
I
S
mathcal{I}_{S}
IS 来表示。
通过 V2V-ShapeNet 之后得到的 Voxelized Shape V ^ S ( s i z e = 64 × 64 × 64 ) mathcal{hat{V}_{S}} (size=64times 64times 64) V^S (size=64×64×64),V2V-SynNet 和 S2V-SynNet 重建 V D ′ V_{D}' VD′,并在训练中作为监督,测试时就去除掉。
3. The Proposed HandVoxNet Approach
- Voxelized Shape Estimation
它允许网络以最小化透视失真机会的方式来估计形状,V2V-ShapeNet 可以看作是3D形状解码器:
上式中,p(·)是解码分布,解码器不断学习,使得重构的体素化手形 V ^ S mathcal{hat{V}_{S}} V^S 尽可能接近体素化手形GT值 V S mathcal{V_{S}} VS,V2V-ShapeNet 直接估计体素化形状中每个体素的概率,表明它是否是背景(i.e.,0)或是形状体素(i.e.,1),体素化形状重建的每体素的 二元交叉熵损失 表示如下:
由于没有对真实手形的注释,因此要有效地学习真正的手形,弱监督是必不可少的,V2V-SynNet 从估计的体素化形状中合成体素化深度图。给出了用于体素化深度图重建的单体素二元交叉熵损失Lv VD:
-
Shape Surface Estimation
为了便于 Shape Registration ,手部姿态的表面形状应该要和体素化形状相似,这样才能匹配合成。和之前一样,V2S-Net 的输入也是 I S mathcal{I}_{S} IS ,损失函数则是 standard Euclidean loss:
S2V-Net的损失函数 L V D s mathcal{L}_{V_{D}}^{s} LVDs 类似等式(3)。 -
Shape Registration
在测试时,对于real dataset使用 NRGA,对于合成数据则使用 DispVoxNets -
Total Loss
4. Result
最后
以上就是忧伤云朵为你收集整理的手势识别2020(二)HandVoxNet Abstract 1. Introduction 2. Method Overview 3. The Proposed HandVoxNet Approach 4. Result的全部内容,希望文章能够帮你解决手势识别2020(二)HandVoxNet Abstract 1. Introduction 2. Method Overview 3. The Proposed HandVoxNet Approach 4. Result所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复