CN110097639A

CN110097639A - 一种三维人体姿态估计方法

Info

Publication number: CN110097639A
Application number: CN201910201559.3A
Authority: CN
Inventors: 孔德慧; 吴永鹏; 王少帆; 李敬华; 王立春
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2019-08-06
Anticipated expiration: 2039-03-18
Also published as: US11200685B2; CN110097639B; US20200302621A1

Abstract

公开一种三维人体姿态估计方法，其在不需要高配置硬件支持、和精准人体模型的条件下，实现实时且高精度的三维人体姿态估计。该方法包括步骤：(1)建立与对象匹配的三维人体模型，该模型为可见球面分布约束点云人体模型；(2)面向人体姿态跟踪的人体模型与深度点云匹配优化；(3)基于动态数据库检索的姿态跟踪错误恢复。

Description

一种三维人体姿态估计方法

技术领域

本发明涉及计算机视觉和模式识别的技术领域，尤其涉及一种三维人体姿态估计方法。

背景技术

基于计算机视觉技术的三维人体姿态估计在人类生活的众多领域得到广泛应用，如计算机动画、医学、人机交互等领域。随着低成本的RGB-D传感器(如Kinect)的推出，相比RGB视觉信息，深度图像可极大地避免复杂背景、光照条件变化所造成的数据缺陷。因此，三维人体姿态估计藉由深度信息的使用获得了性能上的明显提升，成为当前研究热点。目前存在的很多基于深度数据的三维人体姿态估计方法已经取得了较好的识别结果，但识别精度的进一步提升仍需克服传感器所获取深度数据的两个固有的严重缺陷：噪声和遮挡造成的数据缺失。

基于深度信息的三维人体姿态估计的方法可分为两类，判别方法和生成方法。前者依赖于大量的训练数据，并因此能适应不同体型的变化，但是大多不能在复杂运动的情况下获得较高的精度；后者通常依赖于复杂精确的人体模型，并因此能够在出现数据缺失的情况下获得很高的精度，但在快速复杂运动情况下容易陷入局部最优化而失去全局最优解。由此可见，实现高性能三维人体姿态估计方法往往依赖于以下几点：1)大量标注准确的训练数据集；2)用以跟踪错误恢复的庞大的姿态数据库；3)GPU加速支持；4)精准的三维人体模型。这些局限性限制了在普通硬件配置的平台上进行实时的人机交互等应用。

发明内容

为克服现有技术的缺陷，本发明要解决的技术问题是提供了一种三维人体姿态估计方法，其在不需要高配置硬件支持、和精准人体模型的条件下，实现实时且高精度的三维人体姿态估计。

本发明的技术方案是：这种三维人体姿态估计方法，该方法包括以下步骤：

(1)建立与对象匹配的三维人体模型，该模型为可见球面分布约束点云人体模型；

(2)面向人体姿态跟踪的人体模型与深度点云匹配优化；

(3)基于动态数据库检索的姿态跟踪错误恢复。

本发明以深度图序列作为输入，利用建立的三维人体模型与深度图转化的三维点云进行匹配优化，优化过程结合了全局的平移变换和局部的旋转变换，并且在跟踪错误时使用了动态数据库进行姿态的恢复，最终实现了快速准确的姿态跟踪，并且从人体模型中获得估计的关节点位置，因此在不需要高配置硬件支持、和精准人体模型的条件下，实现实时且高精度的三维人体姿态估计。

附图说明

图1示出了球集合表示人体模型以及球面点集表示人体模型，图1a是球集合表示人体模型和部位划分，图1b是球集合表面采样。

图2示出了人体11个部位命名以及部位父节点划分示意图，图2a是11个身体部位划分及命名，图2b是部位父节点。

图3示出了人体方向特征表示。

图4示出了基于PCA主方向的最小包围盒构建。

图5示出了SMMC数据集平均误差。

图6示出了PDT数据集平均误差。

图7示出了PDT数据库上的主观效果展示。

图8示出了根据本发明的三维人体姿态估计方法的流程图。

具体实施方式

如图8所示，这种三维人体姿态估计方法，该方法包括以下步骤：

(2)面向人体姿态跟踪的人体模型与深度点云匹配优化；

(3)基于动态数据库检索的姿态跟踪错误恢复。

优选地，所述步骤(1)中：

利用57个球面集合表示人体表面，交互定义每个球的半径和球心位置，使球面集合更接近人体表面，将球面集合S定义为11个子集的并集，每个子集由若干个球面组成，通过公式(1)分别对应特定的人体部位：

其中表示第k个部位的第i个球的球心和半径，N_k表示第k个部位的球的总数，

优选地，所述步骤(1)中，忽略手腕和脚腕的运动。

优选地，所述步骤(1)中，

对于57个球，建立一个有向树，每个节点对应一个球，树的根节点为其它父节点为公式(2)：

基于这种定义，每个身体部位的运动看作是由以其父节点为原点的局部坐标系下的旋转运动R_k加上世界坐标系下的全局平移向量t决定，使用斐波那契球面算法对球面进行密集采样得到球面点云，可见球面分布约束点云人体模型为公式(3)：

其中Q_k,i是k个部位的第i个球的采样总数，φ≈0.618是黄金分割比例，表示第k个部位的第i个球上第j个采样点的方向向量，对于每一个点，赋予它可见性属性，通过可见性检测决定每个点是否可见；由所有球面可见点组成的点集，用以表示人体模型，为可见球面分布约束点云人体模型。

优选地，所述步骤(2)中，

对由深度图转换得到的深度点云P进行采样得到假设模型和深度点云都处于同一个坐标系，利用深度点云对应的相机进行视角约束，对交叉部分和遮挡部分进行剔除，保留模型上在当前视角下可见的点以这些点来代表当前姿态下的模型，利用欧氏距离度量求得在上的对应点对重新定义：

优选地，所述步骤(2)中，

当建立了和的对应关系后，将人体的运动看作是各个身体部位同时缓慢运动的过程，因此将模型与点云的匹配优化问题转换成求解人体各部位的旋转矩阵R_k和全局的平移向量t的问题，代价函数为公式(5)：

s.t.(R_k)^TR_k＝I (5)

其中λ,μ_k＞0是权重参数，第一项Ψ_corr衡量了模型表面点和输入深度点云之间的距离,表示为：

其中表示第k个部位的父节点球心坐标,该项使得模型上的点经过旋转和平移变换后与深度图转化的点云更加接近；

第二项Ψ_joint为公式(6)，利用前一帧的关节点位置信息以及部位的方向信息，被用来当作特殊的标记信息，约束两帧之间过大的空间移动和部位旋转，在一定程度上减少两帧之间差异性,

其中分别代表当前位姿和初始位姿上第k个部位上第m个关节的位置，分别代表当前位姿和初始位姿上第m个关节和其父节点的方向；设可自适应的权重参数α_k,m,β_k,m为公式(7)：

其中ω₂,ω₃＞0是权重参数用于控制误差范围，τ^k,γ^k是比例参数，通过公式(8)对应点对和进行确定：

其中表示之间的平均距离，ω₁＞0用于确定距离误差阈值，τ^k,γ^k只在优化之前，第一次对应关系确定后进行求解，在迭代过程中保持不变，α_k,m,β_k,m在更新对应关系时进行更新；

第三项Ψ_regu为公式(9)，约束了在迭代过程中每个部位大的旋转，相邻两帧之间的运动被看作是各个部位同时变化的过程：

Ψ_regu(R_k)＝||R_k-I||² (9)。

优选地，所述步骤(3)中，利用输入深度点云和构建的人体模型在二维平面上的重叠率θ_overlap和代价函数值θ_cost来判断当前跟踪是否失败；假设人的肢体动作片段具有时间序列上的重复特性，用各个身体部位的方向信息表示人的三维动作，将上下躯干部分简化为两个互相垂直的主方向，四肢各部分用一个方向向量表示，忽略头部的方向，表示为公式(10)：

其中v₁,v₂表示上下躯干方向，v₃,...,v₁₀表示除过上下躯干以及头部剩余部位的方向。

优选地，所述步骤(3)中，

对深度点云利用PCA提取主方向[e₁,e₂,e₃]，基于主方向的最小包围盒[w，d，h]来表示深度点云的特征，为公式(11)：

当跟踪过程中满足匹配的代价函数小于阈值θ_overlap≤θ₁并且θ_cost≤θ₂，认为跟踪成功，提取特征[e，v]更新数据库模型D，提取的特征[e，v]作为一对特征向量保存在数据库中；当跟踪失败时，利用特征e，通过和数据库中对应的深度点云特征求欧氏距离，在库中查找距离最小的前五个位利用v⁽ⁱ⁾,i＝1,...,5恢复可见球面分布约束点云人体模型，取和当前输入的深度点云重叠率最高的位姿并利用其进行重新初始化操作，以便于从跟踪失败中恢复。

以下更详细地说明本发明。

本发明以深度图序列作为输入，利用建立的三维人体模型与深度图转化的三维点云进行匹配优化，优化过程结合了全局的平移变换和局部的旋转变换，并且在跟踪错误时使用了动态数据库进行姿态的恢复，最终实现了快速准确的姿态跟踪，并且从人体模型中获得估计的关节点位置。本发明主要包括三个关键的技术点：1)建立与对象匹配的三维人体模型，该模型融合几何模型和网格模型的优点；2)在模型的基础上，将人体模型与点云的匹配优化问题转换成在人体模型和深度点云对应关系确定的基础上，求解全局平移变换矩阵和局部旋转变换矩阵；3)构建小型动态数据库用于跟踪失败时的重初始化。

1.可见球面分布约束点云人体模型：

本发明利用57个球面集合表示人体表面，如图1a所示，交互定义每个球的半径和球心位置，使球面集合更接近人体表面。如图2a所示，本发明将球面集合S定义为11个子集的并集，每个子集由若干个球面组成，分别对应特定的人体部位：

其中表示第k个部位的第i个球的球心和半径。N_k表示第k个部位的球的总数，为了简化，忽略手腕和脚腕的运动。

对于57个球，建立一个有向树，每个节点对应一个球，如图2b所示，树的根节点为其它父节点为：

基于这种定义，每个身体部位的运动都可以看作是由以其父节点为原点的局部坐标系下的旋转运动R_k加上世界坐标系下的全局平移向量t决定。为了让球体模型具备网格模型能表示表面细节的优势，使用斐波那契球面算法对球面进行密集采样得到球面点云。图1b表示球模型表面采样效果。球面点云可以表示为：

其中Q_k,i是k个部位的第i个球的采样总数，φ≈0.618是黄金分割比例。表示第k个部位的第i个球上第j个采样点的方向向量。对于每一个点，赋予它可见性属性，可以通过可见性检测决定每个点是否可见。由所有球面可见点组成的点集，可用以表示人体模型，本文称之为可见球面分布约束点云人体模型。此时，该模型既可以通过球面定义参数的改变便捷地进行人体形状控制；又可通过与输入点云的优化匹配精准地实现人体姿态表示。

2.面向人体姿态跟踪的人体模型与深度点云匹配优化：

对由深度图转换得到的深度点云P进行采样得到假设模型和深度点云都处于同一个坐标系，利用深度点云对应的相机进行视角约束，对交叉部分和遮挡部分进行剔除，保留模型上在当前视角下可见的点以这些点来代表当前姿态下的模型。利用欧氏距离度量求得在上的对应点对重新定义：

当建立了和的对应关系后，我们将人体的运动看作是各个身体部位同时缓慢运动的过程，因此将模型与点云的匹配优化问题转换成求解人体各部位的旋转矩阵R_k和全局的平移向量t的问题。代价函数如下：

s.t.(R_k)^TR_k＝I (5)

其中λ,μ_k＞0是权重参数，第一项Ψ_corr衡量了模型表面点和输入深度点云之间的距离,可表示为：

其中表示第k个部位的父节点球心坐标。该项使得模型上的点经过旋转和平移变换后与深度图转化的点云更加接近。

第二项Ψ_joint利用前一帧的关节点位置信息以及部位的方向信息，可以被用来当作特殊的标记信息，约束两帧之间过大的空间移动和部位旋转，在一定程度上减少两帧之间差异性。

其中分别代表当前位姿和初始位姿上第k个部位上第m个关节的位置。分别代表当前位姿和初始位姿上第m个关节和其父节点的方向。我们希望当对应的关节位置和方向误差越大，赋予的权重越大，因此设计了可自适应的权重参数α_k,m,β_k,m：

其中ω₂,ω₃＞0是权重参数用于控制误差范围。τ^k,γ^k是比例参数可以通过对应点对和进行确定：

其中表示之间的平均距离，ω₁＞0用于确定距离误差阈值。τ^k,γ^k只在优化之前，第一次对应关系确定后进行求解，在迭代过程中保持不变。α_k,m,β_k,m需要在更新对应关系时候进行更新。

第三项Ψ_regu约束了在迭代过程中每个部位大的旋转，因为相邻两帧之间的运动被看作是各个部位同时变化的过程：

Ψ_regu(R_k)＝||R_k-I||² (9)

3.基于动态数据库检索的姿态跟踪错误恢复：

由于本发明属于无监督的姿态估计方法，在对于跟踪出现错误的时候需要进行姿态的恢复操作，在本发明中我们利用输入深度点云和构建的人体模型在二维平面上的重叠率θ_overlap和代价函数值θ_cost来判断当前跟踪是否失败。假设人的肢体动作片段具有时间序列上的重复特性，因此提出了一种基于小型动态数据库的姿态跟踪恢复方法。本发明用各个身体部位的方向信息表示人的三维动作，如图3所示,将上下躯干部分简化为两个互相垂直的主方向，四肢各部分用一个方向向量表示，忽略头部的方向。可表示为：

如图4所示，对深度点云利用PCA提取主方向[e₁,e₂,e₃]，基于主方向的最小包围盒[w,d,h]来表示深度点云的特征：

当跟踪过程中满足匹配的代价函数小于阈值θ_overlap≤θ₁并且θ_cost≤θ₂认为跟踪成功，我们提取特征[e,v]更新数据库模型D。，具体来说将提取的特征[e,v]作为一对特征向量保存在数据库中。当跟踪失败时候，我们利用特征e，通过和数据库中对应的深度点云特征求欧氏距离，在库中查找距离最小的前五个位姿利用v⁽ⁱ⁾,i＝1,...,5恢复可见球面分布约束点云人体模型，取和当前输入的深度点云重叠率最高的位姿并利用其进行重新初始化操作，以便于从跟踪失败中恢复。

本发明已经在公开数据集SMMC和PDT数据集上得到验证，取得不错的实验效果。图5展示本发明在SMMC数据集上的平均误差，SMMC数据集动作比较简单，可以看出，我们的方法与目前最好方法的结果相当。图6展示了本发明在PDT数据集上的平均误差，PDT数据集动作复杂，具有挑战性，但是本发明的方法也能取得不错的效果。表1展示了在PDT和SMMC数据库上与其他同类方法在效率上的比较，与其他方法相比，本发明的平均速度能达到实时，且不需要GPU的加速。图7给出PDT数据集上一些复杂姿态上的主观效果，实验效果表明了在复杂的动作上，该算法仍然能取得较好的估计效果。

表1

方法	实时(Y/N)	GPU(Y/N)
			Ding&Fan	N	N
Ye&Yang	Y	Y
			Vasileiadis et al	Y	Y
本发明方法	Y	N

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种三维人体姿态估计方法，其特征在于：该方法包括以下步骤：

(2)面向人体姿态跟踪的人体模型与深度点云匹配优化；

(3)基于动态数据库检索的姿态跟踪错误恢复。

2.根据权利要求1所述的三维人体姿态估计方法，其特征在于：所述步骤(1)中：

其中r_i ^k表示第k个部位的第i个球的球心和半径，N_k表示第k个部位的球的总数，

3.根据权利要求2所述的三维人体姿态估计方法，其特征在于：所述步骤(1)中，忽略手腕和脚腕的运动。

4.根据权利要求3所述的三维人体姿态估计方法，其特征在于：所述步骤(1)中，

其中Q_k，i是k个部位的第i个球的采样总数，φ≈0.618是黄金分割比例，表示第k个部位的第i个球上第j个采样点的方向向量，对于每一个点，赋予它可见性属性，通过可见性检测决定每个点是否可见；由所有球面可见点组成的点集，用以表示人体模型，为可见球面分布约束点云人体模型。

5.根据权利要求4所述的三维人体姿态估计方法，其特征在于：所述步骤(2)中，

6.根据权利要求5所述的三维人体姿态估计方法，其特征在于：所述步骤(2)中，

s.t.(R_k)^TR_k＝I (5)

其中λ，μ_k＞0是权重参数，第一项Ψ_corr衡量了模型表面点和输入深度点云之间的距离，表示为：

其中表示第k个部位的父节点球心坐标，该项使得模型上的点经过旋转和平移变换后与深度图转化的点云更加接近；

第二项Ψ_joint为公式(6)，利用前一帧的关节点位置信息以及部位的方向信息，被用来当作特殊的标记信息，约束两帧之间过大的空间移动和部位旋转，在一定程度上减少两帧之间差异性，

其中j_k，m，分别代表当前位姿和初始位姿上第k个部位上第m个关节的位置，n_k，m，分别代表当前位姿和初始位姿上第m个关节和其父节点的方向；可自适应的权重参数α_k，m，β_k，m为公式(7)：

其中ω₂，ω₃＞0是权重参数用于控制误差范围，τ^k，γ^k是比例参数，通过公式(8)对应点对和进行确定：

其中表示之间的平均距离，ω_i＞0用于确定距离误差阈值，τ^k，γ^k只在优化之前，第一次对应关系确定后进行求解，在迭代过程中保持不变，α_k，m，β_k，m在更新对应关系时进行更新；

Ψ_regu(R_k)＝||R_k-I||² (9)。

7.根据权利要求6所述的三维人体姿态估计方法，其特征在于：

所述步骤(3)中，利用输入深度点云和构建的人体模型在二维平面上的重叠率θ_overlap和代价函数值θ_cost来判断当前跟踪是否失败；假设人的肢体动作片段具有时间序列上的重复特性，用各个身体部位的方向信息表示人的三维动作，将上下躯干部分简化为两个互相垂直的主方向，四肢各部分用一个方向向量表示，忽略头部的方向，表示为公式(10)：

其中v₁，v₂表示上下躯干方向，v₃，...，v₁₀表示除过上下躯干以及头部剩余部位的方向。

8.根据权利要求7所述的三维人体姿态估计方法，其特征在于：所述步骤(3)中，

对深度点云利用PCA提取主方向[e₁，e₂，e₃]，基于主方向的最小包围盒[w，d，h]来表示深度点云的特征，为公式(11)：

当跟踪过程中满足匹配的代价函数小于阈值θ_overlap≤θ₁并且θ_cost≤θ₂，认为跟踪成功，提取特征[e，v]更新数据库模型D，提取的特征[e，v]作为一对特征向量保存在数据库中；当跟踪失败时，利用特征e，通过和数据库中对应的深度点云特征求欧氏距离，在库中查找距离最小的前五个位姿利用v⁽ⁱ⁾，i＝1，...，5恢复可见球面分布约束点云人体模型，取和当前输入的深度点云重叠率最高的位姿并利用其进行重新初始化操作，以便于从跟踪失败中恢复。