CN111914618B - 基于对抗式相对深度约束网络的三维人体姿态估计方法 - Google Patents

基于对抗式相对深度约束网络的三维人体姿态估计方法 Download PDF

Info

Publication number
CN111914618B
CN111914618B CN202010521352.7A CN202010521352A CN111914618B CN 111914618 B CN111914618 B CN 111914618B CN 202010521352 A CN202010521352 A CN 202010521352A CN 111914618 B CN111914618 B CN 111914618B
Authority
CN
China
Prior art keywords
human body
dimensional
depth
relative depth
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010521352.7A
Other languages
English (en)
Other versions
CN111914618A (zh
Inventor
刘阳温
李桂清
韦国栋
聂勇伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010521352.7A priority Critical patent/CN111914618B/zh
Publication of CN111914618A publication Critical patent/CN111914618A/zh
Application granted granted Critical
Publication of CN111914618B publication Critical patent/CN111914618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Neurology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Social Psychology (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于对抗式相对深度约束网络的三维人体姿态估计方法,包括步骤:1)输入人体16个关节点的二维像素坐标,并归一化预处理;2)输入二维像素坐标到深度预测网络,输出人体16个关节点的深度值;3)利用深度值与二维像素坐标来重构关节点的三维坐标;4)输入三维人体姿态到生成式对抗网络的判别器进行真实性误差计算,利用三维人体姿态与图像对应的各关节点间的相对深度信息进行相对深度误差计算;5)将生成式对抗网络的判别器计算的真实性误差与相对深度误差相加得到总误差,并反馈到深度预测网络,得到更加准确的三维人体姿态。本发明解决了室外三维人体姿态数据缺少和生成式对抗网络方法的结果与图片各关节点间的相对深度关系不符合的问题。

Description

基于对抗式相对深度约束网络的三维人体姿态估计方法
技术领域
本发明涉及三维人体姿态估计的技术领域,尤其是指一种基于对抗式相对深度约束网络的三维人体姿态估计方法。
背景技术
三维人体姿态估计是指从图像中估计出图像中人体的各个主要关节点的三维坐标,用于表示图像中人体三维姿态的过程。近年来,随着当前技术进步驱动从而不断增加的新应用场景,三维人体姿态估计在人机交互、动作估计、动画和虚拟现实等方面有着广泛的应用价值,成为一个基本而具有挑战性的课题。
由于深度学习的发展和二维人体姿态数据的易获取,二维人体姿态估计领域得到很大的进展突破。然而,在三维人体姿态估计方面,由于三维人体姿态数据采集工作比较困难且成本较高,可用于网络学习的三维人体姿态数据较少。现有的三维人体姿态数据大多数是在室内通过精密的仪器进行人工采集。因此现有三维人体姿态估计方法,由于缺少大量丰富的室外三维人体姿态数据,在室外图像中表现欠佳。
由于二维姿态估计的成熟发展,以及三维人体姿态数据的难采集。现有的三维人体姿态估计的方法趋向于,从二维人体姿态中,通过弱监督的方法来估计三维人体姿态。弱监督的方式旨在通过约束神经网络学习三维人体姿态的先验属性,例如三维人体姿态骨骼长度、骨骼间夹角等属性,而不需要与图片一一对应的三维人体姿态数据进行全监督,从而缓解缺乏室外三维人体姿态数据的局限。为了能够弱监督神经网络生成更为合理的三维人体姿态,现有方法采用生成式对抗网络进行三维人体姿态的弱监督学习。生成式对抗网络的方法旨在利用现有已经采集好的三维人体姿态数据,弱监督式约束称为生成器的神经网络生成符合现有三维人体姿态数据分布的三维人体姿态。生成式对抗网络的方式可以让生成器学习到比较合理的三维人体姿态,比如人体左右手臂长度对称相等,骨骼间夹角合理,重投影与人体二维姿态重合等。然而,现有的生成式对抗网络方法专注于现有采集好的三维人体姿态数据分布的约束,却忽视了图像所对应的人体各关节点间的相对深度的约束,使得估计出的三维人体姿态虽然符合现有采集好的三维人体姿态数据分布,但却不符合图像中所对应的各关节点间的相对深度关系。相对深度是指图像中人体的各个关节点距离摄像机远近的相对关系。相对深度是可以从图像通过人眼观察获得,对比真实三维坐标捕捉的困难度,相对深度是易获取的。因此相对深度信息可以作为一种弱监督的信息进行使用。
发明内容
本发明的目的在于克服现有技术的缺点,提出了一种基于对抗式相对深度约束网络的三维人体姿态估计方法,通过弱监督的方法来解决三维人体姿态数据采集困难的局限,通过结合生成式对抗网络和相对深度约束,解决现有使用生成式对抗网络方法所估计出的三维人体姿态不符合图像对应的相对深度关系的不足。
为实现上述目的,本发明所提供的技术方案为:基于对抗式相对深度约束网络的三维人体姿态估计方法,包括以下步骤:
1)输入人体16个关节点的二维像素坐标,并进行归一化预处理;
2)输入人体16个关节点归一化预处理后的二维像素坐标到深度预测网络中,输出人体16个关节点的深度值;
3)利用16个关节点的深度值与二维像素坐标来重构关节点的三维坐标,得到重构的三维人体姿态;
4)输入重构的三维人体姿态到生成式对抗网络的判别器进行真实性误差计算,同时利用重构的三维人体姿态与图像对应的各关节点间的相对深度信息进行相对深度误差计算;
5)将生成式对抗网络的判别器计算的真实性误差与相对深度误差相加得到总误差,并反馈到深度预测网络,约束深度预测网络预测出更准确的深度值,从而重构得到更加准确的三维人体姿态。
在步骤1)中,对于每个人体,每个关节点的二维像素坐标减去该人体的16个关节点的二维像素坐标的均值,然后除以该人体的16个关节点的二维像素坐标的标准差,从而获得归一化预处理后的二维像素坐标。
在步骤2)中,将上一步得到的各关节点归一化预处理后的二维像素坐标,输入到由三个模块组成的深度预测网络中进行人体16个关节点深度值的预测,包括以下步骤:
2.1)将各关节点归一化预处理后的二维像素坐标,输入到特征提取模块中提取特征,该特征提取模块由一层包含1024个神经元的全连接层和一层线性整流激活函数层组成;
2.2)将特征提取模块提取的特征输入到残差网络模块中进行特征学习,该残差网络模块由两个残差块组成,每个残差块是将神经网络上一层的输出值输入到一层包含1024个神经元的全连接层和一层线性整流激活函数层输出初步特征值,接着将初步特征值输入到一层包含1024个神经元的全连接层输出进一步的特征值,然后将进一步的特征值与输入到残差块的输入值相加,最后将相加得到的特征值输入到一层线性整流激活函数层,输出残差块特征值到神经网络的下一层;
2.3)将残差网络模块的输出特征输入到深度值回归模块,该深度值回归模块由一层包含16个神经元的全连接层构成,深度值回归模块输入残差网络模块的输出特征,输出人体16个关节点的深度值。
在步骤3)中,利用16个关节点的深度值与二维像素坐标来重构关节点的三维坐标,具体如下:
假设人体某一关节点的二维像素坐标为(u,v),其中u为该关节点在图像的横向坐标,v为该关节点在图像的纵向坐标;假设该关节点在上一步预测得到的深度值为H,图像对应的焦距为f,则该关节点的三维坐标为将每个关节点的三维坐标重构,能够重构人体16个关节点的三维坐标,人体16个关节点的三维坐标组成人体的三维姿态。
在步骤4)中,输入重构的三维人体姿态到生成式对抗网络的判别器进行真实性误差计算,同时利用重构的三维人体姿态与图像对应的各关节点间的相对深度信息进行相对深度误差计算,包括以下步骤:
4.1)将上一步重构得到三维人体姿态当作假样本,将现有已经采集好的三维人体姿态数据当作真样本,输入到生成式对抗网络的判别器中,能够使得重构出的三维人体姿态,符合现有已经采集好的真实三维人体姿态数据分布,从而得到更为合理的三维人体姿态;该生成式对抗网络的判别器由上下两层全连接特征提取模块和一个全连接真假预测模块组成;首先,将三维人体姿态样本输入到上下两层全连接特征提取模块进行特征提取,接着将上下两层全连接特征提取模块提取的特征进行拼接得到合并特征,将合并特征输入到一个全连接真假预测模块中进行样本真假的判定,输出对样本的判定值,通过判定值利用生成式对抗网络的损失函数来计算三维人体姿态的真实性误差;其中,上层全连接特征提取模块与下层全连接特征提取模块结构一致,都是由深度预测网络中的特征提取模块和由一个残差块构成的残差网络模块组成,全连接真假预测模块由一层包含1024个神经元的全连接层、一层线性整流激活函数层和一层包含1个神经元的全连接层组成;
4.2)利用重构的三维人体姿态与图像对应的各关节点间的相对深度信息进行相对深度误差计算,通过图像的人眼观察,能够获得图像中的人体各关节点间的相对深度信息,采用16行16列的矩阵的形式来存储关节点间相对深度关系信息,具体为:从图像观察中,假设人体的第i个关节点比第j个关节点离摄像机近,则矩阵第i行j列的元素值r(i,j)为1;第i个关节点比第j个关节点离摄像机远,则r(i,j)为-1;第i个关节点比第j个关节点离摄像机远近相差在设定范围内,则r(i,j)为0;其中i和j都是取值在区间[1,16]中的一个整数,r为用于存储关节点间相对深度信息的矩阵,r(i,j)为矩阵中第i行j列的元素值,用于表示第i个关节点与第j个关节点间的相对深度关系;
利用得到的相对深度信息的矩阵,来计算步骤3)中重构得到的三维人体姿态中的每一对关节点间的相对深度误差,具体为:
式中,Li,j表示三维人体姿态中第i关节点与第j个关节点形成的点对的相对深度误差值;r(i,j)表示第i个关节点与第j个关节点间的相对深度关系,取值为{1,-1,0};|r(i,j)|表示r(i,j)的绝对值;Hi和Hj分别表示在深度预测网络得到第i个关节点与第j个关节点的深度值;最终由人体的每一对关节点间的相对深度误差,来计算人体的16个关节点所两两形成的256个点对的相对深度误差总和,具体为:
式中,Lrank表示人体的16个关节点所两两形成的256个点对的相对深度误差总和,(i,j)表示人体中第i个关节点与第j个关节点组成的点对,B表示人体16个关节点间两两组成的256个点对组成的集合;计算得到的人体16个关节点两两形成的256个点对的相对深度误差总和,表示为该人体的三维人体姿态的相对深度误差。
在步骤5)中,将生成式对抗网络的判别器计算的真实性误差与相对深度误差相加,得到所重构的三维人体姿态在真实性与相对深度两方面的总误差,通过神经网络的反向梯度下降传播,将误差反馈给深度预测网络,更新深度预测网络中的参数,从而使得神经网络能够学习到三维人体姿态的真实性以及图片对应的各关节点间的相对深度信息,预测更加准确的关节点深度,重构得到更加准确的三维人体姿态。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明采用生成式对抗网络进行弱监督,只需使用现有已经采集好的三维人体姿态数据进行训练,无需采集与图像对应的三维人体姿态数据进行全监督,从而缓解三维人体姿态数据难采集的问题,从而具有应用更广的优点。
2、本发明采用结合生成式对抗网络和相对深度约束方式,在通过生成式对抗网络获得比较合理的三维人体姿态的基础上,充分利用图片中各关节点间的相对深度信息,使得所估计出的三维人体姿态更符合图像中人体对应的三维姿态,从而获得更高的精度。
3、本发明的网络都是采用简单的全连接层,网络结构简单,计算快速高效,从而达到实时性。
附图说明
图1是本发明方法流程图。
图2是人体16个关节点示意图。
图3是深度预测网络的结构图;图中,Linear表示全连接层,Linear下方的数字表示该全连接层包含神经元的个数,RELU表示线性整流激活函数层,大方框中内容表示残差块的结构,大方框右上角的×2表示有两个残差块。
图4是生成式对抗网络的判别器结构图;图中,Linear表示全连接层,Linear下方的数字表示该全连接层包含神经元的个数,RELU表示线性整流激活函数层,FCnet表示全连接特征提取模块网络,Concat表示将上下两层全连接特征提取模块提取的特征进行拼接。
图5是生成式对抗网络的判别器中的全连接特征提取模块网络结构图。图中,Linear表示全连接层,Linear下方的数字表示该全连接层包含神经元的个数,RELU表示线性整流激活函数层。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例所提供的基于对抗式相对深度约束网络的三维人体姿态估计方法,进行三维人体姿态估计的完整流程如图1。首先,输入人体16个关节点的二维像素坐标,并进行归一化预处理;接着,输入人体16个关节点归一化预处理后的二维像素坐标到深度预测网络中,输出人体16个关节点的深度值;再接着,利用16个关节点的深度值与二维像素坐标来重构关节点的三维坐标;然后,输入重构的三维人体姿态到生成式对抗网络的判别器进行真实性误差计算,同时利用重构的三维人体姿态与图像对应的各关节点间的相对深度信息进行相对深度误差计算;最后,将生成式对抗网络的判别器计算的真实性误差与相对深度误差相加得到总误差,并反馈到深度预测网络,约束深度预测网络预测出让总误差更小的深度值,从而重构得到更加准确的三维人体姿态。具体情况如下:
1)输入人体关节点的二维像素坐标,然后进行人体关节点二维像素坐标归一化处理,具体为:对于每个人体,每个关节点的二维像素坐标减去该人体的16个关节点的二维像素坐标的均值,然后除以该人体的16个关节点的二维像素坐标的标准差,从而获得归一化预处理后的二维像素坐标。人体16个关节点见图2所示。
2)深度预测网络结构见图3所示。图中,Linear表示全连接层,Linear下方的数字表示该全连接层包含神经元的个数。RELU表示线性整流激活函数层。大方框中内容表示残差块的结构,大方框右上角的×2表示有两个残差块。输入人体16个关节点归一化预处理后的二维像素坐标到深度预测网络中,输出人体16个关节点的深度值。将上一步得到的各关节点归一化预处理后的二维像素坐标,输入到由三个模块组成的深度预测网络中进行人体16个关节点深度值的预测,包括以下步骤:
2.1)将各关节点归一化预处理后的二维像素坐标,输入到特征提取模块中提取特征。特征提取模块由一层包含1024个神经元的全连接层和一层线性整流激活函数层组成。
2.2)将特征提取模块提取的特征输入到残差网络模块中进行特征学习。残差网络模块由两个残差块组成。每个残差块是将神经网络上一层的输出值输入到一层包含1024个神经元的全连接层和一层线性整流激活函数层输出初步特征值,接着将初步特征值输入到一层包含1024个神经元的全连接层输出进一步的特征值,然后将进一步的特征值与输入到残差块的输入值相加,最后将相加得到的特征值输入到一层线性整流激活函数层,输出残差块特征值到神经网络的下一层。
2.3)将残差网络模块的输出特征输入到深度值回归模块。深度值回归模块由一层包含16个神经元的全连接层构成。深度值回归模块输入残差网络模块的输出特征,输出人体16个关节点的深度值。
3)利用16个关节点的深度值与二维像素坐标来重构关节点的三维坐标,具体如下:
假设人体某一关节点的二维像素坐标为(u,v),其中u为该关节点在图像的横向坐标,v为该关节点在图像的纵向坐标。假设该关节点在上一步预测得到的深度值为H,图像对应的焦距为f,则该关节点的三维坐标为将每个关节点的三维坐标重构,可以重构人体16个关节点的三维坐标。人体16个关节点的三维坐标组成了人体的三维姿态。
4)生成式对抗网络的判别器结构见图4所示。图中,Linear表示全连接层,Linear下方的数字表示该全连接层包含神经元的个数。RELU表示线性整流激活函数层。FCnet表示全连接特征提取模块网络。Concat表示将上下两层全连接特征提取模块提取的特征进行拼接。生成式对抗网络的判别器中的全连接特征提取模块网络结构见图5所示。利用生成式对抗网络的判别器与相对深度信息进行误差计算,输入重构的三维人体姿态到生成式对抗网络的判别器进行真实性误差计算,同时利用重构的三维人体姿态与图像对应的各关节点间的相对深度信息进行相对深度误差计算,包括以下步骤:
4.1)将上一步重构得到三维人体姿态当作假样本,将现有已经采集好的三维人体姿态数据当作真样本,输入到生成式对抗网络的判别器中,可以使得重构出的三维人体姿态,符合现有已经采集好的真实三维人体姿态数据分布,从而得到更为合理的三维人体姿态;该生成式对抗网络的判别器由上下两层全连接特征提取模块和一个全连接真假预测模块组成。首先,将三维人体姿态样本输入到上下两层全连接特征提取模块进行特征提取;接着将上下两层全连接特征提取模块提取的特征进行拼接得到合并特征,将合并特征输入到一个全连接真假预测模块中进行样本真假的判定,输出对样本的判定值,通过判定值利用生成式对抗网络的损失函数来计算三维人体姿态的真实性误差。上层全连接特征提取模块与下层全连接特征提取模块结构一致,都是由深度预测网络中的特征提取模块和由一个残差块构成的残差网络模块组成。全连接真假预测模块由一层包含1024个神经元的全连接层、一层线性整流激活函数层和一层包含1个神经元的全连接层组成。
4.2)利用重构的三维人体姿态与图像对应的各关节点间的相对深度信息进行相对深度误差计算。通过图像的人眼观察,可以获得图像中的人体各关节点间的相对深度信息。本发明采用16行16列的矩阵的形式来存储关节点间相对深度信息。具体为:从图像观察中,假设人体的第i个关节点比第j个关节点明显离摄像机近,则矩阵第i行j列的元素值r(i,j)为1;第i个关节点比第j个关节点明显离摄像机远,则r(i,j)为-1;第i个关节点比第j个关节点离摄像机远近相差不大,则r(i,j)为0。其中i和j都是取值在区间[1,16]中的一个整数,r为用于存储关节点间相对深度信息的矩阵,r(i,j)为矩阵中第i行j列的元素值,用于表示第i个关节点与第j个关节点间的相对深度关系。
利用得到的相对深度信息的矩阵,来计算步骤3)中重构得到的三维人体姿态中的每一对关节点间的相对深度误差,具体为:
式中,i和j都是取值范围在区间[1,16]中的一个整数。Li,j表示三维人体姿态中第i关节点与第j个关节点形成的点对的相对深度误差值。r(i,j)表示第i个关节点与第j个关节点间的相对深度关系,取值为{1,-1,0}。|r(i,j)|表示r(i,j)的绝对值。Hi和Hj分别表示在深度预测网络得到第i个关节点与第j个关节点的深度值。最终由人体的每一对关节点间的相对深度误差,来计算人体的16个关节点两两形成的256个点对的相对深度误差总和,具体为:
式中,i和j都是取值范围在区间[1,16]中的一个整数。Li,j表示三维人体姿态中第i关节点与第j个关节点形成的点对的相对深度误差值。Lrank表示人体的16个关节点两两形成的256个点对的相对深度误差总和。(i,j)表示人体中第i个关节点与第j个关节点组成的点对,B表示人体16个关节点间两两组成的256个点对组成的集合。计算得到的人体16个关节点所两两形成的256个点对的相对深度误差总和,表示为该人体的三维人体姿态的相对深度误差。
5)将生成式对抗网络的判别器计算的真实性误差与相对深度误差相加得到总误差,并反馈到深度预测网络,约束深度预测网络预测出更准确的深度值,从而重构得到更加准确的三维人体姿态,具体如下:
将生成式对抗网络的判别器计算的真实性误差与相对深度误差相加,得到所重构的三维人体姿态在真实性与相对深度两方面的总误差,通过神经网络的反向梯度下降传播,将误差反馈给深度预测网络,更新深度预测网络中的参数,从而使得神经网络能够学习到三维人体姿态的真实性以及图片对应的各关节点间的相对深度信息,预测更加准确的关节点深度,重构得到更加准确的三维人体姿态。
综上所述,在采用以上方案后,本发明为三维人体姿态估计提供了新的弱监督的方法。本发明结合生成式对抗网络和相对深度约束方式,在通过生成式对抗网络获得比较合理的三维人体姿态的基础上,还利用了图片中各关节点间的相对深度关系信息,使得所估计出的三维人体姿态更符合图像中人体对应的三维姿态,从而获得更高的精度,具有实际应用价值,值得推广。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (5)

1.基于对抗式相对深度约束网络的三维人体姿态估计方法,其特征在于,包括以下步骤:
1)输入人体16个关节点的二维像素坐标,并进行归一化预处理;
2)输入人体16个关节点归一化预处理后的二维像素坐标到深度预测网络中,输出人体16个关节点的深度值;
3)利用16个关节点的深度值与二维像素坐标来重构关节点的三维坐标,得到重构的三维人体姿态;
4)输入重构的三维人体姿态到生成式对抗网络的判别器进行真实性误差计算,同时利用重构的三维人体姿态与图像对应的各关节点间的相对深度信息进行相对深度误差计算,包括以下步骤:
4.1)将上一步重构得到三维人体姿态当作假样本,将现有已经采集好的三维人体姿态数据当作真样本,输入到生成式对抗网络的判别器中,能够使得重构出的三维人体姿态,符合现有已经采集好的真实三维人体姿态数据分布,从而得到更为合理的三维人体姿态;该生成式对抗网络的判别器由上下两层全连接特征提取模块和一个全连接真假预测模块组成;首先,将三维人体姿态样本输入到上下两层全连接特征提取模块进行特征提取,接着将上下两层全连接特征提取模块提取的特征进行拼接得到合并特征,将合并特征输入到一个全连接真假预测模块中进行样本真假的判定,输出对样本的判定值,通过判定值利用生成式对抗网络的损失函数来计算三维人体姿态的真实性误差;其中,上层全连接特征提取模块与下层全连接特征提取模块结构一致,都是由深度预测网络中的特征提取模块和由一个残差块构成的残差网络模块组成,全连接真假预测模块由一层包含1024个神经元的全连接层、一层线性整流激活函数层和一层包含1个神经元的全连接层组成;
4.2)利用重构的三维人体姿态与图像对应的各关节点间的相对深度信息进行相对深度误差计算,通过图像的人眼观察,能够获得图像中的人体各关节点间的相对深度信息,采用16行16列的矩阵的形式来存储关节点间相对深度关系信息,具体为:从图像观察中,假设人体的第i个关节点比第j个关节点离摄像机近,则矩阵第i行j列的元素值r(i,j)为1;第i个关节点比第j个关节点离摄像机远,则r(i,j)为-1;第i个关节点比第j个关节点离摄像机远近相差在设定范围内,则r(i,j)为0;其中i和j都是取值在区间[1,16]中的一个整数,r为用于存储关节点间相对深度信息的矩阵,r(i,j)为矩阵中第i行j列的元素值,用于表示第i个关节点与第j个关节点间的相对深度关系;
利用得到的相对深度信息的矩阵,来计算步骤3)中重构得到的三维人体姿态中的每一对关节点间的相对深度误差,具体为:
式中,Li,j表示三维人体姿态中第i关节点与第j个关节点形成的点对的相对深度误差值;r(i,j)表示第i个关节点与第j个关节点间的相对深度关系,取值为{1,-1,0};|r(i,j)|表示r(i,j)的绝对值;Hi和Hj分别表示在深度预测网络得到第i个关节点与第j个关节点的深度值;最终由人体的每一对关节点间的相对深度误差,来计算人体的16个关节点所两两形成的256个点对的相对深度误差总和,具体为:
式中,Lrank表示人体的16个关节点所两两形成的256个点对的相对深度误差总和,(i,j)表示人体中第i个关节点与第j个关节点组成的点对,B表示人体16个关节点间两两组成的256个点对组成的集合;计算得到的人体16个关节点两两形成的256个点对的相对深度误差总和,表示为该人体的三维人体姿态的相对深度误差;
5)将生成式对抗网络的判别器计算的真实性误差与相对深度误差相加得到总误差,并反馈到深度预测网络,约束深度预测网络预测出更准确的深度值,从而重构得到更加准确的三维人体姿态。
2.根据权利要求1所述的基于对抗式相对深度约束网络的三维人体姿态估计方法,其特征在于:在步骤1)中,对于每个人体,每个关节点的二维像素坐标减去该人体的16个关节点的二维像素坐标的均值,然后除以该人体的16个关节点的二维像素坐标的标准差,从而获得归一化预处理后的二维像素坐标。
3.根据权利要求1所述的基于对抗式相对深度约束网络的三维人体姿态估计方法,其特征在于:在步骤2)中,将上一步得到的各关节点归一化预处理后的二维像素坐标,输入到由三个模块组成的深度预测网络中进行人体16个关节点深度值的预测,包括以下步骤:
2.1)将各关节点归一化预处理后的二维像素坐标,输入到特征提取模块中提取特征,该特征提取模块由一层包含1024个神经元的全连接层和一层线性整流激活函数层组成;
2.2)将特征提取模块提取的特征输入到残差网络模块中进行特征学习,该残差网络模块由两个残差块组成,每个残差块是将神经网络上一层的输出值输入到一层包含1024个神经元的全连接层和一层线性整流激活函数层输出初步特征值,接着将初步特征值输入到一层包含1024个神经元的全连接层输出进一步的特征值,然后将进一步的特征值与输入到残差块的输入值相加,最后将相加得到的特征值输入到一层线性整流激活函数层,输出残差块特征值到神经网络的下一层;
2.3)将残差网络模块的输出特征输入到深度值回归模块,该深度值回归模块由一层包含16个神经元的全连接层构成,深度值回归模块输入残差网络模块的输出特征,输出人体16个关节点的深度值。
4.根据权利要求1所述的基于对抗式相对深度约束网络的三维人体姿态估计方法,其特征在于:在步骤3)中,利用16个关节点的深度值与二维像素坐标来重构关节点的三维坐标,具体如下:
假设人体某一关节点的二维像素坐标为(u,v),其中u为该关节点在图像的横向坐标,v为该关节点在图像的纵向坐标;假设该关节点在上一步预测得到的深度值为H,图像对应的焦距为f,则该关节点的三维坐标为将每个关节点的三维坐标重构,能够重构人体16个关节点的三维坐标,人体16个关节点的三维坐标组成人体的三维姿态。
5.根据权利要求1所述的基于对抗式相对深度约束网络的三维人体姿态估计方法,其特征在于:在步骤5)中,将生成式对抗网络的判别器计算的真实性误差与相对深度误差相加,得到所重构的三维人体姿态在真实性与相对深度两方面的总误差,通过神经网络的反向梯度下降传播,将误差反馈给深度预测网络,更新深度预测网络中的参数,从而使得神经网络能够学习到三维人体姿态的真实性以及图片对应的各关节点间的相对深度信息,预测更加准确的关节点深度,重构得到更加准确的三维人体姿态。
CN202010521352.7A 2020-06-10 2020-06-10 基于对抗式相对深度约束网络的三维人体姿态估计方法 Active CN111914618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010521352.7A CN111914618B (zh) 2020-06-10 2020-06-10 基于对抗式相对深度约束网络的三维人体姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010521352.7A CN111914618B (zh) 2020-06-10 2020-06-10 基于对抗式相对深度约束网络的三维人体姿态估计方法

Publications (2)

Publication Number Publication Date
CN111914618A CN111914618A (zh) 2020-11-10
CN111914618B true CN111914618B (zh) 2024-05-24

Family

ID=73237497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010521352.7A Active CN111914618B (zh) 2020-06-10 2020-06-10 基于对抗式相对深度约束网络的三维人体姿态估计方法

Country Status (1)

Country Link
CN (1) CN111914618B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066169B (zh) * 2021-04-14 2022-06-07 湘潭大学 一种基于骨骼长度约束的人体三维姿态重建方法及***
CN113239892A (zh) * 2021-06-10 2021-08-10 青岛联合创智科技有限公司 一种基于数据增强架构的单目人体三维姿态估计方法
CN113506131B (zh) * 2021-06-29 2023-07-25 安徽农业大学 一种基于生成式对抗网络的个性化推荐方法
CN117456612B (zh) * 2023-12-26 2024-03-12 西安龙南铭科技有限公司 基于云计算的形体姿态自动评估方法和***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427877A (zh) * 2019-08-01 2019-11-08 大连海事大学 一种基于结构信息的人体三维姿态估算的方法
CN110647991A (zh) * 2019-09-19 2020-01-03 浙江大学 一种基于无监督领域自适应的三维人体姿态估计方法
CN110826500A (zh) * 2019-11-08 2020-02-21 福建帝视信息科技有限公司 基于运动链接空间的对抗性网络估计3d人体姿态的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427877A (zh) * 2019-08-01 2019-11-08 大连海事大学 一种基于结构信息的人体三维姿态估算的方法
CN110647991A (zh) * 2019-09-19 2020-01-03 浙江大学 一种基于无监督领域自适应的三维人体姿态估计方法
CN110826500A (zh) * 2019-11-08 2020-02-21 福建帝视信息科技有限公司 基于运动链接空间的对抗性网络估计3d人体姿态的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于视频的三维人体姿态估计 杨;杨彬 等;《北京航空航天大学学报》;20191231;第45卷(第12期);第2463页-第2469页 *

Also Published As

Publication number Publication date
CN111914618A (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN111914618B (zh) 基于对抗式相对深度约束网络的三维人体姿态估计方法
CN111160164B (zh) 基于人体骨架和图像融合的动作识别方法
CN111062326B (zh) 一种基于几何驱动的自监督人体3d姿态估计网络训练方法
CN111652966A (zh) 一种基于无人机多视角的三维重建方法及装置
CN111783582A (zh) 一种基于深度学习的无监督单目深度估计算法
CN113033369B (zh) 动作捕捉方法、装置、电子设备及计算机可读存储介质
CN112580515B (zh) 一种基于高斯热图回归的轻量级人脸关键点检测方法
CN111797692B (zh) 一种基于半监督学习的深度图像手势估计方法
CN106485207A (zh) 一种基于双目视觉图像的指尖检测方法及***
CN113610046B (zh) 一种基于深度视频联动特征的行为识别方法
CN115880724A (zh) 一种基于rgb图像的轻量化三维手部姿态估计方法
Yang et al. Spatio-temporal reconstruction for 3D motion recovery
CN112861659A (zh) 一种图像模型训练方法、装置及电子设备、存储介质
CN116092185A (zh) 基于多视角特征交互融合的深度视频行为识别方法及***
CN106909904A (zh) 一种基于可学习形变场的人脸正面化方法
CN113822114A (zh) 一种图像处理方法、相关设备及计算机可读存储介质
CN110264551B (zh) 一种运动重定向方法及***
CN113284249A (zh) 一种基于图神经网络的多视角三维人体重建方法及***
CN117115855A (zh) 基于多尺度Transformer学习丰富视觉特征的人体姿态估计方法及***
Peng et al. Attention-guided fusion network of point cloud and multiple views for 3D shape recognition
CN116797640A (zh) 一种面向智能伴行巡视器的深度及3d关键点估计方法
CN116612238A (zh) 基于全局和局部时空编码器的3d人体姿态估计方法
CN114494341B (zh) 一种融合时空约束的光学动作捕捉标记点实时补全方法
CN113361570B (zh) 基于联合数据增强和网络训练模型的3d人体姿态估计方法
CN113192186B (zh) 基于单帧图像的3d人体姿态估计模型建立方法及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant