CN115471863A - 三维姿态的获取方法、模型训练方法和相关设备 - Google Patents

三维姿态的获取方法、模型训练方法和相关设备 Download PDF

Info

Publication number
CN115471863A
CN115471863A CN202210922155.5A CN202210922155A CN115471863A CN 115471863 A CN115471863 A CN 115471863A CN 202210922155 A CN202210922155 A CN 202210922155A CN 115471863 A CN115471863 A CN 115471863A
Authority
CN
China
Prior art keywords
dimensional
model
training
human body
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210922155.5A
Other languages
English (en)
Inventor
苗瑞
周波
蔡芳发
莫少锋
陈永刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen HQVT Technology Co Ltd
Original Assignee
Shenzhen HQVT Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen HQVT Technology Co Ltd filed Critical Shenzhen HQVT Technology Co Ltd
Priority to CN202210922155.5A priority Critical patent/CN115471863A/zh
Publication of CN115471863A publication Critical patent/CN115471863A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种三维姿态的获取方法、模型训练方法和相关设备,三维姿态的获取方法包括:获取待处理的二维图像,并将所述待处理的二维图像输入预测模型,得到所述预测模型预测的人体的各个关键点的目标二维坐标,所述预测模型根据各个二维样本图像训练得到,至少部分的所述二维样本图像中人体的关键点被遮挡;将各个所述目标二维坐标转换为对应的目标三维坐标;根据各个所述目标三维坐标获取人体的三维姿态。本发明中,预测模型是基于关键点被遮挡的二维样本图像训练得到的,即便是二维图像中关键点被遮挡,也能准确的获取关键点的二维坐标,从而通过二维坐标所转换的三维坐标生成准确的三维姿态。

Description

三维姿态的获取方法、模型训练方法和相关设备
技术领域
本发明涉及人体姿态技术领域,尤其涉及一种三维姿态的获取方法、模型训练方法和相关设备。
背景技术
人体姿态估计是计算机视觉的一个重要研究领域。人体姿势估计对于机器理解人类也至关重要。当机器能够预测人的人体姿势时,使得机器人能够更好的与人进行交互。
人体姿态估计包括二维人体姿态估计以及三维人体姿态估计。二维人体姿态估计是定位和识别人体的各个关键点的二维坐标,通过各个二维坐标得到人体骨骼。而三维人体姿态估计指的是通过人体的各个关键点的三维坐标生成三维姿态。关键点是表征人体各个部位的点,例如,关键点为手、肘部、脚、五官等。
示例性技术中,通过二维图像获取人体的各个关键点的三维坐标,再通过各个三维坐标生成人体的三维姿态。但二维图像中人体的关键点可能被物体遮挡或者被人体其他关键点遮挡,导致被遮挡的关键点的三维坐标无法获取,从而使得人体的三维姿态的并不准确。
发明内容
本发明提供一种三维姿态的获取方法、模型训练方法和相关设备,用以解决人体的三维姿态不准确的问题。
一方面,本发明提供一种三维姿态的获取方法,包括:
获取待处理的二维图像,并将所述待处理的二维图像输入预测模型,得到所述预测模型预测的人体的各个关键点的目标二维坐标,所述预测模型根据各个二维样本图像训练得到,至少部分的所述二维样本图像中人体的关键点被遮挡;
将各个所述目标二维坐标转换为对应的目标三维坐标;
根据各个所述目标三维坐标获取人体的三维姿态。
在一实施例中,所述将各个所述目标二维坐标转换为对应的目标三维坐标,包括:
将各个所述目标二维坐标输入至转换模型,得到所述转换模型输出的各个所述目标二维坐标对应的目标三维特征。
在另一方面,本申请还提供一种模型训练方法,包括:
获取样本数据集,所述样本数据集包括多个二维样本图像以及对应的标签数据,至少部分的所述二维样本图像中人体的关键点被遮挡,所述标签数据是所述二维样本图像中人体的关键点的二维坐标;
根据所述样本数据集,对第一预设模型进行训练,得到预测模型,所述预测模型用于获取待处理的二维图像中人体的关键点的目标二维坐标。
在一实施例中,所述根据所述样本数据集,对第一预设模型进行训练,得到所述预测模型,包括:
将所述二维样本图像输入至第一预设模型的第一子模型得到人体的关键点的待处理的二维坐标;
通过所述第一预设模型的第二子模型确定所述待处理的二维坐标与所述待处理的二维坐标对应的关键点的标签数据之间的差异值;
在所述差异值小于或等于预设阈值,停止对所述第一预设模型的训练,并将停止训练的所述第一预设模型确定为所述预测模型;
在所述差异值大于预设阈值,调整所述第一预设模型的生成对抗网络的损失函数,并将所述二维样本图像输入至所述第一子模型,且返回执行所述通过所述第一预设模型的第二子模型确定所述待处理的二维坐标与所述待处理的二维坐标对应的关键点的标签数据之间的差异值的步骤。
在一实施例中,所述调整所述生成对抗网络的损失函数,包括:
获取所述二维样本图像中各个关键点的待处理的二维坐标所对应的第一概率值,并根据各个所述第一概率值调整所述第一子模型的损失函数;
根据所述第二子模型确定所述第一子模型输出真实的二维图像的概率值,并根据所述概率值调整所述第二子模型的损失函数,其中,所述真实的二维图像中人体的关键点的二维坐标是正确的二维坐标;
根据预设的映射关系、所述第一子模型的损失函数以及所述第二子模型模型的损失函数调整所述生成对抗网络的损失函数,所述预设的映射关系是第一子模型的损失函数、所述第二子模型的损失函数与所述生成对抗网络的损失函数之间的关系。
在一实施例中,所述根据所述样本数据集,对第一预设模型进行训练,得到所述预测模型之后,还包括:
获取多个训练样本,所述训练样本包括待训练的二维坐标以及所述待训练的二维坐标对应的三维坐标,所述待训练的二维坐标是所述预测模型对人体的二维图像提取得到;
根据各个所述训练样本对第二预设模型进行训练,得到转换模型,所述转换模型用于将二维坐标转换为对应的三维坐标。
另一方面,本发明还提供一种三维姿态的获取装置,包括:
第一获取模块,用于获取待处理的二维图像,并将所述待处理的二维图像输入预测模型,得到所述预测模型预测的人体的各个关键点的目标二维坐标,所述预测模型根据各个二维样本图像训练得到,至少部分的所述二维样本图像中人体的关键点被遮挡;
转换模块,用于将各个所述目标二维坐标转换为对应的目标三维坐标;
所述获取模块,还用于根据各个所述目标三维坐标获取人体的三维姿态。
另一方面,本发明还提供一种模型训练装置,包括:
第二获取模块,用于获取样本数据集,所述样本数据集包括多个二维样本图像以及对应的标签数据,至少部分的所述二维样本图像中人体的关键点被遮挡;
训练模块,用于根据所述样本数据集,对第一预设模型进行训练,得到预测模型,所述预测模型用于获取待处理的二维图像中人体的关键点的目标二维坐标。
另一方面,本发明还提供一种设备,包括:存储器和处理器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行如上所述的三维姿态的获取方法或如上所述的模型训练方法。
另一方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上所述的三维姿态的获取方法或如上所述的模型训练方法。
本发明提供的三维姿态的获取方法、模型训练方法和相关设备,通过将二维图像输入至预测模型得到预测模型预测的人体的各个关键点的二维坐标,由于预测模型是基于关键点被遮挡的二维样本图像训练得到的,即便是二维图像中关键点被遮挡,也能准确的获取关键点的二维坐标,从而通过二维坐标所转换的三维坐标生成准确的三维姿态。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本发明三维姿态的获取方法第一实施例的流程示意图;
图2为本发明模型训练方法第一实施例的流程示意图;
图3为本发明模型训练方法第二实施例的流程示意图;
图4为本发明模型训练方法第三实施例的流程示意图;
图5为本发明模型训练方法第四实施例的流程示意图;
图6为本发明涉及的模型训练流程示意图;
图7为本发明三维姿态的获取装置的模块示意图;
图8为本发明模型训练装置的模块示意图;
图9为本发明三维姿态的获取设备/模型训练设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
参照图1,图1为本发明三维姿态的获取方法的第一实施例,三维姿态的获取方法包括以下步骤:
步骤S101,获取待处理的二维图像,并将待处理的二维图像输入预测模型,得到预测模型预测的人体的各个关键点的目标二维坐标,预测模型根据各个二维样本图像训练得到,至少部分的二维样本图像中人体的关键点被遮挡。
在本实施例中,执行主体为三维姿态的获取装置。为了便于描述,以下采用第一装置指代三维姿态的获取装置。
第一装置获取待处理的二维图像,二维图像中包括人体。第一装置设置有预测模型。预测模型可以是神经网络模型或者生成对抗网络模型。
装置将待处理的二维图像输入至预测模型。由于二维图像中人体的部分位置可能被衣物或者物品遮挡,并不能准确的确定人体的关键点。例如,二维图像中的用户手持扇子,扇子遮挡嘴巴,在进行关键点的提取时,提取的关键点不能被确定是嘴还是下巴。而预测模型基于各个二维样本图像训练得到,且存在至少部分的二维样本图像中人体的关键点被遮挡。即便是二维图像中人体的关键点被遮挡,预测模型也能够从二维图像中预测出被遮挡的关键点。
对此,预测模型对待处理的二维图像进行识别,从而在待处理的二维图像中预测出人体的各个关键点,再提取关键点的二维坐标,提取的二维坐标定义为目标二维坐标。关键点例如为人体的手、脚、额头、嘴巴、耳朵等。
步骤S102,将各个目标二维坐标转换为对应的目标三维坐标。
在得到各个目标二维坐标后,装置将各个目标二维坐标转换为对应的目标三维坐标。
在一示例中,可以通过人体二维坐标系与人体三维坐标系的转换关系,将目标二维坐标转换为目标三维坐标。人体二维坐标系与人体三维坐标系可通过深度学习得到。
在另一示例中,可通过转换模型将各个目标二维坐标转换为对应的目标三维坐标。转换模型可以是神经网络模型。
步骤S103,根据各个目标三维坐标获取人体的三维姿态。
第一装置在得到各个目标三维坐标后,基于各个目标三维坐标生成人体的三维姿态。例如,第一装置可以将各个目标三维坐标输入至卷积神经网络,即可得到卷积神经网络所输出的三维姿态。三维姿态可以用于进行人体动作的识别,人体动作的识别可用于采用人体摔倒报警等应用场景。
在本实施例中,通过将二维图像输入至预测模型得到预测模型预测的人体的各个关键点的二维坐标,由于预测模型是基于关键点被遮挡的二维样本图像训练得到的,即便是二维图像中关键点被遮挡,也能准确的获取关键点的二维坐标,从而通过二维坐标所转换的三维坐标生成准确的三维姿态。
本发明还提供一种模型训练方法。
参照图2,图2为本发明模型训练方法第一实施例的流程示意图,该方法还包括:
步骤S201,获取样本数据集,样本数据集包括多个二维样本图像以及对应的标签数据,至少部分的二维样本图像中人体的关键点被遮挡,标签数据是二维样本图像中人体的关键点的二维坐标。
在本实施例中,执行主体为模型训练装置,为了便于描述,以下采用第二装置指代模型训练装置。
在本实施例中,第二装置获取样本数据集。样本数据集包括多个二维样本图像以及对应的标签数据。至少部分的二维样本图像中人体的关键点被遮挡,标签数据是二维样本图像中人体的关键点的二维坐标。
二维样本图像可以从可穿戴设备获取,也可从网上所公开的数据中获取。在获取二维样本图像后,技术人员会对二维样本图像进行人体的关键点的二维坐标的标注得到对应的标签数据。
步骤S202,根据样本数据集,对第一预设模型进行训练,得到预测模型,预测模型用于获取待处理的二维图像中人体的关键点的目标二维坐标。
第一预设模型设置有生成对抗网络。第二装置通过各个二维样本图像对生成对抗网络的训练即可得到预测模型。预测模型用于获取待处理的二维图像中人体的关键点的目标二维坐标。
第一预设模型包括第一子模型,第一子模型可以是生成模型,也即生成对抗网络包括生成模型,生成模型包括三层卷积层以及三层池化层,卷积层的卷积核可为3。生成模型用于提取二维样本图像中人体关键点的二维坐标,具体的,生成模型通过三层卷积层对二维样本图像进行特征的特征,再通过三层池化层对提取的特征进行降维操作,从而降低特征的冗余信息且放置数据过拟合。预测模型由第一预设模型训练得到,故,预测模型也包括生成模型。
在本实施例中,第二装置获取样本数据集,从而通过样本数据集对第一预设模型进行训练得到预测模型。由于样本数据集包括的二维样本图像中的人体关键点被遮挡,即便待检测的二维图像中的人体关键点被遮挡,预测模型也能够提取被遮挡的关键点的二维坐标。
参照图3,图3为本发明模型训练方法第二实施例的流程示意图,基于第一实施例,步骤S202包括:
步骤S301,将二维样本图像输入至第一预设模型的第一子模型得到人体的关键点的待处理的二维坐标。
在本实施例中,第一预设模型包括第一子模型以及第二子模型,第一子模型为生成模型,第二子模型为判别器,也即生成对抗网络包括生成模型以及判别器,通过生成模型与判别器之间的博弈即可对生成对抗网络进行训练。
具体的,先将二维样本图像输入至生成对抗网络,也即输入至生成模块得到人体的关键点的待处理的二维坐标。
步骤S302,通过第一预设模型的第二子模型确定待处理的二维坐标与待处理的二维坐标对应的关键点的标签数据之间的差异值。
二维样本图像对应的标签数据输入至判别器。在生成模型将提取的待处理的二维坐标输入至判别器,判别器对待处理的二维坐标以及待处理的二维坐标对应的关键点的标签数据进行差异判别,该标签数据可为标注的二维坐标。差异判别结果可通过差异值来表征,也即差异值用于表示标注的二维坐标与待处理的二维坐标之间的差异,且差异值越大,两者之间的差异越大,且生成模型所提取的二维坐标越不准确。
需要说明的是,判别器判别的是相同关键点的待处理的二维坐标与标注的二维坐标之间的差异。例如,判别器判别手部的待处理的二维坐标与标注的二维坐标之间的差异。判别器在判别关键点的待处理的二维坐标与标注的二维坐标之间的差异后,即可得到各个关键点所对应的差异值,基于各个关键点的权重以及对应的差异值即可加权计算得到总的差异值,总的差异值用于确定生成模型是否完成训练,也即第二装置判断差异值(加权计算得到的差异值)是否小于或等于预设阈值。
步骤S303,在差异值小于或等于预设阈值,停止对第一预设模型的训练,并将停止训练的第一预设模型确定为预测模型。
在当差异值小于或等于预设阈值,即可确定生成模型所提取的关键点的二维坐标接近于关键点的真实二维坐标,此时,停止对第一预设模型进行训练,停止训练的第一预设模型即可作为预测模型。
另外,判别器可能无法判别待处理的二维坐标与标注的二维坐标之间的差异。例如,判别器判别待处理的二维坐标是标注的二维坐标的概率值为0.5,且判别器判别待处理的二维坐标不是标注的二维坐标的概率值也为0.5。判别器无法判别待处理的二维坐标与标注的二维坐标的差异时,可将两者所对应的差异值为预设值,且预设值小于预设阈值。
步骤S304,在差异值大于预设阈值,调整第一预设模型的生成对抗网络的损失函数,并将二维样本图像输入至第一子模型。
在当差异值大于预设阈值,生成模型所提取的二维坐标并不准确,因而需要对生成对抗网络继续进行训练。对此,第二装置调整生成对抗网络的损失函数,再将二维样本图像输入至第一子模型,从而返回执行通过第一预设模型的第二子模型确定待处理的二维坐标与待处理的二维坐标对应的关键点的标签数据之间的差异值的步骤,也即二维样本图像继续训练生成对抗网络。此次输入的二维样本图像与上一次输入二维样本图像不相同,也可相同。
在本实施例中,通过第一预设模型中的判别器与生成模型生成预测模型,从而提高关键点的二维坐标的提取准确性。
参照图4,图4为本发明模型训练方法第四实施例,基于第二实施例,步骤S304包括:
步骤S401,获取二维样本图像中各个关键点的待处理的二维坐标所对应的第一概率值,并根据各个第一概率值调整第一子模型的损失函数。
在本实施例中,第一预测模型中的生成模型的损失函数可采用交叉熵损失函数,交叉熵损失函数可为:
Figure BDA0003778194890000091
其中,N是各个二维样本图像的数量,K表示关键点的类别的数量,Pi,k表示第i个关键点预测为某个关键点的概率值,yi,k表示第i个关键点真实的二维坐标(标注的二维坐标),LG为生成模型损失函数。
对此,第二装置获取生成模型各个待处理的二维坐标所对应的概率值,该概率值定义为第一概率值。第二装置基于交叉熵损失函数所对应的公式得到生成模型的损失函数与各个第一概率值之间的映射关系(第一映射关系),基于第一映射关系以及各个第一概率值即可调整生成模型的损失函数。
步骤S402,根据第二子模型确定第一子模型输出真实的二维图像的概率值,并根据概率值调整第二子模型的损失函数,其中,真实的二维图像中人体的关键点的二维坐标是正确的二维坐标。
判别器通过判别待处理的二维坐标以及标注的二维坐标确定生成对抗网络输出真实的二维图像的概率值。真实的二维图像中人体的关键点的二维坐标是正确的二维坐标,也即真实的二维坐标可以理解为标注有关键点的二维坐标。
例如,判别器判别待处理的二维坐标是标注的二维坐标的第一概率值为0.4,则生成对抗网络输出真实的二维图像的概率值也为0.4。当然可以通过各个关键点所对应的权重以及各个第一概率值得到生成对抗网络输出真实的二维图像的概率值。
在得到生成对抗网络输出真实的二维图像的概率值(该概率值定义为第二概率值)后,通过第二概率值调整判别器的损失函数,判别器的损失函数LD为:
LD=log(1-D(G(z))
其中,D(G(z)为第二概率值。
第二装置基于判别器的损失函数的公式得到判别器的损失函数与第二概率值之间的映射关系(第二映射关系),基于第二映射关系以及所获取的第二概率值即可调整判别器的损失函数。
步骤S403,根据预设的映射关系、第一子模型的损失函数以及第二子模型模型的损失函数调整生成对抗网络的损失函数,预设的映射关系是第一子模型的损失函数、第二子模型的损失函数与生成对抗网络的损失函数之间的关系。
在本实施例中,生成对抗网络的损失函数LGAN
LGAN=(1-γ)LG+γLD
其中,γ主要用来调整两个损失函数的重要程度,γ可为固定值。
基于生成对抗网络的损失函数可以得到判别器损失函数、生成模型的损失函数与生成对抗网络之间的映射关系(第三映射关系)。
在得到判别器的损失函数、生成模型的损失函数后,可通过第三映射关系、判别器的损失函数、生成模型的损失函数即可调整生成对抗网络的目标损失函数,再将生成对抗网络的损失函数调整为目标损失函数。
在本实施例中,第二装置通过调整生成模型以及判别器的损失函数,调整生成对抗网络的损失函数,从而训练出提取精度较高的预测模型。
参照图5,图5为本发明模型训练方法第四实施例,基于第一至第三中任一实施例,步骤S202之后,还包括:
步骤S501,获取多个训练样本,训练样本包括待训练的二维坐标以及待训练的二维坐标对应的三维坐标,待训练的二维坐标是预测模型对人体的二维图像提取得到。
在本实施例中,可以通过动态捕捉***和可穿戴IMU设备对二维图像中的二维坐标进行三维坐标的标注以得到训练样本,也即训练样本包括待训练的二维坐标以及待训练的二维坐标所标注的三维坐标。
步骤S502,根据各个训练样本对第二预设模型进行训练,得到转换模型,转换模型用于将二维坐标转换为对应的三维坐标。
第二装置基于各个训练样本对第二预设模型进行训练即可得到转换模型。转换模型用于将二维坐标转换为对应的三维坐标。第二预设模型可以是神经网络模型,包括多个残差网络。残差网络包括有全连接层,全连接层的输出与上一层的残差网络的输出进行联级结合,可以防止数据消散。例如,第二预设模型包括三个残差网络,第一残差网络(全连接层输出数据)输出的数据输入至第二残差网络,第二个残差网络输出的数据与第一个残差网络输出的数据一同联级输入至第三个残差网络。第二预设模型的损失函数可为MSE(meansquare error,均方差)损失函数。第二预设模型的算是函数L2D/3D为:
Figure BDA0003778194890000111
其中,Yi为真实3D标注特征点(标注的三维坐标),yi为预测的3D特征点(预测的三维坐标)。
需要说明的是,待训练的二维坐标是预测模型对人体的二维图像提取得到的,也即预测模型与提取模型可作为一个整体模型进行训练。整体模型的损失函数Lsum为:
Lsum=LGAN+L2D/3D
参照图6,图6为生成模型、判别模型(判别器)以及转换模型(2D/3D特征点转换模型)的整体训练流程。具体的,二维样本图像输入至生成模型得到人体关键点的待处理的二维坐标,基于待处理的二维坐标以及标注的二维坐标(真实标签数据)调整生成模型的损失函数LG,待处理的二维坐标以及标注的二维坐标输入判别模型,判别模型输出True/False,也即判别模型输出待处理的二维坐标是标注的二维坐标的概率值(True)以及待处理的二维坐标不是标注的二维坐标的概率值(False),基于True/False调整判别模型的损失函数LD以及生成模型的损失函数,从而最终调整生成对抗网络的损失函数。在完成生成对抗网络的训练后,生成对抗网络中的生成模型所提取的二维坐标以及二维坐标所标注的三维特征输入转换模型,转换模型输出三维坐标,基于三维坐标训练转换模型。各个模型的训练以及损失函数的调整具体参照上述说明,在此不再进行赘述。
此外,待训练的二维坐标所标注的三维坐标通过多个图像采集模块采集的人体的二维图像得到,各个图像采集模块采集人体的视角不同。例如,在实验室环境下,通过4个高清相机同步记录4个视角下的场景,并通过MoCap(动作捕捉器)***获取精确的人体关键点的三维坐标。多个图像采集模块可为第二装置的外接设备,也可为第二装置的一部分。
在本实施例中,第二装置通过多个训练样本对第二预设模型进行训练得到转换模型,从而通过转换模型准确的获取关键点的三维坐标。
本发明还提供一种三维姿态的获取装置,参照图7,三维姿态的获取装置700包括:
第一获取模块710,用于获取待处理的二维图像,并将待处理的二维图像输入预测模型,得到预测模型预测的人体的各个关键点的目标二维坐标,预测模型根据各个二维样本图像训练得到,至少部分的二维样本图像中人体的关键点被遮挡;
转换模块720,用于将各个目标二维坐标转换为对应的目标三维坐标;
第一获取模块710,用于根据各个目标三维坐标获取人体的三维姿态。
在一实施例中,三维姿态的获取装置700还包括:
输入模块,用于将各个目标二维坐标输入至转换模型,得到转换模型输出的各个目标二维坐标对应的目标三维特征。
本发明还提供一种模型训练装置,参照图8,模型训练装置800包括:
第二获取模块810,用于获取样本数据集,样本数据集包括多个二维样本图像以及对应的标签数据,至少部分的二维样本图像中人体的关键点被遮挡,标签数据是二维样本图像中人体的关键点的二维坐标;
训练模块820,用于根据样本数据集,对第一预设模型进行训练,得到预测模型,预测模型用于获取待处理的二维图像中人体的关键点的目标二维坐标。
在一实施例中,模型训练装置800还包括:
输入模块,用于将二维样本图像输入至第一预设模型的第一子模型得到人体的关键点的待处理的二维坐标;
确定模块,用于通过第一预设模型的第二子模型确定待处理的二维坐标与待处理的二维坐标对应的关键点的标签数据之间的差异值;
训练模块820,用于在差异值小于或等于预设阈值,停止对第一预设模型的训练,并将停止训练的第一预设模型确定为预测模型;
调整模块,用于在差异值大于预设阈值,调整第一预设模型的生成对抗网络的损失函数,并将二维样本图像输入至第一子模型,且返回执行通过第一预设模型的第二子模型确定待处理的二维坐标与待处理的二维坐标对应的关键点的标签数据之间的差异值的步骤。
在一实施例中,模型训练装置800还包括:
第二获取模块810,用于获取二维样本图像中各个关键点的待处理的二维坐标所对应的第一概率值,并根据各个第一概率值调整第一子模型的损失函数;
输出模块,用于根据第二子模型确定第一子模型输出真实的二维图像的概率值,并根据概率值调整第二子模型的损失函数,其中,真实的二维图像中人体的关键点的二维坐标是正确的二维坐标;
调整模块,用于根据预设的映射关系、第一子模型的损失函数以及第二子模型模型的损失函数调整生成对抗网络的损失函数,预设的映射关系是第一子模型的损失函数、第二子模型的损失函数与生成对抗网络的损失函数之间的关系。
在一实施例中,模型训练装置800还包括:
第二获取模块810,用于获取多个训练样本,训练样本包括待训练的二维坐标以及待训练的二维坐标对应的三维坐标,待训练的二维坐标是预测模型对人体的二维图像提取得到;
训练模块820,用于根据各个训练样本对第二预设模型进行训练,得到转换模型,转换模型用于将二维坐标转换为对应的三维坐标。
图9是根据一示例性实施例示出的一种三维姿态的获取设备/模型训练设备的硬件结构图。
三维姿态的获取设备/模型训练设备900可以包括:处理器91,例如CPU,存储器92,收发器93。本领域技术人员可以理解,图9中示出的结构并不构成对三维姿态的获取设备/模型训练设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。存储器92可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器91可以调用存储器92内存储的计算机程序或计算机执行执行指令,以完成上述的三维姿态的获取方法的全部或部分步骤,或者模型训练方法的全部或部分步骤。
收发器93用于接收外部设备发送的信息以及向外部设备发送信息。
一种非临时性计算机可读存储介质,当该存储介质中的指令(计算机执行指令)由三维姿态的获取设备的处理器执行时,使得三维姿态的获取设备能够执行上述三维姿态的获取方法。
一种非临时性计算机可读存储介质,当该存储介质中的指令(计算机执行指令)由模型训练设备的处理器执行时,使得模型训练设备能够执行上述模型训练方法。
一种计算机程序产品,包括计算机程序,当该计算机程序由三维姿态的获取设备的处理器执行时,使得三维姿态的获取设备能够执行上述三维姿态的获取方法。
一种计算机程序产品,包括计算机程序,当该计算机程序由模型训练设备的处理器执行时,使得模型训练设备能够执行上述模型训练方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims (10)

1.一种三维姿态的获取方法,其特征在于,包括:
获取待处理的二维图像,并将所述待处理的二维图像输入预测模型,得到所述预测模型预测的人体的各个关键点的目标二维坐标,所述预测模型根据各个二维样本图像训练得到,至少部分的所述二维样本图像中人体的关键点被遮挡;
将各个所述目标二维坐标转换为对应的目标三维坐标;
根据各个所述目标三维坐标获取人体的三维姿态。
2.根据权利要求1所述的三维姿态的获取方法,其特征在于,所述将各个所述目标二维坐标转换为对应的目标三维坐标,包括:
将各个所述目标二维坐标输入至转换模型,得到所述转换模型输出的各个所述目标二维坐标对应的目标三维特征。
3.一种模型训练方法,其特征在于,包括:
获取样本数据集,所述样本数据集包括多个二维样本图像以及对应的标签数据,至少部分的所述二维样本图像中人体的关键点被遮挡,所述标签数据是所述二维样本图像中人体的关键点的二维坐标;
根据所述样本数据集,对第一预设模型进行训练,得到预测模型,所述预测模型用于获取待处理的二维图像中人体的关键点的目标二维坐标。
4.根据权利要求3所述的模型训练方法,其特征在于,所述根据所述样本数据集,对第一预设模型进行训练,得到所述预测模型,包括:
将所述二维样本图像输入至第一预设模型的第一子模型得到人体的关键点的待处理的二维坐标;
通过所述第一预设模型的第二子模型确定所述待处理的二维坐标与所述待处理的二维坐标对应的关键点的标签数据之间的差异值;
在所述差异值小于或等于预设阈值,停止对所述第一预设模型的训练,并将停止训练的所述第一预设模型确定为所述预测模型;
在所述差异值大于预设阈值,调整所述第一预设模型的生成对抗网络的损失函数,并将所述二维样本图像输入至所述第一子模型,且返回执行所述通过所述第一预设模型的第二子模型确定所述待处理的二维坐标与所述待处理的二维坐标对应的关键点的标签数据之间的差异值的步骤。
5.根据权利要求4所述的模型训练方法,其特征在于,所述调整所述生成对抗网络的损失函数,包括:
获取所述二维样本图像中各个关键点的待处理的二维坐标所对应的第一概率值,并根据各个所述第一概率值调整所述第一子模型的损失函数;
根据所述第二子模型确定所述第一子模型输出真实的二维图像的概率值,并根据所述概率值调整所述第二子模型的损失函数,其中,所述真实的二维图像中人体的关键点的二维坐标是正确的二维坐标;
根据预设的映射关系、所述第一子模型的损失函数以及所述第二子模型模型的损失函数调整所述生成对抗网络的损失函数,所述预设的映射关系是第一子模型的损失函数、所述第二子模型的损失函数与所述生成对抗网络的损失函数之间的关系。
6.根据权利要求3-5中任一项所述的模型训练方法,其特征在于,所述根据所述样本数据集,对第一预设模型进行训练,得到所述预测模型之后,还包括:
获取多个训练样本,所述训练样本包括待训练的二维坐标以及所述待训练的二维坐标对应的三维坐标,所述待训练的二维坐标是所述预测模型对人体的二维图像提取得到;
根据各个所述训练样本对第二预设模型进行训练,得到转换模型,所述转换模型用于将二维坐标转换为对应的三维坐标。
7.一种三维姿态的获取装置,其特征在于,包括:
第一获取模块,用于获取待处理的二维图像,并将所述待处理的二维图像输入预测模型,得到所述预测模型预测的人体的各个关键点的目标二维坐标,所述预测模型根据各个二维样本图像训练得到,至少部分的所述二维样本图像中人体的关键点被遮挡;
转换模块,用于将各个所述目标二维坐标转换为对应的目标三维坐标;
所述获取模块,还用于根据各个所述目标三维坐标获取人体的三维姿态。
8.一种模型训练装置,其特征在于,包括:
第二获取模块,用于获取样本数据集,所述样本数据集包括多个二维样本图像以及对应的标签数据,至少部分的所述二维样本图像中人体的关键点被遮挡;
训练模块,用于根据所述样本数据集,对第一预设模型进行训练,得到预测模型,所述预测模型用于获取待处理的二维图像中人体的关键点的目标二维坐标。
9.一种设备,其特征在于,包括:存储器和处理器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行如权利要求1-2中任一项所述的三维姿态的获取方法或权利要求3-6中任一项所述的模型训练方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-2中任一项所述的三维姿态的获取方法或权利要求3-6中任一项所述的模型训练方法。
CN202210922155.5A 2022-08-02 2022-08-02 三维姿态的获取方法、模型训练方法和相关设备 Pending CN115471863A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210922155.5A CN115471863A (zh) 2022-08-02 2022-08-02 三维姿态的获取方法、模型训练方法和相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210922155.5A CN115471863A (zh) 2022-08-02 2022-08-02 三维姿态的获取方法、模型训练方法和相关设备

Publications (1)

Publication Number Publication Date
CN115471863A true CN115471863A (zh) 2022-12-13

Family

ID=84367711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210922155.5A Pending CN115471863A (zh) 2022-08-02 2022-08-02 三维姿态的获取方法、模型训练方法和相关设备

Country Status (1)

Country Link
CN (1) CN115471863A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115984972A (zh) * 2023-03-20 2023-04-18 乐歌人体工学科技股份有限公司 基于运动视频驱动的人体姿态识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115984972A (zh) * 2023-03-20 2023-04-18 乐歌人体工学科技股份有限公司 基于运动视频驱动的人体姿态识别方法
CN115984972B (zh) * 2023-03-20 2023-08-11 乐歌人体工学科技股份有限公司 基于运动视频驱动的人体姿态识别方法

Similar Documents

Publication Publication Date Title
US11222239B2 (en) Information processing apparatus, information processing method, and non-transitory computer-readable storage medium
US11232286B2 (en) Method and apparatus for generating face rotation image
JP6798183B2 (ja) 画像解析装置、画像解析方法およびプログラム
CN110909651B (zh) 视频主体人物的识别方法、装置、设备及可读存储介质
US10949649B2 (en) Real-time tracking of facial features in unconstrained video
US9098740B2 (en) Apparatus, method, and medium detecting object pose
KR20180057096A (ko) 표정 인식과 트레이닝을 수행하는 방법 및 장치
EP4307233A1 (en) Data processing method and apparatus, and electronic device and computer-readable storage medium
CN111062263B (zh) 手部姿态估计的方法、设备、计算机设备和存储介质
US11157749B2 (en) Crowd state recognition device, learning method, and learning program
JP6071002B2 (ja) 信頼度取得装置、信頼度取得方法および信頼度取得プログラム
CN112200056B (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN112200057A (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN112200157A (zh) 一种降低图像背景干扰的人体3d姿态识别方法及其***
WO2021217937A1 (zh) 姿态识别模型的训练方法及设备、姿态识别方法及其设备
CN110533184B (zh) 一种网络模型的训练方法及装置
CN115482556A (zh) 关键点检测模型训练及虚拟角色驱动的方法和对应的装置
CN115471863A (zh) 三维姿态的获取方法、模型训练方法和相关设备
CN111723688B (zh) 人体动作识别结果的评价方法、装置和电子设备
JP2019012497A (ja) 部位認識方法、装置、プログラム、及び撮像制御システム
GB2589178A (en) Cross-domain metric learning system and method
US11610385B2 (en) Information processing apparatus, control method, and non-transitory storage medium
CN116758212A (zh) 基于自适应去噪算法的3d重建方法、装置、设备及介质
JP7239002B2 (ja) 物体数推定装置、制御方法、及びプログラム
US20230290101A1 (en) Data processing method and apparatus, electronic device, and computer-readable storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination