CN113065506A - 一种人体姿态识别方法及*** - Google Patents
一种人体姿态识别方法及*** Download PDFInfo
- Publication number
- CN113065506A CN113065506A CN202110411237.9A CN202110411237A CN113065506A CN 113065506 A CN113065506 A CN 113065506A CN 202110411237 A CN202110411237 A CN 202110411237A CN 113065506 A CN113065506 A CN 113065506A
- Authority
- CN
- China
- Prior art keywords
- human body
- model
- dimensional
- pixel block
- body part
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 15
- 230000000007 visual effect Effects 0.000 claims abstract description 10
- 238000005457 optimization Methods 0.000 claims description 8
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 210000000746 body region Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种人体姿态识别方法,所述识别方法包括如下步骤:获取当前帧的不同视角下的多张人体图像;根据多张所述人体图像,采用卷积神经网络算法建立三维人体模型;分别将每张所述人体图像上的相邻像素进行聚类,获得多个像素块;建立每个所述像素块的二维像素块模型;根据每个所述像素块的二维像素块模型对所述三维人体模型进行优化,获得优化后的三维人体模型;根据优化后的三维人体模型确定当前帧的人体姿态。本发明首先采用卷积神经网络算法,简单快速的建立一个三维人体模型,然后利用图像中人体姿态对所述三维人体模型进行优化,利用优化后的三维人体模型进行姿态识别,实现了在保证人体姿态估计精度的同时,提高人体姿态估计的速度。
Description
技术领域
本发明涉及图像处理技术领域,特别是涉及一种人体姿态识别方法及***。
背景技术
3D人体姿态估计是指从图像、视频或点云中估计人物目标的姿态,是围绕人体3D研究中的一项基本任务。3D人体姿态估计是3D人体重建的重要前提,也可以是人体动作驱动中动作的重要来源。目前,获取人体姿态主要有两种实现方式。一、使用神经网络,通过对某一特定数据集训练,实现对该场景下人体姿态估计的目标。这种方法需要大量的人工标记数据训练神经网络,同时,该方法的精度较低。二、建立一个人体模型,使模型拟合图片上的人体。这种方法依赖于人体模型的建立,人体模型建立过程比较复杂,该方法的速度较慢。因此,如何在保证人体姿态估计精度的同时,提高人体姿态估计的速度成为一个亟待解决的技术问题。
发明内容
本发明的目的是提供一种人体姿态识别方法及***,以实现在保证人体姿态估计精度的同时,提高人体姿态估计的速度。
为实现上述目的,本发明提供了如下方案:
本发明提供一种人体姿态识别方法,所述识别方法包括如下步骤:
获取当前帧的不同视角下的多张人体图像;
根据多张所述人体图像,采用卷积神经网络算法建立三维人体模型;
分别将每张所述人体图像上的相邻像素进行聚类,获得多个像素块;
建立每个所述像素块的二维像素块模型;
根据每个所述像素块的二维像素块模型对所述三维人体模型进行优化,获得优化后的三维人体模型;
根据优化后的三维人体模型确定当前帧的人体姿态。
可选的,所述根据每个所述像素块的二维像素块模型对所述三维人体模型进行优化,获得优化后的三维人体模型,之前还包括:
根据当前帧之前的预设帧数内的每帧时每个人体部位的位置坐标,预测当前帧时每个人体部位的位置坐标,
根据当前帧时每个人体部位的位置坐标对所述三维人体模型进行预调整,获得预调整后的三维人体模型。
可选的,所述根据多张所述人体图像,采用卷积神经网络算法建立三维人体模型,具体包括:
采用hourglass网络结构分别从每张所述人体图像中获得K个关键点;
分别令k=1,2,…,K,基于相机的参数,计算出第k个关键点在每个视角下的人体图像中的反投影射线,获得每个关键点对应的多条反投影射线;
确定距离每个关键点对应的多条反投影射线的总距离最短的公共点的坐标,作为所述关键点在三维空间下的坐标,得到每个关键点在三维空间下的坐标;
根据每个关键点在三维空间下的坐标进行线性插值运算,得到包含人体的每个人体部位的三维坐标的三维人体模型。
可选的,所述三维人体模型为:
其中,A(x)为三维人体模型,Aj(x)为第j个人体部位的三维人体模型,μj表示第j个人体部位的坐标,σj表示第j个人体部位的半径,x表示人体的任意一点的位置。
可选的,所述二维像素块模型为:
Bi(x)表示第i个像素块的二维像素块模型,ci表示第i个像素块中心的颜色,μi表示第i个像素块中心的坐标,δi表示第i个像素块的半边长,xi表示人体上任意一点的位置x在第i个像素块上的投影。
可选的,所述根据每个所述像素块的二维像素块模型对所述三维人体模型进行优化,获得优化后的三维人体模型,具体包括:
计算三维人体模型的第j个人体部位的模型与每个所述二维像素块模型的相似度的和,作为目标函数值;
判断所述目标函数值是否大于预设阈值,得到判断结果;
若所述判断结果表示否,则采用梯度下降法对三维人体模型中的第j个人体部位的模型进行优化,返回步骤“计算三维人体模型的第j个人体部位的模型与每个所述二维像素块模型的相似度的和,作为目标函数值”;
若所述判断结果表示是,则令j的数值增加1,返回步骤“计算三维人体模型的第j个人体部位的模型与每个所述二维像素块模型的相似度的和,作为目标函数值”,对三维人体模型的下一个人体部位的模型进行优化,直到优化完成三维人体模型中的每个人体部位的模型。
可选的,所述计算三维人体模型的第j个人体部位的模型与每个所述二维像素块模型的相似度的和,作为目标函数值,具体包括:
采用如下公式,计算三维人体模型的第j个人体部位的模型与每个所述二维像素块模型的相似度:
其中,Eij表示三维人体模型的第j个人体部位的模型与第i个像素块模型的相似度,d(ci,cj)表示第j个人体部位的模型的颜色cj与第i个像素块的颜色ci的相近程度,Bi(x)表示第i个像素块的二维像素块模型,Aj(x)表示三维人体模型的第j个人体部位的模型,x表示人体的任意一点的位置,μi表示第i个像素块中心的坐标,δi表示第i个像素块的半边长,表示第j个人体部位的模型的坐标在第i个像素块上的投影坐标,表示第j个人体部位的半径在第i个像素块上的投影长度;
w为颜色的惩罚值,ε为颜色阈值,μjx、μjy、μjz分别表示第j个人体部位的x轴、y轴和z轴坐标,σj表示第j个人体部位的半径,fil表示获得第i个像素块的相机的参数。
利用求和公式,计算三维人体模型的第j个人体部位的模型与每个所述二维像素块模型的相似度的和。
一种人体姿态识别***,所述识别***包括:
图像获取模块,用于获取当前帧的不同视角下的多张人体图像;
三维人体模型建立模块,用于根据多张所述人体图像,采用卷积神经网络算法建立三维人体模型;
像素聚类模块,用于分别将每张所述人体图像上的相邻像素进行聚类,获得多个像素块;
二维像素块模型建立模块,用于建立每个所述像素块的二维像素块模型;
三维人体模型优化模块,用于根据每个所述像素块的二维像素块模型对所述三维人体模型进行优化,获得优化后的三维人体模型;
人体姿态识别模块,用于根据优化后的三维人体模型确定当前帧的人体姿态。
可选的,所述识别***还包括:
位置坐标预测模块,用于根据当前帧之前的预设帧数内的每帧时每个人体部位的位置坐标,预测当前帧时每个人体部位的位置坐标;
三维人体模型预调整模块,用于根据当前帧时每个人体部位的位置坐标对所述三维人体模型进行预调整,获得预调整后的三维人体模型。
可选的,所述三维人体模型建立模块,具体包括:
关键点获取子模块,用于采用hourglass网络结构分别从每张所述人体图像中获得K个关键点;
反投影运算子模块,用于分别令k=1,2,…,K,基于相机的参数,计算出第k个关键点在每个视角下的人体图像中的反投影射线,获得每个关键点对应的多条反投影射线;
关键点坐标确定子模块,用于确定距离每个关键点对应的多条反投影射线的总距离最短的公共点的坐标,作为所述关键点在三维空间下的坐标,得到每个关键点在三维空间下的坐标;
三维人体模型建立子模块,用于根据每个关键点在三维空间下的坐标进行线性插值运算,得到包含人体的每个人体部位的三维坐标的三维人体模型。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了一种人体姿态识别方法,所述识别方法包括如下步骤:获取当前帧的不同视角下的多张人体图像;根据多张所述人体图像,采用卷积神经网络算法建立三维人体模型;分别将每张所述人体图像上的相邻像素进行聚类,获得多个像素块;建立每个所述像素块的二维像素块模型;根据每个所述像素块的二维像素块模型对所述三维人体模型进行优化,获得优化后的三维人体模型;根据优化后的三维人体模型确定当前帧的人体姿态。本发明首先采用卷积神经网络算法,简单快速的建立一个三维人体模型,然后利用图像中人体姿态对所述三维人体模型进行优化,利用优化后的三维人体模型进行姿态识别,实现了在保证人体姿态估计精度的同时,提高人体姿态估计的速度。
而且本发明利用人体动作的连续性,更具前几帧的结果对当前帧的结果进行预测,减小优化过程中的迭代次数,进一步的提高了人体姿态估计的速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种人体姿态识别方法的流程图;
图2为本发明提供的一种人体姿态识别方法的原理图;
图3为本发明提供的用于获取不同视角下的多张人体图像的相机的排布方式图;
图4为本发明提供的三维人体模型图;
图5为本发明提供的多个二维像素块模型组成的人体模型图;
图6为本发明提供的优化后的三维人体模型图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种人体姿态识别方法及***,以实现在保证人体姿态估计精度的同时,提高人体姿态估计的速度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明是一种无需人工标注数据或传感器数据的人体姿态估计方法。通过多个彩色相机采集目标人物在固定场景中不同角度的彩色图像,使用已经预训练的卷积神经网络得到粗精度的人体关键点坐标,然后使用反投影技术,得到人体三维坐标;使用该三维人体坐标生成通用三维人体模型,计算三维人体模型与图像中人体的相似度,同时结合多个视角在三维世界中的一致性作为约束,优化此人体模型,得到最终的人体姿态。该计算过程在CUDA上进行,约束人体模型的参数,可以使得在常数时间内完成计算,约每秒处理25帧图像,可以实时处理视频。本发明只需要彩色图像作为输入,无需人工手动操作,也无需额外的传感器设备,在需要采集人体姿态的领域可以得到广泛的应用。
如图1和2所示,本发明提供本发明提供一种人体姿态识别方法,所述识别方法包括如下步骤:
步骤101,获取当前帧的不同视角下的多张人体图像。
使用多个彩色相机,位于室内不同位置,从多个视角获得人体的连续、同步的彩色图像序列。所有彩色相机受同步盒控制。
多个彩色相机的呈圆周分布,获得不同角度的人体信息,一个典型的八相机阵列如图3所示。同步盒发出方波信号,当相机收到信号后,同时拍下,以保证采集到的是同一时刻的人体信息。尽可能的使人体衣服的色彩信息丰富,以区分人体与背景物体,同时更容易识别人体的不同部位。背景信息应该尽可能的简单,得到的人体姿态更具有鲁棒性。
步骤102,根据多张所述人体图像,采用卷积神经网络算法建立三维人体模型。
根据第一帧神经网络输出的关节点坐标,反投影得到三维人体坐标,进而生成符合图像中人体的粗精度姿态。身体模型应尽可能的描述人体的胖瘦,高矮,特征颜色等信息。在三维高斯函数集合的身体模型中,用每个高斯函数的均值与方差描述。为了避免高自由度导致的过拟合,使用L描述人体躯干的长度,R描述人体躯干的宽度,进而通过计算获得每一个高斯函数的均值和方差,这样可以使得自由度大幅降低,以获得更好的泛化效果。本发明调整这个模型来生成一个行为者特定的身体模型,大致代表了形状和每个高斯函数的颜色。
该步骤针对输入不同视角下的8张照片,使用神经网络hourglass从每张照片提取16个人体关键点(xi,yi)。对同一关键点的8个视角,基于相机参数,计算出反投影的8条射线。使用最小二乘法,得到距离8条射线总距离最短的公共点(xi,yi,zi),此公共点为该关键点在三维空间下的坐标。使用16个关键点的三维坐标(xi,yi,zi),通过线性插值,得到具有63个人体部位的三维坐标的三维人体模型:
其中,A(x)为三维人体模型,Aj(x)为第j个人体部位的三维人体模型,μj表示第j个人体部位的坐标,σj表示第j个人体部位的半径,x表示人体的任意一点的位置。
具体步骤为:
采用hourglass网络结构分别从每张所述人体图像中获得K个关键点。
分别令k=1,2,…,K,基于相机的参数,计算出第k个关键点在每个视角下的人体图像中的反投影射线,获得每个关键点对应的多条反投影射线。
确定距离每个关键点对应的多条反投影射线的总距离最短的公共点的坐标,作为所述关键点在三维空间下的坐标,得到每个关键点在三维空间下的坐标。
根据每个关键点在三维空间下的坐标进行线性插值运算,得到包含人体的每个人体部位的三维坐标的三维人体模型,如图4所示。
步骤103,分别将每张所述人体图像上的相邻像素进行聚类,获得多个像素块。
对于每一视角的图片,首先根据上一帧的优化后的三维人体模型,投影得到感兴趣的人体区域。只提取出人体区域,可以去掉无关的背景。对相邻相似的像素聚类,生成颜色块(像素块),结果如图5所示。每一个颜色块使用一个二维高斯函数来近似。聚类的过程中,本发明使用某个特定阈值来确定哪些像素聚集在一起。这种将图片以二维高斯函数集合的图片模型表示,比直接使用图片的像素进行相似度匹配,可以节约大量的计算能力,获得整体实验速度的大幅提升。
步骤102,建立每个所述像素块的二维像素块模型。
每个像素块的二维像素块模型为:
Bi(x)表示第i个像素块的二维像素块模型,ci表示第i个像素块中心的颜色,μi表示第i个像素块中心的坐标,δi表示第i个像素块的半边长,xi表示人体上任意一点的位置x在第i个像素块上的投影。
整张图像被分割成多个像素块,因此,整张图像可以表示为:
Im(x)=∑ci·Bi(x)
步骤105,根据每个所述像素块的二维像素块模型对所述三维人体模型进行优化,获得优化后的三维人体模型。
将人体模型投影到各视角:
其中,μjx、μjy、μjz分别表示第j个人体部位的x轴、y轴和z轴坐标,σj表示第j个人体部位的半径,fil表示获得第i个像素块的相机的参数。通过此公式,将三维高斯函数集合的三维人体模型投影到二维,即可与二维高斯函数集合的二维像素块模型计算相似度。计算的是真实投影的近似值,真实值是一个椭球体,但是这个近似值引入的误差可以忽略不计。三维人体模型与图像模型的相似度,可以表示为:
其中,d(ci,cj)为两个颜色的相近程度:
w为对差异过大的颜色的惩罚,ε为判断颜色是否接近的阈值。一般情况下,ε=0.1,w=0.05,可以取得不错的结果。RGB颜色空间与光照强度密切相关,使用其他颜色空间,如Lab颜色空间可以得到更好的结果。对相似度Eij求导,沿梯度方向,使Eij变大:
Eijk+1=Eijk+ρks(k)
其中,sk表示梯度方向ρk表示梯度方向上的搜索步长。迭代一定次数后,当Eij趋近于常数后,记录此时的人体模型参数作为当前的人体姿态。其中,步长为动态的。根据多个视频的统计规律,确定一个初始步长。在优化过程中,当两次迭代计算的导数符号一致时,意味着当前姿态仍未到达最优点,我们将步长扩大到1.1倍。当两次迭代计算的导数符号不一致时,意味着当前姿态跳过了最优点,我们将步长减小到0.5(并不需要修改为-0.5,因为导数符号本身发生了变化,优化方向已经变化过了)。考虑到人体动作是连续的,根据前几帧的结果,可以预测下一帧的结果。
posei+1=t1*posei+t2*posei-1+t3*posei-2
其中pose为不同帧的姿态结果,t为预测时使用每一帧结果的权重。使用历史姿态预测当前帧的姿态的结果,以替换直接使用上一帧结果作为当前帧的初始姿态,可以更接近当前帧的二维高斯函数集合的图片模型,以减少优化的迭代次数,获得整体实验的加速。
步骤105所述根据每个所述像素块的二维像素块模型对所述三维人体模型进行优化,获得优化后的三维人体模型,具体包括:计算三维人体模型的第j个人体部位的模型与每个所述二维像素块模型的相似度的和,作为目标函数值;判断所述目标函数值是否大于预设阈值,得到判断结果;若所述判断结果表示否,则采用梯度下降法对三维人体模型中的第j个人体部位的模型进行优化,返回步骤“计算三维人体模型的第j个人体部位的模型与每个所述二维像素块模型的相似度的和,作为目标函数值”;若所述判断结果表示是,则令j的数值增加1,返回步骤“计算三维人体模型的第j个人体部位的模型与每个所述二维像素块模型的相似度的和,作为目标函数值”,对三维人体模型的下一个人体部位的模型进行优化,直到优化完成三维人体模型中的每个人体部位的模型。
其中,所述计算三维人体模型的第j个人体部位的模型与每个所述二维像素块模型的相似度的和,作为目标函数值,具体包括:采用如下公式,计算三维人体模型的第j个人体部位的模型与每个所述二维像素块模型的相似度:
其中,d(ci,cj)表示第j个人体部位的模型的颜色cj与第i个像素块的颜色ci的相近程度,Bi(x)表示第i个像素块的二维像素块模型,Aj(x)表示三维人体模型的第j个人体部位的模型,x表示人体的任意一点的位置,μi表示第i个像素块中心的坐标,δi表示第i个像素块的半边长,表示第j个人体部位的模型的坐标在第i个像素块上的投影坐标,表示第j个人体部位的半径在第i个像素块上的投影长度;
w为颜色的惩罚值,ε为颜色阈值,μjx、μjy、μjz分别表示第j个人体部位的x轴、y轴和z轴坐标,σj表示第j个人体部位的半径,fil表示获得第i个像素块的相机的参数。
利用求和公式,计算三维人体模型的第j个人体部位的模型与每个所述二维像素块模型的相似度的和。
图5中每一个像素块计算颜色相似度。然后沿梯度方向,优化三维人体模型的参数,使相似度更大。当相似度稳定后,将三维身体模型投影到图片上,结果如图6所示。当前的三维人体模型的参数,即为当前人体的姿态。
步骤106,根据优化后的三维人体模型确定当前帧的人体姿态。
为了减少优化过程中的迭代次数,在步骤105所述根据每个所述像素块的二维像素块模型对所述三维人体模型进行优化,获得优化后的三维人体模型,之前还包括:根据当前帧之前的预设帧数内的每帧时每个人体部位的位置坐标,预测当前帧时每个人体部位的位置坐标;根据当前帧时每个人体部位的位置坐标对所述三维人体模型进行预调整,获得预调整后的三维人体模型。
本发明在CPU上进行图片预处理,得到图片的数学表示。将图片与人体模型参数传入CUDA(compute unified device architecture,并行计算框架)并计算。对于每一张图片,使用相同数量的像素块。每一个CUDA核心计算各像素块与人体一个部位的相似度,人体模型的参数量也是固定的,因此每一次计算是一个常数时间。
本发明还提供一种人体姿态识别***,所述识别***包括:
图像获取模块,用于获取当前帧的不同视角下的多张人体图像;
三维人体模型建立模块,用于根据多张所述人体图像,采用卷积神经网络算法建立三维人体模型;
像素聚类模块,用于分别将每张所述人体图像上的相邻像素进行聚类,获得多个像素块;
二维像素块模型建立模块,用于建立每个所述像素块的二维像素块模型。
所述三维人体模型建立模块,具体包括:关键点获取子模块,用于采用hourglass网络结构分别从每张所述人体图像中获得K个关键点;反投影运算子模块,用于分别令k=1,2,…,K,基于相机的参数,计算出第k个关键点在每个视角下的人体图像中的反投影射线,获得每个关键点对应的多条反投影射线;关键点坐标确定子模块,用于确定距离每个关键点对应的多条反投影射线的总距离最短的公共点的坐标,作为所述关键点在三维空间下的坐标,得到每个关键点在三维空间下的坐标;三维人体模型建立子模块,用于根据每个关键点在三维空间下的坐标进行线性插值运算,得到包含人体的每个人体部位的三维坐标的三维人体模型。
三维人体模型优化模块,用于根据每个所述像素块的二维像素块模型对所述三维人体模型进行优化,获得优化后的三维人体模型。
人体姿态识别模块,用于根据优化后的三维人体模型确定当前帧的人体姿态。
所述识别***还包括:位置坐标预测模块,用于根据当前帧之前的预设帧数内的每帧时每个人体部位的位置坐标,预测当前帧时每个人体部位的位置坐标;三维人体模型预调整模块,用于根据当前帧时每个人体部位的位置坐标对所述三维人体模型进行预调整,获得预调整后的三维人体模型。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了一种人体姿态识别方法及***,所述识别方法包括如下步骤:获取当前帧的不同视角下的多张人体图像;根据多张所述人体图像,采用卷积神经网络算法建立三维人体模型;分别将每张所述人体图像上的相邻像素进行聚类,获得多个像素块;建立每个所述像素块的二维像素块模型;根据每个所述像素块的二维像素块模型对所述三维人体模型进行优化,获得优化后的三维人体模型;根据优化后的三维人体模型确定当前帧的人体姿态。本发明首先采用卷积神经网络算法,简单快速的建立一个三维人体模型,然后利用图像中人体姿态对所述三维人体模型进行优化,利用优化后的三维人体模型进行姿态识别,实现了在保证人体姿态估计精度的同时,提高人体姿态估计的速度。
而且本发明利用人体动作的连续性,更具前几帧的结果对当前帧的结果进行预测,减小优化过程中的迭代次数,进一步的提高了人体姿态估计的速度。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种人体姿态识别方法,其特征在于,所述识别方法包括如下步骤:
获取当前帧的不同视角下的多张人体图像;
根据多张所述人体图像,采用卷积神经网络算法建立三维人体模型;
分别将每张所述人体图像上的相邻像素进行聚类,获得多个像素块;
建立每个所述像素块的二维像素块模型;
根据每个所述像素块的二维像素块模型对所述三维人体模型进行优化,获得优化后的三维人体模型;
根据优化后的三维人体模型确定当前帧的人体姿态。
2.根据权利要求1所述的人体姿态识别方法,其特征在于,所述根据每个所述像素块的二维像素块模型对所述三维人体模型进行优化,获得优化后的三维人体模型,之前还包括:
根据当前帧之前的预设帧数内的每帧时每个人体部位的位置坐标,预测当前帧时每个人体部位的位置坐标;
根据当前帧时每个人体部位的位置坐标对所述三维人体模型进行预调整,获得预调整后的三维人体模型。
3.根据权利要求1所述的人体姿态识别方法,其特征在于,所述根据多张所述人体图像,采用卷积神经网络算法建立三维人体模型,具体包括:
采用hourglass网络结构分别从每张所述人体图像中获得K个关键点;
分别令k=1,2,…,K,基于相机的参数,计算出第k个关键点在每个视角下的人体图像中的反投影射线,获得每个关键点对应的多条反投影射线;
确定距离每个关键点对应的多条反投影射线的总距离最短的公共点的坐标,作为所述关键点在三维空间下的坐标,得到每个关键点在三维空间下的坐标;
根据每个关键点在三维空间下的坐标进行线性插值运算,得到包含人体的每个人体部位的三维坐标的三维人体模型。
6.根据权利要求1所述的人体姿态识别方法,其特征在于,所述根据每个所述像素块的二维像素块模型对所述三维人体模型进行优化,获得优化后的三维人体模型,具体包括:
计算三维人体模型的第j个人体部位的模型与每个所述二维像素块模型的相似度的和,作为目标函数值;
判断所述目标函数值是否大于预设阈值,得到判断结果;
若所述判断结果表示否,则采用梯度下降法对三维人体模型中的第j个人体部位的模型进行优化,返回步骤“计算三维人体模型的第j个人体部位的模型与每个所述二维像素块模型的相似度的和,作为目标函数值”;
若所述判断结果表示是,则令j的数值增加1,返回步骤“计算三维人体模型的第j个人体部位的模型与每个所述二维像素块模型的相似度的和,作为目标函数值”,对三维人体模型的下一个人体部位的模型进行优化,直到优化完成三维人体模型中的每个人体部位的模型。
7.根据权利要求6所述的人体姿态识别方法,其特征在于,所述计算三维人体模型的第j个人体部位的模型与每个所述二维像素块模型的相似度的和,作为目标函数值,具体包括:
采用如下公式,计算三维人体模型的第j个人体部位的模型与每个所述二维像素块模型的相似度:
Eij=d(ci,cj)∫Bi(x)Aj(x)dx
其中,Eij表示三维人体模型的第j个人体部位的模型与第i个像素块模型的相似度,d(ci,cj)表示第j个人体部位的模型的颜色cj与第i个像素块的颜色ci的相近程度,Bi(x)表示第i个像素块的二维像素块模型,Aj(x)表示三维人体模型的第j个人体部位的模型,x表示人体的任意一点的位置,μi表示第i个像素块中心的坐标,δi表示第i个像素块的半边长,表示第j个人体部位的模型的坐标在第i个像素块上的投影坐标,表示第j个人体部位的半径在第i个像素块上的投影长度;
其中,w为颜色的惩罚值,ε为颜色阈值,μjx、μjy、μjz分别表示第j个人体部位的x轴、y轴和z轴坐标,σj表示第j个人体部位的半径,fil表示获得第i个像素块的相机的参数。
利用求和公式,计算三维人体模型的第j个人体部位的模型与每个所述二维像素块模型的相似度的和。
8.一种人体姿态识别***,其特征在于,所述识别***包括:
图像获取模块,用于获取当前帧的不同视角下的多张人体图像;
三维人体模型建立模块,用于根据多张所述人体图像,采用卷积神经网络算法建立三维人体模型;
像素聚类模块,用于分别将每张所述人体图像上的相邻像素进行聚类,获得多个像素块;
二维像素块模型建立模块,用于建立每个所述像素块的二维像素块模型;
三维人体模型优化模块,用于根据每个所述像素块的二维像素块模型对所述三维人体模型进行优化,获得优化后的三维人体模型;
人体姿态识别模块,用于根据优化后的三维人体模型确定当前帧的人体姿态。
9.根据权利要求8所述的人体姿态识别***,其特征在于,所述识别***还包括:
位置坐标预测模块,用于根据当前帧之前的预设帧数内的每帧时每个人体部位的位置坐标,预测当前帧时每个人体部位的位置坐标;
三维人体模型预调整模块,用于根据当前帧时每个人体部位的位置坐标对所述三维人体模型进行预调整,获得预调整后的三维人体模型。
10.根据权利要求8所述的人体姿态识别***,其特征在于,所述三维人体模型建立模块,具体包括:
关键点获取子模块,用于采用hourglass网络结构分别从每张所述人体图像中获得K个关键点;
反投影运算子模块,用于分别令k=1,2,…,K,基于相机的参数,计算出第k个关键点在每个视角下的人体图像中的反投影射线,获得每个关键点对应的多条反投影射线;
关键点坐标确定子模块,用于确定距离每个关键点对应的多条反投影射线的总距离最短的公共点的坐标,作为所述关键点在三维空间下的坐标,得到每个关键点在三维空间下的坐标;
三维人体模型建立子模块,用于根据每个关键点在三维空间下的坐标进行线性插值运算,得到包含人体的每个人体部位的三维坐标的三维人体模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110411237.9A CN113065506B (zh) | 2021-04-16 | 2021-04-16 | 一种人体姿态识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110411237.9A CN113065506B (zh) | 2021-04-16 | 2021-04-16 | 一种人体姿态识别方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113065506A true CN113065506A (zh) | 2021-07-02 |
CN113065506B CN113065506B (zh) | 2023-12-26 |
Family
ID=76566830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110411237.9A Active CN113065506B (zh) | 2021-04-16 | 2021-04-16 | 一种人体姿态识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113065506B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035769A (zh) * | 2022-07-21 | 2022-09-09 | 四川嘉义索隐科技有限公司 | 一种模拟电子对抗的训练*** |
CN115984972A (zh) * | 2023-03-20 | 2023-04-18 | 乐歌人体工学科技股份有限公司 | 基于运动视频驱动的人体姿态识别方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104715493A (zh) * | 2015-03-23 | 2015-06-17 | 北京工业大学 | 一种运动人体姿态估计的方法 |
CN106910247A (zh) * | 2017-03-20 | 2017-06-30 | 厦门幻世网络科技有限公司 | 用于生成三维头像模型的方法和装置 |
CN108876814A (zh) * | 2018-01-11 | 2018-11-23 | 南京大学 | 一种生成姿态流图像的方法 |
CN109949368A (zh) * | 2019-03-14 | 2019-06-28 | 郑州大学 | 一种基于图像检索的人体三维姿态估计方法 |
CN110008915A (zh) * | 2019-04-11 | 2019-07-12 | 电子科技大学 | 基于掩码-rcnn进行稠密人体姿态估计的***及方法 |
CN111428586A (zh) * | 2020-03-09 | 2020-07-17 | 同济大学 | 基于特征融合与样本增强的三维人体姿态估计方法 |
CN111753747A (zh) * | 2020-06-28 | 2020-10-09 | 高新兴科技集团股份有限公司 | 基于单目摄像头和三维姿态估计的剧烈运动检测方法 |
US20210097759A1 (en) * | 2019-09-26 | 2021-04-01 | Amazon Technologies, Inc. | Predictive personalized three-dimensional body models |
-
2021
- 2021-04-16 CN CN202110411237.9A patent/CN113065506B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104715493A (zh) * | 2015-03-23 | 2015-06-17 | 北京工业大学 | 一种运动人体姿态估计的方法 |
CN106910247A (zh) * | 2017-03-20 | 2017-06-30 | 厦门幻世网络科技有限公司 | 用于生成三维头像模型的方法和装置 |
CN108876814A (zh) * | 2018-01-11 | 2018-11-23 | 南京大学 | 一种生成姿态流图像的方法 |
CN109949368A (zh) * | 2019-03-14 | 2019-06-28 | 郑州大学 | 一种基于图像检索的人体三维姿态估计方法 |
CN110008915A (zh) * | 2019-04-11 | 2019-07-12 | 电子科技大学 | 基于掩码-rcnn进行稠密人体姿态估计的***及方法 |
US20210097759A1 (en) * | 2019-09-26 | 2021-04-01 | Amazon Technologies, Inc. | Predictive personalized three-dimensional body models |
CN111428586A (zh) * | 2020-03-09 | 2020-07-17 | 同济大学 | 基于特征融合与样本增强的三维人体姿态估计方法 |
CN111753747A (zh) * | 2020-06-28 | 2020-10-09 | 高新兴科技集团股份有限公司 | 基于单目摄像头和三维姿态估计的剧烈运动检测方法 |
Non-Patent Citations (5)
Title |
---|
NAIGONG YU: "Human body posture recognition algorithm for still images", 《JOURNAL OF ENGINEERING-JOE》 * |
吴巍;郭飞;郭毓;郭健;: "一种基于全卷积神经网络的横担姿态测量方法", 华中科技大学学报(自然科学版), no. 12 * |
张广翩;计忠平;: "基于二维点云图的三维人体建模方法", 计算机工程与应用, no. 19 * |
彭帅: "基于卷积神经网络的人体姿态估计算法综述", 《北京信息科技大学学报(自然科学版)》, vol. 35, no. 03 * |
李昕昕;龚勋;: "三维人脸建模及在跨姿态人脸匹配中的有效性验证", 计算机应用, no. 01 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035769A (zh) * | 2022-07-21 | 2022-09-09 | 四川嘉义索隐科技有限公司 | 一种模拟电子对抗的训练*** |
CN115984972A (zh) * | 2023-03-20 | 2023-04-18 | 乐歌人体工学科技股份有限公司 | 基于运动视频驱动的人体姿态识别方法 |
CN115984972B (zh) * | 2023-03-20 | 2023-08-11 | 乐歌人体工学科技股份有限公司 | 基于运动视频驱动的人体姿态识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113065506B (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107423729B (zh) | 一种面向复杂视觉场景下的远距离类脑三维步态识别***及实现方法 | |
US20200387697A1 (en) | Real-time gesture recognition method and apparatus | |
US10033979B2 (en) | Video surveillance systems, devices and methods with improved 3D human pose and shape modeling | |
WO2020228766A1 (zh) | 基于实景建模与智能识别的目标跟踪方法、***及介质 | |
CN108734120A (zh) | 标注图像的方法、装置、设备和计算机可读存储介质 | |
JP6207210B2 (ja) | 情報処理装置およびその方法 | |
CN102831382A (zh) | 人脸跟踪设备和方法 | |
CN109758756B (zh) | 基于3d相机的体操视频分析方法及*** | |
CN114666564B (zh) | 一种基于隐式神经场景表示进行虚拟视点图像合成的方法 | |
CN111428575A (zh) | 一种基于孪生网络的针对模糊目标的跟踪方法 | |
CN110211222B (zh) | 一种ar沉浸式旅游导览方法、装置、存储介质及终端设备 | |
CN113065506B (zh) | 一种人体姿态识别方法及*** | |
CN110910437A (zh) | 一种复杂室内场景的深度预测方法 | |
CN114049434A (zh) | 一种基于全卷积神经网络的3d建模方法及*** | |
CN112562056A (zh) | 虚拟演播室中虚拟灯光的控制方法、装置、介质与设备 | |
CN114581571A (zh) | 基于imu和前向变形场的单目人体重建方法及装置 | |
CN110827320A (zh) | 基于时序预测的目标跟踪方法和装置 | |
KR20140074201A (ko) | 추적 장치 | |
CN115376034A (zh) | 一种基于人体三维姿态时空关联动作识别的运动视频采集剪辑方法及装置 | |
CN111862278A (zh) | 一种动画获得方法、装置、电子设备及存储介质 | |
US11080861B2 (en) | Scene segmentation using model subtraction | |
Gibson et al. | Quadruped gait analysis using sparse motion information | |
CN116912393A (zh) | 人脸重建方法、装置、电子设备及可读存储介质 | |
CN116883897A (zh) | 一种低分辨率目标识别方法 | |
CN111222459A (zh) | 一种视角无关的视频三维人体姿态识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |