CN116959120B - 一种基于手部关节的人手姿态估计方法及*** - Google Patents

一种基于手部关节的人手姿态估计方法及*** Download PDF

Info

Publication number
CN116959120B
CN116959120B CN202311194384.0A CN202311194384A CN116959120B CN 116959120 B CN116959120 B CN 116959120B CN 202311194384 A CN202311194384 A CN 202311194384A CN 116959120 B CN116959120 B CN 116959120B
Authority
CN
China
Prior art keywords
hand
joint
feature
map
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311194384.0A
Other languages
English (en)
Other versions
CN116959120A (zh
Inventor
刘李漫
李生玲
田金山
韩逸飞
胡怀飞
唐奇伶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South Central Minzu University
Original Assignee
South Central University for Nationalities
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South Central University for Nationalities filed Critical South Central University for Nationalities
Priority to CN202311194384.0A priority Critical patent/CN116959120B/zh
Publication of CN116959120A publication Critical patent/CN116959120A/zh
Application granted granted Critical
Publication of CN116959120B publication Critical patent/CN116959120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于手部关节的人手姿态估计方法及***,包括以下步骤:S1、采集人手初始图像,并进行预处理,得到多个手部关节图像;S2、使用HRNet网络根据手部关节特征对多个手部关节图像进行特征提取,得到多个手部关节特征图像;S3、根据多个手部关节特征图像分别使用二维关节预测网络进行手部关节的概率密度图预测,得到多个关键点热图;S4、将多个关键点热图合并,得到人手分布图并进行优化得到人手关节姿态特征图;S5、根据人手分布图和人手关节姿态特征图预测人手姿态,得到人手关节三维坐标。本申请通过HRNet网络对手部关节图像进行特征提取,降低HRNet网络的复杂度和计算量的同时保证特征提取的精确度。

Description

一种基于手部关节的人手姿态估计方法及***
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于手部关节的人手姿态估计方法及***。
背景技术
在现实生活中,人手姿态估计广泛应用于许多领域。例如人机交互,手势识别,虚拟现实和增强现实等。起初,研究单目人手姿态估计的方法主要通过深度图来实现。但鉴于RGB相机比深度相机更容易获得且更具有普遍性,目前大多数的研究以单目RGB图像为主。但其存在缺乏深度信息以及严重的手-手/物遮挡问题。现阶段,单目人手姿态估计大致分为基于数据驱动的方法和基于模型的方法。Zimmermann等人首次提出通过深度学习来进行单目RGB图像中的人手三维姿态估计,该方法通过渲染合成人手数据集来模拟不同的手姿态,但其采用的模型比较简单,估计出的3D人手姿态仍有较大改进空间。Ge等人提出了点对点回归预测关节点网络并且直接将3D点云作为该网络的输入,同时输出逐点估计,但该方法需要大量3D点云数据,导致数据收集和处理的成本较高。ROMERO等人提出MANO参数模型用于3D人手重建,该模型是通过对31名受试者的手部进行1000次高分辨率的3D扫描,以学习各种各样的手部姿势,而且MANO模型可以只输入少量的模型参数,就能生成任意的手部姿势,但该数据集缺少表皮部分,而且早期的用于人手姿态估计的性能比较低。Boukhayma等人提出利用一个深度卷积编码器预测手部和相机参数;通过解码器生成由MANO模型产生的3D手部网格,并将生成的手通过重投影模块投影到图像域中,但由于实际中无法准确获取手部掩模,导致预测的关键点在掩模边缘部分准确性不高。Spurr等人首次提出利用大量不含标签的自监督学习的方法来进行人手三维姿态估计,并提出了一个对比学习目标函数,能对外观变换具有不变性,对几何变换具有等变性。
中国专利CN115170762A公开了一种单视图人手重建方法、设备、及可读存储介质,其使用卷积神经网络得到深层人手特征和二维关节热图,根据二维关节热图提取人手姿态特征,并对深层人手特征进行上采样,与人手姿态特征融合,直至重建得到预设定点数量的三维人手网格模型。
在以上技术方案中,其利用MANO网格模型输出人手网格从而进行人手的三维重建,但这种方法会增加网络模型计算量和复杂度。
发明内容
有鉴于此,本发明提出了一种基于手部关节的人手姿态估计方法及***,其通过HRNet网络中瓶颈模块和基础模块对手部关节图像进行特征提取,其中基础模块采用深度可分离卷积,输出人手姿态即三维关节位置,降低HRNet网络的复杂度和计算量的同时保证特征提取的精确度。
本发明的技术方案是这样实现的:
第一方面,本发明提供了一种基于手部关节的人手姿态估计方法,包括以下步骤:
S1、采集人手初始图像,对所述人手初始图像进行预处理,得到多个手部关节图像;
S2、使用HRNet网络根据手部关节特征对所述多个手部关节图像进行特征提取,得到多个手部关节特征图像;
S3、根据所述多个手部关节特征图像分别使用二维关节预测网络进行手部关节的概率密度图预测,得到多个关键点热图;
S4、将所述多个关键点热图合并,得到人手分布图,对所述人手分布图进行优化得到人手关节姿态特征图;
S5、根据所述人手分布图和人手关节姿态特征图预测人手姿态,得到人手关节三维坐标,根据所述人手关节三维坐标得到人手姿态估计结果。
在以上技术方案的基础上,优选的,所述HRNet网络包括瓶颈模块和基础模块,步骤S2具体包括:
S21、使用所述瓶颈模块对所述多个手部关节图像进行第一阶段特征提取,得到手部关节图像的第一阶段特征图;
S22、使用所述基础模块对第一阶段特征图进行第二阶段特征提取,得到手部关节图像的第二阶段特征图;
S23、使用所述基础模块对第二阶段特征图进行第三阶段特征提取,得到第一特征图,将所述第一特征图与第二阶段特征图中最高分辨率特征图进行融合,得到手部关节图像的第三阶段特征图;
S24、使用所述基础模块对第三阶段特征图进行第四阶段特征提取,得到第二特征图,将所述第二特征图与第三阶段特征图中最高分辨率特征图进行融合,得到手部关节特征图。
在以上技术方案的基础上,优选的,步骤S21具体包括:
使用瓶颈模块的残差网络对所述多个手部关节图像进行第一阶段特征提取,得到多个第三特征图;
使用CBAM注意力机制对所述多个第三特征图进行通道和空间信息整合,得到多个第四特征图;
使用连接公式对所述多个第四特征图进行连接,得到手部关节图像的第一阶段特征图。
在以上技术方案的基础上,优选的,所述连接公式为:
其中,表示第i个手部关节图像的第四特征图,/>表示第i个第四特征图连接的特征,/>表示手部关节特征的个数,/>表示第四特征图通过滤波器进行卷积提取的特征,/>表示第1个第四特征图,/>表示第i个手部关节图像的第四特征图与第i-1个第四特征图连接的特征连接后通过滤波器进行卷积提取的特征。
在以上技术方案的基础上,优选的,步骤S3具体包括:
使用二维关节预测网络根据多个手部关节特征图像生成多张不同关节的概率密度图;
计算出所述不同关节的概率密度图中像素点的置信度分数;
将所述不同关节的概率密度图中最高置信度分数和次高置信度分数方向的四分之一偏移位置作为概率密度图的关键点,所述关键点构成关键点热图;
将所述关键点映射至手部关节特征图像,得到所述关键点的二维坐标。
在以上技术方案的基础上,优选的,步骤S3中使用关键点坐标公式计算关键点的二维坐标,
所述关键点坐标公式如下:
其中,表示第j关节像素点对应的二维坐标的横坐标,/>表示第j关节像素点对应的二维坐标的纵坐标,x表示最高置信度分数对应像素点的横坐标,y表示最高置信度分数对应像素点的纵坐标,/>表示概率密度图中最高置信度分数对应像素点的x坐标,表示概率密度图中最高置信度分数对应像素点的y坐标,/>表示与第j关节概率面密度图中最高置信度分数对应像素点坐标相邻右边的置信度分数;/>表示与第j关节概率面密度图中最高置信度分数对应的像素点坐标相邻左边的置信度分数,/>表示第j关节的分布图,/>表示热图中坐标为/>对应的像素点,/>表示第j关节的概率密度图,/>表示第j关节关键点热图。
在以上技术方案的基础上,优选的,步骤S4具体包括:
将所述多个关键点热图合并,得到人手分布图;
根据所述人手分布图确定人手的分布区域,将所述人手的分布区域作为感兴趣区域;
对所述感兴趣区域进行使用关节姿态编码器进行优化,得到人手关节姿态特征图。
更进一步优选的,步骤S5中采用两个级联的组卷积进行特征提取,并使用shuffle操作预测人手姿态。
第二方面,本发明还提供了一种基于手部关节的人手姿态估计***,采用如上述任一项所述的基于手部关节的人手姿态估计方法,包括:
采集模块,用于采集人手初始图像,根据手部关节特征对所述人手初始图像进行预处理,得到多个手部关节图像;
特征提取模块,用于使用HRNet网络对所述多个手部关节图像进行特征提取,得到多个手部关节特征图像;
热图预测模块,用于根据所述多个手部关节特征图像分别使用二维关节预测网络进行手部关节的概率密度图预测,得到多个关键点热图;
合并模块,用于将所述多个关键点热图合并,得到人手分布图,对所述人手分布图进行优化得到人手关节姿态特征图;
3D关节预测模块,用于根据所述人手分布图和人手关节姿态特征图预测人手姿态,得到人手关节三维坐标,根据所述人手关节三维坐标得到人手姿态估计结果。
在以上技术方案的基础上,优选的,所述特征提取模块使用HRNet网络进行特征提取,其中所述使用HRNet网络包括瓶颈模块和基础模块,
所述瓶颈模块用于对多个手部关节图像进行特征提取,得到第一阶段特征图;
所述基础模块用于对所述第一阶段特征图进行特征提取,得到所述手部关节特征图像。
本发明的基于手部关节的人手姿态估计方法相对于现有技术具有以下有益效果:
(1)通过使用HRNet网络中的瓶颈模块对手部关节图像进行通道信息提取,并将提取的多个第三特征图进行连接,通过HRNet网络的基础模块中的深度可分离卷积对连接后的第一阶段特征图进行特征提取,降低了HRNet网络的复杂度和计算量的同时保证特征提取的精确度。
(2)通过计算概率密度图中像素点的置信度分数,将概率密度图中最高置信度分数和次高置信度分数方向的四分之一偏移位置作为概率密度图中的关键点,并使用关节姿态编码器进一步优化关键点热图中关键点的位置,抑制人手初始图像中背景信息的影响,进而提高人手姿态估计的准确度。
(3)通过使用两个级联的组卷积对人手分布图和人手关节姿态特征图进行人手预测,使HRNet网络更轻量的同时保证HRNet网络的性能,还保证了特征的表达能力,进一步提高人手姿态预测的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于手部关节的人手姿态估计方法的流程图;
图2为本发明的基于手部关节的人手姿态估计方法的框图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
如图1所示,本发明提供了一种基于手部关节的人手姿态估计方法,包括以下步骤:
S1、采集人手初始图像,对所述人手初始图像进行预处理,得到多个手部关节图像。
在本申请实施例中,预处理为将人手初始图像统一裁剪成128×128维度大小的图像,因此,可得到多个手部关节图像,以便更好地提取手部关节的特征。
S2、使用HRNet网络根据手部关节特征对所述多个手部关节图像进行特征提取,得到多个手部关节特征图像
可以理解的,由于人手是非刚性的,分为腕掌关节(CM)、掌指关节(MCP)、近端指间关节(PIP)、远端指间关节(DIP)和指尖(TIP)共五部分。由于MCP和各指间关节的运动具有一定的约束关系,其余各关节与CM的运动密不可分。
在本申请实施例中,将手部的五部分设置为五个关节特征,根据五个关节特征对手部关节图像进行特征提取。HRNet网络是一种高分辨率网络,能够有效提取手部关节图像中的特征,使得后续的关节预测更加准确可靠。
在本申请实施例中,根据手部的关节特征,将HRNet网络的瓶颈模块分成五块,使用瓶颈模块对手部关节图像进行特征提取,以此提高HRNet网络的多层特征提取能力。
如图2所示,具体的,所述HRNet网络包括瓶颈模块和基础模块,步骤S2具体包括:
S21、使用所述瓶颈模块对所述多个手部关节图像进行第一阶段特征提取,得到手部关节图像的第一阶段特征图f1
作为本领域技术人员可以理解的,HRNet网络包含多个并行子网络,其中每个子网络具有不同的分辨率,这些子网络之间通过多次特征融合交换信息。HRNet网络采用四阶段式提取手部关节图像特征,并逐步下采样图像分辨率,避免下采样过程中特征图的信息丢失。
其中,第一阶段包括4块瓶颈模块,使用4块瓶颈模块对多个手部关节图像进行特征提取,将第一阶段特征图f1的图像分辨率降低到手部关节图像的1/4,并通过重复使用瓶颈模块改变瓶颈模块的通道数,使瓶颈模块的通道数变为第一阶段特征图f1中最低分辨率的2倍。
瓶颈模块使用多个级联的滤波器,用于增强瓶颈模块提取特征的能力,同时增强手部关节图像中特征的表达。优选的,滤波器采用卷积核为3×3的滤波器进行通道信息提取。
进一步的,步骤S21具体包括:
使用瓶颈模块的残差网络对所述多个手部关节图像进行第一阶段特征提取,得到多个第三特征图F3
使用CBAM注意力机制对所述多个第三特征图F3进行通道和空间信息整合,得到多个第四特征图F4
使用连接公式对所述多个第四特征图F4进行连接,得到手部关节图像的第一阶段特征图f1
连接公式为:
其中,表示第i个手部关节图像的第四特征图F4,/>表示第i个第四特征图F4连接的特征,/>表示手部关节特征的个数,/>表示第四特征图F4通过滤波器进行卷积提取的特征,/>表示第1个第四特征图F4,/>表示第i个手部关节图像的第四特征图与第i-1个第四特征图F4连接的特征连接后通过滤波器进行卷积提取的特征。
可以理解的,,即手部有5个关节特征,将手部初始图像分为5组。其中,第一组图像不使用瓶颈模块中的滤波器进行特征处理。
S22、使用所述基础模块对第一阶段特征图f1进行第二阶段特征提取,得到手部关节图像的第二阶段特征图f2
S23、使用所述基础模块对第二阶段特征图f2进行第三阶段特征提取,得到第一特征图F1,将所述第一特征图F1与第二阶段特征图f2中最高分辨率特征图进行融合,得到手部关节图像的第三阶段特征图f3
S24、使用所述基础模块对第三阶段特征图f3进行第四阶段特征提取,得到第二特征图F2,将所述第二特征图F2与第三阶段特征图f3中最高分辨率特征图进行融合,得到手部关节特征图像
可以理解的,使用基础模块对第一阶段特征图f1进行特征提取时,还使用SE注意力机制,通过结合SE注意力机制进一步调整每个通道特征图的权重,从而抑制不重要的通道信息而加强重要通道信息,进而提高人手姿态估计的准确度。
使用基础模块进行特征提取,使得到的特征图图像分辨率变为原图像的1/2,即第一阶段特征图f1图像分辨率是第二阶段特征图f2图像分辨率的2倍,第二阶段特征图f2图像分辨率是第三阶段特征图f3图像分辨率的2倍,第三阶段特征图f3图像分辨率是第四阶段特征图图像分辨率的2倍,与此同时,第二阶段的通道数为64,第三阶段的通道数为128,第四阶段的通道数为256。
其中,基础模块进行特征提取时还包括上采样操作和下采样操作,将上采样操作的结果与下采样操作的结果进行融合,再进行下一阶段的特征提取,能够有效避免下采样过程中特征图的信息丢失,提高HRNet网络对特征提取的可靠性。
在本申请实施例中,通过将第一特征图F1与第二阶段特征图f2中最高分辨率特征进行融合,使第三阶段特征图f3中保留第二阶段特征图f2的信息,防止特征提取时造成特征丢失,提高HRNet网络特征提取的准确率。
优选的,使用多尺度融合的方法使第一特征图F1与第二阶段特征图f2中最高分辨率特征进行融合。
可以理解的,HRNet网络中瓶颈模块使用多个滤波器对手部关节图像进行特征提取,得到手部关节图像的第一阶段特征图f1,利用基础模块中的深度可分离卷积对手部关节图像的第一阶段特征图f1进行特征提取,在降低HRNet网络的复杂度和计算量的同时,保证特征提取的精度。
S3、根据所述多个手部关节特征图像分别使用二维关节预测网络进行手部关节的概率密度图预测,得到多个关键点热图。
在本申请实施例中,使用二维关节预测网络预测人手图像的二维信息,通过对手部关节的概率密度图预测即热图预测,可以得到21幅包含单个关键点的关键点热图。
可以理解的,关键点热图是手部每个关节都有一张,总共有21张,每一张关键点热图的像素值代表了该像素点对应关节的概率值,其中取值最大的像素点最可能是关节。若将21张包含关键点的关键点热值直接叠加会导致像素值区域重叠,无法分辨关节位置,因此本申请只采用每张关键点热图中置信度分数最高对应的像素点作为关键点,将该关键点热图中其他的像素点都置0,即可实现单张关键单热图指示手部图像21个关节位置。
具体的,步骤S3具体包括:
使用二维关节预测网络根据多个手部关节特征图像生成多张不同关节的概率密度图;
计算出所述不同关节的概率密度图中像素点的置信度分数;
将所述不同关节的概率密度图中最高置信度分数和次高置信度分数方向的四分之一偏移位置作为概率密度图的关键点,所述关键点构成关键点热图;
将所述关键点映射至手部关节特征图像,得到所述关键点的二维坐标。
在本申请的进一步实施例中,步骤S3中使用关键点坐标公式计算关键点的二维坐标,
所述关键点坐标公式如下:
其中,表示第j关节像素点对应的二维坐标的横坐标,/>表示第j关节像素点对应的二维坐标的纵坐标,x表示最高置信度分数对应像素点的横坐标,y表示最高置信度分数对应像素点的纵坐标,/>表示概率密度图中最高置信度分数对应像素点的x坐标,表示概率密度图中最高置信度分数对应像素点的y坐标,/>表示与第j关节概率面密度图中最高置信度分数对应像素点坐标相邻右边的置信度分数;/>表示与第j关节概率面密度图中最高置信度分数对应的像素点坐标相邻左边的置信度分数,/>表示第j关节的分布图,/>表示热图中坐标为/>对应的像素点,/>表示第j关节的概率密度图,/>表示第j关节关键点热图。
S4、将所述多个关键点热图合并,得到人手分布图,对所述人手分布图/>进行优化得到人手关节姿态特征图/>
可以理解的,关键点热图一共有21张,步骤S4中采用的公式如下:
其中,将21幅关键点热图/>合并后形成的人手分布图/>
在本申请的进一步实施例中,步骤S4具体包括:
将所述多个关键点热图合并,得到人手分布图
根据所述人手分布图确定人手的分布区域,将所述人手的分布区域作为感兴趣区域;
对所述感兴趣区域进行使用关节姿态编码器进行优化,得到人手关节姿态特征图
可以理解的,RoIWarp关节姿态编码器是为深度学习模型,用于对图像进行优化,结合区域性感知和姿态估计识别图像中的关键点并对其进行编码。
在本申请实施例中采用RoIWarp关节姿态编码器进行姿态编码以抑制背景信息的表达,从而更好的捕捉人手初始图像中人手关节的姿态信息,提高人手姿态估计的准确度。
S5、根据所述人手分布图和人手关节姿态特征图/>预测人手姿态,得到人手关节三维坐标,根据所述人手关节三维坐标得到人手姿态估计结果。
在本申请实施例中,步骤S5中采用两个级联的组卷积进行特征提取,并使用shuffle操作预测人手姿态。
将两个组卷积进行级联能够使HRNet网络更加轻量,而shuffle操作能够有效避免组卷积减少HRNet的参数并降低HRNet网络性能的问题。其中,级联的两个组卷积的卷积核为1×1,使用两个级联的组卷积对人手分布图和人手关节姿态特征图/>进行降维和升维。
优选的,两个级联的组卷积包括第一卷积层和第二卷积层,其中第二卷积层中使用深度可分离卷积,能够保证特征的表达能力,有助于更准确的预测人手初始图像中的关键点。
在本申请实施例中,通过使用HRNet网络中的瓶颈模块对手部关节图像进行特征提取,得到多个第三特征图F3,将第三特征图F3连接后通过滤波器进行特征融合,再利用CBAM注意力机制对通道和空间信息进行整合,提高了HRNet网络的多层特征提取能力;同时利用HRNet网络中的基础模块对整合后的手部关节图像的第一阶段特征图f1进行特征提取,其中基础模块采用深度可分离卷积进行特征提取,降低HRNet网络的复杂度和计算量的同时保证特征提取的精确度。
将每张概率密度图中的每一像素点的置信度分数都计算出来,将概率密度图中最高置信度分数和次高置信度分数方向的四分之一偏移位置作为该概率密度图中的关键点,并将关键点映射至手部关节特征图像中得到关键点的二维坐标,进而确定关键点热图中关键点的位置,并使用关节姿态编码器进一步优化关键点热图中关键点的位置,抑制人手初始图像中背景信息的影响,进而提高人手姿态估计的准确度。
通过使用两个级联的组卷积对人手分布图和人手关节姿态特征图/>进行人手预测,使HRNet网络更轻量的同时保证HRNet网络的性能,还保证了特征的表达能力,进一步提高人手姿态预测的准确率。
本发明还提供一种基于手部关节的人手姿态估计***,采用如上述任一项所述的基于手部关节的人手姿态估计方法,包括:
采集模块,用于采集人手初始图像,根据手部关节特征对所述人手初始图像进行预处理,得到多个手部关节图像;
特征提取模块,用于使用HRNet网络对所述多个手部关节图像进行特征提取,得到多个手部关节特征图像
热图预测模块,用于根据所述多个手部关节特征图像分别使用二维关节预测网络进行手部关节的概率密度图预测,得到多个关键点热图;
合并模块,用于将所述多个关键点热图合并,得到人手分布图,对所述人手分布图/>进行优化得到人手关节姿态特征图/>
3D关节预测模块,用于根据所述人手分布图和人手关节姿态特征图/>预测人手姿态,得到人手关节三维坐标,根据所述人手关节三维坐标得到人手姿态估计结果。
其中,所述特征提取模块使用HRNet网络进行特征提取,其中所述HRNet网络包括瓶颈模块和基础模块,所述瓶颈模块用于对多个手部关节图像进行特征提取,得到第一阶段特征图f1;所述基础模块用于对所述第一阶段特征图f1进行特征提取,得到所述手部关节特征图像
所述3D关节预测模块包括两个级联的组卷积,所述两个级联的组卷积用于根据所述人手分布图和人手关节姿态特征图/>提取人手姿态特征,其中,所述两个级联的组卷积包括第一卷积层和第二卷积层,所述第二卷积层采用深度可分离卷积。
在本申请实施例中,通过采集模块采集人手初始图像并将人手初始图像进行裁剪,得到多个手部关节图像,利用特征提取模块中的HRNet网络中的瓶颈模块对手部关节图像进行特征提取,提高HRNet网络的多层特征提取能力,并使用基础模块的深度可分离卷积对瓶颈模块的第一阶段特征图f1进行特征提取,在降低HRNet网络复杂度和计算量的同时保证特征提取的精度,通过合并模块对关键点热图进行合并和优化,抑制人手初始图像中背景信息的影响,并通过3D关节预测模块中两个级联的组卷积对优化后的人手关节姿态特征图进行人手姿态预测,提高了对人手姿态估计的准确性。
本发明还公开了一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现如上述任一项所述的基于手部关节的人手姿态估计方法。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现如上述任一项所述的基于手部关节的人手姿态估计方法。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于手部关节的人手姿态估计方法,其特征在于:包括以下步骤:
S1、采集人手初始图像,对所述人手初始图像进行预处理,得到多个手部关节图像;
S2、使用HRNet网络根据手部关节特征对所述多个手部关节图像进行特征提取,得到多个手部关节特征图像;
S3、根据所述多个手部关节特征图像分别使用二维关节预测网络进行手部关节的概率密度图预测,得到多个关键点热图;
S4、将所述多个关键点热图合并,得到人手分布图,对所述人手分布图进行优化得到人手关节姿态特征图;
S5、根据所述人手分布图和人手关节姿态特征图预测人手姿态,得到人手关节三维坐标,根据所述人手关节三维坐标得到人手姿态估计结果;
所述HRNet网络包括瓶颈模块和基础模块,步骤S2具体包括:
S21、使用所述瓶颈模块对所述多个手部关节图像进行第一阶段特征提取,得到手部关节图像的第一阶段特征图;
S22、使用所述基础模块对第一阶段特征图进行第二阶段特征提取,得到手部关节图像的第二阶段特征图;
S23、使用所述基础模块对第二阶段特征图进行第三阶段特征提取,得到第一特征图,将所述第一特征图与第二阶段特征图中最高分辨率特征图进行融合,得到手部关节图像的第三阶段特征图;
S24、使用所述基础模块对第三阶段特征图进行第四阶段特征提取,得到第二特征图,将所述第二特征图与第三阶段特征图中最高分辨率特征图进行融合,得到手部关节特征图像;
步骤S21具体包括:
使用瓶颈模块的残差网络对所述多个手部关节图像进行第一阶段特征提取,得到多个第三特征图;
使用CBAM注意力机制对所述多个第三特征图进行通道和空间信息整合,得到多个第四特征图;
使用连接公式对所述多个第四特征图进行连接,得到手部关节图像的第一阶段特征图;
所述连接公式为:
其中,表示第i个手部关节图像的第四特征图,/>表示第i个第四特征图连接的特征,表示手部关节特征的个数,/>表示第四特征图通过滤波器进行卷积提取的特征,/>表示第1个第四特征图,/>表示第i个手部关节图像的第四特征图与第i-1个第四特征图连接的特征连接后通过滤波器进行卷积提取的特征;
步骤S3具体包括:
使用二维关节预测网络根据多个手部关节特征图像生成多张不同关节的概率密度图;
计算出所述不同关节的概率密度图中像素点的置信度分数;
将所述不同关节的概率密度图中最高置信度分数和次高置信度分数方向的四分之一偏移位置作为概率密度图的关键点,所述关键点构成关键点热图;
将所述关键点映射至手部关节特征图像,得到所述关键点的二维坐标;
步骤S3中使用关键点坐标公式计算关键点的二维坐标,
所述关键点坐标公式如下:
其中,表示第j关节像素点对应的二维坐标的横坐标,/>表示第j关节像素点对应的二维坐标的纵坐标,x表示最高置信度分数对应像素点的横坐标,y表示最高置信度分数对应像素点的纵坐标,/>表示概率密度图中最高置信度分数对应像素点的x坐标,表示概率密度图中最高置信度分数对应像素点的y坐标,/>表示与第j关节概率面密度图中最高置信度分数对应像素点坐标相邻右边的置信度分数;/>表示与第j关节概率面密度图中最高置信度分数对应的像素点坐标相邻左边的置信度分数,/>表示第j关节的分布图,/>表示热图中坐标为/>对应的像素点,/>表示第j关节的概率密度图,/>表示第j关节关键点热图。
2.如权利要求1所述的一种基于手部关节的人手姿态估计方法,其特征在于:步骤S4具体包括:
将所述多个关键点热图合并,得到人手分布图;
根据所述人手分布图确定人手的分布区域,将所述人手的分布区域作为感兴趣区域;
对所述感兴趣区域进行使用关节姿态编码器进行优化,得到人手关节姿态特征图。
3.如权利要求1所述的一种基于手部关节的人手姿态估计方法,其特征在于:步骤S5中采用两个级联的组卷积进行特征提取,并使用shuffle操作预测人手姿态。
4.一种基于手部关节的人手姿态估计***,其特征在于:采用如权利要求1-3任一项所述的基于手部关节的人手姿态估计方法,包括:
采集模块,用于采集人手初始图像,根据手部关节特征对所述人手初始图像进行预处理,得到多个手部关节图像;
特征提取模块,用于使用HRNet网络对所述多个手部关节图像进行特征提取,得到多个手部关节特征图像;
热图预测模块,用于根据所述多个手部关节特征图像分别使用二维关节预测网络进行手部关节的概率密度图预测,得到多个关键点热图;
合并模块,用于将所述多个关键点热图合并,得到人手分布图,对所述人手分布图进行优化得到人手关节姿态特征图;
3D关节预测模块,用于根据所述人手分布图和人手关节姿态特征图预测人手姿态,得到人手关节三维坐标,根据所述人手关节三维坐标得到人手姿态估计结果。
5.如权利要求4所述的一种基于手部关节的人手姿态估计***,其特征在于:所述特征提取模块使用HRNet网络进行特征提取,其中所述HRNet网络包括瓶颈模块和基础模块,
所述瓶颈模块用于对多个手部关节图像进行特征提取,得到第一阶段特征图;
所述基础模块用于对所述第一阶段特征图进行特征提取,得到所述手部关节特征图像。
CN202311194384.0A 2023-09-15 2023-09-15 一种基于手部关节的人手姿态估计方法及*** Active CN116959120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311194384.0A CN116959120B (zh) 2023-09-15 2023-09-15 一种基于手部关节的人手姿态估计方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311194384.0A CN116959120B (zh) 2023-09-15 2023-09-15 一种基于手部关节的人手姿态估计方法及***

Publications (2)

Publication Number Publication Date
CN116959120A CN116959120A (zh) 2023-10-27
CN116959120B true CN116959120B (zh) 2023-12-01

Family

ID=88458647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311194384.0A Active CN116959120B (zh) 2023-09-15 2023-09-15 一种基于手部关节的人手姿态估计方法及***

Country Status (1)

Country Link
CN (1) CN116959120B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191627A (zh) * 2020-01-06 2020-05-22 浙江工业大学 一种多视点下提高动态手势动作识别准确率的方法
CN111209861A (zh) * 2020-01-06 2020-05-29 浙江工业大学 一种基于深度学习的动态手势动作识别方法
CN111339903A (zh) * 2020-02-21 2020-06-26 河北工业大学 一种多人人体姿态估计方法
WO2020177498A1 (zh) * 2019-03-04 2020-09-10 南京邮电大学 一种基于姿态估计的非侵入式人体热舒适检测方法及***
CN113158870A (zh) * 2021-04-15 2021-07-23 华南理工大学 2d多人姿态估计网络的对抗式训练方法、***及介质
CN113298040A (zh) * 2021-06-21 2021-08-24 清华大学 关键点检测方法、装置、电子设备及计算机可读存储介质
CN114519865A (zh) * 2022-01-14 2022-05-20 宁波大学 一种融合集成注意力的2d人体姿态估计方法
CN114627491A (zh) * 2021-12-28 2022-06-14 浙江工商大学 一种基于极线汇聚的单人三维姿态估计方法
WO2022142854A1 (zh) * 2020-12-29 2022-07-07 深圳市优必选科技股份有限公司 一种人体姿态识别模型优化方法、装置和终端设备
KR20220098895A (ko) * 2021-01-05 2022-07-12 주식회사 케이티 인체 포즈 추정 장치 및 방법
CN116091596A (zh) * 2022-11-29 2023-05-09 南京龙垣信息科技有限公司 一种自下而上的多人2d人体姿态估计方法及装置
CN116092190A (zh) * 2023-01-06 2023-05-09 大连理工大学 一种基于自注意力高分辨网络的人体姿态估计方法
CN116311518A (zh) * 2023-03-20 2023-06-23 北京工业大学 一种基于人体交互意图信息的层级人物交互检测方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020177498A1 (zh) * 2019-03-04 2020-09-10 南京邮电大学 一种基于姿态估计的非侵入式人体热舒适检测方法及***
CN111209861A (zh) * 2020-01-06 2020-05-29 浙江工业大学 一种基于深度学习的动态手势动作识别方法
CN111191627A (zh) * 2020-01-06 2020-05-22 浙江工业大学 一种多视点下提高动态手势动作识别准确率的方法
CN111339903A (zh) * 2020-02-21 2020-06-26 河北工业大学 一种多人人体姿态估计方法
WO2022142854A1 (zh) * 2020-12-29 2022-07-07 深圳市优必选科技股份有限公司 一种人体姿态识别模型优化方法、装置和终端设备
KR20220098895A (ko) * 2021-01-05 2022-07-12 주식회사 케이티 인체 포즈 추정 장치 및 방법
CN113158870A (zh) * 2021-04-15 2021-07-23 华南理工大学 2d多人姿态估计网络的对抗式训练方法、***及介质
CN113298040A (zh) * 2021-06-21 2021-08-24 清华大学 关键点检测方法、装置、电子设备及计算机可读存储介质
CN114627491A (zh) * 2021-12-28 2022-06-14 浙江工商大学 一种基于极线汇聚的单人三维姿态估计方法
CN114519865A (zh) * 2022-01-14 2022-05-20 宁波大学 一种融合集成注意力的2d人体姿态估计方法
CN116091596A (zh) * 2022-11-29 2023-05-09 南京龙垣信息科技有限公司 一种自下而上的多人2d人体姿态估计方法及装置
CN116092190A (zh) * 2023-01-06 2023-05-09 大连理工大学 一种基于自注意力高分辨网络的人体姿态估计方法
CN116311518A (zh) * 2023-03-20 2023-06-23 北京工业大学 一种基于人体交互意图信息的层级人物交互检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Learning Heatmap-Style Jigsaw Puzzles Provides Good Pretraining for 2D Human Pose Estimation;Kun Zhang等;《arXiv》;第1-10页 *
基于人体骨架的均衡化单人姿态估计方法;高旭;《中国优秀硕士学位论文全文数据库信息科技辑》(第4期);第I138-1102页 *

Also Published As

Publication number Publication date
CN116959120A (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
Fieraru et al. Three-dimensional reconstruction of human interactions
CN111046733B (zh) 一种基于稀疏和深度的3d人体姿态估计方法
CN111080670B (zh) 图像提取方法、装置、设备及存储介质
CN112232134B (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN113628348A (zh) 一种确定三维场景中视点路径的方法及设备
CN113269089A (zh) 基于深度学习的实时手势识别方法及***
WO2021098545A1 (zh) 一种姿势确定方法、装置、设备、存储介质、芯片及产品
JP6052533B2 (ja) 特徴量抽出装置および特徴量抽出方法
Liu et al. Hand pose estimation from rgb images based on deep learning: A survey
CN111914595B (zh) 一种基于彩色图像的人手三维姿态估计方法和装置
CN117218246A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN116740290B (zh) 基于可变形注意力的三维交互双手重建方法及***
WO2021098576A1 (zh) 手部姿态估计方法、装置及计算机存储介质
CN114792401A (zh) 行为识别模型的训练方法、装置、设备及存储介质
CN116958958A (zh) 基于图卷积双流形状先验自适应类别级物体姿态估计方法
CN116959120B (zh) 一种基于手部关节的人手姿态估计方法及***
Zhang et al. A multi-cue guidance network for depth completion
CN116363561A (zh) 一种时序动作定位方法、装置、设备及存储介质
CN113763536A (zh) 一种基于rgb图像的三维重建方法
CN115880766A (zh) 姿态迁移、姿态迁移模型训练方法、装置和存储介质
Liu et al. Deep learning for 3D human pose estimation and mesh recovery: A survey
CN117953545B (zh) 基于彩色图像的三维手部姿态估计方法、装置及处理设备
CN117576307A (zh) 一种基于多尺度颜色信息与深度信息融合的双手重建方法
Farjadi et al. RGB Image-Based Hand Pose Estimation: A Survey on Deep Learning Perspective
Li et al. HRI: human reasoning inspired hand pose estimation with shape memory update and contact-guided refinement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant