CN116631011B - 手部姿态估计方法及电子设备 - Google Patents
手部姿态估计方法及电子设备 Download PDFInfo
- Publication number
- CN116631011B CN116631011B CN202310909281.1A CN202310909281A CN116631011B CN 116631011 B CN116631011 B CN 116631011B CN 202310909281 A CN202310909281 A CN 202310909281A CN 116631011 B CN116631011 B CN 116631011B
- Authority
- CN
- China
- Prior art keywords
- image
- hand
- target
- mask
- target hand
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000011218 segmentation Effects 0.000 claims description 35
- 230000015654 memory Effects 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 13
- 210000002478 hand joint Anatomy 0.000 claims description 12
- 230000000295 complement effect Effects 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 13
- 230000003993 interaction Effects 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/11—Hand-related biometrics; Hand pose recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/113—Recognition of static hand signs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请公开了一种手部姿态估计方法及电子设备,涉及终端领域,该方法包括:电子设备通过摄像头采集到包括用户手部的图像1,基于图像1确定以下一张或多张掩膜图像:掩膜图像2、掩膜图像3和掩膜图像4。接下来,电子设备可以从非目标手部的掩膜图像(例如,掩膜图像3或掩膜图像4)中确定出需要移除的第一部位,从目标手部的掩膜图像2中确定出需要补全的第二部位。电子设备可以从图像1中移除第一部位,并补全第二部位,确定出包括完整目标手部的图像2。然后,电子设备通过图像2确定出用户的手部姿态。
Description
技术领域
本申请涉及终端领域,尤其涉及一种手部姿态估计方法及电子设备。
背景技术
随着计算机技术的发展,增强现实(augmentedreality,AR)技术和虚拟现实(virtual reality,VR)技术在日常中的应用也越来越广泛。在AR技术/VR技术中,电子设备可以对用户的手部姿态进行估计,以便用户与电子设备进行手势交互。然而,当用户的手部被遮挡时,电子设备的手部姿态估计结果不够精确,误差较大,导致用户无法顺畅地和电子设备进行手势交互。
发明内容
本申请提供了一种手部姿态估计方法及电子设备,实现了电子设备可以在手部被遮挡的场景下,精确地估计出用户的手部姿态,降低手部姿态估计结果的误差,使得用户可以顺畅地和电子设备进行手势交互。
第一方面,本申请提供了一种手部姿态估计方法,包括:采集第一图像,该第一图像包括用户的手部。基于该第一图像,确定一张或多张掩膜图像,该一张或多张掩膜图像中包括第一掩膜图像、第二掩膜图像和第三掩膜图像。其中,该第一掩膜图像用于表示目标手部在该第一图像中的可见区域,该第二掩膜图像用于表示遮挡住该目标手部的手部在该第一图像中的可见区域,该第三掩膜图像用于表示被目标手部遮挡的手部在该第一图像中的可见区域。基于该一张或多张掩膜图像,确定出第一遮挡关系。其中,该第一遮挡关系用于表示该目标手部和该非目标手部之间的遮挡关系。基于该第一遮挡关系,从该第一图像中生成第二图像,该第二图像包括完整的该目标手部。从该第二图像中确定出用户的手部姿态。
在一种可能的实现方式中,该基于该第一图像,确定一张或多张掩膜图像,具体包括:通过第一分割网络基于该第一图像,生成第四掩膜图像和第一图像的第一特征图像。其中,该第四掩膜图像用于表示用户的手部轮廓在该第一图像上的区域。将该第四掩膜图像和该第一特征图像输入至第二分割网络中,并基于该第四掩膜图像,调整该第一特征图像中该手部轮廓在该第二分割网络中的权重大于该非手部轮廓在该第二分割网络中的权重。通过该第二分割网络基于该手部轮廓在该第二分割网络中的权重和该非手部轮廓在该第二分割网络中的权重,生成该一张或多张掩膜图像。
在一种可能的实现方式中,该基于该第一遮挡关系,从该第一图像中生成第二图像,具体包括:当该第一遮挡关系为该非目标手部遮挡该目标手部时,从该第一图像中移除该非目标手部的部分或全部可见区域,补全该目标手部被遮挡住的区域,生成第二图像。当该第一遮挡关系为该目标手部遮挡该非目标手部时,从该第一图像中移除该非目标手部的部分或全部可见区域,生成第二图像。
在一种可能的实现方式中,该补全目标手部被遮挡住的区域,具体包括:从该目标手部未被遮挡住的部位确定出填充信息。将该填充信息填充至该目标手部被遮挡住的区域。
在一种可能的实现方式中,该填充信息包括以下的一种或多种:该目标手部未被遮挡住的部位的颜色和纹理特征。
在一种可能的实现方式中,该基于该一张或多张掩膜图像,确定出第一遮挡关系,具体包括:当该第一掩膜图像示出目标手部在该第一图像中的可见区域,该第二掩膜图像示出遮挡住该目标手部的手部在该第一图像中的可见区域时,该第一遮挡关系为该非目标手部遮挡该目标手部。当该第一掩膜图像示出目标手部在该第一图像中的可见区域,该第三掩膜图像示出被目标手部遮挡的手部在该第一图像中的可见区域时,该第一遮挡关系为该目标手部遮挡该非目标手部。
在一种可能的实现方式中,从该第二图像中确定出用户的手部姿态,具体包括:从该第二图像中提取出一个或多个手部关节点。确定出该一个或多个手部关节点在3D空间中的坐标。基于该一个或多个手部关节点在3D空间中的坐标,确定出用户的手部姿态。
第二方面,本申请提供了一种电子设备,包括:一个或多个处理器和一个或多个存储器。该一个或多个存储器与该一个或多个处理器耦合,该一个或多个存储器用于存储计算机可执行程序,当该一个或多个处理器执行该计算机可执行程序时,使得该电子设备执行上述第一方面中任一项可能的实现方式中的方法。
第三方面,本申请提供了一种芯片***,包括处理电路和接口电路,该接口电路用于接收代码指令并传输至该处理电路,该处理电路用于运行该代码指令以使得该芯片***执行上述第一方面中任一项可能的实现方式中的方法。
第四方面,本申请提供了一种计算机可读存储介质,包括计算机可执行程序,当该计算机可执行程序在电子设备上运行时,使得该电子设备执行上述第一方面中任一项可能的实现方式中的方法。
附图说明
图1A为本申请实施例提供的一种手部姿态估计方法的具体流程示意图;
图1B为本申请实施例提供的一种掩膜图像示意图;
图2A为本申请实施例提供的一种手部分割模块示意图;
图2B为本申请实施例提供的一种手部去遮挡模块示意图;
图2C为本申请实施例提供的一种手部姿态估计模块示意图;
图3为本申请实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
本申请以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请得到说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式,除非其上下文中明确地有相反指示。还应当理解,本申请中使用的术语“和/或”是指包含一个或多个所列出的任何或所有可能的组合。本申请实施例中,术语“第一”、“第二”仅用于描述目的,不能理解为暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括一个或者更多个该特征,在本申请实施例中,除非另有说明,“多个”的含义是两个或两个以上。
在计算机领域的增强现实(augmentedreality,AR)技术/虚拟现实(virtualreality,VR)技术中,实时手部姿态估计是用户和电子设备进行手势交互的一个重要步骤。在一种实现方式中,电子设备可以通过摄像头采集到包括用户手部的RGB图像,然后利用神经网络从上述包括用户手部的RGB图像中分割出用户的手部区域(也可以称为手部轮廓)。电子设备可以基于该分割出的用户手部区域估计用户手部的姿态,从而实现用户和电子设备的手势交互。其中,RGB图像指的是基于红色(red,R)分量、绿色(green,G)分量和蓝色(blue,B)分量这三种分量(也可以称为通道)的叠加来显示物体的彩色成像。
然而,在手部被遮挡的场景下,由于左手和右手相互遮挡、双手纹理近似、左手和右手的对应关节点特征相似等原因,上述实现方式无法精确地估计出用户的手部姿态,导致手部姿态估计结果的误差较大,用户无法和电子设备进行手势交互的问题。
因此,本申请提供了一种手部姿态估计方法,该方法可以包括:电子设备通过摄像头可以采集图像1,图像1包括用户的手部。电子设备基于图像1,确定一张或多张掩膜图像,一张或多张掩膜图像中包括掩膜图像2、掩膜图像3和掩膜图像4。其中,掩膜图像2用于表示目标手部在图像1中的可见区域,掩膜图像3用于表示遮挡住该目标手部的手部在图像1中的可见区域,掩膜图像4用于表示被目标手部遮挡的手部在图像1中的可见区域。然后,电子设备可以基于一张或多张掩膜图像,确定出第一遮挡关系。其中,第一遮挡关系用于表示目标手部和非目标手部之间的遮挡关系。接下来电子设备可以基于第一遮挡关系,从图像1中生成图像2,图像2包括完整的目标手部。电子设备从图像2中确定出用户的手部姿态。
其中,掩膜图像2、掩膜图像3和掩膜图像4可以用于表示目标手部(又称目标手)和非目标手部(又称非目标手)的遮挡关系。例如,A).当掩膜图像2示出目标手部在图像1中的可见区域,掩膜图像3没有示出遮挡住该目标手部的手部在图像1中的可见区域,掩膜图像4示出被目标手部遮挡的手部在图像1中的可见区域时,也即是说存在被目标手遮挡的手,不存在遮挡住目标手部的手,目标手部和非目标手部的遮挡关系为:目标手部遮挡住非目标手部;B).当掩膜图像2示出目标手部在图像1中的可见区域,掩膜图像3示出遮挡住该目标手部的手部在图像1中的可见区域,掩膜图像4没有示出被目标手部遮挡的手部在图像1中的可见区域时,也即是说存在遮挡住目标手部的手,不存在被目标手部遮挡的手,目标手部和非目标手部的遮挡关系为:非目标手部遮挡住了目标手部。
在一种可能的实现方式中,当目标手遮挡住非目标手时,电子设备也可以不生成掩膜图像3,仅存在掩膜图像2和掩膜图像4;当非目标手遮挡住目标手时,电子设备也可以不生成掩膜图像4,仅存在掩膜图像2和掩膜图像3。
目标手部可以是左手,也可以是右手。非目标手部可以是右手,也可以是左手。目标手部和非目标手部不相同。当用户的左手为目标手部时,用户的右手即是非目标手部。当用户的右手为目标手部时,用户的左手即是非目标手部;第一部位可以是非目标手部可见区域的部分或全部。
其中,图像1、图像2可以是RGB图像,也可以是其他类型的图像,本申请不作限制;图像1的特征图像指的是具有图像1的颜色特征、纹理特征、形状特征和空间关系特征等一个或多个特征的图像。
掩膜图像2、掩膜图像3、掩膜图像4以及后续实施例中的掩膜图像1的类型可以是掩膜图像(Mask),其中,掩膜图像可以突出显示对应的目标区域。例如,掩膜图像1的目标区域为用户手部轮廓在图像1中的可见区域,则掩膜图像1可以突出显示该目标区域。掩膜图像2的目标区域为目标手部在图像1中的可见区域,则掩膜图像2可以突出显示该目标区域。掩膜图像3、掩膜图像4等掩膜图像可以以此类推。
具体的,掩膜图像是由0和/或1组成的二进制图像。在掩膜图像中,1值区域为目标区域,可用于后续图像处理,0值区域为非目标区域,不用于后续的图像处理。示例性的,例如掩膜图像1中用户手部区域的值为1,除用户手部区域之外的其他区域的值为0;掩膜图像2中目标手部区域的值为1,除目标手部区域之外的其他区域的值为0。掩膜图像3中遮挡住该目标手部的手部区域的值为1,其他区域的值为0。掩膜图像4中被目标手部遮挡的手部区域的值为1,其他区域的值为0。在其他实现方式中,掩膜图像中也可以是0值区域为目标区域,1值区域为非目标区域,本申请对此不作限制。后续实施例以1值区域为目标区域为例进行说明。
实现本申请提供的手部姿态估计方法,电子设备可以在手部被遮挡的场景下,精确地估计出用户的手部姿态,降低手部姿态估计结果的误差,使得用户可以顺畅地和电子设备进行手势交互。
图1A示例性示出了本申请实施例提供的一种手部姿态估计方法的具体流程。
如图1A所示,该方法的具体流程可以包括:
阶段一:电子设备基于图像1,确定一张或多张掩膜图像。
S101:电子设备通过摄像头采集包括用户手部的图像1。
本申请实施例中,电子设备可以是可穿戴设备(例如,智能手表、智能手环、头戴式设备等)、手机、平板电脑、PC、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personaldigital assistant,PDA)等电子设备。本申请对该电子设备的具体类型不作任何限制。
本申请实施例中,图像1可以是RGB图像,也可以是其他类型的图像,本申请对图像1的类型不作限制。
S102:电子设备通过手部分割模块,基于图像1生成掩膜图像1和图像1的特征图像。
具体的,电子设备可以通过手部分割模块中的第一分割网络,基于图像1生成掩膜图像1和图像1的特征图像。掩膜图像1可以用于表示整个手部轮廓(包括目标手和非目标手)在图像1上的可见区域。
其中,关于掩膜图像(MASK,又可以称为掩膜、掩码等)的说明,可以参考前述实施例中的描述,在此不赘述。掩膜图像1是以0和/或1组成的二进制图像,用户的手部区域可以为1值组成的区域,除用户手部区域之外的其他区域可以为0值组成的区域。
S103:电子设备基于掩膜图像1和图像1的特征图像,利用手部分割模块获取到以下一张或多张掩膜图像:掩膜图像2、掩膜图像3和掩膜图像4。
关于掩膜图像2、掩膜图像3和掩膜图像4的说明,可以参考前述描述。
具体的,电子设备可以将掩膜图像1和图像1的特征图像输入至手部分割模块中的第二分割网络中,并基于掩膜图像1,调整图像1的特征图像中手部轮廓在第二分割网络中的权重大于非手部轮廓在第二分割网络中的权重。电子设备可以通过第二分割网络基于手部轮廓在第二分割网络中的权重和非手部轮廓在第二分割网络中的权重,生成一张或多张掩膜图像。
具体的,关于电子设备如何确定出目标手的实现方式可以有以下几种:
在一种可能的实现方式中,电子设备可以预设目标手为用户的左手或右手。当电子设备获取到图像1时,可以从图像1中检测出用户的左手或右手,并将用户的左手或右手确定为目标手。
在另一种可能的实现方式时,电子设备可以预先存储应用场景与目标手的映射关系。例如,应用场景A对应的目标手为左手,应用场景B对应的目标手为右手,应用场景C对应的目标手为右手等。当电子设备检测出图像1中的应用场景为应用场景A时,电子设备可以确定出目标手为左手。电子设备可以从图像1中检测到用户的左手,并将用户的左手确定为目标手。
在另一种可能的实现方式中,电子设备可以基于历史记录确定出目标手。例如,若电子设备在前一帧或N帧图像中检测出用户使用左手和电子设备进行手势交互,电子设备在当前帧图像中即可将左手确定为目标手;若电子设备在前一帧或N帧图像中检测出用户使用右手和电子设备进行手势交互,电子设备在当前帧图像中即可将右手确定为目标手。其中,N可以大于或等于2。
上述示例的实现方式仅用于示例性解释本申请,在具体的实现过程中,电子设备还可以通过其他方式确定出目标手,本申请对此并不作限制。
为了更好地说明手部的遮挡关系,下面举出几个示例:例如,若用户的右手遮挡住左手,以用户的左手为目标手,则掩膜图像2中用户的左手区域的值为1,掩膜图像3中用户的右手区域的值为1,掩膜图像4为由全0值组成的图像(也即是没有被左手遮挡住的手部区域);又例如,若用户的右手遮挡住左手,以用户的右手为目标手,则掩膜图像2中用户的右手区域的值为1,掩膜图像3为由全0值组成的图像(也即是没有遮挡右手的手部区域),掩膜图像4中用户的左手区域的值为1。
在一种可能的实现方式中,电子设备也可以利用手部分割模块,基于图像1生成以下一张或多张掩膜图像:掩膜图像2、掩膜图像3和掩膜图像4。也就是说,在这种实现方式中,电子设备不生成掩膜图像1,不需要使用掩膜图像1生成上述的一张或多张掩膜图像。
阶段二:电子设备基于第一遮挡关系,从图像1中生成图像2。
具体的,当该第一遮挡关系为该非目标手部遮挡该目标手部时,从图像1中移除该非目标手部的部分或全部可见区域,补全该目标手部被遮挡住的区域,生成图像2。当该第一遮挡关系为该目标手部遮挡该非目标手部时,从图像1中移除该非目标手部的部分或全部可见区域,生成图像2。具体实现方式可以如下:
S104:电子设备利用手部去遮挡模块,从非目标手部的掩膜图像(例如,掩膜图像3或掩膜图像4)中确定出需要移除的第一部位。
其中,非目标手部掩膜图像中的1值区域的部分或全部即是需要移除的第一部位。第一部位可以是非目标手部可见区域的部分或全部。
示例性的,图1B示出了非目标手部的掩膜图像,在该非目标手部的掩膜图像中,白色区域为1值区域(即非目标手部的区域),黑色区域为0值区域(即除非目标手部的其他区域)。电子设备可以将该非目标手部掩膜图像中的1值区域确定为需要移除的第一部位。
S105:电子设备利用手部去遮挡模块,从掩膜图像2中确定出需要补全的第二部位。
其中,第二部位即是目标手部被遮挡住的区域。本申请实施例中,该步骤是可选的,也即是说当目标手部被遮挡时,电子设备可以从掩膜图像2中确定出需要补全的第二部位。若目标手部没有被遮挡,电子设备可以不执行该步骤。
S106:电子设备可以利用手部去遮挡模块,从图像1中移除第一部位,并补全第二部位,确定出包括完整目标手部的图像2。
其中,补全第二部位具体可以包括:电子设备从目标手部未被遮挡住的部位确定出填充信息,然后,电子设备将填充信息填充至目标手部被遮挡住的区域。填充信息包括以下的一种或多种:目标手部未被遮挡住的部位(也可以称区域)的颜色和纹理特征。
其中,图像2可以是RGB图像,也可以是其他类型的图像,本申请对图像2的类型不作限制。本申请实施例中,如果目标手部没有被遮挡,也即是目标手部没有需要补全的第二部位,电子设备可以不执行实施例中所描述的确定并补全第二部位的操作,也即是说,电子设备可以从图像1中移除第一部位,确定出包括完整目标手部的图像2。
阶段三:电子设备基于图像2,确定出用户的手部姿态。
S107:电子设备可以利用手部姿态估计模块,通过图像2确定出用户的手部姿态。
在一种实现方式中,电子设备可以将图像2作为手部姿态估计模块的输入,通过手部姿态估计模块,从图像2中提取出一组预定义的手部关节点,确定出一个或多个手部关节点在3D空间中的坐标。电子设备可以基于一个或多个手部关节点在3D空间中的坐标,确定出用户的手部姿态。其中,该手部关节点的选择可以通过参考真实手部关节点而设定,手部关节点的个数可以是14个、16个或21个等。不限于此,本申请实施例中,电子设备还可以通过其他方式基于图像2确定出用户的手部姿态,本申请并不作限制。
接下来,对图1A所示实施例中的“手部分割模块”、“手部去遮挡模块”和“手部姿态估计模块”作进一步说明。
A).手部分割模块
示例性的,如图2A所示,手部分割模块可以由以下的一个或多个神经网络组成:骨干网络(Backbone网络,包括Backbone网络1和Backbone网络2)、头部网络(Head网络,包括Head网络1和Head网络2)和Box层网络(包括Box层网络1和Box层网络2),其中:
Backbone网络1的输入为包括用户手部的图像1,Backbone网络1和Head网络1可以用于提取图像1的特征信息,并基于图像1的特征信息生成图像1的特征图像。Box层网络1的输入为图像1的特征图像,输出为掩膜图像1。然后,电子设备可以将掩膜图像1和图像1的特征图像作为Head网络2的输入,Head网络2基于图像1的特征图像再次分割用户的手部区域时,可以在图像1的特征图像中,将掩膜图像1中所突出显示的手部区域的权重设置得比其他区域的权重高,手部分割模块可以在分割过程中更加注重掩膜图像1中所突出显示的手部区域,因此可以提高用户手部区域的分割精确度。电子设备基于Head网络2和Box层网络2,输出以下一张或多张掩膜图像:掩膜图像2、掩膜图像3和掩膜图像4,其说明可以参考前述描述。
其中,Box层网络2在训练过程中,可以设置三个标签:目标手部在图像1中的可见区域对应的第一标签,遮挡住该目标手部的手部在图像1中的可见区域对应的第二标签,和被目标手部遮挡的手部在图像1中的可见区域对应的第三标签。在训练阶段,Box层网络2可以比较这三个标签的测试输出和实际数据之间的差值并调整权重,直到确定出使得这三个标签的测试输出和实际数据之间的差值最小时的权重。其中:
第一标签的测试输出指的是Box层网络2输出的目标手部在图像1中的可见区域,实际数据指的是实际目标手部在图像1中的可见区域;第二标签的测试输出指的是Box层网络2输出的遮挡住该目标手部的手部在图像1中的可见区域,实际数据指的是实际遮挡住该目标手部的手部在图像1中的可见区域;第三标签的测试输出指的是Box层网络2输出的被目标手部遮挡的手部在图像1中的可见区域,实际数据指的是实际被目标手部遮挡的手部在图像1中的可见区域。
本申请实施例中,图2A所示的手部分割模块的结构仅用于示例性解释本申请,在其他实现方式中,手部分割模块还可以是不同于图2A的结构,本申请不作限制。
B).手部去遮挡模块
示例性的,如图2B所示,手部去遮挡模块的结构可以由一个或多个卷积网络和变化块网络(Transformer Block网络)组成。掩膜图像2、非目标手部的掩膜图像(例如,掩膜图像3或掩膜图像4)和图像1进行特征融合(concat)后输入至手部去遮挡模块。手部去遮挡模块的输出可以是包括完整目标手部的图像2。手部去遮挡模块的具体操作可以参考前述图1A所示的实施例。
本申请实施例中,图2B所示的手部去遮挡模块的结构仅用于示例性解释本申请,在其他实现方式中,手部去遮挡模块还可以是不同于图2B的结构,本申请不作限制。
C).手部姿态估计模块
示例性的,如图2C所示,手部姿态估计模块可以是由卷积神经网络KeyNet网络组成。手部姿态估计模块的输入可以是包括完整目标手部的图像2,输出可以是在3D空间里手部关节点的坐标。手部姿态估计模块的具体操作可以参考前述图1A所示的实施例。
本申请实施例中,图2C所示的手部姿态估计模块的结构仅用于示例性解释本申请,在其他实现方式中,手部姿态估计模块还可以是不同于图2C的结构,本申请不作限制。
在本申请实施例中,图像1可以称为第一图像,图像2可以称为第二图像。掩膜图像1可以称为第四掩膜图像,掩膜图像2可以称为第一掩膜图像,掩膜图像3可以称为第二掩膜图像,掩膜图像4可以称为第三掩膜图像,图像1的特征图像可以被称为第一特征图像。Backbone网络1、Head网络1和Box层网络1可以被统称为第一分割网络,Head网络2和Box层网络2可以统称为第二分割网络。
图3示例性示出了本申请实施例提供的电子设备100的硬件结构。
本申请实施例中,电子设备100可以是前述中的电子设备。
如图3所示,电子设备100可以包括处理器301、存储器302、无线通信模块303(可选的)、显示屏304、摄像头305、音频模块306(可选的)和麦克风307(可选的),处理器301、存储器302、无线通信模块303(可选的)、显示屏304、摄像头305、音频模块306(可选的)和麦克风307(可选的)可以通过总线连接。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100还可以包括比图3所示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图3所示的部件可以以硬件,软件或软件和硬件的组合来实现。
处理器301可以包括一个或多个处理器单元,例如处理器301可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器301中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器301中的存储器为高速缓冲存储器。该存储器可以保存处理器301刚用过或循环使用的指令或数据。如果处理器301需要再次使用该指令或数据,可以从所述存储器中直接调用。避免了重复存取,减少了处理器301的等待时间,因而提高了***的效率。
在一些实施例中,处理器301可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或USB接口等。
存储器302与处理器301耦合,用于存储各种软件程序和/或多组指令。具体实现中,存储器302可以包括易失性存储器(volatile memory),例如随机存取存储器(randomaccess memory,RAM);也可以包括非易失性存储器(non-vlatile memory),例如ROM、快闪存储器(flash memory)、硬盘驱动器(Hard Disk Drive,HDD)或固态硬盘(Solid StateDrives,SSD);存储器302还可以包括上述种类的存储器的组合。存储器302还可以存储一些程序代码,以便于处理器301调用存储器302中存储的程序代码,以实现本申请实施例在电子设备100中的实现方法。存储器302可以存储操作***,例如uCOS、VxWorks、RTLinux等嵌入式操作***。
无线通信模块303可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星***(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块303可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块303经由天线接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器301。无线通信模块303还可以从处理器301中接收待发送的信号,对其进行调频、放大,经天线转为电磁波辐射出去。在一些实施例中,电子设备100还可以通过无线通信模块303中的蓝牙模块(图3未示出)、WLAN模块(图3未示出)发射信号探测或扫描在电子设备100附近的设备,并与该附近的设备建立无线通信连接以传输数据。其中,蓝牙模块可以提供包括经典蓝牙(basic rate/enhanced data rate,BR/EDR)或蓝牙低功耗(bluetooth low energy ,BLE)中一项或多项蓝牙通信的解决方案,WLAN模块可以提供包括Wi-Fi direct、Wi-Fi LAN或Wi-Fi softAP中一项或多项WLAN通信的解决方案。
显示屏304可以用于显示图像、视频等。显示屏304可以包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emitting diode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的,AMOLED),柔性发光二极管(flex light-emitting diode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dotlight emitting diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或N个显示屏304,N为大于1的正整数。
摄像头305用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备100可以包括1个或N个摄像头305,N为大于1的正整数。
音频模块306可以用于将数字音频信息转换成模拟音频信号输出,也可以用于将模拟音频输入转换成数字音频信号。音频模块306还可以用于对音频信号编码和解码。在一些实施例中,音频模块306还可以设置于处理器301中,或将音频模块306的部分功能模块设置于处理器301中。
麦克风307,也可以称“话筒”,“传声器”, 可以用于采集电子设备周围环境中的声音信号,再将该声音信号转换为电信号,再将该电信号经过一系列处理,例如模数转换等,得到电子设备的处理器301可以处理的数字形式的音频信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风307发声,将声音信号输入到麦克风307。电子设备100可以设置至少一个麦克风307。在另一些实施例中,电子设备100可以设置两个麦克风307,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风307,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
电子设备100还可以包括传感器模块(图3中未示出)。传感器模块可以包括多个传感器件,例如,触摸传感器(图3中未示出)等。触摸传感器也可以称为“触控器件”。触摸传感器可以设置于显示屏304,由触摸传感器与显示屏304组成触摸屏,也称“触控屏”。触摸传感器可以用于检测作用于其上或附近的触摸操作。
需要说明的是,图3中示出的电子设备100仅仅用于示例性解释本申请所提供的电子设备的硬件结构,并不对本申请构成具体限制。
上述实施例中所用,根据上下文,术语“当…时”可以被解释为意思是“如果…”或“在…后”或“响应于确定…”或“响应于检测到…”。类似地,根据上下文,短语“在确定…时”或“如果检测到(所陈述的条件或事件)”可以被解释为意思是“如果确定…”或“响应于确定…”或“在检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。
Claims (8)
1.一种手部姿态估计方法,其特征在于,包括:
采集第一图像,所述第一图像包括用户的手部;
通过第一分割网络基于所述第一图像,生成第四掩膜图像和所述第一图像的第一特征图像;其中,所述第四掩膜图像用于表示手部轮廓在所述第一图像上的区域;
将所述第四掩膜图像和所述第一特征图像输入至第二分割网络中,并基于所述第四掩膜图像,调整所述第一特征图像中所述手部轮廓在所述第二分割网络中的权重大于非手部轮廓在所述第二分割网络中的权重;
通过所述第二分割网络基于所述手部轮廓在所述第二分割网络中的权重和所述非手部轮廓在所述第二分割网络中的权重,生成多张掩膜图像;
其中,所述多张掩膜图像中包括第一掩膜图像、第二掩膜图像和第三掩膜图像;其中,所述第一掩膜图像用于表示目标手部在所述第一图像中的可见区域,所述第二掩膜图像用于表示遮挡住该目标手部的手部在所述第一图像中的可见区域,所述第三掩膜图像用于表示被目标手部遮挡的手部在所述第一图像中的可见区域;
基于所述多张掩膜图像,确定出第一遮挡关系;其中,所述第一遮挡关系用于表示所述目标手部和非目标手部之间的遮挡关系;
其中,当所述第一遮挡关系为所述目标手部遮挡住所述非目标手部时,所述第一掩膜图像示出所述目标手部在所述第一图像中的可见区域,所述第二掩膜图像没有示出遮挡住所述目标手部的手部在所述第一图像中的可见区域,所述第三掩膜图像示出被所述目标手部遮挡的手部在所述第一图像中的可见区域;
当所述第一遮挡关系为所述非目标手部遮挡住所述目标手部时,所述第一掩膜图像示出所述目标手部在所述第一图像中的可见区域,所述第二掩膜图像示出遮挡住所述目标手部的手部在所述第一图像中的可见区域,所述第三掩膜图像没有示出被所述目标手部遮挡的手部在所述第一图像中的可见区域;
基于所述第一遮挡关系,从所述第一图像中生成第二图像,所述第二图像包括完整的所述目标手部;
从所述第二图像中确定出用户的手部姿态。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一遮挡关系,从所述第一图像中生成第二图像,具体包括:
当所述第一遮挡关系为所述非目标手部遮挡所述目标手部时,从所述第一图像中移除所述非目标手部的部分或全部可见区域,补全所述目标手部被遮挡住的区域,生成第二图像;
当所述第一遮挡关系为所述目标手部遮挡所述非目标手部时,从所述第一图像中移除所述非目标手部的部分或全部可见区域,生成第二图像。
3.根据权利要求2所述的方法,其特征在于,所述补全所述目标手部被遮挡住的区域,具体包括:
从所述目标手部未被遮挡住的部位确定出填充信息;
将所述填充信息填充至所述目标手部被遮挡住的区域。
4.根据权利要求3所述的方法,其特征在于,所述填充信息包括以下的一种或多种:所述目标手部未被遮挡住的部位的颜色和纹理特征。
5.根据权利要求1所述的方法,其特征在于,从所述第二图像中确定出用户的手部姿态,具体包括:
从所述第二图像中提取出一个或多个手部关节点;
确定出所述一个或多个手部关节点在3D空间中的坐标;
基于所述一个或多个手部关节点在3D空间中的坐标,确定出用户的手部姿态。
6.一种电子设备,其特征在于,包括:一个或多个处理器和一个或多个存储器;所述一个或多个存储器与所述一个或多个处理器耦合,所述一个或多个存储器用于存储计算机可执行程序,当所述一个或多个处理器执行所述计算机可执行程序时,使得所述电子设备执行如权利要求1-5中任一项所述的方法。
7.一种芯片***,其特征在于,包括处理电路和接口电路,所述接口电路用于接收代码指令并传输至所述处理电路,所述处理电路用于运行所述代码指令以使得所述芯片***执行如权利要求1-5中任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,包括计算机可执行程序,当所述计算机可执行程序在电子设备上运行时,使得所述电子设备执行如权利要求1-5中的任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310909281.1A CN116631011B (zh) | 2023-07-24 | 2023-07-24 | 手部姿态估计方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310909281.1A CN116631011B (zh) | 2023-07-24 | 2023-07-24 | 手部姿态估计方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116631011A CN116631011A (zh) | 2023-08-22 |
CN116631011B true CN116631011B (zh) | 2023-10-20 |
Family
ID=87613813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310909281.1A Active CN116631011B (zh) | 2023-07-24 | 2023-07-24 | 手部姿态估计方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116631011B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8837839B1 (en) * | 2010-11-03 | 2014-09-16 | Hrl Laboratories, Llc | Method for recognition and pose estimation of multiple occurrences of multiple objects in visual images |
CN112336342A (zh) * | 2020-10-29 | 2021-02-09 | 深圳市优必选科技股份有限公司 | 手部关键点检测方法、装置及终端设备 |
CN114882493A (zh) * | 2021-01-22 | 2022-08-09 | 北京航空航天大学 | 一种基于图像序列的三维手部姿态估计与识别方法 |
CN115083021A (zh) * | 2022-07-20 | 2022-09-20 | 北京市商汤科技开发有限公司 | 对象姿态识别方法及装置、电子设备和存储介质 |
CN115205161A (zh) * | 2022-08-18 | 2022-10-18 | 荣耀终端有限公司 | 一种图像处理方法及设备 |
CN115713702A (zh) * | 2022-11-24 | 2023-02-24 | 中国电子科技集团公司第二十研究所 | 一种基于增强现实的物体遮挡关系确认方法及应用 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9025022B2 (en) * | 2012-10-25 | 2015-05-05 | Sony Corporation | Method and apparatus for gesture recognition using a two dimensional imaging device |
-
2023
- 2023-07-24 CN CN202310909281.1A patent/CN116631011B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8837839B1 (en) * | 2010-11-03 | 2014-09-16 | Hrl Laboratories, Llc | Method for recognition and pose estimation of multiple occurrences of multiple objects in visual images |
CN112336342A (zh) * | 2020-10-29 | 2021-02-09 | 深圳市优必选科技股份有限公司 | 手部关键点检测方法、装置及终端设备 |
CN114882493A (zh) * | 2021-01-22 | 2022-08-09 | 北京航空航天大学 | 一种基于图像序列的三维手部姿态估计与识别方法 |
CN115083021A (zh) * | 2022-07-20 | 2022-09-20 | 北京市商汤科技开发有限公司 | 对象姿态识别方法及装置、电子设备和存储介质 |
CN115205161A (zh) * | 2022-08-18 | 2022-10-18 | 荣耀终端有限公司 | 一种图像处理方法及设备 |
CN115713702A (zh) * | 2022-11-24 | 2023-02-24 | 中国电子科技集团公司第二十研究所 | 一种基于增强现实的物体遮挡关系确认方法及应用 |
Non-Patent Citations (2)
Title |
---|
向杰 等.基于深度学习的手分割算法研究.智能计算机与应用.2019,(第3期),第254-262页. * |
基于深度学习的手分割算法研究;向杰 等;智能计算机与应用(第3期);第254-262页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116631011A (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020238741A1 (zh) | 图像处理方法、相关设备及计算机存储介质 | |
WO2021078001A1 (zh) | 一种图像增强方法及装置 | |
KR102327779B1 (ko) | 이미지 처리 방법 및 장치 | |
CN114119758B (zh) | 获取车辆位姿的方法、电子设备和计算机可读存储介质 | |
KR20150077646A (ko) | 이미지 처리 장치 및 방법 | |
CN109756763B (zh) | 用于基于优先级处理图像的电子装置及其操作方法 | |
CN108616776B (zh) | 直播分析数据获取方法及装置 | |
CN115601244B (zh) | 图像处理方法、装置和电子设备 | |
WO2020197070A1 (en) | Electronic device performing function according to gesture input and operation method thereof | |
CN115375827B (zh) | 光照估计方法及电子设备 | |
CN111027490A (zh) | 人脸属性识别方法及装置、存储介质 | |
US20210250498A1 (en) | Electronic device and method for displaying image in electronic device | |
CN115061770A (zh) | 显示动态壁纸的方法和电子设备 | |
CN115526787A (zh) | 视频处理方法和装置 | |
CN109981989B (zh) | 渲染图像的方法、装置、电子设备和计算机可读存储介质 | |
CN115150542B (zh) | 一种视频防抖方法及相关设备 | |
EP4209996A1 (en) | Target tracking method and electronic device | |
KR102609734B1 (ko) | 전자 장치 및 이미지의 전송 상태에 기반하여 이미지를 보정하는 방법 | |
WO2024109207A1 (zh) | 显示缩略图像的方法和电子设备 | |
CN115908120B (zh) | 图像处理方法和电子设备 | |
CN116631011B (zh) | 手部姿态估计方法及电子设备 | |
CN115767290A (zh) | 图像处理方法和电子设备 | |
CN115358937A (zh) | 图像去反光方法、介质及电子设备 | |
CN109729264B (zh) | 一种图像获取方法及移动终端 | |
JP2013179614A (ja) | 撮像装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |