CN111325179B - 手势跟踪方法、装置、电子设备和存储介质 - Google Patents
手势跟踪方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111325179B CN111325179B CN202010159687.9A CN202010159687A CN111325179B CN 111325179 B CN111325179 B CN 111325179B CN 202010159687 A CN202010159687 A CN 202010159687A CN 111325179 B CN111325179 B CN 111325179B
- Authority
- CN
- China
- Prior art keywords
- image
- human hand
- detection frame
- original image
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000001514 detection method Methods 0.000 claims abstract description 178
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims description 15
- 239000000203 mixture Substances 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 230000003321 amplification Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 18
- 238000013528 artificial neural network Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000009966 trimming Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004821 distillation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/215—Motion-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种手势跟踪方法、装置、电子设备和存储介质,涉及图像处理技术领域。本发明实施例提供的手势跟踪方法、装置、电子设备和存储介质,基于第一人手检测框,对原图像进行裁剪,以得到第一图像,通过对第一图像进行特征提取得到第一特征图,判断第一特征图中是否存在人手,若第一特征图中存在人手,则对第一特征图进行分割,得到人手图像,将第一特征图和人手图像进行检测框回归处理,得到第二人手检测框,以第二人手检测框作为下一帧图像的输入,实现对下一帧图像的跟踪,实时性较好。
Description
技术领域
本发明涉及图像处理技术领域,具体而言,涉及一种手势跟踪方法、装置、电子设备和存储介质。
背景技术
手势识别技术是指在一张图像中找出人手部分并对其姿势进行分类的技术。手势信息作为一种高层次的语义信息,被广泛的运用于人机交互场景中。
手势识别技术可以细分为三个子技术,分别是手势检测、手势分类和手势跟踪技术。其中手势检测技术负责从图像中检测到人手的包围框,手势分类技术负责对人手姿势进行分类,手势跟踪技术负责对检测到的人手进行跟踪,以保证一直检测到的手都是同一个人的手。
目前,基于深度神经网络的分类技术作为研究热点,出现了很多提高了网络运行效率的方法(例如网络蒸馏、网络量化等技术),使得其在移动端实时运行成为可能,但是跟踪技术往往无法做到实时处理,其实时性较差。
发明内容
基于上述研究,本发明提供了一种手势跟踪方法、装置、电子设备和存储介质。
本发明的实施例可以这样实现:
第一方面,本发明实施例提供一种手势跟踪方法,应用于电子设备,所述手势跟踪方法包括:
基于第一人手检测框,对原图像进行裁剪,以得到第一图像;
对所述第一图像进行特征提取得到第一特征图;
判断所述第一特征图中是否存在人手,若所述第一特征图中存在人手,对所述第一特征图进行分割,得到人手图像;
将所述第一特征图和所述人手图像进行检测框回归处理,得到第二人手检测框,以根据所述第二人手检测框,对下一帧图像进行跟踪。
在可选的实施方式中,所述方法还包括:
若所述第一特征图中不存在人手,则对所述原图像进行特征提取得到第二特征图;
将所述第二特征图输入至区域建议网络,得到第一检测框;
对所述第二特征图中所述第一检测框对应区域的特征进行裁剪,得到裁剪后的特征图;
根据所述裁剪后的特征图对所述第一检测框进行精修处理,得到第三人手检测框,以根据所述第三人手检测框,对下一帧图像进行跟踪。
在可选的实施方式中,所述根据所述裁剪后的特征图对所述第一检测框进行精修处理,得到第三人手检测框的步骤包括:
将所述裁剪后的特征图输入至分类回归网络,得到检测框精修参数;
根据所述检测框精修参数对所述第一检测框进行精修处理,得到第三人手检测框。
在可选的实施方式中,在对所述原图像进行特征提取得到第二特征图之前,所述方法还包括:
对所述原图像进行肤色检测,得到所述原图像的人手概率图;
将所述原图像的人手概率图与所述原图像进行拼接,得到拼接后的原图像,所述第二特征图通过对所述拼接后的原图像进行特征提取得到。
在可选的实施方式中,所述对所述原图像进行肤色检测,得到所述原图像的人手概率图的步骤包括:
根据以下公式,对所述原图像进行肤色检测,得到所述原图像的人手概率图:
其中,x代表原图像中像素的RGB向量,N代表高斯混合模型中子高斯模型的数量,Wi代表x属于第i个高斯模型的概率,μi代表第i个高斯模型的均值,∑i代表第i个高斯模型的协方差矩阵;P(x)为x属于人手部分的概率。
在可选的实施方式中,所述基于第一人手检测框,对原图像进行裁剪,以得到第一图像的步骤包括:
根据所述第一人手检测框,对所述原图像进行裁剪,得到待检测图像;
对所述待检测图像进行肤色检测,得到所述待检测图像的人手概率图;
将所述待检测图像的人手概率图和所述待检测图像进行拼接,得到所述第一图像。
在可选的实施方式中,所述基于第一人手检测框,对原图像进行裁剪的步骤包括:
基于预先设定的放大倍数对所述第一人手检测框进行放大,根据放大后的第一人手检测框对所述原图像进行裁剪。
第二方面,本发明实施例提供一种手势跟踪装置,应用于电子设备,所述手势跟踪装置包括分类跟踪模块;所述分类跟踪模块用于:
基于第一人手检测框,对原图像进行裁剪,以得到第一图像;
对所述第一图像进行特征提取得到第一特征图;
判断所述第一特征图中是否存在人手,若所述第一特征图中存在人手,对所述第一特征图进行分割,得到人手图像;
将所述第一特征图和所述人手图像进行检测框回归处理,得到第二人手检测框,以根据所述第二人手检测框,对下一帧图像进行跟踪。
第三方面,本发明实施例提供一种电子设备,包括处理器及存储有计算机指令的非易失性存储器,所述计算机指令被所述处理器执行时,所述电子设备执行前述实施方式中任意一项所述的手势跟踪方法。
第四方面,本发明实施例提供一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被执行时实现前述实施方式中任意一项所述的手势跟踪方法。
本发明实施例提供的手势跟踪方法、装置、电子设备和存储介质,基于第一人手检测框,对原图像进行裁剪,以得到第一图像,通过对第一图像进行特征提取得到第一特征图,判断第一特征图中是否存在人手,若第一特征图中存在人手,对第一特征图进行分割,得到人手图像,将第一特征图和人手图像进行检测框回归处理,得到第二人手检测框,以第二人手检测框作为下一帧图像的输入,实现对下一帧图像的跟踪,实时性较好。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例所提供的电子设备的一种方框示意图。
图2为本发明实施例所提供的手势跟踪方法的一种流程示意图。
图3为本发明实施例所提供的手势跟踪方法的另一种流程示意图。
图4为本发明实施例所提供的手势跟踪方法的又一种流程示意图。
图5为本发明实施例所提供的手势跟踪方法的又一种流程示意图。
图6为本发明实施例所提供的手势跟踪方法的又一种流程示意图。
图7为本发明实施例所提供的手势跟踪装置的一种方框示意图。
图标:100-电子设备;10-手势跟踪装置;11-分类跟踪模块;12-手势检测模块;20-存储器;30-处理器;40-通信单元。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
目前,深度神经网络是解决检测和分类这两个任务的最有效的方法,在这其中,基于深度神经网络的分类技术作为研究的热点,出现了很多提高了网络运行效率的方法(例如网络蒸馏、网络量化等技术),使得其在移动端实时运行成为可能,但检测技术往往难以实时运行,具体到手势识别任务上,一个十分重要的原因是人手在运动过程中的尺度变化十分巨大,使得神经网络需要更多的参数去处理不同的尺度的人手图像,导致计算量大增。跟踪技术可以分为传统跟踪技术和基于深度神经网络的跟踪技术,其中传统的跟踪技术虽然可以做到实时跟踪(例如KCF跟踪算法),但跟踪效果较差,而基于深度神经网络的跟踪技术,虽然跟踪效果较好,但往往无法做到实时,其实时性较差。
基于上述研究,本发明实施例提供一种手势跟踪方法,以改善上述问题。
本实施例提供了一种手势跟踪方法,应用于图1所示的电子设备100,由所述电子设备100执行本实施例所提供的手势跟踪方法。在本实施例中,所述电子设备100可以是,但不限于,个人电脑(Personal Computer,PC)、笔记本电脑、个人数字助理(PersonalDigital Assistant,PDA)或服务器等具有处理能力的电子设备100。
所述电子设备100包括手势跟踪装置10、存储器20、处理器30以及通信单元40;所述存储器20、处理器30以及通信单元40各个元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互直接可通过一条或多条通讯总线或信号线实现电性连接。所述手势跟踪装置10包括至少一个可以软件或固件(Firmware)的形式存储于所述存储器20中的软件功能模块,所述处理器30通过运行存储在存储器20内的软件程序以及模块,从而执行各种功能应用以及数据处理。
所述存储器20可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
所述处理器30可以是一种集成电路芯片,具有信号的处理能力。所述处理器30可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等。
所述通信单元40用于通过网络建立所述电子设备100与其他外部设备之间的通信连接,并通过所述网络进行数据传输。
可以理解,图1所示的结构仅为示意,所述电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
本实施例所提供的手势跟踪方法主要包括两个部分,一是人手检测框获取部分,二是手势分类跟踪部分,其中,人手检测框获取部分主要利用Faster-RCNN检测框架作为基础框架,包括基础神经网络、区域建议网络(Region Proposal Network,RPN)和分类回归网络;手势分类跟踪部分实时运行,由多分支神经网络组成,主要包括了基础神经网络、手势分类分支、手势框回归分支以及人手判断分支,手势分类分支可以为一实时的分类网络,主要用于对图像中的手势的类别进行预测,人手判断分支可以为一全连接网络,主要用于判断图像中是否存在人手,以防止跟踪过程中出现意外跟丢,及时停止跟踪,手势框回归分支可以细分为分割网络和回归网络,主要用于手势检测框的回归。
请结合参阅图2,图2为本实施例所提供的手势跟踪方法的流程示意图,图2所示主要由本实施例所提供的手势跟踪方法中的手势分类跟踪部分执行。下面对图2所示的手势跟踪方法的具体流程进行详细阐述。
步骤S10:基于第一人手检测框,对原图像进行裁剪,以得到第一图像。
其中,第一人手检测框为带有人手部分的人手检测框,根据第一人手检测框,对原图像中的相应区域(人手部分)进行裁剪,可得到原图像的人手部分。
由于第一人手检测框中的人手部分可能与原图像中实际人手部分的位置有一定偏差,为了保证图像中的人手部分能被包括在人手检测框中,所述基于第一人手检测框,对原图像进行裁剪的步骤包括以下步骤:
基于预先设定的放大倍数对所述第一人手检测框进行放大,根据放大后的第一人手检测框对所述原图像进行裁剪。
作为一种可选的实施方式,预先设定的放大倍数可以为两倍,即将第一人手检测框放大两倍,根据放大两倍后的第一人手检测框对原图像进行裁剪,以得到第一图像。
可选地,为了提高工作效率,在本实施例中,请结合参阅图3,所述基于第一人手检测框,对原图像进行裁剪,以得到第一图像的步骤可以包括步骤S11至步骤S13。
步骤S11:根据所述第一人手检测框,对所述原图像进行裁剪,得到待检测图像。
步骤S12:对所述待检测图像进行肤色检测,得到所述待检测图像的人手概率图。
步骤S13:将所述待检测图像的人手概率图和所述待检测图像进行拼接,得到所述第一图像。
其中,对待检测图像进行肤色检测,即计算待检测图像中每个像素点属于人手的概率。
作为一种可选的实施方式,本实施例利用高斯混合模型对待检测图像进行肤色检测,其公式为:
其中,x代表待检测图像中像素的RGB颜色向量,N代表高斯混合模型中子高斯模型的数量,Wi代表x属于第i个高斯模型的概率,μi代表第i个高斯模型的均值,∑i代表第i个高斯模型的协方差矩阵,P(x)为x属于人手部分的概率。
利用上述公式对待检测图像中的每个像素计算后,即可得到待检测图像的人手概率图,然后将待检测图像的人手概率图和待检测图像进行拼接,即在三通道的待检测图像加上人手概率图形成四通道的第一图像,通过第一图像,可以为后续操作提供丰富的先验信息,提高处理效率,也提供了更多的特征,有利于对人手手势进行分类。
请返回结合参阅图2,在得到第一图像后,执行步骤S20。
步骤S20:对所述第一图像进行特征提取得到第一特征图。
其中,在获取得到第一图像后,通过卷积处理提取第一图像的特征,得到第一特征图,可选地,该过程可通过基础神经网络实现。
步骤S30:判断所述第一特征图中是否存在人手,若所述第一特征图中存在人手,对所述第一特征图进行分割,得到人手图像。
步骤S40:将所述第一特征图和所述人手图像进行检测框回归处理,得到第二人手检测框,以根据所述第二人手检测框,对下一帧图像进行跟踪。
在得到第一特征图后,利用人手判断分支判断第一特征图中是否存在人手,若存在人手,利用手势框回归分支中的分割网络对第一特征图中的人手进行分割,得到人手图像。
在得到人手图像后,利用手势框回归分支中的回归网络将第一特征图和人手图像进行检测框回归处理,得到带人手部分的第二人手检测框,将第二人手检测框作为下一帧图像的输入,利用第二人手检测框对下一帧图像进行裁剪,执行步骤S10至步骤S40相应的过程,从而实现下一帧图像人手的实时跟踪。
需要说明的是,由于手势框回归分支回归得到人手检测框是当前图像的手势框,与下一帧图像的人手部分的实际位置有一定的位置偏差,为了保证下一帧图像中的人手部分能被包括在人手检测框中,利用手势框回归分支回归得到人手检测框也会基于预先设定的放大倍数进行放大。本实施例所提供的手势跟踪方法,通过每次将人手检测框进行放大处理,将检测任务转化为一单尺度的检测任务,减小其难度,使得一较小的实时网络亦能完成该任务。
作为一种可选的实施方式,本实施例所提供的手势跟踪方法,在判断得到第一特征图中存在人手后,还可同时利用手势分类分支对人手的手势类别(例如拳头、手指、比心等手势类别)进行分类,进而将手势分类与手势跟踪合并处理,在对人手进行跟踪的同时,也对人手的手势类别进行分类,提高了工作效率。
本实施例所提供的手势跟踪方法,将跟踪任务与实时分类进行合并处理,在对手势类别进行分类的同时,对手势进行跟踪,大大提高了实时性,并且本实施例所提供的手势跟踪方法利用手势框回归处理实现手势的跟踪,进而将跟踪任务转化为一个单尺度的检测任务,减小了难度。
作为另一种可选的实施方式,若第一特征图中不存在人手,跟踪过程中断,则需要重新获取人手检测框寻找原图像中的人手部分,此过程由人手检测框获取部分重新获取人手检测框,其流程如图4所示,下面对图4所示的具体流程进行详细阐述。
步骤S50:若所述第一特征图中不存在人手,则对所述原图像进行特征提取得到第二特征图。
其中,若第一特征图中不存在人手,则通过卷积处理提取原图像的特征。可选地,该过程可通过基础神经网络实现。
为了能在更小的计算量下达到更高的精度,请结合参阅图5,在对所述原图像进行特征提取得到第二特征图之前,所述方法还包括步骤S51至步骤S52。
步骤S51:对所述原图像进行肤色检测,得到所述原图像的人手概率图。
步骤S52:将所述原图像的人手概率图与所述原图像进行拼接,得到拼接后的原图像,所述第二特征图通过对所述拼接后的原图像进行特征提取得到。
其中,为了减少获取人手检测框获取过程中的计算量以及提高人手检测框的精度,本实施例首先对原图像进行肤色检测,计算待检测图像中每个像素点属于人手的概率,得到原图像的人手概率图,进而获取得到手的肤色先验信息。
作为一种可选的实施方式,本实施例同样利用高斯混合模型对原图像进行肤色检测,其公式为:
其中,x代表原图像中像素的RGB颜色向量,N代表高斯混合模型中子高斯模型的数量,Wi代表x属于第i个高斯模型的概率,μi代表第i个高斯模型的均值,∑i代表第i个高斯模型的协方差矩阵,P(x)为x属于人手部分的概率。
利用上述公式对原图像中的每个像素计算后,即可得到原图像的人手概率图,然后将原图像的人手概率图和原图像进行拼接,得到拼接后的原图像,拼接后的原图像即为三通道的原图像加上人手概率图形成的四通道图像。在得到拼接后的原图像后,通过对拼接后的原图像提取特征,可以为后续网络的操作提供丰富的先验信息,进而提高人手检测框的精度,同时,减少了获取人手检测框获取过程中的计算量,提高了网络的处理效率。
请返回结合参阅图4,在得到第二特征图后,执行步骤S60。
步骤S60:将所述第二特征图输入至区域建议网络,得到第一检测框。
步骤S70:对所述第二特征图中所述第一检测框对应区域的特征进行裁剪,得到裁剪后的特征图。
步骤S80:根据所述裁剪后的特征图对所述第一检测框进行精修处理,得到第三人手检测框,以根据所述第三人手检测框,对下一帧图像进行跟踪。
其中,在得到拼接后的原图像,对拼接后的原图像进行特征提取得到第二特征图后,将第二特征图输入至区域建议网络,由区域建议网络对第二特征图进行人手部分的初步检测,得到第一检测框。
由于第一检测框较为粗糙,还需要对第一检测框精细化处理。因此,在得到第一检测框后,对第二特征图中第一检测框对应区域的特征进行裁剪,获得裁剪后的特征图,根据裁剪后的特征图对第一检测框进行精修处理,以得到第三人手检测框。
请结合参阅图6,在进一步的实施方式中,所述根据所述裁剪后的特征图对所述第一检测框进行精修处理,得到第三人手检测框的步骤包括步骤S81至步骤S82。
步骤S81:将所述裁剪后的特征图输入至分类回归网络,得到检测框精修参数。
步骤S82:根据所述检测框精修参数对所述第一检测框进行精修处理,得到第三人手检测框。
由于之前得到的第一检测框可能包含有除人手部分之外的其他部分,因此需要分类逻辑去进一步处理。将裁剪后的特征图输入至分类回归网络,利用分类回归网络对裁剪后的特征图进行分类处理,即对裁剪后的特征图的前景部分和背景部分进行分类,并基于分类处理的结果,对第一检测框中背景部分进行剔除,只输出带前景部分的第一检测框。其中,前景部分即为裁剪后的特征图中的人手部分,背景部分则为裁剪后的特征图中除人手部分之外的其他部分。
将裁剪后的特征图输入至分类回归网络,利用分类回归网络对裁剪后的特征图进行前景背景分类的同时,也可回归得到第一检测框在原有基础上的一个offset(偏置),即检测框精修参数,对第一检测框的精修处理,则需要在第一检测框原有基础上加上检测框精修参数,例如,第一检测框为(x,y,w,h),输入至分类回归网络处理后,分类回归网络输出的精修参数为(αx,αy,βw,βh),则最后得到精修后的检测框为(x+αxx,y+αyy,w·eβw,h·eβh)。
在得到检测框精修参数后,利用检测框精修参数对第一检测框进行精修处理,即可得到带有人手部分的第三人手检测框。在得到带有人手部分的第三人手检测框后,由第三人手检测框重新对原图像进行裁剪,重新寻找原图像中的人手部分,执行步骤S10至步骤S40相应的过程,从而实现图像人手的跟踪。
需要说明的是,由于精度要求,人手检测框获取部分得到第三人手检测框的过程可能并不能达到实时,因此,获取得到的第三人手检测框可能与原图像中实际的人手部分的位置有一定偏差,为了保证原图像中的人手部分能被包括在第三人手检测框中,所以第三人手检测框也会基于预先设定的放大倍数进行放大,基于放大后的第三人手检测框对原图像进行裁剪。
本实施例所提供的手势跟踪方法,将手势分类跟踪部分作为主线程实时运行,将人手检测框获取部分作为副线程运行,在判断得到第一特征图中存在人手后,由手势分类跟踪部分提供人手检测框实现实时跟踪,并同时对人手手势类别进行分类,在判断得到第一特征图中无人手后,由人手检测框获取部分提供人手检测框,重新寻找图像中的人手,以实现人手的跟踪,进而实现了多线程的执行。
本实施例所提供的手势跟踪方法通过多线程的执行以及将跟踪任务与实时分类网络的合并处理,一方面提高人手跟踪的实时性,另一方面,通过规避检测任务耗时的问题,提高了工作效率。
在上述基础上,请结合参阅图7,本发明实施例还提供一种手势跟踪装置10,应用于电子设备100,所述手势跟踪装置10包括分类跟踪模块11。所述分类跟踪模块11用于:
基于第一人手检测框,对原图像进行裁剪,以得到第一图像。
对所述第一图像进行特征提取得到第一特征图。
判断所述第一特征图中是否存在人手,若所述第一特征图中存在人手,对所述第一特征图进行分割,得到人手图像。
将所述第一特征图和所述人手图像进行检测框回归处理,得到第二人手检测框,以根据所述第二人手检测框,对下一帧图像进行跟踪。
所述手势跟踪装置10还包括手势检测模块12,所述手势检测模块12用于:
若所述第一特征图中不存在人手,则对所述原图像进行特征提取得到第二特征图。
将所述第二特征图输入至区域建议网络,得到第一检测框。
对所述第二特征图中所述第一检测框对应区域的特征进行裁剪,得到裁剪后的特征图。
根据所述裁剪后的特征图对所述第一检测框进行精修处理,得到第三人手检测框,以根据所述第三人手检测框,对下一帧图像进行跟踪。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的手势跟踪装置10的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
在上述基础上,本发明实施例还提供一种电子设备,包括处理器及存储有计算机指令的非易失性存储器,所述计算机指令被所述处理器执行时,所述电子设备执行前述实施方式中任意一项所述的手势跟踪方法。
在上述基础上,本发明实施例提供一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被执行时实现前述实施方式中任意一项所述的手势跟踪方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子设备和存储介质的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
综上,本发明实施例提供的手势跟踪方法、装置、电子设备和存储介质,基于第一人手检测框,对原图像进行裁剪,以得到第一图像,通过对第一图像进行特征提取得到第一特征图,判断第一特征图中是否存在人手,若第一特征图中存在人手,则对第一特征图中的人手进行手势分类,并对第一特征图进行分割,得到人手图像,将第一特征图和人手图像进行检测框回归处理,得到第二人手检测框,以第二人手检测框作为下一帧图像的输入,进而将跟踪任务转化为单尺度的检测问题并与分类处理进行合并,实现对下一帧图像的跟踪,实时性较好。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (7)
1.一种手势跟踪方法,其特征在于,应用于电子设备,所述手势跟踪方法包括:
基于第一人手检测框,对原图像进行裁剪,以得到第一图像;
对所述第一图像进行特征提取得到第一特征图;
判断所述第一特征图中是否存在人手,若所述第一特征图中存在人手,对所述第一特征图进行分割,得到人手图像;
将所述第一特征图和所述人手图像进行检测框回归处理,得到第二人手检测框,以根据所述第二人手检测框,对下一帧图像进行跟踪;
此外,所述方法还包括:
若所述第一特征图中不存在人手,则对所述原图像进行肤色检测,得到所述原图像的人手概率图,并将所述原图像的人手概率图与所述原图像进行拼接,得到拼接后的原图像,而后对所述拼接后的原图像进行特征提取得到第二特征图;
将所述第二特征图输入至区域建议网络,得到第一检测框;
对所述第二特征图中所述第一检测框对应区域的特征进行裁剪,得到裁剪后的特征图;
根据所述裁剪后的特征图对所述第一检测框进行精修处理,得到第三人手检测框,以根据所述第三人手检测框,对下一帧图像进行跟踪;
其中,所述对所述原图像进行肤色检测,得到所述原图像的人手概率图的步骤包括:
根据以下公式,对所述原图像进行肤色检测,得到所述原图像的人手概率图:
其中,x代表原图像中像素的RGB向量,N代表高斯混合模型中子高斯模型的数量,Wi代表x属于第i个高斯模型的概率,μi代表第i个高斯模型的均值,∑i代表第i个高斯模型的协方差矩阵;P(x)为x属于人手部分的概率。
2.根据权利要求1所述的手势跟踪方法,其特征在于,所述根据所述裁剪后的特征图对所述第一检测框进行精修处理,得到第三人手检测框的步骤包括:
将所述裁剪后的特征图输入至分类回归网络,得到检测框精修参数;
根据所述检测框精修参数对所述第一检测框进行精修处理,得到第三人手检测框。
3.根据权利要求1所述的手势跟踪方法,其特征在于,所述基于第一人手检测框,对原图像进行裁剪,以得到第一图像的步骤包括:
根据所述第一人手检测框,对所述原图像进行裁剪,得到待检测图像;
对所述待检测图像进行肤色检测,得到所述待检测图像的人手概率图;
将所述待检测图像的人手概率图和所述待检测图像进行拼接,得到所述第一图像。
4.根据权利要求1所述的手势跟踪方法,其特征在于,所述基于第一人手检测框,对原图像进行裁剪的步骤包括:
基于预先设定的放大倍数对所述第一人手检测框进行放大,根据放大后的第一人手检测框对所述原图像进行裁剪。
5.一种手势跟踪装置,其特征在于,应用于电子设备,所述手势跟踪装置包括分类跟踪模块;所述分类跟踪模块用于:
基于第一人手检测框,对原图像进行裁剪,以得到第一图像;
对所述第一图像进行特征提取得到第一特征图;
判断所述第一特征图中是否存在人手,若所述第一特征图中存在人手,对所述第一特征图进行分割,得到人手图像;
将所述第一特征图和所述人手图像进行检测框回归处理,得到第二人手检测框,以根据所述第二人手检测框,对下一帧图像进行跟踪;
此外,所述分类跟踪模块还用于:
若所述第一特征图中不存在人手,则对所述原图像进行肤色检测,得到所述原图像的人手概率图,并将所述原图像的人手概率图与所述原图像进行拼接,得到拼接后的原图像,而后对所述拼接后的原图像进行特征提取得到第二特征图;
将所述第二特征图输入至区域建议网络,得到第一检测框;
对所述第二特征图中所述第一检测框对应区域的特征进行裁剪,得到裁剪后的特征图;
根据所述裁剪后的特征图对所述第一检测框进行精修处理,得到第三人手检测框,以根据所述第三人手检测框,对下一帧图像进行跟踪;
其中,所述分类跟踪模块对所述原图像进行肤色检测,得到所述原图像的人手概率图的方式包括:
根据以下公式,对所述原图像进行肤色检测,得到所述原图像的人手概率图:
其中,x代表原图像中像素的RGB向量,N代表高斯混合模型中子高斯模型的数量,Wi代表x属于第i个高斯模型的概率,μi代表第i个高斯模型的均值,∑i代表第i个高斯模型的协方差矩阵;P(x)为x属于人手部分的概率。
6.一种电子设备,包括处理器及存储有计算机指令的非易失性存储器,所述计算机指令被所述处理器执行时,所述电子设备执行权利要求1-4中任意一项所述的手势跟踪方法。
7.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序被执行时实现权利要求1-4中任意一项所述的手势跟踪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010159687.9A CN111325179B (zh) | 2020-03-09 | 2020-03-09 | 手势跟踪方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010159687.9A CN111325179B (zh) | 2020-03-09 | 2020-03-09 | 手势跟踪方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111325179A CN111325179A (zh) | 2020-06-23 |
CN111325179B true CN111325179B (zh) | 2023-05-02 |
Family
ID=71171473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010159687.9A Active CN111325179B (zh) | 2020-03-09 | 2020-03-09 | 手势跟踪方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111325179B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723776A (zh) * | 2020-07-03 | 2020-09-29 | 厦门美图之家科技有限公司 | 人体外轮廓点检测方法、装置、电子设备和可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563350A (zh) * | 2017-09-21 | 2018-01-09 | 深圳市唯特视科技有限公司 | 一种基于尺度建议网络的人脸检测方法 |
CN108509839A (zh) * | 2018-02-02 | 2018-09-07 | 东华大学 | 一种基于区域卷积神经网络高效的手势检测识别方法 |
CN109598234A (zh) * | 2018-12-04 | 2019-04-09 | 深圳美图创新科技有限公司 | 关键点检测方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105223957B (zh) * | 2015-09-24 | 2018-10-02 | 北京零零无限科技有限公司 | 一种手势操控无人机的方法和装置 |
-
2020
- 2020-03-09 CN CN202010159687.9A patent/CN111325179B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563350A (zh) * | 2017-09-21 | 2018-01-09 | 深圳市唯特视科技有限公司 | 一种基于尺度建议网络的人脸检测方法 |
CN108509839A (zh) * | 2018-02-02 | 2018-09-07 | 东华大学 | 一种基于区域卷积神经网络高效的手势检测识别方法 |
CN109598234A (zh) * | 2018-12-04 | 2019-04-09 | 深圳美图创新科技有限公司 | 关键点检测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111325179A (zh) | 2020-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11256737B2 (en) | Image retrieval methods and apparatuses, devices, and readable storage media | |
US9367766B2 (en) | Text line detection in images | |
CN111191533B (zh) | 行人重识别的处理方法、装置、计算机设备和存储介质 | |
CN109919077B (zh) | 姿态识别方法、装置、介质和计算设备 | |
KR102459123B1 (ko) | 이미지를 처리하는 방법, 장치, 서버 및 저장 매체 | |
CN110503682B (zh) | 矩形控件识别方法、装置、终端及存储介质 | |
CN108986137B (zh) | 人体跟踪方法、装置及设备 | |
US20190332858A1 (en) | Method and device for identifying wrist, method for identifying gesture, electronic equipment and computer-readable storage medium | |
CN111340213B (zh) | 神经网络的训练方法、电子设备、存储介质 | |
CN111325179B (zh) | 手势跟踪方法、装置、电子设备和存储介质 | |
CN110232381B (zh) | 车牌分割方法、装置、计算机设备及计算机可读存储介质 | |
CN111382687A (zh) | 人脸检测方法及*** | |
CN113228105A (zh) | 一种图像处理方法、装置和电子设备 | |
CN113449538A (zh) | 视觉模型的训练方法、装置、设备及存储介质 | |
US20150139547A1 (en) | Feature calculation device and method and computer program product | |
CN111709377B (zh) | 特征提取方法、目标重识别方法、装置及电子设备 | |
CN114511862B (zh) | 表格识别方法、装置及电子设备 | |
Ghandour et al. | Building shadow detection based on multi-thresholding segmentation | |
Dantas et al. | A deterministic technique for identifying dicotyledons in images | |
CN112416128B (zh) | 一种手势识别方法及终端设备 | |
CN114187448A (zh) | 文档图像识别方法和装置、电子设备、计算机可读介质 | |
CN116012873B (zh) | 一种行人重识别方法、装置、电子设备及存储介质 | |
CN114529731B (zh) | 人脸特征点定位及属性分析方法、装置、存储介质及设备 | |
CN113591815B (zh) | 生成眼角识别模型的方法及识别眼部图像中眼角的方法 | |
CN114241534B (zh) | 一种全掌脉络数据的快速匹配方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |