CN112329508A - 手势识别方法、装置、设备及可读存储介质 - Google Patents

手势识别方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN112329508A
CN112329508A CN202010765515.6A CN202010765515A CN112329508A CN 112329508 A CN112329508 A CN 112329508A CN 202010765515 A CN202010765515 A CN 202010765515A CN 112329508 A CN112329508 A CN 112329508A
Authority
CN
China
Prior art keywords
gesture
human body
area
face
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010765515.6A
Other languages
English (en)
Inventor
包林玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen TCL New Technology Co Ltd
Original Assignee
Shenzhen TCL New Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen TCL New Technology Co Ltd filed Critical Shenzhen TCL New Technology Co Ltd
Priority to CN202010765515.6A priority Critical patent/CN112329508A/zh
Publication of CN112329508A publication Critical patent/CN112329508A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种手势识别方法、装置、设备及可读存储介质,所述手势识别方法通过获取待识别人体图像,并确定所述待识别人体图像中的面部区域;基于所述面部区域,确定所述待识别人体图像中的手势位置预测区域,以在所述手势位置预测区域中进行手势识别。通过先对当前待识别的人体图像进行面部图像区域的识别,而非进行人体检测,避免了因人体此时处于非站立状态,或是被其他物体遮挡时所导致的检测范围不稳定的情形;根据面部图像区域推测出手势可能出现的手势位置预测区域,缩小了对图像进行单次检测识别时的识别范围,大大减少了手势识别操作的计算量,避免了对多个识别对象同时进行识别时易造成的***卡死,同时也提高了识别准确率。

Description

手势识别方法、装置、设备及可读存储介质
技术领域
本发明涉及图像处理技术领域,尤其涉及一种手势识别方法、装置、设备及计算机可读存储介质。
背景技术
随着深度学习技术的发展,手势识别逐渐开始成为电视的新式功能,目前技术上常用的实现手势识别的方式为:先识别出图像中的手势关键点,再对关键点进行手势算法的判断。这一方式虽能够综合判断手势的动作以及方向,但***资源占用非常高(因为只要在图像中识别到手部信息,不管当前的手部信息是否意图发出手势控制,都要对其做关键点推理),特别是在多人同时存在的情况下,对人脸、肢体与手掌关键点同时进行识别容易造成***卡死。因此,上述种种情况均反映出现有的手势识别方式的资源消耗过多的技术问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种手势识别方法,旨在解决现有的手势识别方式的资源消耗过多的技术问题。
为实现上述目的,本发明提供一种手势识别方法,所述手势识别方法包括:
获取待识别人体图像,并确定所述待识别人体图像中的面部区域;
基于所述面部区域,确定所述待识别人体图像中的手势位置预测区域,以在所述手势位置预测区域中进行手势识别。
可选地,所述面部区域包括多人面部区域,所述手势位置预测区域包括多人手势区域,
所述基于所述面部区域,确定所述待识别人体图像中的手势位置预测区域,以在所述手势位置预测区域中进行手势识别的步骤包括:
获取用于定位所述多人面部区域在所述待识别人体图像中所在位置的第一定位数据集,并根据用于将面部范围扩展为手势范围的预设扩展参数与所述第一定位数据集,得到用于定位所述多人手势区域在所述待识别人体图像中所在位置的第二定位数据集,以将所述多人面部区域按照预设方向扩展为所述多人手势区域。
可选地,所述多人面部区域包括多个第一矩形区域,所述多人手势区域包括多个范围在人体的头顶高度到手肘关节高度之间的第二矩形区域,所述预设扩展参数包括人脸宽度倍数与人脸高度倍数,所述预设方向包括水平方向与头部指向躯干的竖直方向,
所述获取用于定位所述多人面部区域在所述待识别人体图像中所在位置的第一定位数据集,并根据用于将面部范围扩展为手势范围的预设扩展参数与所述第一定位数据集,得到用于定位所述多人手势区域在所述待识别人体图像中所在位置的第二定位数据集,以将所述多人面部区域按照预设方向扩展为所述多人手势区域的步骤包括:
获取多个所述第一矩形区域的第一顶点坐标数据集以作为所述第一定位数据集;
根据所述人脸宽度倍数、人脸高度倍数与所述第一顶点坐标数据集,得到用于定位多个所述第二矩形区域的第二顶点坐标数据集,并将所述第二顶点坐标数据集作为所述第二定位数据集,以将所述多人面部区域分别按照水平方向与头部指向躯干的竖直方向扩展为所述多人手势区域。
可选地,所述根据所述人脸宽度倍数、人脸高度倍数与所述第一顶点坐标数据集,得到用于定位多个所述第二矩形区域的第二顶点坐标数据集的步骤包括:
使用所述人脸宽度倍数与人脸高度倍数分别扩展所述第一顶点坐标数据集中的X轴坐标数据与Y轴坐标数据,以将扩展后的X轴坐标数据与Y轴坐标数据作为所述第二顶点坐标数据集。
可选地,所述根据所述人脸宽度倍数、人脸高度倍数与所述第一顶点坐标数据集,得到用于定位多个所述第二矩形区域的第二顶点坐标数据集,并将所述第二顶点坐标数据集作为所述第二定位数据集,以将所述多人面部区域分别按照水平方向与头部指向躯干的竖直方向扩展为所述多人手势区域的步骤之后,还包括:
根据所述第二定位数据集,判断多个所述第二矩形区域之间是否存在重叠;
若存在重叠,则确定多个所述第二矩形区域中的重叠范围,以及包含所述重叠范围的多个重叠矩形区域;
从多个所述重叠矩形区域中选出与所述重叠范围距离最近的目标矩形区域,并从多个所述重叠矩形区域中去除所述目标矩形区域,以得到剩余的其他矩形区域;
将所述重叠范围从所述其他矩形区域中去除,并对应更改所述第二顶点坐标数据集,以将所述重叠范围划归至所述目标矩形区域内。
可选地,所述获取待识别人体图像,并确定所述待识别人体图像中的面部区域的步骤包括:
基于预设AI摄像头获取所述待识别人体图像,并使用预设人脸识别算法对所述待识别人体图像进行识别,以确定出所述待识别人体图像中的面部区域。
可选地,所述基于所述面部区域,确定所述待识别人体图像中的手势位置预测区域,以在所述手势位置预测区域中进行手势识别的步骤之后,还包括:
使用预设手部关键点识别算法识别出所述手势位置预测区域中的手势含义,并根据所述手势含义生成相应的终端控制指令,以基于所述终端控制指令控制终端执行相应操作。
此外,为实现上述目的,本发明还提供一种手势识别装置,所述手势识别装置包括:
面部区域确定模块,用于获取待识别人体图像,并确定所述待识别人体图像中的面部区域;
手势区域识别模块,用于基于所述面部区域,确定所述待识别人体图像中的手势位置预测区域,以在所述手势位置预测区域中进行手势识别。
可选地,所述面部区域包括多人面部区域,所述手势位置预测区域包括多人手势区域,
所述手势区域识别模块包括:
定位数据获取单元,用于获取用于定位所述多人面部区域在所述待识别人体图像中所在位置的第一定位数据集,并根据用于将面部范围扩展为手势范围的预设扩展参数与所述第一定位数据集,得到用于定位所述多人手势区域在所述待识别人体图像中所在位置的第二定位数据集,以将所述多人面部区域按照预设方向扩展为所述多人手势区域。
可选地,所述多人面部区域包括多个第一矩形区域,所述多人手势区域包括多个范围在人体的头顶高度到手肘关节高度之间的第二矩形区域,所述预设扩展参数包括人脸宽度倍数与人脸高度倍数,
所述定位数据获取单元还用于:
获取多个所述第一矩形区域的第一顶点坐标数据集以作为所述第一定位数据集;
根据所述人脸宽度倍数、人脸高度倍数与所述第一顶点坐标数据集,得到用于定位多个所述第二矩形区域的第二顶点坐标数据集,并将所述第二顶点坐标数据集作为所述第二定位数据集,以将所述多人面部区域分别按照水平方向与头部指向躯干的竖直方向扩展为所述多人手势区域。
可选地,所述定位数据获取单元还用于:
使用所述人脸宽度倍数与人脸高度倍数分别扩展所述第一顶点坐标数据集中的X轴坐标数据与Y轴坐标数据,以将扩展后的X轴坐标数据与Y轴坐标数据作为所述第二顶点坐标数据集。
可选地,所述坐标数据获取单元还用于:
根据所述第二定位数据集,判断多个所述第二矩形区域之间是否存在重叠;
若存在重叠,则确定多个所述第二矩形区域中的重叠范围,以及包含所述重叠范围的多个重叠矩形区域;
从多个所述重叠矩形区域中选出与所述重叠范围距离最近的目标矩形区域,并从多个所述重叠矩形区域中去除所述目标矩形区域,以得到剩余的其他矩形区域;
将所述重叠范围从所述其他矩形区域中去除,并对应更改所述第二顶点坐标数据集,以将所述重叠范围划归至所述目标矩形区域内。
可选地,所述面部区域确定模块包括:
人脸检测单元,用于基于预设AI摄像头获取所述待识别人体图像,并使用预设人脸识别算法对所述待识别人体图像进行识别,以确定出所述待识别人体图像中的面部区域。
可选地,所述手势识别装置还包括:
指令生成模块,用于使用预设手部关键点识别算法识别出所述手势位置预测区域中的手势含义,并根据所述手势含义生成相应的终端控制指令,以基于所述终端控制指令控制终端执行相应操作。
此外,为实现上述目的,本发明还提供一种手势识别设备,所述手势识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的手势识别程序,所述手势识别程序被所述处理器执行时实现如上述的手势识别方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有手势识别程序,所述手势识别程序被处理器执行时实现如上述的手势识别方法的步骤。
本发明提供一种手势识别方法、装置、设备及计算机可读存储介质。所述手势识别方法通过获取待识别人体图像,并确定所述待识别人体图像中的面部区域;基于所述面部区域,确定所述待识别人体图像中的手势位置预测区域,以在所述手势位置预测区域中进行手势识别。通过上述方式,本发明通过先对当前待识别的人体图像进行面部图像区域的识别,而非进行人体检测,避免了因人体此时处于非站立状态,或是被其他物体遮挡时所导致的检测范围不稳定的情形;根据面部图像区域推测出手势可能出现的手势位置预测区域,缩小了对图像进行单次检测识别时的识别范围,大大减少了手势识别操作的计算量,避免了对多个识别对象同时进行识别时易造成的***卡死,以及高误识别率,从而解决了现有的手势识别方式的资源消耗过多的技术问题。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的手势识别设备结构示意图;
图2为本发明手势识别方法第一实施例的流程示意图;
图3为本发明手势识别方法一具体实施例中人脸识别区域示意图;
图4为本发明手势识别方法一具体实施例中手势识别区域示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的手势识别设备结构示意图。
本发明实施例手势识别设备为带取像设备的终端,优选为智能电视。
如图1所示,该手势识别设备可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。可选的用户接口1003可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory)。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
本领域技术人员可以理解,图1中示出的手势识别设备结构并不构成对手势识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及手势识别程序。
在图1所示的手势识别设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的手势识别程序,并执行以下操作:
获取待识别人体图像,并确定所述待识别人体图像中的面部区域;
基于所述面部区域,确定所述待识别人体图像中的手势位置预测区域,以在所述手势位置预测区域中进行手势识别。
进一步地,所述面部区域包括多人面部区域,所述手势位置预测区域包括多人手势区域,
所述基于所述面部区域,确定所述待识别人体图像中的手势位置预测区域,以在所述手势位置预测区域中进行手势识别的步骤包括:
获取用于定位所述多人面部区域在所述待识别人体图像中所在位置的第一定位数据集,并根据用于将面部范围扩展为手势范围的预设扩展参数与所述第一定位数据集,得到用于定位所述多人手势区域在所述待识别人体图像中所在位置的第二定位数据集,以将所述多人面部区域按照预设方向扩展为所述多人手势区域。
进一步地,所述多人面部区域包括多个第一矩形区域,所述多人手势区域包括多个范围在人体的头顶高度到手肘关节高度之间的第二矩形区域,所述预设扩展参数包括人脸宽度倍数与人脸高度倍数,所述预设方向包括水平方向与头部指向躯干的竖直方向,
所述获取用于定位所述多人面部区域在所述待识别人体图像中所在位置的第一定位数据集,并根据用于将面部范围扩展为手势范围的预设扩展参数与所述第一定位数据集,得到用于定位所述多人手势区域在所述待识别人体图像中所在位置的第二定位数据集,以将所述多人面部区域按照预设方向扩展为所述多人手势区域的步骤包括:
获取多个所述第一矩形区域的第一顶点坐标数据集以作为所述第一定位数据集;
根据所述人脸宽度倍数、人脸高度倍数与所述第一顶点坐标数据集,得到用于定位多个所述第二矩形区域的第二顶点坐标数据集,并将所述第二顶点坐标数据集作为所述第二定位数据集,以将所述多人面部区域分别按照水平方向与头部指向躯干的竖直方向扩展为所述多人手势区域。
进一步地,所述根据所述人脸宽度倍数、人脸高度倍数与所述第一顶点坐标数据集,得到用于定位多个所述第二矩形区域的第二顶点坐标数据集,并将所述第二顶点坐标数据集作为所述第二定位数据集的步骤包括:
使用所述人脸宽度倍数与人脸高度倍数分别扩展所述第一顶点坐标数据集中的X轴坐标数据与Y轴坐标数据,以将扩展后的X轴坐标数据与Y轴坐标数据作为所述第二顶点坐标数据集。
进一步地,所述根据所述人脸宽度倍数、人脸高度倍数与所述第一顶点坐标数据集,得到用于定位多个所述第二矩形区域的第二顶点坐标数据集,并将所述第二顶点坐标数据集作为所述第二定位数据集,以将所述多人面部区域分别按照水平方向与头部指向躯干的竖直方向扩展为所述多人手势区域的步骤之后,处理器1001还可以用于调用存储器1005中存储的手势识别程序,并执行以下操作:
根据所述第二定位数据集,判断多个所述第二矩形区域之间是否存在重叠;
若存在重叠,则确定多个所述第二矩形区域中的重叠范围,以及包含所述重叠范围的多个重叠矩形区域;
从多个所述重叠矩形区域中选出与所述重叠范围距离最近的目标矩形区域,并从多个所述重叠矩形区域中去除所述目标矩形区域,以得到剩余的其他矩形区域;
将所述重叠范围从所述其他矩形区域中去除,并对应更改所述第二顶点坐标数据集,以将所述重叠范围划归至所述目标矩形区域内。
进一步地,所述获取待识别人体图像,并确定所述待识别人体图像中的面部区域的步骤包括:
基于预设AI摄像头获取所述待识别人体图像,并使用预设人脸识别算法对所述待识别人体图像进行识别,以确定出所述待识别人体图像中的面部区域。
进一步地,所述基于所述面部区域,确定所述待识别人体图像中的手势位置预测区域,以在所述手势位置预测区域中进行手势识别的步骤之后,处理器1001还可以用于调用存储器1005中存储的手势识别程序,并执行以下操作:
使用预设手部关键点识别算法识别出所述手势位置预测区域中的手势含义,并根据所述手势含义生成相应的终端控制指令,以基于所述终端控制指令控制终端执行相应操作。
基于上述硬件结构,提出本发明手势识别方法的各个实施例。
随着深度学习技术的发展,手势识别逐渐开始成为电视的新式功能,目前技术上常用的实现手势识别的方式为:先识别出图像中的手势关键点,再对关键点进行手势算法的判断。这一方式虽能够综合判断手势的动作以及方向,但***资源占用非常高(因为只要在图像中识别到手部信息,不管当前的手部信息是否意图发出手势控制,都要对其做关键点推理),特别是在多人同时存在的情况下,对人脸、肢体与手掌关键点同时进行识别容易造成***卡死。因此,上述种种情况均反映出现有的手势识别方式的资源消耗过多的技术问题。
为解决上述技术问题,本发明提供一种手势识别方法,即先对当前待识别的人体图像进行面部图像区域的识别,而非进行人体检测,避免了因人体此时处于非站立状态,或是被其他物体遮挡时所导致的检测范围不稳定的情形;根据面部图像区域推测出手势可能出现的手势位置预测区域,缩小了对图像进行单次检测识别时的识别范围,大大减少了手势识别操作的计算量,避免了对多个识别对象同时进行识别时易造成的***卡死,以及高误识别率,从而解决了现有的手势识别方式的资源消耗过多的技术问题。所述手势识别方法应用于带取像设备的终端。
参照图2,图2为手势识别方法第一实施例的流程示意图。
本发明第一实施例提供一种手势识别方法,所述手势识别方法包括以下步骤:
步骤S10,获取待识别人体图像,并确定所述待识别人体图像中的面部区域;
待识别人体图像为带取像设备的终端基于取像设备所获取到的当前人体处于取像范围时的人体图像,图像中可能包括部分人体或全部人体,待识别人体图像可能是二维图像,也可能是三维图像,且本实施例对待识别人体图像的图像个数也不做限定。取像设备可为静态图像获取设备或视频图像获取设备,优选为摄像头。带取像设备的终端可为智能电视、电脑等。
面部区域指的是待识别人体图像中人体的面部所在的部分区域,且本实施例对面部区域的区域个数不做限定。面部区域的确定方式通常为使用用于检测人体面部的算法对图像中人体面部所在区域进行定位。面部区域可为矩形、扇形等形状,本实施例对面部局域的形状大小不做限定。
在本实施例中,以带摄像头的智能电视为例,当用户处于摄像头的摄像范围内,且作出手势来控制电视进行相应操作时,摄像头对用户当前的人体图像进行实时采集,智能电视获取到包含有用户当前手势内容的待识别人体图像,可使用用于面部检测的算法对当前的待识别人体图像进行检测,定位出待识别人体图像中人体面部所在的区域,也即是上述面部区域。
步骤S20,基于所述面部区域,确定所述待识别人体图像中的手势位置预测区域,以在所述手势位置预测区域中进行手势识别。
某一张待识别人体图像中的手势位置预测区域,指的是根据日常生活经验与这张待识别人体图像中面部区域所在实际位置共同推测出的,用户此时作出的手势存在于图像中的位置范围,形状可设置为矩形,扇形等,本实施例对此不做限定。例如,根据日常生活经验,用户作出手势的习惯一般是将手放到头部到胸部之间的区域,故可根据用户的面部在图像中的实际位置,进而推测用户的头部到胸部之间的区域在图像中的实际位置,以此作为上述手势位置预测区域。
手势识别的方式可为动态手势识别,也可为静态手势识别,具体所使用的识别技术可为手势分割技术、手部关键点识别技术、边缘轮廓提取技术、多特征结合技术等。
在本实施例中,以带摄像头的智能电视为例,智能电视在确定出当前待识别人体图像中用户的面部所在的面部区域后,将面部区域左右以及向下扩展,推测出图像中用户的头部到胸部范围所在的区域,作为上述手势位置预测区域,并对这一区域中的图像部分进行手势识别,以识别出用户当前所作出的手势含义,并作出与该手势含义对应响应操作。
另外,带取像设备的终端还可根据获取到的一定数量的图像识别结果,分析出对应用户的手势习惯,并根据用户的手势习惯不断修正手势位置预测范围的形状,以减小手势预测范围中的无效识别区域,进一步减小手势识别过程中的***资源消耗。
在本实施例中,通过获取待识别人体图像,并确定所述待识别人体图像中的面部区域;基于所述面部区域,确定所述待识别人体图像中的手势位置预测区域,以在所述手势位置预测区域中进行手势识别。通过上述方式,本发明通过先对当前待识别的人体图像进行面部图像区域的识别,而非进行人体检测,避免了因人体此时处于非站立状态,或是被其他物体遮挡时所导致的检测范围不稳定的情形;通过根据面部图像区域推测出手势可能出现的手势位置预测区域,缩小了对图像进行单次检测识别时的识别范围,大大减少了手势识别操作的计算量,避免了对多个识别对象同时进行识别时易造成的***卡死,以及高误识别率,从而解决了现有的手势识别方式的资源消耗过多的技术问题。
进一步地,基于上述图2所示的第一实施例,提出本发明手势识别方法的第二实施例,在本实施例中,所述面部区域包括多人面部区域,所述手势位置预测区域包括多人手势区域,步骤S20包括:
获取用于定位所述多人面部区域在所述待识别人体图像中所在位置的第一定位数据集,并根据用于将面部范围扩展为手势范围的预设扩展参数与所述第一定位数据集,得到用于定位所述多人手势区域在所述待识别人体图像中所在位置的第二定位数据集,以将所述多人面部区域按照预设方向扩展为所述多人手势区域。
在本实施例中,将上述面部区域限定为多人面部区域,也即是当前需对多张存在单个人体,或是一张或多张每张图像内容中包含多个人体的待识别人体图像进行手势识别。且多人面部区域中的各个面部区域可为矩形、扇形等形状,本实施例对面部局域的形状大小不做限定。
同时,对应将上述手势位置预测区域限定为多人手势区域。多人手势区域则为在图像中根据多个人体的面部所在的实际位置所推测出的,对应多个手势在图像中可能出现的位置范围。
第一定位数据集为上述多人面部区域在待识别人体图像中所在的实际位置所对应的定位数据的集合。其中,多人面部区域的实际位置所对应定位数据可取区域边界中部分边界点的定位数据。
预设扩展参数为预先根据科学实验计算出的,用于将面部区域的范围扩展为手势位置预测区域的范围的参数。
第二定位数据集为上述多人手势区域在待识别人体图像中所在的实际位置所对应的定位数据的集合。其中,多人手势区域的实际位置所对应定位数据同样可取区域边界中部分边界点的定位数据。
预设方向可为竖直方向、水平方向、扇形扩展方向等。
以智能电视为例,若待识别人体图像为包含有四个人体的一张图像,智能电视获取到四人面部区域所对应的包含四组坐标数据的第一定位数据集,根据预设扩展参数与包含四组数据的第一定位数据集,计算得出四人手势区域所对应的四组坐标数据的第二定位数据集,第二定位数据集所定位到的四人手势区域从直观上来看即为由各自的面部区域沿预设方向,例如竖直与水平方向扩展而成。
进一步地,在本实施例中,所述多人面部区域包括多个第一矩形区域,所述多人手势区域包括多个范围在人体的头顶高度到手肘关节高度之间的第二矩形区域,所述预设扩展参数包括人脸宽度倍数与人脸高度倍数,所述预设方向包括水平方向与头部指向躯干的竖直方向,
所述获取用于定位所述多人面部区域在所述待识别人体图像中所在位置的第一定位数据集,并根据用于将面部范围扩展为手势范围的预设扩展参数与所述第一定位数据集,得到用于定位所述多人手势区域在所述待识别人体图像中所在位置的第二定位数据集,以将所述多人面部区域按照预设方向扩展为所述多人手势区域的步骤包括:
获取多个所述第一矩形区域的第一顶点坐标数据集以作为所述第一定位数据集;
根据所述人脸宽度倍数、人脸高度倍数与所述第一顶点坐标数据集,得到用于定位多个所述第二矩形区域的第二顶点坐标数据集,并将所述第二顶点坐标数据集作为所述第二定位数据集,以将所述多人面部区域分别按照水平方向与头部指向躯干的竖直方向扩展为所述多人手势区域。
在本实施例中,进一步将多人面部区域的形状限定为矩形,以便后续计算。将每个人的面部区域作为一个第一矩形区域,上述多人面部区域即包括了多个第一矩形区域。同理,上述多人手势区域即包括多个第二矩形区域。需要说明的是,第二矩形区域所预计框定的范围在人体的头顶高度到手肘关节高度之间之间,以符合用户的行为习惯。
第一顶点坐标数据集为多个第一矩形区域的顶点在图像中的坐标数据的集合。第二顶点坐标数据集为多个第二矩形区域的顶点在图像中的坐标数据的集合。
人脸宽度倍数为预先根据科学实验计算出的用于将面部区域扩展为手势位置预测区域所需的扩展宽度倍数。人脸高度倍数为预先根据科学实验计算出的用于将面部区域扩展为手势位置预测区域所需的扩展高度倍数。
竖直方向为,从人体的头部指向躯干部的直线方向,通常情况下,人体在平地上直立或端坐时,竖直方向即为重力方向;水平方向为,与上述竖直方向呈垂直位置关系的方向,例如,上述竖直方向为重力方向,则此时的水平方向即为水平面方向。
终端可根据预设的人脸宽度倍数将多人面部区域按照水平方向进行扩展,并根据预设的人脸高度倍数在将多人面部区域按照头部指向躯干的竖直方向进行扩展,以形成多人手势区域。
进一步地,所述根据所述人脸宽度倍数、人脸高度倍数与所述第一顶点坐标数据集,得到用于定位多个所述第二矩形区域的第二顶点坐标数据集的步骤包括:
使用所述人脸宽度倍数与人脸高度倍数分别扩展所述第一顶点坐标数据集中的X轴坐标数据与Y轴坐标数据,以将扩展后的X轴坐标数据与Y轴坐标数据作为所述第二顶点坐标数据集。
作为一具体实施例,如图3、4所示。图3中展示了进行面部区域检测后的一图像帧。该图像帧中的A、A1、A2、A3与A4所指代的五个矩形框表示五张不同人脸。人脸A的矩形框旁的字母h表示该矩形框的高度,字母w表示该矩形框的宽度。坐标数据(x,y)表示该矩形框左上顶点在图像帧中的实际位置,坐标数据(x1,y1)表示该矩形框右下顶点在图像帧中的实际位置,坐标数据(x’,y’)表示该矩形框中心点在图像帧中的实际位置。且在(x,y)与(x1,y1)已知的情况下,(x’,y’)与h、w的值可根据预设公式求出,具体为:
x'=x+(x1-x)/2;
y'=y+(y1-y)/2;
h=y1-y;
w=x1-x。
图4中展示了根据图3中五个人脸矩形框所推测出的五个对应的手势范围矩形框。图3中的A’、A1’、A2’、A3’与A4’所指代的五个矩形框表示五个手势范围矩形框。坐标数据(x”,y”)表示手势范围A’的矩形框左上顶点在图像帧中的实际位置,坐标数据(x1”,y1”)表示手势范围A’的矩形框右下顶点在图像帧中的实际位置。在已知(x’,y’)并结合预设的人脸宽度倍数f与人脸高度倍数g,(x”,y”)与(x1”,y1”)的值可根据预设公式求得,具体为:
x”=(x'-(w*f+w/2))<0?0:(x'-(w*f+w/2));
y”=y'-h/2;
x1”=(x'+(w*f+w/2))>720?720:(x'+(w*f+w/2));
y1”=(y'+h/2+h*g)>480?480:(y'+h/2+h*g)。
其中,x”的求解公式含义为:若(x'-(w*f+w/2))为真,则x”取0;若(x'-(w*f+w/2))为假,则x”取(x'-(w*f+w/2))。
x1”的求解公式含义为:若(x'+(w*f+w/2))为真,则x1”取720;若(x'+(w*f+w/2))为假,则x1”取(x'+(w*f+w/2))。
y1”的求解公式含义为:若(y'+h/2+h*g)为真,则y1”取480;若(y'+h/2+h*g)为假,则y1”取(y'+h/2+h*g)。
在求出(x”,y”)与(x1”,y1”)的值之后,即可确定出各个手势范围在图像帧中的实际位置。
进一步地,在本实施例中,所述根据所述人脸宽度倍数、人脸高度倍数与所述第一顶点坐标数据集,得到用于定位多个所述第二矩形区域的第二顶点坐标数据集,并将所述第二顶点坐标数据集作为所述第二定位数据集,以将所述多人面部区域分别按照水平方向与头部指向躯干的竖直方向扩展为所述多人手势区域的步骤之后,还包括:
根据所述第二定位数据集,判断多个所述第二矩形区域之间是否存在重叠;
若存在重叠,则确定多个所述第二矩形区域中的重叠范围,以及包含所述重叠范围的多个重叠矩形区域;
从多个所述重叠矩形区域中选出与所述重叠范围距离最近的目标矩形区域,并从多个所述重叠矩形区域中去除所述目标矩形区域,以得到剩余的其他矩形区域;
将所述重叠范围从所述其他矩形区域中去除,并对应更改所述第二顶点坐标数据集,以将所述重叠范围划归至所述目标矩形区域内。
重叠范围为在多个第二矩形区域存在重叠时重叠部分的范围。重叠矩形区域包含有上述重叠范围,也即是存在重叠情况的第二矩形区域,个数为两个或两个以上。目标矩形区域为上述重叠矩形区域中与重叠范围距离最近的一第二矩形区域。其他矩形区域为上述重叠矩形区域中除去目标矩形区域外的矩形区域。
具体确定目标矩形区域的方式可为获取各个重叠矩形区域的中心点到重叠范围的中心点的距离,取最小距离所对应的重叠矩形区域作为目标矩形区域;或是获取重叠范围的面积占各个重叠矩形区域面积的百分比,取最大百分比所对应的重叠矩形区域作为目标矩形区域等。
在本实施例中,以智能电视为例,若智能电视当前获取到包含五组坐标数据的第二坐标数据集,则判断这五组坐标数据所对应的矩形范围是否存在重叠。若智能电视判定这五组坐标数据所对应的矩形范围不存在重叠,则直接对第二矩形区域进行后续的手势识别操作;若智能电视判定这五组坐标数据所对应的矩形范围存在重叠,则确定出重叠范围在图像中的实际位置。若智能电视确定这五个第二矩形区域中有两个第二矩形区域存在重叠,则可将这两第二矩形区域作为重叠矩形区域,再冲这两个重叠矩形区域中选出一距离重叠范围最近的矩形区域作为目标矩形区域,例如计算中心点间的距离,重复范围面积占比等。选出目标矩形区域后,将重叠范围从重叠矩形区域中的非目标矩形区域中去除,也即是减小非目标矩形区域的范围,并对应更改第二坐标顶点数据集中非目标矩形区域所对应的顶点坐标数据,以将重叠范围仅划归至目标矩形区域内。
在本实施例中,进一步通过多人面部区域的第一定位数据集与预设扩展参数对多人面部区域进案子预设方向进行扩展,得到多人手势区域的第二定位数据集,使得终端能够在多人场景时依然能够根据图像中的人体面部位置推测出手势出现的区域,提高了终端在多人同时存在的情况下的手势识别效率;通过将多人手势区域限定在人体的头部到胸部之间,并根据第一矩形区域的第一顶点坐标数据集确定出第二矩形区域的第二顶点坐标数据集,进一步简化了确定多人手势区域的计算复杂度,减小了该过程所需的***资源消耗,从而提升了多人手势区域的定位效率。
进一步地,基于上述图2所示的第一实施例,提出本发明手势识别方法的第三实施例。在本实施例中,步骤S10包括:
基于预设AI摄像头获取所述待识别人体图像,并使用预设人脸识别算法对所述待识别人体图像进行识别,以确定出所述待识别人体图像中的面部区域。
预设人脸识别算法可为基于人脸特征点的识别算法、基于整幅人脸图像的识别算法、基于模板的识别算法与利用神经网络进行识别的算法等。具体的人脸识别过程为本领域现有技术,在此不做赘述。
在本实施例中,将取像设备限定为AI摄像头,以智能电视为例,智能电视利用AI摄像头获取用户当前作出手势的待识别人体图像,使用预设的人脸识别算法对待识别人体图像进行处理,得到图像中用户的面部所在的区域范围。另外,在使用预设人脸识别算法对所述待识别人体图像进行识别,以确定出所述待识别人体图像中的面部区域的步骤之前,还可先对图像进行降噪处理。具体可采用的方式可为使用滤波器降噪、使用形态学噪声滤除器降噪与小波去噪等。
进一步地,在本实施例中,步骤S20之后,还包括:
使用预设手部关键点识别算法识别出所述手势位置预测区域中的手势含义,并根据所述手势含义生成相应的终端控制指令,以基于所述终端控制指令控制终端执行相应操作。
在本实施例中,以智能电视为例,智能电视在确定出待识别人体图像中手势位置预测区域的位置后,根据预设的手部关键点识别算法识别出手势位置预测区域中用户手部图像部分中的关键点,再根据关键点所表示的手势含义,生成相应的智能电视控制指令。智能电视即可相应该指令做出相应操作,例如向左挥手手势对应屏幕内容向左翻页,向右挥手手势对应屏幕内容向右翻页等。
在本实施例中,进一步通过AI摄像头获取待识别人体图像,使得所获取到的待识别人体图像更加便于图像识别;通过识别手势位置预测区域中的手势含义,并生成相应指令,结合前述步骤,使得终端能够快速识别并响应用户当前所作出的手势控制,提升了终端手势控制功能的实现效率,同时用户也能更为流畅地对终端进行手势控制,从而提升了用户体验。
本发明还提供一种手势识别装置。
面部区域确定模块,用于获取待识别人体图像,并确定所述待识别人体图像中的面部区域;
手势区域识别模块,用于基于所述面部区域,确定所述待识别人体图像中的手势位置预测区域,以在所述手势位置预测区域中进行手势识别。
本发明还提供一种手势识别设备。
所述手势识别设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的手势识别程序,其中所述手势识别程序被所述处理器执行时,实现如上所述的手势识别方法的步骤。
其中,所述手势识别程序被执行时所实现的方法可参照本发明手势识别方法的各个实施例,此处不再赘述。
本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有手势识别程序,所述手势识别程序被处理器执行时实现如上所述的手势识别方法的步骤。
其中,所述手势识别程序被执行时所实现的方法可参照本发明手势识别方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台手势识别设备执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种手势识别方法,其特征在于,所述手势识别方法包括:
获取待识别人体图像,并确定所述待识别人体图像中的面部区域;
基于所述面部区域,确定所述待识别人体图像中的手势位置预测区域,以在所述手势位置预测区域中进行手势识别。
2.如权利要求1所述的手势识别方法,其特征在于,所述面部区域包括多人面部区域,所述手势位置预测区域包括多人手势区域,
所述基于所述面部区域,确定所述待识别人体图像中的手势位置预测区域,以在所述手势位置预测区域中进行手势识别的步骤包括:
获取用于定位所述多人面部区域在所述待识别人体图像中所在位置的第一定位数据集,并根据用于将面部范围扩展为手势范围的预设扩展参数与所述第一定位数据集,得到用于定位所述多人手势区域在所述待识别人体图像中所在位置的第二定位数据集,以将所述多人面部区域按照预设方向扩展为所述多人手势区域。
3.如权利要求2所述的手势识别方法,其特征在于,所述多人面部区域包括多个第一矩形区域,所述多人手势区域包括多个范围在人体的头顶高度到手肘关节高度之间的第二矩形区域,所述预设扩展参数包括人脸宽度倍数与人脸高度倍数,所述预设方向包括水平方向与头部指向躯干的竖直方向,
所述获取用于定位所述多人面部区域在所述待识别人体图像中所在位置的第一定位数据集,并根据用于将面部范围扩展为手势范围的预设扩展参数与所述第一定位数据集,得到用于定位所述多人手势区域在所述待识别人体图像中所在位置的第二定位数据集,以将所述多人面部区域按照预设方向扩展为所述多人手势区域的步骤包括:
获取多个所述第一矩形区域的第一顶点坐标数据集以作为所述第一定位数据集;
根据所述人脸宽度倍数、人脸高度倍数与所述第一顶点坐标数据集,得到用于定位多个所述第二矩形区域的第二顶点坐标数据集,并将所述第二顶点坐标数据集作为所述第二定位数据集,以将所述多人面部区域分别按照水平方向与头部指向躯干的竖直方向扩展为所述多人手势区域。
4.如权利要求3所述的手势识别方法,其特征在于,所述根据所述人脸宽度倍数、人脸高度倍数与所述第一顶点坐标数据集,得到用于定位多个所述第二矩形区域的第二顶点坐标数据集的步骤包括:
使用所述人脸宽度倍数与人脸高度倍数分别扩展所述第一顶点坐标数据集中的X轴坐标数据与Y轴坐标数据,以将扩展后的X轴坐标数据与Y轴坐标数据作为所述第二顶点坐标数据集。
5.如权利要求3所述的手势识别方法,其特征在于,所述根据所述人脸宽度倍数、人脸高度倍数与所述第一顶点坐标数据集,得到用于定位多个所述第二矩形区域的第二顶点坐标数据集,并将所述第二顶点坐标数据集作为所述第二定位数据集,以将所述多人面部区域分别按照水平方向与头部指向躯干的竖直方向扩展为所述多人手势区域的步骤之后,还包括:
根据所述第二定位数据集,判断多个所述第二矩形区域之间是否存在重叠;
若存在重叠,则确定多个所述第二矩形区域中的重叠范围,以及包含所述重叠范围的多个重叠矩形区域;
从多个所述重叠矩形区域中选出与所述重叠范围距离最近的目标矩形区域,并从多个所述重叠矩形区域中去除所述目标矩形区域,以得到剩余的其他矩形区域;
将所述重叠范围从所述其他矩形区域中去除,并对应更改所述第二顶点坐标数据集,以将所述重叠范围划归至所述目标矩形区域内。
6.如权利要求1所述的手势识别方法,其特征在于,所述获取待识别人体图像,并确定所述待识别人体图像中的面部区域的步骤包括:
基于预设AI摄像头获取所述待识别人体图像,并使用预设人脸识别算法对所述待识别人体图像进行识别,以确定出所述待识别人体图像中的面部区域。
7.如权利要求1所述的手势识别方法,其特征在于,所述基于所述面部区域,确定所述待识别人体图像中的手势位置预测区域,以在所述手势位置预测区域中进行手势识别的步骤之后,还包括:
使用预设手部关键点识别算法识别出所述手势位置预测区域中的手势含义,并根据所述手势含义生成相应的终端控制指令,以基于所述终端控制指令控制终端执行相应操作。
8.一种手势识别装置,其特征在于,所述手势识别装置包括:
面部区域确定模块,用于获取待识别人体图像,并确定所述待识别人体图像中的面部区域;
手势区域识别模块,用于基于所述面部区域,确定所述待识别人体图像中的手势位置预测区域,以在所述手势位置预测区域中进行手势识别。
9.一种手势识别设备,其特征在于,所述手势识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的手势识别程序,所述手势识别程序被所述处理器执行时实现如权利要求1至7中任一项所述的手势识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有手势识别程序,所述手势识别程序被处理器执行时实现如权利要求1至7中任一项所述的手势识别方法的步骤。
CN202010765515.6A 2020-07-31 2020-07-31 手势识别方法、装置、设备及可读存储介质 Pending CN112329508A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010765515.6A CN112329508A (zh) 2020-07-31 2020-07-31 手势识别方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010765515.6A CN112329508A (zh) 2020-07-31 2020-07-31 手势识别方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN112329508A true CN112329508A (zh) 2021-02-05

Family

ID=74302986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010765515.6A Pending CN112329508A (zh) 2020-07-31 2020-07-31 手势识别方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112329508A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114568870A (zh) * 2022-02-21 2022-06-03 珠海格力电器股份有限公司 智能床控制方法、智能床、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114568870A (zh) * 2022-02-21 2022-06-03 珠海格力电器股份有限公司 智能床控制方法、智能床、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US20230117712A1 (en) Feature density object classification, systems and methods
JP5726125B2 (ja) 奥行き画像内の物体を検出する方法およびシステム
US10600207B2 (en) Posture state estimation apparatus and posture state estimation method
JP5959951B2 (ja) 映像処理装置、映像処理方法、及びプログラム
JP4894741B2 (ja) 情報処理装置および情報処理方法、プログラム、並びに記録媒体
US20160217326A1 (en) Fall detection device, fall detection method, fall detection camera and computer program
Arcoverde Neto et al. Enhanced real-time head pose estimation system for mobile device
WO2022252642A1 (zh) 基于视频图像的行为姿态检测方法、装置、设备及介质
EP2309454B1 (en) Apparatus and method for detecting motion
US9824263B2 (en) Method for processing image with depth information and computer program product thereof
JP5550124B2 (ja) 入力装置、機器、入力方法およびプログラム
KR20150067680A (ko) 차량용 제스처 인식 시스템 및 그 방법
Unzueta et al. Efficient generic face model fitting to images and videos
WO2019033567A1 (zh) 眼球动作捕捉方法、装置及存储介质
JP2018088049A (ja) 画像処理装置、画像処理方法、及びプログラム
CN109919128B (zh) 控制指令的获取方法、装置及电子设备
CN112329508A (zh) 手势识别方法、装置、设备及可读存储介质
KR101967858B1 (ko) 3d 깊이 이미지 기반 객체 분리 장치 및 그 방법
CN111444875B (zh) 一种人脸跟踪方法、装置、设备和计算机可读存储介质
Zhao et al. A novel real-time driver monitoring system based on deep convolutional neural network
JP5930808B2 (ja) 画像処理装置、画像処理装置の制御方法、およびプログラム
JP2007026308A (ja) 画像処理方法、画像処理装置
JP6661082B2 (ja) 画像認識装置、及び画像認識プログラム
JP2021144359A (ja) 学習装置、推定装置、学習方法、及びプログラム
JP5217917B2 (ja) 物体検知追跡装置,物体検知追跡方法および物体検知追跡プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination