CN103488299B

CN103488299B - 一种融合人脸和手势的智能终端人机交互方法

Info

Publication number: CN103488299B
Application number: CN201310482654.8A
Authority: CN
Inventors: 戚金清; 张远燚; 吴国强; 张建伟; 李景虎; 沙建军; 张华翰
Original assignee: Daliang City Heng Xin Science And Technology Ltd
Current assignee: Longxiang Xinrui (Xiamen) Technology Co., Ltd
Priority date: 2013-10-15
Filing date: 2013-10-15
Publication date: 2016-11-23
Anticipated expiration: 2033-10-15
Also published as: CN103488299A

Abstract

本发明公开了一种融合人脸和手势的智能终端人机交互方法，属于图像处理技术领域。第一步：根据智能终端摄像头采集到的人脸图像；第二步：对归一化处理得到的人脸图像；第三步：根据智能终端摄像头采集到的手势图像进行手部肤色和背景建模；第四步：对第三步检测到的手势图像。

Description

一种融合人脸和手势的智能终端人机交互方法

技术领域

本发明涉及一种融合人脸和手势的智能终端人机交互方法，属于图像处理技术领域。

背景技术

随着智能手机、智能电视、平板电脑、车载智能***的迅速普及，人与智能终端的交互活动成为人们日常生活中的重要组成部分。在这种情况下，基于语音、人脸、手势等更加自然、更加方便的人机交互技术得到迅猛发展。

人脸识别技术提供了一种自然的人机交互方法。人脸是人类视觉中最为普遍的模式，最容易被人类接受。人的面部所表现的视觉信息在社会交流中有着很重要的作用和意义。人脸识别技术依托模式识别、图像理解、计算机视觉和人工智能等多种学科，同时和认知学、神经科学、生理心理学等学科有着千丝万缕的联系。尽管人类在婴儿期就可以毫不费力地快速、准确的识别人脸，然而利用计算机进行人脸识别仍然是一个挑战。目前，虽然基于人脸识别的应用开始出现在智能手机、智能电视等终端产品上，但是受光线、角度、表情、遮挡物、眼镜、年龄等因素影响，人脸识别的效果尚不够理想。

手势是另外一种自然、直观、易于学***台的，只有少数研究为提高速度而采用了硬件加速的方法。

综上所述，无论是人脸还是手势，其识别效果目前尚不理想。研究发现单一生物特征（例如人脸、手形、指纹等）所含信息有限，是无法满足人们多样化需求（自然、方便、安全等）的主要原因之一。文献[5]揭示了通常使用的手形和人脸所包含的信息内容分别只有10⁵和10³数量级，所以基于单一人脸或手形识别技术的***不可能满足人们日常生活的多样化需求。另外，尽管指纹和虹膜拥有大量的信息内容，但是已有的指纹认证***对于低质量的指纹图像的识别率也不乐观。因此，对于某些关键应用，单一生物特征识别***都很难满足人们需求。

因此，随着智能终端及***的迅速普及，为满足人们越来越多的需求，研究多模态生物识别融合技术（例如人脸+手势、人脸+声音、人脸+指纹等），并将其应用到智能终端及***的人机交互中成为当前研究的热点。

发明内容

本发明针对以上问题的提出，而研制一种融合人脸和手势的智能终端人机交互方法。

本发明采取的技术方案如下：

第一步：根据智能终端摄像头采集到的人脸图像，采用灰度投影方法快速定位人眼瞳孔位置，并利用瞳孔距离对人脸图像进行归一化处理；

第二步：对归一化处理得到的人脸图像，利用灰度投影法计算面部主要特征的中心坐标，并根据中心坐标划分13个人脸面部感兴趣区域（ROI），所述面部主要特征包括眼睛、鼻子、嘴、耳朵的特征；

第三步：根据智能终端摄像头采集到的手势图像进行手部肤色和背景建模，利用肤色分割和背景减除方法进行手势检测；

第四步：对第三步检测到的手势图像，利用梯度方向直方图方法描述其特征，同时结合主元分析方法（PCA）构建其特征子空间，然后采用在线机器学习方法将第三步检测到的手势图像分成M类，在本发明中，我们将M设定为10*2类，这样为了区分左右手；

第五步：根据第二步定义的13个人脸面部感兴趣区域（ROI），结合第四步手势识别分类结果共M类，可定义13*M类人脸-手势基本模式；结合用户眼睛连续闭合次数，可定义13*M*N类人脸-手势扩展模式，N为眼睛连续闭合次数；

第六步：根据第五步定义的人脸-手势基本模式或扩展模式，可由用户自定义不同的人机交互操作。

所述第五步所述定义13*M类人脸-手势基本模式，结合用户眼睛连续闭合次数，可定义13*M*N类人脸-手势扩展模式，N为用户眼睛连续闭合次数。

所述第六步所述的可由用户自定义不同的人机交互操作包括打开、关闭、保存、删除、退出、最小化、最大化、返回上级菜单、返回桌面、锁屏。

所述13个人脸面部感兴趣区域（ROI）的实现方法如下：首先利用灰度投影法快速定位人眼瞳孔位置，根据瞳孔距离缩放和切割所有的人脸图像，使所有图像之间的瞳孔位置和面部轮廓大小基本一致；接着再次利用灰度投影法定位面部特征器官的中心坐标，面部特征器官包括眼睛、鼻子、嘴、耳；然后根据中心坐标划分对应的感兴趣区域。

同现有技术相比本发明的优点是显而易见的，具体为：

1.本发明提出了一种融合人脸和手势的智能终端人机交互方法。该方法综合采用人脸、手势等视觉识别先进技术，充分利用智能终端本身外设接口，不需要附加其他数据采集及数据处理装置。

2.本发明定义了应用于人机交互的人脸面部感兴趣区域（ROI）。

3.本发明根据定义的人脸面部感兴趣区域（ROI），结合手势识别分类结果（共M类），定义了13*M类人脸-手势基本模式。结合用户眼睛连续闭合次数（例如N次），可定义13*M*N类人脸-手势扩展模式。

4.本发明根据定义的人脸-手势基本模式或扩展模式，由用户自定义不同的人机交互操作，例如打开、关闭、保存、删除、退出、最小化、最大化、返回上级菜单、返回桌面、锁屏等操作。

附图说明

图1为本发明所述方法的流程图。

图2为本发明定义的人脸面部感兴趣区域。

图3为本发明采用的部分手势类型。

图4为本发明定义的部分人脸-手势基本模式。

具体实施方式

下面结合附图对本发明做进一步说明：

如图1所示：本发明提出的融合人脸和手势的智能终端人机交互方法的其基本思想是：首先利用智能终端的摄像头设备同时采集人脸和手势图像，接着对检测到人脸利用灰度投影法计算面部主要特征（如眼睛、鼻子、嘴、耳朵等）的中心坐标，并根据中心坐标划分13个人脸面部感兴趣区域（ROI）；同时对检测到手势利用梯度方向直方图方法描述其特征，同时结合主元分析方法（PCA）构建其特征子空间，然后采用在线机器学习方法检测到的手势图像分类；然后融合人脸面部感兴趣区域与手势模式，分别得到人脸-手势基本模型和人脸-手势扩展模型；最后利用人脸-手势基本模式或扩展模式，实现由用户自定义不同的人机交互操作，例如打开、关闭、保存、删除、退出、最小化、最大化、返回上级菜单、返回桌面、锁屏等操作。

本发明提到的13个人脸面部感兴趣区域（ROI）如图2所示：首先利用灰度投影法快速定位人眼瞳孔位置，根据瞳孔距离缩放和切割所有的人脸图像，使所有图像之间的瞳孔位置和面部轮廓大小基本一致；接着再次利用灰度投影法定位面部特征器官（如眼睛、鼻子、嘴、耳朵等）的中心坐标，然后根据中心坐标划分对应的感兴趣区域；本发明采用灰度投影法定位及提取面部特征器官，其原理是：对于任意的正面人脸图像，器官在面部的分布位置是满足一定的统计规律的。从前额上部到下颚底部，将人脸从上至下分为五部分，额头基本位于五分之一处，眼睛基本位于五分之二处，鼻子位于五分之三处，嘴巴位于下五分之二处，同时鼻子和嘴的中心还位于人脸的垂直中线上，下巴位于下五分之一处。根据此统计规律可以确定各面部特征器官在人脸图像的大致位置。具体实现方法的特征是：首先根据器官在面部的大致位置设定目标区域，一般为矩形窗，然后计算窗内图像在水平和垂直方向的灰度投影曲线，各曲线上的波谷即对应特征器官的中心点，如眉毛的位置，眼睛瞳孔位置，嘴唇的中心等。然后根据得到的特征器官中心坐标，分割感兴趣区域。如图2所示，201为左侧额头感兴趣区域、202为右侧额头感兴趣区域、203为左眼感兴趣区域、204为右眼感兴趣区域、205为左侧脸颊感兴趣区域、206为右侧脸颊感兴趣区域、207为左耳感兴趣区域、208为右耳感兴趣区域、209为左侧嘴角感兴趣区域、210为右侧嘴角感兴趣区域、211为嘴唇感兴趣区域、212为下巴感兴趣区域、213为鼻子感兴趣区域。

本发明所采用的部分手势如图3所示，有助于审查员了解技术效果。根据本发明所定义的人脸面部感兴趣区域（如图2所示），结合手势识别分类结果（如图3所示），可组合定义得到13*M（M为手势识别分类结果）类人脸-手势基本模式。

图4为本发明组合定义的部分人脸-手势基本模式。，有助于审查员了解技术效果。例如，301为手势8与211感兴趣区域组合得到一种人脸-手势基本模式；303为手势6与213感兴趣区域组合得到一种人脸-手势基本模式；305为手势8与212感兴趣区域组合得到一种人脸-手势基本模式；307为手势8与208感兴趣区域组合得到一种人脸-手势基本模式；310为手势8与202感兴趣区域的组合得到一种人脸-手势基本模式；321为手势1与206感兴趣区域组合得到一种人脸-手势基本模式；322为手势1与213感兴趣区域组合得到一种人脸-手势基本模式；323为手势1与211感兴趣区域组合得到一种人脸-手势基本模式；324为手势1与212感兴趣区域组合得到一种人脸-手势基本模式。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种融合人脸和手势的智能终端人机交互方法，其特征在于：

第二步：对归一化处理得到的人脸图像，利用灰度投影法计算面部主要特征的中心坐标，并根据中心坐标划分13个人脸面部感兴趣区域，所述面部主要特征包括眼睛、鼻子、嘴、耳朵的特征；

第四步：对第三步检测到的手势图像，利用梯度方向直方图方法描述其特征，同时结合主元分析方法构建其特征子空间，然后采用在线机器学习方法将第三步检测到的手势图像分成M类，M设定为10*2类，10*2类区分左右手；

第五步：根据第二步定义的13个人脸面部感兴趣区域，结合第四步手势识别分类结果共M类，定义13*M类人脸-手势基本模式；结合用户眼睛连续闭合次数，定义13*M*N类人脸-手势扩展模式，N为眼睛连续闭合次数；

第六步：根据第五步定义的人脸-手势基本模式或扩展模式，由用户自定义不同的人机交互操作；

13个人脸面部感兴趣区域的实现方法如下：首先利用灰度投影法快速定位人眼瞳孔位置，根据瞳孔距离缩放和切割所有的人脸图像，使所有图像之间的瞳孔位置和面部轮廓大小基本一致；接着再次利用灰度投影法定位面部特征器官的中心坐标，面部特征器官包括眼睛、鼻子、嘴、耳；然后根据中心坐标划分对应的感兴趣区域，具体方式为：

首先根据器官在面部的大致位置设定目标区域，为矩形窗，然后计算窗内图像在水平和垂直方向的灰度投影曲线，各曲线上的波谷即对应特征器官的中心点，根据得到的特征器官中心坐标，分割感兴趣区域。

2.根据权利要求1所述的一种融合人脸和手势的智能终端人机交互方法，其特征在于：第六步所述的由用户自定义不同的人机交互操作包括打开、关闭、保存、删除、退出、最小化、最大化、返回上级菜单、返回桌面、锁屏。