CN103279767A

CN103279767A - 基于多特征点组合的人机交互信息生成方法

Info

Publication number: CN103279767A
Application number: CN2013101751997A
Authority: CN
Inventors: 佘青山; 杨伟健; 昌凤玲
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2013-05-10
Filing date: 2013-05-10
Publication date: 2013-09-04

Abstract

本发明涉及一种基于多特征点组合的人机交互信息生成方法。目前，在基于视觉控制人机接口领域，仍然存在复杂环境中头部姿势识别准确率不高的问题，易生成错误的人机交互信息。本发明根据对使用者各特征点定位及其相应的组合来生成人机交互信息。先通过摄像装置采集头部视频序列；再对采集的图像序列进行消噪、增强预处理；然后采用Adaboost算法来检测人脸，并在人脸区域定位各个特征点；接着定义三种特征点组合，并设计识别规则对三种特征点组合进行识别；最后根据三种特征点组合的识别结果生成对应的人机交互信息。此方法可以较高准确率地生成人机交互信息，在基于视觉控制的人机接口领域，特别是在智能人机交互中具有广阔的应用前景。

Description

基于多特征点组合的人机交互信息生成方法

技术领域

本发明属于人机接口领域，涉及一种基于多特征点组合的人机交互信息生成方法。

背景技术

随着经济的发展和文明程度的提高，残疾人这个特殊群体的生存状况正越来越受到社会的关注。2007年，第二次全国残疾人抽样调查结果表明，我国现有残疾人总数约为8296万，占全国总人口的比例超过6％，其中肢体残疾2412万，是各类残疾中比重最高的。与此同时，《中国人口老龄化发展趋势预测研究报告》预计，2014年我国老年人口规模将达到2亿，2051年将达到4.37亿，老龄人是脑卒中病的高发群体，患者中存在不同程度的肢体残疾。改善残疾人生存状况，提高残疾人自理能力和生活质量，已是全社会关注的重点问题，成为全面建设小康与和谐社会的一项重要而紧迫的任务。

改善患者活动能力，拓展患者运动范围，是对肢体残疾患者进行康复治疗的主要目的和途径。对于截肢等严重肢体残疾患者，由于运动功能的缺损或丧失，活动范围和活动空间受到制约，如何增强患者的运动能力，已成为生物医学和工程技术领域的一个重要课题。一方面，从人体运动的源头出发，分析大脑对肢体运动及控制的支配功能，通过获取大脑的运动思维信息，从而得到肢体动作指令，实现脑-机交互；另一方面，从人体运动的主体出发，通过开发假肢、轮椅等康复辅助器具，代偿实现患者缺失的运动功能，扩大活动范围和生活自理能力。摆脱操纵杆、按键等传统人机接口的束缚，通过语音、形体语言等人类习惯和自然的方式与智能设备（包括康复辅具）进行沟通，让其提供智能的主动服务，已成为当前人机交互的一个重要研究领域，受到相关研究机构及科研人员的广泛关注。然而以语音、形体语言为表达方式的模式识别及控制技术在康复辅具中的应用，还面临诸多难题。如复杂环境下模式识别精度不高，人机交互不够自然，特别是易受光线变化、复杂环境等干扰，仍然存在关键特征点定位精度和头部姿势识别准确率不高而生成错误人机交互信息等问题，是新型人机接口实用化和智能化的一个普遍性难点。因此在头部姿势估计上开展研发，具有重要的技术研发价值和广泛的市场应用前景。

发明内容

本发明的目的就是针对现有基于视觉控制的人机接口领域中因复杂环境中头部姿势识别准确率不高而导致生成错误人机交互信息的问题，提供一种基于多特征点组合的人机交互信息生成方法。

头部视觉信号能较好传达控制者的意图，具有作为无接触式自然交互信息源的可行性。当使用者在人机交互过程中，总会因环境的变化而产生一些特征点的误定位或者漏定位，***可能会生成错误的人机交互信息，容易引起误操作。因此，本发明研究的基于多特征点组合的人机交互信息生成方法，可以提高复杂环境下人机交互信息生成的准确性，能够有效地避免因特征点的误定位或者漏定位而引起误操作。

为了实现以上目的，本发明方法主要包括以下步骤：

步骤(1) 头部视频序列获取。头部视觉信息通过光学镜头及CMOS图像传感器组件获取。

步骤(2) 图像序列预处理。将获取的图像序列进行灰度化、直方图均衡化、形态学预处理方法，对获取的头部图像序列进行消噪，增强图像头部的有效信息。

步骤(3) 人脸及特征点检测。先采用Adaboost算法对步骤(2)增强后的图像序列进行人脸检测，然后将人脸图像作为输入图像，同样采用Adaboost算法进行眼睛、鼻子、嘴巴定位，从而获取特征点。

步骤(4) 特征点组合定义与识别。根据步骤(3)已定位的特征点，先定义三种特征点组合，再设计识别规则对三种特征点组合进行识别。

步骤(5) 人机交互信息生成。根据步骤(4)中三种特征点组合的识别结果自定义设计并生成人机交互信息。

本发明与已有的人机交互信息生成方法相比，具有如下特点：

1、使用者头部运动不受限制。

在已有的智能人机交互中，人机交互信息的生成需要使用者头部尽量保持在某一位置进行相应操作，比如使用者的头部与摄像装置保持一定距离，或者使用者头部要保持在视频图像中间等。这样就会使使用者感到束缚，不自然。而本发明对识别规则进行了相应的设计，使用者的头部可以左右或者前后运动，但不会影响人机交互信息的正确生成，增强使用者的操控性，使使用者可以较自然的进行人机交互。

2、本发明可以实时并较高准确率地生成人机交互信息。

经过不同环境下的多次测试统计，本发明中三种特征点组合可以获得较高的识别率，因此也能较高准确率地生成人机交互信息，完全可以实时地进行人机交互。

附图说明

图1为本发明的实施流程图。

图2为各个特征点的坐标参数图。

图3为头部左右转识别规则图。

图4为嘴巴上翘识别规则图。

图5为闭眼识别规则图。

具体实施方式

下面结合附图详细描述本发明基于视觉的头势有无意图判别方法，图1为实施流程图。

如图1，本发明方法的实施主要包括七个步骤：（1）通过光学镜头及CMOS图像传感器组件获取头部视觉信息；（2）将获取的图像序列进行灰度化、直方图均衡化、形态学预处理方法，对获取的头部图像序列进行消噪；（3）先采用Adaboost算法对（2）中增强后的图像序列进行人脸检测，然后将人脸图像作为输入图像，同样采用Adaboost算法进行眼睛、鼻子、嘴巴定位；（4）根据（3）中已定位的特征点，先定义三种特征点的组合，再设计识别规则对三种特征点组合进行识别；（5）根据（4）中三种特征点组合识别结果自定义的设置并生成人机交互信息。下面逐一对各步骤进行详细说明。

步骤一：头部视频序列获取

头部视觉信息通过光学镜头及CMOS图像传感器组件获取。

步骤二：图像序列预处理

由于光学***或电子器件影响，图像不可避免会受到噪声干扰，需要进行消噪处理。具体采用灰度化、直方图均衡化、形态学预处理方法，对获取的头部序列图像进行消噪，增强图像头部的有效信息。

步骤三：人脸及特征点检测

先通过由Adaboost学习算法训练好的人脸分类器从增强后的视频图像序列中定位人脸，然后将人脸作为感兴趣区域，采用Adaboost算法训练好的眼睛、鼻子、嘴巴分类器分别进行眼睛、鼻子、嘴巴定位。

假设

为模式(样本)空间，其包含个模式

的训练集以及相应的类别标签

，由于是二值分类问题，此处

，分别代表样本的正和负。则Adaboost训练强分类器的算法步骤描述如下：

(1) 初始化弱分类器的数目

。

(2) 令分类器训练层数

，并初始化样本相同权值

。

(3) 在第

层，调用训练样本和权重集合训练得到弱分类器

。弱分类器

给每个模式

指定一个实数值；。

(4) 计算加权分类误差

。

(1)

其中

是在训练样本上观测的经验概率。

若

时，则弱分类器

的性能评价因子

(2)

若

时，则删除本轮弱分类器，且算法终止。

(5) 更新权重

(3)

其中，是归一化因子，使得

。

(6) 令

。

(7) 如果

，转第(3)步。

(8) 最终的强分类器定义为

(4)

在第(4)步中很明显误差

是相对于权重分布计算的，且

与

成反比，误差被刻画为概率

的和，其中需要同时考虑权重分布和样本

正确分类的程度。但应注意的是，当

时，算法会删除本轮弱分类器，并且算法终止，是因为在第(5)步的权重更新过程中，被错误分类样本的权重会降低，而被正确分类的样本权重会增加，权重更新机制失效。

最终的强分类器由所有

个弱分类器在考虑了其特定的性能评价因子

后加权投票决定的。

步骤四：特征点组合的定义与识别

为了实现人机交互信息的生成，本发明定义了三种特征点组合，分别为左眼、右眼、鼻子(LREN)，鼻子、嘴巴(NM)和左眼、右眼(LRE)。并通过设计的规则对三种特征点组合进行识别。

为了清楚地说明识别过程，在图2中标出了各个特征点的坐标参数。LREN、NM、LRE的具体识别过程如下：

（1）LREN。当脸朝向正前方时，两眼连线中点的横坐标与鼻子的横坐标相等，即

；而当头部偏转时，

(

，头部右转；

，头部左转)，效果如图3所示。

识别规则定义如下：如果

成立，那么LREN被识别。

（2）NM。当脸朝向正前方且处于自然状态，同时与摄像头的距离保持不变时，鼻子和嘴巴的距离为常值

，因此如图4所示，当嘴巴微微上翘一下，就容易检测到其距离的变化。

识别规则定义如下：如果

成立，那么NM被识别。

按照此识别规则，当使用者头部做前后运动时，相应的鼻子嘴巴之间的距离也会发生变化，该状态也会被识别，并将生成错误的人机交互信息。因此，本发明作了如下设计：

根据人脸与各特征点的几何关系，无论人脸大小，其特征点的相对几何位置是保持不变的，也就是说其之间的比例是保持不变的。因此本发明中将嘴巴上翘前后的鼻子嘴巴距离与人脸高度之比进行大小比较，如果嘴巴上翘之后鼻子嘴巴距离与人脸高度之比小于嘴巴上翘之前的鼻子嘴巴距离与人脸高度之比，那么该状态被识别。其数学表达式为：

(5)

其中，

为嘴巴上翘之前鼻子与嘴巴的距离；

为嘴巴上翘之后鼻子与嘴巴的距离；

为嘴巴上翘之前人脸高度；为嘴巴上翘之后人脸高度。

因此，按照上述设计，使用者无论是在头部前后晃动时上翘嘴巴还是在头部保持不动时上翘嘴巴，***都将会生成准确的人机交互信息。

（3）LRE。如图5所示，当两眼处于张开状态时能检测到两眼，且标记

；而当两眼处于闭合状态时检测不到两眼，即标记

。

识别规则定义如下：如果

成立，那么LRE被识别。

步骤五：人机交互信息生成

根据步骤四中四种状态，即头部左转、头部右转、嘴巴上翘以及闭眼的识别，使用者根据实际情况可以至少生成四种相应的人机交互信息。

(1) 一对一。即一种状态生成一种人机交互信息。以电动轮椅为例(下同)，头部左转只对应电动轮椅左转。

(2) 一对多。即一种状态生成多种人机交互信息。如，嘴巴上翘对应电动轮椅前进，嘴巴再上翘则对应电动轮椅停止，嘴巴再一次上翘又对应电动轮椅前进。以此类推，嘴巴上翘这一状态可以交替生成电动轮椅前进和停止信息。

(3) 多对一。即多种状态生成一种人机交互信息。如，头部左转和头部右转两个状态的组合可以生成电动轮椅停止信息。

(4) 多对多。即多种状态生成多种人机交互信息。如，头部左转和嘴巴上翘两种状态的组合可以生成电动轮椅前进信息，头部右转和嘴巴上翘两种状态的组合可以生成电动轮椅后退信息。