CN103279767A - 基于多特征点组合的人机交互信息生成方法 - Google Patents

基于多特征点组合的人机交互信息生成方法 Download PDF

Info

Publication number
CN103279767A
CN103279767A CN2013101751997A CN201310175199A CN103279767A CN 103279767 A CN103279767 A CN 103279767A CN 2013101751997 A CN2013101751997 A CN 2013101751997A CN 201310175199 A CN201310175199 A CN 201310175199A CN 103279767 A CN103279767 A CN 103279767A
Authority
CN
China
Prior art keywords
human
machine interaction
face
interaction information
unique point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013101751997A
Other languages
English (en)
Inventor
佘青山
杨伟健
昌凤玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN2013101751997A priority Critical patent/CN103279767A/zh
Publication of CN103279767A publication Critical patent/CN103279767A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明涉及一种基于多特征点组合的人机交互信息生成方法。目前,在基于视觉控制人机接口领域,仍然存在复杂环境中头部姿势识别准确率不高的问题,易生成错误的人机交互信息。本发明根据对使用者各特征点定位及其相应的组合来生成人机交互信息。先通过摄像装置采集头部视频序列;再对采集的图像序列进行消噪、增强预处理;然后采用Adaboost算法来检测人脸,并在人脸区域定位各个特征点;接着定义三种特征点组合,并设计识别规则对三种特征点组合进行识别;最后根据三种特征点组合的识别结果生成对应的人机交互信息。此方法可以较高准确率地生成人机交互信息,在基于视觉控制的人机接口领域,特别是在智能人机交互中具有广阔的应用前景。

Description

基于多特征点组合的人机交互信息生成方法
技术领域
本发明属于人机接口领域,涉及一种基于多特征点组合的人机交互信息生成方法。
背景技术
随着经济的发展和文明程度的提高,残疾人这个特殊群体的生存状况正越来越受到社会的关注。2007年,第二次全国残疾人抽样调查结果表明,我国现有残疾人总数约为8296万,占全国总人口的比例超过6%,其中肢体残疾2412万,是各类残疾中比重最高的。与此同时,《中国人口老龄化发展趋势预测研究报告》预计,2014年我国老年人口规模将达到2亿,2051年将达到4.37亿,老龄人是脑卒中病的高发群体,患者中存在不同程度的肢体残疾。改善残疾人生存状况,提高残疾人自理能力和生活质量,已是全社会关注的重点问题,成为全面建设小康与和谐社会的一项重要而紧迫的任务。
改善患者活动能力,拓展患者运动范围,是对肢体残疾患者进行康复治疗的主要目的和途径。对于截肢等严重肢体残疾患者,由于运动功能的缺损或丧失,活动范围和活动空间受到制约,如何增强患者的运动能力,已成为生物医学和工程技术领域的一个重要课题。一方面,从人体运动的源头出发,分析大脑对肢体运动及控制的支配功能,通过获取大脑的运动思维信息,从而得到肢体动作指令,实现脑-机交互;另一方面,从人体运动的主体出发,通过开发假肢、轮椅等康复辅助器具,代偿实现患者缺失的运动功能,扩大活动范围和生活自理能力。摆脱操纵杆、按键等传统人机接口的束缚,通过语音、形体语言等人类习惯和自然的方式与智能设备(包括康复辅具)进行沟通,让其提供智能的主动服务,已成为当前人机交互的一个重要研究领域,受到相关研究机构及科研人员的广泛关注。然而以语音、形体语言为表达方式的模式识别及控制技术在康复辅具中的应用,还面临诸多难题。如复杂环境下模式识别精度不高,人机交互不够自然,特别是易受光线变化、复杂环境等干扰,仍然存在关键特征点定位精度和头部姿势识别准确率不高而生成错误人机交互信息等问题,是新型人机接口实用化和智能化的一个普遍性难点。因此在头部姿势估计上开展研发,具有重要的技术研发价值和广泛的市场应用前景。
发明内容
本发明的目的就是针对现有基于视觉控制的人机接口领域中因复杂环境中头部姿势识别准确率不高而导致生成错误人机交互信息的问题,提供一种基于多特征点组合的人机交互信息生成方法。
头部视觉信号能较好传达控制者的意图,具有作为无接触式自然交互信息源的可行性。当使用者在人机交互过程中,总会因环境的变化而产生一些特征点的误定位或者漏定位,***可能会生成错误的人机交互信息,容易引起误操作。因此,本发明研究的基于多特征点组合的人机交互信息生成方法,可以提高复杂环境下人机交互信息生成的准确性,能够有效地避免因特征点的误定位或者漏定位而引起误操作。
为了实现以上目的,本发明方法主要包括以下步骤:
步骤(1) 头部视频序列获取。头部视觉信息通过光学镜头及CMOS图像传感器组件获取。
步骤(2) 图像序列预处理。将获取的图像序列进行灰度化、直方图均衡化、形态学预处理方法,对获取的头部图像序列进行消噪,增强图像头部的有效信息。
步骤(3) 人脸及特征点检测。先采用Adaboost算法对步骤(2)增强后的图像序列进行人脸检测,然后将人脸图像作为输入图像,同样采用Adaboost算法进行眼睛、鼻子、嘴巴定位,从而获取特征点。
步骤(4) 特征点组合定义与识别。根据步骤(3)已定位的特征点,先定义三种特征点组合,再设计识别规则对三种特征点组合进行识别。
步骤(5) 人机交互信息生成。根据步骤(4)中三种特征点组合的识别结果自定义设计并生成人机交互信息。
本发明与已有的人机交互信息生成方法相比,具有如下特点:
1、使用者头部运动不受限制。
在已有的智能人机交互中,人机交互信息的生成需要使用者头部尽量保持在某一位置进行相应操作,比如使用者的头部与摄像装置保持一定距离,或者使用者头部要保持在视频图像中间等。这样就会使使用者感到束缚,不自然。而本发明对识别规则进行了相应的设计,使用者的头部可以左右或者前后运动,但不会影响人机交互信息的正确生成,增强使用者的操控性,使使用者可以较自然的进行人机交互。
2、本发明可以实时并较高准确率地生成人机交互信息。
经过不同环境下的多次测试统计,本发明中三种特征点组合可以获得较高的识别率,因此也能较高准确率地生成人机交互信息,完全可以实时地进行人机交互。
附图说明
图1为本发明的实施流程图。
图2为各个特征点的坐标参数图。
图3为头部左右转识别规则图。
图4为嘴巴上翘识别规则图。
图5为闭眼识别规则图。
具体实施方式
下面结合附图详细描述本发明基于视觉的头势有无意图判别方法,图1为实施流程图。
如图1,本发明方法的实施主要包括七个步骤:(1)通过光学镜头及CMOS图像传感器组件获取头部视觉信息;(2)将获取的图像序列进行灰度化、直方图均衡化、形态学预处理方法,对获取的头部图像序列进行消噪;(3)先采用Adaboost算法对(2)中增强后的图像序列进行人脸检测,然后将人脸图像作为输入图像,同样采用Adaboost算法进行眼睛、鼻子、嘴巴定位;(4)根据(3)中已定位的特征点,先定义三种特征点的组合,再设计识别规则对三种特征点组合进行识别;(5)根据(4)中三种特征点组合识别结果自定义的设置并生成人机交互信息。下面逐一对各步骤进行详细说明。
步骤一:头部视频序列获取
头部视觉信息通过光学镜头及CMOS图像传感器组件获取。
步骤二:图像序列预处理
由于光学***或电子器件影响,图像不可避免会受到噪声干扰,需要进行消噪处理。具体采用灰度化、直方图均衡化、形态学预处理方法,对获取的头部序列图像进行消噪,增强图像头部的有效信息。
步骤三:人脸及特征点检测
先通过由Adaboost学习算法训练好的人脸分类器从增强后的视频图像序列中定位人脸,然后将人脸作为感兴趣区域,采用Adaboost算法训练好的眼睛、鼻子、嘴巴分类器分别进行眼睛、鼻子、嘴巴定位。
假设                                               
Figure DEST_PATH_IMAGE002
为模式(样本)空间,其包含个模式
Figure DEST_PATH_IMAGE006
的训练集以及相应的类别标签
Figure DEST_PATH_IMAGE008
,由于是二值分类问题,此处
Figure DEST_PATH_IMAGE010
,分别代表样本的正和负。则Adaboost训练强分类器的算法步骤描述如下:
(1) 初始化弱分类器的数目
Figure DEST_PATH_IMAGE012
(2) 令分类器训练层数
Figure DEST_PATH_IMAGE014
,并初始化样本相同权值
Figure DEST_PATH_IMAGE016
(3) 在第
Figure DEST_PATH_IMAGE018
层,调用训练样本和权重集合训练得到弱分类器
Figure DEST_PATH_IMAGE022
。弱分类器
Figure 671581DEST_PATH_IMAGE022
给每个模式
Figure 526405DEST_PATH_IMAGE006
指定一个实数值;
(4) 计算加权分类误差
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE028
                     (1)                    
其中
Figure DEST_PATH_IMAGE030
是在训练样本上观测的经验概率。
Figure DEST_PATH_IMAGE032
时,则弱分类器
Figure 994558DEST_PATH_IMAGE022
的性能评价因子
Figure DEST_PATH_IMAGE034
                           (2)
Figure DEST_PATH_IMAGE036
时,则删除本轮弱分类器,且算法终止。
(5) 更新权重
Figure DEST_PATH_IMAGE038
                       (3)
其中,是归一化因子,使得
Figure DEST_PATH_IMAGE042
(6) 令
Figure DEST_PATH_IMAGE044
(7) 如果
Figure DEST_PATH_IMAGE046
,转第(3)步。    
(8) 最终的强分类器定义为
       
Figure DEST_PATH_IMAGE048
                     (4)
在第(4)步中很明显误差
Figure 784176DEST_PATH_IMAGE026
是相对于权重分布计算的,且
Figure 536231DEST_PATH_IMAGE026
Figure 794912DEST_PATH_IMAGE050
成反比,误差被刻画为概率
Figure DEST_PATH_IMAGE052
的和,其中需要同时考虑权重分布和样本
Figure 73895DEST_PATH_IMAGE006
正确分类的程度。但应注意的是,当
Figure 742774DEST_PATH_IMAGE036
时,算法会删除本轮弱分类器,并且算法终止,是因为在第(5)步的权重更新过程中,被错误分类样本的权重会降低,而被正确分类的样本权重会增加,权重更新机制失效。
最终的强分类器由所有
Figure 112969DEST_PATH_IMAGE012
个弱分类器在考虑了其特定的性能评价因子
Figure DEST_PATH_IMAGE054
后加权投票决定的。
步骤四:特征点组合的定义与识别
为了实现人机交互信息的生成,本发明定义了三种特征点组合,分别为左眼、右眼、鼻子(LREN),鼻子、嘴巴(NM)和左眼、右眼(LRE)。并通过设计的规则对三种特征点组合进行识别。
为了清楚地说明识别过程,在图2中标出了各个特征点的坐标参数。LREN、NM、LRE的具体识别过程如下:
(1)LREN。当脸朝向正前方时,两眼连线中点的横坐标与鼻子的横坐标相等,即
Figure DEST_PATH_IMAGE056
;而当头部偏转时,
Figure DEST_PATH_IMAGE058
(
Figure DEST_PATH_IMAGE060
,头部右转;
Figure DEST_PATH_IMAGE062
,头部左转),效果如图3所示。
识别规则定义如下:如果
Figure 54249DEST_PATH_IMAGE058
成立,那么LREN被识别。
(2)NM。当脸朝向正前方且处于自然状态,同时与摄像头的距离保持不变时,鼻子和嘴巴的距离为常值
Figure DEST_PATH_IMAGE066
,因此如图4所示,当嘴巴微微上翘一下,就容易检测到其距离的变化。
识别规则定义如下:如果
Figure DEST_PATH_IMAGE068
成立,那么NM被识别。
按照此识别规则,当使用者头部做前后运动时,相应的鼻子嘴巴之间的距离也会发生变化,该状态也会被识别,并将生成错误的人机交互信息。因此,本发明作了如下设计:
根据人脸与各特征点的几何关系,无论人脸大小,其特征点的相对几何位置是保持不变的,也就是说其之间的比例是保持不变的。因此本发明中将嘴巴上翘前后的鼻子嘴巴距离与人脸高度之比进行大小比较,如果嘴巴上翘之后鼻子嘴巴距离与人脸高度之比小于嘴巴上翘之前的鼻子嘴巴距离与人脸高度之比,那么该状态被识别。其数学表达式为:
Figure DEST_PATH_IMAGE070
                          (5)
其中,
Figure DEST_PATH_IMAGE072
为嘴巴上翘之前鼻子与嘴巴的距离;
Figure DEST_PATH_IMAGE074
为嘴巴上翘之后鼻子与嘴巴的距离;
Figure DEST_PATH_IMAGE076
为嘴巴上翘之前人脸高度;为嘴巴上翘之后人脸高度。
因此,按照上述设计,使用者无论是在头部前后晃动时上翘嘴巴还是在头部保持不动时上翘嘴巴,***都将会生成准确的人机交互信息。
(3)LRE。如图5所示,当两眼处于张开状态时能检测到两眼,且标记
Figure DEST_PATH_IMAGE080
;而当两眼处于闭合状态时检测不到两眼,即标记
Figure DEST_PATH_IMAGE082
识别规则定义如下:如果
Figure 224549DEST_PATH_IMAGE082
成立,那么LRE被识别。
步骤五:人机交互信息生成
根据步骤四中四种状态,即头部左转、头部右转、嘴巴上翘以及闭眼的识别,使用者根据实际情况可以至少生成四种相应的人机交互信息。
(1) 一对一。即一种状态生成一种人机交互信息。以电动轮椅为例(下同),头部左转只对应电动轮椅左转。
(2) 一对多。即一种状态生成多种人机交互信息。如,嘴巴上翘对应电动轮椅前进,嘴巴再上翘则对应电动轮椅停止,嘴巴再一次上翘又对应电动轮椅前进。以此类推,嘴巴上翘这一状态可以交替生成电动轮椅前进和停止信息。
(3) 多对一。即多种状态生成一种人机交互信息。如,头部左转和头部右转两个状态的组合可以生成电动轮椅停止信息。
(4) 多对多。即多种状态生成多种人机交互信息。如,头部左转和嘴巴上翘两种状态的组合可以生成电动轮椅前进信息,头部右转和嘴巴上翘两种状态的组合可以生成电动轮椅后退信息。

Claims (1)

1. 基于多特征点组合的人机交互信息生成方法,其特征在于该方法包括如下步骤:
步骤(1) 头部视频序列获取,具体是:头部视觉信息通过光学镜头及CMOS图像传感器组件获取;
步骤(2) 图像序列预处理,具体是:将获取的图像序列进行灰度化、直方图均衡化、形态学预处理方法,对获取的头部图像序列进行消噪,增强图像头部的有效信息;
步骤(3) 人脸及特征点检测,具体是:先采用Adaboost算法对步骤(2)增强后的图像序列进行人脸检测,然后将人脸图像作为输入图像,同样采用Adaboost算法进行眼睛、鼻子、嘴巴定位,从而获取特征点;
步骤(4) 特征点组合定义与识别,具体是:根据步骤(3)已定位的特征点,先定义三种特征点组合,再设计识别规则对三种特征点组合进行识别;
步骤(5) 人机交互信息生成,具体是:根据步骤(4)中三种特征点组合的识别结果自定义设计并生成人机交互信息。
CN2013101751997A 2013-05-10 2013-05-10 基于多特征点组合的人机交互信息生成方法 Pending CN103279767A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013101751997A CN103279767A (zh) 2013-05-10 2013-05-10 基于多特征点组合的人机交互信息生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013101751997A CN103279767A (zh) 2013-05-10 2013-05-10 基于多特征点组合的人机交互信息生成方法

Publications (1)

Publication Number Publication Date
CN103279767A true CN103279767A (zh) 2013-09-04

Family

ID=49062282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013101751997A Pending CN103279767A (zh) 2013-05-10 2013-05-10 基于多特征点组合的人机交互信息生成方法

Country Status (1)

Country Link
CN (1) CN103279767A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6492986B1 (en) * 1997-06-02 2002-12-10 The Trustees Of The University Of Pennsylvania Method for human face shape and motion estimation based on integrating optical flow and deformable models
CN101561710A (zh) * 2009-05-19 2009-10-21 重庆大学 一种基于人脸姿态估计的人机交互方法
CN102982316A (zh) * 2012-11-05 2013-03-20 安维思电子科技(广州)有限公司 一种对驾驶员非正常驾驶行为的识别装置和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6492986B1 (en) * 1997-06-02 2002-12-10 The Trustees Of The University Of Pennsylvania Method for human face shape and motion estimation based on integrating optical flow and deformable models
CN101561710A (zh) * 2009-05-19 2009-10-21 重庆大学 一种基于人脸姿态估计的人机交互方法
CN102982316A (zh) * 2012-11-05 2013-03-20 安维思电子科技(广州)有限公司 一种对驾驶员非正常驾驶行为的识别装置和方法

Similar Documents

Publication Publication Date Title
Lian et al. Attention guided U-Net for accurate iris segmentation
Meena A study on hand gesture recognition technique
CN104463100A (zh) 基于面部表情识别模式的智能轮椅人机交互***及方法
CN101261677A (zh) 人脸和虹膜混合识别的新方法——特征提取层融合
Araghi et al. IRIS recognition using neural network
Jafar et al. Eye controlled wheelchair using transfer learning
Kumar Sign language recognition for hearing impaired people based on hands symbols classification
Khan et al. Nose tracking cursor control for the people with disabilities: An improved HCI
Alva et al. An image based eye controlled assistive system for paralytic patients
CN103258208A (zh) 基于视觉的头势有无意图判别方法
Chaskar et al. On a methodology for detecting diabetic presence from iris image analysis
Rakshita Communication through real-time video oculography using face landmark detection
Fan et al. Nonintrusive driver fatigue detection
Everingham et al. Wearable mobility aid for low vision using scene classification in a Markov random field model framework
CN117274960A (zh) L3级自动驾驶车辆驾驶员非驾驶姿态识别方法与***
Prasetya et al. Real time eyeball movement detection based on region division and midpoint position
Mao et al. Robust facial expression recognition based on RPCA and AdaBoost
CN103279767A (zh) 基于多特征点组合的人机交互信息生成方法
Wang et al. Objective facial paralysis grading based on p face and eigenflow
Taher et al. An extended eye movement tracker system for an electric wheelchair movement control
Viswanatha et al. An Intelligent Camera Based Eye Controlled Wheelchair System: Haar Cascade and Gaze Estimation Algorithms
Huynh A new eye gaze detection algorithm using PCA features and recurrent neural networks
Karthigayan et al. Genetic algorithm and neural network for face emotion recognition
Al-Shakarchy et al. Open and closed eyes classification in different lighting conditions using new convolution neural networks architecture
Yalla et al. Wheel chair movement through eyeball recognition using raspberry Pi

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20130904