CN103279767A - 基于多特征点组合的人机交互信息生成方法 - Google Patents
基于多特征点组合的人机交互信息生成方法 Download PDFInfo
- Publication number
- CN103279767A CN103279767A CN2013101751997A CN201310175199A CN103279767A CN 103279767 A CN103279767 A CN 103279767A CN 2013101751997 A CN2013101751997 A CN 2013101751997A CN 201310175199 A CN201310175199 A CN 201310175199A CN 103279767 A CN103279767 A CN 103279767A
- Authority
- CN
- China
- Prior art keywords
- human
- machine interaction
- face
- interaction information
- unique point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明涉及一种基于多特征点组合的人机交互信息生成方法。目前,在基于视觉控制人机接口领域,仍然存在复杂环境中头部姿势识别准确率不高的问题,易生成错误的人机交互信息。本发明根据对使用者各特征点定位及其相应的组合来生成人机交互信息。先通过摄像装置采集头部视频序列;再对采集的图像序列进行消噪、增强预处理;然后采用Adaboost算法来检测人脸,并在人脸区域定位各个特征点;接着定义三种特征点组合,并设计识别规则对三种特征点组合进行识别;最后根据三种特征点组合的识别结果生成对应的人机交互信息。此方法可以较高准确率地生成人机交互信息,在基于视觉控制的人机接口领域,特别是在智能人机交互中具有广阔的应用前景。
Description
技术领域
本发明属于人机接口领域,涉及一种基于多特征点组合的人机交互信息生成方法。
背景技术
随着经济的发展和文明程度的提高,残疾人这个特殊群体的生存状况正越来越受到社会的关注。2007年,第二次全国残疾人抽样调查结果表明,我国现有残疾人总数约为8296万,占全国总人口的比例超过6%,其中肢体残疾2412万,是各类残疾中比重最高的。与此同时,《中国人口老龄化发展趋势预测研究报告》预计,2014年我国老年人口规模将达到2亿,2051年将达到4.37亿,老龄人是脑卒中病的高发群体,患者中存在不同程度的肢体残疾。改善残疾人生存状况,提高残疾人自理能力和生活质量,已是全社会关注的重点问题,成为全面建设小康与和谐社会的一项重要而紧迫的任务。
改善患者活动能力,拓展患者运动范围,是对肢体残疾患者进行康复治疗的主要目的和途径。对于截肢等严重肢体残疾患者,由于运动功能的缺损或丧失,活动范围和活动空间受到制约,如何增强患者的运动能力,已成为生物医学和工程技术领域的一个重要课题。一方面,从人体运动的源头出发,分析大脑对肢体运动及控制的支配功能,通过获取大脑的运动思维信息,从而得到肢体动作指令,实现脑-机交互;另一方面,从人体运动的主体出发,通过开发假肢、轮椅等康复辅助器具,代偿实现患者缺失的运动功能,扩大活动范围和生活自理能力。摆脱操纵杆、按键等传统人机接口的束缚,通过语音、形体语言等人类习惯和自然的方式与智能设备(包括康复辅具)进行沟通,让其提供智能的主动服务,已成为当前人机交互的一个重要研究领域,受到相关研究机构及科研人员的广泛关注。然而以语音、形体语言为表达方式的模式识别及控制技术在康复辅具中的应用,还面临诸多难题。如复杂环境下模式识别精度不高,人机交互不够自然,特别是易受光线变化、复杂环境等干扰,仍然存在关键特征点定位精度和头部姿势识别准确率不高而生成错误人机交互信息等问题,是新型人机接口实用化和智能化的一个普遍性难点。因此在头部姿势估计上开展研发,具有重要的技术研发价值和广泛的市场应用前景。
发明内容
本发明的目的就是针对现有基于视觉控制的人机接口领域中因复杂环境中头部姿势识别准确率不高而导致生成错误人机交互信息的问题,提供一种基于多特征点组合的人机交互信息生成方法。
头部视觉信号能较好传达控制者的意图,具有作为无接触式自然交互信息源的可行性。当使用者在人机交互过程中,总会因环境的变化而产生一些特征点的误定位或者漏定位,***可能会生成错误的人机交互信息,容易引起误操作。因此,本发明研究的基于多特征点组合的人机交互信息生成方法,可以提高复杂环境下人机交互信息生成的准确性,能够有效地避免因特征点的误定位或者漏定位而引起误操作。
为了实现以上目的,本发明方法主要包括以下步骤:
步骤(1) 头部视频序列获取。头部视觉信息通过光学镜头及CMOS图像传感器组件获取。
步骤(2) 图像序列预处理。将获取的图像序列进行灰度化、直方图均衡化、形态学预处理方法,对获取的头部图像序列进行消噪,增强图像头部的有效信息。
步骤(3) 人脸及特征点检测。先采用Adaboost算法对步骤(2)增强后的图像序列进行人脸检测,然后将人脸图像作为输入图像,同样采用Adaboost算法进行眼睛、鼻子、嘴巴定位,从而获取特征点。
步骤(4) 特征点组合定义与识别。根据步骤(3)已定位的特征点,先定义三种特征点组合,再设计识别规则对三种特征点组合进行识别。
步骤(5) 人机交互信息生成。根据步骤(4)中三种特征点组合的识别结果自定义设计并生成人机交互信息。
本发明与已有的人机交互信息生成方法相比,具有如下特点:
1、使用者头部运动不受限制。
在已有的智能人机交互中,人机交互信息的生成需要使用者头部尽量保持在某一位置进行相应操作,比如使用者的头部与摄像装置保持一定距离,或者使用者头部要保持在视频图像中间等。这样就会使使用者感到束缚,不自然。而本发明对识别规则进行了相应的设计,使用者的头部可以左右或者前后运动,但不会影响人机交互信息的正确生成,增强使用者的操控性,使使用者可以较自然的进行人机交互。
2、本发明可以实时并较高准确率地生成人机交互信息。
经过不同环境下的多次测试统计,本发明中三种特征点组合可以获得较高的识别率,因此也能较高准确率地生成人机交互信息,完全可以实时地进行人机交互。
附图说明
图1为本发明的实施流程图。
图2为各个特征点的坐标参数图。
图3为头部左右转识别规则图。
图4为嘴巴上翘识别规则图。
图5为闭眼识别规则图。
具体实施方式
下面结合附图详细描述本发明基于视觉的头势有无意图判别方法,图1为实施流程图。
如图1,本发明方法的实施主要包括七个步骤:(1)通过光学镜头及CMOS图像传感器组件获取头部视觉信息;(2)将获取的图像序列进行灰度化、直方图均衡化、形态学预处理方法,对获取的头部图像序列进行消噪;(3)先采用Adaboost算法对(2)中增强后的图像序列进行人脸检测,然后将人脸图像作为输入图像,同样采用Adaboost算法进行眼睛、鼻子、嘴巴定位;(4)根据(3)中已定位的特征点,先定义三种特征点的组合,再设计识别规则对三种特征点组合进行识别;(5)根据(4)中三种特征点组合识别结果自定义的设置并生成人机交互信息。下面逐一对各步骤进行详细说明。
步骤一:头部视频序列获取
头部视觉信息通过光学镜头及CMOS图像传感器组件获取。
步骤二:图像序列预处理
由于光学***或电子器件影响,图像不可避免会受到噪声干扰,需要进行消噪处理。具体采用灰度化、直方图均衡化、形态学预处理方法,对获取的头部序列图像进行消噪,增强图像头部的有效信息。
步骤三:人脸及特征点检测
先通过由Adaboost学习算法训练好的人脸分类器从增强后的视频图像序列中定位人脸,然后将人脸作为感兴趣区域,采用Adaboost算法训练好的眼睛、鼻子、嘴巴分类器分别进行眼睛、鼻子、嘴巴定位。
(5) 更新权重
(8) 最终的强分类器定义为
在第(4)步中很明显误差是相对于权重分布计算的,且与成反比,误差被刻画为概率的和,其中需要同时考虑权重分布和样本正确分类的程度。但应注意的是,当时,算法会删除本轮弱分类器,并且算法终止,是因为在第(5)步的权重更新过程中,被错误分类样本的权重会降低,而被正确分类的样本权重会增加,权重更新机制失效。
步骤四:特征点组合的定义与识别
为了实现人机交互信息的生成,本发明定义了三种特征点组合,分别为左眼、右眼、鼻子(LREN),鼻子、嘴巴(NM)和左眼、右眼(LRE)。并通过设计的规则对三种特征点组合进行识别。
为了清楚地说明识别过程,在图2中标出了各个特征点的坐标参数。LREN、NM、LRE的具体识别过程如下:
按照此识别规则,当使用者头部做前后运动时,相应的鼻子嘴巴之间的距离也会发生变化,该状态也会被识别,并将生成错误的人机交互信息。因此,本发明作了如下设计:
根据人脸与各特征点的几何关系,无论人脸大小,其特征点的相对几何位置是保持不变的,也就是说其之间的比例是保持不变的。因此本发明中将嘴巴上翘前后的鼻子嘴巴距离与人脸高度之比进行大小比较,如果嘴巴上翘之后鼻子嘴巴距离与人脸高度之比小于嘴巴上翘之前的鼻子嘴巴距离与人脸高度之比,那么该状态被识别。其数学表达式为:
因此,按照上述设计,使用者无论是在头部前后晃动时上翘嘴巴还是在头部保持不动时上翘嘴巴,***都将会生成准确的人机交互信息。
步骤五:人机交互信息生成
根据步骤四中四种状态,即头部左转、头部右转、嘴巴上翘以及闭眼的识别,使用者根据实际情况可以至少生成四种相应的人机交互信息。
(1) 一对一。即一种状态生成一种人机交互信息。以电动轮椅为例(下同),头部左转只对应电动轮椅左转。
(2) 一对多。即一种状态生成多种人机交互信息。如,嘴巴上翘对应电动轮椅前进,嘴巴再上翘则对应电动轮椅停止,嘴巴再一次上翘又对应电动轮椅前进。以此类推,嘴巴上翘这一状态可以交替生成电动轮椅前进和停止信息。
(3) 多对一。即多种状态生成一种人机交互信息。如,头部左转和头部右转两个状态的组合可以生成电动轮椅停止信息。
(4) 多对多。即多种状态生成多种人机交互信息。如,头部左转和嘴巴上翘两种状态的组合可以生成电动轮椅前进信息,头部右转和嘴巴上翘两种状态的组合可以生成电动轮椅后退信息。
Claims (1)
1. 基于多特征点组合的人机交互信息生成方法,其特征在于该方法包括如下步骤:
步骤(1) 头部视频序列获取,具体是:头部视觉信息通过光学镜头及CMOS图像传感器组件获取;
步骤(2) 图像序列预处理,具体是:将获取的图像序列进行灰度化、直方图均衡化、形态学预处理方法,对获取的头部图像序列进行消噪,增强图像头部的有效信息;
步骤(3) 人脸及特征点检测,具体是:先采用Adaboost算法对步骤(2)增强后的图像序列进行人脸检测,然后将人脸图像作为输入图像,同样采用Adaboost算法进行眼睛、鼻子、嘴巴定位,从而获取特征点;
步骤(4) 特征点组合定义与识别,具体是:根据步骤(3)已定位的特征点,先定义三种特征点组合,再设计识别规则对三种特征点组合进行识别;
步骤(5) 人机交互信息生成,具体是:根据步骤(4)中三种特征点组合的识别结果自定义设计并生成人机交互信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013101751997A CN103279767A (zh) | 2013-05-10 | 2013-05-10 | 基于多特征点组合的人机交互信息生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013101751997A CN103279767A (zh) | 2013-05-10 | 2013-05-10 | 基于多特征点组合的人机交互信息生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103279767A true CN103279767A (zh) | 2013-09-04 |
Family
ID=49062282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013101751997A Pending CN103279767A (zh) | 2013-05-10 | 2013-05-10 | 基于多特征点组合的人机交互信息生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103279767A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6492986B1 (en) * | 1997-06-02 | 2002-12-10 | The Trustees Of The University Of Pennsylvania | Method for human face shape and motion estimation based on integrating optical flow and deformable models |
CN101561710A (zh) * | 2009-05-19 | 2009-10-21 | 重庆大学 | 一种基于人脸姿态估计的人机交互方法 |
CN102982316A (zh) * | 2012-11-05 | 2013-03-20 | 安维思电子科技(广州)有限公司 | 一种对驾驶员非正常驾驶行为的识别装置和方法 |
-
2013
- 2013-05-10 CN CN2013101751997A patent/CN103279767A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6492986B1 (en) * | 1997-06-02 | 2002-12-10 | The Trustees Of The University Of Pennsylvania | Method for human face shape and motion estimation based on integrating optical flow and deformable models |
CN101561710A (zh) * | 2009-05-19 | 2009-10-21 | 重庆大学 | 一种基于人脸姿态估计的人机交互方法 |
CN102982316A (zh) * | 2012-11-05 | 2013-03-20 | 安维思电子科技(广州)有限公司 | 一种对驾驶员非正常驾驶行为的识别装置和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lian et al. | Attention guided U-Net for accurate iris segmentation | |
Meena | A study on hand gesture recognition technique | |
CN104463100A (zh) | 基于面部表情识别模式的智能轮椅人机交互***及方法 | |
CN101261677A (zh) | 人脸和虹膜混合识别的新方法——特征提取层融合 | |
Araghi et al. | IRIS recognition using neural network | |
Jafar et al. | Eye controlled wheelchair using transfer learning | |
Kumar | Sign language recognition for hearing impaired people based on hands symbols classification | |
Khan et al. | Nose tracking cursor control for the people with disabilities: An improved HCI | |
Alva et al. | An image based eye controlled assistive system for paralytic patients | |
CN103258208A (zh) | 基于视觉的头势有无意图判别方法 | |
Chaskar et al. | On a methodology for detecting diabetic presence from iris image analysis | |
Rakshita | Communication through real-time video oculography using face landmark detection | |
Fan et al. | Nonintrusive driver fatigue detection | |
Everingham et al. | Wearable mobility aid for low vision using scene classification in a Markov random field model framework | |
CN117274960A (zh) | L3级自动驾驶车辆驾驶员非驾驶姿态识别方法与*** | |
Prasetya et al. | Real time eyeball movement detection based on region division and midpoint position | |
Mao et al. | Robust facial expression recognition based on RPCA and AdaBoost | |
CN103279767A (zh) | 基于多特征点组合的人机交互信息生成方法 | |
Wang et al. | Objective facial paralysis grading based on p face and eigenflow | |
Taher et al. | An extended eye movement tracker system for an electric wheelchair movement control | |
Viswanatha et al. | An Intelligent Camera Based Eye Controlled Wheelchair System: Haar Cascade and Gaze Estimation Algorithms | |
Huynh | A new eye gaze detection algorithm using PCA features and recurrent neural networks | |
Karthigayan et al. | Genetic algorithm and neural network for face emotion recognition | |
Al-Shakarchy et al. | Open and closed eyes classification in different lighting conditions using new convolution neural networks architecture | |
Yalla et al. | Wheel chair movement through eyeball recognition using raspberry Pi |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130904 |