CN103425970A

CN103425970A - 一种基于头部姿态的人机交互方法

Info

Publication number: CN103425970A
Application number: CN2013103857515A
Authority: CN
Inventors: 陈喆; 殷福亮; 杨兵兵
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2013-08-29
Filing date: 2013-08-29
Publication date: 2013-12-04

Abstract

本发明公开了一种基于头部姿态的人机交互方法，属于信号处理技术领域。首先：利用预处理方法来处理视频采集图像的偏色问题；其次：利用肤色模型进行人脸检测与定位；第三：利用人脸区域中眉毛和眼睛灰度梯度变化大的特点，来完成眉毛与眼睛区域的定位；第四：利用Hough圆检测方法检测瞳孔位置；第五：根据瞳孔灰度较大的特点，利用求质心的方法进行瞳孔精确定位；第六：利用人眼定位的结果来完成五种头部姿态判断；第七：将头部姿态判断结果用于人机交互。

Description

一种基于头部姿态的人机交互方法

技术领域

本发明涉及一种基于头部姿态的人机交互方法，属于信号处理技术领域。

背景技术

随着计算机技术的发展，其应用日益广泛，已渗透到人们生活的各个方面。为了有效地操控与使用计算机，人机交互技术得到了快速发展，除了传统的鼠标、键盘等人机交互方式外，语音、手势等更自然的方式也开始逐渐得到应用。但是，语音、手势在有些场合使用会有局限，例如，在播放音乐的汽车中，在噪声较大的飞机中，语音识别性能较差；又例如，在高空作业等情况下，难以应用手势。此外，对于语言障碍患者或手臂残障人士，语音或手势也无法应用。因此，近年来，基于头部姿态与眼球位置的人机交互技术得到了高度重视。头与眼睛是人体中相对稳定的器官，受外界影响较小，基于头部姿态与眼球位置的人机交互技术具有广阔的应用前景。

发明内容

为了实现上述目的，本发明提出了一种基于头部姿态的人机交互方法。

本发明采取的技术方案：

一种基于头部姿态的人机交互方法包括如下步骤：

首先：利用预处理方法来处理视频采集图像的偏色问题；

其次：利用肤色模型进行人脸检测与定位；

第三：利用人脸区域中眉毛和眼睛灰度梯度变化大的特点，来完成眉毛与眼睛区域的定位；

第四：利用Hough圆检测方法检测瞳孔位置；

第五：根据瞳孔灰度较大的特点，利用求质心的方法进行瞳孔精确定位；

第六：利用人眼定位的结果来完成五种头部姿态判断；

第七：将头部姿态判断结果用于人机交互。

本发明原理及有益效果：本发明针对现有头部姿态识别方法的准确率不高以及利用眼睛控制鼠标可靠性较差的问题，提出了一种用人眼定位结果来识别头部姿态，并利用头部姿态进行人机交互(如模拟鼠标等)的方法，从而可明显改善头部姿态识别率，有效提高人机交互(如模拟鼠标)的可靠性。

附图说明

图1本发明技术方案的功能框图。

图2(a)待处理的目标图像。

图2(b)处理使用的结构元素。

图2(c)起始点示意图。

图2(d)待处理的目标图像区域填充处理的结果。

图3积分图的原理。

图4图像的灰度表。

图5(a)数字图像的原始空间。

图5(b)由半径为R、圆心为(X,Y)所组成的参数空间。

图6(a)裁剪的眼睛区域。

图6(b)二值化后图像。

图6(c)去噪后图像。

图6(d)区域生长后的图像。

图6(e)瞳孔质心点标注图。

图7(a)有胡须干扰的男性图像人眼定位结果示例。

图7(b)有胡须、头发干扰的男性图像人眼定位结果示例。

图7(c)有头发干扰的女性图像人眼定位结果示例。

图7(d)无头发干扰的女性图像人眼定位结果示例。

图7(e)头部有倾斜的女性图像人眼定位结果示例。

图7(f)头部有倾斜的男性图像人眼定位结果示例。

图7(g)正脸男性图像人眼定位结果示例。

图7(h)头部有倾斜的男性图像人眼定位结果示例。

图7(i)有复杂背景的男性图像人眼定位结果示例。

图7(j)头部有倾斜、长头发的女性图像人眼定位结果示例。

图7(k)头部、眼部均向上的男性图像人眼定位结果示例。

图7(l)头部、眼部均向下的男性图像的人眼定位结果示例。

具体实施方式

下面结合附图对本发明做进一步说明：

本发明整体上分为六个模块，如图1所示。首先：利用预处理方法来处理视频采集图像的偏色问题；其次：利用肤色模型进行人脸检测与定位；第三：利用人脸区域中眉毛和眼睛灰度梯度变化大的特点，来完成眉毛与眼睛区域的定位；第四：利用Hough圆检测方法检测瞳孔位置；第五：根据瞳孔灰度较大的特点，利用求质心的方法进行瞳孔精确定位。第六：利用人眼定位的结果来完成五种头部姿态判断；第七：将头部姿态判断结果用于人机交互。在该方案中，使用肤色模型定位人脸是因为肤色模型计算量小，检测速度快；利用眉毛和眼睛灰度梯度变化大的特点来定位眉毛与眼睛区域，能够克服毛发、倾斜等问题，进而提高眉眼区域的定位精度；利用眼睛定位结果，能够提高头部姿态识别的精确度。

下面对本发明技术方案进行详细说明。

预处理模块：预处理模块利用预处理方法来处理视频采集图像的偏色问题，预处理方法为：

采集的视频图像若有偏色(如偏蓝或偏黄)，将直接影响人脸的检测结果，所以在采集到视频后，先要对图像进行颜色校正的预处理。设图像的长为M，宽为N，单位是像素。R(i,j)、G(i,j)、B(i,j)分别表示图像上坐标为(i,j)处像素的RGB各个分量的值。图像中RGB各个分量的平均值R_a、G_a、B_a为

\{\begin{matrix} R_{a} = \frac{1}{MN} Σ_{i = 0}^{M - 1} Σ_{j = 0}^{N - 1} R (i, j); \\ G_{a} = \frac{1}{MN} Σ_{i = 0}^{M - 1} Σ_{h = 0}^{N - 1} G (i, j); \\ B_{a} = \frac{1}{MN} Σ_{i = 0}^{M - 1} Σ_{j = 0}^{N - 1} B (i, j); \end{matrix} - - - (1)

对一幅色调正常的人脸图像，脸部肤色R_a、G_a、B_a的关系为R_a>G_a>B_a。统计出整幅图像的R_a、G_a、B_a以后，如果R_a<B_a或者R_a<G_a，那么就做如下处理：

\{\begin{matrix} G (i, j) = G (i, j) - (G_{a} - R_{a}); \\ B (i, j) = B (i, j) - (B_{a} - R_{a}); \end{matrix} - - - (2)

人脸检测与定位模块：人脸检测与定位模块的原理是利用肤色模型进行人脸检测与定位，人脸检测与定位方法具体为：

(1)RGB颜色空间转换为YC_bC_r颜色空间

在YC_bC_r颜色空间中，人脸肤色的分布聚类性较好，所以将图像转换为YC_bC_r空间，具体方法如下：

\{\begin{matrix} Y = 0.257 R + 0.564 G + 0.098 B + 16 \\ G_{b} = - 0.148 R - 0.291 G + 0.439 B + 128 \\ G_{r} = 0.439 R - 0.368 G - 0.071 B + 128 \end{matrix} - - - (3)

(2)在YC_bC_r颜色空间进行非线性分段色彩变换

由于YC_bC_r色彩格式是由RGB色彩空间线性转换得到，所以其亮度分量Y并不是完全独立于色度信息。为了考虑色度分量与Y值的关系，对YC_bC_r色彩空间进行非线性分段色彩变换。经过非线性变换得到的色彩空间用YC_b’C_r’表示，具体的转换公式如下：

其中，i表示b或者r。本发明建议设置K_l=125，K_h=188，WCb=46.97,WC_r=38.76，WLC_b=23，WLC_r=20，WHC_b=14，WHC_r=10。

(3)肤色区域的判断

将YC_b’C_r’空间中的C’_b与C’_r的值代入下面的判决公式，若小于等于1，表示该区域是肤色区域；否则，该区域不是肤色区域。

\frac{{(x - {ec}_{x})}^{2}}{a^{2}} + \frac{{(y - {ec}_{y})}^{2}}{b^{2}} \leq 1, - - - (8)

其中，

(\begin{matrix} x \\ y \end{matrix}) = (\begin{matrix} \cos θ & \sin θ \\ - \sin θ & \cos θ \end{matrix}) (\begin{matrix} {C_{b}}^{'} - c_{x} \\ {C_{r}}^{'} - c_{y} \end{matrix}) .

本发明设置c_x=109.8，c_y=152.2，θ=2.53(弧度)，ec_x=1.60，ec_y=2.41，a=25.39，b=14.03。

(4)区域填充

在肤色区域判断以后，人脸区域有一些黑块，可用区域填充来进行去除。区域填充的原理是基于数学形态学的拓展，区域填充的公式为：

X_{k} = (X_{k - 1} &CirclePlus; B) \cap A^{c} - - - (9)

其中，B是结构元素，A^c表示集合A的补集。

待处理的目标图像如图2(a)所示。处理使用的结构元素如图2(b)所示。当k=1时，X_k-1=X₀，令X₀=p，即如图2(c)描述的点。首先将该点赋值为1，然后进行式(9)描述的运算。如果X_k-1=X_k，则区域填充算法在迭代的第k步结束。待处理的目标图像区域填充处理的结果如图2(d)所示。

(5)人脸定位

对于区域填充处理后的图像，图像中可能还有与皮肤类似的其他连通区域的干扰，比如颈项、手、胳膊等人体区域，或环境中颜色与肤色相近的物体，所以要进一步根据人脸的几何特征筛选出有效人脸区域。对于处理后的连通区域，假设SW是外接矩形的像素数，SN是目标区域的像素数，若0.5<SN/SW<0.9，就暂时保留这个区域；否则，就删除该区域。经过这样判断处理后，得到的只是人脸的大体区域（这里面包含非人脸区域），这还需用其他筛选准则将人脸区域挑选出来。依据人脸的几何特点，本发明采取人脸的长宽比进行筛选。

根据人脸特征的统计，人脸的长宽比大致在(0.6,1.5)区间。考虑到人脸区域和颈项区域大都是连通的，所以本发明将长宽比修正到(0.6,2)区间。

眉毛与眼睛区域的定位模块：眉毛与眼睛区域的定位模块利用人脸区域中眉毛和眼睛灰度梯度变化大的特点，来完成眉毛与眼睛区域的定位；眉毛与眼睛区域的定位方法为：本发明先计算图像中每个像素在八个相邻方向上的灰度梯度值的绝对值，选取这八个灰度值的平均值作为该像素点的像素值；然后，再用一个子矩阵在梯度处理后的图像矩阵中移动量化这些平均值。这样处理后，在其中的子矩阵中，选取灰度总值比较大的若干子块，然后合并包含这些子块的最大外接矩形，所得到的一个区域作为眉眼区域。这样做能克服头部倾斜、毛发遮挡等干扰因素的影响，从而较准确地定位出眉眼区域。

(1)积分图原理

垂直积分图UII(x,y)的原理如图3所示，具体定义为：

UII (x, y) = \underset{0 \leq x^{'} \leq x}{Σ} \underset{0 \leq y^{'} \leq y}{Σ} I (x^{'}, y^{'}) - - - (10)

其中，I(x’,y’)表示图像中坐标(x’,y’)处的像素点的灰度值。UII(x,y)可以通过从左到右，从上到下，遍历一次原始图像来计算，具体如下：

UII(x,y)＝UII(x-1,y)+UII(x,y-1)-UII(x-1,y-1)+I(x,y) (11)

其中，UII(x,-1)=0,

UII(-1,y)=0,

利用垂直积分图，可在较短时间内获得原始图像中任意大小矩形区域的像素灰度之和，该值标记为RGS(Rectangle Gray Sum)，具体见图4：

设(x,y)为垂直矩阵的右下角坐标。w,h为垂直矩阵的宽度和长度。则原始图像的垂直矩阵u为

u=(x,y,w,h) (12)

其RGS为:

RGS(u)=UII(x,y)-UII(x-w,y)-UII(x,y-h)+UII(x-w,y-h) (13)

(2)眉眼区域定位的方法

图像中眉毛、眼睛的灰度最大，与周围特征相比，其灰度变化也较大。利用这一特点，计算人脸区域中每一像素周围八邻域方向的梯度值，然后求其平均值，使其最大可能地包含眉眼区域灰度的变化。本发明首先在已经定位人脸的范围内进行一次下采样处理，以减少计算量，进而减少定位时间，同时，也会减少后面Hough圆检测的计算量。另外，本发明只遍历了图像的上半部分，这也减少了计算量。为了说明方便，图像的灰度矩阵用如图4形式表示。(i,j)处像素的各个方向的梯度为

\{\begin{matrix} G_{x 1} (i, j) = f (i, j) - f (i - 1, j) \\ G_{x 2} (i, j) = f (i, j) - f (i + 1, j) \\ G_{y 1} (i, j) = f (i, j) - f (i, j - 1) \\ G_{y 2} (i, j) = f (i, j) - f (i, j + 1) \\ G_{z 1} (i, j) = f (i, j) - f (i - 1, j - 1) \\ G_{z 2} (i, j) = f (i, j) - f (i - 1, j + 1) \\ G_{z 3} (i, j) = f (i, j) - f (i + 1, j - 1) \\ G_{z 4} (i, j) = f (i, j) - f (i + 1, j + 1) \end{matrix} - - - (14)

其中，f(i,j)为图像点(i,j)的灰度值，G_x1(i,j)、G_x2(i,j)、G_y1(i,j)、G_y2(i,j)、G_z1(i,j)、G_z2(i,j)、G_z3(i,j)、G_z4(i,j)分别是x方向、y方向、45°方向的梯度值。

计算八个梯度绝对值的平均值，则有

avg (i, j) = \frac{1}{8} Σ (Σ | G_{x} | + Σ | G_{y} | + Σ | G_{z} |) - - - (15)

在经平均处理后的梯度矩阵中，任选一子块K，子块大小由图像大小确定，子块K中的梯度变化量为

E = \underset{i, j &Element; K}{Σ} \log [1 + avg (i, j)] - - - (16)

式(16)中引入对数是为了消除边缘较强的影响。选好子块K后，需要确定子块的步长。如果以像素为步长移动子块，将会增大算法的计算量；若以子块的长或者宽为步长移动子块，则由于信息量过少而造成定位错误，故需要合理地选取步长。

设stepy和stepx分别表示纵向和横向步长，n和m分别表示子块的宽度和长度。文献（严超,苏光大.人脸特征的定位与提取.中国图形图像学报.1998,3(5):30-35.）研究结果表明，对于N×M的图像，n、m可分别取为N、M的5%～15%，此时能基本覆盖眉毛与眼睛区域；但stepy、stepx分别取为n、m的20%～40%时，可在检测精度与计算量之间较好地折中。利用积分图原理计算每个子块的灰度和时，通过遍历一次图像，就可计算出整幅图像各个子块的灰度和，从而降低了算法复杂度。选出子块灰度和幅值最大的若干个子块，并将其中相邻或重叠的子块合并为一个矩形区域，就可得到候选的眉毛与眼睛区域。经大量实验验证，眉毛与眼睛区域的矩形区域应该是上面所求的矩形区域的1.05～1.2倍，本发明中取1.1倍。

人眼粗定位模块

(1)Hough圆检测原理

Hough圆检测需要将图像转换为3个变量的参数空间，如图5所示，图5(a)是数字图像的原始空间，图5(b)是由半径为R、圆心为(X,Y)所组成的参数空间。图5(b)中的Δr、Δx、Δy是参数空间的步长，即量化值。这些步长将参数空间分割成众多较小的单位空间，而每个较小的单位空间可以看作‘格子’。同一圆心、同一半径的像素点转换到参数空间后，记录在同一个单位空间-‘格子’。这样，数字图像原先空间的每个像素点通过Hough变换的映射关系，都相应地映射到了参数空间的‘格子’里，这样对每个‘格子’进行计数，然后设定一个适当阈值，选出大于阈值的‘格子’，这样，待检测的圆就被检测出来。这里‘格子’表示：半径r，圆心(x,y)。

用Hough圆检测3个参数的关系的表达式为

(x-a)²+(y-a)²＝R² (17)

其中，(a,b)为圆心坐标，R是半径。

(2)瞳孔圆检测

对眉毛与眼睛区域，本发明用Hough圆检测方法来对半径在人眼范围内所有的圆进行检测，在这些圆中必然包含双眼。在检出的圆中，瞳孔圆的灰度总和较大，但仅用该准则无法准确地将瞳孔圆筛选出来，因为在这些检出来的圆中，有的圆在眉毛中，而眉毛的灰度值同样也比较大，所以还需应用其它准则来将眉毛圆剔除。考虑到眼睛周围灰度变化较剧烈，本发明根据圆周上像素点的梯度值是否足够大来将眉毛圆剔除。瞳孔圆检测的具体步骤如下：

(a)输入图像，将图像一分为二，分别记为g(x₁,y₁)、p(x₂,y₂)。

(b)对要判断的第k个圆，计算第k个圆的表达式：

F_{k} = (1 - w) \frac{H_{k}}{M_{k}} + w \times \frac{S_{k}}{N_{k}} - - - (18)

其中，w是权重，0<w<1，N_k为第k个圆上的像素的总数，S_k为第k个圆上像素的梯度值之和，M_k为待检测圆内像素的总数，H_k为第k个圆内像素的灰度值总和。本发明w=0.5，此时说明两个条件同等重要。

(c)将两个图像g(x₁,y₁)和p(x₂,y₂)分别代入式(18)，使F_k最大的那个圆，判决为瞳孔圆，而其余圆则删除。

瞳孔精确定位模块：根据瞳孔灰度较大的特点，利用求质心的方法进行瞳孔精确定位。瞳孔精确定位的处理方法为：

由于噪声等因素的影响，用Hough圆检测定位的瞳孔位置还有一些偏差。为此，本发明应用图像裁剪、二值化、去噪、区域生长、求区域质心等图像处理方法来对Hough圆检测定位的瞳孔位置进行修正。图像修正处理方法的各个阶段的示例结果如图6（a）至图6（e）所示。

利用眉毛与眼睛区域的结果与Hough圆检测的结果对眼睛区域进行裁剪，以进一步减少计算量，提高定位精度。其具体步骤为：

(a)将眉毛与眼睛区域以中分线一分为二，得到包含左、右眼的两幅图像，分别为f(x₁,y₁)和I(x₂,y₂)，其中x₁∈(n₁,n₂)，y₁∈(m₁,m₂)，x₂∈(n₃,n₄)，y₂∈(m₃,m₄)。

(b)利用Hough圆检测的结果，即左瞳孔半径r₁，圆心(a₁,b₁)，右瞳孔半径r₂，圆心(a₂,b₂)，对其进行裁剪处理

\{\begin{matrix} f^{'} (x, y) = f ({x^{'}}_{1}, {y^{'}}_{1}) & {x^{'}}_{1} &Element; (a_{1} - 1.5 r_{1}, a_{1} + {1.5 r}_{1}), {y^{'}}_{1} &Element; (m_{1}, m_{2}) \\ I^{'} (x, y) = I ({x^{'}}_{2}, {y^{'}}_{2}) & {x^{'}}_{2} &Element; (a_{2} - {1.5 r}_{2}, a_{2} + {1.5 r}_{2}), {y^{;}}_{1} &Element; (m_{3}, m_{4}) \end{matrix} - - - (19)

(c)对裁剪处理后的左、右眼图像进行二值化处理和3×3中值滤波去噪。中值滤波器的具体公式见式(20)。中值滤波的原理是把一个滑动窗口内的诸像素灰度排序，用中间值代替窗口中心像素原来的灰度：

g_{median} (x, y) = \underset{(s, t) &Element; N (x, y)}{median} [f (s, t)] - - - (20)

其中，median代表中值。

(d)对图像进行区域生长，并对灰度值为“1”的连通区域求质心，该质心位置就是修正后的瞳孔位置。求质心的公式为

\{\begin{matrix} x_{m} = \frac{Σ_{i = 0}^{M - 1} Σ_{j = 0}^{N - 1} g (i, j) \cdot i}{Σ_{i = 0}^{M - 1} Σ_{j = 0}^{N - 1} g (i, j)} \\ y_{m} = \frac{Σ_{i = 0}^{M - 1} Σ_{j = 0}^{N - 1} g (i, j) \cdot j}{Σ_{i = 0}^{M - 1} Σ_{j = 0}^{N - 1} g (i, j)} \end{matrix} - - - (21)

其中，M和N是图像的长和宽，g(i,j)是像素点(i,j)处的灰度值或者二值化值，x_m、y_m是所求的质心点的坐标。

至此，瞳孔修正完成。本发明的瞳孔修正方法，修正的效果良好。与其它瞳孔定位方法相比，本发明方法计算量小，计算速度快，能满足嵌入式实时处理的需求。

五种头部姿态判断模块：利用人眼定位的结果来完成五种头部姿态判断；

取视频的第一帧为参考帧(这一帧的图片必须正面，人脸不能倾斜），后面帧数的图像以此为基础来判断是倾斜还是仰视、俯视等。本发明定义：当倾斜角度绝对值小于70°时，就可以判断为向左倾斜或者向右倾斜。如果判断不是左右倾斜，接下来就判断头部姿态是否向上或者向下，即仰视，还是俯视。根据眼睛定位的结果，当定位的水平位置与第一帧图像的人眼定位的水平位置相差的像素数是人脸定位中纵向长度的4%～10%时(本发明是6%，15个像素点)，就判断为头部姿态向上或者向下。若上面的条件都不满足，就判断为无操作。

头部姿态用于人机交互：将头部姿态判断结果用于人机交互的方法为：

首先在电脑上：

（1）平常浏览网页模式：向上、下、左、右的头部姿态，可以定义为鼠标的上、下、左、右操作，或者鼠标的上、下、左击，右击操作；

（2）游戏模式：上、下、左、右的头部姿态，可以代表四个键盘的键值：‘W’，‘S’，‘A’，‘D’。

（3）在智能手机上：上、下的头部姿态，可以定义为向上翻页，向下翻页；左、右的头部姿态，可以定义为向左翻页，向右翻页。

本发明技术方案带来的有益效果：

为验证本发明的有效性，在计算机上进行了实验测试。

表1不同数据库人眼定位结果的统计

人脸数据库类别	测试样本数	眼睛定位正确数	眼睛定位准确率
				IMM人脸库	120	114	95.0%
自制复杂背景人脸库	141	132	93.6%
				网络下载简单背景人脸库	50	45	90.0%
合计	311	291	93.6%

对于人眼定位的测试，采用丹麦技术大学的IMM-FACE Database数据库中正常光照的120张图像，图像的大小为640像素×480像素，以及自制的人脸库。本实验环境参数为CPU IntelR CoreTM i32.4GHz,2G内存，显卡是ATI MobilityRadeon HD5470，***为Window7家庭版，软件编程环境为Matlab2009b。实验结果如图7(a)至图7（l）和表1所示。其中，图7(a)～图7(f)图像取自IMM-FACEDatabase人脸数据库，图7(g)～图7(j)图像取自自制人脸数据库。图7(a)是有胡须干扰的男性图像人眼定位结果示例，图7(b)是有胡须、头发干扰的男性图像人眼定位结果示例，图7(c)是有头发干扰的女性图像人眼定位结果示例，图7(d)无头发干扰的女性图像人眼定位结果示例，图7(e)是头部有倾斜的女性图像人眼定位结果示例，图7(f)是头部有倾斜的男性图像人眼定位结果示例。图7(g)是正脸男性图像人眼定位结果示例，图7(h)是头部有倾斜的男性图像人眼定位结果示例，图7(i)是有复杂背景的男性图像人眼定位结果示例，图7(j)是头部有倾斜、长头发的女性图像人眼定位结果示例，图7(k)是头部、眼部均向上的男性图像人眼定位结果示例，图7(l)是头部、眼部均向下的男性图像的人眼定位结果示例。本发明中的眼睛定位方法对头部姿态、面部表情、胡须干扰、以及头发遮挡等因素比较鲁棒；表1中的统计结果表明，本发明的定位精度高。

在正常光照和背景条件下，对本发明五种头部姿态的判别方法进行了测试，测试环境参数是CPU IntelR CoreTM i32.4GHz,2G内存，显卡是ATI MobilityRadeon HD5470，***为Window7家庭版，软件编程环境为Matlab2009b；测试参数是自制视频：格式AVI，视频大小720像素×480像素，帧速率25帧/秒。测试结果如表2所示。从表2可以看出，本发明对五种头部姿态识别的精度很高。

表2五种头部姿态的识别结果统计

不同头部姿态	测试样本数	正确识别数	识别率
				向上	40	38	95.0%
向下	40	34	85.0%
				向左	48	48	100.0%
向右	40	39	97.5%
				无操作	50	48	96.0%
合计	218	207	95.0%

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于头部姿态的人机交互方法，其特征在于：

首先：利用预处理方法来处理视频采集图像的偏色问题；

其次：利用肤色模型进行人脸检测与定位；

第四：利用Hough圆检测方法检测瞳孔位置；

第六：利用人眼定位的结果来完成五种头部姿态判断；

第七：将头部姿态判断结果用于人机交互。

2.根据权利要求1所述的一种基于头部姿态的人机交互方法，其特征在于：预处理方法为：

设图像的长为M个像素，宽为N个像素；定义R(i,j)、G(i,j)、B(i,j)分别表示图像中坐标为(i,j)处像素的RGB各个分量的值；图像中RGB各个分量的平均值R_a、G_a、B_a为

\{\begin{matrix} R_{a} = \frac{1}{MN} Σ_{i = 0}^{M - 1} Σ_{j = 0}^{N - 1} R (i, j) \\ G_{a} = \frac{1}{MN} Σ_{i = 0}^{M - 1} Σ_{h = 0}^{N - 1} G (i, j) \\ B_{a} = \frac{1}{MN} Σ_{i = 0}^{M - 1} Σ_{j = 0}^{N - 1} B (i, j) \end{matrix};

对一幅色调正常的人脸图像，脸部肤色R_a、G_a、B_a的关系为R_a>G_a>B_a；统计出整幅图像的R_a、G_a、B_a以后，如果R_a<B_a或者R_a<G_a，那么就做如下处理：

\{\begin{matrix} G (i, j) = G (i, j) - (G_{a} - R_{a}) \\ B (i, j) = B (i, j) - (B_{a} - R_{a}) \end{matrix} .

3.根据权利要求1所述的一种基于头部姿态的人机交互方法，其特征在于：人脸检测与定位方法为：

(1)RGB颜色空间转换为YC_bC_r颜色空间

\{\begin{matrix} Y = 0.257 R + 0.564 G + 0.098 B + 16 \\ G_{b} = - 0.148 R - 0.291 G + 0.439 B + 128 \\ G_{r} = 0.439 R - 0.368 G - 0.071 B + 128 \end{matrix}

(2)在YC_bC_r颜色空间进行非线性分段色彩变换

由于YC_bC_r色彩格式是由RGB色彩空间线性转换得到，所以其亮度分量Y并不是完全独立于色度信息；为了考虑色度分量与Y值的关系，对YC_bC_r色彩空间进行非线性分段色彩变换，经过非线性变换得到的色彩空间用YC_b’C_r’表示，具体的转换公式如下：

其中，i表示b或者r；设置K_l=125，K_h=188，WC_b=46.97,WC_r=38.76，WLC_b=23，WLC_r=20，WHC_b=14，WHC_r=10，

(3)肤色区域的判断

将YC_b’C_r’空间中的C’_b与C’_r的值代入下面的判决公式，若小于等于1，表示该区域是肤色区域；否则，该区域不是肤色区域；

\frac{{(x - {ec}_{x})}^{2}}{a^{2}} + \frac{{(y - {ec}_{y})}^{2}}{b^{2}} \leq 1, - - - (8)

其中，

(\begin{matrix} x \\ y \end{matrix}) = (\begin{matrix} \cos θ & \sin θ \\ - \sin θ & \cos θ \end{matrix}) (\begin{matrix} {C_{b}}^{'} - c_{x} \\ {C_{r}}^{'} - c_{y} \end{matrix}),

设置c_x=109.8，c_y=152.2，θ=2.53弧度，ec_x=1.60，ec_y=2.41，a=25.39，b=14.03，

(4)区域填充

在肤色区域判断以后，人脸区域有一些黑块，可用区域填充来进行去除；区域填充的原理是基于数学形态学的拓展，区域填充的公式为：

X_{k} = (X_{k - 1} &CirclePlus; B) \cap A^{c} - - - (9)

其中，B是结构元素，A^c表示集合A的补集；

当k=1时，X_k-1=X₀，令X₀=p；首先将该点赋值为1，然后进行运算；如果X_k-1=X_k，则区域填充算法在迭代的第k步结束；

(5)人脸定位

对于处理后的连通区域，假设SW是外接矩形的像素数，SN是目标区域的像素数，若0.5<SN/SW<0.9，就暂时保留这个区域；否则，就删除该区域；经过这样判断处理后，得到的只是人脸的大体区域，人脸的大体区域包含非人脸区域，这还需用其他筛选准则将人脸区域挑选出来；依据人脸的几何特点，采取人脸的长宽比进行筛选；根据人脸特征的统计，人脸的长宽比大致在(0.6,1.5)区间；考虑到人脸区域和颈项区域大都是连通的，所以将长宽比修正到(0.6,2)区间。

4.根据权利要求1所述的一种基于头部姿态的人机交互方法，其特征在于：眉毛与眼睛区域的定位方法为：

（1）垂直积分图UII(x,y)的定义为：

UII (x, y) = \underset{0 \leq x^{'} \leq x}{Σ} \underset{0 \leq y^{'} \leq y}{Σ} I (x^{'}, y^{'}) - - - (10)

其中，I(x’,y’)表示图像中坐标(x’,y’)处的像素点的灰度值；UII(x,y)可以通过从左到右，从上到下，遍历一次原始图像来计算，具体如下：

UII(x,y)＝UII(x-1,y)+UII(x,y-1)-UII(x-1,y-1)+I(x,y) (11)

其中，UII(x,-1)=0,

UII(-1,y)=0,

利用垂直积分图可在较短时间内获得原始图像中任意大小矩形区域的像素灰度之和，该值标记为RGS：

设(x,y)为垂直矩阵的右下角坐标；w,h为垂直矩阵的宽度和长度；则原始图像的垂直矩阵u为

u=(x,y,w,h)， (12)

其RGS为：

RGS(u)=UII(x,y)-UII(x-w,y)-UII(x,y-h)+UII(x-w,y-h)， (13)

(2)眉眼区域定位的方法

图像中眉毛、眼睛的灰度最大，与周围特征相比，其灰度变化也较大；利用这一特点，计算人脸区域中每一像素周围八邻域方向的梯度值，然后求其平均值，使其最大可能地包含眉眼区域灰度的变化；首先在已经定位人脸的范围内进行一次下采样处理，以减少计算量，进而减少定位时间，同时，也会减少后面Hough圆检测的计算量；另外，由于只遍历了图像的上半部分，这也减少了计算量；(i,j)处像素的各个方向的梯度为

\{\begin{matrix} G_{x 1} (i, j) = f (i, j) - f (i - 1, j) \\ G_{x 2} (i, j) = f (i, j) - f (i + 1, j) \\ G_{y 1} (i, j) = f (i, j) - f (i, j - 1) \\ G_{y 2} (i, j) = f (i, j) - f (i, j + 1) \\ G_{z 1} (i, j) = f (i, j) - f (i - 1, j - 1) \\ G_{z 2} (i, j) = f (i, j) - f (i - 1, j + 1) \\ G_{z 3} (i, j) = f (i, j) - f (i + 1, j - 1) \\ G_{z 4} (i, j) = f (i, j) - f (i + 1, j + 1) \end{matrix} - - - (14)

其中，f(i,j)为图像点(i,j)的灰度值，G_x1(i,j)、G_x2(i,j)、G_y1(i,j)、G_y2(i,j)、G_z1(i,j)、G_z2(i,j)、G_z3(i,j)、G_z4(i,j)分别是x方向、y方向、45°方向的梯度值；计算八个梯度绝对值的平均值，则有：

avg (i, j) = \frac{1}{8} Σ (Σ | G_{x} | + Σ | G_{y} | + Σ | G_{z} |), - - - (15)

在经平均处理后的梯度矩阵中，任选一子块K，子块大小由图像大小确定，子块K中的梯度变化量为：

E = \underset{i, j &Element; K}{Σ} \log [1 + avg (i, j)] - - - (16)

式(16)中引入对数是为了消除边缘较强的影响；选好子块K后，需要确定子块的步长；如果以像素为步长移动子块，将会增大算法的计算量；若以子块的长或者宽为步长移动子块，则由于信息量过少而造成定位错误，故需要合理地选取步长，设stepy和stepx分别表示纵向和横向步长，n和m分别表示子块的宽度和长度；眉毛与眼睛区域的矩形区域应该是上面所求的矩形区域的1.05～1.2倍，取1.1倍。

5.根据权利要求1所述的一种基于头部姿态的人机交互方法，其特征在于：检测瞳孔位置方法为：

(1)Hough圆检测需要将数字图像转换为3个变量的参数空间，即由半径为R、圆心为(X,Y)所组成的参数空间，参数空间的步长是Δr、Δx、Δy，即量化值；这些步长将参数空间分割成众多的较小单位空间；同一圆心、同一半径的像素点转换到参数空间后，记录在同一个单位空间；这样数字图像的每个像素点通过Hough变换的映射关系，都映射到了参数空间里，这样对每个单位空间中的像素数目进行计数，然后设定一个适当阈值，选出大于阈值的参数空间，就能检测出待检测的圆；这里单位空间表示：半径r，圆心(x,y)；用Hough圆检测3个参数的关系的表达式为

(x-a)²+(y-b)²＝R²， (17)

其中，(a,b)为圆心坐标，R是半径；

(2)瞳孔圆检测；瞳孔圆检测的具体步骤如下：

(a)输入图像，将图像一分为二，分别记为g(x₁,y₁)、p(x₂,y₂)；

(b)对要判断的第k个圆，计算第k个圆的表达式：

F_{k} = (1 - w) \frac{H_{k}}{M_{k}} + w \times \frac{S_{k}}{N_{k}}, - - - (18)

其中，w是权重，0<w<1，N_k为第k个圆上的像素的总数，S_k为第k个圆上像素的梯度值之和，M_k为待检测圆内像素的总数，H_k为第k个圆内像素的灰度值总和；w=0.5，此时说明两个条件同等重要；

6.根据权利要求1所述的一种基于头部姿态的人机交互方法，其特征在于：瞳孔精确定位的处理方法为：

利用眉毛与眼睛区域的结果与Hough圆检测的结果对眼睛区域进行裁剪，以进一步减少计算量，提高定位精度；其具体步骤为：

(a)将眉毛与眼睛区域以中分线一分为二，得到包含左、右眼的两幅图像，分别为f(x₁,y₁)和I(x₂,y₂)，其中x₁∈(n₁,n₂)，y₁∈(m₁,m₂)，x₂∈(n₃,n₄)，y₂∈(m₃,m₄)，

\{\begin{matrix} f^{'} (x, y) = f ({x^{'}}_{1}, {y^{'}}_{1}) & {x^{'}}_{1} &Element; (a_{1} - 1.5 r_{1}, a_{1} + {1.5 r}_{1}), {y^{'}}_{1} &Element; (m_{1}, m_{2}) \\ I^{'} (x, y) = I ({x^{'}}_{2}, {y^{'}}_{2}) & {x^{'}}_{2} &Element; (a_{2} - {1.5 r}_{2}, a_{2} + {1.5 r}_{2}), {y^{;}}_{1} &Element; (m_{3}, m_{4}) \end{matrix} - - - (19)

(c)对裁剪处理后的左、右眼图像进行二值化处理和3×3中值滤波去噪，中值滤波具体见式(20)，中值滤波的原理是把一个滑动窗口内的诸像素灰度排序，用中间值代替窗口中心像素原来的灰度：

g_{median} (x, y) = \underset{(s, t) &Element; N (x, y)}{median} [f (s, t)], - - - (20)

其中，median表示搜索出的中值；

(d)对图像进行区域生长，并对灰度值为“1”的连通区域求质心，该质心位置就是修正后的瞳孔位置，求质心的公式为

\{\begin{matrix} x_{m} = \frac{Σ_{i = 0}^{M - 1} Σ_{j = 0}^{N - 1} g (i, j) \cdot i}{Σ_{i = 0}^{M - 1} Σ_{j = 0}^{N - 1} g (i, j)} \\ y_{m} = \frac{Σ_{i = 0}^{M - 1} Σ_{j = 0}^{N - 1} g (i, j) \cdot j}{Σ_{i = 0}^{M - 1} Σ_{j = 0}^{N - 1} g (i, j)} \end{matrix} - - - (21)

7.根据权利要求1所述的一种基于头部姿态的人机交互方法，其特征在于：五种头部姿态判断的处理方法为：

取视频的第一帧为参考帧，这一帧的图片必须正面，人脸不能倾斜，后面帧数的图像以此为基础来判断是倾斜还是仰视、俯视等；当倾斜角度绝对值小于70°时，就可以判断为向左倾斜或者向右倾斜；如果判断不是左右倾斜，接下来就判断头部姿态是否向上或者向下，即仰视，还是俯视；根据眼睛定位的结果，当定位的水平位置与第一帧图像的人眼定位的水平位置相差的像素数是人脸定位中纵向长度的6%，即15个像素点时，就判断为头部姿态向上或者向下；若上面的条件都不满足，就判断为无操作。

8.根据权利要求1所述的一种基于头部姿态的人机交互方法，其特征在于：头部姿态用于人机交互的处理方法为：

将已经识别的头部姿态用于人机交互，首先在电脑上：

(1)平常浏览网页模式：向上、下、左、右的头部姿态，可以定义为鼠标的上、下、左、右操作，或者鼠标的上、下、左击，右击操作；

(2)游戏模式：上、下、左、右的头部姿态，可以代表四个键盘的键值：‘W’，‘S’，‘A’，‘D’；

(3)在智能手机上：上、下的头部姿态，可以定义为向上翻页，向下翻页；左、右的头部姿态，可以定义为向左翻页，向右翻页。