CN111582086A

CN111582086A - 基于多特征的疲劳驾驶识别方法及***

Info

Publication number: CN111582086A
Application number: CN202010338222.XA
Authority: CN
Inventors: 胡峰松; 彭清舟; 徐蓉; 程哲坤
Original assignee: Hunan University; CERNET Corp
Current assignee: Hunan University; CERNET Corp
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2020-08-25

Abstract

本发明公开了一种基于多特征的疲劳驾驶识别方法及***，所述方法及***对图像进行预处理，不仅滤除了噪声，且避免了因图像受外界环境因素影响而导致图像质量差、检测精度低的问题；采用AdaBoost算法可以稳定、快速、高效地检测人脸，降低了人脸检测的复杂度；基于尺度空间的面部目标跟踪算法采用自适应的高置信度更新策略，当在目标跟踪阶段发生错误时，目标检测的置信度较低，不更新模型，有效地降低了跟踪算法漂移的危险，提高了跟踪精度；采用SVM分类器进行眼部状态识别，提高了眼部状态识别的精度，因此，该方法识别精度高，对环境的适应力强。

Description

基于多特征的疲劳驾驶识别方法及***

技术领域

本发明属于驾驶安全技术领域，尤其涉及一种基于多特征的疲劳驾驶识别方法及***。

背景技术

现如今驾驶员疲劳检测技术越来越成熟，疲劳检测方法主要可分为三类：

一是基于车辆的检测方法，主要是通过采集车辆驾驶参数，分析参数的异常波动来判断疲劳状态。该类检测方法包括方向盘转角程度检测、方向盘转向握力检测，车速检测、车辆偏移检测、制动踏板力检测和加速踏板力检测等。目前的车辆大多均配备有不同类型的传感器，用于收集行车车速、方向盘角度、燃油消耗和发动机转速等实时参数，通过单独或综合分析这些数据可以间接地检测驾驶人员的疲劳状态。但是，该类方法的分析结果容易受到个人驾驶习惯、天气、车辆特性及道路状况等外界环境因素的影响，健壮性不强，识别准确度低。而且只有在驾驶员即将发生交通事故时才能检测到异常，不能提前预警。因此，该类方法的分析结果最好用作辅助检测指标而不是主要的检测指标。

二是基于驾驶员的检测方法，该类方法又可以分为基于驾驶员生理参数和基于驾驶员行为特征。相关研究表明，当驾驶员处于疲劳状态时，生理反应会变慢，身体对外界的刺激反应会有所延迟，生理指标会偏离正常值。因此，通过生理传感器采集的驾驶员生理参数可用来判断驾驶员是否处于疲劳状态，其主要是基于脑电信号(EEG)、心电信号(ECG)及肌电信号(EMG)等生理参数来进行检测的。但是，在实际疲劳检测应用中，由于生理参数个体差异性较大，易受到驾驶员的性别、年龄、体型等因素影响，不利于采用统一标准进行疲劳判断，在实际应用中受到一定的限制。当驾驶员比较困倦时，其面部特征将与清醒状态的面部特征不同。因此，利用计算机视觉技术分析驾驶员的面部特征数据，是一种有效的实时疲劳驾驶检测方法。该方法提取的特征参数主要有眼动特性(眨眼频率，PERCLOS，眼睛睁闭程度，注视方向等)、嘴部状态(打哈欠频率等)及头部位置。由于头部和面部特征的变化比较明显，易于被检测到。但是，特征提取即检测结果易受到遮挡和光照等因素的影响，导致识别准确度低。

三是基于信息融合的检测方法，该类检测方法融合多种疲劳特征，相比于基于单一特征息疲劳检测方法的检测精度和可靠性都有所提高，但是使用现有技术提取各种特征并建立基于信息融合检测方法的模型存在较大挑战，且建立的疲劳检测模型对复杂环境的适用性较差。

发明内容

针对现有技术的不足，本发明提供一种基于多特征的疲劳驾驶识别方法及***，以解决现有检测方法识别准确度低、适应性差的问题。

本发明是通过如下的技术方案来解决上述技术问题的：一种基于多特征的疲劳驾驶识别方法，包括：

步骤1：实时获取视频单帧图像，并对视频单帧图像进行预处理；

步骤2：对经过预处理后的视频图像采用基于Haar-like特征的AdaBoost算法进行人脸检测，并采用基于尺度空间的目标跟踪算法实时跟踪检测到的人脸；

步骤3：对人脸的特征点进行定位，再根据定位后的特征点分别定位眼部区域和嘴部区域，并采用SVM分类器识别眼部状态，通过计算嘴部纵横比来识别嘴部状态；

步骤4：根据眼部状态和嘴部状态分别计算眼部疲劳参数和嘴部疲劳参数，根据定位到的特征点位置信息计算头部疲劳参数；

步骤5：根据眼部疲劳参数、嘴部疲劳参数以及头部疲劳参数进行驾驶员的疲劳状态识别和预警。

本发明所述方法对图像进行预处理，不仅滤除了噪声，且避免了因图像受外界环境因素影响而导致图像质量差、检测精度低的问题；采用Ad_aBoo_st算法可以稳定、快速、高效地检测人脸，降低了人脸检测的复杂度；基于尺度空间的面部目标跟踪算法采用自适应的高置信度更新策略，当在目标跟踪阶段发生错误时，目标检测的置信度较低，不更新模型，有效地降低了跟踪算法漂移的危险，提高了跟踪精度；采用SVM分类器进行眼部状态识别，提高了眼部状态识别的精度，因此，该方法识别精度高，对环境的适应力强。

进一步地，所述步骤1中，视频单帧图像的预处理过程为：

步骤1.1：对视频单帧图像进行平滑去噪处理；

步骤1.2：对平滑去噪处理后的视频图像进行光照补偿处理。

通过对视频图像的预处理，能够滤除掉图像中存在的噪声干扰，避免了图像受到外界环境因素的影响，提高了图像的质量，提高了后续检测分析的准确性。

进一步地，所述步骤1.1中，采用自适应中值滤波对视频图像进行平滑去噪处理。

自适应中值滤波在噪声密度较大时可以同时兼顾去噪和保留图像的细节信息，有效地滤除了原始图像中存在的噪声干扰，在改善图像的质量的同时又可以保留图像中的有用信息，提高了信噪比，使图像能够更好地适应特定场景的应用。

进一步地，所述步骤1.2中，采用基于动态阈值的光照均衡算法对光照明暗不一的视频图像进行光照补偿处理。

避免了因图像受光分布不均匀导致的不能准确检测到人脸并进行特征提取的问题，避免了图像受到光照强度、光源颜色与位置等因素的影响。

进一步地，所述步骤2中，AdaBoost算法进行人脸检测的具体操作步骤为：

步骤2.11：利用积分图计算图像的Haar-like特征；

步骤2.12：对于Haar-like特征，通过训练迭代选取最优弱分类器，按照加权投票的方式将弱分类器构造为一个强分类器；

步骤2.13：再将训练得到的多个强分类器串联成一个级联结构的层叠分类器；

步骤2.14：采用层叠分类器对图像进行人脸检测。

进一步地，所述步骤2中，采用基于尺度空间的目标跟踪算法对检测到的人脸进行实时跟踪，具体操作步骤为：

步骤2.21：将人脸检测到的人脸区域及尺度作为目标的初始位置P₁及尺度S₁，并对人脸区域进行位置相关滤波器及尺度相关滤波器训练得到位置模型

和尺度模型

步骤2.22：根据上一帧I_t-1的目标位置P_t-1和尺度S_t-1，在当前帧I_t中采集一个尺度为上一帧目标2倍大小的特征样本

利用特征样本

和上一帧的位置模型

计算位置相关滤波器的最大响应值而得到目标的新位置P_t；

步骤2.23：根据确定的目标的新位置P_t，以当前新位置为中心点，利用一维尺度相关滤波器，根据放缩规则获取S个不同尺度的候选样本，分别对每个候选样本提取d维特征得到当前帧的特征样本

然后利用特征样本

和尺度模型

计算1×S维尺度相关滤波器的响应值，最大的响应值所对应的尺度为最终目标的尺度S_t；

步骤2.24：若当前帧相关滤波器的最大响应值和平均峰值相关能量均满足更新策略条件，则在当前帧I_t中根据位置P_t和尺度S_t提取特征f_t ^trans、f_t ^scale，更新位置模型

和尺度模型

否则在当前帧I_t中重新进行人脸检测；

所述更新策略条件为最大响应值和平均峰值相关能量分别大于比率β₁和比率β₂，β₁为0.7，β₂为0.45。

优选的，所述位置或尺度相关滤波器的响应值的计算表达式为：

其中，F^-1()为求逆向离散傅里叶变换DFT，y_t为求得的响应值，从特征样本每个像素提取d维特征，其中第l维的特征图记为f^l，l＝1,2,…,d，l为特征的某一维度，λ为正则项的系数，

分别为上一帧中更新的滤波器的分子和分母，

为求取当前帧图像的特征图每一维度的二维DFT。

进一步地，所述步骤3中，采用基于级联回归树算法对人脸的特征点进行定位，所述人脸的特征点包括眼部特征点和嘴部特征点。

进一步地，所述步骤3中，采用SVM分类器识别眼部状态的具体操作为：

以人眼纵横比和人眼二值图像区域黑色像素累积差值作为SVM分类器的输入特征对SVM分类器进行训练，再采用训练好的SVM分类器对眼部状态进行分类识别，提高了眼部状态识别的精度；所述人眼二值图像区域黑色像素累积差值F_黑的计算公式为：

T(t)＝α*|D(t-1)|,α∈[0,1]

其中，N(t)是第t帧的黑色像素数量，△N(t)为第t帧与第t-1帧之间的黑色像素数量的差值，D(t-1)为“状态1”中在第t-1帧的黑色像素数量累积差值，α为0到1之间的恒定值。

进一步地，所述步骤3中，设嘴部纵横比为MAR，当MAR≤0.4时，嘴部为闭合状态；当0.4<MAR≤0.8时，嘴部为正常讲话状态；当MAR>0.8时，嘴部为打哈欠状态。

进一步地，所述步骤4中，眼部疲劳参数包括闭眼帧数所占比、眨眼频率以及最长持续闭眼时间，嘴部疲劳参数包括打哈欠频率，头部疲劳参数包括点头频率；优选的，对所述眼部疲劳参数、嘴部疲劳参数以及头部疲劳参数进行加权求和来识别疲劳状态，具体的加权求和表达式为：

E_疲劳＝V_ECR×W₁+V_MECT×W₂+V_BF×W₃+V_NF×W₄+V_YF×W₅

其中，E_疲劳为加权疲劳值，V_ECR为闭眼帧数所占比，V_MECT为最长持续闭眼时间，V_BF为眨眼频率，V_NF为点头频率，V_YF为打哈欠频率，W_i为不同参数对应的权重值，

优选的，当加权疲劳值小于0.3时，为清醒状态；当加权疲劳值大于等于0.3，且小于0.7时，为疲劳状态；当加权疲劳值大于等于0.7时，为重度疲劳状态。

本发明还提供一种基于多特征的疲劳驾驶识别***，包括：

图像获取及处理单元，用于实时获取视频单帧图像，并对视频单帧图像进行预处理；

人脸检测及跟踪单元，用于对经过预处理后的视频图像采用基于Haar-like特征的AdaBoost算法进行人脸检测，并采用基于尺度空间的目标跟踪算法实时跟踪检测到的人脸；

定位及状态识别单元，用于对人脸的特征点进行定位，再根据定位后的特征点分别定位眼部区域和嘴部区域，并采用SVM分类器识别眼部状态，通过计算嘴部纵横比来识别嘴部状态；

参数计算单元，用于根据眼部状态和嘴部状态分别计算眼部疲劳参数和嘴部疲劳参数，根据定位到的特征点位置信息计算头部疲劳参数；

疲劳状态识别单元，用于根据眼部疲劳参数、嘴部疲劳参数以及头部疲劳参数进行驾驶员的疲劳状态识别和预警。

有益效果

与现有技术相比，本发明所提供的一种基于多特征的疲劳驾驶识别方法及***，对图像进行预处理，不仅滤除了噪声，且避免了因图像受外界环境因素影响而导致图像质量差、检测精度低的问题；采用AdaBoost算法可以稳定、快速、高效地检测人脸，降低了人脸检测的复杂度；基于尺度空间的面部目标跟踪算法采用自适应的高置信度更新策略，当在目标跟踪阶段发生错误时，目标检测的置信度较低，不更新模型，有效地降低了跟踪算法漂移的危险，提高了跟踪精度；采用SVM分类器进行眼部状态识别，提高了眼部状态识别的精度，因此，该方法识别精度高，对环境的适应力强。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一个实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中疲劳驾驶识别方法的流程图；

图2是本发明实施例中人脸检测及面部目标跟踪流程图；

图3是本发明实施例中矩形D₀区域像素和计算示意图；

图4是本发明实施例中面部目标跟踪流程中的目标位置估计流程图；

图5是本发明实施例中尺度滤波器样例；

图6是本发明实施例中面部目标跟踪流程中的目标尺寸估计流程图；

图7是本发明实施例中人脸特征点模型；

图8是本发明实施例中不同角度人脸特征点检测结果；

图9是本发明实施例中基于特征点的人眼定位示意图，图9(a)为人脸特征点模型，图9(b)为人眼定位示意图；

图10是本发明实施例中人眼六个关键点示意图，图10(a)为睁眼状态，图10(b)为闭眼状态；

图11是本发明实施例中EAR均值结果图；

图12是本发明实施例中人眼睁闭眼过程黑色像素数量；

图13是本发明实施例中人眼连续两帧黑色像素数量差值；

图14是本发明实施例中人眼黑色像素数量累积差值；

图15是本发明实施例中自适应阈值人眼黑色像素数量累积差值；

图16是本发明实施例中嘴部10个关键点示意图；

图17是本发明实施例中嘴部MAR检测结果图；

图18是本发明实施例中睁闭眼过程示意图；

图19是本发明实施例中EAR阈值、帧数K_眼值寻优结果图；

图20是本发明实施例中嘴部状态示意图；

图21是本发明实施例中头部运动分析图。

具体实施方式

下面结合本发明实施例中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明所提供的一种基于多特征的疲劳驾驶识别方法，包括：

1、实时获取视频单帧图像，并对视频单帧图像进行预处理，具体预处理过程为：

(1.1)采用自适应中值滤波对视频单帧图像进行平滑去噪处理。

视频图像去噪的最终目的是改善采集图像的质量，保留原始图像中携带的有用信息。通过滤波去噪技术可以有效的解决实际图像由于噪声干扰而导致图像质量下降的问题，增大信噪比，更好的让图像适合特定场景的应用。自适应中值滤波可以根据预先设定好的模板动态改变滤波模板尺寸的大小，同时可以判断当前像素是不是噪声，如果是则用邻域中值替换当前像素值，其处理过程分两步：

步骤A：令

如果A₁>0且A₂<0则转到步骤B，否则增大滤波模板尺寸，记增大后的模板尺寸为S_模板；如果S_模板≤S_模板max则重复步骤A，否则令Z_xy＝Z_med，输出Z_xy；

步骤B：令

如果B₁>0且B₂<0则输出Z_xy，否则输出Z_med；

其中，S_模板为滤波模板矩阵尺寸，点(x,y)为滤波模板矩阵的中心点，S_xy表示以点(x,y)为中心的滤波区域，S_模板max为滤波模板(滤波窗口)允许的最大窗口尺寸，Z_min为滤波窗口中最小像素值，Z_max为滤波窗口中最大像素值，Z_med为滤波窗口中像素值的中值，Z_xy为点((x,y)处的像素值。

为了比较不同滤波方法对图像平滑去噪的效果，对测试图像分别加了强度为0.1的椒盐噪声和均值为0.1、方差为20的高斯噪声，然后使用不同滤波方法分别对加椒盐噪声和高斯噪声图像进行平滑去噪处理，并对不同方法的处理结果进行比较分析。经过对比发现，中值滤波和自适应中值滤波对椒盐噪声的去噪效果明显比其他两种方法好，而均值滤波对高斯噪声有较好的去除效果。

表1椒盐噪声各算法指标对比

为了更客观的验证每种方法的去噪效果，分别计算每种滤波方法对图像处理前后的均方误差MSE和峰值信噪比PSNR及算法运行时间T，MSE和PSNR计算公式如式(1)、(2)所示，结果分析如表1和2。

其中，f(x,y)表示大小为M×N的加噪图像，f^*(x,y)表示滤波去噪后的图像。

其中，MAX为图像中可以采用的最大像素值。

表2高斯噪声各算法指标对比

经过综合分析，前面三种滤波方法都能达到一定程度的去噪效果，但都需要提前设定好滤波模板，而且在对图像进行滤波去噪时，往往会使图像中的边缘细节和轮廓变得模糊，需要后期再对图像进行锐化处理来突出图像的边缘信息。因此为了能在平滑去噪的同时最大程度的保留图像细节信息，本发明使用自适应滤波算法来提高图像去噪能力。

(1.2)采用基于动态阈值的光照均衡算法对光照明暗不一的视频图像进行光照补偿处理。

由于采集到的视频图像色彩信息易受到光照亮度、光源颜色与位置等因素的影响，导致视频图像受光分布不均匀。为了能从不能强度光照的人脸图像中准确检测到人脸并进行特征提取，需要先对图像进行光照均衡处理。根据(3)式将图像从RGB颜色空间转为YCbC_r颜色空间对图像进行光照均衡处理。

处理过程分为基于动态阈值检测参考白点和图像像素调整两步。对于参考白点的选取：首先将图像根据适当的高宽比(块大小)分为M块区域，对每个块计算Cb、Cr的平均值M_b、M_r，然后由式(4)分别计算其平均绝对差值D_b、D_r。

其中，N为图像块的像素点总数，C_b(i,j)和C_r(i,j)为像素点(i,j)的Cb、Cr值(色度值)，对于每个区域块，如果D_b和D_r都过小则说明该块色彩分布较均匀，不需要再作处理；然后对每个需要处理的区域块的M_b、M_r、D_b、D_r求和取平均值后作为整幅图像的M_b、M_r、D_b、D_r值，满足关系式(5)的则为图像近白区域的像素点集。

基于亮度值(Y值)，选择近白区域亮度值前10％的像素点作为参考白点。

对于图像的调整：为了使整个图像的亮度保持相同，可以通过参考白点的在RGB各通道的平均值和整个图像的最大亮度值(Y值的最大值)来得到每个通道的增益R_gain、G_gain、B_gain，计算公式如下：

其中，R_avg、G_avg、B_avg为参考白点在RGB各通道的平均值，Y_max为图像中像素点的最大亮度值。对于图像中每个像素点的像素值通过以下方式进行调整：

R′＝R*R_gain，G′＝G*G_gain，B′＝B*B_gain (7)

其中，R、G、B为图像的原始像素值，R′、G′、B′为图像调整后的像素值。

2、对经过预处理后的视频图像采用基于Haar-like特征的AdaBoost算法进行人脸检测，并采用基于尺度空间的目标跟踪算法实时跟踪检测到的人脸，如图2所示。

Harr-like特征可以分为三类：线性特征、边缘特征、点特征(中心特征)、对角线特征，Harr-like特征值是指白色矩形内所有像素灰度值之和与黑色矩形内所有像素灰度值之和的差值，它反映了图像的灰度变化情况。Haar-like特征可以有效的提取图像的纹理特征，通过平移、缩放模板提取不同位置和尺度的特征值。

由于Haar-like特征矩形模板的类别、大小及位置的变化，使得即使检测模板或窗口的尺寸很小也含有非常多的矩形特征值。如在确定了特征的形式之后，在大小为24*24的检测窗口内矩形特征数量也可以达到数十万个。由于特征数量巨大，所以解决特征的快速计算显得尤为重要。

积分图算法只需要遍历一次图像就能求出图像中任意矩形区域的像素和，很大程度地提高了图像特征值的计算效率。其主要思想：计算图像每个矩形区域从起点到各个点的像素之和，并将计算每个区域的值都作为一个元素保存数组中，当要后续需要计算某个区域的像素和时，可以直接使用数组索引得到目标区域的值，不用重新计算从而加快了计算。

对于积分图上任意一点(i,j)的值是指从灰度图像的左上角与当前点所围成的矩形区域内所有像素点灰度值之和。其积分图计算公式见式(8)：

其中I(x,y)为点(x,y)处的灰度值。积分图通过迭代运算还可以简化表示为下式：

I′(i,j)＝I′(i,j-1)+I′(i-1,j)-I′(i-1,j-1)+I(i,j) (9)

其中边界点

I′(-1,j)＝0,

I′(-1,-1)＝0。

得到积分图后，矩形区域的特征值计算，只与此特征矩形的端点的积分图有关，所以不论特征矩形的尺度变换如何，计算特征值所消耗的时间都是固定的。计算两个矩阵区域像素和之差只需要计算特征区域端点的积分图来进行简单加减运行就可以了，这样可以实现快速计算任意矩形区域的特征值。

以图3中的D₀区域来对积分图算法进行说明：

端点1的积分I′₁＝Sum(A₀)；端点2的积分I′₂＝Sum(A₀)+Sum(B₀)；

端点3的积分I′₃＝Sum(A₀)+Sum(C₀)；端点4的积分I′₄＝Sum(A₀)+Sum(B₀)+Sum(C₀)+Sum(D₀)；

其中Sum(N₁)表示区域N₁的所有像素之和，那么区域D₀的所有像素之和为：

Sum(D₀)＝I′₁+I′₄-I′₂-I′₃ (10)

Ad_aBoo_st算法是一种分类器算法，其算法原理为：利用积分图快速计算图像的H_aar-lik_e特征，通过训练迭代选取最优弱分类器，按照加权投票的方式将弱分类器构造为一个强分类器，再将训练得到的若干强分类器串联成一个级联结构的层叠分类器，从而提高分类器的检测速度和准确率。算法通过正负样本集的概率分布，来训练若干弱分类器，每循环一次则更新一次样本权重，经T次循环后，得到T个弱分类器，通过权重叠加，最终得到的强分类器。

给定一个训练数据集：

T＝{(x_i,y_i)}，i＝1,2,...,N_T (11)

其中，x_i为训练的图像，y_i属于x_i正确分类标签集{-1,+1}，若y_i＝1表示图像为正样本，即为人脸图像，若y_i＝-1，则表示图像为负样本，即图像不包含人脸。对于样本的训练算法流程如下：

①首先初始化训练数据的权值分布，每一个样本最开始的权值相同，令

其中D₁表示第一次迭代，w_1i表示第一次迭代第i个样本的权值。

②进行多轮迭代，令m＝1,2,...,N_T，m为迭代的轮数。在具有权值分布的D_m数据上学习得到误差最低的弱分类器H_m(x):x→{-1,+1}，其分类误差率为：

③弱分类器每轮迭代的权重系数为：

④更新训练集的权值分布：

其中Z_m为归一化因子，

⑤经过不断迭代，组合各个弱分类器最终得到强分类器：

由于开源库OpenCV中封装好了基于haar-like特征的AdaBoost人脸检测算法，本发明利用OpenCV中自带训练好的haarcascade_frontalface_default.xml分类器文件进行人脸检测，CascadeClassifier为OpenCV定义的级联分类器类，其中封装了多尺度检测的方法，输入待检测图像，通过加载检测人脸的xml分类器文件对待测图像进行人脸检测，输出可能的人脸区域矩形框。

表3为在有类肤色背景干扰和无干扰的情况下，使用AdaBoost算法与基于阈值肤色模型进行人脸检测的准确率对比。经对表3的分析，发现当视频图像存在类肤色背景或者人体其他部位存在类肤色区域，这些类肤色的干扰使得基于阈值肤色模型的人脸检测算法检测范围不够精准，可能导致出现误检的情况。而AdaBoost主要根据haar特征进行人脸分类检测，能排除类肤色的干扰，计算效率和准确率都很高，不用做特征筛选可以快速检测出人脸，因此本发明使用AdaBoost算法进行人脸检测。

表3 AdaBoost算法与阈值肤色模型人脸检测准确率对比

考虑到在实际行车过程中，驾驶员的脸部位置变化范围较小，如果对于视频图像的每一帧都进行人脸检测定位，不仅会增加时间复杂度，而且不能充分利用连续帧之间的相互关系。因此，为了能在后续视频图像中更好地定位人脸，提高检测的准确性和鲁棒性，当在第一次检测到人脸后，便采用基于尺度空间的目标跟踪算法实时跟踪检测到的人脸。

DSST(Discriminative Scale Space Tracker，DSST)算法是在MOSSE算法的基础上改进的，虽然MOSEE算法在提升跟踪精度的同时降低了计算的复杂度，极大地改善了相关滤波器跟踪算法的性能，但在求解滤波器时，其输入是图像的灰度特征，模型所使用的特征维数太低，不能很好的反映目标的纹理、边缘等特性。且只估算了目标区域中心点在帧间的平移运动，而没有考虑目标在运动过程中的尺度变化，当目标尺度发生改变时不能很好的跟踪。基于MOSSE算法的不足，M Danelljan,G

F Khan,el at提出了一种三维尺度空间相关滤波器translation-scale联合跟踪方法。DSST将原来的灰度特征替换为HOG特征，使得能够更好的对目标特征进行描述。另外为了更好的适应跟踪目标的尺度变化，增加了一个尺度相关滤波器，通过两个滤波器分别跟踪位置变化和尺度变化。二维位置滤波器(Translation Filter)用于评估目标位置变化，一维尺度滤波器(Scale Filter)用来进行目标尺度估计，三维联合位置和尺度滤波器translation-scale用于目标定位。这两个滤波器相对独立，因此可以使用不同的特征和特征计算方式来进行训练及测试。

(1)位置相关滤波器

①滤波器训练

采集一个尺寸为目标2倍大小的样本，对其每个像素提取d维特征，特征图可记作f^l，l＝1,2,…,d。为了构造最佳相关滤波器h，在不同特征维度l上最小化下面目标函数：

其中★表示循环相关，l表示特征的某一维度，λ为正则项的系数，设值为0.01。λ项是为了避免滤波器频域参数求解过程中出现分母为零的情况，同时也可以控制滤波器参数变化范围，λ越小滤波器参数变化范围越大。预期相关输出g为具有参数化标准偏差的高斯函数，f^l，h^l，g都具有相同的维度和大小。

对式(18)做傅里叶变换，通过求偏导并令导数为0，得到滤波器

其中大写字母表示离散傅里叶变换(DFT)后的相应值，即对f的每一个维度的特征做二维的DFT得到F^l，对g做二维的DFT得到G。

对于所有训练样本{f₁,f₂,...,f_t}，为了简化(19)式的计算，分别更新滤波器

的分子

和分母

其计算式如下：

其中η表示应学习率(η＝0.025)，t表示样本数。将G和F都代入上述等式，可以得到滤波器模板H的值。式(19)简化后的计算式为：

②目标位置估计

如图4所示的目标位置估计过程，对于第t帧图像的特征图z_t，同样求取z每一维度的二维的DFT得到

目标位置通过求逆向DFT得到最大相关滤波响应值y_t来确定：

其中

和

是前一帧中更新的滤波器的分子和分母。

(2)尺度滤波器

尺度滤波器训练过程中的模型更新及滤波响应求解尺度的过程与位置滤波器是一致的。

①滤波器训练

对应于图5，以目标位置为中心进行尺度缩放采样，尺度选择原则如下：

其中P×R_S表示当前帧中的目标尺度，a为放缩因子(a＝1.02)，S为尺度滤波器的大小(s＝33)。

根据式(23)对目标图像进行放缩，选取S种不同尺度的样本，对每个样本提取d维hog特征，构成一个层数为S的金字塔。以该特征作为训练样本，每一个维度的特征f^l为一个1×S的向量，对f的每一个维度的特征做一维的DFT，得到F^l，对g做一维的DFT得到G，g是高斯函数构造的输出响应，大小为1×S，根据式(21)得到相关滤波器H，用来预测输出尺度。

②尺度估计

如图6所示，在新的一帧中，先利用二维的位置相关滤波器来确定目标新的候选位置，再利用一维的尺度相关滤波器以当前中心位置为中心点，获取S个不同尺度的候选块，分别提取d维特征组成新的特征图z，求取每一维度的DFT得到Z^l。然后根据式(22)求y的值，y为1×S维的向量，向量y中最大值所对应的尺度为最终目标的尺度。

由于DSST算法需要人工标记初始帧的位置，且在目标被外物遮挡或目标丢失时不能很好的进行跟踪，因此需要利用目标检测期间跟踪结果的反馈来确定模型更新。响应图的峰值和波动可以在一定程度上揭示跟踪结果的置信度。因此引入了两个置信度指标，最大响应值F_max和平均峰值相关能量(average peak-to correlation energy,APCE)。一般来说F_max越大跟踪效果越好，APCE反映响应图的波动程度和检测到的目标的置信水平。

其中F_max、F_min表示响应最大值和最小值，F_w,h表示响应图(w,h)位置的值。当检测到的目标与正确的目标极其匹配时，响应图应该只有一个尖峰并且在所有其他区域中是平滑的，此时APCE将变得更大，相关峰越尖锐，定位精度越高。如果对象被遮挡或者丢失，APCE将显著减小。若当前帧的F_max和APCE都大于比率β₁，β₂(β₁＝0.7，β₂＝0.45)时，当前帧中的跟踪结果被认为是高信度的，此时才进行模型更新，否则需要重新对当前帧进行人脸检测。

如图2所示，具体操作步骤为：

和尺度模型

利用特征样本

和上一帧的位置模型

根据式(22)计算位置相关滤波器的最大响应值而得到目标的新位置P_t；

然后利用特征样本

和尺度模型

根据式(22)计算1×S维尺度相关滤波器的响应值，最大的响应值所对应的尺度为最终目标的尺度S_t；

步骤2.24：若当前帧相关滤波器的最大响应值和平均峰值相关能量均满足更新策略条件，则在当前帧I_t中根据位置P_t和尺度S_t提取特征f_t ^trans、f_t ^scale，根据式(20)更新位置模型

和尺度模型

否则在当前帧I_t中重新进行人脸检测。

3、采用基于级联回归树算法对人脸的特征点进行定位，再根据定位后的特征点分别定位眼部区域和嘴部区域，并采用SVM分类器识别眼部状态，通过计算嘴部纵横比来识别嘴部状态。

基于级联回归树(Ensemble of Regression Tress，ERT)算法的人脸关键点检测方法学习每个关键点的局部特征，然后将特征组合起来，使用线性回归检测关键点，该方法检测速度快，可精确估计面部特征点的位置。ERT算法是Kazemi和Sullivan提出的基于级联回归树的人脸关键点定位算法，其选取了标记人脸68个关键特征点模型，如图7所示，并提出了一个基于梯度增强算法的通用框架，用于学习级联回归树，并使用级联回归树来直接从像素强度的稀疏子集估计面部的地标位置。该算法包括两个过程：训练建立模型和模型拟合。

①建立模型

该算法使用了两层回归来建立数学模型。第一层回归迭代式为：

其中S_形状是形状向量，

表示图像I中所有p个面部标志的坐标，X_i∈R²是图像I中第i个面部标志的坐标(x,y)。

为第t次迭代预测的特征点坐标集合形状矢量，

为第t+1次迭代预测的结果，每个回归器

在级联中预测来自图像的更新向量，其输入为当前的训练图片和形状向量，其输出则是对所有的关键点的位置更新量。在该层的级联回归器中，每经过一级级联回归器，就会对所有关键点位置进行一次更新得到更准确的位置。

第二层回归则是回归器r_t的内部迭代。假设有训练数据集{(I₁,S_形状1),...,(I_n,S_形状n)}，n为样本数，I_i为人脸图像，S_形状i为图像I_i对应的人脸关键点位置形状向量。为了学习级联中的回归函数r_t，根据训练数据创建人脸图像的三元组

其中

为数据集中人脸图像，

为第一层级联回归第i次迭代预测关键点形状向量，

是真实值和预测差值。

通过上式不断迭代该过程，直到学习了T级回归r₀,r₁,...,r_t-1的级联。

对于训练数据

学***方误差损失总和的梯度树增强算法来进行学习，具体算法如下：

(1)初始化函数

其中k＝1,...,K：

(2)通过N次迭代拟合回归树r_ik，得到弱回归函数

其中i＝1,...,N，r_ik表达式如下：

(3)根据得到的弱回归函数更新

(4)重复(2)、(3)步骤，直至迭代K次得到

(5)得到回归函数

②模型拟合

通过K次迭代得到回归模型，模型拟合的具体步骤如下：

(1)初始化每幅人脸图像的特征点形状向量，所有图像初始形状相同。

(2)建立特征池，在特征池中随机选取两个点，根据图像的特征点形状，计算每幅图像在这两个点处的像素差。

(3)构造回归树。随机产生一个***阈值，若图像的像素差值小于阈值则往左***，否则往右***，将所有图片按此方法***则图像分为左右两部分。重复该过程若干次，通过最小化平方误差得到最优节点θ^·，目标函数如下：

其中待选节点为θ，l,r分别代表左右子树，μ_θ,s代表按照当前划分产生的结果。得到最优节点后保存下这两个特征点的坐标值和***阈值。然后每一个节点的***都重复该步骤，直到***到叶子节点。

(4)计算每个叶子节点的残差。计算每一个图像的当前形状和真实形状的差值，将在同一个叶子节点中的所有图像的差值和作平均，将该残差保存到叶子节点中。

(5)更新每张图像的形状。将当前形状S_形状更新为当前形状加残差即(S_形状,△S_形状)。

(6)重复(2)-(4)过程，直至最后得到的特征点形状向量表示真实形状。

Dlib是一个跨平台的开源库，其中提供了许多关于机器学习、深度学习、图像处理等算法的实现。由于Dlib开源库实现了ERT算法，并在iBUG 300-W数据集上训练好了人脸关键点检测器，该检测器能能够在任意人脸上找到这68个特征点，因此本发明使用Dlib开源库实现的算法来检测人脸关键点。实验结果如图8所示，从实验结果可以看到，ERT算法对不同的面部表情和头部方向都有较好的稳健性，可以很好的实现不同角度的人脸特征点定位。

为了能简单快速的定位人眼，故本发明采用在面部关键点检测的基础上，根据人眼特征点的位置进行眼部区域定位。

如图9中a)人脸特征点模型所示，根据图中关键点序号可知每个特征点的位置，如左眼的序号为36-41，右眼的序号为42-47。根据眼部特征点的序号，提取的左、右眼部区域如图9中b)所示的矩形区域。其定位计算规则如下：

其中W_e为人眼特征点36和39水平距离，H_e为特征点37、41和38、40垂直距离的平均值，而W和H为定位的眼部区域的宽和高。

为了能准确快速识别眼睛的睁闭状态，计算眼睛的纵横比(eye aspect ratio，EAR)，睁眼时的纵横比在个体之间的差异基本很小，并且对于图像的均匀缩放和面部的旋转是完全不变的。如图10为左眼在睁开与闭合状态下检测到的6个关键点(P1-P6)，眼睛纵横比计算式为：

其中分子表示眼睛垂直特征点之间的欧氏距离，分母为眼睛水平特征点之间的欧氏距离。

以左眼为例，根据这六个特征点，可以计算垂直关键点之间及水平关键点之间的欧氏距离，两点的欧氏距离计算式为：

其中P_a·x、P_a·y分别为点a的坐标x和y。则眼睛的水平和垂直欧氏距离距离可表示为

Eye_h＝Dis(P₁,P₄) (35)

Eye_v＝Mean(Dis(P₂,P₆),Dis(P₃,P₅)) (36)

其中Mean(A,B)表示取A和B的平均值。此时眼睛的纵横比可表示为：

根据式(37)，计算视频图像连续200帧左、右眼的纵横比，当眼睛睁开时EAR的变化很小，基本上是恒定的，但是在眼睛闭合时EAR值变小约接近零。双眼基本同步闭合或者睁开，为更为精确的识别眼部状态，故取双眼EAR的平均值作为眼睛睁闭识别的特征：

EAR＝Mean(EAR_left,EAR_right) (38)

根据上式，进行眼部状态识别，计算双眼的EAR均值，结果如图11所示。当发生眨眼时，EAR值迅速减小接近于0，然后慢慢增加接近于正常情况下睁眼时的EAR值。根据这一现象，可以用EAR值作为识别睁闭眼状态的特征值，同时也可以根据EAR值进行眨眼检测。

在定位人眼区域后，选取局部自适应阈值算法对人眼图像进行二值化，经过形态学开操作和中值滤波处理后，能较好呈现眼睛轮廓及细节。当人眼闭合时，尽管可能会受睫毛和眼睑等暗区域的影响，但是最大暗部瞳孔区域不会出现。所以与睁眼相比，当眼睛闭合时，二值图像中的黑色像素的数量会急剧减少。但是，由于黑色像素的数量会随着人眼与摄像头之间距离的改变而改变。当距离变大时，在图像中眼睛区域被缩小，因此黑色像素的数量减少。图12为右眼睁闭过程中眼睛区域黑色像素数量，从图12中可以看出，到第57帧可以设定阈值来区分睁闭眼，但是从第109帧开始当人眼远离摄像头时，不论睁眼还是闭眼状态，人眼的黑色像素数量都减少，此时根据阈值已经不能判断人眼睁闭状态了。

为了减少人眼与摄像头距离因素的影响，将人眼图像归一为同一尺寸，计算连续两帧之间的黑色像素数量差，一般在两个以上的连续帧中可以观察到闭眼的动作，因此当差值满足多于两帧小于0时，累积连续的差值，设定累积差值阈值来判断睁闭状态。但是此种方法由图13和14可以看在第54帧时由于差值大于0并没有累积差值，从而导致其被错误的识别为睁眼状态。

因此为了解决这一问题，本发明使用自适应阈值的方法累积差值。规定“状态0”和“状态1”两种状态，当人眼区域二值化图像的黑色像素的差值小于0时，从“状态0”变为“状态1”。在“状态1”时，若差值小于阈值T(t)，累积差值并保持状态不变；若差值大于阈值T(t)，不累积差值且状态变为“状态0”。

基于自适应阈值的人眼二值图像区域黑色像素累积差值F_黑的计算公式为：

其中，N(t)是第t帧的黑色像素数量，△N(t)为第t帧与第t-1帧之间的黑色像素数量的差值，D(t-1)为“状态1”中在第t-1帧的黑色像素数量累积差值，α为0到1之间的恒定值，最优α值通过检测睁闭眼的准确性确定。

通过根据在第t-1帧的累积差值而改变自适应阈值T(t)可以正确的将第54帧识别为闭眼。图15为使用自适应阈值计算人眼二值图像的黑色像素累积差值的结果图，可以看出该方法能较好的识别闭眼状态。

为了能更为精准的识别人眼睁闭状态，使用人眼纵横比和人眼黑色像素累积差值作为支持向量机SVM分类器的输入参数，使用训练好的分类器来识别图像中人眼的状态。SVM是一种解决二分类问题可以监督学***面，使得训练的正负样本间隔最大。该算法可以用于数据的分类及回归分析，解决小样本、分线性和高维数学等问题。

本发明使用SVM分类器来进行二分类，主要包括数据选取、数据处理、特征参数归一化、模型训练及测试五部分。

(1)数据选取

从ZJU眨眼视频数据集的80个视频中选取睁眼样本2000张，闭眼样本1000张；从NTHU驾驶员疲劳检测视频数据集中选取睁眼样本2000张，闭眼样本1000张；同时自己采集睁眼样本2000张、闭眼样本4000张。总共采集睁、闭眼样本图像各6000张，其中有戴眼镜和不带眼镜的情况，每个样本中都包含人脸。

(2)数据处理

先对每个样本进行人脸关键点定位，然后计算人眼纵横比和人眼黑色像素累积差值，即对每个样本提取两个特征值。

①计算特征值EAR

由于眼睛的纵横比EAR对于图像的均匀缩放和旋转是完全不变的，因此，对于每个样本，在定位到双眼关键点位置后，根据(38)式直接计算双眼纵横比的均值作为该样本的第一个特征值F_黑1。

②计算人眼黑色像素累积差值

由于人眼区域黑色像素的数量会随着人眼与摄像头之间距离的改变而改变，因此对每个样本，根据(32)式定位到右眼区域后，将人眼区域放缩为同一尺寸，再计算其黑色像素值。对于不同实验者的样本数据，都以该实验者半睁眼状态的右眼黑色像素值作为第一帧的比较值，则该实验者第一帧的黑色像素累积差值为第一帧的黑色像素值减去半睁眼状态的黑色像素值，该实验者余下样本数据的黑色像素累积差值则根据(39)式进行累积。将黑色像素累积差值作为每个样本数据的第二个特征值F_黑2。

将睁眼样本和闭眼样本分开处理。对于每个闭眼样本图像，根据上述方法得到两个特征值后保存到相应的文本文件中，每行为一个样本数据，每列为一个特征值；对每个睁眼样本图像进行与闭眼样本相同的处理。

(3)特征参数归一化

由于每个样本提取的两类特征参数的数值之间量纲有所差异，导致数值较小的特征参数在模型训练过程贡献较小，因此为平衡各特征参数在模型训练过程中的权重，需要对两类特征参数数据进行归一化处理：

其中y_i为归一化后的结果值，归一化后的值在区间[-1,1]内；x_i为原始特征值，x_max和x_min分别为x_i中的最大值和最小值，训练样本数为N。

根据步骤(2)得到样本特征值文本数据后，读取两个文件中的特征值并存储在二维数组中，数组的每行为一个样本，每列为一个特征值，每个样本对应的类别标签保存到标签数组中。计算二维数组中每列的最大值x_max及最小值x_min，对数组中的每列，由式(40)计算该列每个特征值x_i归一化后的结果值y_i，当数组处理完毕后得到的二维数组值即为所有样本特征值归一化后的值。

(4)模型训练及参数寻优

SVM分类器可表示为：

其中，N为训练样本的数量；y_i∈{-1，1}是训练样本的类别标签，1表示闭眼，-1表示睁眼；K(x,x_i)表示核函数；常数b是偏差项；α_i通过求解具有线性约束的二次规划问题得到。

SVM有四种核函数：线性核函数(LINEAR)、多项式核函数(POLY)、径向基核函(RBF)、SIGMOD核函数。在进行分类器训练前，需要选择合适的核函数，由于当特征与分类标签之间的关系为非线性时，RBF核函数能够处理此种情况，故本文采用RBF核函数进行模型训练。RBF核函数有两个待定变量，用来控制损失函数的惩罚系数C和控制非线性问题变换到高维空间后的线形可分性核参数γ，这两个变量的选取对预测的精度有决定性作用。

为了寻找最优惩罚系数C和核变量γ提高模型预测的准确率，采用K-CV交叉验证法对参数C和γ进行寻优。从收集到的12000组特征值中选取8000组均分为10组，每次选9组作为训练集，剩余1组作为验证集。训练集与验证集的特征值则根据步骤(3)进行归一化处理，其类别标签保存在对应的类别标签数组中。经寻优发现，当参数C＝2.04，γ＝0.9时，模型预测分类的效果较好。

(5)实验检测

①实验评估参数

为了对训练模型预测人眼睁闭状态性能进行评估，选取准确率(Accuracy)、精确率(Precision)与召回率(Recall)作为评估参数。对于测试集的每个样本，识别的结果可能会出现如下四种情况：

TP(True Positive)：表示测试样本预测为闭眼状态，实际也是闭眼状态。

FP(False Positive)：表示测试样本预测闭眼状态，实际为睁眼状态。

TN(True Negative)：表示测试样本预测为睁眼状态，实际为睁眼状态。

FN(False Negative)：表示测试样本预测为睁眼状态，实际为闭眼状态。

三个评估参数计算式分别如下：

②实验结果与分析

从样本数据中选择剩余的4000组数据对睁闭眼状态进行测试，其测试结果如下表。

表4睁闭眼状态检测结果

根据表4可以看出，提出的方法对睁闭眼状态识别的准确率较高，表5为使用不同算法的识别结果对比。实验表明提出的特征融合训练分类器的方法对人眼睁闭状态的识别准确率高于单一特征的人眼状态识别方法。

表5不同算法识别结果对比

根据人脸的特征点定位可知嘴部特征点的位置序号为48-67，因此可以根据特征点的序号来定位嘴部及识别其状态，如图16。

通过计算嘴部纵横比(MAR)来判断嘴部状态，为了使MAR值更为精准，如图16所示，标记的P₁-P₁₀为用来计算MAR的10个特征点，欧氏距离的计算公式可参照(43)式。

正常驾驶情况下，嘴部是处于闭合状态的；当与人说话时，嘴唇处于开合不断变化状态，且张开幅度不大；而当处于疲劳打哈欠状态时，嘴巴张开幅度很大且持续时间较长。为了判断嘴部状态如讲话、打哈欠等，使用基于高宽比的方法进行状态模拟，检测结果如图17，由图17可知当MAR≤0.4时，此时嘴巴是闭合的；当0.4<MAR≤0.8时，为正常讲话状态；当MAR>0.8时处于打哈欠状态。根据上述分析，可以使用MAR作为特征来识别嘴部状态。

4、根据眼部状态和嘴部状态分别计算眼部疲劳参数和嘴部疲劳参数，根据定位到的特征点位置信息计算头部疲劳参数。

根据眼部、嘴部及头部的状态来提取疲劳参数，然后综合这些疲劳参数建立疲劳状态识别模型，采用多特征加权和值来判断驾驶员的疲劳状态。主要提取的参数有闭眼帧数所占比(ECR)、眨眼频率(BF)、最长持续闭眼时间(MECT)、打哈欠频率(YF)及点头频率(NF)等。

4.1眼部疲劳信息提取

当人处于疲劳状态时，会出现眨眼频率增加，闭眼时间增长，打哈欠等现象，严重时甚至会出现打瞌睡的现象。根据研究发现，人在正常情况下每分钟眨眼10次到25次不等，眨眼一次眼睛闭合持续的时间约为0.2_s左右。根据这一现象，本发明选取最能表现疲劳状态的三个眼部指标基于PERCLOS准则的ECR、MECT和BF作为眼部疲劳特征参数。

(1)基于PERCLOS准则的ECR

PERCLOS准则是公认用于疲劳驾驶检测最有效可靠的准则，它计算时间周期内人眼闭合时间占总时间的百分比。根据对人眼闭合的定义不同，该准则包含3个判定标准：EM、P₇₀和P₈₀。其中，P₈₀是最适合识别疲劳驾驶的，它表示眼睑遮住瞳孔面积超过80％的时间占时间的比例。由于实际检测时很难精确计算眼睑遮住瞳孔的面积，而在前面已经很好的实现了闭眼状态判断，因此本发明通过时间周期内闭眼帧数占总帧数的百分比(Eye CloseRatio，ECR)作为眼部特征参数：

其中n_时为时间周期内闭眼帧数，N_时为时间周期内总帧数。

(2)最长持续闭眼时间

最长持续闭眼时间(Max Eye Close Time，MECT)：眼睛从完全闭合再到完全睁开持续的时间，即如图18中t₂到t₄所经历的时间。人在疲劳状态下，人眼闭合时长往往会超过1.5s。若视频速度为每秒f_闭帧，时间周期内闭眼持续帧数为K_c，即则一个时间周期内持续闭眼时间为：

若时间周期内持续闭眼时间超过阈值，则该特征参数视为疲劳状态。

(3)眨眼频率

眨眼频率(Blink Frequence，BF)：单位时间内的眨眼次数。一次眨眼时间为图18从t₁到t₄所经历的时间，人在清醒状态下，平均每分钟眨眼约为10–25次，疲劳时眨眼次数会增加，但走神分心或严重疲劳时，眨眼次数会减少。因此，可以统计时间周期内眨眼次数，若超出正常范围则该特征参数视为疲劳状态。

根据EAR值可以进行眨眼检测。根据EAR值计算结果，发现经历一次眨眼EAR值先减小直至接近于零，然后逐渐增大至正常睁眼状态值。以E_眼作为EAR的阈值，K_眼为当EAR小于E_眼时连续多少帧数记一次眨眼的阈值。当EAR小于阈值E_眼时，眼睛开始闭合，当其值接近于正常睁眼状态值即大于E_眼时，眼睛完全睁开，我们统计该过程中EAR<E_眼的连续帧数F_眼，当EAR≥E_眼时若F_眼大于设定的连续帧数阈值K_眼则记眨眼一次。

为了寻找最优阈值E_眼和K_眼，在ZJU眨眼数据集上进行实验，ZJU中80个视频包含四种主题：未戴眼镜的正面视频、戴薄边框眼镜的正面视频、戴黑框眼镜的正面视图及未戴眼镜向上仰角的视频，每个主题20组视频，每个视频中眨眼次数一到六次不等，数据集中总共包含255次眨眼。

根据图19的结果，在提取眼睛疲劳参数眨眼频率时，选择计算EAR小于阈值E_眼＝0.24时的连续帧数，当EAR大于该阈值时若连续帧数也大于阈值K_眼＝3，则记一次眨眼，计算时间周期内眨眼次数即为眨眼频率。

以60s为一个时间周期，对周期内人眼状态进行统计分析，得到眼部疲劳特征统计值。以0表示清醒状态，1表示疲劳状态，记最长闭眼时间为mect，闭眼帧数所占比为ecr，眨眼次数为bf，经实验及参考相关文献，得出三个眼部疲劳特征值之间的疲劳阈值如下表6所示：

表6眼部疲劳状态取值条件

4.2嘴部疲劳参数提取

当驾驶者处于困倦状态时，会接连不断的打哈欠，每次哈欠持续嘴部张开时间约6秒，此时则需要停车休息，不宜继续驾驶。根据该现象，可以检测时间周期内司机打哈欠的次数来评估其是否疲劳。由前述部分内容可知当嘴部纵横比MAR连续15帧大于0.7时，则记一次打哈欠。如图20中，t₁到t₄的时间差即为一次哈欠时间，当嘴部张开程度超过阈值时，检测是否打哈欠。以0表示正常状态，1表示疲劳状态，嘴部疲劳状态取值条件如下式：

其中yf表示打哈欠的次数，yt为打一次哈欠持续的时间，取N＝3，t＝4s。

4.3头部疲劳参数提取

人处于困倦状态时，反应会变迟缓，对头部的控制能力会有所下降，从而产生头部下垂现象。为了保持清醒，又不断抬头，因此会出现低头与仰头上下往复运动的现象。当驾驶员频繁出现该现象时，说明其已处于较疲劳状态，随时可能出现交通事故，可见驾驶员驾驶过程中的点头频率的检测，是对头部运动分析的关键，也是疲劳驾驶检测的重要因素。当时间周期内点头频率超过某个阈值时，可以认为驾驶员处于疲劳状态。

依据定位到的眼部特征点位置信息，从实时性和准确性出发，取定位的双眼的中心点连线的中点作为头部位置检测点，根据该检测点在垂直方向上坐标y随时间的变化情况，计算时间周期内的点头频率。图21为驾驶员打瞌睡时y值与帧数之间的关系图。

算法过程如下：当视频帧数较多时，图像可近似拟合为曲线，计算曲线极值点，极值点可将曲线分成许多单调的曲线。经实验得出，统计时间周期内单调递减段极小值点y值大于初始位置50像素的极值点个数，即为点头次数nf；若曲线没有极小值点，则判断曲线是否单调递减，若为单调递减，则点头次数nf为1，否则为0。NF取值如式47所示：

若时间周期内点头次数nf大于某个阈值N，则NF疲劳特征参数值为1，否则为0，经实验取N＝8疲劳状态检测准确率最高。

5、根据眼部疲劳参数、嘴部疲劳参数以及头部疲劳参数进行驾驶员的疲劳状态识别和预警。

根据眼部、嘴部及头部的疲劳特征指标对疲劳判别的准确率各自取权重值，特征参数加权和计算下式：

E_疲劳＝V_ECR×W₁+V_MECT×W₂+V_BF×W₃+V_NF×W₄+V_YF×W₅ (48)

其中E_疲劳为加权疲劳值，V_ECR为闭眼帧数所占比，V_MECT为最长持续闭眼时间，V_BF为眨眼频率，V_NF为点头频率，V_YF为打哈欠频率，W_i为不同参数对应的权重值，

通过模拟疲劳进行实验寻优，确定了眼部、嘴部及头部的五个疲劳特征参数各自的权重值，其对应特征的权重取值为：W₁＝0.2，W₂＝0.1，W₃＝0.2，W₄＝0.2，W₅＝0.3。

根据疲劳参数加权后值的不同，将状态分为三个等级：清醒、疲劳、重度疲劳。综合疲劳特征参数的权重值和疲劳等级，将疲劳特征参数加权值与疲劳等级相对应，根据对应关系便能判断出驾驶员的驾驶状态。对应关系如表7所示：

表7疲劳值与疲劳等级对应关系表

为了验证本发明方法的性能，验证实验在64位操作***的PC上进行，采用python编程语言，并结合Opencv 2.4.13和Dlib18.17函数库进行实验分析。实验测试数据来自于NTHU驾驶员疲劳检测视频数据集，该测试数据中有5种不同场景：白天戴眼镜、戴太阳镜和不戴眼镜，晚上戴眼镜和不戴眼镜。每个场景中包含16组数据，每组数据包含清醒、疲劳和重度疲劳状态。

以60s为一个周期检测驾驶员疲劳状态，从5种不同场景的每个场景中选取11组数据共165个视频用于寻找各疲劳指标的最优权值，每个权值在0.1-0.6之间变化，表8为各疲劳指标部分不同权值的选取对疲劳状态识别准确率的影响，由表8中数据可知当各疲劳指标权重值为公式(48)优选的值时，疲劳识别率最高。疲劳等级识别准确率的计算如下：

表8疲劳指标权值寻优

选取各疲劳指标最优权重值，对每个场景剩余5组数据共75个视频进行疲劳状态识别，表9为疲劳识别的结果；表10为在白天戴眼镜情况下15个视频的各特征参数的具体计算结果、疲劳值与对应的疲劳识别结果。

表9不同环境下疲劳识别结果

表10白天戴眼镜疲劳识别结果

由上表可以看出，提出的疲劳识别方法在白天的识别准确率比夜晚要好，在戴太阳镜时识别的精度较低，但是就整体而言，识别效果较好。

表11为本发明方法每帧各模块的平均运行时间，由表11可知整体运行时间为：159.5903ms，检测到人脸后运行时间约17.1003ms。当出现人脸错检或跟踪目标丢失时，立即进入下一帧的检测，即使一个时间周期内有3-5秒的错检，也可以满足30帧/秒以上的处理速度，可见该疲劳识别方法具有良好的实时性。

表11各模块平均运行时间

本发明还提供一种基于多特征的疲劳驾驶识别***，包括：

图像获取及处理单元，用于实时获取视频单帧图像，并对视频单帧图像进行预处理；人脸检测及跟踪单元，用于对经过预处理后的视频图像采用基于Haar-like特征的AdaBoost算法进行人脸检测，并采用基于尺度空间的目标跟踪算法实时跟踪检测到的人脸；定位及状态识别单元，用于对人脸的特征点进行定位，再根据定位后的特征点分别定位眼部区域和嘴部区域，并采用SVM分类器识别眼部状态，通过计算嘴部纵横比来识别嘴部状态；参数计算单元，用于根据眼部状态和嘴部状态分别计算眼部疲劳参数和嘴部疲劳参数，根据定位到的特征点位置信息计算头部疲劳参数；疲劳状态识别单元，用于根据眼部疲劳参数、嘴部疲劳参数以及头部疲劳参数进行驾驶员的疲劳状态识别和预警。

以上所揭露的仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或变型，都应涵盖在本发明的保护范围之内。