CN115861981A

CN115861981A - 基于视频姿态不变性的驾驶员疲劳行为检测方法及***

Info

Publication number: CN115861981A
Application number: CN202211497127.XA
Authority: CN
Inventors: 常发亮; 路彦沙; 刘春生; 黄一鸣; 刘辉
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-03-28

Abstract

本发明公开了一种基于视频姿态不变性的驾驶员疲劳行为检测方法及***，涉及计算机视觉技术领域。该发明提出基于面部几何信息的关键帧选择模型和头脸动作信息融合时空网络。首先，对车载摄像捕捉到的驾驶员视频进行序列化处理，并进行图像预处理。随后基于人脸关键点的几何特征和两阶段判决机制来构建基于面部几何信息的关键帧选择模型，并提取视频序列中的关键帧。最后基于面部前向化处理提取任意姿态下的面部动作模态，并联合基于头部姿态估计获取的头部姿态属性构建头脸动作信息融合时空网络，用于检测打哈欠、说话、正常等驾驶员状态。本发明充分考虑头部姿态属性，具有高姿态鲁棒性，可有效区分打哈欠等疲劳行为和其他的驾驶员状态。

Description

基于视频姿态不变性的驾驶员疲劳行为检测方法及***

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于视频姿态不变性的驾驶员疲劳行为检测方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

基于视觉的高级驾驶员辅助***(ADAS)主要提供环境感知、驾驶监控、预警和辅助车辆控制等功能。近年来,ADAS是提高道路安全性和交通效率的热门研究课题。疲劳驾驶是一种危险驾驶状态，驾驶员在疲劳状态往往会出现生理、心理功能紊乱，驾驶技能客观下降。疲劳驾驶是世界上严重交通事故的主要原因之一。基于视觉的疲劳驾驶检测方法主要关注行为特征，依靠摄像机采集驾驶员视频图像，这些图像通常是非接触的，应用便捷，可应用于监测驾驶员的状态并及时给出预警，在减少交通事故方面具有较高的实用价值。

在过去的几十年中，诸多研究学者提出不同的驾驶员疲劳检测方法，以帮助驾驶员安全驾驶并提高交通安全性。疲劳驾驶中驾驶员的行为特征包括眨眼、点头、闭眼和打哈欠等。其中，打哈欠是疲劳的主要表现形式之一。在真实驾驶环境中，由于高度的实时性要求、复杂的面部表情、多变的头部姿态等问题，致使现有方法难以准确、稳健地检测打哈欠等疲劳行为，因此，如何在实际驾驶环境中高效、精准的检测疲劳行为，成为亟待解决的问题。

发明内容

针对现有技术存在的不足，本发明的目的是提供一种基于视频姿态不变性的驾驶员疲劳行为检测方法及***，解决现有技术存在的视频帧过度冗余、无法有效实现任意姿态下的检测及无法精准区分打哈欠和类似行为的问题，提高疲劳行为检测的精度和鲁棒性。

为了实现上述目的，本发明是通过如下的技术方案来实现：

本发明第一方面提供了一种基于视频姿态不变性的驾驶员疲劳行为检测方法，包括以下步骤：

对获取的驾驶员视频进行视频序列化，并对视频图像数据进行预处理；

设计基于面部几何信息的关键帧选择模型，并实现关键帧选择；

根据选择的关键帧，基于面部前向化处理提取任意姿态下的面部动作模态，并联合基于头部姿态估计获取的头部姿态属性构建头脸动作信息融合时空网络，以检测疲劳行为。

进一步的，对视频图像数据进行预处理，包括图像去噪、直方图归一化、人脸关键点检测和人脸分割。

更进一步的，采用人脸检测算法进行驾驶员人脸区域的检测，分割驾驶员头脸动作区域；然后基于快速中值滤波算法进行图像去噪、采用限制对比度自适应直方图均衡化(CLAHE)进行光照归一化；最后，基于dlib库采用级联回归树(ETR)进行人脸关键点检测。

进一步的，设计基于面部几何信息的关键帧选择模型，并实现关键帧选择的具体步骤为：基于人脸关键点提取面部几何特征和设计两阶段判决机制，进而构建基于面部几何信息的关键帧选择模型，并提取视频序列中的关键帧。

更进一步的，设计两阶段判决机制中第一阶段判决机制的具体步骤为：首先，基于人脸关键点点集来计算每个视频关键帧的点间距离比值、角度关系，构建面部几何特征；然后，利用欧式距离计算连续帧帧间的相似度，得到连续帧帧间相似度集合；之后，确定相似度阈值来进行候选关键帧的选择。

更进一步的，设计两阶段判决机制中第二阶段判决机制的具体步骤为：从候选关键帧队列中剔除具有离群特征的视频帧，得到关键帧集合；本阶段基于两个相似度度量指标和离群帧检测进行帧选择；其中，相似度度量指标选用欧式距离和均方根误差，离群帧检测采用中值绝对偏差。

进一步的，基于面部前向化处理提取任意姿态下的面部动作模态的具体步骤为：采用编码器-解码器骨干网络来表示学习，并在此基础上引入光照保持和注意力两种辅助机制，用于生成具有保持光照的逼真正面图像。

进一步的，基于头部姿态估计获取头部姿态属性的具体步骤为：设计基于Squeeze-Net的头部姿态估计方法，并通过正弦和余弦函数将头部姿态的欧拉角表示归一化，得到头部姿态属性。

进一步的，基于3D卷积网络构建头脸动作信息融合时空网络，该网络将头部姿态属性和面部动作模态融合至双通道分类器中以实现姿态不变性。

更进一步的，头脸动作信息融合时空网络通过3D卷积运算获取面部动作信息，卷积层中的特征图通过前一层中的多个相邻帧生成；3D卷积网络将头部姿态矢量表示和面部动作信息融合至双通道分类器中，采用一个完全连接层进行特征映射。

本发明第二方面提供了一种基于视频姿态不变性的驾驶员疲劳行为检测***，包括：

预处理模块，被配置为对获取的驾驶员视频进行视频序列化，并对视频图像数据进行预处理；

关键帧模块，被配置为设计基于面部几何信息的关键帧选择模型，并实现关键帧选择；

疲劳行为检测模块，被配置为根据选择的关键帧，基于面部前向化处理提取任意姿态下的面部动作模态，并联合基于头部姿态估计获取的头部姿态属性构建头脸动作信息融合时空网络，以检测疲劳行为。

以上一个或多个技术方案存在以下有益效果：

(1)本发明提出一种基于面部几何信息的关键帧选择算法，该算法具有计算速度快的优点，可以高效选取关键帧、提高网络结构的处理效率。

(2)本发明首次引入面部前向化处理操作，可以弱化头部姿态的影响，提高网络结构的姿态的鲁棒性。

(3)本发明提出了一种基于三维卷积网络的头脸动作信息融合时空网络，用于提取时空特征和检测多种驾驶状态，可以有效提升打哈欠检测的准确性和鲁棒性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例一中设计的基于视频姿态不变性的驾驶员打哈欠检测方法的流程图；

图2为本发明实施例一中设计的基于视频姿态不变性的驾驶员打哈欠检测方法的网络结构图；

图3为本发明实施例一中设计的基于面部几何信息的关键帧选择方法结构图；

图4为本发明实施例一中关键帧选择结果演示图；

图5为本发明实施例一中设计的面部前向化处理网络结构图；

图6为本发明实施例一中基于LFW数据集面部前向化处理结果演示图；

图7为本发明实施例一中数据预处理过的YawDDE数据集三类面部动作序列。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合；

实施例一：

姿态不变性指在车载摄像头采集视角下，将任意姿态的驾驶员视频图像进行前向化处理，从而增强模型处理姿态变化的能力和强化面部空间特征表示。本发明实施例一提供了一种基于视频姿态不变性的驾驶员疲劳行为检测方法，以打哈欠行为为例，提出基于面部几何信息的关键帧选择模型和头脸动作信息融合时空网络，旨在高效、精准地检测打哈欠、说话、正常等驾驶员状态，其整体流程图如图1所示，具体网络结构图如2所示，具体包括以下步骤：

步骤1：对获取的驾驶员视频进行视频序列化，并对视频图像数据进行预处理。

作为进一步的技术方案，对视频图像数据进行预处理，包括图像去噪、直方图归一化、人脸关键点检测和人脸分割。

视频序列化和图像预处理是研究内容中的重要一步。由于本发明基于驾驶员打哈欠行为识别驾驶员的疲劳状态，识别网络具有高时效性的要求。首先，对包含驾驶行为的原始视频进行序列化处理；其次，由于目标对象为驾驶员驾驶状态，应尽量剔除背景等的冗余信息、关注驾驶员的脸部区域。本发明采用MTCNN和LBP人脸检测算法进行驾驶员人脸区域的检测，分割驾驶员头脸动作区域；然后，由于真实驾驶环境中存在车辆机械振动和光照变化等影响，会导致车载摄像头在拍摄的过程中产生噪音和干扰，应注意减少噪声的影响和光照变化的干扰。本发明基于快速中值滤波算法进行图像去噪、采用CLAHE进行光照归一化。此外，由于数据特征应具有相同的度量尺度，本发明进行数据归一化并将图像尺寸统一为112×112。最后，基于dlib库采用ETR进行人脸关键点检测(68点)，为后续基于面部几何信息的关键帧选择算法做准备。

步骤2：设计基于面部几何信息的关键帧选择模型，并实现关键帧选择。

作为进一步的技术方案，基于人脸关键点提取面部几何特征和设计两阶段判决机制，进而构建基于面部几何信息的关键帧选择模型，并提取视频序列中的关键帧。

由于原始的视频帧序列中，许多相邻帧之间信息量差别很小，存在大量的冗余帧，会导致动作分类的精度下降。本发明设计基于面部几何信息的关键帧选择模型，并实现关键帧选择。图3展示了基于面部几何信息的关键帧选择方法结构图。该方法可以从一系列原始的视频帧F＝{F_i,i＝1,…,N}中提取一系列关键帧K＝K_j,j＝1,…,M}；其中M表示选择的关键帧数量，N表示原始视频帧序列的帧数量。该模型主要包括基于人脸关键点提取面部几何特征和设计两阶段判决机制，其两阶段判决机制包括第一阶段和第二阶段(STAGE-1和STAGE-2)：

在STAGE-1，基于人脸关键点点集来计算每个视频关键帧的点间距离比值(Dist_ratio)、角度关系(Dist_ratio)，构建面部几何特征g；然后，利用欧式距离计算连续帧帧间的相似度D_i，可以得到连续帧帧间相似度集合D＝{D_i,i＝1,…,N-1}。之后，需要确定一个相似度阈值T_D来进行候选关键帧的选择，其中T_D代表连续帧帧间相似度的平均水平,选用均值计算(Mean)。相关计算公式如下：

Angle_ralat＝θ(v_a,b,v_b,c) (2)

g_i＝ Dist_ratio,i ⊕ Angle_ralat,i (3)

g_i+1＝ Dist_ratio,i+1 ⊕ Angle_ralat,i+1 (4)

T_D＝Mean(D) (6)

其中,v_a,b和v_b,c分别表示由关键点a,b与关键点b,c定义的几何向量；θ表示v_a,b和v_b,c间的夹角；⊕则表示特征拼接。当满足D_i>T_D时，认为F_i与F_i+1间相似度较小，将F_i加入候选关键帧队列。

在STAGE-2中，将从候选关键帧队列中剔除具有离群特征的视频帧，得到关键帧集合K。本阶段基于两个相似度度量指标和离群帧检测进行帧选择。其中，相似度度量指标选用欧式距离(ED)和均方根误差(RMSE)，离群帧检测采用中值绝对偏差(MAD)。首先，对任意连续两个候选关键帧K_j和K_j+1，计算RMSE和ED值，然后基于RMSE(K_j,K_j+1)、ED(K_j，K_j+1)和MAD，可以得到该阶段帧选择度量值α和β。相关计算公式如下:

/>

α＝Mean(ED)-MAD(ED),β＝Mean(RMSE)-MAD(RMSE)(10)

其中，m代表候选关键帧集合C_K的尺寸。当候选关键帧同时满足ED>α和RMSE>β时，会被认作两者相对不同，K_j将作为关键帧保留，最终得到关键帧集合K。图4展示了关键帧选择结果的演示图，可以看出该算法的有效性。

步骤3：根据选择的关键帧，基于面部前向化处理提取任意姿态下的面部动作模态，并联合基于头部姿态估计获取的头部姿态属性构建头脸动作信息融合时空网络，以检测疲劳行为。

作为进一步的技术方案，本发明将面部前向化处理引入打哈欠检测，可用于提取任意姿态下的面部动作模态；进而联合头部姿态属性构建头脸动作信息融合时空网络，完成打哈欠行为检测。

首先，本发明首次将面部前向化处理引入打哈欠检测；该处理可以弱化头部姿态对面部表观的影响，并引入头部姿态属性，提高网络结构的姿态的鲁棒性。图5展示了面部前向化处理网络结构图。该网络结构采用flow-based U-Net作为编码器-解码器骨干网络来表示学习，并在此基础上引入光照保持(G_ip)和注意力(G_att)两种辅助机制，用于生成具有保持光照的逼真正面图像。图6展示了基于LFW数据集面部前向化处理结果的演示图，充分表明面部前向化处理网络的优越性能及多姿态适用性。

其次，本发明提出了一种基于三维卷积网络的头脸动作信息融合时空网络。该网络将头部姿态属性和面部动作模态融合至双通道分类器中，以实现姿态不变性和提高分类精度。一方面，头部姿态可以通过CNN分支或3D通用头部模型进行有效检测，检测结果用欧拉角(偏航,Yaw；俯仰,Pitch；滚转,Roll)表示。本发明设计了基于Squeeze-Net的头部姿态估计方法，即使面部关键点检测方法无效，该方法仍然具有姿态估计功能。为了实现头部姿态特征编码，通过正弦和余弦函数将头部姿态的欧拉角(Yaw,y；Pitch,p；Roll,r)归一化为头部姿态矢量表示P(其中，P＝y_s,y_c,p_s,p_c,r_s,r_c)。另一方面，近年来，研究人员将多种动作识别网络引入到打哈欠检测中，在准确性和速度方面都取得了很大进步。其中，双流融合网络和3D卷积网络是动作识别中被广泛使用的框架。与基于双流融合网络相比，3D卷积网络使用多个连续视频帧作为输入，在时空特征提取方面具有计算速度快，准确率高的优点。实验发现3×3×3大小的3D卷积核可用于提取最具代表性的时空特征。本发明通过3D卷积运算获取面部动作信息，卷积层中的特征图通过前一层中的多个相邻帧生成。在此基础上，该网络将头部姿态矢量表示和面部动作信息融合至双通道分类器中，采用一个完全连接层进行特征映射。最终，得到最佳的打哈欠检测网络识别性能。

最后，关于头脸信息融合时空网络的训练部分，本发明中每个视频抽取16帧作为输入，3D卷积网络采用预训练的参数；通过反向传播算法，对深度神经网络进行训练，利用标准的多元交叉熵损失函数来对网络参数进行迭代优化，如公式11所示：

/>

其中，样本数目为K，样本i取值：1≤i≤K；y_i表示标签值，p_i为预测值。

实验选择带有momentum的SGD作为网络的优化器，训练周期设置为100个epoch，初始学习率设置为0.01，momentum设置为0.5。

本发明的效果可以用下列实验进一步说明：

实验条件

本发明在GTX 2080Ti GPU上进行实验，完成模型训练。所提方法基于pytorch＝1.8.0，python＝3.6，torchvision＝0.9.0编写。

实验内容及结果

本发明的实验基于一个标准的公共哈欠检测数据集--YawDD来训练、测试***，验证方法的有效性。该数据集包含351个由车载摄像头记录的视频片段，收集了来自不同性别、年龄、国家和种族的志愿者的一系列驾驶动作视频。车辆在室外环境静止停放，光照条件是自然、多变的。眼镜状态包括:无眼镜、眼镜和太阳镜。根据摄像机的安装位置，视频被分为两组：一组摄像机安装在仪表盘上方位置；另一组摄像头安装在后视镜下方。YawDD数据集有三种或四种行为，包括正常、说话或唱歌、打哈欠和说话时打哈欠；数据集中的大多数视频片段持续时间超过1分钟，并包含多个面部动作。为了构建用于评估的YawDDE数据集，视频被划分为只包含一个动作的视频片段。面部动作类别分为正常(N)、说话(T)和打哈欠(Y)，其中少量存在的唱歌或大笑被归类为说话(T)。表1记录了YawDDE收集的1029个图像序列及各类动作序列数量。

表1YawDDE数据集中各类动作序列数量

经过数据预处理的三类面部动作序列((a)正常(b)说话(c)打哈欠)的一些示例图显示在图7中。

本发明基于YawDDE数据集进行了以下两部分实验：

实验一：在YawDDE数据集上进行实验，证明基于面部几何信息的关键帧选择算法能够有效地选择视频关键帧。实验涉及三种处理方式：WITHOUT,表示不使用任何关键帧选择算法，只以10fps将视频切分成视频帧序列；STAGE-1，表示仅采用基于面部几何信息的关键帧选择算法的第一阶段，即选取候选关键帧序列；STAGE-2，表示采用基于面部几何信息的关键帧选择算法，即视频关键帧序列。

本发明基于三种处理方式进行了实验，证明了所提出的算法能够有效地选取驾驶视频中的关键帧、提高整体网络结构的处理效率。不同关键帧选择处理的检测精度结果如表2所示。

表2不同关键帧选择处理的实验结果(单位：％)

类别	Ave(％)	Y(％)	T(％)	N(％)
					WITHOUT	75.3	85.2	72.6	68.1
STAGE-1	80.4	87.4	80.3	73.3
					STAGE-2	81.9	90.4	81.3	73.9

表格给出WITHOUT的选择结果，用以验证该算法能够有效地提高各类面部动作的准确率。算法STAGE-1处理用于删除差别很小的视频帧，获取候选关键帧，其选择结果优于WITHOUT的选择结果，各类面部动作的准确率提高了2.2％～7.7％。在STAGE-1的基础上，算法STAGE-2处理使用相似度度量指标和离群帧检测来剔除候选关键帧的异常值，以获得最终的视频关键帧。可以看出，与WITHOUT和STAGE-1相比，基于面部几何信息的关键帧选择算法可以获得最好的识别性能，验证了该算法的有效性。

实验二：在本实验中，对本发明提出的方法与一些其他现有的方法进行了比较实验。表3为本发明所提方法和四种先进的方法在YAWDDE数据集上的检测结果(单位：％)。

表3本发明所提方法和四种先进的方法在YAWDDE数据集上的检测结果(单位：％)。

方法	Ave(％)	Y(％)	T(％)	YT(％)	N(％)
						TFES	N/A	83.3	78.2	N/A	N/A
2DCNN+RT	N/A	86.8	77.3	N/A	N/A
						3DCNN	75.8	82.5	72.3	64.1	N/A
3D-LTS	83.4	92.1	81.2	77.3	N/A
						OURS	85.5	93.0	88.3	N/A	74.5

如表3所示，在基于YawDDE数据集的验证中，大多数基于图像和基于深度学***均准确率、打哈欠和说话的准确率方面分别有2.1％，0.9％，7.1％以上的提高。该算法识别各类面部动作的性能优越，可以有效地减少错误检测；进一步说明基于视频的方法可以有效地提取足够的时空动作特征并实现动态的打哈欠检测。

实施例二：

本发明实施例二提供了一种基于视频姿态不变性的驾驶员疲劳行为检测***，包括：

以上实施例二中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于视频姿态不变性的驾驶员疲劳行为检测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于视频姿态不变性的驾驶员疲劳行为检测方法，其特征在于，对视频图像数据进行预处理，包括图像去噪、直方图归一化、人脸关键点检测和人脸分割。

3.如权利要求2所述的基于视频姿态不变性的驾驶员疲劳行为检测方法，其特征在于，采用人脸检测算法进行驾驶员人脸区域的检测，分割驾驶员头脸动作区域；然后基于快速中值滤波算法进行图像去噪、采用限制对比度自适应直方图均衡化进行光照归一化；最后，基于dlib库采用级联回归树进行人脸关键点检测。

4.如权利要求1所述的基于视频姿态不变性的驾驶员疲劳行为检测方法，其特征在于，设计基于面部几何信息的关键帧选择模型，并实现关键帧选择的具体步骤为：基于人脸关键点提取面部几何特征和设计两阶段判决机制，进而构建基于面部几何信息的关键帧选择模型，并提取视频序列中的关键帧。

5.如权利要求4所述的基于视频姿态不变性的驾驶员疲劳行为检测方法，其特征在于，设计两阶段判决机制中第一阶段判决机制的具体步骤为：基于人脸关键点点集来计算每个视频关键帧的点间距离比值、角度关系，构建面部几何特征；然后，利用欧式距离计算连续帧帧间的相似度，得到连续帧帧间相似度集合；之后，确定相似度阈值来进行候选关键帧的选择。

6.如权利要求5所述的基于视频姿态不变性的驾驶员疲劳行为检测方法，其特征在于，设计两阶段判决机制中第二阶段判决机制的具体步骤为：从候选关键帧队列中剔除具有离群特征的视频帧，得到关键帧集合；本阶段基于两个相似度度量指标和离群帧检测进行帧选择；其中，相似度度量指标选用欧式距离和均方差误差，离群帧检测采用中值绝对偏差。

7.如权利要求1所述的基于视频姿态不变性的驾驶员疲劳行为检测方法，其特征在于，基于面部前向化处理提取任意姿态下的面部动作模态的具体步骤为：采用编码器-解码器骨干网络来表示学习，并在此基础上引入光照保持和注意力两种辅助机制，用于生成具有保持光照的逼真正面图像。

8.如权利要求1所述的基于视频姿态不变性的驾驶员疲劳行为检测方法，其特征在于，基于头部姿态估计获取头部姿态属性的具体步骤为：设计基于Squeeze-Net的头部姿态估计方法，并通过正弦和余弦函数将头部姿态的欧拉角表示归一化，得到头部姿态属性。

9.如权利要求1所述的基于视频姿态不变性的驾驶员疲劳行为检测方法，其特征在于，基于3D卷积网络构建头脸动作信息融合时空网络，该网络将头部姿态属性和面部动作模态融合至双通道分类器中以实现姿态不变性。

10.基于视频姿态不变性的驾驶员疲劳行为检测***，其特征在于，包括：