CN115331205A

CN115331205A - 一种云边协同的驾驶员疲劳检测***

Info

Publication number: CN115331205A
Application number: CN202210958954.8A
Authority: CN
Inventors: 吴勇; 檀生辉; 王东; 杨华; 蒋立伟; 谷涛涛; 刘恒; 王凯; 伍旭东; 胡珍珠; 姜敏; 齐红青; 孙鸿健
Original assignee: Wuhu Research Institute of Xidian University
Current assignee: Wuhu Research Institute of Xidian University
Priority date: 2022-08-10
Filing date: 2022-08-10
Publication date: 2022-11-11

Abstract

本发明公开了一种云边协同的驾驶员疲劳检测***，包括摄像头、边缘计算主机和云计算端，边缘计算主机包括人脸关键点检测模块和初步疲劳检测模块，云计算端包括头部姿态检测模块和综合疲劳等级检测模块，作业图像同步输送到人脸关键点检测模块和云计算端，人脸关键点检测模块进行人脸关键点检测并将关键点信息输送到初步疲劳检测模块，初步疲劳检测模块完成初步疲劳判断，头部姿态检测模块对作业图像进行处理获得头部姿态检测信息，综合疲劳等级检测模块输出疲劳等级，判断结果为疲劳时也向驾驶员发出提醒。本发明将利用了具有更大计算效率的云计算端，并对检测所涉及的模型进行改进，从而在疲劳检测兼顾了实时性和可靠性。

Description

一种云边协同的驾驶员疲劳检测***

技术领域

本发明属于人工智能技术领域，具体涉及一种云边协同的驾驶员疲劳检测***。

背景技术

随着汽车业的快速发展，与之相关的交通事故也在快速增加，而这些事故中，疲劳驾驶是造成交通事故的重要因素，因此对驾驶员进行疲劳检测的技术作为减少疲劳驾驶和交通事故的技术非常重要，需要尽可能提高其检测的可靠性和实时性。

现有技术在计算机视觉领域能通过对人脸检测和头部姿态进行疲劳检测，但是一个复杂环境下实现具有良好实时性和鲁棒性的疲劳状态检测，仍然很困难，由于检测过程涉及多个任务的检测计算、如头部运动状态、眼部运动状态、嘴部运动状态，因此仅仅依靠车载***进行检测判断常因为硬件***计算能力不足导致计算结果无法兼具实时性和可靠性，因此如何解决这一问题成了本领域技术人员有待解决的难题。

发明内容

本发明的目的是提供一种云边协同的驾驶员疲劳检测***，用于解决现有技术中因为硬件***计算能力不足导致疲劳检测技术无法基于车载***兼顾疲劳检测的实时性和可靠性的技术问题。

所述的一种云边协同的驾驶员疲劳检测***，包括摄像头、边缘计算主机和云计算端，所述摄像头用于采集驾驶员的作业图像，所述边缘计算主机包括人脸关键点检测模块和初步疲劳检测模块，所述云计算端包括头部姿态检测模块和综合疲劳等级检测模块，所述作业图像同步输送到人脸关键点检测模块和云计算端，所述人脸关键点检测模块进行人脸关键点检测并将关键点信息输送到初步疲劳检测模块，所述初步疲劳检测模块通过关键点信息进行眨眼判定和打哈欠判定得到边缘疲劳检测信息，根据边缘疲劳检测信息完成初步疲劳判断，所述边缘疲劳检测信息发送到云计算端，所述头部姿态检测模块对作业图像进行处理获得头部姿态检测信息，综合疲劳等级检测模块获取边缘疲劳检测信息、头部姿态检测信息和作业图像经过处理后输出疲劳等级，当疲劳等级超过阈值是云计算端向驾驶员发出提醒，当初步疲劳检测模块的初步疲劳判断结果为疲劳时也向驾驶员发出提醒。

优选的，所述综合疲劳等级检测模块采用了CNN_TRANSFORMER模型，还将TRANSFORMER的特征向量为历史预测数据，并作为CNN_TRANSFORMER的一个输入；CNN_TRANSFORMER模型包括：

输入部分：包括三个输入，一是打哈欠、闭眼频率、头部姿态Yaw、Roll、Pitch值；二是驾驶员作业信息图像经过CNN提取特征后的值；三是CNN_TRANSFORMER输出特征的值，即历史预测数据；

Multi-head Attention结构，处理过程如下：

A通过将输入向量分别乘以三个权重矩阵(训练得到)，得到V、K、Q三个分量；

B将对应的Q、K依次进行点积获得每个位置的分值；

C对计算出来的分值进行softmax操作，归一化分值使得全为正数且它们的和将softmax分值与V的向量按位相乘；

D将所有加权向量加起来，产生该位置输出结果；

Mask Multi-head Attention结构：Multi-head Attention加入Mask模块；

Feed Forward网络结构；包含了2层Linear Transformation层，中间的激活函数是ReLu，作用是空间变换；

输出：CNN_TRANSFORMER网络后接入一个Softmax模块，用来输出疲劳预测值，根据预测值将疲劳等级分为若干级进行输出。

优选的，人脸关键点检测模块采用深度学习RetinaFace模型进行人脸区域检测和简单关键点检测，再利用Opencv Dlib模型进行人脸各个关键点检测；Retinaface模型结构包括：

主干网络：采用mobilenetV1-0.25结构，包含通道数为16、32、64、128和256的若干个深度可分离卷积模块，分别取最后一个通道数为64、128、256的深度可分离卷积模块作为特征图，模型结构图中定义为FeatherMap_1、FeatherMap_2、FeatherMap_3；

Neck网络：采用FPN金字塔结构，FeatherMap_1、FeatherMap_2、FeatherMap_3后分别接入通道数为64、卷积核为1X1的卷积模块，FeatherMap_3进行2次下采样，以金字塔结构形式连接，形成FPN_1、FPN_2、FPN_3特征图；

SSH网络：为了进一步加强特征提取，在FPN_1、FPN_2、FPN_3特征图之后添加SSH特征提取，得到SSH_1、SSH_2、SSH_3特征图；

Head网络：SSH_1、SSH_2、SSH_3经过张量变形操作之后，形成Head_1、Head_2、Head_3。

优选的，Retinaface模型包括人脸分类1个分类任务、人脸框回归和人脸关键点回归2个回归任务；人脸分类：判断图片是否包含人脸；人脸框回归：计算人脸框中心点坐标和长宽，及置信度；人脸关键点回归：检测人脸5个关键点。

优选的，初步疲劳检测模块根据检测的关键点进行疲劳检测；在眨眼判定中计算对应眼睛的两个点集最小包围区纵向距离，若以上2个距离小于设定的阈值，表示闭眼状态；计算单位时间内闭眼时间所占的百比率perclos_eyes，超过一定次数则表示疲劳，计算公式为：

在打哈欠判定中计算对应嘴部的点集最小包围区纵向距离；若距离大于设定的阈值，表示哈欠状态；计算单位时间内哈欠时间所占的百比率perclos_yawn，超过一定次数则表示疲劳；计算公式为：

优选的，点集最小包围区纵向距离均通过OBB最小包围盒算法计算，包括：

(1)计算点集的的协方差矩阵A；

(2)计算协方差矩阵的特征值λ和特征向量x；

(3)单位化后得到新的坐标系特征向量；

(4)求新的坐标系空间AABB中包围盒的顶点，将数据从主坐标系空间转到新的坐标系空间：

(5)将新坐标系下的AABB矩阵转回主坐标系下，得到OBB包围盒矩阵，计算最小距离d；

对于嘴部来说，d大于某个阈值，即判断为打哈欠；对于眼睛来说，d小于某个阈值，即判断为闭眼。

优选的，头部姿态检测模块是基于FSA-Net进行驾驶员头部姿态检测，基于回归和特征聚合方法，实现了分段回归模式，并且在特征聚合方面，提出了细粒度结构映射，处理后得到头部姿态的Yaw、Row、Pitch值作为头部姿态检测信息。

本发明具有以下优点：本方案利用车载***中边缘端和云计算端将整个疲劳检测的工作分为边缘端进行疲劳初步检测和云计算端同步进行疲劳等级预测，其中计算量较小的闭眼疲劳判断和打哈欠疲劳判断基于边缘服务主机进行处理判断，并将判别信息也发送到云计算端，当判断驾驶员处于疲劳状态发出提示，而云计算端则负责处理计算量较大的头部姿态检测和进一步的疲劳等级检测，并根据检测结果发出提示。由于车载的边缘端在进行初步疲劳检测时所需计算量较小，因此既能保证可靠性又能保证实时性。

人脸检测时应用RetinaFace人脸区域检测模型，具有占内存小、检测速度快，且精度高的优点，而后本方案通过OBB最小包围盒算法对是否闭眼和打哈欠进行识别判断，计算量较小而效率得到提升，能满足疲劳检测的实时性要求。

云计算端通过WEB服务器和消息流服务器进行深入处理和检测，硬件计算效率较高能保证上述检测的实时性；同时利用历史预测数据将其纳入综合疲劳等级检测当中，从而让该模型能结合作业图像和疲劳检测的历史数据进行更加可靠准确的预测判断，大大提高了预测精度和可靠性。

附图说明

图1为本发明一种云边协同的驾驶员疲劳检测***进行检测的流程图。

图2为本发明中人脸关键点检测模块进行关键点检测的流程图。

图3为本发明中Retinaface模型的模型结构图。

图4为本发明中Retinaface模型的深度可分离卷积模块的模型结构图。

图5为本发明中人脸关键点检测模块检测出的人脸关键点的示意图。

图6为本发明中综合疲劳等级检测模块预测疲劳等级的流程图。

图7为本发明CNN_TRANSFORMER模型的模型结构图。

图8为本发明中CNN_TRANSFORMER模型的Multi-head Attention结构的模型结构图。

具体实施方式

下面对照附图，通过对实施例的描述，对本发明具体实施方式作进一步详细的说明，以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和伸入的理解。

本文中的参数符号含义如表1。

表1：本文中各参数符号的含义

参数符号	含义
		perclos_eyes	单位时间内闭眼时间所占的百比率
perclos_yawn	单位时间内哈欠时间所占的百比率
		A	协方差矩阵
λ＝[λ1，λ2]	协方差矩阵的特征值
		x＝[P1，P2]	协方差矩阵的特征向量
[vx，vy]	新的坐标系特征向量
		[ξx，ξy]	单位化的特征向量
P_new	新的坐标系空间AABB中的包围盒的顶点
		AABB	AABB的包围盒向量
OBB	AABB矩阵转回主坐标系下，得到的OBB包围盒矩阵
		d	点集最小包围区纵向的最小距离

如图1-8所示，本发明提供了一种云边协同的驾驶员疲劳检测***，包括摄像头、边缘计算主机和云计算端，所述摄像头用于采集驾驶员的作业图像，所述边缘计算主机包括人脸关键点检测模块和初步疲劳检测模块，所述云计算端包括头部姿态检测模块和综合疲劳等级检测模块，所述作业图像同步输送到人脸关键点检测模块和云计算端，所述人脸关键点检测模块进行人脸关键点检测并将关键点信息输送到初步疲劳检测模块，所述初步疲劳检测模块通过关键点信息进行眨眼判定和打哈欠判定得到边缘疲劳检测信息，根据边缘疲劳检测信息完成初步疲劳判断，所述边缘疲劳检测信息发送到云计算端，所述头部姿态检测模块对作业图像进行处理获得头部姿态检测信息，综合疲劳等级检测模块获取边缘疲劳检测信息、头部姿态检测信息和作业图像经过处理后输出疲劳等级，当疲劳等级超过阈值是云计算端向驾驶员发出提醒，当初步疲劳检测模块的初步疲劳判断结果为疲劳时也向驾驶员发出提醒。

本***的摄像头采用Usb摄像头，摄像头的读取采用OpenCV库，图像数据流发布成MJPEG格式。

人脸关键点检测模块采用深度学习RetinaFace模型进行人脸区域检测和简单关键点检测，再利用Opencv Dlib模型进行人脸68个关键点检测。

摄像头发送的驾驶员作业的MJPEG视频流数据先解码RGB图像，然后基于Retinaface模型进行人脸区域检测，再基于Dlib模型实现人脸68个关键点的检测，输出人脸68个关键点的图像坐标位置。

其中RetinaFace是一种基于one-stage的人脸区域检测网络，具有模型占内存小、检测速度快，且精度高的特点。Retinaface模型结构如图3所示，包括主干网络、Neck网络、SSH网络和Head网络。

(1)主干网络：采用mobilenetV1-0.25结构，共有13个深度可分离卷积模块(Deepthwise_Conv)，其中，通道数为16的1个，通道数为32的2个，通道数为64的2个，通道数为128的6个，通道数为256的2个。分别取最后一个通道数为64、128、256的深度可分离卷积模块作为特征图，模型结构图中定义为FeatherMap_1、FeatherMap_2、FeatherMap_3。深度可分离卷积模块(Deepthwise_Conv)结构如图3所示。

(2)Neck网络：采用FPN金字塔结构。FeatherMap_1、FeatherMap_2、FeatherMap_3后分别接入通道数为64、卷积核为1X1的卷积模块，FeatherMap_3进行2次下采样，以金字塔结构形式连接，形成FPN_1、FPN_2、FPN_3特征图。

(3)SSH网络：为了进一步加强特征提取，在FPN_1、FPN_2、FPN_3特征图之后添加SSH特征提取，得到SSH_1、SSH_2、SSH_3特征图。

(4)Head网络：SSH_1、SSH_2、SSH_3经过张量变形操作之后，形成Head_1、Head_2、Head_3。

上述Retinaface模型包括1个分类任务和2个回归任务，即人脸分类、人脸框回归、人脸关键点回归(5个关键点)。

(1)人脸分类：判断图片是否包含人脸。

(2)人脸框回归：计算人脸框中心点坐标和长宽，及置信度。

(3)人脸关键点回归：检测人脸5个关键点。

当完成人脸区域的位置、区域、人脸5个关键点的检测后基于这些人脸区域信息利用Dlib模型完成68个关键点检测。

初步疲劳检测模块根据检测的关键点进行疲劳检测，规则如下。

A眨眼判定。

(1)计算点集最小包围区纵向距离H_distance(37，38，39，40，41，42)、H_distance(43，44，45，46，47，48)；这里采用OBB最小包围盒算法进行计算。

(2)若以上2个距离小于设定的阈值，表示闭眼状态。

(3)计算计算单位时间(如30s)内闭眼时间所占的百比率perclos_eyes(相当于：一定时间内的闭眼次数)，超过一定次数则表示疲劳，计算公式为：

B打哈欠判定。

(1)计算点集最小包围区纵向距离H_distance(49，50，.....，68)；这里采用OBB最小包围盒算法进行计算。

(2)若距离大于设定的阈值，表示哈欠状态。

(3)计算单位时间(如30s)内哈欠时间所占的百比率perclos_yawn(相当于：一定时间内的打哈欠次数)，超过一定次数则表示疲劳；计算公式为：

上述计算最小包围区纵向距离的OBB最小包围盒算法如下(以眨眼判定中一侧关键点的纵向距离的计算过程为例)。

(1)计算点集(37，38，39，40，41，42)的协方差矩阵A。

(2)计算协方差矩阵的特征值λ和特征向量x(单位矩阵为E)，依据公式

Ax＝λx

|A-λE|＝0

求解λ和x，

λ＝[λ1，λ2]

x＝[P1，P2]

令：

Q＝[P2，P1]

有

A＝QΛQ^T。

(3)单位化后得到新的坐标系特征向量。

新的坐标系特征向量为：[vx，vy]，

其中vx＝Q[0]，vy＝Q[1]。

单位化特征向量后：[ξx，ξy]，

其中，

令

x_min＝Min(P_new[0])

x_max＝Max(P_new[0])

y_min＝Min(P-new[1])

y_max＝Max(P_new[1])

则AABB的包围盒向量为：

(5)将新坐标系下的AABB矩阵转回主坐标系下，得到OBB包围盒矩阵。

OBB＝[ξx ξy]AABB

计算最小距离有：

d＝y_max-y_min

其中，d即为嘴部、眼睛的张闭的距离。对于嘴部来说，d大于某个阈值，即判断为打哈欠；对于眼睛来说，d小于某个阈值，即判断为闭眼。

基于上述得到的判断结果进行初步疲劳判断，方式如下。

(1)闭眼疲劳判断：采用perclosP80测量指标，即眼皮盖过眼球的面积超过80％所占的时间比例。即perclos_eyes大于80％即为初步检测的疲劳状态。

(2)打哈欠疲劳判断：参考闭眼疲劳判断，当perclos_yawn大于50％即为初步检测的疲劳状态。

头部姿态检测模块是基于FSA-Net进行驾驶员头部姿态检测。常用的头部姿态估计方法，通常是基于关键点或者深度图，计算量较大。而FSA-Net是基于回归和特征聚合方法，实现了分段回归模式，并且在特征聚合方面，提出了细粒度结构映射，在姿态估计具有总体计算较小，运算速度快，实时性好的优点。通过该模型处理可得到头部姿态的Yaw、Row、Pitch值作为头部姿态检测信息。

综合疲劳等级检测模块采用了CNN_TRANSFORMER模型，将边缘端检测并上传的闭眼频率、打哈欠频率这些边缘疲劳检测信息，云计算端的头部姿态Yaw、Row、Pitch值，及驾驶员作业图像的特征值信息作为CNN_TRANSFORMER的输入，输出疲劳等级。

CNN_TRANSFORMER是在TRANSFORMER的改进，将图像特征数据引入TRANSFORMER，增强了输入特征，同时以TRANSFORMER的特征向量为历史预测数据，并作为CNN_TRANSFORMER的一个输入，能够提升预测精度。CNN_TRANSFORMER结构如图7所示。图中英文代码和符号含义如下。

encoder——编码器。

positional encoding——位置编码。

input embedding——输入嵌入。

output embedding——输出嵌入。

Multi-Head Attention——多头注意力层。

add+normalization——归一化和残差连接。

feed forward——前馈。

Masked Multi-Head Attention——掩码多头注意力层。

是异或运算符。

Linear——线性(变换)层。

softmax即softmax函数。

该模型的处理过程包括：首先将边缘疲劳检测信息和头部姿态检测信息均通过编码器编码，而作业图像(即驾驶员作业信息图像)输入CNN处理，处理后得到的结果分别经输入嵌入和位置编码处理后进行融合，结果输入到多头注意力层，处理后归一化再经前馈处理并再次归一化。同时历史预测数据经编码器编码后分别经输出嵌入和位置编码处理，处理后将二者融合并输入到掩码多头注意力层处理并将结果归一化。边缘疲劳检测信息和头部姿态检测信息融合处理归一化的结果与历史预测数据经处理并归一化后的结果一同输入到另一多头注意力层，处理结果再次经归一化、前馈处理、二次归一化的操作后输入线性变换层，同时存入历史预测数据，而线性变换层处理后再通过softmax函数激活得到预测的疲劳等级。

CNN_TRANSFORMER模型的各部分结构具体如下。

(1)输入部分：主要有三个，一是打哈欠、闭眼频率、头部姿态Yaw、Roll、Pitch值；二是驾驶员作业信息图像经过CNN提取特征后的值；三是CNN_TRANSFORMER输出特征的值，即历史预测数据。三种类型的值分别进行信息编码、提取向量元素位置、降维等操作形成模型的标准化的输入。

(2)Multi-headAttention结构：如图8所示，具体处理过程如下：

A通过将输入向量分别乘以三个权重矩阵(训练得到)，得到V、K、Q三个分量。

B将对应的Q、K依次进行点积获得每个位置的分值。

C对计算出来的分值进行softmax操作，归一化分值使得全为正数且它们的和将softmax分值与V的向量按位相乘。

D将所有加权向量加起来，产生该位置输出结果。

(3)Mask Multi-head Attention结构：Multi-head Attention加入Mask模块即是Mask Multi-head Attention结构。

(4)Feed Forward网络结构(FFN)：FFN的作用就是空间变换。FFN包含了2层LinearTransformation(线性变换)层，中间的激活函数是ReLu。

(5)输出：CNN_TRANSFORMER网络后接入一个Softmax模块，用来输出疲劳预测值，根据预测值将疲劳等级分为10级进行输出。

云计算端经上述计算得到输出的疲劳等级后根据设定的等级阈值判断是否处于疲劳状态，因此在检测到疲劳信息后，将状态通过SMS服务器发送至驾驶员手机进行提醒。同时，当边缘计算主机初步检测到疲劳状态后也向驾驶员发出提醒。

上面结合附图对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的发明构思和技术方案进行的各种非实质性的改进，或未经改进将本发明构思和技术方案直接应用于其它场合的，均在本发明保护范围之内。

Claims

1.一种云边协同的驾驶员疲劳检测***，其特征在于：包括摄像头、边缘计算主机和云计算端，所述摄像头用于采集驾驶员的作业图像，所述边缘计算主机包括人脸关键点检测模块和初步疲劳检测模块，所述云计算端包括头部姿态检测模块和综合疲劳等级检测模块，所述作业图像同步输送到人脸关键点检测模块和云计算端，所述人脸关键点检测模块进行人脸关键点检测并将关键点信息输送到初步疲劳检测模块，所述初步疲劳检测模块通过关键点信息进行眨眼判定和打哈欠判定得到边缘疲劳检测信息，根据边缘疲劳检测信息完成初步疲劳判断，所述边缘疲劳检测信息发送到云计算端，所述头部姿态检测模块对作业图像进行处理获得头部姿态检测信息，综合疲劳等级检测模块获取边缘疲劳检测信息、头部姿态检测信息和作业图像经过处理后输出疲劳等级，当疲劳等级超过阈值是云计算端向驾驶员发出提醒，当初步疲劳检测模块的初步疲劳判断结果为疲劳时也向驾驶员发出提醒。

2.根据权利要求1所述的一种云边协同的驾驶员疲劳检测***，其特征在于：所述综合疲劳等级检测模块采用了CNN_TRANSFORMER模型，还将TRANSFORMER的特征向量为历史预测数据，并作为CNN_TRANSFORMER的一个输入；CNN_TRANSFORMER模型包括：

Multi-head Attention结构，处理过程如下：

B将对应的Q、K依次进行点积获得每个位置的分值；

D将所有加权向量加起来，产生该位置输出结果；

Mask Multi-head Attention结构：Multi-head Attention加入Mask模块；

3.根据权利要求1或2所述的一种云边协同的驾驶员疲劳检测***，其特征在于：人脸关键点检测模块采用深度学习RetinaFace模型进行人脸区域检测和简单关键点检测，再利用Opencv Dlib模型进行人脸各个关键点检测；Retinaface模型结构包括：

4.根据权利要求3所述的一种云边协同的驾驶员疲劳检测***，其特征在于：Retinaface模型包括人脸分类1个分类任务、人脸框回归和人脸关键点回归2个回归任务；人脸分类：判断图片是否包含人脸；人脸框回归：计算人脸框中心点坐标和长宽，及置信度；人脸关键点回归：检测人脸5个关键点。

5.根据权利要求1所述的一种云边协同的驾驶员疲劳检测***，其特征在于：初步疲劳检测模块根据检测的关键点进行疲劳检测；在眨眼判定中计算对应眼睛的两个点集最小包围区纵向距离，若以上2个距离小于设定的阈值，表示闭眼状态；计算单位时间内闭眼时间所占的百比率perclos_eyes，超过一定次数则表示疲劳，计算公式为：

6.根据权利要求5所述的一种云边协同的驾驶员疲劳检测***，其特征在于：点集最小包围区纵向距离均通过OBB最小包围盒算法计算，包括：

(1)计算点集的的协方差矩阵A；

(2)计算协方差矩阵的特征值λ和特征向量x；

(3)单位化后得到新的坐标系特征向量；

7.根据权利要求1所述的一种云边协同的驾驶员疲劳检测***，其特征在于：头部姿态检测模块是基于FSA-Net进行驾驶员头部姿态检测，基于回归和特征聚合方法，实现了分段回归模式，并且在特征聚合方面，提出了细粒度结构映射，处理后得到头部姿态的Yaw、Row、Pitch值作为头部姿态检测信息。