CN113642522B

CN113642522B - 基于音视频的疲劳状态检测方法和装置

Info

Publication number: CN113642522B
Application number: CN202111021587.0A
Authority: CN
Inventors: 陶建华; 肖明远; 刘斌; 连政
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2022-02-08
Anticipated expiration: 2041-09-01
Also published as: CN113642522A

Abstract

本发明提供基于音视频的疲劳状态检测方法和装置，包括：通过人脸识别技术在本地驾驶员档案数据库中确认目标驾驶员身份，如果没有对应人员信息，则新建驾驶员档案；在车辆驾驶过程中，采集目标驾驶员在驾驶过程中的音视频信息和生理信息，并提取出所述音视频信息和生理信息中与疲劳检测相关的数据，得到疲劳检测数据；面部视频信息、整体躯干部位视频信息和音频信息；根据疲劳检测数据和历史的疲劳检测数据对目标驾驶员当前状态进行分析，得出局部疲劳状态；根据局部疲劳状态，以及目标驾驶员当前持续驾驶时间，计算目标驾驶员综合疲劳状态并根据映射关系进行安全评价，根据安全评价的等级对所述目标驾驶员进行防疲劳驾驶示警操作。

Description

基于音视频的疲劳状态检测方法和装置

技术领域

本发明涉及视频图像处理与模式识别领域，具体涉及基于音视频的疲劳状态检测方法和装置。

背景技术

疲劳驾驶在专业驾驶员群体中，特别是长途客运物流司机中，表现得尤其普遍。由于驾驶员坐姿和动作长时间固定重复，其生理机能和心理状态缓慢发生变化，导致注意力分散、打瞌睡、视野变窄、信息漏看、反应判断迟钝，出现驾驶操作失误或完全丧失驾驶能力，以至发生碰撞、冲出路面等严重交通事故。如果能提前2秒钟预警将能减少92%的交通事故，提前0.5秒钟预警，将会避免73%的交通事故。因此，一种高效快速的预警***，可以避免拯救成千上万人的生命，避免财产及经济的损失。

目前的疲劳检测技术及预警***，主要分为三类方法：基于车辆的驾驶模式、基于驾驶员的生理心理特征、基于计算机视觉技术。其中基于车辆的驾驶模式一般在车头部放置若干摄像头，实时拍摄车辆在车道中的位置，从而获得车道偏移数据来判断驾驶员疲劳状态。这种方法的主要缺点是，拍摄画面效果受光线和天气影响很大，而且当路面没有分割线或分割线不清晰时就很难进行分析，但这种方式容易受驾驶员个人习惯的影响出现误判；基于驾驶员生理心理特征需要相应的传感器直接接触驾驶员的身体，容易造成不适应感，并影响操作，同时其信号也容易受到噪音的干扰；当计算机视觉作用于驾驶员时，主要是通过图像分析手段对驾驶员的脸部与眼部特征进行疲劳估计，由于其具有非接触、无干扰、实时效果好、准确率高及精度高等优点，目前得到了广泛的研究。一般来说，在前挡风玻璃之后会放置若干摄像头，实时拍摄驾驶员的头部。通过拍摄画面可以分析驾驶员的眨眼频率（驾驶员疲劳时眨眼频率一般会降低）、眼睑闭合度PERCLOS（1分钟内眼睑80%闭合的时间；驾驶员疲劳时眼睑闭合时间通常会增加）、眼球跟踪（观察驾驶员是否正视前方，是否主动检查后视镜和侧视镜）、瞳孔反应（驾驶员疲劳时瞳孔对光线变化的反应会变慢）、点头（驾驶员打瞌睡时头通常会垂得更低，点头动作会增多）、打哈欠（基于嘴部状态）等动作，从而判断驾驶员是否疲劳。

但是这些方法使用单一的检测因子，在结合多因素表征方面的综合性较差，比如没有结合驾驶者的驾驶时长、以及驾驶者非面部状态（比如手部状态）等符合驾驶者本身具有的驾驶特点。

另外，在判断出驾驶员的疲劳状态后，如何进行有效示警是一个很关键的问题。如果单纯地进行语音提示，可能不能有效地提醒驾驶员；若直接接管车辆，让车辆减速甚至停止，考虑到实际所处的驾驶环境，很容易由此引发其他交通事故如后车追尾等。

鉴于此，克服上述现有技术所存在的缺陷以及提供一套更完备的疲劳识别及预警技术方案是亟待解决的。

发明内容

有鉴于此，本发明提供一种基于音视频的疲劳状态检测方法，包括：

S101：驾驶员身份识别：通过人脸识别技术在本地驾驶员档案数据库中确认目标驾驶员身份，如果没有对应人员信息，则新建驾驶员档案；

S102：目标驾驶员数据采集：在车辆驾驶过程中，采集目标驾驶员在驾驶过程中的音视频信息和生理信息，并提取出所述音视频信息和生理信息中与疲劳检测相关的数据，得到疲劳检测数据；所述音视频信息包括：面部视频信息、整体躯干部位视频信息和音频信息；

S103：目标驾驶员疲劳状态检测：根据所述疲劳检测数据和历史的疲劳检测数据对目标驾驶员当前状态进行分析，得出局部疲劳状态；

S104：疲劳状态示警：根据所述局部疲劳状态，以及目标驾驶员当前持续驾驶时间，计算目标驾驶员综合疲劳状态。

在一些实施例中，从所述生理信息中提取与疲劳检测相关的数据包括：心率、肌电频率和皮肤电传导；从所述面部视频信息提取与疲劳检测相关的数据包括：眼部和嘴部部位的视频信息；从整体躯干部位视频信息中提取姿态信息。

在一些实施例中，应用所述眼部和嘴部部位的视频信息得到所述局部疲劳状态的第一部分，第一局部疲劳状态La，具体方法为：将眼部和嘴部部位的视频信息按指定帧率转化为视频帧序列，得到面部视频帧序列；然后剔除非人脸的区域，对所述面部视频帧序列进行人脸检测和定位，得到人脸关键点眼部和嘴部的视频帧序列数据；将所述眼部和嘴部的视频帧序列数据输入第一卷积神经网络，得到眼嘴状态检测数据，应用所述眼嘴状态检测数据计算第一局部疲劳状态La。

在一些实施例中，所述应用所述眼嘴状态检测数据计算第一局部疲劳状态La的具体方法包括：

应用眼状态检测数据计算眨眼频率BF；

应用嘴状态检测数据计算打哈欠频率YF；

将所述眨眼频率BF和打哈欠频率YF融合，得到融合后的特征向量f；

将所述融合后的特征向量f输入第一局部疲劳状态分类预测模型，得到第一局部疲劳状态La的判定结果；

第一局部疲劳状态La的判定结果为：

(1) 正常状态；

(2) 轻微疲劳状态；

(3) 中度疲劳状态；

(4) 重度疲劳状态。

在一些实施例中，应用所述整体躯干部位视频信息得到所述局部疲劳状态的第二部分，第二局部疲劳状态Lb，具体方法为：捕捉上半身影像，对目标驾驶员上半身12个关节点进行姿态估计，得到姿态估计特征，将所述姿态估计特征输入第二卷积神经网络，得到第二局部疲劳状态Lb的判定结果；

第二局部疲劳状态Lb的判定结果为：

(1) 正常状态；

(2) 轻微疲劳状态；

(3) 中度疲劳状态；

(4) 重度疲劳状态。

在一些实施例中，所述得到姿态估计特征的具体方法为：

根据目标驾驶员上半身12个关节点，构建目标驾驶员骨架模型时空图；具体方法如下：

对目标驾驶员上半身骨架模型构建时空图G=(V,E)，

其中驾驶员关节点矩阵集合

；

其中，

V_ti表示某一帧的某个关节点，

t表示帧数，

T表示某段数据总帧数，

i表示某一帧的节点索引，

N表示某一帧节点的总数，

V表示驾驶员关节点矩阵集合，

E表示视频帧中的边集，

所述驾驶员关节点矩阵集合V包含了目标驾驶员在时间和空间上的上半身显示的关节点，

所述边集分为空间和时间上的边集：

空间上的边集，按照

构建空间边集，其中i和j代表同一时刻的视频帧中不同位置的关节点；

其中，

i!=j 表示两个不同关节点，

Es表示edgeset space-空间上的边集，

v_ti表示某一帧某一节点，

t代表当前时刻，

表示的表示的含义是某一帧下两个不同关节点之间的连线，即item定义，将其汇总起来即为空间边集，

时间上边集，按照

构建时间边集，其中t代表当前时刻，t+1代表下一时刻；

E_T表示时间上的边集

v_(t+1)i表示下一时刻帧的该位置节点；

所述构建时空图G=(V,E)为作为目标驾驶员姿态估计特征。

在一些实施例中，应用所述生理信息得到所述局部疲劳状态的第三部分，第三局部疲劳状态Lc，具体方法为：

应用心率提取心率变异性；

将心率变异性输入到生理信号特征的疲劳状态检测模型，得到第三局部疲劳状态Lc；

第三局部疲劳状态Lc的判定结果为：

(1) 正常状态；

(2) 轻微疲劳状态；

(3) 中度疲劳状态；

(4) 重度疲劳状态。

在一些实施例中，所述计算目标驾驶员综合疲劳状态的具体方法为：利用加权投票融合方式对所述第一局部疲劳状态Lb、第二局部疲劳状态Lb和第三局部疲劳状态Lc进行决策层融合，得到综合疲劳状态。

在一些实施例中，所述加权投票融合的具体过程包括：

构建决策信息标签矩阵M：

其中，m_ij表示分类器i对视频帧j的分类标签，一共有四个类别，n为视频帧的个数；，mij这里指的是取值空间，一共4个类别；

根据决策信息标签矩阵M，构建投票决策矩阵V：

其中，V(i)是单位矩阵I的第i行，其中I 的维度为疲劳状态数量4；

当m₁₁= 1时，V(m₁₁)为4*4单位矩阵的第一行[1,0,0,0]；当m₁₁= 2时，V(m₁₁)为4*4单位矩阵的第二行[0,1,0,0]；当m₁₁ = 3时，V(m₁₁)为4*4单位矩阵的第三行[0,0,1,0]；当m₁₁ = 4时，V(m₁₁)为4*4单位矩阵的最后一行[0,0,0,1];

分类器i的权重ωi表示为:

其中，y_j表示第j个视频帧的真实标签值；n表示视频帧的个数；

加权投票融合，计算目标驾驶员的综合疲劳状态为：

其中，W为由ω_i构成的矩阵；V(j)表示投票决策矩阵V的第j列。

本发明第二方面提供一种基于音视频的疲劳状态检测装置，包括：

身份验证模块、信息采集模块、疲劳分析模块、安全评级模块和示警接管模块；所述身份验证模块与所述信息采集模块连接，所述信息采集模块与所述疲劳分析模块连接；

所述身份验证模块通过人脸识别技术在本地驾驶员档案数据库中确认目标驾驶员身份，如果没有对应人员信息，则新建驾驶员档案；

所述信息采集模块在车辆驾驶过程中，采集目标驾驶员在驾驶过程中的音视频信息和生理信息，并提取出所述音视频信息和生理信息中与疲劳检测相关的数据，得到疲劳检测数据；所述音视频信息包括：面部视频信息、整体躯干部位视频信息和音频信息；

所述疲劳分析模块根据所述疲劳检测数据和历史的疲劳检测数据对目标驾驶员当前状态进行分析，得出局部疲劳状态；根据所述局部疲劳状态，以及目标驾驶员当前持续驾驶时间，计算目标驾驶员综合疲劳状态。

根据上述方案，进一步，所述基于音视频的疲劳状态检测装置还包括安全评级模块和示警接管模块，所述疲劳分析模块与所述安全评级模块连接，所述安全评级模块与所述示警接管模块连接；

所述安全评级模块根据所述局部疲劳状态，以及目标驾驶员当前持续驾驶时间，计算目标驾驶员综合疲劳状态并根据映射关系进行安全评价；

所述示警接管模块根据安全评价的等级对所述目标驾驶员进行防疲劳驾驶示警操作。本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

通过人脸识别技术在本地驾驶员档案数据库中确认目标驾驶员身份，如果没有对应人员信息，则新建驾驶员档案；在车辆驾驶过程中，采集目标驾驶员在驾驶过程中的音视频信息和生理信息，并提取出所述音视频信息和生理信息中与疲劳检测相关的数据，得到疲劳检测数据；面部视频信息、整体躯干部位视频信息和音频信息；根据疲劳检测数据和历史的疲劳检测数据对目标驾驶员当前状态进行分析，得出局部疲劳状态；根据局部疲劳状态，以及目标驾驶员当前持续驾驶时间，计算目标驾驶员综合疲劳状态并根据映射关系进行安全评价，根据安全评价的等级对所述目标驾驶员进行防疲劳驾驶示警操作。

附图说明

图1为本发明实施例提供的基于音视频的疲劳状态检测方法的流程图；

图2为本发明实施例提供的第一卷积神经网络的结构图；

图3为本发明实施例提供的计算第一局部疲劳状态La流程图；

图4为本发明实施例提供的计算第二局部疲劳状态Lb流程图；

图5为本发明实施例提供的第二卷积神经网络的结构图；

图6为本发明实施例提供的提取驾驶员HRV生理特征的流程图；

图7为本发明实施例提供的计算第三局部疲劳状态Lc流程图；

图8为本发明实施例提供的基于音视频的疲劳状态检测装置结构图；

图9为本发明实施例提供的人体关节点示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

实施例1：

如图1所示，本申请实施例2提供的基于音视频的疲劳状态检测方法，包括：

应用眼状态检测数据计算眨眼频率BF；

应用嘴状态检测数据计算打哈欠频率YF；

第一局部疲劳状态La的判定结果为：

(1) 正常状态；

(2) 轻微疲劳状态；

(3) 中度疲劳状态；

(4) 重度疲劳状态。

在一些实施例中，应用所述整体躯干部位视频信息得到所述局部疲劳状态的第二部分，第二局部疲劳状态Lb，具体方法为：捕捉上半身影像，如图9所示，图9中需要1-12，为上半身12个关节点，对目标驾驶员上半身12个关节点进行姿态估计，得到姿态估计特征，将所述姿态估计特征输入第二卷积神经网络，得到第二局部疲劳状态Lb的判定结果；

第二局部疲劳状态Lb的判定结果为：

(1) 正常状态；

(2) 轻微疲劳状态；

(3) 中度疲劳状态；

(4) 重度疲劳状态。

在一些实施例中，所述得到姿态估计特征的具体方法为：

对目标驾驶员上半身骨架模型构建时空图G=(V,E)，

其中驾驶员关节点矩阵集合

；

其中，

V_ti表示某一帧的某个关节点，

t表示帧数，

T表示某段数据总帧数，

i表示某一帧的节点索引，

N表示某一帧节点的总数，

V表示驾驶员关节点矩阵集合，

E表示视频帧中的边集，

所述边集分为空间和时间上的边集：

空间上的边集，按照

其中，

i!=j 表示两个不同关节点，

Es表示edgeset space-空间上的边集，

v_ti表示某一帧某一节点，

t代表当前时刻，t+1代表下一时刻，

表示的含义是某一帧下两个不同关节点之间的连线，即item定义，将其汇总起来即为空间边集，

时间上边集，按照

构建时间边集，其中t代表当前时刻，t+1代表下一时刻；

E_T表示时间上的边集

v_(t+1)i表示下一时刻帧的该位置节点；

所述构建时空图G=(V,E)为作为目标驾驶员姿态估计特征。

应用心率提取心率变异性；

第三局部疲劳状态Lc的判定结果为：

(1) 正常状态；

(2) 轻微疲劳状态；

(3) 中度疲劳状态；

(4) 重度疲劳状态。

在一些实施例中，所述加权投票融合的具体过程包括：

构建决策信息标签矩阵M：

根据决策信息标签矩阵M，构建投票决策矩阵V：

分类器i的权重ωi表示为:

加权投票融合，计算目标驾驶员的综合疲劳状态为：

实施例2：

在一些实施例中，通过分析提取驾驶员人脸图像数字特征产生样本特征序列，并将该样本特征序列与本地驾驶员档案数据库中的特征序列进行对比，用以识别驾驶员身份，辅助后续基于音视频的疲劳状态检测；

S102：目标驾驶员数据采集：在车辆驾驶过程中，通过驾驶室中的面部采集设备、音视频采集器以及接触式传感器设备采集目标驾驶员在驾驶过程中的音视频信息和生理信息，并提取出所述音视频信息和生理信息中与疲劳检测相关的数据，得到疲劳检测数据；所述音视频信息包括：面部视频信息、整体躯干部位视频信息和音频信息；

从所述生理信息中提取与疲劳检测相关的数据包括：心率、肌电频率和皮肤电传导；从所述面部视频信息提取与疲劳检测相关的数据包括：眼部和嘴部部位的视频信息；从整体躯干部位视频信息中提取姿态信息；

采集目标驾驶员的生理数据是由于生理信号理论上是更加准确可靠的疲劳指示，生理信号可以在目标驾驶员疲劳之前就进行预测，而非接触式方法都是根据驾驶员疲劳之后的表现进行判断，所以基于生理信号的疲劳检测可能会提供更充分的预警时间；

具体方法包括：

如图3所示，应用所述眼部和嘴部部位的视频信息得到所述局部疲劳状态的第一部分，第一局部疲劳状态La，具体方法为：将眼部和嘴部部位的视频信息按指定帧率转化为视频帧序列，得到面部视频帧序列；然后剔除非人脸的区域，对所述面部视频帧序列进行人脸检测和定位，得到人脸关键点眼部和嘴部的视频帧序列数据；将所述眼部和嘴部的视频帧序列数据输入第一卷积神经网络，得到眼嘴状态检测数据，应用所述眼嘴状态检测数据计算第一局部疲劳状态La，具体方法包括：

在疲劳驾驶时，会出现眨眼频率降低，打哈欠等眼部和嘴部的相应特征，疲劳判定算法需要在检测眼嘴状态后，进行相应的特征捕获及计算；

正常情况下人的每分钟眨眼次数是20到30次，每次眨眼时间为0.25秒到0.3秒，如果在一段时间内的眨眼次数高于正常频率，则驾驶员有可能处于疲劳状态；

应用眼状态检测数据计算眨眼频率BF，计算公式为：

其中，BT _endj代表第j段视频帧结束时的总眨眼次数；BT _startj代表第j段视频帧开始时的总眨眼次数；T _j代表该段视频帧的长度

在驾驶员正常状态下，可以从之前的眼嘴框检测步骤中检测到闭合及说话等状态的嘴部位置；而在驾驶员打哈欠时，嘴部动作状态一般来说比较明显，因此在眼嘴框检测步骤中不会返回检测框，应用嘴状态检测数据计算打哈欠频率YF，计算公式为：

其中，n _j代表第j段视频帧中未出现嘴部框的次数；T _j代表该段视频帧的长度；

需要综合BF和YF两个参数进行疲劳特征融合，才能较为准确地通过驾驶员面部特征检测出其是否疲劳；将所述眨眼频率BF和打哈欠频率YF融合，得到融合后的特征向量f；

其中，ω₁和ω₂表示为BF和YF设置的不同权重且ω₁+ω₂=1；

具体的，在利用驾驶员历史的疲劳检测数据训练进行超参数权值ω的最优值寻找后，得到最优的ω₁和ω₂；

在一些实施例中，利用支持向量机（Support Vector Machine, SVM）进行基于目标驾驶员面部信息采集数据进行局部疲劳状态分类建模和预测，得到局部疲劳判定结果La；

在一些实施例中，也可以使用深度学习方法针对提取出的特征f搭建相应神经网络进行预测；

在一些实施例中，可以根据本地或云端驾驶员档案数据库将每个驾驶员的眼部、嘴部特征进行记录，从而优化该局部疲劳状态检测，使其更有针对性和鲁棒性；

第一局部疲劳状态La的判定结果为：

(1) 正常状态；

(2) 轻微疲劳状态；

(3) 中度疲劳状态；

(4) 重度疲劳状态；

在一些实施例中，考虑到目标驾驶员佩戴墨镜的情况，可以结合红外阻断墨镜识别技术对上述特征区域进行识；

在一些实施例中，训练过程可以提前在本地或者云端利用现有的眼嘴状态数据集进行训练，得到训练后的第一卷积神经网络作为眼嘴状态检测模型；

在一些实施例中，如图2所示，第一卷积神经网络的具体结构包括：

步骤1：输入的眼、嘴训练集图片分为3个通道进入第一卷积层，使用32个3*3的卷积核，生成32个大小为48*48的feature map；

步骤2：步骤1的feature map经过第一池化层S2进行降维处理，选用大小为2*2的max-pooling，获得32个大小为24*24的feature map；

步骤3：步骤2的feature map进入第二卷积层C3进行进一步的特征提取，使用64个3*3的卷积核，生成64个大小为24*24的feature map；

步骤4：步骤3的feature map经过第二池化层S4进行降维处理，选用大小为2*2的ave-pooling，获得64个大小为12*12的feature map；

步骤5：步骤4的feature map分别经过神经元为512、256第一和第二全连接层F5、F6，最后一层为Softmax层，对输入进行4分类；

可以根据本地或云端驾驶员档案数据库将每个驾驶员的眼部、嘴部特征进行记录，从而优化该局部疲劳状态检测，使其更有针对性和鲁棒性；

在获得包含目标驾驶员整体音视频的采集数据后，通过目标驾驶员行为检测算法，对当前音视频数据进行检测，确定目标驾驶员是否出现规定外的疲劳行为，其中，规定的疲劳行为可以包括但不限于如下行为中的至少一个：点头、喝水、抽烟、打电话、单手或双手脱离方向盘、未面向正前方以及更换驾驶员；

具体的，在采集到目标驾驶员整体音视频数据后，对驾驶员的姿态进行识别，依次来判别当前驾驶员是否处于疲劳驾驶的状态；

在一些实施例中，根据目标驾驶员整体的音视频数据进行疲劳状态识别的流程如图4所示，可分为训练阶段和预测阶段：在训练阶段，利用驾驶员历史整体音视频数据，首先对数据进行目标检测操作对驾驶员的位置进行定位；然后利用姿态估计算法对目标驾驶员的姿态进行提取和估计；最后利用目标驾驶员的姿态特征训练出驾驶员整体姿态疲劳状态模型；在预测阶段，利用目标驾驶员整体实时音视频数据经过同样的目标检测即第二卷积神经网络、姿态估计等步骤得到当前目标驾驶员的整体姿态疲劳状态Lb；

在一些实施例中，使用YOLOv3进行驾驶员的目标检测，它的先验检测（Priordetection）***将***重新用于执行检测任务，它将模型应用于视频帧的多个位置和尺度，对于那些评分较高的区域可以视为检测结果；

应用所述整体躯干部位视频信息得到所述局部疲劳状态的第二部分，第二局部疲劳状态Lb，具体方法为：捕捉上半身影像，对目标驾驶员上半身12个关节点进行姿态估计，得到姿态估计特征，将所述姿态估计特征输入第二卷积神经网络，得到第二局部疲劳状态Lb的判定结果；

得到姿态估计特征的具体方法为：

根据目标驾驶员上半身12个关节点，构建目标驾驶员骨架模型时空图；

对目标驾驶员上半身骨架模型可构建时空图G=(V,E)，其中驾驶员关节点矩阵集合

，T为帧数，N为一帧内关节点数，该集合包含了目标驾驶员在时间和空间上的上半身显示的关节点。E表示视频帧中的边集，边集分为空间和时间上的边集：空间上，按照

构建空间边集，其中i和j代表同一时刻的视频帧中不同位置的关节点。

时间上，按照

构建时间边集，其中t代表当前时刻，t+1代表下一时刻。

所述构建时空图G=(V,E)为作为目标驾驶员姿态估计特征；

在一些实施例中，如图5所示，第二卷积神经网络的具体结构包括：

步骤1：输入特征进行归一化，由于不同视频帧之间上半身关节点坐标变化很大，须先将一个关节点在不同视频帧下的位置进行归一化；

步骤2：将步骤1归一化后的特征输入到第一卷积层，输出大小为64×64，通道数为1，共有三层；

步骤3：池化操作，输出大小为128×128；

步骤4：将经步骤3处理后的feature map输入到第二卷积层，输出大小为128×128，通道数为1，共有两层；

步骤5：池化操作，输出大小为256×256；

步骤6：将经步骤5处理后的feature map输入到第三卷积层，输出大小为256×256，通道数为1，共有两层；

步骤7：平均池化操作，输出大小为256×256；

第二局部疲劳状态Lb的判定结果为：

(1) 正常状态；

(2) 轻微疲劳状态；

(3) 中度疲劳状态；

(4) 重度疲劳状态；

在一些实施例中，可以利用本地或云端驾驶员档案数据库从采集到的音频数据中分离提取出目标驾驶员的语音数据，可以将其语谱特征结合其他特征进行模型训练；

使用心率变异性（Heart Rate Variability，HRV）作为目标驾驶员的代表生理信号，HRV是指逐次心跳间期（RRI）之间的微小变化，是心电信号中常用于检测人体疲劳程度的生理学指标，反映了交感和副交感神经之间的平衡；

HRV指示了连续相邻心跳间期之间的波动，是自主神经***、体液、窦房结等共同影响的结果；HRV不仅体现了心脏随环境变化的适应能力，也间接反映了交感神经与副交感神经之间的平衡关系，因此HRV常用于人体精神负荷检测和自主神经功能均衡性的评价指标，研究发现，在精神疲劳状态下，被试者心率下降，心率变异性增大；

应用所述生理信息得到所述局部疲劳状态的第三部分，第三局部疲劳状态Lc，具体方法为：

应用心率提取心率变异性，如图6所示，提取HRV的流程包括两部分：计算RRI和根据RRI提取HRV时频域特征；

在一些实施例中，首先设计一个滑动窗口w _h存放从方向盘传来的心率序列（每秒为一个单位），表示为：

其中，h_i表示第i秒的心率值；

心率数据项平均值R可表示为：

具体的，以4分钟的心率数据项为例，4分钟内的心跳次数为4R次，RRI的数量为4R-1，用60分别除以w_h个心率数据得到w_h个心跳间隔；

采用随机数生成方式生成剩下4R-1-w_h个RRI，然后将这些RRI***到之前求得的w_h个RRI中，用来模拟目标驾驶员的心跳变化情况；

进一步的，需要用RRI来提取HRV时域和频率特征。时域特征包括RRI的均值meanNN,RRI的标准差SDNN，RRI差值的均方根rMSSD,用来反映HRV的快速变化，具体计算公式如下：

其中，N代表心率数据项的个数，即上述过程中的w_h；

在一些实施例中，可以使用古典谱估计方法中的自相关方法，对HRV进行频谱分析，从而对RRI序列进行谱估计，即使用基于统计分析的心率变异性特征提取算法来获取最能代表心跳的特征HRV；

在一些实施例中，采用支持向量机（Support Vector Machine, SVM）利用获取到的HRV数据结合历史数据进行第三局部疲劳状态Lc的判定；训练过程可以提前在本地或者云端利用现有的生理信号疲劳状态数据集进行训练，得到针对生理信号特征的疲劳状态检测模型，具体流程图如图7所示；

第三局部疲劳状态Lc的判定结果为：

(1) 正常状态；

(2) 轻微疲劳状态；

(3) 中度疲劳状态；

(4) 重度疲劳状态；

可以获得的其他生理指标特征包括但不限于：肌电频率和皮肤电传导率；

在一些实施例中，可以根据本地或云端驾驶员档案数据库将每个驾驶员的生理指标特征进行记录，从而优化该局部疲劳状态检测，使其更有针对性和鲁棒性；

S104：疲劳状态示警：根据所述局部疲劳状态，以及目标驾驶员当前持续驾驶时间，计算目标驾驶员综合疲劳状态并根据映射关系进行安全评价，根据安全评价的等级对所述目标驾驶员进行防疲劳驾驶示警操作；

所述计算目标驾驶员综合疲劳状态的具体方法为：利用加权投票融合方式对所述第一局部疲劳状态La、第二局部疲劳状态Lb和第三局部疲劳状态Lc进行决策层融合，得到综合疲劳状态；

所述加权投票融合的具体过程包括：

构建决策信息标签矩阵M：

其中，m_ij表示分类器i对视频帧j的分类标签，一共有四个类别，n为视频帧的个数；

根据决策信息标签矩阵M，构建投票决策矩阵V：

当m₁₁= 1时，V(m₁₁)为4*4单位矩阵的第一行[1,0,0,0]；当m₁₁= 2时，V(m₁₁)为4*4单位矩阵的第二行[0,1,0,0]；当m₁₁ = 31时，V(m₁₁)为4*4单位矩阵的第三行[0,0,1,0]；当m₁₁ = 4时，V(m₁₁)为4*4单位矩阵的最后一行[0,0,0,1];

分类器i的权重wi:表示

加权投票融合，计算目标驾驶员的综合疲劳状态为：

其中，W为由w_i构成的矩阵；V(j)表示投票决策矩阵V的第j列；

具体的，根据目标驾驶员的驾驶时间，设置一个的驾驶时间代价系数

，其中i表示当前的局部疲劳系数种类，共有{0,1,2}三种取值范围，分表代表La,Lb,Lc三种局部疲劳系数；t表示当前的驾驶时间，t严格大于等于0。

一般的，驾驶时间代价系数初始为1，在i相同的情况下，随着t的增加，其值不断增加。在t相同的情况下，对于不同种局部疲劳系数的代价系数应保持相同。

具体的，目标驾驶员的驾驶时间代价是这样影响局部疲劳系数的：

在一个实施例中，对于第一局部疲劳状态，其代价系数

可表示为：

然后与之前步骤保持一致，利用加权投票融合方式得到综合疲劳状态。

具体的，安全评价等级包括但不限于：安全/低风险/中风险/高风险，分别对应目标驾驶员的正常状态/轻微疲劳状态/中度疲劳状态/重度疲劳状态；

在一些实施例中，需根据当前的安全评价等级采取相应的措施：

1）若安全评价等级为安全，则不进行任何示警；

2）若安全评价等级为低风险，则进行语音示警；

3）若安全评价等级为中风险，在进行上述操作的同时采取车辆接管措施，利用自动驾驶技术进行减速操作；

4）若安全评价等级为高风险，在进行上述操作的同时采取车辆接管措施，利用自动驾驶技术靠边停车操作；

若当前驾驶路段不能停车（高速公路），应考虑切换到自动驾驶模式，根据当前目的地进行接管驾驶；

在一些实施例中，在网络通畅的情况下，可以将采集到的三类不同的数据、当前持续驾驶时间和上一个采集周期的疲劳状态传递到云端，利用云端高性能的硬件设备进行疲劳状态检测，然后从云端传送回当前安全评价；在本地疲劳状态检测***收到运算结果后进行相应的措施。

实施例3：

如图8所示，实施例3提供一种基于音视频的疲劳状态检测装置，包括：

身份验证模块、信息采集模块、疲劳分析模块、安全评级模块和示警接管模块；所述身份验证模块与所述信息采集模块连接，所述信息采集模块与所述疲劳分析模块连接，所述疲劳分析模块与所述安全评级模块连接，所述安全评级模块与所述示警接管模块连接；

在一些实施例中，采集驾驶员人脸信息的设备可以是摄像头或其他视频采集器等，该设备需要与车内具有计算能力的中央数据处理器进行连接，该人脸采集设备可以设置于疲劳状态检测装置中，也可以单独作为一个人脸识别模块进行运行；

在一些实施例中，人脸信息采集设备可以是放置在车内驾驶室的正前方的摄像头；在驾驶员开始驾驶前，需要完成对驾驶员身份信息的认证；人脸识别***利用设备采集到的人脸图像信息，首先判断该驾驶员身份是否存在于本地驾驶员档案数据库中，如果不存在则需要在车载终端上进行注册操作，并将信息同步到本地驾驶员档案数据库中，并保留当前驾驶员的登录状态；如果存在则直接保留当前驾驶员的登录状态；

在一些实施例中，本地驾驶员档案数据库可以替换为云端驾驶员档案数据库，优点是节省安装成本，提高运行速度，降低对车载***的硬件要求；缺点是在某些偏远地区不能联网或者网速很慢，以致于不能正常使用；

在一些实施例中，可以综合本地+云端服务的优点，首先访问云端服务器，如果能正常访问并且传输速度正常，那么就使用云端服务器；如果不能正常访问云端，就使用本地驾驶员档案数据库；

在一些实施例中，目标驾驶员可以在驾驶员身份正确识别之后在终端设备上输入目的地，一方面可以进行导航，另一方面在疲劳示警阶段可以通过切换自动驾驶功能直接接管车辆自动导航到目的地；

在一些实施例中，采集设备可以包括但不限于：面部采集设备、整体音视频采集器、接触式传感器设备：其中面部采集设备负责采集目标驾驶员的面部信息；音视频采集器负责采集目标驾驶员的动作姿态信息及语音信息；接触式传感器设备负责采集目标驾驶员的生理信息；面部采集设备可以是摄像头、摄像机等设备，可以将其设置于目标车辆驾驶室的正前方，以便于采集目标驾驶员面部的正对信息，主要侧重点在于眼部、嘴部等，并将拍摄的视频数据发送至疲劳状态检测装置中，以便进行后续分析；

在一些实施例中，整体音视频采集器可以是音频加视频采集器同步采集，也可以是音视频一体化采集设备。该设备主要是针对目标驾驶员的整体躯干部位以及其车座的周围环境进行拍摄，并且同时收集区域内的音频数据。采集的主要目的在于分析目标驾驶员的驾驶状态是否规范（是否有打电话，单手驾驶等等），以及目标驾驶员所在车辆的环境是否为嘈杂环境，以便进行后续分析

在一些实施例中，接触式传感器设备可以是只能手表等穿戴式接触设备，但驾驶员戴上其他比较笨重的传感器后可能会感觉不舒服，从而有抵触心理，不愿意使用。为了缓解这个问题，接触式传感器设备可以是内置辅助传感器的方向盘和驾驶员座椅，采集生理信号可以包括但不限于：心率（驾驶员瞌睡时心率变化会变慢）、肌电频率（肌电的频率随着疲劳的产生和疲劳程度的加深呈现下降趋势，肌电的幅值随疲劳程度增加而增大）、皮肤电传导等；

所述疲劳分析模块根据所述疲劳检测数据和历史的疲劳检测数据对目标驾驶员当前状态进行分析，得出局部疲劳状态；

采集目标驾驶员的生理数据是由于生理信号理论上是更加准确可靠的疲劳指示，生理信号可以在目标驾驶员疲劳之前就进行预测，而非接触式方法都是根据驾驶员疲劳之后的表现进行判断，所以基于生理信号的疲劳检测可能会提供更充分的预警时间，将采集到的生理指标数据发送至疲劳状态检测装置中，以便进行后续分析。

在一些实施例中，可以综合本地+云端服务的优点，在传输数据之前先尝试访问云端服务器，如果能正常访问并且传输速度正常，那么就将采集到的数据上传到云端服务器；如果不能正常访问云端，就发送到本地疲劳状态检测装置中；

所述示警接管模块根据安全评价的等级对所述目标驾驶员进行防疲劳驾驶示警操作。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA（现场可编程门阵列）或ASIC（专用集成电路）来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理（PDA）、移动音频或视频播放器、游戏操纵台、全球定位***（GPS）接收机、或例如通用串行总线（USB）闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备（例如EPROM、EEPROM和闪存设备）、磁盘（例如内部硬盘或可移动盘）、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种***模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和***通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.基于音视频的疲劳状态检测方法，其特征在于，所述方法包括：

S104：疲劳状态示警：根据所述局部疲劳状态，以及目标驾驶员当前持续驾驶时间，计算目标驾驶员综合疲劳状态；

应用所述眼部和嘴部部位的视频信息得到所述局部疲劳状态的第一部分，第一局部疲劳状态La，具体方法为：将眼部和嘴部部位的视频信息按指定帧率转化为视频帧序列，得到面部视频帧序列；然后剔除非人脸的区域，对所述面部视频帧序列进行人脸检测和定位，得到人脸关键点眼部和嘴部的视频帧序列数据；将所述眼部和嘴部的视频帧序列数据输入第一卷积神经网络，得到眼嘴状态检测数据，应用所述眼嘴状态检测数据计算第一局部疲劳状态La；

所述应用所述眼嘴状态检测数据计算第一局部疲劳状态La的具体方法包括：

应用眼状态检测数据计算眨眼频率BF；

正常情况下人的每分钟眨眼次数是20到30次，每次眨眼时间为0.25秒到0.3秒，如果在一段时间内的眨眼次数高于正常频率；

应用眼状态检测数据计算眨眼频率BF，计算公式为：

其中，BT_endj代表第j段视频帧结束时的总眨眼次数；BT_startj代表第j段视频帧开始时的总眨眼次数；T_j代表该段视频帧的长度

应用嘴状态检测数据计算打哈欠频率YF；

在驾驶员正常状态下，从之前的眼嘴框检测步骤中检测到闭合及说话状态的嘴部位置；而在驾驶员打哈欠时，嘴部动作状态明显，因此在眼嘴框检测步骤中不会返回检测框，应用嘴状态检测数据计算打哈欠频率YF，计算公式为：

其中，n_j代表第j段视频帧中未出现嘴部框的次数；T_j代表该段视频帧的长度；

其中，ω₁和ω₂表示为BF和YF设置的不同权重且ω₁+ω₂=1；

第一局部疲劳状态La和第二局部疲劳状态Lb的判定结果均为：

(1) 正常状态；

(2) 轻微疲劳状态；

(3) 中度疲劳状态；

(4) 重度疲劳状态；

所述得到姿态估计特征的具体方法为：

对目标驾驶员上半身骨架模型构建时空图G=(V,E)，

其中驾驶员关节点矩阵集合

；

其中，

V_ti表示某一帧的某个关节点，

t表示帧数，

T表示某段数据总帧数，

i表示某一帧的节点索引，

N表示某一帧节点的总数，

V表示驾驶员关节点矩阵集合，

E表示视频帧中的边集，

所述边集分为空间和时间上的边集：

空间上的边集，按照

其中，

i!=j 表示两个不同关节点，

Es表示edgeset space-空间上的边集，

v_ti表示某一帧某一节点，

t代表当前时刻，

时间上边集，按照

构建时间边集，其中t代表当前时刻，t+1代表下一时刻；

E_T表示时间上的边集

v_(t+1)i表示下一时刻帧的位置节点；

所述构建时空图G=(V,E)为作为目标驾驶员姿态估计特征。

2.根据权利要求1所述的基于音视频的疲劳状态检测方法，其特征在于，应用所述生理信息得到所述局部疲劳状态的第三部分，第三局部疲劳状态Lc，具体方法为：

应用心率提取心率变异性；

第三局部疲劳状态Lc的判定结果为：

(1) 正常状态；

(2) 轻微疲劳状态；

(3) 中度疲劳状态；

(4) 重度疲劳状态。

3.根据权利要求2所述的基于音视频的疲劳状态检测方法，其特征在于，所述计算目标驾驶员综合疲劳状态的具体方法为：利用加权投票融合方式对所述第一局部疲劳状态Lb、第二局部疲劳状态Lb和第三局部疲劳状态Lc进行决策层融合，得到综合疲劳状态。

4.根据权利要求3所述的基于音视频的疲劳状态检测方法，其特征在于，所述加权投票融合的具体过程包括：

构建决策信息标签矩阵M：

根据决策信息标签矩阵M，构建投票决策矩阵V：

当m₁₁= 1时，V(m₁₁)为4*4单位矩阵的第一行[1,0,0,0]；当m₁₁= 2时，V(m₁₁)为4*4单位矩阵的第二行[0,1,0,0]；当m₁₁ = 3时，V(m₁₁)为4*4单位矩阵的第三行[0,0,1,0]；当m₁₁ =4时，V(m₁₁)为4*4单位矩阵的最后一行[0,0,0,1];

分类器i的权重ωi表示为: