CN110309760A

CN110309760A - 对驾驶员的驾驶行为进行检测的方法

Info

Publication number: CN110309760A
Application number: CN201910561203.0A
Authority: CN
Inventors: 高治良
Original assignee: Shenzhen Micro & Nano Integrated Circuit And System Application Institute
Current assignee: Shenzhen Micro & Nano Integrated Circuit And System Application Institute
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-10-08

Abstract

本发明提供一种对驾驶员的驾驶行为进行检测的方法，包括获取步骤；检测步骤，其能够同时检测每一帧图像中的眼部状态、嘴部状态、香烟状态和电话状态；判断步骤，其能够同时执行闭眼疲劳状态判断、哈欠疲劳状态判断、吸烟违规状态判断和通话违规状态判断步骤：和报警步骤，其发出声音或发光，并将视频或图像发送到外部设备，其中，检测步骤使用基于卷积神经网络的算法，该卷积神经网络包括至少一个卷积层、至少一个residual层、一个全局池化层和一个全连接层，其中，每个卷积层中都依次设置有一个BN层和一个LeakyReLU层。

Description

对驾驶员的驾驶行为进行检测的方法

技术领域

本发明涉及视觉检测领域，更具体地，涉及对驾驶员的驾驶行为进行检测的方法。

背景技术

驾驶行为检测一般分为疲劳驾驶检测和违规动作检测。早期的疲劳驾驶检测主要从医用角度出发，借助医疗器件对生理特征进行测量，研究疲劳磕睡产生的原因和其他诱发因素，寻找能够监控或避免疲劳驾驶的方法。其中一种监控方法是利用智能报警***，利用红外信号处理方法，判断驾驶员是否正在打磕睡或已经睡着。例如，比较典型的疲劳就是检测采用特制的红外LED装置，根据人的视网膜对不同波长红外光的反射量不同所表现出生理特征，使用850nm和950nm波长的红外光源，在同一时间内得到两幅眼部具有微小差别的图像，然后将这两幅图像进行差分相减，可以提取出眼部瞳孔的位置和大小。再用PERCLOS法则计算眼部的闭合程度来判断疲劳的程度。此后，计算机视觉替代了红外LED的方案，通过安置在车内的一个CCD摄像头监视驾驶员眼部状态（包括眼睑、瞳孔变化及眨眼频率），并用快速简单的算法确定驾驶员眼部在脸部图像中的确切位置，追踪多幅图像来监控驾驶员是否驾驶疲劳。

违规动作指在司机在驾驶过程中做出的一些影响车辆安全行驶的动作或行为，比如打电话、玩手机、吸烟、交头接耳等。违规动作检测一般通过计算机视觉的方式来解决。现有技术针对不同的动作分别采用不同的算法来检测。由于各种算法差异较大，如果全部部署到移动端则太过庞大冗余，所以阻碍了其在移动端上的应用。

综合国内外的现状来看，能做到实时、有效、简单地检测驾驶员的疲劳情况是目前研究的重点和热点，但是目前市场上还没有非常成熟的产品投入到市场上进行实际的应用，这主要存在着以下的困难：首先，如上所述，产品的投入成本比较高、运行速度较慢（冗余过大）且准确度不够，因此无法很好地进行商业化推广；其次，诸如EEG、“清醒带”、监测眼镜等方法的有效性良好，但是由于是接触性的装置，大大影响了驾驶员了自由活动；最后，还因为个体和环境的差异（诸如男女性别、近视眼镜、光照情况、路况等）受到不同的影响。

发明内容

本发明针对现有传感器技术方案成本高、传统图像识别技术方案冗余复杂的特点，提出一种基于神经网络的端到端的计算机视觉检测方案，一体化解决司机疲劳驾驶、吸烟、打电话等动作检测，本发明采用卷积神经网络提取特征，检测各个瞬时时间点目标人体的状态（眼部开闭、嘴部开闭、打电话、吸烟等），在一定时间内综合判断目标人体的疲劳状态和驾驶状态，并在司机疲劳驾驶或者做出违规动作的时候发出报警信号。

为了解决现有驾驶行为检测方法的不足，本发明提供了一种对驾驶员的驾驶行为进行检测的方法，包括：获取步骤；检测步骤，其能够同时检测每一帧图像中的眼部状态、嘴部状态、香烟状态和电话状态；判断步骤，其能够同时执行闭眼疲劳状态判断、哈欠疲劳状态判断、吸烟违规状态判断和通话违规状态判断步骤：和报警步骤，其发出声音或发光，并将视频或图像发送到外部设备，其中，检测步骤使用基于卷积神经网络的算法，该卷积神经网络包括至少一个卷积层、至少一个residual层、一个全局池化层和一个全连接层，其中，每个卷积层中都依次设置有一个BN层和一个LeakyReLU层。

本发明提供了基于神经网络的司机驾驶行为检测端到端的检测方式，解决了传统检测方式成本高或者传统图像处理计算冗余复杂等问题，通过一种网络统一输出所有的判断结果，一步到位。相比传统的图像检测手段，本发明采用的深度学习的方式无需做图像增强方面的预处理，可以适应光照不均匀、目标特征多样化、背景复杂等各种极端环境，且支持针对场景的增量训练，在实际使用过程中，通过定期适当的人工干预校准训练样本，提升在专用场景下的准确率。

通过以下参照附图对示例性实施例的描述，本发明的其他特征将变得清楚。

附图说明

包含在说明书中并构成说明书的一部分的附图例示了本发明的示例性实施例、特征和方面，并且与文字说明一起用来解释本发明的原理。

图1为根据本发明一个方面的检测过程的示意图。

图2是根据本发明一个方面的卷积神经网络的结构示意图。

图3是根据本发明一个方面的疲劳或违规状态的检测流程图。

具体实施方式

下面将参照附图详细描述本发明的各种示例性实施例、特征和方面。应当指出，除非另外具体说明，在这些实施例中描述的部件、数字表示和数值的相对配置不限制本发明的范围。应当指出，下面的实施例并不限制权利要求中记载的本发明的范围，并且并非这些实施例中描述的特征的全部组合均是本发明所必须的。

为解决上述问题，本发明提供对驾驶员的驾驶行为进行检测的方法。

<图像的获得>

在驾驶室中，安装摄像装置或图像拍摄装置（例如照相机、摄像头等）。摄像装置或图像拍摄装置优选地正对驾驶人员。在整个驾驶过程中，摄像装置或图像拍摄装置连续不断地记录驾驶员的驾驶行为，从而形成包括多帧图像的视频。图像会被传送到下文将要描述的图像处理单元中进行特征提取和运算。或者，满足预定条件的帧图像（例如，第5帧，第10帧，第15帧，第20帧，以此类推等）会被传送到下文将要描述的图像处理单元中进行特征提取和运算。当然，拍摄装置也可以被设置为用来拍摄驾驶室内其他人员的行为。

<图像的处理>

如图1所示，本发明的方法、装置、***和计算机可执行存储介质能够通过卷积神经网络提取视频或图像中的特征并进行分类，分别检测出图像中人体各个部位的位置和状态，以及香烟和电话的存在与否及他们各自的位置。然后，直接由卷积神经网络得出眼部和嘴部的开闭状态、吸烟状态（或称抽烟状态）、打电话状态（或称通话状态）等。各个状态的连续时长或次数可被计算出。若检测到连续性的闭眼或者哈欠则可以确定驾驶员处于疲劳状态，***可以输出对应的警告信号；若检测到存在吸烟和通话的情况，则可以确定驾驶员处于违规状态，此时也可输出相应的警告信息或直接作为报警输出。

<<卷积神经网络结构概述>>

首先，作为概述，本发明的卷积神经网络由一系列1*1和3*3的卷积层组成，每个卷积层后都会跟一个BN层和一个LeakyReLU层。同时，为了解决由于卷积网络深度增加而导致的性能下降的问题，还引入了residual层，最后在卷积神经网络的末尾加入全局池化层以及全连接层，再使用softmax进行分类。其中，卷积的步长（strides）默认为（1，1），“padding”（在卷积时是否丢掉边界像素点）默认为same（即在卷积时）padding默认的边长为1，采用0填充（在卷积运算前，在图像的周围补一圈0，然后再做卷积）。优选地，在本发明的网络中，padding优选始终采用same的方式。

<<卷积神经网络结构的第一实施例>>

以下，参照图2来详细说明本发明的卷积神经网络的具体结构。

首先，由摄像装置采集的视频或一系列图像被输入到第1卷积层（“Convolutional”），以对图像进行初步的特征提取。在此，以尺寸为256*256的图像作为示例进行说明。本领域技术人员可以理解，还可以输入其他尺寸的图像。当然，后续的卷积结构也会因输入图像的尺寸不同而发生相应的变化，例如增加或减少卷积层，增加或减少卷积核大小及数量，增加或较少residual层的数量或改变residual在网络中的位置等。作为示例，第1卷积层的卷积核大小被构造为3*3，卷积核数量被设置为32。经该层处理后，输出尺寸为256*256的图像。

接着，第1卷积层输出的图像进入第2卷积层，以对图像进行下采样，缩小图像尺寸。第2卷积层的卷积核大小被构造为3*3/2，卷积核数量被设置为64。第2卷积层将图像的尺寸缩小为128*128并输出。

接着，第2卷积层输出的图像进入第3组合层，以提取特征并增加网络深度。第3组合层包括第31卷积层、第32卷积层和Residual层。其中，第31卷积层的卷积核大小被构造为1*1，卷积核数量被设置为32；第32卷积层的卷积核大小被构造为3*3，卷积核数量被设置为64。经该层处理后，仍输出尺寸为128*128的图像。

接着，第3组合层输出的图像进入第4卷积层，以对图像进行下采样，缩小图像尺寸。第4卷积层的卷积核大小被构造为3*3/2，卷积核数量被设置为128。经该层处理后，输出尺寸为64*64的图像。

接着，第4卷积层输出的图像依次进入2个（2x）第5组合层，以提取特征并增加网络深度。每个第5组合层均包括第51卷积层、第52卷积层和Residual层。其中，第51卷积层的卷积核大小被构造为1*1，卷积核数量被设置为64；第52卷积层的卷积核大小被构造为3*3，卷积核数量被设置为128。经2个第5组合层的处理后，仍输出尺寸为64*64的图像。

接下来，第5组合层输出的图像进入第6卷积层，以对图像进行下采样，缩小图像尺寸。第6卷积层的卷积核大小被构造为3*3/2，卷积核数量被设置为256。经该层处理后，输出尺寸为32*32的图像。

继续，第6卷积层输出的图像依次进入4个第7组合层，以提取特征并增加网络深度。每个第7组合层包括第71卷积层、第72卷积层和Residual层。其中，第71卷积层的卷积核大小被构造为1*1，卷积核数量被设置为128；第72卷积层的卷积核大小被构造为3*3，卷积核数量被设置为256。经该层处理后，仍输出尺寸为32*32的图像。

然后，第7组合层输出的数据进入第8卷积层，以对图像进行下采样，缩小图像尺寸。第8卷积层的卷积核大小被构造为3*3/2，卷积核数量被设置为512。经该层处理后，输出尺寸为16*6的图像。

再然后，第8卷积层输出的图像依次进入4个第9组合层，以提取特征并增加网络深度。每个第9组合层包括第91卷积层、第92卷积层和Residual层。其中，第91卷积层的卷积核大小被构造为1*1，卷积核数量被设置为256；第92卷积层的卷积核大小被构造为3*3，卷积核数量被设置为512。经该层处理后，仍输出尺寸为16*16的图像。

继续，第9组合层输出的图像进入第10卷积层，以对图像进行下采样，缩小图像尺寸。第10卷积层的卷积核大小被构造为3*3/2，卷积核数量被设置为1024。经该层处理后，输出尺寸为8*8的图像。

然后，第10卷积层输出的图像依次进入2个第11组合层，以提取特征并增加网络深度。每个第11组合层包括第111卷积层、第112卷积层和Residual层。其中，第111卷积层的卷积核大小被构造为1*1，卷积核数量被设置为512；第112卷积层的卷积核大小被构造为3*3，卷积核数量被设置为1024。经该层处理后，输出尺寸为8*8的图像。

接着，第11组合层输出的图像依次进入全局池化层和全连接层，以进行分类。在全局池化层对得到的特征图8*8进行全局池化，得到一个特征点。在全连接层，使用输入维度为256、输出维度为2的两层神经网络对所述特征点进行处理，其中第一层神经网络通过TanH激活函数，第二层神经网络连接softmax函数。

<<卷积神经网络结构的第二实施例>>

如果为了减少网络的参数和计算量，一方面可适当的减小网络的参数，另一方面可以裁掉一部分网络层，而不显著地影响网络精度。例如，在第一具体实施例的基础上可以稍加变形得到第二具体实施例。这里将不描述与第一实施例相同的卷积层和组合层的参数设置和排列方式。第二实施例与第一具体实施例不同之处在于2点：第一，第二实施例不具有第7组合层，即，第6卷积层输出的图像直接进入第8卷积层。第二，第二实施例在第11组合层之后，增加了一个第12卷积层和一个第13组合层。

作为示例，第12卷积层的卷积核大小被构造为3*3/2，卷积核数量被设置为1024。经该层处理后，输出尺寸为8*8的图像。

作为示例，第13组合层包括第131卷积层、第132卷积层和Residual层。其中，第131卷积层的卷积核大小被构造为1*1，卷积核数量被设置为512；第132卷积层的卷积核大小被构造为3*3，卷积核数量被设置为1024。经该层处理后，仍输出尺寸为8*8的图像。之后，该图像进入全局池化层。

<<卷积神经网络的训练方法及参数>>

卷积层中的卷积核与全连接层使用服从均值为0、标准差为0.1的高斯分布随机数进行初始化，偏置项使用服从区间为[0，1]的均匀分布随机数进行初始化。

批处理层中，动量设置为0.95，常量设置为0.01。

使用AdaDelta梯度下降算法训练权重，批处理大小设置为64。

按照一定比例设置数据的训练集、验证集和测试集，在20代的训练后，每一代都进行验证集的测试，结果最好的那一代训练模型会被保存并用于测试集的测试，其结果即为整个学习的结果。

设置全部数据迭训练周期为100代，在训练时，训练集中的正负样本比为10:1，每一代训练中，依次打乱20%的负样本与全部正样本进行训练，直至全部负样本训练完完成一个训练周期。

上述实验方法及参数是经过大量实验在科学研究的基础上获得的。这些方法和参数对于本发明所述的驾驶员环境而言十分适用，尤其是在检测眼部状态、嘴部状态、吸烟状态和通话状态时尤为显著。

<疲劳或违规状态的判断>

视频或图像经过卷积神经网络特征提取，并预先将图像划分为11*11个小格子，以每个格子为中心，分别随机产生5个随机候选框，在最后一层的全连接层对每一个候选框进行分类，以此得到每个候选框的分类结果以及位置；在网络训练中，拟定以下几种状态：图像中驾驶员眼部或者嘴部的位置以及开闭状态、驾驶员是否举起手机贴合在脸部的状态、手机的位置、香烟的位置；状态判断或者报警条件：

-疲劳状态：眼部处于闭合的状态即为眼部疲劳表征，若眼部闭合的连续时长超过3s（即，闭眼预定时长，例如3s，5s，10s等），则认定处于闭眼疲劳状态；嘴部处于大张的状态即为嘴部疲劳表征，若嘴部大张连续时长超过1s（即，哈欠预定时长，例如2s）并在哈欠设定时间期间（例如，至少60s，100，120s等）内检测到3次及以上，则认定处于哈欠疲劳状态。闭眼疲劳状态和哈欠疲劳状态统称疲劳状态。

-吸烟状态：只要检测到香烟的存在且香烟靠近嘴部即被定义为吸烟状态。若此种状态在吸烟设定时间期间（例如5s，10s，20s等）内达到3次或4次或5次（吸烟预定次数），则可以判定驾驶员正在违规吸烟。

-通话状态：驾驶员举起手机并将其贴合在脸部被定义为通话状态，若该状态连续例如5s以上（即，通话预定时长，例如6s，8s，15s等）则可以判定驾驶员正在违规通话。

作为闭眼疲劳状态的检测示例，在视频流检测过程中，当第一次检测到眼部处于闭合状态时，记录当前的时间（例如10:10:10）和/或记录当前帧的编号（即，时间或编号，下同）。在后面连续检测的过程中，若连续检测到该种状态，则连续累计变量，如若后面的检测中连续几帧或紧接着的下一帧检测不到该种状态，说明眼睛睁开，就中断统计，此段期间的变量值（单位：帧）或者开始时间到结束记录之间的时间差值（单位：秒(s)）就是闭眼状态的连续时长。本发明设定闭眼最大连续时间（即，闭眼预定时长）为3s。本领域技术人员知晓，4s、5s等其他时间也可被设定为闭眼最大连续时间。

作为示例，若第1-10帧均未检测到眼部处于闭合状态，则闭眼起始时间和闭眼连续时长均设置为0。若在第11帧检测到眼部处于闭合状态，则记录当前的时间，例如为10:10:10，并将该时间设置为闭眼起始时间。若直到第20帧检测到眼部一直处于闭合状态，则持续更新当前时间直到第20帧的时间，例如为10:10:11，则闭眼连续时长为1s，未达到闭眼预定时长，此时不能判定驾驶员处于闭眼疲劳状态。若在第21帧检测到眼部处于睁开状态，则表示驾驶员并未处于连续闭眼的状态，排除疲劳驾驶的可能。此时闭眼起始时间和闭眼连续时长均被更新为0。可替换地，若第11帧到第20帧期间，以及在第21帧到第60帧期间的连续图像中检测到眼部一直处于闭合状态，则被记录的当前时间不断刷新（从第12帧的时间开始记录，一直刷新到第60帧的时间）到第60帧的时间，例如为10:10:15，则闭眼连续时长被更新为5s。此时，由于闭眼连续时长达到（本实施例为超过）闭眼预定时长（例如3s），则认定驾驶员处于睡眠或瞌睡状态，触发报警模块发出声音或光的报警，并控制将相关图像或视频传送到外部设备（例如中控台）。报警后，闭眼起始时间和闭眼连续时长均被重置为0，进入下一轮检测。

作为哈欠疲劳状态的检测示例，在视频流检测过程中，当第一次检测到嘴部处于大张状态时，记录当前的时间（例如10:10:10）和/或记录当前帧的编号。在后面连续检测的过程中，如若连续检测到该种状态，则连续累计变量，若后面的检测中连续几帧或紧接着的下一帧检测不到该种状态，就中断统计，此段期间的变量值（单位：帧）或者开始时间到结束记录之间的时间差值（单位：秒(s)）就是哈欠状态的连续时长。本发明设定哈欠最大连续时间（即，哈欠预定时长）为1s。本领域技术人员知晓，其他时间也可被设定为哈欠最大连续时间。

作为示例，若第1-10帧均未检测到嘴部处于大张状态，则将哈欠起始时间和哈欠连续时长均设置为0。若在第11帧检测到嘴部处于大张状态，则记录当前的时间，例如为10:10:10，并将该时间设置为哈欠起始时间。若在直到第15帧仍然检测到嘴部一直处于大张状态，则记录当前的时间，例如为10:10:10’30，则哈欠连续时长为0.5s。此时，未达到哈欠预定时长（本实施例为1s），因此不能判定驾驶员处于哈欠疲劳状态。若从第11帧开始一直到第40帧检测到嘴部一直处于大张状态，则被记录的当前时间不断刷新（从第12帧的时间开始记录，一直记录到第60帧的时间）到第40帧的时间，例如为10:10:12，则哈欠连续时长被更新为2s。此时，由于哈欠连续时长达到（本实施例为超过）哈欠预定时长（例如1s），则哈欠次数被从0更新为1，此时表示驾驶员打了一次哈欠，同时哈欠起始时间和哈欠连续时长均被更新为0。检测过程继续.此后，若在直到第100帧才检测到嘴部再次处于大张状态，则记录当前时间，例如为10:10:16，则记录当前的时间，并将该时间设置为哈欠起始时间。若从第100帧开始直到第140帧检测到嘴部一直处于大张状态，则被记录的当前时间不断刷新（从第101帧的时间开始记录，一直记录到第140帧的时间）到第140帧的时间，例如为10:10:18，则哈欠连续时长被更新为2s。此时，由于哈欠连续时长达到（本实施例为超过）哈欠预定时长（例如1s），则哈欠次数被从1更新为2，此时表示驾驶员打了2次哈欠，同时哈欠起始时间和哈欠连续时长均被更新为0。以此类推。若在第一次哈欠的哈欠起始时间开始的哈欠设定时间期间（例如，30s，40s，50s）内，检测到哈欠次数为4次（或5次或6次）大于哈欠预定次数3次，则表明驾驶员处于哈欠疲劳状态。此时触发报警模块发出声音或光的报警，并控制将相关图像或视频传送到外部设备（例如中控台）。报警后，哈欠起始时间、哈欠连续时长和哈欠次数均被重置为0，进入下一轮检测。

作为吸烟违规状态的检测示例，在视频流检测过程中，当检测到香烟存在且第一次检测到香烟靠近嘴部时，则吸烟次数被设置为1。在后面连续检测的过程中，如若检测到该种状态，则连续累计变量。本发明设定吸烟最大次数（即，吸烟预定次数）为3次。本领域技术人员知晓，4次、5次等其他次数也可被设定为吸烟预定次数。

作为示例，若第1-10帧均未检测到香烟，则将吸烟次数设置为0。若在第11帧检测到香烟且其靠近嘴部直到第20帧香烟远离嘴部，则吸烟次数递增1。若在第50帧再次检测到香烟靠近嘴部直到第60帧香烟远离嘴部，则吸烟次数再次递增1变为2。以此类推。若在吸烟设定时间期间（例如，10s，20s，60s，90s，120s等）内吸烟次数增加至3次或4次或5次等，则表示驾驶员处于吸烟违规状态，此时触发报警模块发出声音或光的报警，并控制将相关图像或视频传送到外部设备（例如中控台）。报警后，吸烟次数被重置为0，进入下一轮检测。

作为通话违规状态的检测示例，在视频流检测过程中，当第一次检测到电话处于嘴部附近时，记录当前的时间（例如10:10:10）和/或记录当前帧的编号。在后面连续检测的过程中，若连续检测到该种状态，则连续累计变量，若后面的检测中连续几帧或紧接着的下一帧检测不到该种状态，就中断统计，此段期间的变量值（单位：帧）或者开始时间记录到结束记录之间的时间差值（单位：秒(s)）就是打电话状态的连续时长。本发明设定打电话最大连续时间（即，通话预定时长）为5s。本领域技术人员知晓，10s等其他时间也可被设定为通话最大连续时间。

作为示例，若第1-10帧均未检测到电话位于嘴部附近，则将通话起始时间和通话连续时长均设置为0。若在第11帧检测到电话处于嘴部附近，则记录当前的时间，例如为10:10:10，并将该时间设置为通话起始时间。若直到第20帧检测到电话一直处于嘴部附近，则持续更新当前时间直到第20帧的时间，例如为10:10:11，则通话连续时长为1s，未达到通话预定时长，此时不能判定驾驶员处于通话违规状态。若在第21帧检测到电话离开嘴部，则判定驾驶员并未处于通话状态，排除违规驾驶的可能。此时通话起始时间和通话连续时长均被更新为0。可替换地，若第11帧到第20帧期间，以及在第21帧到第60帧期间的连续图像中检测到电话一直处于嘴部附近，则被记录的当前时间不断刷新（从第12帧的时间开始记录，一直记录到第60帧的时间）到第50帧的时间，例如为10:10:15，则通话连续时长被更新为5s。此时，由于通话连续时长达到通话预定时长（例如5s），则认定驾驶员处于通话违规状态，触发报警模块发出声音或光的报警，并控制将相关图像或视频传送到外部设备（例如中控台）。报警后，通话起始时间和通话连续时长均被重置为0，进入下一轮检测。

本发明的上述实施例仅为示例性的。视频帧的选取可以是定时的，也可以是非定时的，在此不做限制。例如，可以每隔10毫秒或0.5秒截取1帧视频，也可以在前100帧是以每10毫秒为单位截取视频，后100帧以每5毫秒截取视频。例如，可能在10:10:10选取第1帧图像，在10:10:11选取第10帧图像，在10:10:15选取第100帧图像。另外，上述示例以记录时间来判断时长、次数等。本领域技术人员也可以通过记录当前帧的编号的方式来判断时长、次数等，这不作为对本发明的限制。

如图3所示为本发明的对驾驶员的驾驶行为进行检测的方法的示意流程图。在步骤S301中，获得驾驶员在驾驶过程中的眼部状态、嘴部状态、香烟状态和通话状态。接着，在步骤S302中，同时检测眼部状态是否符合闭眼状态、嘴部状态是否符合哈欠状态、香烟状态是否符合吸烟状态和电话状态是否符合通话状态，并进一步判断是否存在驾驶员处于闭眼疲劳状态、哈欠疲劳状态，吸烟违规状态和通话违规状态。最后，在步骤S303中，若上述任一状态符合疲劳或违规状态，则发出报警。优选地，获得的表明驾驶员处于疲劳或违规状态的视频或图片可以被传送到外部设备，例如中控室或安保室。

每个卷积层后都会跟一个BN层和一个LeakyReLU，且引入了residual 层解决网络因为深度导致的性能下降问题；训练方法和参数也是经过大量实验验证得到的较好的技巧和参数。应用层面：卷积算法在司机行为驾驶行为检测上的应用，端到端直接解决检测问题，简化传统的复杂、冗余的检测手段。

以上对本发明所提供的检测方法和装置进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种对驾驶员的驾驶行为进行检测的方法，其特征在于，包括：

获取步骤，其拍摄驾驶员在驾驶过程中的视频，以同时获得驾驶员的眼部状态、驾驶员的嘴部状态、香烟状态和电话状态中的每一者的多帧图像；和

检测步骤，其能够同时执行如下步骤以在每一帧图像中：

检测眼部状态是否符合闭眼状态，若检测到眼部状态不符合闭眼状态，则将闭眼起始时间和闭眼连续时长均设置为0；若第一次检测到眼部状态符合闭眼状态，则将当前时间设置为闭眼起始时间；若上一帧图像和与上一帧图像连续的下一帧图像均检测到眼部状态符合闭眼状态，则将所述下一帧图像的当前时间与闭眼起始时间之间连续的时长设置为闭眼连续时长；

检测嘴部状态是否符合哈欠状态，若检测到嘴部状态不符合哈欠状态，则将哈欠起始时间、哈欠连续时长和哈欠次数均设置为0；若第一次检测到嘴部状态符合哈欠状态，则将当前时间设置为哈欠起始时间；若上一帧图像和与该上一帧图像连续的下一帧图像均检测到嘴部状态符合哈欠状态，则将所述下一帧图像的当前时间与哈欠起始时间之间连续的时长设置为哈欠连续时长；

检测香烟状态是否符合吸烟状态，若检测到香烟状态不符合吸烟状态，则将吸烟次数初始化为0；若检测到香烟状态符合吸烟状态，则将吸烟次数加1，且在此后的吸烟设定时间期间内不将吸烟次数归为0；

检测电话状态是否符合通话状态，若检测到电话状态不符合通话状态，则将通话起始时间和通话连续时长均设置为0；若第一次检测到电话状态符合通话状态，则记录当前时间为通话起始时间；若上一帧图像和与该上一帧图像连续的下一帧图像均检测到电话状态符合通话状态，则将所述下一帧图像的当前时间与通话起始时间之间连续的时长设置为通话连续时长；

判断步骤，其能够同时执行如下闭眼疲劳状态判断、哈欠疲劳状态判断、吸烟违规状态判断和通话违规状态判断步骤：

在闭眼疲劳状态判断中，判断闭眼连续时长是否达到闭眼预定时长，若是，则驾驶员处于闭眼疲劳状态；

在哈欠疲劳状态判断中，判断哈欠连续时长是否达到哈欠预定时长，若哈欠连续时长达到哈欠预定时长，则哈欠次数加1，若哈欠次数在哈欠设定时间期间内达到哈欠预定次数，则驾驶员处于哈欠疲劳状态；

在吸烟违规状态判断中，判断吸烟次数是否在吸烟设定时间期间内达到吸烟预定次数，若是，则驾驶员处于吸烟违规状态；

在通话违规状态判断中，判断通话连续时长是否达到通话预定时长，若是，则驾驶员处于通话违规状态；

报警步骤，其在驾驶员处于闭眼疲劳状态、哈欠疲劳状态、吸烟违规状态和通话违规状态中的至少一者时发出声音或光，并将视频或图像发送到外部设备，

其中，检测步骤使用基于卷积神经网络的算法，该卷积神经网络包括至少一个卷积层、至少一个residual层、一个全局池化层和一个全连接层，其中，每个卷积层中都依次设置有一个BN层和一个LeakyReLU层。

2.根据权利要求1所述的方法，其特征在于，卷积神经网络包括顺序连接的如下层：

第1卷积层，图像被直接输入该第1卷积层，

第2卷积层，

1个第3组合层，其包括第31卷积层、第32卷积层和Residual层，

第4卷积层，

2个第5组合层，每个第5组合层包括第51卷积层、第52卷积层和Residual层，

第6卷积层，

4个第7组合层，每个第7组合层包括第71卷积层、第72卷积层和Residual层，

第8卷积层，

4个第9组合层，每个第9组合层包括第91卷积层、第92卷积层和Residual层，

第10卷积层，

2个第11组合层，每个第11组合层包括第111卷积层、第112卷积层和Residual层，

全局池化层，和

全连接层。

3.根据权利要求1所述的方法，其特征在于，卷积神经网络包括顺序连接的如下层：

第1卷积层，图像被直接输入该第1卷积层，

第2卷积层，

1个第3组合层，其包括第31卷积层、第32卷积层和Residual层，

第4卷积层，

第6卷积层，

第8卷积层，

第10卷积层，

第12卷积层，

1个第13组合层，每个第13组合层包括第131卷积层、132卷积层和Residual层，

全局池化层，和

全连接层。

4.根据权利要求2或3所述的方法，其特征在于，

第1卷积层的卷积核大小为3*3，卷积核数量为32，输出图像尺寸为256*256；

第2卷积层的卷积核大小为3*3/2，卷积核数量为64，输出图像尺寸为128*128；

第31卷积层的卷积核大小为1*1，卷积核数量为32，第32卷积层的卷积核大小为3*3，卷积核数量为64，第3组合层输出图像尺寸为128*128；

第4卷积层的卷积核大小为3*3/2，卷积核数量为128，输出图像尺寸为64*64；

第51卷积层的卷积核大小为1*1，卷积核数量为64，第52卷积层的卷积核大小为3*3，卷积核数量为128，第5组合层输出图像尺寸为64*64；

第6卷积层的卷积核大小为3*3/2，卷积核数量为256，输出图像尺寸为32*32；

第71卷积层的卷积核大小为1*1，卷积核数量为128，第72卷积层的卷积核大小为3*3，卷积核数量为256，第7组合层输出图像尺寸为32*32；

第8卷积层的卷积核大小为3*3/2，卷积核数量为512，输出图像尺寸为16*16；

第91卷积层的卷积核大小为1*1，卷积核数量为256，第92卷积层的卷积核大小为3*3，卷积核数量为512，第9组合层输出图像尺寸为16*16；

第10卷积层的卷积核大小为3*3/2，卷积核数量为1024，输出图像尺寸为8*8；

第111卷积层的卷积核大小为1*1，卷积核数量为512，第112卷积层的卷积核大小为3*3，卷积核数量为1024，第11组合层输出图像尺寸为8*8；

第12卷积层的卷积核大小为3*3/2，卷积核数量为1024，输出图像尺寸为8*8；

第131卷积层的卷积核大小为1*1，卷积核数量为512，第132卷积层的卷积核大小为3*3，卷积核数量为1024，第131组合层输出图像尺寸为8*8。

5.根据权利要求1所述的方法，其特征在于，闭眼疲劳状态是指眼部闭合的状态，哈欠疲劳状态是指嘴部大张，吸烟违规状态是指香烟靠近嘴部，通话违规状态是指手机贴合在脸部附近；

闭眼预定时长被设置为至少3秒，

哈欠预定时长被设置为至少1秒，

哈欠预定次数被设置为至少3次，

哈欠设定时间期间为至少30秒，

吸烟预定次数被设置为至少3次，

吸烟设定时间期间为至少10秒，

通话预定时长被设置为至少5秒。

6.根据权利要求1所述的方法，其特征在于，卷积神经网络的训练方法及参数被构造为：

卷积层中的卷积核与全连接层使用服从均值为0、标准差为0.1的高斯分布随机数进行初始化，偏置项使用服从区间为[0，1]的均匀分布随机数进行初始化；

批处理层中，动量设置为0.95，常量设置为0.01；

使用AdaDelta梯度下降算法训练权重，批处理大小设置为64；

按照预定比例设置数据的训练集、验证集和测试集，在20代的训练后，每一代都进行验证集的测试，结果最好的那一代训练模型会被保存并用于测试集的测试，其结果即为整个学习的结果；

设置全部数据迭训练周期为至少100代，在训练时，训练集中的正负样本比为10-15:1，每一代训练中，依次打乱10%-30%的负样本与全部正样本进行训练，直至全部负样本训练完完成一个训练周期。