CN110135327A

CN110135327A - 一种基于多区域特征学习模型的驾驶员行为识别方法

Info

Publication number: CN110135327A
Application number: CN201910391169.7A
Authority: CN
Inventors: 路小波; 陆明琦; 张德明
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-05-11
Filing date: 2019-05-11
Publication date: 2019-08-16
Anticipated expiration: 2039-05-11
Also published as: CN110135327B

Abstract

本发明设计了一种基于多区域特征学习模型的驾驶员行为识别方法，涉及计算机视觉中的行为识别领域。本发明结合图片多个有判别力的区域，比如手、方向盘、头等局部区域，与整体图片相结合作为驾驶员行为识别的依据。本发明在RCNN模型的基础上，使用Bing算法用于区域生成，测出图片中多个具有判别力的局部区域，随后将局部区域与整体图片分别送入卷积神经网络模型中提取相关特征，最后将特征融合进行行为分类。本发明所设计的网络可以高效快速地提取驾驶员行为的多区域特征，进一步提高驾驶员行为识别准确率。发明在交通安全领域有重要的应用价值。

Description

一种基于多区域特征学习模型的驾驶员行为识别方法

技术领域

本发明涉及图像处理和模式识别领域，特别是涉及一种基于多区域特征学习模型的驾驶员行为识别方法。

背景技术

近些年来，计算机科学在图像识别，物体检测等方面有了较大的发展，特别是随着一些专家学者对深度学习的研究，采用深度神经网络对图像进行特征学习和识别的准确率不断提高，在很多领域都达到了令人满意的效果。因此通过深度学习的相关算法对驾驶员图像信息进行分析处理与识别，当驾驶员出现违规、不安全行为时给予及时的预警，在一定程度上遏制交通事故的发生。该方法的优点十分明显，首先解决了交通管理人员难以对驾驶员行为进行实时监管的问题，大大降低了人力的投入；其次，通过此方法，可以在交通事故发生时向有关部门提交相关证据，解决了事故处理中定责困难的问题。因此基于深度学习的驾驶员行为识别研究是一项很有实际应用价值的研究。

发明内容

为了解决以上问题，本发明提供一种基于多区域特征学习模型的驾驶员行为识别方法，发明中使用的多区域特征学习方法可以提取图像中驾驶员行为的空间信息，并在测试阶段实现了实时驾驶员行为识别，为达此目的，本发明提供一种基于多区域特征学习模型的驾驶员行为识别方法，包含以下步骤：

步骤1：建立驾驶员行为识别的图像数据集；

步骤2：构建神经网络模型；

步骤3：训练多区域特征学习网络模型；

步骤4：对多区域特征学习网络模型进行测试。

作为本发明进一步改进，所述步骤1具体步骤如下；样本数据来源与两部分，一部分来自Kaggle平台提供的驾驶员行为数据集，图片大小为640*480，共计25000张，另一部分为自建驾驶员行为数据库，由内置车载摄像头在不同角度和不同光线条件下录制，拍摄图片大小为1320*946，为了统一数据，将其裁剪成640*480，共计约5000张，并且10种行为的样本数量基本一致，分别为：正常驾驶、左手打电话、右手打电话、左手接发信息、右手接发信息、左手抽烟、右手抽烟、喝水、与副驾驶乘客进行交谈和双手脱离方向盘；

将拍摄得到的图片数据集划分为训练集和测试集各包含29000张训练图片和1000张测试图片，原始图片均降采样为224*224，用0到9代表样本对应的行为标签，为了准确性，测试样本涵盖10种驾驶员行为，每种驾驶员行为100张，且测试样本图片中驾驶员与训练样本中的驾驶员独立。

作为本发明进一步改进，所述步骤2具体步骤如下；所设计的模型分别为：区域推荐、卷积神经网络和分类器，其中区域推荐模块即利用Bing算法生成候选区域，卷积神经网络模块选用VGG-16提取候选区域的特征，分类器模块中利用特征向量训练支持向量机进行驾驶员行为分类，具体描述如下：

步骤201：为了搜寻图像中的物体，首先利用预定义的窗口大小进行扫描，窗口的大小共计25种，由{W_o，H_o}，W_o，H_o∈{10,20,40,80,160)表示，对每一个窗口运用模型SVM训练所得的模型ω∈R⁶⁴进行评分；

S_l＝<ω，g_l> (1)

l＝<i，x，y> (2)

其中S_l代表得分，g_l代表梯度幅值特征，l代表坐标，i代表窗口的尺度，(x,y)代表窗口的位置，针对每个尺度的窗口采用非极大抑制算法，最终提供一些候选窗口，另外某些尺度的窗口包含目标的可能性较小，如10*160，因此在运用模型ω评分之后进行一定的校准；

O_l＝v_i·s_l+t_i (3)

其中v_i，t_i∈R，尺寸不同的窗口，所学习的v_i，t_i不同，为了得到模型ω以及v_i，t_i，Bing算法采用了两级SVM进行训练；

步骤202：第一级模型训练，标注训练样本的头部以及方向盘区域作为正样本，标注背景区域为负样本，将所得的正负样本的尺寸调整为8*8，随后对8*8的样本图像每一个像素点进行梯度计算，作为梯度幅值特征，并利用该特征与标签进行SVM训练，得到参数模型ω，因此可以通过式4可以得出样本图像的分数，其中x是梯度幅值特征，x与ω均是64维，为了进行加速，将x与ω进行二值化，首先模型ω可以由多个基向量的组合表示；

其中N_ω代表基向量个数，a_j∈{-1，1}⁶⁴表示基向量，β_j为系数，并且a_j可以进一步由二值向量与其共轭表示；

对于梯度幅值特征，近似采用其前N_g位来进行二值化，因此64维的梯度幅值特征g_l可以由前N_g位二值化近似表示；

那么一个图像窗口的二值化梯度幅值特征的得分可以表示为：

而上式运算可以通过快速的位操作得到，显著地降低了计算时间；

步骤203：第二级训练，首先利用第一级训练得到的模型ω对窗口进行打分，并利用非极大抑制算法消除高分区域附近的区域，然后遍历这些候选区域，若区域与目标物***置的重叠率超过0.5则认定标签为1，否则为-1。最后以每个区域的得分作为训练样本，结合标签，在不同尺度下进行SVM训练，得到式3中的v_i，t_i；

步骤204：采用卷积神经网络VGG-16对候选区域进行特征提取，先在大型数据集ILSVRC上预训练，随后利用生成的候选区域对卷积神经网络进行微调，规定候选区域与物体真实位置重叠率超过0.5为正样本，否则为负样本；

步骤205：当图像经过Bing算法的处理之后，会得到大约1000个候选区域，其中会包含头部以及方向盘区域，由于区域候选算法可能会在头部或方向盘生成多个区域，将候选区域输入卷积神经网络后，通过softmax得到一个不同类别的相对概率，代表该区域属于头部区域以及方向盘区域的概率，分别取两个类别的最大概率区域作为最终的头部与方向盘区域，假定输入图像为I，头部区域为r_head，方向盘区域为r_circle，将三个区域的尺寸统一调整为224*224，将调整后的I、r_head以及r_circle输入卷积神经网络进行特征提取，最终分别得到特征向量Φ(r：I)、Φ(r：r_head)与Φ(r：r_circle)，然后将三种特征向量进行级联作为最终驾驶员行为的特征向量Φ(r：s)，得到特征向量后，运用卷积神经网络的softmax层输出各行为的概率，如式8所示；

其中α表示动作的某一类别，Φ(r：s，α)为特征向量Φ(r：s)中对应的α类别的输出值，C为动作类别的个数，本课题中为10，存在少数情况，候选区域算法没有准确的给出头部或方向盘区域，因此设定当头部或方向盘区域的最大概率小于0.5时，相应的特征向量设置为零向量，即Φ(r：r_head)＝0，Φ(r：r_circle)＝0。

作为本发明进一步改进，所述步骤3具体步骤如下；使用Caffe开源工具搭建网络模型，整个网络模型的训练过程在对应服务器上运行，使用对应操作***，使用随机梯度下降方法优化网络参数，

训练主要分为候选区域以及驾驶员行为的判别，两部分均采用softmax层，模型的两部分进行同步训练，训练的目的是降低softmax层的损失，若P(α|I，r)是softmax给出的驾驶员行为属于α的概率，那么对于一个batch的训练样本，损失函数为：

其中l_i为图像I_i的正确行为标签，M为batch的数量，同理，头部以及方向盘区域的softmax层的损失函数为：

其中t_i为区域r_i的正确类别标签，另外为了扩充正样本的数量，候选区域中与真实标签位置的重叠率超过0.8的区域认为是正样本；

由于VGG模型收敛较慢，训练困难，在训练VGG模型时，首先利用在ImageNet-1K训练集上训练完毕的VGG-19模型进行参数初始化，以加快模型的收敛，模型训练的学习率为0.0001，batch的大小为32，迭代次数约为7000次。

作为本发明进一步改进，所述步骤4具体步骤如下；给定一张驾驶员行为图像，将测试图像归一化为224×224的尺寸作为模型的输入，通过前向传播获得测试图像的行为识别结果。

本申请一种基于多区域特征学习模型的驾驶员行为识别方法，本发明的特点在于：

(1)本发明借鉴图像细粒度分类问题的解决思路，利用多个有判别力的图像区域，结合空间全局信息分类驾驶员行为。

(2)本发明使用Bing算法作为RCNN中的区域生成算法，大幅减少候选区域的数量，显著的提升了模型的识别速度。

附图说明

图1是本发明中不同驾驶员行为的样例图片，

图2是本发明中基于多区域特征学习的驾驶员行为识别模型框架示意图，

图3是本发明中局部区域信息图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

本发明提供一种基于多区域特征学习模型的驾驶员行为识别方法，发明中使用的多区域特征学习方法可以提取图像中驾驶员行为的空间信息，并在测试阶段实现了实时驾驶员行为识别。

本发明的具体实施步骤如下：

步骤1：建立驾驶员行为识别的图像数据集。样本数据来源与两部分，一部分来自Kaggle平台提供的驾驶员行为数据集，图片大小为640*480，共计25000张，如图1中非中国驾驶员图像，另一部分为自建驾驶员行为数据库，由内置车载摄像头在不同角度和不同光线条件下录制，摄像头型号为Logitech C920。拍摄图片大小为1320*946，为了统一数据，将其裁剪成640*480，如图1中中国驾驶员图像，共计约5000张，并且10种行为的样本数量基本一致，分别为：正常驾驶、左手打电话、右手打电话、左手接发信息、右手接发信息、左手抽烟、右手抽烟、喝水、与副驾驶乘客进行交谈和双手脱离方向盘。

将拍摄得到的图片数据集划分为训练集和测试集各包含29000张训练图片和1000张测试图片。原始图片均降采样为224*224，用0到9代表样本对应的行为标签。为了准确性，测试样本涵盖10种驾驶员行为，每种100张，且测试样本图片中驾驶员与训练样本中的驾驶员独立。

步骤2：构建神经网络模型。所设计的模型分别为：区域推荐、卷积神经网络和分类器，结构示意图如图2所示。其中区域推荐模块即利用Bing算法生成候选区域。卷积神经网络模块选用VGG-16提取候选区域的特征。分类器模块中利用特征向量训练支持向量机(SVM)进行驾驶员行为分类。具体描述如下：

步骤201：为了搜寻图像中的物体，首先利用预定义的窗口大小进行扫描，窗口的大小共计25种，由{W_O，H_O}，W_O，H_O∈{1020，40，80，160}表示。对每一个窗口运用模型SVM训练所得的模型ω∈R⁶⁴进行评分。

S_l＝<ω，g_l> (1)

l＝<i，x，y> (2)

其中S_l代表得分，g_l代表梯度幅值特征，l代表坐标，i代表窗口的尺度，(x,y)代表窗口的位置。针对每个尺度的窗口采用非极大抑制算法，最终提供一些候选窗口。另外某些尺度的窗口包含目标的可能性较小，如10*160。因此在运用模型ω评分之后进行一定的校准。

O_l＝v_i·s_l+t_i (3)

其中v_i，t_i∈R，尺寸不同的窗口，所学习的v_i，t_i不同。为了得到模型ω以及v_i，t_i，Bing算法采用了两级SVM进行训练。

步骤202：第一级模型训练。标注训练样本的头部以及方向盘区域作为正样本，标注背景区域为负样本，将所得的正负样本的尺寸调整为8*8。随后对8*8的样本图像每一个像素点进行梯度计算，作为梯度幅值特征，并利用该特征与标签进行SVM训练，得到参数模型ω。因此可以通过式4可以得出样本图像的分数，其中x是梯度幅值特征，x与ω均是64维。为了进行加速，本发明将x与ω进行二值化。首先模型ω可以由多个基向量的组合表示。

其中N_ω代表基向量个数，a_j∈{-1，1}⁶⁴表示基向量，β_j为系数，并且a_j可以进一步由二值向量与其共轭表示。

对于梯度幅值特征，近似采用其前N_g位来进行二值化，因此64维的梯度幅值特征g_l可以由前N_g位二值化近似表示。

而上式运算可以通过快速的位操作得到，显著地降低了计算时间。

步骤203：第二级训练。首先利用第一级训练得到的模型ω对窗口进行打分，并利用非极大抑制算法消除高分区域附近的区域。然后遍历这些候选区域，若区域与目标物***置的重叠率超过0.5则认定标签为1，否则为-1。最后以每个区域的得分作为训练样本，结合标签，在不同尺度下进行SVM训练，得到式3中的v_i，t_i。

步骤204：本发明采用卷积神经网络VGG-16对候选区域进行特征提取，先在大型数据集ILSVRC上预训练，随后利用生成的候选区域对卷积神经网络进行微调，规定候选区域与物体真实位置重叠率超过0.5为正样本，否则为负样本。

步骤205：当图像经过Bing算法的处理之后，会得到大约1000个候选区域，其中会包含图3中的头部以及方向盘区域。由于区域候选算法可能会在头部或方向盘生成多个区域，将候选区域输入卷积神经网络后，通过softmax得到一个不同类别的相对概率，代表该区域属于头部区域以及方向盘区域的概率，分别取两个类别的最大概率区域作为最终的头部与方向盘区域。假定输入图像为I，头部区域为r_head，方向盘区域为r_circle，将三个区域的尺寸统一调整为224*224。将调整后的I、r_head以及r_circle输入卷积神经网络进行特征提取，最终分别得到特征向量Φ(r：I)、Φ(r：r_head)与Φ(r：r_circle)，然后将三种特征向量进行级联作为最终驾驶员行为的特征向量Φ(r：s)。得到特征向量后，运用卷积神经网络的softmax层输出各行为的概率，如式8所示。

其中α表示动作的某一类别，Φ(r：s，α)为特征向量Φ(r：s)中对应的α类别的输出值，C为动作类别的个数，本课题中为10。存在少数情况，候选区域算法没有准确的给出头部或方向盘区域，因此设定当头部或方向盘区域的最大概率小于0.5时，相应的特征向量设置为零向量，即Φ(r：r_head)＝0，Φ(r：r_circle)＝0。

步骤3：训练多区域特征学习网络模型。使用Caffe开源工具搭建网络模型，整个网络模型的训练过程在Intel Core I7服务器上运行，使用NVIDIA TITAN X GPU，Ubuntu18.04操作***。使用随机梯度下降方法优化网络参数。

训练主要分为候选区域以及驾驶员行为的判别，两部分均采用softmax层。模型的两部分进行同步训练，训练的目的是降低softmax层的损失。若P(α|I，r)是softmax给出的驾驶员行为属于α的概率，那么对于一个batch的训练样本，损失函数为：

其中l_i为图像I_i的正确行为标签，M为batch的数量。同理，头部以及方向盘区域的softmax层的损失函数为：

其中t_i为区域r_i的正确类别标签。另外为了扩充正样本的数量，候选区域中与真实标签位置的重叠率超过0.8的区域认为是正样本。

由于VGG模型收敛较慢，训练困难，在训练VGG模型时，首先利用在ImageNet-1K训练集上训练完毕的VGG-19模型进行参数初始化，以加快模型的收敛。模型训练的学习率为0.0001，batch的大小为32，迭代次数约为7000次。

步骤4：对多区域特征学习网络模型进行测试。给定一张驾驶员行为图像，将测试图像归一化为224×224的尺寸作为模型的输入，通过前向传播获得测试图像的行为识别结果。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.一种基于多区域特征学习模型的驾驶员行为识别方法，其特征在于：包含以下步骤：

步骤1：建立驾驶员行为识别的图像数据集；

步骤2：构建神经网络模型；

步骤3：训练多区域特征学习网络模型；

步骤4：对多区域特征学习网络模型进行测试。

2.根据权利要求1所述的一种基于多区域特征学***台提供的驾驶员行为数据集，图片大小为640*480，共计25000张，另一部分为自建驾驶员行为数据库，由内置车载摄像头在不同角度和不同光线条件下录制，拍摄图片大小为1320*946，为了统一数据，将其裁剪成640*480，共计约5000张，并且10种行为的样本数量基本一致，分别为：正常驾驶、左手打电话、右手打电话、左手接发信息、右手接发信息、左手抽烟、右手抽烟、喝水、与副驾驶乘客进行交谈和双手脱离方向盘；

将拍摄得到的图片数据集划分为训练集和测试集各包含29000张训练图片和1000张测试图片，原始图片均降采样为224*224，用0到9代表样本对应的行为标签，为了准确性，测试样本涵盖10种驾驶员行为，每种行为100张，且测试样本图片中驾驶员与训练样本中的驾驶员独立。

3.根据权利要求1所述的一种基于多区域特征学习模型的驾驶员行为识别方法，其特征在于：所述步骤2具体步骤如下；所设计的模型分别为：区域推荐、卷积神经网络和分类器，其中区域推荐模块即利用Bing算法生成候选区域，卷积神经网络模块选用VGG-16提取候选区域的特征，分类器模块中利用特征向量训练支持向量机进行驾驶员行为分类，具体描述如下：

步骤201：为了搜寻图像中的物体，首先利用预定义的窗口大小进行扫描，窗口的大小共计25种，由{W_O，H_O}，W_O，H_O∈{10，20，40，80，160}表示，对每一个窗口运用模型SVM训练所得的模型ω∈R⁶⁴进行评分；

S_l＝<ω，g_l> (1)

l＝<i，x，y> (2)

O_l＝v_i·s_l+t_i (3)

步骤205：当图像经过Bing算法的处理之后，会得到大约1000个候选区域，其中会包含头部以及方向盘区域，由于区域候选算法可能会在头部或方向盘生成多个区域，将候选区域输入卷积神经网络后，通过softmax得到一个不同类别的相对概率，代表该区域属于头部区域以及方向盘区域的概率，分别取两个类别的最大概率区域作为最终的头部与方向盘区域，假定输入图像为I，头部区域为r_head，方向盘区域为r_circle，将三个区域的尺寸统一调整为224*224，将调整后的I、r_head以及r_circle输入卷积神经网络进行特征提取，最终分别得到特征向量Φ(r：I)、Φ(r：r_head)与Φ(r：r_circle)，然后将三种特征向量进行级联作为最终驾驶员行为的特征向量Φ(r：s)，得到特征向量后，运用卷积神经网络的softmax层输出各类行为的概率，如式8所示；

4.根据权利要求1所述的一种基于多区域特征学习模型的驾驶员行为识别方法，其特征在于：所述步骤3具体步骤如下；使用Caffe开源工具搭建网络模型，整个网络模型的训练过程在对应服务器上运行，使用对应操作***，使用随机梯度下降方法优化网络参数，训练主要分为候选区域以及驾驶员行为的判别，两部分均采用softmax层，模型的两部分进行同步训练，训练的目的是降低softmax层的损失，若P(α|I，r)是softmax给出的驾驶员行为属于α的概率，那么对于一个batch的训练样本，损失函数为：

5.根据权利要求1所述的一种基于多区域特征学习模型的驾驶员行为识别方法，其特征在于：所述步骤4具体步骤如下；给定一张驾驶员行为图像，将测试图像归一化为224×224的尺寸作为模型的输入，通过前向传播获得测试图像的行为识别结果。