CN115147817B

CN115147817B - 一种姿态引导的实例感知网络的驾驶员分心行为识别方法

Info

Publication number: CN115147817B
Application number: CN202210686565.4A
Authority: CN
Inventors: 高尚兵; 李少凡; 张莹莹; 陈浩霖; 张海艳; 朱全银; 李翔; 胡序洋; 李�杰; 张秦涛; 刘宇
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2023-06-20
Anticipated expiration: 2042-06-17
Also published as: CN115147817A

Abstract

本发明公开了一种姿态引导的实例感知网络的驾驶员分心行为识别方法，利用人体检测器检测到人体框，利用人体姿态估计获取具有辨识性的手部相关区域；将人体和手部区域的特征作为实例级别的特征，提出一种实例感知模块充分获取不同层级的上下文语义信息；利用手部相关特征构建双通道交互模块来对关键空间信息进行表征的同时，对视觉特征进行优化；组建成一个多分支的深度神经网络，最后将不同分支的结果进行融合。发明提出的姿态引导的实例感知网络，在一定程度上降低了环境的干扰，准确度高，能辅助驾驶员安全行车，减少交通事故的发生。

Description

一种姿态引导的实例感知网络的驾驶员分心行为识别方法

技术领域

本发明属于自动驾驶领域，具体涉及一种姿态引导的实例感知网络的驾驶员分心行为识别方法。

背景技术

分心驾驶是交通事故的主要原因，约有80％的交通事故都是由驾驶员分心造成的，因此对其进行针对性的分析对预防交通事故尤为重要。

多年以来，基于静态图片和视频的动作识别一直是计算机视觉的经典问题，吸引了众多学者对其开展研究。然而由于车内狭小复杂的环境和驾驶员分心时微小的体态差异，这些方法并不适用于驾驶员分心行为识别，部分也是因为建立一个标准的通用范式对人体行为进行统一解释仍然是一个具有挑战性的任务。

现有的对驾驶员进行分心行为的方法主要分为基于传统的手工特征的方法和基于深度卷积神经网络的方法。

1)在之前的研究中，传统手工特征通过许多方法对分心驾驶进行检测，Guo等人利用颜色和形状信息对驾驶行为进行检测。Yan等人联合运动历史图和金字塔式梯度方向直方图进行驾驶员的行为识别。Sharma等人在多个尺度上进行密集的灰度SIFT特征采样，模拟每个图片局域对于分类的贡献，然后采用SVM分类器对带有权重的热力图进行分类。

2)近些年，深度卷积神经网络(CNN)在各个领域均取得了巨大的成功，其中也包括驾驶员分心行为识别。Koesdwiady利用深度卷积神经网络(VGGNET)对驾驶员进行分心检测。Hu使用一个多流CNN来提取不同尺度的特征融合并进行分心行为检测。Ou等人则对神经网络进行迁移学习来改善分心驾驶行为识别的效果。Li提出了一种结合Depth-wise卷积和Point-wise卷积的轻量化网络OLCMNet对驾驶员行为进行识别,在嵌入式设备Nvidia-TX2上实现了实时检测。Tran等人提出了一种基于双摄像头的驾驶员行为检测***，使用来自双摄像头的数据进行融合效果要优于单摄像头数据输入的结果。Wu等人利用体姿态估计获取手部特征并与人体骨架数据进行多特征融合来对驾驶员进行行为识别。

以上这些方法大都是集中利用图片层级的特征对驾驶员行为进行识别，环境的噪声和视角多变的问题依然没有得到很好的解决。近些年，人体骨架数据被广泛的运用到动作识别中，和传统的RGB图像相比，人体骨架数据已经证明在面对复杂环境，视角不一、光照变化、人体特征变化有着较强的鲁棒性。驾驶员的手部相关区域对驾驶员分心行为识别有着较强的语义线索作用，能为当前行为识别任务提供更加细粒度的表征。如玩手机和喝水时，手上拿什么和两只手的位置信息很重要，左右手的区域视觉特征和空间位置存在显著差异，在驾驶员行为识别属于辨识性的特征，因此对这种辨识性的特征进行针对性的分析是有必要的，而人体骨架恰好可以帮助进行更加准确的手部区域定位。以往的驾驶员行为识别工作虽然也有通过目标检测方法或人体姿态对驾驶员身体部分进行解析利用传统检测器检测身体部位，但是容易受到复杂场景干扰。虽然利用人体姿态估计获取人体信息，但都是进行单一的特征提取，缺少对实例级别上下文特征的挖掘。也没有研究空间位置对驾驶员行为识别的线索作用。

发明内容

发明目的：本发明提出了一种姿态引导的实例感知网络的驾驶员分心行为识别方法，降低了环境的干扰，准确度高，能辅助驾驶员安全行车，减少交通事故的发生。

技术方案：本发明提出一种姿态引导的实例感知网络的驾驶员分心行为识别方法，具体包括以下步骤：

(1)利用人体检测器检测到人体框，利用人体姿态估计获取具有辨识性的手部相关区域；

(2)将人体和手部区域的特征作为实例级别的特征，提出一种实例感知模块充分获取不同层级的上下文语义信息；

(3)利用手部相关特征构建双通道交互模块来对关键空间信息进行表征的同时，对视觉特征进行优化；

(4)组建成一个多分支的深度神经网络，最后将不同分支的结果进行融合。

进一步地，所述步骤(1)实现过程如下：

利用姿态估计对手部关键点进行定位，通过借助手肘关键点和手腕关键点像素坐标，对其矢量方向进行延长二分之一得到手部关键点：

式中XLwrist代表左手腕X坐标，YLwrist代表左手腕Y坐标，XLbow代表左肘X坐标，YLbow代表左肘Y坐标；XRwrist代表右手腕X坐标，YRwrist代表右手腕Y坐标，XRbow代表右肘X坐标，YRbow代表右肘Y坐标；XLhand代表左手X坐标，YLhand代表左手Y坐标；XRhand代表右手X坐标，YRhand代表右手Y坐标；

以手部坐标为中心确定手部区域范围，手部区域的偏移量Cet设定为人体关节点手腕至手肘的长度较长长度的那一个的二分之一：

Cet＝Max(length(C_Lwrist,C_Lbow),length(C_Rwrist,C_Rbow))/2

其中，C_Lwrist代表左手腕的坐标，C_Lbow代表左手肘的坐标，C_Rwrist代表右手腕的坐标，C_Rbow代表右手肘的坐标，length()代表计算两点之间的距离，Max()代表计算序列集合中的最大值；

将左右手的坐标分别加上和减上偏移量Cet得到手部区域的左上角的坐标H_top和右下角的坐标H_bottom；

H_top＝hand(x,y)-Cet

H_bottom＝hand(x,y)-Cet

其中，hand(x,y)为手部坐标，Cet为偏移量，H_top,H_bottom则为手部区域左上角的坐标和右下角的坐标；人体区域由YOLOv5目标检测模型检测得到人体区域检测框x_h。

进一步地，所述步骤(2)实现过程如下：

利用感兴趣区域对手部区域和人体区域进行特征提取；具体运算是在ROI后加入一个残差块，之后进行全局平均池化得到视觉特征向量；对获取到的左右手特征图进行、拼接得到手部特征F_inst：

XL＝GAP(Res_l(RoI(F,x_l)))

X_R＝GAP(Res_r(RoI(F,x_r)))

其中，F为图片经过主干网络ResNet50的特征图，Res_{}为代表残差块，X_L和X_R为左右手的视觉特征，F_inst为手部特征；

通过对x_h的检测框的区域进行特征提取获得周围上下文信息X_H；为获得感知系数矩阵，将F_inst和X_H都映射到相同维度的空间，通过向量点乘的方式计算特征间的自相关性，然后通过Softmax层获取相关度系数矩阵：

X_H＝GAP(Res_h(RoI(F,x_h)))

其中，X_H为当前实例特征的上下文信息，W_{}代表映射矩阵，

代表哈达玛积运算，再将相关系数矩阵对应乘回上下文特征矩阵X_H，得到融合了实例特征语义信息的全局特征：

其中，F_Context为当前实例特征的全局特征，p^Human当前手部感知流分支的得分。

进一步地，所述步骤(3)实现过程如下：

通过姿态关节点得到两个x_l,x_r手部区域框之后，将两个手部区域包含的最小区域作为一个注意力窗口，并将注意力窗口以外的像素移除；将两个手部区域框转换成一个双通道的二值图像；其中第一个通道除了左手部区域的值是0之外，其他区域的值全是1，而第二个通道除了右手区域的值是1之外，其他区域的值全是0，将二值图重塑为64*64像素的大小并进行相应的补零操作，生成一个能够输入到深度神经网络中的双通道的二值空间配置图B_h，之后将B_h送入深度神经网络中获得空间特征：

a_h＝W_s(GAP(Conv(B_h)))

其中，a_h为空间特征向量，代表了两只手的空间配置信息；二值空间配置图的B_h将两只手的区域定义在不同通道，利用深度神经网络去学习两只手的空间关系，a_h在辅助进行预测的同时，利用空间特征对视觉特征进行优化：

其中，

是优化过的特征，将优化过的特征和空间特征结合得出最后的空间流的得分；p^Spa是长度为N的空间流各动作类概率得分，G为激活函数。

进一步地，所述步骤(4)通过以下公式实现：

p＝p^Spa+p^Hand+p^Human

其中，p为模型最后的预测结果，长度为目标分类数，p^Spa是长度为N的空间流各动作类概率得分，p^Human为当前人体感知流分支的得分，p^Hand为手部感知流分支的得分。

有益效果：与现有技术相比，本发明的有益效果：本发明在AUC数据集和自建三客一危数据集上的测试准确率分别达到96.17％和96.97％，相较于未使用实例感知模块和通道交互的模型，准确率得到较为显著的改善，在复杂数据集下效果提升明显；本发明提出的姿态引导的实例感知网络，在一定程度上降低了环境的干扰，准确度高，能辅助驾驶员安全行车，减少交通事故的发生。

附图说明

图1为检测流程示意图；

图2姿态引导的实例感知网络结构示意图；

图3为实例感知模块结构示意图；

图4为空间特征构建示意图；

图5为三客一危分心驾驶数据集样例图；

图6为AUC分心驾驶数据集样例图；

图7为AUC数据集测试混淆矩阵示意图；

图8为三危一化驾驶数据集混淆矩阵示意图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明提出一种姿态引导的实例感知网络的驾驶员分心行为识别方法，结合目标检测和人体姿态估计获取人体和手部区域作为实例级别的特征并建立感知模块，并利用手部相关区域构建双通道交互模块来对关键空间信息进行表征。如图1所示，具体包括以下步骤：

步骤1：利用人体检测器检测到人体框，利用人体姿态估计获取具有辨识性的手部相关区域。

目标检测算法对手部区域进行容易受到环境影响导致检测率低下，本发明利用人体姿态估计手部相关区域进行定位。利用姿态估计对手部关键点进行定位，通过借助手肘关键点和手腕关键点像素坐标，对其矢量方向进行延长二分之一得到手部关键点：

式中，XLwrist代表左手腕X坐标，YLwrist代表左手腕Y坐标，XLbow代表左肘X坐标，YLbow代表左肘Y坐标；XRwrist代表右手腕X坐标，YRwrist代表右手腕Y坐标，XRbow代表右肘X坐标，YRbow代表右肘Y坐标；XLhand代表左手X坐标，YLhand代表左手Y坐标；XRhand代表右手X坐标，YRhand代表右手Y坐标。

如图2所示，通过检测到的人体框和关键点信息获得人体信息和手部信息，全局信息为整张图片，人体信息为M-p对应的区域，手部信息为M-h对应的区域。利用人体信息和整张图片的全局信息构建人体感知流，利用手部和人体区域组成手部感知流，将手部相关特征构建双通道交互模块组成空间流。以此组建成一个多分支的深度神经网络，并在不同分支的最后进行score层面的晚融合。

手部区域的特征能够为驾驶行为识别提供更加细粒度且具辨识度的表征，然而手部区域的定位和获取却比较困难。为了解决这个问题，本文利用检测出的人体关节点获取手部区域

Cet＝Max(length(C_Lwrist,C_Lbow),length(C_Rwrist,C_Rbow))/2

其中C_Lwrist代表左手腕的坐标，C_Lbow代表左手肘的坐标，C_Rwrist代表右手腕的坐标，C_Rbow代表右手肘的坐标，length()代表计算两点之间的距离，Max()代表计算序列集合中的最大值。

将左右手的坐标分别加上和减上偏移量Cet得到手部区域的左上角的坐标H_top和右下角的坐标H_bottom：

H_top＝hand(x,y)-Cet

H_bottom＝hand(x,y)-Cet

其中，hand(x,y)为手部坐标，Cet为偏移量。H_top,H_bottom则为手部区域左上角的坐标和右下角的坐标。人体区域由YOLOv5目标检测模型检测得到人体区域检测框x_h。

步骤2：将人体和手部区域的特征作为实例级别的特征，提出一种实例感知模块充分获取不同层级的上下文语义信息。

考虑到为了获取不同实例特征间的依赖关系，提出了一种实例感知模块用来捕捉上下文语义信息。图3为本文提出的实例感知模块结构中的手部感知流示例。以手部感知流为例，其中M-p对应检测框x_h和M-h对应的检测框x_l,x_r分别代表实例特征人和左右手的区域。

得出实例特征的区域之后，利用感兴趣区域(ROI)对手部区域和人体区域进行特征提取。具体运算是再ROI后加入一个(Res)残差块，之后进行全局平均池化得到视觉特征向量。考虑到左右手对某些特定的动作存在的联合线索作用，因此对获取到的左右手特征图进行、拼接得到手部特征F_ins)。

X_L＝GAP(Res_l(RoI(F,x_l)))

X_R＝GAP(Res_r(RoI(F,x_r)))

其中，F为图片经过主干网络ResNet50的特征图，Res_{}为代表残差块，X_L和X_R为左右手的视觉特征。

实例特征的上下文信息在行为识别中扮演着重要角色，周围的背景能够对驾驶员的行为检测起到一定的促进作用。为了能够让次级的实例特征对周围信息进行感知，这里通过对x_h的检测框的区域进行特征提取获得周围上下文信息X_H。为获得感知系数矩阵，将F_inst和X_H都映射到相同维度的空间，通过向量点乘的方式计算特征间的自相关性，然后通过Softmax层获取相关度系数矩阵M_H。

X_H＝GAP(Res_h(RoI(F,x_h)))

其中，X_H为当前实例特征的上下文信息，W_{}代表映射矩阵，

代表哈达玛积运算，再将相关系数矩阵M_H对应乘回上下文特征矩阵X_H，得到融合了实例特征语义信息的全局特征。

其中，F_context为当前实例特征的全局特征，p^Hand当前手部感知流分支的得分。

步骤3：利用手部相关特征构建双通道交互模块来对关键空间信息进行表征的同时，对视觉特征进行优化。

双手的空间特征为驾驶员行为分析提供了重要的线索作用，如正常驾驶和其他异常驾驶如玩手机，抽烟等行为，双手的位置有显著差异。如图4所示，通过姿态关节点得到两个x_l,x_r手部区域框之后，将两个区域包含的最小区域作为一个注意力窗口，并将注意力窗口以外的像素移除。为了能让神经网络学习到空间相关位置信息，将两个手部区域框转换成一个双通道的二值图像。其中第一个通道除了左手部区域的值是0之外，其他区域的值全是1，而第二个通道除了右手区域的值是1之外，其他区域的值全是0，将二值图重塑为64*64像素的大小并进行相应的补零操作，以此生成一个能够输入到深度神经网络中的双通道的二值空间配置图B_h，之后将B_h送入深度神经网络中获得空间特征。

a_h＝W_s(GAP(Conv(B_h)))

其中，a_h为空间特征向量，代表了两只手的空间配置信息。二值空间配置图的B_h将两只手的区域定义在不同通道，因此可利用深度神经网络去学习两只手的空间关系。a_h在辅助进行预测的同时，利用空间特征对视觉特征进行优化。

其中，

是优化过的特征,将优化过的特征和空间特征结合得出最后的空间流的得分，p^Spa是长度为N的空间流各动作类概率得分，G为激活函数。

步骤4：组建成一个多分支的深度神经网络，最后将不同分支的结果进行融合。

将三个分支的输出结合相加得出最后模型的预测结果。

p＝p^Spa+p^Hand+p^Human

其中，p^Spa是长度为N的空间流各动作类概率得分，p^Human为当前人体感知流分支的得分，p^Hand为手部感知流分支的得分。p则为模型最后的预测结果，长度为目标分类数。

本发明建立了一个三客一危分心驾驶数据集。三客一危指的是客运车、校车、旅游车和危化品运输车这类大型车，这类车辆驾驶舱结构和小型车有明显差异，发生交通事故的后果相对比较严重。因此，对这类车型环境中的驾驶员进行分心行为进行针对性的分析是有必要的。数据来自交通监管平台所提供的车内监控视频数据，共780段视频，大小634GB，每段视频分辨率为1280*720，帧率为15FPS。图5为数据集中的五个动作里的一些样例图，分别是安全驾驶、分神、打电话、使用手机和抽烟。如图5所示，车内的环境相对复杂多变，视频监控的摄像头安装的位置并不是固定的，而是安装在驾驶员不同的角度，这种多视角有效提升了数据的丰富程度，同时也给检测带来挑战。首先人工将长监控视频中的带有分心行为的短视频剪切出来，然后将短分心行为视频截取成一帧帧的图片，选取其中有代表性的帧作为数据集。数据集总共包括31694张图片，其中26095张作为训练集，8699张作为测试集。表1为数据集的具体描述。

表1三危一客分心驾驶数据集

AUC分心驾驶数据集来源于十个不同国家的志愿者完成，AUC视频数据集随机分割为3:1比例的训练测试数据集。图6是AUC数据集十个动作的样例图，分别为：C0:安全驾驶、C1:右手打字、C2:右手打电话、C3:左手打字、C4:左手打电话、C5:调试收音机、C6:喝水、C7:拿东西、C8:化妆和弄头发、C9:和乘客说话。数据集总共有图片17308张，其中12977张用于训练，4331张用于测试。

本发明属于分类问题，最常见的指标有准确率(Accuracy)、召回率(Recall)、混淆矩阵。在实际分类过程中，会出现真反例(TN)、真正例(TP)、假反例(FN)、假真例(FP)和这几种情况。准确率和召回率的公式为：

本发明提出的方法在三客一危驾驶数据集的测试集上和一些常见的网络模型和方法进行比较，同时在公开数据集AUC上和一些近些年提出的方法进行了比较。表2为本发明和ResNet50在HYD驾驶数据集上的结果，可以看出本发明，在各类别上的召回率和总体准确率最高，其中整体准确率高ResNet50网络模型7.5％，结果可以看出本方法在各类别上的召回率和准确率上均表现优异。

表2在三危一客数据集上的结果

主干网络	C0	C1	C2	C3	C4	总准确率
							AlexNet	0.5851	0.7373	0.9537	0.8372	0.8474	0.7906
DenseNet	0.8423	0.7361	0.9493	0.9637	0.8298	0.8752
							ResNet-50	0.8225	0.8647	0.9949	0.9593	0.8235	0.8952
Fusion[19]	0.9095	0.7251	0.9115	0.9747	0.9523	0.9053
							Ours	0.9557	0.8891	0.9967	0.9879	0.9761	0..9697

为了进一步验证本方法的有有效性，将本发明和在公开数据集AUC上进行测试，并和近些年提出的方法进行了对比。实验结果如表3所示，本发明取得了96.17％的准确率，算法的准确率优于其他方法。

表3在AUC数据集上的结果

图7、图8为本发明在AUC数据集和上测试混淆矩阵，其中左侧行代表真实类别，而列代表预测的类别。矩阵每个方格中的数值分别代表预测类别所占比重和对应的样本数量。

混淆矩阵中，对角线上的数值即为预测正确的结果，而其他数值则为预测错误的结果。计算得知，本发明的整体的准确率和召回率均为96.17％，在三危一化驾驶数据集上，整体准确率为96.97％。

为了验证本发明提出的各个组件有效性，本文对各个分支进行了相应的消融实验。实验结果如表4所示，图其中Human代表人体感应分支，Hand代表手部感应分支,Spatial代表双通道空间交互分支。数据集第一行代表的是基线模型ResNet50网络。

表4消融实验

Table 3 Ablation study on tow different datasets

由表中数据可知，本发明在单独引入人体分支时，准确度提高了3％，这说明基于目标检测人体分支抑制了部分背景噪声，而当单独使用手部分支时，准确度有所下降，这是因为单手部特征新对于模型分类还是不够充分，随着人体分支、手部分支、空间分支都引入到多流网络中时，准确率达到最高。由结果可以看出，在自建的三客一危数据集上，提升较为显著，而在公开数据集上提升却不是特别大，这是由于自建数据集存在的视角多变，环境杂乱，体态多样的问题。而姿态引导的实例感知网络能有效减少这些外部因素的干扰，让模型集中去学习那些有益的特征。

消融实验的结果说明本方法所提出组件可以有效改善驾驶员行为识别的结果，当结合人体分支，手部分支，空间分支时，准确率达到最高。在自建大型车驾驶员数据集上提高了7.5％的准确度，在公开数据集上也提升了3％以上。实验结果可以看出本文提出的结合人体检测和姿态估计的驾驶员行为识别方法在复杂环境和视角多变的驾驶环境下有更好的表现。

实验结果表明，本发明在自建复杂环境数据集上和公开数据集上的准确率均优于其他模型。相较于传统的基于RGB模型，人体骨架引导的方法在复杂环境下效果提升明显，有效降低了背景杂乱，视角不一、光照和人体特征变化所带来的影响。