CN115147817B - 一种姿态引导的实例感知网络的驾驶员分心行为识别方法 - Google Patents
一种姿态引导的实例感知网络的驾驶员分心行为识别方法 Download PDFInfo
- Publication number
- CN115147817B CN115147817B CN202210686565.4A CN202210686565A CN115147817B CN 115147817 B CN115147817 B CN 115147817B CN 202210686565 A CN202210686565 A CN 202210686565A CN 115147817 B CN115147817 B CN 115147817B
- Authority
- CN
- China
- Prior art keywords
- hand
- coordinate
- human body
- feature
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000008447 perception Effects 0.000 title claims abstract description 21
- 230000000007 visual effect Effects 0.000 claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 230000003993 interaction Effects 0.000 claims abstract description 8
- 230000006399 behavior Effects 0.000 claims description 28
- 210000000707 wrist Anatomy 0.000 claims description 24
- 238000001514 detection method Methods 0.000 claims description 21
- 238000010586 diagram Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 21
- 210000004247 hand Anatomy 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 12
- 230000009471 action Effects 0.000 claims description 9
- 210000000746 body region Anatomy 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 206010039203 Road traffic accident Diseases 0.000 abstract description 8
- 108091006146 Channels Proteins 0.000 description 11
- 238000012360 testing method Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000002679 ablation Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 239000003651 drinking water Substances 0.000 description 1
- 235000020188 drinking water Nutrition 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种姿态引导的实例感知网络的驾驶员分心行为识别方法,利用人体检测器检测到人体框,利用人体姿态估计获取具有辨识性的手部相关区域;将人体和手部区域的特征作为实例级别的特征,提出一种实例感知模块充分获取不同层级的上下文语义信息;利用手部相关特征构建双通道交互模块来对关键空间信息进行表征的同时,对视觉特征进行优化;组建成一个多分支的深度神经网络,最后将不同分支的结果进行融合。发明提出的姿态引导的实例感知网络,在一定程度上降低了环境的干扰,准确度高,能辅助驾驶员安全行车,减少交通事故的发生。
Description
技术领域
本发明属于自动驾驶领域,具体涉及一种姿态引导的实例感知网络的驾驶员分心行为识别方法。
背景技术
分心驾驶是交通事故的主要原因,约有80%的交通事故都是由驾驶员分心造成的,因此对其进行针对性的分析对预防交通事故尤为重要。
多年以来,基于静态图片和视频的动作识别一直是计算机视觉的经典问题,吸引了众多学者对其开展研究。然而由于车内狭小复杂的环境和驾驶员分心时微小的体态差异,这些方法并不适用于驾驶员分心行为识别,部分也是因为建立一个标准的通用范式对人体行为进行统一解释仍然是一个具有挑战性的任务。
现有的对驾驶员进行分心行为的方法主要分为基于传统的手工特征的方法和基于深度卷积神经网络的方法。
1)在之前的研究中,传统手工特征通过许多方法对分心驾驶进行检测,Guo等人利用颜色和形状信息对驾驶行为进行检测。Yan等人联合运动历史图和金字塔式梯度方向直方图进行驾驶员的行为识别。Sharma等人在多个尺度上进行密集的灰度SIFT特征采样,模拟每个图片局域对于分类的贡献,然后采用SVM分类器对带有权重的热力图进行分类。
2)近些年,深度卷积神经网络(CNN)在各个领域均取得了巨大的成功,其中也包括驾驶员分心行为识别。Koesdwiady利用深度卷积神经网络(VGGNET)对驾驶员进行分心检测。Hu使用一个多流CNN来提取不同尺度的特征融合并进行分心行为检测。Ou等人则对神经网络进行迁移学习来改善分心驾驶行为识别的效果。Li提出了一种结合Depth-wise卷积和Point-wise卷积的轻量化网络OLCMNet对驾驶员行为进行识别,在嵌入式设备Nvidia-TX2上实现了实时检测。Tran等人提出了一种基于双摄像头的驾驶员行为检测***,使用来自双摄像头的数据进行融合效果要优于单摄像头数据输入的结果。Wu等人利用体姿态估计获取手部特征并与人体骨架数据进行多特征融合来对驾驶员进行行为识别。
以上这些方法大都是集中利用图片层级的特征对驾驶员行为进行识别,环境的噪声和视角多变的问题依然没有得到很好的解决。近些年,人体骨架数据被广泛的运用到动作识别中,和传统的RGB图像相比,人体骨架数据已经证明在面对复杂环境,视角不一、光照变化、人体特征变化有着较强的鲁棒性。驾驶员的手部相关区域对驾驶员分心行为识别有着较强的语义线索作用,能为当前行为识别任务提供更加细粒度的表征。如玩手机和喝水时,手上拿什么和两只手的位置信息很重要,左右手的区域视觉特征和空间位置存在显著差异,在驾驶员行为识别属于辨识性的特征,因此对这种辨识性的特征进行针对性的分析是有必要的,而人体骨架恰好可以帮助进行更加准确的手部区域定位。以往的驾驶员行为识别工作虽然也有通过目标检测方法或人体姿态对驾驶员身体部分进行解析利用传统检测器检测身体部位,但是容易受到复杂场景干扰。虽然利用人体姿态估计获取人体信息,但都是进行单一的特征提取,缺少对实例级别上下文特征的挖掘。也没有研究空间位置对驾驶员行为识别的线索作用。
发明内容
发明目的:本发明提出了一种姿态引导的实例感知网络的驾驶员分心行为识别方法,降低了环境的干扰,准确度高,能辅助驾驶员安全行车,减少交通事故的发生。
技术方案:本发明提出一种姿态引导的实例感知网络的驾驶员分心行为识别方法,具体包括以下步骤:
(1)利用人体检测器检测到人体框,利用人体姿态估计获取具有辨识性的手部相关区域;
(2)将人体和手部区域的特征作为实例级别的特征,提出一种实例感知模块充分获取不同层级的上下文语义信息;
(3)利用手部相关特征构建双通道交互模块来对关键空间信息进行表征的同时,对视觉特征进行优化;
(4)组建成一个多分支的深度神经网络,最后将不同分支的结果进行融合。
进一步地,所述步骤(1)实现过程如下:
利用姿态估计对手部关键点进行定位,通过借助手肘关键点和手腕关键点像素坐标,对其矢量方向进行延长二分之一得到手部关键点:
式中XLwrist代表左手腕X坐标,YLwrist代表左手腕Y坐标,XLbow代表左肘X坐标,YLbow代表左肘Y坐标;XRwrist代表右手腕X坐标,YRwrist代表右手腕Y坐标,XRbow代表右肘X坐标,YRbow代表右肘Y坐标;XLhand代表左手X坐标,YLhand代表左手Y坐标;XRhand代表右手X坐标,YRhand代表右手Y坐标;
以手部坐标为中心确定手部区域范围,手部区域的偏移量Cet设定为人体关节点手腕至手肘的长度较长长度的那一个的二分之一:
Cet=Max(length(CLwrist,CLbow),length(CRwrist,CRbow))/2
其中,CLwrist代表左手腕的坐标,CLbow代表左手肘的坐标,CRwrist代表右手腕的坐标,CRbow代表右手肘的坐标,length()代表计算两点之间的距离,Max()代表计算序列集合中的最大值;
将左右手的坐标分别加上和减上偏移量Cet得到手部区域的左上角的坐标Htop和右下角的坐标Hbottom;
Htop=hand(x,y)-Cet
Hbottom=hand(x,y)-Cet
其中,hand(x,y)为手部坐标,Cet为偏移量,Htop,Hbottom则为手部区域左上角的坐标和右下角的坐标;人体区域由YOLOv5目标检测模型检测得到人体区域检测框xh。
进一步地,所述步骤(2)实现过程如下:
利用感兴趣区域对手部区域和人体区域进行特征提取;具体运算是在ROI后加入一个残差块,之后进行全局平均池化得到视觉特征向量;对获取到的左右手特征图进行、拼接得到手部特征Finst:
XL=GAP(Resl(RoI(F,xl)))
XR=GAP(Resr(RoI(F,xr)))
其中,F为图片经过主干网络ResNet50的特征图,Res{}为代表残差块,XL和XR为左右手的视觉特征,Finst为手部特征;
通过对xh的检测框的区域进行特征提取获得周围上下文信息XH;为获得感知系数矩阵,将Finst和XH都映射到相同维度的空间,通过向量点乘的方式计算特征间的自相关性,然后通过Softmax层获取相关度系数矩阵:
XH=GAP(Resh(RoI(F,xh)))
其中,FContext为当前实例特征的全局特征,pHuman当前手部感知流分支的得分。
进一步地,所述步骤(3)实现过程如下:
通过姿态关节点得到两个xl,xr手部区域框之后,将两个手部区域包含的最小区域作为一个注意力窗口,并将注意力窗口以外的像素移除;将两个手部区域框转换成一个双通道的二值图像;其中第一个通道除了左手部区域的值是0之外,其他区域的值全是1,而第二个通道除了右手区域的值是1之外,其他区域的值全是0,将二值图重塑为64*64像素的大小并进行相应的补零操作,生成一个能够输入到深度神经网络中的双通道的二值空间配置图Bh,之后将Bh送入深度神经网络中获得空间特征:
ah=Ws(GAP(Conv(Bh)))
其中,ah为空间特征向量,代表了两只手的空间配置信息;二值空间配置图的Bh将两只手的区域定义在不同通道,利用深度神经网络去学习两只手的空间关系,ah在辅助进行预测的同时,利用空间特征对视觉特征进行优化:
进一步地,所述步骤(4)通过以下公式实现:
p=pSpa+pHand+pHuman
其中,p为模型最后的预测结果,长度为目标分类数,pSpa是长度为N的空间流各动作类概率得分,pHuman为当前人体感知流分支的得分,pHand为手部感知流分支的得分。
有益效果:与现有技术相比,本发明的有益效果:本发明在AUC数据集和自建三客一危数据集上的测试准确率分别达到96.17%和96.97%,相较于未使用实例感知模块和通道交互的模型,准确率得到较为显著的改善,在复杂数据集下效果提升明显;本发明提出的姿态引导的实例感知网络,在一定程度上降低了环境的干扰,准确度高,能辅助驾驶员安全行车,减少交通事故的发生。
附图说明
图1为检测流程示意图;
图2姿态引导的实例感知网络结构示意图;
图3为实例感知模块结构示意图;
图4为空间特征构建示意图;
图5为三客一危分心驾驶数据集样例图;
图6为AUC分心驾驶数据集样例图;
图7为AUC数据集测试混淆矩阵示意图;
图8为三危一化驾驶数据集混淆矩阵示意图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明提出一种姿态引导的实例感知网络的驾驶员分心行为识别方法,结合目标检测和人体姿态估计获取人体和手部区域作为实例级别的特征并建立感知模块,并利用手部相关区域构建双通道交互模块来对关键空间信息进行表征。如图1所示,具体包括以下步骤:
步骤1:利用人体检测器检测到人体框,利用人体姿态估计获取具有辨识性的手部相关区域。
目标检测算法对手部区域进行容易受到环境影响导致检测率低下,本发明利用人体姿态估计手部相关区域进行定位。利用姿态估计对手部关键点进行定位,通过借助手肘关键点和手腕关键点像素坐标,对其矢量方向进行延长二分之一得到手部关键点:
式中,XLwrist代表左手腕X坐标,YLwrist代表左手腕Y坐标,XLbow代表左肘X坐标,YLbow代表左肘Y坐标;XRwrist代表右手腕X坐标,YRwrist代表右手腕Y坐标,XRbow代表右肘X坐标,YRbow代表右肘Y坐标;XLhand代表左手X坐标,YLhand代表左手Y坐标;XRhand代表右手X坐标,YRhand代表右手Y坐标。
如图2所示,通过检测到的人体框和关键点信息获得人体信息和手部信息,全局信息为整张图片,人体信息为M-p对应的区域,手部信息为M-h对应的区域。利用人体信息和整张图片的全局信息构建人体感知流,利用手部和人体区域组成手部感知流,将手部相关特征构建双通道交互模块组成空间流。以此组建成一个多分支的深度神经网络,并在不同分支的最后进行score层面的晚融合。
手部区域的特征能够为驾驶行为识别提供更加细粒度且具辨识度的表征,然而手部区域的定位和获取却比较困难。为了解决这个问题,本文利用检测出的人体关节点获取手部区域
以手部坐标为中心确定手部区域范围,手部区域的偏移量Cet设定为人体关节点手腕至手肘的长度较长长度的那一个的二分之一:
Cet=Max(length(CLwrist,CLbow),length(CRwrist,CRbow))/2
其中CLwrist代表左手腕的坐标,CLbow代表左手肘的坐标,CRwrist代表右手腕的坐标,CRbow代表右手肘的坐标,length()代表计算两点之间的距离,Max()代表计算序列集合中的最大值。
将左右手的坐标分别加上和减上偏移量Cet得到手部区域的左上角的坐标Htop和右下角的坐标Hbottom:
Htop=hand(x,y)-Cet
Hbottom=hand(x,y)-Cet
其中,hand(x,y)为手部坐标,Cet为偏移量。Htop,Hbottom则为手部区域左上角的坐标和右下角的坐标。人体区域由YOLOv5目标检测模型检测得到人体区域检测框xh。
步骤2:将人体和手部区域的特征作为实例级别的特征,提出一种实例感知模块充分获取不同层级的上下文语义信息。
考虑到为了获取不同实例特征间的依赖关系,提出了一种实例感知模块用来捕捉上下文语义信息。图3为本文提出的实例感知模块结构中的手部感知流示例。以手部感知流为例,其中M-p对应检测框xh和M-h对应的检测框xl,xr分别代表实例特征人和左右手的区域。
得出实例特征的区域之后,利用感兴趣区域(ROI)对手部区域和人体区域进行特征提取。具体运算是再ROI后加入一个(Res)残差块,之后进行全局平均池化得到视觉特征向量。考虑到左右手对某些特定的动作存在的联合线索作用,因此对获取到的左右手特征图进行、拼接得到手部特征Fins)。
XL=GAP(Resl(RoI(F,xl)))
XR=GAP(Resr(RoI(F,xr)))
其中,F为图片经过主干网络ResNet50的特征图,Res{}为代表残差块,XL和XR为左右手的视觉特征。
实例特征的上下文信息在行为识别中扮演着重要角色,周围的背景能够对驾驶员的行为检测起到一定的促进作用。为了能够让次级的实例特征对周围信息进行感知,这里通过对xh的检测框的区域进行特征提取获得周围上下文信息XH。为获得感知系数矩阵,将Finst和XH都映射到相同维度的空间,通过向量点乘的方式计算特征间的自相关性,然后通过Softmax层获取相关度系数矩阵MH。
XH=GAP(Resh(RoI(F,xh)))
其中,Fcontext为当前实例特征的全局特征,pHand当前手部感知流分支的得分。
步骤3:利用手部相关特征构建双通道交互模块来对关键空间信息进行表征的同时,对视觉特征进行优化。
双手的空间特征为驾驶员行为分析提供了重要的线索作用,如正常驾驶和其他异常驾驶如玩手机,抽烟等行为,双手的位置有显著差异。如图4所示,通过姿态关节点得到两个xl,xr手部区域框之后,将两个区域包含的最小区域作为一个注意力窗口,并将注意力窗口以外的像素移除。为了能让神经网络学习到空间相关位置信息,将两个手部区域框转换成一个双通道的二值图像。其中第一个通道除了左手部区域的值是0之外,其他区域的值全是1,而第二个通道除了右手区域的值是1之外,其他区域的值全是0,将二值图重塑为64*64像素的大小并进行相应的补零操作,以此生成一个能够输入到深度神经网络中的双通道的二值空间配置图Bh,之后将Bh送入深度神经网络中获得空间特征。
ah=Ws(GAP(Conv(Bh)))
其中,ah为空间特征向量,代表了两只手的空间配置信息。二值空间配置图的Bh将两只手的区域定义在不同通道,因此可利用深度神经网络去学习两只手的空间关系。ah在辅助进行预测的同时,利用空间特征对视觉特征进行优化。
步骤4:组建成一个多分支的深度神经网络,最后将不同分支的结果进行融合。
将三个分支的输出结合相加得出最后模型的预测结果。
p=pSpa+pHand+pHuman
其中,pSpa是长度为N的空间流各动作类概率得分,pHuman为当前人体感知流分支的得分,pHand为手部感知流分支的得分。p则为模型最后的预测结果,长度为目标分类数。
本发明建立了一个三客一危分心驾驶数据集。三客一危指的是客运车、校车、旅游车和危化品运输车这类大型车,这类车辆驾驶舱结构和小型车有明显差异,发生交通事故的后果相对比较严重。因此,对这类车型环境中的驾驶员进行分心行为进行针对性的分析是有必要的。数据来自交通监管平台所提供的车内监控视频数据,共780段视频,大小634GB,每段视频分辨率为1280*720,帧率为15FPS。图5为数据集中的五个动作里的一些样例图,分别是安全驾驶、分神、打电话、使用手机和抽烟。如图5所示,车内的环境相对复杂多变,视频监控的摄像头安装的位置并不是固定的,而是安装在驾驶员不同的角度,这种多视角有效提升了数据的丰富程度,同时也给检测带来挑战。首先人工将长监控视频中的带有分心行为的短视频剪切出来,然后将短分心行为视频截取成一帧帧的图片,选取其中有代表性的帧作为数据集。数据集总共包括31694张图片,其中26095张作为训练集,8699张作为测试集。表1为数据集的具体描述。
表1三危一客分心驾驶数据集
AUC分心驾驶数据集来源于十个不同国家的志愿者完成,AUC视频数据集随机分割为3:1比例的训练测试数据集。图6是AUC数据集十个动作的样例图,分别为:C0:安全驾驶、C1:右手打字、C2:右手打电话、C3:左手打字、C4:左手打电话、C5:调试收音机、C6:喝水、C7:拿东西、C8:化妆和弄头发、C9:和乘客说话。数据集总共有图片17308张,其中12977张用于训练,4331张用于测试。
本发明属于分类问题,最常见的指标有准确率(Accuracy)、召回率(Recall)、混淆矩阵。在实际分类过程中,会出现真反例(TN)、真正例(TP)、假反例(FN)、假真例(FP)和这几种情况。准确率和召回率的公式为:
本发明提出的方法在三客一危驾驶数据集的测试集上和一些常见的网络模型和方法进行比较,同时在公开数据集AUC上和一些近些年提出的方法进行了比较。表2为本发明和ResNet50在HYD驾驶数据集上的结果,可以看出本发明,在各类别上的召回率和总体准确率最高,其中整体准确率高ResNet50网络模型7.5%,结果可以看出本方法在各类别上的召回率和准确率上均表现优异。
表2在三危一客数据集上的结果
主干网络 | C0 | C1 | C2 | C3 | C4 | 总准确率 |
AlexNet | 0.5851 | 0.7373 | 0.9537 | 0.8372 | 0.8474 | 0.7906 |
DenseNet | 0.8423 | 0.7361 | 0.9493 | 0.9637 | 0.8298 | 0.8752 |
ResNet-50 | 0.8225 | 0.8647 | 0.9949 | 0.9593 | 0.8235 | 0.8952 |
Fusion[19] | 0.9095 | 0.7251 | 0.9115 | 0.9747 | 0.9523 | 0.9053 |
Ours | 0.9557 | 0.8891 | 0.9967 | 0.9879 | 0.9761 | 0..9697 |
为了进一步验证本方法的有有效性,将本发明和在公开数据集AUC上进行测试,并和近些年提出的方法进行了对比。实验结果如表3所示,本发明取得了96.17%的准确率,算法的准确率优于其他方法。
表3在AUC数据集上的结果
图7、图8为本发明在AUC数据集和上测试混淆矩阵,其中左侧行代表真实类别,而列代表预测的类别。矩阵每个方格中的数值分别代表预测类别所占比重和对应的样本数量。
混淆矩阵中,对角线上的数值即为预测正确的结果,而其他数值则为预测错误的结果。计算得知,本发明的整体的准确率和召回率均为96.17%,在三危一化驾驶数据集上,整体准确率为96.97%。
为了验证本发明提出的各个组件有效性,本文对各个分支进行了相应的消融实验。实验结果如表4所示,图其中Human代表人体感应分支,Hand代表手部感应分支,Spatial代表双通道空间交互分支。数据集第一行代表的是基线模型ResNet50网络。
表4消融实验
Table 3 Ablation study on tow different datasets
由表中数据可知,本发明在单独引入人体分支时,准确度提高了3%,这说明基于目标检测人体分支抑制了部分背景噪声,而当单独使用手部分支时,准确度有所下降,这是因为单手部特征新对于模型分类还是不够充分,随着人体分支、手部分支、空间分支都引入到多流网络中时,准确率达到最高。由结果可以看出,在自建的三客一危数据集上,提升较为显著,而在公开数据集上提升却不是特别大,这是由于自建数据集存在的视角多变,环境杂乱,体态多样的问题。而姿态引导的实例感知网络能有效减少这些外部因素的干扰,让模型集中去学习那些有益的特征。
消融实验的结果说明本方法所提出组件可以有效改善驾驶员行为识别的结果,当结合人体分支,手部分支,空间分支时,准确率达到最高。在自建大型车驾驶员数据集上提高了7.5%的准确度,在公开数据集上也提升了3%以上。实验结果可以看出本文提出的结合人体检测和姿态估计的驾驶员行为识别方法在复杂环境和视角多变的驾驶环境下有更好的表现。
实验结果表明,本发明在自建复杂环境数据集上和公开数据集上的准确率均优于其他模型。相较于传统的基于RGB模型,人体骨架引导的方法在复杂环境下效果提升明显,有效降低了背景杂乱,视角不一、光照和人体特征变化所带来的影响。
Claims (1)
1.一种姿态引导的实例感知网络的驾驶员分心行为识别方法,其特征在于,包括以下步骤:
(1)利用人体检测器检测到人体框,利用人体姿态估计获取具有辨识性的手部相关区域;
(2)将人体和手部区域的特征作为实例级别的特征,提出一种实例感知模块充分获取不同层级的上下文语义信息;
(3)利用手部相关特征构建双通道交互模块来对关键空间信息进行表征的同时,对视觉特征进行优化;
(4)组建成一个多分支的深度神经网络,最后将不同分支的结果进行融合;
所述步骤(1)实现过程如下:
利用姿态估计对手部关键点进行定位,通过借助手肘关键点和手腕关键点像素坐标,对其矢量方向进行延长二分之一得到手部关键点:
式中XLwrist代表左手腕X坐标,YLwrist代表左手腕Y坐标,XLbow代表左肘X坐标,YLbow代表左肘Y坐标;XRwrist代表右手腕X坐标,YRwrist代表右手腕Y坐标,XRbow代表右肘X坐标,YRbow代表右肘Y坐标;XLhand代表左手X坐标,YLhand代表左手Y坐标;XRhand代表右手X坐标,YRhand代表右手Y坐标;
以手部坐标为中心确定手部区域范围,手部区域的偏移量Cet设定为人体关节点手腕至手肘的长度较长长度的那一个的二分之一:
Cet=Max(length(CLwrist,CLbow),length(CRwrist,CRbow))/2
其中,CLwrist代表左手腕的坐标,CLbow代表左手肘的坐标,CRwrist代表右手腕的坐标,CRbow代表右手肘的坐标,length()代表计算两点之间的距离,Max()代表计算序列集合中的最大值;
将左右手的坐标分别加上和减上偏移量Cet得到手部区域的左上角的坐标Htop和右下角的坐标Hbottom;
Htop=hand(x,y)-Cet
Hbottom=hand(x,y)-Cet
其中,hand(x,y)为手部坐标,Cet为偏移量,Htop,Hbottom则为手部区域左上角的坐标和右下角的坐标;人体区域由YOLOv5目标检测模型检测得到人体区域检测框xh;
所述步骤(2)实现过程如下:
利用感兴趣区域对手部区域和人体区域进行特征提取;具体运算是在ROI后加入一个残差块,之后进行全局平均池化得到视觉特征向量;对获取到的左右手特征图进行、拼接得到手部特征Finst:
X+=GAP(Resl(RoI(F,xl)))
XR=GAP(Resr(RoI(F,xr)))
其中,F为图片经过主干网络ResNet50的特征图,Res{}为代表残差块,XL和XR为左右手的视觉特征,Finst为手部特征;
通过对xh的检测框的区域进行特征提取获得周围上下文信息XH;为获得感知系数矩阵,将Finst和XH都映射到相同维度的空间,通过向量点乘的方式计算特征间的自相关性,然后通过Softmax层获取相关度系数矩阵:
XH=GAP(Resh(RoI(F,xh)))
其中,Fcantext为当前实例特征的全局特征,pHuman当前手部感知流分支的得分;
所述步骤(3)实现过程如下:
通过姿态关节点得到两个xl,xr手部区域框之后,将两个手部区域包含的最小区域作为一个注意力窗口,并将注意力窗口以外的像素移除;将两个手部区域框转换成一个双通道的二值图像;其中第一个通道除了左手部区域的值是0之外,其他区域的值全是1,而第二个通道除了右手区域的值是1之外,其他区域的值全是0,将二值图重塑为64*64像素的大小并进行相应的补零操作,生成一个能够输入到深度神经网络中的双通道的二值空间配置图Bh,之后将Bh送入深度神经网络中获得空间特征:
其中,ah为空间特征向量,代表了两只手的空间配置信息;二值空间配置图的Bh将两只手的区域定义在不同通道,利用深度神经网络去学习两只手的空间关系,ah在辅助进行预测的同时,利用空间特征对视觉特征进行优化:
所述步骤(4)通过以下公式实现:
p=pSpa+pHand+pHuman
其中,p为模型最后的预测结果,长度为目标分类数,pSpa是长度为N的空间流各动作类概率得分,pHuman为当前人体感知流分支的得分,pHand为手部感知流分支的得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210686565.4A CN115147817B (zh) | 2022-06-17 | 2022-06-17 | 一种姿态引导的实例感知网络的驾驶员分心行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210686565.4A CN115147817B (zh) | 2022-06-17 | 2022-06-17 | 一种姿态引导的实例感知网络的驾驶员分心行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115147817A CN115147817A (zh) | 2022-10-04 |
CN115147817B true CN115147817B (zh) | 2023-06-20 |
Family
ID=83408510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210686565.4A Active CN115147817B (zh) | 2022-06-17 | 2022-06-17 | 一种姿态引导的实例感知网络的驾驶员分心行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115147817B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052136B (zh) * | 2023-03-27 | 2023-09-05 | 中国科学技术大学 | 分心检测方法、车载控制器和计算机存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368696A (zh) * | 2020-02-28 | 2020-07-03 | 淮阴工学院 | 基于视觉协同的危化品运输车违规驾驶行为检测方法及*** |
CN113158766A (zh) * | 2021-02-24 | 2021-07-23 | 北京科技大学 | 面向无人驾驶的基于姿态估计的行人行为识别方法 |
CN113343764A (zh) * | 2021-05-10 | 2021-09-03 | 武汉理工大学 | 一种基于级联式网络架构的驾驶员分心检测方法及*** |
CN113378676A (zh) * | 2021-06-01 | 2021-09-10 | 上海大学 | 基于多特征融合的图像中人物交互检测方法 |
CN114120439A (zh) * | 2021-10-12 | 2022-03-01 | 江苏大学 | 一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11544928B2 (en) * | 2019-06-17 | 2023-01-03 | The Regents Of The University Of California | Athlete style recognition system and method |
-
2022
- 2022-06-17 CN CN202210686565.4A patent/CN115147817B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368696A (zh) * | 2020-02-28 | 2020-07-03 | 淮阴工学院 | 基于视觉协同的危化品运输车违规驾驶行为检测方法及*** |
CN113158766A (zh) * | 2021-02-24 | 2021-07-23 | 北京科技大学 | 面向无人驾驶的基于姿态估计的行人行为识别方法 |
CN113343764A (zh) * | 2021-05-10 | 2021-09-03 | 武汉理工大学 | 一种基于级联式网络架构的驾驶员分心检测方法及*** |
CN113378676A (zh) * | 2021-06-01 | 2021-09-10 | 上海大学 | 基于多特征融合的图像中人物交互检测方法 |
CN114120439A (zh) * | 2021-10-12 | 2022-03-01 | 江苏大学 | 一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法 |
Non-Patent Citations (1)
Title |
---|
基于图卷积网络的多信息融合驾驶员分心行为检测;白中浩;王韫宇;张林伟;;汽车工程(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115147817A (zh) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020181685A1 (zh) | 一种基于深度学习的车载视频目标检测方法 | |
CN111860274B (zh) | 基于头部朝向与上半身骨架特征的交警指挥手势识别方法 | |
D’Eusanio et al. | A transformer-based network for dynamic hand gesture recognition | |
CN111325141B (zh) | 交互关系识别方法、装置、设备及存储介质 | |
CN113657409A (zh) | 车辆损失检测方法、装置、电子设备及存储介质 | |
CN115147817B (zh) | 一种姿态引导的实例感知网络的驾驶员分心行为识别方法 | |
CN113269133A (zh) | 一种基于深度学习的无人机视角视频语义分割方法 | |
CN104966054A (zh) | 无人机可见光图像中的弱小目标检测方法 | |
CN101369312B (zh) | 检测图像中交叉口的方法和设备 | |
CN115984537A (zh) | 图像处理方法、装置及相关设备 | |
CN115861981A (zh) | 基于视频姿态不变性的驾驶员疲劳行为检测方法及*** | |
Wu et al. | Pose-aware multi-feature fusion network for driver distraction recognition | |
CN116129405A (zh) | 一种基于多模态混合融合的驾驶员愤怒情绪识别方法 | |
CN111144203B (zh) | 一种基于深度学习的行人遮挡检测方法 | |
Yang et al. | Learning spatio-temporal representations with a dual-stream 3-D residual network for nondriving activity recognition | |
CN116740792A (zh) | 一种观光车作业人员人脸识别方法及*** | |
CN116363700A (zh) | 一种基于遮挡感知和特征复原的遮挡行人重识别方法 | |
CN112541930A (zh) | 基于级联式的图像超像素目标行人分割方法 | |
CN112633264B (zh) | 一种车辆属性识别方法、装置、电子设备及存储介质 | |
Wang et al. | Online gesture recognition algorithm applied to HUD based smart driving system | |
CN112446292B (zh) | 一种2d图像显著目标检测方法及*** | |
JP2011081614A (ja) | 認識装置、認識方法及びプログラム | |
CN112381068B (zh) | 一种检测人“玩手机”的方法及*** | |
CN115359464A (zh) | 基于深度学习的机动车驾驶员危险驾驶行为检测方法 | |
CN112818858A (zh) | 一种基于双通路视觉机制的雨天交通视频显著性检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20221004 Assignee: Jiangsu Kesheng Xuanyi Technology Co.,Ltd. Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY Contract record no.: X2023980048436 Denomination of invention: A posture guided instance perception network based driver distraction behavior recognition method Granted publication date: 20230620 License type: Common License Record date: 20231129 |
|
EE01 | Entry into force of recordation of patent licensing contract |