CN108710865B

CN108710865B - 一种基于神经网络的司机异常行为检测方法

Info

Publication number: CN108710865B
Application number: CN201810525467.6A
Authority: CN
Inventors: 屈鸿; 王晓斌; 杨林川; 贺强; 沈晓峰; 张晓敏; 刘洋军
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-05-28
Filing date: 2018-05-28
Publication date: 2022-04-22
Anticipated expiration: 2038-05-28
Also published as: CN108710865A

Abstract

本发明公开了一种基于神经网络的司机异常行为检测方法，属于机器视觉、神经网络等技术领域。以视频作为输入，首先从视频中取出一个帧序列，序列中包含的信息对于后续步骤来说能够代表整个视频的信息；然后根据画面字幕信息中的车辆速度进行筛选，速度过小将直接返回结果，不进行后续识别步骤；接着通过定位画面中方向盘的位置进而定位出司机的画面区域，得到其位置信息，并根据得到的位置信息对帧序列中的每张帧图进行裁剪，只保留司机区域；接下来，使用深度卷积神经网络对每张帧图进行特征提取，并按帧图片的序列构建起一个特征序列，然后通过时间循环神经网络结合时间维信息的能力对特征序列进行行为识别。

Description

一种基于神经网络的司机异常行为检测方法

技术领域

本发明属于神经网络技术领域，具体涉及一种基于神经网络的司机异常行为检测方法。

背景技术

视频监控是安防措施中一项必不可少的高新技术。随着人工智能的发展，监控后台的一些简单的识别判断工作开始逐渐交给机器来完成，并取得了不错的效果。在丰富的视频监控应用场景中，监控人的行为及其所产生的结果是极具重要性和发展前景的一个方面，人工智能领域有关这方面的研究被称为人体行为识别。人体行为识别的目的是让计算机在输入的包含人体行为的视频或图片中，正确地定位和跟踪目标，并分析出各种行为，在许多的场景中都有巨大的应用价值。

传统基于视频的人体行为识别主要包括行为特征表达和行为识别等方面的研究内容，视频数据从输入到得出识别结果，依次经历目标检测、特征提取、行为分类几个步骤，其目的是让机器能模拟出类似于人类观察和理解人体行为的能力。在上述主要流程的基础上，不同的应用场景会产生不同的实际需求。

(1)目标检测

视频画面中，除了需要进行识别的人体对象，还有其他事物的存在，要识别对象的动作行为，首先需要在画面中找到对象，对于机器识别来说，这是不可避免的一步。画面中的对象可能有一个或者多个，而其他可能对目标检测造成干扰的因素的干扰能力则可以笼统地称为背景的复杂性。

(2)特征提取

传统的特征提取主要运用图像处理的手段，手工设计特征模式以及相应的提取方法，设计和提取的过程中融入了大量的人工痕迹，在耗费人力的同时，也不利于从数据本身的角度进行信息挖掘。神经网络的方法则利用网络能够自学习的特性，从设计实现过程中尽量地避免人工过度干预，在简化过程的同时，还能达到比传统方法更好的识别效果，而深度神经网络的多层结构使其能够学习到更高层、更抽象的表达，这样从数据中提取出来的特征会出现更高的区分度，更有利于进行分类。

(3)行为分类

分类问题首先受到提取出的特征的影响，较容易区分的特征更容易得出正确的分类，其次便是针对特征进行分类时所采用的方法。从简易的模板匹配法，到机器学习中经典的支持向量机方法，再到神经网络的方法，都有各自的优缺点，针对实际问题选用合适的方法，才能使得分类效果达到最优。

司机异常行为检测是人体行为识别的一个应用方向，在行车途中，司机的驾驶行为是否符合安全规范直接关系到全车人的人身安全，所以需要对司机的行为进行监督。现有的车载视频监控智能识别***，多采用传统图像处理方法，将识别模块嵌入到前端硬件中，这样的方式有一个很大的弊端，即前端制作成本偏高，推广使用受到成本的限制。在实际的场景中，根据数据的具体情况，如视频的尺寸、时长、帧率，画面的质量，检测对象和背景的分布情况等，以及应用的具体需求，选用合适的方法，调整识别流程，以达到该应用的最终识别目的。

发明内容

本发明的目的在于：为解决现有识别司机异常行为的检测设备，采用传统图像处理方法，将识别模块嵌入到前端硬件中，前端制作成本偏高，推广使用受到成本的限制的问题，提出一种基于神经网络的司机异常行为检测方法。

本发明采用的技术方案如下：

一种基于神经网络的司机异常行为检测方法,该方法包括如下步骤：

步骤1：对视频进行取帧，并筛除速度过小的视频，得到一个帧序列；

步骤2：进行司机目标区域检测，并对帧序列中每一帧图片进行裁剪，只保留有司机的画面区域；

步骤3：基于深度神经网络的方法，对帧序列进行特征提取和识别，输出识别结果。

优选地，所述步骤1包括如下步骤：

步骤1.1：从视频中等间距地按顺序取出一定数量的帧图片，得到一个帧序列，间距的大小由数据的具体情况确定；

步骤1.2：通过固定的位置坐标获取到一张帧图片中包含速度信息的画面区域起始位置，以固定宽度和高度从左到右依次地切分出单个字符的小图片并进行识别，直到识别到字符“k”为止，所有的目标字符包括“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”共十个数字字符，以及英文小写字母“k”，识别的方法是模板匹配；

步骤1.3：将字符“k”之前识别出的数字整合为速度值，若速度值小于某个给定的值，则判断该帧图片中的速度值小于给定值；

步骤1.4：对帧序列中的多个帧图片进行步骤1.2、步骤1.3的处理，若超过一定数量的帧图片的结果都是速度值小于给定值，则判定该帧序列所代表的视频拍摄时车速小于给定值，应该直接返回相应结果，不进行后续的识别步骤，否则，将帧序列送入下一个识别步骤。

优选地，所述步骤2包括如下步骤：

步骤2.1：对于帧序列中的某一帧图片，采用图像金字塔搭配滑动窗口的多尺度检测方法获取到图片中的方向盘区域；

步骤2.2：通过找到的方向盘区域进一步得到司机的画面区域：将得到的矩形窗口宽度向左方扩充，高度向上下两方扩充，扩充的程度由数据的具体情况确定，最后得到司机的画面区域；

步骤2.3：根据上一步得到的司机画面区域位置信息对每一张帧图片进行裁剪，只保留司机画面区域，最后得到一个经过裁剪的帧图片序列。

优选地，所述步骤2.1包括如下步骤：

步骤2.1.1：构建多尺度图像栈；

步骤2.1.2：使用滑动窗口按照一定的滑动步长对步骤2.1.1得到的多尺度图像栈中的每一张图片进行滑动检测，得到每个尺度的图片中的候选区域；

步骤2.1.3：将步骤2.1.2得到的候选区域在原图像中用矩形框的形式标记，从候选区域中筛选出方向盘的区域位置。

优选地，所述步骤2.1.1包括如下步骤：

步骤2.1.1.1：将原始图片保存进下采样图片栈中，设置缩放因子scale，设置滑动窗口大小winSize；

步骤2.1.1.2:将被采样图片src缩放为宽为src.cols/scale，高为src.rows/scale的下采样图片src'；

步骤2.1.1.3：当src'.cols/scale<winSize.width或者src'.rows/scale<winSize.height或者scale的值不大于1时，终止采样，否则将src'保存进下采样图片栈中，并将src作为当前被采样图片回到流程的第步骤2.1.1.2步继续往下进行。

优选地，所述步骤2.1.2包括如下步骤：

步骤2.1.2.1：检测的具体方法为：对滑动窗口框定的区域提取梯度方向直方图特征，然后送入支持向量机进行二分类；

步骤2.1.2.2：将步骤2.1.2.1中支持向量机模型的训练，其过程为：先用少量人工截取的正负样本图片，提取图片的梯度方向直方图特征作为支持向量机模型的输入，然后训练模型；第一次训练完成后，使用大量完整无裁剪的帧图进行方向盘的检测，把检测到的每一个区域截取保存下来，人工对这些保存的图片进行分类，正样本为框定方向盘右半部分且右边基本和方向盘圆弧相切的图，其余为负样本的数据，分类完成后，用分类得到的数据再对模型进行一次更加充分的训练，使得模型达到一个比较稳定的识别效果。

优选地，所述步骤2.1.3包括如下步骤：

步骤2.1.3.1：筛选具有内外包含关系的矩形窗口，只保留较大的区域，把所有得到的矩形窗口的长宽缩小为0.8倍；

步骤2.1.3.2：只保留中心点距离图像中心在一定长度之内的矩形窗口；

步骤2.1.3.3：取中心点距离图像右下点最近的矩形窗口。

优选地，所述步骤3中的具体步骤如下：

步骤3.1：使用深度卷积神经网络模型VGG16对帧序列中的每张图片进行特征提取，并按帧图片的序列构建成一个特征序列；

步骤3.2：使用时间循环神经网络中的双向长短期记忆网络模型对步骤3.1得到的特征序列进行分类，得到该视频属于哪一类视频的概率向量；

步骤3.3：牺牲少量的识别率以换取误报率的降低：当概率向量中正常类对应的分量值超过0.2时，即判定该视频为正常类，否则就判定为数值最大的分量对应的类别，输出结果。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明中，通过检测方向盘进而定位出司机的位置，相对于直接检测司机来说，检测目标对象具有更单一更明显的特征，检测效果更加稳定而且准确。

2、本发明中，采用16层深度的神经网络进行特征提取、双向长短期记忆模型进行识别的方案，提取到数据中更抽象的特征并充分结合时间维上的信息进行识别分类，并进行了误报率的调优，能将误报率控制在10％以下。

3、本发明中，集中在远程服务器异步地对司机行为进行检测，可以减少前端摄像机硬件的制作成本。

附图说明

图1为本发明中司机异常行为检测的具体流程图；

图2为本发明中使用到的视频数据画面示意图；

图3为本发明中从视频字幕中提取到的字符图片示例图；

图4为本发明中字符“0”使用模板匹配的模板像素分布图；

图5为本发明中通过检测方向盘进而定位到司机的位置的效果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

如图1-5所示，本实施方式针对画面尺寸为宽高352×288、时长20秒、帧率为15fps左右的视频进行检测。

一种基于神经网络的司机异常行为检测方法，包括以下步骤：

步骤1：对视频进行取帧，并筛除速度过小的视频，得到一个帧序列，具体步骤如下：

步骤1.1：从视频中等间距地按顺序取出30帧帧图片，得到一个帧序列，序列中相邻两帧图片在原视频中平均间距约为10帧；

步骤1.2：以(100,30)为左上角起始点、固定高度为10像素点、固定宽度为6个像素点，从左到右依次地切分出单个字符的小图片并进行识别，直到识别到字符“k”为止，所有的目标字符包括“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”共十个数字字符，以及英文小写字母“k”，识别的方法是模板匹配；

步骤1.3：将字符“k”之前识别出的数字整合为速度值，若速度值小于20km/h，则判断该帧图片中的速度值小于20km/h；

步骤1.4：对帧序列中的第1帧、第11帧、第21帧图片进行步骤(12)、步骤(13)的处理，若有两帧或两帧以上帧图片的结果都是速度值小于20km/h，则判定该帧序列所代表的视频拍摄时车速小于20km/h，应该直接返回相应结果，不进行后续的识别步骤，否则，将帧序列送入下一个识别步骤。

步骤2：进行司机目标区域检测，并对帧序列中每一帧图片进行裁剪，只保留有司机的画面区域，具体步骤如下：

步骤2.1：对于帧序列中的第1帧图片，采用图像金字塔搭配滑动窗口的多尺度检测方法获取到图片中的方向盘区域，具体步骤为：

步骤2.1.1：构建多尺度图像栈，包括如下步骤：

步骤2.1.1.1：将原始图片保存进下采样图片栈中，设置缩放因子scale为1.2，设置滑动窗口大小为(16，16)；

步骤2.1.1.2：将被采样图片src缩放为宽为src.cols/scale，高为src.rows/scale的下采样图片src'；

步骤2.1.1.3：当src'.cols/scale<winSize.width或者src'.rows/scale<winSize.height或者scale的值不大于1时，终止采样，否则将src'保存进下采样图片栈中，并将src作为当前被采样图片回到流程的第2.1.1.2步继续往下进行。

步骤2.1.2：使用滑动窗口按照(16,16)的滑动步长对步骤2.1.1得到的多尺度图像栈中的每一张图片进行滑动检测，得到每个尺度的图片中的候选区域，其过程如下：

步骤2.1.2.2：对步骤2.1.2.1中支持向量机模型进行训练，其过程为：先用100张包含方向盘右半部分圆弧且圆弧和图片边缘基本相切的图片作为正样本，10张负样本则包括有完整的帧图以及预估会有很大概率检测错误的区域，正负样本均为手工截取，提取图片的梯度方向直方图特征作为支持向量机模型的输入，然后训练模型；第一次训练完成后，使用大量完整无裁剪的帧图进行方向盘的检测，把检测到的每一个区域截取保存下来，人工对这些保存的图片进行分类，正样本为框定方向盘右半部分且右边基本和方向盘圆弧相切的图，总共得到9022个，其余为负样本的数据，总共2604个。分类完成后，用分类得到的数据再对模型进行一次更加充分的训练，使得模型达到一个比较稳定的识别效果。

步骤2.1.3：将步骤2.1.2得到的候选区域在原图像中用矩形框的形式标记，从候选区域中筛选出方向盘的区域位置，其过程包括如下步骤：

步骤2.1.3.2：只保留中心点距离图像中心在√2/5个图像宽度之内的矩形窗口；

步骤2.1.3.3：取中心点距离图像右下点最近的矩形窗口；

步骤2.2：通过找到的方向盘区域进一步得到司机的画面区域：将得到的矩形窗口宽度向左方扩充为原来的3.8倍，高度先向下方扩充为原来的1.2倍，再向上延长到图像最顶端，得到司机的画面区域；

步骤3：基于深度神经网络的方法，对帧序列进行特征提取和识别，输出识别结果：视频中司机是否存在异常行为，是哪种异常行为，具体步骤如下：

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于神经网络的司机异常行为检测方法,其特征在于，该方法包括如下步骤：

步骤3：基于深度神经网络的方法，对帧序列进行特征提取和识别，输出识别结果；

所述步骤2包括如下步骤：

步骤2.3：根据上一步得到的司机画面区域位置信息对每一张帧图片进行裁剪，只保留司机画面区域，最后得到一个经过裁剪的帧图片序列；

所述步骤2.1包括如下步骤：

步骤2.1.1:构建多尺度图像栈；

步骤2.1.3：将步骤2.1.2得到的候选区域在原图像中用矩形框的形式标记，从候选区域中筛选出方向盘的区域位置；

所述步骤2.1.1包括如下步骤：

步骤2.1.1.3：当src'.cols/scale<winSize.width或者src'.rows/scale<winSize.height或者scale的值不大于1时，终止采样，否则将src'保存进下采样图片栈中，并将src作为当前被采样图片回到流程的第步骤2.1.1.2步继续往下进行；

所述步骤2.1.2包括如下步骤：

步骤2.1.2.2：将步骤2.1.2.1中支持向量机模型的训练，其过程为：先用少量人工截取的正负样本图片，提取图片的梯度方向直方图特征作为支持向量机模型的输入，然后训练模型；第一次训练完成后，使用大量完整无裁剪的帧图进行方向盘的检测，把检测到的每一个区域截取保存下来，人工对这些保存的图片进行分类，正样本为框定方向盘右半部分且右边基本和方向盘圆弧相切的图，其余为负样本的数据，分类完成后，用分类得到的数据再对模型进行一次更加充分的训练，使得模型达到一个比较稳定的识别效果；

所述步骤2.1.3包括如下步骤：

步骤2.1.3.3：取中心点距离图像右下点最近的矩形窗口。

2.根据权利要求1所述的基于神经网络的司机异常行为检测方法,其特征在于，所述步骤1包括如下步骤：

步骤1.4：依次对帧序列中的图片进行步骤1.2、步骤1.3的处理，若超过一定数量的帧图片的结果都是速度值小于给定值，则判定该帧序列所代表的视频拍摄时车速小于给定值，应该直接返回相应结果，不进行后续的识别步骤，否则，将帧序列送入下一个识别步骤。

3.根据权利要求1所述的一种基于神经网络的司机异常行为检测方法，其特征在于：所述步骤3中的具体步骤如下：