CN112800934A

CN112800934A - 一种多类别工程车的行为识别方法及装置

Info

Publication number: CN112800934A
Application number: CN202110098578.5A
Authority: CN
Inventors: 汪霖; 李一荻; 曹世闯; 汪照阳; 胡莎; 刘成; 陈晓璇; 姜博; 李艳艳; 周延
Original assignee: Northwestern University
Current assignee: Northwestern University
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-05-14
Anticipated expiration: 2041-01-25
Also published as: CN112800934B

Abstract

本发明提供的一种多类别工程车的行为识别方法及装置，通过将所述待识别视频输入训练好的目标检测模型，以使训练好的目标检测模型对所述待识别视频进行识别，输出包含待识别视频中的工程车目标的预测框，并且工程车目标所在的预测框对应工程车目标的位置坐标以及类别，之后将预测框范围内的图像以连续帧的形式输入训练好的行为识别网络中，以使行为识别网络对待识别视频进行关键帧的提取以及工程车目标行为的识别，获得待识别视频中工程车目标的行为所属类别，该行为识别网络通过不同组特征向量在channel维度的移位来模拟时域信息，因此行为识别过程的速度大大提升，可以实时识别多个工程车的不同行为。

Description

一种多类别工程车的行为识别方法及装置

技术领域

本发明属于视频图像识别技术领域，具体涉及一种多类别工程车的行为识别方法及装置。

背景技术

在视频行为识别领域，现有的方法主要分为两类。第一类是基于视频帧图像信息的行为识别方法，如two-stream方法和三维卷积方法。two-stream方法是将光流图和视频帧送入卷积神经网络(Convolutional Neural Networks，CNN)中联合训练获得行为类别；三维卷积方法是将时间维度信息加入视频帧序列中，对序列直接做三维卷积获得行为类别。第二类方法是基于骨架的行为识别方法，该方法首先通过RGB图像进行关键节点估计，再通过循环神经网络(Recurrent Neural Network，RNN)或长短期记忆网络(Long Short-Term Memory，LSTM)进行行为预测，但该方法多适用于人体行为识别等骨架固定场景中。

现有的基于视频帧图像信息的行为识别方法，输入一段视频进行识别时，只能识别出一个对象以及该对象一个动作类别。而基于骨架的行为识别方法可以识别出多个目标，但由于其需要将固定的骨架结构编码成向量输入到网络中进行动作分类，当待识别对象的动作变动较大，该识别方法将难以识别出。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种多类别工程车的行为识别方法及装置。本发明要解决的技术问题通过以下技术方案实现：

第一方面，本发明提供的一种多类别工程车的行为识别方法包括：

获取待识别视频；

其中，待识别视频包含多帧图像，每帧图像包含多个工程车目标；

将所述待识别视频输入训练好的目标检测模型，以使训练好的目标检测模型对所述待识别视频进行识别，输出预测框；

其中，所述预测框中包含所述待识别视频中的工程车目标，工程车目标所在的预测框对应工程车目标的位置坐标以及类别，所述训练好的目标检测模型是通过获取第一训练集，所述第一训练集中包括多个第一样本，每个第一样本中的工程车目标用真实框标注出，将第一训练集进行聚类得到k个先验框，将先验框输入预设的目标检测模型中，以使所述预设的目标检测模型确定与所述真实框交并比最大的先验框，计算预测框与该先验框之间偏移量，输出一个包含目标的预测框，迭代训练所述预设的目标检测模型，直至达到第一训练截止条件；

将所述预测框范围内的图像以连续帧的形式输入训练好的行为识别网络中，以使行为识别网络对所述待识别视频进行关键帧的提取以及工程车目标行为的识别，获得所述待识别视频中工程车目标的行为所属类别；

其中，所述训练好的行为识别网络是通过获取第二训练集，所述第二训练集中包括多个第二样本，每个第二样本包括工程车目标的真实行为类别，将所述第二样本输入预设的行为识别网络中，以使所述预设的行为识别网络中每一层输出的维特征图按照输入图像的时序进行分组，使得每组之间包含的维度特征图个数差距最小，按照组的序号，将每组维度特征图进行移位，将移位后的维度特征图对应的特征向量中空位补0，迭代训练所述预设的行为识别网路，直至达到第二训练截止条件，获得训练好的行为识别网络。

可选的，所述训练好的目标检测模型通过如下步骤获得：

步骤1：获取原始图像数据；

步骤2：将所述原始数据划分为训练集，测试集以及验证集；

步骤3：对所述训练集，测试集以及验证集中的工程车目标使用真实框进行标注；

步骤4：对所述训练集使用k-means聚类算法进行聚类，得到k个先验框尺度；

其中，每一个先验框对应先验框信息，所述先验框信息包括先验框的尺度，所述尺度包括宽度以及高度；

步骤5：将所述训练集中的每个样本进行数据增强；

步骤6：将增强后的每个样本分为s×s个格子；

其中，每个格子对应多个先验框，每个格子的每个先验框预测一个置信度以及c个类别概率；

步骤7：将所述先验框信息以及所述物体中心位置坐标输入预设的目标检测模型中，以使所述预设的目标检测模型确定与所述真实框并交比最大的先验框，并基于与所述真实框并交比最大的先验框以及所述物体中心位置所在的格子的置信度，使用反向传播算法调整所述预设的目标检测模型中的参数，计算预测框与先验框之间的偏移量，输出预测框；

步骤8：基于所述预测框与真实框，计算所述预设的目标检测模型的损失函数；

步骤9：重复步骤7至步骤8直至达到第一训练截止条件；

其中，所述第一训练截止条件包括：所述预设的目标检测模型的损失函数值不再变化或者所述损失函数值低于第一阈值；

步骤10：将损失函数达到最小的预设的目标检测模型确定为训练好的目标检测模型。

可选的，所述步骤7包括：

将所述先验框信息以及所述物体中心位置坐标输入预设的目标检测模型中，以使所述预设的目标检测模型确定与所述真实框并交比最大的先验框，并基于所述基于与所述真实框并交比最大的先验框以及所述物体中心位置所在的格子的置信度，使用下述公式(1)计算预测框与先验框之前的偏移量，输出预测框；

公式(1)为：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

其中，b_x表示预测框的横坐标，b_y表示预测框的纵坐标，b_w表示预设的目标检测模型预测的预测框相对于与真实框交并比最大的先验框的宽偏移量，b_h表示预设的目标检测模型预测的预测框相对于与真实框交并比最大的先验框的高偏移量，p_w表示当前先验框宽，p_h表示当前先验框高；c_x和c_y表示中心点所处网格左上角坐标，σ(t_x)和σ(t_y)表示预测框中心点C与中心点所处网格左上角坐标的距离，t_w表示所述预设的目标检测模型预测的先验框相对于真实框的宽偏移量，t_h为所述预设的目标检测模型预测的先验框相对于真实框高偏移量，σ表示Sigmoid函数，作用是将坐标偏移量化到(0，1)区间。

其中，所述损失函数为：

loss＝lbox+lcls+lobj

其中，lbox表示预测框与真实框的位置损失，λ_coord表示位置损失的权重，S*S表示生成的网格数，B表示每个网格设置的先验框个数。

表示预测框包含物体的判断值，若包含为1，不包含为0，x_i、y_i表示真实框的坐标，w_i、h_i表示真实框的宽高值，

表示预测框的坐标，

表示预测框的坐标和宽高值；lcls表示类别损失，λ_class表示类别损失的权重，通过交叉熵损失函数

计算类别损失，p_i(c)表示预测框预测的类别c与真实类别相同的概率，相同为1，不同为0，

表示预测为类别c的概率；lobj表示置信度损失，λ_noobj表示预测框没有包含实际工程车目标的权重，λ_obj表示预测框包含了实际工程车目标的权重，

表示i，j处的预测框若没有工程车目标为1，有工程车目标为0，c_i表示预测框的置信度，

表示为预测框预测到的置信度。

可选的，所述训练好的行为识别网络通过如下步骤获得：

步骤1：获取第二数据集；

步骤2：将所述第二数据集中的每个样本依次输入预设的行为识别网络中，获得预设的行为识别网络识别出的行为类别；

步骤3：调整预设的行为识别网络的参数；

步骤4：针对每个样本，将预设的行为识别网络识别出的该样本的行为类别与该样本的真实行为类别进行比较，计算预设的行为识别网络的损失函数；

步骤5：重复步骤2至步骤4，直至所述预设的行为识别网络达到第二训练截止条件；

其中，所述第二训练截止条件包括：预设的行为识别网络的损失函数值不再变化或者损失函数值低于第二阈值；

步骤6：将达到第二训练截止条件的预设的行为识别网络确定为训练好的行为识别网络。

可选的，所述预设的行为识别网络为TSN基于时序分割网络，在该TSN网络残差层之间连接有TSM时间位移模块，每一层的TSM时间位移模块将上一层残差层输出的特征维度图，按照组的序号进行对应位置的移位，将移位后的维度特征图对应的特征向量中空位补0。

可选的，所述每一层的TSM时间位移模块将上一层残差层输出的特征维度图，按照组的序号进行对应位置的移位，将移位后的维度特征图对应的特征向量中空位补0包括：

所述每一层的TSM时间位移模块将上一层残差层输出的特征维度图按照视频帧的时序分为3组；

将第一组的维度特征图按照图像的时序向左移一位，将移位后该组特征维度图对应的特征向量空位补0；

将第二组的维度特征图按照图像的时序向右移一位，将移位后该组特征维度图对应的特征向量空位补0。

可选的，在将所述预测框以连续帧的形式输入训练好的行为识别网络中之前，所述行为识别方法还包括：

将预测框范围内的图像按照图像时序进行相等的帧间划分，并对每一个子帧段随机抽取一帧作为关键帧，堆叠所有的关键帧获得划分后的图像数据；

将所述图像数据输入至所述训练好的行为识别网络中。

可选的，所述训练好的行为识别模型输出的识别结果为：

OutPut＝{TSN₁(T₁,T₂,...T_k)，TSN₂(T₁,T₂,...T_k)，...，TSN_m(T₁,T₂,...T_k)}；

TSN(T₁,T₂,...T_k)＝H(G(F(T₁,w),F(T₂,w)...F(T_k,w)))

其中，(T₁,T₂,...T_k)表示视频关键帧序列，每个关键帧T_k从其对应的视频段S_k中随机采样得到；F(T_k,w)表示采用w作为参数的卷积网络作用于帧T_k，函数F返回T_k相对于所有类别的得分；G为段共识函数，表示结合多个T_k的类别得分输出它们之间总的类别预测值，H为softmax预测函数，用来预测整段视频属于每个行为类别的概率。

第二方面，本发明提供的一种多类别工程车的行为识别装置包括：

获取模型，用于获取待识别视频；

检测模块，用于将所述待识别视频输入训练好的目标检测模型，以使训练好的目标检测模型对所述待识别视频进行识别，输出预测框；

识别模块，用于将所述预测框范围内的图像以连续帧的形式输入训练好的行为识别网络中，以使行为识别网络对所述待识别视频进行关键帧的提取以及工程车目标行为的识别，获得所述待识别视频中工程车目标的行为所属类别；

本发明提供的一种多类别工程车的行为识别方法，通过将所述待识别视频输入训练好的目标检测模型，以使训练好的目标检测模型对所述待识别视频进行识别，输出包含所述待识别视频中的工程车目标的预测框，并且工程车目标所在的预测框对应工程车目标的位置坐标以及类别，之后将所述预测框范围内的图像以连续帧的形式输入训练好的行为识别网络中，以使行为识别网络对所述待识别视频进行关键帧的提取以及工程车目标行为的识别，获得所述待识别视频中工程车目标的行为所属类别，该训练好的行为识别网络是获取第二训练集，将第二训练集中的第二样本输入预设的行为识别网络中，以使所述预设的行为识别网络中每一层输出的维特征图按照输入图像的时序进行分组，使得每组之间包含的维度特征图个数差距最小，按照组的序号，将每组维度特征图进行移位，将移位后的维度特征图对应的特征向量中空位补0，迭代训练所述预设的行为识别网路，直至达到第二训练截止条件获得的，该行为识别网络通过不同组特征向量在channel维度的的左移和右移来模拟时域信息，因此行为识别过程的速度大大提升，可以实时识别多个工程车的不同行为。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的一种多类别工程车的行为识别方法的流程图；

图2是本发明实施例提供目标检测模型的训练流程示意图；

图3是DarkNet53网络结构的示意图；

图4是先验框与预测框偏移量的计算示意图；

图5是TSN架构的示意图；

图6是时间位移模块的***TSN架构的示意图；

图7是本发明实施例提供的一种多类别工程车的行为识别装置的结构图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

实施例一

如图1所示，本发明提供的一种多类别工程车的行为识别方法包括：

S1，获取待识别视频；

S2，将所述待识别视频输入训练好的目标检测模型，以使训练好的目标检测模型对所述待识别视频进行识别，输出预测框；

S3，将所述预测框范围内的图像以连续帧的形式输入训练好的行为识别网络中，以使行为识别网络对所述待识别视频进行关键帧的提取以及工程车目标行为的识别，获得所述待识别视频中工程车目标的行为所属类别；

实施例二

作为本发明一种可选的实施例，所述训练好的目标检测模型通过如下步骤获得：

步骤1：获取原始图像数据；

由于工程车包含不同类别，如挖掘机，渣土车，推土机等，其骨架结构和动作模式各不相同，具有推土，挖掘，倾倒等多种动作行为，因此将包含多类别工程车的视频数据作为原始数据。首先在原始视频数据中抽取多帧作为目标检测数据并划分训练集、测试集和验证集，使用标注工具对这些视频帧进行标注。为了防止过拟合，提高检测精度，在目标检测之前通过添加高斯噪声，并对数据随机进行镜像和旋转以获得数据增强效果。

步骤2：将所述原始数据划分为训练集，测试集以及验证集；

步骤5：将所述训练集中的每个样本进行数据增强；

步骤6：将增强后的每个样本分为s×s个格子；

步骤9：重复步骤7至步骤8直至达到第一训练截止条件；

其中，第一阈值可以根据实际经验预先设置。

其中，所述损失函数为：

loss＝lbox+lcls+lobj

表示预测框的坐标，

表示为预测框预测到的置信度。

参考图2，本发明实施例可以使用YOLO算法进行目标检测部分的计算，其中骨干网络采用DarkNet53，在训练集上通过聚类获得先验框尺度。先验框是从训练集所有真实标注框中聚类出来的，在训练集中最经常出现的几个形状和尺寸。预先将这些统计上的先验经验加入到模型中，有助于模型快速收敛。

在训练集上通过聚类获得先验框尺度。先验框是从训练集所有真实标注框中聚类出来的在训练集中最经常出现的几个形状和尺寸。预先将这些统计上的先验经验加入到模型中，有助于模型快速收敛。

设定预选框数量为k，利用k-means聚类算法得到最合适的k个先验框尺度值，此处的k个尺度值相对于图像的长宽均做了归一化，使得这k个框能够最大程度地表示数据集中真实物体的形状。在聚类时，评价标准为两个边框之间的距离d(box,centroid)＝1-IoU(box,centroid)。采用先验框和真实框的交并比(Intersection over Union，IoU)作为标准来衡量一组预选框的好坏。

预测先验框与真实物体的偏移量。将数据增强后的视频帧resize至416×416大小，分成s×s个格子，这里的先验框以聚类得到的不同尺度为基础进行设置，以这些先验框为基础来预测物体的位置。先验框信息(x,y,w,h)分别为物体中心位置的坐标、先验框的宽度和高度，并使这几个值对图像宽高均进行归一化。通过darknet53网络为每个格子的每一个先验框预测一个置信度(confidence score)和c个类别概率。置信度表示为

P_r(Object)表示格子是否包含真实物体中心点。若某个物体的中心位置坐标落入到某一个格子，那么这个格子的P_r(Object)为1，表示检测出该物体。

表示预测框与真实物体的交并比。

Yolo3的网络结构如图3所示，Darknet53通过给不同层添加上采样将深层和浅层的特征图进行通道拼接(Concat)操作，并在输出端融合了深浅层特征，最终输出13×13、26×26、52×52三种尺寸的特征图。深层的特征图尺寸小，感受野大，有利于检测大尺度物体，而浅层底的特征图则与之相反，更有利于检测小尺寸物体。

通过以上网络对目标检测网络进行训练，使得损失函数的损失值不断减小直到收敛，并使用测试集数据验证其功能。不断优化网络结构和参数，直到输出达到最佳为止。最终优化完成的模型即是***中负责目标检测部分的模型。将视频数据输入模型中，即得到各类别工程车的位置坐标和类别信息。

实施例三

作为本发明一种可选的实施例，所述步骤7包括：

公式(1)为：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

其中，b_x表示预测框的横坐标，b_y表示预测框的纵坐标，b_w表示预设的目标检测模型预测的预测框相对于与真实框交并比最大的先验框的宽偏移量，b_h表示预设的目标检测模型预测的预测框相对于与真实框交并比最大的先验框的高偏移量，p_w表示当前先验框宽，p_h表示当前先验框高；c_x和c_y表示中心点所处网格左上角坐标，σ(t_x)和σ(t_y)表示预测框中心点C与中心点所处网格左上角坐标的距离，t_w表示所述预设的目标检测模型预测的先验框相对于真实框的宽偏移量，t_h为所述预设的目标检测模型预测的先验框相对于真实框高偏移量，σ表示Sigmoid函数，作用是将坐标偏移量化到(0，1)区间，这样得到的预测边框中心坐标b_x,b_y限制在当前区域内，保证一个区域只预测中心点在该区域内的物体，有利于模型收敛。整个预测的过程是将先验框输入目标检测模型中，通过模型计算得到t_w、t_h、t_x、t_y的过程。

参考图4，将视频帧和先验框信息输入darknet53网络中，首先找到包含真实物体中心点的网格，再选择这个网格生成的所有先验框中与真实框IOU最大的那个，通过网络预测此先验框与真实框的偏移量，通过这些偏移值得到预测框，模型自身在内部计算最终输出预测框。

实施例四

作为本发明一种可选的实施例，所述训练好的行为识别网络通过如下步骤获得：

步骤1：获取第二数据集；

步骤3：调整预设的行为识别网络的参数；

其中，第二阈值为预先设定的数值，可以根据行业经验获得。

实施例五

作为本发明一种可选的实施例，所述预设的行为识别网络为TSN基于时序分割网络，在该TSN网络残差层之间连接有TSM时间位移模块，每一层的TSM时间位移模块将上一层残差层输出的特征维度图，按照组的序号进行对应位置的移位，将移位后的维度特征图对应的特征向量中空位补0。

参考图5，基于时序分割网络(Temporal Segment Networks，TSN)网络的行为识别。视频流数据经过目标检测模型，接着将各类工程车的位置信息以bounding box形式依次输入到行为识别网络中，采用TSN架构进行关键帧的提取和行为的识别。

实施例六

作为本发明一种可选的实施例，所述每一层的TSM时间位移模块将上一层残差层输出的特征维度图，按照组的序号进行对应位置的移位，将移位后的维度特征图对应的特征向量中空位补0包括：

由于行为识别依赖于时序建模，因此在TSN架构的基础上再添加TSM(TemporalShift Module)模块来进行时序建模。每一个时间位移模块，将网络中间层生成的batch_size×segment×channel×h×w维特征图按channel数均分为3组，通过不同组特征向量在channel维度的的左移和右移来模拟时域信息。如果移动的比例太大，空间特征建模能力会被削弱，有可能破坏原始帧的图像信息，如果移动的比例太小，会影响模型的时间建模能力，因此选择将这3组特征图分别左移一位，右移一位，不移动来模拟时域感受野，移动后为空的特征向量以0填充。这一操作在时间维度上移动了帧与帧之间的一些channel，帧间信息得到了交换，时域信息进一步融合，因此使得模型在行为识别上更加有效。

图5中的2DConvNet采用常规的图像分类网络，如ResNet50，ResNet101，BN-Inception等，本发明采用的网络为ResNet50，为50个残差网络的叠加。将TSM时间位移模块***ResNet50的每一个残差块中，***方式如图6所示。在每一个残差结构支路1上的第一层进行时间位移操作，残差块的其余结构和计算方式不变。这样既保留了支路2上的原始帧信息，又在支路1上交换了帧间信息，每一个残差块都融合了这两种信息，使得网络更适用于行为识别。连接50层这样的经过时间位移的残差块，作为行为识别网络的基础结构，最后再加入一层全连接层作分类，以此来识别多类别目标的行为。

实施例七

作为本发明一种可选的实施例，在将所述预测框以连续帧的形式输入训练好的行为识别网络中之前，所述行为识别方法还包括：

步骤1：将预测框范围内的图像按照图像时序进行相等的帧间划分，并对每一个子帧段随机抽取一帧作为关键帧，堆叠所有的关键帧获得划分后的图像数据；

步骤2：将所述图像数据输入至所述训练好的行为识别网络中。

其中，所述训练好的行为识别模型输出的识别结果为：

TSN(T₁,T₂,...T_k)＝H(G(F(T₁,w),F(T₂,w)...F(T_k,w)))

TSN是一种行为识别网络架构，其核心在于时域的分割。给定一段视频V，其中包含了m个待检测行为的对象，将这m个对象采用步骤S2中的方法进行提取后，再以连续帧的形式依次输入TSN网络中。以某一个待测工程车目标为例，将其按相等的帧间隔分为k个段{S₁,S₂,...S_k}，因此行为识别的输出结果为：

TSN(T₁,T₂,...T_k)＝H(G(F(T₁,w),F(T₂,w)...F(T_k,w)))

OutPut＝{TSN₁(T₁,T₂,...T_k)，TSN₂(T₁,T₂,...T_k)，...，TSN_m(T₁,T₂,...T_k)}

其中，(T₁,T₂,...T_k)表示视频关键帧序列，每个关键帧T_k从其对应的视频段S_k中随机采样得到；F(T_k,w)表示采用w作为参数的卷积网络作用于帧T_k，函数F返回T_k相对于所有类别的得分；G为段共识函数，表示结合多个T_k的类别得分输出它们之间总的类别预测值，一般是求其k个预测结果的最大值；H为softmax预测函数，用来预测整段视频属于每个行为类别的概率。

通过网络进行训练，优化网络结构和模型参数，使测试的各项结果达到最优，最终得到一个行为识别网络。将视频帧中各类别工程车目标输入到该网络中，最终得到各类别工程车目标的行为。

实施例八

如图7，本发明提供的一种多类别工程车的行为识别装置，包括：

获取模型71，用于获取待识别视频；

检测模块72，用于将所述待识别视频输入训练好的目标检测模型，以使训练好的目标检测模型对所述待识别视频进行识别，输出预测框；

识别模块73，用于将所述预测框范围内的图像以连续帧的形式输入训练好的行为识别网络中，以使行为识别网络对所述待识别视频进行关键帧的提取以及工程车目标行为的识别，获得所述待识别视频中工程车目标的行为所属类别；

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。