CN114255450A

CN114255450A - 一种基于前向全景图像的近场车辆加塞行为预测方法

Info

Publication number: CN114255450A
Application number: CN202210000057.6A
Authority: CN
Inventors: 吴名芝; 王峥; 刘年风; 李德信; 孙志朋
Original assignee: Nanchang Intelligent New Energy Vehicle Research Institute
Current assignee: Nanchang Intelligent New Energy Vehicle Research Institute
Priority date: 2022-01-01
Filing date: 2022-01-01
Publication date: 2022-03-29

Abstract

本发明提出的基于前向全景图像的近场车辆加塞行为预测方法，步骤如下：S101：采集真实的结构化道路场景中基于前向全景图像的图像序列信息，通过人工方法标注图像序列中车辆目标的位置以及行为信息；S102：构建适用于结构化道路中近场车辆检测与跟踪的深度卷积神经网络；S103：构建适用于结构化道路中近场车辆加塞行为预测的循环神经网络及相应的损失函数；S104：将采集到的图像序列信息和标注数据输入到步骤S103构建的近场车辆加塞行为预测的循环神经网络中，根据输出值与目标值之间的损失值对神经网络中的参数值进行更新，最后得到理想的目标检测网络参数；使智能汽车提升了对近场车辆实时行为的预测，对近场车辆加塞行为及时反应，提高安全性。

Description

一种基于前向全景图像的近场车辆加塞行为预测方法

技术领域

本发明属于智能驾驶技术领域，特别是涉及一种基于前向全景图像的近场车辆加塞行为预测方法。

背景技术

行为预测属于基于行为识别的进一步发展，而作为计算机视觉领域的基本任务之一，近些年随着深度学习技术的发展，行为预测算法也从基于手工特征的传统算法转向了基于深度神经网络的预测技术。行为识别与预测的方法从最初的基于物理运动特征的方法发展到基于视觉视频输入的SlowFast网络、基于双模态输入动作识别网络TSN以及基于膨胀三维卷积（I3D）的3D卷积神经网络，涌现出许多好的算法技术，这些算法在开放的人类行为识别数据集上的检测效果和性能都很出色，但是针对近场车辆加塞行为预测任务，在实际应用中存在以下缺点：

其一，现有的公开数据集中，缺少针对近场车辆加塞行为预测的自车辆（EgoVehicle）视角数据集，与目标检测数据集相比，在数据的采集、标注中存在很多困难，限制了该技术的进一步发展；

其二，双模态输入技术中，光流属于手工制作特征，与RGB输入分别训练，不能实现端到端的训练，***的准确率也有待提高，同时复杂的算法降低***运行的实时性；

其三，基于LiDAR的方法硬件成本和使用维护成本较高，同时目前缺少以前向全景图像视频为输入的自车辆（Ego Vehicle）视角行为预测方法。

发明内容

针对现有技术的上述不足，本发明的目的在于提供一种基于深度学习的近场车辆加塞行为预测方法，为实现上述目的，本发明采用的技术方案如下：一种基于深度学习的近场车辆加塞行为预测方法，包括如下步骤：

S101：采集真实的结构化道路场景中基于前向全景图像的图像序列信息，通过人工方法标注图像序列中车辆目标的位置以及行为信息；

S102：构建适用于结构化道路中近场车辆检测与跟踪的深度卷积神经网络；

S103：构建适用于结构化道路中近场车辆加塞行为预测的循环神经网络及相应的损失函数；

S104：将采集到的图像序列信息和标注数据输入到步骤S103构建的近场车辆加塞行为预测的循环神经网络中，根据输出值与目标值之间的损失值对神经网络中的参数值进行更新，最后得到理想的目标检测网络参数。

进一步地，在步骤S101中，图像序列信息的采集与标注步骤如下：

S201：对摄像头的内外参进行标定，其中外参包括旋转矩阵R和平移向量T，内参包括内参矩阵K，以及相机畸变系数；

S202：利用装有摄像头的数据采集车，在真实道路场景中采集视频数据，并记录采集时图像内车辆目标的类别；

S203：利用标注工具对采集到的视频数据进行标注，标注方式包含但不限于车辆目标类跟踪ID标注、车辆目标类别标注、目标物体边界框标注、车辆加塞开始、车辆越过车道线中点以及车辆完成加塞行为的关键帧标注、车辆加塞行为类别标注，标注内容最少需要包含近场车辆的位置、关键帧以及加塞行为类别信息，可以进行拓展，增加可行驶区域、道路边界的信息。

进一步地，步骤S102的步骤如下：

S301：构建基于改进的Yolov5的近场车辆目标检测网络，将输入的视频切片为图像时间序列，经过多层卷积与下采样操作，对输入的图像信息进行特征提取与特征编码，得到将图片划分好的多维特征张量；

S302：构建分类网络，采用非极大抑制操作，最终得到各个目标的位置信息与分类置信度信息，包括对象的分类概率和定位概率；

S303：构建基于改进的Deep-SORT的近场车辆目标跟踪网络，将目标检测得到的目标物体边界框信息以及分类信息作为输入，对视频中多个对象同时定位与追踪并记录ID和轨迹信息，尤其是在有遮挡的条件下减少对象ID的变换，输出目标车辆的跟踪ID、目标类别以及目标物体边界框信息。

进一步地，步骤S103的步骤如下：

S401：构建基于门控循环网络的加塞行为时序特征提取网络，由门控循环网络单元组成，用于将检测并跟踪到的近场车辆目标物体边界框时序向量进行编码，得到对应的时序特征信息；

S402：将隐状态

输入分类器网络，用于将时序特征进行分类，经过Softmax输出加塞行为分类概率，得到近场车辆加塞行为的预测与概率结果；

S403：将每一帧得到的加塞行为分类概率平均化，采用交叉熵损失函数（Cross-Entropy）作为损失函数，计算近场车辆加塞行为分类损失；

S404：构建基于Focal Loss的适用于行为类别不平衡的行为类别损失函数，用于计算网络输出的加塞行为的预测损失，并能抑制样本中加塞行为与车道保持行为的比例的不平衡所造成的影响。

进一步地，步骤S104中，训练神经网络步骤如下：

S501：将采集到的图像序列进行数据预处理，包括：将图像进行随机的水平翻转、裁剪并统一缩放到固定的尺寸，标注数据也进行相应的翻转、裁剪和缩放，在此基础上对得到的图像按通道进行归一化处理；

S502：将标注数据中的目标物体边界框数据进行归一化处理，得到边界框时序向量信息；

S503：将边界框时序向量与标注数据一同输入步骤S103中建立的基于GRU的加塞行为预测神经网络，利用基于Focal Loss的改进的损失函数计算出预测加塞行为分类与真实行为分类的损失值，进行网络参数更新，迭代后得到理想的网络参数。

进一步地，步骤S203记录的车辆目标ID是唯一的；

进一步地，步骤S303中的Deep-SORT网络中的ReID模块经过了经过重新分类处理的新的车辆重识别数据集Compcars训练；

进一步地，步骤S401中的序列长度有三种选择，分别为20、25和30；

所述步骤S401输出的隐状态为512维向量；

所述步骤S402构建的分类器为两层全连接网络，包括256维中间层和3维输出层，并通过激活函数增强非线性拟合能力；

所述步骤S404中，损失函数的计算公式为：

其中，

是被预测行为对应的正确行为的输出概率，经过Softmax得到的结果，γ 与α是控制每一类行为，减少样本不均衡的超参数。

进一步地，步骤S501所中输出的图像序列，图像尺寸为224×224像素。

本发明能够以一段时间内车载高清相机提供的前向全景图像视频数据作为输入，利用基于图像输入的目标检测跟踪算法得到自车辆（Ego Vehicle）视角下的前向目标车辆感兴趣区域的感知和跟踪，再对感兴趣区域序列进行行为预测，在保证推理速度的前提下，充分利用临近车辆目标检测跟踪算法得到的时序信息，大大降低了实际部署的软硬件成本，最终得到对临近车辆加塞行为较为准确的预测，为智能驾驶***规避风险提供了充足的时间，提升了智能驾驶***整体的安全性。

由于采用上述方案，本发明的有益效果是：

（1）本发明中首先抽取变道行为的视频片段与目标的边界框（Bounding Boxes）信息，筛选出符合前文定义的临近车辆加塞行为的数据集合，最终建立起包含标注与视频数据的PREVE NTION-Cut-In数据集；

（2）本发明中凭借大的视场、高分辨率获得前向视角图像，包含目标的外观特征以及目标之间的依赖关系，开发了临近车辆检测与跟踪模型和加塞行为预测算法。其中的目标检测模块基于目前最新的One-Stage目标检测算法Yolov5深度改进，在保持一定的检测准确度的基础上有着较高的检测速度；

（3）本发明中在输出目标的边界框和类别信息之后，采用Deep-SORT多目标跟踪算法，得到与每个目标ID对应的感兴趣帧序列，考虑到传统的双模态输入网络对***的计算资源要求较高，为保证算法的实时性，不采用光流作为时域特征的抽取，而是采用目标序列作为时空特征输入；

（4）本发明中在加塞行为预测模块，从加塞行为的特征信息出发，基于目标跟踪模块输出的目标时空特征序列信息，提出一种基于门控循环网络（GRU）的可解释的临近物体加塞行为预测方法。

附图说明

图 1为本发明的行为预测深度卷积网络结构示意图。

图 2为本发明中目标检测网络的结构示意图。

图 3为本发明中行为预测网络的结构示意图。

图 4为本发明中的基于行为预测深度卷积网络的识别车辆开始加塞行为的实验结果图。

图 5为本发明中的基于行为预测深度卷积网络的识别车辆结束加塞行为的实验结果图。

具体实施方式

以下结合附图所示实施例对本发明作进一步的说明。

本发明行为预测方法主要步骤包括采集真实的结构化道路场景中基于前向全景图像的图像序列信息，通过人工方法标注图像序列中车辆目标的位置以及行为信息；构建适用于结构化道路中近场车辆检测与跟踪的深度卷积神经网络；构建适用于结构化道路中近场车辆加塞行为预测的循环神经网络及相应的损失函数；将采集到的图像序列信息和标注数据输入到构建的近场车辆加塞行为预测的循环神经网络中，根据输出值与目标值之间的损失值对神经网络中的参数值进行更新，最后得到理想的目标检测网络参数。本发明针对目前的神经网络对车辆加塞行为预测不佳的问题提出全新的网络结构，在移动端计算能力有限的前提下大大提升对近场车辆实时行为预测的性能，能方便地部署在现有的智能驾驶***中，使智能驾驶汽车能对近场车辆加塞行为及时地做出反应，提高行驶过程中的安全性。

一种基于深度学习的近场车辆加塞行为预测方法，包括如下步骤：

详细的网络结构图如图 1所示。

优选地，在步骤S101中，图像序列信息的采集与标注步骤如下：

优选地，步骤S102的步骤如下：

S301：构建基于改进的Yolov5的近场车辆目标检测网络，将输入的视频切片为图像时间序列，经过多层卷积与下采样操作，对输入的图像信息进行特征提取与特征编码，得到将图片划分好的多维特征张量；此部分的整个网络结构如图 2所示，由Backbone、FPN、PAN等结构组成。

优选地，步骤S103的步骤如下：

S402：将隐状态

优选地，步骤S104中，训练神经网络步骤如下：

S503：将边界框时序向量与标注数据一同输入步骤S103中建立的基于GRU的加塞行为预测神经网络，网络结构如图 3所示。该网络利用基于Focal Loss的改进的损失函数计算出预测加塞行为分类与真实行为分类的损失值进行反向传播计算梯度，并使用Adam优化器更新网络参数，得到最终结果进行网络参数更新，迭代后得到理想的网络参数。最终的实验效果如图 4和图 5所示，从中可以看出，本发明提出的网络分别成功的预测出图 4中的临近车辆加塞的行为并预警与图 5中加塞完成之后的预警解除。

优选地，步骤S203记录的车辆目标ID是唯一的；

优选地，步骤S303中的Deep-SORT网络中的ReID模块经过了经过重新分类处理的新的车辆重识别数据集Compcars训练；

优选地，步骤S401中的序列长度有三种选择，分别为20、25和30；

所述步骤S401输出的隐状态为512维向量；

所述步骤S404中，损失函数的计算公式为：

其中，

熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于这里的实施例，本领域技术人员根据本发明的揭示，不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于前向全景图像的近场车辆加塞行为预测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于前向全景图像的近场车辆加塞行为预测方法，其特征在于，在步骤S101中，图像序列信息的采集与标注步骤如下：

S203：利用标注工具对采集到的视频数据进行标注，标注方式包含但不限于车辆目标类跟踪ID标注、车辆目标类别标注、目标物体边界框标注、车辆加塞开始、车辆越过车道线中点以及车辆完成加塞行为的关键帧标注、车辆加塞行为类别标注，标注内容最少需要包含近场车辆的位置、关键帧以及加塞行为类别信息，并能进行拓展，增加可行驶区域、道路边界的信息。

3.根据权利要求1所述的基于前向全景图像的近场车辆加塞行为预测方法，其特征在于，所述步骤S102的步骤如下：

4.根据权利要求1所述的基于前向全景图像的近场车辆加塞行为预测方法，其特征在于，所述步骤S103的步骤如下：

S402：将隐状态

5.根据权利要求1所述的基于前向全景图像的近场车辆加塞行为预测方法，其特征在于，所述步骤S104中，训练神经网络步骤如下：

6.根据权利要求2所述的基于前向全景图像的近场车辆加塞行为预测方法，其特征在于：所述步骤S203记录的车辆目标ID是唯一的。

7.根据权利要求3所述的基于前向全景图像的近场车辆加塞行为预测方法，其特征在于：所述步骤S303中的Deep-SORT网络中的ReID模块经过了经过重新分类处理的新的车辆重识别数据集Compcars训练。

8.根据权利要求4所述的基于前向全景图像的近场车辆加塞行为预测方法，其特征在于：所述步骤S401中的序列长度有三种选择，分别为20、25和30；

所述步骤S401输出的隐状态为512维向量；

所述步骤S404中，损失函数的计算公式为：

其中，

是被预测行为对应的正确行为的输出概率，经过Softmax得到的结果，γ与α是控制每一类行为，减少样本不均衡的超参数。

9.根据权利要求5所述的基于前向全景图像的近场车辆加塞行为预测方法，其特征在于：所述步骤S501所中输出的图像序列，图像尺寸为224×224像素。