CN112668473A

CN112668473A - 基于多特征深度融合神经网络的车辆状态准确感知方法

Info

Publication number: CN112668473A
Application number: CN202011583142.7A
Authority: CN
Inventors: 徐启敏; 常彬; 李旭
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-16
Anticipated expiration: 2040-12-28
Also published as: CN112668473B

Abstract

本发明公开了一种基于多特征深度融合神经网络的车辆状态准确感知方法，该方法首先建立并行深度卷积‑递归神经网络架构，包括使用并行卷积神经网络分别提取输入张量中的旋转和平移几何特征，使用递归神经网络学***衡的均方误差迭代法优化网络参数；最终使用训练好的网络估计车辆的三维速度和三维角速度信息。该方法仅使用单目相机，具有成本低的特点；所设计的网络泛化性能好，车辆状态参数感知准确。

Description

基于多特征深度融合神经网络的车辆状态准确感知方法

技术领域

本发明涉及一种基于单目相机的车辆状态感知方法，尤其涉及一种基于多特征深度融合神经网络的车辆状态准确感知方法，属于车辆状态感知领域。

背景技术

汽车产业在我国国民经济发展中有着战略性、支柱性地位，目前我国汽车产业规模稳居世界首位，是名副其实的汽车产业大国。随着新一轮科技革命的到来，汽车的智能化发展已经成为汽车产业发展的必然趋势。智能汽车的发展可以有效解决当前社会所面临的交通安全、道路拥堵、能源消耗和环境污染等问题,对于不断满足人民日益增长的美好生活需要意义重大。车辆状态信息的准确获取在智能汽车的复杂环境感知、智能决策控制、信息安全、测试评价等技术领域起着基础性和关键性作用。

目前，车辆状态感知公开的方法主要涉及以下两个方面：

一是使用惯性传感器来直接测量车辆状态信息，包括车辆角速度、姿态角、速度、加速度等，但是测量精度受惯性传感器性能影响，高精度惯性传感器往往价格昂贵，无法进行大范围的推广应用，而低精度惯性传感器误差较大，误差累积尤其严重，影响使用效果。

二是利用视觉传感器进行车辆状态感知，机器人领域中的即时定位与地图构建(SLAM)技术可以估计载体的运动状态，随着车载摄像机的普及，此项技术也被移植应用到车辆领域，由于交通场景中道路在图像中所占比重较多，但其纹理单一，不利于提取特征点，使用SLAM技术进行车辆状态感知时容易出现较大误差。

深度学***移几何特征，然后使用递归神经网络学习所提取特征之间的动态关系和时间相关特性。本发明提出的方法通过充分提取图像中的有效信息来感知车辆的多维状态，即车辆的三维速度和三维角速度信息，弥补了传统计算机视觉方法感知精度较低的不足，并且具有良好的泛化性。

发明内容

本发明的目的是提出一种基于多特征深度融合神经网络的车辆状态准确感知方法，该方法仅使用单目相机，设计考虑多种车辆运动状态特征的深度网络架构，从而感知出车辆速度和角速度等多维状态信息，具有精度高、成本低、泛化性能好的特点。

本发明采用的技术方案如下：一种基于多特征深度融合神经网络的车辆状态准确感知方法，其特征在于：本发明首先使用并行卷积神经网络分别提取输入张量中的旋转和平移几何特征，然后使用递归神经网络学习所提取特征之间的动态关系和时间相关特性，最终估计出车辆的三维速度(纵向车速v_x，横向车速v_y，垂向车速v_z)、三维角速度(侧倾角速度ω_x，俯仰角速度ω_y，横摆角速度ω_z)。

具体包括以下步骤：

步骤一：确定网络输入输出，建立训练数据集

汽车状态信息的变化是连续的，因此用深度神经网络进行车辆状态感知时的输入量应为相机捕获的图像序列。为了使图像中的特征足够多且能够识别，需在非空旷环境(如城市道路、山区道路)通过单目相机获取车辆运动时的序列图像，然后对单目相机获取的RGB图像序列进行标注，即标注图像采集时刻对应的车辆状态信息。本发明中也可以使用已有的数据样本，如KITTI数据集。

为了简化输入网络的数据同时保证不会丢失图像中的关键特征信息，在每帧图像数据上减去训练集的平均RGB值，然后将图像维数重新调整为64的倍数以适应网络结构。本发明中训练集的图像维数统一调整为1280×384×3，然后把连续两帧图像堆叠在一起形成一个张量送入深度神经网络，即输入量的维数为1280×384×6。对图像序列的预处理可以保证在不丢失有效信息的同时减少网络处理的数据量，从而节省训练时间。网络的输出即为所需感知的车辆三维速度和三维角速度信息。将同一时刻的输入量和输出量对应起来，即形成训练数据集，记为D_T。

步骤二：设计并行深度卷积-递归神经网络架构

卷积神经网络具有强大的图像特征提取能力，可以直接将图像像素信息作为输入，通过卷积操作进行高级特征抽象。而递归神经网络对序列数据有很好的处理和预测能力，包括时间序列和空间序列。本发明中需要使用卷积神经网络进行图像特征提取，同时也需要递归神经网络处理车辆运动状态的时间相关特性，因此设计“并行深度卷积-递归”神经网络架构用于感知车辆多维状态信息。

车辆在空间中的运动可以分解为平移和旋转两部分，因此该架构包含并行的旋转敏感模块与平移敏感模块。对于每一帧输入张量，旋转敏感模块提取车辆的旋转特征信息，平移敏感模块提取车辆平移特征信息。通过深度卷积神经网络学习到的特征可以将原始的高维RGB图像压缩成一种紧凑的信息描述，提高连续序列训练的效率。接着，并行深度卷积提取的特征信息被送入递归神经网络模块中，以学习连续帧特征之间的时间相关特征，进而准确感知车辆状态信息。并行深度卷积-递归神经网络架构的优点是可以通过卷积神经网络和递归神经网络的结合，同时进行多种车辆运动状态特征的学习。具体包括以下子步骤：

子步骤1：设计用于提取车辆平移特征信息的平移敏感模块

为了准确地提取输入张量中的车辆平移特征，设计了平移敏感模块，其由感受野逐级递减的6层卷积层组成，每一层的感受野的尺寸为F_T×F_T，F_T的值分别为7、5、5、3、 3、3。为了使每一层卷积神经网络适应感受野的构型，同时保持卷积后张量的空间维度以减少特征丢失，对每一层卷积层引入零填充。零填充大小为P_T，其中每一层对应的P_T分别为3、2、2、1、1、1。随着卷积层数的增加，该层用于特征提取的滤波器的数量，即通道数量也增加，对应的通道数C_T分别为64、128、256、512、512、1024。每一层卷积层均用修正线性单元作为激活函数，修正线性单元的非饱和形式能够缓解卷积层过多而导致的梯度消失问题。平移敏感模块的具体结构表述如下：

卷积层1_1：使用7×7的感受野与1280×384×6的输入张量做卷积，步长为2，零填充大小为3，再经过修正线性单元激活，得到维度为640×192×64的特征图；

卷积层1_2：使用5×5的感受野与卷积层1_1输出的特征图做卷积，步长为2，零填充大小为2，再经过修正线性单元激活，得到维度为320×96×128的特征图；

卷积层1_3：使用5×5的感受野与卷积层1_2输出的特征图做卷积，步长为2，零填充大小为2，再经过修正线性单元激活，得到维度为160×48×256的特征图；

卷积层1_4：使用3×3的感受野与卷积层1_3输出的特征图做卷积，步长为2，零填充大小为1，再经过修正线性单元激活，得到维度为80×24×512的特征图；

卷积层1_5：使用3×3的感受野与卷积层1_4输出的特征图做卷积，步长为2，零填充大小为1，再经过修正线性单元激活，得到维度为40×12×512的特征图；

卷积层1_6：使用3×3的感受野与卷积层1_5输出的特征图做卷积，步长为2，零填充大小为1，得到维度为20×6×1024的特征图。

子步骤2：设计用于提取车辆旋转特征信息的旋转敏感模块

为了准确地提取输入张量中的车辆旋转特征，设计了旋转敏感模块，其包含5个卷积层，每一层的感受野尺寸为n_f×n_f，n_f的值分别为7、5、3、3、3；同样采用零填充使每一层卷积神经网络适应感受野的构型；每一层卷积层的通道数C_R分别为64、128、26、512、1024，使用修正线性单元作为激活函数；为了更好地提取图像旋转特征，采取最大池化操作，池化层数量n_P为1，采样尺寸为2×2，步长为2。转敏感模块的具体结构表述如下：

卷积层2_1:使用7×7的感受野与1280×384×6的输入样本做卷积，步长为4，卷积层通道数为64，再经过修正线性单元激活，得到维度为320×96×64的特征图；

卷积层2_2：使用5×5的感受野与卷积层2_1输出的特征图做卷积，步长为2，卷积层通道数为128，再经过修正线性单元激活，得到维度为160×48×128的特征图；

池化层：使用2×2的核对卷积层2_2输出的特征图做最大池化，得到维度为160×48×256的特征图；

卷积层2_3：使用3×3的感受野与池化层输出的特征图做卷积，步长为2，卷积层通道数为256，再经过修正线性单元激活，得到维度为80×24×256的特征图；

卷积层2_4：使用3×3的感受野与卷积层2_3输出的特征图做卷积，步长为2，卷积层通道数为512，再经过修正线性单元激活，得到维度为40×12×512的特征图；

卷积层2_5：使用3×3的感受野与卷积层2_4输出的特征图做卷积，步长为2，卷积层通道数为1024，再经过修正线性单元激活，得到维度为20×6×1024的特征图。

子步骤3：设计用于提取车辆运动状态时间相关特征的递归神经网络模块

车辆的运动过程除了空间的平移和旋转，还具有时间相关特征。递归神经网络适合处理序列化数据，不适合处理图像等高维原始数据。因此，本发明将并行深度卷积网络提取的特征(即平移敏感模块和旋转敏感模块所提取特征的联合)作为递归神经网络的输入。长短期记忆网络能够处理深层次的时间和动态关系，因此本发明中的递归神经网络通过级联两个长短期记忆网络层来构建，每个长短期记忆网络层有1000个隐藏状态。递归神经网络根据并行深度卷积网络提取的每一帧张量特征估计出6维车辆状态信息，包括车辆的三维速度(v_x,v_y,v_z)、三维角速度(ω_x,ω_y,ω_z)。递归神经网络模块的具体结构表述如下：

长短期记忆网络层1：使用1000个隐藏状态、并行深度卷积网络输出的特征图和上一帧输出的车辆状态进行学习，得到当前帧的状态输出；

长短期记忆网络层2：使用1000个隐藏状态、长短期记忆网络层1输出的车辆状态和上一帧输出的车辆状态进行学习，输出6维车辆状态信息。

步骤三：采用基于权重平衡的均方误差迭代法优化网络参数

并行深度卷积-递归神经网络的优化目标是t时刻之前的车辆状态参数在图像序列条件下的概率，即

p(Y_t|X_t)＝p(y₁,...,y_t|x₁,...,x_t) (4)

式(1)中，Y_t＝(y₁,...,y_t)为给定时刻t之前的所有车辆状态参数，X_t＝(x₁,...,x_t)为给定时刻t之前的图像序列。

为了获得最优的车辆状态参数估计，应使式(1)的条件概率最大化，引入参数：

k时刻车辆状态的真实值为Y_k＝[v_k,ω_k]，通过网络计算得到的估计值为

使用权重平衡后的所有时刻车辆状态均方误差来更新超参θ，使θ^*最大化，进而使输出的估计值达到最优，即最接近真实值，该过程为：

式(3)中v_k＝[v_x v_y v_z]_k为k时刻车辆的三维速度，ω_k＝[ω_x ω_y ω_z]_k为k时刻车辆的三维角速度；||·||是车辆状态参数的二范数；ρ₁、ρ₂分别为比例因子，用来平衡车辆的速度和角速度状态量所占的权重，该参数需要在网络训练过程中根据训练效果进行手动调整。

当网络参数优化算法以后，使用训练数据集样本对所设计的并行深度卷积-递归神经网络进行训练。为了提高训练结果的准确性与网络的泛化性，正式训练前先对网络进行预训练，然后对预训练得到的参数进行微调，具体包括以下子步骤：

子步骤1：选择图像序列数据集对网络进行预训练

选择小样本量的单目相机采集的车辆运动过程图像序列数据或KITTI数据集，并按步骤一的方法调整图像，把处理后的数据集记为D_p。然后使用D_p进行网络预训练，设置最大迭代次数为I_p、学习率为α_p、权重设置为λ_p、比例因子设置为ρ_P1、ρ_p2，保存预训练得到的网络参数；

子步骤2：使用建立的训练数据集对网络参数进行微调

使用步骤一中建立的数据集D_T对步骤三子步骤1中预训练得到的网络参数进行微调，设置最大迭代次数为I_T、学习率为α_T、权重设置为λ_T、比例因子设置为ρ_T1、ρ_T2，然后根据训练损失曲线和验证损失曲线的变化情况调整网络参数，直到网络参数最优，即式(3)达到最大值。

步骤四：使用训练好的网络进行车辆状态参数感知

将单目相机获取的车辆运动过程图像序列按照步骤一的方法进行预处理后，作为输入量送到训练好的并行深度卷积-递归神经网络中，即可得到6维车辆状态信息，包括车辆的三维速度和三维角速度。

本发明的优点及显著效果：

本发明所提出的车辆状态感知方法仅使用单目相机，具有成本低的优势；所提出的并行深度卷积-递归神经网络架构充分考虑了车辆运动过程中的多种特征，包括车辆的平移运动特征、旋转运动特征以及运动状态的时间相关特征，所估计的车辆状态信息维数多、泛化性能好、准确性高。

附图说明

图1是基于多特征深度融合神经网络的车辆状态准确感知方法流程图；

图2是并行深度卷积-递归神经网络架构图；

图3是网络参数迭代优化流程图。

具体实施方式

目前，车辆状态感知公开的方法主要涉及以下两个方面：

本发明采用的技术方案如下：一种基于多特征深度融合神经网络的车辆状态准确感知方法，其特征在于：本发明首先使用并行卷积神经网络分别提取输入张量中的旋转和平移几何特征，然后使用递归神经网络学习所提取特征之间的动态关系和时间相关特性，最终估计出车辆的三维速度(纵向车速v_x，横向车速v_y，垂向车速v_z)、三维角速度(侧倾角速度ω_x，俯仰角速度ω_y，横摆角速度ω_z)。本发明方法的流程如图1所示，具体包括以下步骤：

步骤一：确定网络输入输出，建立训练数据集

步骤二：设计并行深度卷积-递归神经网络架构

车辆在空间中的运动可以分解为平移和旋转两部分，因此该架构包含并行的旋转敏感模块与平移敏感模块。对于每一帧输入张量，旋转敏感模块提取车辆的旋转特征信息，平移敏感模块提取车辆平移特征信息。通过深度卷积神经网络学习到的特征可以将原始的高维RGB图像压缩成一种紧凑的信息描述，提高连续序列训练的效率。接着，并行深度卷积提取的特征信息被送入递归神经网络模块中，以学习连续帧特征之间的时间相关特征，进而准确感知车辆状态信息。并行深度卷积-递归神经网络架构的优点是可以通过卷积神经网络和递归神经网络的结合，同时进行多种车辆运动状态特征的学习。所设计的网络架构如图2所示，具体包括以下子步骤：

子步骤1：设计用于提取车辆平移特征信息的平移敏感模块

为了准确地提取输入张量中的车辆平移特征，设计了平移敏感模块，其由感受野逐级递减的6层卷积层组成，每一层的感受野的尺寸为F_T×F_T，F_T的值分别为7、5、5、3、 3、3。为了使每一层卷积神经网络适应感受野的构型，同时保持卷积后张量的空间维度以减少特征丢失，对每一层卷积层引入零填充，零填充大小为P_T，其中每一层对应的P_T分别为3、2、2、1、1、1。随着卷积层数的增加，该层用于特征提取的滤波器的数量，即通道数量也增加，对应的通道数C_T分别为64、128、256、512、512、1024。每一层卷积层均用修正线性单元作为激活函数，修正线性单元的非饱和形式能够缓解卷积层过多而导致的梯度消失问题。平移敏感模块的具体结构表述如下：

子步骤2：设计用于提取车辆旋转特征信息的旋转敏感模块

为了准确地提取输入张量中的车辆旋转特征，设计了旋转敏感模块，其包含5个卷积层，每一层的感受野尺寸为n_f×n_f，n_f的值分别为7、5、3、3、3；同样采用零填充使每一层卷积神经网络适应感受野的构型；每一层卷积层的通道数C_R分别为64、128、26、 512、1024，使用修正线性单元作为激活函数；为了更好地提取图像旋转特征，采取最大池化操作，池化层数量n_P为1，采样尺寸为2×2，步长为2。转敏感模块的具体结构表述如下：

步骤三：采用基于权重平衡的均方误差迭代法优化网络参数

p(Y_t|X_t)＝p(y₁,...,y_t|x₁,...,x_t) (7)

当网络参数优化算法以后，使用训练数据集样本对所设计的并行深度卷积-递归神经网络进行训练。为了提高训练结果的准确性与网络的泛化性，正式训练前先对网络进行预训练，然后对预训练得到的参数进行微调，训练流程如图3所示，具体包括以下子步骤：

子步骤1：选择图像序列数据集对网络进行预训练

子步骤2：使用建立的训练数据集对网络参数进行微调

步骤四：使用训练好的网络进行车辆状态参数感知

Claims

1.一种基于多特征深度融合神经网络的车辆状态准确感知方法，其特征在于：首先使用并行卷积神经网络分别提取输入张量中的旋转和平移几何特征，然后使用递归神经网络学习所提取特征之间的动态关系和时间相关特性，最终估计出车辆的三维速度、三维角速度信息，其中，三维速度包括纵向车速v_x、横向车速v_y、垂向车速v_z，三维角速度包括侧倾角速度ω_x、俯仰角速度ω_y、横摆角速度ω_z，具体包括以下步骤：

步骤一：确定网络输入输出，建立训练数据集

在非空旷环境通过单目相机获取车辆运动时的序列图像，然后对单目相机获取的RGB图像序列进行标注，即标注图像采集时刻对应的车辆状态信息；

在每帧图像数据上减去训练集的平均RGB值，然后将图像维数重新调整为1280×384×3，并把连续两帧图像堆叠在一起形成一个张量送入深度神经网络，即输入量的维数为1280×384×6，网络的输出即为所需感知的车辆三维速度和三维角速度信息，将同一时刻的输入量和输出量对应起来，即形成训练数据集，记为D_T；

步骤二：设计并行深度卷积-递归神经网络架构

首先，将车辆在空间中的运动分解为平移和旋转两部分，该架构包含并行的旋转敏感模块与平移敏感模块，对于每一帧输入张量，旋转敏感模块提取车辆的旋转特征信息，平移敏感模块提取车辆平移特征信息，通过深度卷积神经网络学习到的特征将原始的高维RGB图像压缩成一种紧凑的信息描述，提高连续序列训练的效率；接着，并行深度卷积提取的特征信息被送入递归神经网络模块中，以学习连续帧特征之间的时间相关特征，进而准确感知车辆状态信息，具体包括以下子步骤：

子步骤1：设计用于提取车辆平移特征信息的平移敏感模块

平移敏感模块由感受野逐级递减的6层卷积层组成，每一层的感受野的尺寸为F_T×F_T，F_T的值分别为7、5、5、3、3、3；为了使每一层卷积神经网络适应感受野的构型，同时保持卷积后张量的空间维度以减少特征丢失，对每一层卷积层引入零填充，零填充大小为P_T，其中每一层对应的P_T分别为3、2、2、1、1、1；随着卷积层数的增加，该层用于特征提取的滤波器的数量，即通道数量也相应增加，对应的通道数C_T分别为64、128、256、512、512、1024；每一层卷积层均用修正线性单元作为激活函数，平移敏感模块的具体结构表述如下：

卷积层1_6：使用3×3的感受野与卷积层1_5输出的特征图做卷积，步长为2，零填充大小为1，得到维度为20×6×1024的特征图；

子步骤2：设计用于提取车辆旋转特征信息的旋转敏感模块

旋转敏感模块包含5个卷积层，每一层的感受野尺寸为n_f×n_f，n_f的值分别为7、5、3、3、3；同样采用零填充使每一层卷积神经网络适应感受野的构型；每一层卷积层的通道数C_R分别为64、128、26、512、1024，使用修正线性单元作为激活函数；池化层数量n_P为1，采样尺寸为2×2，步长为2，转敏感模块的具体结构表述如下：

卷积层2_1：使用7×7的感受野与1280×384×6的输入样本做卷积，步长为4，卷积层通道数为64，再经过修正线性单元激活，得到维度为320×96×64的特征图；

卷积层2_5：使用3×3的感受野与卷积层2_4输出的特征图做卷积，步长为2，卷积层通道数为1024，再经过修正线性单元激活，得到维度为20×6×1024的特征图；

将并行深度卷积网络提取的特征作为递归神经网络的输入，其中，并行深度卷积网络提取的特征为平移敏感模块和旋转敏感模块所提取特征的联合，递归神经网络通过级联两个长短期记忆网络层来构建，每个长短期记忆网络层有1000个隐藏状态；递归神经网络根据并行深度卷积网络提取的每一帧张量特征估计出6维车辆状态信息，包括车辆的三维速度、三维角速度，递归神经网络模块的具体结构表述如下：

长短期记忆网络层2：使用1000个隐藏状态、长短期记忆网络层1输出的车辆状态和上一帧输出的车辆状态进行学习，输出6维车辆状态信息；

步骤三：采用基于权重平衡的均方误差迭代法优化网络参数

p(Y_t|X_t)＝p(y₁,...,y_t|x₁,...,x_t) (1)

式(1)中，Y_t＝(y₁,...,y_t)为给定时刻t之前的所有车辆状态参数，X_t＝(x₁,...,x_t)为给定时刻t之前的图像序列；

式(3)中v_k＝[v_x v_y v_z]_k为k时刻车辆的三维速度，ω_k＝[ω_x ω_y ω_z]_k为k时刻车辆的三维角速度；||·||是车辆状态参数的二范数；ρ₁、ρ₂分别为比例因子，用来平衡车辆的速度和角速度状态量所占的权重，该参数需要在网络训练过程中根据训练效果进行手动调整；

为了提高训练结果的准确性与网络的泛化性，正式训练前先对网络进行预训练，然后对预训练得到的参数进行微调，具体包括以下子步骤：

子步骤1：选择图像序列数据集对网络进行预训练

选择小样本量的单目相机采集的车辆运动过程图像序列数据或KITTI数据集，并按步骤一的方法调整图像，把处理后的数据集记为D_p；然后使用D_p进行网络预训练，设置最大迭代次数为I_p、学习率为α_p、权重设置为λ_p、比例因子设置为ρ_P1、ρ_p2，保存预训练得到的网络参数；

子步骤2：使用建立的训练数据集对网络参数进行微调

使用步骤一中建立的数据集D_T对步骤三子步骤1中预训练得到的网络参数进行微调，设置最大迭代次数为I_T、学习率为α_T、权重设置为λ_T、比例因子设置为ρ_T1、ρ_T2，然后根据训练损失曲线和验证损失曲线的变化情况调整网络参数，直到网络参数最优，即式(3)达到最大值；

步骤四：使用训练好的网络进行车辆状态参数感知

将单目相机获取的车辆运动过程图像序列按照步骤一的方法进行预处理后，作为输入量送到训练好的并行深度卷积-递归神经网络中，即得到6维车辆状态信息，包括车辆的三维速度和三维角速度。