CN112800879B

CN112800879B - 一种基于车载视频的前方车辆位置预测方法和预测***

Info

Publication number: CN112800879B
Application number: CN202110051940.3A
Authority: CN
Inventors: ***; 苏万亮
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2022-08-26
Anticipated expiration: 2041-01-15
Also published as: CN112800879A

Abstract

本发明公开了一种基于车载视频的前方车辆位置预测方法，包括：构建基于编解码框架的车辆位置预测模型，用于根据前车包围框和包围框内光流的历史数据、本车运动信息的预测数据，预测前车的位置和尺度；构建样本集并对车辆位置预测模型进行训练；获取车载视频；对视频帧进行车辆检测与跟踪并计算光流，得到前车的包围框序列和光流序列；预测本车的运动信息，构成运动预测序列；截取当前时刻t前的T个视频帧中前车包围框、包围框内的光流，和t后的△个视频帧中本车运动信息预测值，输入车辆位置预测模型，得到前车在t后的△个视频帧中的包围框序列，预测出前车的位置和尺度。该方法仅基于行车记录仪拍摄的视频信息，能够实时对前车位置和尺度做出预测。

Description

一种基于车载视频的前方车辆位置预测方法和预测***

技术领域

本发明属于辅助驾驶技术领域，具体涉及一种基于车载视频的前方车辆位置预测方法和***。

背景技术

随着社会的不断发展，家用汽车得到了普及。在享受到汽车带来的便捷时，很多问题也随之而来，如交通安全事故频繁发生、道路行驶环境恶劣、生态环境受到污染等。种种问题都使得人们的生命和财产受到威胁，尤其是交通事故问题，因此安全行车成为了大众迫切的需求。造成交通事故往往是因为驾驶员对驾驶道路上其他交通参与者的行为不能及时做出反应，而行车记录仪现已经被大量车主使用，可以记录车主行驶全过程中的视频图像和声音，如果能够根据行车记录仪拍摄的视频，实时对本车前方车辆的位置进行预测，就能让驾驶员在行车过程中有足够的时间避免交通事故的发生，但目前的行车记录仪还没有这种功能。

目前国内外提出的关于车辆位置的预测方法其大致可以分为传统方法和基于深度学习方法两类。

传统的车辆位置预测方法如贝叶斯滤波方法，该方法的结构过于简单，无法分析复杂的车辆运动模式，而且往往不能很好的进行长期预测。动态贝叶斯网络利用图形模型描述了决定车辆轨迹的各种潜在因素，对生成车辆轨迹的物理过程进行显示建模，虽然能够解决上述问题，但由于基于设计人员的直觉确定的模型结构不足以捕获各种动态交通场景，在真实交通场景的性能受到限制，并且其计算复杂度高，不能满足实时预测的要求。

近几年，基于深度学习的方法在图像处理领域展现出强大的能力，许多研究者也将深度学习方法中的循环神经网络结构及其各种变体结构应用在车辆位置预测的任务中。这些方法利用车辆过去的行驶数据，在深度学习网络模型中训练，在各自的应用场景中都获得了很好的预测效果。但是这些研究存在两个问题：第一，车辆过去的行驶数据都需要通过车辆上安装的多种传感器捕获得到，这在今天的生产车辆上并不常见；第二，仅能预测出前方车辆的像素位置，不能预测出前方车辆的尺度。

而本发明仅基于行车记录仪拍摄的图像信息实时对前方车辆位置和尺度做出预测，让驾驶员在行车过程中有足够的时间避免交通事故，可以较好的运用到实际场景中。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于车载视频的前方车辆位置预测方法，该方法仅基于行车记录仪拍摄的视频信息，能够实时对前方车辆位置和尺度做出预测，让驾驶员在行车过程中有足够的时间避免交通事故，可以较好的运用到实际场景中。

技术方案：本发明一方面公开了一种基于车载视频的前方车辆位置预测方法，包括训练阶段和预测阶段，其中训练阶段包括：

S1、构建基于编解码框架的车辆位置预测模型，所述车辆位置预测模型用于根据当前时刻t之前的t-0,t-1,…,t-(T-1)时刻前方车辆包围框、所述包围框内的光流、本车在当前时刻t之后的t+1,t+2,…,t+△时刻的运动信息，预测前方车辆在当前时刻t之后的t+1,t+2,…,t+△时刻的包围框；

所述车辆位置预测模型的输入包括：当前时刻t前的T个时刻的视频帧中，前方车辆的包围框序列B、前方车辆包围框内的光流序列F，以及当前时刻t后的△个时刻的视频帧中，本车的运动预测序列M；

所述车辆位置预测模型的输出为当前时刻t后的△个时刻的视频帧图像中前方车辆的预测包围框序列Y；

所述车辆位置预测模型包括：前方车辆包围框编码器、前方车辆光流编码器、特征融合单元、前方车辆位置预测解码器；

所述前方车辆包围框编码器用于对前方车辆的包围框序列B编码，得到前方车辆的时序特征矢量

所述前方车辆光流编码器用于对前方车辆包围框内的光流序列F编码，得到前方车辆的运动特征矢量

所述特征融合单元将前方车辆的时序特征矢量

和运动特征矢量

连接为前车的融合特征矢量

所述前方车辆位置预测解码器根据本车的运动预测序列M对特征矢量

解码，得到当前时刻t后的△个时刻的视频帧中前方车辆的预测包围框；

S2、构建样本集并对车辆位置预测模型进行训练，包括：

S2-1、采集能够拍摄到前车的多个时长为s的车载视频片段，对每个视频片段中的视频帧进行采样，并确定采样后的视频帧中前方车辆的包围框序列B_tr、包围框内的光流序列F_tr和视频帧对应时刻本车的运动预测序列M_tr，构成样本集；

S2-2、将样本集划分为训练集和验证集；设置学习率σ，批处理数量N；

S2-3、训练过程采用Adam优化器，根据训练集样本数和N确定训练批次N′；将训练样本中的视频片段前s′时长的视频帧对应的B_tr、F_tr，后s″时长的视频帧对应的M_tr作为车辆位置预测模型的输入，后s″时长的视频帧对应的B_tr作为输出，对所述模型进行训练，保存模型参数，并用验证集验证模型的预测准确度；s′+s″＝s；

S2-4、选择N′批训练中预测准确度最高的模型参数作为车辆位置预测模型的参数；

预测阶段包括：

车辆上设置可以拍摄前方车辆的摄像头，获取所述摄像头在车辆行驶中采集的视频数据；

对视频中每一帧图像进行车辆检测与跟踪，得到每一辆前车的包围框序列，并存入B_test(i)中，i为前车编号；同时计算包围框内的光流，存入F_test(i)；获取本车在未来帧中的运动信息，存入序列M_test；

在序列B_test(i)和F_test(i)中采用长度为T的第一滑动窗，在序列M_test中采用长度为△的第二滑动窗，分别截取当前时刻t前的T个视频帧中车辆i的包围框、所述包围框内的光流，以及当前时刻t后的△个视频帧中本车的运动信息预测值，输入训练好的车辆位置预测模型中，得到前方车辆i在当前时刻t后的△个视频帧中的包围框序列Y′(i)＝[Y′_t+1(i),Y′_t+2(i),…,Y′_t+δ(i),…,Y′_t+△(i)]，计算前方车辆i的包围框在当前时刻视频帧中的相对位置：

其中B_test,t+0(i)为前方车辆i在当前时刻t的包围框；1≤δ≤△；

根据Y′(i)中包围框的中心得到前方车辆i的预测轨迹；根据Y′(i)中包围框的宽高得到前方车辆i尺度。

所述前方车辆的包围框序列采用如下步骤计算：

A.1、对连续T个时刻的视频帧图像进行车辆检测，得到每帧图像中所有车辆的包围框；

A.2、采用多目标跟踪算法跟踪步骤A.1得到的车辆包围框，对不同帧中同一车辆给出相同编号，按时间顺序构成T个时刻前方车辆包围框序列B。

所述前方车辆包围框内的光流序列采用如下步骤计算：

B.1、对连续T个时刻的视频帧图像，计算每一帧与其前一帧图像的光流，得到每一帧图像对应的光流图；所述光流图中第j个像素点的二维光流矢量为：I_j＝(u_j,v_j)，u_j,v_j分别为光流矢量的垂直分量和水平分量；

B.2、在第t-τ时刻的图像对应的光流图中截取第t-τ时刻图像中前方车辆包围框覆盖部分，并缩放至预设的统一尺寸，得到第t-τ时刻的包围框内的光流图，按时间顺序构成T个时刻前方车辆包围框内的光流序列F，t-τ表示时刻t前的第τ个时刻，0≤τ<T。

所述本车的运动预测序列采用如下步骤计算：

C.1、对当前时刻t之前的t-0,t-1,…,t-(T-1)时刻的视频帧，计算相邻时刻视频帧P_t-τ-1和P_t-τ的相机旋转矩阵R_t-τ和平移向量V_t-τ，构成旋转矩阵序列RS和平移向量序列VS，0≤τ<T，具体包括步骤C.1-1至步骤C.1-2：

C.1-1、采用八点法，计算得到本质矩阵E，方法如下：

C.1-1-1、采用Surf算法，提取P_t-τ-1和P_t-τ的特征点，并选取8对最匹配的特征点(a_l,a′_l)，l＝1,2,…,8；其中a_l,a′_l分别表示视频帧P_t-τ-1和P_t-τ中第l对匹配的特征点像素位置在归一化平面上的坐标，a_l＝[x_l,y_l,1]^T，a′_l＝[x′_l,y′_l,1]^T；a_l,a′_l均为3×1的矩阵，其中T表示矩阵的转置；

C.1-1-2、将8对匹配的特征点组合，得到3×8的矩阵a和a′：

根据a和a′建立对极约束公式：

a^TEa′＝0

解上述方程组得到本质矩阵E，E为3×3的矩阵；

C.1-2、对E进行奇异值分解，得到相机的旋转矩阵R_t-τ和平移向量V_t-τ，其中R_t-τ为3×3的矩阵，V_t-τ为3维列向量；

最终得到t时刻前T个视频帧的旋转矩阵序列RS＝{R_t-(T-1),…,R_t-τ,…,R_t-1,R_t-0}，t时刻前T个视频帧的平移向量序列VS＝{V_t-(T-1),…,V_t-τ,…,V_t-1,V_t-0}；

C.2、对于C.1得到的RS和VS中的相机旋转矩阵和平移向量，计算每一个R_t-τ和V_t-τ与其前一时刻的累积值，所述累积值用R′_t-τ和V′_t-τ表示，如下公式所示：

C.3、将C.2最后计算得到的R′_t-0和V′_t-0传递给相机在下一时刻的旋转矩阵和平移向量，如下公式所示：

R_t+1＝R′_t-0

V_t+1＝V′_t-0

C.4、将C.3得到的R_t+1和V_t+1分别添加在C.1得到的旋转矩阵序列RS和平移向量序列VS末尾，并继续执行C.2和C.3，直到得到t时刻后△个视频帧的所有旋转矩阵{R_t+1,R_t+2,…,R_t+δ,…,R_t+△}，t时刻后△个视频帧的所有平移向量{V_t+1,V_t+2,…,V_t+δ,…,V_t+△}，1≤δ≤△；

C.5、计算本车在当前时刻t后△个时刻的运动向量，构成本车的运动预测序列M＝{M_t+1,M_t+2,…,M_t+δ,…,M_t+△}，具体包括步骤C.5-1至C.5-2：

C.5-1、从旋转矩阵R_t+δ中提取相机在x,y,z轴的旋转角度信息，并用3维行向量

表示，其中：

上式中，r_jk表示旋转矩阵R_t+δ中第j行第k列的值，j,k∈{1,2,3}；atan2()与atan()均表示反正切函数，但是atan()求出的结果取值范围为(0,2π]，atan2()求出的结果取值范围为(-π,π]；

C.5-2、将向量ψ_t+δ与转换为三维行向量的平移向量V_t+δ ^T连接，组成一个6维行向量M_t+δ：M_t+δ＝[ψ_t+δ,V_t+δ ^T]；

最终得到本车的运动预测序列M＝{M_t+1,M_t+2,…,M_t+δ,…,M_t+△}；

C.6、将M经过一个全连接层FC₄，变换其所有运动向量的维度。

所述前方车辆包围框编码器包括编码门控循环神经网络GRU_b和第一全连接层FC₁；所述GRU_b的输入为前方车辆的包围框序列B中每个时刻的包围框B_t-τ，以及上一时刻GRU_b传下来的隐藏状态矢量

输出为当前时刻的前方车辆包围框编码结果

FC₁对GRU_b最终输出

进行维度变换，得到当前时刻t前方车辆的时序特征矢量

所述前方车辆光流编码器包括基于CNN的运动特征提取网络FEN和第二全连接层FC₂；所述FEN的输入为前方车辆包围框内的光流序列F，输出为当前时刻的前方车辆包围框内光流编码结果；所述FEN基于ResNet50架构，包括依次连接的一个卷积层conv1，一个Relu层、一个最大池化层maxPool、4个残差学习块；其中conv1的输入通道数为2m，m为对光流序列F中光流图的采样数，即从F中均匀采样m个光流图；4个残差学习块均为为三层结构，即每个残差学习块为3个串接在一起的卷积网络层和Relu层；

对前方车辆包围框内的光流序列F均匀采样m个光流图，m个光流图的垂直分量和水平分量构成2m个光流分量输入FEN中，FEN的输出为当前时刻的前方车辆包围框内光流图中的运动特征；

FC₂对FEN输出的运动特征进行维度变换，得到当前时刻t前方车辆的运动特征矢量

所述前方车辆位置预测解码器包括解码门控循环神经网络GRU_d和第三全连接层FC₃；所述GRU_d的输入为t+δ时刻本车运动信息预测值M_t+δ与上一时刻GRU_d传下来的隐藏状态矢量

的融合矢量Mh_t+δ，以及上一时刻GRU_d传下来的隐藏状态矢量

1≤δ≤△，

输出为t+δ时刻前方车辆包围框解码结果

FC₃对

进行维度变换，得到t+δ时刻前方车辆包围框。

另一方面，本发明还公开了实现上述基于车载视频的前方车辆位置预测方法的预测***，包括：

基于编解码框架的车辆位置预测模型，用于根据当前时刻t之前的t-0,t-1,…,t-(T-1)时刻前方车辆包围框、所述包围框内的光流、本车在当前时刻t之后的t+1,t+2,…,t+△时刻的运动信息，预测前方车辆在当前时刻t之后的t+1,t+2,…,t+△时刻的包围框；

所述特征融合单元将前方车辆的时序特征矢量

和运动特征矢量

连接为前车的融合特征矢量

车辆包围框获取模块，用于获取车载视频中前方车辆的包围框序列B；

车辆包围框光流获取模块，用于获取车载视频中前方车辆包围框内的光流序列F；

本车运动信息预测模块，用于预测本车在未来时间的运动信息，构成本车运动预测序列M。

有益效果：本发明公开前方车辆位置预测方法具有以下优点：1、本发明仅基于行车记录仪拍摄的视频图像信息，有效解决了现有技术中其他方法中需要依赖多种传感器获取信息而导致的在当下生产车辆中适用性不高的的问题；2、本发明采用基于编码-解码框架的深度学习网络模型，不仅能预测前方车辆的位置，还能预测前方车辆的尺度，显著提高了其预测的性能。

附图说明

图1为本发明公开基于车载视频的前方车辆位置预测方法的流程图；

图2为视频帧车辆检测跟踪的示意图；

图3为相邻帧的光流提取方法示意图；

图4为车辆位置预测模型的结构示意图；

图5为GRU的结构示意图；

图6为运动特征提取网络的结构示意图；

图7为滑动窗示意图；

图8为实施例中预测结果示意图；

图9为本发明公开基于车载视频的前方车辆位置预测***的结构示意图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明。

如图1所示，本发明公开了一种基于车载视频的前方车辆位置预测方法，包括训练阶段和预测阶段，其中训练阶段包括：

本实施例中，T＝20，△＝40；

其中B＝[B_t-0,B_t-1,…,B_t-τ,…B_t-(T-1)]，B_t-τ表示前方车辆在时刻t前的第τ个时刻的视频帧中的包围框，所述包围框用包围框中心点的横纵坐标x_t-τ,y_t-τ、包围框的宽w_t-τ、高h_t-τ表示，即B_t-τ＝(x_t-τ,y_t-τ,w_t-τ,h_t-τ)；0≤τ<T；

本发明中，前方车辆的包围框序列采用如下步骤计算：

本实施例采用基于Mask-RCNN建立的车辆检测模型进行车辆检测，所述车辆检测模型采用COCO数据集进行训练，其输出为图像中的车辆包围框，每个包围框用4维向量表示；视频中的图像尺寸在输入Mask-RCNN前统一缩放至1024*1024。

A.2、采用多目标跟踪算法跟踪步骤A.1得到的车辆包围框，对不同帧中同一车辆给出相同编号，按时间顺序构成T个时刻前方车辆包围框序列B。本实施例中采用Sort算法进行多目标跟踪，Sort算法是一种在线实时多目标跟踪算法，适用于车载视频中车辆的跟踪。图2为视频帧车辆检测跟踪的示意图。图2中不同时刻的两幅视频帧中检测到3辆车，对相同的车辆编号，分别为1,2,3。

F＝[F_t-0,F_t-1,…,F_t-τ,…F_t-(T-1)]，F_t-τ表示前方车辆在时刻t前的第τ个时刻的视频帧中的包围框内的光流图，F_t-τ＝{(u_t-τ(p),v_t-τ(p))}，(u_t-τ(p),v_t-τ(p))为所述光流图中第p个像素点处的二维光流矢量；

所述前方车辆包围框内的光流序列采用如下步骤计算：

B.1、对连续T个时刻的视频帧图像，计算每一帧与其前一帧图像的光流，得到每一帧图像对应的光流图；本实施例采用FlowNet2算法进行相邻帧的光流计算；所述光流图中第j个像素点的二维光流矢量为：I_j＝(u_j,v_j)，u_j,v_j分别为光流矢量的垂直分量和水平分量；如图3所示。

B.2、在第t-τ时刻的图像对应的光流图中截取第t-τ时刻图像中前方车辆包围框覆盖部分，并缩放至预设的统一尺寸，得到第t-τ时刻的包围框内的光流图，按时间顺序构成T个时刻前方车辆包围框内的光流序列F，t-τ表示时刻t前的第τ个时刻，0≤τ<T。本实施例中，将包围框内的光流图统一缩放至224*224。

行车过程中，除了车前方场景中的车辆运动，本车自身也在运动，要预测车前方车辆的运动，也必须预测本车自身的运动。

本车的运动信息预测序列采用如下步骤计算：

C.1-1、采用八点法，计算得到本质矩阵E，方法如下：

C.1-1-2、将8对匹配的特征点组合，得到3×8的矩阵a和a′：

根据a和a′建立对极约束公式：

a^TEa′＝0

解上述方程组得到本质矩阵E，E为3×3的矩阵；

R_t+1＝R′_t-0

V_t+1＝V′_t-0

表示，其中：

C.6、将M经过一个全连接层FC₄，变换其所有运动向量的维度，使其与解码门控循环神经网络GRU_d上一时刻传下来的隐藏状态矢量

维度一致。本实施例中全连接输出维度为512维。

所述车辆位置预测模型的输出为当前时刻t后的△个时刻的视频帧图像中前方车辆的预测包围框序列Y，Y＝[Y_t+1,Y_t+2,…,Y_t+δ,…,Y_t+△]；其中Y_t+δ表示前方车辆在时刻t后的第δ个时刻视频帧图像中的预测包围框，所述包围框用包围框中心点的横纵坐标、包围框的宽高表示，即Y_t+δ＝(x_t+δ,y_t+δ,w_t+δ,h_t+δ)；

如图4所示，车辆位置预测模型包括：前方车辆包围框编码器1-1、前方车辆光流编码器1-2、特征融合单元1-3、前方车辆位置预测解码器1-4；

所述前方车辆包围框编码器1-1用于对前方车辆的包围框序列B编码，得到前方车辆的时序特征矢量

前方车辆包围框编码器主要利用门控循环神经网络(Gated Recurrent Unit，GRU)进行编码。GRU可以只保留相关信息来进行预测，而忘记不相关的数据，其结构如图5所示，输入为当前时刻的输入In_t和上一时刻GRU传下来的隐藏状态矢量h_t-1，h_t-1表示GRU通过内部的门结构认为过去时刻中输入序列的有用信息，在本发明中该隐藏状态矢量表示前方车辆在过去时间段的位置和尺度信息。结合In_t和h_t-1，GRU输出当前时刻的隐藏状态矢量h_t，整个前向传播过程计算公式如下：

其中z_t表示更新门的输出，σ()表示sigmoid函数，W_z表示更新门的权值参数，r_t表示重置门的输出，W_r表示重置门的权值参数，

表示当前时刻待定的输出，tanh()表示双曲正切函数，

表示待定值的权值参数，[,]表示两个矢量相连。将上述公式组简记为：

其中c为具体的应用类别，U为GRU_c当前时刻的输入值，V为GRU_c的权值参数。

输出为当前时刻的前方车辆包围框编码结果

FC₁对GRU_b最终输出

进行维度变换，得到当前时刻t前方车辆的时序特征矢量

编码门控循环神经网络GRU_b的结构为：

其中φ()表示使用ReLU激活函数进行线性映射，θ_b表示GRU_b中的权值参数V。本实施例中，

的维度为512，FC₁将

的维度变换为256，即

的维度为256。

所述前方车辆光流编码器1-2用于对前方车辆包围框内的光流序列F编码，得到前方车辆的运动特征矢量

所述前方车辆光流编码器包括基于CNN的运动特征提取网络FEN和第二全连接层FC₂；所述FEN的输入为前方车辆包围框内的光流序列F，输出为当前时刻的前方车辆包围框内光流编码结果；如图6所示，所述FEN基于ResNet50架构，包括依次连接的一个卷积层conv1，一个Relu层、一个最大池化层maxPool、4个残差学习块，如图6-(a)所示；其中conv1的输入通道数为2m，m为对光流序列F中光流图的采样数，即从F中均匀采样m个光流图，本实施例中m＝10；4个残差学习块均为为三层结构，即每个残差学习块为3个串接在一起的卷积网络层Conv2和Relu层，如图6-(b)所示。

对前方车辆包围框内的光流序列F均匀采样m个光流图，每一个光流图的垂直分量和水平分量，看作光流图的两个通道。m个光流图的垂直分量和水平分量构成2m个光流分量输入FEN中，FEN的输出为当前时刻的前方车辆包围框内光流图中的运动特征；本实施例中FEN提取的运动特征维度为2048维，FC₂将FEN输出的运动特征的维度变换为256，得到当前时刻t前方车辆的256维运动特征矢量

所述特征融合单元1-3将前方车辆的时序特征矢量

和运动特征矢量

连接为前车的融合特征矢量

表示车辆包围框历史信息和光流历史信息，即前方车辆在过去时间段中不同时间点的位置、尺度、外观和运动信息；本实施例中，

为512维矢量。

所述前方车辆位置预测解码器1-4根据本车的运动预测序列M对特征矢量

的融合矢量Mh_t+δ，以及上一时刻GRU_d传下来的隐藏状态矢量

1≤δ≤△，

输出为t+δ时刻前方车辆包围框解码结果

FC₃对

进行维度变换，转换为4维矢量，得到t+δ时刻前方车辆包围框。

解码门控循环神经网络GRU_d的结构为：

其中θ_d为GRU_d中的权值参数V。

本实施例中，融合矢量Mh_t+δ的计算为：

对6维向量M_t+δ采用第四全连接层FC₄变换为512维向量

对

使用ReLU激活函数进行线性映射，对线性映射后的向量与

相加后求平均，得到512维的融合矢量Mh_t+δ，

其中Average()表示对两个矢量相加后求平均。

S2、构建样本集并对车辆位置预测模型进行训练，包括：

S2-1、采集能够拍摄到前车的多个时长为s的车载视频片段，对每个视频片段中的视频帧进行采样，并确定采样后的视频帧中前方车辆的包围框序列B_tr、包围框内的光流序列F_tr和视频帧对应时刻本车的运动信息序列M_tr，构成样本集；

本实施例中，采集1000个视频片段，每个片段时长为3秒，每秒20帧，根据前1秒内的车辆包围框预测后2秒内该车辆的包围框；训练集占样本集的70％，验证集占30％。训练过程采用Adam优化器，固定学习率为0.0005，批处理数量为64，共训练40批次。训练中计算车辆的实际包围框序列

与预测结果中的包围框Y的差值，使用smoothL1损失函数，反馈误差，优化并保存最终的网络权重参数；损失函数如下式所示：

其中|·|表示计算向量的模。

预测阶段包括：

在序列B_test(i)和F_test(i)中采用长度为T的第一滑动窗SW-1，在序列M_test中采用长度为△的第二滑动窗SW-2，分别截取当前时刻t前的T个视频帧中车辆i的包围框、所述包围框内的光流，以及当前时刻t后的△个视频帧中本车的运动信息预测值，输入训练好的车辆位置预测模型中，得到前方车辆i在当前时刻t后的△个视频帧中的包围框序列Y′(i)＝[Y′_t+1(i),Y′_t+2(i),…,Y′_t+δ(i),…,Y′_t+△(i)]，计算前方车辆i的包围框在当前时刻视频帧中的相对位置：

其中B_test,t+0(i)为前方车辆i在当前时刻t的包围框；1≤δ≤△；滑动窗的如图7所示。随着时间的持续，两个滑动窗均前进一格，进行下一时刻前车位置的检测。

本实施例中，将预测结果在当前时刻的视频帧中显示出来，如图8所示。

如图9所示，本发明还公开了实现上述基于车载视频的前方车辆位置预测方法的预测***，包括：

基于编解码框架的车辆位置预测模型1，用于根据当前时刻t之前的t-0,t-1,…,t-(T-1)时刻前方车辆包围框、所述包围框内的光流、本车在当前时刻t之后的t+1,t+2,…,t+△时刻的运动信息，预测前方车辆在当前时刻t之后的t+1,t+2,…,t+△时刻的包围框；

所述车辆位置预测模型包括：前方车辆包围框编码器1-1、前方车辆光流编码器1-2、特征融合单元1-3、前方车辆位置预测解码器1-4；

所述特征融合单元将前方车辆的时序特征矢量

和运动特征矢量

连接为前车的融合特征矢量

所述前方车辆位置预测解码器根据本车的运动信息预测序列M对特征矢量

车辆包围框获取模块2，用于获取车载视频中前方车辆的包围框序列B；

车辆包围框光流获取模块3，用于获取车载视频中前方车辆包围框内的光流序列F；

本车运动信息预测模块4，用于预测本车在未来时间的运动信息，构成本车运动预测序列M。

Claims

1.一种基于车载视频的前方车辆位置预测方法，包括训练阶段和预测阶段，其特征在于，所述训练阶段包括：

所述特征融合单元将前方车辆的时序特征矢量

和运动特征矢量

连接为前车的融合特征矢量

S2、构建样本集并对车辆位置预测模型进行训练，包括：

所述预测阶段包括：

2.根据权利要求1所述的前方车辆位置预测方法，其特征在于，所述前方车辆的包围框序列采用如下步骤计算：

3.根据权利要求1所述的前方车辆位置预测方法，其特征在于，所述前方车辆包围框内的光流序列采用如下步骤计算：

B.2、在第t-τ个时刻的图像对应的光流图中截取第t-τ个时刻图像中前方车辆包围框覆盖部分，并缩放至预设的统一尺寸，得到第t-τ个时刻的包围框内的光流图，按时间顺序构成T个时刻前方车辆包围框内的光流序列F，t-τ表示时刻t前的第τ个时刻，0≤τ<T。

4.根据权利要求1所述的前方车辆位置预测方法，其特征在于，所述本车的运动预测序列采用如下步骤计算：

C.1-1、采用八点法，计算得到本质矩阵E，方法如下：

C.1-1-2、将8对匹配的特征点组合，得到3×8的矩阵a和a′：

根据a和a′建立对极约束公式：

a^TEa′＝0

解上述方程组得到本质矩阵E，E为3×3的矩阵；

R_t+1＝R′_t-0

V_t+1＝V′_t-0

C.4、将C.3得到的R_t+1和V_t+1分别添加在C.1得到的旋转矩阵序列RS和平移向量序列VS末尾，并继续执行C.2和C.3，直到得到t时刻后Δ个视频帧的所有旋转矩阵{R_t+1,R_t+2,…,R_t+δ,…,R_t+△}，t时刻后△个视频帧的所有平移向量{V_t+1,V_t+2,…,V_t+δ,…,V_t+△}，1≤δ≤△；

表示，其中：

5.根据权利要求1所述的前方车辆位置预测方法，其特征在于，所述前方车辆包围框编码器包括编码门控循环神经网络GRU_b和第一全连接层FC₁；所述GRU_b的输入为前方车辆的包围框序列B中每个时刻的包围框B_t-τ，以及上一时刻GRU_b传下来的隐藏状态矢量

输出为当前时刻的前方车辆包围框编码结果

FC₁对GRU_b最终输出

进行维度变换，得到当前时刻t前方车辆的时序特征矢量

6.根据权利要求1所述的前方车辆位置预测方法，其特征在于，所述前方车辆光流编码器包括基于CNN的运动特征提取网络FEN和第二全连接层FC₂；所述FEN的输入为前方车辆包围框内的光流序列F，输出为当前时刻的前方车辆包围框内光流编码结果；所述FEN基于ResNet50架构，包括依次连接的一个卷积层conv1，一个Relu层、一个最大池化层maxPool、4个残差学习块；其中conv1的输入通道数为2m，m为对光流序列F中光流图的采样数，即从F中均匀采样m个光流图；4个残差学习块均为三层结构，即每个残差学习块为3个串接在一起的卷积网络层和Relu层；

7.根据权利要求1所述的前方车辆位置预测方法，其特征在于，所述前方车辆位置预测解码器包括解码门控循环神经网络GRU_d和第三全连接层FC₃；所述GRU_d的输入为t+δ时刻本车运动信息预测值M_t+δ与上一时刻GRU_d传下来的隐藏状态矢量

的融合矢量Mh_t+δ，以及上一时刻GRU_d传下来的隐藏状态矢量

1≤δ≤△，

输出为t+δ时刻前方车辆包围框解码结果

FC₃对

进行维度变换，得到t+δ时刻前方车辆包围框。

8.一种基于车载视频的前方车辆位置预测***，其特征在于，包括：

所述特征融合单元将前方车辆的时序特征矢量

和运动特征矢量

连接为前车的融合特征矢量

9.根据权利要求8所述的前方车辆位置预测***，其特征在于，所述前方车辆包围框编码器包括编码门控循环神经网络GRU_b和第一全连接层FC₁；所述GRU_b的输入为前方车辆的包围框序列B中每个时刻的包围框B_t-τ，以及上一时刻GRU_b传下来的隐藏状态矢量

输出为当前时刻的前方车辆包围框编码结果

FC₁对GRU_b最终输出

进行维度变换，得到当前时刻t前方车辆的时序特征矢量

10.根据权利要求8所述的前方车辆位置预测***，其特征在于，所述前方车辆光流编码器包括基于CNN的运动特征提取网络FEN和第二全连接层FC₂；所述FEN的输入为前方车辆包围框内的光流序列F，输出为当前时刻的前方车辆包围框内光流编码结果；所述FEN基于ResNet50架构，包括依次连接的一个卷积层conv1，一个Relu层、一个最大池化层maxPool、4个残差学习块；其中conv1的输入通道数为2m，m为对光流序列F中光流图的采样数，即从F中均匀采样m个光流图；4个残差学习块均为三层结构，即每个残差学习块为3个串接在一起的卷积网络层和Relu层；