CN112800879B - 一种基于车载视频的前方车辆位置预测方法和预测*** - Google Patents

一种基于车载视频的前方车辆位置预测方法和预测*** Download PDF

Info

Publication number
CN112800879B
CN112800879B CN202110051940.3A CN202110051940A CN112800879B CN 112800879 B CN112800879 B CN 112800879B CN 202110051940 A CN202110051940 A CN 202110051940A CN 112800879 B CN112800879 B CN 112800879B
Authority
CN
China
Prior art keywords
vehicle
sequence
front vehicle
optical flow
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110051940.3A
Other languages
English (en)
Other versions
CN112800879A (zh
Inventor
***
苏万亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110051940.3A priority Critical patent/CN112800879B/zh
Publication of CN112800879A publication Critical patent/CN112800879A/zh
Application granted granted Critical
Publication of CN112800879B publication Critical patent/CN112800879B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于车载视频的前方车辆位置预测方法,包括:构建基于编解码框架的车辆位置预测模型,用于根据前车包围框和包围框内光流的历史数据、本车运动信息的预测数据,预测前车的位置和尺度;构建样本集并对车辆位置预测模型进行训练;获取车载视频;对视频帧进行车辆检测与跟踪并计算光流,得到前车的包围框序列和光流序列;预测本车的运动信息,构成运动预测序列;截取当前时刻t前的T个视频帧中前车包围框、包围框内的光流,和t后的△个视频帧中本车运动信息预测值,输入车辆位置预测模型,得到前车在t后的△个视频帧中的包围框序列,预测出前车的位置和尺度。该方法仅基于行车记录仪拍摄的视频信息,能够实时对前车位置和尺度做出预测。

Description

一种基于车载视频的前方车辆位置预测方法和预测***
技术领域
本发明属于辅助驾驶技术领域,具体涉及一种基于车载视频的前方车辆位置预测方法和***。
背景技术
随着社会的不断发展,家用汽车得到了普及。在享受到汽车带来的便捷时,很多问题也随之而来,如交通安全事故频繁发生、道路行驶环境恶劣、生态环境受到污染等。种种问题都使得人们的生命和财产受到威胁,尤其是交通事故问题,因此安全行车成为了大众迫切的需求。造成交通事故往往是因为驾驶员对驾驶道路上其他交通参与者的行为不能及时做出反应,而行车记录仪现已经被大量车主使用,可以记录车主行驶全过程中的视频图像和声音,如果能够根据行车记录仪拍摄的视频,实时对本车前方车辆的位置进行预测,就能让驾驶员在行车过程中有足够的时间避免交通事故的发生,但目前的行车记录仪还没有这种功能。
目前国内外提出的关于车辆位置的预测方法其大致可以分为传统方法和基于深度学习方法两类。
传统的车辆位置预测方法如贝叶斯滤波方法,该方法的结构过于简单,无法分析复杂的车辆运动模式,而且往往不能很好的进行长期预测。动态贝叶斯网络利用图形模型描述了决定车辆轨迹的各种潜在因素,对生成车辆轨迹的物理过程进行显示建模,虽然能够解决上述问题,但由于基于设计人员的直觉确定的模型结构不足以捕获各种动态交通场景,在真实交通场景的性能受到限制,并且其计算复杂度高,不能满足实时预测的要求。
近几年,基于深度学习的方法在图像处理领域展现出强大的能力,许多研究者也将深度学习方法中的循环神经网络结构及其各种变体结构应用在车辆位置预测的任务中。这些方法利用车辆过去的行驶数据,在深度学习网络模型中训练,在各自的应用场景中都获得了很好的预测效果。但是这些研究存在两个问题:第一,车辆过去的行驶数据都需要通过车辆上安装的多种传感器捕获得到,这在今天的生产车辆上并不常见;第二,仅能预测出前方车辆的像素位置,不能预测出前方车辆的尺度。
而本发明仅基于行车记录仪拍摄的图像信息实时对前方车辆位置和尺度做出预测,让驾驶员在行车过程中有足够的时间避免交通事故,可以较好的运用到实际场景中。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于车载视频的前方车辆位置预测方法,该方法仅基于行车记录仪拍摄的视频信息,能够实时对前方车辆位置和尺度做出预测,让驾驶员在行车过程中有足够的时间避免交通事故,可以较好的运用到实际场景中。
技术方案:本发明一方面公开了一种基于车载视频的前方车辆位置预测方法,包括训练阶段和预测阶段,其中训练阶段包括:
S1、构建基于编解码框架的车辆位置预测模型,所述车辆位置预测模型用于根据当前时刻t之前的t-0,t-1,…,t-(T-1)时刻前方车辆包围框、所述包围框内的光流、本车在当前时刻t之后的t+1,t+2,…,t+△时刻的运动信息,预测前方车辆在当前时刻t之后的t+1,t+2,…,t+△时刻的包围框;
所述车辆位置预测模型的输入包括:当前时刻t前的T个时刻的视频帧中,前方车辆的包围框序列B、前方车辆包围框内的光流序列F,以及当前时刻t后的△个时刻的视频帧中,本车的运动预测序列M;
所述车辆位置预测模型的输出为当前时刻t后的△个时刻的视频帧图像中前方车辆的预测包围框序列Y;
所述车辆位置预测模型包括:前方车辆包围框编码器、前方车辆光流编码器、特征融合单元、前方车辆位置预测解码器;
所述前方车辆包围框编码器用于对前方车辆的包围框序列B编码,得到前方车辆的时序特征矢量
Figure BDA0002899371690000021
所述前方车辆光流编码器用于对前方车辆包围框内的光流序列F编码,得到前方车辆的运动特征矢量
Figure BDA0002899371690000022
所述特征融合单元将前方车辆的时序特征矢量
Figure BDA0002899371690000023
和运动特征矢量
Figure BDA0002899371690000024
连接为前车的融合特征矢量
Figure BDA0002899371690000025
所述前方车辆位置预测解码器根据本车的运动预测序列M对特征矢量
Figure BDA0002899371690000026
解码,得到当前时刻t后的△个时刻的视频帧中前方车辆的预测包围框;
S2、构建样本集并对车辆位置预测模型进行训练,包括:
S2-1、采集能够拍摄到前车的多个时长为s的车载视频片段,对每个视频片段中的视频帧进行采样,并确定采样后的视频帧中前方车辆的包围框序列Btr、包围框内的光流序列Ftr和视频帧对应时刻本车的运动预测序列Mtr,构成样本集;
S2-2、将样本集划分为训练集和验证集;设置学习率σ,批处理数量N;
S2-3、训练过程采用Adam优化器,根据训练集样本数和N确定训练批次N′;将训练样本中的视频片段前s′时长的视频帧对应的Btr、Ftr,后s″时长的视频帧对应的Mtr作为车辆位置预测模型的输入,后s″时长的视频帧对应的Btr作为输出,对所述模型进行训练,保存模型参数,并用验证集验证模型的预测准确度;s′+s″=s;
S2-4、选择N′批训练中预测准确度最高的模型参数作为车辆位置预测模型的参数;
预测阶段包括:
车辆上设置可以拍摄前方车辆的摄像头,获取所述摄像头在车辆行驶中采集的视频数据;
对视频中每一帧图像进行车辆检测与跟踪,得到每一辆前车的包围框序列,并存入Btest(i)中,i为前车编号;同时计算包围框内的光流,存入Ftest(i);获取本车在未来帧中的运动信息,存入序列Mtest
在序列Btest(i)和Ftest(i)中采用长度为T的第一滑动窗,在序列Mtest中采用长度为△的第二滑动窗,分别截取当前时刻t前的T个视频帧中车辆i的包围框、所述包围框内的光流,以及当前时刻t后的△个视频帧中本车的运动信息预测值,输入训练好的车辆位置预测模型中,得到前方车辆i在当前时刻t后的△个视频帧中的包围框序列Y′(i)=[Y′t+1(i),Y′t+2(i),…,Y′t+δ(i),…,Y′t+△(i)],计算前方车辆i的包围框在当前时刻视频帧中的相对位置:
Figure BDA0002899371690000031
其中Btest,t+0(i)为前方车辆i在当前时刻t的包围框;1≤δ≤△;
根据Y′(i)中包围框的中心得到前方车辆i的预测轨迹;根据Y′(i)中包围框的宽高得到前方车辆i尺度。
所述前方车辆的包围框序列采用如下步骤计算:
A.1、对连续T个时刻的视频帧图像进行车辆检测,得到每帧图像中所有车辆的包围框;
A.2、采用多目标跟踪算法跟踪步骤A.1得到的车辆包围框,对不同帧中同一车辆给出相同编号,按时间顺序构成T个时刻前方车辆包围框序列B。
所述前方车辆包围框内的光流序列采用如下步骤计算:
B.1、对连续T个时刻的视频帧图像,计算每一帧与其前一帧图像的光流,得到每一帧图像对应的光流图;所述光流图中第j个像素点的二维光流矢量为:Ij=(uj,vj),uj,vj分别为光流矢量的垂直分量和水平分量;
B.2、在第t-τ时刻的图像对应的光流图中截取第t-τ时刻图像中前方车辆包围框覆盖部分,并缩放至预设的统一尺寸,得到第t-τ时刻的包围框内的光流图,按时间顺序构成T个时刻前方车辆包围框内的光流序列F,t-τ表示时刻t前的第τ个时刻,0≤τ<T。
所述本车的运动预测序列采用如下步骤计算:
C.1、对当前时刻t之前的t-0,t-1,…,t-(T-1)时刻的视频帧,计算相邻时刻视频帧Pt-τ-1和Pt-τ的相机旋转矩阵Rt-τ和平移向量Vt-τ,构成旋转矩阵序列RS和平移向量序列VS,0≤τ<T,具体包括步骤C.1-1至步骤C.1-2:
C.1-1、采用八点法,计算得到本质矩阵E,方法如下:
C.1-1-1、采用Surf算法,提取Pt-τ-1和Pt-τ的特征点,并选取8对最匹配的特征点(al,a′l),l=1,2,…,8;其中al,a′l分别表示视频帧Pt-τ-1和Pt-τ中第l对匹配的特征点像素位置在归一化平面上的坐标,al=[xl,yl,1]T,a′l=[x′l,y′l,1]T;al,a′l均为3×1的矩阵,其中T表示矩阵的转置;
C.1-1-2、将8对匹配的特征点组合,得到3×8的矩阵a和a′:
Figure BDA0002899371690000051
根据a和a′建立对极约束公式:
aTEa′=0
解上述方程组得到本质矩阵E,E为3×3的矩阵;
C.1-2、对E进行奇异值分解,得到相机的旋转矩阵Rt-τ和平移向量Vt-τ,其中Rt-τ为3×3的矩阵,Vt-τ为3维列向量;
最终得到t时刻前T个视频帧的旋转矩阵序列RS={Rt-(T-1),…,Rt-τ,…,Rt-1,Rt-0},t时刻前T个视频帧的平移向量序列VS={Vt-(T-1),…,Vt-τ,…,Vt-1,Vt-0};
C.2、对于C.1得到的RS和VS中的相机旋转矩阵和平移向量,计算每一个Rt-τ和Vt-τ与其前一时刻的累积值,所述累积值用R′t-τ和V′t-τ表示,如下公式所示:
Figure BDA0002899371690000052
Figure BDA0002899371690000053
C.3、将C.2最后计算得到的R′t-0和V′t-0传递给相机在下一时刻的旋转矩阵和平移向量,如下公式所示:
Rt+1=R′t-0
Vt+1=V′t-0
C.4、将C.3得到的Rt+1和Vt+1分别添加在C.1得到的旋转矩阵序列RS和平移向量序列VS末尾,并继续执行C.2和C.3,直到得到t时刻后△个视频帧的所有旋转矩阵{Rt+1,Rt+2,…,Rt+δ,…,Rt+△},t时刻后△个视频帧的所有平移向量{Vt+1,Vt+2,…,Vt+δ,…,Vt+△},1≤δ≤△;
C.5、计算本车在当前时刻t后△个时刻的运动向量,构成本车的运动预测序列M={Mt+1,Mt+2,…,Mt+δ,…,Mt+△},具体包括步骤C.5-1至C.5-2:
C.5-1、从旋转矩阵Rt+δ中提取相机在x,y,z轴的旋转角度信息,并用3维行向量
Figure BDA0002899371690000061
表示,其中:
Figure BDA0002899371690000062
Figure BDA0002899371690000063
Figure BDA0002899371690000064
上式中,rjk表示旋转矩阵Rt+δ中第j行第k列的值,j,k∈{1,2,3};atan2()与atan()均表示反正切函数,但是atan()求出的结果取值范围为(0,2π],atan2()求出的结果取值范围为(-π,π];
C.5-2、将向量ψt+δ与转换为三维行向量的平移向量Vt+δ T连接,组成一个6维行向量Mt+δ:Mt+δ=[ψt+δ,Vt+δ T];
最终得到本车的运动预测序列M={Mt+1,Mt+2,…,Mt+δ,…,Mt+△};
C.6、将M经过一个全连接层FC4,变换其所有运动向量的维度。
所述前方车辆包围框编码器包括编码门控循环神经网络GRUb和第一全连接层FC1;所述GRUb的输入为前方车辆的包围框序列B中每个时刻的包围框Bt-τ,以及上一时刻GRUb传下来的隐藏状态矢量
Figure BDA0002899371690000065
输出为当前时刻的前方车辆包围框编码结果
Figure BDA0002899371690000066
FC1对GRUb最终输出
Figure BDA0002899371690000067
进行维度变换,得到当前时刻t前方车辆的时序特征矢量
Figure BDA0002899371690000068
所述前方车辆光流编码器包括基于CNN的运动特征提取网络FEN和第二全连接层FC2;所述FEN的输入为前方车辆包围框内的光流序列F,输出为当前时刻的前方车辆包围框内光流编码结果;所述FEN基于ResNet50架构,包括依次连接的一个卷积层conv1,一个Relu层、一个最大池化层maxPool、4个残差学习块;其中conv1的输入通道数为2m,m为对光流序列F中光流图的采样数,即从F中均匀采样m个光流图;4个残差学习块均为为三层结构,即每个残差学习块为3个串接在一起的卷积网络层和Relu层;
对前方车辆包围框内的光流序列F均匀采样m个光流图,m个光流图的垂直分量和水平分量构成2m个光流分量输入FEN中,FEN的输出为当前时刻的前方车辆包围框内光流图中的运动特征;
FC2对FEN输出的运动特征进行维度变换,得到当前时刻t前方车辆的运动特征矢量
Figure BDA0002899371690000071
所述前方车辆位置预测解码器包括解码门控循环神经网络GRUd和第三全连接层FC3;所述GRUd的输入为t+δ时刻本车运动信息预测值Mt+δ与上一时刻GRUd传下来的隐藏状态矢量
Figure BDA0002899371690000072
的融合矢量Mht+δ,以及上一时刻GRUd传下来的隐藏状态矢量
Figure BDA0002899371690000073
1≤δ≤△,
Figure BDA0002899371690000074
输出为t+δ时刻前方车辆包围框解码结果
Figure BDA0002899371690000075
FC3
Figure BDA0002899371690000076
进行维度变换,得到t+δ时刻前方车辆包围框。
另一方面,本发明还公开了实现上述基于车载视频的前方车辆位置预测方法的预测***,包括:
基于编解码框架的车辆位置预测模型,用于根据当前时刻t之前的t-0,t-1,…,t-(T-1)时刻前方车辆包围框、所述包围框内的光流、本车在当前时刻t之后的t+1,t+2,…,t+△时刻的运动信息,预测前方车辆在当前时刻t之后的t+1,t+2,…,t+△时刻的包围框;
所述车辆位置预测模型包括:前方车辆包围框编码器、前方车辆光流编码器、特征融合单元、前方车辆位置预测解码器;
所述前方车辆包围框编码器用于对前方车辆的包围框序列B编码,得到前方车辆的时序特征矢量
Figure BDA0002899371690000077
所述前方车辆光流编码器用于对前方车辆包围框内的光流序列F编码,得到前方车辆的运动特征矢量
Figure BDA0002899371690000078
所述特征融合单元将前方车辆的时序特征矢量
Figure BDA0002899371690000079
和运动特征矢量
Figure BDA00028993716900000710
连接为前车的融合特征矢量
Figure BDA00028993716900000711
所述前方车辆位置预测解码器根据本车的运动预测序列M对特征矢量
Figure BDA0002899371690000081
解码,得到当前时刻t后的△个时刻的视频帧中前方车辆的预测包围框;
车辆包围框获取模块,用于获取车载视频中前方车辆的包围框序列B;
车辆包围框光流获取模块,用于获取车载视频中前方车辆包围框内的光流序列F;
本车运动信息预测模块,用于预测本车在未来时间的运动信息,构成本车运动预测序列M。
有益效果:本发明公开前方车辆位置预测方法具有以下优点:1、本发明仅基于行车记录仪拍摄的视频图像信息,有效解决了现有技术中其他方法中需要依赖多种传感器获取信息而导致的在当下生产车辆中适用性不高的的问题;2、本发明采用基于编码-解码框架的深度学习网络模型,不仅能预测前方车辆的位置,还能预测前方车辆的尺度,显著提高了其预测的性能。
附图说明
图1为本发明公开基于车载视频的前方车辆位置预测方法的流程图;
图2为视频帧车辆检测跟踪的示意图;
图3为相邻帧的光流提取方法示意图;
图4为车辆位置预测模型的结构示意图;
图5为GRU的结构示意图;
图6为运动特征提取网络的结构示意图;
图7为滑动窗示意图;
图8为实施例中预测结果示意图;
图9为本发明公开基于车载视频的前方车辆位置预测***的结构示意图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
如图1所示,本发明公开了一种基于车载视频的前方车辆位置预测方法,包括训练阶段和预测阶段,其中训练阶段包括:
S1、构建基于编解码框架的车辆位置预测模型,所述车辆位置预测模型用于根据当前时刻t之前的t-0,t-1,…,t-(T-1)时刻前方车辆包围框、所述包围框内的光流、本车在当前时刻t之后的t+1,t+2,…,t+△时刻的运动信息,预测前方车辆在当前时刻t之后的t+1,t+2,…,t+△时刻的包围框;
本实施例中,T=20,△=40;
所述车辆位置预测模型的输入包括:当前时刻t前的T个时刻的视频帧中,前方车辆的包围框序列B、前方车辆包围框内的光流序列F,以及当前时刻t后的△个时刻的视频帧中,本车的运动预测序列M;
其中B=[Bt-0,Bt-1,…,Bt-τ,…Bt-(T-1)],Bt-τ表示前方车辆在时刻t前的第τ个时刻的视频帧中的包围框,所述包围框用包围框中心点的横纵坐标xt-τ,yt-τ、包围框的宽wt-τ、高ht-τ表示,即Bt-τ=(xt-τ,yt-τ,wt-τ,ht-τ);0≤τ<T;
本发明中,前方车辆的包围框序列采用如下步骤计算:
A.1、对连续T个时刻的视频帧图像进行车辆检测,得到每帧图像中所有车辆的包围框;
本实施例采用基于Mask-RCNN建立的车辆检测模型进行车辆检测,所述车辆检测模型采用COCO数据集进行训练,其输出为图像中的车辆包围框,每个包围框用4维向量表示;视频中的图像尺寸在输入Mask-RCNN前统一缩放至1024*1024。
A.2、采用多目标跟踪算法跟踪步骤A.1得到的车辆包围框,对不同帧中同一车辆给出相同编号,按时间顺序构成T个时刻前方车辆包围框序列B。本实施例中采用Sort算法进行多目标跟踪,Sort算法是一种在线实时多目标跟踪算法,适用于车载视频中车辆的跟踪。图2为视频帧车辆检测跟踪的示意图。图2中不同时刻的两幅视频帧中检测到3辆车,对相同的车辆编号,分别为1,2,3。
F=[Ft-0,Ft-1,…,Ft-τ,…Ft-(T-1)],Ft-τ表示前方车辆在时刻t前的第τ个时刻的视频帧中的包围框内的光流图,Ft-τ={(ut-τ(p),vt-τ(p))},(ut-τ(p),vt-τ(p))为所述光流图中第p个像素点处的二维光流矢量;
所述前方车辆包围框内的光流序列采用如下步骤计算:
B.1、对连续T个时刻的视频帧图像,计算每一帧与其前一帧图像的光流,得到每一帧图像对应的光流图;本实施例采用FlowNet2算法进行相邻帧的光流计算;所述光流图中第j个像素点的二维光流矢量为:Ij=(uj,vj),uj,vj分别为光流矢量的垂直分量和水平分量;如图3所示。
B.2、在第t-τ时刻的图像对应的光流图中截取第t-τ时刻图像中前方车辆包围框覆盖部分,并缩放至预设的统一尺寸,得到第t-τ时刻的包围框内的光流图,按时间顺序构成T个时刻前方车辆包围框内的光流序列F,t-τ表示时刻t前的第τ个时刻,0≤τ<T。本实施例中,将包围框内的光流图统一缩放至224*224。
行车过程中,除了车前方场景中的车辆运动,本车自身也在运动,要预测车前方车辆的运动,也必须预测本车自身的运动。
本车的运动信息预测序列采用如下步骤计算:
C.1、对当前时刻t之前的t-0,t-1,…,t-(T-1)时刻的视频帧,计算相邻时刻视频帧Pt-τ-1和Pt-τ的相机旋转矩阵Rt-τ和平移向量Vt-τ,构成旋转矩阵序列RS和平移向量序列VS,0≤τ<T,具体包括步骤C.1-1至步骤C.1-2:
C.1-1、采用八点法,计算得到本质矩阵E,方法如下:
C.1-1-1、采用Surf算法,提取Pt-τ-1和Pt-τ的特征点,并选取8对最匹配的特征点(al,a′l),l=1,2,…,8;其中al,a′l分别表示视频帧Pt-τ-1和Pt-τ中第l对匹配的特征点像素位置在归一化平面上的坐标,al=[xl,yl,1]T,a′l=[x′l,y′l,1]T;al,a′l均为3×1的矩阵,其中T表示矩阵的转置;
C.1-1-2、将8对匹配的特征点组合,得到3×8的矩阵a和a′:
Figure BDA0002899371690000101
根据a和a′建立对极约束公式:
aTEa′=0
解上述方程组得到本质矩阵E,E为3×3的矩阵;
C.1-2、对E进行奇异值分解,得到相机的旋转矩阵Rt-τ和平移向量Vt-τ,其中Rt-τ为3×3的矩阵,Vt-τ为3维列向量;
最终得到t时刻前T个视频帧的旋转矩阵序列RS={Rt-(T-1),…,Rt-τ,…,Rt-1,Rt-0},t时刻前T个视频帧的平移向量序列VS={Vt-(T-1),…,Vt-τ,…,Vt-1,Vt-0};
C.2、对于C.1得到的RS和VS中的相机旋转矩阵和平移向量,计算每一个Rt-τ和Vt-τ与其前一时刻的累积值,所述累积值用R′t-τ和V′t-τ表示,如下公式所示:
Figure BDA0002899371690000111
Figure BDA0002899371690000112
C.3、将C.2最后计算得到的R′t-0和V′t-0传递给相机在下一时刻的旋转矩阵和平移向量,如下公式所示:
Rt+1=R′t-0
Vt+1=V′t-0
C.4、将C.3得到的Rt+1和Vt+1分别添加在C.1得到的旋转矩阵序列RS和平移向量序列VS末尾,并继续执行C.2和C.3,直到得到t时刻后△个视频帧的所有旋转矩阵{Rt+1,Rt+2,…,Rt+δ,…,Rt+△},t时刻后△个视频帧的所有平移向量{Vt+1,Vt+2,…,Vt+δ,…,Vt+△},1≤δ≤△;
C.5、计算本车在当前时刻t后△个时刻的运动向量,构成本车的运动预测序列M={Mt+1,Mt+2,…,Mt+δ,…,Mt+△},具体包括步骤C.5-1至C.5-2:
C.5-1、从旋转矩阵Rt+δ中提取相机在x,y,z轴的旋转角度信息,并用3维行向量
Figure BDA0002899371690000113
表示,其中:
Figure BDA0002899371690000114
Figure BDA0002899371690000115
Figure BDA0002899371690000116
上式中,rjk表示旋转矩阵Rt+δ中第j行第k列的值,j,k∈{1,2,3};atan2()与atan()均表示反正切函数,但是atan()求出的结果取值范围为(0,2π],atan2()求出的结果取值范围为(-π,π];
C.5-2、将向量ψt+δ与转换为三维行向量的平移向量Vt+δ T连接,组成一个6维行向量Mt+δ:Mt+δ=[ψt+δ,Vt+δ T];
最终得到本车的运动预测序列M={Mt+1,Mt+2,…,Mt+δ,…,Mt+△};
C.6、将M经过一个全连接层FC4,变换其所有运动向量的维度,使其与解码门控循环神经网络GRUd上一时刻传下来的隐藏状态矢量
Figure BDA0002899371690000122
维度一致。本实施例中全连接输出维度为512维。
所述车辆位置预测模型的输出为当前时刻t后的△个时刻的视频帧图像中前方车辆的预测包围框序列Y,Y=[Yt+1,Yt+2,…,Yt+δ,…,Yt+△];其中Yt+δ表示前方车辆在时刻t后的第δ个时刻视频帧图像中的预测包围框,所述包围框用包围框中心点的横纵坐标、包围框的宽高表示,即Yt+δ=(xt+δ,yt+δ,wt+δ,ht+δ);
如图4所示,车辆位置预测模型包括:前方车辆包围框编码器1-1、前方车辆光流编码器1-2、特征融合单元1-3、前方车辆位置预测解码器1-4;
所述前方车辆包围框编码器1-1用于对前方车辆的包围框序列B编码,得到前方车辆的时序特征矢量
Figure BDA0002899371690000121
前方车辆包围框编码器主要利用门控循环神经网络(Gated Recurrent Unit,GRU)进行编码。GRU可以只保留相关信息来进行预测,而忘记不相关的数据,其结构如图5所示,输入为当前时刻的输入Int和上一时刻GRU传下来的隐藏状态矢量ht-1,ht-1表示GRU通过内部的门结构认为过去时刻中输入序列的有用信息,在本发明中该隐藏状态矢量表示前方车辆在过去时间段的位置和尺度信息。结合Int和ht-1,GRU输出当前时刻的隐藏状态矢量ht,整个前向传播过程计算公式如下:
Figure BDA0002899371690000131
其中zt表示更新门的输出,σ()表示sigmoid函数,Wz表示更新门的权值参数,rt表示重置门的输出,Wr表示重置门的权值参数,
Figure BDA0002899371690000132
表示当前时刻待定的输出,tanh()表示双曲正切函数,
Figure BDA0002899371690000133
表示待定值的权值参数,[,]表示两个矢量相连。将上述公式组简记为:
Figure BDA0002899371690000134
其中c为具体的应用类别,U为GRUc当前时刻的输入值,V为GRUc的权值参数。
所述前方车辆包围框编码器包括编码门控循环神经网络GRUb和第一全连接层FC1;所述GRUb的输入为前方车辆的包围框序列B中每个时刻的包围框Bt-τ,以及上一时刻GRUb传下来的隐藏状态矢量
Figure BDA0002899371690000135
输出为当前时刻的前方车辆包围框编码结果
Figure BDA0002899371690000136
FC1对GRUb最终输出
Figure BDA0002899371690000137
进行维度变换,得到当前时刻t前方车辆的时序特征矢量
Figure BDA0002899371690000138
编码门控循环神经网络GRUb的结构为:
Figure BDA0002899371690000139
其中φ()表示使用ReLU激活函数进行线性映射,θb表示GRUb中的权值参数V。本实施例中,
Figure BDA00028993716900001310
的维度为512,FC1
Figure BDA00028993716900001311
的维度变换为256,即
Figure BDA00028993716900001312
的维度为256。
所述前方车辆光流编码器1-2用于对前方车辆包围框内的光流序列F编码,得到前方车辆的运动特征矢量
Figure BDA00028993716900001313
所述前方车辆光流编码器包括基于CNN的运动特征提取网络FEN和第二全连接层FC2;所述FEN的输入为前方车辆包围框内的光流序列F,输出为当前时刻的前方车辆包围框内光流编码结果;如图6所示,所述FEN基于ResNet50架构,包括依次连接的一个卷积层conv1,一个Relu层、一个最大池化层maxPool、4个残差学习块,如图6-(a)所示;其中conv1的输入通道数为2m,m为对光流序列F中光流图的采样数,即从F中均匀采样m个光流图,本实施例中m=10;4个残差学习块均为为三层结构,即每个残差学习块为3个串接在一起的卷积网络层Conv2和Relu层,如图6-(b)所示。
对前方车辆包围框内的光流序列F均匀采样m个光流图,每一个光流图的垂直分量和水平分量,看作光流图的两个通道。m个光流图的垂直分量和水平分量构成2m个光流分量输入FEN中,FEN的输出为当前时刻的前方车辆包围框内光流图中的运动特征;本实施例中FEN提取的运动特征维度为2048维,FC2将FEN输出的运动特征的维度变换为256,得到当前时刻t前方车辆的256维运动特征矢量
Figure BDA0002899371690000141
所述特征融合单元1-3将前方车辆的时序特征矢量
Figure BDA0002899371690000142
和运动特征矢量
Figure BDA0002899371690000143
连接为前车的融合特征矢量
Figure BDA0002899371690000144
Figure BDA0002899371690000145
表示车辆包围框历史信息和光流历史信息,即前方车辆在过去时间段中不同时间点的位置、尺度、外观和运动信息;本实施例中,
Figure BDA0002899371690000146
为512维矢量。
所述前方车辆位置预测解码器1-4根据本车的运动预测序列M对特征矢量
Figure BDA0002899371690000147
解码,得到当前时刻t后的△个时刻的视频帧中前方车辆的预测包围框;
所述前方车辆位置预测解码器包括解码门控循环神经网络GRUd和第三全连接层FC3;所述GRUd的输入为t+δ时刻本车运动信息预测值Mt+δ与上一时刻GRUd传下来的隐藏状态矢量
Figure BDA0002899371690000148
的融合矢量Mht+δ,以及上一时刻GRUd传下来的隐藏状态矢量
Figure BDA0002899371690000149
1≤δ≤△,
Figure BDA00028993716900001410
输出为t+δ时刻前方车辆包围框解码结果
Figure BDA00028993716900001411
FC3
Figure BDA00028993716900001412
进行维度变换,转换为4维矢量,得到t+δ时刻前方车辆包围框。
解码门控循环神经网络GRUd的结构为:
Figure BDA0002899371690000151
其中θd为GRUd中的权值参数V。
本实施例中,融合矢量Mht+δ的计算为:
对6维向量Mt+δ采用第四全连接层FC4变换为512维向量
Figure BDA0002899371690000152
Figure BDA0002899371690000153
使用ReLU激活函数进行线性映射,对线性映射后的向量与
Figure BDA0002899371690000154
相加后求平均,得到512维的融合矢量Mht+δ
Figure BDA0002899371690000155
其中Average()表示对两个矢量相加后求平均。
S2、构建样本集并对车辆位置预测模型进行训练,包括:
S2-1、采集能够拍摄到前车的多个时长为s的车载视频片段,对每个视频片段中的视频帧进行采样,并确定采样后的视频帧中前方车辆的包围框序列Btr、包围框内的光流序列Ftr和视频帧对应时刻本车的运动信息序列Mtr,构成样本集;
S2-2、将样本集划分为训练集和验证集;设置学习率σ,批处理数量N;
S2-3、训练过程采用Adam优化器,根据训练集样本数和N确定训练批次N′;将训练样本中的视频片段前s′时长的视频帧对应的Btr、Ftr,后s″时长的视频帧对应的Mtr作为车辆位置预测模型的输入,后s″时长的视频帧对应的Btr作为输出,对所述模型进行训练,保存模型参数,并用验证集验证模型的预测准确度;s′+s″=s;
S2-4、选择N′批训练中预测准确度最高的模型参数作为车辆位置预测模型的参数;
本实施例中,采集1000个视频片段,每个片段时长为3秒,每秒20帧,根据前1秒内的车辆包围框预测后2秒内该车辆的包围框;训练集占样本集的70%,验证集占30%。训练过程采用Adam优化器,固定学习率为0.0005,批处理数量为64,共训练40批次。训练中计算车辆的实际包围框序列
Figure BDA0002899371690000156
与预测结果中的包围框Y的差值,使用smoothL1损失函数,反馈误差,优化并保存最终的网络权重参数;损失函数如下式所示:
Figure BDA0002899371690000161
其中|·|表示计算向量的模。
预测阶段包括:
车辆上设置可以拍摄前方车辆的摄像头,获取所述摄像头在车辆行驶中采集的视频数据;
对视频中每一帧图像进行车辆检测与跟踪,得到每一辆前车的包围框序列,并存入Btest(i)中,i为前车编号;同时计算包围框内的光流,存入Ftest(i);获取本车在未来帧中的运动信息,存入序列Mtest
在序列Btest(i)和Ftest(i)中采用长度为T的第一滑动窗SW-1,在序列Mtest中采用长度为△的第二滑动窗SW-2,分别截取当前时刻t前的T个视频帧中车辆i的包围框、所述包围框内的光流,以及当前时刻t后的△个视频帧中本车的运动信息预测值,输入训练好的车辆位置预测模型中,得到前方车辆i在当前时刻t后的△个视频帧中的包围框序列Y′(i)=[Y′t+1(i),Y′t+2(i),…,Y′t+δ(i),…,Y′t+△(i)],计算前方车辆i的包围框在当前时刻视频帧中的相对位置:
Figure BDA0002899371690000162
其中Btest,t+0(i)为前方车辆i在当前时刻t的包围框;1≤δ≤△;滑动窗的如图7所示。随着时间的持续,两个滑动窗均前进一格,进行下一时刻前车位置的检测。
根据Y′(i)中包围框的中心得到前方车辆i的预测轨迹;根据Y′(i)中包围框的宽高得到前方车辆i尺度。
本实施例中,将预测结果在当前时刻的视频帧中显示出来,如图8所示。
如图9所示,本发明还公开了实现上述基于车载视频的前方车辆位置预测方法的预测***,包括:
基于编解码框架的车辆位置预测模型1,用于根据当前时刻t之前的t-0,t-1,…,t-(T-1)时刻前方车辆包围框、所述包围框内的光流、本车在当前时刻t之后的t+1,t+2,…,t+△时刻的运动信息,预测前方车辆在当前时刻t之后的t+1,t+2,…,t+△时刻的包围框;
所述车辆位置预测模型包括:前方车辆包围框编码器1-1、前方车辆光流编码器1-2、特征融合单元1-3、前方车辆位置预测解码器1-4;
所述前方车辆包围框编码器用于对前方车辆的包围框序列B编码,得到前方车辆的时序特征矢量
Figure BDA0002899371690000176
所述前方车辆光流编码器用于对前方车辆包围框内的光流序列F编码,得到前方车辆的运动特征矢量
Figure BDA0002899371690000175
所述特征融合单元将前方车辆的时序特征矢量
Figure BDA0002899371690000173
和运动特征矢量
Figure BDA0002899371690000174
连接为前车的融合特征矢量
Figure BDA0002899371690000172
所述前方车辆位置预测解码器根据本车的运动信息预测序列M对特征矢量
Figure BDA0002899371690000171
解码,得到当前时刻t后的△个时刻的视频帧中前方车辆的预测包围框;
车辆包围框获取模块2,用于获取车载视频中前方车辆的包围框序列B;
车辆包围框光流获取模块3,用于获取车载视频中前方车辆包围框内的光流序列F;
本车运动信息预测模块4,用于预测本车在未来时间的运动信息,构成本车运动预测序列M。

Claims (10)

1.一种基于车载视频的前方车辆位置预测方法,包括训练阶段和预测阶段,其特征在于,所述训练阶段包括:
S1、构建基于编解码框架的车辆位置预测模型,所述车辆位置预测模型用于根据当前时刻t之前的t-0,t-1,…,t-(T-1)时刻前方车辆包围框、所述包围框内的光流、本车在当前时刻t之后的t+1,t+2,…,t+△时刻的运动信息,预测前方车辆在当前时刻t之后的t+1,t+2,…,t+△时刻的包围框;
所述车辆位置预测模型的输入包括:当前时刻t前的T个时刻的视频帧中,前方车辆的包围框序列B、前方车辆包围框内的光流序列F,以及当前时刻t后的△个时刻的视频帧中,本车的运动预测序列M;
所述车辆位置预测模型的输出为当前时刻t后的△个时刻的视频帧图像中前方车辆的预测包围框序列Y;
所述车辆位置预测模型包括:前方车辆包围框编码器、前方车辆光流编码器、特征融合单元、前方车辆位置预测解码器;
所述前方车辆包围框编码器用于对前方车辆的包围框序列B编码,得到前方车辆的时序特征矢量
Figure FDA0002899371680000011
所述前方车辆光流编码器用于对前方车辆包围框内的光流序列F编码,得到前方车辆的运动特征矢量
Figure FDA0002899371680000012
所述特征融合单元将前方车辆的时序特征矢量
Figure FDA0002899371680000013
和运动特征矢量
Figure FDA0002899371680000014
连接为前车的融合特征矢量
Figure FDA0002899371680000016
所述前方车辆位置预测解码器根据本车的运动预测序列M对特征矢量
Figure FDA0002899371680000015
解码,得到当前时刻t后的△个时刻的视频帧中前方车辆的预测包围框;
S2、构建样本集并对车辆位置预测模型进行训练,包括:
S2-1、采集能够拍摄到前车的多个时长为s的车载视频片段,对每个视频片段中的视频帧进行采样,并确定采样后的视频帧中前方车辆的包围框序列Btr、包围框内的光流序列Ftr和视频帧对应时刻本车的运动预测序列Mtr,构成样本集;
S2-2、将样本集划分为训练集和验证集;设置学习率σ,批处理数量N;
S2-3、训练过程采用Adam优化器,根据训练集样本数和N确定训练批次N′;将训练样本中的视频片段前s′时长的视频帧对应的Btr、Ftr,后s″时长的视频帧对应的Mtr作为车辆位置预测模型的输入,后s″时长的视频帧对应的Btr作为输出,对所述模型进行训练,保存模型参数,并用验证集验证模型的预测准确度;s′+s″=s;
S2-4、选择N′批训练中预测准确度最高的模型参数作为车辆位置预测模型的参数;
所述预测阶段包括:
车辆上设置可以拍摄前方车辆的摄像头,获取所述摄像头在车辆行驶中采集的视频数据;
对视频中每一帧图像进行车辆检测与跟踪,得到每一辆前车的包围框序列,并存入Btest(i)中,i为前车编号;同时计算包围框内的光流,存入Ftest(i);获取本车在未来帧中的运动信息,存入序列Mtest
在序列Btest(i)和Ftest(i)中采用长度为T的第一滑动窗,在序列Mtest中采用长度为△的第二滑动窗,分别截取当前时刻t前的T个视频帧中车辆i的包围框、所述包围框内的光流,以及当前时刻t后的△个视频帧中本车的运动信息预测值,输入训练好的车辆位置预测模型中,得到前方车辆i在当前时刻t后的△个视频帧中的包围框序列Y′(i)=[Y′t+1(i),Y′t+2(i),…,Y′t+δ(i),…,Y′t+△(i)],计算前方车辆i的包围框在当前时刻视频帧中的相对位置:
Figure FDA0002899371680000021
其中Btest,t+0(i)为前方车辆i在当前时刻t的包围框;1≤δ≤△;
根据Y′(i)中包围框的中心得到前方车辆i的预测轨迹;根据Y′(i)中包围框的宽高得到前方车辆i尺度。
2.根据权利要求1所述的前方车辆位置预测方法,其特征在于,所述前方车辆的包围框序列采用如下步骤计算:
A.1、对连续T个时刻的视频帧图像进行车辆检测,得到每帧图像中所有车辆的包围框;
A.2、采用多目标跟踪算法跟踪步骤A.1得到的车辆包围框,对不同帧中同一车辆给出相同编号,按时间顺序构成T个时刻前方车辆包围框序列B。
3.根据权利要求1所述的前方车辆位置预测方法,其特征在于,所述前方车辆包围框内的光流序列采用如下步骤计算:
B.1、对连续T个时刻的视频帧图像,计算每一帧与其前一帧图像的光流,得到每一帧图像对应的光流图;所述光流图中第j个像素点的二维光流矢量为:Ij=(uj,vj),uj,vj分别为光流矢量的垂直分量和水平分量;
B.2、在第t-τ个时刻的图像对应的光流图中截取第t-τ个时刻图像中前方车辆包围框覆盖部分,并缩放至预设的统一尺寸,得到第t-τ个时刻的包围框内的光流图,按时间顺序构成T个时刻前方车辆包围框内的光流序列F,t-τ表示时刻t前的第τ个时刻,0≤τ<T。
4.根据权利要求1所述的前方车辆位置预测方法,其特征在于,所述本车的运动预测序列采用如下步骤计算:
C.1、对当前时刻t之前的t-0,t-1,…,t-(T-1)时刻的视频帧,计算相邻时刻视频帧Pt-τ-1和Pt-τ的相机旋转矩阵Rt-τ和平移向量Vt-τ,构成旋转矩阵序列RS和平移向量序列VS,0≤τ<T,具体包括步骤C.1-1至步骤C.1-2:
C.1-1、采用八点法,计算得到本质矩阵E,方法如下:
C.1-1-1、采用Surf算法,提取Pt-τ-1和Pt-τ的特征点,并选取8对最匹配的特征点(al,a′l),l=1,2,…,8;其中al,a′l分别表示视频帧Pt-τ-1和Pt-τ中第l对匹配的特征点像素位置在归一化平面上的坐标,al=[xl,yl,1]T,a′l=[x′l,y′l,1]T;al,a′l均为3×1的矩阵,其中T表示矩阵的转置;
C.1-1-2、将8对匹配的特征点组合,得到3×8的矩阵a和a′:
Figure FDA0002899371680000031
根据a和a′建立对极约束公式:
aTEa′=0
解上述方程组得到本质矩阵E,E为3×3的矩阵;
C.1-2、对E进行奇异值分解,得到相机的旋转矩阵Rt-τ和平移向量Vt-τ,其中Rt-τ为3×3的矩阵,Vt-τ为3维列向量;
最终得到t时刻前T个视频帧的旋转矩阵序列RS={Rt-(T-1),…,Rt-τ,…,Rt-1,Rt-0},t时刻前T个视频帧的平移向量序列VS={Vt-(T-1),…,Vt-τ,…,Vt-1,Vt-0};
C.2、对于C.1得到的RS和VS中的相机旋转矩阵和平移向量,计算每一个Rt-τ和Vt-τ与其前一时刻的累积值,所述累积值用R′t-τ和V′t-τ表示,如下公式所示:
Figure FDA0002899371680000041
Figure FDA0002899371680000042
C.3、将C.2最后计算得到的R′t-0和V′t-0传递给相机在下一时刻的旋转矩阵和平移向量,如下公式所示:
Rt+1=R′t-0
Vt+1=V′t-0
C.4、将C.3得到的Rt+1和Vt+1分别添加在C.1得到的旋转矩阵序列RS和平移向量序列VS末尾,并继续执行C.2和C.3,直到得到t时刻后Δ个视频帧的所有旋转矩阵{Rt+1,Rt+2,…,Rt+δ,…,Rt+△},t时刻后△个视频帧的所有平移向量{Vt+1,Vt+2,…,Vt+δ,…,Vt+△},1≤δ≤△;
C.5、计算本车在当前时刻t后△个时刻的运动向量,构成本车的运动预测序列M={Mt+1,Mt+2,…,Mt+δ,…,Mt+△},具体包括步骤C.5-1至C.5-2:
C.5-1、从旋转矩阵Rt+δ中提取相机在x,y,z轴的旋转角度信息,并用3维行向量
Figure FDA0002899371680000043
表示,其中:
Figure FDA0002899371680000044
Figure FDA0002899371680000045
Figure FDA0002899371680000051
上式中,rjk表示旋转矩阵Rt+δ中第j行第k列的值,j,k∈{1,2,3};atan2()与atan()均表示反正切函数,但是atan()求出的结果取值范围为(0,2π],atan2()求出的结果取值范围为(-π,π];
C.5-2、将向量ψt+δ与转换为三维行向量的平移向量Vt+δ T连接,组成一个6维行向量Mt+δ:Mt+δ=[ψt+δ,Vt+δ T];
最终得到本车的运动预测序列M={Mt+1,Mt+2,…,Mt+δ,…,Mt+△};
C.6、将M经过一个全连接层FC4,变换其所有运动向量的维度。
5.根据权利要求1所述的前方车辆位置预测方法,其特征在于,所述前方车辆包围框编码器包括编码门控循环神经网络GRUb和第一全连接层FC1;所述GRUb的输入为前方车辆的包围框序列B中每个时刻的包围框Bt-τ,以及上一时刻GRUb传下来的隐藏状态矢量
Figure FDA0002899371680000052
输出为当前时刻的前方车辆包围框编码结果
Figure FDA0002899371680000053
FC1对GRUb最终输出
Figure FDA0002899371680000054
进行维度变换,得到当前时刻t前方车辆的时序特征矢量
Figure FDA0002899371680000055
6.根据权利要求1所述的前方车辆位置预测方法,其特征在于,所述前方车辆光流编码器包括基于CNN的运动特征提取网络FEN和第二全连接层FC2;所述FEN的输入为前方车辆包围框内的光流序列F,输出为当前时刻的前方车辆包围框内光流编码结果;所述FEN基于ResNet50架构,包括依次连接的一个卷积层conv1,一个Relu层、一个最大池化层maxPool、4个残差学习块;其中conv1的输入通道数为2m,m为对光流序列F中光流图的采样数,即从F中均匀采样m个光流图;4个残差学习块均为三层结构,即每个残差学习块为3个串接在一起的卷积网络层和Relu层;
对前方车辆包围框内的光流序列F均匀采样m个光流图,m个光流图的垂直分量和水平分量构成2m个光流分量输入FEN中,FEN的输出为当前时刻的前方车辆包围框内光流图中的运动特征;
FC2对FEN输出的运动特征进行维度变换,得到当前时刻t前方车辆的运动特征矢量
Figure FDA0002899371680000061
7.根据权利要求1所述的前方车辆位置预测方法,其特征在于,所述前方车辆位置预测解码器包括解码门控循环神经网络GRUd和第三全连接层FC3;所述GRUd的输入为t+δ时刻本车运动信息预测值Mt+δ与上一时刻GRUd传下来的隐藏状态矢量
Figure FDA0002899371680000062
的融合矢量Mht+δ,以及上一时刻GRUd传下来的隐藏状态矢量
Figure FDA0002899371680000063
1≤δ≤△,
Figure FDA0002899371680000064
输出为t+δ时刻前方车辆包围框解码结果
Figure FDA0002899371680000065
FC3
Figure FDA0002899371680000066
进行维度变换,得到t+δ时刻前方车辆包围框。
8.一种基于车载视频的前方车辆位置预测***,其特征在于,包括:
基于编解码框架的车辆位置预测模型,用于根据当前时刻t之前的t-0,t-1,…,t-(T-1)时刻前方车辆包围框、所述包围框内的光流、本车在当前时刻t之后的t+1,t+2,…,t+△时刻的运动信息,预测前方车辆在当前时刻t之后的t+1,t+2,…,t+△时刻的包围框;
所述车辆位置预测模型包括:前方车辆包围框编码器、前方车辆光流编码器、特征融合单元、前方车辆位置预测解码器;
所述前方车辆包围框编码器用于对前方车辆的包围框序列B编码,得到前方车辆的时序特征矢量
Figure FDA0002899371680000067
所述前方车辆光流编码器用于对前方车辆包围框内的光流序列F编码,得到前方车辆的运动特征矢量
Figure FDA0002899371680000068
所述特征融合单元将前方车辆的时序特征矢量
Figure FDA0002899371680000069
和运动特征矢量
Figure FDA00028993716800000610
连接为前车的融合特征矢量
Figure FDA00028993716800000611
所述前方车辆位置预测解码器根据本车的运动预测序列M对特征矢量
Figure FDA00028993716800000612
解码,得到当前时刻t后的△个时刻的视频帧中前方车辆的预测包围框;
车辆包围框获取模块,用于获取车载视频中前方车辆的包围框序列B;
车辆包围框光流获取模块,用于获取车载视频中前方车辆包围框内的光流序列F;
本车运动信息预测模块,用于预测本车在未来时间的运动信息,构成本车运动预测序列M。
9.根据权利要求8所述的前方车辆位置预测***,其特征在于,所述前方车辆包围框编码器包括编码门控循环神经网络GRUb和第一全连接层FC1;所述GRUb的输入为前方车辆的包围框序列B中每个时刻的包围框Bt-τ,以及上一时刻GRUb传下来的隐藏状态矢量
Figure FDA0002899371680000071
输出为当前时刻的前方车辆包围框编码结果
Figure FDA0002899371680000072
FC1对GRUb最终输出
Figure FDA0002899371680000073
进行维度变换,得到当前时刻t前方车辆的时序特征矢量
Figure FDA0002899371680000074
10.根据权利要求8所述的前方车辆位置预测***,其特征在于,所述前方车辆光流编码器包括基于CNN的运动特征提取网络FEN和第二全连接层FC2;所述FEN的输入为前方车辆包围框内的光流序列F,输出为当前时刻的前方车辆包围框内光流编码结果;所述FEN基于ResNet50架构,包括依次连接的一个卷积层conv1,一个Relu层、一个最大池化层maxPool、4个残差学习块;其中conv1的输入通道数为2m,m为对光流序列F中光流图的采样数,即从F中均匀采样m个光流图;4个残差学习块均为三层结构,即每个残差学习块为3个串接在一起的卷积网络层和Relu层;
对前方车辆包围框内的光流序列F均匀采样m个光流图,m个光流图的垂直分量和水平分量构成2m个光流分量输入FEN中,FEN的输出为当前时刻的前方车辆包围框内光流图中的运动特征;
FC2对FEN输出的运动特征进行维度变换,得到当前时刻t前方车辆的运动特征矢量
Figure FDA0002899371680000075
CN202110051940.3A 2021-01-15 2021-01-15 一种基于车载视频的前方车辆位置预测方法和预测*** Active CN112800879B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110051940.3A CN112800879B (zh) 2021-01-15 2021-01-15 一种基于车载视频的前方车辆位置预测方法和预测***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110051940.3A CN112800879B (zh) 2021-01-15 2021-01-15 一种基于车载视频的前方车辆位置预测方法和预测***

Publications (2)

Publication Number Publication Date
CN112800879A CN112800879A (zh) 2021-05-14
CN112800879B true CN112800879B (zh) 2022-08-26

Family

ID=75811025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110051940.3A Active CN112800879B (zh) 2021-01-15 2021-01-15 一种基于车载视频的前方车辆位置预测方法和预测***

Country Status (1)

Country Link
CN (1) CN112800879B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610900B (zh) * 2021-10-11 2022-02-15 深圳佑驾创新科技有限公司 车尾序列尺度变化预测方法、装置和计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846854A (zh) * 2018-05-07 2018-11-20 中国科学院声学研究所 一种基于运动预测与多特征融合的车辆跟踪方法
CN111914664A (zh) * 2020-07-06 2020-11-10 同济大学 基于重识别的车辆多目标检测和轨迹跟踪方法
CN111931905A (zh) * 2020-07-13 2020-11-13 江苏大学 一种图卷积神经网络模型、及利用该模型的车辆轨迹预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846854A (zh) * 2018-05-07 2018-11-20 中国科学院声学研究所 一种基于运动预测与多特征融合的车辆跟踪方法
CN111914664A (zh) * 2020-07-06 2020-11-10 同济大学 基于重识别的车辆多目标检测和轨迹跟踪方法
CN111931905A (zh) * 2020-07-13 2020-11-13 江苏大学 一种图卷积神经网络模型、及利用该模型的车辆轨迹预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于CNN和LSTM混合模型的车辆行为检测方法;王硕等;《智能计算机与应用》;20200201(第02期);全文 *

Also Published As

Publication number Publication date
CN112800879A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
Yang et al. Top-view trajectories: A pedestrian dataset of vehicle-crowd interaction from controlled experiments and crowded campus
CN109740419A (zh) 一种基于Attention-LSTM网络的视频行为识别方法
Bai et al. Deep learning based motion planning for autonomous vehicle using spatiotemporal LSTM network
Piccoli et al. Fussi-net: Fusion of spatio-temporal skeletons for intention prediction network
CN109284682B (zh) 一种基于stt-lstm网络的手势识别方法及***
CN110516633B (zh) 一种基于深度学习的车道线检测方法及***
CN110599521B (zh) 生成易受伤害道路使用者轨迹预测模型的方法及预测方法
CN113592905B (zh) 基于单目摄像头的车辆行驶轨迹预测方法
CN111402632B (zh) 一种交叉口行人运动轨迹的风险预测方法
CN111292366A (zh) 一种基于深度学习和边缘计算的视觉行车测距算法
CN114820708A (zh) 一种基于单目视觉运动估计的周边多目标轨迹预测方法、模型训练方法及装置
CN112800879B (zh) 一种基于车载视频的前方车辆位置预测方法和预测***
CN117274749B (zh) 一种基于4d毫米波雷达和图像的融合3d目标检测方法
CN113435356B (zh) 一种克服观察噪声与感知不确定性的轨迹预测方法
CN114299473A (zh) 一种基于多源信息融合的驾驶员行为识别方法
CN117058474B (zh) 一种基于多传感器融合的深度估计方法及***
CN114620059B (zh) 一种自动驾驶方法及其***、计算机可读存储介质
CN114048536A (zh) 一种基于多任务神经网络的道路结构预测与目标检测方法
CN112733734A (zh) 一种基于黎曼流形特征和lstm网络相结合的交通异常事件检测方法
Lee et al. Low computational vehicle lane changing prediction using drone traffic dataset
Wang et al. An end-to-end auto-driving method based on 3D LiDAR
Wang et al. LSTM-based prediction method of surrounding vehicle trajectory
CN115661786A (zh) 一种区域预搜索的轨道障碍物小目标检测方法
Du et al. Unsupervised pedestrian pose prediction: A deep predictive coding network-based approach for autonomous vehicle perception
Liu et al. End-to-end control of autonomous vehicles based on deep learning with visual attention

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant