CN113592905B

CN113592905B - 基于单目摄像头的车辆行驶轨迹预测方法

Info

Publication number: CN113592905B
Application number: CN202110787434.0A
Authority: CN
Inventors: 童超; 王御臣; 韦应波
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2023-07-07
Anticipated expiration: 2041-07-12
Also published as: CN113592905A

Abstract

提出一种基于单目摄像头的车辆行驶轨迹预测方法。该方法共分为两大步骤。第一个步骤是对视频序列中车辆距离拍摄车辆的距离进行检测，并结合搭载摄像头的车辆所在的位置将距离变换为世界坐标系下的位置信息，对视频中的多帧图像进行检测之后，将图像序列中连续的位置信息构成车辆的历史行驶轨迹。第二个步骤是通过车辆的历史行驶轨迹，结合车辆的行驶轨迹预测算法，对车辆的行驶轨迹进行预测。

Description

基于单目摄像头的车辆行驶轨迹预测方法

技术领域

本权利提出一种基于单目摄像头的车辆行驶轨迹预测方法，只通过车载单目摄像头对车辆行驶轨迹进行预测，大幅降低对车辆行驶轨迹进行预测的成本，属于图像数据处理_(G06T)领域。

背景技术

汽车是每一名现代人都会接触到的交通工具，它极大地方便了我们的日常生活。但同时，来来往往的车流也给我们的安全带来了隐患。由《世界卫生组织》所发布的数据，在全世界范围内每年约有120万人因交通事故死亡，也就是说每天约有3500人死于交通事故。而因车祸导致伤残的人数更多，造成了大量的经济损失。尽管各国都在继续完善交通规则，厂商也为车辆增加诸如自动巡航、防抱死、紧急停车等附加功能，交管部门也对司机的考核提出了更高的要求，但交通事故的发生总是在所难免。司机的驾驶能力、驾驶过程中的精神状况以及司机的情绪波动都会对行车安全造成影响，如何将人为因素造成交通事故的概率降低是一个亟待解决的问题。

计算机是当代发展最为快速的行业之一，尤其是计算机的硬件计算能力的提升更是令人瞠目结舌，这使得人工智能技术在诸多领域中有了越来越广阔的应用。现如今，人工智能算法在各个行业都有着极为广泛的应用。智能驾驶技术是人工智能技术得以广泛应用的一个行业之一，也是现如今学术界与企业界的研究热点。搭载了智能驾驶***的车辆一般由大量的传感器单元以及相应的决策控制***与执行决策的执行模块组成。传感器对于车辆而言相当于人类的感官，帮助车辆获取周围的信息，决策***相当于人脑，结合传感器获取到的信息，分析周围环境，做出合理的驾驶决策，通过执行模块来控制车辆的行动。目前无论是辅助驾驶***还是自动驾驶***都在逐步投入使用。若该类技术能对传统驾驶方式中的缺陷进行补足，将能大大减少因为人的因素而造成的交通事故，提升驾驶安全性，提升驾驶体验。

无人驾驶车辆以及辅助驾驶***常用的传感器为摄像头与激光雷达。摄像头可以感知周围环境的视觉信息，技术成熟，分辨率高而且价格低廉。其缺陷在于感知的信息需要进行较多的后续处理，且处理过程复杂，容易对结果的精度产生影响；激光雷达可以快速精确地对周围环境进行全方位的感知，获知障碍物的位置，但其成本较高，对智能驾驶的普及造成了一定的困难。因此，出于场景、成本、性能等多方面的原因，摄像头可以作为自动驾驶***的传感器，以获取车辆周围的环境信息。

轨迹预测是提升自动驾驶***以及辅助驾驶***对复杂路况处理能力的重要技术，通过对车辆四周运动的车辆进行检测，并收集这些车辆在过去一段时间的行驶轨迹，对其未来一段时间的行驶状态以及行驶轨迹做预测。若能使自动驾驶***在一定程序上拥有人类驾驶员对路面上其他车辆的预测能力，则可让自动驾驶***在复杂多变的交通环境下拥有更强大的应变能力，提升智能驾驶***的安全系数与驾驶表现。

单目摄像头是车辆上常见的传感器之一，其成本低廉且易于加装到几乎任何一种车辆上，具有较强的可扩展性。在现代芯片与光学元件制造工艺的帮助下，在车辆的设计过程中，添加单目摄像头单元对成本与设计难度的影响较小，可低成本对车辆获取周围环境的能力产生明显的提升。对单目摄像头而言，其优势在于成本低廉且可通过图像的方式获取到丰富的环境信息，但获取到的图像信息并不直接包含场景中目标精确的位置信息，对于需要获取目标在世界坐标系下位置信息的应用而言，这是一个很大的弊端。

由于通过摄像头所获取到的图像并不直接包含周围环境的位置信息，因此需要通过算法，对图像序列中的信息进行提取，提取的信息内容包括物体的位置、速度等。真实的场景中，有大量的动态目标，若无人驾驶***或辅助驾驶***可以对周围运动目标的状态信息准确捕捉并做出预测，可以使得路径规划算法的准确度大幅提升，获得更加稳定可靠的路径规划结果。

对车辆搭载的单目摄像头所拍摄出的视频中的目标进行识别，并依据识别与检测结果对视频中车辆的轨迹进行预测与分析，是智能交通领域的一个重要的研究方向。通过对单目摄像头拍摄的视频中车辆的行驶轨迹进行预测，可以在控制成本的同时，大幅提升车辆的路径规划***的决策能力，使辅助驾驶***与自动驾驶***具有更优的安全性能，在智能驾驶发展如火如荼的今天有着巨大的研究意义，并将在实际的生产环境中发挥出巨大的价值。

发明内容

针对上述提到的问题，本权利旨在从交通场景以及实际应用的需求出发，以提升自动驾驶车辆的安全性为目标，结合现有的数据以及深度学习相关技术，提出了一种基于单目摄像头的车辆行驶轨迹预测方法。

基于车载摄像头的车辆行驶轨迹预测方法主要通过车载摄像头拍摄的视频对视频中车辆的行驶轨迹进行预测。从预测过程的角度该方法共分为两大步骤。第一个步骤是对视频序列中车辆距离拍摄车辆的距离进行检测，并结合搭载摄像头的车辆所在的位置将距离变换为世界坐标系下的位置信息，对视频中的多帧图像进行检测之后，将图像序列中连续的位置信息构成车辆的历史行驶轨迹。第二个步骤是通过车辆的历史行驶轨迹，结合车辆的行驶轨迹预测算法，对车辆的行驶轨迹进行预测。针对这两个步骤基于单目摄像头的车辆行驶轨迹预测方法首先基于现有的大规模数据集Argoverse(在https:// arxiv.org/abs/1911.02620可获得)设计了一套完善的数据集构造算法，构造了符合本方法任务所需要的数据集，然后构建了车辆模型距离检测模型获取车辆轨迹信息、并采用基于图与交互信息的车辆行驶轨迹预测模型进行训练以预测车辆行驶轨迹。

所述步骤具体包括两大步，第一步骤包括子步骤A1与子步骤A2；所述第二步骤包括子步骤A3；

子步骤A1用于，数据集生成

利用argoverse数据集中的3D跟踪部分，构造符合需要的数据集，并对数据集中的数据量、数据分布等进行了统计，具体的数据集生成算法如下：

首先需要的图像标注数据需要从argoverse数据集中3D标记信息获得,采用argoverse数据集正前方环绕摄像头拍摄的图像作为原始图像，在argoverse数据集中，摄像头拍摄的图像与激光雷达获取到的点云数据的时间戳并不完全同步，因此在对图像中的车辆信息进行标注时，用图像在拍摄时间上间隔最小的点云数据为依据进行标注。对与一张给定的图像I，与图像对应的点云数据的获取过程可由下式表示：

式中timestamp_I表示图像I的时间戳，timestamp_S表示激光雷达信息的时间戳，满足条件的timestamp_S即为给定图像I所对应的点云数据，获取到与图像所对应的点云数据后，通过相机标定算法，利用点云数据中的标记信息对图像中的车辆进行标定，对于argoverse数据集中图像序列内的每一张图像，对其进行处理，生成完整的图像序列标注label的算法如下：

S1_1：输入点云标注时间戳集合T，点云标注集合S，图像I和图像时间戳timestamp_I；

S1_2：对于点云标注时间戳集合T中的每一个timestamp_I，计算timestamp_I和timestamp_S的时间间隔，并将timestamp_S与时间间隔储存于interval_timestamp_map中；

S1_3：在步骤S2中找到最小时间间隔interval_timestamp_map所对应的timestamp_S，保存为min_timestamp_S，再通过相机标定算法将点云标记中所有标记转换为图像标记集合Label_all；

S1_4：在步骤S1_3中得到的图像标记集合Label_all中的每一个标注label，根据标注数据label数值在指定的阈值范围情况，如果label在图像范围内，则保留label,否则从Label_all移除该标注label。

子步骤A2用于，训练车辆距离检测模型获取车辆的位置信息序列

S2_1：问题定义

在图像序列中识别车辆的位置信息有如下定义。图像序列的定义表示为IS＝{Ii|i∈(1,2,.....,T)}，其中，I_S表示图像序列的集合，I_i表示图像序列中的每一张图像，图像序列中共有T张图像，对于每一张图像中的每一个待检测距离的车辆，均有与之对应的边界框标记，标记信息可由下式表示：

式中B_i表示第i个图像中所有车辆边界框的集合，r，I，b，t分别表示边界框的右边界、左边界、下边界、上边界的坐标，k表示图像中车辆的编号,N表示图像中共有N辆待识别的车辆。图像序列中包含连续的拍摄到的车辆，车辆的位置信息经过检测后，会得到车辆的位置信息序列。

车辆的位置信息序列定义为：D_S＝{D_i|i∈(1,2,.....,T)}，其中，D_S表示图像序列集合所对应的车辆位置信息集合，D_i表示图像序列中每一帧图像所对应图像上所有的车辆的位置信息。D_i中的信息可由下式表示：

上式中

在几何上是拍摄车辆与被拍摄车辆的相对位置所构成直角三角形的两直角边。

在图像信息之外，相机自身的参数信息对于距离检测算法也十分重要。相机的参数可由下式表示：

M＝{f_x,f_y,c_x,c_y}

其中f_x,f_y,c_x,c_y分别表示相机以车道方向为参照的标准直角坐标系x，y方向的焦距以及主点的坐标，M是相机参数的集合。模型通过对单张图像中的车辆进行距离检测，主要通过完成

过程来实现/>

的转换过程。

S2_2：车辆模型距离检测模型构建

车辆模型距离检测模型根据网络结构由三个子模块组成。

(1)第一个模块为相机参数与边界框模块。用来粗略地获取被拍摄车辆距离拍摄车辆的距离范围，对于图像中的第k个车辆，使用t_k,b_k,l_k,r_k分别表示车辆边界框的上、下、左、右边界的坐标，f_x,f_y,c_x,c_y表示相机的横、综焦距参数以及主点坐标，则该模块的特征F_p生成过程可用下式表示；

(2)第二部分是光流图生成模块。用来更好地区分运动中的车辆与周围场景的细粒度边界，以及在一定程度上反映车辆自身的尺寸以及其运动状态，为距离预测提供额外的信息支撑；

(3)第三部分是全局特征生成模块。用于提取整张图像的特征，结合车辆自身的图像特征辅助模型对车辆的距离进行预测。

以上三部分生成的特征图经过拼接后，生成一个完整的包含网络中各个模块信息的特征向量，该向量经过一个全连接网络，即可生成预测的x、y方向的车辆距离。

S2_3：模型设置

(1)在光流图生成模块中，Pwc-Net的网络层数L设定为6，即共进行6次图像特征提取与光流图生成操作；

(2)在全局特征生成部分，将预训练的Resnet-50模型的最后一层替换为输出特征长度为2048维的全连接网络。

S2_4：数据集划分

将步骤一中生成的数据集划分为训练集与验证集，其中训练集57个场景，共33346张图像；测试集包含有6个场景，共4482张图像。

S2_5：训练与测试车辆距离检测模型

实验结果显示，在本专利所构造的模型在测试集上的整体性能高于monovelocity模型，并在不同预测距离范围进行测试，除短距离(即小于20m)下mono velocity模型的性能略优于本专利所提出的模型，在中距离、中长距离、长距离下本专利所提出的模型的性能均远优于mono velocity。

子步骤A3用于，训练基于图与交互信息的车辆行驶轨迹预测模型预测车辆未来行驶轨迹

S3_1：问题定义

图像序列I_S经过车辆距离检测模块后生成车辆的行驶轨迹距离集合D_S，D_S内所包含的元素是被拍摄的车辆与拍摄车辆的距离信息，而车辆的行驶轨迹预测需要将车辆的历史行驶轨迹Traj_S作为模型的输入。拍摄图像的车辆上搭载的定位***与IMU模块记录了车辆在对应时刻所处的位置以及偏转角度，将该序列记为P_S，P_S可由下式表示：

P_S＝{P_i|i∈(1,2,...,N)}

其中，P_i表示第i帧时车辆的位置与偏转角度，P_i可由下式表示：

式中，

分别表示拍摄车辆以车道方向为参照的在世界坐标系下横、纵以及竖直方向上的空间坐标，r_i表示车辆相对于道路的偏转角度。通过如下式所示的过程，即可得到车辆过去的行驶轨迹X_S，其含义为在连续的一段时刻里，车辆在坐标系中的序列：

得到了车辆的历史行驶轨迹制后，即可对车辆未来的行驶轨迹YS进行预测：

S3_2：坐标变换与序列化

被拍摄车辆在世界坐标系下的位置通过坐标变换获得，对于t时刻，编号为n的车辆，该过程可由下式表示，然后对变换后的结果进行序列化排列。

式中，(p_xt,p_yt)表示t时刻，编号为n的车辆的具***置，

则表示拍摄车辆与被拍摄车辆的相对位置，其在几何上是拍摄车辆与被拍摄车辆的相对位置所构成直角三角形的两直角边。

S3_3：数据集划分

采用百度发布的自动驾驶数据集Apolloscape中的轨迹数据，该数据集包含了53分钟的训练数据，以2fps的采样率表示车辆的位置、类型、偏转方向等信息，对数据集采用8:1:1的比例划分为训练集、测试集、验证集。

S3_4：采用基于图与交互信息的车辆行驶轨迹预测模型(GRIP，Graph-basedInteractionaware Trajectory Prediction)进行车辆未来行驶轨迹预测。

GRIP模型分别在百度发布的自动驾驶数据集Apolloscape和本专利所提出的数据集进行测试，并与轨迹预测模型TrafficPredict和StarNet在百度Apolloscape的轨迹数据集上的性能进行对比。

本发明权利的有益效果在于：轨迹预测是提升自动驾驶***以及辅助驾驶***对复杂路况处理能力的重要技术，也是自动驾驶与辅助驾驶领域的重要研究方向。通过对***操控的车辆四周运动的车辆进行检测，并收集这些车辆在过去一段时间的行驶轨迹，对车辆未来一段时间的行驶状态以及行驶轨迹做预测，以提升自动驾驶车辆的安全性。

附图说明

图1为本申请的车辆行驶轨迹预测过程的示意图；

图2为任务流程中的数据关系链；

图3为车辆模型距离检测模型结构图；

图4为坐标变换示意图；

图5为模型预测结果对比；

图6为不同距离范围的预测误差；

图7为模型性能对比。

具体实施方式

为使本发明的目的、技术方案描述更加清晰，下面将结合实施方式和附图，对本发明作进一步地详细阐述，具体如下。

输入模型的数据是连续的图像序列，输出的预测结果是车辆在真实世界坐标系下的行驶轨迹，两者为属于不同模态的数据且存在较为复杂的对应关系，其一一对应的关系链参考图1表示。输入的图像经过距离检测生成距离序列信息，再经由变换模块生成位置序列信息，之后再生成预测的行驶轨迹，这一系列的过程中包含检测、序列化、变换、预测等过程，难以通过端到端网络直接完成该任务，因此需要由不同结构的网络来来分段完成，即基于车载摄像头的车辆行驶轨迹预测模型由两个模型组成。第一个是基于单目摄像头的车辆距离检测模块，所完成的功能是将图像数据转换为车辆的位置信息，在对图像序列中的每一张图像中的车辆进行距离检测过程后，即可得到车辆的位置信息序列，为下一步坐标变换提供了信息来源；第二个是基于图与交互信息的车辆行驶轨迹预测模块。将车辆距离检测模型获得了车辆在每一时刻的位置信息经过坐标变换过程与序列化后，即可得到车辆在过去一段时间的行驶轨迹，再经过模型的预测，即可得到未来的行驶轨迹预测结果。基于车载摄像头的车辆行驶轨迹预测模型所述步骤具体包括两大步，第一步骤包括子步骤A1与子步骤A2；所述第二步骤包括子步骤A3；

子步骤A1用于，数据集生成

现有的大规模数据集Argoverse，其包括两大主要部分，分别是3D跟踪部分与车辆轨迹部分，其中车辆轨迹部分的数据是只包含结构化的车辆行驶轨迹的数据，不包含3D点云信息以及对应的车辆周围的图像信息，因此仅利用argoverse数据集中的3D跟踪部分，构造符合需要的数据集，并对数据集中的数据量、数据分布等进行了统计，具体的数据集生成算法如下：

首先需要的图像标注数据需要从argoverse数据集中3D标记信息获得,采用argoverse数据集正前方环绕摄像头拍摄的图像作为原始图像，在argoverse数据集中，摄像头拍摄的图像与激光雷达获取到的点云数据的时间戳并不完全同步，因此在对图像中的车辆信息进行标注时，需要以与图像在拍摄时间上间隔最小的点云数据为依据进行标注。对与一张给定的图像I，与图像对应的点云数据的获取过程可由下式表示：

S1_4：在步骤S3中得到的图像标记集合Label_all中的每一个标注label，如果label在图像范围内，则保留label,否则从Label_all移除该标注label。

子步骤A2用于，训练车辆距离检测模型获取车辆的距离信息序列

S2_1：问题定义

在图像序列中识别车辆的位置信息有如下定义。图像序列的定义表示为I_S＝{I_i|i∈(1,2,.....,T)}，其中，I_S表示图像序列的集合，I_i表示图像序列中的每一张图像，图像序列中共有T张图像，对于每一张图像中的每一个待检测距离的车辆，均有与之对应的边界框标记，标记信息可由下式表示：

式中B_i表示第i个图像中所有车辆边界框的集合，r，l，b，t分别表示边界框的右边界、左边界、下边界、上边界的坐标，k表示图像中车辆的编号,N表示图像中共有N辆待识别的车辆。图像序列中包含连续的拍摄到的车辆，车辆的位置信息经过检测后，会得到车辆的位置信息序列。

M＝{f_x，f_y，c_x，c_y}

其中f_x,f_y,c_x,c_y分别表示相机x，y方向的焦距以及主点的坐标，M是相机参数的集合。模型通过对单张图像中的车辆进行距离检测，主要通过完成

过程来实现

的转换过程。

S2_2：车辆模型距离检测模型构建

模型的结构参考图3所示，拍摄的图像经过相机参数与边界框模块，粗略地获得被拍摄车辆距离拍摄车辆的距离范围，然后经过具有编解码结构的Pwc-net光流图生成模快，得到图像序列的光流信息特征，充分利用Pwc-net在光流计算中所产生的多种不同尺度、不同精度的光流图，然后将多尺度的光流图引入到模型中并通过ROIAlign将特征图统一为同一尺寸，同时模型还将计算过程中生成的特征图并通过ROIAlign与卷积操作得到单张图像的特征图，最后跟全局特征生成模块生成的特征进行拼接，生成一个完整的包含网络中各个模块信息的特征向量，再送入全连接层进行前向传播，即可生成预测的x、y方向的车辆距离。车辆模型距离检测模型可根据网络结构分为三个子模块。

(1)第一个模块为相机参数与边界框模块。该模块输入是一张拍摄包含车辆的图像，输出包括两部分，一部分经过计算将相机的焦距、主点坐标以及车辆标记的边界框信息等参数作为特征向量的一部分，作为预测距离提供的特征，另一部分提取图片中车辆的边界框输入到光流生成模块中。该模块的部分参数为模型提供相机的参数与车辆的边界框占图像的比例，使用该部分信息可以粗略地获得被拍摄车辆距离拍摄车辆的距离范围，因此该部分信息对于模型预测来说是至关重要的一环。将车辆标记的边界框与相机的参数结合进行比例运算，该比例信息与距离检测任务的相关性要高于独立的边界框参数与相机参数。对于图像中的第k个车辆，使用t_k,b_k,l_k,r_k分别表示车辆边界框的上、下、左、右边界的坐标，f_x,f_y,c_x,c_y表示相机的横、综焦距参数以及主点坐标，则该模块的特征生成过程可用下式表示；

(2)第二部分是光流图生成模块。该模块根据输入图像提取的车辆边界框采用FlyingChair(https://lmb.informatik.uni-freiburg.de/resources/datasets/ FlyingChairs.en.html可获得)数据集上预训练的Pwc-net(https://research.nvidia.com/publication/2018-02_PWC-Net:-CNNs-for可获得)网络获取图像序列的光流信息，以在一定程度上能捕获反映车辆自身的尺寸以及其运动状态，为距离预测提供额外的信息支撑。

(3)第三部分是全局特征生成模块。该部分输入是整张图像，由一个在ImageNet(在https://image-net.org/可获得)预训练的ResNet-50，将其最后一层由全连接层替换后，输出整张图像的特征。该模块的特征与第一，第二部分的特征进行拼接，以得到完整的包含网络中各个模块信息的特征向量。其中ResNet-50在https://www.kaggle.com/keras/ resnet50可获得。

S2_3：模型设置

车辆距离检测模型共包含三个子模块，其中相机参数模块与边界框模块的特征直接作为完整的特征向量的一部分送入到模型最后的全连接网络中，因此该部分并无需要设定的参数。光流图生成模块与全局特征生成模块的设置介绍如下：

S2_4：数据集划分

对于步骤一中数据集生成算法依据argoverse数据集所生成的车辆距离检测数据集。该数据集包含37746张场景图像，总标记量达137543个车辆，且每一张图像均处于图像序列中，可以结合图像序列中的其他图像生成光流信息。将数据集划分为训练集与验证集，其中训练集57个场景，共33346张图像；测试集包含有6个场景，共4482张图像。

S2_5：训练与测试车辆距离检测模型

对本权利提出的车辆距离检测模型进行训练与测试，其中参数设置方面，对在flyingchairs上预训练的光流图预测网络Pwcnet和在ImageNet上预训练的ResNet-50进行采用固定参数的方式进行训练。然后与同样基于深度神经网络的mono velocity模型在距离检测上的性能进行对比，其实验对比结果可参考图5所示，使用预测距离与距离真实值MSE(均方误差)作为评价指标，可见在本专利所构造的模型在测试集上的整体性能高于mono velocity模型。对于模型来说，同样应根据其对不同距离车辆的检测能力进行分类，对模型的性能进行评价。依照图6中对距离的分类，对模型的性能进行测试，性能结果参照图6所示。

对本专利所解决的问题而言，车辆距离检测模型的意义在于从图像序列中检测出车辆的距离，为轨迹预测模型提供信息来源，而道路上的车辆并非按照距离均匀分布，且处于不同位置的车辆，其轨迹预测结果的重要性也有所不同，可以看到除短距离(即小于20m)下mono velocity模型的性能略优于本专利所提出的模型，在中距离、中长距离、长距离下本专利所提出的模型的性能均远优于mono velocity。

以上，子步骤A2对车辆距离检测的问题进行了定义，并提出了车辆距离检测模型，并使用本专利所提出的数据集构造算法所生成的数据集对模型进行训练，然后与现有模型的性能进行了对比，其表现要优于现有的距离检测模型。

子步骤A3用于，根据子步骤A2对车辆距离的检测结果，训练基于图与交互信息的车辆行驶轨迹预测模型预测车辆未来行驶轨迹

S3_1：问题定义

P_S＝{P_i|i∈(1,2,...,N)}

式中，

分别表示拍摄车辆的横、纵以及竖直方向上的空间坐标，r_i表示车辆的偏转角度。通过如下式所示的过程，即可得到车辆过去的行驶轨迹X_S：

得到了车辆的历史行驶轨迹制后，即可对车辆未来的行驶轨迹Y_S进行预测：

S3_2：坐标变换与序列化

坐标变换的过程可参考图3所示，编号0-1-2分别表示三个车辆，用(p_xt,p_yt)表示t时刻，编号为n的车辆的具***置，

则表示拍摄车辆与被拍摄车辆的相对位置，其在几何上是拍摄车辆与被拍摄车辆的相对位置所构成直角三角形的两直角边，则通过坐标变换可获得被拍摄车辆在世界坐标系下的位置，对于t时刻，编号为n的车辆，该过程可由下式表示：

S3_3：数据集划分

S3_4：采用基于图与交互信息的车辆行驶轨迹预测模型(GRIP，Graph-basedInteractionaware Trajectory Prediction)(在https://github.com/chaosles/grip可获得)进行车辆未来行驶轨迹预测。

GRIP模型分别在百度发布的自动驾驶数据集Apolloscape和本专利所提出的数据集进行测试，并与轨迹预测模型TrafficPredict和StarNet在百度Apolloscape的轨迹数据集上的性能进行对比，对比结果可参考图7所示。在Apolloscape数据集上，GRIP模型表现出了优秀的预测效果，在本专利提出的数据集上通过视频进行轨迹预测时，模型的表现性能有所下降。引起模型性能下降的原因主要因为车辆的历史行驶轨迹通过摄像头拍摄的图像进行距离检测与坐标转换所得，该过程本身会存在一定的误差，尤其是对于距离较远的车辆，其误差会更明显，这一部分误差较大的数据会对整体的预测结果产生较大的影响。

轨迹预测效果的衡量指标为:ADE(Average Displacement Error)和(FinalDisplacement Error)，其中ADE为所有预测轨迹点与真实值(GT：GroundTruth)对应轨迹点的空间距离之和跟预测轨迹点个数的比值,而FDA为最后一个预测轨迹点与GT对应轨迹点的空间距离。

以上，子步骤A3,对车辆行驶轨迹预测问题进行了定义，阐明了坐标变换与序列化的过程，训练了轨迹预测模型GRIP，并测试了该模型在Apolloscape数据集与本文提出的数据集下的表现。

综上，本专利提出了一种基于车载摄像头的车辆行驶轨迹预测方法，主要通过车载摄像头拍摄的视频对视频中车辆的行驶轨迹进行预测。从预测过程的角度模型共分为两大步骤。第一个步骤是对视频序列中车辆距离拍摄车辆的距离进行检测，并结合搭载摄像头的车辆所在的位置将距离变换为世界坐标系下的位置信息，对视频中的多帧图像进行检测之后，将图像序列中连续的位置信息构成车辆的历史行驶轨迹。第二个步骤是通过车辆的历史行驶轨迹，结合车辆的行驶轨迹预测算法，对车辆的行驶轨迹进行预测。

Claims

1.一种基于单目摄像头的车辆行驶轨迹预测方法，其特征在于，所述方法通过车载摄像头拍摄的视频对视频中车辆的行驶轨迹进行预测，包括第一步骤与第二步骤；第一步骤是对视频序列中车辆距离拍摄车辆的距离进行检测，并结合搭载摄像头的车辆所在的位置将距离变换为世界坐标系下的位置信息，对视频中的多帧图像进行检测之后，将图像序列中连续的位置信息构成车辆的历史行驶轨迹；第二个步骤是通过车辆的历史行驶轨迹，结合车辆的行驶轨迹预测算法，对车辆的行驶轨迹进行预测；

第一步骤使用车辆距离检测模型，第二步骤使用基于图与交互信息的车辆行驶轨迹预测模型；

所述第一步骤包括子步骤A1与子步骤A2；所述第二步骤包括子步骤A3；

子步骤A1用于数据集生成，包括：

利用argoverse数据集中的3D跟踪部分，构造符合需要的数据集，具体的数据集生成算法如下：

对与一张给定的图像I，与图像对应的点云数据的获取过程可由下式表示：

式中timestamp_I表示图像I的时间戳，timestamp_S表示激光雷达信息的时间戳，满足条件的timestamp_S的激光雷达信息的点云数据即为给定图像I所对应的点云数据，获取到与图像I所对应的点云数据后，通过相机标定算法，利用点云数据中的标记信息对图像中的车辆进行标注；

子步骤A2，训练车辆距离检测模型获取车辆的距离信息序列，包括：S2_1：问题定义

在图像序列中识别车辆的位置信息有如下定义，图像序列的定义表示如下：

I_S＝{I_i|i∈(1，2，.....，T)}，

其中，I_S表示图像序列的集合，I_i表示图像序列中的每一张图像，图像序列中共有T张图像，对于每一张图像中的每一个待检测距离的车辆，均有与之对应的边界框标记，标记信息可由下式表示：

式中B_i表示第i个图像中所有车辆边界框的集合，r，l，b，t分别表示边界框的右边界、左边界、下边界、上边界的坐标，k表示图像中车辆的编号，N表示图像中共有N辆待识别的车辆；图像序列中包含连续的拍摄到的车辆，车辆的位置信息经过检测后，会得到车辆的位置信息序列；

车辆的位置信息序列定义为：D_S＝{D_i|i∈(1，2，.....，T)}，其中，D_S表示图像序列集合所对应的车辆位置信息集合，D_i表示图像序列中每一帧图像所对应图像上所有的车辆的位置信息，D_i中的信息可由下式表示：

上式中

在几何上是拍摄车辆与被拍摄车辆的相对位置所构成直角三角形的两直角边；

相机的参数由下式表示：

M＝{f_x，f_y，c_x，c_y}

其中f_x，f_y，c_x，c_y分别表示相机以车道方向为参照的标准直角坐标系x，y方向的焦距以及主点的坐标，其中y方向是沿车道方向，x方向是同车道方向垂直的方向，M是相机参数的集合；通过对单张图像中的车辆进行距离检测，通过完成

过程来实现

的转换过程；

S2_2：车辆距离检测模型构建

车辆距离检测模型根据网络结构由三个子模块组成：

(1)相机参数与边界框模块，用来粗略地获取被拍摄车辆距离拍摄车辆的距离范围，对于图像中的第k个车辆，使用t_k，b_k，l_k，r_k分别表示车辆边界框的上、下、左、右边界的坐标，f_x，f_y，α_x，c_y表示相机的横、纵焦距参数以及主点坐标，则该相机参数与边界框模块的特征F_p生成过程用下式表示；

(2)光流图生成模块，用来区分运动中的车辆与周围场景的细粒度边界，以及反映车辆自身的尺寸以及其运动状态，为距离预测提供额外的信息支撑；

(3)全局特征生成模块，用于提取整张图像的特征，结合车辆自身的图像特征辅助模型对车辆的距离进行预测；

以上三模块生成的特征图经过拼接后，生成一个完整的包含各个模块信息的特征向量，该特征向量经过一个全连接网络，生成预测的x、y方向的车辆距离；

S2_3：模型设置

在光流图生成模块中，所用到用于提取光流特征的网络层数L设定为6，以共进行6次图像特征提取与光流图生成操作；

在全局特征生成模块，将预训练的Resnet模型的最后一层替换为输出特征长度为2048维的全连接网络；

S2_4：数据集划分

将步骤一中生成的数据集划分为训练集与验证集，其中训练集57个场景，共33346张图像；测试集包含有6个场景，共4482张图像；

S2_5：训练与测试车辆距离检测模型；

子步骤A3，用子步骤A2对车辆距离的检测结果，预测车辆未来行驶轨迹，包括步骤S3-1到步骤S3-3；

S3_1：问题定义

图像序列I_S经过车辆距离检测模块后生成车辆的行驶轨迹距离集合D_S，D_S内所包含的元素是被拍摄的车辆与拍摄车辆的距离信息，车辆的历史行驶轨迹为Traj_S是图与交互信息的车辆行驶轨迹预测模型的输入；拍摄图像的车辆上搭载的定位***与lMU模块记录了车辆在对应时刻所处的位置以及偏转角度，将拍摄图像的车辆上搭载的定位***与lMU模块在连续多个时刻记录的车辆位置以及偏转角度序列记为P_S，P_S可由下式表示：

P_S＝{P_i|i∈(1，2，...，N)}

其中，P_i表示拍摄图像的第i帧时拍摄图像的车辆的位置与偏转角度，P_i可由下式表示：

式中，

分别表示拍摄车辆以车道方向为参照的在世界坐标系下的横、纵以及垂直于地面的竖直方向上的空间坐标，其中y方向是沿车道方向，×方向是同车道方向垂直的方向，r_i表示车辆的偏转角度；通过如下式所示的过程，得到视频中车辆的历史行驶轨迹X_S，其含义为在连续的-段时刻里，视频中车辆的位置序列：

视频中车辆的历史行驶轨迹X_S中，t时刻，编号为n的车辆在世界坐标系中的位置

其中(p_xt,p_yt)为t时刻拍摄图像的车辆的在世界坐标系中的位置，而/>

为t时刻，在几何上是拍摄车辆与编号为n的被拍摄车辆的相对位置所构成直角三角形的两直角边；

得到了视频中车辆的历史行驶轨迹制后，对视频中车辆未来的行驶轨迹Y_S进行预测：

S3_2：数据集划分

采用百度发布的自动驾驶数据集Apolloscape中的轨迹数据，对自动驾驶数据集Apolloscape中的轨迹数据采用8:1:1的比例划分为训练集、测试集、验证集；

S3-3，用子步骤A2对车辆距离的检测结果，训练基于图与交互信息的车辆行驶轨迹预测模型来预测车辆未来行驶轨迹；

从车载摄像头拍摄的视频提取各帧图像，提供给训练好的所述车辆距离检测模型，车辆距离检索模型处理各帧图像的输出被提供给所述基于图与交互信息的车辆行驶轨迹预测模型，所述基于图与交互信息的车辆行驶轨迹预测模型输出视频中车辆未来的行驶轨迹的预测。

2.如权利要求1所述的一种基于单目摄像头的车辆行驶轨迹预测方法，其特征在于，从argoverse数据集中的3D跟踪部分的标记信息获取训练样本的标注Label，采用argoverse数据集的3D跟踪部分的正前方环绕摄像头拍摄的图像作为原始图像。

3.如权利要求2所述的一种基于单目摄像头的车辆行驶轨迹预测方法，其特征在于，所述子步骤A3中的S3_1还包括坐标变换与序列化步骤，对于连续一段时间每一时刻的拍摄图像，通过车辆距离检测网络对拍摄图像的帧内的车辆距离拍摄车辆的距离进行检测，同时对每一辆被检测的车辆均进行坐标变换，并对变换后的结果进行序列化排列，以获取一段时间内的被检测的车辆的行驶轨迹。

4.如权利要求3所述的一种基于单目摄像头的车辆行驶轨迹预测方法，

所述子步骤A1还包括对于argoverse数据集中图像序列内的每一张图像生成完整的图像序列标注label的过程，包括：

S1_2：对于点云标注时间戳集合T中的每一个timestamp_I，计算timestamp_I和每个timestamp_S的时间间隔，并将每个timestamp_S与对应时间间隔储存于interval_timestamp_map表中；

S1_3：在步骤S1_2中生成的interval_timestamp_map表中找到最小时间间隔所对应的timestamp_S，保存为min_timestamp_S，再通过相机标定算法将min_timestamp_S对应的点云标记中的所有标记转换为图像标记集合Label_all；

S1_4：在步骤S1_3中得到的图像标记集合Label_all中的每一个标注label，根据标注label的数值在指定的阈值范围情况，如果标注label在阈值范围内，则保留标注label，否则从Label_all移除该标注label。