WO2022022721A1

WO2022022721A1 - 轨迹预测方法、装置、设备、存储介质及程序

Info

Publication number: WO2022022721A1
Application number: PCT/CN2021/109871
Authority: WO
Inventors: 张世权; 李亦宁; 蒋沁宏; 石建萍; 周博磊
Original assignee: 商汤集团有限公司; 本田技研工业株式会社
Priority date: 2020-07-31
Filing date: 2021-07-30
Publication date: 2022-02-03
Also published as: CN111942407A; JP2023511765A; CN111942407B; JP7513726B2

Abstract

一种轨迹预测方法，该方法包括：根据对象的时序位置信息和时序姿态信息，确定对象的运动意图；其中，时序位置信息为对象在预设时长内不同时间点的位置信息，时序姿态信息为对象在预设时长内不同时间点的姿态信息；不同时间点的姿态信息包括对象的多个部位在不同时间点的朝向信息；根据时序位置信息、时序姿态信息以及运动意图，确定对象的未来轨迹。通过将时序位置信息、时序姿态信息和运动意图相结合，且考虑到对象的朝向信息，能够有效提高预测对象的未来轨迹的准确率。还公开了一种轨迹预测装置、一种计算机存储介质、一种计算机设备以及一种计算机程序。

Description

轨迹预测方法、装置、设备、存储介质及程序

相关申请的交叉引用

本专利申请要求2020年7月31日提交的中国专利申请号为202010763409.4、申请人为商汤集团有限公司和本田技研工业株式会社，申请名称为“轨迹预测方法、装置、设备及存储介质”的优先权，该申请的全文以引用的方式并入本申请中。

技术领域

本公开实施例涉及智能驾驶技术领域，涉及但不限于一种轨迹预测方法、装置、设备、存储介质及程序。

背景技术

预测行人或车辆的运动轨迹的过程中，主要考虑行人或车辆轨迹的历史运动的内在关联，如利用行人或车辆的历史轨迹位置信息来做未来时刻的轨迹预测。

发明内容

本公开实施例提供一种轨迹预测方法、装置、设备、存储介质及程序。

本公开实施例提供一种轨迹预测方法，所述方法由电子设备执行，所述方法包括：

根据对象的时序位置信息和时序姿态信息，确定所述对象的运动意图；其中，所述时序位置信息为所述对象在预设时长内不同时间点的位置信息，所述时序姿态信息为所述对象在预设时长内不同时间点的姿态信息；所述不同时间点的姿态信息包括所述对象的多个部位在所述不同时间点的朝向信息；

根据所述时序位置信息、所述时序姿态信息以及所述运动意图，确定所述对象的未来轨迹。

通过考虑对象的更加丰富的输入信息，能够更加准确的确定出对象的运动意图；然后，基于估计的运动意图、时序位置信息和时序姿态信息作为输入，来预测对象的未来轨迹，而且在预测的过程中使用有关对象的朝向信息；如此，通过将时序位置信息、时序姿态信息和运动意图相结合，且考虑到对象的朝向信息，能够有效提高预测对象的未来轨迹的准确率。

本公开实施例提供一种轨迹预测装置，所述装置包括：

意图确定模块，配置为根据对象的时序位置信息和时序姿态信息，确定所述对象的运动意图；其中，所述时序位置信息为所述对象在预设时长内不同时间点的位置信息，所述时序姿态信息为所述对象在预设时长内不同时间点的姿态信息；所述不同时间点的姿态信息包括所述对象的多个部位在所述不同时间点的朝向信息；

未来轨迹确定模块，配置为根据所述时序位置信息、所述时序姿态信息以及所述运动意图，确定所述对象的未来轨迹。

本公开实施例提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现上述所述的轨迹预测方法。

本公开实施例提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时可实现上述所述的轨迹预测方法。

本公开实施例还提供一种计算机程序，所述计算机程序包括计算机可读代码，在所述计算机可读代码在电子设备中运行的情况下，所述电子设备的处理器执行用于实现上述所述的轨迹预测方法。

本公开实施例提供一种轨迹预测方法、装置、设备、存储介质及程序，使用对象的时序位置信息和时序姿态信息作为输入，来估计对象的运动意图，如此，通过考虑对象的更加丰富的输入信息，能够更加准确的确定出对象的运动意图；然后，基于估计的运动意图、时序位置信息和时序姿态信息作为输入，来预测对象的未来轨迹，而且在预测的过程中使用有关对象的朝向信息；如此，通过将时序位置信息、时序姿态信息和运动意图相结合，且考虑到对象的朝向信息，能够有效提高预测对象的未来轨迹的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开实施例。根据下面参考附图对示例性实施例的详细说明，本公开实施例的其它特征及方面将变得清楚。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1为本公开实施例轨迹预测方法的实现流程示意图；

图2为可以应用本公开实施例的轨迹预测方法的一种***架构示意图；

图3A为本公开实施例轨迹预测方法的另一实现流程示意图；

图3B为本公开实施例轨迹预测方法的另一实现流程示意图；

图4A为本公开实施例数据集中的对象分布以及每种对象类型的意图分布示意图；

图4B为本公开实施例数据集中的对象分布以及每种对象类型的意图另一分布示意图；

图4C为本公开实施例数据集中的对象分布以及每种对象类型的意图再一分布示意图；

图4D为本公开实施例数据集中的对象分布以及每种对象类型的意图又一分布示意图；

图5为本公开实施例提供的轨迹预测***的框架示意图；

图6为本公开实施例轨迹预测方法的实现框架结构图；

图7为本公开实施例轨迹预测装置结构组成示意图；

图8为本公开实施例计算机设备的组成结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对发明的具体技术方案做进一步详细描述。以下实施例用于说明本公开，但不用来限制本公开的范围。

本实施例提出一种轨迹预测方法应用于计算机设备，所述计算机设备可包括对象或非对象，该方法所实现的功能可以通过计算机设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该计算机设备至少包括处理器和存储介质。

图1为本公开实施例轨迹预测方法的实现流程示意图，如图1所示，结合如图1所示方法进行说明：

步骤S101，根据对象的时序位置信息和时序姿态信息，确定对象的运动意图。

在本公开的一些实施例中，所述时序位置信息为所述对象在预设时长内不同时间点的位置信息，所述时序姿态信息为所述对象在预设时长内不同时间点的姿态信息。其中，对象为交通环境中的可运动的对象，包括人体对象，比如，行人或骑自行车的人等。还包括非人体对象，所述非人体对象包括但不限于以下至少之一：各种各样功能的车辆(如卡车、汽车、摩托车、自行车等)、各种轮数的车辆(如四轮车辆、两轮车辆等)和任意可移动设备，比如，机器人、飞行器、导盲器、智能玩具、玩具汽车等。如果对象包括人体对象，不同时间点的姿态信息包括所述人体对象的一个或多个部位在所述不同时间点的朝向信息。通过考虑在预设时长内不同时间点，对象的一个或多个不同部位的朝向信息和位置信息，来预估对象的运动意图，能够提供预测的运动意图的准确度。

步骤S102，根据所述时序位置信息、所述时序姿态信息以及所述运动意图，确定所述对象的未来轨迹。

在本公开的一些实施例中，运动意图为对象在未来时段内的运动倾向，比如，对象为行人，运动意图为在未来时段内是否打算过红绿灯，或是否打算直行等。将时序位置信息、所述时序姿态信息以及所述运动意图相结合，作为一个整体，输入到神经网络中，来预测对象的未来轨迹。比如，将时序位置信息和时序姿态信息按照预设方式拼接在一起，作为融合特征，共同参考该融合特征和运动意图，来预测对象的未来轨迹。

在本公开实施例中，使用对象的时序位置信息和时序姿态信息(作为学习模型的输入来估计行人的意图(比如，是否打算过马路等)，这样，通过考虑运动对象的更加丰富的时序位置信息和时序姿态信息，能够更加准确的确定出运动对象的运动意图；然后，基于估计的对象意图和学习模型的输出来预测对象的未来轨迹，而且在估算对象的意图时使用有关对象的多个部分中每个部分的方向的时间序列信息；如此，通过将位置和姿势的时间序列信息和运动意图相结合，预测运动对象的未来轨迹，从而能够有效提高对于未来轨迹预测的准确率。

图2示出可以应用本公开实施例的轨迹预测方法的一种***架构示意图；如图2所示，该***架构中包括：获取终端201、网络202和轨迹预测终端203。为实现支撑一个示例性应用，当获取终端201和轨迹预测终端203通过网络202建立通信连接，获取终端201通过网络202向轨迹预测终端203上报对象的时序位置信息和时序姿态信息。轨迹预测终端203响应于对象的时序位置信息和时序姿态信息，首先，根据对象的时序位置信息和时序姿态信息，确定所述对象的运动意图；然后，根据所述时序位置信息、所述时序姿态信息以及所述运动意图，确定所述对象的未来轨迹。同时轨迹预测终端203将对象的未来轨迹上传至网络202，并通过网络202发送给获取终端201。

作为示例，获取终端201可以包括图像采集设备，轨迹预测终端203可以包括具有视觉信息处理能力的视觉处理设备或远程服务器。网络202可以采用有线或无线连接方式。其中，当轨迹预测终端203为视觉处理设备时，获取终端201可以通过有线连接的方式与视觉处理设备通信连接，例如通过总线进行数据通信；当轨迹预测终端203为远程服务器时，获取终端201可以通过无线网络与远程服务器进行数据交互。

或者，在一些场景中，当获取终端201可以是带有视频采集模组的视觉处理设备，可以是带有摄像头的主机。这时，本公开实施例的轨迹预测方法可以由获取终端201执行，上述***架构可以不包含网络202和轨迹预测终端203。

在本公开的一些实施例中，将地图信息融入到位置信息和姿态信息中，来预测运动意图，能够提高预测的准确度，步骤S101可以通过以下步骤实现，如图3A所示，结合图3A进行以下说明：

步骤S11，根据所述时序位置信息和所述时序姿态信息，获取所述对象所处环境的环境信息。

在本公开的一些实施例中，所述环境信息至少包括下列中的至少一个：道路信息、行人信息或交通灯信息。通过参考对象的时序位置信息和时序姿态信息中的朝向信息，对世界地图进行截取，以得到对象所在环境的局部地图区域，从而得到该对象的局部地图信息，将该局部地图信息确定为所述环境信息。对象在历史时刻的时序位置信息和时序姿态信息，可以通过以下过程得到：首先，确定距离当前时刻的时长小于等于预设时长的至少两个历史时刻；然后，获取所述对象在至少两个历史时刻的时序位置信息和时序姿态信息。可以理解为是，获取的距离当前时刻的时长小于预设时长的多个历史时刻的时序位置信息和时序姿态信息。这样，通过获取不同历史时刻下的时序位置信息和时序姿态信息，作为预测未来轨迹的输入信息，能够提高预测到的未来轨迹的准确度。

在本公开的一些实施例中，当前时刻为10:05:20，获取距离当前时刻小于5秒内的对象的时序位置信息和时序姿态信息，即获取10:05:15至10:05:20之间的对象的时序位置信息和时序姿态信息。其中，时序位置信息和时序姿态信息与对象的属性相关。比如，对象为行人或骑自行车的人，时序位置信息和时序姿态信息至少包括：人的时序位置信息、身体朝向和面部朝向；假如在这一历史时段之间每间隔1秒获取一组时序位置信息和时序姿态信息，比如，如果所述时序位置信息和所述时序姿态信息包括对象的身体朝向、面部朝向和所述对象所处的位置，那么确定每一时刻点的对象的身体朝向、面部朝向和所述对象所处的位置。比如，时刻10:05:15至10:05:20，每间隔1秒获取一组时序位置信息和时序姿态信息，即有5个时刻点距离，那么确定5组对象的身体朝向、面部朝向和所述对象所处的位置。

在本公开的一些实施例中，如果对象为车辆等运动设备，时序位置信息和时序姿态信息至少包括：该运动设备的时序位置信息、设备头部朝向和所述运动设备的行驶指示信息。以车辆为例进行说明：时序位置信息和时序姿态信息包括：车辆的时序位置、车头朝向和车辆的行驶指示信息；其中，行驶指示信息包括但不限于以下至少之一：行驶方向、行驶速度和车灯状态(比如，转向灯的状态)等。如此，将获取的这些丰富的时序位置信息和时序姿态信息，作为截取世界地图的依据，得到对象所在环境的环境信息。也就是说，环境信息可以是通过时序位置信息和时序姿态信息中的对象的位置信息和对象的朝向信息，对世界地图进行截取，以确定出该对象当前所在的局部地图中的道路结构、人行道信息和道路中的交通灯信息等；这样，通过获取对象丰富的时序位置信息和时序姿态信息，来预测对象当前所在的道路结构等环境信息，能够提高地图划分的准确度。即使在观测点较少(甚至只有一帧观测数据)时，仍然能够给出合理的预测结果。

步骤S12，将所述环境信息、所述时序位置信息和时序姿态信息进行融合，得到融合特征。

在本公开的一些实施例中，获取到对象的时序位置信息和时序姿态信息之后，对时序位置信息和时序姿态信息中的每一特征进行独立的时间建模。比如，以人体为例进行说明，时序位置信息和时序姿态信息包括：身体朝向、面部朝向和对象所处的位置；分别将身体朝向、面部朝向和对象所处的位置；单独输入三个独立的第一神经网络中，分别得到用于表明身体朝向、面部朝向和对象所处的位置在时间上的变化情况的时序位置信息和时序姿态信息；将时序位置信息和时序姿态信息输入第二神经网络中，得到调整的时序位置信息和调整的时序姿态信息；将多个不同的距离输入第三神经网络(比如，全连接模型)中，得到该距离下身体朝向、面部朝向和对象所处的位置对应的权重；将该权重与调整的时序位置信息和调整的时序姿态信息相乘，得到相乘结果；将相乘结果与对局部地图区域进行编码后得到的环境信息进行拼接，得到融合特征。

在本公开的一些实施例中，由于时序位置信息、时序姿态信息和环境信息是在同一时间点下获取的。比如，都是针对历史时段内的5个时间点，所以将相乘结果与对局部地图区域进行编码后得到的环境信息进行拼接，可以通过以下方式实现：将表征相乘结果的矩阵与表征环境信息的矩阵按照行或列，拼接在一起，组成一个矩阵，即得到融合特征。假设表征相乘结果的矩阵为3行5列的矩阵，表征环境信息的矩阵为6行5列的矩阵，那么两个矩阵按照列拼接在一起，得到9行5列的矩阵，即得到融合特征。

步骤S13，根据融合特征，确定对象的运动意图。

在本公开的一些实施例中，运动意图可以理解为：对象在运动过程中的运动倾向，如果对象包括人体对象，意图分类包括但不限于以下一种或多种：左转、右转、直行、静止、掉头、加速、减速、横穿马路、等红灯以及倒着走等。如果对象包括非人体对象，意图分类包括但不限于以下一种或多种：左转、右转、直行、静止、左换道、右换道、加速、减速、超车、倒车以及等红灯等。

在本公开的一些实施例中，通过采用全连接层网络对融合特征进行解码，得到该融合特征为预设类别库中每一种类别的概率，将概率最大的类别作为该融合特征最可能的类别，基于这样最可能的类别来预测对象的运动意图，能够提高预测意图的准确度。

对应地，在本公开实施例中，步骤S102可以如下方式实现：

步骤S14，根据所述融合特征和所述运动意图，确定所述对象的未来轨迹。

在本公开的一些实施例中，可以通过融合特征和运动意图，预测对象在未来时段内的未来轨迹；还可以不预测对象的运动意图，仅采用第一神经网络对融合特征进行多次迭代，预测对象在未来时段内的未来轨迹。比如，对第二调整时序位置信息和时序姿态信息进行解码，即可得到预测的对象的未来轨迹；这样通过多种时序位置信息和时序姿态信息进行轨迹预测，即使在观测点较少(甚至只有一帧观测数据)，或者在对象突然加速、减速、突然转弯等场景下，依然能够保证未来轨迹预测的准确率。

在本公开实施例中，将地图信息融入到时序位置信息和时序姿态信息中，来预测运动意图，能够提高对于运动意图进行预测的准确度，然后，基于该运动意图预测对象的未来轨迹，能够提高轨迹预测的准确度。

在一些实施例中，为提高预测未来轨迹的输入信息的丰富性，可以通过对象的位置信息和对象的朝向信息对世界地图进行截取，以确定出对象当前环境的局部地图区域，即步骤S11可以通过以下过程实现：

步骤S111，根据对象在历史时刻的位置信息和朝向信息，对世界地图进行截取，以得到对象所在环境的局部地图区域。

在本公开的一些实施例中，时序姿态信息中的朝向信息和位置信息，是成对出现的，即在某一历史时刻确定对象的位置信息，以及在该位置的朝向信息。比如，对象为人体(比如，行人或者骑自行车的人)，根据人的位置信息和人的身体朝向，对人所处的当前道路结构进行确定，从而对世界地图进行截取，以确定出行人当前所在的局部地图区域。如果对象为车辆等运动设备，根据车辆的位置信息和车头朝向，对车辆所处的当前道路进行确定，从而对世界地图进行截取，以确定出车辆当前所在的局部地图区域。

在本公开的一些实施例中，因为历史时刻是多个，那么获取到每一历史时刻的时序位置信息和时序姿态信息之后，也会得到多组时序位置信息和时序姿态信息，进而对于每一组时序位置信息和时序姿态信息都可以截取到对应的局部地图区域。对世界地图的截取，可以通过如下方式实现：根据所述多个时序位置信息中的每一位置和对象处于该位置时的朝向，确定所述对象所在环境的局部地图区域，得到多个局部地图区域。对象处于该位置时的朝向，可以理解为，在对象处于这一位置时的多个部位的朝向。这样，参考对象在一个位置时的多个部位的朝向，划定该对象的局部地图区域，能够提高确定的环境信息的准确度，从而提高未来轨迹预测的准确度。

在本公开的一些实施例中，以所述位置信息为中心，按照所述朝向信息，在世界地图中划定所述对象所在环境的局部地图区域。比如，以该位置为中心，沿着朝向方向，划定一个矩形区域，作为对象所在环境的局部地图区域。这样，多个位置和每一位置下的多个朝向信息，可以确定多个局部地图区域。对所述多个局部地图区域进行编码，得到多个编码地图，即环境信息。如此，以所处位置为中心，参考朝向信息，划定局部地图区域，使得划定的局部地图区域中包括的地图信息与对象的相关性较高，即能够提高环境信息的有效性。

步骤S112，对所述局部地图区域中的元素进行编码，得到所述环境信息。

在本公开的一些实施例中，每一元素表示对应区域的地图信息，所述地图信息至少包括下列中的至少一个：道路结构信息、人行道或道路交通灯。比如，将这个局部地图区域的元素编码为掩码，每一码字表示对应区域的地图信息。比如，环境信息为包括1和0的矩阵，其中，1表示人行道，0表示道路危险区域等。最后，将所述多个环境信息和对应的时序位置信息和时序姿态信息进行融合，得到多组融合特征，通过对融合特征进行分类，预测出对象的运动意图。

在本公开的一些实施例中，第一神经网络的结构不受限定，包括但不限于卷积神经网络、长短期记忆网络(Long Short-Term Memory，LSTM)等，以下为LSTM为例进行介绍，将多个历史时刻的时序位置信息和时序姿态信息(比如，以对象为行人为例，分别将多个身体朝向、多个面部朝向和对象所处的多个位置)输入双向LSTM网络中，分别得到用于表明这些时序位置信息和时序姿态信息在时间上的变化情况的时序位置信息和时序姿态信息；将时序位置信息和时序姿态信息输入另一双向LSTM网络中，得到输出结果；将所述距离输入全连接模型中，得到该距离下身体朝向、面部朝向和对象所处的位置对应的权重；将该权重与调整后的时序位置信息和时序姿态信息相乘，得到多个相乘结果；然后，将多个相乘结果与多个编码地图拼接在一起，形成融合特征；最后，对融合特征进行解码，分类，预测对象的运动意图；或者，采用LSTM网络对融合特征进行多次迭代，通过对每一次迭代得到的坐标进行预测，以得到对象在未来时段内的未来轨迹。如此，通过对世界地图进行截取，得到局部地图区域，并对其中的道路信息进行编码，从而能够将地图信息用于后续的融合特征中，提高用于预测未来轨迹的输入信息的丰富性。

在本公开实施例中，根据对象的位置和朝向，划定对象的局部地图区域；并对该局部地图区域进行掩码编码，得到环境信息，每一码字表示该区域的地图信息。这样，将对象的时序位置信息和时序姿态信息结合编码地图，预测对象的意图，进而预测对象的未来轨迹，能够提高得到的未来轨迹的准确度。

在一些实施例中，对于提取到的对象的时序位置信息和时序姿态信息，各自进行时序建模，以得到每一个时序位置信息和时序姿态信息在时序上的变化情况，然后将每一时序位置信息和时序姿态信息的时序位置信息和时序姿态信息和环境信息进行融合，得到融合特征，即步骤S12，可以通过以下过程实现，如图3B所示，图3B为本公开实施例轨迹预测方法的另一实现流程示意图，结合图3A和图3B所示的步骤进行以下说明：

步骤S201，通过第一神经网络根据所述时序位置信息和时序姿态信息，预测在未来时段内的时序位置信息和时序姿态信息。

在本公开的一些实施例中，将历史时段内的时序位置信息和时序姿态信息，作为第一神经网络的输入，预测出未来时段内的序位置信息和所述时序姿态信息；步骤S201可以通过以下过程实现：

首先，对每一历史时刻的时序位置信息和时序姿态信息(即多个时序位置信息和时序姿态信息)，按照时间顺序进行排列；然后，将排列好的多个时序位置信息和时序姿态信息，输入第一神经网络，得到多个时序位置信息和时序姿态信息。其中，第一神经网络可以是双向LSTM网络，第一神经网络的数量与时序位置信息和时序姿态信息包含的种类相匹配。比如，对象为行人，时序位置信息和时序姿态信息包括：对象的身体朝向、面部朝向和所述对象所处的位置；那么，第一神经网络为三个独立的双向LSTM网络。如果对象为车辆，时序位置信息和时序姿态信息包括：对象的车头朝向、车灯状态和对象所处的位置；那么，第一神经网络为三个独立的双向LSTM网络。

在本公开的一些实施例中，将多个时序位置信息和时序姿态信息输入该双向LSTM网络中，得到对应的时序位置信息和时序姿态信息。比如，对象为行人，将行人在不同时刻的身体朝向、面部朝向和所述行人所处的位置分别输入三个独立的双向LSTM网络，得到分别得到不同时刻的身体朝向对应的多个时序位置信息和时序姿态信息(表明身体朝向在时间上的变化情况)、不同时刻的面部朝向对应的多个时序位置信息和时序姿态信息(表明面部朝向在时间上的变化情况)和，不同时刻行人所处的位置对应的多个时序位置信息和时序姿态信息(表明对象所处的位置在时间上的变化情况)。

在本公开的一些实施例中，如果对象为车辆，将车辆在不同时刻的车头朝向、车灯状态和车辆所处的位置分别输入三个独立的双向LSTM网络，得到分别得到不同时刻的车头朝向对应的多个时序位置信息和时序姿态信息(表明车头朝向在时间上的变化情况)、不同时刻的车灯状态对应的多个时序位置信息和时序姿态信息(表明车灯状态在时间上的变化情况)和，不同时刻车辆所处的位置对应的多个时序位置信息和时序姿态信息(表明车辆所处的位置在时间上的变化情况)。

在本公开的一些实施例中，该第一神经网络为训练好的神经网络，可以采用以下方式训练得到：

首先，将所述对象在历史时刻的时序位置信息和时序姿态信息输入待训练第一神经网络中，预测所述对象在所述未来时段内的时序位置信息和时序姿态信息。

在本公开的一些实施例中，将对象在历史时刻的时序位置信息和时序姿态信息作为第一神经网络的输入，基于每一组时序位置信息和时序姿态信息预测出该对象在未来时段内对应的预测时序位置信息和时序姿态信息，从而得到预测时序位置信息和时序姿态信息。在一些实施例中，这里的对象可以理解为是样本对象。比如，预设的数据集的样本图像中的行人或者动物等。所述预设的数据集中至少包含样本图像中的样本对象的时序位置信息和时序姿态信息。比如，以样本对象为行人为例进行说明，该预设的数据集至少包含样本图像中样本对象的身体朝向、面部朝向或所述样本对象所处的位置。从这样数据集规模较大，且包含更加丰富的时序位置信息和时序姿态信息的数据集中，获取对象在历史时刻的时序位置信息和时序姿态信息，能够提高获取到的样本数据的丰富性。

其次，将所述未来时段内的时序位置信息、时序姿态信息与所述对象所在环境的环境信息进行融合，得到融合预测特征。

在本公开的一些实施例中，将待训练的第一神经网络预测出的时序位置信息和时序姿态信息与环境信息进行融合，得到融合预测特征。

其次，至少根据融合预测特征，预测对象在未来时段内的未来轨迹。

在本公开的一些实施例中，采用该第一神经网络对融合预测特征进行迭代，从而预测对象在未来时段内的未来轨迹。或者是，对融合预测特征，采用训练好的全连接网络进行分类，以预测对象的运动意图，将运动意图和融合预测特征相结合，来预测对象的未来轨迹。

再次，根据对象的真值轨迹，确定待训练第一神经网络关于未来轨迹的第一预测损失。

在本公开的一些实施例中，根据第一神经网络、未来轨迹和对象的真值轨迹，确定第一预测损失。比如，第一预测损失至少包括下列中的至少一个：长度大于预设阈值的未来轨迹的平均失败预测次数、未来轨迹在不同距离对应的误差阈值下的成功率或未来轨迹的终点位置与真值轨迹的终点位置之间的误差。其中，长度大于预设阈值的未来轨迹的平均失败预测次数可以理解为：对于轨迹长度大于预设阈值的未来轨迹(比如，预测未来5s的未来轨迹)；对该未来轨迹中的每一时刻点都进行预测，将该时刻的前5秒的历史轨迹作为输入，预测未来5秒的未来轨迹；那么，该运动预测轨迹需要进行多次预测，从而得到多次预测的结果；统计多次预测的结果中失败的次数；然后将该失败的次数除以该未来轨迹的长度，以实现归一化；由于有很多轨迹长度大于预设阈值的未来轨迹，将每一条轨迹中预测失败的次数除以该未来轨迹的长度，得到多个归一化值；最后，对这多个归一化值求平均得到每条轨迹的平均失败预测次数。

预测的未来轨迹在不同距离对应的误差阈值下的成功率，可以理解为，针对不同距离，预先设定不同的误差阈值。比如，距离越大设定的误差阈值越大，如果在某一距离下，得到的未来轨迹的误差小于误差阈值，确定本次预测成功。这样，可以刻画预测的未来轨迹在不同误差阈值下面的表现，从而基于此，提升神经网络的细节效果。

未来轨迹的终点位置与真值轨迹的终点位置之间的误差，可以理解为，未来轨迹的终点与真值轨迹的终点之间的差值。

最后，根据第一预测损失，对第一神经网络的网络参数进行调整，以训练所述第一神经网络。

在本公开的一些实施例中，可直接采用第一预测损失对网络参数进行调整。比如，采用长度大于预设阈值的预测有的未来轨迹的平均失败预测次数、预测的未来轨迹在不同距离对应的误差阈值下的成功率或未来轨迹的终点位置与真值轨迹的终点位置之间的误差中的至少一个，对网络参数进行调整。在本公开实施例中，通过采用丰富的信息作为训练样本，使得训练得到的第一神经网络性能更优。

上述参考调整过程还可以通过以下方式实现，首先判断所述成功率与所述平均失败预测次数的大小情况，在所述成功率小于所述平均失败预测次数的情况下，确定本次预测的所未来轨迹失败；然后，采用所述平均位置误差、所述平均失败预测次数、所述成功率或所述误差中的至少一个，对所述神经网络的网络参数进行调整。这样通过多个评价标准对训练过程中的预测的未来轨迹进行评价，从而更准确的调整神经网络的网络参数，使得调整后的第一神经网络预测的未来轨迹准确度更高。

步骤S202，将所述未来时段内的时序位置信息、时序姿态信息和所述环境信息，按照预设方式进行拼接，得到所述融合特征。

在本公开的一些实施例中，时序位置信息和时序姿态信息和对应的局部地图，可以理解为是属于一组时序位置信息和时序姿态信息的时序位置信息和时序姿态信息和根据这一组时序位置信息和时序姿态信息中的位置信息和朝向信息截取的局部地图。将多个时序位置信息和时序姿态信息一一对应地与局部地图，按照预设方式进行拼接，得到融合特征；所述预设方式可以是按照将时序位置信息和时序姿态信息输入神经网络的顺序，对时序位置信息和时序姿态信息与对应的局部地图进行拼接。比如，以对象为行人或者非机动车骑行人为例，将这三种时序位置信息和时序姿态信息按照行人的身体朝向、面部朝向和所述对象所处的位置的顺序，依次输入神经网络(比如，LSTM网络)中；那么按照从行人的身体朝向、面部朝向到行人所处的位置的顺序，对时序位置信息和时序姿态信息和对应的局部地图进行拼接，得到融合特征。然后，采用全连接网络对所述融合特征进行解码，预测行人的运动意图，即行人是想要左转、右转、直行、静止或掉头等。

在本公开的一些实施例中，以对象为运动设备，如车辆，时序位置信息和时序姿态信息包括：车头时序位置信息和时序姿态信息、位置时序位置信息和时序姿态信息和车灯状态时序位置信息和时序姿态信息，将这三种时序位置信息和时序姿态信息按照车头时序位置信息和时序姿态信息、位置时序位置信息和时序姿态信息，以及车灯状态时序位置信息和时序姿态信息的顺序，依次输入神经网络(比如，LSTM网络)中；那么按照从车头时序位置信息和时序姿态信息、位置时序位置信息和时序姿态信息到车灯状态时序位置信息和时序姿态信息的顺序，对时序位置信息和时序姿态信息和对应的局部地图进行拼接，得到融合特征。然后，采用全连接网络对所述融合特征进行解码，预测车辆的运动意图，即车辆是想要左转、右转、直行、静止、左换道、右换道、超车或倒车等。

上述步骤S201和步骤S202提供了一种实现“将所述环境信息和所述时序位置信息和所述时序姿态信息进行融合，得到融合特征”的方式，在该方式中，通过按照时序位置信息和时序姿态信息输入神经网络的顺序，将时序位置信息和时序姿态信息与作为环境信息的局部地图进行融合，能够提高划分局部地图区域的准确度。

步骤S203，通过第二神经网络确定所述融合特征为意图类别库中每一意图类别的置信度。

在本公开的一些实施例中，第二神经网络可以是全连接网络，用于对融合特征进行分类。比如，采用全连接网络来预测融合特征为意图类别库中每一意图类别的可能性，即可得到每一意图类别的置信度。在本公开的一些实施例中，以对象为行人为例，对应的意图类别库中包括：左转、右转、直行、静止或掉头等；采用全连接网络来预测融合特征可能是左转、右转、直行、静止或掉头等中每一意图类别的置信度，比如，每一意图类别的概率。

在本公开的一些实施例中，该第二神经网络为训练好的神经网络，可以采用以下方式训练得到：

首先，将所述融合特征输入待训练第二神经网络，预测所述对象的运动意图为意图类别库中每一意图类别的置信度。

比如，待训练第二神经网络可以是待训练全连接网络，将融合特征输入待训练的第二神经网络，以预测该对象的运动意图为类别库中每一类别的概率。这里，对象可以是样本对象，将样本对象的融合特征输入待训练第二神经网络，以对该样本对象的运动意图进行分类。

其次，根据对象的真值意图，确定第二神经网络关于每一意图类别的置信度的第二预测损失。

这里，第二预测损失可以是分类的交叉熵损失函数。

最后，根据第二预测损失，对待训练第二神经网络的网络参数进行调整，以训练待训练第二神经网络，得到第二神经网络。

比如，采用分类的交叉熵损失函数对待训练第二神经网络的网络参数进行调整，以训练待训练第二神经网络，得到已训练的第二神经网络。

对于整个未来轨迹预测***而言，损失函数为第一预测损失和第二预测损失之和。如此，通过将对象在所述未来时段内的时序位置信息和时序姿态信息进行融合，并将融合特征作为训练第二神经网络的样本，使得训练得到的第二神经网络的分类性能更优。

步骤S204，根据置信度最大的意图类别，确定对象的运动意图。

在本公开的一些实施例中，选择概率最大的类别，将概率最大的类别确定为对象的运动意图。比如，采用全连接网络来预测融合特征可能是左转、右转、直行、静止或掉头等中每一类别的概率分别为：0.1、0.2、0.2、0.1和0.4，那么概率最大的类别为掉头，说明该对象最可能的运动意图为掉头，从而最终确定对象的运动意图为掉头。如此，采用神经网络通过对融合特征进行意图类别的分类，能够准确的预测最有可能的运动意图。

上述步骤S203和步骤S204提供了一种实现“根据所述融合特征，确定所述对象的运动意图”的方式，在该方式中，通过采用全连接网络对融合特征进行分类，从而能够准确的预测对象在未来时刻内的运动意图。

步骤S205，根据未来时段的长度，确定迭代步长。

比如，未来时段的长度为3秒，确定迭代步长为0.3秒。

步骤S206，按照所述迭代步长，采用第一神经网络对运动意图和融合特征进行迭代，得到所述对象在每一迭代步长下的坐标。

在本公开的一些实施例中，首先按照该迭代步长和未来时段的长度，确定出需要迭代的次数，然后采用第一神经网络对运动意图和融合特征进行迭代，得到每一次迭代的坐标。在本公开的一些实施例中，如果未来时段的长度为3秒，确定迭代步长为0.3秒，那么需要迭代的次数为10次，采用第一神经网络对运动意图和融合特征进行逐次迭代，最后得到10个坐标值。

步骤S207，根据对象在每一迭代步长下的坐标，确定未来轨迹。

比如，基于上述例子，进行了10次迭代，得到10个坐标值，那么基于这10个坐标值，即可预估对象的未来轨迹。

在本公开实施例中，将对象的意图预测与轨迹预测结合到一个***中，通过一步步迭代得到每一步长下的坐标，预测出未来轨迹，从而能够提高最终预测的未来轨迹的效率和预测效果。

在其他实施例中，通过第一神经网络对时序位置信息和时序姿态信息进行提取时序位置信息和时序姿态信息之后，还包括以下过程：

首先，采用其他LSTM网络对每一时序位置信息和时序姿态信息进行调整，得到第一调整时序位置信息和时序姿态信息。

在本公开的一些实施例中，可以采用双向LSTM网络或全连接层的模型，用于对时序位置信息和时序姿态信息进行调整；将时序位置信息和时序姿态信息中的每一时序位置信息和时序姿态信息输入双向LSTM网络或全连接层的模型，得到一个权值矩阵，然后，将权值矩阵分为与时序位置信息和时序姿态信息种类相同的部分，将每一部分分别对应的与时序位置信息和时序姿态信息中的每一时序位置信息和时序姿态信息进行相乘，得到多个第一调整时序位置信息和时序姿态信息。比如，以对象为行人为例进行说明，时序位置信息和时序姿态信息包括：对象的身体朝向、面部朝向和所述对象所处的位置；将这将这三个特征一一对应的输入三个独立的双向LSTM网络之后，得到三个特征对应的三种时序位置信息和时序姿态信息；然后，将这三种时序位置信息和时序姿态信息按照对象的身体朝向、面部朝向和所述对象所处的位置的顺序，依次输入第二神经网络中，得到一个权值矩阵；将该权值矩阵分为三个部分，第一部分与不同时刻的时序位置信息和时序姿态信息相乘，第二部分与不同时刻的时序位置信息和时序姿态信息相乘，第三部分与不同时刻对象的时序位置信息和时序姿态信息相乘，得到包含三种特征的第一调整时序位置信息和时序姿态信息。

其次，通过将每一个时序位置信息和时序姿态信息中的位置信息输入第三神经网络，得到权值向量，并且，采用该权值向量对每一第一调整时序位置信息和时序姿态信息进行调整，得到第二调整时序位置信息和时序姿态信息。

在本公开的一些实施例中，采用全连接模型，针对输入的多个距离，输出在该多个位置下每一种时序位置信息和时序姿态信息对应的权值向量。并且将得到的每一种时序位置信息和时序姿态信息对应的权值向量与该种时序位置信息和时序姿态信息对应的第一调整时序位置信息和时序姿态信息相乘，得到第二调整时序位置信息和时序姿态信息，从而得到第二调整时序位置信息和时序姿态信息。

最后，将第二调整时序位置信息和时序姿态信息与环境信息进行拼接，得到该融合特征。

在本公开的一些实施例中，首先，将第二调整时序位置信息和时序姿态信息中的第二调整时序位置信息和时序姿态信息与所述多个编码地图，按照预设方式进行拼接，得到融合特征。比如，以对象为行人为例，将这三种时序位置信息和时序姿态信息按照行人的身体朝向、面部朝向和所述对象所处的位置的顺序，依次输入神经网络(比如，LSTM网络)中；那么得到的第二调整时序位置信息和时序姿态信息也是包含这三种特征，按照从行人的身体朝向、面部朝向、所述行人所处的位置到局部地图的顺序，对第二调整时序位置信息和时序姿态信息和对应的局部地图进行拼接，得到融合特征。然后，采用全连接网络对所述融合特征进行解码，预测行人的运动意图，即行人是想要左转、右转、直行、静止或掉头等。

本公开实施例提供一种轨迹预测方法，在驾驶场景中，车辆、行人或非机动车可能具有复杂的行为，例如突然转向，突然向左或向右转弯或者行走。仅通过车辆、行人或非机动车的历史轨迹不能容易地预测或预期这种复杂的行为。同时，具有感知功能的自主***可以自然地提取更丰富的信息，以做出更多信息决策。

本公开实施例利用对象的朝向来描述对象运动和局部地图区域来描述周围的静态环境。该位置在水平面中表示为点(x，y)，而从相应的红绿蓝(Red Green Blue，RGB)图像中提取体方向和面方向，然后投影到水平面上，表示为单位矢量(d _x，d _y)。局部地图区域从高清地图中获得，包含多个道路信息，比如，人行横道、车道线、交叉点或人行道等。

本公开实施例使用数据采集车在城市驾驶场景中收集对象轨迹数据。该车配备了摄像头，64线激光雷达、雷达、全球定位***(Global Positioning System，GPS)或惯性测量单元(Inertial measurement unit，IMU)。本公开实施例利用标注的高清地图，通过感知功能，检测，分析和跟踪生成对象的未来轨迹。本公开实施例在10赫兹(HZ)时提供行人的未来轨迹以及原始数据，其中，原始数据包括原始图像，点云点，自车的车辆辆姿势和高清地图。对于对象的时序位置信息和时序姿态信息，本公开实施例使用第一神经网络和第二神经网络(其中，第一神经网络和第二神经网网络可以采用深度神经网络算法的模型来实现)来获得输出。本公开实施例的提供的预设的数据集中包括：行人的面部朝向、身体朝向和行人所处的位置、车灯信息、车头朝向信息等。如此，采用包含这样丰富信息的数据集训练第一神经网络和第二神经网络，使得训练好的第一神经网络和第二神经网络的泛化性更强。

本公开实施例以10Hz的频率收集原始传感器数据，包括正视图RGB图像(800×1762)，LiDAR点云以及自车的姿势和运动信息。为了更好地描述道路结构，本公开实施例为鸟瞰浏览高清晰度地图(High Definition Maps，HDMap)提供了道路类别(即车道线，交叉路口，人行横道，人行道等)的语义标注。道路类别表示为多边形或没有重叠区域的线。HDMap被裁剪并与每个数据帧的自车对齐。借助感知功能，通过检测和跟踪可以生成对象的运行轨迹。在本公开的一些实施例中，以具有更合适的密度，将轨迹采样到每帧0.3秒。本公开实施例收集了超过12000分钟的原始数据，并为车辆，行人和骑自行车的人采样了300000多种不同的轨迹。

为了构建对交通场景的全面描述，本公开实施例手动为收集的轨迹中的对象标注语义属性和意图。本公开实施例为每个对象类别使用不同的属性设置，以更好地捕获其功能。在本公开的一些实施例中，对于行人和骑自行车者等易受伤害的道路使用者(Vulnerable Road Users，VRU)，本公开实施例会注明年龄段(成人/少年)，性别(女性/男性)，面部朝向(角度)和身体朝向；对于车辆，本公开实施例标注了转向灯状态(左转/右转/制动)和前进方向。意图可以理解为对象在观察点的特定时间(在本公开实施例的设置中为1s)之后的未来动作。类似于该属性，本公开实施例为车辆，行人和骑自行车者定义了不同的意图空间，如图4A至图4D所示，其中：图4A表示不同的对象，即车辆401、行人402和骑自行车的人403，其中，车辆401的数量为334696占据58％，行人402的数量为178343占据31％，骑自行车的人403的数量为61934占据11％。

图4B表示对车辆进行的意图预测的结果，其中，直行421占据38.9％(即该车辆进行直行的意图为38.9％)，左转422占据2％，右转423占据1％，左换道424占据1.6％，右换道425占据2％，左超车426占据0.1％，右超车427占据0.1％，静止428占据54％，其他429占据0.2％。

图4C表示对行人进行的意图预测的结果，其中，直行431占据48.6％，左转432占据16.8％，右转433占据23.6％，静止434占据6.8％，掉头435占据0.4％，其他436占据3.7％。

图4D表示对骑自行车的人进行的意图预测的结果，其中，直行441占据37.5％，左转442占据13.5％，右转443占据17.9％，静止444占据24％，掉头占据0.1％，其他445占据7％。

与大多数轨迹预测数据集相比，本公开实施例的数据集涵盖了更多的对象类别，并提供了丰富的上下文标注，包括道路信息和属性标注。本公开实施例的数据集使用了更广泛的意图定义，并且数据规模较大。

在本公开实施例中，采用统一的框架来共同预测对象的未来轨迹和潜在意图。本公开实施例采用的第一神经网络和第二神经网络中的至少之一，可以包括但不限于基于 LSTM的编码器-解码器架构实现的，并且基于第一神经网网络和第二神经网络中的至少之一能够提高该框架的直接性和通用性。首先，采用编码器从对象的历史运动轨迹以及丰富的上下文信息中提取对象特征，对象特征包括语义对象属性和本地道路结构。然后，利用解码器估计意图分布并回归未来位置。如图5所示，图5为本公开实施例提供的轨迹预测***的框架示意图，结合图5进行以下说明：

首先，获取在历史时刻内采集的多个图像中，行人501的时序位置信息和时序姿态信息，包括：位置信息502、身体朝向503、面部朝向504和当前时刻的道路结构505。

然后，针对每一个时序位置信息和时序姿态信息建立时序模型，即将每一个时序位置信息和时序姿态信息输入第一神经网络(此处第一神经网络可以采用LSTM网络506实现)中，得到对应的时序特征。

比如，将位置信息502输入LSTM网络506得到位置时序特征，将身体朝向503输入LSTM网络506得到身体朝向时序特征，将面部朝向504输入LSTM网络506得到面部朝向时序特征；最后，将道路结构505输入到第二神经网络(此处第二神经网络可以采用CNN网络507实现)中以对道路结构进行编码，得到道路时序位置信息和时序姿态信息。

最后，将道路时序位置信息和时序姿态信息和时序特征进行融合，得到融合特征，将融合特征输入第一神经网络(此处第一神经网络可以采用MLP网络508实现)中，进行意图预测，得到意图预测的结果为横穿马路509。接下来，将意图预测的结果横穿马路509和融合特征相结合输入LSTM网络506中，进行多次迭代，预测行人的运行轨迹，得到预测的未来轨迹510；在图5中，通过对比行人501的历史轨迹511、预测的未来轨迹510和真值轨迹512，可以看出，采用本公开实施例提供的轨迹预测方法得到的预测的未来轨迹510的准确率是非常高的。

在图5中，根据每个数据项的特定形式，使用一组LSTM或CNN网络对对象的运动历史和多模式上下文输入进行编码。编码后的特征拼接为融合特征之后，馈入解码器以共同预测未来的轨迹和潜在意图。

在本公开实施例中，针对每个时间步长t(比如，t的取值可以为大于0小于T)，第i个对象的观察结果表示为

其中，

是位置信息，

是上下文信息。给定在离散时间间隔t∈[T-n:T]中的观察，本公开实施例能够实现预测对象在t∈[T+1:T+m]和意图IT的未来位置。其中，T是最后的观察时间(比如，T取值可以为大于0且小于5分钟)，n，m分别是观察时长和预测时长(比如，n，m的取值可以为大于0且小于5分钟的实数)。

本公开实施例使用一组双向LSTM网络作为第一神经网络，对多源输入数据进行编码。将对象pT-m：T的历史轨迹直接输入LSTM，以获取时间T处的隐藏状态(表示为

)作为运动历史特征。上下文信息根据其特定形式进行处理。对于VRU，本公开实施例设置c _t＝(f _t,b _t,r _t)，其中，ft/bt是以二维单位矢量表示的脸部/身体方向，r _t是以自车为中心并旋转的局部道路结构图，以使y轴与自车的头部方向对齐。对于车辆，本公开实施例设置c _t＝(l _t,h _t,r _t)，其中l _t是三维二进制矢量中的灯状态，h _t是车头朝向，r _t与VRU设置中的相同。在本公开实施例中，诸如面部朝向和车灯状态之类的语义属性与对象意图和未来运动密切相关，并反映了对象的固有特性，而这些特性是无法从运动历史中获得的。本地地图提供道路结构以规范轨迹预测。在本公开实施例的实现中，类似于运动历史编码的过程，方向(即面部，身体和车辆前进方向)序列和灯状态序列分别直接输入到独立的双向LSTM中。本公开实施例在观察时间T内使用一次于本地地图，以减少冗余。本公开实施例首先栅格化原始地图，然后将栅格化的地图输入到CNN模型中以提取地图时序位置信息和时序姿态信息。最后，将所有编码的向量连接为在时间T嵌入的融合特征，如公式(1)：

e _T＝φ(p _T-m:T,c _T-m:T) 公式(1)；

其中，φ表示整个编码器的变换函数。

本公开实施例将意图预测建模为一个分类问题。其中，模型根据给定对象的融合特征e _T来预测有限意图集上的后验概率分布。本公开实施例使用多层感知器(Multilayer perceptron，MLP)，连接softmax层作为意图分类器。在训练过程中，本公开实施例将交叉熵损失降到最低，如公式(2)所示：

其中，

是在时间T的真实意图的预测概率(索引表示为k _T)。

本公开实施例将轨迹预测视为序列生成任务，并采用LSTM解码器来预测每个未来时间步长上的对象运动。嵌入e _T的特征一开始就被馈送到解码器中。特别地，本公开实施例通过将意图分类器的输出通过另一个全连接层来确定意图嵌入特征

并将意图嵌入特征用作轨迹解码器的辅助输入，从而为轨迹预测提供良好的条件。本公开实施例在训练过程中最小化了高斯样损失函数：

其中，(x _t,y _t)是时间t处的地面真相位置，σ _t,μ _t,ρ _t是代表轨迹预测的预测高斯分布参数。通过优化全局损失函数L＝L _Traj+L _Int，本公开实施例的神经网络可以多任务方式进行端到端训练。在一些实施例中还可以使用高斯平均作为预测的轨迹位置。

在其他实施例中，以下针对对象为行人为例，进行说明：

表1为在不同的采集距离下采集到的身体朝向和面部朝向的精确度。从表1可以看出，行人所处的位置、身体朝向和面部朝向用于表示行人的动态情况，而局部地图区域用于表示静态周围环境。在本公开实施例中，位置、身体朝向、面部朝向即行人的时序位置信息和时序姿态信息可以看作是动态特征，而局部地图区域可以看作是静态特征。

表1对于行人，在不同距离下的身体朝向和面部朝向的精确度

如表1所示，面部朝向(Face direction)和身体朝向(Body direction)的精确度与从行人到自车的距离有关。距离越长，特征的精确度越低。因此，在不同距离的不同时序位置信息和时序姿态信息上调整时序位置信息和时序姿态信息的权重。本公开实施例使用嵌入函数φ来表达这种关系：

其中，

表示在时间步长t处第i个行人与自车之间的距离，W _dis表示第二神经网络中输入到输出的转换参数，

在第二神经网络中输入不同的距离后，针对位置，面部朝向和身体朝向输出的对应的权值向量。

行人遵循基本的交通规则，这些规则与其相应的当地道路结构有关。局部地图区域是行人的未来轨迹预测的基本静态环境。

每条车道线内的区域被视为行人的“危险空间”。图6为本公开实施例轨迹预测方法的实现框架结构图，如图6所示，首先，从图像601至图像60n中提取行人61的时序位置信息和时序姿态信息，比如，面部朝向

身体朝向

和行人61所处的位置

以及根据身体朝向和所处的位置确定的局部地图区域

其次，将行人61所处的位置

身体朝向

和面部朝向

单独输入三个独立的第一神经网络62、63和64(比如，双向LSTM网络)中，分别得到用于表明身体朝向的时序特征(即时序位置信息和时序姿态信息)、面部朝的时序特征和样本对象所处的位置在时间上的变化情况的时序特征；再将时序特征输入另一第二神经网络65(比如，双向LSTM网络)中，得到第一调整时序特征。将不同的距离输入全连接模型68中，得到该距离下身体朝向、面部朝向和运动对象所处的位置对应的权重；将该权重与第一调整时序特征相乘，得到第二调整时序特征。

再次，将编码地图602展开为一维特征向量，对该一维特征向量进行编码，输入另一双向LSTM网络，即第一神经网络66，得到该以为特征向量对应的时序特征；然后，将该时序特征作为行人61的时序位置信息和时序姿态信息对应的时序特征的辅助特征，将这些特征进行拼接，得到融合特征；然后通过解码的神经网络67，对融合特征进行解码，得到预测的行人的未来轨迹，即虚线69；实线70为该行人61的真值未来轨迹，由此可见，本公开实施例通过的网络模型的预测结果是非常准确的。

本公开实施例针对局部地图区域采用掩码编码，得到编码地图602，其中每个码字由与其语义道路结构类相关联的特定整数填充。对于在时间步长t的第i个行人，首先，根据该行人所处的位置和身体朝向，确定该行人对应的局部地图区域。然后将局部地图区域均匀地离散化为网格，其中每个网格由主要语义道路结构类的结构特定数量表示。比如，“人行横道”和“人行道”表示为数字“1”，“危险地点”表示为“-1”，其他表示为数字“0”，即得到用于划分危险或安全区域的网格603。

在本公开的一些实施例中，将编码的动态特征(即行人的时序位置信息和时序姿态信息)和编码的静态特征(即局部地图区域)连接起来预测。使用简单的LSTM网络对与行人的未来轨迹进行预测。

本公开实施例提供历史数据的预设数据集是大规模和信息化的轨迹数据集，以促进自动驾驶中的行人轨迹预测任务。同时，该数据集中具有多个评价标准，长度大于预设阈值的未来轨迹的平均失败预测次数、未来轨迹在不同距离对应的误差阈值下的成功率或未来轨迹的终点位置与真值轨迹的终点位置之间的误差，以评估预测模型的准确性和鲁棒性；从而，即使在非常复杂的场景下，使用该神经网络仍然能够较为准确的预测行人的未来轨迹。

本公开实施例提供一种轨迹预测装置，图7为本公开实施例轨迹预测装置结构组成示意图，如图7所示，所述装置700包括：

意图确定模块701，配置为根据对象的时序位置信息和时序姿态信息，确定所述对象的运动意图；其中，所述时序位置信息为所述对象在预设时长内不同时间点的位置信息，所述时序姿态信息为所述对象在预设时长内不同时间点的姿态信息；所述不同时间点的姿态信息包括所述对象在所述不同时间点的朝向信息；

未来轨迹确定模块702，配置为根据所述时序位置信息、所述时序姿态信息以及所述运动意图，确定所述对象的未来轨迹。

在上述装置中，意图确定模块701，包括：地图截取子模块，配置为根据所述时序位置信息和所述时序姿态信息，获取所述对象所处环境的环境信息；特征融合子模块，配置为将所述环境信息、所述时序位置信息和时序姿态信息进行融合，得到融合特征；意图预测子模块，配置为根据所述融合特征，确定所述对象的运动意图；所述未来轨迹确定模块702，包括：轨迹预测子模块，配置为根据所述融合特征和所述运动意图，确定所述对象的未来轨迹。

在上述装置中，所述对象包括人体对象和非人体对象中的至少之一，在所述对象包括所述人体对象的情况下，所述不同时间点的姿态信息包括：所述人体对象的部位的在所述不同时间点的朝向信息，所述部位包括以下至少之一：肢体、面部；在所述对象包括所述非人体对象的情况下，所述非人体对象包括以下至少之一：车辆、动物、可移动设备；所述不同时间点的姿态信息包括：所述非人体对象在所述不同时间点的朝向信息和行驶指示信息。

在上述装置中，所述装置还包括：历史时刻确定模块，配置为确定距离当前时刻的时长小于等于特定时长的至少两个历史时刻；特征信息获取模块，配置为获取所述对象在至少两个历史时刻的时序位置信息和时序姿态信息。

在上述装置中，所述地图截取子模块，包括：地图截取单元，配置为根据所述对象在任一历史时刻的位置信息和朝向信息，确定所述环境信息；其中，所述环境信息至少包括下列中的至少一个：道路信息、行人信息或交通灯信息。

在上述装置中，所述地图截取单元，还配置为：以所述位置信息为中心，按照所述朝向信息，在世界地图中划定所述对象所在环境的局部地图区域；对所述局部地图区域中的元素进行编码，得到所述环境信息。

在上述装置中，所述特征融合子模块，包括：时序位置信息和时序姿态信息确定单元，配置为通过第一神经网络，根据所述时序位置信息和时序姿态信息，预测在未来时段内的时序位置信息和时序姿态信息；特征拼接单元，配置为将所述未来时段内的时序位置信息、时序姿态信息和所述环境信息，按照预设方式进行拼接，得到所述融合特征。

在上述装置中，所述意图预测子模块，包括：置信度确定单元，配置为通过第二神经网络确定所述融合特征为意图类别库中每一意图类别的置信度；意图预测单元，配置为将置信度最大的意图类别，确定所述对象的运动意图。

在上述装置中，所述轨迹预测子模块，包括：迭代步长单元，配置为根据所述未来时段的长度，确定迭代步长；特征迭代单元，配置为按照所述迭代步长，采用所述第一神经网络对所述运动意图和所述融合特征进行迭代，得到所述对象在每一迭代步长下的坐标；未来轨迹确定单元，配置为根据所述对象在每一迭代步长下的坐标，确定所述未来轨迹。

在上述装置中，所述装置还包括第一训练模块，配置为训练第一神经网络；

第一训练模块，包括：预测时序位置信息和时序姿态信息的预测子模块，配置为将所述对象的时序位置信息和时序姿态信息输入待训练第一神经网络中，预测所述对象在所述未来时段内的时序位置信息和时序姿态信息；预测特征融合子模块，配置为将所述未来时段内的时序位置信息、时序姿态信息与所述对象所在环境的环境信息进行融合，得到融合预测特征；预测未来轨迹子模块，配置为至少根据所述融合预测特征，预测所述对象在所述未来时段内的未来轨迹；第一预测损失确定子模块，配置为根据所述对象的真值轨迹，确定所述待训练第一神经网络关于所述未来轨迹的第一预测损失；第一神经网络参数调整子模块，配置为根据所述第一预测损失，对所述待训练第一神经网络的网络参数进行调整，得到所述第一神经网络。

在上述装置中，所述装置还包括第二训练模块，配置为训练第二神经网络；

第二训练模块，包括：类别置信度确定子模块，配置为将所述融合特征输入待训练第二神经网络，预测所述对象的运动意图为意图类别库中每一意图类别的置信度；第二预测损失确定子模块，配置为根据所述对象的真值意图，确定所述待训练第二神经网络关于所述每一意图类别的置信度的第二预测损失；第二神经网络参数调整子模块，配置为根据所述第二预测损失，对所述待训练第二神经网络的网络参数进行调整，得到所述第二神经网络。

对应地，本公开实施例再提供一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，该计算机可执行指令被执行后，能够实现本公开实施例提供的轨迹预测方法中。

相应的，本公开实施例再提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，所述该计算机可执行指令被处理器执行时实现上述实施例提供的轨迹预测方法。

本公开实施例还提供一种计算机程序，所述计算机程序包括计算机可读代码，在所述计算机可读代码在电子设备中运行的情况下，所述电子设备的处理器执行用于实现上述实施例提供的轨迹预测方法。

相应的，本公开实施例提供一种计算机设备，图8为本公开实施例计算机设备的组成结构示意图，如图8所示，所述设备800包括：一个处理器801、至少一个通信总线、通信接口802、至少一个外部通信接口和存储器803。其中，通信接口802配置为实现这些组件之间的连接通信。其中，通信接口802可以包括显示屏，外部通信接口可以包括标准的有线接口和无线接口。其中所述处理器801，配置为执行存储器中图像处理程序，以实现上述实施例提供的轨迹预测方法。

在实际应用中，上述存储器可以是易失性存储器(volatile memory)，例如随机存取存储器(Random Access Memory，RAM)；或者非易失性存储器(non-volatile memory)，例如只读存储器(Read-Only Memory，ROM)，快闪存储器(flash memory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；或者上述种类的存储器的组合，并向处理器提供指令和数据。

上述处理器可以为专用集成电路(Application Specific Integrated Circuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理设备(Digital Signal Processor Device，DSPD)、可编程逻辑器件(Programmable Logic Device，PLD)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本公开实施例不作限定。

以上轨迹预测装置、计算机设备和存储介质实施例的描述，与上述方法实施例的描述是类似的，具有同相应方法实施例相似的技术描述和有益效果，限于篇幅，可参考上述方法实施例的记载。对于本公开轨迹预测装置、计算机设备和存储介质实施例中未披露的技术细节，请参照本公开方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本公开的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本公开的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本公开所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本公开各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本公开上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

工业实用性

本公开实施例提供一种轨迹预测方法、装置、设备、存储介质及程序，其中，根据对象的时序位置信息和时序姿态信息，确定所述对象的运动意图；其中，所述时序位置信息为所述对象在预设时长内不同时间点的位置信息，所述时序姿态信息为所述对象在预设时长内不同时间点的姿态信息；其中，所述不同时间点的姿态信息包括所述对象的多个部位在所述不同时间点的朝向信息；根据所述时序位置信息、所述时序姿态信息以及所述运动意图，确定所述对象的未来轨迹。

Claims

一种轨迹预测方法，所述方法由电子设备执行，所述方法包括：

根据对象的时序位置信息和时序姿态信息，确定所述对象的运动意图；其中，所述时序位置信息为所述对象在预设时长内不同时间点的位置信息，所述时序姿态信息为所述对象在预设时长内不同时间点的姿态信息；所述不同时间点的姿态信息包括所述对象在所述不同时间点的朝向信息；

根据所述时序位置信息、所述时序姿态信息以及所述运动意图，确定所述对象的未来轨迹。
根据权利要求1所述的方法，其中，

所述根据对象的时序位置信息和时序姿态信息，确定所述对象的运动意图，包括：

根据所述时序位置信息和所述时序姿态信息，获取所述对象所处环境的环境信息；

将所述环境信息、所述时序位置信息和时序姿态信息进行融合，得到融合特征；

根据所述融合特征，确定所述对象的运动意图；

所述根据所述时序位置信息、所述时序姿态信息以及所述运动意图，确定所述对象的未来轨迹，包括：

根据所述融合特征和所述运动意图，确定所述对象的未来轨迹。
根据权利要求1或2所述的方法，其中，所述对象包括人体对象和非人体对象中的至少之一；

在所述对象包括所述人体对象的情况下，所述不同时间点的姿态信息包括：所述人体对象的部位的在所述不同时间点的朝向信息，所述部位包括以下至少之一：肢体、面部；

在所述对象包括所述非人体对象的情况下，所述非人体对象包括以下至少之一：车辆、可移动设备；

所述不同时间点的姿态信息包括：所述非人体对象在所述不同时间点的朝向信息和行驶指示信息。
根据权利要求1或2所述的方法，其中，所述根据对象的时序位置信息和时序姿态信息，确定所述对象的运动意图之前，所述方法还包括：

确定距离当前时刻的时长小于等于特定时长的至少两个历史时刻；

获取所述对象在所述至少两个历史时刻的时序位置信息和时序姿态信息。
根据权利要求2至4任一所述的方法，其中，所述根据所述时序位置信息和所述时序姿态信息，获取所述对象所处环境的环境信息，包括：

根据所述对象在任一历史时刻的位置信息和朝向信息，确定所述环境信息；其中，所述环境信息至少包括下列中的至少一个：道路信息、行人信息或交通灯信息。
根据权利要求5所述的方法，其中，所述根据所述对象在任一历史时刻的位置信息和朝向信息，确定所述环境信息，包括：

以所述位置信息为中心，按照所述朝向信息，在世界地图中划定所述对象所在环境的局部地图区域；

对所述局部地图区域中的元素进行编码，得到所述环境信息。
根据权利要求2、5和6任一所述的方法，其中，所述将所述环境信息、所述时序位置信息和时序姿态信息进行融合，得到融合特征，包括：

通过第一神经网络，根据所述时序位置信息和时序姿态信息，预测在未来时段内的时序位置信息和时序姿态信息；

将所述未来时段内的时序位置信息、时序姿态信息和所述环境信息，按照预设方式进行拼接，得到所述融合特征。
根据权利要求2、5至7任一所述的方法，其中，所述根据所述融合特征，确定所述对象的运动意图，包括：

通过第二神经网络确定所述融合特征为意图类别库中每一意图类别的置信度；

将置信度最大的意图类别，确定所述对象的运动意图。
根据权利要求2、5至8任一所述的方法，其中，所述根据所述融合特征和所述运动意图，确定所述对象的未来轨迹，包括：

根据所述未来时段的长度，确定迭代步长；

按照所述迭代步长，采用所述第一神经网络对所述运动意图和所述融合特征进行迭代，得到所述对象在每一迭代步长下的坐标；

根据所述对象在每一迭代步长下的坐标，确定所述未来轨迹。
根据权利要求7至9任一所述的方法，其中，所述第一神经网络的训练方法，包括：

将所述对象的时序位置信息和时序姿态信息输入待训练第一神经网络中，预测所述对象在所述未来时段内的时序位置信息和时序姿态信息；

将所述未来时段内的时序位置信息、时序姿态信息与所述环境信息进行融合，得到融合预测特征；

至少根据所述融合预测特征，预测所述对象在所述未来时段内的未来轨迹；

根据所述对象的真值轨迹，确定所述待训练第一神经网络关于所述未来轨迹的第一预测损失；

根据所述第一预测损失，对所述待训练第一神经网络的网络参数进行调整，得到所述第一神经网络。
根据权利要求8至10任一所述的方法，其中，所述第二神经网络的训练方法，包括：

将所述融合特征输入待训练第二神经网络，预测所述对象的运动意图为意图类别库中每一意图类别的置信度；

根据所述对象的真值意图，确定所述待训练第二神经网络关于所述每一意图类别的置信度的第二预测损失；

根据所述第二预测损失，对所述待训练第二神经网络的网络参数进行调整，得到所述第二神经网络。
一种轨迹预测装置，所述装置包括：

意图确定模块，配置为根据对象的时序位置信息和时序姿态信息，确定所述对象的运动意图；其中，所述时序位置信息为所述对象在预设时长内不同时间点的位置信息，所述时序姿态信息为所述对象在预设时长内不同时间点的姿态信息；所述不同时间点的姿态信息包括所述对象在所述不同时间点的朝向信息；

未来轨迹确定模块，配置为根据所述时序位置信息、所述时序姿态信息以及所述运动意图，确定所述对象的未来轨迹。
一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现权利要求1至11任一项所述的轨迹预测方法。
一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时可实现权利要求1至11任一项所述的轨迹预测方法。
一种计算机程序，所述计算机程序包括计算机可读代码，在所述计算机可读代码在电子设备中运行的情况下，所述电子设备的处理器执行用于实现如权利要求1至11任一所述的轨迹预测方法。