CN116071728A

CN116071728A - 基于transformer和姿态估计的行人轨迹预测方法及存储介质

Info

Publication number: CN116071728A
Application number: CN202211708913.XA
Authority: CN
Inventors: 高洪波; 廖晏祯; 朱菊萍; 苏慧萍; 沈达; 谢岳松; 姚卯青
Original assignee: University of Science and Technology of China USTC; Weilai Automobile Technology Anhui Co Ltd
Current assignee: University of Science and Technology of China USTC; Weilai Automobile Technology Anhui Co Ltd
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-05-05

Abstract

本发明公开了一种基于transformer和姿态估计的行人轨迹预测方法及存储介质，属于智能驾驶领域；包括以下步骤：步骤1：针对智能驾驶车辆当前所处环境，使用摄像头和雷达采集车辆相关数据，并构建高精地图；步骤2：基于采集的数据，对道路使用者的行为及其之间交互、道路环境信息、行人姿态信息进行建模；步骤3：针对姿态信息，也将其融合进模型，并编码为向量；步骤4：结合行人姿态识别结果，基于注意力机制和多层感知器，实现目标行人的轨迹预测。本发明可有效地提高了智能驾驶车辆对周围行人行为识别与轨迹预测的准确性，增强了智能驾驶车辆行驶的高效性与安全性。

Description

基于transformer和姿态估计的行人轨迹预测方法及存储介质

技术领域

本发明涉及智能驾驶领域，尤其涉及一种基于transformer和姿态估计的行人轨迹预测方法及存储介质。

背景技术

对于智能驾驶车辆而言，安全问题摆在首位。为了提早发现道路上存在的危险，自动驾驶汽车不仅需要探测周车物体的当前位置，还要对它们将来的位置做预测。在所有的这些物体中，行人是重要且困难的一类。其难点主要来自于行人外观的多样性以及行人运动模式的高度不确定性。

行人自身具有不同的运动姿态，运动姿态能够对其将来行为又一个很好的指示性作用。因此对行人的姿态进行识别与分类对于行人轨迹预测具有相当大的作用。

发明内容

本发明的目的在于克服现有技术存在的不足或缺陷，以便于在复杂路口，考虑行人交互的实际情况，基于对行人姿态信息的理解，设计基于transformer和姿态估计的行人轨迹预测方法，从而提高自动驾驶车辆行驶的安全性与高效性。

为实现上述目的，本发明提供了一种基于transformer和姿态估计的行人轨迹预测方法，包括如下步骤：

步骤1：针对智能驾驶车辆当前所处环境，使用摄像头和雷达采集车辆相关数据，并构建高精地图；

步骤2：基于采集的数据集，对道路使用者的行为及其之间交互、道路环境信息、行人姿态信息进行建模；

步骤3：针对姿态信息，也将其融合进模型，并编码为向量组；

步骤4：结合行人姿态识别结果，基于注意力机制和多层感知器，实现目标行人的轨迹预测。

进一步的，所述步骤2包括：

将道路使用者的行为及其之间交互、道路环境信息等通过向量表示；

其中，道路使用者，包括行人、车辆、骑行人等。道路环境信息，包括车道线位置、车道箭头模式、斑马线位置等。

进一步的，所述步骤3对姿态信息进行建模，包括：

通过测量手腕与手肘之间、脚腕与膝盖之间和身体前倾的角度等，对行人当前姿态模式进行分类，分为等待、加速通过和保持。

进一步的，所述步骤4实现目标行人的轨迹预测，包括：

采用注意力机制和多层感知器对目标行人进行长时域多模态轨迹预测，列出所有可能的预测轨迹并选择出可能性最大的未来预测轨迹。

本发明以道路行人为研究对象，考虑行人交互的实际情况，基于对行人姿态信息的理解，对自动驾驶车辆周围(目标)行人进行长时域多模态轨迹预测。

与现有技术相比，本发明存在以下技术效果：

1)本发明基于transformer架构提出了一种行人轨迹预测模型，encoder压缩信息，采用注意力机制融合信息，decoder提取信息，三者互为补充，提高了数据的利用率以及轨迹预测的准确性。

2)本发明利用姿态信息，可以作为历史轨迹信息的补充，提高轨迹预测的准确性。

附图说明

下面结合附图，对本发明的具体实施方式进行详细描述：

图1是一种基于transformer和姿态估计的行人轨迹预测方法的流程示意图；

图2是多模态数据编码的流程示意图；

图3是行人姿态的识别位点；

图4是图注意力网络示例图。

具体实施方式

为了更进一步说明本发明的特征，请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用，并非用来对本发明的保护范围加以限制。

如图1所示，本实施例公开了一种基于transformer和姿态估计的行人轨迹预测方法，包括如下步骤S1～S4：

S1、针对智能驾驶车辆当前所处环境，使用摄像头和雷达采集车辆相关数据，并构建高精地图；

S2、基于采集的数据集，对道路使用者的行为及其之间交互、道路环境信息；

S3、针对行人姿态信息，也将其融合进模型，并编码为向量组；

S4、结合行人姿态识别结果，基于注意力机制和多层感知器，实现目标行人的轨迹预测。

具体的，所述步骤S1，包括：

采集智能驾驶车辆所处环境的相关数据，建立数据集。由于实际因素限制，本发明采用智能驾驶领域的开源数据集，如Waymo数据集、KITTI数据集、NuScenes数据集等。

所述步骤S2对不同模态数据进行建模，如图2所示，包括：

将道路使用者的行为及其之间交互、道路环境信息等通过向量表示。

针对不同模态的数据使用不同的编码器。具体包括以下步骤S21～S23：

S21、target agent data：取固定数量的历史帧信息，一般基于过去十帧或三十帧，信息包括agent位置、速度、3D边界框、方向角和agent类型。以当前agent为中心的坐标系，因此agent位于原点，朝向东。

S22、other agent data对每个agent建模时，考虑所有邻近的agent。基于当前agent的坐标系提取每个相邻的智能体特征，如相对方向、距离、历史和速度。

以上两组数据，编码器可以如下设置：

由于数据包含时序信息，因此需要先对每一帧的id进行编码，这里可以采用one-hot编码。以速度为例，对每一帧的当前速度v，计算与上一帧速度的差值dv，将速度序列与速度差值序列分别输入到两组LSTM网络中(由于每n帧只能获取n-1条差值，因此速度序列和速度差值序列的长度不同，LSTM网络的输入大小也不同；此外，隐藏层通常设置为64或128)，将两组输出后的结果与帧id编码进行拼接可以获得速度的编码结果。其他数据例如位置，方向角等同理。

c_v＝LSTM(v₀,v₁，....，v_t) (1)

c_dv＝LSTM(dv_o，dv₁，....，dv_t-1) (2)

o_vi＝Onehot(f_i)，i＝0…t (3)

E_v＝c_v||c_dv||o_vi (4)

其中||表示拼接运算，LSTM为一种循环神经网络，Onehot表示将各帧id：f₀,f₁，....，f_t等编码。最后将结果拼接可以得到速度的最终表示E_v。

S23、roadgraph data：通常以参数化曲线表示车道线、人行横道和停止线等道路网络元素。如果是采样等方式获取的数据，那么保存的形式应为多维数组格式存储的点集。可以进一步总结这些信息，将每个道路元素的点序列近似为一组折线。

上述道路图数据，编码器可以如下设置：

由于道路元素通常不具备时序信息，通常取三层网络的MLP即可进行编码，同样的，每层网络的隐藏层大小设置为64或128效果较优。为了简化计算，可以适当对远处的道路元素忽略，如，取在对每个agent进行推理时，只考虑其最近的64个道路元素。

E_r＝MLP(r₀,r₁，....，r₆₄) (5)

其中MLP为一种全连接神经网络，邻近的道路元素的最终表示为E_v。

综上，所述步骤S2得到了末尾嵌入了位置信息的道路使用者的历史轨迹及其之间交互的编码，还得到了道路环境信息的编码。

优选地，所述步骤S3对姿态信息进行建模，包括：

通过测量手腕与手肘之间、脚腕与膝盖之间和身体前倾的角度等，对行人当前姿态模式进行分类，分为等待、加速通过和保持。具体包括以下步骤S31～S34：

S31、分别手腕与手肘之间α₆₇、脚腕与膝盖之间α₉₀和身体前倾的角度0₀，得到三列数据。

S32、将有标签数据利用xgboost或神经网络进行训练，一般地，一万条数据以下不需要神经网络进行训练。

S33、获得预测器：输入三个角度，可以判断行人当前所处姿态，分为等待、加速通过和保持。

S34、将姿态识别结果作为多模态信息之一输入到注意力模型内，提高预测精度。

优选地，所述步骤S4实现目标行人的轨迹预测，如图3所示，包括：

采用注意力机制和多层感知器对目标行人进行长时域多模态轨迹预测。可以利用当前最流行的高斯混合模型(GMM)参数化表示轨迹。列出所有可能的预测轨迹并选择出未来可能性最大的预测轨迹。具体包括以下步骤S41～S43：

步骤S41：得到编码后的轨迹和地图之后，采用MLP分别进行特征提取，为了方便进行多层网络叠加(通常三层)，可以将隐藏层大小统一到64或128维。

步骤S42：提取后的特征被输入到图注意力网络中，基于注意力机制传播全图特征信息。

对于两个特征s_i和s_i，信息融合方法如下

c_ii＝LeakyReLU(s_i||s_j) (6)

s′_i＝(1-λ)n_i+λs_i (9)

分别计算了特征之间的相关系数、邻节点传递过来的信息以及更新后的信息。

如图4所示，以速度为例，每一个节点对应了某一帧的当前的速度信息在设定为只能看到两个邻节点的情况下，节点S4可以聚合S2、S3及其自身的信息。

步骤S43：参数化建模表示轨迹，长时预测，同时假设不同时间步的分别是条件独立的。每个时间步的输出分布都可以表示为(x,y)上的高斯分布，均值为μ_t∈R²，协方差为∑_t∈R^2×2。

采用两组多层MLP，分类头预测混合分量上的softmax分布，回归头预测T个时间步的高斯分布的μ和∑。

本发明基于transformer架构提出了一种行人轨迹预测方法，属于智能驾驶领域。利用行人姿态信息提高模型识别精度和准确率。基于高精地图及道路使用者的行为及其之间交互、道路环境信息、行人姿态信息等进行建模编码为向量，基于注意力机制和多层感知器实现信息融合与提取，实现目标行人的轨迹预测。

又一方面，本发明还公开一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如上述任一方法的步骤。

再一方面，本发明还公开一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上述任一方法的步骤。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一方法的步骤。

可理解的是，本发明实施例提供的***与本发明实施例提供的方法相对应，相关内容的解释、举例和有益效果可以参考上述方法中的相应部分。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于transformer和姿态估计的行人轨迹预测方法，其特征在于，包括以下步骤：

步骤3：将姿态信息融合进模型，并编码为向量组；

2.根据权利要求1所述的一种基于transformer和姿态估计的行人轨迹预测方法，其特征在于，所述步骤2包括：

将道路使用者的行为及其之间交互、道路环境信息通过向量表示；

其中，道路使用者包括行人、车辆、骑行人；道路环境信息包括车道线位置、车道箭头模式、斑马线位置。

3.根据权利要求2所述的一种基于transformer和姿态估计的行人轨迹预测方法，其特征在于，针对不同模态的数据使用不同的编码器，所述步骤2具体包括：

S21、target agent data：取固定数量的过去帧的信息，信息包括目标位置、速度、3D边界框、方向角和目标类型；建立以当前agent为中心的坐标系，agent位于原点，朝向东；

S22、other agent data：对每个agent建模时，考虑所有邻近的agent；基于当前agent的坐标系提取每个相邻的agent特征，包括相对方向、距离、历史和速度；

S23、roadgraph data：以参数化曲线表示车道线、人行横道和停止线道路网络元素。

4.根据权利要求1所述的一种基于transformer和姿态估计的行人轨迹预测方法，其特征在于，所述步骤3对目标行人进行姿态估计，包括：

通过测量手腕与手肘之间、脚腕与膝盖之间和身体前倾的角度，对行人当前姿态模式进行分类，分为等待、加速通过和保持。

5.根据权利要求1所述的一种基于transformer和姿态估计的行人轨迹预测方法，其特征在于，所述步骤4实现目标行人的轨迹预测，包括：

步骤S41：得到编码后的轨迹和地图之后，采用MLP分别进行特征提取；

步骤S43：参数化建模表示轨迹，长时预测，不同时间步的分别是条件独立的；每个时间步的输出分布都表示为(x,y)上的高斯分布，均值为μ_t∈R²，协方差为Σt∈R^2×2；采用两组多层MLP，分类头预测混合分量上的softmax分布，回归头预测T个时间步的高斯分布的μ和Σ。

6.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至5中任一项所述方法的步骤。