CN114626598A

CN114626598A - 一种基于语义环境建模的多模态轨迹预测方法

Info

Publication number: CN114626598A
Application number: CN202210227310.1A
Authority: CN
Inventors: 曾繁虎; 杨欣; 朱义天; 李恒锐; 樊江锋; 周大可
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2022-06-14

Abstract

本发明涉及一种基于语义环境建模的多模态行人轨迹预测方法，属于自动驾驶和人工智能领域。在本发明模型框架中，针对现有语义物理环境限制下行人动态交互场景中的多模态轨迹预测的问题与不足，对于原始输出图像使用栅格化语义地图的方式进行高效环境建模，使用条件场景下的变分生成对抗网络架构输出多模态下的行人轨迹，使用判别器对模态匹配轨迹和真值轨迹的距离进行度量，同时设计多元化损失函数，以解决模态坍缩、单一拟合等问题，使得本发明模型能够预测出在该场景语义地图中行人合理的未来轨迹，对于及时、快速预测行人合理轨迹有积极和深刻的意义，对无人驾驶、智能交通等领域的进一步发展有重要的帮助。

Description

一种基于语义环境建模的多模态轨迹预测方法

技术领域

本发明属于自动驾驶和人工智能领域，尤其涉及一种基于语义环境建模的多模态轨迹预测方法。

背景技术

轨迹预测在智能交通物流、自动无人驾驶等在实际领域有着重大的影响。最近几年，由于智能算法在关键前沿领域的应用，有关人工智能算法在行人轨迹预测问题上的研究已经引发了各方面广泛的关注。

早期的工作主要是基于物理模型或单纯考虑个体信息的预测方法以及使用CNN卷积神经网络提取空间特征的轨迹预测方法。这些方法可以在一定程度上解决行人轨迹预测的问题，但其存在的主要不足是无法对交互信息进行恰当的表示，同时行人在特定的语义环境信息在同一场景下很长一段时间内是不会发生改变的，而在先前的工作如个体信息预测方法以及CNN卷积神经网络中没有很好地利用这一信息，故输出的轨迹预测虽然在部分场景下可以达到较好的结果，但是在特定场景或者特定人群中并没有表现出合理的轨迹预测结果，总体上还有很大的进步空间。

另一个引起注意的是，由于行人轨迹的不确定性，即对行人轨迹预测的过程中事先并不知道行人的目的地，故行人轨迹预测的结果通常以概率分布的形式输出。为了简化模型，现阶段的研究过程中，如文献(Social Lstm:Human trajectory prediction incrowded spaces.CVPR,2016)指出，研究中常常假设行人未来轨迹点服从高斯分布(通常是二维，即行人轨迹的在场景中的横纵坐标)并由此出发考虑轨迹预测的模式特性，这种做法也在一些场景下取得了较为不错的成果。基于上述基础，由于高斯分布在预测单条轨迹中的突出表现，目前大部分多模态预测算法均为单轨迹预测的改进，即通过轨迹预测模型训练时依概率密度输出单条轨迹来拟合真值轨迹训练网络，而测试时则在单条预测输出轨迹的基础上融合噪声多次采样生成多条假设轨迹以实现多模态预测。这种做法是在训练过程中寻找未来轨迹分布的期望轨迹或概率最大的轨迹，测试时则基于这一轨迹多次采样生成多模态轨迹，并没有改变其拟合单一预测轨迹的本质，带来的不利影响为随着轨迹预测目标所处环境的复杂性上升、与周围交通参与者的交互行为增加、预测时长增加，未来轨迹的分布将成为高维的复杂概率分布，空间上的呈现形式会变得十分复杂，例如行人对于迎面走来的其他行人或车辆的场景下，可能有呈现出向左、向右两种截然不同的意图，这两种意图对应的轨迹差别非常大，但在条件场景或语义下的都是合理的输出，而单轨迹预测多次采样生成的轨迹簇常常是时序上渐变、空间上近似连续的采样结果，输出的结果很有可能会表现为两种情况的空间平均/加权，从而难以对其实际轨迹进行正确有效拟合和未来轨迹判断。正因单轨迹预测难以全面的表示这种复杂的未来轨迹分布，多模态轨迹预测在某些场景下的有效性和必要性也逐渐引起了关注，引发一些深入研究。

目前存在一些研究在解决多模态建模的问题。文献(A Sampling and FittingFramework for Multimodal Future Prediction[C]//2019IEEE/CVF Conference onComputer Vision and Pattern Recognition(CVPR).IEEE,2020.)提出一种混合密度网络(MDNs)，该网络在传统神经网络的基础上通过学习高斯混合模型的参数来解决多模态轨迹预测问题，起到了一定程度的性能提升。然而，由于MDNs在高维空间中操作时的数值不稳定性，在实际中常常难以训练；文献(TPNet:Trajectory Proposal Network for MotionPrediction)提出了基于TPNet框架的多模态轨迹预测方法，该方法设计分为两个阶段，分别针对不同的意图进行终点回归，并基于终点生成对应轨迹簇，较好地实现了多模态轨迹预测；但其基于意图和终点的模态捕捉方式决定了其预测结果很大程度上依赖于回归终点的正确程度，进而对最终的预测质量产生较大的影响，使得轨迹预测输出结果不够稳定。

发明内容

发明目的：本发明的目的在于提供基于语义环境建模的多模态轨迹预测方法，能够预测出在该场景语义地图中行人合理的未来轨迹，从而实现对行人未来轨迹分布的更准确预测，对于及时、快速预测行人合理轨迹有积极和深刻的意义。

技术方案：本发明的一种基于语义环境建模的多模态轨迹预测方法，包括如下步骤：

(1)利用语义建模编码环境信息，生成与预测相关的空间特征和物理环境信息的语义地图，同时去除预测无关的细粒度纹理像素特征；

(2)建立多模态轨迹预测模型架构，针对条件场景下的多模态轨迹预测任务的重难点设计条件变分生成模型Context-CVGN直接生成预测M个可能的未来轨迹序列及每个未来轨迹序列的概率，同时提供给后续部分模态匹配作为输入；

(3)使用判别器对轨迹预测结果进行度量，使用判别器D输入预测轨迹特征，通过各类指标判断其与真值的误差；

(4)构建并计算多模态预测的损失函数，对框架中相应每个部分的损失函数进行分别设计和计算，最终得到多部分损失函数的输出加总进行训练。

进一步地，步骤(1)中，所述与预测相关的空间特征和物理环境信息的语义地图包含所有行人位置、障碍物和负空间。

进一步地，步骤(1)具体为：引入场景空间建模对输入数据进行预处理，利用语义地图将当前行人所处场景进行环境结构化建模，突出场景障碍物、其他行人交互等空间特征要素，丢弃对轨迹推理无用的细粒度纹理特征，完成高效栅格化语义建模。

进一步地，步骤(2)中，建立多模态轨迹预测模型架构使用条件场景变分生成对抗网络架构在考虑栅格化语义地图输入的环境建模信息的情况下将行人历史轨迹序列信息变换为多模态下的行人轨迹预测输出。

进一步地，步骤(3)中，将预测轨迹特征输入判别器D，经过LSTM层进行解码得到可视化的预测轨迹，并通过各类指标判断其与真值的误差，优化得到其最佳性能。

进一步地，步骤(4)具体为：使用WTA(winner take all)损失函数、所有轨迹负对数似然、对抗损失及隐空间分布拟合KL散度损失的多元化损失函数结合的设计进行模态匹配损失函数计算，以解决发生模态坍缩、单一拟合等问题；

对于模态匹配中的损失函数，WTA损失函数为匹配模态轨迹X_matched与真值轨迹X_{ground_truth}的平均L2范数，即：

L_WTA＝||X_matched-X_{ground_truth}||₂

负对数似然损失函数基于多维独立正态分布假设同时评估所有模态轨迹及其置信度，表达式如下所示：

其中，M为预测轨迹模态数，c为对应预测模态轨迹的置信度；

对抗损失函数是在生成网络的场景下的一种判别预测值与实际值距离的损失函数，表达式如下所示：

对于条件场景下的变分自编码器网络Context-CVAE，损失函数表达式如下式所示：

L_Context-CVAE＝α·L_WTA+β·L_NLL+L_KL

对于条件场景下的生成对抗网络Context-CGAN和Context-CVGN，损失函数表达式为：

L＝α·L_WTA+β·L_NLL+χ·L_{GAN_d}+L_KL

以上损失函数中α、β、χ等超参数为各项损失函数的权重系数；

在给出损失函数表达式的定义后，可以通过反向传播计算参数梯度的方式对参数进行更新训练来最小化损失函数，进而得出多模态轨迹预测场景下的最优网络架构参数。

有益效果：与现有技术相比，本发明具有如下显著优点：本发明中的行人轨迹预测方法在考虑语义物理环境限制下行人动态交互场景中的多模态轨迹预测，在输入的先验信息中使用栅格化语义地图的方式进行高效环境建模，使用条件场景下的变分生成对抗网络实现多模态轨迹预测，应用模态匹配的方法，从多条预测轨迹中按模态匹配选择一条轨迹，使用判别器对该模态轨迹和真值轨迹进行度量，同时使用多元化损失函数结合的设计，以解决发生模态坍缩、单一拟合等问题，使得本发明模型能够预测出在该场景语义地图中行人合理的未来轨迹，从而实现对行人未来轨迹分布的更准确预测，对于及时、快速预测行人合理轨迹有积极和深刻的意义，对无人驾驶、智能交通等领域的进一步发展有重要的帮助。

附图说明

图1为本发明具体实施方式中语义环境建模的多模态轨迹预测方法框架的整体示意图；

图2为本发明中利用语义建模编码环境信息进行场景建模的示意图；

图3为本发明具体实施方式中两种条件场景下多模态轨迹预测架构Context-CVAE、Context-CGAN以及融合架构Context-CVGN的流程以及损失函数对比示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

本发明涉及语义环境场景建模条件下的高效多模态行人轨迹预测输出，具体实施方式主要包括以下几个步骤：

对于输入的观测视频帧图像，其时间刻度t∈{1,2,……,T_obs}，观测到一组特定语义环境场景下的行人轨迹序列

其中

为第n个行人在第t帧的物理环境特征向量，特征向量可能仅包括输入坐标系下的2D坐标

也可能包含行人身体姿态等细粒度信息，第T_obs帧为当前帧，n∈{1,2,……,N}表示每一帧中所包含的行人数量。

多模态下行人轨迹预测的任务即根据某个行人已知的历史时间序列预测其行人在接下来一段时间内可能的多种行走轨迹，即根据上述信息构建算法求解所示的未来多模态轨迹及其对应概率。

对于给定的轨迹预测行人n，未来预测轨迹为

其中，T_pred为预测轨迹时序长度。本发明具体实施方式中语义环境建模的多模态轨迹预测方法框架的整体示意图如图1所示。

步骤一：利用语义建模编码环境信息

本发明中，主要将周围环境对于行人轨迹建模及其预测的影响考虑在内，而在数据集中提供的是坐标系下的行人历史轨迹及场景的原始图像等，包含大量对轨迹预测无意义的纹理信息，并且并不直接体现行人所处环境的空间特征。这样的原始图像不仅会影响行人轨迹特征的识别和提取，同时也不能精确反应条件场景下环境对于行人轨迹的交互作用。

本发明中，考虑到栅格编码语义地图强大的场景建模能力，利用这种方式进行场景建模，最终生成的语义地图包含了当前时刻所有行人位置以及障碍物、负空间等几乎所有预测相关的空间特征的物理环境信息，同时去除了预测无关的细粒度纹理像素特征。本发明中利用语义建模编码环境信息进行场景建模的示意图如图2所示。

此外，为了保证空间位置在坐标变换下的一致性，本发明中将行人历史轨迹也转换为经语义地图像素坐标系下的轨迹序列，并且使得整个预测过程中的坐标均为该像素坐标系下坐标，轨迹预测和多模态输出均该像素坐标系下完成。

步骤二：建立多模态轨迹预测模型架构

本发明中，针对条件场景下的多模态轨迹预测任务的重难点设计了条件变分生成模型Context-CVGN。

该模型架构中，首先对于条件场景下待预测的历史行人轨迹进行特征提取，经过CNN卷积神经网络的卷积、池化、拉平等操作得到长为256的环境特征向量V_context，同时对于条件场景下经过栅格化编码的语义地图进行特征提取，得到全面高效的物理空间交通场景信息，经过LSTM时间序列特征向量提取得到长为256的历史行人轨迹特征向量V_trajectory，二者作为后续多模态预测的输入特征条件。

对于多模态轨迹预测部分，本发明中结合条件场景下变分自编码器对于隐空间较强的采样能力以及生成对抗网络较好的拟合能力，使用一个变分自编码器来对特征向量进行隐空间分布拟合及采样。与输出未来轨迹的空间概率分布不同的是，本发明中通过条件变分模型直接生成预测M个可能的未来轨迹序列及每个未来轨迹序列的概率，在输出多模态预测轨迹的同时提供给后续部分模态匹配作为输入。其中，M表示行人预测轨迹的模态数。

在本发明中，根据变分自编码器和对抗生成网络的不同生成特点及其预测性能，设置了Context-CVAE、Context-CGAN和Context-CVGN三种预测架构，其主要区别在于变分自编码器是针对采样结果进行特征变换，生成对抗网络是针对生成结果进行特征变换，而CVGN则是对二者进行融合输出。

对于Context-CVAE和Context-CVGN，表达式如下：

S_pred＝FC(Z_sample,V_context) (2)

对于Context-CGAN，表达式如下：

S_pred＝FC(V_feature,V_context) (3)

表达式中，V_context表示语义环境特征向量，Z_sample表示从变分自编码器中得到的采样输出，FC为输出拟合预测轨迹的全连接层网络，S_pred表示多模态轨迹预测的输出特征。在一次多模态预测中，输出的各条轨迹相应概率也由该全连接层输出并经softmax 化为离散分布。

通过上述过程对于多模态行人轨迹预测网络架构的设计，可以很好地完成多模态特征和输出任务。

步骤三：使用判别器对轨迹预测结果进行度量

本发明中，应用模态匹配的方法，首先从多条预测轨迹中按照匹配规则选择一条轨迹，然后使用用构建的判别器D对该模态轨迹和真值轨迹进行度量，以改变当前主流的轨迹预测方法常常一次预测单条轨迹，使其与真值轨迹的L2距离最小，使得预测轨迹趋向于拟合未来轨迹分布的一条平均轨迹而不是多条可能的行人轨迹的问题，达到完成多模态预测，可以一次预测输出多条可能轨迹的目的。

判别器D的作用在于通过轨迹特征输入，经过LSTM层进行解码得到可视化的预测轨迹，以达到输出更加贴合特定场景下目标行人的未来多模态轨迹的目的。

判别器模块的结构如下：

其中，W_embedding、W_en、W_classify为分别是轨迹点特征嵌入层、LSTM以及二分类部分的可训练参数。T_i ^t为判别器待度量的真值轨迹或匹配的轨迹，LSTM初始的隐状态向量

则判别过程中亦引入环境特征向量作为条件，Y_di为轨迹二分类结果。

步骤四：构建并计算多模态预测的损失函数

损失函数是网络计算参数梯度的依据，是架构更新自优化的关键。本发明在构建多模态损失函数的过程中，考虑到主流的损失函数构造方法大多是采用输出行人预测轨迹与实际真值轨迹之间的距离误差(欧式距离等)和作为损失函数，并反向传播误差来更新参数，达到训练网络架构的目的，这种预测方法的局限性在于损失函数限于拟合所有可能的未来轨迹的平均期望或最大概率期望等局限性而不能合理预测轨迹的多模态性，从而会导致可以对单一轨迹路径进行很好预测而不能对多条路径进行有效预测，同时极有可能在由于在预测轨迹的期望输出中因为多模态下轨迹概率相关而出现无法正确拟合等问题。

鉴于上述讨论，本发明在损失函数设计中使用WTA(winner take all)损失函数、所有轨迹负对数似然、对抗损失及隐空间分布拟合KL散度损失等多元化损失函数结合的设计，对框架中相应每个部分的损失函数进行分别设计和计算，最终得到多部分损失函数的输出加总进行训练，以解决发生模态坍缩、单一拟合等问题。本发明具体实施方式中两种条件场景下多模态轨迹预测架构Context-CVAE、Context-CGAN以及融合架构 Context-CVGN的流程以及损失函数对比示意图如图3所示。

对于模态匹配中的损失函数，本发明采用WTA损失函数为匹配模态轨迹与真值轨迹的平均L2范数，即：

L_WTA＝||X_matched-X_{ground_truth}||₂ (7)

负对数似然(Negative Log-likelihood，NLL)损失函数是一种判别预测值与实际值距离的损失函数，其能够基于多维独立正态分布假设同时评估所有模态轨迹及其置信度，表达式如下所示：

其中，M为预测轨迹模态数，c为对应预测模态轨迹的置信度。

与上表述类似，对抗损失函数是在生成网络的场景下的一种判别预测值与实际值距离的损失函数，表达式如下所示：

KL散度是对最小化近似分布时信息损失量的衡量，可以学习变分自编码时复杂的数据近似分布。

对于条件场景下的变分自编码器网络Context-CVAE，损失函数主要由WTA损失函数、NLL损失函数和KL散度损失加总构成，表达式如下式所示：

L_Context-CVAE＝α·L_WTA+β·L_NLL+L_KL (10)

对于条件场景下的生成对抗网络Context-CGAN和Context-CVGN，损失函数还包括对生成网络下场景的抗损失函数，其损失函数表达式为：

L＝α·L_WTA+β·L_NLL+χ·L_{GAN_d}+L_KL (11)

以上损失函数中α、β、χ等超参数为各项损失函数的权重系数。

通过对本发明提出的上述模型架构进行训练，即可得到较好的估计预测输出。

在模型性能评估的过程中，类似于常用的轨迹预测评估方法，选用平均偏移误差(Average Differential Error，ADE)和终点偏移误差(Final Differential Error，FDE)作为评价指标来描述预测轨迹的准确性。ADE和FDE的表达式如下：

为保证轨迹多样性，轨迹预测评估时，常常在预测过程中加入噪声并进行多次预测(常选择20次)，取最接近真值轨迹作为匹配输出轨迹来计算ADE/FDE；本发明中，所提出的多模态轨迹预测则直接输出多种可能轨迹及其置信度，采用其中的匹配模态轨迹与真值轨迹计算得到相应ADE/FDE。具体而言，使用过去8帧共3.2s的轨迹及条件场景数据作为输入，并预测未来12帧共4.8s的行人轨迹，分别对于ETH&UCY数据集上的五个场景进行训练测试。

根据单一模态的预测缺陷可知，模型输出模态轨迹数量直接影响到轨迹预测质量的高低；特别地，模态轨迹数为1时预测模型退化为单轨迹预测，模态轨迹数过大则会因为产生大量的无用模态干扰预测，进而产生负面影响，这与实际过程中行人轨迹一般不是唯一但也没有大量选择路径是吻合的。本发明中，为了确定最佳的模态数，本文以模态数量作为自变量进行实验，对比1～4四种模态数量下的轨迹预测性能，其结果如表1所示。

表1 不同模态数量下的轨迹预测性能

由表1可以看到，单一模态轨迹预测效果最差，由于本发明中要解决的是多模态轨迹预测问题，故采用的网络架构和损失函数也为了针对多模态输出，而单一模态下可以近似认为是预测了未来轨迹分布的平均值，这种预测方式对于单模态情况下的期望预测输出是较为不准确的。接下来随着模态数量的增加，轨迹预测的各项指标均在提高，但M＝3后取得较好效果，可以认为行人在条件场景下的选择轨迹不是太多，三条模态轨迹已经足以较好地表示未来轨迹分布，其在两种性能下的表现均较为优秀。

由上可以看出本发明提出的多模态轨迹预测方法可以在一定程度上解决多模态预测坍缩，语义环境描述不准确等问题，实现行人轨迹的合理预测和准确输出，取得了较为不错的成果。

Claims

1.一种基于语义环境建模的多模态轨迹预测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于语义环境建模的多模态轨迹预测方法，其特征在于，步骤(1)中，所述与预测相关的空间特征和物理环境信息的语义地图包含所有行人位置、障碍物和负空间。

3.根据权利要求1所述的基于语义环境建模的多模态轨迹预测方法，其特征在于，步骤(1)具体为：引入场景空间建模对输入数据进行预处理，利用语义地图将当前行人所处场景进行环境结构化建模，突出场景障碍物、其他行人交互的空间特征要素，丢弃对轨迹推理无用的细粒度纹理特征，完成高效栅格化语义建模。

4.根据权利要求1所述的基于语义环境建模的多模态轨迹预测方法，其特征在于，步骤(2)中，建立多模态轨迹预测模型架构具体为使用条件场景变分生成对抗网络架构在考虑栅格化语义地图输入的环境建模信息的情况下将行人历史轨迹序列信息变换为多模态下的行人轨迹预测输出。

5.根据权利要求1所述的基于语义环境建模的多模态轨迹预测方法，其特征在于，步骤(3)中，将预测轨迹特征输入判别器D，经过LSTM层进行解码得到可视化的预测轨迹，并通过各类指标判断其与真值的误差，优化得到其最佳性能。

6.根据权利要求1所述的基于语义环境建模的多模态轨迹预测方法，其特征在于，步骤(4)具体为：使用WTA损失函数、所有轨迹负对数似然、对抗损失及隐空间分布拟合KL散度损失的多元化损失函数结合的设计进行模态匹配损失函数计算；

L_WTA＝||X_matched-X_{ground_truth}||₂

L_Context-CVAE＝α·L_WTA+β·L_NLL+L_KL

L＝α·L_WTA+β·L_NLL+χ·L_{GAN_d}+L_KL

以上损失函数中α、β、χ超参数为各项损失函数的权重系数；

在给出损失函数表达式的定义后，通过反向传播计算参数梯度的方式对参数进行更新训练来最小化损失函数，得出多模态轨迹预测场景下的最优网络架构参数。