CN113160269B

CN113160269B - 一种基于注意力机制的行人轨迹预测方法

Info

Publication number: CN113160269B
Application number: CN202110176024.2A
Authority: CN
Inventors: 杨金福; 闫雪; 李明爱; 李亚萍; 李智勇
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2024-03-12
Anticipated expiration: 2041-02-09
Also published as: CN113160269A

Abstract

本发明涉及一种基于注意力的行人轨迹预测方法，用于更准确快速地预测行人的未来轨迹。具体包括三个模块，个体注意力编码模块，用于计算行人自身历史轨迹中隐藏向量的相似性并输出个体注意力特征矩阵，以获取在运动过程中行人自身的主要影响因素；社会注意力池化模块，用于接收个体注意力编码模块的计算结果，即个体注意力特征矩阵，计算场景中所有行人的历史轨迹中隐藏向量的相似性并输出综合运动特征矩阵，以获取在运动过程中行人之间的相互影响关系；门控循环单元解码模块，用于接收社会注意力池化模块的计算结果，即综合运动特征矩阵，利用门控循环单元计算并输出行人的未来轨迹坐标；本方法有效地提高了预测精度和速度。

Description

一种基于注意力机制的行人轨迹预测方法

技术领域

本发明涉及计算机视觉技术和自动驾驶领域，是一种基于注意力机制的行人轨迹预测方法。

背景技术

行人轨迹预测问题是计算机视觉应用中重要的研究方向之一，研究成果可以广泛应用于行人规避、自动导航、街道规划、自动驾驶等领域。轨迹预测问题可以看成是一种序列问题，即根据场景中行人的历史轨迹预测行人的未来轨迹。因为行人运动灵活多变，并且行人之间的交互运动复杂又抽象，所以行人轨迹预测的主要挑战就是如何准确找到行人的运动规律并对行人之间的交互运动建模。

在行人轨迹预测中，大多先进的方法都从两个方面提高预测方法的性能。一种从模拟行人运动规律的角度出发，学习行人的行走规律。另一种是从行人社会交互的角度出发，对场景中所有行人的运动建模。

现有的技术缺陷：目前的方法忽略了行人意图对运动的影响，导致不能正确地模拟行人的运动状态；目前的编码模块局限于使用循环神经网络，来编码当前时刻的行人的位置信息。但循环神经网络包含大量的重复计算导致模型运行时间长的问题，并且循环神经网络存在梯度消失和梯度***等问题。因此，设计一种充分考虑行人意图的简单有效的行人轨迹预测模型是很有必要的。

发明内容

鉴于上述现有技术中的不足之处，本发明提供一种基于注意力机制的行人轨迹预测方法。该方法所采用的技术方案是通过引入注意力机制和改进行人交互运动模块，来使得模型更准确地预测行人的未来轨迹。

首先在个体注意力编码模块中，首次利用注意力机制提取行人的历史轨迹中的运动意图特征。其次，对社会注意力池化模块进行改进，利用注意力机制计算场景中周围行人对目标行人的影响权重得到社会注意力特征矩阵。然后，对社会注意力特征矩阵输入到多层感知机和池化门控循环单元提取时间相关性，得到综合运动特征矩阵。最后在门控循环单元解码模块中，输入综合运动特征矩阵，采用速度更快的门控循环单元解码能够快速得到预测的行人未来轨迹。

具体方案如下：

所述的行人轨迹预测方法包括三个模块，个体注意力编码模块、社会注意力池化模块和门控循环单元解码模块，其中，

所述个体注意力编码模块，用于计算行人自身历史轨迹中隐藏向量的相似性，并输出个体注意力特征矩阵，以获取行人自身在运动过程中的主要影响因素；

所述社会注意力池化模块，用于接收个体注意力编码模块的计算结果，即个体注意力特征矩阵，计算场景中所有行人的历史轨迹中隐藏向量的相似性，并输出综合运动特征矩阵，以获取在运动过程中行人之间的相互影响关系；

所述门控循环单元解码模块，用于接收社会注意力池化模块的计算结果，即综合运动特征矩阵，利用门控循环单元计算并输出行人的未来轨迹坐标；

所述行人轨迹预测方法的整体步骤包括：

(1)获取一段视频，以相同间隔将视频划分为若干帧，每T帧为一组，获取每组中每个行人的轨迹坐标X＝{(x^t,y^t)∈R²|t＝1,2,...,T}；

(2)将一组中每个行人的轨迹坐标输入到个体注意力编码模块中，利用注意力机制计算得到每个行人的个体注意力特征矩阵，以下称该模块中的注意力机制为个体注意力机制；

(3)输入个体注意力特征矩阵到社会注意力池化模块，利用注意力机制计算行人之间的相互影响，得到综合运动特征矩阵，以下称该模块中的注意力机制为社会注意力机制；

(4)输入综合运动特征矩阵到门控循环单元解码模块，通过门控循环单元计算得到未来n帧的行人轨迹坐标；

(5)重复(2)-(4)的步骤，不断输入一组历史轨迹生成一组未来轨迹。

有益结果

(1)本发明设计的个体注意力机制替代了传统的LSTM编码器。个体注意力编码模块不仅能够实现数据的并行计算，大大缩短模型预测时间。而且能够有效捕获历史轨迹中长距离依赖特征，以捕捉行人动态运动意图，避免了循环神经网络梯度消失的问题；

(2)设计的社会注意力池化模块结构简单，该模块仅由社会注意力机制、多层感知机和门控循环单元构成，但能够有效捕获行人之间的影响权重。社会注意力池化模块中的门控循环单元捕捉行人之间相互影响的时间相关性，充分利用了行人的历史轨迹信息；

(3)门控循环单元解码模块基于门控循环单元。门控循环单元具有结构简单、运算速度快的特点，在预测过程中使模型满足实时性的要求。

附图说明

图1是本发明提供的一种基于注意力机制的行人轨迹预测方法的结构示意图；

图2是本发明提供的个体注意力编码模块的结构示意图；

图3是本发明提供的社会注意力池化模块的结构示意图

具体实施方式

参照图1，一种基于注意力的行人轨迹预测方法，所述方法共包括三个模块，个体注意力编码模块、社会注意力池化模块和门控循环单元解码模块。所述方法共在个体注意力编码模块和社会注意力池化模块两处使用注意力机制，分别将注意力机制称为个体注意力机制和社会注意力机制。同时，所述方法在社会注意力池化模块和门控循环单元解码模块共两处使用门控循环单元，分别将门控循环单元称为池化门控循环单元和解码门控循环单元。

预测过程主要包括以下步骤：

1、获取一段视频，以0.4s的间隔将视频划分为若干帧，每8帧的轨迹坐标为一组，并获取每帧中每个行人的轨迹坐标X＝{(x^t,y^t)∈R²|t＝1,2,...,8}；

2、将每帧中每个行人的轨迹坐标X＝{(x^t,y^t)∈R²|t＝1,2,...,8}输入个体注意力编码模块，目的为关注相同行人在不同帧的位置坐标之间的关系，具体如下：

2.1)在时间维度上，计算每个行人在每一帧的绝对坐标减去上一帧的绝对坐标，共得到每个行人共8帧的相对位置坐标

2.2)将每个行人共8帧的相对位置坐标输入到全连接层，每个行人得到8个嵌入特征向量/>嵌入特征矩阵表示为/>其中，相对位置坐标的维度为2，嵌入特征向量/>维度为64。保留第8帧的嵌入特征向量/>作为门控循环单元解码模块的初始输入，具体步骤如步骤4所述；

2.3)以图1为例，展示了以8帧为一组，共三个行人(假设场景中所有行人的个数N＝3)，表示一号行人一组视频帧对应的8个嵌入特征向量，这8个嵌入特征向量构成对应的嵌入特征矩阵E₁；

2.4)以图2为例，将一号行人的嵌入特征矩阵E₁分别与三个不同的权重矩阵相乘，分别是查询权重矩阵、键权重矩阵和值权重矩阵，分别得到查询矩阵Q、键矩阵K和值矩阵V。其中，查询权重矩阵、键权重矩阵和值权重矩阵的维度为64*64，并设置注意力机制中的d_k为64；

2.5)最后计算得到一号行人的个体注意力特征矩阵个体注意力编码模块中的注意力机制的计算公式如下：

3、以图3为例,将当前得到的N个行人的个体注意力特征矩阵Tim₁,Tim₂,...,Tim_N输入至社会注意力池化模块中，目的为关注在相同帧所有行人之间的位置关系，具体步骤包括：

3.1)首先，将个体注意力特征矩阵Tim₁,Tim₂,...,Tim_N按时间拆分成个体注意力特征向量

3.2)将第一帧即t＝1所有行人的个体注意力特征向量按行人编号组成矩阵为/>

3.2)计算第一帧每个行人相对于其他行人(包括该行人本身)的相对位置坐标得到相对位置坐标的维度为2，表达式为：

3.3)将相对位置坐标输入到全连接层，得到嵌入特征向量/>嵌入特征矩阵表示为其中嵌入特征向量的维度为64，嵌入特征矩阵/>的维度为N²*64；

3.4)将嵌入特征矩阵与个体注意力矩阵/>串联得到注意力机制的值矩阵V_{p_1,2,...,N} ¹，其中V_{p_1,2,...,N} ¹的维度为N²*128。表达式为：

3.5)将嵌入特征矩阵分别与两个不同的权重矩阵相乘，分别为查询权重矩阵和键权重矩阵，分别得到查询矩阵Q_{p_1,2,...,N} ¹、键矩阵K_{p_1,2,...,N} ¹。其中，查询权重矩阵和键权重矩阵的维度为64*64，并设置注意力机制中的d_k为64。

3.6)将查询矩阵Q_{p_1,2,...,N} ¹、键矩阵K_{p_1,2,...,N} ¹和值矩阵V_{p_1,2,...,N} ¹输入到社会注意力机制计算得到社会注意力特征矩阵ST_1,2,...,N ¹，具体计算公式为：

3.7)输入社会注意力特征矩阵ST_1,2,...,N ¹到三层的多层感知机中，感知机每一层的维度分别为1024、512、64，得到第一帧的池化矩阵P_1,2,...,N ¹。其中池化矩阵由池化向量组成，表达式为池化矩阵P_1,2,...,N ¹代表在t＝1时所有行人之间的位置关系；

3.8)将下一帧即t＝2所有行人的个体注意力特征向量组成矩阵为/>计算下一帧的池化矩阵P_1,2,...,N ²,重复步骤(3.2)-(3.8),最终得到8帧的池化矩阵P_1,2,...,N ¹,P_1,2,...,N ²,...,P_1,2,...,N ⁸；

3.9)最后，将t＝1每个行人的池化向量按行人编号分别输入到门控循环单元，得到每个行人在t＝1的综合运动特征向量/>称该门控循环单元为池化门控循环单元；

3.10)预测下一帧时，将当前帧每个行人的池化向量和上一帧的综合运动特征向量/>输入到门控循环单元，重复步骤(3.10)，最终得到每个行人共8帧的综合运动特征向量/>计算公式如下：

其中，P_GRU表示池化门控循环单元，W_pooling表示池化门控循环单元的权重。

4、参考图1,将当前得到的第8帧的每个行人的综合运动特征向量输入至门控循环单元解码模块中，其目的在于预测行人的绝对位置坐标，具体步骤包括：

4.1)将第8帧的每个行人的综合运动特征向量与随机生成的高斯噪声结合，得到每个行人的初始隐藏状态/>

4.2)预测第9帧时，将每个行人的初始隐藏状态和第8帧的嵌入特征向量/>作为门控循环单元解码模块的初始输入，计算得到第9帧的隐藏状态门控循环单元解码模块中的门控循环单元称为解码门控循环单元；

4.3)预测下一帧时，将每个行人上一帧的嵌入特征向量和上一帧的隐藏状态/>作为门控循环单元的输入，计算得到当前帧的隐藏状态/>不断重复(4.3)，最终得到每个行人的未来8帧的隐藏状态/>其中隐藏状态和嵌入特征向量的维度为64。计算公式如下：

D_GRU表示解码门控循环单元，W_decoder表示解码门控循环单元的权重；

4.4)将得到每个行人的未来8帧的按行人编号输入到全连接层，得到每个行人的未来8个相对位置坐标，相对位置坐标即每个行人相对于上一帧的相对位移，表示为/>其中相对位置坐标的维度为2；

4.5)最后，将每个行人第8帧的绝对位置坐标加上预测得到的第9帧的相对位移即可得到第9帧的绝对位置坐标，以此类推，即可得到所有行人在预测阶段的绝对位置坐标。

本发明提出的基于注意力的行人轨迹预测方法和其他方法在ETH和UCY数据集上的预测准确率如表1所示，预测速度如表2所示。ADE表平均距离误差，FDE代表最终距离误差，平均距离误差的值越小性能越好，最终距离误差的值越小性能越好。如表1所示，可以看到本方法在平均精度上明显优于其他方法。如表2所示，LSTM网络虽然速度最快，但是LSTM网络的精度远远不如本方法。综上所述，本方法在精度上和速度上都取得了很好的效果。

表1、各种轨迹预测方法预测误差对比

表2、各轨迹预测模型速度对比

本发明提供了一种基于注意力行人轨迹预测方法。通过个体注意力与社会注意力结合实现了将行人意图与社会交互相结合，从而有效模拟场景中所有行人的动态运动；使用注意力机制代替循环神经网络可以实现数据的并行计算，缩短预测时间。同时本方法能够有效捕获历史轨迹中长距离依赖特征，避免了循环神经网络梯度消失的问题；本方法基于门控循环单元，结构简单、运算速度快，在预测过程中可以满足实时性的要求。利用本方法提供的行人轨迹预测方法进行轨迹预测，可以获得准确快速的预测结果。

Claims

1.一种基于注意力的行人轨迹预测方法，该方法根据场景中所有N个行人的过去一段时间的历史轨迹来预测行人的未来轨迹，其特征在于：所述的行人轨迹预测方法包括三个模块，个体注意力编码模块、社会注意力池化模块和门控循环单元解码模块，其中，

所述行人轨迹预测方法的整体步骤包括：

2.根据权利要求1所述的一种基于注意力的行人轨迹预测方法，其特征在于：所述的个体注意力编码模块具体工作过程如下：

(1)输入一组帧中行人的历史轨迹，即T帧行人的绝对位置坐标，一组帧中包括多个行人的历史轨迹；

(2)将每个人的每一帧的绝对坐标减去上一帧的绝对坐标，共得到T帧行人相对于上一帧位置坐标；

(3)将相对坐标输入到全连接层，得到嵌入特征向量e^t,t＝1,2,...,T，嵌入特征向量e^t构成该组视频中该行人对应的嵌入特征矩阵，一组视频中每个行人都对应一个嵌入特征矩阵，保留第T帧的嵌入特征向量作为门控循环单元解码模块的初始输入；

(4)通过嵌入特征向量，利用个体注意力机制计算得到每个行人的个体注意力特征矩阵Tim，具体过程如下：

将嵌入特征矩阵分别与三个不同的矩阵相乘，即查询权重矩阵、键权重矩阵和值权重矩阵，分别得到查询矩阵Q、键矩阵K和值矩阵V，并设置注意力机制中的d_k；

计算得到个体注意力特征矩阵，具体计算公式如下：

其中，一个行人的个体注意力特征矩阵Tim是由该行人的每帧对应的个体注意力特征向量tim^t组成的，即Tim＝{tim^t|t＝1,2,...,T}。

3.根据权利要求1所述的一种基于注意力的行人轨迹预测方法，其特征在于：所述的社会注意力池化模块的具体工作过程如下：

(1)将第一帧所有行人的个体注意力特征向量，组成第一帧所有行人的个体注意力特征矩阵；

(2)计算第一帧中所有行人之间的相对位置坐标；

(3)将第一帧中所有行人之间的相对坐标输入到全连接层，得到第一帧中所有行人的嵌入特征向量，将这些嵌入特征向量组合成第一帧中所有行人对应的嵌入特征矩阵；

将第一帧中所有行人对应的嵌入特征矩阵与第一帧中所有行人对应的个体注意力特征矩阵输入到社会注意力机制计算得到第一帧中所有行人对应的社会注意力特征矩阵；

(4)输入第一帧中所有行人对应的社会注意力特征矩阵到三层的感知机中，得到第一帧的池化矩阵；

(5)输入下一帧所有行人的个体注意力特征向量，重复步骤(2)-(4)计算下一帧的池化矩阵，最终得到一组视频中所有帧的池化矩阵；

(6)将一组视频中所有帧的池化矩阵依次输入到门控循环单元，得到每一帧每个行人的综合运动特征向量，该模块中的门控循环单元称为池化门控循环单元；其中，第t帧中第i个行人的综合运动特征向量计算公式如下：

其中，P_GRU表示池化门控循环单元，W_pooling表示池化门控循环单元的权重，表示当前帧每个行人的池化向量和，/>表示上一帧的综合运动特征向量，i＝1,2,...,N,t＝1,2,...,T。

4.根据权利要求3所述的一种基于注意力的行人轨迹预测方法，其特征在于：利用社会注意力机制计算得到当前帧中所有行人对应的社会注意力特征矩阵的具体过程如下：

首先，将当前帧中所有行人对应的嵌入特征矩阵E_{p_1,2,...,N}与当前帧中所有行人对应的个体注意力矩阵Tim_1,2,...,N相串联，得到当前帧中所有行人对应的注意力机制的值矩阵V_{p_1,2,...,N}；

然后，将当前帧中所有行人对应的嵌入特征矩阵E_{p_1,...,N}分别与两个不同的权重矩阵相乘，即查询权重矩阵和键权重矩阵，分别得到查询矩阵Q_{p_1,2,...,N}、键矩阵K_{p_1,2,...,N}，并设置注意力机制中的d_k；

最后，根据查询矩阵Q_{p_1,2,...,N}、键矩阵K_{p_1,2,...,N}和值矩阵V_{p_1,2,...,N}，计算得到社会注意力特征矩阵ST_1,2,...,N，具体计算公式为：

。

5.根据权利要求1所述的一种基于注意力的行人轨迹预测方法，其特征在于：所述的门控循环单元解码模块的工作过程如下：

(1)将观察到的最后一帧，即第T帧的每个行人的综合运动特征向量与随机生成的高斯噪声串联，得到解码模块的初始隐藏状态；

(2)预测第T+1帧时，将初始隐藏状态和第T帧的每个行人的嵌入特征向量e^T作为门控循环单元的初始输入，计算得到当前帧的隐藏状态；门控循环单元解码模块中的门控循环单元称为解码门控循环单元；

(3)预测第T+2帧时，将每个行人上一帧的嵌入特征向量e^t-1和上一帧的的隐藏状态输入解码门控循环单元得到当前帧的隐藏状态，不断重复这一计算过程，最终得到未来n帧的隐藏状态；

(4)将得到的隐藏状态输入到全连接层，得到未来相对位置坐标；将相对位置坐标与观察阶段得到的绝对位置坐标相加即可得到预测阶段的行人的绝对位置坐标。