CN115829171B

CN115829171B - 一种联合时空信息和社交互动特征的行人轨迹预测方法

Info

Publication number: CN115829171B
Application number: CN202310159341.2A
Authority: CN
Inventors: 杜俊健; 杨俊涛; 康志忠; 彭城
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2023-05-09
Anticipated expiration: 2043-02-24
Also published as: CN115829171A

Abstract

本发明公开了一种联合时空信息和社交互动特征的行人轨迹预测方法，属于计算机视觉技术和自动驾驶领域，包括如下步骤：步骤1、获取行人历史轨迹，并利用基于多层感知机的运动轨迹映射模块初步编码行人的历史轨迹信息；步骤2、构建行人轨迹预测网络模型预测轨迹分布；步骤3、训练得到最优的行人轨迹预测网络模型；步骤4、基于最优的行人轨迹预测网络模型，采集当前帧的前8个时间步真实位置作为行人已知的观测轨迹数据，预测未来12个时间步的运动轨迹。本发明深度挖掘轨迹预测过程中行人自我运动与场景内行人间社交互动的潜在时空信息，显著提高了行人轨迹预测的精确性与合理性。

Description

一种联合时空信息和社交互动特征的行人轨迹预测方法

技术领域

本发明属于计算机视觉技术和自动驾驶领域，具体涉及一种联合时空信息和社交互动特征的行人轨迹预测方法。

背景技术

随着计算机技术和深度学习算法的飞速发展，自动化、智能化技术成为如今研究广泛关注的领域。行人未来轨迹的准确推理和预测作为自动驾驶、高级驾驶辅助***、高级监控***、智能机器人导航等领域中的关键组成部分，一直是国内外学者研究的热点。行人轨迹预测的基本原理是通过引入行人位置、自我运动历史、行人与环境、行人间交互等信息，根据行人在过去时间段内的轨迹来预测行人在未来固定时刻的位置坐标。由于行人轨迹的高动态性、随机性以及与所处环境之间复杂的交互，行人未来轨迹的准确预测一直是一个具有挑战性的问题。

纵观近些年研究状况，根据轨迹预测模型建立的方式大致分为两类，即基于模型驱动的建模方法和基于数据驱动的建模方法。基于模型驱动的建模方法是针对一些特定场景，依靠人为设定的能量函数模型，模拟行人自身以及行人间的运动关系，从而对行人轨迹进行预测。其中较为经典的模型有基于社会力的行人轨迹预测模型、基于马尔科夫决策和高斯过程的行人轨迹预测模型、基于运动学模型和物理约束的行人轨迹预测模型、基于聚类的行人轨迹预测模型等。但是，基于模型驱动的建模方法模型能力不强、泛化能力差，无法对行人成群出行等社会行为进行很好的表达，并且难以对行人在周围环境影响下产生的复杂运动信息进行有效的捕获。基于数据驱动的建模方法将行人轨迹预测问题看作是时间序列预测问题，通过对大量数据的统计分析，借助机器学习或深度学习出色的拟合能力和表达能力，对行人运动序列的相关性进行建模，从而实现行人轨迹预测。基于数据驱动的建模方法主要有两种：基于循环神经网络的模型和基于组合网络的模型。由于循环神经网络很难在长时间序列中进行学习连接获得信息，且只能记住短期存储序列。因此基于循环神经网络的预测模型目前大都使用循环神经网络的变种网络，包括长短时记忆网络和门控循环单元。基于循环神经网络的模型虽然具备显著的序列建模能力，但缺乏直观的高层时空结构，难以有效地表达行人间复杂的空间交互影响特性。近几年，许多学者关注将注意力机制、图卷积网络、生成对抗网络等加入到循环神经网络中构成组合网络，可以更好地对场景中行人的社交互动进行建模，来提高行人轨迹预测的准确性、合理性和可解释性。

现有技术存在的缺陷：目前基于数据驱动的建模方法大多采用编码器-解码器的结构，但是当前的编码模块局限于使用循环神经网络及其变种来编码行人的运动时序信息，随着运动时序长度的增加，后输入的序列信息会覆盖之前输入的信息。而且由于行人轨迹的高动态性和随机性，行人之间的社交互动是复杂而抽象的。因此，深度挖掘行人复杂多变的运动时序特性以及行人与其他行人之间的社交互动特性，联合不同的信息（如历史轨迹信息、社交互动信息等）进行长时间序列下行人轨迹预测是很有必要的。

发明内容

为了解决上述问题，本发明提出了一种联合时空信息和社交互动特征的行人轨迹预测方法，对长时间序列下行人自身的时序运动特性和行人与其他行人之间的交互性特征进行深度刻画，设计了一种基于长短时记忆网络编码器—解码器结构的行人轨迹预测方法。

本发明的技术方案如下：

一种联合时空信息和社交互动特征的行人轨迹预测方法，包括如下步骤：

步骤1、获取行人历史轨迹，并利用基于多层感知机的运动轨迹映射模块初步编码行人的历史轨迹信息；

步骤2、构建行人轨迹预测网络模型预测轨迹分布，行人轨迹预测模型包括依次连接的三个模块：结合长短时记忆网络和特征注意力机制的运动时空特征编码模块、基于图卷积神经网络的行人社交互动信息传递模块和融入拉普拉斯混合分布思想的多模态未来轨迹解码模块；

步骤3、训练得到最优的行人轨迹预测网络模型；

步骤4、基于最优的行人轨迹预测网络模型，采集当前帧的前8个时间步真实位置作为行人已知的观测轨迹数据，预测未来12个时间步的运动轨迹。

进一步地，步骤1中，在轨迹数据输入编码模块之前，利用运动轨迹映射模块初步编码行人的历史轨迹信息，得到行人运动特征，(t=1,2,…,T)表示第t帧场景中所有行人的运动特征，N表示某一帧场景中行人的数量，表示嵌入特征空间的维度，以此作为运动时空特征编码模块的输入数据。

进一步地，步骤2的具体过程如下：

步骤2.1、基于结合长短时记忆网络和特征注意力机制的运动时空特征编码模块，挖掘行人自身对观测时段内历史轨迹特征向量的时间依赖性，选择性捕获行人自我运动序列的时空关联信息；

步骤2.2、在时序特征提取基础上，通过分析行人自身运动与其周围其他行人间存在复杂相互作用的特点，基于图卷积神经网络的行人社交互动信息传递模块建模同一场景内行人间的社交互动特征；

步骤2.3、基于融入拉普拉斯混合分布思想的多模态未来轨迹解码模块对行人历史轨迹时空关联信息和社交互动特征进行综合分析与解码，预测轨迹分布以捕获未来轨迹的不确定性，得到行人的多模态未来运动轨迹。

进一步地，在结合长短时记忆网络和特征注意力机制的运动时空特征编码模块中，定义一个观测历史轨迹序列，其中T表示观测历史轨迹的帧数，N表示某一帧场景中行人的数量，2为行人在横向x和纵向y两个方向上的位置；

如公式（1）所示，利用长短时记忆网络对行人历史轨迹序列进行建模，提取行人运动序列的时空关联信息，

；

(1)；

；

其中，表示长短期记忆网络的门函数，、、和分别表示更新门、遗忘门、输出门和单元门；和分别表示将第t帧的输入状态与第t-1帧的隐藏状态连接到长短期记忆网络单元的权重矩阵，、、、分别表示更新门、遗忘门、输出门、单元门将第t帧的输入状态连接到长短期记忆网络单元的权重矩阵；、、、分别表示更新门、遗忘门、输出门、单元门将第t-1帧的隐藏状态连接到长短期记忆网络单元的权重矩阵；表示偏置，、、、分别表示更新门偏置、遗忘门偏置、输出门偏置和单元门偏置；表示第t帧的输入状态，对应第t帧场景中行人的运动特征，表示第t-1帧的隐藏状态，表示第t帧的隐藏状态；表示sigmoid激活函数，tanh表示Tanh激活函数，表示逐元素相乘；

将各帧长短时记忆网络的输出连结得行人的初步时空关联信息，表示行人i在观测时间段内第t帧的时空关联信息；

在编码模块引入特征注意力机制，综合挖掘行人当前的运动轨迹位置信息及其历史运动特征，通过公式（2）对行人当前的轨迹位置信息及其初步提取的时空关联信息进行显著性打分，

(2)；

其中，为显著性得分，为计算行人复合轨迹注意力得分的归一化指数函数，为权重，为行人i运动特征；

最后，使用基于多层感知机的自适应加权融合，生成行人自我运动序列时空关联信息的编码向量，以反映其在前帧内的运动特征；表示注意力池化层，表示行人i在观测时间序列内第t帧的自我运动序列时空关联信息。

进一步地，在基于图卷积神经网络的行人社交互动信息传递模块中，对观测序列中每一帧场景建立基于图模型的空间社交互动模型，利用图卷积神经网络将观测序列每一帧的行人时空关联信息和社交互动特征进行信息传递和向量融合；

在当前帧t，行人自身与其周围n个行人建模为无向图，其中图中节点集合V表示当前帧t场景中行人时空关联信息编码向量的集合，边集合E表示行人之间存在交互影响，邻接矩阵A表示对应节点每两个行人之间的交互程度，以行人之间的欧式距离作为边权重以表达彼此之间交互影响；考虑到行人交互作用的发生受邻域内行人间相对距离的影响，使用2米作为阈值来截断邻接矩阵；

获得邻接矩阵后，在t-1帧的基础上使用图卷积神经网络将行人间的社交互动特征在所确定的图结构上进行信息传递和向量融合，以更新当前帧t的目标行人的运动特征，其定义如下：

(3)；

其中，k表示信息传递的循环次数，表示图卷积神经网络第k层所有节点编码向量组成的矩阵，第0层是行人i对应的编码器在当前帧t的时空关联信息和编码向量，N(i)表示行人i的邻域，M(·)表示信息传递函数；对于行人i，其邻域内的所有行人j通过信息传递函数M对编码向量进行更新；表示第k层当前帧t邻居行人j的时空关联信息，表示第k层当前帧t目标行人i的时空关联信息；

因此，最终生成由行人i的编码向量和时空关联信息组成的场景动态信息，表示目标行人i在观测时间内第t帧的编码向量，表示目标行人i在观测时间内第t帧的时空关联信息。

进一步地，在融入拉普拉斯混合分布思想的多模态未来轨迹解码模块中，将行人i场景动态信息中的编码向量和时空关联信息作为输入信息；首先，利用基于多层感知机的模式映射层，将输入的时空关联信息成形状[]，其中K表示要预测运动轨迹模式的数量，表示需要预测的指定时间步长，表示特征向量的维度；然后，使用长短时记忆网络预测层将行人i的编码向量和时空关联信息作为依据，计算用以预测行人未来指定步长轨迹特征的解码向量；接着，使用基于多层感知机的运算将解码向量映射得到每个行人服从拉普拉斯混合分布的未来轨迹坐标序列。

进一步地，步骤3的具体过程如下：

通过计算行人轨迹预测网络模型生成的行人多模态未来运动轨迹与其真实轨迹的L2范数，筛选多模态未来运动轨迹中的最优预测轨迹；计算最优预测轨迹与其真实轨迹的均方损失误差，以指数型学习率调节器组建优化器，对预测结果利用反向梯度传播进行训练，从而得到最优的行人轨迹预测网络模型；

行人多模态未来运动轨迹中最优预测轨迹与其真实轨迹计算均方损失误差，如下公式所示，

；

(4)；

其中，表示预测时间段内满足连续运动的行人轨迹，m表示mask中记录的满足条件的轨迹点个数，表示多模态未来运动轨迹中最优轨迹的索引，表示行人i未来预测时间段内多模态预测轨迹中第k个预测轨迹，表示行人i未来预测时间段内的真实轨迹，表示行人i未来预测时间段内的最优预测轨迹，表示行人i未来预测时间段内多模态预测轨迹；表示均方损失误差。

本发明所带来的有益技术效果：

本发明深度地挖掘轨迹预测过程中行人自我运动与场景内行人间社交互动的潜在时空信息，建模行人的多模态未来运动轨迹预测，显著提高了行人轨迹预测的精确性与合理性，将为自动驾驶车辆、服务机器人和高级监控***、智慧城市等领域深入研究提供了一定的理论基础。

附图说明

图1为本发明联合时空信息和社交互动特征的行人轨迹预测方法流程图；

图2为本发明结合长短时记忆网络和特征注意力机制的运动时空特征编码模块结构图；

图3为本发明基于图卷积神经网络的行人社交互动信息传递模块结构图；

图4为本发明融入拉普拉斯混合分布思想的多模态未来轨迹解码模块结构图；

图5为本发明实验中第一组预测轨迹可视化结果图；

图6为本发明实验中第二组预测轨迹可视化结果图；

图7为本发明实验中第三组预测轨迹可视化结果图；

图8为本发明实验中第四组预测轨迹可视化结果图；

图9为本发明实验中第五组预测轨迹可视化结果图；

图10为本发明实验中第六组预测轨迹可视化结果图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

本发明首先，利用一个基于多层感知机的运动轨迹映射模块初步编码行人的历史轨迹信息，为后续编码器提供最直接的行人运动特征。然后，设计了一种结合长短时记忆网络和特征注意力机制的运动时空特征编码模块，挖掘行人自身对观测时段内历史轨迹特征向量的时间依赖性，选择性捕获行人自我运动序列的时空关联信息。接着，在时序运动特征提取基础上，通过分析行人自身运动与其周围其他行人间存在复杂相互作用的特点，基于图卷积神经网络的信息传递模块建模同一场景内行人间的社交互动特征，有效表达场景内所有行人间的空间交互行为影响。最后，考虑到行人运动的不确定性以及环境因素的多变性，引入拉普拉斯混合分布思想对行人历史轨迹时空关联信息和社交互动特征进行综合分析与解码，建模预测轨迹分布以捕获未来轨迹的不确定性，得到行人的多模态未来运动轨迹。

本发明所设计的行人轨迹预测方法包括三个模块：结合长短时记忆网络和特征注意力机制的运动时空特征编码模块、基于图卷积神经网络的行人社交互动信息传递模块和融入拉普拉斯混合分布思想的多模态未来轨迹解码模块。下面对各个模块进行详细介绍。

一、结合长短时记忆网络和特征注意力机制的运动时空特征编码模块。

定义一个观测行人历史轨迹序列，其中T表示观测行人历史轨迹的帧数，N表示某一帧场景中行人的数量，2为行人在横向x和纵向y两个方向上的位置。在轨迹数据输入编码模块之前，利用运动轨迹映射模块初步编码行人的历史轨迹信息，得到行人运动特征，(t=1,2,…,T)表示观测时间序列内第t帧场景中所有行人的运动特征，其中表示嵌入特征空间的维度，以此作为运动时空特征编码模块的输入数据。

由于传统的长短时记忆网络不能很好的整合长时间序列数据的特征信息，单纯使用长短时记忆网络建模单个行人的运动序列，难以充分满足模型对运动序列时空关联信息的需求。因此，本发明设计了一种结合长短时记忆网络和特征注意力机制的运动时空特征编码模块对每个行人的运动轨迹序列进行处理，准确地捕获了行人自我运动序列的时空关联信息。

为了得到行人自身对于观测时段内历史轨迹特征向量的时间依赖关系，利用长短时记忆网络对行人历史轨迹序列进行建模，如公式（1）所示，提取行人运动序列的时空关联信息。

；

(1)；

；

其中，表示长短期记忆网络的门函数，、、和分别表示更新门、遗忘门、输出门和单元门。和分别表示将第t帧的输入状态与第t-1帧的隐藏状态连接到长短期记忆网络单元的权重矩阵，、、、分别表示更新门、遗忘门、输出门、单元门将第t帧的输入状态连接到长短期记忆网络单元的权重矩阵；、、、分别表示更新门、遗忘门、输出门、单元门将第t-1帧的隐藏状态连接到长短期记忆网络单元的权重矩阵。表示偏置，、、、分别表示更新门偏置、遗忘门偏置、输出门偏置和单元门偏置。表示第t帧的输入状态，对应第t帧场景中行人的运动特征，表示第t-1帧的隐藏状态，表示第t帧的隐藏状态。表示sigmoid激活函数，tanh表示Tanh激活函数，表示逐元素相乘。

将各帧长短时记忆网络的输出连结可得行人的初步时空关联信息，表示行人i在观测时间段内第t帧的时空关联信息。

行人当前的轨迹位置信息决定了其瞬时运动状态，而长短时记忆网络编码的时空关联信息记录了其历史运动特征。为了引导模型关注更显著的行人自身运动特征，在编码模块引入特征注意力机制，综合挖掘行人当前的运动轨迹位置信息及其历史运动特征，生成语义信息更为丰富的编码向量，从而增强长短时记忆网络的编码性能。通过公式（2）对行人当前的轨迹位置信息及其初步提取的时空关联信息进行显著性打分。

(2)；

其中，为计算行人复合轨迹注意力得分的归一化指数函数，为权重，为行人i运动特征。显著性得分可以视为时空依赖程度掩膜，记录了不同自我依赖程度的时空关联信息。

最后，使用基于多层感知机的自适应加权融合，生成行人自我运动序列时空关联信息的编码向量，以反映其在前帧内的运动特征。表示注意力池化层，表示行人i观测时间段内第t帧的自我运动序列时空关联信息。

二、基于图卷积神经网络的行人社交互动信息传递模块。

事实上，行人的运动是多变的，因为多数情况下会由于场景中周围行人的运动状态改变自己的运动方向和速度，以避免碰撞等事件发生。因此，充分挖掘场景中行人间社交互动信息，是提高行人轨迹预测精度的关键。为了显式建模实际动态环境下行人之间的运动交互影响，本发明设计的方法对观测序列中每一帧场景建立基于图模型的空间社交互动模型，利用图卷积神经网络将观测序列每一帧的行人时空关联信息和社交互动特征进行信息传递和向量融合。

在当前帧t，行人自身与其周围n个行人建模为无向图，其中图中节点集合V表示当前帧t场景中行人时空关联信息编码向量的集合，边集合E表示行人之间存在交互影响，邻接矩阵A表示对应节点每两个行人之间的交互程度，以行人之间的欧式距离作为边权重以表达彼此之间交互影响。考虑到行人交互作用的发生受邻域内行人间相对距离的影响，经过实验设置阈值为2米来截断邻接矩阵，确定领域为0至2米的范围，具体过程为：将处理得到的归一化轨迹矩阵减去其转置得到相对距离矩阵，将相对距离矩阵中的数值与阈值比较得到掩膜，根据掩膜实现邻接矩阵的截断。本发明所设计的方法会对距离更近的行人更加关注，以防止发生碰撞。

(3)；

其中，k表示信息传递的循环次数，表示图卷积神经网络第k层所有节点编码向量组成的矩阵，特别地，第0层是行人i对应的编码器在当前帧t的时空关联信息和编码向量，N(i)表示行人i的邻域，M(·)表示信息传递函数。显而易见，对于行人i，其邻域内的所有行人j通过信息传递函数M对编码向量进行更新。表示第k层当前帧t邻居行人j的时空关联信息，表示第k层当前帧t目标行人i的时空关联信息。

因此，最终生成的由行人i的编码向量和时空关联信息组成的场景动态信息，综合考虑了目标行人自身历史观测序列的轨迹位置信息及与其他行人间社交互动行为对目标行人未来运动的影响，用于行人未来运动轨迹的预测。表示目标行人i在观测时间内第t帧的编码向量，表示目标行人i在观测时间内第t帧的时空关联信息。

三、融入拉普拉斯混合分布思想的多模态未来轨迹解码模块。

针对未来轨迹的生成方法，考虑到行人运动的不确定性以及环境因素的多变性，区别于混入随机噪声的解码方法，本发明引入拉普拉斯混合分布思想对行人历史轨迹时空关联信息和社交互动特征进行综合分析与解码，建模预测轨迹分布以捕获未来轨迹的不确定性，有效地避免了预测轨迹间的碰撞，最终得到更加逼真的行人多模态未来运动轨迹。

解码模块是将行人i场景动态信息中的编码向量和时空关联信息作为输入信息。首先，利用基于多层感知机的模式映射层，将输入的时空关联信息成形状[]，其中K表示要预测运动轨迹模式的数量，表示需要预测的指定时间步长，表示特征向量的维度。然后，使用长短时记忆网络预测层将行人i的编码向量和时空关联信息作为依据，计算用以预测行人未来指定步长轨迹特征的解码向量。接着，使用基于多层感知机的运算将解码向量映射得到每个行人服从拉普拉斯混合分布的未来轨迹坐标序列，以行人多模态未来运动轨迹中最优预测轨迹与其真实轨迹计算均方损失误差，如公式（4）所示。

；

(4)；

其中，表示预测时间段内满足连续运动的行人轨迹，m表示mask中记录的满足条件的轨迹点个数，表示多模态未来运动轨迹中最优轨迹的索引，表示行人i未来预测时间段内多模态预测轨迹中第k个预测轨迹，表示行人i未来预测时间段内的真实轨迹，表示行人i未来预测时间段内的最优预测轨迹，表示行人i未来预测时间段内多模态预测轨迹。最后，利用反向梯度传播进行训练，降低模型误差，使预测结果更加逼近行人的真实轨迹。

本发明设计的一种联合时空信息和社交互动特征的行人轨迹预测方法，引入拉普拉斯混合分布思想生成行人的多模态未来运动轨迹。如图1所示，具体包括如下步骤：

步骤1、获取行人历史轨迹，并利用基于多层感知机的运动轨迹映射模块初步编码行人的历史轨迹信息，为后续编码器提供最直接的行人运动特征。

步骤2、构建行人轨迹预测网络模型预测轨迹分布，行人轨迹预测模型包括依次连接的三个模块：结合长短时记忆网络和特征注意力机制的运动时空特征编码模块、基于图卷积神经网络的行人社交互动信息传递模块和融入拉普拉斯混合分布思想的多模态未来轨迹解码模块。通过行人轨迹预测网络模型预测轨迹分布的具体过程如下：

步骤2.2、在时序特征提取基础上，通过分析行人自身运动与其周围其他行人间存在复杂相互作用的特点，基于图卷积神经网络的行人社交互动信息传递模块建模同一场景内行人间的社交互动特征，有效表达场景内所有行人间的空间交互行为影响；

步骤3、训练得到最优的行人轨迹预测网络模型。具体过程如下：

通过计算行人轨迹预测网络模型生成的行人多模态未来运动轨迹与其真实轨迹的L2范数，筛选多模态未来运动轨迹中的最优预测轨迹。计算最优预测轨迹与其真实轨迹的均方损失误差，以指数型学习率调节器组建优化器，对预测结果利用反向梯度传播进行训练，从而得到最优的行人轨迹预测网络模型，使预测结果更加逼近行人的真实轨迹。

本发明是一种基于长短时记忆网络编码器—解码器的模型结构，使用特征注意力池化改善长短时记忆网络的运动序列时空关联建模能力，并以图结构显式表达动态场景内行人间复杂抽象的交互行为影响，充分联合了行人自我运动的时空关联信息与场景内行人间社交互动特征，提高了行人轨迹预测的精确性与合理性。

本发明内容主要是针对地面无人平台运行场景的行人轨迹预测算法的研究，目标是以当前帧的前8个时间步真实位置作为行人已知的观测轨迹数据，预测其未来12个时间步的可能运动轨迹。为了证明本发明的可行性与优越性，在两个公开的行人轨迹预测数据集上进行测试实验。

本发明实验选用了ETH和UCY两个公开行人轨迹预测数据集进行定性和定量分析。这两个数据集均为鸟瞰视角，包含了五个场景，分别为ETH-univ、ETH-hotel、UCY-zara01、UCY-zara02和UCY-univ，共有1536名行人，有数千条非线性轨迹。原数据集文件为视频文件，轨迹序列的采样间隔设置为0.4秒，在训练集和验证集中将10帧视为0.4秒，在测试集中将6帧视为0.4秒。实验具体过程如下：

（1）首先，采用了归一化轨迹数据处理的方法，将轨迹的原点移动到最近观测的时间步长。然后，对于每一个小批量轨迹数据进行随机旋转操作，实现数据的扩充。

设输入归一化的行人运动轨迹序列可以表示为。行人观测历史轨迹信息会通过一个基于多层感知机的运动轨迹映射模块，初步编码行人的历史轨迹信息，得到行人运动特征。该模块包括一层线性函数、一层ReLU激活函数以及一层dropout函数。

（2）将行人运动特征通过运动时空特征编码模块得到加权轨迹特征，如图2所示，运动时空特征编码模块主要包括长短时记忆网络层和特征注意力池化层两部分。长短时记忆网络层对行人历史轨迹序列进行建模，提取行人运动序列的时空关联信息。在特征注意力池化层中，使用基于多层感知机的自适应加权融合，记录不同自我依赖程度的时空关联信息，生成反映在前T个帧内的运动特征编码向量。其中，特征注意力池化层主要包含两个多层感知机，使用归一化指数函数计算显著性得分作为行人自身对观测时段内历史轨迹特征向量的不同时空依赖程度，将注意力得分与历史轨迹特征向量相乘，最终得到具有不同自我依赖程度的时空关联信息。

（3）因为每个行人的观测序列是独立的，因此行人自我运动序列时空关联信息的计算可以并行处理。设场景中一帧的行人归一化数据为，其中，N表示某一帧场景中行人的数量，将每一帧轨迹数据的形状投影为[N,N,2]，矩阵转置相减得到相对距离。构建目标行人邻域掩膜，即在当前帧的行人为目标行人邻居，则标记为1，否则标记为0，并记录该帧场景中目标行人周围邻居的数量。将相对位置信息、邻居掩膜信息、邻近数量信息封装为场景空间社交互动行为信息，在8帧历史轨迹场景中分别构建8个邻接矩阵，处理得到历史轨迹序列场景中的空间社交互动信息。

把每一帧的行人时空关联信息和社交互动特征输入至信息传递模块（模块结构如图3所示），在所确定的图结构上进行信息传递和向量融合，以更新当前帧t的目标行人的运动特征。在观测时间序列内迭代更新信息，最终得到融合了目标行人自身历史观测序列的轨迹位置信息及与其他行人间社交互动行为对目标行人未来运动影响的场景动态信息。

如图3所示，当前帧数据中包含社交互动特征和时空关联信息，首先使当前帧t的社交互动特征通过空间相对位置嵌入层完成社交互动特征的嵌入，然后将t帧的时空关联信息与嵌入后的社交互动特征融合为当前帧场景信息，分别输入到运动门和自注意力模块完成场景中运动特征与社交互动特征的提取，将两部分的信息输入到信息传递更新层实现t帧信息的传递和更新。在观测时间序列范围内迭代传递，当超出观测时间序列时，最终得到目标行人的场景动态信息。

（4）将（3）中得到的场景动态信息输入多模态未来轨迹解码模块，预测得到行人在未来指定时间步长的运动轨迹。如图4所示，该模块将场景动态信息依次输入到模式映射层、长短时记忆网络预测层、降维层，最终得到多模态预测轨迹。具体过程为：

利用基于多层感知机的模式映射层，将输入的时空关联信息映射成形状[T’×K×D]，其中T’表示需要预测的指定时间步长（设置为12），D表示特征向量的维度（设置为64），K为要预测运动轨迹模式的数量（设置为8），该多层感知机包含一层线性函数、一个层标准化和一层ReLU激活函数；

使用长短时记忆网络将已知时间步长的行人编码向量和时空关联信息进行预测行人未来指定步长轨迹特征的解码向量；

使用基于多层感知机的运算映射得到每个行人服从拉普拉斯混合分布的未来轨迹坐标序列，该多层感知机包含两层线性函数、一个层标准化以及一层ReLU激活函数。

（5）因为在整个时间序列内每个行人出现的帧段不同，所以在计算误差之前需要计算轨迹掩膜mask，筛选出研究时间段内满足连续运动的行人轨迹。然后，使用L2范数计算生成的行人多模态未来运动轨迹与其真实轨迹的误差，以此为依据筛选出最贴近现实的轨迹作为该训练批次的最优预测轨迹。计算筛选出的最优预测轨迹与其真实轨迹的均方损失误差，以指数型学习率调节器组建优化器，对预测结果利用反向梯度传播进行训练，降低模型误差，使预测结果更加逼近行人的真实轨迹。

本发明选用了平均位移误差ADE和最终平均位移误差FDE来评估该网络模型在ETH和UCY数据集上的性能。平均位移是地面行人实际位置与所有预测时间步长的预测点之间的平均欧几里德距离；最终平均位移是地面行人实际位置与最后一帧预测点之间的平均欧几里德距离。

本发明选用当下主流轨迹预测模型SR-LSTM模型、Social-BIGAT模型、SoPhie模型作为对比模型。经过实验测试，本发明行人轨迹预测网络模型的平均位移误差ADE=0.620，最终平均位移误差FDE=1.169；SR-LSTM模型的平均位移误差ADE =0.63，最终平均位移误差FDE =1.25；Social-BIGAT模型的平均位移误差ADE =0.69，最终平均位移误差FDE = 1.29；SoPhie模型的平均位移误差ADE =0.70，最终平均位移误差FDE = 1.43。因此本发明性能优于当下主流轨迹预测模型。最终验证了本发明设计的结合长短时记忆网络和特征注意力机制的运动时空特征编码模块、基于图卷积神经网络的行人社交互动信息传递模块和融入拉普拉斯混合分布思想的多模态未来轨迹解码模块的有效性。

图5-图10为本发明设计网络模型应用于ETH和UCY数据集上的部分预测轨迹可视化结果，图中为ETH-univ、ETH-hotel、UCY-zara01、UCY-zara02和UCY-univ五个场景中随机选择的6组预测结果数据，每组数据均表示了各个场景中某行人未来预测轨迹与未来真实轨迹的偏离程度，图5-图10的结果表明预测结果与真实结果极其相近。在未来预测时间段内，前几帧预测轨迹与真实轨迹几乎重叠，但随着预测时间步长增加误差会叠加，导致最后几帧会有些许偏离。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种联合时空信息和社交互动特征的行人轨迹预测方法，其特征在于，包括如下步骤：

在结合长短时记忆网络和特征注意力机制的运动时空特征编码模块中，定义一个观测历史轨迹序列，其中T表示观测历史轨迹的帧数，N表示某一帧场景中行人的数量，2为行人在横向x和纵向y两个方向上的位置；

；

(1)；

；

(2)；

最后，使用基于多层感知机的自适应加权融合，生成行人自我运动序列时空关联信息的编码向量，以反映其在前帧内的运动特征；表示注意力池化层，表示行人i在观测时间序列内第t帧的自我运动序列时空关联信息；

在基于图卷积神经网络的行人社交互动信息传递模块中，对观测序列中每一帧场景建立基于图模型的空间社交互动模型，利用图卷积神经网络将观测序列每一帧的行人时空关联信息和社交互动特征进行信息传递和向量融合；

(3)；

因此，最终生成由行人i的编码向量和时空关联信息组成的场景动态信息，表示目标行人i在观测时间内第t帧的编码向量，表示目标行人i在观测时间内第t帧的时空关联信息；

在融入拉普拉斯混合分布思想的多模态未来轨迹解码模块中，将行人i场景动态信息中的编码向量和时空关联信息作为输入信息；首先，利用基于多层感知机的模式映射层，将输入的时空关联信息成形状[]，其中K表示要预测运动轨迹模式的数量，表示需要预测的指定时间步长，表示特征向量的维度；然后，使用长短时记忆网络预测层将行人i的编码向量和时空关联信息作为依据，计算用以预测行人未来指定步长轨迹特征的解码向量；接着，使用基于多层感知机的运算将解码向量映射得到每个行人服从拉普拉斯混合分布的未来轨迹坐标序列；

步骤3、训练得到最优的行人轨迹预测网络模型；

2.根据权利要求1所述联合时空信息和社交互动特征的行人轨迹预测方法，其特征在于，所述步骤1中，在轨迹数据输入编码模块之前，利用运动轨迹映射模块初步编码行人的历史轨迹信息，得到行人运动特征，t=1,2,…,T；表示第t帧场景中所有行人的运动特征，N表示某一帧场景中行人的数量，表示嵌入特征空间的维度，以此作为运动时空特征编码模块的输入数据。

3.根据权利要求1所述联合时空信息和社交互动特征的行人轨迹预测方法，其特征在于，所述步骤2的具体过程如下：

4.根据权利要求1所述联合时空信息和社交互动特征的行人轨迹预测方法，其特征在于，所述步骤3的具体过程如下：

；

(4)；