CN114387313A

CN114387313A - 一种运动轨迹预测方法、装置、设备及存储介质

Info

Publication number: CN114387313A
Application number: CN202210016155.9A
Authority: CN
Inventors: 周斌; 胡波; 李艳红; 张子涵; 安宁
Original assignee: Wuhan Etah Information Technology Co ltd
Current assignee: Wuhan Etah Information Technology Co ltd
Priority date: 2022-01-07
Filing date: 2022-01-07
Publication date: 2022-04-22

Abstract

本发明公开了一种运动轨迹预测方法、装置、设备及存储介质，涉及轨迹预测领域，该方法包括：在设定时间内采集观察对象的位置信息和速度信息，以获取观察对象在各个时刻的位置隐藏状态和速度隐藏状态；利用注意力机制，基于影响程度分配权重以对速度隐藏状态进行修正；将修正后的速度隐藏状态与位置隐藏状态连接形成最终上下文向量后输出，进行解码生成预测的运动轨迹。本发明可以提高轨迹预测的精度。

Description

一种运动轨迹预测方法、装置、设备及存储介质

技术领域

本发明涉及轨迹预测领域，具体涉及一种运动轨迹预测方法、装置、设备及存储介质。

背景技术

近年来，随着计算机视觉和人工智能的进步，人类轨迹的预测最近已经成为计算机视觉界一个充满活力的研究课题。轨迹预测是根据过去的运动轨迹进行建模，从而预测未来一段时间的轨迹。其中行人的轨迹预测是轨迹预测领域研究的基础与重点，随着人类理解和轨迹处理技术的成熟，广泛应用于机器人导航，自动驾驶，视频的智能监控等领域。

现有的行人轨迹预测研究工作可以分为基于传统模型和基于深度学习的方法。行人的轨迹可以看做一个典型的序列到序列(sequence-to-sequence，seq2seq)问题，因此善于处理时间序列的循环神经网络(Recurrent neural network，RNN)逐渐走进研究者们的视野。然而，由于梯度消失或梯度***的问题，简单的RNN很难记住长期的输入信息，所以研究者设计出擅长处理长期依赖关系数据的长短期记忆网络(LSTM)，尤其是LSTM在时间序列数据处理的成功应用如语音识别、语言翻译、图像字幕等，为行人的轨迹预测提供了必要的基础。

如今，各种轨迹预测模型算法也被应用于运动员的轨迹预测。预测运动员的运动轨迹相比于行人轨迹是一个艰巨的挑战，因为每一个运动员对于下一步的行为选择，不仅取决于自身的意图，还取决于其他运动员的位置，运动方向以及运动速度的影响。这些因素并不能直接观察得到，只能从过去的信息推测出来。

发明内容

针对现有技术中存在的缺陷，本发明第一方面提供一种运动轨迹预测方法，其可以提高轨迹预测的精度。

为达到以上目的，本发明采取的技术方案是：

一种运动轨迹预测方法，该方法包括以下步骤：

在设定时间内采集观察对象的位置信息和速度信息，以获取观察对象在各个时刻的位置隐藏状态和速度隐藏状态；

利用注意力机制，基于影响程度分配权重以对速度隐藏状态进行修正；

将修正后的速度隐藏状态与位置隐藏状态连接形成最终上下文向量后输出，进行解码生成预测的运动轨迹。

一些实施例中，所述在设定时间内采集观察对象的位置信息和速度信息，以获取观察对象在各个时刻的位置隐藏状态和速度隐藏状态，包括：

利用多层感知机MLP将观察对象的位置信息和速度信息嵌入到向量中：

其中，

表示t时刻的位置特征向量，

表示t时刻的相对速度特征向量，W_e为对应的权重，P_t ⁱ为观察对象i在t时刻下位置信息，

为观察对象i在t时刻下速度信息；

将获得的各个时刻的位置特征向量和相对速度特征向量依次作为位置-速度长短期记忆网络PV-LSTM的输入向量：

其中，

为观察对象i在t时刻下位置隐藏状态，

为观察对象i在t时刻下速度隐藏状态，

和

为对应的权重；

将观察对象i在各个时刻的位置隐藏状态和速度隐藏状态汇和得到：

其中，Aⁱ是观察对象i在各个时刻的位置隐藏状态，Bⁱ是观察对象i在各个时刻的速度隐藏状态。

一些实施例中，所述利用注意力机制，基于影响程度分配权重以对速度隐藏状态进行修正，包括：

计算观察对象i对于u在t时刻对应第j个速度隐藏状态的权重值

将Bⁱ修正为

其中，

表示观察对象i的第j个速度隐藏状态，T_S表示结束观察的时刻。

一些实施例中，所述计算观察对象i对于u在t时刻对应第j个速度隐藏状态的权重值

包括：

根据公式：

计算打分函数

根据公式：

计算

其中，

是观察对象i在t-1时刻解码器输出的隐藏状态，W_fc是全连接层的权重，v^T是可学习的参数，

是观察对象i的第k个速度隐藏状态，k的取值范围为[1,T_S]。

一些实施例中，所述将修正后的速度隐藏状态与位置隐藏状态连接形成最终上下文向量后输出，进行解码生成预测的运动轨迹，包括：

根据公式：

得到最终上下文向量Cⁱ，其中

是具非线性的全连接层，W_c是权重矩阵；

根据公式：

进行解码生成预测的运动轨迹，其中

表示解码器预测的上一时刻的输出，

表示t时刻的最终上下文向量，FC是全连接层。

本发明第二方面提供一种运动轨迹预测装置，其可以提高轨迹预测的精度。

为达到以上目的，本发明采取的技术方案是：

一种运动轨迹预测装置，包括：

编码器模块，其根据在设定时间内所采集的观察对象的位置信息和速度信息，以获取观察对象在各个时刻的位置隐藏状态和速度隐藏状态；

注意力模块，其利用注意力机制，基于影响程度分配权重以对速度隐藏状态进行修正，并将修正后的速度隐藏状态与位置隐藏状态连接形成最终上下文向量后输出；

解码器模块，其用于接收所述最终上下文向量并进行解码以生成预测的运动轨迹。

一些实施例中，所述编码器模块用于：

其中，

表示t时刻的位置特征向量，

为观察对象i在t时刻下速度信息；

其中，

为观察对象i在t时刻下位置隐藏状态，

为观察对象i在t时刻下速度隐藏状态，

和

为对应的权重；

一些实施例中，所述注意力模块用于：

计算观察对象i对于u在t时刻对应第j个速度隐藏状态的权重值

将Bⁱ修正为

其中，

本发明第三方面提供一种计算机设备，其可以提高轨迹预测的精度。

为达到以上目的，本发明采取的技术方案是：

一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上述方法的步骤。

本发明第四方面提供一种计算机可读存储介质，其可以提高轨迹预测的精度。

为达到以上目的，本发明采取的技术方案是：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上述方法的步骤。

与现有技术相比，本发明的优点在于：

本发明中的运动轨迹预测方法，由于采用了注意力机制，注意力机制可以使影响预测的位置分配更大的权重，使预测更加精准。从而在短道速滑轨迹预测尤其是弯道的轨迹预测中获得更精准更具有实际的应用价值。

附图说明

图1为现有技术中冰场摄像机分布图；

图2为本发明实施例中运动轨迹预测方法的流程图；

图3为本发明实施例中运动轨迹预测装置的结构示意图；

图4为本发明实施例中涉及的计算机设备的结构示意框图。

具体实施方式

需要说明的是，针对人类轨迹的预测，基于传统模型的方式，现有技术中已经提出的比如光流卡尔曼滤波，此模型较传统的卡尔曼滤波更精准，但只能局限于对于速度不变，运动较慢的行人。然而传统模型局限于手动设置的行人属性和函数，仅适用于行人基本没有互动的情况，逐渐被数据所驱动的深度学习模型所超越。

对于深度学习模型，前文中描述到由于梯度消失或梯度***的问题，简单的RNN很难记住长期的输入信息，所以研究者设计出擅长处理长期依赖关系数据的长短期记忆网络(LSTM)，尤其是LSTM在时间序列数据处理的成功应用如语音识别、语言翻译、图像字幕等，为行人的轨迹预测提供了必要的基础。

目前，现有技术中提出了一个Social-LSTM模型。在这个模型中根据行人的空间距离判断处于邻域内行人的隐藏状态进行共享，得到行人周围的信息，以代表其他行人对目标行人轨迹的影响。然而，Social-LSTM模型对于重要场景的上下文信息具有一定的局限性。为此，发展过程中又提出了深度随机逆最优控制RNN编码器-解码器(DESIRE)框架，将场景上下文进行排序和细化而不是直接对场景信息纳入轨迹预测。用content-pooling层进一步拓展了Social-LSTM模型，这也使神经网络能够研究障碍如何影响行人运动。

如今，各种轨迹预测模型算法也被应用于运动员的轨迹预测。预测运动员的运动轨迹相比于行人轨迹是一个艰巨的挑战，因为每一个运动员对于下一步的行为选择，不仅取决于自身的意图，还取决于其他运动员的位置，运动方向以及运动速度的影响。这些因素并不能直接观察得到，只能从过去的信息推测出来。特别是在足球，篮球或者短道速滑等具有激烈对抗性的运动比赛中，预测运动轨迹具有极其关键的地位，能否提高预测精度，对于充分了解己方与对方运动员的位置信息与运动方式，并在比赛中获得战术优势，或者赛后对比赛数据精准分析来说都至关重要。

因此，基于上述分析，在本发明实施例中，将轨迹预测应用于具有激烈对抗性的运动比赛中，比如应用在短道速滑中，旨在预测分析运动员的运动轨迹。短道速滑的轨迹分析属于轨迹预测领域，可以借鉴现代的行人轨迹预测理论方法进行研究。

值得说明的是，短道速滑运动员运动特点与行人的特点相比主要有以下不同：

短道速滑运动员的运动方向都是同向的，而行人的运动方向并不固定，受到场景和其他行人的影响；

短道速滑运动员的运动速度与行人行走速度相比更快且变化更频繁；因此，本发明实施例中将运动员的速度信息作为重要条件。

短道速滑运动员的运动轨迹相比行人而言，更具有规律性。

虽然，短道速滑运动轨迹具有规律性，大致分为直道轨迹和弯道轨迹。但是，参见图1所示，在短道速滑训练或者比赛中，为了清晰的记录整个冰场中每一个运动员的运动，场地上方采用6台高清全景摄像机同时拍摄。但是在6台摄像机的影像处理合成一个视频时，对于跨摄像机或者摄像机交接处，运动员因速度快，在极短的时间穿过摄像机交接处时，运动员之间出现频繁地遮挡及位置交错的情况下难以避免出现运动员的轨迹不匹配，容易导致接下来的预测轨迹紊乱。

因此为了解决上述问题，本发明实施例提出了一个基于LSTM编码器-解码器(Encoder-Decoder)框架的位置速度信息LSTM(Position-Velocity-LSTM，PV-LSTM)的轨迹预测模型，将轨迹预测应用于短道速滑中，专注于运动员在真实训练或者比赛中的运动轨迹，去预测运动员未来的轨迹。

值得说明的是，PV-LSTM在Encoder模块采用速度和位置LSTM分别处理位置和速度信息，并在Encoder和Decoder中间引入注意力机制，计算速度权重对轨迹影响较大的运动员轨迹信息，旨在提升轨迹预测的精度，最后在Decoder模块对轨迹进行预测。

针对为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图2所示，本发明实施例提供一种运动轨迹预测方法，该方法包括以下步骤：

S1.在设定时间内采集观察对象的位置信息和速度信息，以获取观察对象在各个时刻的位置隐藏状态和速度隐藏状态。

值得说明的是，在运动比赛或训练中，假设场上的第i个运动员表示为i。所以，在t时刻，场景中的每个运动员都由2D坐标(x_t,y_t)表示。从t＝1到t＝T_S观察每个运动员的位置，目的是预测行人从t＝T_S到t＝T_P的位置，其中T_S与T_P分别表示结束观察的时刻和结束预测的时刻。因此，给定观察轨迹P_S＝[(x₁,y₁)，…，(x_s,y_s)]，其中x和y分别代表横向位置和纵向位置。对于速度信息来说，短道速滑运动员在做行为决策的时候，相对速度比绝对速度更为重要，因此对于周围的速滑运动员本文选择与目标运动员的相对速度作为输入。U_S＝[(u₁,v₁)，…，(u_s,v_s)]。其中u和v分别代表横向速度和纵向速度。

因此可以知道历史位置和速度信息是：

其中，i表示第i个运动员，上式表示其在t时刻的历史位置信息和速度信息。

此外，可以理解的是，步骤S1中的隐藏状态指的是循环神经网络里的背景变量，神经网络输入层进行输入，中间的隐藏层用来计算结果，然后传给输出层。

结合上述描述，在具体的实现中，步骤S1包括：

其中，

表示t时刻的位置特征向量，

为观察对象i在t时刻下速度信息；

其中，

为观察对象i在t时刻下位置隐藏状态，

为观察对象i在t时刻下速度隐藏状态，

和

为对应的权重；

S2.利用注意力机制，基于影响程度分配权重以对速度隐藏状态进行修正。

值得说明的是，从传统编码器输出的Bⁱ不能完全代表T_S之内所有的速度状态信息。因为编码器-解码器模型具有一定的局限性，第一个输入序列信息将被随后输入序列数据稀释或覆盖。而且随着输入序列长度的增加，这种现象会更加严重。

为了解决这一问题，本发明实施例采用注意力机制，其核心思想是在解码过程的每一个时刻中，都会选择更合适的上下文向量。在本发明实施例中，不同时间的速度信息对未来轨迹有不同的影响，注意力机制可以使影响预测的位置分配更大的权重，使预测更加精准。

具体而言，步骤S2包括：

S21.计算观察对象i对于u在t时刻对应第j个速度隐藏状态的权重值

具体而言，步骤S21包括：

根据公式：

计算打分函数

根据公式：

计算

其中，

表示观察对象i的第j个速度隐藏状态，

是观察对象i的第k个速度隐藏状态，k的取值范围为[1,T_S]。

S22.将Bⁱ修正为

S3.将修正后的速度隐藏状态与位置隐藏状态连接形成最终上下文向量后输出，进行解码生成预测的运动轨迹。

具体而言，根据公式：

得到最终上下文向量Cⁱ，其中

是具非线性的全连接层，使得输出的是最终上下文向量，W_c是权重矩阵；

根据公式：

进行解码生成预测的运动轨迹，其中

表示解码器预测的上一时刻的输出，

表示t时刻的最终上下文向量，FC是全连接层。

值得说明的是，LSTM解码器的输出将会作为输入传递给下一个时间步LSTM解码器。也就是说由于在时间步t时携带着时间步t+1的位置与信息，在输入到下一个时间步之前对位置与速度信息进行加权并更新。

综上所述，本发明中的运动轨迹预测方法，由于采用了注意力机制，注意力机制可以使影响预测的位置分配更大的权重，使预测更加精准。从而在短道速滑轨迹预测尤其是弯道的轨迹预测中获得更精准更具有实际的应用价值。

与此同时，本发明实施例还提供一种运动轨迹预测装置，运动轨迹预测装置的架构可以参见图3所示，其包括编码器模块(Encoder)、注意力模块(Attention)和解码器模块(Decoder)。

编码器模块根据在设定时间内所采集的观察对象的位置信息和速度信息，以获取观察对象在各个时刻的位置隐藏状态和速度隐藏状态。

注意力模块利用注意力机制，基于影响程度分配权重以对速度隐藏状态进行修正，并将修正后的速度隐藏状态与位置隐藏状态连接形成最终上下文向量后输出。

解码器模块用于接收所述最终上下文向量并进行解码以生成预测的运动轨迹。

一些实施例中，所述编码器模块用于：

其中，

表示t时刻的位置特征向量，

表示t时刻的相对速度特征向量，W_e为对应的权重；

其中，

为观察对象i在t时刻下位置隐藏状态，

为观察对象i在t时刻下速度隐藏状态，

和

为对应的权重；

一些实施例中，所述注意力模块用于：

计算观察对象i对于u在t时刻对应第j个速度隐藏状态的权重值

将Bⁱ修正为

其中，

一些实施例中，所述注意力模块计算观察对象i对于u在t时刻对应第j个速度隐藏状态的权重值

包括：

根据公式：

计算打分函数

根据公式：

计算

其中，

表示观察对象i的第j个速度隐藏状态，

是观察对象i的第k个速度隐藏状态，k的取值范围为[1,T_S]。

一些实施例中，所述注意力模块用于：

根据公式：

得到最终上下文向量Cⁱ，其中

是具非线性的全连接层，使得输出的是最终上下文向量，并输入到解码器模块，W_c是权重矩阵；

所述解码器模块用于：

根据公式：

进行解码生成预测的运动轨迹，其中

表示解码器预测的上一时刻的输出，

表示t时刻的最终上下文向量，FC是全连接层。

综上所述，本发明中的运动轨迹预测装置，由于采用了注意力机制，注意力机制可以使影响预测的位置分配更大的权重，使预测更加精准。从而在短道速滑轨迹预测尤其是弯道的轨迹预测中获得更精准更具有实际的应用价值。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图4所示的计算机设备上运行。

请参阅图4，图4为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为终端。

如图4所示，该计算机设备包括通过***总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作***和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

在一个实施例中，所述处理器实现时，用于实现：在设定时间内采集观察对象的位置信息和速度信息，以获取观察对象在各个时刻的位置隐藏状态和速度隐藏状态；

在一个实施例中，所述处理器实现时，用于实现：利用多层感知机MLP将观察对象的位置信息和速度信息嵌入到向量中：

其中，

表示t时刻的位置特征向量，

为观察对象i在t时刻下速度信息；

其中，

为观察对象i在t时刻下位置隐藏状态，

为观察对象i在t时刻下速度隐藏状态，

和

为对应的权重；

在一个实施例中，所述处理器实现时，用于实现：计算观察对象i对于u在t时刻对应第j个速度隐藏状态的权重值

将Bⁱ修正为

其中，

在一个实施例中，所述处理器实现时，用于实现：根据公式：

计算打分函数

根据公式：

计算

其中，

表示观察对象i的第j个速度隐藏状态，

是观察对象i的第k个速度隐藏状态，k的取值范围为[1,T_S]。

得到最终上下文向量Cⁱ，其中

根据公式：

进行解码生成预测的运动轨迹，其中

表示解码器预测的上一时刻的输出，

表示t时刻的最终上下文向量，FC是全连接层。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本申请的各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。