CN116503441A

CN116503441A - 一种视频动态目标追踪方法、装置、设备及存储介质

Info

Publication number: CN116503441A
Application number: CN202310258080.XA
Authority: CN
Inventors: 潘博; 唐东红; 韦肖斌; 赵芸; 苏一海
Original assignee: Technical Service Branch Of Guangxi Zhuang Autonomous Region Communication Industry Service Co ltd
Current assignee: Technical Service Branch Of Guangxi Zhuang Autonomous Region Communication Industry Service Co ltd
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-07-28

Abstract

本申请实施例涉及图像目标追踪技术领域，特别涉及一种视频动态目标追踪方法、装置、设备及存储介质。本方法利用先前保留的对历史帧的追踪对象的位置信息和置信度信息变化记录，即便当前帧可能出现的追踪对象遮挡、追踪对象体态巨变等突发因素，还可以通过历史帧中追踪对象的信息结合当前帧的画面特征，还原目标追踪对象的运动轨迹，实现准确定位。

Description

一种视频动态目标追踪方法、装置、设备及存储介质

技术领域

本申请实施例涉及图像目标追踪处理技术领域，尤其涉及一种视频动态目标追踪方法、装置、设备及存储介质。

背景技术

近年来，随着人工智能技术的不断发展，安全生产的智能化监控需要与人工智能技术的结合，其中视频的动态目标追踪是研究热点与难点。目前大多数的目标追踪依赖tracking-by-detection的方式实现目标追踪。其中基于DCF的方法由于其傅立叶域操作的高效率和低资源需求而被广泛应用于空中平台。最近，基于Siamese的网络已经成为精确和鲁棒追踪的强大框架，该类算法在空中平台上实时部署基于Siamese的追踪器时，其效率也得到了优化。

上述研究方案的缺陷在于：连续帧之间固有的强相关性“上下文时空特征信息”被忽视，这使得在预测当前时间点的视频帧画面特征，无法结合上文时空特征信息，就无法得到目标历史运动轨迹。因此，当目标发生大运动、遮挡等不同复杂条件下的严重外观变化时，上述方案的追踪器更容易失效。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本公开实施例的主要目的在于提出一种视频动态目标追踪方法、装置、设备及存储介质，能实现目标追踪对象的准确定位。

为实现上述目的，本公开实施例的第一方面提出了一种视频动态目标追踪方法，所述视频动态目标追踪方法包括以下步骤：

获取待追踪视频，将所述待追踪视频输入预设的编码器和解码器网络中，得到解码器预测当前帧图像中的目标追踪对象的位置特征和编码器输出所述当前帧图像的第一图像编码特征，并将所述位置特征作为第一嵌入向量；所述目标追踪对象是所述当前帧图像中出现的所有追踪对象中的一个；

获取所述当前帧图像之前历史帧图像的所述追踪对象的历史轨迹信息，提取所述历史轨迹信息的向量表示，并将所述向量表示作为第二嵌入向量；其中，所述历史轨迹信息包括所述追踪对象的位置点和置信度值；

将所述第一嵌入向量和所述第二嵌入向量合并后的向量作为自注意力网络的Q值，将所述第一图像编码特征作为所述自注意力网络的K值和V值，进行交叉注意力计算，得到所述历史轨迹信息的解码向量；

根据所述解码向量，采用逻辑回归法计算所述当前帧图像中的所述目标追踪对象的位置点。

在一些实施例中，所述采用逻辑回归法还包括计算所述当前帧图像中的所述目标追踪对象的置信度值；所述视频动态目标追踪方法还包括：

根据所述当前帧图像中的所述目标追踪对象的位置点和置信度值，更新所述目标追踪对象的所述历史轨迹信息，以用于所述待追踪视频的下一帧图像的所述目标追踪对象位置检测。

在一些实施例中，所述提取所述历史轨迹信息的向量表示，包括：

构建短时模块、长时模块和融合模块；

将所述第一图像编码特征作为所述短时模块的Q值，将所述历史帧图像与所述当前帧图像相邻的若干帧图像的第二图像编码特征作为所述短时模块的K值和V值，通过所述短时模块进行交叉注意力计算，得到多个第一注意力结果，并将所述多个第一注意力结果聚合得到第一聚合特征；

将所述第一图像编码特征作为所述长时模块的Q值，将所述历史帧图像中的多帧图像的第三图像编码特征作为所述长时模块的K值和V值，通过所述长时模块进行交叉注意力计算，得到多个第二注意力结果，并将所述多个第二注意力结果聚合得到第二聚合特征；其中，所述多帧图像的数量大于所述若干帧图像的数量；

通过将所述融合模块将第一聚合特征和所述第二聚合特征合并连接后计算自注意力，得到所述历史轨迹信息的向量表示。

在一些实施例中，所述视频动态目标追踪方法还包括：

将所述历史轨迹信息的向量表示作为下一帧图像的所述短时模块的Q值。

在一些实施例中，所述编码器和解码器网络为Deformable DETR。

在一些实施例中，所述当前帧中的所述目标追踪对象的置信度值包括所述逻辑回归法输出的初始的置信度值与所述逻辑回归法输出的目标遮挡程度值的乘积。

在一些实施例中，所述获取所述当前帧图像之前历史帧图像的所述追踪对象的历史轨迹信息，包括：

从时空存储器中提取所述当前帧图像之前历史帧图像的所述追踪对象的历史轨迹信息；其中，所述时空存储器为先入先出的队列结构。

为实现上述目的，本公开实施例的第二方面提出了一种视频动态目标追踪装置，所述视频动态目标追踪装置包括：

视频编码解码单元，用于获取待追踪视频，将所述待追踪视频输入预设的编码器和解码器网络中，得到解码器预测当前帧图像中的目标追踪对象的位置特征和编码器输出所述当前帧图像的第一图像编码特征，并将所述位置特征作为第一嵌入向量；所述目标追踪对象是所述当前帧图像中出现的所有追踪对象中的一个；

历史轨迹获取单元，用于获取所述当前帧图像之前历史帧图像的所述追踪对象的历史轨迹信息，提取所述历史轨迹信息的向量表示，并将所述向量表示作为第二嵌入向量；其中，所述历史轨迹信息包括所述追踪对象的位置点和置信度值；

历史轨迹解码单元，用于将所述第一嵌入向量和所述第二嵌入向量合并后的向量作为自注意力网络的Q值，将所述第一图像编码特征作为所述自注意力网络的K值和V值，进行交叉注意力计算，得到所述历史轨迹信息的解码向量；

目标位置追踪单元，用于根据所述解码向量，采用逻辑回归法计算所述当前帧图像中的所述目标追踪对象的位置点。

为实现上述目的，本公开实施例的第三方面提出了一种电子设备，包括至少一个存储器；

至少一个处理器；

至少一个计算机程序；

所述计算机程序被存储在所述存储器中，处理器执行所述至少一个计算机程序以实现：

如第一方面实施例任一项所述的视频动态目标追踪方法。

为实现上述目的，本公开实施例的第四方面还提出一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行：

如第一方面实施例任一项所述的一种视频动态目标追踪方法。

本申请实施例第一方面提供了一种视频动态目标追踪，本方法利用先前保留的对历史帧的追踪对象的位置信息和置信度信息变化记录，即便当前帧可能出现的追踪对象遮挡、追踪对象体态巨变等突发因素，还可以通过历史帧中追踪对象的信息结合当前帧的画面特征，还原目标追踪对象的运动轨迹，实现准确定位。

可以理解的是，上述第二方面至第四方面与相关技术相比存在的有益效果与上述第一方面与相关技术相比存在的有益效果相同，可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的视频动态目标追踪方法的流程示意图；

图2是图1中步骤S102的流程示意图；

图3是本申请一个实施例提供的视频动态目标追踪方法的网络结构示意图；

图4是本申请一个实施例提供的三个注意力模块的网络结构示意图；

图5是本申请一个实施例提供的目标追踪的实例图；

图6是本申请另一个实施例提供的目标追踪的实例图；

图7是本申请一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

例如这样一段视频：一个正在行走的人，突然被东西绊倒摔在地上。传统方案只是依赖于目标外观特征去检测目标位置，因此在人处于行走状态时候可以准确地追踪。但是，人在突然摔倒后与之前行走状态相比，在体态外观上发生巨大变化，可能无法检测到“行走人”和“摔倒人”是同一个目标，追踪就此中断。

本申请基于时空信息存储机制，保留了对历史帧的目标信息变化记录，对于当前帧可能出现的目标遮挡、目标体态巨变等突发因素，可以通过存储机制中记录得历史帧中目标位置信息，得到目标运动轨迹。从而结合当前帧画面信息，准确定位当前帧目标位置。

在介绍实施例之前，先对本申请的部分技术概念进行说明：

Deformable DETR，Deformable DETR的是针对DETR训练慢、小目标检测差的问题而提出来的，它的注意模块只关注一个目标周围的一小部分关键采样点。Deformable DETR可以获得比DETR(特别是在小物体上)更好的性能，在训练时间少10×的时期。包含了Transformer Encoder和Transformer Encoder两部分，首先利用CNN提取每一帧图像特征，将其线性映射为二维向量组后输入至Transformer Encoder。其次将Transformer Encoder的输出作为目标的查询向量，输入到Transformer Decoder。Transformer Encoder中与Transformer Decoder层输出进行交叉注意力计算，最终输出向量集合。

TrackFormer，TrackFormer使用基于DETR检测器的卷积神经网络(CNN)和Transformer体系结构在多帧上形成轨迹，是本领域一种常规方法。

多目标跟踪(Multiple Object Tracking or Multiple Target Tracking，MOT)是对视频中多个感兴趣目标同时定位与跟踪，维持轨迹，记录ID。作为计算机视觉中一项中级任务，多目标跟踪需要依赖高级任务来完成，如姿态估计，动作识别，行为分析等。它的应用可以是视频监控，人机交互，虚拟现实。

请参照图1，图1是本申请一个实施例提供的一种视频动态目标追踪方法，应理解，本申请实施例的视频动态目标追踪方法包括但不限于步骤S101、S102、S103、S104和S105，以下结合图1对步骤S101至步骤S105进行详细介绍：

步骤S101、获取待追踪视频，将待追踪视频输入预设的编码器和解码器网络中，得到解码器预测当前帧图像中的目标追踪对象的位置特征和编码器输出当前帧图像的第一图像编码特征，并将位置特征作为第一嵌入向量；目标追踪对象是当前帧图像中出现的所有追踪对象中的一个。

本申请的一实施例，编码器和解码器网络为传统架构Deformable DETR。Deformable DETR包含了Transformer Encoder(编码器)和Transformer Encoder(解码器)两部分：

首先利用卷积神经网络提取待追踪视频中的每一帧图像特征，以当前帧为例，将当前帧的线性映射为二维向量组后输入至Transformer Encoder，然后将TransformerEncoder的输出的向量特征(第一图像编码特征)输入到Transformer Decoder中，然后Transformer Encoder中与Transformer Decoder层的输出进行交叉注意力计算，最终输出包含当前帧里所有追踪对象的向量集合，每个向量代表了每个追踪对象，最后随后对每个向量(对象)的边界框和类别进行预测。需要注意的是，Transformer Encoder(编码器)的输出一方面是作为Transformer Encoder(解码器)的输入，一方面是作为步骤S103中自注意力网络的K、V值。在本申请中，追踪对象是指图像或视频当中的待追踪人物，目标追踪对象是指定的一个追踪对象。

步骤S102、获取当前帧图像之前历史帧图像的追踪对象的历史轨迹信息，提取历史轨迹信息的向量表示，并将向量表示作为第二嵌入向量；其中，历史轨迹信息包括追踪对象的位置点和置信度值。

历史帧图像是指待追踪视频中且位于当前帧之前的帧图像，本申请的一实施例，历史轨迹信息存储于时空存储器中。时空存储器是一种先入先出的队列结构，时空存储器里的多个追踪对象的一堆特征，需要转换为每一追踪对象对应一特定向量表示，才能进行后续的处理。因此，请参照图2，在一些实施例中，通过如下方式获取当前帧图像之前历史帧图像的追踪对象的历史轨迹信息的向量表示：

步骤S1021、构建短时模块、长时模块和融合模块。

步骤S1022、将第一图像编码特征作为短时模块的Q值，将历史帧图像与当前帧图像相邻的若干帧图像的第二图像编码特征作为短时模块的K值和V值，通过短时模块进行交叉注意力计算，得到多个第一注意力结果，并将多个第一注意力结果聚合得到第一聚合特征。

步骤S1023、将第一图像编码特征作为长时模块的Q值，将历史帧图像中的多帧图像的第三图像编码特征作为长时模块的K值和V值，通过长时模块进行交叉注意力计算，得到多个第二注意力结果，并将多个第二注意力结果聚合得到第二聚合特征；其中，多帧图像的数量大于若干帧图像的数量。

步骤S1024、通过将融合模块将第一聚合特征和第二聚合特征合并连接后计算自注意力，得到历史轨迹信息的向量表示。

本申请设计了三个注意力模块，包括短时模块、长时模块和融合模块。

在短时模块中，对每个追踪对象的历史轨迹，短时模块只关注该轨迹与当前帧临近的多帧图像的特征。将当前帧图像的特征作为Q值，和当前帧临近的多帧图像的特征作为K，V进行交叉注意力计算，得到每个轨迹的注意力结果后，将其聚合起来，作为短时模块的输出。

在长时模块中，和短时模块计算的方式相似，不同在于，长时模块拿更多帧图像的特征进行注意力计算，数量大于短时模块中使用的临近帧数量。

在融合模块中，将短时模块和长时模块的输出合并连接在一起，计算自注意力，输出得到历史轨迹信息的向量表示。

在本步骤中，短时模块可以捕获临近帧的对象特征，作为当前帧目标的局部轮廓信息，用以平滑噪声。长时模块可以捕获对象在一段时间内的运动轨迹，作为当前帧对象的全局运动信息，来进一步提取特征。混合模块负责将前两个模块的信息融合在一起，输出最终的向量表示。

步骤S103、将第一嵌入向量和第二嵌入向量合并后的向量作为自注意力网络的Q值，将第一图像编码特征作为自注意力网络的K值和V值，进行交叉注意力计算，得到历史轨迹信息的解码向量。

步骤S104、根据解码向量，采用逻辑回归法计算当前帧图像中的目标追踪对象的位置点。根据目标追踪对象的历史轨迹的特征解码向量，通过逻辑回归法，计算出目标追踪对象的位置点。

需要注意的是，在待追踪视频的当前帧中，目标追踪对象有两种可能，第一种是当前帧中新检测的追踪对象，第二种是当前帧之前历史帧图像中已经出现过的图像，上述两种情况，步骤S104都能预测出该目标追踪对象的位置点。

在一些实施例中，步骤S104输出目标追踪对象的位置点的同时，还会输出目标追踪对象对应的置信度值。然后还可执行如下步骤S105：

步骤S105、根据当前帧图像中的目标追踪对象的位置点和置信度值，更新目标追踪对象的历史轨迹信息，以用于待追踪视频的下一帧图像的目标追踪对象位置检测。

根据当前帧图像中的目标追踪对象的位置点和置信度值、以及历史帧图像中的目标追踪对象的位置点和置信度值对时空存储器中的目标追踪对象的历史轨迹进行更新，以供待追踪视频的下一帧图像的追踪使用。由于置信度标识坐标位置的物体是目标追踪对象的概率，在历史轨迹信息加入置信度值，能够提高目标追踪的准确度。

本方案的目标是通过因果处理来定位目标追踪对象，同时追踪其轨迹。于是在处理视频的当前帧图像时，基于编码器和解码器的架构为当前帧预测出目标追踪对象，并且表示为第一嵌入向量。将每个追踪对象的“历史轨迹信息”转换为向量表示，表示为第二嵌入向量。使用自注意力机制将第一嵌入向量与第二嵌入向量合并后向量作为Q、将图像编码特征作为K和V，计算追踪对象之间的关系并得到目标追踪对象的历史轨迹的特征解码向量。根据特征解码向量，采用逻辑回归法，计算出目标追踪对象的位置和置信度得分。最后，基于先前目标追踪对象的位置和对应置信度得分，再结合当前帧的目标追踪对象的位置与置信度分数，来更新目标追踪对象的历史轨迹信息，以用于后续一帧图像的使用。

本方法利用先前保留的对历史帧的追踪对象的位置信息和置信度信息变化记录，即便当前帧可能出现的追踪对象遮挡、追踪对象体态巨变等突发因素，还可以通过历史帧中追踪对象的信息结合当前帧的画面特征，还原目标追踪对象的运动轨迹，实现准确定位。

为了便于理解，参照图3和图4，以下提供一组实施例，提供了一种视频动态目标追踪方法，本方法是为了解决当目标发生大运动、遮挡等不同复杂条件下的严重外观变化时，现阶段追踪器容易失效的技术缺陷。本方法包括如下步骤S201至S206：

步骤S201、获取待追踪视频I＝{I₀,I₁,···,I_t,…,I_T}。

其中，I_t是作为当前帧，本实施例的目的是通过因果处理来定位一组K个追踪对象，同时跟踪它们的轨迹T＝{T₀,T₁,······,T_K}。

步骤S202、通过Deformable DETR处理待追踪视频的第t帧图像，得到编码器输出的图像编码特征和解码器输出的多个追踪对象的特征向量表示。图像编码特征用于后续处理，将Deformable DETR的输出特征向量作为嵌入向量代表第t帧的proposal的个数，d是特征维数。

步骤S203、从时空存储器中获取历史帧图像的追踪对象的历史轨迹，并将历史轨迹变换为向量表示。

追踪对象有多个，那么需要将多条的历史轨迹变为嵌入向量

时空存储器负责存储轨迹的部分历史帧特征，时空存储器为一个先入先出的队列结构来存储，记为X∈R^N×T×d，其中，N远大于视频目标个数，用于建立目标索引，例如N＝600。T为要存储的时间，例如T＝24。因此，X存储了每个追踪对象在每一帧的特征。

时空存储器存储的是第t-T帧到第t-1帧的对象位置信息及其置信度信息。由此得到第t-T帧到第t-1帧内追踪对象的轨迹信息：

上述轨迹信息通过记忆聚合器，输出一个轨迹向量，记为

记忆聚合器的采用短时模块f_short、长时模块f_long和混合模块f_fusion来得到最终的向量表示。

对每个轨迹，短时模块只关注该轨迹与当前帧临近T_S帧的特征，对当前帧的特征为X_t-1∈R^d和临近T_S帧的特征为把X_t-1作为Q，/>作为K，V进行交叉注意力计算，最后计算出每个轨迹的注意力结果后，将其聚合起来，作为短时模块的输出，记作/>

长时模块拿更多帧的特征进行注意力计算,假设关注的帧数为T_l，保证T_l>T_S。假设T_l内该追踪对象的特征为和短时模块一样/>也是作为交叉注意力的Key和Value。最后把每个目标聚合形成/>

融合模块把短时模块和长时模块的输出和/>concat在一起，计算自注意力。输出的就是/>和/>是作为下一帧的短时模块f_short的输入的Q矩阵。DMAT用来动态存储矩阵(Dymanic Matrix)，通过自注意力聚合模块(self-attn modulesffusion)，将输出向量存储到DMAT中的得到/>对第t+1帧视频进行处理时作为输入矩阵。/>作为第t+1帧的输入，优势在于可以增强第t+1帧对于第t帧的追踪对象特征信息的注意力权重，避免长时模块里临近帧信息被间隔较远帧信息所稀释与弱化。

步骤S204、使用自注意力机制将作为Q、将编码图像特征作为K和V，计算追踪对象之间的关系并相应地将嵌入向量更新为/> 作为历史轨迹的解码向量。

步骤S205、根据历史轨迹的解码向量通过逻辑回归法，计算出新检测到追踪对象和已存在的追踪对象的位置/>和置信度得分/>其中，新检测到的追踪对象是指当前帧图像出现的上一帧图像未出现的对象。

不同于以往的一些方法，本申请的步骤不仅输出对追踪对象的位置的估计和置信度，而且输出对目标遮挡程度估计的一个概率，把衡量遮挡程度的score称为objectnessscore，把置信度的score称为uniqueness score，在中第i个对象在第t帧的两种score分别以/>和/>表示。将置信度/>来定义为/>与/>的乘积：

同理，对于也一样

传统方案进行目标追踪时，忽略了物体在运动过程中会遭遇到不同程度的遮挡，容易出现以下现象：上一帧“被部分遮挡”的目标物体，运动至下一帧时“不被遮挡”，物体形态发生了较大改变导致被错误判定为“新检测对对象”。因此将目标遮挡程度估计概率作为下一帧物体追踪的输入特征之一，可以加强目标追踪效果。

步骤S206、进行时空存储器中的历史轨迹的更新。

历史帧图像中的位置特征和对应置信度/>再结合当前第t帧的追踪对象的位置/>与置信度分数/>来更新新检测到追踪对象和已存在的追踪对象在时空存储器中的轨迹曲线。用于进行后续的追踪。

参照图5和图6，以下提供实验结果：

通过业务场景中识别错误率较高的实施例，证明相比传统TrackFormer，本申请提供的方法在目标识别效果上的优越性。业务场景如下：针对施工现场，对在场施工人员进行监控追踪。

由于施工环境下多样性和复杂性，目标通常会发生大运动、遮挡等不同复杂条件下的严重外观变化，这种情况下目标追踪难度变大。例如图6：在这两个视频里的目标追踪的难点在于：1、由于施工动作较大，同一目标在不同帧画面中人员动作形态发生不小变化，对于确认是否同一目标有难度。2、由于拍摄角度所限，导致在视频画面中，目标移动后在有些帧画面中部分甚至全部被遮挡，这对于目标的追踪带来难度。图5为一段视频中的帧画面，左侧为一段视频的第118帧，右侧为视频的第129帧。

在第一个视频中，传统方案TrackFormer，只能对标号为11的目标框的人员进行准确追踪。而标号为22的目标框的人员由于受到了不同部位的遮挡，所以无法准确定位追踪。同理，在第二个视频中，标号为33、44和55的人员，传统方案TrackFormer也无法准确定位追踪。上述问题，本方案都可以全部解决，对于受遮挡、形态变化较大的目标，都可以准确定位追踪。其中，图6第一行左右两张图分别为视频一的第5、10帧。第二行的左右张图及第三行的图分别为视频二的第5、10、15帧。

本申请采样了1000条具有“目标(追踪对象)发生大运动、遮挡等不同复杂条件下的严重外观变化”这一特点的视频，测试对比本方案与传统方案的评价指标采用通用化指标：多目标追踪的准确度(MOT)，用于统计在追踪中的误差积累情况，包括对追踪目标个数以及是否正确匹配。对比结果如表1所示。

表1

视频样本数量	传统方案的MOT	本方案的MOT
			1000	65％	72％

本申请的一个实施例，提供了一种视频动态目标追踪装置，装置包括视频编码解码单元1100、历史轨迹获取单元1200、历史轨迹解码单元1300和目标位置追踪单元1400，具体包括：

视频编码解码单元1100用于获取待追踪视频，将待追踪视频输入预设的编码器和解码器网络中，得到解码器预测当前帧图像中的目标追踪对象的位置特征和编码器输出当前帧图像的第一图像编码特征，并将位置特征作为第一嵌入向量；目标追踪对象是当前帧图像中出现的所有追踪对象中的一个。

历史轨迹获取单元1200用于获取当前帧图像之前历史帧图像的追踪对象的历史轨迹信息，提取历史轨迹信息的向量表示，并将向量表示作为第二嵌入向量；其中，历史轨迹信息包括追踪对象的位置点和置信度值。

历史轨迹解码单元1300用于将第一嵌入向量和第二嵌入向量合并后的向量作为自注意力网络的Q值，将第一图像编码特征作为自注意力网络的K值和V值，进行交叉注意力计算，得到历史轨迹信息的解码向量。

目标位置追踪单元1400用于根据解码向量，采用逻辑回归法计算当前帧图像中的目标追踪对象的位置点。

需要注意的是，本实施例与上述方法实施例是基于相同的发明构思，因此上述的方法实施例的相关内容同样适应于本装置实施例，此处不再赘述。

本装置利用先前保留的对历史帧的追踪对象的位置信息和置信度信息变化记录，即便当前帧可能出现的追踪对象遮挡、追踪对象体态巨变等突发因素，还可以通过历史帧中追踪对象的信息结合当前帧的画面特征，还原目标追踪对象的运动轨迹，实现准确定位。

本申请实施例还提供了一种电子设备，本电子设备包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

程序被存储在存储器中，处理器执行至少一个程序以实现本公开实施上述的视频动态目标追踪方法。

该电子设备可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant，PDA)、车载电脑等任意智能终端。

本申请实施例的电子设备，用于执行上述视频动态目标追踪方法，本方法利用先前保留的对历史帧的追踪对象的位置信息和置信度信息变化记录，即便当前帧可能出现的追踪对象遮挡、追踪对象体态巨变等突发因素，还可以通过历史帧中追踪对象的信息结合当前帧的画面特征，还原目标追踪对象的运动轨迹，实现准确定位。

下面结合图7对本申请实施例的电子设备进行详细介绍。

如图7，图7示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器1600，可以采用通用的中央处理器(Central Processing Unit，CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本公开实施例所提供的技术方案；

存储器1700，可以采用只读存储器(Read Only Memory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory，RAM)等形式实现。存储器1700可以存储操作***和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1700中，并由处理器1600来调用执行本公开实施例的视频动态目标追踪方法。

输入/输出接口1800，用于实现信息输入及输出；

通信接口1900，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线2000，在设备的各个组件(例如处理器1600、存储器1700、输入/输出接口1800和通信接口1900)之间传输信息；

其中处理器1600、存储器1700、输入/输出接口1800和通信接口1900通过总线2000实现彼此之间在设备内部的通信连接。

本公开实施例还提供了一种存储介质，该存储介质是计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行上述视频动态目标追踪方法。

本申请实施例的存储介质，用于执行上述视频动态目标追踪方法，利用先前保留的对历史帧的追踪对象的位置信息和置信度信息变化记录，即便当前帧可能出现的追踪对象遮挡、追踪对象体态巨变等突发因素，还可以通过历史帧中追踪对象的信息结合当前帧的画面特征，还原目标追踪对象的运动轨迹，实现准确定位。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本公开实施例描述的实施例是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本公开实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序的介质

以上是对本申请实施例的较佳实施进行了具体说明，但本申请实施例并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请实施例精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请实施例权利要求所限定的范围内。

Claims

1.一种视频动态目标追踪方法，其特征在于，所述视频动态目标追踪方法包括以下步骤：

2.根据权利要求1所述的视频动态目标追踪方法，其特征在于，所述采用逻辑回归法还包括计算所述当前帧图像中的所述目标追踪对象的置信度值；所述视频动态目标追踪方法还包括：

3.根据权利要求1所述的视频动态目标追踪方法，其特征在于，所述提取所述历史轨迹信息的向量表示，包括：

构建短时模块、长时模块和融合模块；

4.根据权利要求3所述的视频动态目标追踪方法，其特征在于，所述视频动态目标追踪方法还包括：

5.根据权利要求1所述的视频动态目标追踪方法，其特征在于，所述编码器和解码器网络为Deformable DETR。

6.根据权利要求1所述的视频动态目标追踪方法，其特征在于，所述当前帧中的所述目标追踪对象的置信度值包括所述逻辑回归法输出的初始的置信度值与所述逻辑回归法输出的目标遮挡程度值的乘积。

7.根据权利要求1所述的视频动态目标追踪方法，其特征在于，所述获取所述当前帧图像之前历史帧图像的所述追踪对象的历史轨迹信息，包括：

8.一种视频动态目标追踪装置，其特征在于，所述视频动态目标追踪装置包括：

9.一种电子设备，其特征在于，包括：

至少一个存储器；

至少一个处理器；

至少一个计算机程序；

如权利要求1至7任一项所述的视频动态目标追踪方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行：

如执行权利要求1至7任一项所述的视频动态目标追踪方法。