CN113297905A

CN113297905A - 一种目标跟踪方法、装置和电子***

Info

Publication number: CN113297905A
Application number: CN202110421765.2A
Authority: CN
Inventors: 董斌; 曾凡高; 汪天才
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-08-24
Anticipated expiration: 2041-04-19

Abstract

本发明提供了一种目标跟踪方法、装置和电子***，应用于电子设备，电子设备预存有训练完成的目标追踪模型，目标追踪模型包括骨干网络、编码器、解码器和自注意力网络，该方法包括：通过骨干网络和编码器对待处理的视频帧序列中的视频帧进行处理，得到与视频帧对应的第一特征集；组合初始查询向量集和历史帧的跟踪查询向量集，得到查询向量合集；将查询向量合集和当前帧的第一特征集输入解码器，得到当前帧对应的跟踪查询向量初始集；通过自注意力网络对当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别，将带有跟踪ID的查询向量组成为当前帧的跟踪查询向量集，本发明有效提升了目标跟踪对象的识别效率和准确度。

Description

一种目标跟踪方法、装置和电子***

技术领域

本发明涉及图像识别技术领域，尤其是涉及一种目标跟踪方法、装置和电子***。

背景技术

多目标追踪(Multi-Object Tracking，MOT)是一类视觉目标检测技术，其任务是指网络模型对连续视频画面中多个目标进行检测以及跟踪，进行多目标追踪的网络模型通常基于tracking-by-detection(基于检测的跟踪模型)类方法实现。tracking-by-detection类方法的主要思想是先使用检测器如Faster R-CNN、CenterNet等检测出连续视频的所有目标，然后使用数据关联方法如匈牙利匹配、卡尔曼滤波、行人重识别等对属于同一个轨迹的目标进行连接形成轨迹。

基于tracking-by-detection类方法实现多目标追踪技术比较典型的有：(1)DeepSort、Tracktor等方法，这些方法分别使用Faster R-CNN检测器和行人重识别模型进行目标检测以及跟踪；(2)JDE、FairMOT等方法，这些方法将检测器和行人重识别模型集成到同一个模型中进行联合训练优化，达到了比较好的追踪性能；(3)TrackFormer使用注意力(Attention)机制进行多目标追踪。

上述基于tracking-by-detection类方法实现的多目标追踪技术，这种技术本质均需要先通过检测器进行目标检测，再对目标检测得到检测框的特征进行目标重识别，因此目标重识别的特征提取和优化比较依赖检测器的性能，导致目标追踪效率低且准确度不高。

发明内容

有鉴于此，本发明的目的在于提供一种目标跟踪方法、装置和电子***，以缓解目标追踪效率低且准确度不高的技术问题。

第一方面，本发明实施例提供了一种目标跟踪方法，应用于电子设备，电子设备预存有训练完成的目标追踪模型，目标追踪模型包括骨干网络、编码器、解码器和自注意力网络，该方法包括：通过骨干网络和编码器对待处理的视频帧序列中的视频帧进行处理，得到与视频帧对应的第一特征集；组合初始查询向量集和历史帧的跟踪查询向量集，得到查询向量合集；将查询向量合集和当前帧的第一特征集输入解码器，得到当前帧对应的跟踪查询向量初始集；通过自注意力网络对当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别，将带有跟踪ID的查询向量组成为当前帧的跟踪查询向量集。

其中，通过自注意力网络对当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别的步骤，包括：对于当前帧对应的跟踪查询向量初始集中的第一类查询向量，基于预设的加入门限和第一类查询向量的分类得分进行跟踪ID分配；其中，第一类查询向量为初始查询向量集对应的查询向量；对于当前帧对应的跟踪查询向量初始集中的第二类查询向量，基于预设的退出门限和第二类查询向量的分类得分进行维持ID判别；其中，第二类查询向量为历史帧的跟踪查询向量集对应的查询向量。

其中，基于预设的加入门限和第一类查询向量的分类得分进行跟踪ID分配的步骤，包括：标记第一类查询向量中的分类得分大于预设的加入门限的查询向量；判断被标记的查询向量在当前帧之前的历史帧中被标记的次数是否大于第一次数阈值，如果是，为被标记的查询向量分配跟踪ID。

其中，基于预设的退出门限和第二类查询向量的分类得分进行维持ID判别的步骤，包括：标记第二类查询向量的分类得分小于预设的退出门限的查询向量；判断被标记的查询向量在当前帧之前的历史帧中被标记的次数是否大于第二次数阈值，如果是，取消被标记的查询向量的跟踪ID。

其中，将带有跟踪ID的查询向量组成为当前帧的跟踪查询向量集的步骤之后，该方法还包括：将当前帧的跟踪查询向量集中的查询向量添加至跟踪ID对应的ID队列；其中，ID队列用于保存指定数目的连续帧中同一跟踪ID对应的查询向量；对于每个ID队列，均根据该ID队列中的查询向量，更新当前帧中该ID队列的跟踪ID对应的查询向量。

其中，根据该ID队列中的查询向量，更新当前帧中该ID队列的跟踪ID对应的查询向量的步骤，包括：融合该ID队列中的各个查询向量，得到融合查询向量；将融合查询向量作为自注意力网络的Q向量和K向量，将当前帧中该ID队列的跟踪ID对应的查询向量作为自注意力网络的V向量；将Q向量、K向量和V向量输入自注意力网络，得到当前帧中该ID队列的跟踪ID对应的查询向量。

其中，根据该ID队列中的查询向量，更新当前帧中该ID队列的跟踪ID对应的查询向量的步骤，包括：融合该ID队列中的各个查询向量，得到融合查询向量；将融合查询向量作为自注意力网络的K向量和V向量，将当前帧中该ID队列的跟踪ID对应的查询向量作为自注意力网络的Q向量；将Q向量、K向量和V向量输入自注意力网络，得到当前帧中该ID队列的跟踪ID对应的查询向量。

其中，该方法还包括：将视频帧序列中第一帧的第一特征集和初始查询向量集均输入解码器，得到第一帧对应的跟踪查询向量初始集；其中，跟踪查询向量初始集包括初始查询向量集中的各个查询向量的分类得分和坐标信息；通过自注意力网络对第一帧对应的跟踪查询向量初始集中各个查询向量进行跟踪ID分配，将分配有跟踪ID的查询向量组成为第一帧的跟踪查询向量集。

其中，初始查询向量集采用以下方式确定：采用与待处理的视频帧序列对应的应用场景匹配的默认查询向量集作为预设的初始查询向量集；或者，对待处理的视频帧序列中的指定帧进行目标检测，基于目标检测结果确定预设的初始查询向量集。

其中，通过骨干网络和编码器获取待处理的视频帧序列中每帧均分别对应的第一特征集的步骤，包括：将待处理的视频帧序列输入骨干网络，得到与视频帧序列中的视频帧对应的基础特征集；将视频帧对应的基础特征集输入编码器，得到视频帧对应的第一特征集。

第二方面，本发明实施例还提供一种目标跟踪装置，该装置应用于电子设备，电子设备预存有训练完成的目标追踪模型，目标追踪模型包括骨干网络、编码器、解码器和自注意力网络，该装置包括：特征提取模块，用于通过骨干网络和编码器对待处理的视频帧序列中的视频帧进行处理，得到与视频帧对应的第一特征集；组合模块，用于组合初始查询向量集和历史帧的跟踪查询向量集，得到查询向量合集；解码器处理模块，用于将查询向量合集和当前帧的第一特征集输入解码器，得到当前帧对应的跟踪查询向量初始集；跟踪集获取模块，用于通过自注意力网络对当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别，将带有跟踪ID的查询向量组成为第二帧的跟踪查询向量集。

第三方面，本发明实施例还提供一种电子***，包括：图像采集设备、处理设备和存储装置；图像采集设备，用于获取待处理的视频帧序列；存储装置上存储有计算机程序，计算机程序在被处理设备运行时执行上述第一方面的目标跟踪方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理设备运行时执行上述第一方面的目标跟踪方法的步骤。

本发明实施例带来了以下有益效果：

本发明实施例提供的目标跟踪方法、装置和电子***，通过训练完成的目标追踪模型的骨干网络和编码器对待处理的视频帧序列中的视频帧进行处理，得到与视频帧对应的第一特征集；组合初始查询向量集和历史帧的跟踪查询向量集，得到查询向量合集；将查询向量合集和当前帧的第一特征集输入目标追踪模型的解码器，得到当前帧对应的跟踪查询向量初始集；通过目标追踪模型的自注意力网络对当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别，将带有跟踪ID的查询向量组成为当前帧的跟踪查询向量集，这种通过目标追踪模型得到当前帧的跟踪查询向量集的方式，是一种端到端的处理方式，无需对视频帧先进行目标检测，再对检测结果进行后处理从而得到识别结果，即可一次性得到视频帧对应的跟踪信息(即跟踪查询向量集)，有效提升了目标跟踪对象的识别效率；同时，该目标追踪模型的解码器还兼顾了历史帧的跟踪查询向量集，给出当前帧对应的跟踪查询向量初始集，进而使得自注意力网络能够给出更准确的维持ID判别处理，得到的跟踪信息更准确可靠，进而提高了跟踪目标的准确度。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种电子***的结构示意图；

图2为本发明实施例提供的目标追踪模型的示意图；

图3为本发明实施例提供的一种目标跟踪方法的流程图；

图4为本发明实施例提供的对第一视频帧进行目标跟踪的处理方法流程图；

图5为本发明实施例提供的一种更新当前帧中的查询向量的方法流程图；

图6为本发明实施例提供的一种TAN的示意图；

图7为本发明实施例提供的一种目标追踪模型的结构示意图；

图8为本发明实施例提供的一种目标跟踪方法的流程示意图；

图9为本发明实施例提供的一种目标跟踪装置的结构示意图；

图10为本发明实施例提供的另一种目标跟踪装置的结构示意图；

图11为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，目标跟踪技术通常需要先对图像进行目标检测，再基于目标检测结果进行目标识别，这种两阶段的处理机制跟踪效率较低，且准确度不高。基于此，本发明实施例提供的一种目标跟踪方法、装置和电子***，该技术可以应用于公共场合下的多目标跟踪，本发明实施例中的目标可以包括：人脸、人体、车辆、车牌或者宠物等对象中的任一种或多种对象的组合。

参照图1所示的电子***100的结构示意图。该电子***可以用于实现本发明实施例的目标跟踪方法和装置。

如图1所示的一种电子***的结构示意图，电子***100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及一个或多个图像采集设备110，这些组件通过总线***112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子***100的组件和结构只是示例性的，而非限制性的，根据需要，电子***也可以具有其他组件和结构。

处理设备102可以为服务器、智能终端，或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备，可以对电子***100中的其它组件的数据进行处理，还可以控制电子***100中的其它组件以执行目标跟踪功能。

存储装置104可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理设备102可以运行程序指令，以实现下文的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如应用程序使用和/或产生的各种数据等。

输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

图像采集设备110可以获取待处理的视频帧序列，并且将该视频帧序列存储在存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的目标跟踪方法、装置和电子***中的各器件可以集成设置，也可以分散设置，诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体，而将图像采集设备110设置于可以采集到图像的指定位置。当上述电子***中的各器件集成设置时，该电子***可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。

本实施例提供了一种目标跟踪方法，该方法可以应用于电子设备，该电子设备可以包含上述电子***。该电子设备预存有训练完成的目标追踪模型，参见图2所示的目标追踪模型的示意图，该目标追踪模型包括骨干网络、编码器、解码器和自注意力网络。其中，骨干网络可以采用CNN，编码器、解码器和自注意力网络可以采用类似于Transformer的模型实现，本发明实施例对此不进行限定。上述目标追踪模型为针对给定的目标预先训练好的模型，因此可以应用该模型执行本实施例的目标跟踪方法，参见图3所示的目标跟踪方法的流程图，该方法包括以下步骤：

步骤S302，通过上述骨干网络和编码器对待处理的视频帧序列中的视频帧进行处理，得到与视频帧对应的第一特征集；

其中，上述骨干网络和编码器对视频帧序列中的视频帧进行的处理可以为特征提取处理，例如：可以将待处理的视频帧序列输入骨干网络，得到与视频帧序列中的视频帧对应的基础特征集；再将各个视频帧对应的基础特征集分别输入编码器，得到视频帧对应的第一特征集。

步骤S304，组合初始查询向量集和历史帧的跟踪查询向量集，得到查询向量合集；

其中，初始查询向量集中的查询向量也可以称为query或者查询实例，初始查询向量集中的查询向量包括预设框的坐标信息和特征向量，预设框的个数和每个预设框的坐标信息可以根据需要设定，如100个或300个等。

上述初始查询向量集中的查询向量可以是带有框的序号，该序号仅仅是为了框之前的相互区分，与后面提到的跟踪ID不同，带有跟踪ID的查询向量为跟踪查询向量，跟踪查询向量包括跟踪框、跟踪框的特征向量以及跟踪框的分类得分等信息。

上述历史帧指上述视频帧序列中已经经过上述目标追踪模型处理过的视频帧。该历史帧的个数可以是一个，也可以是多个。如果历史帧为一个，则可以选择当前帧的上一帧作为历史帧。如果历史帧为多个，则可以选择当前帧之前最近的多个视频帧作为历史帧。

上述历史帧的跟踪查询向量集为历史帧对应的第一特征集经过上述目标追踪模型处理，由目标追踪模型中的自注意力网络输出的带有跟踪ID的查询向量组成该历史帧的跟踪查询向量集。各个历史帧的处理与当前帧的处理类似，参见下述步骤S306和步骤S308。

组合初始查询向量集和历史帧的跟踪查询向量集，相当于把这两个集合合并在一起，因此得到的查询向量合集包括初始查询向量集和历史帧的跟踪查询向量集。

步骤S306，将查询向量合集和当前帧的第一特征集输入解码器，得到当前帧对应的跟踪查询向量初始集；

解码器基于当前帧的第一特征集对查询向量合集中的查询向量进行打分，得到当前帧对应的跟踪查询向量初始集，该跟踪查询向量初始集中的查询向量来自于查询向量合集，每个查询向量经解码器处理，得到该查询向量对应的分类得分和坐标信息。

步骤S308，通过自注意力网络对当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别，将带有跟踪ID的查询向量组成为当前帧的跟踪查询向量集。

上述跟踪ID分配指对于不是历史帧的跟踪查询向量集中的查询向量，根据该查询向量的分类得分判断其是否应该分配跟踪ID，具体地，查询向量对应目标分类的分类得分越高，说明该查询向量包含该目标分类的目标的概率越大，可以分配跟踪ID，否则，查询向量对应目标分类的分类得分越低，则说明该查询向量不包含该目标分类的目标的概率越大，不为其分配跟踪ID。

上述维持ID判别指对于历史帧的跟踪查询向量集中的查询向量，可以根据该查询向量的分类得分判断其是否应该继续维持之前的跟踪ID。具体地，查询向量对应目标分类的分类得分越高，说明该查询向量依然包含该目标分类的目标的概率越大，可以继续维持跟踪ID，否则，查询向量对应目标分类的分类得分越低，则说明该查询向量不包含该目标分类的目标的概率越大，可以考虑不为其维持跟踪ID。

本申请实施例提供的上述方法，通过训练完成的目标追踪模型的骨干网络和编码器对待处理的视频帧序列中的视频帧进行处理，得到与视频帧对应的第一特征集；组合初始查询向量集和历史帧的跟踪查询向量集，得到查询向量合集；将查询向量合集和当前帧的第一特征集输入目标追踪模型的解码器，得到当前帧对应的跟踪查询向量初始集；通过目标追踪模型的自注意力网络对当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别，将带有跟踪ID的查询向量组成为当前帧的跟踪查询向量集，这种通过目标追踪模型得到当前帧的跟踪查询向量集的方式，是一种端到端的处理方式，无需对视频帧先进行目标检测，再对检测结果进行后处理从而得到识别结果，即可一次性得到视频帧对应的跟踪信息(即跟踪查询向量集)，有效提升了目标跟踪对象的识别效率；同时，该目标追踪模型的解码器还兼顾了历史帧的跟踪查询向量集，给出当前帧对应的跟踪查询向量初始集，进而使得自注意力网络能够给出更准确的维持ID判别处理，得到的跟踪信息更准确可靠，进而提高了跟踪目标的准确度。

本申请实施例中，将待处理的视频帧序列首先输入目标追踪模型中的骨干网络，基于骨干网络的输出得到第一特征集，因此，上述步骤S302中的通过骨干网络和编码器获取待处理的视频帧序列中每帧均分别对应的第一特征集的步骤，可以包括：

(1)将待处理的视频帧序列输入骨干网络，得到与视频帧序列中的视频帧对应的基础特征集；

(2)将视频帧对应的基础特征集输入编码器，得到视频帧对应的第一特征集。

上述骨干网络可以是例如卷积神经网络(CNN)的神经网络模型。得到与视频帧序列中的视频帧对应的基础特征集。进一步地，将基础特征集输入编码器，得到视频帧对应的第一特征集，第一特征集可以是各个视频帧对应的特征组成的向量。例如待测视频帧序列共包含N+1帧视频，经过上述步骤得到该视频帧序列对应的第一特征集f，f＝{f0，…,fN}，其中f0表示第一帧视频对应的特征，f1表示第二帧视频对应的特征，fN表示第N+1帧视频对应的特征。

为了能够从视频帧中检测出新出现的目标，本实施例采用了初始查询向量集，通过将历史帧的跟踪查询向量集、初始查询向量集，以及当前帧的第一特征集，输入解码器，得到跟踪查询向量初始集，这种方式不会漏掉视频帧中新出现的目标。其中，初始查询向量集可以是预设的查询向量集，如采用与待处理的视频帧序列对应的应用场景匹配的默认查询向量集作为初始查询向量集；也可以对待处理的视频帧序列中的指定帧(如第一帧)进行目标检测，基于目标检测结果确定上述初始查询向量集；例如，在目标检测结果得到的检测框的基础上增加预设数目的其它检测框，将这些检测框及检测框对应的坐标信息作为初始查询向量集。

基于以上描述可知，跟踪查询向量初始集中包括了与当前帧的初始查询向量集对应的查询向量以及与历史帧的跟踪查询向量集对应的查询向量，本实施例将与初始查询向量集对应的查询向量称为第一类查询向量，将与历史帧的跟踪查询向量集对应的查询向量称为第二类查询向量，基于此，上述步骤S308中的通过自注意力网络对当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别的步骤，可以包括：

(1)对于当前帧对应的跟踪查询向量初始集中的第一类查询向量，基于预设的加入门限和第一类查询向量的分类得分进行跟踪ID分配。

上述加入门限用于表示可以将查询向量作为目标，在后续视频帧中对其进行跟踪的限制，其可以是与分类得分对应的数值。第一类查询向量对应的是初始查询向量，即首次检测到的没有分配过跟踪ID的查询向量，因此，如果第一类查询向量的分类得分大于加入门限，则确定该查询向量有成为跟踪目标的可能，可以直接为其分配跟踪ID。考虑到视频帧中可能出现临时的目标，例如只在某一个或某几个视频帧中出现，持续的时间很短或者检测异常，为了避免频繁地为临时的目标分配跟踪ID，可以预设第一次数阈值，只针对连续地出现在大于第一次数阈值个视频帧中的查询向量设置跟踪ID，具体地，可以标记第一类查询向量中的分类得分大于预设的加入门限的查询向量，并进一步判断被标记的查询向量在当前帧之前的历史帧中被标记的次数是否大于第一次数阈值，如果是，为被标记的查询向量分配跟踪ID。

(2)对于当前帧对应的跟踪查询向量初始集中的第二类查询向量，基于预设的退出门限和第二类查询向量的分类得分进行维持ID判别。

与加入门限相对应地，电子设备中还可以预存退出门限，用于表示查询向量不再被本申请实施例提供的目标跟踪方法继续跟踪的退出条件，其可以是与查询向量的分类得分对应的数值。第二类查询向量对应的是跟踪查询向量，即在历史帧中已经开始跟踪的查询向量，因此，如果查询向量的分类得分小于退出门限，表明该查询向量在当前帧中模糊甚至消失，没有跟踪的必要，进而可以取消该查询向量的跟踪ID。考虑到查询向量可能只是在某一个或某几个视频帧中短暂模糊或消失，为了更准确的进行目标跟踪，避免对真正目标没有及时跟踪，可以预设第二次数阈值，只有查询向量在连续的大于第二次数阈值的视频帧中的分类得分都低于退出门限，才取消该查询向量对应的跟踪ID。具体地，可以是标记第二类查询向量的分类得分小于预设的退出门限的查询向量，并进一步判断被标记的查询向量在当前帧之前的历史帧中被标记的次数是否大于第二次数阈值，如果是，取消被标记的查询向量的跟踪ID。

例如，一个没有被赋予过跟踪ID的空查询向量，得到的分类得分高于加入门限T_enter，则认为该查询向量对应的跟踪目标首次出现，将该查询向量加入到跟踪查询向量集中。对于一个被赋予了跟踪ID的非空查询向量，如果连续的p帧的分类得分都低于退出门限T_exit，则认为该查询向量对应的跟踪目标已经消失，并将其对应的查询向量从跟踪查询向量集中删除。优选地，加入门限大于退出门限，例如T_enter可以设为0.7至0.9之间的数值，如0.8、0.85或0.9等数值，T_exit可以设为0.5至0.7之间的数值，例如0.6、0.65或0.7等数值。

通过上述方法，可以得到视频帧序列中的目标跟踪信息。例如针对某个跟踪目标A，其跟踪ID对应的查询向量可以表示为Trj＝{box_i,…,box_j}，其中，j>i，i表示该跟踪目标A在第i帧首次出现，j表示该跟踪目标A在第j帧最后一次出现。如果第j+1帧视频经过本申请实施例提供的目标跟踪方法后，得到的第j+1帧视频对应的跟踪查询向量集中，仍然存在该跟踪目标A，可以将box_j+1添加到上述Trj中。box用于表示查询向量对应的检测框，该检测框带有特征信息和坐标信息，以及跟踪得分信息等。

针对当前帧视频是待处理视频帧序列中的第一帧视频的情况，本申请实施例提供了如图4所示的一种对第一视频帧进行目标跟踪的处理方法流程图，该方法可以应用于上述目标跟踪方法中，该方法包括以下步骤：

步骤S402：通过骨干网络和编码器对待处理的视频帧序列中的第一视频帧进行处理，得到与第一视频帧对应的第一特征集；

步骤S404：将视频帧序列中第一帧的第一特征集和初始查询向量集均输入解码器，得到第一帧对应的跟踪查询向量初始集；其中，跟踪查询向量初始集包括初始查询向量集中的各个查询向量的分类得分和坐标信息；

第一帧视频是本申请实施例提供的方法中处理的第一个视频图像，因此此时不存在历史帧，或者可以视为历史帧的跟踪查询向量集是一个空集。基于此，将第一特征集和初始查询向量集输入解码器来获得第一帧对应的跟踪查询向量初始集。跟踪查询向量初始集可以理解为对第一帧视频图像进行目标检测，得到了各个跟踪目标的检测框对应的查询向量的集合，这些查询向量还包括了检测框的坐标信息和跟踪得分。

步骤S406：通过自注意力网络对第一帧对应的跟踪查询向量初始集中各个查询向量进行跟踪ID分配，将分配有跟踪ID的查询向量组成为第一帧的跟踪查询向量集。

上一步骤中得到的跟踪查询向量初始集输入自注意力网络，第一帧视频中的各个查询向量，如果其跟踪得分大于加入门限，该查询向量对应的目标属于首次被检测到，对这些查询向量分配跟踪ID，并将分配有跟踪ID的查询向量组成第一帧的跟踪查询向量集。将该第一帧的跟踪查询向量集可以作为目标跟踪方法中，后续其它帧视频(如与第一帧间隔在指定范围内的视频帧)的历史帧的跟踪查询向量集，进行其它帧的目标跟踪。

考虑到实际应用场景中目标之间可能存在相互遮挡，为了提升当前帧的查询向量的准确度，在上述实施例中获取到当前帧的跟踪查询向量集的基础上，本申请实施例还提供了一种更新当前帧中的查询向量的方法，如图5所示，该方法包括以下步骤：

步骤S502：将当前帧的跟踪查询向量集中的查询向量添加至跟踪ID对应的ID队列；其中，ID队列用于保存指定数目的连续帧中同一跟踪ID对应的查询向量；

ID队列可以以跟踪ID标识，每出现一个新的跟踪ID，则在电子设备上增加该跟踪ID对应的ID队列。为了避免ID队列中存储大量的历史帧的查询向量，本实施例对ID队列中的查询向量数量约束为指定数目，这个指定数目可以是4个，5个或6个等有限的查询向量，ID队列中的查询向量用于更新该跟踪ID对应的新的查询向量，以使新的查询向量中的特征信息更加准确。

步骤S504：对于每个ID队列，均根据该ID队列中的查询向量，更新当前帧中该ID队列的跟踪ID对应的查询向量。

对当前帧中的查询向量的更新，可以使用自注意力网络中的时间聚合模块(TAN)完成，参见图6所示的TAN的示意图，TAN包括：网络头层(MHSA，Multi-Head Self-Attention，多头自注意力层)、第一归一化层(Add&Norm，类归一化)、FFN(Feed-ForwardNetwork，前馈神经网络)层、第二归一化层(Add&Norm)等。通过将上述Q向量、K向量和V向量输入自注意力网络，由时间聚合模块进行处理，得到更新后的当前帧的跟踪查询向量。在一种可行的实施方式中，上述步骤S504中的根据该ID队列中的查询向量，更新当前帧中该ID队列的跟踪ID对应的查询向量的步骤，可以包括：

(1)融合该ID队列中的各个查询向量，得到融合查询向量；融合方式可以是直接相加求平均等方式。

(2)将融合查询向量作为自注意力网络的Q向量和K向量，将当前帧中该ID队列的跟踪ID对应的查询向量作为自注意力网络的V向量；

(3)将Q向量、K向量和V向量输入自注意力网络，得到当前帧中该ID队列的跟踪ID对应的查询向量。

在另一种可行的实施方式中，上述步骤S504中的根据该ID队列中的查询向量，更新当前帧中该ID队列的跟踪ID对应的查询向量的步骤，可以包括：

(1)融合该ID队列中的各个查询向量，得到融合查询向量；

(2)将融合查询向量作为自注意力网络的K向量和V向量，将当前帧中该ID队列的跟踪ID对应的查询向量作为自注意力网络的Q向量；

在实际应用场景中，上述融合该ID队列中的各个查询向量，得到融合查询向量的过程，可以是对相邻两帧的查询向量进行融合，也可以是对指定帧的查询向量进行融合，本申请实施例对此不作限定。

针对将相邻两帧的查询向量进行融合的情况，可以采用如图6所示的TAN进行，具体可以按照如下(a)-(c)所示的过程进行融合：

(a)对于第t-1帧和第t帧，当前帧为第t帧，当前帧的查询向量表示为

首先将当前帧的与前一帧的查询向量

相加，作为自注意力网络的Q和K向量：

(b)将当前帧的查询向量

作为v向量，然后按照下式计算自注意力网络值(MHSA)，并初步更新

其中σ_s代表softmax激活函数，d代表query的维度。

(c)进一步地，经过一个FFN层进行进一步细化特征，计算如下：

tgt₂＝LN(FC(σ_r(FC(tgt₁)))+tgt₁)

其中LN代表Layer Normalization(即，上述第一归一化层或第二归一化层)，tgt₁为第一归一化层的输出结果，tgt₂为第二归一化层输出的结果，FC代表全连接层，σ_r代表ReLU激活函数，tgt₂即为更新后的

针对将指定数目的帧的查询向量进行融合的情况，可以预先设定需要融合的历史帧的个数，本实施例以5个为例，对于当前帧，将当前帧的跟踪查询向量

以及之前的5个历史帧的所有的跟踪查询向量都放入一个ID队列

中，其中m表示需要融合的第几个历史帧，当当前帧t存入之后，会将其之前的第t-5帧的query删除。进一步地，将ID队列中的跟踪查询向量融合，并与当前帧的跟踪查询向量一起，通过网络头层处理，即如下公式计算当前帧t对应的

再经过第一归一化层、FFN层和第二归一化层处理，得到更新后的跟踪查询向量updated

表示融合了前5个历史帧的跟踪查询向量的融合查询向量。

图7为本申请实施例提供的一种目标追踪模型的结构示意图，该目标追踪模型包括骨干网络、Enc(编码器)、Dec(解码器)、QIM(自注意力网络)等，在图7中，待处理的视频帧序列包括0-N共N+1帧视频，为了便于理解，基于图7所示的目标追踪模型，参见图8所示的本申请实施例提供的一种目标跟踪方法流程示意图，介绍在实际应用场景中，如何通过本申请实施例提供的目标跟踪方法对视频帧序列进行目标识别及跟踪，为便于说明，本实施例中用query表示查询向量集：

步骤S802：将视频帧序列输入目标追踪模型，目标追踪模型首先对第一帧视频T₀进行处理，将T₀输入骨干网和Enc，得到T₀对应的第一特征集f₀。

步骤S804：将初始query和第一特征f₀，输入Dec，得到T₀对应的跟踪query初始集，以及跟踪query初始集中的query对应的分类得分以及回归位置。

步骤S806：将跟踪query初始集(包括跟踪得分和回归位置)输入QIM，得到T₀对应的对应的跟踪query集(图中未标示)。

至此，目标追踪模型完成了对T₀的目标跟踪，得到了对应于T₀的带有跟踪ID的query集合。接着可以将后续视频帧视为当前帧，对于每个当前帧，均执行下述操作：

步骤S808：目标追踪模型继续对当前频进行处理，将当前帧T_i输入骨干网和Enc，得到当前频T_i对应的第一特征集f_i。

步骤S810：将初始query和i-1帧对应的跟踪query进行组合，得到query合集(图7中

处)。

步骤S812：将query合集和第一特征及f_i输入Dec，得到T_i的跟踪query初始集，同时还得到T_i的跟踪query初始集对应的分类得分以及回归位置。

步骤S814：将T_i的跟踪query初始集输入QIM，经QIM对跟踪query的分类处理，将跟踪query分为带有跟踪ID的query和不带跟踪ID的query两类，分别用退出门限和加入门限衡量，确定出维持有效的跟踪query，即当前帧对应的跟踪query(图7中未标示)。至此，目标追踪模型完成了对当前帧的目标跟踪。

例如，对于T_i帧，将T_i-1帧对应的

和空query(qe)合并后输入Dec，得到带有分数的

被切分为两组，一个是不带有ID的

另一个是带有ID的

和

分别经上述加入门限和退出门限对应的过滤器过滤，确定该query是否加入跟踪队列。具体地，可以通过以下公式确定能够进入跟踪队列的

其中，s_k是

的分类得分，T_en是加入门限。

进一步地，可以通过以下公式计算得到可以继续在跟踪队列中保持跟踪的

其中，s_k是

的分类得分，T_ex是退出门限。

作为一个示例，假设经过上述公式计算得到，目标3的query在

中的分数高于T_en，则该query被保留，其余小于T_en的

被删除：

目标追踪模型采用步骤S808-S814的方法，处理视频帧序列中的后续帧，当完成第N+1帧视频的处理后，完成对待跟踪视频帧序列的目标跟踪。

在上述完成待跟踪视频帧序列的目标跟踪后，针对每个跟踪目标，会得到一个跟踪query集，针对整个视频帧序列，得到一个跟踪query集序列。

基于上述方法实施例，本发明实施例还提供了一种目标跟踪装置，参见图9所示，该装置应用于电子设备，电子设备中预存有训练完成的目标追踪模型，该目标追踪模型包括骨干网络、编码器、解码器和自注意力网络，上述装置包括特征提取模块901、组合模块902、解码器处理模块903和跟踪集获取模块904：

特征提取模块901，用于通过骨干网络和编码器对待处理的视频帧序列中的视频帧进行处理，得到与视频帧对应的第一特征集；

组合模块902，用于组合初始查询向量集和历史帧的跟踪查询向量集，得到查询向量合集；

解码器处理模块903，用于将查询向量合集和当前帧的第一特征集输入解码器，得到当前帧对应的跟踪查询向量初始集；

跟踪集获取模块904，用于通过自注意力网络对当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别，将带有跟踪ID的查询向量组成为第二帧的跟踪查询向量集。

上述装置中，通过训练完成的目标追踪模型的骨干网络和编码器对待处理的视频帧序列中的视频帧进行处理，得到与视频帧对应的第一特征集；组合初始查询向量集和历史帧的跟踪查询向量集，得到查询向量合集；将查询向量合集和当前帧的第一特征集输入目标追踪模型的解码器，得到当前帧对应的跟踪查询向量初始集；通过目标追踪模型的自注意力网络对当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别，将带有跟踪ID的查询向量组成为当前帧的跟踪查询向量集，这种通过目标追踪模型得到当前帧的跟踪查询向量集的方式，是一种端到端的处理方式，无需对视频帧先进行目标检测，再对检测结果进行后处理从而得到识别结果，即可一次性得到视频帧对应的跟踪信息(即跟踪查询向量集)，有效提升了目标跟踪对象的识别效率；同时，该目标追踪模型的解码器还兼顾了历史帧的跟踪查询向量集，给出当前帧对应的跟踪查询向量初始集，进而使得自注意力网络能够给出更准确的维持ID判别处理，得到的跟踪信息更准确可靠，进而提高了跟踪目标的准确度。

上述跟踪集获取模块904还用于：对于当前帧对应的跟踪查询向量初始集中的第一类查询向量，基于预设的加入门限和第一类查询向量的分类得分进行跟踪ID分配；其中，第一类查询向量为初始查询向量集对应的查询向量；对于当前帧对应的跟踪查询向量初始集中的第二类查询向量，基于预设的退出门限和第二类查询向量的分类得分进行维持ID判别；其中，第二类查询向量为历史帧的跟踪查询向量集对应的查询向量。

上述基于预设的加入门限和第一类查询向量的分类得分进行跟踪ID分配的过程，包括：标记第一类查询向量中的分类得分大于预设的加入门限的查询向量；判断被标记的查询向量在当前帧之前的历史帧中被标记的次数是否大于第一次数阈值，如果是，为被标记的查询向量分配跟踪ID。

上述基于预设的退出门限和第二类查询向量的分类得分进行维持ID判别的过程，包括：标记第二类查询向量的分类得分小于预设的退出门限的查询向量；判断被标记的查询向量在当前帧之前的历史帧中被标记的次数是否大于第二次数阈值，如果是，取消被标记的查询向量的跟踪ID。

参见图10所示的另一种目标跟踪装置的结构示意图，在上述装置的基础上，该装置还包括：查询向量添加模块1001，用于将当前帧的跟踪查询向量集中的查询向量添加至跟踪ID对应的ID队列；其中，ID队列用于保存指定数目的连续帧中同一跟踪ID对应的查询向量；查询向量更新模块1002，用于对于每个ID队列，均根据该ID队列中的查询向量，更新当前帧中该ID队列的跟踪ID对应的查询向量。

上述查询向量更新模块1002还用于：融合该ID队列中的各个查询向量，得到融合查询向量；将融合查询向量作为自注意力网络的Q向量和K向量，将当前帧中该ID队列的跟踪ID对应的查询向量作为自注意力网络的V向量；将Q向量、K向量和V向量输入自注意力网络，得到当前帧中该ID队列的跟踪ID对应的查询向量。

上述查询向量更新模块1002还用于：融合该ID队列中的各个查询向量，得到融合查询向量；将融合查询向量作为自注意力网络的K向量和V向量，将当前帧中该ID队列的跟踪ID对应的查询向量作为自注意力网络的Q向量；将Q向量、K向量和V向量输入自注意力网络，得到当前帧中该ID队列的跟踪ID对应的查询向量。

上述装置还包括：第一帧跟踪查询向量初始集获取模块1011，用于将视频帧序列中第一帧的第一特征集和初始查询向量集均输入解码器，得到第一帧对应的跟踪查询向量初始集；其中，跟踪查询向量初始集包括初始查询向量集中的各个查询向量的分类得分和坐标信息；第一帧跟踪查询向量集组成模块1012，用于通过自注意力网络对第一帧对应的跟踪查询向量初始集中各个查询向量进行跟踪ID分配，将分配有跟踪ID的查询向量组成为第一帧的跟踪查询向量集。

上述装置中的初始查询向量集采用以下过程确定：采用与待处理的视频帧序列对应的应用场景匹配的默认查询向量集作为预设的初始查询向量集；或者，对待处理的视频帧序列中的指定帧进行目标检测，基于目标检测结果确定预设的初始查询向量集。

上述特征提取模块901还用于：将待处理的视频帧序列输入骨干网络，得到与视频帧序列中的视频帧对应的基础特征集；将视频帧对应的基础特征集输入编码器，得到视频帧对应的第一特征集。

本申请实施例提供的目标跟踪装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，上述装置的实施例部分未提及之处，可参考前述目标跟踪方法实施例中的相应内容。

基于MOT17数据集，将本申请实施例提供的目标追踪模型与其他常见模型进行了对比实验，实验结果如下表1所示：

表1

模型名称	MOTA
		MOTDT	50.9
FAMNET	52.0
		Tracktor	52
TrackFormer(ResNet101)	54.6
		本申请实施例提供的目标追踪模型(ResNet50)	62.5

通过上述表1中的MOTA(Multi-Object Tracking Accuracy，多目标跟踪准确度)可见，本申请实施例提供的目标追踪模型的结果要优于其他模型。

本发明实施例还提供了一种电子设备，如图11所示，为该电子设备的结构示意图，其中，该电子设备包括处理器1101和存储器1102，该存储器1102存储有能够被该处理器1101执行的计算机可执行指令，该处理器1101执行该计算机可执行指令以实现上述目标跟踪方法。

在图11示出的实施方式中，该电子设备还包括总线1103和通信接口1104，其中，处理器1101、通信接口1104和存储器1102通过总线1103连接。

其中，存储器1102可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口1104(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线1103可以是ISA(IndustryStandard Architecture，工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线1103可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器1101可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1101可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)、神经网络处理器(Neural-networkProcessing Unit，简称NPU)等；还可以是图形处理器(Graphics Processing Unit，简称GPU)、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器1101读取存储器中的信息，结合其硬件完成前述实施例的目标跟踪方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令在被处理器调用和执行时，该计算机可执行指令促使处理器实现上述目标跟踪方法，具体实现可参见前述方法实施例，在此不再赘述。

本发明实施例所提供的目标跟踪方法、装置和电子***的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种目标跟踪方法，其特征在于，所述方法应用于电子设备，所述电子设备预存有训练完成的目标追踪模型，所述目标追踪模型包括骨干网络、编码器、解码器和自注意力网络，所述方法包括：

通过所述骨干网络和所述编码器对待处理的视频帧序列中的视频帧进行处理，得到与所述视频帧对应的第一特征集；

组合初始查询向量集和历史帧的跟踪查询向量集，得到查询向量合集；

将所述查询向量合集和当前帧的第一特征集输入所述解码器，得到所述当前帧对应的跟踪查询向量初始集；

通过所述自注意力网络对所述当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别，将带有跟踪ID的查询向量组成为所述当前帧的跟踪查询向量集。

2.根据权利要求1所述的方法，其特征在于，通过所述自注意力网络对所述当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别的步骤，包括：

对于所述当前帧对应的跟踪查询向量初始集中的第一类查询向量，基于预设的加入门限和所述第一类查询向量的分类得分进行跟踪ID分配；其中，所述第一类查询向量为所述初始查询向量集对应的查询向量；

对于所述当前帧对应的跟踪查询向量初始集中的第二类查询向量，基于预设的退出门限和所述第二类查询向量的分类得分进行维持ID判别；其中，所述第二类查询向量为所述历史帧的跟踪查询向量集对应的查询向量。

3.根据权利要求2所述的方法，其特征在于，基于预设的加入门限和所述第一类查询向量的分类得分进行跟踪ID分配的步骤，包括：

标记所述第一类查询向量中的分类得分大于预设的加入门限的查询向量；

判断被标记的查询向量在所述当前帧之前的历史帧中被标记的次数是否大于第一次数阈值，如果是，为所述被标记的查询向量分配跟踪ID。

4.根据权利要求2所述的方法，其特征在于，基于预设的退出门限和所述第二类查询向量的分类得分进行维持ID判别的步骤，包括：

标记所述第二类查询向量的分类得分小于预设的退出门限的查询向量；

判断被标记的查询向量在所述当前帧之前的历史帧中被标记的次数是否大于第二次数阈值，如果是，取消所述被标记的查询向量的跟踪ID。

5.根据权利要求1所述的方法，其特征在于，所述将带有跟踪ID的查询向量组成为所述当前帧的跟踪查询向量集的步骤之后，所述方法还包括：

将所述当前帧的跟踪查询向量集中的查询向量添加至跟踪ID对应的ID队列；其中，所述ID队列用于保存指定数目的连续帧中同一跟踪ID对应的查询向量；

对于每个所述ID队列，均根据该ID队列中的查询向量，更新所述当前帧中该ID队列的跟踪ID对应的查询向量。

6.根据权利要求5所述的方法，其特征在于，根据该ID队列中的查询向量，更新所述当前帧中该ID队列的跟踪ID对应的查询向量的步骤，包括：

融合所述该ID队列中的各个查询向量，得到融合查询向量；

将融合查询向量作为所述自注意力网络的Q向量和K向量，将所述当前帧中该ID队列的跟踪ID对应的查询向量作为所述自注意力网络的V向量；

将所述Q向量、K向量和V向量输入所述自注意力网络，得到所述当前帧中该ID队列的跟踪ID对应的查询向量。

7.根据权利要求5所述的方法，其特征在于，根据该ID队列中的查询向量，更新所述当前帧中该ID队列的跟踪ID对应的查询向量的步骤，包括：

融合所述该ID队列中的各个查询向量，得到融合查询向量；

将融合查询向量作为所述自注意力网络的K向量和V向量，将所述当前帧中该ID队列的跟踪ID对应的查询向量作为所述自注意力网络的Q向量；

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述视频帧序列中第一帧的第一特征集和初始查询向量集均输入所述解码器，得到所述第一帧对应的跟踪查询向量初始集；其中，所述跟踪查询向量初始集包括所述初始查询向量集中的各个查询向量的分类得分和坐标信息；

通过所述自注意力网络对所述第一帧对应的跟踪查询向量初始集中各个查询向量进行跟踪ID分配，将分配有跟踪ID的查询向量组成为所述第一帧的跟踪查询向量集。

9.根据权利要求1所述的方法，其特征在于，所述初始查询向量集采用以下方式确定：

采用与所述待处理的视频帧序列对应的应用场景匹配的默认查询向量集作为预设的初始查询向量集；或者，

对所述待处理的视频帧序列中的指定帧进行目标检测，基于目标检测结果确定预设的初始查询向量集。

10.根据权利要求1所述的方法，其特征在于，通过所述骨干网络和所述编码器获取待处理的视频帧序列中每帧均分别对应的第一特征集的步骤，包括：

将待处理的视频帧序列输入所述骨干网络，得到与所述视频帧序列中的视频帧对应的基础特征集；

将所述视频帧对应的基础特征集输入所述编码器，得到所述视频帧对应的第一特征集。

11.一种目标跟踪装置，其特征在于，所述装置应用于电子设备，所述电子设备预存有训练完成的目标追踪模型，所述目标追踪模型包括骨干网络、编码器、解码器和自注意力网络，所述装置包括：

特征提取模块，用于通过所述骨干网络和所述编码器对待处理的视频帧序列中的视频帧进行处理，得到与所述视频帧对应的第一特征集；

组合模块，用于组合初始查询向量集和历史帧的跟踪查询向量集，得到查询向量合集；

解码器处理模块，用于将所述查询向量合集和当前帧的第一特征集输入所述解码器，得到所述当前帧对应的跟踪查询向量初始集；

跟踪集获取模块，用于通过所述自注意力网络对所述当前帧对应的跟踪查询向量初始集中的查询向量进行跟踪ID分配和维持ID判别，将带有跟踪ID的查询向量组成为所述第二帧的跟踪查询向量集。

12.一种电子***，其特征在于，所述电子***包括：图像采集设备、处理设备和存储装置；

所述图像采集设备，用于获取待处理的视频帧序列；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理设备运行时执行如权利要求1至10任一项所述的目标跟踪方法。

13.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理设备运行时执行如权利要求1至10任一项所述的目标跟踪方法的步骤。