CN112950675A

CN112950675A - 一种目标跟踪的方法、装置、电子设备及存储介质

Info

Publication number: CN112950675A
Application number: CN202110291485.4A
Authority: CN
Inventors: 钟华平; 陈泽都; 何聪辉
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2021-06-11

Abstract

本公开提供了一种目标跟踪的方法、装置、电子设备及存储介质，其中，该方法包括：获取标注有目标边界框的初始视频帧、以及待进行目标跟踪的目标视频帧；目标边界框中包含有目标对象；从初始视频帧和目标视频帧中分别提取第一特征图和第二特征图；基于第一特征图和第二特征图，确定融合后特征图，并基于融合后特征图生成针对目标视频帧的至少一个初始预测边界框；根据目标视频帧的至少一个初始预测边界框以及融合后特征图，确定针对目标视频帧的目标跟踪结果；其中，目标跟踪结果包括从至少一个初始预测边界框中选取的目标边界框。本公开利用融合后特征图对初始预测边界框进行筛选，进而选取到更为准确的目标对象所处位置，跟踪效果更佳。

Description

一种目标跟踪的方法、装置、电子设备及存储介质

技术领域

本公开涉及目标跟踪技术领域，具体而言，涉及一种目标跟踪的方法、装置、电子设备及存储介质。

背景技术

目标跟踪作为计算机视觉中的一个重要研究方向，被广泛应用在各个领域，例如，视频监控、人机交互、无人驾驶等。现有的目标跟踪任务可以是根据视频初始帧给定的目标状态，例如，用边界框表示目标所在的位置，以预测随后帧的目标状态。

然而，现有方法由于仅仅给出目标的初始状态，并且存在着相似的物体，背景复杂，非刚性物体形变和快速运动等问题，这使得所预测的目标状态的准确性较差，跟踪效果不佳。

发明内容

本公开实施例至少提供一种目标跟踪的方法、装置、电子设备及存储介质，提升目标状态预测的准确性，目标跟踪效果更佳。

第一方面，本公开实施例提供了一种目标跟踪的方法，所述方法包括：

获取标注有目标边界框的初始视频帧、以及待进行目标跟踪的目标视频帧；所述目标边界框中包含有目标对象；

从所述初始视频帧和所述目标视频帧中分别提取第一特征图和第二特征图；

基于所述第一特征图和所述第二特征图，确定融合后特征图，并基于所述融合后特征图生成针对所述目标视频帧的至少一个初始预测边界框；

根据所述目标视频帧的至少一个初始预测边界框以及所述融合后特征图，确定针对所述目标视频帧的目标跟踪结果；其中，所述目标跟踪结果包括从所述至少一个初始预测边界框中选取的包含所述目标对象的目标边界框。

采用上述目标跟踪的方法，在获取到标注有目标边界框的初始视频帧以及待进行目标跟踪的目标视频帧的情况下，可以先进行特征提取，这样，基于提取出的第一特征图和第二特征图可以得到融合后特征图。该融合后特征图融合有初始视频帧及该初始视频帧中的目标边界框的相关信息，还融合有目标视频帧的相关信息，这样，即可以基于融合后特征图生成针对目标视频帧的至少一个初始预测边界框，初始预测边界框可以指示的是目标对象在目标视频帧中可能出现的位置。为了在目标视频帧中确定包含目标对象的目标边界框，可以将融合后特征图与初始预测边界框进行相关运算，也即，可以进一步利用融合后特征图对初始预测边界框进行筛选，进而选取到更为准确的目标对象所处位置，使得跟踪效果更佳。

在一种可能的实施方式中，所述根据所述目标视频帧的至少一个初始预测边界框以及所述融合后特征图，确定针对所述目标视频帧的目标跟踪结果，包括：

基于第一预设卷积参数对所述融合后特征图进行第一卷积运算，得到第一卷积后特征图；

利用训练好的第一对齐卷积神经网络、以及所述目标视频帧的至少一个初始预测边界框，对所述第一卷积后特征图进行对齐卷积运算，得到网络输出的第一卷积后特征图；

确定所述网络输出的第一卷积后特征图所指示的所述至少一个初始预测边界框中每个初始预测边界框包含目标对象的概率值；

从所述至少一个初始预测边界框中选取概率值最大的初始预测边界框作为所述包含目标对象的目标边界框。

这里，可以利用训练好的第一对齐卷积神经网络进行对齐卷积运算，这里的对齐卷积运算是初始预测边界框对第一卷积后特征图进行卷积运算，也即，可以基于初始预测边界框来决定卷积采样位置，相对直接进行卷积而言，这里参照了初始预测边界框的上下文信息，使得所确定的目标对象的位置更为准确。

在一种可能的实施方式中，所述利用训练好的第一对齐卷积神经网络、以及所述目标视频帧的至少一个初始预测边界框，对所述第一卷积后特征图进行对齐卷积运算，得到网络输出的第一卷积后特征图，包括：

确定所述训练好的第一对齐卷积神经网络对应的卷积核参数；

利用所述卷积核参数对所述第一卷积后特征图进行遍历；

在遍历至与所述目标视频帧的任一初始预测边界框对应的第一卷积后特征区域的情况下，将所述卷积核参数指示的卷积核与所述第一卷积后特征区域进行卷积运算，得到网络输出的第一卷积后特征图；

其中，所述第一卷积后特征区域包含在所述第一卷积后特征图中，且与所述初始预测边界框的尺寸相同。

这里，可以采用遍历卷积的方式实现对齐卷积运算。在运算的过程中，可以将将卷积核参数指示的卷积核与第一卷积后特征区域进行卷积运算，由于第一卷积后特征区域与所述初始预测边界框的尺寸相同，这样所参与卷积运算的可以是第一卷积后特征图中初始预测边界框所对应的顶点位置，通过这一运算过程还可以很好的捕捉到边界框的几何信息，这样所确定的目标对象的位置也更为准确。

在一种可能的实施方式中，所述方法还包括：

基于第二预设卷积参数对所述融合后特征图进行第二卷积运算，得到第二卷积后特征图；

利用训练好的第二对齐卷积神经网络以及所述目标视频帧中包含目标对象的目标边界框，对所述第二卷积后特征图进行对齐卷积运算，得到网络输出的第二卷积后特征图；

确定所述网络输出的第二卷积后特征图所指示的针对所述目标边界框的调整量；

基于所述网络输出的所述调整量对所述目标边界框进行调整，得到调整后的目标边界框。

这里，可以利用训练好的第二对齐卷积神经网络进行对齐卷积运算，这里的对齐卷积运算是目标边界框对第二卷积后特征图进行卷积运算，也即，可以基于参考第二卷积后特征图对目标边界框进行调整，使得调整后的目标边界框可以更为接近目标对象。

在一种可能的实施方式中，所述待进行目标跟踪的目标视频帧中标注有包含目标对象的目标边界框；按照如下步骤训练所述第一对齐卷积神经网络和所述第二对齐卷积神经网络：

将生成的针对所述目标视频帧的至少一个初始预测边界框以及第一卷积后特征图输入至待训练的第一对齐卷积神经网络，得到网络输出的第一卷积后特征图；确定所述网络输出的第一卷积后特征图所指示的所述至少一个初始预测边界框中每个初始预测边界框包含目标对象的概率值；将概率值最大的初始预测边界框的位置信息与针对所述待进行目标跟踪的目标视频帧进行标注的目标边界框的位置信息进行比对，得到第一比对结果；

以及，将生成的针对所述目标视频帧的至少一个初始预测边界框以及第二卷积后特征图输入至待训练的第二对齐卷积神经网络，得到网络输出的第二卷积后特征图；确定所述网络输出的第二卷积后特征图所指示的针对至少一个初始预测边界框中的每个初始预测边界框所需的调整量；根据所述调整量对每个初始预测边界框进行调整得到的调整后的初始预测边界框的位置信息，与针对所述待进行目标跟踪的目标视频帧进行标注的目标边界框的位置信息进行比对，得到第二比对结果；

若所述第一比对结果和第二对比结果中的任一比对结果为不一致，则对所述第一对齐卷积神经网络和所述第二对齐卷积神经网络中的至少一个神经网络进行参数调整。

在一种可能的实施方式中，所述从所述初始视频帧和所述目标视频帧中分别提取第一特征图和第二特征图，包括：

利用训练好的特征提取网络对所述初始视频帧和所述目标视频帧分别进行特征提取，得到第一特征图和第二特征图。

在一种可能的实施方式中，所述方法还包括：

确定与所述初始视频帧对应的目标蒙版特征；其中，所述初始视频帧中所述目标边界框之内视频帧区域的目标蒙版特征与所述目标边界框之外视频帧区域的目标蒙版特征不同；

基于确定的所述目标蒙版特征对所述第一特征图进行更新，得到更新后的第一特征图。

这里，可以基于目标蒙版特征对目标对象所在视频帧区域的图像特征进行强调，也即，可以仅将目标对象作为前景，将所有的非目标对象作为背景，这样，在后续的目标对象跟踪阶段可以更为专注于对目标对象的跟踪，跟踪效果更佳。

在一种可能的实施方式中，所述基于所述第一特征图和所述第二特征图，确定融合后特征图，包括：

利用训练好的互相关网络对所述第一特征图和所述第二特征图进行互相关运算，得到融合后特征图。

在一种可能的实施方式中，所述利用训练好的互相关网络对所述第一特征图和所述第二特征图进行互相关运算，得到融合后特征图，包括：

将所述第一特征图作为所述训练好的互相关网络对应的卷积核；

利用所述卷积核对所述第二特征图进行遍历，并确定每个遍历位置处的卷积结果；

将各个遍历位置处的卷积结果进行组合，得到融合后特征图。

这里，可以将标注有目标边界框的初始视频帧所对应的第一特征图作为卷积核，进而通过对第二特征图进行遍历卷积来确定目标视频帧中与初始视频帧相关的视频帧区域，这些高相关度的视频帧区域一定程度上具有目标对象的可能性更高，进而使得融合后特征图可以更好的指导有关初始预测边界框的确定。

第二方面，本公开实施例还提供了一种目标跟踪的装置，所述装置包括：

获取模块，用于获取标注有目标边界框的初始视频帧、以及待进行目标跟踪的目标视频帧；所述目标边界框中包含有目标对象；

提取模块，用于从所述初始视频帧和所述目标视频帧中分别提取第一特征图和第二特征图；

融合模块，用于基于所述第一特征图和所述第二特征图，确定融合后特征图，并基于所述融合后特征图生成针对所述目标视频帧的至少一个初始预测边界框；

跟踪模块，用于根据所述目标视频帧的至少一个初始预测边界框以及所述融合后特征图，确定针对所述目标视频帧的目标跟踪结果；其中，所述目标跟踪结果包括从所述至少一个初始预测边界框中选取的包含所述目标对象的目标边界框。

第三方面，本公开实施例还提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如第一方面及其各种实施方式任一所述的目标跟踪的方法的步骤。

第四方面，本公开实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如第一方面及其各种实施方式任一所述的目标跟踪的方法的步骤。

关于上述目标跟踪的装置、电子设备、及计算机可读存储介质的效果描述参见上述目标跟踪的方法的说明，这里不再赘述。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种目标跟踪的方法的流程图；

图2示出了本公开实施例所提供的一种目标跟踪的方法中对齐卷积的计算示意图；

图3示出了本公开实施例所提供的一种目标跟踪的方法的应用示意图；

图4示出了本公开实施例所提供的一种目标跟踪的装置的示意图；

图5示出了本公开实施例所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现，现有的目标跟踪任务可以是根据视频初始帧给定的目标状态，例如，用边界框表示目标所在的位置，以预测随后帧的目标状态。

基于上述研究，本公开提供了一种目标跟踪的方法、装置、电子设备及存储介质，提升目标状态预测的准确性，目标跟踪效果更佳。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种目标跟踪的方法进行详细介绍，本公开实施例所提供的目标跟踪的方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该目标跟踪的方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1所示，为本公开实施例提供的目标跟踪的方法的流程图，方法包括步骤S101～S104，其中：

S101：获取标注有目标边界框的初始视频帧、以及待进行目标跟踪的目标视频帧；目标边界框中包含有目标对象；

S102：从初始视频帧和目标视频帧中分别提取第一特征图和第二特征图；

S103：基于第一特征图和第二特征图，确定融合后特征图，并基于融合后特征图生成针对目标视频帧的至少一个初始预测边界框；

S104：根据目标视频帧的至少一个初始预测边界框以及融合后特征图，确定针对目标视频帧的目标跟踪结果；其中，目标跟踪结果包括从至少一个初始预测边界框中选取的包含目标对象的目标边界框。

这里，为了便于理解本公开实施例提供的目标跟踪的方法，首先可以对该方法的应用场景进行简单描述。上述目标跟踪的方法主要可以应用于各种领域下的目标跟踪，例如可以是在人机交互领域、视频监控领域、智能驾驶领域、机器人领域内实现对目标对象的跟踪。这里的目标对象可以是人，也可以是物，例如，车辆。本公开实施例对此不做具体的限制。

考虑到目前的目标跟踪方法可以是基于初始帧所确定的有关目标的初始状态来进行随后帧的目标状态的预测，由于仅给出的是目标的初始状态，这对于存在相似目标、背景混杂、目标快速运动等难题的情况很难准确预测目标在随后帧的状态。

正是为了解决上述问题，本公开实施例才提供了一种基于特征融合进行初始预测边界框的筛选以确定最终的目标跟踪结果的方案，使得所预测的目标状态的准确性较好，跟踪效果佳。

其中，对于标注有目标边界框的初始视频帧而言，目标边界框可以是手动选择的，也可以是利用相关的标注工具标注而成的。在具体应用中，可以将长方形框作为目标边界框。这里的初始视频帧可以是一个视频片段中首次出现目标对象的视频帧，该视频帧可以是视频片段中的第一个视频帧(即首帧)，还可以是视频片段中间的某一个视频帧，可以依据不同的应用场景来确定，在此不做具体的限制。

另外，这里待进行目标跟踪的目标视频帧可以是初始视频帧之后的视频帧，例如，可以是初始视频帧之后的第二个视频帧、第三个视频帧等，本公开实施例提供的目标跟踪的方法旨在从目标视频帧中确定出目标对象的位置状态等信息。

需要说明的是，在实际应用中，考虑到初始视频帧和目标视频帧的分别率通常会比较高，如果直接进行后续的相关运算，将很可能导致运算量较大，因而，本公开实施例可以结合实际场景对初始视频帧和目标视频帧进行剪切处理。例如，对于初始视频帧可以截取以目标对象所在目标边界框为中心的局部图像。再如，在目标对象的尺寸比较小的情况下，可以对上述截取的局部图像进行放大，与此同时，还可以对目标视频帧进行同步放大。

考虑到初始视频帧中有关目标对象的特征对于目标视频帧中确定目标对象的相关信息的关键作用，这里，可以先从初始视频帧和目标视频帧中分别提取出第一特征图和第二特征图(即从初始视频帧中提取出第一特征图，从目标视频帧中提取出第二特征图)，而后确定融合后特征图。

上述两个特征图(即第一特征图和第二特征图)可以是从对应的视频帧中提取的特征集合，例如，可以是提取的有关目标对象的位置、内容、颜色等特征，还可以是有关视频帧背景的相关特征，本公开实施例对此不做具体的限制。

其中，有关初始视频帧和目标视频帧的特征提取过程，可以是基于训练好的特征提取网络提取得到的，还可以是基于图像处理方法直接从视频帧中提取得到的。

这里，考虑到特征提取网络可以挖掘出更为深层次的特征，本公开实施例可以选用训练好的特征提取网络来提取上述两个特征图，其中，上述特征提取网络可以是基于ResNet-50训练得到的。

在进行特征提取的过程中，为了充分的利用初始视频帧中的目标边界框，这里，可以针对初始视频帧确定对应的目标蒙版特征。这里，初始视频帧中目标边界框之内视频帧区域的目标蒙版特征与目标边界框之外视频帧区域的目标蒙版特征不同，例如，可以将目标边界框之内视频帧区域的目标蒙版特征的值设置为1，目标边界框之外视频帧区域的目标蒙版特征的值设置为-1，这时可以很好的将目标对象与背景进行区分，这样，所更新得到的第一特征图可以更为专注的体现目标对象的特征。

为了更好的在目标视频帧中确定目标对象的位置状态等信息，本公开实施例对于提取好的两个特征图，可以先进行特征融合，得到融合后特征图。

考虑到这里进行特征融合的目的在于在目标视频帧中搜索有关目标对象的信息，因而，这里可以基于互相关运算来实现融合。本公开实施例中可以基于互相关网络对上述两个特征图进行互相关运算，以得到融合后特征图。

其中，本公开实施例可以按照如下步骤实现互相关运算：

步骤一、将第一特征图作为训练好的互相关网络对应的卷积核；

步骤二、利用卷积核对第二特征图进行遍历，并确定每个遍历位置处的卷积结果；

步骤三、将各个遍历位置处的卷积结果进行组合，得到融合后特征图。

这里，可以将第一特征图作为互相关网络对应的卷积核对第二特征图进行遍历卷积，这样，对于每一个遍历位置而言，均可以确定一个卷积结果，该卷积结果一定程度上可以表征初始视频帧中的目标对象与目标视频帧的相关程度，卷积值越大，对应的相关程度也越高，同理，卷积值越小，对应的相关程度也越低。将各个卷积结果按照各个遍历位置进行组合，即可以得到融合后特征图。

基于融合后特征图可以从目标视频帧中确定出若干个相关程度比较高的目标位置，该目标位置可以对应的是针对目标视频帧的初始预测边界框。

对于每个初始预测边界框而言，本公开实施例可以进一步基于融合后特征图来确定这一初始预测边界框包含目标对象的可能性，这里可以选取出可能性最高的初始预测边界框作为目标边界框。具体可以按照如下步骤实现：

步骤一、基于第一预设卷积参数对融合后特征图进行第一卷积运算，得到第一卷积后特征图；

步骤二、利用训练好的第一对齐卷积神经网络、以及目标视频帧的至少一个初始预测边界框，对第一卷积后特征图进行对齐卷积运算，得到网络输出的第一卷积后特征图；

步骤三、确定网络输出的第一卷积后特征图所指示的至少一个初始预测边界框中每个初始预测边界框包含目标对象的概率值；

步骤四、从至少一个初始预测边界框中选取概率值最大的初始预测边界框作为包含目标对象的目标边界框。

这里，有关初始预测边界框和融合后特征图之间的运算，主要指的是基于融合后特征图所确定的第一卷积后特征图与初始预测边界框之间的对齐卷积运算。通过对齐卷积运算可以捕获到初始预测边界框所对应第一卷积后特征区域的几何信息和上下文信息，这样所确定的网络输出的第一卷积后特征图可以确定出每个初始预测边界框所包含目标对象的概率值。

对于包含目标对象的概率值越大的初始预测边界框，其确定的目标视频帧中目标对象的位置状态信息也就越准确。

本公开实施例中，可以按照如下步骤进行对齐卷积运算，以确定第一对齐卷积神经网络输出的第一卷积后特征图。

步骤一、确定训练好的第一对齐卷积神经网络对应的卷积核参数；

步骤二、利用卷积核参数对第一卷积后特征图进行遍历；

步骤三、在遍历至与目标视频帧的任一初始预测边界框对应的第一卷积后特征区域的情况下，将卷积核参数指示的卷积核与第一卷积后特征区域进行卷积运算，得到网络输出的第一卷积后特征图；其中，第一卷积后特征区域包含在第一卷积后特征图中，且与初始预测边界框的尺寸相同。

这里，在确定第一对齐卷积神经网络对应的卷积核参数的情况下，可以利用这一卷积核参数对第一卷积后特征图进行遍历卷积，在遍历至与目标视频帧的任一初始预测边界框对应的第一卷积后特征区域的情况下，将卷积核参数指示的卷积核与第一卷积后特征区域进行卷积运算，也即，这里可以是基于初始预测边界框进行采样，而后进行卷积运算。

为了便于说明上述对齐卷积的过程，接下来可以结合图2进行示例说明。

在针对第一对齐卷积神经网络确定一个3*3卷积核的情况下，利用这一卷积核对第一卷积后特征图进行遍历卷积。在遍历到如图2所示的初始预测边界框所对应的第一卷积后特征区域的情况下，这里，针对卷积核的左上方顶点而言，所对应卷积的可以是第一卷积后特征区域的左上方顶点，如箭头示意图所示，针对卷积核的其它顶点而言，可以按照如图所示的采样位置进行卷积运算。

以一个卷积核的左上方顶点对应的遍历位置(x，y)为例，从当前位置到初始预测边界框的左侧、顶部、右侧和底部的距离为l'，t'，r'，b'。对齐卷积的九个采样位置将是(x-l'，y-t')，(x，y-t')，(x+r'，y-t')，(x-l'，y)，(x，y)，(x+r'，y)，(x-l'，y+b')，(x，y+b')，(x+r'，y+b')。可知的是，通过初始预测边界框所对应的第一卷积后特征区域的几何信息以及上下文信息的捕获，使得所确定的概率矩阵中各个概率值的取值也更为准确，进而使得所确定的目标边界框更为准确。

本公开实施例提供的目标跟踪的方法不仅可以确定出更为准确的目标边界框，还可以通过边界框调整策略对目标边界框进行调整，以得到调整后的目标边界框，具体可以通过如下步骤来实现：

步骤一、基于第二预设卷积参数对融合后特征图进行第二卷积运算，得到第二卷积后特征图；

步骤二、利用训练好的第二对齐卷积神经网络以及目标视频帧中包含目标对象的目标边界框，对第二卷积后特征图进行对齐卷积运算，得到网络输出的第二卷积后特征图；

步骤三、确定网络输出的第二卷积后特征图所指示的针对目标边界框的调整量；

步骤四、基于网络输出的调整量对目标边界框进行调整，得到调整后的目标边界框。

这里，有关目标边界框和融合后特征图之间的运算，主要指的是基于融合后特征图所确定的第二卷积后特征图与目标边界框之间的对齐卷积运算。通过对齐卷积运算可以捕获到目标边界框所对应第二卷积后特征区域的几何信息和上下文信息，这样所确定的网络输出的第二卷积后特征图可以确定出目标边界框的调整量。

基于确定出的调整量对目标边界框进行调整可以得到调整后的目标边界框。

其中，有关上述目标边界框与第二卷积后特征图之间的对齐卷积运算可以参照上述有关初始预测边界框与第一卷积后特征图之间的对齐卷积运算的过程，在此不再赘述。

需要说明的是，虽然这里的第二卷积运算也是对融合后特征图得到的，但由于这里的第二预设卷积参数和上述第一预设卷积参数不同，因而，通过第二卷积运算所得到的第二卷积后特征图与上述通过第一卷积运算所得到的第一卷积后特征图的特征取值并不相同。

在具体应用中，考虑到第一卷积后特征图和第二卷积后特征图均需要兼顾边界框来进行对齐卷积运算，因而，这里的第一卷积后特征图和第二卷积后特征图的大小可以相同，例如，均可以是25*25*256。有关第一预设卷积参数和第二预设卷积参数，其所对应的卷积核可以相同，例如，均可以是3*3，但卷积核的具体取值可以不同。

本公开实施例中，在确定待进行目标跟踪的目标视频帧中标注有包含目标对象的目标边界框的情况下，可以对第一对齐卷积神经网络和第二对齐卷积神经网络进行训练，具体可以通过如下步骤来实现：

步骤一、将生成的针对目标视频帧的至少一个初始预测边界框以及第一卷积后特征图输入至待训练的第一对齐卷积神经网络，得到网络输出的第一卷积后特征图；确定网络输出的第一卷积后特征图所指示的至少一个初始预测边界框中每个初始预测边界框包含目标对象的概率值；将概率值最大的初始预测边界框的位置信息与针对待进行目标跟踪的目标视频帧进行标注的目标边界框的位置信息进行比对，得到第一比对结果；

以及，将生成的针对目标视频帧的至少一个初始预测边界框以及第二卷积后特征图输入至待训练的第二对齐卷积神经网络，得到网络输出的第二卷积后特征图；确定网络输出的第二卷积后特征图所指示的针对至少一个初始预测边界框中的每个初始预测边界框所需的调整量；根据调整量对每个初始预测边界框进行调整得到的调整后的初始预测边界框的位置信息，与针对待进行目标跟踪的目标视频帧进行标注的目标边界框的位置信息进行比对，得到第二比对结果；

步骤二、若第一比对结果和第二对比结果中的任一比对结果为不一致，则对第一对齐卷积神经网络和第二对齐卷积神经网络中的至少一个神经网络进行参数调整。

这里，在训练第一对齐卷积神经网络和第二对齐卷积神经网络的过程中，一方面，在按照上述方法生成针对目标视频帧的至少一个初始预测边界框以及第一卷积后特征图的情况下，可以将生成的针对目标视频帧的至少一个初始预测边界框以及第一卷积后特征图输入至待训练的第一对齐卷积神经网络，得到网络输出的第一卷积后特征图；确定网络输出的第一卷积后特征图所指示的至少一个初始预测边界框中每个初始预测边界框包含目标对象的概率值；将概率值最大的初始预测边界框的位置信息与针对待进行目标跟踪的目标视频帧进行标注的目标边界框的位置信息进行比对，得到第一比对结果。

这里的第一对比结果指示的是网络预测的最可能是包含目标对象的初始预测边界框的位置信息，与实际标注的位置信息的比对结果，若比对结果一致，则说明当前边界框预测的准确性较高，若比对结果不一致，则说明当前边界框预测的准确性较差，此时，可以通过网络参数的调整来确保预测结果可以趋近于标注的真值结果。

另一方面，在按照上述方法生成针对目标视频帧的至少一个初始预测边界框以及第二卷积后特征图的情况下，可以将生成的针对目标视频帧的至少一个初始预测边界框以及第二卷积后特征图输入至待训练的第二对齐卷积神经网络，得到网络输出的第二卷积后特征图；确定网络输出的第二卷积后特征图所指示的针对至少一个初始预测边界框中的每个初始预测边界框所需的调整量；根据调整量对每个初始预测边界框进行调整得到的调整后的初始预测边界框的位置信息，与针对待进行目标跟踪的目标视频帧进行标注的目标边界框的位置信息进行比对，得到第二比对结果。

这里的第二对比结果指示的是网络确定的调整后的目标边界框的位置信息，与实际标注的位置信息的比对结果，若比对结果一致，则说明当前调整效果较好，若比对结果不一致，则说明当前调整效果较差，此时，可以通过网络参数的调整来确保调整结果可以趋近于标注的真值结果。

上述两个对齐卷积神经网络的网络参数可以是同步调整的，也可以是单独调整的，可以结合具体的训练条件来进行约束，在此不做具体的限制。

与此同时，本公开实施例中，还可以基于网络输出的初始预测边界框的位置信息与标注的真值结果的比对结果对网络参数进行调整，以进一步提升模型预测的准确性。

考虑到本公开实施例提供的目标跟踪的方法，不仅涉及到上述两个对齐卷积神经网络，还涉及到有关特征提取的特征提取网络、以及用来实现特征融合的互相关网络，因而在实际的训练过程中，也可以是上述多个网络的联合训练。接下来可以结合图3进行示例说明。

对于初始视频帧和目标视频帧而言，可以先通过特征提取网络提取出对应的第一特征图和第二特征图。在利用互相关网络确定融合后特征图的情况下，可以分别基于第一预设卷积参数和第二预设卷积参数进行第一卷积运算和第二卷积运算，得到第一卷积后特征图和第二卷积后特征图。

针对第一卷积后特征图而言，利用第一对齐卷积神经网络(即第一对齐网络)可以基于初始预测边界框进行对齐卷积运算，得到网络输出的可以是初始预测边界框所对应的分类分数，选取分类分数最高的初始预测边界框作为最可能包含目标对象的目标边界框。针对第二卷积后特征图而言，利用第二对齐卷积神经网络(即第二对齐网络)可以基于目标边界框进行对齐卷积运算，得到网络输出的调整后的目标边界框。

可知的是，本公开实施例通过两步优化机制准确地捕获边界框的特征并且对边界框进一步优化，从而使得所确定的目标状态更为准确，跟踪效果也更佳。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与目标跟踪的方法对应的目标跟踪的装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述目标跟踪的方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图4所示，为本公开实施例提供的一种目标跟踪的装置的示意图，装置包括：获取模块401、提取模块402、融合模块403和跟踪模块404；其中，

获取模块401，用于获取标注有目标边界框的初始视频帧、以及待进行目标跟踪的目标视频帧；目标边界框中包含有目标对象；

提取模块402，用于从初始视频帧和目标视频帧中分别提取第一特征图和第二特征图；

融合模块403，用于基于第一特征图和第二特征图，确定融合后特征图，并基于融合后特征图生成针对目标视频帧的至少一个初始预测边界框；

跟踪模块404，用于根据目标视频帧的至少一个初始预测边界框以及融合后特征图，确定针对目标视频帧的目标跟踪结果；其中，目标跟踪结果包括从至少一个初始预测边界框中选取的包含目标对象的目标边界框。

本公开实施例，在获取到标注有目标边界框的初始视频帧以及待进行目标跟踪的目标视频帧的情况下，可以先进行特征提取，这样，基于提取出的第一特征图和第二特征图可以得到融合后特征图。该融合后特征图融合有初始视频帧及该初始视频帧中的目标边界框的相关信息，还融合有目标视频帧的相关信息，这样，即可以基于融合后特征图生成针对目标视频帧的至少一个初始预测边界框，初始预测边界框可以指示的是目标对象在目标视频帧中可能出现的位置。为了在目标视频帧中确定包含目标对象的目标边界框，可以将融合后特征图与初始预测边界框进行相关运算，也即，可以进一步利用融合后特征图对初始预测边界框进行筛选，进而选取到更为准确的目标对象所处位置，使得跟踪效果更佳。

在一种可能的实施方式中，跟踪模块404，用于按照以下步骤根据目标视频帧的至少一个初始预测边界框以及融合后特征图，确定针对目标视频帧的目标跟踪结果：

基于第一预设卷积参数对融合后特征图进行第一卷积运算，得到第一卷积后特征图；

利用训练好的第一对齐卷积神经网络、以及目标视频帧的至少一个初始预测边界框，对第一卷积后特征图进行对齐卷积运算，得到网络输出的第一卷积后特征图；

确定网络输出的第一卷积后特征图所指示的至少一个初始预测边界框中每个初始预测边界框包含目标对象的概率值；

从至少一个初始预测边界框中选取概率值最大的初始预测边界框作为包含目标对象的目标边界框。

在一种可能的实施方式中，跟踪模块404，用于按照以下步骤利用训练好的第一对齐卷积神经网络、以及目标视频帧的至少一个初始预测边界框，对第一卷积后特征图进行对齐卷积运算，得到网络输出的第一卷积后特征图：

确定训练好的第一对齐卷积神经网络对应的卷积核参数；

利用卷积核参数对第一卷积后特征图进行遍历；

在遍历至与目标视频帧的任一初始预测边界框对应的第一卷积后特征区域的情况下，将卷积核参数指示的卷积核与第一卷积后特征区域进行卷积运算，得到网络输出的第一卷积后特征图；

其中，第一卷积后特征区域包含在第一卷积后特征图中，且与初始预测边界框的尺寸相同。

在一种可能的实施方式中，上述装置还包括：

调整模块405，用于：

基于第二预设卷积参数对融合后特征图进行第二卷积运算，得到第二卷积后特征图；

利用训练好的第二对齐卷积神经网络以及目标视频帧中包含目标对象的目标边界框，对第二卷积后特征图进行对齐卷积运算，得到网络输出的第二卷积后特征图；

确定网络输出的第二卷积后特征图所指示的针对目标边界框的调整量；

基于网络输出的调整量对目标边界框进行调整，得到调整后的目标边界框。

在一种可能的实施方式中，待进行目标跟踪的目标视频帧中标注有包含目标对象的目标边界框；上述装置还包括：

训练模块406，用于：

将生成的针对目标视频帧的至少一个初始预测边界框以及第一卷积后特征图输入至待训练的第一对齐卷积神经网络，得到网络输出的第一卷积后特征图；确定网络输出的第一卷积后特征图所指示的至少一个初始预测边界框中每个初始预测边界框包含目标对象的概率值；将概率值最大的初始预测边界框的位置信息与针对待进行目标跟踪的目标视频帧进行标注的目标边界框的位置信息进行比对，得到第一比对结果；

若第一比对结果和第二对比结果中的任一比对结果为不一致，则对第一对齐卷积神经网络和第二对齐卷积神经网络中的至少一个神经网络进行参数调整。

在一种可能的实施方式中，提取模块402，用于按照以下步骤从初始视频帧和目标视频帧中分别提取第一特征图和第二特征图：

利用训练好的特征提取网络对初始视频帧和目标视频帧分别进行特征提取，得到第一特征图和第二特征图。

在一种可能的实施方式中，上述装置还包括：

更新模块407，用于确定与初始视频帧对应的目标蒙版特征；其中，初始视频帧中目标边界框之内视频帧区域的目标蒙版特征与目标边界框之外视频帧区域的目标蒙版特征不同；基于确定的目标蒙版特征对第一特征图进行更新，得到更新后的第一特征图。

在一种可能的实施方式中，融合模块403，用于按照以下步骤基于第一特征图和第二特征图，确定融合后特征图：

利用训练好的互相关网络对第一特征图和第二特征图进行互相关运算，得到融合后特征图。

在一种可能的实施方式中，融合模块403，用于按照以下步骤利用训练好的互相关网络对第一特征图和第二特征图进行互相关运算，得到融合后特征图：

将第一特征图作为训练好的互相关网络对应的卷积核；

利用卷积核对第二特征图进行遍历，并确定每个遍历位置处的卷积结果；

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本公开实施例还提供了一种电子设备，如图5所示，为本公开实施例提供的电子设备结构示意图，包括：处理器501、存储器502、和总线503。存储器502存储有处理器501可执行的机器可读指令(比如，图4中的装置中获取模块401、提取模块402、融合模块403、跟踪模块404对应的执行指令等)，当电子设备运行时，处理器501与存储器502之间通过总线503通信，机器可读指令被处理器501执行时执行如下处理：

获取标注有目标边界框的初始视频帧、以及待进行目标跟踪的目标视频帧；目标边界框中包含有目标对象；

从初始视频帧和目标视频帧中分别提取第一特征图和第二特征图；

基于第一特征图和第二特征图，确定融合后特征图，并基于融合后特征图生成针对目标视频帧的至少一个初始预测边界框；

根据目标视频帧的至少一个初始预测边界框以及融合后特征图，确定针对目标视频帧的目标跟踪结果；其中，目标跟踪结果包括从至少一个初始预测边界框中选取的包含目标对象的目标边界框。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的目标跟踪的方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的目标跟踪的方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种目标跟踪的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标视频帧的至少一个初始预测边界框以及所述融合后特征图，确定针对所述目标视频帧的目标跟踪结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述利用训练好的第一对齐卷积神经网络、以及所述目标视频帧的至少一个初始预测边界框，对所述第一卷积后特征图进行对齐卷积运算，得到网络输出的第一卷积后特征图，包括：

利用所述卷积核参数对所述第一卷积后特征图进行遍历；

4.根据权利要求2或3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述待进行目标跟踪的目标视频帧中标注有包含目标对象的目标边界框；按照如下步骤训练所述第一对齐卷积神经网络和所述第二对齐卷积神经网络：

6.根据权利要求1-5任一所述的方法，其特征在于，所述从所述初始视频帧和所述目标视频帧中分别提取第一特征图和第二特征图，包括：

7.根据权利要求1-6任一所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1-7任一所述的方法，其特征在于，所述基于所述第一特征图和所述第二特征图，确定融合后特征图，包括：

9.根据权利要求8所述的方法，其特征在于，所述利用训练好的互相关网络对所述第一特征图和所述第二特征图进行互相关运算，得到融合后特征图，包括：

10.一种目标跟踪的装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至9任一所述的目标跟踪的方法的步骤。

12.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至9任一所述的目标跟踪的方法的步骤。