CN116109678A

CN116109678A - 基于上下文自注意力学习深度网络的目标跟踪方法与***

Info

Publication number: CN116109678A
Application number: CN202310372849.0A
Authority: CN
Inventors: 王员云; 张文双; 王军; 秦永
Original assignee: Nanchang Institute of Technology
Current assignee: Nanchang Institute of Technology
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-05-12
Anticipated expiration: 2043-04-10
Also published as: CN116109678B

Abstract

本发明提出一种基于上下文自注意力学习深度网络的目标跟踪方法与***，所述方法包括：基于卷积神经网络模型与上下文自注意力学习模块，构建得到特征提取网络模型；利用区域建议网络分别对提取后的目标模板图像特征和搜索区域图像特征在分类分支和回归分支上分别进行特征融合深度卷积计算，得到对应的相似度得分图，最后将最大相似度得分值对应的相似度得分图确定为跟踪定位目标。在本发明中，通过重构所得到的特征提取网络，可增强模板分支与搜索分支的全局信息表示能力和自注意力学习能力，有利于区域建议网络的分类回归分支的相似度计算，最终实现更加精确的跟踪。

Description

基于上下文自注意力学习深度网络的目标跟踪方法与***

技术领域

本发明涉及计算机视觉与图像处理技术领域，特别涉及一种基于上下文自注意力学习深度网络的目标跟踪方法与***。

背景技术

在计算机视觉领域中，目标跟踪通过在连续的视频图像序列中对目标的表观和运动信息进行建模以定位跟踪目标的位置。目前，目标跟踪在智能视频监控、无人驾驶、医疗诊断以及虚拟现实等视觉领域中有着广泛应用。

在实际跟踪过程中，跟踪算法面临着尺度变化、运动模糊、目标旋转、外部环境的光照变化以及相似背景干扰等因素的影响。随着目标跟踪技术的发展，基于深度学***衡跟踪速度和精确度方面，受到了国内外研究人员的广泛关注。

基于孪生网络的目标跟踪算法，虽然双分支孪生网络在目标跟踪方向得到了很好的应用，但是部分的视觉跟踪算法模型的鲁棒性与精确度均不是很理想。基于此，有必要提出一种基于上下文自注意力学习深度网络的目标跟踪方法与***，以解决上述技术问题。

发明内容

鉴于上述状况，本发明的主要目的是为了解决现有技术中，部分的视觉跟踪算法模型的鲁棒性与精确度均不是很理想的问题。

本发明实施例提出一种基于上下文自注意力学习深度网络的目标跟踪方法，其中，所述方法包括如下步骤：

步骤一、在孪生网络框架下，基于深度卷积神经网络与上下文自注意力学习模块构建得到特征提取网络模型，所述特征提取网络模型用于将Transformer中的动态自注意力机制的动态上下文信息与卷积的静态上下文信息进行聚合集成，并分别提取模板分支上的目标模板图像特征以及搜索分支上的搜索区域图像特征；

步骤二、通过所述深度卷积神经网络在所述模板分支与搜索分支上提取得到浅层目标局部信息，通过所述上下文自注意力学习模块，结合动态自注意力机制在模板分支与搜索分支中提取目标全局上下文信息，将所述浅层目标局部信息与所述目标全局上下文信息进行融合以得到融合信息，所述上下文自注意力学习模块用于将上下文信息与动态自注意力机制集成到特征提取网络模型中，利用输入键之间的上下文信息来指导动态注意力矩阵的学习，以增强目标特征表示能力；

步骤三：利用大规模数据集，对所述特征提取网络模型进行预训练，并结合区域建议网络对所述特征提取网络模型的参数进行调整；

步骤四：利用预训练后的所述特征提取网络模型，在所述模板分支与所述搜索分支中分别提取得到目标模板图像特征以及搜索区域图像特征，并将提取后的所述目标模板图像特征以及所述搜索区域图像特征输入至所述区域建议网络中；

步骤五：利用所述区域建议网络分别对提取后得到的所述目标模板图像特征以及所述搜索区域图像特征，在分类分支和回归分支上分别进行特征融合深度卷积计算，以得到对应的相似度得分图；

步骤六：根据所述相似度得分图，将最大相似度得分值对应的相似度得分图确定为跟踪定位目标。

本发明提出一种基于上下文自注意力学习深度网络的目标跟踪方法与***，首先在孪生网络框架下，基于卷积神经网络模型与上下文自注意力学习模块，构建得到特征提取网络模型；其中，上下文自注意力学习模块用于提取目标全局上下文信息以进一步得到更加精确的目标表观信息，特征提取网络模型用于分别提取目标模板图像特征和搜索区域图像特征；然后，利用区域建议网络分别对提取后的目标模板图像特征和搜索区域图像特征在分类分支和回归分支上分别进行特征融合深度卷积计算，得到对应的相似度得分图，最后将最大相似度得分值对应的相似度得分图确定为跟踪定位目标。在本发明中，通过重构所得到的特征提取网络，可增强模板分支与搜索分支的全局信息表示能力和自注意力学习能力，有利于区域建议网络的分类回归分支的相似度计算，最终实现更加精确的跟踪。

本发明还提出一种基于上下文自注意力学习深度网络的目标跟踪***，其中，应用如上所述的基于上下文自注意力学习深度网络的目标跟踪方法，所述***包括：

模型构建模块，用于：

在孪生网络框架下，基于深度卷积神经网络与上下文自注意力学习模块构建得到特征提取网络模型，所述特征提取网络模型用于将Transformer中的动态自注意力机制的动态上下文信息与卷积的静态上下文信息进行聚合集成，并分别提取模板分支上的目标模板图像特征以及搜索分支上的搜索区域图像特征；

第一提取模块，用于：

通过所述深度卷积神经网络在所述模板分支与搜索分支上提取得到浅层目标局部信息，通过所述上下文自注意力学习模块，结合动态自注意力机制在模板分支与搜索分支中提取目标全局上下文信息，将所述浅层目标局部信息与所述目标全局上下文信息进行融合以得到融合信息，所述上下文自注意力学习模块用于将上下文信息与动态自注意力机制集成到特征提取网络模型中，利用输入键之间的上下文信息来指导动态注意力矩阵的学习，以增强目标特征表示能力；

预训练模块，用于：

利用大规模数据集，对所述特征提取网络模型进行预训练，并结合区域建议网络对所述特征提取网络模型的参数进行调整；

第二提取模块，用于：

利用预训练后的所述特征提取网络模型，在所述模板分支与所述搜索分支中分别提取得到目标模板图像特征以及搜索区域图像特征，并将提取后的所述目标模板图像特征以及所述搜索区域图像特征输入至所述区域建议网络中；

卷积计算模块，用于：

利用所述区域建议网络分别对提取后得到的所述目标模板图像特征以及所述搜索区域图像特征，在分类分支和回归分支上分别进行特征融合深度卷积计算，以得到对应的相似度得分图；

目标跟踪模块，用于：

根据所述相似度得分图，将最大相似度得分值对应的相似度得分图确定为跟踪定位目标。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明提出的基于上下文自注意力学习深度网络的目标跟踪方法的流程图；

图2为本发明的特征提取网络的结构图；

图3为本发明的原理框架图；

图4为本发明提出的基于上下文自注意力学习深度网络的目标跟踪***的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

请参阅图1，本发明提出一种基于上下文自注意力学习深度网络的目标跟踪方法，其中，所述方法包括如下步骤：

S101、在孪生网络框架下，基于深度卷积神经网络与上下文自注意力学习模块构建得到特征提取网络模型，所述特征提取网络模型用于将Transformer中的动态自注意力机制的动态上下文信息与卷积的静态上下文信息进行聚合集成，并分别提取模板分支上的目标模板图像特征以及搜索分支上的搜索区域图像特征。

在本步骤中，重新构建所得到的特征提取网络模型用于分别提取模板分支上的目标模板图像特征和搜索分支上的搜索区域图像特征。在此需要说明的是，如图2所示，特征提取网络模型通过深度卷积神经网络和上下文自注意力学习模块构成。其中，深度卷积神经网络模型提取了模板分支与搜索分支的局部浅层信息。在上下文自注意力学习模块中，结合动态自注意力机制提取全局上下文信息，将全局上下文信息与自注意力学习集成在该上下文自注意力学习模块中，上下文自注意力学习模块具有有效的自注意力学习能力，同时增强了目标特征的聚合能力。

S102、通过所述深度卷积神经网络在所述模板分支与搜索分支上提取得到浅层目标局部信息，通过所述上下文自注意力学习模块，结合动态自注意力机制在模板分支与搜索分支中提取目标全局上下文信息，将所述浅层目标局部信息与所述目标全局上下文信息进行融合以得到融合信息。

其中，所述上下文自注意力学习模块用于将上下文信息与动态自注意力机制集成到特征提取网络模型中，利用输入键之间的上下文信息来指导动态注意力矩阵的学习，以增强目标特征表示能力。

在本发明中，融合了浅层目标局部信息与目标全局上下文信息的上下文自注意力学习模块，充分利用相邻键之间的上下文信息，促进了自注意力学习。此外，模板分支与搜索分支上的特征图均称为目标特征图。具体的，目标特征图表示。

其中，表示实数矩阵，表示目标特征图的高度，表示目标特征图的宽度，表示目标特征图的通道数。

目标特征图的键表示为：

；

目标特征图的查询表示为：

；

目标特征图的值表示为：

；

其中，表示卷积操作，表示所输入的嵌入矩阵。

在本实施例中，上下文自注意力学习模块的生成方法包括如下步骤：

S1021、有相邻的键进行卷积，用于使得键有效捕获相邻键之间的上下文信息，对应的公式表示为：

；

其中，表示卷积权重，表示局部相邻键之间的静态上下文信息。

S1022、将局部相邻键之间的静态上下文信息与查询进行拼接，通过两个连续的卷积得到注意力矩阵，对应的公式表示为：

；

其中，表示拼接操作，表示带有ReLU激活函数的权重系数，表示不带有激活函数的权重系数，表示基于查询特征与全局上下文消息的键特征在空间位置的注意力矩阵。

S1023、将基于查询特征与全局上下文消息的键特征在空间位置的注意力矩阵与自注意力机制中所有值进行聚集以得到目标特征图的上下文表示，对应的计算公式表示为：

；

S1024、将目标特征图的上下文表示与局部相邻键之间的静态上下文信息进行融合，以得到通过上下文自注意力学习模块后的特征图，对应的计算公式表示为：

；

其中，表示融合操作。

S103、利用大规模数据集，对所述特征提取网络模型进行预训练，并结合区域建议网络对所述特征提取网络模型的参数进行调整。

S104、利用预训练后的所述特征提取网络模型，在所述模板分支与所述搜索分支中分别提取得到目标模板图像特征以及搜索区域图像特征，并将提取后的所述目标模板图像特征以及所述搜索区域图像特征输入至所述区域建议网络中。

S105、利用所述区域建议网络分别对提取后得到的所述目标模板图像特征以及所述搜索区域图像特征，在分类分支和回归分支上分别进行特征融合深度卷积计算，以得到对应的相似度得分图。

请参阅图3，将特征提取网络模块提取的第三个卷积块（卷积块_3）、第四个卷积块（卷积块_4）以及第五个卷积块（卷积块_5）的目标特征和搜索分支的特征分别输入区域建议网络的分类分支和回归分支。在分类分支和回归分支中对模板分支的分类特征和搜索分支的分类特征，以及模板分支的回归特征和搜索分支的回归特征分别进行深度卷积运算。

具体的，进行深度卷积计算的公式表示为：

；

其中，表示跟踪目标的分类特征图，表示模板分支的分类特征图，表示搜索分支的分类特征图，表示跟踪目标的回归特征图，表示模板分支的回归特征图，表示搜索分支的回归特征图，表示深度卷积计算。

在特征提取网络模型提取的第三个卷积块（卷积块_3）、第四个卷积块（卷积块_4）与第五个卷积块（卷积块_5）的目标模板图像特征和搜索区域图像特征中，浅层特征捕获了目标的表观特征，能够精准定位，深层特征能捕获目标语义信息，增强了目标外观变化的鲁棒性。将三个卷积的分类和回归特征图分别进行加权求和。

其中，将分类特征图与回归特征图分别进行加权求和，对应的公式表示为：

；

其中，表示目标特征分类分数特征图，表示第个卷积块分类特征图的深度卷积结果的权重，表示第个卷积块分类特征图的深度卷积结果，表示目标特征回归分数特征图，表示第个卷积块回归特征图的深度卷积结果的权重，表示第个卷积块回归特征图的深度卷积的结果。

S106、根据所述相似度得分图，将最大相似度得分值对应的相似度得分图确定为跟踪定位目标。

在此需要说明的是，上述的目标特征分类分数特征图通过三个卷积块分别经过区域建议网络得到，且具有两个通道，用于表示候选目标的位置标签图和背景标签图。

此外，上述的目标特征回归分数特征图通过三个卷积块分别经过区域建议网络得到，且具有四个通道，用于分别表示目标的跟踪框的左上角和右下角的坐标值。

请参阅图4，本发明提出一种基于上下文自注意力学习深度网络的目标跟踪***，其中，应用如上所述的基于上下文自注意力学习深度网络的目标跟踪方法，所述***包括：

模型构建模块，用于：

在所述上下文自注意力学习模块中，目标特征图表示为；

其中，表示实数矩阵，表示目标特征图的高度，表示目标特征图的宽度，表示目标特征图的通道数；

目标特征图的键表示为：

；

目标特征图的查询表示为：

；

目标特征图的值表示为：

；

其中，表示卷积操作，表示所输入的嵌入矩阵；

所述上下文自注意力学习模块还用于：

对所有相邻的键进行卷积，用于使得键有效捕获相邻键之间的上下文信息，对应的公式表示为：

；

其中，表示卷积权重，表示局部相邻键之间的静态上下文信息；

将局部相邻键之间的静态上下文信息与查询进行拼接，通过两个连续的卷积得到注意力矩阵，对应的公式表示为：

；

其中，表示拼接操作，表示带有ReLU激活函数的权重系数，表示不带有激活函数的权重系数，表示基于查询特征与全局上下文消息的键特征在空间位置的注意力矩阵；

将基于查询特征与全局上下文消息的键特征在空间位置的注意力矩阵与自注意力机制中所有值进行聚集以得到目标特征图的上下文表示，对应的计算公式表示为：

；

将目标特征图的上下文表示与局部相邻键之间的静态上下文信息进行融合，以得到通过上下文自注意力学习模块后的特征图，对应的计算公式表示为：

；

其中，表示融合操作；

第一提取模块，用于：

预训练模块，用于：

第二提取模块，用于：

卷积计算模块，用于：

目标跟踪模块，用于：

根据所述相似度得分图，将最大相似度得分值对应的相似度得分图确定为跟踪定位目标；

所述卷积计算模块用于：

利用所述区域建议网络分别对提取后得到的所述目标模板图像特征以及所述搜索区域图像特征，在分类分支和回归分支上分别进行特征融合深度卷积计算，以得到对应的相似度得分图，对应的公式表示为：

；

其中，表示跟踪目标的分类特征图，表示模板分支的分类特征图，表示搜索分支的分类特征图，表示跟踪目标的回归特征图，表示模板分支的回归特征图，表示搜索分支的回归特征图，表示深度卷积计算；

所述目标跟踪***还用于：

将分类特征图与回归特征图分别进行加权求和，对应的公式表示为：

；

其中，表示目标特征分类分数特征图，表示第个卷积块分类特征图的深度卷积结果的权重，表示第个卷积块分类特征图的深度卷积结果，表示目标特征回归分数特征图，表示第个卷积块回归特征图的深度卷积结果的权重，表示第个卷积块回归特征图的深度卷积的结果；

目标特征分类分数特征图通过三个卷积块分别经过区域建议网络得到，且具有两个通道；

目标特征回归分数特征图通过三个卷积块分别经过区域建议网络得到，且具有四个通道。

应当理解的，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于上下文自注意力学习深度网络的目标跟踪方法，其特征在于，所述方法包括如下步骤：

步骤六：根据所述相似度得分图，将最大相似度得分值对应的相似度得分图确定为跟踪定位目标；

在所述步骤二中，在所述上下文自注意力学习模块中，目标特征图表示为；

目标特征图的键表示为：

；

目标特征图的查询表示为：

；

目标特征图的值表示为：

；

其中，表示卷积操作，表示所输入的嵌入矩阵；

所述上下文自注意力学习模块提取得到的目标特征图的方法包括如下步骤：

；

其中，表示融合操作。

2.根据权利要求1所述的基于上下文自注意力学习深度网络的目标跟踪方法，其特征在于，在所述步骤五中，利用所述区域建议网络分别对提取后得到的所述目标模板图像特征以及所述搜索区域图像特征，在分类分支和回归分支上分别进行特征融合深度卷积计算的步骤中，进行深度卷积计算的公式表示为：

；

3.根据权利要求2所述的基于上下文自注意力学习深度网络的目标跟踪方法，其特征在于，在计算得到了分类特征图与回归特征图之后，所述方法还包括：

；

4.根据权利要求3所述的基于上下文自注意力学习深度网络的目标跟踪方法，其特征在于，目标特征分类分数特征图通过三个卷积块分别经过区域建议网络得到，且具有两个通道；

5.一种基于上下文自注意力学习深度网络的目标跟踪***，其特征在于，应用如上述权利要求1至4任一项所述的基于上下文自注意力学习深度网络的目标跟踪方法，所述***包括：

模型构建模块，用于：

第一提取模块，用于：

预训练模块，用于：

第二提取模块，用于：

卷积计算模块，用于：

目标跟踪模块，用于：

在所述上下文自注意力学习模块中，目标特征图表示为；

目标特征图的键表示为：

；

目标特征图的查询表示为：

；

目标特征图的值表示为：

；

其中，表示卷积操作，表示所输入的嵌入矩阵；

所述上下文自注意力学习模块还用于：

；

其中，表示融合操作。

6.根据权利要求5所述的基于上下文自注意力学习深度网络的目标跟踪***，其特征在于，所述卷积计算模块用于：

；

7.根据权利要求6所述的基于上下文自注意力学习深度网络的目标跟踪***，其特征在于，所述目标跟踪***还用于：

；

8.根据权利要求7所述的基于上下文自注意力学习深度网络的目标跟踪***，其特征在于，目标特征分类分数特征图通过三个卷积块分别经过区域建议网络得到，且具有两个通道；