CN117788515A

CN117788515A - 一种结合注意力机制和加权响应的单目标跟踪方法

Info

Publication number: CN117788515A
Application number: CN202311662185.8A
Authority: CN
Inventors: 符强; 谢志安; 纪元法; 孙希延; 任风华; 严素清; 付文涛; 黄建华; 梁维彬; 贾茜子
Original assignee: Nanning Guidian Electronic Technology Research Institute Co ltd; Guilin University of Electronic Technology
Current assignee: Nanning Guidian Electronic Technology Research Institute Co ltd; Guilin University of Electronic Technology
Priority date: 2023-12-06
Filing date: 2023-12-06
Publication date: 2024-03-29

Abstract

本发明涉及计算机视觉技术领域，具体涉及一种结合注意力机制和加权响应的单目标跟踪方法，首先使用改进的VGG16作为特征提取主干网；其次采用了残差语义嵌入模块，自适应地将深层语义信息引入浅层特征，充分利用目标的语义和空间信息；然后将浅层特征响应和深层特征响应进行加权融合，进一步提高定位精度和判别能力；最后引入轻量级的注意力机制，从水平和垂直方向的二次划分特征来增强通道的特征显著性。本发明改善了现有目标跟踪方法中出现目标和背景进行相似性判别时，大多数***仅使用最后一层提取语义特征，忽略了空间结构对区分目标和背景的作用，跟踪过程容易出现漂移或者跟踪丢失问题。

Description

一种结合注意力机制和加权响应的单目标跟踪方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种结合注意力机制和加权响应的单目标跟踪方法。

背景技术

目标跟踪是计算机视觉中的重要研究方向，广泛应用于军事、医学、安防医学成像、视频监控、智能交通和无人驾驶等领域。然而，在实际工程中，面临着多种问题，如目标姿态变化、背景干扰、遮挡和尺度变化等，这些因素对目标跟踪效果产生影响。许多研究者根据不同的任务要求提出了不同的视觉跟踪算法。然而，由于目标本身运动的复杂多变以及应用场景的多样化，视觉跟踪技术面临着诸多挑战，如何提高现有视觉跟踪算法的性能，对推动视觉跟踪技术的发展具有重要意义。

当跟踪目标出现复杂背景干扰、目标模糊问题，尤其是目标和背景进行相似性判别时，大多数***仅使用最后一层提取语义特征，忽略了空间结构对区分目标和背景的作用，跟踪过程容易出现漂移或者跟踪丢失问题。

发明内容

本发明的目的在于提供一种结合注意力机制和加权响应的单目标跟踪方法，实现在光照变化，相似物干扰的复杂场景下精准地跟踪。

为实现上述目的，本发明提供了一种结合注意力机制和加权响应的单目标跟踪方法，包括下列步骤：

步骤1：在输入视频序列中通过裁剪和RGB均值填充操作获得模板图像和搜索图像；

步骤2：利用具有卷积跨步的VGG16网络作为孪生网络的骨干网络来获得模板特征和搜索特征；

步骤3：利用残差语义嵌入模块，将语义信息自适应地引入到浅层特征中，增强浅层和深层特征的融合；

步骤4：利用PA_Net注意力机制将坐标信息与特征值进行关联，增强通道维度的特征提取能力；

步骤5：求解孪生网络模板分支特征和搜索分支特征之间的相似度，互相关运算Corr输出相似度得分响应图；

步骤6：采取加权融合策略WSum提取不同响应的特征信息生成最终响应图，多角度衡量输出之间的相似性以提高精度。

可选的，在步骤1的执行过程中，取输入跟踪模型视频序列的第一帧图像作为初始目标模板，以目标为中心进行裁剪，当裁剪的范围超出图像范围时，缺失的部分用取RGB均值的方式进行常数填充，最终获得的模板图像分辨率为127×127，通道维度为3；搜索图像在视频序列其它帧中获取，获取方式相同，最终分辨率为255×255，通道维度为3。

可选的，步骤2的执行过程，包括下列步骤：

对VGG16网络优化，包括将原有的5层最大池化保留为3层，引入裁剪模块将受填充操作影响的最外层特征裁掉；

将通过裁剪和均值RGB填充预处理后的模板图像和搜索图像输入到VGG16网络中。

可选的，步骤3的执行过程，具体为将第五层Conv5卷积块的语义信息通过Conv3×3操作实现通道转换，使用Upsampling双线性上采样得到第四层Conv4浅层卷积块相同的特征尺度，然后进行相乘运算自适应地引入深层特征的语义信息，得到浅层和深层输出的特征图。

可选的，在步骤4中，PA_Net注意力机制对输入特征的处理包括下列步骤：

对输入特征图X在水平和垂直方向上分别进行全局平均池化；

拼接水平和垂直方向的特征图，卷积再送入激活函数后得到中间特征；

沿着水平方向和垂直方向分解中间特征，处理取到最终在水平和垂直方向上带有注意力权重的特征图；

加入注意力信息，得到最后的特征信息；

将PA_Net注意力机制得到的特征输入到VGG16网络中。

可选的，步骤5输出的相似度得分响应图，包括通过残差语义嵌入模块的浅层网络后输出相似度的得分响应图，与通过第五个卷积块和注意力机制的深层网络后输出相似度的得分响应图。

可选的，加权融合策略WSum中的加权公式如下所示：

F＝λ₁gX₁+λ₂gX₂

其中，F是融合后的响应图，X₁，X₂为输出特征，λ₁，λ₂为加权系数。

本发明提供了一种结合注意力机制和加权响应的单目标跟踪方法，首先使用改进的VGG16作为特征提取主干网；其次采用了残差语义嵌入模块，自适应地将深层语义信息引入浅层特征，充分利用目标的语义和空间信息；然后将浅层特征响应和深层特征响应进行加权融合，进一步提高定位精度和判别能力；最后引入轻量级的注意力机制，从水平和垂直方向的二次划分特征来增强通道的特征显著性，从而提升了***对快速运动、背景相似、光照变化、变形等复杂场景的性能。本发明改善了现有目标跟踪方法中出现目标和背景进行相似性判别时，大多数***仅使用最后一层提取语义特征，忽略了空间结构对区分目标和背景的作用，跟踪过程容易出现漂移或者跟踪丢失问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种结合注意力机制和加权响应的单目标跟踪方法的流程示意图。

图2是本发明的改进的VGG16网络进行目标跟踪的原理示意图。

图3是本发明的残差语义嵌入模块的原理框图图。

图4是本发明的PA_Net注意力机制原理框图。

图5是本发明在公开数据集OTB2015与主流算法对比的跟踪成功率比较示意图。

图6是本发明在公开数据集OTB2015与主流算法对比的跟踪准确率比较示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1，本发明提供了一种结合注意力机制和加权响应的单目标跟踪方法，包括下列步骤：

S1：在输入视频序列中通过裁剪和RGB均值填充操作获得模板图像和搜索图像；

S2：利用具有卷积跨步的VGG16网络作为孪生网络的骨干网络来获得模板特征和搜索特征；

S3：利用残差语义嵌入模块，将语义信息自适应地引入到浅层特征中，增强浅层和深层特征的融合；

S4：利用PA_Net注意力机制将坐标信息与特征值进行关联，增强通道维度的特征提取能力；

S5：求解孪生网络模板分支特征和搜索分支特征之间的相似度，互相关运算Corr输出相似度得分响应图；

S6：采取加权融合策略Wsum提取不同响应的特征信息生成最终响应图，多角度衡量输出之间的相似性以提高精度。

以下结合具体实施步骤作进一步说明，请参阅图2至图4：

具体的，在步骤S1中，取输入跟踪模型视频序列的第一帧图像作为初始目标模板，以目标为中心进行裁剪，当裁剪的范围超出图像范围时，缺失的部分用取RGB均值的方式进行常数填充，最终获得的模板图像分辨率为127×127，通道维度为3，搜索图像也用如上方式在视频序列其它帧中获取，其最终分辨率为255×255，通道维度为3。

步骤S2中，将具有连续卷积跨步的VGG16网络作为特征提取主干网络，通过对原始VGG16网络模型进行优化使其更适合跟踪任务，对VGG16网络的优化及对输入的模板图像和搜索图像进行特征提取的具体步骤如下：

(1.1)对VGG16网络的优化：1)将原有的5层最大池化保留为3层，避免网络步幅过长导致输出特征的分辨率过小；2)引入裁剪模块将受填充操作影响的最外层特征裁掉；

(1.2)将通过裁剪和均值RGB填充预处理后的模板图像和搜索图像输入到VGG16网络中。

进一步的，步骤S3中，如图3所示，将第五层Conv5卷积块的语义信息通过Conv3×3操作实现通道转换，使用Upsampling双线性上采样得到第四层Conv4浅层卷积块相同的特征尺度，然后进行相乘运算自适应地引入深层特征的语义信息，得到浅层和深层输出的特征图，过程如下式所示。

F^out＝F^conv4e Up(Conv_3×3(F^conv5))+F^conv4

其中，F^conv4表示骨干网络中浅层输出的特征，F^conv5表示骨干网络中深层输出的特征，Up代表双线性上采样，e代表元素相乘。

在步骤S4中，注意力机制对输入特征的具体处理步骤为(如图4所示)：

4.1为了获取精确位置信息来进行编码，对输入特征图X在水平和垂直方向上分别进行全局平均池化，公式如下所示。

其中，分别为沿水平方向，垂直方向上的第c个通道的输出。将两个方向的特征图Concat拼接在一起，之后使用卷积核为1×1的Conv2d操作，将经过批量归一化处理BatchNorm的特征图送入激活函数得到中间特征f，公式如下：

f＝δ(F₁([z^h,z^w]))

其中F₁为卷积和归一化，δ为Relu激活函数。沿着水平方向和垂直方向把中间特征f分解为两个单独的特征，再分别经过两个卷积核为1的卷积和Sigmoid激活函数后得到两个方向上权重，公式如下所示。

g^h＝σ(F_h(f^h))

g^w＝σ(F_w(f^w))

σ是sigmoid激活函数。在原始特征图上通过Re-weight乘法加权计算，获取到最终在水平和垂直方向上带有注意力权重的特征图，公式如下：

最后，在原始输入中加入注意力信息，得到最后的特征信息，公式如下：

z_c(i,j)＝y_c(i,j)+x_c(i,j)

y_c表示注意力特征信息，x_c表示原始特征信息。最终输出不仅得到注意力的信息特征，还保留原始特征的能力，提高网络学习特征的表达能力。

4.2将PA_Net注意力机制得到的特征输入到VGG16网络中。

步骤S5中，求解孪生网络模板分支特征和搜索分支特征之间的相似度，得到通过残差语义嵌入模块的浅层网络后输出相似度的得分响应图，与得到通过第五个卷积块和注意力机制的深层网络后输出相似度的得分响应图。

步骤S6中，输入图像得到通过残差语义嵌入模块输出相似度的得分响应图，与通过第五个卷积块和注意力机制输出相似度的得分响应图，为了充分提取不同响应的特征信息，采取了加权融合策略Wsum来生成最终响应图。加权公式如下：

F＝λ₁gX₁+λ₂gX₂

F是融合后的响应图，X₁，X₂为输出特征，λ₁，λ₂为加权系数，计算公式如下，先将需要融合的响应转换为概率分布。

其中,min(F)和F_(w,h)分别表示响应图的最小值和点(w,h)处的响应值。当概率分布的信息熵值较大时，事件不确定性大，说明响应图对目标位置不确定。使用高斯函数将信息熵转化为置信度，即信息熵值较大响应图的置信度小，采用如下公式得到加权系数。

进一步的，本发明还在公开数据集OTB2015上进行跟踪性能评估，通过与现有的SiamFC，SiamRPN，DaSiamRPN等主流算法对比，具体如图5和图6所示，跟踪准确率和跟踪成功率都有了显著的提升。

综上所述，与现有的目标跟踪方法相比，本发明具有以下特点：

1、本发明对VGG16进行改进作为特征提取主干网络，同时设计裁剪块消除网络中的填充操作带来的潜在位置偏差，改进的特征提取主干网络能充分挖掘特征中的有效目标信息，增强特征的学习能力。

2、本发明设计残差语义嵌入模块，将语义信息自适应地引入到浅层特征中，减小语义层次和空间细节的差距，增强浅层和深层特征的融合。

3、本发明提出的注意力机制，不仅关注通道的重要性，还关注特征中的位置信息，从水平和垂直方向提取图像的特征，将坐标信息与特征值进行关联，增强通道维度的特征提取能力。

4、本发明将加权融合策略来提取两个不同特征层的特征信息，融合这些响应图可以从更多的角度衡量输出之间的相似性，细化挖掘特征的深层信息，有助于获得更稳定的目标位置，进一步提高精度。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种结合注意力机制和加权响应的单目标跟踪方法，其特征在于，包括下列步骤：

2.如权利要求1所述的结合注意力机制和加权响应的单目标跟踪方法，其特征在于，

在步骤1的执行过程中，取输入跟踪模型视频序列的第一帧图像作为初始目标模板，以目标为中心进行裁剪，当裁剪的范围超出图像范围时，缺失的部分用取RGB均值的方式进行常数填充，最终获得的模板图像分辨率为127×127，通道维度为3；搜索图像在视频序列其它帧中获取，获取方式相同，最终分辨率为255×255，通道维度为3。

3.如权利要求2所述的结合注意力机制和加权响应的单目标跟踪方法，其特征在于，

步骤2的执行过程，包括下列步骤：

4.如权利要求3所述的结合注意力机制和加权响应的单目标跟踪方法，其特征在于，

步骤3的执行过程，具体为将第五层卷积块的语义信息通过3×3的卷积核实现通道转换，使用双线性上采样得到第四层浅层卷积块相同的特征尺度，然后进行相乘运算自适应地引入深层特征的语义信息，得到浅层和深层输出的特征图。

5.如权利要求4所述的结合注意力机制和加权响应的单目标跟踪方法，其特征在于，

在步骤4中，PA_Net注意力机制对输入特征的处理包括下列步骤：

对输入特征图X在水平和垂直方向上分别进行全局平均池化；

加入注意力信息，得到最后的特征信息；

将PA_Net注意力机制得到的特征输入到VGG16网络中。

6.如权利要求5所述的结合注意力机制和加权响应的单目标跟踪方法，其特征在于，

步骤5输出的相似度得分响应图，包括通过残差语义嵌入模块的浅层网络后输出相似度的得分响应图，与通过第五个卷积块和注意力机制的深层网络后输出相似度的得分响应图。

7.如权利要求6所述的结合注意力机制和加权响应的单目标跟踪方法，其特征在于，

加权融合策略WSum中的加权公式如下所示：

F＝λ₁gX₁+λ₂gX₂

其中，F是融合后的响应图，X₁，X₂为步骤5的输出特征，λ₁，λ₂为加权系数。