CN112200870B

CN112200870B - 基于孪生网络的分类和位置损失相结合的单目标跟踪方法

Info

Publication number: CN112200870B
Application number: CN202011188664.7A
Authority: CN
Inventors: 鄢展锋; 姚敏
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2024-03-12
Anticipated expiration: 2040-10-30
Also published as: CN112200870A

Abstract

本发明提供基于孪生网络的分类和位置损失相结合的单目标跟踪方法，包括：确定裁剪后的模板和搜索区域大小，将区域作为模型的输入；以残差网络为主干网络，取最后三个块的卷积特征图；一条支路选取块对应的模板和搜索区域的特征图，计算每个块对应的响应图，得到分类结果，将三个分类误差做线性叠加；计算另一条支路最后一个块对应的卷积层做位置回归的损失，将取到的模板区域对应的卷积特征按通道方向进行升维，进行互相关操作，得到目标盒和真实框的中心点和宽高的偏差；计算两条支路的总损失。本发明基于孪生网络的分类和位置损失相结合的单目标跟踪方法，通过修改后的残差对预处理好的图片进行特征提取，使得不同块的输出大小一致。

Description

基于孪生网络的分类和位置损失相结合的单目标跟踪方法

技术领域

本发明涉及计算机视觉数字图像处理技术领域，特别涉及基于孪生网络的分类和位置损失相结合的单目标跟踪方法。

背景技术

孪生网络(Siamese Network)是一种用于度量学习的监督模型。通常来说，一个孪生网络有两个输入，将它们分别喂进两个共享权值的神经网络，然后在最后一层对两个特征向量做一个相似度损失函数，以找到匹配两个输入的相似度。

残差网络(ResNet)是更深的神经网络，它能抑制随着网络的加深而出现的退化问题。残差网络由一系列残差块(Residual Block)组成，一个残差块可以表示为：

x_l+1＝x_l+F(x_l,W_l)

其中，x_l是输入特征，F(x_l,W_l)是对输入特征进行若干卷积操作，x_l+1是输出特征。

锚(anchor)是一组预设的边框，它先大致在可能的位置框出目标，然后再在这些预设的边框基础上进行调整。锚由边框的纵横比(ratio)和边框的尺度(scale)来定义，相当于一系列预设边框的生成规则，它可以在图像的任意位置生成一系列的边框。一般来说，锚以卷积神经网络提取到的特征图的点为中心位置，根据上面所述的规则来生成目标框。

常用的三组纵横比为0.5、1和2，三种尺度为8、16和32，这可以组合成九种不同形状和大小的边框。举个例子，设矩形框的面积s＝16×16，矩形框的宽和高分别为空w和h，则有：

化简得：

加入尺度因子后可得到九种不同的矩形框，如下所示：

如何更准确以及更迅速地找到目标位置成为亟待解决的问题。

发明内容

本发明的目的在于提供一种基于孪生网络的分类和位置损失相结合的单目标跟踪方法，以解决如何更准确以及更迅速地找到目标位置的问题。

为了解决上述技术问题，本发明的技术方案是：提供基于孪生网络的分类和位置损失相结合的单目标跟踪方法，包括以下步骤：

步骤一、确定裁剪后的模板和搜索区域大小，将所述区域作为模型的输入；

步骤二、以残差网络为主干网络，取最后三个块的卷积特征图；

步骤三、一条支路选取块对应的模板和搜索区域的特征图，计算每个块对应的响应图，得到分类结果，将三个分类误差做线性叠加，训练阶段通过结合不同块的分类误差来调整标错目标的可能性，在测试阶段用最后一个块进行分类；

步骤四、计算另一条支路最后一个块对应的卷积层做位置回归的损失，将取到的模板区域对应的积特征按通道方向进行升维，维度变为原来的四乘以设定的目标盒数，然后进行互相关操作，得到目标盒和真实框的中心点和宽高的偏差；

步骤五、计算两条支路的总损失。

进一步地，在步骤三中，根据提取的块对应的卷积特征图进行互相关操作，计算分类损失总和：将相同块得到的模板特征升维后做互相关操作，得到每个目标盒被分到前景和背景的概率，计算不同块的分类损失加权求和，公式如下：

L_cls＝α₁L₁+α₂L₂+α₃L₃

其中，L表示第i个块的分类损失，为二分类交叉熵损失函数；α表示对应分类损失的权重。

进一步地，在步骤四中，计算目标位置回归与真实值的误差的公式：其中，x表示预测框和真实框之间逐元素的差异，参数σ控制区域的平滑，σ取3；/>其中，R是smooth_L1函数，t_i和/>分别表示预测锚的偏移量和真实框的偏移量。对于每一个锚，计算完L_reg部分后乘以p^*，p^*表示物体时为1，没有物体时为0。

进一步地，在步骤五中，将两条支路的结果按一定的权重进行线性相加，两条支路总损失的计算公式:L_total＝αL_cls+γL_reg

其中，L_cls是分类支路损失，α是分类支路所占比重，L_reg是回归支路损失，γ是回归支路所占比重。

本发明提供的基于孪生网络的分类和位置损失相结合的单目标跟踪方法，通过修改后的残差对预处理好的图片进行特征提取，使得不同块的输出大小一致。在训练阶段，一条支路通过线性加权不同块间的分类损失来辅助定位目标的中心，另一条支路计算位置回归损失来生成更合适大小的目标框。在测试阶段，只用最后一个块的分类和位置回归结果，既提高了成功率和精度的基础上，又提升了速度。

附图说明

下面结合附图对发明作进一步说明：

图1为本发明实施例提供的基于孪生网络的分类和位置损失相结合的单目标跟踪方法步骤流程示意图。

具体实施方式

以下结合附图和具体实施例对本发明提出的基于孪生网络的分类和位置损失相结合的单目标跟踪方法作进一步详细说明。根据下面说明和权利要求书，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比率，仅用以方便、明晰地辅助说明本发明实施例的目的。

本发明的核心思想在于，本发明提供的基于孪生网络的分类和位置损失相结合的单目标跟踪方法，通过修改后的残差对预处理好的图片进行特征提取，使得不同块的输出大小一致。在训练阶段，一条支路通过线性加权不同块间的分类损失来辅助定位目标的中心，另一条支路计算位置回归损失来生成更合适大小的目标框。在测试阶段，只用最后一个块的分类和位置回归结果，既提高了成功率和精度的基础上，又提升了速度。

本发明的技术方案提供基于孪生网络的分类和位置损失相结合的单目标跟踪方法，图1为本发明实施例提供的基于孪生网络的分类和位置损失相结合的单目标跟踪方法步骤流程示意图。参照图1，提供基于孪生网络的分类和位置损失相结合的单目标跟踪方法，包括以下步骤：

S11、确定裁剪后的模板和搜索区域大小，将所述区域作为模型的输入；

S12、以残差网络为主干网络，取最后三个块的卷积特征图；

S13、一条支路选取块对应的模板和搜索区域的特征图，计算每个块对应的响应图，得到分类结果，将三个分类误差做线性叠加，训练阶段通过结合不同块的分类误差来调整标错目标的可能性，在测试阶段用最后一个块进行分类；

S14、计算另一条支路最后一个块对应的卷积层做位置回归的损失，将取到的模板区域对应的积特征按通道方向进行升维，维度变为原来的四乘以设定的目标盒数，然后进行互相关操作，得到目标盒和真实框的中心点和宽高的偏差；

S15、计算两条支路的总损失。

首先，在S11中，确定裁剪后的模板区域大小为127，如果超出原图像边界，以图像的均值作为边缘填充；确定裁剪后的搜索区域大小为255；以模板和搜索区域作为两个输入，经过参数完全相同的主干网络。

在S12中，修改原始的残差网络，确保最后三个块的卷积特征图大小相等，去掉最后三个块的步长，同时加入了膨胀卷积，是为了增加感受野。在本发明实施例中，将裁剪好的区域作为模型的输入，分别得到不同块对应的模板区域特征图的大小是15x15x512、15x15x1024和15x15x2048，搜索区域特征图的大小是31x31x512、31x31x1024和31x31x2048。

分别取每个块的模板特征和搜索区域特征做互相关操作，具体公式表达为：

其中，和/>表示模板区域述z和搜索区域x经过相同卷积操作后得到的第i个块的特征映射，*表示响应图的内积，b1表示内积。

线性加权每个块分类的结果，具体公式表达为：

L_cls＝α₁L₁+α₂L₂+α₃L₃

其中，L表示第i个块的分类损失，α表示对应分类损失的权重。

计算目标位置回归与真实值的误差的公式：

其中，x表示预测框和真实框之间逐元素的差异，参数σ控制区域的平滑，σ取3；

其中，R是smooth_L1函数，t_i和分别表示预测锚的偏移量和真实框的偏移量。对于每一个锚，计算完L_reg部分后乘以p^*，p^*为有物体时(positive)为1，没有物体时(negative)为0，意味着只有前景才计算损失，背景不计算损失。

在步骤五中，将两条支路的结果按一定的权重进行线性相加，两条支路总损失的计算公式:L_total＝αL_cls+γL_reg，其中，L_cls是分类支路损失，α是分类支路所占比重，L_reg是回归支路损失，γ是回归支路所占比重。

显然，本领域的技术人员可以对本发明进行各种改动和变形而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于孪生网络的分类和位置损失相结合的单目标跟踪方法，其特征在于，包括以下步骤：

步骤三、一条支路选取块对应的模板和搜索区域的特征图，计算每个块对应的响应图，得到分类结果，将三个分类误差做线性叠加，训练阶段通过结合不同块的分类误差来调整标错目标的可能性，在测试阶段用最后一个块进行分类，根据提取的块对应的卷积特征图进行互相关操作，计算分类损失总和：将相同块得到的模板特征升维后做互相关操作，得到每个目标盒被分到前景和背景的概率，计算不同块的分类损失加权求和，公式如下：

L_cls＝α₁L₁+α₂L₂+α₃L₃

其中，L表示第i个块的分类损失，为二分类交叉熵损失函数；α表示对应分类损失的权重；

步骤四、计算另一条支路最后一个块对应的卷积层做位置回归的损失，将取到的模板区域对应的卷积特征按通道方向进行升维，维度变为原来的四乘以设定的目标盒数，然后进行互相关操作，得到目标盒和真实框的中心点和宽高的偏_L差，计算目标位置回归与真实值的误差的公式：

其中，x表示预测框和真实框之间逐元素的差异，参数σ控制区域的平滑，σ取3；/>其中，R是smooth_L1函数，t_i和/>分别表示预测锚的偏移量和真实框的偏移量；对于每一个锚，计算完L_reg部**

分后乘以p，p表示物体时为1，没有物体时为0；

步骤五、计算两条支路的总损失。

2.如权利要求1所述的孪生网络的分类和位置损失相结合的单目标跟踪方法，其特征在于，在步骤五中，将两条支路的结果按一定的权重进行线性相加，两条支路总损失的计算公式:L_total＝αL_cls+γL_reg，其中，L_cls是分类支路损失，α是分类支路所占比重，L_reg是回归支路损失，γ是回归支路所占比重。