CN112750148B

CN112750148B - 一种基于孪生网络的多尺度目标感知跟踪方法

Info

Publication number: CN112750148B
Application number: CN202110043796.9A
Authority: CN
Inventors: 产思贤; 陶健; 周小龙; 白琮; 郏杨威; 郑竟成; 陈胜勇
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2024-03-22
Anticipated expiration: 2041-01-13
Also published as: CN112750148A

Abstract

一种基于孪生网络的多尺度目标感知跟踪方法，在第一帧会根据标注的目标包围框，在图片中裁切出一块作为模板图片，并输入ResNet网络提取其特征；在后续的跟踪过程中，首先会根据上一帧的目标位置信息在当前帧裁切出一定大小的搜索区域图片；其次输入相同的ResNet网络提取其特征，并与模板特征做像素级相关计算，获得具有两者的相似性信息的相关特征；然后将相关特征依次通过通道注意力模块、非局部注意力模块和无锚的预测模块，获得分类图和一致的边框回归结果；最后，找到分类图中正样本概率最高的位置，并以此找到对应的对象边框；当前帧目标的定位信息预测完毕，进入下一帧循环。

Description

一种基于孪生网络的多尺度目标感知跟踪方法

技术领域

本发明属于图像处理领域，是一种基于孪生网络的多尺度目标感知跟踪方法。

背景技术

目标跟踪是计算机视觉领域的重要研究方向之一，在机器人、人机交互、军事侦查、智能交通、虚拟现实等军事、民用领域都有广泛的应用。近年来，许多学者在目标跟踪方面开展了大量工作，并取得了一定的进展。但是，在复杂环境中仍存在目标外观变形(目标纹理、形状、姿态变化等)、光照变化、快速运动和运动模糊、背景相似干扰、平面内外旋转、尺度变化、遮挡和出视野等难题，使得复杂环境下稳定实时的目标跟踪仍然是一个具有挑战性的问题。

基于孪生网络的***通过学习模板特征和搜索特征生成的相似性相关特征来预测目标在当前帧的位置信息，成功的将目标跟踪问题转换为相似性度量问题。SiamFC通过学习从基础相关(-correlation)获得的单通道相似响应图来预测目标的边界框，从而取得了开创性的工作。然而，单通道响应图难以包含多尺度空间信息，对精确跟踪具有一定的局限性。为了克服跟踪过程中由于物体或相机运动引起的尺度变化，SiamRPN采用更好的相关方法获取更多的空间信息，并引入区域建议网络(RPN)，利用精心设计的锚盒(anchor)对不同尺度的目标进行预测。SiamRPN++通过使用深度相关方法将相关特征的通道数增加到了256，同时使用了不同深度的ResNet的特征进行目标跟踪，极大的提升了跟踪精度。近年来，学者们发现预先设计的锚盒无法应对跟踪过程中的极端情况。因此，设计了更健壮、更准确的无锚***。然而，尽管有一些方法来解决跟踪过程中尺度变化的挑战。我们发现还有一个关键问题没有得到多少关注。当跟踪过程需要预测不同宽高比的包围框时，固定的方形的感受野引入了过多的背景噪声，导致跟踪漂移。这限制于以往的特征相关方法。模板特征的固定尺寸将导致相关特征中的每个位置都有一个固定的感受野。之后，固定尺寸(正方形)的感受野会使相关特征难以匹配到不同形状的物体。

发明内容

为了克服现有技术的不足，本发明提供一种基于孪生网络的多尺度目标感知跟踪方法，能够有效的获取分割图像的多尺度信息，从而提高了图像分割的精度。

为了解决上述技术问题本发明提供如下的技术方案：

一种基于孪生网络的多尺度目标感知跟踪方法，所述方法包括以下步骤：

S1.精细的特征聚合，过程如下：

S1.1根据视频序列第一帧获得的图片I₁和目标的包围框信息B₁，进行切片和变形获得跟踪模板Z₁，在后续跟踪过程中，根据上一帧的跟踪结果B_i-1，对输入的图片I_i，i∈[2，n]进行切片和变形获得搜索图片X_i；

S1.2将获得的跟踪模板Z₁和搜索图片X_i输入预训练好的深度残差网络“ResNet-50”，获得深度特征和/>模型会收集深度残差网络后三层(CONV3，CONV4，CONV5)输出的特征获得模板特征/>l∈{3，4，5}和搜索特征/>l∈{3，4，5}；

S1.3将模板特征分解成h×w个子卷积核/>i∈{1，...，hw}。然后，将每个子卷积核与搜索特征/>进行基础相关(/>-correlation)后按通道进行连结，数学表达式如下：

其中，*表示基础相关计算，最后，将获得的特征l∈{3，4，5}和/>l∈{3，4，5}两两进行像素级相关(pixel-wise correlation)后按通道连结；

S2.注意力处理过程如下：

S2.1将相关特征R^C输入通道注意力模块SENet中，首先，将相关特征R^C每一层的特征图通过全局平均池化层(global average pooling layer)压缩成一条向量。

其中H和W是相关特征R^C高和宽，然后将向量输入一个两层的多层感知机(multi-layer perception)，最后，使用sigmoid函数将通道注意力权重映射到0-1区间，数学表达式如下：

其中，和/>是两个全连接层，σ表示sigmoid激活函数，A_c是获得的通道注意力权值，将通道注意力权值A^C与相关特征R^C逐通道进行元素间的相乘：

其中⊙表示扩展的元素方式乘法(broadcasting element-wise multiplication)；

S2.2利用非局部注意力(Non-Local attention)来聚合全局上下文信息，首先将特征输入三个并行1X1卷积层(θ，φ，g)降低特征通道数，获得三个特征X_θ，X_φ，X_g后进行变形操作获得/>最后，通过矩阵乘法和softmax函数计算特征不同位置之间的响应值，数学表达式如下：

其中，表示矩阵乘法，然后再将A_NL与/>矩阵乘法后通过一个1X1层卷积层/>恢复通道数，最后原始特征/>相加完成非局部注意力的优化过程：

其中，表示元素间的求和。/>与/>的尺寸一直，r1和r2都设置为1；

S3多尺度对象感知，过程如下：

S3.1将相关特征R^A并行输入三个相似的卷积模块Φ_a，b，(a，b)∈{(7，7)，(7，13)，(13，7)}，然后将获得的三个特征Φ_a，b(R^A)，(a，b)∈{(7，7)，(7，13)，(13，7)}按比例线性相加；

其中，a和b表示该卷积模块的总卷积核尺寸，X_MOP是聚合多尺度对象信息后的特征，α_a，b是与网络一起训练的超参数；为了降低算力负担，分别使用串联的三个小卷积层(kernel size＝(3，3)，stride＝1padding＝(0，0))Φ_7，7，串联的三个小卷积层(kernelsize＝(3，5)，stride＝1，padding＝(0，1))表示Φ_7，13，串联的三个小卷积层(kernel size＝(5，3)，stride＝1，padding＝(1，1))表示Φ_13，7，如此，这三个卷积模块分别具有不同的宽高比的卷积感受野；

S4无锚预测过程如下：

S4.1将X_MOP分别输入分类分支和边框回归分支，获得分类预测结果预测的是搜索区域中固定位置(p_i，p_j)中包含目标的概率和不包含目标的概率；

其中w_im，h_im和s分别表示搜索图片的宽和高以及ResNet的总步长，这里的w＝h＝25，w_im＝h_im＝255，s＝8，边框回归分支预测结果为预测的是固定区域中心点到四个边框的距离；

l＝p_i-x₀，t＝p_j-y₀，r＝x₁-p_i，b＝y₁-，p_j其中，(x₀，y₀)和(x₁，y₁)分别表示目标包围框的左上和右下两个角点的坐标；

S4.2找到P^Cls中最大的正样本响应位置后，去P^Reg中查找包围框结果，最终获得目标跟踪结果。

进一步，所述方法还包括以下步骤：

S5训练流程如下；

S5.1对训练数据集进行预处理，选取视频序列中间隔为T的两帧，根据标注信息，依照S1.1的方法裁切模板图片和搜索图片到127×127和255×255尺寸；

S5.2样本标签选取，依照大小不同的两个椭圆来分配正样本(1)、负样本(0)和忽视样本(-1)，数学公式如下：

其中，(p_i，p_j)是搜索图中固定锚点的位置，表示搜索图中目标的中心点和宽高；

S5.3依次经过S1-S4.1后，分类损失L_Cls和回归损失L_Reg分别是交叉熵损失和线性IOU(lntersection over Union)，其中L_Cls定义如下：

其中P^Cls是预测结果，L_Reg定义如下：

其中，是/>中的正样本标签，P^Reg和G分别是预测结果和目标的标注结果，最后总体的损失函数为：

L＝L_Cls+L_Reg (5)；

S5.4训练过程中，批处理大小为128，学习率从0.001下降到0.0005，使用随机梯度下降算法(Stochastic Gradient Descent，SGD)迭代训练20次并保存每次迭代结果，前十次迭代冻结ResNet的参数，后十次迭代以整体网络学习率的十分之一开始训练。

一种基于孪生网络的多尺度目标感知跟踪***(SiamMOP)，包括以下四个子模块：精细特征聚合模块、注意力模块(包括通道注意力模块和非局部力注意模块)、多尺度对象感知模块(MOP)和无锚模块，SiamMOP从共享的特征提取网络ResNet开始，通过精细特征聚合模块聚合模板块和搜索块之间的特征信息；然后注意力模块结合模板特征的关键局部信息和搜索特征的上下文背景信息对相关特征进行微调；MOP模块集成了不同长宽比的相似性信息，确保每个正样本位置都能匹配不同宽高比的对象信息；无锚预测会将输入的特征进行降维，获得通道数为2的分类图和通道数为4的边框回归结果。最终算法根据分类图和边框回归结果就可以定位跟踪目标。

本发明的有益效果为：能够有效的获取跟踪区域的多尺度信息，从而提高了目标跟踪的精度。

附图说明

图1是SiamMOP的整体网络框架图。

图2是第一帧裁切的模板图。

图3是当前帧裁切的搜索图。

图4是通道注意力模块的网络框架图。

图5是非局部注意力模块的网络框架图。

图6是多尺度对象感知模块的网络框架图。

图7是无锚的预测模块的网络框架图。

图8是一种基于孪生网络的多尺度目标感知跟踪方法的跟踪流程图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图7，一种基于孪生网络的多尺度目标感知跟踪方法，包括以下步骤：

S1.精细的特征聚合，过程如下：

S1.1根据视频序列第一帧获得的图片I₁和目标的包围框信息B₁，进行切片和变形获得跟踪模板Z₁，如图2所示；在后续跟踪过程中，根据上一帧的跟踪结果B_i-1，对输入的图片I_i，i∈[2，n]进行切片和变形获得搜索图片X_i，如图3所示；

S2.注意力处理过程如下：

S2.1如图4所示是本发明的通道注意力模块网络图。将相关特征R^C输入通道注意力模块SENet中，首先，将相关特征R^C每一层的特征图通过全局平均池化层(globalaverage pooling layer)压缩成一条向量；

其中⊙表示扩展的元素方式乘法(broadcasting element-wise multiplication)，

S2.2如图5所示是本发明的非局部注意力模块网络图，利用非局部注意力(Non-Local attention)来聚合全局上下文信息，首先将特征输入三个并行1×1卷积层(θ，φ，g)降低特征通道数，获得三个特征X_θ，X_φ，X_g后进行变形操作获得最后，通过矩阵乘法和softmax函数计算特征不同位置之间的响应值，数学表达式如下：

其中，表示矩阵乘法，然后再将A_NL与/>矩阵乘法后通过一个1×1层卷积层/>恢复通道数，最后原始特征/>相加完成非局部注意力的优化过程：

其中，表示元素间的求和，/>与/>的尺寸一直，r1和r2都设置为1；

S3多尺度对象感知，过程如下：

S3.1如图6所示是本发明的多尺度对象感知模块网络图，将相关特征R^A并行输入三个相似的卷积模块Φ_a，b，(a，b)∈{(7，7)，(7，13)，(13，7)}，这三个卷积模块分别再图6中的上中下三个分支，然后将获得的三个特征Φ_a，b(R^A)，(a，b)∈{(7，7)，(7，13)，(13，7)}按比例线性相加；

其中，a和b表示该卷积模块的总卷积核尺寸，X_MOP是聚合多尺度对象信息后的特征，α_a，b是与网络一起训练的超参数，为了降低算力负担，分别使用串联的三个小卷积层(kernel size＝(3，3)，stride＝1padding＝(0，0))Φ_7，7，串联的三个小卷积层(kernelsize＝(3，5)，stride＝1，padding＝(0，1))表示Φ_7，13，串联的三个小卷积层(kernel size＝(5，3)，stride＝1，padding＝(1，1))表示Φ_13，7。如此，这三个卷积模块分别具有不同的宽高比的卷积感受野；

S4无锚的预测，过程如下：

S4.1如图7所示是本发明的无锚的预测模块网络图，将X_MOP分别输入分类分支和边框回归分支，获得分类预测结果预测的是搜索区域中固定位置(p_i，p_j)中包含目标的概率和不包含目标的概率；

其中w_im，h_im和s分别表示搜索图片的宽和高以及ResNet的总步长，这里的w＝h＝25，w_im＝h_im＝255，s＝8，边框回归分支预测结果为预测的是固定区域中心点到四个边框的距离，

l＝p_i-x₀，t＝p_j-y₀，r＝x₁-p_i，b＝y₁-，p_j其中，(x₀，y₀)和(x₁，y₁)分别表示目标包围框的左上和右下两个角点的坐标，

S4.2找到P^Cls中最大的正样本响应位置后，去P^Reg中查找包围框结果，最终获得目标跟踪结果；

S5训练流程如下：

其中P^Cls是预测结果，L_Reg定义如下：

L＝L_Cls+L_Reg (5)

本实施例的基于孪生网络的多尺度目标感知跟踪***(SiamMOP)包括以下四个子模块：精细特征聚合模块、注意力模块(包括通道注意力模块和非局部力注意模块)、多尺度对象感知模块(MOP)和无锚的预测模块，如图1所示，SiamMOP从共享的特征提取网络ResNet开始，通过精细特征聚合模块聚合模板块和搜索块之间的特征信息；然后注意力模块结合模板特征的关键局部信息和搜索特征的上下文背景信息对相关特征进行微调；此外，MOP模块集成了不同长宽比的相似性信息，确保每个正样本位置都能匹配不同宽高比的对象信息；无锚的预测模块会将输入的特征进行降维，获得通道数为2的分类图和通道数为4的边框回归结果。最终算法根据分类图和边框回归结果就可以定位跟踪目标。

如图8所示，本发明在第一帧会根据标注的目标包围框，在图片中裁切出一块作为模板图片，并输入ResNet网络提取其特征。在后续的跟踪过程中，首先会根据上一帧的目标位置信息在当前帧裁切出一定大小的搜索区域图片。其次输入相同的ResNet网络提取其特征，并与模板特征做像素级相关计算，获得具有两者的相似性信息的相关特征。然后将相关特征依次通过通道注意力模块、非局部注意力模块和无锚的预测模块，获得分类图和一致的边框回归结果。最后，找到分类图中正样本概率最高的位置，并以此找到对应的对象边框。当前帧目标的定位信息预测完毕，进入下一帧循环。

Claims

1.一种基于孪生网络的多尺度目标感知跟踪方法，其特征在于，所述方法包括以下步骤：

S1.精细的特征聚合，过程如下：

S1.2将获得的跟踪模板Z₁和搜索图片X_i输入预训练好的深度残差网络“ResNet-50”，获得深度特征和/>模型会收集深度残差网络后三层CONV3，CONV4，CONV5输出的特征获得模板特征/> 和搜索特征/>

S1.3将模板特征分解成h×w个子卷积核/>然后，将每个子卷积核与搜索特征/>进行基础相关naive-correlation后按通道进行连结，数学表达式如下：

其中，*表示基础相关计算，最后，将获得的特征和/> 两两进行像素级相关pixel-wise correlation后按通道连结；

S2.注意力处理过程如下：

S2.1将相关特征R^C输入通道注意力模块SENet中，首先，将相关特征R^C每一层的特征图通过全局平均池化层压缩成一条向量；

其中H和W是相关特征R^C高和宽，然后将向量输入一个两层的多层感知机，最后，使用sigmoid函数将通道注意力权重映射到0-1区间，数学表达式如下：

其中⊙表示扩展的元素方式乘法；

S2.2利用非局部注意力Non-Local attention来聚合全局上下文信息，首先将特征输入三个并行1X1卷积层(θ，φ，g)降低特征通道数，获得三个特征X_θ，X_φ，X_g后进行变形操作获得/>最后，通过矩阵乘法和softmax函数计算特征不同位置之间的响应值，数学表达式如下：

S3多尺度对象感知，过程如下：

S3.1将相关特征R^A并行输入三个相似的卷积模块Φ_a，b，(a，b)∈{(7,7)，(7，13)，(13,7)}，然后将获得的三个特征Φ_a，b(R^A)，(a，b)∈{(7,7)，(7，13)，(13,7)}按比例线性相加；

其中，a和b表示该卷积模块的总卷积核尺寸，X_MOP是聚合多尺度对象信息后的特征，α_a，b是与网络一起训练的超参数；为了降低算力负担，分别使用串联的三个小卷积层kernelsize＝(3，3)，stride＝1,padding＝(0，0)表示Φ_7，7，串联的三个小卷积层kernel size＝(3，5)，stride＝1，padding＝(0，1)表示Φ_7，13，串联的三个小卷积层kernel size＝(5，3)，stride＝1,padding＝(1，1)表示Φ_13，7，如此，这三个卷积模块分别具有不同的宽高比的卷积感受野；

S4无锚预测过程如下：

l＝p_i-x₀，t＝p_j-y₀，r＝x₁-p_i，b＝y₁-，p_j

其中，(x₀，y₀)和(x₁，y₁)分别表示目标包围框的左上和右下两个角点的坐标；

2.如权利要求1所述的一种基于孪生网络的多尺度目标感知跟踪方法，其特征在于，所述方法还包括以下步骤：

S5训练流程如下；

S5.3依次经过S1-S4.1后，分类损失L_Cls和回归损失L_Reg分别是交叉熵损失和线性IOU，其中L_Cls定义如下：

其中P^Cls是预测结果，L_Reg定义如下：

L＝L_Cls+L_Reg (5)；

S5.4训练过程中，批处理大小为128，学习率从0.001下降到0.0005，使用随机梯度下降算法迭代训练20次并保存每次迭代结果，前十次迭代冻结ResNet的参数，后十次迭代以整体网络学习率的十分之一开始训练。