CN107818575A

CN107818575A - 一种基于分层卷积的视觉对象跟踪方法

Info

Publication number: CN107818575A
Application number: CN201711022515.1A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2018-03-20

Abstract

本发明中提出的一种基于分层卷积的视觉对象跟踪方法，其主要内容包括：分层卷积、相关性滤波器、粗略到精细的翻译估计、区域提案和模型更新，其过程为，先利用卷积层中的分层特征，使用双线性插值将每个特征图调整到更大的固定尺寸，接着将输入特征的循环版本归一化为高斯函数产生的软目标分数，并搜索目标对象响应图上的最大值，然后给定相关响应映射集，分层推断每一层的目标翻译，计算每个提案的置信度分数，保持目标外观的长期记忆，最后通过最小化输出误差来更新最优滤波器。本发明减轻了采样模糊度，减少了跟踪漂移，减少了由于照明变化、遮挡、背景杂交、突然运动以及目标移出视野等原因导致的错误，提高了识别的准确性和鲁棒性。

Description

一种基于分层卷积的视觉对象跟踪方法

技术领域

本发明涉及视觉对象跟踪领域，尤其是涉及了一种基于分层卷积的视觉对象跟踪方法。

背景技术

随着计算机性能的改善和视觉技术的发展，视觉对象的跟踪与检测越来越受到研究人员的关注。视觉对象跟踪将会在未来具有极为广阔的应用前景：如计算机人机交互，利用视觉跟踪识别人的手势、哑语，使残疾人或在特殊工作环境工作的人也能操作计算机；通过视觉跟踪获取外界环境的位置、形状与运动速度，从而用于无人驾驶车辆或各种移动式机器人的导航；利用视觉跟踪方法分析医学图像中物体的信息和运动参数，可以很好地给医生重点信息的提醒，辅助医生做出医疗诊断，甚至在临床手术中帮助医生进行定位和引导；还可以运用到虚拟场景的建立，实现人脸的合成和表情的合成，从而实现卡通画效果、油画效果等，甚至应用到电影和游戏中。然而，视觉跟踪的目标对象常常受到变形、突然运动、背景杂波和闭塞引起显着外观变化，使得视觉跟踪的准确性下降，同时外观变化导致空间分辨率降低，无法精确地定位目标。

本发明提出了一种基于分层卷积的视觉对象跟踪方法，先利用卷积层中的分层特征，使用双线性插值将每个特征图调整到更大的固定尺寸，接着将输入特征的循环版本归一化为高斯函数产生的软目标分数，并搜索目标对象响应图上的最大值，然后给定相关响应映射集，分层推断每一层的目标翻译，计算每个提案的置信度分数，保持目标外观的长期记忆，最后通过最小化输出误差来更新最优滤波器。本发明减轻了采样模糊度，减少了跟踪漂移，减少了由于照明变化、遮挡、背景杂交、突然运动以及目标移出视野等原因导致的错误，提高了识别的准确性和鲁棒性。

发明内容

针对视觉跟踪的准确性下降的问题，本发明的目的在于提供一种基于分层卷积的视觉对象跟踪方法，先利用卷积层中的分层特征，使用双线性插值将每个特征图调整到更大的固定尺寸，接着将输入特征的循环版本归一化为高斯函数产生的软目标分数，并搜索目标对象响应图上的最大值，然后给定相关响应映射集，分层推断每一层的目标翻译，计算每个提案的置信度分数，保持目标外观的长期记忆，最后通过最小化输出误差来更新最优滤波器。

为解决上述问题，本发明提供一种基于分层卷积的视觉对象跟踪方法，其主要内容包括：

(一)分层卷积；

(二)相关性滤波器；

(三)粗略到精细的翻译估计；

(四)区域提案；

(五)模型更新。

其中，所述的分层卷积，使用来自卷积神经网络(CNN)的卷积特征图，随着特征被传播到更深层次，不同类别的对象之间的语义歧视得到加强，而空间分辨率也逐渐降低；删除完全连接的层，因此显示出1×1像素的空间分辨率，并且仅利用卷积层中的分层特征。

进一步地，所述的分层特征，由于使用池操作，随着CNN深度的增加，目标对象的空间分辨率逐渐降低；例如，VGGNet(神经网络结构)中池层5的卷积特征图为7×7像素，是224×224像素的输入图像大小的1/32；由于用这样低的空间分辨率准确地定位对象是不可行的，因此通过使用双线性插值将每个特征图调整到更大的固定尺寸来减轻这个问题；令h表示特征图，x表示上采样的特征图；第i个位置的特征向量为：

其中，内插权重α_ik分别取决于i和k个相邻特征向量的位置。

其中，所述的相关性滤波器，典型的相关***将输入特征的循环版本归一化为由高斯函数产生的软目标分数，并搜索目标对象响应图上的最大值；由于学习相关滤波器不需要二进制(硬阈值)采样，所以这些***有效地减轻了对大多数跟踪检测方法具有不利影响的采样模糊度问题；通过利用完整的一组移位样本，使用快速傅立叶变换(FFT)用相当大量的训练样本有效地训练相关滤波器；该数据增加有助于区分目标与其周围的背景，使用每个卷积层的输出作为多通道特征。

进一步地，所述的卷积层，令x为尺寸M×N×D的特征向量的第l层，其中，M、N和D分别表示特征信道的宽度、高度和数量；这里将x^(l)简洁地表示为x，忽略层索引l上的M、N和D；考虑沿着M和N维度的特征x的所有循环移位版本作为训练样本；每个移位样本x_ij,(i,j)∈{0,1,…,M-1}×{0,1,…,N-1}具有高斯函数标签其中，σ是内核宽度；目标中心有零位，因此有最高得分当位置(i,j)逐渐离开目标中心时，得分y_ij从1迅速衰减到零；通过解决以下最小化问题来学习相同大小的x的相关滤波器w：

其中，λ是正则化参数(λ≥0)，线性积被定义为由于标签y_ij被定义，因此不再需要硬阈值样本。

进一步地，所述的傅立叶变换，令大写字母表示相应的傅里叶变换信号；第d个频道(d∈{1,…,D})的频域学习滤波器为：

其中，Y是y＝y_ij|(i,j)∈{{0,1,…,M-1}×{0,1,…,N-1}}的傅里叶变换形式；符号|表示复共轭；运算符⊙是哈达玛(元素)结果；给定下一帧中的图像补丁，将z表示为第l层上的特征向量，大小为M×N×D；然后，计算第l相关响应图：

其中，运算符表示逆FFT变换；通过在尺寸为M×N的响应图f(z)上搜索具有最大值的位置，可以基于第l卷积层估计目标位置。

其中，所述的粗略到精细的翻译估计，给定相关响应映射集{f_l}，分层推断每一层的目标翻译，即最后一层中具有最大值的位置被用作搜索较早层最大值的正则化；令f_l(m,n)为第l层位置(m,n)的响应值，表示的位置f_l的最大值；通过以下方式将目标定位在第l-1层：

约束表示只搜索第l-1个相关响应图上的的r×r个相邻区域；来自最后层的响应值由正则化项μ_l加权，然后被传播到早期层的响应图；最终通过在最好的空间分辨率的层上最大化公式(5)来估计目标位置；实际上，跟踪结果对邻域搜索约束的参数r不敏感；

这相当于计算来自多个层的响应图的加权平均，以推断目标位置，如上式所示。

进一步地，所述的响应图，为了选择响应图的权重，考虑以下两个因素；首先，对于来自最后卷积层的响应图，使用较大的权重，因为它们捕获对外观变化是鲁棒的语义；将权重参数μ_l从第l层降低到第l-1层：

μ_l∝2^l-5 (7)

其中，l＝5,4,3；

其次，来自不同卷积层的相关响应图经常具有不一致的范围，例如，来自conv5-4层的响应图的最大值通常小于来自conv3-4层的响应图的最大值；通过将权重参数μ_l设置为与第l个响应映射f_l的最大值成反比来解决这个问题：

仅使用公式(8)时，硬权重是仅使用公式(7)时，μ_l＝2^l-5；软权重是同时使用公式(7)和公式(8)；由于公式(8)相当于对每个响应图进行最大化归一化，所以重新排列公式(6)-(8)为软权重方案，以通过下式定位目标对象：

其中，μ_l＝2^l-5。

其中，所述的区域提案，提出的两种区域提案分别为缩小步长小且紧邻估计目标位置的建议B_s，以及具有大步长和整个图像的检测方案B_d；将B_s或B_d中的每个提案b表示为候选边界框(x,y,w,h)，其中，(x,y)是中心轴，(w,h)是宽度和高度；为了计算每个提案b的置信度分数，学习具有保守学习率的另一个相关性滤波器，以保持目标外观的长期记忆；通过conv3-4层学习这个过滤器来编码更多的空间细节来区分小尺度变化；给定一个提案b，用g(b)表示长期记忆相关性滤波器的最大滤波响应。

其中，所述的模型更新，通过最小化在时间t的所有跟踪结果的输出误差来更新第l层上的最优滤波器；为了获得更好的近似，使用移动平均值更新公式(3)中的相关滤波器W^d：

其中，t是帧的索引，η是学习率。

附图说明

图1是本发明一种基于分层卷积的视觉对象跟踪方法的***框架图。

图2是本发明一种基于分层卷积的视觉对象跟踪方法的分层特征。

图3是本发明一种基于分层卷积的视觉对象跟踪方法的响应图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于分层卷积的视觉对象跟踪方法的***框架图。主要包括分层卷积，相关性滤波器，粗略到精细的翻译估计，区域提案和模型更新。

分层卷积，使用来自卷积神经网络(CNN)的卷积特征图，随着特征被传播到更深层次，不同类别的对象之间的语义歧视得到加强，而空间分辨率也逐渐降低；删除完全连接的层，因此显示出1×1像素的空间分辨率，并且仅利用卷积层中的分层特征。

相关性滤波器，典型的相关***将输入特征的循环版本归一化为由高斯函数产生的软目标分数，并搜索目标对象响应图上的最大值；由于学习相关滤波器不需要二进制(硬阈值)采样，所以这些***有效地减轻了对大多数跟踪检测方法具有不利影响的采样模糊度问题；通过利用完整的一组移位样本，使用快速傅立叶变换(FFT)用相当大量的训练样本有效地训练相关滤波器；该数据增加有助于区分目标与其周围的背景，使用每个卷积层的输出作为多通道特征。

令x为尺寸M×N×D的特征向量的第l层，其中，M、N和D分别表示特征信道的宽度、高度和数量；这里将x^(l)简洁地表示为x，忽略层索引l上的M、N和D；考虑沿着M和N维度的特征x的所有循环移位版本作为训练样本；每个移位样本x_ij,(i,j)∈{0,1,…,M-1}×{0,1,…,N-1}具有高斯函数标签其中，σ是内核宽度；目标中心有零位，因此有最高得分当位置(i,j)逐渐离开目标中心时，得分y_ij从1迅速衰减到零；通过解决以下最小化问题来学习相同大小的x的相关滤波器w：

令大写字母表示相应的傅里叶变换信号；第d个频道(d∈{1,…,D})的频域学习滤波器为：

粗略到精细的翻译估计，给定相关响应映射集{f_l}，分层推断每一层的目标翻译，即最后一层中具有最大值的位置被用作搜索较早层最大值的正则化；令f_l(m,n)为第l层位置(m,n)的响应值，表示的位置f_l的最大值；通过以下方式将目标定位在第l-1层：

约束表示只搜索第l-1个相关响应图上的的r×r个相邻区域；来自最后层的响应值由正则化项μ_l加权，然后被传播到早期层的响应图；最终通过在最好的空间分辨率的层上最大化公式(4)来估计目标位置；实际上，跟踪结果对邻域搜索约束的参数r不敏感；

区域提案，提出的两种区域提案分别为缩小步长小且紧邻估计目标位置的建议B_s，以及具有大步长和整个图像的检测方案B_d；将B_s或B_d中的每个提案b表示为候选边界框(x,y,w,h)，其中，(x,y)是中心轴，(w,h)是宽度和高度；为了计算每个提案b的置信度分数，学习具有保守学习率的另一个相关性滤波器，以保持目标外观的长期记忆；通过conv3-4层学习这个过滤器来编码更多的空间细节来区分小尺度变化；给定一个提案b，用g(b)表示长期记忆相关性滤波器的最大滤波响应。

模型更新，通过最小化在时间t的所有跟踪结果的输出误差来更新第l层上的最优滤波器；为了获得更好的近似，使用移动平均值更新公式(2)中的相关滤波器W^d：

其中，t是帧的索引，η是学习率。

图2是本发明一种基于分层卷积的视觉对象跟踪方法的分层特征。由于使用池操作，随着CNN深度的增加，目标对象的空间分辨率逐渐降低；例如，VGGNet(神经网络结构)中池层5的卷积特征图为7×7像素，是224×224像素的输入图像大小的1/32；由于用这样低的空间分辨率准确地定位对象是不可行的，因此通过使用双线性插值将每个特征图调整到更大的固定尺寸来减轻这个问题；令h表示特征图，x表示上采样的特征图；第i个位置的特征向量为：

其中，内插权重α_ik分别取决于i和k个相邻特征向量的位置。

图3是本发明一种基于分层卷积的视觉对象跟踪方法的响应图。为了选择响应图的权重，考虑以下两个因素；首先，对于来自最后卷积层的响应图，使用较大的权重，因为它们捕获对外观变化是鲁棒的语义；将权重参数μ_l从第l层降低到第l-1层：

μ_l∝2^l-5 (10)

其中，l＝5,4,3；

仅使用公式(11)时，硬权重是仅使用公式(10)时，μ_l＝2^l-5；软权重是同时使用公式(10)和公式(11)；由于公式(11)相当于对每个响应图进行最大化归一化，所以重新排列公式(5)、(10)、(11)为软权重方案，以通过下式定位目标对象：

其中，μ_l＝2^l-5。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于分层卷积的视觉对象跟踪方法，其特征在于，主要包括分层卷积(一)；相关性滤波器(二)；粗略到精细的翻译估计(三)；区域提案(四)；模型更新(五)。

2.基于权利要求书1所述的分层卷积(一)，其特征在于，使用来自卷积神经网络(CNN)的卷积特征图，随着特征被传播到更深层次，不同类别的对象之间的语义歧视得到加强，而空间分辨率也逐渐降低；删除完全连接的层，因此显示出1×1像素的空间分辨率，并且仅利用卷积层中的分层特征。

3.基于权利要求书2所述的分层特征，其特征在于，由于使用池操作，随着CNN深度的增加，目标对象的空间分辨率逐渐降低；例如，VGGNet(神经网络结构)中池层5的卷积特征图为7×7像素，是224×224像素的输入图像大小的1/32；由于用这样低的空间分辨率准确地定位对象是不可行的，因此通过使用双线性插值将每个特征图调整到更大的固定尺寸来减轻这个问题；令h表示特征图，x表示上采样的特征图；第i个位置的特征向量为：

<mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>k</mi> </munder> <msub> <mi>&alpha;</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <msub> <mi>h</mi> <mi>k</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中，内插权重α_ik分别取决于i和k个相邻特征向量的位置。

4.基于权利要求书1所述的相关性滤波器(二)，其特征在于，典型的相关***将输入特征的循环版本归一化为由高斯函数产生的软目标分数，并搜索目标对象响应图上的最大值；由于学习相关滤波器不需要二进制(硬阈值)采样，所以这些***有效地减轻了对大多数跟踪检测方法具有不利影响的采样模糊度问题；通过利用完整的一组移位样本，使用快速傅立叶变换(FFT)用相当大量的训练样本有效地训练相关滤波器；该数据增加有助于区分目标与其周围的背景，使用每个卷积层的输出作为多通道特征。

5.基于权利要求书4所述的卷积层，其特征在于，令x为尺寸M×N×D的特征向量的第l层，其中，M、N和D分别表示特征信道的宽度、高度和数量；这里将x^(l)简洁地表示为x，忽略层索引l上的M、N和D；考虑沿着M和N维度的特征x的所有循环移位版本作为训练样本；每个移位样本x_ij,(i,j)∈{0,1,…,M-1}×{0,1,…,N-1}具有高斯函数标签其中，σ是内核宽度；目标中心有零位，因此有最高得分当位置(i,j)逐渐离开目标中心时，得分y_ij从1迅速衰减到零；通过解决以下最小化问题来学习相同大小的x的相关滤波器w：

<mrow> <msup> <mi>w</mi> <mo>*</mo> </msup> <mo>=</mo> <mi>arg</mi> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>w</mi> </munder> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </munder> <mo>|</mo> <mo>|</mo> <mi>w</mi> <mo>&CenterDot;</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>&lambda;</mi> <mo>|</mo> <mo>|</mo> <mi>w</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

6.基于权利要求书4所述的傅立叶变换，其特征在于，令大写字母表示相应的傅里叶变换信号；第d个频道(d∈{1,…,D})的频域学习滤波器为：

7.基于权利要求书1所述的粗略到精细的翻译估计(三)，其特征在于，给定相关响应映射集{f_l}，分层推断每一层的目标翻译，即最后一层中具有最大值的位置被用作搜索较早层最大值的正则化；令f_l(m,n)为第l层位置(m,n)的响应值，表示的位置f_l的最大值；通过以下方式将目标定位在第l-1层：

<mrow> <mtable> <mtr> <mtd> <mrow> <munder> <mi>argmax</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>n</mi> </mrow> </munder> <msub> <mi>f</mi> <mrow> <mi>l</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>m</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>&mu;</mi> <mi>l</mi> </msub> <msub> <mi>f</mi> <mi>l</mi> </msub> <mrow> <mo>(</mo> <mi>m</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> <mo>|</mo> <mi>m</mi> <mo>-</mo> <mover> <mi>m</mi> <mo>^</mo> </mover> <mo>|</mo> <mo>+</mo> <mo>|</mo> <mi>n</mi> <mo>-</mo> <mover> <mi>n</mi> <mo>^</mo> </mover> <mo>|</mo> <mo>&le;</mo> <mi>r</mi> <mo>.</mo> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <munder> <mi>argmax</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>n</mi> </mrow> </munder> <munder> <mo>&Sigma;</mo> <mi>l</mi> </munder> <msub> <mi>&mu;</mi> <mi>l</mi> </msub> <msub> <mi>f</mi> <mi>l</mi> </msub> <mrow> <mo>(</mo> <mi>m</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

8.基于权利要求书7所述的响应图，其特征在于，为了选择响应图的权重，考虑以下两个因素；首先，对于来自最后卷积层的响应图，使用较大的权重，因为它们捕获对外观变化是鲁棒的语义；将权重参数μ_l从第l层降低到第l-1层：

μ_l∝2^l-5 (7)

其中，l＝5,4,3；

<mrow> <msub> <mi>&mu;</mi> <mi>l</mi> </msub> <mo>&Proportional;</mo> <mfrac> <mn>1</mn> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>l</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <munder> <mi>argmax</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>n</mi> </mrow> </munder> <munder> <mo>&Sigma;</mo> <mi>l</mi> </munder> <mfrac> <mrow> <msub> <mi>&mu;</mi> <mi>l</mi> </msub> <msub> <mi>f</mi> <mi>l</mi> </msub> <mrow> <mo>(</mo> <mi>m</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>l</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

其中，μ_l＝2^l-5。

9.基于权利要求书1所述的区域提案(四)，其特征在于，提出的两种区域提案分别为缩小步长小且紧邻估计目标位置的建议B_s，以及具有大步长和整个图像的检测方案B_d；将B_s或B_d中的每个提案b表示为候选边界框(x,y,w,h)，其中，(x,y)是中心轴，(w,h)是宽度和高度；为了计算每个提案b的置信度分数，学习具有保守学习率的另一个相关性滤波器，以保持目标外观的长期记忆；通过conv3-4层学习这个过滤器来编码更多的空间细节来区分小尺度变化；给定一个提案b，用g(b)表示长期记忆相关性滤波器的最大滤波响应。

10.基于权利要求书1所述的模型更新(五)，其特征在于，通过最小化在时间t的所有跟踪结果的输出误差来更新第l层上的最优滤波器；为了获得更好的近似，使用移动平均值更新公式(3)中的相关滤波器W^d：

<mrow> <msubsup> <mi>W</mi> <mi>t</mi> <mi>d</mi> </msubsup> <mo>=</mo> <mfrac> <msubsup> <mi>A</mi> <mi>t</mi> <mi>d</mi> </msubsup> <mrow> <msubsup> <mi>B</mi> <mi>t</mi> <mi>d</mi> </msubsup> <mo>+</mo> <mi>&lambda;</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>

其中，t是帧的索引，η是学习率。