CN107818575A - 一种基于分层卷积的视觉对象跟踪方法 - Google Patents
一种基于分层卷积的视觉对象跟踪方法 Download PDFInfo
- Publication number
- CN107818575A CN107818575A CN201711022515.1A CN201711022515A CN107818575A CN 107818575 A CN107818575 A CN 107818575A CN 201711022515 A CN201711022515 A CN 201711022515A CN 107818575 A CN107818575 A CN 107818575A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- munder
- layer
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/292—Multi-camera tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明中提出的一种基于分层卷积的视觉对象跟踪方法,其主要内容包括:分层卷积、相关性滤波器、粗略到精细的翻译估计、区域提案和模型更新,其过程为,先利用卷积层中的分层特征,使用双线性插值将每个特征图调整到更大的固定尺寸,接着将输入特征的循环版本归一化为高斯函数产生的软目标分数,并搜索目标对象响应图上的最大值,然后给定相关响应映射集,分层推断每一层的目标翻译,计算每个提案的置信度分数,保持目标外观的长期记忆,最后通过最小化输出误差来更新最优滤波器。本发明减轻了采样模糊度,减少了跟踪漂移,减少了由于照明变化、遮挡、背景杂交、突然运动以及目标移出视野等原因导致的错误,提高了识别的准确性和鲁棒性。
Description
技术领域
本发明涉及视觉对象跟踪领域,尤其是涉及了一种基于分层卷积的视觉对象跟踪方法。
背景技术
随着计算机性能的改善和视觉技术的发展,视觉对象的跟踪与检测越来越受到研究人员的关注。视觉对象跟踪将会在未来具有极为广阔的应用前景:如计算机人机交互,利用视觉跟踪识别人的手势、哑语,使残疾人或在特殊工作环境工作的人也能操作计算机;通过视觉跟踪获取外界环境的位置、形状与运动速度,从而用于无人驾驶车辆或各种移动式机器人的导航;利用视觉跟踪方法分析医学图像中物体的信息和运动参数,可以很好地给医生重点信息的提醒,辅助医生做出医疗诊断,甚至在临床手术中帮助医生进行定位和引导;还可以运用到虚拟场景的建立,实现人脸的合成和表情的合成,从而实现卡通画效果、油画效果等,甚至应用到电影和游戏中。然而,视觉跟踪的目标对象常常受到变形、突然运动、背景杂波和闭塞引起显着外观变化,使得视觉跟踪的准确性下降,同时外观变化导致空间分辨率降低,无法精确地定位目标。
本发明提出了一种基于分层卷积的视觉对象跟踪方法,先利用卷积层中的分层特征,使用双线性插值将每个特征图调整到更大的固定尺寸,接着将输入特征的循环版本归一化为高斯函数产生的软目标分数,并搜索目标对象响应图上的最大值,然后给定相关响应映射集,分层推断每一层的目标翻译,计算每个提案的置信度分数,保持目标外观的长期记忆,最后通过最小化输出误差来更新最优滤波器。本发明减轻了采样模糊度,减少了跟踪漂移,减少了由于照明变化、遮挡、背景杂交、突然运动以及目标移出视野等原因导致的错误,提高了识别的准确性和鲁棒性。
发明内容
针对视觉跟踪的准确性下降的问题,本发明的目的在于提供一种基于分层卷积的视觉对象跟踪方法,先利用卷积层中的分层特征,使用双线性插值将每个特征图调整到更大的固定尺寸,接着将输入特征的循环版本归一化为高斯函数产生的软目标分数,并搜索目标对象响应图上的最大值,然后给定相关响应映射集,分层推断每一层的目标翻译,计算每个提案的置信度分数,保持目标外观的长期记忆,最后通过最小化输出误差来更新最优滤波器。
为解决上述问题,本发明提供一种基于分层卷积的视觉对象跟踪方法,其主要内容包括:
(一)分层卷积;
(二)相关性滤波器;
(三)粗略到精细的翻译估计;
(四)区域提案;
(五)模型更新。
其中,所述的分层卷积,使用来自卷积神经网络(CNN)的卷积特征图,随着特征被传播到更深层次,不同类别的对象之间的语义歧视得到加强,而空间分辨率也逐渐降低;删除完全连接的层,因此显示出1×1像素的空间分辨率,并且仅利用卷积层中的分层特征。
进一步地,所述的分层特征,由于使用池操作,随着CNN深度的增加,目标对象的空间分辨率逐渐降低;例如,VGGNet(神经网络结构)中池层5的卷积特征图为7×7像素,是224×224像素的输入图像大小的1/32;由于用这样低的空间分辨率准确地定位对象是不可行的,因此通过使用双线性插值将每个特征图调整到更大的固定尺寸来减轻这个问题;令h表示特征图,x表示上采样的特征图;第i个位置的特征向量为:
其中,内插权重αik分别取决于i和k个相邻特征向量的位置。
其中,所述的相关性滤波器,典型的相关***将输入特征的循环版本归一化为由高斯函数产生的软目标分数,并搜索目标对象响应图上的最大值;由于学习相关滤波器不需要二进制(硬阈值)采样,所以这些***有效地减轻了对大多数跟踪检测方法具有不利影响的采样模糊度问题;通过利用完整的一组移位样本,使用快速傅立叶变换(FFT)用相当大量的训练样本有效地训练相关滤波器;该数据增加有助于区分目标与其周围的背景,使用每个卷积层的输出作为多通道特征。
进一步地,所述的卷积层,令x为尺寸M×N×D的特征向量的第l层,其中,M、N和D分别表示特征信道的宽度、高度和数量;这里将x(l)简洁地表示为x,忽略层索引l上的M、N和D;考虑沿着M和N维度的特征x的所有循环移位版本作为训练样本;每个移位样本xij,(i,j)∈{0,1,…,M-1}×{0,1,…,N-1}具有高斯函数标签其中,σ是内核宽度;目标中心有零位,因此有最高得分当位置(i,j)逐渐离开目标中心时,得分yij从1迅速衰减到零;通过解决以下最小化问题来学习相同大小的x的相关滤波器w:
其中,λ是正则化参数(λ≥0),线性积被定义为由于标签yij被定义,因此不再需要硬阈值样本。
进一步地,所述的傅立叶变换,令大写字母表示相应的傅里叶变换信号;第d个频道(d∈{1,…,D})的频域学习滤波器为:
其中,Y是y=yij|(i,j)∈{{0,1,…,M-1}×{0,1,…,N-1}}的傅里叶变换形式;符号|表示复共轭;运算符⊙是哈达玛(元素)结果;给定下一帧中的图像补丁,将z表示为第l层上的特征向量,大小为M×N×D;然后,计算第l相关响应图:
其中,运算符表示逆FFT变换;通过在尺寸为M×N的响应图f(z)上搜索具有最大值的位置,可以基于第l卷积层估计目标位置。
其中,所述的粗略到精细的翻译估计,给定相关响应映射集{fl},分层推断每一层的目标翻译,即最后一层中具有最大值的位置被用作搜索较早层最大值的正则化;令fl(m,n)为第l层位置(m,n)的响应值,表示的位置fl的最大值;通过以下方式将目标定位在第l-1层:
约束表示只搜索第l-1个相关响应图上的的r×r个相邻区域;来自最后层的响应值由正则化项μl加权,然后被传播到早期层的响应图;最终通过在最好的空间分辨率的层上最大化公式(5)来估计目标位置;实际上,跟踪结果对邻域搜索约束的参数r不敏感;
这相当于计算来自多个层的响应图的加权平均,以推断目标位置,如上式所示。
进一步地,所述的响应图,为了选择响应图的权重,考虑以下两个因素;首先,对于来自最后卷积层的响应图,使用较大的权重,因为它们捕获对外观变化是鲁棒的语义;将权重参数μl从第l层降低到第l-1层:
μl∝2l-5 (7)
其中,l=5,4,3;
其次,来自不同卷积层的相关响应图经常具有不一致的范围,例如,来自conv5-4层的响应图的最大值通常小于来自conv3-4层的响应图的最大值;通过将权重参数μl设置为与第l个响应映射fl的最大值成反比来解决这个问题:
仅使用公式(8)时,硬权重是仅使用公式(7)时,μl=2l-5;软权重是同时使用公式(7)和公式(8);由于公式(8)相当于对每个响应图进行最大化归一化,所以重新排列公式(6)-(8)为软权重方案,以通过下式定位目标对象:
其中,μl=2l-5。
其中,所述的区域提案,提出的两种区域提案分别为缩小步长小且紧邻估计目标位置的建议Bs,以及具有大步长和整个图像的检测方案Bd;将Bs或Bd中的每个提案b表示为候选边界框(x,y,w,h),其中,(x,y)是中心轴,(w,h)是宽度和高度;为了计算每个提案b的置信度分数,学习具有保守学习率的另一个相关性滤波器,以保持目标外观的长期记忆;通过conv3-4层学习这个过滤器来编码更多的空间细节来区分小尺度变化;给定一个提案b,用g(b)表示长期记忆相关性滤波器的最大滤波响应。
其中,所述的模型更新,通过最小化在时间t的所有跟踪结果的输出误差来更新第l层上的最优滤波器;为了获得更好的近似,使用移动平均值更新公式(3)中的相关滤波器Wd:
其中,t是帧的索引,η是学习率。
附图说明
图1是本发明一种基于分层卷积的视觉对象跟踪方法的***框架图。
图2是本发明一种基于分层卷积的视觉对象跟踪方法的分层特征。
图3是本发明一种基于分层卷积的视觉对象跟踪方法的响应图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于分层卷积的视觉对象跟踪方法的***框架图。主要包括分层卷积,相关性滤波器,粗略到精细的翻译估计,区域提案和模型更新。
分层卷积,使用来自卷积神经网络(CNN)的卷积特征图,随着特征被传播到更深层次,不同类别的对象之间的语义歧视得到加强,而空间分辨率也逐渐降低;删除完全连接的层,因此显示出1×1像素的空间分辨率,并且仅利用卷积层中的分层特征。
相关性滤波器,典型的相关***将输入特征的循环版本归一化为由高斯函数产生的软目标分数,并搜索目标对象响应图上的最大值;由于学习相关滤波器不需要二进制(硬阈值)采样,所以这些***有效地减轻了对大多数跟踪检测方法具有不利影响的采样模糊度问题;通过利用完整的一组移位样本,使用快速傅立叶变换(FFT)用相当大量的训练样本有效地训练相关滤波器;该数据增加有助于区分目标与其周围的背景,使用每个卷积层的输出作为多通道特征。
令x为尺寸M×N×D的特征向量的第l层,其中,M、N和D分别表示特征信道的宽度、高度和数量;这里将x(l)简洁地表示为x,忽略层索引l上的M、N和D;考虑沿着M和N维度的特征x的所有循环移位版本作为训练样本;每个移位样本xij,(i,j)∈{0,1,…,M-1}×{0,1,…,N-1}具有高斯函数标签其中,σ是内核宽度;目标中心有零位,因此有最高得分当位置(i,j)逐渐离开目标中心时,得分yij从1迅速衰减到零;通过解决以下最小化问题来学习相同大小的x的相关滤波器w:
其中,λ是正则化参数(λ≥0),线性积被定义为由于标签yij被定义,因此不再需要硬阈值样本。
令大写字母表示相应的傅里叶变换信号;第d个频道(d∈{1,…,D})的频域学习滤波器为:
其中,Y是y=yij|(i,j)∈{{0,1,…,M-1}×{0,1,…,N-1}}的傅里叶变换形式;符号|表示复共轭;运算符⊙是哈达玛(元素)结果;给定下一帧中的图像补丁,将z表示为第l层上的特征向量,大小为M×N×D;然后,计算第l相关响应图:
其中,运算符表示逆FFT变换;通过在尺寸为M×N的响应图f(z)上搜索具有最大值的位置,可以基于第l卷积层估计目标位置。
粗略到精细的翻译估计,给定相关响应映射集{fl},分层推断每一层的目标翻译,即最后一层中具有最大值的位置被用作搜索较早层最大值的正则化;令fl(m,n)为第l层位置(m,n)的响应值,表示的位置fl的最大值;通过以下方式将目标定位在第l-1层:
约束表示只搜索第l-1个相关响应图上的的r×r个相邻区域;来自最后层的响应值由正则化项μl加权,然后被传播到早期层的响应图;最终通过在最好的空间分辨率的层上最大化公式(4)来估计目标位置;实际上,跟踪结果对邻域搜索约束的参数r不敏感;
这相当于计算来自多个层的响应图的加权平均,以推断目标位置,如上式所示。
区域提案,提出的两种区域提案分别为缩小步长小且紧邻估计目标位置的建议Bs,以及具有大步长和整个图像的检测方案Bd;将Bs或Bd中的每个提案b表示为候选边界框(x,y,w,h),其中,(x,y)是中心轴,(w,h)是宽度和高度;为了计算每个提案b的置信度分数,学习具有保守学习率的另一个相关性滤波器,以保持目标外观的长期记忆;通过conv3-4层学习这个过滤器来编码更多的空间细节来区分小尺度变化;给定一个提案b,用g(b)表示长期记忆相关性滤波器的最大滤波响应。
模型更新,通过最小化在时间t的所有跟踪结果的输出误差来更新第l层上的最优滤波器;为了获得更好的近似,使用移动平均值更新公式(2)中的相关滤波器Wd:
其中,t是帧的索引,η是学习率。
图2是本发明一种基于分层卷积的视觉对象跟踪方法的分层特征。由于使用池操作,随着CNN深度的增加,目标对象的空间分辨率逐渐降低;例如,VGGNet(神经网络结构)中池层5的卷积特征图为7×7像素,是224×224像素的输入图像大小的1/32;由于用这样低的空间分辨率准确地定位对象是不可行的,因此通过使用双线性插值将每个特征图调整到更大的固定尺寸来减轻这个问题;令h表示特征图,x表示上采样的特征图;第i个位置的特征向量为:
其中,内插权重αik分别取决于i和k个相邻特征向量的位置。
图3是本发明一种基于分层卷积的视觉对象跟踪方法的响应图。为了选择响应图的权重,考虑以下两个因素;首先,对于来自最后卷积层的响应图,使用较大的权重,因为它们捕获对外观变化是鲁棒的语义;将权重参数μl从第l层降低到第l-1层:
μl∝2l-5 (10)
其中,l=5,4,3;
其次,来自不同卷积层的相关响应图经常具有不一致的范围,例如,来自conv5-4层的响应图的最大值通常小于来自conv3-4层的响应图的最大值;通过将权重参数μl设置为与第l个响应映射fl的最大值成反比来解决这个问题:
仅使用公式(11)时,硬权重是仅使用公式(10)时,μl=2l-5;软权重是同时使用公式(10)和公式(11);由于公式(11)相当于对每个响应图进行最大化归一化,所以重新排列公式(5)、(10)、(11)为软权重方案,以通过下式定位目标对象:
其中,μl=2l-5。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
Claims (10)
1.一种基于分层卷积的视觉对象跟踪方法,其特征在于,主要包括分层卷积(一);相关性滤波器(二);粗略到精细的翻译估计(三);区域提案(四);模型更新(五)。
2.基于权利要求书1所述的分层卷积(一),其特征在于,使用来自卷积神经网络(CNN)的卷积特征图,随着特征被传播到更深层次,不同类别的对象之间的语义歧视得到加强,而空间分辨率也逐渐降低;删除完全连接的层,因此显示出1×1像素的空间分辨率,并且仅利用卷积层中的分层特征。
3.基于权利要求书2所述的分层特征,其特征在于,由于使用池操作,随着CNN深度的增加,目标对象的空间分辨率逐渐降低;例如,VGGNet(神经网络结构)中池层5的卷积特征图为7×7像素,是224×224像素的输入图像大小的1/32;由于用这样低的空间分辨率准确地定位对象是不可行的,因此通过使用双线性插值将每个特征图调整到更大的固定尺寸来减轻这个问题;令h表示特征图,x表示上采样的特征图;第i个位置的特征向量为:
<mrow>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mi>k</mi>
</munder>
<msub>
<mi>&alpha;</mi>
<mrow>
<mi>i</mi>
<mi>k</mi>
</mrow>
</msub>
<msub>
<mi>h</mi>
<mi>k</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,内插权重αik分别取决于i和k个相邻特征向量的位置。
4.基于权利要求书1所述的相关性滤波器(二),其特征在于,典型的相关***将输入特征的循环版本归一化为由高斯函数产生的软目标分数,并搜索目标对象响应图上的最大值;由于学习相关滤波器不需要二进制(硬阈值)采样,所以这些***有效地减轻了对大多数跟踪检测方法具有不利影响的采样模糊度问题;通过利用完整的一组移位样本,使用快速傅立叶变换(FFT)用相当大量的训练样本有效地训练相关滤波器;该数据增加有助于区分目标与其周围的背景,使用每个卷积层的输出作为多通道特征。
5.基于权利要求书4所述的卷积层,其特征在于,令x为尺寸M×N×D的特征向量的第l层,其中,M、N和D分别表示特征信道的宽度、高度和数量;这里将x(l)简洁地表示为x,忽略层索引l上的M、N和D;考虑沿着M和N维度的特征x的所有循环移位版本作为训练样本;每个移位样本xij,(i,j)∈{0,1,…,M-1}×{0,1,…,N-1}具有高斯函数标签 其中,σ是内核宽度;目标中心有零位,因此有最高得分当位置(i,j)逐渐离开目标中心时,得分yij从1迅速衰减到零;通过解决以下最小化问题来学习相同大小的x的相关滤波器w:
<mrow>
<msup>
<mi>w</mi>
<mo>*</mo>
</msup>
<mo>=</mo>
<mi>arg</mi>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mi>w</mi>
</munder>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</munder>
<mo>|</mo>
<mo>|</mo>
<mi>w</mi>
<mo>&CenterDot;</mo>
<msub>
<mi>x</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>-</mo>
<msub>
<mi>y</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>+</mo>
<mi>&lambda;</mi>
<mo>|</mo>
<mo>|</mo>
<mi>w</mi>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,λ是正则化参数(λ≥0),线性积被定义为由于标签yij被定义,因此不再需要硬阈值样本。
6.基于权利要求书4所述的傅立叶变换,其特征在于,令大写字母表示相应的傅里叶变换信号;第d个频道(d∈{1,…,D})的频域学习滤波器为:
其中,Y是y=yij|(i,j)∈{{0,1,…,M-1}×{0,1,…,N-1}}的傅里叶变换形式;符号|表示复共轭;运算符⊙是哈达玛(元素)结果;给定下一帧中的图像补丁,将z表示为第l层上的特征向量,大小为M×N×D;然后,计算第l相关响应图:
其中,运算符表示逆FFT变换;通过在尺寸为M×N的响应图f(z)上搜索具有最大值的位置,可以基于第l卷积层估计目标位置。
7.基于权利要求书1所述的粗略到精细的翻译估计(三),其特征在于,给定相关响应映射集{fl},分层推断每一层的目标翻译,即最后一层中具有最大值的位置被用作搜索较早层最大值的正则化;令fl(m,n)为第l层位置(m,n)的响应值,表示的位置fl的最大值;通过以下方式将目标定位在第l-1层:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<munder>
<mi>argmax</mi>
<mrow>
<mi>m</mi>
<mo>,</mo>
<mi>n</mi>
</mrow>
</munder>
<msub>
<mi>f</mi>
<mrow>
<mi>l</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msub>
<mi>&mu;</mi>
<mi>l</mi>
</msub>
<msub>
<mi>f</mi>
<mi>l</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>s</mi>
<mo>.</mo>
<mi>t</mi>
<mo>.</mo>
<mo>|</mo>
<mi>m</mi>
<mo>-</mo>
<mover>
<mi>m</mi>
<mo>^</mo>
</mover>
<mo>|</mo>
<mo>+</mo>
<mo>|</mo>
<mi>n</mi>
<mo>-</mo>
<mover>
<mi>n</mi>
<mo>^</mo>
</mover>
<mo>|</mo>
<mo>&le;</mo>
<mi>r</mi>
<mo>.</mo>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
约束表示只搜索第l-1个相关响应图上的的r×r个相邻区域;来自最后层的响应值由正则化项μl加权,然后被传播到早期层的响应图;最终通过在最好的空间分辨率的层上最大化公式(5)来估计目标位置;实际上,跟踪结果对邻域搜索约束的参数r不敏感;
<mrow>
<munder>
<mi>argmax</mi>
<mrow>
<mi>m</mi>
<mo>,</mo>
<mi>n</mi>
</mrow>
</munder>
<munder>
<mo>&Sigma;</mo>
<mi>l</mi>
</munder>
<msub>
<mi>&mu;</mi>
<mi>l</mi>
</msub>
<msub>
<mi>f</mi>
<mi>l</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
</mrow>
这相当于计算来自多个层的响应图的加权平均,以推断目标位置,如上式所示。
8.基于权利要求书7所述的响应图,其特征在于,为了选择响应图的权重,考虑以下两个因素;首先,对于来自最后卷积层的响应图,使用较大的权重,因为它们捕获对外观变化是鲁棒的语义;将权重参数μl从第l层降低到第l-1层:
μl∝2l-5 (7)
其中,l=5,4,3;
其次,来自不同卷积层的相关响应图经常具有不一致的范围,例如,来自conv5-4层的响应图的最大值通常小于来自conv3-4层的响应图的最大值;通过将权重参数μl设置为与第l个响应映射fl的最大值成反比来解决这个问题:
<mrow>
<msub>
<mi>&mu;</mi>
<mi>l</mi>
</msub>
<mo>&Proportional;</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>l</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>8</mn>
<mo>)</mo>
</mrow>
</mrow>
仅使用公式(8)时,硬权重是仅使用公式(7)时,μl=2l-5;软权重是同时使用公式(7)和公式(8);由于公式(8)相当于对每个响应图进行最大化归一化,所以重新排列公式(6)-(8)为软权重方案,以通过下式定位目标对象:
<mrow>
<munder>
<mi>argmax</mi>
<mrow>
<mi>m</mi>
<mo>,</mo>
<mi>n</mi>
</mrow>
</munder>
<munder>
<mo>&Sigma;</mo>
<mi>l</mi>
</munder>
<mfrac>
<mrow>
<msub>
<mi>&mu;</mi>
<mi>l</mi>
</msub>
<msub>
<mi>f</mi>
<mi>l</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>,</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>max</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>l</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>9</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,μl=2l-5。
9.基于权利要求书1所述的区域提案(四),其特征在于,提出的两种区域提案分别为缩小步长小且紧邻估计目标位置的建议Bs,以及具有大步长和整个图像的检测方案Bd;将Bs或Bd中的每个提案b表示为候选边界框(x,y,w,h),其中,(x,y)是中心轴,(w,h)是宽度和高度;为了计算每个提案b的置信度分数,学习具有保守学习率的另一个相关性滤波器,以保持目标外观的长期记忆;通过conv3-4层学习这个过滤器来编码更多的空间细节来区分小尺度变化;给定一个提案b,用g(b)表示长期记忆相关性滤波器的最大滤波响应。
10.基于权利要求书1所述的模型更新(五),其特征在于,通过最小化在时间t的所有跟踪结果的输出误差来更新第l层上的最优滤波器;为了获得更好的近似,使用移动平均值更新公式(3)中的相关滤波器Wd:
<mrow>
<msubsup>
<mi>W</mi>
<mi>t</mi>
<mi>d</mi>
</msubsup>
<mo>=</mo>
<mfrac>
<msubsup>
<mi>A</mi>
<mi>t</mi>
<mi>d</mi>
</msubsup>
<mrow>
<msubsup>
<mi>B</mi>
<mi>t</mi>
<mi>d</mi>
</msubsup>
<mo>+</mo>
<mi>&lambda;</mi>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>12</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,t是帧的索引,η是学习率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711022515.1A CN107818575A (zh) | 2017-10-27 | 2017-10-27 | 一种基于分层卷积的视觉对象跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711022515.1A CN107818575A (zh) | 2017-10-27 | 2017-10-27 | 一种基于分层卷积的视觉对象跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107818575A true CN107818575A (zh) | 2018-03-20 |
Family
ID=61603977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711022515.1A Withdrawn CN107818575A (zh) | 2017-10-27 | 2017-10-27 | 一种基于分层卷积的视觉对象跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107818575A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109087337A (zh) * | 2018-11-07 | 2018-12-25 | 山东大学 | 基于分层卷积特征的长时间目标跟踪方法及*** |
CN109191491A (zh) * | 2018-08-03 | 2019-01-11 | 华中科技大学 | 基于多层特征融合的全卷积孪生网络的目标跟踪方法及*** |
CN109344725A (zh) * | 2018-09-04 | 2019-02-15 | 上海交通大学 | 一种基于时空关注度机制的多行人在线跟踪方法 |
CN109472359A (zh) * | 2018-10-23 | 2019-03-15 | 深圳和而泰数据资源与云技术有限公司 | 深度神经网络的网络结构处理方法及相关产品 |
CN109816689A (zh) * | 2018-12-18 | 2019-05-28 | 昆明理工大学 | 一种多层卷积特征自适应融合的运动目标跟踪方法 |
CN110120065A (zh) * | 2019-05-17 | 2019-08-13 | 南京邮电大学 | 一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及*** |
CN110276784A (zh) * | 2019-06-03 | 2019-09-24 | 北京理工大学 | 基于记忆机制与卷积特征的相关滤波运动目标跟踪方法 |
CN110796259A (zh) * | 2018-08-03 | 2020-02-14 | 罗技欧洲公司 | 用于确定***设备位移的方法和*** |
CN111209829A (zh) * | 2019-12-31 | 2020-05-29 | 浙江大学 | 基于视觉的移动视体静态中小尺度目标识别方法 |
CN111488832A (zh) * | 2020-04-13 | 2020-08-04 | 捻果科技(深圳)有限公司 | 一种机场飞行区机位适用性检查作业规范的自动识别方法 |
CN111696136A (zh) * | 2020-06-09 | 2020-09-22 | 电子科技大学 | 一种基于编解码结构的目标跟踪方法 |
CN113112523A (zh) * | 2021-03-26 | 2021-07-13 | 常州工学院 | 基于无锚点孪生网络的目标跟踪方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106991396A (zh) * | 2017-04-01 | 2017-07-28 | 南京云创大数据科技股份有限公司 | 一种基于智慧路灯伴侣的目标接力跟踪算法 |
CN107169090A (zh) * | 2017-05-12 | 2017-09-15 | 深圳市唯特视科技有限公司 | 一种利用内容环绕信息提取图像表征的特定对象检索方法 |
CN107240122A (zh) * | 2017-06-15 | 2017-10-10 | 国家新闻出版广电总局广播科学研究院 | 基于时空连续相关滤波的视频目标跟踪方法 |
-
2017
- 2017-10-27 CN CN201711022515.1A patent/CN107818575A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106991396A (zh) * | 2017-04-01 | 2017-07-28 | 南京云创大数据科技股份有限公司 | 一种基于智慧路灯伴侣的目标接力跟踪算法 |
CN107169090A (zh) * | 2017-05-12 | 2017-09-15 | 深圳市唯特视科技有限公司 | 一种利用内容环绕信息提取图像表征的特定对象检索方法 |
CN107240122A (zh) * | 2017-06-15 | 2017-10-10 | 国家新闻出版广电总局广播科学研究院 | 基于时空连续相关滤波的视频目标跟踪方法 |
Non-Patent Citations (1)
Title |
---|
CHAO MA ET AL.: "Robust Visual Tracking via Hierarchical Convolutional Features", 《ARXIV》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109191491A (zh) * | 2018-08-03 | 2019-01-11 | 华中科技大学 | 基于多层特征融合的全卷积孪生网络的目标跟踪方法及*** |
CN110796259B (zh) * | 2018-08-03 | 2022-07-08 | 罗技欧洲公司 | 用于确定***设备位移的方法和*** |
US11568549B2 (en) | 2018-08-03 | 2023-01-31 | Logitech Europe S.A. | Method and system for detecting peripheral device displacement |
CN110796259A (zh) * | 2018-08-03 | 2020-02-14 | 罗技欧洲公司 | 用于确定***设备位移的方法和*** |
CN109191491B (zh) * | 2018-08-03 | 2020-09-08 | 华中科技大学 | 基于多层特征融合的全卷积孪生网络的目标跟踪方法及*** |
CN109344725B (zh) * | 2018-09-04 | 2020-09-04 | 上海交通大学 | 一种基于时空关注度机制的多行人在线跟踪方法 |
CN109344725A (zh) * | 2018-09-04 | 2019-02-15 | 上海交通大学 | 一种基于时空关注度机制的多行人在线跟踪方法 |
CN109472359A (zh) * | 2018-10-23 | 2019-03-15 | 深圳和而泰数据资源与云技术有限公司 | 深度神经网络的网络结构处理方法及相关产品 |
CN109472359B (zh) * | 2018-10-23 | 2021-06-04 | 深圳和而泰数据资源与云技术有限公司 | 深度神经网络的网络结构处理方法及相关产品 |
CN109087337B (zh) * | 2018-11-07 | 2020-07-14 | 山东大学 | 基于分层卷积特征的长时间目标跟踪方法及*** |
CN109087337A (zh) * | 2018-11-07 | 2018-12-25 | 山东大学 | 基于分层卷积特征的长时间目标跟踪方法及*** |
CN109816689A (zh) * | 2018-12-18 | 2019-05-28 | 昆明理工大学 | 一种多层卷积特征自适应融合的运动目标跟踪方法 |
CN110120065A (zh) * | 2019-05-17 | 2019-08-13 | 南京邮电大学 | 一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及*** |
CN110120065B (zh) * | 2019-05-17 | 2022-08-26 | 南京邮电大学 | 一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及*** |
CN110276784A (zh) * | 2019-06-03 | 2019-09-24 | 北京理工大学 | 基于记忆机制与卷积特征的相关滤波运动目标跟踪方法 |
CN111209829A (zh) * | 2019-12-31 | 2020-05-29 | 浙江大学 | 基于视觉的移动视体静态中小尺度目标识别方法 |
CN111488832A (zh) * | 2020-04-13 | 2020-08-04 | 捻果科技(深圳)有限公司 | 一种机场飞行区机位适用性检查作业规范的自动识别方法 |
CN111696136A (zh) * | 2020-06-09 | 2020-09-22 | 电子科技大学 | 一种基于编解码结构的目标跟踪方法 |
CN113112523A (zh) * | 2021-03-26 | 2021-07-13 | 常州工学院 | 基于无锚点孪生网络的目标跟踪方法及装置 |
CN113112523B (zh) * | 2021-03-26 | 2024-04-26 | 常州工学院 | 基于无锚点孪生网络的目标跟踪方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107818575A (zh) | 一种基于分层卷积的视觉对象跟踪方法 | |
CN108734723B (zh) | 一种基于自适应权重联合学习的相关滤波目标跟踪方法 | |
CN108090919B (zh) | 一种基于超像素光流和自适应学习因子改进的核相关滤波跟踪方法 | |
CN109191491A (zh) | 基于多层特征融合的全卷积孪生网络的目标跟踪方法及*** | |
CN106909924A (zh) | 一种基于深度显著性的遥感影像快速检索方法 | |
CN109241913A (zh) | 结合显著性检测和深度学习的船只检测方法及*** | |
CN106845430A (zh) | 基于加速区域卷积神经网络的行人检测与跟踪方法 | |
CN111368769B (zh) | 基于改进锚点框生成模型的船舶多目标检测方法 | |
CN109858415A (zh) | 适用于移动机器人行人跟随的核相关滤波目标跟踪方法 | |
CN111311647B (zh) | 一种基于全局-局部及卡尔曼滤波的目标跟踪方法及装置 | |
CN110097044A (zh) | 基于深度学习的一阶段车牌检测识别方法 | |
CN107274416A (zh) | 基于光谱梯度与层次结构的高光谱图像显著性目标检测方法 | |
CN107452022A (zh) | 一种视频目标跟踪方法 | |
CN106846322A (zh) | 基于曲线波滤波器和卷积结构学习的sar图像分割方法 | |
CN109859241A (zh) | 自适应特征选择和时间一致性鲁棒相关滤波视觉跟踪方法 | |
US11238307B1 (en) | System for performing change detection within a 3D geospatial model based upon semantic change detection using deep learning and related methods | |
US11587249B2 (en) | Artificial intelligence (AI) system and methods for generating estimated height maps from electro-optic imagery | |
CN107808167A (zh) | 一种基于可变形部分的完全卷积网络进行目标检测的方法 | |
CN110334656A (zh) | 基于信源概率加权的多源遥感图像水体提取方法及装置 | |
Wang et al. | Hierarchical spatiotemporal context-aware correlation filters for visual tracking | |
CN111027586A (zh) | 一种基于新型响应图融合的目标跟踪方法 | |
Wang et al. | A contour self-compensated network for salient object detection | |
Zuo et al. | LGADet: Light-weight anchor-free multispectral pedestrian detection with mixed local and global attention | |
CN117576149A (zh) | 一种基于注意力机制的单目标跟踪方法 | |
CN117331071A (zh) | 一种基于毫米波雷达与视觉多模态融合的目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180320 |
|
WW01 | Invention patent application withdrawn after publication |