CN106530340B

CN106530340B - 一种指定物体跟踪方法

Info

Publication number: CN106530340B
Application number: CN201610939923.2A
Authority: CN
Inventors: 马政; 刘俊; 卢宇; 张伟
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2016-10-24
Filing date: 2016-10-24
Publication date: 2019-04-26
Anticipated expiration: 2036-10-24
Also published as: CN106530340A

Abstract

本发明公开了一种指定物体跟踪方法，其中，该指定物体跟踪方法包括：获取当前帧中跟踪目标的位置信息，根据所述位置信息确定所述跟踪目标的第一搜索区域，根据所述第一搜索区域确定第一混合特征，以所述第一混合特征作为输入，计算目标模板，获取下一帧中所述跟踪目标在相同的所述位置信息下的M个第二搜索区域，根据所述M个第二搜索区域确定M个分别对应的第二混合特征图，根据所述目标模板和所述第二混合特征图计算所述跟踪目标的特征响应图；确定所述特征响应图中滤波响应最大的特征点的位置为所述跟踪目标的位置。

Description

一种指定物体跟踪方法

技术领域

本发明涉及智能监控技术领域，具体涉及一种指定物体跟踪方法。

背景技术

指定物体跟踪是计算机视觉和模式识别领域的一个热点和基础问题，所谓指定物体跟踪就是，用户可以在输入视频中任意指定一个目标，标记出目标在视频中的位置，目标矩形框大小以及在视频中的初始帧，跟踪***就可以在输入视频初始帧之后的第二帧视频开始，对用户指定的目标进行跟踪，每帧跟踪完成后，输出目标在视频中的位置坐标和矩形框大小。指定物体跟踪和指定物体跟踪***可以被广泛应用到工业生产和生活的很多领域，包括智能机器人平台(无人机)，视频监控***，工业流水线，智能汽车(辅助驾驶)等。例如，使用带摄像头的无人机跟踪并跟拍用户指定的人，车辆或者其他目标；在视频监控***中跟踪用户标记的可疑物体或行人；在工业流水线上跟踪指定的工业零件；在智能汽车的辅助驾驶***中跟踪指定车辆跟车行驶。

从工业生产和生活的实际应用场景出发，指定物体跟踪与其它目标跟踪问题相比有其特有的一些要求：

任意指定物体，指定物体跟踪算法要求跟踪的目标类型，大小，形状，颜色具有任意性，可对用户输入的任意目标进行跟踪。因此并不局限于单一类型的目标跟踪，如人脸，行人，汽车等。

准确度高，通常要求指定物体的跟踪***必须同时具有高的准确性和实时的处理速度。在指定目标跟踪的过程中需要对目标的位置和大小进行准确的估计，通常成功跟踪到目标时交集占并集比率(IOU，Intersection over Union)>50％；IOU过低或者偏离目标，就不能有效完成跟踪任务。

高处理速度，跟踪***需要具有实时的处理速度才能在实际的工业现场和生活场景中使用，通常需要跟踪算法达到每秒处理25-30帧以上的处理速度。

平台计算资源限制，由于指定目标跟踪***的硬件资源一般非常有限，在完成目标跟踪任务的同时还要进行其它任务的处理，因此该类型的算法不宜占用过多的计算资源和存储资源。

目前现有的目标跟踪技术一般可以分为三类，第一类是使用特定目标的检测器先检测出目标，然后进行跟踪。第二类是基于目标跟踪算法，使用手工设计的特征描述目标，并通过在线学习建立目标的模型，在跟踪过程中更新目标的模型。第三类是基于复杂的深度学习网络，完成对目标特征的建模，然后使用深度学习在线更新目标模型，完成跟踪任务。

由于跟踪目标具有任意性，所以特定目标的检测和跟踪***很难被应用来解决此类问题。例如目前已经非常成熟的人脸跟踪方法，或者行人跟踪方法都是针对特定目标设计的，很难被推广到任意目标的跟踪。

由于在视频中目标的形状可能发生变化，光照突变，目标遮挡，目标快速运动等因素的影响，基于传统特征例如目标边缘，目标颜色的跟踪***很难在复杂环境中取得高的跟踪精度。

目前现有的指定目标跟踪算法一般需要经过复杂的计算，具有较高的时间复杂度和空间复杂度。很难做到对目标的实时跟踪以及占用少的硬件资源。

跟踪目标的初始化，需要提供目标的矩形框，操作比较复杂，一般需要暂停视频或者在待跟踪目标慢速时进行标注。

综上所述，指定目标的跟踪问题非常困难和具有挑战性，很难做到高跟踪精度同时兼具实时的处理速度和小的硬件资源消耗。

现有技术中的一种指定目标跟踪方法，如CN 104574445 A；该方法包括：在初始化帧中，设计一个特殊的映射环节将图像转换成多向量混合特征；采用提取的多向量混合特征训练多向量相关滤波器；针对随后的序列图像，采用训练好的多向量相关滤波器生成所有搜索位置的置信图；选取置信图的峰值为目标位置，对此位置像第一步相同的方式提取多向量混合特征，并在线更新相关滤波器，能够实现快速跟踪。

在上述现有技术中，CN104574445 A中使用了相关滤波器来在线训练目标的外观模型。虽然还是使用传统特征，但是在特征提取过程中加入了在线有监督学习，因此可以得到对目标外观更好的特征表达。同时，由于使用了相关滤波器来进行训练，大大缩短了模型训练时间。然而，由于使用的依然是传统特征，其目标表达能力依然有限。同时，在跟踪过程中如果目标大小发生变化，该方法不能检测出目标大小的变化，因此会影响跟踪的准确性和稳定性。

发明内容

本发明提供一种指定物体跟踪方法和指定物体跟踪装置，用于实现对被跟丢的人体的继续跟踪。

本发明提供一种指定物体跟踪方法，包括：

获取当前帧中跟踪目标的位置信息；

根据所述位置信息确定所述跟踪目标的第一搜索区域R_org；

根据所述第一搜索区域R_org确定第一混合特征Z_fea，所述第一混合特征Z_fea包括：卷积神经网络特征Z_cnn、方向梯度直方图HOG特征Z_hog和颜色特征Z_lab；

以所述第一混合特征Z_fea作为输入，计算目标模板tmpl，所述目标模板tmpl用于将所述跟踪目标的特征信息转化为位置信息；

获取下一帧中所述跟踪目标在相同的所述位置信息下的M个第二搜索区域R_si，所述M为大于或等于3的整数，所述M个第二搜索区域R_si分别对应M个不同的搜索尺寸；

根据所述M个第二搜索区域R_si确定M个分别对应的第二混合特征图Z_si；

根据所述目标模板tmpl和所述第二混合特征图Z_si计算所述跟踪目标的特征响应图Rmap_si；

确定所述特征响应图Rmap_si中滤波响应最大的特征点的位置为所述跟踪目标的位置。

由上可见，本发明实施例在确认跟踪目标之后，根据跟踪目标的位置信息确定第一搜索区域，再根据所述第一搜索区域确定第一混合特征；其中，所述第一混合特征包括：卷积神经网络特征、HOG特征和颜色特征；以所述第一混合特征作为输入，计算目标模板；然后，获取下一帧中所述跟踪目标在相同的所述位置信息下的M个第二搜索区域，并根据所述M个第二搜索区域确定M个分别对应的第二混合特征图；最后，根据所述目标模板和所述第二混合特征图计算所述跟踪目标的特征响应图，确定所述特征响应图中滤波响应最大的特征点的位置为所述跟踪目标的位置，完成跟踪目标的跟踪。为了适应各种复杂的跟踪场景，本发明实施例将卷积神经网络特征和HOG特征，LAB颜色特征级联起来，可进一步提升跟踪效果，提高跟踪的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种指定物体跟踪方法一个实施例流程示意图；

图2为本发明实施例提供的一种指定物体跟踪方法另一个实施例流程示意图；

图3为本发明实施例提供的加权混合特征图；

图4为本发明实施例提供的快速相邻尺度搜索策略图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

本发明实例提供一种指定物体跟踪方法。如图1所示，本发明实施例中的指定物体跟踪方法包括：

步骤101、获取当前帧中跟踪目标的位置信息；

在步骤101中，指定物体跟踪装置获取当前帧中跟踪目标的位置信息。在实际应用中的，在跟踪视频实时播放时，用户实时对跟踪视频中的当前帧进行标注，标注出跟踪目标的矩形框，指定物体跟踪装置获取所述矩形框中跟踪目标对应的位置信息。

具体的，所述位置信息包括:所述跟踪目标的中心点坐标(x，y)、宽度信息w和高度信息h。

步骤102、根据所述位置信息确定所述跟踪目标的第一搜索区域；

在步骤102中，指定物体跟踪装置根据所述位置信息确定所述跟踪目标的第一搜索区域R_org，所述第一搜索区域为当前帧对应的搜索区域。R_org的高h_R＝pad*h,宽w_R＝pad*w；其中，pad值表示搜索区域相对于跟踪目标的矩形框的大小倍数，该pad值可以取2.5。

具体的，指定物体跟踪装置可以以所述跟踪目标的中心点坐标(x，y)为中心，并根据所述宽度信息w和高度信息h的比例确定所述跟踪目标的第一搜索区域R_org。

可以理解的是，在实际应用中，第一搜索区域的确定方式可以有多种，本发明实施例仅举出一种实现方式，该实现方式不应理解为本发明实施例的唯一实现方法。

步骤103、根据所述第一搜索区域确定第一混合特征；

在步骤103中，指定物体跟踪装置根据所述第一搜索区域R_org确定第一混合特征Z_fea，请参阅图3，上述第一混合特征Z_fea包括：卷积神经网络特征Z_cnn、方向梯度直方图(HOG，Histogram of Oriented Gradient)特征Z_hog和颜色特征Z_lab。

示例性的，在实际应用中，上述第一混合特征Z_fea可以具体为a*Z_cnn，，(1-a)*Z_hog，或者(1-a)*Z_lab，其中，a为权重系数，控制卷积神经网络特征和传统特征(边缘，颜色)之间的比重。

具体的，所述卷积神经网络特征Z_cnn可以通过对所述第一搜索区域R_org进行卷积网络的滤波得到；在实际应用中，在得到第一搜索区域后，可以在该区域中利用多域卷积神经网络的视觉跟踪(MDNet，Multi-Domain Convolutional Neural Networks for VisualTracking)训练得到的卷积网络的第一层滤波器进行滤波。

因为MDNet的卷积层特征可以学习到前景目标的共性特征，所以这种卷积神经网络提取的特征更适合完成任意目标的跟踪任务，可以获得更高的跟踪精度。

具体的，HOG特征Z_hog和颜色特征Z_lab可以从归一化的第一搜索区域中提取得到。

步骤104、以所述第一混合特征作为输入，计算目标模板；

在步骤104中，指定物体跟踪装置以所述第一混合特征Z_fea作为输入，计算目标模板tmpl，所述目标模板tmpl用于将所述跟踪目标的特征信息转化为位置信息，从而实现对跟踪目标的跟踪。在实际应用中，目标模板可以为一个权重矩阵，把跟踪目标的特征矩阵映射成跟踪目标的位置分布矩阵。

示例性的，在实际应用中，目标模板tmpl可以为其中，公式中的⊙表示矩阵元素相乘，公式中的除法为矩阵元素相除，公式中的λ为正则化参数，公式中的表示对应变量的快速傅里叶变换FFT，公式中的*表示复数的共轭，公式中的是经过FFT变换后的高斯核。

可以理解的是，在实际应用中，目标模板tmpl可以有多种表现形式，本发明实施例仅举出一种实现方式，该实现方式不应理解为本发明实施例的唯一实现方法。

步骤105、获取下一帧中所述跟踪目标在相同的所述位置信息下的M个第二搜索区域；

在步骤105中，指定物体跟踪装置获取下一帧中所述跟踪目标在相同的所述位置信息下的M个第二搜索区域R_Si，所述M为大于或等于3的整数，所述M个第二搜索区域R_Si分别对应M个不同的搜索尺寸。

其中，第二搜索区域为下一帧图像对应的搜索区域，且所述第二搜索区域可以有多个，在实际应用中，为了能实时检测出目标大小，M＝3是最小的尺度变化量化量。取M＝5，7，9….等较大的M值可以获得更精确的目标大小信息，但是会损失运算速度，影响跟踪算法的速度。

步骤106、根据所述M个第二搜索区域确定M个分别对应的第二混合特征图；

在步骤106中，指定物体跟踪装置根据所述M个第二搜索区域R_Si确定M个分别对应的第二混合特征图Z_Si。具体的，所述第二混合特征图也包括卷积神经网络特征、HOG特征和颜色特征；并且，根据第二搜索区域确定第二混合特征图的方式可以参数上述步骤103相似，此次不再赘述。

步骤107、根据所述目标模板和所述第二混合特征图计算所述跟踪目标的特征响应图；

在步骤107中，指定物体跟踪装置根据所述目标模板tmpl和所述第二混合特征图Z_Si计算所述跟踪目标的特征响应图Rmap_si。

示例性的，指定物体跟踪装置可以以所述目标模板tmpl和所述第二混合特征图Z_Si作为输入，根据公式计算特征响应图Rmap_si。

可以理解的是，在实际应用中，计算特征响应图的计算方式可以有多种，本发明实施例仅举出一种实现方式，该实现方式不应理解为本发明实施例的唯一实现方法。

步骤108、确定所述特征响应图中滤波响应最大的特征点的位置为所述跟踪目标的位置。

在步骤108中，指定物体跟踪装置确定所述特征响应图Rmap_si中滤波响应最大的特征点的位置为所述跟踪目标的位置。

具体的，在实际应用中，指定物体跟踪装置分别确定每一个搜索尺度对应的特征响应图Rmap_si中滤波响应最大的特征点的位置L_si(x,y)＝argmax_(x,y)Rmap_si(x,y)；再在M个搜索尺度对应的最大的特征点的位置中，确定滤波响应最大的特征点为所述跟踪目标的位置(x_t,y_t)＝max_si(L_si(x,y))。

本发明实施例中，在确认跟踪目标之后，根据跟踪目标的位置信息确定第一搜索区域，再根据所述第一搜索区域确定第一混合特征；其中，所述第一混合特征包括：卷积神经网络特征、HOG特征和颜色特征；以所述第一混合特征作为输入，计算目标模板；然后，获取下一帧中所述跟踪目标在相同的所述位置信息下的M个第二搜索区域，并根据所述M个第二搜索区域确定M个分别对应的第二混合特征图；最后，根据所述目标模板和所述第二混合特征图计算所述跟踪目标的特征响应图，确定所述特征响应图中滤波响应最大的特征点的位置为所述跟踪目标的位置，完成跟踪目标的跟踪。为了适应各种复杂的跟踪场景，本发明实施例将卷积神经网络特征和HOG特征，LAB颜色特征级联起来，可进一步提升跟踪效果，提高跟踪的准确率。

需要说明的是，本发明实施例中的指定物体跟踪方法可以由指定物体跟踪装置执行。上述指定物体跟踪装置可以集成在机器人、监控终端或其它终端中，此处不作限定。

实施例二

请参阅图2，在实际应用中，由于指定目标跟踪***的硬件资源一般非常有限，在完成目标跟踪任务的同时还要进行其它任务的处理，因此该类型的算法不宜占用过多的计算资源和存储资源，本发明实施例做了相应的优化，具体包括：

步骤201、获取当前帧中跟踪目标的位置信息；

在步骤201中，指定物体跟踪装置获取当前帧中跟踪目标的位置信息。在实际应用中的，在跟踪视频实时播放时，用户实时对跟踪视频中的当前帧进行标注，标注出跟踪目标的矩形框，指定物体跟踪装置获取所述矩形框中跟踪目标对应的位置信息。

步骤202、根据所述位置信息确定所述跟踪目标的第一搜索区域；

在步骤202中，指定物体跟踪装置根据所述位置信息确定所述跟踪目标的第一搜索区域R_org，所述第一搜索区域为当前帧对应的搜索区域。R_org的高h_R＝pad*h,宽w_R＝pad*w；其中，pad值表示搜索区域相对于跟踪目标的矩形框的大小倍数，该pad值可以取2.5。

步骤203、根据所述跟踪目标的宽度信息和高度信息确定所述第一搜索区域的缩放尺度值；

在步骤203中，指定物体跟踪装置根据所述跟踪目标的宽度信息和高度信息确定所述第一搜索区域的缩放尺度值。具体的，指定物体跟踪装置根据所述跟踪目标的宽度信息w和高度信息h,确定所述跟踪目标的长边L_R,所述跟踪目标的长边L_R为所述第一搜索区域中长度最长的边框线段；然后，再根据所述跟踪目标的长边L_R确定所述第一搜索区域R_org的缩放尺度值S_R。

示例性的，所述长边L_R可以根据公式L_R＝max(h_R，w_R)确定，在本发明实施例中，跟踪目标的长边被限制为固定长度L_{R_max}。缩放尺度值S_R可以根据公式S_R＝L_{R_max}/L_R确定。

在本发明实施例中，针对输入目标任意，以及算法实时性的要求，将输入目标矩形保持比例映射为长边固定大小，短边按照长边缩放比例缩放。这样可以把目标按照比例缩小，减少程序计算特征以及计算目标模板的时间。

步骤204、根据所述缩放尺度值将所述第一搜索区域缩放为第一标准搜索区域；

在步骤204中，指定物体跟踪装置根据所述缩放尺度值S_R将所述第一搜索区域R_org缩放为第一标准搜索区域R_std，所述第一标准搜索区域为长边固定大小的搜索区域。具体的，R_std的高和宽为(h_std，w_std)＝(h_R*S_R，w_R*S_R)。

步骤205、对第一标准搜索区域中的图像进行卷积网络的滤波；

在步骤205中，指定物体跟踪装置对第一标准搜索区域R_std中的图像进行卷积网络的滤波,得到卷积神经网络特征Z_cnn。

在实际应用中，在得到第一标准搜索区域后，可以在该区域中利用MDNet训练得到的卷积网络的第一层滤波器进行滤波。因为MDNet的卷积层特征可以学习到前景目标的共性特征，所以这种卷积神经网络提取的特征更适合完成任意目标的跟踪任务，可以获得更高的跟踪精度。

具体的，滤波后得到的卷积神经网络特征Z_cnn的大小为h_Z*w_Z*c_Z,其中h_Z,w_Z为卷积神经网络特征的高和宽，c_Z为卷积神经网络特征的通道数。

步骤206、对所述卷积神经网络特征进行空间降维和通道降维；

在步骤206中，指定物体跟踪装置对所述卷积神经网络特征Z_cnn进行空间降维和通道降维。示例性的，卷积神经网络特征图的空间降维，对得到的卷积神经网络特征Z_cnn的每一个通道分别进行4*4Max pooling(最大值池化操作),将其宽，高降低为Z_cnn的一半，从而将空间维度降低为Z_cnn的四分之一。卷积神经网络特征的通道降维，对空间降维后的卷积神经网络特征图进行降维，将特征图的特征通道数降到c_{Z_min}＝32。经过空间以及通道降维后的特征卷积Z_min的维度降低为(0.5*h_Z，0.5*w_Z，c_{Z_min})。

在本发明实施例中，由于原始的卷积神经网络提取的第一层特征维度较高，直接用于跟踪，在特征提取以及后续处理过程中会大大降低处理速度。同时，在获取的首层卷积神经网络的特征中，存在大量的冗余，包括空间冗余和通道冗余。在原来的网络中由于存在多层神经网络，冗余信息可以在后面被消除掉。因此，本发明实施例通过空间降维和通道降维结合的方式来消除空间冗余和减少特征通道，从而达到在保证跟踪性能的前提下，大大提升了跟踪速度。

步骤207、根据所述第一标准搜索区域提取方向梯度直方图HOG特征和颜色特征；

在步骤207中，指定物体跟踪装置根据所述第一标准搜索区域R_std提取方向梯度直方图HOG特征Z_log和颜色特征Z_lab。示例性的，指定物体跟踪装置可以提取核大小为(4×4)的HOG特征Z_log，得到维度为(0.5*h_Z，0.5*w_Z，c_hog)的特征矩阵。特征的通道数为c_hog＝31；指定物体跟踪装置可以提取核大小为(4×4)的LAB颜色特征Z_lab,特征的维度为(0.5*h_Z，0.5*w_Z，c_labg)，其中颜色特征的通道数为c_lab＝15。

步骤208、输出第一混合特征；

在步骤208中，指定物体跟踪装置根据预算权重将所述卷积神经网络特征R_std、所述HOG特征Z_log和所述颜色特征Z_lab配置为第一混合特征Z_fea。

示例性的，上述第一混合特征Z_fea具体可以为：a*Z_cnn，(1-a)*Z_hog，或者(1-a)*Z_lab，其中，a为权重系数，控制卷积神经网络特征和传统特征(边缘，颜色)之间的比重。

步骤209、以所述第一混合特征作为输入，计算目标模板；

在步骤209中，指定物体跟踪装置以所述第一混合特征Z_fea作为输入，计算目标模板tmpl，所述目标模板tmpl用于将所述跟踪目标的特征信息转化为位置信息，从而实现对跟踪目标的跟踪。在实际应用中，目标模板可以为一个权重矩阵，把跟踪目标的特征矩阵映射成跟踪目标的位置分布矩阵。

步骤210、获取下一帧中所述跟踪目标在相同的所述位置信息下的M个第二搜索区域；

在步骤210中，指定物体跟踪装置获取下一帧中所述跟踪目标在相同的所述位置信息下的M个第二搜索区域R_Si，所述M为大于或等于3的整数，所述M个第二搜索区域R_Si分别对应M个不同的搜索尺寸。

示例性的，请参阅图4，本发明实施例以M＝3为例进行说明。其中，Ri∈{R_S-1,R_S0,R_S+1},i∈{-1,0,1}。R_S0的大小与前一帧搜索区域的大小一样。R_S1为(x，y，w，h)，R_S+1为(x，y，w*S_step，h*S_step)，R_S-1为(x，y，w/S_step，h/S_step)，其中，S_step为尺度变化因子，S_step＝1.05；所述尺度因子为扩大或者缩小搜索区域的系数，用于生成不同尺度的搜索区域。

指定物体跟踪装置将提取到的不同尺度的搜索区域R_i∈{R_S-1,R_S0,R_S+1}归一化到指定大小(h_std,w_std)，从而得到归一化的搜索区，R_stdSi＝{R_stdS-1,R_stdS0,R_stdS+1}。

步骤211、根据所述M个第二搜索区域确定M个分别对应的第二混合特征图；

在步骤211中，指定物体跟踪装置根据所述M个第二搜索区域R_Si确定M个分别对应的第二混合特征图Z_Si。在R_stdSi∈{R_stdS-1，R_stdS0，R_stdS+1}上提取带权重的级联的混合特征Z＝w_cnn*Z_cnn+w_hog*Z_hog+w_lab*Z_lab。得到各个尺度搜索区域相对应的混合特征Z_i∈{Z_S-1，Z_S0，Z_S+1}。

步骤212、根据所述目标模板和所述第二混合特征图计算所述跟踪目标的特征响应图；

在步骤212中，指定物体跟踪装置根据所述目标模板tmpl和所述第二混合特征图Z_si计算所述跟踪目标的特征响应图Rmap_si。

步骤213、确定所述特征响应图中滤波响应最大的特征点的位置为所述跟踪目标的位置；

在步骤213中，指定物体跟踪装置确定所述特征响应图Rmap_si中滤波响应最大的特征点的位置为所述跟踪目标的位置。

步骤214、获取所述滤波响应最大的特征点对应的搜索尺度，以及所述搜索尺度对应的特征图；

指定物体跟踪装置获取所述滤波响应最大的特征点对应的搜索尺度S_t，以及所述搜索尺度S_t对应的特征图Z_st。

步骤215、使用所述特征图更新所述目标模板；

指定物体跟踪装置使用所述特征图Z_st更新所述目标模板tmpl，由于目标在跟踪过程中会不断变化，所以需要使用目标当前特征图不断更新目标模板。

步骤216、根据更新后的目标模板判断所述跟踪目标是否走出视频区域；

指定物体跟踪装置根据更新后的目标模板tmpl判断所述跟踪目标是否走出视频区域，若是，则停止跟踪算法；若否，则执行步骤217。

步骤217、检测用户是否停止跟踪；

指定物体跟踪装置检测用户是否停止跟踪，若是，则停止跟踪算法；若否，则返回执行步骤210，在下一帧中提取尺度为S_t+i，i∈{-1,0,1}的三个不同尺度的搜索区域。

本发明实施例具有以下有益效果：

1、本发明实施例针对输入目标任意，以及算法实时性的要求，将输入目标矩形保持比例映射为长边固定大小，短边按照长边缩放比例缩放。可以把目标按照比例缩小，减少程序计算特征以及计算目标模板的时间。

2、本发明实施例使用MDNet的卷积神经网络的第一层特征作为输入，由于MDNet的卷积层特征可以学习到前景目标的共性特征，所以这种卷积神经网络提取的特征更适合完成任意目标的跟踪任务，可以获得更高的跟踪精度。

3、本发明实施例使用空间降维和通道降维结合的方式来消除空间冗余和减少特征通道，从而达到在保证跟踪性能的前提下，大大提升了跟踪速度。

4、为了适应各种复杂的跟踪场景，卷积神经网络特征可以和HOG特征，LAB颜色特征级联起来，共同作为输入。进一步提升跟踪效果。由于卷积神经网络特征已经经过了降维处理，因此加HOG和LAB特征后不会增加很多处理时间。

5、通常视频采集的速度可以达到25～30fps，因此物体在靠近或者原理摄像头的过程中不会尺度快速变大或者变小。在本发明实施例中，只依据现在的搜索区域大小，对其做变大和变小两个尺度的处理，然后将不同尺度的搜索区域归一化到目标模型大小。目标模型只在当前尺度下生成。这样只需要生成一个尺度的目标模型，同时待检测的区域只包含当前尺度和两个临近尺度，可以进一步提升处理速度。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本发明所提供的一种指定物体跟踪方法的描述，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种指定物体跟踪方法，其特征在于，包括：

获取当前帧中跟踪目标的位置信息；

根据所述位置信息确定所述跟踪目标的第一搜索区域R_org；

2.根据权利要求1所述的方法，其特征在于，所述位置信息包括:所述跟踪目标的中心点坐标(x，y)、宽度信息w和高度信息h；

所述根据所述位置信息确定所述跟踪目标的第一搜索区域R_org，包括：

以所述中心点坐标(x，y)为中心，并根据所述宽度信息w和高度信息h的比例确定所述跟踪目标的第一搜索区域R_org。

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一搜索区域R_org确定第一混合特征Z_fea之前，还包括：

根据所述跟踪目标的宽度信息w和高度信息h确定所述第一搜索区域R_org的缩放尺度值S_R；

根据所述缩放尺度值S_R将所述第一搜索区域R_org缩放为第一标准搜索区域R_std；

根据所述第一搜索区域R_org确定第一混合特征Z_fea，包括：

根据所述第一标准搜索区域R_std确定第一混合特征Z_fea。

4.根据权利要求3所述的方法，其特征在于，所述根据所述宽度信息w和高度信息h确定所述第一搜索区域R_org的缩放尺度值S_R，包括：

根据所述跟踪目标的宽度信息w和高度信息h,确定所述跟踪目标的长边L_R,所述跟踪目标的长边L_R为所述第一搜索区域中长度最长的边框线段；

根据所述跟踪目标的长边L_R确定所述第一搜索区域R_org的缩放尺度值S_R。

5.根据权利要求3所述的方法，其特征在于，所述根据所述第一标准搜索区域R_std确定第一混合特征Z_fea，具体为：

对第一标准搜索区域R_std中的图像进行卷积网络的滤波,得到卷积神经网络特征Z_cnn；

根据所述第一标准搜索区域R_std提取方向梯度直方图HOG特征Z_hog和颜色特征Z_lab；

根据预算权重将所述卷积神经网络特征Z_cnn、所述HOG特征Z_hog和所述颜色特征Z_lab配置为第一混合特征Z_fea。

6.根据权利要求5所述的方法，其特征在于，对第一标准搜索区域R_std中的图像进行卷积网络的滤波,得到卷积神经网络特征Z_cnn之后，还包括：

对所述卷积神经网络特征Z_cnn进行空间降维和通道降维。

7.根据权利要求1所述的方法，其特征在于，所述以所述第一混合特征Z_fea作为输入，计算目标模板tmpl，具体为：

将所述第一混合特征Z_fea作为公式的输入，计算目标模板tmpl；

其中，公式中的⊙表示矩阵元素相乘，公式中的除法为矩阵元素相除，公式中的λ为正则化参数，公式中的表示对应变量的快速傅里叶变换FFT，公式中的*表示复数的共轭，公式中的是经过FFT变换后的高斯核。

8.根据权利要求1所述的方法，其特征在于，所述根据所述目标模板tmpl和所述第二混合特征图Z_si计算所述跟踪目标的特征响应图Rmap_si，具体为：

以所述目标模板tmpl和所述第二混合特征图Z_si作为输入，根据公式计算特征响应图Rmap_si。

9.根据权利要求8所述的方法，其特征在于，所述确定所述特征响应图Rmap_si中滤波响应最大的特征点的位置为所述跟踪目标的位置，包括：

分别确定每一个搜索尺度对应的特征响应图Rmap_si中滤波响应最大的特征点的位置L_si(x,y)＝argmax_(x,y)Rmap_si(x,y)；

在M个搜索尺度对应的最大的特征点的位置中，确定滤波响应最大的特征点为所述跟踪目标的位置(x_t,y_t)＝max_si(L_si(x,y))。

10.根据权利要求9所述的方法，其特征在于，所述在M个搜索尺度对应的最大的特征点的位置中，确定滤波响应最大的特征点为所述跟踪目标的位置之后，包括：

获取所述滤波响应最大的特征点对应的搜索尺度S_t，以及所述搜索尺度S_t对应的特征图Z_st；

使用所述特征图Z_st更新所述目标模板tmpl；

根据更新后的目标模板tmpl判断所述跟踪目标是否走出视频区域，若是，则停止跟踪算法。