CN108320301B

CN108320301B - 一种基于跟踪学习检测的目标跟踪优化方法

Info

Publication number: CN108320301B
Application number: CN201810079102.5A
Authority: CN
Inventors: 赵亦工; 李长桂
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-01-26
Filing date: 2018-01-26
Publication date: 2022-03-18
Anticipated expiration: 2038-01-26
Also published as: CN108320301A

Abstract

本发明公开了一种基于跟踪学习检测的目标跟踪优化方法，属于计算机视觉领域，其主要思路为：确定L帧灰度图像视频帧序列，每帧灰度图像视频帧序列中分别包含一个跟踪目标；第1帧灰度图像视频帧序列中的跟踪目标位置已知，其余L‑1帧灰度图像视频帧序列中的跟踪目标位置未知；t∈{1,2,…,L}，t的初始值为1；在第t帧目标限定框

中选取

个均匀跟踪点，进而在第t+1帧灰度图像视频帧序列中得到第t+1帧灰度图像视频帧序列的跟踪阶段限定框tb_t+1；从第t+1帧灰度图像视频帧序列中获得第t+1帧灰度图像视频帧序列的检测阶段限定框db_t+1，进而确定第t+1帧跟踪目标的最终位置；令t的值加1，直到得到第2帧跟踪目标的最终位置至第L帧跟踪目标的最终位置，并记为基于跟踪学习检测的目标跟踪优化结果。

Description

一种基于跟踪学习检测的目标跟踪优化方法

技术领域

本发明属于计算机视觉领域，特别涉及一种基于跟踪学习检测的目标跟踪优化方法，即一种基于跟踪-学习-检测(Tracking-Learning-Detection，TLD)的目标跟踪优化方法，适用于视频帧序列中单个目标长时间的稳定跟踪。

背景技术

近些年来，目标检测和目标跟踪一直是计算视觉领域中备受瞩目的科技前沿方向，主要包括从视频帧序列中检测和识别出感兴趣的运动目标，然后持续稳定地跟踪运动目标，并对运动目标的运动状态实时进行详尽描绘；目标检测和目标跟踪涉及到人工智能、图像处理和模式识别等多领域的学科。

随着相关领域学科的飞速发展，目标检测和目标跟踪无论在民用方面还是军事方面都拥有着无可比拟的应用潜力，已经成为了一项现实生活中无法或缺的非常重要的科学技术；在经过科研工作者长达数十年的研究中，很多优秀的目标跟踪算法一一问世，例如基于粒子滤波的目标跟踪算法、基于运动目标建模的目标跟踪算法和基于卡尔曼滤波的目标跟踪算法等等，这些经典的目标跟踪算法都有自己的局限性，不能很好的适用于更广泛的场景，缺乏对目标长时间实时跟踪的能力，缺乏自我学习和自我调整的能力，随着跟踪时间的变长，跟踪效果越来越差，最终导致跟踪的失败。

目标跟踪算法TLD的提出很好的解决了视频帧序列中单目标长时间实时跟踪的问题，该算法首次将跟踪和检测结合起来，二者相互协作，相辅相成，面对复杂的跟踪场景，如遮挡、光照变化、尺度变换等有较强的抗干扰能力；当目标跟踪算法TLD跟踪失败时，重新检测能有效再次识别到跟踪目标，有效的提高了该跟踪算法的鲁棒性，此外目标跟踪算法TLD创造性的结合了跟踪和检测的结果进行在线学习，自我修正，有效的的提高了该跟踪算法长时间实时跟踪的稳定性。

目标跟踪算法TLD可以分为跟踪阶段、检测阶段和学习阶段三个阶段，跟踪阶段和检测阶段相互独立，学习阶段根据跟踪阶段和检测阶段的结果进行在线学习，不断完善和稳定目标跟踪算法TLD的跟踪能力；其中跟踪阶段和检测阶段的最终输出分别为跟踪阶段限定框和检测阶段限定框，结合跟踪阶段和检测阶段得到的最终输出称为目标限定框；目标跟踪算法TLD的鲁棒性和稳定性值得肯定，但是该算法总体的实时性一般，有待提高，特别是视频帧序列中的检测阶段，每次都要对整个灰度图像视频帧序列进行全局扫描，严重影响了检测阶段的检测速度，进而降低了整个目标跟踪算法TLD的实时性。

发明内容

针对上述现有技术存在的不足，本发明的目的在于提出一种基于跟踪学习检测的目标跟踪优化方法，该种基于跟踪学习检测的目标跟踪优化方法充分考虑了检测阶段的扫描策略，在跟踪阶段对跟踪目标进行马尔科夫预测，在检测阶段利用跟踪阶段的结果缩小扫描范围，并使用尺度等级无序的滑动窗口进行扫描，有效地提高了目标跟踪算法TLD的实时性。

为达到上述技术目的，本发明采用如下技术方案予以实现。

一种基于跟踪学习检测的目标跟踪优化方法，包括以下步骤：

步骤1，获取L帧用于跟踪的彩色图像视频帧序列，对所述L帧用于跟踪的彩色图像视频帧序列分别进行灰度转换，进而得到L帧灰度图像视频帧序列，每帧灰度图像视频帧序列都为N行M列，且每帧灰度图像视频帧序列中分别包含一个跟踪目标；第1帧灰度图像视频帧序列中的跟踪目标位置已知，其余L-1帧灰度图像视频帧序列中的跟踪目标位置未知；其中，L、N、M分别为大于0的正整数；

初始化：令t表示第t帧灰度图像视频帧序列，t∈{1,2,…,L}，t的初始值为1；确定第1帧目标限定框b₁ ^O和第1帧灰度图像视频帧序列的正负样本库L₁；

步骤2，在第t帧目标限定框b_t ^O中选取N_t ^U个均匀跟踪点，并根据第t帧灰度图像视频帧序列的正负样本库L_t，在第t+1帧灰度图像视频帧序列中得到第t+1帧灰度图像视频帧序列的跟踪阶段限定框tb_t+1；

步骤3，从第t+1帧灰度图像视频帧序列中获得第t+1帧灰度图像视频帧序列的检测阶段限定框db_t+1；

步骤4，根据第t+1帧灰度图像视频帧序列的跟踪阶段限定框tb_t+1和第t+1帧灰度图像视频帧序列的检测阶段限定框db_t+1，得到第t+1帧目标限定框，进而确定第t+1帧跟踪目标的最终位置；

步骤5，令t的值加1，执行步骤2至步骤4,直到得到第2帧跟踪目标的最终位置至第L帧跟踪目标的最终位置，并记为基于跟踪学习检测的目标跟踪优化结果。

本发明的有益效果：

本发明方法对目标跟踪算法TLD中的检测阶段进行改进，在跟踪阶段加入了马尔科夫预测的方法，并结合归一化互相关预测和马尔科夫预测的结果，在检测阶段使用尺度等级无序的搜索策略对缩小后的包含跟踪目标的区域进行搜索，有效降低了目标跟踪算法TLD的运算量，提高了目标跟踪算法TLD的实时性。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细说明。

图1为本发明的一种基于跟踪学习检测的目标跟踪优化方法流程图；

图2为目标跟踪算法TLD的框架图。

具体实施方式

参照图1，为本发明的一种基于跟踪学习检测的目标跟踪优化方法流程图；其中所述基于跟踪学习检测的目标跟踪优化方法，包括以下步骤：

步骤1，获取L帧用于跟踪的彩色图像视频帧序列，对所述L帧用于跟踪的彩色图像视频帧序列分别进行灰度转换，进而得到L帧灰度图像视频帧序列，每帧灰度图像视频帧序列都为N行M列，且每帧灰度图像视频帧序列中分别包含一个跟踪目标；第1帧灰度图像视频帧序列中的跟踪目标位置已知，其余L-1帧灰度图像视频帧序列中的跟踪目标位置未知；其中，L、N、M分别为大于0的正整数。

初始化：令t表示第t帧灰度图像视频帧序列，t∈{1,2,…,L}，t的初始值为1。

将以第1帧灰度图像视频帧序列中跟踪目标为中心、高度为h₁、宽度为w₁的矩形框，记为第1帧目标限定框

所述第1帧目标限定框

是包含第1帧灰度图像视频帧序列中跟踪目标的目标限定框，上标O表示目标限定框，0<h₁≤N，0<w₁≤M。

以第1帧灰度图像视频帧序列的第1行第1列像素点为原点O，并以水平向右为x轴正方向、以竖直向下为y轴正方向建立第1帧灰度图像视频帧序列坐标系,则第1帧目标限定框

中第1行第1列像素点坐标为

表示第1帧目标限定框

的x轴坐标，

表示第1帧目标限定框

的y轴坐标，

表示第1帧目标限定框

的宽度，

表示第1帧目标限定框

的高度；

根据目标跟踪算法TLD使用大小为

的滑动窗口

对第t帧灰度图像视频帧序列进行全局扫描，扫描区域为第t帧灰度图像视频帧序列全局，总计得到

个扫描窗口，每个扫描窗口包含一个图像块，进而得到

个图像块，其中第k个图像块为

上标P表示扫描得到的图像块，上标D表示检测阶段，

下标s_t表示第t帧灰度图像视频帧序列的尺度等级，

表示第t帧灰度图像视频帧序列尺度等级为s_t的滑动窗口高度，

表示第t帧灰度图像视频帧序列尺度等级为s_t的滑动窗口宽度，

将第t帧灰度图像视频帧序列的初始滑动窗口表示为sw_t,0，第t帧灰度图像视频帧序列的初始滑动窗口sw_t,0的大小为h_t,0×w_t,0，根据经验值，在第1帧灰度图像视频帧序列中设定h_1,0＝w_1,0＝15，其余L-1帧中，若第t'帧目标限定框

同时满足0<h_t'≤N，0<w_t'≤M，则第t'+1帧灰度图像视频帧序列的初始滑动窗口sw_t'+1,0大小等同于第t'帧目标限定框

的大小，即

若第t'帧目标限定

框不满足0<h_t'≤N，0<w_t'≤M中任意一个条件，则第t'+1帧灰度图像视频帧序列初始滑动窗口sw_t'+1,0大小设定为h_t'+1,0＝w_t'+1,0＝15；其中，t'∈{2,3,…,L}，t'+1∈{3,4,…,L}。

所述第t帧目标限定框

是包含第t帧灰度图像视频帧序列中跟踪目标的目标限定框，尺度等级s_t的值加1等同于第t帧灰度图像视频帧序列尺度等级为s_t的滑动窗口高度

和宽度

分别放大m倍，放大m倍后第t帧灰度图像视频帧序列尺度等级为s_t的高度和宽度非整数时分别向上取整；尺度等级s_t的值减1等同于第t帧灰度图像视频帧序列尺度等级为s_t的滑动窗口高度和宽度分别缩小m倍，缩小m倍后第t帧灰度图像视频帧序列尺度等级为s_t的高度和宽度非整数时分别向下取整；其中，m表示设定常数，根据经验值取m＝1.2。

设定第t帧灰度图像视频帧序列全局扫描采用N^G个尺度等级，N^G为正奇数，N^G≥3,N^G个尺度等级依次为

即第t帧灰度图像视频帧序列的尺度等级

根据经验值取N^G＝21，21个尺度等级依次为-10,-9,…,0,…,9,10，此时s_t∈{-10,…,-1,0,1,…,10}，上标G表示全局扫描；将相应尺度等级s_t下对应的缩放倍数记为

第t帧灰度图像视频帧序列尺度等级为s_t的滑动窗口高度

第t帧灰度图像视频帧序列尺度等级为s_t的滑动窗口宽度

若

或

则停止使用大小为

的滑动窗口

对第t帧灰度图像视频帧序列进行全局扫描，全局扫描使用大小为

的滑动窗口

按照尺度等级s_t从小到大的顺序依次对第t帧灰度图像视频帧序列进行扫描，其中尺度等级s_t从小到大的顺序依次为-10,-9,…-1,0,1,…9,10；将第t帧灰度图像视频帧序列尺度等级为s_t的滑动窗口水平方向上步长记为

将第t帧灰度图像视频帧序列尺度等级为s_t的滑动窗口竖直方向上步长记为

第t帧灰度图像视频帧序列尺度等级为s_t的滑动窗口水平方向上步长

和第t帧灰度图像视频帧序列尺度等级为s_t的滑动窗口竖直方向上步长

分别为相应尺度等级下第t帧灰度图像视频帧序列尺度等级为s_t的滑动窗口高度

和第t帧灰度图像视频帧序列尺度等级为s_t的滑动窗口宽度

的10％，即

表示向上取整，上标H表示水平方向，上标V表示竖直方向，上标G表示全局扫描。

将第t帧目标限定框

包含的图像块记为P_t ^O，对第t帧灰度图像视频帧序列的

个图像块进行重叠度的比较，依次计算第t帧灰度图像视频帧序列的

个图像块分别与第t帧目标限定框

包含的图像块P_t ^O的重叠度，总计得到

个重叠度，

个重叠度中第k个重叠度为

其表达式为：

其中，

表示第t帧灰度图像视频帧序列的第k个图像块

和第t帧目标限定框

包含的图像块P_t ^O的重叠度，

根据经验值取o_min＝0，o_max＝1；

表示第t帧灰度图像视频帧序列的第k个图像块

的面积，

表示第t帧目标限定框

包含的图像块P_t ^O的面积，

表示第t帧灰度图像视频帧序列的第k个图像块

和第t帧目标限定框

包含的图像块P_t ^O重叠部分的面积，

min表示取最小值。

当t取值为1时，按照公式(1)依次计算第1帧灰度图像视频帧序列的

个图像块分别与第1帧目标限定框

包含的图像块P₁ ^O的重叠度，进而总计得到

个重叠度，

个重叠度中第k个重叠度为

若

则将

个重叠度中第k个重叠度

对应图像块记为第a个满足要求的图像块，a的初始值为1，令a的值加1；遍历

个重叠度，进而得到NN₁'个满足要求的图像块；其中，a∈{1,2,…,NN₁'}，根据经验值取θ_N＝0.2，

根据方差分类法对NN₁'个满足要求的图像块进行方差分类，得到NN₁个图像块，0≤NN₁≤NN₁'；最终对NN₁个图像块使用双线性插值算法进行归一化处理，得到包含NN₁个图像块的负样本库NL₁，N表示负样本。

若

则将

个重叠度中第k个重叠度

对应图像块记为第a'个满足要求的图像块，a'的初始值为1，令a'的值加1；遍历

个重叠度，进而得到NP₁'个满足要求的图像块；其中，a'∈{1,2,…,NP₁'}，根据经验值取θ_P＝0.8，

根据方差分类法对NP₁'个满足要求的图像块进行方差分类得到NP₁个图像块，0≤NP₁≤NP₁'，最终对NP₁个图像块使用双线性插值算法进行归一化处理得到包含NP₁个图像块的正样本库PL₁，P表示正样本；将包含NP₁个图像块的正样本库PL₁和包含NN₁个图像块的负样本库NL₁记为第1帧灰度图像视频帧序列的正负样本库L₁。

步骤2，进入跟踪阶段：使用大小为K×K的均匀网格在第t帧目标限定框

中选取

个均匀跟踪点，

根据经验值取K＝10，具体步骤为：根据第t帧目标限定框

中第1行第1列像素点坐标为

确定第t帧目标限定框

水平方向相邻均匀跟踪点之间间隔为

第t帧目标限定框

竖直方向相邻均匀跟踪点之间间隔为

表示向下取整,

其中第j个均匀跟踪点为u_t,j，

上标U表示均匀跟踪点，

表示第t帧目标限定框

的x轴坐标，

表示第t帧目标限定框

的y轴坐标，

表示第t帧目标限定框

的宽度，

表示第t帧目标限定框

的高度。

将第t帧目标限定框

中第1行第1列像素点作为第1个均匀跟踪点，第1个均匀跟踪点的横坐标为

第1个均匀跟踪点的纵坐标为

表示第t帧目标限定框

水平方向相邻均匀跟踪点之间间隔，

表示第t帧目标限定框

竖直方向相邻均匀跟踪点之间间隔；以第1个均匀跟踪点为起点、水平方向相邻均匀跟踪点之间间隔为

竖直方向的相邻均匀跟踪点之间间隔为

在第t帧目标限定框

中选取

个像素点，记为第t帧目标限定框

中使用均匀选取跟踪点的方式得到的

个均匀跟踪点；其中，第t帧目标限定框

水平方向相邻均匀跟踪点之间间隔

小于第t帧目标限定框

的宽度

第t帧目标限定框

竖直方向相邻均匀跟踪点之间间隔

小于第t帧目标限定框

的高度

和

分别为大于0的正整数。

2.1对第t帧目标限定框

中的

个均匀跟踪点使用光流法LK进行跟踪，在t+1帧灰度图像视频帧序列中得到

个预测跟踪点，其中第j个预测跟踪点为u_t+1,j，

与

取值相等且一一对应；第t+1帧灰度图像视频帧序列中的第j个预测跟踪点u_t+1,j的相应状态标签为l_t+1,j，l_t+1,j∈{0,1}，l_t+1,j＝0表示第t+1帧灰度图像视频帧序列中的第j个均匀跟踪点u_t+1,j未被光流法LK成功跟踪，l_t+1,j＝1表示第t+1帧灰度图像视频帧序列中的第j个均匀跟踪点u_t+1,j被光流法LK成功跟踪；再对第t+1帧灰度图像视频帧序列中的

个预测跟踪点使用光流法LK进行逆跟踪，在第t帧灰度图像视频帧序列中得到

个逆跟踪点，其中第j个逆跟踪点为u_t'_,j,

与

取值相等且一一对应，

上标LK表示经过1次光流法LK跟踪，上标2LK表示经过2次光流法LK跟踪。

2.2第t帧目标限定框

中的

个均匀跟踪点经过光流法LK跟踪后得到

个预测跟踪点，使用前向后向误差法(Forward-Backward，FB)对第t+1帧灰度图像视频帧序列中状态标签为1的预测跟踪点进行验证，得到经过前向后向误差法验证后状态标签仍为1的

个预测跟踪点，

上标1表示经过前向后向误差法1次验证。

2.3使用归一化互相关预测法(Normalized Cross Correlation，NCC)对经过前向后向误差法验证后状态标签仍为1的

个预测跟踪点进行验证，得到经过归一化互相关预测法验证后状态标签仍为1的

个预测跟踪点，

上标2表示经过前向后向误差法和归一化互相关预测法2次验证。

2.4对经过归一化互相关预测法验证后状态标签仍为1的

个预测跟踪点使用目标跟踪算法TLD得到归一化互相关预测后第t+1帧跟踪阶段限定框

归一化互相关预测后第t+1帧跟踪阶段限定框

包含的图像块记为

上标N表示经过归一化互相关预测。

2.5使用马尔科夫预测法对经过归一化互相关预测法验证后状态标签仍为1的

个预测跟踪点进行验证，得到经过马尔科夫预测法验证后状态标签仍为1的

个预测跟踪点，

上标3表示经过前向后向误差法、归一化互相关预测法和马尔科夫预测法3次验证。

2.6对经过马尔科夫预测法验证后状态标签仍为1的

个预测跟踪点使用目标跟踪算法TLD得到马尔科夫预测后第t+1帧跟踪阶段限定框

马尔科夫预测后第t+1帧跟踪阶段限定框

包含的图像块记为

上标M表示经过马尔科夫预测。

2.7根据归一化互相关匹配算法分别得到归一化互相关预测后第t+1帧跟踪阶段限定框

包含的图像块

与第t帧灰度图像视频帧序列的正负样本库L_t中样本的相关相似度

以及马尔科夫预测后第t+1帧跟踪阶段限定框

包含的图像块

上标T表示跟踪阶段。

2.8若相关相似度满足

则令第t+1帧灰度图像视频帧序列中归一化互相关预测法的状态标签

第t+1帧灰度图像视频帧序列中马尔科夫预测法的状态标签

并认为第t+1帧灰度图像视频帧序列跟踪阶段跟踪失败。

其中，

表示第t+1帧灰度图像视频帧序列中归一化互相关预测法的状态标签，

表示第t+1帧灰度图像视频帧序列中马尔科夫预测法的状态标签，

表示第t+1帧灰度图像视频帧序列中归一化互相关预测法预测成功，

表示第t+1帧灰度图像视频帧序列中马尔科夫预测法预测成功。

若相关相似度

令第t+1帧灰度图像视频帧序列中归一化互相关预测法的状态标签

第t+1帧灰度图像视频帧序列中马尔科夫预测法的状态标签

将归一化互相关预测后第t+1帧跟踪阶段限定框

作为第t+1帧灰度图像视频帧序列的跟踪阶段限定框tb_t+1，并将第t+1帧灰度图像视频帧序列的跟踪阶段限定框tb_t+1作为第t+1帧灰度图像视频帧序列跟踪阶段的最终输出；其中，

表示第t+1帧灰度图像视频帧序列中归一化互相关预测法预测失败，

表示第t+1帧灰度图像视频帧序列中马尔科夫预测法预测失败。

若相关相似度不满足

和

中任一条件，则令第t+1帧灰度图像视频帧序列中归一化互相关预测法的状态标签

第t+1帧灰度图像视频帧序列中马尔科夫预测法的状态标签

将马尔科夫预测后第t+1帧跟踪阶段限定框

作为第t+1帧灰度图像视频帧序列的跟踪阶段限定框tb_t+1，并将第t+1帧灰度图像视频帧序列的跟踪阶段限定框tb_t+1作为第t+1帧灰度图像视频帧序列跟踪阶段的最终输出。

其中，θ^R表示相关相似度阈值，根据经验值取θ^R＝0.7，上标R表示相关相似度，max表示取最大值。

综合上述在第t+1帧灰度图像视频帧序列中得到第t+1帧灰度图像视频帧序列的跟踪阶段限定框tb_t+1，令第t+1帧灰度图像视频帧序列的跟踪阶段限定框状态标签

若在第t+1帧灰度图像视频帧序列跟踪阶段中没有得到第t+1帧灰度图像视频帧序列的跟踪阶段限定框tb_t+1，令第t+1帧灰度图像视频帧序列的跟踪阶段限定框状态标签

表示第t+1帧灰度图像视频帧序列跟踪阶段的跟踪成功与否。

步骤3，进入检测阶段；对第t+1帧灰度图像视频帧序列中归一化互相关预测法的状态标签

和第t+1帧灰度图像视频帧序列中马尔科夫预测法的状态标签

采用不同的搜索范围，具体分为以下三种情况：

若第t+1帧灰度图像视频帧序列中归一化互相关预测法的状态标签

第t+1帧灰度图像视频帧序列中马尔科夫预测法的状态标签

则对第t+1帧灰度图像视频帧序列进行扫描，扫描区域为第t+1帧灰度图像视频帧序列全局，将该扫描区域标记为第t+1帧灰度图像视频帧序列扫描区域A_t+1；令第t+1帧灰度图像视频帧序列扫描区域A_t+1对应的扫描状态标签

表示对第t+1帧灰度图像视频帧序列扫描区域A_t+1进行尺度等级无序的全局扫描，上标R表示尺度等级无序。

所述尺度等级无序的扫描是指第t+1帧灰度图像视频帧序列中的滑动窗口

不再按照尺度等级s_t+1从小到大的顺序进行扫描，而是先用尺度等级s_t+1＝0、s_t+1＝-1和s_t+1＝1对应的滑动窗口对第t+1帧灰度图像视频帧序列扫描区域A_t+1进行扫描，然后根据s_t+1＝0、s_t+1＝-1和s_t+1＝1三种不同尺度等级滑动窗口的扫描结果决定下次扫描尺度等级的扫描策略。

第t+1帧灰度图像视频帧序列中马尔科夫预测法的状态标签

对第t+1帧灰度图像视频帧序列进行扫描，扫描区域为第t+1帧灰度图像视频帧序列局部，第t+1帧灰度图像视频帧序列局部具体是以第t帧目标限定框b_t ^O的中心为中心、高度为

宽度为

的扫描区域，根据经验值取n₁＝2；将该扫描区域标记为第t+1帧灰度图像视频帧序列扫描区域A_t+1；令第t+1帧灰度图像视频帧序列扫描区域A_t+1对应的扫描状态标签为

表示对第t+1帧灰度图像视频帧序列扫描区域A_t+1进行尺度等级无序的局部扫描。

第t+1帧灰度图像视频帧序列中马尔科夫预测法的状态标签

对第t+1帧灰度图像视频帧序列进行扫描，扫描区域为第t+1帧灰度图像视频帧序列设定区域，第t+1帧灰度图像视频帧序列设定区域是根据马尔科夫预测法预测的第t+1帧灰度图像视频帧序列中跟踪目标水平和竖直方向运动状态，将第t帧目标限定框

的宽度

和高度

分别按照预测的水平和竖直方向运动状态延长n₂倍后所包含的区域，即是将第t帧目标限定框

的宽度

和高度

分别延长n₂倍后所包含的区域，根据经验值取n₂＝1.75；将该扫描区域标记为第t+1帧灰度图像视频帧序列扫描区域A_t+1；令第t+1帧灰度图像视频帧序列扫描区域A_t+1对应的扫描状态标签为

对第t+1帧灰度图像视频帧序列扫描区域A_t+1进行尺度等级无序的扫描，第t+1帧灰度图像视频帧序列的初始滑动窗口sw_t+1,0的大小设置为第t帧目标限定框

同等大小，即第t+1帧灰度图像视频帧序列的初始滑动窗口sw_t+1,0的高

第t+1帧灰度图像视频帧序列的初始滑动窗口sw_t+1,0的宽

若第t帧灰度图像视频帧序列没有得到目标限定框，即第t帧目标限定框

的大小

根据经验值重新设定

此时第t+1帧灰度图像视频帧序列的初始滑动窗口大小sw_t+1,0为

设定第t+1帧灰度图像视频帧序列尺度等级无序的扫描采用

个尺度等级，

为正奇数且

个尺度等级依次为

即第t+1帧灰度图像视频帧序列的尺度等级

若第t+1帧灰度图像视频帧序列扫描区域A_t+1对应的扫描状态标签

根据经验值取

21个尺度等级依次为-10,-9,…,0,…,9,10，即

s_t+1∈{-10,-9,…,-1,0,1,…,9,10}；若第t+1帧灰度图像视频帧序列扫描区域A_t+1对应的扫描状态标签

根据经验值取

7个尺度等级依次为-3,-2,-1,0,1,2,3，即s_t+1∈{-3,-2,-1,0,1,2,3}；将相应尺度等级s_t+1下对应的缩放倍数记为

第t+1帧灰度图像视频帧序列尺度等级为s_t+1的滑动窗口高度

第t+1帧灰度图像视频帧序列尺度等级为s_t+1的滑动窗口宽度

其中

将第t+1帧灰度图像视频帧序列尺度等级为s_t+1的滑动窗口水平方向上步长记为

将第t+1帧灰度图像视频帧序列尺度等级为s_t+1的滑动窗口竖直方向上步长记为

第t+1帧灰度图像视频帧序列尺度等级为s_t+1的滑动窗口水平方向上步长

和第t+1帧灰度图像视频帧序列尺度等级为s_t+1的滑动窗口竖直方向上步长

分别为第t+1帧灰度图像视频帧序列尺度等级为s_t+1的滑动窗口

高度

和第t帧灰度图像视频帧序列尺度等级为s_t+1的滑动窗口

宽度

的10％，即

表示向上取整。

对第t+1帧灰度图像视频帧序列扫描区域A_t+1使用尺度等级为s_t+1的滑动窗口

进行扫描和分类的具体子步骤为：

3.1若第t+1帧灰度图像视频帧序列尺度等级为s_t+1的滑动窗口

高度

或第t+1帧灰度图像视频帧序列尺度等级为s_t+1的滑动窗口

宽度

即第t+1帧灰度图像视频帧序列尺度等级为s_t+1的滑动窗口

大小超出了第t+1帧灰度图像视频帧序列扫描区域A_t+1，那么对应尺度等级为s_t+1的情况下检测阶段检测失败，令相关相似度

表示第t+1帧灰度图像视频帧序列尺度等级s_t+1对应的检测阶段限定框

包含的图像块

和第t帧灰度图像视频帧序列的正负样本库L_t中样本的相关相似度，

表示第t+1帧灰度图像视频帧序列尺度等级为s_t+1的滑动窗口

经过扫描和分类后得到的检测阶段限定框；若第t+1帧灰度图像视频帧序列尺度等级为s_t+1的滑动窗口

大小没有超出第t+1帧灰度图像视频帧序列扫描区域A_t+1，即

则使用大小为

滑动窗口

对第t+1帧灰度图像视频帧序列扫描区域A_t+1按照先水平后竖直的顺序进行扫描，第t+1帧灰度图像视频帧序列水平方向上步长为

第t+1帧灰度图像视频帧序列竖直方向上步长为

总计得到

个扫描窗口，每个扫描窗口包含一个图像块，进而得到

个图像块；其中

为大于0的正整数，

个图像块中第

个图像块为

根据经验值取n＝1.75。

3.2对

个图像块使用方差分类算法进行方差分类，在第t+1帧灰度图像视频帧序列扫描区域A_t+1中得到经过方差分类的

个图像块；其中，

上标1表示经过方差分类，

个图像块中第

个图像块为

3.3对经过方差分类的

个图像块使用随机森林分类算法进行随机森林分类，在第t+1帧灰度图像视频帧序列扫描区域A_t+1中得到经过随机森林分类的

个图像块；其中，

上标2表示经过随机森林分类，

个图像块中第

个图像块为

3.4对经过随机森林分类的

个图像块使用最近邻分类算法使用进行最近邻分类，在第t+1帧灰度图像视频帧序列扫描区域A_t+1中得到经过最近邻分类的

个图像块；其中，

上标3表示经过最近邻分类，

个图像块中第

个图像块为

3.5若经过最近邻分类的图像块个数

则在第t+1帧灰度图像视频帧序列尺度等级为s_t+1的滑动窗口

的检测阶段检测失败；经过最近邻分类的图像块个数

对包含

个图像块的扫描区域使用TLD目标跟踪算法得到第t+1帧灰度图像视频帧序列尺度等级为s_t+1时对应的

个检测阶段限定框；

个检测阶段限定框中第i个检测阶段限定框为

第i个检测阶段限定框

包含的图像块记为

3.6根据归一化互相关匹配算法计算

个图像块分别与第t帧灰度图像视频帧序列的正负样本库L_t中样本的相关相似度，进而得到

个相关相似度；设定

个相关相似度中第i个相关相似度为

将

个相关相似度中的最大值标记为尺度等级为s_t+1时的最大相关相似度

若尺度等级为s_t+1时的最大相关相似度

对应的检测阶段限定框不唯一，则将

个相关相似度中第1个相关相似度重新标记为尺度等级为s_t+1时的最大相关相似度

3.7令s_t+1的值分别取0、-1和1，重复执行子步骤3.1至3.6，分别得到尺度等级为0时的最大相关相似度

尺度等级为-1时的最大相关相似度

和尺度等级为1时的最大相关相似度

然后根据尺度等级为0时的最大相关相似度

尺度等级为-1时的最大相关相似度

和尺度等级为1时的最大相关相似度

之间的大小关系，决定下一个第t+1帧灰度图像视频帧序列滑动窗口扫描所用的尺度等级，具体过程为：

(1)若相关相似度

max表示取最大值，执行以下子步骤：

3.7.1设置第一尺度等级临时变量为s'，令第一尺度等级临时变量s'的初始值为2，执行步骤3.7.2。

3.7.2根据子步骤3.1至3.6对第t+1帧灰度图像视频帧序列扫描区域A_t+1使用尺度等级为s'的滑动窗口sw_t+1，s′进行扫描和分类，得到尺度等级为s'时的最大相关相似度

执行步骤3.7.3。

3.7.3若相关相似度

令第一尺度等级临时变量s'的值减1，执行步骤3.7.4；若相关相似度

令第一尺度等级临时变量s'的值加1，执行步骤3.7.2；直到满足条件

执行步骤3.7.4。

3.7.4令第t+1帧灰度图像视频帧序列的尺度等级s_t+1的值等于第一尺度等级临时变量s'的值，将第t+1帧灰度图像视频帧序列尺度等级为s_t+1的滑动窗口

经过扫描和分类后得到的检测阶段限定框

作为第t+1帧灰度图像视频帧序列的检测阶段限定框db_t+1，并将第t+1帧灰度图像视频帧序列的检测阶段限定框db_t+1作为第t+1帧灰度图像视频帧序列检测阶段的最终输出。

(2)若相关相似度

max表示取最大值，执行以下子步骤：

3.7.5设置第二尺度等级临时变量

令第二尺度等级临时变量

的初始值为-2，执行步骤3.7.6。

3.7.6根据子步骤3.1至3.6对第t+1帧灰度图像视频帧序列扫描区域A_t+1使用尺度等级为

的滑动窗口

进行扫描和分类，得到尺度等级为

时的最大相关相似度

执行步骤3.7.7。

3.7.7若相关相似度

令第二尺度等级临时变量

的值加1，执行步骤3.7.8；若相关相似度

令第二尺度等级临时变量

的值减1，执行步骤3.7.6；直到满足条件

执行步骤3.7.8。

3.7.8令第t+1帧灰度图像视频帧序列的尺度等级s_t+1的值与第二尺度等级临时变量

的值取值相等，将第t+1帧灰度图像视频帧序列尺度等级s_t+1对应的扫描窗口

扫描和分类后得到的检测阶段限定框

(3)若相关相似度不满足

和

中的任一条件，则将第t+1帧灰度图像视频帧序列的尺度等级s_t+1取值为0时对应的扫描窗口sw_t+1,0扫描和分类后得到的检测阶段限定框作为第t+1帧灰度图像视频帧序列的检测阶段限定框db_t+1，并将第t+1帧灰度图像视频帧序列的检测阶段限定框db_t+1作为第t+1帧灰度图像视频帧序列检测阶段的最终输出。

综合上述步骤在第t+1帧灰度图像视频帧序列中得到检测阶段对应的检测阶段限定框，令第t+1帧灰度图像视频帧序列的检测阶段状态标签

若在第t+1帧灰度图像视频帧序列检测阶段中没有得到检测阶段对应的检测阶段限定框，令第t+1帧灰度图像视频帧序列的检测阶段状态标签

表示第t+1帧灰度图像视频帧序列检测阶段的检测成功与否。

步骤4，若第t+1帧灰度图像视频帧序列的跟踪阶段限定框状态标签

第t+1帧灰度图像视频帧序列的检测阶段状态标签

对第t+1帧灰度图像视频帧序列的跟踪阶段限定框tb_t+1和第t+1帧灰度图像视频帧序列的检测阶段限定框db_t+1使用P-N学习机制提高随机森林分类和最近邻分类算法的分类能力；对第t+1帧灰度图像视频帧序列的跟踪阶段限定框tb_t+1和第t+1帧灰度图像视频帧序列的检测阶段限定框db_t+1使用目标跟踪算法TLD得到第t+1帧目标限定框ob_t+1，进而确定第t+1帧跟踪目标的最终位置，执行步骤5。

若第t+1帧灰度图像视频帧序列的跟踪阶段限定框状态标签

第t+1帧灰度图像视频帧序列的检测阶段状态标签

对第t+1帧灰度图像视频帧序列的检测阶段限定框db_t+1使用P-N学习机制提高随机森林分类和最近邻分类算法的分类能力；对第t+1帧灰度图像视频帧序列的检测阶段限定框db_t+1使用目标跟踪算法TLD得到第t+1帧目标限定框ob_t+1，进而确定第t+1帧跟踪目标的最终位置，执行步骤5。

若第t+1帧灰度图像视频帧序列的跟踪阶段限定框状态标签

第t+1帧灰度图像视频帧序列的检测阶段状态标签

对第t+1帧灰度图像视频帧序列的跟踪阶段限定框tb_t+1使用P-N学习机制提高随机森林分类和最近邻分类算法的分类能力；对第t+1帧灰度图像视频帧序列的跟踪阶段限定框tb_t+1使用目标跟踪算法TLD得到第t+1帧目标限定框ob_t+1，进而确定第t+1帧跟踪目标的最终位置，执行步骤5。

若第t+1帧灰度图像视频帧序列的跟踪阶段限定框状态标签

第t+1帧灰度图像视频帧序列的检测阶段状态标签

判定在第t+1帧灰度图像视频帧序列中使用改进的目标跟踪算法TLD跟踪失败，则将第t+1帧目标限定框

大小设定为

令t的值加1，令第t+1帧灰度图像视频帧序列中归一化互相关预测法的状态标签

第t+1帧灰度图像视频帧序列中马尔科夫预测法的状态标签

返回步骤3。

步骤5，令t的值加1，执行步骤2至步骤4,直到得到第2帧跟踪目标的最终位置至第L帧跟踪目标的最终位置，并记为基于跟踪学习检测的目标跟踪优化结果，此时整个改进的目标跟踪算法TLD终止。

参照图2，为目标跟踪算法TLD的框架图；由图2看出目标跟踪算法TLD包含的三个阶段和相互协作关系，其中三个阶段为：检测阶段、跟踪阶段和学习阶段。

Claims

1.一种基于跟踪学习检测的目标跟踪优化方法，其特征在于，包括以下步骤：

初始化：令t表示第t帧灰度图像视频帧序列，t∈{1,2,…,L}，t的初始值为1；确定第1帧目标限定框

和第1帧灰度图像视频帧序列的正负样本库L₁；

步骤2，在第t帧目标限定框

中选取

个均匀跟踪点，并根据第t帧灰度图像视频帧序列的正负样本库L_t，在第t+1帧灰度图像视频帧序列中得到第t+1帧灰度图像视频帧序列的跟踪阶段限定框tb_t+1；

所述在第t帧目标限定框

中选取

个均匀跟踪点，具体是指使用大小为K×K的均匀网格在第t帧目标限定框

中选取

个均匀跟踪点，

其过程为：

将第t帧目标限定框

中第1行第1列像素点作为第1个均匀跟踪点，并以第1个均匀跟踪点为起点、水平方向相邻均匀跟踪点之间间隔为

竖直方向的相邻均匀跟踪点之间间隔为

在第t帧目标限定框

中选取

个像素点，记为第t帧目标限定框

中使用均匀选取跟踪点的方式得到的

个均匀跟踪点；其中，

表示向下取整,

表示第t帧目标限定框

的宽度，

和

分别为大于0的正整数，

表示第t帧目标限定框

的高度；

所述在第t+1帧灰度图像视频帧序列中得到第t+1帧灰度图像视频帧序列的跟踪阶段限定框tb_t+1，其过程为：

2.1对第t帧目标限定框

中的

个均匀跟踪点使用光流法进行跟踪，在t+1帧灰度图像视频帧序列中得到

个预测跟踪点，其中第j个预测跟踪点为u_t+1,j，

与

取值相等且一一对应；第t+1帧灰度图像视频帧序列中的第j个预测跟踪点u_t+1,j的相应状态标签为l_t+1,j，l_t+1,j∈{0,1}，l_t+1,j＝0表示第t+1帧灰度图像视频帧序列中的第j个均匀跟踪点u_t+1,j未被光流法成功跟踪，l_t+1,j＝1表示第t+1帧灰度图像视频帧序列中的第j个均匀跟踪点u_t+1,j被光流法成功跟踪；再对第t+1帧灰度图像视频帧序列中的

个预测跟踪点使用光流法进行逆跟踪，在第t帧灰度图像视频帧序列中得到

个逆跟踪点，其中第j个逆跟踪点为u′_t,j,

与

取值相等且一一对应，

上标LK表示经过1次光流法跟踪，上标2LK表示经过2次光流法跟踪；

2.2第t帧目标限定框

中的

个均匀跟踪点经过光流法跟踪后得到

个预测跟踪点，使用前向后向误差法对第t+1帧灰度图像视频帧序列中状态标签为1的预测跟踪点进行验证，得到经过前向后向误差法验证后状态标签仍为1的

个预测跟踪点，

上标1表示经过前向后向误差法1次验证；

2.3使用归一化互相关预测法对经过前向后向误差法验证后状态标签仍为1的

个预测跟踪点，

上标2表示经过前向后向误差法和归一化互相关预测法2次验证；

2.4对经过归一化互相关预测法验证后状态标签仍为1的

个预测跟踪点使用目标跟踪算法得到归一化互相关预测后第t+1帧跟踪阶段限定框

归一化互相关预测后第t+1帧跟踪阶段限定框

包含的图像块记为

上标N表示经过归一化互相关预测；

个预测跟踪点，

上标3表示经过前向后向误差法、归一化互相关预测法和马尔科夫预测法3次验证；

2.6对经过马尔科夫预测法验证后状态标签仍为1的

个预测跟踪点使用目标跟踪算法得到马尔科夫预测后第t+1帧跟踪阶段限定框

马尔科夫预测后第t+1帧跟踪阶段限定框

包含的图像块记为

上标M表示经过马尔科夫预测；

包含的图像块

以及马尔科夫预测后第t+1帧跟踪阶段限定框

包含的图像块

上标T表示跟踪阶段；

2.8若相关相似度满足

第t+1帧灰度图像视频帧序列中马尔科夫预测法的状态标签

并认为第t+1帧灰度图像视频帧序列跟踪阶段跟踪失败；

其中，

表示第t+1帧灰度图像视频帧序列中马尔科夫预测法预测成功；

若相关相似度

第t+1帧灰度图像视频帧序列中马尔科夫预测法的状态标签

将归一化互相关预测后第t+1帧跟踪阶段限定框

表示第t+1帧灰度图像视频帧序列中马尔科夫预测法预测失败；

若相关相似度不满足

和

第t+1帧灰度图像视频帧序列中马尔科夫预测法的状态标签

将马尔科夫预测后第t+1帧跟踪阶段限定框

作为第t+1帧灰度图像视频帧序列的跟踪阶段限定框tb_t+1；

其中，θ^R表示相关相似度阈值，上标R表示相关相似度，max表示取最大值；

步骤3的子步骤为：

3.0确定第t+1帧灰度图像视频帧序列扫描区域为A_t+1，设定第t+1帧灰度图像视频帧序列尺度等级无序的扫描采用

个尺度等级，

为正奇数且

个尺度等级依次为

即第t+1帧灰度图像视频帧序列的尺度等级

第t+1帧灰度图像视频帧序列尺度等级为s_t+1的滑动窗口

高度为

第t+1帧灰度图像视频帧序列尺度等级为s_t+1的滑动窗口

宽度为

3.1若第t+1帧灰度图像视频帧序列尺度等级为s_t+1的滑动窗口

高度

或第t+1帧灰度图像视频帧序列尺度等级为s_t+1的滑动窗口

宽度

则对应尺度等级为s_t+1的情况下检测阶段检测失败，令相关相似度

包含的图像块

表示第t+1帧灰度图像视频帧序列尺度等级为s_t+1的滑动窗口

经过扫描和分类后得到的检测阶段限定框；若

则使用大小为

滑动窗口

第t+1帧灰度图像视频帧序列竖直方向上步长为

总计得到

个扫描窗口，每个扫描窗口包含一个图像块，进而得到

个图像块；其中

为大于0的正整数，n为设定常数；

3.2对

个图像块；其中，

上标1表示经过方差分类；

3.3对经过方差分类的

个图像块；其中，

上标2表示经过随机森林分类；

3.4对经过随机森林分类的

个图像块；其中，

上标3表示经过最近邻分类；3.5若经过最近邻分类的图像块个数

则在第t+1帧灰度图像视频帧序列尺度等级为s_t+1的滑动窗口

的检测阶段检测失败；经过最近邻分类的图像块个数

对包含

个图像块的扫描区域使用目标跟踪算法得到第t+1帧灰度图像视频帧序列尺度等级为s_t+1时对应的

个检测阶段限定框；

3.6根据归一化互相关匹配算法计算

个相关相似度；将

若尺度等级为s_t+1时的最大相关相似度

对应的检测阶段限定框不唯一，则将

尺度等级为-1时的最大相关相似度

和尺度等级为1时的最大相关相似度

然后根据尺度等级为0时的最大相关相似度

尺度等级为-1时的最大相关相似度

和尺度等级为1时的最大相关相似度

(1)若相关相似度

max表示取最大值，执行以下子步骤：

3.7.1设置第一尺度等级临时变量为s′，令第一尺度等级临时变量s′的初始值为2，执行步骤3.7.2；

3.7.2根据子步骤3.1至3.6对第t+1帧灰度图像视频帧序列扫描区域A_t+1使用尺度等级为s′的滑动窗口

进行扫描和分类，得到尺度等级为s′时的最大相关相似度

执行步骤3.7.3；

3.7.3若相关相似度

令第一尺度等级临时变量s′的值减1，执行步骤3.7.4；若相关相似度

令第一尺度等级临时变量s′的值加1，执行步骤3.7.2；直到满足条件

执行步骤3.7.4；

3.7.4令第t+1帧灰度图像视频帧序列的尺度等级s_t+1的值等于第一尺度等级临时变量s′的值，将第t+1帧灰度图像视频帧序列尺度等级为s_t+1的滑动窗口

经过扫描和分类后得到的检测阶段限定框

作为第t+1帧灰度图像视频帧序列的检测阶段限定框db_t+1；

(2)若相关相似度

max表示取最大值，执行以下子步骤：

3.7.5设置第二尺度等级临时变量

令第二尺度等级临时变量s的初始值为-2，执行步骤3.7.6；

的滑动窗口

进行扫描和分类，得到尺度等级为

时的最大相关相似度

执行步骤3.7.7；

3.7.7若相关相似度

令第二尺度等级临时变量

的值加1，执行步骤3.7.8；若相关相似度

令第二尺度等级临时变量s的值减1，执行步骤3.7.6；直到满足条件

执行步骤3.7.8；

3.7.8令第t+1帧灰度图像视频帧序列的尺度等级s_t+1的值与第二尺度等级临时变量s的值取值相等，将第t+1帧灰度图像视频帧序列尺度等级s_t+1对应的扫描窗口

扫描和分类后得到的检测阶段限定框

作为第t+1帧灰度图像视频帧序列的检测阶段限定框db_t+1；

(3)若相关相似度不满足

和

中的任一条件，则将第t+1帧灰度图像视频帧序列的尺度等级s_t+1取值为0时对应的扫描窗口sw_t+1,0扫描和分类后得到的检测阶段限定框作为第t+1帧灰度图像视频帧序列的检测阶段限定框db_t+1；

2.如权利要求1所述的一种基于跟踪学习检测的目标跟踪优化方法，其特征在于，在步骤1中，所述第1帧目标限定框

和第1帧灰度图像视频帧序列的正负样本库L₁，其确定过程分别为：

所述第1帧目标限定框

是包含第1帧灰度图像视频帧序列中跟踪目标的目标限定框，上标O表示目标限定框，0<h₁≤N，0<w₁≤M；

使用大小为

的滑动窗口

个扫描窗口，每个扫描窗口包含一个图像块，进而得到

个图像块；

将第t帧目标限定框

包含的图像块记为P_t ^O，对第t帧灰度图像视频帧序列的

个图像块分别与第t帧目标限定框

包含的图像块P_t ^O的重叠度，总计得到

个重叠度，

个重叠度中第k个重叠度为

其表达式为：

其中，

表示第t帧灰度图像视频帧序列的第k个图像块

和第t帧目标限定框

包含的图像块P_t ^O的重叠度，

根据经验值取o_min＝0，o_max＝1；

表示第t帧灰度图像视频帧序列的第k个图像块

的面积，

表示第t帧目标限定框

包含的图像块P_t ^O的面积，

表示第t帧灰度图像视频帧序列的第k个图像块

和第t帧目标限定框

包含的图像块P_t ^O重叠部分的面积，

min表示取最小值；

当t取值为1时，依次计算第1帧灰度图像视频帧序列的

个图像块分别与第1帧目标限定框

包含的图像块P₁ ^O的重叠度，进而总计得到

个重叠度，

个重叠度中第k个重叠度为

若

则将

个重叠度中第k个重叠度

个重叠度，进而得到NN′₁个满足要求的图像块；其中，a∈{1,2,…,NN′₁}，根据经验值取θ_N＝0.2；

根据方差分类法对NN′₁个满足要求的图像块进行方差分类，得到NN₁个图像块，0≤NN₁≤NN′₁；最终对NN₁个图像块使用双线性插值算法进行归一化处理，得到包含NN₁个图像块的负样本库NL₁，N表示负样本；

若

则将

个重叠度中第k个重叠度

对应图像块记为第a′个满足要求的图像块，a′的初始值为1，令a′的值加1；遍历

个重叠度，进而得到NP₁′个满足要求的图像块；其中，a′∈{1,2,…,NP₁′}，根据经验值取θ_P＝0.8，

根据方差分类法对NP₁′个满足要求的图像块进行方差分类得到NP₁个图像块，0≤NP₁≤NP₁′，最终对NP₁个图像块使用双线性插值算法进行归一化处理得到包含NP₁个图像块的正样本库PL₁，P表示正样本；将包含NP₁个图像块的正样本库PL₁和包含NN₁个图像块的负样本库NL₁记为第1帧灰度图像视频帧序列的正负样本库L₁。

3.如权利要求1所述的一种基于跟踪学习检测的目标跟踪优化方法，其特征在于，在3.0中，所述第t+1帧灰度图像视频帧序列扫描区域为A_t+1，还包括：