CN106815576A

CN106815576A - 基于连续时空置信图和半监督极限学习机的目标追踪方法

Info

Publication number: CN106815576A
Application number: CN201710047829.0A
Authority: CN
Inventors: 年睿; 邱书琦; 常瑞杰; 肖玫
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2017-01-20
Filing date: 2017-01-20
Publication date: 2017-06-09
Anticipated expiration: 2037-01-20
Also published as: CN106815576B

Abstract

本发明公开了一种基于连续时空置信图和半监督极限学习机的目标追踪方法，该方法考虑到视频图像帧在时间上是连续的，同时待追踪目标位置也不会发生突变，另外视频图像帧在空间上也是连续的，空间连续性体现在目标和目标周围背景存在某种特定关系，当目标的外观发生很大变化时，这种关系可以帮助区分待追踪目标和背景区域。本发明针对形变以及遮挡问题，充分考虑到真实目标所能提供的信息，充分挖掘有标签样本和无标签样本的分布相似性，提高追踪的精度，提出了一种挖掘有标签样本和无标签样本分布相似性的基于极限学习机的半监督追踪方法，将上述两种方法结合在一个耦合的追踪框架中，本发明实现了一种健壮性佳、高鲁棒性的追踪。

Description

基于连续时空置信图和半监督极限学习机的目标追踪方法

技术领域

本发明涉及基于连续时空置信图和半监督极限学习机的目标追踪方法，属于智能信息处理和目标追踪技术领域。

背景技术

目标跟踪是绝大多数视觉***中不可或缺的环节。在特定的场景应用中(如视频监控等领域)，自动化、快速、高鲁棒性的目标追踪受到关注。视频监控、交通检测，智能机器人，海底目标探测追踪等方面具有广阔的应用前景。

目标追踪是计算机视觉领域中极其重要的一部分，视频中运动物体跟踪算法是通过分析待追踪视频图像序列中每一帧的视频图像的信息，在视频中进行数据挖掘，学习目标行为并进行大量的动作捕捉，对信息进行一系列的处理，得到并标记出所追踪到目标在视频图像中相应的位置。物体之间的遮挡形变、背景的复杂性，光照明暗变化，实时性和健壮性差等是追踪过程亟待解决的问题。经典的追踪方法如Meanshift、粒子滤波等依赖于视频中所含目标信息的丰富程度，在实际的视频图像序列中，目标所能提供的信息相当有限，导致不能稳定的追踪目标，如场景中有形变遮挡，这些经典算法更是无能为力。

即现有技术中存在的主要问题：(1)待追踪视频场景中追踪的过程中实时性和健壮性差，目标时空位置信息匮乏，目标特征不明显问题；(2)当场景有遮挡物和待追踪目标发生形变的情况下，尤其是会出现整个目标被遮挡和待追踪目标发生巨大的形变的状况，会导致追踪的目标丢失的问题。

发明内容

本发明的目的是提供一种基于连续时空置信图和半监督极限学习机的目标追踪方法，以弥补现有技术的不足。

本发明考虑到视频图像帧在时间上是连续的，时间的连续性体现在邻近帧间待追踪目标变化不会很大，同时待追踪目标位置也不会发生突变；与此同时视频图像帧在空间上也是连续的，空间连续性体现在目标和目标周围背景存在某种特定关系，当目标的外观发生很大变化时，这种关系可以帮助区分待追踪目标和背景区域，提出利用连续时空置信图学习的追踪方法克服实时性和健壮性差、目标时空位置信息匮乏和目标特征不明显等的问题。针对形变以及遮挡问题，充分考虑到真实目标所能提供的信息，充分挖掘有标签样本和无标签样本的分布相似性，提高追踪的精度，提出了一种挖掘有标签样本和无标签样本分布相似性的基于极限学习机的半监督追踪方法，将上述两种方法结合在一个耦合的追踪框架中，实现了一种健壮性佳、高鲁棒性的追踪。

为达到上述目的，本发明采取的具体技术方案是通过以下步骤实现的：

步骤一、在特定待追踪监控场景中采集n帧待追踪目标视频A＝{I₁,…,I_i,…I_n}，其中I_i表示第i帧待追踪视频图像序列，利用图像滤波去噪、对比度增强预处理待追踪视频序列降低噪声且突出感兴趣待追踪区域；

步骤二、在第t帧待追踪视频图像序列I_t中使用矩形窗口选取待追踪目标O，确定目标中心位置o^*，O表示新目标在场景中的存在，o代表新目标位置，定义一个二维待追踪目标的置信图模型C_t(o)；将待追踪目标区域扩大两倍形成局部背景区域表示为在内提取坐标位置k处的强度位置特征w(k)，组成强度位置特征集I(k)表示坐标位置k处图像的亮度，表示坐标o^*的邻域；建立第t帧待追踪目标的先验模型P(w(k)|O)，以此推算出t帧时空模型

步骤三、在待追踪目标中心位置所在区域重叠采样，获得N₁个区域块图像作为正样本和N₂个区域块图像作为负样本，提取正负样本数据特征x_j，记正样本的类别标签是1，负样本的类别标签是0，y_j∈{1,0}；建立有标注样本集和无标注样本集X_u组成训练样本集X＝{X_s,X_u}＝{(x_j,y_j)},j＝1,...,N₁+N₂；

步骤四、用步骤三得到的训练样本集X训练半监督极限学习机网络模型；

步骤五、在I_t+1中，利用步骤二求得的第t帧时空模型进行模型更新，计算得到第t+1帧的时空模型利用求得的t+1帧时空模型卷积I_t+1得到新目标的时空置信图C_t+1(o)，最大化C_t+1(o)确定在t+1帧中目标位置o；

步骤六、判断目标是否被遮挡，若目标未被遮挡，进入步骤五，反之，进入步骤七；

步骤七、在I_t+1中，由I_t中已求得的o^*为目标位置，在目标位置o^*所在区域，以目标区域矩形窗口大小重叠采样，获得N个区域块图像作为候选目标，提取候选目标数据特征建立待追踪目标图像块测试样本集将测试样本集输入步骤四已训练完成的半监督极限学习机网络，得到t+1帧测试输出T，最大化在线半监督极限学习机最大分类响应位置，得到t+1帧中目标位置o；

步骤八、对最大分类响应结果进行在线半监督极限学习机网络模型更新阈值判定，若在线半监督极限学习机模型不需要更新，进入步骤五，反之进入步骤九；

步骤九、由步骤三得到的有标注数据集和步骤七得到的测试样本集作为无标注数据集X_u＝X_t+1，进行步骤四，重新训练半监督极限学习机网络模型；

循环重复上述步骤，直至追踪完成整个视频序列。

进一步的，所述步骤三：在待追踪目标中心位置o^*所在区域，以目标区域矩形窗口大小重叠采样，第j个采样点到目标中心位置的欧式距离为当时，采样获得N₁个区域块图像作为正样本，当时，采样获得N₂个区域块图像作为负样本，r₁、r₂和r₃分别是采样半径；提取正负样本数据特征x_j，建立待追踪目标图像块训练样本集，共收集(N₁+N₂)个目标图像块作为训练样本集X＝{(x_j,y_j)},j＝1,...,N₁+N₂，记正样本的类别标签是1，负样本的类别标签是0，y_j∈{1,0}；将训练样本集中的样本顺序打乱并重排，取排在最前面的一定比例的样本(通常比例较低)作为已标注样本集X_s，取剩余样本(通常比例较高)作为未标注样本集X_u，且X＝{X_s,X_u}。

所述步骤四：采用随机方式设置输入权值和隐藏层偏置，若用(a,b)表示隐藏层结点获得的输入权重a和阈值b，训练样本为有标注数据集无标注数据集其中X_s和X_u表示输入样本，Y_s是与X_s对应的输出样本；隐藏层的映射函数为G(x)，映射函数形式可以表示为G(x)＝1/(1+e^-x)，输出权重用β表示，h(x_i)＝[G(a₁,b₁,x_i),…,G(a_L,b_L,x_i)]_s×m表示第i个隐含层输出矩阵，隐藏层的节点数为m，e_i表示第i个输入节点的学习误差(残差)

半监督极限学习机的目标函数为：

f_i＝h(x_i)β,i＝1,...,s+u

其中c_i表示惩罚参数，λ表示权衡参数，L是由标签数据和无标签数据得到的图拉普拉斯运算结果，F是网络的输出矩阵，Tr是迹运算；

用矩阵形式表示半监督极限学习机目标函数为：

其中是前s行等于Y_s，后u行等于零的输出标签样，C是前s个对角线元素为C_i剩余为零的对角阵；

对上式对β求偏导得到：

令偏导为零，求解得到输出权重β为：

当有标签数据大于隐藏层结点数时

当有标签数据小于隐藏层结点数时

其中，H^T为矩阵H的转置矩阵。

步骤六所述的判断目标是否被遮挡的方法为对置信图的结果进行遮挡阈值th₁判定，若时，表明目标出现遮挡，th₁表示遮挡的临界值，会根据场景的不同而变化，本算法应用于不同场景时，人为地调整th₁值，正常情况下会在某个范围波动，当目标被遮挡时，会迅速下降，将迅速下降之后的值定义为th₁值，以此判断目标是否被遮挡。

步骤八所述的判断在线半监督极限学习机网络模型是否需更新的方法为对最大分类响应结果T_max进行更新阈值th₂判定，若T_max>th₂时，表明在线半监督极限学习机网络模型不需更新，以更新阈值th₂判断网络模型是否需更新。

本发明的有益效果：本发明将连续时空置信图学习追踪方法和半监督极限学习机追踪方法相结合，解决了追踪过程中实时性和健壮性差、目标时空位置信息匮乏、目标特征不明显以及形变遮挡以导致追踪目标丢失的问题。本发明具体是通过计算连续时空置信图进行遮挡阈值判定，得到了一种判断目标是否进入遮挡区域的方法，有效的解决了目标遮挡的判定问题，以及通过计算半监督极限学习机网络输出最大响应值进行半监督极限学习机网络模型更新阈值判定，得到了一种判断该网络模型是否需更新的方法，有效解决了网络模型泛化性差的问题。本发明极大地提高了追踪的精度，实现了一种健壮性佳、高鲁棒性的追踪过程。

附图说明

图1为本发明的整体追踪流程示意图。

图2为具体实施例中待追踪目标的区域标记图。

图3为具体实施例中基于连续时空置信图目标追踪方法框图。

图4为半监督极限学习机网络的基本框架图。

图5为具体实施例中基于半监督极限学习机目标追踪方法框图。

图6为具体实施例中遮挡情况下追踪效果示例，图(a)是具有待追踪感兴趣目标的视频帧，(b)、(c)、(d)、(e)、(f)分别是在(a)帧后对该感兴趣目标进行追踪的视频帧。

具体实施方式

为使本发明的目的、实施方案和优点更为清晰，下面结合附图并通过具体实施例来进一步说明本发明。

本发明的具体流程图如图1所示。

本实施例中具体采用一段经典的走廊监控视频caviar(384*288像素，每秒25帧)作为待追踪视频。

步骤一、利用图像滤波去噪、对比度增强预处理待追踪视频序列，降低噪声且突出感兴趣待追踪区域；具体包括以下步骤：

步骤1-1、对一段经典的走廊监控视频caviar定义为A，进行分帧处理获得200帧待追踪视频图像序列，即A＝{I₁,…,I_i,…I₂₀₀}，其中I_i表示该走廊监视视频caviar第i帧待追踪视频图像；

步骤1-2、对该200帧视频图像序列进行滤波去噪、对比度增强的预处理。

步骤二、在第t＝1帧待追踪视频图像序列I_t＝1中选取待追踪目标O，确定目标中心位置o^*，O表示新目标在场景中的存在，o表示新目标位置，定义一个二维待追踪目标的置信图模型C_t(o)；建立t帧待追踪目标的先验模型P(w(k)|O)，以此推算出t帧时空模型如图3所示；具体包括以下步骤：

步骤2-1、在I_t＝1中由用户使用矩形窗口W选取待追踪感兴趣目标O，目标区域矩形窗口的宽度为w与高度为h，o表示新目标位置，将目标区域扩大两倍形成局部背景区域表示为如图2所示；在局部背景区域内提取坐标位置k处强度位置特征w(k)，组成强度位置特征集I(k)表示坐标位置k处图像的亮度，表示坐标o^*的邻域；

步骤2-2、将追踪问题转化为计算待追踪感兴趣目标位置置信图问题：

其中C_t(o)表示第t帧的置信图模型，表示新目标位置o和旧目标位置o^*的相对位置和方向，新目标位置距离旧目标位置越近，置信值越大；表示时空模型，描述新目标o和局部背景区域坐标点k的相对位置和方向，P(w(k)|O)表示先验模型，描述旧目标位置和局部背景区域坐标点k的强度和相对位置方向，模拟待追踪感兴趣目标O的低级轮廓信息；

步骤2-3、计算第t＝1帧I_t＝1的置信图同时得到最大置信值

步骤2-4、计算第t＝1帧的先验模型其中是尺度参数；

步骤2-5、由计算出第t＝1帧I_t＝1的置信图模型C_t(o)和先验模型P(w(k),O)计算第t＝1帧的感兴趣目标的时空模型

其中F表示快速傅立叶变换，F^-1表示快速傅立叶逆变换。

步骤三、在待追踪目标中心位置所在区域重叠采样，获得N₁个区域块图像作为正样本和N₂个区域块图像作为负样本，提取正负样本数据特征x_j，建立有标注样本集和无标注样本集X_u组成训练样本集X＝{(x_j,y_j)},j＝1,...,N₁+N₂，如图5所示，具体包括以下步骤：

步骤3-1、在中心位置o^*所在区域，以目标区域矩形窗口大小重叠采样，第j个采样点到目标中心位置的欧式距离为当时，采样获得45个区域块图像作为正样本，当时，采样获得31个区域块图像作为负样本，采样半径r₁、r₂和r₃分别是设置的参数5，10和20(单位：像素)；

步骤3-2、提取正负样本数据特征x_j，建立待追踪目标图像块训练样本集，共收集76个目标图像块作为训练样本集X＝{(x_j,y_j)},j＝1,...,76，记正样本的类别标签是1，负样本的类别标签是0，y_j∈{1,0}；

步骤3-3、将训练样本集中的样本顺序打乱并重排，取排在最前面的50个的样本作为已标注样本集X_s，取剩余26个样本作为未标注样本集X_u，且X＝{X_s,X_u}。

步骤四、用步骤三得到的训练样本集X训练在线半监督极限学习机网络模型，具体包括以下步骤：

步骤4-1、半监督极限学习机是一种单隐层的前馈神经网络模型如图4所示，整个网络模型分为三层，包括：输入层，隐藏层和输出层，采用随机方式设置输入权值和隐藏层偏置，独立于训练样本，算法结构简单计算效率高，若用(a,b)表示隐藏层结点获得的输入权重a和阈值b，训练样本为有标注数据集无标注数据集其中X_s和X_u表示输入样本，Y_s是与X_s对应的输出样本；隐藏层的映射函数为G(x)，映射函数形式可以表示为G(x)＝1/(1+e^-x)，输出权重用β表示，h(x_i)＝[G(a₁,b₁,x_i),…,G(a₂₀₀₀,b₂₀₀₀,x_i)]_50×2000表示第i个隐含层输出矩阵，隐藏层的节点数为2000，e_i表示第i个输入节点的学习误差(残差)；

步骤4-2、需训练的半监督极限学习机的目标函数为：

f_i＝h(x_i)β,i＝1,...,s+u

其中c_i表示惩罚参数，λ表示权衡参数，L是由标签数据和无标签数据得到的图拉普拉斯运算结果，F是网络的输出矩阵，T_r是迹运算；

步骤4-3、用矩阵形式表示半监督极限学习机目标函数为：

其中是前50行等于Y_s，后26行等于零的输出标签样本。C是前50个对角线元素为C_i剩余为零的对角阵；

步骤4-4、对上式对β求偏导得到：

步骤4-5、令偏导为零，求解得到输出权重β为：

当有标签数据大于隐藏层结点数时

当有标签数据小于隐藏层结点数时

其中，H^T为矩阵H的转置矩阵，至此半监督极限学习机网络模型训练完毕。

步骤五、在第t+1帧中，利用步骤二求得的第t帧时空模型进行模型更新，计算得到第t+1帧的时空模型利用求得的t+1帧时空模型卷积图像I_t+1得到新目标的时空置信图C_t+1(o)，最大化该求得的置信图C_t+1(o)确定在t+1帧中目标位置o，如图3所示，具体包括以下步骤：

步骤5-1、在I_t+1中，以o^*为目标位置取两倍于目标大小的局部背景区域在该区域内提取强度位置特征，组成强度位置特征集

步骤5-2、第t帧待追踪感兴趣目标的时空模型更新：

其中ρ是学习率，是第t帧计算得到的待追踪感兴趣目标时空模型，在频域表示为：

其中是的时域傅立叶变换。时域滤波器F_w表示为：

F_w＝ρ/(e^jw-(1-ρ))

其中j是虚数单位；

步骤5-3、计算t+1帧待追踪感兴趣目标置信图：

步骤5-4、在t+1帧中感兴趣目标位置o即最大化t+1帧的置信图：

o＝arg maxC_t+1(o)

最大置信值为

步骤六、判断目标是否被遮挡，具体包括以下步骤：

步骤6-1、对步骤5-4得到的最大置信值进行遮挡阈值th₁判定，若时，表明目标出现遮挡，以此判断目标是否被遮挡。th₁表示遮挡的临界值，会根据场景的不同而变化，本算法应用于不同场景时，人为地调整th₁值，正常情况下会在某个范围波动，当目标被遮挡时，会迅速下降，将迅速下降之后的值定义为th₁值；本具体方案中定义

步骤6-2、若时，表明目标未出现遮挡，进行步骤5-1，否则进行步骤7-1。

步骤七、在第t+1帧中，在第t帧已追踪到目标中心位置处重叠采样，提取候选目标数据特征，建立待追踪目标图像块测试样本，将测试样本输入上述训练好的在线半监督极限学习机中，将测试样本内最大分类响应位置为预测新目标位置，如图5所示，具体包括以下步骤：

步骤7-1、对第t+1帧视频图像，以o^*为目标位置，在中心位置o^*所在区域，以目标区域矩形窗口大小重叠采样，第j个采样点到o^*的欧式距离为当时，采样获得232个区域块图像作为候选目标即测试数据，提取的样本数据特征为并记测试集为采样半径r₁设置的参数为20(单位：像素)；

步骤7-2、测试输出为：

T＝H^*β

其中β为t帧计算的输出权重，H^*为测试的隐层输出矩阵,

步骤7-3、在t+1帧中，待追踪感兴趣目标位置o即最大化t+1帧半监督极限学习机最大分类响应位置：

o＝arg max T

最大分类响应值为T_max。

步骤八、对最大分类响应结果进行在线半监督极限学习机网络模型更新阈值判定，具体步骤如下：

步骤8-1、对最大分类响应结果T_max进行半监督极限学习机的更新阈值th₂判定，若T_max>th₂时，表明在线半监督极限学习机网络模型不需更新，以此判断在线半监督极限学习机模型是否需要更新，th₂表示更新的临界值，本具体方案中定义th₂＝0。

步骤8-2、若T_max>0时，表明在线半监督极限学习机网络模型不需更新，进行步骤5-1，否则进行步骤九。

步骤九、重新训练在线半监督极限学习机网络模型，如图5所示，具体如下：由步骤3-3得到的有标注数据集和步骤7-1得到的测试集作为无标注数据集X_u＝X_t+1，进行步骤4-1重新训练在线半监督极限学习机网络模型。

循环重复上述步骤，直至完成对于整个待追踪监控视频序列的追踪。

对以上提到的待追踪监控视频，分别用粒子滤波、Meanshift和本发明方法追踪性能的比较，结果见表1，可以看出，本发明方法不论中心位置偏差结果还是偏差均方差结果均优于粒子滤波和Meanshift方法，实现了对目标追踪的健壮性和鲁棒性。

表1为显示粒子滤波、Meanshift和本发明方法追踪性能对比

	粒子滤波	Meanshift	本发明方法
				中心位置偏差	75.4796	22.9740	10.1834
偏差均方差	47.8903	12.2607	7.9702

图6为具体实施例中遮挡情况下追踪效果示例，可以看出在连续经历了两次严重的遮挡情况下，仍能准确的追踪上目标，进一步证明了本发明方法的健壮性和鲁棒性。

以上所述是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于连续时空置信图和半监督极限学习机的目标追踪方法，其特征在于，包括以下步骤：

步骤二、在第t帧待追踪视频图像序列I_t中使用矩形窗口选取待追踪目标O，确定目标中心位置o*，O表示新目标在场景中的存在，o代表新目标位置，定义一个二维待追踪目标O的置信图模型C_t(o)；将待追踪目标区域扩大两倍形成局部背景区域表示为在内提取坐标位置k处的强度位置特征w(k)，组成强度位置特征集I(k)表示坐标位置k处图像的亮度，表示坐标o*的邻域。建立第t帧待追踪目标的先验模型P(w(k)|O)，以此推算出t帧时空模型

步骤七、在I_t+1中，由I_t中已求得的o*为目标位置，在目标位置o*所在区域，以目标区域矩形窗口大小重叠采样，获得N个区域块图像作为候选目标，提取候选目标数据特征建立待追踪目标图像块测试样本集将测试样本集输入步骤四已训练完成的半监督极限学习机网络，得到t+1帧测试输出T，最大化半监督极限学习机最大分类响应位置，得到t+1帧中目标位置o；

步骤八、对最大分类响应结果进行半监督极限学习机网络模型更新阈值判定，若半监督极限学习机模型不需要更新，进入步骤五，反之进入步骤九；

循环重复上述步骤，直至追踪完成整个视频序列。

2.如权利要求1所述的目标追踪方法，其特征在于，所述步骤三具体为：在待追踪目标中心位置o^*所在区域，以目标区域矩形窗口大小重叠采样，第j个采样点到目标中心位置的欧式距离为当时，采样获得N₁个区域块图像作为正样本，当时，采样获得N₂个区域块图像作为负样本，r₁、r₂和r₃分别是采样半径。提取正负样本数据特征x_j，建立待追踪目标图像块训练样本集，共收集(N₁+N₂)个目标图像块作为训练样本集X＝{(x_j,y_j)},j＝1,…,N₁+N₂，记正样本的类别标签是1，负样本的类别标签是0，y_j∈{1,0}；将训练样本集中的样本顺序打乱并重排，取排在最前面的一定比例的样本作为已标注样本集X_s，取剩余样本作为未标注样本集X_u，且X＝{X_s,X_u}。

3.如权利要求1所述的目标追踪方法，其特征在于，所述步骤四具体为：采用随机方式设置输入权值和隐藏层偏置，若用(a,b)表示隐藏层结点获得的输入权重a和阈值b，训练样本为有标注数据集无标注数据集其中X_s和X_u表示输入样本，Y_s是与X_s对应的输出样本；隐藏层的映射函数为G(x)，映射函数形式可以表示为G(x)＝1/(1+e^-x)，输出权重用β表示，h(x_i)＝[G(a₁,b₁,x_i),…,G(a_L,b_L,x_i)]_1×m表示第i个隐含层输出矩阵，隐藏层的节点数为m，e_i表示第i个输入节点的学习误差；

半监督极限学习机的目标函数为：

f_i＝h(x_i)β,i＝1,...,s+u

用矩阵形式表示半监督极限学习机目标函数为：

对上式对β求偏导得到：

令偏导为零，求解得到输出权重β为：

当有标签数据大于隐藏层结点数时

当有标签数据小于隐藏层结点数时

其中，H^T为矩阵H的转置矩阵。

4.如权利要求1所述的目标追踪方法，其特征在于，步骤六所述的判断目标是否被遮挡的方法为对置信图的结果进行遮挡阈值th₁判定，若时，表明目标出现遮挡，th₁表示遮挡的临界值，会根据场景的不同而变化，本算法应用于不同场景时，人为地调整th₁值，正常情况下会在某个范围波动，当目标被遮挡时，会迅速下降，将迅速下降之后的值定义为th₁值，以此判断目标是否被遮挡。

5.如权利要求1所述的目标追踪方法，其特征在于，步骤八所述的判断半监督极限学习机网络模型是否需更新的方法为对最大分类响应结果T_max进行更新阈值th₂判定，若T_max>th₂时，表明半监督极限学习机网络模型不需更新，以更新阈值th₂判断网络模型是否需更新。