CN109102521B

CN109102521B - 一种基于并行注意力相关滤波的视频目标跟踪方法

Info

Publication number: CN109102521B
Application number: CN201810647331.2A
Authority: CN
Inventors: 宋慧慧; 樊佳庆; 张开华; 刘青山
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2018-06-22
Filing date: 2018-06-22
Publication date: 2021-08-27
Anticipated expiration: 2038-06-22
Also published as: CN109102521A

Abstract

本发明公开一种基于并行注意力相关滤波的视频目标跟踪方法，属于图像处理技术领域。将跟踪问题设计为估计一个目标位置的概率，整合空间选择注意力SSA和表观选择注意力ASA，利用Log函数得到目标函数，实现视频目标的持续有效跟踪。首先进行SSA建模，产生一系列的二值图，经滤波获取位置响应图，然后在跟踪目标周围的半局部域采样一系列干扰区域，在相关视频滤波中学习抗干扰距离度量并进行抗干扰度量正则相关滤波，将干扰项推入负域，获取ASA目标图，再通过Log函数得到的目标函数，将在局部域和半局部域中处理的图像相融合对目标进行跟踪。具有处理问题时更加稳健准确、适应性强、跟踪效果好等优点。

Description

一种基于并行注意力相关滤波的视频目标跟踪方法

技术领域

本发明涉及一种基于并行注意力相关滤波的视频目标跟踪方法，属于图像处理技术领域。

背景技术

视觉跟踪在一些重要的计算机视觉应用中是一个先决条件，例如视频监控、行为识别、视频检索和人机交互等。尽管近几年视觉跟踪技术已经取得了较大进步，但还是只能给定第一帧的目标位置信息，在一些无约束的环境中，持续地跟踪一个一般目标仍然具有挑战性，这是因为目标的表观受到遮挡、快速运动和形变等干扰因素的严重影响。

目标跟踪的任务是寻找目标位置并判断目标特性，这是哪里和什么的问题，也和人类视觉感知中的注意力选择机制有关。心理学和认知学研究证据表明，人类视觉感知具有着重性和选择性，以至于人们的视觉***能够专注于快速处理相关重要的视觉信息。人类视觉感知中有两个主要的视觉注意力机制：一个是空间选择性注意力(SSA)，它能够减小一个神经元的相对领域，并提高对视觉域中一个特殊位置的敏感性；另一个是表观选择注意力(ASA)，它通过专门处理不同类型的特征以增强响应值，以此在大脑皮层的不同区域增强活性。

在离开眼睛后，这些进入前额大脑皮层的场景输入信号被分成背部流和腹部流，前者利用现存的空间关系(即哪里)，而后者则着重强调表观特征(即什么)。一些感知学研究证明，这两种类型的机能可能被并行处理，这些机理在处理目标跟踪的干扰项、模糊和遮挡时可以扮演重要角色。如何利用这些研究去处理相关滤波类***中的哪里和什么的问题，对于解决复杂环境下的目标跟踪具有重要意义。

发明内容

本发明要解决的技术问题是针对现有目标跟踪方法不能持续地跟踪一般目标的缺点，提出一种基于并行注意力相关滤波的视频目标跟踪方法，通过融合空间选择性注意力和表观选择注意力，实现对视频目标的持续有效跟踪。

为解决上述技术问题，本发明提供一种基于并行注意力相关滤波的视频目标跟踪方法，将跟踪问题设计为估计一个目标位置的概率，整合空间选择注意力(SSA)和表观选择注意力(ASA)，利用Log函数得到目标函数，实现视频目标的持续有效跟踪，包括以下步骤：

(1)获取SSA位置响应图：首先，针对跟踪目标，在跟踪目标周围的局部域，产生一系列的二值图来描述不同粒度下目标和它的周围场景之间的拓扑结构，将图片从上到下按由粗到细的描述粒度排列，得到一组跟踪目标布尔图B_i(i＝1，2，......，N_b)，粗粒度布尔图对全局形状信息进行编码描述明显的目标表观变化，细粒度的布尔图描述空间的细节结构；然后，针对跟踪目标定义一个二值滤波器F，将F作用在布尔图B_i上，获得条件位置响应图，并通过最小化线性回归函数完成学习权重，为每个布尔图学习一个最优的权重，对每个图加权得到最后的位置响应图：

(2)获取ASA目标图：首先，在跟踪目标周围的半局部域采样一系列干扰区域，将岭回归目标函数近似等价为一个度量学习的相关滤波器，在相关视频滤波中学习抗干扰距离度量，解决建模正样本间的相互关系；然后，引入抗干扰度量正则项，对经目标图像进行抗干扰度量正则相关滤波，在相关滤波中学习抗干扰距离度量，同时考虑来自真实负样本的有用的相互关系，将干扰项推入负域，获取目标跟踪图片：

(3)持续跟踪视频目标：通过Log函数建模获得整合SSA和ASA的目标函数，利用该函数对视频目标进行跟踪，并在线更新参数，实现对视频目标的有效跟踪。

所述基于并行注意力相关滤波的视频目标跟踪方法的具体步骤如下：

(1)获取SSA位置响应图

(1.1)针对跟踪目标，在跟踪目标周围的局部域，通过下式产生一系列的二值图来描述不同粒度下目标和它的周围场景之间的拓扑结构：

其中，I(j)表示第j个像素强度，U(·)是一个一元函数，R(·)表示一个取整函数，

是一个图像块的RGB颜色通道图，T表示转置；

将图片从上到下按由粗到细的描述粒度排列，得到一组跟踪目标布尔图B_i(i＝1，2，......，N_b)，粗粒度布尔图对全局形状信息进行编码描述明显的目标表观变化，细粒度的布尔图描述空间的细节结构

(1.2)进行权重学习：按常规方法，针对跟踪目标定义一个二值滤波器

将F作用在步骤(1.1)得到的跟踪目标布尔图B_i上，获得一组条件位置响应图，并通过以下最小化线性回归函数完成学习权重，为每个布尔图学习一个最优的权重

对每个图加权，得到一组最后的位置响应图P(B_i，F|I∈Ω_o)：

其中，Ω_o是场景中出现目标的区域，Ω_b是场景中出现的背景区域，d_w是特征的宽度，d_h是特征的高度，

是第k帧的分类器参数向量，

是目标区域中非空白的像素个数，

是背景区域中非空白像素的个数，β_k是一个待优化的权重系数，权重系数

需要通过

在线更新，以适应目标随着时间的表观变化，β^t是更新之后的权重系数向量，η是融合系数，

是当前帧的权重系数向量；

(2)获取ASA目标图

(2.1)在跟踪目标周围的半局部域采样一系列干扰区域

将以下岭回归目标函数近似等价为一个度量学习的相关滤波器

在相关视频滤波中学习抗干扰距离度量；

其中，

x_i是样本矩阵，

是向量x的DFT，

是

的第i行，w_i是第i个样本矩阵x_i对应的相关滤波器权重，

是所有w_i组成的向量，y是高斯型的标签，d_w′d_h′分别是特征矩阵的宽度和高度，λ是正则项系数，

是马氏距离，

且

(2.2)在相关滤波目标函数中引入抗干扰度量正则项，获得抗干扰度量正则相关滤波模型

通过该模型对经步骤(2.1)得到的目标图像进一步进行抗干扰度量正则相关滤波，强化对目标特征的判别和跟踪，将滤掉的干扰项推入负域，获取正空间目标跟踪图片P(X_i，w_i||∈Ω_o)：

其中，

是抗干扰度量正则相关滤波权重中的第k个子向量，

是总样本向量中的第k个子向量，

是高斯型标签向量中的第k个子向量，w_i是第i个循环样本矩阵对应的权重向量，

通过

在线更新得到，

是求

的逆FFT得到的第t帧的跟踪结果，

是

的共轭转置，I是单位矩阵，λ是正则项系数，η是融合系数；

被定义为：

其中，x_i是第i个样本向量，

是第k个基础样本的第m个循环样本，

是第k个基础样本的第n个循环样本，w^mn是样本差异权重(用于度量样本i和j之间的相似性，权重越大，样本的差异性越大，学到的表观特征就更有判别力)；

(4)持续跟踪视频目标

通过Log函数建模，整合SSA和ASA图像，得到如下目标函数：

其中，P(B_i，F|I∈Ω_o)表示获得的SSA位置响应图，

表示一系列N_b通道的布尔图，

表示布尔图滤波器，P(X_i，w_i|I∈Ω_o)表示获得的ASA目标图，

*表示一个空间相关操作，β_i表示一个待优化的权重系数，e^(·)表示指数函数，Ω_o∈R²表示目标区域，o表示出现在场景中的目标，

表示一系列N_x的循环矩阵(其中每个都是通过对移动一个基本HOG特征通道向量

得到，所有特征通道都是独立分布的)，

表示ASA滤波器；

利用该目标函数，对视频目标进行跟踪，并在线更新参数，实现对目标的有效跟踪。

所述正则项系数λ的取值为0.001，融合系数η的取值是0.006。

本发明的原理是：

本发明的核心是把跟踪问题规划为估计一个目标位置概率，无缝地整合SSA和ASA：

这里Ω_o∈R²表示目标区域并且o表示出现在场景中的目标，

表示一系列N_b通道的布尔图，

是一系列N_x的循环矩阵，其中每个都是通过对移动一个基本HOG特征通道向量

得到的，

和

是它们对应的滤波器。此外，为了简化，所有特征通道假设是独立分布的。最后，在式(1)的两边利用Log函数，得到：

这里的P(B_i，F|I∈Ω_o)和P(X_i，w_i||∈Ω_o)定义为：

这里的*是一个空间相关操作，β_i是一个待优化的权重系数，并且e^(·)是个指数函数。

在建模SSA中，本发明首先产生一系列的二值图，即产生BMR，描述不同粒度下目标和它的周围场景之间的拓扑结构。图2中，从上到下，布尔图描述的粒度从粗到细，其中粗粒度布尔图编码了全局形状信息，它对大的目标表观变化是鲁棒的，然而，细粒度的则描述了空间的结构细节，它对精确的目标定位是有效的。然后将一个预先定义的二值滤波器作用在这些图上，得到一组条件位置响应图，其中每个被加权来得到最后的位置响应图，目标是为每个布尔图去学习一个最优的权重。

BMR是受最近人类视觉注意力研究的启发，表现为对一个场景的短暂知觉意识能够利用一组布尔图来表示。特别地，给出的

是一个图像块的RGB颜色通道图，它相应的

由下式得到

这里的阈值θ_i来自一个在[0，255]之间的独立分布(黑白二值图)，并且这个符号≥表示元素级的不等号。为了简化，把阈值设为θ_i＝N_b(i-1)/255，它通过一个固定的步长δ＝N_b/255从0到255之间采样，因为固定步长的采样是和无穷δ→0统一采样完全等价的。因此，很容易证明

并且，第j个像素强度I(j)能够被表示成

这里的U(·)是一个一元函数，如U(2)＝[1；1；0]，U(3)＝[1；1；1]有3个离散的层，并且，R(·)表示一个取整函数。

是一个图像块的RGB颜色通道图，

在进行权重学习时，本发明通过最小化以下的线性回归函数来学习权重：

这里||·||_F表示F范数。很显然，最小化式(6)中的

等价于最小化下面的目标函数：

这里的式(5)已经被式(7)取代了。Ω_o和Ω_b分别表示目标和背景区域，并且

通过置

最小化

得到的解{β_i}能得到

为了自适应目标随着时间的表观变化，在线更新系数

这里的

通过式(8)利用在t帧时的跟踪结果计算得到。

在解决干扰问题方面，本发明利用人类视觉感知中的ASA着重于学习表观特征原理，通过学习一个抗干扰距离度量来把干扰项推到负空间里，以此增强特征的判别能力，从而产生针对干扰项时的鲁棒跟踪，可以很好地把目标从干扰项里区分出来。先将学习相关滤波近似为学习一个距离度量，解决建模正样本间的相互关系，然后在相关滤波中学习抗干扰距离度量，同时考虑来自真实负样本的有用的相互关系。

在距离度量学习中，学习CF被表示成一个空间岭回归目标函数：

这里的

是一个高斯回归目标，

并且，λ是一个正则项系数。注意到如果

被重塑到

对于任何a≠0，然后，式(10)能够被重规划为

除了以1/a的比例重塑y，它等价于式(10)并且，由于同样的最大响应位置，这将产生同样的跟踪结果。

基于此，为了清楚地展示相关滤波学习和度量学习之间的关系，在式(10)中设置

并且重塑

这等价于在里面加入约束

接下来，用标志

来表示

的第i行，然后，重写式(10)中的数据项为：

这里的

是马氏距离，

并且

是一个全是一的向量。因此，学习相关滤波大致可以看作是学习一个最优的距离度量。

但是在式(11)中只考虑了正样本之间的关系，因此限制了它从背景中区分出目标的判别能力。为了解决这个问题，在式(10)中添加一个抗干扰度量正则项，其由负空间的关系组成，并且作为把干扰项推到负空间的一种力量。

在进行抗干扰度量正则相关滤波时，首先从目标周围的半局部域采样一系列干扰区域

然后把它们之间的相互作用建模成

并整合进式(10)作为一个正则项：

这里的γ是一个正则项系数，并且w^mn是一个权重，它度量出样本i和j之间的相似性。权重越大，样本差异性就越大，从而使得学到的表观特征更有判别力。

式(12)能够被重新规划成：

这里的

并且

这个

的最小解能够通过

得到：

这里的

是一个块矩阵，有N_x×N_x个块

这里的

并且

因为循环矩阵x满足

这里的F表示离散傅立叶变换(DFT)矩阵，

表示基准向量x的DFT，并且F^H＝(F^＊)^T表示共轭转置。利用这个建模，式(15)能被对角化成

这里

并且

另外，在(14)中代入(16)，它的右边项能被重规划成

在式(14)中代入式(17)、(18)，得到它的解的FFT

这里的

它的第i个元素是

的第k个元素，而且

类似于式(9)，

是通过在线更新得到的

这里的

是通过式(19)计算的，用的是第t帧的跟踪结果。

被定义为

这里的

因为

的行数是

它是列数，直接计算式(19)中

的逆不太实际。相反，我们通过用变换

来计算

的逆。在得到所有

之后，它能够被并行地计算，式(14)的最优解

能够通过求

的逆FFT得到。

本发明基于人类视觉感知提出了一个相关滤波类跟踪算法，反映了在人类视觉感知中的SSA和ASA机制，通过并行地处理一个局部和半局部背景域，增强了目标跟踪的鲁棒性和抗干扰性。对于局部域，为了建模SSA，一个简单但是有效的BMR被引入相关滤波学习之中，通过随机二值化图像颜色通道来刻画目标和它的场景的局部拓扑结构，其对于各种变换是不变的。对于半局部域，为了建模ASA，一个抗干扰度量正则项被引入相关滤波的目标函数之中，它作为把干扰项推入负域的一个力量，因此在遇到有挑战性的目标相似物体干扰项时，增强了跟踪的鲁棒性。具有处理问题时更加稳健准确、适应性强、跟踪效果好等优点，可实现对视频目标的持续有效跟踪。

附图说明

图1是本发明的原理图。

图2是本发明建模SSA的流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步详尽描述，实施例中未注明的技术或产品，均为现有技术或可以通过购买获得的常规产品。

实施例1：如图1、2所示，本基于并行注意力相关滤波的视频目标跟踪方法是将跟踪问题设计为估计一个目标位置的概率，整合空间选择注意力(SSA)和表观选择注意力(ASA)，利用Log函数得到目标函数，实现视频目标的持续有效跟踪，包括以下步骤：

本基于并行注意力相关滤波的视频目标跟踪方法的具体步骤如下：

(1)获取SSA位置响应图

是一个图像块的RGB颜色通道图，T表示转置；

对每个图加权，得到一组最后的位置响应图P(B_i，F|I∈Ω_o)：

是第k帧的分类器参数向量，

是目标区域中非空白的像素个数，

需要通过

是当前帧的权重系数向量；

(2)获取ASA目标图

(2.1)在跟踪目标周围的半局部域采样一系列干扰区域

在相关视频滤波中学习抗干扰距离度量；

其中，

x_i样本矩阵，

是向量x的DFT，

是

的第i行，w_i是第i个样本矩阵X_i对应的相关滤波器权重，

是所有w_i组成的向量，y是高斯型的标签，d_w′d_h′是特征矩阵的宽度和高度，λ是正则项系数，

是马氏距离，

且

通过该模型对经步骤(2.1)得到的目标图像进一步进行抗干扰度量正则相关滤波，强化对目标特征的判别和跟踪，将滤掉的干扰项推入负域，获取正空间目标跟踪图片P(X_i，w_i|I∈Ω_o)：

其中，

是抗干扰度量正则相关滤波模型中的第k个子向量，

是总样本向量中的第k个子向量，

通过

在线更新得到的，

是求

的逆FFT得到的第t帧的跟踪结果，

是

被定义为:

其中，X_i是第i个样本向量，

是第k个基础样本的第m个循环样本，

(4)持续跟踪视频目标

通过Log函数建模，整合SSA和ASA图像，得到如下目标函数：

其中，P(B_i，F|I∈Ω_o)表示获得的SSA位置响应图，

表示一系列N_b通道的布尔图，

表示布尔图滤波器，P(X_i，w_i|I∈Ω_o)表示获得的ASA目标图，

得到，所有特征通道都是独立分布的)，

表示ASA滤波器；

本例中，正则项系数λ＝0.001，融合系数η＝0.3。

实施例2：如图1、2所示，本基于并行注意力相关滤波的视频目标跟踪方法是将跟踪问题设计为估计一个目标位置的概率，整合空间选择注意力SSA和表观选择注意力ASA，利用Log函数得到目标函数，实现视频目标的持续有效跟踪，包括以下步骤：

(1)获取SSA位置响应图：首先，针对跟踪目标产生一系列的二值图来描述不同粒度下目标和它的周围场景之间的拓扑结构，将图片从上到下按由粗到细的描述粒度排列，得到一组跟踪目标布尔图B_i，粗粒度布尔图对全局形状信息进行编码描述明显的目标表观变化，细粒度的布尔图描述空间的细节结构；然后，针对跟踪目标定义一个二值滤波器F，将F作用在布尔图B_i上，获得条件位置响应图，并通过最小化线性回归函数完成学习权重，为每个布尔图学习一个最优的权重，对每个图加权得到最后的位置响应图：

(2)获取ASA目标图：首先在跟踪目标周围的半局部域采样一系列干扰区域，将岭回归目标函数近似等价为一个度量学习的相关滤波器，在相关视频滤波中学习抗干扰距离度量，解决建模正样本间的相互关系；然后引入抗干扰度量正则项，对经目标图像进行抗干扰度量正则相关滤波，在相关滤波中学习抗干扰距离度量，同时考虑来自真实负样本的有用的相互关系，将干扰项推入负域，获取目标跟踪图片：

本例的具体步骤与实施例1相同，正则项系数λ＝0.001，融合系数η＝0.3。

上面结合附图对本发明的技术内容作了说明，但本发明的保护范围并不限于所述内容，在本领域的普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下对本发明的技术内容做出各种变化，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。