CN107871110B

CN107871110B - 一种基于多尺度结构相关性的行人目标识别方法

Info

Publication number: CN107871110B
Application number: CN201610854913.9A
Authority: CN
Inventors: 李波; 张晓伟; 胡海苗; 王晓燕; 郑锦
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2016-09-27
Filing date: 2016-09-27
Publication date: 2018-12-14
Anticipated expiration: 2036-09-27
Also published as: CN107871110A

Abstract

本发明公开了一种基于多尺度结构相关性的行人目标识别方法。首先，根据不同尺度目标底层视觉特征具有的不同有效性，在多尺度上提取目标的显著性底层特征。其次，根据同一类目标在不同尺度间具有的几何结构一致性,对各视觉特征通道上的目标特征向量使用局部约束线性编码的方式构造不同尺度上的局部结构模式。最后，根据目标在不同尺度上特征维度的差异性，将目标在多个尺度上的局部结构特征变换到具有同一几何结构特征的特征子空间中以提高行人目标的识别性能。本发明所提出的基于多尺度结构相关性的行人目标识别方法优于国际上同类相关方法，尤其对监控视频中存在较大分辨率差异的行人目标时分类识别性能表现最为显著。

Description

一种基于多尺度结构相关性的行人目标识别方法

技术领域

本申请涉及一种视频监控中基于多尺度结构相关性的行人目标识别方法，特别是一种应用于大场景监控区域、行人目标尺度多样化的行人目标检测识别方法，属于数字图像处理技术领域。

背景技术

随着计算机视觉技术的发展以及监控视频数量的增长，智能视频监控技术得到了广泛的关注和研究，智能视频监控信息正对人们的生活方式和社会发展起着越来越重要的作用；目标分类识别技术，作为智能视频监控的关键技术之一，直接影响着智能视觉监视***的实时性、鲁棒性和准确性。因此，目标分类识别技术直接影响着智能视频监控的智能化水平，具有重要的研究意义和应用价值。

在室外视频监控中，由于运动目标距离摄像头距离不同，导致传感器获取到的目标分辨率呈现多样性和差异性，造成目标在图像中的整体结构信息和局部细节信息的变化，对目标特征提取、建模、学习与推理等方面都造成影响，为智能视频监控的目标分类识别任务带来很大的挑战性。

人类视觉认知领域的研究者们在视觉认知***机理的研究中，证明了视觉认知过程是一个由粗到精的过程，即由低频信号(轮廓等信息)到高频信号(细节信息)的一个逐步精细的过程，并且证明了不同尺度的信息在视觉任务中的作用是不同的。观察分析发现，不同尺度的目标特征表征不同的信息，大尺度目标(高分辨率)则有利于目标局部细节特征的表示，例如转角、边缘等细节分量信息；而小尺度目标(低分辨率)有利于目标全局整体特征的描述，例如形状、轮廓等目标的整体形态分布等。根据不同尺度目标特征的差异性，本文一方面采用了一种多尺度处理的思路提取不同尺度目标图像的有效视觉特征来提升目标图像显著性特征的表征能力。

多尺度空间技术也称为多分辨率技术，即对图像用不同的尺度进行表示，并在不同的尺度下进行处理的一种技术。由于在某些尺度下很难表现的图像特征更容易在另外的尺度下进行表现，因此利用多尺度技术结合特征提取能够更好地表现图像的内容。多尺度算法为图像提供了在不同层次、不同分辨率的透视信息，低分辨率提供图像在整体概貌信息，高分辨率提供了图像的细节信息，两者综合起来能够更有效地表达图像。

另一方面，现有的多尺度行人目标识别方法都是基于多尺度金字塔的重采样技术获取目标在不同尺度上的特征信息，但是，这些不同尺度目标之间是相互独立的，忽略了对局部特征尺度相关结构特性的描述。近年来，结合尺度的特殊性质，研究者们已经开展了多项研究利用其进行图像区域刻画及特征相似度度量，但是这些方法只是将尺度因素作为其他描述方法的一个补充，而未考虑同一个区域内不同尺度特征之间的相互关联的特性，未有效地利用尺度因素进行结构刻画。为此，根据行人目标共有的几何结构一致性，本文将利用尺度特性构建出具有尺度相关性的结构特征，并有效利用尺度相关结构特征来有效地描述目标图像内容，从而提高特征表达的判别能力和表达能力。

发明内容

本发明的目的在于克服现有视频监控中多分辨率行人目标识别技术中的不足，提出一种基于多尺度结构相关性的行人目标识别方法。首先，针对目标尺度的多样性和差异性，不同尺度目标不同特征具有不同的有效性，通过获取不同尺度目标的底层视觉特征(如纹理、梯度等)，构建基于不同目标尺度的显著性底层特征。其次，根据不同尺度同一类目标的几何结构一致性,对各视觉特征通道上的目标特征向量使用局部约束线性编码的方式构造不同尺度上的局部结构模式。最后，根据目标在不同尺度上特征维度信息的差异性，将目标在多个尺度上的局部结构特征变换到具有同一几何结构特征的特征子空间中提高多分辨率行人目标的识别性能。

该方法主要包括三个部分的工作：第一，为不同分辨率行人目标构造多尺度特征，如梯度特征和纹理特征；根据行人目标的原始尺度映射到最近邻的两个模板尺度上，分别在梯度特征和纹理特征通道上提取这两个最近邻尺度的目标特征信息，并通过无监督聚类的方式生成多尺度特征字典，以更鲁棒地描述图像的内容；第二，根据同一类行人目标具有几何结构一致性，不同尺度的目标特征存在尺度结构相互关联关系，使用局部约束线性编码方式构造不同尺度之间鲁棒的局部结构模式；最后，根据目标在不同尺度上特征维度信息的差异性，将低分辨率尺度上的目标特征和高分辨率尺度上具有局部结构模式的目标特征变换到同一几何结构特征的特征子空间中提高多分辨率行人目标的识别性能。

为实现上述目的，本发明采用的技术方案为：

一种基于多尺度结构相关性的行人目标识别方法，该方法步骤如下：

步骤(1)、对监控视频进行运动检测以获得行人目标的候选区域；对该候选区域进行目标尺度映射，根据该候选区域的尺寸将其映射到若干个模板尺度中最近邻的两个尺度上；

步骤(2)、在上述目标候选区域最近邻的两个尺度上，分别提取梯度特征向量和纹理特征向量，形成特征向量集合；

步骤(3)、对上述提取到的每个尺度上的特征向量集合，通过无监督K-Means聚类的方式划分为K个特征向量中心，并将这些特征向量聚类中心作为视觉字典中的单词，这K个聚类中心就是行人目标在每个尺度上的视觉特征字典；

步骤(4)、对上述生成的每个尺度上的视觉特征字典使用局部约束线性编码描述目标在不同尺度上的局部结构特征，提高行人目标特征信息描述的鲁棒性；

步骤(5)、将上述不同尺度上的局部结构特征通过特征空间变换到同一维数特征子空间中；然后，利用支持向量机SVM分类器，获得此特征子空间中候选行人目标的识别准确度s_i；

步骤(6)、联合梯度特征和纹理特征的特征子空间中候选行人目标的识别准确度s_i，通过动态加权融合方式获取候选区域是否为行人目标的置信度f。

所述步骤(1)具体包括如下步骤：

步骤(11)、依据室外视频监控中行人目标尺度的差异性，将行人目标映射为64×128、32×64和16×32三种尺度模板；

步骤(12)、根据当前运动检测获得到的行人目标候选区域的尺寸，将候选目标映射到三种尺度模板的最近邻两个尺度上。

所述步骤(2)具体包括如下步骤：

步骤(21)、根据目标候选区域对应的两个最近邻尺度模板，获取目标图像在这两个尺度模板上的HOG梯度特征，在尺度模板上提取到的HOG梯度特征表示为其中i表示步骤(1)中的若干个尺度模板中的第i个尺度模板，表示在第i个尺度模板上第1个HOG梯度特征向量，D^h表示HOG梯度特征的维数，为HOG梯度特征个数；

步骤(22)、根据目标图像对应的两个最近邻尺度模板，获取目标图像在这两个尺度模板上的LBP纹理特征，在尺度模板上提取到的LBP纹理特征表示为其中i表示步骤(1)中的若干个尺度模板中的第i个尺度模板，表示在第i个尺度模板上第1个LBP纹理特征向量，D^l表示LBP纹理特征的维数，为LBP纹理特征的个数。

所述步骤(3)具体包括如下步骤：

步骤(31)、对步骤(2)中获得的每个尺度模板上的HOG梯度特征，通过无监督K-Means聚类生成HOG梯度特征的K个聚类中心即HOG梯度特征字典其中h表示提取的视觉特征为HOG梯度特征，i表示步骤(1)中的若干个尺度模板中的第i个尺度模板，表示在第i个尺度模板上HOG梯度特征的第1个聚类中心或在第i个尺度模板上HOG梯度特征字典中的第1个词包，D^h表示HOG梯度特征的维数，表示在第i个尺度模板上梯度特征聚类中心的个数，即HOG梯度特征字典的大小。

步骤(32)、对步骤(2)中获得的每个尺度模板上的LBP纹理特征，通过无监督K-Means聚类生成LBP纹理特征的K个聚类中心即LBP纹理特征字典其中l表示提取的视觉特征为LBP纹理特征，i表示步骤(1)中的若干个尺度模板中的第i个尺度模板，表示在第i个尺度模板上LBP纹理特征的第1个聚类中心或在第i个尺度模板上LBP纹理特征字典中的第1个词包，D^l表示LBP纹理特征的维数，表示在第i个尺度模板上纹理特征聚类中心的个数，即LBP纹理特征字典的大小。

所述步骤(4)具体包括如下步骤：

步骤(41)、对步骤(2)中行人目标候选区域在不同尺度上提取到码；

步骤(42)、对步骤(2)中行人目标候选区域在不同尺度上提取到

所述步骤(41)和步骤(42)具体都包括如下过程：

步骤(421)、对于每一个待编码的特征向量x_i，在特征字典B_i中找出与其距离最近的k个基向量，其中或或然后通过这些基向量进行局部稀疏编码，获得不同尺度模板的特征φ(x)，其中φ(x)为局部约束线性编码后的梯度特征φ^h(x^h)和纹理特征φ^l(x^l)；

步骤(422)、针对已经训练好的特征字典对于输入的待编码目标图像I，首先对其提取目标图像特征然后采用以下公式求解局部约束编码：

其中，C是图像特征的局部约束线性编码表示，常量λ是一个变换量控制这两项式子的相对重要性，⊙表示元素对应相乘，并且用来控制编码的局部性，σ用来调节局部性随距离变化的权重，1^Tc_i使得LLC编码具有平移不变性。

所述步骤(5)具体包括如下步骤：

步骤(51)、将步骤(4)中局部约束线性编码后不同尺度模板的特征φ^h(x^h)和φ^l(x^l)变换到同一维度特征子空间中，其特征变换如下：

步骤(52)、在同一维度特征子空间中，使用支持向量机SVM分类器，获得此特征子空间中候选行人目标的识别准确度s_i。

本发明提出了一种基于多尺度结构相关性的行人目标识别方法，本发明与现有技术相比的优点在于：

1、现有技术中目标图像特征的提取都是将目标图像采样到某一尺度进行特征提取，不同尺度上的行人目标在目标尺度模型上存有大量的特征信息丢失。针对目标尺度的多样性和差异性，不同尺度目标不同特征具有不同的有效性，通过获取不同尺度目标的底层视觉特征(如纹理、梯度等)，构建了基于不同目标尺度的显著性底层特征。

2、现有技术的目标识别方法中，往往只关注同一尺度内目标的几何结构关系，缺少对不同目标尺度结构关系的建模，本发明根据不同尺度同一类行人目标的几何结构一致性，使用局部约束线性编码方式构造不同尺度之间鲁棒的局部结构模式。实验表明，本发明所提出的多尺度结构相关性的行人目标识别方法能有效提高行人识别的性能，尤其对于大监控场景、多分辨率行人目标视频序列的行人识别效果显著。

附图说明

下面结合附图和具体实施方式对本发明作进一步的说明

图1为本发明的框架图；

图2为多尺度特征示意图；

图3为本发明提出的不同分辨率目标特征变换图；

图4为本发明提出的行人目标识别算法性能结果图；

图5为本发明提出的行人目标识别算法的行人识别示例图。

具体实施方式

本发明提出了一种基于多尺度结构相关性的行人目标识别方法，方法流程如图1所示，主要包括以下六个部分。

本方法可有效提高监控视频中的行人目标的识别率，尤其适用于大视野监控场景、行人目标分辨率多样化的情形。下面展开具体说明。

针对室外视频监控中行人目标尺度的多样性，通过研究分析，将运动检测获取到行人目标的候选区域分别在不同模板尺度上的提取显著的视觉底层特征。

对于步骤1，首先，对运动检测获取到的目标区域进行判定；然后，依据候选目标区域尺寸将该候选区域映射到64×128、32×64和16×32三种模板尺度的最近邻两个尺度上。

对于步骤2，候选目标的特征提取分为多尺度梯度特征提取和多尺度纹理特征提取两部分来完成。

步骤(21)根据目标图像对应的两个最优模板尺度，如图2(a)所示获取目标图像在这两个尺度上的HOG梯度特征。

HOG(Histograms of Oriented Gradients)梯度方向直方图特征是提取图像中局部区域的梯度方向直方图特征，HOG特征的优点在于描述了图像局部区域的梯度强度和梯度方向的分布情况，该分布情况能对局部对象外观和形状进行很好的表征。其实现过程如下：

1)对输入图像进行伽马值(Gamma)调整和滤波。

Gamma压缩公式如公式(3-7)所示：

I(x,y)＝I(x,y)^gamma

其中gamma可以取1/2。

2)计算图像的一阶梯度

梯度大小计算方法为：

梯度方向计算方法为：

Ang(x,y)＝arccos(I(x+1,y)-I(x-1,y))

3)检测窗口梯度投影

将输入图像的梯度图映射到直方图上的9个方向(180度平分9份)，形成9个方向的梯度图。

固定方向(例如0°)的梯度图的计算方法为：

其中R(x,y,θ)是点(x,y)的梯度在中心方向θ的投影，是点(x,y)的梯度方向在中心方向θ的权重大小，θ取0°，20°，40°，60°，80°，100°，120°，140°，160°。权重的计算方法：

4)归一化梯度直方图

本发明采用L2-norm的归一化方法，归一化后检测窗口内θ方向梯度值的计算方法：

其中，v_θ是归一化前检测窗口内θ方向梯度的值的加和，v是归一化前检测窗口内梯度的模，ε是一小数，可取1.0×10^-6。

5)收集HOG特征

最后一步就是将检测窗口中所有重叠的块进行HOG特征的收集，并将各尺度模板上提取到的HOG梯度特征结合成最终的特征向量,表示为其中i表示步骤(1)中的三个尺度模板中的任意一个尺度模板，表示在第i个尺度模板上第1个HOG梯度特征向量，D^h表示HOG梯度特征的维数，为HOG梯度特征的个数。

步骤(22)根据目标图像对应的两个最优尺度模板，如图2(b)所示获取目标图像在这两个尺度上的LBP纹理特征。

LBP特征(Local Binary Patterns)是一种有效的局部纹理描述算子，通过比较图像区域中每个像素点与其邻域内像素点的灰度值，利用二进制模式表示的比较结果来描述图像的纹理特征。

其中，P表示目标像素区域，R为目标像素区域半径，g_p为区域内中心像素点相邻像素点的灰度值，g_i为区域中心像素点(x_i,y_i)的灰度值。函数s(x)的定义为：

由于基本LBP算子得到的二进制模式数目(即直方图的分布级数)较多，而实际位于该目标分块区域中的像素数目却相对较少，这将会导致产生一个过于稀疏的直方图，从而使直方图失去统计意义。本发明采用一种LBP统一化模式，其定义为：

其中，U(LBP_P,R)为：

式中，函数U(x)返回的是把LBP_P,R模式对应的首尾衔接的二进制序列中“0”位到“1”位或者“1”位到“0”位的跳变数。

最后，将检测窗口中所有重叠的块进行LBP纹理特征的收集，在各尺度模板上提取到的LBP纹理特征表示为其中i表示步骤(1)中的若干个尺度模板中的第i个尺度模板，表示在第i个尺度模板上第1个LBP纹理特征向量，D^l表示LBP纹理特征的维数，为LBP纹理特征的个数。

对于步骤3，多尺度特征字典生成的具体过程如下：

首先无监督K-Means聚类算法随机选取K个特征向量，作为种子节点。然后对其余的特征向量集合,计算每个特征向量与K个种子节点的距离,将个特征向量归到最近的那个种子节点,这样整个特征向量集初次划分为K个聚类。对每个聚类,计算聚类的质心(聚类中心),以每个质心作为种子节点,重复上述步骤,直到聚类中心不再改变。

对于步骤(31)在特征训练阶段，通过无监督K-Means聚类得到HOG梯度特征的聚类中心即HOG梯度特征字典中的单词，当步骤(21)提取到的HOG特征向量与聚类得到的某一聚类中心最近邻时,就认为这个特征向量为多尺度HOG特征字典中的特征单词，其中h表示提取的视觉特征为HOG梯度特征，i表示步骤(1)中的若干个尺度模板中的第i个尺度模板，表示在第i个尺度模板上HOG梯度特征的第1个聚类中心或在第i个尺度模板上HOG梯度特征字典中的第1个词包，D^h表示HOG梯度特征的维数，表示在第i个尺度模板上梯度特征聚类中心的个数，即HOG梯度特征字典的大小。

步骤(32)为特征训练阶段LBP纹理特征通过无监督K-Means聚类得到的聚类中心也即LBP纹理特征字典中的单词，当步骤(22)提取到的LBP纹理特征向量与聚类得到的某一聚类中心最近邻时,就认为这个LBP特征向量为多尺度LBP特征字典中的特征单词，其中l表示提取的视觉特征为LBP纹理特征，i表示步骤(1)中的若干个尺度模板中的第i个尺度模板，表示在第i个尺度模板上LBP纹理特征的第1个聚类中心或在第i个尺度模板上LBP纹理特征字典中的第1个词包，D^l表示LBP纹理特征的维数，表示在第i个尺度模板上纹理特征聚类中心的个数，即LBP纹理特征字典的大小。

步骤(4)根据不同尺度行人目标具有内在几何结构一致性，使用局部约束线性编码方式构造不同尺度之间鲁棒的局部结构模式，构造了不同尺度特征之间的尺度结构特征，以提高行人目标特征信息描述的鲁棒性。

对于步骤(41)将上述步骤(21)特征提取阶段获得的HOG梯度特征集合用步骤(31)K-Means聚类算法生成的多尺度HOG梯度特征字典为基向量，进行局部约束线性编码。

步骤(42)将上述步骤(22)特征提取阶段获得的LBP纹理特征集合用步骤(32)K-Means聚类算法生成的多尺度HOG梯度特征字典为基向量，进行局部约束线性编码。

对于步骤(421)每一个待编码的特征向量x_i，在特征字典B_i中找出与其距离最近的k个基向量，其中或或然后通过这些基向量进行局部稀疏编码，获得不同尺度模板的特征φ(x)，其中φ(x)为局部约束线性编码后的梯度特征φ^h(x^h)和纹理特征φ^l(x^l)。

步骤(422)针对已经训练好的特征字典对于输入的待编码目标图像I，首先对其提取目标图像特征然后采用以下公式求解局部约束编码：

步骤(5)基于目标在不同尺度上特征维度信息的差异性，将低分辨率尺度上的目标特征和高分辨率尺度上的目标特征变换到同一几何结构的特征子空间中，使用支持向量机SVM分类器，获得此特征子空间中候选行人目标的识别准确度s_i。

对于步骤(51)为解决目标图像在对应的两个最优尺度上提取的特征维数不一致问题，在高分辨率尺度空间上的目标特征64×128和32×64、低分辨率尺度空间上的目标特征32×64和16×32，如图3特征空间变换流程图，将步骤(4)中局部约束线性编码后不同尺度模板的特征φ^h(x^h)和φ^l(x^l)变换到同一维度特征子空间中，其特征变换如下：

对于步骤(52)，在同一维度特征子空间中，使用支持向量机SVM分类器，获得多尺度特征子空间中候选行人目标的识别准确度s_i，即多尺度HOG梯度特征簇子空间中候选行人目标的识别准确度s_h和多尺度LBP纹理特征子空间中候选行人目标的识别准确度s_l。

步骤(6)联合梯度特征和纹理特征的特征子空间中候选行人目标的识别准确度s_h和s_l，通过动态加权融合地方式获取候选区域是否为行人目标的置信度f。

f＝ω_h·s_h+ω_l·s_l

其中，动态融合权重ω_h＝s_h/(s_h+s_l)，ω_l＝1-ω_h。

本发明的多尺度结构相关性行人目标识别方法中，首先，根据行人目标尺度的差异性，通过获取不同尺度目标的显著性底层视觉特征(如纹理、梯度等)，构建了基于不同目标尺度的显著性和有效性特征。其次，根据不同尺度同一类行人目标在不同尺度间具有的几何结构一致性，使用局部约束线性编码方式构造不同尺度之间的局部结构模式。最后，根据目标在不同尺度上特征维度信息的差异性，将低分辨率尺度上的目标特征和高分辨率尺度上的目标特征变换到具有同一几何结构的特征子空间中，实现了多分辨率行人目标的识别问题。

以上公开的仅为本发明的具体实施例，根据本发明提供的技术思想，本领域的技术人员能思及的变化，都应落入本发明的保护范围内。

Claims

1.一种基于多尺度结构相关性的行人目标识别方法，其特征在于包括如下步骤：

2.如权利要求1所述的基于多尺度结构相关性的行人目标识别方法，其特征在于所述步骤(1)中，具体包括如下步骤：

3.如权利要求1所述的基于多尺度结构相关性的行人目标识别方法，其特征在于所述步骤(2)中，具体包括如下步骤：

4.如权利要求1所述的基于多尺度结构相关性的行人目标识别方法，其特征在于所述步骤(3)中，具体包括如下步骤：

步骤(31)、对步骤(2)中获得的每个尺度模板上的HOG梯度特征，通过无监督K-Means聚类生成HOG梯度特征的K个聚类中心即HOG梯度特征字典其中h表示提取的视觉特征为HOG梯度特征，i表示步骤(1)中的若干个尺度模板中的第i个尺度模板，表示在第i个尺度模板上HOG梯度特征的第1个聚类中心或在第i个尺度模板上HOG梯度特征字典中的第1个词包，D^h表示HOG梯度特征的维数，表示在第i个尺度模板上梯度特征聚类中心的个数，即HOG梯度特征字典的大小；

5.如权利要求1所述的基于多尺度结构相关性的行人目标识别方法，其特征在于所述步骤(4)中，具体包括如下步骤：

步骤(41)、对步骤(2)中行人目标候选区域在不同尺度上提取到的HOG梯度特征进行以步骤(3)中HOG梯度特征字典为基向量的局部约束线性编码；

步骤(42)、对步骤(2)中行人目标候选区域在不同尺度上提取到的LBP纹理特征进行以步骤(3)中LBP纹理特征字典为基向量的局部约束线性编码；

所述步骤(41)和步骤(42)具体都包括如下过程：

其中，m代表待编码图像特征的数量，c_i为x_i的稀疏编码表示，C是图像特征的局部约束线性编码表示常量λ是一个变换量控制这两项式子的相对重要性，⊙表示元素对应相乘，并且用来控制编码的局部性，σ用来调节局部性随距离变化的权重，1^Tc_i使得LLC编码具有平移不变性。

6.如权利要求1所述的基于多尺度结构相关性的行人目标识别方法，其特征在于所述步骤(5)中，具体包括如下步骤：

其中，p_l代表在低尺度模板64×128上图像特征的数量，p_h代表在高尺度模板16×32上图像特征的数量；