CN107292259A

CN107292259A - 基于AdaRank的深度特征和传统特征的集成方法

Info

Publication number: CN107292259A
Application number: CN201710450306.0A
Authority: CN
Inventors: 郑苏桐; 郭晓强; 李小雨; 姜竹青; 门爱东
Original assignee: Beijing University of Posts and Telecommunications; Academy of Broadcasting Science of SAPPRFT
Current assignee: Beijing University of Posts and Telecommunications; Academy of Broadcasting Science of SAPPRFT
Priority date: 2017-06-15
Filing date: 2017-06-15
Publication date: 2017-10-24

Abstract

本发明涉及一种基于AdaRank的深度特征和传统特征的集成方法，其主要技术特点是：将图像数据进行分割，针对不同部分分别构造并训练深度卷及神经网络，用以获得深度特征；从行人再识别数据中提取传统特征，包括LOMO特征、ELF6特征、Hog3D特征；选取如下三种度量学习方法：KISSME、kLFDA和LMNN；将所有特征与三种度量学习方法进行组合张成笛卡尔乘积，得到一系列弱排序器；利用AdaRank算法，对弱排序器进行集成学习，最终得到强排序器。本发明设计合理，结合了深度学习、多特征、度量学习、集成学习，通过构造“弱排序器”并进行集成学习，使得***的整体性能远远高于单一特征和单一度量算法，使得***整体匹配率大大提升，获得了很好的性能。

Description

基于AdaRank的深度特征和传统特征的集成方法

技术领域

本发明属于计算机视觉识别技术领域，尤其是一种基于AdaRank的深度特征和传统特征的集成方法。

背景技术

随着监控范围的增大，监控数据呈现***式增长。依靠人眼识别监控画面中的行人身份显然十分低效，行人再识别技术的任务便是依靠计算机视觉技术解决不重叠监控视野中行人身份匹配的问题。

现有行人再识别算法主要分为两类，一类是传统方法，由特征提取和度量学习两个步骤组成。在特征提取阶段，算法根据数据的特点挖掘有用信息并组织成特征，该特征需要具备描述能力、区分能力和鲁棒性。在度量学习阶段，算法将原有的特征空间进行线性或非线性变换，将特征映射到新的空间中，使得在这个空间中同类样本之间距离较小而不同类样本之间距离较大。另一类是基于深度学习的方法，深度学习是近年来的热门方向，它在计算机视觉领域表现出强大的性能。由于在行人再识别任务中需要比较两个样本之间的相似度，因此用于这一任务的深度网络多数采用了孪生网络结构，即由两条共享参数的分支构成。一对样本输入网络后进行一系列卷积、池化等操作，在网络的末端将两个分支的输出结果进行比较，得出两个样本的相似度。

在深度学习方法中，网络末端的输出可以视为网络计算得出的特征，即深度特征。传统特征和深度特征在性能上各有优势。传统特征由算法分析得出，内部原理清晰，可以根据具体应用场景进行适当的优化。深度特征由深度网络自主学习得出，能够提取到算法无法分析得到的特征。因此，如何将上述特征进行充分利用以提高整体匹配率是目前迫切要求解决的问题。

发明内容

本发明的目地在于克服现有技术的不足，提出一种设计合理、匹配率高且稳定性强的基于AdaRank的深度特征和传统特征的集成方法。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于AdaRank的深度特征和传统特征的集成方法，包括以下步骤：

步骤1、将图像数据进行分割，针对不同部分分别构造并训练深度卷及神经网络，用以获得深度特征；

步骤2、从行人再识别数据中提取传统特征，包括LOMO特征、ELF6特征、Hog3D特征；

步骤3、选取如下三种度量学习方法：KISSME、kLFDA和LMNN；

步骤4、将所有特征与三种度量学习方法进行组合张成笛卡尔乘积，得到一系列弱排序器；

步骤5、利用AdaRank算法，对弱排序器进行集成学习，最终得到强排序器。

所述步骤1的具体实现方法为：

根据图像特点对数据进行分割，分割依据是行人的不同身体部位；根据头部、躯干、腿部的原则，每张图片被分割为大小不等的三部分作为三种不同的训练数据，同时整体图像作为一类数据；针对这四种不同数据，分别构造四个结构略有差异的深度卷积神经网络，该训练神经网络时采用了余弦距离作为样本相似度的度量以及三重损失作为损失函数，该余弦距离定义如下：

其中B₁和B₂是神经网络全连接层的输出；

设有一对图像序列集，P＝(p₁，p₂，...，p_m)是参考集，其中的p_i是参考集的第i个样本；G＝(g₁，g₂，...，g_n)是备选集，其中的g_j是备选集的第j个样本，S_ij表示p_i和g_j之间的余弦距离，对于p_i来说，正向损失指同类样本之间距离过大造成的损失，定义如下：

负向损失指不同类样本之间距离过小造成的损失，定义如下：

上面两个式子中，I_k表示样本k的身份，K_p和K_n分别表示同类样本对和不同类样本对的数量；损失函数的最终形式如下：

J_i＝J_i-pos+λJ_i-neg

其中，λ是一个用来平衡两种损失的参数。

所述LOMO特征的提取方法为：首先垂直方向将图像分为水平的条状区域，将每个区域进一步分为小块，对于每个小块进行直方图特征提取，具体特征包括HSV颜色域的直方图以及SILTP纹理特征直方图；得到区域的所有直方图后，对每个直方取最大值，得到该区域的直方特征；最后将每张图的所有区域所得特征进行拼接，即得到该图像的LOMO特征。

所述Hog3D特征的提取方法为：HOG特征是一种经典的梯度特征，其图像中像素点(x，y)的梯度为：

G_x(x，y)＝H(x+1，y)-H(x-1，y)

G_y(x，y)＝H(x，y+1)-H(x，y+1)

上式中G_x(x，y)、G_y(x，y)、H(x，y)分别表示像素点(x，y)处的水平方向梯度、垂直方向梯度和像素值；该点处的梯度幅值和方向分别为：

HOG特征将梯度映射到平面的方向块，Hog3D特征将梯度映射到空间中的正20面体。

所述ELF6特征为融合特征，包括29个特征通道，其中8个特征通道用来描述颜色信息，21个用来描述纹理特征。

所述强排序器为弱排序器的线性组合。

本发明的优点和积极效果是：

本发明设计合理，其采用一个集成模型将传统特征和深度特征进充分结合并采用三种不同度量学习算法，通过构造“弱排序器”并进行集成学习，使得***的整体性能远远高于单一特征和单一度量算法，使得***整体匹配率大大提升，获得了很好的性能，本发明在公开的数据库上进行了测试，实验表明提出的方法优于目前其他的行人再识别算法。

附图说明

图1是本发明的整体***的流程图；

图2是本发明构造的深度卷及神经网络结构示意图；

图3a至图3f是本发明的***不同部分对***整体性能的贡献分析图。

具体实施方式

以下结合附图对本发明实施例做进一步详述。

一种基于AdaRank的深度特征和传统特征的集成方法，如图1所示，包括以下步骤：

步骤1、将图像数据进行分割，针对不同部分分别构造并训练深度卷及神经网络，用以获得深度特征。具体实现方法如下：

根据图像特点对数据进行分割，分割依据是行人的不同身体部位。根据头部、躯干、腿部的原则，每张图片被分割为大小不等的三部分，作为三种不同的训练数据，同时整体图像也作为一类数据。针对这四种不同数据，本方法构造了四个结构略有差异的深度卷积神经网络。训练神经网络时采用了余弦距离作为样本相似度的度量以及三重损失作为损失函数。余弦距离定义如下：

其中B₁和B₂是神经网络全连接层的输出。

设有一对图像序列集，P＝(p₁，p₂，...，p_m)是参考集，其中的p_i是参考集的第i个样本。G＝(g₁，g₂，...，g_n)是备选集，其中的g_j是备选集的第j个样本。S_ij表示p_i和g_j之间的余弦距离。对于p_i来说，正向损失指同类样本之间距离过大造成的损失，定义如下：

上面两个式子中，I_k表示样本k的身份，K_p和K_n分别表示同类样本对和不同类样本对的数量。损失函数的最终形式如下：

J_i＝J_i-pos+λJ_i-neg

其中λ是一个用来平衡两种损失的参数。λ较小时正向损失占比重较大，λ较大时负向损失占比重较大。

步骤2、从行人再识别数据中提取传统特征，提取的特征有LOMO特征、ELF6特征、Hog3D特征。具体的特征提取方法如下：

(1)在提取LOMO特征时，首先垂直方向将图像分为水平的条状区域。将每个区域进一步分为小块，对于每个小块进行直方图特征提取。具体特征包括HSV颜色域的直方图以及SILTP纹理特征直方图。得到区域的所有直方图后，对每个直方取最大值，得到该区域的直方特征。最后将每张图的所有区域所得特征进行拼接，即得到该图像的LOMO特征。LOMO特征描述了水平方向上的最大事件，对视角变化等问题有很强的鲁棒性。

(2)HOG特征是一种经典的梯度特征。梯度特征不仅能够捕获轮廓，人影和一些纹理信息，还能进一步弱化光照的影响。图像中像素点(x，y)的梯度为：

G_x(x，y)＝H(x+1，y)-H(x-1，y)

G_y(x，y)＝H(x，y+1)-H(x，y+1)

上式中G_x(x，y)、G_y(x，y)、H(x，y)分别表示像素点(x，y)处的水平方向梯度、垂直方向梯度和像素值。该点处的梯度幅值和方向分别为：

在该方法中我们使用了HOG特征的升级版本，即Hog3D特征。HOG特征将梯度映射到平面的方向块，Hog3D特征将梯度映射到空间中的正20面体。与原特征相比，改进后的Hog3D特征除了能够描述平面图像上像素点之间的梯度关系，还可以描述前后帧之间的梯度关系。

(3)ELF6特征是一种融合特征，共包括29个特征通道。其中8个特征通道用来描述颜色信息，21个用来描述纹理特征。

步骤3、选取目前性能最好的三种度量学习方法，包括KISSME、kLFDA和LMNN。具体的度量学习方法如下：

(1)KISSME算法是“Keep It Simple and Straightforward Metric”的缩写。该算法在统计推断的基础上对距离的一种等价约束进行学习，这一策略简单而有效，不依赖于复杂问题的优化，不需要迭代学习过程，计算速度快且性能出色。

(2)kLFDA是LFDA算法的改进版本。LFDA是一种有监督的降维算法，可以将特征映射到理想的子空间。然而算法的一个缺陷是它需要解决高维散度矩阵的广义特征值问题。通过在LFDA中加入核技巧，kLFDA能够有效解决这一问题，使算法更加适用于高维特征。

(3)LMNN算法基于k近邻算法的思想，其目标是学习一种马式距离，使得相同身份的样本间距小于不同身份的样本间距，且令二者之间的差值尽量大。

步骤4、将所有特征与所有度量方法进行组合，得到一系列弱排序器。如图2所示，将所有特征与度量方法张成笛卡尔乘积。

步骤5、利用AdaRank算法，对弱排序器进行集成学习，最终得到强排序器。该强排序器是弱排序器的线性组合。具体实施方法如下：

Input:f，x，y and evaluation E

Output:the final rank result F

Initialization:

for t＝1，2，...，T do

compute

choose

set f_t＝f_k* andη＝η_k

compute

update

end for

return F＝Σ_tα_tf_t。

下面按照本发明方法进行实验，说明本发明的实验效果。

测试环境：MATLAB R2016a

测试数据：所选数据集是用于行人再识别的图像序列数据集iLIDs-VID和Prid2011。

测试指标：本发明使用了Cumulated Matching Characteristics(CMC)曲线作为评价指标，该指标表示正确匹配的样本在备选集中相似度的排名在所有测试样本中所占的比例，例如，Rank1为正确备选集的样本排在首位的参考样本占所有参考数的比例。该比例越高，算法性能越好。

实验结果如图3a至图3f所示，曲线越接近100％性能越好。同时，从表1及表2可以看出，本发明明显高于其他算法的性能。

表1

表2

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于AdaRank的深度特征和传统特征的集成方法，其特征在于包括以下步骤：

步骤3、选取如下三种度量学习方法：KISSME、kLFDA和LMNN；

2.根据权利要求1所述的基于AdaRank的深度特征和传统特征的集成方法，其特征在于：所述步骤1的具体实现方法为：

其中B₁和B₂是神经网络全连接层的输出；

<mrow> <msub> <mi>J</mi> <mrow> <mi>i</mi> <mo>-</mo> <mi>p</mi> <mi>o</mi> <mi>s</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>K</mi> <mi>p</mi> </msub> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>I</mi> <msub> <mi>p</mi> <mi>i</mi> </msub> </msub> <mo>=</mo> <msub> <mi>I</mi> <msub> <mi>g</mi> <mi>j</mi> </msub> </msub> </mrow> </munder> <mi>l</mi> <mi>n</mi> <mrow> <mo>(</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mn>2</mn> <msub> <mi>S</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </msup> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>J</mi> <mrow> <mi>i</mi> <mo>-</mo> <mi>n</mi> <mi>e</mi> <mi>g</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>K</mi> <mi>n</mi> </msub> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>I</mi> <msub> <mi>p</mi> <mi>i</mi> </msub> </msub> <mo>&NotEqual;</mo> <msub> <mi>I</mi> <msub> <mi>g</mi> <mi>j</mi> </msub> </msub> </mrow> </munder> <mi>l</mi> <mi>n</mi> <mrow> <mo>(</mo> <msup> <mi>e</mi> <mrow> <mn>2</mn> <msub> <mi>S</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </msup> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

J_i＝J_i-pos+λJ_i-neg

其中，λ是一个用来平衡两种损失的参数。

3.根据权利要求1所述的基于AdaRank的深度特征和传统特征的集成方法，其特征在于：所述LOMO特征的提取方法为：首先垂直方向将图像分为水平的条状区域，将每个区域进一步分为小块，对于每个小块进行直方图特征提取，具体特征包括HSV颜色域的直方图以及SILTP纹理特征直方图；得到区域的所有直方图后，对每个直方取最大值，得到该区域的直方特征；最后将每张图的所有区域所得特征进行拼接，即得到该图像的LOMO特征。

4.根据权利要求1所述的基于AdaRank的深度特征和传统特征的集成方法，其特征在于：所述Hog3D特征的提取方法为：HOG特征是一种经典的梯度特征，其图像中像素点(x，y)的梯度为：

G_x(x，y)＝H(x+1，y)-H(x-1，y)

G_y(x，y)＝H(x，y+1)-H(x，y+1)

<mrow> <mi>&alpha;</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>tan</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>G</mi> <mi>y</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>G</mi> <mi>x</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>

5.根据权利要求1所述的基于AdaRank的深度特征和传统特征的集成方法，其特征在于：所述ELF6特征为融合特征，包括29个特征通道，其中8个特征通道用来描述颜色信息，21个用来描述纹理特征。

6.根据权利要求1所述的基于AdaRank的深度特征和传统特征的集成方法，其特征在于：所述强排序器为弱排序器的线性组合。