CN107316031B

CN107316031B - 用于行人重识别的图像特征提取方法

Info

Publication number: CN107316031B
Application number: CN201710536020.4A
Authority: CN
Inventors: 王文敏; 张奕豪; 王荣刚; 李革; 董胜富; 王振宇; 李英; 高文
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2017-07-04
Filing date: 2017-07-04
Publication date: 2020-07-10
Anticipated expiration: 2037-07-04
Also published as: CN107316031A; WO2019007004A1; US20210150194A1; US11238274B2

Abstract

本发明公布了一种用于行人重识别的图像特征提取方法，通过对齐局部描述子提取和分级全局特征提取，进行行人重识别；对齐局部描述子提取采用仿射变换对原图像进行处理，对相邻区域的图像块特征进行求和池化操作而得到对齐局部描述子；对齐局部描述子保留图像内部块与块之间的空间信息；分级全局特征提取通过对定位的行人区域块进行分级，求取相应特征均值而得到全局特征。采用本发明技术方案，能够解决行人重识别中由于行人姿态变化等带来的特征不对齐问题，消除无关背景对重识别带来的影响，由此提高行人重识别的精度和鲁棒性。

Description

用于行人重识别的图像特征提取方法

技术领域

本发明涉及计算机视觉与图像处理技术，尤其涉及一种用于行人重识别的图像鲁棒性特征的提取方法。

背景技术

近年来，随着人们对社会公共安全的要求日渐提升，视频监控***大量普及，如何利用计算机视觉分析技术，自动化监控及分析视频信息，成为关注的热点。行人重识别是计算机视觉研究中关键的任务。一般来说，给定关于行人的一张图片或者一段视频，行人重识别就是在其它不重合拍摄场景下的图片或者视频中，将同一个人识别出来的过程。尽管相关的研究越来越受到重视，行人重识别的准确率也已经提高了不少，但仍有许多困难需要解决，比如姿态的变化、光照和无关背景的影响等等。

现有传统的行人重识别框架主要由特征提取和度量学习两部分构成。不过，目前大多数方法在提取图像特征的过程中，都忽略了无关背景信息的影响，使得提取好的图像特征带有较多的噪声；其次，为了解决由于拍摄角度不一以及行人姿态的变化问题，大多数方法采取了非精确匹配的策略，使用特定的方式将不同图像块之间的特征进行融合，效果颇为显著，但同时也损失了一部分图像内部的空间信息，使得在分辨一些具有相对位置差异的图像上，能力大大降低。

发明内容

为了克服上述现有技术的不足，本发明提供一种用于行人重识别的图像特征的提取方法，基于图像颜色和纹理特征，在精确匹配的策略下提出新的对齐局部描述子，并设计分级全局特征与之互补，解决由于行人姿态变化等带来的特征不对齐等问题，提高行人重识别的精确度。

本发明的原理是：提出了应用于行人重识别的对齐局部描述子和分级全局特征提取算法。本发明针对现有特征提取方法中非精确匹配策略带来的缺陷，提出基于精确匹配策略下的对齐局部描述子，以及为了消除无关背景的影响，提出了分级全局特征，通过对齐局部描述子与分级全局特征提取，提高行人重识别的性能。对齐局部描述子保留了图像内部块与块之间的空间信息，同时为了解决图像之间的不对齐问题，采用了仿射变换对原图像进行处理，得到包括原图在内的水平翻转和切变的四张图像，通过叠加，仅对相邻区域的图像块特征进行求和池化操作，得到对齐局部描述子。为了丰富图像特征的表达以及消除背景信息的影响，对原图像中行人的整体轮廓区域及其头部、上半身和下半身分别计算全局特征，最后整合成分级全局特征。实验证明，对齐局部描述子和分级全局特征有助于解决姿态变化问题和弱化背景的影响，保留的图像内部空间信息也有助于行人匹配精度的提高。

对齐局部描述子是基于精确匹配策略所提出来的一种特征，即对于图像内部的块，提取其相应的颜色和纹理特征，保留该图像块的位置信息，不与图像内其它块的特征融合。为了解决行人姿态变化带来两张图像之间的不对齐问题，采用了仿射变换方法对原始图像进行了处理，如水平翻转和水平切变，得到关于同一张图像的四种不同角度的图像扩充。紧接着，在空间上将四张图像叠加在一起，以图像块的特征为基础，对相同图像区域的图像块特征进行求和池化操作，作为该图像块最终的描述子。分级全局特征是基于与局部特征互补的作用而提出来的。传统的全局特征是对整幅图像统计相应的颜色和纹理信息，提取的全局特征往往包含大量的背景信息，而且空间信息紊乱，对于结构差异大但统计信息一致的图像，极易造成误差。分级全局特征不仅考虑到背景的影响，还把属于行人的区域的图像块按照头部、上半身和下半身的人体结构进行分组，并对涵盖重要信息的上半身进一步分组，总共三级划分，增强了全局特征的辨识力。

本发明提供的技术方案是：

一种图像特征提取方法，通过对齐局部描述子提取和分级全局特征提取，进行行人重识别；所述对齐局部描述子提取采用仿射变换对原图像进行处理，仅对相邻区域的图像块特征进行求和池化操作而得到对齐局部描述子；所述对齐局部描述子保留图像内部块与块之间的空间信息；所述分级全局特征提取对定位的行人区域块进行分级，通过求取相应特征均值得到全局特征；包括如下步骤：

1)对图像进行了预处理，以消除光照对图像的影响；

为了消除光照对图像的影响，本发明采用了多尺度Retinex算法对图像进行了预处理；在去除背景信息时，借助了通过元胞自动机进行显著性检测的前景提取方法；关于图像块的表达，颜色信息使用了nRGB、Lab和HSV三种颜色空间直方图，纹理信息使用了尺度不变局部三值模式(SILTP)统计直方图。

2)提取对齐局部描述子，主要包括以下步骤：

21)对图像进行仿射变换，得到多张图像(包括原图及变换后的图像)；

22)分别对上一步得到的每张图像进行图像块分割，提取特征，生成相应的特征图；

23)在空间上叠加所有特征图，对相邻位置的图像块特征进行求和池化操作，得到相应局部描述子；

24)根据局部描述子在图像中所在的位置，将它们按从左上到右下的顺序连接起来，得到对齐局部描述子；

3)提取分级全局特征，主要分为以下步骤：

31)使用前景提取方法对图像进行显著性检测，得到相应的显著图；

32)将上一步得到的显著图进行对比增强；

33)定位属于行人区域的图像块；

34)针对人体的特殊结构，将属于行人的图像块按照三个不同层级进行归类；

35)对每一级图像块进行平均池化操化，得到该级特征；

36)对三级特征首尾连接起来，得到分级全局特征；

4)根据步骤2)提取得到的对齐局部描述子和步骤3)提取得到的分级全局特征，使用现有的XQDA(Cross-view Quadratic Discriminant Analysis，交叉视觉二次判别分析)方法作为度量学习方法，计算图像的相似性，由此进行行人重识别。

与现有技术相比，本发明的有益效果是：

本发明提供一种行人重识别方法，通过对齐局部描述子的提取，保留了图像局部块之间的空间信息，并解决由于行人姿态变化等带来的特征不对齐问题；通过分级全局特征提取，消除无关背景带来的影响；通过结合提取的对齐局部描述子和分级全局特征，提高行人重识别的精度和鲁棒性。具体地，本发明具有以下优点：

(一)本发明方法保留不相关图像块的相对位置信息。现有行人重识别方法在特征提取过程中经常忽略，而本发明通过增加不相关图像块的相对位置信息，可让后续匹配的准确率更高；

(二)本发明方法使用仿射变换对输入图片进行处理，可以一定程度上解决由于行人姿态变化或拍摄角度不一带来的特征不对齐问题；

(三)本发明方法使用多个层级的行人区域图像块提取全局特征，可以提高全局特征的鲁棒性。

附图说明

图1是对齐局部描述子提取过程示意图；

其中，(a)为对原图像进行仿射变换(水平剪切和水平翻转)，分别得到四张变换后的图像；(b)为分别对每一张图像进行图像块的特征提取过程；(c)为将四张特征图在空间上叠加在一起；(d)为对相邻图像块的特征进行求和池化操作，得到多个局部描述子；(e)为将每个局描部描述子向量相连，得到最终的对齐局部描述子。

图2是分级全局特征提取过程示意图。

其中，(a)为通过显著性检测得到的显著图；(b)为对显著图进行对比度增强；(c)为对属于行人区域图像块进行定位；(d)为对所有属于行人的图像块特征进行第一级全局特征提取；(e)为对所有属于行人的图像块分成头部、上半身和下半身三个部分，提取第二级全局特征；(f)为对所有属于行人上半身的图像块分成三个部分，提取第三级全局特征。

图3是本发明实施例在VIPeR数据集上与使用LOMO特征匹配效果对比。

图4是本发明实施例在VIPeR数据集上的CMC结果。

图5是本发明实施例在QMUL GRID数据集上与使用LOMO特征匹配效果对比。

图6是本发明实施例在QMUL GRID数据集上的CMC结果。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明针对现有图像特征提取方法中非精确匹配策略带来的缺陷，提出基于精确匹配策略下的对齐局部描述子和分级全局特征。对齐局部描述子保留了图像内部块与块之间的空间信息，同时为了解决图像之间的不对齐问题，采用了仿射变换对原图像进行处理，得到包括原图在内的水平翻转和切变的四张图像，通过叠加，对相同区域的图像块特征进行求和池化操作，得到对齐局部描述子。为了丰富图像特征的表达，对原图像中行人的整体轮廓区域及其头部、上半身和下半身分别计算全局特征，最后整合成分级全局特征。实验证明，对齐局部描述子和分级全局特征有助于解决姿态变化问题，保留的图像内部空间信息有助于行人匹配精度的提高。

图1示意了对齐局部描述子的提取流程，首先是仿射变换，然后是图像块的特征提取，接着对相邻图像块的特征向量进行求和池化操作，最后把不同的局部描述子连接到一起作为图片的对齐局部描述子。具体实施中，提取对齐局部描述子的过程具体包括如下步骤：把图片统一缩放到128*48大小，并使用文献[1](D.J.Jobson,Z.-U.Rahman,andG.A.Woodell.A multiscale retinex for bridging the gap between color imagesand the human observation of scenes.Image Processing,IEEE Transactions on,6(7):965–976,1997)记载的多尺度Retinex算法消除光照影响，得到预处理后的图片I，其中尺度参数分别为σ＝5和σ＝20。仿射变换。对预处理后的图片I进行水平翻转，得到图片II，分别对图片I和II进行水平剪切变换，产生相应图片III和IV，水平剪切变换具体如式1所示：

其中，λ为剪切变换参数，方法中使用λ＝0.2。

分别对上一步得到的四张图片(I、II、III和IV)求图像块的特征。具体采用滑动窗口方法，对窗口内的图像块提取8*8*8维的nRGB和HSV颜色直方图、32维的Lab颜色直方图以及两个阈值为0.3的尺度不变局部三值模式(SILTP)统计直方图，两个SILTP的比较半径R分别为3和5个像素，其中滑动窗口大小为8*8，步长为4*4，每张图像在同一水平方向上通过滑动窗口可以得到N个图像块，在同一垂直方向上得到M个图像块，提取相应的特征后得到一张特征图，其中有M*N个点，每个点对应一个图像块的特征向量，记作

上述滑动窗口方法中，nRGB是将原来的RGB三通道彩色图片中的每一通道的像素值(原来是0-255)变到指定的0-8的范围，8*8*8是将每一通道都缩放到0-8之间，再进一步求相应颜色直方图。比较半径R是指目标元素点与离自己R个像素远的像素比较大小。

在空间上叠加四个特征向量图，对相邻位置的图像块特征进行求和池化操作，得到相应局部描述子，如式2所示：

其中：

其中，

代表了第i张特征图中第m行第n列的图像块特征向量，将相邻的16个图像块特征向量相加，得到的

表示一个局部描述子，其中p和q为正整数，分别表示为局部描述子所在的位置；最后，根据所有局部描述子在特征图的位置，按从左上到右下的顺序首尾连接成一个特征向量，作为整幅图片的对齐局部描述子。

图2示意了分级全局特征的提取流程，首先对图片进行显著性检测，然后对相同水平方向上的元素值进行对比度增强，接着对图片进行二值化处理，通过滑动窗口的方法定位行人区域块，对行人区域块进行分级求取相应特征均值。提取分级全局特征的过程具体包括如下步骤：

1.把图片统一缩放到128*48大小，并使用文献[1](D.J.Jobson,Z.-U.Rahman,andG.A.Woodell.A multiscale retinex for bridging the gap between color imagesand the human observation of scenes.Image Processing,IEEE Transactions on,6(7):965–976,1997)所述的多尺度Retinex算法消除光照影响，其中尺度参数分别为σ＝5和σ＝20。

2.使用文献[2](Y.Qin,H.Lu,Y.Xu,and H.Wang,"Saliency detection viacellular automata,"in Computer Vision and Pattern Recognition(CVPR),2015,pp.110-119)记载的方法对预处理后的图片进行前景提取,得到相应的显著图。

3.采用式3对提取得到的显著图作对比增强：

其中，分子p_r,i为第r行第i列的元素值，分母为该行元素的极差。得到该行每列元素的p′_r,i值后，统一对该行元素进行更新。

4.使用文献[3](N.Otsu,"Threshold selection method from gray-levelhistograms,ieee transactions on systems man and cybernetics,"Systems Man&Cybernetics IEEE Transactions on,vol.9,no.1,pp.62-66,1979)中记载的OTSU算法自适应选取阈值，对上一步得到的结果进行二值化处理，得到相应的二值图。

5.采用滑动窗口的方法对二值图进行扫描，其中窗口大小为10*10，步长为5*5，对窗口内的元素值求和，其中把大于设定阈值(如50)的窗口定义为行人区域，其它则为无关区域。

6.按照提取对齐局部描述子图像块特征的方法，对行人区域的图像块提取颜色和纹理特征。

7.可将得到的行人区域的图像块划分为3个层级。第一级为人的整体(即全部图像块)，第二级是按人体的头、上身、下身分，第三级是按人体上身的重要性来细分三块。

本实施例中，层级1为所有行人区域图像块；层级2按照图像块所在垂直方向上的位置分为头部区、上半身和下关身区域，其中行数小于等于15为头部区，行数大于等于60为下半身区、中间为上半身区；层级3按照上半身图像块的垂直位置再细分为3个区，分界条件为：图像块所属位置在15到30行之间为一区、在30到45行之间为一区、在45到60行为一区。对不同层级里的图像块特征向分别作平均池化操作，分别得到7个特征向量，然后连接在一起，作为最终的分级全局特征。

8.最后，通过采取XQDA作为度量学习方法，通过式4计算两张图像之间的相似性，值越小即说明特征之间距离越小，对应的两张图片越相似：

其中，d(x,z)是指两张图像(x和z)之间的距离，越小则表明越相似；d_W(f₁,f₂)是XQDA距离函数，

分别为图像x的对齐局部描述子和分级全局特征，其中β表示全局特征的权重，在这里β＝1.3。

本发明具体实施中，将本发明方法与现有其他方法进行对比分析，以验证本发明方法的有效性。表1和表2中，LOMO(Local Maximum Occurrence，局部直方图最大频数特征)在文献(S.Liao,Y.Hu,X.Zhu,and S.Z.Li,Person re-identi_cation by local maximaloccurrence representation and metric learning,"in Computer Vision and PatternRecognition(CVPR),2015,pp.2197-2206.)中记载。SCNCD(Salient Color Names basedColor Descriptor，基于颜色描述子的显著颜色名)在文献(Y.Yang,Salient color namesfor person re-identification,"in European Conference on Computer Vision(ECCV),2014,pp.536-551.)中记载。kBiCov(Covariance descriptor based on bio-inspired features,基于生物启发特征的协方差描述子)在文献(B.Ma,Y.Su,andF.Jurie,Covariance descriptor based on bio-inspired features for person re-identification and face verification,"Image&Vision Computing,vol.32,no.6-7,pp.379-390,2014.)中记载。LDFV(Local descriptors encoded by fisher vectors,使用Fisher向量编码的局部描述子)在文献(B.Ma,Y.Su,and F.Jurie,Local descriptorsencoded by fisher vectors for personre-identification,"in European Conferenceon Computer Vision(ECCV),2012,pp.413-422.)中记载。SCSP(Spatially ConstrainedSimilarity function on Polynomial feature map，基于多项式特征图的部分约束相似函数)在文献(D.Chen,Z.Yuan,B.Chen,and N.Zheng,Similarity learning with spatialconstraints for person re-identification,"in Computer Vision and PatternRecognition(CVPR),2016,pp.1268-1277.)中记载。DR-KISS(dual-regularized kiss，双正则化KISS算法)在文献(D.Tao,Y.Guo,M.Song,and Y.Li,Person re-identification bydual-regularized kiss metric learning,"IEEE Transactions on Image Processing,vol.25,no.6,pp.2726-2738,2016.)中记载。SSDAL(semi-supervised deep attributelearning，半监督深度属性学习)在文献(C.Su,S.Zhang,J.Xing,W.Gao,and Q.Tian,Deepattributes driven multi-camera personre-identification,"in EuropeanConference on Computer Vision(ECCV),2016,pp.475-491.)中记载。NLML(Nonlinearlocal metric learning，非线性局部度量学习)在文献(S.Huang,J.Lu,J.Zhou,andA.K.Jain,Nonlinear local metric learning for person re-identification,"arXivpreprint arXiv:1511.05169v1,2015.)中记载。

图3和图5分别对比了使用本发明所提出的方法和使用LOMO特征在VIPeR和QMULGRID数据集上的表现，可以看出，我们的方法都取得了较好的效果。图4和图6对本发明所提出的方法进行了不同情况下的对比实验,分别为使用了结合对齐局部描述子和分级全局特征的完整方法、只使用了对齐局部描述子作为特征、只使用了分级全局特征作为特征和使用了不做仿射变换的对齐局部描述子和分级全局特征结合的方法，结果展示了局部描述子和全局特征在不同数据集上的不同表现，并且结合的效果达到最优，说明本专利所提出方法的有效性。

表1本发明方法和现有方法在VIPeR数据上的CMC结果

方法	Rank＝1	Rank＝10	Rank＝20	参考来源
					本发明方法	46.2	85.3	94.4	/
LOMO	40.0	80.5	91.1	CPPR 2015
					SCNCD	37.8	81.2	90.4	ECCV 2014
kBiCov	31.1	70.7	82.5	IVC 2014
					LDFV	26.5	70.9	84.6	ECCVW 2012

表2本发明方法和现有方法在QMUL GRID数据上的CMC结果

方法	Rank＝1	Rank＝5	Rank＝10	Rank＝20	参考来源
						本发明方法	25.6	47.0	56.6	66.3	/
SCSP	24.2	44.6	54.1	65.2	CVPR 2016
						DR-KISS	20.6	39.3	51.4	62.6	TIP 2016
SSDAL	22.4	39.2	48.0	58.4	ECCV 2016
						NLML	24.5	35.9	43.5	55.3	arXiv 2015
LOMO	16.6	33.8	41.8	52.4	CVPR 2015

表1列出了其它一些方法在VIPeR数据上的CMC(Cumulative MatchCharacteristic，累计匹配特性)结果，与之对比，使用本发明方法识别性能有较好的提升。表2列出了其它一些方法在QMUL GRID数据上的CMC结果，与之对比，本发明方法的准确率最高，说明了本发明方法的有效性。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种用于行人重识别的图像特征提取方法，通过对齐局部描述子提取和分级全局特征提取，进行行人重识别；所述对齐局部描述子提取采用仿射变换对原图像进行处理，对相邻区域的图像块特征进行求和池化操作而得到对齐局部描述子；所述对齐局部描述子保留图像内部块与块之间的空间信息；所述分级全局特征提取通过对定位的行人区域块进行分级，求取相应特征均值而得到全局特征；包括如下步骤：

1)对图像进行了预处理，以消除光照对图像的影响；

2)提取对齐局部描述子，包括步骤21)～24)：

21)对图像进行仿射变换，得到多张图像；

22)对仿射变换后产生的所有图像进行图像块分割并提取特征，生成相应的特征向量图；

23)在空间上叠加所有特征向量图，对相邻位置的图像块特征进行求和池化操作，得到相应局部描述子；

24)将图像中的所有局部描述子按顺序连接起来，得到对齐局部描述子；

3)提取分级全局特征，包括步骤31)～36)：

32)将得到的显著图进行对比增强；

33)定位属于行人区域的图像块；

34)对行人区域的图像块分层级，得到多级行人区域图像块；

35)对每一级的行人区域图像块进行平均池化操化，得到该级特征；

36)对多级特征连接起来，得到分级全局特征；

4)根据步骤2)提取得到的对齐局部描述子和步骤3)提取得到的分级全局特征，采用度量学习方法计算图像的相似性，由此进行行人重识别。

2.如权利要求1所述图像特征提取方法，其特征是，步骤1)采用文献[1](D.J.Jobson,Z.-U.Rahman,and G.A.Woodell.A multiscale retinex for bridging the gap betweencolor images and the human observation of scenes.Image Processing,IEEETransactions on,6(7):965–976,1997)记载的多尺度Retinex算法对图像进行预处理。

3.如权利要求1所述图像特征提取方法，其特征是，步骤21)对图像进行仿射变换，具体是：对预处理后的图片I进行水平翻转，得到图片II；分别对图片I和II进行水平剪切变换，产生相应图片III和IV；所述水平剪切变换如式1所示：

其中，λ为剪切变换参数。

4.如权利要求1所述图像特征提取方法，其特征是，步骤22)采用滑动窗口方法求图像块的特征，具体对窗口内的图像块提取RGB颜色直方图、HSV颜色直方图、Lab颜色直方图、尺度不变局部三值模式SILTP统计直方图，得到多个特征向量图，每个特征图中有M*N个点，每个点对应一个图像块的特征向量，记作

5.如权利要求1所述图像特征提取方法，其特征是，步骤23)具体通过式2在空间上叠加四个特征向量图，对相邻位置的图像块特征进行求和池化操作，得到相应局部描述子：

其中：m＝2×(p-1)+1,n＝2×(q-1)+1,

其中，

代表第i张特征图中第m行第n列的图像块特征向量；将相邻的图像块特征向量相加，得到的

表示一个局部描述子，其中p和q为正整数，分别表示局部描述子所在的位置。

6.如权利要求1所述图像特征提取方法，其特征是，步骤31)具体采用文献[2](Y.Qin,H.Lu,Y.Xu,and H.Wang,"Saliency detection via cellular automata,"in ComputerVision and Pattern Recognition(CVPR),2015,pp.110-119)记载的方法对预处理后的图片进行前景提取,得到相应的显著图。

7.如权利要求1所述图像特征提取方法，其特征是，步骤32)具体采用式3对提取得到的显著图作对比增强：

其中，分子p_r,i为第r行第i列的元素值，分母为该行元素的极差；得到该行每列元素的p′_r,i值后，统一对该行元素进行更新。

8.如权利要求1所述图像特征提取方法，其特征是，步骤33)定位属于行人区域的图像块，首先采用文献[3](N.Otsu,"Threshold selection method from gray-levelhistograms,ieee transactions on systems man and cybernetics,"Systems Man&Cybernetics IEEE Transactions on,vol.9,no.1,pp.62-66,1979)中记载的OTSU算法自适应选取阈值，对经对比增强得到的结果图像进行二值化处理，得到相应的二值图；再采用滑动窗口方法对二值图进行扫描，对窗口内的元素值求和；通过设定阈值，将大于设定阈值的窗口定义为行人区域，其它为无关区域。

9.如权利要求1所述图像特征提取方法，其特征是，步骤34)具体将行人区域的图像块分为三个层级，得到三个层级的行人区域图像块；层级一为所有行人区域图像块；层级二按照图像块所在垂直方向上的位置分为头部区、上半身和下关身区域；层级三按照上半身图像块的垂直位置再细分为三个区。

10.如权利要求1所述图像特征提取方法，其特征是，步骤4)采用XQDA作为度量学习方法计算图像的相似性，具体通过式4计算两张图像之间的相似性：

其中，d(x,z)是两张图像(x和z)之间的距离，越小则表明越相似；d_W(f₁,f₂)是XQDA距离函数；

分别为图像x的对齐局部描述子和分级全局特征；β表示全局特征的权重。