CN109145744A

CN109145744A - 一种基于自适应预测模式的lstm网络行人重识别方法

Info

Publication number: CN109145744A
Application number: CN201810798128.5A
Authority: CN
Inventors: 赵凡; 姚怡; 姬亚男; 李维
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2018-07-19
Filing date: 2018-07-19
Publication date: 2019-01-04
Anticipated expiration: 2038-07-19
Also published as: CN109145744B

Abstract

本发明公开了一种基于自适应预测模式的LSTM网络行人重识别方法，该方法主要由特征提取和距离度量学习两个部分组成。特征提取部分包括：首先对连续视频序列中的每一帧进行LBP&颜色特征提取；然后将连续视频序列所提的LBP&颜色特征作为输入送入前向和后向LSTM网络，得到前向LSTM和后向LSTM输出特征；再通过APM‑Net网络来对所得到前向和后向LSTM特征进行自适应选择得到视频帧特征。距离度量以两组行人视频序列特征作为输入，通过XQDA距离度量学习来判断对应的行人是否为同一行人。本发明提出的行人重识别方法解决了现有的行人重识别方法中对遮挡情况识别精度不高的问题。

Description

一种基于自适应预测模式的LSTM网络行人重识别方法

技术领域

本发明属于图像识别技术领域，涉及一种基于自适应预测模式的LSTM网络行人重识别方法。

背景技术

随着摄像头安装数量、智慧城市和公共安全需求的日益增长，传统的摄像头监控***仅能做到对单个摄像头中的运动目标进行自动化检测和跟踪。因此研究和实现一个基于多摄像头的运动目标跨区域跟踪***就变的非常迫切。行人重识别技术作为“跨摄像头追踪***”中的关键技术之一，主要是指在非重叠视角域多摄像头网络下进行的行人图像匹配，即确定不同位置的摄像头在不同时刻拍摄到的行人是否为同一人。

行人重识别技术目前存在的难点有：①由于视频光照、角度、尺度等变化导致行人的外貌特征发生变化；②由于摄像机视角和行人姿态的变化导致行人外貌特征存在遮挡；③不同摄像头或不同行人的外貌特征可能比同一个人的外貌特征更相似。

[1]Yichao Yan，Bingbing Ni，Zhichao Song，Chao Ma，Yan Yan，and XiaokangYang.Person Re-identification via Recurrent Feature Aggregation[M].Workshopon Statistical Learning in Computer Vision(ECCV)，2016：701-716.

[2]Liao S，Hu Y，Zhu X，et al.Person re-identification by Local MaximalOccurrence representation and metric learning[C].Computer Vision andPatternRecognition(CVPR).IEEE，2015：2197-2206.

发明内容

本发明的目的是提供一种基于自适应预测模式的LSTM网络行人重识别方法，解决了现有的LSTM网络由于遮挡因素导致的行人重识别性能偏低的问题。

本发明所采用的技术方案是，一种基于自适应预测模式的LSTM网络行人重识别方法，具体包括如下步骤：

步骤1，获取行人重识别数据集，该行人重识别数据集包括两个摄像头所拍摄的N个不同行人的2×N个视频序列，从2×N个视频序列中随机抽取J个不同行人的2×J个视频序列作为训练样本集Vtrain，其中表示c摄像机下ID号为j的行人视频训练样本，表示c摄像机下ID号为j的行人视频训练样本的第k帧图像，表示行人视频训练样本的视频总帧数；

步骤2，对步骤1所得的训练样本集Vtrain中的所有视频帧图像提取局部二值模式和颜色融合特征得到训练特征集FLBPC；

步骤3，制作标签文件，设置LSTM网络参数，把标签文件、训练特征集FLBPC中特征的正向排列作为前向LSTM网络FLSTM的输入，得到FLSTM网络模型M_FLSTM；把标签文件、训练特征集FLBPC中特征的反向排列作为后向LSTM网络BLSTM的输入，得到BLSTM网络模型M_BLSTM；

步骤4，制作自适应预测模式选择网络APM-Net的训练样本集APM_Vtrain，通过M_FLSTM对APM_Vtrain提取FLSTM特征，得到FLSTM特征集ATr_Fflstm；通过M_BLST对APM_Vtrain提取BLSTM特征，得到特征集ATr_Fblstm；

步骤5，设计自适应预测模式选择网络APM-Net，通过APM-Net网络对训练样本集APM_Vtrain中的三类样本进行预测，三类样本分别为前向样本、后向样本及双向样本；

步骤6，制作标签文件，把标签文件、前向LSTM特征集ATr_Fflstm和后向LSTM特征集ATr_Fblstm作为APM-Net网络的输入，训练自适应预测模式选择网络APM-Net，得到网络模型M_APM。

步骤7，把步骤1数据集中除去训练样本集Vtrain之外的的剩余数据作为测试样本集Vtest，其中

步骤8，对Vtest提取APM特征，得到APM特征集AFV；

步骤9，对测试数据集Vtest提取的APM特征集AFV进行均值化预处理，得到特征均值集av_AFV；

步骤10，将摄像机1中的行人特征均值作为目标行人特征集Obj，摄像机2中的行人特征均值作为待识别行人特征集Gal，其中Obj＝{Obj_train，Obj_test}，Gal＝{Gal_train，Gal_test}，表示摄像机1中的ID号为s的行人视频的特征均值，表示摄像机2中的ID号为v的行人视频的特征均值，把Obj_train和Gal_train作为XQDA的训练特征集，训练得到映射矩阵W和度量核矩阵M，把Obj_test和Gal_test作为XQDA的测试特征集，用得到的W和M进行行人重识别性能测试。

本发明的特点还在于，

步骤2中特征的提取过程如下：

步骤2.1，对输入的行人图像进行大小归一化处理，得到归一化后的图像Img_w×h；

步骤2.2，将图像Img_w×h划分为M＝m₁×m₂个图像块Blk_m，其中1≤m≤M；

步骤2.3，对每个图像块Blk_m提取LBP和颜色融合特征FBlk_m；

步骤2.4，将图像Img_w×h中M个图像块所提取的LBP和颜色融合特征FBlk_m进行串联融合，就可得到图像Img_w×h对应的LBP和颜色融合特征

步骤2.3的具体如下：

步骤2.3.1，将图像块Blk_m转换为灰度图像块GBlk_m，对GBlk_m提取LBP特征LBlk_m；

步骤2.3.2，将图像块Blk_m转换到HSV颜色空间，得到转换之后的图像HBlk_m，计算图像HBlk_m在H、S、V各个通道上的均值，组成三维HSV颜色特征CHBlk_m；将图像块Blk_m转换到LAB颜色空间，得到转换之后的图像LABBlk_m，计算图像LABBlk_m在L、A、B各个通道上的均值，组成三维LAB颜色特征CLBlk_m；

步骤2.3.3，将步骤2.3.1中图像块Blk_m所提取的LBP特征LBlk_m、步骤C2中图像块Blk_m所提取得HSV颜色特征CHBlk_m以及Lab颜色特征LABBlk_m进行串联融合，从而得到图像块Blk_m所对应的LBP和颜色融合特征FBIk_m。

步骤3的具体过程如下：

步骤3.1，准备样本标签文件，将训练特征集FLBPC中c摄像机下ID号为j的行人所对应的视频特征集看作一个样本，把行人ID号j作为样本的标签llab，其具体格式为其中为特征路径FLBPCPath/下的训练特征文件名以上述格式将各个样本的标记结果写入训练标签文件lstm_train.txt中；

步骤3.2，设置网络训练参数，并写入配置文件solver.prototxt；

步骤3.3，训练FLSTM网络模型M_FLSTM，该网络FLSTM特征输出的维数为512维，该网络的输入数据为从lstm_train.txt训练文件中随机抽取的样本中正向排列的连续n帧的视频特征其中输入标签为从lstm_train.txt训练文件中随机抽取的样本所对应的标签{llab¹，llab²，…，llabⁿ}，其中llab¹＝llab²＝…＝llabⁿ＝llab。将输入数据和输入标签同时送入FLSTM网络中，通过步骤3.2中的配置文件参数来进行训练，就可得到FLSTM网络训练模型M_FLSTM；

步骤3.4，训练BLSTM网络模型M_BLSTM，该网络BLSTM特征输出的维数为512维，该网络的输入数据为从lstm_train.txt训练文件中随机抽取的样本中反向排列的连续n帧的视频特征其中输入标签为从lstm_train.txt训练文件中随机抽取的样本所对应的标签{llab¹，llab²，…，llabⁿ}，其中llab¹＝llab²＝…＝llabⁿ＝llab。将输入数据和输入标签同时送入BLSTM网络中，通过步骤3.2中的配置文件参数来进行训练，从而得到BLSTM网络训练模型M_BLSTM。

步骤4的具体过程如下：

步骤4.1，制APM-Net的训练样本集APM_Vtrain，其中APM_Vtrain＝{APM_Vtrain_p|1≤p≤A_TN}，APM_Vtrain_p表示第p个训练样本，它是从中随机抽取的样本，APM_Vtrain_p样本的长度为固定的2n-1帧的连续行人视频序列，即有其中

步骤4.2，提取训练样本集APM_Vtrain对应的LBP和颜色融合特征集APM_FLBPC＝{APM_FLBPC_p|1≤p≤A_TN}；

步骤4.3，把APM_FLBPC中每一个样本APM_Vtrain_p对应的特征集APM_FLBPC_p中的第(i-n+1)～i帧特征作为前向LSTM网络模型M_FLS的输入，通过M_FLS得到前向LSTM特征集ATr_Fflstm＝{ATr_Fflstm_p|1≤p≤A_TN}；把APM_FLBPC中的每一个样本APM_Vtrain_p对应的特征集APM_FLBPC_p中的第(i+n-1)～i帧特征作为后向LSTM网络模型M_BLSTM的输入，通过M_BLSTM得到后向LSTM特征集ATr_Fblstm＝{ATr_Fblstm_p|1≤p≤A_TN}。

步骤5中的网络APM-Net结构包括输入层、Reshape层、第一个全连接+drop层、第二全连接层和softmax层；

输入层：输入层的输入为样本APM_Vtrain_p对应的前向LSTM特征ATr_Fflstm_p和后向LSTM特征ATr_Fblstm_p。

Reshape层：Reshape层的输入为ATr_Fflstm_p和ATr_Fblstm_p，输出为特征维数为10240(10240＝1024*n)的数据fea^f_b，该层的作用为对输入的前向LSTM特征和后向LSTM特征进行串联操作；

第一全连接加drop层：第一个全连接+drop层：全连接层的输入为fea^f_b，作用是将10240维数据fea^f_b降成800维数据inner1；drop层的输入是inner1，操作是对inner1数据按一定的概率随机置0，作用是在一定程度上防止过拟合现象，输出数据为800维数据drop1；

第二全连接层：输入是drop1，输出为3维数据inner2＝(x₀，x₁，x₂)′，分别对应三种预测模式；

softmax层：对网络进行训练时需要通过softmax层的loss值对网络进行反馈修订，具体操作为：计算inner2中的最大值x_max＝max(x₀，x₁，x₂)；根据x_max值对inner2中的数据进行归一化处理得到y_kk，

其中kk＝0，1，2；根据样本标签Alable对应的y_Alable计算loss值，loss＝-log(y_Alable)。

步骤6的具体过程为：

步骤6.1，制作样本标签文件，以步骤4.1设定的样本Alable值来对训练样本集ApM_Vtrain中的数据进行标记，并将标记结果存入训练标签文件APM_train.txt中；以第p个样本对应的连续2n-1帧视频APM_Vtrain_p为例，标签格式为APM_VtrainPath/APM_Vtrain_p.avi Alable，APM_VtrainPath/APM_Vtrain_p.avi为APM_Vtrain中各样本对应的视频路径APM_VtrainPath/下的视频文件名APM_Vtrain_p.avi；

步骤6.2，训练自适应预测模式选择网络APM-Net，以自适应预测模式选择网络APM-Net的训练样本集APM_Vtrain所对应的前向LSTM特征集ATr_Fflstm和后向LSTM特征集ATr_Fblstm作为训练APM-Net网络的输入，进行APM-Net网络训练，得到自适应预测模式选择网络模型M_APM。

步骤8中APM特征的提取过程如下：

步骤8.1，对测试样本集Vtest中的所有视频帧图像提取LBP和颜色融合特征得到测试特征集Te_FLBPC，其中表示c摄像机下ID号为j的行人特征集，表示摄像机c下ID号为j的行人的第k帧图像所提取的LBP和颜色融合特征；

步骤8.2，对行人测试样本集Vtest提取APM特征集其中表示摄像机c下ID号为j的行人视频所对应的APM特征；

步骤8.2的特征集提取过程如下：

步骤8.2.1，对摄像机c下ID号为j的行人视频提取APM特征以测试特征集Te_FLBPC的特征作为提取APM特征的输入，按滑动窗对视频提取APM特征其中表示摄像机c下ID号为j的行人的第t帧图像所提取的APM特征，滑动窗的大小为2n-1帧，步长为1，n＝10；

步骤8.2.2，获取单帧图像的APM特征

步骤10的具体过程如下：

步骤10.1，把Obj_train和Gal_train作为交叉视角二次判别分析(Cross-viewQuadratic Discriminant Analysis，XQDA)的训练特征集，训练得到映射矩阵W和度量核矩阵M；

步骤10.2，距离计算；

把步骤10.1中训练得到的度量核矩阵M，测试特征集Gal_test和W的乘积Gal_test×W，Obj_test和W的乘积Obj_test×W作为输入送入距离度量函数MahDistM(M，Gal_test×W，Obj_test×W)中，输出得到一个R/2×R/2的二维距离矩阵其中d_ij表示摄像机1中的ID号为i的行人视频的特征均值与摄像机2中的ID号为j的行人视频的特征均值之间的距离；

步骤10.3，对矩阵D按行进行升序排列得到矩阵D′，D′中第i行中的第一列元素d′_i0在D中的对应元素记为d_ij，d_ij的下标i和j为识别到的两个摄像机下的同一个行人。

本发明的有益效果是，本发明提出的一种基于自适应预测模式的LSTM网络行人重识别方法，根据所提出的APM-Net网络对半进入遮挡物和走出遮挡物时的LSTM特征进行选择，从而提高了行人在遮挡情况下的识别性能。

附图说明

图1是本发明的一种基于自适应预测模式的LSTM网络行人重识别方法的流程示意图；

图2是本发明一种基于自适应预测模式的LSTM网络行人重识别方法中特征的提取过程示意图；

图3是本发明一种基于自适应预测模式的LSTM网络行人重识别方法中前向FLSTM网络结构图；

图4是本发明一种基于自适应预测模式的LSTM网络行人重识别方法中后向FLSTM网络结构图；

图5是本发明一种基于自适应预测模式的LSTM网络行人重识别方法中自适应预测模式网络的结构图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于自适应预测模式的LSTM网络行人重识别方法，如图1所示，主要由行人重识别网络训练、行人特征提取和距离度量三个部分组成。

首先进行行人重识别网络训练过程，具体按照以下步骤实施：

训练部分主要包括FLSTM、BLSTM和APM-Net三个网络的训练，其具体实施步骤如下：

步骤1，通过网络下载，获取行人重识别数据集(如iLIDS-VID、PRID数据集等)。该行人重识别数据集包括两个摄像头所拍摄的N个不同行人的2×N个视频序列。从中随机抽取J个不同行人的2×J个视频序列作为训练样本集Vtrain，其中表示c摄像机下ID号为j的行人视频训练样本，且有表示c摄像机下ID号为j的行人视频训练样本的第k帧图像，表示行人视频训练样本的视频总帧数；在本实施方案中N＝300，J＝N/2＝150；

步骤2，对训练样本集Vtrain中的所有视频帧图像提取局部二值模式(Local binary patterns，LBP)和颜色融合特征则可以得到训练特征集FLBPC，其中表示c摄像机下ID号为j的行人特征集，且有

表示c摄像机下ID号为j的行人的第k帧图像所提取的LBP和颜色融合特征，且特征的维数为58950。特征的提取过程如图2所示，其具体步骤如下：

步骤2.1，对输入的行人图像进行大小归一化处理，得到归一化后的图像Img_w×h；在本实施方案中w＝64，h＝128；

步骤2.2，将图像Img_w×h划分为M＝m₁×m₂个图像块Blk_m，其中1≤m≤M，图像块的大小为16×8，相邻图像块在水平方向上相差4个像素在垂直方向相差8个像素。本实施方案中的m₁＝(w-8)/4+1＝15，m₂＝(h-16)/8+1＝15，M＝225。

步骤2.3，对每个图像块Blk_m提取LBP和颜色的融合特征FBlk_m，具体过程如下：

步骤2.3.1，将图像块Blk_m转换为灰度图像块GBlk_m，对GBlk_m提取LBP特征LBlk_m，特征LBlk_m的维数为256维；

步骤2.3.2，将图像块Blk_m转换到HSV颜色空间，得到转换之后的图像HBlk_m，计算图像HBlk_m在H、S、V各个通道上的均值，组成三维的HSV颜色特征CHBlk_m；将图像块Blk_m转换到LAB颜色空间，得到转换之后的图像LABBlk_m，计算图像LABBlk_m在L、A、B各个通道上的均值，组成三维的LAB颜色特征CLBlk_m；

步骤2.3.3，将步骤2.3.1中图像块Blk_m所提取的LBP特征LBlk_m和步骤2.3.2中图像块Blk_m所提取得HSV颜色特征CHBlk_m以及Lab颜色特征LABBlk_m进行串联融合，就可得到图像块Blk_m所对应的262(256+3+3)维的LBP和颜色融合特征FBlk_m；

步骤2.4，将图像Img_w×h中M个图像块所提取的LBP和颜色融合特征FBlk_m进行串联融合，得到图像Img_w×h对应的LBP和颜色融合特征其中FL的特征维数为58950(225×262)；

步骤3，制作标签文件，设置LSTM网络参数，然后把标签文件、训练特征集FLBPC中特征的正向排列作为前向LSTM网络FLSTM的输入，得到FLSTM网络模型M_FLSTM；把标签文件、训练特征集FLBPC中特征的反向排列作为后向LSTM网络BLSTM的输入，得到BLSTM网络模型M_BLSTM；步骤3的具体过程如下：

步骤3.1，准备样本标签文件，将训练特征集FLBPC中c摄像机下ID号为j的行人所对应的视频特征集看作一个样本，把行人ID号j作为样本的标签llab，其具体格式为其中为特征路径FLBPCPath/下的训练特征文件名以上述格式将各个样本的标记结果写入训练标签文件lstm_train.txt中。

步骤3.2，设置网络训练参数，并写入配置文件solver.prototxt，其中对网络训练影响较大的训练参数的具体设置如表1所示：

表1

步骤3.3，训练FLSTM网络模型M_FLSTM，其中FLSTM的网络结构如图3所示，该网络结构采用的是文献[1]中的LSTM网络结构，该网络FLSTM特征输出的维数为512维，该网络的输入数据为从lstm_train.txt训练文件中随机抽取的样本中正向排列的连续n帧的视频特征其中输入标签为从lstm_train.txt训练文件中随机抽取的样本所对应的标签{llab¹，llab²，…，llabⁿ}，其中llab¹＝llab²＝…＝llabⁿ＝llab。将输入数据和输入标签同时送入图3所示的FLSTM网络中通过步骤3.2中的配置文件参数来进行训练，就可得到FLSTM网络训练模型M_FLSTM；在本实施方案中n＝10。

步骤3.4，训练BLSTM网络模型M_BLSTM，其中BLSTM的网络结构如图4所示，该网络结构采用的是文献[1]中的LSTM网络结构，该网络BLSTM特征输出的维数为512维，该网络的输入数据为从lstm_train.txt训练文件中随机抽取的样本中反向排列的连续n帧的视频特征其中输入标签为从lstm_train.txt训练文件中随机抽取的样本所对应的标签{llab¹，llab²，…，llabⁿ}，其中llab¹＝llab²＝…＝llabⁿ＝llab。将输入数据和输入标签同时送入图4所示的BLSTM网络中，通过步骤3.2中的配置文件参数来进行训练，就可得到BLSTM网络训练模型M_BLSTM。

步骤4，制作自适应预测模式选择网络APM-Net的训练样本集APM_Vtrain，通过M_FLSTM对APM_Vtrain提取FLSTM特征，得到FLSTM特征集ATr_Fflstm；通过M_BLSTM对APM_Vtrain提取BLSTM特征，得到特征集ATr_Fblstm，其中APM_Vtrain中的样本数目为A_TN，本实施方案中A_TN＝542，步骤4的具体过程如下：

步骤4.1，制作APM-Net的训练样本集APM_Vtrain，其中APM_Vtrain＝{APM_Vtrain_p|1≤p≤A_TN}，APM_Vtrain_p表示第p个训练样本，它是从中随机抽取的样本，APM_Vtrain_p样本的长度为固定的2n-1帧的连续行人视频序列，即有其中

在准备APM-Net的训练样本集APM_Vtrain时，训练样本集APM_Vtrain中的样本类别数设为三，这三种样本类别分别为双向、前向和后向预测模式。当样本中n帧视频子序列和都不存在行人遮挡情况时，样本APM_Vtrain_p的标签为Alable＝0，对应双向预测模式；当样本APM_Vtrain_p中视频子序列不存在行人遮挡情况而视频子序列存在行人遮挡情况时，样本APM_Vtrain_p的标签为Alable＝1，对应前向预测模式；当样本APM_Vtrain_p中视频子序列存在行人遮挡情况而视频子序列不存在行人遮挡情况时，样本APM_Vtrain_p的标签为Alable＝2，对应后向预测模式；

步骤4.2，提取训练样本集APM_Vtrain对应的LBP和颜色融合特征集APM_FLBPC＝{APM_FLBPC_p|1≤p≤A_TN}。由步骤2对提取的LBP和颜色融合特征得出对应的LBP和颜色融合特征训练样本集APM_Vtrain对应的LBP和颜色融合特征集为APM_FLBPC＝{APM_FLBPC_p|1≤p≤A_TN}；

步骤4.3，把APM_FLBPC中每一个样本APM_Vtrain_p对应的特征集APM_FLBPC_p中的第(i-n+1)～i帧特征作为前向LSTM网络模型M_FLSTM的输入，通过M_FLSTM得到前向LSTM特征集ATr_Fflstm＝{ATr_Fflstm_p|1≤p≤A_TN}；把APM_FLBPC中的每一个样本APM_Vtrain_p对应的特征集APM_FLBPC_p中的第(i+n-1)～i帧特征作为后向LSTM网络模型M_BLSTM的输入，通过M_BLSTM得到后向LSTM特征集ATr_Fblstm＝{ATr_Fblstm_p|1≤p≤A_TN}。其中ATr_Fflstm_p和ATr_Fblstm_p的提取步骤如下：

步骤4.3.1，提取样本APM_Vtrain_p的前向LSTM特征ATr_Fflstm_p。将训练好的前向LSTM网络模型M_FLSTM看作函数get_fflstm(·)，以样本APM_Vtrain_p所对应的特征集APM_FLBPC_p中的第(i-n+1)～i帧特征作为前向LSTM网络模型M_FLSTM的输入，则可通过get_fflstm(·)函数提取样本APM_Vtrain_p对应的前向LSTM特征ATr_Fflstm_p，如式(1)所示。其中表示第p个样本对应的第k帧图像的前向LSTM特征；本实施方案中的维数为512，n的取值为10；

步骤4.3.2，提取样本APM_Vtrain_p的后向LSTM特征ATr_Fblstm_p。将训练好的后向LSTM网络模型M_BLSTM看作函数get_fblstm(·)，以样本APM_Vtrain_p所对应的特征集APM_FLBPC_p中的第(i+n-1)～i帧特征作为后向LSTM网络模型M_BLSTM的输入，则可通过get_fblstm(·)函数提取样本APM_Vtrain_p对应的后向LSTM特征ATr_Fblstm_p，如式(2)所示。其中本实施方案中的维数为512，n的取值为10；

步骤5，设计自适应预测模式选择网络APM-Net，APM-Net网络的功能为对样本的三种模式进行预测，其网络结构图如图5所示，由输入层、Reshape层、第一个全连接+drop层、第二全连接层和一个softmax层组成；

(1)输入层：输入层的输入为样本APM_Vtrain_p对应的前向LSTM特征ATr_Fflstm_p和后向LSTM特征ATr_Fblstm_p。本实施方案中ATr_Fflstm_p和ATr_Fblstm_p的特征维数均为n×512，n＝10；

(2)Reshape层：Reshape层的输入为ATr_Fflstm_p和ATr_Fblstm_p，输出为特征维数为10240(10240＝1024*n)的数据fea^f_b，该层的作用为对输入的前向LSTM特征和后向LSTM特征进行串联操作；

(3)第一个全连接+drop层：全连接层的输入为fea^f_b，作用是将10240维数据fea^f_b降成800维数据inner1；drop层的输入是inner1，操作是对inner1数据按一定的概率随机置0，作用是在一定程度上防止过拟合现象，输出数据为800维数据drop1；本实施案例中概率值为0.3；

(4)第二个全连接层：输入是drop1，输出为3维数据inner2＝(x₀，x₁，x₂)′，分别对应三种预测模式；

(5)softmax层：对网络进行训练时需要通过softmax层的loss值对网络进行反馈修订，具体操作为：计算inner2中的最大值x_max＝max(x₀，x₁，x₂)；根据x_max值对inner2中的数据进行归一化处理得到y_kk，

其中kk＝0，1，2；根据样本标签Alable对应的y_Alable计算loss值，loss＝-log(y_Alable)；根据loss值采用文献[1]中的网络反馈机制在网络训练过程中对网络参数进行修订。

步骤6，制作标签文件，把标签文件、前向LSTM特征集ATr_Fflstm和后向LSTM特征集ATr_Fblstm作为APM-Net网络的输入，训练自适应预测模式选择网络APM-Net，得到网络模型M_APM。具体步骤如下：

步骤6.1，制作样本标签文件，以步骤4.1设定的样本Alable值来对训练样本集APM_Vtrain中的数据进行标记，并将标记结果存入训练标签文件APM_train.txt中。以第p个样本对应的连续2n-1帧视频APM_Vtrain_p为例，标签格式为(APM_VtrainPath/APM_Vtrain_p.avi Alable)，APM_VtrainPath/APM_Vtrain_p.avi为APM_Vtrain中各样本对应的视频路径APM_VtrainPath/下的视频文件名APM_Vtrain_p.avi。

步骤6.2，训练自适应预测模式选择网络APM-Net，得到APM-Net的网络模型M_APM。

把训练样本集APM_Vtrain对应的特征集ATr_Fflstm、ATr_Fblstm和标签文件中对应的样本标签作为网络的输入，进行APM-Net网络训练，得到自适应预测模式选择网络模型M_APM。

此时网络的训练已经完成，接下来的步骤为行人重识别，其具体实施步骤如下：

步骤7，把步骤1数据集中除去行人重识别训练样本集Vtrain之外的剩余数据作为测试样本集Vtest，其中表示c摄像机下ID号为j的行人视频测试样本，且有表示摄像机c下ID号为j的行人视频测试样本的第k帧图像，表示行人视频测试样本的视频总帧数；在本实施方案中，R＝N/2＝150；

步骤8，对Vtest提取APM特征，得到APM特征集表示摄像机c下ID号为j的行人视频所对应的APM特征。其具体步骤如下：

步骤8.1，对测试样本集Vtest中的所有视频帧图像提取LBP和颜色融合特征得到测试特征集Te_FLBPC，其中表示c摄像机下ID号为j的行人特征集，表示摄像机c下ID号为j的行人的第k帧图像所提取的LBP和颜色融合特征，特征的维数为58950。特征的提取过程如图2所示，其具体步骤如下：

步骤8.1.1，对输入的行人图像进行大小归一化处理，得到归一化后的图像Img_w×h；在本实施方案中w＝64，h＝128；

步骤8.1.2，将图像Img_w×h划分为M＝m₁×m₂个图像块Blk_m，其中1≤m≤M，图像块的大小为16×8，相邻图像块在水平方向上相差4个像素在垂直方向上相差8个像素。本实施方案中的m₁＝(w-8)/4+1＝15，m₂＝(h-16)/8+1＝15，M＝225；

步骤8.1.3，对每个图像块Blk_m提取LBP和颜色融合特征FBlk_m，其具体步骤和步骤2.3中的具体步骤相同；

步骤8.1.4，将图像Img_w×h中M个图像块所提取的LBP和颜色融合特征FBlk_m进行串联融合，就可得到图像Img_w×h所对应的LBP和颜色融合特征其中的特征维数为58950(58950＝225×262)。

步骤8.2，对行人测试样本集Vtest提取APM特征集其中表示摄像机c下ID号为j的行人视频所对应的APM特征，提取具体步骤为：

步骤8.2.1，对摄像机c下ID号为j的行人视频提取APM特征以测试特征集Te_FLBPC的特征作为提取APM特征的输入，按滑动窗对视频提取APM特征其中表示摄像机c下ID号为j的行人的第t帧图像所提取的APM特征，滑动窗的大小为2n-1帧，步长为1，n＝10。

步骤8.2.2，获取单帧图像的APM特征具体步骤如下：

步骤8.2.2.1，将视频中的子序列对应的LBP和颜色融合特征送入模型M_FLSTM得到video的前向LSTM特征集将子序列对应的LBP和颜色融合特征送入模型M_BLSTM得到video的后向LSTM特征集

步骤8.2.2.2，将特征集和同时送入训练好的模型M_APM得到视频序列video的预测模式pre_Alable，pre_Alable为inner2中最大值对应的元素下标。当pre_Alable＝0时，video的预测模式为双向预测，图像特征的求取如式(3)所示；当pre_Alable＝1时，video的预测模式为前向预测，图像特征的求取如式(4)所示；当pre_Alable＝2时，video的预测模式为后向预测，图像特征的求取如式(5)所示，其中的维数为n×512，的维数为n×512，的特征的维数为1×512。本实施方案中n的取值为10。

步骤9，对测试数据集Vtest提取的APM特征集AFV进行均值化预处理，得到特征均值集av_AFV，其中具体操作为对步骤8.2提取的行人视频特征集在时间维度上求均值，得到一个512维的特征均值

步骤10，将摄像机1中的行人特征均值作为目标行人特征集Obj，摄像机2中的行人特征均值作为待识别行人特征集Gal，其中Obj＝{Obj_train，Obj_test}，Gal＝{Gal_train，Gal_test}，表示摄像机1中的ID号为s的行人视频的特征均值，表示摄像机2中的ID号为v的行人视频的特征均值。把Obj_train和Gal_train作为XQDA的训练特征集，训练得到映射矩阵W和度量核矩阵M。把Obj_test和Gal_test作为XQDA的测试特征集，用得到的W和M进行行人重识别性能测试。

步骤10.1，把Obj_train和Gal_train作为交叉视角二次判别分析(Cross-viewQuadratic Discriminant Analysis，XQDA)的训练特征集，训练得到映射矩阵W和度量核矩阵M。具体方法参考文献[2]。

步骤10.2，距离计算。把步骤10.1中训练得到的度量核矩阵M，Gal_test和W的乘积Gal_test×W，测试特征集Obj_test和W的乘积Obj_test×W作为参考文献[2]中距离度量函数MahDist(M，Gal_test×W，Obj_test×W)的输入，输出得到一个R/2×R/2的二维距离矩阵其中d_ij表示摄像机1中的ID号为i的行人视频的特征均值与摄像机2中的ID号为j的行人视频的特征均值之间的距离。

行人重识别性能的评价指标是行人重识别结果排名第一的正确率Rank1，Rank1的取值越高，行人重识别性能越好。Rank1的计算方法为：①对矩阵D按行进行升序排列得到矩阵D′；②对D′中第i行中的第一列元素d′_i0在D中找到对应元素，记为d_ij；③对各行中i和j相等的个数进行累加求和，得到num_Rank1；④Rank5的计算方法为：①对矩阵D按行进行升序排列得到矩阵D′；②对D′中第i行中的第一列元素d′_i0到第五列元素d′_i4在D中找到对应元素，记为③对各行中i和j₁～j₅相等的个数进行累加求和，得到num_Rank5；④Rank10和Rank20的计算方法相同。

本实施方案中选用了iLIDS-VID标准数据集中的75对行人来进行识别，识别结果如表2所示。其中RFA-Net重识别方法中的Rank1、Rank5、Rank10和Rank20取值分别为50.40％、79.20％、87.47％和94.80％，本文所提重识别方法中Rank1、Rank5、Rank10和Rank20取值分别为54.93％、79.07％、88.67％和94.80，实验结果表明，本发明的一种基于自适应预测模式的LSTM网络行人重识别方法针对于遮挡情况能够在很大程度上提高行人重识别的性能。

表2

Claims

1.一种基于自适应预测模式的LSTM网络行人重识别方法，其特征在于：具体包括如下步骤：

步骤2，在步骤1所得的训练样本集Vtrain中的所有视频帧图像提取局部二值模式和颜色融合特征得到训练特征集FLBPC；

步骤3，制作标签文件，设置LSTM网络参数，把标签文件、训练特征集FLBPC中特征的正向排列作为前向LSTM网络FLSTM的输入，训练得到FLSTM网络模型M_FLSTM；把标签文件、训练特征集FLBPC中特征的反向排列作为后向LSTM网络BLSTM的输入，训练得到BLSTM网络模型M_BLSTM；

步骤4，制作自适应预测模式选择网络APM-Net的训练样本集APM_Vtrain，然后通过M_FLSTM对APM_Vtrain提取FLSTM特征，得到FLSTM特征集ATr_Fflstm；通过M_BLSTM对APM_Vtrain提取BLSTM特征，得到特征集ATr_Fblstm；

步骤6，制作标签文件，把标签文件、前向LSTM特征集ATr_Fflstm和后向LSTM特征集ATr_Fblstm作为APM-Net网络的输入，训练自适应预测模式选择网络APM-Net，得到网络模型M_APM；

步骤7，把步骤1数据集中除去训练样本集Vtrain之外的剩余数据作为测试样本集Vtest，其中

步骤8，对Vtest提取APM特征，得到APM特征集AFV；

步骤10，将摄像机1中的行人特征均值作为目标行人特征集Obj，摄像机2中的行人特征均值作为待识别行人特征集Gal，其中Obj＝{Obj_train,Obj_test}，Gal＝{Gal_train,Gal_test}，表示摄像机1中的ID号为s的行人视频的特征均值，表示摄像机2中的ID号为v的行人视频的特征均值；把Obj_train和Gal_train作为XQDA的训练特征集，训练得到映射矩阵W和度量核矩阵M；把Obj_test和Gal_test作为XQDA的测试特征集，用得到的W和M进行行人重识别性能测试。

2.根据权利要求1所述的一种基于自适应预测模式的LSTM网络行人重识别方法，其特征在于：

所述步骤2中特征的提取过程如下：

步骤2.3，对每个图像块Blk_m提取LBP和颜色融合特征FBlk_m；

3.根据权利要求2所述的一种基于自适应预测模式的LSTM网络行人重识别方法，其特征在于：所述步骤2.3的具体如下：

步骤2.3.3，将步骤2.3.1中图像块Blk_m所提取的LBP特征LBlk_m、步骤2.3.2中图像块Blk_m所提取得HSV颜色特征CHBlk_m以及Lab颜色特征LABBlk_m进行串联融合，从而得到图像块Blk_m所对应的LBP和颜色融合特征FBlk_m。

4.根据权利要求3所述的一种基于自适应预测模式的LSTM网络行人重识别方法，其特征在于：所述步骤3的具体过程如下：

步骤3.2，设置网络训练参数，并写入配置文件solver.prototxt；

步骤3.3，训练FLSTM网络模型M_FLSTM，该网络FLSTM特征输出的维数为512维，该网络的输入数据为从lstm_train.txt训练文件中随机抽取的样本中正向排列的连续n帧的视频特征其中输入标签为从lstm_train.txt训练文件中随机抽取的样本所对应的标签其中llab¹＝llab²＝…＝llabⁿ＝llab；将输入数据和输入标签同时送入FLSTM网络中，通过步骤3.2中的配置文件参数来进行训练，就可得到FLSTM网络训练模型M_FLSTM；

步骤3.4，训练BLSTM网络模型M_BLSTM，该网络BLSTM特征输出的维数为512维，该网络的输入数据为从lstm_train.txt训练文件中随机抽取的样本中反向排列的连续n帧的视频特征其中输入标签为从lstm_train.txt训练文件中随机抽取的样本所对应的标签其中llab¹＝llab²＝…＝llabⁿ＝llab；将输入数据和输入标签同时送入BLSTM网络中，通过步骤3.2中的配置文件参数来进行训练，从而得到BLSTM网络训练模型M_BLSTM。

5.根据权利要求4所述的一种基于自适应预测模式的LSTM网络行人重识别方法，其特征在于：所述步骤4的具体过程如下：

步骤4.1，制APM-Net的训练样本集APM_Vtrain，其中APM_Vtrain＝{ARM_Vtrainp|1≤p≤A_TN}，APMVtrain_p表示第p个训练样本，它是从中随机抽取的样本，APM_Vtrain_p样本的长度为固定的2n-1帧的连续行人视频序列，即有其中

6.根据权利要求5所述的一种基于自适应预测模式的LSTM网络行人重识别方法，其特征在于：所述步骤5中的网络APM-Net结构包括输入层、Reshape层、第一全连接+drop层、第二全连接层和softmax层；

输入层：输入层的输入为样本p所对应的前向LSTM特征ATr_Fflstm_p和后向LSTM特征ATr_Fblstm_p；

Reshape层：Reshape层的输入为ATr_Fflstm_p和ATr_Fblstm_p，Reshape层的输出为特征维数为10240的数据fea^f_b，Reshape层的作用为对输入的前向和后向LSTM特征进行串联操作；

第一全连接+drop层：第一个全连接+drop层：全连接层的输入为fea^f_b，作用是将10240维数据fea^f_b降成800维数据inner1；drop层的输入是inner1，操作是对inner1数据按一定的概率随机置0，作用是在一定程度上防止过拟合现象，输出数据为800维数据drop1；

第二全连接层：输入是drop1，输出为3维数据inner2＝(x₀,x₁,x₂)'，分别对应三种预测模式；

softmax层：对网络进行训练时需要通过softmax层的loss值对网络进行反馈修订，具体操作为：计算inner2中的最大值x_max＝max(x₀,x₁,x₂)；根据x_max值对inner2中的数据进行归一化处理得到y_kk，其中kk＝0,1,2；根据样本标签Alable对应的y_Alable计算loss值，loss＝-log(y_Alable)。

7.根据权利要求6所述的一种基于自适应预测模式的LSTM网络行人重识别方法，其特征在于：所述步骤6的具体过程为：

步骤6.1，制作样本标签文件，以步骤4.1设定的样本Alable值来对训练样本集APM_Vtrain中的数据进行标记，并将标记结果存入训练标签文件APM_train.txt中。以第p个样本对应的连续2n-1帧视频APM_Vtrain_p为例，标签格式为APM_VtrainPath/APM_Vtrain_p.aviAlable，APM_VtrainPath/APM_Vtrain_p.avi为APM_Vtrain中各样本对应的视频路径APM_VtrainPath/下的视频文件名APM_Vtrain_p.avi；

8.根据权利要求7所述的一种基于自适应预测模式的LSTM网络行人重识别方法，其特征在于：所述步骤8中APM特征的提取过程如下：

步骤8.1，对测试样本集Vtest中的所有视频帧图像提取LBP和颜色融合特征得到测试特征集其中表示c摄像机下ID号为j的行人特征集，表示摄像机c下ID号为j的行人的第k帧图像所提取的LBP和颜色融合特征；

步骤8.2，对行人测试样本集Vtest提取APM特征集其中表示摄像机c下ID号为j的行人视频所对应的APM特征。

9.根据权利要求8所述的一种基于自适应预测模式的LSTM网络行人重识别方法，其特征在于：所述步骤8.2的具体过程如下：

步骤8.2.2，获取单帧图像的APM特征

10.根据权利要求9所述的一种基于自适应预测模式的LSTM网络行人重识别方法，其特征在于：所述步骤10的具体过程如下：

步骤10.1，把Obj_train和Gal_train作为交叉视角二次判别分析(Cross-view QuadraticDiscriminant Analysis，XQDA)的训练特征集，训练得到映射矩阵W和度量核矩阵M；

步骤10.2，距离计算；

把步骤10.1中训练得到的度量核矩阵M，测试特征集Obj_test和W的乘积，Gal_test和W的乘积作为距离度量函数MahDist的输入，输出得到一个R/2×R/2的二维距离矩阵其中d_ij表示摄像机1中的ID号为i的行人视频的特征均值与摄像机2中的ID号为j的行人视频的特征均值之间的距离；