CN109117823A

CN109117823A - 一种基于多层神经网络的跨场景行人重识别的方法

Info

Publication number: CN109117823A
Application number: CN201811010519.2A
Authority: CN
Inventors: 顾晓清; 倪彤光; 王洪元
Original assignee: Changzhou University
Current assignee: Changzhou University
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2019-01-01

Abstract

本发明公开了一种基于多层神经网络的跨场景行人重识别的方法，其步骤如下：(1)采集当前场景下摄像头中的行人视频，截取视频帧；(2)对步骤1截取到的视频帧中的行人图像进行特征提取和降维处理，使用样本对构成目标域训练集X_t，得到测试集X_o；(3)对相关场景下的带标识数据进行处理，使用样本对构成源域训练集X_s；(4)建立训练集X，X＝[X_s,X_t]；(5)使用X来训练多层神经网络模型；(6)根据步骤5得到的模型在测试集X_o中对待识别样本进行识别。本发明选用具备可实现复杂非线性映射的多层神经网络作为学习模型，使用迁移学习思想将相关场景的带标识数据加入到新场景的模型学习中，使得对新场景的学习更准确有效。

Description

一种基于多层神经网络的跨场景行人重识别的方法

技术领域

本发明涉及计算机视觉与模式识别领域，具体涉及一种基于多层神经网络的跨场景行人重识别的方法

背景技术

随着大量摄像机在公共场所的普及，基于行人的图片和视频数据的应用也逐渐受到更加广泛的重视，其中一项重要的应用是行人重识别。行人重识别是指通过非重叠摄像机采集的多时间段行人视频数据查找关于同一行人的技术。在公共安全日益受到重视的今天，行人重识别越来越受到人们的关注。伴随行人重识别在各种新领域中的应用，在实际条件下一个很重要的技术问题是如何在一个新的场景中部署行人重识别***。因为新场景中往往没有大量的已标记数据，而且标记数据非常耗时耗力，训练数据及其标识的匮乏影响了新场景中对行人重识别模型的建立，也容易造成目标的错误识别。

解决此问题的一个有效方法是引入迁移学***等人发明了基于迁移学习的行人重识别方法(基于迁移学习的行人重识别方法，专利申请号201510445055.8)，首先求得源域数据的模型参数，再将模型参数迁移到目标域，得到目标域数据的模型。但这两种方法都存在缺陷，前一种方法通过线性变换将原始空间的数据投影到新的特征空间，往往不能捕捉到行人图像的非线性结构；后一种方法目标域数据没有参与到构建源域模型的构建中，两个领域的差异没有充分考虑，另外，该方法也没有考虑数据之间的类别差异性，容易导致模型的局部学习能力不足。针对行人重识别方法的现状和诸多不足，本发明提出了一种基于多层神经网络的跨场景行人重识别的方法。

发明内容

本发明的主要目的是利用神经网络具备的处理非线性和高精度的处理能力，提供一种易操作、高可靠的基于多层神经网络的跨场景行人重识别的方法，重点改进了现有方法所建立的跨场景行人重识别模型的识别精度不高的缺陷。

本发明采用下述技术方案来实现：

一种基于多层神经网络的跨场景行人重识别的方法，其特征在于，包括以下步骤：

步骤1.采集当前场景下摄像头中的行人视频，截取视频帧；

步骤2.对步骤1截取到的视频帧中的行人图像进行特征提取和降维处理，得到当前场景下带标识的目标域训练数据和不带标识的目标域测试集x_ti和x_oi分别是目标域训练样本和目标域测试样本，y_ti是x_ti的标识，N_t和N₀分别是目标域训练样本和测试样本的数量，根据样本的标识，将具有相同标识的训练样本组成正样本对，不同标识的训练样本组成负样本对，样本对构成目标域训练集X_t；

步骤3.使用步骤2所述的特征提取和降维方法对相关场景下的带标识数据进行处理，根据样本的标识，将具有相同标识的训练样本组成正样本对，不同标识的训练样本组成负样本对，样本对构成源域训练集X_s，x_si是源域训练样本，y_si是x_si的标识，N_s是源域训练样本的数量；

步骤4.建立训练集X，X＝[X_s,X_t]；

步骤5.使用训练集X来训练多层神经网络模型；

步骤6.根据步骤5得到的多层神经网络模型在目标域测试集X_o中对待行人重识别的样本z进行行人重识别；

其中，上述步骤2所述的对步骤1截取到的视频帧中的行人图像进行特征提取和降维处理，其特征在于：首先将待提取特征的图像进行归一化处理，图像分块为像素大小，图像的每一小块在水平和垂直方向的区域块重叠率为50％；然后对于分块后的图像进行特征提取，主要提取RGB、YCbCr和HS颜色特征共8个颜色通道，建立16bin的直方图，以及提取HOG和LBP特征并建立直方图；对于每个行人图像共有75个分块，根据特征提取的内容，每个块中有484维的特征向量；再采用主成分分析方法对行人图像的高维特征进行降维处理；

上述步骤5所述的使用训练集X来训练多层神经网络模型，其特征在于，所述多层神经网络由输入层、多个隐含层和输出层组成，其中第一层是输入层，第二层到第M层是隐含层，最后一层即第M+1层是输出层，层与层之间是全连接，前一层的任意一个神经元与后一层的任意一个神经元相连；

所述建立使用训练集X来训练多层神经网络模型包含以下步骤：

步骤5.1.初始化第1层到第M层的权重矩阵和偏置向量其中b^(m)初始化为0向量，W^(m)中的每个分量服从均匀分布，

其中表示W^(m)的第i行第j列个元素，当m＝1时，n的值等于神经网络第一层上的神经元数，当m＝2,...,M时，n的值等于神经网络第m-1层上的神经元数；

步骤5.2.所述多层神经网络的第一层接受输入数据集，即训练集X；

步骤5.3.每一次迭代，通过下式计算得到所述多层神经网络第一层的输出h⁽¹⁾：

其中是非线性激活函数，可以是tanh或者sigmoid函数，x表示X中的任意样本；

步骤5.4.将h⁽¹⁾作为隐含层的输入，隐含层逐层前向传播，每个层将前一层的输出作为本层的输入，通过下式计算得到所述多层神经网络的第m层的输出

其中第M层的输出记为f(x)：

步骤5.5.根据步骤5.4得到的f(x)，建立源域和目标域的跨场景相似性度量SMCS(similarity measure for cross scenario)：

其中||·||₂表示2-范数运算，式(5)的第一项为目标域训练集所有行人样本f(x)的均值，第二项是源域中正样本对的行人样本的f(x)的均值，第三项是源域中负样本对的行人样本的f(x)的均值，正样本对的行人样本标识为行人数为N_s+，负样本对的行人样本标识为行人数为N_s-N_s+；

步骤5.6.在所述多层神经网络的输出层建立多层神经网络模型的最优化函数J：

其中g()是Logistic损失函数α和β都是正常数，源域X_s和目标域X_t训练集中的样本对(x_i,x_j)参与式(6)的第一项的计算，i和j分别表示样本的标号，如果样本对(x_i,x_j)是正样本对，则l_ij＝1，如果样本对(x_i,x_j)是负样本对，则使用下式定义l_ij：

其中函数τ是一个正常数，||·||_F表示F-范数运算；

采用梯度下降法求解式(6)中的和

其中λ是学习率，对式(6)求导，得到和具体的计算式如下，按照从输出层到输入层的方向调整W^(m)和b^(m)的值，

其中 ^T表示矩阵的转置运算，当m＝1,2,...,M-1时,和具体的计算式如下：

当m＝M时,和具体的计算式如下：

其中Θ表示点积运算，c、和可用下式计算，

步骤5.7.根据步骤5.6得到的的值计算式(6)的值，记为J_k，其中k表示当前迭代的次数，计算与上一次迭代得到的最优化函数J_k-1的差值，判断|J_k-J_k-1|是否小于ε或者k的值是否大于最大迭代次数，若不是，则转向步骤5.3；若是，则当前和为模型最优解，至此模型训练完毕，转向步骤6；

上述步骤6所述的根据步骤5得到的多层神经网络模型在目标域测试集X_o中对待行人重识别的样本z进行行人重识别，其特征在于：将待行人重识别样本z和数据集X_o中的每个待匹配图像的样本代入步骤5得到的多层神经网络模型，计算的值，其中x_oi∈Xo，如果的值小于阈值τ，则确定所述目标行人图像中的目标行人和所述测试集中的待匹配行人为同一个行人，如果的值大于阈值τ，则确定所述目标行人图像中的目标行人和所述测试集中的待匹配行人不是同一个行人。

与现有技术相比，本发明的优点是：

1)识别精度高：本行人重识别方法选用具备可实现任何复杂非线性映射的多层神经网络作为具体的智能学习模型，多层神经网络的层数可以根据实际需要自由设置，本发明具有很强的鲁棒性、记忆能力、非线性映射能力以及强大的自学习能力。

2)本发明使用迁移学习的思想将相关场景的带标识数据加入到新场景的模型学习中，帮助对新场景中模型的学习，另外，SMCS度量利用了源域样本的标识信息来表现源域和目标域上的全局和局部分布差异，使得对新场景的学习更准确有效。

3)预测简单、方便：本预测方法实现对行人重识别的自动识别，用户操作简单、方便。

附图说明

图1是本发明的一种基于多层神经网络的跨场景行人重识别的方法的总流程图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体事实例，并参照附图，对本发明进一步详细说明。

本发明的总实施流程图如图1所示，具体实施如下：

步骤1.采集当前场景下摄像头中的行人视频，截取视频帧，本实施例使用数据集i-LIDS图像作为当前场景下的视频帧图像；

步骤2.对数据集i-LIDS的视频帧中的行人图像进行特征提取和降维处理；i-LIDS数据集共包括119个行人476幅图像，具体实施中，首先将待提取特征的图像进行归一化处理，每一副图像的像素都处理成128×48，本实施例取像素大小16×16的区域块，图像的每一小块在水平和垂直方向每次移动间隔8个像素，重叠率为50％。然后对于分块后的图像进行特征提取，主要提取RGB、YCbCr和HS颜色特征共8个颜色通道，建立16bin的直方图，以及提取HOG和LBP特征并建立直方图，这样每个行人图像共有75个分块，根据特征提取的内容，每个块中有484维特征向量，每一张图像共36300维特征。本实施例采用主成分分析方法对行人图像的高维特征进行降维处理，降至300维。i-LIDS数据集分成训练集和测试集两个部分，本实施例中构成目标域训练集X_t共76幅行人图像，根据样本的标识，将具有相同标识的训练样本组成正样本对15对，不同标识的训练样本组成负样本对23对，目标域测试集X_o共400幅图像，目标域训练集和目标域测试集样本分别表示为x_ti和x_oi；

步骤3.使用步骤2所述的特征提取和降维方法对相关场景下的带标识的数据进行处理，x_si是源域训练样本，y_si是x_si的标识，N_s是源域训练样本的数量，本实施例中使用CAVIAR数据集作为源域训练集，选择CAVIAR数据集50个行人1000幅图像，根据样本的标识，将具有相同标识的训练样本组成正样本对250对，不同标识的训练样本组成负样本对250对，样本对构成源域训练集X_s；

步骤4.建立训练集X，X＝[X_s,X_t]；

步骤5.使用训练集X来训练多层神经网络模型，其特征在于，所述多层神经网络由输入层、多个隐含层和输出层组成，其中第一层是输入层，第二层到第M层是隐含层，最后一层即第M+1层是输出层，层与层之间是全连接，前一层的任意一个神经元与后一层的任意一个神经元相连；使用训练集X来训练多层神经网络模型的详细步骤如下：

其中表示W^(m)的第i行第j列的元素，当m＝1时，n的值等于第一层上的神经元数，当m＝2,...,M时，n的值等于第m-1层上的神经元数，本实施例中取M＝3，神经网络共4层，从第一层到最顶层的神经元数是400→300→200→200；

其中x表示X中的任意样本，是非线性激活函数，本实施例中使用tanh函数，

步骤5.4.将h⁽¹⁾作为隐含层的输入，隐含层逐层前向传播，每个层将前一层的输出作为本层的输入，通过下式计算得到所述多层神经网络的第2层和第3层的输出h⁽²⁾和h⁽³⁾分别是：

其中||·||₂表示2-范数运算，式(5)的第一项为目标域所有行人样本f(x)的均值，第二项是源域中正样本对的行人样本的f(x)的均值，第三项是源域中负样本对的行人样本的f(x)的均值，正样本对的行人样本标识为行人数为N_s+，负样本对的行人样本标识为行人数为N_s-N_s+；

其中g()是Logistic损失函数本实施例中λ＝1，α和β都是正常数，本实施例中α＝0.1，β＝10，源域X_s和目标域X_t训练集中的样本对(x_i,x_j)参与式(6)的第一项的计算，i和j分别表示样本的标号，如果样本对(x_i,x_j)是正样本对，则l_ij＝1，如果样本对(x_i,x_j)是负样本对，则使用下式定义l_ij：

其中函数·||_F表示F-范数运算，τ是一个正常数，本实施例中τ＝3；

采用梯度下降法求解式(6)中的和

其中λ是学习率，本实施例中λ＝0.3，对式(6)求导，得到和具体的计算式如下，按照从输出层到输入层的方向调整W^(m)和b^(m)的值，

当m＝M时,和具体的计算式如下：

其中Θ表示点积运算，c、和可用下式计算，

步骤5.7.根据步骤5.6得到的的解计算式(6)的值，记为J_k，其中k表示当前迭代的次数，计算与上一次迭代得到的最优化函数J_k-1的差值，判断|J_k-J_k-1|是否小于ε或者k的值是否大于最大迭代次数，若不是，则转向步骤5.3；若是，则当前和为模型最优解，至此模型训练完毕，转向步骤6，本实施例中ε＝0.01，最大迭代次数是1000；

步骤6.根据步骤5得到的多层神经网络模型在目标域测试集X_o中对待行人重识别的样本z进行行人重识别，其特征在于：将待行人重识别样本z和数据集X_o中的每个待匹配图像的样本代入步骤5得到的多层神经网络模型，计算的值，其中xo_i∈Xo，如果的值小于阈值τ，则确定所述目标行人图像中的目标行人和所述测试集中的待匹配行人为同一个行人，如果的值大于阈值τ，则确定所述目标行人图像中的目标行人和所述测试集中的待匹配行人不是同一个行人。

本实施例将本发明的方法与现有的一些主流的行人重识别方法进行了比较，比较结果如表1所示。从表1可以看出，在对比的所有方法中，本发明方法的识别准确率最高，识别准确率已经达到了领域先进水平。

表1：本发明方法与KISSME、DDML、GPLMNN、cAMT-DCA和OurTransD识别准确率比较

以上所述的实例只是用于说明本发明，而不构成对本发明的限制。本领域的技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种修改和变更，这些修改和变更仍然在本发明的保护范围内。

Claims

1.一种基于多层神经网络的跨场景行人重识别的方法，其特征在于，包括以下步骤：

步骤1.采集当前场景下摄像头中的行人视频，截取视频帧；

步骤4.建立训练集X，X＝[X_s,X_t]；

步骤5.使用训练集X来训练多层神经网络模型；

其中第M层的输出记为f(x)：

其中函数τ是一个正常数，||·||_F表示F-范数运算；

采用梯度下降法求解式(6)中的和

当m＝M时,和具体的计算式如下：

其中Θ表示点积运算，c、和可用下式计算，

上述步骤6所述的根据步骤5得到多层神经网络模型在目标域测试集X_o中对待行人重识别的样本z进行行人重识别，其特征在于：将待行人重识别样本z和数据集X_o中的每个待匹配图像的样本代入步骤5得到多层神经网络模型，计算的值，其中x_oi∈X_o，如果的值小于阈值τ，则确定所述目标行人图像中的目标行人和所述测试集中的待匹配行人为同一个行人，如果的值大于阈值τ，则确定所述目标行人图像中的目标行人和所述测试集中的待匹配行人不是同一个行人。