CN111144233B

CN111144233B - 基于toim损失函数的行人重识别方法

Info

Publication number: CN111144233B
Application number: CN201911256172.4A
Authority: CN
Inventors: 李耶; 殷光强; 刘学婷; 候少麒; 向凯; 石方炎; 李超
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2022-06-14
Anticipated expiration: 2039-12-10
Also published as: CN111144233A

Abstract

本发明公开了一种基于TOIM损失函数的行人重识别方法，包括以下步骤：S1、准备数据集，数据集中每个不同身份的行人具有不同ID；S2、利用pytorch框架搭建基于ResNet‑50模型的网络模型；S3、将数据集中训练集的图片输入至网络模型中进行训练；S4、将数据集中测试集的图片输入至训练好的网络模型中，识别行人身份。本发明结合了在线实例匹配（OIM)损失函数和三重（Triplet）损失函数的优势，同时强调了对困难样本的重视和简化了三重损失函数的批处理构造过程，从而使得收敛速度大大加快，有效地提高了行人重识别的准确率。

Description

基于TOIM损失函数的行人重识别方法

技术领域

本发明属于行人重识别技术领域，尤其涉及一种基于TOIM损失函数的行人重识别方法。

背景技术

行人重识别也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像，检索跨设备下的该行人图像。旨在弥补目前固定的摄像头的视觉局限，并可与行人检测/行人跟踪技术相结合，可广泛应用于智能视频监控、智能安保等领域。

由于不同摄像设备之间的差异，同时行人兼具刚性和柔性的特性，外观易受穿着、尺度、遮挡、姿态和视角等影响，使得行人重识别成为计算机视觉领域中一个既具有研究价值同时又极具挑战性的热门课题。

一直以来，行人重识别领域中最显著的挑战是挖掘相同身份的行人在不同场景中共有特征，以及不同身份的行人在同一场景下的特有特征。现有的行人重识别方法主要采用在线实例匹配(Online Instance Matching，简称OIM)损失函数和三重(Triplet)损失函数。然而，对于在线实例匹配损失函数来说，其存在的主要缺点是所有的样本都被平等对待，没有针对困难样本(hard samples)进行特殊训练。其中，所述的困难样本(hardsamples)是指anchor样本与positive 样本属于同一身份，特征之间的距离用d(a,p)表示，anchor样本和negative 样本属于不同身份，特征之间的距离用d(a,n)表示，从图5可以明显看出 d(a,p)>>d(a,n)，因此，该类样本就属于困难样本(hard samples)。而对于三重损失函数来说，其存在的缺点是构造批处理的过程比较复杂和繁琐，无法针对检测和重识别的双重任务进行在线训练，而且损失下降较慢，收敛比较缓慢。

公开号为CN110059616A的现有技术在2019年7月26日公开了一种基于融合损失函数的行人重识别模型优化方法，包括(1)利用神经网络训练得到行人重识别模型后，利用交叉熵损失函数计算模型中每个行人图像特征空间相似度；(2) 根据空间相似度设置损失阈值，并利用阈值构造三元组对象；(3)利用三元组对象构造三重损失函数迭代优化，得到优化后的行人重识别模型。该文献的特点是结合交叉熵损失函数和三重损失函数，将深度学习和特征识别应用在行人重识别问题上面，对提高治安管理具有重要的意义。但在实际应用过程中发现，该文献仍然存在一些缺陷,例如对于交叉熵损失函数，随着行人类型(不同身份的人) 数量的增多，训练一个如此庞大的交叉熵分类器会变得极其的慢，同时交叉熵损失函数对所有样本同等对待，甚至更糟糕的时候网络会无法收敛；对于三重损失函数而言，没有选择困难样本进行训练，同时当输入数据不断增加时，采样复杂度也在提升。

发明内容

本发明的目的在于克服现有技术中存在的上述问题，提供了一种基于TOIM 损失函数的行人重识别方法，本发明结合了在线实例匹配(OIM)损失函数和三重 (Triplet)损失函数的优势，同时强调了对困难样本的重视和简化了三重损失函数的批处理构造过程，从而使得收敛速度大大加快，有效地提高了行人重识别的准确率。

为实现上述目的，本发明采用的技术方案如下：

一种基于TOIM损失函数的行人重识别方法，其特征在于，包括以下步骤：

S1、准备数据集，数据集中每个不同身份的行人具有不同ID；

S2、利用pytorch框架搭建基于ResNet-50模型的网络模型；

S3、将数据集中训练集的图片输入至网络模型中进行训练；

S4、将数据集中测试集的图片输入至训练好的网络模型中，识别行人身份。

所述步骤S1中，所述的数据集为数据集Duke、数据集Market-1501、数据集UESTC-PR中的一种,当数据集为数据集UESTC-PR时，其准备过程为：将若干摄像头架设在UESTC-PR中的路灯顶端，由摄像头俯视采集行人图片，采集的行人图片为至少三个摄像头在同一场景下拍摄的图像的集合，采集完后得到数据集 UESTC-PR，然后对数据集UESTC-PR中每个不同身份的行人标定不同ID，并划分为训练集和测试集。

所述步骤S2中，所述的网络模型依次包括卷积层、块结构、平均池化层和全连接层，其中，块结构的数量为4个，每个块结构分别包含3，4，6，3个残差单元。

所述步骤S2中，所述的网络模型搭建后，使用AdaDelta优化器进行初始化，初始学习率设置为0.001，批处理图片数量设置为M，M为15—30。

所述步骤S2中，所述的网络模型中图片的输入维度为M*3*256*128，M代表批处理图片数量，3代表通道数，256*128为图片大小；图片的输出维度为M*512， 512代表每张图片中行人的512维特征信息。

所述步骤S3的训练过程为：

(1)、利用交叉熵损失函数对网络模型进行预训练；

(2)、预设每个ID对应生成一个用于存储该ID所对应行人在不同摄像头下的512维特征信息的存储表，然后将训练集中的图片输入到经步骤(1)训练好的网络模型中，利用网络模型的输出结果初始化所有ID的存储表；

(3)、结合步骤(2)中的存储表对经步骤(1)训练好的网络模型进行再训练。

所述步骤(2)中，每个ID的特征用f∈R^D来表示，D代表行人的特征维度信息，每个存储表用V∈R^D×C表示,C代表数据制作过程中所采用的摄像头的数量。

所述步骤(3)中采用批次迭代训练方式进行再训练，具体过程如下：

A、从所有存储表中选择N个anchor样本作为第一批次训练样本(N＝M)，将该批次中N个anchor样本所对应的ID和摄像头信息存储至预设的更新表中，更新表的长度为U(U>N)；然后从所有存储表中为每个anchor样本挑选对应的 positive样本和negative样本，得到N个均包含anchor样本、positive样本和negative样本的三元样本组，将三元样本组输入至网络模型中，计算每个三元样本组中样本间的欧氏距离，并根据得到的欧氏距离计算出该批次中N个样本的损失值，再利用损失值进行反向传播更新存储表；

B、将剩余样本分成多个批次，每批次同样包括N个anchor样本，采用队列更新的方式将每批次中N个anchor样本所对应的ID和摄像头信息存储至更新表中，然后从所有存储表中为每个anchor样本挑选对应的positive样本，从更新表中为每个anchor样本挑选对应的negative样本，得到N个均包含anchor样本、positive样本和negative样本的三元样本组，将三元样本组输入至网络模型中，计算每个三元样本组中样本间的欧氏距离，并根据得到的欧氏距离计算出每批次N个样本的损失值，再利用损失值进行反向传播更新存储表；

C、重复步骤A和步骤B，直至所有训练样本完成13个epoch，训练完成。

所述步骤A和步骤B中，损失值的计算方法为：

式中，L_TOIM表示损失值，d()表示两个样本之间的欧氏距离，f_a ⁱ表示ID为i 的anchor样本，f_p ⁱ表示ID为i，但是距离与anchor样本最大的positive样本，

表示ID与anchor样本的ID不同，但是距离与anchor样本最小的negative 样本。

所述步骤B和步骤C中，利用公式v_p-c←γv_p-c+(1-γ)f更新存储表，式中p 表示ID为p，c表示该ID在c摄像头下，γ∈[0,1]。

采用本发明的优点在于：

1、本发明提出了存储表的概念，用于存储不同ID、不同摄像机下的行人特征，即对每个身份在不同摄像机下的特征做了唯一标识，方便选择三重损失函数训练所需要的三元组。

2、本发明提出了更新表的概念，用于存储网络中上一个分批处理中训练过的行人的ID和摄像头，且在训练时能够从更新表中选取负样本，有利于加速网络收敛。

3、本发明提出了一种新的训练方式，首先利用交叉熵损失函数训练网络，然后利用训练好的网络进行前向传播，再将前向传播的结果用来初始化存储表，最后再采用批次迭代训练方式进行训练，该种训练方法相当于结合在线实例匹配 (OIM)损失函数和三重(Triplet)损失函数的并形成了TOIM(Triplet Online Instance Matching)损失函数，其能够结合在线实例匹配损失函数和三重损失函数的优势，同时强调了对困难样本的重视和简化了三重损失函数的批处理构造过程，从而使得收敛速度大大加快，有效地提高了行人重识别的准确率。同时， TOIM损失函数可以实现在线训练，即针对检测和重识别的端到端模型，可以用 TOIM损失函数来训练，而三重损失函数是没办法实现端到端的在线训练的。

4、本发明中的网络模型依次包括卷积层、块结构、平均池化层和全连接层，块结构的数量为4个，每个块结构分别包含3，4，6，3个残差单元。采用该结构的网络模型效果会比用其它网络模型的效果要好，主要是由于该模型里面包含 50层，网络比较深，提取到的特征多，表达能力强。

5、本发明的网络模型采用批处理的方式对图片进行处理，且每批次处理图片的数量为15—30张，其优点在于能够每批次处理多个样本，提高网络运行效率。

6、本发明的网络模型中图片的输入维度为M*3*256*128，输出维度为M*512， 512代表每张图片中行人的512维特征信息，采用512维特征信息相比于1024 维特征信息来说具有占用计算资源更少和运算速度更快的优点，而相比于256 维特征信息又具有提取特征更多和准确率更高的优点。

7、本发明在步骤S3的训练过程中利了用交叉熵损失函数对网络模型进行预训练，该预训练的作用能够为后续第(3)步中加速loss函数的收敛。而通过预设的存储表则能够加快网络收敛，有利于利用更少的迭代次数达到更高的准确率。

附图说明

图1为本发明的流程框图；

图2为本发明中数据集Duke和数据集UESTC-PR中行人样本像素高度分布表；

图3为本发明搭建的网络模型的网络结构图；

图4为本发明在再训练时的流程图；

图5为本发明关于困难样本(hard sample)解释的流程图。

具体实施方式

本发明公开了一种基于TOIM损失函数的行人重识别方法，如图1所示，其包括以下步骤：

S1、准备数据集，数据集中每个不同身份的行人具有不同ID。

本步骤中，所述的数据集为数据集Duke、数据集Market-1501、数据集 UESTC-PR中的一种。数据集Duke和数据集Market-1501均为现有公开数据集，均包括训练集和测试集，且数据集Duke和数据集Market-1501中每个不同身份的行人具有不同ID。而数据集UESTC-PR为发明人自制数据集，其准备过程为：将若干摄像头架设在UESTC(电子科技大学)中的若干路灯顶端，由摄像头俯视采集行人图片，采集的行人图片为至少三个摄像头在同一场景下拍摄的图像的集合，优选采集的行人图片为5个摄像头在同一场景下拍摄的图像的集合，采集完后得到数据集UESTC-PR，然后对数据集UESTC-PR中每个不同身份的行人标定不同ID，并划分为训练集和测试集。数据集Duke、数据集Market-1501和数据集 UESTC-PR的统计情况如下表所示：

其中，数据集Duke和数据集Market-1501与数据集UESTC-PR之间略有不同，一方面是拍摄角度，数据集Duke和数据集Market-1501在制作过程中摄像头放置地面，导致摄像头对行人进行平视拍摄，而数据集UESTC-PR在制作过程中摄像头架设在路灯顶端，导致摄像头对行人进行俯视拍摄，实际监控场景中，摄像头更趋向于对目标进行俯视拍摄。另一方面是遮挡，数据集UESTC-PR中存在行人骑车、部分遮挡等情况，而数据集Duke和数据集Market-1501则不存在。同时数据集Duke和数据集UESTC-PR中行人图片像素高度分布如图2所示。

S2、利用pytorch框架搭建基于ResNet-50模型的网络模型。

本步骤中，搭建的网络模型依次包括1个7*7的卷积层(Conv1)、4个块结构(Res2到Res5)、平均池化层(global average pool)和全连接层(fc)，每个块结构分别包含3，4，6，3个残差单元，其网络结构如图3所示。网络模型搭建后需要固定初始化值，具体使用AdaDelta优化器进行初始化，初始学习率设置为0.001，批处理图片数量设置为M，M为15—30。进一步的，网络模型中图片的输入维度为M*3*256*128，M代表批处理图片数量，3代表通道数，256*128 为图片大小；图片的输出维度为M*512，512代表每张图片中行人的512维特征信息。

S3、将数据集中训练集的图片输入至网络模型中进行训练。

本步骤中，所述的训练过程为：

(1)、利用交叉熵损失函数对网络模型进行预训练，预训练的作用在于便于后续第(3)步中加速loss函数的收敛。

(2)、预设每个ID对应生成一个用于存储该ID所对应行人在不同摄像头下的512维特征信息的存储表(Pooled Table)，每个ID的特征用f∈R^D来表示， D代表行人的特征维度信息，每个存储表用V∈R^D×C表示,C代表数据制作过程中所采用的摄像头的数量；如果一个训练集中一共包含Z个ID，那么就会产生Z 个存储表。如图4的(a)部分所示，图中左边上部表示ID为K的行人在摄像头 C1、C2和C3下的图片，该行人的ID信息，所对应的摄像头信息和512特征信息都存储在对应的存储表(Pooled Table)中。图中左边下部表示，ID为m的行人在摄像头C1、C2和C3下的图片，该行人的ID信息，所对应的摄像头信息和512特征信息都存储在对应的存储表(Pooled Table)中。然后将训练集中的图片输入到经步骤(1)训练好的网络模型中，利用网络模型的输出结果初始化所有ID的存储表(Pooled Table)。其中，所述的利用网络模型的输出结果初始化所有ID的存储表是指利用网络模型前向传播的结果初始化所有ID的存储表，该处的前向传播为现有常规技术，与后续步骤中的前向传播过程不同。

(3)、结合步骤(2)中的存储表对经步骤(1)训练好的网络模型进行再训练。具体的，采用批次迭代训练方式进行再训练，其具体过程如下：

A、从所有存储表中选择N个anchor样本作为第一批次训练样本(N＝M)，该 N个anchor样本可随机选择，将该批次中N个anchor样本所对应的ID和摄像头信息存储至预设的更新表(Update Table)中，更新表(Update Table)的长度为U(U>N)；然后从所有存储表中为每个anchor样本挑选对应的positive样本和negative样本，得到N个均包含anchor样本、positive样本和negative 样本的三元样本组，将三元样本组输入至网络模型中，计算每个三元样本组中样本间的欧氏距离，并根据得到的欧氏距离计算出该批次中N个样本的损失值，再利用损失值进行反向传播更新存储表；

B、将剩余样本分成多个批次，每批次同样包括N个anchor样本，每批次的N个anchor样本可随机选择，采用队列更新的方式将每批次中N个anchor 样本所对应的ID和摄像头信息存储至更新表(Update Table)中。如图4的(b) 部分所示,从图中可以看出，更新表(Update Table)中只存储ID信息和摄像头信息，且每一批次的样本是以队列更新的方式存储至更新表中。然后从所有存储表(Pooled Table)中为每个anchor样本挑选对应的positive样本，从更新表 (Update Table)中为每个anchor样本挑选对应的negative样本，得到N个均包含anchor样本、positive样本和negative样本的三元样本组，将三元样本组输入至网络模型中，计算每个三元样本组中样本间的欧氏距离，并根据得到的欧氏距离计算出每批次N个样本的损失值，再利用损失值进行反向传播更新存储表；

需要说明的是，除了第一批次训练样本外，其余批次训练样本以及迭代训练时，均从更新表(Update Table)中为每个anchor样本挑选对应的negative 样本，以便于加快网络收敛和利用更少的迭代次数达到更高的准确率。

所述步骤A和步骤B中，损失值的计算方法为：

所述的S3步骤中，存储表用于存储所有人的摄像头信息和对应的512维特征信息，更新表只存储该批次下训练对应的ID和摄像头的ID，更新表队列更新。所述的队列更新是指：设定更新表长度U为20，每批次中样本数量N为15，那么进行第一批次训练时，将第一批次中的15个样本存储到更新表中，此时更新表中剩余长度为5。后续批次训练时，从剩余长度处将后续批次的样本数量存储至更新表中，而更新表中超出更新表长度部分的样本将被挤出，实现队列更新。

最后，本发明分别在数据集Duke、数据集Market-1501和数据集UESTC-PR 上进行了测试，采用了两种评价指标：均值平均精度(mAP)和累计匹配特征(CMC)。针对mAP评价指标，所有数据集的计算方法都相同。针对CMC评估指标，不同的数据集有不同的计算方法，例如数据集CUHK03的CMC计算方法就不同于 Market-1501。在此基础上对比了在线实例匹配损失函数(OIM)、三重损失函数 (triplet)和本发明TOIM损失函数的均值平均精度(mAP)和累计匹配特征(CMC)，结果如下表所示：

从上表可知，本发明基于TOIM损失函数的效果优于其他两种损失函数。

Claims

1.一种基于TOIM损失函数的行人重识别方法，其特征在于，包括以下步骤：

S1、准备数据集，数据集中每个不同身份的行人具有不同ID；

S2、利用pytorch框架搭建基于ResNet-50模型的网络模型；

S3、将数据集中训练集的图片输入至网络模型中进行训练；

S4、将数据集中测试集的图片输入至训练好的网络模型中，识别行人身份；

所述步骤S3的训练过程为：

(1)、利用交叉熵损失函数对网络模型进行预训练；

2.根据权利要求1所述的基于TOIM损失函数的行人重识别方法，其特征在于：所述步骤S1中，所述的数据集为数据集Duke、数据集Market-1501、数据集UESTC-PR中的一种,当数据集为数据集UESTC-PR时，其准备过程为：将若干摄像头架设在UESTC-PR中的路灯顶端，由摄像头俯视采集行人图片，采集的行人图片为至少三个摄像头在同一场景下拍摄的图像的集合，采集完后得到数据集UESTC-PR，然后对数据集UESTC-PR中每个不同身份的行人标定不同ID，并划分为训练集和测试集。

3.根据权利要求1所述的基于TOIM损失函数的行人重识别方法，其特征在于：所述步骤S2中，所述的网络模型依次包括卷积层、块结构、平均池化层和全连接层，其中，块结构的数量为4个，每个块结构分别包含3，4，6，3个残差单元。

4.根据权利要求1所述的基于TOIM损失函数的行人重识别方法，其特征在于：所述步骤S2中，所述的网络模型搭建后，使用AdaDelta优化器进行初始化，初始学习率设置为0.001，批处理图片数量设置为M，M为15—30。

5.根据权利要求1所述的基于TOIM损失函数的行人重识别方法，其特征在于：所述步骤S2中，所述的网络模型中图片的输入维度为M*3*256*128，M代表批处理图片数量，3代表通道数，256*128为图片大小；图片的输出维度为M*512，512代表每张图片中行人的512维特征信息。

6.根据权利要求1所述的基于TOIM损失函数的行人重识别方法，其特征在于：所述步骤(2)中，每个ID的特征用f∈R^D来表示，D代表行人的特征维度信息，每个存储表用V∈R^D×C表示,C代表数据制作过程中所采用的摄像头的数量。

7.根据权利要求6所述的基于TOIM损失函数的行人重识别方法，其特征在于：所述步骤(3)中采用批次迭代训练方式进行再训练，具体过程如下：

A、从所有存储表中选择N个anchor样本作为第一批次训练样本(N＝M)，将该批次中N个anchor样本所对应的ID和摄像头信息存储至预设的更新表中，更新表的长度为U(U>N)；然后从所有存储表中为每个anchor样本挑选对应的positive样本和negative样本，得到N个均包含anchor样本、positive样本和negative样本的三元样本组，将三元样本组输入至网络模型中，计算每个三元样本组中样本间的欧氏距离，并根据得到的欧氏距离计算出该批次中N个样本的损失值，再利用损失值进行反向传播更新存储表；

8.根据权利要求7所述的基于TOIM损失函数的行人重识别方法，其特征在于：所述步骤A和步骤B中，损失值的计算方法为：

式中，L_TOIM表示损失值，d()表示两个样本之间的欧氏距离，f_a ⁱ表示ID为i的anchor样本，f_p ⁱ表示ID为i，但是距离与anchor样本最大的positive样本，

表示ID与anchor样本的ID不同，但是距离与anchor样本最小的negative样本。

9.根据权利要求7所述的基于TOIM损失函数的行人重识别方法，其特征在于：所述步骤B和步骤C中，利用公式v_p-c←γv_p-c+(1-γ)f更新存储表，式中p表示ID为p，c表示该ID在c摄像头下，γ∈[0,1]。