CN113128456B

CN113128456B - 一种联合图片生成的行人重识别方法

Info

Publication number: CN113128456B
Application number: CN202110485010.9A
Authority: CN
Inventors: 苏迪; 张�成; 王少博; 邱语聃; 冀瑞静
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2023-04-07
Anticipated expiration: 2041-04-30
Also published as: CN113128456A

Abstract

本发明公开了一种联合图片生成的行人重识别方法。本发明基于对抗生成网络GAN对行人图片进行重识别，并在对抗生成网络的训练过程中，使用类似无监督的学习方法，采用教师模型来预测行人图片的身份(特征信息)，指导GAN的特征编码器，更充分地利用了生成样本的信息，提升模型质量，得到精度更高的学生模型，本发明不需要引入额外的标注信息和预训练模型等，可以提高行人重识别算法在不同场景的适用性。此外，本发明还利用了三元组损失的思想，扩充数据缩短类内差异的同时，增加了类间差异，进一步提高了识别精度。

Description

一种联合图片生成的行人重识别方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种联合图片生成的行人重识别方法。

背景技术

行人重识别是指已知一个待检索的行人图片，在不重叠的相机拍摄图片数据库中检索出该行人其他图片，通常视为度量学习问题。其难点在于由不同摄像机拍摄的图片在行人外观、姿态、背景等信息上具有严重的类内差异性。同时，行人在特定视角下也会具有一定的类间相似性。随着近年深度卷积网络的发展，对行人图片更鲁棒、识别能力更强的表示让行人重识别取得巨大进展，在一些数据集上甚至表现比人类识别表现更好。

为了减小类内差异的影响，一些方法将行人图片进行部件分割，进而通过部件匹配或将部件特征直接嵌入到行人特征表示中。虽然鲁棒的度量学习策略一定程度上解决了数据不足的问题，然而引入额外的行人图片可以直接增加模型的准确性。随着生成对抗网络的发展，生成模型在扩充数据中广泛应用，一些方法通过生成新样本来扩充原数据集。但通过生成样本的方法还存在生成样本的区别信息较少、样本的身份真实度不高、生成模型与重识别模型分离等问题。

现有的技术方案通常引入姿态或语义等信息来生成样本，如2018年计算机视觉会议NeurIPS上发表的《FD-GAN:Pose-guided Feature Distilling GAN for Robust PersonRe-identification》公布了一种对行人图片提取身份信息，结合人体姿态利用GAN生成对应姿态行人图片的方法；2019年计算机视觉会议CVPR上发表的《Joint Discriminativeand Generative Learning for Person Re-identification》公布了一种将行人身份特征编码器嵌入到行人重识别模型中的联合学习框架，同时利用预训练的行人重识别模型作为教师模型对生成样本分配伪标签。然而，在实际应用中，预训练且识别精度较高的模型不一定存在。

发明内容

有鉴于此，本发明提供了一种联合图片生成的行人重识别方法，基于生成对抗网络(GAN)使用编码器解码器结构生成未标注样本，引入教师模型对生成样本进行身份预测，不需要引入额外的标注信息和预训练模型等，可提高识别精度，并提高行人重识别算法在不同场景的适用性。

本发明的联合图片生成的行人重识别方法，采用生成对抗网络完成图片生成和重识别，所述生成对抗网络包括特征编码器、结构编码器、生成器和判别器；其中，还包括教师模型，所述教师模型用于识别输入行人图片的特征信息；以所述特征编码器作为学生模型，教师模型的结构与所述特征编码器的结构一致；教师模型的参数更新方式为：当前时刻教师模型的参数为当前时刻学生模型的参数和上一时刻教师模型参数的加权和，教师模型参数的初始值取特征编码器参数的初始值；

生成对抗网络的损失函数还包括当前时刻教师模型识别的特征信息与当前时刻特征编码器识别的特征信息的一致性损失；

针对待识别的行人图片，由生成对抗网络中的特征编码器获取其特征信息，并将特征信息与样本集中数据进行比对，完成行人身份识别。

较优的，当前时刻教师模型的参数为上一时刻教师模型参数与当前时刻特征编码器参数的指数加权平均和。

较优的，生成对抗网络的损失函数还包括三元组损失，其中，三元组损失L_trip为：

其中，

为利用行人图片x_i的特征信息f_i、不同身份的行人图片x_j的结构代码s_j重构生成的图片；E_f为特征编码器；D为距离；m为设定的值。

较优的，完成生成对抗网络训练后，针对待识别的行人图片，直接由教师模型获取其特征信息，并将特征信息与样本集中数据进行比对，完成行人身份识别。

有益效果：

(1)本发明基于生成对抗网络GAN对行人图片进行重识别，并在生成对抗网络的训练过程中，使用类似无监督的学习方法，采用教师模型来预测行人图片的身份(特征信息)，指导GAN的特征编码器，更充分地利用了生成样本的信息，提升模型质量，得到精度更高的学生模型，本发明不需要引入额外的标注信息和预训练模型等，可以提高行人重识别算法在不同场景的适用性。

(2)教师模型采用加权平均方法更新模型参数，不需要通过迭代训练来更新模型参数，节约了训练时间和减小了整体模型的复杂度。

(3)本发明利用了三元组损失的思想，扩充数据缩短类内差异的同时，增加了类间差异，进一步提高了识别精度。

附图说明

图1为本发明方法的流程示意图；

图2为本发明的整体模型结构示意图；

图3为本发明的平均教师模型的结构示意图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提供了一种联合图片生成的行人重识别方法，其流程图如图1所示，具体包括如下步骤：

步骤1，从样本数据集中读取数据，获取数据集中行人图片x_i(x_i∈X，i＝1,2…,N，N为样本数据集中图片总数)及其标注身份信息y_k(y_k∈Y，k＝1,2…,K，K为样本数据集中身份类别总个数)。

步骤2，构建生成对抗网络(GAN)：

生成对抗网络(GAN)包括编码器E、生成器G和判别器D，其中，编码器又包括结构编码器E_s和特征编码器E_f；生成对抗网络的整体结构如图2所示。

将读取的带有身份标识的行人图片x_i输入至结构编码器E_s和特征编码器E_f，分别获取行人图片的结构信息s_i和特征信息f_i，其中结构信息包含图片背景、行人姿态等信息，特征信息包含与身份识别有关的信息，然后利用生成器G进行图片的重构；其中生成器G的图片重构包括自我重构和交叉重构：

(1)自我重构：

行人图片x_i通过两个方法实现自我重构：

(1-1)将行人图片x_i的特征信息f_i和结构信息s_i进行重构，生成特征信息为f_i、结构信息为s_i的重构图片

如图2中的第二行的图片所示；本重构的约束条件为重构生成图片与原行人图片保持身份一致且像素上一致，因此可通过像素上一致的方法来求解损失，即本重构使用l₁方法计算损失：

其中，G表示生成器，E表示期望计算，“|| ||₁”表示l₁损失计算方法。

(1-2)利用与图片x_i具有同一身份行人但具有其他不同结构信息的图片x_k，将图片x_i的结构信息s_i和图片x_k的特征信息f_k通过生成器G重构，生成特征信息为f_k、结构信息为s_i的图片

如图2中的第三行的图片所述；同样的，本重构的约束条件为生成图片与原行人图片保持身份一致且像素上一致，因此亦可通过像素上一致的方法来求解损失，即本重构使用l₁方法计算损失：

以上两种重构方法作为对生成器G的主要约束，后者促进了聚合相同身份的特征信息，减少类内特征的差异。

同时，本发明引入身份损失来保证不同身份的特征信息保持分离：

其中p(y_i|x_i)是基于特征信息对图片x_i的身份预测与其真实值y_i的一致性比较。公式中的log以e为底，下同。

(2)交叉重构：

交叉重构是将不同身份的两张行人图片混合生成一张图片，其中行人图片x_i提供特征编码器E_f编码的特征信息f_i、不同身份的行人图片x_j提供结构编码器E_s编码的结构信息s_j，重构生成的图片

即在x_j的结构信息s_j上保持x_i的特征信息f_i，如图2中的第一行的图片所述。由于没有真实值，无法通过图片像素上一致的方法来求解损失，但是，本重构生成图片的特征信息和结构信息，约束条件为与原输入信息保持一致，因此可认为生成图片与特征信息来源行人图片在身份特征上具有部分一致性，因此，本重构对生成图片

的特征信息和结构信息分别进行损失计算：

同样的，也使用身份损失保持其特征信息在身份上的分离：

其中

是基于特征信息对图片

的身份预测与其真实值y_i的一致性比较。

最后采用判别器D，对生成图片的真实性进行判别。

使用GAN生成图片不可避免地会引入对抗损失来保证生成图片的真实性，所述对抗损失为：

L_adv＝E[log D(x_i)+log(1-D(G(f_i,s_j)))] (7)

对于交叉重构，由于生成的交叉身份图片的身份信息难以界定，本发明除了假设与特征信息身份来源一致外，还使用教师模型来预测身份，指导GAN中特征编码器的识别。

以GAN中的特征编码器作为学生模型，构建教师模型，其中，教师模型的结构与特征编码器的结构一致，教师模型的初始参数取特征编码器的初始参数；在GAN的训练过程中，教师模型的参数随学生模型更新，而不是与学生模型一样通过损失函数来优化更新，教师模型更新为上一时刻教师模型参数和当前时刻学生模型参数的加权和。

本实施例中，当前时刻教师模型参数θ_t'采用当前时刻学生模型的参数θ_t和上一时刻的教师模型参数θ′_t-1的指数加权，即：

θ′_t＝αθ′_t-1+(1-α)θ_t (8)

其中，α是平滑系数。

采用平均权重教师模型可替代预训练重识别模型对生成图片进行身份标注，同时教师模型不通过损失函数更新，降低了整体模型的复杂度，平均权重教师模型的结构示意如图3所示。

本发明认为，在模型训练前期，教师模型比学生模型具有更高的行人重识别精度。为了使学生模型预测与教师模型一致，使用l₂损失构成二者(学生模型和教师模型)预测的一致性损失函数：

其中，

分别是教师模型和学生模型预测的身份概率分布。

此外，在交叉重构过程中，本实施例还对图片x_i、x_j、

特征信息使用三元组损失。由于生成的图片

期望在x_j的结构下保持x_i的特征，不可避免地会与x_j有特征上的相似，为了提升生成图片

身份的辨别性，引入特征分离损失，采用类似三元组的模式，使生成图片分别和两种行人身份图片的特征信息距离大于m，构成特征分离损失函数。

具体的，将上述三张图片作为一个三元组，特征编码器作为映射函数，可得到特征三元组损失：

其中，

表示

x_i特征信息的距离，

表示

x_j特征信息的距离，m为特征距离常量。

将上述损失函数(式(1)～式(7)，式(9)～式(10))加权相加，得到总损失函数：

其中，

是自我重构的损失函数，

是交叉重构中特征信息和结构信息重构的损失函数，λ_i、λ_id、λ_cons是控制损失函数重要性的权重系数。

利用样本集数据来优化特征编码器E_f、结构编码器E_s、生成器和判别器D，最终获得训练好的生成对抗网络。

针对待识别行人图片，由特征编码器识别该行人图片的特征信息，然后与样本集中数据进行比对，完成行人身份识别。

为了证明本发明方法的有效性，在Market1501和DukeMTMC-reID数据集上进行了对比实验，实验结果如表1所示，分别是基础网络、只使用平均教师损失、只使用三元组损失和二者都使用的结果。实验表明，该发明方法效果有益，使行人重识别模型准确度更高。

表1

本发明还与当前效果较好的已发表方法进行对比，结果如表2所示，上半部分为没有使用生成样本的有监督方法，下半部分为使用了生成样本的方法，我们分别测试特征编码器E_f和教师模型E_t。实验表明，本发明方法在其中非常具有挑战性且准确度更高。

表2

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种联合图片生成的行人重识别方法，采用生成对抗网络完成图片生成和重识别，所述生成对抗网络包括特征编码器、结构编码器、生成器和判别器；其特征在于，还包括教师模型，所述教师模型用于识别输入行人图片的特征信息；以所述特征编码器作为学生模型，教师模型的结构与所述特征编码器的结构一致；教师模型的参数更新方式为：当前时刻教师模型的参数为当前时刻学生模型的参数和上一时刻教师模型参数的加权和，教师模型参数的初始值取特征编码器参数的初始值；

2.如权利要求1所述的联合图片生成的行人重识别方法，其特征在于，生成对抗网络的损失函数还包括三元组损失，其中，三元组损失L_trip为：

其中，