CN115205903B - 一种基于身份迁移生成对抗网络的行人重识别方法 - Google Patents

一种基于身份迁移生成对抗网络的行人重识别方法 Download PDF

Info

Publication number
CN115205903B
CN115205903B CN202210890765.1A CN202210890765A CN115205903B CN 115205903 B CN115205903 B CN 115205903B CN 202210890765 A CN202210890765 A CN 202210890765A CN 115205903 B CN115205903 B CN 115205903B
Authority
CN
China
Prior art keywords
pedestrian
image
identity
training
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210890765.1A
Other languages
English (en)
Other versions
CN115205903A (zh
Inventor
朱容波
吴天
张�浩
李松泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong Agricultural University
Original Assignee
Huazhong Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong Agricultural University filed Critical Huazhong Agricultural University
Priority to CN202210890765.1A priority Critical patent/CN115205903B/zh
Publication of CN115205903A publication Critical patent/CN115205903A/zh
Application granted granted Critical
Publication of CN115205903B publication Critical patent/CN115205903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于身份迁移生成对抗网络的行人重识别方法,包括以下步骤:获取行人图像数据集,通过人体语义解析模型生成行人图像对应的语义图;构建行人重识别的整体模型,包括生成器、判别器和行人重识别网络;生成器与判别器形成基于语义图身份迁移的生成对抗网络,生成器与判别器之间采用对抗学习的方式进行训练;构造基于局部质量注意力机制的梯度增强方法,对生成对抗网络进行改进;建立生成对抗网络与行人重识别网络的联合训练模式;输入待识别的行人图像,通过训练好的行人重识别网络,输出行人重识别结果。本发明提升了行人重识别数据集的多样性,能有效提高生成图像的质量,提高行人重识别模型的识别精度。

Description

一种基于身份迁移生成对抗网络的行人重识别方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于身份迁移生成对抗网络的行人重识别方法。
背景技术
行人重识别是计算机视觉领域的一个重要任务,它的目的是建立行人在跨摄像机场景下的身份关联。行人重识别在视频监控和安防等领域中有着广泛的应用,它根据给定的查询图像从非重叠的相机中提取包含感兴趣的人的图像。但是不同的相机拍摄的图像的背景、视角、姿态存在较大差异,这为在跨摄像机场景下查找目标行人带来了很大的挑战。因此为了应对图像之间的差异,需要尽可能的从训练数据中学***划分或者姿态骨架等局部特征信息对行人特征对齐,增强模型的表征能力。
模型结构的改进是提升行人重识别精度的一个方面,而另外一个造成行人重识别模型难以学习到对背景、视角、姿态等差异鲁棒的表示的原因是数据集的数据多样性不足、数据规模小。行人在运动过程中姿态多变、背景杂乱,在现实场景中将各种不同情况的行人图像收集起来是不切实际的,因此导致数据集难以囊括在各种变化下的行人图像,使得行人图像数据的多样性不足。除此之外,数据量的增加也会引起标注成本的增加,导致难以构建一个大规模的数据集。随着生成模型的发展,尤其是生成对抗网络,使用生成模型扩充训练数据集的方式被越来越多的研究所采用。一些研究者通过使用随机噪声或者姿态关键点合成新的行人图像,以此扩充行人重识别数据集,增加数据集中行人姿态的多样性。但是这类方法使用的随机噪声和姿态关键点包含的先验信息太少,无法准确的引导行人特征的生成,造成生成图像中存在模糊和伪影,身份特征不够准确。这些质量较差的生成图像在行人重识别网络的训练过程中会误导模型对特征的学习,从而阻碍模型识别精度的提升,不利于模型的训练。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于身份迁移生成对抗网络的行人重识别方法。
本发明解决其技术问题所采用的技术方案是:
本发明提供一种基于身份迁移生成对抗网络的行人重识别方法,该方法包括以下步骤:
步骤1、获取行人图像数据集,通过人体语义解析模型生成行人图像对应的语义图,人体语义解析模型为行人图像中的每一个像素分配一个语义类别,并将引入语义图的行人图像划分为训练集和测试集;
步骤2、构建行人重识别的整体模型,包括生成器G、判别器D和行人重识别网络R;生成器G包括结构编码器Es、身份信息提取器Eid、解码器Gdec,生成器G与判别器D形成基于语义图身份迁移的生成对抗网络,生成器G与判别器D之间采用对抗学习的方式进行训练;
步骤3、构造基于局部质量注意力机制的梯度增强方法,对生成对抗网络进行改进;
步骤4、建立生成对抗网络与行人重识别网络的联合训练模式,输入训练集,通过生成对抗网络输出新的生成图像,与训练集中的行人图像一起用于行人重识别网络的训练,得到训练好的整体模型,并利用测试集进行测试;
步骤5、输入待识别的行人图像,通过训练好的行人重识别网络,输出行人重识别结果。
进一步地,本发明的所述步骤1中的方法包括:
获取行人图像数据集,行人图像中每个行人都具有一个行人标签,将其划分为训练集和测试集,训练集和测试集中没有重复的行人标签;行人图像对应的语义图像通过人体语义解析模型生成,人体语义解析模型为图像中的每一个像素分配一个语义类别,生成的语义图像包含20种语义类别,分别是背景、帽子、头发、手套、太阳镜、上衣、连衣裙、外套、袜子、裤子、连身裤、围巾、裙子、脸、左臂、右臂、左腿、右腿、左鞋、右鞋;根据语义类别的空间位置关系,将所有的语义类别划分为头部、上半身、下半身、鞋子和背景5个部分;利用语义图单独提取出每一个部分的特征,实现精细的特征提取;并在进行训练之前,将所有图像都统一缩放为一定的像素尺寸。
进一步地,本发明的所述步骤2中的方法包括:
基于语义图的身份迁移生成对抗网络由结构编码器Es、身份信息提取器Eid、解码器Gdec和判别器D组成,其中Es、Eid和Gdec组合为生成器G,与判别器D形成生成对抗网络,使用对抗损失进行训练;
定义训练集为
Figure BDA0003767448010000031
每一个训练样本由行人图像
Figure BDA0003767448010000041
图像的身份标签yn∈[1,K]以及行人的语义图/>
Figure BDA0003767448010000042
组成,其中N表示数据集中图像的数量,K表示数据集中身份的数量,C表示语义标签的类别数量,H和W分别表示图像的高度和宽度;
在训练生成对抗网络的过程中,随机从训练集中取出两个真实样本
Figure BDA0003767448010000043
Figure BDA0003767448010000044
其中a∈[1,N]且b∈[1,N],为了将图像xa的身份特征迁移到图像xb上,生成器G首先使用身份特征提取器Eid提取图像xa的身份信息Ia,然后使用结构编码器Es将图像xb和它对应的语义图sb编码为结构特征Fb;最后使用解码器Gdec将Ia和Fb解码为新的行人图像/>
Figure BDA0003767448010000045
即生成图像,生成图像/>
Figure BDA0003767448010000046
具有行人yb的结构特征和行人ya的身份特征。
进一步地,本发明的所述步骤2中进行身份特征迁移的方法具体包括:
在将图像xa的身份特征迁移到图像xb的过程中,首先对图像xa对应的语义图sa进行预处理;语义图sa包含了行人ya的语义信息,根据语义信息的空间位置关系,将所有的语义信息划分为头部、上半身、下半身、鞋子和背景5个部分,使用
Figure BDA0003767448010000047
表示;然后,通过身份特征提取网络Eid提取行人每个部分的身份特征,计算如下:
Figure BDA0003767448010000048
Figure BDA0003767448010000049
在计算过程中
Figure BDA00037674480100000410
被自动扩展为3维,⊙表示对应元素相乘;其中/>
Figure BDA00037674480100000411
Figure BDA00037674480100000412
为包含每个语义部分的身份信息的仿射参数;行人图像的身份信息注入通过自适应实例归一化操作实现,自适应实例归一化操作的定义如下:
Figure BDA00037674480100000413
其中μ(·)为取均值操作,σ(·)为取标准差操作;自适应实例归一化操作在实例归一化操作的基础上将仿射参数替换为条件风格信息从而达到变换风格的目的;
身份迁移存在两种情况:
当身份标签ya≠yb时,生成过程为交叉身份生成,反之则为同身份生成;在同身份生成的条件下,生成图像在训练集中存在与之对应的真实图像;为了使生成图像
Figure BDA0003767448010000051
不仅能获得行人ya的身份特征,还能保持清晰的结构特征,利用/>
Figure BDA0003767448010000056
损失对生成图像进行监督训练:
Figure BDA0003767448010000052
当身份标签yab时,图像xa与图像xb可能是同一张图像,也可能是同一身份下的不同图像,通过监督学习对生成图像进行重建,使生成器学习到完整的结构信息。
进一步地,本发明的所述步骤2中采用对抗学习的方式进行训练的具体方法包括:
生成器G与判别器D之间采用对抗学习的方式进行训练,使生成图像
Figure BDA0003767448010000053
在视觉上更加真实,生成器G与判别器D的对抗损失定义如下:
Figure BDA0003767448010000054
Figure BDA0003767448010000055
在训练过程使用WGAN-GP对抗损失进行优化,使训练过程更加稳定。
进一步地,本发明的所述步骤3中构造基于局部质量注意力机制的梯度增强方法具体包括:
局部质量注意力机制中,利用无参考图像质量评价模型BIECON对生成图像中不重叠的patch进行评分,评价完成后,生成图像中每个不重叠的patch区域都会获得一个[0,1]之间的分数,分数越靠近0则表示质量越差,反之则越好;将每个patch的质量分数作为patch中每个像素的质量分数,获取一个与输入大小相同的质量分数矩阵Q;最后,局部质量注意力机制通过如下方式实现:
M=1-Q
注意力矩阵M中值越大的像素质量越差,让生成器对该区域重点关注;
在梯度回传阶段,通过公式损失
Figure BDA0003767448010000061
和判别器的参数计算判别器的梯度ΔD,然后从判别器的梯度ΔD计算生成样本/>
Figure BDA0003767448010000062
的梯度/>
Figure BDA0003767448010000063
在标准的生成对抗网络中,生成样本的梯度将被直接用于更新生成器的参数,而基于局部质量注意力的梯度增强方法利用注意力矩阵M对生成样本的梯度/>
Figure BDA0003767448010000064
进行修改,使用对应元素的乘积实现:
Figure BDA0003767448010000065
其中α为调节权重的超参数,生成器使用修改后的梯度更新模型的参数。
进一步地,本发明的所述步骤4中进行联合训练的方法包括:
对生成图像和真实图像采用不同的损失函数,三元组损失函数被应用于生成图像的训练,公式定义如下:
Figure BDA0003767448010000066
其中B和E分别表示小批量中身份和实例的数量;fa、fp、fn分别表示从行人重识别网络中提取的锚点样本、正样本和负样本的特征向量,γ为类内距离和类间距离之间的边界超参数;三元组损失通过拉近锚点样本与正样本之间的距离,拉远负样本与锚点样本之间的距离,从而学习具有判别性的特征表示;对于真实图像,使用ID损失进行学习:
Figure BDA0003767448010000071
其中x表示训练数据集中的真实图像,p(y|x)表示x被预测为其真实身份标签y的概率;
通过优化损失的加权和组成的总体目标,联合训练生成对抗网络和行人重识别网络:
Figure BDA0003767448010000072
其中
Figure BDA0003767448010000073
是对抗损失,用于确保生成器生成视觉上真实的图像,λid、λrec、λtri是用于平衡相关损失项的超参数。
进一步地,本发明的所述步骤4中的方法还包括:
由于生成对抗网络在生成图像的过程中不会产生新的身份,因此为了防止行人重识别模型发生过拟合,对行人重识别模型采用两阶段训练方式;在第一阶段使用总体目标进行联合训练,在第二阶段引入LSRO方法对模型进一步微调;LSRO方法用于减少模型过拟合的可能性,LSRO方法为生成图像赋予一个均匀分布的标签,其定义如下:
Figure BDA0003767448010000074
其中
Figure BDA0003767448010000075
表示生成图像,k∈[1,K],因此/>
Figure BDA0003767448010000076
表示生成图像/>
Figure BDA0003767448010000077
属于每一类身份的概率均为1/K;真实图像与生成图像均使用ID损失进行训练,将真实图像与生成图像的损失统一如下:/>
Figure BDA0003767448010000078
对于真实图像,Z=0;对于生成图像,Z=1。
本发明产生的有益效果是:
(1)为了解决随机噪声和姿态关键点无法准确引导行人特征生成的问题,将语义图引入行人图像的生成过程中,提出了一种语义图引导的身份迁移生成对抗网络。借助语义图对行人不同区域的精确划分,实现对行人图像的准确编辑,提升行人图像的生成质量。通过身份迁移生成对抗网络将行人图像中的行人身份迁移到不同的行人图像上,增加行人重识别数据集的多样性,从而提升模型对背景、视角、姿态等差异的鲁棒性。
(2)为了解决生成对抗网络局部区域生成质量不均衡的问题,提出了一种基于局部质量注意力机制的梯度增强方法,使生成对抗网络不仅能从全局上对图像的生成质量进行调整,还能从局部提高图像的质量。
(3)为了使行人重识别网络更好的利用生成图像,提出了一种生成对抗网络与行人重识别网络的联合训练方式,一方面利用行人重识别网络对生成对抗网络生成图像进行分类,促进生成对抗网络的身份迁移能力,另一方面借助生成对抗网络生成的图像,使行人重识别网络学习到更加具有判别力的特征表示。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的模型的整体结构;
图2是本发明实施例的同身份迁移;
图3是本发明实施例的两阶段行人重识别网络训练;
图4是本发明实施例的基于局部质量注意力机制的梯度增强方法;
图5是本发明实施例的模型在Market-1501数据集上的身份迁移结果;
图6是本发明实施例的模型整体训练流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例一:
本发明实施例的基于身份迁移生成对抗网络的行人重识别方法,包括以下步骤:
(1)构建基于语义图的身份迁移生成对抗网络模型。
基于语义图的身份迁移生成对抗网络由结构编码器Es、身份信息提取器Eid、解码器Gdec和判别器D组成,其中Es、Eid和Gdec组合为生成器G,与判别器D形成生成对抗网络,使用对抗损失进行训练。定义训练数据集为
Figure BDA0003767448010000091
每一个训练样本由行人图像
Figure BDA0003767448010000092
图像的身份标签yn∈[1,K]以及行人的语义图像/>
Figure BDA0003767448010000093
组成,其中N表示数据集中图像的数量,K表示数据集中身份的数量,C表示语义标签的类别数量,H和W分别表示图像的高度和宽度。在训练生成对抗网络的过程中,随机从训练数据集中取出两个真实样本/>
Figure BDA0003767448010000094
和/>
Figure BDA0003767448010000095
其中a∈[1,N]且b∈[1,N],为了将图像xa的身份特征迁移到图像xb上,生成器G首先使用身份特征提取器Eid提取图像xa的身份信息Ia,然后使用结构编码器Es将图像xb和它对应的语义图sb编码为结构特征Fb。最后使用解码器Gdec将Ia和Fb解码为新的行人图像/>
Figure BDA0003767448010000096
应具有行人yb的结构特征和行人ya的身份特征。
具体而言,在将图像xa的身份特征迁移到图像xb的过程中,首先需要对图像xa对应的语义图像sa进行预处理。语义图像sa包含了行人ya的语义信息,根据语义信息的空间位置关系,将所有的语义信息大致划分为头部、上半身、下半身、鞋子和背景5个部分,使用
Figure BDA0003767448010000101
表示。然后,通过身份特征提取网络Eid提取行人每个部分的身份特征,计算如下:
Figure BDA0003767448010000102
Figure BDA0003767448010000103
在计算过程中
Figure BDA0003767448010000104
被自动扩展为3维,⊙表示对应元素相乘。其中/>
Figure BDA0003767448010000105
Figure BDA0003767448010000106
为包含每个语义部分的身份信息的仿射参数。行人图像的身份信息注入通过自适应实例归一化操作实现,自适应实例归一化操作的定义如下:
Figure BDA0003767448010000107
其中μ(·)为取均值操作,σ(·)为取标准差操作。自适应实例归一化操作在实例归一化操作的基础上将仿射参数替换为条件风格信息从而达到变换风格的目的。
通过使用语义标签,使得身份特征包含了行人图像每一个语义部分的准确特征信息,利用自适应实例归一化操作的风格迁移能力,准确的将身份信息迁移到目标图像上,使生成器G具有更加精确的身份特征迁移能力。
身份迁移存在两种情况,当身份标签ya≠yb时,生成过程为交叉身份生成,反之则为同身份生成。在同身份生成的条件下,生成图像在训练数据集中存在与之对应的真实图像。为了使生成图像
Figure BDA0003767448010000108
不仅能获得行人ya的身份特征,还能保持清晰的结构特征,利用/>
Figure BDA00037674480100001010
损失对生成图像进行监督训练:
Figure BDA0003767448010000109
当身份标签yab时,图像xa与图像xb可能是同一张图像,也可能是同一身份下的不同图像,通过监督学习对生成图像进行重建,使生成器学习到完整的结构信息。
生成图像
Figure BDA0003767448010000111
应能正确的获得行人ya的身份特征,为此行人重识别网络被用于约束生成图像/>
Figure BDA0003767448010000112
的身份。通过行人重识别网络对生成图像/>
Figure BDA0003767448010000113
进行判别,应用身份损失函数对生成图像/>
Figure BDA0003767448010000114
进行约束,具体表示如下:/>
Figure BDA0003767448010000115
其中
Figure BDA0003767448010000116
表示/>
Figure BDA0003767448010000117
被预测为图像xa的类别标签ya的概率。通过最小化生成器的身份损失/>
Figure BDA0003767448010000118
使得生成器学习到行人重识别网络的身份特征知识。
生成器与判别器之间采用对抗学习的方式进行训练,使生成图像
Figure BDA0003767448010000119
在视觉上更加真实。生成器与判别器的对抗损失定义如下:
Figure BDA00037674480100001110
Figure BDA00037674480100001111
在训练过程使用WGAN-GP对抗损失进行优化,使训练过程更加稳定。
(2)构造基于局部质量注意力机制的梯度增强方法。
生成器与判别器之间通过对抗学习的方式进行训练,生成器应生成尽可能真实的图像用以迷惑判别器,判别器需要将生成的图像与真实图像区分开来。在生成器的训练阶段,判别器将生成图像作为输入并预测其真假。然后,基于预测计算损失值,该损失值最终被判别器用于提供反馈信息给生成器。生成器利用反馈信息更新其参数,提升图像的生成能力,使生成图像视觉上更加真实。基于以上分析,观察到判别器提供的反馈信息仅通过一个值计算得到,该值代表着整幅图像的真假,而忽视了图像中局部区域生成不均衡的问题。不均衡表现为生成图像的局部区域存在伪影、模糊等现象,它们会进一步影响行人重识别网络对生成图像的身份判别,为此本发明提出了基于局部质量注意力的梯度增强方法,兼顾图像的局部质量和全局质量。
所提出的方法由局部质量注意力机制和梯度增强两部分组成。局部质量注意力机制的作用是找出生成图像中局部生成较差的区域,使生成器更多的关注到局部区域的生成。利用无参考图像质量评价模型BIECON对生成图像中不重叠的patch进行评分,评价完成后,生成图像中每个不重叠的patch区域都会获得一个[0,1]之间的分数,分数越靠近0则表示质量越差,反之则越好。将每个patch的质量分数作为patch中每个像素的质量分数,因此可以获取一个与输入大小相同的质量分数矩阵Q。最后,局部质量注意力机制通过如下方式实现:
M=1-Q#(8)
注意力矩阵M中值越大的像素质量越差,应该让生成器对该区域重点关注。在梯度回传阶段,通过公式损失
Figure BDA0003767448010000121
和判别器的参数计算判别器的梯度ΔD,然后从判别器的梯度ΔD计算生成样本/>
Figure BDA0003767448010000122
的梯度/>
Figure BDA0003767448010000123
在标准的生成对抗网络中,生成样本的梯度将被直接用于更新生成器的参数,而基于局部质量注意力的梯度增强方法利用注意力矩阵M对生成样本的梯度/>
Figure BDA0003767448010000124
进行修改,使用对应元素的乘积实现:
Figure BDA0003767448010000125
其中α为调节权重的超参数,遵循XAI-GAN设置α=0.2。生成器使用修改后的梯度更新模型的参数,在直觉上,注意力矩阵通过增加较差质量区域的梯度指引生成器更加关注局部区域的生成情况,使模型不仅可以提升图像整体的质量,还能从局部对图像质量进一步优化。
(3)建立生成对抗网络与行人重识别网络的联合训练模式。
行人重识别网络的训练与生成对抗网络联合进行,生成对抗网络生成的新的行人图像将与训练数据集中的真实图像一起用于行人重识别网络的训练。生成图像的身份信息来源于提供身份特征的图像,因此生成图像的身份标签在理论上应与提供身份特征的图像一致。但是,生成对抗网络的训练是一个渐进的过程,在训练的早期,生成图像的质量并不完美,无法实现准确的身份迁移。因此,直接将身份标签应用于生成图像会误导行人重识别网络对身份特征的学习,进而影响身份迁移的准确性,导致训练的不稳定,甚至崩溃。为了避免以上问题,对生成图像和真实图像采用不同的损失函数。难样本挖掘三元组损失函数被应用于生成图像的训练,公式定义如下:
Figure BDA0003767448010000131
其中B和E分别表示小批量中身份和实例的数量。fa、fp、fn分别表示从行人重识别网络中提取的锚点样本、正样本和负样本的特征向量,γ为类内距离和类间距离之间的边界超参数,在实验中γ设置为0.3。三元组损失通过拉近锚点样本与正样本之间的距离,拉远负样本与锚点样本之间的距离,从而学习具有判别性的特征表示。对于真实图像,使用ID损失进行学习:
Figure BDA0003767448010000132
其中x表示训练数据集中的真实图像,p(y|x)表示x被预测为其真实身份标签y的概率。
通过优化损失(4)、(5)、(6)、(7)、(10)和(11)的加权和组成的总体目标,联合训练生成对抗网络和行人重识别网络:
Figure BDA0003767448010000133
其中
Figure BDA0003767448010000134
是对抗损失,用于确保生成器生成视觉上真实的图像,λid、λrec、λtri是用于平衡相关损失项的超参数。
由于生成对抗网络在生成图像的过程中不会产生新的身份,因此为了防止行人重识别模型发生过拟合,对行人重识别模型采用如图3所示的两阶段训练方式。在第一阶段使用上面提到的总体目标进行联合训练,在第二阶段引入LSRO方法对模型进一步微调。LSRO方法用于减少模型过拟合的可能性,LSRO方法为生成图像赋予一个均匀分布的标签,其定义如下:
Figure BDA0003767448010000141
其中
Figure BDA0003767448010000142
表示生成图像,k∈[1,K],因此/>
Figure BDA0003767448010000143
表示生成图像/>
Figure BDA0003767448010000144
属于每一类身份的概率均为1/K。真实图像与生成图像均使用ID损失进行训练,结合公式(5)将真实图像与生成图像的损失统一如下:
Figure BDA0003767448010000145
对于真实图像,Z=0。对于生成图像,Z=1。
实施例二:
本发明实施例的基于身份迁移生成对抗网络的行人重识别方法,包括以下步骤:
(1)训练数据集准备
获取Market-1501数据集,该数据集采集自清华大学校园的6个摄像头,一共标注了1501个行人。其中,751个行人标注用于训练集,750个行人标注用于测试集,训练集和测试集中没有重复的行人标签。行人图像对应的语义图像通过人体语义解析模型(SelfCorrection for Human Parsing)生成,人体语义解析模型为图像中的每一个像素分配一个语义类别,生成的语义图像包含20种语义类别,分别是背景、帽子、头发、手套、太阳镜、上衣、连衣裙、外套、袜子、裤子、连身裤、围巾、裙子,脸,左臂,右臂,左腿,右腿,左鞋,右鞋。根据语义类别的空间位置关系,将所有的语义类别大致划分为头部、上半身、下半身、鞋子和背景5个部分。在身份迁移的过程中,利用语义图单独提取出每一个部分的特征,实现精细的特征提取,然后将这些特征分别注入到生成对抗网络中,生成特征更加精确的行人图像。在进行训练之前,所有输入图像都被统一缩放为256×128的像素尺寸。
(2)模型构建
所有模型通过深度学***均池化获得自适应实例归一化参数I,所有Eid共享网络参数。生成器G使用五个残差块将不同语义区域的身份信息分别注入结构特征F中,遵循论文MUNIT每个残差块包含两个自适应实例归一化层。判别器D遵循流行的PatchGAN结构。行人重识别网络R的结构基于ResNet50,使用ImageNet上的预训练参数对其初始化并将全连接层的维度修改为K,K表示训练数据集中身份的数量。
(3)联合训练生成对抗网络与行人重识别网络
在训练时,生成对抗网络和行人重识别网络都使用Adam优化器进行训练,并设置参数β1=0.5,β2=0.999。总体损失中的参数设置为λid=1、λrec=10、λtri=1。在第一阶段的训练中,生成对抗网络与行人重识别网络联合训练,生成器和判别器的学习率均设置为0.0001,行人重识别网络的学习率设置为0.00035。批量大小设置为32,在一个批量数据中身份数量B设置为8,实例数量E设置为4。在第二阶段,停止生成对抗网络的训练,使用LSRO损失对行人重识别网络进行微调。在整个实验中,所有输入图像都被调整为256×128的大小,为了去除原始身份信息的影响,结构编码器Es的输入图像被转换为灰度图像。
(4)实验分析
模型的评估分为图像生成评估和行人重识别评估。图像生成评估通过使用生成对抗网络将行人图像的身份迁移到不同图像上进行展示,生成结果如图5所示。在图5中,第一列图像表示身份的来源图像,第一行表示身份迁移的目标图像,目标图像提供身份迁移中的结构信息。图5中的其他图像为身份迁移后的图像,可以从图像中看出,生成图像较好的保留了目标图像的结构信息,并且精准的完成了身份信息的迁移,显示出本发明中的身份迁移生成对抗网络具有较好的图像生成能力和身份迁移能力。模型的行人重识别评估标准包括(1)Rank-n值,该值表示在查询结果的前n张图像中至少有1张图像符合查询结果的概率;(2)mAP(mean average precision),该值反应检索的人在查询数据库中所有正确的图片排在查询结果前面的程度。本发明的行人重识别网络在Market-1501测试数据集上的Rank-1值上达到了93.9%的准确度,在mAP上达到了83.5%。这说明本发明通过使用生成对抗网络将行人图像的身份迁移到不同图像上,有效的扩充了训练数据集的多样性,提升了行人重识别网络对背景、视角、姿态等差异的鲁棒性。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (6)

1.一种基于身份迁移生成对抗网络的行人重识别方法,其特征在于,该方法包括以下步骤:
步骤1、获取行人图像数据集,通过人体语义解析模型生成行人图像对应的语义图,人体语义解析模型为行人图像中的每一个像素分配一个语义类别,并将引入语义图的行人图像划分为训练集和测试集;
步骤2、构建行人重识别的整体模型,包括生成器G、判别器D和行人重识别网络R;生成器G包括结构编码器Es、身份信息提取器Eid、解码器Gdec,生成器G与判别器D形成基于语义图身份迁移的生成对抗网络,生成器G与判别器D之间采用对抗学习的方式进行训练;
所述步骤2中的方法包括:
基于语义图的身份迁移生成对抗网络由结构编码器Es、身份信息提取器Eid、解码器Gdec和判别器D组成,其中Es、Eid和Gdec组合为生成器G,与判别器D形成生成对抗网络,使用对抗损失进行训练;
定义训练集为
Figure FDA0004085680940000011
每一个训练样本由行人图像/>
Figure FDA0004085680940000012
图像的身份标签yn∈[1,K]以及行人的语义图/>
Figure FDA0004085680940000013
组成,其中N表示数据集中图像的数量,K表示数据集中身份的数量,C表示语义标签的类别数量,H和W分别表示图像的高度和宽度;
在训练生成对抗网络的过程中,随机从训练集中取出两个真实样本
Figure FDA0004085680940000014
和/>
Figure FDA0004085680940000015
其中a∈[1,N]且b∈[1,N],为了将图像xa的身份特征迁移到图像xb上,生成器G首先使用身份特征提取器Eid提取图像xa的身份信息Ia,然后使用结构编码器Es将图像xb和它对应的语义图sb编码为结构特征Fb;最后使用解码器Gdec将Ia和Fb解码为新的行人图像/>
Figure FDA0004085680940000021
即生成图像,生成图像/>
Figure FDA0004085680940000022
具有行人yb的结构特征和行人ya的身份特征;
步骤3、构造基于局部质量注意力机制的梯度增强方法,对生成对抗网络进行改进;
所述步骤3中构造基于局部质量注意力机制的梯度增强方法具体包括:
局部质量注意力机制中,利用无参考图像质量评价模型BIECON对生成图像中不重叠的patch进行评分,评价完成后,生成图像中每个不重叠的patch区域都会获得一个[0,1]之间的分数,分数越靠近0则表示质量越差,反之则越好;将每个patch的质量分数作为patch中每个像素的质量分数,获取一个与输入大小相同的质量分数矩阵Q;最后,局部质量注意力机制通过如下方式实现:
M=1-Q
注意力矩阵M中值越大的像素质量越差,让生成器对该区域重点关注;
在梯度回传阶段,通过公式损失
Figure FDA0004085680940000023
和判别器的参数计算判别器的梯度ΔD,然后从判别器的梯度ΔD计算生成样本/>
Figure FDA0004085680940000024
的梯度/>
Figure FDA0004085680940000025
在标准的生成对抗网络中,生成样本的梯度将被直接用于更新生成器的参数,而基于局部质量注意力的梯度增强方法利用注意力矩阵M对生成样本的梯度/>
Figure FDA0004085680940000026
进行修改,使用对应元素的乘积实现:
Figure FDA0004085680940000027
其中α为调节权重的超参数,生成器使用修改后的梯度更新模型的参数;
步骤4、建立生成对抗网络与行人重识别网络的联合训练模式,输入训练集,通过生成对抗网络输出新的生成图像,与训练集中的行人图像一起用于行人重识别网络的训练,得到训练好的整体模型,并利用测试集进行测试;
步骤5、输入待识别的行人图像,通过训练好的行人重识别网络,输出行人重识别结果。
2.根据权利要求1所述的基于身份迁移生成对抗网络的行人重识别方法,其特征在于,所述步骤1中的方法包括:
获取行人图像数据集,行人图像中每个行人都具有一个行人标签,将其划分为训练集和测试集,训练集和测试集中没有重复的行人标签;行人图像对应的语义图像通过人体语义解析模型生成,人体语义解析模型为图像中的每一个像素分配一个语义类别,生成的语义图像包含20种语义类别,分别是背景、帽子、头发、手套、太阳镜、上衣、连衣裙、外套、袜子、裤子、连身裤、围巾、裙子、脸、左臂、右臂、左腿、右腿、左鞋、右鞋;根据语义类别的空间位置关系,将所有的语义类别划分为头部、上半身、下半身、鞋子和背景5个部分;利用语义图单独提取出每一个部分的特征,实现精细的特征提取;并在进行训练之前,将所有图像都统一缩放为一定的像素尺寸。
3.根据权利要求1所述的基于身份迁移生成对抗网络的行人重识别方法,其特征在于,所述步骤2中进行身份特征迁移的方法具体包括:
在将图像xa的身份特征迁移到图像xb的过程中,首先对图像xa对应的语义图sa进行预处理;语义图sa包含了行人ya的语义信息,根据语义信息的空间位置关系,将所有的语义信息划分为头部、上半身、下半身、鞋子和背景5个部分,使用
Figure FDA0004085680940000031
表示;然后,通过身份特征提取网络Eid提取行人每个部分的身份特征,计算如下:
Figure FDA0004085680940000032
Figure FDA0004085680940000033
在计算过程中
Figure FDA0004085680940000034
被自动扩展为3维,⊙表示对应元素相乘;其中/>
Figure FDA0004085680940000041
和/>
Figure FDA0004085680940000042
为包含每个语义部分的身份信息的仿射参数;行人图像的身份信息注入通过自适应实例归一化操作实现,自适应实例归一化操作的定义如下:
Figure FDA0004085680940000043
其中μ(·)为取均值操作,σ(·)为取标准差操作;自适应实例归一化操作在实例归一化操作的基础上将仿射参数替换为条件风格信息从而达到变换风格的目的;
身份迁移存在两种情况:
当身份标签ya≠yb时,生成过程为交叉身份生成,反之则为同身份生成;在同身份生成的条件下,生成图像在训练集中存在与之对应的真实图像;为了使生成图像
Figure FDA0004085680940000044
不仅能获得行人ya的身份特征,还能保持清晰的结构特征,利用l1损失对生成图像进行监督训练:
Figure FDA0004085680940000045
当身份标签ya=yb时,图像xa与图像xb可能是同一张图像,也可能是同一身份下的不同图像,通过监督学习对生成图像进行重建,使生成器学习到完整的结构信息。
4.根据权利要求3所述的基于身份迁移生成对抗网络的行人重识别方法,其特征在于,所述步骤2中采用对抗学习的方式进行训练的具体方法包括:
生成器G与判别器D之间采用对抗学习的方式进行训练,使生成图像
Figure FDA0004085680940000046
在视觉上更加真实,生成器G与判别器D的对抗损失定义如下:
Figure FDA0004085680940000047
Figure FDA0004085680940000048
在训练过程使用WGAN-GP对抗损失进行优化,使训练过程更加稳定。
5.根据权利要求1所述的基于身份迁移生成对抗网络的行人重识别方法,其特征在于,所述步骤4中进行联合训练的方法包括:
对生成图像和真实图像采用不同的损失函数,三元组损失函数被应用于生成图像的训练,公式定义如下:
Figure FDA0004085680940000051
其中B和E分别表示小批量中身份和实例的数量;fa、fp、fn分别表示从行人重识别网络中提取的锚点样本、正样本和负样本的特征向量,γ为类内距离和类间距离之间的边界超参数;三元组损失通过拉近锚点样本与正样本之间的距离,拉远负样本与锚点样本之间的距离,从而学习具有判别性的特征表示;对于真实图像,使用ID损失进行学习:
Figure FDA0004085680940000052
其中x表示训练数据集中的真实图像,p(y|x)表示x被预测为其真实身份标签y的概率;
通过优化损失的加权和组成的总体目标,联合训练生成对抗网络和行人重识别网络:
Figure FDA0004085680940000053
其中
Figure FDA0004085680940000054
是对抗损失,用于确保生成器生成视觉上真实的图像,λid、λrec、λtri是用于平衡相关损失项的超参数。
6.根据权利要求5所述的基于身份迁移生成对抗网络的行人重识别方法,其特征在于,所述步骤4中的方法还包括:
由于生成对抗网络在生成图像的过程中不会产生新的身份,因此为了防止行人重识别模型发生过拟合,对行人重识别模型采用两阶段训练方式;在第一阶段使用总体目标进行联合训练,在第二阶段引入LSRO方法对模型进一步微调;LSRO方法用于减少模型过拟合的可能性,LSRO方法为生成图像赋予一个均匀分布的标签,其定义如下:
Figure FDA0004085680940000061
其中
Figure FDA0004085680940000062
表示生成图像,k∈[1,K],因此/>
Figure FDA0004085680940000063
表示生成图像/>
Figure FDA0004085680940000064
属于每一类身份的概率均为1/K;真实图像与生成图像均使用ID损失进行训练,将真实图像与生成图像的损失统一如下:/>
Figure FDA0004085680940000065
对于真实图像,Z=0;对于生成图像,Z=1。
CN202210890765.1A 2022-07-27 2022-07-27 一种基于身份迁移生成对抗网络的行人重识别方法 Active CN115205903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210890765.1A CN115205903B (zh) 2022-07-27 2022-07-27 一种基于身份迁移生成对抗网络的行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210890765.1A CN115205903B (zh) 2022-07-27 2022-07-27 一种基于身份迁移生成对抗网络的行人重识别方法

Publications (2)

Publication Number Publication Date
CN115205903A CN115205903A (zh) 2022-10-18
CN115205903B true CN115205903B (zh) 2023-05-23

Family

ID=83583415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210890765.1A Active CN115205903B (zh) 2022-07-27 2022-07-27 一种基于身份迁移生成对抗网络的行人重识别方法

Country Status (1)

Country Link
CN (1) CN115205903B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116276956B (zh) * 2022-12-01 2023-12-08 北京科技大学 定制化药物制备的机器人操作技能模仿学习方法及装置
CN117351522A (zh) * 2023-12-06 2024-01-05 云南联合视觉科技有限公司 基于风格注入与跨视角难样本挖掘的行人重识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688897A (zh) * 2019-08-23 2020-01-14 深圳久凌软件技术有限公司 一种基于联合判断与生成学习的行人重识别方法及装置
CN111126155A (zh) * 2019-11-25 2020-05-08 天津师范大学 一种基于语义约束生成对抗网络的行人再识别方法
CN112949608A (zh) * 2021-04-15 2021-06-11 南京邮电大学 基于孪生语义自编码器和分支融合的行人重识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723611A (zh) * 2019-03-20 2020-09-29 北京沃东天骏信息技术有限公司 行人再识别方法、装置及存储介质
CN110659586B (zh) * 2019-08-31 2022-03-15 电子科技大学 一种基于身份保持循环式生成式对抗网络的步态识别方法
CN110688966B (zh) * 2019-09-30 2024-01-09 华东师范大学 语义指导的行人重识别方法
CN111666851B (zh) * 2020-05-28 2022-02-15 大连理工大学 一种基于多粒度标签的交叉域自适应行人重识别方法
CN111783603A (zh) * 2020-06-24 2020-10-16 有半岛(北京)信息科技有限公司 生成对抗网络训练方法、图像换脸、视频换脸方法及装置
CN113592982B (zh) * 2021-09-29 2022-09-27 北京奇艺世纪科技有限公司 身份迁移模型构建方法、装置、电子设备及可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688897A (zh) * 2019-08-23 2020-01-14 深圳久凌软件技术有限公司 一种基于联合判断与生成学习的行人重识别方法及装置
CN111126155A (zh) * 2019-11-25 2020-05-08 天津师范大学 一种基于语义约束生成对抗网络的行人再识别方法
CN112949608A (zh) * 2021-04-15 2021-06-11 南京邮电大学 基于孪生语义自编码器和分支融合的行人重识别方法

Also Published As

Publication number Publication date
CN115205903A (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
Shin et al. Pepsi++: Fast and lightweight network for image inpainting
CN108846358B (zh) 一种基于孪生网络进行特征融合的目标跟踪方法
Peng et al. Syn2real: A new benchmark forsynthetic-to-real visual domain adaptation
CN115205903B (zh) 一种基于身份迁移生成对抗网络的行人重识别方法
CN108416266B (zh) 一种利用光流提取运动目标的视频行为快速识别方法
CN109598268A (zh) 一种基于单流深度网络的rgb-d显著目标检测方法
CN111160264B (zh) 一种基于生成对抗网络的漫画人物身份识别方法
Geng et al. Human action recognition based on convolutional neural networks with a convolutional auto-encoder
Li et al. Effective person re-identification by self-attention model guided feature learning
Liu et al. A 3 GAN: an attribute-aware attentive generative adversarial network for face aging
CN112364791B (zh) 一种基于生成对抗网络的行人重识别方法和***
Wu et al. Condition-aware comparison scheme for gait recognition
Sinha et al. Identity-preserving realistic talking face generation
CN111783521A (zh) 基于低秩先验引导的域不变信息分离的行人重识别方法
CN112801019B (zh) 基于合成数据消除无监督车辆再识别偏差的方法及***
CN113870157A (zh) 一种基于CycleGAN的SAR图像合成方法
CN111783698A (zh) 一种基于提高人脸识别模型训练稳定性的方法
Zhang et al. Lightweight texture correlation network for pose guided person image generation
Premalatha et al. Improved gait recognition through gait energy image partitioning
Chen et al. Pose-guided spatial alignment and key frame selection for one-shot video-based person re-identification
Li et al. Foldover features for dynamic object behaviour description in microscopic videos
Tian et al. End-to-end thorough body perception for person search
CN107392246A (zh) 一种基于特征模型到背景模型距离的背景建模方法
Duan et al. An approach to dynamic hand gesture modeling and real-time extraction
Liu et al. Fast tracking via spatio-temporal context learning based on multi-color attributes and pca

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant