CN111325115B - 带有三重约束损失的对抗跨模态行人重识别方法和*** - Google Patents

带有三重约束损失的对抗跨模态行人重识别方法和*** Download PDF

Info

Publication number
CN111325115B
CN111325115B CN202010080573.5A CN202010080573A CN111325115B CN 111325115 B CN111325115 B CN 111325115B CN 202010080573 A CN202010080573 A CN 202010080573A CN 111325115 B CN111325115 B CN 111325115B
Authority
CN
China
Prior art keywords
pedestrian
modal
cross
identification
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010080573.5A
Other languages
English (en)
Other versions
CN111325115A (zh
Inventor
张化祥
蔡鑫
刘丽
朱磊
孙建德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN202010080573.5A priority Critical patent/CN111325115B/zh
Publication of CN111325115A publication Critical patent/CN111325115A/zh
Application granted granted Critical
Publication of CN111325115B publication Critical patent/CN111325115B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

本公开提供了一种带有三重约束损失的对抗跨模态行人重识别方法和***,划分训练集和待识别的测试集,并进行预处理;构建包括生成器网络结构和判别器网络结构的对抗双路网络框架;将训练集中的可视光图像和热感图像对数据分别输入生成器中的可视光支路和热感支路以获得不同模态的特定行人特征;将特定模态的行人特征投影到公共的特征表示空间;根据公共特征表示空间中可视光图片和热感图片的行人特征,学习生成器,即进行三重约束,并学习判别器;对生成器和判别器进行对抗训练,优化公共表示空间,得到最终的网络模型;利用最终的网络模型对测试集进行跨模态行人重识别,得到识别结果。能极大地提高跨模态行人重识别的准确率。

Description

带有三重约束损失的对抗跨模态行人重识别方法和***
技术领域
本公开属于跨模态行人重识别领域和深度学习领域,具体涉及一种带有三重约束损失的对抗跨模态行人重识别方法和***。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
在智能视频监控领域中,由于相机分辨率和拍摄视角等因素的影响,通常很难获得高质量的人脸图片,当人脸识别失效时,行人重识别技术就显得尤为得重要。实际上,行人重识别就是一个行人检索过程,它就是在由不相交的照相机拍摄的行人图片组成的画廊中,搜索与给定查询图片中行人身份相同的行人图片。
近几年,由于深度学习的快速发展,行人重识别在行人检索、跨摄像机跟踪等方面得到了广泛的应用,吸引着计算机视觉社区的越来越多的关注。现存的行人重识别研究主要可以分为两个方面:特征提取、距离度量学习。前者从行人图片中学习具有判别性的特征表示;后者学习相似性度量,使得相同行人之间的距离变近,不同行人之间的距离变远。这些研究主要是在由可视光相机拍摄的彩色图片中进行的,所以只能解决光照充足情况下的识别任务。然而,在实际应用中,探针图片和画廊图片可能由不同的光谱相机捕获。在这时,跨模态的行人重识别就会发挥重要作用。跨模态的行人重识别主要关注匹配异质图片,即使用某个行人的彩色(热感)图片去搜索不相交摄像机下的该行人的热感(彩色)图片。
据发明人了解,与传统的只使用彩色图片的行人重识别相比,跨模态的行人重识别研究相对较少。其中,一种针对单流网络的深度零填充方法(deepzero-paddingmethod)是第一个被提出以解决彩色-红外跨模态行人重识别问题的方法。它学习行人图片模态不变性的特征表示,但是由于它只使用行人身份信息,所以它得到的特征表示的判别力是有限的。分层地判别性学习框架提出了一个两阶段的方法,一个双流的卷积神经网络(TONE)和一个分层的跨模态度量学习方法(HCML)。但是这个框架并不是以一种端到端的方式训练的,它需要人工的干预,所以这个方法并不适合大规模的现实应用。跨模态生成对抗网络(cmGAN)首次将对抗训练的思想引入到跨模态的行人重识别问题中,并且设计了一个新颖的损失函数以引导网络学习判别性的特征表示。但是生成器中不共享参数的三流网络结构使得它在对抗训练过程中需要非常长的时间。
实际上,跨模态的行人重识别问题中存在的挑战可以概括为两个方面。一方面,由于可视光相机和热感相机的反射光谱不同,在可视光域和热感域之间存在着巨大的跨模态差异;另一方面,由于相机视角、行人姿势、遮挡、背景等因素的影响,跨模态行人重识别还遭受着巨大的模态间、模态内的类内变化问题。
发明内容
本公开为了解决上述问题,提出了一种带有三重约束损失的对抗跨模态行人重识别方法和***,本公开能极大提高跨模态行人重识别的准确率。
根据一些实施例,本公开采用如下技术方案:
本公开的第一目的是提供一种带有三重约束损失的对抗跨模态行人重识别方法,包括以下步骤:
接收图像数据集,划分得到训练集和待识别的测试集,并进行预处理;
构建包括生成器网络结构和判别器网络结构的对抗双路网络框架;
将训练集中的可视光图像和热感图像对数据分别输入生成器中的可视光支路和热感支路以获得不同模态的特定行人特征;
将特定模态的行人特征投影到公共的特征表示空间;
根据公共特征表示空间中可视光图片和热感图片的行人特征,学习生成器,进行三重约束,并学习判别器;
对生成器和判别器进行对抗训练,优化公共表示空间,得到最终的网络模型;
利用最终的网络模型对测试集进行跨模态行人重识别,得到识别结果。
上述技术方案中,通过构建对抗双流网络框架,能够同时处理跨模态行人重识别中存在的跨模态差异问题以及模态间的、模态内的类内变化问题。该框架主要包括两个部分,一个生成器和一个判别器。生成器用于提取特定模态的行人特征,然后,将学习到的特征映射到一个公共的特征表示空间以获得多模态共享特征。两个模态的差异和共性同时被考虑到。解决了现有技术中由于可视光相机和热感相机的反射光谱不同,在可视光域和热感域之间存在着巨大的跨模态差异的问题。
同时,利用三重约束损失来引导生成器的训练,用来判别行人特征来自可视域还是热感域,生成器和判别器在进行最大最小博弈对抗的训练过程中得到优化,从而生成器能够学习到更具有判别性的行人特征,能极大提高跨模态行人重识别的准确率。能够解决现有技术中巨大的模态间、模态内的类内变化问题。
作为可选择的实施方式,对训练集进行预处理的具体过程包括调整图片的大小,然后进行随机裁剪和水平翻转以进行数据增强。
作为可选择的实施方式,所述的生成器网络结构是一个包含可视光支路和热感支路的双路卷积神经网络结构,两条支路结构相同但参数不共享,均采用预训练好的卷积神经网络,使用Resnt-50去掉最后一个全连接层的其余部分,之后,连接一个共享参数的全连接层。
所述的判别器为模态分类器,采用一个三层的前馈全连接网络,每一个全连接层之后跟着一个批归一化层以加快网络的收敛速度,增加训练的稳定性。
作为可选择的实施方式,所述的不同模态的特定行人特征就是将可视光图片和热感图片分别输入生成器网络的相应支路,经过去掉最后一个全连接层的Resnt-50得到的特征。
作为可选择的实施方式,所述的投影至公共特征空间即将上一步得到的特定模态行人特征通过一个共享权重的全连接层映射到一个公共表示空间。
作为可选择的实施方式,所述的三重约束过程包括:
行人身份约束:将公共表示空间中的可视光图像和热感图像特征数据,经过一层的全连接层,得到概率函数,根据真实行人身份标签和得到的概率函数计算行人身份的交叉熵损失,公式为:
Figure BDA0002380164550000051
Figure BDA0002380164550000052
表示概率函数,xi代表第i个可视光图像在公共表示空间中的特征,zi代表第i个热感图像在公共表示空间中的特征,N表示训练过程中一个块中的图片数量,θid表示相应的网络结构的参数。
跨模态难样本挖掘四元组约束:上述公共表示空间中的特征经过一个批归一化层,再进行L2正则化得到构建四元组的行人特征。给定一个训练块,它包括N张可视光图像和N张热感图像,同时可视光域中N张图片的行人身份和热感域中N张图片的行人身份相同;为训练过程中的每一个批块中的2N张图片在线构建四元组{xa,xm,zp,zl},其中a和p共享相同的身份,m和l具有不同的身份,a和m可能具有相同的身份也可能具有不同的身份。它同时考虑了包含相同身份查询图片和不同身份查询图片的跨模态正负样本对之间的距离,并且应用了难样本挖掘的思想,在一个训练批块中挑选最不相似的(距离最远)的正样本和最相似的(距离最近的)负样本对,过滤掉简单的样本最佳了训练模型的鲁棒性。由于查询图片可能是可视光图片也可能是热感图片,所以跨模态难样本挖掘四元组损失包括两部分,分别用于计算不同情况查询图片的损失,增加了查询设置的鲁棒性,具体公式为:
Figure BDA0002380164550000061
α是边缘距离,N是训练批块的大小,[x]+=max(0,x),D(·)是距离测量,本方法用的是欧氏距离,θV和θT分别表示可视支路和热感支路的网络参数。
同质约束:用于解决由于相机视角差异、行人姿势变化、遮挡等因素造成的巨大模态间、模态内的类内变化问题,公式如下:
Figure BDA0002380164550000062
ξ是边缘距离,a和q表示不同的行人身份,同质约束确保在同一个模态中的不同的行人被推开至少ξ的距离。
作为可选择的实施方式,学习生成器即计算下述生成器目标函数:
LGVTid)=λ1LqhVT)+λ2LhomoVT)+λ3Lidid)
其中,λ1、λ2、λ3分别表示超参数。
作为可选择的实施方式,学习判别器即计算下述判别器目标函数:
Figure BDA0002380164550000071
θD是判别器的参数,si是模态标签,D(·)是判别器的输出,即输入特征的模态概率。
作为可选择的实施方式,进行对抗训练,优化共同表示空间包括:
根据得到的生成器损失和判别器损失得到最终的目标函数,如下:
Figure BDA0002380164550000072
Figure BDA0002380164550000073
其中,μ是超参数。
作为可选择的实施方式,利用随机梯度下降法对最终的目标函数进行优化,直到从共同空间中随机抽取一个样本,模态分类器不能预测出其原始模态,得到最终的共同空间。
把可视光图像的测试样本和热感图像的测试样本输入训练好的生成器网络模型,可以得到可视光图片和热感图片的判别性特征表示,可以求得查询样本和待检索的样本两两之间的欧式距离,并将该距离从小到大排序,距离越小的代表与查询样本越匹配。
本公开的第二目的是提供一种带有三重约束损失的对抗跨模态行人重识别***,包括:
数据预处理模块,被配置为将图像数据集划分得到训练集和待识别的测试集,并进行预处理;
网络模型构建模块,被配置为构建包括生成器网络结构和判别器网络结构的对抗双路网络框架;
三重约束模块,被配置为将训练集中的可视光图像和热感图像对数据分别输入生成器中的可视光支路和热感支路以获得不同模态的特定行人特征;将特定模态的行人特征投影到公共的特征表示空间;根据公共特征表示空间中可视光图片和热感图片的行人特征,学习生成器,即进行三重约束,并学习判别器;
对抗训练模块,被配置为对生成器和判别器进行对抗训练,优化公共表示空间,得到最终的网络模型;
识别模块,被配置为利用最终的网络模型对测试集进行跨模态行人重识别,得到识别结果。
本公开的第三目的是提供一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种带有三重约束损失的对抗跨模态行人重识别方法。
本公开的第四目的是提供一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种带有三重约束损失的对抗跨模态行人重识别方法。
与现有技术相比,本公开的有益效果为:
本公开通过构建对抗双路网络结构(ADPN),该结构包括生成器和判别器两个部分。生成器中不共享权重的双支路结构用于分别提取不同模态的行人特定特征,之后一个共享权重的全连接层又将其映射到一个公共表示空间,同时考虑了模态之间的差异和共性。
本公开利用三重约束损失来引导生成器的训练,其中,跨模态难样本四元组损失和同质损失同时处理了模态间以及模态内的类内变化,融入的身份损失很好的利用了行人特定的身份信息;利用对抗学习更好地学习了可视光模态和热感模态的公共空间,能极大地提高跨模态行人重识别的准确率。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1是实施例一的流程示意图;
图2是实施例一的网络模型架构图。
具体实施方式:
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一:
本实施例公开了一种带有三重约束的对抗跨模态行人重识别方法,下面以SYSU-MM01数据集为例,对该方法进行清楚、完整的描述。
SYSU-MM01数据集包括491个行人的287628张彩色图片和15792张热感图片,这些图片是由六个照相机捕获,其中有相机1、相机2、相机4和相机5是可视光相机,相机3和相机6是红外相机,这些相机分别被安装在室内和户外环境中。SYSU-MM01数据集被分为3个部分,训练集、验证集和测试集,其分别包括296、99、96个行人身份。本方法使用来自训练集和验证集的395个行人22258张彩色图片和11909张红外图片来训练模型,测试机集中的数据用于测试。在测试时,我们使用2个红外相机拍摄的红外图片组成查询集,在由四个可视光相机拍摄的彩色图片组成的画廊中进行检索。对于所有可视光相机中的每个行人身份,我们随机挑选一张彩色图片构成画廊。这种all-searchsingle-shot设置是更具有挑战性的。值得注意的是,由于行人重识别是检索不相交摄像机下的行人图片,所以,在查询集中的由张相机3拍摄的图片应该跳过画廊中由相机2拍摄的图片,这是因为相机2和相机3安置在同一位置。
如图1所示,具体步骤如下:
步骤1:划分数据集,得到训练集与测试集,并进行预处理。
Figure BDA0002380164550000101
表示数据集中的可视图片集,
Figure BDA0002380164550000102
表示红外图片集,Nx和Nz分别表示可视图片集合和红外图片集合中的图片数量。在实际操作中,我们使用来自训练集和验证集的395个行人22258张彩色图片和11909张红外图片作为训练集,原来测试集中的数据作为测试集。为了进行数据增强,我们把输入数据的大小调整为288×144,然后进行随机裁剪和水平翻转。
步骤2:构建对抗双路网络框架(ADPN),即生成器网络结构和判别器网络结构。
如图2所示,生成器网络结构是一个包含可视光支路和热感支路的双路卷积神经网络结构,两条支路均使用预训练好Resnt-50去掉最后一个全连接层的其余部分,但参数不共享,之后,连接一个共享参数的全连接层。判别器就是一个模态分类器,采用一个三层的前馈全连接网络,每一个全连接层之后跟着一个批归一化层。
步骤3:将训练集中的可视光图像和热感图像对分别输入生成器中的可视光支路和热感支路以获得不同模态的特定行人特征。
可视光Xi和热感图像Zi分别输入对抗双路网络的经过两个支路,经过Resnet-50的Pooling-5层之后得到特定模态的特征,其维度为2048维。
步骤4:将特定模态的行人特征投影到公共的特征表示空间。
将上述2048维的行人特征通过一个共享权重的全连接层,映射到公共表示空间,其特征维度为512维。
步骤5:根据公共特征表示空间中可视光图片和热感图片的行人特征,学习生成器,即进行三重约束,以及学习判别器。
三重约束损失主要包括以下三个部分:
行人身份损失。将公共表示空间中的可视光图像和热感图像512维特征数据,经过一层的395维的全连接层,得到概率函数,根据行人真实的身份标签和得到的概率函数计算行人身份的交叉熵损失,公式为:
Figure BDA0002380164550000121
Figure BDA0002380164550000122
表示概率函数,xi代表第i个可视光图像在公共表示空间中的特征,zi代表第i个热感图像在公共表示空间中的特征,N表示训练过程中一个块中的图片数量,θid表示相应的网络结构的参数。
跨模态难样本挖掘四元组损失。上述公共表示空间中的特征经过一个批归一化层,再进行L2正则化得到构建四元组的行人特征。给定一个训练块,它包括32张可视光图像和32张热感图像,同时可视光域中32张图片的行人身份和热感域中32张图片的行人身份相同。我们为训练过程中的每一个批块中的64张图片在线构建四元组{xa,xm,zp,zl},其中a和p共享相同的身份,m和l具有不同的身份,a和m可能具有相同的身份也可能具有不同的身份。由于查询图片可能是可视光图片也可能是热感图片,所以跨模态难样本挖掘四元组损失包括两部分,分别用于计算不同情况查询图片的损失,增加了查询设置的鲁棒性,具体公式为:
Figure BDA0002380164550000131
α是边缘距离,在SYSU-MM01上取值为0.4,N为32,[x]+=max(0,x),D(·)是距离测量,本方法用的是欧氏距离,θV和θT分别表示可视支路和热感支路的网络参数。
同质损失。解决由于相机视角差异、行人姿势变化、遮挡等因素造成的巨大模态间、模态内的类内变化问题,公式如下:
Figure BDA0002380164550000132
ξ是边缘距离,在SYSU-MM01上取值为1,a和q表示不同的行人身份。
学习生成器即计算下述生成器目标函数:
LGVTid)=λ1LqhVT)+λ2LhomoVT)+λ3Lidid)
其中,λ1、λ2、λ3分别表示超参数,在SYSU-MM01上分别取值为1、1、1。
学习判别器即计算下述判别器目标函数:
Figure BDA0002380164550000133
θD是判别器的参数,si是模态标签,若为01,代表特征属于可视光模态,若为10,代表特征属于红外模态,D(·)是判别器的输出,即输入特征的模态概率。
步骤6:对生成器和判别器进行对抗训练,优化公共表示空间,运用测试集进行跨模态行人重识别。
根据上述的生成器损失和判别器损失,我们可以得到最终的目标函数,如下:
Figure BDA0002380164550000141
Figure BDA0002380164550000142
其中,μ是超参数,在SYSU-MM01上取值为0.01。
从最终的目标函数可以看出,生成器和判别器的目的是相反的,生成器的目的是让同一个身份的行人的可视光图片和热感图像在公共表示空间中保持一致,而判别器则是区分投影特征的原始模态。利用随机梯度下降法对最终的目标函数进行优化,直到从共同空间中随机抽取一个样本,模态分类器不能预测出其原始模态,说明本实施例中提到的模型可以很好地消除不同模态下的行人图像的异构鸿沟,得到最终的共同空间。
经过多次实验,最终确定在第200代时模型收敛,得到最终的网络模型。
通过对训练样例训练多次,我们得到该方法的模型,把可视光图像的测试样本和热感图像的测试样本输入到该模型,依次得到对应的特征表示,可以求得查询样本和画廊中的样本两两之间的欧式距离,并将该距离从小到大排序,距离越小的代表与查询样本越匹配。
对比查询样本的标签和检索到的样本标签,计算Rank-1准确率、累积匹配特征曲线(CMC)以及平均均值精度(mAP)。表1和表2是本实施例提出的方法与3种手工提取特征的学习方法和11种深度学习方法在2个常用的跨模态行人重识别数据集上效果。我们可以得出结论:本实施例提出的方法有效提高了跨模态行人重识别的精度。
表1 RegDB数据集上single-shotall-search设置下的所有方法的效果
Figure BDA0002380164550000151
Figure BDA0002380164550000161
表2 SYSU-MM01数据集上single-shotall-search设置下的所有方法的效果
Figure BDA0002380164550000162
Figure BDA0002380164550000171
实施例二:
一种带有三重约束损失的对抗跨模态行人重识别***,包括:
数据预处理模块,被配置为将图像数据集划分得到训练集和待识别的测试集,并进行预处理;
网络模型构建模块,被配置为构建包括生成器网络结构和判别器网络结构的对抗双路网络框架;
三重约束模块,被配置为将训练集中的可视光图像和热感图像对数据分别输入生成器中的可视光支路和热感支路以获得不同模态的特定行人特征;将特定模态的行人特征投影到公共的特征表示空间;根据公共特征表示空间中可视光图片和热感图片的行人特征,学习生成器,即进行三重约束,并学习判别器;
对抗训练模块,被配置为对生成器和判别器进行对抗训练,优化公共表示空间,得到最终的网络模型;
识别模块,被配置为利用最终的网络模型对测试集进行跨模态行人重识别,得到识别结果。
实施例三:
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种带有三重约束损失的对抗跨模态行人重识别方法。
实施例四:
一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种带有三重约束损失的对抗跨模态行人重识别方法。
本领域内的技术人员应明白,本公开的实施例可提供为方法、***、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (9)

1.一种带有三重约束损失的对抗跨模态行人重识别方法,其特征是:包括以下步骤:
接收图像数据集,划分得到训练集和待识别的测试集,并进行预处理;
构建包括生成器网络结构和判别器网络结构的对抗双路网络框架;
将训练集中的可视光图像和热感图像对数据分别输入生成器中的可视光支路和热感支路以获得不同模态的特定行人特征;
将不同模态的特定行人特征投影到公共的特征表示空间;
根据公共特征表示空间中可视光图片和热感图片的行人特征,学习生成器,进行三重约束,并学习判别器;
对生成器和判别器进行对抗训练,优化公共表示空间,得到最终的网络模型;
利用最终的网络模型对测试集进行跨模态行人重识别,得到识别结果;
所述的生成器网络结构是一个包含可视光支路和热感支路的双路卷积神经网络结构,两条支路结构相同但参数不共享,均采用预训练好的卷积神经网络,使用Resnt-50去掉最后一个全连接层的其余部分,之后,连接一个共享参数的全连接层;
所述的三重约束包括:
行人身份约束、跨模态难样本挖掘四元组约束以及同质约束。
2.如权利要求1所述的一种带有三重约束损失的对抗跨模态行人重识别方法,其特征是:对训练集进行预处理的具体过程包括调整图片的大小,然后进行随机裁剪和水平翻转以进行数据增强。
3.如权利要求1所述的一种带有三重约束损失的对抗跨模态行人重识别方法,其特征是:所述的判别器为模态分类器,采用一个三层的前馈全连接网络,每一个全连接层之后跟着一个批归一化层。
4.如权利要求1所述的一种带有三重约束损失的对抗跨模态行人重识别方法,其特征是:学习生成器计算由行人身份约束、跨模态难样本挖掘四元组约束以及同质约束损失形成的目标函数;
学习判别器即计算下述判别器目标函数:
Figure FDA0003512238960000021
θD是判别器的参数,si是模态标签,D(·)是判别器的输出,即输入特征的模态概率,xi代表第i个可视光图像在公共表示空间中的特征,zi代表第i个热感图像在公共表示空间中的特征。
5.如权利要求1所述的一种带有三重约束损失的对抗跨模态行人重识别方法,其特征是:利用随机梯度下降法对最终的目标函数进行优化,直到从共同空间中随机抽取一个样本,模态分类器不能预测出其原始模态,得到最终的共同空间。
6.如权利要求1所述的一种带有三重约束损失的对抗跨模态行人重识别方法,其特征是:进行测试的具体过程包括:可视光图像的测试样本和热感图像的测试样本输入训练好的生成器网络模型,可以得到可视光图片和热感图片的判别性特征表示,得到查询样本和待检索的样本两两之间的欧式距离,并将该距离从小到大排序,距离越小的代表与查询样本越匹配。
7.一种带有三重约束损失的对抗跨模态行人重识别***,其特征是:包括:
数据预处理模块,被配置为将图像数据集划分得到训练集和待识别的测试集,并进行预处理;
网络模型构建模块,被配置为构建包括生成器网络结构和判别器网络结构的对抗双路网络框架;
三重约束模块,被配置为将训练集中的可视光图像和热感图像对数据分别输入生成器中的可视光支路和热感支路以获得不同模态的特定行人特征;将不同模态的特定行人特征投影到公共的特征表示空间;
根据公共特征表示空间中可视光图片和热感图片的行人特征,学习生成器,即进行三重约束,并学习判别器;
对抗训练模块,被配置为对生成器和判别器进行对抗训练,优化公共表示空间,得到最终的网络模型;
识别模块,被配置为利用最终的网络模型对测试集进行跨模态行人重识别,得到识别结果;
所述的生成器网络结构是一个包含可视光支路和热感支路的双路卷积神经网络结构,两条支路结构相同但参数不共享,均采用预训练好的卷积神经网络,使用Resnt-50去掉最后一个全连接层的其余部分,之后,连接一个共享参数的全连接层;
所述的三重约束包括:
行人身份约束、跨模态难样本挖掘四元组约束以及同质约束。
8.一种计算机可读存储介质,其特征是:其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行权利要求1-6中任一项所述的一种带有三重约束损失的对抗跨模态行人重识别方法。
9.一种终端设备,其特征是:包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行权利要求1-6中任一项所述的一种带有三重约束损失的对抗跨模态行人重识别方法。
CN202010080573.5A 2020-02-05 2020-02-05 带有三重约束损失的对抗跨模态行人重识别方法和*** Expired - Fee Related CN111325115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010080573.5A CN111325115B (zh) 2020-02-05 2020-02-05 带有三重约束损失的对抗跨模态行人重识别方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010080573.5A CN111325115B (zh) 2020-02-05 2020-02-05 带有三重约束损失的对抗跨模态行人重识别方法和***

Publications (2)

Publication Number Publication Date
CN111325115A CN111325115A (zh) 2020-06-23
CN111325115B true CN111325115B (zh) 2022-06-21

Family

ID=71172128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010080573.5A Expired - Fee Related CN111325115B (zh) 2020-02-05 2020-02-05 带有三重约束损失的对抗跨模态行人重识别方法和***

Country Status (1)

Country Link
CN (1) CN111325115B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985313A (zh) * 2020-07-09 2020-11-24 上海交通大学 基于对抗学习的多风格行人重识别方法、***、终端
CN111881826A (zh) * 2020-07-28 2020-11-03 深圳力维智联技术有限公司 跨模态行人重识别方法、装置、电子设备及存储介质
CN112016401B (zh) * 2020-08-04 2024-05-17 杰创智能科技股份有限公司 基于跨模态行人重识别方法及装置
CN111931637B (zh) * 2020-08-07 2023-09-15 华南理工大学 基于双流卷积神经网络的跨模态行人重识别方法和***
CN113761995A (zh) * 2020-08-13 2021-12-07 四川大学 一种基于双变换对齐与分块的跨模态行人重识别方法
CN112115805B (zh) * 2020-08-27 2024-06-11 山东师范大学 带双模态难挖掘三元-中心损失的行人重识别方法及***
CN112434654B (zh) * 2020-12-07 2022-09-13 安徽大学 一种基于对称卷积神经网络的跨模态行人重识别方法
CN112329929B (zh) * 2021-01-04 2021-04-13 北京智源人工智能研究院 基于代理模型的对抗样本生成方法和装置
CN112836605B (zh) * 2021-01-25 2022-08-30 合肥工业大学 一种基于模态增广的近红外与可见光跨模态人脸识别方法
CN112926451B (zh) * 2021-02-25 2022-05-03 厦门大学 基于自模仿互蒸馏的跨模态行人重识别方法
CN113269117B (zh) * 2021-06-04 2022-12-13 重庆大学 一种基于知识蒸馏的行人重识别方法
CN113408472B (zh) * 2021-07-06 2023-09-26 京东科技信息技术有限公司 目标重识别模型的训练方法、目标重识别方法及装置
CN113537028B (zh) * 2021-07-09 2022-11-08 中星电子股份有限公司 用于人脸识别***的控制方法、装置、设备和介质
CN114241517B (zh) * 2021-12-02 2024-02-27 河南大学 基于图像生成和共享学习网络的跨模态行人重识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921198A (zh) * 2018-06-08 2018-11-30 山东师范大学 基于深度学习的商品图像分类方法、服务器及***
CN109299341A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种基于字典学习的对抗跨模态检索方法和***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921198A (zh) * 2018-06-08 2018-11-30 山东师范大学 基于深度学习的商品图像分类方法、服务器及***
CN109299341A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种基于字典学习的对抗跨模态检索方法和***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于字典学习的跨媒体检索技术;戚玉丹 等;《计算机应用研究》;20190430;第36卷(第4期);全文 *

Also Published As

Publication number Publication date
CN111325115A (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
CN111325115B (zh) 带有三重约束损失的对抗跨模态行人重识别方法和***
US20200285896A1 (en) Method for person re-identification based on deep model with multi-loss fusion training strategy
Deng et al. Marginal loss for deep face recognition
CN109948425B (zh) 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN110414432A (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
CN105138998B (zh) 基于视角自适应子空间学习算法的行人重识别方法及***
CN109255289B (zh) 一种基于统一式生成模型的跨衰老人脸识别方法
CN113283362B (zh) 一种跨模态的行人重识别方法
CN110503000B (zh) 一种基于人脸识别技术的教学抬头率测量方法
CN110390308B (zh) 一种基于时空对抗生成网络的视频行为识别方法
CN107977439A (zh) 一种人脸图像库构建方法
CN109492528A (zh) 一种基于高斯和深度特征的行人再识别方法
CN112200176B (zh) 人脸图像的质量检测方法、***和计算机设备
CN110516707B (zh) 一种图像标注方法及其装置、存储介质
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN116503399B (zh) 基于yolo-afps的绝缘子污闪检测方法
CN109165698A (zh) 一种面向智慧交通的图像分类识别方法及其存储介质
CN108564061A (zh) 一种基于二维主元分析的图像识别方法和***
CN112613480A (zh) 一种人脸识别方法、***、电子设备及存储介质
CN112668557A (zh) 一种行人再识别***中防御图像噪声攻击的方法
Jiang et al. Application of a fast RCNN based on upper and lower layers in face recognition
Chen et al. A multi-scale fusion convolutional neural network for face detection
CN108681928A (zh) 一种智能广告投放方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220621