CN110516533B - 一种基于深度度量的行人再辨识方法 - Google Patents

一种基于深度度量的行人再辨识方法 Download PDF

Info

Publication number
CN110516533B
CN110516533B CN201910626883.XA CN201910626883A CN110516533B CN 110516533 B CN110516533 B CN 110516533B CN 201910626883 A CN201910626883 A CN 201910626883A CN 110516533 B CN110516533 B CN 110516533B
Authority
CN
China
Prior art keywords
network
pedestrian
image
depth measurement
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910626883.XA
Other languages
English (en)
Other versions
CN110516533A (zh
Inventor
苗夺谦
王倩倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201910626883.XA priority Critical patent/CN110516533B/zh
Publication of CN110516533A publication Critical patent/CN110516533A/zh
Application granted granted Critical
Publication of CN110516533B publication Critical patent/CN110516533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于深度度量的行人再辨识方法,包括以下步骤:1)将ImageNet数据集作为训练数据集,训练一个ResNet‑50网络,使其具有初始值;2)移除ResNet‑50网络的softmax层以及最后一个全连接层;3)使用多个非线性全连接层构成深度度量网络,并在输出后增加欧氏距离计算单元;4)在调整后的ResNet‑50网络后连接深度度量网络,组成本发明最终的网络模型;5)对行人再辨识训练数据集中的图像进行随机剪裁,得到一组尺寸为224×224的训练数据集,从中随机选择P位不同的行人,并为每个行人随机选择K张图像,组成小的训练批;6)使用5)中所得的训练数据通过最小化Hard Triplet Loss损失函数对4)中的网络进行优化,循环执行此步骤,直至损失值收敛;7)将待辨识行人图像和候选库中的图像输入到已优化的模型中,获取行人图像在同一个特征空间上的特征向量;8)计算特征向量间的欧氏距离,并对距离进行排序,最终获取待辨识行人图像和对比图像的匹配率。

Description

一种基于深度度量的行人再辨识方法
技术领域
本发明涉及监控视频智能分析领域,尤其是涉及一种基于深度度量的行人再辨识方法。
背景技术
行人再辨识是指在一个多摄像机组成的***中,针对不同摄像机视角下的行人进行匹配的问题,涉及到特征选择、显著性提取、距离度量学习、深度学习等众多研究热点。行人再辨识技术对行人身份、跟踪等不同方面的分析提供了关键性帮助,并发展成为智能视频监控领域的关键组成部分。
行人再辨识领域中主要的方法可以分为以下两类:1)基于特征表示的行人再辨识方法;2)基于距离度量学习的方法。
前者旨在设计或学***条纹的划分描述符,金字塔匹配描述符,图形匹配,显著性匹配,深度学习模型等等。这些方法在一定程度上解决了光照、视角等问题,但其仅能提取底层视觉信息,且特征提取规则固定不变,特征的鲁棒性和适应性都有一定的局限性。
后者则专注于设计适合于行人再辨识的相似度度量模型。现有的距离度量模型主要分为非学习方法和学习方法两类。一阶距离、二阶距离、巴氏距离等都是非学习方法,这类方法通常在数学计算上都较为简单。然而,由于提取出的行人特征的冗余性、鲁棒性等问题的影响,辨识结果并不理想。而基于学习的度量方法,通常学习不同摄像机下相同行人与不同行人外观特征的鉴别信息,最优化样本之间的差异性和相似性,因此,辨识效果往往相对较好。这种方法主要包括RankSVM,相对距离比较,基于核方法的度量学习,马氏距离学习,深度度量学习以及度量集成等等。
总体来看,上述方法都将行人再辨识的过程分为两步:特征表示和距离度量,然后分别对两个步骤进行优化。这些将特征表示和度量割裂开来,而实际上距离度量效果和特征表示有紧密的联系,不可完全切割。
中国发明申请CN108171184A提出了一种基于Siamese网络的行人重识别方法,使用两个完全相同的ResNet-50网络构成一个Siamese网络,并用成对的训练数据对网络进行优化。该方法虽然采用了卷积神经网络来自动学习图像特征,但其训练时必须进行成对的输入,训练时间过长。进一步,由于光照变化、姿态、视角、遮挡、图像分辨率等各方面因素的影响,这使得在监控视频智能分析中行人再辨识性能依然不佳。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度度量的行人再辨识方法。
本发明的目的可以通过以下技术方案来实现:
一种基于深度度量的行人再辨识方法,包括以下步骤:
一、构建网络
1)预训练ResNet-50网络,
将ImageNet数据集作为训练数据集,训练一个ResNet-50网络,使其具有初始值;
2)调整步骤1)ResNet-50网络,移除ResNet-50网络中的softmax层以及最后一个全连接层;提供步骤4);
3)采用多个非线性全连接层构成深度度量网络,并在输出后增加欧氏距离计算单元,该部分网络参数采用随机初始化方法;提供步骤4);
4)构建行人再辨识网络模型,
在步骤2)调整后的ResNet-50网络后连接步骤3)所述的深度度量网络,组成本发明最终的网络模型;
二、训练
5)预处理行人再辨识训练数据集,将训练数据集中的图像进行随机剪裁,得到一组尺寸为224×224的训练数据集,从中随机选择P位不同的行人,并为每个行人随机选择K张图像,组成小的训练批;
6)训练网络模型,
通过最小化Hard Triplet Loss损失函数对步骤4)中最终构建的网络模型进行优化,使用步骤5)中所得的训练数据输入该优化的网络模型,循环执行此步骤,直至损失值收敛;
三、识别
7)进行行人再辨识,将待辨识行人图像和候选库中的图像分别输入到步骤6)已优化的网络模型中,获取行人图像在同一个特征空间上的特征向量;
8)计算待辨识图像与候选库中所有图像的相似度,即计算待辨识图像与候选库图像间特征向量的欧氏距离,其中特征向量由步骤7)获取。然后按照相似度从小到大的规则,对候选库中的图像进行排序,排位越靠前图像与待辨识图像越相似。其中相似指的是两张行人图像为同一行人的图像。排位第一的图像即为待辨识行人图像的同一行人图像。
进一步地,步骤1)所述的预训练ResNet-50网络,采用dropout或BatchNormalization方法对训练进行优化,使得ResNet-50网络具备图像特征提取能力。
进一步地,步骤2)所述的调整ResNet-50,是将ResNet-50网络的softmax层和最后一个全连接层删去,获得最终输出为2048维的向量。
进一步地,步骤3)所述的深度度量网络,
步骤3),为本发明关键的创新步骤,所述的深度度量网络模块为本发明的创新之一,其接入所述2048维特征向量,输出非线性投影后的欧式空间特征向量。所述深度度量网络结构具体为:
在一个由M个非线性全连接层构成的神经网络后,增加一个欧式距离计算层。其中第一个全连接层的深度为2048,各个层的参数初始化采用随机初始化的方法,计算公式如下:
Figure BDA0002126210050000031
其中1≤m≤M,r(m)为第m层的深度,且r(0)=2048,
Figure BDA0002126210050000032
是第m层的权重,每层的偏置/>
Figure BDA0002126210050000033
初始化为零向量,M为深度度量网络中全连接层的总层数,为超参数。
进一步地,步骤4)所述的构建行人再辨识网络模型,具体如下:
将步骤2)中调整后的ResNet-50网络与步骤3)中获得的深度度量网络相连接,即将ResNet-50网络的输出输入到深度度量网络中,构建本发明的行人再辨识网络模型。
进一步地,步骤6)所述的训练网络模型,具体指在步骤5)中生成的新训练集中,随机选择P位不同的行人并为每个行人随机选择K张图像组成小的训练批,输入到网络中进行训练,损失函数采用Hard Triplet Loss,计算公式如下:
61)获取训练批中每个样本经过ResNet-50网络所提取到的特征
Figure BDA0002126210050000041
(1≤i≤P,1≤a≤K),/>
Figure BDA0002126210050000042
表示训练批中第i位行人的第a张图像,r(·)表示ResNet-50网络的输出。
62)获取每个特征向量
Figure BDA0002126210050000043
经过深度度量网络的输出,具体计算如下:
Figure BDA0002126210050000044
Figure BDA0002126210050000045
Figure BDA0002126210050000046
其中1≤m≤M,h(m)为深度度量网络中第m层的输出,
Figure BDA0002126210050000047
为非线性激活函数,f(·)为深度度量网络参数化的非线性映射函数。/>
Figure BDA00021262100500000415
表示深度度量网络中第m层的偏置向量。/>
Figure BDA0002126210050000048
为深度度量网络中第m层的权重。r(m)为深度度量网络第m层的深度,且r(0)=2048。/>
Figure BDA00021262100500000416
表示含有数量为r(m)的向量,且向量中每个元素为实数值。R为实数集。
63)计算损失函数值:
Figure BDA0002126210050000049
Figure BDA00021262100500000414
Figure BDA00021262100500000410
其中
Figure BDA00021262100500000411
Figure BDA00021262100500000412
表示训练批中第i位行人的第a张图像,r(·)表示ResNet-50网络的输出,P、K分别为Batch中不同行人的数量和每个行人图像的张数。X表示Batch的输入,σ为阈值,θ为网络的参数,/>
Figure BDA00021262100500000413
为非线性激活函数,f(·)为深度度量网络参数化的非线性映射函数。df(p1,p2)表示p1与p2间的深度度量距离,其中p1与p2均为向量。
然后使用随机梯度下降法对损失函数求最优解,从而对相应参数更新优化。
进一步地,步骤7)所述的进行行人再辨识,具体指将待辨识行人图像和候选库中的图像输入到网络中,获得每张图像x的输出f(r(x)),其中x表示待辨识图像和候选库中的任意一张图像。
进一步地,步骤8)中,待辨识行人图像和对比图像之间的距离为:
df(r(x),r(y))=d(f(r(x)),f(r(y)))=||f(r(x))-f(r(y))||2
其中,x表示任意一张待辨识图像,y表示候选库中的任意一张图像。r(·)表示ResNet-50网络的输出。f(·)为深度度量网络参数化的非线性映射函数。df(p1,p2)表示p1与p2间的深度度量距离,其中p1与p2均为向量。其中r(x),r(y)分别为待辨识图像和对比图像的特征向量,f(r(x))、f(r(y))分别为待辨识图像和对比图像经过深度度量网络的非线性映射后得到的在同一个特征空间上的特征向量。df(r(x),r(y))表示待辨识图像x和候选库中任意一张图像y的深度度量距离。
上述技术方案,本发明将特征提取和度量学习融合在统一的框架中,使其能够在统一的目标下进行优化,提升了行人再辨识的准确率。
与现有技术相比,本发明具有以下优点:
一、利用在大型图像数据库上训练好的优秀网络模型,通过在行人再辨识数据库上进行微调,在提取图像特征时,不需要进行复杂的预处理操作,就能够通过网络模型自动学习图像的特征。
二、使用多层非线性前馈神经网络,学习一个潜在的非线性映射函数,将ResNet-50提取的图像特征映射到低维的特征空间中,并在该特征空间中计算映射后特征的欧氏距离,以此作为图像的相似度度量。相较于传统的马氏距离,深度度量可以捕获到数据点间的非线性关系;
三、将特征提取和度量学习融合在一个框架下,在统一的目标下进行优化,可以使得提取的特征更加适用于再辨识问题。
附图说明
图1为本发明方法的流程示意图。
图2为本发明***结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例:
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,具体如图1和图2所示的流程图和结构图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,但并不限定本发明。
步骤一:预训练ResNet-50网络,将ImageNet数据集作为训练数据集,训练一个ResNet-50网络,使得ResNet-50网络的参数进行有效的初始化;有效的初始化指的是具备一定学习图像特征的能力;
步骤二:微调ResN-50网络,将ResNet-50网络的softmax层和最后一个全连接层删去,删减后网络的输出为2048维的向量;
步骤三:构建深度度量网络,本实施例采用2个非线性全连接层连接构成深度度量网络,并在输出后增加欧氏距离计算单元,这两层的全连接层的深度分别为512和128,激活函数采用tanh函数,网络参数采用随机初始化方法,具体公式如下:
Figure BDA0002126210050000061
其中1≤m≤2,r(0)=2048,r(1)=512,r(2)=128,两层网络的偏置初始化为零向量。
步骤四:构建行人再辨识网络模型,具体为:
将步骤2)中调整后的ResNet-50网络与步骤3)中获得的深度度量网络相连接,即将ResNet-50网络的输出输入到深度度量网络中,构建本发明的行人再辨识网络模型。
步骤五:预处理行人再辨识训练数据集,将训练数据集中的所有图像进行随机裁剪,得到图像尺寸统一为225×225的训练数据集,将裁剪后得到的训练数据集顺序打乱,从中随机选择P=25位行人,并为每个行人随机选择其K=4张图像,构成小型的训练批;
步骤六:训练行人再辨识网络模型,使用步骤五中得到的训练数据,利用随机梯度下降法求解Hard Triplet Loss损失函数,对网络参数进行更新,循环执行此步骤,直至损失函数收敛,具体计算如下:
首先获取训练批中每个样本经过ResNet-50网络所提取到的特征
Figure BDA0002126210050000062
Figure BDA0002126210050000063
Figure BDA0002126210050000064
表示训练批中第i位行人的第a张图像,r(·)表示ResNet-50网络的输出。然后获取每个特征向量/>
Figure BDA0002126210050000065
经过深度度量网络的输出,具体计算如下:
Figure BDA0002126210050000071
Figure BDA0002126210050000072
Figure BDA0002126210050000073
其中1≤m≤M,h(m)为深度度量网络中第m层的输出,
Figure BDA0002126210050000074
为非线性激活函数,f(·)为深度度量网络参数化的非线性映射函数。最后计算损失函数值:
Figure BDA0002126210050000075
Figure BDA0002126210050000076
Figure BDA0002126210050000077
其中
Figure BDA0002126210050000078
Figure BDA0002126210050000079
表示训练批中第i位行人的第a张图像,r(·)表示ResNet-50网络的输出,P、K分别为Batch中不同行人的数量和每个行人图像的张数。X表示Batch的输入,σ为阈值,θ为网络的参数,/>
Figure BDA00021262100500000710
为非线性激活函数,f(·)为深度度量网络参数化的非线性映射函数。/>
Figure BDA00021262100500000711
表示
Figure BDA00021262100500000712
和/>
Figure BDA00021262100500000713
间的欧式距离。df(p1,p2)表示p1与p2间的深度度量距离,其中p1与p2均为向量。/>
然后使用随机梯度下降法对损失函数求最优解,从而对相应参数更新优化。
步骤七:进行行人再辨识,将待辨识图像与候选库中的图像输入到训练好的网络中,并提取深度度量网络最后一个全连接层的输出,得到行人图像在同一个特征空间上的特征向量。
步骤八:计算待辨识行人图像和候选库图像特征向量间的欧氏距离,并对距离进行排序,排名越靠前的图像即为与待辨识图像越是同一类的图像,同一类指的是同一行人的图像。
结合附图进一步介绍。
图1是本发明算法实现流程图,具体实施方式如下:
1、预训练ResNet-50网络,采用dropout或Batch Normalization方法对训练进行优化,使得ResNet-50网络具备图像特征提取的能力;
2、微调ResN-50网络,将ResNet-50网络的softmax层和最后一个全连接层删去,删减后网络的输出为2048维的向量;
3、采用多个非线性全连接层构成深度度量网络,并在输出后增加欧氏距离计算单元,网络参数采用随机初始化方法,具体公式为:
Figure BDA0002126210050000081
其中1≤m≤M,r(m)为第m层的深度,且r(0)=2048,
Figure BDA0002126210050000082
是第m层的权重,每层的偏置b(m)∈Rr(m)初始化为零向量。
4、构建行人再辨识网络模型,在调整后的ResNet-50网络后连接深度度量网络,组成本发明最终的网络模型,如图2所示;
5、预处理行人再辨识训练数据,将训练数据集中的图像进行随机剪裁,得到一组尺寸为224×224的训练数据集,从中随机选择P位不同的行人并为每个行人随机选择K张图像组成小的训练批;
6、训练网络模型,使用5)中所得的训练数据通过最小化Hard Triplet Loss损失函数对4)中的网络进行优化,循环执行此步骤,直至损失值收敛;
7、进行行人再辨识,将待辨识行人图像和候选库中的图像输入到已优化的模型中,获取行人图像在同一个特征空间上的特征向量;
8、计算待辨识样本特征向量同行人图像库特征向量的欧氏距离;
9、按照距离从小到大的顺序对候候选库中的图像进行排序,排位第1的图像即为与待辨识图像为同一行人的图像。
表1-表3为本发明实施例算法与其他算法运行后的性能比较。
表1本发明算法同其它算法在VIPeR行人再辨识公开数据集上性能比较
方法 rank-1 rank-10 rank-20
Our 56.34 90.25 98.45
DDML 46.50 87.53 96.13
XQDA 40.50 80.42 91.03
KISSME 19.73 61.20 77.01
DML 29.73 71.20 86.01
表2本发明算法同其它算法在Market-1501行人再辨识公开数据集上性能比较
方法 rank-1 mAP
Our 73.8 89.4
DDML 32.6 57.4
DML 29.4 53.7
Gated 39.6 65.9
Pose 56.0 79.3
Scalable 68.8 82.2
表3本发明算法同其它算法在CUHK03行人再辨识公开数据集上性能比较
方法 rank-1 rank-5 rank-10
Our 75.5 90.6 98.4
DDML 56.8 87.3 90.2
XQDA 46.3 78.9 88.6
KISSME 11.7 33.3 48.0
DML 35.7 60.9 73.4
Re-ranking 64.0 86.4 93.7
从三个常用的行人再辨识公开数据集上实验得到的结果可以看出本实施例的CMC曲线的rank-1值和mAP值都优于其它算法,这表明本实施例通过构建基于深度度量的网络模型以及引用困难样本选择的三重损失函数,可以取得不错的行人再辨识性能。
显然,上述实例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (7)

1.一种基于深度度量的行人再辨识方法,其特征在于,包括以下步骤:
一、构建网络
1)预训练ResNet-50网络,
将ImageNet数据集作为训练数据集,训练一个ResNet-50网络,使其具有初始值;
2)调整步骤1)ResNet-50网络,移除ResNet-50网络中的softmax层以及最后一个全连接层;提供给步骤4);
3)采用多个非线性全连接层构成深度度量网络,并在输出后增加欧氏距离计算单元,该部分网络参数采用随机初始化方法;提供步骤4);
步骤4)构建行人再辨识网络模型,具体如下:
将步骤2)中调整后的ResNet-50网络与步骤3)中获得的深度度量网络相连接,即将ResNet-50网络的输出输入到深度度量网络中,构建的行人再辨识网络模型;
二、训练
5)预处理行人再辨识训练数据集,将训练数据集中的图像进行随机剪裁,得到一组尺寸为224×224的训练数据集,从中随机选择P位不同的行人,并为每个行人随机选择K张图像,组成小的训练批;
6)训练网络模型,
通过最小化Hard Triplet Loss损失函数对步骤4)中最终构建的网络模型进行优化,使用步骤5)中所得的训练数据输入该优化的网络模型,循环执行此步骤,直至损失值收敛;
三、识别
7)进行行人再辨识,将待辨识行人图像和候选库中的图像分别输入到步骤6)已优化的网络模型中,获取行人图像在同一个特征空间上的特征向量;
8)计算待辨识图像与候选库中所有图像的相似度,即计算待辨识图像与候选库图像间特征向量的欧氏距离,其中特征向量由步骤7)获取;然后按照相似度从小到大的规则,对候选库中的图像进行排序,排位越靠前图像与待辨识图像越相似;其中相似指的是两张行人图像为同一行人的图像。
2.根据权利要求1所述的一种基于深度度量的行人再辨识方法,其特征在于,步骤1)所述的预训练ResNet-50网络,采用dropout或Batch Normalization方法对训练进行优化,使得ResNet-50网络具备图像特征提取能力。
3.根据权利要求1所述的一种基于深度度量的行人再辨识方法,其特征在于,步骤2)所述的调整ResNet-50,是将ResNet-50网络的softmax层和最后一个全连接层删去,获得最终输出为2048维的向量。
4.根据权利要求3所述的一种基于深度度量的行人再辨识方法,其特征在于,步骤3)所述的深度度量网络其接入所述的2048维特征向量,输出非线性投影后的欧式空间特征向量;所述深度度量网络结构具体为:
在一个由M个非线性全连接层构成的神经网络后,增加一个欧式距离计算层;其中第一个全连接层的深度为2048,各个层的参数初始化采用随机初始化的方法,计算公式如下:
Figure FDA0004170181940000031
/>
其中1≤m≤M,r(m)为第m层的深度,且r(0)=2048,
Figure FDA0004170181940000032
是第m层的权重,每层的偏置/>
Figure FDA0004170181940000033
初始化为零向量,M为深度度量网络中全连接层的总层数,为超参数。
5.根据权利要求1所述的一种基于深度度量的行人再辨识方法,其特征在于,步骤6)所述的训练网络模型,具体指在步骤5)中生成的新训练集中,随机选择P位不同的行人并为每个行人随机选择K张图像组成小的训练批,输入到网络中进行训练,损失函数采用HardTriplet Loss,计算公式如下:
61)获取训练批中每个样本经过ResNet-50网络所提取到的特征
Figure FDA0004170181940000034
Figure FDA0004170181940000035
表示训练批中第i位行人的第a张图像,r(·)表示ResNet-50网络的输出;
62)获取每个特征向量
Figure FDA0004170181940000036
经过深度度量网络的输出,具体计算如下:
Figure FDA0004170181940000037
Figure FDA0004170181940000038
Figure FDA0004170181940000039
其中1≤m≤M,h(m)为深度度量网络中第m层的输出,
Figure FDA00041701819400000310
为非线性激活函数,f(·)为深度度量网络参数化的非线性映射函数;/>
Figure FDA00041701819400000311
表示深度度量网络中第m层的偏置向量;
Figure FDA00041701819400000312
为深度度量网络中第m层的权重;r(m)为深度度量网络第m层的深度,且r(0)=2048;/>
Figure FDA00041701819400000313
表示含有数量为r(m)的向量,且向量中每个元素为实数值;R为实数集;
63)计算损失函数值:
Figure FDA0004170181940000041
Figure FDA0004170181940000042
Figure FDA0004170181940000043
其中
Figure FDA0004170181940000044
Figure FDA0004170181940000045
表示训练批中第i位行人的第a张图像,r(·)表示ResNet-50网络的输出,P、K分别为Batch中不同行人的数量和每个行人图像的张数;X表示Batch的输入,σ为阈值,θ为网络的参数,/>
Figure FDA0004170181940000046
为非线性激活函数,f(·)为深度度量网络参数化的非线性映射函数;df(p1,p2)表示p1与p2间的深度度量距离,其中p1与p2均为向量;LBH(θ;X)为训练单批次的网络损失值;
然后使用随机梯度下降法对损失函数求最优解,从而对相应参数更新优化。
6.根据权利要求1所述的一种基于深度度量的行人再辨识方法,其特征在于,步骤7)所述的进行行人再辨识,具体指将待辨识行人图像和候选库中的图像输入到网络中,获得每张图像x的输出f(r(x))。
7.根据权利要求1所述的一种基于深度度量的行人再辨识方法,其特征在于,步骤8)中,待辨识行人图像和对比图像之间的距离为:
df(r(x),r(y))=d(f(r(x)),f(r(y)))=||f(r(x))-f(r(y))||2
其中,x表示任意一张待辨识图像,y表示候选库中的任意一张图像;r(·)表示ResNet-50网络的输出;f(·)为深度度量网络参数化的非线性映射函数;
df(p1,p2)表示p1与p2间的深度度量距离,其中p1与p2均为向量;r(x),r(y)分别为待辨识图像和对比图像的特征向量,f(r(x))、f(r(y))分别为待辨识图像和对比图像经过深度度量网络的非线性映射后得到的在同一个特征空间上的特征向量,df(r(x),r(y))表示待辨识图像x和候选库中图像y之间的深度度量距离。
CN201910626883.XA 2019-07-11 2019-07-11 一种基于深度度量的行人再辨识方法 Active CN110516533B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910626883.XA CN110516533B (zh) 2019-07-11 2019-07-11 一种基于深度度量的行人再辨识方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910626883.XA CN110516533B (zh) 2019-07-11 2019-07-11 一种基于深度度量的行人再辨识方法

Publications (2)

Publication Number Publication Date
CN110516533A CN110516533A (zh) 2019-11-29
CN110516533B true CN110516533B (zh) 2023-06-02

Family

ID=68622686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910626883.XA Active CN110516533B (zh) 2019-07-11 2019-07-11 一种基于深度度量的行人再辨识方法

Country Status (1)

Country Link
CN (1) CN110516533B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667050B (zh) * 2020-04-21 2021-11-30 佳都科技集团股份有限公司 度量学习方法、装置、设备及存储介质
CN111786999B (zh) * 2020-06-30 2023-03-24 中国电子科技集团公司电子科学研究院 一种入侵行为的检测方法、装置、设备和存储介质
CN111814705B (zh) * 2020-07-14 2022-08-02 广西师范大学 一种基于批次分块遮挡网络的行人再辨识方法
CN112329833B (zh) * 2020-10-28 2022-08-12 浙江大学 一种基于球面嵌入的图像度量学习方法
CN112686200A (zh) * 2021-01-11 2021-04-20 中山大学 一种基于多方案并联关注机制的行人重识别方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416295A (zh) * 2018-03-08 2018-08-17 天津师范大学 一种基于局部嵌入深度特征的行人再识别方法
US10176405B1 (en) * 2018-06-18 2019-01-08 Inception Institute Of Artificial Intelligence Vehicle re-identification techniques using neural networks for image analysis, viewpoint-aware pattern recognition, and generation of multi- view vehicle representations
CN109670528A (zh) * 2018-11-14 2019-04-23 中国矿业大学 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10699151B2 (en) * 2016-06-03 2020-06-30 Miovision Technologies Incorporated System and method for performing saliency detection using deep active contours
CN108009528B (zh) * 2017-12-26 2020-04-07 广州广电运通金融电子股份有限公司 基于Triplet Loss的人脸认证方法、装置、计算机设备和存储介质
CN108171184B (zh) * 2018-01-03 2020-04-10 南京理工大学 基于Siamese网络的用于行人重识别的方法
US10685446B2 (en) * 2018-01-12 2020-06-16 Intel Corporation Method and system of recurrent semantic segmentation for image processing
CN108491884A (zh) * 2018-03-27 2018-09-04 中山大学 基于轻量级网络的行人再识别***及实现方法
CN108537181A (zh) * 2018-04-13 2018-09-14 盐城师范学院 一种基于大间距深度度量学习的步态识别方法
CN108960127B (zh) * 2018-06-29 2021-11-05 厦门大学 基于自适应深度度量学习的遮挡行人重识别方法
CN108960141B (zh) * 2018-07-04 2021-04-23 国家新闻出版广电总局广播科学研究院 基于增强型深度卷积神经网络的行人再识别方法
CN109190446A (zh) * 2018-07-06 2019-01-11 西北工业大学 基于三元组聚焦损失函数的行人再识别方法
CN109034035A (zh) * 2018-07-18 2018-12-18 电子科技大学 基于显著性检测和特征融合的行人重识别方法
CN109446898B (zh) * 2018-09-20 2021-10-15 暨南大学 一种基于迁移学习和特征融合的行人重识别方法
CN109711281B (zh) * 2018-12-10 2023-05-02 复旦大学 一种基于深度学习的行人重识别与特征识别融合方法
CN109815908A (zh) * 2019-01-25 2019-05-28 同济大学 一种基于深度学习和重叠图像块间度量的行人再辨识方法
CN109829414B (zh) * 2019-01-25 2020-11-24 华南理工大学 一种基于标签不确定性和人体组件模型的行人再识别方法
CN109993070B (zh) * 2019-03-13 2021-06-08 华南理工大学 一种基于全局距离尺度损失函数的行人再识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416295A (zh) * 2018-03-08 2018-08-17 天津师范大学 一种基于局部嵌入深度特征的行人再识别方法
US10176405B1 (en) * 2018-06-18 2019-01-08 Inception Institute Of Artificial Intelligence Vehicle re-identification techniques using neural networks for image analysis, viewpoint-aware pattern recognition, and generation of multi- view vehicle representations
CN109670528A (zh) * 2018-11-14 2019-04-23 中国矿业大学 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
改进的单尺度Retinex和LBP结合的人脸识别;段红燕;何文思;李世杰;;计算机工程与应用(第23期);全文 *

Also Published As

Publication number Publication date
CN110516533A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
CN110516533B (zh) 一种基于深度度量的行人再辨识方法
CN108960140B (zh) 基于多区域特征提取和融合的行人再识别方法
CN111126360B (zh) 基于无监督联合多损失模型的跨域行人重识别方法
CN106682598B (zh) 一种基于级联回归的多姿态的人脸特征点检测方法
CN111178432A (zh) 多分支神经网络模型的弱监督细粒度图像分类方法
CN109145717B (zh) 一种在线学习的人脸识别方法
CN104268593B (zh) 一种小样本情况下多稀疏表示的人脸识别方法
CN109711366B (zh) 一种基于群组信息损失函数的行人重识别方法
CN111738143B (zh) 一种基于期望最大化的行人重识别方法
CN108509854B (zh) 一种基于投影矩阵约束结合判别字典学习的行人再识别方法
Ge et al. Modelling local deep convolutional neural network features to improve fine-grained image classification
CN110097060B (zh) 一种面向树干图像的开集识别方法
CN109447123B (zh) 一种基于标签一致性约束与拉伸正则化字典学习的行人再识别方法
CN109543723B (zh) 一种鲁棒的图像聚类方法
CN110728694B (zh) 一种基于持续学习的长时视觉目标跟踪方法
CN109544603B (zh) 基于深度迁移学习的目标跟踪方法
CN109033978B (zh) 一种基于纠错策略的cnn-svm混合模型手势识别方法
Wang et al. Head pose estimation with combined 2D SIFT and 3D HOG features
CN109840518B (zh) 一种结合分类与域适应的视觉追踪方法
CN108345866B (zh) 一种基于深度特征学习的行人再识别方法
CN113920472B (zh) 一种基于注意力机制的无监督目标重识别方法及***
CN111125397B (zh) 一种基于卷积神经网络的布料图像检索方法
CN104462818B (zh) 一种基于Fisher准则的嵌入流形回归模型
CN112084895A (zh) 一种基于深度学习的行人重识别方法
CN116740763A (zh) 一种基于双注意力感知融合网络的跨模态行人重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant