CN112906605B - 一种高准确率的跨模态行人重识别方法 - Google Patents
一种高准确率的跨模态行人重识别方法 Download PDFInfo
- Publication number
- CN112906605B CN112906605B CN202110243887.7A CN202110243887A CN112906605B CN 112906605 B CN112906605 B CN 112906605B CN 202110243887 A CN202110243887 A CN 202110243887A CN 112906605 B CN112906605 B CN 112906605B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- mode
- cross
- sample
- double
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000012512 characterization method Methods 0.000 claims abstract description 10
- 238000012544 monitoring process Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 7
- 239000000284 extract Substances 0.000 claims abstract description 6
- 238000005457 optimization Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 6
- 230000004927 fusion Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 13
- 230000011218 segmentation Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 235000019580 granularity Nutrition 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000007420 reactivation Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种高准确率的跨模态行人重识别方法,包括如下步骤:从数据集中获取真实的监控环境下的行人视频信息,处理得到行人图像样本和行人身份信息;搭建多尺度结合的双流跨模态深度网络,初始化网络参数,使用行人图像样本,行人身份信息作为监督信息,对所述双流跨模态深度网络进行有监督的训练;将感兴趣行人目标query作为所述双流跨模态深度网络的输入,双流跨模态深度网络将给出与query目标相似程度较高的行人目标列表。本发明既能同时处理两个模态的异质样本信息,提取样本中的模态共有特征,又能通过全局尺度和局部尺度的特征融合形成更加具有表征能力的特征。
Description
技术领域
本发明应用深度学习和知识引入实现高准确率的跨模态跨摄像头行人匹配的方法,属于计算机视觉领域。
背景技术
随着社会的发展,道路监控***越来越普及。由于监控摄像机的性能问题,以及监控环境条件的变化,人员识别中的人脸识别技术在跨摄像头行人追踪中并不能够发挥作用,因此行人重识别课题的重要性日益凸显[1]。行人重识别,目的在于在跨摄像头环境下检索筛选相同的人员目标,进而确定相应人员目标的活动轨迹[1]。同时,由于夜间摄像头所拍摄的图像大多是红外图像,与白天所拍摄的RGB图像有所区别,用传统的Re-ID方法难以克服两种模态之间的模态差异,因此提出跨模态Re-ID解决上述问题[3]。
随着监控设备的大量普及以及大数据时代的到来,行人检索匹配在公共安全领域越来越具有重大意义。然而由于道路监控安装的局限性以及监控设备的性能问题,传统的人脸识别技术在道路监控下并不能够发挥作用[1]。因此,能够适应道路监控任务环境,并且完成跨摄像头特定人员识别追踪的行人重识别技术研究的必要性和重要性越来越受到重视。
目前对于行人重识别的研究主要集中在三个方面,单模态Re-ID,无监督Re-ID,以及跨模态Re-ID,此外还有去遮挡Re-ID,密集人群以及跨分辨率等多个小方向。单模态Re-ID的研究课题提出的最早,因此发展的最为完善,为后续的其他相关研究方向打下了基础。无监督Re-ID是基于实际应用中标签难以获取的前提提出的研究方向,可以说是Re-ID实际应用中必须进行的处理。跨模态Re-ID是基于追踪检测的实际需求提出的,大多数的违法犯罪活动在夜间进行,因此夜间与白天的行人图像之间的匹配成为一个越来越重要的课题。
单模态Re-ID已经在现有的Re-ID数据集上达到了非常高的匹配准确率,提出了许多较为鲁棒的baseline。单模态Re-ID是RGB图像在有人工标签的情况下进行的监督训练,其主要目的在于挖掘行人样本中较为有区分力的细节形成样本特征,以此提升匹配准确率。这些方法中,self-attention和基于part-level特征的方法的效果尤为突出。Self-attention在行人重识别中的做法是将行人图像进行分块,并利用图像块之间的关系以及每块图像在最终匹配时的权重,重塑每块的内容,使得重塑后的图像块所能提供的区分能力更强。基于part-level特征的方法的做法更为直接一些,比较典型的PCB模型,就是将图像直接进行横向切分,利用切分之后的每一个小图像块代表原来的整个行人样本,这样的做法强迫模型更多的关注图像的细节区域。这里的切分是基于先验知识的切分,PCB切分了六块,对应着人体的部位,有些方法切分为三块,对应头、上身、与下身。
跨模态Re-ID需要克服的问题相对于单模态Re-ID来说要多很多。除去需要提取表征能力强的样本特征之外,还需要克服模态差异。目前多数论文[3[10]的做法是利用two-stream网络结构对两个模态进行分别的处理,之后再用共享层提取模态共享特征,在此基础上提取可靠的表征。另有一些方法致力于研究模态独有特征的作用,一种典型的做法是利用同标签的另一模态样本对本模态缺失特征进行填充,以此达到样本之间的特征平衡。利用GAN也能达到类似的效果,这些方法保留原有样本的内容,替换为另一模态的风格特征,扩充数据集,达到模态之间样本的平衡[2]。
参考文献:
[1]Ye,Mang.(2020).Deep Learning for Person Re-identification:A Surveyand Outlook.
[2]Choi,Seokeon&Lee,Sumin&Kim,Youngeun&Kim,Taekyung&Kim,Changick.(2020).Hi-CMD:Hierarchical Cross-Modality Disentanglement for Visible-Infrared Person Re-Identification.10254-10263.10.1109/CVPR42600.2020.01027.
[3]Ye,Mang&Shen,Jianbing&Crandall,David&Shao,Ling&Luo,Jiebo.(2020).Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person Re-Identification.
[4]Wang,Guan-An&Zhang,Tianzhu&Yang,Yang&Cheng,Jian&Chang,Jianlong&Liang,Xu&Hou,Zeng-Guang.(2020).Cross-Modality Paired-Images Generation forRGB-Infrared Person Re-Identification.Proceedings of the AAAI Conference onArtificial Intelligence.34.12144-12151.10.1609/aaai.v34i07.6894.
[5]Y.Lu et al.,"Cross-Modality Person Re-Identification With Shared-Specific Feature Transfer,"2020IEEE/CVF Conference on Computer Vision andPattern Recognition(CVPR),Seattle,WA,USA,2020,pp.13376-13386,doi:10.1109/CVPR42600.2020.01339.
[6]Jia,Mengxi&Zhai,Yunpeng&Lu,Shijian&Ma,Siwei&Zhang,Jian.(2020).ASimilarity Inference Metric for RGB-Infrared Cross-Modality Person Re-identification.
[7]Fan,Xing&Luo,Hao&Zhang,Chi&Jiang,Wei.(2020).Cross-Spectrum Dual-Subspace Pairing for RGB-infrared Cross-Modality Person Re-Identification.
[8]Zhang,Ziyue&Jiang,Shuai&Huang,Congzhentao&Li,Yang&Xu,Richard.(2020).RGB-IR Cross-modality Person ReID based on Teacher-Student GAN Model.
[9]Wang,Guanan&Zhang,Tianzhu&Cheng,Jian&Liu,Si&Yang,Yang&Hou,Zengguang.(2019).RGB-Infrared Cross-Modality Person Re-Identification viaJoint Pixel and Feature Alignment.
[10]Zhu,Yuanxin&Yang,Zhao&Wang,Li&Zhao,Sai&Hu,Xiao&Tao,Dapeng.(2019).Hetero-Center Loss for Cross-Modality Person Re-Identification.Neurocomputing.386.10.1016/j.neucom.2019.12.100.
[11]Wang,Zhixiang&Wang,Zheng&Zheng,Yinqiang&Chuang,Yung-Yu&Satoh,Shin'ich.(2019).Learning to Reduce Dual-Level Discrepancy for Infrared-Visible Person Re-Identification.618-626.10.1109/CVPR.2019.00071.
[12]Hao,Yi&Wang,Nannan&Gao,Xinbo&Li,Jie&Wang,Xiaoyu.(2019).Dual-alignment Feature Embedding for Cross-modality Person Re-identification.57-65.10.1145/3343031.3351006.
[13]Ye,Mang&Lan,Xiangyuan&Leng,Qingming.(2019).Modality-awareCollaborative Learning for Visible Thermal Person Re-Identification.347-355.10.1145/3343031.3351043.
[14]Liu,Haijun&Cheng,Jian.(2019).Enhancing the Discriminative FeatureLearning for Visible-Thermal Cross-Modality Person Re-Identification.
[15]Basaran,Emrah&Muhittin&Kamasak,Mustafa.(2020).An efficientframework for visible-infrared cross modality person re-identification.SignalProcessing:Image Communication.87.115933.10.1016/j.image.2020.115933.
[16]Pingyang,Dai&Ji,Rongrong&Wang,Haibin&Wu,Qiong&Huang,Yuyu.(2018).Cross-Modality Person Re-Identification with Generative AdversarialTraining.677-683.10.24963/ijcai.2018/94.
[17]Wang,Guanan&Zhang,Tianzhu&Cheng,Jian&Liu,Si&Yang,Yang&Hou,Zengguang.(2019).RGB-Infrared Cross-Modality Person Re-Identification viaJoint Pixel and Feature Alignment.
[18]Sun,Y.,Zheng,L.,Yang,Y.,Tian,Q.,&Wang,S.(2018).Beyond PartModels:Person Retrieval with Refined Part Pooling.ArXiv,abs/1711.09349.
[19]Wang,Guanshuo&Yuan,Yufeng&Chen,Xiong&Li,Jiwei&Zhou,Xi.(2018).Learning Discriminative Features with Multiple Granularities for Person Re-Identification.
[20]Ge,Y.,Chen,D.,&Li,H.(2020).Mutual Mean-Teaching:Pseudo LabelRefinery for Unsupervised Domain Adaptation on Person Re-identification.ArXiv,abs/2001.01526.
发明内容
为了解决以上现有技术中存在的不足,需要采取更为有效的方法处理两个不同模态,RGB模态和IR模态之间的差异,形成更加合理的特征空间,便于后续的检测和匹配。为了实现相应的目的,不仅需要处理单模态下不同身份样本之间的相似性关系,更要处理跨模态下同身份样本的相似性关系,达到最终通过一模态query检测另一模态相同样本的目的。
本发明提出一种多尺度结合的双流网络结构,既能同时处理两个模态的异质样本信息,提取样本中的模态共有特征,又能通过全局尺度和局部尺度的特征融合形成更加具有表征能力的特征,设计合理,满足建模需求,具有良好的效果。
为实现上述目的,本发明采用的技术方案为:
一种高准确率的跨模态行人重识别方法,包括如下步骤:
步骤1,从数据集中获取真实的监控环境下的行人视频信息,对整段的行人视频信息进行预处理得到行人图像样本,将视频中的关键行人图像进行截取并标记相应的行人身份信息;
步骤2,搭建多尺度结合的双流跨模态深度网络,初始化网络参数,使用步骤1中得到的行人图像样本,行人身份信息作为监督信息,对所述双流跨模态深度网络进行有监督的训练,训练结束后,根据最终的训练效果,对双流跨模态深度网络中的超参数进行微调,并固定网络参数;
步骤3,将感兴趣行人目标query作为所述双流跨模态深度网络的输入,双流跨模态深度网络将给出与query目标相似程度较高的行人目标列表,相似性从高到低,操作者根据行人目标列表,找到其中的同身份行人目标,进行行人追踪。
所述步骤一中,预处理后的行人图像样本包括包含行人身体样貌特征的图像本身、图像样本对应的行人身份信息、以及行人图像样本原本的视频序列信息。
所述步骤1中,数据集为SYSU-MM01真实数据集。
所述步骤2中,双流跨模态深度网络使用pytorch模型库中的在ImageNet上进行过预训练的ResNet-50作为骨架网络;双流跨模态深度网络分为local分支和global分支,每个分支都包含双流结构,用以处理两个模态的样本特征。
所述步骤2中,Global分支中将ResNet-50中的layer0部分作为双流的结构,后面的layer1至layer4作为共享参数的网络结构;双流部分不共享参数,分别提取两个模态的特征,保留部分模态特征信息,共享参数网络部分提取两种不同模态样本的模态共享特征,并继续利用共享特征进行后续的优化操作;后续的优化操作包括:利用线性层将所提取的特征进行降维,减少模型参数量,降低计算负担,得到最终的特征之后,利用难负样本三元组损失和交叉熵损失对特征空间进行优化,交叉熵损失用于优化模态内的样本关系,三元组损失用于优化模态间的样本关系;
Local分支包括两个子分支,分别对样本进行了三块及六块的切分;Local分支的双流结构为将ResNet-50的所有层均不进行参数共享,保留更多的模态特征,在backbone后利用global average pooling层将样本特征进行水平分割,切分为三块的对应人体的头部、上半身及下半身,六块的则对应更为精细的人体部位;两个模态样本的特征经过切割之后进行连接,并进入共享参数的线性层进行降维,之后所切分的每一个特征块单独进行目标函数的优化;其中,采用交叉熵函数优化模态内的特征空间;引入基于簇中心的目标函数,利用同身份样本的簇中心实现同身份样本距离更近,异特征样本距离更远的优化目标;
在最终的匹配检测阶段,所有的local分支的特征以及global分支的特征会被连接以形成一个更具有表征区分能力的描述子。
本发明的有益效果是:
(1)本发明从大规模真实的跨模态行人样本数据集中发掘有效的匹配方式,不同于现有的跨模态行人重识别方法,本方法是多尺度结合的特征表征方法,不仅有传统方法中粗粒度的表征特征,同时融合了相应的细粒度的样本局部特征,提升了方法的表征区分能力。
(2)本发明引入了基于簇中心的目标函数,能够更加有效的处理模态之间的特征空间,同时这种新的目标函数适应局部特征的优化方式,不会引入相应的负面作用,极大的提高了方法的准确率。能够有效处理模态间的差异,该目标函数使用欧氏距离作为度量标准,利用身份相同的样本特征的平均值作为簇中心,以差值作为计算目标,拉近跨模态同身份的样本之间的距离,并利用超参数作为margin,利用差值扩大跨模态异身份的样本之间的距离,以形成良好的特征空间。
(3)本发明引入了异构的双流网络结构,用共享层较多的网络结构处理全局信息,用共享层较少的网络结构处理局部信息,各自满足相应分支的目标函数的要求,进一步提升了跨模态的处理能力。
(4)本发明实现了全局粗粒度特征与局部细粒度特征的结合。Global分支中所提取的全局特征能提供较为全面的样本信息,同时local分支能够在切分特征的基础上提供较为精细的局部特征,弥补全局特征中所缺少的细节信息,提升模型的区分能力。
附图说明
图1为双流跨模态深度网络的结构示意图。
具体实施方式
下面对本发明做更进一步的说明。
本发明的一种高准确率的跨模态行人重识别方法,包括如下步骤:
步骤1,数据准备及形式化定义:行人重识别的原始数据通常为监控视频,需要人工或者算法将其中的关键行人信息裁剪出来。此方式是基于图像的跨模态行人重识别算法,因此需要使用图像识别及裁剪算法作为前置方法,将视频片段中的行人图像裁剪,并标记相应的行人身份信息,用以区分不同的行人目标。本发明中,使用了SYSU-MM01真实数据集,并且数据集没有进行深度的人工标注,存在一定的噪声标签,符合实际的应用场景。对整段的行人视频信息进行预处理得到行人图像样本,将视频中的关键行人图像进行截取并标记相应的行人身份信息;预处理后的行人图像样本包括包含行人身体样貌特征的图像本身、图像样本对应的行人身份信息、以及行人图像样本原本的视频序列信息。
步骤2,搭建多尺度结合的跨模态双流行人重识别网络:按照如图1所示的模型示意图,搭建相应的网络结构。使用步骤1中得到的行人图像样本,行人身份信息作为监督信息,对所述双流跨模态深度网络进行有监督的训练,训练结束后,根据最终的训练效果,对双流跨模态深度网络中的超参数进行微调,直至达到相对较好的效果,并固定网络参数。
使用pytorch模型库中的在ImageNet上进行过预训练的ResNet-50作为模型的骨架网络。模型分为local分支和global分支,每个分支都包含双流结构,用以处理两个模态的样本特征。双流网络本质上是并行的同结构不共享参数的网络,使用双流网络结构处理跨模态任务,可以保留部分模态独有特征方便后续进行优化操作。
Global分支中将ResNet-50中的layer0部分作为双流的结构,后面的layer1至layer4作为共享参数的网络结构。双流部分不共享参数,分别提取两个模态的特征,保留部分模态特征信息,共享参数网络部分旨在提取两种不同模态样本的模态共享特征,并继续利用共享特征进行后续的优化操作。后续利用线性层将所提取的特征进行降维,减少模型参数量,降低计算负担,得到最终的特征之后,利用难负样本三元组损失和交叉熵损失对特征空间进行优化,交叉熵损失旨在优化模态内的样本关系,三元组损失旨在优化模态间的样本关系。难负样本三元组损失表示为:
其中,P为每个mini-batch中随机选择出的P个行人身份标签,K为每个行人标签所选择的行人样本数目,因此每个mini-batch共有P*K个样本。f表示模型对样本进行提取特征的操作,D为衡量标准,采用欧式距离判定两个样本的距离。
交叉熵损失表示为:
其中,f表示经过网络提取的样本特征,W为相应的同维度的权重向量。
Local分支包括两个子分支,分别对样本进行了三块及六块的切分。Local分支的双流结构不同于global分支,其结构为将ResNet-50的所有层均不进行参数共享,保留更多的模态特征,方便进行后续优化。在backbone后利用global average pooling层将样本特征进行水平分割,切分为三块的对应人体的头部、上半身及下半身,六块的则对应更为精细的人体部位。两个模态样本的特征经过切割之后进行连接,并进入共享参数的线性模块进行降维,之后所切分的每一个特征块单独进行目标函数的优化。线性模块包括三个操作,线性层降维,ReLU函数重新激活以及normalize进行正则化。同样的,交叉熵函数主要优化模态内的特征空间。引入基于簇中心的目标函数,旨在利用同身份样本的簇中心实现同身份样本距离更近,异特征样本距离更远的优化目标。基于簇中心的目标函数表示为:
其中,||表示求算欧氏距离,加和平均计算求解同身份样本簇中心并拉近,异身份样本簇中心在超参数μ的作用下逐渐远离。
在最终的匹配检测阶段,所有的local分支的特征以及global分支的特征会被连接以形成一个更具有表征区分能力的描述子。
本发明中,使用标记好的行人样本数据对模型进行训练,训练周期为80个,学习率设为0.01,并随着训练周期逐渐下降,每20个下降为本身的0.1。在整个训练周期结束之后,将模型训练过后的参数进行保存,方便后面的检测处理。
步骤3,将需要进行检测的行人目标图像进行整理,选择特征较多的图像作为query图像传入训练后的模型,将所有的监控录像生成的行人样本图像作为检测集进行检测匹配,模型将输出匹配度高的行人样本,相似程度由高到低排列,操作者根据行人目标列表,找到其中的同身份行人目标,进行行人追踪。
Claims (4)
1.一种高准确率的跨模态行人重识别方法,其特征在于:包括如下步骤:
步骤1,从数据集中获取真实的监控环境下的行人视频信息,对整段的行人视频信息进行预处理得到行人图像样本,将视频中的关键行人图像进行截取并标记相应的行人身份信息;
步骤2,搭建多尺度结合的双流跨模态深度网络,初始化网络参数,使用步骤1中得到的行人图像样本,行人身份信息作为监督信息,对所述双流跨模态深度网络进行有监督的训练,训练结束后,根据最终的训练效果,对双流跨模态深度网络中的超参数进行微调,并固定网络参数;
所述步骤2中,Global分支中将ResNet-50中的layer0部分作为双流的结构,后面的layer1至layer4作为共享参数的网络结构;双流部分不共享参数,分别提取两个模态的特征,保留部分模态特征信息,共享参数网络部分提取两种不同模态样本的模态共享特征,并继续利用共享特征进行后续的优化操作;后续的优化操作包括:利用线性层将所提取的特征进行降维,减少模型参数量,降低计算负担,得到最终的特征之后,利用难负样本三元组损失和交叉熵损失对特征空间进行优化,交叉熵损失用于优化模态内的样本关系,三元组损失用于优化模态间的样本关系;
Local分支包括两个子分支,分别对样本进行了三块及六块的切分;Local分支的双流结构为将ResNet-50的所有层均不进行参数共享,保留更多的模态特征,在backbone后利用global average pooling层将样本特征进行水平分割,切分为三块的对应人体的头部、上半身及下半身,六块的则对应更为精细的人体部位;两个模态样本的特征经过切割之后进行连接,并进入共享参数的线性层进行降维,之后所切分的每一个特征块单独进行目标函数的优化;其中,采用交叉熵函数优化模态内的特征空间;引入基于簇中心的目标函数,利用同身份样本的簇中心实现同身份样本距离更近,异特征样本距离更远的优化目标;
在最终的匹配检测阶段,所有的local分支的特征以及global分支的特征会被连接以形成一个更具有表征区分能力的描述子;
步骤3,将感兴趣行人目标query作为所述双流跨模态深度网络的输入,双流跨模态深度网络将给出与query目标相似程度较高的行人目标列表,相似性从高到低,操作者根据行人目标列表,找到其中的同身份行人目标,进行行人追踪。
2.根据权利要求1所述的高准确率的跨模态行人重识别方法,其特征在于:所述步骤1中,预处理后的行人图像样本包括包含行人身体样貌特征的图像本身、图像样本对应的行人身份信息、以及行人图像样本原本的视频序列信息。
3.根据权利要求1所述的高准确率的跨模态行人重识别方法,其特征在于:所述步骤1中,数据集为SYSU-MM01真实数据集。
4.根据权利要求1所述的高准确率的跨模态行人重识别方法,其特征在于:所述步骤2中,双流跨模态深度网络使用pytorch模型库中的在ImageNet上进行过预训练的ResNet-50作为骨架网络;双流跨模态深度网络分为local分支和global分支,每个分支都包含双流结构,用以处理两个模态的样本特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110243887.7A CN112906605B (zh) | 2021-03-05 | 2021-03-05 | 一种高准确率的跨模态行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110243887.7A CN112906605B (zh) | 2021-03-05 | 2021-03-05 | 一种高准确率的跨模态行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112906605A CN112906605A (zh) | 2021-06-04 |
CN112906605B true CN112906605B (zh) | 2024-02-20 |
Family
ID=76108318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110243887.7A Active CN112906605B (zh) | 2021-03-05 | 2021-03-05 | 一种高准确率的跨模态行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112906605B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705489B (zh) * | 2021-08-31 | 2024-06-07 | 中国电子科技集团公司第二十八研究所 | 基于先验区域知识指导的遥感影像细粒度飞机识别方法 |
CN113887382B (zh) * | 2021-09-29 | 2024-02-23 | 合肥工业大学 | 基于rgb-d跨模态行人再识别方法、存储介质、设备 |
CN113610071B (zh) * | 2021-10-11 | 2021-12-24 | 深圳市一心视觉科技有限公司 | 人脸活体检测方法、装置、电子设备及存储介质 |
CN113963150B (zh) * | 2021-11-16 | 2022-04-08 | 北京中电兴发科技有限公司 | 一种基于多尺度孪生级联网络的行人重识别方法 |
CN114998925B (zh) * | 2022-04-22 | 2024-04-02 | 四川大学 | 一种面向孪生噪声标签的鲁棒跨模态行人重识别方法 |
CN115859175B (zh) * | 2023-02-16 | 2023-05-23 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 基于跨模态生成式学习的液压减震器设备异常检测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931637A (zh) * | 2020-08-07 | 2020-11-13 | 华南理工大学 | 基于双流卷积神经网络的跨模态行人重识别方法和*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008842A (zh) * | 2019-03-09 | 2019-07-12 | 同济大学 | 一种基于深度多损失融合模型的行人重识别方法 |
-
2021
- 2021-03-05 CN CN202110243887.7A patent/CN112906605B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931637A (zh) * | 2020-08-07 | 2020-11-13 | 华南理工大学 | 基于双流卷积神经网络的跨模态行人重识别方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN112906605A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112906605B (zh) | 一种高准确率的跨模态行人重识别方法 | |
Liu et al. | Target-aware dual adversarial learning and a multi-scenario multi-modality benchmark to fuse infrared and visible for object detection | |
Liu et al. | Enhancing the discriminative feature learning for visible-thermal cross-modality person re-identification | |
CN109961051B (zh) | 一种基于聚类和分块特征提取的行人重识别方法 | |
Wang et al. | A survey of vehicle re-identification based on deep learning | |
Lin et al. | RSCM: Region selection and concurrency model for multi-class weather recognition | |
CN111666851B (zh) | 一种基于多粒度标签的交叉域自适应行人重识别方法 | |
Tang et al. | Multi-modal metric learning for vehicle re-identification in traffic surveillance environment | |
Li et al. | Effective person re-identification by self-attention model guided feature learning | |
Wang et al. | A comprehensive overview of person re-identification approaches | |
CN114511878A (zh) | 一种基于多模态关系聚合的可见光红外行人重识别方法 | |
Zhang et al. | Spatio-channel attention blocks for cross-modal crowd counting | |
CN113052017A (zh) | 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法 | |
Muchtar et al. | A unified smart surveillance system incorporating adaptive foreground extraction and deep learning-based classification | |
Sokolova et al. | Methods of gait recognition in video | |
Li et al. | Object re-identification based on deep learning | |
Jiang et al. | RailSeg: Learning Local-Global Feature Aggregation with Contextual Information for Railway Point Cloud Semantic Segmentation | |
CN114580492B (zh) | 一种基于互学习的跨域行人重识别方法 | |
Zhu et al. | Learning camera invariant deep features for semi-supervised person re-identification | |
Zou et al. | Research on human movement target recognition algorithm in complex traffic environment | |
Zhang et al. | Asymmetric double networks mutual teaching for unsupervised person Re-identification | |
CN113378992A (zh) | 一种基于位置识别的车辆定位方法及*** | |
Guo et al. | A bus passenger re-identification dataset and a deep learning baseline using triplet embedding | |
CN113869151A (zh) | 一种基于特征融合的跨视角步态识别方法及*** | |
Wang et al. | Illuminating vehicles with motion priors for surveillance vehicle detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |