CN114882525B - 基于模态特定记忆网络的跨模态行人重识别方法 - Google Patents
基于模态特定记忆网络的跨模态行人重识别方法 Download PDFInfo
- Publication number
- CN114882525B CN114882525B CN202210426984.4A CN202210426984A CN114882525B CN 114882525 B CN114882525 B CN 114882525B CN 202210426984 A CN202210426984 A CN 202210426984A CN 114882525 B CN114882525 B CN 114882525B
- Authority
- CN
- China
- Prior art keywords
- infrared
- visible light
- pedestrian
- representing
- reconstruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015654 memory Effects 0.000 title claims abstract description 142
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000004590 computer program Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 65
- 238000012512 characterization method Methods 0.000 claims description 33
- 238000010606 normalization Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000000295 complement effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于模态特定记忆网络的跨模态行人重识别方法,包括:获取待重识别的行人图像和重识别类型;根据重识别类型,利用基于模态特定记忆网络的跨模态行人重识别模型处理待重识别的行人图像,得到重识别结果。本发明同时还提供了用于实现基于模态特定记忆网络的跨模态行人重识别方法的电子设备、存储介质以及计算机程序产品。
Description
技术领域
本发明涉及计算机视觉领域,特别涉及一种基于模态特定记忆网络的跨模态行人重识别方法、重识别装置、电子设备以及存储介质。
背景技术
行人重识别是一项匹配不同相机视角下的行人图像的技术。行人重识别技术可以与行人检测、行人跟踪技术相结合,在视频监控、智能安防、刑事侦查等方面有着广泛应用。
然而,现有技术中关于行人重识别的方法存在无法充分利用行人的跨模态信息进行识别、或跨模态识别方法存在识别准确率不高、识别效果差等问题。
发明内容
鉴于上述问题,本发明提供了一种基于模态特定记忆网络的跨模态的模型的训练方法、电子设备、存储介质以及计算机程序产品,以期至少能解决上述问题之一。
根据本发明实施例,提供了一种基于模态特定记忆网络的跨模态行人重识别方法,包括:
获取待重识别的行人图像和重识别类型;
根据重识别类型,利用基于模态特定记忆网络的跨模态的模型处理待重识别的行人图像,得到重识别结果,其中,基于模态特定记忆网络的跨模态的模型如下方法训练得到:
利用特征提取模块分别处理行人的可见光图像和红外图像,得到可见光图像特征图和红外图像特征图;
将可见光图像特征图中的每个分割部分进行平均池化,得到可见光特征,将红外图像特征图中的每个分割部分进行平均池化,得到红外特征;
利用模态特定记忆网络模块重构行人的可见光特征和红外特征,得到行人的可见光重构特征和红外重构特征,其中,模态特定记忆网络模块用于存储和传输行人的可见光重构特征和红外重构特征;
利用统一特征对齐模块处理行人的可见光特征、红外特征、可见光重构特征和红外重构特征,得到行人的多模态统一表征,其中,多模态统一表征包括可见光统一表征和红外统一表征;
利用行人的可见光特征、红外特征、可见光重构特征、红外重构特征和多模态统一表征,根据预设的损失函数优化跨模态的模型,直到预设的损失函数的值满足预设条件,获得训练完成的基于模态特定记忆网络的跨模态的模型。
根据本发明实施例,上述利用模态特定记忆网络模块重构行人的可见光特征和红外特征,得到行人的可见光重构特征和红外重构特征包括:
利用模态特定记忆网络分别处理可见光特征和红外特征,得到可见光记忆项和红外记忆项;
计算可见光特征和可见光记忆项的余弦相似度,得到可见光余弦相似度;
对可见光余弦相似度进行归一化处理,得到可见光归一化向量;
根据红外记忆项和可见光归一化向量,获得红外重构特征;
计算红外特征和红外记忆项的余弦相似度,得到红外余弦相似度;
对红外余弦相似度进行归一化处理,得到红外归一化向量;
根据可见光记忆项和红外归一化向量,获得可见光重构特征。
根据本发明实施例,上述可见光余弦相似度由公式(1)确定:
其中,表示可见光特征,/>表示可见光记忆项;
其中,红外重构特征由公式(2)确定:
其中,表示红外记忆项,/>表示n维可见光归一化向量的第k值,/>由公式(3)确定:
其中,τ表示可见光温度系数。
根据本发明实施例,上述红外余弦相似度由公式(4)确定:
其中,表示红外特征,/>表示红外记忆项;
其中,可见光重构特征由公式(5)确定:
其中,表示可见光记忆项,/>表示n维红外归一化向量的第k值,/>由公式(6)确定:
其中,τ表示红外温度系数。
根据本发明实施例,上述利用统一特征对齐模块处理行人的可见光特征、红外特征、行人的可见光重构特征和红外重构特征,得到行人的多模态统一表征包括:
利用统一特征对齐模块将可见光特征和红外重构特征进行融合,得到可见光统一表征;
利用统一特征对齐模块将红外特征和可见光重构特征进行融合,得到红外统一表征。
根据本发明实施例,上述预设的损失函数由公式(7)确定:
其中,表示模态统一表征分类损失函数,/>表示模态特征分类损失函数,表示中心三元组损失函数,/>表示重构一致损失函数,/>表示模态特定记忆项损失函数,/>表示模态特定记忆项判别损失函数,/>表示重构损失函数,λalign表示模态特定记忆项损失函数的加权系数,λdis表示模态特定记忆项判别损失函数的加权系数,λrec表示重构损失函数的加权系数。
根据本发明实施例,上述模态统一表征分类损失函数由公式(8)确定:
其中,模态特征分类损失函数由公式(9)确定:
其中,重构一致损失函数由公式(10)确定:
其中,重构损失函数由公式(11)确定:
其中,模态特定记忆项损失函数由公式(12)确定:
其中,模态特定记忆项判别损失函数由公式(13)确定:
其中,yV表示行人的可见光图像标签,yI行人的红外图像标签,fV表示可见光特征,fI表示红外特征,表示可见光重构特征,/>表示红外重构特征,*∈{V,I}表示可见光特征或红外特征,m*表示记忆项,AV可见光归一化向量,AI表示红外归一化向量。
根据本发明实施例,提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述一种基于模态特定记忆网络的跨模态行人重识别方法。
根据本发明实施例,提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述一种基于模态特定记忆网络的跨模态行人重识别方法。
根据本发明实施例,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述一种基于模态特定记忆网络的跨模态行人重识别方法。
本发明提供的跨模态行人重识别方法基于模态特定记忆网络,通过预先训练完成的基于模态特定记忆网络的跨模态行人重识别模型,处理行人的跨模态特征,从而建立起行人的可见光模态特征和红外模态特征之间的对应关系,进行实现具有较高识别准确率和良好识别效率的跨模态行人重识别。
附图说明
图1是根据本发明实施例的基于模态特定记忆网络的跨模态行人重识别方法的流程图;
图2是根据本发明实施例的基于模态特定记忆网络的跨模态的模型的训练方法的流程图;
图3是根据本发明实施例获取行人多模态重构特征的流程图;
图4是根据本发明实施例的获取行人的多模态统一表征的流程图;
图5是根据本发明实施例的基于模态特定记忆网络的跨模态的模型的训练框架图;
图6示意性示出了根据本发明实施例的适于基于模态特定记忆网络的跨模态行人重识别方法和基于模态特定记忆网络的跨模态的模型的训练方法的电子设备的方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
现有的行人重识别方法主要专注于白天场景下,由普通相机所拍摄的可见光行人图像间的检索,可以将其看作为单模态图像匹配的问题。但是,在夜间等光照条件较差的环境下,普通相机很难捕捉到行人有效的外观信息。为了克服这个限制,在光照条件变化时,一些监控摄像机可以在可见光与红外模式之间自由切换。因此,设计有效的模型去实现可见光—红外图像间的行人检索,即跨模态行人重实别问题是十分必要的。
目前的跨模态行人重识别方法可以大体归为两类:模态共享特征学习类方法和模态信息补全类方法。模态共享特征学习类方法试图将不同模态的图像嵌入到共享的特征空间中。然而,由于可见光和红外图像的外观差异很大,如何将不同形态的图像直接嵌入到一个共享的特征空间中仍然是一个难题。此外,由于可见光图像的颜色等模态信息被这类方法视为冗余信息,模态共享特征学习类方法的特征表示的判别性受到限制。为了解决这一问题,模态信息补全类的方法被提出,其目标是利用输入模态的信息补全另一个的模态信息。然而,由于模型仅采用单一的模态输入,很难填补缺失的模态信息以解决模态差异问题。
有鉴于此,本申请提供了一种基于模态特定记忆网络的跨模态的模型的训练方法、行人重识别方法以及电子设备。上述行人重识别方法,通过基于模态特定记忆网络的跨模态的模型的训练方法得到基于模态特定记忆网络的跨模态的模型,来实现缺失模态信息补全,从而解决跨模态行人重实别中的模态差异问题,进而判断不同模态的行人图像是否属于同一行人。
在本发明的技术方案中,所涉及的行人信息的获取,存储和应用等,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
图1是根据本发明实施例的基于模态特定记忆网络的跨模态行人重识别方法的流程图。
如图1所示,上述行人重识别方法包括操作S110~操作S120。
在操作S110,获取待重识别的行人图像和重识别类型;
在操作S120,根据重识别类型,利用基于模态特定记忆网络的跨模态的模型处理待重识别的行人图像,得到重识别结果。
图2是根据本发明实施例的获取基于模态特定记忆网络的跨模态的模型的训练方法的流程图。
如图2所示,上述基于模态特定记忆网络的跨模态的模型的训练方法包括操作S210~操作S250。
在操作S210,利用特征提取模块分别处理行人的可见光图像和红外图像,得到可见光图像特征图和红外图像特征图。
上述特征提取模块优选地采用双流卷积神经网络,上述卷积神经网络的前两个卷积块是模态特有的(例如专门用于处理可见光的卷积块),以捕获特定于模态的低层特征(低层特征分辨率更高,包含更多位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更多)模式,而深度卷积块的参数是两种模态共享的(可见光和红外共有)。
在操作S220,将可见光图像特征图中的每个分割部分进行平均池化,得到可见光特征,将红外图像特征图中的每个分割部分进行平均池化,得到红外特征。
在操作S230,利用模态特定记忆网络模块重构行人的可见光特征和红外特征,得到行人的可见光重构特征和红外重构特征。
上述模态特定记忆网络模块用于保存每个模态(可见光或红外)的原型特征,同时上述模态特定记忆网络模块可用于存储和传输所述行人的所述可见光重构特征和所述红外重构特征
在操作S240,利用统一特征对齐模块处理行人的可见光特征、红外特征、可见光重构特征和红外重构特征,得到行人的多模态统一表征。
在操作S250,利用行人的可见光特征、红外特征、可见光重构特征、红外重构特征和多模态统一表征,根据预设的损失函数优化跨模态的模型,直到预设的损失函数的值满足预设条件,获得基于模态特定记忆网络的跨模态的模型。
上述基于模态特定记忆网络的跨模态的模型的训练方法通过处理行人的可见光图像和红外图像,获取行人的可见光图像特征和红外图像特征,并利用模态特定记忆网络重构上述可见光图像特征和红外图像特征,从而获得行人的可见光和红外重构特征,同时利用统一对齐模块处理上述重构特征,获得行人的可见光和红外统一表征,然后利用多模态特征和预设的损失函数训练优化基于模态特定记忆网络的跨模态的模型;通过迭代训练优化上述模型,获得具有较高识别准确率和良好识别效果的基于模态特定记忆网络的跨模态的模型。
本发明提供的跨模态行人重识别方法基于模态特定记忆网络,通过预先训练完成的基于模态特定记忆网络的跨模态行人重识别模型,处理行人的跨模态特征,从而建立起行人的可见光模态特征和红外模态特征之间的对应关系,进行实现具有较高识别准确率和良好识别效率的跨模态行人重识别。
下面结合具体实施方式,对上述获取行人的可见光特征和红外特征进行详细地说明。
对于给定的图像(如行人的可见光图像或行人的红外图像),可以提取可见光图像特征图和红外图像特征图/>其中,H,W,C分别表示特征图的高度、宽度和通道的数量。然后将FV和FI水平分割为K个部分,每个部分平均池化,分别得到局部特征向量/> 和/>其中,k=1,2,…,K。
图3是根据本发明实施例获取行人多模态重构特征的流程图。
如图3所示,利用模态特定记忆网络模块处理行人的多模态特征,得到行人的多模态重构特征包括操作S310~操作S370。
在操作S310,利用模态特定记忆网络分别处理可见光特征和红外特征,得到可见光记忆项和红外记忆项。
上述记忆项就是模态特定记忆网络中的每一项,具体是把一些具有代表性的样本存储在记忆网络中。
在操作S320,计算可见光特征和可见光记忆项的余弦相似度,得到可见光余弦相似度。
在操作S330,对可见光余弦相似度进行归一化处理,得到可见光归一化向量。
上述可见光归一化向量由公式表示。
在操作S340,根据红外记忆项和可见光归一化向量,获得红外重构特征。
在操作S350,计算红外特征和红外记忆项的余弦相似度,得到红外余弦相似度。
在操作S360,对红外余弦相似度进行归一化处理,得到红外归一化向量。
上述红外归一化向量由公式表示。
在操作S370,根据可见光记忆项和红外归一化向量,获得可见光重构特征。
下面结合具体实施方式,对上述获得行人的多模态重构特征作进一步详细地说明。
上述模态特定记忆网络模块用于在可见光模态和红外模态之间准确地存储和传播信息,并获得统一的特征表示。给定一张输入图像(例如可见光图像或红外图像),可以从记忆网络中进行读取,以重建其丢失的模态特征。例如,给定一张可见光图像,可以重建它的红外特征。为了实现这一目标,引入了模态特定的记忆项和/>这里,N表示每个部分用于建模局部变化的记忆项的数目。模态特定的记忆项(特定的记忆项如专门用于可见光的记忆项)成对排列,每个项对应于可见光或红外模态的原型特征。
根据本发明实施例,上述可见光余弦相似度由公式(1)确定:
其中,表示可见光特征,/>表示可见光记忆项;
其中,红外重构特征由公式(2)确定:
其中,表示红外记忆项,/>表示n维可见光归一化向量的第k值,/>由公式(3)确定:
其中,τ表示可见光温度系数。
根据本发明实施例,上述红外余弦相似度由公式(4)确定:
其中,表示红外特征,/>表示红外记忆项;
其中,可见光重构特征由公式(5)确定:
其中,表示可见光记忆项,/>表示n维红外归一化向量的第k值,/>由公式(6)确定:
其中,τ表示红外温度系数。
通过公式(1)-(6)可以分别计算出行人的可见光重构特征和红外重构特征,根据上述公式计算处理的多模态重构特征,能够在跨模态识别过程中,发挥互相映射比对的作用,提升跨模态识别效率。
图4是根据本发明实施例的获取行人的多模态统一表征的流程图。
如图4所示,上述利用统一特征对齐模块处理行人的多模态特征和行人的多模态重构特征,得到行人的多模态统一表征包括操作S410~操作S420。
在操作S410,利用统一特征对齐模块将可见光特征和红外重构特征进行融合,得到可见光统一表征。
在操作S420,利用统一特征对齐模块将红外特征和可见光重构特征进行融合,得到红外统一表征。
在获得行人的重构的缺失模态特征后,将重构的缺失模态特征加入到输入特征中,得到统一的特征表示:其中,/>表示可见光统一表征,/>表示红外统一表征,h(·)是由一个线性层和一个批处理归一化层组成的一个融合层。通过融合原始特征和重构模态特征,将可见光和红外图像自然地嵌入到一个共同的特征空间中。
根据本发明实施例,上述预设的损失函数由公式(7)确定:
其中,表示模态统一表征分类损失函数,/>表示模态特征分类损失函数,表示中心三元组损失函数,/>表示重构一致损失函数,/>表示模态特定记忆项损失函数,/>表示模态特定记忆项判别损失函数,/>表示重构损失函数,λalign表示模态特定记忆项损失函数的加权系数,λdis表示模态特定记忆项判别损失函数的加权系数,λrec表示重构损失函数的加权系数。
通过上述各类损失函数,可以提升基于模态特定记忆网络的跨模态的模型的优化效率和优化效果。
根据本发明实施例,上述模态统一表征分类损失函数由公式(8)确定:
上述模态统一表征分类损失函数用于预测行人的身份。
其中,模态特征分类损失函数由公式(9)确定:
上述模态特征分类损失函数用于使来自两种模态(可见光和红外)的局部特征具有判别性。
其中,重构一致损失函数由公式(10)确定:
上述重构一致损失函数用于使记忆网络重构的特征与骨干网提取的特征具有一致性,并利用两个模态鉴别器和/>对重构模态特征/>和/>进行分类。
其中,重构损失函数由公式(11)确定:
上述重构损失函数用于确保可以用来自相同模态的记忆项重构输入特征。首先得到重构的输入特征:然后最小化输入特征和重构的输入特征之间的欧几里德距离。
其中,模态特定记忆项损失函数由公式(12)确定:
上述模态特定记忆项损失函数用于对齐可见光和红外模态的记忆项之间对应关系,其中,DKL(·)代表表示KL散度。
其中,模态特定记忆项判别损失函数由公式(13)确定:
由于记忆项存储了每个模态的原型特征,它们应该有足够的识别力来代表行人图像的各种模式。上述模态特定记忆项判别损失函数用于使多模态的记忆项具有可分辨性。
其中,yV表示行人的可见光图像标签,yI行人的红外图像标签,fV表示可见光特征,fI表示红外特征,表示可见光重构特征,/>表示红外重构特征,*∈{V,I}表示可见光特征或红外特征,m*表示记忆项,AV可见光归一化向量,AI表示红外归一化向量。
图5是根据本发明实施例的基于模态特定记忆网络的跨模态的模型的训练框架图。
下面结合图5对上述模型的训练过程作进一步详细地说明。
如图5所示,上述模型的输入是行人的可见光图像和红外图像。首先,模型的特征提取模块分别处理可见光图像和红外图像,用于获取行人的可见光特征和红外特征,在此过程中,相关的损失函数(例如判别器DV和DI)可以用于优化特征提取模型的结果;其次,将可见光特征和红外特征输入到模态特定记忆网络模块(模态特定记忆网络模块是指专门用于某种模态的神经网络,例如专门用于处理可见光模态的神经网络),在该模块可以获得多模态中不同模态的特有记忆项(例如可见光记忆项)并得到多模态重构特征;最后,利用统一特征对齐模块将多模态重构特征和多模态特征进行融合,得到多模态统一表征。上述训练框架,不需要图像生成过程,整个网络可以被端到端训练;该方法通过模态特定记忆网络补全模态缺失的特征来缓解模态差异问题,只使用单模态的输入即可补全缺失模态特征,通过聚合原始和缺失模态特征,得到统一的特征空间,可以很好地缓解模态差异问题。
上述行人重识别方法,通过基于模态特定记忆网络的跨模态的模型的训练方法获得训练完成的基于模态特定记忆网络的跨模态的模型,并利用训练完成的基于模态特定记忆网络的跨模态的模型对行人进行重识别,能够根据输入的单模态行人图像,补全其缺失的模态信息,进而判断不同模态的行人图像是否属于同一行人,提高了行人重识别的准确率,同时,该方法可以广泛应用于安防***、智慧城市等场景,也可以以软件的方式安装于前端设备上,提供实时可见光—近红外行人图像匹配或部署于公司的后台服务器,提供大批量可见光—近红外行人图像检索与匹配结果。
图6示意性示出了根据本发明实施例的适于基于模态特定记忆网络的跨模态行人重识别方法和基于模态特定记忆网络的跨模态的模型的训练方法的电子设备的方框图。
如图6所示,根据本发明实施例的电子设备600包括处理器601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 603中,存储有电子设备600操作所需的各种程序和数据。处理器601、ROM602以及RAM 603通过总线604彼此相连。处理器601通过执行ROM 602和/或RAM 603中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意,程序也可以存储在除ROM602和RAM 603以外的一个或多个存储器中。处理器601也可以通过执行存储在一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。
根据本发明的实施例,电子设备600还可以包括输入/输出(I/O)接口605,输入/输出(I/O)接口605也连接至总线604。电子设备600还可以包括连接至I/O接口605的以下部件中的一项或多项:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的;也可以是单独存在,而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。例如,根据本发明的实施例,计算机可读存储介质可以包括上文描述的ROM 602和/或RAM 603和/或ROM 602和RAM 603以外的一个或多个存储器。
本发明的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机***中运行时,该程序代码用于使计算机***实现本发明实施例所提供的基于模态特定记忆网络的跨模态行人重识别方法和基于模态特定记忆网络的跨模态的模型的训练方法。
在该计算机程序被处理器601执行时执行本发明实施例的***/装置中限定的上述功能。根据本发明的实施例,上文描述的***、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分609被下载和安装,和/或从可拆卸介质611被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被处理器601执行时,执行本发明实施例的***中限定的上述功能。根据本发明的实施例,上文描述的***、设备、装置、模块、单元等可以通过计算机程序模块来实现。
以上的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于模态特定记忆网络的跨模态行人重识别方法,包括:
获取待重识别的行人图像和重识别类型;
根据所述重识别类型,利用所述基于模态特定记忆网络的跨模态的模型处理所述待重识别的行人图像,得到重识别结果,其中,所述基于模态特定记忆网络的跨模态的模型如下方法训练得到:
利用特征提取模块分别处理行人的可见光图像和红外图像,得到可见光图像特征图和红外图像特征图;
将所述可见光图像特征图中的每个分割部分进行平均池化,得到可见光特征,将所述红外图像特征图中的每个分割部分进行平均池化,得到红外特征;
利用模态特定记忆网络模块重构所述行人的所述可见光特征和所述红外特征,得到行人的可见光重构特征和红外重构特征,其中,所述模态特定记忆网络模块用于存储和传输所述行人的所述可见光重构特征和所述红外重构特征;
利用统一特征对齐模块处理所述行人的所述可见光特征、所述红外特征、所述可见光重构特征和所述红外重构特征,得到行人的多模态统一表征,其中,所述多模态统一表征包括可见光统一表征和红外统一表征;
利用所述行人的所述可见光特征、所述红外特征、所述可见光重构特征、所述红外重构特征和所述多模态统一表征,根据预设的损失函数优化跨模态的模型,直到所述预设的损失函数的值满足预设条件,获得训练完成的所述基于模态特定记忆网络的跨模态的模型。
2.根据权利要求1所述的方法,其中,所述利用模态特定记忆网络模块重构所述行人的所述可见光特征和所述红外特征,得到行人的可见光重构特征和红外重构特征包括:
利用所述模态特定记忆网络分别处理所述可见光特征和所述红外特征,得到可见光记忆项和红外记忆项;
计算所述可见光特征和所述可见光记忆项的余弦相似度,得到可见光余弦相似度;
对所述可见光余弦相似度进行归一化处理,得到可见光归一化向量;
根据所述红外记忆项和所述可见光归一化向量,获得所述红外重构特征;
计算所述红外特征和所述红外记忆项的余弦相似度,得到红外余弦相似度;
对所述红外余弦相似度进行归一化处理,得到红外归一化向量;
根据所述可见光记忆项和所述红外归一化向量,获得所述可见光重构特征。
3.根据权利要求2所述的方法,其中,所述可见光余弦相似度由公式(1)确定:
其中,表示所述可见光特征,/>表示可见光记忆项;
其中,所述红外重构特征由公式(2)确定:
其中,表示红外记忆项,/>表示n维可见光归一化向量的第k值,/>由公式(3)确定:
其中,τ表示可见光温度系数。
4.根据权利要求2所述的方法,其中,所述红外余弦相似度由公式(4)确定:
其中,表示所述红外特征,/>表示红外记忆项;
其中,所述可见光重构特征由公式(5)确定:
其中,表示可见光记忆项,/>表示n维红外归一化向量的第k值,/>由公式(6)确定:
其中,τ表示红外温度系数。
5.根据权利要求1所述的方法,其中,所述利用统一特征对齐模块处理所述行人的所述可见光特征、所述红外特征、所述可见光重构特征和所述红外重构特征,得到行人的多模态统一表征包括:
利用统一特征对齐模块将所述可见光特征和所述红外重构特征进行融合,得到可见光统一表征;
利用统一特征对齐模块将所述红外特征和所述可见光重构特征进行融合,得到红外统一表征。
6.根据权利要求1所述的方法,其中,所述预设的损失函数由公式(7)确定:
其中,表示模态统一表征分类损失函数,/>表示模态特征分类损失函数,/>表示中心三元组损失函数,/>表示重构一致损失函数,/>表示模态特定记忆项损失函数,/>表示模态特定记忆项判别损失函数,/>表示重构损失函数,λalign表示模态特定记忆项损失函数的加权系数,λdis表示模态特定记忆项判别损失函数的加权系数,λrec表示重构损失函数的加权系数。
7.根据权利要求6所述的方法,其中,所述模态统一表征分类损失函数由公式(8)确定:
其中,所述模态特征分类损失函数由公式(9)确定:
其中,所述重构一致损失函数由公式(10)确定:
其中,所述重构损失函数由公式(11)确定:
其中,所述模态特定记忆项损失函数由公式(12)确定:
其中,所述模态特定记忆项判别损失函数由公式(13)确定:
其中,yV表示行人的可见光图像标签,yI行人的红外图像标签,fV表示可见光特征,fI表示红外特征,表示可见光重构特征,/>表示红外重构特征,*∈{V,I}表示可见光特征或红外特征,m*表示记忆项,AV可见光归一化向量,AI表示红外归一化向量。
8.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~7中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~7中任一项所述的方法。
10.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210426984.4A CN114882525B (zh) | 2022-04-21 | 2022-04-21 | 基于模态特定记忆网络的跨模态行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210426984.4A CN114882525B (zh) | 2022-04-21 | 2022-04-21 | 基于模态特定记忆网络的跨模态行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114882525A CN114882525A (zh) | 2022-08-09 |
CN114882525B true CN114882525B (zh) | 2024-04-02 |
Family
ID=82671510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210426984.4A Active CN114882525B (zh) | 2022-04-21 | 2022-04-21 | 基于模态特定记忆网络的跨模态行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114882525B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018120936A1 (en) * | 2016-12-27 | 2018-07-05 | Zhejiang Dahua Technology Co., Ltd. | Systems and methods for fusing infrared image and visible light image |
CN112016401A (zh) * | 2020-08-04 | 2020-12-01 | 杰创智能科技股份有限公司 | 基于跨模态行人重识别方法及装置 |
CN114220124A (zh) * | 2021-12-16 | 2022-03-22 | 华南农业大学 | 一种近红外-可见光跨模态双流行人重识别方法及*** |
CN114241517A (zh) * | 2021-12-02 | 2022-03-25 | 河南大学 | 基于图像生成和共享学习网络的跨模态行人重识别方法 |
-
2022
- 2022-04-21 CN CN202210426984.4A patent/CN114882525B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018120936A1 (en) * | 2016-12-27 | 2018-07-05 | Zhejiang Dahua Technology Co., Ltd. | Systems and methods for fusing infrared image and visible light image |
CN112016401A (zh) * | 2020-08-04 | 2020-12-01 | 杰创智能科技股份有限公司 | 基于跨模态行人重识别方法及装置 |
WO2022027986A1 (zh) * | 2020-08-04 | 2022-02-10 | 杰创智能科技股份有限公司 | 基于跨模态行人重识别方法及装置 |
CN114241517A (zh) * | 2021-12-02 | 2022-03-25 | 河南大学 | 基于图像生成和共享学习网络的跨模态行人重识别方法 |
CN114220124A (zh) * | 2021-12-16 | 2022-03-22 | 华南农业大学 | 一种近红外-可见光跨模态双流行人重识别方法及*** |
Non-Patent Citations (2)
Title |
---|
基于得分的近红外线与可见光图像融合算法;潘磊;尹义龙;李徐周;;计算机工程;20130415(04);全文 * |
基于生成对抗网络的跨模态行人重识别研究;冯敏;张智成;吕进;余磊;韩斌;;现代信息科技;20200225(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114882525A (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112016401B (zh) | 基于跨模态行人重识别方法及装置 | |
CN111104867B (zh) | 基于部件分割的识别模型训练、车辆重识别方法及装置 | |
CN111539255B (zh) | 基于多模态图像风格转换的跨模态行人重识别方法 | |
US10445602B2 (en) | Apparatus and method for recognizing traffic signs | |
WO2019001481A1 (zh) | 车辆外观特征识别及车辆检索方法、装置、存储介质、电子设备 | |
Lee et al. | Place recognition using straight lines for vision-based SLAM | |
JP2016062610A (ja) | 特徴モデル生成方法及び特徴モデル生成装置 | |
Varghese et al. | An efficient algorithm for detection of vacant spaces in delimited and non-delimited parking lots | |
CN107766864B (zh) | 提取特征的方法和装置、物体识别的方法和装置 | |
CN109635726B (zh) | 一种基于对称式深度网络结合多尺度池化的滑坡识别方法 | |
CN103383732A (zh) | 图像处理方法和装置 | |
CN112861695A (zh) | 行人身份再识别方法、装置、电子设备及存储介质 | |
CN114550220B (zh) | 行人重识别模型的训练方法及行人重识别方法 | |
CN112990152A (zh) | 基于关键点检测和局部特征对齐的车辆重识别方法 | |
Gu et al. | Embedded and real-time vehicle detection system for challenging on-road scenes | |
WO2019100348A1 (zh) | 图像检索方法和装置以及图像库的生成方法和装置 | |
CN112861776A (zh) | 一种基于密集关键点的人体姿态分析方法和*** | |
CN115620090A (zh) | 模型训练方法、低照度目标重识别方法和装置、终端设备 | |
Ying et al. | Tyre pattern image retrieval–current status and challenges | |
CN112257628A (zh) | 一种户外比赛运动员的身份识别方法、装置及设备 | |
CN114882525B (zh) | 基于模态特定记忆网络的跨模态行人重识别方法 | |
CN114627500A (zh) | 一种基于卷积神经网络的跨模态行人重识别方法 | |
CN113408356A (zh) | 基于深度学习的行人重识别方法、装置、设备及存储介质 | |
Liu et al. | SYRER: Synergistic Relational Reasoning for RGB-D Cross-modal Re-identification | |
CN113240723A (zh) | 一种单目深度估计方法、装置以及深度评估设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |