CN117746467B - 一种模态增强和补偿的跨模态行人重识别方法 - Google Patents

一种模态增强和补偿的跨模态行人重识别方法 Download PDF

Info

Publication number
CN117746467B
CN117746467B CN202410018744.XA CN202410018744A CN117746467B CN 117746467 B CN117746467 B CN 117746467B CN 202410018744 A CN202410018744 A CN 202410018744A CN 117746467 B CN117746467 B CN 117746467B
Authority
CN
China
Prior art keywords
pedestrian
modal
mode
information
enhancement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410018744.XA
Other languages
English (en)
Other versions
CN117746467A (zh
Inventor
邓淑雅
程旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202410018744.XA priority Critical patent/CN117746467B/zh
Publication of CN117746467A publication Critical patent/CN117746467A/zh
Application granted granted Critical
Publication of CN117746467B publication Critical patent/CN117746467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种模态增强和补偿的跨模态行人重识别方法,引入了模态相互指导策略,指导可见光和红外模态的对齐匹配。首先,通过堆叠具有不同类型和感受野尺度的卷积来构建双分支结构的模态增强空间,旨在提取足够的模态信息用于特征补偿阶段;然后,构建模态补偿空间,分别从高度、宽度和通道三个维度通过特征级模态信息融合来补偿可见光或红外模态中相应的行人模态缺失信息;最后,设计了一种模态相互指导学习策略,通过使用身份信息互学习损失和模态引导对齐损失进行联合优化,输出行人匹配结果。本发明方法构建了模态增强和补偿空间并将其集成到特征级别,以改善跨模态差异,提取更具有辨别力的行人模态信息。

Description

一种模态增强和补偿的跨模态行人重识别方法
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种模态增强和补偿的跨模态行人重识别方法。
背景技术
ReID(行人重识别)的目标是匹配来自多个非重叠摄像机的行人图像,在当代监控***中具有重要意义,因此近年来引起了广泛关注。以往的研究主要集中在匹配可见光摄像机捕捉的行人图像上,将ReID任务视为单模态匹配问题。然而,在光照条件较差的场景中,可见光摄像机通常无法提供准确的外观信息。为了克服这个限制,现代监控***引入了红外摄像机,在低光条件下特别是在夜间可以拍摄清晰的图像。VI-ReID(可见光红外的跨模态行人重识别)成为一个日益受关注的领域。VI-ReID旨在匹配红外图像与可见光图像中的同一人物,跨越多个摄像机视图解决跨模态匹配的挑战,主要挑战是可见光和红外光之间存在显著的差异。
现有VI-ReID方法主要通过特征级和图像输入级进行模态补偿,达到缓解模态差异的作用。在特征级方面,一些研究利用双流网络进行跨模态特征嵌入,尝试提取具有辨别力的模态共享特征来进行VI-ReID。然而,这些模型无意中会忽略可能有助于VI-ReID匹配行人的特定模态行人身份信息。后来,FMCNet(特征级模态补偿网络)通过使用另一种模态的现有共享模态特征直接生成缺失的特定模态特征,以在特征级上弥补特定模态信息的缺失。还有一些模型在图像输入层面融合可见光和红外光来获取辅助模态,捕捉特定模态和共享模态的行人信息,以有效地解决跨模态和模态内部的差异。X模态方法通过使用额外的轻量级网络在自监督学习下训练来生成互补和辅助的X模态,以缓解模态差异,利用可见图像生成中间模态,而忽略了红外模态,并未捕捉多个模态的特征分布。随后,提出了DFM来解决可见光和红外模态之间的像素级差异,如SMCL(综合模态协作学习)模型,以促进模态不变表示的生成和跨模态差距的缩小,自动构建了一个将异构图像的特征集成起来的新模态。
但是,尽管上述方法具有一定的有效性,仍然存在两个缺点。首先,它们在生成共享特征的补偿特征时没有考虑不同摄像机之间的视角变化,因此可能包含无法区分的模态信息,从而降低模型行人识别的性能。其次,上述方法仅侧重于从图像输入的角度进行像素级融合,忽略了模态之间存在不匹配的问题。
发明内容
本发明所要解决的问题是:提供一种模态增强和补偿的跨模态行人重识别方法,构建模态增强和补偿空间并将其集成到特征级别,解决不同摄像机之间存在视角变化导致不同模态的行人信息无法区分,以及图片进行像素级融合时存在模态之间不匹配的问题。
本发明采用如下技术方案:一种模态增强和补偿的跨模态行人重识别方法,步骤如下:
步骤S1、构建双流骨干网络,基于输入图片,分别提取可见光模态和红外模态的行人特征信息;
步骤S2、构建模态增强空间,提取具有充分行人模态信息的特征;
步骤S3、构建模态补偿空间,从三个维度补偿两个模态相应的缺失模态信息;
步骤S4、设计模态相互指导学习策略,指导两个模态相互学习相应的行人身份信息,并引导模态特征对齐匹配;
步骤S5、利用损失函数进行网络优化,对网络提取的特征进行相似性度量,输出行人匹配结果。
进一步地,步骤S1基于ResNet-50构建双流骨干网络,双流骨干网络分为五个阶段,前三个阶段是特定模态阶段,分别针对红外模态和可见光模态构建两个网络分支,然后提取两个模态的浅层次行人特征,后两个阶段为共享模态阶段,共同提取两个模态的行人特征信息。
进一步地,步骤S2模态增强空间,堆叠多个不同类型的卷积块,并结合通道注意力机制对共享模态中提取的行人特征信息进行增强,使得提取的行人特征具有更丰富的身份相关信息。
进一步地,步骤S3模态补偿空间,分别从模态增强空间中提取出的行人增强特征的高度、宽度和通道三个维度进行相应模态特征的信息补偿,使得相应的模态特征不再缺失另外一个模态的行人信息,从而可以缓解模态之间的差异。
进一步地,步骤S4模态相互指导学习策略,由两个设计的损失指导特征学习,其中包括身份信息互学习损失和模态引导对齐损失。
进一步地,步骤S5使用通用的交叉熵损失、中心损失进行训练优化整个网络。
本发明技术方案还提供了:一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一模态增强和补偿的跨模态行人重识别方法。
本发明技术方案还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现上述任一模态增强和补偿的跨模态行人重识别方法中的步骤。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、本发明模态增强和补偿的跨模态行人重识别方法,构造了模态增强空间和模态补偿空间来解决模态差异;利用模态增强空间提取具有丰富模态信息的辨别性特征,利用模态补偿空间补偿缺失的行人模态信息。
2、本发明模态增强和补偿的跨模态行人重识别方法,引入了一种模态相互指导学习策略来联合优化网络框架,通过提出身份信息互学习损失和模态引导对齐损失来增强身份相关特征的学习能力,缩小两种模态的分布差距。
附图说明
图1是本发明模态增强和补偿的跨模态行人重识别方法的步骤流程图;
图2是本发明模态增强和补偿的跨模态行人重识别方法的网络架构图;
图3是本发明模态增强和补偿的跨模态行人重识别方法中模态增强空间的具体结构图;
图4是本发明模态增强和补偿的跨模态行人重识别方法中在模态补偿空间里可见光模态补偿红外特征信息的详细过程图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对申请的技术方案做进一步地详尽阐述,所描述的实施例,也只是本发明所涉及实施例的一部分。本领域其他研究人员在该实施例上的所有非创新型实施例,都属于本发明的保护范围。同时对于本发明实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
本发明一种模态增强和补偿的跨模态行人重识别方法,如图1所示,步骤包括:
S1、构建具有五个阶段的双流骨干网络提取输入行人图片的特征;
S2、构建模态增强空间,提取具有充分行人模态信息的特征;
S3、构建模态补偿空间,从三个维度全面补偿两个模态相应的缺失模态信息;
S4、设计模态相互指导学习策略,指导两个模态相互学习相应的行人身份信息并引导模态特征对齐匹配。
S5、利用通用的损失函数进行网络优化,对网络提取的特征进行相似性度量,输出匹配结果。
在本发明的一个实施例中,模态增强和补偿的跨模态行人重识别方法的网络架构,如图2所示,主要包括三个部分:双流特征提取网络、模态增强空间和模态补偿空间。
步骤S1,利用ResNet-50构建双流骨干网络,充分提取红外模态和可见光模态行人图像的信息。从图2中可以看到双流骨干网络的整体框架,主要包括五个阶段,构建过程如下:
步骤101)以ResNet-50的前三个阶段为基础,构建双流特征提取网络的前三个阶段,这三个阶段网络参数不共享,红外模态和可见光模态采用结构相同的两个分支。
步骤102)将步骤101)两个分支提取出来的特征在批次维度上进行拼接形成一个新的特征表示作为接下来的网络阶段的输入。
步骤103)在ResNet-50后两个阶段的基础上,构建双流特征提取网络的后两个阶段,拼接后的特定模态特征作为其输入,即可实现共享模态特征提取。
步骤S2,设计一个模态增强空间,整合和增强特征中存在的特定模态行人信息,丰富模态信息并增强模型识别行人能力。
本实施例中,模态增强空间设计为具有不同尺度的双分支结构,如图3所示,每个分支包括三个阶段,以融合来自不同分支的增强特征,这些阶段都是由设计好的三种卷积结构组成,即Down-Conv、Enhance-Conv和Up-Conv。
其中,第一阶段由Down-Conv和Enhance-Conv组成,第二阶段仅包含Enhance-Conv,第三阶段只包括一个Up-Conv,这些卷积的参数是不相互共享。
另外,利用通道注意力机制来探索第一阶段和第二阶段提取特征通道之间的关系,以获取更多的行人识别信息。
构建模态增强空间,具体步骤如下:
步骤201)设计Down-Conv结构,并将其放置在双分支的开始位置,用于将特征的通道维数从C降为C/r(r是一个超参数)以减少接下来操作的计算量。Down-Conv定义如下:
Down-Conv(·)=ReLU(BN(PConv1×1(·)))
其中,PConv1×1(·)表示内核大小为1的point-wise卷积;BN(·)表示批归一化层。
步骤202)设计Enhance-Conv结构,它主要是由两种具有不同感受野尺度的卷积组成,以提取行人的丰富细节,其表示为:
Enhance-Conv(·)=ReLU(BN(GConv3×3(PConv1×1(·))))
其中,GConv3×3(·)是一个内核大小为3的组卷积算子。
步骤203)设计Up-Conv结构,它可以将增强特征的通道维数恢复到原始通道维数C,具体表示为:
Up-Conv(·)=BN(PConv1×1(·))
步骤204)基于上述三个卷积结构,将从骨干网络提取出来的初始行人特征输入到双分支结构的模态增强空间中,以挖掘包含丰富模态信息的鉴别性行人特征。
最后将两个分支的融合结果与初始行人特征F残差连接起来,从而在模态增强空间中生成增强行人特征
步骤205)设计好的模态增强空间分别放置在骨干网络最后两个阶段的后面。
步骤S3,由于可见光和红外模态图像从不同的角度提供不同的信息,它们在行人表征和信息捕获方面存在固有的模态差异,充分利用不同模态的互补信息可以减轻可见光和红外模态之间的差异。
本实施例中,提出模态补偿空间来补偿缺失的模态信息,从高度、宽度和通道维度分别丰富身份信息并且提高特征表示的鲁棒性,模态补偿空间的详细流程图如图4所示。
用红外模态补偿可见光模态的信息和用可见光模态补偿红外模态的信息的过程是类似的,以用可见光模态信息补偿红外模态特征为例,具体步骤如下:
步骤301)从模态增强空间获得的特征沿批次维度分为可见光增强特征/>和红外增强特征/>然后,对高度、宽度和通道维度进行排列重构,形成新的重塑特征/>为了提高计算效率,分别对这些特征的第一个维度使用平均池化和最大池化,从其他不同维度保留丰富的语义信息,并且各维度之间相互不受干扰,沿三个维度的池化结果分别为和/>池化的过程表示为:
DPool(·)=MaxPool0(·)+AvgPool0(·)
其中,MaxPool0(·)和AvgPool0(·)分别表示沿着特征第一个维度进行最大池化操作和平均池化操作。
步骤302)为了从这些池化后的特征中捕获细粒度的可见光模态信息,本实施例使用内核大小为7×7的深度卷积进行处理,然后再通过批归一化层和ReLU激活函数。
随后,利用sigmoid激活函数生成可见光模态特征的注意力权重 这些操作可以通过Action(·)表示:
Action(·)=σ(ReLU(BN(DConv7×7(·))))
其中,DConv7×7(·)表示内核大小为7的深度卷积;σ(·)为sigmoid激活函数。
步骤303)为了用可见光模态信息补偿红外模态特征,在每批次中,红外特征分别从高度、宽度和通道三个维度上乘以可见光模态的注意力权重和/>
具体地,将在高度、宽度和通道三个维度进行重构以方便矩阵相乘,即被重塑为和/>
为了探索在不同维度中所包含的可见光模态行人信息,分别将/>和/>乘以/>和/>从而获得/>和/>
步骤304)通过平均加法运算将特征和/>图中得到/>
将特征和/>进行加法运算,求平均得到红外模态特征/>红外模态特征中的每个维度都包含了关于可见光模态特征/>的相关行人模态信息。
步骤305)在上使用位置注意力机制以沿高度和宽度维度方向保留准确的行人位置信息。最终得到的红外特征/>接收到来自可见光模态特征/>所有维度的细粒度信息的补偿。
步骤306)使用步骤301)至步骤305)类似的操作,可以用红外模态特征对可见光模态特征/>进行相关行人信息的补偿,最终得到补偿后的可见光特征/>
步骤307)设计好的模态补偿空间主要放置在模态增强空间的后面。
步骤S4,从模态增强空间和模态补偿空间中提取的特征更侧重于在当前批次中学习行人身份信息,为了从其他批次中学习尽可能多的身份信息,提出模态相互引导学习策略,通过身份信息互学习损失和模态引导对齐损失/>来共同优化整个网络,具体步骤如下:
步骤401)为了更多地关注其他与标签无关的行人真实身份信息,创建了两个二进制掩码mlabel和mu-label,分别过滤与标签相关和无关的预测结果,mlabel和mu-label中的每个元素都被定义为:
其中,label(p)是标签中的第p个行人身份,q为掩码的列数。
步骤402)将mlabel和mu-label通过下列式子进行拼接得到一个新的预测结果U,称为ul-logit,它具有更多与标签无关的真实身份预测信息。
其中c(p,q)是预测矩阵c中的一个元素;N是行人身份数。
步骤403)将Fv、Fi和/>分别通过BNNeck(Batch Normalization Neck)操作获得预测矩阵Cv、Ci、/>和/>然后通过步骤402)的式子为Cv、Ci、/>和/>分别计算出预测结果Uv、Ui、/>和/>
由于身份信息互学习损失主要是基于KL散度构建而成,于是进一步计算这些由可见光和红外模态得到的ul-logit的KL散度,最终形成/>可以定义为:
其中,是Uv的第j项,表示第j个身份行人特征的ul-logit;/>是/>的第j项,表示第j个补偿可见光模态行人的ul-logit;α是一个超参数;KL(·)表示KL散度计算。
步骤404)模态引导对齐损失主要是减少不同模态之间和模态内部分布的距离,以增强特征的可辨别性。通过对可见光和红外特征施加MMD约束,/>具体定义为:
其中,Fv和Fi分别为初始特征F沿批次维度分割成初始可见光和红外特征,和/>分别是由模态补偿空间得到可见光补偿特征和红外补偿特征;norm(·)为2范数,gemp(·)为广义平均池化层,mmd(·)可以表示为:
其中,F1和F2分别表示mmd(·)的两个输入;φ(·)是将两个模态特征嵌入到再生核希尔伯特空间中的特征映射函数,K1、K2分别表示可见光和红外模态的行人数量。
步骤S5,利用通用的身份损失和circle损失/>对网络和分类结果进行优化,分别表示为:
其中,N为每批内的训练样本数;yj为第j个行人身份的标签;p(yj|fj)是特征fj对应yj的预测。
其中,Δn=m,Δp=1-m, 和/>是正负样本对;γ是circle损失的比例因子;m是控制正样本对和负样本对距离差的边界,M是正样本的数量。
综上,本发明提出了一种新颖的VI-ReID方法,构建模态增强空间和模态补偿空间以提取更具有辨别力的行人模态信息,引入了模态相互指导策略,指导可见光和红外模态的对齐匹配。首先,通过堆叠具有不同类型和感受野尺度的卷积来构建双分支结构的模态增强空间,提取足够的模态信息用于特征补偿阶段。然后,构建模态补偿空间,分别从高度、宽度和通道三个维度,通过特征级模态信息融合来补偿可见光或红外模态中相应的行人模态缺失信息。最后,设计了一种模态相互指导学习策略,通过使用身份信息互学习损失和模态引导对齐损失,进行联合优化,输出行人匹配结果。
本发明VI-ReID方法,在三个公共的VI-ReID数据集上进行了大量的实验,如下表1、表2和表3,分别展示了本发明方法在数据集LLCM、SYSU-MM01和RegDB上的对比实验,表中rank-R和mAP为评估指标。
表1:在LLCM数据集上与现有方法对比实验
表中,Infrared to Visible和Visible to Infrared为该数据集上的两种评估模式。
表2:在SYSU-MM01数据集上与现有方法对比实验
表中,ALL-search和Indoor-search为该数据集上的两种评估模式。
表3:在RegDB数据集上与现有方法对比实验
表中,Infrared to Visible和Visible to Infrared为该数据集上的两种评估模式。
从表中可以看出,本发明VI-ReID方法性能大大超过了目前现有的其他方法,解决了跨模态行人重识别在使用模态补偿方法时出现的不同摄像机之间存在视角变化导致不同模态的行人信息无法区分的问题,以及和图片进行像素级融合时存在模态之间不匹配的问题。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种模态增强和补偿的跨模态行人重识别方法,其特征在于,包括如下步骤:
步骤S1、构建双流骨干网络,基于输入图片,分别提取可见光模态和红外模态的行人特征信息;
步骤S2、构建模态增强空间,提取具有充分行人模态信息的特征:堆叠若干不同类型的卷积块,并结合通道注意力机制,对双流骨干网络中共享模态阶段提取的行人特征信息进行增强,获取行人识别信息,使得提取的行人特征具有身份相关信息,在模态增强空间中生成增强行人特征;
步骤S3、构建模态补偿空间,从三个维度补偿两个模态相应的缺失模态信息:基于红外模态和可见光模态之间的差异,分别从模态增强空间中提取出的增强行人特征的高度、宽度和通道三个维度,进行相应模态特征的信息补偿,丰富行人身份信息并提高特征表示的鲁棒性,使得相应的模态特征不再缺失另一个模态的行人身份信息,缓解模态之间的差异;
构建模态补偿空间,用可见光模态信息补偿红外模态特征,具体步骤如下:
步骤S301、将增强行人特征沿批次维度分为可见光增强特征和红外增强特征/>C、H、W分别表示初始行人特征的通道、高度和宽度;对高度、宽度和通道维度进行排列重构,形成新的重塑特征和/>分别对重塑特征的第一个维度使用平均池化和最大池化,池化结果分别为/>和/>
步骤S302、从池化后的特征中捕获细粒度的可见光模态信息,使用内核大小为7×7的深度卷积进行处理,通过归一化层和ReLU激活函数,利用sigmoid激活函数生成可见光模态特征的注意力权重和/>
步骤S303、用可见光模态信息补偿红外模态特征,在每批次中,红外特征分别从高度、宽度和通道三个维度上乘以可见光模态的注意力权重和/>将/>在高度、宽度和通道三个维度进行重构以方便矩阵相乘,重塑为/>计算/>在不同维度中包含的可见光模态行人信息,分别将/>和/>乘以和/>获得/>和/>
步骤S304、将特征和/>进行加法运算,求平均得到红外模态特征/>中每个维度都包含了关于可见光模态特征/>的相关行人模态信息;
步骤S305、在上使用位置注意力机制,沿高度和宽度维度方向保留准确的行人位置信息,得到的红外特征/>接收到来自可见光模态特征/>所有维度的细粒度信息的补偿;
步骤S306、使用步骤S301至S305的操作,用红外模态特征对可见光模态特征/>进行相关行人信息的补偿,得到补偿后的可见光特征/>
步骤S307、设计好的模态补偿空间,分别放置在双流骨干网络最后两个阶段后的模态增强空间的后面,构成完整网络;
步骤S4、设计模态相互指导学习策略,指导两个模态相互学习相应的行人身份信息,并引导模态特征对齐匹配;通过身份信息互学习损失和模态引导对齐损失/>共同优化整个网络,具体步骤如下:
步骤S401、创建两个二进制掩码mlabel和mu-label,分别用于过滤与标签相关和无关的预测结果,mlabel和mu-label中的每个元素都被定义如下:
其中,label(p)是标签中的第p个行人身份;q为掩码的列数;
步骤S402、将mlabel和mu-label通过下式进行拼接,得到一个新的预测结果U,具有更多与标签无关的真实身份预测信息:
其中,c(p,q)是预测矩阵c中的一个元素;N是行人身份数;
步骤S403、将Fv、Fi和/>分别通过BNNeck操作获得预测矩阵Cv、Ci、/>和/>通过步骤S402的式子为Cv、Ci、/>和/>分别计算出预测结果Uv、Ui、/>和/>
身份信息互学习损失基于KL散度构建,定义如下:
其中,是Uv的第j项,表示第j个身份行人特征的ul-logit;/>是/>的第j项,表示第j个补偿可见光模态行人的ul-logit;α是一个超参数;KL(·)表示KL散度计算;
步骤S404、模态引导对齐损失用于减少不同模态之间和模态内部分布的距离,以增强特征的可辨别性,通过对可见光和红外特征施加MMD约束,/>具体定义为:
其中,Fv和Fi分别为初始特征F沿批次维度分割成初始可见光和红外特征,和/>分别是由模态补偿空间得到可见光补偿特征和红外补偿特征;norm(·)为2范数,gemp(·)为广义平均池化层,mmd(·)表示为:
其中,F1和F2分别表示mmd(·)的两个输入;φ(·)是将两个模态特征嵌入到再生核希尔伯特空间中的特征映射函数,K1、K2分别表示可见光和红外模态的行人数量;
步骤S5、利用损失函数进行网络优化,对网络提取的特征进行相似性度量,输出行人匹配结果。
2.根据权利要求1所述的模态增强和补偿的跨模态行人重识别方法,其特征在于,步骤S1,基于ResNet-50构建双流骨干网络,所述双流骨干网络分为五个阶段,具体如下:
步骤S101、构建双流特征提取网络的前三个阶段:前三个阶段为特定模态阶段,网络参数不共享,分别针对红外模态和可见光模态构建两个网络分支,提取两个模态的浅层次行人特征,将两个网络分支提取出来的特征在批次维度上进行拼接,形成新的特定模态特征表示;
步骤S102、构建双流特征提取网络的后两个阶段:后两个阶段为共享模态阶段,将拼接后的特定模态特征作为输入,进行共享模态特征提取,共同提取两个模态的行人特征信息,得到初始行人特征F,
3.根据权利要求2所述的模态增强和补偿的跨模态行人重识别方法,其特征在于,所述模态增强空间为具有不同尺度的双分支结构,每个分支包括三个阶段,由三种卷积结构组成,包括Down-Conv、Enhance-Conv和Up-Conv;构建模态增强空间,具体步骤如下:
步骤S201、设计Down-Conv卷积结构,将其放置在双分支的开始位置,用于将特征的通道维数从C降为C/r,以减少操作的计算量,r是一个超参数,Down-Conv表示如下:
Down-Conv(·)=ReLU(BN(PConv1×1(·)))
其中,PConv1×1(·)表示内核大小为1的point-wise卷积;BN(·)表示批归一化层;
步骤S202、设计Enhance-Conv卷积结构,由两种具有不同感受野尺度的卷积组成,以提取行人的细节,表示为:
Enhance-Conv(·)=ReLU(BN(GConv3×3(PConv1×1(·))))
其中,GConv3×3(·)是一个内核大小为3的组卷积算子;
步骤S203、设计Up-Conv卷积结构,将增强特征通道维数恢复到原始通道维数C,表示为:
Up-Conv(·)=BN(PConv1×1(·))
步骤S204、基于上述三个卷积结构,将从双流骨干网络提取出来的初始行人特征F输入到双分支结构的模态增强空间中,挖掘包含丰富模态信息的鉴别性行人特征,将两个分支的融合结果与初始行人特征F残差连接,在模态增强空间中生成增强行人特征
步骤S205、将设计好的模态增强空间,分别放置在双流骨干网络最后两个阶段的后面。
4.根据权利要求1所述的模态增强和补偿的跨模态行人重识别方法,其特征在于,步骤S5中利用身份损失和circle损失/>对网络和分类结果进行优化,表示为:
其中,N为每批内的训练样本数;yj为第j个行人身份的标签;p(yj|fj)是特征fj对应yj的预测;
其中,Δn=m,Δp=1-m, 和/>是正负样本对;γ是circle损失的比例因子;m是控制正样本对和负样本对距离差的边界,M是正样本的数量。
5.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
6.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时,实现权利要求1至4中任一项所述的模态增强和补偿的跨模态行人重识别方法中的步骤。
CN202410018744.XA 2024-01-05 2024-01-05 一种模态增强和补偿的跨模态行人重识别方法 Active CN117746467B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410018744.XA CN117746467B (zh) 2024-01-05 2024-01-05 一种模态增强和补偿的跨模态行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410018744.XA CN117746467B (zh) 2024-01-05 2024-01-05 一种模态增强和补偿的跨模态行人重识别方法

Publications (2)

Publication Number Publication Date
CN117746467A CN117746467A (zh) 2024-03-22
CN117746467B true CN117746467B (zh) 2024-05-28

Family

ID=90256365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410018744.XA Active CN117746467B (zh) 2024-01-05 2024-01-05 一种模态增强和补偿的跨模态行人重识别方法

Country Status (1)

Country Link
CN (1) CN117746467B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117994822B (zh) * 2024-04-07 2024-06-14 南京信息工程大学 一种基于辅助模态增强和多尺度特征融合的跨模态行人重识别方法
CN118116035B (zh) * 2024-04-30 2024-07-02 南京信息工程大学 一种模态不平衡特征转换跨模态行人重识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114220124A (zh) * 2021-12-16 2022-03-22 华南农业大学 一种近红外-可见光跨模态双流行人重识别方法及***
CN114511878A (zh) * 2022-01-05 2022-05-17 南京航空航天大学 一种基于多模态关系聚合的可见光红外行人重识别方法
CN115171148A (zh) * 2022-04-18 2022-10-11 西安电子科技大学 一种基于特定模态特征补偿的跨模态行人重识别方法
CN116798070A (zh) * 2023-05-15 2023-09-22 安徽理工大学 一种基于光谱感知和注意力机制的跨模态行人重识别方法
CN116824625A (zh) * 2023-05-29 2023-09-29 北京交通大学 基于生成式多模态图像融合的目标重识别方法
CN116978093A (zh) * 2023-07-10 2023-10-31 西安电子科技大学 基于空间数据增强和对称互注意力的跨模态行人重识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114220124A (zh) * 2021-12-16 2022-03-22 华南农业大学 一种近红外-可见光跨模态双流行人重识别方法及***
CN114511878A (zh) * 2022-01-05 2022-05-17 南京航空航天大学 一种基于多模态关系聚合的可见光红外行人重识别方法
CN115171148A (zh) * 2022-04-18 2022-10-11 西安电子科技大学 一种基于特定模态特征补偿的跨模态行人重识别方法
CN116798070A (zh) * 2023-05-15 2023-09-22 安徽理工大学 一种基于光谱感知和注意力机制的跨模态行人重识别方法
CN116824625A (zh) * 2023-05-29 2023-09-29 北京交通大学 基于生成式多模态图像融合的目标重识别方法
CN116978093A (zh) * 2023-07-10 2023-10-31 西安电子科技大学 基于空间数据增强和对称互注意力的跨模态行人重识别方法

Also Published As

Publication number Publication date
CN117746467A (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
CN117746467B (zh) 一种模态增强和补偿的跨模态行人重识别方法
CN112926396B (zh) 一种基于双流卷积注意力的动作识别方法
US11328172B2 (en) Method for fine-grained sketch-based scene image retrieval
CN113065577A (zh) 一种面向目标的多模态情感分类方法
CN106844518B (zh) 一种基于子空间学习的不完整跨模态检索方法
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN109712108B (zh) 一种基于多样鉴别性候选框生成网络的针对视觉定位方法
WO2021012493A1 (zh) 短视频关键词提取方法、装置及存储介质
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN114612666A (zh) 一种基于多模态对比学习的rgb-d语义分割方法
CN116798070A (zh) 一种基于光谱感知和注意力机制的跨模态行人重识别方法
CN111046738B (zh) 针对指静脉分割的轻量化u-net的精度提升方法
CN114463805B (zh) 深度伪造检测方法、装置、存储介质及计算机设备
CN113076905B (zh) 一种基于上下文交互关系的情绪识别方法
CN116756363A (zh) 一种由信息量引导的强相关性无监督跨模态检索方法
CN116956128A (zh) 一种基于超图的多模态多标签分类方法及***
CN115098646B (zh) 一种图文数据的多级关系分析与挖掘方法
CN116311345A (zh) 一种基于Transformer的遮挡行人重识别方法
CN113159071B (zh) 一种跨模态图像-文本关联异常检测方法
CN115565048A (zh) 用于遮挡行人重识别的结合卷积神经网络优化ViT的方法
Lioutas et al. Visual question answering using explicit visual attention
Islam et al. Face Pyramid Vision Transformer
CN116486101B (zh) 一种基于窗口注意力的图像特征匹配方法
CN114969291B (zh) 一种自动问答方法及装置
Shumeng et al. A semantic segmentation method for remote sensing images based on multiple contextual feature extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant