CN117688197A - 基于判别性特征学习与样本关系辅助的文本-行人图像检索方法 - Google Patents

基于判别性特征学习与样本关系辅助的文本-行人图像检索方法 Download PDF

Info

Publication number
CN117688197A
CN117688197A CN202311605206.2A CN202311605206A CN117688197A CN 117688197 A CN117688197 A CN 117688197A CN 202311605206 A CN202311605206 A CN 202311605206A CN 117688197 A CN117688197 A CN 117688197A
Authority
CN
China
Prior art keywords
text
image
feature
discriminant
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311605206.2A
Other languages
English (en)
Inventor
杨社丹
许乐
李华锋
张亚飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202311605206.2A priority Critical patent/CN117688197A/zh
Publication of CN117688197A publication Critical patent/CN117688197A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及基于判别性特征学习与样本关系辅助的文本‑行人图像检索方法,属行人重识别领域。本发明包括:获取文本描述和行人图像数据,并对图像进行预处理;构建特征提取网络,将预处理好的文本和行人图像分别送入各自模态的特征提取网络;构建判别性特征学习模块,在图像和文本原始特征中挖掘更多的判别性特征;构建样本关系辅助的特征表示模块,充分利用单模态内样本间的关系来优化特征表示;ViT和BERT分别提取的图像和文本特征输入判别性特征学习和样本关系辅助的特征表示模块,得到图像和文本的最终特征,使用图像和文本的最终特征进行跨模态检索。本发明通过挖掘身份判别性特征以及进行特征优化,提升了文本‑行人图像的检索性能。

Description

基于判别性特征学习与样本关系辅助的文本-行人图像检索 方法
技术领域
本发明涉及基于判别性特征学习与样本关系辅助的文本-行人图像检索方法,属于行人重识别技术领域。
背景技术
文本-行人图像检索是指利用文本描述来检索具有特定外观的行人图像。在某些场景下,无法获取可靠的待搜索对象视觉信息,比如在安防领域中搜索指定嫌疑人图像时,若没有犯罪分子的照片,只能根据目击证人的文本描述搜索可能的犯罪嫌疑人。这就需要算法和模型在训练中能对文本和视觉这两种信息进行恰当地处理,以求在只有文本作为检索信息的情况下,模型能够搜索到对应的行人图像。然而,现有方法仍存在一些问题,比如由于未精心设计特征提取网络,难以挖掘到图像和文本中更多利于身份判别的判别性特征,未考虑相同身份的文本描述多样性带来的干扰。针对以上问题,提出了基于判别性特征学习与样本关系辅助的文本-行人图像检索方法
发明内容
为了解决现有方法的不足,本发明针对现有方法对判别性特征提取不够深入,以及文本多样性对检索性能带来的扰动,提出了基于判别性特征学习与样本关系辅助的文本-行人图像检索方法。
本发明的技术方案是:基于判别性特征学习与样本关系辅助的文本-行人图像检索方法,所述方法的具体步骤如下:
Step1:获取行人文本描述和行人图像数据,并对图像进行预处理;
Step2:构建文本和图像的特征提取网络,分别提取图像和文本的原始特征;
Step3:构建判别性特征学习模块,挖掘图像和文本之间深层的模态无关的身份相关信息,即判别性特征,提升特征的表达能力;
Step4:构建样本关系辅助的特征表示模块,利用同一batch内的样本特征来更新每个样本的特征表示,对特征进行优化,缓解相同身份行人的文本多样性带来的干扰;
Step5:训练特征提取网络、判别性特征学习模块和样本关系辅助的特征表示模块。所述Step5具体包括为:
Step51、利用Adam优化器对特征提取网络、判别性特征学习模块以及样本关系辅助的特征表示模块中的参数进行优化;
Step52、采用CMPM和CMPC损失函数优化图像和文本的特征提取网络,所述损失函数如下:
其中,和/>分别表示图像到文本的CMPM和CMPC损失函数,/>和/>分别表示文本到图像的CMPM和CMPC损失函数,vi,c和ti,c分别表示图像和文本特征提取网络输出特征Vi和Ti的class token特征。
Step53、采用L2损失函数和ID损失函数对判别性特征学习模块的参数进行优化,所述损失函数为:
其中,Avgpool表示平均池化,CE(·)为交叉熵损失函数,和/>分别表示特征/>和/>的class token特征,/>和/>分别表示特征/>和/>的class token特征。
Step54、训练特征提取网络、判别性特征学习模块以及样本关系辅助的特征表示模块时定义一个损失函数,该函数对整个网络的最终输出特征进行匹配约束,拉近图像和文本匹配对,以及推远图像和文本不匹配对。
采用CMPM和CMPC损失函数优化整个网络:
其中和/>分别表示图像到文本的CMPM和CMPC损失函数,/>和/>分别表示文本到图像的CMPM和CMPC损失函数。
总损失为:
Step6:训练好的特征提取网络分别提取的图像和文本特征输入训练好的判别性特征学习和样本关系辅助的特征表示模块,得到图像和文本的最终特征,使用图像和文本的最终特征进行跨模态检索。
进一步地,所述Step1中,将所有输入图像调整为224x224的大小,并采用随机水平翻转进行数据增强。
进一步地,所述Step2中的特征提取网络包括文本特征提取网络BERT和图像特征提取网络ViT,分别提取文本和图像原始特征。
进一步地,所述Step2中特征提取网络具体操作过程如下:
预处理好的行人图像vi首先被划分为尺寸大小相等且互不重叠的n个图像块;对每个图像块进行向量化,再经过一个线性映射,然后与一个分类token拼接得到并将其作为ViT的输入;经过ViT后得到图像的输出特征记为d表示token的维度;
给定一个文本描述ti,先将文本中的m个单词编码为one-hot向量,即独热编码向量,再经过单词嵌入变换得到文本表示,然后与文本分类token拼接得到将/>输入BERT得到的文本特征表示为
进一步地,所述Step3中,判别性特征学习模块包括两个部分的判别性特征学习,第一部分包括一条主路和两条支路,测试时采用两条支路,第二部分更深层地提取判别性特征。
进一步地,所述Step3中,判别性特征学习的第一部分具体操作步骤如下:
该模块包含一条主路和两条支路(图像支路和文本支路),测试的时候只使用两条支路,其输入为图像编码器和文本编码器的输出特征Vi和Ti
在主路中,图像特征和文本特征先经过一个反注意力模块得到共有信息和非共有信息,共有信息计算过程如下:
非共有信息计算过程如下:
非共有信息和/>分别经过transformer层Ev和Et进一步提取判别性特征:
使用ID损失约束补充信息和/>使其具有较强的判别性。其中,WQ,t、WK,v、WV,v、WQ,v、WK,t/>均表示线性映射矩阵;
在支路中,图像编码器的输出特征Vi和文本编码器的输出特征Ti分别经过transformer层,这里的transformer层与主路中的transformer层Ev和Et参数共享,得到的特征加上原始特征即为该模块的输出:
进一步地,所述Step3中,判别性特征学习的第二部分具体操作步骤如下:
中与/>输入一个反注意力模块,从/>中去除与/>相关的信息,得到的剩余信息为:
使用ID损失约束剩余信息和/>使其具有较强的判别性。
进一步地,所述Step4中,样本关系辅助的特征表示模块包括图像模态的特征表示和文本模态的特征表示,在训练阶段处理两个模态的特征时网络的参数共享,在推理阶段只对文本特征进行处理。
进一步地,所述Step4中,样本关系辅助的特征表示具体操作步骤如下:
以Setp3获得的输出特征中的分类token/>为输入,计算其与另一样本特征/> 之间的余弦相似度:
其中,为线性映射矩阵。
对于图像来说,权重为余弦相似度经过softmax后的结果;对于文本来说,若两个样本身份相同,权重为余弦相似度经过softmax后的结果,若两个样本身份不同,则权重为0。具体过程可公式化为:
其中,N为batch size,yti和ytj分别为样本ti和tj的标签。
利用权重和/>对batch内所有样本进行加权和,得到结果即为优化后的图像和文本特征/>
其中,为线性映射矩阵。
本发明的有益效果是:
1、在文本-行人图像检索中,获取文本和图像的判别性特征是关键的,本发明采用预训练好的ViT和BERT分别提取图像和文本特征,ViT和BERT分别采用视觉信息和文本信息进行预训练,二者对于视觉特征和文本特征具有强大的提取能力,这利于后续特征的操作。
2、对于文本的视觉特征,仅仅通过各自的特征提取网络得到的特征中判别性信息不足,本发明加入的判别性特征学习模块,通过从非共有信息中进一步抽取判别性特征,来弥补判别性特征信息不足的缺陷,有力促进了模型挖掘判别性特征的能力,使提取到的特征具有更强的表达能力。
3、由于不同目击者的语言风格和观察视角存在差异,不同目击者描述同一个行人得到的文本描述存在多样性。现有多数方法并未考虑相同身份行人的文本描述多样性带来的影响,本发明提出样本关系辅助的特征表示模块,利用其它样本与当前样本间的关系对样本特征进行优化,有效解决了样本多样性对文本-行人图像检索带来的负面影响。
附图说明
图1为本发明方法的流程结构示意图;
图2为本发明方法的判别性特征学习模块结构图;
图3为本发明与不同方法的检索结果对比。
具体实施方式
实施例1:如图1-图3所示,基于判别性特征学习与样本关系辅助的文本-行人图像检索方法,所述方法的具体步骤如下:
Step1:获取行人文本描述和行人图像数据,并对图像进行预处理:将所有输入图像调整为224x224的大小,并采用随机水平翻转进行数据增强。
Step2:构建文本和图像的特征提取网络,分别提取图像和文本的原始特征;
所述Step2中的特征提取网络包括文本特征提取网络BERT和图像特征提取网络ViT,分别提取文本和图像原始特征。
所述Step2中特征提取网络具体操作过程如下:
预处理好的行人图像vi首先被划分为尺寸大小相等且互不重叠的n个图像块;对每个图像块进行向量化,再经过一个线性映射,然后与一个分类token拼接得到并将其作为ViT的输入;经过ViT后得到图像的输出特征记为d表示token的维度;
给定一个文本描述ti,先将文本中的m个单词编码为one-hot向量,即独热编码向量,再经过单词嵌入变换得到文本表示,然后与文本分类token拼接得到将/>输入BERT得到的文本特征表示为
Step3:构建判别性特征学习模块,挖掘图像和文本之间深层的模态无关的身份相关信息,即判别性特征,提升特征的表达能力;
所述Step3中,判别性特征学习模块包括两个部分的判别性特征学习,第一部分包括一条主路和两条支路,测试时采用两条支路,第二部分更深层地提取判别性特征。
所述Step3中,判别性特征学习的第一部分具体操作步骤如下:
该模块包含一条主路和两条支路(图像支路和文本支路),测试的时候只使用两条支路,其输入为图像编码器和文本编码器的输出特征Vi和Ti
在主路中,图像特征和文本特征先经过一个反注意力模块得到共有信息和非共有信息,共有信息计算过程如下:
非共有信息计算过程如下:
非共有信息和/>分别经过transformer层Ev和Et进一步提取判别性特征:
使用ID损失约束补充信息Vi c和Ti c,使其具有较强的判别性。其中,WQ,t、WK,v、WV,v、WQ,v、WK,t 均表示线性映射矩阵;
在支路中,图像编码器的输出特征Vi和文本编码器的输出特征Ti分别经过transformer层,这里的transformer层与主路中的transformer层Ev和Et参数共享,得到的特征加上原始特征即为该模块的输出:
所述Step3中,判别性特征学习的第二部分具体操作步骤如下:
中与/>输入一个反注意力模块,从/>中去除与/>相关的信息,得到的剩余信息为:
使用ID损失约束剩余信息和/>使其具有较强的判别性。
Step4:构建样本关系辅助的特征表示模块,利用同一batch内的样本特征来更新每个样本的特征表示,对特征进行优化,缓解相同身份行人的文本多样性带来的干扰;
所述Step4中,样本关系辅助的特征表示模块包括图像模态的特征表示和文本模态的特征表示,在训练阶段处理两个模态的特征时网络的参数共享,在推理阶段只对文本特征进行处理。
所述Step4中,样本关系辅助的特征表示具体操作步骤如下:
以Setp3获得的输出特征中的分类token/>为输入,计算其与另一样本特征/> 之间的余弦相似度:
其中,为线性映射矩阵。
对于图像来说,权重为余弦相似度经过softmax后的结果;对于文本来说,若两个样本身份相同,权重为余弦相似度经过softmax后的结果,若两个样本身份不同,则权重为0。具体过程可公式化为:
其中,N为batch size,yti和ytj分别为样本ti和tj的标签。
利用权重和/>对batch内所有样本进行加权和,得到结果即为优化后的图像和文本特征/>
其中,为线性映射矩阵。
Step5:训练特征提取网络、判别性特征学习模块和样本关系辅助的特征表示模块,所述Step5具体包括为:
Step51、利用Adam优化器对特征提取网络、判别性特征学习模块以及样本关系辅助的特征表示模块中的参数进行优化;
Step52、采用CMPM和CMPC损失函数优化图像和文本的特征提取网络,所述损失函数如下:
其中,和/>分别表示图像到文本的CMPM和CMPC损失函数,/>和/>分别表示文本到图像的CMPM和CMPC损失函数,vi,c和ti,c分别表示图像和文本特征提取网络输出特征Vi和Ti的class token特征。
Step53、采用L2损失函数和ID损失函数对判别性特征学习模块的参数进行优化,所述损失函数为:
其中,Avgpool表示平均池化,CE(·)为交叉熵损失函数,和/>分别表示特征/>和/>的class token特征,/>和/>分别表示特征/>和/>的class token特征。
Step54、训练特征提取网络、判别性特征学习模块以及样本关系辅助的特征表示模块时定义一个损失函数,该函数对整个网络的最终输出特征进行匹配约束,拉近图像和文本匹配对,以及推远图像和文本不匹配对。
采用CMPM和CMPC损失函数优化整个网络:
其中和/>分别表示图像到文本的CMPM和CMPC损失函数,/>和/>分别表示文本到图像的CMPM和CMPC损失函数。
总损失为:
Step6:训练好的特征提取网络分别提取的图像和文本特征输入训练好的判别性特征学习和样本关系辅助的特征表示模块,得到图像和文本的最终特征,使用图像和文本的最终特征进行跨模态检索。
进一步地,为验证本发明方法的有效性,在CUHK-PEDES数据集上评估了提出方法的性能,该数据集包含了13003个行人的40206张图片和80412条文字描述。每张图片都有人工标注的两条文本描述,而每条文本描述的平均长度都不少于23个词。按照数据集划分规则,该数据集可划分为训练集、验证集和测试集。本发明算法是在Pytorch框架下开发的,并在一张NVIDIAGTX3090显卡上进行了训练。在训练中,我们使用Adam优化器来对模型进行参数优化。在此过程中,batch size设置为32,特征提取网络的学习率设置为0.00001,其他模块的学习率设置为0.0001。学习率采用余弦退火算法进行调整,warmup设置为10,学习率分别在20、30和40轮按0.1的衰减率衰减,总共训练了60轮。
进一步地,本发明采用Rank-K(Rank-K,数值越高越好)的召回率以及mAP(meanAverage Precision)作为衡量不同方法检索性能的指标。Rank-K指标表示在给定查询条件下,模型能够在前K个检索结果中正确地匹配到查询样本的能力。在评估过程中,报告了Rank-1、Rank-5和Rank-10的准确性。mAP(mean Average Precision)值越大,表示检索性能越好。
进一步地,在CUHK-PEDES数据集上,本发明方法和LGUR,IVT,CFine,IRRA、APTM和RaSa等文本-行人图像检索方法进行了性能比较,实验结果如表1所示。从此可以看出,本发明方法在准确率Rank-1、Rank-5和Rank-10上分别达到了77.24%,93.71%和96.98%,mAP值达到了73.48%。这证明了本发明方法在文本-行人图像检索任务上的有效性。
表1为不同方法在CUHK-PEDES数据集上的客观评价比较
进一步地,本发明与Baseline检索结果进行了视觉效果对比,如图3所示。Baseline方法是指采用ViT和BERT提取图像和文本特征,用获得的特征进行检索。图中展示了4个检索案例,每个案例的左边和右边分别表示Baseline方法和本发明方法根据同一查询文本得到的检索结果,图像上的绿框表示正确检索结果,红框表示错误检索结果。由此可以看出,提出的方法可以更加准确地检索到更多正确的匹配结果,而Baseline方法的检索结果中正确匹配结果较少。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (10)

1.基于判别性特征学习与样本关系辅助的文本-行人图像检索方法,其特征在于:所述方法的具体步骤如下:
Step1:获取行人文本描述和行人图像数据,并对图像进行预处理;
Step2:构建文本和图像的特征提取网络,分别提取图像和文本的原始特征;
Step3:构建判别性特征学习模块,挖掘图像和文本之间深层的模态无关的身份相关信息,及判别性特征,提升特征的表达能力;
Step4:构建样本关系辅助的特征表示模块,利用同一batch内的样本特征来更新每个样本的特征表示,对特征进行优化,缓解相同身份行人的文本多样性带来的干扰;
Step5:训练特征提取网络、判别性特征学习模块和样本关系辅助的特征表示模块;
Step6:训练好的特征提取网络分别提取的图像和文本特征输入训练好的判别性特征学习和样本关系辅助的特征表示模块,得到图像和文本的最终特征,使用图像和文本的最终特征进行跨模态检索。
2.根据权利要求1所述的基于判别性特征学***翻转进行数据增强。
3.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法,其特征在于,所述Step2中的特征提取网络包括文本特征提取网络BERT和图像特征提取网络ViT,分别提取文本和图像原始特征。
4.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法,其特征在于,所述Step2中特征提取网络具体操作过程如下:
预处理好的行人图像vi首先被划分为尺寸大小相等且互不重叠的n个图像块;对每个图像块进行向量化,再经过一个线性映射,然后与一个分类拼接得到并将其作为ViT的输入;经过ViT后得到图像的输出特征记为d表示token的维度;
给定一个文本描述ti,先将文本中的m个单词编码为one-hot向量,即独热编码向量,再经过单词嵌入变换得到文本表示,然后与文本分类拼接得到将/>输入BERT得到的文本特征表示为/>
5.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法,其特征在于,所述Step3中,判别性特征学习模块包括两个部分的判别性特征学习,第一部分包括一条主路和两条支路,测试时采用两条支路,第二部分更深层地提取判别性特征。
6.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法,其特征在于,所述Step3中,判别性特征学习的第一部分具体操作步骤如下:
判别性特征学习模块包含一条主路和两条支路,即图像支路和文本支路,测试的时候只使用两条支路,其输入为图像编码器和文本编码器的输出特征Vi和Ti
在主路中,图像特征和文本特征先经过一个反注意力模块得到共有信息和非共有信息,共有信息计算过程如下:
非共有信息计算过程如下:
非共有信息和/>分别经过transformer层Ev和Et进一步提取判别性特征:
使用ID损失约束补充信息Vi c和Ti c,使其具有较强的判别性;其中,WQ,t、WK,v、WV,v、WQ,v均表示线性映射矩阵;
在支路中,图像编码器的输出特征Vi和文本编码器的输出特征Ti分别经过transformer层,这里的transformer层与主路中的transformer层Ev和Et参数共享,得到的特征加上原始特征即为判别性特征学习模块的输出:
Vi o=Ev(Vi)+Vi
Ti o=Et(Ti)+Ti
7.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法,其特征在于,所述Step3中,判别性特征学习的第二部分具体操作步骤如下:
将Vi o(Ti o)与Vi c(Ti c)输入一个反注意力模块,从Vi o(Ti o)中去除与Vi c(Ti c)相关的信息,得到的剩余信息为:
使用ID损失约束剩余信息Vi r和Ti r,使其具有较强的判别性。
8.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法,其特征在于,所述Step4中,样本关系辅助的特征表示模块包括图像模态的特征表示和文本模态的特征表示,在训练阶段处理两个模态的特征时网络的参数共享,在推理阶段只对文本特征进行处理。
9.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法,其特征在于,所述Step4中,样本关系辅助的特征表示具体操作步骤如下:
以Setp3获得的输出特征Vi o,Ti o中的分类token为输入,计算其与另一样本特征之间的余弦相似度:
其中,为线性映射矩阵;
对于图像来说,权重为余弦相似度经过softmax后的结果;对于文本来说,若两个样本身份相同,权重为余弦相似度经过softmax后的结果,若两个样本身份不同,则权重为0;具体过程公式化为:
其中,N为batch size,yti和ytj分别为样本ti和tj的标签;
利用权重和/>对batch内所有样本进行加权和,得到结果即为优化后的图像和文本特征/>
其中,为线性映射矩阵。
10.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法,其特征在于,所述Step5具体包括为:
Step51、利用Adam优化器对特征提取网络、判别性特征学习模块以及样本关系辅助的特征表示模块中的参数进行优化;
Step52、采用CMPM和CMPC损失函数优化图像和文本的特征提取网络,所述损失函数如下:
其中,和/>分别表示图像到文本的CMPM和CMPC损失函数,/>和/>分别表示文本到图像的CMPM和CMPC损失函数,vi,c和ti,c分别表示图像和文本特征提取网络输出特征Vi和Ti的class token特征;
Step53、采用L2损失函数和ID损失函数对判别性特征学习模块的参数进行优化,所述损失函数为:
其中,Avgpool表示平均池化,CE(·)为交叉熵损失函数,和/>分别表示特征Vi c和Ti c的class token特征,/>和/>分别表示特征Vi r和Ti r的class token特征;
Step54、训练特征提取网络、判别性特征学习模块以及样本关系辅助的特征表示模块时定义一个损失函数,该函数对整个网络的最终输出特征进行匹配约束,拉近图像和文本匹配对,以及推远图像和文本不匹配对;
采用CMPM和CMPC损失函数优化整个网络:
其中和/>分别表示图像到文本的CMPM和CMPC损失函数,/>和/>分别表示文本到图像的CMPM和CMPC损失函数;
总损失为:
CN202311605206.2A 2023-11-28 2023-11-28 基于判别性特征学习与样本关系辅助的文本-行人图像检索方法 Pending CN117688197A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311605206.2A CN117688197A (zh) 2023-11-28 2023-11-28 基于判别性特征学习与样本关系辅助的文本-行人图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311605206.2A CN117688197A (zh) 2023-11-28 2023-11-28 基于判别性特征学习与样本关系辅助的文本-行人图像检索方法

Publications (1)

Publication Number Publication Date
CN117688197A true CN117688197A (zh) 2024-03-12

Family

ID=90125597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311605206.2A Pending CN117688197A (zh) 2023-11-28 2023-11-28 基于判别性特征学习与样本关系辅助的文本-行人图像检索方法

Country Status (1)

Country Link
CN (1) CN117688197A (zh)

Similar Documents

Publication Publication Date Title
CN114220124B (zh) 一种近红外-可见光跨模态双流行人重识别方法及***
CN113220919B (zh) 一种大坝缺陷图像文本跨模态检索方法及模型
CN109508663B (zh) 一种基于多层次监督网络的行人重识别方法
CN110598543B (zh) 基于属性挖掘和推理的模型训练方法及行人再识别方法
CN113361636B (zh) 一种图像分类方法、***、介质及电子设备
CN111680176A (zh) 基于注意力与双向特征融合的遥感图像检索方法及***
CN112084895B (zh) 一种基于深度学习的行人重识别方法
CN115830531A (zh) 一种基于残差多通道注意力多特征融合的行人重识别方法
CN114170411A (zh) 一种融合多尺度信息的图片情感识别方法
CN113920472A (zh) 一种基于注意力机制的无监督目标重识别方法及***
CN116012653A (zh) 一种注意力残差单元神经网络高光谱图像分类方法及***
CN114329034A (zh) 基于细粒度语义特征差异的图像文本匹配判别方法及***
CN111462173B (zh) 基于孪生网络判别特征学习的视觉跟踪方法
CN117011883A (zh) 一种基于金字塔卷积和Transformer双分支的行人重识别方法
CN114782997A (zh) 基于多损失注意力自适应网络的行人重识别方法及***
CN116206327A (zh) 一种基于在线知识蒸馏的图像分类方法
CN111008570A (zh) 一种基于压缩-激励伪三维网络的视频理解方法
CN116935411A (zh) 一种基于字符分解和重构的部首级古文字识别方法
CN116311026A (zh) 基于多层级信息融合Transformer的教室场景身份识别方法
CN117688197A (zh) 基于判别性特征学习与样本关系辅助的文本-行人图像检索方法
CN115331135A (zh) 基于多域特征区域标准分数差异的Deepfake视频检测方法
Wu et al. Learning age semantic factor to enhance group-based representations for cross-age face recognition
CN112836605B (zh) 一种基于模态增广的近红外与可见光跨模态人脸识别方法
CN112633400B (zh) 基于计算机视觉的贝类分类识别方法及装置
CN115100694A (zh) 一种基于自监督神经网络的指纹快速检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination