CN114821770B - 文本到图像的跨模态行人再识别方法、***、介质和设备 - Google Patents

文本到图像的跨模态行人再识别方法、***、介质和设备 Download PDF

Info

Publication number
CN114821770B
CN114821770B CN202210371007.9A CN202210371007A CN114821770B CN 114821770 B CN114821770 B CN 114821770B CN 202210371007 A CN202210371007 A CN 202210371007A CN 114821770 B CN114821770 B CN 114821770B
Authority
CN
China
Prior art keywords
text
image
human body
body component
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210371007.9A
Other languages
English (en)
Other versions
CN114821770A (zh
Inventor
丁泽锋
丁长兴
邵智寅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202210371007.9A priority Critical patent/CN114821770B/zh
Publication of CN114821770A publication Critical patent/CN114821770A/zh
Application granted granted Critical
Publication of CN114821770B publication Critical patent/CN114821770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种文本到图像的跨模态行人再识别方法、***、介质和设备,该方法包括下述步骤:构建基于人体组件的文本网络模型和图像网络模型,提取多个粗糙对齐的图像局部人体组件特征;将多个粗糙对齐的图像局部人体组件特征作为监督,引导单词注意力模型分类,得到文本局部人体组件特征;使用像素注意模型,结合交互训练策略,将文本中提取到的文本局部人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征;构建身份损失和排序损失进行训练;训练完成后,输入测试文本和图像库图像,计算测试文本和图像库图像之间的余弦相似度,输出识别结果。本发明无需借助额外的工具或者手工标注,具有更好的泛化性能和更小的成本。

Description

文本到图像的跨模态行人再识别方法、***、介质和设备
技术领域
本发明涉及文本描述的行人重识别技术领域,具体涉及一种文本到图像的跨模态行人再识别方法、***、介质和设备。
背景技术
行人重识别(Person Re-Identification)指的是给定特定行人的图像、视频或者文本描述,算法模型在图像库或者视频库中寻找到该行人对应的图像或者视频。
根据给定的检索内容,行人重识别可分为:基于图像的行人重识别、基于属性的行人重识别和基于文本描述的行人重识别。在实际应用中,基于文本描述的行人重识别的效果往往比另外两种行人重识别技术好。一方面,由于现实场景中,目标对象实时的图像往往不容易获得,而目标对象的文本描述更容易获得。例如,有个小孩或者老人走丢时,寻人启事中往往只给了走丢时的衣着外貌的描述和过去的生活照,基于图像的行人重识别对于这种换衣的场景下往往难以有很好的效果,而此时基于文本描述的行人重识别在这种追踪场景下可以轻松使用文本描述进行检索并且保证性能不会明显下降。另一方面,虽然基于属性的行人重识别在上述场景同样也能发挥效果,但是基于属性的行人重识别往往受限于训练数据属性的设置,而基于文本描述的行人重识别具有更好的自由度和更丰富的信息,在实际中具有更好的性能。因此,基于文本描述的行人重识别技术具有更好的亲和性和灵活度。
主流的方法往往采取提取跨模态对齐的组件特征来建模该问题。然而,由于文本和图像存在模态间的差异,现有算法很难自动提取跨模态对齐的组件特征,往往存在以下两种问题:
1.提取文本组件特征的困难:现有算法使用额外的名词短语提取器或者手工标注的方式来提取文本组件特征,导致了模型的泛化性能下降和模型的成本增加。
2.跨模态组件特征对齐的困难:由于文本描述具有主观性,导致无法得知网络所得的文本组件属于人体哪个组件。因此,现有算法使用两个模态相互交互的方式或者手工标注的方式来提取到对齐的局部特征。然而,模态交互的做法在提升了算法有限的性能的同时带来了模型复杂度过高的问题,这和手工标注一样,使得模型的成本增加了。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种文本到图像的跨模态行人再识别方法,通过利用行人图像中粗对齐的人体组件作为监督,引导文本网络模型自动提取文本中关于人体组件的特征,进而提出一种交互训练策略,将文本中提取到的人体组件特征作为新的监督来引导图像网络模型提取更细粒度的图像中关于人体组件的特征,从而得到对齐的跨模态组件特征。
本发明的第二目的在于提供一种文本到图像的跨模态行人再识别***。
本发明的第三目的在于提供一种计算机可读存储介质。
本发明的第四目的在于提供一种计算设备。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种文本到图像的跨模态行人再识别方法,包括下述步骤:
构建基于人体组件的文本网络模型和图像网络模型,以Bi-LSTM网络作为文本特征提取的主干网络,文本经过Bi-LSTM处理得到文本特征,以ResNet-50网络作为图像特征提取的主干网络,行人图像经过ResNet-50处理得到图像特征图;
将图像特征图进行水平划分,分别经过全局最大池化和卷积层,得到多个粗糙对齐的图像局部人体组件特征;
将多个粗糙对齐的图像局部人体组件特征作为监督,引导单词注意力模型分类,得到文本局部人体组件特征;
使用像素注意模型,结合交互训练策略,将文本中提取到的文本局部人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征;
所述单词注意力模型和像素注意模型采用由多个卷积层构成的分类器实现;
构建身份损失和排序损失进行训练;
固定文本网络模型和单词注意力模型参数,利用文本网络模型提取的文本局部人体组件特征作为监督,约束文本局部人体组件特征和图像中更细粒度的人体组件特征相近,固定像素注意力模型参数,交替训练单词注意力模型和像素注意力模型;
放开模型所有参数,同时训练单词注意力模型和像素注意力模型;
训练完成后,输入测试文本和图像库图像,计算测试文本和图像库图像之间的余弦相似度,输出识别结果。
作为优选的技术方案,所述以Bi-LSTM网络作为文本特征提取的主干网络,文本经过Bi-LSTM处理得到文本特征,具体步骤包括:
将文本中的单词编码成词典,并构建随机初始化的单词编码嵌入矩阵;
给定一个行人的文本描述,按词典将每个单词转换为编码,并送入单词编码嵌入矩阵得到每个单词的嵌入特征xi
将所有单词的嵌入特征送入Bi-LSTM网络,从第一个单词x1到最后一个单词xn和从最后一个单词xn到第一个单词x1两个方向进行处理,具体表示为:
其中,和/>分别表示第i个单词的向前和向后的隐藏状态,用于表示第i个单词的特征,定义如下:
文本的特征表示为所有单词特征并联得到的行向量特征,具体表示如下:
E=[e1,e2,…,en]。
作为优选的技术方案,所述以ResNet-50网络作为图像特征提取的主干网络,具体将在imageNet2012预训练好的ResNet-50网络去除最后的分类器和全局最大池化作为图像特征提取的主干网络。
作为优选的技术方案,所述将多个粗糙对齐的图像局部人体组件特征作为监督,引导单词注意力模型分类,得到文本局部人体组件特征,具体步骤包括:
通过给定文本特征向量输入到单词注意力模型,对单词特征按照其所属的行人组件进行分类,得到每个单词归属于第k个行人组件的概率具体计算公式为:
其中,表示卷积层,σ表示sigmoid函数,ei表示单词特征,
概率加权文本特征向量得到参量Ek,具体表示为:
将参量Ek经过行向量最大池化和卷积层,得到文本局部人体组件特征。
作为优选的技术方案,所述将文本中提取到的人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征,具体步骤包括:
给定图像特征图输入到像素注意力模型,计算图像特征图上每个像素特征F(i,j)归属于第k个行人组件的概率具体计算公式表示为:
其中,表示卷积层,σ表示sigmoid函数;
概率加权图像特征图得到参量Fk,具体表示为:
将参量Fk经过全局最大池化和卷积层,最终得到图像中更细粒度的人体组件特征。
作为优选的技术方案,所述构建身份损失和排序损失进行训练;
身份损失具体表示如下:
其中,Lce表示交叉熵损失,表示第k个组件特征共享的映射矩阵,/>表示粗糙对齐的图像局部人体组件特征,tk表示文本局部人体组件特征,/>表示图像中更细粒度的人体组件特征,/>和/>分别表示应用于粗糙对齐的图像局部人体组件特征、文本局部人体组件特征和图像中更细粒度的人体组件特征的身份损失;
排序损失具体计算公式表示为:
其中,和/>分别表示应用于文本局部人体组件特征和粗糙对齐的图像局部人体组件特征之间,以及文本局部人体组件特征和图像中更细粒度的人体组件特征之间的排序损失,Ip和Dp来自匹配的图像-文本对,Dn和Ip分别表示在一个训练批次中Ip的最难分辨的错误文本和Dp的最难分辨的错误图像,S(·)表示将文本局部人体组件特征串联得到的文本特征和粗糙对齐的图像局部人体组件特征或图像中更细粒度的人体组件特征串联得到的图像特征的余弦相似度;
训练单词注意力模型时,训练损失为:
训练像素注意力模型时,训练损失为:
最终放开所有参数,同时训练单词注意力模型和像素注意力模型时,训练损失为:
为了达到上述第二目的,本发明采用以下技术方案:
一种文本到图像的跨模态行人再识别***,包括:文本网络模型和图像网络模型构建单元、图像局部人体组件特征提取单元、文本局部人体组件特征提取单元、细粒度人体组件特征提取单元、训练单元和识别结果输出单元;
所述文本网络模型和图像网络模型构建单元用于构建基于人体组件的文本网络模型和图像网络模型,以Bi-LSTM网络作为文本特征提取的主干网络,文本经过Bi-LSTM处理得到文本特征,以ResNet-50网络作为图像特征提取的主干网络,行人图像经过ResNet-50处理得到图像特征图;
所述图像局部人体组件特征提取单元用于将图像特征图进行水平划分,分别经过全局最大池化和卷积层,得到多个粗糙对齐的图像局部人体组件特征;
所述文本局部人体组件特征提取单元用于将多个粗糙对齐的图像局部人体组件特征作为监督,引导单词注意力模型分类,得到文本局部人体组件特征;
所述细粒度人体组件特征提取单元用于使用像素注意模型,结合交互训练策略,将文本中提取到的文本局部人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征;
所述单词注意力模型和像素注意模型采用由多个卷积层构成的分类器实现;
所述训练单元用于构建身份损失和排序损失进行训练;
固定文本网络模型和单词注意力模型参数,利用文本网络模型提取的文本局部人体组件特征作为监督,约束文本局部人体组件特征和图像中更细粒度的人体组件特征相近,固定像素注意力模型参数,交替训练单词注意力模型和像素注意力模型;
放开模型所有参数,同时训练单词注意力模型和像素注意力模型;
所述识别结果输出单元用于在训练完成后输入测试文本和图像库图像,计算测试文本和图像库图像之间的余弦相似度,输出识别结果。
为了达到上述第三目的,本发明采用以下技术方案:
一种计算机可读存储介质,存储有程序,所述程序被处理器执行时实现如上述文本到图像的跨模态行人再识别方法。
为了达到上述第四目的,本发明采用以下技术方案:
一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现如上述文本到图像的跨模态行人再识别方法。
本发明与现有技术相比,具有如下优点和有益效果:
本发明提出跨模态组件特征自对齐模型,利用图像存在的对齐先验知识作为引导,自动提取出文本中关于行人不同的组件描述的组件特征,由于无需借助额外的工具或者手工标注,本发明的提出的模型具有更好的泛化性能和更小的成本。
附图说明
图1为本发明文本到图像的跨模态行人再识别方法的流程示意图;
图2为本发明文本到图像的跨模态行人再识别方法的实现构架示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
如图1、图2所示,本实施例提供一种文本到图像的跨模态行人再识别方法,包括以下步骤:
S1:构建基于人体组件的文本网络模型和图像网络模型,用于提取两个模态的特征;
在本实施例中,以Bi-LSTM网络作为文本特征提取的主干网络,给定一个含有n个单词的文本,Bi-LSTM处理该文本得到文本特征E,其中每个单词的特征表示为ei;以ResNet-50网络作为图像特征提取的主干网络,给定一张行人图像,ResNet-50处理该图像得到图像特征图F。
具体步骤包括:
将在imageNet2012预训练好的ResNet-50网络去除最后的分类器和全局最大池化作为图像的骨干网络;
将训练数据集中单词出现频次大于等于两次的单词进行编码成词典,并构建随机初始化的单词编码嵌入矩阵(维度为V和U,分别代表字典的长度和单词的嵌入特征的维数),并连接Bi-LSTM,作为文本的骨干网络;
给定一张行人图像,训练阶段进行随机裁剪和翻转(推理阶段不需要),并且将图像缩放至384×128像素大小,通过图像骨干网络运算得到该图像的特征图F;
给定一个行人的文本描述,按词典将每个单词转换为编码,并送入单词编码的嵌入矩阵得到每个单词的嵌入特征xi,接着所有单词的嵌入特征送入Bi-LSTM网络。该网络从第一个单词x1到最后一个单词xn和从最后一个单词xn到第一个单词x1两个方向进行处理。具体公式如下:
其中,和/>分别表示第i个单词的向前和向后的隐藏状态,用于表示第i个单词的特征,定义如下:
最后,文本的特征表示为所有单词特征并联得到的行向量特征,具体表示如下:
E=[e1,e2,…,en]
S2:提取利用行人图像中粗对齐的人体组件作为监督,引导文本网络模型自动提取文本中关于人体组件的特征;
具体步骤包括:
利用行人图像之间具有粗对齐的特点,将图像经过步骤S1中的图像主干网络提取的特征图F水平划分为K份(通常K取值为6,第一个对应人体头部,第二、第三个对应上半身,第四、第五个对应下半身,第六个对应脚),再分别经过全局最大池化和1×1卷积层,得到P个粗糙对齐的图像局部人体组件特征
通过给定文本特征向量E到单词注意力模型,对单词特征ei按其所属的行人组件(如hair属于头部,shirt属于上半身)进行分类,得到每个单词归属于第k个行人组件的概率具体公式如下:
其中为1×1卷积层,σ表示sigmoid函数。则文本描述的第k个的人体组件特征则可通过/>加权文本特征向量E得到,具体公式如下:
最终,将Ek经过行向量最大池化和1×1卷积层,得到第k个文本行人组件特征tk
将K个粗糙对齐的图像局部人体组件特征作为监督,引导单词注意力模型做出合理的分类,从而能得到K个文本局部人体组件特征。
在本实施例中,单词注意力模块由六个1×1卷积层构成的分类器实现。
S3:使用像素注意模型,结合交互训练策略,将文本中提取到的人体组件特征作为新的监督来引导图像网络模型提取图像中更细粒度的人体组件特征;
在本实施例中,像素注意力模型由六个1×1卷积层构成的分类器实现。
具体步骤包括:
提出像素注意力模型,给定图像骨干网络得到的定宽度为W,高度为H和通道数为C的特征图F,该像素注意力模型得到特征图上每个像素特征F(i,j)归属于第k个行人组件的概率,公式如下:
其中为1×1卷积层,σ表示sigmoid函数。则一个行人图像的第k个的人体组件特征可通过/>加权特征图F得到:
最终,将Fk经过全局最大池化和1×1卷积层,最终得到第k个细粒度的图像行人组件特征
S4:为避免单词注意力模型和像素注意模型退化成为提取全局特征的模型,提出交互训练的策略来训练单词注意力模型和像素注意注意力模型。
按步骤S2训练多轮,使得文本网络能够得到K个文本局部人体组件特征;
固定文本网络和单词注意力模型参数,利用文本网络提取的文本局部特征作为监督,通过约束和tk相近,从而引导像素注意力模型做出合理的分类。通过上述操作,不同于水平划分特征图得到的粗糙人体组件特征/>像素注意力模型能够从整个特征图上获取更完整的人体组件特征;
固定像素注意力模型参数,按步骤S2训练单词注意力模型,从而保证单词注意力模型获得的特征为文本中关于行人的组件特征表示;
重复多轮上述操作,交替训练单词注意力模型和像素注意力模型;
放开模型所有参数,同时训练单词注意力模型和像素注意力模型。
S5:采用步骤S4的训练策略,构建身份损失和排序损失来训练模型。
具体步骤包括:
身份损失具体表示如下:
其中,Lce表示交叉熵损失,表示第k个组件特征共享的映射矩阵,/> 分别表示应用于步骤S2和S3得到的粗糙图像组件特征、文本组件特征和细粒度图像组件特征的身份损失。
排序损失具体公式表示如下:
其中,和/>分别表示应用于步骤S2和S3得到的文本组件特征和粗糙图像组件特征之间,以及文本组件特征和细粒度图像组件特征之间的排序损失。α表示固定边距。Ip和Dp来自匹配的图像-文本对。Dn和Ip分别表示在一个训练批次中Ip的最难分辨的错误文本和Dp的最难分辨的错误图像。S(·)表示将文本组件特征串联得到的文本特征和粗糙/细粒度图像组件特征串联得到的图像特征的余弦相似度。
训练单词注意力模型时,训练损失为:
训练像素注意力模型时,训练损失为:
最终放开所有参数,同时训练单词注意力模型和像素注意力模型时,训练损失为:
S6:采用上述网络、训练策略和损失训练网络。具体设置为:超参数K和α取值为6和0.2。采用端对端的训练方式,批尺寸为64,采用随机翻转、随机裁剪的方式增强模型训练的鲁棒性。初始学习率设置为0.01,训练60个epoch。每20个epoch学习率下降为之前的0.1。交替训练策略中预训练单词注意力模型的epoch数为5。
S7:使用训练好的网络进行测试:对测试的全部图像和文本进行与训练集的图像和文本相同的预处理操作;将测试集中的文本(probe文本)和测试集图像库图像(gallery图像)分别通过训练好的网络得到6×1024维的特征,串联得到6144维特征;计算测试文本和图像库图像之间的余弦相似度;
具体的,将测试文本的特征向量表示为p,图像库图像的特征向量表示为q,则按照如下公式计算它们的余弦相似度为:
最终,判断方法为:余弦相似度数值分布在-1和1之间,数值越接近1说明测试文本和图像库图像越相似,越接近-1则说明越不相似。
为验证本发明方法的有效性,在CUHK-PDES和ICFG-PDES两个跨模态行人重识别数据集上进行了实验,进行了定量和定性的分析。
如下表1所示,表一中包含CUHK-PDES和ICFG-PDES两个数据集的部分训练结果。第一个模型的结果表示提取全局特征的基准模型的实验结果,后面若干模型的结果分别表示添加了WAM(单词注意力模型),PAM(像素注意力模型)和ISG(交互训练策略)这些模块的实验结果。实验结果表明了各部分的有效性。
表1 CUHK-PDES和ICFG-PDES上的自对比实验结果。
如表2所示,本发明与当前效果最好的已发表的方法在CUHK-PDES和ICFG-PDES的结果进行了比较。总体来说,本发明的方法明显高于其他方法的准确率。
表2本发明与其他方法在CUHK-PDES,ICFG-PDES的对比数据表
如表3所示,在相同实验设置下,本发明与当前效果最好的两个的已发表的基于组件提取三个个方法的推理速度进行比较。总体来说,一方面,本发明的方法高于跨模态交互的方法的速度,且本方法的速度在图像数目增长时基本保持不变。另一方面,本发明的方法与基于手工标注的组件提取方法ViTAA的速度相仿,但发明的方法无需额外的手工标注。
表3本发明与其他方法的速度对比数据表
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种文本到图像的跨模态行人再识别方法,其特征在于,包括下述步骤:
构建基于人体组件的文本网络模型和图像网络模型,以Bi-LSTM网络作为文本特征提取的主干网络,文本经过Bi-LSTM处理得到文本特征,以ResNet-50网络作为图像特征提取的主干网络,行人图像经过ResNet-50处理得到图像特征图;
将图像特征图进行水平划分,分别经过全局最大池化和卷积层,得到多个粗糙对齐的图像局部人体组件特征;
将多个粗糙对齐的图像局部人体组件特征作为监督,引导单词注意力模型分类,得到文本局部人体组件特征;
使用像素注意模型,结合交互训练策略,将文本中提取到的文本局部人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征;
所述单词注意力模型和像素注意模型采用由多个卷积层构成的分类器实现;
构建身份损失和排序损失进行训练;
所述构建身份损失和排序损失进行训练;
身份损失具体表示如下:
其中,Lce表示交叉熵损失,表示第k个组件特征共享的映射矩阵,/>表示粗糙对齐的图像局部人体组件特征,tk表示文本局部人体组件特征,/>表示图像中更细粒度的人体组件特征,/>和/>分别表示应用于粗糙对齐的图像局部人体组件特征、文本局部人体组件特征和图像中更细粒度的人体组件特征的身份损失;
排序损失具体计算公式表示为:
其中,和/>分别表示应用于文本局部人体组件特征和粗糙对齐的图像局部人体组件特征之间,以及文本局部人体组件特征和图像中更细粒度的人体组件特征之间的排序损失,Ip和Dp来自匹配的图像-文本对,Dn和Ip分别表示在一个训练批次中Ip的最难分辨的错误文本和Dp的最难分辨的错误图像,S(·)表示将文本局部人体组件特征串联得到的文本特征和粗糙对齐的图像局部人体组件特征或图像中更细粒度的人体组件特征串联得到的图像特征的余弦相似度;
训练单词注意力模型时,训练损失为:
训练像素注意力模型时,训练损失为:
最终放开所有参数,同时训练单词注意力模型和像素注意力模型时,训练损失为:
固定文本网络模型和单词注意力模型参数,利用文本网络模型提取的文本局部人体组件特征作为监督,约束文本局部人体组件特征和图像中更细粒度的人体组件特征相近,固定像素注意力模型参数,交替训练单词注意力模型和像素注意力模型;
放开模型所有参数,同时训练单词注意力模型和像素注意力模型;
训练完成后,输入测试文本和图像库图像,计算测试文本和图像库图像之间的余弦相似度,输出识别结果。
2.根据权利要求1所述的文本到图像的跨模态行人再识别方法,其特征在于,所述以Bi-LSTM网络作为文本特征提取的主干网络,文本经过Bi-LSTM处理得到文本特征,具体步骤包括:
将文本中的单词编码成词典,并构建随机初始化的单词编码嵌入矩阵;
给定一个行人的文本描述,按词典将每个单词转换为编码,并送入单词编码嵌入矩阵得到每个单词的嵌入特征xi
将所有单词的嵌入特征送入Bi-LSTM网络,从第一个单词x1到最后一个单词xn和从最后一个单词xn到第一个单词x1两个方向进行处理,具体表示为:
其中,和/>分别表示第i个单词的向前和向后的隐藏状态,用于表示第i个单词的特征,定义如下:
文本的特征表示为所有单词特征并联得到的行向量特征,具体表示如下:
E=[e1,e2,…,en]。
3.根据权利要求1所述的文本到图像的跨模态行人再识别方法,其特征在于,所述以ResNet-50网络作为图像特征提取的主干网络,具体将在imageNet2012预训练好的ResNet-50网络去除最后的分类器和全局最大池化作为图像特征提取的主干网络。
4.根据权利要求1所述的文本到图像的跨模态行人再识别方法,其特征在于,所述将多个粗糙对齐的图像局部人体组件特征作为监督,引导单词注意力模型分类,得到文本局部人体组件特征,具体步骤包括:
通过给定文本特征向量输入到单词注意力模型,对单词特征按照其所属的行人组件进行分类,得到每个单词归属于第k个行人组件的概率具体计算公式为:
其中,表示卷积层,σ表示sigmoid函数,ei表示单词特征,
概率加权文本特征向量得到参量Ek,具体表示为:
将参量Ek经过行向量最大池化和卷积层,得到文本局部人体组件特征。
5.根据权利要求1所述的文本到图像的跨模态行人再识别方法,其特征在于,所述将文本中提取到的人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征,具体步骤包括:
给定图像特征图输入到像素注意力模型,计算图像特征图上每个像素特征F(i,j)归属于第k个行人组件的概率具体计算公式表示为:
其中,表示卷积层,σ表示sigmoid函数;
概率加权图像特征图得到参量Fk,具体表示为:
将参量Fk经过全局最大池化和卷积层,最终得到图像中更细粒度的人体组件特征。
6.一种文本到图像的跨模态行人再识别***,其特征在于,包括:文本网络模型和图像网络模型构建单元、图像局部人体组件特征提取单元、文本局部人体组件特征提取单元、细粒度人体组件特征提取单元、训练单元和识别结果输出单元;
所述文本网络模型和图像网络模型构建单元用于构建基于人体组件的文本网络模型和图像网络模型,以Bi-LSTM网络作为文本特征提取的主干网络,文本经过Bi-LSTM处理得到文本特征,以ResNet-50网络作为图像特征提取的主干网络,行人图像经过ResNet-50处理得到图像特征图;
所述图像局部人体组件特征提取单元用于将图像特征图进行水平划分,分别经过全局最大池化和卷积层,得到多个粗糙对齐的图像局部人体组件特征;
所述文本局部人体组件特征提取单元用于将多个粗糙对齐的图像局部人体组件特征作为监督,引导单词注意力模型分类,得到文本局部人体组件特征;
所述细粒度人体组件特征提取单元用于使用像素注意模型,结合交互训练策略,将文本中提取到的文本局部人体组件特征作为新的监督引导图像网络模型提取图像中更细粒度的人体组件特征;
所述单词注意力模型和像素注意模型采用由多个卷积层构成的分类器实现;
所述训练单元用于构建身份损失和排序损失进行训练;
所述构建身份损失和排序损失进行训练;
身份损失具体表示如下:
其中,Lce表示交叉熵损失,表示第k个组件特征共享的映射矩阵,/>表示粗糙对齐的图像局部人体组件特征,tk表示文本局部人体组件特征,/>表示图像中更细粒度的人体组件特征,/>和/>分别表示应用于粗糙对齐的图像局部人体组件特征、文本局部人体组件特征和图像中更细粒度的人体组件特征的身份损失;
排序损失具体计算公式表示为:
其中,和/>分别表示应用于文本局部人体组件特征和粗糙对齐的图像局部人体组件特征之间,以及文本局部人体组件特征和图像中更细粒度的人体组件特征之间的排序损失,Ip和Dp来自匹配的图像-文本对,Dn和Ip分别表示在一个训练批次中Ip的最难分辨的错误文本和Dp的最难分辨的错误图像,S(·)表示将文本局部人体组件特征串联得到的文本特征和粗糙对齐的图像局部人体组件特征或图像中更细粒度的人体组件特征串联得到的图像特征的余弦相似度;
训练单词注意力模型时,训练损失为:
训练像素注意力模型时,训练损失为:
最终放开所有参数,同时训练单词注意力模型和像素注意力模型时,训练损失为:
固定文本网络模型和单词注意力模型参数,利用文本网络模型提取的文本局部人体组件特征作为监督,约束文本局部人体组件特征和图像中更细粒度的人体组件特征相近,固定像素注意力模型参数,交替训练单词注意力模型和像素注意力模型;
放开模型所有参数,同时训练单词注意力模型和像素注意力模型;
所述识别结果输出单元用于在训练完成后输入测试文本和图像库图像,计算测试文本和图像库图像之间的余弦相似度,输出识别结果。
7.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5任一项所述文本到图像的跨模态行人再识别方法。
8.一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现如权利要求1-5任一项所述文本到图像的跨模态行人再识别方法。
CN202210371007.9A 2022-04-11 2022-04-11 文本到图像的跨模态行人再识别方法、***、介质和设备 Active CN114821770B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210371007.9A CN114821770B (zh) 2022-04-11 2022-04-11 文本到图像的跨模态行人再识别方法、***、介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210371007.9A CN114821770B (zh) 2022-04-11 2022-04-11 文本到图像的跨模态行人再识别方法、***、介质和设备

Publications (2)

Publication Number Publication Date
CN114821770A CN114821770A (zh) 2022-07-29
CN114821770B true CN114821770B (zh) 2024-03-26

Family

ID=82533877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210371007.9A Active CN114821770B (zh) 2022-04-11 2022-04-11 文本到图像的跨模态行人再识别方法、***、介质和设备

Country Status (1)

Country Link
CN (1) CN114821770B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226434B (zh) * 2023-05-04 2023-07-21 浪潮电子信息产业股份有限公司 一种多元异构模型训练及应用方法、设备及可读存储介质
CN116682144B (zh) * 2023-06-20 2023-12-22 北京大学 一种基于多层次跨模态差异调和的多模态行人重识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829430A (zh) * 2019-01-31 2019-05-31 中科人工智能创新技术研究院(青岛)有限公司 基于异构层次化注意机制的跨模态行人再识别方法及***
CN110909673A (zh) * 2019-11-21 2020-03-24 河北工业大学 一种基于自然语言描述的行人再识别方法
WO2020143137A1 (zh) * 2019-01-07 2020-07-16 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及***
CN113220919A (zh) * 2021-05-17 2021-08-06 河海大学 一种大坝缺陷图像文本跨模态检索方法及模型
CN114036336A (zh) * 2021-11-15 2022-02-11 上海交通大学 基于语义划分的视觉文本属性对齐的行人图像搜索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020143137A1 (zh) * 2019-01-07 2020-07-16 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及***
CN109829430A (zh) * 2019-01-31 2019-05-31 中科人工智能创新技术研究院(青岛)有限公司 基于异构层次化注意机制的跨模态行人再识别方法及***
CN110909673A (zh) * 2019-11-21 2020-03-24 河北工业大学 一种基于自然语言描述的行人再识别方法
CN113220919A (zh) * 2021-05-17 2021-08-06 河海大学 一种大坝缺陷图像文本跨模态检索方法及模型
CN114036336A (zh) * 2021-11-15 2022-02-11 上海交通大学 基于语义划分的视觉文本属性对齐的行人图像搜索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于残差网络的特征加权行人重识别研究;张伟信;刘斌;;微电子学与计算机;20200405(04);第30-35页 *

Also Published As

Publication number Publication date
CN114821770A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
Liang et al. Visual relationship detection with deep structural ranking
CN113283551B (zh) 多模态预训练模型的训练方法、训练装置及电子设备
Chen et al. Abc-cnn: An attention based convolutional neural network for visual question answering
Plummer et al. Conditional image-text embedding networks
CN109711463B (zh) 基于注意力的重要对象检测方法
CN113496217B (zh) 视频图像序列中人脸微表情识别方法
CN114821770B (zh) 文本到图像的跨模态行人再识别方法、***、介质和设备
CN112784929B (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN110163117B (zh) 一种基于自激励判别性特征学习的行人重识别方法
CN110851641A (zh) 跨模态检索方法、装置和可读存储介质
Uehara et al. Visual question generation for class acquisition of unknown objects
CN114782997A (zh) 基于多损失注意力自适应网络的行人重识别方法及***
CN117373111A (zh) 一种基于AutoHOINet的人-物交互检测方法
CN113076905B (zh) 一种基于上下文交互关系的情绪识别方法
CN112613474B (zh) 一种行人重识别的方法和装置
CN116935411A (zh) 一种基于字符分解和重构的部首级古文字识别方法
CN109583406B (zh) 基于特征关注机制的人脸表情识别方法
CN111967383A (zh) 年龄估计方法、年龄估计模型的训练方法和装置
Vijayaraju Image retrieval using image captioning
Song et al. Text Siamese network for video textual keyframe detection
CN112215252B (zh) 一种基于在线难易样本挖掘的弱监督目标检测方法
CN114495151A (zh) 一种群组行为识别方法
Oufqir et al. Deep Learning for the Improvement of Object Detection in Augmented Reality
CN112488116A (zh) 基于多模态嵌入的场景理解语义生成方法
Aldabbas et al. Data augmentation to stabilize image caption generation models in deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant