CN114036336A - 基于语义划分的视觉文本属性对齐的行人图像搜索方法 - Google Patents

基于语义划分的视觉文本属性对齐的行人图像搜索方法 Download PDF

Info

Publication number
CN114036336A
CN114036336A CN202111344497.5A CN202111344497A CN114036336A CN 114036336 A CN114036336 A CN 114036336A CN 202111344497 A CN202111344497 A CN 202111344497A CN 114036336 A CN114036336 A CN 114036336A
Authority
CN
China
Prior art keywords
global
image
text
local
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111344497.5A
Other languages
English (en)
Inventor
杨华
杨新新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202111344497.5A priority Critical patent/CN114036336A/zh
Publication of CN114036336A publication Critical patent/CN114036336A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于语义划分的视觉文本属性对齐的行人图像搜索方法,包括:对图像模态和文本模态中的原始数据进行处理,获得图像全局及文本全局与局部的数据集;利用图像特征提取网络和文本特征提取网络对数据集分别进行特征提取,获得图像及文本单模态内的全局与局部特征;在嵌入网络中将单模态内的全局与局部特征转化为对应模态的嵌入特征;在多个损失函数的联合约束下,进行模型训练。本发明对局部特征进行更细粒度的划分,充分利用局部特征之间的对应关系,辅助主干网络提取更加对齐的全局跨模态嵌入特征;通过整体损失联合约束网络的训练,促使模型向着最优的方向收敛,提高基于自然语言描述的行人图像搜索的性能。

Description

基于语义划分的视觉文本属性对齐的行人图像搜索方法
技术领域
本发明涉及跨模态对齐领域,具体为一种基于语义划分的视觉文本属性对齐的行人图像搜索方法。
背景技术
针对人的身份识别技术在智能视频监控领域中发挥着极其重要的作用。行人的跨图文模态检索旨在根据给定的对目标行人的自然语言描述,在图片数据集中匹配到与之最相符的行人图片。与基于图片或属性的行人图像搜索方法相比,这种基于自然语言描述的人物图像搜索方式可以处理缺乏待搜索人物的已知图像的复杂情况,在应用上具有更加灵活便利和友好的优势,但其代价是在模型处理上更加复杂和具有挑战性。
首先,对于同一张图像,其文本描述形式丰富,因而文本的编码网络需要能够处理多样化的数据。再次,样本数据来自图像和文本两个模态,数据构成上有异构鸿沟,特征上存在语义鸿沟。只有克服模态之间的差异,才能有效度量并排序比较来自两个模态的特征向量之间的相似度。
目前,主要有两种思路:联合嵌入学习和相似度学习。前者指学习一种映射方式,将图像与文本的特征投射到一个公共子空间,在这个公共子空间中直接匹配图像与文本的嵌入特征;后者指的是设计相似性度量网络。
联合嵌入学习是当前的主流方法,其流程是先分别提取两个模态内单独的特征,再把特征映射到视觉文本共享的特征公共子空间(高层网络)内,在公共子空间内最大化同一样本的不同模态表示的相关性。当前基于自然语言描述的行人图像搜索方法有以下三类:
一是基于全局特征(参见Zhang Y,Lu H.Deep cross-modal projectionlearning for image-text matching[C]//Proceedings ofthe European Conference onComputer Vision(ECCV).2018:686-701.;Zheng Z,Zheng L,Garrett M,et al.Dual-pathconvolutional image-text embeddings with instance loss[J].ACM Transactions onMultimedia Computing,Communications,andApplications(TOMM),2020,16(2):1-23.),将图像与文本嵌入共享子空间内,提取其整体特征,用全局特征之间的相似度约束网络的训练,但这种方法没有考虑到图像与文本之间的局部相似性和交互作用;
二是基于注意力机制(参见Li S,Xiao T,Li H,et al.Person search withnatural language description[C]//Proceedings ofthe IEEE Conference onComputer Vision and Pattern Recognition.2017:1970-1979.;Li S,Xiao T,Li H,etal.Identity-aware textual-visual matching with latent co-attention[C]//Proceedings of the IEEE International Conference on Computer Vision.2017:1890-1899.;Chen D,Li H,Liu X,et al.Improving deep visual representation forperson re-identification by global and local image-language association[C]//Proceedings ofthe European conference on computer vision(ECCV).2018:54-70.),这种方法关注到了图像与文本之间的局部相似性,一般对图像进行网格化的划分,将文本划分到单个单词或词组。再在网络中添加注意力机制来获取局部与局部、局部与整体、整体与整体之间的相似度。但这种方法的缺陷是只对图像和文本进行网格化的划分,没有将两个模态中有意义的语义部分进行对齐。三是充分挖掘视觉与文本语义成分之间的相关性(参见Niu K,HuangY,Ouyang W,et al.Improving description-basedperson re-identification by multi-granularity image-text alignments[J].IEEETransactions on Image Processing,2020,29:5542-5556.;Jing Y,Si C,Wang J,etal.Pose-guidedjoint global and attentive local matching network for text-basedperson search[J].Assoc iation for theAdvance ofArtificial Intelligence(AAAI),2020.;Wang,Zhe,et al."Vitaa:Visual-textual attributes alignment inperson search by natural language."European Conference on ComputerVision.Springer,Cham,2020.),明确定位和对齐图像与文本描述中有意义的语义部分。通过对图像进行基于人体身体部位的分割,再对文本进行相应的划分,从而促进图像与文本的局部特征之间的对齐。但是这种方法在局部特征的划分上只是基于图像的,缺乏对于文本语义的更加细粒度的划分。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于语义划分的视觉文本属性对齐的行人图像搜索方法。
根据本发明的一个方面,提供一种基于语义划分的视觉文本属性对齐的行人图像搜索方法,包括:
对图像模态和文本模态的原始数据进行处理,获得对应模态内的图像全局与文本全局与局部的数据集;
利用图像特征提取网络和文本特征提取网络对所述数据集分别进行特征提取,获得对应的单模态内的全局与局部特征;
利用嵌入网络将所述单模态内的全局与局部特征转化为对应模态的嵌入特征;
在模型的整体损失的联合约束下,进行模型训练;
使用训练好的模型进行行人图像搜索。
优选地,所述对图像模态和文本模态中的原始数据进行处理,所述获得图像全局及文本全局与局部的数据集,包括:
获取人体的全局图像表示Iglobal,整体文本表示Tglobal
对图像模态和文本模态中的原始数据基于人体身体部位和单词词性进行划分,包括:
利用已有的人体分割网络生成基于人体五个身体部位的图像分割掩码。将大小归一化的图像输入人体分割网络,可以生成基于人体的五个身体部位的图像分割掩码Ilocal-label
利用单词-人体部位的对应表,结合所述对应表和已有的自然语言处理工具库NLTK获取每个身体部位的文本表示
Figure BDA0003353490320000031
Figure BDA0003353490320000032
优选地,所述人体身体部分包括:头部,上半身、下半身、鞋子和背包;
所述单词词性包括:名词和形容词;
所述针对本发明人工设计的单词-人体部位对应表;
优选地,所述图像特征提取网络为Fvisual,其为Resnet50的前三个block,输出维度设置为1024;
所述文本特征提取网络为Ftextual,其为Bi-LSTM,输出维度设置为512维。
优选地,所述图像特征提取网络Fvisual和所述文本特征提取网络Ftextual是所述全局特征与所述局部特征共享的。全局图像数据、全局与局部的文本数据分别输入相应模态的特征提取网络提取到对应的单模态特征。所述全局图像Iglobal在经过图像特征提取网络Fvisual后形成全局图像特征vglobal。所述整体文本Tglobal、基于名词语义划分的文本局部描述
Figure BDA0003353490320000033
和基于形容词语义划分的文本局部描述
Figure BDA0003353490320000034
分别独立通过Ftextual可以获得相应的文本的全局特征tglobal、基于名词语义划分的文本局部特征
Figure BDA0003353490320000035
基于形容词语义划分的文本局部特征
Figure BDA0003353490320000036
优选地,所述在嵌入网络中将所述的单模态内的全局与局部特征转化为对应模态的嵌入特征,包括:
构建特征嵌入网络,包括:图像全局特征嵌入网络Evisual-global、名词语义对应的图像局部特征嵌入网络
Figure BDA0003353490320000037
形容词语义对应的图像局部特征嵌入网络
Figure BDA0003353490320000038
文本全局特征嵌入网络Etextual-global、名词语义对应的文本局部特征嵌入网络
Figure BDA0003353490320000039
形容词语义对应的图像局部特征嵌入网络
Figure BDA00033534903200000310
获取全局与局部的嵌入特征,包括:
全局图像特征vglobal经过图像局部特征嵌入网络Evisual-global得到全局嵌入特征vglobal-embed
全局图像特征vglobal经过名词语义对应的图像局部特征嵌入网络
Figure BDA0003353490320000041
得到图像的局部嵌入特征vnoun-embed
全局图像特征vglobal经过形容词语义对应的图像局部特征嵌入网络
Figure BDA0003353490320000042
得到图像的局部嵌入特征vadj-embed
文本的全局特征tglobal经过文本全局特征嵌入网络Etextual-global得到文本的全局嵌入特征tglobal-embed
基于名词语义划分的文本局部特征
Figure BDA0003353490320000043
经过名词语义对应的文本局部特征嵌入网络
Figure BDA0003353490320000044
得到文本的局部嵌入特征bnoun-embed
基于形容词语义划分的文本局部特征
Figure BDA0003353490320000045
经过形容词语义对应的图像局部特征嵌入网络
Figure BDA0003353490320000046
得到文本的局部嵌入特征tadj-embed
图像的局部嵌入特征vnoun-embed和vadj-embed经过反卷积操作得到图像局部特征的类别预测xnoun和xadj
优选地,对于每个模态,各个子嵌入网络之间是相互独立的,参数不共享;所有图像特征嵌入网络的第一个环节都是不同参数的Resnet50的第四组大block(block4)。这样,图像的全局与局部特征都是由原始图像经过完整的Resnet50处理得到的,其区别是,而第四个block是相互独立的,在相应函数的约束下生成对应的特征;前三个block是全局特征与局部特征共用的,这部分共用网络使得在反向传播过程中,局部特征的对齐能对整体特征的提取起到约束。
优选地,所述整体损失包括:全局对齐损失、局部对齐损失和分割损失;
优选地,所述整体损失的函数为:
Figure BDA0003353490320000047
Figure BDA0003353490320000048
其中,Lglobal-align为全局对齐损失,用于约束模态间全局嵌入特征的相似度;
Figure BDA0003353490320000049
Figure BDA00033534903200000410
为局部对齐损失,分别约束模态间名词与形容词语义对应的局部嵌入特征的相似度;
Figure BDA00033534903200000411
Figure BDA00033534903200000412
为分割损失,用于保障提取到的图像局部嵌入特征与人体的五个身体部位相对应;λ1和λ2表示对应损失分量的权重。
与现有技术相比,本发明具有如下的有益效果:
本发明对局部特征进行了更细粒度的划分,充分利用局部特征之间的对应关系,辅助全局分支(由全局特征提取网络与全局特征嵌入网络构成)提取到更加对齐的全局跨模态嵌入特征;通过多个损失函数联合约束网络的训练,促使模型向着最优的方向收敛,提高了基于自然语言描述的行人图像搜索的性能。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例的一种基于语义划分的视觉文本属性对齐的行人图像搜索方法流程图;
图2为本发明一实施例的一种基于语义划分的视觉文本属性对齐的行人图像搜索方法原理示意图;
图3为本发明的一个应用实施例的在数据集CUHK-PEDES上与不同算法的性能对比图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1所示,为本发明的一个实施例的一种基于语义划分的视觉文本属性对齐的行人图像搜索方法流程图,包括:
S1,对图像模态和文本模态的原始数据进行处理,获得对应模态内的图像全局及文本全局与局部的数据集;
S2,构建图像特征提取网络和文本特征提取网络;
S3,利用图像特征提取网络和文本特征对数据集进行提取,获得图像及文本单模态内的全局与局部特征;
S4,构建嵌入网络;
S5,在嵌入网络中将单模态内的全局与局部特征转化为对应模态的嵌入特征;
S6,在整体损失的联合约束下,进行模型训练。
为了更好地进行数据预处理,提供一个实施例以执行S1。在本实施例的数据预处理中,先获取人体的全局图像表示Iglobal,整体文本表示Tglobal。然后基于人体身体部分和单词词性进行数据划分,具体是利用已有的人体分割网络获取基于人体身体部位的图像分割掩码Ilocal-label;结合针对本发明人工设计的单词-部位对应表Table-voc和文本分词模型获取局部部位的文本表示
Figure BDA0003353490320000061
Figure BDA0003353490320000062
作为一个优选实施例执行S1,包括:
S101,对整体图像进行尺寸归一化得到大小为384*128的整体的图像表示Iglobal
S102,将人体划分为五个部分,分别是:头部,上半身、下半身、鞋子和背包。利用现有的人体分割模型生成人体五个部位的图像分割掩码:
Figure BDA0003353490320000063
Figure BDA0003353490320000064
S103,人工收集与人体的五个身体部位相对应的名词表Table-voc(见表1);
S104,利用NLTK库得到原句子中每个单词的词性及其在句子中的坐标,再在Table-voc中查找每个名词,确定其对应的身体部位;
具体的,在本实施例中,假定第i-1个名词和第i个名词之间的形容词都是用来修饰第i个名词的,因而可以确定每个形容词所对应的身体部位。从而能够确定一个文本描述中修饰每个身体部位的形容词和名词。这样就得到了基于语义和人体身体部位的局部文本信息;
S105,对整体和局部文本进行one-hot编码,形成全局与局部的文本描述。统一全局文本描述的长度为100,局部文本描述的长度为15。记文本整体描述为T。最终生成的每个文本描述对应的局部划分有两组,一组是表征事物种类的短语中心词名词对应的局部表示:
Figure BDA0003353490320000065
另一组是描述事物的性质和状态属性的形容词对应的局部表示
Figure BDA0003353490320000066
Figure BDA0003353490320000067
S106,通过词嵌入将全局与局部的文本转换为向量表示。
表1 Table-voc
Figure BDA0003353490320000068
Figure BDA0003353490320000071
基于上述S1,执行S2,构建图像特征提取网络和文本特征提取网络。为了更好地提取图像特征和文本特征,提供一个优选实施例。在本实施例中,所选图像特征提取网络Fvisual为Resnet50的前三个block,输出维度设置为1024;文本特征提取网络Ftextual为Bi-LSTM,输出维度设置为512维。Resnet可以解决深层网络梯度消失的问题,是当前图像处理领域的主流网络。Bi-LSTM是双向长短时记忆模型,可以捕捉、建模上下文信息。
基于上述S2,执行S3,利用构建好的图像特征提取网络和文本特征提取网络生成单模态的特征向量,获得图像的全局特征vglobal、文本的全局特征tglobal、基于名词语义划分的文本局部特征
Figure BDA0003353490320000072
基于形容词语义划分的文本局部特征
Figure BDA0003353490320000073
所有特征提取网络是全局与局部共享的。该部分只得到全局图像特征、全局文本特征、局部文本特征,即在图像模态中只提取全局特征,后续由该全局特征生成全局与局部的嵌入特征。
具体的,作为一优选实施例执行S3,包括:
S301,将S1中处理得到的全局图像Iglobal输入到图像特征提取网络Fvisual中生成图像的全局特征vglobal
vglobal=Fvisual(Iglobal)
S302,将S1中处理得到的文本数据Tglobal
Figure BDA0003353490320000074
Figure BDA0003353490320000075
输入到文本的特征提取网络Ftextual生成文本的全局特征tglobal、名词语义对应的文本局部特征
Figure BDA0003353490320000076
和形容词语义对应的文本局部特征
Figure BDA0003353490320000077
具体的,得到的输出为:
tglobal=Ftextual(Tglobal)
Figure BDA0003353490320000078
Figure BDA0003353490320000081
基于上述S3,执行S4,构建特征嵌入网络。在多模态任务中,模型性能很大程度上取决于嵌入特征的质量。因为本过程是整个网络中至关重要的一环,旨在在前述提取的单模态特征向量的基础上生成更丰富的嵌入表征。
特征嵌入网络包括:图像全局特征嵌入网络Evisual-global、名词语义对应的图像局部特征嵌入网络
Figure BDA0003353490320000082
形容词语义对应的图像局部特征嵌入网络
Figure BDA0003353490320000083
文本全局特征嵌入网络Etextual-global、名词语义对应的文本局部特征嵌入网络
Figure BDA0003353490320000084
形容词语义对应的文本局部特征嵌入网络
Figure BDA0003353490320000085
特征嵌入网络的六个子网络之间是相互独立无连接的。
作为一优选实施例,全局与局部嵌入网络是不共享的,全局特征只能输入对应模态的全局特征嵌入网络,局部特征只能输入对应模态的局部特征嵌入网络。所有图像特征嵌入网络的第一个环节都是不同参数的Resnet50的第四组大block(block4)。这样,图像的全局与局部特征都是由原始图像经过完整的Resnet50处理得到的,其区别是,而第四个block是相互独立的,在相应函数的约束下生成对应的特征;前三个block是全局特征与局部特征共用的,这部分共用网络使得在反向传播过程中,局部特征的对齐能对整体特征的提取起到约束。
基于上述S4,执行S5,生成嵌入特征。具体的,作为一优选实施例执行S5,包括:
S501,将S3中得到的单独模态内的图像的全局特征分别输入到S4中的特征嵌入网络Evisual-global
Figure BDA0003353490320000086
Figure BDA0003353490320000087
中,得到图像的全局嵌入特征vglobal-embed、图像的局部嵌入特征vnoun-embed和vadj-embed。输入、输出关系为:
vglobal-embed=Evisual-global(vglobal)
=Linearvisual-global(Avgpool(block4-global(vglobal)))
Figure BDA0003353490320000088
Figure BDA0003353490320000089
vnoun-embed和vadj-embed经过反卷积操作得到图像局部特征的类别预测xnoun和xadj。后续将通过xnoun与xadj和前述人体分割网络得到的分割掩码之间计算分割损失
Figure BDA0003353490320000091
Figure BDA0003353490320000092
S502,将S3中得到的单独模态内的文本的全局与局部特征输入到S4中的特征嵌入网络Etextual-global
Figure BDA0003353490320000093
Figure BDA0003353490320000094
中,得到文本的全局嵌入特征tglobal-embed、文本的局部嵌入特征tnoun-embed和tadj-embed。输入输出关系为:
t=Etextual-global(tglobal)=Lineartextual-global(tglobal)
Figure BDA0003353490320000095
Figure BDA0003353490320000096
上述嵌入网络的输入输出公式中,block4表示Resnet50的第四组大block,partname表示对应的人体部位(head\upperbody\lowerbody\shoes\backpack),Avgpool代表经过平均池化操作,Maxpool代表经过最大池化操作,Linear代表经过全连接层操作。其中,全局和局部嵌入特征的维度都是256。
本实施例在局部特征的划分上,更充分地利用了文本信息。在现有技术根据人体部位划分局部特征的基础上,再根据不同词性的单词代表的语义不同,将局部信息划分为名词和形容词语义对应的两组,生成了更细粒度的基于不同身体部位和不同语义的局部特征。由于全局特征和局部特征的基础网络是共享的,因而通过反传优化迭代,局部特征的对齐可以辅助全局分支提取到更加对齐的跨模态全局嵌入特征。
基于上述S5,执行S6,利用损失之和L进行训练。
具体的,作为一优选实施例执行S6,包括:
整体损失函数为:
Figure BDA0003353490320000097
Figure BDA0003353490320000098
其中,Lglobal-align用于约束模态间全局嵌入特征的相似度,
Figure BDA0003353490320000099
Figure BDA00033534903200000910
分别约束模态间名词与形容词语义对应的局部嵌入特征的相似度,
Figure BDA00033534903200000911
Figure BDA00033534903200000912
用于保障提取到的图像局部嵌入特征与人体的五个身体部位相对应。λ1和λ2表示对应损失分量的权重,本实施例中λ1取0.80,λ2取0.65。
各对齐损失分量的表达式如下:
Figure BDA00033534903200000913
Figure BDA0003353490320000101
Figure BDA0003353490320000102
Figure BDA0003353490320000103
Figure BDA0003353490320000104
其中,N表示batch_size大小,本实施例中取64;τp和τn分别是调整正负样本对梯度坡度的温度参数,本实施例中所有τp均取10、所有τn均取40;Si表示来自两个模态的嵌入特征的点积,上标"+"表示正样本对、上标"-"表示负样本对:
Figure BDA0003353490320000105
Figure BDA0003353490320000106
Figure BDA0003353490320000107
通过这五个损失函数的联合约束,增强对模型的约束,促使网络向着最优的方向收敛。
本发明提供一个具体的应用实施例,进行行人图像搜索。如图2所示,为本实施例的一种基于语义划分的视觉文本属性对齐的行人图像搜索方法原理示意图。采用的CUHK-PEDES数据集中有40206张图片(训练集34054张,验证集3078张,测试集3074张)、80440条自然语言文本描述(训练集68126条,验证集6158条,测试集6156条),每张图片平均对应大约两条自然语言文本描述。
通过实验证明,本实施例方法能通过细粒度的的局部特征的划分辅助提取到了更加对齐的全局特征,提高了跨模态检索的准确率,表2和附图3为本实施例在CUHK-PEDES上与不同算法的性能对比。附图3以累计匹配特性(CMC)曲线作为表征,九条曲线从上到下代表的是本实施例方法和其它方法的性能。
表2
Figure BDA0003353490320000111
可以看出由本实施例得到的结果较大程度地提升了跨模态行人检索的性能。
综上,实施例方法在现有的根据人体部位划分局部特征的基础上,更加充分地利用到了文本中的语义信息,生成了更加细粒度的局部特征。充分利用局部特征之间的对应关系,辅助全局分支(由全局特征提取网络与全局特征嵌入网络构成)提取到更加对齐的全局跨模态嵌入特征。通过局部特征的对齐约束,辅助网络学到了更加对齐的整体特征;通过全局对齐损失、局部对齐损失和分割损失的联合约束,模型向最优的方向收敛,提高了基于自然语言描述搜索行人图像的检索性能。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下,可以任意组合使用。

Claims (10)

1.一种基于语义划分的视觉文本属性对齐的行人图像搜索方法,其特征在于,包括:
对图像模态和文本模态中的原始数据进行处理,获得图像全局及文本全局与局部的数据集;
利用图像特征提取网络和文本特征提取网络对所述数据集分别进行特征提取,获得对应的单模态内的全局与局部特征;
利用嵌入网络将所述单模态内的全局与局部特征转化为对应模态的嵌入特征;
在模型的整体损失的联合约束下,进行模型训练;
使用训练好的模型进行行人图像搜索。
2.根据权利要求1所述的基于语义划分的视觉文本属性对齐的行人图像搜索方法,其特征在于,所述对图像模态和文本模态中的原始数据进行处理,获得图像全局及文本全局与局部的数据集,包括:
获取人体的全局图像表示Iglobal,整体文本表示Tglobal
对图像模态和文本模态中的原始数据基于人体身体部位和单词词性进行划分,包括:
利用已有的人体分割网络生成基于人体身体部位的图像分割掩码Ilocal-label
利用单词-人体部位的对应表,结合所述对应表和已有的自然语言处理工具库NLTK获取每个身体部位的文本表示
Figure FDA0003353490310000011
Figure FDA0003353490310000012
3.根据权利要求2所述的基于语义划分的视觉文本属性对齐的行人图像搜索方法,其特征在于,
所述人体身体部分包括:头部,上半身、下半身、鞋子和背包;
所述单词词性包括:名词和形容词。
4.根据权利要求1所述的基于语义划分的视觉文本属性对齐的行人图像搜索方法,其特征在于,所述图像特征提取网络为Fvisual,其为Resnet50的前三个block,输出维度设置为1024;
所述文本特征提取网络为Ftextual,其为Bi-LSTM,输出维度设置为512维;
所述图像特征提取网络Fvisual和所述文本特征提取网络Ftextual是所述全局特征与所述局部特征共享的。
5.根据权利要求4所述的基于语义划分的视觉文本属性对齐的行人图像搜索方法,其特征在于,所述利用图像特征提取网络和文本特征提取网络对所述数据集分别进行提取,获得对应的单模态内的全局与局部特征,包括:
全局图像数据、全局与局部的文本数据分别输入相应模态的特征提取网络提取到对应的单模态特征,包括:
所述全局图像Iglobal在经过图像特征提取网络Fvisual后形成全局图像特征vglobal
所述整体文本Tglobal、基于名词语义划分的文本局部描述
Figure FDA0003353490310000021
和基于形容词语义划分的文本局部描述
Figure FDA0003353490310000022
分别独立通过Ftextual可以获得相应的文本的全局特征tglobal、基于名词语义划分的文本局部特征
Figure FDA0003353490310000023
基于形容词语义划分的文本局部特征
Figure FDA0003353490310000024
6.根据权利要求2所述的基于语义划分的视觉文本属性对齐的行人图像搜索方法,其特征在于,所述特征嵌入网络,包括六个子网络,为:
图像全局特征嵌入网络Evisual-global、名词语义对应的图像局部特征嵌入网络
Figure FDA0003353490310000025
形容词语义对应的图像局部特征嵌入网络
Figure FDA0003353490310000026
文本全局特征嵌入网络Etextual-global、名词语义对应的文本局部特征嵌入网络
Figure FDA0003353490310000027
形容词语义对应的图像局部特征嵌入网络
Figure FDA0003353490310000028
所述全局与局部的多模态嵌入特征,包括:
全局嵌入特征vglobal-embed、图像的局部嵌入特征vnoun-embed和vadj-embed、文本的全局嵌入特征tglobal-embed、文本的局部嵌入特征tnoun-embed和tadj-embed
7.根据权利要求6所述的基于语义划分的视觉文本属性对齐的行人图像搜索方法,其特征在于,
所述利用嵌入网络将所述单模态内的全局与局部特征转化为对应模态的嵌入特征,包括:
全局图像特征vglobal经过图像局部特征嵌入网络Evisual-global得到全局嵌入特征vglobal-embed
全局图像特征vglobal经过名词语义对应的图像局部特征嵌入网络
Figure FDA0003353490310000029
得到图像的局部嵌入特征vnoun-embed
全局图像特征vglobal经过形容词语义对应的图像局部特征嵌入网络
Figure FDA00033534903100000210
得到图像的局部嵌入特征vadj-embed
文本的全局特征tglobal经过文本全局特征嵌入网络Etextual-global得到文本的全局嵌入特征tglobal-embed
基于名词语义划分的文本局部特征
Figure FDA0003353490310000031
经过名词语义对应的文本局部特征嵌入网络
Figure FDA0003353490310000032
得到文本的局部嵌入特征tnoun-embed
基于形容词语义划分的文本局部特征
Figure FDA0003353490310000033
经过形容词语义对应的图像局部特征嵌入网络
Figure FDA0003353490310000034
得到文本的局部嵌入特征tadj-embed
图像的局部嵌入特征vnoun-embed和vadj-embed经过反卷积操作得到图像局部特征的类别预测xnoun和xadj
8.根据权利要求6或7所述的基于语义划分的视觉文本属性对齐的行人图像搜索方法,其特征在于,对于每个模态,特征嵌入网络的六个子网络之间是相互独立的,参数不共享;
其中,所有图像特征嵌入网络的第一个环节都是不同参数的Resnet50的第四组大block(block4)。
9.根据权利要求8任一项所述的基于语义划分的视觉文本属性对齐的行人图像搜索方法,其特征在于,
所述整体损失包括:全局对齐损失、局部对齐损失和分割损失。
10.根据权利要求9所述的基于语义划分的视觉文本属性对齐的行人图像搜索方法,其特征在于,
所述整体损失的函数为:
Figure FDA0003353490310000035
Figure FDA0003353490310000036
其中,Lglobal-align为全局对齐损失,用于约束模态间全局嵌入特征的相似度;
Figure FDA0003353490310000037
Figure FDA0003353490310000038
为局部对齐损失,分别约束模态间名词与形容词语义对应的局部嵌入特征的相似度;
Figure FDA0003353490310000039
Figure FDA00033534903100000310
为分割损失,用于保障提取到的图像局部嵌入特征与人体的五个身体部位相对应;λ1和λ2表示对应损失分量的权重。
CN202111344497.5A 2021-11-15 2021-11-15 基于语义划分的视觉文本属性对齐的行人图像搜索方法 Pending CN114036336A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111344497.5A CN114036336A (zh) 2021-11-15 2021-11-15 基于语义划分的视觉文本属性对齐的行人图像搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111344497.5A CN114036336A (zh) 2021-11-15 2021-11-15 基于语义划分的视觉文本属性对齐的行人图像搜索方法

Publications (1)

Publication Number Publication Date
CN114036336A true CN114036336A (zh) 2022-02-11

Family

ID=80137602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111344497.5A Pending CN114036336A (zh) 2021-11-15 2021-11-15 基于语义划分的视觉文本属性对齐的行人图像搜索方法

Country Status (1)

Country Link
CN (1) CN114036336A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821770A (zh) * 2022-04-11 2022-07-29 华南理工大学 文本到图像的跨模态行人再识别方法、***、介质和设备
CN114860978A (zh) * 2022-05-07 2022-08-05 苏州大学 基于文本的行人搜索任务语义对齐方法及***
CN115292533A (zh) * 2022-08-17 2022-11-04 苏州大学 视觉定位驱动的跨模态行人检索方法
CN115761222A (zh) * 2022-09-27 2023-03-07 阿里巴巴(中国)有限公司 图像分割方法、遥感图像分割方法以及装置
CN116228897A (zh) * 2023-03-10 2023-06-06 北京百度网讯科技有限公司 图像处理方法、图像处理模型和训练方法
CN117391092A (zh) * 2023-12-12 2024-01-12 中南大学 一种基于对比学习的电子病历多模态医疗语义对齐方法
WO2024114185A1 (zh) * 2023-07-24 2024-06-06 西北工业大学 一种基于完备属性识别增强的行人属性跨模态对齐方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821770A (zh) * 2022-04-11 2022-07-29 华南理工大学 文本到图像的跨模态行人再识别方法、***、介质和设备
CN114821770B (zh) * 2022-04-11 2024-03-26 华南理工大学 文本到图像的跨模态行人再识别方法、***、介质和设备
CN114860978A (zh) * 2022-05-07 2022-08-05 苏州大学 基于文本的行人搜索任务语义对齐方法及***
CN115292533A (zh) * 2022-08-17 2022-11-04 苏州大学 视觉定位驱动的跨模态行人检索方法
CN115292533B (zh) * 2022-08-17 2023-06-27 苏州大学 视觉定位驱动的跨模态行人检索方法
CN115761222A (zh) * 2022-09-27 2023-03-07 阿里巴巴(中国)有限公司 图像分割方法、遥感图像分割方法以及装置
CN115761222B (zh) * 2022-09-27 2023-11-03 阿里巴巴(中国)有限公司 图像分割方法、遥感图像分割方法以及装置
CN116228897A (zh) * 2023-03-10 2023-06-06 北京百度网讯科技有限公司 图像处理方法、图像处理模型和训练方法
CN116228897B (zh) * 2023-03-10 2024-04-23 北京百度网讯科技有限公司 图像处理方法、图像处理模型和训练方法
WO2024114185A1 (zh) * 2023-07-24 2024-06-06 西北工业大学 一种基于完备属性识别增强的行人属性跨模态对齐方法
CN117391092A (zh) * 2023-12-12 2024-01-12 中南大学 一种基于对比学习的电子病历多模态医疗语义对齐方法
CN117391092B (zh) * 2023-12-12 2024-03-08 中南大学 一种基于对比学习的电子病历多模态医疗语义对齐方法

Similar Documents

Publication Publication Date Title
CN114036336A (zh) 基于语义划分的视觉文本属性对齐的行人图像搜索方法
Li et al. Know more say less: Image captioning based on scene graphs
Zhu et al. Content-based visual landmark search via multimodal hypergraph learning
US11704501B2 (en) Providing a response in a session
CN113065577A (zh) 一种面向目标的多模态情感分类方法
CN112000818A (zh) 一种面向文本和图像的跨媒体检索方法及电子装置
WO2019019935A1 (zh) 交互方法、交互终端、存储介质和计算机设备
Islam et al. Exploring video captioning techniques: A comprehensive survey on deep learning methods
Muhammad et al. Casia-face-africa: A large-scale african face image database
Cheng et al. Stack-VS: Stacked visual-semantic attention for image caption generation
CN117874262B (zh) 一种基于渐进原型匹配的文本-动态图片跨模态检索方法
Pappas et al. Multilingual visual sentiment concept matching
Dilawari et al. Natural language description of video streams using task-specific feature encoding
CN110659392B (zh) 检索方法及装置、存储介质
CN115409107A (zh) 多模态关联构建模型的训练方法和多模态数据检索方法
CN116737979A (zh) 基于上下文引导多模态关联的图像文本检索方法及***
Bansal et al. Visual content based video retrieval on natural language queries
Emami et al. Arabic image captioning using pre-training of deep bidirectional transformers
CN113221680B (zh) 基于文本动态引导视觉特征提炼的文本行人检索方法
Wang et al. A novel semantic attribute-based feature for image caption generation
CN117057349A (zh) 新闻文本关键词抽取方法、装置、计算机设备和存储介质
Ueki Survey of visual-semantic embedding methods for zero-shot image retrieval
Han et al. Text-to-Image Person Re-identification Based on Multimodal Graph Convolutional Network
Attai et al. A survey on arabic image captioning systems using deep learning models
Zhou et al. The State of the Art for Cross-Modal Retrieval: A Survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination