CN114036336A

CN114036336A - 基于语义划分的视觉文本属性对齐的行人图像搜索方法

Info

Publication number: CN114036336A
Application number: CN202111344497.5A
Authority: CN
Inventors: 杨华; 杨新新
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-02-11

Abstract

本发明提供一种基于语义划分的视觉文本属性对齐的行人图像搜索方法，包括：对图像模态和文本模态中的原始数据进行处理，获得图像全局及文本全局与局部的数据集；利用图像特征提取网络和文本特征提取网络对数据集分别进行特征提取，获得图像及文本单模态内的全局与局部特征；在嵌入网络中将单模态内的全局与局部特征转化为对应模态的嵌入特征；在多个损失函数的联合约束下，进行模型训练。本发明对局部特征进行更细粒度的划分，充分利用局部特征之间的对应关系，辅助主干网络提取更加对齐的全局跨模态嵌入特征；通过整体损失联合约束网络的训练，促使模型向着最优的方向收敛，提高基于自然语言描述的行人图像搜索的性能。

Description

基于语义划分的视觉文本属性对齐的行人图像搜索方法

技术领域

本发明涉及跨模态对齐领域，具体为一种基于语义划分的视觉文本属性对齐的行人图像搜索方法。

背景技术

针对人的身份识别技术在智能视频监控领域中发挥着极其重要的作用。行人的跨图文模态检索旨在根据给定的对目标行人的自然语言描述，在图片数据集中匹配到与之最相符的行人图片。与基于图片或属性的行人图像搜索方法相比，这种基于自然语言描述的人物图像搜索方式可以处理缺乏待搜索人物的已知图像的复杂情况，在应用上具有更加灵活便利和友好的优势，但其代价是在模型处理上更加复杂和具有挑战性。

首先，对于同一张图像，其文本描述形式丰富，因而文本的编码网络需要能够处理多样化的数据。再次，样本数据来自图像和文本两个模态，数据构成上有异构鸿沟，特征上存在语义鸿沟。只有克服模态之间的差异，才能有效度量并排序比较来自两个模态的特征向量之间的相似度。

目前，主要有两种思路：联合嵌入学习和相似度学习。前者指学习一种映射方式，将图像与文本的特征投射到一个公共子空间，在这个公共子空间中直接匹配图像与文本的嵌入特征；后者指的是设计相似性度量网络。

联合嵌入学习是当前的主流方法，其流程是先分别提取两个模态内单独的特征，再把特征映射到视觉文本共享的特征公共子空间(高层网络)内，在公共子空间内最大化同一样本的不同模态表示的相关性。当前基于自然语言描述的行人图像搜索方法有以下三类：

一是基于全局特征(参见Zhang Y,Lu H.Deep cross-modal projectionlearning for image-text matching[C]//Proceedings ofthe European Conference onComputer Vision(ECCV).2018:686-701.；Zheng Z,Zheng L,Garrett M,et al.Dual-pathconvolutional image-text embeddings with instance loss[J].ACM Transactions onMultimedia Computing,Communications,andApplications(TOMM),2020,16(2):1-23.)，将图像与文本嵌入共享子空间内，提取其整体特征，用全局特征之间的相似度约束网络的训练，但这种方法没有考虑到图像与文本之间的局部相似性和交互作用；

二是基于注意力机制(参见Li S,Xiao T,Li H,et al.Person search withnatural language description[C]//Proceedings ofthe IEEE Conference onComputer Vision and Pattern Recognition.2017:1970-1979.；Li S,Xiao T,Li H,etal.Identity-aware textual-visual matching with latent co-attention[C]//Proceedings of the IEEE International Conference on Computer Vision.2017:1890-1899.；Chen D,Li H,Liu X,et al.Improving deep visual representation forperson re-identification by global and local image-language association[C]//Proceedings ofthe European conference on computer vision(ECCV).2018:54-70.)，这种方法关注到了图像与文本之间的局部相似性，一般对图像进行网格化的划分，将文本划分到单个单词或词组。再在网络中添加注意力机制来获取局部与局部、局部与整体、整体与整体之间的相似度。但这种方法的缺陷是只对图像和文本进行网格化的划分，没有将两个模态中有意义的语义部分进行对齐。三是充分挖掘视觉与文本语义成分之间的相关性(参见Niu K,HuangY,Ouyang W,et al.Improving description-basedperson re-identification by multi-granularity image-text alignments[J].IEEETransactions on Image Processing,2020,29:5542-5556.；Jing Y,Si C,Wang J,etal.Pose-guidedjoint global and attentive local matching network for text-basedperson search[J].Assoc iation for theAdvance ofArtificial Intelligence(AAAI),2020.；Wang,Zhe,et al."Vitaa:Visual-textual attributes alignment inperson search by natural language."European Conference on ComputerVision.Springer,Cham,2020.)，明确定位和对齐图像与文本描述中有意义的语义部分。通过对图像进行基于人体身体部位的分割，再对文本进行相应的划分，从而促进图像与文本的局部特征之间的对齐。但是这种方法在局部特征的划分上只是基于图像的，缺乏对于文本语义的更加细粒度的划分。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于语义划分的视觉文本属性对齐的行人图像搜索方法。

根据本发明的一个方面，提供一种基于语义划分的视觉文本属性对齐的行人图像搜索方法，包括：

对图像模态和文本模态的原始数据进行处理，获得对应模态内的图像全局与文本全局与局部的数据集；

利用图像特征提取网络和文本特征提取网络对所述数据集分别进行特征提取，获得对应的单模态内的全局与局部特征；

利用嵌入网络将所述单模态内的全局与局部特征转化为对应模态的嵌入特征；

在模型的整体损失的联合约束下，进行模型训练；

使用训练好的模型进行行人图像搜索。

优选地，所述对图像模态和文本模态中的原始数据进行处理，所述获得图像全局及文本全局与局部的数据集，包括：

获取人体的全局图像表示I_global，整体文本表示T_global；

对图像模态和文本模态中的原始数据基于人体身体部位和单词词性进行划分，包括：

利用已有的人体分割网络生成基于人体五个身体部位的图像分割掩码。将大小归一化的图像输入人体分割网络，可以生成基于人体的五个身体部位的图像分割掩码I_local-label；

利用单词-人体部位的对应表，结合所述对应表和已有的自然语言处理工具库NLTK获取每个身体部位的文本表示

和

优选地，所述人体身体部分包括：头部，上半身、下半身、鞋子和背包；

所述单词词性包括：名词和形容词；

所述针对本发明人工设计的单词-人体部位对应表；

优选地，所述图像特征提取网络为F_visual，其为Resnet50的前三个block，输出维度设置为1024；

所述文本特征提取网络为F_textual，其为Bi-LSTM，输出维度设置为512维。

优选地，所述图像特征提取网络F_visual和所述文本特征提取网络F_textual是所述全局特征与所述局部特征共享的。全局图像数据、全局与局部的文本数据分别输入相应模态的特征提取网络提取到对应的单模态特征。所述全局图像I_global在经过图像特征提取网络F_visual后形成全局图像特征v_global。所述整体文本T_global、基于名词语义划分的文本局部描述

和基于形容词语义划分的文本局部描述

分别独立通过F_textual可以获得相应的文本的全局特征t_global、基于名词语义划分的文本局部特征

基于形容词语义划分的文本局部特征

优选地，所述在嵌入网络中将所述的单模态内的全局与局部特征转化为对应模态的嵌入特征，包括：

构建特征嵌入网络，包括：图像全局特征嵌入网络E_{visual-global}、名词语义对应的图像局部特征嵌入网络

形容词语义对应的图像局部特征嵌入网络

文本全局特征嵌入网络E_{textual-global}、名词语义对应的文本局部特征嵌入网络

形容词语义对应的图像局部特征嵌入网络

获取全局与局部的嵌入特征，包括：

全局图像特征v_global经过图像局部特征嵌入网络E_{visual-global}得到全局嵌入特征v_global-embed；

全局图像特征v_global经过名词语义对应的图像局部特征嵌入网络

得到图像的局部嵌入特征v_noun-embed；

全局图像特征v_global经过形容词语义对应的图像局部特征嵌入网络

得到图像的局部嵌入特征v_adj-embed；

文本的全局特征t_global经过文本全局特征嵌入网络E_{textual-global}得到文本的全局嵌入特征t_global-embed；

基于名词语义划分的文本局部特征

经过名词语义对应的文本局部特征嵌入网络

得到文本的局部嵌入特征b_noun-embed；

基于形容词语义划分的文本局部特征

经过形容词语义对应的图像局部特征嵌入网络

得到文本的局部嵌入特征t_adj-embed；

图像的局部嵌入特征v_noun-embed和v_adj-embed经过反卷积操作得到图像局部特征的类别预测x_noun和x_adj。

优选地，对于每个模态，各个子嵌入网络之间是相互独立的，参数不共享；所有图像特征嵌入网络的第一个环节都是不同参数的Resnet50的第四组大block(block₄)。这样，图像的全局与局部特征都是由原始图像经过完整的Resnet50处理得到的，其区别是，而第四个block是相互独立的，在相应函数的约束下生成对应的特征；前三个block是全局特征与局部特征共用的，这部分共用网络使得在反向传播过程中，局部特征的对齐能对整体特征的提取起到约束。

优选地，所述整体损失包括：全局对齐损失、局部对齐损失和分割损失；

优选地，所述整体损失的函数为：

其中，L_global-align为全局对齐损失，用于约束模态间全局嵌入特征的相似度；

和

为局部对齐损失，分别约束模态间名词与形容词语义对应的局部嵌入特征的相似度；

和

为分割损失，用于保障提取到的图像局部嵌入特征与人体的五个身体部位相对应；λ₁和λ₂表示对应损失分量的权重。

与现有技术相比，本发明具有如下的有益效果：

本发明对局部特征进行了更细粒度的划分，充分利用局部特征之间的对应关系，辅助全局分支(由全局特征提取网络与全局特征嵌入网络构成)提取到更加对齐的全局跨模态嵌入特征；通过多个损失函数联合约束网络的训练，促使模型向着最优的方向收敛，提高了基于自然语言描述的行人图像搜索的性能。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例的一种基于语义划分的视觉文本属性对齐的行人图像搜索方法流程图；

图2为本发明一实施例的一种基于语义划分的视觉文本属性对齐的行人图像搜索方法原理示意图；

图3为本发明的一个应用实施例的在数据集CUHK-PEDES上与不同算法的性能对比图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1所示，为本发明的一个实施例的一种基于语义划分的视觉文本属性对齐的行人图像搜索方法流程图，包括：

S1，对图像模态和文本模态的原始数据进行处理，获得对应模态内的图像全局及文本全局与局部的数据集；

S2，构建图像特征提取网络和文本特征提取网络；

S3，利用图像特征提取网络和文本特征对数据集进行提取，获得图像及文本单模态内的全局与局部特征；

S4，构建嵌入网络；

S5，在嵌入网络中将单模态内的全局与局部特征转化为对应模态的嵌入特征；

S6，在整体损失的联合约束下，进行模型训练。

为了更好地进行数据预处理，提供一个实施例以执行S1。在本实施例的数据预处理中，先获取人体的全局图像表示I_global，整体文本表示T_global。然后基于人体身体部分和单词词性进行数据划分，具体是利用已有的人体分割网络获取基于人体身体部位的图像分割掩码I_local-label；结合针对本发明人工设计的单词-部位对应表Table-voc和文本分词模型获取局部部位的文本表示

和

作为一个优选实施例执行S1，包括：

S101，对整体图像进行尺寸归一化得到大小为384*128的整体的图像表示I_global；

S102，将人体划分为五个部分，分别是：头部，上半身、下半身、鞋子和背包。利用现有的人体分割模型生成人体五个部位的图像分割掩码：

S103，人工收集与人体的五个身体部位相对应的名词表Table-voc(见表1)；

S104，利用NLTK库得到原句子中每个单词的词性及其在句子中的坐标，再在Table-voc中查找每个名词，确定其对应的身体部位；

具体的，在本实施例中，假定第i-1个名词和第i个名词之间的形容词都是用来修饰第i个名词的，因而可以确定每个形容词所对应的身体部位。从而能够确定一个文本描述中修饰每个身体部位的形容词和名词。这样就得到了基于语义和人体身体部位的局部文本信息；

S105，对整体和局部文本进行one-hot编码，形成全局与局部的文本描述。统一全局文本描述的长度为100，局部文本描述的长度为15。记文本整体描述为T。最终生成的每个文本描述对应的局部划分有两组，一组是表征事物种类的短语中心词名词对应的局部表示：

另一组是描述事物的性质和状态属性的形容词对应的局部表示

S106，通过词嵌入将全局与局部的文本转换为向量表示。

表1 Table-voc

基于上述S1，执行S2,构建图像特征提取网络和文本特征提取网络。为了更好地提取图像特征和文本特征，提供一个优选实施例。在本实施例中，所选图像特征提取网络F_visual为Resnet50的前三个block，输出维度设置为1024；文本特征提取网络F_textual为Bi-LSTM，输出维度设置为512维。Resnet可以解决深层网络梯度消失的问题，是当前图像处理领域的主流网络。Bi-LSTM是双向长短时记忆模型，可以捕捉、建模上下文信息。

基于上述S2,执行S3，利用构建好的图像特征提取网络和文本特征提取网络生成单模态的特征向量，获得图像的全局特征v_global、文本的全局特征t_global、基于名词语义划分的文本局部特征

基于形容词语义划分的文本局部特征

所有特征提取网络是全局与局部共享的。该部分只得到全局图像特征、全局文本特征、局部文本特征，即在图像模态中只提取全局特征，后续由该全局特征生成全局与局部的嵌入特征。

具体的，作为一优选实施例执行S3，包括：

S301，将S1中处理得到的全局图像I_global输入到图像特征提取网络F_visual中生成图像的全局特征v_global：

v_global＝F_visual(I_global)

S302，将S1中处理得到的文本数据T_global、

和

输入到文本的特征提取网络F_textual生成文本的全局特征t_global、名词语义对应的文本局部特征

和形容词语义对应的文本局部特征

具体的，得到的输出为：

t_global＝F_textual(T_global)

基于上述S3，执行S4，构建特征嵌入网络。在多模态任务中，模型性能很大程度上取决于嵌入特征的质量。因为本过程是整个网络中至关重要的一环，旨在在前述提取的单模态特征向量的基础上生成更丰富的嵌入表征。

特征嵌入网络包括：图像全局特征嵌入网络E_{visual-global}、名词语义对应的图像局部特征嵌入网络

形容词语义对应的图像局部特征嵌入网络

形容词语义对应的文本局部特征嵌入网络

特征嵌入网络的六个子网络之间是相互独立无连接的。

作为一优选实施例，全局与局部嵌入网络是不共享的，全局特征只能输入对应模态的全局特征嵌入网络，局部特征只能输入对应模态的局部特征嵌入网络。所有图像特征嵌入网络的第一个环节都是不同参数的Resnet50的第四组大block(block₄)。这样，图像的全局与局部特征都是由原始图像经过完整的Resnet50处理得到的，其区别是，而第四个block是相互独立的，在相应函数的约束下生成对应的特征；前三个block是全局特征与局部特征共用的，这部分共用网络使得在反向传播过程中，局部特征的对齐能对整体特征的提取起到约束。

基于上述S4，执行S5，生成嵌入特征。具体的，作为一优选实施例执行S5，包括：

S501，将S3中得到的单独模态内的图像的全局特征分别输入到S4中的特征嵌入网络E_{visual-global}、

和

中，得到图像的全局嵌入特征v_global-embed、图像的局部嵌入特征v_noun-embed和v_adj-embed。输入、输出关系为：

v_global-embed＝E_{visual-global}(v_global)

＝Linear_{visual-global}(Avgpool(block_4-global(v_global)))

v_noun-embed和v_adj-embed经过反卷积操作得到图像局部特征的类别预测x_noun和x_adj。后续将通过x_noun与x_adj和前述人体分割网络得到的分割掩码之间计算分割损失

和

S502，将S3中得到的单独模态内的文本的全局与局部特征输入到S4中的特征嵌入网络E_{textual-global}、

和

中，得到文本的全局嵌入特征t_global-embed、文本的局部嵌入特征t_noun-embed和t_adj-embed。输入输出关系为：

t＝E_{textual-global}(t_global)＝Linear_{textual-global}(t_global)

上述嵌入网络的输入输出公式中，block₄表示Resnet50的第四组大block，partname表示对应的人体部位(head\upperbody\lowerbody\shoes\backpack)，Avgpool代表经过平均池化操作，Maxpool代表经过最大池化操作，Linear代表经过全连接层操作。其中，全局和局部嵌入特征的维度都是256。

本实施例在局部特征的划分上，更充分地利用了文本信息。在现有技术根据人体部位划分局部特征的基础上，再根据不同词性的单词代表的语义不同，将局部信息划分为名词和形容词语义对应的两组，生成了更细粒度的基于不同身体部位和不同语义的局部特征。由于全局特征和局部特征的基础网络是共享的，因而通过反传优化迭代，局部特征的对齐可以辅助全局分支提取到更加对齐的跨模态全局嵌入特征。

基于上述S5，执行S6,利用损失之和L进行训练。

具体的，作为一优选实施例执行S6，包括：

整体损失函数为：

其中，L_global-align用于约束模态间全局嵌入特征的相似度，

和

分别约束模态间名词与形容词语义对应的局部嵌入特征的相似度，

和

用于保障提取到的图像局部嵌入特征与人体的五个身体部位相对应。λ₁和λ₂表示对应损失分量的权重，本实施例中λ₁取0.80，λ₂取0.65。

各对齐损失分量的表达式如下：

其中，N表示batch_size大小，本实施例中取64；τ_p和τ_n分别是调整正负样本对梯度坡度的温度参数，本实施例中所有τ_p均取10、所有τ_n均取40；S_i表示来自两个模态的嵌入特征的点积，上标"+"表示正样本对、上标"-"表示负样本对：

通过这五个损失函数的联合约束，增强对模型的约束，促使网络向着最优的方向收敛。

本发明提供一个具体的应用实施例，进行行人图像搜索。如图2所示，为本实施例的一种基于语义划分的视觉文本属性对齐的行人图像搜索方法原理示意图。采用的CUHK-PEDES数据集中有40206张图片(训练集34054张，验证集3078张，测试集3074张)、80440条自然语言文本描述(训练集68126条，验证集6158条，测试集6156条)，每张图片平均对应大约两条自然语言文本描述。

通过实验证明，本实施例方法能通过细粒度的的局部特征的划分辅助提取到了更加对齐的全局特征，提高了跨模态检索的准确率，表2和附图3为本实施例在CUHK-PEDES上与不同算法的性能对比。附图3以累计匹配特性(CMC)曲线作为表征，九条曲线从上到下代表的是本实施例方法和其它方法的性能。

表2

可以看出由本实施例得到的结果较大程度地提升了跨模态行人检索的性能。

综上，实施例方法在现有的根据人体部位划分局部特征的基础上，更加充分地利用到了文本中的语义信息，生成了更加细粒度的局部特征。充分利用局部特征之间的对应关系，辅助全局分支(由全局特征提取网络与全局特征嵌入网络构成)提取到更加对齐的全局跨模态嵌入特征。通过局部特征的对齐约束，辅助网络学到了更加对齐的整体特征；通过全局对齐损失、局部对齐损失和分割损失的联合约束，模型向最优的方向收敛，提高了基于自然语言描述搜索行人图像的检索性能。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下，可以任意组合使用。