CN112001279B

CN112001279B - 基于双重属性信息的跨模态行人重识别方法

Info

Publication number: CN112001279B
Application number: CN202010805183.XA
Authority: CN
Inventors: 高赞; 陈琳; 宋雪萌; 王英龙; 聂礼强
Original assignee: Shandong Institute of Artificial Intelligence
Current assignee: Shandong Institute of Artificial Intelligence
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2022-02-01
Anticipated expiration: 2040-08-12
Also published as: CN112001279A; NL2028092A; NL2028092B1

Abstract

一种基于双重属性信息的跨模态行人重识别方法，通过基于双重属性信息的跨模态行人重识别方法，充分利用两个模态的数据所提取到丰富的语义信息，提供了一种基于文本属性和图像属性的双重属性空间构建和属性融合算法，通过构建基于隐空间和属性空间的跨模态行人重识别端到端网络提高了模型所提取特征的语义表达性。针对解决跨模态图文行人重识别问题提出了一个新的、基于隐空间和属性空间的跨模态行人重识别端到端网络，大幅度提高了所提取特征的语义表达性，对行人属性信息的应用更加充分。

Description

基于双重属性信息的跨模态行人重识别方法

技术领域

本发明涉及计算机视觉及深度学习领域，具体涉及一种基于双重属性信息的跨模态行人重识别方法。

背景技术

在信息化时代，视频监控在维护公共安全方面发挥了不可取代的作用，行人重识别是视频监控场景下的一个重要子任务，其旨在不同的监控摄像头产生的图像数据中找到属于同一个行人的照片。公共安全监控设施的应用区域越来越广泛，产生了海量的图像数据，如何在海量的图像数据中快速又准确地找到目标人物是计算机视觉领域的研究热点，但是在一些特定的紧急场景下，人们无法及时提供与所寻找的行人相匹配的图片作为检索的依据，只能提供口头描述，因此催生了基于文本描述的跨模态行人重识别这一任务。

跨模态行人重识别是指根据对行人的自然语言描述，在图片库中找到最符合文本描述信息的图片。随着深度学习技术的发展及其在不同任务中取得的优越性能，针对跨模态行人重识别任务，研究者们已经提出了一些深度学习相关跨模态人体重识别算法，它们大致可以分为：1)计算语义亲密度值法，计算图片和文本之间语义关联的亲密度值，提高相同类的图文亲密度，降低不同类的图文亲密度；2)子空间法，该方法致力于为图片和文本建立共同的特征表达空间，并在这个共同的空间中使用度量学习策略拉近属于相同行人id的图文特征之间的距离，拉远属于不同行人id的图文特征之间的距离。然而，这些方法所提取特征的语义表达性还有待提高，它们忽略了利用行人的属性信息来表现语义概念是否有效，或考虑的不够充分。

发明内容

本发明为了克服以上技术的不足，提供了一种基于文本属性和图像属性的双重属性空间构建和属性融合算法的跨模态行人重识别的方法。

本发明克服其技术问题所采用的技术方案是：

一种基于双重属性信息的跨模态行人重识别方法，包括如下步骤：

a)将监控摄像头所拍摄的内容中提取行人文本描述特征T和行人的图片特征I；

b)对提取的行人文本描述中提取出文本属性特征c_T，对提取的图片提取出图片属性特征c_I；

c)将步骤a)中的行人文本描述特征和行人的图片特征输入到共享子空间中并计算难样本三元组损失函数，通过Softmax损失函数计算得到共享子空间中特征的分类损失；

d)将行人文本描述特征T和行人的图片特征I与文本属性c_T和图片属性c_I进行特征融合；

e)基于属性信息构建特征属性空间；

f)对提取的图片的特征及行人文本描述特征进行检索匹配。

进一步的，步骤a)中提取行人文本描述包括如下步骤：

a-1.1)对监控摄像头所拍摄的内容的描述语句分词后建立词频表；

a-1.2)过滤掉词频表中的低频词语；

a-1.3)对词频表中的单词的编码使用one-hot进行编码；

a-1.4)使用双向LSTM模型进行行人文本描述的特征提取。

进一步的，步骤a)中提取图片包括如下步骤：

a-2.1)使用在ImageNet数据集上完成预训练的ResNet网络进行图片特征提取；

a-2.2)对提取的图片进行语义分割，使用与步骤a-2.1)相同的ResNet网络对语义分割后的结果图片进行特征提取。

进一步的，步骤b)的提取步骤如下：

b-1)使用NLTK工具库对行人文本描述的数据进行预处理，提取出形容词加名词、多个名词叠加两种格式的名词词组；

b-2)将提取的名词词组按照词频进行排序，将低频词组舍弃，保留排名前400的名词词组组成属性表，得到文本属性c_T；

b-3)将图片使用PA-100K数据集训练，得到26种预测值，将预测值大于0的的图片的属性标记为1，将预测值小于0的图片的属性标记为0，得到图片属性c_I。进一步的，步骤c)包括如下步骤：

c-1)通过公式

计算得到难样本三元组损失L_trip(I,T)，式中I_k为第k个图片的特征，将I_k作为锚，

为与锚I_k距离最近的异类文本样本特征，

为与锚I_k距离最远的同类文本样本特征，T_k为第k个行人文本描述特征，将T_k作为锚，

为与锚T_k距离最近的异类文本样本特征，

为与锚T_k距离最远的同类文本样本特征，ρ₁为三元组损失的边界，S()为余弦相似度计算；

c-2)通过公式

计算

与

之间的余弦相似度，式中

为第k个图片的共享子空间特征，

为第k个行人文本描述的共享子空间特征；

c-3)通过公式

计算共享子空间图片特征I_k的分类损失L_cls(I_k)，式中

为转置后的共享子空间中的图片特征，式中W为分类器，W∈R^dl×C，dl为共享子空间中的特征维度，C为行人身份信息类别数目，yk为

的身份信息，b为偏置向量，

为第j类的分类向量，b_j为第j类的偏置值，

为对应的第yk类的分类向量，b_yk为第yk类的偏置值，通过公式

计算共享子空间行人文本描述特征T_k的分类损失函数L_cls(T_k)，

为转置后的共享子空间中的文本特征；

c-4)通过公式

计算共享子空间的的损失函数L_latent(I,T)，n为一个batch中样本数。

进一步的，步骤d)包括如下特征：

d-1)通过公式

计算损失函数L_coral(I,T)，图片特征I由

组成，行人文本描述特征T由

组成，式中|v|表示

和

的维度，||·||_F为Frobenius范数；

d-2)通过公式t＝sigmoid(C×U_g+F×U_f)计算属性特征和图片或文本特征在特征融合时的权重，式中C为待融合的属性特征，F为待融合的图片或文本特征，U_g与U_f为投影矩阵，式中t为投影结果相加后经过sigmoid函数得到特征融合时的权重，U_g∈R^s×da，U_f∈R^da×da为投影矩阵，s为图片属性或文本属性的类别数，da为属性空间的特征维度；

d-3)通过公式A＝t*||C×W_g||₂+(1-t)*||F×W_f||₂计算融合后的特征A，式中W_g∈R^s×da，W_f∈R^da×da为投影矩阵。

进一步的，步骤e)包括如下特征：

e-1)通过公式

计算属性空间的三元损失L_a-trip(I,T)，式中ρ₂为三元组损失边界，S_a()为cosine相似度计算，

为第k个属性空间中的图片的特征，将

作为锚，

为与锚

距离最近的异类文本样本特征，

为与锚

距离最远的同类文本样本特征，

为第k个属性空间中的行人文本描述特征，将

作为锚，

为与锚

距离最近的异类文本样本特征，

为与锚

距离最远的同类文本样本特征；

e-2)通过公式

计算

和

的余弦相似度，式中

和

均为属性空间中融合属性信息后的具有语义信息的图文特征；

e-3)通过公式

计算属性空间中的损失函数L_attr(I,T)。

进一步的，步骤f)包括如下特征：

f-1)通过公式L(I,T)＝L_latent(I,T)+L_attr(I,T)计算双重属性网络的损失函数L(I,T)；

f-2)通过公式

计算双重属性的相似度A(I_k,T_k)，式中A_l为共享子空间中学到的特征

所计算出的相似度，A_C为属性空间中学到的特征

所计算的相似度；

f-3)根据相似度A(I_k,T_k)计算跨模态匹配的准确率。

本发明的有益效果是：通过基于双重属性信息的跨模态行人重识别方法，充分利用两个模态的数据所提取到丰富的语义信息，提供了一种基于文本属性和图像属性的双重属性空间构建和属性融合算法，通过构建基于隐空间和属性空间的跨模态行人重识别端到端网络提高了模型所提取特征的语义表达性。针对解决跨模态图文行人重识别问题提出了一个新的、基于隐空间和属性空间的跨模态行人重识别端到端网络，大幅度提高了所提取特征的语义表达性，对行人属性信息的应用更加充分。

附图说明

图1为本发明的流程图；

图2为本发明的模型训练过程中的损失函数的变化图；

图3为CUHK-PEDES数据集上本发明的方法与现有方法在Top-k上的对比图。

具体实施方式

下面结合附图1、附图2、附图3对本发明做进一步说明。

如附图1所示，一种基于双重属性信息的跨模态行人重识别方法，包括如下步骤：

a)将监控摄像头所拍摄的内容中提取行人文本描述特征T和行人的图片特征I。本发明致力于将现实场景中监控摄像头所拍摄的行人图片及相应的行人文本描述之间建立语义关联，需要先分别提取两种模态的数据的特征表示，其中，图片特征的提取使用了当下流行的卷积神经网络ResNet完成，文本特征的提取使用了双向LSTM，可以充分获取文本的上下文信息。

b)对提取的行人文本描述中提取出文本属性特征c_T，对提取的图片提取出图片属性特征c_I。本发明针对现有方法对于属性信息的使用不够充分导致特征的语义表达性不强的问题，设计使用行人属性信息作为辅助信息来提高图文特征的语义表达性。行人图片的属性提取使用了先前工作中比较稳定的行人图片属性提取模型；行人文本的属性则来源于数据集中的统计信息，本发明将数据集中词频较高的名词短语作为行人的文本属性。

c)将步骤a)中的行人文本描述特征和行人的图片特征输入到共享子空间中并计算难样本三元组损失函数，通过Softmax损失函数计算得到共享子空间中特征的分类损失。投影到共同向量空间是解决跨模态检索问题的常见做法，在共享向量空间中可以建立两个模态的数据之间的关联。本发明将提取到的图文特征投影到共同的向量子空间中，利用度量学习的方法使得具有相同行人信息的图文特征之间的距离更近，而不属于同一行人的图文特征之间的距离更远，本发明利用难样本三元组损失来达到以上目的，即在一个批数据中，需要找到跟锚数据距离最近的另一个模态的异类样本和距离最远的另一个模态的同类样本。

d)将行人文本描述特征T和行人的图片特征I与文本属性c_T和图片属性c_I进行特征融合。现存的方法对于属性信息起到的辅助作用利用不够充分或者仅利用了一种模态的属性信息，导致模型可提取特征的语义表达性不够强，为了解决此问题，本发明利用了提取到的图文的双重属性信息。考虑到不同属性在行人图文匹配时所发挥的作用的重要程度不同，本发明使用了权重机制来使得特征融合时起到关键作用的语义信息发挥更大的作用。本发明利用矩阵投影的策略将待融合的图文特征和属性特征投影到相同的维度空间中，然后将两种特征加权即得到融合了语义信息的行人图文特征。在特征融合之前，为了避免两种模态的特征分布存在较大差异，本发明使用了跨域学习中常用的损失函数coral损失来拉近两种模态的数据之间的分布。

e)基于属性信息构建特征属性空间，融合了语义信息的图文特征同样被送入共享子空间中，本发明称为属性空间。本发明默认具有相同行人信息的图文特征具有相同的语义含义，在属性空间中本发明依然使用难样本三元组损失建立不同模态的行人图文特征之间的语义联系。

f)对提取的图片的特征及行人文本描述特征进行检索匹配。本发明最终提取的图文特征分为两部分，一部分是隐空间中提取的特征，另一部分是属性空间中提取的特征。对提取的模型特征进行检索匹配时，使用cosine距离来计算两个模型特征在特征空间的距离，以此对其相似度进行度量。为了让隐空间中学到的行人身份信息以及属性空间中学到的行人语义信息起到互补作用，本发明将两部分特征的相似度矩阵相加后再排序。

本发明为解决现有的跨模态行人重识别方法无法有效利用行人属性信息作为辅助信息来提高图文特征语义表达性的问题，提供了一种高效的基于双重属性信息的跨模态行人重识别方法，充分利用两个模态的数据所提取到丰富的语义信息，提供了一种基于文本属性和图像属性的双重属性空间构建和属性融合算法，通过构建基于隐空间和属性空间的跨模态行人重识别端到端网络提高了模型所提取特征的语义表达性。针对解决跨模态图文行人重识别问题提出了一个新的、基于隐空间和属性空间的跨模态行人重识别端到端网络，大幅度提高了所提取特征的语义表达性，对行人属性信息的应用更加充分。

实施例1：

步骤a)中提取行人文本描述包括如下步骤：

a-1.1)本发明在对行人文本进行特征提取时，先对文本信息进行了预处理，即对监控摄像头所拍摄的内容的描述语句分词后建立词频表。

a-1.2)过滤掉词频表中的低频词语。

a-1.3)对词频表中的单词的编码使用one-hot进行编码。

a-1.4)使用双向LSTM模型进行行人文本描述的特征提取。双向LSTM模型可以充分考虑每个单词的上下文，使得学习到的文本特征更加丰富。

步骤a)中提取图片包括如下步骤：

实施例2：

针对行人图片属性识别已有许多工作，且取得了不错的效果，本发明选择使用了较稳定的行人属性识别模型，提取出了数据集中行人图片所含的属性及可能性值，步骤b)的提取步骤如下：

b-3)将图片使用PA-100K数据集训练，得到26种预测值，将预测值大于0的的图片的属性标记为1，将预测值小于0的图片的属性标记为0，得到图片属性c_I。

实施例3：

本发明使用了跨模态行人重识别领域常用的共享子空间法来建立两个模态的特征向量之间的关联，隐空间的设置是为了使得行人的图片特征和文本特征都具有行人id的可分性以及图文特征间具有基本的语义关联。本发明考虑到在跨模态行人图文检索中，同一个行人id对应着多张图片和多个相应的文本描述，因此损失函数的设计目标在于拉近同属于一个行人id的图片和文本描述之间的距离，拉远不属于同一个行人id的图片和文本的距离。具体地，令其中一种模态中的数据作为锚，取另一种模态中的跟锚属于同一类的数据作为正样本，跟锚属于不同类的数据作为负样本。这样不仅起到了分类的作用，还在一定程度上使得不同模态中具有相同语义的图片和文本描述之间形成了对应，在实验中默认同一个行人的图片和文本描述具有相同的语义信息。步骤c)包括如下步骤：c-1)通过公式

为与锚I_k距离最近的异类文本样本特征，

为与锚T_k距离最近的异类文本样本特征，

c-2)通过公式

计算

与

之间的余弦相似度，式中

为第k个图片的共享子空间特征，

为第k个行人文本描述的共享子空间特征；

c-3)通过公式

计算共享子空间图片特征I_k的分类损失L_cls(I_k)，式中

的身份信息，b为偏置向量，

为第j类的分类向量，b_j为第j类的偏置值，

为转置后的共享子空间中的文本特征；

c-4)通过公式

实施例4：

在图文特征与属性特征融合之前，为了避免两种模态的数据分布差异过大，本发明使用了迁移学习中的coral函数来拉近两种模态的数据之间的距离，具体的步骤d)包括如下特征：

d-1)通过公式

计算损失函数L_coral(I,T)，图片特征I由

组成，行人文本描述特征T由

组成，式中|v|表示

和

的维度，||·||_F为Frobenius范数；

实施例5：

隐空间中对特征使用三元组损失来使图片特征和文本特征之间建立联系，属性空间中对于融合了语义信息的特征也使用了难样本三元组损失使不同模态的特征之间建立语义联系。因此步骤e)包括如下特征：

e-1)通过公式

为第k个属性空间中的图片的特征，将

作为锚，

为与锚

距离最近的异类文本样本特征，

为与锚

距离最远的同类文本样本特征，

为第k个属性空间中的行人文本描述特征，将

作为锚，

为与锚

距离最近的异类文本样本特征，

为与锚

距离最远的同类文本样本特征；

e-2)通过公式

计算

和

的余弦相似度，式中

和

e-3)通过公式

计算属性空间中的损失函数L_attr(I,T)。

实施例6：

在模型学习的过程中，隐空间和属性空间的训练同时进行，步骤f)包括如下特征：

f-1)通过公式L(I,T)＝L_latent(I,T)+L_attr(I,T)计算双重属性网络的损失函数L(I,T)。如附图2所示，训练过程中三部分损失函数的变化曲线大致一致，证明了本发明的可应用性与合理性。

f-2)在测试过程中，为了让隐空间中学到的行人身份信息和属性空间中学到的行人语义信息起到互补作用，因此通过公式

所计算出的相似度，A_C为属性空间中学到的特征

所计算的相似度。

f-3)根据最终得到的相似度A(I_k,T_k)计算跨模态匹配的准确率，经过验证，如附图3所示本发明所采用的方法比表中列出的现有的5种方法在性能方面有了显著的提高。

以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于双重属性信息的跨模态行人重识别方法，其特征在于，包括如下步骤：

e)基于属性信息构建特征属性空间；

f)对提取的图片的特征及行人文本描述特征进行检索匹配；

步骤b)的提取步骤如下：

b-3)将图片使用PA-100K数据集训练，得到26种预测值，将预测值大于0的的图片的属性标记为1，将预测值小于0的图片的属性标记为0，得到图片属性c_I；步骤c)包括如下步骤：

c-1)通过公式

为与锚I_k距离最近的异类文本样本特征，

为与锚T_k距离最近的异类文本样本特征，

c-2)通过公式

计算

与

之间的余弦相似度，式中

为第k个图片的共享子空间特征，

为第k个行人文本描述的共享子空间特征；

c-3)通过公式

计算共享子空间图片特征I_k的分类损失L_cls(I_k)，式中

的身份信息，b为偏置向量，

为第j类的分类向量，b_j为第j类的偏置值，

为转置后的共享子空间中的文本特征；

c-4)通过公式

计算共享子空间的的损失函数L_latent(I,T)，n为一个batch中样本数；

步骤d)包括如下特征：

d-1)通过公式

计算损失函数L_coral(I,T)，图片特征I由

组成，行人文本描述特征T由

组成，式中|v|表示

和

的维度，||·||_F为Frobenius范数；

d-3)通过公式A＝t*||C×W_g||₂+(1-t)*||F×W_f||₂计算融合后的特征A，式中W_g∈R^s×da，W_f∈R^da×da为投影矩阵；

步骤e)包括如下特征：

e-1)通过公式

为第k个属性空间中的图片的特征，将

作为锚，

为与锚

距离最近的异类文本样本特征，

为与锚

距离最远的同类文本样本特征，

为第k个属性空间中的行人文本描述特征，将

作为锚，

为与锚

距离最近的异类文本样本特征，

为与锚

距离最远的同类文本样本特征；

e-2)通过公式

计算

和

的余弦相似度，式中

和

e-3)通过公式

计算属性空间中的损失函数L_attr(I,T)。

2.根据权利要求1所述的基于双重属性信息的跨模态行人重识别方法，其特征在于，步骤a)中提取行人文本描述包括如下步骤：

a-1.2)过滤掉词频表中的低频词语；

a-1.3)对词频表中的单词的编码使用one-hot进行编码；

a-1.4)使用双向LSTM模型进行行人文本描述的特征提取。

3.根据权利要求1所述的基于双重属性信息的跨模态行人重识别方法，其特征在于，步骤a)中提取图片包括如下步骤：

4.根据权利要求1所述的基于双重属性信息的跨模态行人重识别方法，其特征在于，步骤f)包括如下特征：

f-2)通过公式

所计算出的相似度，A_C为属性空间中学到的特征

所计算的相似度；

f-3)根据相似度A(I_k,T_k)计算跨模态匹配的准确率。