CN117688197A

CN117688197A - 基于判别性特征学习与样本关系辅助的文本-行人图像检索方法

Info

Publication number: CN117688197A
Application number: CN202311605206.2A
Authority: CN
Inventors: 杨社丹; 许乐; 李华锋; 张亚飞
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-11-28
Filing date: 2023-11-28
Publication date: 2024-03-12

Abstract

本发明涉及基于判别性特征学习与样本关系辅助的文本‑行人图像检索方法，属行人重识别领域。本发明包括：获取文本描述和行人图像数据，并对图像进行预处理；构建特征提取网络，将预处理好的文本和行人图像分别送入各自模态的特征提取网络；构建判别性特征学习模块，在图像和文本原始特征中挖掘更多的判别性特征；构建样本关系辅助的特征表示模块，充分利用单模态内样本间的关系来优化特征表示；ViT和BERT分别提取的图像和文本特征输入判别性特征学习和样本关系辅助的特征表示模块，得到图像和文本的最终特征，使用图像和文本的最终特征进行跨模态检索。本发明通过挖掘身份判别性特征以及进行特征优化，提升了文本‑行人图像的检索性能。

Description

基于判别性特征学习与样本关系辅助的文本-行人图像检索方法

技术领域

本发明涉及基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，属于行人重识别技术领域。

背景技术

文本-行人图像检索是指利用文本描述来检索具有特定外观的行人图像。在某些场景下，无法获取可靠的待搜索对象视觉信息，比如在安防领域中搜索指定嫌疑人图像时，若没有犯罪分子的照片，只能根据目击证人的文本描述搜索可能的犯罪嫌疑人。这就需要算法和模型在训练中能对文本和视觉这两种信息进行恰当地处理，以求在只有文本作为检索信息的情况下，模型能够搜索到对应的行人图像。然而，现有方法仍存在一些问题，比如由于未精心设计特征提取网络，难以挖掘到图像和文本中更多利于身份判别的判别性特征，未考虑相同身份的文本描述多样性带来的干扰。针对以上问题，提出了基于判别性特征学习与样本关系辅助的文本-行人图像检索方法

发明内容

为了解决现有方法的不足，本发明针对现有方法对判别性特征提取不够深入，以及文本多样性对检索性能带来的扰动，提出了基于判别性特征学习与样本关系辅助的文本-行人图像检索方法。

本发明的技术方案是：基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，所述方法的具体步骤如下：

Step1：获取行人文本描述和行人图像数据，并对图像进行预处理；

Step2：构建文本和图像的特征提取网络，分别提取图像和文本的原始特征；

Step3：构建判别性特征学习模块，挖掘图像和文本之间深层的模态无关的身份相关信息，即判别性特征，提升特征的表达能力；

Step4：构建样本关系辅助的特征表示模块，利用同一batch内的样本特征来更新每个样本的特征表示，对特征进行优化，缓解相同身份行人的文本多样性带来的干扰；

Step5：训练特征提取网络、判别性特征学习模块和样本关系辅助的特征表示模块。所述Step5具体包括为：

Step51、利用Adam优化器对特征提取网络、判别性特征学习模块以及样本关系辅助的特征表示模块中的参数进行优化；

Step52、采用CMPM和CMPC损失函数优化图像和文本的特征提取网络，所述损失函数如下：

其中，和/>分别表示图像到文本的CMPM和CMPC损失函数，/>和/>分别表示文本到图像的CMPM和CMPC损失函数，v_i,c和t_i,c分别表示图像和文本特征提取网络输出特征V_i和T_i的class token特征。

Step53、采用L2损失函数和ID损失函数对判别性特征学习模块的参数进行优化，所述损失函数为：

其中，Avgpool表示平均池化，CE(·)为交叉熵损失函数，和/>分别表示特征/>和/>的class token特征，/>和/>分别表示特征/>和/>的class token特征。

Step54、训练特征提取网络、判别性特征学习模块以及样本关系辅助的特征表示模块时定义一个损失函数，该函数对整个网络的最终输出特征进行匹配约束，拉近图像和文本匹配对，以及推远图像和文本不匹配对。

采用CMPM和CMPC损失函数优化整个网络：

其中和/>分别表示图像到文本的CMPM和CMPC损失函数，/>和/>分别表示文本到图像的CMPM和CMPC损失函数。

总损失为：

Step6：训练好的特征提取网络分别提取的图像和文本特征输入训练好的判别性特征学习和样本关系辅助的特征表示模块，得到图像和文本的最终特征，使用图像和文本的最终特征进行跨模态检索。

进一步地，所述Step1中，将所有输入图像调整为224x224的大小，并采用随机水平翻转进行数据增强。

进一步地，所述Step2中的特征提取网络包括文本特征提取网络BERT和图像特征提取网络ViT，分别提取文本和图像原始特征。

进一步地，所述Step2中特征提取网络具体操作过程如下：

预处理好的行人图像v_i首先被划分为尺寸大小相等且互不重叠的n个图像块；对每个图像块进行向量化，再经过一个线性映射，然后与一个分类token拼接得到并将其作为ViT的输入；经过ViT后得到图像的输出特征记为d表示token的维度；

给定一个文本描述t_i，先将文本中的m个单词编码为one-hot向量，即独热编码向量，再经过单词嵌入变换得到文本表示，然后与文本分类token拼接得到将/>输入BERT得到的文本特征表示为

进一步地，所述Step3中，判别性特征学习模块包括两个部分的判别性特征学习，第一部分包括一条主路和两条支路，测试时采用两条支路，第二部分更深层地提取判别性特征。

进一步地，所述Step3中，判别性特征学习的第一部分具体操作步骤如下：

该模块包含一条主路和两条支路(图像支路和文本支路)，测试的时候只使用两条支路，其输入为图像编码器和文本编码器的输出特征V_i和T_i。

在主路中，图像特征和文本特征先经过一个反注意力模块得到共有信息和非共有信息，共有信息计算过程如下：

非共有信息计算过程如下：

非共有信息和/>分别经过transformer层E_v和E_t进一步提取判别性特征：

使用ID损失约束补充信息和/>使其具有较强的判别性。其中，W_Q,t、W_K,v、W_V,v、W_Q,v、W_K,t/>均表示线性映射矩阵；

在支路中，图像编码器的输出特征V_i和文本编码器的输出特征T_i分别经过transformer层，这里的transformer层与主路中的transformer层E_v和E_t参数共享，得到的特征加上原始特征即为该模块的输出：

进一步地，所述Step3中，判别性特征学习的第二部分具体操作步骤如下：

将中与/>输入一个反注意力模块，从/>中去除与/>相关的信息，得到的剩余信息为：

使用ID损失约束剩余信息和/>使其具有较强的判别性。

进一步地，所述Step4中，样本关系辅助的特征表示模块包括图像模态的特征表示和文本模态的特征表示，在训练阶段处理两个模态的特征时网络的参数共享，在推理阶段只对文本特征进行处理。

进一步地，所述Step4中，样本关系辅助的特征表示具体操作步骤如下：

以Setp3获得的输出特征中的分类token/>为输入，计算其与另一样本特征/> 之间的余弦相似度：

其中，为线性映射矩阵。

对于图像来说，权重为余弦相似度经过softmax后的结果；对于文本来说，若两个样本身份相同，权重为余弦相似度经过softmax后的结果，若两个样本身份不同，则权重为0。具体过程可公式化为：

其中，N为batch size，y_ti和y_tj分别为样本t_i和t_j的标签。

利用权重和/>对batch内所有样本进行加权和，得到结果即为优化后的图像和文本特征/>

其中，为线性映射矩阵。

本发明的有益效果是：

1、在文本-行人图像检索中，获取文本和图像的判别性特征是关键的，本发明采用预训练好的ViT和BERT分别提取图像和文本特征，ViT和BERT分别采用视觉信息和文本信息进行预训练，二者对于视觉特征和文本特征具有强大的提取能力，这利于后续特征的操作。

2、对于文本的视觉特征，仅仅通过各自的特征提取网络得到的特征中判别性信息不足，本发明加入的判别性特征学习模块，通过从非共有信息中进一步抽取判别性特征，来弥补判别性特征信息不足的缺陷，有力促进了模型挖掘判别性特征的能力，使提取到的特征具有更强的表达能力。

3、由于不同目击者的语言风格和观察视角存在差异，不同目击者描述同一个行人得到的文本描述存在多样性。现有多数方法并未考虑相同身份行人的文本描述多样性带来的影响，本发明提出样本关系辅助的特征表示模块，利用其它样本与当前样本间的关系对样本特征进行优化，有效解决了样本多样性对文本-行人图像检索带来的负面影响。

附图说明

图1为本发明方法的流程结构示意图；

图2为本发明方法的判别性特征学习模块结构图；

图3为本发明与不同方法的检索结果对比。

具体实施方式

实施例1：如图1-图3所示，基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，所述方法的具体步骤如下：

Step1：获取行人文本描述和行人图像数据，并对图像进行预处理：将所有输入图像调整为224x224的大小，并采用随机水平翻转进行数据增强。

所述Step2中的特征提取网络包括文本特征提取网络BERT和图像特征提取网络ViT，分别提取文本和图像原始特征。

所述Step2中特征提取网络具体操作过程如下：

所述Step3中，判别性特征学习模块包括两个部分的判别性特征学习，第一部分包括一条主路和两条支路，测试时采用两条支路，第二部分更深层地提取判别性特征。

所述Step3中，判别性特征学习的第一部分具体操作步骤如下：

非共有信息计算过程如下：

使用ID损失约束补充信息V_i ^c和T_i ^c，使其具有较强的判别性。其中，W_Q,t、W_K,v、W_V,v、W_Q,v、W_K,t 均表示线性映射矩阵；

所述Step3中，判别性特征学习的第二部分具体操作步骤如下：

使用ID损失约束剩余信息和/>使其具有较强的判别性。

所述Step4中，样本关系辅助的特征表示模块包括图像模态的特征表示和文本模态的特征表示，在训练阶段处理两个模态的特征时网络的参数共享，在推理阶段只对文本特征进行处理。

所述Step4中，样本关系辅助的特征表示具体操作步骤如下：

其中，为线性映射矩阵。

其中，N为batch size，y_ti和y_tj分别为样本t_i和t_j的标签。

其中，为线性映射矩阵。

Step5：训练特征提取网络、判别性特征学习模块和样本关系辅助的特征表示模块，所述Step5具体包括为：

采用CMPM和CMPC损失函数优化整个网络：

总损失为：

进一步地，为验证本发明方法的有效性，在CUHK-PEDES数据集上评估了提出方法的性能，该数据集包含了13003个行人的40206张图片和80412条文字描述。每张图片都有人工标注的两条文本描述，而每条文本描述的平均长度都不少于23个词。按照数据集划分规则，该数据集可划分为训练集、验证集和测试集。本发明算法是在Pytorch框架下开发的，并在一张NVIDIAGTX3090显卡上进行了训练。在训练中，我们使用Adam优化器来对模型进行参数优化。在此过程中，batch size设置为32，特征提取网络的学习率设置为0.00001，其他模块的学习率设置为0.0001。学习率采用余弦退火算法进行调整，warmup设置为10，学习率分别在20、30和40轮按0.1的衰减率衰减，总共训练了60轮。

进一步地，本发明采用Rank-K(Rank-K，数值越高越好)的召回率以及mAP(meanAverage Precision)作为衡量不同方法检索性能的指标。Rank-K指标表示在给定查询条件下，模型能够在前K个检索结果中正确地匹配到查询样本的能力。在评估过程中，报告了Rank-1、Rank-5和Rank-10的准确性。mAP(mean Average Precision)值越大，表示检索性能越好。

进一步地，在CUHK-PEDES数据集上，本发明方法和LGUR，IVT，CFine，IRRA、APTM和RaSa等文本-行人图像检索方法进行了性能比较，实验结果如表1所示。从此可以看出，本发明方法在准确率Rank-1、Rank-5和Rank-10上分别达到了77.24％，93.71％和96.98％，mAP值达到了73.48％。这证明了本发明方法在文本-行人图像检索任务上的有效性。

表1为不同方法在CUHK-PEDES数据集上的客观评价比较

进一步地，本发明与Baseline检索结果进行了视觉效果对比，如图3所示。Baseline方法是指采用ViT和BERT提取图像和文本特征，用获得的特征进行检索。图中展示了4个检索案例，每个案例的左边和右边分别表示Baseline方法和本发明方法根据同一查询文本得到的检索结果，图像上的绿框表示正确检索结果，红框表示错误检索结果。由此可以看出，提出的方法可以更加准确地检索到更多正确的匹配结果，而Baseline方法的检索结果中正确匹配结果较少。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，其特征在于：所述方法的具体步骤如下：

Step3：构建判别性特征学习模块，挖掘图像和文本之间深层的模态无关的身份相关信息，及判别性特征，提升特征的表达能力；

Step5：训练特征提取网络、判别性特征学习模块和样本关系辅助的特征表示模块；

2.根据权利要求1所述的基于判别性特征学***翻转进行数据增强。

3.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，其特征在于，所述Step2中的特征提取网络包括文本特征提取网络BERT和图像特征提取网络ViT，分别提取文本和图像原始特征。

4.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，其特征在于，所述Step2中特征提取网络具体操作过程如下：

预处理好的行人图像v_i首先被划分为尺寸大小相等且互不重叠的n个图像块；对每个图像块进行向量化，再经过一个线性映射，然后与一个分类拼接得到并将其作为ViT的输入；经过ViT后得到图像的输出特征记为d表示token的维度；

给定一个文本描述t_i，先将文本中的m个单词编码为one-hot向量，即独热编码向量，再经过单词嵌入变换得到文本表示，然后与文本分类拼接得到将/>输入BERT得到的文本特征表示为/>

5.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，其特征在于，所述Step3中，判别性特征学习模块包括两个部分的判别性特征学习，第一部分包括一条主路和两条支路，测试时采用两条支路，第二部分更深层地提取判别性特征。

6.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，其特征在于，所述Step3中，判别性特征学习的第一部分具体操作步骤如下：

判别性特征学习模块包含一条主路和两条支路，即图像支路和文本支路，测试的时候只使用两条支路，其输入为图像编码器和文本编码器的输出特征V_i和T_i；

非共有信息计算过程如下：

使用ID损失约束补充信息V_i ^c和T_i ^c，使其具有较强的判别性；其中，W_Q,t、W_K,v、W_V,v、W_Q,v、均表示线性映射矩阵；

在支路中，图像编码器的输出特征V_i和文本编码器的输出特征T_i分别经过transformer层，这里的transformer层与主路中的transformer层E_v和E_t参数共享，得到的特征加上原始特征即为判别性特征学习模块的输出：

V_i ^o＝E_v(V_i)+V_i

T_i ^o＝E_t(T_i)+T_i。

7.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，其特征在于，所述Step3中，判别性特征学习的第二部分具体操作步骤如下：

将V_i ^o(T_i ^o)与V_i ^c(T_i ^c)输入一个反注意力模块，从V_i ^o(T_i ^o)中去除与V_i ^c(T_i ^c)相关的信息，得到的剩余信息为：

使用ID损失约束剩余信息V_i ^r和T_i ^r，使其具有较强的判别性。

8.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，其特征在于，所述Step4中，样本关系辅助的特征表示模块包括图像模态的特征表示和文本模态的特征表示，在训练阶段处理两个模态的特征时网络的参数共享，在推理阶段只对文本特征进行处理。

9.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，其特征在于，所述Step4中，样本关系辅助的特征表示具体操作步骤如下：

以Setp3获得的输出特征V_i ^o，T_i ^o中的分类token为输入，计算其与另一样本特征之间的余弦相似度：

其中，为线性映射矩阵；

对于图像来说，权重为余弦相似度经过softmax后的结果；对于文本来说，若两个样本身份相同，权重为余弦相似度经过softmax后的结果，若两个样本身份不同，则权重为0；具体过程公式化为：

其中，N为batch size，y_ti和y_tj分别为样本t_i和t_j的标签；

其中，为线性映射矩阵。

10.根据权利要求1所述的基于判别性特征学习与样本关系辅助的文本-行人图像检索方法，其特征在于，所述Step5具体包括为：

其中，和/>分别表示图像到文本的CMPM和CMPC损失函数，/>和/>分别表示文本到图像的CMPM和CMPC损失函数，v_i,c和t_i,c分别表示图像和文本特征提取网络输出特征V_i和T_i的class token特征；

其中，Avgpool表示平均池化，CE(·)为交叉熵损失函数，和/>分别表示特征V_i ^c和T_i ^c的class token特征，/>和/>分别表示特征V_i ^r和T_i ^r的class token特征；

Step54、训练特征提取网络、判别性特征学习模块以及样本关系辅助的特征表示模块时定义一个损失函数，该函数对整个网络的最终输出特征进行匹配约束，拉近图像和文本匹配对，以及推远图像和文本不匹配对；

采用CMPM和CMPC损失函数优化整个网络：

其中和/>分别表示图像到文本的CMPM和CMPC损失函数，/>和/>分别表示文本到图像的CMPM和CMPC损失函数；

总损失为：