CN114565807A

CN114565807A - 训练目标图像检索模型的方法和装置

Info

Publication number: CN114565807A
Application number: CN202210202436.3A
Authority: CN
Inventors: 张斌杰; 葛艺潇; 苏树鹏; 徐叙远; 王烨鑫; 单瀛
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2022-05-31

Abstract

本申请公开了训练目标图像检索模型的方法及相应的装置、计算设备、存储介质、和计算机程序产品。该方法用于使经训练的目标图像检索模型相对于原始图像检索模型具备后向兼容性。该方法包括：获取样本图像数据和标签；将样本图像数据输入到原始模型中，以得到对应的第一特征向量；对第一特征向量进行类别表征操作，以确定类别表征结果；将样本图像数据输入到目标模型，以得到对应的第二特征向量；将第二特征向量输入到目标模型的目标分类器，以得到目标预测分类结果；基于第二特征向量、第一特征向量的类别表征结果、标签和目标预测分类结果，确定目标模型的综合损失函数；基于综合损失函数更新目标模型的参数，使得目标模型达到收敛，以完成训练。

Description

训练目标图像检索模型的方法和装置

技术领域

本申请涉及图像检索的技术领域，尤其涉及一种训练目标图像检索模型的方法和装置、以及相应的计算设备、存储介质、和计算机程序产品。

背景技术

在图像检索（包括但不限于基于相似度的图像检测、图像内容识别等）领域中，通常涉及待查询图像和图像库内候选图像的特征提取和比较。也即，待查询图像的特征和候选图像的特征之间的比较应当能够反映出待查询图像和候选图像的内容相似度。对特征的这种要求可以简称为特征的可比性。

图像检索***的升级包括特征提取模型的更新。更新后的特征提取模型（在本文中有时简称为新模型，对应的，更新前的特征提取模型有时简称为旧模型）所提取的特征将更准确地反映图像的内容。一般认为，用同一个特征提取模型提取的多个图像的特征之间具备可比性。因此，在常规技术中，为了保持这种可比性，在特征提取模型更新后，可以利用更新后的特征提取模型对图像库内的所有候选图像重新提取特征，并使新提取的特征覆盖掉旧的特征（这种获得可比性的方式简称为特征升级覆盖）。这样，待查询图像的特征和候选图像的特征将均由更新后的特征提取模型提取，一定程度上有利于特征的可比性。但是，考虑到实际应用场景中，候选图像可能达到亿级规模，这种重新提取特征的过程将极其耗时且费用高昂。

为了避免特征升级覆盖带来的额外成本，另一种获得可比性的方式是以“后向兼容表征学习”方式训练更新的模型。通过这种训练方式，更新后的特征提取模型提取的待查询图像的特征与更新前的特征提取模型提取的候选图像的特征具有一定的可比性，从而初步实现后向兼容的效果。然而，在常规技术中，“后向兼容表征学习”方式仅适用于有限的场景。例如，这种训练方式严重依赖旧模型的训练集（即，训练样本的集合），其要求新模型的训练集包含旧模型的训练集。从集合的概念来讲，这要求旧模型的训练集是新模型的训练集的真子集。总之，目前，“后向兼容表征学习”受到的约束较大，可应用的场景非常有限。

发明内容

有鉴于此，本申请提供了训练目标图像检索模型的方法和装置、以及相应的计算设备、存储介质、和计算机程序产品，期望克服上面提到的部分或全部缺陷以及其它可能的缺陷。

根据本申请的一方面，提供了一种训练目标图像检索模型的方法，用于使经训练的目标图像检索模型相对于原始图像检索模型具备后向兼容性，其特征在于，该方法包括：获取用于训练该目标图像检索模型的样本图像数据和标签；将该样本图像数据输入到该原始图像检索模型中，以得到该样本图像数据对应的第一特征向量；对该第一特征向量进行类别表征操作，以确定该第一特征向量的类别表征结果；将该样本图像数据输入到该目标图像检索模型，以得到该样本图像数据对应的第二特征向量；将该第二特征向量输入到该目标图像检索模型的目标分类器，以得到目标预测分类结果；基于每个样本图像数据对应的该第二特征向量、该第一特征向量的类别表征结果、该标签和该目标预测分类结果，确定该目标图像检索模型的综合损失函数；基于该综合损失函数更新该目标图像检索模型的参数，使得该目标图像检索模型达到收敛，以完成该目标图像检索模型的训练。

在一些实施例中，该综合损失函数由后向兼容损失函数和分类损失函数构建，并且，基于每个样本图像数据对应的该第二特征向量、该第一特征向量的类别表征结果、该标签和该目标预测分类结果，确定该目标图像检索模型的综合损失函数包括：基于该第二特征向量和该第一特征向量的类别表征结果，确定该目标图像检索模型的后向兼容损失函数；以及，基于该标签和该目标预测分类结果，确定该目标图像检索模型的分类损失函数。

在一些实施例中，对该第一特征向量进行类别表征操作包括：基于所述标签，对该第一特征向量进行分类操作，以及确定每类第一特征向量的类中心向量，作为该第一特征向量的类别表征结果；并且，基于该第二特征向量和该第一特征向量的类别表征结果，确定该目标图像检索模型的后向兼容损失函数包括：确定每个样本图像数据对应的该第二特征向量与该第一特征向量的类中心向量的相似度；以及，基于该相似度，确定该目标图像检索模型的后向兼容损失函数。

在一些实施例中，确定每类第一特征向量的类中心向量包括：将属于同一类的第一特征向量拼接成特征向量矩阵；将属于同一类的第一特征向量各自对应的第二特征向量之间的相似度构成对称矩阵；对该对称矩阵进行归一化操作，以得到转移矩阵；通过该特征向量矩阵和该转移矩阵，确定经调节的第一特征向量；确定该经调节的第一特征向量的类中心向量，作为每类第一特征向量的类中心向量。

在一些实施例中，通过该特征向量矩阵和该转移矩阵，确定该经调节的第一特征向量包括：通过该转移矩阵对该特征向量矩阵进行至少一次乘法运算，以得到迭代矩阵；以及对该迭代矩阵和该特征向量矩阵进行加权求和处理，以得到由该经调节的第一特征向量构成的调节矩阵，从而得到该经调节的第一特征向量。

在一些实施例中，对该迭代矩阵和该特征向量矩阵进行加权求和处理包括：对该迭代矩阵赋予λ的权重，对该特征向量矩阵赋予1-λ的权重，并进行加法运算，其中λ的范围是0.85-0.95。

在一些实施例中，通过该特征向量矩阵和该转移矩阵，确定经调节的第一特征向量包括：按照公式

确定该调节矩阵，从而得到该经调节的第一特征向量，其中V表示调节矩阵，其中

表示该特征向量矩阵，

表示该转移矩阵，I表示单位矩阵。

在一些实施例中，获取用于训练该目标图像检索模型的样本图像数据和标签包括：确定该样本图像数据的类别属于用于训练该原始图像检索模型的原始样本图像数据的类别；并且，对该第一特征向量进行类别表征操作，以确定该第一特征向量的类别表征结果包括：将该第一特征向量输入到该原始图像检索模型的原始分类器，以得到第一原始分类结果，作为该第一特征向量的类别表征结果；并且，该方法还包括：将该第二特征向量输入到该原始图像检索模型的该原始分类器，以得到第二原始分类结果；并且，基于每个样本图像数据对应的该第二特征向量、该第一特征向量的类别表征结果、该标签和该目标预测分类结果，确定该目标图像检索模型的综合损失函数包括：基于每个样本图像数据对应的该第二原始分类结果、该第一原始分类结果、该标签和该目标预测分类结果，确定该目标图像检索模型的该综合损失函数。

在一些实施例中，该综合损失函数由后向兼容损失函数和分类损失函数构建，并且，基于每个样本图像数据对应的该第二原始分类结果、该第一原始分类结果、该标签和该目标预测分类结果，确定该目标图像检索模型的该综合损失函数包括：基于该第二原始分类结果和该第一原始分类结果，确定该目标图像检索模型的后向兼容损失函数；以及，基于该标签和该目标预测分类结果，确定该目标图像检索模型的分类损失函数。

在一些实施例中，该后向兼容损失函数和该分类损失函数都采用ArcFace函数。

根据本发明的另一方面，提供了一种训练目标图像检索模型的装置，用于使经训练的目标图像检索模型相对于原始图像检索模型具备后向兼容性。该装置包括：样本图像数据和标签获取模块，其配置成获取用于训练该目标图像检索模型的样本图像数据和标签；第一特征向量确定模块，其配置成将该样本图像数据输入到该原始图像检索模型中，以得到该样本图像数据对应的第一特征向量；类别表征模块，其配置成对该第一特征向量进行类别表征操作，以确定该第一特征向量的类别表征结果；第二特征向量确定模块，其配置成将该样本图像数据输入到该目标图像检索模型，以得到该样本图像数据对应的第二特征向量；目标预测分类模块，其配置成将该第二特征向量输入到该目标图像检索模型的目标分类器，以得到目标预测分类结果；综合损失函数确定模块，其配置成基于每个样本图像数据对应的该第二特征向量、该第一特征向量的类别表征结果、该标签和该目标预测分类结果，确定该目标图像检索模型的综合损失函数；模型参数更新模块，其配置成基于该综合损失函数更新该目标图像检索模型的参数，使得该目标图像检索模型达到收敛，以完成该目标图像检索模型的训练。

根据本发明的另一方面，提供了一种计算设备，包括：存储器，其被配置成存储计算机可执行指令；处理器，其被配置成当该计算机可执行指令被处理器执行时执行根据本申请任一实施例的训练目标图像检索模型的方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，当该计算机可执行指令被执行时，执行根据本申请任一实施例的训练目标图像检索模型的方法。

根据本发明的另一方面，提供了一种计算机程序产品，包括计算机可执行指令，其中该计算机可执行指令被处理器执行时执行根据本申请任一实施例的训练目标图像检索模型的方法。

借助于本申请实施例的训练目标图像检索模型的方法而训练得到的目标图像检索模型具有面向全场景的后向兼容性。该模型的训练无需对用于训练该目标图像检索模型的样本图像数据进行限定，因此，训练得到的模型的后向兼容性具有广阔的适用场景。并且，本申请实施例的训练目标图像检索模型的方法还对原始模型输出的特征向量进行类原型调节，所得到的同类别的样本图像的特征向量更加紧凑，基于调节后的类原型确定的损失函数将有助于实现更高质量的后向兼容性。

附图说明

现在将更详细并且参考附图来描述本申请的实施例，其中：

图1示意性地示出了原始模型和目标模型的训练集的几种场景；

图2示意性地示出了根据本申请的实施例的技术方案可以实施在其中的示例性应用场景；

图3示意性地示出了根据本申请实施例的训练目标图像检索模型的方法的流程图；

图4示意性地示出了根据本申请另一实施例的训练目标图像检索模型的方法的流程图；

图5示意性地示出了根据本申请另一实施例的训练目标图像检索模型的方法的流程图；

图6示意性地示出了根据本申请实施例的训练目标图像检索模型的方法的实施场景；

图7示意性地示出了根据本申请实施例的基于图的结构化类原型调节的过程的实施场景；

图8示意性地示出了根据本申请的一个实施例的一种训练目标图像检索模型的装置的示例性结构框图；

图9示意性地示出了一个示例***，其包括代表可以实现本文描述的各种技术的一个或多个***和/或设备的示例计算设备。

具体实施方式

下面将结合本申请中的附图，对本申请中的技术方案进行清楚和完整的描述。所描述的实施例仅仅是本申请的一部分实施例，而不是全部实施例。基于本申请的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例都属于本申请保护的范围。

本申请涉及到人工智能相关技术。其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请中主要涉及到了人工智能中的机器学习。其中，机器学习(MachineLearning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、多视角学习等技术。

本申请中所涉及到的机器学习主要指，如何训练得到图像检索网络。为了便于对本申请实施例的理解，下面先对几个概念进行简单介绍：

后向兼容性（backward compatibility）：也称向后兼容，意指软件/程序/产品的在后版本与其早期版本兼容。例如，如果程序的新版本可以使用/编辑由同一程序的旧版本创建的文件或数据，则该程序的新版本可被称为具有后向兼容性。后向兼容很重要，因为它消除了升级时重新开始的需要。

后向兼容表征学习（universal backward compatible representationlearning）：表征学习是指将模糊、抽象的原始数据转换成在数学上或者在计算上都非常便于处理，以被机器学习的形式。后向兼容表征学习是指在后版本的表征模型得到的特征与在先版本的表征模型得到的特征具有兼容性。例如，新模型产生的特征可以直接用于在旧模型索引的数据库中进行搜索。

通用后向兼容表征学习（universal backward compatible representationlearning）：通用后向兼容性是指全场景下、或开放式的后向兼容。通用后向兼容表征学习是指，新的表征模型的训练场景将不受到旧的表征模型的训练场景的制约，例如不需要新模型的训练数据集完全涵盖旧模型的训练数据集。实现全场景下的后向兼容表征学习的过程可被称为通用后向兼容训练（universal backward compatible training - UniBCT）。通用后向兼容表征学习是本申请新提出的概念。

面对后向兼容表征学习的有限场景，本申请的发明人研究了真实世界中各种潜在的兼容训练场景，并提出了通用后向兼容表征学习这一全新的问题。前文提到，现有的后向兼容方法严重依赖旧模型的训练集。然而，这是非常局限的，因为真实场景具有复杂性、多变性以及难预测性。在真实场景中，从数据和类型的角度考虑，新旧模型的训练集可能具有以下的关系。图1示意性地示出了原始模型和目标模型的训练集的几种场景。例如，在数据一致式场景中，新旧训练集的数据完全相同，数据类别显然也相同。在拓展式场景中，新训练集包含了旧训练集。例如，在数据拓展式场景中，旧训练集与新训练集的数据类别相同，且新训练集涵盖了旧训练集，也就是，虽然新训练集的数据量大于旧训练集，但数据的类别相同。又如，在类别拓展式场景中，新训练集的数据类别涵盖了旧训练集的数据类别，且新训练集涵盖了旧训练集，也就是，新训练集还包含了旧训练集中没有的数据类别。在开放式场景中，新旧训练集的数据则完全不同。例如，在数据开放式场景中，旧训练集与新训练集的数据类别相同，但新训练集与旧数据集的数据没有交集。又如，在类别开放式场景中，新训练集的数据类别与旧训练集的数据类别不同，数据显然也不同。常规的后向兼容表征学习仅研究了新训练集完全涵盖旧训练集的场景。因此，其最多可应用于数据一致式、数据拓展式、类别拓展式场景，而无法为开放式场景带来后向兼容性。而且，还应理解，即使新旧训练集的数据完全相同，也不表示新旧模型之间一定具备兼容性，因为表征学习模型的性能还受到模型的分类器（classifier）以及主干网络（backbone）的影响。因此，即使常规的后向兼容表征学习可应用于一致式或拓展式场景，其后向兼容效果也是无法保证的。本申请的训练目标图像检索模型的方法和装置实现的是通用的后向兼容表征学习，其不受限于版本升级中训练集的特殊约束，即，不要求新训练集包含旧训练集。本发明为了使新模型相对于旧模型具备后向兼容性，在训练新模型时，将新训练集的数据分别输入到旧模型和新模型中，利用旧模型和新模型分别提取新训练集中的数据的特征，然后利用旧模型提取的特征构建旧类原型，并通过新模型提取的特征与旧类原型之间的距离来确定后向兼容损失函数，并以此来调整新模型的参数。由于不再依赖于新旧训练集之间的关系，本申请可以统一解决各种训练场景下的兼容训练，尤其是适用于开放式场景。

图2示意性地示出了根据本申请的实施例的技术方案可以实施在其中的示例性应用场景。如图1所示，场景200可以包括服务器210、终端设备230、250、270，以及可选地还可以包括用于存放图像数据的数据库设备220，这些服务器或设备可以经由网络290实现彼此通信。

示例性地，用于训练所述目标图像检索模型的样本图像数据可由用户240、260、280通过各自的终端设备230、250、270上传到服务器210。所上传的样本图像数据可以是存储在终端设备230、250、270中的任一个或多个上的数据，或者可以是终端设备230、250、270从外部存储设备读取或自己拍摄、采集的数据。

服务器210可以是单个服务器，也可以表示服务器的集群。每个终端设备230、250、270可以分别与服务器210通过网络进行连接，以便每个终端设备230、250、270可以与服务器210进行数据交互。当采用多个服务器时，服务器可能通过网络彼此连接，以便获取彼此上的数据。多个服务器上可以存储不同的数据，或者执行不同的操作。服务器210可以接收所上传的样本图像数据、或将其他类型的数据转换成样本图像数据，并根据本申请的各种实施例的方法，利用样本图像数据训练目标图像检索模型。服务器210还可以运行其他应用程序以及存储其他数据。例如，服务器210可以包括多个虚拟主机，用以运行不同的应用程序并提供不同服务。本申请中的服务器例如还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备例如可以是智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视等智能终端。

此外，在本申请中，网络290可以是经由诸如电缆、光纤等连接的有线网络，也可以是诸如2G、3G、4G、5G、Wi-Fi、蓝牙、ZigBee、Li-Fi等的无线网络。

根据本申请实施例的训练目标图像检索模型的方法可以在服务器中完成，也可以在服务器与终端设备的组合体中完成，还可以仅在终端设备中完成。下面以终端设备230与服务器210之间的通信为例，描述本申请的实施例。在本申请中，现有的、更新前的图像检索模型也称作原始图像检索模型，简称原始模型，需要通过训练而获得的图像检索模型也被称作目标图像检索模型，简称目标模型。在开始训练目标模型之前，需要准备训练集数据。终端设备230可以预先采集并存储训练集数据，例如样本图像数据，并确定训练集数据的标签。在一些实施例中，目标模型的训练在服务器210内完成。样本图像数据和标签在训练开始前提供给服务器210。另外，原始模型和需要训练的目标模型都布置在服务器210内。服务器210在执行根据本申请实施例的训练目标图像检索模型的方法的各步骤后，将得到训练好的目标模型。上述训练过程的具体信息将在后文中描述。

虽然上述实施例的模型训练过程在服务器内实现，且用于训练目标模型的样本图像数据来自于终端设备，但本申请不限于此。例如，模型训练过程也可以在终端设备内实现。而且，所需样本图像数据除了可以由终端设备预先采集并存储之外，还可以使用存储在服务器中的样本图像数据。

根据本申请的一方面，提供了一种训练目标图像检索模型的方法。该方法用于使经训练的目标模型相对于原始模型具备后向兼容性。原始模型和目标模型都是用于图像检索的模型。目标模型可以理解为是原始模型的更新。图3示意性地示出了根据本申请实施例的训练目标图像检索模型的方法300的流程图。如图3所示，所述方法300包括如下步骤。

在步骤S305，获取用于训练所述目标图像检索模型的样本图像数据和标签。

在步骤S310，将所述样本图像数据输入到所述原始图像检索模型中，以得到所述样本图像数据对应的第一特征向量。

在步骤S315，对所述第一特征向量进行类别表征操作，以确定所述第一特征向量的类别表征结果。

在步骤S320，将所述样本图像数据输入到所述目标图像检索模型，以得到所述样本图像数据对应的第二特征向量。

在步骤S325，将所述第二特征向量输入到所述目标图像检索模型的目标分类器，以得到目标预测分类结果。

在步骤S330，基于每个样本图像数据对应的所述第二特征向量、所述第一特征向量的类别表征结果、所述标签和所述目标预测分类结果，确定所述目标图像检索模型的综合损失函数。

在步骤S335，基于所述综合损失函数更新所述目标图像检索模型的参数，使得所述目标图像检索模型达到收敛，以完成所述目标图像检索模型的训练。

下面将对这些步骤进行详细描述。

首先，描述获取用于训练所述目标图像检索模型的样本图像数据和标签的步骤，即步骤S305。在训练目标模型前，可以先确定用于训练目标模型的样本图像数据和标签。本申请实施例不因原始模型的训练集而对目标模型的训练集进行限制，所以目标模型的训练集可以完全包含或部分包含或不包含原始模型的训练集。在确定用于训练目标模型的样本图像数据和标签之后，服务器或终端设备会获取所述样本图像数据和标签，即进行步骤S305。

在该步骤中，除了获取样本图像数据和标签本身，还可能获取目标模型的训练集与原始模型的训练集的关系。例如，在确定用于训练目标模型的样本图像数据和标签之后，可以进一步确定训练目标模型的样本图像数据与用于训练原始模型的样本图像数据的类别是否相同。图像数据的类别主要是指图像客观内容的类别。例如，描述相同、相似、或有共性的内容的图像数据可能被确定为属于同一类别。属于同一类别的图像数据在经过特征提取后，得到的特征应该具有相对高的相似度。

接下来，将所述样本图像数据输入到所述原始图像检索模型中，以得到所述样本图像数据对应的第一特征向量，即步骤S310。这里的原始图像检索模型是之前已经完成训练的模型。原始图像检索模型的各种参数已经基于旧训练集输入到该模型后的输出结果和旧训练集的标签而调整确定。例如，旧训练集的样本图像数据被输入到原始图像检索模型的特征提取模型中，以得到特征向量，然后特征向量被输入到该模型的分类器（可称为原始分类器）中，原始分类器输出针对旧训练集的样本图像数据的预测分类概率。根据各样本图像数据对应的标签和预测分类概率，可得到原始图像检索模型的分类损失函数。然后，可以基于该分类损失函数来若干次调节并最终确定原始图像检索模型的各种参数。在步骤S310中，当所述样本图像数据输入到所述原始图像检索模型后，原始图像检索模型的特征提取模型会输出相应的特征向量，即第一特征向量。也就是，术语“第一特征向量”是目标模型的训练集在原始模型的特征提取模型的处理下得到的特征向量。

在得到样本图像数据对应的第一特征向量之后，对所述第一特征向量进行类别表征操作，以确定所述第一特征向量的类别表征结果，即步骤S315。在此步骤中，第一特征向量被分类，分类的结果由类别表征结果来表示。在分类的效果应该是，相对紧凑的特征向量更应该被确定为属于同一类别。特性向量的紧凑程度可以由多种方式来衡量，比如向量之间的欧式距离、曼哈顿距离、切比雪夫距离、闽可夫斯基距离、马氏距离、余弦相似性、交叉熵、相对熵等。在特性向量分类后，需要以一种形式对特征向量的类别进行表征，并得到类别表征结果。例如，属于一类的向量的类别可以由该类向量的类中心向量来表示。又如，特征向量可以通过分类器来确定类别。在适当的情况下，分类器输出的结果可以作为对应特征向量的类中心。分类器输出的结果一般是类别的预测分类概率。

所述样本图像数据除了前面提到的被输入到所述原始图像检索模型中之外，还会输入到所述目标图像检索模型，以得到所述样本图像数据对应的第二特征向量，即步骤S320。在该步骤中，样本图像数据被输入到正在训练的目标模型中。目标模型的特征提取模型会输出相应的特征向量，即第二特征向量。结合步骤S310来考虑，用于训练所述目标图像检索模型的样本图像数据既被输入到原始模型中，又被输入到目标模型中。可以认为，同一个样本图像数据的第一特征向量和第二特征向量之间具有对应关系。应注意，本申请实施例并不限定步骤S310和步骤S320的顺序，这两个步骤可以以任何顺序先后完成，也可以同时完成。

在得到第二特征向量之后，将所述第二特征向量输入到所述目标图像检索模型的目标分类器，以得到目标预测分类结果，即步骤S325。目标图像检索模型除了前述特征提取模型之外，还包括分类器。该分类器可称为目标分类器。这里的目标图像检索模型可以以训练初期模型参数初始化为起点。对模型参数初始化包括对模型中权重矩阵的预先配置。此时，初始化后的目标分类器具有一定的图像分类能力，但通常情况下，此时的分类能力较低。目标分类器输出的预测分类概率可以指示样本图像数据被归类为目标类别中的各个类别的置信程度。针对同一个样本图像数据，其各个类别的概率和为1。

通过前述步骤S310、S315、S320和S325，分别得到了所述样本图像数据对应的第一特征向量、所述第一特征向量的类别表征结果、所述样本图像数据对应的第二特征向量、以及所述样本图像数据对应的目标预测分类结果。然后，基于这些参数，确定所述目标图像检索模型的综合损失函数，即步骤S330。术语“综合损失函数”应理解为，本申请对于目标图像检索模型的参数的调整是依据多种因素的综合调整。例如，本申请既要求目标模型具有更好的特征表征能力，又要求目标模型得到的新特征与原始模型得到的旧特征能够互相兼容。因此，本申请至少依据了这两方面的因素确定损失函数，所以这种损失函数具有综合性。

通过损失函数来对图像检索效果进行约束，可以使得图像检索效果更准确。所述综合损失函数的目标是，使目标图像检索模型获得更好的特征表征能力，以及使得目标图像检索模型得出的待查询图像的特征与原始模型得出的图库内候选图像的特征具有直接可比性。

在得到了综合损失函数之后，可以基于所述综合损失函数更新所述目标图像检索模型的参数，使得所述目标图像检索模型达到收敛，以完成所述目标图像检索模型的训练，即步骤S335。本申请实施例中，服务器或终端设备可以通过上述综合损失函数对图像检索模型的网络参数进行迭代更新。当综合损失函数的损失值保持稳定时，或当综合损失函数的损失值小于损失阈值时，目标图像检索模型达到收敛。此时所述目标图像检索模型的训练完成。

根据本申请实施例的训练目标图像检索模型的方法提供了一种简单有效的统一训练范式来实现全场景下的后向兼容表征学习。该方法无需对用于训练所述目标图像检索模型的样本图像数据进行限定，因此是通用的、统一的。本申请实施例的综合损失函数考虑了同一样本图像数据在原始图像检索模型中得到的第一特征向量（由类别表征结果来体现）和在目标图像检索模型中得到的第二特征向量，并基于第一特征向量的类别表征结果和第二特征向量之间的距离来对齐第二特征向量与第一特征向量的隐空间。因此，通过目标图像检索模型提取的特征与通过原始图像检索模型提取的特征能够互相兼容。

应理解，图3仅用于表明训练目标图像检索模型的方法具体涵盖的步骤，但并不意图对这些步骤的执行时间和逻辑顺序进行限定。各个步骤之间的执行时间和逻辑顺序应当基于本申请的上下文来理解。

图4示意性地示出了根据本申请另一实施例的训练目标图像检索模型的方法的流程图。前文提到，在一些实施例中，本申请对目标图像检索模型的训练目标是使训练好的目标图像检索模型具有更好的特征表征能力，并使训练好的目标图像检索模型提取的特征与原始模型提取的特征具有直接可比性。因此，在一些实施例中，所述综合损失函数由后向兼容损失函数和分类损失函数构建。也就是说，综合损失函数被分为了两部分，确定两部分损失函数的因素不同。在后向兼容损失函数部分，此部分的损失函数主要基于目标模型与原始模型所提取的特征的兼容性来确定。在用于确定所述综合损失函数的参数中，每个样本图像数据对应的所述第二特征向量和所述第一特征向量的类别表征结果之间的差异能够体现新旧模型提取特征的差异，因此主要用于确定后向兼容损失函数。在分类损失函数的部分，此部分的损失函数主要基于目标模型（的目标分类器）输出的预测分类结果与对应标签的差异来确定。所述样本图像数据的标签和所述目标预测分类结果体现了目标图像检索模型分析样本图像数据的性能，因此主要用于确定分类损失函数。因此，在一些实施例中，基于每个样本图像数据对应的所述第二特征向量、所述第一特征向量的类别表征结果、所述标签和所述目标预测分类结果，确定所述目标图像检索模型的综合损失函数的步骤（步骤S330）可以包括基于所述第二特征向量和所述第一特征向量的类别表征结果，确定所述目标图像检索模型的后向兼容损失函数（步骤S405）；以及，基于所述标签和所述目标预测分类结果，确定所述目标图像检索模型的分类损失函数（步骤S410）。

为了使训练得到的目标图像检索模型具备后向兼容性，本申请利用用于训练目标图像检索模型的样本图像数据输入到原始图像检索模型中得到第一特征向量的类别表征结果以及对应的样本图像数据输入到目标图像检索模型中得到的第二特征向量之间的差异确定后向兼容损失函数，而不考虑该样本图像数据与原始模型的训练样本之间的关系，因此得到的图像检索模型的后向兼容性的应用场景将更加广泛。

同样，图4仅用于表明确定综合损失函数的过程所需的步骤，但并不意图对这些步骤的执行时间和逻辑顺序进行限定。各个步骤之间的执行时间和逻辑顺序应当基于本申请的上下文来理解。

在一些实施例中，可以将后向兼容损失函数和分类损失函数相加，然后通过相加的损失函数对目标图像检索模型的网络参数进行更新。在更具体的实施例中，后向兼容损失函数和分类损失函数被分配以损失权重。损失权重是超参数，可以通过实验结果来调节。在一些实施例中，后向兼容损失函数和分类损失函数的损失权重可以都设置为1。

在一些实施例中，对所述第一特征向量进行类别表征操作可以采用监督学习方式，例如借助于第一特征向量对应的样本图像数据的标签对第一特征向量进行分类。具体的，首先借助于标签将第一特征向量分类若干类，然后可以通过适当的方式确定每一类的类中心向量。此时，确定所述目标图像检索模型的后向兼容损失函数可以包括：确定每个样本图像数据对应的所述第二特征向量与所述第一特征向量的类中心向量的相似度；以及，基于所述相似度，确定所述目标图像检索模型的后向兼容损失函数。第二特征向量与第一特征向量的类中心向量越接近，则表明目标模型和原始模型对相同的输入数据的特征提取性能较接近，反映了目标模型的后向兼容性更好。

本申请的发明人认识到，第一特征向量的类别表征的质量对于后向兼容学***均或加权求平均）获得的类别表征结果存在不可避免的噪声。为了解决该问题，本申请提出了一种简单有效的类别表征调节算法。类别表征调节算法也可称为类原型调节算法。发明人认为，同类别中视觉相似的样本对应的特征应该更加紧凑。而且，考虑到新模型具有更强的特征表征能力，因此能够更加准确地度量特征之间的相似性。此外，还知道，转移矩阵可以用于计算特征的变化趋势。因此，本申请提出，以目标模型确定的第二特性向量之间的相似性组成转移矩阵，然后通过使原始模型获得的同一类第一特征向量与该转移矩阵进行运算，可以使第一特征向量朝着相似的样本对应的特征更紧凑的趋势变化。经过上述运算后，相似样本图像的特征向量会被调节的更加接近，异常的特征也会被校正，使得调节后的第一特征向量更加接近于类中心。基于调节后的第一特征向量而获得的类中心可以更准确地对类别进行表征。

图5示意性地示出了根据本申请另一实施例的训练目标图像检索模型的方法500的流程图。如图5所示，确定每类第一特征向量的类中心向量的步骤包括：

在步骤S505，将属于同一类的第一特征向量拼接成特征向量矩阵；

在步骤S510，将属于同一类的第一特征向量各自对应的第二特征向量之间的相似度构成对称矩阵；

在步骤S515，对所述对称矩阵进行归一化操作，以得到转移矩阵；

在步骤S520，通过所述特征向量矩阵和所述转移矩阵，确定经调节的第一特征向量；

在步骤S525，确定所述经调节的第一特征向量的类中心向量，作为每类第一特征向量的类中心向量。

下面对上述步骤进行介绍。为了利用第二特征向量之间的相似性调整第一特征向量，在第一特征向量的类别被确定后，属于同一类的第一特征向量会拼接成特征向量矩阵。第一特征向量对应的第二特征向量之间的相似度构成对称矩阵。在一些实施例中，该相似度可由第二特征向量的例如余弦相似度来表示。转移矩阵的特性是，每一行的和为1。因此，需要对该对称矩阵进行归一化处理，以得到转移矩阵。然后，通过所述特征向量矩阵和所述转移矩阵，可以得到由经调节的第一特征向量拼接而成的矩阵，从而确定经调节的第一特征向量。具体的，每当用转移矩阵乘以该特征向量矩阵后，该特征向量矩阵内的第一特征向量会按照样本图像数据之间的相似度调节一次，使得相似的样本图像数据所对应的特征向量之间的距离更加接近，也就是相似的特征向量会更加聚合。

理论上，转移矩阵本身只考虑相邻两次状态之间的关系。因此，在一些实施例中，为了避免聚合过程中潜在发生的塌陷问题，初始的特征向量矩阵也被考虑进来。具体的，在通过所述特征向量矩阵和所述转移矩阵，确定所述经调节的第一特征向量的步骤中，一方面通过所述转移矩阵对所述特征向量矩阵进行至少一次乘法运算，以得到经过至少一次调节的迭代矩阵，另一方面也考虑到未经调节的初始的特征向量矩阵，使前面得到的迭代矩阵与初始的特征向量矩阵进行加权求和处理，以得到调节矩阵。此时得到的调节矩阵就是由经调节的第一特征向量拼接而成的矩阵，也就是，此时已得到了经调节的第一特征向量。在一些实施例中，在加权求和处理中，可以对所述迭代矩阵赋予λ的权重，对所述特征向量矩阵赋予1-λ的权重，并进行加法运算。这里的权重λ也是一个介于0到1之间的超参数，不同λ值也会对结果产生一定影响。在更具体的实施例中，权重λ的范围是0.85-0.95。例如，在一些实施例中，将权重λ设置为0.9。

前面提到通过所述转移矩阵对所述特征向量矩阵进行至少一次乘法运算，即至少一次迭代。在一些实施例中，迭代的次数可以通过实验结果来选择合适的值。在另外的实施例中，可以直接将迭代次数取无穷大。此时，可以仅基于特征向量矩阵、转移矩阵和权重λ来获得调节矩阵。具体的，调节矩阵V可以通过下述公式来确定

（1）

其中，I表示单位矩阵，

表示所述转移矩阵，

表示所述特征向量矩阵，

表示矩阵的逆运算。

所得到的调节矩阵V由经调节的第一特征向量拼接而成，因此，通过对调节矩阵V进行列平均操作，可以得到调节后的类中心向量。经过调节的类中心向量具有更高的准确度和更小的噪声，能够更加准确地表征第一特征向量的类别。

通过上述步骤，本申请的训练方法利用了新模型的更强的特征表征能力来判断图像的近似度，将原始模型输出的相似图像对应的特性调节成更加紧凑，从而构建了质量更高的类中心，减少了噪声，有利于使目标模型具有更高的后向兼容性能。

上述实施例基于类原型调节后的第一特征向量进行类别表征操作。这种方式可以解决目标模型的新训练集和原始模型的旧训练集之间的域差异的问题。发明人还发现，在一些情况下，原始模型的分类器是可用的。例如，如果目标模型的新训练集的样本图像数据的类别属于原始模型的旧训练集的样本图像数据的类别，则可以利用原始分类器的分类结果对所述第一特征向量进行类别表征。

在一些实施例中，对所述第一特征向量进行类别表征操作，以确定所述第一特征向量的类别表征结果包括：将所述第一特征向量输入到所述原始图像检索模型的原始分类器，以得到第一原始分类结果，作为所述第一特征向量的类别表征结果。在这种情况下，根据本申请实施例的训练目标图像检索模型的方法还需要借助于所述原始分类器确定第二特征向量的分类结果，即第二原始分类结果。然后基于第一原始分类结果和第二原始分类结果之间的差异，来确定所述目标图像检索模型的综合损失函数，尤其是确定所述目标图像检索模型的后向兼容损失函数，以使训练好的目标图像检索模型具备后向兼容性，同时还减少了计算负担。在这种实施例中，基于每个样本图像数据对应的所述第二特征向量、所述第一特征向量的类别表征结果、所述标签和所述目标预测分类结果，确定所述目标图像检索模型的综合损失函数的步骤包括：基于每个样本图像数据对应的所述第二原始分类结果、所述第一原始分类结果、所述标签和所述目标预测分类结果，确定所述目标图像检索模型的所述综合损失函数。在所述综合损失函数由后向兼容损失函数和分类损失函数构建的情况下，基于每个样本图像数据对应的所述第二原始分类结果、所述第一原始分类结果、所述标签和所述目标预测分类结果，确定所述目标图像检索模型的所述综合损失函数的步骤包括：基于所述第二原始分类结果和所述第一原始分类结果，确定所述目标图像检索模型的后向兼容损失函数；以及，基于所述标签和所述目标预测分类结果，确定所述目标图像检索模型的分类损失函数。

前述实施例利用了样本图像数据的标签或原始分类器来确定第一特征向量的类别。在其它的实施例中，也可以不依赖于标签或分类器，而是通过聚类方式确定第一特征向量的类别。

在一些实施例中，综合损失函数由后向兼容损失函数和分类损失函数构建。这可以被下述公式表示。

（2）

其中，

是综合损失函数，

是分类损失函数，用于实现获得更好的特征表征能力的目标，

是后向兼容损失函数，用于实现使得目标模型和原始模型提取的特征具有直接可比性的目标。η是损失权重，用于调节后向兼容损失函数在综合损失函数中所占的比重，可以根据实际情况人为设定。例如，在一些实施例中，损失权重η取值为1。

在一些实施例中，本申请的后向兼容损失函数和分类损失函数都采用ArcFace函数。ArcFace函数定义如下：

（3）

其中，D_n是样本数据集，y是训练样本图像x对应的标签，s是伸缩标量，m是间隔。

在分类损失函数中，

是目标分类器ω中第y个原型的权重ω^y与特征φ(x)之间的角度，可由下述公式表示：

（4）

在后向兼容损失函数中，

是合成的类原型

与目标图像检索模型输出的特征φ_n之间的角度，可由下述公式表示：

（5）

经过实验验证，ArcFace函数作为后向兼容损失函数和分类损失函数取得了良好的效果。

下面从实际应用的角度更全面地介绍本申请实施例的训练目标图像检索模型的方法。

图像检索一般包括给定一张查询图片（Query，记为Q），然后从大规模的候选图像库（Gallery，记为G）中正确检索具有相同或相似内容或者对象的图片。在图像数据x被输入到模型的主干网络或特征提取器φ后，可输出特征v。该过程可表示为

。

本申请一般以角标“o”表示原始模型相关参数，以角标“n”表示目标模型相关参数。例如，

可表示原始模型的特征提取器，

可表示目标模型的特征提取器。

在不考虑兼容性的情况下，图像检索模型的性能可通过单模型测试（Self Test）确定。在单模型测试中，查询图片的特征与候选图片库内图片的特征均由相同的模型提取。例如，在原始模型的检索性能测试时，可进行单模型测试，其中查询图片的特征与候选图片库内图片的特征均由原始模型

提取。原始模型的检索性能可表示为

。

在考虑兼容性的情况下，图像检索模型的性能可通过跨模型测试（Cross Test）确定。在跨模型测试中，查询图片的特征与候选图片库内图片的特征由不同模型提取。例如，在衡量更新后的目标图像检索模型的检索性能测试时，因进行跨模型测试，其中查询图片的特征由目标模型

提取，候选图片库内图片的特征由原始模型

提取。目标模型的检索性能可表示为

。

本申请既要求更新后的图像检索***具有更好的特征表征能力，又要求更新后的图像检索***提取的特征与更新前的图像检索***提取的特征具有可比性。这两种性能目标可被表述为：

（6）。

图6示意性地示出了根据本申请实施例的训练目标图像检索模型的方法的实施场景。如图6所示，根据本申请实施例的目标图像检索模型的兼容训练使用两个正则项进行监督，一是利用分类损失函数来保证目标模型具有更好的特征表征能力，二是利用后向兼容训练损失函数来使得目标模型输出的新特征与原始模型输出的旧特征能够互相兼容。在确定分类损失函数时，在目标模型内，对样本图像数据提取第二特征向量，并通过将第二特征向量输入到目标模型内的目标分类器而得到的目标预测分类结果，然后基于目标预测分类结果与对应的样本图像数据的标签的差异来确定分类损失函数。在确定后向兼容损失函数时，样本图像数据被输入到原始模型中以得到第一特征向量。然后，对第一特征向量进行分类操作并确定各类别的表征结果。然后，基于所述第二特征向量和所述第一特征向量的类别表征结果，确定所述目标图像检索模型的后向兼容损失函数。

在一些实施例中，可以直接使用原始模型的原始分类器对第一特征向量的类别进行表征，以用于后向兼容训练。但是，在开放式的训练场景中，原始模型和目标模型可能存在域差异的问题。域差异问题涉及样本图像数据的新的类别的引入，因此第一特征向量的类别的准确表征可能更加困难。例如，原始分类器无法直接用于后向兼容训练。为了解决这个问题，在一些实施例中，在目标图像检索模型的训练中，首先利用模型提取第一特征向量，并使用这些特征向量的类中心向量来进行类别表征。该过程取代了原始分类器的使用。

在一些实施例中，为了提高类中心向量的质量，可以利用基于图结构的类原型调节模块对第一特征向量进行调节，以便更准确地确认类中心向量，最终实现更好的兼容特性。下面将对这种调节过程的实施场景进行介绍。

图7示意性地示出了根据本申请实施例的基于图的结构化类原型调节的过程的实施场景。按照发明人的认识，同类别中的内容相似的样本对应的特征应该更加紧凑，且更新后的模型能够更加准确地度量特征之间的相似性，因为更新后的模型具有更强的特征表征能力。因此，本申请提出，基于样本图像数据的相似度构建转移矩阵，其中基于目标图像检索模型提取的第二特征向量确定此相似度，然后利用该转移矩阵对每个类别的第一特征向量进行迭代，以调整第一特征向量，从而获得更准确的类原型。具体过程如下。

如图7所示，样本图像数据被输入到旧模型（原始模型）中，得到待被调节的第一特征向量。第一特性向量可以根据其对应的标签而被确定类别。另外，样本图像数据被输入到新模型（目标模型），得到第二特征向量，并确定第二特征向量之间的相似度，来表征对应的样本图像数据的内容的相似度。

第一特征向量和对应的相似度可以以全连通的无向图的形式来表示。每个类别的第一特征向量可以作为全连通无向图的顶点，而基于目标模型提取的对应的第二特征向量得到的对应相似度可以作为全连通无向图的边。例如，1号样本图像和2号样本图像作为样本图像数据都分别输入到旧模型和新模型中，分别得到旧模型输出的向量Vo1、Vo2以及新模型输出的向量Vn1、Vn2。本申请认为Vn1和Vn2之间的相似度能够更准确地衡量1号样本图像和2号样本图像之间的相似性。在全连接无向图中，Vo1、Vo2作为顶点，而Vn1和Vn2之间的相似度（如余弦相似度）作为Vo1和Vo2之间的边。以此类推，可构建各个类别的第一特征向量的全连接无向图。

旧模型输出的同类别的第一特征向量可以拼接形成特征向量矩阵V⁽⁰⁾。特征向量矩阵V的尺寸是m*d，其中，d表示特征维度，m表示每个类别中对应的样本的数量。

新模型输出的第二特征向量之间的相似度被构成对称矩阵E。以输入了3张样本图像为例，例如，2张样本图像的第二特征向量分别是Vn1、Vn2、Vn3，设第二特征向量Vn1与Vn2之间的相似度为s1，Vn2与Vn3之间的相似度为s2，Vn3与Vn1之间的相似度为s3，则该对称矩阵的形式为：

。

当然，本领域技术人员可理解，此示例仅用于描述对称矩阵的形成原理，并不意图对样本图像的数量进行限定。

然后对该对称矩阵按照下述公式进行归一化处理，得到转移矩阵

，其中，符号

表示相似度经归一化的数值，i和j分别表示矩阵的行数和列数。

（7）。

经过归一化处理后，矩阵中行数与列数相同的位置，即对角线位置的数值均为0，而其它位置的数值相对于矩阵的对角线对称，如下图所示。应注意，转移矩阵的每一行的和为1。

然后，可以按照下述公式，利用转移矩阵

对特征向量矩阵V⁽⁰⁾进行t次迭代得到调节矩阵V^(t)，其中t为正整数。

（8）

每一次迭代可以表示为：

（9）。

随着每一次迭代，相似的第一特征向量之间的距离会更近，异常的特征向量也会被校正，从而第一特征向量会更加趋近于类中心。

在一些实施例中，为了避免聚合过程中潜在发生的塌陷问题，调节矩阵V^(t)的确定还需要参考初始的特征向量矩阵V⁽⁰⁾，如下述公式所述，其中聚合权重λ∈[0,1]。

（10）。

在一些实施例中，迭代的次数t可以通过实验结果来选择合适的值。在另一些实施例中，迭代的次数t被设置为趋近于无穷大。此时，公式（10）会有闭合形式：

（11）

得到的V⁽∞⁾即为迭代次数t取无穷大时的调节矩阵V^(t)，也就是前文中的调节矩阵V。在公式（11）中，

表示所述转移矩阵，I表示单位矩阵，（）^-1表示矩阵的逆运算。

通过对V⁽∞⁾进行列平均，可获得调节后的类原型，如下方公式所示：

（12）

其中

表示第j个类原型。经过调节后的类原型可以作为通用后向兼容损失的监督信号。

本申请的发明人通过实验验证了训练完成的目标图像检索模型的性能。本申请在两个大规模人脸识别数据集MS1Mv3、以及IJB-C上进行验证。前文提到了新旧模型训练集的5种场景。下表（一）示出了本申请进行验证时采用的各种场景下新旧训练集的图像数量和类别数量。

表（一）：不同训练场景下的数据统计。

为了验证本申请训练得到的图像检索模型的后向兼容性能，本申请与其他几种兼容损失函数进行比较，包括基于特征回归的

损失函数和基于对比学习的

损失函数。

损失函数定义如下：

（13）

损失函数定义如下：

(14)。

本申请使用了在人脸识别中两组标准的测试协议，分别是（1）1:1人脸验证（faceverification），该协议针对不同的模板对（template pairs）计算在不同错误接受率（False Acceptance Rates, FAR）下的正确接受率（True Acceptance Rates, TAR），简写为TAR@FAR；以及，（2）1:N人脸识别(face identification)，该协议计算前k个召回的样本的准确率，记为Top-k Acc。

该实验分别验证了本申请的没有利用结构化类原型调节模块的损失函数

和利用结构化类原型调节模块的损失函数

训练的模型的性能。模型的主干网络采用的是标准的ResNet18（ϕ^r18）以及ResNet50（ϕ^r50）。实验选择大规模人脸识别数据集MS1Mv3作为训练集，并在IJB-C上进行测试，得到的结果如下表（二）所示：

表（二）：不同场景下不同训练方法在IJB-C数据集中的性能比较。

表（二）示出了5种训练场景下采用不同损失函数训练的图像检索模型的性能比较。每种场景的第一行和第二行是在未考虑后向兼容损失函数的情况下训练的图像检索模型的性能。由于新模型具有更强的特征表征能力，在不考虑后向兼容损失函数的情况下，新模型的性能一般更好。

表（二）的第三行和第四行示出了利用

损失函数和

损失函数训练的图像检索模型的跨模型测试检索性能和单模型测试检索性能。可以看到，基于

损失函数训练得到的跨模型测试检索性能较差，说明这种损失函数并不适用与后向兼容训练。表（二）的第五行示出了根据本申请实施例的图像检索模型的性能。如表（二）所示，在跨模型测试检索性能中，利用本申请实施例的方法训练的图像检索模型的性能明显优于常规的其他图像检索模型的性能，说明通过本申请实施例的训练方法得到的图像检索模型具有优秀的后向兼容性。表（二）的第六行示出了引入了基于图结构的类原型调节模块进行训练的图像检索模型的性能值，其高于第五行的性能值，说明进一步提升了图像检索模型的性能。而且，第六行的单模型测试性能值在各个场景中基本也高于常规的其他模型，说明其具有较好的图像表征能力。总之，在这五种场景中，根据本申请实施例的训练目标图像检索模型的方法均实现了优异的性能。

根据本申请的另一方面，提供了一种训练目标图像检索模型的装置。图8示意性地描绘了根据本申请的一个实施例的一种训练目标图像检索模型的装置800的示例性结构框图。所述训练目标图像检索模型的装置，用于使经训练的目标图像检索模型相对于原始图像检索模型具备后向兼容性。如图8所示，所述训练目标图像检索模型的装置800包括样本图像数据和标签获取模块805、第一特征向量确定模块810、类别表征模块815、第二特征向量确定模块820、目标预测分类模块825、综合损失函数确定模块830、以及模型参数更新模块835。样本图像数据和标签获取模块805配置成获取用于训练所述目标图像检索模型的样本图像数据和标签。第一特征向量确定模块810配置成将所述样本图像数据输入到所述原始图像检索模型中，以得到所述样本图像数据对应的第一特征向量。类别表征模块815配置成对所述第一特征向量进行类别表征操作，以确定所述第一特征向量的类别表征结果。第二特征向量确定模块820配置成将所述样本图像数据输入到所述目标图像检索模型，以得到所述样本图像数据对应的第二特征向量。目标预测分类模块825配置成将所述第二特征向量输入到所述目标图像检索模型的目标分类器，以得到目标预测分类结果。综合损失函数确定模块830配置成基于每个样本图像数据对应的所述第二特征向量、所述第一特征向量的类别表征结果、所述标签和所述目标预测分类结果，确定所述目标图像检索模型的综合损失函数。模型参数更新模块835配置成基于所述综合损失函数更新所述目标图像检索模型的参数，使得所述目标图像检索模型达到收敛，以完成所述目标图像检索模型的训练。

图9图示了示例***900，其包括代表可以实现本文描述的各种技术的一个或多个***和/或设备的示例计算设备910。计算设备910可以是例如服务提供商的服务器、与服务器相关联的设备、片上***、和/或任何其它合适的计算设备或计算***。上面参照图8描述的训练目标图像检索模型的装置900可以采取计算设备910的形式。替换地，训练目标图像检索模型的装置900可以以应用916的形式被实现为计算机程序。

如图示的示例计算设备910包括彼此通信耦合的处理***911、一个或多个计算机可读介质912以及一个或多个I/O接口913。尽管未示出，但是计算设备910还可以包括***总线或其他数据和命令传送***，其将各种组件彼此耦合。***总线可以包括不同总线结构的任何一个或组合，所述总线结构诸如存储器总线或存储器控制器、***总线、通用串行总线、和/或利用各种总线架构中的任何一种的处理器或局部总线。还构思了各种其他示例，诸如控制和数据线。

处理***911代表使用硬件执行一个或多个操作的功能。因此，处理***911被图示为包括可被配置为处理器、功能块等的硬件元件914。这可以包括在硬件中实现为专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件914不受其形成的材料或其中采用的处理机构的限制。例如，处理器可以由（多个）半导体和/或晶体管（例如，电子集成电路（IC））组成。在这样的上下文中，处理器可执行指令可以是电子可执行指令。

计算机可读介质912被图示为包括存储器/存储装置915。存储器/存储装置915表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置915可以包括易失性介质（诸如随机存取存储器（RAM））和/或非易失性介质（诸如只读存储器（ROM）、闪存、光盘、磁盘等）。存储器/存储装置915可以包括固定介质（例如，RAM、ROM、固定硬盘驱动器等）以及可移动介质（例如，闪存、可移动硬盘驱动器、光盘等）。计算机可读介质912可以以下面进一步描述的各种其他方式进行配置。

一个或多个I/O接口913代表允许用户使用各种输入设备向计算设备910输入命令和信息并且可选地还允许使用各种输出设备将信息呈现给用户和/或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备（例如，鼠标）、麦克风（例如，用于语音输入）、扫描仪、触摸功能（例如，被配置为检测物理触摸的容性或其他传感器）、相机（例如，可以采用可见或不可见的波长（诸如红外频率）将不涉及触摸的运动检测为手势）等等。输出设备的示例包括显示设备（例如，显示器或投影仪）、扬声器、打印机、网卡、触觉响应设备等。因此，计算设备910可以以下面进一步描述的各种方式进行配置以支持用户交互。

计算设备910还包括应用916。应用916可以例如是训练目标图像检索模型的装置900的软件实例，并且与计算设备910中的其他元件相组合地实现本文描述的技术。

本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地，这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”、“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的，意味着这些技术可以在具有各种处理器的各种计算平台上实现。

所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备访问的各种介质。作为示例而非限制，计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。

与单纯的信号传输、载波或信号本身相反，“计算机可读存储介质”是指能够持久存储信息的介质和/或设备，和/或有形的存储装置。因此，计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息（诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据）的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘（DVD）或其他光学存储装置、硬盘、盒式磁带、磁带，磁盘存储装置或其他磁存储设备，或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。

“计算机可读信号介质”是指被配置为诸如经由网络将指令发送到计算设备的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其它传输机制的调制数据信号中。信号介质还包括任何信息传递介质。术语“调制数据信号”是指这样的信号，该信号的特征中的一个或多个被设置或改变，从而将信息编码到该信号中。作为示例而非限制，通信介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其它无线介质的无线介质。

如前所述，硬件元件914和计算机可读介质912代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑，其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上***、专用集成电路（ASIC）、现场可编程门阵列（FPGA）、复杂可编程逻辑器件（CPLD）以及硅中的其它实现或其他硬件设备的组件。在这种上下文中，硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备，以及用于存储用于执行的指令的硬件设备，例如，先前描述的计算机可读存储介质。

前述的组合也可以用于实现本文所述的各种技术和模块。因此，可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件914体现的一个或多个指令和/或逻辑。计算设备910可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此，例如通过使用处理***的计算机可读存储介质和/或硬件元件914，可以至少部分地以硬件来实现将模块实现为可由计算设备910作为软件执行的模块。指令和/或功能可以由一个或多个制品（例如，一个或多个计算设备910和/或处理***911）可执行/可操作以实现本文所述的技术、模块和示例。

在各种实施方式中，计算设备910可以采用各种不同的配置。例如，计算设备910可以被实现为包括个人计算机、台式计算机、多屏幕计算机、膝上型计算机、上网本等的计算机类设备。计算设备910还可以被实现为包括诸如移动电话、便携式音乐播放器、便携式游戏设备、平板计算机、多屏幕计算机等移动设备的移动装置类设备。计算设备910还可以实现为电视类设备，其包括具有或连接到休闲观看环境中的一般地较大屏幕的设备。这些设备包括电视、机顶盒、游戏机等。

本文描述的技术可以由计算设备910的这些各种配置来支持，并且不限于本文所描述的技术的具体示例。功能还可以通过使用分布式***、诸如通过如下所述的平台922而在“云”920上全部或部分地实现。

云920包括和/或代表用于资源924的平台922。平台922抽象云920的硬件（例如，服务器）和软件资源的底层功能。资源924可以包括在远离计算设备910的服务器上执行计算机处理时可以使用的应用和/或数据。资源924还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。

平台922可以抽象资源和功能以将计算设备910与其他计算设备连接。平台922还可以用于抽象资源的分级以提供遇到的对于经由平台922实现的资源924的需求的相应水平的分级。因此，在互连设备实施例中，本文描述的功能的实现可以分布在整个***900内。例如，功能可以部分地在计算设备910上以及通过抽象云920的功能的平台922来实现。

本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算设备执行上述各种可选实现方式中提供的训练目标图像检索模型的方法。

应当理解，为清楚起见，参考不同的功能单元对本申请的实施例进行了描述。然而，将明显的是，在不偏离本申请的情况下，每个功能单元的功能性可以被实施在单个单元中、实施在多个单元中或作为其它功能单元的一部分被实施。例如，被说明成由单个单元执行的功能性可以由多个不同的单元来执行。因此，对特定功能单元的参考仅被视为对用于提供所描述的功能性的适当单元的参考，而不是表明严格的逻辑或物理结构或组织。因此，本申请可以被实施在单个单元中，或者可以在物理上和功能上被分布在不同的单元和电路之间。

将理解的是，尽管第一、第二等术语在本文中可以用来描述各种设备、元件、部件或部分，但是这些设备、元件、部件或部分不应当由这些术语限制。这些术语仅用来将一个设备、元件、部件或部分与另一个设备、元件、部件或部分相区分。

尽管已经结合一些实施例描述了本申请，但是其不旨在被限于在本文中所阐述的特定形式。相反，本申请的范围仅由所附权利要求来限制。附加地，尽管单独的特征可以被包括在不同的权利要求中，但是这些可以可能地被有利地组合，并且包括在不同权利要求中不暗示特征的组合不是可行的和/或有利的。特征在权利要求中的次序不暗示特征必须以其工作的任何特定次序。此外，在权利要求中，词“包括”不排除其它元件，并且术语“一”或“一个”不排除多个。权利要求中的附图标记仅作为明确的例子被提供，不应该被解释为以任何方式限制权利要求的范围。

Claims

1.一种训练目标图像检索模型的方法，用于使经训练的目标图像检索模型相对于原始图像检索模型具备后向兼容性，其特征在于，所述方法包括：

获取用于训练所述目标图像检索模型的样本图像数据和标签；

将所述样本图像数据输入到所述原始图像检索模型中，以得到所述样本图像数据对应的第一特征向量；

对所述第一特征向量进行类别表征操作，以确定所述第一特征向量的类别表征结果；

将所述样本图像数据输入到所述目标图像检索模型，以得到所述样本图像数据对应的第二特征向量；

将所述第二特征向量输入到所述目标图像检索模型的目标分类器，以得到目标预测分类结果；

基于每个样本图像数据对应的所述第二特征向量、所述第一特征向量的类别表征结果、所述标签和所述目标预测分类结果，确定所述目标图像检索模型的综合损失函数；

基于所述综合损失函数更新所述目标图像检索模型的参数，使得所述目标图像检索模型达到收敛，以完成所述目标图像检索模型的训练。

2.根据权利要求1所述的方法，其中，所述综合损失函数由后向兼容损失函数和分类损失函数构建，并且，

基于每个样本图像数据对应的所述第二特征向量、所述第一特征向量的类别表征结果、所述标签和所述目标预测分类结果，确定所述目标图像检索模型的综合损失函数包括：

基于所述第二特征向量和所述第一特征向量的类别表征结果，确定所述目标图像检索模型的后向兼容损失函数；以及，

基于所述标签和所述目标预测分类结果，确定所述目标图像检索模型的分类损失函数。

3. 根据权利要求2所述的方法，其中，对所述第一特征向量进行类别表征操作包括：

基于所述标签，对所述第一特征向量进行分类操作，以及

确定每类第一特征向量的类中心向量，作为所述第一特征向量的类别表征结果；

并且，

基于所述第二特征向量和所述第一特征向量的类别表征结果，确定所述目标图像检索模型的后向兼容损失函数包括：

确定每个样本图像数据对应的所述第二特征向量与所述第一特征向量的类中心向量的相似度；以及，

基于所述相似度，确定所述目标图像检索模型的后向兼容损失函数。

4.根据权利要求3所述的方法，其中，确定每类第一特征向量的类中心向量包括：

将属于同一类的第一特征向量拼接成特征向量矩阵；

将属于同一类的第一特征向量各自对应的第二特征向量之间的相似度构成对称矩阵；

对所述对称矩阵进行归一化操作，以得到转移矩阵；

通过所述特征向量矩阵和所述转移矩阵，确定经调节的第一特征向量；

确定所述经调节的第一特征向量的类中心向量，作为每类第一特征向量的类中心向量。

5. 根据权利要求4所述的方法，其中，通过所述特征向量矩阵和所述转移矩阵，确定所述经调节的第一特征向量包括：

通过所述转移矩阵对所述特征向量矩阵进行至少一次乘法运算，以得到迭代矩阵；以及

对所述迭代矩阵和所述特征向量矩阵进行加权求和处理，以得到由所述经调节的第一特征向量构成的调节矩阵，从而得到所述经调节的第一特征向量。

6.根据权利要求5所述的方法，其中，对所述迭代矩阵和所述特征向量矩阵进行加权求和处理包括：

对所述迭代矩阵赋予λ的权重，对所述特征向量矩阵赋予1-λ的权重，并进行加法运算，其中λ的范围是0.85-0.95。

7.根据权利要求6所述的方法，其中，通过所述特征向量矩阵和所述转移矩阵，确定经调节的第一特征向量包括：

按照公式

确定所述调节矩阵，从而得到所述经调节的第一特征向量，其中V表示调节矩阵，其中

表示所述特征向量矩阵，

表示所述转移矩阵，I表示单位矩阵。

8.根据权利要求1所述的方法，其中，获取用于训练所述目标图像检索模型的样本图像数据和标签包括：

确定所述样本图像数据的类别属于用于训练所述原始图像检索模型的原始样本图像数据的类别；并且，

对所述第一特征向量进行类别表征操作，以确定所述第一特征向量的类别表征结果包括：

将所述第一特征向量输入到所述原始图像检索模型的原始分类器，以得到第一原始分类结果，作为所述第一特征向量的类别表征结果；

所述方法还包括：将所述第二特征向量输入到所述原始图像检索模型的所述原始分类器，以得到第二原始分类结果；并且，

基于每个样本图像数据对应的所述第二原始分类结果、所述第一原始分类结果、所述标签和所述目标预测分类结果，确定所述目标图像检索模型的所述综合损失函数。

9.根据权利要求8所述的方法，其中，所述综合损失函数由后向兼容损失函数和分类损失函数构建，并且，

基于每个样本图像数据对应的所述第二原始分类结果、所述第一原始分类结果、所述标签和所述目标预测分类结果，确定所述目标图像检索模型的所述综合损失函数包括：

基于所述第二原始分类结果和所述第一原始分类结果，确定所述目标图像检索模型的后向兼容损失函数；以及，

10.根据权利要求2或9所述的方法，其中，所述后向兼容损失函数和所述分类损失函数都采用ArcFace函数。

11.一种训练目标图像检索模型的装置，用于使经训练的目标图像检索模型相对于原始图像检索模型具备后向兼容性，其特征在于，所述装置包括：

样本图像数据和标签获取模块，其配置成获取用于训练所述目标图像检索模型的样本图像数据和标签；

第一特征向量确定模块，其配置成将所述样本图像数据输入到所述原始图像检索模型中，以得到所述样本图像数据对应的第一特征向量；

类别表征模块，其配置成对所述第一特征向量进行类别表征操作，以确定所述第一特征向量的类别表征结果；

第二特征向量确定模块，其配置成将所述样本图像数据输入到所述目标图像检索模型，以得到所述样本图像数据对应的第二特征向量；

目标预测分类模块，其配置成将所述第二特征向量输入到所述目标图像检索模型的目标分类器，以得到目标预测分类结果；

综合损失函数确定模块，其配置成基于每个样本图像数据对应的所述第二特征向量、所述第一特征向量的类别表征结果、所述标签和所述目标预测分类结果，确定所述目标图像检索模型的综合损失函数；

模型参数更新模块，其配置成基于所述综合损失函数更新所述目标图像检索模型的参数，使得所述目标图像检索模型达到收敛，以完成所述目标图像检索模型的训练。

12.一种计算设备，包括：

存储器，其被配置成存储计算机可执行指令；

处理器，其被配置成当所述计算机可执行指令被处理器执行时执行根据权利要求1至10中的任一项所述的方法。

13.一种计算机可读存储介质，其存储有计算机可执行指令，当所述计算机可执行指令被执行时，执行根据权利要求1至10中的任一项所述的方法。

14.一种计算机程序产品，包括计算机可执行指令，其中所述计算机可执行指令被处理器执行时执行根据权利要求1至10中的任一项所述的方法。