CN111858999B

CN111858999B - 一种基于分段困难样本生成的检索方法及装置

Info

Publication number: CN111858999B
Application number: CN202010586972.9A
Authority: CN
Inventors: 祝闯; 董慧慧; 齐勇刚; 刘军; 刘芳
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2022-10-25
Anticipated expiration: 2040-06-24
Also published as: CN111858999A

Abstract

本发明实施例提供了一种基于分段困难样本生成的检索方法及装置，其中，方法包括：使用原始三元图像组的样本集中的所有样本，通过对原始三元图像组的样本集中每一组原始三元图像组增加困难程度；并且在THSG的第一阶段中，增加正样本对的困难程度，得到困难正样本对的同时，保证困难正样本对的标签与原始正样本对的标签一致，以及在第二阶段增加原始负样本的困难程度，得到最终困难负样本和最终困难正样本对，提高样本集的有效使用性。进一步的，使用最终困难三元样本组，能够为较少的训练集补充有效的困难样本，从而使得模型能够更好的被训练。同时，通过使用困难样本对训练，得到更加强健、鲁棒的特征提取的检索模型。

Description

一种基于分段困难样本生成的检索方法及装置

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于分段困难样本生成的检索方法及装置。

背景技术

深度度量学习(Deep Metric Learning，简称DML)方法旨在学习功能强大的度量准则，以准确而稳健地测量数据之间的相似性。目前，DML的发展使其能够广泛的应用于各个领域，例如图像检索，人员重新识别，聚类等多媒体任务领域。

以上述图像检索为例进行说明。目前基于DML的图像检索方法有多种，主要有一种基于度量学习构建模型方法，而，在度量学习中，多组三元图像组样本作为构建模型的输入，其中，每组三元图像组样本是由同一标签的一对正样本以及与该正样本的标签不同的负样本组成的。但是，在一些小规模数据集中，能够构建出的三元图像组样本数量有限。比如在野生动物图像检索过程中，由于一些野生珍稀动物的图像数据量较小，使用上述方式构建出的关于野生珍稀动物的三元图像组样本数量过少，使得模型无法进行有效的训练，进而降低了检索动物图像的有效性。

总之，在一些小规模数据集中，能够构建出的三元图像组样本数量有限，使得模型无法进行有效的训练，从而降低了检索的有效性。

发明内容

本发明实施例的目的在于提供一种基于分段困难样本生成的检索方法及装置，用以解决现有技术中在一些小规模数据集中，能够构建出的三元图像组样本数量有限，使得模型无法进行有效的训练，从而降低了检索的有效性的技术问题。具体技术方案如下：

第一方面，本发明实施例提供了基于分段困难样本生成的检索方法，包括：

提取待检索图像的特征；

将所述待检索图像的特征作为检索模型的输入，通过所述检索模型，得到与所述待检索图像相关的检索结果，以及所述待检索图像的特征与所述检索模型数据库中图像的特征之间的距离分数；其中，所述检索模型是基于作为样本集的原始三元图像组以及通过两阶段的困难样本生成框架THSG得到的最终困难三元样本组训练得到的；其中，所述最终困难三元样本组是通过所述THSG的第一阶段中，对原始三元图像组中原始正样本对增加困难程度，得到困难正样本对；调整所述困难正样本对的标签与所述原始正样本对的标签一致，输出调整后困难正样本对和所述原始三元图像组中原始负样本至所述THSG的第二阶段；在所述THSG的第二阶段中，对所述原始负样本增加困难程度，得到最终困难负样本及最终困难正样本对；合成所述最终困难正样本对与所述最终困难负样本，得到最终困难三元样本组；

根据所述距离分数的高低，对与所述待检索图像相关的检索结果进行排序，得到与所述待检索图像最相关的检索结果。

进一步的，所述提取待检索图像的特征，包括：

提取待检索动物图像的特征；

所述将所述待检索图像的特征作为检索模型的输入，通过所述检索模型，得到与所述待检索图像相关的检索结果，以及所述待检索图像的特征与所述检索模型数据库中图像的特征之间的距离分数，包括：

将所述待检索动物图像的特征作为检索模型的输入，通过所述检索模型，得到与所述待检索动物图像相关的检索结果，以及所述待检索动物图像的特征与所述检索模型数据库中图像的特征之间的距离分数；

所述根据所述距离分数的高低，对与所述待检索图像相关的检索结果进行排序，得到所述待检索图像最相关的检索结果，包括：

根据所述距离分数的高低，对与所述待检索图像相关的检索结果进行排序，得到与所述待检索动物图像最相关的动物检索结果。

进一步的，通过如下步骤，得到所述检索模型：

获取作为样本集的原始三元图像组；

在两阶段的困难样本生成框架THSG的第一阶段中，采用分段线性拉伸PLM的方式，对所述原始正样本对拉伸，增加困难程度，得到困难正样本对；其中，所述困难正样本对包括：困难候选样本和困难正样本；

基于已训练第一生成对抗神经网络，调整所述困难正样本对的标签与所述原始正样本对的标签一致，输出调整后困难正样本对，以及所述原始负样本至所述THSG的第二阶段；其中，所述已训练第一生成对抗神经网络包括：困难正样本对生成器HAPG及与所述HAPG对应的鉴别器HAPD；

在所述THSG的第二阶段中，基于已训练第二生成对抗神经网络，对所述原始负样本增加困难程度，得到最终困难负样本，并输出最终困难正样本对；其中，所述已训练第二生成对抗神经网络包括：困难三元样本生成器HTG以及与所述HTG对应的鉴别器HTD；

合成所述最终困难正样本对与所述最终困难负样本，得到最终困难三元样本组；

将最终困难三元样本组作为样本集，训练卷积神经网络，得到所述检索模型。

进一步的，所述基于已训练第一生成对抗神经网络，调整所述困难正样本对的标签与所述原始正样本对的标签一致，输出调整后困难正样本对以及所述原始负样本至所述THSG的第二阶段，包括：

基于已训练第一生成对抗神经网络和已训练第三生成对抗神经网络，调整所述困难正样本对的标签与所述原始正样本对的标签一致，输出调整后困难正样本对以及所述原始负样本至所述THSG的第二阶段，其中，所述已训练第三生成对抗神经网络包括：重建条件生成器RCG以及与所述RCG对应的鉴别器RCD。

进一步的，所述在两阶段的困难样本生成框架THSG的第一阶段中，采用分段线性拉伸PLM的方式，对所述原始正样本对拉伸，增加困难程度，得到困难正样本对，包括：

采用分段线性拉伸PLM的方式中的分段线性操作公式，对所述原始正样本对拉伸，增加困难程度，得到困难正样本对，其中，所述分段线性操作公式包括：

a^*＝a+λ(a-p)

p^*＝p+λ(p-a)

其中，a^*为困难候选样本，a为原始候选样本，λ为拉伸距离系数，p为原始正样本，p^*为困难正样本，α为偏置超参数，d₀为分段系数，d(a,p)为原始候选样本a与原始正样本p之间的距离，γ为线性超参数；

或者，采用分段线性拉伸PLM的方式中的优选分段线性操作公式，对所述原始正样本对拉伸，增加困难程度，得到困难正样本对，其中，所述优选分段线性操作公式包括：

其中，d_epoch-1为上一次训练过程中计算的正样本对的平均距离，其中正样本对包括：上一次为首次训练过程时的原始正样本，以及上一次为非首次训练过程时的困难正样本对。

进一步的，所述RCD与所述HAPD输入和输出不同，采用如下公式，确定RCD和HAPD：

其中，

为生成样本经过鉴别器后的特征，R(x′_i)为输入数据经过鉴别器后的输出，

为第i个生成样本，x′_i为第i个输入样本，

为归一化softmax类别损失，

为鉴别器的损失函数。

进一步的，通过如下函数，得到HAPG：

其中，

为HAPG损失函数，

为HAPD类别损失，

为，HAPG类别损失，cls为种类，

为归一化指数函数类别损失，HAPD(x′_i)为生成的困难正样本通过HAPD的输出，C_HAPG(x′_i)为对HAPG的输出经过分类后的类别，x′_i为第i个生成困难样本。

进一步的，采用如下RCG的损失公式，确定RCG，其中，所述RCG的损失公式如下：

其中，

为RCG损失函数的数值，

为重建前样本与重建后样本之间的L2距离，η为归一化指数函数和重建损失之间的平衡因子，

为重建条件鉴别器损失，cls为类别表征，C_RCG为重建条件生成器损失，

为RCG的重建条件生成器损失具体形式，x^r为HAPG的生成样本经过RCG的重建向量，x为原始向量，

为归一化指数函数的类别损失，sm为归一化指数函数的简称，

为第i个重建后的具体向量，

为重建后向量经过鉴别器的输出，l_i为第i个类别标签，i为序号。

进一步的，所述基于已训练第二生成对抗神经网络，对所述原始负样本增加困难程度，得到最终困难负样本，包括：

基于已训练第二生成对抗神经网络，采用自适应的反转三重态损失公式，对所述原始负样本增加困难程度，得到最终困难负样本，其中所述自适应的反转三重态损失公式为：

其中，

为HTG的损失函数，η为归一化指数函数和重建损失之间的平衡因子，μ为重建损失平衡参数，

为自适应反转损失，

为重建损失，

为HTD分类损失，

为HTG分类损失，

为HTG生成的候选样本，

为HTG生成的正样本，

为HTG生成的负样本，a为原始候选样本，

为重建损失，p为原始正样本，

为分类损失，

为HTG生成样本统称，l_i为类别标签，C_HTG为HTG损失函数，

为反转三重态损失，

为反转三重态损失，

其中，a′为正样本输入，

n为负样本输入，

p′为正样本输入，

L2距离，[.]₊为从0处截断，τ_r为反转三重态损失超参数，

v为常量并且v的取值范围是0～正无穷，β为常量并且β的取值范围是，0～正无穷，

为HTG的损失函数；

采用如下公式，得到HTD：

其中，

为HTD损失函数的数值，C为原始类别编号，

为以

为输入经过所述HTD得到的结果，HTD(x_i)为以原始样本x为输入经过所述HTD得到的结果。

第二方面，本发明实施例提供了一种基于分段困难样本生成的检索装置，包括：

提取模块，用于提取待检索图像的特征；

处理模块，用于将所述待检索图像的特征作为检索模型的输入，通过所述检索模型，得到与所述待检索图像相关的检索结果，以及所述待检索图像的特征与所述检索模型数据库中图像的特征之间的距离分数；其中，所述检索模型是基于作为样本集的原始三元图像组以及通过两阶段的困难样本生成框架THSG得到的最终困难三元样本组训练得到的；其中，所述最终困难三元样本组是通过所述THSG的第一阶段中，对原始三元图像组中原始正样本对增加困难程度，得到困难正样本对；调整所述困难正样本对的标签与所述原始正样本对的标签一致，输出调整后困难正样本对和所述原始三元图像组中原始负样本至所述THSG的第二阶段；在所述THSG的第二阶段中，对所述原始负样本增加困难程度，得到最终困难负样本及最终困难正样本对；合成所述最终困难正样本对与所述最终困难负样本，得到最终困难三元样本组；

排序模块，用于根据所述距离分数的高低，对与所述待检索图像相关的检索结果进行排序，得到与所述待检索图像最相关的检索结果。

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面任一的方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面任一的方法。

本发明实施例有益效果：

本发明实施例提供的基于分段困难样本生成的检索方法及装置，相较于现有技术，使用原始三元图像组的样本集中的所有样本，通过对原始三元图像组的样本集中每一组原始三元图像组增加困难程度；并且在THSG的第一阶段中，增加正样本对的困难程度，得到困难正样本对的同时，保证困难正样本对的标签与原始正样本对的标签一致，以及在第二阶段增加原始负样本的困难程度，得到最终困难负样本和最终困难正样本对，提高样本集的有效使用性。进一步的，使用最终困难三元样本组，能够为较少的训练集补充有效的困难样本，从而使得模型能够更好的被训练。同时，通过使用困难样本对训练，得到更加强健、鲁棒的特征提取的检索模型。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于分段困难样本生成的检索方法的第一流程示意图；

图2为本发明实施例提供的基于分段困难样本生成的检索方法的第二流程示意图；

图3为本发明实施例提供的基于分段困难样本生成的检索方法的第三流程示意图；

图4为本发明实施例的基于分段困难样本生成的检索方法的第四流程示意图；

图5为本发明实施例的基于分段困难样本生成的检索装置的结构示意图；

图6为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先，为了方便理解本发明实施例，在此先介绍一下本发明实施例中下文的使用术语“待检索图像”、“原始三元图像组”、“原始候选样本”、“原始正样本”、“原始正样本对”、“原始负样本”、“困难候选样本”、“困难正样本对”、“困难负样本”、“最终困难三元样本组”、“调整后困难正样本对”、“最终困难正样本对”、“与待检索图像相关的检索结果”及“与待检索图像最相关的检索结果”等。

上述“待检测图像”的“待检索”和“检索模型数据库中的图像”中的“检索模型数据库”，用于区分两个图像。待检索图像为尚未用于检索的候选图像，待检索图像的获得方式不做限制，可以是拍摄得到的，也可以是预先存储的，这样此待检测消息需要使用检测模型进行检测，才能知道待检索图像所需检索的内容。而检索模型数据库中的图像为作为检测器的最终困难三元样本组的生成基础，是此检索模型数据库中的图像有标签，此标签用于表示检索模型数据库中的图像的具体类型标签。使用此原始消息，通过基于作为样本集的原始三元图像组以及通过两阶段的困难样本生成框架(Two-Stage Hard SamplesGeneration，简称THSG)训练得到的最终困难三元样本组，并使用最终困难三元样本组训练得到特征提取模型，也就是训练好的卷积神经网络(Convolutional Neural Networks，简称CNN)，使得特征提取模型能够学习到此检索模型数据库中的图像的特征。这样训练好的CNN可以称为检索模型。对此，未训练前的卷积神经网络可以称为待训练的检索模型。

上述原始候选样本中的“原始”、原始正样本中的“原始”以及原始负样本中的“原始”以及“原始正样本对”中的“原始”、“困难候选样本”中的“困难”、“困难正样本对”中的“困难”、“困难负样本”中的“困难”、“调整后困难正样本对”中的“调整后困难”、“最终困难正样本对”中的“最终困难”是为了区分各个样本。所谓的样本对是指由同类型标签的两个样本组成的。而原始三元图像组、原始候选样本、原始正样本、原始正样本对、原始负样本可以统称为原始样本。困难候选样本、困难正样本对、困难负样本、最终困难三元样本组、调整后困难正样本对、最终困难正样本对可以统称为困难样本。

并且，每一组原始三元图像组包括：由原始候选样本、与所述原始候选样本同标签的原始正样本组成的一原始正样本对以及与所述原始候选样本标签不同的一原始负样本。每一组困难三元图像组包括：由困难候选样本、与所述困难候选样本同标签的困难正样本组成的一困难正样本对以及与所述困难候选样本标签不同的一困难负样本。

与待检索图像相关的检索结果中“相关”，以及与待检索图像最相关的检索结果中“最相关”，是为了区分两个检索结果，并且待检索图像最相关的检索结果是从与待检测图像相关的检索结果中确定出来的。

为了从整体上把握本发明实施例的思路，以下简略介绍一下整体的实现过程：如图1较细黑线所示的一路，对CNN进行训练，以得到训练好的CNN，比如，获取样本集，基于样本集，通过两阶段的困难样本生成框架THSG训练得到的最终困难三元样本组，辅助训练CNN，得到训练好的CNN。将训练好的CNN作为检测模型，在如图1较粗黑线所示的另一路，获取待检测图像，并提取待检测图像的特征，通过检测模型，最终输出与待检测图像最相关的检索结果。以下进行详细叙述。

针对现有技术中在一些小规模数据集中，能够构建出的三元图像组样本数量有限，使得模型无法进行有效的训练，从而降低了检索的有效性的问题，本发明实施例提供一种基于分段困难样本生成的检索方法及装置，使用原始三元图像组的样本集中的所有样本，通过对原始三元图像组的样本集中每一组原始三元图像组增加困难程度；并且在THSG的第一阶段中，增加正样本对的困难程度，得到困难正样本对的同时，保证困难正样本对的标签与原始正样本对的标签一致，以及在第二阶段增加原始负样本的困难程度，得到困难负样本，提高样本集的有效使用性。进一步的，使用生成的困难三元样本组作为样本集，能够为较少的训练集补充有效的困难样本，从而使得模型能够更好的被训练。同时，通过使用困难样本对训练，得到更加强健、鲁棒的特征提取的检索模型。

下面首先对本发明实施例提供的一种基于分段困难样本生成的检索方法进行介绍。

本发明实施例所提供的一种基于分段困难样本生成的检索方法，应用于人员图像或动物图像等场景中。进一步的，DML可以应用于视觉产品检索，零镜头图像检索，高光图像检测和人脸图像检索等多媒体任务场景中。这样可以实现DML的目的，可以将相似的示例保持在相近的位置，并使相异的示例彼此远离。

如图2所示，本发明实施例所提供的一种基于分段困难样本生成的检索方法，该方法可以包括如下步骤：

步骤110，提取待检索图像的特征。这样可以从待检索图像中提取检索模型尚未识别的特征。

步骤120，将所述待检索图像的特征作为检索模型的输入，通过所述检索模型，得到与所述待检索图像相关的检索结果，以及所述待检索图像的特征与所述检索模型数据库中图像的特征之间的距离分数；其中，所述检索模型是基于作为样本集的原始三元图像组以及通过THSG得到的最终困难三元样本组训练得到的；其中，所述最终困难三元样本组是通过所述THSG的第一阶段中，对原始三元图像组中原始正样本对增加困难程度，得到困难正样本对；调整所述困难正样本对的标签与所述原始正样本对的标签一致，输出调整后困难正样本对和所述原始三元图像组中原始负样本至所述THSG的第二阶段；在所述THSG的第二阶段中，对所述原始负样本增加困难程度，得到最终困难负样本及最终困难正样本对；合成所述最终困难正样本对与所述最终困难负样本，得到最终困难三元样本组。这样根据最后一个公式，即如下公式13的约束，也就是让负样本离候选样本越近越好，这样越困难越好。

步骤130，根据所述距离分数的高低，对与所述待检索图像相关的检索结果进行排序，得到与所述待检索图像最相关的检索结果。

为了能够方便更好的排序，得到与待检索图像最相关的检索结果，可以按照距离分数由高到低的顺序，对待检索图像相关的检索结果进行排序；将排序靠前的N位作为待检索图像最相关的检索结果；或者可以按照距离分数由低到高的顺序，对待检索图像相关的检索结果进行排序；将排序靠后的N位作为待检索图像最相关的检索结果；具体是N位可以是根据用户需求确定，一般可以N可以是指10，在此不做限定。

基于上述内容的描述，在野生动物研究中，根据拍摄到的图片检索到相似动物的图片，以进行对该动物的生活习性、行动轨迹、地域分布等方面的研究，尤其是在野生珍稀动物的研究中，比如对野生珍稀动物比如野生大熊猫的保护，更甚是对野生濒危动物比如羚羊的保护中，需要识别出这些野生动物或检索出这些野生动物，通过深度学习有效提升其效率。因此为了能够在野生动物图片库中执行图像检索等任务时得到更好的图片特征表达，从而实现更高的检索性能。本发明实施例在此以应用于野生动物图像检索为例进行说明，比如，提取待检索动物图像的特征；将所述待检索动物图像的特征作为检索模型的输入，通过所述检索模型，得到与所述待检索动物图像相关的检索结果，以及所述待检索动物图像的特征与所述检索模型数据库中图像的特征之间的距离分数；根据所述距离分数的高低，对与所述待检索图像相关的检索结果进行排序，得到与所述待检索动物图像最相关的动物检索结果。其中，此处的检索模型是作为样本集的原始三元样本组训练得到的，其中此作为样本集的原始三元样本组是指野生动物图像作为样本集的原始三元样本组，此检索模型的训练过程方式与上述步骤110至步骤130的检索模型的训练过程方式，除以处理的对象，即野生动物图像和图像的对象不同外，具体训练过程方式相同，均可参照上述步骤110至步骤130的检索模型的训练过程方式，在此不再赘述。

在本发明实施例中，使用原始三元图像组的样本集中的所有样本，通过对原始三元图像组的样本集中每一组原始三元图像组增加困难程度；并且在THSG的第一阶段中，增加正样本对的困难程度，得到困难正样本对的同时，保证困难正样本对的标签与原始正样本对的标签一致，以及在第二阶段增加原始负样本的困难程度，得到困难负样本，提高样本集的有效使用性。进一步的，使用生成的困难三元样本组作为样本集，能够为较少的训练集补充有效的困难样本，从而使得模型能够更好的被训练。同时，通过使用困难样本对训练，得到更加强健、鲁棒的特征提取的检索模型。

需要说明的是，生成对抗神经网络包括：生成器和鉴别器，第一步，通过获取生成器的输入样本，采用所述生成器的神经网络的前向推导，得到生成器的生成样本，并将生成器的输入样本与生成器的生成样本作为鉴别器的输入数据，通过鉴别器神经网络的分类训练，鉴别所述鉴别器的输入数据来源是生成器的输入样本，或者是生成器的生成样本；若鉴别所述鉴别器的输入数据是所述生成器的生成样本，则将所述鉴别器产生的关于生成器生成样本的梯度信息返回至生成器；利用所述第一梯度信息调整所述生成器的神经网络，并利用调整后的生成器的神经网络，更新生成器的神经网络，返回上述第一步继续执行，直至鉴别器神经网络的分类训练，鉴别所述鉴别器的输入数据的来源为生成器的输入样本，则将当前生成样本输出。

基于上述生成对抗神经网络，得到检索模型过程中，对于得到调整后困难正样本对的方式有多种，比如一种可能的实现方式是：基于一个生成对抗神经网络，调整困难正样本对的标签与原始正样本对的标签一致，输出调整后困难正样本对，以及原始负样本至THSG的第二阶段。为了能够使得输出的调整后困难正样本对的多样性，基于两个生成对抗神经网络，调整困难正样本对的标签与原始正样本对的标签一致，输出调整后困难正样本对，以及原始负样本至THSG的第二阶段，其中，通过两个生成对抗神经网络中一个生成对抗神经网络优化另一个神经网络的输出，使得得到调整后困难正样本对的多样性。

结合上述得到调整后困难正样本对的方式，以下详细介绍一下，如何得到检索模型。

参见图4所示，第1步，获取作为样本集的原始三元图像组。

上述第1步进一步包括：将上述原始三元图像组作为特征提取网络F中的输入图像并所述输入图像带有标签，将带有标签的输入图像称为一个输入样本，通过如下公式1提取所述输入样本的特征，这样可以将提取所述输入样本的特征作为在THSG的第一阶段中的输入，用于采用分段线性拉伸(Piecewise Linear Manipulation，简称PLM)的方式，对原始正样本对拉伸。其中，特征提取网络F可以为CNN，上述公式1如下：

其中，

表示最优的参数选择，m表示min的缩写，*表示最优，J表示，整体损失函数，θ_m是特征提取网络F的参数，l_i是训练输入样本x_i的相应标签，输入样本x_i中的输入图像为I＝[I₁，...，I_n]，并且，输入图像I＝[I₁，...，I_n]的标签为L＝[l₁，…，l_i，…，l_n]，其中，l_i∈[1，…，C]，I₁表示，第一个输入图像，I_n表示第n个输入图像，l₁表示第一个输入图像的类别，l_n表示第n个输入图像的类别，n表示序号，即第n个，l_i表示第i个输入图像的类别，i表示第i个，C表示输入图像总类别个数。采用上述特征提取网络F提取输入图像的特征为F(I_i)∈R^N，N表示特征空间维度，R表示实数。将输入图像的特征F(i)映射矩阵为X＝[X₁，...，X_n]，其中，X₁表示第1个输入图像的提取特征，X_n表示第n个输入图像的提取特征。特征提取网络F的最后一层是执行空间映射的全连接层H_e。使用距离损失函数是为了学习特征空间中的距离度量，以便它可以反映实际的语义距离。为了确保困难样本和原始样本之间的标签一致性，在特征提取网络F的最后一层，即全连接层H_e之后添加一个全连接层H_c进行分类，该层由归一化softmax损失函数进行训练。在生成样本时，采用重用H_c层，如上述公式1执行距离度量损失来训练θ_m。

基于上述内容，以下继续说明通过对抗性困难样本生成来增强训练过程。本发明实施例以对抗的方式同时训练生成器和距离度量网络。为了获得更有效的困难样本，生成的困难样本的过程分为两个阶段，THSG的第一阶段的主要目的是生成困难候选样本-正样本，以下称其为困难正样本对。THSG的第二阶段的主要目的是进一步改善困难样本生成。这样在最后的训练阶段中，所有阶段的损失都被合并以确保深度度量学习的表现。如图1所示。

第2步，在两阶段的困难样本生成框架THSG的第一阶段11中，采用分段线性拉伸PLM的方式，对原始正样本对拉伸，增加困难程度，得到困难正样本对；其中，困难正样本对包括：困难候选样本和困难正样本。

为了能够得到困难正样本对，线性拉伸正样本对的嵌入特征，如图3所示，以便它们沿二者中心点的方向偏离，生成一个困难候选样本和正样本对a^*，p^*如公式2所示。上述第2步，在一种可能的实现方式中，采用分段线性拉伸PLM的方式中的分段线性操作公式，对所述原始正样本对拉伸，增加困难程度，得到困难正样本对，其中，所述分段线性操作公式包括：

在拉伸过程中，如果λ的值太大，则正样本对可能会拉伸为其他类别。即使增加了雷剑距离，生成的样本在训练过程中也只能起负面作用。为了确保生成的样本与原始样本的标签一致性，本发明实施例需要限制λ的范围和大小。

其中，a^*为困难候选样本，a为原始候选样本，λ为拉伸距离系数，p为原始正样本，p^*为困难正样本，α为偏置超参数，d₀为分段系数，d(a,p)为原始候选样本a与原始正样本p之间的距离，γ为线性超参数。

当d(a,p)已经足够大，即大于d₀时，本发明实施例使用指数函数公式3。此时，λ的最大值为α，最小值为0。当d(a,p)之间的距离小于d₀时，本发明实施例使用线性函数公式4。此时，λ的最大值为α+d₀*γ，最小值为α。但是，在γ的计算中，d₀与不同数据集中样本的距离分布有关，因此很难在各种数据集中手动进行调整。为了更好地挖掘每个数据集中的最佳超参数d₀，在另一种可能的实现方式中，采用分段线性拉伸PLM的方式中的优选分段线性操作公式，对所述原始正样本对拉伸，增加困难程度，得到困难正样本对，其中，所述优选分段线性操作公式包括：

其中，d_epoch-1为上一次训练过程中计算的正样本对的平均距离，其中正样本对包括：上一次为首次训练过程时的原始正样本，以及上一次为非首次训练过程时的困难正样本对。在分段线性地操纵上述对之后，本发明实施例得到了困难正样本对。接下来，将使用生成器使拉伸后的正样本对更加有效。

第3步，基于已训练第一生成对抗神经网络，调整困难正样本对的标签与原始正样本对的标签一致，输出调整后困难正样本对，以及原始负样本至THSG的第二阶段12；其中，已训练第一生成对抗神经网络包括：困难正样本对生成器(Hard Anchor-PositiveGenerator，简称HAPG)及与HAPG对应的鉴别器，即困难正样本对鉴别器(Hard Anchor-Positive Discriminator，简称HAPD)；其中，步骤A1，通过将困难正样本对作为HAPG的输入样本，采用HAPG的神经网络的前向推导，得到HAPG生成样本，并将HAPG的输入样本与HAPG生成样本作为HAPD的输入数据，通过HAPD神经网络的二分类训练，鉴别HAPD的输入数据的来源是HAPG生成样本，或者是HAPG的输入样本；步骤B1，若鉴别HAPD的输入数据是HAPG生成样本，则将HAPD产生的关于HAPG生成样本的第一梯度信息返回至HAPG，利用第一梯度信息调整HAPG的神经网络，并利用调整后的HAPG的神经网络，更新HAPG的神经网络，返回步骤A1继续执行，直至HAPD神经网络的二分类训练，鉴别HAPD的输入数据的来源为HAPG的输入样本，则将当前HAPG生成样本，作为调整后困难正样本对。

在分段线性地拉伸后的正样本对之后，为了确保生成的对仍与原始样本在同一类别域中，本发明实施例要求样本需满足标签一致性，以避免生成无效的嵌入特征。但是，简单约束可能会导致模式崩塌问题。本发明实施例引入了上述第3步中的HAPG来进一步调整样本。x^*通过HAPG后，将会被映射到x′，其中，x^*可以是指图4中的a^*和p^*；x′可以是指图4中的a′和p′。

为了更好地训练HAPG，本发明实施例建立了一个与其对应的鉴别器HAPD。HAPD是一个二分类器，用于识别给定的嵌入特征是真实的特征还是生成的特征。然后，采用如下公式8中所示的损失，训练HAPD。

与重建条件生成器(Reconstruction Conditional Generator，简称RCG)对应的鉴别器，即重建条件鉴别器(Reconstruction Conditional Discriminator，简称RCD)与所述HAPD输入和输出不同，采用如下公式，确定RCD和HAPD：

其中，

为第i个生成样本，x′_i为第i个输入样本，

为归一化softmax类别损失，

为鉴别器的损失函数。

通过如下函数，得到HAPD：

其中，

为HAPD损失函数，

为HAPD判定HAPD的输入数据为真实样本，HAPD(x′_i)为HAPD判定HAPD的输入数据为假样本。

另外，为了确保分类结果的通用性，前面提到的H_c层被重新用作C_HAPG来区分生成的对。然后，本发明实施例使用损失函数公式8来训练HAPG。

通过如下函数，得到HAPG：

其中，

为HAPG损失函数，

为HAPD类别损失，

为，HAPG类别损失，cls为种类，

为归一化指数函数softmax类别损失，HAPD(x′_i)为生成的困难正样本通过HAPD的输出，C_HAPG(x′′)为对HAPG的输出经过分类后的类别，x′_i为第i个生成困难样本。

但是，在生成正样本对的过程中，仅具有一个标签一致性约束是不够的。为了提高调整后困难正样本的多样性，上述第3步进一步包括：基于已训练第一生成对抗神经网络和已训练第三生成对抗神经网络，调整困难正样本对的标签与原始正样本对的标签一致，输出调整后困难正样本对以及原始负样本至THSG的第二阶段，其中，已训练第三生成对抗神经网络包括：RCG以及与RCG对应的鉴别器RCD；其中，步骤A3，通过将困难三元样本生成器(Hard TripletGenerator，简称HTG)生成样本，以及原始三元图像组作为RCG的输入样本，采用RCG的神经网络的前向推导，得到RCG生成样本，并将RCG的输入样本与RCG生成样本作为RCD的输入数据，通过RCD神经网络的二分类训练，鉴别RCD的输入数据的来源是RCG生成样本，或者是RCG的输入样本；步骤B3，若鉴别RCD的输入数据是RCG生成样本，则将RCD产生的关于RCG生成样本的第三梯度信息返回至RCG，利用第三梯度信息调整RCG的神经网络，并利用调整后的RCG的神经网络，更新RCG的神经网络，返回步骤A3继续执行，直至RCD神经网络的二分类训练，鉴别RCD的输入数据的来源为RCG的输入样本，则将当前RCG生成样本，作为调整后困难正样本对。

在上述实施例中，无论HAPG的输入x^*处于其类别空间的何处，HAPG都可以通过从该类别空间生成随机嵌入来欺骗HAPD。在这种情况下，由HAPG生成的嵌入特征与其输入无关，并且不一定是困难样本。因此，本发明实施例引入了重建条件生成器RCG，以便通过重建损失x^r和x将x′映射回x^r，其中，x可以是指图4中的a和p，x^r可以是指图4中的a^r和p^r。这解决在HAPG生成过程中可能发生的模式崩溃问题。同样，为RCG设置了重建条件鉴别器RCD如公式9所示，RCG的损失函数为公式10所示。

具体的，通过如下函数，得到RCD：

其中，

为RCD损失函数，

为RCD判定RCD的输入数据为真实样本，HAPD(x′_i)为RCD判定RCD的输入数据为假样本。

采用如下RCG的损失公式，确定RCG，其中，所述RCG的损失公式如下：

其中，

为RCG损失函数的数值，

为第i个重建后的具体向量，

为了使HAPG生成的样本与原始样本紧密相关，本发明实施例让生成的样本与原始样本尽可能完整地进行点对点重构。同时，为了更好地训练RCG，本发明实施例还增加了与HAPG相同的softmax损失功能，以确保标签的一致性。因此RCG的softMax函数也由两部分组成。

HAPG调整后，本发明实施例的困难正样本对就满足了标签一致性的要求。同时，RCG还确保所生成的对不会由于随机生成而导致模式崩溃。接下来，本发明实施例将使用困难正样本对生成困难负样本并组成最终的困难样本。

第4步，在THSG的第二阶段中，基于已训练第二生成对抗神经网络，对原始负样本增加困难程度，得到最终困难负样本，并输出最终困难正样本对；其中，已训练第二生成对抗神经网络包括：困难三元样本生成器HTG以及与HTG对应的鉴别器，即困难三元样本鉴别器(Hard Triplet Discriminator，简称HTD)；其中，步骤A2，通过将调整后困难正样本对和原始负样本作为HTG的输入样本，采用HTG的神经网络得到困难候选样本与原始负样本的第一距离以及困难候选样本与困难正样本的第二距离，以及HTG的神经网络的前向推导得到HTG生成样本，并将HTG的输入样本与HTG生成样本作为HTD的输入数据，通过HTD神经网络的C+1分类训练，鉴别HTD的输入数据的来源是HTG生成样本，或者是HTG的输入样本；步骤B2，若鉴别HTD的输入数据的来源是HTG生成样本，则将HTD产生的关于HTG生成样本的第二梯度信息返回至HTG，利用第二梯度信息以及在第一距离小于第二距离的情况下，调整HTG的神经网络，并利用调整后的HTG的神经网络，更新HTG的神经网络，返回步骤A2继续执行，直至HTD神经网络的C+1分类训练，鉴别HTD的输入数据的来源为HTG的输入样本，则将当前HTG生成样本，作为最终困难负样本。

对于最终困难正样本对而言，是通过THSG的第二阶段，将调整后困难正样本对进行映射，并在THSG的第二阶段输出。

为了防止困难正样本对受到反向三重态损失的影响，本发明实施例让生成的正样本对通过重建损失进行重建。同时，为了更好地训练HTG，本发明实施例还增加了与HAPG相同的softmax损失功能，以确保标签的一致性。上述第4步在一种可能的实现方式中，基于已训练第二生成对抗神经网络，采用自适应的反转三重态损失公式，对所述原始负样本增加困难程度，得到最终困难负样本，其中所述自适应的反转三重态损失(Adaptive ReverseTriplet Loss，简称ART-loss)公式为：

其中，

为自适应反转损失，

为重建损失，

为HTD分类损失，

为HTG分类损失，

为HTG生成的候选样本，

HTG生成的正样本，

为HTG生成的负样本，a为原始候选样本，

为重建损失，p为原始正样本，

为分类损失，

为HTG生成样本统称，l_i为类别标签，C_HTG为HTG损失函数，

为反转三重态损失，

为反转三重态损失，

其中，a′为正样本输入，

n为负样本输入，

p′为正样本输入，

为L2距离，[.]₊为从0处截断，τ_r为反转三重态损失超参数，

为HTG的损失函数；这样在训练网络时，HTG的性能越来越好，本发明实施例对反向三重态损失施加更严格的限制，因此将τ_r设置为随

改变的参数。

随着HTG训练的更好，

会变小，而τ_r则会增加自适应性，从而增加了困难样本的难度。为了确保标签的一致性，为HTG设置了鉴别器HTD。与HAPD不同，HTD的输入来自不同的类别，因此，此HTD是一个C+1个类别鉴别器。采用如下公式，得到HTD：

其中，

为HTD损失函数的数值，C为原始类别编号，

为以

为输入经过所述HTD得到的结果，HTD(x_i)为以原始样本x为输入经过所述HTD得到的结果，

分别表示图4中

及

这样自适应反向三重态损耗使用输入样本来生成困难负样本，并且HTG产生负样本的过程中，不破坏正样本对，并确保标签一致性。

第5步，合成所述最终困难正样本对与所述最终困难负样本，得到最终困难三元样本组。

第6步，将最终困难三元样本组作为样本集，训练卷积神经网络，得到所述检索模型。

基于上述内容，本发明实施例完成对抗深度度量学***的增强；以及相应的对抗度量学习。所有生成器都重复使用H_e层，将生成的样本映射到与原始样本相同的特征空间。因此，本发明实施例在生成最终困难三元样本组后使用相应的指标，训练本发明实施例的CNN特征提取网络。因此，与传统的深度度量学习方法相比，本发明实施例的方法可以通过困难样本更好地训练CNN网络，如公式14所示。

其中，X是原始样本，而

是生成最终困难三元样本组中的各困难样本。

本发明实施例将THSG的架构应用于深度度量学习框架以提高性能。对于特征提取网络，最终的目标损失函数为公式15所示。

其中，

表示总体损失函数，F表示，final简写，是与公式12相同的预定义参数，

表示生成器损失函数，

表示基于原始样本的度量函数，φ表示参数平衡系数，

表示基于困难样本的度量函数，ori表示origin缩写，即原始样本，h表示，困难样本，φ表示

示，softmax损失函数，soft表示softmax缩写，

表示度量损失函数，t表示度量，X表示原始样本，困难正样本X′为第一阶段的输出，而

为第二阶段生成的困难负样本。因此，

是基于原始样本的度量函数，而

是基于生成的困难样本的度量函数。

为

和

之间的平衡参数。

此外，本发明实施例还可以同时训练生成网络和特征提取网络，而平衡参数

解决了生成网络在初始训练阶段的训练性能较差的问题。并且，在本发明实施例的网络训练结束之后，最终的特征提取网络无需任何额外的计算工作。

与现有技术的度量学习方法不同，现有技术仅挖掘困难样本或生成困难负样本。本发明实施例提出的THSG，该THSG可通过两阶段网络生成最终困难样本；THSG通过两个有效的独立的用于生成调整后困难正样本对的生成器以及用于生成最终负样本的生成器，进而得到最终困难样本，并且THSG旨在充分利用正样本负样本的潜力。在CUB-200-2011，Cars196和Stanford数据集上的实验结果表明，THSG有效地提高了现有困难样品生成方法的性能。

下面继续对本发明实施例提供的基于分段困难样本生成的检索装置进行介绍。

参见图5，图5为本发明实施例提供的基于分段困难样本生成的检索装置的结构示意图。本发明实施例所提供的基于分段困难样本生成的检索装置，可以包括如下模块：

提取模块21，用于提取待检索图像的特征；

处理模块22，用于将所述待检索图像的特征作为检索模型的输入，通过所述检索模型，得到与所述待检索图像相关的检索结果，以及所述待检索图像的特征与所述检索模型数据库中图像的特征之间的距离分数；其中，所述检索模型是基于作为样本集的原始三元图像组以及通过两阶段的困难样本生成框架THSG得到的最终困难三元样本组训练得到的；其中，所述最终困难三元样本组是通过所述THSG的第一阶段中，对原始三元图像组中原始正样本对增加困难程度，得到困难正样本对；调整所述困难正样本对的标签与所述原始正样本对的标签一致，输出调整后困难正样本对和所述原始三元图像组中原始负样本至所述THSG的第二阶段；在所述THSG的第二阶段中，对所述原始负样本增加困难程度，得到最终困难负样本及最终困难正样本对；合成所述最终困难正样本对与所述最终困难负样本，得到最终困难三元样本组；

排序模块23，用于根据所述距离分数的高低，对与所述待检索图像相关的检索结果进行排序，得到与所述待检索图像最相关的检索结果。

在一种可能的实现方式中，所述提取模块，用于：

提取待检索动物图像的特征；

所述处理模块，用于：

所述排序模块，用于：

在一种可能的实现方式中，所述装置还包括：生成模块，用于通过如下步骤，得到所述检索模型：

获取作为样本集的原始三元图像组；

在一种可能的实现方式中，所述生成模块，用于：

a^*＝a+λ(a-p)

p^*＝p+λ(p-a)

在一种可能的实现方式中，所述RCD与所述HAPD输入和输出不同，采用如下公式，确定RCD和HAPD：

其中，

生成样本经过鉴别器后的特征，R(x′_i)为输入数据经过鉴别器后的输出，

为第i个生成样本，x′_i为第i个输入样本，

为归一化softmax类别损失，

为鉴别器的损失函数。

在一种可能的实现方式中，通过如下函数，得到HAPG：

其中，

为HAPG损失函数，

为HAPD类别损失，

为，HAPG类别损失，cls为种类，

在一种可能的实现方式中，采用如下RCG的损失公式，确定RCG，其中，所述RCG的损失公式如下：

其中，

为RCG损失函数的数值，

为第i个重建后的具体向量，

在一种可能的实现方式中，所述生成模块，用于：：

其中，

为自适应反转损失，

为重建损失，

为HTD分类损失，

为HTG分类损失，

为HTG生成的候选样本，

为HTG生成的正样本，

为HTG生成的负样本，a为原始候选样本，

为重建损失，p为原始正样本，

为分类损失，

为HTG生成样本统称，l_i为类别标签，C_HTG为HTG损失函数，

为反转三重态损失，

为反转三重态损失，

其中，a′为正样本输入，

n为负样本输入，

p′为正样本输入，

为L2距离，[.]₊为从0处截断，τ_r为反转三重态损失超参数，

为HTG的损失函数；

采用如下公式，得到HTD：

其中，

为HTD损失函数的数值，C为原始类别编号，

为以

下面继续对本发明实施例提供的电子设备进行介绍。

参见图6，图6为本发明实施例提供的电子设备的结构示意图。本发明实施例还提供了一种电子设备，包括处理器31、通信接口32、存储器33和通信总线34，其中，处理器31，通信接口32，存储器33通过通信总线34完成相互间的通信，

存储器33，用于存放计算机程序；

处理器31，用于执行存储器33上所存放的程序时，实现上述基于分段困难样本生成的检索方法的步骤，在本发明一个可能的实现方式中，可以实现如下步骤：

提取待检索图像的特征；

上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例提供的方法可以应用于电子设备。具体的，该电子设备可以为：台式计算机、便携式计算机、智能移动终端、服务器等。在此不作限定，任何可以实现本发明实施例的电子设备，均属于本发明的保护范围。

本发明实施例提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于分段困难样本生成的检索方法的步骤。

本发明实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述的基于分段困难样本生成的检索方法的步骤。

本发明实施例提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述的基于分段困难样本生成的检索方法的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置/电子设备/存储介质/包含指令的计算机程序产品/计算机程序实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原始则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。