CN112329833A

CN112329833A - 一种基于球面嵌入的图像度量学习方法

Info

Publication number: CN112329833A
Application number: CN202011171940.9A
Authority: CN
Inventors: 张鼎懿; 李英明; 张仲非
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-02-05
Anticipated expiration: 2040-10-28
Also published as: CN112329833B

Abstract

本发明公开了一种基于球面嵌入的图像度量学习方法，用于输出细粒度图像间的相似度，如输入两张商品图像，该算法会输出它们的相似程度，用位于[0,1]的浮点数表示。具体包括如下步骤：获取用于训练深度度量学习模型的图像数据集；利用图像数据集训练预先定义好的深度神经网络，优化目标是度量学习损失和球面嵌入约束；利用训练好的模型输出给定图像对的相似度。本发明适用于真实图像场景的深度度量学习，面对各种不同种类的细粒度图像(如商品、汽车、时装、人脸)，以及图像中可能存在的光照、姿态、尺度变化都能得到较为鲁棒的结果。

Description

一种基于球面嵌入的图像度量学习方法

技术领域

本发明属于计算机视觉领域，特别地涉及一种基于球面嵌入的图像度量学习方法。

背景技术

度量学习的目标是学习一个特征(嵌入)空间，使得不同图像映射到这个空间后，语义相近的图像在其中的距离较近，而语义不同的图像在其中的距离较远。近年来，随着深度学习的发展，深度度量学习应运而生，这种方法采用一个深度神经网络作为图像到特征(嵌入)的映射函数，极大的提高了度量学习的效果。当我们得到一个合适的映射函数后，便可以很方便的衡量两张给定图像的相似度，从而处理很多视觉理解任务，例如细粒度图像检索和人脸识别。在深度度量学习任务中，一个热点方向是设计一个效果更优的损失函数，使得训练得到的深度度量学习模型对不同图像具有更好的鉴别力。一系列基于图像样本对的损失函数被提出，如对比损失、三元组损失、N对损失、多相似度损失，它们的构成元素都是一个批量中不同图像样本对之间的相似度。

理论上，我们可以采用欧式距离或角度距离(归一化欧式距离或余弦距离都可以称为角度距离)来衡量两个特征(嵌入)在特征(嵌入)空间中的相似度。然而，在现有的深度度量学习损失函数中，我们通常采用角度距离，这样做一方面是为了解耦特征(嵌入)的L2范数和方向信息，以便于在损失函数中只优化方向信息，另一方面是为了保持训练和测试度量的一致性。但是，这一种做法也有它固有的缺点，即忽视了特征(嵌入)的L2范数在梯度计算中的重要性。例如，我们考虑两个特征(嵌入)f_i和f_j之间的余弦距离cosθ_ij对其中一个特征(嵌入)f_i的梯度

我们可以看到f_i的L2范数||f_i||₂对梯度大小起着重要的缩放作用。当我们使用损失函数优化角度距离时，我们希望不同特征(嵌入)的L2范数大小相似，以使得不同特征(嵌入)的方向都能得到较为均衡的更新。但是，现有的损失函数无法在训练过程中保证这一点，不同特征(嵌入)的L2范数分布仍然具有较大的方差。于是，在深度神经网络的训练中，梯度更新的过程将变得不稳定，模型的快速收敛也会受其影响，例如，如果一个特征(嵌入)的L2范数较大，那么它的方向更新速度将会减慢。

发明内容

为解决上述问题，本发明的目的在于提供一种基于球面嵌入的图像度量学习方法，来为各种图像学习一个更有鉴别力的特征(嵌入)空间。本方法自适应地调节不同特征(嵌入)的L2范数，使得不同特征(嵌入)大致位于同一个超球面的表面，来得到更为均衡的方向更新。对于调节方式，本方法灵活地逐步减小不同特征(嵌入)的L2范数分布的方差，而不是简单地将它们的L2范数都约束到一个固定值，减少了一个需要调节的超参数，提高了方法的易用性。此外，本方法能很好地与批量训练方式结合使用，增加的额外计算量可以忽略不计，能与各种现有的度量学习损失函数联合使用，可以有效地提升现有损失函数的效果，并带来更快的模型收敛速度。

为实现上述目的，本发明的技术方案为：

一种基于球面嵌入的图像度量学习方法，包括以下步骤：

S1、获取用于训练深度度量学习模型的图像数据集；

S2、利用图像数据集训练预先定义好的深度神经网络，优化目标是度量学习损失和球面嵌入约束；

S3、利用训练好的深度神经网络模型输出给定图像对的相似度。

进一步的，步骤S1中，所述的图像数据集为{(x₁,y₁),(x₂,y₂),…,(x_N,y_N)}，其中N为数据集中的图像总数，x_i和y_i分别表示第i张图像及其对应的类标签，y_i∈{1，...，C}，C表示类别总数，每一类都包含多张图像。

进一步的，步骤S2具体包括：

S21、在训练深度神经网络时采用批量处理的方式，首先从图像数据集中随机采样一个批量的图像样本

其中批量大小N_bs预先给定；

S22、将B中的图像输入深度神经网络M得到对应的特征(嵌入)f，然后组成正负样本对集合{(f_i，f_j，l_ij)，...}，其中f_i和f_j分别表示B中两张不同图像x_i和x_j对应的特征(嵌入)，l_ij用于指示两张图像x_i和y_i是否属于同一个类，当y_i＝y_j时l_ij＝1，当y_i≠y_j时l_ij＝0；

S23、使用所述正负样本对集合构成度量学习损失函数L_metric，同时使用一个批量中的所有特征(嵌入)构成球面嵌入约束

其中μ为超球面半径超参数；

S24、基于所述度量学习损失函数和球面嵌入约束得到总的损失函数为

L＝L_metric+η*L_sec

其中η是预先设置的权重参数，用来平衡两种损失函数的贡献；

S25、根据得到的总的损失函数，使用Adam优化器或带动量的随机梯度下降优化器，以及反向传播算法训练深度神经网络；

S26、重复步骤S21至S25直至模型收敛。

可选的，步骤S23中，所述度量学习损失函数L_metric为

其中λ为给定的间隔超参数；或者为

其中λ为给定的间隔超参数；或者为

其中s是给定的缩放超参数；或者为

其中α和β是给定的缩放超参数，λ是给定的间隔超参数。

可选的，步骤S23中，所述超球面半径超参数μ的计算方式为当前批量中所有特征(嵌入)的L2范数平均值

可选的，步骤S23中，所述超球面半径超参数μ的计算方式为维持一个全局记录，并使用指数滑动平均方法来综合历史批量中特征(嵌入)的L2范数平均值

其中ρ∈[0,1]是预先设置的更新动量。

进一步的，步骤S3中，计算给定的两张图像x_a和x_b相似度的方法为：将x_a和x_b分别输入训练好的深度神经网络M，得到与它们相对应的特征(嵌入)f_a和f_b，然后计算两个特征(嵌入)间的余弦相似度

即为两张图片间的相似度。

本发明的基于球面嵌入的图像度量学习方法，相比于现有的图像度量学习方法，具有以下有益效果：

首先，本方法自适应地调节不同特征(嵌入)的L2范数，使得不同特征(嵌入)大致位于同一个超球面的表面，能够缓解现有度量学习方法中不同特征(嵌入)方向更新速度不均衡的问题。

其次，本方法灵活地逐步减小不同特征(嵌入)的L2范数分布的方差，而不是将它们的L2范数都约束到一个固定值，减少了一个需要调节的超参数，能方便的与现有的损失函数相结合，为特征(嵌入)空间的学习提供正则约束，有效提升现有损失函数的效果，并带来更快的模型收敛速度。

本发明的基于球面嵌入的图像度量学习方法在大规模商品图像检索和人脸识别等***中具有良好的应用价值，能够有效提高图像检索的性能。例如，在搭建大规模商品图像检索***时，本发明的图像度量学习方法能够加快模型训练的收敛速度，同时提高检索出语义相似商品图像的准确率，从而优化商品检索***的使用体验；在人脸识别***中，本发明的图像度量学习方法能够更准确的衡量两张人脸图像的相似度，从而提高基于人脸识别的安防***的安全性。

附图说明

图1为本发明的基于球面嵌入的图像度量学习方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参考图1，在本发明的较佳实施例中，基于球面嵌入的图像度量学习方法，包括以下步骤：

首先，获取用于训练深度度量学习模型的图像数据集。所述的图像数据集为{(x₁，y₁)，(x₂，y₂)，...，(x_N，y_N)}，其中N为数据集中的图像总数，x_i和y_i分别表示第i张图像及其对应的类标签，y_i∈{1，...，C}，C表示类别总数，每一类都包含多张图像。

其次，利用图像数据集训练预先定义好的深度神经网络，优化目标是度量学习损失和球面嵌入约束。具体包括如下步骤：

第一步，在训练深度神经网络时采用批量处理的方式，首先从图像数据集中随机采样一个批量的图像样本

其中批量大小N_bs预先给定。以PK采样为例，它的具体步骤为首先随机采样P个不同的类标签，再从每一类中随机采样K张不同的图像，来组成一个批量的图像样本B：

第二步，将B中的图像输入深度神经网络M得到对应的特征(嵌入)f，然后组成正负样本对集合{(f_i，f_j，l_ij)，...}，其中f_i和f_j分别表示B中两张不同图像x_i和x_j对应的特征(嵌入)，l_ij用于指示两张图像x_i和y_i是否属于同一个类，当y_i＝y_j时l_ij＝1，当y_i≠y_j时l_ij＝0；

第三步，使用正负样本对集合构成度量学习损失函数L_metric，以对比损失为例，它的具体形式为

其中λ为预先设置的间隔超参数；

或者，在另外的实施方式中，学习损失函数L_metric也可以是

其中λ为给定的间隔超参数；或者也可以是

其中s是给定的缩放超参数；或者也可以是

其中α和β是给定的缩放超参数，λ是给定的间隔超参数。

同时使用一个批量中的所有特征(嵌入)构成球面嵌入约束

其中μ有两种计算方式。第一种计算方式为当前批量中所有特征(嵌入)的L2范数平均值

μ的第二种计算方式为维持一个全局记录，并使用指数滑动平均方法来综合历史批量中特征(嵌入)的L2范数平均值

其中ρ∈[0，1]是预先设置的更新动量；于是总的损失函数为

L＝L_metric+η*L_sec

第四步，根据得到的损失函数，使用Adam优化器或带动量的随机梯度下降优化器，以及反向传播算法训练深度神经网络；

第五步，重复步骤S21至S24直至模型收敛。

最后，利用训练好的深度神经网络模型输出给定图像对的相似度。具体的，计算给定的两张图像x_a和x_b相似度的方法为：将x_a和x_b分别输入训练好的深度神经网络M，得到与它们相对应的特征(嵌入)f_a和f_b，然后计算两个特征(嵌入)间的余弦相似度

即为两张图片间的相似度。

通过以上技术方案，本发明实施例基于深度学习技术发展了一种图像度量学习方法。本发明引入了球面嵌入约束，自适应地调节不同特征(嵌入)的L2范数分布，使不同特征(嵌入)具有逐步接近的L2范数，从而优化了特征(嵌入)空间的整体结构，使得不同图像间的相似度可以得到更为准确地衡量，也优化了图像检索的效果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于球面嵌入的图像度量学习方法，其特征在于，包括以下步骤：

S1、获取用于训练深度度量学习模型的图像数据集；

2.如权利要求1所述的基于球面嵌入的图像度量学习方法，其特征在于，步骤S1中，所述的图像数据集为{(x₁,y₁),(x₂,y₂),…,(x_N,y_N)}，其中N为数据集中的图像总数，x_i和y_i分别表示第i张图像及其对应的类标签，y_i∈{1,…,C}，C表示类别总数，每一类都包含多张图像。

3.如权利要求2所述的基于球面嵌入的图像度量学习方法，其特征在于，步骤S2具体包括：

其中批量大小N_bs预先给定；

S22、将B中的图像输入深度神经网络M得到对应的特征(嵌入)f，然后组成正负样本对集合{(f_i,f_j,l_ij),…}，其中f_i和f_j分别表示B中两张不同图像x_i和x_j对应的特征(嵌入)，l_ij用于指示两张图像x_i和y_i是否属于同一个类，当y_i＝y_j时l_ij＝1，当y_i≠y_j时l_ij＝0；