CN111506760B

CN111506760B - 一种基于困难感知的深度集成度量图像检索方法

Info

Publication number: CN111506760B
Application number: CN202010239731.7A
Authority: CN
Inventors: 李平; 赵国潘; 徐向华
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2021-04-20
Anticipated expiration: 2040-03-30
Also published as: CN111506760A

Abstract

本发明公开了一种基于困难感知的深度集成度量图像检索方法。本发明方法首先预处理图像数据并通过卷积神经网络提取深度特征向量，将这些向量输入多个注意力网络得到表达不同语义的特征向量后，再通过不同的基学习器得到相应嵌入向量；然后，训练基学习器并按照图像样本对的困难程度不同进行排序，依据图像样本对产生的损失更新梯度直至收敛；最后，构建由基学习器组成的集成学习器并微调，将待检索的图像输入集成学习器可得到相似图像集合。本发明方法利用注意力机制使不同基学习器关注图像深度特征的不同语义层面，并考虑不同困难程度的负例样本产生不同损失的情况，使得模型能生成性能更优的差异化基学习器，从而提高图像检索方法的性能。

Description

一种基于困难感知的深度集成度量图像检索方法

技术领域

本发明属于多媒体信息检索技术领域，具体是图像检索技术领域，涉及一种基于困难感知的深度集成度量图像检索方法。

背景技术

随着计算机网络的高速发展，以及智能手机、数码相机等便携式设备的普及，每时每刻都在产生海量的图像数据。人们通常想从庞大的图像数据库中寻找自己需要的特定图像，若采用传统的基于文本关键词检索方式显然无法满足用户需求，因而基于内容的图像检索方法受到工业界和学术界的青睐。图像检索的目标是从海量图库中检索出与用户查询相似的图像。可以广泛应用于搜索引擎，如商品图像搜索、人脸图像检索等。

目前，图像检索的主流方法采用度量学习技术，以马氏度量学习为主的传统图像检索技术通常利用手工设计的图像特征，并以线性投影映射的方式学习图像相似度(或距离)度量函数；而在深度度量图像检索方法中，集成度量方法具有较高的检索性能，学习性能高且差异化程度强的基学习器是提高集成学习性能的关键。一些方法将深度特征嵌入层划分为一系列的基学习器，并通过在线梯度重新加权策略差异化基学习器，但是位于特征嵌入层之前的特征提取网络结构和参数是完全共享的，这意味着基学习器实际上对应于一组神经元，而这样的基学习器表达能力太弱以致于难以刻画多样化的语义。还有一些集成方法随机均匀地将数据集类划分为多个元类(每个元类包含多个类)，这些方法从数据集元类层面差异化了基学习器，但是这样的差异化策略并未利用损失函数对基学习器的多样性提供强约束，导致获得次优的基学习器，从而无法较好地保障集成模型的性能。

现有图像检索方法主要有以下几方面不足：第一，通过划分深度特征嵌入层所形成的基学习器的表达能力比较欠缺，难以有效表征数据样本的多维度语义，通常会导致局部最优和欠拟合的检索结果；第二，直接拟合整个数据集的数据分布，忽略了数据样本存在不同的困难程度现象，会引起集成学习模型收敛缓慢的问题。因此，需要设计一种深度集成度量图像检索方法，既能够充分利用图像样本的深度嵌入特征表示，又能感知样本存在的不同困难程度，并获得差异化比较大的基学习器，从而提高检索准确率。

发明内容

本发明的目的就是针对现有技术的不足，提供一种基于困难感知的深度集成度量图像检索方法，可以充分利用图像的深度嵌入特征表示，通过感知困难程度差异化基学习器，从而构建明显提高图像检索性能的集成学习器。

本发明方法首先获取图像数据集合，然后进行以下操作：

步骤(1).对图像数据集合进行预处理，对图像数据进行增强操作，通过卷积神经网络模型提取图像的深度特征向量；

步骤(2).将深度特征向量输入多个自注意力网络得到表达不同语义的特征向量后，再通过不同的基学习器得到相应的嵌入向量；

步骤(3).训练基学习器，根据训练图像类别和嵌入向量的距离度量矩阵，按照不同困难程度进行图像样本对的排序，基学习器依据图像样本对产生的损失更新梯度直至收敛；

步骤(4).构建由基学习器组成的集成学习器，并利用三联体损失函数微调，将待检索图像输入集成学习器，得到相似图像集合。

进一步，步骤(1)具体方法是：

(1-1).对图像数据集进行预处理，得到预处理后的训练数据集I，记为

其中I_i为第i个图像样本，N为图像样本总数，w、h、c分别为图像宽度、高度、通道数；

(1-2).利用大型图像库上预训练的卷积神经网络对训练数据集I中的图像样本提取深度特征向量X，记为X＝{x_i|i＝1,...,N}，

表示第i个图像样本经平均池化层后的深度特征向量。

进一步，步骤(2)具体方法是：

(2-1).将深度特征向量

逐一输入L个不同的自注意力网络，并计算注意力向量

将第i个图像样本对应的L个不同语义特征向量记为{x_ij|j＝1,...,L}，

表示自注意力网络的卷积层权重参数；L为4～32的偶数；深度特征向量各元素之间的内部关系即自注意力，Wx表示深度特征向量各元素的加权关系，即可学习注意力；

(2-2).采用全连接网络作为基学习器{f_j|j＝1,...,L}，输入维度为2048，输出维度为d＝2^k，k＝7,8,9,10；每一种不同语义的特征向量对应一个基学习器，将L个不同语义的特征向量{x_ij|j＝1,...,L}分别输入L个基学习器，得到嵌入向量集合E＝{e_ij|j＝1,...,L}，e_ij为第i个图像样本第j个语义特征向量对应的嵌入向量，嵌入向量的维度为d。

进一步，步骤(3)具体方法是：

(3-1).计算嵌入向量集合E中各元素之间的欧式距离矩阵，根据样本对的真实标记{y_i|i＝1,...,N}和欧式距离矩阵对样本对进行困难程度排序，并将样本对划分为L个困难程度等级，即困难程度与基学习器一一对应；

所述的困难程度用于衡量负例样本对，其判定准则为：设A是锚点，P是正样本点，N1、N2分别是两个负样本点，通过与锚点之间的距离判定正负样本点，相对锚点A，负样本点N2比N1更难判定为负样本点，则样本对(A,N2)相比(A,N1)的困难程度更高；

(3-2).根据三联体损失函数

计算每个困难等级的负例样本产生的损失，并用于指导其对应的基学习器训练，

不同类样本的间距应大于m，m为正负样本间的约束间距，

x⁺、x^-分别是参考样本、正例样本、负例样本，f、f⁺、f^-分别是对应的特征向量；

(3-3).用自适应矩估计算法进行梯度更新，迭代优化基学习器{f_j|j＝1,...,L}，使L个基学习器分别拟合L个困难程度等级的样本对，直至基学习器收敛。

进一步，步骤(4)具体方法是：

(4-1).将已收敛的基学习器以线性按序方式合并为集成学习器，其输入为训练数据集的深度特征向量X；

(4-2).根据所述三联体损失函数计算集成学习器模型的损失，通过梯度反向传播方法调整模型参数，迭代优化模型直至收敛；

(4-3).将待检索图像作为查询集q，将训练图像作为图库集g，将查询集q和图库集g中的图像样本分别输入集成学习器，得到对应的深度嵌入表示

其中Q，G分别是查询集和图库集的大小；

(4-4).计算查询集和图库集对应的深度嵌入表示之间的欧氏距离

据此对与待检索图像相似的图库集图像进行排序，得到相似图像集合。

本发明方法提出的基于困难感知的深度集成度量图像检索技术，不同于仅使用一组神经元作为基学习器的现有方法，而利用注意力机制使不同基学习器关注图像深度特征的不同语义层面，将全连接网络作为基学习器以弥补先前方法基学习器表达能力不足的缺陷。此外，本方法从损失函数的角度以添加强约束项的形式考虑不同困难程度的负例样本产生不同损失的情况，使得模型能生成性能更优的差异化基学习器，从而提高图像检索的准确度。

本发明主要适合采用深度集成度量学习技术的图像检索***，优点在于：1)基学习器具有较好表达图像特征的能力，体现在能够充分拟合图像的不同语义特征，且减轻了基学习器模型复杂所导致的计算空间开销增加的问题；2)从负例样本对的困难程度角度充分利用数据集所蕴藏的本征结构信息，训练能够适应不同困难程度的基学习器，更好地捕捉图像的不同语义特征，从而检索与待检索图像更加匹配的相似图像。本发明方法可应用于图像搜索引擎，如商品图像搜索、人脸图像检索等实际应用场景。

附图说明

图1是本发明方法的流程图。

具体实施方式

以下结合附图对本发明作进一步说明。

一种基于困难感知的深度集成度量图像检索方法，主要包括获取图像深度特征向量、计算不同语义特征向量和基学习器的嵌入向量、设计困难感知的基学习器训练策略、以及构建集成学习器得到待检索图像的相似图像等内容。该方法采用注意力网络获取图像不同语义的特征向量，能够更好地反映图像数据的内在结构；以全连接网络作为基学习器增强了集成学习器的检索性能；利用不同困难程度的样本对训练基学习器可深入挖掘图像数据潜在的本征维度信息。通过这种方式构建的图像检索***可以更好地捕捉图像数据的不同语义特征，并获得更高的图像检索准确率。

如图1，该方法首先获取图像数据集，然后进行如下操作：

步骤(1).对图像数据集合进行预处理，对图像数据进行增强操作，包括缩放、修剪、翻转、旋转；通过卷积神经网络模型提取图像的深度特征向量。具体是：

其中I_i为第i个图像样本，N为图像样本总数，w、h、c分别为图像宽度、高度、通道数。

(1-2).利用大型图像库上(如ImageNet)预训练的卷积神经网络(Inception v3)对训练数据集I中的图像样本提取深度特征向量X，记为X＝{x_i|i＝1,...,N}，

表示第i个图像样本经平均池化层后的深度特征向量。

步骤(2).将深度特征向量输入多个自注意力网络得到表达不同语义的特征向量后，再通过不同的基学习器得到相应的嵌入向量。具体是：

(2-1).将深度特征向量

逐一输入L个不同的自注意力(Self-Attention)网络，并计算注意力向量

表示自注意力网络的卷积层权重参数；L为4～32的偶数；深度特征向量各元素之间的内部关系即自注意力，Wx表示深度特征向量各元素的加权关系，即可学习注意力。

(2-2).采用全连接网络作为基学习器{f_j|j＝1,...,L}，输入维度为2048，输出维度为d＝2^k，k＝7,8,9,10，本实施例d＝512；每一种不同语义的特征向量对应一个基学习器，将L个不同语义的特征向量{x_ij|j＝1,...,L}分别输入L个基学习器，得到嵌入向量集合E＝{e_ij|j＝1,...,L}，e_ij为第i个图像样本第j个语义特征向量对应的嵌入向量，嵌入向量的维度为d。

步骤(3).训练基学习器，根据训练图像类别和嵌入向量的距离度量矩阵，按照不同困难程度进行图像样本对的排序，基学习器依据图像样本对产生的损失更新梯度直至收敛。具体是：

(3-1).计算嵌入向量集合E中各元素之间的欧式距离矩阵，根据样本对的真实标记{y_i|i＝1,...,N}和欧式距离矩阵对样本对进行困难程度排序，并将样本对划分为L个困难程度等级，即困难程度与基学习器一一对应。

困难程度用于衡量负例样本对，其判定准则为：设A是锚点，P是正样本点，N1、N2分别是两个负样本点，通过与锚点之间的距离判定正负样本点，相对锚点A，负样本点N2比N1更难判定为负样本点，则样本对(A,N2)相比(A,N1)的困难程度更高。

(3-2).根据三联体(Triplet)损失函数

计算每个困难等级的负例样本产生的损失，并用于指导其对应的基学习器训练；不同类样本的间距应大于m，m为正负样本间的约束间距，如1；

x⁺、x^-分别是参考样本、正例样本、负例样本，f、f⁺、f^-分别是对应的特征向量。

(3-3).用自适应矩估计(Adam)算法进行梯度更新，迭代优化基学习器{f_j|j＝1,...,L}，使L个基学习器分别拟合L个困难程度等级的样本对，直至基学习器收敛。

步骤(4).构建由基学习器组成的集成学习器，并利用三联体损失函数微调，将待检索图像输入集成学习器，得到相似图像集合。具体是：

(4-1).将已收敛的基学习器以线性按序方式合并为集成学习器，其输入为训练数据集的深度特征向量X。

(4-2).根据所述三联体损失函数计算集成学习器模型的损失，通过梯度反向传播方法调整模型参数，迭代优化模型直至收敛。

(4-3).将待检索图像作为查询集q(query)，将训练图像作为图库集g(gallery)，将查询集q和图库集g中的图像样本分别输入集成学习器，得到对应的深度嵌入表示

其中Q，G分别是查询集和图库集的大小。

本实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。