CN113326926A

CN113326926A - 一种面向遥感图像检索的全连接哈希神经网络

Info

Publication number: CN113326926A
Application number: CN202110733494.4A
Authority: CN
Inventors: 刘娜; 万里红; 王中磐; 江洋; 李清都
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-08-31
Anticipated expiration: 2041-06-30
Also published as: CN113326926B

Abstract

本发明提出一种面向遥感图像检索的全连接哈希神经网络，包括特征提取和目标函数；所述特征提取包括中级特征提取以及深度特征提取；所述目标函数用于对比图像的相似度；对比过程为：给定n幅训练图像的向量集

其中z_i是第i幅图像的特征向量；构建一组符合l_i，j∈{0，1}的成对标签L＝{l_i，j}来提供监督信息；l_i，j＝1表明z_i和z_j是相似的，当l_i，j＝0时；z_i和z_j就是不相似的；z_i和z_j为类间样本；哈希神经网络的目的将z_i映射为具有d位的二进制码b_i∈{‑1，1}^d，使得b_i和b_j在l_i，j＝1时具有低的汉明距离，在l_i，j＝0时具有高的汉明距离，从而提出一种有效提高RSI检索性能和学习效率的全连接哈希神经网络。

Description

一种面向遥感图像检索的全连接哈希神经网络

技术领域

本发明涉及图像检索技术领域，尤其涉及一种面向遥感图像检索的全连接哈希神经网络。

背景技术

由于大量的地球观测传感器为我们的生活提供了大量的遥感数据，使得我们生活在遥感大数据时代，因而快速而准确的基于内容的图像检索(CBIR)方法的研究在遥感领域变得日益重要。传统上，遥感图像(RSI)的表达通过具有数千维的实数向量来描述。每个维度可以通过4字节的浮点数据存储在计算机内存中，这可能会导致：(1)大规模数据集的存储需要大量的硬盘；(2)从大规模数据集中穷举搜索出相关图像的计算代价很高。

针对上述问题，由于其具有低存储空间和高效的搜索特性，使得基于哈希的近似最近邻搜索成为一种流行的基于大数据的检索技术。哈希映射将图像表达为包含少量位(例如32位(4个字节))的二进制码，从而有助于显著减少所需的存储量。

基于哈希的检索方案一般可以分为两类：数据独立和数据依赖。作为典型的与数据独立的方法如局部敏感哈希(LSH)，通常使用无训练数据的随机投影来生成哈希函数。由于数据独立哈希方法的局限性，因此提出了许多基于无监督或监督的新哈希方法来构造更高效的哈希函数。在遥感领域，基于哈希的RSI检索只有少数研究。研究者们提出了两种基于学***面将LSH扩展到非线性可分离数据。KSLSH定义了基于核空间的哈希函数，使得类内图像的汉明距离最小，而类间图像的汉明距离最大。KULSH和KSLSH都使用了结合SIFT描述子的BOVW表达。Li和Ren在《IEEE Geoscience and Remote Sensing Letters》,vol.14,no.3,page464-468,2017.上发表的“Partial randomness hashing for large-scale remotesensing image retrieval”一文中提出的用于RSI检索的部分随机哈希方法(PRH)分为两个阶段：(1)生成随机投影以将图像特征(例如，512维的GIST描述符)以数据独立的方式映射到较低的汉明空间；(2)根据训练图像学习变换权值矩阵。在KULSH，KSLSH和PRH方法中，图像表达(BOVW或GIST)都是基于手工设计的特征。

由于最近深度学习的快速发展，Li等人《IEEE Transactions on Geoscience andRemote Sensing》vol.56,no.2,page 950-965,2017.上发表了“Large-scale remotesensing image retrievalby deep hashing neural networks”，并提出了深度哈希神经网络(DHNN)，并对L1和L2范数之间的二进制量化损失进行了比较。作为DPSH(基于成对标签的监督深度哈希)的改进版本，DHNN改进了sigmoid函数的设计，可以同时进行特征学习和哈希函数学习。与基于手工设计特征的方法相比，DHNN方法可以自动学习不同级别的特征抽象表达，从而得到更好的表达能力。然而，由于深度特征学习和哈希学习是在端到端的框架下进行的，因此DHNN的学习是耗时的。

发明内容

本发明的目的在于提出一种有效提高RSI检索性能和学习效率的面向遥感图像检索的全连接哈希神经网络。

为达到上述目的，本发明提出一种面向遥感图像检索的全连接哈希神经网络，包括特征提取和目标函数；

所述特征提取包括中级特征提取以及深度特征提取；

所述目标函数用于对比图像的相似度；对比过程为：给定n幅训练图像的向量集

其中z_i是第i幅图像的特征向量；构建一组符合l_i,j∈{0,1}的成对标签L＝{l_i,j}来提供监督信息；l_i,j＝1表明z_i和z_j是相似的，当l_i,j＝0时；z_i和z_j就是不相似的；z_i和z_j为类间样本；

基于此，哈希神经网络的目的将z_i映射为具有d位的二进制码b_i∈{-1,1}^d，使得b_i和b_j在l_i,j＝1时具有低的汉明距离，在l_i,j＝0时具有高的汉明距离；判断公式如下：

给定训练图像的一组二进制哈希码

成对样本的似然函数L定义为：

其中，

s是相似度因子，d是哈希位的数量。

进一步的，所述全连接哈希神经网络由三个全连接层组成，将图像特征映射为一组二进制码0或1；前两个全连接层为FC1和FC2，FC1和FC2分别包含4096个神经元；在FC1和FC2层后是一个称为整流线性单位的非线性操作；最后的全连接层为FC3，所述FC3为包含N个神经节点的二进制输出，N为经过哈希编码后期望的位数。

进一步的，还包括如下目标函数：

其中，

a_i＝W^Tf(z_i；θ)+v,θ定义了全连接哈希神经网络中FC1和FC2的参数；f(z_i；θ)定义了FC2的输出，

表示FC2和FC3之间的一个包含全连接权值的权值矩阵，

是偏差向量；

α是超参数；

所述目标函数使得全连接哈希神经网络的输出a_i和最终的二进制码b_i尽可能的相似。

进一步的，所述全连接哈希神经网络还包括如下目标函数：

其中b_i ^Ta_i尽可能大，而Ψ_i,j-l_i,j尽可能小；考虑到最终哈希码的性能，上述目标函数可以显著的加快学习速度以获得理想的结果；因此，可以得到：

进一步的，所述全连接哈希神经网络还包括全连接哈希神经网络的学习，学习过程为：如权利要求4中的目标函数

其中B,W,v和θ为全连接哈希神经网络需要学习的参数；

在每次迭代过程中，从n幅训练图像的向量集收集一小批训练图像以交替地更新参数；b_i直接通过b_i＝sign(a_i)＝sign(W^Tf(z_i；θ)+v)进行优化；对于W,v和θ,首先对a_i计算目标函数的导数：

然后，可以通过反向传播来更新W,v和θ。

进一步的，FCHNN网络的具体学习过程为，根据给定的训练图像和成对标签信息，首先，使用具有均值为0和方差为0.01的高斯分布随机初始化FCHNN网络的所有全连接层权重；然后，从训练图像中随机选取一小部分图像，针对每幅训练样本，重复进行如下操作：(1)通过正向传播计算f(z_i；θ0；(2)计算a_i＝W^Tf(z_i；θ)+v；(3)根据b_i＝sign(a_i)计算二进制码z_i；(4)计算z_i的梯度；(5)通过反向传播算法更新参数W,v和θ；重复上述步骤直到固定迭代次数后即停止。

进一步的，所述中级特征提取为中级表达包括仿射不变兴趣点检测，SIFT描述子提取和具有GMM聚类的Fisher编码；使用由VLFeat工具箱实现的多尺度Hessian阵进行兴趣点检测，并为每个兴趣点提取128维SIFT描述子；然后将SIFT描述子依次变换为RootSIFT和64维PCA-SIFT；在Fisher编码阶段，通过PCA-SIFT和32个GMM(高斯混合模型)簇获得4096维的(2×32×64)Fisher向量，即为中级特征向量。

进一步的，所述深度特征提取为采用CaffeNet和VGG-VD16的预训练卷积神经网络(CNN)提取深度特征；两个CNN都是在MatConvNet上实现的并在ImageNet数据集上进行了训练；CaffeNet和VGG-VD16都包含三个全连接层；给定一幅输入图像和一个CNN模型，从而提取4096维激活向量作为深度特征向量；

通过使用微调策略，可以通过在相应的训练数据集上对预训练CNN模型进行重新训练直至收敛来获得微调的CaffeNet和VGG-VD16；给定输入图像和微调的CNN，也可以获得4096维激活向量。

与现有技术相比，本发明的优势之处在于：

(1)引入了一种基于仿射不变性的局部描述子和Fisher编码的扩展BOVW表达，这种表达在哈希后与深度特征具有可比性。

(2)提出了三层FCHNN框架用于成对标签的监督哈希学习，所提出的从特征到二进制的框架在检索性能和效率方面优于从像素到二进制(例如，DPSH)的框架。

(3)与DSPH相比，FCHNN的目标函数还有一个约束条件

用于加速获得理想的结果。

附图说明

图1为本发明实施例中全连接哈希神经网络的框架结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案作进一步地说明。

本发明提出一种面向遥感图像检索的全连接哈希神经网络(FCHNN)，FCHNN由两部分组成：(1)特征提取；(2)基于特征到二值框架的哈希学习或者结果的输出，所提出的框架有利于研究不同类型的特征(手工设计的特征或深度特征)。

A.特征提取

为了对RSI表达进行综合性分析，同时研究FCHNN在不同特征上的一般性，本文采用了五种特征提取方法。

中级特征：中级表达包括仿射不变兴趣点检测，SIFT描述子提取和具有GMM聚类的Fisher编码。使用由VLFeat工具箱实现的多尺度Hessian阵进行兴趣点检测，并为每个兴趣点提取128维SIFT描述子。然后将SIFT描述子依次变换为RootSIFT和64维PCA-SIFT。在Fisher编码阶段，通过PCA-SIFT和32个GMM(高斯混合模型)簇获得4096维的(2×32×64)Fisher向量。

深度特征：采用两种名为CaffeNet和VGG-VD16的预训练卷积神经网络(CNN)提取深度特征。两个CNN都是在MatConvNet上实现的并在ImageNet数据集上进行了训练。CaffeNet和VGG-VD16都包含三个全连接层。给定一幅输入图像和一个CNN模型，我们可以提取4096维激活向量作为深度特征。

通过使用微调策略，可以通过在相应的训练数据集上对预训练CNN模型进行重新训练直至收敛来获得微调的CaffeNet和VGG-VD16。给定输入图像和微调的CNN，也可以获得4096维激活向量，类似于预训练CNN的特征提取。

B.FCHNN

框架：如图1所示，FCHNN由三个全连接层组成，旨在将图像特征映射为一组二进制码(0或1)。FCHNN的前两个全连接层(由FC1和FC2表示)分别包含4096个神经元。在FC1和FC2层后是一个称为整流线性单位(ReLU)的非线性操作。最后的全连接层(由FC3表示)是包含N个神经节点的二进制输出。N是经过哈希编码后期望的位数。除了输出节点的数量之外，FCHNN的框架类似于AlexNet的最后三个全连接层。FCHNN特性：(1)它是一个从特征到二进制码而不是从像素到二进制的框架；(2)手工设计特征和深度特征都是通用的；(3)使用较少的层就可以显著提高学习速度。

目标函数：给定n幅训练图像

其中z_i是第i幅图像的向量(如图1所示的图像特征)。构建一组符合l_i,j∈{0,1}的成对标签L＝{l_i,j}来提供监督信息。l_i,j＝1表明z_i和z_j(类内样本)是相似的，否则(当l_i,j＝0时)z_i和z_j(类间样本)就是不相似的。

FCHNN的目的是将z_i映射为具有d位的二进制码b_i∈{-1,1}^d，使得b_i和b_j当l_i,j＝1时具有低的汉明距离，而当l_i,j＝0时具有高的汉明距离。

给定训练图像的一组二进制哈希码

成对样本的似然函数L定义为：

其中

s是相似度因子，d是哈希位的数量，类似于加权sigmoid函数。

通过取L[·]中的成对标签l_i,j的负对数似然，可以得到如下目标函数：

其中

a_i＝W^Tf(z_i；θ)+v,θ定义了FCHNN中FC1和FC2的参数。f(z_i；θ)定义了FC2的输出，

表示FC2和FC3之间的一个包含全连接权值的权值矩阵，

是偏差向量；

α是超参数。

公式(2)的目的是使FCHNN的输出a_i和最终的二进制码b_i尽可能的相似。另外，我们引入了另一个约束的目标函数，方程(2)可以改写为：

其中b_i ^Ta_i应该尽可能大，而Ψ_i,j-l_i,j应尽可能小。考虑到最终哈希码的性能，公式(3)可以显著的加快学习速度以获得理想的结果。因此，可以得到：

其中B,W,v和θ是需要学习的参数。

FCHNN学习：算法1给出了FCHNN的学习过程。在每次迭代过程中，从整个训练集中收集一小批训练图像以交替地更新参数。特别地，b_i可以直接通过b_i＝sign(a_i)＝sign(W^Tf(z_i；θ)+v)进行优化。对于W,v和θ,我们首先对a_i计算目标函数的导数：

然后，可以通过反向传播来更新W,v和θ。

FCHNN网络的具体学习过程为，根据给定的训练图像和成对标签信息，首先，使用具有均值为0和方差为0.01的高斯分布随机初始化FCHNN网络的所有全连接层权重。然后，从训练图像中随机选取一小部分图像，针对每幅训练样本，重复进行如下操作：(1)通过正向传播计算f(z_i；θ)；(2)计算a_i＝W^Tf(z_i；θ)+v；(3)根据b_i＝sign(a_i)计算二进制码z_i；(4)计算z_i的梯度；(5)通过反向传播算法更新参数W,v和θ；重复上述步骤直到固定迭代次数后即停止。

上述仅为本发明的优选实施例而已，并不对本发明起到任何限制作用。任何所属技术领域的技术人员，在不脱离本发明的技术方案的范围内，对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动，均属未脱离本发明的技术方案的内容，仍属于本发明的保护范围之内。

Claims

1.一种面向遥感图像检索的全连接哈希神经网络，其特征在于，包括特征提取和目标函数；

所述特征提取包括中级特征提取以及深度特征提取；

其中z_i是第i幅图像的特征向量；构建一组符合l_i，j∈{0，1}的成对标签L＝{l_i，j}来提供监督信息；l_i，j＝1表明z_i和z_j是相似的，当l_i，j＝0时；z_i和z_j就是不相似的；z_i和z_j为类间样本；

基于此，哈希神经网络的目的将z_i映射为具有d位的二进制码b_i∈{-1，1}^d，使得b_i和b_j在l_i，j＝1时具有低的汉明距离，在l_i，j＝0时具有高的汉明距离；判断公式如下：

给定训练图像的一组二进制哈希码

成对样本的似然函数L定义为：

其中，

s是相似度因子，d是哈希位的数量。

2.根据权利要求1所述的面向遥感图像检索的全连接哈希神经网络，其特征在于，所述全连接哈希神经网络由三个全连接层组成，将图像特征映射为一组二进制码0或1；前两个全连接层为FC1和FC2，FC1和FC2分别包含4096个神经元；在FC1和FC2层后是一个称为整流线性单位的非线性操作；最后的全连接层为FC3，所述FC3为包含N个神经节点的二进制输出，N为经过哈希编码后期望的位数。

3.根据权利要求2所述的面向遥感图像检索的全连接哈希神经网络，其特征在于，还包括如下目标函数：

其中，

a_i＝W^Tf(z_i；θ)+v，θ定义了全连接哈希神经网络中FC1和FC2的参数；f(z_i；θ)定义了FC2的输出，

表示FC2和FC3之间的一个包含全连接权值的权值矩阵，

是偏差向量；

α是超参数；

所述目标函数使得全连接哈希神经网络的输出ai和最终的二进制码bi尽可能的相似。

4.根据权利要求3所述的面向遥感图像检索的全连接哈希神经网络，其特征在于，所述全连接哈希神经网络还包括如下目标函数：

其中b_i ^Ta_i尽可能大，而Ψ_i，j-l_i，j尽可能小；考虑到最终哈希码的性能，上述目标函数可以显著的加快学习速度以获得理想的结果；因此，可以得到：

5.根据权利要求4所述的面向遥感图像检索的全连接哈希神经网络，其特征在于，所述全连接哈希神经网络还包括全连接哈希神经网络的学习，学习过程为：如权利要求4中的目标函数

其中B，W，v和θ为全连接哈希神经网络需要学习的参数；

在每次迭代过程中，从n幅训练图像的向量集收集一小批训练图像以交替地更新参数；b_i直接通过b_i＝sign(a_i)＝sign(W^Tf(z_i；θ)+v)进行优化；对于W，v和θ，首先对a_i计算目标函数的导数：

然后，可以通过反向传播来更新W，v和θ。

6.根据权利要求5所述的面向遥感图像检索的全连接哈希神经网络，其特征在于，FCHNN网络的具体学习过程为，根据给定的训练图像和成对标签信息，首先，使用具有均值为0和方差为0.01的高斯分布随机初始化FCHNN网络的所有全连接层权重；然后，从训练图像中随机选取一小部分图像，针对每幅训练样本，重复进行如下操作：(1)通过正向传播计算f(z_i；θ)；(2)计算a_i＝W^Tf(z_i；θ)+v；(3)根据b_i＝sign(a_i)计算二进制码z_i；(4)计算z_i的梯度；(5)通过反向传播算法更新参数W，v和θ；重复上述步骤直到固定迭代次数后即停止。

7.根据权利要求1所述的面向遥感图像检索的全连接哈希神经网络，其特征在于，所述中级特征提取为中级表达包括仿射不变兴趣点检测，SIFT描述子提取和具有GMM聚类的Fisher编码；使用由VLFeat工具箱实现的多尺度Hessian阵进行兴趣点检测，并为每个兴趣点提取128维SIFT描述子；然后将SIFT描述子依次变换为RootSIFT和64维PCA-SIFT；在Fisher编码阶段，通过PCA-SIFT和32个GMM(高斯混合模型)簇获得4096维的(2×32×64)Fisher向量，即为中级特征向量。

8.根据权利要求1所述的面向遥感图像检索的全连接哈希神经网络，其特征在于，所述深度特征提取为采用CaffeNet和VGG-VD16的预训练卷积神经网络(CNN)提取深度特征；两个CNN都是在MatConvNet上实现的并在ImageNet数据集上进行了训练；CaffeNet和VGG-VD16都包含三个全连接层；给定一幅输入图像和一个CNN模型，从而提取4096维激活向量作为深度特征向量；