CN114579794A

CN114579794A - 特征一致性建议的多尺度融合地标图像检索方法及***

Info

Publication number: CN114579794A
Application number: CN202210334948.5A
Authority: CN
Inventors: 孟月波; 杨蕾; 段中兴; 刘光辉; 赵敏华
Original assignee: Xian University of Architecture and Technology
Current assignee: Xian University of Architecture and Technology
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-06-03

Abstract

本发明公开一种特征一致性建议的多尺度融合地标图像检索方法及***，采集地标图像数据，构建地标检索训练数据集T_r与测试数据集T_e；构造特征一致性建议的多尺度融合地标图像检索网络；通过构造总损失函数，计算损失值，利用地标检索训练数据集T_r对多尺度地标图像检索网络进行训练，得到特征一致性建议的多尺度融合地标图像检索模型；将测试数据集T_e输入特征一致性建议的多尺度融合地标图像检索模型，输出地标图像的检索结果，本发明解决了不同拍摄条件下的尺度差异导致检索准确率低的问题，减少了对大量细粒度标签信息的依赖，提高了地标图像的匹配精度，有利于实现智慧旅游领域中的实际应用部署。

Description

特征一致性建议的多尺度融合地标图像检索方法及***

技术领域

本发明属于图像检索技术领域，具体属于一种特征一致性建议的多尺度融合地标图像检索方法及***。

背景技术

随着社交网站、通信及多媒体技术、数字化图像设备等方面的迅速发展，数字图像的使用涉及到了国防军事、医疗卫生、大众娱乐和家庭生活各个方面，图像、视频等数据每天都在以惊人的速度增长。针对这些包含丰富视觉信息的海量图片，如何在这些浩瀚的图像库中方便、快速、准确地查询并检索到用户所需的或感兴趣的图像，成为多媒体信息检索领域研究的热点。地标图像检索是指从数据库图像中找到包含相同地标建筑实例的图像，能够实现对当地的地标进行直观的地理探索和导航，进一步提供路线优化以及相似旅游景点的推荐，在智慧旅游领域中具有重要的应用价值。

目前，在神经网络优异性能的推动下，地标图像检索技术在处理光照变化、拍摄角度变化的问题上取得了出色成绩。但在实际应用于互联网推荐***时，由于不同摄像设备之间的拍摄距离不同，会使得摄像头捕捉到的地标信息在图像中出现严重的尺度变化。

针对上述问题，常用的解决方法是提取所有地标建筑具有判别性及代表性的固定局部视觉特征，以解决地标图像由于拍摄条件不同导致的尺度差异问题，从而提升地标图像检索精度。但以上方法严重依赖额外的地标标注信息，例如中心建筑、顶部、窗户信息等，需要付出大量的人力对地标数据集制作额外的标签信息，极大的限制了地标检索方法的实际应用。

发明内容

为了解决现有技术中存在的问题，本发明提供一种特征一致性建议的多尺度融合地标图像检索方法，解决了不同拍摄条件下的尺度差异导致检索准确率低的问题，减少了对大量细粒度标签信息的依赖，提高了地标图像的匹配精度，有利于实现智慧旅游领域中的实际应用部署。

为实现上述目的，本发明提供如下技术方案：一种特征一致性建议的多尺度融合地标图像检索方法，具体步骤如下：

S1采集地标图像数据，构建地标检索训练数据集T_r与测试数据集T_e；

S2构造特征一致性建议的多尺度融合地标图像检索网络，包括衔接有多尺度信息提取模块的ResNet50网络、特征自注意融合网络和区域特征一致性建议项；

S3通过特征一致性建议函数、三元组损失函数和分类函数构造总损失函数，计算损失值，利用地标检索训练数据集T_r对多尺度地标图像检索网络进行训练，得到特征一致性建议的多尺度融合地标图像检索模型；

S4将地标检索测试数据集T_e输入特征一致性建议的多尺度融合地标图像检索模型，输出地标图像的检索结果。

进一步的，步骤S1中，采用人工标注的方法将地标图像中的同一种地标标注对应的类别作为前缀，并在类别后赋予一个独立的编号，其中，不同地标之间的类别前缀不同，同一地标的编号不同。

进一步的，步骤S2中，在ResNet50网络最大池化层后衔接有多尺度信息提取模块，所述ResNet50网络用于获取地标图像的初始局部特征图；多尺度信息提取模块通过重组张量函数按照从左上到右下的顺序提取初始局部特征图的多个局部特征块，得到N个局部特征块

和M个局部特征块

进一步的，步骤S2中，ResNet50后构建特征自注意融合网络，所述特征自注意融合网络包括两个特征自注意融合分支，两个特征自注意融合分支各由一层Transformer编码层构成。

进一步的，步骤S2中，特征自注意融合网络处理过程的具体步骤为：

1)两个Transformer编码层分别初始化生成初始全局特征映射C′₀、C″₀，将局部特征块

和初始全局特征映射C′₀、C″₀两两组成一组，得到

与C′₀组，

与C″₀组；将

与C′₀组，

与C″₀分别输入Transformer编码层中，在Transformer编码层中将标准的可学习的位置向量E_pos嵌入到

与C′₀组、

与C″₀组中，得到的初步融合的两个地标全局特征映射

2)利用结果向量序列z′₀和z″₀分别表示两个地标全局特征映射

的具体信息，将结果向量序列z′₀和z″₀分别输入两个Transformer编码层中对两个地标全局特征映射

中的重要信息进行自注意学习，得到结果向量序列z′₀和z″₀中每一部分的权重，得到权重的分布概率，对地标全局特征映射

的具体信息权重进行更新；

3)对两个地标全局特征映射

进行拼接得到联合全局特征映射

进一步的，步骤S2中，在区域特征一致性建议项通过构建特征一致性建议函数使特征自注意融合分支生成的全局特征映射

分别关注到不同类别前缀的地标建筑的相同区域，具体的特征一致性建议函数为：

式中，

表示欧几里得范数，

表示特征自注意融合分支生成的地标全局特征映射

K＝2，c_k为簇中心向量。

进一步的，步骤S2中，簇中心向量c_k是根据全局特征映射学***均值进行更新：

其中α控制c_k的更新率，

表示特征自注意融合分支生成的地标全局特征映射

进一步的，步骤S3中，总损失函数为：

其中，L为特征一致性建议函数，

为分类损失函数，

为三元组损失函数，具体的：

分类损失函数为在任一个全局特征映射

后设计一个批量归一化层BN()、一个线性层W和一个Softmax层，具体为：

三元组损失函数用于增强任一个全局特征映射

的的辨别性，具体为：

式中，F表示全局特征映射，k＝1,2,3表示不同的全局特征映射，A是Anchor表示样本本身，N是negative表示与A不同类的样本，P是Positive表示与A同类的样本，

分别表示组成三元组的源样本、负样本和正样本的特征向量，

和

分别代表正样本对和负样本对的欧式距离，m代表三元组损失的间距阈值，[ ]₊代表取正值。

进一步的，步骤S4中，将地标检索测试数据集T_e输入地标图像检索模型，获取测试地标图像的联合全局特征映射

通过余弦距离函数计算地标检索测试数据集T_e中两两地标图像全局特征映射的相似度，根据相似度大小对图像检索结果进行排序输出，余弦距离函数具体为：

式中，

与

中F表示全局特征映射，j₁和j₂表示地标检索测试数据集T_e中的测试样本和非测试样本的任意一张图像，|| ||表示模。

本发明还提供一种特征一致性建议的多尺度融合地标图像检索***，包括：

数据采集模块，用于采集地标图像数据，构建地标检索训练数据集T_r与测试数据集T_e；

网络构建模块，用于特征一致性建议的多尺度融合地标图像检索网络，包括衔接有多尺度信息提取模块的ResNet50网络、特征自注意融合网络和区域特征一致性建议项；

网络训练模块，用于通过特征一致性建议函数、三元组损失函数和分类函数构造总损失函数，计算损失值，利用地标检索训练数据集T_r对多尺度地标图像检索网络进行训练，得到特征一致性建议的多尺度融合地标图像检索模型；

检索模块，用于将地标检索测试数据集T_e输入特征一致性建议的多尺度融合地标图像检索模型，输出地标图像的检索结果。

与现有技术相比，本发明至少具有以下有益效果：

本发明提出一种特征一致性建议的多尺度融合地标图像检索方法，网络主干选用ResNet50结构，通过设计多尺度信息提取模块，使其按照从左上到右下的顺序获取多个中等大小的局部特征块，完成对多尺度信息的提取；提出特征自注意融合网络，通过特征自注意融合分支Transformer编码层对多个局部特征块中的重要信息进行自注意学***衡、不充分的问题，降低了人工标注带来的损耗，提高了多尺度地标图像检索网络对多尺度地标图像的检索能力，实现了更加准确的检索匹配率，推动了多尺度地标图像检索在现实场景下的部署应用。

附图说明

图1为本发明实施的流程图；

图2为本发明网络整体结构图；

图3为本发明检索方法在地标建筑数据集Paris6k检索结果示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步的说明。

如图1所示：本发明提出一种特征一致性建议的多尺度融合地标图像检索方法，具体步骤如下：

1.获取不同摄像设备捕捉的地标图像数据，构建地标检索训练数据集T_r与测试数据集T_e，对T_r进行图像预处理操作。具体步骤包括：

从多个摄像设备中获取大量地标图像，采用人工标注的方法将地标图像中的同一种地标标注对应的类别作为前缀，并在类别后赋予一个独立的编号，(如大雁塔-0001，大雁塔-0002)循环上述步骤来构建地标图像检索数据集。构建完成后，将数据按照7：3划分为地标检索训练数据集T_r与测试数据集T_e，对检测训练集T_r中的图像进行预处理，将地标检索训练数据集T_r与测试数据集T_e，分别用于训练网络和测试网络。

优选的，地标标注时，不同地标之间的类别前缀不同，同一地标的编号不同；

优选的，预处理包括：训练时对训练集T_r中的所有地标图像执行上下左右随机翻转、随机擦除图像预处理操作，图像尺寸统一缩放为256×256固定大小，并执行归一化操作。

2.构造特征一致性建议的多尺度融合地标图像检索网络，具体包括骨干网络ResNet50(Backbone)、多尺度信息提取模块(Multi-scale Information ExtractionModule)、特征自注意融合网络(Feature Self-attention Fusion Network)和区域特征一致性建议项，该骨干网络ResNet50的最大池化层后衔接有多尺度信息提取模块，骨干网络ResNet50获取输入图像的初始局部特征图，多尺度信息提取模块提取初始局部特征图的多个局部特征块，特征自注意融合网络用于自注意学习并融合多个局部特征块和Transformer编码层生成的初始全局特征映射，得到两个地标全局特征映射

将两个地标全局特征映射

进行拼接操作得到联合全局特征映射

区域特征一致性建议项用于限制地标全局特征映射

所重点关注的区域特征。

如图2所示，具体步骤包括：

该网络主要包含三个部分：

①输入图像利用骨干网络ResNet50的最大池化层建立初始局部特征图，利用多尺度信息提取模块通过重组张量函数提取初始局部特征的多个局部特征块；

②骨干网络ResNet50后构建特征自注意融合网络，特征自注意融合网络包括两个特征自注意融合分支，两个特征自注意融合分支各由一层Transformer编码层构成，Transformer编码层先随机初始化生成全局特征映射，再将初始全局特征映射与局部特征块进行有效信息融合，得到两个地标全局特征映射

将

相拼接得到第三个全局特征映射

构成高维度特征信息链。

③设计区域特征一致性建议项，对地标全局特征映射

所重点关注的区域特征分别限制，使得地标全局特征映射

分别在不同类别前缀的地标建筑能够自发关注相同区域，如

分别关注窗户、门等。

3.多尺度信息提取模块，如图2所示，具体步骤包括：

骨干网络ResNet50神经网络由若干批量归一化层、若干卷积层、若干非线性激活层构成。将步骤1获取的地标检索训练数据集T_r中的图像I_i,i∈1,2,3…，按批量大小n输入ResNet50神经网络中，生成初始局部特征图，该初始局部特征图大小为16×16×2048，多尺度信息提取模块通过重组张量函数对初始局部特征图提取不同尺度的局部特征块

和

促使网络关注到不同尺度的局部信息，其中设定

的大小为2×2×2048，共划分为N块，N为64，

的大小为4×4×2048，共划分为M块，M为16，由此得到N个局部特征块

和M个局部特征块

4.特征自注意融合网络，如图2所示，具体步骤包括：

1)两个Transformer编码层分别初始化生成初始全局特征映射C′₀、C″₀，初始全局特征映射C′₀、C″₀用于提取全局分类特征

将局部特征块

和初始全局特征映射C′₀、C"₀两两组成一组，即

与C′₀组，

与C"₀组，并分别输入两个特征自注意融合分支的Transformer编码层中，在Transformer编码层中将标准的可学习的位置向量E_pos嵌入到

与C′₀组和

与C"₀组中，得到的初步融合的两个地标全局特征映射

位置向量E_pos的嵌入可以保留初始全局特征映射和局部特征块的位置信息，其中两分支中的初始全局特征映射的位置信息均定义为0，局部特征块

分别是1～N，和1～M。

通过结果向量序列z′₀和z″₀分别表示两个地标全局特征映射

的具体信息，结果向量序列z′₀和z″₀分别定义为公式(1)和(2)：

式中E表示对局部特征块处理为可计算的向量，E_pos表示标准位置信息的嵌入，(p,p)有是特征块的分辨率，c是通道数，D是维度。

2)将结果向量序列z′₀和z″₀分别传入两个Transformer编码层中，Transformer编码层中的多头自注意模块对两个地标全局特征映射

中的重要信息进行自注意学习，具体的，结果向量序列z₀与随机初始矩阵W_Q，W_K，W_V相乘生成Q,K,V矩阵，随之Q和所有K计算相似性，通过相似性大小得出结果向量序列z′₀和z″₀每一部分的权重，将权重采用softmax回归函数转化为概率分布，计算过程如公式(3)所示：

式中，

是为了把注意力矩阵变成标准正态分布。

得到的概率分布重新反馈到结果向量序列z′₀和z″₀中，对地标全局特征映射

具体信息的权重进行更新，得到新的地标全局特征映射

使得地标全局特征映射

中权重高的信息更重要，权重低的信息更不重要。

3)将两个地标全局特征映射

进行拼接操作得到联合全局特征映射

拼接操作的过程定义为公式(4):

式中，

表示拼接操作

构成高维度特征信息链。

5.区域特征一致性建议项的执行，具体步骤包括：

首先，设计特征一致性建议函数，使得特征自注意融合分支生成的全局特征映射

分别关注到不同类别前缀的地标建筑的相同区域，为全局特征映射

分别初始化一个簇中心向量c_k，然后使用特征一致性建议函数将该全局特征映射

学习到的特征逐渐约束到簇中心向量c_k周围，使该全局特征映射

能够感知到相同的区域特征，如公式(4)所示：

式中，

表示欧几里得范数，在本模型中

表示特征自注意融合分支生成的全局特征映射，K＝2，其中簇中心向量c_k是根据全局特征映射学***均值进行更新：

其中α控制c_k的更新率。通过优化该特征一致性建议函数，

逐渐靠拢簇中心向量c_k，能够使该全局特征映射捕捉的区域特征相近。

6.损失计算，具体步骤包括：

使用三元组损失函数

增强任一个全局特征映射

的辨别性：

和

分别代表正样本对和负样本对的欧式距离，m代表三元组损失的间距阈值，[]₊代表取正值。

同时，在任一个全局特征映射

后设计一个批量归一化层BN()、一个线性层W和一个Softmax层，得到分类损失函数用于计算分类损失：

式中，

是样本i预测正确的概率分布，p_i为每一个样本预测正确的概率，N表示可能发生情况的总数，

表示分类损失。

最终的总损失函数由特征一致性建议函数、三元组损失函数和分类损失函数共同组成，可表示为公式(8)：

7.地标图像检索网络，具体步骤包括：

先将步骤1中获取的地标检索训练数据集T_r的数据，按照一定批量大小n输入至网络进行训练，根据步骤5确定总损失后，利用适应性梯度下降算法对地标图像检索网络进行训练，得到地标建筑图像检索模型。

接着对训练好的模型进行测试，对步骤1获取的地标检索数据集T_e通过步骤4获取地标的全局特征映射

对其进行拼接得到联合全局特征映射

对于地标检索数据集T_e中的地标图像I_j,j＝1,2,3…，通过余弦距离函数计算两两地标图像全局特征映射的相似度，最后根据相似度大小输出排序结果，完成地标图像检索。余弦函数的计算如公式(9)所示，余弦距离的计算如公式(10)所示。

式中，

与

中F表示全局特征映射，j₁和j₂表示地标检索测试数据集中的测试样本和非测试样本的任意一张图像，||||表示模，表示点乘。

本发明的工作原理：

第1步，采集来源于不同拍摄设备的地标图像数据，构建地标检索训练数据集T_r用于训练本发明所设计的网络。

第2步，构造特征一致性建议的多尺度融合地标图像检索网络。

2.1，利用ResNet50网络的最大池化层获取地标图像的初始局部特征图为16×16×2048；

2.2，多尺度信息提取模块的执行，对初始局部特征图通过重组张量函数按照从左上到右下的顺序，分成64个2×2×2048大小和16个4×4×2048大小的局部特征块；

2.3，特征自注意融合网络的执行，首先由Transformer编码层初始化生成初始全局特征映射C′₀、C″₀，初始全局特征映射C′₀、C″₀用于提取全局分类特征

然后将步骤2.2得到的局部特征块

和全局特征映射C′₀、C″₀两两组成一组得到

与C′₀组和

与C″₀组；

将

与C′₀组和

与C″₀组分别传入Transformer编码层中的多头自注意模块进行学习，获取两个地标全局特征映射

并进行拼接操作得到

设计区域特征一致性建议项，对全局特征映射

所重点关注的区域特征分别限制。

第3步，损失计算，通过特征一致性建议函数、三元组损失函数和分类函数计算三个全局特征映射

的损失值，并选用梯度下降算法训练地标图像检索网络，获取网络的最优模型；

第4步，将待检索地标检索数据集T_e输入地标图像检索模型，获取测试地标图像的三个全局特征映射，通过余弦距离函数计算地标检索测试数据集T_e图像两两之间的相似度并按相似度输出，完成地标图像的检索。

本发明还提供一种计算机设备，所述计算机设备包括计算机、服务器或者其他具有计算功能的终端设备，所述设备包括通过总线连接的处理器、存储器，所述存储器中储存程序，并且该程序被配制成由处理器执行，程序包括用于执行上述一种特征一致性建议的多尺度融合地标图像检索方法。

本发明还提供一种计算机存储介质，所述计算机存储介质中存储有计算机程序，所述程序被处理器执行，处理器执行所述计算机程序时，实现上述一种特征一致性建议的多尺度融合地标图像检索方法。

图3为本发明方法在地标数据集Paris6k的检索结果。其中图3中第一列表示待查询图像，每一行第2-6张图像表示查询结果，根据查询结果可发现本发明方法的匹配准确率较高，通过图3中(a)行第六张、(b)行第三张、(e)行第三张检索结果图可以看出，本发明方法在地标出现较小尺度时能被准确检索到，而且通过图3中(b)行第六张、(c)行第三张检索结果图可以看出，本发明方法在出现视角变化、光照变化的情况下均检索效果良好。

将本发明方法和其他现有的优秀检索方法在数据集Paris6k上的CMC(CumulativeMatch Characteristic，累计匹配特性)结果性能进行对比，结果如表1所示：

表1 地标建筑数据集Paris6k的CMC性能对比

方法	mAP
		R-MAC	82.8％
DELF+FT+ATT	84.9％
		siaMAC+QE*	85.7％
R-MAC+R+QE	86.3％
		本发明方法	87.0％

从表1中可以看出，与其他先进的算法相比，本发明方法的mAP为87.0％，比R-MAC+R+QE方法相比mAP提升了0.7％，检索效果处于领先地位，进一步证明了本发明方法的有效性。

Claims

1.一种特征一致性建议的多尺度融合地标图像检索方法，其特征在于，具体步骤如下：

2.根据权利要求1所述的一种特征一致性建议的多尺度融合地标图像检索方法，其特征在于，步骤S1中，采用人工标注的方法将地标图像中的同一种地标标注对应的类别作为前缀，并在类别后赋予一个独立的编号，其中，不同地标之间的类别前缀不同，同一地标的编号不同。

3.根据权利要求1所述的一种特征一致性建议的多尺度融合地标图像检索方法，其特征在于，步骤S2中，在ResNet50网络最大池化层后衔接有多尺度信息提取模块，所述ResNet50网络用于获取地标图像的初始局部特征图；多尺度信息提取模块通过重组张量函数按照从左上到右下的顺序提取初始局部特征图的多个局部特征块，得到N个局部特征块f_i ^N和M个局部特征块f_i ^M。

4.根据权利要求3所述的一种特征一致性建议的多尺度融合地标图像检索方法，其特征在于，步骤S2中，ResNet50后构建特征自注意融合网络，所述特征自注意融合网络包括两个特征自注意融合分支，两个特征自注意融合分支各由一层Transformer编码层构成。

5.根据权利要求3所述的一种特征一致性建议的多尺度融合地标图像检索方法，其特征在于，步骤S2中，特征自注意融合网络处理过程的具体步骤为：

1)两个Transformer编码层分别初始化生成初始全局特征映射C′₀、C″₀，将局部特征块f_i ^N、f_i ^M和初始全局特征映射C′₀、C″₀两两组成一组，得到f_i ^N与C′₀组，f_i ^M与C″₀组；将f_i ^N与C′₀组，f_i ^M与C″₀分别输入Transformer编码层中，在Transformer编码层中将标准的可学习的位置向量E_pos嵌入到f_i ^N与C′₀组、f_i ^M与C″₀组中，得到的初步融合的两个地标全局特征映射