CN114579794A - 特征一致性建议的多尺度融合地标图像检索方法及*** - Google Patents

特征一致性建议的多尺度融合地标图像检索方法及*** Download PDF

Info

Publication number
CN114579794A
CN114579794A CN202210334948.5A CN202210334948A CN114579794A CN 114579794 A CN114579794 A CN 114579794A CN 202210334948 A CN202210334948 A CN 202210334948A CN 114579794 A CN114579794 A CN 114579794A
Authority
CN
China
Prior art keywords
landmark
feature
consistency
scale
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210334948.5A
Other languages
English (en)
Inventor
孟月波
杨蕾
段中兴
刘光辉
赵敏华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Architecture and Technology
Original Assignee
Xian University of Architecture and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Architecture and Technology filed Critical Xian University of Architecture and Technology
Priority to CN202210334948.5A priority Critical patent/CN114579794A/zh
Publication of CN114579794A publication Critical patent/CN114579794A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/587Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种特征一致性建议的多尺度融合地标图像检索方法及***,采集地标图像数据,构建地标检索训练数据集Tr与测试数据集Te;构造特征一致性建议的多尺度融合地标图像检索网络;通过构造总损失函数,计算损失值,利用地标检索训练数据集Tr对多尺度地标图像检索网络进行训练,得到特征一致性建议的多尺度融合地标图像检索模型;将测试数据集Te输入特征一致性建议的多尺度融合地标图像检索模型,输出地标图像的检索结果,本发明解决了不同拍摄条件下的尺度差异导致检索准确率低的问题,减少了对大量细粒度标签信息的依赖,提高了地标图像的匹配精度,有利于实现智慧旅游领域中的实际应用部署。

Description

特征一致性建议的多尺度融合地标图像检索方法及***
技术领域
本发明属于图像检索技术领域,具体属于一种特征一致性建议的多尺度融合地标图像检索方法及***。
背景技术
随着社交网站、通信及多媒体技术、数字化图像设备等方面的迅速发展,数字图像的使用涉及到了国防军事、医疗卫生、大众娱乐和家庭生活各个方面,图像、视频等数据每天都在以惊人的速度增长。针对这些包含丰富视觉信息的海量图片,如何在这些浩瀚的图像库中方便、快速、准确地查询并检索到用户所需的或感兴趣的图像,成为多媒体信息检索领域研究的热点。地标图像检索是指从数据库图像中找到包含相同地标建筑实例的图像,能够实现对当地的地标进行直观的地理探索和导航,进一步提供路线优化以及相似旅游景点的推荐,在智慧旅游领域中具有重要的应用价值。
目前,在神经网络优异性能的推动下,地标图像检索技术在处理光照变化、拍摄角度变化的问题上取得了出色成绩。但在实际应用于互联网推荐***时,由于不同摄像设备之间的拍摄距离不同,会使得摄像头捕捉到的地标信息在图像中出现严重的尺度变化。
针对上述问题,常用的解决方法是提取所有地标建筑具有判别性及代表性的固定局部视觉特征,以解决地标图像由于拍摄条件不同导致的尺度差异问题,从而提升地标图像检索精度。但以上方法严重依赖额外的地标标注信息,例如中心建筑、顶部、窗户信息等,需要付出大量的人力对地标数据集制作额外的标签信息,极大的限制了地标检索方法的实际应用。
发明内容
为了解决现有技术中存在的问题,本发明提供一种特征一致性建议的多尺度融合地标图像检索方法,解决了不同拍摄条件下的尺度差异导致检索准确率低的问题,减少了对大量细粒度标签信息的依赖,提高了地标图像的匹配精度,有利于实现智慧旅游领域中的实际应用部署。
为实现上述目的,本发明提供如下技术方案:一种特征一致性建议的多尺度融合地标图像检索方法,具体步骤如下:
S1采集地标图像数据,构建地标检索训练数据集Tr与测试数据集Te
S2构造特征一致性建议的多尺度融合地标图像检索网络,包括衔接有多尺度信息提取模块的ResNet50网络、特征自注意融合网络和区域特征一致性建议项;
S3通过特征一致性建议函数、三元组损失函数和分类函数构造总损失函数,计算损失值,利用地标检索训练数据集Tr对多尺度地标图像检索网络进行训练,得到特征一致性建议的多尺度融合地标图像检索模型;
S4将地标检索测试数据集Te输入特征一致性建议的多尺度融合地标图像检索模型,输出地标图像的检索结果。
进一步的,步骤S1中,采用人工标注的方法将地标图像中的同一种地标标注对应的类别作为前缀,并在类别后赋予一个独立的编号,其中,不同地标之间的类别前缀不同,同一地标的编号不同。
进一步的,步骤S2中,在ResNet50网络最大池化层后衔接有多尺度信息提取模块,所述ResNet50网络用于获取地标图像的初始局部特征图;多尺度信息提取模块通过重组张量函数按照从左上到右下的顺序提取初始局部特征图的多个局部特征块,得到N个局部特征块
Figure BDA0003576446430000021
和M个局部特征块
Figure BDA0003576446430000022
进一步的,步骤S2中,ResNet50后构建特征自注意融合网络,所述特征自注意融合网络包括两个特征自注意融合分支,两个特征自注意融合分支各由一层Transformer编码层构成。
进一步的,步骤S2中,特征自注意融合网络处理过程的具体步骤为:
1)两个Transformer编码层分别初始化生成初始全局特征映射C′0、C″0,将局部特征块
Figure BDA0003576446430000031
Figure BDA0003576446430000032
和初始全局特征映射C′0、C″0两两组成一组,得到
Figure BDA0003576446430000033
与C′0组,
Figure BDA0003576446430000034
与C″0组;将
Figure BDA0003576446430000035
与C′0组,
Figure BDA0003576446430000036
与C″0分别输入Transformer编码层中,在Transformer编码层中将标准的可学习的位置向量Epos嵌入到
Figure BDA0003576446430000037
与C′0组、
Figure BDA0003576446430000038
与C″0组中,得到的初步融合的两个地标全局特征映射
Figure BDA0003576446430000039
2)利用结果向量序列z′0和z″0分别表示两个地标全局特征映射
Figure BDA00035764464300000310
的具体信息,将结果向量序列z′0和z″0分别输入两个Transformer编码层中对两个地标全局特征映射
Figure BDA00035764464300000311
中的重要信息进行自注意学习,得到结果向量序列z′0和z″0中每一部分的权重,得到权重的分布概率,对地标全局特征映射
Figure BDA00035764464300000312
的具体信息权重进行更新;
3)对两个地标全局特征映射
Figure BDA00035764464300000313
进行拼接得到联合全局特征映射
Figure BDA00035764464300000314
进一步的,步骤S2中,在区域特征一致性建议项通过构建特征一致性建议函数使特征自注意融合分支生成的全局特征映射
Figure BDA00035764464300000315
分别关注到不同类别前缀的地标建筑的相同区域,具体的特征一致性建议函数为:
Figure BDA00035764464300000316
式中,
Figure BDA00035764464300000317
表示欧几里得范数,
Figure BDA00035764464300000318
表示特征自注意融合分支生成的地标全局特征映射
Figure BDA00035764464300000319
K=2,ck为簇中心向量。
进一步的,步骤S2中,簇中心向量ck是根据全局特征映射学***均值进行更新:
Figure BDA00035764464300000320
其中α控制ck的更新率,
Figure BDA00035764464300000321
表示特征自注意融合分支生成的地标全局特征映射
Figure BDA00035764464300000322
进一步的,步骤S3中,总损失函数为:
Figure BDA00035764464300000323
其中,L为特征一致性建议函数,
Figure BDA0003576446430000041
为分类损失函数,
Figure BDA0003576446430000042
为三元组损失函数,具体的:
分类损失函数为在任一个全局特征映射
Figure BDA0003576446430000043
后设计一个批量归一化层BN()、一个线性层W和一个Softmax层,具体为:
Figure BDA0003576446430000044
Figure BDA0003576446430000045
三元组损失函数用于增强任一个全局特征映射
Figure BDA0003576446430000046
的的辨别性,具体为:
Figure BDA0003576446430000047
式中,F表示全局特征映射,k=1,2,3表示不同的全局特征映射,A是Anchor表示样本本身,N是negative表示与A不同类的样本,P是Positive表示与A同类的样本,
Figure BDA0003576446430000048
分别表示组成三元组的源样本、负样本和正样本的特征向量,
Figure BDA0003576446430000049
Figure BDA00035764464300000410
分别代表正样本对和负样本对的欧式距离,m代表三元组损失的间距阈值,[ ]+代表取正值。
进一步的,步骤S4中,将地标检索测试数据集Te输入地标图像检索模型,获取测试地标图像的联合全局特征映射
Figure BDA00035764464300000411
通过余弦距离函数计算地标检索测试数据集Te中两两地标图像全局特征映射的相似度,根据相似度大小对图像检索结果进行排序输出,余弦距离函数具体为:
Figure BDA00035764464300000412
Figure BDA00035764464300000413
式中,
Figure BDA00035764464300000414
Figure BDA00035764464300000415
中F表示全局特征映射,j1和j2表示地标检索测试数据集Te中的测试样本和非测试样本的任意一张图像,|| ||表示模。
本发明还提供一种特征一致性建议的多尺度融合地标图像检索***,包括:
数据采集模块,用于采集地标图像数据,构建地标检索训练数据集Tr与测试数据集Te
网络构建模块,用于特征一致性建议的多尺度融合地标图像检索网络,包括衔接有多尺度信息提取模块的ResNet50网络、特征自注意融合网络和区域特征一致性建议项;
网络训练模块,用于通过特征一致性建议函数、三元组损失函数和分类函数构造总损失函数,计算损失值,利用地标检索训练数据集Tr对多尺度地标图像检索网络进行训练,得到特征一致性建议的多尺度融合地标图像检索模型;
检索模块,用于将地标检索测试数据集Te输入特征一致性建议的多尺度融合地标图像检索模型,输出地标图像的检索结果。
与现有技术相比,本发明至少具有以下有益效果:
本发明提出一种特征一致性建议的多尺度融合地标图像检索方法,网络主干选用ResNet50结构,通过设计多尺度信息提取模块,使其按照从左上到右下的顺序获取多个中等大小的局部特征块,完成对多尺度信息的提取;提出特征自注意融合网络,通过特征自注意融合分支Transformer编码层对多个局部特征块中的重要信息进行自注意学***衡、不充分的问题,降低了人工标注带来的损耗,提高了多尺度地标图像检索网络对多尺度地标图像的检索能力,实现了更加准确的检索匹配率,推动了多尺度地标图像检索在现实场景下的部署应用。
附图说明
图1为本发明实施的流程图;
图2为本发明网络整体结构图;
图3为本发明检索方法在地标建筑数据集Paris6k检索结果示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步的说明。
如图1所示:本发明提出一种特征一致性建议的多尺度融合地标图像检索方法,具体步骤如下:
1.获取不同摄像设备捕捉的地标图像数据,构建地标检索训练数据集Tr与测试数据集Te,对Tr进行图像预处理操作。具体步骤包括:
从多个摄像设备中获取大量地标图像,采用人工标注的方法将地标图像中的同一种地标标注对应的类别作为前缀,并在类别后赋予一个独立的编号,(如大雁塔-0001,大雁塔-0002)循环上述步骤来构建地标图像检索数据集。构建完成后,将数据按照7:3划分为地标检索训练数据集Tr与测试数据集Te,对检测训练集Tr中的图像进行预处理,将地标检索训练数据集Tr与测试数据集Te,分别用于训练网络和测试网络。
优选的,地标标注时,不同地标之间的类别前缀不同,同一地标的编号不同;
优选的,预处理包括:训练时对训练集Tr中的所有地标图像执行上下左右随机翻转、随机擦除图像预处理操作,图像尺寸统一缩放为256×256固定大小,并执行归一化操作。
2.构造特征一致性建议的多尺度融合地标图像检索网络,具体包括骨干网络ResNet50(Backbone)、多尺度信息提取模块(Multi-scale Information ExtractionModule)、特征自注意融合网络(Feature Self-attention Fusion Network)和区域特征一致性建议项,该骨干网络ResNet50的最大池化层后衔接有多尺度信息提取模块,骨干网络ResNet50获取输入图像的初始局部特征图,多尺度信息提取模块提取初始局部特征图的多个局部特征块,特征自注意融合网络用于自注意学习并融合多个局部特征块和Transformer编码层生成的初始全局特征映射,得到两个地标全局特征映射
Figure BDA0003576446430000061
将两个地标全局特征映射
Figure BDA0003576446430000062
进行拼接操作得到联合全局特征映射
Figure BDA0003576446430000063
区域特征一致性建议项用于限制地标全局特征映射
Figure BDA0003576446430000064
所重点关注的区域特征。
如图2所示,具体步骤包括:
该网络主要包含三个部分:
①输入图像利用骨干网络ResNet50的最大池化层建立初始局部特征图,利用多尺度信息提取模块通过重组张量函数提取初始局部特征的多个局部特征块;
②骨干网络ResNet50后构建特征自注意融合网络,特征自注意融合网络包括两个特征自注意融合分支,两个特征自注意融合分支各由一层Transformer编码层构成,Transformer编码层先随机初始化生成全局特征映射,再将初始全局特征映射与局部特征块进行有效信息融合,得到两个地标全局特征映射
Figure BDA0003576446430000071
Figure BDA0003576446430000072
相拼接得到第三个全局特征映射
Figure BDA0003576446430000073
Figure BDA0003576446430000074
构成高维度特征信息链。
③设计区域特征一致性建议项,对地标全局特征映射
Figure BDA0003576446430000075
所重点关注的区域特征分别限制,使得地标全局特征映射
Figure BDA0003576446430000076
分别在不同类别前缀的地标建筑能够自发关注相同区域,如
Figure BDA0003576446430000077
分别关注窗户、门等。
3.多尺度信息提取模块,如图2所示,具体步骤包括:
骨干网络ResNet50神经网络由若干批量归一化层、若干卷积层、若干非线性激活层构成。将步骤1获取的地标检索训练数据集Tr中的图像Ii,i∈1,2,3…,按批量大小n输入ResNet50神经网络中,生成初始局部特征图,该初始局部特征图大小为16×16×2048,多尺度信息提取模块通过重组张量函数对初始局部特征图提取不同尺度的局部特征块
Figure BDA0003576446430000078
Figure BDA0003576446430000079
促使网络关注到不同尺度的局部信息,其中设定
Figure BDA00035764464300000710
的大小为2×2×2048,共划分为N块,N为64,
Figure BDA00035764464300000711
的大小为4×4×2048,共划分为M块,M为16,由此得到N个局部特征块
Figure BDA00035764464300000712
和M个局部特征块
Figure BDA00035764464300000713
4.特征自注意融合网络,如图2所示,具体步骤包括:
1)两个Transformer编码层分别初始化生成初始全局特征映射C′0、C″0,初始全局特征映射C′0、C″0用于提取全局分类特征
Figure BDA00035764464300000714
将局部特征块
Figure BDA00035764464300000715
和初始全局特征映射C′0、C"0两两组成一组,即
Figure BDA0003576446430000081
与C′0组,
Figure BDA0003576446430000082
与C"0组,并分别输入两个特征自注意融合分支的Transformer编码层中,在Transformer编码层中将标准的可学习的位置向量Epos嵌入到
Figure BDA0003576446430000083
与C′0组和
Figure BDA0003576446430000084
与C"0组中,得到的初步融合的两个地标全局特征映射
Figure BDA0003576446430000085
位置向量Epos的嵌入可以保留初始全局特征映射和局部特征块的位置信息,其中两分支中的初始全局特征映射的位置信息均定义为0,局部特征块
Figure BDA0003576446430000086
分别是1~N,和1~M。
通过结果向量序列z′0和z″0分别表示两个地标全局特征映射
Figure BDA0003576446430000087
的具体信息,结果向量序列z′0和z″0分别定义为公式(1)和(2):
Figure BDA0003576446430000088
Figure BDA0003576446430000089
式中E表示对局部特征块处理为可计算的向量,Epos表示标准位置信息的嵌入,(p,p)有是特征块的分辨率,c是通道数,D是维度。
2)将结果向量序列z′0和z″0分别传入两个Transformer编码层中,Transformer编码层中的多头自注意模块对两个地标全局特征映射
Figure BDA00035764464300000810
中的重要信息进行自注意学习,具体的,结果向量序列z0与随机初始矩阵WQ,WK,WV相乘生成Q,K,V矩阵,随之Q和所有K计算相似性,通过相似性大小得出结果向量序列z′0和z″0每一部分的权重,将权重采用softmax回归函数转化为概率分布,计算过程如公式(3)所示:
Figure BDA00035764464300000811
式中,
Figure BDA00035764464300000812
是为了把注意力矩阵变成标准正态分布。
得到的概率分布重新反馈到结果向量序列z′0和z″0中,对地标全局特征映射
Figure BDA00035764464300000813
具体信息的权重进行更新,得到新的地标全局特征映射
Figure BDA00035764464300000814
使得地标全局特征映射
Figure BDA00035764464300000815
中权重高的信息更重要,权重低的信息更不重要。
3)将两个地标全局特征映射
Figure BDA00035764464300000816
进行拼接操作得到联合全局特征映射
Figure BDA00035764464300000817
拼接操作的过程定义为公式(4):
Figure BDA0003576446430000091
式中,
Figure BDA0003576446430000092
表示拼接操作
Figure BDA0003576446430000093
构成高维度特征信息链。
5.区域特征一致性建议项的执行,具体步骤包括:
首先,设计特征一致性建议函数,使得特征自注意融合分支生成的全局特征映射
Figure BDA0003576446430000094
分别关注到不同类别前缀的地标建筑的相同区域,为全局特征映射
Figure BDA0003576446430000095
分别初始化一个簇中心向量ck,然后使用特征一致性建议函数将该全局特征映射
Figure BDA0003576446430000096
学习到的特征逐渐约束到簇中心向量ck周围,使该全局特征映射
Figure BDA0003576446430000097
能够感知到相同的区域特征,如公式(4)所示:
Figure BDA0003576446430000098
式中,
Figure BDA0003576446430000099
表示欧几里得范数,在本模型中
Figure BDA00035764464300000910
表示特征自注意融合分支生成的全局特征映射,K=2,其中簇中心向量ck是根据全局特征映射学***均值进行更新:
Figure BDA00035764464300000911
其中α控制ck的更新率。通过优化该特征一致性建议函数,
Figure BDA00035764464300000912
逐渐靠拢簇中心向量ck,能够使该全局特征映射捕捉的区域特征相近。
6.损失计算,具体步骤包括:
使用三元组损失函数
Figure BDA00035764464300000913
增强任一个全局特征映射
Figure BDA00035764464300000914
的辨别性:
Figure BDA00035764464300000915
式中,F表示全局特征映射,k=1,2,3表示不同的全局特征映射,A是Anchor表示样本本身,N是negative表示与A不同类的样本,P是Positive表示与A同类的样本,
Figure BDA00035764464300000916
分别表示组成三元组的源样本、负样本和正样本的特征向量,
Figure BDA00035764464300000917
Figure BDA00035764464300000918
分别代表正样本对和负样本对的欧式距离,m代表三元组损失的间距阈值,[]+代表取正值。
同时,在任一个全局特征映射
Figure BDA0003576446430000101
后设计一个批量归一化层BN()、一个线性层W和一个Softmax层,得到分类损失函数用于计算分类损失:
Figure BDA0003576446430000102
Figure BDA0003576446430000103
式中,
Figure BDA0003576446430000104
是样本i预测正确的概率分布,pi为每一个样本预测正确的概率,N表示可能发生情况的总数,
Figure BDA0003576446430000105
表示分类损失。
最终的总损失函数由特征一致性建议函数、三元组损失函数和分类损失函数共同组成,可表示为公式(8):
Figure BDA0003576446430000106
7.地标图像检索网络,具体步骤包括:
先将步骤1中获取的地标检索训练数据集Tr的数据,按照一定批量大小n输入至网络进行训练,根据步骤5确定总损失后,利用适应性梯度下降算法对地标图像检索网络进行训练,得到地标建筑图像检索模型。
接着对训练好的模型进行测试,对步骤1获取的地标检索数据集Te通过步骤4获取地标的全局特征映射
Figure BDA0003576446430000107
对其进行拼接得到联合全局特征映射
Figure BDA0003576446430000108
对于地标检索数据集Te中的地标图像Ij,j=1,2,3…,通过余弦距离函数计算两两地标图像全局特征映射的相似度,最后根据相似度大小输出排序结果,完成地标图像检索。余弦函数的计算如公式(9)所示,余弦距离的计算如公式(10)所示。
Figure BDA0003576446430000109
Figure BDA00035764464300001010
式中,
Figure BDA00035764464300001011
Figure BDA00035764464300001012
中F表示全局特征映射,j1和j2表示地标检索测试数据集中的测试样本和非测试样本的任意一张图像,||||表示模,表示点乘。
本发明的工作原理:
第1步,采集来源于不同拍摄设备的地标图像数据,构建地标检索训练数据集Tr用于训练本发明所设计的网络。
第2步,构造特征一致性建议的多尺度融合地标图像检索网络。
2.1,利用ResNet50网络的最大池化层获取地标图像的初始局部特征图为16×16×2048;
2.2,多尺度信息提取模块的执行,对初始局部特征图通过重组张量函数按照从左上到右下的顺序,分成64个2×2×2048大小和16个4×4×2048大小的局部特征块;
2.3,特征自注意融合网络的执行,首先由Transformer编码层初始化生成初始全局特征映射C′0、C″0,初始全局特征映射C′0、C″0用于提取全局分类特征
Figure BDA0003576446430000111
然后将步骤2.2得到的局部特征块
Figure BDA0003576446430000112
和全局特征映射C′0、C″0两两组成一组得到
Figure BDA0003576446430000113
与C′0组和
Figure BDA0003576446430000114
与C″0组;
Figure BDA0003576446430000115
与C′0组和
Figure BDA0003576446430000116
与C″0组分别传入Transformer编码层中的多头自注意模块进行学习,获取两个地标全局特征映射
Figure BDA0003576446430000117
并进行拼接操作得到
Figure BDA0003576446430000118
设计区域特征一致性建议项,对全局特征映射
Figure BDA0003576446430000119
所重点关注的区域特征分别限制。
第3步,损失计算,通过特征一致性建议函数、三元组损失函数和分类函数计算三个全局特征映射
Figure BDA00035764464300001110
的损失值,并选用梯度下降算法训练地标图像检索网络,获取网络的最优模型;
第4步,将待检索地标检索数据集Te输入地标图像检索模型,获取测试地标图像的三个全局特征映射,通过余弦距离函数计算地标检索测试数据集Te图像两两之间的相似度并按相似度输出,完成地标图像的检索。
本发明还提供一种特征一致性建议的多尺度融合地标图像检索***,包括:
数据采集模块,用于采集地标图像数据,构建地标检索训练数据集Tr与测试数据集Te
网络构建模块,用于特征一致性建议的多尺度融合地标图像检索网络,包括衔接有多尺度信息提取模块的ResNet50网络、特征自注意融合网络和区域特征一致性建议项;
网络训练模块,用于通过特征一致性建议函数、三元组损失函数和分类函数构造总损失函数,计算损失值,利用地标检索训练数据集Tr对多尺度地标图像检索网络进行训练,得到特征一致性建议的多尺度融合地标图像检索模型;
检索模块,用于将地标检索测试数据集Te输入特征一致性建议的多尺度融合地标图像检索模型,输出地标图像的检索结果。
本发明还提供一种计算机设备,所述计算机设备包括计算机、服务器或者其他具有计算功能的终端设备,所述设备包括通过总线连接的处理器、存储器,所述存储器中储存程序,并且该程序被配制成由处理器执行,程序包括用于执行上述一种特征一致性建议的多尺度融合地标图像检索方法。
本发明还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述程序被处理器执行,处理器执行所述计算机程序时,实现上述一种特征一致性建议的多尺度融合地标图像检索方法。
图3为本发明方法在地标数据集Paris6k的检索结果。其中图3中第一列表示待查询图像,每一行第2-6张图像表示查询结果,根据查询结果可发现本发明方法的匹配准确率较高,通过图3中(a)行第六张、(b)行第三张、(e)行第三张检索结果图可以看出,本发明方法在地标出现较小尺度时能被准确检索到,而且通过图3中(b)行第六张、(c)行第三张检索结果图可以看出,本发明方法在出现视角变化、光照变化的情况下均检索效果良好。
将本发明方法和其他现有的优秀检索方法在数据集Paris6k上的CMC(CumulativeMatch Characteristic,累计匹配特性)结果性能进行对比,结果如表1所示:
表1 地标建筑数据集Paris6k的CMC性能对比
方法 mAP
R-MAC 82.8%
DELF+FT+ATT 84.9%
siaMAC+QE* 85.7%
R-MAC+R+QE 86.3%
本发明方法 87.0%
从表1中可以看出,与其他先进的算法相比,本发明方法的mAP为87.0%,比R-MAC+R+QE方法相比mAP提升了0.7%,检索效果处于领先地位,进一步证明了本发明方法的有效性。

Claims (10)

1.一种特征一致性建议的多尺度融合地标图像检索方法,其特征在于,具体步骤如下:
S1采集地标图像数据,构建地标检索训练数据集Tr与测试数据集Te
S2构造特征一致性建议的多尺度融合地标图像检索网络,包括衔接有多尺度信息提取模块的ResNet50网络、特征自注意融合网络和区域特征一致性建议项;
S3通过特征一致性建议函数、三元组损失函数和分类函数构造总损失函数,计算损失值,利用地标检索训练数据集Tr对多尺度地标图像检索网络进行训练,得到特征一致性建议的多尺度融合地标图像检索模型;
S4将地标检索测试数据集Te输入特征一致性建议的多尺度融合地标图像检索模型,输出地标图像的检索结果。
2.根据权利要求1所述的一种特征一致性建议的多尺度融合地标图像检索方法,其特征在于,步骤S1中,采用人工标注的方法将地标图像中的同一种地标标注对应的类别作为前缀,并在类别后赋予一个独立的编号,其中,不同地标之间的类别前缀不同,同一地标的编号不同。
3.根据权利要求1所述的一种特征一致性建议的多尺度融合地标图像检索方法,其特征在于,步骤S2中,在ResNet50网络最大池化层后衔接有多尺度信息提取模块,所述ResNet50网络用于获取地标图像的初始局部特征图;多尺度信息提取模块通过重组张量函数按照从左上到右下的顺序提取初始局部特征图的多个局部特征块,得到N个局部特征块fi N和M个局部特征块fi M
4.根据权利要求3所述的一种特征一致性建议的多尺度融合地标图像检索方法,其特征在于,步骤S2中,ResNet50后构建特征自注意融合网络,所述特征自注意融合网络包括两个特征自注意融合分支,两个特征自注意融合分支各由一层Transformer编码层构成。
5.根据权利要求3所述的一种特征一致性建议的多尺度融合地标图像检索方法,其特征在于,步骤S2中,特征自注意融合网络处理过程的具体步骤为:
1)两个Transformer编码层分别初始化生成初始全局特征映射C′0、C″0,将局部特征块fi N、fi M和初始全局特征映射C′0、C″0两两组成一组,得到fi N与C′0组,fi M与C″0组;将fi N与C′0组,fi M与C″0分别输入Transformer编码层中,在Transformer编码层中将标准的可学习的位置向量Epos嵌入到fi N与C′0组、fi M与C″0组中,得到的初步融合的两个地标全局特征映射
Figure FDA0003576446420000026
2)利用结果向量序列z′0和z″0分别表示两个地标全局特征映射
Figure FDA0003576446420000027
的具体信息,将结果向量序列z′0和z″0分别输入两个Transformer编码层中对两个地标全局特征映射
Figure FDA0003576446420000028
中的重要信息进行自注意学习,得到结果向量序列z′0和z″0中每一部分的权重,得到权重的分布概率,对地标全局特征映射
Figure FDA0003576446420000029
的具体信息权重进行更新;
3)对两个地标全局特征映射
Figure FDA00035764464200000210
进行拼接得到联合全局特征映射
Figure FDA00035764464200000211
6.根据权利要求5所述的一种特征一致性建议的多尺度融合地标图像检索方法,其特征在于,步骤S2中,在区域特征一致性建议项通过构建特征一致性建议函数使特征自注意融合分支生成的全局特征映射
Figure FDA00035764464200000212
分别关注到不同类别前缀的地标建筑的相同区域,具体的特征一致性建议函数为:
Figure FDA0003576446420000021
式中,
Figure FDA0003576446420000022
表示欧几里得范数,
Figure FDA0003576446420000023
表示特征自注意融合分支生成的地标全局特征映射
Figure FDA00035764464200000213
K=2,ck为簇中心向量。
7.根据权利要求6所述的一种特征一致性建议的多尺度融合地标图像检索方法,其特征在于,步骤S2中,簇中心向量ck是根据全局特征映射学***均值进行更新:
Figure FDA0003576446420000024
其中α控制ck的更新率,
Figure FDA0003576446420000025
表示特征自注意融合分支生成的地标全局特征映射
Figure FDA00035764464200000214
8.根据权利要求6所述的一种特征一致性建议的多尺度融合地标图像检索方法,其特征在于,步骤S3中,总损失函数为:
Figure FDA0003576446420000031
其中,L为特征一致性建议函数,
Figure FDA0003576446420000032
为分类损失函数,
Figure FDA0003576446420000033
为三元组损失函数,具体的:
分类损失函数为在任一个全局特征映射
Figure FDA00035764464200000313
后设计一个批量归一化层BN()、一个线性层W和一个Softmax层,具体为:
Figure FDA0003576446420000034
Figure FDA0003576446420000035
三元组损失函数用于增强任一个全局特征映射
Figure FDA0003576446420000036
的的辨别性,具体为:
Figure FDA0003576446420000037
式中,F表示全局特征映射,k=1,2,3表示不同的全局特征映射,A是Anchor表示样本本身,N是negative表示与A不同类的样本,P是Positive表示与A同类的样本,
Figure FDA0003576446420000038
分别表示组成三元组的源样本、负样本和正样本的特征向量,
Figure FDA0003576446420000039
Figure FDA00035764464200000310
分别代表正样本对和负样本对的欧式距离,m代表三元组损失的间距阈值,[]+代表取正值。
9.根据权利要求5所述的一种特征一致性建议的多尺度融合地标图像检索方法,其特征在于,步骤S4中,将地标检索测试数据集Te输入地标图像检索模型,获取测试地标图像的联合全局特征映射
Figure FDA00035764464200000314
通过余弦距离函数计算地标检索测试数据集Te中两两地标图像全局特征映射的相似度,根据相似度大小对图像检索结果进行排序输出,余弦距离函数具体为:
Figure FDA00035764464200000311
Figure FDA00035764464200000312
式中,
Figure FDA0003576446420000041
Figure FDA0003576446420000042
中F表示全局特征映射,j1和j2表示地标检索测试数据集Te中的测试样本和非测试样本的任意一张图像,|| ||表示模。
10.一种特征一致性建议的多尺度融合地标图像检索***,其特征在于,包括:
数据采集模块,用于采集地标图像数据,构建地标检索训练数据集Tr与测试数据集Te
网络构建模块,用于特征一致性建议的多尺度融合地标图像检索网络,包括衔接有多尺度信息提取模块的ResNet50网络、特征自注意融合网络和区域特征一致性建议项;
网络训练模块,用于通过特征一致性建议函数、三元组损失函数和分类函数构造总损失函数,计算损失值,利用地标检索训练数据集Tr对多尺度地标图像检索网络进行训练,得到特征一致性建议的多尺度融合地标图像检索模型;
检索模块,用于将地标检索测试数据集Te输入特征一致性建议的多尺度融合地标图像检索模型,输出地标图像的检索结果。
CN202210334948.5A 2022-03-31 2022-03-31 特征一致性建议的多尺度融合地标图像检索方法及*** Pending CN114579794A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210334948.5A CN114579794A (zh) 2022-03-31 2022-03-31 特征一致性建议的多尺度融合地标图像检索方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210334948.5A CN114579794A (zh) 2022-03-31 2022-03-31 特征一致性建议的多尺度融合地标图像检索方法及***

Publications (1)

Publication Number Publication Date
CN114579794A true CN114579794A (zh) 2022-06-03

Family

ID=81784900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210334948.5A Pending CN114579794A (zh) 2022-03-31 2022-03-31 特征一致性建议的多尺度融合地标图像检索方法及***

Country Status (1)

Country Link
CN (1) CN114579794A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115240078A (zh) * 2022-06-24 2022-10-25 安徽大学 一种基于轻量化元学习的sar图像小样本目标检测方法
CN116993756A (zh) * 2023-07-05 2023-11-03 石河子大学 一种大田棉花黄萎病病斑分割方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115240078A (zh) * 2022-06-24 2022-10-25 安徽大学 一种基于轻量化元学习的sar图像小样本目标检测方法
CN115240078B (zh) * 2022-06-24 2024-05-07 安徽大学 一种基于轻量化元学习的sar图像小样本目标检测方法
CN116993756A (zh) * 2023-07-05 2023-11-03 石河子大学 一种大田棉花黄萎病病斑分割方法

Similar Documents

Publication Publication Date Title
CN109948425B (zh) 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置
CN111967294B (zh) 一种无监督域自适应的行人重识别方法
CN107885764B (zh) 基于多任务深度学习快速哈希车辆检索方法
Lin et al. RSCM: Region selection and concurrency model for multi-class weather recognition
CN114067160A (zh) 基于嵌入平滑图神经网络的小样本遥感图像场景分类方法
CN110516095B (zh) 基于语义迁移的弱监督深度哈希社交图像检索方法和***
CN110297931B (zh) 一种图像检索方法
CN110956185A (zh) 一种图像显著目标的检测方法
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN111753189A (zh) 一种少样本跨模态哈希检索共同表征学习方法
CN113657450B (zh) 基于注意机制的陆战场图像-文本跨模态检索方法及其***
CN109063649B (zh) 基于孪生行人对齐残差网络的行人重识别方法
CN112949740B (zh) 一种基于多级度量的小样本图像分类方法
CN111680176A (zh) 基于注意力与双向特征融合的遥感图像检索方法及***
CN111242064A (zh) 基于摄像头风格迁移和单标注的行人重识别方法及***
CN112347284B (zh) 一种组合商标图像检索方法
CN114579794A (zh) 特征一致性建议的多尺度融合地标图像检索方法及***
CN113988147B (zh) 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置
CN111241326B (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法
CN113065409A (zh) 一种基于摄像分头布差异对齐约束的无监督行人重识别方法
CN115292532A (zh) 基于伪标签一致性学习的遥感图像域适应检索方法
CN109583371A (zh) 基于深度学习的陆标信息提取与匹配方法
CN114329031A (zh) 一种基于图神经网络和深度哈希的细粒度鸟类图像检索方法
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
CN116543269B (zh) 基于自监督的跨域小样本细粒度图像识别方法及其模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination