CN114972506A

CN114972506A - 一种基于深度学习和街景图像的图像定位方法

Info

Publication number: CN114972506A
Application number: CN202210478747.2A
Authority: CN
Inventors: 陈玉敏; 褚天佑; 徐真珍; 陈国栋; 陈娒杰; 陈玥君; 苏恒
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-08-30
Anticipated expiration: 2042-05-05
Also published as: CN114972506B

Abstract

本发明提出了一种基于深度学习和街景图像的图像定位方法，为了提取图像中具有地理位置信息的图像特征，构建了基于深度学习的特征提取网络，利用地标数据集来提高网络对含有位置信息的特征的权重；然后通过特征聚合方法提取街景图像的聚合特征来提高特征进行匹配时的速度，同时利用特征相似度计算方法来降低重复纹理特征的影响；最后通过核密度估计方法的局部峰值确定待定位图像的地理位置坐标，并可以提高结果中正确位置的坐标排名，从而进一步提高整体定位的准确率，为图像中反映的事件的空间分布和发展趋势分析提供支持。

Description

一种基于深度学习和街景图像的图像定位方法

技术领域

本发明属于图像视觉位置定位应用领域，特别涉及一种基于深度学习和街景图像的图像定位方法。

背景技术

随着社交媒体的出现，以图像的形式来呈现新闻或事件已成为常态。当前互联网已经成为新闻发布和传播的主要渠道。其中，空间位置则是图像中的新闻事件需要传达的重要信息，因此对图像的地理位置的定位可以为分析事件的空间分布、发展趋势和为实施干预措施提供支持。

然而，直接或自动地从新闻或社交媒体的图片中获得其位置信息仍存在困难。一方面，出于安全或隐私的考虑，用户通常在发送公开的信息时会隐藏自己地理位置或只展示模糊的语义位置，并在分享图像时可能会删除EXIF信息以避免暴露图片拍摄位置。另一方面，图片位置信息在上传、压缩或复制过程中可能会丢失。这使网络中大量位置缺失的图像难以被有效的分析和利用。

与事件相关的图像通常在事发地点拍摄且图像的内容隐含了地理位置的线索，这为图像的位置定位提供了前提条件。街道中的建筑物、布局等通常能够表达图像的地理位置信息，而街景图像由于具有经纬度信息、覆盖范围广、在城市中分布密集并且以多种拍摄角度来反映城市环境，所以可以为图像的位置定位提供视觉上的参照和坐标定位。通过图像检索的方式可以提取图像中具有地理位置特征的图像特征。然后利用相似度匹配算法，使用街景数据集来匹配图像。最后根据返回的街景结果与其坐标信息，确定待定位图像的位置。

然而，网络中的图像由于受拍摄视角、拍摄时间段和表现内容的多样化，图像中有效的位置信息不够突出，并且难以被自动识别和提取，增加了图像的位置定位的困难。随着深度学习的发展，提取图像中具有代表性的图像特征是当前的研究热点。基于深度学习的图像特征可以分为深度全局特征和深度局部特征，全局特征通过卷积池化层提取，可以表达图像整体的信息。局部特征通常先由全卷积网络提取密集局部特征，再利用特征选择方法选择具有代表性的特征，局部特征可以表达图像局部区域的信息。在待定位图像中，建筑物或街景往往作为背景，在整幅图像中占比较小而且不够突出，作为参考数据集的街景图像中也存在行人、车辆和广告牌等干扰，所以与深度全局特征相比，深度局部特征可以更好的表达图像局部区域的信息，而如何提取和选择包含位置信息的图像特征是目前的技术难点。

街景图像虽然可以作为参考数据集实现图像匹配和位置定位，但仍然存在许多技术问题需要克服。街景通常以全景图的格式保存四周360°范围的信息，每张全景图通常只有经纬度信息。在构建数据集时，通常利用投影与反投影的方法将全景图转换为与相机变形规则一致的多张透视图。由于每张街景不同方向的透视图内容往往不同，而相邻街景中的透视图存在相似的场景，所以难以仅利用街景的坐标信息对数据进行清洗和分类来获取训练集、验证集与测试集，这导致深度神经网络不能学习到足够多的包含地理位置信息的特征。

另一方面，街景具有海量的数据量，在大型的城市规模的街景图像检索中，难以有效地使用深度局部特征进行快速的匹配，需要结合聚合方法或数据组织方式来减小时间复杂度。街景中的城市立面结构往往也包含许多重复的纹理信息，而具有这些信息的图像特征会在图像匹配时出现“视觉***”现象，即这些重复的纹理特征的在图像相似度计算中贡献较多，易导致错误的检索结果，在对特征进行聚合、组织和匹配的同时，如何降低重复纹理特征的影响是另一个技术难点。

综上所述，对图像进行位置定位的过程中，尚不能有效地提取图像中的地理位置信息并在大规模的城市环境中利用街景图像进行有效的检索与定位。因此，亟待提供一种基于深度学习和街景图像的图像定位方法，为图像提供空间位置信息，进一步为事件的空间分布和发展趋势分析提供支撑。

发明内容

本发明的目的在于提供一种基于深度学习和街景图像的图像定位方法，从而解决在大规模的城市环境中利用街景图像对待定位图像进行检索，并利用检索得到的街景结果和经纬度坐标进行定位的问题。

本发明所采用的技术方案包括以下步骤：

步骤1：街景与待定位图像数据获取与处理。获取待定位图像与其对应城市的街景全景图，然后对街景数据进行预处理，包括对街景图像进行拼接、裁剪和投影等，以获取无变形的平面透视街景图，同时获取并记录街景的坐标等信息，作为参考数据集。

步骤2：生成训练数据集。收集地标数据集，根据元数据标签下载并管理地标图像，从中随机选取一定类别和数量的图像，然后通过数据清洗过滤每个类别中异常图像，从而生成训练数据集。

步骤3：构建特征提取网络。建立一个端到端的深度卷积神经网络来提取街景和待定位图像的特征。网络前一部分由全卷积神经网络组成，负责提取图像的密集特征。在全卷积网络之后加入特征筛选网络模块，该模块由平滑层、注意力层和白化层组成，用来对前一部分输出的密集特征进行筛选。其中，根据注意力层对特征的得分来提取具有代表性的特征。

步骤4：训练特征提取网络并提取街景的图像特征。使用训练数据集对步骤3中的网络进行训练。在训练数据输入网络前根据图像标签随机生成一系列二元组对，每个元组由一个基准图像、一个正样本和若干个负样本组成，训练时，图像的局部特征被聚合为全局池化特征且作为网络输出，并采用对比损失函数计算网络损失和迭代优化网络。直到网络收敛得到特征提取网络模型。通过该模型提取街景图像的局部图像特征，提取特征时，通过图像缩放提取每张图像的多尺度局部特征，提取到的特征文件内容包括：局部特征值，局部特征权重，图像缩放尺度，特征描述位置。

步骤5：生成特征码本并计算聚合特征。随机选取部分街景图像的局部特征，设置需要生成的聚类中心数然后进行特征聚类，生成特征码本。根据特征码本，计算待定位图像和所有参考数据集中街景图的聚合特征向量。其中，每张图像对应一个聚合特征。

步骤6：建立倒排索引并进行街景匹配。根据聚合特征和街景图像的一一对应关系，建立用于通过特征来查询街景图像的倒排索引表。将待定位图像的特征向量与街景图像的特征向量进行相似度计算，返回相似度高的街景特征并排序，并根据倒排索引表查询检索得到的街景特征以获得对应的街景图像。

步骤7：根据检索结果返回位置坐标。通过核密度估计方法，同时考虑检索结果的经纬度信息和相似度排名来估计空间中相似度分布的峰值，将其作为定位的候选结果，根据峰值大小返回待定位图像的坐标位置。

在上述的一种基于深度学***面透视图。

在上述的一种基于深度学习和街景图像的图像定位方法，步骤2中，通常使用的地标数据集为谷歌地标数据集v2，也可以使用San Francisco Landmark数据集、Tokyo 24/7数据集或Pitts250k数据集。数据清洗方法指通过图像匹配或图像检索的方式，识别不属于这一类的地标图像，如使用SIFT、SURF或基于深度学习的图像特征通过匹配剔除特征点数较少的图像。

在上述的一种基于深度学***滑层、注意力层和白化层组成。平滑层聚合密集特征中相邻的多个通道中较大的激活值，由M×M大小的平均池化层构成。注意力层为密集特征进行打分，筛选出得分较高的前n个局部特征，由l₂归一化函数实现。白化层对特征进行降维和去相关性，由1×1大小带有偏置的卷积层构成，参数在网络训练前通过预训练网络提取的局部图像特征训练得到。

在上述的一种基于深度学习和街景图像的图像定位方法，步骤4中，在网络训练时，通过池化方法提取网络的全局池化特征，该特征为1×1×D维，计算方法如下：

其中，v表示网络输出的卷积特征图，w(v)为注意力层函数计算输出的权重，f(v^′)为网络输出的卷积特征v经过平滑层和白化层后得到的局部特征，H为特征图长度，W为特征图宽度。

使用全局池化特征计算网络的损失，其中使用的对比损失函数表示如下：

其中，d为元组内样本的特征间的欧式距离，y为元组内的样本是否属于同一类，若是则取值为1，反之为0，N为样本个数，margin为设定的阈值。网络每次迭代优化前需根据训练数据的图像标签随机生成一系列二元组对，每个元组由一个基准图像、一个正样本和若干个负样本组成，正样本在同类标签中随机选取，负样本在每次迭代前，先随机选取若干图像提取池化聚合特征作为负样本池，然后与基准图像进行匹配并排序，每个元组在生成时从池中选取前n张与基准图像不同类的图像作为负样本。

在提取特征阶段，通过图像缩放提取图像的多尺度特征，直接提取网络的输出，并根据权重值从大到小排序，取前n个局部特征。局部特征权重为注意力层输出的权重值，图像缩放尺度为图像在输入网络时缩放的比例大小，特征描述位置根据全卷积神经网络的感受野大小计算得到特征感受野中心的坐标位置作为特征描述位置。

在上述的一种基于深度学习和街景图像的图像定位方法，步骤5中，每一张图像生成一个聚合特征。聚合方法将一张图像的n×d维的局部特征聚合为k×d维的聚合特征，其中k为聚类中心数。具体实现方法如下：

步骤5.1：随机选取一部分提取的图像特征，设置聚类参数，使用K均值聚类法生成k个聚类中心并构建聚类码本，记为C＝{c₁,…,c_k}。

步骤5.2：在聚合过程中，将一张图像的n个局部特征分别分配到k个聚类中心，对于每张图像的任意一个局部特征，使其分配到与其距离最近的聚类中心，并计算局部特征与聚类中心的残差，可以表示为：

r(x)＝v_i-q(x)

其中，r(x)表示局部特征与聚类中心的残差，v_i表示第i个局部特征，q(x)表示与局部特征对应的聚类中心。

步骤5.3：若一个聚类中心中有多个局部特征，计算该聚类中心的残差并求和，得到1×d维特征，其中计算聚类中心的残差和可以表示为：

其中，V(X_c)为聚合特征，X_c表示图像X的局部特征在经过特征码本量化后的表达。

步骤5.4：将k个聚类中心的特征合并组成k×d维的聚合特征。

在上述的一种基于深度学习和街景图像的图像定位方法，步骤6中，建立用于通过特征来查询街景图像的倒排索引表的方法为生成“特征”＝“街景图像”的键值对字典。待定位图像的特征向量与街景图像的特征向量进行相似度计算方法表示为：

其中，Similarity(X_c,Y_c)为图像X和图像Y的相似度取值，

V(X_c)为图像X的聚合特征，而σ_α(u)为相似度计算函数，u是两个图像在某个聚类中心内特征的点积，sign为符号函数，当u大于零时取1，反之取-1，|u|为u的模；∝和τ均为常数。对于某个待定位图像，计算与所有参考数据集的特征相似度并排序，然后根据倒排索引表根据图像特征查询对应的街景图像，从而获取街景检索结果。

在上述的一种基于深度学习和街景图像的图像定位方法，步骤7中，核密度估计方法考虑前N个步骤6中的检索结果表示为：

其中S(x_i,y_i)为步骤6结果中的第i个街景在坐标(x_i,y_i)处与查询图像的相似度值，r为查询半径，n指以(x,y)为圆心，查询半径r范围内的样本数量。通过提取核密度分析的局部峰值并排序，作为位置定位结果。

本发明所提供的一种基于深度学习和街景图像的图像定位方法，能够提取图像中局部的地理位置特征信息，通过特征聚合和相似度匹配能够在大规模的城市尺度上对图像进行快速地检索，通过基于核密度的检索结果位置估计可以有效地定位图像的拍摄位置。

附图说明

图1为本发明技术方案的流程图。

图2为本发明构建的特征提取网络和训练与提取阶段示意图。

具体实施方法

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施示例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明要解决的核心问题是：图像的空间位置能为事件的分布和趋势等提供支撑。由于图像中能够有效传达地理位置信息的内容难以提取，以至于无法对其进行检索和定位。本发明通过建立深度卷积神经网络结合特征选择模块，提取具有代表性的局部图像特征，然后通过提取聚合特征在大规模的城市环境中从街景中检索候选结果，并根据结果的经纬度提取图像位置信息，从而实现图像的位置定位。

参见图1，本发明提供的一种基于深度学习和街景图像的图像定位方法，包括如下步骤：

步骤1：街景与待定位图像数据获取与处理。具体步骤如下；

步骤1.1：待定位图像可以通过新闻网站、社交媒体或相机拍摄等方法获取。街景图像可以通过网络街景地图服务、街景车辆采集等方法获取。除了收集和存储街景图像，还需收集街景对应的元数据，如经纬度信息。

步骤1.2：对街景图进行预处理。对于等距全景图的处理，首先将街景进行拼接，获得完整的街景全景图。然后对全景图进行裁剪，去除上下两侧或左右两侧的无效值，从而将图像的长宽比保持为2：1。

步骤1.3：生成街景透视图。根据设置的投影参数，将每张全景图变换为无变形的多张平面透视街景图。投影方法包含两步，首先将全景图投影到一个球面上，然后设置合适的投影参数将其投影在平面上，投影参数设置为，FOV：60°，Pitch：[5°20°35°]、Yaw：[0°

45°90°135°180°225°270°315°]。其中，FOV为视场角，Pitch为俯仰角，Yaw为航向角。根据三个参数的组合，每一张全景图可生成24张480*640大小的街景图。

步骤2：生成训练数据集。具体步骤如下：

步骤2.1：收集谷歌地标数据集v2，根据元数据标签下载并存储数据，从中随机选取1500类别的图像。

步骤2.2：对地标数据集进行清洗并生成训练集。提取1500类中图像的SIFT图像特征，将一个类中的图像与本类的其他图像进行匹配，若匹配特征点总数量小于设定的阈值则将该图像剔除，反之则保留。利用清洗后的地标数据集生成训练集。

步骤3：构建特征提取网络。参见图2，建立一个端到端的深度卷积神经网络来提取图像的特征。网络前一部分由预训练的ResNet101网络去除最后的池化层和全连接层这两层来组成全卷积神经网络，负责提取图像的密集特征。在全卷积网络之后加入特征筛选网络模块，用来对前一部分输出的密集特征进行筛选，提取具有代表性的特征。特征筛选模块由平滑层、注意力层和白化层组成。平滑层由3×3大小的平均池化层构成。注意力层为密集特征进行打分，筛选出得分较高的前1000个局部特征，由l₂归一化函数实现。白化层对特征进行降维和去相关性，由1×1大小带有偏置的卷积层构成，白化层参数在网络训练前通过预训练网络随机提取5000张图像的特征训练得到。

步骤4：训练特征提取网络并提取街景的图像特征。参见图2，具体步骤如下：

步骤4.1：图像样本生成。使用训练数据集对步骤3中的网络进行训练。网络每次迭代优化前需根据训练数据的图像标签随机生成一系列二元组对，每个元组由一个基准图像、一个正样本和若干负样本组成，共生成2500个二元组对，批次大小为5。正样本在同类标签中随机选取一张，负样本在每次迭代前，先随机选取20000张图像提取池化聚合特征作为负样本池，然后与基准图像进行匹配并排序，每个元组在生成时从池中选取前5张与基准图像不同类的图像作为负样本。在每次迭代前，均需要重新随机选取负样本池中的图像重新构建元组。

步骤4.2：训练特征提取网络。训练时计算图像的全局池化特征，方法如下：

其中，v表示网络输出的卷积特征图，w(v)为注意力层函数计算输出的权重，f(v^′)为网络输出的卷积特征v经过平滑层和白化层后得到的局部特征，H为特征图长度，W为特征图宽度。使用对比损失函数对网络进行迭代优化，在如下损失函数表达式中：

d为元组内样本的特征间的欧式距离，y为元组内的样本是否属于同一类，若是则取值为1，反之为0，margin取0.8，优化器选取Adam，学习率为1×10^-5，权重衰减为1×10^-4，学习率衰减为指数衰减模式，取值为0.99，迭代100次，直到网络收敛得到特征提取网络模型。

步骤4.3：图像特征提取。将图像缩放不同的尺度生成多张图像输入网络，然后直接提取网络的输出，缩放尺度为[2.0,1.414,1.0,0.707,0.5,0.353,0.25]。根据权重值从大到小排序，取前1000个局部特征，每个特征维度为128，同时记录特征对应的尺度、位置和权重值。

步骤5：生成特征码本并计算聚合特征。聚合方法将一张图像的1000×128维的局部特征聚合为k×128维的聚合特征。具体步骤如下：

步骤5.1：随机选取1/10的街景图像特征，设置需要生成的聚类中心数为262,144，然后进行特征聚类并构建特征码本，聚类方法为K均值聚类法，生成的k个聚类中心作为聚类码本，记为C＝{c₁,…,c_k}。

步骤5.2：在聚合过程中，将一张图像的1000个局部特征分别分配到k个聚类中心，对于每张图像的任意一个局部特征，使其分配到与其距离最近的聚类中心，并计算局部特征与聚类中心的残差：

r(x)＝v_i-q(x)

步骤5.3：若一个聚类中心中有多个局部特征，计算该聚类中心的残差并求和，得到1×128维特征，其中计算聚类中心的残差和可以表示为：

步骤5.4：将k个聚类中心的特征合并组成k×128维的聚合特征。

步骤6：建立倒排索引并进行街景匹配，具体步骤如下

步骤6.1：根据聚合特征和街景图像的一一对应关系，建立用于通过特征来查询街景图像的倒排索引表。倒排索引表以“特征”＝“街景图像”的键值对字典来实现。

步骤6.2：将待定位图像的特征向量与街景图像的特征向量进行相似度计算，返回相似度高的街景特征并排序，并根据倒排索引表获得对应的街景检索结果。

在待定位图像的特征向量与街景图像的特征向量进行相似度计算方法中：

其中，Similarity(X_c,Y_c)为图像X和图像Y的相似度取值，

V(X_c)为图像X的聚合特征，而σ_α(u)为相似度计算函数，u是两个图像在某个聚类中心内特征的点积，sign为符号函数，当u大于零时取1，反之取-1，|u|为u的模，∝＝3，τ＝0。对于某个查询图像，计算与所有参考数据集的特征相似度并从大到小排序，然后根据倒排索引表查询获取街景图像，保留前100个检索结果用于步骤7的位置定位。

步骤7：根据检索结果返回位置坐标。通过核密度估计方法，来对图像的位置进行定位，核密度估计方法考虑前100个步骤6中的检索结果，查询半径设为150米，核密度方法表示为：

其中S(x_i,y_i)为步骤6结果中的第i个街景在坐标(x_i,y_i)处与查询图像的相似度值，r为查询半径，n指以(x,y)为圆心，查询半径r范围内的样本数量。通过焦点统计获取核密度估计方法结果中的局部最大值矩阵，然后将两矩阵相减，提取结果为零值且核密度分析的结果矩阵不为零值的区域作为局部峰值，并根据峰值排序，将其作为位置定位结果。

应当理解的是，上述针对本发明中较佳实施例的表述较为详细，但不能因此认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在本发明权利要求保护范围内，可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围以所附权利要求书为准。

Claims

1.一种基于深度学习和街景图像的图像定位方法，其特征在于，包括以下步骤：

步骤1，街景与待定位图像数据获取与处理；

步骤2，生成训练数据集；

步骤3，构建特征提取网络：建立一个端到端的深度卷积神经网络来提取街景和待定位图像的特征，网络前一部分由全卷积神经网络组成，负责提取图像的密集特征，在全卷积网络之后加入特征筛选网络模块，所述特征筛选网络模块由平滑层、注意力层和白化层组成，用来对前一部分输出的密集特征进行筛选；

步骤4，训练特征提取网络并提取街景的局部图像特征：使用训练数据集对步骤3中的特征提取网络进行训练，在训练数据输入特征提取网络前，根据图像标签随机生成一系列二元组对，每个元组由一个基准图像、一个正样本和若干个负样本组成，训练时，使用损失函数对网络进行迭代优化，直到网络收敛得到特征提取网络模型，通过该模型提取街景图像的局部图像特征；

步骤5，生成特征码本并计算聚合特征：随机选取部分街景图像的局部图像特征，设置需要生成的聚类中心数然后进行特征聚类，生成特征码本，根据特征码本，计算待定位图像和所有参考数据集中街景图的聚合特征向量，每张图像对应一个聚合特征；

步骤6，建立倒排索引并进行街景匹配：根据聚合特征和街景图像的一一对应关系，建立用于通过特征来查询街景图像的倒排索引表，将待定位图像的特征向量与街景图像的特征向量进行相似度计算，返回相似度高的街景特征并排序，并根据倒排索引表查询检索得到的街景特征以获得对应的街景图像；

步骤7，根据检索结果返回位置坐标：通过核密度估计方法，同时考虑检索结果的经纬度信息和相似度排名来估计空间中相似度分布的峰值，将其作为定位的候选结果，根据峰值大小返回待定位图像的坐标位置。

2.如权利要求1所述的一种基于深度学习和街景图像的图像定位方法，其特征在于：步骤1的具体实现方式如下；

步骤1.1，待定位图像可以通过新闻网站、社交媒体或相机拍摄方法获取，街景图像可以通过网络街景地图服务、街景车辆采集方法获取，另外收集街景对应的元数据，包括经纬度信息；

步骤1.2，对街景图像进行预处理；对于等距全景图的处理，首先将街景图像进行拼接，获得完整的街景全景图，然后对街景全景图进行裁剪，去除上下两侧或左右两侧的无效值，从而将图像的长宽比保持为2：1；

步骤1.3，生成街景透视图；根据设置的投影参数，将每张街景全景图变换为无变形的多张平面透视街景图，投影方法包含两步，首先将全景图投影到一个球面上，然后设置合适的投影参数将其投影在平面上，投影参数设置为，FOV：60°，Pitch：[5°20°35°]、Yaw：[0°45°90°135°180°225°270°315°]，其中，FOV为视场角，Pitch为俯仰角，Yaw为航向角，根据三个参数的组合，每一张全景图可生成多张一定大小的街景图。

3.如权利要求1所述的一种基于深度学习和街景图像的图像定位方法，其特征在于：步骤2的具体实现方式如下；

步骤2.1，收集谷歌地标数据集v2，根据元数据标签下载并存储数据，从中随机选取N类别的图像；

步骤2.2，对地标数据集进行清洗并生成训练集，提取N类中图像的SIFT图像特征，将一个类中的图像与本类的其他图像进行匹配，若匹配特征点总数量小于设定的阈值则将该图像剔除，反之则保留，利用清洗后的地标数据集生成训练集。

4.如权利要求1所述的一种基于深度学***滑层、注意力层和白化层组成；平滑层聚合密集特征中相邻的多个通道中较大的激活值，由M×M大小的平均池化层构成；注意力层为密集特征进行打分，筛选出得分较高的前n个局部特征，由l₂归一化函数实现；白化层对特征进行降维和去相关性，由1×1大小带有偏置的卷积层构成，网络参数在网络训练前通过预训练网络提取的局部图像特征训练得到。

5.如权利要求1所述的一种基于深度学习和街景图像的图像定位方法，其特征在于：步骤4中，在网络训练时，通过池化方法提取网络的全局池化特征，该特征为1×1×D维，计算方法如下：

其中，v表示网络输出的卷积特征图，w(v)为注意力层函数计算输出的权重，f(v′)为网络输出的卷积特征v经过平滑层和白化层后得到的局部特征，H为特征图长度，W为特征图宽度；

使用全局池化特征计算网络的损失，其中使用的损失函数表示如下：

其中，d为元组内样本的特征间的欧式距离，y为元组内的样本是否属于同一类，若是则取值为1，反之为0，N为样本个数，margin为设定的阈值；

网络每次迭代优化前，根据训练数据的图像标签随机生成一系列二元组对，每个元组由一个基准图像、一个正样本和若干个负样本组成，正样本在同类标签中随机选取，负样本在每次迭代前，先随机选取若干图像提取池化聚合特征作为负样本池，然后与基准图像进行匹配并排序，每个元组在生成时从池中选取前n张与基准图像不同类的图像作为负样本；在提取特征阶段，通过图像缩放提取图像的多尺度特征，直接提取网络的输出，并根据权重值从大到小排序，取前n个局部特征；局部特征权重为注意力层输出的权重值，图像缩放尺度为图像在输入网络时缩放的比例大小，特征描述位置根据全卷积神经网络的感受野大小取特征感受野中心的坐标位置作为特征描述位置。

6.如权利要求1所述的一种基于深度学习和街景图像的图像定位方法，其特征在于：步骤5中，每一张图像生成一个聚合特征，聚合方法将一张图像的n×d维的局部特征聚合为k×d维的聚合特征，其中k为聚类中心数；具体实现方法如下：

步骤5.1，随机选取一部分提取的图像特征，设置聚类参数，使用K均值聚类法生成k个聚类中心并构建聚类码本，记为C＝{c₁,…,c_k}；

步骤5.2，在聚合过程中，将一张图像的n个局部特征分别分配到k个聚类中心，对于每张图像的任意一个局部特征，使其分配到与其距离最近的聚类中心，并计算局部特征与聚类中心的残差，可以表示为：

r(x)＝v_i-q(x)

其中，r(x)表示局部特征与聚类中心的残差，v_i表示第i个局部特征，q(x)表示与局部特征对应的聚类中心；

步骤5.3，若一个聚类中心中有多个局部特征，计算该聚类中心的残差并求和，得到1×d维特征，其中计算聚类中心的残差和可以表示为：

其中，V(X_c)为聚合特征，X_c表示图像X的局部特征在经过特征码本量化后的表达；

步骤5.4，将k个聚类中心的特征合并组成k×d维的聚合特征。

7.如权利要求6所述的一种基于深度学习和街景图像的图像定位方法，其特征在于：步骤6中，建立用于通过特征来查询街景图像的倒排索引表的方法为生成“特征”＝“街景图像”的键值对字典来完成，待定位图像的特征向量与街景图像的特征向量进行相似度计算方法表示为：

其中，Similarity(X_c,Y_c)为图像X和图像Y的相似度取值，

V(X_c)为图像X的聚合特征，而σ_α(u)为相似度计算函数，u是两个图像在某个聚类中心内特征的点积，sign为符号函数，当u大于零时取1，反之取-1，|u|为u的模，∝和τ均为常数；

对于某个待定位图像，计算与所有参考数据集的特征相似度并排序，然后根据倒排索引表根据图像特征查询对应的街景图像，从而获取街景检索结果。

8.如权利要求1所述的一种基于深度学习和街景图像的图像定位方法，其特征在于：步骤7中，核密度估计方法考虑步骤6中的前N个检索结果，提取分析结果的局部峰值作为定位结果，核密度估计方法可表示为：

其中S(x_i,y_i)为步骤6结果中的第i个街景在坐标(x_i,y_i)处与查询图像的相似度值，r为查询半径，n指以(x,y)为圆心，查询半径r范围内的样本数量，通过提取核密度分析的局部峰值并排序，作为位置定位结果。