CN116309811A

CN116309811A - 互联网街景照片地理位置识别定位方法、存储介质及设备

Info

Publication number: CN116309811A
Application number: CN202211277844.1A
Authority: CN
Inventors: 李传广; 喻金桃; 李道纪; 闫丽阳; 宋科; 宋瑞丽
Original assignee: Perception World Beijing Information Technology Co ltd
Current assignee: Perception World Beijing Information Technology Co ltd
Priority date: 2022-10-19
Filing date: 2022-10-19
Publication date: 2023-06-23

Abstract

本发明提供了一种互联网街景照片的地理位置识别定位方法、存储介质、计算机设备，方法包括：S1，获取大规模街景图像数据，提取大规模街景图像数据的特征，形成大规模街景图像特征索引库；S2，采用与S1中相同的特征提取方法提取互联网街景照片的特征，与大规模街景图像特征库进行相似性度量计算，快速检索出匹配的候选街景图像；S3，将互联网街景照片与快速检索出的候选街景图像进行特征匹配，获取候选图像与互联网街景照片的同名匹配点对，筛选出匹配质量最好的互联网街景照片与候选街景影像对；S4，通过候选街景影像与互联网街景图片的同名匹配点对，计算影像的仿射变换参数，从而计算出互联网街景图片的地理坐标。

Description

互联网街景照片地理位置识别定位方法、存储介质及设备

技术领域

本发明涉及遥感领域，特别地，涉及遥感影像定位技术领域。

背景技术

随着智慧城市建设的发展，获取空间位置信息的途径不断增加。据统计，人类百分之八十的社会经济活动跟空间地理位置信息有关。当前，人类对地理空间信息的应用也越来越广泛，常常运用地理位置数据进行分析和利用，进而带来巨大的经济效益。近年来，街景地图已进入公众的生活，为生活提供了更多的便利，街景影像具有覆盖范围广、覆盖密度高、表达内容详尽、获取效率高等特点：在覆盖范围方面，街景图片已经覆盖了全球大部分的城市。在覆盖密度方面，街景图片已经高密度地覆盖了城市的各级别路网，相邻采样点之间构成的视觉图片可以无缝衔接，构成了城市街道物质空间的完整表达。在表达内容方面，街景图片详尽、精细地表达了在人的视角下城市物质空间的实际状态。例如，谷歌街景的最高尺寸可达6656×13312像素，较高清的图片保证了街景图片对城市物质空间表达的精细程度，并且在相关人工智能技术的进一步支持下，实现对场景语义目标的精确提取和对场景内容的高效理解。近两年来街景图像覆盖范围更是越来越丰富，而且均可以通过开源途径进行获取。但目前使用的街景图像搜索地理位置识别方法效率低，识别准确度不佳。

发明内容

为此，因此本发明基于大规模街景数据作为参考，实现互联网街景照片的地理位置识别定位方法。对大规模街景数据进行离线特征提取，利用相似性检索工具建立索引库，进行大规模候选街景图像检索，提升图像检索效率；对检索获取的候选街景图像与互联网街景照片进行特征匹配，获取匹配质量最高的影像对，利用最相似的候选街景影像坐标计算互联网街景照片每个像素的精确地理坐标，实现任意互联网街景照片的地理位置识别。

本发明实施例提供了一种互联网街景照片的地理位置识别定位方法，该方法包括：

S1，获取大规模街景图像数据，提取大规模街景图像数据的特征，采用相似性索引工具建立高效索引文件，建立相似性索引文件，形成大规模街景图像特征索引库；

S2，采用与S1中相同的特征提取方法提取互联网街景照片的特征，与大规模街景图像特征库进行相似性度量计算，快速检索出匹配的候选街景图像；

S3，将互联网街景照片与快速检索出的候选街景图像进行特征匹配，获取候选图像与互联网街景照片的同名匹配点对，筛选出匹配质量最好的互联网街景照片与候选街景影像对；

S4，通过候选街景影像与互联网街景图片的同名匹配点对，计算影像的仿射变换参数，从而计算出互联网街景图片的地理坐标。

在可选的实施例中，在S4中还包括：采用内插的方法计算每一个像素点的地理坐标，实现互联网街景照片的精确定位。

在可选的实施例中，在S1中，利用爬虫技术从地图服务商的街景API获取，将获取的街景图像和元数据信息按照统一的命名规则入库存储。

在可选的实施例中，在S2中：调用索引API快速检索出匹配的候选街景图像。

在可选的实施例中，密集特征提取采用resnet-50网络进行微调。

在可选的实施例中，所述提取大规模街景图像数据的特征包括：对街景图像构建离散尺度金字塔，对每个尺度影像进行特征提取，获取描述不同大小区域、不同感受野的特征。

在可选的实施例中，相似性索引工具包括：

采用矢量量化方法进行向量压缩与查询计算，对全空间向量进行感兴趣区域定位，定位到向量子空间。

在可选的实施例中，所述内插方法为双线性内插方法。

本发明实施例另一方面还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序代码，当所述计算机程序代码被计算机设备执行时，所述计算机设备执行上述任一项所述的识别定位方法。

本发明实施例另一方面还提供了一种计算机设备，包括：存储器和处理器；

所述存储器用于存储计算机指令；

所述处理器执行所述存储器存储的计算机指令，以使所述计算机设备执行任一项上述的识别定位方法。

本发明的发明点和技术效果：

1、本发明基于对大规模街景数据进行离线特征提取，利用相似性检索工具建立索引库，进行大规模候选街景图像检索，提升图像检索效率；对检索获取的候选街景图像与互联网街景照片进行特征匹配，获取匹配质量最高的影像对，利用最相似的候选街景影像坐标计算互联网街景照片每个像素的精确地理坐标，实现任意互联网街景照片的地理位置识别。

2、本发明中密集特征提取采用resnet-50网络进行微调，通过微调来提升局部表达的判别能力，获取深层次特征。利用已经配对的数据对网络进行训练。同时为了应对较大尺度差异，对街景图像构建离散尺度金字塔，对每个尺度影像进行特征提取，获取描述不同大小区域、不同感受野的特征。能够使特征点既有足够抽象性、也可以获得较高的定位精度。

3、本发明中采用相似性索引工具：首先采用矢量量化方法进行向量压缩与查询计算，提升距离计算的效率，其次对全空间向量进行感兴趣区域定位，定位到向量子空间，从而实现待搜索向量只在感兴趣的几个子空间进行向量计算，不用对空间的全部向量计算距离，进一步加快搜索效率。

4、对于参考街景图像分辨率低于互联网街景图像的情况，由于图像分辨率不一致，匹配方式无法计算出每个像素点的地理坐标，通过内插的方式可以计算，即可计算出每个像素点的地理坐标。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例中的互联网街景照片地理位置识别流程图；

图2是本发明实施例中的密集特征提取网络示意图；

图3是本发明实施例中的索引构建数据流示意图；

图4是本发明实施例中的索引api封装流程图；

图5是本发明实施例中的双插值法示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明中的大规模街景图像指的是大量带有地理坐标信息的街景图像。

本发明中的互联网街景图像指的是互联网上获取到的带有明显地物的街景图像，不一定带有地理坐标。

图2是本发明实施例中的密集特征提取网络示意图；

图3是本发明实施例中的索引构建数据流示意图；

图4是本发明实施例中的索引api封装流程图

图5是本发明实施例中的双插值法示意图。

本发明实施例提供了一种互联网街景照片的地理位置识别定位方法，该方法包括以下步骤：请参考图1，

具体的，大规模街景图像数据获取与处理，可以利用爬虫技术从地图服务商的街景API获取，然后将获取的街景图像和元数据信息按照统一的命名规则入库存储。

对获取存储的大规模街景图像数据进行离线特征提取，提取大规模街景图像数据的特征，然后采用相似性索引工具建立高效索引文件，形成大规模街景图像特征索引库，作为互联网街景照片基准图像快速索引库。

街景影像(图像)获取方法：获取带有地理坐标信息的街景影像是基于街景影像进行地理定位的前提。目前网络上有大量开源的街景影像数据集，比如Google-Landmarks数据集包含100多万带有GPS坐标的街景影像，涉及12894个标志性地标建筑。此外，也可通过百度街景和谷歌街景影像进行大量的街景数据采集，构建街景影像特征库。对于部分重点区域，也可采用车载相机采集的方式实现街景影像的实时获取和更新。

S2，采用与S1中相同的特征提取方法提取互联网街景照片的特征，与大规模街景图像特征库进行相似性度量计算，调用索引API快速检索出匹配的候选街景图像；

具体的，由于街景影像带地理坐标，和互联网街景图像匹配上之后就把街景影像的地理坐标赋给街景图片对应点。

通过候选街景影像与互联网街景图片的同名匹配点对，计算影像的仿射变换参数，从而计算出互联网街景图片的地理坐标，对于分辨率更高的互联网街景图像，采用内插的方法计算每一个像素点的地理坐标，实现互联网街景照片的精确定位。

本发明基于大规模街景数据作为参考，实现互联网街景照片的地理位置识别定位方法。对大规模街景数据进行离线特征提取，利用相似性检索工具建立索引库，进行大规模候选街景图像检索，提升图像检索效率；对检索获取的候选街景图像与互联网街景照片进行特征匹配，获取匹配质量最高的影像对，利用最相似的候选街景影像坐标计算互联网街景照片每个像素的精确地理坐标，实现任意互联网街景照片的地理位置识别。

本发明中采用密集特征提取网络：卷积网络的前几层感受野很小，得到的特征是相对底层的边缘、角点等局部特征，但定位精度较高；网络层数越深，提取的特征越抽象，信息越全局，越能抵抗异源影像带来的干扰，但定位精度越差。因此，为了能够使特征点既有足够抽象性、也可以获得较高的定位精度，本发明密集特征提取采用resnet-50网络进行微调，通过微调来提升局部表达的判别能力，获取深层次特征。利用已经配对的数据对网络进行训练。同时为了应对较大尺度差异，对街景图像构建离散尺度金字塔，对每个尺度影像进行特征提取，获取描述不同大小区域、不同感受野的特征。设置了从0.25到2.0的尺度范围，分别使用了0.25、0.5、0.75、1.0、1.25、1.5、1.75、2.0共8种不同的尺度。

图2是密集特征提取网络，分为三个部分：左侧为ResNet50整体结构，中间为ResNet50各个Stage具体结构，右侧为Bottleneck具体结构。

(1)ResNet50整体结构展示ResNet的Backbone部分，没有ResNet中的全局平均池化层和全连接层；

(2)ResNet分为5个stage(阶段)，其中Stage 0的结构比较简单，为对INPUT的预处理，后4个Stage都由Bottleneck组成，结构较为相似。Stage1包含3个Bottleneck，剩下的3个stage分别包括4、6、3个Bottleneck；

(3)网络使用了2种Bottleneck的结构，2种Bottleneck分别对应了2种情况：输入与输出通道数相同(BTNK2)、输入与输出通道数不同(BTNK1)。

请参考图3索引构建数据流，图4索引API封装流程图，在使用相似性搜索进行查询向量的相似性搜索之前，需要将原始的向量集构建封装成一个索引文件(index file)并缓存在内存中，提供实时的查询计算。在第一次构建索引文件的时候，需要经过训练和添加两个过程。后续如果有新的向量需要被添加到索引文件的话还可以有一个添加操作从而实现增量索引。

本发明中采用相似性索引工具：首先采用矢量量化方法进行向量压缩与查询计算，提升距离计算的效率，其次对全空间向量进行感兴趣区域定位，定位到向量子空间，从而实现待搜索向量只在感兴趣的几个子空间进行向量计算，不用对空间的全部向量计算距离，进一步加快搜索效率。

为了获取街景图像每个像素点的地理坐标，本发明中互联网街景图片优选采用双线性内插方法：

(1)通过匹配点对将街景影像的地理坐标换算到互联网街景图像上，然后采用内插方法计算每一个像素点的地理坐标；

(2)由于图像分辨率不一致，若参考街景图像分辨率低于互联网街景图像，匹配方式无法计算出每个像素点的地理坐标，通过内插的方式可以计算出每个像素点的地理坐标。

如图5，已知的Q₁₁、Q₁₂、Q₂₁、Q₂₂、数据点(已知地理坐标的点)与待插值得到的P点(待计算地理坐标的点)，我们把这些点上的值看作是图像上的像素点，假如我们想得到未知函数f在点P＝(x,y)的值，假设我们已知函数f在Q₁₁＝(x1,y1)，Q₁₂＝(x1,y2),Q₂₁＝(x2,y1)以及Q₂₂＝(x2,y2)四个点的值。

首先在x方向进行线性插值，得到R1和R2：

然后在y方向进行线性插值，得到P：

这样就可以得到互联网图片(x，y)处的地理坐标f(x，y)。

本申请实施例提供的互联网街景照片的地理位置识别定位方法可以部署于计算机设备。

计算机设备可以包括：输入单元、处理器单元、通信单元、存储单元、输出单元及电源等电子设备。

输入单元用于输入或导入数据。

存储单元即存储器用于存储计算机指令，且能够存储处理形成的大规模街景图像特征索引库；

处理器执行所述存储器存储的计算机指令，以使计算机设备执行本发明所提供的互联网街景照片的地理位置识别定位方法。

输出单元用于输出执行结果。

本申请实施例提供的计算机设备可以用于执行前述实施例中的互联网街景照片的地理位置识别定位方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk)等。

可以理解，除了上述内容，还包括一些常规结构和常规方法，由于这些内容都是公知的，不再赘述。但这并不意味着本发明不存在这些结构和方法。

本领域技术人员应认识到，虽然本文已详尽示出和描述了本发明的多个示例性实施例，但是，在不脱离本发明精神和范围的情况下，仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此，本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

Claims

1.一种互联网街景照片的地理位置识别定位方法，其特征在于，包括：

S2，采用与S1中相同的特征提取方法提取互联网街景照片的特征，与大规模街景图像特征索引库进行相似性度量计算，快速检索出匹配的候选街景图像；

S3，将互联网街景照片与候选街景图像进行特征匹配，获取候选图像与互联网街景照片的同名匹配点对，筛选出匹配质量最好的互联网街景照片与候选街景影像对；

2.如权利要求1所述的识别定位方法，其特征在于，在S4中还包括：采用内插的方法计算每一个像素点的地理坐标，完成互联网街景照片的精确定位。

3.如权利要求1所述的识别定位方法，其特征在于，在S1中还包括：利用爬虫技术从地图服务商的街景API获取街景图像，将获取的街景图像和元数据信息按照统一的命名规则入库存储。

4.如权利要求3所述的识别定位方法，其特征在于，在S2中：调用索引API快速检索出匹配的候选街景图像。

5.如权利要求1所述的识别定位方法，其特征在于，密集特征提取采用resnet-50网络进行微调。

6.如权利要求1所述的识别定位方法，其特征在于，所述提取大规模街景图像数据的特征包括：对街景图像构建离散尺度金字塔，对每个尺度影像进行特征提取，获取描述不同大小区域、不同感受野的特征。

7.如权利要求1所述的识别定位方法，其特征在于，相似性索引工具包括：

8.如权利要求1所述的识别定位方法，其特征在于，所述内插方法为双线性内插方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序代码，当所述计算机程序代码被计算机设备执行时，所述计算机设备执行上述权利要求1-8中任一项所述的识别定位方法。

10.一种计算机设备，其特征在于，包括：存储器和处理器；

所述存储器用于存储计算机指令；

所述处理器执行所述存储器存储的计算机指令，以使所述计算机设备执行如权利要求1-8任一项所述的识别定位方法。