CN111758118A

CN111758118A - 一种视觉定位方法、装置、设备及可读存储介质

Info

Publication number: CN111758118A
Application number: CN202080001067.0A
Authority: CN
Inventors: 陈尊裕; 吴珏其; 胡斯洋; 陈欣; 吴沛谦; 张仲文
Original assignee: Fengtu Technology Co ltd
Current assignee: Fengtuzhi Technology Holding Co ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-10-09
Anticipated expiration: 2040-05-26
Also published as: CN111758118B; WO2021237443A1; JP2023523364A; JP7446643B2

Abstract

一种视觉定位方法、装置、设备及可读存储介质，该方法包括：获取广角照片，并对广角照片进行随机分割，获得待测图集；将待测图集输入至定位模型进行定位识别，得到多个候选定位；定位模型为利用实景地图中的全景照片训练后的神经网络模型；利用多个候选定位，确定出最终定位。在本申请中，基于实景地图中的全景照片对神经网络模型进行训练即可得到一个定位模型，且基于该定位模型可以完成视觉定位，解决了视觉定位训练样本采集困难的问题。

Description

一种视觉定位方法、装置、设备及可读存储介质

技术领域

本申请涉及定位技术领域，特别是涉及一种视觉定位方法、装置、设备及可读存储介质。

背景技术

基于机器学习的视觉定位原理：利用大量的带有位置标记的真实场景照片进行训练，得到一个输入为照片(RGB数值矩阵)，输出为具体的位置的神经网络模型。获得训练好的神经网络模型后，只需要用户对环境拍摄一张照片就可以得到具体的拍摄位置。

这种方法需要对使用环境采集大量的照片样本作为训练数据集。例如，在一些文献中记载，为了实现对35米宽的街角店铺进行视觉定位，需要采集330张照片，而为了实现对140米的街道(只针对一侧进行定位)进行视觉定位，需采集1500多张照片；为了实现某工厂定位，需将工厂划分为18个区域，每个区域需要拍摄200幅图像。可见，为了保证视觉定位效果，需要采集大量的现场照片作为训练数据，而且这些照片必须保证拍摄到场景中的每个角落，非常耗费时间和人力。

综上所述，如何解决视觉定位中样本采集困难等问题，是目前本领域技术人员急需解决的技术问题。

发明内容

本申请的目的是提供一种视觉定位方法、装置、设备及可读存储介质，利用实景地图中的全景照片来对神经网络模型进行训练，可解决视觉定位中样本采集困难的问题。

为解决上述技术问题，本申请提供如下技术方案：

一种视觉定位方法，包括：

获取广角照片，并对所述广角照片进行随机分割，获得待测图集；

将所述待测图集输入至定位模型进行定位识别，得到多个候选定位；所述定位模型为利用实景地图中的全景照片训练后的神经网络模型；

利用多个所述候选定位，确定出最终定位。

优选地，所述利用多个所述候选定位，确定出最终定位，包括：

对多个所述候选定位进行聚类处理，并利用聚类结果对多个所述候选定位进行筛选；

利用筛选得到的若干候选定位构建几何图形；

将所述几何图形的几何中心作为所述最终定位。

优选地，还包括：

利用所述最终定位，计算多个所述候选定位的标准方差；

将所述标准方差作为所述最终定位的定位误差。

优选地，训练所述神经网络模型的过程，包括：

从所述实景地图中获取若干个所述全景照片，并确定每个所述实景照片的地理位置；

对若干个所述全景照片进行反扭曲变换，得到若干组长宽比相同的平面投影照片；

按照与所述全景照片的对应关系，为每组所述平面投影照片标记地理标记；所述地理标记包括地理位置和具体朝向；

将标记了地理标记的平面投影照片作为训练样本；

利用所述训练样本对所述神经网络模型进行训练，将训练好的所述神经网络模型确定为所述定位模型。

优选地，所述对若干个所述全景照片进行反扭曲变换，得到若干组长宽比相同的平面投影照片，包括：

在反扭曲变换中按照不同的焦距参数对每个所述全景照片进行分割，得到若干组视角不同的平面投影照片。

优选地，所述在反扭曲变换中按照不同的焦距参数对每个所述全景照片进行分割，得到若干组视角不同的平面投影照片，包括：

按照对应原图覆盖率大于指定百分比的分割数量对每个所述全景照片进行分割，得到若干组相邻图片存在重合视角的平面投影照片。

优选地，训练所述神经网络模型的过程，还包括：

利用从互联网获取场景照片，或对定位环境采集的环境照片对所述训练样本进行补充。

优选地，对所述广角照片进行随机分割，获得待测图集，包括：

按照分割数量，对所述广角照片进行原图覆盖率大于指定百分比的随机分割，得到与所述分割数量匹配的待测图集。

一种视觉定位装置，包括：

待测图集获取模块，用于获取广角照片，并对所述广角照片进行随机分割，获得待测图集；

候选定位获取模块，用于将所述待测图集输入至定位模型进行定位识别，得到多个候选定位；所述定位模型为利用实景地图中的全景照片训练后的神经网络模型；

定位输出模块，用于利用多个所述候选定位，确定出最终定位。

一种视觉定位设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述的视觉定位方法。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的视觉定位方法。

应用本申请实施例所提供的方法，获取广角照片，并对广角照片进行随机分割，获得待测图集；将待测图集输入至定位模型进行定位识别，得到多个候选定位；定位模型为利用实景地图中的全景照片训练后的神经网络模型；利用多个候选定位，确定出最终定位。

实景地图，即为可以看到真实街景的地图，实景地图中包括了360度实景。且实景地图中的全景照片即为真实街景地图，这和视觉定位的应用环境相互重叠。基于此，在本方法中，利用实景地图中的全景照片来训练神经网络模块，可得到一个用于视觉定位的定位模型。在获取到广角照片之后，对广角照片进行随机分割，可以得到待测图集。将待测图集输入至定位模型进行定位识别，便可得到多个候选定位。基于这些候选定位可以确定出最终定位。可见，在本方法中，基于实景地图中的全景照片对神经网络模型进行训练即可得到一个定位模型，且基于该定位模型可以完成视觉定位，解决了视觉定位训练样本采集困难的问题。

相应地，本申请实施例还提供了与上述视觉定位方法相对应的装置、设备和可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中一种视觉定位方法的实施流程图；

图2为本申请实施例中一种视角分割示意图；

图3为本申请实施例中一种视觉定位装置的结构示意图；

图4为本申请实施例中一种视觉定位设备的结构示意图；

图5为本申请实施例中一种视觉定位设备的具体结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，由于神经网络模型可以储存在云端或本地设备，因而本发明实施例所提供的视觉定位方法可直接应用于云服务器，也可以在本地设备中。需要进行定位的设备具备拍照、联网功能即可通过一个广角照片实现定位。

请参考图1，图1为本申请实施例中一种视觉定位方法的流程图，该方法包括以下步骤：

S101、获取广角照片，并对广角照片进行随机分割，获得待测图集。

广角，即用广角镜头或全景模式拍摄出来的图片。简单的说，焦距越小视野越宽，照片内可以容纳的景物的范围也越广。

由于，在发明所提供的视觉定位方法中，采用实景地图中的全景照片来对神经网络模型进行训练。因而，为了更好地进行视觉定位，在利用定位模型进行视觉定位，所需的照片也为广角照片。例如，用户可在需要定位的位置，使用广角模式(或超广角模式)或者全景模式对周围环境拍摄一张视角超过120度(当然也可以为其他度数，如140度，180度等)的广角照片。

得到广角照片之后，对其进行随机分割，得到由分割出的若干个照片组成的待测图集。

特别地，具体将该广角照片分割出多少照片，可根据世界的定位模型的训练效果以及实际定位精度要求进行设置。通常来说，在可识别范围内(照片大小过小，会存在无相关定位特征，无法进行有效识别的问题)，分割数量越大，定位精度越高，当然，模型的训练迭代次数越多，训练时间越久。

优选地，为了提高定位精准度，在分割广角照片时，还可按照分割数量，对广角照片进行原图覆盖率大于指定百分比的随机分割，得到与分割数量匹配的待测图集。具体的，可将广角照片随机分割出N张长宽比为1:1(需要说明的是，长宽比还可为其他比值，该长宽比与训练定位模型所用的训练样本的长宽比大小相同即可)、高度为该广角照片高度1/3～1/2的图像作为待测图集。其中，N的数量根据训练的效果和定位精度的需要设置，训练效果稍差、定位精度要求高时，选择更高的N值，通常N的数量可以设为100(当然，也可选用其他数值，如50，80等数值，在此不再一一枚举)。通常的，随机分割结果要求对原图(即该广角照片)的覆盖率>95％(当然也可设置为其他百分比，在此不再一一枚举)。

S102、将待测图集输入至定位模型进行定位识别，得到多个候选定位。

其中，定位模型为利用实景地图中的全景照片训练后的神经网络模型。

为了得到更为精准的定位效果，在本实施例中，将待测图集中的每一个分割得到的照片分别输入至定位模型中进行定位识别，对于每一个照片得到一个关于定位结果的输出。在本实施例中，将每一个分割而得的照片对应的定位结果作为候选定位。

需要说明的是，在实际应用前，需要训练得到定位模型。训练神经网络模型的过程，包括：

步骤一、从实景地图中获取若干个全景照片，并确定每个实景照片的地理位置；

步骤二、对若干个全景照片进行反扭曲变换，得到若干组长宽比相同的平面投影照片；

步骤三、按照与全景照片的对应关系，为每组平面投影照片标记地理标记；地理标记包括地理位置和具体朝向；

步骤四、将标记了地理标记的平面投影照片作为训练样本；

步骤五、利用训练样本对神经网络模型进行训练，将训练好的神经网络模型确定为定位模型。

为了便于描述，将上述五个步骤结合起来进行说明。

由于全景照片的视角近360度，在本实施例中，可将全景照片进行反扭曲变换，然后得到若干组长度比相同的平面投影照片。由于实景地图中的全景照片和地理位置有对应关系，因此，在本实施例中将同一个全景照片分割出的一组平面投影照片的地理位置与全景照片的地理位置对应。另外，在分割全景照片时，会基于视角进行分割，因而分割得到的照片的朝向也是明确的，在本实施例中将地理位置和具体朝向作为地理标记并进行添加。也就是说，每一个平面投影照片都有对应的地理位置和具体朝向。

将具有地理标记的平面投影照片作为训练样本，然后利用该训练样本对神经网络模型进行训练，训练好的神经网络模型即定位模型。具体的，可将带有具***置、具体朝向的照片集作为数据池。将该数据池中随机抽取80％作为训练集，剩下20％作为测试集。该比例也可以根据实际训练情况调整。将训练集输入初始化的或者经过大规模图片集预训练的神经网络模型进行训练，用测试集对训练结果进行验证。可选用常用的神经网络结构有CNN(Convolutional Neural Network，卷积神经网络，即一种前馈神经网络，包括卷积层(alternating convolutional layer)和池层(pooling layer))及其衍生结构、LSTM(LongShort-Term Memory，长短期记忆网络，一种时间递归神经网络(RNN))以及混合结构等。在本申请实施例中并不限定具体使用何种神经网络。完成训练后得到一个适用于该实景地图数据源场地的神经网络模型，即定位模型。

优选地，为了适应实际应用中，不同的图片采集设备的焦距(即视角)，在分割全景照片时，可按照不同的焦距参数进行分割，以便得到视角大小不同的平面投影照片作为训练样本。具体的，可在反扭曲变换中按照不同的焦距参数对每个全景照片进行分割，得到若干组视角不同的平面投影照片。即，根据焦距参数F确定分割的数量n。焦距参数小时，视角大，分割的数量n就可以越小。如图2，图2为本申请实施例中一种视角分割示意图，最常用的焦距参数F＝0.5，视角为90度，分割数量n＝4就可以覆盖360度全角度。当需要多个不同视角的平面投影照片时，焦距参数F还可更改为其他数值，如1.0和1.3，以获得其他视角的平面投影照片。

优选地，为了提高视角定位的精准度，在分割全景照片时，还可按照对应原图覆盖率大于指定百分比的分割数量对全景照片进行分割。即，得到相同视角下，相邻图片具有覆盖角度的平面投影照片。具体的，按照对应原图覆盖率大于指定百分比的分割数量对每个全景照片进行分割，得到若干组相邻图片存在重合视角的平面投影照片。即，为了丰富照片的拍摄角度，在焦距固定的情况下，推荐分割数量大于均等分割的数量。即可将全景照片投影球面的垂直地面的轴为旋转轴，将视线中心朝向(如图2图中箭头)每旋转45度分割出一张视角为90度的平面投影照片，此时相邻图片会有45度的重合视角。根据视线中心朝向角度，然后为所得的平面投影照片标注朝向数据。由于，F的取值还可以是1.0和1.3，视角分别大约是60度、30度，n值还可选用12和24。也可以设置更多的F值、增加n的数量以进一步提高训练集的覆盖率。通常可保证覆盖率大于95％。

优选地，考虑到实际应用中，光依赖全景照片进行训练，可能会因实景地图的更新频率较低等原因，导致视觉定位识别效果不佳，因此在训练神经网络模型的过程，还可以利用从互联网获取场景照片，或对定位环境采集的环境照片对训练样本进行补充。

S103、利用多个候选定位，确定出最终定位。

得到多个候选定位之后，可基于这些候选定位确定出最终定位。得到最终定位之后，可将其输出，以便用户查看。

具体的，可从候选定位中随机选择一个定位作为最终定位，也可从候选定位中随机选择几个候选定位，取这几个候选定位对应的几何图形的几何中心作为最终定位。当然，也可将几个具有高度重合的候选定位作为最终定位。

优选地，考虑到候选定位中可能会出现相对较为特殊的个别定位，为了提高最终的定位的精准度，可对候选定位进行聚类筛选，将游离于大多数定位位置的候选定位去除，然后基于留下的候选定位确定出最终定位。具体的，实现过程包括：

步骤一、对多个候选定位进行聚类处理，并利用聚类结果对多个候选定位进行筛选；

步骤二、利用筛选得到的若干候选定位构建几何图形；

步骤三、将几何图形的几何中心作为最终定位。

具体的，可使用诸如DBSCAN(Density-Based Spatial Clustering ofApplications with Noise)的聚类算法将候选定位进行分类，将相邻的位置数据分为一类。其中，分类参数可设置为∈邻域＝1，最少点数minPts＝5。将数量最多的一类位置结果视为可靠结果，计算该类所有候选定位对应几何图形的几何中心作为最终的定位结果。

优选地，为了更好的展示定位情况，还可确定出定位误差。具体的，利用最终定位，计算多个候选定位的标准方差；将标准方差作为最终定位的定位误差。即，计算每一个候选定位与最终定位之间的方差，并进行累加，得到最终的定位误差。

需要说明的是，基于上述实施例，本申请实施例还提供了相应的改进方案。在优选/改进实施例中涉及与上述实施例中相同步骤或相应步骤之间可相互参考，相应的有益效果也可相互参照，在本文的优选/改进实施例中不再一一赘述。

相应于上面的方法实施例，本申请实施例还提供了一种视觉定位装置，下文描述的一种视觉定位装置与上文描述的一种视觉定位方法可相互对应参照。

参见图3所示，该视觉定位装置包括：

待测图集获取模块101，用于获取广角照片，并对广角照片进行随机分割，获得待测图集；

候选定位获取模块102，用于将待测图集输入至定位模型进行定位识别，得到多个候选定位；定位模型为利用实景地图中的全景照片训练后的神经网络模型；

定位输出模块103，用于利用多个候选定位，确定出最终定位。

应用本申请实施例所提供的装置，获取广角照片，并对广角照片进行随机分割，获得待测图集；将待测图集输入至定位模型进行定位识别，得到多个候选定位；定位模型为利用实景地图中的全景照片训练后的神经网络模型；利用多个候选定位，确定出最终定位。

实景地图，即为可以看到真实街景的地图，实景地图中包括了360度实景。且实景地图中的全景照片即为真实街景地图，这和视觉定位的应用环境相互重叠。基于此，在本装置中，利用实景地图中的全景照片来训练神经网络模块，可得到一个用于视觉定位的定位模型。在获取到广角照片之后，对广角照片进行随机分割，可以得到待测图集。将待测图集输入至定位模型进行定位识别，便可得到多个候选定位。基于这些候选定位可以确定出最终定位。可见，在本装置中，基于实景地图中的全景照片对神经网络模型进行训练即可得到一个定位模型，且基于该定位模型可以完成视觉定位，解决了视觉定位训练样本采集困难的问题。

在本申请的一种具体实施方式中，定位输出模块103，具体包括：

定位筛选单元，用于对多个候选定位进行聚类处理，并利用聚类结果对多个候选定位进行筛选；

几何图形构建单元，用于利用筛选得到的若干候选定位构建几何图形；

最终定位确定单元，用于将几何图形的几何中心作为最终定位。

在本申请的一种具体实施方式中，定位输出模块103，还包括：

定位误差确定单元，用于利用最终定位，计算多个候选定位的标准方差；将标准方差作为最终定位的定位误差。

在本申请的一种具体实施方式中，模型训练模块，包括：

全景照片获取单元，用于从实景地图中获取若干个全景照片，并确定每个实景照片的地理位置；

反扭曲变换单元，用于对若干个全景照片进行反扭曲变换，得到若干组长宽比相同的平面投影照片；

地理标记标注单元，用于按照与全景照片的对应关系，为每组平面投影照片标记地理标记；地理标记包括地理位置和具体朝向；

训练样本确定单元，用于将标记了地理标记的平面投影照片作为训练样本；

模型训练单元，用于利用训练样本对神经网络模型进行训练，将训练好的神经网络模型确定为定位模型。

在本申请的一种具体实施方式中，反扭曲变换单元，具体用于在反扭曲变换中按照不同的焦距参数对每个全景照片进行分割，得到若干组视角不同的平面投影照片。

在本申请的一种具体实施方式中，反扭曲变换单元，具体用于按照对应原图覆盖率大于指定百分比的分割数量对每个全景照片进行分割，得到若干组相邻图片存在重合视角的平面投影照片。

在本申请的一种具体实施方式中，模型训练模块，还包括：

样本补充单元，用于利用从互联网获取场景照片，或对定位环境采集的环境照片对训练样本进行补充。

在本申请的一种具体实施方式中，待测图集获取模块101，具体用于按照分割数量，对广角照片进行原图覆盖率大于指定百分比的随机分割，得到与分割数量匹配的待测图集。

相应于上面的方法实施例，本申请实施例还提供了一种视觉定位设备，下文描述的一种视觉定位设备与上文描述的一种视觉定位方法可相互对应参照。

参见图4所示，该视觉定位设备包括：

存储器410，用于存储计算机程序；

处理器420，用于执行计算机程序时实现上述方法实施例所提供的视觉定位方法的步骤。

具体的，请参考图5，为本实施例提供的一种视觉定位设备的具体结构示意图，该视觉定位设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)420(例如，一个或一个以上处理器)和存储器410，一个或一个以上存储计算机应用程序413或数据412。其中，存储器410可以是短暂存储或持久存储。该计算机应用程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器420可以设置为与存储器410通信，在视觉定位设备301上执行存储器410中的一系列指令操作。

视觉定位设备400还可以包括一个或一个以上电源430，一个或一个以上有线或无线网络接口440，一个或一个以上输入输出接口450，和/或，一个或一个以上操作***411。

上文所描述的视觉定位方法中的步骤可以由视觉定位设备的结构实现。

相应于上面的方法实施例，本申请实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种视觉定位方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例所提供的视觉定位方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

本领域的技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域的技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

Claims

1.一种视觉定位方法，其特征在于，包括：

利用多个所述候选定位，确定出最终定位。

2.根据权利要求1所述的视觉定位方法，其特征在于，所述利用多个所述候选定位，确定出最终定位，包括：

利用筛选得到的若干候选定位构建几何图形；

将所述几何图形的几何中心作为所述最终定位。

3.根据权利要求2所述的视觉定位方法，其特征在于，还包括：

利用所述最终定位，计算多个所述候选定位的标准方差；

将所述标准方差作为所述最终定位的定位误差。

4.根据权利要求1所述的视觉定位方法，其特征在于，训练所述神经网络模型的过程，包括：

将标记了地理标记的平面投影照片作为训练样本；

5.根据权利要求4所述的视觉定位方法，其特征在于，所述对若干个所述全景照片进行反扭曲变换，得到若干组长宽比相同的平面投影照片，包括：

6.根据权利要求5所述的视觉定位方法，其特征在于，所述在反扭曲变换中按照不同的焦距参数对每个所述全景照片进行分割，得到若干组视角不同的平面投影照片，包括：

7.根据权利要求4所述的视觉定位方法，其特征在于，训练所述神经网络模型的过程，还包括：

8.根据权利要求1所述的视觉定位方法，其特征在于，对所述广角照片进行随机分割，获得待测图集，包括：

9.一种视觉定位装置，其特征在于，包括：

10.一种视觉定位设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至8任一项所述的视觉定位方法。

11.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的视觉定位方法。