WO2022247126A1

WO2022247126A1 - 视觉定位方法、装置、设备、介质及程序

Info

Publication number: WO2022247126A1
Application number: PCT/CN2021/126039
Authority: WO
Inventors: 章国锋; 鲍虎军; 黄昭阳; 周晗; 周晓巍; 李鸿升
Original assignee: 浙江商汤科技开发有限公司
Priority date: 2021-05-24
Filing date: 2021-10-25
Publication date: 2022-12-01
Also published as: CN113240656A; TW202247108A; CN113240656B

Abstract

一种视觉定位方法、装置、设备、介质及程序，其中，视觉定位方法包括：获取对预设场景拍摄到的待定位图像（S11）；对待定位图像进行地标检测，得到待定位图像中目标地标点（S12）；其中，目标地标点为预设场景的若干地标点中的至少一个，若干地标点是从预设场景的场景地图中选择得到的，场景地图是对预设场景进行三维建模得到的，且若干地标点分别位于场景地图各个子区域的预设位置处；基于目标地标点在待定位图像中的第一位置信息和目标地标点在场景地图中的第二位置信息，得到待定位图像的位姿参数（S13）。上述方案，能够提高视觉定位的准确性和鲁棒性。

Description

视觉定位方法、装置、设备、介质及程序

相关申请的交叉引用

本专利申请要求2021年05月24日提交的中国专利申请号为202110564566.7、申请人为浙江商汤科技开发有限公司，申请名称为“视觉定位方法及相关装置、设备”的优先权，该申请的全文以引用的方式并入本申请中。

技术领域

本公开涉及计算机视觉技术领域，特别是涉及一种视觉定位方法、装置、设备、介质及程序。

背景技术

随着电子信息技术的发展，增强现实、混合现实等应用得到了越来越广泛的应用。诸如此类应用通常要求较优的视觉定位准确性和鲁棒性，以达到更好的视觉效果，增强用户体验。

目前，通常采用基于场景坐标回归方式或者基于特征的视觉定位框架，来构建密集的2D-3D点对，以基于稠密点对恢复相机位姿。然而，这些场景坐标中通常包含大量离群点，特别是在存在移动物体、照明变化等动态环境下，离群点比例也会随之提高，从而无法稳定且可靠地进行视觉定位。有鉴于此，如何提高视觉定位的准确性和鲁棒性成为亟待解决的问题。

发明内容

本公开提供一种视觉定位方法、装置、设备、介质及程序。

本公开实施例提供了一种视觉定位方法，所述方法由电子设备执行，所述方法包括：获取对预设场景拍摄到的待定位图像；对待定位图像进行地标检测，得到待定位图像中目标地标点；其中，目标地标点为预设场景的若干地标点中的至少一个，若干地标点是从预设场景的场景地图中选择得到的，场景地图是对预设场景进行三维建模得到的，且若干地标点分别位于场景地图各个子区域的预设位置处；基于目标地标点在待定位图像中的第一位置信息和目标地标点在场景地图中的第二位置信息，得到待定位图像的位姿参数。

在本公开的一些实施例中，若干子区域是对场景地图的表面进行划分得到的；和/或，预设位置包括子区域的中心位置；和/或，各个子区域之间的面积差异低于第一阈值。因此，若干子区域是对场景地图的表面进行划分得到的，由于待定位图像通常是对预设场景表面的成像，故能够有利于提高在待定位图像中所检测的目标地标点的准确性；而将预设位置设置为包括子区域的中心位置，能够有利于提高地标点分布均匀的特性，有利于提升点对质量；此外，将各个子区域之间的面积差异设置为低于第一阈值，能够有利于提高地标点分布均匀的特性，有利于提升点对质量。

在本公开的一些实施例中，对待定位图像进行地标检测，得到待定位图像中目标地标点，包括：利用地标检测模型处理待定位图像，预测得到第一地标预测图像和第一方向预测图像；对第一地标预测图像和第一方向预测图像进行分析，得到目标地标点；其中，第一地标预测图像包括待定位图像中像素点的预测地标属性，第一方向预测图像包括待定位图像中像素点的第一方向属性，预测地标属性用于标识像素点对应的地标点，第一方向属性包括指向地标投影的第一方向信息，地标投影表示像素点对应的地标点在待定位图像中的投影位置。因此，通过利用地标检测模型处理待定位图像，得到第一地标预测图像和第一方向预测图像，第一地标预测图像包括待定位图像中像素点的预测地标属性，第一方向预测图像包括待定位图像中像素点的第一方向属性，预测地标属性用于标识像素点对应的地标点，第一方向属性包括指向地标投影的第一方向信息，地标投影表示像素点对应的地标点在待定位图像中的投影位置。在此基础上，再对第一地标预测图像和第一方向预测图像进行分析，得到目标地标点，由于第一地标预测图像包括各个像素点所对应的地标点，而第一方向预测图像包括各个像素点指向地标投影的方向信息，故能够大大降低动态环境影响，提高定位鲁棒性。

在本公开的一些实施例中，对第一地标预测图像和第一方向预测图像进行分析，得到目标地标点，包括：获取具有相同预测地标属性的像素点所构成的候选区域；统计候选区域中像素点的第一方向属性的一致性情况；在一致性情况满足预设条件的情况下，将候选区域中像素点的预测地标属性所标识的地标点作为目标地标点，并基于候选区域中像素点的第一方向属性，得到目标地标点在待定位图像中的第一位置信息。因此，通过获取具有相同预测地标属性的像素点所构成的候选区域，并统计候选区域中像素点的第一方向属性的一致性情况，在一致性情况满足预设条件的情况下，将候选区域中像素点的预测地标属性所标识的地标点作为目标地标点，并基于候选区域中像素点的第一方向属性，得到目标地标点在待定位图像中的第一位置信息。即在基于候选区域中像素点的预测地标属性确定目标地标点之前，先对候选区域中像素点的第一方向属性的一致性情况进行检测，从而能够有利于确保候选区域中像素点的第一方向属性的一致性，提高后续所构建的点对的质量，进而能够有利于提高视觉定位的准确性和鲁棒性。

在本公开的一些实施例中，在统计候选区域中像素点的第一方向属性的一致性情况之前，方法还包括：在候选区域的区域面积小于第二阈值的情况下，过滤候选区域。因此，在统计候选区域中像素点的第一方向属性的一致性情况之前，先检测候选区域的区域面积，并在区域面积小于第二阈值的情况下，过滤该候选区域，通过预先过滤区域面积过小的候选区域，能够有利于预先滤除不稳定区域，有利于提高后续所构建的点对的质量，进而能够有利于提高视觉定位的准确性和鲁棒性。

在本公开的一些实施例中，第一方向信息包括第一方向矢量；统计候选区域中像素点的第一方向属性的一致性情况，包括：获取候选区域中像素点之间的第一方向矢量的交点；统计交点的外点率，得到一致性情况。因此，第一方向信息包括第一方向矢量，通过获取候选区域中像素点之间的第一方向矢量的交点，并统计交点的外点率得到一致性情况，即一致性情况能够有效反映候选区域中像素点的第一方向属性的整体预测质量，有利于提高后续所构建的点对的质量，进而能够有利于提高视觉定位的准确性和鲁棒性。

在本公开的一些实施例中，所地标检测模型包括特征提取网络、地标预测图像和方向预测网络；利用地标检测模型处理待定位图像，预测得到第一地标预测图像和第一方向预测图像，包括：利用特征提取网络对待定位图像进行特征提取，得到特征图像；利用地标预测网络对特征图像进行地标预测，得到第一地标预测图像；以及，利用方向预测网络对特征图像进行方向预测，得到第一方向预测图像。因此，地标检测模型包括特征提取网络、地标预测网络和方向预测网络，从而利用特征提取网络对待定位图像进行特征提取，得到特征图像，并利用地标预测网络对特征图像进行地标预测，得到第一地标预测图像，以及利用方向预测网络对特征图像进行方向预测，得到第一方向预测图像，即地标预测网络和方向预测网络分别负责预测地标和方向，且地标预测网络和方向预测网络共享特征提取所提取得到的特征图像，故能够有利于提高预测效率。

在本公开的一些实施例中，利用地标预测网络对特征图像进行地标预测，得到第一地标预测图像，包括：利用地标预测网络对特征图像进行解码，得到第一特征预测图像；其中，第一特征预测图像包括待定位图像中像素点的第一特征表示；基于像素点的第一特征表示分别与各个地标点的地标特征表示之间的相似度，得到像素点的预测地标属性；其中，地标特征表示是在地标检测模型训练收敛之后得到的；基于待定位图像中各个像素点的预测地标属性，得到第一地标预测图像。因此，通过利用地标预测网络对特征图像进行解码，得到第一特征预测图像，且第一特征预测图像包括待定位图像中像素点的第一特征表示。在此基础上，基于像素点的第一特征表示分别和各个地标点的地标特征表示之间的相似度，得到像素点的预测地标属性，且地标特征表示是地标检测模型训练收敛之后得到的，再基于待定位图像中各个像素点的预测地标属性，得到第一地标预测图像，由于地标检测模型训练收敛之后所得到的地标特征表示能够准确表征地标点特征，故通过预测像素点的第一特征表示，并基于第一特征表示分别和各个地标特征表示之间的相似度，得到像素点的预测地标属性，能够有利于提高预测地标属性的准确性。

在本公开的一些实施例中，目标地标点是利用地标检测模型检测得到的，地标检测模型的训练步骤包括：分别确定子区域和地标点在样本图像的投影区域和投影位置；基于投影区域和投影位置，确定样本图像中样本像素点的样本地标属性和样本方向属性；其中，样本地标属性用于标识样本像素点对应的样本地标点，且样本地标点为投影区域覆盖样本像素点的子区域所含的地标点，样本方向属性包括指向样本像素点对应的样本地标点的投影位置的样本方向信息；分别基于样本地标属性和样本方向属性，得到样本图像的样本地标图像和样本方向图像；其中，样本地标图像中第一像素点标注有对应的样本像素点的样本地标属性，样本方向图像中第二像素点标注有对应的样本像素点的样本方向属性；利用样本图像、样本地标图像和样本方向图像训练地标检测模型。因此，目标地标点是利用地标检测模型检测得到的，通过先分别确定子区域和地标点在样本图像的投影区域和投影位置，之后基于投影区域和投影位置，确定样本图像中样本像素点的样本地标属性和样本方属性，且样本地标属性用于标识样本像素点对应的样本地标点，样本地标点为投影区域覆盖样本像素点的子区域所含的地标点，样本方向属性包括指向样本像素点对应的样本地标点的投影位置的样本方向信息。在此基础上，再分别基于样本地标属性和样本方向属性，得到样本图像的样本地标图像和样本方向图像，且样本地标图像中第一像素点标注有对应的样本像素点的样本地标属性，样本方向图像中第二像素点标注有对应的样本像素点的样本方向属性。从而可以精确构建训练样本，之后再利用样本图像、样本地标图像和样本方向图像训练地标检测模型，进而能够有利于提高地标检测模型的检测性能。

在本公开的一些实施例中，利用样本图像、样本地标图像和样本方向图像训练地标检测模型，包括：利用地标检测模型对样本图像进行预测，得到样本图像的第二特征预测图像和第二方向预测图像；其中，第二特征预测图像包括样本像素点的第二特征表示，第二方向预测图像包括样本像素点的第二方向属性，第二方向属性包括指向样本地标投影的第二方向信息，且样本地标投影表示样本地标点在样本图像中的投影位置；基于样本地标图像和第二特征预测图像，得到第一损失，并利用样本方向图像和第二方向预测图像之间的差异，得到第二损失；基于第一损失、第二损失，优化地标检测模型的网络参数。因此，利用地标检测模型对样本图像进行预测，得到样本图像的第二特征预测图像和第二方向预测图像，且第二特征图像包括样本像素点的第二特征表示，第二方向预测图像包括样本像素点的第二方向属性，第二方向属性包括指向样本地标投影的第二方向信息，样本地标投影表示样本地标点在样本图像中的投影位置。在此基础上，再基于样本地标图像和第二特征预测图像，得到第一损失，并利用样本方向图像和第二方向预测图像之间的差异，得到第二损失。从而基于第一损失、第二损失，优化地标检测模型的网络，进而能够通过预先构建的样本地标图像和样本方向图像监督地标检测模型的训练，有利于提升地标检测模型的检测性能。

在本公开的一些实施例中，基于样本地标图像和第二特征预测图像，得到第一损失，包括：获取具有相同样本地标属性的样本像素点所构成的图像区域，并获取各个地标点的待优化特征表示；对于图像区域中样本像素点，将样本地标属性所标识的样本地标点的待优化特征表示作为样本像素点的正例特征表示，并选择一个参考特征表示作为样本像素点的负例特征表示，以及基于第二特征表示与正例特征表示之间的第一相似度和第二特征表示与负例特征表示之间的第二相似度，得到子损失；其中，参考特征表示包括除正例特征表示之外的待优化特征表示；基于样本图像中样本像素点的子损失，得到第一损失。因此，获取具有相同样本地标属性的样本像素点所构成的图像区域，并获取各个地标点待优化特征表示。从而对于图像区域中样本像素点，将样本地标属性所标识的样本地标点的待优化特征表示作为样本像素点的正例特征表示，并选择一个参考特征表示作为样本像素点的负例特征表示，且参考特征表示包括除正例特征表示之外的待优化特征表示，进而基于第二特征表示与正例特征表示之间的第一相似度和第二特征表示与负例特征表示之间的第二相似度，得到子损失，以基于样本图像中样本像素点的子损失，得到第一损失，故此，一方面通过最小化第一损失，能够使得第二特征表示尽可能地趋近其正例特征表示并尽可能地疏离其负例特征表示，提高地标预测网络的预测性能，另一方面通过选择一个参考特征表示作为负例特征表示，避免计算第二特征表示与所有负样本类的损失，能够大大减少计算量和硬件消耗。

在本公开的一些实施例中，选择一个参考特征表示作为样本像素点的负例特征表示，包括：统计图像区域中样本像素点的第二特征表示的平均特征表示；基于平均特征表示分别与各个参考特征表示之间的相似度，选择若干参考特征表示作为图像区域的候选特征表示；在候选特征表示中均匀采样，得到样本像素点的负例特征表示。因此，统计图像区域中样本像素点的第二特表示的平均特征表示，并基于平均特征表示分别与各个参考特征表示之间的相似度，选择若干参考特征表示作为图像区域的候选特征表示。从而在候选特征表示中均匀采样，得到样本像素点的负例特征表示，由于平均特征表示能够表征图像区域整体的特征表示，故通过平均特征表示来选择图像区域中像素点可选的参考特征表示，之后在参考特征表示中均匀采样即可得到样本像素点的负例特征表示，一方面能够有利于提升参考特征表示的参考意义，另一方面能够有利于降低图像区域中每个样本像素点选择负例特征表示的复杂度。

在本公开的一些实施例中，基于第一损失、第二损失，优化地标检测模型的网络参数，包括：基于第一损失和第二损失，优化各个地标点的待优化特征表示和地标检测模型的网络参数。因此，基于第一损失和第二损失，优化各个地标点的待优化特征和地标检测模型的网络参数，故能够在训练过程中同时优化地标检测模型的网络参数和各个地标点的待优化特征表示，有利于提升地标检测的准确性和鲁棒性，从而能够有利于提高点对质量，进而能够有利于提高视觉定位的准确性和鲁棒性。

以下装置、电子设备等的效果描述参见上述是视觉定位方法的说明。

本公开实施例提供了一种视觉定位装置，包括：信息获取模块、地标检测模块和位姿确定模块，信息获取模块，配置为获取对预设场景拍摄到的待定位图像；地标检测模块，配置为对待定位图像进行地标检测，得到待定位图像中目标地标点；其中，目标地标点为预设场景的若干地标点中的至少一个，若干地标点是从预设场景的场景地图中选择得到的，场景地图是对预设场景进行三维建模得到的，且若干地标点分别位于场景地图各个子区域的预设位置处；位姿确定模块，配置为用于基于目标地标点在待定位图像中的第一位置信息和目标地标点在场景地图中的第二位置信息，得到待定位图像的位姿参数。

在本公开的一些实施例中，若干子区域是对场景地图的表面进行划分得到的；和/或，预设位置包括子区域的中心位置；和/或，各个子区域之间的面积差异低于第一阈值。

在本公开的一些实施例中，地标检测模块，包括：图像处理子模块，配置为利用地标检测模型处理待定位图像，预测得到第一地标预测图像和第一方向预测图像；图像分析子模块，配置为对第一地标预测图像和第一方向预测图像进行分析，得到目标地标点；其中，第一地标预测图像包括待定位图像中像素点的预测地标属性，第一方向预测图像包括待定位图像中像素点的第一方向属性，预测地标属性用于标识像素点对应的地标点，第一方向属性包括指向地标投影的第一方向信息，地标投影表示像素点对应的地标点在待定位图像中的投影位置。

在本公开的一些实施例中，图像分析子模块，包括：候选区域获取单元，配置为获取具有相同预测地标属性的像素点所构成的候选区域；一致性统计单元，配置为统计候选区域中像素点的第一方向属性的一致性情况；地标确定单元，配置为在一致性情况满足预设条件的情况下，将候选区域中像素点的预测地标属性所标识的地标点作为目标地标点，并基于候选区域中像素点的第一方向属性，得到目标地标点在待定位图像中的第一位置信息。

在本公开的一些实施例中，图像分析子模块，还包括：候选区域过滤单元，配置为在候选区域的区域面积小于第二阈值的情况下，过滤候选区域。

在本公开的一些实施例中，第一方向信息包括第一方向矢量；一致性统计单元，还配置为获取候选区域中像素点之间的第一方向矢量的交点；统计交点的外点率，得到一致性情况。

在本公开的一些实施例中，地标检测模型包括特征提取网络、地标预测网络和方向预测网络；图像处理子模块，包括：特征提取单元，配置为利用特征提取网络对待定位图像进行特征提取，得到特征图像；地标预测单元，配置为利用地标预测网络对特征图像进行地标预测，得到第一地标预测图像；方向预测单元，配置为利用方向预测网络对特征图像进行方向预测，得到第一方向预测图像。

在本公开的一些实施例中，地标预测单元，还配置为利用地标预测网络对特征图像进行解码，得到第一特征预测图像；其中，第一特征预测图像包括待定位图像中像素点的第一特征表示；基于像素点的第一特征表示分别与各个地标点的地标特征表示之间的相似度，得到像素点的预测地标属性；其中，地标特征表示是在地标检测模型训练收敛之后得到的；基于待定位图像中各个像素点的预测地标属性，得到第一地标预测图像。

在本公开的一些实施例中，目标地标点是利用地标检测模型检测得到的，视觉定位装置还包括：投影获取模块，配置为分别确定子区域和地标点在样本图像的投影区域和投影位置；属性确定模块，配置为基于投影区域和投影位置，确定样本图像中样本像素点的样本地标属性和样本方向属性；其中，样本地标属性用于标识样本像素点对应的样本地标点，且样本地标点为投影区域覆盖样本像素点的子区域所含的地标点，样本方向属性包括指向样本像素点对应的样本地标点的投影位置的样本方向信息；样本获取模块，配置为分别基于样本地标属性和样本方向属性，得到样本图像的样本地标图像和样本方向图像；其中，样本地标图像中第一像素点标注有对应的样本像素点的样本地标属性，样本方向图像中第二像素点标注有对应的样本像素点的样本方向属性；模型训练模块，配置为利用样本图像、样本地标图像和样本方向图像训练地标检测模型。

在本公开的一些实施例中，模型训练模块包括：图像预测子模块，配置为利用地标检测模型对样本图像进行预测，得到样本图像的第二特征预测图像和第二方向预测图像；其中，第二特征预测图像包括样本像素点的第二特征表示，第二方向预测图像包括样本像素点的第二方向属性，第二方向属性包括指向样本地标投影的第二方向信息，且样本地标投影表示样本地标点在样本图像中的投影位置；损失计算子模块，配置为基于样本地标图像和第二特征预测图像，得到第一损失，并利用样本方向图像和第二方向预测图像之间的差异，得到第二损失；参数优化子模块，配置为基于第一损失、第二损失，优化地标检测模型的网络参数。

在本公开的一些实施例中，损失计算子模块包括：图像区域和特征表示获取单元，配置为获取具有相同样本地标属性的样本像素点所构成的图像区域，并获取各个地标点的待优化特征表示；子损失计算单元，配置为对于图像区域中样本像素点，将样本地标属性所标识的样本地标点的待优化特征表示作为样本像素点的正例特征表示，并选择一个参考特征表示作为样本像素点的负例特征表示，以及基于第二特征表示与正例特征表示之间的第一相似度和第二特征表示与负例特征表示之间的第二相似度，得到子损失；其中，参考特征表示包括除正例特征表示之外的待优化特征表示；损失统计单元，配置为基于样本图像中样本像素点的子损失，得到第一损失。

在本公开的一些实施例中，子损失计算单元，还配置为统计图像区域中样本像素点的第二特征表示的平均特征表示；基于平均特征表示分别与各个参考特征表示之间的相似度，选择若干参考特征表示作为图像区域的候选特征表示；在候选特征表示中均匀采样，得到样本像素点的负例特征表示。

在本公开的一些实施例中，参数优化子模块，还配置为基于第一损失和第二损失，优化各个地标点的待优化特征表示和地标检测模型的网络参数。

本公开实施例提供了一种电子设备，包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述的视觉定位方法。

本公开实施例提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述的视觉定位方法。

本公开实施例还提供一种计算机程序，所述计算机程序包括计算机可读代码，在所述计算机可读代码在电子设备中运行的情况下，所述电子设备的处理器执行上述的视觉定位方法。

本公开实施例提供的视觉定位方法、装置、设备、介质及程序，通过获取对预设场景拍摄到的待定位图像，并对待定位图像进行地标检测，得到待定位图像中目标地标点，且目标地标点为预设场景的若干地标点中的至少一个，若干地标点是从预设场景的场景地图中选择得到的，场景地图是对预设场景进行三维建模得到的，若干地标点分别位于场景地图各个子区域的预设位置处。在此基础上，再基于目标地标点在待定位图像中的第一位置信息和目标地标点在场景地图中的第二位置信息，得到待定位图像的位姿参数。由于若干地标点分别位于场景地图各个子区域的预设位置处，故地标点并非杂乱无章，其具有分布均匀的特性，而在待定位图像中所检测到的目标地标点为若干地标点中的至少一个，且后续视觉定位过程中，仅仅依赖于目标地标点在待定位图像中的二维位置和在场景地图中的三维位置所组成的点对，而不再依赖于其他与地标点无关的点对。从而能够在减少点对数量的同时提高点对质量，进而能够有利于提高视觉定位的准确性和鲁棒性。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开实施例的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本公开视觉定位方法一实施例的流程示意图；

图2是场景地图一实施例的示意图；

图3是利用地标检测模型检测目标地标点一实施例的示意图；

图4是定位目标地标点一实施例的示意图；

图5是应用本公开实施例的视觉定位方法的一种***架构示意图；

图6是图1中步骤S12一实施例的流程示意图；

图7是利用SIFT特征进行视觉定位一实施例的示意图；

图8是利用地标点进行视觉定位一实施例的示意图；

图9是第一地标预测图像一实施例的示意图；

图10是第一方向预测图像一实施例的示意图；

图11是训练地标检测模型一实施例的流程示意图；

图12是计算第一损失一实施例的示意图；

图13是本公开视觉定位装置一实施例的框架示意图；

图14是本公开电子设备一实施例的框架示意图；

图15是本公开计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本公开实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、接口、技术之类的具体细节，以便透彻理解本公开。

本文中术语“***”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本公开视觉定位方法一实施例的流程示意图。可以包括如下步骤：

步骤S11：获取对预设场景拍摄到的待定位图像。

在一个实施场景中，预设场景可以根据实际应用需要进行设置。例如，在需要在景区实现视觉定位的情况下，预设场景可以包含景区；或者，在需要在商业街实现视觉定位的情况下，预设场景可以包括商业街；或者，在需要在工业园区实现视觉定位的情况下，预设场景可以包括工业园区。其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，待定位图像可以是以任意视角拍摄预设场景而得到的。例如，待定位图像可以仰拍预设场景而得到的；或者，待定位图像可以是俯拍预设场景而得到的；或者，待定位图像可以是平拍预设场景而得到的。

在另一个实施场景中，为了提高视觉定位的准确性，在拍摄预设场景时相机光轴与水平面之间夹角应低于预设角度阈值，即待定位图像中应尽可能多地包含预设场景，而尽可能少地包含地面、天空等无效区域。

步骤S12：对待定位图像进行地标检测，得到待定位图像中目标地标点。

本公开的一些实施例中，目标地标点为预设场景的若干地标点中的至少一个，若干地标点是从预设场景的场景地图中选择得到的，场景地图是对预设场景进行三维建模得到的，且若干地标点分别位于场景地图各个子区域的预设位置处。

在一个实施场景中，可以预先采集预设场景的拍摄视频，并利用三维重建算法对拍摄视频进行处理，得到预设场景的场景地图。三维重建算法可以包括但不限于：Multi View stereo、Kinect fusion等，在此不做限定。三维重建算法的实施过程，可以参阅其算法的技术细节。

在一个实施场景中，若干子区域是对场景地图的表面进行划分得到的。本公开的一些实施例中，可以通过三维过分割算法(如，supervoxel)将场景地图的表面划分为若干子区域。请结合参阅图2，图2是场景地图一实施例的示意图。如图2所示，不同灰度区域表示场景地图表面的不同子区域。

在一个实施场景中，预设位置可以包括子区域的中心位置。请继续结合参阅图2，如图2所示，子区域中黑点即表示在该子区域所确定的地标点。

在一个实施场景中，各个子区域之间的面积差异可以低于第一阈值，第一区域可以根据实际情况进行设置，如可以设置为：10像素点、15像素点、20像素点等等，在此不做限定。也就是说，各个子区域具有相似尺寸。

上述方式，通过将场景地图表面均匀划分为若干子区域，并在若干子区域的中心位置选择得到地标点，故地标点均匀分布于场景地图表面，从而无论以何种视角对预设场景拍摄待定位图像，待定位图像中均含有足够的地标点，进而能够有利于提高视觉定位的鲁棒性。

在一个实施场景中，为了提高地标检测的效率和准确性，可以预先训练一个地标检测模型，从而可以利用地标检测模型对待定位图像进行检测分析，得到待定位图像中的目标地标点。为了便于描述，预设场景的若干地标点可以记为{q ₁,q ₂,…,q _n}，目标地标点可以为上述若干地标点{q ₁,q ₂,…,q _n}中的至少一个。

在另一个实施场景中，为了提升地标检测的效率和准确性，利用地标检测模型处理待定位图像之后，可以得到第一地标预测图像和第一方向预测图像，第一地标预测图像包括待定位图像中像素点的预测地标属性，第一方向预测图像包括待定位图像中像素点的第一方向属性，预测地标属性用于标识像素点对应的地标点，第一方向属性包括指向地标投影的第一方向信息，地标投影表示像素点对应的地标点在待定位图像中的投影位置。在此基础上，再对第一地标预测图像和第一方向预测图像进行分析，得到目标地标点。本公开的一些实施例中，地标检测模型的训练过程，可以查阅下述相关公开实施例。区别于前述方式，由于第一地标预测图像包括各个像素点所对应的地标点，而第一方向预测图像包括各个像素点指向地标投影的方向信息，故能够大大降低动态环境影响，提高定位鲁棒性。

在一个实施场景中，请结合参阅图3，图3是利用地标检测模型检测目标地标点一实施例的示意图。如图3所示，地标检测模型可以包括特征提取网络、地标预测网络和方向预测网络，则可以利用特征提取网络对待定位图像进行特征提取，得到特征图像，并利用地标预测网络对特征图像进行地标预测，得到第一地标预测图像，以及利用方向预测网络对特征图像进行方向预测，得到第一方向预测图像，，即地标预测网络和方向预测网络分别负责预测地标和方向，且地标预测网络和方向预测网络共享特征提取所提取得到的特征图像，故能够有利于提高预测效率。

在另一个实施场景中，请继续结合参阅图3，为了便于描述，具有相同预测地标属性的像素点以相同灰度显示，也就是说，图3所示的第一地标预测图像中，以相同灰度显示的像素点其对应于相同地标点(如，前述若干地标点{q ₁,q ₂,…,q _n}中某一地标点)。同时为了便于描述，在第一方向预测图像中可以通过不同灰度来表示像素点的方向预测属性。如图3中示例所示，0度方向、45度方向、90度方向、135度方向、180度方向、225度方向、270度方向以及315度方向分别以不同灰度表示。需要说明的是，图3所示的第一地标预测图像和第一方向预测图像仅仅是实际应用过程一种可能的表现形式，通过不同灰度来表示预测地标属性和预测方向属性，能够实现地标检测模型的预测可视化。在实际应用过程中，也可以直接以数字来表示地标预测网络和方向预测网络的输出结果，在此不做限定。

在又一个实施场景中，请结合参阅图4，图4是定位目标地标点一实施例的示意图。如图4所示，图中空心圆表示在待定位图像中定位得到的目标地标点，右下角矩形框区域是对左上角矩形框区域的放大示意图，如图4中右下角矩形框区域所示，相同灰度的像素点表示具有相同预测地标属性，方向箭头表示像素点的预测方向属性。因此可以基于该相同的预测地标属性，确定该预测地标属性所标识的目标地标点(如，{q ₁,q ₂,…,q _n} 中某一地标点)，并基于这些具有相同预测地标属性的像素点的预测方向属性，确定该目标地标点在待定位图像中的位置信息(如，图中实心圆所示位置)。例如，可以通过确定图4所示方向箭头的交点，确定目标地标点在待定位图像中的位置信息。相关实施过程可以参阅下述公开实施例中相关描述。

在又一个实施场景中，第一地标预测图像和第一方向预测图像两者可以与待定位图像尺寸相同；或者，第一地标预测图像和第一方向预测图像至少一者也可以与待定位图像尺寸不同。

在又一个实施场景中，可以将DeepLabV3作为地标检测模型的骨干网络，其能够通过空间金字塔池化来显著扩大感受野。

步骤S13：基于目标地标点在待定位图像中的第一位置信息和目标地标点在场景地图中的第二位置信息，得到待定位图像的位姿参数。

本公开的一些实施例中，目标地标点在待定位图像中的第一位置信息可以是二维坐标，目标地标点在场景地图中的第二位置信息可以是三维坐标。此外，如前所述，地标点是从预设场景的场景地图中选择得到的，且场景地图是对预设场景进行三维建模得到的，故地标点在场景地图中的第二位置信息可以直接基于场景地图确定得到。在此基础上，可以基于目标地标点的标号以及场景地图中若干地标点的标号，确定若干地标点中标号与目标地标点对应的地标点，并将对应的地标点的第二位置信息，作为目标地标点的第二位置信息。请结合参阅图4，在检测得到若干目标地标点(即图中空心圆)的基础上，可以基于目标地标点在待定位图像中的第一位置信息和目标地标点在场景地图中的第二位置信息，可以建立若干2D-3D点对，基于若干2D-3D点对，可以恢复得到待定位图像的位姿参数(如，6自由度参数)。本公开的一些实施例中，可以采用基于随机抽样一致(Random Sample Consensus，RANSAC)PnP算法求取位姿参数。相关算法步骤可以参阅RANSAC PnP的技术细节，在此不再赘述。

上述方案，通过获取对预设场景拍摄到的待定位图像，并对待定位图像进行地标检测，得到待定位图像中目标地标点，且目标地标点为预设场景的若干地标点中的至少一个，若干地标点是从预设场景的场景地图中选择得到的，场景地图是对预设场景进行三维建模得到的，若干地标点分别位于场景地图各个子区域的预设位置处。在此基础上，再基于目标地标点在待定位图像中的第一位置信息和目标地标点在场景地图中的第二位置信息，得到待定位图像的位姿参数。由于若干地标点分别位于场景地图各个子区域的预设位置处，故地标点并非杂乱无章，其具有分布均匀的特性，而在待定位图像中所检测到的目标地标点为若干地标点中的至少一个，且后续视觉定位过程中，仅仅依赖于目标地标点在待定位图像中的二维位置和在场景地图中的三维位置所组成的点对，而不再依赖于其他与地标点无关的点对。从而能够在减少点对数量的同时提高点对质量，进而能够有利于提高视觉定位的准确性和鲁棒性。

图5示出可以应用本公开实施例的视觉定位方法的一种***架构示意图；如图5所示，该***架构中包括：图像获取终端501、网络502和位姿参数确定终端503。为实现支撑一个示例性应用，图像获取终端501和位姿参数确定终端503通过网络502建立通信连接，图像获取终端501通过网络502向位姿参数确定终端503上报待定位图像，位姿参数确定终端503对待定位图像进行地标检测，得到待定位图像中目标地标点；基于目标地标点在待定位图像中的第一位置信息和目标地标点在场景地图中的第二位置信息，得到待定位图像的位姿参数。最后，位姿参数确定终端503将待定位图像的位姿参数上传至网络502，并通过网络502发送给图像获取终端501。

作为示例，图像获取终端501可以包括图像采集设备，位姿参数确定终端503可以包括具有视觉信息处理能力的视觉处理设备或远程服务器。网络502可以采用有线或无线连接方式。其中，当位姿参数确定终端503为视觉处理设备时，图像获取终端501可以通过有线连接的方式与视觉处理设备通信连接，例如通过总线进行数据通信；当位姿参数确定终端503为远程服务器时，图像获取终端501可以通过无线网络与远程服务器进行数据交互。

或者，在一些场景中，图像获取终端501可以是带有视频采集模组的视觉处理设备，可以是带有摄像头的主机。这时，本公开实施例的视觉定位方法可以由图像获取终端501执行，上述***架构可以不包含网络502和位姿参数确定终端503。

请参阅图6，图6是图1中步骤S12一实施例的流程示意图。如图6所示，可以包括如下步骤：

步骤S61：利用地标检测模型处理待定位图像，预测得到第一地标预测图像和第一方向预测图像。

本公开的一些实施例中，第一地标预测图像包括待定位图像中像素点的预测地标属性，第一方向预测图像包括待定位图像中像素点的第一方向属性，预测地标属性用于标识像素点对应的地标点，第一方向属性包括指向地标投影的第一方向信息，地标投影表示像素点对应的地标点在待定位图像中的投影位置。此外，第一地标预测图像和第一方向预测图像两者可以与待定位图像尺寸相同，或者，第一地标预测图像和第一方向预测图像至少一者可以与待定位图像尺寸不同，可以参阅前述公开实施例中相关描述。

在一个实施场景中，如前述公开实施例所述，若干地标点可以记为{q ₁,q ₂,…,q _n}，则预测地标属性可以包括像素点对应的地标点的标号，即在预测地标属性包括i的情况下，像素点对应的地标点为q _i。

在一个实施场景中，第一方向信息可以包括第一方向矢量，该第一方向矢量指向地标投影。本公开的一些实施例中，在地标检测模型的检测性能极佳的情况下，地标检测模型所预测出来的第一方向矢量可能准确地指向地标投影。在实际应用过程中，地标检测模型的检测性能受限于各种因素可能无法达到极佳，在此情况下，地标检测模型所预测出来的第一方向矢量可能并非准确指向地标投影，如第一方向矢量所指向的位置与地标投影之间可以存在一定的角度偏差(如，1度、2度、3度等)，由于待定位图像中各个像素点均能够预测得到一个第一方向矢量，故通过多个像素点的第一方向矢量，能够修正单个第一方向矢量可能存在的方向偏差，其过程可以参阅下述相关描述。

在一个实施场景中，如前述公开实施例所述，地标检测模型可以包括特征提取网络、地标预测网络和方向预测网络，则可以利用特征提取网络对待定位图像进行特征提取，得到特征图像，并利用地标预测网络对特征图像进行地标预测，得到第一地标预测图像，以及利用方向预测网络对特征图像进行方向预测，得到第一方向预测图像。也就是说，地标预测网络和方向预测网络可以共享特征提取网络所提取得到的特征图像，其可以参阅前述公开实施例相关描述。

在一个实施场景中，如前所述，第一方向信息可以包括第一方向矢量，该第一方向矢量可以为一个模值为1的单位矢量。

在另一个实施场景中，利用地标预测网络可以对特征图像进行解码，得到第一特征预测图像，且第一特征预测图像包括待定位图像中像素点的第一特征表示。在此基础上，可以基于像素点的第一特征表示分别与各个地标点的地标特征表示之间的相似度，得到像素点的预测地标属性，且地标特征表示是在地标检测模型训练收敛之后得到的，并基于待定位图像中各个像素点的预测地标属性，得到第一地标预测图像。本公开的一些实施例中，在地标检测模型的训练过程中，可以维护并更新一个地标特征表示集合P，该地标特征表示集合P包含各个地标点(如，前述{q ₁,q ₂,…,q _n})的待优化特征表示，在地标检测模型训练收敛之后，即可学习到预设场景各个地标点的特征信息，这些特征信息即反映于各个地标点收敛之后的待优化特征表示中。为了便于区分，可以将训练收敛的待优化特征表示称之为地标特征表示。地标检测模型的训练过程，其可以参阅下述公开实施例。

此外，对于每一像素点，可以计算像素点的第一特征表示分别与各个地标点(如，前述{q ₁,q ₂,…,q _n})的地标特征表示之间的相似度，并选择最高相似度对应的地标点，作为像素点对应的地标点，从而可以采用该地标点标识像素点，得到像素点的预测地标属性。例如，可以计算像素点的第一特征表示分别与各个地标点的地标特征表示之间的内积，并选取最小内积对应的地标点在预设场景的若干地标点中的标号(如，1、2、……、n等)来标识该地标点，以得到预测地标属性。在得到待定位图像中每个像素点的预测地标属性之后，即可得到第一地标预测图像。

本公开的一些实施例中，若像素点的第一特征表示与各个地标点的地标特征表示之间的相似度均较低(如，均低于一个相似度阈值)，则可以认为该像素点为与预设场景无关的无效像素点(如，天空、地面等)，在此情况下，可以采用一个特殊标记(如，0)来进行标识。

步骤S62：对第一地标预测图像和第一方向预测图像进行分析，得到目标地标点。

在一个实施场景中，可以获取具有相同预测地标属性的像素点所构成的候选区域，即可以通过像素点的预测地标属性，将对应于相同地标点的像素点所构成的图像区域，作为一个候选区域。在此基础上，可以统计候选区域中像素点的第一方向属性的一致性情况，也就是说，对于每一候选区域，可以统计该候选区域中像素点的第一方向属性的一致性情况，从而可以得到各个候选区域的一致性情况。故此，可以在一致性情况满足预设条件的情况下，将候选区域中像素点的预测地标属性所标识的地标点作为目标地标点，并基于候选区域中像素点的第一方向属性，得到目标地标点在待定位图像中的第一位置信息。上述方式，在基于候选区域中像素点的预测地标属性确定目标地标点之前，先对候选区域中像素点的第一方向属性的一致性情况进行检测，从而能够有利于确保候选区域中像素点的第一方向属性的一致性，提高后续所构建的点对的质量，进而能够有利于提高视觉定位的准确性和鲁棒性。

在一个实施场景中，为了提升视觉定位的准确性和鲁棒性，在统计候选区域中像素点的第一方向属性的一致性情况之前，还可以先检测候选区域的区域面积是否小于第二阈值，若候选区域的区域面积小于第二阈值，则可以过滤该候选区域。上述方式，能够有利于预先滤除不稳定区域(如，草丛、树木等随自然条件而极易发生形态变化的区域)，有利于提高后续所构建的点对的质量，进而能够有利于提高视觉定位的准确性和鲁棒性。

在另一个实施场景中，如前所述，第一方向信息可以包括第一方向矢量，则对于每一候选区域，可以先获取该候选区域中像素点之间的第一方向矢量的交点，再统计交点的外点率，得到该候选区域的一致性情况。在此情况下，预设条件可以相应设置为外点率低于外点率阈值，即如前所述，地标检测模型所预测得到的第一方向矢量可能存在方向偏差，在此情况下，候选区域中各个像素点的第一方向矢量可能并不会准确相交于一点(即地标投影)，则可以预先设置一个外点率阈值，并利用基于直线求交模型的RANSAC算法(即RANSAC with a vote intersection model，可以参阅其相关技术细节)，计算外点率，若候选区域的外点率低于外点率阈值，则可以认为地标检测模型针对该候选区域所预测的方向一致性较好，反之，如候选区域的外点率不低于外点率阈值，则可以认为地标检测模型针对该候选区域的学习效果欠佳或者该候选区域本身存在较大噪声，为了防止后续影响视觉定位的准确性和鲁棒性，可以直接过滤该候选区域。

在又一个实施场景中，以候选区域对应于地标点j为例，地标点j在待定位图像中的初始位置信息

可以由前述基于直线求交模型的RANSAC算法计算得到，这些初始位置信息可以通过类似于期望最大化(Expectation-Maximum，EM)迭代算法进行优化，以得到地标点j在待定位图像中的第一位置信息，优化过程，可以参阅EM迭代算法的技术细节。本公开的一些实施例中，如前所述，在迭代优化过程中，若候选区域的的一致性情况欠佳，则可以直接舍弃该候选区域。

请结合参阅图7、图8、图9和图10，图7是利用尺度不变特征变换(Scale Invariant Feature Transform，SIFT)特征进行视觉定位一实施例的示意图，图8是利用地标点进行视觉定位一实施例的示意图，图9是第一地标预测图像一实施例的示意图，图10是第一方向预测图像一实施例的示意图。基于图9所示的第一地标预测图像，可以统计到图8右侧箭头在图9所指候选区域的区域面积过小，故可以过滤该不稳定的候选区域(从图8可以看出该候选区域对应于树木)，并基于图10所示的第一方向预测图像，可以统计到图8左侧箭头在图10所指候选区域的一致性情况欠佳，故可以过滤该候选区域。在此基础上，可以基于过滤之后剩余的候选区域，得到目标地标点(如图8中X标记所示)。此外，关于图9所示的第一地标预测图像中不同灰度像素点的含义和图10所示的第一方向预测图像中不同灰度像素点的含义，可以参阅前述相关描述。与之不同的是，如图7所示，利用SIFT特征进行视觉定位，可以得到数量庞大的特征点(如图7中空心圆所示)，且这些特征点中存在诸如对应于树木等不稳定区域的干扰点，从而一方面由于特征点数量过于庞大，导致后续视觉定位计算量陡增，另一方面由于特征点中极易存在干扰点，影像后续视觉定位的准确性和鲁棒性。

上述方案，通过利用地标检测模型处理待定位图像，得到第一地标预测图像和第一方向预测图像，第一地标预测图像包括待定位图像中像素点的预测地标属性，第一方向预测图像包括待定位图像中像素点的第一方向属性，预测地标属性用于标识像素点对应的地标点，第一方向属性包括指向地标投影的第一方向信息，地标投影表示像素点对应的地标点在待定位图像中的投影位置。在此基础上，再对第一地标预测图像和第一方向预测图像进行分析，得到目标地标点，由于第一地标预测图像包括各个像素点所对应的地标点，而第一方向预测图像包括各个像素点指向地标投影的方向信息，故能够大大降低动态环境影响，提高定位鲁棒性。

请参阅图11，图11是训练地标检测模型一实施例的流程示意图。可以包括如下步骤：

步骤S111：分别确定子区域和地标点在样本图像的投影区域和投影位置。

本公开实施例中，子区域和地标点的含义可以参阅前述公开实施例中相关描述。

在一个实施场景中，样本图像是以样本位姿C对预设场景进行拍摄得到的。对于场景地图各个子区域而言，可以通过前述样本位姿C以及相机内参K投影到样本图像，以得到子区域在样本图像中的投影区域；类似地，对于各个地标点而言，也可以利用前述样本位姿C以及相机内参K投影到样本图像，以得到地标点在样本图像中的投影位置。以地标点投影为例，对于若干地标点{q ₁,q ₂,…,q _n}中的地标点q _j而言，可以通过下面公式(1)得到其在样本图像中的投影位置l _j：

l _j＝f(q _j,K,C) 公式(1)；

上述公式(1)中，f表示投影函数，其可以参阅世界坐标系、相机坐标系、图像坐标系以及像素坐标系之间的转换过程。

步骤S112：基于投影区域和投影位置，确定样本图像中样本像素点的样本地标属性和样本方向属性。

本公开实施例中，样本地标属性用于标识样本像素点对应的样本地标点，且样本地标点为投影区域覆盖样本像素点的子区域所含的地标点，样本方向属性包括指向样本像素点对应的样本地标点的投影位置的样本方向信息。

对于样本地标属性，为了便于描述，以样本图像中像素点i为例，其在样本图像中位置坐标可以记为p _i＝(u _i,v _i)，像素点i被投影区域j覆盖，投影区域j是场景地图中子区域j在样本图像中的投影区域，且子区域j中包含地标点q _j，则像素点i的样本地标属性标识该地标点q _j，如像素点i的样本地标属性可以包括地标点q _j在若干地标点{q ₁,q ₂,…,q _n}中的地标点标签j。其他情况可以以此类推，在此不再一一举例。此外，若样本图像中某一像素点并未被投影区域覆盖，则可以认为该像素点对应于天空或某些远距离物体，在此情况下，该像素点的样本地标属性采用特殊标记来进行标识，如可以采用与若干地标点{q ₁,q ₂,…,q _n}的地标点标签无关的特殊标记(如，0)来进行标识，以此可以表示该像素点对于视觉定位并无作用。

对于样本方向属性，其所包含的样本方向信息可以为一个指向样本地标点的投影位置的样本方向矢量。此外，该样本方向矢量可以为一个单位矢量。为了便于描述，仍以样本图像中像素点i为例，如前所述，像素点i对应的样本地标点为地标点q _j，且地标点q _j在样本图像中投影位置可以通过上述公式(1)计算得到(即l _j)，则上述单位矢量d _i可以表示为：

d _i＝(l _j-p _i)/||l _j-p _i|| ₂ 公式(2)；

步骤S113：分别基于样本地标属性和样本方向属性，得到样本图像的样本地标图像和样本方向图像。

在一个实施场景中，样本地标图像和样本方向图像两者的尺寸可以与样本图像尺寸相同，即样本地标图像中第一像素点标注有对应的样本像素点的样本地标属性，样本方向图像中第二像素点标注有对应的样本像素点的样本方向属性。也就是说，样本地标图像中第i行第j列第一像素点标注有样本图像中第i行第j列样本像素点的样本地标属性，而样本方向图像中第i行第j列第二像素点标注有样本图像中第i行第j列样本像素点的样本方向属性。此外，在样本地标属性包括地标点标签的情况下，样本地标图像可以记为S∈□ ^H×W，即样本地标图像S的分辨率为H*W，且其中每一像素值均为整数；类似地，在样本方向属性以样本方向矢量表示的情况下，样本方向图像可以记为d∈□ ^H×W×2，即样本方向图像d的分辨率为H*W，且通道数为2，且通道图像中每一像素值均为实数，其中一个通道图像中像素值表示样本方向矢量的一个元素，另一个通道图像中像素值表示样本方向矢量的另一个元素。

步骤S114：利用样本图像、样本地标图像和样本方向图像训练地标检测模型。

本公开的一些实施例中，可以利用地标检测模型对样本图像进行预测，得到样本图像的第二特征预测图像和第二方向预测图像，且第二特征预测图像包括样本像素点的第二特征表示，第二方向预测图像包括样本像素点的第二方向属性，第二方向属性包括指向样本地标投影的第二方向信息，样本地标投影表示样本地标点在样本图像中的投影位置。在此基础上，可以基于样本地标图像和第二特征预测图像，得到第一损失，并利用样本方向图像和第二方向预测图像之间的差异，得到第二损失，以基于第一损失和第二损失，优化地标检测模型的网络参数。故此，通过预先构建的样本地标图像和样本方向图像监督地标检测模型的训练，有利于提升地标检测模型的检测性能。

在一个实施场景中，与第一方向信息类似地，第二方向信息可以包括第二方向矢量，该第二方向矢量指向样本地标投影。本公开的一些实施例中，在地标检测模型的检测性能极佳的情况下，地标检测模型所预测出来的第二方向矢量可能准确地指向样本地标投影，而在训练过程中，地标检测模型的性能是逐渐趋优的，且受限于各种因素，地标检测模型的检测性能也可能无法达到理想状态(即100％的准确率)，在此情况下，地标检测模型所预测出来的第二方向矢量可能并非准确指向样本地标投影，如第二方向矢量所指向的位置与样本地标投影之间可以存在一定的角度偏差(如，1度、2度、3度等)。

在一个实施场景中，如前所述，可以在地标检测模型的训练过程中，可以维护并更新一个地标特征表示集合P，该地标特征表示集合P包含各个地标点(如，前述{q ₁,q ₂,…,q _n})的待优化特征表示。本公开的一些实施例中，在首次训练时，该地标特征表示集合P中各个地标点的待优化特征表示可以是通过随机初始化得到的。此外，为了便于描述，第二特征预测图像可以记为E，则样本图像中像素点i的第二特征表示可以记为E _i。为了降低计算第一损失的计算负荷以及资源消耗，可以获取具有相同样本地标属性的样本像素点所构成的图像区域，则对于图像区域中样本像素点i，可以将样本地标属性所标识的样本地标点的待优化特征表示作为样本像素点i的正例特征表示P _i+，并选择一个参考特征表示作为样本像素点i的负例特征表示P _i-，且参考特征表示包括除正例特征表示之外的待优化特征表示，也就是说，可以从地标特征表示集合P中选择处正例特征表示之外的待优化特征表示作为参考特征表示。在此基础上，可以基于样本像素点i的第二特征表示E _i和正例特征表示P _i+之间的第一相似度以及第二特征表示E _i和负例特征表示P _i-之间的第二相似度，得到子损失，并基于样本图像中样本像素点的子损失，得到第一损失。例如，可以对样本图像中各个像素点的子损失进行求和，得到第一损失。上述方式，一方面通过最小化第一损失，能够使得第二特征表示尽可能地趋近其正例特征表示并尽可能地疏离其负例特征表示，提高地标预测网络的预测性能，另一方面通过选择一个参考特征表示作为负例特征表示，避免计算第二特征表示与所有负样本类的损失，能够大大减少计算量和硬件消耗。

在一个实施场景中，可以基于三元组损失函数处理上述第一相似度和第二相似度，以得到子损失，并对样本图像中各个样本像素点的子损失进行求和，得到第一损失

上述公式(3)中，m表示三元组损失的度量距离，sim表示余弦相似度函数，本公开的一些实施例中，

在另一个实施场景中，在计算上述第一相似度和第二相似度之前，可以先对各个样本像素点的第二特征表示通过L2进行归一化。在此基础上，可以计算归一化后的第二特征表示与正例特征表示之间的第一相似度以及归一化后的第二特征表示与负例特征表示之间的第二相似度。

在又一个实施场景中，请结合参阅图12，图12是计算第一损失一实施例的示意图。如图12中虚线划分所示，样本图像包含4块分别具有相同样本地标属性的样本像素点所构成的图像区域，以右下角图像区域为例，该图像区域中样本像素点所对应的样本地标点均为地标点i ⁺，则可以统计该图像区域中样本像素点的第二特征表示的平均特征表示，可以将该图像区域中样本像素点的第二特征表示取平均值，得到平均特征表示M _i+，之后可以基于平均特征表示M _i+分别与各个参考特征表示之间的相似度，选择若干参考特征表示作为该图像区域的候选特征表示。例如，可以选择相似度按照从高到低排序位于前预设序位(如，前k位)的参考特征表示，作为该图像区域的候选特征表示(如图12中曲线箭头所指的三个待优化特征表示)。在此基础上，在获取该图像区域中各个样本像素点的负例特征表示时，可以在候选特征表示中均匀采样，得到样本像素点的负例特征表示。即由于相同图像区域中样本像素点在空间上是相互接近的，且应具有相似的特征表示，故也可以共享相似的负例特征表示，因此对于各个图像区域，仅需分别挖掘具有代表性的负例特征表示即可，从而图像区域中各个样本像素点仅需从这些具有代表性的负例特征表示中进行采样即可。例如，对于该图像区域中样本像素点1、样本像素点2、样本像素点3和样本像素点4，可以分别从前述三个待优化特征表示中均匀采样，得到对应的负例特征表示，如可以分别将加粗箭头所指的待优化特征表示作为各自的负例特征表示。对于其他图像区域，可以以此类推，在此不再一一举例。上述方式，一方面能够有利于提升参考特征表示的参考意义，另一方面能够有利于降低图像区域中每个样本像素点选择负例特征表示的复杂度。

在一个实施场景中，如前所述，第二方向属性包括指向样本地标投影的第二方向信息，如第二方向信息可以包括指向样本地标投影的第二方向矢量，为了便于描述，样本像素点i所标记的第二方向矢量可以记为

此外样本像素点i所标记的样本方向矢量可以记为d _i，则第一损失

上述公式(4)中，l表示指示函数，S _i≠0表示样本地标图像S中标识有对应样本地标点的样本像素点i(即排除表示天空或远距离物体而标记为诸如0的特殊标记的样本像素点)。

在一个实施场景中，在获取第一损失和第二损失之后，可以将第一损失和第二损失进行加权求和，得到总损失

上述公式(5)中，λ表示加权因子。在此基础上，可以基于总损失，优化地标检测模型的网络参数和待优化特征表示。

上述方案，通过先分别确定子区域和地标点在样本图像的投影区域和投影位置，之后基于投影区域和投影位置，确定样本图像中样本像素点的样本地标属性和样本方向属性，且样本地标属性用于标识样本像素点对应的样本地标点，样本地标点为投影区域覆盖样本像素点的子区域所含的地标点，样本方向属性包括指向样本像素点对应的样本地标点的投影位置的样本方向信息，在此基础上，再分别基于样本地标属性和样本方向属性，得到样本图像的样本地标图像和样本方向图像，且样本地标图像中第一像素点标注有对应的样本像素点的样本地标属性，样本方向图像中第二像素点标注有对应的样本像素点的样本方向属性，从而可以精确构建训练样本，之后再利用样本图像、样本地标图像和样本方向图像训练地标检测模型，进而能够有利于提高地标检测模型的检测性能。

请参阅图13，图13是本公开视觉定位装置1300一实施例的框架示意图。视觉定位装置1300包括：信息获取模块1310、地标检测模块1320和位姿确定模块1330，其中：

信息获取模块1310，配置为获取对预设场景拍摄到的待定位图像；

地标检测模块1320，配置为对待定位图像进行地标检测，得到待定位图像中目标地标点；其中，目标地标点为预设场景的若干地标点中的至少一个，若干地标点是从预设场景的场景地图中选择得到的，场景地图是对预设场景进行三维建模得到的，且若干地标点分别位于场景地图各个子区域的预设位置处；

位姿确定模块1330，配置为基于目标地标点在待定位图像中的第一位置信息和目标地标点在场景地图中的第二位置信息，得到待定位图像的位姿参数。

在一些公开实施例中，若干子区域是对场景地图的表面进行划分得到的；和/或，预设位置包括子区域的中心位置；和/或，各个子区域之间的面积差异低于第一阈值。

在一些公开实施例中，地标检测模块1320包括：图像处理子模块，配置为利用地标检测模型处理待定位图像，预测得到第一地标预测图像和第一方向预测图像；图像分析子模块，配置为对第一地标预测图像和第一方向预测图像进行分析，得到目标地标点；其中，第一地标预测图像包括待定位图像中像素点的预测地标属性，第一方向预测图像包括待定位图像中像素点的第一方向属性，预测地标属性用于标识像素点对应的地标点，第一方向属性包括指向地标投影的第一方向信息，地标投影表示像素点对应的地标点在待定位图像中的投影位置。

在一些公开实施例中，图像分析子模块包括：候选区域获取单元，配置为获取具有相同预测地标属性的像素点所构成的候选区域；一致性统计单元，配置为统计候选区域中像素点的第一方向属性的一致性情况；地标确定单元，配置为在一致性情况满足预设条件的情况下，将候选区域中像素点的预测地标属性所标识的地标点作为目标地标点，并基于候选区域中像素点的第一方向属性，得到目标地标点在待定位图像中的第一位置信息。

在一些公开实施例中，图像分析子模块包括：候选区域过滤单元，配置为在候选区域的区域面积小于第二阈值的情况下，过滤候选区域。

在一些公开实施例中，第一方向信息包括第一方向矢量；一致性统计单元，还配置为获取候选区域中像素点之间的第一方向矢量的交点，并统计交点的外点率，得到一致性情况。

在一些公开实施例中，地标检测模型包括特征提取网络、地标预测网络和方向预测网络；图像处理子模块包括特征提取单元，配置为利用地标检测模型处理待定位图像，预测得到第一地标预测图像和第一方向预测图像；地标预测单元，配置为利用地标预测图像对特征图像进行地标预测，得到第一地标预测图像；方向预测单元，配置为利用方向预测网络对特征图像进行方向预测，得到第一方向预测图像。

在一些公开实施例中，地标预测单元，还配置为利用地标预测网络对特征图像进行解码，得到第一特征预测图像，且第一特征预测图像包括待定位图像中像素点的第一特征表示；基于像素点的第一特征表示分别与各个地标点的地标特征表示之间的相似度，得到像素点的预测地标属性；其中，地标特征表示是在地标检测模型训练收敛之后得到的；基于待定位图像中各个像素点的预测地标属性，得到第一地标预测图像。

在一些公开实施例中，目标地标点是利用地标检测模型检测得到的，视觉定位装置1300还包括：投影获取模块，配置为分别确定子区域和地标点在样本图像的投影区域和投影位置；属性确定模块，配置为基于投影区域和投影位置，确定样本图像中样本像素点的样本地标属性和样本方向属性；其中，样本地标属性用于标识样本像素点对应的样本地标点，且样本地标点为投影区域覆盖样本像素点的子区域所含的地标点，样本方向属性包括指向样本像素点对应的样本地标点的投影位置的样本方向信息；样本获取模块，配置为分别基于样本地标属性和样本方向属性，得到样本图像的样本地标图像和样本方向图像；其中，样本地标图像中第一像素点标注有对应的样本像素点的样本地标属性，样本方向图像中第二像素点标注有对应的样本像素点的样本方向属性；模型训练模块，配置为利用样本图像、样本地标图像和样本方向图像训练地标检测模型。

在一些公开实施例中，模型训练模块包括：图像预测子模块，配置为利用地标检测模型对样本图像进行预测，得到样本图像的第二特征预测图像和第二方向预测图像；其中，第二特征预测图像包括样本像素点的第二特征表示，第二方向预测图像包括样本像素点的第二方向属性，第二方向属性包括指向样本地标投影的第二方向信息，且样本地标投影表示样本地标点在样本图像中的投影位置；损失计算子模块，配置为基于样本地标图像和第二特征预测图像，得到第一损失，并利用样本方向图像和第二方向预测图像之间的差异，得到第二损失；参数优化子模块，配置为基于第一损失、第二损失，优化地标检测模型的网络参数。

在一些公开实施例中，损失计算子模块包括：图像区域和特征表示获取单元，配置为获取具有相同样本地标属性的样本像素点所构成的图像区域；并获取各个地标点的待优化特征表示；子损失计算单元，配置为对于图像区域中样本像素点，将样本地标属性所标识的样本地标点的待优化特征表示作为样本像素点的正例特征表示，并选择一个参考特征表示作为样本像素点的负例特征表示，以及基于第二特征表示与正例特征表示之间的第一相似度和第二特征表示与负例特征表示之间的第二相似度，得到子损失；其中，参考特征表示包括除正例特征表示之外的待优化特征表示；损失统计单元，配置为基于样本图像中样本像素点的子损失，得到第一损失。

在一些公开实施例中，子损失计算单元，还配置为统计图像区域中样本像素点的第二特征表示的平均特征表示；基于平均特征表示分别与各个参考特征表示之间的相似度，选择若干参考特征表示作为图像区域的候选特征表示；在候选特征表示中均匀采样，得到样本像素点的负例特征表示。

在一些公开实施例中，参数优化子模块，还配置为基于第一损失和第二损失，优化各个地标点的待优化特征表示和地标检测模型的网络参数。

请参阅图14，图14是本公开电子设备140一实施例的框架示意图。电子设备140包括相互耦接的存储器141和处理器142，处理器142用于执行存储器141中存储的程序指令，以实现上述任一视觉定位方法。在一个实施场景中，电子设备140可以包括但不限于：微型计算机、服务器，此外，电子设备140还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

本公开的一些实施例中，处理器142用于控制其自身以及存储器141以实现上述任一视觉定位方法实施例的步骤。处理器142还可以称为中央处理单元(Central Processing Unit，CPU)。处理器142可能是一种集成电路芯片，具有信号的处理能力。处理器142还可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器142可以由集成电路芯片共同实现。

上述方案，能够提高视觉定位的准确性和鲁棒性。

请参阅图15，图15为本公开计算机可读存储介质150一实施例的框架示意图。计算机可读存储介质150存储有能够被处理器运行的程序指令151，程序指令151用于实现上述任一视觉定位方法实施例的步骤。

上述方案，能够提高视觉定位的准确性和鲁棒性。

公开实施例还提供一种计算机程序，计算机程序包括计算机可读代码，在计算机可读代码在电子设备中运行的情况下，电子设备的处理器执行如上述任一实施例所述视觉定位方法。

在本公开所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本公开各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

工业实用性

本申请实施例公开了一种视觉定位方法、装置、设备、介质及程序，其中，视觉定位方法包括：获取对预设场景拍摄到的待定位图像；对待定位图像进行地标检测，得到待定位图像中目标地标点；其中，目标地标点为预设场景的若干地标点中的至少一个，若干地标点是从预设场景的场景地图中选择得到的，场景地图是对预设场景进行三维建模得到的，且若干地标点分别位于场景地图各个子区域的预设位置处；基于目标地标点在待定位图像中的第一位置信息和目标地标点在场景地图中的第二位置信息，得到待定位图像的位姿参数。

Claims

一种视觉定位方法，所述方法由电子设备执行，所述方法包括：

获取对预设场景拍摄到的待定位图像；

对所述待定位图像进行地标检测，得到所述待定位图像中目标地标点；其中，所述目标地标点为所述预设场景的若干地标点中的至少一个，所述若干地标点是从所述预设场景的场景地图中选择得到的，所述场景地图是对所述预设场景进行三维建模得到的，且所述若干地标点分别位于所述场景地图各个子区域的预设位置处；

基于所述目标地标点在所述待定位图像中的第一位置信息和所述目标地标点在所述场景地图中的第二位置信息，得到所述待定位图像的位姿参数。
根据权利要求1所述的方法，其中，所述若干子区域是对所述场景地图的表面进行划分得到的；

和/或，所述预设位置包括所述子区域的中心位置；

和/或，所述各个子区域之间的面积差异低于第一阈值。
根据权利要求1或2所述的方法，其中，所述对所述待定位图像进行地标检测，得到所述待定位图像中目标地标点，包括：

利用地标检测模型处理所述待定位图像，预测得到第一地标预测图像和第一方向预测图像；

对所述第一地标预测图像和所述第一方向预测图像进行分析，得到所述目标地标点；

其中，所述第一地标预测图像包括所述待定位图像中像素点的预测地标属性，所述第一方向预测图像包括所述待定位图像中像素点的第一方向属性，所述预测地标属性用于标识所述像素点对应的地标点，所述第一方向属性包括指向地标投影的第一方向信息，所述地标投影表示所述像素点对应的地标点在所述待定位图像中的投影位置。
根据权利要求3所述的方法，其中，所述对所述第一地标预测图像和所述第一方向预测图像进行分析，得到所述目标地标点，包括：

获取具有相同所述预测地标属性的像素点所构成的候选区域；

统计所述候选区域中所述像素点的第一方向属性的一致性情况；

在所述一致性情况满足预设条件的情况下，将所述候选区域中所述像素点的预测地标属性所标识的地标点作为所述目标地标点，并基于所述候选区域中所述像素点的第一方向属性，得到所述目标地标点在所述待定位图像中的第一位置信息。
根据权利要求4所述的方法，其中，在所述统计所述候选区域中所述像素点的第一方向属性的一致性情况之前，所述方法还包括：

在所述候选区域的区域面积小于第二阈值的情况下，过滤所述候选区域。
根据权利要求4或5所述的方法，其中，所述第一方向信息包括第一方向矢量；所述统计所述候选区域中所述像素点的第一方向属性的一致性情况，包括：

获取所述候选区域中所述像素点之间的第一方向矢量的交点；

统计所述交点的外点率，得到所述一致性情况。
根据权利要求3所述的方法，其中，所述地标检测模型包括特征提取网络、地标预测网络和方向预测网络；所述利用地标检测模型处理所述待定位图像，预测得到第一地标预测图像和第一方向预测图像，包括：

利用所述特征提取网络对所述待定位图像进行特征提取，得到特征图像；

利用所述地标预测网络对所述特征图像进行地标预测，得到所述第一地标预测图像；以及，

利用所述方向预测网络对所述特征图像进行方向预测，得到所述第一方向预测图像。
根据权利要求7所述的方法，其中，所述利用所述地标预测网络对所述特征图像进行地标预测，得到所述第一地标预测图像，包括：

利用所述地标预测网络对所述特征图像进行解码，得到第一特征预测图像；其中，所述第一特征预测图像包括所述待定位图像中所述像素点的第一特征表示；

基于所述像素点的第一特征表示分别与各个所述地标点的地标特征表示之间的相似度，得到所述像素点的预测地标属性；其中，所述地标特征表示是在所述地标检测模型训练收敛之后得到的；

基于所述待定位图像中各个所述像素点的预测地标属性，得到所述第一地标预测图像。
根据权利要求3至8任一项所述的方法，其中，所述目标地标点是利用地标检测模型检测得到的，所述地标检测模型的训练步骤包括：

分别确定所述子区域和所述地标点在样本图像的投影区域和投影位置；

基于所述投影区域和所述投影位置，确定所述样本图像中样本像素点的样本地标属性和样本方向属性；其中，所述样本地标属性用于标识所述样本像素点对应的样本地标点，且所述样本地标点为所述投影区域覆盖所述样本像素点的子区域所含的地标点，所述样本方向属性包括指向所述样本像素点对应的样本地标点的投影位置的样本方向信息；

分别基于所述样本地标属性和所述样本方向属性，得到所述样本图像的样本地标图像和样本方向图像；其中，所述样本地标图像中第一像素点标注有对应的样本像素点的样本地标属性，所述样本方向图像中第二像素点标注有对应的样本像素点的样本方向属性；

利用所述样本图像、所述样本地标图像和所述样本方向图像训练所述地标检测模型。
根据权利要求9所述的方法，其中，所述利用所述样本图像、所述样本地标图像和所述样本方向图像训练所述地标检测模型，包括：

利用所述地标检测模型对所述样本图像进行预测，得到所述样本图像的第二特征预测图像和第二方向预测图像；其中，所述第二特征预测图像包括所述样本像素点的第二特征表示，所述第二方向预测图像包括所述样本像素点的第二方向属性，所述第二方向属性包括指向样本地标投影的第二方向信息，且所述样本地标投影表示所述样本地标点在所述样本图像中的投影位置；

基于所述样本地标图像和所述第二特征预测图像，得到第一损失，并利用所述样本方向图像和所述第二方向预测图像之间的差异，得到第二损失；

基于所述第一损失、所述第二损失，优化所述地标检测模型的网络参数。
根据权利要求10所述的方法，其中，所述基于所述样本地标图像和所述第二特征预测图像，得到第一损失，包括：

获取具有相同所述样本地标属性的样本像素点所构成的图像区域，并获取各个所述地标点的待优化特征表示；

对于所述图像区域中所述样本像素点，将所述样本地标属性所标识的样本地标点的待优化特征表示作为所述样本像素点的正例特征表示，并选择一个参考特征表示作为所述样本像素点的负例特征表示，以及基于所述第二特征表示与所述正例特征表示之间的第一相似度和所述第二特征表示与所述负例特征表示之间的第二相似度，得到子损失；其中，所述参考特征表示包括除所述正例特征表示之外的待优化特征表示；

基于所述样本图像中所述样本像素点的子损失，得到所述第一损失。
根据权利要求11所述的方法，其中，所述选择一个参考特征表示作为所述样本像素点的负例特征表示，包括：

统计所述图像区域中样本像素点的第二特征表示的平均特征表示；

基于所述平均特征表示分别与各个所述参考特征表示之间的相似度，选择若干所述参考特征表示作为所述图像区域的候选特征表示；

在所述候选特征表示中均匀采样，得到所述样本像素点的负例特征表示。
根据权利要求10所述的方法，其中，所述基于所述第一损失、所述第二损失，优化所述地标检测模型的网络参数，包括：

基于所述第一损失和所述第二损失，优化各个所述地标点的待优化特征表示和所述地标检测模型的网络参数。
一种视觉定位装置，包括：

信息获取模块，配置为获取对预设场景拍摄到的待定位图像；

地标检测模块，配置为对所述待定位图像进行地标检测，得到所述待定位图像中目标地标点；其中，所述目标地标点为所述预设场景的若干地标点中的至少一个，所述若干地标点是从所述预设场景的场景地图中选择得到的，所述场景地图是对所述预设场景进行三维建模得到的，且所述若干地标点分别位于所述场景地图各个子区域的预设位置处；

位姿确定模块，配置为基于所述目标地标点在所述待定位图像中的第一位置信息和所述目标地标点在所述场景地图中的第二位置信息，得到所述待定位图像的位姿参数。
一种电子设备，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1至13任一项所述的视觉定位方法。
一种计算机可读存储介质，其上存储有程序指令，所述程序指令被处理器执行时实现权利要求1至13任一项所述的视觉定位方法。
一种计算机程序，所述计算机程序包括计算机可读代码，在所述计算机可读代码在电子设备中运行的情况下，所述电子设备的处理器执行用于实现如权利要求1至13任一项所述的视觉定位方法。