CN114565668A

CN114565668A - 即时定位与建图方法及装置

Info

Publication number: CN114565668A
Application number: CN202011357045.6A
Authority: CN
Inventors: 马宽; 刘志花; 金允泰; 李洪硕; 司空栋勋; 王强
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2022-05-31
Also published as: KR20220074782A

Abstract

提供一种即时定位与建图方法及装置。即时定位与建图方法包括：获取通过相机输入的当前帧图像；对当前帧图像进行场景识别，获得当前帧图像在全局地图中的相似度最大的关键帧图像；根据所述关键帧图像确定当前帧图像的相机位姿。即时定位与建图方法包括：获取通过相机输入的当前帧图像；确定与当前帧图像具有相似度的关键帧图像；获取当前帧图像和所述关键帧图像之间的特征点匹配关系；基于当前帧图像和所述关键帧图像之间的特征点匹配关系计算当前帧图像的相机位姿。根据本公开的示例性实施例的即时定位与建图方法及装置，既可以通过传统的方法计算相机位姿；又能够通过深度学习模型进行回环检测和重定位来确定相机位姿。

Description

即时定位与建图方法及装置

技术领域

本公开涉及计算机视觉技术领域。更具体地，本公开涉及一种即时定位与建图方法及装置。

背景技术

即时定位与建图***(Simultaneous Localization and Mapping，简称SLAM)通过捕获各种传感器(激光雷达LiDAR、相机Camera、惯性导航元件IMU、全球定位导航GPS、深度传感器Kinect等)的输入，能够实时地估计位姿，同时构建三维场景，在自动驾驶、机器人导航、增强现实领域中得到广泛应用。其中相机因为能够获得更丰富的纹理信息，且不受距离、建筑物遮挡等的影响，所以在SLAM***中被大量使用。能否寻找到两幅图像之间的数据关联，关系着SLAM***相机跟踪的准确度，同时也关系着SLAM***中跟踪的鲁棒性。场景识别技术通过计算任意两幅图像之间的相似度，寻找最相似的图像，可用于在大尺度场景中寻找可能共识的两幅图像并用于后续的特征点匹配中，在SLAM***的回环检测(LoopClosure)和重定位(Re-Localization)中发挥着重要作用。

发明内容

本公开的示例性实施例在于提供一种即时定位与建图方法及装置，以通过回环检测和重定位确定相机位姿。

根据本公开的示例性实施例，提供一种即时定位与建图方法，包括：获取通过相机输入的当前帧图像；对当前帧图像进行场景识别，获得当前帧图像在全局地图中的相似度最大的关键帧图像；根据所述关键帧图像确定当前帧图像的相机位姿。

可选地，根据所述关键帧图像确定当前帧图像的相机位姿的步骤可包括：获取当前帧图像和所述关键帧图像之间的特征点匹配关系；基于当前帧图像和所述关键帧图像之间的特征点匹配关系计算当前帧图像的相机位姿。

可选地，对当前帧图像进行场景识别的步骤可包括：获取当前帧图像的全局描述子；基于当前帧图像的全局描述子在全局地图中查询与当前帧图像相似度最大的关键帧图像。

可选地，基于当前帧图像的全局描述子在全局地图中查询与当前帧图像相似度最大的关键帧图像的步骤可包括：计算全局地图中的每个关键帧图像的全局描述子与当前帧图像的全局描述子的距离；根据关键帧图像的全局描述子与当前帧图像的全局描述子的距离确定关键帧图像的全局描述子与当前帧图像的全局描述子的相似度，其中，关键帧图像的全局描述子与当前帧图像的全局描述子的距离越近，关键帧图像与当前帧图像的相似度越大。

可选地，获取当前帧图像和所述关键帧图像之间的特征点匹配关系的步骤可包括：获取当前帧图像的局部三维点云和所述关键帧图像的全局三维点云；基于当前帧图像的局部三维点云和所述关键帧图像的全局三维点云获得当前帧图像和所述关键帧图像的场景结构；基于当前帧图像和所述关键帧图像的场景结构获取当前帧图像和所述关键帧图像之间的特征点匹配关系。

可选地，获取当前帧图像的局部三维点云的步骤可包括：获取当前帧图像的二维特征点和深度值；使用位姿先验将当前帧图像的二维特征点和深度值转换为当前帧图像的局部三维点云。

可选地，获取所述关键帧图像的全局三维点云的步骤可包括：基于所述关键帧图像的相机位姿，将所述关键帧图像的二维特征点和深度值转化为全局三维点云。

可选地，基于当前帧图像和所述关键帧图像的场景结构获取当前帧图像和所述关键帧图像之间的特征点匹配关系的步骤可包括：通过三维位置编码器分别对局部三维点云和全局三维点云进行编码，得到局部高维特征和全局高维特征；获取当前帧图像的特征点描述子和所述关键帧图像的特征点描述子，并将局部高维特征和全局高维特征、以及当前帧图像的特征点描述子和所述关键帧图像的特征点描述子输入到特征点匹配网络，获得当前帧图像和所述关键帧图像之间的特征点匹配关系。

可选地，基于当前帧图像和所述关键帧图像之间的特征点匹配关系计算当前帧图像的相机位姿的步骤可包括：基于当前帧图像和所述关键帧图像之间的特征点匹配关系通过局部光束平差法或全局光束平差法计算当前帧图像的相机位姿。

可选地，获取当前帧图像的全局描述子的步骤可包括：通过基于交并比IOU的图像深度特征提取网络获取当前帧图像的全局描述子。

可选地，所述方法还可包括：对基于IOU的图像深度特征提取网络进行训练，对基于IOU的图像深度特征提取网络进行训练的步骤可包括：从训练图像获取锚点图像和正样本图像；根据锚点图像、正样本图像以及锚点图像和正样本图像之间的相似程度，对基于IOU的图像深度特征提取网络进行训练。

可选地，从训练图像获取锚点图像和正样本图像的步骤可包括：从训练图像随机采样获得锚点图像；随机采样获得锚点图像和正样本图像的相似程度；从训练图像上采样与锚点图像的相似程度为所述获得的相似程度的图像作为正样本图像。

可选地，锚点图像和正样本图像之间的相似程度为IOU。

可选地，从训练图像获取锚点图像和正样本图像之后，所述方法还可包括：对锚点图像和正样本图像中的一个或多个进行射影变换。

根据本公开的示例性实施例，提供一种即时定位与建图方法，包括：获取通过相机输入的当前帧图像；确定与当前帧图像具有最大相似度的关键帧图像；获取当前帧图像和所述关键帧图像之间的特征点匹配关系；基于当前帧图像和所述关键帧图像之间的特征点匹配关系计算当前帧图像的相机位姿。

根据本公开的示例性实施例，提供一种即时定位与建图装置，包括：图像获取单元，被配置为获取通过相机输入的当前帧图像；场景识别单元，被配置为对当前帧图像进行场景识别，获得当前帧图像在全局地图中的相似度最大的关键帧图像；和位姿计算单元，被配置为根据所述关键帧图像，确定当前帧图像的相机位姿。

可选地，位姿计算单元可包括：匹配关系获取单元，被配置为获取当前帧图像和所述关键帧图像之间的特征点匹配关系；和位姿计算子单元，被配置为基于当前帧图像和所述关键帧图像之间的特征点匹配关系计算当前帧图像的相机位姿。

可选地，场景识别单元可包括：描述子获取单元，被配置为获取当前帧图像的全局描述子；和关键帧查询单元，被配置为基于当前帧图像的全局描述子在全局地图中查询与当前帧图像相似度最大的关键帧图像。

可选地，关键帧查询单元可被配置为：计算全局地图中的每个关键帧图像的全局描述子与当前帧图像的全局描述子的距离；根据关键帧图像的全局描述子与当前帧图像的全局描述子的距离确定关键帧图像的全局描述子与当前帧图像的全局描述子的相似度，其中，关键帧图像的全局描述子与当前帧图像的全局描述子的距离越近，关键帧图像与当前帧图像的相似度越大。

可选地，匹配关系获取单元可包括：三维点云获取单元，被配置为获取当前帧图像的局部三维点云和所述关键帧图像的全局三维点云；场景结构获取单元，被配置为基于当前帧图像的局部三维点云和所述关键帧图像的全局三维点云获得当前帧图像和所述关键帧图像的场景结构；和特征点匹配单元，被配置为基于当前帧图像和所述关键帧图像的场景结构获取当前帧图像和所述关键帧图像之间的特征点匹配关系。

可选地，三维点云获取单元可被配置为：获取当前帧图像的二维特征点和深度值；使用位姿先验将当前帧图像的二维特征点和深度值转换为当前帧图像的局部三维点云。

可选地，三维点云获取单元可被配置为：基于所述关键帧图像的相机位姿，将所述关键帧图像的二维特征点和深度值转化为全局三维点云。

可选地，特征点匹配单元可被配置为：通过三维位置编码器分别对局部三维点云和全局三维点云进行编码，得到局部高维特征和全局高维特征；获取当前帧图像的特征点描述子和所述关键帧图像的特征点描述子，并将局部高维特征和全局高维特征、以及当前帧图像的特征点描述子和所述关键帧图像的特征点描述子输入到特征点匹配网络，获得当前帧图像和所述关键帧图像之间的特征点匹配关系。

可选地，位姿计算子单元可被配置为：基于当前帧图像和所述关键帧图像之间的特征点匹配关系通过局部光束平差法或全局光束平差法计算当前帧图像的相机位姿。

可选地，描述子获取单元可被配置为：通过基于交并比IOU的图像深度特征提取网络获取当前帧图像的全局描述子。

可选地，所述装置还可包括提取网络训练单元，被配置为：从训练图像获取锚点图像和正样本图像；根据锚点图像、正样本图像以及锚点图像和正样本图像之间的相似程度，对基于IOU的图像深度特征提取网络进行训练。

可选地，提取网络训练单元可被配置为：从训练图像随机采样获得锚点图像；随机采样获得锚点图像和正样本图像的相似程度；从训练图像上采样与锚点图像的相似程度为所述获得的相似程度的图像作为正样本图像。

可选地，锚点图像和正样本图像之间的相似程度为IOU。

可选地，提取网络训练单元还被配置为：在从训练图像获取锚点图像和正样本图像之后，对锚点图像和正样本图像中的一个或多个进行射影变换。

根据本公开的示例性实施例，提供一种即时定位与建图装置，包括：图像获取单元，被配置为获取通过相机输入的当前帧图像；关键帧选择单元，被配置为确定与当前帧图像具有最大相似度的关键帧图像；匹配关系获取单元，被配置为获取当前帧图像和所述关键帧图像之间的特征点匹配关系；和位姿计算子单元，被配置为基于当前帧图像和所述关键帧图像之间的特征点匹配关系计算当前帧图像的相机位姿。

根据本公开的示例性实施例，提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被处理器执行时，实现根据本公开的示例性实施例的即时定位与建图方法。

根据本公开的示例性实施例，提供一种计算装置，包括：处理器；存储器，存储有计算机程序，当所述计算机程序被处理器执行时，实现根据本公开的示例性实施例的即时定位与建图方法。

根据本公开的示例性实施例，提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的示例性实施例的即时定位与建图方法。

根据本公开的示例性实施例的即时定位与建图方法及装置，通过获取通过相机输入的当前帧图像；对当前帧图像进行场景识别，获得当前帧图像在全局地图中的相似度最大的关键帧图像；根据所述关键帧图像确定当前帧图像的相机位姿，从而对于从相机捕获得到的图像，既可以通过传统的算法提取特征点和描述子进行跟踪，然后通过光束平差法计算相机位姿；又能够通过深度学习模型进行回环检测和重定位，对从相机捕获得到的当前帧图像从由关键帧图像构成的全局地图中挑选最相似的关键帧图像，根据关键帧图像确定当前帧图像的相机位姿。

根据本公开的示例性实施例的即时定位与建图方法及装置，通过获取通过相机输入的当前帧图像；确定与当前帧图像具有相似度的关键帧图像；获取当前帧图像和所述关键帧图像之间的特征点匹配关系；基于当前帧图像和所述关键帧图像之间的特征点匹配关系计算当前帧图像的相机位姿，从而对于从相机捕获得到的图像，既可以通过传统的算法提取特征点和描述子进行跟踪，然后通过光束平差法计算相机位姿；又能够通过深度学习模型进行回环检测和重定位，对从相机捕获得到的当前帧图像确定最相似的关键帧图像，并计算当前帧图像和该确定的关键帧图像之间的特征点匹配关系(即，数据关联)。

此外，根据本公开的示例性实施例的即时定位与建图方法及装置，能够利用无监督的深度学习模型获得泛化能力更好的模型，同时通过IOU相关的图像深度特征提取方法提高深度特征的表达能力，以便更准确地寻找到更好的相似图像，并通过基于场景结构的数据关联模型寻找当前帧图像和查询得到的关键帧图像之间的特征点匹配关系，用于恢复当前帧图像的相机位姿。

将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本公开总体构思的实施而得知。

附图说明

通过下面结合示例性地示出实施例的附图进行的描述，本公开的示例性实施例的上述和其他目的和特点将会变得更加清楚，其中：

图1示出根据本公开的示例性实施例的即时定位与建图方法的流程图。

图2示出根据本公开的示例性实施例的即时定位与建图过程的示意图。

图3示出根据本公开的示例性实施例的基于IOU的图像深度特征提取网络的一次训练迭代过程的流程图。

图4示出根据本公开的示例性实施例的基于IOU的图像深度特征提取网络的训练示意图。

图5示出根据本公开的示例性实施例的在训练基于IOU的图像深度特征提取网络时的正样本采样原理图。

图6示出根据本公开的示例性实施例的基于IOU的图像深度特征提取网络的训练原理图。

图7示出根据本公开的示例性实施例的通过IOU相关的图像深度特征提取网络搜索当前帧图像在全局地图中的相似度最大的关键帧图像的示意图。

图8示出根据本公开的示例性实施例的基于场景结构保持的特征点匹配网络的示意图。

图9示出根据本公开的示例性实施例的基于场景结构保持的特征点匹配网络计算特征点匹配关系的流程图。

图10示出根据本公开的另一示例性实施例的即时定位与建图方法的流程图。

图11示出根据本公开的另一示例性实施例的即时定位与建图方法的流程图。

图12示出根据本公开的一个示例性实施例的即时定位与建图装置的框图。

图13示出根据本公开的另一示例性实施例的即时定位与建图装置的框图。

图14示出根据本公开的另一示例性实施例的即时定位与建图装置的框图。

图15示出根据本公开的示例性实施例的计算装置的示意图。

具体实施方式

现将详细参照本公开的示例性实施例，所述实施例的示例在附图中示出，其中，相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例，以便解释本公开。

目前，场景识别技术通过提取传统的ORB特征点和BRIEF描述子，通过BOW词袋模型寻找共视帧，然后再通过随机抽样一致算法(RANdom SAmple Consensus，简称RANSAC)对两幅图像上提取得到的特征点之间过滤掉错误的匹配从而获得数据关联，受限于描述子表达能力的影响，寻找相似帧的准确率不高，错误的特征点匹配也会降低初值敏感的RANSAC算法的准确率。基于深度学习网络NetVLAD学习到的全局特征，存在着域适应问题，在新的场景中泛化能力不佳。效果最突出的深度学习网络SuperPoint和SuperGlue，首先通过SuperPoint网络提取特征点和描述子，然后通过SuperGlue网络利用图神经网络寻找两幅图像之间的特征点匹配，从而最终计算相机的位姿，在不同的场景下效果表现很好。

然而，通过ORB+BRIER+BOW寻找相似帧计算相机位姿的传统方法，受限于BRIEF描述子的表达能力，往往得到错误的匹配结果，使得BOW寻找相似帧时准确率不高，且错误的匹配关系为初值敏感的RANSAC算法提供了错误的初值，往往无法找到特征点匹配关系从而无法恢复出相机位姿。通过深度学习网络NetVLAD方法学习到的全局特征，存在着域适应问题，在新的场景中泛化能力不佳，且其网络结构和训练方法已被当前其他算法超越。而深度学习网络SuperPoint和SuperGlue通过深度学习网络往往能够得到丰富的特征点和描述子信息，以及SuperGlue网络通过图神经网络能够找到两幅图像间的匹配关系，但是SuperGlue网络只利用特征点的2D坐标信息，忽略了场景结构信息，即图像上每个特征点所对应的3D坐标所构成的三维点云，这在SLAM***运行过程中很容易得到，且对于帧间特征点匹配很有帮助。

为此需要一种混合的SLAM***，即能够利用传统的方法快速实现SLAM***的跟踪定位和建图功能，又能够在SLAM运行过程中提供回环检测和跟踪失败时能够进行重定位恢复得到相机位姿。这要求该***有较强的泛化能力，在不同的场景中都能够运行，且充分利用SLAM运行过程中恢复的场景结构信息，帮助SLAM***更好的恢复相机位姿。

本公开的目的是通过相机输入的图像在SLAM***运行过程中构建的全局地图中寻找最相似的关键帧作为共视帧建立二者之间的特征点匹配并计算相机位姿，为SLAM***的回环检测和重定位模块提供更多的约束信息；一方面，从相机获得的图像将通过关键帧选择策略挑选关键帧构建全局地图，通过局部光束平差法和全局光束平差法计算相机位姿，实现SLAM***的即时定位与建图；另一方面，针对于获得一个泛化能力强的深度学***差法和全局光束平差法之中进行SLAM***中的定位和建图。

图2示出根据本公开的示例性实施例的即时定位与建图过程的示意图。本公开中的即时定位与建图方法可用于例如，但不限于，自动驾驶、机器人导航、增强现实等应用场景。

参照图1，在步骤S101，获取通过相机输入的当前帧图像。

具体来说，在自动驾驶、机器人导航、增强现实等应用场景中，相机实时拍摄图像。

在步骤S102，对当前帧图像进行场景识别，获得当前帧图像在全局地图中的相似度最大的关键帧图像。

在本公开的示例性实施例中，在对当前帧图像进行场景识别时，可首先获取当前帧图像的全局描述子，然后基于当前帧图像的全局描述子在全局地图中查询与当前帧图像相似度最大的关键帧图像。这里，全局地图中保存了关键帧图像。如图2所示，全局地图可包括关键帧集合和地图点集合。关键帧集合可包括每个关键帧图像的相机位姿和特征点描述子。地图点集合可包括3D地图点。

在本公开的示例性实施例中，在基于当前帧图像的全局描述子在全局地图中查询与当前帧图像相似度最大的关键帧图像时，可首先计算全局地图中的每个关键帧图像的全局描述子与当前帧图像的全局描述子的距离，然后根据关键帧图像的全局描述子与当前帧图像的全局描述子的距离确定关键帧图像的全局描述子与当前帧图像的全局描述子的相似度。这里，关键帧图像的全局描述子与当前帧图像的全局描述子的距离越近，关键帧图像与当前帧图像的相似度越大。

具体来说，在对当前帧图像跟踪识别时，可在全局地图中搜索与当前帧图像最相似的关键帧图像，作为当前帧图像的共视帧图像，以基于共视帧图像来进行场景识别，并恢复场景结构，进而计算相机位姿。

在本公开的示例性实施例中，在获取当前帧图像的全局描述子时，可通过基于交并比(Intersection Over Union，简称IOU)的图像深度特征提取网络获取当前帧图像的全局描述子。

在本公开的示例性实施例中，还可对基于IOU的图像深度特征提取网络进行训练。

通过深度学习网络将图像转化为一个特征向量的要求便是区分正样本和负样本，并保证训练过程中不断拉近正样本之间的距离同时增加负样本之间的距离，最终使得正样本之间的距离小于负样本之间的距离从而保证深度学习网络能够区分这个样本和负样本。以往的深度学习网络在优化该问题时，并未考虑到正样本之间的差异性，认为训练过程中的正样本之间的距离产生的误差或者梯度都应该同样对待。在本公开中将该问题泛化，认为深度学习网络在优化的过程中应该根据相似度来进行约束，即对于正样本而言，越相似的正样本之间的距离应该越接近，越不相似的正样本之间的距离应该略大但同时应小于和负样本之间的距离。

对此，在本公开中认为两幅图像之间的相似度应该与两幅图像视野内的重叠区域有关系。在这里将IOU作为图像之间相似度的衡量标准，由于IOU也是在其他例如分割、检测等领域常用的度量函数，从而目标函数有了两个用途：一方面，区分正样本和负样本；另一方面，基于IOU对正样本进行排序。

在本公开的示例性实施例中，在对基于IOU的图像深度特征提取网络进行训练时，可首先从训练图像获取锚点图像和正样本图像，然后根据锚点图像、正样本图像以及锚点图像和正样本图像之间的相似程度，对基于IOU的图像深度特征提取网络进行训练。

在本公开的示例性实施例中，在从训练图像获取锚点图像和正样本图像时，可首先从训练图像随机采样获得锚点图像，并随机采样获得锚点图像和正样本图像的相似程度，然后从训练图像上采样与锚点图像的相似程度为所述获得的相似程度的图像作为正样本图像。

在本公开的示例性实施例中，锚点图像和正样本图像之间的相似程度可以为IOU。

在本公开的示例性实施例中，在从训练图像获取锚点图像和正样本图像之后，还可对锚点图像和正样本图像中的一个或多个进行射影变换。

图3示出根据本公开的示例性实施例的基于IOU的图像深度特征提取网络的一次训练迭代过程的流程图。图4示出根据本公开的示例性实施例的基于IOU的图像深度特征提取网络的训练示意图。在图4中以旧特征队列负样本

来表示负样本特征。图5示出根据本公开的示例性实施例的在训练基于IOU的图像深度特征提取网络时的正样本采样原理图。在图5中以输入图像来表示输入的训练图像。图6示出根据本公开的示例性实施例的基于IOU的图像深度特征提取网络的训练原理图。

如图3所示，在一次训练迭代过程中，在步骤S301，基于IOU的随机采样策略从训练图像获取锚点图像和正样本图像。

在本公开的示例性实施例中，在基于IOU的随机采样策略从训练图像获取锚点图像和正样本图像时，可首先从训练图像随机采样获得锚点图像，随机采样获得IOU，然后从训练图像上采样与锚点图像的交并比为所述IOU的图像作为正样本图像。

具体来说，可通过例如，但不限于平均随机分布算法来随机采样获得IOU。例如，可在[0～1]之间随机两次得到{IOU_p1,IOU_p2}。

如图5所示，对于输入的每一个训练图像进行随机裁剪，将裁剪后的图像作为锚点图像Anchor；在训练图像上裁剪使得裁剪后的图像与锚点图像Anchor之间的IOU等于{IOU_p1,IOU_p2}，裁剪得到的结果作为正样本，得到两个正样本{p₁，p₂}，在本公开中，为便于描述以两个正样本为例，实际的应用过程中可以是多个正样本，本公开对此不进行限制。

在步骤S302，将锚点图像和正样本图像之间的IOU作为目标相似度。例如，可将在[0～1]之间随机两次得到{IOU_p1,IOU_p2}作为目标相似度。

在本公开的示例性实施例中，在从训练图像获取锚点图像和正样本图像之后，还可对锚点图像和正样本图像进行射影变换，将射影变换后的锚点图像和正样本图像分别作为锚点图像和正样本图像。

根据随机算法决定是否需要在锚点图像Anchor和两个正样本{p₁，p₂}上做Warp进行射影变换，如果需要则在图片的四个矩形区域中随机选择四个点构成的四边形进行裁剪并进行摄影变换，然后再进行其他深度学***翻转等，从而得到最终的锚点Anchor和正样本{p₁，p₂}。

在步骤S303，分别通过在线卷积神经网络和目标卷积神经网络对锚点图像和正样本图像进行特征提取，获得锚点特征和正样本特征。

如图4所示，锚点Anchor和正样本{p₁，p₂}分别送入在线卷积神经网络Online和目标卷积神经网络Target中得到对应的特征f_a及

在步骤S304，通过多层感知机将锚点特征和正样本特征从特征空间变换到度量空间。

如图6所示，在线卷积神经网络Online和目标卷积神经网络Target中的结构完全相同且最后两层是一个多层感知机(Multi-Layer Perceptron，简称MLP)，特征f_a及

特征经过多层感知机MLP将其从特征空间变换到度量空间，将度量空间中的特征进行归一化得到f′_a及

在步骤S305，基于以往训练迭代过程中的正样本特征确定当前训练迭代的负样本特征。

在本公开的示例性实施例中，在基于以往训练迭代过程中的正样本特征确定当前训练迭代的负样本特征时，在第一次训练迭代过程中，负样本特征为零；在第一次之后的每次训练迭代过程中，基于前一次训练迭代过程中的正样本特征和负样本特征确定当前训练迭代过程中的负样本特征。

如图4所示，可取之前训练迭代过程中特征队列

将作为负样本特征，计算锚点特征f′_a和负样本特征

之间的余弦距离作为锚点图像Anchor与负样本的相似度，从而得到锚点Anchor与正样本及负样本的相似度

其中

在步骤S306，计算锚点特征、正样本特征和负样本特征之间的余弦距离作为相似度。

具体来说，计算锚点特征f′_a和正样本特征

之间的余弦距离作为锚点图像Anchor与正样本图像之间相似度

在图3中，以特征相似分数来表示相似度。

在步骤S307，基于相似度和目标相似度，通过交叉熵损失函数计算损失及梯度进行反传更新在线卷积神经网络。

例如，可以以目标相似度

作为监督信号，即

如下式所示，通过交叉熵损失函数计算损失及梯度进行反传更新在线卷积神经网络Online。这里，m表示正样本的数量，k表示负样本的数量。随机从正样本的特征

中挑选一个送入到具有固定长度的特征队列

中以作为下一个迭代的负样本特征。

在步骤S308，通过指数加权平均算法利用在线卷积神经网络的参数θ_Online对目标卷积神经网络的参数θ_Target进行更新。

例如，可根据公式θ_Target＝mθ_Target+(1-m)θ_Online通过指数加权平均算法利用在线卷积神经网络Online的参数θ_Online对目标卷积神经网络Target的参数θ_Target进行更新，其中，动量参数m＝0.999，使得目标卷积神经网络Target随着学***均算法也能够保证目标卷积神经网络Target能够有一个稳定的特征空间保证在线卷积神经网络Online能够在训练过程中收敛。

在步骤S309，当在线卷积神经网络达到预设终止条件时，将在线卷积神经网络和目标卷积神经网络作为基于IOU的图像深度特征提取网络。

将去掉在线卷积神经网络Online最后的多层感知机MLP之后余下的部分作为IOU相关的图像深度特征提取网络，可用于用于SLAM***回环检测和重定位模块中进行场景识别以及寻找相似关键帧图像作为共视帧图像。

图7示出根据本公开的示例性实施例的通过IOU相关的图像深度特征提取网络搜索当前帧图像在全局地图中的相似度最大的关键帧图像的示意图。如图7所示，通过共享的IOU相关的图像深度特征提取网络首先提取当前帧图像的全局描述子和关键帧集合中的各个关键帧图像的全局描述子，然后基于全局描述子计算IOU相关的误差函数，从而根据误差函数得到当前帧图像在全局地图中的相似度最大的关键帧图像。

返回参照图1，在步骤S103，根据所述关键帧图像确定当前帧图像的相机位姿。

在本公开的示例性实施例中，在根据所述关键帧图像确定当前帧图像的相机位姿时，可首先获取当前帧图像和所述关键帧图像之间的特征点匹配关系，然后基于当前帧图像和所述关键帧图像之间的特征点匹配关系计算当前帧图像的相机位姿。

计算两幅图像之间的特征点匹配关系(即，数据关联)是即时定位与建图过程中的一个重要过程。计算两幅图像之间的特征点匹配关系(即，实现数据关联)的传统方法有两种：方法一，通过提取特征点和描述子，然后根据描述子间的相似性，选择两幅图像之间的初始匹配关系，最后利用RANSAC算法过滤掉错误的匹配，从而得到最终的数据关联；方法二，通过光流法，前一帧的图像上的特征点在下一帧上的邻域内寻找与之描述子相似的特征点，然后用RANSAC算法过滤掉错误的匹配，从而得到最终的数据关联。其中，光流法仅在邻域内工作，当两帧之间的运动较大时，无法通过光流法寻找数据关联。对于回环检测和重定位而言，传统方法只能通过第一种方法实现，传统的描述子表达能力较弱，使得往往无法找到正确的匹配关系。目前，SuperGlue网络通过图神经网络即可考虑描述子又考略了特征点之间的位置约束关系，使得寻找数据关联的成功率大大提升。然而，SuperGlue网络在考虑特征点的位置约束关系时，仅仅只考虑了特征点的二维坐标，这使得特征点的深度信息被忽略从而导致场景结构信息在寻找数据关联时被忽略。因而本公开提出了基于场景结构的特征点匹配网络，既充分利用了SLAM***运行过程中重建得到包含场景结构信息的三维点云，又能够提升寻找数据关联的过程中准确率。

在本公开的示例性实施例中，在获取当前帧图像和所述关键帧图像之间的特征点匹配关系时，可首先获取当前帧图像的局部三维点云和所述关键帧图像的全局三维点云，基于当前帧图像的局部三维点云和所述关键帧图像的全局三维点云获得当前帧图像和所述关键帧图像的场景结构，然后基于当前帧图像和所述关键帧图像的场景结构获取当前帧图像和所述关键帧图像之间的特征点匹配关系。

在本公开的示例性实施例中，在获取当前帧图像的局部三维点云时，可首先获取当前帧图像的二维特征点和深度值，然后使用位姿先验将当前帧图像的二维特征点和深度值转换为当前帧图像的局部三维点云。

在本公开的示例性实施例中，在获取所述关键帧图像的全局三维点云时，基于所述关键帧图像的相机位姿，将所述关键帧图像的二维特征点和深度值转化为全局三维点云。

在本公开的示例性实施例中，在基于当前帧图像和所述关键帧图像的场景结构获取当前帧图像和所述关键帧图像之间的特征点匹配关系时，可首先通过三维位置编码器分别对局部三维点云和全局三维点云进行编码，得到局部高维特征和全局高维特征，然后获取当前帧图像的特征点描述子和所述关键帧图像的特征点描述子，并将局部高维特征和全局高维特征、以及当前帧图像的特征点描述子和所述关键帧图像的特征点描述子输入到特征点匹配网络，获得当前帧图像和所述关键帧图像之间的特征点匹配关系。

图8示出根据本公开的示例性实施例的基于场景结构保持的特征点匹配网络的示意图。图9示出根据本公开的示例性实施例的基于场景结构保持的特征点匹配网络计算特征点匹配关系的流程图。

如图8所示，基于场景结构保持的特征点匹配网络可包括三维点云生成器、三维位置编码器、SuperGlue网络。

如图9所示，首先，通过三维点云转换器将检索到的最相似的关键帧图像上的特征点及其深度通过关键帧图像的相机位姿(坐标)转化为三维点云，通过三维位置编码器后的高维特征与描述子连接在一起。同时，当前帧图像上的特征点及其深度通过该图像帧的相机先验转化为三维点云得到子全局地图(如图2所示)，通过三维位置编码器后的高维特征与描述子连接在一起。若使用SLAM***中提取的ORB特征点，则其深度可由SLAM***运行过程中自动获得；若使用SuperPoint网络提取特征点和描述子，则通过他们的相机位姿，利用运动结构恢复(Structure From Motion，简称SFM)算法通过相邻若干帧得到特征点所对应的深度，从而将特征点转化为三维点云得到子全局地图。然后，对于一副图像内的任意特征点之间构建内边，同时两幅图像之间的任意两个特征点之间构建外边，从而构建得到图神经网络的输入。分别在内边之间与外边之间通过注意力机制进行聚合，使得能够在内边之间挑选有区分性的邻域结构同时在外边之间视觉相似的潜在的匹配关系。最后，通过图神经网络计算构建的内边和外边的权重矩阵，作为各个边是否存在的判断标准，从而得到两幅图像之间的特征点匹配关系。

在本公开的示例性实施例中，在基于当前帧图像和所述关键帧图像之间的特征点匹配关系计算当前帧图像的相机位姿时，可基于当前帧图像和所述关键帧图像之间的特征点匹配关系通过局部光束平差法或全局光束平差法计算当前帧图像的相机位姿。

参照图10，在步骤S1001，获取通过相机输入的当前帧图像。

在步骤S1002，对当前帧图像进行跟踪。

在步骤S1003，判断是否跟踪成功。可通过下述两种方法中的任何一种，实现对当前帧图像的跟踪：方法一，对当前帧图像提取ORB特征点和对应的描述子，和上一帧图像的描述子比较，获得前后两帧之间的特征点匹配关系；方法二，通过上一帧图像的特征点，通过光流法在当前帧上寻找对应的特征点，并通过描述子筛选掉错误的特征点匹配，得前后两帧之间的特征点匹配关系，如果当前帧图像上获得的匹配的特征点少于设定的阈值，将在当前帧图像重新提取特征点和描述子。

在步骤S1004，在跟踪成功的情况下，获取当前帧图像与至少前一帧图像之间的跟踪状态。在判断前后两帧之间的跟踪状态时，通过比较当前帧图像跟踪的特征点个数以及新提取的特征点的个数来确定，若跟踪的特征点个数小于给定数值或者新提取的特征点个数超过给定数值，则将当前帧图像作为关键帧图像。

在步骤S1005，基于当前帧图像与至少前一帧图像之间的跟踪状态，确定是否将当前帧图像作为关键帧图像。可通过比较前后两帧图像之间跟踪状态，确定是否将当前帧图像作为关键帧图像，若选为关键帧图像则当前帧图像将加入全局地图中，用于后面的局部和全局光束平差法，以及回环检测和重定位模块。

在步骤S1006，当确定不将当前帧图像作为关键帧图像时，基于当前帧图像与至少前一帧图像之间的特征点匹配关系，通过局部光束平差法计算当前帧图像的相机位姿。可将最新输入的若干帧图像根据他们之间的特征点匹配关系，通过局部光束平差法更新各帧所对应的相机位姿以及特征点的3D坐标。

在步骤S1007，当确定将当前帧图像作为关键帧图像时，将当前帧图像加入到全局地图中，基于全局地图中的所有的关键帧图像之间的特征点匹配关系，通过全局光束平差法计算每个关键帧图像的相机位姿。可基于所有关键帧图像之间的特征点匹配关系通过全局光束平差法计算各个关键帧图像对应的相机坐标。

在步骤S1008，基于每个关键帧图像的相机位姿对非关键帧图像的相机位姿进行更新。可将通过相对位姿来更新局部光束平差法中非关键帧的相机位姿，实现局部光束平差法和全局光束平差法中的数据统一。

在步骤S1009，在跟踪失败的情况下，对当前帧图像进行场景识别，获得当前帧图像在全局地图中的相似度最大的关键帧图像。通过IOU相关的图像深度特征提取模型获取当前帧图像的全局描述子。将当前帧图像输入到IOU相关的图像深度特征提取模型中，获得当前帧图像的全局描述子。在全局地图中查询与当前帧图像最相似的关键帧图像。通过IOU相关的图像深度特征提取模型提取全局地图中保存的关键帧图像各自对应的全局描述子。当前帧图像将通过全局描述子在所有关键帧图像所对应的全局描述子中寻找距离最小的全局描述子作为最相似的全局描述子，从而获得当前帧图像的最相似关键帧图像，作为共视帧图像。

在步骤S10010，获取当前帧图像和当前帧图像在全局地图中的相似度最大的关键帧图像之间的特征点匹配关系。可通过SuperPoint网络分别提取当前帧图像和当前帧图像的共视帧图像上的特征点和描述子，并通过他们的相机位姿，利用SFM算法通过相邻若干帧得到特征点所对应的深度，从而将特征点转化为三维点云；同时，也可以不利用SuperPoint网络额外提取特征点并恢复三维点云，也可以使用SLAM运行过程中使用的ORB特征点，这些特征点所对应的三维点云已在SLAM***运行过程中恢复，不在需要额外的SFM算法计算特征点对应的深度。

在步骤S10011，基于当前帧图像和所述关键帧图像之间的特征点匹配关系计算当前帧图像的相机位姿。可首先将三维点云通过三维位置编码器进行编码，将编码结果和描述子一起作为输入送入SuperGlue网络中，获得在场景结构约束下的特征点匹配关系。当前帧图像和共视帧图像之间的特征点匹配关系既可以用于恢复当前输入图像的相机坐标，也可用于局部光束平差法和全局光束平差法中作为约束计算当前帧图像的相机坐标。

参照图11，在步骤S1101，获取通过相机输入的当前帧图像。具体来说，在自动驾驶、机器人导航、增强现实等应用场景中，相机实时拍摄图像。

在步骤S1102，确定与当前帧图像具有相似度的关键帧图像。具体来说，可通过任意方法确定与当前帧图像具有相似度的关键帧图像，本公开对此不进行限制。

在步骤S1103，获取当前帧图像和所述关键帧图像之间的特征点匹配关系。

在本公开的示例性实施例中，在获取所述关键帧图像的全局三维点云时，可基于所述关键帧图像的相机位姿，将所述关键帧图像的二维特征点和深度值转化为全局三维点云。

在步骤S1104，基于当前帧图像和所述关键帧图像之间的特征点匹配关系计算当前帧图像的相机位姿。

此外，根据本公开的示例性实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被执行时，实现根据本公开的示例性实施例的即时定位与建图方法。

在本公开的示例性实施例中，所述计算机可读存储介质可承载有一个或者多个程序，当所述计算机程序被执行时可实现以下步骤：获取通过相机输入的当前帧图像；对当前帧图像进行场景识别，获得当前帧图像在全局地图中的相似度最大的关键帧图像；获取当前帧图像和所述关键帧图像之间的特征点匹配关系；基于当前帧图像和所述关键帧图像之间的特征点匹配关系计算当前帧图像的相机位姿。

计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中，计算机可读存储介质可以是任何包含或存储计算机程序的有形介质，该计算机程序可以被指令执行***、装置或者器件使用或者与其结合使用。计算机可读存储介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。计算机可读存储介质可以包含在任意装置中；也可以单独存在，而未装配入该装置中。

此外，根据本公开的示例性实施例，还提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的示例性实施例的即时定位与建图方法。

以上已经结合图1至图11对根据本公开的示例性实施例的即时定位与建图方法进行了描述。在下文中，将参照图12至图14对根据本公开的示例性实施例的即时定位与建图装置及其单元进行描述。

参照图12，即时定位与建图装置包括图像获取单元121、场景识别单元122和位姿计算单元123。

图像获取单元121被配置为获取通过相机输入的当前帧图像。

场景识别单元122被配置为对当前帧图像进行场景识别，获得当前帧图像在全局地图中的相似度最大的关键帧图像。

在本公开的示例性实施例中，场景识别单元122可包括：描述子获取单元(未示出)，被配置为获取当前帧图像的全局描述子；和关键帧查询单元(未示出)，被配置为基于当前帧图像的全局描述子在全局地图中查询与当前帧图像相似度最大的关键帧图像。

在本公开的示例性实施例中，关键帧查询单元可被配置为：计算全局地图中的每个关键帧图像的全局描述子与当前帧图像的全局描述子的距离；根据关键帧图像的全局描述子与当前帧图像的全局描述子的距离确定关键帧图像的全局描述子与当前帧图像的全局描述子的相似度。这里，关键帧图像的全局描述子与当前帧图像的全局描述子的距离越近，关键帧图像与当前帧图像的相似度越大。

在本公开的示例性实施例中，描述子获取单元可被配置为：通过基于交并比IOU的图像深度特征提取网络获取当前帧图像的全局描述子。

在本公开的示例性实施例中，所述装置还可包括提取网络训练单元(未示出)，被配置为：从训练图像获取锚点图像和正样本图像；根据锚点图像、正样本图像以及锚点图像和正样本图像之间的相似程度，对基于IOU的图像深度特征提取网络进行训练。在对基于IOU的图像深度特征提取网络进行训练时，可将锚点图像和正样本图像之间的IOU分数作为目标相似度；分别通过在线卷积神经网络和目标卷积神经网络对锚点图像和正样本图像进行特征提取，获得锚点特征和正样本特征；通过多层感知机将锚点特征和正样本特征从特征空间变换到度量空间；基于以往训练迭代过程中的正样本特征确定当前训练迭代的负样本特征；计算锚点特征、正样本特征和负样本特征之间的余弦距离作为相似度；基于相似度和目标相似度，通过交叉熵损失函数计算损失及梯度进行反传更新在线卷积神经网络；通过指数加权平均算法利用在线卷积神经网络的参数θ_Online对目标卷积神经网络的参数θ_Target进行更新；当在线卷积神经网络达到预设终止条件时，将在线卷积神经网络和目标卷积神经网络作为基于IOU的图像深度特征提取网络。

在本公开的示例性实施例中，提取网络训练单元可被配置为：从训练图像随机采样获得锚点图像；随机采样获得锚点图像和正样本图像的相似程度；从训练图像上采样与锚点图像的相似程度为所述获得的相似程度的图像作为正样本图像。

在本公开的示例性实施例中，提取网络训练单元可被配置为：在第一次训练迭代过程中，负样本特征为零；在第一次之后的每次训练迭代过程中，基于前一次训练迭代过程中的正样本特征和负样本特征确定当前训练迭代过程中的负样本特征。

在本公开的示例性实施例中，提取网络训练单元还可被配置为：在从训练图像获取锚点图像和正样本图像之后，对锚点图像和正样本图像中的一个或多个进行射影变换，将射影变换后的锚点图像和正样本图像分别作为锚点图像和正样本图像。

位姿计算单元123被配置为根据所述关键帧图像确定当前帧图像的相机位姿。

在本公开的示例性实施例中，位姿计算单元123可包括匹配关系获取单元和位姿计算子单元。匹配关系获取单元可被配置为获取当前帧图像和所述关键帧图像之间的特征点匹配关系。位姿计算子单元可被配置为基于当前帧图像和所述关键帧图像之间的特征点匹配关系计算当前帧图像的相机位姿。

在本公开的示例性实施例中，匹配关系获取单元可包括：三维点云获取单元，被配置为获取当前帧图像的局部三维点云和所述关键帧图像的全局三维点云；场景结构获取单元，被配置为基于当前帧图像的局部三维点云和所述关键帧图像的全局三维点云获得当前帧图像和所述关键帧图像的场景结构；和特征点匹配单元，被配置为基于当前帧图像和所述关键帧图像的场景结构获取当前帧图像和所述关键帧图像之间的特征点匹配关系。

在本公开的示例性实施例中，三维点云获取单元被配置为：获取当前帧图像的二维特征点和深度值；使用位姿先验将当前帧图像的二维特征点和深度值转换为当前帧图像的局部三维点云。

在本公开的示例性实施例中，三维点云获取单元可被配置为：基于所述关键帧图像的相机位姿，将所述关键帧图像的二维特征点和深度值转化为全局三维点云。

在本公开的示例性实施例中，特征点匹配单元可被配置为：通过三维位置编码器分别对局部三维点云和全局三维点云进行编码，得到局部高维特征和全局高维特征；获取当前帧图像的特征点描述子和所述关键帧图像的特征点描述子，并将局部高维特征和全局高维特征、以及当前帧图像的特征点描述子和所述关键帧图像的特征点描述子输入到特征点匹配网络，获得当前帧图像和所述关键帧图像之间的特征点匹配关系。

在本公开的示例性实施例中，位姿计算子单元可被配置为：基于当前帧图像和所述关键帧图像之间的特征点匹配关系通过局部光束平差法或全局光束平差法计算当前帧图像的相机位姿。

参照图13，即时定位与建图装置1300包括图像获取单元131、图像跟踪单元132、跟踪状态获取单元133、关键帧确定单元134、第一计算单元135、第二计算单元136、位姿更新单元137、关键帧搜索单元138、匹配关系获取单元139和第三计算单元1310。

图像获取单元131被配置为获取通过相机输入的当前帧图像。

图像跟踪单元132被配置为对当前帧图像进行跟踪。

跟踪状态获取单元133被配置为在跟踪成功的情况下，获取当前帧图像与至少前一帧图像之间的跟踪状态。

关键帧确定单元134被配置为基于当前帧图像与至少前一帧图像之间的跟踪状态，确定是否将当前帧图像作为关键帧图像。

第一计算单元135被配置为当确定不将当前帧图像作为关键帧图像时，基于当前帧图像与至少前一帧图像之间的特征点匹配关系，通过局部光束平差法计算当前帧图像的相机位姿。

第二计算单元136被配置为当确定将当前帧图像作为关键帧图像时，将当前帧图像加入到全局地图中，基于全局地图中的所有的关键帧图像之间的特征点匹配关系，通过全局光束平差法计算每个关键帧图像的相机位姿。

位姿更新单元137被配置为基于每个关键帧图像的相机位姿对非关键帧图像的相机位姿进行更新。

关键帧搜索单元138被配置为在跟踪失败的情况下，对当前帧图像进行场景识别，获得当前帧图像在全局地图中的相似度最大的关键帧图像。

匹配关系获取单元139被配置为获取当前帧图像和所述关键帧图像之间的特征点匹配关系。

第三计算单元1310被配置为基于当前帧图像和所述关键帧图像之间的特征点匹配关系计算当前帧图像的相机位姿。

参照图14，即时定位与建图装置包括图像获取单元141、关键帧选择单元142、匹配关系获取单元143和位姿计算子单元144。

图像获取单元141被配置为获取通过相机输入的当前帧图像。

关键帧选择单元142被配置为确定与当前帧图像具有最大相似度的关键帧图像。

匹配关系获取单元143被配置为获取当前帧图像和所述关键帧图像之间的特征点匹配关系。

在本公开的示例性实施例中，匹配关系获取单元143可包括：三维点云获取单元，被配置为获取当前帧图像的局部三维点云和所述关键帧图像的全局三维点云；场景结构获取单元，被配置为基于当前帧图像的局部三维点云和所述关键帧图像的全局三维点云获得当前帧图像和所述关键帧图像的场景结构；和特征点匹配单元，被配置为基于当前帧图像和所述关键帧图像的场景结构获取当前帧图像和所述关键帧图像之间的特征点匹配关系。

在本公开的示例性实施例中，三维点云获取单元可被配置为：获取当前帧图像的二维特征点和深度值；使用位姿先验将当前帧图像的二维特征点和深度值转换为当前帧图像的局部三维点云。

位姿计算子单元144被配置为基于当前帧图像和所述关键帧图像之间的特征点匹配关系计算当前帧图像的相机位姿。

在本公开的示例性实施例中，位姿计算子单元144可被配置为：基于当前帧图像和所述关键帧图像之间的特征点匹配关系通过局部光束平差法或全局光束平差法计算当前帧图像的相机位姿。

以上已经结合图12至图14对根据本公开的示例性实施例的即时定位与建图装置进行了描述。接下来，结合图15对根据本公开的示例性实施例的计算装置进行描述。

图15示出根据本公开的示例性实施例的计算装置的示意图。

参照图15，根据本公开的示例性实施例的计算装置15，包括存储器151和处理器152，所述存储器151上存储有计算机程序，当所述计算机程序被处理器152执行时，实现根据本公开的示例性实施例的即时定位与建图方法。

在本公开的示例性实施例中，当所述计算机程序被处理器152执行时，可实现以下步骤：获取通过相机输入的当前帧图像；对当前帧图像进行场景识别，获得当前帧图像在全局地图中的相似度最大的关键帧图像；获取当前帧图像和所述关键帧图像之间的特征点匹配关系；基于当前帧图像和所述关键帧图像之间的特征点匹配关系计算当前帧图像的相机位姿。

本公开实施例中的计算装置可以包括但不限于诸如移动电话、笔记本电脑、PDA(个人数字助理)、PAD(平板电脑)、台式计算机等的装置。图15示出的计算装置仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

以上已参照图1至图15描述了根据本公开的示例性实施例的即时定位与建图方法及装置。然而，应该理解的是：图12至图14中所示的即时定位与建图装置及其单元可分别被配置为执行特定功能的软件、硬件、固件或上述项的任意组合，图15中所示的计算装置并不限于包括以上示出的组件，而是可根据需要增加或删除一些组件，并且以上组件也可被组合。

根据本公开的示例性实施例的即时定位与建图方法及装置，通过获取通过相机输入的当前帧图像；确定与当前帧图像具有相似度的关键帧图像；获取当前帧图像和所述关键帧图像之间的特征点匹配关系；基于当前帧图像和所述关键帧图像之间的特征点匹配关系计算当前帧图像的相机位姿，从而对于从相机捕获得到的图像，既可以通过传统的算法提取特征点和描述子进行跟踪，然后通过光束平差法计算相机位姿；又能够通过深度学习模型进行回环检测和重定位，对从相机捕获得到的当前帧图像确定最相似的关键帧图像，并计算当前帧图像和确定的关键帧图像之间的特征点匹配关系(即，数据关联)。

尽管已经参照其示例性实施例具体显示和描述了本公开，但是本领域的技术人员应该理解，在不脱离权利要求所限定的本公开的精神和范围的情况下，可以对其进行形式和细节上的各种改变。

Claims

1.一种即时定位与建图方法，包括：

获取通过相机输入的当前帧图像；

对当前帧图像进行场景识别，获得当前帧图像在全局地图中的相似度最大的关键帧图像；

根据所述关键帧图像确定当前帧图像的相机位姿。

2.根据权利要求1所述的方法，其中，根据所述关键帧图像确定当前帧图像的相机位姿的步骤包括：

获取当前帧图像和所述关键帧图像之间的特征点匹配关系；

基于当前帧图像和所述关键帧图像之间的特征点匹配关系计算当前帧图像的相机位姿。

3.根据权利要求1所述的方法，其中，对当前帧图像进行场景识别的步骤包括：

获取当前帧图像的全局描述子；

基于当前帧图像的全局描述子在全局地图中查询与当前帧图像相似度最大的关键帧图像。

4.根据权利要求3所述的方法，其中，基于当前帧图像的全局描述子在全局地图中查询与当前帧图像相似度最大的关键帧图像的步骤包括：

计算全局地图中的每个关键帧图像的全局描述子与当前帧图像的全局描述子的距离；

根据关键帧图像的全局描述子与当前帧图像的全局描述子的距离确定关键帧图像的全局描述子与当前帧图像的全局描述子的相似度，

其中，关键帧图像的全局描述子与当前帧图像的全局描述子的距离越近，关键帧图像与当前帧图像的相似度越大。

5.根据权利要求2所述的方法，其中，获取当前帧图像和所述关键帧图像之间的特征点匹配关系的步骤包括：

获取当前帧图像的局部三维点云和所述关键帧图像的全局三维点云；

基于当前帧图像的局部三维点云和所述关键帧图像的全局三维点云获得当前帧图像和所述关键帧图像的场景结构；

基于当前帧图像和所述关键帧图像的场景结构获取当前帧图像和所述关键帧图像之间的特征点匹配关系。

6.根据权利要求5所述的方法，其中，获取当前帧图像的局部三维点云的步骤包括：

获取当前帧图像的二维特征点和深度值；

使用位姿先验将当前帧图像的二维特征点和深度值转换为当前帧图像的局部三维点云。

7.根据权利要求5所述的方法，其中，获取所述关键帧图像的全局三维点云的步骤包括：

基于所述关键帧图像的相机位姿，将所述关键帧图像的二维特征点和深度值转化为全局三维点云。

8.根据权利要求7所述的方法，其中，基于当前帧图像和所述关键帧图像的场景结构获取当前帧图像和所述关键帧图像之间的特征点匹配关系的步骤包括：

通过三维位置编码器分别对局部三维点云和全局三维点云进行编码，得到局部高维特征和全局高维特征；

获取当前帧图像的特征点描述子和所述关键帧图像的特征点描述子，并将局部高维特征和全局高维特征、以及当前帧图像的特征点描述子和所述关键帧图像的特征点描述子输入到特征点匹配网络，获得当前帧图像和所述关键帧图像之间的特征点匹配关系。

9.根据权利要求2所述的方法，其中，基于当前帧图像和所述关键帧图像之间的特征点匹配关系计算当前帧图像的相机位姿的步骤包括：

基于当前帧图像和所述关键帧图像之间的特征点匹配关系通过局部光束平差法或全局光束平差法计算当前帧图像的相机位姿。

10.根据权利要求3所述的方法，其中，获取当前帧图像的全局描述子的步骤包括：

通过基于交并比IOU的图像深度特征提取网络获取当前帧图像的全局描述子。

11.根据权利要求10所述的方法，还包括：

对基于IOU的图像深度特征提取网络进行训练，

其中，对基于IOU的图像深度特征提取网络进行训练的步骤包括：

从训练图像获取锚点图像和正样本图像；

根据锚点图像、正样本图像以及锚点图像和正样本图像之间的相似程度，对基于IOU的图像深度特征提取网络进行训练。

12.根据权利要求11所述的方法，其中，从训练图像获取锚点图像和正样本图像的步骤包括：

从训练图像随机采样获得锚点图像；

随机采样获得锚点图像和正样本图像的相似程度；

从训练图像上采样与锚点图像的相似程度为所述获得的相似程度的图像作为正样本图像。

13.根据权利要求11或12所述的方法，锚点图像和正样本图像之间的相似程度为IOU。

14.根据权利要求11所述的方法，从训练图像获取锚点图像和正样本图像之后，还包括：

对锚点图像和正样本图像中的一个或多个进行射影变换。

15.一种即时定位与建图方法，包括：

获取通过相机输入的当前帧图像；

确定与当前帧图像具有最大相似度的关键帧图像；

获取当前帧图像和所述关键帧图像之间的特征点匹配关系；

16.根据权利要求15所述的方法，其中，获取当前帧图像和所述关键帧图像之间的特征点匹配关系的步骤包括：

17.一种即时定位与建图装置，包括：

图像获取单元，被配置为获取通过相机输入的当前帧图像；

场景识别单元，被配置为对当前帧图像进行场景识别，获得当前帧图像在全局地图中的相似度最大的关键帧图像；和

位姿计算单元，被配置为根据所述关键帧图像确定当前帧图像的相机位姿。

18.一种即时定位与建图装置，包括：

图像获取单元，被配置为获取通过相机输入的当前帧图像；

关键帧选择单元，被配置为确定与当前帧图像具有最大相似度的关键帧图像；

匹配关系获取单元，被配置为获取当前帧图像和所述关键帧图像之间的特征点匹配关系；和

位姿计算子单元，被配置为基于当前帧图像和所述关键帧图像之间的特征点匹配关系计算当前帧图像的相机位姿。

19.一种存储有计算机程序的计算机可读存储介质，其中，当所述计算机程序被处理器执行时，实现权利要求1至16中任一项所述的即时定位与建图方法。

20.一种计算装置，包括：

至少一个处理器；

至少一个存储器，存储有计算机程序，当所述计算机程序被所示至少一个处理器执行时，实现权利要求1至16中任一项所述的即时定位与建图方法。