CN116734834A

CN116734834A - 应用于动态场景的定位建图方法、装置和智能设备

Info

Publication number: CN116734834A
Application number: CN202310637010.5A
Authority: CN
Inventors: 曾欣宇; 贺颖; 于非
Original assignee: Guangdong Provincial Laboratory Of Artificial Intelligence And Digital Economy Shenzhen
Current assignee: Guangdong Provincial Laboratory Of Artificial Intelligence And Digital Economy Shenzhen
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-09-12

Abstract

本申请适用于智能行驶技术领域，提供了一种应用于动态场景的定位建图方法、装置和智能设备，包括：获取目标图像；将目标图像输入至基于预设损失函数训练完成的多任务神经网络模型，获得特征点信息集与语义分割结果集，特征点信息集中包括提取的特征点的方向信息；基于语义分割结果集，对特征点信息集进行第一层离群点剔除，得到目标特征点信息集，第一层离群点剔除用于剔除目标图像中动态物体的特征点信息；基于方向信息，对目标特征点信息集中的特征点进行匹配，得到目标匹配特征对集；基于目标匹配特征对集进行相机位姿估计，并根据位姿估计的结果完成相机的定位及地图构建。本申请可减少定位漂移误差，提高动态场景下定位及建图的准确性。

Description

应用于动态场景的定位建图方法、装置和智能设备

技术领域

本申请涉及智能行驶技术领域，尤其涉及一种应用于动态场景的定位建图方法、装置和智能设备。

背景技术

即时定位建图与地图构建(Simultaneous localization and mapping，SLAM)***的目标是为室内外机器人或无人驾驶汽车提供一个用于自动化导航的地图以及自身在地图中的位置。随着深度学习的快速发展，众多基于深度神经网络被嵌入到传统基于纯数学的***之中，以提高***的鲁棒性和准确性。但是，复杂的环境带来了新的挑战。例如，在实际场景中环境会动态变化，场景中的动态物体会干扰地图的构建，同时也影响定位效果。

现有的定位建图***在面对复杂的动态场景下容易产生极大的定位漂移误差。如何减少定位漂移误差，提高动态场景下定位及建图的准确性，是当前需要考虑的问题。

发明内容

本申请实施例提供了一种应用于动态场景的定位建图方法、装置和智能设备，可以解决大的深度分辨率相机在使用时会产生过大数据量，从而影响***性能，导致***性能效率不高的问题。

第一方面，本申请实施例提供了一种应用于动态场景的定位建图方法，所述定位建图方法包括：

获取目标图像，所述目标图像为目标场景的彩色图像；

将所述目标图像输入至基于预设损失函数训练完成的多任务神经网络模型，获得特征点信息集与语义分割结果集，所述特征点信息集中包括提取的特征点的方向信息；

基于所述语义分割结果集，对所述特征点信息集进行第一层离群点剔除，得到目标特征点信息集，所述第一层离群点剔除用于剔除所述目标图像中动态物体的特征点信息；

基于所述方向信息，对所述目标特征点信息集中的特征点进行匹配，得到目标匹配特征对集；

基于所述目标匹配特征对集进行相机位姿估计，并根据估计的位姿完成所述相机的定位及地图构建。

在第一方面的一种可能的实现方式中，在所述将所述目标图像输入至基于预设损失函数训练完成的多任务神经网络模型之前，包括：

构建多任务神经网络模型，所述多任务神经网络模型包括方向估计网络、特征提取网络和语义分割网络，其中，所述方向估计网络用于提取所述目标图像中的方向信息，所述特征提取网络用于提取所述目标图像中的特征点，所述语义分割网络用于对所述目标图像进行语义分割；

获取训练样本图像集；

对所述训练样本图像集中的样本图像进行预处理，得到预处理样本图像；

将所述预处理样本图像输入至所述语义分割网络，获取语义分割结果，并基于第一预设损失函数训练所述语义分割网络；

将所述预处理样本图像输入至所述方向估计网络，提取所预处理样本图像中的方向信息，并基于第二预设损失函数训练所述方向估计网络；

将包含所述方向信息的所述预处理样本图像输入至所述特征提取网络，提取所预处理样本图像中的特征点，并基于第三预设损失函数训练所述特征提取网络；

基于预设损失函数训练所述多任务神经网络模型，所述预设损失函数根据训练过程中所述语义分割网络的第一损失、所述方向估计网络的第二损失以及所述特征提取网络的第三损失确定。

在第一方面的一种可能的实现方式中，所述对所述训练样本图像集中的样本图像进行预处理，得到预处理样本图像，包括：

将所述样本图像进行金字塔型缩放，得到样本图像金字塔。

在第一方面的一种可能的实现方式中，所述基于预设损失函数训练所述多任务神经网络模型，包括：

根据下式计算所述多任务神经网络模型的损失LOSS：

Loss＝βL_sum+(1-)·(L_kp+_ori)

其中，L_sum表示所述第一损失，L_ori表示所述第二损失，L_kp表示所述第三损失，β是预设权重。

在第一方面的一种可能的实现方式中，所述基于第一预设损失函数训练所述语义分割网络，包括：

根据下式计算所述第一损失L_sum：

其中，H表示预处理样本图像S的高，W表示S的宽，Q表示S对应的真值图像，BCELoss为所述第一预设损失函数，Q_ij表示像素点(i,j)的真值标签数据。

在第一方面的一种可能的实现方式中，所述方向估计网络由旋转不变形卷积网络簇组成，所述基于第二预设损失函数训练所述方向估计网络，包括：

根据下式计算所述第二损失L_ori：

其中，H表示预处理样本图像S的高，W表示S的宽，G表示所述旋转不变形卷积网络簇的数量，k表示第k簇，1≤k≤G，O为最佳方向向量，表示第a张图的第k簇所生成的坐标ij像素点对应的最佳方向向量，/>表示第b张图的第k簇所生成的坐标ij像素点对应的最佳方向向量，最佳方向向量是指经过softmax函数后的方向向量；

所述基于第三预设损失函数训练所述特征提取网络L_kp，包括：

根据下式计算所述第三损失L_kp：

其中，I^a表示图像a，I^b表示图像b，T_gt表示仿射变换矩阵，l表示所述样本图像金字塔的层级，L为所述样本图像金字塔的总层数，λ为预设参数，N表示滑动窗口大小，N_l表示第l层滑动窗口大小，L_ip(I^a,I^b,T_gt,N_l)表示图像a与图像b之间特征点的对应关系。

在第一方面的一种可能的实现方式中，所述基于所述方向信息，对所述目标特征点信息集中的特征点进行匹配，得到目标匹配特征对集，包括：

获取所述目标匹配特征对集中每一特征点的描述子；

基于所述描述子，对所述目标特征点信息集中的特征点进行匹配，获取包含匹配对的初始匹配特征对集；

基于所述方向信息，统计所述初始匹配特征对集中所有匹配对之间的方向差，确定目标角度差，所述目标角度差为所述初始匹配特征对集中方向差值最小的三个角度差；

基于所述目标角度差，对所述初始匹配特征对集中匹配对进行第二层离群点剔除，得到目标匹配特征对集，所述第二层离群点剔除用于将不处于所述目标角度差之中的所有匹配对作为离群点剔除。

第二方面，本申请实施例提供了一种应用于动态场景的定位建图装置，所述定位建图装置包括：

目标图像获取单元，用于获取目标图像；

特征语义获取单元，用于将所述目标图像输入至基于预设损失函数训练完成的多任务神经网络模型，获得特征点信息集与语义分割结果集，所述特征点信息集中包括提取的特征点的方向信息；

第一层剔除单元，用于基于所述语义分割结果集，对所述特征点信息集进行第一层离群点剔除，得到目标特征点信息集，所述第一层离群点剔除用于剔除所述目标图像中动态物体的特征点信息；

特征点匹配单元，用于基于所述方向信息，对所述目标特征点信息集中的特征点进行匹配，得到目标匹配特征对集；

定位及建图单元，用于基于所述目标匹配特征对集进行相机位姿估计，并根据估计的位姿完成所述相机的定位及地图构建。

第三方面，本申请实施例提供了一种智能设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的定位建图方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的定位建图方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在智能设备上运行时，使得智能设备执行如上述第一方面所述的定位建图方法。

本申请实施例中，通过获取目标图像，将所述目标图像输入至基于预设损失函数训练完成的多任务神经网络模型，获得特征点信息集与语义分割结果集，所述特征点信息集中包括提取的特征点的方向信息，基于所述语义分割结果集，对所述特征点信息集进行第一层离群点剔除，得到目标特征点信息集，所述第一层离群点剔除用于剔除所述目标图像中动态物体的特征点信息，基于所述方向信息，对所述目标特征点信息集中的特征点进行匹配，得到目标匹配特征对集，基于所述目标匹配特征对集进行相机位姿估计，并根据估计的位姿完成所述相机的定位及地图构建。本申请中基于预设损失函数训练得到的多任务神经网络模型时进行高精度的语义分割与特征提取，有利于剔除动态物体的特征点，可提高特征提取的准确性和有效性，从而可减少定位漂移误差，提高动态场景下定位及建图的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的应用于动态场景的定位建图方法的实现流程图；

图2是本申请实施例提供的应用于动态场景的定位建图方法中构建及训练多任务神经网络模型的具体实现流程图；

图3是本申请实施例提供的应用于动态场景的定位建图方法中步骤S104的具体实现流程图；

图4是本申请实施例提供的应用于动态场景的定位建图装置的结构框图；

图5是本申请实施例提供的智能设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请各个方法实施例提供了一种定位建图方法适用于应用于动态场景、需要定位建图的各种类型智能设备，具体可以为智能车载设备、智能机器人。本申请对智能设备的类型不做任何限定。

图1示出了本申请实施例提供的应用于动态场景的定位建图方法的实现流程，该方法流程包括步骤S101至S105。各步骤的具体实现原理如下：

S101：获取目标图像。

所述目标图像为目标场景的彩色图像。具体地可以为单个彩色RGB相机传感器图像。

S102：将所述目标图像输入至基于预设损失函数训练完成的多任务神经网络模型，获得特征点信息集与语义分割结果集，所述特征点信息集中包括提取的特征点的方向信息。

所述多任务神经网络模型包括方向估计网络、特征提取网络和语义分割网络，其中，所述方向估计网络用于提取所述目标图像中的方向信息，所述特征提取网络用于提取所述目标图像中的特征点，所述语义分割网络用于对所述目标图像进行语义分割。

在本申请实施例中，将所述目标图像输入至基于预设损失函数训练完成的多任务神经网络模型之前，对所述目标图像进行预处理，将预处理后的目标图像输入至所述多任务神经网络模型中。

在一种可能的实施方式中，将目标图像进行金字塔型缩放，得到目标图像金字塔，将目标图像金字塔输入至所述多任务神经网络模型中。

上述方向估计网络由旋转不变形卷积网络簇组成，本实施例中，将目标图像金字塔的第一层输入至语义分割网络，将目标图像金字塔输入至旋转不变形卷积网络簇用于提取潜在的方向信息，将提取方向信息后的目标图像金字塔输入至特征提取网络。

所述方向估计网络由旋转不变形卷积网络簇组成，在目标图像金字塔经过旋转不变卷积网络簇之后，可以得到旋转特征簇金字塔。针对坐标信息和方向信息结构的差异，本专利融合REKD特征提取器的做法，分别对特征簇金字塔进行通道上和数值上的合并。特征点坐标的提取依赖更多的数据，需要更高的维度，因此使用通道合并的结果进行预测。将通过旋转不变形网络簇后的特征金字塔进行插值放缩到相同大小后，对所有特征图进行池化造作并在通道上进行拼接合并，随后将得到的特征图输入一个卷积核大小为1的卷积层中得到每个特征点像素的得分值Score。特征点坐标将通过该特征值图和一个先验阈值θ过滤得到，设图像中像素坐标对应的分数值为S_i,j，则最终特征点图Key_i,j计算方式如下:

i、j为像素点下标，特征点的方向估计则侧重于特征强度，因此在合并金字塔特征时使用权重相加的方式进行叠加。将金字塔特征图同样进行多线性差值后在通道上进行池化操作，目的最大化特征点在该通道所代表的方向上的强度。随后将所有特征图放缩到相同分辨率后进行数值上的相加并在每个像素对应的特征向量上进行Softmax操作以得到特征点方向图O。方向特征向量中的每个数值代表着对应方向的概率值，值越高代表该像素的方向就是对应数值代表的方向。例如，假设将360度的方向按120度进行分割，可以区分为3个通道，对应的方向分别为0，120，240。设神经网络输出的概率值分别为0.1，0.8，0.1，则对应像素所代表的方向大概率为120度。

作为本申请的一个实施例，图2示出了本申请实施例提供的应用于动态场景的定位建图方法中，在所述将所述目标图像输入至基于预设损失函数训练完成的多任务神经网络模型之前，构建及训练所述多任务神经网络模型的具体实现流程，详述如下：

A1：构建多任务神经网络模型，所述多任务神经网络模型包括方向估计网络、特征提取网络和语义分割网络，其中，所述方向估计网络用于提取所述目标图像中的方向信息，所述特征提取网络用于提取所述目标图像中的特征点，所述语义分割网络用于对所述目标图像进行语义分割。

A2：获取训练样本图像集。

A3：对所述训练样本图像集中的样本图像进行预处理，得到预处理样本图像。

A4：将所述预处理样本图像输入至所述语义分割网络，获取语义分割结果，并基于第一预设损失函数训练所述语义分割网络。

在本实施例中，将所述样本图像进行金字塔型缩放，得到样本图像金字塔。将样本图像金字塔。

本实施例中，语义分割网络采取了当前主流的UNet架构，包含着两个模块编码器(Encoder)、解码器(Decoder)和一个用于连接两者的连接模块(Neck)。在本发明中使用ResNet作为编码器，旋转图像特征经过四层Res层提取网络，得到四种不同分辨率的特征图，简称为P1,P2,P3,P4，用于解码器的合成输出。随后，通过一个中间层模块将P4特征进行转换，其中包括两个卷积神经网络序列，每个序列中包含着一个二维卷积网络、一个BatchNorm层和一个ReLU激活层。在经过中间层模块后得到特征图U4，随后将其与特征P4进行拼接输入到上采样模块中得到特征图U3，重复上述操作最终得到与输入特征相同大小的特征图U1。最后，将U1输入到一个语义提取模块中(卷积神经网络序列)得到最终的语义分割图S。

作为本申请一种可能的实施方式，所述基于第一预设损失函数训练所述语义分割网络，包括：

根据下式计算所述第一损失L_sum：

其中，H表示预处理样本图像S的高，W表示S的宽，Q表示S对应的真值图像，BCELoss为所述第一预设损失函数，Q_ij表示像素点(i,j)的真值标签数据，i、j为像素点下标。

A5：将所述预处理样本图像输入至所述方向估计网络，提取所预处理样本图像中的方向信息，并基于第二预设损失函数训练所述方向估计网络。

作为本申请一种可能的实施方式，所述基于第二预设损失函数训练所述方向估计网络，包括：

根据下式计算所述第二损失L_ori：

其中，H表示预处理样本图像S的高，W表示S的宽，G表示所述旋转不变形卷积网络簇的数量，k表示第k簇，1≤k≤G，O为最佳方向向量，最佳方向向量是指经过softmax函数后的方向向量，表示第a张图的第k簇所生成的坐标ij像素点对应的最佳方向向量，/>表示第b张图的第k簇所生成的坐标ij像素点对应的最佳方向向量。

本实施例中，首先用矩阵T将得到的旋转向量进行直方图对齐，再使用交叉熵的方式计算旋转簇中每一个组所有像素的方向向量上的损失L_ori。

作为本申请一种可能的实施方式，所述基于第三预设损失函数训练所述特征提取网络L_kp，包括：

根据下式计算所述第三损失L_kp：

I^a表示图像a，I^b表示图像b，T_gt表示仿射变换矩阵，l表示所述样本图像金字塔的层级，L为所述样本图像金字塔的总层数，λ为预设参数，N表示滑动窗口大小，N_l表示第l层滑动窗口大小，L_ip(I^a,I^b,T_gt,N_l)表示图像a与图像b之间特征点的对应关系。

A6：将包含所述方向信息的所述预处理样本图像输入至所述特征提取网络，提取所预处理样本图像中的特征点，并基于第三预设损失函数训练所述特征提取网络。

A7：基于预设损失函数训练所述多任务神经网络模型，所述预设损失函数根据训练过程中所述语义分割网络的第一损失、所述方向估计网络的第二损失以及所述特征提取网络的第三损失确定。

作为本申请一种可能的实施方式，根据下式计算所述多任务神经网络模型的损失LOSS：

Loss＝βL_sum+(1-β)·(L_kp+L_ori) (5)

S103：基于所述语义分割结果集，对所述特征点信息集进行第一层离群点剔除，得到目标特征点信息集，所述第一层离群点剔除用于剔除所述目标图像中动态物体的特征点信息。

本实施例中，基于所述语义分割结果集，对场景中动态物体的特征点进行剔除，通过语义信息可以轻松获取当前场景中定义好的动态物体区域，如车、行人，将对应坐标的特征点从所述特征点信息集中剔除，完成第一层离群点剔除。

S104：基于所述方向信息，对所述目标特征点信息集中的特征点进行匹配，得到目标匹配特征对集。

作为本申请一种可能的实施方式，图3示出了本申请实施例提供的应用于动态场景的定位建图方法中步骤S104的具体实现流程，详述如下：

B1：获取所述目标匹配特征对集中每一特征点的描述子。描述子是一个用于描述像素点所代表的含义的向量，用于后续的特征匹配，对比两个特征点的描述子之间的距离，距离越近的描述子所代表的特征点越相似。

B2：基于所述描述子，对所述目标特征点信息集中的特征点进行匹配，获取包含匹配对的初始匹配特征对集。

本实施例中，使用BFMatcher对浮点类型的描述子进行匹配。

B3：基于所述方向信息，统计所述初始匹配特征对集中所有匹配对之间的方向差，确定目标角度差，所述目标角度差为所述初始匹配特征对集中方向差值最小的三个角度差。

具体地，将所述初始匹配特征对集中所有匹配对之间的方向差从大到小排序，将排序末尾的三个角度差确定为目标角度差。

B4：基于所述目标角度差，对所述初始匹配特征对集中匹配对进行第二层离群点剔除，得到目标匹配特征对集，所述第二层离群点剔除用于将不处于所述目标角度差之中的所有匹配对作为离群点剔除。

针对目前动态环境下的即时定位与地图构建***还以赖于传统基于人工先验的特征提取器，本申请实施例在提取语义信息的同时，提取图像中的基于学习的稠密特征点及其描述子，在对特征点的描述方面更具鲁棒性。同时，提取的特征点充分考虑了智能设备在运动时旋转带来的不稳定性，本方法提取的特征点包含着其他基于学习的特征点所不具有的方向信息，进一步提高整个即时定位与地图构建***的稳定性。

S105：基于所述目标匹配特征对集进行相机位姿估计，并根据估计的位姿完成所述相机的定位及地图构建。

本实施例中，根据所述目标匹配特征对集中的匹配对，进行相机位姿计算，通过追踪局部地图优化所述相机的位姿，完成所述相机的定位及地图构建。如果当前本地已存在地图，将提取的特征点与本地地图进行匹配。

本实施例中，在***中共存在三种跟踪模型，分别为运动模型、关键帧模型和重定位模型，该三种模型为前后递进关系，在上一种失效的情况时进行后一种追踪。例如，运动模型将假设搭载相机的自动化设备的速度方向是匀速进行的，通过上一帧的速度和位姿估计当前帧的位姿随后进行匹配，具体流程如下：使用当前的位姿R,t对上一帧的特征点进行跟踪，将上一帧的3d特征点通过相机内参投影到当前相机的2d坐标系中，并在给定阈值的半径内搜索匹配点。关键帧模型则将当前帧图像直接本地地图保存的最近的关键帧使用FBoW词袋模型进行图像匹配，再通过重构投影误差对Perspective-n-Point(PnP：指在已知相机内参的前提下，通过N对匹配的图像坐标以及它们的世界坐标计算相机的位姿)问题进行优化位姿：

其中，u代表投影的像素坐标，为相机内参，T为相机位姿，T*代表着新计算的相机位姿，P为关键帧中关键点的三维空间坐标，P_c代表着关键帧空间中的第c个关键点坐标，n为关键点总数，s则为放缩系数。

重定位模型则将当前帧与地图保存的所有关键帧进行FBoW词袋模型匹配，相机位姿估计也经过最小重构误差对PnP问题进行求解。

在一种可能的实施方式中，在建图过程中进行回环优化，通过回环优化检测闭环回路，寻找共视点后合并位姿以减少地图容量并提高定位和建图效果。回环检测依赖于FBoW词袋模型，寻找当前关键帧的共视关键帧并计算两者之间的词袋相似度，如果相似度高于人工给定的先验阈值的关键帧数量超过一个给定的阈值则说明检测到回环。

本实施例中回环优化的具体实施流程可参照现有技术，此处不赘述。但需说明的是，本实施例中，在建图和回环优化过程都需要使用词袋模型，本申请中使用FBoW词袋模型进行训练和代替原始***中的DBoW2词袋模型的原因是，DBoW2词袋对浮点数类型数据并不友好，对于浮点类型数据的深度稠密描述子来说运行效率低，而FBoW原生支持浮点数类型，并且接口良好移植方便；另外DBoW2词袋模型是基于文本数据，***启动读取字典时会消耗大量时间，而FBoW的字典属于二进制流数据，并且FBoW还具备硬件加速功能，在字典的加载和计算上明显优于DBoW2词袋模型。对于FBoW在本发明中的使用，首先需要针对不同场景收集训练数据集，例如室外自动驾驶场景采用KITTI数据集，室内场景则使用TUM数据集。随后使用前端模块中相同的特征提取器对数据集中的图像进行特征提取后，对每一幅图像所包含的描述子集合进行FBoW词袋训练，最后将字典保存为二进制文件到磁盘供即使定位与地图构建***使用。

本申请所使用的新的词袋模型，适配了浮点类型的描述子格式并且支持硬件加速，提高了***定位及建图的执行速度。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的定位建图方法，图4示出了本申请实施例提供的应用于动态场景的定位建图装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图4，该应用于动态场景的定位建图装置包括：目标图像获取单元41，特征语义获取单元42，第一层剔除单元43，特征点匹配单元44，定位及建图单元45，其中：

目标图像获取单元41，用于获取目标图像；

特征语义获取单元42，用于将所述目标图像输入至基于预设损失函数训练完成的多任务神经网络模型，获得特征点信息集与语义分割结果集，所述特征点信息集中包括提取的特征点的方向信息；

第一层剔除单元43，用于基于所述语义分割结果集，对所述特征点信息集进行第一层离群点剔除，得到目标特征点信息集，所述第一层离群点剔除用于剔除所述目标图像中动态物体的特征点信息；

特征点匹配单元44，用于基于所述方向信息，对所述目标特征点信息集中的特征点进行匹配，得到目标匹配特征对集；

定位及建图单元45，用于基于所述目标匹配特征对集进行相机位姿估计，并根据估计的位姿完成所述相机的定位及地图构建。

作为本申请一种可能的实施方式，上述定位建图装置还包括：

模型构建单元，用于构建多任务神经网络模型，所述多任务神经网络模型包括方向估计网络、特征提取网络和语义分割网络，其中，所述方向估计网络用于提取所述目标图像中的方向信息，所述特征提取网络用于提取所述目标图像中的特征点，所述语义分割网络用于对所述目标图像进行语义分割；

样本获取单元，用于获取训练样本图像集；

预处理单元，用于对所述训练样本图像集中的样本图像进行预处理，得到预处理样本图像；

模型训练单元，用于将所述预处理样本图像输入至所述语义分割网络，获取语义分割结果，并基于第一预设损失函数训练所述语义分割网络；将所述预处理样本图像输入至所述方向估计网络，提取所预处理样本图像中的方向信息，并基于第二预设损失函数训练所述方向估计网络；将包含所述方向信息的所述预处理样本图像输入至所述特征提取网络，提取所预处理样本图像中的特征点，并基于第三预设损失函数训练所述特征提取网络；基于预设损失函数训练所述多任务神经网络模型，所述预设损失函数根据训练过程中所述语义分割网络的第一损失、所述方向估计网络的第二损失以及所述特征提取网络的第三损失确定。

作为本申请一种可能的实施方式，上述预处理单元具体用于：

将所述样本图像进行金字塔型缩放，得到样本图像金字塔。

作为本申请一种可能的实施方式，所述基于预设损失函数训练所述多任务神经网络模型，包括：

根据下式计算所述多任务神经网络模型的损失LOSS：

Loss＝βL_sum+(1-)·(L_kp+_ori)

根据下式计算所述第一损失L_sum：

/>

作为本申请一种可能的实施方式，所述方向估计网络由旋转不变形卷积网络簇组成，所述基于第二预设损失函数训练所述方向估计网络，包括：

根据下式计算所述第二损失L_ori：

根据下式计算所述第三损失L_kp：

作为本申请一种可能的实施方式，上述特征点匹配单元44包括：

描述子获取模块，用于获取所述目标匹配特征对集中每一特征点的描述子；

匹配模块，用于基于所述描述子，对所述目标特征点信息集中的特征点进行匹配，获取包含匹配对的初始匹配特征对集；

目标角度差确定模块，用于基于所述方向信息，统计所述初始匹配特征对集中所有匹配对之间的方向差，确定目标角度差，所述目标角度差为所述初始匹配特征对集中方向差值最小的三个角度差；

匹配对集确定模块，用于基于所述目标角度差，对所述初始匹配特征对集中匹配对进行第二层离群点剔除，得到目标匹配特征对集，所述第二层离群点剔除用于将不处于所述目标角度差之中的所有匹配对作为离群点剔除。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如图1至图3表示的任意一种应用于动态场景的定位建图方法的步骤。

本申请实施例还提供一种智能设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如图1至图3表示的任意一种应用于动态场景的定位建图方法的步骤。

本申请实施例还提供一种计算机程序产品，当该计算机程序产品在服务器上运行时，使得服务器执行实现如图1至图3表示的任意一种应用于动态场景的定位建图方法的步骤。

图5是本申请一实施例提供的智能设备的示意图。如图5所示，该实施例的智能设备5包括：处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52。所述处理器50执行所述计算机程序52时实现上述各个应用于动态场景的定位建图方法实施例中的步骤，例如图1所示的步骤S101至S105。或者，所述处理器50执行所述计算机程序52时实现上述各装置实施例中各模块/单元的功能，例如图4所示单元41至45的功能。

示例性的，所述计算机程序52可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器51中，并由所述处理器50执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机程序52在所述智能设备5中的执行过程。

所述智能设备5可以为智能机器人。所述智能设备5可包括，但不仅限于，处理器50、存储器51。本领域技术人员可以理解，图5仅仅是智能设备5的示例，并不构成对智能设备5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述智能设备5还可以包括输入输出设备、网络接入设备、总线等。

所述处理器50可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述智能设备5的内部存储单元，例如智能设备5的硬盘或内存。所述存储器51也可以是所述智能设备5的外部存储设备，例如所述智能设备5上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括所述智能设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述智能设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种应用于动态场景的定位建图方法，其特征在于，所述定位建图方法包括：

获取目标图像；

2.根据权利要求1所述的定位建图方法，其特征在于，在所述将所述目标图像输入至基于预设损失函数训练完成的多任务神经网络模型之前，包括：

获取训练样本图像集；

3.根据权利要求2所述的定位建图方法，其特征在于，所述对所述训练样本图像集中的样本图像进行预处理，得到预处理样本图像，包括：

将所述样本图像进行金字塔型缩放，得到样本图像金字塔。

4.根据权利要求3所述的定位建图方法，其特征在于，所述基于预设损失函数训练所述多任务神经网络模型，包括：

根据下式计算所述多任务神经网络模型的损失LOSS：

Loss＝βL_sum+(1-)·(L_kp+_ori)

5.根据权利要求4所述的定位建图方法，其特征在于，所述基于第一预设损失函数训练所述语义分割网络，包括：

根据下式计算所述第一损失L_sum：

6.根据权利要求4所述的定位建图方法，其特征在于，所述方向估计网络由旋转不变形卷积网络簇组成，所述基于第二预设损失函数训练所述方向估计网络，包括：

根据下式计算所述第二损失L_ori：

其中，H表示预处理样本图像S的高，W表示S的宽，G表示所述旋转不变形卷积网络簇的数量，k表示第k簇，1≤k≤G，O为最佳方向向量，表示第a张图的第k簇所生成的坐标ij像素点对应的最佳方向向量，/>Q表示第b张图的第k簇所生成的坐标ij像素点对应的最佳方向向量，最佳方向向量是指经过softmax函数后的方向向量；

根据下式计算所述第三损失L_kp：

7.根据权利要求1所述的定位建图方法，其特征在于，所述基于所述方向信息，对所述目标特征点信息集中的特征点进行匹配，得到目标匹配特征对集，包括：

获取所述目标匹配特征对集中每一特征点的描述子；

8.一种应用于动态场景的定位建图装置，其特征在于，所述定位建图装置包括：

目标图像获取单元，用于获取目标图像；

9.一种智能设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的定位建图方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的定位建图方法。