CN113313824A

CN113313824A - 一种三维语义地图构建方法

Info

Publication number: CN113313824A
Application number: CN202110394816.7A
Authority: CN
Inventors: 刘立林; 罗志宇
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-08-27
Anticipated expiration: 2041-04-13
Also published as: CN113313824B

Abstract

本发明属于地图构建技术领域，更具体地，涉及一种三维语义地图构建方法,包括可基于GPU并行处理的配准图像线程、局部地图与全局地图线程、语义地图线程、融合线程、全局线程；同时对场景图像进行位姿求解、语义分割、图像融合及匹配等计算处理，使得SLAM***实时性更强、地图构建速度更快，同时，在三维图像上融合语义信息，丰富地图的表现形式，以使无人机、机器人等无人移动平台设备可通过更多的维度理解场景地图，进而更加精准地控制运动轨迹，提高无人移动平台的性能。

Description

一种三维语义地图构建方法

技术领域

本发明属于地图构建技术领域，更具体地，涉及一种三维语义地图构建方法。

背景技术

SLAM(Simultaneouslocalizationand mapping，同步定位与即时构图)是通过传感器获取场景三维信息的一种技术，其能根据场景信息对自身进行定位以及环境区分。SLAM包括激光SLAM和视觉SLAM，激光SLAM中获取场景数据的传感器为激光雷达，一般用于航天及汽车工业，其精度高但成本也很高，视觉SLAM中通过相机获取场景图像数据，其成本较低，一般用于无人机、机器人自主导航领域。

在无人机、机器人领域，传统的地图不能满足其多样化的应用需求，随着深度传感器的发展，目前在无人机、机器人自主导航领域还广泛应用语义地图。语义地图通常包括空间属性信息，例如建筑物的平面结构，房间分布等，以及包括语义属性信息，如各个房间属性和功能，以及房间内的物体类别和位置信息等。语义地图构建的目标是精确地在地图上标记语义信息。

如中国专利CN111080659A公开了一种基于视觉信息的环境语义感知方法，包括：利用Kinect V1.0相机采集环境图像信息，得到配准后的彩色图及深度图；基于配准后的彩色图及深度图，通过ORB_SLAM2过程，根据每帧中提取的ORB特征点解算相机三维位姿，得到相机位姿信息；对每帧图像进行语义分割，生成语义颜色信息；同步根据输入的深度图和相机的内参矩阵生成点云；将语义颜色信息注册到点云中，得到局部语义点云结果；利用相机位姿信息与局部语义点云结果进行融合，得到新的全局语义点云信息；将融合后的全局语义点云信息用八叉树地图进行表示，得到最终的三维八叉树语义地图。但是在实施过程中发现，因其采用ORB特征提取，地图构建的速度不够快，会严重影响无人机或机器人的反应速度及运动轨迹的控制精度，使用体验不好。

发明内容

本发明为克服上述现有技术中的至少一个缺陷，提供一种三维语义地图构建方法，其基于GPU多线程处理，能够提高地图构建速度，实现实时地图构建。

为解决上述技术问题，本发明采用的技术方案是：

提供一种三维语义地图构建方法，包括：

可基于GPU(图形处理器)并行处理的配准图像线程、局部地图与全局地图线程、语义地图线程、融合线程、全局线程；

配准图像线程用于获取场景的彩色图像及深度图像，并对所述彩色图像及深度图像进行预处理，得到配准图像；

局部地图与全局地图线程用于根据配准图像与深度图像求解多帧图像之间的位姿，利用位姿、彩色图像、深度图像进行三维重建得到局部地图与全局地图；语义地图线程用于利用PSP Net(Pyramid Scene Parsing Network，金字塔场景解析网络)对多个配准图像进行语义分割，得到二维语义图像；

融合线程用于将二维语义图像分别与局部地图、全局地图融合，得到局部语义地图、全局语义地图；

全局线程用于对局部语义地图、全局语义地图进行匹配，得到全局一致性稠密语义地图。

本方案中通过基于GPU的多线程，同时对场景图像进行位姿求解、语义分割、图像融合及匹配等计算处理，使得SLAM***实时性更强、地图构建速度更快，同时，在三维图像上融合语义信息，丰富地图的表现形式，以使无人机、机器人等无人移动平台设备可通过更多的维度理解场景地图，进而更加精准地控制运动轨迹，提高无人移动平台的性能。

优选地，上述的配准图像线程具体包括：

对包括红外摄像头及彩色摄像头的深度相机进行标定，获取深度相机的内参以及外参；

分别利用深度相机中的红外摄像头、彩色摄像头获取多帧场景的深度图像与彩色图像；

根据外参与内参对深度图像与彩色图像进行配准，得到多帧配准图像。

优选地，上述的局部地图与全局地图线程包括：

对多帧配准图像进行块划分，得到多个图像块，其中相邻图像块之间存在帧堆叠；

使用基于GPU加速的SIFT(尺度不变特征变换)提取算法对每个图像块内的配准图像进行特征提取得到特征点，并选取一帧配准图像的坐标系作为世界坐标系；

根据GMS匹配算法对特征点进行匹配并滤除误匹配点，将块内关联性较好的保存为局部图像关联匹配M₁，将块内关联性较差的保存为全局图像关联匹配M₂；根据M₁与M₂利用高斯牛顿法求解各帧配准图像之间的位姿，并对当前位姿进行回环检测；

根据位姿及配准图像线程中得到的深度图像与彩色图像，对场景进行三维稠密重建，得到局部地图与全局地图。

优选地，上述的SIFT提取算法中特征点的幅值具体表示为：

方向具体表示为：

其中，A(x,y)为特征点的幅值大小，x与y为特征点在图像中的像素位置，I(x+1,y)、I(x-1,y)、I(x,y+1)、I(x,y-1)均为特征点在高斯差分金字塔中的相邻像素，θ(x,y)为特征点的指向方向。

优选地，上述的GMS匹配算法中的概率模型为：

特征点对的评估分数公式为：

其中，P为正确匹配与错误匹配的差异性，p_true为正确匹配，p_false为错误匹配，mean_true与mean_false分别为匹配正确与匹配错误的平均值，std_true与std_false分别为匹配正确与匹配错误的方差；|F_1i|为特征点匹配网格内的特征数量；i与j分别为两帧图像中匹配点区域，k为当前网格数，K为网格总数，

为单元对{i^k，j^k}之间的匹配数量。

优选地，上述的根据外参与内参对深度图像与彩色图像进行配准具体包括：

将深度图像中所有像素点的坐标向红外摄像头坐标系转换；

将红外摄像头坐标系下所有点的坐标向世界坐标系转换；

将世界坐标系下所有点的坐标向彩色摄像头坐标系转换；

将彩色摄像头坐标系下所有点的坐标映射到归一化平面的彩色平面；

得到红外摄像头与彩色摄像头之间的变换矩阵。

优选地，上述的语义地图线程具体包括：

对配准图像进行特征提取得到特征层；

对特征层进行池化，生成金字塔池化特征；

对金字塔池化特征进行展平、上采样；

与特征层进行CONCAT(合并)，经过卷积神经网络得到局部语义地图、全局语义地图。

优选地，上述的局部地图与全局地图线程中利用TSDF模型进行局部地图、全局地图的融合具体公式为：

去融合构建具体公式为：

其中，D(v)为体素的符号距离值，W(v)为体素权重值，d_i(v)与w_i(v)分别是体素到第i帧深度图像的投影距离与积分权重，

为更新后的体素符号距离值。

优选地，上述的融合线程中采用的融合模型为：

其中，C_i-1(o)与W_i-1(o)分别为第i帧对应的体素融合类别置信度和可靠性权值，

与

为第i帧图像中像素p的类别置信度和可靠性权值。

优选地，上述的全局线程中对局部语义地图、全局语义地图进行匹配的具体公式为：

去融合：

准确度计算公式为：

其中，W_local与W_global分别为局部语义地图、全局语义地图的权重值，Map(v，C_i-1(o))_local与Map(v，C_i-1(o))_global分别为局部语义地图、全局语义地图；S₁与S₂分别为利用meshlab工具测得的三维语义模型表面面积，S为利用meshlab测得的三维重建模型表面面积，k₁与k₂分别为S₁、S₂的权重系数。

与现有技术相比，有益效果是：

本发明中通过基于GPU加速的SIFT算法特征提取，其相较于传统的ORB特征提取，提取速度更快、鲁棒性更好；另外基于GPU的多线程处理，可同时对配准图像进行语义分割及位姿计算、图像融合，且会逐一释放融合完成的图像，以使得GPU具有足够的内存对图像进行实时的融合渲染，实现实时地图构建，其融合三维图像与语义信息，提高了无人机、机器人等无人移动平台对环境的理解能力，使得无人移动平台移动更加精准、灵活，提高产品的性能。

附图说明

图1是本发明实施例三维语义地图构建方法的局部地图与全局地图线程的流程方框示意图；

图2是本发明实施例三维语义地图构建方法的局部地图与全局地图线程中块划分的流程方框示意图；

图3是本发明实施例三维语义地图构建方法的语义地图线程的流程方框示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本发明的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本发明的限制。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”“长”“短”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

下面通过具体实施例，并结合附图，对本发明的技术方案作进一步的具体描述：

实施例：

如图1所示为一种三维语义地图构建方法，包括：

可基于GPU并行处理的配准图像线程、局部地图与全局地图线程、语义地图线程、融合线程、全局线程；

配准图像线程用于获取场景的彩色图像及深度图像，并对彩色图像及深度图像进行预处理，得到配准图像；其中，配准图像带有色彩；

局部地图与全局地图线程用于根据配准图像与深度图像求解多帧图像之间的位姿，利用位姿、彩色图像、深度图像进行三维重建得到局部地图与全局地图；

语义地图线程用于利用PSP Net对多个配准图像进行语义分割，得到二维语义图像；

融合线程用于将二维语义地图分别与局部地图、全局地图融合，得到局部语义地图、全局语义地图；

本实施例中的配准图像线程具体包括：

对包括红外摄像头及彩色摄像头的深度相机进行标定，获取深度相机的内参以及外参；其中深度相机可采用Kinect V2，具体地，通过Kinect V2拍摄棋盘格，对相机进行标定，获得相机的内参矩阵

和外参矩阵

其中，R为3x3的旋转矩阵，t为3x1平移向量，f_x与f_y分别为图像x轴与y轴的归一化焦距，c_x与c_y为图像中心点坐标位置；

本实施例中的局部地图与全局地图线程包括：

以十五帧图像作为单位，对多帧配准图像进行块划分，得到多个图像块，其中相邻图像块之间存在三帧堆叠；当然，每个图像块以及图像块之间的堆叠数量仅为一种参考的实施方式，不能理解为对本方案的限定。

根据GMS匹配算法对特征点进行匹配并滤除误匹配点，将块内关联性较好的保存为局部图像关联匹配M₁，将块内关联性较差的保存为全局图像关联匹配M₂；根据M₁与M₂利用高斯牛顿法求解各帧配准图像之间的位姿，并对当前位姿进行回环检测；其中位姿包括局部位姿与全局位姿；

另外，本实施例中高斯牛顿法求解位姿具体为：

构建非线性优化目标函数：

X^*＝argminE_align(X)，

具体计算过程为：

R＝3N_corr+|E|(|D_i|+|I_i|)，

F(X^k)＝F(X^k-1)+J_F(X^k-1)ΔX，

J_F(X^k-1)^TJ_F(X^k-1)ΔX^*＝-J_F(X^k-1)^TF(X^k-1)，

其中，X为相机的位姿，X^*为位姿X的最优解，E_align(X)为系数特征和密集光度与集合约束的对齐目标函数，r_i(X)为位姿表示的残差项，N_corr为图像块中总的对应关系数量，|D_i|与|I_i|分别为第i帧深度图像与彩色图像降采样后的大小，均为64x53＝3392，|E|为帧对集合的数量，E是一个帧对集合，包含一个帧对(i，j)，第i帧与第j帧，F(X^k-1)为上一帧图像位姿残差项的向量形式，J_F为向量对应的雅可比矩阵，ΔX＝X^k-X^k-1为当前帧位姿与上一帧位姿的差值，ΔX^*为位姿最优解的偏差值，(X^k-1)^T为矩阵(X^k-1)的转置矩阵；

再根据位姿及配准图像线程中得到的深度图像与彩色图像，对场景进行三维稠密重建，得到局部地图与全局地图。

本实施例中的SIFT提取算法中特征点的幅值具体表示为：

方向具体表示为：

本实施例中的GMS匹配算法中的概率模型为：

特征点对的评估分数公式为：

为单元对{i^k，j^k}之间的匹配数量。

本实施例中的根据外参与内参对深度图像与彩色图像进行配准具体包括：将深度图像中所有像素点的坐标向红外摄像头坐标系转换，具体公式为：

其中，Z_c为深度值，即空间中的物体到深度相机的距离，

为红外摄像头内参矩阵的逆矩阵，

为深度图像中点的像素坐标，P_{IR_camera}为像素点的坐标转换到红外摄像头坐标系下的坐标；

将红外摄像头坐标系下所有点的坐标向世界坐标系转换，具体公式为：

其中，

为世界坐标系转换到红外摄像头坐标系下的变换矩阵的逆矩阵，P_w为深度图像中点的世界坐标；

将世界坐标系下所有点的坐标向彩色摄像头坐标系转换，具体公式为：

P_{Color_camera}＝T_{wColor_camera}P_w，

其中，T_{wColor_camera}为世界坐标系到彩色摄像头坐标系的变换矩阵，P_{Color_camera}为深度图像中点对应的彩色摄像头坐标；

将彩色摄像头坐标系下所有点的坐标映射到归一化平面Z_c＝1的彩色平面，具体公式为：

其中，K_{Color_camera}为彩色摄像头的内参矩阵，

是归一化的映射平面，

为最终配准后的图像中的像素点；

令z＝1，则配准图像的像素与深度图像的像素存在以下关系：

去掉两个相机的外参K_{Color_camera}，

最终得到红外摄像头到彩色摄像头之间的变换矩阵：

将上式展开化简后得到以下表达式：

其中，T_{wColor_camera}为世界坐标系转换到彩色摄像头坐标系的变换矩阵，

为世界坐标系转换到彩色摄像头坐标系的变换矩阵的逆矩阵，T_IR2Color为红外摄像头转换到彩色摄像头的变换矩阵，R_w2Color为世界坐标转换到彩色摄像头坐标下的旋转矩阵，

为世界坐标转换到红外摄像头坐标下的旋转矩阵的逆矩阵，t_w2Color为世界坐标转换到彩色摄像头坐标下的平移矢量，t_w2Color为世界坐标转换到彩色摄像头坐标下的平移矢量，T_IR2Color表示大小为4*4的红外摄像头到彩色摄像头的变换矩阵。

本实施例中的语义地图线程具体包括：

对配准图像进行特征提取得到特征层；

对特征层进行池化，生成金字塔池化特征；池化核的大小分别为1x1，2x2，3x3，6x6；

对金字塔池化特征进行展平、上采样；

与特征层进行进行CONCAT，经过卷积神经网络得到局部语义地图、全局语义地图；

其中，采用包含21个类别信息的VOC2007数据集对网络进行训练，PSP Net主干网络为MobileNet V2，训练Epoch(训练世代数量)数量为140，训练集与验证集比例为9：1，对前50个Epoch进行冻结训练，即冻结一部分训练权重加快训练速度。BacthSize设置为4，当Epoch＝51时开始解冻，训练所有权重。值得注意的是，本实施例中采用的参数均为参考的实施方式，不能理解为对本方案的限定，在具体实施过程中，可根据设备性能、训练精度等改变参数。

本实施例中的局部地图与全局地图线程中利用TSDF模型进行局部地图、全局地图的融合具体公式为：

去融合构建具体公式为：

为更新后的体素符号距离值。

本实施例中的融合线程中采用的融合模型为：

与

为第i帧图像中像素p的类别置信度和可靠性权值。

为了利用局部语义地图完善全局语义地图的细节，本实施例中的全局线程中对局部语义地图、全局语义地图进行匹配，具体公式为：

去融合：

准确度计算公式为：

其中，W_local与W_global分别为局部语义地图、全局语义地图的权重值，Map(v，C_i-1(o))_local与Map(v，C_i-1(o))_global分别为融合后的局部语义地图、全局语义地图；S₁与S₂分别为利用meshlab工具测得的三维语义模型表面面积，S为利用meshlab测得的三维重建模型表面面积，k₁与k₂分别为S₁、S₂的权重系数。

本发明是参照本申请实施例的方法、设备(***)、和计算机程序产品的流程图或方框图来描述的，应理解可由计算机程序指令实现流程图或方框图中的每一流程或方框、以及流程图或方框图中的流程或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。