CN113393503B

CN113393503B - 一种分割驱动形状先验变形的类别级物体6d位姿估计方法

Info

Publication number: CN113393503B
Application number: CN202110565820.5A
Authority: CN
Inventors: 孙炜; 刘崇沛; 刘剑
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2022-05-27
Anticipated expiration: 2041-05-24
Also published as: CN113393503A

Abstract

本发明公开了一种分割驱动形状先验变形的类别级物体6D位姿估计方法，包括通过三维相机获取数据，检测出物体包围框和类别标签，利用多模态特征的实例分割网络分割数据得到图像块和点云，将点云零均值化，形状先验通过形状变形网络输出重建物体模型，通过物体模型和物体点云之间的配准获得物体6D位姿估计，本发明使得6D位姿估计在适应性、准确率等性能上得到显著提升。

Description

一种分割驱动形状先验变形的类别级物体6D位姿估计方法

技术领域

本发明属于机器人环境感知技术领域，尤其涉及一种分割驱动形状先验变形的类别级物体6D位姿估计方法。

背景技术

基于计算机视觉的机器人环境感知技术的目标是给机器人提供目标物体的信息，解决物体是什么以及在哪里的问题，该类技术以其适用范围广、高度柔性化的特点已渗透到各个领域，如智能制造、自动驾驶、智能物流等。物体6D 位姿估计，是指估计相机坐标系下物体的6D位姿，即3D位置和3D姿态，也等价于相机坐标系到物体坐标系的旋转和平移变换。6D位姿估计的主要应用有虚拟现实、增强现实、智能机器人。

位姿估计方法根据对物体的泛化能力，分为实例级位姿估计、类别级位姿估计。实例级位姿估计适用于出现在训练集、给定物体模型的物体，它们大致分为三类：基于模板匹配，基于投票的方法和基于对应的方法。模板匹配方法通过手工或深度学习特征描述符将模板与观察到的图像或深度图进行匹配，将模板对应的6D位姿标注作为估计结果。直接从输入图像中回归6D位姿，可以认为是从标注的图像中隐式找到最相似的图像(模板)。基于投票的方法，聚合局部采样的RGB-D图像块产生的6D位姿投票。基于对应的方法依赖于建立2D-3D对应或3D-3D对应，然后通过求解PnP(perspective-n-point)或SVD问题获得6D位姿。

类别级位姿估计可估计某一类物体的位姿，只要该类别物体在训练集中出现过，该类方法的主要挑战是同类物体间的外观变化，包括形状和颜色变化。现有的方法往往是通过RGB特征或RGB-D特征将同一类别的不同物体转换到一个统一的空间。NOCS(归一化物体坐标空间)就是一种对同一类别中不同物体实例的规范表示，通过配准物体点云与NOCS坐标集可求得6D位姿。

现有专利所描述的方法均属于实例级位姿估计的范畴，该类方法只适用于已知物体，对于新物体的检测性能较差，难以用于物体频繁更新的场景。Shape prior是类别级位姿估计方法中具有先进性能的方法，通过估计形状先验的变形这一中间步骤更好的生成NOCS坐标集，但仅利用RGB图像分割物体，不准确的分割限制了该方法的性能

综上所述，现有实例级位姿估计方法存在固有缺陷，泛化性能差，难以用于物体频繁更新的场景，而现有类别级位姿估计方法的性能仍有待提升，本发明公开了一种分割驱动形状先验变形的类别级物体6D位姿的估计方法。

名词解释：

形状先验：数据形式是点云，可以视为某一类物体的形状的平均值，提供了某类物体的几何先验信息。不同的物体形状各异，但同类物体往往在语义和几何结构上表现出相似性，如马克杯通常有一个圆柱杯体加一个手柄。

变形场：使形状先验变形的场域，形式为逐点平移向量的集合。

发明内容

为解决上述问题，本发明提出一种分割驱动形状先验变形的类别级物体6D 位姿估计方法，在物体频繁更新的应用场景下，可实现快速、准确、鲁邦地6D 位姿估计。

为实现上述目的，本发明的技术方案为：

一种分割驱动形状先验变形的类别级物体6D位姿估计方法，包括以下步骤：

S1:通过三维相机获取数据，所述数据包括2D图像和点云，2D图像输入2D 物体检测器得到图像块和类别标签；

S2：将所述图像块、点云和类别标签输入到多模态特征的实例分割网络中分割，得到物体图像块和物体点云；

S3：将物体点云每个点的坐标减去点云中心坐标，将点云中心平移到原点，得到零均值化的物体点云；

S4：引入形状先验，将形状先验、物体图像块和零均值化的物体点云输入形状变形网络得到施加在形状先验上的变形场，形状先验叠加变形场得到重建物体模型；

S5：通过重建物体模型和物体点云之间的配准获得物体6D位姿估计。

进一步的改进，所述2D图像通过包围框裁剪得到图像块。

进一步的改进，所述S2包括如下步骤：

S21：利用颜色嵌入网络提取图像块的颜色特征；所述包围框通过相机参数投影到三维空间裁剪点云得到点云块，利用点云嵌入网络提取点云块的几何特征；

S22：所述颜色特征和几何特征逐点融合，得到融合特征，所述融合特征输入多层感知机并经过最大池化得到全局特征；

S23：融合特征、全局特征和类别标签相连接输入多层感知机预测逐点二值类别的分数，取分数最高的二值类别作为结果实现物体分割，得到物体图像块和物体点云；采用二值交叉熵损失函数L_seg作为物体分割的损失函数。

进一步的改进，所述S4包括如下步骤：

S41：形状先验、物体图像块和零均值化的物体点云

作为形状变形网络的输入，

S42：物体图像块通过颜色嵌入网络提取颜色特征，零均值化的物体点云

通过点云嵌入网络提取几何特征，所述颜色特征和几何特征结合得到实例点特征，形状先验

通过多层感知机提取先验点特征，其中T_nor表示零均值化的物体点云、S_c表示形状先验、R表示实数、N_c表示形状先验中点的数量、N_t表示物体点云中点的数量；

S43：所述实例点特征经过多层感知机和平均池化得到实例全局特征，所述先验点特征经过多层感知机和平均池化得到先验全局特征；

S44：所述实例点特征、实例全局特征和先验全局特征构成实例融合特征，先验点特征、先验全局特征和实例全局特征构成先验融合特征；

S45：实例融合特征通过连续卷积生成施加在形状先验上的变形场

所述变形场

施加在形状先验上，得到重建物体模型S＝S_c+O；S_c表示的是形状先验；先验融合特征通过连续卷积生成对应矩阵A，对应矩阵A中的第i行代表T_nor中的第i点与S所有点的软对应关系，物体点云对应的NOCS坐标集P通过A乘S获得：P＝A×S＝A(S_c+O)；

S46：设置若干损失对形状变形网络进行监督。

进一步的改进，所述损失包括重建损失、对应损失和正则化损失。

进一步的改进，所述重建损失是使用重建物体模型S与物体的真实模型S_gt之间的倒角距离来衡量形状差异，用来监督变形场O，重建损失利用如下损失函数得到：

可以利用L_cd＝d_cd(S,S_gt)＝d_cd(S_c+O,S_gt)

其中

L_cd表示的是重建损失、x表示的是S中一个点的坐标、y表示的是S_gt中与x 对应的点的坐标、d_cd表示的是倒角距离(Chamfer Distance)。

进一步的改进，对于非对称物体所述对应损失是利用NOCS坐标集通过L₁平滑损失函数对对应矩阵A进行监督，所述对应损失的函数式如下：

其中u＝(u₁,u₂,u₃)∈P、v＝(v₁,v₂,v₃)∈P_gt

上述L_corr表示的是对应损失、u表示的是P中一点的坐标、v表示的是P_gt中与u对应的点的坐标、P_gt是P的标注,表示物体点云在NOCS中对应的真实坐标集、u_i表示u中的第i个数、v_i表示v中的第i个数；

对于对称物体，由于对称物体的不同位姿可能外观相同，这里通过一种映射将歧义的位姿转化为规范位姿，具体映射方式如下：

其中

是使物体外观一致的旋转变换的集合、I₃是3×3的单位矩阵、T表示的是旋转矩阵、E表示的是使物体外观一致的旋转变换。

进一步的改进，所述正则化损失包括交叉熵损失和变形损失。通过交叉熵损失最小化使A_i呈单峰分布，所述交叉熵损失的函数式为：

上述的L_entropy表示的是交叉熵损失、i表示行序号、j表示列序号、A_i，j表示对应矩阵A中第i行，第j列的元素、A_i表示对应矩阵A的第i行；并且通过正则化变形场O保证形状先验变形后各部分的语义信息不发生变化，所述变形损失的函数式如下：

其中L_def表示的是变形损失、N_c表示的是形状先验其中点的数量、O表示的是变形场、d_i表示的是变形场O中第i个向量。

进一步的改进，最终的损失函数为：

L＝L_seg+λ₁L_cd+λ₂L_corr+λ₃L_entropy+λ₄L_def，

其中λ₁、λ₂、λ₃、λ₄是对应的损失权重，根据经验设置λ₁＝4.0、λ₂＝1.0、λ₃＝1e-4、λ₄＝0.01。

进一步的改进，所述S5采用基于RANSAC的Umeyama算法配准NOCS 坐标集P与物体点云生成6D位姿。

本发明的优点：本发明有效利用多模态信息，实现了高精度物体分割，点云零均值化降低了形状变形网络对平移的敏感性，使得6D位姿估计在适应性、准确率等性能上得到显著提升。

附图说明

图1为本发明的6D位姿估计方法***框架图；

图2为本发明的物体实例分割网络框架图；

图3为本发明的形状变形网络框架图。

具体实施方式

以下结合附图及实施例对本发明做进一步说明。

实施例1

下面结合图1对本次发明的实现步骤进行具体的描述：

步骤S1：首先，使用三维相机分别获取RGB图像与点云，将RGB图像输入 Mask R-CNN，获得物体包围框和类别标签。

步骤S2：图像块、点云和类别标签作为输入，基于多模态特征的实例分割网络分割出物体，得到物体图像块和物体点云。

步骤S201：利用包围框裁剪出图像块，利用PSPNet提取颜色特征；包围框通过相机参数投影到三维空间裁剪出点云块，利用基于PointNet的网络提取几何特征。两种特征逐点密集融合。

步骤S202：逐点融合特征输入多层感机并经过最大池化得到全局特征；融合特征、全局特征和类别标签相连接输入多层感知机预测逐点二值类别的分数，取分数高的作为结果实现物体分割；分割得到物体图像块和物体点云。我们利用二值交叉熵损失L_seg作为监督实例分割的损失函数。

步骤S3：将形状先验、物体图像块和零均值化的物体点云输入到形状变形网络以预测将施加在形状先验上的变形场，变形后的形状先验作为物体模型。

步骤S301：物体点云每个点的坐标减去点云中心坐标，将点云平移到原点附近，完成基于分割的点云零均值化。

步骤S302：物体图像块与零均值化的点云

作为输入，类似步骤S201生成实例点特征。形状先验

通过多层感知机提取先验点特征。其中N_t，N_c为点的数量。

步骤S303：实例点特征经过多层感知机和平均池化得到实例全局特征。先验全局特征通过类似方法获得。实例点特征、实例全局特征和先验全局特征构成实例融合特征，先验点特征、先验全局特征和实例全局特征构成先验融合特征，这里全局特征的交换是关键。

步骤S304：实例融合特征通过1×1卷积核的连续卷积生成将施加在形状先验上的变形场

S＝S_c+O是最终重建物体模型。先验融合特征通过类似的方法生成对应矩阵A，A中的第i行代表T_nor中第i点与S所有点的软对应关系，近似一种数值分布。物体点云对应的NOCS坐标集P通过A乘S获得。

P＝A×S＝A(S_c+O)

步骤S305：为训练变形网络，设置以下损失进行监督。

第一是重建损失。使用重建物体模型S与物体的真实模型S_gt之间的倒角距离来衡量形状差异，以监督变形场O。

L_cd＝d_cd(S,S_gt)＝d_cd(S_c+O,S_gt)

其中

第二是对应损失，用于监督对应矩阵A。由于很难获得A的标注，而NOCS坐标集是将对应矩阵应用于重建模型的结果，且可以通过使用真实物体模型及其真实6D姿势轻松获得真实NOCS坐标集。这里使用NOCS坐标集间接地对其进行监督，使用L₁平滑损失函数。

其中u＝(u₁,u₂,u₃)∈P，v＝(v₁,v₂,v₃)∈P_gt。

上述情况适用于非对称物体。对称物体不同位姿可能外观相同。换句话说，一个外观可能对应多个位姿标签，这不适合监督学习。因此，这里通过一种映射将歧义的位姿转化为规范位姿。具体来说，任意位姿通过下面的映射进行转换。

其中

是使物体外观一致的旋转的集合，I₃是3×3的单位矩阵。对于对称物体，使用该映射来变换真实旋转标注。由于这里通过NOCS坐标集进行监督，因此也将对其进行相应的转换。

第三是正则化损失。NOCS坐标集P中的每个点，最多需要S中的3个点进行表示。这里通过损失函数最小化

使A_i呈单峰分布。为了保证形状先验变形后各部分的语义信息不发生变化，如，希望相机形状先验镜头上的点不会出现在相机的其他部位，通过正则化O:

以防止大的变形。

最终的损失函数为：L＝L_seg+λ₁L_cd+λ₂L_corr+λ₃L_entropy+λ₄L_def，其中λ₁，λ₂，λ₃，λ₄是对应损失的权重。

步骤S306：通过训练学习，直至损失收敛。取此时的深度学习模型预测物体点云对应的NOCS坐标集P。

步骤S4：采用基于RANSAC的Umeyama算法配准NOCS坐标集P与物体点云生成物体6D位姿。

以上所述仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分割驱动形状先验变形的类别级物体6D位姿估计方法，其特征在于，包括如下步骤：

S1:通过三维相机获取数据，所述数据包括2D图像和点云，2D图像输入2D物体检测器得到图像块和类别标签；所述2D图像通过包围框裁剪得到图像块；

S2：将所述图像块、点云和类别标签输入到多模态特征的实例分割网络中分割，得到物体图像块和物体点云：

S23：融合特征、全局特征和类别标签相连接输入多层感知机预测逐点二值类别的分数，取分数最高的二值类别作为结果实现物体分割，得到物体图像块和物体点云；采用二值交叉熵损失函数L_seg作为物体分割的损失函数；

S4：引入形状先验，将形状先验、物体图像块和零均值化的物体点云输入形状变形网络得到施加在形状先验上的变形场，形状先验叠加变形场得到重建物体模型：

S41：形状先验、物体图像块和零均值化的物体点云

作为形状变形网络的输入，

所述变形场

施加在形状先验上，得到重建物体模型S＝S_c+O；S_c表示的是形状先验；先验融合特征通过连续卷积生成对应矩阵A，对应矩阵A中的第i行代表T_nor中的第i点与S所有点的软对应关系，物体点云在NOCS中对应的坐标集P通过A乘S获得：P＝A×S＝A(S_c+O)；

S46：设置若干损失对形状变形网络进行监督；

S5：通过重建物体模型和物体点云之间的配准获得物体6D位姿。

2.如权利要求1所述的一种分割驱动形状先验变形的类别级物体6D位姿估计方法，其特征在于，所述损失包括重建损失、对应损失和正则化损失。

3.如权利要求2所述的一种分割驱动形状先验变形的类别级物体6D位姿估计方法，其特征在于，所述重建损失是使用重建物体模型S与物体的真实模型S_gt之间的倒角距离来衡量形状差异，用来监督变形场O，重建损失利用如下损失函数得到：

可以利用L_cd＝d_cd(S,S_gt)＝d_cd(S_c+O,S_gt)

其中

4.如权利要求3所述的一种分割驱动形状先验变形的类别级物体6D位姿估计方法，其特征在于，对于非对称物体所述对应损失是利用NOCS坐标集通过L₁平滑损失函数对对应矩阵A进行监督，所述对应损失如下：

其中u＝(u₁,u₂,u₃)∈P、v＝(v₁,v₂,v₃)∈P_gt

上述L_corr表示的是对应损失、P_gt是P的标注,表示物体点云在NOCS中对应的真实坐标集、u表示的是P中一点的坐标、v表示的是P_gt中与u对应的点的坐标、u_i表示u中的第i个数、v_i表示v中的第i个数；

当对称物体完成映射后，再通过平滑损失函数计算对应损失，

其中

5.如权利要求4所述的一种分割驱动形状先验变形的类别级物体6D位姿估计方法，其特征在于，所述正则化损失包括交叉熵损失和变形损失；通过交叉熵损失最小化使A_i呈单峰分布，所述交叉熵损失的函数式为：

上述的L_entropy表示的是交叉熵损失、i表示行序号、j表示列序号、A_i，j表示对应矩阵A中第i行，第j列的元素、A_i表示对应矩阵A的第i行；

并且通过正则化变形场O保证形状先验变形后各部分的语义信息不发生变化，所述变形损失的函数式如下：

其中L_def表示的是变形损失、O表示的是变形场、d_i表示的是变形场O中第i个向量。

6.如权利要求5所述的一种分割驱动形状先验变形的类别级物体6D位姿估计方法，其特征在于，最终的损失函数为：

L＝L_seg+λ₁L_cd+λ₂L_corr+λ₃L_entropy+λ₄L_def，其中λ₁、λ₂、λ₃、λ₄是对应的损失权重，根据经验设置λ₁＝4.0、λ₂＝1.0、λ₃＝1e-4、λ₄＝0.01。

7.如权利要求1所述的一种分割驱动形状先验变形的类别级物体6D位姿估计方法，其特征在于，所述S5采用基于RANSAC的Umeyama算法配准NOCS坐标集P与物体点云生成6D位姿。