CN113393522B

CN113393522B - 一种基于单目rgb相机回归深度信息的6d位姿估计方法

Info

Publication number: CN113393522B
Application number: CN202110583238.1A
Authority: CN
Inventors: 孙炜; 刘剑; 刘崇沛
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2022-05-06
Anticipated expiration: 2041-05-27
Also published as: CN113393522A

Abstract

本发明公开了一种基于单目RGB相机回归深度信息的6D位姿估计方法，包括以下步骤：将单目RGB相机采集的RGB图像输入深度估计网络，该网络使用U‑Net的编码器‑解码器结构回归RGB图像的深度值；将估计的深度RGB图像转换为点云数据，使用PointNet网络提取点云深度信息；将RGB图像输入PSPNet网络，回归输入图像的颜色信息；将回归得到的深度信息与颜色信息使用DenseFusion网络框架进行逐像素结合全局特征的迭代密集融合，生成逐像素点的估计位姿，从而预测对象整体的6D位姿。本发明基于单目RGB相机的6D位姿估计精确度、稳定性等性能上得到明显提高。

Description

一种基于单目RGB相机回归深度信息的6D位姿估计方法

技术领域

本发明涉及机器人环境感知技术领域，尤其是涉及一种基于单目RGB相机回归深度信息的6D位姿估计方法。

背景技术

机器人环境感知技术以其高度柔性化的特点已渗透到各大领域，如工业生产自动化、自动驾驶等。6D位姿估计的目的是得到相机坐标系与目标对象坐标系间的平移与旋转变换关系，共包含旋转角与位置在内的6个位姿量，在智能物流、工业机器人以及虚拟现实等应用领域中起到至关重要的作用。

近年来，随着深度学习技术的发展，基于学习的6D位姿估计相比传统的机理建模算法，在位姿估计稳定性与精度上有了较大的提高，能够适应较为复杂的工业环境，可以弥补传统的算法在背景杂乱以及存在遮挡时无法有效工作的缺陷。基于深度学习的6D位姿估计方法通过学习寻找6D位姿与图像特征二者之间存在的联系，之后使用学习得到的模型，用回归的方法对对象的6D位姿实现精确估计。

根据输入数据的不同，当前基于深度学习的6D位姿估计方法主要可以分为基于RGB数据与RGB-D数据两种，基于RGB数据的方法主要有PointFusion、PoseCNN、Pix2Pose以及PVNet等，基于RGB-D数据的方法主要有SSD-6D、DenseFusion、PVN3D以及FFB6D等。

RGB-D相机虽然可以弥补RGB相机无法精准测距的固有缺陷，但在实际工业应用场景下同样存在很多挑战。首先，RGB-D相机的功耗较大，基于RGB相机的6D位姿估计方法对于移动和可穿戴式设备更具吸引力。其次，RGB-D相机在帧率、视场、分辨率和深度范围方面都有限制，很难探测到小的、薄的、透明的或快速移动的物体。再者，一些可以获得高精度点云的RGB-D相机成本仍是普通RGB-D相机或传统高分辨率工业传感器的10倍以上，价格较为昂贵。

综上所述，因RGB相机存在无法精准测距的固有缺陷、RGB-D相机在实际工业应用场景下同样存在很多挑战。

发明内容

针对RGB相机存在无法精准测距的固有缺陷以及RGB-D相机在实际工业应用场景下存在的挑战，本发明提出了一种基于单目RGB相机回归深度信息的6D位姿估计方法，在仅使用RGB数据作为输入的基础上实现目标对象稳定、准确、快速的6D位姿估计。

为实现上述目的，本发明采用以下技术方案：

一种基于单目RGB相机回归深度信息的6D位姿估计方法，包括以下步骤：

步骤S1：将单目RGB相机采集的RGB图像输入深度估计网络中，深度估计网络使用基于U-Net的编码器-解码器结构，回归得到RGB图像的深度值；

步骤S2：将估计的深度RGB图像转换为点云数据，使用PointNet网络提取点云数据的深度信息；

步骤S3：将RGB图像输入PSPNet网络，提取其颜色特征，回归输入RGB图像的颜色信息；

步骤S4：将回归得到的深度信息与颜色信息使用DenseFusion网络框架进行逐像素结合全局特征的迭代密集融合，生成逐像素点的估计位姿；

步骤S5：将逐像素点的估计位姿输入多层感知机，再对置信度进行平均最大池化，回归目标对象整体的6D位姿。

作为本发明的一种优选改进，步骤S1具体包括如下步骤：

步骤S101：使用单目RGB相机获取场景的RGB图像，再使用经过ImageNet预训练的ResNet18网络作为深度估计网络的编码器；

步骤S102：通过4次上采样及与对应的编码层进行特征拼接构成深度估计网络的解码器；

步骤S103：根据单目RGB相机前后两帧图像之间的特征关系进行匹配，得到单目RGB相机运动前后的相对变换矩阵，从而估计单目RGB相机的位姿，使用单目RGB相机的位姿来帮助约束深度估计网络；

步骤S104：过滤掉前后两帧中外观未改变的像素点；

步骤S105：使用双线性采样对源图像进行采样，之后利用像素空间中的L1距离与SSIM实现光度重构误差函数，公式表示为：

式中P_a为源视图，P_b为目标图像，SSIM(P_a，P_b)为P_a与P_b的结构相似性，||P_a-P_b||₁为P_a与P_b在像素空间中的L1距离，α为权重系数，re(P_a，P_b)为P_a与P_b的光度重构误差函数；

步骤S106：将每个像素仅与其可见的视图相匹配，逐像素计算光度重投影，公式表示为：

P_t′→t＝P_t′<proj(D_t，T_t′→t，R)>

式中P_t′→t为源视图P_t′到目标图像P_t的光度重投影，R为预计算的内参，T_t′→t为每个源视图P_t′相对于目标图像P_t的位姿，D_t为预测的密集深度图，proj()为投影深度D_t的2D坐标，<>是采样运算符；

步骤S107：最小化计算逐像素光度重投影损失L_r，公式表示为：

式中L_r是逐像素光度重投影损失，P_t′为源视图，P_t为目标图像，P_t′→t为源视图P_t′到目标图像P_t的光度重投影，re()是光度重构误差函数；

步骤S108：对步骤S107中的L_r应用逐像素二进制掩码ω，有选择地对像素进行加权，公式表示为：

式中，ω∈{0，1}，即仅当源视图P_t′到目标图像P_t的光度重投影误差小于原始图像重投影误差时，ω＝1；

步骤S109：计算逐像素边缘感知平滑度损失，公式表示为：

式中L_s为逐像素边缘感知平滑度损失，P_t为目标图像，

为阻止估计深度缩小的平均归一化逆深度，

表示像素在x方向上的梯度，

表示像素在y方向上的梯度；

步骤S110：先将较低分辨率的深度RGB图像向上采样到输入图像分辨率，然后在此较高输入分辨率下重新投影、重采样并计算误差re，最后的光度重投影总损失是解码器中每个尺度上的各个损失的组合；

步骤S111：将逐像素平滑度与光度重建损失合并为总损失，并对每个像素、尺度和批次进行平均，公式表示为：

L_all＝ωL_r+ξL_s

式中ω为光度重投影损失系数，ξ为平滑度损失系数，L_all为深度估计的总损失；

步骤S112：通过训练学习，不断降低深度估计总损失的值，最终选择总损失最小的深度估计输出图作为对象的深度估计图。

作为本发明的一种优选改进，步骤S3具体包括如下步骤：

将RGB图像输入PSPNet网络，进行场景解析，该PSPNet网络分四级并逐级对输入信息进行处理，提取其颜色特征，通过引入全局均值池化操作与特征融合来实现回归输入RGB图像的颜色信息。

作为本发明的一种优选改进，步骤S4具体包括如下步骤：

步骤S401：将回归得到的深度信息与颜色信息使用DenseFusion网络框架进行逐像素结合全局特征的迭代密集融合，生成逐像素的密集融合特征；

步骤S402：若对象为非对称物体，则对象的位姿估计损失函数

为预测位姿与采样点的地面真实位姿之间的平均欧式距离，计算公式表示为：

式中

为采样点的地面真实位姿与预测位姿之间的平均欧式距离，M表示采样的总点数，x_j表示采样的M个点中的第j个点，R表示世界坐标系到相机坐标系转换的真实旋转矩阵，t表示世界坐标系到相机坐标系转换的真实平移矩阵，则(Rx_j+t)为第j个点的真实位姿；R′_i表示世界坐标系到相机坐标系转换的估计旋转矩阵，t′_i表示世界坐标系到相机坐标系转换的估计平移矩阵，则(R′_ix_j+t′_i)为其第j个点中的预测位姿；

步骤S403：若对象为对称物体，则位姿估计损失函数

为预测位姿与采样点的地面真实位姿之间的欧式距离最小值的平均值，计算公式表示为：

式中M表示采样的总点数，x_j表示采样的M个点中的第j个点，(Rx_j+t)为第j个点的真实位姿，(R′_ix_k+t′_i)为从第k个点中预测的预测位姿；

步骤S404：通过训练学习，不断降低损失函数

的值，最终选择损失函数值最小的作为逐像素点的估计位姿。

作为本发明的一种优选改进，步骤S5具体包括如下步骤：

步骤S501：得到逐像素点的预测位姿后，将其输入最终的多层感知机，回归输出对象整体的估计6D位姿与所估计6D位姿的置信度分数；

步骤S502：将对象的置信度分数与位姿估计损失函数组合，构成对象整体6D位姿估计的损失函数，整体损失函数L的计算公式表示为：

式中α是一个平衡超参数，

为位姿估计的损失函数，s_i为每个预测位姿的置信度分数，K是从分割的P个元素中随机抽取的密集像素特征的个数；

步骤S503：通过训练学习，不断降低对象整体损失函数的值，最终选择整体损失函数值最小的输出作为对象的整体估计位姿。

本发明的有益效果如下：有效的回归了单目RGB相机图像的深度信息，并利用回归的深度信息结合颜色信息对室内场景下的物体进行了有效的6D位姿估计，在基于单目RGB相机的6D位姿估计精确度、稳定性等性能上得到明显提高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为本发明一种基于单目RGB相机回归深度信息的6D位姿估计方法的***框架图；

图2为本发明使用的PointNet网络结构图，可分为点云分类网络与点云分割网络；

图3为本发明在室内场景下进行6D位姿估计的第一应用实例；

图4为本发明在室内场景下进行6D位姿估计的第二应用实例。

具体实施方式

下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

请参阅图1所示，本申请使用深度学习的方法，融合了基于RGB数据的深度估计与基于RGB-D数据的6D位姿估计，提出了一种基于单目RGB相机回归深度信息的6D位姿估计方法，包括以下步骤：

步骤S1：将单目RGB相机采集的图像输入深度估计网络中，深度估计网络使用基于U-Net的编码器-解码器结构，回归得到RGB图像的深度值；具体包括如下步骤：

步骤S101：首先，使用单目RGB相机获取场景的RGB图像，再使用经过ImageNet预训练的ResNet18网络作为深度估计网络的编码器。

步骤S102：通过4次上采样及与对应的编码层进行特征拼接构成深度估计网络的解码器。

步骤S103：根据相机前后两帧图像之间的特征关系进行匹配，得到相机运动前后的相对变换矩阵，从而估计相机的位姿，使用相机的位姿来帮助约束深度估计网络。

步骤S104：过滤掉前后两帧中外观未改变的像素点，即使用算法自动掩膜静态像素点(相机未运动或相机与物体以相同速度运动)。

P_t′→t＝P_t′<proj(D_t，T_t′→t，R)>

式中P_t′→t为源视图P_t′到目标图像P_t的光度重投影，R为预计算的内参(假设所有视图的内参相同)，T_t′→t为每个源视图P_t′相对于目标图像P_t的位姿，D_t为预测的密集深度图，proj()为投影深度D_t的2D坐标，<>是采样运算符；

步骤S109：计算逐像素边缘感知平滑度损失，公式表示为：

式中L_s为逐像素边缘感知平滑度损失，P_t为目标图像，

为阻止估计深度缩小的平均归一化逆深度，

表示像素在x方向上的梯度，

表示像素在y方向上的梯度；

步骤S110：由于双线性采样器的梯度局部性，为了避免训练目标陷入局部极小，采用多尺度深度预测和图像重建。首先将较低分辨率的深度图向上采样到输入图像分辨率，然后在此较高输入分辨率下重新投影、重采样并计算误差re。最后的光度重投影总损失是解码器中每个尺度上的各个损失的组合；

L_all＝ωL_r+ξL_s

步骤S3：将RGB图像输入PSPNet网络，提取其颜色特征，回归输入RGB图像的颜色信息；具体包括如下步骤：

首先，将RGB图像输入PSPNet网络，进行场景解析，该PSPNet网络分四级(1×1、2×2、3×3及6×6)并逐级对输入信息进行处理，提取其颜色特征，其次，通过引入全局均值池化操作与特征融合来实现回归输入RGB图像的颜色信息。

步骤S4：将回归得到的深度信息与颜色信息使用DenseFusion网络框架进行逐像素结合全局特征的迭代密集融合，生成逐像素点的估计位姿；具体包括如下步骤：

步骤S402：若对象为非对称物体，则对象的位姿估计损失函数

式中

步骤S403：若对象为对称物体，则位姿估计损失函数

步骤S404：通过训练学习，不断降低损失函数

步骤S5：将逐像素点的估计位姿输入最终的多层感知机，再对置信度进行平均最大池化，回归目标对象整体的6D位姿。具体包括如下步骤：

式中α是一个平衡超参数，

名词解释：

深度估计网络：本申请的深度估计网络使用经典的U-Net编码器-解码器模型结构(U-Net是使用多尺度特征进行语义分割任务的算法)，编码器是经过预训练的ResNet18模型，用于特征提取，深度解码器通过4次上采样及与对应的编码层进行特征拼接，将输出转换为深度值，从而实现对图像深度的估计，具体原理解释见步骤S101-S112。

PointNet网络：目前效果较好且使用最广泛的一种点云分割网络，网络结构见图2。

PSPNet网络：PSPNet网络是目前应用较为广泛的语义分割方法，该方法的核心思想是在语义分割算法中引入更多的上下文信息，通过在FCN算法的基础上引入全局均值池化操作与特征融合来实现。

DenseFusion网络框架：本专利使用的DenseFusion网络框架改变了传统的RGB-D特征的融合方式，其使用了一个异构网络去分别处理RGB数据和点云数据，然后将RGB数据的颜色特征和点云的特征以逐像素密集融合的方式进行了融合，在保留这两种数据自身结构的基础上有效的进行了特征融合。

本发明的有益效果如下：有效的回归了单目RGB相机图像的深度信息，并利用回归的深度信息结合颜色信息对室内场景下的物体进行了有效的6D位姿估计，在基于单目RGB相机的6D位姿估计精确度、稳定性等性能上得到明显提高，具体可参阅附图3和4所示。

尽管本发明的实施方案已公开如上，但并不仅仅限于说明书和实施方案中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里所示出与描述的图例。

Claims

1.一种基于单目RGB相机回归深度信息的6D位姿估计方法，其特征在于，包括以下步骤：

步骤S1：将单目RGB相机采集的RGB图像输入深度估计网络中，深度估计网络使用基于U-Net的编码器-解码器结构，回归得到RGB图像的深度值，具体包括：

步骤S104：过滤掉前后两帧中外观未改变的像素点；

式中P_a为源视图，P_b为目标图像，SSIM(P_a,P_b)为P_a与P_b的结构相似性，||P_a-P_b||₁为P_a与P_b在像素空间中的L1距离，α为权重系数，re(P_a,P_b)为P_a与P_b的光度重构误差函数；

P_t'→t＝P_t'<proj(D_t,T_t'→t,R)>

式中P_t'→t为源视图P_t'到目标图像P_t的光度重投影，R为预计算的内参，T_t'→t为每个源视图P_t'相对于目标图像P_t的位姿，D_t为预测的密集深度图，proj( )为投影深度D_t的2D坐标，<>是采样运算符；

式中L_r是逐像素光度重投影损失，P_t'为源视图，P_t为目标图像，P_t'→t为源视图P_t'到目标图像P_t的光度重投影，re( )是光度重构误差函数；

式中，ω∈{0,1}，即仅当源视图P_t'到目标图像P_t的光度重投影误差小于原始图像重投影误差时，ω＝1；

步骤S109：计算逐像素边缘感知平滑度损失，公式表示为：

式中L_s为逐像素边缘感知平滑度损失，P_t为目标图像，

为阻止估计深度缩小的平均归一化逆深度，

表示像素在x方向上的梯度，

表示像素在y方向上的梯度；

L_all＝ωL_r+ξL_s

步骤S112：通过训练学习，不断降低深度估计总损失的值，最终选择总损失最小的深度估计输出图作为对象的深度估计图；

2.如权利要求1所述的基于单目RGB相机回归深度信息的6D位姿估计方法，其特征在于，步骤S3具体包括如下步骤：

3.如权利要求1所述的基于单目RGB相机回归深度信息的6D位姿估计方法，其特征在于，步骤S4具体包括如下步骤：

步骤S402：若对象为非对称物体，则对象的位姿估计损失函数

式中

为采样点的地面真实位姿与预测位姿之间的平均欧式距离，M表示采样的总点数，x_j表示采样的M个点中的第j个点，R表示世界坐标系到相机坐标系转换的真实旋转矩阵，t表示世界坐标系到相机坐标系转换的真实平移矩阵，则(Rx_j+t)为第j个点的真实位姿；R_i'表示世界坐标系到相机坐标系转换的估计旋转矩阵，t_i'表示世界坐标系到相机坐标系转换的估计平移矩阵，则(R_i'x_j+t_i')为其第j个点中的预测位姿；

步骤S403：若对象为对称物体，则位姿估计损失函数

式中M表示采样的总点数，x_j表示采样的M个点中的第j个点，(Rx_j+t)为第j个点的真实位姿，(R_i'x_k+t_i')为从第k个点中预测的预测位姿；

步骤S404：通过训练学习，不断降低损失函数

4.如权利要求3所述的基于单目RGB相机回归深度信息的6D位姿估计方法，其特征在于，步骤S5具体包括如下步骤：

式中α是一个平衡超参数，