CN114119753A

CN114119753A - 面向机械臂抓取的透明物体6d姿态估计方法

Info

Publication number: CN114119753A
Application number: CN202111488783.9A
Authority: CN
Inventors: 邹勤; 吴婷; 邱雁成
Original assignee: Beiwan Technology Wuhan Co ltd
Current assignee: Beiwan Technology Wuhan Co ltd
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-03-01

Abstract

本发明公开了一种面向机械臂抓取的透明物体6D姿态估计方法。其输入为透明物体的RGB图像、Edge图像以及深度图像，输出为透明物体的6D位姿。构建三分支深度学习网络模型，该模型包括纹理特征提取网络、边缘特征提取网络、几何特征提取网络和关键点检测网络；其中，纹理特征提取网络输入数据为RGB图像，边缘特征提取网络输入数据为Edge图像，几何特征提取网络输入数据为深度图像；其中，关键点检测网络融合三个特征提取网络提取出来的特征，并嵌入自注意力机制来获取全局特征；最大限度利用透明物体的纹理信息和几何信息，结合特征融合思想和注意力机制，研究和探索出一种适用于透明物体6D姿态估计的方法。

Description

面向机械臂抓取的透明物体6D姿态估计方法

技术领域

本发明涉及机器视觉和机械臂抓取领域，具体涉及一种面向机械臂抓取的透明物体6D姿态估计方法。

背景技术

随着人力成本的不断增加和科学技术的发展，全球各行各业的机器人快速发展。机器人可以确保更高质量的生产和服务，代替人力完成一些重复、重型、危险的工作，减少人为错误和满足企业日益增长的需求。如今，机器换人已经成为各行各业发展的重要趋势，机器人相关的研究也越来越多。机械臂抓取就是其中的一个分支。抓取作为机械臂最基本也最重要的功能之一，要想成功抓取到物体，首先就需要估计出物体的6D位姿，即“看”到物体在哪、摆放角度。长久以来，研究者们都是比较重视对非透明物体的研究，对透明物体6D姿态估计的研究相对较少。然而，透明物体在人们生活和工业生产中都是不可或缺的一部分，是机械臂抓取必须解决的问题之一，因此，开展针对透明物体6D姿态估计的研究，具有重要的现实意义。

透明物体检测的传统方法大多依赖于透明物体的某些特质，如因镜面反射或折射而产生的边缘局部特征。随着深度学习的发展，出现了一些基于深度神经网络（DNN）的方法，这些方法可以直接预测透明物体的位姿。然而，这些方法要么只利用了RGB图像中的纹理信息，要么只利用了破损深度图像中的几何信息。由于缺少了另一种信息，因此这些方法的泛化能力往往不够，很难有效应对各种光照背景以及遮挡环境下的情况。透明物体的纹理信息和几何信息虽然不如非透明物体一样有区分度，但是也有它们独特的特征：透明物体的边缘相对其他部分来说更容易观察到；光线的折射使得透明物体所在的区域有别于其他的区域。这些差异和特征可作为透明物体6D姿态估计算法设计的依据。

发明内容

为了克服上述不足，本发明提出了一种面向机械臂抓取的透明物体6D姿态估计方法。其输入为透明物体的RGB图像、Edge图像以及深度图像，输出为透明物体的6D位姿；最大限度利用透明物体的纹理信息和几何信息，结合特征融合思想和注意力机制，研究和探索出一种适用于透明物体6D姿态估计的方法。本发明的技术方案包含以下步骤：

步骤S1，构建真实透明物体数据集，所述数据集中的每一个物体包含多张RGB图像和深度图像；

步骤S2，构建三分支深度学习网络模型，该模型包括纹理特征提取网络、边缘特征提取网络、几何特征提取网络和关键点检测网络；其中，纹理特征提取网络输入数据为RGB图像，边缘特征提取网络输入数据为Edge图像，几何特征提取网络输入数据为深度图像；其中，关键点检测网络融合三个特征提取网络提取出来的特征，并嵌入自注意力机制来获取全局特征；

步骤S3，利用S1构建的图像数据集对步骤S2构建的深度学习模型进行训练；

步骤S4，利用步骤S3训练好的模型进行透明物体6D姿态估计。

进一步地，所述步骤S1的具体过程如下：

S1-1，通过RGB-D传感器采集P个透明物体的Q张RGB图像和Q张深度图像，并采用边缘提取算法，获取P×Q张Edge图像；对每张图像标注6D位姿标签；

S1-2，利用3D渲染工具合成P个透明物体的3D模型，使用坐标变换和2D-3D投影，将模型投影到二维图像上，再经过人工优化投影图像，得到每张图像的mask图像；

S1-3，经过上面两步的处理，得到P个数据样本，每个样本包含数量为Q的RGB图像、数量为Q的深度图像、数量为Q的Edge图像以及数量为Q的mask图像，并且每张图像具有6D位姿标签；将P个样本作为透明物体6D姿态估计数据集。

进一步地，所述步骤S2的具体过程如下：

S2-1，将一个样本的一张RGB图像输入纹理特征提取网络，经过纹理特征提取网络的编解码网络，输出大小为

的纹理特征图和预测的Edge图像；纹理特征图通过两层卷积层，并利用mask图像随机采样物体上的N个像素点，如果采样的点数不足N，则复制最后一个边缘点补足到N，并记住这N个点的坐标，最后输出大小为

的纹理特征向量；将同一个样本的一张Edge图像输入边缘特征提取网络，经过边缘特征提取网络的编解码网络，输出

的边缘特征图，利用上述保存的N个点的坐标在同样位置采样N个点，最后输出大小为

的边缘特征向量；为了减少计算量，将同个样本的一张深度图像转成点云后，先按照同样的方法采样N个点，再输入点云特征提取网络，最后输出大小为

的几何特征向量；

S2-2，将上一步得到的纹理特征向量、边缘特征向量和几何特征向量输入关键点检测网络进行特征融合，关键点检测网络的自注意力模块输出融合后的全局特征，大小为

；

S2-3，将上一步得到的特征向量通过关键点检测网络的卷积层，最后投票得到关键点，并通过最小二乘法获取透明物体在当前图像中的6D位姿。

进一步地，所述步骤S3训练深度学习网络模型时构建损失函数的过程如下：

S3-1，在步骤S2-1中，将RGB图像送入纹理信息特征网络得到预测的透明物体mask图像，设N为像素点的个数，

为平衡参数，

为聚焦参数，

是第i个像素点属于每个类的置信度，

是ground truth类标签的one-hot表示，定义语义分割损失函数：

公式中：

，并通过最小优化求解：

S3-2，在步骤S2-2中，得到全局特征向量，为使得每个像素点尽可能指向关键点，设N为像素点个数，M为关键点个数，

是网络预测的特征向量，

是ground truth向量，其中每一行向量为像素点i指向关键点j的单位向量，定义关键点检测损失函数：

。

基于同一发明构思，本发明还设计了一种电子设备，其特殊之处在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一所述的面向机械臂抓取的透明物体6D姿态估计方法。

基于同一发明构思，本发明还设计了一种电子设备，其特殊之处在于，包括：所述程序被处理器执行时实现上述任一所述的面向机械臂抓取的透明物体6D姿态估计方法。

本发明的优点：

1.本发明创新性地构建了一个三分支的端到端的深度学习网络，它由纹理特征提取网络分支、边缘特征提取网络、几何特征提取网络分支和关键点检测网络组成；每个分支由编解码网络组成，能发挥提取单张图像的纹理信息、边缘信息和几何信息；关键点检测网络融合上述三种信息，并通过注意力模块获取全局特征，提高姿态估计的正确率；

2.本发明创新性使用自注意力特征融合思想，充分利用透明物体的纹理特征、边缘特征和几何特征，通过特征融合后再利用自注意力机制获取全局特征，提高透明物体6D姿态估计的准确率；

3.本发明创新型地构建了一个真实的RGB-D透明物体数据集，为透明物体6D姿态估计算法的研究及评估提供了支撑。

附图说明

图1是本发明的深度学习神经网络总体架构图。

图2是本发明的关键点检测网络架构图。

图3是本发明的***流程图。

具体实施方式

为了更好地理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明设计的面向机械臂抓取的透明物体6D姿态估计方，提供了一种新型的三分支的深度学习网络模型，其总体结构参见图1和图2。其具体实施例包含以下步骤：

步骤S1，构建真实的RGB-D透明物体数据集，所述数据集中的每一个样本包含数量为Q的RGB图像、数量为Q的深度图像、数量为Q的Edge图像和数量为Q的mask图像。具体实施过程说明如下：

S1-1，通过RGB-D传感器采集P个透明物体的Q张RGB图像和Q张深度图像，并采用边缘提取算法，获取 P×Q张Edge图像；对每张图像标注6D位姿标签；

步骤S2，构建深度学习网络模型，该模型包括纹理特征提取网络、边缘特征提取网络、几何特征提取网络以及关键点检测网络，其中，纹理特征提取网络、边缘特征提取网络、几何特征提取网络在附图1中分别标记为M1、M2、M3，关键点检测网络如附图2所示，附图2中M4表示多头注意力模块。特征提取网络都由编解码网络组成，关键点检测网络由多头自注意力模块和卷积层组成，多头自注意力模块数量为D；纹理特征提取网络和边缘特征提取网络的编解码网络为残差网络；几何特征提取网络的编解码网络为点云提取网络；具体的步骤为：

的纹理特征图和预测的Edge图像，

表示特征图的层数×高×宽。纹理特征图通过两层卷积层，并利用mask图像随机采样物体上的N个像素点，如果采样的点数不足N，则复制最后一个边缘点补足到N，并记住这N个点的坐标，最后输出大小为

的纹理特征向量，训练时使用数据集中的ground truth mask图像，测试时使用网络预测出的mask图像；将同一个样本的一张Edge图像输入边缘特征提取网络，经过边缘特征提取网络的编解码网络，输出

的几何特征向量；

；

进一步的，所述步骤S2中D为2，C ₁为32，C ₂为128，N为2048。

进一步的，所述步骤S2中纹理特征提取网络使用ResNet34为基准网络。

进一步的，所述步骤S2中边缘特征提取网络使用ResNet18为基准网络。

进一步地，所述步骤S2中几何特征提取网络使用PointNet++为基准网络。

步骤S3，利用S1构建的真实RGB-D透明物体数据集对步骤S2构建的深度学习模型进行训练；

为平衡参数，

为聚焦参数，

是第i个像素点属于每个类的置信度，

是ground truth类标签的one-hot表示，定义语义分割损失函数：

公式中：

，并通过最小优化求解：

；

、

的值可根据需要选取，本实施例

取1，

取2；

是网络预测的特征向量，

。

进一步地，以语义分割损失

和关键点检测损失

为目标，使用反向传播算法对S-2中网络结构进行训练；

进一步地，关键点检测网络的注意力模块以自监督学习进行无监督训练的。

步骤S4，利用步骤S3训练好的深度学习模型，将RGB图像输入到纹理特征提取网络，将边缘提取算法输出的Edge图像输入到边缘特征提取网络，深度图像输入到几何特征提取网络，网络输出检测出来的一组关键点，检测出来的关键点和在透明物体模型上采样得到的关键点通过最小二乘法计算得到透明物体在当前图像中的6D位姿。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种面向机械臂抓取的透明物体6D姿态估计方法，其特征在于，包含以下步骤：

步骤S2，构建三分支深度学习网络模型，第一个分支输入数据为RGB图像，第二个分支输入数据为Edge图像，第三个分支输入数据为深度图像；所述深度学习网络集成纹理特征提取网络、边缘特征提取网络、几何特征提取网络和关键点检测网络进行姿态估计；所述纹理特征提取网络、边缘特征提取网络以及几何特征提取网络为编解码结构，关键点检测网络融合纹理特征、边缘特征和几何特征，并采用注意力机制，获取全局特征；

步骤S3，利用S1构建的真实透明物体数据集对步骤S2构建的深度学习网络模型进行训练；

步骤S4，利用步骤S3训练好的模型进行透明物体6D姿态估计。

2.根据权利要求1所述的面向机械臂抓取的透明物体6D姿态估计方法，其特征在于：所述步骤S1具体为：