CN117456002A

CN117456002A - 无序抓取过程中对象的位姿估计方法、装置和电子设备

Info

Publication number: CN117456002A
Application number: CN202311776809.9A
Authority: CN
Inventors: 王鑫; 彭岗举; 蒋峰; 彭举彬; 韦玉成
Original assignee: Zhuhai Genu Technology Co ltd; University of Electronic Science and Technology of China
Current assignee: Zhuhai Genu Technology Co ltd; University of Electronic Science and Technology of China
Priority date: 2023-12-22
Filing date: 2023-12-22
Publication date: 2024-01-26
Anticipated expiration: 2043-12-22
Also published as: CN117456002B

Abstract

本发明实施例提供了一种无序抓取过程中对象的位姿估计方法、装置和电子设备，方法包括：获取包含抓取对象的目标图像，将目标图像输入目标检测模型中，输出抓取对象的二维显示区域和抓取对象的对象分类信息；获取抓取对象的初始点云数据，基于二维显示区域确定三维区域，获取三维区域包含的第一点云集合；将第一点云集合和对象分类信息输入至点云分割模型，输出抓取对象对应的平移定位参数和残差距离参数；将平移定位参数、残差距离参数以及对象分类信息输入至旋转定位模型中，确定抓取对象对应的旋转定位参数；基于旋转定位参数和平移定位参数，输出抓取对象的位姿数据。该方式提高了复杂环境下抓取对象的位姿识别准确率，增加了抓取成功率。

Description

无序抓取过程中对象的位姿估计方法、装置和电子设备

技术领域

本发明涉及计算机视觉技术领域，尤其是涉及一种无序抓取过程中对象的位姿估计方法、装置和电子设备。

背景技术

视觉图像是获取真实世界信息的有效手段，计算机视觉技术在机器人非结构化场景感知中占据重要的地位，对于机器人抓取应用，需要通过视觉感知算法提取抓取对象的特征，如物***置、角度、姿态等信息，从而使机器人能够执行对应操作，完成抓取任务。因此，快速准确的物***姿估计是机器人抓取***的重要功能，能帮助机器人进行路径规划与抓取动作选择，达成高效的抓取效果。实际工业环境下，在抓取对象间可能存在遮挡、杂乱和堆叠等复杂环境，现有技术中，对于复杂环境下无序物体的姿态估计采用的方法大多为基于模板或投票的方法，这些方法精度不高，难以满足复杂环境下物体姿态的快速准确估计，降低了机器人抓取成功率。

发明内容

有鉴于此，本发明的目的在于提供一种无序抓取过程中对象的位姿估计方法、装置和电子设备，以提高遮挡、杂乱和堆叠等复杂环境下抓取对象的位姿估计的准确率，提高抓取成功率。

第一方面，本发明实施例提供了一种无序抓取过程中对象的位姿估计方法，该方法包括：通过相机装置获取包含抓取对象的目标图像，将目标图像输入至目标检测模型中，输出目标图像中抓取对象的二维显示区域以及抓取对象的对象分类信息；获取包含抓取对象的初始点云数据，基于二维显示区域确定指定形状的三维区域，从初始点云数据中，获取三维区域包含的第一点云集合；其中，第一点云集合中包括：抓取对象对应的点云数据以及抓取对象周围的点云数据；将第一点云集合和抓取对象的对象分类信息输入至点云分割模型中，输出抓取对象对应的平移定位参数，以及残差距离参数；其中，平移定位参数用于指示抓取对象的平移位置；残差距离参数用于：控制抓取对象对应的点云数据平移至预设的局部三维空间中；将抓取对象对应的平移定位参数、残差距离参数以及抓取对象的对象分类信息输入至旋转定位模型中，通过旋转定位模型，在局部三维空间中，确定抓取对象对应的旋转定位参数；其中，旋转定位参数用于指示抓取对象的旋转姿势；基于旋转定位参数和平移定位参数，输出抓取对象的位姿数据；其中，位姿数据包括：通过指定三维形状指示的抓取对象在三维空间中的平移位置以及旋转姿势。

第二方面，本发明实施例提供了一种无序抓取过程中对象的位姿估计装置，该装置包括：第一输出模块，用于通过相机装置获取包含抓取对象的目标图像，将目标图像输入至目标检测模型中，输出目标图像中抓取对象的二维显示区域以及抓取对象的对象分类信息；第一获取模块，用于获取包含抓取对象的初始点云数据，基于二维显示区域确定指定形状的三维区域，从初始点云数据中，获取三维区域包含的第一点云集合；其中，第一点云集合中包括：抓取对象对应的点云数据以及抓取对象周围的点云数据；第二输出模块，用于将第一点云集合和抓取对象的对象分类信息输入至点云分割模型中，输出抓取对象对应的平移定位参数，以及残差距离参数；其中，平移定位参数用于指示抓取对象的平移位置；残差距离参数用于：控制抓取对象对应的点云数据平移至预设的局部三维空间中；第一确定模块，用于将抓取对象对应的平移定位参数、残差距离参数以及抓取对象的对象分类信息输入至旋转定位模型中，通过旋转定位模型，在局部三维空间中，确定抓取对象对应的旋转定位参数；其中，旋转定位参数用于指示抓取对象的旋转姿势；第三输出模块，用于基于旋转定位参数和平移定位参数，输出抓取对象的位姿数据；其中，位姿数据包括：通过指定三维形状指示的抓取对象在三维空间中的平移位置以及旋转姿势。

第三方面，本发明实施例提供了一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述无序抓取过程中对象的位姿估计方法。

第四方面，本发明实施例提供了一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述无序抓取过程中对象的位姿估计方法。

本发明实施例带来了以下有益效果：

本发明实施例提供了一种无序抓取过程中对象的位姿估计方法、装置和电子设备，该方法包括：通过相机装置获取包含抓取对象的目标图像，将目标图像输入至目标检测模型中，输出目标图像中抓取对象的二维显示区域以及抓取对象的对象分类信息；获取包含抓取对象的初始点云数据，基于二维显示区域确定指定形状的三维区域，从初始点云数据中，获取三维区域包含的第一点云集合；其中，第一点云集合中包括：抓取对象对应的点云数据以及抓取对象周围的点云数据；将第一点云集合和抓取对象的对象分类信息输入至点云分割模型中，输出抓取对象对应的平移定位参数，以及残差距离参数；其中，平移定位参数用于指示抓取对象的平移位置；残差距离参数用于：控制抓取对象对应的点云数据平移至预设的局部三维空间中；将抓取对象对应的平移定位参数、残差距离参数以及抓取对象的对象分类信息输入至旋转定位模型中，通过旋转定位模型，在局部三维空间中，确定抓取对象对应的旋转定位参数；其中，旋转定位参数用于指示抓取对象的旋转姿势；基于旋转定位参数和平移定位参数，输出抓取对象的位姿数据；其中，位姿数据包括：通过指定三维形状指示的抓取对象在三维空间中的平移位置以及旋转姿势。该方式中，获取包含抓取对象的初始点云数据，根据目标检测模型输出的二维显示区域确定指定形状的三维区域，在三维区域中确定第一点云集合，将第一点云集合和抓取对象的对象分类信息作为输入信息，输入点云分割模型中进行特征提取和点云数据的分割，避免了无关点云数据的干扰，极大程度地提高了抓取对象的识别效果，然后，通过点云分割模型得到抓取对象对应的平移定位参数和残差距离参数，通过旋转定位模型将分割后的点云转换到局部三维空间中确定抓取对象对应的旋转定位参数，根据旋转定位参数和平移定位参数输出抓取对象的位姿数据，该方式可实现遮挡、杂乱和堆叠等复杂环境下抓取对象的位姿快速准确估计，提高抓取成功率。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种无序抓取过程中对象的位姿估计方法的流程图；

图2为本发明实施例提供的一种确定第一点云集合的示意图；

图3为本发明实施例提供的一种点云分割模型的网络架构的示意图；

图4为本发明实施例提供的一种第一卷积模块的网络架构的示意图；

图5为本发明实施例提供的一种旋转定位模型的网络架构的示意图；

图6为本发明实施例提供的一种无序抓取过程中对象的位姿估计装置的示意图；

图7为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本实施例进行理解，如图1所示，首先对本发明实施例所公开的一种无序抓取过程中对象的位姿估计方法进行详细介绍。

步骤S102、通过相机装置获取包含抓取对象的目标图像，将该目标图像输入至目标检测模型中，输出目标图像中抓取对象的二维显示区域以及抓取对象的对象分类信息；

上述抓取对象包括汽配轴承等工业零件，上述相机装置可以是光学相机，例如激光雷达、3D相机、三维激光扫描仪等用于获取物体三维关系的仪器装置，相机装置的数量不受限限制。上述目标图像是带有深度和RGB数字信息的图像，目标图像包括RGB图像和深度图像；上述目标检测模型是一种目标检测深度学习网络结构，用于在目标图像中自动识别和定位抓取对象的位置，并为目标图像添加对象边界框进行指示，对象边界框中包含感兴趣的图像信息及其相应的类别标签。在这里，目标缺陷检测模型基于YOLOx、EfficientDet、RetinaNet等深度学习网络架构改进后得到，目标缺陷检测模型预先通过大量的样本数据集训练完成，示例地，当抓取对象为工业零件时，样本数据集包括RGB图、深度图、工业零件的类别、工业零件的对象边界框、工业零件的mask。上述抓取对象的二维显示区域即为目标图像中对象边界框包围的区域，上述抓取对象的对象分类信息通过对象边界框包含的类别标签确定。

上述抓取对象处于遮挡、杂乱和堆叠等无序状态的堆叠物体中，通过相机装置获取包含抓取对象的目标图像，目标图像中带有深度和RGB数字信息，图像中抓取对象可能处于遮挡、堆叠等无序状态，将目标图像输入至目标检测模型中，在目标图像中得到对象边界框包围的二维显示区域，二维显示区域中包含抓取对象的位姿信息和类别信息；将对象边界框包含的类别标签转换为独热编码向量，独热编码向量作为抓取对象的对象分类信息，以便更好地进行点云数据实例平移和旋转估计。

步骤S104、获取包含抓取对象的初始点云数据，基于二维显示区域确定指定形状的三维区域，从初始点云数据中，获取三维区域包含的第一点云集合；其中，第一点云集合中包括：抓取对象对应的点云数据以及抓取对象周围的点云数据；

上述第一点云集合是在三维空间中定位抓取对象及其周围的点云数据的集合，在这里，抓取对象周围的点云数据为抓取对象周围环境的点云数据，例如：堆叠物体遮挡抓取对象的点云数据。这些点云数据不属于抓取对象对应的点云数据，会对抓取对象的位姿估计造成干扰。

第一点云集合中的点云数据来自于由二维显示区域确定的三维区域中的点云。上述指定形状的三维区域包括四棱台形状的三维区域。

根据目标图像中的信息获取包含抓取对象的初始点云数据，利用目标图像中的深度信息，根据相机的摄像头投影矩阵、摄像头的内参矩阵、摄像头的外参矩阵，将二维显示区域映射为指定形状的三维区域，该三维区域具有由相机装置的深度传感器范围指定的底面和顶面，且三维区域的底面尺寸与二维显示区域的区域尺寸相匹配。

收集初始点云数据中被该指定形状的三维区域包围的点云，然后，根据这些点云在该三维区域中的分布信息，确定第一点云集合，第一点云集合中包括抓取对象对应的点云数据以及抓取对象周围的点云数据。后续将以第一点云集合中的点云数据为基础，获取抓取对象的位姿数据。

该方式下，将二维显示区域提升至三维区域后，不是简单的将三维区域中所包含的点云数据都取出来，而是根据被三维区域包围的点云数据在三维空间中的分布信息，有目的确定第一点云集合，在保证了包含抓取对象点云信息的基础上，降低点云的数量，减少了三维坐标轴各个方向上的点云搜索空间，同时避免了无关点云数据的干扰，极大程度地提高了抓取对象的识别效果。

步骤S106、将第一点云集合和抓取对象的对象分类信息输入至点云分割模型中，输出抓取对象对应的平移定位参数，以及残差距离参数；其中，平移定位参数用于指示抓取对象的平移位置；残差距离参数用于：控制抓取对象对应的点云数据平移至预设的局部三维空间中；

上述点云分割模型用于对第一点云数据集合中的点云数据执行3D分割和平移预测，输出抓取对象对应的平移定位参数和残差距离参数。点云分割模型预先通过大量样本数据集训练完成，点云分割模型包括依次串联的第一卷积模块、第一最大池化模块、第一数据叠加模块、第二卷积模块和第一残差计算模块。上述预设的局部三维空间为采用局部规范坐标系描述的空间，可以理解的，将抓取对象的点云数据平移到局部规范空间，可以将抓取对象的位姿转化为一个规范化的表示形式，视点信息更明显。

本步骤中，将第一点云集合和抓取对象的对象分类信息输入至点云分割模型中，根据抓取对象的对象分类信息对第一点云集合进行特征提取，利用提取的特征对第一点云集合执行3D分割，准确分割出抓取对象对应的点云数据，以提供抓取对象的更丰富的信息和更好的处理遮挡。通过提取抓取对象对应的点云数据的特征，计算该抓取对象的平移定位参数，然后，将该抓取对象对应的平移定位参数输入至点云分割模型对应的残差计算模块中，输出残差距离参数，通过残差距离参数可以将该抓取对象对应的点云数据转换至局部三维空间中。

一种实施方式中，将第一点云集合输入点云分割模型中的第一卷积模块中，并将计算结果输出至第一最大池化模块，通过第一最大池化模块对第一卷积模块输出的计算结果进行降维处理，得到第一降维结果，通过在数据叠加模块中输入最大池化模块的第一降维结果、第一卷积模块中每个卷积层的输出结果以及抓取对象的对象分类信息，并对第一最大池化模块的第一降维结果、第一卷积模块中每个卷积层的输出结果和抓取对象的对象分类信息进行叠加处理，得到第一叠加结果，然后，在点云分割模型的第二卷积模块中输入第一叠加结果，并对第一叠加结果进行卷积计算，得到抓取对象对应的平移定位参数，最后，将抓取对象对应的平移定位参数输入至点云分割模型的第一残差计算模块中，得到残差距离参数。

步骤S108、将抓取对象对应的平移定位参数、残差距离参数以及抓取对象的对象分类信息输入至旋转定位模型中，通过旋转定位模型，在局部三维空间中，确定抓取对象对应的旋转定位参数；其中，旋转定位参数用于指示抓取对象的旋转姿势；

上述旋转定位模型用于将分割后的点云数据转换到局部三维空间进行旋转估计，得到抓取对象对应的旋转定位参数。在这里，旋转定位模型包括特征提取模块、旋转定位参数计算模块和第二旋转残差计算模块，旋转定位参数计算模块和第二旋转残差计算模块分别与特征提取模块连接，旋转定位模型中的特征提取模块包括依次串联的第三卷积模块、第二最大池化模块和第二数据叠加模块，旋转定位模型预先通过大量样本数据集训练完成。第二旋转残差计算模块包括多个卷积层、最大池化层和全连接层。

将抓取对象对应的平移定位参数、残差距离参数以及抓取对象的对象分类信息输入至旋转定位模型中，将3D分割后的抓取对象对应的点云数据转移到局部规范坐标中，基于局部三维空间中抓取对象对应的点云数据，获取抓取对象的旋转定位参数，一种方式中，旋转定位模型还可以通过第二旋转残差模块获取抓取对象的旋转定位参数和真实旋转定位参数之间的参数残差，通过参数残差来评估旋转定位模型对旋转定位参数的预测能力。

具体地，将抓取对象对应的平移定位参数和残差距离参数输入特征提取模块中的第三卷积模块，将计算结果输出至第二最大池化模块，然后，通过第二最大池化模块对第三卷积模块输出的计算结果进行降维处理，得到降维结果，通过第二数据叠加模块输入第二最大池化模块的降维结果、第三卷积模块中每个卷积层的输出结果以及抓取对象的对象分类信息，并对第二最大池化模块的降维结果、第三卷积模块中每个卷积层的输出结果和抓取对象的对象分类信息进行叠加处理，得到第二叠加结果，旋转定位参数计算模块输入第二叠加结果，输出抓取对象对应的旋转定位参数，第二旋转残差计算模块输入第二叠加结果，输出旋转定位参数对应的参数残差。

步骤S110、基于旋转定位参数和平移定位参数，输出抓取对象的位姿数据；其中，位姿数据包括：通过指定三维形状指示的抓取对象在三维空间中的平移位置以及旋转姿势。

在旋转定位模型输出的视觉图像中抓取对象被指定三维形状包围，并通过旋转定位参数和平移定位参数，输出抓取对象的位姿数据，该位姿数据指示抓取对象在三维空间中的平移位置以及旋转姿势，通过位姿数据可以定位提取抓取对象的空间位置和姿态信息，可实现复杂环境下抓取对象的位姿快速准确估计。

上述无序抓取过程中对象的位姿估计方法，通过相机装置获取包含抓取对象的目标图像，将目标图像输入至目标检测模型中，输出目标图像中抓取对象的二维显示区域以及抓取对象的对象分类信息；获取包含抓取对象的初始点云数据，基于二维显示区域确定指定形状的三维区域，从初始点云数据中，获取三维区域包含的第一点云集合；其中，第一点云集合中包括：抓取对象对应的点云数据以及抓取对象周围的点云数据；将第一点云集合和抓取对象的对象分类信息输入至点云分割模型中，输出抓取对象对应的平移定位参数，以及残差距离参数；其中，平移定位参数用于指示抓取对象的平移位置；残差距离参数用于：控制抓取对象对应的点云数据平移至预设的局部三维空间中；将抓取对象对应的平移定位参数、残差距离参数以及抓取对象的对象分类信息输入至旋转定位模型中，通过旋转定位模型，在局部三维空间中，确定抓取对象对应的旋转定位参数；其中，旋转定位参数用于指示抓取对象的旋转姿势；基于旋转定位参数和平移定位参数，输出抓取对象的位姿数据；其中，位姿数据包括：通过指定三维形状指示的抓取对象在三维空间中的平移位置以及旋转姿势。该方式中，获取包含抓取对象的初始点云数据，根据目标检测模型输出的二维显示区域确定指定形状的三维区域，在三维区域中确定第一点云集合，将第一点云集合和抓取对象的对象分类信息作为输入信息，输入点云分割模型中进行特征提取和点云数据的分割，避免了无关点云数据的干扰，极大程度地提高了抓取对象的识别效果，然后，通过点云分割模型得到抓取对象对应的平移定位参数和残差距离参数，通过旋转定位模型将分割后的点云转换到局部三维空间中确定抓取对象对应的旋转定位参数，根据旋转定位参数和平移定位参数输出抓取对象的位姿数据，该方式可实现遮挡、杂乱和堆叠等复杂环境下抓取对象的位姿快速准确估计，提高抓取成功率。

下述实施例提供获取第一点云集合的实现方式。

一种方式中，基于相机装置的透视参数，在三维空间中确定二维显示区域对应的四棱台形状的三维区域；其中，二维显示区域的区域尺寸与四棱台形状的底面尺寸相匹配；从初始点云数据中，获取三维区域包围的初始点云集合；计算初始点云集合的点云质量中心，以点云质量中心为球心，以抓取对象的对象直径为球半径，生成三维球形；将三维球形包含的点云确定为第一点云集合。

上述相机装置的透视参数包括摄像头投影矩阵、摄像头的内参矩阵、摄像头的外参矩阵。上述抓取对象的对象直径，指的是该抓取对象在目标图像上的显示区域中任意两点距离的最大者。

利用相机装置的透视参数做矩阵变换，可以确定二维显示区域在三维空间中对应的四棱台形状的三维区域，四棱台形状的底面尺寸与二维显示区域的区域尺寸相同，在这里，初始点云数据中部分点云数据被四棱台形状的三维区域包围，获取被四棱台形状的三维区域包围的点云，得到初始点云集合，初始点云集合中每个点云都具有坐标，计算初始点云集合中各点云之间的平均距离，平均距离可以反映出初始点云集合中的点云在四棱台形状的三维区域中的分布状态，基于平均距离得到初始点云集合的点云质量中心，以点云质量中心为球心，以抓取对象的对象直径为球半径，生成三维球形，如图2所示，三维球形包含的点云数据即为第一点云集合。

该方式中，将二维显示区域转换为三维区域后，不是简单的将三维区域中所包含的点云数据都取出来，而是进一步地，根据被三维区域包围的点云数据在三维空间中的分布信息，划定三维球形，根据被三维球形包围的更加紧凑的点云数据，对抓取对象进行平移和旋转估计，去除了明显分布稀疏的离群点，减少了无关的点云数据的干扰，提高抓取对象对应的点云数据质量和准确性。

下述实施例提供输出抓取对象对应的平移定位参数，以及残差距离参数的实现方式。

具体地，点云分割模型包括：依次串联的第一卷积模块、第一最大池化模块、第一数据叠加模块、第二卷积模块和第一残差计算模块；第一卷积模块输入第一点云集合，并将计算结果输出至第一最大池化模块；第一最大池化模块对第一卷积模块输出的计算结果进行降维处理，得到第一降维结果；数据叠加模块输入最大池化模块的第一降维结果、第一卷积模块中每个卷积层的输出结果以及抓取对象的对象分类信息，并对第一最大池化模块的第一降维结果、第一卷积模块中每个卷积层的输出结果和抓取对象的对象分类信息进行叠加处理，得到第一叠加结果；第二卷积模块输入第一叠加结果，并对第一叠加结果进行卷积计算，得到抓取对象对应的平移定位参数；将抓取对象对应的平移定位参数输入至第一残差计算模块中，输出残差距离参数。

如图3所示，点云分割模型由依次串联的第一卷积模块、第一最大池化模块、第一数据叠加模块、第二卷积模块和第一残差计算模块组成。

在各类图像处理相关任务中，卷积始终是特征提取的主要手段，将视觉数据经卷积计算后可提取到视觉数据的相应特征。卷积核可以提取视觉数据的边沿、线性、角等特征。通过卷积操作可以提取出视觉数据低级到复杂的特征。第一卷积模块用于对第一点云集合中的点云数据进行点云特征提取，第一卷积模块中，每个卷积层均通过归一化函数和ReLu函数操作，提取图像的深度特征，按照指定的步长依次对局部区域进行卷积运算，得到计算结果，该计算结果中包含了识别到的第一点云集合中点云数据的更加细化的特征。

进一步地，当第一卷积模块输出计算结果后，将计算结果输出至第一最大池化模块，通过第一最大池化模块对第一卷积模块输出的计算结果进行降维处理，一个实施例中，第一最大池化模块中使用步幅为3的4×4最大池化层来减小输出高宽，按照给定的步幅大小移动池化核对第一卷积模块输出的计算结果对应的特征矩阵进行最大池化运算操作，将第一卷积模块输出的计算结果对应的每个区域内特征的最大值放入池化矩阵中，得到第一降维结果。第一最大池化模块通过将点云图像的特征进行降维，得到第一降维结果，第一降维结果中，提取出了点云数据中最显著的特征，减少了神经网络的参数量，有助于保留重要点云特征信息并抑制噪声。

进一步地，数据叠加模块输入最大池化模块的第一降维结果、第一卷积模块中每个卷积层的输出结果以及抓取对象的对象分类信息，并对第一最大池化模块的第一降维结果、第一卷积模块中每个卷积层的输出结果和抓取对象的对象分类信息进行叠加处理，数据叠加模块中还包含实例分割网络，通过实例分割网络分割出单个抓取对象对应的点云数据，并将分割后的单个抓取对象的点云数据特征作为第一叠加结果。

进一步地，第二卷积模块输入第一叠加结果，并对第一叠加结果进行卷积计算，得到抓取对象对应的平移定位参数。

进一步地，将抓取对象对应的平移定位参数输入至第一残差计算模块中，输出残差距离参数，在这里，第一残差计算模块包括第一残差计算模块包括第一卷积子模块、第一最大池化层和第二卷积子模块，通过将输入抓取对象对应的平移定位参数经过卷积计算和降维处理后，再次进行卷积运算，输出残差距离参数，以通过残差距离参数控制抓取对象对应的点云数据平移至预设的局部三维空间中。

一种方式中，第一卷积模块中包括多层依次串联的卷积层，任意相邻的两个卷积层之间设置有注意力模块，最后一层卷积层和第一最大池化模块之间设置有注意力模块；注意力模块包括全局平均池化层、第一全连接层和输出层；全局平均池化层对输入数据进行全局平均池化，得到特征向量；特征向量中包括输入数据中每个通道的通道特征；第一全连接层对特征向量中，不同通道的通道特征进行相关性分析，输出每个通道对应的权重参数；输出层基于权重参数对输入数据进行权重计算，得到输出数据。

一种第一卷积模块的架构中，如图4所示，第一卷积模块中包括3层依次串联的卷积层，每层卷积层的卷积核大小3x3，每层卷积层中卷积核的大小以Conv3x3表示，每层卷积层对应的卷积核数量依次为：64、64、128，任意相邻的两个卷积层之间设置有注意力模块，最后一层卷积层和第一最大池化模块之间设置有注意力模块；在这里，注意力模块根据输入的上下文信息来动态地计算不同通道中每个输入数据的权重，根据重要性对输入数据进行加权，将加权后的输入进行求和，得到最终的输出。本实施例中注意力模块包括全局平均池化层、第一全连接层和输出层。通过注意力模块对点云数据特征进行压缩并利用通道之间的相互依赖性来进一步细化点云数据的特征。

第一卷积模块的卷积层中，卷积核按照指定的步长依次对局部区域进行卷积运算，卷积层的计算公式如下：

其中，表示第/>层的输入特征；/>表示第/>的卷积核的权重参数；/>表示在第层的偏置参数；/>为第/>层的输出。

具体地，第一点云集合输入第一卷积模块中，通过第一卷积模块中的第一层卷积层对第一点云集合中的点云数据进行点云特征提取，按照指定的步长依次对局部区域进行卷积运算，得到第一卷积运算结果，将第一卷积运算结果作为输入数据输入注意力模块。在注意力模块中，全局平均池化层对输入数据进行全局平均池化，得到包含输入数据中每个通道特征的特征向量，然后，通过第一全连接层对该特征向量中不同通道的通道特征进行相关性分析，输出每个通道对应的权重参数，最后，通过输出层根据权重参数对输入数据进行权重计算，得到输出数据。进一步地，将输出数据作为输入数据，输入第一卷积模块中的第二层卷积层，第二层卷积层对输入的数据进行特征提取，按照指定的步长依次对局部区域进行卷积运算，得到第二卷积运算结果，然后，将第二卷积运算结果作为输入数据输入与第二层卷积层连接的注意力模块中进行权重计算，得到下一个输出数据，按照第一卷积模块的架构依次进行卷积运算和注意力模块中的各通道特征权重计算，最后，将计算结果输入第一最大池化模块。

该方式中，通过在第一卷积模块中任意相邻两个卷积层之间设置注意力模块、在最后一层卷积层和第一最大池化模块之间设置有注意力模块，注意力模块通过对点云数据特征进行压缩并利用通道之间的相互依赖性来细化图像特征，提高点云分割模型的特征提取能力，即使在部分遮挡的情况下也可以识别到抓取对象。

一种方式中，第一残差计算模块包括第一卷积子模块、第一最大池化层和第二卷积子模块；第一卷积子模块输入抓取对象对应的平移定位参数，输出平移定位参数的卷积计算结果；第一最大池化层输入卷积计算结果，对卷积计算结果进行降维处理，得到降维后的卷积计算结果；第二卷积子模块输入降维后的卷积计算结果，并对降维后的卷积计算结果进行卷积计算，输出残差距离参数。

在这里，第一残差计算模块包括第一卷积子模块、第一最大池化层和第二卷积子模块。通过第一卷积子模块输入抓取对象对应的平移定位参数，输出平移定位参数的卷积计算结果，第一最大池化层输入卷积计算结果，对卷积计算结果进行降维处理，得到降维后的卷积计算结果，然后，第二卷积子模块输入降维后的卷积计算结果，并对降维后的卷积计算结果进行卷积计算，输出残差距离参数。

下述实施例提供确定抓取对象对应的旋转定位参数的实现方式。

具体地，旋转定位模型包括特征提取模块、旋转定位参数计算模块和第二旋转残差计算模块；旋转定位参数计算模块和第二旋转残差计算模块分别与特征提取模块连接；特征提取模块包括依次串联的第三卷积模块、第二最大池化模块和第二数据叠加模块；第三卷积模块输入抓取对象对应的平移定位参数和残差距离参数，并将计算结果输出至第二最大池化模块；第二最大池化模块对第三卷积模块输出的计算结果进行降维处理，得到降维结果；第二数据叠加模块输入第二最大池化模块的降维结果、第三卷积模块中每个卷积层的输出结果以及抓取对象的对象分类信息，并对第二最大池化模块的降维结果、第三卷积模块中每个卷积层的输出结果和抓取对象的对象分类信息进行叠加处理，得到第二叠加结果；旋转定位参数计算模块输入第二叠加结果，输出抓取对象对应的旋转定位参数；第二旋转残差计算模块输入第二叠加结果，输出旋转定位参数对应的参数残差。

一种方式中，旋转定位模型网络架构如图5所示，该旋转定位模型用于从局部三维空间中抓取对象对应的点云数据中提取逐点嵌入向量特征，通过集成逐点嵌入向量特征来确定抓取对象的旋转定位参数。

图5中通过将抓取对象对应的平移定位参数和残差距离参数输入特征提取模块中依次串联的3个第三卷积模块，进行卷积运算，并将计算结果输出至第二最大池化模块，第二最大池化模块对第三卷积模块输出的计算结果进行降维处理，得到降维结果，然后，将该降维结果、第三卷积模块中每个卷积层的输出结果以及抓取对象的对象分类信息，输入至第二数据叠加模块，通过第二数据叠加模块对这些数据信息进行叠加处理，得到第二叠加结果。通过第二叠加结果，可以得到前述局部三维空间中抓取对象对应的点云数据特征。

进一步地，将第二叠加结果输入旋转定位参数计算模块，输出抓取对象对应的旋转定位参数。在这里，旋转定位参数计算模块基于局部三维空间中抓取对象对应的点云数据特征，通过集成逐点嵌入向量特征来确定抓取对象的旋转定位参数。首先，预先使用最远点采样算法对每个抓取对象模型中的关键点进行采样，得到抓取对象模型中的关键点数量和关键点位置，然后，在旋转定位参数计算模块中，输入抓取对象模型中的关键点数量和关键点位置，从第二叠加结果中提取抓取对象对应的点云数据中指向关键点的单位向量，进而提取到抓取对象对应的点云数据的逐点嵌入向量特征，最后，将逐点嵌入向量特征输入旋转定位参数计算模块中的多层感知器中，得到抓取对象的旋转定位参数。

为了更好地利用逐点嵌入向量特征中的视点信息，旋转定位模型还添加了一个额外的网络分支，该网络分支包括第二旋转残差计算模块，将抓取对象的旋转定位参数输入第二旋转残差计算模块，输出旋转定位参数对应的参数残差，来评估旋转定位模型对旋转定位参数的预测能力。

一种方式中，第二旋转残差计算模块包括第一卷积层、第二卷积层、第二最大池化层和第二全连接层；第二旋转残差计算模块预先基于样本数据的真实旋转定位参数，以及旋转定位参数计算模块输出的样本数据的预测旋转定位参数训练得到；第二旋转残差计算模块中第一卷积层的卷积通道小于第二卷积层的卷积通道；第一卷积层输入抓取对象对应的旋转定位参数，对抓取对象对应的旋转定位参数进行第一卷积计算，得到第一卷积计算结果；第二卷积层对第一卷积计算结果进行第二卷积计算，得到第二卷积计算结果；第二最大池化层输入第二卷积计算结果，对第二卷积计算结果进行降维处理，得到第二降维结果；第二全连接层对第二降维结果进行全连接处理，输出旋转定位参数对应的参数残差。

上述第二旋转残差计算模块，用于评估旋转定位参数计算模块输出的旋转定位参数和抓取对象旋转姿势的真实值之间的残差。在这里，预先训练第二旋转残差计算模块，通过获取大量样本数据集，获取样本数据的旋转姿态对应的真实旋转定位参数，以及将样本数据输入旋转定位模型得到的预测旋转定位参数，将真实旋转定位参数和预测旋转定位参数组合为训练样本，利用大规模的训练样本对第二旋转残差计算模块进行训练，直至输出结果与输入的训练样本的匹配程度达到预设的匹配程度，第二旋转残差计算模块预先训练完成，在这里，假设样本数据的旋转姿态对应的真实旋转定位参数d，样本数据输入旋转定位模型得到的预测旋转定位参数d1，则第二旋转残差计算模块的目标为，该值越小，说明旋转定位模型对旋转定位参数的预测能力越准确。

一个具体的实现方式中，第二旋转残差计算模块中的第一卷积层、第二卷积层、第二最大池化层和第二全连接层依次串联连接。将抓取对象对应的旋转定位参数输入第二旋转残差计算模块中的第一卷积层，在第一卷积层中对抓取对象对应的旋转定位参数进行第一卷积计算，得到第一卷积计算结果，第二卷积层对第一卷积计算结果进行第二卷积计算，得到第二卷积计算结果，然后，第二最大池化层输入第二卷积计算结果，对第二卷积计算结果进行降维处理，得到第二降维结果，最后，第二全连接层对第二降维结果进行全连接处理，输出旋转定位参数对应的参数残差。

该方式中，通过第二旋转残差计算模块输出旋转定位参数对应的参数残差，根据参数残差来评估旋转定位模型对旋转定位参数的预测能力，后续还可以基于得到的参数残差对旋转定位模型进行优化，解决网络加深过程中性能退化的问题，增强特征的传播、减少参数量。

对应于上述方法实施例，参见图6所示的一种无序抓取过程中对象的位姿估计装置的示意图，该装置可实现上述无序抓取过程中对象的位姿估计方法，该装置包括：

第一输出模块602，用于通过相机装置获取包含抓取对象的目标图像，将目标图像输入至目标检测模型中，输出目标图像中抓取对象的二维显示区域以及抓取对象的对象分类信息；

第一获取模块604，用于获取包含抓取对象的初始点云数据，基于二维显示区域确定指定形状的三维区域，从初始点云数据中，获取三维区域包含的第一点云集合；其中，第一点云集合中包括：抓取对象对应的点云数据以及抓取对象周围的点云数据；

第二输出模块606，用于将第一点云集合和抓取对象的对象分类信息输入至点云分割模型中，输出抓取对象对应的平移定位参数，以及残差距离参数；其中，平移定位参数用于指示抓取对象的平移位置；残差距离参数用于：控制抓取对象对应的点云数据平移至预设的局部三维空间中；

第一确定模块608，用于将抓取对象对应的平移定位参数、残差距离参数以及抓取对象的对象分类信息输入至旋转定位模型中，通过旋转定位模型，在局部三维空间中，确定抓取对象对应的旋转定位参数；其中，旋转定位参数用于指示抓取对象的旋转姿势；

第三输出模块610，用于基于旋转定位参数和平移定位参数，输出抓取对象的位姿数据；其中，位姿数据包括：通过指定三维形状指示的抓取对象在三维空间中的平移位置以及旋转姿势。

该方式中，获取包含抓取对象的初始点云数据，根据目标检测模型输出的二维显示区域确定指定形状的三维区域，在三维区域中确定第一点云集合，将第一点云集合和抓取对象的对象分类信息作为输入信息，输入点云分割模型中进行特征提取和点云数据的分割，避免了无关点云数据的干扰，极大程度地提高了抓取对象的识别效果，然后，通过点云分割模型得到指示抓取对象平移位置的平移定位参数和抓取对象对应的残差距离参数，并将平移定位参数、残差距离参数和抓取对象的对象分类信息继续输入至旋转定位模型，得到指示抓取对象旋转姿势的旋转定位参数，最后，根据旋转定位参数和平移定位参数输出抓取对象的位姿数据，实现了遮挡、杂乱和堆叠等复杂环境下抓取对象的位姿快速准确估计，提高机器人抓取成功率。

上述第一获取模块，还用于基于相机装置的透视参数，在三维空间中确定二维显示区域对应的四棱台形状的三维区域；其中，二维显示区域的区域尺寸与四棱台形状的底面尺寸相匹配；从初始点云数据中，获取三维区域包围的初始点云集合；计算初始点云集合的点云质量中心，以点云质量中心为球心，以抓取对象的对象直径为球半径，生成三维球形；将三维球形包含的点云确定为第一点云集合。

上述点云分割模型包括：依次串联的第一卷积模块、第一最大池化模块、第一数据叠加模块、第二卷积模块和第一残差计算模块；上述第二输出模块，还用于第一卷积模块输入第一点云集合，并将计算结果输出至第一最大池化模块；第一最大池化模块对第一卷积模块输出的计算结果进行降维处理，得到第一降维结果；数据叠加模块输入最大池化模块的第一降维结果、第一卷积模块中每个卷积层的输出结果以及抓取对象的对象分类信息，并对第一最大池化模块的第一降维结果、第一卷积模块中每个卷积层的输出结果和抓取对象的对象分类信息进行叠加处理，得到第一叠加结果；第二卷积模块输入第一叠加结果，并对第一叠加结果进行卷积计算，得到抓取对象对应的平移定位参数；将抓取对象对应的平移定位参数输入至第一残差计算模块中，输出残差距离参数。

上述第一卷积模块中包括多层依次串联的卷积层，任意相邻的两个卷积层之间设置有注意力模块，最后一层卷积层和第一最大池化模块之间设置有注意力模块；注意力模块包括全局平均池化层、第一全连接层和输出层；全局平均池化层对输入数据进行全局平均池化，得到特征向量；特征向量中包括输入数据中每个通道的通道特征；第一全连接层对特征向量中，不同通道的通道特征进行相关性分析，输出每个通道对应的权重参数；输出层基于权重参数对输入数据进行权重计算，得到输出数据。

上述第一残差计算模块包括第一卷积子模块、第一最大池化层和第二卷积子模块；第一卷积子模块输入抓取对象对应的平移定位参数，输出平移定位参数的卷积计算结果；第一最大池化层输入卷积计算结果，对卷积计算结果进行降维处理，得到降维后的卷积计算结果；第二卷积子模块输入降维后的卷积计算结果，并对降维后的卷积计算结果进行卷积计算，输出残差距离参数。

上述旋转定位模型包括特征提取模块、旋转定位参数计算模块和第二旋转残差计算模块；旋转定位参数计算模块和第二旋转残差计算模块分别与特征提取模块连接；上述第一确定模块，还用于特征提取模块包括依次串联的第三卷积模块、第二最大池化模块和第二数据叠加模块；第三卷积模块输入抓取对象对应的平移定位参数和残差距离参数，并将计算结果输出至第二最大池化模块；第二最大池化模块对第三卷积模块输出的计算结果进行降维处理，得到降维结果；第二数据叠加模块输入第二最大池化模块的降维结果、第三卷积模块中每个卷积层的输出结果以及抓取对象的对象分类信息，并对第二最大池化模块的降维结果、第三卷积模块中每个卷积层的输出结果和抓取对象的对象分类信息进行叠加处理，得到第二叠加结果；旋转定位参数计算模块输入第二叠加结果，输出抓取对象对应的旋转定位参数；第二旋转残差计算模块输入第二叠加结果，输出旋转定位参数对应的参数残差。

上述第二旋转残差计算模块包括第一卷积层、第二卷积层、第二最大池化层和第二全连接层；第二旋转残差计算模块预先基于样本数据的真实旋转定位参数，以及旋转定位参数计算模块输出的样本数据的预测旋转定位参数训练得到；第一卷积层的卷积通道小于第二卷积层的卷积通道；上述装置还包括第四输出模块，用于第一卷积层输入抓取对象对应的旋转定位参数，对抓取对象对应的旋转定位参数进行第一卷积计算，得到第一卷积计算结果；第二卷积层对第一卷积计算结果进行第二卷积计算，得到第二卷积计算结果；第二最大池化层输入第二卷积计算结果，对第二卷积计算结果进行降维处理，得到第二降维结果；第二全连接层对第二降维结果进行全连接处理，输出旋转定位参数对应的参数残差。

本实施例还提供一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的计算机可执行指令，处理器执行计算机可执行指令以实现上述无序抓取过程中对象的位姿估计方法。该电子设备可以是服务器，也可以是终端设备。参见图7所示，该电子设备包括处理器100和存储器101，该存储器101存储有能够被处理器100执行的计算机可执行指令，该处理器100执行计算机可执行指令以实现上述无序抓取过程中对象的位姿估计方法。

进一步地，图7所示的电子设备还包括总线102和通信接口103，处理器100、通信接口103和存储器101通过总线102连接。其中，存储器101可能包含高速随机存取存储器（RAM，Random Access Memory），也可能还包括非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。通过至少一个通信接口103（可以是有线或者无线）实现该***网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。处理器100可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器100中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器100可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器101，处理器100读取存储器101中的信息，结合其硬件完成前述实施例的方法的步骤。

上述电子设备中的处理器，通过执行计算机可执行指令，可以实现上述无序抓取过程中对象的位姿估计方法的下述操作：通过相机装置获取包含抓取对象的目标图像，将目标图像输入至目标检测模型中，输出目标图像中抓取对象的二维显示区域以及抓取对象的对象分类信息。获取包含抓取对象的初始点云数据，基于二维显示区域确定指定形状的三维区域，从初始点云数据中，获取三维区域包含的第一点云集合；其中，第一点云集合中包括：抓取对象对应的点云数据以及抓取对象周围的点云数据；将第一点云集合和抓取对象的对象分类信息输入至点云分割模型中，输出抓取对象对应的平移定位参数，以及残差距离参数；其中，平移定位参数用于指示抓取对象的平移位置；残差距离参数用于：控制抓取对象对应的点云数据平移至预设的局部三维空间中；将抓取对象对应的平移定位参数、残差距离参数以及抓取对象的对象分类信息输入至旋转定位模型中，通过旋转定位模型，在局部三维空间中，确定抓取对象对应的旋转定位参数；其中，旋转定位参数用于指示抓取对象的旋转姿势；基于旋转定位参数和平移定位参数，输出抓取对象的位姿数据；其中，位姿数据包括：通过指定三维形状指示的抓取对象在三维空间中的平移位置以及旋转姿势。

上述电子设备中的处理器，通过执行计算机可执行指令，可以实现上述无序抓取过程中对象的位姿估计方法的下述操作：基于相机装置的透视参数，在三维空间中确定二维显示区域对应的四棱台形状的三维区域；其中，二维显示区域的区域尺寸与四棱台形状的底面尺寸相匹配；从初始点云数据中，获取三维区域包围的初始点云集合；计算初始点云集合的点云质量中心，以点云质量中心为球心，以抓取对象的对象直径为球半径，生成三维球形；将三维球形包含的点云确定为第一点云集合。

上述点云分割模型包括：依次串联的第一卷积模块、第一最大池化模块、第一数据叠加模块、第二卷积模块和第一残差计算模块；上述电子设备中的处理器，通过执行计算机可执行指令，可以实现上述无序抓取过程中对象的位姿估计方法的下述操作：第一卷积模块输入第一点云集合，并将计算结果输出至第一最大池化模块；第一最大池化模块对第一卷积模块输出的计算结果进行降维处理，得到第一降维结果；数据叠加模块输入最大池化模块的第一降维结果、第一卷积模块中每个卷积层的输出结果以及抓取对象的对象分类信息，并对第一最大池化模块的第一降维结果、第一卷积模块中每个卷积层的输出结果和抓取对象的对象分类信息进行叠加处理，得到第一叠加结果；第二卷积模块输入第一叠加结果，并对第一叠加结果进行卷积计算，得到抓取对象对应的平移定位参数；将抓取对象对应的平移定位参数输入至第一残差计算模块中，输出残差距离参数。

上述旋转定位模型包括特征提取模块、旋转定位参数计算模块和第二旋转残差计算模块；旋转定位参数计算模块和第二旋转残差计算模块分别与特征提取模块连接；上述电子设备中的处理器，通过执行计算机可执行指令，可以实现上述无序抓取过程中对象的位姿估计方法的下述操作：特征提取模块包括依次串联的第三卷积模块、第二最大池化模块和第二数据叠加模块；第三卷积模块输入抓取对象对应的平移定位参数和残差距离参数，并将计算结果输出至第二最大池化模块；第二最大池化模块对第三卷积模块输出的计算结果进行降维处理，得到降维结果；第二数据叠加模块输入第二最大池化模块的降维结果、第三卷积模块中每个卷积层的输出结果以及抓取对象的对象分类信息，并对第二最大池化模块的降维结果、第三卷积模块中每个卷积层的输出结果和抓取对象的对象分类信息进行叠加处理，得到第二叠加结果；旋转定位参数计算模块输入第二叠加结果，输出抓取对象对应的旋转定位参数；第二旋转残差计算模块输入第二叠加结果，输出旋转定位参数对应的参数残差。

上述第二旋转残差计算模块包括第一卷积层、第二卷积层、第二最大池化层和第二全连接层；第二旋转残差计算模块预先基于样本数据的真实旋转定位参数，以及旋转定位参数计算模块输出的样本数据的预测旋转定位参数训练得到；第一卷积层的卷积通道小于第二卷积层的卷积通道；上述电子设备中的处理器，通过执行计算机可执行指令，可以实现上述无序抓取过程中对象的位姿估计方法的下述操作：第一卷积层输入抓取对象对应的旋转定位参数，对抓取对象对应的旋转定位参数进行第一卷积计算，得到第一卷积计算结果；第二卷积层对第一卷积计算结果进行第二卷积计算，得到第二卷积计算结果；第二最大池化层输入第二卷积计算结果，对第二卷积计算结果进行降维处理，得到第二降维结果；第二全连接层对第二降维结果进行全连接处理，输出旋转定位参数对应的参数残差。

本实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述无序抓取过程中对象的位姿估计方法。

上述计算机可读存储介质存储中的计算机可执行指令，通过执行该计算机可执行指令，可以实现上述无序抓取过程中对象的位姿估计方法中的下述操作：通过相机装置获取包含抓取对象的目标图像，将目标图像输入至目标检测模型中，输出目标图像中抓取对象的二维显示区域以及抓取对象的对象分类信息。获取包含抓取对象的初始点云数据，基于二维显示区域确定指定形状的三维区域，从初始点云数据中，获取三维区域包含的第一点云集合；其中，第一点云集合中包括：抓取对象对应的点云数据以及抓取对象周围的点云数据；将第一点云集合和抓取对象的对象分类信息输入至点云分割模型中，输出抓取对象对应的平移定位参数，以及残差距离参数；其中，平移定位参数用于指示抓取对象的平移位置；残差距离参数用于：控制抓取对象对应的点云数据平移至预设的局部三维空间中；将抓取对象对应的平移定位参数、残差距离参数以及抓取对象的对象分类信息输入至旋转定位模型中，通过旋转定位模型，在局部三维空间中，确定抓取对象对应的旋转定位参数；其中，旋转定位参数用于指示抓取对象的旋转姿势；基于旋转定位参数和平移定位参数，输出抓取对象的位姿数据；其中，位姿数据包括：通过指定三维形状指示的抓取对象在三维空间中的平移位置以及旋转姿势。

上述计算机可读存储介质存储中的计算机可执行指令，通过执行该计算机可执行指令，可以实现上述无序抓取过程中对象的位姿估计方法中的下述操作：基于相机装置的透视参数，在三维空间中确定二维显示区域对应的四棱台形状的三维区域；其中，二维显示区域的区域尺寸与四棱台形状的底面尺寸相匹配；从初始点云数据中，获取三维区域包围的初始点云集合；计算初始点云集合的点云质量中心，以点云质量中心为球心，以抓取对象的对象直径为球半径，生成三维球形；将三维球形包含的点云确定为第一点云集合。

上述点云分割模型包括：依次串联的第一卷积模块、第一最大池化模块、第一数据叠加模块、第二卷积模块和第一残差计算模块；上述计算机可读存储介质存储中的计算机可执行指令，通过执行该计算机可执行指令，可以实现上述无序抓取过程中对象的位姿估计方法中的下述操作：第一卷积模块输入第一点云集合，并将计算结果输出至第一最大池化模块；第一最大池化模块对第一卷积模块输出的计算结果进行降维处理，得到第一降维结果；数据叠加模块输入最大池化模块的第一降维结果、第一卷积模块中每个卷积层的输出结果以及抓取对象的对象分类信息，并对第一最大池化模块的第一降维结果、第一卷积模块中每个卷积层的输出结果和抓取对象的对象分类信息进行叠加处理，得到第一叠加结果；第二卷积模块输入第一叠加结果，并对第一叠加结果进行卷积计算，得到抓取对象对应的平移定位参数；将抓取对象对应的平移定位参数输入至第一残差计算模块中，输出残差距离参数。

上述旋转定位模型包括特征提取模块、旋转定位参数计算模块和第二旋转残差计算模块；旋转定位参数计算模块和第二旋转残差计算模块分别与特征提取模块连接；上述计算机可读存储介质存储中的计算机可执行指令，通过执行该计算机可执行指令，可以实现上述无序抓取过程中对象的位姿估计方法中的下述操作：特征提取模块包括依次串联的第三卷积模块、第二最大池化模块和第二数据叠加模块；第三卷积模块输入抓取对象对应的平移定位参数和残差距离参数，并将计算结果输出至第二最大池化模块；第二最大池化模块对第三卷积模块输出的计算结果进行降维处理，得到降维结果；第二数据叠加模块输入第二最大池化模块的降维结果、第三卷积模块中每个卷积层的输出结果以及抓取对象的对象分类信息，并对第二最大池化模块的降维结果、第三卷积模块中每个卷积层的输出结果和抓取对象的对象分类信息进行叠加处理，得到第二叠加结果；旋转定位参数计算模块输入第二叠加结果，输出抓取对象对应的旋转定位参数；第二旋转残差计算模块输入第二叠加结果，输出旋转定位参数对应的参数残差。

上述第二旋转残差计算模块包括第一卷积层、第二卷积层、第二最大池化层和第二全连接层；第二旋转残差计算模块预先基于样本数据的真实旋转定位参数，以及旋转定位参数计算模块输出的样本数据的预测旋转定位参数训练得到；第一卷积层的卷积通道小于第二卷积层的卷积通道；上述计算机可读存储介质存储中的计算机可执行指令，通过执行该计算机可执行指令，可以实现上述无序抓取过程中对象的位姿估计方法中的下述操作：第一卷积层输入抓取对象对应的旋转定位参数，对抓取对象对应的旋转定位参数进行第一卷积计算，得到第一卷积计算结果；第二卷积层对第一卷积计算结果进行第二卷积计算，得到第二卷积计算结果；第二最大池化层输入第二卷积计算结果，对第二卷积计算结果进行降维处理，得到第二降维结果；第二全连接层对第二降维结果进行全连接处理，输出旋转定位参数对应的参数残差。

本发明实施例所提供的无序抓取过程中对象的位姿估计方法、装置和电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种无序抓取过程中对象的位姿估计方法，其特征在于，所述方法包括：

通过相机装置获取包含抓取对象的目标图像，将所述目标图像输入至目标检测模型中，输出所述目标图像中所述抓取对象的二维显示区域以及所述抓取对象的对象分类信息；

获取包含所述抓取对象的初始点云数据，基于所述二维显示区域确定指定形状的三维区域，从所述初始点云数据中，获取所述三维区域包含的第一点云集合；其中，所述第一点云集合中包括：所述抓取对象对应的点云数据以及所述抓取对象周围的点云数据；

将所述第一点云集合和所述抓取对象的对象分类信息输入至点云分割模型中，输出所述抓取对象对应的平移定位参数，以及残差距离参数；其中，所述平移定位参数用于指示所述抓取对象的平移位置；所述残差距离参数用于：控制所述抓取对象对应的点云数据平移至预设的局部三维空间中；

将所述抓取对象对应的平移定位参数、所述残差距离参数以及所述抓取对象的对象分类信息输入至旋转定位模型中，通过所述旋转定位模型，在所述局部三维空间中，确定所述抓取对象对应的旋转定位参数；其中，所述旋转定位参数用于指示所述抓取对象的旋转姿势；

基于所述旋转定位参数和所述平移定位参数，输出所述抓取对象的位姿数据；其中，所述位姿数据包括：通过指定三维形状指示的所述抓取对象在三维空间中的平移位置以及旋转姿势。

2.根据权利要求1所述的方法，其特征在于，基于所述二维显示区域确定指定形状的三维区域，从所述初始点云数据中，获取所述三维区域包含的第一点云集合的步骤，包括：

基于所述相机装置的透视参数，在三维空间中确定所述二维显示区域对应的四棱台形状的三维区域；其中，所述二维显示区域的区域尺寸与所述四棱台形状的底面尺寸相匹配；

从所述初始点云数据中，获取所述三维区域包围的初始点云集合；计算所述初始点云集合的点云质量中心，以所述点云质量中心为球心，以所述抓取对象的对象直径为球半径，生成三维球形；

将所述三维球形包含的点云确定为第一点云集合。

3.根据权利要求1所述的方法，其特征在于，所述点云分割模型包括：依次串联的第一卷积模块、第一最大池化模块、第一数据叠加模块、第二卷积模块和第一残差计算模块；

所述将所述第一点云集合和所述抓取对象的对象分类信息输入至点云分割模型中，输出所述抓取对象对应的平移定位参数，以及残差距离参数的步骤，包括：

所述第一卷积模块输入所述第一点云集合，并将计算结果输出至所述第一最大池化模块；所述第一最大池化模块对所述第一卷积模块输出的计算结果进行降维处理，得到第一降维结果；

所述数据叠加模块输入所述最大池化模块的第一降维结果、所述第一卷积模块中每个卷积层的输出结果以及所述抓取对象的对象分类信息，并对所述第一最大池化模块的第一降维结果、所述第一卷积模块中每个卷积层的输出结果和所述抓取对象的对象分类信息进行叠加处理，得到第一叠加结果；

所述第二卷积模块输入第一叠加结果，并对所述第一叠加结果进行卷积计算，得到所述抓取对象对应的平移定位参数；将所述抓取对象对应的平移定位参数输入至所述第一残差计算模块中，输出残差距离参数。

4.根据权利要求3所述的方法，其特征在于，第一卷积模块中包括多层依次串联的卷积层，任意相邻的两个卷积层之间设置有注意力模块，最后一层卷积层和所述第一最大池化模块之间设置有注意力模块；所述注意力模块包括全局平均池化层、第一全连接层和输出层；

所述全局平均池化层对输入数据进行全局平均池化，得到特征向量；所述特征向量中包括所述输入数据中每个通道的通道特征；

所述第一全连接层对所述特征向量中，不同通道的通道特征进行相关性分析，输出每个通道对应的权重参数；

所述输出层基于所述权重参数对所述输入数据进行权重计算，得到输出数据。

5.根据权利要求3所述的方法，其特征在于，所述第一残差计算模块包括第一卷积子模块、第一最大池化层和第二卷积子模块；

所述第一卷积子模块输入所述抓取对象对应的平移定位参数，输出所述平移定位参数的卷积计算结果；

所述第一最大池化层输入所述卷积计算结果，对所述卷积计算结果进行降维处理，得到降维后的所述卷积计算结果；

所述第二卷积子模块输入降维后的所述卷积计算结果，并对所述降维后的所述卷积计算结果进行卷积计算，输出残差距离参数。

6.根据权利要求1所述的方法，其特征在于，所述旋转定位模型包括特征提取模块、旋转定位参数计算模块和第二旋转残差计算模块；所述旋转定位参数计算模块和所述第二旋转残差计算模块分别与所述特征提取模块连接；

所述将所述抓取对象对应的平移定位参数、所述残差距离参数以及所述抓取对象的对象分类信息输入至旋转定位模型中，通过所述旋转定位模型，在所述局部三维空间中，确定所述抓取对象对应的旋转定位参数的步骤，包括：

所述特征提取模块包括依次串联的第三卷积模块、第二最大池化模块和第二数据叠加模块；所述第三卷积模块输入所述抓取对象对应的平移定位参数和所述残差距离参数，并将计算结果输出至所述第二最大池化模块；所述第二最大池化模块对所述第三卷积模块输出的计算结果进行降维处理，得到降维结果；

所述第二数据叠加模块输入所述第二最大池化模块的降维结果、所述第三卷积模块中每个卷积层的输出结果以及所述抓取对象的对象分类信息，并对所述第二最大池化模块的降维结果、所述第三卷积模块中每个卷积层的输出结果和所述抓取对象的对象分类信息进行叠加处理，得到第二叠加结果；

所述旋转定位参数计算模块输入所述第二叠加结果，输出所述抓取对象对应的旋转定位参数；所述第二旋转残差计算模块输入所述抓取对象对应的旋转定位参数，输出所述旋转定位参数对应的参数残差。

7.根据权利要求6所述的方法，其特征在于，所述第二旋转残差计算模块包括第一卷积层、第二卷积层、第二最大池化层和第二全连接层；所述第二旋转残差计算模块预先基于样本数据的真实旋转定位参数，以及所述旋转定位参数计算模块输出的所述样本数据的预测旋转定位参数训练得到；所述第一卷积层的卷积通道小于所述第二卷积层的卷积通道；

所述第二旋转残差计算模块输入所述抓取对象对应的旋转定位参数，输出所述旋转定位参数对应的参数残差的步骤，包括：

所述第一卷积层输入所述抓取对象对应的旋转定位参数，对所述抓取对象对应的旋转定位参数进行第一卷积计算，得到第一卷积计算结果；所述第二卷积层对所述第一卷积计算结果进行第二卷积计算，得到第二卷积计算结果；

所述第二最大池化层输入所述第二卷积计算结果，对所述第二卷积计算结果进行降维处理，得到第二降维结果；所述第二全连接层对所述第二降维结果进行全连接处理，输出旋转定位参数对应的参数残差。

8.一种无序抓取过程中对象的位姿估计装置，其特征在于，所述无序抓取过程中对象的位姿估计装置包括：

第一输出模块，用于通过相机装置获取包含抓取对象的目标图像，将所述目标图像输入至目标检测模型中，输出所述目标图像中所述抓取对象的二维显示区域以及所述抓取对象的对象分类信息；

第一获取模块，用于获取包含所述抓取对象的初始点云数据，基于所述二维显示区域确定指定形状的三维区域，从所述初始点云数据中，获取所述三维区域包含的第一点云集合；其中，所述第一点云集合中包括：所述抓取对象对应的点云数据以及所述抓取对象周围的点云数据；

第二输出模块，用于将所述第一点云集合和所述抓取对象的对象分类信息输入至点云分割模型中，输出所述抓取对象对应的平移定位参数，以及残差距离参数；其中，所述平移定位参数用于指示所述抓取对象的平移位置；所述残差距离参数用于：控制所述抓取对象对应的点云数据平移至预设的局部三维空间中；

第一确定模块，用于将所述抓取对象对应的平移定位参数、所述残差距离参数以及所述抓取对象的对象分类信息输入至旋转定位模型中，通过所述旋转定位模型，在所述局部三维空间中，确定所述抓取对象对应的旋转定位参数；其中，所述旋转定位参数用于指示所述抓取对象的旋转姿势；

第三输出模块，用于基于所述旋转定位参数和所述平移定位参数，输出所述抓取对象的位姿数据；其中，所述位姿数据包括：通过指定三维形状指示的所述抓取对象在三维空间中的平移位置以及旋转姿势。

9.一种电子设备，其特征在于，所述电子设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述电子设备执行如权利要求1-7中任意一项所述的无序抓取过程中对象的位姿估计方法。

10.一种计算机可读存储介质，其上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任意一项所述的无序抓取过程中对象的位姿估计方法。