CN111652928B

CN111652928B - 三维点云中物体抓取位姿检测方法

Info

Publication number: CN111652928B
Application number: CN202010390619.3A
Authority: CN
Inventors: 王晨曦; 方浩树; 苟铭浩; 卢策吾
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2023-12-15
Anticipated expiration: 2040-05-11
Also published as: CN111652928A

Abstract

一种三维点云中物体抓取位姿检测方法，通过整理样本图像中的物体抓取位姿作为训练集，对端到端物体抓取位姿检测模型进行训练，再对待测的三维点云数据进行识别，得到候选抓取位姿分数从而实现物体抓取位姿检测。本发明通过端到端的全场景训练测试，将点云中整体与局部的特征关系紧密联系起来，在优化运行速度的同时提高了检测准确程度。

Description

三维点云中物体抓取位姿检测方法

技术领域

本发明涉及的是一种图像处理领域的技术，具体是一种三维点云中物体抓取位姿检测方法。

背景技术

物体抓取是机器人领域的基础问题，在制造、建筑和服务等行业有广泛的应用前景。抓取中最关键的步骤在于对给定视觉场景(如图片或点云)进行抓取位姿(抓取装置在空间中的位姿)检测。

现有的抓取位姿技术分为两种技术路线，一种路线通过估计物体在空间中的位姿间接生成抓取位姿，但预测结果对物***姿估计的精确程度十分敏感，从而使得预测准确率大大下降；另一种路线直接在场景中估计抓取位姿，而不需要获知物体的位姿信息，这种路线可以通过强化学习或深度学习来实现。基于强化学习的方法对机械臂当前位姿进行迭代式的修正和评价，逐渐逼近物体，最终产生可靠的抓取位姿，但这种方法训练时间长，模型收敛难度大，对实体机械臂依赖性较强。基于深度学习的方法通过在点云上网格采样得到大量抓取位姿候选，再将抓取位姿编码成2D图像，用CNN判断是否可抓取，但这些技术的缺陷在于二维图像缺失了三维空间几何信息，影响了预测的准确性。进一步的改进技术将抓取位姿编码为三维点云，虽然提升了分类准确率，但候选位姿仍要通过网格采样实现，计算量巨大。

发明内容

本发明针对现有技术存在的上述不足，提出一种三维点云中物体抓取位姿检测方法，通过端到端的全场景训练测试，将点云中整体与局部的特征关系紧密联系起来，在优化运行速度的同时提高了检测准确程度。

本发明是通过以下技术方案实现的：

本发明涉及一种三维点云中物体抓取位姿检测方法，通过整理样本图像中的物体抓取位姿作为训练集，对端到端物体抓取位姿检测模型进行训练，再对待测的三维点云数据进行识别，得到候选抓取位姿分数从而实现物体抓取位姿检测。

所述的整理是指：从作为样本图像的已有图像库中获取含有不同物体组合、不同摆放方式的物体抓取位姿检测的RGB-D图像，合成点云场景及对应的训练标签。

所述的端到端物体抓取位姿检测模型包括：用于处理编码后空间信息的候选抓取点预测模块、用于生成候选抓取位姿特征的空间变换模块、抓取参数预测模块以及抓取亲和度预测模块，其中：候选抓取点预测模块内置用于处理点云场景的PointNet++模型并进行候选抓取点位及主轴方向预测，空间变换模块裁剪候选抓取位姿附近的点云并转换至夹爪坐标系中，抓取参数预测模块对抓取的绕轴旋转角度、夹持宽度和抓取分数进行预测，抓取亲和度预测模块判断抓取位姿的鲁棒性。

所述的物体抓取位姿检测，优选进一步通过对候选抓取位姿分数进行阈值判断实现。

技术效果

本发明整体解决了物体抓取位姿检测中无法有效利用三维点云场景信息的问题。

与现有技术相比，本发明将抓取位姿以三维点云的形式进行编码，相较二维编码大幅提升了数据信息量，同时提出了一种端到端全场景训练测试过程，避免了无差别的网格采样候选位姿，将点云中整体与局部的特征关系紧密联系起来，在优化运行速度的同时提高了检测准确程度，在大型通用抓取数据集GraspNet上取得了现有最好成绩。

附图说明

图1为本发明流程图；

图2为夹爪坐标系示意图；

图3为本发明效果示意图。

具体实施方式

如图1所示，为本实施例涉及一种三维点云中物体抓取位姿检测方法，包括以下步骤：

步骤1：数据预处理：从已有图像库中获取含有不同物体组合、不同摆放方式的物体抓取位姿检测的RGB-D图像，合成点云场景及对应的训练标签，具体包括：

步骤1.1：利用相机内参数合成点云，其中：相机内参数表示为相机在图像坐标系u轴和v轴上的尺度因子f_x和f_y，图像坐标系主点坐标(c_x,c_y)以及图像深度值缩放比例s，用(u,v)表示图像坐标系上某点坐标，d表示对应深度值，(x,y,z)表示其在相机坐标系中的三维坐标，结合将RGB-D图像转换为相机坐标系下的点云场景。

步骤1.2：为点云场景增加多种训练标签，具体包括：物体种类标签、点云中物***姿、每个物体上的抓取位姿及其评分，得到25600个带有抓取位姿标签的点云场景。

如图2所示，所述的抓取位姿包括平移量、主轴方向、绕轴旋转角度及夹持宽度，在夹爪坐标系中主轴方向沿z轴，绕轴旋转角度指以z轴为旋转轴、从x轴向y轴的旋转量，夹持宽度指夹爪两指在y轴上的距离。

步骤2：构建端到端物体抓取位姿检测模型，该模型包括：端到端物体抓取位姿检测模型包括：用于处理编码后空间信息的候选抓取点预测模块、用于生成候选抓取位姿特征的空间变换模块、抓取参数预测模块以及抓取亲和度预测模块，其中：候选抓取点预测模块进行候选抓取点位及主轴方向预测，空间变换模块裁剪候选抓取位姿附近的点云并转换至夹爪坐标系中，抓取参数预测模块对抓取的绕轴旋转角度、夹持宽度和抓取分数进行预测，抓取亲和度预测模块判断抓取位姿的鲁棒性。

所述的候选抓取点预测模块包括：基网络单元和预测单元，其中：基网络单元对20000×3的点云进行编码，预测单元利用编码后的点云预测场景中合适的抓取点位及夹爪主轴方向。

所述的基网络单元采用Charles R.Qi等人在文献“PointNet++:DeepHierarchical Feature Learning on Point Sets in a Metric Space”(NIPS2017)中记载的方式实现PointNet++三维深度学习网络，该网络的输入为含有多个物体、尺寸为N×C₁的场景点云(N表示点的数量，C₁表示点的特征通道数)，经过若干次降采样、1×1卷积、邻域最大池化和特征跳跃拼接后得到大小为N×C₂的点云特征集合，并使用最远点采样进一步处理为大小为M×C₂的点集。其中：N＝20000，M＝1024，C₁＝3，C₂＝256。

所述的预测单元以基网络单元输出的点集为输入，经过大小为(C₂,V+2,V+2)的多层感知器，输出大小为(M,V+2)的点集，每个采样点的前2个维度为该点是否可抓取的二分类，后V个维度表示对抓取主轴方向的预测，其过程是将以该点为中心的单位圆均匀采样V个视角，选取分数最高的视角作为候选主轴方向。模型中取V＝300。

所述的裁剪是指：空间变换模块根据候选抓取点位及主轴方向，剪切出圆柱状空间内的点云块，圆柱的主轴沿夹爪主轴方向，底面圆心为候选抓取点。

所述的转换是指：将裁剪后的点云块变换到夹爪坐标系中，令v＝[v₁,v₂,v₃]，则点云坐标的转换矩阵表示为O＝[o₁,o₂,o₃]，其中：每一个候选都剪切不同夹爪深度对应的柱体点云，其中：圆柱底面半径0.05m，深度依次为0.01m、0.02m、0.03m、0.04m。处理全部候选抓取位姿得到4M块剪切点云，每块点云采样至N_s个点，最终得到4M×N_s×C₁的点云阵列，其中：N_s＝64。

所述的抓取参数预测模块包括：多层感知器、最大池化层、第一全连接层F₁、第一批归一化层B₁、第一激活函数层R₁、第二全连接层F₂、第二批归一化层B₂、第二激活函数层R₂和第三全连接层F₃。

所述的抓取参数，通过抓取参数预测模块根据切变换后的点云作为输入，经过大小为(C₃,C₄,C₅)的多层感知器后得到大小为4M×N_s×C₅的特征点云阵列，经过最大池化层P₁得到大小为4M×C₅的点云全局特征阵列，依次经过第一全连接层F₁、第一批归一化层B₁、第一激活函数层R₁、第二全连接层F₂、第二批归一化层B₂、第二激活函数层R₂、第三全连接层F₃后得到大小为4M×C₈的抓取位姿参数预测值。

所述的多层感知器为三组1×1卷积层、批归一化层、激活函数层序列，每组序列的激活函数层均采用ReLU函数，第一组中卷积层输出通道数和批归一化单元数均为C₃＝64，第二组中卷积层输出通道数和批归一化单元数均为C₄＝128，第三组中卷积层输出通道数和批归一化单元数均为C₅＝256。

所述的第一全连接层F₁输出通道数C₆＝128，第二全连接层F₂输出通道数C₇＝128，第三全连接层F₃输出通道数C₈＝36。

所述的第一和第二激活函数层R₁和R₂均采用ReLU函数。

所述的第一和第二批归一化层B₁和B₂的单元数均为128。

所述的抓取参数预测模块输出抓取参数的预测值，具体为：将绕轴旋转角度(0°～180°)以15°为区间范围均分为12个类，预测值中36个通道的数值分别表示每个角度的分数、对应的加持宽度和在此角度下抓取位姿的评分预测值，得分最高的角度及其加持宽度和抓取分数为最终预测值。

所述的抓取亲和度预测模块包括：多层感知器、第二最大池化层、第四全连接层F₄、第四批归一化层B₄、第四激活函数层R₄、第五全连接层F₅、第五批归一化层B₅、第五激活函数层R₅和第六全连接层F₆。

所述的抓取亲和度，通过抓取亲和度预测模块以变换后的点云为输入，经过大小为(C₁₀,C₁₁,C₁₂)的多层感知器后得到大小为4M×N_s×C₁₂的特征点云阵列，经过最大池化层P₂得到大小为4M×C₁₂的点云全局特征阵列，依次经过第四全连接层F₄、第四批归一化层B₄、激活函数层R₄、第五全连接层F₅、第五批归一化层B₅、第五激活函数层R₅、第六全连接层F₆后得到大小为4M×C₁₅的抓取亲和度预测值。

所述的多层感知器为三组1×1卷积层、批归一化层、激活函数层序列，每组序列的激活函数层均采用ReLU函数，第一组中卷积层输出通道数和批归一化单元数均为C₁₀＝64，第二组中卷积层输出通道数和批归一化单元数均为C₁₁＝128，第三组中卷积层输出通道数和批归一化单元数均为C₁₂＝256。

所述的第四全连接层F₄输出通道数C₁₃＝128，第五全连接层F₅输出通道数C₁₄＝64，第六全连接层F₅输出通道数C₁₅＝12。

所述的第四和第五激活函数层R₄和R₅均采用ReLU函数，第四和第五批归一化层B₄和B₅的单元数均为128。

所述的抓取亲和度预测模块输出的抓取亲和度为12个角度下对应的抓取亲和度，取预测角度下的亲和度作为最终预测值，其中：抓取亲和度表示在当前抓取位姿下改变参数，使夹爪仍能抓住物体的最大波动幅度。

步骤3：训练端到端物体抓取位姿检测模型，具体步骤包括：

步骤3.1：用均值为0，标准差为0.01的高斯分布采样初始化模型中待训练参数。

步骤3.2：向模型中输入步骤1得到的25600个带有物体抓取位姿标签的点云场景作为训练样本进行训练，训练样本经过步骤2.1和步骤2.2所述的两个阶段的变换，传送到输出层，得到采样点可抓取置信度预测值{c_i}(i为采样点序号)，不同视角对应夹爪主轴方向的抓取分数预测值{s_ij}(i为采样点序号，j为视角序号)，绕轴旋转角度分数预测值{R_ij}(i为点云块序号，j为深度序号)，夹持宽度预测值{W_ij}(i为点云块序号，j为深度序号)，抓取位姿分数预测值{S_ij}(i为点云块序号，j为深度序号)，抓取亲和度预测值{T_ij}(i为点云块序号，j为深度序号)。

所述的训练样本包括：场景点云P，采样点可抓取置信度标签(i为采样点序号)，不同视角对应夹爪主轴方向的抓取分数标签/>(i为采样点序号，j为视角序号)，绕轴旋转角度分数标签/>（i为点云块序号，j为视角序号)，夹持宽度标签/>(i为点云块序号，j为视角序号)，抓取位姿分数标签/>(i为点云块序号，j为视角序号)，抓取亲和度标签(i为点云块序号，j为视角序号)。

步骤3.3：使用多目标联合损失函数结合反向传播BP算法调整模型参数，该多目标联合损失函数包括：候选抓取点损失函数L^A，抓取位姿参数损失函数L^R及抓取亲和度损失函数L^F。

所述的候选抓取点损失函数为其中：/>当且仅当存在标签与预测主轴方向夹角小于5°时为1，表示采样点可抓取置信度的softmax损失函数，/>表示可抓取点上主轴方向与标签的平滑L₁回归损失函数，λ₁＝0.5。

所述的抓取位姿参数损失函数为其中：/>表示抓取深度为d时角度分类的sigmoid交叉熵损失函数，/>表示抓取深度为d时抓取位姿分数的平滑L₁回归损失函数，/>表示抓取深度为d时夹持宽度的平滑L₁回归损失函数，λ₂＝1.0，λ₃＝0.2。

所述的抓取亲和度损失函数为其中：/>表示抓取亲和度的平滑L₁回归损失函数。

所述的反向传播BP算法的目标函数为其中：α＝0.5，β＝0.1。

在本实施例中，反向传播BP算法的学习率初始值为0.001，对整个训练数据集迭代90次，经过40次、60次、80次迭代后学习率依次变为0.0001，0.00001，0.000001。

步骤4：通过训练后的端到端物体抓取位姿检测模型进行物体抓取位姿检测：采用7680张RGB-D图像，将待检测图像按步骤1.1所述的方式合成场景点云后输入到模型中，经过逐层变化、计算，获得物体抓取位姿预测值。

本实施例使用的模型检验标准为：将预测的抓取位姿通过非极大值抑制筛选后，分配到距离最近的物体上，给定表面摩擦系数μ，用完整的物体扫描模型检测是否可以成功抓取，计算对应的平均精确率AP_μ，以0.2为间隔将μ从0.2逐步增大到1.0，计算相应的AP_μ，取均值得到最终评分AP。

依本方法使用的模型检验标准，在大型通用抓取数据集GraspNet上达到了最优结果，具体如下表所示：

经过具体实际实验，使用单块NVIDIA RTX 2080GPU，在PyTorch计算框架上运行上述***，对GraspNet上的数据进行测试，得到的实验数据是：在三种难度的测试数据上均取得了最好成绩，其中Seen难度的AP达到27.56/29.88(分别为采集自RealSense/Kinect两种相机的数据测试结果，下同)，Unseen难度的AP达到26.11/27.84，Novel难度的AP达到了10.55/11.51。

与现有技术相比，本方法无需依赖物体本身位姿信息，在提高预测速度的同时，通过夹爪主轴方向预测、抓取亲和度预测等步骤大幅提升了抓取位姿检测准确率，在大型通用抓取数据集GraspNet上达到了目前为止最好成绩。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种三维点云中物体抓取位姿检测方法，其特征在于，通过整理样本图像中的物体抓取位姿作为训练集，对端到端物体抓取位姿检测模型进行训练，再对待测的三维点云数据进行识别，得到候选抓取位姿分数从而实现物体抓取位姿检测；

所述的端到端物体抓取位姿检测模型包括：用于处理编码后空间信息的候选抓取点预测模块、用于生成候选抓取位姿特征的空间变换模块、抓取参数预测模块以及抓取亲和度预测模块；

所述的空间变换模块裁剪候选抓取位姿附近的点云并转换至夹爪坐标系中，抓取参数预测模块对抓取的绕轴旋转角度、夹持宽度和抓取分数进行预测；

所述的裁剪是指：空间变换模块根据候选抓取点位及主轴方向，剪切出圆柱状空间内的点云块，圆柱的主轴沿夹爪主轴方向，底面圆心为候选抓取点；

所述的转换是指：将裁剪后的点云块变换到夹爪坐标系中，令v＝[v₁,v₂,v₃]，则点云坐标的转换矩阵表示为o＝[o₁,o₂,o₃]，其中：每一个候选都剪切不同夹爪深度对应的柱体点云，其中：圆柱底面半径0.05m，深度依次为0.01m、0.02m、0.03m、0.04m，处理全部候选抓取位姿得到4M块剪切点云，每块点云采样至N_s个点，最终得到4M×N_s×C₁的点云阵列，其中：N_s＝64。

2.根据权利要求1所述的三维点云中物体抓取位姿检测方法，其特征是，所述的候选抓取点预测模块在预测夹爪主轴方向时，以抓取点为球心生成单位球，将球面离散化为300个均匀分布的视点，以视点指向球心的方向代表夹爪主轴方向，从而将主轴方向的预测转化为视点的分类问题；该候选抓取点预测模块内置用于处理点云场景的PointNet++模型并进行候选抓取点位及主轴方向预测。

3.根据权利要求1所述的三维点云中物体抓取位姿检测方法，其特征是，所述的抓取亲和度预测模块输出候选抓取位姿的亲和度，即对预测位姿进行扰动后仍能抓起物体时的最大扰动范围，抓取亲和度代表了抓取位姿的鲁棒性，抓取亲和度越大，预测抓取位姿的鲁棒性就越强。

4.根据权利要求1所述的三维点云中物体抓取位姿检测方法，其特征是，所述的整理是指：从作为样本图像的已有图像库中获取含有不同物体组合、不同摆放方式的物体抓取位姿检测的RGB-D图像，合成点云场景及对应的训练标签。

5.根据权利要求1所述的三维点云中物体抓取位姿检测方法，其特征是，所述的物体抓取位姿检测，进一步通过对候选抓取位姿分数进行阈值判断实现。

6.根据权利要求4所述的三维点云中物体抓取位姿检测方法，其特征是，所述的整理包括：

步骤1.1：利用相机内参数合成点云，其中：相机内参数表示为相机在图像坐标系u轴和v轴上的尺度因子f_x和f_y，图像坐标系主点坐标(c_x,c_y)以及图像深度值缩放比例s，用(u,v)表示图像坐标系上某点坐标，d表示对应深度值，(x,y,z)表示其在相机坐标系中的三维坐标，结合将RGB-D图像转换为相机坐标系下的点云场景；

7.根据权利要求1或2所述的三维点云中物体抓取位姿检测方法，其特征是，所述的候选抓取点预测模块包括：基网络单元和预测单元，其中：基网络单元对20000×3的点云进行编码，预测单元利用编码后的点云预测场景中合适的抓取点位及夹爪主轴方向。

8.根据权利要求1所述的三维点云中物体抓取位姿检测方法，其特征是，所述的抓取参数预测模块包括：多层感知器、最大池化层、第一全连接层F₁、第一批归一化层B₁、第一激活函数层R₁、第二全连接层F₂、第二批归一化层B₂、第二激活函数层R₂和第三全连接层F₃；

9.根据权利要求1或3所述的三维点云中物体抓取位姿检测方法，其特征是，所述的抓取亲和度预测模块包括：多层感知器、第二最大池化层、第四全连接层F₄、第四批归一化层B₄、第四激活函数层R₄、第五全连接层F₅、第五批归一化层B₅、第五激活函数层R₅和第六全连接层F₆；