CN116277030A

CN116277030A - 一种基于深度视觉的无模型抓取规划方法和***

Info

Publication number: CN116277030A
Application number: CN202310480343.1A
Authority: CN
Inventors: 彭刚; 关尚宾
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-06-23

Abstract

本发明公开了一种基于深度视觉的无模型抓取规划方法和***，其中，***包括：图像采集模块、位姿生成模块、处理器和轨迹规划模块；图像采集模块用于采集RGB图、深度图和点云；位姿生成模块包括基于图像的位姿生成模块和基于点云的位姿生成模块；处理器用于对比物体和桌面的HSV颜色空间，当物体的HSV颜色空间在桌面的HSV颜色空间范围内，将基于点云的位姿生成模块生成的抓取位姿输入轨迹规划模块，当物体的HSV颜色空间不在桌面的HSV颜色空间范围内，将基于图像的位姿生成模块生成的抓取位姿输入轨迹规划模块；轨迹规划模块用于控制机械臂运动至抓取位姿，执行抓取操作。本发明无需建立模型，可用于复杂抓取场景，当物体颜色与桌面相似时抓取成功率高。

Description

一种基于深度视觉的无模型抓取规划方法和***

技术领域

本发明属于机器人抓取技术领域，更具体地，涉及一种基于深度视觉的无模型抓取规划方法和***。

背景技术

物体抓取作为机器人作业的常见手段，在基于物体模型的机械臂抓取任务中，通常需要抓取场景中多种不同类型的物体。物体的3D模型需要专业人员通过一定的技术手段手工制作，成本较高，获取全部物体的3D模型比较困难。然而，传统有模型抓取方法需要物体的3D模型作为输入，难以适应物体较多的复杂抓取场景。

此外，仅通过颜色分割抓取目标的思路为通过物体和桌面颜色的色差进行分割，当物体颜色与桌面相似时，通过RGB图像难以感知与桌面颜色相似的物体，分割物体时存在偏差，从而导致抓取失败。

由此可见，现有技术存在模型建立困难、难以适应物体较多的复杂抓取场景、当物体颜色与桌面相似时抓取成功率低的技术问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于深度视觉的无模型抓取规划方法和***，由此解决现有技术存在模型建立困难、难以适应物体较多的复杂抓取场景、当物体颜色与桌面相似时抓取成功率低的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于深度视觉的无模型抓取规划***，包括：图像采集模块、位姿生成模块、处理器和轨迹规划模块；

所述图像采集模块，用于采集待抓取物体及其所在桌面的RGB图、深度图和点云；

所述位姿生成模块包括基于图像的位姿生成模块和基于点云的位姿生成模块；

基于图像的位姿生成模块，用于获取RGB图和深度图，剔除RGB图中的桌面像素，得到物体的像素区域，计算物体的像素区域的最小外接矩形，得到待抓取物体在RGB图像中的2D像素位置，将2D像素位置映射到深度图中，结合相机参数信息生成世界坐标系下的抓取位姿；

基于点云的位姿生成模块，用于获取点云，对点云下采样后，剔除桌面点云，然后对剩下的物体点云进行聚类，形成独立点云集，计算独立点云集的最小外包矩形盒，通过最小外包矩形盒和相机参数信息生成世界坐标系下的抓取位姿；

所述处理器，用于对比待抓取物体和物体所在桌面的HSV颜色空间，当物体的HSV颜色空间在桌面的HSV颜色空间范围内，则将基于点云的位姿生成模块生成的抓取位姿输入轨迹规划模块，当物体的HSV颜色空间不在桌面的HSV颜色空间范围内，则将基于图像的位姿生成模块生成的抓取位姿输入轨迹规划模块；

所述轨迹规划模块，用于控制机械臂运动至抓取位姿，执行抓取操作。

进一步地，所述基于图像的位姿生成模块包括：

最小外接矩形形成模块，用于将物体的像素区域灰度化，得到物体的像素点集，设置初始角度使矩形包围物体的像素点集，旋转矩形，计算每个旋转角度下的矩形面积，将最小面积矩形作为最小外接矩形。

进一步地，所述基于图像的位姿生成模块还包括：

抓取位姿生成模块，用于获取最小外接矩形中心点在像素坐标系下的坐标，计算中心点垂直于最小外接矩形两条短边的两个端点在像素坐标系下的坐标，通过深度图获取中心点以及两个端点的深度值，对于中心点在像素坐标系下的坐标及其深度值，通过相机内参转换为中心点在相机坐标系下的坐标，对于两个端点在像素坐标系下的坐标及其深度值，通过相机内参转换为两个端点在相机坐标系下的坐标，计算两个端点的向量在X-O-Y平面上的投影与X轴的夹角，得到抓取位姿沿世界坐标系Z轴的转角，通过中心点在相机坐标系下的坐标计算抓取中心在世界坐标系下的坐标，抓取中心在世界坐标系下的坐标与抓取位姿沿世界坐标系Z轴的转角组成抓取位姿。

进一步地，所述基于图像的位姿生成模块还包括：

像素分割模块，用于将RGB图描述为RGB颜色空间，剔除桌面在RGB颜色空间的像素区域，保留物体的RGB颜色空间中的像素区域，或者将RGB颜色空间转换为HSV颜色空间，将剔除桌面在HSV颜色空间的像素区域，保留物体在HSV颜色空间中的像素区域。

进一步地，所述基于点云的位姿生成模块包括：

点云分割模块，用于将点云组成的三维空间均分为多个立方体，保留每个立方体中心点，得到下采样后点云，从下采样后点云中随机选择N个点作为局内点，将局内点拟合成初始平面，然后遍历下采样后点云中局内点以外的所有局外点，若局外点离初始平面的距离小于阈值T，则加入局内点集，经过多次迭代后，得到的最多局内点集为最大平面点云，剔除最大平面点云，剩下的局外点为物体点云。

进一步地，所述基于点云的位姿生成模块还包括：

最小外包矩形盒形成模块，用于将物体点云通过欧式聚类分为多个独立点云集，每个独立点云集对应一个物体，对于每个独立点云集，计算点云数据的坐标均值和协方差矩阵，其中坐标均值为点云的质心，将协方差矩阵的特征向量组成旋转变换矩阵，将点云数据映射到旋转变换矩阵和质心对应的平移向量组成的坐标系中，生成OBB矩形盒，作为最小外包矩形盒。

进一步地，所述基于点云的位姿生成模块还包括：

抓取位姿生成模块，用于将最小外包矩形盒结合相机参数信息，求解OBB主轴坐标系到相机坐标系的旋转矩阵，将OBB主轴坐标系到相机坐标系的旋转矩阵和通过点云的质心坐标得到平移向量转换到世界坐标系下获得世界坐标系下的旋转矩阵和平移向量，将世界坐标系下的旋转矩阵求解的欧拉角与世界坐标系下的平移向量组合形成抓取位姿。

按照本发明的另一方面，提供了一种基于深度视觉的无模型抓取规划***，包括：图像采集模块、位姿生成模块和轨迹规划模块；

所述图像采集模块，用于采集待抓取物体及其所在桌面的RGB图和深度图；

所述位姿生成模块，用于获取RGB图和深度图，剔除RGB图中的桌面像素，得到余下的像素区域，计算余下像素区域的最小外接矩形，得到待抓取物体在RGB图像中的2D像素位置，将2D像素位置映射到深度图中，结合相机参数信息生成世界坐标系下的抓取位姿；

所述图像采集模块，用于采集待抓取物体及其所在桌面的点云；

所述位姿生成模块，用于获取点云，对点云下采样后，剔除桌面点云，然后对剩下的物体点云进行聚类，形成独立点云集，计算独立点云集的最小外包矩形盒，通过最小外包矩形盒和相机参数信息生成世界坐标系下的抓取位姿；

按照本发明的另一方面，提供了一种无模型抓取规划方法，包括：

采集待抓取物体及其所在桌面的RGB图、深度图和点云；

当物体的HSV颜色空间不在桌面的HSV颜色空间范围内，剔除RGB图中的桌面像素，得到余下的像素区域，计算余下像素区域的最小外接矩形，得到待抓取物体在RGB图像中的2D像素位置，将2D像素位置映射到深度图中，结合相机内外参信息生成世界坐标系下的抓取位姿；

当物体的HSV颜色空间在桌面的HSV颜色空间范围内，对点云下采样后，剔除桌面点云，然后对剩下的物体点云进行聚类，形成独立点云，计算独立点云的最小外包矩形盒，通过最小外包矩形盒和相机内外参信息生成世界坐标系下的抓取位姿；

机械臂运动至抓取位姿，执行抓取操作。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明***使用处理器判断物体与桌面的颜色是否相似，当物体的HSV颜色空间在桌面的HSV颜色空间范围内，则物体与桌面的颜色相似，此时使用基于点云的位姿生成模块生成的抓取位姿执行抓取任务，因为通过实验发现基于点云的位姿生成模块，获取的位姿能较好的用于未知物体模型的抓取规划任务，达到83.3％的平均抓取成功率，且能适应与桌面背景颜色相似的物体，在颜色与桌面背景相似时仍然能够达到82.9％的抓取成功率。当物体的HSV颜色空间不在桌面的HSV颜色空间范围内，说明物体与桌面的颜色不相似，此时，使用基于图像的位姿生成模块生成的抓取位姿执行抓取任务，因为实验结果表明，本发明提出的基于图像的位姿生成模块，无需物体的3D模型作为输入，能较好的用于未知物体模型的抓取规划任务，达到84.6％的平均抓取成功率。本发明不需要建立模型，可以很好的适应物体较多的复杂抓取场景，当物体颜色与桌面相似时抓取成功率高。本发明根据抓取场景的变化，选择不同方式生成的抓取位姿执行抓取任务，可以在提高效率的同时提升不同场景下的抓取准确率。

(2)本发明通过旋转矩形的方式准确获取能完全包围目标轮廓的最小面积矩形。准确的找到物体的最小外接矩形，有利于形成准确的抓取位姿，进而提升抓取成功率。因为机械臂末端通常使用平行二指夹持器抓取物体，在抓取位姿中，平行二指夹持器的中心对应最小外接矩形中心点在世界坐标系下的三维坐标，为保证平行二指夹持器能最大限度进行抓取作业，抓取方向应沿着最小外接矩形短边竖直向下，因此，使用中心点垂直于最小外接矩形两条短边的两个端点计算抓取位姿沿世界坐标系Z轴的转角。将像素坐标系上的点映射到相机坐标系时，由于RGB图已与深度图配准，因此可以通过深度图获取像素对应的深度值。

(3)桌面在场景中的颜色信息比较固定，因此可以采用颜色空间中的阈值分割桌面像素，从而分离得到物体像素，分割桌面像素时可以采用RGB或HSV分割，RGB颜色空间最大优点是适合于硬件显示***，直观且易于理解；HSV颜色空间能更好地描述人类观察色彩的方式，色调H和饱和度S与人感受颜色的方式是紧密相连的，而且亮度改变不会影响图像的色调和饱和度分量。由于HSV能更直观地描述人肉眼对色彩的感知，比RGB颜色空间更容易跟踪某种特定颜色的物体，因此在本发明的分割抓取目标物体时，优先选择采用HSV空间。

(4)通过RGB-D相机得到的场景点云数据量较大，而且存在很多冗余的点云，如果不处理，直接作为算法框架的输入，则会对计算资源造成巨大的负担和浪费，实时性很差，因此需要对点云进行下采样的预处理。获得预处理后的点云后，需要将桌面的点云分割出来，通过深度点云来分割桌面可以不受其颜色影响，因此能够更好地适应于不同颜色的桌面，并且适用于物体与桌面颜色类似的场景。本发明使用体素滤波的方式，在算法的误差精度允许范围内得到密度最小、信息量最充足的降采样点云。该方法通过降采样减少了点云的数量，并同时尽量保存点云的形状特征。

(5)本发明将点数量最多的局内点集视为桌面时，是为了防止最大平面不是桌面的问题。将桌面分离后，剩下的点云集便是目标物体点云，需要将该点云集分为每个目标物体的独立点云集。求包围矩形盒的方法有两种，分别为OBB盒(Oriented Bounding Box，有向包围盒)和AABB盒(Axis Aligned Bounding Box，轴对齐包围盒)，其中OBB盒比AABB盒更加贴近物体，因此本发明采用OBB矩形盒。

(6)本发明***中位姿生成模块剔除RGB图中的桌面像素，得到余下的像素区域，计算余下像素区域的最小外接矩形，得到待抓取物体在RGB图像中的2D像素位置，将2D像素位置映射到深度图中，结合相机参数信息生成世界坐标系下的抓取位姿，基于RGB-D的无模型位姿生成技术无需物体的3D模型作为输入，能较好的用于未知物体模型的抓取规划任务，适应物体较多的复杂抓取场景，抓取成功率高，同时大大缩小生成抓取位姿的时间。

(7)本发明***中位姿生成模块将桌面所在平面点云分离，计算目标物体的最小外包矩形盒并获取目标物体的位姿，基于点云的无模型位姿生成技术获取的目标物***姿能较好的用于未知物体模型的抓取规划任务，适应物体较多的复杂抓取场景，抓取成功率高，且能适应与桌面背景颜色相似的物体，在颜色与桌面背景相似时仍然具备较高的抓取成功率。

附图说明

图1是本发明实施例提供的一种基于深度视觉的无模型抓取规划***的示意图；

图2是本发明实施例提供的4-DOF位姿示意图；

图3是本发明实施例提供的抓取位姿俯视图；

图4中(a)是本发明实施例提供的体素网格示意图；

图4中(b)是本发明实施例提供的体素示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，一种基于深度视觉的无模型抓取规划***，包括：图像采集模块、位姿生成模块、处理器和轨迹规划模块；

实施例1

本发明基于深度视觉的无模型抓取规划***的机械臂末端执行器为典型的平行二指夹持器。

为了清晰地描述抓取作业，通常采用4个参数描述平行二指夹持器：夹持器闭合区域宽度hand_depth，夹持器闭合区域高度hand_height，夹持器闭合区域长度hand_width，夹持器二指厚度finger_width。

在本发明实施例1中，平行二指夹持器的参数为：

抓取物体的最大宽度为：

obj_width_max＝hand_width-2*finger_width＝70mm

本发明抓取任务在真实环境中抓取的物体集为多种生活中常见的物品，如水果、饼干、盒子等，大部分物体未建立并且难以获取其3D模型，少量与桌面颜色相似，抓取任务目标为将桌面上的所有物体抓取并收集到指定区域。

机械臂首先移动至初始位姿，通过图像采集模块采集抓取场景信息，包括RGB图像和深度信息；然后将视觉信息输入到位姿生成模块中，获取目标物体的抓取位姿，本发明规定抓取位姿始终竖直向下，即计算4-DOF抓取位姿；最终通过轨迹规划模块控制机械臂运动至抓取位姿，执行抓取操作。在图像采集模块中，机械臂首先移动至采集位姿，同时采集RGB和深度图，并通过相机SDK生成点云；在位姿生成模块中，使用RGB图和深度信息计算抓取目标位姿，并生成抓取位姿；在轨迹规划模块中，使用RRTConnect算法，首先将机械臂通过关节运动到达抓取目标4-DOF位姿的z轴正上方距离为L处，然后控制机械臂末端沿抓取位姿z轴方向朝物体直线运动L的距离，此时平行二指夹持器闭合夹取物体，并将物体移动至指定地方完成抓取作业。

如图2所示，4-DOF抓取位姿可以描述为

其中抓取位姿在世界坐标系下的坐标点为P(x，y，z)，沿目标位姿z轴旋转的角度为/>

机械臂在抓取规划时，可能会由抓取位姿偏差造成抓空或抓偏等现象造成规划失败，因此需要使用一定的指标判断抓取是否成功，其中常用的指标为力闭合模型。

使用二指夹持器在抓取时与物体仅有2个接触点，在夹持器给与的力能抵消物体其他方向的力时实现动态平衡。根据Nguyen定理，力闭合条件可以描述为：二指夹持器与目标物体的接触点之间的连接线是否在摩擦锥内，若连线在摩擦锥内，则表示符合力闭合条件能够抓取规划成功；否则不符合力闭合条件，抓取规划失败。

位姿生成模块包括：基于图像的位姿生成模块和基于点云的位姿生成模块。

本发明中处理器，用于对比待抓取物体和物体所在桌面的HSV颜色空间，当物体的HSV颜色空间在桌面的HSV颜色空间范围内，则将基于点云的位姿生成模块生成的抓取位姿输入轨迹规划模块，当物体的HSV颜色空间不在桌面的HSV颜色空间范围内，则将基于图像的位姿生成模块生成的抓取位姿输入轨迹规划模块。

基于图像的位姿生成模块，在相机标定的基础上，获取当前场景的RGB图像和深度图，通过已知桌面颜色的先验知识分离桌面像素，将余下具有一定规模的像素区域视为抓取目标；通过计算余下每一块像素区域的最小外接矩形，得到目标物体在RGB图像中的2D像素位置；将2D位置映射到深度图中，最后通过深度信息和相机内外参信息生成物体在世界坐标系下的位姿。

RGB是最常见的面向硬件显示设备(如PC显示器、移动终端显示屏等)的彩色模型。根据人眼结构，所有颜色都可以看作是3种基本颜色一一红(R)、绿(G)、蓝(B)的不同比例的叠加组合，即色光三原色。

将RGB颜色空间正方体归一化为单位立方体，则RGB值[O，255]归一化到区间[0，1]之中。颜色空间中坐标系原点O(0，0，0)为黑色，离原点最远的顶点W(1，1，1)对应白色，从黑到白的灰度分布值在体对角线

上。根据RGB颜色空间模型，每种颜色可以表示为三原色平面0-255的亮度值，3种颜色通道的变化以及相互叠加可构成16777216(即256³)种颜色。

RGB颜色空间最大优点是适合于硬件显示***，直观且易于理解，但是其描述色彩时，色光三原色3个分量之间高度相关，且均匀性较差，例如同一颜色亮度改变，三个分量都会相应的改变。

HSV颜色空间是一种基于感知的颜色模型，其将彩色描述为3种属性：H(Hue，色调)，S(Saturation，饱和度)，V(Value，亮度)，具体描述为：

a)色调：物体反射或透过物体的光波长，通过颜色区分，如红色、绿色；

b)亮度：颜色的明暗程度，如暗红、亮红；

c)饱和度：颜色的深浅，如深红、浅红。

HSV颜色空间能更好地描述人类观察色彩的方式，色调H和饱和度S与人感受颜色的方式是紧密相连的，而且亮度改变不会影响图像的色调和饱和度分量，其模型对应于圆柱坐标系中的一个圆锥形。

在锥形HSV颜色空间中，圆锥的顶点为亮度V＝0，底面为V＝1，亮度V从圆锥顶点开始沿圆锥母线线性增加；色彩H由绕圆锥中线的转角决定，以R、G、B为例，红色对应角度为0°，绿色对应角度为120°，蓝色对应角度为240°，并且每种颜色和它的补色相差180°；饱和度S在圆锥中线处S＝0，在圆锥侧面处有S＝1，并且由里到外线性递增。

由于颜色在现实中是客观存在的，不同的颜色空间只是不同角度的描述，因此RGB和HSV颜色空间参数有唯一对应关系，可以通过以下变换关系互相转换：

a)RGB到HSV颜色空间的转换：

v＝max

其中r、g、b分别为RGB颜色空间中的对应通道的分量，max＝max(r，g，b)，min＝min(r，g，b)。

b)HSV到RGB颜色空间的转换：

首先计算中间变量：

其中h、s、v分别为HSV颜色空间三个通道的值，mod为取余符号。通过中间变量求得RGB颜色空间三个通道的分量为：

由于HSV能更直观地描述人肉眼对色彩的感知，比RGB颜色空间更容易跟踪某种特定颜色的物体，因此本发明实施例在分割抓取目标物体时，采用HSV空间。

根据查阅相关资料，得出一些典型颜色的HSV值如表1所示：

表1典型颜色的HSV颜色空间阈值

表1中除了红色的色调具有0-10和156-180两段范围以外，其他颜色的色调都只有一段范围。

虽然桌面颜色为类白色，但属于非典型颜色，本发明基于Qt设计了分割指定颜色桌面的可视化软件。在分割时首先需要采集一张RGB图作为样张，然后通过该软件拖动滑条改变HSV空间的通道值对桌面颜色进行分割，得到分割桌面后所属HSV颜色空间的区间为：

可见，RGB图像已将桌面部分的像素点剔除，仅保留目标物体的像素。将RGB图像灰度化后，获得的灰度图会存在多个像素点集，通过Moore-Neighbor轮廓查找算法将目标物体点集区分，其基本思路是在二值图像中查找所有连续且具有一定规模的像素点，将它们组成的轮廓提取出来并返回，每个轮廓包围的点集对应一个物体的像素点集。将物体像素点区分后，可以求每个物体像素点集的最小外接矩形，即得到物体在RGB图像中的像素位置。最小外接矩形是指能完全包围目标轮廓的最小面积矩形，在求解时，首先设置初始角度使矩形恰好包围该物体像素点集，在坐标系中以一定步长旋转矩形(0°～90°)，计算每个旋转角度下的包围矩形面积，并找到最小面积矩形，然后求解矩形中心点P(u_o，v_o)和旋转角度θ。

通过RGB图像获取物体的最小外接矩形TR后，可以获取TR中心点在像素坐标系下的坐标为P(u_o，v_o)以及TR与RGB图像的水平夹角θ。在抓取位姿中，平行二指夹持器的中心对应点P在世界坐标系下的三维坐标，为保证平行二指夹持器能最大限度进行抓取作业，抓取方向应沿着最小外接矩形短边竖直向下，如图3所示。

通过P(u_o，v_o)和θ计算短边两个端点在像素坐标系下的坐标为A(u_A，v_A)和B(u_B，v_B)。将像素坐标系上的点映射到相机坐标系时，由于视觉传感器的RGB图已与深度图配准，因此可以通过深度图获取像素对应的深度值z。对于像素坐标系下的点(u，v)及其深度值z，可以通过下式求解该像素在相机坐标系下的坐标(x，y，z)：

其中f_x、f_y、u₀、v₀为相机内参。(u₀，v₀)为相机的主点坐标，主点坐标中下标为0，P点坐标(u_o，v_o)的下标为O。f_x、f_y为相机焦距。

通过上式计算P(u_o，v_o)、A(u_A，v_A)、和B(u_B，v_B)在相机坐标系下的坐标分别为P_P(x_P，y_P，z_P)、P_A(x_A，y_A，z_A)、P_B(x_B，y_B，z_B)。为了通过P、A、B三点的坐标求出

类型的4-DOF位姿，Pose的在世界坐标系下的坐标为抓取中心P_o(x_o，y_o，z_o)，Pose沿世界坐标系z轴的转角/>

为向量/>

在X-O-Y平面上的投影/>

与x轴的夹角，即/>

各参数可以通过下式计算。

其中atan2的定义如下式所示：

由此可见，atan2函数能根据输入x和y的坐标值计算[-π，π]之间的角度，并根据x和y的符号判断角度所处的象限，而反三角函数arctan通常能计算两组解或无解，因此atan2函数比反三角函数arctan稳定。

最小外接矩形TR短边的长度L可以表示为在三维空间中的表示为向量

在X-O-Y平面上投影/>

的长度，如下式所示：

为了保证能抓取目标，需要保证夹爪伸开的长度obj_width_max小于物体的最小宽度，即最小外接矩形TR短边长度L。若obj_width_max＜L，则可以继续进行抓取规划，若objwidth_max≥L，则表示不符合力闭合抓取条件，放弃本次抓取。

基于点云的位姿生成模块，Intel RealSense D435i相机获取的深度视觉信息除了深度图外，还能够通过相机SDK计算得到深度点云，基于深度点云计算抓取目标的空间位姿。通过RGB-D相机得到的场景点云数据量较大，而且存在很多冗余的点云，如果不处理，直接作为算法框架的输入，则会对计算资源造成巨大的负担和浪费，实时性很差，因此需要对点云进行降采样的预处理。获得预处理后的点云后，需要将桌面的点云分割出来，而桌面在抓取任务中的一个典型特征为视野中的最大平面，而通过深度点云来分割桌面可以不受其颜色影响，因此能够更好地适应于不同颜色的桌面，并且适用于物体与桌面颜色类似的场景。将桌面点云分离后，对剩下物体点云进行聚类，将每个抓取目标点云分离成独立点云，最后计算独立点云的最小外包矩形盒，并通过矩形盒的参数求解目标物体的位姿，从而得到抓取位姿。

由于RGB-D相机SDK获得的的点云为稠密点云，数据量很大，因此需要进行降采样。本发明使用体素化网格(Voxel Grid)滤波(简称体素滤波)的方法，如图4中(a)和图4中(b)所示，其核心思想是将三维空间分割为若干个小立方体，边长为v，其中Δx＝Δy＝Δz＝v，对于立方体中的全部点，仅保留最靠近立方体中心的点P_center，而将其他点过滤掉，从而在算法的误差精度允许范围内得到密度最小、信息量最充足的降采样点云。该方法通过降采样减少了点云的数量，并同时尽量保存点云的形状特征。

在对输入的稠密点云下采样后，对于点云中的最大桌面，体素滤波极大减少了冗余的点云，滤波后最大的平面仍为桌面，因此不影响桌面分割；对于抓取目标物体，由于物体具有一定的体积，体素滤波仍能保留了物体的关键点云，对目标识别的影响较小。然而体素滤波也存在一些缺点，即物体足够小且小于体素网格的边长时有可能会被过滤掉，因此体素网格的大小需要根据抓取目标的边长决定。本发明将体素滤波网格大小作为可调的超参数，在抓取目标普遍较小时，采用较小的体素网格，从而使其不会过滤掉小目标，但同时也会伴随着过滤点云较少，导致算法处理数据慢和实时性较差的问题；当取目标普遍具有较大体积时，可以采用较大的体素网格大小，能够显著降低计算量，并提高抓取的实时性。

在体素滤波降采样后，可以将桌面作为背景分割出来，而在抓取任务中桌面是视野内的最大平面，可以采用RANSAC算法进行拟合并分割，该方法假定了空间中可以通过同一个的模型参数来描述其分布，符合该分布模型的点云集为局内点(inlier)，而不适合该模型的点云集为局外点(outlier)，对于输入点云数据，RANSAC算法的步骤如下：

1)随机选择N个点作为局内点，将这N个点拟合成指定模型；

2)将局外点代入拟合的模型，判断其是否属于内点群，记录局内点数量；

3)指定迭代次数N，重复N次步骤2)，局内点数量最多的模型为求解结果。

根据RANSAC算法的步骤，在抓取任务分割桌面时，每次迭代随机选择点云内的3个点作为局内点，并以这3个局内点生成初始平面，然后遍历局内点以外的所有局外点，若该局外点离初始平面的距离小于阈值T，则加入局内点集。经过N次迭代后，整个过程中点数量最多局内点集为最大平面(即桌面)点云，将该局内点合作为分离，剩下的局外点集则为抓取目标物体点云，其中T和N均为可调超参数。

将点数量最多的局内点集视为桌面时，为了防止最大平面不是桌面的问题，建立了姿态约束。通过RANSAC算法拟合的最大平面归一化方程Ax+By+Cz+D＝0，其中A²+B²+C²＝1，则将平面法向量转换到世界坐标系下，得到

由已知桌面法向量始终与地面垂直的先验知识，拟合的平面法向量应与世界坐标系下的z轴平行，或在误差允许的范围内法向量/>

与z轴的夹角/>

小于一定的角度值θ，本发明实施例取θ＝5°，即/>

和/>

夹角的余弦值：

由于本发明问题的在实际意义上取

和/>

夹角范围为/>

此区间内余弦函数cos随角度增大而递减，因此有C≥cos5°＝0.99619469809。

将桌面分离后，剩下的点云集便是目标物体点云，需要将该点云集分为每个目标物体的独立点云集，其中一种常用的点云聚类算法便是欧氏聚类。欧氏聚类的核心思想是将欧氏距离小于一定阈值的点全部归为同一个类别，其具体过程为：选定一个未被处理的点，若该点未被分类，则以该点建立新的类别，寻找其周围欧氏距离小于阈值T的点(成为“近邻点”)加入该类；若其已被分类，则只需继续寻找周围的近邻点，然后继续迭代处理新加入该类的点，直到没有新加入的点为止，从而获得该类的全部点。最终点云会根据类别被区分为多个点集，每个点集代表一个目标物体，点集的位姿便是所求目标物体的位姿。

将物体点云通过欧式聚类分为若干个点云集后，由于各物体对应的独立点云集并不是规则的，直接获取其位姿相对比较困难，因此可以首先获取物体点云集的矩形包围盒。求包围矩形盒的方法有两种，分别为OBB盒(Oriented Bounding Box，有向包围盒)和AABB盒(Axis Aligned Bounding Box，轴对齐包围盒)，其中OBB盒比AABB盒更加贴近物体，因此本发明采用OBB矩形盒，其主要步骤为：

(1)将欧式聚类区分的单个物体点云集作为输入并遍历，获取每一个点的坐标信息，并计算点云数据的坐标均值和协方差矩阵，其中坐标均值为点云的质心P(x，y，z)；

(2)求协方差矩阵的特征向量和特征值，并将特征向量组成旋转变换矩阵Rot；

(3)将点云数据映射到Rot旋转变换和质心P(x，y，z)对应的平移变换组成的坐标系中，生成OBB矩形盒。

通过上述步骤，求解得OBB主轴坐标系到相机坐标系的旋转矩阵Rot，并且通过点云质心坐标P(x，y，z)得到平移向量Trans(x，y，z)，并将两者组合成旋转矩阵T，并将T转换到世界坐标系下获得T_w，其中T_w的旋转矩阵为Rot_w，平移向量为Trans(x_w，y_w，z_w)，然后将T_w中的旋转矩阵部分Rot_w求解欧拉角，得到目标物体的位姿，最终获得始终垂直桌面向下的4-DOF抓取位姿

实施例2

基于RGB-D的方法为：

采集待抓取物体及其所在桌面的RGB图和深度图；

获取RGB图和深度图，剔除RGB图中的桌面像素，得到余下的像素区域，计算余下像素区域的最小外接矩形，得到待抓取物体在RGB图像中的2D像素位置，将2D像素位置映射到深度图中，结合相机参数信息生成世界坐标系下的抓取位姿；

控制机械臂运动至抓取位姿，执行抓取操作。

实施例3

基于点云的方法为：

采集待抓取物体及其所在桌面的点云；

对点云下采样后，剔除桌面点云，然后对剩下的物体点云进行聚类，形成独立点云集，计算独立点云集的最小外包矩形盒，通过最小外包矩形盒和相机参数信息生成世界坐标系下的抓取位姿；

控制机械臂运动至抓取位姿，执行抓取操作。

实施例4

通过使用本发明基于RGB-D的位姿生成方法和基于点云的位姿生成方法以及现有技术使用的位姿估计方法DOPE和PointNetGPD进行抓取实验，对实验结果进行详细分析。

抓取实验的物体集中大部分物体未建立其3D模型，并有少部分物体与桌面背景颜色相似。在设计抓取任务的对比实验时，设置了以下4组对比实验场景：

1)场景1：5个已知模型模型物体；

2)场景2：3个已知模型+2个未知模型物体；

3)场景3：5个未知模型物体；

4)场景4：5个未知模型物体，包含2个与桌面背景颜色相似物体；

将本发明的方法与已有的位姿估计方法DOPE和PointNetGPD进行对比。设置每组实验重复20次，每次任务抓取7次，评估指标为抓取成功率，通过抓取成功次数/总抓取次数计算，此外，由于机械臂运动时间受物体实际位姿决定，为控制变量，仅使用生成抓取位姿的平均耗时评估算法的实时性。实验结果如表2所示。

表2抓取对比实验结果

*注：基于RGB-D的方法需采集一次图像样张，已将该时间平均至每一次实验中。

由表2实验结果，做出的分析如下：1)DOPE在获取目标物***姿时，对于已知3D模型的物体具有较高的抓取成功率，但随着未知模型物体的增加，抓取成功率下降十分明显，如果场景中没有已知3D模型的物体，该方法就完全失效，无法获取未知模型物体的位姿；2)PointNetGPD在物体3D模型未知时也能够获取目标物体6-DOF抓取位姿，但该方法在计算最优6-DOF位姿时需要耗费很长的时间；3)本发明使用基于RGB-D的位姿生成方法进行抓取，不需要输入物体的3D模型，能对场景中未知模型的物体进行抓取，具有84.6％的平均抓取成功率，相比DOPE抓取成功率提高了49.8％，相比PointNetGPD抓取成功率降低了3.0％，由于该方法仅计算4-DOF抓取位姿，相比PointNetGPD耗时降低了73.1％，极大地提升了抓取位姿生成的速度，可见，该方法更适用于需要高实时性的抓取场景；4)本发明使用基于点云的位姿生成方法进行抓取受限于深度传感器的精度，相比于基于RGB-D的方法，平均抓取成功率降低了1.5％，位姿获取时间增加了1.1倍，但在包含2个与桌面背景颜色相似物体的场景中，基于点云的方法抓取成功率相比基于RGB-D的方法提升了11.7％，并且平均耗时相比PointNetGPD降低了43.6％，可见，该方法更适用于物体颜色与桌面背景十分相似的场景。

实施例1同时具有两种抓取位姿生成的模块，实施例2和3仅仅具有一种抓取位姿生成方法，可以看出，实施例2基于RGB-D的无模型位姿生成方法根据分离物体的像素信息求出目标物体的4-DOF位姿。实验结果表明，本发明提出的基于RGB-D的无模型位姿生成方法无需物体的3D模型作为输入，能较好的用于未知物体模型的抓取规划任务，达到84.6％的平均抓取成功率；实施例3基于点云的无模型位姿生成方法将桌面所在桌面点云分离，计算目标物体的最小外包矩形盒并获取目标物体的4-DOF位姿。实验结果表明，本发明提出的基于点云的无模型位姿生成方法获取的目标物***姿能较好的用于未知物体模型的抓取规划任务，达到83.3％的平均抓取成功率，且能适应与桌面背景颜色相似的物体，在颜色与桌面背景相似时仍然能够达到82.9％的抓取成功率。实施例1包括两种方法对应的模块，根据实际情况选择不同模块计算抓取位姿，通过抓取位姿指导机械臂抓取任务，实验结果表明，本发明所提方法在真实环境中抓取未知模型的物体时表现良好，并且较高的抓取效率和实时性，并且基于点云的方法能适应物体颜色与桌面背景相似的物体。根据抓取场景的变化，选择不同的抓取位姿执行抓取任务，可以在提高效率的同时提升不同场景下的抓取准确率。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度视觉的无模型抓取规划***，其特征在于，包括：图像采集模块、位姿生成模块、处理器和轨迹规划模块；

基于点云的位姿生成模块，用于获取点云，剔除桌面点云，然后对剩下的物体点云进行聚类，形成独立点云集，计算独立点云集的最小外包矩形盒，通过最小外包矩形盒和相机参数信息生成世界坐标系下的抓取位姿；

2.如权利要求1所述的一种基于深度视觉的无模型抓取规划***，其特征在于，所述基于图像的位姿生成模块包括：

3.如权利要求2所述的一种基于深度视觉的无模型抓取规划***，其特征在于，所述基于图像的位姿生成模块还包括：

4.如权利要求3所述的一种基于深度视觉的无模型抓取规划***，其特征在于，所述基于图像的位姿生成模块还包括：

像素分割模块，用于将RGB图描述为RGB颜色空间，剔除桌面在RGB颜色空间的像素区域，保留物体RGB颜色空间中的像素区域，或者将RGB颜色空间转换为HSV颜色空间，将剔除桌面在HSV颜色空间的像素区域，保留物体在HSV颜色空间中的像素区域。

5.如权利要求1所述的一种基于深度视觉的无模型抓取规划***，其特征在于，所述基于点云的位姿生成模块包括：

6.如权利要求5所述的一种基于深度视觉的无模型抓取规划***，其特征在于，所述基于点云的位姿生成模块还包括：

7.如权利要求6所述的一种基于深度视觉的无模型抓取规划***，其特征在于，所述基于点云的位姿生成模块还包括：

8.一种基于深度视觉的无模型抓取规划***，其特征在于，包括：图像采集模块、位姿生成模块和轨迹规划模块；

9.一种无模型抓取规划***，其特征在于，包括：图像采集模块、位姿生成模块和轨迹规划模块；

所述位姿生成模块，用于获取点云，剔除桌面点云，然后对剩下的物体点云进行聚类，形成独立点云集，计算独立点云集的最小外包矩形盒，通过最小外包矩形盒和相机参数信息生成世界坐标系下的抓取位姿；

10.一种基于深度视觉的无模型抓取规划方法，其特征在于，包括：

采集待抓取物体及其所在桌面的RGB图、深度图和点云；

当物体的HSV颜色空间在桌面的HSV颜色空间范围内，剔除桌面点云，然后对剩下的物体点云进行聚类，形成独立点云，计算独立点云的最小外包矩形盒，通过最小外包矩形盒和相机内外参信息生成世界坐标系下的抓取位姿；

机械臂运动至抓取位姿，执行抓取操作。