CN109934864A

CN109934864A - 面向机械臂抓取位姿估计的残差网络深度学习方法

Info

Publication number: CN109934864A
Application number: CN201910192296.4A
Authority: CN
Inventors: 白帆; 姚仁杰; 陈懋宁; 崔哲新
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2019-06-25
Anticipated expiration: 2039-03-14
Also published as: CN109934864B

Abstract

本发明公开一种面向机械臂抓取位姿估计的残差网络深度学***面上方的已知高度处；获取机械臂待抓取物体的深度图像；采用预先训练的改进后的GG‑CNN模型对深度图像进行映射处理，输出四张300×300像素的抓取信息图像，包括抓取成功率、抓取角度余弦值、抓取角度正弦值和抓取宽度；进而获取成功率最高位置的抓取角度和宽度信息；将抓取成功率图像中获得的抓取信息，通过坐标变换，得到在机械臂基坐标系下对目标物体的抓取角度和宽度。上述方法中的改进GG‑CNN模型通过构建残差模块搭建残差网络，增强卷积神经网络的拟合作用和学习能力，进而生成抓取位姿的抓取精度更高。

Description

面向机械臂抓取位姿估计的残差网络深度学习方法

技术领域

本发明属于信息控制技术，尤其涉及一种面向机械臂抓取位姿估计的残差网络深度学习方法。

背景技术

近年来，基于视觉的机械臂抓取成为当前研究的一个热点。一般在进行抓取动作时，首先需要实现准确的目标检测和定位。传统目标检测通常是静态检测，而且目标单一，目标检测受到外形、大小、视角的变化以及外部光照的变化等因素的影响，因而所提取的特征泛化能力不强，鲁棒性较差。深度学习算法的发展促进了目标检测和定位任务的进步。研究界普遍认为深的网络一般会比浅的网络效果好，但网络的深度提升不能通过层与层的简单堆叠来实现。由于梯度消失问题的存在，深层网络很难训练。2015年，业内技术人员提出了残差网络(ResNet)的思想，用来解决精准度下降问题。在ImageNet分层数据集中，通过极深的残差网络，得到了非常好的结果。

将机械臂视觉抓取和深度学习结合是现在机械臂抓取研究的主要方向。最近，部分业内技术人员提出了通过构建抓取生成神经网络(Generative GraspingConvolutional Neural Network简称GG-CNN)来进行物体的最优位姿抓取研究，通过将输入的深度图像的像素和输出的抓取信息图像的像素相对应，构建卷积神经网络，实现对复杂物体最优抓取位姿的预测，这种方法与流行的随机采样法相比，具有更高的应用效率，对机械臂最优抓取位姿的估计具有一定意义。但由于上述GG-CNN过于追求识别和抓取的速度，降低了神经网络的识别精度，使得该网络模型在机械臂抓取方面的应用具有一定局限性。

为此，如何提高应用于机械臂抓取位姿估计的GG-CNN的识别精度成为当前需要解决的问题。

发明内容

本发明的目的是提供一种面向机械臂抓取位姿估计的残差网络深度学习方法，能够有效提高机械臂最优抓取位姿生成的精度，使得的GG-CNN模型在高精度抓取领域更具有实用性。

为了达到上述的目的，本发明采用的主要技术方案包括：

本发明提供一种面向机械臂抓取位姿估计的残差网络深度学习方法，包括：

S1、初始化机械臂，并调整机械臂，使腕部相机位于垂直X0Y平面上方的已知高度处；

S2、获取机械臂待抓取物体的深度图像；

S3、将深度图像的中心部分剪裁，获得300×300像素的物体深度图像；

S4、采用预先训练的改进后的GG-CNN模型对所述物体深度图像进行映射处理，输出四张300×300像素的抓取信息图像，包括抓取成功率、抓取角度余弦值、抓取角度正弦值和抓取宽度；

S5、选择抓取成功率图像中成功率最高的像素点，以此对应到抓取角度余弦值、抓取角度正弦值和抓取宽度信息图像中的相应像素点，获得抓取成功率最高位置的作为抓取信息的抓取角度和宽度信息；

S5、将抓取成功率图像中获得的抓取信息，通过腕部相机、机械臂腕部和机械臂基座的坐标变换，得到在机械臂基坐标系(笛卡尔坐标系)下，对目标物体的抓取角度和宽度；

S6、输入抓取信息，控制机械臂实现抓取(即输出坐标变换后的待抓取目标物体的抓取位置、角度和宽度，以控制机械臂进行目标物体的抓取)；

其中，所述改进的GG-CNN模型为在现有的GG-CNN模型中通过构建残差模块搭建残差网络，增强卷积神经网络的拟合作用和学习能力，使得由改进的GG-CNN模型生成的抓取位姿的抓取精度更高，对于物***置和形状的变化更敏感，更具有实际应用价值。

可选地，在步骤S1之前，所述方法包括：

S0-1、基于现有的数据集创建一个用于训练改进后的GG-CNN模型的输入和输出的第一数据集G_train；所述第一数据集包括标记为正抓取信息的图像和标记为负抓取信息的图像，且第一数据集中的图像具有多个有标记的抓取框；

S0-2、通过构建残差模块搭建残差网络对现有的GG-CNN模型进行改进，以构建改进后的GG-CNN模型，同时保证改进后的GG-CNN模型的输入与输出的图像大小不变；

S0-3、使用第一数据集G_train对通过残差改进的GG-CNN模型进行训练，获得训练后的改进的GG-CNN模型。

可选地，通过残差改进的GG-CNN模型包括：

卷积部分、反卷积部分和输出部分；

卷积部分包括：十个残差模块，

其中，第一残差模块包括：1个带有池化层的卷积残差模块，该卷积残差模块中的参数包括：步长为3×3的4个滤波器；

第二残差模块包括：5个恒等残差模块，该恒等残差模块中的参数包括：步长为1×1的4个滤波器；

第三残差模块包括：1个带有池化层的卷积残差模块，该卷积残差模块中的参数包括：步长为2×2的8个滤波器；

第四残差模块包括：5个恒等残差模块，该恒等残差模块中的参数包括：步长为1×1的8个滤波器；

第五残差模块包括：1个带有池化层的卷积残差模块，该卷积残差模块中的参数包括：步长为2×2的16个滤波器；

第六残差模块包括：5个恒等残差模块，该恒等残差模块中的参数包括：步长为1×1的16个滤波器；

第七残差模块包括：1个带有池化层的卷积残差模块，该卷积残差模块中的参数包括：步长为5×5的32个滤波器；

第八残差模块包括：5个恒等残差模块，该恒等残差模块中的参数包括：步长为1×1的32个滤波器；

第九残差模块包括：1个带有池化层的卷积残差模块，该卷积残差模块中的参数包括：步长为1×1的64个滤波器；

第十残差模块包括：5个恒等残差模块，该恒等残差模块中的参数包括：步长为1×1的64个滤波器；

反卷积部分包括5个参数不同的反卷积层；

第一反卷积层的滤波器数目为64，每个滤波器的大小为3×3，步长为1×1；

第二反卷积层的滤波器数目为32，每个滤波器的大小为5×5，步长为5×5；

第三反卷积层的滤波器数目为16，每个滤波器的大小为5×5，步长为2×2；

第四反卷积层的滤波器数目为8，每个滤波器的大小为7×7，步长为2×2；

第五反卷积层滤波器数目为4，每个滤波器的大小为9×9，步长为3×3；

输出部分包括四个线性映射的卷积层，每一卷积层各包括1个滤波器，四个线性映射的卷积层依次分别映射输出抓取成功率、抓取角度的余弦值、抓取角度的正弦值和抓取宽度。

可选地，在步骤S0-3中，采用下述交并比公式对通过残差改进的GG-CNN网络的抓取准确率进行衡量；

交并比公式：

其中，C和G分别代表两个已知区域，交并比计算的即为两个区域之间的交集和并集的比值。

可选地，S2中的深度图像I＝R^H×W，其中，H为高度，W为宽度，深度图像的抓取描述为：

通过机械臂的坐标变换，将图像空间中的抓取转换为世界坐标g中的抓取：

其中，o＝(u,v)是抓取成功率最高像素的位置坐标，是在相机参考系中的旋转角度，是图像坐标中的抓握宽度；T_RC是从相机坐标系转换到机械臂坐标系的坐标变换，T_CI是基于相机内部参数和机械臂与相机之间手眼位置的校准变换；

S4中的输出图像表示为：G＝(Φ,W,Q)∈R^3×H×W；

Φ,W和Q各自是∈R^3×H×W，分别代表抓取角度、抓取宽度和抓取准确率，其中抓取角度Φ拆分为抓取角度余弦值和抓取角度正弦值，并且抓取成功率最高的坐标o对应的Φ,W和Q中包含和q的值；

步骤S4中的采用预先训练的改进后的GG-CNN模型对所述物体深度图像进行映射处理，具体为：G＝M(I)；

从G中确定图像空间中的最佳抓取位姿：

具体是从输出的抓取信息G中，先选择其中的Q图像的抓取成功率q最大的像素，将其坐标o对应到输出G中的Φ和W，由此获得最佳抓取位姿的位置、角度和宽度信息；

进一步地，通过计算世界坐标中的最佳抓取位姿g_best。

可选地，卷积部分的每一残差模块的处理过程包括：

每一残差模块包括主路径和辅路径；

辅路径由采用池化和卷积操作的路径和无操作的捷径路径两种路径组成；

具体地，主路径包括：

1)输入的数据X先经正则化操作，再经利用ReLU激活函数的激活层，最后经滤波器、卷积层输出到下一层；

2)由上一层经正则化操作，再经利用ReLU激活函数的激活层，最后经滤波器、卷积层，输出F(X)；

辅路径包括：

1)模块池化参数为真：输入的数据X先经过最大池化层，再经过滤波器大小为5×5，数目为filters，步长为1×1的卷积层，输出W(X)；

2)模块池化参数为假：不经过任何操作，直接将X输出；

将主路径与所选择的辅路径的输出相加，作为残差模块函数的整体输出H(X)。

本发明的有益效果是：

本发明的方法与现有的技术相比，本发明的方法可以提高机械臂最优抓取位姿生成的精度，使得本申请方法中改进的GG-CNN模型在高精度抓取领域更具有实用性。

也就是说，本申请提出首先搭建卷积残差模块，利用残差模块多层堆积构建残差网络，加深卷积神经网络的深度，并以此作为改进GG-CNN的主体部分。本文发明了改进GG-CNN模型，提高机械臂最优抓取位姿生成的精度，使得该网络模型在高精度抓取领域更具实用性。

附图说明

图1为本发明的面向机械臂抓取位姿估计的残差网络深度学习方法的流程图；

图2为本申请中的笛卡尔空间和图像空间描述的示意图；

图3为现有技术中的康奈尔大学抓取数据集的示意图；

图4为本申请中训练数据集的生成过程示意图；

图5为现有技术中的GG-CNN结构示意图；

图6为本申请中的构建残差模块时使用的部分结构的示意图；

图7为本申请中的构建恒等残差块的示意图；

图8为本申请中的卷积残差块示意图；

图9为本申请中的残差模块函数的示意图；

图10为本申请中的通过残差改进的GG-CNN模型的结构图；

图11为采用图5和图10的模型的准确率对比图；

图12为进前后模型如图5和图10的输出效果对比图。

具体实施方式

为了更好地解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

机械臂的自主抓取问题是机器人研究领域的一个重要问题。针对最优抓取位姿问题，本申请赋予机械臂视觉并结合深度学习算法，实现机械臂抓取的智能化。

本申请中采用残差网络的思想改进抓取生成卷积神经网络(GG-CNN)，首先搭建卷积残差模块(如图9所示)，利用残差模块多层堆积构建残差网络，加深卷积神经网络的深度，并以此作为改进GG-CNN的主体部分。本申请中通过深度残差网络改进GG-CNN，提高了机械臂最优抓取位姿生成模型的准确率。实验结果表明，本申请利用残差网络改进的GG-CNN模型准确率达到了88％，远高于原模型72％的准确率，大大提高了模型预测机械臂最优抓取位姿的准确率，在机械臂视觉抓取领域具有一定的科研意义和应用价值。

图1示出了本发明一实施例提供的方法，该方法可包括下述的步骤：

S1、初始化机械臂，并调整机械臂，使腕部相机位于垂直X0Y平面上方的已知高度处。

本实施例中以机械臂的腕部相机进行说明，当然，在实际应用中，可不限定腕部相机，任意位于机械臂上部的配合机械臂使用的相机均可使用。

S2、获取机械臂待抓取物体的深度图像。

S3、将深度图像的中心部分剪裁，获得300×300像素的物体深度图像。

本实施例不限定深度图像的剪裁方式，但是需要保留深度图像的目标物体的主要部分。

为了更好的理解本申请的方案，以下结合附图对本申请的方案进行说明如下。

1、基于GG-CNN的抓取方案

1.1定义抓取参数及变换

在给定场景中应用深度相机获取深度图像的情况下，本申请研究在垂直于平面的未知物体上检测和抓取的问题，如图2所示

在垂直于XOY平面(即机械臂基座坐标系，简称机械臂坐标系)上实施抓取，本实施例中可将抓取定义为：

利用这些描述位姿的参数便能确定一个抓取动作，位置是笛卡尔坐标中的夹具中心位置p＝(x,y,z)，姿态包括末端执行器绕z轴旋转的角度和所需要的宽度ω。抓取成功率q，表示抓取成功的可能性。

本申请使用的相机的内部参数是已知的，以此获取高度为H和宽度为W的深度图像I＝R^H×W，检测深度图像I的抓取。在图像I中的抓取描述为：

其中，o＝(u,v)是抓取成功率最高像素的位置坐标，是在相机(即前述的腕部相机或机械臂的相机)参考系中的旋转角度，是图像坐标中的抓握宽度。通过机械臂的坐标变换，可以将图像空间中的抓取转换为世界坐标g中的抓取：

T_RC是从摄像机坐标系转换到机械臂坐标系的坐标变换，T_CI是基于相机内部参数和机械臂与相机之间手眼位置的校准变换，从2D图像坐标转换到3D相机坐标系。

另外，将图像空间中的一组抓取称为抓取图，将其表示为

G＝(Φ,W,Q)∈R^3×H×W

其中Φ,W和Q各自是∈R^3×H×W，分别代表抓取角度、抓取宽度和抓取准确率，其中抓取角度Φ拆分为抓取角度余弦值和抓取角度正弦值，并且抓取成功率最高的坐标o对应的Φ,W和Q中包含和q的值。

在理想中，可直接计算深度图像I中每个像素的抓取值，而不是对输入图像进行随机采样。为此，将深度图像中的函数M(或称为映射M/映射函数M)定义为从输入的深度图像到抓取信息图像的变换：

G＝M(I)

从G中可以计算图像空间中最佳抓取位姿

并通过等式计算世界坐标中的最佳抓取位姿g_best.

1.2神经网络近似映射关系

可以理解的是，以下详细说明如何采用改进的GG-CNN确定映射函数M。

使用抓取生成卷积神经网络(GG-CNN)来近似函数映射M：I→G。用M_λ表示神经网络，其中λ是神经网络训练后的权重。

证明了M_λ(I)＝(Q_λ,Φ_λ,W_λ)≈M(I)，使用L2损失函数用训练集输入I_train和相应的输出G_train学习并训练该神经网络，如下：

其中，G是在笛卡尔坐标系下估计的点p处的一组抓取参数，它对应于每个像素o。θ无含义，只是为了方便说明。

抓取图G表示为三个为一组的图像：Φ,W,和Q。这些参数的表示如下：

Q是描述在每个点(u,v)处执行的抓取成功率的图像。该值是在[0,1]范围内的标量，其中接近1的值表示抓取成功率更高。

Φ是描述在每个点处执行的抓取的角度的图像。因为一般物体抓取在±π/2弧度的附近是对称的，所以角度应在[-π/2,π/2]的范围内。

W是描述在每个点处执行的抓取的末端执行器宽度的图像。为了保证深度不变，W的值在[0,150]像素的范围内，可以使用深度相机参数和测量的深度将其转换为物理测量。

1.3 GG-CNN的构建与训练

现有的数据集都不能满足GG-CNN的训练要求，为了训练GG-CNN模型，从康奈尔大学抓取数据集(图3所示)创建了一个符合GG-CNN输入和输出的数据集。康奈尔大学抓取数据集包含885个真实物体的RGB-D图像，其中5110个被标记为“positive抓取(正抓取)”，2909个被标记为“negative抓取(负抓取)”。虽然与一些较新的合成数据集相比，这是一个相对较小的抓取数据集，但这个数据最能满足本申请中逐像素抓取的需求，因为每个图像提供了多个有标记的抓取框。

使用随机裁剪，缩放和旋转来增加康奈尔大学抓取数据集的数量，从而创建了一组8840个深度图像和相关抓取图像的集合G_train，并有效地结合了51,100个抓取示例。

康奈尔大学抓取数据集使用像素坐标将待抓取的物体表示为抓取矩形框，从而校准末端执行器的位置和旋转角度。为了从抓取矩形框表示转变为基于图像的表示G，选择每个抓取矩形的中心三分之一处作为图像可抓取区域，其对应于末端执行器中心的位置。并假设其他任何的区域都不是有效的抓取。数据集生成过程如图4所示。

抓取成功率Q：将康奈尔大学抓取数据集中的每个像素是否为有效抓取视为二进制标签，并将Q_train的可抓取区域设置为1，其他的所有像素均为0。

旋转角度Φ：计算每个抓取矩形在[-π/2，π/2]范围内的角度，并设置相应的Φ_train区域。为了消除在使用原始角度时，角度位于±π/2的数据可能出现的不连续性和数值太大的问题。将角度分解为单位圆上的两个矢量分量，产生[-1,1]范围内的值，由于对映抓握在±π/2弧度附近是对称的，使用两个分量sin(2Φ_train)和cos(2Φ_train)，它们提供了在Φ_train∈[-π/2,π/2]内唯一的值。

抓取宽度W：和角度类似，计算每个抓取矩形的宽度(以最大值为单位)，表示抓取器的宽度并设置W_T的相应部分。在训练期间，将W_T的值按1/150的比例缩小，使其在[0,1]范围内。可以使用摄像机/相机的参数和测量的深度来计算末端执行器的宽度。

深度图像输入：由于康奈尔大学抓取数据集是使用真实相机捕获的，因此它已经包含真实的传感器噪声，因此不需要添加噪声。使用OpenCV修复深度图像以删除无效值。减去每个深度图像的平均值，将其值以0为中心以提供深度不变性。

通过以上的定义和操作，从康奈尔大学抓取数据集中生成用于训练GG-CNN模型的数据集。

现有技术中使用GG-CNN函数模型映射M_λ(I)＝(Q_λ,Φ_λ,W_λ)，直接从输入的深度图像I来近似生成抓取信息图像G_λ，以300×300的深度图像作为输入，经过三层卷积操作和三层反卷积操作，最终获得抓取的信息图。GG-CNN完整结构如图5所示。

由于图5所示的GG-CNN在识别和抓取中无法提高精度，为此，本申请中对图5所示的GG-CNN结构进行改进，如图10所示，其改进过程如下所述。

2基于残差网络的改进GG-CNN模型

首先介绍残差网络的思想，其次说明两个基本模块(如恒等残差块、卷积残差块)，最后结合两个基本模块构建了残差模块，利用残差模块搭建了残差网络，结构如图10所示。

2.1残差网络

残差网络借鉴了高速网络(Highway Network)的跨层链接思想，但对其进行改进。通过构建残差块“shortcut connections(捷径连接)”的方式，直接把输入X传到输出作为初始结果，输出结果为

H(X)＝F(X)+X

当F(X)＝0时，那么H(X)＝X，也就是恒等映射。ResNet相当于将学习目标改变了，不再是学习一个完整的输出，而是目标值H(X)和X的差值，也就是所谓的残差：

F(X)＝H(X)-X

因此，后面的训练目标就是要将残差结果逼近于0，使得随着网络加深，准确率不下降。

这种残差跳跃式的结构，打破了传统的神经网络n-1层的输出只能给n层作为输入的惯例，使某一层的输出可以直接跨过几层作为后面某一层的输入，其意义在于为叠加多层网络而使得整个学习模型的准确率不降反升的难题提供了新的方向。

在ResNet(残差网络)中，捷径连接使得梯度反向传播到更前面的层，图6(a)展示了神经网络的主路径，图6(b)为主路径添加了一个捷径连接，通过堆叠这些ResNet模块，可以构建很深的神经网络。

在ResNet中使用两种主要类型的模块(即恒等残差块和卷积残差块)，选择恒等残差块和卷积残差块主要取决于输入/输出尺寸是相同还是不同。如果相同，则使用恒等残差块，否则使用卷积残差块。

(1)恒等残差块

恒等残差块是ResNet中使用的标准块，对应于输入与输出具有相同维度的情况。

辅路径是捷径连接(shortcut)，卷积层构成主路径。在图7中，同样也进行了卷积和ReLU激活操作，为了加快训练的速度，防止过拟合，加入了Batch正则化。

(2)卷积残差块

ResNet的卷积残差块是另一种类型的残差块，当输入和输出尺寸不匹配时，可以使用这种类型的模块，如图8所示。

捷径路径中的卷积层用于将输入X调整为不同的尺寸，以便将捷径路径和主路径的输出大小匹配。

2.2引入残差网络改进GG-CNN

本申请中将残差网络的思想引入到GG-CNN中，通过构建残差模块，来进行更深层神经网络模型的构建，从而提高GG-CNN模型生成抓取位姿的准确率，得到更好的机械臂最优抓取位姿生成网络。构建的残差模块结构如图9所示。

在本申请中，构建的残差模块分为主路径和辅路径两大路径，其中辅路径由采用池化和卷积操作的路径和无操作的捷径路径两种路径组成。

为更好的说明，假定输入为X，为了区分每条路径的输出，分别命名为F(X)、W(X)和H(X)，这部分内容主要是解释单个残差模块。

主路径上的操作包括：

3)结合图9所示，输入的X先经正则化操作，再经利用ReLU激活函数的激活层，最后经滤波器数目为filters/2(其中filters为模块函数的输入参数filters)，步长为1×1的卷积层，输出到下一层；其中，滤波器大小为3×3；

4)由上一层经正则化操作，再经利用ReLU激活函数的激活层，最后经滤波器数目为filters(其中filters为模块函数的输入参数filters)，步长为strides(其中strides为模块函数的输入参数strides)的卷积层，输出F(X)；其中，滤波器大小为5×5。

辅路径上的操作包括：

3)模块函数池化参数为真：输入的X先经过最大池化层，大小为strides(其中strides为模块函数的输入参数strides)，再经过滤波器数目为filters(其中filters为模块函数的输入参数filters),步长为1×1的卷积层，输出W(X)。其中，滤波器大小为5×5；

4)模块函数池化参数为假：不经过任何操作，直接将X输出将主路径与所选择的辅路径的输出相加，作为残差模块函数的整体输出H(X)。

本申请中利用自己搭建的残差模块进行GG-CNN模型的改进，在保证原始输入输出大小不变的前提下，通过残差模块的堆积来构建中间结构，模型结构如图10所示。

具体地，在图10所示的通过残差改进的GG-CNN网络包括：卷积部分、反卷积部分和输出部分；

卷积部分包括：十个残差模块，

反卷积部分包括5个参数不同的反卷积层；

也就是说，在本实施例中，将残差部分的网络输出经三个反卷积层的变换，得到本申请中需要的抓取集合G，将反卷积的输出做线性激活，映射到输出层的位置图片p，抓取角度的正弦图片和余弦图片组成的角度图Φ，和抓取宽度图片W，这样就构成了本申请中通过残差改进的GG-CNN网络。

3实验结果与分析

本申请中机械臂抓取仿真实验算法使用残差网络改进的GG-CNN模型，实验环境为Ubuntu16.04***，位姿生成算法和抓取算法的编程环境为Python 2，使用实验室服务器显卡GTX1080对训练过程进行加速，进行多次改进测试。

在网络模型的训练和测试中，引用目标检测领域交并比(IoU)的概念来衡量模型的准确率。交并比定义如下

经过网络生成的抓取框与标记抓取框交集和并集的比值作为本申请网络生成抓取的准确率。

对原GG-CNN的网络参数进行实验、改进和优化，通过调整网络的优化器类型、学习率、正则化参数、批量数据大小、损失函数、激活函数和神经网络的层数，提高GG-CNN网络的准确率，经过多次实验后，最后选用Adam优化器，学习率衰减，将批量数据大小定为32，损失函数采用MSE，激活函数采用ReLU，利用构建的残差模块搭建残差网络，通过多层模块叠加构建深度残差网络。

如图11所示，图10所示的残差网络改进的GG-CNN模型和原GG-CNN模型(如图5所示)的准确率曲线，随着epoch的增加，由模型生成的抓取位姿的准确率逐步提升，经过100个epoch的训练，改进前后模型的准确率基本稳定。对比改进模型与原模型的准确率曲线，本申请可以清晰地看到改进前模型的准确率稳定在71％左右，而改进后模型的准确率最终能稳定在88％左右。

利用残差网络改进的GG-CNN模型，位姿生成的准确率提高了17％，说明利用多层残差模块搭建深层残差网络，构建更深层次的抓取生成卷积神经网络模型，能够非常有效的提高GG-CNN模型的准确率，得到更精确的机械臂最优抓取位姿。

为了测试改进前后的抓取位姿生成网络的效果，本申请数据集从康奈尔大学抓取数据集创建了一个符合GG-CNN输入和输出的数据集。将康奈尔大学抓取数据集中真实物体的RGB-D图像，以及其上的标记“positive抓取”和“negative抓取”同时显示在图像中，标记的可抓取位姿用矩形框进行表示，整体RGB图像放在左上位置；将数据集对应的深度图像作为输出，同样用浅灰色的矩形框表示出可抓取位姿，用深灰色的矩形框表示通过神经网络训练生成的抓取位姿，整体深度图像放在右上位置；神经网络训练输出的抓取宽度和抓取角度图像中每个像素点都有对应的抓取参数值，将抓取宽度图像放在左下位置，抓取角度图像放在右下位置。通过四幅一组的图像展示抓取生成网络改进前后的效果，利用物体1和2两个物体进行展示，效果如图12所示。在图12中，(a)表示改进前对物体1识别生成的输出位姿，(b)表示改进前对物体2识别生成的输出位姿，(c)表示改进后对物体1识别生成的输出位姿，(d)表示改进后对物体2识别生成的输出位姿。

将改进前后网络模型的输出进行对比，首先观察深度图像中由抓取生成卷积神经网络生成的深灰色矩形框效果，对于物体1，改进前生成的抓取框宽度小，不能满足实际抓取，GG-CNN模型改进后生成的抓取框不仅宽度合适，而且位置也能满足抓取要求；对于物体2，改进前后生成的抓取框位置都能满足实际要求，效果都较好。观察抓取生成卷积神经网络输出的抓取宽度和角度图像，对于物体1和物体2，模型改进后生成的抓取图像可抓取像素点的分布情况与实际物体深度图像的像素分布情况更一致，而且抓取宽度和角度值更符合实际。网络模型输出的抓取信息图像颜色更明显，改进后的网络模型对于物体的大小、形状和位置的差异感知更敏感，能够更好的反映抓取信息的变化。

通过本申请构建残差网络对GG-CNN模型进行改进，使得模型生成抓取位姿的准确率明显提高、抓取效果显著提升。

现有技术中GG-CNN模型追求计算速度，采用了过于简单的神经网络结构，减少神经网络参数的量级，牺牲了一部分网络模型的抓取准确率。本申请中采用残差网络的思想，构建了适合自己网络模型的残差块函数，重构了GG-CNN模型的结构，大大提高了模型预测机械臂最优抓取位姿的准确率，虽然更深的网络意味着计算时间的增长，但是高质量、高精度的抓取仍是实际抓取中的重要需求，在某些精度要求较高领域，具有一定的应用价值。

需要理解的是，以上对本发明的具体实施例进行的描述只是为了说明本发明的技术路线和特点，其目的在于让本领域内的技术人员能够了解本发明的内容并据以实施，但本发明并不限于上述特定实施方式。凡是在本发明权利要求的范围内做出的各种变化或修饰，都应涵盖在本发明的保护范围内。

Claims

1.一种面向机械臂抓取位姿估计的残差网络深度学习方法，其特征在于，包括：

S2、获取初始化后的机械臂的腕部相机采集的待抓取目标物体的深度图像，其中，调整机械臂末端使腕部相机位于垂直X0Y平面上方的预设高度处；

S3、对获取的深度图像进行预处理，获得300×300像素的物体深度图像；

S5、选择抓取成功率图像中成功率最高的像素点，并对应到抓取角度余弦值、抓取角度正弦值和抓取宽度信息图像中的相应像素点，获得抓取成功率最高位置的作为抓取信息的抓取角度和宽度信息；

S5、将获得的抓取信息，先通过腕部相机的坐标变换，再通过机械臂腕部与基座间的坐标变换，最后得到在机械臂基坐标系下待抓取目标物体的抓取角度和宽度；

其中，所述改进的GG-CNN模型为在现有的GG-CNN模型中通过构建残差模块搭建残差网络，增强卷积神经网络的拟合作用和学习能力。

2.根据权利要求1所述的方法，其特征在于，在步骤S2之前，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，通过残差改进的GG-CNN模型包括：

卷积部分、反卷积部分和输出部分；

卷积部分包括：十个残差模块，

反卷积部分包括5个参数不同的反卷积层；

4.根据权利要求3所述的方法，其特征在于，在步骤S0-3中，采用下述交并比公式对通过残差改进的GG-CNN网络的抓取准确率进行衡量；

交并比公式：

5.根据权利要求1所述的方法，其特征在于，

S2中的深度图像I＝R^H×W，其中，H为高度，W为宽度，深度图像的抓取描述为：

S4中的输出图像表示为：G＝(Φ,W,Q)∈R^3×H×W；

从G中确定图像空间中的最佳抓取位姿：

进一步地，通过计算世界坐标中的最佳抓取位姿g_best。

6.根据权利要求3所述的方法，其特征在于，

卷积部分的每一残差模块的处理过程包括：

每一残差模块包括主路径和辅路径；

具体地，主路径包括：

辅路径包括：

2)模块池化参数为假：不经过任何操作，直接将X输出；

7.根据权利要求1至6任一所述的方法，其特征在于，所述步骤S2之前，还包括下述的步骤S1：

S1、初始化机械臂，并调整机械臂，使腕部相机位于垂直X0Y平面上方的预设高度处；

相应地，在步骤S5之后，还包括步骤S6：

S6、输出坐标变换后的待抓取目标物体的抓取位置、角度和宽度信息，以控制机械臂进行目标物体的抓取。