CN111331607B

CN111331607B - 一种基于机械臂的自主抓取与码垛方法及***

Info

Publication number: CN111331607B
Application number: CN202010260136.1A
Authority: CN
Inventors: 张伟; 张钧皓; 宋然; 马林; 李贻斌
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-04-03
Filing date: 2020-04-03
Publication date: 2021-04-23
Anticipated expiration: 2040-04-03
Also published as: CN111331607A

Abstract

本发明公开了一种基于机械臂的自主抓取与码垛方法及***，获取有待码垛物体的抓取区域和码放区域的图像，将图像输入至自动抓取码放网络；自动抓取码放网络根据已学习的抓取策略和码放策略预测抓取位置和码放位置；自动抓取码放网络结合深度强化学习时，采用最大化未来奖励的期望总和的最优策略；机械臂根据预测结果选择抓取区域中所需的物体并将其抓取码放在当前和将来的状态中合适的位置。本公开的技术方案通过抓取码放网络(GSN)同时学习抓取策略和码放策略，可以使机械夹具从桌子上拾取待码放的物体并将其正确码放在恰当的位置上。

Description

一种基于机械臂的自主抓取与码垛方法及***

技术领域

本发明属于机器学习技术领域，尤其涉及一种基于机械臂的自主抓取与码垛方法及***。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

在过去的十几年中，在汽车组装和焊接等高度有序的环境中，机械臂的抓取动作达到了很高的精度水平。然而在很多任务场景中，机械臂***必须处理不可预知的物体。一个杂乱的桌面可能导致抓取***彻底失败。即使抓取成功，预先设定的固定码放位置也会导致不同形状的物体发生碰撞。因此，不断扩大的零售业急需可以在仓库中使用的智能码垛***。

为了实现自主决策，现有技术存在使用强化学习来训练模型。强化学习的目的是训练智能体与环境接触进而最大化未来累计奖励的期望值，这关系到马尔可夫决策过程(MDP)中的策略优化。马尔可夫决策过程可用公式元组表示为M(s,g,a,r,γ)，其中s∈S表示一个确定的状态空间，g∈G表示一系列可能的目标，a∈A表示动作空间，r表示状态奖励函数，γ∈(0,1]是一个折扣因子。奖励函数r(s,a,s')取决于当前的目标和状态。一个策略π(a|s,g)将每一个状态-目标对映射到一个动作，同时定义智能体的行为。

传统的强化学习方法如表格式强化学习在遇到高维状态空间以及动作空间时会出现“维度灾难”，这在以前很难解决。近年来随着深度学习技术的兴起，将深度神经网络技术与强化学习技术融合起来成为解决“维度灾难”的重要手段。使用深度神经网络，状态还可以以图像的形式进行表示，这使得用强化学习技术来解决视觉问题变得更加方便。

目前深度强化学习落地到真实的机器人，尤其是机械臂上还比较困难，这主要是因为强化学习本质上是一个不断试错的方法，需要进行大量的实验，而真实的机械臂进行大量实验很容易损坏，且需要很长的时间收集样本。除此之外，机械臂的动作维度很高，比如UR5有6个关节，即6个自由度，这使得机器人在学习的过程中很难控制。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于机械臂的自主抓取与码垛方法及***，使得智能体仅依赖视觉状态输入就能自主选择抓取物体并整齐码放于另一区域。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

一种基于机械臂的自主抓取与码垛方法及***，包括：

获取待码垛的物体的码放区域和抓取区域的图像，将图像输入至自动抓取码放网络；

自动抓取码放网络根据已学习的抓取策略和码放策略预测抓取位置和码放位置；

自动抓取码放网络结合深度强化学习时，采用最大化未来奖励的期望总和的最优策略；

机械臂根据预测结果选择抓取区域中所需的物体并将其抓取码放在当前和将来的状态中合适的位置。

进一步的技术方案，自动抓取码放网络包括抓取网络和码放网络，分别预测抓取位置和码放位置，将码放区域图像的特征和抓取区域的图像的特征进行融合，实现将码放区域的信息传递给抓取网络。

进一步的技术方案，自动抓取码放网络学习抓取策略和码放策略时，基于任务相关信息进行辅助训练，包括：

使用从抓取网络感知层提取的特征来预测抓取区域剩下的物体数量；

使用从码放网络感知层获得的信息来预测像素级的堆的高度；

以物品为中心的特征学习，以确保从抓取区域消失的物品与在特征级别上和添加到堆中的物品相似。

进一步的技术方案，自动抓取码放网络使用分布式优先经验回放来学习抓取不同大小的物品并将其紧密码放在码放区域上。

进一步的技术方案，自动抓取码放网络结合深度强化学习时，采用以最大化未来奖励的期望总和的最优策略，选择抓取区域中所需的物体并将其抓取码放在当前和将来的状态中合适的位置。

进一步的技术方案，将待码垛的物体(抓取区域)的图像输入自动抓取码放网络之前进行处理：将3通道彩色数据与深度数据结合起来以正交方式投影到俯瞰视角，并逆时针旋转不同角度，生成新的正视图。

进一步的技术方案，对于码放区域的码放状态表示，使用面向码放区域的相机拍摄的RGB图像。

进一步的技术方案，通过抓取网络和码放网络对两个Q函数进行建模，在每个时间步，抓取网络会评估抓取状态中每个像素的抓取Q函数，而码放网络会评估物体的码放状态中每个位置单元的码放Q函数。

进一步的技术方案，抓取网络和码放网络从原始图像数据中提取特征；对于抓取网络和码放网络中的卷积层，将码放网络中卷积层生成的物体的码放状态的高级特征与抓取网络中卷积层生成的抓取状态的高级别特征进行融合；

对于抓取网络，混合的低层特征由两个卷积层处理，然后送入双线性上采样层，卷积层的另一个功能还用于通过全局平均池化层后跟激活函数和线性层来预测桌子上的物体数量。

基于深度强化学习的机械臂抓取码放***，包括：

机械臂、摄像机及控制***；

所述摄像机采集放有待码垛物体的抓取区域和码放区域的图像，将图像输入至控制***的自动抓取码放网络；

所述机械臂根据预测结果选择并实施抓取然后码放待码垛的物体。

以上一个或多个技术方案存在以下有益效果：

本公开的技术方案通过抓取码放网络(GSN)同时学习抓取策略和码垛策略，可以使机械夹具从桌子上拾取待码放的物体并将其正确码放在合适的位置上。

本公开使用从码放网络(SNet)感知层获得的信息来预测像素级的堆的高度。该任务有助于网络提取堆的轮廓特征，其中包含有用的信息以评估当前状态。另一个是以物品为中心的特征学习任务，以确保从抓取区域消失的物品在特征级别上和添加到堆中的物品相似。也就是说，确保从不同的视角(桌面图像和堆的图像)捕获的物品特征是接近的。

本公开将整个抓取-码放过程公式化为一个Q值学***台上的策略。在仿真环境和现实世界中均进行了实验，以验证所提出方法的有效性。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例的***示意图；

图2为本发明实施例的网络学习示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例公开了一种基于机械臂的自主抓取与码垛方法，包括：

机械臂根据预测结果选择并实施抓取然后码放待码垛的物体。

上述基于深度强化学习的机械臂抓取码放方法为基于DQN算法的模型嵌入式方法，使得智能体仅依赖视觉状态输入就能自主选择抓取物体并整齐码放于另一区域。可以以端到端的方式处理多物体抓取码放任务。

上述实施例子中提出的自动抓取码放网络(grasping for stacking network，GSN)由两部分组成，即抓取网络(grasping network，GNet)和码放网络(stackingnetwork，SNet)。可以分别预测抓取位置和码放区域。为了将码放区域的信息传递给GNet，码放区照片的特征和桌面照片的特征进行了融合。这样GNet可以不仅仅考虑哪个物品容易被抓起，还能考虑码放区域需要哪个物品。

通过抓取码放网络(GSN)同时学***台上。

为了加速学习过程，使网络更关注任务相关信息并提供额外的训练信号，引入了三个辅助任务。第一个是桌面物体数量预测任务，使用从GNet感知层提取的特征来预测桌子上还剩下多少个物品。第二个是堆的高度预测任务，使用从SNet感知层获得的信息来预测像素级的堆的高度。该任务有助于网络提取堆的轮廓特征，其中包含有用的信息以评估当前状态。最后一个是以物品为中心的特征学习任务，以确保从桌面消失的物品与在特征级别上和添加到堆中的物品相似。也就是说，从不同的视角(桌面图像和堆的图像)捕获的物品特征应该是接近的。

整个抓取及码放过程被公式化为一个Q值学***台上的策略。在仿真环境和现实世界中均进行了实验，以验证所提出方法的有效性。

具体执行过程中，使用配备有两根手指的机械臂***进行操作。机器操纵过程可以表示为马尔可夫决策过程(MDP)。在t为时间步长的状态s_t下，***分别通过两个摄像机拍摄码放和抓取区域。然后，机器人根据受θ参数化的策略π_θ(s_t)选择并实施一项动作(包括抓取和码放一个物体)，该策略可以通过训练深度网络来学习。然后状态更新为具有即时奖励r(s_t,a_t)的s_t+1。训练后，可以通过找到一个最优策略

来解决该强化学习问题，该策略以折扣系数γ通过调整θ来最大化未来奖励的期望(E)在t＝1,2,…,T时的总和(∑)。因此，目标函数F可以定义为：

上面的框架为此类决策问题提供了解决方案，但是由于数据收集的困难，训练很有难度。收集大量经验对于强化学习网络的性能至关重要。与同策略学习相比，异策略学习方法可以多次利用收集到的数据，以便在数据收集困难时进行训练。为了有效地训练网络，采用了异策略Q学习算法，以通过最小化贝尔曼误差来学习估计Q函数的策略：

训练后，此策略将通过最大化最优状态动作值函数

(s_t,a_t)来选择操作，从而形成最优策略

换句话说，它将选择在状态s_t处产生最大累积奖励的动作a_t，也就是选择堆放区域中所需的物体并将其抓取码放在当前和将来的状态中合适的位置。

通过在桌子前拍摄的4通道RGBD图像对抓取状态s_gt进行建模。在将它们输入网络之前，将3通道彩色数据与深度数据结合起来以正交方式投影到俯瞰视角，并逆时针旋转不同角度n*22.5°,n∈0,1,2...7。这种策略生成了八个新的正视图。对于码放状态表示，使用面向码放区域的相机拍摄的RGB图像。由于当夹具被其他物体阻挡时双指无法打开，因此将码放位置设计为单层排列(沿x轴和z轴延伸，而沿y轴保持固定)，因此机械臂可以沿y轴码放物体而不会发生碰撞。因此，物体的码放，状态s_st可以由2维RGB图片完全表示。

将抓取动作的表示定义为a_gt，将码放动作的表示定义为a_st，在每个时间步生成一个动作。至于抓取动作a_gt，它包含了笛卡尔运动命令[x_g,y_g,z_g,θ_g]，其中[x_g,y_g,z_g]对应于抓取时的夹具中心，θ_g是手腕绕z轴旋转角。本申请技术方案将180°划分为8个单独的θ_g旋转。至于码放动作a_st，沿x轴将码放区域划分为14个位置，表示为s_i∈[0,13]。由于在训练后学会了抓取物体中心，因此这些区域也代表了码放物体的中心。由于任务中的大多数物体的宽度为3个单元，因此最左边和最右边的单元区域都没有包含在操作空间中(如果放在边缘，物体的一部分将无法被观察到)。机械臂不仅按f_x(s_i)指定的x坐标码放物体(f_x是将s_i映射到x坐标的离散函数)，还按s_st推断的z坐标码放物体。其他命令(例如y坐标和夹具方向)已在码放操作中固定，这简化了此码垛问题并有助于以密集形式码放盒子。

强化学***的，因此本申请技术方案定义码放奖励r_s如下：

r_s＝B^--H⁺-O⁺-L,

其中B^-表示崎岖度降低值(通过计算柱状高度方差来评价，阈值设置为0.3、0和1)。H⁺表示最大高度增加值(阈值设置为0或0.7)。O⁺表示孔数的增加值。一旦覆盖了间隙，便会形成一个孔，无法再填充。L是一个二进制值，表示堆的顶部是否全部水平。通过将s_pt+1与s_pt比较可以计算出这四个值。前三个是不同的分段函数，其输入分别是图像s_pt+1与s_pt，从而指导策略以高适应性实现码放。受到提早终止策略的启发，如果学***的码放，则度量L会生效，并且由于之后的状态奖励可能不准确，因此会发送重启信号。

抓取奖励r_g定义为：

其中G代表抓取的结果，0表示抓取失败，1表示抓取成功。表示物体中心和抓取位置之间的距离的D对于实现高码放精度至关重要。

通过在全卷积网络(GNet)中合并不同的功能，扩展了深度Q网络。通过两个卷积网络(GNet和SNet)对两个Q函数进行建模。在每个时间步，GNet都会评估s_gt中每个像素的抓取Q函数，而SNet会评估s_st中每个位置单元的码放Q函数。

架构中的两个网络都使用ResNet-50的前3个单元从原始图像数据中提取特征。由于深度信息对于精确抓取至关重要，因此将GNet的输入层从3个通道调整为6个通道(即通过将RGB通道和按通道复制的深度通道连接在一起，将RGB更改为RGBDDD)。SNet中ResNet组件的输入通道保持不变。将s_gt表示的抓取图片(分辨率为224x224)和s_st表示的码放图片(分辨率为256x128)的大小都调整为320x320，这将生成合适大小的特征图，随后用于上采样和辅助任务。

对于GNet和SNet中的之后的卷积层，它们共享如图2所示的相同网络体系结构。每个卷积层的卷积核大小为1x1，这有助于缩小尺寸并减轻可能的过度拟合。为了结合有关码垛中需要哪些物体以形成有序布局和在特定抓取方向上易于抓握的特征信息，将SNet中卷积层Φ_s生成的s_st的高级特征与GNet中卷积层Φ_g生成的s_gt的高级别特征进行融合。考虑到GNet是在特征图中编码位置信息的全卷积网络，所以不能在通道级别将Φ_s与Φ_g串联在一起，采用两个线性层将Φ_s转换为沿通道权重ω_g，然后将ω_g(在0之间1)乘以Φ_g如下：

Φ_m＝λω_gΦ_g+(1-λ)Φ_g

其中Φ_m表示融合后的特征，而λ是比例因子，平衡原始特征(包含对易于握住物体的位置的初步预测)和融合特征(强调从s_gt中提取的特征，这些特征对于选取那些适合码放区状态的物体有用)。在本申请技术方案的工作中设定λ＝0.25。

前述特征被发送到不同的层以用于不同的任务。对于GNet，混合的低层特征Φ_m由两个卷积层处理，然后送入双线性上采样层。Φ_g的另一个功能还用于通过全局平均池化层后用ReLU激活函数和线性层来预测桌子上的物体数量，这有助于感知层区分不同的物体并保持对较小物体的敏感度。在SNet中，高级特征Φ_s不仅用于促进GNet做出更广泛的感知，而且还用于预测每个码放区的Q值和逐列高度值。使用两个单独的线性层模块，通过计算值函数V_s(s_s)和优势函数A_s(s_s,a_s)共同估算Q值Q_s(s_s，a_s)。对于码放区高度预测任务，物体码放时逐列预测的高度可以表示一个堆的上边界，其中包含用以预测码放区的Q值的辅助信息。

图2中未显示的另一个辅助任务是以物体为中心的特征学***均池化和ReLU非线性层来处理特征图Φ_g和Φ_p。因此，在GNet和SNet中的感知模块具有通过相似特征识别相同物体的能力，这有助于上述特征融合。

使用深度Q网络作为Q函数逼近器，共同训练GNet和SNet。具体来说，将抓取Q函数Q_g(s_p+g，a_g)建模为全卷积网络(GNet)，将码放Q函数Q_s(s_s，a_s)建模为深度网络(SNet)。使用双重Q学习来训练GNet和SNet。与Q学习方法相比，该方法采用目标网络和改进的最大值算子，使其更加可靠。目标网络与图2中的网络(没有辅助任务模块)共享相同的体系结构，其参数每300步从在线学习模型中提取一次。对于最大值算子，双重Q学习使用使当前Q_θ和从目标Q_θ ^-获得的值最大化的操作，也就是说，对于抓取Q函数和码放Q函数的损失函数均为：

在每个训练回合中i∈{g，s}。期望值E是通过小批量样本计算得出的，其余变量均已在上文说明。用于状态空间和动作空间的像素参数化的全卷积网络提供了高效的计算，并且夹具位置(像素化采样)和方向(通过旋转s_gt)的参数化使卷积特征可以在位置和方向之间共享。在本申请技术方案中，GNet预测的Q值Q_g代表在可能成功的位置抓取并且抓取的是码放策略所需的物体。因此，Q函数Q_g(s_p+g，a_g)的奖励应同时包含抓取和码放奖励。通过这种方式，将Φ_s传递到ω_g的特征融合层能够在训练过程中进行自我调整。

为了加快学习速度，实施了分布式学习框架。有16个采样器以异步方式进行采样。在收集了200个样本之后，采样器将具有不同优先级的样本经验转移给学习器，并从中复制参数。同时，学习器通过带有两个优先级的经验回放缓冲区实施训练，该缓冲区存储与抓取和码放相关的具有不同优先级的经验索引，并交替使用优先级高的样本。其中，具有较大预测误差的样本将具有较高的优先级。算法1中列出了学习器训练例程的伪代码。

在仿真环境环境中训练***以提高效率。在V-REP中使用配备了Robotiq85夹具的UR5机械臂。设计了四种类型的盒子，大小分别为3x 3x 3、3x 9x 3、6x 9x 3和9x 9x 3(单位为厘米)。

在学***滑L1损失函数进行训练，而学习以物体为中心的特征的任务则使用n-pair损失函数。使用学习率为0.0001的随机梯度下降同时训练GNet和SNet。两种Q学习方法均采用ε-贪婪的探索策略，ε分别针对SNet初始化为0.9和GNet初始化为0.5，然后在训练中退火至0.05。

在仿真环境和真实场景中评估本申请技术方案的***(GSN)。将不同大小和颜色的盒子随机码放在桌子上，机器人需要一一抓取并码放盒子以形成稳定的一摞。进行了三个实验：

1)本申请实施例子的强化学习框架和监督学习方法之间的比较研究；

2)消融研究，以评估本申请***的每个组件在整体性能方面的贡献；

3)演示了本申请的***可以应用于真正的机器人来执行抓取和码放任务。

本申请使用一个UR5机械臂和一个Robotiq85夹具(附加安装了一个Realsense摄像机)来进行真实环境的机器人上的相同测试任务。在实际测试中，码放性能是通过码放最高和最低表面之间的高度差Hd来评估的。如果Hd≤2，则将码放任务视为成功。本申请的方法在箱式码放任务中达到了75％(15/20)的码放成功率，而监督学习方法只能达到15％(3/20)的成功率。

在一实施例子中，一种基于机械臂的自主抓取与码垛方法及***，包括：

机械臂、摄像机及控制***；

所述摄像机采集待码垛物体的抓取区域和码放区域的图像，将图像输入至控制***的自动抓取码放网络；

该***在工作时，具体参见实施例子一种基于机械臂的自主抓取与码垛方法的具体步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于机械臂的自主抓取与码垛方法，其特征是，包括：

机械臂根据预测结果选择抓取区域中所需的物体并将其抓取码放在当前和将来的状态中合适的位置；

自动抓取码放网络学习抓取策略和码放策略时，基于任务相关信息进行训练，包括：

2.如权利要求1所述的一种基于机械臂的自主抓取与码垛方法，其特征是，自动抓取码放网络包括抓取网络和码放网络，分别预测抓取位置和码放区域，将码放区域图像的特征和抓取区域的图像的特征进行融合，实现将码放区域的信息传递给抓取网络。

3.如权利要求1所述的一种基于机械臂的自主抓取与码垛方法，其特征是，自动抓取码放网络使用分布式优先经验回放来学习抓取不同大小的物品并将其紧密码放在码放区域上。

4.如权利要求1所述的一种基于机械臂的自主抓取与码垛方法，其特征是，待码垛的物体抓取区域的图像输入自动抓取码放网络之前进行处理：将3通道彩色数据与深度数据结合起来以正交方式投影到俯瞰视角，并逆时针旋转不同角度，生成了新的正视图。

5.如权利要求1所述的一种基于机械臂的自主抓取与码垛方法，其特征是，对于码放区域的码放状态表示，使用面向码放区域的相机拍摄的RGB图像。

6.如权利要求1所述的一种基于机械臂的自主抓取与码垛方法，其特征是，通过抓取网络和码放网络对两个Q函数进行建模，在每个时间步，抓取网络会评估抓取状态中每个像素的抓取Q函数，而码放网络会评估物体的码放状态中每个位置单元的码放Q函数。

7.如权利要求1所述的一种基于机械臂的自主抓取与码垛方法，其特征是，抓取网络和码放网络从原始图像数据中提取特征；对于抓取网络和码放网络中的卷积层，将码放网络中卷积层生成的物体的码放状态的高级特征与抓取网络中卷积层生成的抓取状态的高级别特征进行融合；

对于抓取网络，混合的低层特征由两个卷积层处理，然后送入双线性上采样层，卷积层的另一个功能还用于通过全局平均池化层后传入激活函数和线性层来预测桌子上的物体数量。

8.如权利要求1所述的一种基于机械臂的自主抓取与码垛方法，其特征是，使用深度Q网络作为Q函数逼近器，共同训练抓取网络和码放网络。

9.一种基于机械臂的自主抓取与码垛***，其特征是，包括：

机械臂、摄像机及控制***；

所述机械臂根据预测结果选择并实施抓取然后码放待码垛的物体；