CN112405543A

CN112405543A - 一种基于深度强化学习的机械臂密集物体温度优先抓取方法

Info

Publication number: CN112405543A
Application number: CN202011316646.2A
Authority: CN
Inventors: 陈满; 李茂军; 李宜伟; 赖志强; 李俊日; 熊凯飞
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-02-26
Anticipated expiration: 2040-11-23
Also published as: CN112405543B

Abstract

本发明公开一种基于深度强化学习的机械臂密集物体温度优先抓取方法，包括以下步骤：步骤S1、构建机械臂工作空间，并构建实时状态；步骤S2、对状态信息进行预处理；步骤S3、将预处理后的信息经过Q网络进行前向传递，得到对应Q值；步骤S4、依据Q值和ε‑贪婪策略指导机械臂动作，并通过奖励函数获得奖励；步骤S5、不断通过目标Q网络更新权重，实现Q网络的训练；步骤S6、记录训练过程中相关数据和最后训练完成的模型，得到机械臂最优的抓取策略。本发明具有针对形状不规则、密集堆叠、需要优先考虑温度因素的抓取场景；依据深度强化学习算法设计机械臂动作，提高机械臂的抓取性能，并引入红外图像，使机械臂具有优先抓取温度较高物体的能力的特点。

Description

一种基于深度强化学习的机械臂密集物体温度优先抓取方法

技术领域

本发明涉及一种基于深度强化学习的机械臂密集物体温度优先抓取方法，将深度强化学习应用于机械臂抓取任务中，把推动和抓取放在一个强化学习框架内联合动作，以推动促进抓取，并设置温度奖励，使机械臂对密集物体的抓取效果更好，并具有优先抓取高温物体的能力。

背景技术

目前，机械臂在应用和功能上日趋完善；随着机械臂技术的迅速发展，机械臂已经广泛应用于搬运、码垛、切割、焊接等工业任务当中，不仅解放了人力，还提高了工业生产的效率和质量；其中，机械臂的抓取任务是许多任务的基础，在工业中有着十分重要的作用。

然而，相比于普通的抓取场景，机械臂的抓取在冶金、钢铁和原子能等工业的抓取场景常具有以下特性：形状不规则和位置随机，例如：冶金和钢铁等工业中的固体燃料和不规则半成品等；高危险性，钢铁和原子能等工业生产过程中常伴随着高温、强辐射等危害条件，因此抓取对象的危险性通常较高，有时还需优先考虑温度、辐射等特性(即：在抓取过程中最大程度地优先抓取高温、强辐射的物体，以降低对设备与环境的危害)；密集堆叠性，工业过程涉及大规模的密集生产，因此抓取对象常具有密集堆叠等特性。

以上抓取场景的特性为机械臂抓取工作带来了难度；基于模型的方法通常实际建模过程复杂，且难以应用于非结构化场景；普通的数据驱动方法对于部分非结构化场景下的抓取具有一定的作用，但是对于密集堆叠物体的抓取效果一般，并且不能优先考虑危害条件。

发明内容

本发明的目的是针对形状不规则、密集堆叠、需要优先考虑温度因素的抓取场景，提出一种基于深度强化学习的机械臂密集物体温度优先抓取方法；依据深度强化学习算法设计机械臂动作，以推动促进抓取，提高机械臂的抓取性能，并引入红外图像，使机械臂具有优先抓取温度较高物体的能力。

本发明的目的可以通过以下技术方案实现：

一种基于深度强化学习的机械臂密集物体温度优先抓取方法，包括以下步骤：

步骤S1、构建机械臂工作空间，通过视觉传感器提取待抓取物体的状态信息，并构建实时状态；

步骤S2、对环境信息进行预处理，便于机械臂完成抓取；

步骤S3、初始化深度强化学习算法的基本参数和机械臂工作空间，将预处理后的信息经过Q网络进行前向传递，得到对应Q值；

步骤S4、依据Q值和ε-贪婪策略指导机械臂动作，并通过奖励函数获得奖励；

步骤S5、不断通过目标Q网络更新权重，以获取最佳的期望奖励，并更新相关参数，实现Q网络的训练；

步骤S6、记录训练过程中相关数据和最后训练完成的模型，得到机械臂最优的抓取策略；

本发明技术方案进一步限定的技术方案为：在步骤S6中，所述最优的抓取策略π^*为：

其中，s为状态；a为动作；γ是未来奖励的折扣系数，取值在[0,1)之间；

为状态转移矩阵，表示执行动作a，使状态从s转移到s的概率；Q^π(s’,a’)为状态-动作值函数，表示在状态s下依据策略π执行动作a的价值；r(s,a)为奖励函数，表示在状态s下选择动作a的奖励；

所述步骤S1包括以下步骤，

步骤S1.1、参考待抓取物体划定一定面积的机械臂工作区域，以工作区域为底，待抓取物体最高点为高，构建机械臂工作空间；

步骤S1.2、使用视觉传感器提取待抓取物体的状态信息，该状态信息包括RGB信息、深度信息、温度信息，RGB信息为RGB-D相机提取机械臂工作区域的RGB图像；深度信息为RGB-D相机提取机械臂工作区域的深度图；温度信息为红外热像仪提取机械臂工作区域的红外图像；

步骤S1.3、构建实时状态s，表示为：

s＝{s^RGB,s^D,s^T}

其中，s^RGB表示RGB信息，s^D表示深度信息，s^T表示温度信息；

所述步骤S2包括以下步骤：

步骤S2.1、将实时状态s经过3D点云匹配和重力方向上的投影，生成固定尺寸的高度图，其尺寸大小和机械臂工作区域的面积相同；

步骤S2.2、将高度图旋转16次，每隔22.5°旋转一次；

所述步骤S3中，具体包括以下步骤：

步骤S3.1、设置深度强化学习模型的基本参数，基本参数包括：未来奖励折扣γ、贪婪因子ε、学习率α、权重衰减ρ、动量m、目标Q网络权重参数更新周期C、记忆池的容量N；

步骤S3.2、初始化Q网络权重θ和目标Q网络权重θ’，初始的Q网络和目标Q网络的结构和权重相同，其中Q网络和目标Q网络的结构包括以下部分：

其一、推动网络χ_p和抓取网络χ_g均为全卷积网络FCN，推动网络χ_p和抓取网络χ_g具有相同前向传递结构；

其二、FCN的DenseNet-121经过通道级联和两个1*1的卷积层，每层包括一个批量归一化BN层和一个非线性激活函数ReLU层；

其三、DenseNet的由多个Dense Block组成，每个DenseBlock由卷积池化层隔开，使用通道拼接操作连成整体；

步骤S3.3、将Q网络的推动网络χ_p和抓取网络χ_g的DenseNet-121分别在ImageNet上预训练；

步骤S3.4、初始化机械臂的工作空间，获取初始状态s₀，并按步骤S2生成对应高度图；

步骤S3.5、将旋转后的高度图分别输入推动网络χ_p和抓取网络χ_g进行前向传递，得到对应的Q值；

所述步骤S4包括：

步骤S4.1、依据Q值和ε-贪婪策略对机械臂进行动作选择；贪婪因子ε为随机选择下一步动作的概率，表示机器人动作的探索性，动作选择包括以下两种情况：

其一、依据最大的Q值进行动作选择：

a＝argmax_a’Q^θ(s’,a’)

其中，Q^θ为Q网络所对应的状态-动作值函数；

其二、执行随机动作；

步骤S4.2、对选择的动作确定具体要素，该具体要素包括动作类型ω、动作方向f、动作位置p，动作类型ω分为推动和抓取两种动作类型；动作方向f反映了机械臂末端执行器的旋转角度；动作位置p为机械臂末端执行器推动或抓取的像素点位置，对于推动动作，p就是机器人末端执行器推动的起始位置；对于抓取动作，p就是末端执行器闭合的中间位置；

步骤S4.3、获得动作a的总体描述：

a＝{ω,f,p}；

步骤S4.4、执行动作a，过渡到新状态空间s’；机械臂末端执行器在工作空间内垂直方向的动作位置随机；

步骤S4.5、获得各部分奖励，该奖励包括推动奖励r_p(s,a)、抓取奖励r_g(s,a)、温度奖励r_g-T(s,a)，推动奖励r_p(s,a)在检测到推动成功时获取，推动成功通过计算抓取动作后两个机械手指之间的距离判断；抓取奖励r_g(s,a)在检测到成功抓取时获取，成功抓取通过推动动作后s^RGB的变化情况判断；温度奖励r_g-T(s,a)在检测到成功抓取时获取，旨在促进机器人优先抓取温度较高的物体；依据红外热像仪捕捉的红外图像s^T生成的高度图，提取成功抓取的像素点的伪彩色值，依据该伪彩色值与物体温度的关系设置温度奖励；

伪彩色值与热值的关系式为：

其中，I为红外图像的热值，L为热像仪的热平，R为热像仪的热范围，X为伪彩色值；再利用红外图像的热值与绝对温度的关系，得出对应点的温度值为：

I_o＝I/τξ

其中，I_o为实际的热值，τ为透射率，ξ为物体发射率，A、B为热像仪标定曲线常数，t_p为温度值；

由上述公式，抓取点伪彩色值和温度的关系为非线性关系；

因此，温度奖励R_g-T为：

其中，t_max是所有像素点的最大温度值，用作归一化处理，ρ是奖励因子；

步骤S4.6、综合以上三部分奖励，得奖励函数：

所述步骤S5包括以下步骤：

步骤S5.1、将s、a、r(s,a)和s’组成经验集<s,a,r(s,a),s’>存入记忆池中，如果记忆池中的经验集数量为N，则删除最早经验集；

步骤S5.2、更新经验集被采样的概率，使用优先经验重播方法从记忆池中抽取一个经验集j：<s_j,a_j,r(s_j,a_j),s’_j>；优先经验重播方法依据时间差分对不同的经验集设置不同的采样权值，时间差分越大，则该经验集被选中概率越大，时间差分为：

σ＝|r(s,a)+γmax_a’Q^θ’(s’,a’)-Q^θ(s,a)|

其中，Q^θ’为目标Q网络所对应的状态-动作值函数；

步骤S5.3、依据目标Q网络和经验集j计算目标值y_j，表示为：

y_j＝r(s_j,a_j)+γmax_a’jQ^θ’(s’_j,a’_j)；

步骤S5.4、使用目标值y_j和动量梯度下降方法更新Q网络的权重参数θ，损失函数使用Huber损失函数：

其中，i为迭代次数，

为第i次迭代的目标值，θ_i表示第i次迭代Q网络的参数，θ’_i表示第i次迭代目标Q网络的参数，δ为超参数；

步骤S5.5、隔C步更新一次目标Q网络权重参数，使θ’＝θ；

步骤S5.6、更新贪婪因子ε；

步骤S5.7、重复训练步骤。

本发明提供了一种基于深度强化学习的机械臂密集物体温度优先抓取方法，具有针对形状不规则、密集堆叠、需要优先考虑温度因素的抓取场景；依据深度强化学习算法设计机械臂动作，以推动促进抓取，提高机械臂的抓取性能，并引入红外图像，使机械臂具有优先抓取温度较高物体的能力的特点。本发明的有益效果：与现有技术相比，本发明所提出的基于深度强化学习的机械臂密集物体温度优先抓取方法使用深度强化学习算法实现机械臂在抓取场景中合适的动作选择，并且训练机械臂完成相应的动作；本发明针对形状不规则、密集堆叠、需要优先考虑温度因素的抓取场景，依据深度强化学习算法设计机械臂动作，以推动促进抓取，提高机械臂的抓取性能，并引入红外图像，使机械臂具有优先抓取温度较高物体的能力。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明。

图1为本发明一种基于深度强化学习的机械臂密集物体温度优先抓取方法的深度Q网络训练过程流程示意图；

图2为实施例1提供的信息处理和动作决策整体流程图。

具体实施方式

本发明的目的可以通过以下技术方案实现：

一种基于深度强化学习的机械臂密集物体温度优先抓取方法，参见图1，包括以下步骤：

步骤S2、对环境信息进行预处理，便于机械臂完成抓取；

所述步骤S1包括以下步骤，

步骤S1.3、构建实时状态s，表示为：

s＝{s^RGB,s^D,s^T}

所述步骤S2包括以下步骤：

步骤S2.2、将高度图旋转16次，每隔22.5°旋转一次，使机械臂末端执行器能够充分进行动作方向选择，同时克服了直接建立高度图到旋转角度的映射较困难的缺点；

所述步骤S3中，具体包括以下步骤：

其三、DenseNet的由多个DenseBlock组成，每个DenseBlock由卷积池化层隔开，使用通道拼接操作连成整体；

所述步骤S4包括：

其一、依据最大的Q值进行动作选择：

a＝argmax_a’Q^θ(s’,a’)

其中，Q^θ为Q网络所对应的状态-动作值函数；

其二、执行随机动作；

步骤S4.3、获得动作a的总体描述：

a＝{ω,f,p}；

伪彩色值与热值的关系式为：

I_o＝I/τξ

由上述公式，抓取点伪彩色值和温度的关系为非线性关系；

因此，温度奖励R_g-T为：

步骤S4.6、综合以上三部分奖励，得奖励函数：

所述步骤S5包括以下步骤：

σ＝|r(s,a)+γmax_a’Q^θ’(s’,a’)-Q^θ(s,a)|

其中，Q^θ’为目标Q网络所对应的状态-动作值函数；

步骤S5.3、依据目标Q网络和经验集j计算目标值y_j，表示为：

其中，i为迭代次数，

步骤S5.5、隔C步更新一次目标Q网络权重参数，使θ’＝θ；

步骤S5.6、更新贪婪因子ε；

步骤S5.7、重复训练步骤。

实施例1

本发明利用深度强化学***和竖直方向上进行移动；使用RGB-D相机与红外热像仪捕捉图像信息，通过OpenGl进行图像渲染；

本实施例设计的任务场景是使用机械臂抓取10个随机温度、颜色、形状的物体，这些物体均无规则密集堆叠放置，直到机械臂抓取完所有物体为止。

如图2所示，本实施例所述的基于深度强化学习的机械臂密集物体温度优先抓取方法，包括以下步骤：

步骤S1.3、构建实时状态s，表示为：

s＝{s^RGB,s^D,s^T}

步骤S2、对环境信息进行预处理，便于机械臂完成抓取；

其一、依据最大的Q值进行动作选择：

a＝argmax_a’Q^θ(s’,a’)

其中，Q^θ为Q网络所对应的状态-动作值函数；

其二、执行随机动作；

步骤S4.3、获得动作a的总体描述：

a＝{ω,f,p}；

伪彩色值与热值的关系式为：

I_o＝I/τξ

由上述公式，抓取点伪彩色值和温度的关系为非线性关系；

因此，温度奖励R_g-T为：

步骤S4.6、综合以上三部分奖励，得奖励函数：

σ＝|r(s,a)+γmax_a’Q^θ’(s’,a’)-Q^θ(s,a)|

其中，Q^θ’为目标Q网络所对应的状态-动作值函数；

步骤S5.3、依据目标Q网络和经验集j计算目标值y_j，表示为：

其中，i为迭代次数，

步骤S5.5、隔C步更新一次目标Q网络权重参数，使θ’＝θ；

步骤S5.6、更新贪婪因子ε；

步骤S5.7、重复训练步骤；

为状态转移矩阵，表示执行动作a，使状态从s转移到s的概率；Q^π(s’,a’)为状态-动作值函数，表示在状态s下依据策略π执行动作a的价值；r(s,a)为奖励函数，表示在状态s下选择动作a的奖励。

以上内容仅仅是对本发明结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于深度强化学习的机械臂密集物体温度优先抓取方法，其特征在于，包括以下步骤：

步骤S2、对状态信息进行预处理，便于机械臂完成抓取；

步骤S6、记录训练过程中相关数据和最后训练完成的模型，得到机械臂最优的抓取策略。

2.根据权利要求1所述的一种基于深度强化学习的机械臂密集物体温度优先抓取方法，其特征在于，所述步骤S6中最优的抓取策略π^*为：

为状态转移矩阵，表示执行动作a，使状态从s转移到s的概率；Q^π(s',a')为状态-动作值函数，表示在状态s下依据策略π执行动作a的价值；r(s,a)为奖励函数，表示在状态s下选择动作a的奖励。

3.根据权利要求1所述的一种基于深度强化学习的机械臂密集物体温度优先抓取方法，其特征在于，所述步骤S1包括以下步骤：

步骤S1.3、构建实时状态s，表示为：

s＝{s^RGB,s^D,s^T}

其中，s^RGB表示RGB信息，s^D表示深度信息，s^T表示温度信息。

4.根据权利要求1所述的一种基于深度强化学习的机械臂密集物体温度优先抓取方法，其特征在于，所述步骤S2包括以下步骤：

步骤S2.2、将高度图旋转16次，每隔22.5°旋转一次。

5.根据权利要求1所述的一种基于深度强化学习的机械臂密集物体温度优先抓取方法，其特征在于，所述步骤S3中，具体包括以下步骤：

步骤S3.2、初始化Q网络权重θ和目标Q网络权重θ'，初始的Q网络和目标Q网络的结构和权重相同，其中Q网络和目标Q网络的结构包括以下部分：

其三、DenseNet的由多个Dense Block组成，每个Dense Block由卷积池化层隔开，使用通道拼接操作连成整体；

步骤S3.5、将旋转后的高度图分别输入推动网络χ_p和抓取网络χ_g进行前向传递，得到对应的Q值。

6.根据权利要求1所述的一种基于深度强化学习的机械臂密集物体温度优先抓取方法，其特征在于，所述步骤S4包括：

其一、依据最大的Q值进行动作选择：

a＝arg max_a'Q^θ(s',a')

其中，Q^θ为Q网络所对应的状态-动作值函数；

其二、执行随机动作；

步骤S4.3、获得动作a的总体描述：

a＝{ω,f,p}；

步骤S4.4、执行动作a，过渡到新状态空间s'；机械臂末端执行器在工作空间内垂直方向的动作位置随机；

伪彩色值与热值的关系式为：

I_o＝I/τξ

由上述公式，抓取点伪彩色值和温度的关系为非线性关系；

因此，温度奖励R_g-T为：

步骤S4.6、综合以上三部分奖励，得奖励函数：

7.根据权利要求1所述的一种基于深度强化学习的机械臂密集物体温度优先抓取方法，其特征在于，所述步骤S5包括以下步骤：

步骤S5.1、将s、a、r(s,a)和s’组成经验集<s,a,r(s,a),s'>存入记忆池中，如果记忆池中的经验集数量为N，则删除最早经验集；

步骤S5.2、更新经验集被采样的概率，使用优先经验重播方法从记忆池中抽取一个经验集j：<s_j,a_j,r(s_j,a_j),s'_j>；优先经验重播方法依据时间差分对不同的经验集设置不同的采样权值，时间差分越大，则该经验集被选中概率越大，时间差分为：

σ＝|r(s,a)+γmax_a'Q^θ’(s',a')-Q^θ(s,a)|

其中，Q^θ’为目标Q网络所对应的状态-动作值函数；

步骤S5.3、依据目标Q网络和经验集j计算目标值y_j，表示为：

其中，i为迭代次数，

为第i次迭代的目标值，θ_i表示第i次迭代Q网络的参数，θ'_i表示第i次迭代目标Q网络的参数，δ为超参数；

步骤S5.5、隔C步更新一次目标Q网络权重参数，使θ'＝θ；

步骤S5.6、更新贪婪因子ε；

步骤S5.7、重复训练步骤。