CN113524173B

CN113524173B - 一种端到端的地外探测样品智能抓取方法

Info

Publication number: CN113524173B
Application number: CN202110674012.2A
Authority: CN
Inventors: 黄煌; 高锡珍; 汤亮; 刘昊; 谢心如; 刘乃龙
Original assignee: Beijing Institute of Control Engineering
Current assignee: Beijing Institute of Control Engineering
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2022-12-27
Anticipated expiration: 2041-06-17
Also published as: CN113524173A

Abstract

一种端到端的地外探测样品智能抓取方法，按照先数字训练，再物理试验的方式开展了数字‑物理试验；包括：设计了基于强化学习的样品采集方法，然后构建样品采集数字仿真训练环境对模型进行训练，最后将模型迁移到物理环境中进行验证，结果表明能够对几何形状未知不规则的物体进行高成功率的抓取，保证地外采样任务成功。

Description

一种端到端的地外探测样品智能抓取方法

技术领域

本发明涉及一种端到端的地外探测样品智能抓取方法，属于航空航天技术领域。

背景技术

地外探测是人类探索宇宙起源和星系演化、和平开发宇宙资源的重要手段，是世界航天领域未来的主要发展方向。地外探测从最近的月球逐步延伸到越来越远的火星、小行星等天体，探测方式从掠飞环绕，逐渐进步到着陆巡视和采样返回。地外探测样本采集是采样返回的核心关键环节，具有重要的科学价值和工程意义。

目前地外探测样本采集主要通过机械臂、激光或钻取设备，进行就地取样，但目前还依赖地面指令或人在回路的操作方式，难以自主胜任未知变化环境下的多类复杂探测任务。同时基于传统方法进行地外采样存在异形未知物体检测耗时长、偏差大，不规则物体的抓取位姿难以确切描述和依赖人为设置的特征问题。在新一代人工智能背景下，人工智能技术的植入是提高地外探测器采样自主性的一条极其有效的途径。

发明内容

本发明的目的在于：为了解决地外探测样本采集的问题，提出一种端到端的地外探测样品智能抓取方法，以火星探测中的样本采集为应用背景，开展数字-物理一体化抓取、分析与装箱全流程的学习训练，实现全自主的目标发现、抓取与精细操作。

本发明目的通过以下技术方案予以实现：

一种端到端的地外探测样品智能抓取方法，包括如下步骤：

选择强化学习方法；

构建地外探测样本采集仿真训练环境；

在构建的仿真训练环境中，进行数字训练，得到抓取模型；

将得到的抓取模型迁移到地外探测样本抓取物理实验***中，进行地外探测基于强化学习的样品采集物理试验，从而完成端到端的地外探测样品智能抓取。

进一步的，采用近端策略优化方法PPO作为选择的强化学习方法。

进一步的，采用多平台机器人仿真软件Webots构建地外探测样本采集仿真训练环境。

进一步的，构建地外探测样本采集仿真训练环境时，建立目标机械臂、手爪、相机、目标物体、箱子和桌面模型；

手爪设置在目标机械臂的前端，用于抓取桌面上的目标物体；

相机设置在桌面上方，用于观察待抓取的目标物体；

箱子用于手爪抓取目标物体后，放置目标物体。

进一步的，所述进行数字训练，具体为：通过设计奖励函数和网络结构，训练深度神经网络，输入通过相机获得的RGB-D图像，输出对应图像坐标系下最佳抓取位姿。

进一步的，奖励函数如下：

近端策略优化方法PPO中执行网络Actor和评价网络Critic都采用稠密神经网络DenseNet，具体参数如下：选用DenseNet-121网络，121层，包含初始化层、密集连接层、过渡层与全连接层。

进一步的，训练过程包括如下：

(1)根据当前物品抓取环境状态，机械臂根据初始的抓取策略选取并执行抓取动作；初始的抓取策略根据选择的强化学习方法得到；

(2)执行抓取动作后，抓取环境转移到新的状态，并通过奖励函数获得相应的动作奖励；

(3)重复上述过程直到训练环境中物体全部抓取成功；

(4)得到深度神经网络模型，即抓取模型。

进一步的，地外探测样本抓取物理实验***包括目标机械臂、手爪、相机、目标物体、箱子和桌子；

相机设置在桌面上方，用于观察待抓取的目标物体；

箱子用于手爪抓取目标物体后，放置目标物体；

所述将得到的抓取模型迁移到地外探测样本抓取物理实验***中是指，建立仿真环境中的抓取位姿与物理试验环境抓取位姿一一对应的关系；

在物理试验环境中，利用标定板求解相机相对机械臂基座坐标系的位姿，将仿真环境中的抓取位姿变换到机械臂基座坐标系下，从而控制机械臂完成样本抓取。

进一步的，所述进行地外探测基于强化学习的样品采集物理试验，具体为：训练得到的神经网络参数迁移物理环境中进行试验验证，并且通过不断与环境进行交互，使机械臂不断更新抓取模型，实现持续学习，提高样品采集成功率。

进一步的，本发明还提出一种地外探测样本抓取位姿智能选择***，包括：

强化学习方法确定模块：选择近端策略优化方法PPO作为强化学习方法；

仿真训练环境构建模块：采用多平台机器人仿真软件Webots构建地外探测样本采集仿真训练环境；建立目标机械臂、手爪、相机、目标物体、箱子和桌面模型；手爪设置在目标机械臂的前端，用于抓取桌面上的目标物体；相机设置在桌面上方，用于观察待抓取的目标物体；箱子用于手爪抓取目标物体后，放置目标物体；

训练模块：在构建的仿真训练环境中，进行数字训练，得到抓取模型，具体为：通过设计奖励函数和网络结构，训练深度神经网络，输入通过相机获得的RGB-D图像，输出对应最佳抓取位姿；

奖励函数如下：

PPO中执行网络Actor和评价网络Critic都采用稠密神经网络DenseNet，具体参数如下：选用DenseNet-121网络，121层，包含初始化层、密集连接层、过渡层与全连接层；

试验验证模块：将得到的抓取模型迁移到地外探测样本抓取物理实验***中，进行地外探测基于强化学习的样品采集物理试验，从而完成端到端的地外探测样本抓取位姿智能选择。

本发明相比于现有技术具有如下有益效果：

(1)在本发明实施例中的一种端到端的地外探测样品智能抓取方法，本发明公开的端到端的地外探测样本抓取位姿智能选择方法，不需要样本进行监督训练，而是“自学习”机制，可在线提升。

(2)本发明公开的端到端的地外探测样本抓取位姿智能选择方法，抓取训练过程中无需知道样本形状、大小等先验信息，能够对几何形状未知且不规则的物体进行高成功率的抓取。

(3)训练得到的神经网络参数迁移物理环境中进行试验验证，并且通过不断与环境进行交互，使机械臂能够不断更新模型，实现持续学习，不断提高样品采集成功率。

附图说明

图1为本发明实施例提供一种端到端的地外探测样品智能抓取方法流程图；

图2为本发明实施例提供一种地外探测样本采集仿真训练环境示意图；

图3为本发明实施例提供一种地外探测样本采集物理环境不规则石块抓取示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步详细描述。

图1所示，为本发明实施例提供一种端到端的地外探测样品智能抓取方法流程图，按照先数字训练，再物理试验的方式开展了数字-物理试验验证；包括：

步骤一、选择强化学习方法；

步骤二、构建地外探测样本采集仿真训练环境；

步骤三、在构建的仿真训练环境中，进行数字训练，得到抓取模型；

步骤四、将得到的抓取模型迁移到地外探测样本抓取物理实验***中，进行地外探测基于强化学习的样品采集物理试验，抓取石块等物品，从而完成端到端的地外探测样本抓取位姿智能选择。

在本发明实施例中，采用近端策略优化方法PPO作为强化学习算法。

在本发明实施例中，采用多平台机器人仿真软件Webots构建数字仿真环境。

在本发明实施例中，仿真环境中建立目标机械臂、手爪、相机、目标物体、箱子和桌面等模型。

相机设置在桌面上方，用于观察待抓取的目标物体；

箱子用于手爪抓取目标物体后，放置目标物体。

在本发明实施例中，进行数字训练，具体为：通过设计奖励函数和网络结构，训练深度神经网络，输入通过相机获得的RGB-D图像，输出对应最佳抓取位姿。

在本发明实施例中，训练过程包括如下：

(3)重复上述过程直到训练环境中物体全部抓取成功；

(4)得到深度神经网络模型，即抓取模型。

在本发明实施例中，动作奖励函数设计如下：

在本发明实施例中，PPO中执行网络Actor和评价网络Critic都采用稠密神经网络DenseNet，具体参数如下：

选用DenseNet-121网络，121层，包含初始化层、密集连接层、过渡层(TransitionLayer,TL)与全连接层。

在本发明实施例中，地外探测样本抓取物理实验***包括目标机械臂、手爪、相机、目标物体、箱子和桌子；

相机设置在桌面上方，用于观察待抓取的目标物体；

箱子用于手爪抓取目标物体后，放置目标物体；

所述将得到的抓取模型迁移到地外探测样本抓取物理实验***中是指，建立仿真环境中的抓取位姿与物理环境抓取位姿一一对应的关系；

在物理实验***中，利用标定板求解相机相对机械臂基座坐标系的位姿，将仿真环境中的抓取位姿变换到机械臂基座坐标系下，从而控制机械臂完成样本抓取。

在本发明实施例中，训练得到的神经网络参数迁移物理环境中进行试验验证，并且通过不断与环境进行交互，使机械臂能够不断更新模型，实现持续学习，不断提高样品采集成功率。

实施例：

以火星探测中的样本采集为应用背景，开展数字-物理一体化抓取、分析与装箱全流程的学习训练，实现全自主的目标发现、抓取与精细操作。样本采集训练抓取流程如图1所示。在选定强化学习训练方法和初始网络基础上，反复迭代训练，以确定合适的网络结构、reward设计以及训练超参数，获得最佳抓取点网络模型，最终实现机械臂采样控制。

步骤1：地外探测基于强化学习的样品采集方法设计。

将抓取任务视为马尔科夫决策过程：给定t时刻的状态s_t，机械臂根据策略π(s_t)选取并执行动作a_t，然后转移到新的状态s_t+1，并获得相应的奖赏

抓取任务需要找到使得累积奖赏

最大的策略，γ为折扣因子。试验采用离策略PPO方法，PPO算法问题定义如式(1)所示：

其中，θ_old表示更新前的策略参数向量，A_t表示t时刻优势函数估计值，β表示KL离散度的调价参数。可采用梯度下降法直接求解最优参数。

在深度学***面抓取任务，通过对连续控制量f随机采样获得抓取时的位置(x,y)，机械臂手爪沿z轴的转动角α。

步骤2：地外探测样本采集仿真训练环境构建。

直接利用机械臂进行物理训练存在成本高、效率低的问题，采用开源的多平台机器人仿真软件Webots构建数字仿真环境，基于步骤1中的强化学习算法和深度神经网络进行训练，通过设计奖励函数和网络结构，使得深度神经网络达到输入R-GBD图像输出对应动作状态的效果。

机械臂抓取训练仿真***在Webots已有的UR5七自由度机械臂基础上进行搭建，其可控制关节空间的每个角度和机械臂末端在欧式空间上相对于基座的姿态，同时可用自带的逆运动学解算函数转换到关节空间的位移。考虑到操作对象形状不规则，为提高抓取成功率，物体抓放采用末端装有三指爪的协作机械臂，通过控制夹爪角度来控制闭合。此外，在仿真环境中建立了目标物体、箱子和桌面等模型，如图2所示。为了弥补视角带来的信息缺失，我们采用深度相机获取的物体RGB-D图作为的策略网络的输入，即马尔可夫决策过程的状态。相机安装方位是斜45°向下，图像大小为200×200×4。

步骤3：地外探测基于强化学习的样品采集方法物理试验。

将步骤2中训练得到的神经网络参数迁移物理环境中进行试验验证，并且通过不断与环境进行交互，使机器人能够不断更新模型，实现持续学习，不断提高样品采集成功率。

在上述技术方案基础上，将一堆形状复杂的物体按一定顺序和位姿装入20*20*10cm的箱内，要求有限的空间装尽可能多的物体。在非结构环境下，难以直接获得物体准确的位置、姿态和形状，将仿真中训练的模型迁移到实际场景中直接抓取任意不规则石块，抓取过程中不断添加石块，抓取成功率83.33％。真实环境中抓取结果如图3所示。

本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.一种端到端的地外探测样品智能抓取方法，其特征在于，包括如下步骤：

选择强化学习方法；

构建地外探测样本采集仿真训练环境；

在构建的仿真训练环境中，进行数字训练，得到抓取模型；

将得到的抓取模型迁移到地外探测样本抓取物理实验***中，进行地外探测基于强化学习的样品采集物理试验，从而完成端到端的地外探测样品抓取；

所述进行数字训练，具体为：通过设计奖励函数和网络结构，训练深度神经网络，输入通过相机获得的RGB-D图像，输出对应图像坐标系下最佳抓取位姿；

奖励函数如下：

训练过程包括如下：

(3)重复上述过程直到训练环境中物体全部抓取成功；

(4)得到深度神经网络模型，即抓取模型。

2.根据权利要求1所述的一种端到端的地外探测样品智能抓取方法，其特征在于：采用近端策略优化方法PPO作为选择的强化学习方法。

3.根据权利要求1所述的一种端到端的地外探测样品智能抓取方法，其特征在于：采用多平台机器人仿真软件Webots构建地外探测样本采集仿真训练环境。

4.根据权利要求3所述的一种端到端的地外探测样品智能抓取方法，其特征在于：构建地外探测样本采集仿真训练环境时，建立目标机械臂、手爪、相机、目标物体、箱子和桌面模型；

相机设置在桌面上方，用于观察待抓取的目标物体；

箱子用于手爪抓取目标物体后，放置目标物体。

5.根据权利要求1所述的一种端到端的地外探测样品智能抓取方法，其特征在于：地外探测样本抓取物理实验***包括目标机械臂、手爪、相机、目标物体、箱子和桌子；

相机设置在桌面上方，用于观察待抓取的目标物体；

箱子用于手爪抓取目标物体后，放置目标物体；

6.根据权利要求1所述的一种端到端的地外探测样品智能抓取方法，其特征在于：所述进行地外探测基于强化学习的样品采集物理试验，具体为：训练得到的神经网络参数迁移物理环境中进行试验验证，并且通过不断与环境进行交互，使机械臂不断更新抓取模型，实现持续学习，提高样品采集成功率。

7.一种根据权利要求1-6中任一项所述的端到端的地外探测样品智能抓取方法实现的地外探测样品智能抓取***，其特征在于包括：

奖励函数如下：