CN111844034A

CN111844034A - 基于深度强化学习的端到端在轨自主加注控制***及方法

Info

Publication number: CN111844034A
Application number: CN202010693535.7A
Authority: CN
Inventors: 解永春; 陈奥; 王勇; 李林峰; 唐宁; 徐拴锋
Original assignee: Beijing Institute of Control Engineering
Current assignee: Beijing Institute of Control Engineering
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-10-30
Anticipated expiration: 2040-07-17
Also published as: CN111844034B

Abstract

基于深度强化学习的端到端在轨自主加注控制***及方法，包括基于深度强化学习的端到端在轨加注控制***和神经网络结构；控制***包括：基于深度神经网络的特征提取***、基于深度强化学习的自学习轨迹规划***和机械臂关节控制***；神经网络结构包括：基于深度神经网络的特征提取***网络和基于深度强化学习的自学习轨迹规划***网络；特征提取***网络主要由深度卷积神经网络组成；轨迹规划***网络由策略网络和评价网络构成；整个***在虚拟环境下利用深度强化学习的基本方法进行训练，且可基于特征迁移至真实的物理环境下。本发明不但解决了困扰当前空间操作的环境的非结构化、遥操作的大时延等难题，并且具有实际的工程应用价值。

Description

基于深度强化学习的端到端在轨自主加注控制***及方法

技术领域

本发明涉及一种基于深度强化学习的端到端在轨自主加注控制***及方法，属于空间技术领域。

背景技术

在空间在轨维修维护领域，推进剂在轨补给技术处于核心地位，是延长卫星有效工作寿命、提高卫星经济效益的主要技术手段，也是带动其他在轨服务技术的先导和基础。如何自主处理加注中面临的非结构不确定环境是实现推进剂在轨补给技术的关键问题。目前为止，实现推进剂在轨补给主要有以下几种方法：

表1.推进剂在轨补给技术

通过对以上方法的比较可以看出，如今进行在轨加注具有很大的困难，或者依赖于人(如有人操作和遥操作)或者对环境有较高约束(如部分自主操作)或者精度受限于操作距离(如遥操作)。

为了克服以上困难，学者们又提出了自主操作的概念。自主操作是指，航天器在人工智能的支持管理下，不依赖于地面测控，仅依靠自身敏感器和控制装置就能自主的完成在轨加注等操作，这种方式具备更高的灵活性，也不依赖于人，符合未来的发展趋势。到目前为止，仅有“轨道快车”实现了自主燃料传输加注，但是，采用的是比较简单的机器学习算法，适用场景非常有限。美国的一些其他任务，如“蜘蛛制造”，“建筑师”，“地球同步轨道卫星机器人服务”等仍在研究当中，都只是提出了计划要实现自主操作，暂时并未给出相应的结果。这种方式可以充分将人工智能的一些先进方法用于在轨加注中，结合人工智能的“延伸和扩展人的智能”这一特点，赋予机械臂人的智能，从而降低其对人、对环境的依赖和约束。该方法已经被美国、欧洲、日本和加拿大等国的航天科研机构所采用。但目前上述方法不成熟，仍有许多问题有待解决，其中最关键的一点就是如何自主处理加注中面临的非结构不确定环境。

发明内容

本发明解决的技术问题是：克服现有技术的不足，提供了一种基于深度强化学习的端到端在轨自主加注控制***及方法，不但大大降低了实现难度，并具有研制费用低、简单易行等优点，可用于不确定环境下的自主在轨加注，且较容易拓展至各类空间操作任务下的机械臂控制中。

本发明的技术解决方案是：一种基于深度强化学习的端到端在轨自主加注控制***，包括空间机械臂、特征提取***、自主规划***和机械臂控制***；

所述特征提取***，一方面用于将环境信息处理为压缩序列特征数据，发送至自主规划***，并接收自主规划***的反馈数据对自身参数进行训练；另一方面用于实时采集环境信息，基于自身训练好的参数将实时采集的环境信息处理为机械臂压缩特征，并发送至自主规划***；所述环境信息包括机械臂视觉数据、机械臂关节角和角速度、以及力和力矩数据；

所述自主规划***，一方面用于接收压缩序列特征数据对自身参数进行训练，并向特征提取***发送反馈数据；另一方面用于实时接收机械臂压缩特征，利用自身训练好的参数将机械臂压缩特征解算为机械臂参考轨迹并发送至机械臂控制***；

所述机械臂控制***实时跟踪机械臂参考轨迹，并将其转换为电机控制力矩，控制机械臂运动，实现加注。

进一步地，所述特征提取***包括单目视觉敏感器、六自由度力传感器和深度神经网络特征提取模块；

所述单目视觉敏感器用于采集机械臂的图像数据，所述六自由度力传感器用于采集力和力矩数据；

所述深度神经网络特征提取模块包括深度卷积神经网络和全连接网络，用于将环境信息处理为压缩序列特征数据，发送至自主规划***，并接收自主规划***的反馈数据对深度卷积神经网络和全连接网络的参数进行训练；基于自身训练好的网络参数将实时采集的环境信息处理为机械臂压缩特征，并发送至自主规划***。

进一步地，特征提取***将视觉数据处理为压缩序列特征数据，具体的方法包括如下步骤：

初始化深度卷积神经网络的参数；

采集机械臂图像，获取当前视觉数据；

基于当前视觉数据，深度卷积神经网络通过层级的卷积和池化操作提取反应图像状态的特征数据；

利用全连接网络对所有特征数据进行特征抽象并进行结合，以得到完整的压缩序列特征数据。

进一步地，所述自学习轨迹规划***网络包括评价网络和策略网络；

所述评价网络以机械臂压缩序列特征为输入，利用长短时记忆网络，基于贝尔曼方程对价值函数Q进行估计；价值函数反应了在当前状态下采取动作所获得的奖励的期望值；

所述策略网络以机械臂压缩序列特征为输入，利用长短时记忆网络，基于策略梯度法对最优动作进行估计，估计结果为机械臂参考轨迹。

进一步地，所述自学习轨迹规划***网络，接收压缩序列特征数据进行训练包括如下步骤：

初始化自学习轨迹规划***网络的参数；

控制机械臂与环境进行交互，基于压缩序列特征数据，自学习轨迹规划***网络在预设的与加注任务相关的奖赏函数的指导下持续更新策略网络和评价网络的参数，以拟合机械臂最优运动轨迹；当策略网络和评价网络收敛时，训练完成。

一种基于深度强化学习的端到端在轨自主加注控制方法，包括如下步骤：

构建用于机械臂特征提取的深度卷积神经网络和基于深度强化学习的自学习轨迹规划***网络；

将视觉数据作为深度卷积神经网络的输入，经深度卷积神经网络处理后，与环境特征数据进行特征压缩后合并，输出压缩序列特征数据至自学习轨迹规划***网络；所述环境特征数据包括机械臂关节角和角速度、以及力和力矩；

自学习轨迹规划***网络接收压缩序列特征数据进行训练，并向深度卷积神经网络发送反馈数据；

深度卷积神经网络根据反馈数据对自身参数进行训练，直至深度卷积神经网络和自学习轨迹规划***网络均收敛；

实时采集机械臂视觉数据，基于训练好的深度卷积神经网络将机械臂视觉数据处理为机械臂压缩特征，与环境特征数据进行特征抽象后合并，并发送至训练好的自学习轨迹规划***网络；

训练好的自学习轨迹规划***网络将机械臂压缩特征解算为机械臂参考轨迹，根据机械臂参考轨迹控制机械臂运动，实现加注。

进一步地，所述深度卷积神经网络处理的方法包括如下步骤：

初始化深度卷积神经网络的参数；

采集机械臂图像，获取视觉数据；

基于视觉数据，深度卷积神经网络通过层级的卷积和池化操作提取反应图像状态的特征数据；

进一步地，所述自学习轨迹规划***网络接收压缩序列特征数据进行训练包括如下步骤：

初始化自学习轨迹规划***网络的参数；

本发明与现有技术相比的优点在于：

(1)本发明实现高维信息自主特征提取，赋予整个***的全自主学习能力；

(2)本发明实现端到端自主控制，赋予整个***的全自主控制能力；

(3)本发明可应用于在轨加注的各个阶段，包括：寻找目标、对接加注口、柔顺插拔以及自主加注锁紧等；

(4)本发明配置灵活、效率高，可将仿真环境下学得的策略迁移至物理环境中。

附图说明

图1为本发明控制方案示意图；

图2为本发明特征提取***示意图；

图3为本发明轨迹规划***示意图

具体实施方式

下面结合说明书附图和具体实施方式对本发明进行进一步解释和说明。

本发明提供一种基于深度强化学习的深度强化学习的端到端在轨自主加注控制***及方法，解决了空间非结构化不确定环境问题，可适用于在轨加注的各个阶段且可扩展至各类在轨服务操作机械臂控制。本发明的基本出发点与上述“轨道快车”在轨加注类似，均是自主操作，不同之处在于引入了深度强化学习算法。下面对工作流程进行详细说明。

步骤1，利用基于深度神经网络的特征提取***，将单目视觉敏感器采集到的连续视频图像、六自由度力传感器信号和机械臂状态(关节角和角速度)转化为压缩后的特征；

步骤2，利用基于深度强化学习的自学习轨迹规划***，将步骤1中的压缩特征转化为机械臂轨迹(关节角)；

基于深度神经网络的特征提取***网络用于提取多源高维信息的特征，其网络结构主要由深度卷积神经网络组成；基于深度强化学习的自学习轨迹规划***网络，通过强化学习获取自主规划加注轨迹，其网络结构由策略网络和评价网络构成；机械臂关节控制***则可采用各种可行的控制器，如PID、自适应控制器等。

当***所处的工作模式不相同时，步骤1和步骤2所进行的具体操作是不同的；在训练工作模式下，基于采集到的大量视频图像、六自由度力传感器信号和机械臂状态(关节角和角速度)，步骤1中的特征提取***利用当前步T_k下的网络参数，将提取到压缩序列特征送入自学习轨迹规划***中，步骤2中的自学习轨迹规划***利用压缩序列特征，在与加注任务相关的奖赏函数的指导下同步学习策略网络和评价网络的参数，并对步骤1中的深度神经网络的参数进行更新，此工作模式下主要依赖“学习”实现，其特点为端到端、无监督以及自学习；在测试工作模式下，所有***下的网络参数是固定的，均为测试过程中学到的最优解，基于手眼相机获取到的当前图像、六自由度力传感器信号，经过步骤1和步骤2，便可解算出参考轨迹，将该轨迹和机械臂关节角、关节角速度发送到机械臂关节控制***，利用步骤3便可实现端到端自主加注。具体如下：

(1)训练模式：通过学***台。在虚拟学习***中，步骤1具体为：

步骤1.1，初始化深度特征提取网络参数；

步骤1.2，采集大量的图像，然后基于采集到的视频图像，卷积神经网络通过层级的卷积、池化操作提取反应图像状态的特征；

步骤1.3，利用全连接网络对力/力矩，机械臂关节角/角速度进行特征抽象；

步骤1.4，采用一个全连接网络将步骤1.2和步骤1.3中提取到的特征进行结合，以得到完整的特征表示序列。

步骤2具体为：

步骤2.1，初始化自主规划***网络参数，并加载控制器(如PID控制器)及其参数；

步骤2.2，让机器人与环境进行交互，基于步骤1获取的连续的压缩特征，自学习轨迹规划***在与加注任务相关的奖赏函数的指导下同步学习策略网络和评价网络的参数，以拟合机械臂最优运动轨迹，并对步骤1中的深度神经网络的参数进行更新。

此工作模式下主要依赖端到端的“学习”实现，且均通过数学仿真完成。

(2)测试模式：训练模式只是在虚拟学习***中学到了端到端的基于图像的加注策略，而测试模式则是将学到的策略用于物理试验***中。所有***下的网络参数是固定的，均为测试过程中学到的最优解，基于手眼相机获取到的当前真实图像、力传感器信号，利用固化参数的特征提取网络和自学习轨迹规划***网络，便可根据步骤1,2,1.3,1,4及2.2中的前向部分，解算出参考轨迹，将该轨迹和机械臂关节角、关节角速度发送到机械臂关节控制***，再结合机械臂驱动软件和底层的控制算法，即步骤3，便可实现端到端自主加注，并在计算机上以图形化方式进行实时显示；由于在虚拟学习***和物理试验***中采用了相同的特征提取与匹配算法，因此无需其他额外的先验信息便可较简单的实现基于特征的迁移，将虚拟环境下训练的结果直接用于物理环境中。

步骤3，利用机械臂关节控制***，跟踪步骤2生成的参考轨迹，将参考轨迹和机械臂关节角、角速度转化为电机控制力矩，进而实现端到端在轨自主加注控制。

如图1所示，本发明提供一种基于深度强化学***台进行机器人动力学配置。根据任务需求配置真实场景，包括安装机器人、受体卫星端面、燃料补加模块、各类敏感器件，并将敏感器、机器人分别与计算机仿真***连接起来，实现通信。本发明提供一种基于深度强化学习的端到端在轨自主加注控制方法在训练与测试模式下，均工作于端到端、无监督和自学习的模式，为了阐明工作步骤，按特征提取和自学习轨迹规划这两个***功能来描述。

如图2所示，本发明提供一种基于深度强化学习的端到端在轨自主加注控制***及方法，特征提取***实现了高维信息自主特征提取。该特征提取***利用卷积网络和全连接网络分别对单目视觉敏感器采集到的连续视频图像及力传感器信号进行特征的压缩与提取，并最终采取一个全连接网络对上述两部分特征进行融合，得到表示能力更强、更全面的多源高维环境特征。在虚拟学习***下的训练模式中，特征提取***进行了如下操作。

步骤1.1，初始化网络参数；

步骤1.2，用Mujoco下的手眼相机采集虚拟环境的序列图像样本送入特征提取网络，基于采集到的视频图像，卷积神经网络通过层级的卷积、池化操作提取反应图像状态的特征；

在训练时，将特征提取网络视作策略网络和评价网络的一部分，其参数梯度包含于策略梯度中，即其网络参数的更新由强化学习中对评价网络和策略网络的更新所得到，这一过程将在步骤2中进行进一步的说明。

在物理试验***下的测试模式中，特征提取***中的手眼相机不断的采集当前状态下的场景图像及力传感器信号，利用固化参数的特征提取网络，便可根据步骤1,2,1.3,1,4，解算出当前环境状态。

如图3所示，本发明提供一种基于深度强化学习的端到端在轨自主加注控制***及方法，自主规划***实现了***的全自主控制能力。该自主规划***分别利用评价网络和策略网络对步骤1输入的环境特征序列进行处理，得到机械臂期望关节角以及价值函数Q，该期望关节角即为控制***的输入，其中，评价网络和策略网络均由长短期记忆网络构成。在虚拟学习***下的训练模式中，自主规划***进行了如下操作。

步骤2.1，初始化自主规划***网络参数，并加载控制器(如PID控制器)及其参数。

步骤2.2，让机器人与环境进行交互，首先按照reach目标来设计reward函数，根据reward函数不断交替训练策略网络、评价网络以及特征提取网络的参数直至收敛并保存；然后按照insert目标来设计reward函数，根据reward函数不断交替训练策略网络、评价网络以及特征提取网络的参数直至收敛并保存。

在物理试验***下的测试模式中，首先进入reach阶段，自主规划***根据在虚拟学习***中学到的reach阶段的各网络参数，依据步骤2.2的前向部分，计算出关节参考轨迹，依据步骤3，根据关节驱动控制算法，推算出机械臂各关节的控制力矩，并作用于机械臂上，从而驱动机械臂跟踪轨迹规划模块生成的运动轨迹。当程序判断完成reach阶段后，便换用insert策略参数。将采集到的当前状态下的场景图像和力传感器数据，一同送入控制******，根据在虚拟学习***中学到的insert阶段的各网络参数，依据步骤2.2的前向部分计算出关节参考轨迹，依据步骤3，根据关节驱动控制算法，推算出机械臂各关节的控制力矩，并作用于机械臂上，从而驱动机械臂跟踪轨迹规划模块生成的运动轨迹。当程序判断完成了inset阶段后，由***总控单元向仿真***及机械臂发出试验结束指令，控制机械臂退出加注口并回归初始位姿。

本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。

Claims

1.一种基于深度强化学习的端到端在轨自主加注控制***，其特征在于：包括空间机械臂、特征提取***、自主规划***和机械臂控制***；

2.根据权利要求1所述的一种基于深度强化学习的端到端在轨自主加注控制***，其特征在于：所述特征提取***包括单目视觉敏感器、六自由度力传感器和深度神经网络特征提取模块；

3.根据权利要求2所述的一种基于深度强化学习的端到端在轨自主加注控制***，其特征在于：特征提取***将视觉数据处理为压缩序列特征数据，具体的方法包括如下步骤：

初始化深度卷积神经网络的参数；

采集机械臂图像，获取当前视觉数据；

4.根据权利要求1所述的一种基于深度强化学习的端到端在轨自主加注控制***，其特征在于：所述自学习轨迹规划***网络包括评价网络和策略网络；

5.根据权利要求4所述的一种基于深度强化学习的端到端在轨自主加注控制***，其特征在于：所述自学习轨迹规划***网络，接收压缩序列特征数据进行训练包括如下步骤：

初始化自学习轨迹规划***网络的参数；

6.一种基于深度强化学习的端到端在轨自主加注控制方法，其特征在于，包括如下步骤：

7.根据权利要求6所述的一种基于深度强化学习的端到端在轨自主加注控制方法，其特征在于，所述深度卷积神经网络处理的方法包括如下步骤：

初始化深度卷积神经网络的参数；

采集机械臂图像，获取视觉数据；

8.根据权利要求6所述的一种基于深度强化学习的端到端在轨自主加注控制方法，其特征在于，所述自学习轨迹规划***网络接收压缩序列特征数据进行训练包括如下步骤：

初始化自学习轨迹规划***网络的参数；