CN111844034A - 基于深度强化学习的端到端在轨自主加注控制***及方法 - Google Patents

基于深度强化学习的端到端在轨自主加注控制***及方法 Download PDF

Info

Publication number
CN111844034A
CN111844034A CN202010693535.7A CN202010693535A CN111844034A CN 111844034 A CN111844034 A CN 111844034A CN 202010693535 A CN202010693535 A CN 202010693535A CN 111844034 A CN111844034 A CN 111844034A
Authority
CN
China
Prior art keywords
network
mechanical arm
data
planning system
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010693535.7A
Other languages
English (en)
Other versions
CN111844034B (zh
Inventor
解永春
陈奥
王勇
李林峰
唐宁
徐拴锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Control Engineering
Original Assignee
Beijing Institute of Control Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Control Engineering filed Critical Beijing Institute of Control Engineering
Priority to CN202010693535.7A priority Critical patent/CN111844034B/zh
Publication of CN111844034A publication Critical patent/CN111844034A/zh
Application granted granted Critical
Publication of CN111844034B publication Critical patent/CN111844034B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40532Ann for vision processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)
  • Image Analysis (AREA)

Abstract

基于深度强化学习的端到端在轨自主加注控制***及方法,包括基于深度强化学习的端到端在轨加注控制***和神经网络结构;控制***包括:基于深度神经网络的特征提取***、基于深度强化学习的自学习轨迹规划***和机械臂关节控制***;神经网络结构包括:基于深度神经网络的特征提取***网络和基于深度强化学习的自学习轨迹规划***网络;特征提取***网络主要由深度卷积神经网络组成;轨迹规划***网络由策略网络和评价网络构成;整个***在虚拟环境下利用深度强化学习的基本方法进行训练,且可基于特征迁移至真实的物理环境下。本发明不但解决了困扰当前空间操作的环境的非结构化、遥操作的大时延等难题,并且具有实际的工程应用价值。

Description

基于深度强化学习的端到端在轨自主加注控制***及方法
技术领域
本发明涉及一种基于深度强化学习的端到端在轨自主加注控制***及方法,属于空间技术领域。
背景技术
在空间在轨维修维护领域,推进剂在轨补给技术处于核心地位,是延长卫星有效工作寿命、提高卫星经济效益的主要技术手段,也是带动其他在轨服务技术的先导和基础。如何自主处理加注中面临的非结构不确定环境是实现推进剂在轨补给技术的关键问题。目前为止,实现推进剂在轨补给主要有以下几种方法:
表1.推进剂在轨补给技术
Figure BDA0002590108980000011
通过对以上方法的比较可以看出,如今进行在轨加注具有很大的困难,或者依赖于人(如有人操作和遥操作)或者对环境有较高约束(如部分自主操作)或者精度受限于操作距离(如遥操作)。
为了克服以上困难,学者们又提出了自主操作的概念。自主操作是指,航天器在人工智能的支持管理下,不依赖于地面测控,仅依靠自身敏感器和控制装置就能自主的完成在轨加注等操作,这种方式具备更高的灵活性,也不依赖于人,符合未来的发展趋势。到目前为止,仅有“轨道快车”实现了自主燃料传输加注,但是,采用的是比较简单的机器学习算法,适用场景非常有限。美国的一些其他任务,如“蜘蛛制造”,“建筑师”,“地球同步轨道卫星机器人服务”等仍在研究当中,都只是提出了计划要实现自主操作,暂时并未给出相应的结果。这种方式可以充分将人工智能的一些先进方法用于在轨加注中,结合人工智能的“延伸和扩展人的智能”这一特点,赋予机械臂人的智能,从而降低其对人、对环境的依赖和约束。该方法已经被美国、欧洲、日本和加拿大等国的航天科研机构所采用。但目前上述方法不成熟,仍有许多问题有待解决,其中最关键的一点就是如何自主处理加注中面临的非结构不确定环境。
发明内容
本发明解决的技术问题是:克服现有技术的不足,提供了一种基于深度强化学习的端到端在轨自主加注控制***及方法,不但大大降低了实现难度,并具有研制费用低、简单易行等优点,可用于不确定环境下的自主在轨加注,且较容易拓展至各类空间操作任务下的机械臂控制中。
本发明的技术解决方案是:一种基于深度强化学习的端到端在轨自主加注控制***,包括空间机械臂、特征提取***、自主规划***和机械臂控制***;
所述特征提取***,一方面用于将环境信息处理为压缩序列特征数据,发送至自主规划***,并接收自主规划***的反馈数据对自身参数进行训练;另一方面用于实时采集环境信息,基于自身训练好的参数将实时采集的环境信息处理为机械臂压缩特征,并发送至自主规划***;所述环境信息包括机械臂视觉数据、机械臂关节角和角速度、以及力和力矩数据;
所述自主规划***,一方面用于接收压缩序列特征数据对自身参数进行训练,并向特征提取***发送反馈数据;另一方面用于实时接收机械臂压缩特征,利用自身训练好的参数将机械臂压缩特征解算为机械臂参考轨迹并发送至机械臂控制***;
所述机械臂控制***实时跟踪机械臂参考轨迹,并将其转换为电机控制力矩,控制机械臂运动,实现加注。
进一步地,所述特征提取***包括单目视觉敏感器、六自由度力传感器和深度神经网络特征提取模块;
所述单目视觉敏感器用于采集机械臂的图像数据,所述六自由度力传感器用于采集力和力矩数据;
所述深度神经网络特征提取模块包括深度卷积神经网络和全连接网络,用于将环境信息处理为压缩序列特征数据,发送至自主规划***,并接收自主规划***的反馈数据对深度卷积神经网络和全连接网络的参数进行训练;基于自身训练好的网络参数将实时采集的环境信息处理为机械臂压缩特征,并发送至自主规划***。
进一步地,特征提取***将视觉数据处理为压缩序列特征数据,具体的方法包括如下步骤:
初始化深度卷积神经网络的参数;
采集机械臂图像,获取当前视觉数据;
基于当前视觉数据,深度卷积神经网络通过层级的卷积和池化操作提取反应图像状态的特征数据;
利用全连接网络对所有特征数据进行特征抽象并进行结合,以得到完整的压缩序列特征数据。
进一步地,所述自学习轨迹规划***网络包括评价网络和策略网络;
所述评价网络以机械臂压缩序列特征为输入,利用长短时记忆网络,基于贝尔曼方程对价值函数Q进行估计;价值函数反应了在当前状态下采取动作所获得的奖励的期望值;
所述策略网络以机械臂压缩序列特征为输入,利用长短时记忆网络,基于策略梯度法对最优动作进行估计,估计结果为机械臂参考轨迹。
进一步地,所述自学习轨迹规划***网络,接收压缩序列特征数据进行训练包括如下步骤:
初始化自学习轨迹规划***网络的参数;
控制机械臂与环境进行交互,基于压缩序列特征数据,自学习轨迹规划***网络在预设的与加注任务相关的奖赏函数的指导下持续更新策略网络和评价网络的参数,以拟合机械臂最优运动轨迹;当策略网络和评价网络收敛时,训练完成。
一种基于深度强化学习的端到端在轨自主加注控制方法,包括如下步骤:
构建用于机械臂特征提取的深度卷积神经网络和基于深度强化学习的自学习轨迹规划***网络;
将视觉数据作为深度卷积神经网络的输入,经深度卷积神经网络处理后,与环境特征数据进行特征压缩后合并,输出压缩序列特征数据至自学习轨迹规划***网络;所述环境特征数据包括机械臂关节角和角速度、以及力和力矩;
自学习轨迹规划***网络接收压缩序列特征数据进行训练,并向深度卷积神经网络发送反馈数据;
深度卷积神经网络根据反馈数据对自身参数进行训练,直至深度卷积神经网络和自学习轨迹规划***网络均收敛;
实时采集机械臂视觉数据,基于训练好的深度卷积神经网络将机械臂视觉数据处理为机械臂压缩特征,与环境特征数据进行特征抽象后合并,并发送至训练好的自学习轨迹规划***网络;
训练好的自学习轨迹规划***网络将机械臂压缩特征解算为机械臂参考轨迹,根据机械臂参考轨迹控制机械臂运动,实现加注。
进一步地,所述深度卷积神经网络处理的方法包括如下步骤:
初始化深度卷积神经网络的参数;
采集机械臂图像,获取视觉数据;
基于视觉数据,深度卷积神经网络通过层级的卷积和池化操作提取反应图像状态的特征数据;
利用全连接网络对所有特征数据进行特征抽象并进行结合,以得到完整的压缩序列特征数据。
进一步地,所述自学习轨迹规划***网络接收压缩序列特征数据进行训练包括如下步骤:
初始化自学习轨迹规划***网络的参数;
控制机械臂与环境进行交互,基于压缩序列特征数据,自学习轨迹规划***网络在预设的与加注任务相关的奖赏函数的指导下持续更新策略网络和评价网络的参数,以拟合机械臂最优运动轨迹;当策略网络和评价网络收敛时,训练完成。
本发明与现有技术相比的优点在于:
(1)本发明实现高维信息自主特征提取,赋予整个***的全自主学习能力;
(2)本发明实现端到端自主控制,赋予整个***的全自主控制能力;
(3)本发明可应用于在轨加注的各个阶段,包括:寻找目标、对接加注口、柔顺插拔以及自主加注锁紧等;
(4)本发明配置灵活、效率高,可将仿真环境下学得的策略迁移至物理环境中。
附图说明
图1为本发明控制方案示意图;
图2为本发明特征提取***示意图;
图3为本发明轨迹规划***示意图
具体实施方式
下面结合说明书附图和具体实施方式对本发明进行进一步解释和说明。
本发明提供一种基于深度强化学习的深度强化学习的端到端在轨自主加注控制***及方法,解决了空间非结构化不确定环境问题,可适用于在轨加注的各个阶段且可扩展至各类在轨服务操作机械臂控制。本发明的基本出发点与上述“轨道快车”在轨加注类似,均是自主操作,不同之处在于引入了深度强化学习算法。下面对工作流程进行详细说明。
步骤1,利用基于深度神经网络的特征提取***,将单目视觉敏感器采集到的连续视频图像、六自由度力传感器信号和机械臂状态(关节角和角速度)转化为压缩后的特征;
步骤2,利用基于深度强化学习的自学习轨迹规划***,将步骤1中的压缩特征转化为机械臂轨迹(关节角);
基于深度神经网络的特征提取***网络用于提取多源高维信息的特征,其网络结构主要由深度卷积神经网络组成;基于深度强化学习的自学习轨迹规划***网络,通过强化学习获取自主规划加注轨迹,其网络结构由策略网络和评价网络构成;机械臂关节控制***则可采用各种可行的控制器,如PID、自适应控制器等。
当***所处的工作模式不相同时,步骤1和步骤2所进行的具体操作是不同的;在训练工作模式下,基于采集到的大量视频图像、六自由度力传感器信号和机械臂状态(关节角和角速度),步骤1中的特征提取***利用当前步Tk下的网络参数,将提取到压缩序列特征送入自学习轨迹规划***中,步骤2中的自学习轨迹规划***利用压缩序列特征,在与加注任务相关的奖赏函数的指导下同步学习策略网络和评价网络的参数,并对步骤1中的深度神经网络的参数进行更新,此工作模式下主要依赖“学习”实现,其特点为端到端、无监督以及自学习;在测试工作模式下,所有***下的网络参数是固定的,均为测试过程中学到的最优解,基于手眼相机获取到的当前图像、六自由度力传感器信号,经过步骤1和步骤2,便可解算出参考轨迹,将该轨迹和机械臂关节角、关节角速度发送到机械臂关节控制***,利用步骤3便可实现端到端自主加注。具体如下:
(1)训练模式:通过学***台。在虚拟学习***中,步骤1具体为:
步骤1.1,初始化深度特征提取网络参数;
步骤1.2,采集大量的图像,然后基于采集到的视频图像,卷积神经网络通过层级的卷积、池化操作提取反应图像状态的特征;
步骤1.3,利用全连接网络对力/力矩,机械臂关节角/角速度进行特征抽象;
步骤1.4,采用一个全连接网络将步骤1.2和步骤1.3中提取到的特征进行结合,以得到完整的特征表示序列。
步骤2具体为:
步骤2.1,初始化自主规划***网络参数,并加载控制器(如PID控制器)及其参数;
步骤2.2,让机器人与环境进行交互,基于步骤1获取的连续的压缩特征,自学习轨迹规划***在与加注任务相关的奖赏函数的指导下同步学习策略网络和评价网络的参数,以拟合机械臂最优运动轨迹,并对步骤1中的深度神经网络的参数进行更新。
此工作模式下主要依赖端到端的“学习”实现,且均通过数学仿真完成。
(2)测试模式:训练模式只是在虚拟学习***中学到了端到端的基于图像的加注策略,而测试模式则是将学到的策略用于物理试验***中。所有***下的网络参数是固定的,均为测试过程中学到的最优解,基于手眼相机获取到的当前真实图像、力传感器信号,利用固化参数的特征提取网络和自学习轨迹规划***网络,便可根据步骤1,2,1.3,1,4及2.2中的前向部分,解算出参考轨迹,将该轨迹和机械臂关节角、关节角速度发送到机械臂关节控制***,再结合机械臂驱动软件和底层的控制算法,即步骤3,便可实现端到端自主加注,并在计算机上以图形化方式进行实时显示;由于在虚拟学习***和物理试验***中采用了相同的特征提取与匹配算法,因此无需其他额外的先验信息便可较简单的实现基于特征的迁移,将虚拟环境下训练的结果直接用于物理环境中。
步骤3,利用机械臂关节控制***,跟踪步骤2生成的参考轨迹,将参考轨迹和机械臂关节角、角速度转化为电机控制力矩,进而实现端到端在轨自主加注控制。
如图1所示,本发明提供一种基于深度强化学***台进行机器人动力学配置。根据任务需求配置真实场景,包括安装机器人、受体卫星端面、燃料补加模块、各类敏感器件,并将敏感器、机器人分别与计算机仿真***连接起来,实现通信。本发明提供一种基于深度强化学习的端到端在轨自主加注控制方法在训练与测试模式下,均工作于端到端、无监督和自学习的模式,为了阐明工作步骤,按特征提取和自学习轨迹规划这两个***功能来描述。
如图2所示,本发明提供一种基于深度强化学习的端到端在轨自主加注控制***及方法,特征提取***实现了高维信息自主特征提取。该特征提取***利用卷积网络和全连接网络分别对单目视觉敏感器采集到的连续视频图像及力传感器信号进行特征的压缩与提取,并最终采取一个全连接网络对上述两部分特征进行融合,得到表示能力更强、更全面的多源高维环境特征。在虚拟学习***下的训练模式中,特征提取***进行了如下操作。
步骤1.1,初始化网络参数;
步骤1.2,用Mujoco下的手眼相机采集虚拟环境的序列图像样本送入特征提取网络,基于采集到的视频图像,卷积神经网络通过层级的卷积、池化操作提取反应图像状态的特征;
步骤1.3,利用全连接网络对力/力矩,机械臂关节角/角速度进行特征抽象;
步骤1.4,采用一个全连接网络将步骤1.2和步骤1.3中提取到的特征进行结合,以得到完整的特征表示序列。
在训练时,将特征提取网络视作策略网络和评价网络的一部分,其参数梯度包含于策略梯度中,即其网络参数的更新由强化学习中对评价网络和策略网络的更新所得到,这一过程将在步骤2中进行进一步的说明。
在物理试验***下的测试模式中,特征提取***中的手眼相机不断的采集当前状态下的场景图像及力传感器信号,利用固化参数的特征提取网络,便可根据步骤1,2,1.3,1,4,解算出当前环境状态。
如图3所示,本发明提供一种基于深度强化学习的端到端在轨自主加注控制***及方法,自主规划***实现了***的全自主控制能力。该自主规划***分别利用评价网络和策略网络对步骤1输入的环境特征序列进行处理,得到机械臂期望关节角以及价值函数Q,该期望关节角即为控制***的输入,其中,评价网络和策略网络均由长短期记忆网络构成。在虚拟学习***下的训练模式中,自主规划***进行了如下操作。
步骤2.1,初始化自主规划***网络参数,并加载控制器(如PID控制器)及其参数。
步骤2.2,让机器人与环境进行交互,首先按照reach目标来设计reward函数,根据reward函数不断交替训练策略网络、评价网络以及特征提取网络的参数直至收敛并保存;然后按照insert目标来设计reward函数,根据reward函数不断交替训练策略网络、评价网络以及特征提取网络的参数直至收敛并保存。
在物理试验***下的测试模式中,首先进入reach阶段,自主规划***根据在虚拟学习***中学到的reach阶段的各网络参数,依据步骤2.2的前向部分,计算出关节参考轨迹,依据步骤3,根据关节驱动控制算法,推算出机械臂各关节的控制力矩,并作用于机械臂上,从而驱动机械臂跟踪轨迹规划模块生成的运动轨迹。当程序判断完成reach阶段后,便换用insert策略参数。将采集到的当前状态下的场景图像和力传感器数据,一同送入控制******,根据在虚拟学习***中学到的insert阶段的各网络参数,依据步骤2.2的前向部分计算出关节参考轨迹,依据步骤3,根据关节驱动控制算法,推算出机械臂各关节的控制力矩,并作用于机械臂上,从而驱动机械臂跟踪轨迹规划模块生成的运动轨迹。当程序判断完成了inset阶段后,由***总控单元向仿真***及机械臂发出试验结束指令,控制机械臂退出加注口并回归初始位姿。
本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。

Claims (8)

1.一种基于深度强化学习的端到端在轨自主加注控制***,其特征在于:包括空间机械臂、特征提取***、自主规划***和机械臂控制***;
所述特征提取***,一方面用于将环境信息处理为压缩序列特征数据,发送至自主规划***,并接收自主规划***的反馈数据对自身参数进行训练;另一方面用于实时采集环境信息,基于自身训练好的参数将实时采集的环境信息处理为机械臂压缩特征,并发送至自主规划***;所述环境信息包括机械臂视觉数据、机械臂关节角和角速度、以及力和力矩数据;
所述自主规划***,一方面用于接收压缩序列特征数据对自身参数进行训练,并向特征提取***发送反馈数据;另一方面用于实时接收机械臂压缩特征,利用自身训练好的参数将机械臂压缩特征解算为机械臂参考轨迹并发送至机械臂控制***;
所述机械臂控制***实时跟踪机械臂参考轨迹,并将其转换为电机控制力矩,控制机械臂运动,实现加注。
2.根据权利要求1所述的一种基于深度强化学习的端到端在轨自主加注控制***,其特征在于:所述特征提取***包括单目视觉敏感器、六自由度力传感器和深度神经网络特征提取模块;
所述单目视觉敏感器用于采集机械臂的图像数据,所述六自由度力传感器用于采集力和力矩数据;
所述深度神经网络特征提取模块包括深度卷积神经网络和全连接网络,用于将环境信息处理为压缩序列特征数据,发送至自主规划***,并接收自主规划***的反馈数据对深度卷积神经网络和全连接网络的参数进行训练;基于自身训练好的网络参数将实时采集的环境信息处理为机械臂压缩特征,并发送至自主规划***。
3.根据权利要求2所述的一种基于深度强化学习的端到端在轨自主加注控制***,其特征在于:特征提取***将视觉数据处理为压缩序列特征数据,具体的方法包括如下步骤:
初始化深度卷积神经网络的参数;
采集机械臂图像,获取当前视觉数据;
基于当前视觉数据,深度卷积神经网络通过层级的卷积和池化操作提取反应图像状态的特征数据;
利用全连接网络对所有特征数据进行特征抽象并进行结合,以得到完整的压缩序列特征数据。
4.根据权利要求1所述的一种基于深度强化学习的端到端在轨自主加注控制***,其特征在于:所述自学习轨迹规划***网络包括评价网络和策略网络;
所述评价网络以机械臂压缩序列特征为输入,利用长短时记忆网络,基于贝尔曼方程对价值函数Q进行估计;价值函数反应了在当前状态下采取动作所获得的奖励的期望值;
所述策略网络以机械臂压缩序列特征为输入,利用长短时记忆网络,基于策略梯度法对最优动作进行估计,估计结果为机械臂参考轨迹。
5.根据权利要求4所述的一种基于深度强化学习的端到端在轨自主加注控制***,其特征在于:所述自学习轨迹规划***网络,接收压缩序列特征数据进行训练包括如下步骤:
初始化自学习轨迹规划***网络的参数;
控制机械臂与环境进行交互,基于压缩序列特征数据,自学习轨迹规划***网络在预设的与加注任务相关的奖赏函数的指导下持续更新策略网络和评价网络的参数,以拟合机械臂最优运动轨迹;当策略网络和评价网络收敛时,训练完成。
6.一种基于深度强化学习的端到端在轨自主加注控制方法,其特征在于,包括如下步骤:
构建用于机械臂特征提取的深度卷积神经网络和基于深度强化学习的自学习轨迹规划***网络;
将视觉数据作为深度卷积神经网络的输入,经深度卷积神经网络处理后,与环境特征数据进行特征压缩后合并,输出压缩序列特征数据至自学习轨迹规划***网络;所述环境特征数据包括机械臂关节角和角速度、以及力和力矩;
自学习轨迹规划***网络接收压缩序列特征数据进行训练,并向深度卷积神经网络发送反馈数据;
深度卷积神经网络根据反馈数据对自身参数进行训练,直至深度卷积神经网络和自学习轨迹规划***网络均收敛;
实时采集机械臂视觉数据,基于训练好的深度卷积神经网络将机械臂视觉数据处理为机械臂压缩特征,与环境特征数据进行特征抽象后合并,并发送至训练好的自学习轨迹规划***网络;
训练好的自学习轨迹规划***网络将机械臂压缩特征解算为机械臂参考轨迹,根据机械臂参考轨迹控制机械臂运动,实现加注。
7.根据权利要求6所述的一种基于深度强化学习的端到端在轨自主加注控制方法,其特征在于,所述深度卷积神经网络处理的方法包括如下步骤:
初始化深度卷积神经网络的参数;
采集机械臂图像,获取视觉数据;
基于视觉数据,深度卷积神经网络通过层级的卷积和池化操作提取反应图像状态的特征数据;
利用全连接网络对所有特征数据进行特征抽象并进行结合,以得到完整的压缩序列特征数据。
8.根据权利要求6所述的一种基于深度强化学习的端到端在轨自主加注控制方法,其特征在于,所述自学习轨迹规划***网络接收压缩序列特征数据进行训练包括如下步骤:
初始化自学习轨迹规划***网络的参数;
控制机械臂与环境进行交互,基于压缩序列特征数据,自学习轨迹规划***网络在预设的与加注任务相关的奖赏函数的指导下持续更新策略网络和评价网络的参数,以拟合机械臂最优运动轨迹;当策略网络和评价网络收敛时,训练完成。
CN202010693535.7A 2020-07-17 2020-07-17 基于深度强化学习的端到端在轨自主加注控制***及方法 Active CN111844034B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010693535.7A CN111844034B (zh) 2020-07-17 2020-07-17 基于深度强化学习的端到端在轨自主加注控制***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010693535.7A CN111844034B (zh) 2020-07-17 2020-07-17 基于深度强化学习的端到端在轨自主加注控制***及方法

Publications (2)

Publication Number Publication Date
CN111844034A true CN111844034A (zh) 2020-10-30
CN111844034B CN111844034B (zh) 2022-03-04

Family

ID=73001602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010693535.7A Active CN111844034B (zh) 2020-07-17 2020-07-17 基于深度强化学习的端到端在轨自主加注控制***及方法

Country Status (1)

Country Link
CN (1) CN111844034B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113400307A (zh) * 2021-06-16 2021-09-17 清华大学 一种空间机器人机械臂的控制方法
CN114205053A (zh) * 2021-11-15 2022-03-18 北京邮电大学 卫星通信***强化学习自适应编码调制方法、***及装置
CN116713999A (zh) * 2023-08-07 2023-09-08 南京云创大数据科技股份有限公司 一种多机械臂多目标寻找的训练方法及训练装置
CN117379184A (zh) * 2023-10-26 2024-01-12 北京长木谷医疗科技股份有限公司 基于强化学习的关节手术机器人智能压配控制方法及装置
CN117697769A (zh) * 2024-02-06 2024-03-15 成都威世通智能科技有限公司 一种基于深度学习的机器人控制***和方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180174038A1 (en) * 2016-12-19 2018-06-21 Futurewei Technologies, Inc. Simultaneous localization and mapping with reinforcement learning
EP3402633A1 (en) * 2016-05-20 2018-11-21 Google LLC Machine learning methods and apparatus related to predicting motion(s) of object(s) in a robot's environment based on image(s) capturing the object(s) and based on parameter(s) for future robot movement in the environment
CN110202583A (zh) * 2019-07-09 2019-09-06 华南理工大学 一种基于深度学习的仿人机械手控制***及其控制方法
CN111079561A (zh) * 2019-11-26 2020-04-28 华南理工大学 一种基于虚拟训练的机器人智能抓取方法
CN111142557A (zh) * 2019-12-23 2020-05-12 清华大学 无人机路径规划方法、***、计算机设备及可读存储介质
CN111204476A (zh) * 2019-12-25 2020-05-29 上海航天控制技术研究所 一种基于强化学习的视触融合精细操作方法
CN111300390A (zh) * 2020-03-20 2020-06-19 苏州大学 基于蓄水池采样和双经验池的机械臂智能控制***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3402633A1 (en) * 2016-05-20 2018-11-21 Google LLC Machine learning methods and apparatus related to predicting motion(s) of object(s) in a robot's environment based on image(s) capturing the object(s) and based on parameter(s) for future robot movement in the environment
US20180174038A1 (en) * 2016-12-19 2018-06-21 Futurewei Technologies, Inc. Simultaneous localization and mapping with reinforcement learning
CN110202583A (zh) * 2019-07-09 2019-09-06 华南理工大学 一种基于深度学习的仿人机械手控制***及其控制方法
CN111079561A (zh) * 2019-11-26 2020-04-28 华南理工大学 一种基于虚拟训练的机器人智能抓取方法
CN111142557A (zh) * 2019-12-23 2020-05-12 清华大学 无人机路径规划方法、***、计算机设备及可读存储介质
CN111204476A (zh) * 2019-12-25 2020-05-29 上海航天控制技术研究所 一种基于强化学习的视触融合精细操作方法
CN111300390A (zh) * 2020-03-20 2020-06-19 苏州大学 基于蓄水池采样和双经验池的机械臂智能控制***

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113400307A (zh) * 2021-06-16 2021-09-17 清华大学 一种空间机器人机械臂的控制方法
CN114205053A (zh) * 2021-11-15 2022-03-18 北京邮电大学 卫星通信***强化学习自适应编码调制方法、***及装置
CN114205053B (zh) * 2021-11-15 2023-04-07 北京邮电大学 卫星通信***强化学习自适应编码调制方法、***及装置
CN116713999A (zh) * 2023-08-07 2023-09-08 南京云创大数据科技股份有限公司 一种多机械臂多目标寻找的训练方法及训练装置
CN116713999B (zh) * 2023-08-07 2023-10-20 南京云创大数据科技股份有限公司 一种多机械臂多目标寻找的训练方法及训练装置
CN117379184A (zh) * 2023-10-26 2024-01-12 北京长木谷医疗科技股份有限公司 基于强化学习的关节手术机器人智能压配控制方法及装置
CN117697769A (zh) * 2024-02-06 2024-03-15 成都威世通智能科技有限公司 一种基于深度学习的机器人控制***和方法
CN117697769B (zh) * 2024-02-06 2024-04-30 成都威世通智能科技有限公司 一种基于深度学习的机器人控制***和方法

Also Published As

Publication number Publication date
CN111844034B (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
CN111844034B (zh) 基于深度强化学习的端到端在轨自主加注控制***及方法
CN111598951B (zh) 一种识别空间目标的方法、装置和存储介质
CN109625333B (zh) 一种基于深度增强学习的空间非合作目标捕获方法
CN111325768B (zh) 一种基于3d视觉和模仿学习的自由漂浮目标抓捕方法
Scorsoglio et al. Image-based deep reinforcement learning for autonomous lunar landing
Crowley et al. Integration and control of reactive visual processes
CN111795700A (zh) 一种无人车强化学习训练环境构建方法及其训练***
CN111942621B (zh) 一种基于多任务学习的在轨自主加注控制方法及***
CN112340063B (zh) 一种基于深度强化学习的卫星消旋方法
CN114435631B (zh) 一种航天器自主控制***
Pan et al. Zero-shot imitation learning from demonstrations for legged robot visual navigation
CN111814823B (zh) 一种基于场景模板生成的迁移学习方法
Hirose et al. ExAug: Robot-conditioned navigation policies via geometric experience augmentation
Becktor et al. Robust vision-based multi-spacecraft guidance navigation and control using cnn-based pose estimation
Pokhrel Drone obstacle avoidance and navigation using artificial intelligence
CN113524173A (zh) 一种端到端的地外探测样品智能抓取方法
CN110926470B (zh) 一种agv导航控制方法及***
CN117301047A (zh) 双臂空间机器人视觉伺服协调控制方法及装置
CN113724260B (zh) 一种基于深度强化学习的卫星抓取方法
CN116009583A (zh) 基于纯粹视觉的分布式无人机协同运动控制方法和装置
CN112857373B (zh) 一种最小化无用动作的节能性无人车路径导航方法
CN111221340B (zh) 一种基于粗粒度特征的可迁移视觉导航设计方法
Zhang et al. Vision-based system for satellite on-orbit self-servicing
El-Fakdi et al. Two steps natural actor critic learning for underwater cable tracking
Zheng et al. Policy-based monocular vision autonomous quadrotor obstacle avoidance method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant