CN115128960B - 一种基于深度强化学习双足机器人运动控制方法及*** - Google Patents

一种基于深度强化学习双足机器人运动控制方法及*** Download PDF

Info

Publication number
CN115128960B
CN115128960B CN202211050051.6A CN202211050051A CN115128960B CN 115128960 B CN115128960 B CN 115128960B CN 202211050051 A CN202211050051 A CN 202211050051A CN 115128960 B CN115128960 B CN 115128960B
Authority
CN
China
Prior art keywords
biped robot
robot
leg
reinforcement learning
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211050051.6A
Other languages
English (en)
Other versions
CN115128960A (zh
Inventor
李彬
侯兰东
刘伟龙
徐一明
杨姝慧
刘丽霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN202211050051.6A priority Critical patent/CN115128960B/zh
Publication of CN115128960A publication Critical patent/CN115128960A/zh
Application granted granted Critical
Publication of CN115128960B publication Critical patent/CN115128960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B62LAND VEHICLES FOR TRAVELLING OTHERWISE THAN ON RAILS
    • B62DMOTOR VEHICLES; TRAILERS
    • B62D57/00Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track
    • B62D57/02Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track with ground-engaging propulsion means, e.g. walking members
    • B62D57/032Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track with ground-engaging propulsion means, e.g. walking members with alternately or sequentially lifted supporting base and legs; with alternately or sequentially lifted feet or skid
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Manipulator (AREA)
  • Transportation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Chemical & Material Sciences (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Data Mining & Analysis (AREA)

Abstract

本发明属于机器人智能控制领域,提供了一种基于深度强化学习双足机器人运动控制方法及***,包括获取双足机器人的当前状态信息;根据双足机器人的当前状态信息,利用训练好的深度强化学习算法模型得到扰动预测值;根据机器人的期望姿态和期望速度以及扰动预测值,得到最优的地面反作用力;基于最优的地面反作用力控制双足机器人的支撑腿,进而实现对双足机器人的运动控制。本发明基于单刚体模型预测控制提出了一种新的、基于深度强化学习预测腿部扰动控制方法,适用于腿部质量占比小于30%的双足机器人,扩大了单刚体模型预测控制方法的应用范围。

Description

一种基于深度强化学习双足机器人运动控制方法及***
技术领域
本发明属于机器人智能控制技术领域,具体涉及一种基于深度强化学习双足机器人运动控制方法及***。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
相较于轮式机器人,腿足式机器人拥有巨大的应用价值和发展前景。目前,四足机器人和双足机器人是腿足式机器人领域的研究热点。由于双足机器人具有复杂的非线性动力学和更高的自由度,所以实现双足机器人的稳定行走是一项具有较大挑战性的工作。与四足机器人相比,双足机器人由于自身的机械结构设计,很难实现静态稳定。其一是因为,双足机器人的矩形足面积很小,部分机器人甚至是线形足。这导致双足机器人在静态站立和运动过程中的支撑域很小,甚至不存在支撑域。从稳定性分析的角度来看,双足机器人不具备静态稳定的条件,只具备动态稳定性条件。这意味着,双足机器人只能在运动过程中实现自身稳定。因此,双足机器人运动控制器的设计难度要远胜于四足机器人。
目前,腿足式机器人的控制方法主要有两类,分别是基于模型的控制方法和无模型的控制方法。深度强化学习是无模型方法中最主要的方法。目前在腿足式机器人领域内,近端策略优化算法(Proximal Policy Optimization,PPO)和确定性策略梯度算法(DeepDeterministic Policy Gradient,DDPG)是两种最常用的深度强化学习算法。深度强化学习方法优点是规避复杂的建模和调参过程,通过不同的奖励函数指导,智能体可以学习到不同的目标策略,是一种较为灵活的控制方法。基于模型的控制方法也就是我们通常所说的传统的控制方法。设计基于模型的控制方法,首先要对被控对象进行建模。最近关于双足机器人的研究《Force-and-moment-based Model Predictive Control for AchievingHighly Dynamic Locomotion on Bipedal Robots》(基于力和力矩的控制在双足机器人上实现高速动态运动)将单刚体模型预测控制方法应用到双足机器人上,从理论上证明了模型预测控制方法的稳定性。但是,单刚体模型预测控制在双足机器人领域的普及还面临着一个重大的挑战。单刚体模型不考虑机器人的腿部质量对机器人整体运动的影响,这在腿部质量占比10%左右的四足机器人上是一种很合理的假设。但是,目前大部分的双足机器人腿部质量占比较大,腿部质量对机器人整体运动的影响不可忽略。
发明内容
为了解决上述问题,本发明提出了一种基于深度强化学习双足机器人运动控制方法及***,本发明基于单刚体模型预测控制提出了一种新的、基于深度强化学习预测腿部扰动控制方法,适用于腿部质量占比小于30%的双足机器人,扩大了单刚体模型预测控制方法的应用范围。
根据一些实施例,本发明的第一方案提供了一种基于深度强化学习双足机器人运动控制方法,采用如下技术方案:
一种基于深度强化学习双足机器人运动控制方法,包括:
获取双足机器人的当前状态信息;
根据双足机器人的当前状态信息,利用训练好的深度强化学习算法模型得到扰动预测值;
根据机器人的期望姿态和期望速度以及扰动预测值,得到最优的地面反作用力;
基于最优的地面反作用力控制双足机器人的支撑腿,进而实现对双足机器人的运动控制。
根据一些实施例,本发明的第二方案提供了一种基于深度强化学习双足机器人运动控制***,采用如下技术方案:
一种基于深度强化学习双足机器人运动控制***,包括:
机器人状态采集模块,被配置为获取双足机器人的当前状态信息;
扰动预测模块,被配置为根据双足机器人的当前状态信息,利用训练好的深度强化学习算法模型得到扰动预测值;
地面反作用力确定模块,被配置为根据机器人的期望姿态和期望速度以及扰动预测值,得到最优的地面反作用力;
机器人控制模块,被配置为基于最优的地面反作用力控制双足机器人的支撑腿,进而实现对双足机器人的运动控制。
根据一些实施例,本发明的第三方案提供了一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一个方面所述的一种基于深度强化学习双足机器人运动控制方法中的步骤。
根据一些实施例,本发明的第四方案提供了一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的一种基于深度强化学习双足机器人运动控制方法中的步骤。
与现有技术相比,本发明的有益效果为:
本发明由基于改进的单刚体模型的模型预测控制和基于深度强化学习的摆动腿扰动预测策略两部分组成。首先,对单刚体模型进行了改进,加入了外界对躯干的质心加速度和旋转加速度干扰,并推导出了它的模型预测标准形式。随后将改进之后的单刚体模型预测算法应用在一个腿部质量可以忽略的模型上,并假设上述两种扰动全为0,在此基础上调试并确定摆动腿和支撑腿控制器除扰动项外的其它参数。随后,使用一个腿部质量占比大约在30%的双足机器人模型,并且不再假设扰动项为0。使用强化学习中的PPO算法,让双足机器人跟踪一个设定的正向速度,学习扰动预测策略,最终实现稳定行走。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例所述的一种基于深度强化学习双足机器人运动控制***的整体控制框架图;
图2是本发明实施例所述的双足机器人的结构示意图;
图3是本发明实施例所述的步态周期图;
图4是本发明实施例所述的摆动腿控制框架图;
图5是本发明实施例所述的支撑腿控制器的框架图;
图6是本发明实施例所述的前向速度参考曲线图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
如图1所示,本实施例提供了一种基于深度强化学***台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本实施例中,该方法包括以下步骤:
获取双足机器人的当前状态信息;
根据双足机器人的当前状态信息,利用训练好的深度强化学习算法模型得到扰动预测值;
根据机器人的期望姿态和期望速度以及扰动预测值,得到最优的地面反作用力;
基于最优的地面反作用力控制双足机器人的支撑腿,进而实现对双足机器人的运动控制。
本方法由基于改进的单刚体模型的模型预测控制和基于深度强化学习的摆动腿扰动预测策略两部分组成。首先,对单刚体模型进行了改进,加入了外界对躯干的质心加速度和旋转加速度干扰,并推导出了它的模型预测标准形式。随后将改进之后的单刚体模型预测算法应用在一个腿部质量可以忽略的模型上,并假设上述两种扰动全为0,在此基础上调试并确定摆动腿和支撑腿控制器除扰动项外的其它参数。随后,使用一个腿部质量占比大约在30%的双足机器人模型,并且不再假设扰动项为0。使用强化学习中的PPO算法,让双足机器人跟踪一个设定的正向速度,学习扰动预测策略,最终实现稳定行走。
本发明将深度强化学习和单刚体模型预测控制相结合,提出了一种基于深度强化学习预测腿部扰动的单刚体模型预测方法,将单刚体模型预测控制算法移植到了腿部质量占比达30%的双足机器人上,突破了算法原有的假设限制,扩大了算法的适用范围。本发明经过仿真实验验证,控制效果优于改进前的单刚体模型预测控制方法。
具体过程如下:
一、控制框架
本发明的控制框架如图1所示,控制框架主要包含四个部分,分别是有限状态机、摆动腿控制器、支撑腿控制器和基于深度强化学***台。该平台具备高精度力矩控制能力,外观如图2所示。模型质量参数如表1所示,通过表1可以看出,模型1中的腿部质量占总质量的6.7%,它的腿部质量可以忽略,可以直接使用基于单刚体模型的模型预测控制方法;模型2中的腿部质量占总质量的30.5%,它的腿部质量不可忽略,基于改进的单刚体模型的模型预测控制可以实现它的稳定行走。
表1
Figure 114203DEST_PATH_IMAGE001
A.有限状态机
有限状态机根据固定的摆动时长和支撑时长,生成一种行走步态。有限状态机决定每条腿的状态,给出每条腿此时此刻应当支撑还是摆动。它给出当前时刻每条腿所处的时间相(摆动相或是支撑相),以及当前动作完成的百分比时间
Figure 824670DEST_PATH_IMAGE002
。每条腿的摆动相和支撑相分别占整个步态周期的40%和60%,其中,双腿支撑相占比10%。本发明使用摆动相
Figure 958848DEST_PATH_IMAGE003
时长0.12s,支撑相
Figure 805581DEST_PATH_IMAGE004
时长0.18s的行走步态,步态周期如图3所示。
B.摆动腿控制器
摆动腿控制器框架图如图4所示。摆动腿控制器首先根据自身状态求解期望落足点,然后根据期望落足点计算期望足端位置,再根据腿部逆运动学求解期望关节位置,最后通过一个关节空间PD控制器计算关节力矩。当摆动腿落地时会与地面发生碰撞,碰撞会破坏机器人的运动稳定性。设计触地策略是为了抑制碰撞对稳定性的影响。为了缓解摆动腿足端触地对躯干运动造成的冲击影响,本发明设计了三个摆动腿触地策略,保证机器人运动的稳定性。
期望落足点位置是基于速度的前馈项与基于捕获点的反馈项之和:
Figure 999802DEST_PATH_IMAGE005
(1)
其中,
Figure 931986DEST_PATH_IMAGE006
是期望落足点在水平地面上的位置;
Figure 869855DEST_PATH_IMAGE007
是髋关节实际位置在水平地面上的投影;
Figure 836674DEST_PATH_IMAGE008
是髋关节实际速度在水平地面上的投影;
Figure 936217DEST_PATH_IMAGE009
是髋关节期望速度在水平地面上的投影;
Figure 621276DEST_PATH_IMAGE010
是髋关节距离地面的期望高度;
Figure 97257DEST_PATH_IMAGE011
是摆动相时长;
Figure 918583DEST_PATH_IMAGE012
是重力加速度。
髋关节在笛卡尔坐标系下的实际速度可以通过测量到的其它状态量计算得到。髋关节在笛卡尔坐标系下的期望速度是根据设定的其它期望值计算得到。
期望足端轨迹是由6阶贝塞尔曲线根据实时期望落足点拟合生成。
在触地策略1中,本发明模仿人类直立行走时的脚尖外张行为,实时调整双足机器人偏航关节的期望位置和期望速度,从而增强动态行走的稳定性。
另外在摆动腿摆动的过程中,本发明添加了一个脚底平行于水平地面的约束,确保摆动腿在摆动相结束时,可以保证足底与地面的完全接触。根据约束可以求解出足关节的期望位置和期望速度。
除了偏航关节和足关节外,双足机器人的每条腿还有3个自由度,逆运动学刚好有唯一解。根据期望足端位置可求解出剩余关节的期望位置和期望速度。
在触地策略2中,当
Figure 16175DEST_PATH_IMAGE013
时,本发明将所有摆动腿关节的期望速度设置为0。策略二可以减小摆动腿触地时对地面产生的冲击,进一步提高摆动腿由摆动相过渡到支撑相时的稳定性。
求解出所有关节的期望位置和期望速度之后,本发明使用了一个数字低通滤波器对实际的关节速度进行滤波,滤波器的截止频率低于摆动腿控制器的工作频率。然后本发明通过一个关节空间的PD控制器,根据实际关节位置误差和实际关节速度误差计算出各个关节的力矩,
Figure 922952DEST_PATH_IMAGE014
(2)
其中,
Figure 468202DEST_PATH_IMAGE015
Figure 878455DEST_PATH_IMAGE016
分别是实际的关节位置和实际的关节速度向量;
Figure 585380DEST_PATH_IMAGE017
Figure 979452DEST_PATH_IMAGE018
分别是期望关节角度和期望关节速度向量;
Figure 797235DEST_PATH_IMAGE019
Figure 593153DEST_PATH_IMAGE020
分别是PD控制器的关节位置和关节速度增益矩阵。
需要说明的是,当前时刻的期望减去前一时刻的期望,然后除以时间间隔,可以得到当前时刻的期望速度。
在触地策略三中,当
Figure 470979DEST_PATH_IMAGE021
时,本发明将踝关节力矩设置为0,从而避免在足底触地时足关节的力矩波动破坏躯干的稳定性。
C.支撑腿控制器
支撑腿控制器的框架如图5所示。本实施例将双足机器人的躯干看作是可以自由移动的单刚体,支撑腿的最优地面反作用力由基于改进单刚体模型的模型预测控制算法生成。本发明在SRB模型中加入外界对质心加速度和旋转加速度的扰动,并将新的模型称为受外界扰动的单刚体模型DSRB。同时,本发明将基于SRB模型的模型预测控制方法简称为SRB-MPC方法,将基于DSRB模型的MPC方法简称为DSRB-MPC方法。DSRB模型的近似线性动力学如下,
Figure 86768DEST_PATH_IMAGE022
(3)
Figure 708243DEST_PATH_IMAGE023
(4)
其中,
Figure 358667DEST_PATH_IMAGE024
是躯干质心位置;
Figure 407394DEST_PATH_IMAGE025
是躯干质心加速度;
Figure 776059DEST_PATH_IMAGE026
是躯干的旋转角速度;
Figure 935645DEST_PATH_IMAGE027
是躯干的旋转加速度;
Figure 440575DEST_PATH_IMAGE028
是躯干的质量;
Figure 397555DEST_PATH_IMAGE029
表示双足机器人腿的数量;
Figure 253515DEST_PATH_IMAGE030
是地面通过第
Figure 216792DEST_PATH_IMAGE031
个足端对躯干质心施加的反作用力;
Figure 841808DEST_PATH_IMAGE032
Figure 232338DEST_PATH_IMAGE030
的力臂;
Figure 310016DEST_PATH_IMAGE033
是躯干的惯性张量;
Figure 811404DEST_PATH_IMAGE034
Figure 290927DEST_PATH_IMAGE035
分别是外界对躯干施加的不确定的质心加速度干扰和旋转加速度干扰。
Figure 852358DEST_PATH_IMAGE036
(5)
其中,
Figure 417332DEST_PATH_IMAGE037
是ZYX顺序的欧拉角,表示躯干的方向;
Figure 987991DEST_PATH_IMAGE038
是从躯干坐标系到惯性坐标系的旋转矩阵;
Figure 587599DEST_PATH_IMAGE039
是零矩阵;
Figure 319932DEST_PATH_IMAGE040
是单位矩阵。
本发明将状态方程(5)的离散形式作为等式约束,将地面反作用力的摩擦锥约束作为不等式约束,将***的状态误差和***输入的二范数作为目标函数,最优足端反作用力求解问题可以写成如下标准的模型预测控制形式:
Figure 106622DEST_PATH_IMAGE041
(6)
Figure 215393DEST_PATH_IMAGE042
(7)
Figure 935087DEST_PATH_IMAGE043
Figure 575671DEST_PATH_IMAGE044
(8)
其中,
Figure 849658DEST_PATH_IMAGE045
是预测步长;
Figure 496540DEST_PATH_IMAGE046
是***第i时刻的预测状态;
Figure 805161DEST_PATH_IMAGE047
是***在i时刻的下一时刻的参考状态;
Figure 879297DEST_PATH_IMAGE048
是***第i时刻的输入;
Figure 906159DEST_PATH_IMAGE049
是***第i时刻的近似线性离散动力学方程;
Figure 91152DEST_PATH_IMAGE050
是***第i时刻的摩擦锥约束;QR是对角半正定的权重矩阵。
本发明将离散动力学方程(7)可写成如下紧凑形式,
Figure 519859DEST_PATH_IMAGE051
(9)
其中,
Figure 764896DEST_PATH_IMAGE052
是***在预测域内的状态轨迹;
Figure 13475DEST_PATH_IMAGE053
是***在预测域内的输入序列;
Figure 2159DEST_PATH_IMAGE054
是***的初始状态;
Figure 285373DEST_PATH_IMAGE055
Figure 701311DEST_PATH_IMAGE056
分别是***预测矩阵和输入预测矩阵,由
Figure 437186DEST_PATH_IMAGE057
Figure 229561DEST_PATH_IMAGE058
组成。
随后将公式(9)代入到公式(6)中,最终标准模型预测控制问题可以化简成二次规划问题:
Figure 367282DEST_PATH_IMAGE059
(10)
Figure 95066DEST_PATH_IMAGE060
(11)
其中,
Figure 445801DEST_PATH_IMAGE061
表示矩阵转置操作;
Figure 917233DEST_PATH_IMAGE062
是由
Figure 34094DEST_PATH_IMAGE063
组成的分块对角矩阵;
Figure 667200DEST_PATH_IMAGE064
是由
Figure 502301DEST_PATH_IMAGE065
组成的分块对角矩阵;
Figure 511846DEST_PATH_IMAGE066
是由
Figure 483213DEST_PATH_IMAGE067
组成的分块对角矩阵;
Figure 552800DEST_PATH_IMAGE068
是由
Figure 344038DEST_PATH_IMAGE069
上下堆叠组成;
Figure 281907DEST_PATH_IMAGE070
是由
Figure 983147DEST_PATH_IMAGE071
上下堆叠组成;
Figure 348269DEST_PATH_IMAGE072
是***在预测域内的状态参考轨迹;
Figure 767749DEST_PATH_IMAGE073
是***预测矩阵;
Figure 243730DEST_PATH_IMAGE074
是输入预测矩阵;
Figure 65056DEST_PATH_IMAGE075
是***的当前状态;
Figure 592290DEST_PATH_IMAGE076
是***的最优输入序列。
考虑到大部分双足机器人的足关节处的执行器输出力矩较小,支撑腿策略将足关节作为被动关节,将此关节的期望力矩设置为0。在上述假设下,双足机器人无法实现静态稳定,只能实现动态稳定,它的控制难度增加。
支撑腿除足关节外的各关节力矩由下式给出:
Figure 499066DEST_PATH_IMAGE077
(12)
其中,J是足关节处的力雅各比矩阵;
Figure 778738DEST_PATH_IMAGE078
是当前时刻的最优地面反作用力,
Figure 720149DEST_PATH_IMAGE079
是从躯干坐标系到惯性坐标系的旋转矩阵的转置。
为了提高支撑腿控制器的稳定性,本发明也使用了一阶低通数字滤波器对躯干的质心速度和旋转速度进行了滤波。滤波器的截止频率低于支撑腿控制器的工作频率。
二、学习摆动腿扰动预测策略
A.状态空间和动作空间
状态变量
Figure 302440DEST_PATH_IMAGE080
包括躯干的
Figure 821146DEST_PATH_IMAGE081
Figure 514296DEST_PATH_IMAGE082
Figure 434847DEST_PATH_IMAGE083
和每条腿的关节位置和速度以及
Figure 922460DEST_PATH_IMAGE084
,其中
Figure 928462DEST_PATH_IMAGE085
可以同时表示腿的运动状态和相位百分比时间,
Figure 425303DEST_PATH_IMAGE086
(13)
状态空间维度数是31,且不包含任何与期望状态相关的变量,状态变量的选择非常地简化。
因为摆动腿对躯干的扰动与躯干在惯性坐标系下的位置无关,并且扰动是相对于躯干的,所以本发明选择在躯干坐标系中学习扰动预测策略
Figure 934781DEST_PATH_IMAGE087
,由策略
Figure 983509DEST_PATH_IMAGE087
给出在躯干坐标系下摆动腿对躯干的扰动
Figure 86594DEST_PATH_IMAGE088
Figure 246180DEST_PATH_IMAGE089
。本发明将所有扰动的数值范围限制在-5到5之间。通过躯干坐标系与惯性坐标系之间的相对位置关系,可以得到在惯性坐标系下摆动腿对躯干的扰动
Figure 16690DEST_PATH_IMAGE090
Figure 239248DEST_PATH_IMAGE091
。动作空间维度为6,小于关节空间的维度。
B.奖励函数
本发明设计奖励函数时,优先鼓励机器人保持躯干欧拉角不变,避免由于躯干姿态剧烈变化而导致跌倒。因此,在奖励函数中躯干的欧拉角误差权重最大,高度误差权重仅次之。奖励函数其次鼓励机器人跟踪一个水平面上的正向速度,所以正向和侧向水平速度误差权重较小,垂直方向上的速度误差权重最小。
Figure 829630DEST_PATH_IMAGE092
(14)
其中,
Figure 792907DEST_PATH_IMAGE093
Figure 417923DEST_PATH_IMAGE094
Figure 808453DEST_PATH_IMAGE095
分别是躯干的横滚,俯仰,偏航角误差;
Figure 886130DEST_PATH_IMAGE096
是躯干质心高度误差;
Figure 121940DEST_PATH_IMAGE097
Figure 601463DEST_PATH_IMAGE098
Figure 162894DEST_PATH_IMAGE099
分别是躯干质心在xyz三个方向上的速度误差。
C.训练细节
为了降低训练难度,缩短训练时间,本发明只希望双足机器人在保持躯干姿态不变的情况下,跟踪一个不断变化的水平正向速度。此外,本发明引入了两个先验知识。
(1)首先,在一个腿部质量可以忽略的双足机器人模型上(模型参数见表1模型1),设置了摆动腿和支撑腿控制器参数,其中包括
Figure 727867DEST_PATH_IMAGE100
Figure 767368DEST_PATH_IMAGE101
QR。为了使支撑腿控制器能够在躯干水平速度误差较大的情况下也能保持稳定,本发明在Q中使用了一个非常小的正向水平速度目标权重
Figure 226031DEST_PATH_IMAGE102
。支撑腿控制器会优先保证躯干欧拉角误差最小,维持住躯干姿态,在不跌倒的前提下尽可能地跟踪正向水平速度。策略训练时使用表1中的模型2。模型预测控制的目标权重系数如表2所示。
表 2
Figure 833730DEST_PATH_IMAGE103
(2)为了避免双足机器人在仿真初期频繁跌倒,本发明使用了两个很小的前向期望加速度,前向速度参考如图6所示。同时,为了学习匀速运动状态下的扰动预测策略,参考轨迹中包含5段时长一秒的阶梯式的匀速运动,阶梯速度分别为0.6、0.7、0.8、0.9、0.95。参考轨迹的最后是一段1m/s的匀速运动。参考轨迹中包含了不同速度下的匀速和加速运动过程,学习难度从易到难,符合学习规律。
D.PPO算法参数设置
本发明选择PPO算法训练摆动腿扰动预测策略
Figure 10633DEST_PATH_IMAGE104
,使用高斯分布
Figure 994770DEST_PATH_IMAGE105
输出扰动预测值,然后裁剪预测值,将预测值限制在有效值范围内。本实施例使用了9个关键技巧提升PPO算法的性能:(1)优势归一化;(2)状态归一化;(3)奖励值归一化;(4)在actor网络的损失函数中加入策略熵;(5)学习率衰减;(6)梯度裁剪;(7)网络参数正交初始化;(8)使用Adam优化器;(9)使用双曲正弦函数作为激活函数。提升PPO算法的性能。使用GAE方法对PPO算法中的优势进行估计。关于Actor和Critic网络,使用了一个结构简单的3层全连接网络,网络每层有只有256个神经元。PPO算法的其它参数都使用了该算法的经验值。为了加快训练速度,本发明对每回合的最大仿真步做了限制,并将该限制作为回合结束条件,除此之外,本发明还增加了一些对误差的限制,同时作为回合结束条件,最大误差如表3所示。
表3
Figure 310869DEST_PATH_IMAGE106
实施例二
本实施例提供了一种基于深度强化学习双足机器人运动控制***,包括:
机器人状态采集模块,被配置为获取双足机器人的当前状态信息;
扰动预测模块,被配置为根据双足机器人的当前状态信息,利用训练好的深度强化学习算法模型得到扰动预测值;
地面反作用力确定模块,被配置为根据机器人的期望姿态和期望速度以及扰动预测值,得到最优的地面反作用力;
机器人控制模块,被配置为基于最优的地面反作用力控制双足机器人的支撑腿,进而实现对双足机器人的运动控制。
上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为***的一部分可以在诸如一组计算机可执行指令的计算机***中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的***,可以通过其他的方式实现。例如以上所描述的***实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个***,或一些特征可以忽略,或不执行。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的一种基于深度强化学习双足机器人运动控制方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的一种基于深度强化学习双足机器人运动控制方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (8)

1.一种基于深度强化学习双足机器人运动控制方法,其特征在于,包括:
获取双足机器人的当前状态信息;
根据双足机器人的当前状态信息,利用训练好的深度强化学习算法模型得到扰动预测值,所述扰动预测值是质心加速度干扰预测值和旋转加速度干扰预测值;
在机器人控制框架模型中,根据机器人的期望姿态和期望速度以及扰动预测值,将双足机器人的躯干作为自由移动的单刚体,基于受摆动腿扰动的单刚体模型的模型预测控制算法得到最优的地面反作用力;所述机器人控制框架模型包括有限状态机、摆动腿控制器、支撑腿控制器以及基于深度强化学习的摆动腿预测策略;所述支撑腿控制器采用基于受摆动腿扰动的单刚体模型的模型预测控制算法;
所述受摆动腿扰动的单刚体模型,具体为:
Figure 166667DEST_PATH_IMAGE001
Figure 134623DEST_PATH_IMAGE002
其中,
Figure 168438DEST_PATH_IMAGE003
是躯干质心位置;
Figure 880042DEST_PATH_IMAGE004
是躯干质心加速度;
Figure 685843DEST_PATH_IMAGE005
是躯干的旋转角速度;
Figure 824700DEST_PATH_IMAGE006
是躯 干的旋转加速度;
Figure 345811DEST_PATH_IMAGE007
是躯干的质量;
Figure 595527DEST_PATH_IMAGE008
表示双足机器人腿的数量;
Figure 518484DEST_PATH_IMAGE009
是地面通过第
Figure 828242DEST_PATH_IMAGE010
个足端对躯干质心施加的反作用力;
Figure 836650DEST_PATH_IMAGE011
Figure 890056DEST_PATH_IMAGE009
的力臂;
Figure 667520DEST_PATH_IMAGE012
是躯干的惯性张量;
Figure 148179DEST_PATH_IMAGE013
Figure 440620DEST_PATH_IMAGE014
分别是外界对躯干施加的不确定的质心加速度干扰和旋转加速度干扰;
基于最优的地面反作用力控制双足机器人的支撑腿,进而实现对双足机器人的运动控制。
2.如权利要求1所述的一种基于深度强化学习双足机器人运动控制方法,其特征在于,所述双足机器人的当前状态信息,包括:
双足机器人当前的躯干姿态、躯干的旋转角速度、躯干质心的速度、每条腿的关节位置和关节速度,以及腿的运动状态和相位百分比时间。
3.如权利要求1所述的一种基于深度强化学习双足机器人运动控制方法,其特征在于,基于机器人控制框架模型的支撑腿控制器,根据机器人的期望姿态和期望速度以及扰动预测值得到最优的地面反作用力,具体为:
基于支撑腿控制器的受外界扰动的单刚体模型,转换成状态方程并进行离散化;
将离散性质的状态方程作为等式约束,将地面反作用力的摩擦锥约束作为不等式约束,将最优的地面反作用力求解问题转化成标准的模型预测控制形式;
将离散性质的状态方程转化为紧凑形式,基于离散性质的状态方程的紧凑形式对标准的模型预测控制问题进行简化,得到最终的二次规划问题;
基于最终的二次规划问题,求解出最优的地面反作用力。
4.如权利要求3所述的一种基于深度强化学习双足机器人运动控制方法,其特征在于,所述最终的二次规划问题,具体为:
Figure 235401DEST_PATH_IMAGE015
Figure 929688DEST_PATH_IMAGE016
其中,
Figure 518932DEST_PATH_IMAGE017
表示矩阵转置操作;
Figure 564248DEST_PATH_IMAGE018
是由
Figure 897141DEST_PATH_IMAGE019
组成的分块对角矩阵;
Figure 445934DEST_PATH_IMAGE020
是由
Figure 468729DEST_PATH_IMAGE021
组成的 分块对角矩阵;QR是对角半正定的权重矩阵;
Figure 735762DEST_PATH_IMAGE022
是由
Figure 934662DEST_PATH_IMAGE023
组成的分块对角矩阵;
Figure 275645DEST_PATH_IMAGE024
是 由
Figure 534588DEST_PATH_IMAGE025
上下堆叠组成;
Figure 226600DEST_PATH_IMAGE026
是由
Figure 963612DEST_PATH_IMAGE027
上下堆叠组成;
Figure 424681DEST_PATH_IMAGE028
是***在预测域内的状态参考轨迹;
Figure 854525DEST_PATH_IMAGE029
是***预 测矩阵;
Figure 768254DEST_PATH_IMAGE030
是输入预测矩阵;
Figure 308957DEST_PATH_IMAGE031
是***的当前状态;
Figure 890111DEST_PATH_IMAGE032
是***的最优输入序列。
5.如权利要求1所述的一种基于深度强化学习双足机器人运动控制方法,其特征在于,所述摆动腿控制器的工作过程,为:
根据摆动腿的期望落足点确定摆动腿的期望足端位置;
基于摆动腿的期望足端位置,利用腿部逆运动学求解摆动腿的期望关节位置;
根据摆动腿的期望关节位置,通过关节空间的比例微分控制器确定摆动腿的关节力矩;
基于摆动腿的关节力矩控制摆动腿运动。
6.一种基于深度强化学习双足机器人运动控制***,其特征在于,包括:
机器人状态采集模块,被配置为获取双足机器人的当前状态信息;
扰动预测模块,被配置为根据双足机器人的当前状态信息,利用训练好的深度强化学习算法模型得到扰动预测值,所述扰动预测值是质心加速度干扰预测值和旋转加速度干扰预测值;
地面反作用力确定模块,被配置为在机器人控制框架模型中,根据机器人的期望姿态和期望速度以及扰动预测值,将双足机器人的躯干作为自由移动的单刚体,基于受摆动腿扰动的单刚体模型的模型预测控制算法得到最优的地面反作用力;所述机器人控制框架模型包括有限状态机、摆动腿控制器、支撑腿控制器以及基于深度强化学习的摆动腿预测策略;所述支撑腿控制器采用基于受摆动腿扰动的单刚体模型的模型预测控制算法;
所述受摆动腿扰动的单刚体模型,具体为:
Figure 225278DEST_PATH_IMAGE001
Figure 954199DEST_PATH_IMAGE002
其中,
Figure 970697DEST_PATH_IMAGE003
是躯干质心位置;
Figure 468674DEST_PATH_IMAGE004
是躯干质心加速度;
Figure 912425DEST_PATH_IMAGE005
是躯干的旋转角速度;
Figure 128643DEST_PATH_IMAGE006
是躯 干的旋转加速度;
Figure 963480DEST_PATH_IMAGE007
是躯干的质量;
Figure 315963DEST_PATH_IMAGE008
表示双足机器人腿的数量;
Figure 196195DEST_PATH_IMAGE009
是地面通过第
Figure 634129DEST_PATH_IMAGE010
个足端对躯干质心施加的反作用力;
Figure 992429DEST_PATH_IMAGE011
Figure 464999DEST_PATH_IMAGE009
的力臂;
Figure 312869DEST_PATH_IMAGE012
是躯干的惯性张量;
Figure 175783DEST_PATH_IMAGE013
Figure 400091DEST_PATH_IMAGE014
分别是外界对躯干施加的不确定的质心加速度干扰和旋转加速度干扰;
机器人控制模块,被配置为基于最优的地面反作用力控制双足机器人的支撑腿,进而实现对双足机器人的运动控制。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的一种基于深度强化学习双足机器人运动控制方法中的步骤。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中任一项所述的一种基于深度强化学习双足机器人运动控制方法中的步骤。
CN202211050051.6A 2022-08-30 2022-08-30 一种基于深度强化学习双足机器人运动控制方法及*** Active CN115128960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211050051.6A CN115128960B (zh) 2022-08-30 2022-08-30 一种基于深度强化学习双足机器人运动控制方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211050051.6A CN115128960B (zh) 2022-08-30 2022-08-30 一种基于深度强化学习双足机器人运动控制方法及***

Publications (2)

Publication Number Publication Date
CN115128960A CN115128960A (zh) 2022-09-30
CN115128960B true CN115128960B (zh) 2022-12-16

Family

ID=83387836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211050051.6A Active CN115128960B (zh) 2022-08-30 2022-08-30 一种基于深度强化学习双足机器人运动控制方法及***

Country Status (1)

Country Link
CN (1) CN115128960B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116823954B (zh) * 2023-08-29 2023-12-08 深圳魔视智能科技有限公司 铰接式车辆的位姿估计方法、装置、车辆及存储介质
CN117555339B (zh) * 2024-01-11 2024-04-26 科大讯飞股份有限公司 策略网络训练方法及人形双足机器人步态控制方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111098299A (zh) * 2019-12-06 2020-05-05 上海航天控制技术研究所 一种空间机器人扰动补偿的方法
CN111891252A (zh) * 2020-08-06 2020-11-06 齐鲁工业大学 一种四足仿生机器人的身体姿态斜坡自适应控制方法
CN112051741A (zh) * 2020-09-16 2020-12-08 北京理工大学 一种双足机器人动态运动生成与控制方法
CN112668235A (zh) * 2020-12-07 2021-04-16 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN113021299A (zh) * 2021-04-13 2021-06-25 山东大学 一种双腿轮复合机器人全方位运动控制方法
CN113219825A (zh) * 2021-03-26 2021-08-06 齐鲁工业大学 一种四足机器人单腿轨迹跟踪控制方法及***
CN114625129A (zh) * 2022-02-22 2022-06-14 中国科学院自动化研究所 位控腿足机器人的运动控制方法及***
CN114815626A (zh) * 2022-06-02 2022-07-29 哈尔滨理工大学 一种舵鳍***的预测自抗扰减摇控制方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101875510B1 (ko) * 2016-11-22 2018-07-09 한국과학기술연구원 이족 보행 로봇의 안정된 보행 제어를 위해 단순화된 로봇의 모델링 방법
JP7188194B2 (ja) * 2019-03-07 2022-12-13 富士通株式会社 方策改善方法、方策改善プログラム、および方策改善装置
WO2020233050A1 (zh) * 2019-11-26 2020-11-26 浙江大学 一种双足机器人不平整路面动态跑步步态实现方法
CN114609918B (zh) * 2022-05-12 2022-08-02 齐鲁工业大学 一种四足机器人运动控制方法、***、存储介质及设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111098299A (zh) * 2019-12-06 2020-05-05 上海航天控制技术研究所 一种空间机器人扰动补偿的方法
CN111891252A (zh) * 2020-08-06 2020-11-06 齐鲁工业大学 一种四足仿生机器人的身体姿态斜坡自适应控制方法
CN112051741A (zh) * 2020-09-16 2020-12-08 北京理工大学 一种双足机器人动态运动生成与控制方法
CN112668235A (zh) * 2020-12-07 2021-04-16 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN113219825A (zh) * 2021-03-26 2021-08-06 齐鲁工业大学 一种四足机器人单腿轨迹跟踪控制方法及***
CN113021299A (zh) * 2021-04-13 2021-06-25 山东大学 一种双腿轮复合机器人全方位运动控制方法
CN114625129A (zh) * 2022-02-22 2022-06-14 中国科学院自动化研究所 位控腿足机器人的运动控制方法及***
CN114815626A (zh) * 2022-06-02 2022-07-29 哈尔滨理工大学 一种舵鳍***的预测自抗扰减摇控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于模型预测控制的仿人机器人实时步态优化;丁加涛 等;《浙江大学学报(工学版)》;20191031;第53卷(第10期);全文 *
基于深度强化学习的四足机器人研究综述;刘伟龙 等;《齐鲁工业大学学报》;20220430;第36卷(第2期);全文 *

Also Published As

Publication number Publication date
CN115128960A (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
CN115128960B (zh) 一种基于深度强化学习双足机器人运动控制方法及***
Miura et al. Human-like walking with toe supporting for humanoids
Meduri et al. Biconmp: A nonlinear model predictive control framework for whole body motion planning
Nakaoka et al. Generating whole body motions for a biped humanoid robot from captured human dances
Laszlo et al. Limit cycle control and its application to the animation of balancing and walking
Felis et al. Synthesis of full-body 3-d human gait using optimal control methods
Yang et al. Learning whole-body motor skills for humanoids
Cardenas-Maciel et al. Generation of walking periodic motions for a biped robot via genetic algorithms
CN106363633A (zh) 基于改良粒子群算法的机器人稳定步态规划方法和装置
Park et al. Inverse optimal control for humanoid locomotion
CN114995479A (zh) 一种基于强化学习的四足机器人虚拟模型控制器的参数控制方法
Shafii et al. Learning to walk fast: Optimized hip height movement for simulated and real humanoid robots
CN117215204B (zh) 基于强化学习的机器人步态训练方法及***
Pambudi et al. Simulation design of trajectory planning robot manipulator
Yang et al. Cajun: Continuous adaptive jumping using a learned centroidal controller
CN113568422A (zh) 基于模型预测控制优化强化学习的四足机器人控制方法
Saputra et al. Adaptive motion pattern generation on balancing of humanoid robot movement
KR102611126B1 (ko) 강화학습모델을 이용한 보행 동작 정보 출력 방법 및 서비스 장치
CN114393579B (zh) 一种基于自适应模糊虚拟模型的机器人控制方法及装置
Yeom et al. A dynamic gait stabilization algorithm for quadrupedal locomotion through contact time modulation
Leng et al. Universal walking control framework of biped robot based on dynamic model and quadratic programming
Jiang et al. Motion sequence learning for robot walking based on pose optimization
DeHart Dynamic Balance and Gait Metrics for Robotic Bipeds
CN117572877B (zh) 一种双足机器人步态控制方法、装置、存储介质及设备
Tao et al. A Multiobjective Collaborative Deep Reinforcement Learning Algorithm for Jumping Optimization of Bipedal Robot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant