CN111546349A - 一种仿人机器人步态规划的深度强化学习新方法 - Google Patents

一种仿人机器人步态规划的深度强化学习新方法 Download PDF

Info

Publication number
CN111546349A
CN111546349A CN202010594439.7A CN202010594439A CN111546349A CN 111546349 A CN111546349 A CN 111546349A CN 202010594439 A CN202010594439 A CN 202010594439A CN 111546349 A CN111546349 A CN 111546349A
Authority
CN
China
Prior art keywords
target
agent
strategy
reinforcement learning
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010594439.7A
Other languages
English (en)
Inventor
冯春
赵彻
李晓贞
张祎伟
姜文彪
武之炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Institute of Technology
Original Assignee
Changzhou Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Institute of Technology filed Critical Changzhou Institute of Technology
Priority to CN202010594439.7A priority Critical patent/CN111546349A/zh
Publication of CN111546349A publication Critical patent/CN111546349A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1612Programme controls characterised by the hand, wrist, grip control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Orthopedic Medicine & Surgery (AREA)
  • Manipulator (AREA)

Abstract

本发明涉及一种机器人技术的改进,具体为一种仿人机器人步态规划的深度强化学***面足底结构;预训练控制参数采用改进的DQN网络结构的深度强化学习进行控制器的训练;双足机器人步行运动是指通过训练的控制器实现稳定性。

Description

一种仿人机器人步态规划的深度强化学习新方法
技术领域
本发明涉及一种机器人技术的改进,具体为一种仿人机器人步态规划的深度强化学习新方法。
背景技术
仿人双足机器人具有类人型的结构能够适应诸如楼梯、街道、非平整地面等复杂地形环境,具有运动形式灵活的特点。因此,该类型运动形式的机器人可以用于医疗、救援、服务、探索等诸多行业领域。人类运动看起来很简单,却是一个涉及多个自由度的非常复杂的动作。它可以看作是通过下半身的伸肌和屈肌群把这些自由度相互关联而产生的复杂非线性动力学,这也成为正确理解运动研究中涉及的生理学并将其复制到双足机器人的动机。双足步行机器人具有便捷性、灵活性,可穿越大范围的地形,因此其运动稳定性至关重要。然而,由于非线性和不稳定因素使得其运动姿态的控制***设计困难。面对双足步行***的稳定性问题,近些年许多学者使用传统的控制体系结构做了大量相关工作。这些传统的控制理论方法依赖于复杂数学工程模型以及确定性问题。最近,相关学者的研究表明机器学习比传统的控制方法在双足行走稳定性上更具优势。
仿人双足步行控制可以看作是解决未经处理的高维感官输入中的复杂任务。近年来,深度学习在解决高维复杂问题上已有很多成果。其中DQN算法能够解决高维观测空间的问题,但它只能处理离散和低维的动作空间。一般来说,使用大型非线性函数逼近器来学习价值函数既困难又不稳定。结合DQN算法的优点,使用重播缓冲区中的样本对网络进行非策略训练,以最大程度地减少样本之间的相关性,再利用目标网络训练以在时间差备份期间给出一致的目标,给出一种使用深度函数逼近器的无模型、偏离策略的操作、评论算法DDPG(Deep Deterministic Policy Gradient)。该算法作为学习高维、连续动作空间中的策略的无模型方法可以使用相同的低维观测值(例如笛卡尔坐标或关节角)来学习所有任务的竞争策略超参数和网络结构。在许多情况下,它还可以直接从像素中学习良好的策略,从而再次保持超参数和网络结构不变。操作-评论的算法会根据近似评论的价值估算来更新策略。由于DDPG算法使用确定性策略梯度作为更新策略,而该更新会导致价值估计中的过高估计。尽管每次更新时这种高估可能都是最小的,但是估计误差的出现会引起误差叠加以及策略更新不佳。故本文提出一种双Q学习修正函数取代评论函数得到一种改进的DQN算法,以此解决该问题。
发明内容
本发明要解决的技术问题克服现有的缺陷,提供一种仿人机器人步态规划的深度强化学习新方法,利用改进的DQN算法解决双足机器人的步行控制问题,在无需建立复杂的双足机器人动力学模型的基础上,将强化深度学习方法用于双足机器人实现在快步行走条件下的长距离稳定步态控制。
为了解决上述技术问题,本发明提供了如下的技术方案:一种仿人机器人步态规划的深度强化学习新方法,包括建立仿人双足机器人模型、预训练控制参数和双足机器人步行运动;
其中,仿人双足机器人模型采用简化的6自由度连杆模型,足部采用平面足底结构;
预训练控制参数采用改进的DQN网络结构的深度强化学习进行控制器的训练;
双足机器人步行运动是指通过训练的控制器实现稳定性。
作为优选,所述预训练控制参数具体是指:首先,利用三维建模建立双足机器人模型并导入到仿真平台预训练基于改进DQN的深度强化学习网络。
在此过程中采用经验回放机制和目标Q值网络,来确保基于改进DQN的深度强化学习网络在训练过程中收敛;采用策略梯度算法,实现在连续的动作空间根据所学习到的策略随机筛选动作;再针对策略梯度算法不让其随机选择,只输出一个动作值。
作为优选,对于策略随机筛选,Σπ(a|s)=1策略输出的是动作的概率,使用正态分布对动作进行采样选择,即每个动作都有概率可能选到。
作为优选,只输出一个动作值,具体是指确定性策略,π(s)S→A策略输出即是动作。
作为优选,DDPG算法使用确定性策略梯度作为更新策略,并在减少高估偏差提本新的修正算法,在操作-评论算法中优化评论部分,结合针对DDPG网络结构改进后的总体网络结构。
作为优选,基于改进的DQN算法的深度强化学习仿人机器人步态规划的新方法具体步骤如下:预训练控制参数采用改进的DQN网络结构的深度强化学习具体包括如下步骤:
步骤1:利用三维建模软件绘制,训练前将该模型导入到Matlab内,包括腰部,大腿、小腿及双足,连杆的尺寸的单位为m;腰部、大腿、小腿选用泡沫塑料,密度为0.5g/cm3,足部选用工程塑料,密度为1.0g/cm3,并保证整个双足机器人的重心保持在腰部的中心,并建立6个关节,即髋关节、膝关节和踝关节作为旋转关节,各种关节变量的作用范围分别为[-pi/4,pi/4],[0.1,pi],[-pi/4,pi/4];在模型建立后,确定接触刚度、阻尼、静摩擦和动摩擦作为仿真参数;
步骤2:使用改进的DQN算法进行智能体训练,具体包含以下关键步骤:
步骤2.1:操作与评论函数;估计策略和价值函数,智能体维护4个函数近似器:
操作μ(s):操作进行观察s并输出相应的动作,以最大化长期奖励;
目标操作μ′(s):智能体会根据最新的操作参数值定期更新目标操作;
双Q值评论Q(s,a):评论将观察值s和操作a分别作为输入和对长期奖励相应期望的输出;
双目标评论Q′(s,a):智能体会根据最新的评论参数值定时更新目标评论;
Q(s,a)和Q′(s,a)二者具有相同的结构和参数化,并且μ(s)和μ′(s)二者具有相同的结构和参数化,训练完成后,将训练好的最佳策略存储在操作μ(s)中;
步骤2.2:智能体创建:创建智能体具体操作步骤包括:
a)创建一个操作表示对象;
b)创建评论表示对象;
c)指定智能体选项;
d)函数创建智能体;
步骤3:创建智能体后,可进行智能体训练;该智能体使用以下训练算法,在每个时间步长更新操作和评论模型;
用随机参数值θQ初始化评论Q(s,a),并使用相同的随机参数值θQ′=θQ初始化目标评论;
用随机参数值θμ初始化操作μ(s),并用相同的参数值θμ′=θμ初始化目标操作;
对于每个训练时间步长:
1.对于当前观测值s,选择操作a=μ(s)+n,其中n是来自噪声模型的随机噪声;
2.执行动作a,观察奖励r和下一个观察s′;
3.将经验(s,a,r,s′)存储在经验缓冲区中;
4.从经验缓冲区中随机抽取M个小批量的经验(si,ai,ri,s′i);
5.如果s′i是终端状态,则将价值函数目标yi设置为r,否则将其设置为:
Figure BDA0002556928640000061
其中,γ为折扣系数,价值函数目标是经验奖励ri和评论网络对应未来奖励折扣的最小值二者之和,智能体首先通过将下一个观察结果s′i从采样的经验传递到目标操作来计算下一个动作;然后,智能体添加噪声ε到已经计算的动作,并且将动作以噪声的上下限进行分割;智能体通过将下一个动作传递给目标评论来找到累积奖励;
6.通过最小化所有采样经验中的损失L更新评论参数;
Figure BDA0002556928640000062
7.使用以下样本策略梯度更新操作参数,以最大化预期权值奖励;
Figure BDA0002556928640000063
其中
Figure BDA0002556928640000064
其中a=μ(siμ),Gai为最小评论输出对应由操作网络计算动作的梯度,而Gμi是操作输出对应操作参数的梯度,两个梯度均由观测值si估计;
9.根据目标更新方法更新目标操作和评论;智能体使用目标平滑化,并在每个时间步长更新目标操作和评论;
步骤4:根据控制参数确定机器人的控制策略进行步态的控制,利用Matlab进行仿真;仿真结果在10s内连续向前行走到终点,选取其中的一次稳定控制仿真实验,具体是指双足机器人在整个步行任务中并未出现跌倒的情况发生且保持姿态稳定,各关节的力矩在(-3,3)N·m范围内周期变化。
作为优选,智能体使用目标平滑化,并在每个时间步长更新目标操作和评论具体是指:在每一个时间步长均会利用平滑因子t更新目标,对应的评论和操作参数分别为
Figure BDA0002556928640000071
θμ′=tθμ+(1-t)θμ′
本发明有益效果:本发明的将深度强化学习引入仿人双足机器人步态控制,利用改进的DQN方法进行训练,能够尽可能地确保训练的网络快速收敛,同时可以增强仿人双足机器人控制器的稳定性和鲁棒性。对于机器人所处环境的变化,只需要重新进行学习即可适应巨大差异化的环境变化。
附图说明
图1为仿人双足机器人步态控制结构框图;
图2为双足机器人连杆模型;
图3为改进DQN算法的网络结构框图;
图4为双足机器人步态控制的运动关键帧;
图5双足机器人关节力矩曲线。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,本发明的一种仿人机器人步态规划的深度强化学习新方法,包括建立仿人双足机器人模型、预训练控制参数和双足机器人步行运动。
其中,仿人双足机器人模型是采用一种简化的6自由度连杆模型,足部采用平面足底结构形式;预训练控制参数是利用一种改进的DQN(Deep-Q-Network)网络结构的深度强化学***台预训练基于基于改进DQN的深度强化学习网络,在此过程中通常采用经验回放机制和目标Q值网络这两种方法来确保基于改进DQN的深度强化学习网络在训练过程中能更好地收敛;然后是采用策略梯度算法,保证能够在连续的动作空间根据所学习到的策略(动作分布)随机筛选动作;最后是针对策略梯度算法不让其随机选择,只输出一个动作值。对于随机性策略,Σπ(a|s)=1策略输出的是动作的概率,使用正态分布对动作进行采样选择,即每个动作都有概率可能选到。该策略优点是将探索和改进集成到一个策略中,而其缺点是需要大量训练数据。确定性策略,π(s)S→A策略输出即是动作。该策略的优点是需要采样的数据少,算法效率高,而其缺点是无法探索环境。然而,因为引用了DQN算法的结构利用离线策略采样,从而解决了无法探索环境的问题。
操作-评论的算法会根据近似评论的价值估算来更新策略。DDPG算法使用确定性策略梯度作为更新策略,而该更新会导致价值估计中的过高估计。尽管每次更新时这种高估可能都是最小的,但是估计误差的出现引起了两个问题。首先,如果不加以控制,高估可能会在许多更新上形成更大的偏差。其次,不正确的价值估算可能会导致策略更新不佳。由于一个反馈循环的出现,次优操作可能会高度评价本身,使得在下一次策略更新中进一步恶化次优操作而不能达到最优化。在减少高估偏差方面已经提出了几种方法,但它们在行为评论环境中无效。本发明在双Q学习方法基础上给出一种新的修正算法,该方法可以在操作-评论算法中优化评论部分,结合针对DDPG网络结构改进后的总体网络结构如图3所示。进一步,本发明提出的基于改进的DQN算法的深度强化学习仿人机器人步态规划的新方法具体步骤如下:
步骤1:
鉴于研究步态控制问题,故本发明采用一种简化的双足机器人连杆模型如图2所示进行说明。它是利用三维建模软件SolidWorks2018绘制,训练前将该CAD模型导入到Matlab2019a内。由图可知,双足机器人整体结构可以简化为如下几个部分:包括腰部,大腿、小腿及双足(足步采用类似于平足的方式),连杆的尺寸的单位为m。选择的材料分为两种,腰部、大腿、小腿选用泡沫塑料(密度为0.5g/cm3),足部选用工程塑料(密度为1.0g/cm3)。双足步行机器人建模需要保证整个双足机器人的重心保持在腰部的中心,这种保持平衡的方式在拟人学上与人类行走方式相似。双足机器人模型的运动主要包括6个关节,即髋关节、膝关节和踝关节,它们均可以看作为旋转关节,各种关节变量的作用范围分别为[-pi/4,pi/4],[0.1,pi],[-pi/4,pi/4]。在模型建立后,确定合适的接触刚度、阻尼、静摩擦、动摩擦等仿真参数。
步骤2:
为了实现双足机器人稳定步态控制,需要使用改进的DQN算法进行智能体训练。该改进算法是一种无模型的、在线的、非策略性强化学习方法。对应的智能体是一种深度确定性策略梯度的智能体,它也是一种行为-评论强化学习智能体,可计算最大化长期奖励的最佳策略。该算法关键参数如表1所示。
表1改进DQN算法关键参数
Figure BDA0002556928640000101
具体包含以下关键步骤:
步骤2.1:
操作与评论函数
为了估计策略和价值函数,智能体维护4个函数近似器:
操作μ(s):操作进行观察s并输出相应的动作,以最大化长期奖励。
目标操作μ′(s):为提高优化的稳定性,智能体会根据最新的操作参数值定期更新目标操作。
双Q值评论Q(s,a):评论将观察值s和操作a分别作为输入和对长期奖励相应期望的输出。
双目标评论Q′(s,a):为了提高优化的稳定性,智能体会根据最新的评论参数值定时更新目标评论。
Q(s,a)和Q′(s,a)二者具有相同的结构和参数化,并且μ(s)和μ′(s)二者具有相同的结构和参数化。训练完成后,将训练好的最佳策略存储在操作μ(s)中。
步骤2.2:
智能体创建
创建智能体具体操作步骤包括:
a)创建一个操作表示对象。
b)创建评论表示对象。
c)指定智能体选项。
d)函数创建智能体。
步骤3:
创建智能体后,可进行智能体训练。该智能体使用以下训练算法,它们在每个时间步长更新操作和评论模型。
用随机参数值θQ初始化评论Q(s,a),并使用相同的随机参数值θQ′=θQ初始化目标评论。
用随机参数值θμ初始化操作μ(s),并用相同的参数值θμ′=θμ初始化目标操作。
对于每个训练时间步长:
1.对于当前观测值s,选择操作a=μ(s)+n,其中n是来自噪声模型的随机噪声。
2.执行动作a。观察奖励r和下一个观察s′。
3.将经验(s,a,r,s′)存储在经验缓冲区中。
4.从经验缓冲区中随机抽取M个小批量的经验(si,ai,ri,s′i)。
5.如果s′i是终端状态,则将价值函数目标yi设置为r。否则将其设置为:
Figure BDA0002556928640000121
其中,γ为折扣系数。价值函数目标是经验奖励ri和评论网络对应未来奖励折扣的最小值二者之和。为了计算累积奖励,智能体首先通过将下一个观察结果s′i从采样的经验传递到目标操作来计算下一个动作。然后,智能体添加噪声ε到已经计算的动作,并且将动作以噪声的上下限进行分割。智能体通过将下一个动作传递给目标评论来找到累积奖励。
6.通过最小化所有采样经验中的损失L更新评论参数。
Figure BDA0002556928640000122
7.使用以下样本策略梯度更新操作参数,以最大化预期权值奖励。
Figure BDA0002556928640000123
其中
Figure BDA0002556928640000124
其中a=μ(siμ),Gai为最小评论输出对应由操作网络计算动作的梯度,而Gμi是操作输出对应操作参数的梯度。两个梯度均由观测值si估计。
8.根据目标更新方法(平滑或定期)更新目标操作和评论。智能体使用目标平滑化,并在每个时间步长更新目标操作和评论。为简单起见,此算法中的操作和评论的更新使用基本随机梯度下降的更新方式。在每一个时间步长均会利用平滑因子t更新目标,对应的评论和操作参数分别为
Figure BDA0002556928640000131
θμ′=tθμ+(1-t)θμ′
步骤4:
根据控制参数确定机器人的控制策略进行步态的控制,利用Matlab2019进行仿真。仿真结果表明在10s内连续向前行走到终点(约5米)整个过程均非常稳定基本未出现跌倒情况。选取其中的一次稳定控制仿真实验,其运动关键帧如图4所示。由图可知,双足机器人在整个步行任务中并未出现跌倒的情况发生且保持姿态稳定,该稳定性也可从后续的力矩图像的曲线得到验证。由关节力矩的图像如图5所示,由曲线可知各关节的力矩在(-3,3)N·m范围内周期变化,稳定的力矩输出能够保证双足机器人在步行中的稳定性。
以上为本发明较佳的实施方式,本发明所属领域的技术人员还能够对上述实施方式进行变更和修改,因此,本发明并不局限于上述的具体实施方式,凡是本领域技术人员在本发明的基础上所作的任何显而易见的改进、替换或变型均属于本发明的保护范围。

Claims (7)

1.一种仿人机器人步态规划的深度强化学习新方法,其特征在于:包括建立仿人双足机器人模型、预训练控制参数和双足机器人步行运动;
其中,仿人双足机器人模型采用简化的6自由度连杆模型,足部采用平面足底结构;
预训练控制参数采用改进的DQN网络结构的深度强化学习进行控制器的训练;
双足机器人步行运动是指通过训练的控制器实现稳定性。
2.根据权利要求1所述的仿人机器人步态规划的深度强化学***台预训练基于改进DQN的深度强化学习网络,
在此过程中采用经验回放机制和目标Q值网络,来确保基于改进DQN的深度强化学习网络在训练过程中收敛;采用策略梯度算法,实现在连续的动作空间根据所学习到的策略随机筛选动作;再针对策略梯度算法不让其随机选择,只输出一个动作值。
3.根据权利要求2所述的仿人机器人步态规划的深度强化学习新方法,其特征在于:对于策略随机筛选,∑π(a|s)=1策略输出的是动作的概率,使用正态分布对动作进行采样选择,即每个动作都有概率可能选到。
4.根据权利要求2所述的仿人机器人步态规划的深度强化学习新方法,其特征在于:只输出一个动作值,具体是指确定性策略,π(s)S→A策略输出即是动作。
5.根据权利要求2所述的仿人机器人步态规划的深度强化学习新方法,其特征在于:DDPG算法使用确定性策略梯度作为更新策略,并在减少高估偏差提本新的修正算法,在操作-评论算法中优化评论部分,结合针对DDPG网络结构改进后的总体网络结构。
6.根据权利要求5所述的仿人机器人步态规划的深度强化学习新方法,其特征在于:基于改进的DQN算法的深度强化学习仿人机器人步态规划的新方法具体步骤如下:预训练控制参数采用改进的DQN网络结构的深度强化学习具体包括如下步骤:
步骤1:利用三维建模软件绘制,训练前将该模型导入到Matlab内,包括腰部,大腿、小腿及双足,连杆的尺寸的单位为m;腰部、大腿、小腿选用泡沫塑料,密度为0.5g/cm3,足部选用工程塑料,密度为1.0g/cm3,并保证整个双足机器人的重心保持在腰部的中心,并建立6个关节,即髋关节、膝关节和踝关节作为旋转关节,各种关节变量的作用范围分别为[-pi/4,pi/4],[0.1,pi],[-pi/4,pi/4];在模型建立后,确定接触刚度、阻尼、静摩擦和动摩擦作为仿真参数;
步骤2:使用改进的DQN算法进行智能体训练,具体包含以下关键步骤:
步骤2.1:操作与评论函数;估计策略和价值函数,智能体维护4个函数近似器:
操作μ(s):操作进行观察s并输出相应的动作,以最大化长期奖励;
目标操作μ′(s):智能体会根据最新的操作参数值定期更新目标操作;
双Q值评论Q(s,a):评论将观察值s和操作a分别作为输入和对长期奖励相应期望的输出;
双目标评论Q′(s,a):智能体会根据最新的评论参数值定时更新目标评论;
Q(s,a)和Q′(s,a)二者具有相同的结构和参数化,并且μ(s)和μ′(s)二者具有相同的结构和参数化,训练完成后,将训练好的最佳策略存储在操作μ(s)中;
步骤2.2:智能体创建:创建智能体具体操作步骤包括:
a)创建一个操作表示对象;
b)创建评论表示对象;
c)指定智能体选项;
d)函数创建智能体;
步骤3:创建智能体后,可进行智能体训练;该智能体使用以下训练算法,在每个时间步长更新操作和评论模型;
用随机参数值θQ初始化评论Q(s,a),并使用相同的随机参数值θQ′=θQ初始化目标评论;
用随机参数值θμ初始化操作μ(s),并用相同的参数值θμ′=θμ初始化目标操作;
对于每个训练时间步长:
1.对于当前观测值s,选择操作a=μ(s)+n,其中n是来自噪声模型的随机噪声;
2.执行动作a,观察奖励r和下一个观察s′;
3.将经验(s,a,r,s′)存储在经验缓冲区中;
4.从经验缓冲区中随机抽取M个小批量的经验(si,ai,ri,s′i);
5.如果s′i是终端状态,则将价值函数目标yi设置为r,否则将其设置为:
Figure FDA0002556928630000041
其中,γ为折扣系数,价值函数目标是经验奖励ri和评论网络对应未来奖励折扣的最小值二者之和,智能体首先通过将下一个观察结果s′i从采样的经验传递到目标操作来计算下一个动作;然后,智能体添加噪声ε到已经计算的动作,并且将动作以噪声的上下限进行分割;智能体通过将下一个动作传递给目标评论来找到累积奖励;
6.通过最小化所有采样经验中的损失L更新评论参数;
Figure FDA0002556928630000042
7.使用以下样本策略梯度更新操作参数,以最大化预期权值奖励;
Figure FDA0002556928630000043
其中
Figure FDA0002556928630000044
其中a=μ(siμ),Gai为最小评论输出对应由操作网络计算动作的梯度,而Gμi是操作输出对应操作参数的梯度,两个梯度均由观测值si估计;
8.根据目标更新方法更新目标操作和评论;智能体使用目标平滑化,并在每个时间步长更新目标操作和评论;
步骤4:根据控制参数确定机器人的控制策略进行步态的控制,利用Matlab进行仿真;仿真结果在10s内连续向前行走到终点,选取其中的一次稳定控制仿真实验,具体是指双足机器人在整个步行任务中并未出现跌倒的情况发生且保持姿态稳定,各关节的力矩在(-3,3)N·m范围内周期变化。
7.根据权利要求6所述的仿人机器人步态规划的深度强化学***滑化,并在每个时间步长更新目标操作和评论具体是指:在每一个时间步长均会利用平滑因子t更新目标,对应的评论和操作参数分别为
Figure FDA0002556928630000051
θμ′=tθμ+(1-t)θμ′
CN202010594439.7A 2020-06-28 2020-06-28 一种仿人机器人步态规划的深度强化学习新方法 Withdrawn CN111546349A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010594439.7A CN111546349A (zh) 2020-06-28 2020-06-28 一种仿人机器人步态规划的深度强化学习新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010594439.7A CN111546349A (zh) 2020-06-28 2020-06-28 一种仿人机器人步态规划的深度强化学习新方法

Publications (1)

Publication Number Publication Date
CN111546349A true CN111546349A (zh) 2020-08-18

Family

ID=71999365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010594439.7A Withdrawn CN111546349A (zh) 2020-06-28 2020-06-28 一种仿人机器人步态规划的深度强化学习新方法

Country Status (1)

Country Link
CN (1) CN111546349A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257345A (zh) * 2020-10-28 2021-01-22 中国人民解放军战略支援部队航天工程大学 一种作战仿真模型的构建方法及装置
CN112338921A (zh) * 2020-11-16 2021-02-09 西华师范大学 一种基于深度强化学习的机械臂智能控制快速训练方法
CN112472530A (zh) * 2020-12-01 2021-03-12 天津理工大学 一种基于步行比趋势变化的奖励函数建立方法
CN113467235A (zh) * 2021-06-10 2021-10-01 清华大学 双足机器人步态控制方法、控制装置
CN114684293A (zh) * 2020-12-28 2022-07-01 成都启源西普科技有限公司 一种机器人行走仿真算法
CN116604571A (zh) * 2023-07-14 2023-08-18 湖南大学 一种基于深度强化学习的机器人三维测量路径规划方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257345A (zh) * 2020-10-28 2021-01-22 中国人民解放军战略支援部队航天工程大学 一种作战仿真模型的构建方法及装置
CN112338921A (zh) * 2020-11-16 2021-02-09 西华师范大学 一种基于深度强化学习的机械臂智能控制快速训练方法
CN112472530A (zh) * 2020-12-01 2021-03-12 天津理工大学 一种基于步行比趋势变化的奖励函数建立方法
CN114684293A (zh) * 2020-12-28 2022-07-01 成都启源西普科技有限公司 一种机器人行走仿真算法
CN113467235A (zh) * 2021-06-10 2021-10-01 清华大学 双足机器人步态控制方法、控制装置
CN113467235B (zh) * 2021-06-10 2022-09-02 清华大学 双足机器人步态控制方法、控制装置
CN116604571A (zh) * 2023-07-14 2023-08-18 湖南大学 一种基于深度强化学习的机器人三维测量路径规划方法
CN116604571B (zh) * 2023-07-14 2023-10-27 湖南大学 一种基于深度强化学习的机器人三维测量路径规划方法

Similar Documents

Publication Publication Date Title
CN111546349A (zh) 一种仿人机器人步态规划的深度强化学习新方法
CN111730595A (zh) 一种斜坡条件下双足机器人步态稳定控制方法
Amarjyoti Deep reinforcement learning for robotic manipulation-the state of the art
JP5836565B2 (ja) モーションキャプチャデータを模倣するロボットの追跡及びバランス維持システム及び方法
Shahbazi et al. Unified modeling and control of walking and running on the spring-loaded inverted pendulum
Boussema et al. Online gait transitions and disturbance recovery for legged robots via the feasible impulse set
CN108572553A (zh) 一种四足机器人的运动闭环控制方法
CN114047697B (zh) 一种基于深度强化学***衡倒立摆控制方法
CN114995479A (zh) 一种基于强化学习的四足机器人虚拟模型控制器的参数控制方法
JP2005288594A (ja) 2足歩行移動装置
CN114397810A (zh) 基于自适应虚拟模型控制的四足机器人运动控制方法
CN114609918B (zh) 一种四足机器人运动控制方法、***、存储介质及设备
CN116627041A (zh) 一种基于深度学习的四足机器人运动的控制方法
Seo et al. Learning to walk by steering: Perceptive quadrupedal locomotion in dynamic environments
Jeon et al. Benchmarking potential based rewards for learning humanoid locomotion
Savin Neural network-based reaction estimator for walking robots
Ji et al. Reinforcement learning for collaborative quadrupedal manipulation of a payload over challenging terrain
JP4630553B2 (ja) 動的制御装置および動的制御装置を用いた2足歩行移動体
CN114393579A (zh) 一种基于自适应模糊虚拟模型的机器人控制方法及装置
Jiang et al. Motion sequence learning for robot walking based on pose optimization
Wawrzyński Autonomous reinforcement learning with experience replay for humanoid gait optimization
Ramadoss State estimation for human motion and humanoid locomotion
Kouchaki et al. Balance control of a humanoid robot using deepreinforcement learning
Canaday et al. Interactive, iterative robot design
CN112782973A (zh) 基于双智能体协作博弈的双足机器人行走控制方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200818

WW01 Invention patent application withdrawn after publication