CN108549237A - 基于深度增强学习的预观控制仿人机器人步态规划方法 - Google Patents

基于深度增强学习的预观控制仿人机器人步态规划方法 Download PDF

Info

Publication number
CN108549237A
CN108549237A CN201810465382.3A CN201810465382A CN108549237A CN 108549237 A CN108549237 A CN 108549237A CN 201810465382 A CN201810465382 A CN 201810465382A CN 108549237 A CN108549237 A CN 108549237A
Authority
CN
China
Prior art keywords
output
walking
robot
moment
preview
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810465382.3A
Other languages
English (en)
Other versions
CN108549237B (zh
Inventor
毕盛
刘云达
董敏
张英杰
闵华清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201810465382.3A priority Critical patent/CN108549237B/zh
Publication of CN108549237A publication Critical patent/CN108549237A/zh
Application granted granted Critical
Publication of CN108549237B publication Critical patent/CN108549237B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种基于深度增强学***台和实体机器人上进行了测试,验证了此方法的有效性。

Description

基于深度增强学习的预观控制仿人机器人步态规划方法
技术领域
本发明涉及仿人机器人的技术领域,尤其是指一种基于深度增强学习的预观控制仿人机器人步态规划方法。
背景技术
仿人机器人的一项基本功能是稳定行走。然而,由于仿人机器人的组成结构的复杂性,耦合关系强、模块独立性差等特点,使得仿人机器人的稳定行走的功能比较难实现。因此,仿人机器人的步态控制和规划问题也成为了目前相关领域的研究热点。传统的步态控制方法可以大致分为两类:基于现代控制理论的方法和基于步行机制的方法。然而这些方法大多比较陈旧,不适用于目前愈发复杂的模型机制。而最近各类机器学***。
深度强化学习方法在复杂的控制问题上已经被证明是行之有效的。通过学习的方式,解决了***的设计者对***动力学认识不足的问题,这些方法可能会给出超越设计者知识领域的完善的解决方案。同时,这样的方法有着持续学习和改进的能力,不断地学习和适应复杂的环境。
发明内容
本发明主要研究仿人机器人在复杂地面环境行走时的步态规划功能,针对已有的控制理论不能有效解决复杂环境下行走的问题,提出了一种基于深度增强学***台和实体机器人上进行了测试,验证了此方法的有效性。
为实现上述目的,本发明所提供的技术方案为:基于深度增强学习的预观控制仿人机器人步态规划方法,包括以下步骤:
1)通过装配在仿人机器人上的传感器获取状态信息;
2)改进现有的深度强化学习网络,定义全新的状态、动作向量和奖励函数;
3)使用定义的动作向量对预观控制器的输出进行修正,计算出仿人机器人双腿各舵机的角度,指导仿人机器人行走;
4)在仿人机器人行走过程中,用状态、动作向量、奖励函数的值更新改进的深度强化学习网络。
在步骤1)中,通过装配在仿人机器人上的传感器获取状态信息,仿人机器人行走时的稳定程度主要受支撑脚上俯仰方向的舵机影响,因此在所定义的状态信息中,应该提供支撑脚信息以及支撑脚上俯仰舵机的角度信息,此外,还需要加速度和角速度的值,来判断仿人机器人行走过程的稳定情况,然后再对离线步态做出实时调整,以便能够适应不平整的地形环境;
[α,ω,θlhiprhiplanklerankle]
其中,α表示仿人机器人的在x轴和y轴方向上的加速度平方和的平方根;ω表示仿人机器人的在x轴和y轴方向上的角速度平方和的平方根;θlhiprhiplanklerankle表示仿人机器人左右腿髋关节和踝关节俯仰方向上舵机的角度。
在步骤2)中,改进的深度强化学习网络采用深度确定性策略梯度法DDPG,具体如下:
2.1)深度强化学习相关变量的定义
借助深度强化学习的方法,对预观控制器的控制输出进行补偿,要使用深度强化学习,首先需要定义相关的变量,包括状态向量、动作向量、奖励函数;
预观控制器控制的输出为二维向量,分别对应质心x轴方向和y轴方向坐标的输出值,因此深度强化学习网络的动作定义为:
其中,Δμx和Δμy分别对应预观控制器每个维度输出的改变量;
考虑到对仿人机器人行走的期望,希望仿人机器人能够在越走越远的情况下保持稳定,定义奖励函数为:
其中,如果仿人机器人能够顺利走到终点,回报值为50;如果仿人机器人在行走的过程中摔倒,则回报值为-50;若是其它情况,则要参考机器人当前的状态;
加速度的平方和rα(t)的定义为:
其中,αx(x)和αy(t)分别代表t时刻仿人机器人在x轴方向上和y轴方向上的加速度的值;
角速度的平方和rω(t)的定义为:
其中,ωx(x)和ωy(t)分别代表t时刻仿人机器人在x轴方向上和y轴方向上的角速度的值;
x_dis代表仿人机器行走的距离;
2.2)深度强化学习网络的构建
在实现DDPG的时候,需要分别搭建Actor网络和Critic网络用来训练,Critic网络的作用是参数化行为价值函数;Actor网络的作用是按照Critic网络得到的价值引导策略函数的更新,Critic网络的具体结构为:
输入层:s(t)表示Q学习中Q函数在t时刻输入的状态,共9维;
隐藏层:隐藏层为2层,其中第一层有402个节点,包括2个代表动作的节点;第二层为300个节点;每个神经元的激活函数为线性整流激活函数,使用以下公式计算其输出:
yi(t)=max(t,0),i=1,2,…n
代表了第i个神经元的输出yi(t)取0和t中的较大值;
输出层:Q(t)代表策略函数的输出值,共1维;
Actor网络的具体结构为:
输入层:s(t)表示Q学习中Q函数在t时刻输入的状态,共9维;
隐藏层:隐藏层为2层,其中第一层有400个节点,第二层为300个节点;每个神经元的激活函数为线性整流激活函数,使用以下公式计算其输出:
yi(t)=max(t,0),i=1,2,…n
代表了第i个神经元的输出yi(t)取0和t中的较大值;
输出层:a(t)代表输出的动作值,共2维;
使用BP算法及梯度下降法,对Critic和Actor网络进行更新,对于每个神经元的输出权重wi,有如下更新公式:
其中,wi为第i个权重,为学习率,E为两个网络的学习性能指标;
在步骤3)中,利用改进的深度强化学习网络对预观控制器输出的修正量进行修正,在修正后的预观控制器的基础上,计算出仿人机器人双腿各个舵机的角度,指导机器人行走;其中,传统的预观控制器的理论重点就是利用未来的信息进行控制,未来信息指未来Np步以内的目标ZMP参考值,设当前时间点为k,那么未来Np步以内的双脚位姿通过三维步行模式计算得到,进而获得Np步以内的目标ZMP参考值:ZMP* k+1,…,ZMP* k+Np;然后把这些未来目标ZMP参考值储存于FIFO缓冲器中,其输出值作为当前的参考值,预观控制器用FIFO缓冲器中的ZMP参考值和仿人机器人的状态计算控制输出,控制输出的公式为:
其中,uk为k时刻控制器输出;c,Ks,Kx为控制器系数;为k时刻的仿人机器人质心坐标,[ZMP* k+1,…,ZMP* k+Np]T为k+1时刻到k+Np的参考ZMP;
通过深度增强学习的网络训练出预观控制输出值的修正量;
u′k=uk+Δuk
得到控制输入后,计算出k+1时刻的质心坐标;
利用k+1时刻的质心坐标(xk+1,yk+1),这就能够得到k+1时刻的质心位姿和左右脚位姿:
其中,Gcobpresent,Glpresent和Grpresent为k+1时刻质心,左脚和右脚的位姿;最后再根据逆运动学原理,对仿人机器人双腿的舵机角度进行计算,得到k+1时刻的双腿各个关节舵机角度,以此来知道仿人机器人行走。
本发明与现有技术相比,具有如下优点与有益效果:
1、本方法在已有预观控制理论的基础上,采用了深度强化学习的思路,加快了收敛速度。
2、本方法简单易行,能够在线控制仿人机器人的步行运动,适时调整机器人的步态,帮助仿人机器人在不平整的地面上实现稳定行走,具有一定的现实意义和应用价值。
附图说明
图1为Critic网络结构图。
图2为Actor网络结构图。
图3为预观控制流程图。
图4为基于深度强化学习的预观控制流程图。
图5为行走实验效果图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例所提供的基于深度增强学习的预观控制仿人机器人步态规划方法,其具体情况如下:
1)仿人机器人状态的获取
通过装配在仿人机器人上的传感器获取状态信息。仿人机器人行走时的稳定程度主要受支撑脚上俯仰方向的舵机影响,因此在所定义的状态信息中,应该提供支撑脚信息以及支撑脚上俯仰舵机的角度信息。此外,还需要加速度和角速度的值,来判断仿人机器人行走过程的稳定情况。然后再对离线步态做出实时调整,以便能够适应不平整的地形环境。
[α,ω,θlhiprhiplanklerankle]
其中,α表示仿人机器人的在x轴和y轴方向上的加速度平方和的平方根;ω表示仿人机器人的在x轴和y轴方向上的角速度平方和的平方根;θlhiprhiplanklerankle表示仿人机器人左右腿髋关节和踝关节俯仰方向上舵机的角度。
2.1)深度强化学习相关变量的定义
基于预观控制器的步行模式生成方法不能保证那些难以用这种简单模型描述的运动的稳定性。复杂的运动,例如上半身姿态的大幅晃动,手臂摆动,导致了ZMP的参考值和实际值有较大的出入。因此,需要借助深度强化学习的方法,对预观控制器的控制输出进行补偿。本实施例所采用的深度强化学习方法为深度确定性策略梯度的方法(DDPG)。该方法的优势是可以输出连续的结果,在复杂场景下的表现要比同类结果更好。
要使用深度强化学习,首先需要定义相关的变量,包括状态向量、动作向量、奖励函数。状态的描述已经在上面步骤1)中进行描述,因此不再赘述。
预观控制器控制的输出为二维向量,分别对应质心x轴方向和y轴方向坐标的输出值。因此深度强化学习网络的动作定义为:
其中,Δμx和Δμy分别对应预观控制器每个维度输出的改变量。
考虑到对仿人机器人行走的期望,我们希望仿人机器人能够在越走越远的情况下保持稳定,定义奖励函数为:
其中,如果仿人机器人能够顺利走到终点,回报值为50;如果仿人机器人在行走的过程中摔倒,则回报值为-50;若是其他情况,则要参考机器人当前的状态。
加速度的平方和rα(t)的定义为:
其中,αx(x)和αy(t)分别代表了t时刻仿人机器人在x轴方向上和y轴方向上的加速度的值。
角速度的平方和rω(t)的定义为
其中,ωx(x)和ωy(t)分别代表了t时刻仿人机器人在x轴方向上和y轴方向上的角速度的值。
x_dis代表仿人机器行走的距离。
2.2)深度强化学习网络的构建
在实现DDPG的时候,需要分别搭建Actor网络和Critic网络用来训练。Critic网络的作用是参数化行为价值函数;Actor网络的作用是按照Critic网络得到的价值引导策略函数的更新。如图1所示,Critic网络的具体结构为:
输入层:s(t)表示Q学习中Q函数在t时刻输入的状态,共9维;
隐藏层:隐藏层为2层,其中第一层有402个节点,其中包括2个代表动作的节点;第二层为300个节点。每个神经元的激活函数为线性整流激活函数,使用以下公式计算其输出:
yi(t)=max(t,0),i=1,2,…n
代表了第i个神经元的输出yi(t)取0和t中的较大值。
输出层:Q(t)代表策略函数的输出值,共1维。
如图2所示,Actor网络的具体结构为:
输入层:s(t)表示Q学习中Q函数在t时刻输入的状态,共9维;
隐藏层:隐藏层为2层,其中第一层有400个节点,,第二层为300个节点。每个神经元的激活函数为线性整流激活函数,使用以下公式计算其输出:
yi(t)=max(t,0),i=1,2,…n
代表了第i个神经元的输出yi(t)取0和t中的较大值。
输出层:a(t)代表输出的动作值,共2维。
使用BP算法及梯度下降法,对Critic和Actor网络进行更新,对于每个神经元的输出权重wi,有如下更新公式:
其中,wi为第i个权重,为学习率,E为两个网络的学习性能指标。
3),利用改进的深度强化学习网络对预观控制器输出的修正量进行修正,在修正后的预观控制器的基础上,计算出仿人机器人双腿各个舵机的角度,指导机器人行走。
传统的预观控制器的理论重点就是利用未来的信息进行控制。具体到本实施例中,未来信息指未来Np步以内的目标ZMP参考值。设当前时间点为k,那么未来Np步以内的目标ZMP参考值(ZMP* k+1,…,ZMP* k+Np)。然后把这些未来目标ZMP参考值储存于FIFO(先进先出)缓冲器中,其输出值作为当前的参考值。预观控制器用FIFO缓冲器中的ZMP参考值和仿人机器人的状态计算控制输出。控制输出的公式为:
其中,uk为k时刻控制器输出,c,Ks,Kx为控制器系数,为k时刻的仿人机器人质心坐标,[ZMP* k+1,…,ZMP* k+Np]T为k+1时刻到k+Np的参考ZMP。
通过深度增强学习的网络训练出预观控制输出值的修正量u'k
u′k=uk+Δuk
得到控制输入后,可以计算出k+1时刻的质心坐标。
利用k+1时刻的质心坐标(xk+1,yk+1)。这就可以得到k+1时刻的质心位姿和左右脚位姿
其中Gcobpresent,Glpresent和Grpresent为k+1时刻质心,左脚和右脚的位姿。然后再根据逆运动学原理,对仿人机器人双腿的舵机角度进行计算,得到k+1时刻的双腿各个关节舵机角度,以此来知道仿人机器人行走,具体流程参见图3所示。
在仿人机器人步行过程中,对于每一个对预观控制器的输出(ux,uy),计算得到当前状态,使用深度强化学习DDPG学习一组对于输出的修正量,更新深度强化学习的网络。同时利用预观控制器的输出,计算仿人机器人的行走姿态。综上所述,算法步骤如下,具体见图4所示:
①初始化深度强化学习DDPG框架和预观控制器;
②根据传感器信息得到当前状态,使用深度强化学习DDPG计算得到一组关于预观控制器的修正量;
③把预观控制器的输出量加到预观控制器的输出上,并根据输出值,结合逆运动学原理,指导仿人机器人的行走;
④获取当前***立即回报值,更新深度强化学习框架;
⑤判断仿人机器人当前状态,如果仿人机器人摔倒或者走到目标地,则结束循环;否则跳转至步骤②。
其中,仿人机器人的实验行走效果请参见图5所示。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (4)

1.基于深度增强学习的预观控制仿人机器人步态规划方法,其特征在于,包括以下步骤:
1)通过装配在仿人机器人上的传感器获取状态信息;
2)改进现有的深度强化学习网络,定义全新的状态、动作向量和奖励函数;
3)使用定义的动作向量对预观控制器的输出进行修正,计算出仿人机器人双腿各舵机的角度,指导仿人机器人行走;
4)在仿人机器人行走过程中,用状态、动作向量、奖励函数的值更新改进的深度强化学习网络。
2.根据权利要求1所述的基于深度增强学***整的地形环境;
[α,ω,θlhiprhiplanklerankle]
其中,α表示仿人机器人的在x轴和y轴方向上的加速度平方和的平方根;ω表示仿人机器人的在x轴和y轴方向上的角速度平方和的平方根;θlhiprhiplanklerankle表示仿人机器人左右腿髋关节和踝关节俯仰方向上舵机的角度。
3.根据权利要求1所述的基于深度增强学习的预观控制仿人机器人步态规划方法,其特征在于:在步骤2)中,改进的深度强化学习网络采用深度确定性策略梯度法DDPG,具体如下:
2.1)深度强化学习相关变量的定义
借助深度强化学习的方法,对预观控制器的控制输出进行补偿,要使用深度强化学习,首先需要定义相关的变量,包括状态向量、动作向量、奖励函数;
预观控制器控制的输出为二维向量,分别对应质心x轴方向和y轴方向坐标的输出值,因此深度强化学习网络的动作定义为:
其中,Δμx和Δμy分别对应预观控制器每个维度输出的改变量;
考虑到对仿人机器人行走的期望,希望仿人机器人能够在越走越远的情况下保持稳定,定义奖励函数为:
其中,如果仿人机器人能够顺利走到终点,回报值为50;如果仿人机器人在行走的过程中摔倒,则回报值为-50;若是其它情况,则要参考机器人当前的状态;
加速度的平方和的平方根rα(t)的定义为:
其中,αx(x)和αy(t)分别代表t时刻仿人机器人在x轴方向上和y轴方向上的加速度的值;
角速度平方和的平方根rω(t)的定义为:
其中,ωx(x)和ωy(t)分别代表t时刻仿人机器人在x轴方向上和y轴方向上的角速度的值;
x_dis代表仿人机器行走的距离;
2.2)深度强化学习网络的构建
在实现DDPG的时候,需要分别搭建Actor网络和Critic网络用来训练,Critic网络的作用是参数化行为价值函数;Actor网络的作用是按照Critic网络得到的价值引导策略函数的更新,Critic网络的具体结构为:
输入层:s(t)表示Q学习中Q函数在t时刻输入的状态,共9维;
隐藏层:隐藏层为2层,其中第一层有402个节点,包括2个代表动作的节点;第二层为300个节点;每个神经元的激活函数为线性整流激活函数,使用以下公式计算其输出:
yi(t)=max(t,0),i=1,2,…n
代表了第i个神经元的输出yi(t)取0和t中的较大值;
输出层:Q(t)代表策略函数的输出值,共1维;
Actor网络的具体结构为:
输入层:s(t)表示Q学习中Q函数在t时刻输入的状态,共9维;
隐藏层:隐藏层为2层,其中第一层有400个节点,第二层为300个节点;每个神经元的激活函数为线性整流激活函数,使用以下公式计算其输出:
yi(t)=max(t,0),i=1,2,…n
代表了第i个神经元的输出yi(t)取0和t中的较大值;
输出层:a(t)代表输出的动作值,共2维;
使用BP算法及梯度下降法,对Critic和Actor网络进行更新,对于每个神经元的输出权重wi,有如下更新公式:
其中,wi为第i个权重,为学习率,E为两个网络的学习性能指标。
4.根据权利要求1所述的基于深度增强学习的预观控制仿人机器人步态规划方法,其特征在于:在步骤3)中,利用改进的深度强化学习网络对预观控制器输出的修正量进行修正,在修正后的预观控制器的基础上,计算出仿人机器人双腿各个舵机的角度,指导机器人行走;其中,传统的预观控制器的理论重点就是利用未来的信息进行控制,未来信息指未来Np步以内的目标ZMP参考值,设当前时间点为k,那么未来Np步以内的双脚位姿通过三维步行模式计算得到,进而获得Np步以内的目标ZMP参考值:ZMP* k+1,…,ZMP* k+Np;然后把这些未来目标ZMP参考值储存于FIFO缓冲器中,其输出值作为当前的参考值,预观控制器用FIFO缓冲器中的ZMP参考值和仿人机器人的状态计算控制输出,控制输出的公式为:
其中,uk为k时刻控制器输出;c,Ks,Kx为控制器系数;为k时刻的仿人机器人质心坐标,[ZMP* k+1,…,ZMP* k+Np]T为k+1时刻到k+Np的参考ZMP;
通过深度增强学习的网络训练出预观控制输出值的修正量;
u′k=uk+Δuk
得到控制输入后,计算出k+1时刻的质心坐标;
利用k+1时刻的质心坐标(xk+1,yk+1),这就能够得到k+1时刻的质心位姿和左右脚位姿:
其中,Gcobpresent,Glpresent和Grpresent为k+1时刻质心,左脚和右脚的位姿;最后再根据逆运动学原理,对仿人机器人双腿的舵机角度进行计算,得到k+1时刻的双腿各个关节舵机角度,以此来知道仿人机器人行走。
CN201810465382.3A 2018-05-16 2018-05-16 基于深度增强学习的预观控制仿人机器人步态规划方法 Expired - Fee Related CN108549237B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810465382.3A CN108549237B (zh) 2018-05-16 2018-05-16 基于深度增强学习的预观控制仿人机器人步态规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810465382.3A CN108549237B (zh) 2018-05-16 2018-05-16 基于深度增强学习的预观控制仿人机器人步态规划方法

Publications (2)

Publication Number Publication Date
CN108549237A true CN108549237A (zh) 2018-09-18
CN108549237B CN108549237B (zh) 2020-04-28

Family

ID=63495020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810465382.3A Expired - Fee Related CN108549237B (zh) 2018-05-16 2018-05-16 基于深度增强学习的预观控制仿人机器人步态规划方法

Country Status (1)

Country Link
CN (1) CN108549237B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109483530A (zh) * 2018-10-18 2019-03-19 北京控制工程研究所 一种基于深度强化学习的足式机器人运动控制方法及***
CN109709967A (zh) * 2019-01-22 2019-05-03 深圳市幻尔科技有限公司 机器人低运算要求的动态步态的实现方法
CN109719721A (zh) * 2018-12-26 2019-05-07 北京化工大学 一种仿蛇搜救机器人适应性步态自主涌现方法
CN109871892A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种基于小样本度量学习的机器人视觉认知***
CN110238839A (zh) * 2019-04-11 2019-09-17 清华大学 一种利用环境预测优化非模型机器人多轴孔装配控制方法
CN110308727A (zh) * 2019-07-12 2019-10-08 沈阳城市学院 一种消除双足机器人上身姿态晃动的控制方法
CN110496377A (zh) * 2019-08-19 2019-11-26 华南理工大学 一种基于强化学习的虚拟乒乓球手击球训练方法
CN110562301A (zh) * 2019-08-16 2019-12-13 北京交通大学 基于q学习的地铁列车节能驾驶曲线计算方法
CN110764415A (zh) * 2019-10-31 2020-02-07 清华大学深圳国际研究生院 一种四足机器人腿部运动的步态规划方法
CN110764416A (zh) * 2019-11-11 2020-02-07 河海大学 基于深度q网络的仿人机器人步态优化控制方法
CN110909859A (zh) * 2019-11-29 2020-03-24 中国科学院自动化研究所 基于对抗结构化控制的仿生机器鱼运动控制方法、***
CN111027143A (zh) * 2019-12-18 2020-04-17 四川大学 一种基于深度强化学习的舰载机进近引导方法
CN111142378A (zh) * 2020-01-07 2020-05-12 四川省桑瑞光辉标识***股份有限公司 一种双足机器人神经网络控制器的神经网络优化方法
CN111191399A (zh) * 2019-12-24 2020-05-22 北京航空航天大学 机器鱼的控制方法、装置、设备及存储介质
CN111360834A (zh) * 2020-03-25 2020-07-03 中南大学 一种基于深度强化学习的仿人机器人运动控制方法及***
CN112162554A (zh) * 2020-09-23 2021-01-01 吉林大学 面向n3类清扫车的数据存储与回溯平台
CN112666939A (zh) * 2020-12-09 2021-04-16 深圳先进技术研究院 一种基于深度强化学习的机器人路径规划算法
CN112782973A (zh) * 2019-11-07 2021-05-11 四川省桑瑞光辉标识***股份有限公司 基于双智能体协作博弈的双足机器人行走控制方法和***
CN113031528A (zh) * 2021-02-25 2021-06-25 电子科技大学 一种基于深度确定性策略梯度的多足机器人运动控制方法
CN113156892A (zh) * 2021-04-16 2021-07-23 西湖大学 一种基于深度强化学习的四足机器人模仿运动控制方法
CN113627584A (zh) * 2020-05-08 2021-11-09 南京大学 一种基于神经网络的机械臂逆运动学求解方法、电子设备及存储介质
CN117062280A (zh) * 2023-08-17 2023-11-14 北京美中爱瑞肿瘤医院有限责任公司 一种神经外科自助式手术灯自动跟随***
CN117565023A (zh) * 2022-12-30 2024-02-20 爱布(上海)人工智能科技有限公司 一种掌握步行意图的肌肉运动感知***及其实现方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1393866A1 (en) * 2001-06-07 2004-03-03 Japan Science and Technology Corporation Apparatus walking with two legs; walking control apparatus; and walking control method thereof
CN104217107A (zh) * 2014-08-27 2014-12-17 华南理工大学 一种基于多传感器信息仿人机器人跌倒状态检测方法
CN106094817A (zh) * 2016-06-14 2016-11-09 华南理工大学 基于大数据方式的强化学习仿人机器人步态规划方法
CN106584460A (zh) * 2016-12-16 2017-04-26 浙江大学 一种仿人机器人行走中的振动抑制方法
CN106842925A (zh) * 2017-01-20 2017-06-13 清华大学 一种基于深度强化学习的机车智能操纵方法与***
CN107944476A (zh) * 2017-11-10 2018-04-20 大连理工大学 一种基于深度强化学习的黄桃挖核机器人行为控制方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1393866A1 (en) * 2001-06-07 2004-03-03 Japan Science and Technology Corporation Apparatus walking with two legs; walking control apparatus; and walking control method thereof
CN104217107A (zh) * 2014-08-27 2014-12-17 华南理工大学 一种基于多传感器信息仿人机器人跌倒状态检测方法
CN106094817A (zh) * 2016-06-14 2016-11-09 华南理工大学 基于大数据方式的强化学习仿人机器人步态规划方法
CN106584460A (zh) * 2016-12-16 2017-04-26 浙江大学 一种仿人机器人行走中的振动抑制方法
CN106842925A (zh) * 2017-01-20 2017-06-13 清华大学 一种基于深度强化学习的机车智能操纵方法与***
CN107944476A (zh) * 2017-11-10 2018-04-20 大连理工大学 一种基于深度强化学习的黄桃挖核机器人行为控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马琼雄等: "基于深度强化学习的水下机器人最优轨迹控制", 《华南师范大学学报(自然科学版)》 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109483530A (zh) * 2018-10-18 2019-03-19 北京控制工程研究所 一种基于深度强化学习的足式机器人运动控制方法及***
CN109719721B (zh) * 2018-12-26 2020-07-24 北京化工大学 一种仿蛇搜救机器人适应性步态自主涌现方法
CN109719721A (zh) * 2018-12-26 2019-05-07 北京化工大学 一种仿蛇搜救机器人适应性步态自主涌现方法
CN109709967A (zh) * 2019-01-22 2019-05-03 深圳市幻尔科技有限公司 机器人低运算要求的动态步态的实现方法
CN109871892A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种基于小样本度量学习的机器人视觉认知***
CN110238839A (zh) * 2019-04-11 2019-09-17 清华大学 一种利用环境预测优化非模型机器人多轴孔装配控制方法
CN110238839B (zh) * 2019-04-11 2020-10-20 清华大学 一种利用环境预测优化非模型机器人多轴孔装配控制方法
CN110308727A (zh) * 2019-07-12 2019-10-08 沈阳城市学院 一种消除双足机器人上身姿态晃动的控制方法
CN110562301A (zh) * 2019-08-16 2019-12-13 北京交通大学 基于q学习的地铁列车节能驾驶曲线计算方法
CN110496377A (zh) * 2019-08-19 2019-11-26 华南理工大学 一种基于强化学习的虚拟乒乓球手击球训练方法
CN110496377B (zh) * 2019-08-19 2020-07-28 华南理工大学 一种基于强化学习的虚拟乒乓球手击球训练方法
CN110764415A (zh) * 2019-10-31 2020-02-07 清华大学深圳国际研究生院 一种四足机器人腿部运动的步态规划方法
CN110764415B (zh) * 2019-10-31 2022-04-15 清华大学深圳国际研究生院 一种四足机器人腿部运动的步态规划方法
CN112782973A (zh) * 2019-11-07 2021-05-11 四川省桑瑞光辉标识***股份有限公司 基于双智能体协作博弈的双足机器人行走控制方法和***
CN110764416A (zh) * 2019-11-11 2020-02-07 河海大学 基于深度q网络的仿人机器人步态优化控制方法
CN110909859A (zh) * 2019-11-29 2020-03-24 中国科学院自动化研究所 基于对抗结构化控制的仿生机器鱼运动控制方法、***
CN111027143A (zh) * 2019-12-18 2020-04-17 四川大学 一种基于深度强化学习的舰载机进近引导方法
CN111191399A (zh) * 2019-12-24 2020-05-22 北京航空航天大学 机器鱼的控制方法、装置、设备及存储介质
CN111191399B (zh) * 2019-12-24 2021-11-05 北京航空航天大学 机器鱼的控制方法、装置、设备及存储介质
CN111142378A (zh) * 2020-01-07 2020-05-12 四川省桑瑞光辉标识***股份有限公司 一种双足机器人神经网络控制器的神经网络优化方法
CN111360834A (zh) * 2020-03-25 2020-07-03 中南大学 一种基于深度强化学习的仿人机器人运动控制方法及***
CN113627584B (zh) * 2020-05-08 2024-04-12 南京大学 一种基于神经网络的机械臂逆运动学求解方法、电子设备及存储介质
CN113627584A (zh) * 2020-05-08 2021-11-09 南京大学 一种基于神经网络的机械臂逆运动学求解方法、电子设备及存储介质
CN112162554B (zh) * 2020-09-23 2021-10-01 吉林大学 面向n3类清扫车的数据存储与回溯平台
CN112162554A (zh) * 2020-09-23 2021-01-01 吉林大学 面向n3类清扫车的数据存储与回溯平台
CN112666939A (zh) * 2020-12-09 2021-04-16 深圳先进技术研究院 一种基于深度强化学习的机器人路径规划算法
CN112666939B (zh) * 2020-12-09 2021-09-10 深圳先进技术研究院 一种基于深度强化学习的机器人路径规划算法
CN113031528B (zh) * 2021-02-25 2022-03-15 电子科技大学 一种基于深度确定性策略梯度的多足机器人非结构性地面运动控制方法
CN113031528A (zh) * 2021-02-25 2021-06-25 电子科技大学 一种基于深度确定性策略梯度的多足机器人运动控制方法
CN113156892A (zh) * 2021-04-16 2021-07-23 西湖大学 一种基于深度强化学习的四足机器人模仿运动控制方法
CN117565023A (zh) * 2022-12-30 2024-02-20 爱布(上海)人工智能科技有限公司 一种掌握步行意图的肌肉运动感知***及其实现方法
CN117565023B (zh) * 2022-12-30 2024-05-17 爱布(上海)人工智能科技有限公司 一种掌握步行意图的肌肉运动感知***及其实现方法
CN117062280A (zh) * 2023-08-17 2023-11-14 北京美中爱瑞肿瘤医院有限责任公司 一种神经外科自助式手术灯自动跟随***
CN117062280B (zh) * 2023-08-17 2024-03-08 北京美中爱瑞肿瘤医院有限责任公司 一种神经外科自助式手术灯自动跟随***

Also Published As

Publication number Publication date
CN108549237B (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN108549237A (zh) 基于深度增强学习的预观控制仿人机器人步态规划方法
CN109483530B (zh) 一种基于深度强化学习的足式机器人运动控制方法及***
Miura et al. Human-like walking with toe supporting for humanoids
CN109991979B (zh) 一种面向复杂环境的下肢机器人拟人步态规划方法
Yi et al. Online learning of a full body push recovery controller for omnidirectional walking
US8428780B2 (en) External force target generating device of legged mobile robot
US8442680B2 (en) Motion state evaluation apparatus of legged mobile robot
CN109760761B (zh) 一种基于生物仿生原理和直觉的四足机器人运动控制方法
CN104898672B (zh) 一种仿人机器人行走轨迹的优化控制方法
US8396593B2 (en) Gait generating device of legged mobile robot
CN108897220B (zh) 一种自适应稳定平衡控制方法和***以及双足仿人机器人
CN106094817B (zh) 基于大数据方式的强化学习仿人机器人步态规划方法
JP6781101B2 (ja) 非線形システムの制御方法、二足歩行ロボットの制御装置、二足歩行ロボットの制御方法及びそのプログラム
CN106019950A (zh) 一种手机卫星自适应姿态控制方法
CN114397810A (zh) 基于自适应虚拟模型控制的四足机器人运动控制方法
US20110213498A1 (en) Desired motion evaluation apparatus of legged mobile robot
CN103750927A (zh) 下肢假肢膝关节自适应迭代学习控制方法
CN113568422B (zh) 基于模型预测控制优化强化学习的四足机器人控制方法
Dong et al. On-line gait adjustment for humanoid robot robust walking based on divergence component of motion
CN104793621B (zh) 一种模仿肌肉粘弹特性的仿人机器人行走稳定控制方法
CN116859969A (zh) 一种足式机器人的扰动抑制与稳定控制方法及装置
CN109857146B (zh) 一种基于前馈和权值分配的分层无人机跟踪控制方法
CN116237943A (zh) 一种结合地形约束的四足机器人控制方法
Xie et al. Online whole-stage gait planning method for biped robots based on improved Variable Spring-Loaded Inverted Pendulum with Finite-sized Foot (VSLIP-FF) model
Kim et al. A model predictive capture point control framework for robust humanoid balancing via ankle, hip, and stepping strategies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200428

CF01 Termination of patent right due to non-payment of annual fee