CN110861084B - 一种基于深度强化学习的四足机器人跌倒自复位控制方法 - Google Patents

一种基于深度强化学习的四足机器人跌倒自复位控制方法 Download PDF

Info

Publication number
CN110861084B
CN110861084B CN201911128299.8A CN201911128299A CN110861084B CN 110861084 B CN110861084 B CN 110861084B CN 201911128299 A CN201911128299 A CN 201911128299A CN 110861084 B CN110861084 B CN 110861084B
Authority
CN
China
Prior art keywords
robot
joint
layer
output
falling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911128299.8A
Other languages
English (en)
Other versions
CN110861084A (zh
Inventor
宋光明
何淼
韦中
宋爱国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201911128299.8A priority Critical patent/CN110861084B/zh
Publication of CN110861084A publication Critical patent/CN110861084A/zh
Application granted granted Critical
Publication of CN110861084B publication Critical patent/CN110861084B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B62LAND VEHICLES FOR TRAVELLING OTHERWISE THAN ON RAILS
    • B62DMOTOR VEHICLES; TRAILERS
    • B62D57/00Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track
    • B62D57/02Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track with ground-engaging propulsion means, e.g. walking members
    • B62D57/032Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track with ground-engaging propulsion means, e.g. walking members with alternately or sequentially lifted supporting base and legs; with alternately or sequentially lifted feet or skid

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Transportation (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提出一种基于深度强化学***地上实现自主复位,无需预先编程,无需人为干预,提升了机器人的智能性、灵活性和环境适应性。

Description

一种基于深度强化学习的四足机器人跌倒自复位控制方法
技术领域
本发明属于机器学习和机器人控制技术领域,尤其涉及一种基于深度强化学习的四足机器人跌倒自复位控制方法。
背景技术
腿式机器人作为机器人领域的重要分支,可在地震、核辐射及火灾等未知复杂恶劣环境中代替人类进行探索和作业,具有广阔的应用前景。纵观自然界,大型陆生动物大多为四足动物,无论在峭壁、丘陵、草原还是沙漠总能见到四足动物的身影,这充分表明了自然选择对四足移动方式的认可。四足机器人以四足动物为仿生对象,具有像四足动物那样灵活运动的潜在能力,是一种有广阔应用前景的移动机器人。
近些年来,四足机器人在步态规划、越障等方面取得了明显的进步,但是实现像四足动物一样自主运动还有较大差距,其中就包括四足机器人跌倒后快速灵活的实现自复位功能;现有的控制方法大多是基于模型特定于任务的,几乎每次操作都需要从头开始开发。
发明内容
本发明提出的基于深度强化学习的四足机器人跌倒自复位控制方法使得四足机器人在不需要人为帮助的前提下实现自主复位;并且通过简单更换神经网络参数的配置,便会根据需求自主高效执行不同的任务,大大缩短了开发周期。
本发明提出的一种基于深度深度强化学习的四足机器人跌倒自复位控制方法,包括建立四足机器人模型,构建并学习执行器网络,训练控制策略,底层***执行四个步骤,具体内容如下:
步骤1,建立四足机器人模型:确定机器人各项物理参数;实现跌倒自复位功能的重点在于各腿之间以及每条腿各关节之间的相互配合;
步骤2,搭建深度强化学习框架并学习执行器网络:通过自监督学习在***上学习执行器网络,将其用于四足机器人的12个关节的仿真建模中;
步骤3,训练控制器:利用步骤1、步骤2产生的模型对一个简单的参数化控制器进行训练,以正弦波的形式生成足部轨迹,利用坐标变换法确立各关节坐标系和质心坐标系,通过逆运动学计算复位过程中相应的关节位置;
步骤4,底层***执行:随机设定机器人跌倒初始位置和姿态,将步骤3训练完成的神经网络输出作为机器人12个关节的执行动作,确定各个关节运动方案从而驱动关节运动,完成跌倒自复位任务。
本发明的进一步改进在于:步骤2具体包括以下步骤:
2.1:状态是提供给控制器的机器人状态测量值。状态空间S描述为9维向量空间,包括
Figure GDA0003482180360000021
分别表示:
Figure GDA0003482180360000022
——IMU(Inertial measurement unit惯性测量单元)惯性测量单元测得的机器人方向矢量;
rz——机器人基础高度;v——基础线速度;w——基础角速度;
Figure GDA0003482180360000031
——关节位置;φ——关节速度;θ——关节历史状态的稀疏样本;ak-1——机器人前一个动作;C——常数;
2.2:动作是提供给执行器的命令;动作空间A描述为二维离散向量空间,
Figure GDA0003482180360000032
分别表示关节位置和关节速度;
奖励的指定是为了诱导机器人产生理想行为;设奖励函数π,奖励折扣总和后的最大值所对应的策略即机器人根据策略指令选择执行的动作。
奖励函数为:
Figure GDA0003482180360000033
其中,γ∈(0,1)为折扣因子,τ(π)是奖励函数π下的轨迹分布。
2.2:构建一个评判机器人跌倒自复位收益的深度神经网络N,具体步骤:
构建一个评判机器人跌倒自复位收益的MLP(Multi-Layer Perceptron)四层神经网络N,分别为:一层输入层Li,两层隐藏层Lh,一层输出层Lo;输入层输入项为机器人的在广义坐标q和广义速度v下的历史状态。
输出层Lo的输出项包含两个维度,分别表示机器人各关节扭矩的速度估计偏差S和位置估计偏差P;其中速度估计偏差S即当前机器人关节扭矩的实际速度与目标速度之间的偏差,位置估计偏差P即当前机器人关节扭矩的实际位置与目标位置的偏差,机器人每条腿假设有3个自由度、共有3*4个关节扭矩,则输出层的输出为一个2*12的矩阵;
设置深度神经网络N的激活函数:
设置深度神经网络N的输入层激活函数为Relu函数:
f1(x)=max(0,x)
输出层激活函数为:
Figure GDA0003482180360000041
输入层为向量X,隐藏层1层的输出是:
f(w1+b1)
隐藏层2层的输出是:
f(w2+b2)
则最终输出层输出为:
f2(x)=f(b2+w2(t(b1+w1x)));
其中函数f是tanh函数:
Figure GDA0003482180360000042
w是权重,b是偏差。
本发明的进一步改进在于:步骤4具体包括以下步骤:
4.1随机设定机器人跌倒初始位置和姿态。
4.2深度神经网络N输出机器人12个关节的执行动作。
4.3假设机器人完全遵循关节扭矩速度命令和关节扭矩位置命令,模拟输出位置轨迹。
4.4判断关节动作是否超出可用空间范围。若是,则拒绝采样并将位置重置到上一位置,重新对输出命令取样;若不是,则执行该动作。
4.5判断机器人是否恢复初始正常状态。若不是,则重新根据采样命令执行输出命令;若是,则机器人完成跌倒自复位任务。
本发明与现有技术相比,具有如下有益效果:
本发明将深度深度强化学习应用于四足机器人跌倒自复位功能,避免了人为参与时复杂的手动调节过程;自主复位减少了任务完成的时间、灵活性高;通过机器人不断学习积累,在未训练的未知环境和不同跌落状态下也可以顺利完成任务。
附图说明
图1是本发明的方法流程图;
图2是本发明的髋部坐标系示意图;
图3是本发明的大腿、小腿坐标系示意图;
图4是本发明的跌倒复位过程示意图;
图5是本发明的神经网络结构图;
图6是本发明的整体控制策略示意图;
具体实施方式
如图1所示,本实施例提出的一种基于深度深度强化学习的四足机器人跌倒自复位控制方法,包括建立四足机器人模型,构建并学习执行器网络,训练控制策略,底层***执行四个步骤,
具体内容如下:
步骤1,建立四足机器人模型,确定机器人各项物理参数;实现跌倒自复位功能的重点在于各腿之间以及每条腿各关节之间的相互配合,四足机器人各项物理参数包括机器人髋、大腿和小腿的长度,运动参数包括各关节的自由度,并限制各关节可用空间位置以符合实际生物运动情况。本发明所提到的四足机器人在每条腿上拥有髋、大腿、小腿三个关节即三个自由度。
步骤2,搭建深度深度强化学习框架,通过自监督学习在***上学习执行器网络,将其用于四足机器人的12个关节的仿真建模中。2.1:状态是提供给控制器的机器人状态测量值。状态空间S描述为9维向量空间,包括
Figure GDA0003482180360000061
分别表示:IMU(Inertial measurement unit惯性测量单元)测得的机器人方向矢量;
Figure GDA0003482180360000062
——IMU惯性测量单元测得的机器人方向矢量;
rz——机器人基础高度;v——基础线速度;w——基础角速度;
Figure GDA0003482180360000063
——关节位置;φ——关节速度;θ——关节历史状态的稀疏样本;ak-1——机器人前一个动作;C——常数;
2.2:动作是提供给执行器的命令;动作空间A描述为二维离散向量空间,
Figure GDA0003482180360000064
分别表示关节位置和关节速度;
奖励的指定是为了诱导机器人产生理想行为;设奖励函数π,奖励折扣总和后的最大值所对应的策略即机器人根据策略指令选择执行的动作。
奖励函数为:
Figure GDA0003482180360000071
其中,γ∈(0,1)为折扣因子,τ(π)是奖励函数π下的轨迹分布。
2.2构建一个评判机器人跌倒自复位收益的深度神经网络N,具体步骤:
构建一个评判机器人跌倒自复位收益的MLP(Multi-Layer Perceptron)四层神经网络N,分别为:一层输入层Li,两层隐藏层Lh,一层输出层Lo;输入层输入项为机器人的在广义坐标q和广义速度v下的历史状态。
输出层Lo的输出项包含两个维度,分别表示机器人各关节扭矩的速度估计偏差S和位置估计偏差P,机器人每条腿假设有3个自由度、共有3*4个关节扭矩,则输出层的输出为一个2*12的矩阵。
2.3设置深度神经网络N的激活函数:
设置深度神经网络N的输入层激活函数为Relu函数:f1(x)=max(0,x)
,输出层激活函数为
Figure GDA0003482180360000072
输入层为向量X,隐藏层1层的输出是:f(w1+b1),隐藏层2层的输出:是:f(w2+b2),
则最终输出层输出为f2(x)=f(b2+w2(t(b1+w1x)));
。其中函数f是tanh函数:
Figure GDA0003482180360000073
w是权重,b是偏差。
步骤3,利用步骤1、步骤2产生的模型对一个简单的参数化控制器进行训练,以正弦波的形式生成足部轨迹,利用坐标变换法确立各关节坐标系和质心坐标系,通过逆运动学计算复位过程中相应的关节位置,坐标系建立如图2、图3所示。
步骤4,底层***执行阶段,随机设定机器人跌倒初始位置和姿态,将步骤3训练完成的深度神经网络输出作为机器人12个关节的执行动作,确定各个关节运动方案从而驱动关节运动,完成跌倒自复位任务。
所述步骤4具体包括以下步骤:
4.1随机设定机器人跌倒初始位置和姿态。
4.2深度神经网络N输出机器人12个关节的执行动作。
4.3假设机器人完全遵循关节扭矩速度命令和关节扭矩位置命令,模拟输出位置轨迹。
4.4判断关节动作是否超出可用空间范围。若是,则拒绝采样并将位置重置到上一位置,重新对输出命令取样;若不是,则执行该动作,如图4过程所示。
4.5判断机器人是否恢复初始正常状态。若不是,则重新根据采样命令执行输出命令;若是,则机器人完成跌倒自复位任务,最终复位完成状态如图5所示。

Claims (3)

1.一种基于深度强化学习的四足机器人跌倒自复位控制方法,其特征在于,包括以下步骤:
步骤1,建立四足机器人模型:确定机器人各项物理参数;实现跌倒自复位功能的重点在于各腿之间以及每条腿各关节之间的相互配合;
步骤2,搭建深度强化学习框架并学习执行器网络:通过自监督学习在***上学习执行器网络,将其用于四足机器人的12个关节的仿真建模中;
步骤2中搭建深度强化学习框架具体步骤为:
2.1:状态是提供给控制器的机器人状态测量值;状态空间S描述为9维向量空间,包括
Figure FDA0003482180350000011
其中:
Figure FDA0003482180350000012
——IMU惯性测量单元测得的机器人方向矢量;
rz——机器人基础高度;v——基础线速度;w——基础角速度;
Figure FDA0003482180350000013
——关节位置;φ——关节速度;θ——关节历史状态的稀疏样本;ak-1——机器人前一个动作;C——常数;
2.2:动作是提供给执行器的命令;动作空间A描述为二维离散向量空间,
Figure FDA0003482180350000014
分别表示关节位置和关节速度;
2.3:奖励的指定是为了诱导机器人产生理想行为;设奖励函数π,奖励折扣总和后的最大值所对应的策略;即机器人根据策略指令选择执行的动作;
奖励函数为:
Figure FDA0003482180350000021
其中,γ∈(0,1)为折扣因子,τ(π)是奖励函数π下的轨迹分布;
步骤2中学习执行器网络具体步骤为:
2.4:构建一个评判机器人跌倒自复位收益的MLP四层神经网络N,分别为:一层输入层Li,两层隐藏层Lh,一层输出层Lo;输入层输入项为机器人的在广义坐标q和广义速度v下的历史状态;
输出层Lo的输出项包含两个维度,分别表示机器人各关节扭矩的速度估计偏差S和位置估计偏差P;其中速度估计偏差S为当前机器人关节扭矩的实际速度与目标速度之间的偏差,位置估计偏差P为当前机器人关节扭矩的实际位置与目标位置的偏差,机器人每条腿假设有3个自由度、共有3*4个关节扭矩,则输出层的输出为一个2*12的矩阵;
2.5:设置神经网络N的激活函数:
设置神经网络N的输入层激活函数为Relu函数:
f1(x)=max(0,x)
输出层激活函数为
Figure FDA0003482180350000022
输入层为向量X,隐藏层1层的输出为:
f(w1+b1)
隐藏层2层的输出为:
f(w2+b2)
则最终输出层输出为:
f2(x)=f(b2+w2(t(b1+w1x)));
其中函数f是tanh函数:
Figure FDA0003482180350000031
w是权重,b是偏差;
步骤3,训练控制器:利用步骤1、步骤2产生的模型对一个简单的参数化控制器进行训练,以正弦波的形式生成足部轨迹,利用坐标变换法确立各关节坐标系和质心坐标系,通过逆运动学计算复位过程中相应的关节位置;
步骤4,底层***执行:随机设定机器人跌倒初始位置和姿态,将步骤3训练完成的神经网络输出作为机器人12个关节的执行动作,确定各个关节运动方案从而驱动关节运动,完成跌倒自复位任务。
2.根据权利要求1所述的基于深度强化学习的四足机器人跌倒自复位控制方法,其特征在于,所述步骤1中四足机器人在每条腿上拥有髋、大腿、小腿三个关节即三个自由度;四足机器人各项物理参数包括机器人髋、大腿和小腿的长度,运动参数包括各关节的自由度,并限制各关节可用空间位置以符合实际生物运动情况。
3.根据权利要求1所述的基于深度强化学习的四足机器人跌倒自复位控制方法,其特征在于,步骤4中底层***执行的具体步骤为:
4.1:随机设定机器人跌倒初始位置和姿态;
4.2:四层神经网络N输出机器人12个关节的执行动作;
4.3:假设机器人完全遵循关节扭矩速度命令和关节扭矩位置命令,模拟输出位置轨迹;
4.4:判断关节动作是否超出可用空间范围,若是,则拒绝采样并将位置重置到上一位置,重新对输出命令取样;若不是,则执行该动作;
4.5:判断机器人是否恢复初始正常状态;若不是,则重新根据采样命令执行输出命令;若是,则机器人完成跌倒自复位任务。
CN201911128299.8A 2019-11-18 2019-11-18 一种基于深度强化学习的四足机器人跌倒自复位控制方法 Active CN110861084B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911128299.8A CN110861084B (zh) 2019-11-18 2019-11-18 一种基于深度强化学习的四足机器人跌倒自复位控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911128299.8A CN110861084B (zh) 2019-11-18 2019-11-18 一种基于深度强化学习的四足机器人跌倒自复位控制方法

Publications (2)

Publication Number Publication Date
CN110861084A CN110861084A (zh) 2020-03-06
CN110861084B true CN110861084B (zh) 2022-04-05

Family

ID=69654912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911128299.8A Active CN110861084B (zh) 2019-11-18 2019-11-18 一种基于深度强化学习的四足机器人跌倒自复位控制方法

Country Status (1)

Country Link
CN (1) CN110861084B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111409073A (zh) * 2020-04-02 2020-07-14 深圳国信泰富科技有限公司 一种高智能机器人的摔倒自恢复方法及***
CN111506100B (zh) * 2020-06-15 2020-10-02 深圳市优必选科技股份有限公司 多足机器人关节控制方法、装置和多足机器人
CN112405568A (zh) * 2020-10-20 2021-02-26 同济大学 一种仿人机器人跌倒预测方法
CN112859904A (zh) * 2021-01-25 2021-05-28 乐聚(深圳)机器人技术有限公司 机器人站立姿态的恢复方法、装置、设备及存储介质
CN113110459A (zh) * 2021-04-20 2021-07-13 上海交通大学 一种多足机器人运动规划方法
CN113478486B (zh) * 2021-07-12 2022-05-17 上海微电机研究所(中国电子科技集团公司第二十一研究所) 基于深度强化学习的机器人运动参数自适应控制方法和***
CN115407790B (zh) * 2022-08-16 2024-04-26 中国北方车辆研究所 一种基于深度学习的四足机器人侧向速度估算方法
TWI811156B (zh) * 2022-11-16 2023-08-01 英業達股份有限公司 機器人的運動步態的過渡方法
CN116898583B (zh) * 2023-06-21 2024-04-26 北京长木谷医疗科技股份有限公司 基于深度学习的骨科手术机器人智能磨锉控制方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1297805A (zh) * 1999-11-24 2001-06-06 索尼公司 有腿可动的机器人及其控制操纵的方法
US6330494B1 (en) * 1998-06-09 2001-12-11 Sony Corporation Robot and method of its attitude control
CN1518488A (zh) * 2002-03-15 2004-08-04 ���ṫ˾ 有腿移动式机器人的动作控制装置和动作控制方法以及机器人装置
CN102372042A (zh) * 2011-09-07 2012-03-14 广东工业大学 一种双足机器人的运动规划***
CN106886155A (zh) * 2017-04-28 2017-06-23 齐鲁工业大学 一种基于pso‑pd神经网络的四足机器人运动轨迹控制方法
CN107450555A (zh) * 2017-08-30 2017-12-08 唐开强 一种基于深度强化学习的六足机器人实时步态规划方法
CN108983804A (zh) * 2018-08-27 2018-12-11 燕山大学 一种基于深度强化学习的双足机器人步态规划方法
CN109483530A (zh) * 2018-10-18 2019-03-19 北京控制工程研究所 一种基于深度强化学习的足式机器人运动控制方法及***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6330494B1 (en) * 1998-06-09 2001-12-11 Sony Corporation Robot and method of its attitude control
CN1297805A (zh) * 1999-11-24 2001-06-06 索尼公司 有腿可动的机器人及其控制操纵的方法
CN1518488A (zh) * 2002-03-15 2004-08-04 ���ṫ˾ 有腿移动式机器人的动作控制装置和动作控制方法以及机器人装置
CN102372042A (zh) * 2011-09-07 2012-03-14 广东工业大学 一种双足机器人的运动规划***
CN106886155A (zh) * 2017-04-28 2017-06-23 齐鲁工业大学 一种基于pso‑pd神经网络的四足机器人运动轨迹控制方法
CN107450555A (zh) * 2017-08-30 2017-12-08 唐开强 一种基于深度强化学习的六足机器人实时步态规划方法
CN108983804A (zh) * 2018-08-27 2018-12-11 燕山大学 一种基于深度强化学习的双足机器人步态规划方法
CN109483530A (zh) * 2018-10-18 2019-03-19 北京控制工程研究所 一种基于深度强化学习的足式机器人运动控制方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种弹跳机器人姿态调节中离散和连续运动建模与实验研究;杨茜等;《机器人》;20160315(第02期);全文 *

Also Published As

Publication number Publication date
CN110861084A (zh) 2020-03-06

Similar Documents

Publication Publication Date Title
CN110861084B (zh) 一种基于深度强化学习的四足机器人跌倒自复位控制方法
Billard Learning motor skills by imitation: a biologically inspired robotic model
Vukobratovic When were active exoskeletons actually born?
Atmeh et al. Implementation of an adaptive, model free, learning controller on the Atlas robot
Pérez-Higueras et al. Hunavsim: A ros 2 human navigation simulator for benchmarking human-aware robot navigation
Tang et al. Humanmimic: Learning natural locomotion and transitions for humanoid robot via wasserstein adversarial imitation
Atmeh et al. A neuro-dynamic walking engine for humanoid robots
Li et al. Learning agile bipedal motions on a quadrupedal robot
Rokbani et al. Prototyping a biped robot using an educational robotics kit
Ammar et al. Learning to walk using a recurrent neural network with time delay
Wei et al. Learning Gait-conditioned Bipedal Locomotion with Motor Adaptation
Li et al. Agile and versatile bipedal robot tracking control through reinforcement learning
Jiang et al. Motion sequence learning for robot walking based on pose optimization
Fachantidis et al. Model-based reinforcement learning for humanoids: A study on forming rewards with the iCub platform
Belter et al. Evolving feasible gaits for a hexapod robot by reducing the space of possible solutions
Steinhauser Habitat-Lab Quadruped Embodied AI Research
He et al. Learning Visual Quadrupedal Loco-Manipulation from Demonstrations
Shafii et al. Two humanoid simulators: Comparison and synthesis
Vollaro et al. Application of Block-Based Programming to the Selected Open-Source Quadrupedal Platform for Improving Robotics Training
Yang et al. Bio-control of a modular design robot—NOROS
Mortazi et al. Using embodiment theory to train a set of actuators with different expertise to accomplish a duty: An application to train a quadruped robot for walking
Macedo et al. Toward a flexible framework for learning: F3L
Li et al. Experience-Learning Inspired Two-Step Reward Method for Efficient Legged Locomotion Learning Towards Natural and Robust Gaits
Liu et al. A Reinforcement Learning Toolkit for Quadruped Robots With Pybullet
Amirshirzad et al. Context based echo state networks for robot movement primitives

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant