CN108549237A

CN108549237A - 基于深度增强学习的预观控制仿人机器人步态规划方法

Info

Publication number: CN108549237A
Application number: CN201810465382.3A
Authority: CN
Inventors: 毕盛; 刘云达; 董敏; 张英杰; 闵华清
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-05-16
Filing date: 2018-05-16
Publication date: 2018-09-18
Anticipated expiration: 2038-05-16
Also published as: CN108549237B

Abstract

本发明公开了一种基于深度增强学***台和实体机器人上进行了测试，验证了此方法的有效性。

Description

基于深度增强学习的预观控制仿人机器人步态规划方法

技术领域

本发明涉及仿人机器人的技术领域，尤其是指一种基于深度增强学习的预观控制仿人机器人步态规划方法。

背景技术

仿人机器人的一项基本功能是稳定行走。然而，由于仿人机器人的组成结构的复杂性，耦合关系强、模块独立性差等特点，使得仿人机器人的稳定行走的功能比较难实现。因此，仿人机器人的步态控制和规划问题也成为了目前相关领域的研究热点。传统的步态控制方法可以大致分为两类：基于现代控制理论的方法和基于步行机制的方法。然而这些方法大多比较陈旧，不适用于目前愈发复杂的模型机制。而最近各类机器学***。

深度强化学习方法在复杂的控制问题上已经被证明是行之有效的。通过学习的方式，解决了***的设计者对***动力学认识不足的问题，这些方法可能会给出超越设计者知识领域的完善的解决方案。同时，这样的方法有着持续学习和改进的能力，不断地学习和适应复杂的环境。

发明内容

本发明主要研究仿人机器人在复杂地面环境行走时的步态规划功能，针对已有的控制理论不能有效解决复杂环境下行走的问题，提出了一种基于深度增强学***台和实体机器人上进行了测试，验证了此方法的有效性。

为实现上述目的，本发明所提供的技术方案为：基于深度增强学习的预观控制仿人机器人步态规划方法，包括以下步骤：

1)通过装配在仿人机器人上的传感器获取状态信息；

2)改进现有的深度强化学习网络，定义全新的状态、动作向量和奖励函数；

3)使用定义的动作向量对预观控制器的输出进行修正，计算出仿人机器人双腿各舵机的角度，指导仿人机器人行走；

4)在仿人机器人行走过程中，用状态、动作向量、奖励函数的值更新改进的深度强化学习网络。

在步骤1)中，通过装配在仿人机器人上的传感器获取状态信息，仿人机器人行走时的稳定程度主要受支撑脚上俯仰方向的舵机影响，因此在所定义的状态信息中，应该提供支撑脚信息以及支撑脚上俯仰舵机的角度信息，此外，还需要加速度和角速度的值，来判断仿人机器人行走过程的稳定情况，然后再对离线步态做出实时调整，以便能够适应不平整的地形环境；

[α,ω,θ_lhip,θ_rhip,θ_lankle,θ_rankle]

其中，α表示仿人机器人的在x轴和y轴方向上的加速度平方和的平方根；ω表示仿人机器人的在x轴和y轴方向上的角速度平方和的平方根；θ_lhip,θ_rhip,θ_lankle,θ_rankle表示仿人机器人左右腿髋关节和踝关节俯仰方向上舵机的角度。

在步骤2)中，改进的深度强化学习网络采用深度确定性策略梯度法DDPG，具体如下：

2.1)深度强化学习相关变量的定义

借助深度强化学习的方法，对预观控制器的控制输出进行补偿，要使用深度强化学习，首先需要定义相关的变量，包括状态向量、动作向量、奖励函数；

预观控制器控制的输出为二维向量，分别对应质心x轴方向和y轴方向坐标的输出值，因此深度强化学习网络的动作定义为：

其中，Δμ_x和Δμ_y分别对应预观控制器每个维度输出的改变量；

考虑到对仿人机器人行走的期望，希望仿人机器人能够在越走越远的情况下保持稳定，定义奖励函数为：

其中，如果仿人机器人能够顺利走到终点，回报值为50；如果仿人机器人在行走的过程中摔倒，则回报值为-50；若是其它情况，则要参考机器人当前的状态；

加速度的平方和r_α(t)的定义为：

其中，α_x(x)和α_y(t)分别代表t时刻仿人机器人在x轴方向上和y轴方向上的加速度的值；

角速度的平方和r_ω(t)的定义为：

其中，ω_x(x)和ω_y(t)分别代表t时刻仿人机器人在x轴方向上和y轴方向上的角速度的值；

x_dis代表仿人机器行走的距离；

2.2)深度强化学习网络的构建

在实现DDPG的时候，需要分别搭建Actor网络和Critic网络用来训练，Critic网络的作用是参数化行为价值函数；Actor网络的作用是按照Critic网络得到的价值引导策略函数的更新，Critic网络的具体结构为：

输入层：s(t)表示Q学习中Q函数在t时刻输入的状态，共9维；

隐藏层：隐藏层为2层，其中第一层有402个节点，包括2个代表动作的节点；第二层为300个节点；每个神经元的激活函数为线性整流激活函数，使用以下公式计算其输出：

y_i(t)＝max(t,0),i＝1,2,…n

代表了第i个神经元的输出y_i(t)取0和t中的较大值；

输出层：Q(t)代表策略函数的输出值，共1维；

Actor网络的具体结构为：

输入层：s(t)表示Q学习中Q函数在t时刻输入的状态，共9维；

隐藏层：隐藏层为2层，其中第一层有400个节点，第二层为300个节点；每个神经元的激活函数为线性整流激活函数，使用以下公式计算其输出：

y_i(t)＝max(t,0),i＝1,2,…n

代表了第i个神经元的输出y_i(t)取0和t中的较大值；

输出层：a(t)代表输出的动作值，共2维；

使用BP算法及梯度下降法，对Critic和Actor网络进行更新，对于每个神经元的输出权重w_i，有如下更新公式：

其中，w_i为第i个权重，为学习率，E为两个网络的学习性能指标；

在步骤3)中，利用改进的深度强化学习网络对预观控制器输出的修正量进行修正，在修正后的预观控制器的基础上，计算出仿人机器人双腿各个舵机的角度，指导机器人行走；其中，传统的预观控制器的理论重点就是利用未来的信息进行控制，未来信息指未来N_p步以内的目标ZMP参考值，设当前时间点为k，那么未来N_p步以内的双脚位姿通过三维步行模式计算得到，进而获得N_p步以内的目标ZMP参考值：ZMP^* _k+1,…,ZMP^* _k+Np；然后把这些未来目标ZMP参考值储存于FIFO缓冲器中，其输出值作为当前的参考值，预观控制器用FIFO缓冲器中的ZMP参考值和仿人机器人的状态计算控制输出，控制输出的公式为：

其中，u_k为k时刻控制器输出；c，K_s，K_x，为控制器系数；为k时刻的仿人机器人质心坐标，[ZMP^* _k+1,…,ZMP^* _k+Np]^T为k+1时刻到k+N_p的参考ZMP；

通过深度增强学习的网络训练出预观控制输出值的修正量；

u′_k＝u_k+Δu_k

得到控制输入后，计算出k+1时刻的质心坐标；

利用k+1时刻的质心坐标(x_k+1,y_k+1)，这就能够得到k+1时刻的质心位姿和左右脚位姿：

其中，G_cobpresent，G_lpresent和G_rpresent为k+1时刻质心，左脚和右脚的位姿；最后再根据逆运动学原理，对仿人机器人双腿的舵机角度进行计算，得到k+1时刻的双腿各个关节舵机角度，以此来知道仿人机器人行走。

本发明与现有技术相比，具有如下优点与有益效果：

1、本方法在已有预观控制理论的基础上，采用了深度强化学习的思路，加快了收敛速度。

2、本方法简单易行，能够在线控制仿人机器人的步行运动，适时调整机器人的步态，帮助仿人机器人在不平整的地面上实现稳定行走，具有一定的现实意义和应用价值。

附图说明

图1为Critic网络结构图。

图2为Actor网络结构图。

图3为预观控制流程图。

图4为基于深度强化学习的预观控制流程图。

图5为行走实验效果图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本实施例所提供的基于深度增强学习的预观控制仿人机器人步态规划方法，其具体情况如下：

1)仿人机器人状态的获取

通过装配在仿人机器人上的传感器获取状态信息。仿人机器人行走时的稳定程度主要受支撑脚上俯仰方向的舵机影响，因此在所定义的状态信息中，应该提供支撑脚信息以及支撑脚上俯仰舵机的角度信息。此外，还需要加速度和角速度的值，来判断仿人机器人行走过程的稳定情况。然后再对离线步态做出实时调整，以便能够适应不平整的地形环境。

[α,ω,θ_lhip,θ_rhip,θ_lankle,θ_rankle]

2.1)深度强化学习相关变量的定义

基于预观控制器的步行模式生成方法不能保证那些难以用这种简单模型描述的运动的稳定性。复杂的运动，例如上半身姿态的大幅晃动，手臂摆动，导致了ZMP的参考值和实际值有较大的出入。因此，需要借助深度强化学习的方法，对预观控制器的控制输出进行补偿。本实施例所采用的深度强化学习方法为深度确定性策略梯度的方法(DDPG)。该方法的优势是可以输出连续的结果，在复杂场景下的表现要比同类结果更好。

要使用深度强化学习，首先需要定义相关的变量，包括状态向量、动作向量、奖励函数。状态的描述已经在上面步骤1)中进行描述，因此不再赘述。

预观控制器控制的输出为二维向量，分别对应质心x轴方向和y轴方向坐标的输出值。因此深度强化学习网络的动作定义为：

其中，Δμ_x和Δμ_y分别对应预观控制器每个维度输出的改变量。

考虑到对仿人机器人行走的期望，我们希望仿人机器人能够在越走越远的情况下保持稳定，定义奖励函数为：

其中，如果仿人机器人能够顺利走到终点，回报值为50；如果仿人机器人在行走的过程中摔倒，则回报值为-50；若是其他情况，则要参考机器人当前的状态。

加速度的平方和r_α(t)的定义为：

其中，α_x(x)和α_y(t)分别代表了t时刻仿人机器人在x轴方向上和y轴方向上的加速度的值。

角速度的平方和r_ω(t)的定义为

其中，ω_x(x)和ω_y(t)分别代表了t时刻仿人机器人在x轴方向上和y轴方向上的角速度的值。

x_dis代表仿人机器行走的距离。

2.2)深度强化学习网络的构建

在实现DDPG的时候，需要分别搭建Actor网络和Critic网络用来训练。Critic网络的作用是参数化行为价值函数；Actor网络的作用是按照Critic网络得到的价值引导策略函数的更新。如图1所示，Critic网络的具体结构为：

输入层：s(t)表示Q学习中Q函数在t时刻输入的状态，共9维；

隐藏层：隐藏层为2层，其中第一层有402个节点，其中包括2个代表动作的节点；第二层为300个节点。每个神经元的激活函数为线性整流激活函数，使用以下公式计算其输出：

y_i(t)＝max(t,0),i＝1,2,…n

代表了第i个神经元的输出y_i(t)取0和t中的较大值。

输出层：Q(t)代表策略函数的输出值，共1维。

如图2所示，Actor网络的具体结构为：

输入层：s(t)表示Q学习中Q函数在t时刻输入的状态，共9维；

隐藏层：隐藏层为2层，其中第一层有400个节点，，第二层为300个节点。每个神经元的激活函数为线性整流激活函数，使用以下公式计算其输出：

y_i(t)＝max(t,0),i＝1,2,…n

代表了第i个神经元的输出y_i(t)取0和t中的较大值。

输出层：a(t)代表输出的动作值，共2维。

其中，w_i为第i个权重，为学习率，E为两个网络的学习性能指标。

3)，利用改进的深度强化学习网络对预观控制器输出的修正量进行修正，在修正后的预观控制器的基础上，计算出仿人机器人双腿各个舵机的角度，指导机器人行走。

传统的预观控制器的理论重点就是利用未来的信息进行控制。具体到本实施例中，未来信息指未来N_p步以内的目标ZMP参考值。设当前时间点为k，那么未来N_p步以内的目标ZMP参考值(ZMP^* _k+1,…,ZMP^* _k+Np)。然后把这些未来目标ZMP参考值储存于FIFO(先进先出)缓冲器中，其输出值作为当前的参考值。预观控制器用FIFO缓冲器中的ZMP参考值和仿人机器人的状态计算控制输出。控制输出的公式为：

其中，u_k为k时刻控制器输出，c，K_s，K_x，为控制器系数，为k时刻的仿人机器人质心坐标，[ZMP^* _k+1,…,ZMP^* _k+Np]^T为k+1时刻到k+N_p的参考ZMP。

通过深度增强学习的网络训练出预观控制输出值的修正量u'_k。

u′_k＝u_k+Δu_k

得到控制输入后，可以计算出k+1时刻的质心坐标。

利用k+1时刻的质心坐标(x_k+1,y_k+1)。这就可以得到k+1时刻的质心位姿和左右脚位姿

其中G_cobpresent，G_lpresent和G_rpresent为k+1时刻质心，左脚和右脚的位姿。然后再根据逆运动学原理，对仿人机器人双腿的舵机角度进行计算，得到k+1时刻的双腿各个关节舵机角度，以此来知道仿人机器人行走，具体流程参见图3所示。

在仿人机器人步行过程中，对于每一个对预观控制器的输出(u_x,u_y)，计算得到当前状态，使用深度强化学习DDPG学习一组对于输出的修正量，更新深度强化学习的网络。同时利用预观控制器的输出，计算仿人机器人的行走姿态。综上所述，算法步骤如下，具体见图4所示：

①初始化深度强化学习DDPG框架和预观控制器；

②根据传感器信息得到当前状态，使用深度强化学习DDPG计算得到一组关于预观控制器的修正量；

③把预观控制器的输出量加到预观控制器的输出上，并根据输出值，结合逆运动学原理，指导仿人机器人的行走；

④获取当前***立即回报值，更新深度强化学习框架；

⑤判断仿人机器人当前状态，如果仿人机器人摔倒或者走到目标地，则结束循环；否则跳转至步骤②。

其中，仿人机器人的实验行走效果请参见图5所示。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.基于深度增强学习的预观控制仿人机器人步态规划方法，其特征在于，包括以下步骤：

1)通过装配在仿人机器人上的传感器获取状态信息；

2.根据权利要求1所述的基于深度增强学***整的地形环境；

[α,ω,θ_lhip,θ_rhip,θ_lankle,θ_rankle]

3.根据权利要求1所述的基于深度增强学习的预观控制仿人机器人步态规划方法，其特征在于：在步骤2)中，改进的深度强化学习网络采用深度确定性策略梯度法DDPG，具体如下：

2.1)深度强化学习相关变量的定义

加速度的平方和的平方根r_α(t)的定义为：

角速度平方和的平方根r_ω(t)的定义为：

x_dis代表仿人机器行走的距离；

2.2)深度强化学习网络的构建

输入层：s(t)表示Q学习中Q函数在t时刻输入的状态，共9维；

y_i(t)＝max(t,0),i＝1,2,…n

代表了第i个神经元的输出y_i(t)取0和t中的较大值；

输出层：Q(t)代表策略函数的输出值，共1维；

Actor网络的具体结构为：

输入层：s(t)表示Q学习中Q函数在t时刻输入的状态，共9维；

y_i(t)＝max(t,0),i＝1,2,…n

代表了第i个神经元的输出y_i(t)取0和t中的较大值；

输出层：a(t)代表输出的动作值，共2维；

4.根据权利要求1所述的基于深度增强学习的预观控制仿人机器人步态规划方法，其特征在于：在步骤3)中，利用改进的深度强化学习网络对预观控制器输出的修正量进行修正，在修正后的预观控制器的基础上，计算出仿人机器人双腿各个舵机的角度，指导机器人行走；其中，传统的预观控制器的理论重点就是利用未来的信息进行控制，未来信息指未来N_p步以内的目标ZMP参考值，设当前时间点为k，那么未来N_p步以内的双脚位姿通过三维步行模式计算得到，进而获得N_p步以内的目标ZMP参考值：ZMP^* _k+1,…,ZMP^* _k+Np；然后把这些未来目标ZMP参考值储存于FIFO缓冲器中，其输出值作为当前的参考值，预观控制器用FIFO缓冲器中的ZMP参考值和仿人机器人的状态计算控制输出，控制输出的公式为：

通过深度增强学习的网络训练出预观控制输出值的修正量；

u′_k＝u_k+Δu_k

得到控制输入后，计算出k+1时刻的质心坐标；