CN115091469A

CN115091469A - 一种基于最大熵框架的深度强化学习机械臂运动规划方法

Info

Publication number: CN115091469A
Application number: CN202210936717.1A
Authority: CN
Inventors: 程良伦; 胡博; 王涛
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-08-05
Filing date: 2022-08-05
Publication date: 2022-09-23
Anticipated expiration: 2042-08-05
Also published as: CN115091469B

Abstract

本发明公开了一种基于最大熵框架的深度强化学习机械臂运动规划方法，包括：在机械臂运动前采集一次环境信息，所述的环境信息包括初始状态下的机械臂状态信息、运动目标点和中间障碍物信息，得到规划空间；建立机械臂运动学模型，将采集到的状态信息通过正运动学运算得到机械臂末端点位置信息，构造环境观察信息；将环境观察信息作为MDP模型的状态量，定义机械臂的动作空间以及奖励函数；基于深度强化学习算法，根据状态量得到机械臂速度增量，通过将返回分布函数嵌入最大熵来动态调整Q的范围，缓解传统强化学习的Q值的高估情况，为机械臂规划取得无碰策略；同时利用重组轨迹的方法，充分探索受限空间，提升机械臂规划的速度。

Description

一种基于最大熵框架的深度强化学习机械臂运动规划方法

技术领域

本发明涉及了机器人在受限空间中作业规划的算法研究，更具体的是如何提高机器人在受限空间中作业规划效率的研究。

背景技术

机器人在受限空间进行作业需要在有障碍物约束的环境下，自主地从当前的位置快速无碰撞地运动到给定的位置。通过给定起始位置和终点位置，在机器人的工作空间中寻找到一条符合一定约束的路径，如：无碰撞，路径最短等。传统的路径规划算法有蚁群算法、人工势场法、遗传算法、栅格法等。首先需要对障碍物的空间进行精确的建模，然后才能在建模的空间中使用这些规划算法进行规划，在高维空间中建立精确的障碍物映射是非常复杂的。除了障碍物的映射，这些算法在高维情况下的规划计算复杂度也呈指数型增长，往往导致难以实时规划。为了成功在受限空间中进行路径规划，我们采用深度强化学习算法，本算法不需要对障碍物进行精准建模，只需要在类似的仿真环境下训练好，利用从仿真环境中学到的策略，将其应用到实际场景中。在真实环境中通过相机获取机器人当前的状态，并根据当前的状态采取相应的策略，最终到达终点位置，该方法更具有鲁棒性。

发明内容

本发明的目的是提供一种基于最大熵框架的深度强化学习机械臂运动规划方法，用于在提高机器人在受限空间中的探索能力以及提高策略评估的准确性。

为了实现上述任务，本发明采用以下技术方案：

一种基于最大熵框架的深度强化学习机械臂运动规划方法，包括：

在机器人的机械臂运动前采集一次环境信息，所述的环境信息包括初始状态下的机械臂状态信息、运动目标点和中间障碍物信息，得到规划空间；

建立机械臂运动学模型，根据采集到的机械臂状态信息通过正运动学运算得到机械臂末端点位置和与目标点的距离，构造环境观察信息；

将环境观察信息作为MDP模型的状态量，定义机械臂的动作空间以及避障奖励函数；

利用基于深度强化学习算法的强化学习算法，根据状态量通过得到机械臂速度增量，在规划空间中为机械臂规划运动策略并取得无碰运动策略，使得机械臂能够在避开障碍物的前提下稳定的运动到目标位置。

进一步地，初始状态下的机械臂状态信息为机械臂关节位置q，初始为0；运动目标点为人为设定的焊接点，包含坐标信息goal；中间的障碍物信息采用包络盒生成，包括机械臂本体和场景障碍，构成初始规划空间Ω。

进一步地，所述建立机械臂运动学模型，根据采集到的机械臂状态信息通过正运动学运算得到机械臂末端点位置和与目标点的距离，构造环境观察信息，包括：

建立6轴机械臂运动学模型，并构建DH参数表；根据采集到的机械臂关节位置q，利用齐次变换矩阵求解出机械臂焊枪末端的空间位置grip，求解与该位置目标点的距离dis＝||grip-goal||，设置是否发生碰撞的碰撞标志位colli，从而构造环境观察信息。

进一步地，所述将环境观察信息作为MDP模型的状态量，定义机械臂的动作空间以及避障奖励函数，包括：

建立MDP模型，由机械臂关节位置、机械臂末端点位置、目标点位置、机械臂末端位置与目标点距离以及碰撞标志位构成状态量s_t＝[q,grip,goal,colli]，由机械臂关节速度构成动作

其中关节速度

是关节角度q的导数，关节角度的动作空间为Π＝[-π,+π]，以及定义奖励函数如下：

其中colli为1表示发生碰撞，为0表示没有发生碰撞。

进一步地，所述根据状态量通过得到机械臂速度增量，在规划空间中为机械臂规划运动策略并取得无碰运动策略，包括：

机械臂运动策略，是基于最大熵策略的深度强化学习网络训练模型，包括Actor网络的构建和Critic网络的构建；Actor网络的输入为当前的状态s_t，输出为机械臂6轴各关节的角速度，经过设定回合的训练，网络最终的输出即为无碰运动策略；

设置Actor网络和Critic网络的网络结构为256×256×256，隐藏层均使用ReLU作为激活函数，Actor网络的输出层使用tanh作为激活函数，其输出范围为[-1,1]，对应了机械臂关节的速度，Critic网络的输出层使用ReLU作为激活函数，同时Actor网络和Critic网络输出对应的熵；设置与Actor网络和Critic网络规模大小一样的目标网络：Actor_target网络和Crtic_target网络，其中Actor_target网络的输出作为最终的无碰规划决策，设置最大训练回合与每个回合最大步数为T。

进一步地，所述网络模型的训练过程包括：

步骤4.1，初始化Actor网络、Critic网络、Actor_target网络和Crtic_target网络参数

θ、

θ^target；

步骤4.2，在每一个训练回合开始时，机械臂的六个关节复位到初始位置q＝[0,0,0,0,0,0]；

步骤4.3，对于每一个回合，Actor网络根据当前状态s_t输出机械臂的六轴关节速度的动作，通过下式表示当前状态下输出的动作a_t：

其中t表示当前时刻，

表示Actor网络参数，

表示Actor网络训练的结果，即无碰动作策略，由执行动作后的新位置向量转到t+1时刻的下一个状态s_t+1，获得即时奖励值r_t；由每回合的最大步数T，每一步记录状态s_t，将这些状态集合为运动轨迹τ₁＝[s₁,s₂,…s_T]，下一个回合同样可以生成运动轨迹τ₂＝[s′₁,s′₂,…s′_T]；

步骤4.4，在两条运动轨迹τ₁和轨迹τ₂中，选择轨迹的最后一个状态最接近目标点的轨迹记为τ_closest，并将所述最后一个状态作为新目标；在另外一条轨迹中随机选择k个状态，重新计算这k个状态与新目标的奖励函数r_t，并替换τ_closest中相应的状态，重组成采样轨迹_τ，存入缓存区R作为训练样本，更新Actor和Critic网络参数；

步骤4.5，Critic网络的输出服从高斯分布，相应的Critic网络的损失函数如下：

其中Q^target(s_t,a_t)是Crtic_target网络的输出值，Q_θ(s_t,a_t)是Crtic网络的输出，q_r为标准差，

π_θ(a_t|s_t)表示当前状态下输出的动作，E(·)表示期望；基于标准的反向传播方法，可以求出Critic网络参数θ的梯度；

步骤4.6，当训练回合数等于预设的最大回合数时，结束训练，得到最终训练后的Actor网络，即得到规划空间下机械臂的最优运动策略。

进一步地，所述网络参数更新步骤如下：

(1)初始化Actor的网络参数

和Critic的神经网络参数θ；

(2)将网络参数

网络参数θ复制到对应的Actor_target网络

和Crtic_target网络θ^target作为这两个网络的参数：

(3)初始化预设内存缓存区R；

(4)从1到每回合最大步数T进行循环：

根据Actor网络输出一个动作a_t，发送给机械臂并执行；环境执行a_t，返回新的状态s_t+1，将这个状态的转换过程(s_t,a_t,s_t+1,r_t)存入轨迹τ₁和轨迹τ₂中，并存入内存缓冲区R中；

(5)达到回合最大步数T后，从内存缓冲区R中随机选择两条轨迹，通过随机剪切重组样本轨迹，并计算奖励，作为网络的训练数据集，用(s_t,a_t,s_t+1,r_t)表示其中单个训练数据；

(6)计算训练Critic网络的梯度：定义Q值函数Q(s_t,a_t)如下：

Q(s_t,a_t)＝E[r(s_t,a_t)+γαV_soft(s_t+1)]

V_soft(s_t)＝E[Q^θ(s_t,a_t)-αlogπ_θ(a_t|s_t)]

其中E[·]表示期望，r(s_t,a_t)表示当前状态s_t执行动作a_t所能得到的奖励函数，π_θ(a_t|s_t)表示当前状态下输出的动作，V_soft(s_t)表示软更新的Q值，即此时的状态s_t和执行动作a_t的价值，γ是折扣因子，α为熵权重，通过Critic网络的输出Q^θ(s_t,a_t)和标准差q_r，将输出限制在[Q^θ(s_t,a_t)-q_r,Q^θ(s_t,a_t)+q_r]中；

(7)更新Critic网络，采用Adam optimizer更新；

(8)计算Actor网络的策略梯度，定义损失函数如下：

其中α为熵权重，

表示当前状态下输出的动作a_t的熵，Q^θ(s_t,a_t)是Critic网络的输出值；

(9)更新Actor网络，采用Adam optimizer更新；

(10)软更新Critic目标网络和Actor目标网络θ^target和

(11)结束该回合；

(12)结束循环。

与现有技术相比，本发明具有以下技术特点：

对深度强化学习中环境进行了定义，定义了连续空间下机械臂路径规划环境中状态，动作以及奖励函数，在算法上，通过将返回分布函数嵌入最大熵来动态调整Q的范围，缓解了传统强化学习存在的Q值的高估情况；同时利用重组轨迹经验重放的方法，充分探索受限空间，提高算法的收敛速度。

附图说明

图1为本发明一个实施例中方法的框架图；

图2为机械臂规划流程图；

图3为改进Critic网络动态调整Q的网络图；

图4为本发明方法与现有的SAC、TD3、DDPG算法的规划结果图。

具体实施方式

本方法是将基于最大熵的深度强化学习方法和基于事后经验回访结合起来的方法，通过API方式获取机器人在环境中的状态作为输入，构建Actor网络和Critic网络，Actor网络用于输出当前状态下的策略，即当前状态下机器人所采取的动作，而Critic网络则用于输出Q值(强化学习中的动作函数值)，即当前状态下所采取的动作后的得分，用于指导Actor网络的学习，使机器人在受限空间中的每一个状态都做出正确的选择，从起始位置能无碰撞地、路径最短地到达最终位置。为了提高机器人在受限空间中的作业规划效率，利用重组轨迹经验重放的方法调整机器人对受限空间的探索能力，使机器人充分探索受限空间；同时利用改进Critic网络估计Q值的方法，防止***和消失梯度。

参见附图1至4，本发明的一种基于最大熵框架的深度强化学习机械臂运动规划方法，用于在狭窄空间下为六轴机械臂焊接机器人进行工作路径的规划；包括以下步骤：

步骤1，在机械臂运动前采集一次环境信息，所述的环境信息包括初始状态下的机械臂状态信息、运动目标点和中间障碍物信息，得到规划空间。

其中，初始状态下的机械臂状态信息为机械臂关节位置q，初始为0；运动目标点为人为设定的焊接点，包含坐标信息goal；中间的障碍物信息采用AABB包络盒生成，包括机械臂本体和场景障碍，构成初始规划空间Ω。

步骤2，建立机械臂运动学模型，根据采集到的机械臂状态信息通过正运动学运算得到机械臂末端点位置grip和与目标点goal的距离dis，构造环境观察信息。

步骤3，将环境观察信息作为MDP模型的状态量s_t，定义机械臂的动作空间Π以及避障奖励函数reward。

其中关节速度

其中colli为1表示发生碰撞，为0表示没有发生碰撞。

步骤4，利用基于深度强化学习算法的强化学习算法，根据状态量s_t通过网络得到机械臂速度增量

在规划空间中为机械臂规划运动策略并取得无碰运动策略，使得机械臂能够在避开障碍物的前提下稳定的运动到目标位置。

其中机械臂运动策略，是基于最大熵策略的深度强化学习网络训练模型，包括Actor网络的构建和Critic网络的构建；Actor网络的输入为当前的状态s_t，输出为机械臂6轴各关节的角速度，经过一定回合的训练，网络最终的输出即为无碰运动策略；设置Actor网络和Critic网络的网络结构为256×256×256，隐藏层均使用ReLU作为激活函数，Actor网络的输出层使用tanh作为激活函数，其输出范围为[-1,1]，对应了机械臂关节的速度，Critic网络的输出层使用ReLU作为激活函数，同时Actor网络和Critic网络输出对应的熵。设置与Actor网络和Critic网络规模大小一样的目标网络：Actor_target网络和Crtic_target网络，其中Actor_target网络的输出作为最终的无碰规划决策，设置最大训练回合与每个回合最大步数为T。整个训练过程包括如下步骤：

θ、

θ^target。

步骤4.2，在每一个训练回合开始时，机械臂的六个关节复位到初始位置q＝[0,0,0,0,0,0]。

步骤4.3，对于每一个回合，在线Actor策略网络根据当前状态s_t输出机械臂的六轴关节速度的动作，通过下式表示当前状态下输出的动作a_t：

其中t表示当前时刻，

表示Actor网络参数，

表示Actor网络训练的结果，即无碰动作策略，由执行动作后的新位置向量转到t+1时刻的下一个状态s_t+1，获得即时奖励值r_t；由每回合的最大步数T，每一步记录状态s_t共有600个状态[s₁,s₂,…s₆₀₀]，将这些状态集合为运动轨迹τ₁＝[s₁,s₂,…s_T]，下一个回合同样可以生成运动轨迹τ₂＝[s′₁,s′₂,…s′_T]。

步骤4.4，机械臂朝目标点规划，本身就是一个多维度，奖励相对稀疏的任务，在两条运动轨迹τ₁和轨迹τ₂中，选择轨迹的最后一个状态最接近目标点的轨迹记为τ_closest，并将所述最后一个状态作为新目标；在另外一条轨迹中随机选择k个状态，重新计算这k个状态与新目标的奖励函数r_t，并替换τ_closest中相应的状态，重组成采样轨迹_τ，存入缓存区R作为训练样本，更新Actor和Critic网络参数；这样做的目的是加速机械臂的探索过程，使得Actor网络的输出朝目标点方向探索的概率增大，有效解决奖励稀疏；

步骤4.5，Critic网络的输出服从高斯分布，高斯分布的均值和标准差近似为两个独立函数Q^θ(s_t,a_t)和q_r，网络参数为θ，即N(Q^θ(s_t,a_t),q_r²)，则相应的Critic网络的损失函数如下：

其中Q^target(s_t,a_t)是Crtic_target网络的输出值，Q_θ(s_t,a_t)是Critic网络的输出，q_r为标准差，

π_θ(a_t|s_t)表示当前状态下输出的动作，E(·)表示期望；基于标准的反向传播方法，可以求出Critic网络参数θ的梯度，与标准的Q学习相比，q_r对Q^θ(s_t,a_t)的更新步长有自适应调整作用，当q_r增大时，Q^θ(s_t,a_t)的更新步长呈下降趋势，可以通过q_r来缓解Q学习中由于任务随机性和逼近误差引起的过高估计。

经过上述的轨迹采样，本实施例中网络参数更新步骤如下：

(1)初始化Actor的网络参数

和Critic的神经网络参数θ；

(2)将Actor网络

Critic网络θ复制到对应的Actor_target网络

和Crtic_target网络θ^target目标网络参数：

(3)初始化预设内存缓存区R；

(4)从(1到每回合最大步数T)循环：根据Actor网络输出一个动作a_t，发送给机械臂并执行；环境执行a_t，返回新的状态s_t+1，将这个状态的转换过程(s_t,a_t,s_t+1,r_t)存入轨迹τ₁和轨迹τ₂中，并存入内存缓冲区R中；

(6)计算训练Critic网络的梯度：定义Q值函数Q(s_t,a_t)如下：

Q(s_t,a_t)＝E[r(s_t,a_t)+γαV_soft(s_t+1)]

V_soft(s_t)＝E[Q^θ(s_t,a_t)-αlogπ_θ(a_t|s_t)]

其中E[·]表示期望，r(s_t,a_t)表示当前状态s_t执行动作a_t所能得到的奖励函数，π_θ(a_t|s_t)表示当前状态下输出的动作，V_soft(s_t)表示软更新的Q值，即此时的状态s_t和执行动作a_t的价值，γ是折扣因子，α为熵权重，通过Critic网络的输出Q^θ(s_t,a_t)和标准差q_r，将输出限制在[Q^θ(s_t,a_t)-q_r,Q^θ(s_t,a_t)+q_r]中，能够有效的避免Q值过高估计。

(7)更新Critic网络，采用Adam optimizer更新。

(8)计算Actor网络的策略梯度，定义损失函数如下：

其中α为熵权重，

表示当前状态下输出的动作a_t的熵，Q^θ(s_t,a_t)是Critic网络的输出值。

(9)更新Actor网络，采用Adam optimizer更新

(10)软更新Critic目标网络和Actor目标网络θ^target和

θ^target←τθ+(1-τ)θ^target

其中_τ是网络学习率，

是Actor_target网络的参数，θ^target是Crtic_target网络参数。

(11)结束该回合。

(12)结束循环。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。