CN115366099A

CN115366099A - 基于正向运动学的机械臂深度确定性策略梯度训练方法

Info

Publication number: CN115366099A
Application number: CN202210995615.7A
Authority: CN
Inventors: 苏世杰; 朱大双; 张建; 唐文献; 殷宝吉; 陈赟
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2022-08-18
Filing date: 2022-08-18
Publication date: 2022-11-22
Anticipated expiration: 2042-08-18
Also published as: CN115366099B

Abstract

本发明公开了一种基于正向运动学的机械臂深度确定性策略梯度训练方法，通过在所建立机械臂正向运动学模型中动态规划，减少了智能体与环境交互的次数，克服了无模型强化学习需要消耗大量时间和资源不断与环境交互的缺点，除此之外本发明还使经验池中的数据更具更新价值。本发明缩短了网络收敛的时间，完成任务的成功率较传统深度确定性策略梯度算法有显著的提升。

Description

基于正向运动学的机械臂深度确定性策略梯度训练方法

技术领域

本发明涉及人工智能与机器人领域的强化学习算法，尤其涉及一种基于正向运动学的机械臂深度确定性策略梯度训练方法。

背景技术

强化学习是机器学习领域的一种范式，近年来引起了学者的很大研究兴趣。然而，强化学习在现实世界中的应用非常稀缺且具有挑战性，机器人领域使研究人员能够相对容易的定义训练环境，因此强化学习在该领域上获得了很多成功的应用。

强化学习又分为基于模型的强化学习和无模型的强化学习。基于模型的强化学习是指智能体已知环境模型，然后智能体与这个环境模型进行交互并学习策略；无模型的强化学习是指智能体事先不知道环境模型仅根据与环境交互来直接学习策略。无模型强化学习虽然不用已知环境模型，但需要从环境中采样(sample)数据用以更新网络，此过程需要消耗大量时间和资源导致了样本效率很低；而基于模型的强化学习，有效的解决了样本效率低下的问题，但面临着当环境模型很复杂的时候，所建立的模型不准确，导致训练完成后的策略无法适用于真实环境中。

在现有的结合深度确定性策略梯度方法的一些技术，他们都是利用智能体与环境交互所产生的数据训练actor与critic模块。对于CN202010202667.5、CN202010646146.9和CN201910049650.8都是利用无模型的ddpg算法训练智能体完成机械臂控制任务，智能体需要花费大量的时间和资源去探索，这就导致了样本效率低下，训练好一个网络模型需要经过很长的时间。

发明内容

发明目的：本发明旨在提供一种减少智能体与环境交互的次数并提高样本效率的基于正向运动学的机械臂深度确定性策略梯度训练方法。

技术方案：本发明所述的基于正向运动学的机械臂深度确定性策略梯度训练方法，包括以下步骤：

S1.搭建仿真环境中的机械臂训练环境，确定每回合训练步数T和训练回合数M；

S2.根据机械臂类型建立机械臂正向运动学模型：

输入机械臂j个关节角度为(θ₁，θ₂…θ_j)得到末端执行器位姿P＝f(θ₁，θ₂…θ_j)；

S3.建立actor模块和critic模块；建立一个经验池，每次智能体与环境交互产生的经验称为一个transition(s，a，r，s′)并将此次transition存入经验池，其中，s为当前状态，a为当前动作由机械臂j个关节角度表示a＝(θ₁，θ₂…θ_j)，s′为下一状态，r为观察s′后根据奖惩函数R得到的奖励值；

S4.达到训练步数T后从经验池中抽取经验更新actor和critic模块，进行动态规划：

从经验池中抽取未完成任务的transition₀(s₀，a₀，r₀，s′₀)，并向transition₀中的a₀添加n次噪声，生成n个不同的动作a₁，a₂...a_n，此后将a₀，a₁，a₂...a_n分别输入f(θ₁，θ₂…θ_j)，得到transition_k(s_k，a_k，r_k，s′_k)，k＝0，1，2...n，将最大奖励值r_k所在的transition_k记为transition_max(s_max，a_max，r_max，s′_max)，并将transition_max替换经验池中transition_o，之后将transition_max中的s′_max作为动态规划中一回合的初始状态输入actor网络，将actor网络输出的动作再输入f(θ₁，θ₂…θ_j)，得到此动作之后的transition，并存储在经验池中；重复此过程直至达到每回合训练步数T，从经验池中抽取经验再次更新actor和critic模块；

S5.重复步骤S4，直到达到训练回合数M。

进一步地，所述步骤S1包括以下步骤：

S11.使用开源仿真平台搭建实验环境，确定物理引擎，将用于完成任务的机械臂导入此仿真平台搭建的实验环境中；

S12.设定机械臂的控制任务；根据机械臂的控制任务设计奖惩函数R；每回合训练步数T是指每回合智能体与环境交互的次数；训练回合数M和训练步数T由实际训练效果决定；

S13.定义机械臂控制任务的动作空间和状态空间；动作空间A中动作a为机械臂的j个关节角度记为a＝(θ₁，θ₂…θ_j)；关节的角度范围

l＝1，2...j，

为关节最小角度，

为关节最大角度；状态空间S中状态s由末端执行器位姿p(x，y，z，α，β，γ)和步骤S12所设定的机械臂控制任务决定，记为s＝(p，s_d)，其中(x，y，z)为末端执行器位置，(α，β，γ)为末端执行器姿态，s_d为状态s中不包括末端执行器位姿p的部分。

进一步地，所述步骤S3包括以下步骤：

S31.建立智能体的actor模块，将状态s输入actor模块，actor模块输出智能体的下一步动作a；

S32.建立智能体的critic模块，将状态s和动作a作为critic模块的输入，critic模块输出一个评价该次动作a的值Q(s，a)；

S33.为了使训练稳定，当前actor网络和critic网络更新后，目标actor网络和critic网络才会开始更新。

进一步地，所述步骤S4包括以下步骤：

S41.智能体与环境交互达到每回合训练步数T后，从经验池中抽取经验更新actor与critic模块后，进行动态规划；

S42.critic模块包含了两个结构完全相同的网络模型：当前critic网络Q(s，a|θ_Q)和目标critic网络Q′(s，a|θ_Q′)；actor模块包含了两个结构完全相同的网络模型：当前actor网络μ(s|θ_μ)和目标actor网络μ′(s|θ_μ′)；其中θ_Q和θ_Q′分别为Q和Q′的参数，θ_μ和θ_μ′分别为μ和μ′参数，Q和Q′的输入为状态s和动作a，输出为评价该次动作a的值，μ和μ′的输入为状态s，输出为智能体的下一步动作；

S43.采用TD-error方式，对参数θ_Q的更新，损失函数L为：

其中，i＝1,2...N，N为批量抽取经验的数目，Y_i＝R_i+Q′(S_i+1，μ′(S_i+1|θ_μ′)|θ_Q′)，Y_i为损失函数L中的目标值；从经验池中抽取的transition(s，a，r，s′)和transition_m(s_m，a_m，r_m，s′_m)，S_i为状态s和s_m组成的集合，A_i为动作a和a_m组成的集合，R_i为奖励值r和r_m组成的集合，S_i+1为状态s′和s′_m组成的集合；

求得损失函数L针对θ_Q的梯度

对其进行梯度下降，得到更新后的θ_Q；

μ的网络参数θ_μ的更新，遵循确定性策略，其梯度下降公式为：

其中，a＝μ(S_i|θ_μ)，

表示对a求导，

表示对θ_μ求导；

Q′和μ′采用软更新方式：

θ_Q′←τθ_Q+(1-τ)θ_Q′

θ_μ′←τθ_μ+(1-τ)θ_μ′

其中，τ为平衡因子；

S44.利用步骤S43的公式更新actor和critic模块，如果样本数量达到经验池的最大样本数量，则用最新的样本替换旧的样本。

进一步地，所述步骤S41包括以下步骤：

S41a.从经验池中抽取未完成任务的transition₀(s₀，a₀，r₀，s′₀)，所述未完成任务的transition₀是指智能体执行a₀并没有完成任务；

S41b.向a₀添加n次噪声ε_i，生成新的探索性动作a_i＝a₀+ε_i，i＝1，2...n，ε_i是指向a₀中添加服从高斯分布或OU分布的噪声，从而形成新的动作

i＝1，2...n，关节的角度如下：

S41c.将a_i分别输入f(θ₁，θ₂…θ_j)，得到这些动作之后的末端执行器位姿P_k和transition_k(s₀，a_k，r_k，s′_k)，k＝0,1,2...n；

中

由

确定；若P_k超出机械臂控制任务的工作空间，则剔除此transition_k；

S41d.将最大r_k所在的transition_k记为transition_max(s_max，a_max，r_max，s′_max)，并将transition_max替换经验池中transition₀，此过程使经验池中的经验更具更新网络的价值；

S41e.将transition_max中的s′_max作为动态规划中一回合的初始状态输入actor网络，将actor网络输出的动作再输入f(θ₁，θ₂…θ_j)，得到此动作之后的transition，并存储在经验池中；重复此过程直至达到每回合训练步数T，从经验池中抽取经验再次更新actor和critic模块，动态规划过程中的transition记为transition_m(s_m，a_m，r_m，s′_m)。

有益效果：本发明与现有技术相比，其显著优点是：1、本发明通过在机械臂正向运动学模型中使用动态规划，减少了智能体与环境交互的次数，解决了无模型强化学习需要消耗大量时间和资源不断与环境交互的问题，提高了样本效率；2、本发明缩短了网络收敛的时间，提升了完成任务的成功率。

附图说明

图1为实施例中所用的机械臂的结构示意图；

图2为本发明的训练方法数据流程图；

图3为本发明的训练方法训练流程图；

图4为动态规划流程图；

图5为本发明的训练方法的收敛曲线图；

图6为传统ddpg的收敛曲线图。

具体实施方式

下面结合附图对本发明作进一步说明。

一种基于正向运动学的机械臂深度确定性策略梯度训练方法包括以下步骤：

S1.搭建仿真环境中的机械臂训练环境；定义交互物体与机械臂类型、机械臂控制任务的最终目标；设计智能体一次动作之后的奖惩函数；明确动作空间A和状态空间S；确定训练的回合数M＝46350和智能体每回合的训练步数T＝16。

其具体步骤包括：

S11.用开源仿真平台V-rep搭建实验环境，使用物理引擎为ODE，将用于完成任务的机械臂导入此仿真平台搭建的实验环境中，如图1所示。所示机械臂关节为4，其中关节1为绕世界坐标系Z轴旋转的旋转关节，关节2、3、4均为旋转关节，将末端执行器视为固定关节5。

S12.设定机械臂的控制任务为到达任务，任务描述为在一高度的水平面上随机位置放置物块，智能体需要控制机械臂到达物块的位置；奖惩函数设计如下：

R＝R₁+R₂+R₃

其中，R₁定义了一个与机械臂末端位置坐标(x_e，y_e，z_e)和物块笛卡尔坐标(x_g，y_g，z_g)之间距离成负相关的回报值；R₂定义了一个方向奖励函数，并且R₂是R₁的泛化版本，d表示当前机械臂末端与物体的距离，d′表示上一步时机械臂末端与物体的距离，R₂表示了机械臂末端若比起上一步更接近物体，则可获得1的奖励值，反之则得到0的奖励值，R₃表示了当前机械臂末端与物体的距离若大于0.01m则得到0的奖励值，若小于0.01m则视为任务完成并得到10的奖励值。总奖励值R为R₁、R₂、R₃之和。

S13.动作空间A中动作a为机械臂的4个关节角度记为a＝(θ₁，θ₂，θ₃，θ₄)，关节角度的范围均为[-90°，90°]；状态空间S中s为：

s＝(θ₁，θ₂，θ₃，θ₄，x_e，y_e，z_e，x_r，y_r，z_r，x_g，y_g，z_g)

其中，(x_e，y_e，z_e)为末端执行器位置p、(x_r，y_r，z_r)为物块与末端执行器的相对位置、(x_g，y_g，z_g)为物块的位置。

S14.所述的仿真平台V-rep构建的智能体的动作、状态空间与奖励函数共同构建了智能体与环境交互的规则。

S2.根据机械臂类型建立机械臂正向运动学模型。

所述机械臂是串联机械臂如图3所示，根据该机械臂D-H参数(如表1所示)建立该机械臂正向运动学模型。即输入机械臂4个关节角度(θ₁，θ₂，θ₃，θ₄)得到末端执行器位置P＝f(θ₁，θ₂，θ₃，θ₄)。

表1

l	α<sub>i-1</sub>(°)	a<sub>i-1</sub>(m)	d<sub>i</sub>(m)	θ<sub>i</sub>(°)
					1	0	0	0.0445	θ<sub>1</sub>
2	90	0.0025	0	θ<sub>2</sub>
					3	0	0.081	0	θ<sub>3</sub>
4	0	0.0775	0	θ<sub>4</sub>
					5	0	0.126	0	0

S3.建立actor模块和critic模块；建立一个经验池存储智能体与环境交互产生的经验，每次与环境交互产生的经验称为一个transition(s，a，r，s′)并将此次transition存入经验池，具体包括：当前状态s，当前动作a，下一状态s′和观察s′后根据R得到的奖励值r。

S31.建立包括当前actor网络和目标actor网络的actor模块，actor模块由4层全连接神经网络组成，每一层的神经元个数均为256，每层全连接层后面使用ReLU层作为激活函数，actor模块的输出层采用tanh激活函数使得输出值均在区间[-1，1]内，即机械臂的各个关节角度在每一步最多在某一方向上只能转动1°，若需要较大的转动角度，可以将策略网络的输出按比例放大。在进行实际角度控制时，本实施例乘以一个比例系数90，即每个关节在进行转动时的角度范围为[-90°，90°]。将状态s输入actor模块，actor模块输出智能体的下一步动作a。

S32.建立包括当前critic网络和目标critic网络的critic模块，critic模块由4层全连接神经网络组成，每一层的神经元个数均为256，每层全连接层后面使用ReLU层作为激活函数。将状态s和动作a作为critic模块的输入，critic模块输出一个评价该次动作a的值Q(s，a)。

S33.为了使训练稳定，在当前actor网络和当前critic网络更新后，目标actor网络和目标critic网络才会开始更新。

S4.将智能体与环境交互的经验存入经验池，达到每回合训练步数T后从经验池中抽取经验更新actor和critic模块，之后进行动态规划：从经验池中抽取未完成任务的transition₀(s₀，a₀，r₀，s′₀)，并向a₀添加10次噪声，每次噪声形成一个新的动作，生成10个不同的新的探索性动作(a₁，a₂...a₁₀)，此后将(a₁，a₂...a₁₀)动作分别输入f(θ₁，θ₂，θ₃，θ₄)，得到transition_k(s_k，a_k，r_k，s′_k)，k＝0，1，2...10，将最大r_k所在的transition_k记为transition_max(s_max，a_max，r_max，s′_max)，并将transition_max替换经验池中transition_o，之后将transition_max中的s′_max作为动态规划中一回合的初始状态输入actor网络，将actor网络输出的动作再输入f(θ₁，θ₂，θ₃，θ₄)，得到此动作之后的transition，并存储在经验池中；重复此过程直至达到每回合训练步数T，从经验池中抽取经验再次更新actor和critic模块。

如图2、图3所示S4具体步骤包括：

S41.智能体与环境交互达到每回合训练步数T后从经验池中抽取经验更新actor与critic模块。之后进行动态规划：

如图4所示动态规划具体步骤包括：

S41a.从经验池中抽取未完成任务的transition₀(s₀，a₀，r₀，s′₀)，所述未完成任务的transition₀是指智能体执行a₀末端执行器并没有到达物块位置。

S41b.向a₀添加10次噪声，生成新的探索性动作a_i＝a₀+ε_i，i＝1，2...10，所述ε_i是指为了让智能体探索到更好的动作而向a₀中添加服从某种概率分布的噪声，从而形成新的动作；本实施例ε_i服从OU分布。添加ε_i后的

i＝1，2...10，关节角度

如下所示：

S41c.此后将a_i分别输入f(θ₁，θ₂，θ₃，θ₄)，得到这些动作之后的末端执行器位置P_k和transition_k(s₀，a_k，r_k，s′_k)，k＝0，1，2...10。所述

中

由

和具体机械臂控制任务确定。

其中，

为动作a_k；

为P_k；由于本机械臂控制任务为到达任务，智能体执行动作a_k后并不改变物块的位置，故

为s₀中物块的位置

为物块与P_k的相对位置。若P_k超出本实施例机械臂到达任务的工作空间，则剔除此transition_k。

S41d.将最大r_k所在的transition_k记为transition_max(s_max，a_max，r_max，s′_max)，并将transition_max替换经验池中transition₀。此过程使经验池中的经验更具更新网络的价值。

S41e.之后将transitin_max中的s′_max作为动态规划中一回合的初始状态输入actor网络，将actor网络输出的动作再输入f(θ₁，θ₂，θ₃，θ₄)，得到此动作之后的transition，并存储在经验池中；重复此过程直至达到每回合训练步数T，从经验池中抽取经验再次更新actor和critic模块。动态规划过程中的transition记为transition_m(s_m，a_m，r_m，s′_m)。

S42.critic模块包含了两个结构完全相同的网络模型：当前critic网络Q(s，a|θ_Q)和目标critic网络Q′(s，a|θ_Q′)；actor模块包含了两个结构完全相同的网络模型：当前actor网络μ(s|θ_μ)和目标actor网络μ′(s|θ_μ′)；其中θ_Q和θ_Q′分别为Q和Q′的参数，θ_μ和θ_μ′分别为μ和μ′参数，Q和Q′的输入为状态s和动作a，输出为评价该次动作a的值，μ和μ′的输入为状态s，输出为智能体的下一步动作。

S43.采用TD-error方式，对参数θ_Q的更新，损失函数L为：

其中，i＝1，2...N，N为批量抽取经验的数目，本实施例取值为16，Y_i＝R_i+Q′(S_i+1，μ′(S_i+1|θ_μ′)|θ_Q′)，Y_i为损失函数L中的目标值；从经验池中抽取的transition(s，a，r，s′)和transition_m(s_m，a_m，r_m，s′_m)，S_i为状态s和s_m组成的集合，A_i为动作a和a_m组成的集合，R_i为奖励值r和r_m组成的集合，S_i+1为状态s′和s′_m组成的集合；求得损失函数L针对θ_Q的梯度

对其进行梯度下降，得到更新后的θ_Q；

其中，a＝μ(S_i|θ_μ)，

表示对a求导，

表示对θ_μ求导；

Q′和μ′采用软更新方式：

θ_Q′←τθ_Q+(1-τ)θ_Q′

θ_μ′←τθ_μ+(1-τ)θ_μ′

其中，τ为平衡因子，本实施例中取值为0.005。

S44.利用步骤S43的公式更新actor和critic模块，如果样本数量达到经验池的最大样本数量，则用最新的样本替换旧的样本；

S5.重复步骤S4，直到达到训练回合数M。

本发明的训练方法与传统ddpg的收敛曲线图如图5、图6所示，横坐标为训练的回合数，纵坐标为平均奖励，所述平均奖励是指当前所有回合的累计奖励除以当前回合数。从图6可以看出，传统ddpg在第26465回合时平均奖励值达到4左右，开始收敛，但达到最大训练回合M时平均奖励值仅为6左右，也未完成收敛，并且训练过程中很不稳定，在2369、11580、25230回合时出现平均奖励值下降的现象；从图5可以看出，本发明训练方法在5980回合时平均奖励值达到5左右，开始逐步收敛，并在30000回合以后完成收敛，平均奖励值稳定在9左右，并且训练稳定。由此可以看出本训练方法较传统ddpg收敛更快、训练更稳定。

本发明的训练方法与传统ddpg训练完成后完成任务成功率如表2所示。所述完成任务成功率是指：总计测试n次，每次测试随机初始化物块位置，在规定T＝16个步长内到达物块位置的次数m除以n，

如表2所示，总共测试100次，传统ddpg完成任务成功率为92％，本发明训练方法完成任务成功率为100％。由此可以看出本发明的训练方法完成任务的成功率较传统ddpg有显著的提升。

表2

Claims

1.一种基于正向运动学的机械臂深度确定性策略梯度训练方法，其特征在于，包括以下步骤：

S2.根据机械臂类型建立机械臂正向运动学模型：

S5.重复步骤S4，直到达到训练回合数M。

2.根据权利要求1所述基于正向运动学的机械臂深度确定性策略梯度训练方法，其特征在于，所述步骤S1包括以下步骤：

l＝1,2...j，

为关节最小角度，

为关节最大角度；状态空间S中状态s由末端执行器位姿p(x，y，z，α，β，γ)和步骤S12所设定的机械臂控制任务决定，记为s＝(p，s_d)，其中(x，y，z)为末端执行器位置，(αβ，γ)为末端执行器姿态，s_d为状态s中不包括末端执行器位姿p的部分。

3.根据权利要求2所述基于正向运动学的机械臂深度确定性策略梯度训练方法，其特征在于，所述步骤S3包括以下步骤：

S33.当前actor网络和critic网络更新后，目标actor网络和critic网络才会开始更新。

4.根据权利要求3所述基于正向运动学的机械臂深度确定性策略梯度训练方法，其特征在于，所述步骤S4包括以下步骤：

S41.智能体与环境交互达到每回合训练步数T后，从经验池中抽取经验更新actor与critic模块后，进行动态规划，

S43.采用TD-error方式，对参数θ_Q的更新，损失函数L为：

其中，i＝1，2...N，N为批量抽取经验的数目，Y_i＝R_i+Q′(S_i+1，μ′(S_i+1|θ_μ′)|θ_Q′)，Y_i为损失函数L中的目标值；从经验池中抽取的transition(s，a，r，s′)和transition_m(s_m，a_m，r_m，s′_m)，S_i为状态s和s_m组成的集合，A_i为动作a和a_m组成的集合，R_i为奖励值r和r_m组成的集合，S_i+1为状态s′和s′_m组成的集合；

求得损失函数L针对θ_Q的梯度