CN114800488B

CN114800488B - 一种基于深度强化学习的冗余机械臂可操作度优化方法及装置

Info

Publication number: CN114800488B
Application number: CN202210272600.8A
Authority: CN
Inventors: 梁斌; 王学谦; 杨皓强; 孟得山
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2023-06-20
Anticipated expiration: 2042-03-18
Also published as: CN114800488A

Abstract

本发明公开了一种基于深度强化学习的冗余机械臂可操作度优化方法，其特征在于，包括用强化学习方法完成在固定复位机制下冗余机械臂对随机目标的接近训练；继续用强化学习方法完成在随机复位机制下冗余机械臂对随机目标的接近训练；其中“随机复位”是指让机械臂处于随机状态；在奖励函数中加“可操作度”项，并增加“可操作度”项的系数，再次用强化学习方法完成对冗余机械臂可操作度的优化；用优化后的算法对冗余机械臂进行控制。本发明通过首次使用带有可操作度奖励的强化学习方法来训练机械臂，使得机械臂在具备末端轨迹跟踪能力的同时，具备自动优化可操作度的能力，并且具备很好的通用性，能够对各种复杂的机器人结构进行训练。

Description

一种基于深度强化学习的冗余机械臂可操作度优化方法及装置

技术领域

本发明涉及冗余机械臂控制技术领域，具体为一种基于深度强化学习的冗余机械臂可操作度优化方法及装置。

背景技术

冗余机械臂具有多余的空间运动自由度，在空间避障和运动规划方面具有很大的优点，成为机器人研究领域的热点。但是冗余机械臂控制领域中存在一个重要的控制难题，是运动规划中的奇异点问题。冗余机械臂虽然具备很强的灵活性，但是其在实际的运动规划中仍然会遇到奇异臂型的问题，当机械臂靠近奇异状态时，末端很小的位移就会引发机械臂的关节剧烈抖动，从而引发关节损坏、传感器故障的问题。为了解决这一问题，很多学者在机器人运动规划中优化机器人的操作性能评价指标(如可操作度)，以保障机器人运动的灵巧性，从而在运动过程中尽可能地远离机器人奇异状态。

在对机器人进行灵巧控制时，通常的做法是基于传统的控制方法，即在规划路径时在关节的零空间中加入可操作度w随角度q的梯度

使得规划时臂型尽量地朝着可操作度高的方向运动，但是这样处理会带来很复杂的矩阵求导以及矩阵求逆的运算，不便于实时解算。强化学习属于机器学习的一种，它研究的问题是如何让智能体学习到一种执行策略使得其在环境中能获得最大奖赏。如中国专利CN201710042360.1提出一种冗余度机械臂的可操作度优化的运动规划方法包括:设定冗余度机械臂的可操作度导数最大化的优化运动性能指标,以及与所述运动性能指标相应的约束关系；将所述运动性能指标以及相应的约束关系转化为二次规划问题；通过二次规划求解器对所述二次规划问题进行求解，得到求解结果；根据所述求解结果控制机械臂运动。但是该专利存在如下几个缺点：a)此专利的可操作度优化是基于传统的雅可比矩阵优化，且需要多次迭代计算，这给轨迹规划过程带来很大的时间复杂度，运算速度慢；b)可操作度优化需要针对不同机器人的结构进行数学变换，公式复杂，不便于推广到结构更复杂的机器人上。

发明内容

为了解决现有技术中存在针对轨迹规划过程中优化可操作度的实时性差、运算速度慢以及针对数学变换，公式复杂的技术问题，本发明的目的在于提供一种基于深度强化学习的冗余机械臂可操作度优化方法及装置。

本发明提供了一种基于深度强化学习的冗余机械臂可操作度优化方法，包括如下步骤：

S1、用强化学习方法完成在固定复位机制下冗余机械臂对随机目标的接近训练；

S2、继续用强化学习方法完成在随机复位机制下冗余机械臂对随机目标的接近训练；其中“随机复位”是指让机械臂处于随机状态；

S3、在奖励函数中加“可操作度”项，并增加“可操作度”项的系数，再次用强化学习方法完成对冗余机械臂可操作度的优化；

S4、用优化后的算法对冗余机械臂进行控制。

在一些实施例中，步骤S1中所述固定复位是机械臂处于水平伸直状态。

在一些实施例中，步骤S3中，通过调整“可操作度”项的系数，让算法能够正常收敛。

在一些实施例中，使用强化学习中的TD3算法完成冗余机械臂的固定复位机制下随机目标接近任务。

在一些实施例中，所述步骤S1中，每次回合开始，机械臂处于水平伸直状态，然后机械臂末端到达随机设置的目标点，每次回合结束后都固定地复位到水平伸直状态。

在一些实施例中，对输入状态和输出动作的值范围都进行对称处理，保证它们都具备的对称分布特点。

在一些实施例中，设置奖励为机械臂末端位置与目标点的欧氏距离的相反数。

在一些实施例中，将折扣因子γ取值取0，以消除下一步动作价值Q(s,a)的干扰。

在一些实施例中，取k_w1的值使得k_w1/w_t+1与d_t+1的数量级相近，从而在训练中兼顾末端接近任务和增大可操作度任务，其中k_w1是可调整的超参数，d_t+1为机械臂末端位置与目标点的欧氏距离，下标t代表t时刻的状态变量，下标t+1代表t+1时刻的状态变量。

本发明还提供一种冗余机械臂控制装置，包括：包括至少一个存储器以及至少一个处理器；

所述存储器，包括存储于其中的至少一个可执行程序；

所述可执行程序在由所述处理器执行时，实现所述的方法。

本发明所述的基于深度强化学习的冗余机械臂可操作度优化方法，通过首次使用带有可操作度奖励的强化学习方法来训练机械臂，在强化学习方法的奖励函数中增加可操作度指标，可以让训练后的机械臂在末端轨迹运动的同时自动地增大其可操作度，无需复杂的运动学求解和迭代计算，具备更强的实时性，从而解决传统方法中实时差的问题，从而使得机械臂在具备末端轨迹跟踪能力的同时，具备自动优化可操作度的能力，并且具备很好的通用性，能够对各种复杂的机器人结构进行训练。

另外，本发明所述的基于深度强化学习的冗余机械臂可操作度优化方法，通过分步优化，一步一步由易到难，在奖励函数中加“可操作度”项，并增加“可操作度”项的系数，以确保训练能够收敛。

附图说明

图1为本发明实施例提供的基于深度强化学习的冗余机械臂可操作度优化方法的流程示意图；

图2为本发明实施例中6关节12自由度的超冗余机械臂在mujoco仿真引擎中的显示图；

图3为本发明实施例中固定复位机制下不同γ在评估过程中的成功率随回合的变化曲线图；

图4为本发明实施例中固定复位机制下不同γ在评估过程中的回报随回合的变化曲线图；

图5为本发明实施例中随机复位机制下不同γ在评估过程中的成功率随回合的变化曲线图；

图6为本发明实施例中随机复位机制下不同γ在评估过程中的回报随回合的变化曲线图；

图7为本发明实施例中不同k_w1在评估过程中的成功率随回合的变化曲线图；

图8为本发明实施例中不同k_w1在评估过程中的成功率随回合的变化曲线图；

图9为本发明实施例中不同k_w1在评估过程中的成功率随回合的变化曲线图；

图10为本发明实施例中不同k_w1在评估过程中，圆轨迹跟踪过程中可操作度随机械臂运动步数的变化曲线图；

图11为不同k_w1在评估过程中，直线轨迹跟踪过程中可操作度随机械臂运动步数的变化曲线图；

图12为本发明实施例中不同k_w1在线段与圆混合轨迹评估过程中，包括k_w1＝0可操作度随机械臂运动步数的变化曲线图；

图13为本发明实施例中不同k_w1在线段与圆混合轨迹评估过程中，删去k_w1＝0可操作度随机械臂运动步数的变化曲线图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1是根据本发明实施例提供的基于深度强化学习的冗余机械臂可操作度优化方法的流程示意图，基于深度强化学习的冗余机械臂可操作度优化方法包括以下步骤：

S4、用优化后的算法对冗余机械臂进行控制。

在本发明的一种实施例中，使用强化学***伸直状态，然后机械臂末端到达随机设置的目标点，每次回合结束后都固定地复位到水平伸直状态。此任务是后续随机复位机制任务与末端轨迹跟踪任务(即完全不复位)的基础。

为了体现机械臂的超冗余特性，此12自由度机械臂仅考虑其末端的位置，而不考虑其姿态，这样对于3个自由度的末端位置信息，12个控制量是超冗余的。值得一提的是，本发明的思路完全可以推广到加上末端姿态信息。

本发明的研究对象为图2所示机械臂，其有6个关节，每个关节具备俯仰和偏航两个自由度，共12自由度。每段臂杆的长度为0.09m，每个关节及末端执行器用小球表示，小球的直径为0.01m，因而整个机械臂长度为0.7m。根据实际机械臂情况可知，环境是全局可观的并且状态转移符合马尔可夫链，因而机械臂的运动过程可视为马尔可夫决策过程。马尔可夫决策过程可以由一个六元组

表示，/>

为状态空间、/>

为动作空间、/>

为奖励空间、/>

为状态转移概率空间、ρ₀为初始状态分布、γ为折扣因子。

为了后续描述的方便，将机械臂的状态空间记为

其中包含臂杆关节角度、臂杆关节角速度、机械臂末端位置、机械臂末端线速度；将目标点位置的状态空间记为/>

因为本节的任务为随机目标点的接近，所以根据广义值函数拟合器方法可知，需要引入目标点的信息作为状态的一部分，才能有助于强化学习算法的收敛，即状态空间/>

由两部分拼接而成。“行动者”网络和“评论家”网络的输入状态/>

如表1所示，由五部分组成,为：臂杆关节角度、臂杆关节角速度、机械臂末端位置、机械臂末端线速度、目标坐标。动作/>

是mujoco仿真引擎中驱动器的值。经过简单的测试发现，mujoco中设置关节的驱动模式为速度模式和位置模式的差别不大，关节速度或关节角度都不会直接地等于设置的值，由PID控制调节。

为了使神经网络更好地收敛，对输入状态和输出动作的值范围都进行了对称处理，保证它们都具备[-X,X]的对称分布特点。由于TD3算法是无模型(无模型)的算法，故训练算法可以推广到更加多自由度的机械臂。

因为机械臂的运动学是完全确定的，所以状态转移概率

的取值p也是完全确定的，满足式(3-4)，其中f(·)代表机械臂的正运动学，Pr[·]代表概率，S_t代表t时刻的状态变量，对应的s代表变量的取值、S_t+1代表t+1时刻的状态变量，对应的s'代表变量的取值。

强化学习算法最重要的是设置奖励

正确的奖励能够引导智能体收敛到预期的策略。一般来说R_t+1是与S_t,A_t,S_t+1有关的，但是根据式可知S_t+1会被S_t和A_t唯一确定，故为了简单起见，设置奖励R_t+1为S_t+1中机械臂末端位置e_t+1与目标点/>

的欧氏距离d_t+1的相反数，即满足式(3-5)，其中奖励R_t+1为S_t+1中机械臂末端位置e_t+1与目标点/>

的欧氏距离d_t+1的相反数，R(S_t,A_t)表明变量R_t+1与S_t和A_t有关，而与S_t+1无关；这样不仅能够直接表示任务目的，正确地引导智能体学习动作，而且奖励的形式足够简单。

因为状态空间

由/>

和/>

两部分组成，所以初始状态分布ρ₀也分两部分讲述。在本节中机械臂为固定复位，每个回合开始时，机械臂的关节角速度和关节角度均为0，(末端位置和线速度可由关节角度和角速度确定)，将此时的机械臂状态记为^ms₀。而目标点位置g则是在工作空间/>

中随机选取。故初始状态分布ρ₀满足式(3-6)，其中/>

为目标点位置空间

中所有点的数量，Pr[S₀＝s]代表当状态变量S₀＝s时的取值概率。

折扣因子γ∈[0,1]。此参数在TD3算法中体现在对“评论家”网络的更新，表示对下一步动作价值Q(s',a')重视的程度，γ越大，说明对下一步重视地越多，它体现在式中。

每个回合结束的标志为d_t+1≤d_threshold＝0.02或机械臂运动的步数等于100步。

表1“行动者”网络和“评论家”网络的输入情况

^amujoco中的驱动器都是单一控制输入，若设置速度模式，驱动器的速度并不会直接达到那个值，而是通过PID调节到达那个值，因此需要一定的滞留时间。

^b此值是“行动者”网络的输出

^c尝试加过，但是发现状态变量中加上这个没有明显的效果提升

表2“行动者”网络和“评论家”网络的超参数

折扣因子γ是影响强化学习训练的重要超参数。本节研究了在不同随机种子下，折扣因子γ的取值对训练的影响。如图3和4所示，图中各点的含义为：在12000个回合的训练中每隔40个回合就进行一次评估，每个点的取值为最近10次评估的成功率均值和回报均值，而图中的实线表示3个不同随机种子下运行结果的均值，而阴影区域则为所求得的95％的置信区间。由图3和4可知，γ取值越大，效果反而越差，因此γ最佳取值为0。分析其原因，奖励设置为式(3-5)的形式，能够很好地描绘动作价值Q(s,a)体现当前动作A_t对当前状态S_t的影响，而在奖励函数的基础上考虑下一步动作价值Q(s',a')反而增加了干扰，不利于“评论家”网络收敛。

随机复位机制下随机目标接近任务

在上一节中发现使用TD3算法能够很好地使机械臂收敛到目标策略，完成固定复位机制下的随机目标接近任务。本节进一步地将初始状态进行随机化，在式(3-6)的基础上，随机化机械臂的初始关节角度，机械臂的关节角速度仍然为0。随机复位机制下初始状态分布满足式(3-7)，其中

为机械臂状态空间的大小。

超参数的设置与表2完全相同。在随机复位机制下，训练机械臂20000个回合，同样每隔40个回合评估一次，其平均成功率和回报变化曲线如图4所示。对比图3-4和图5-6可知，随机复位比固定复位更难收敛，且同样地γ越小，收敛效果越好。

可操作度优化的末端轨迹跟踪

可操作度是机器人学中最常用的描述机器人操作性能的指标，笼统地来说，它代表机器人的灵巧性，可操作度越大，机器人越灵巧。具体而言，可操作度w的定义是基于机器人的速度雅可比矩阵J(θ)，计算公式为式，其中σ_i是矩阵J(θ)的奇异值。

因为可操作度越小，机械臂越靠近奇异状态，所以国内外许多学者为了避免机械臂在运动过程中遇到奇异状态，在运动规划中会对机械臂的可操作度进行优化，从而保证运动过程中的灵巧性。传统控制方法以及神经网络求解方法通常遇到的问题是实时性差、求解复杂、无法迁移到其它种类的机械臂上、不具备很好的通用性，因此有必要使用强化学习的方法进行训练，使得机械臂在运动过程中能够自动地进行可操作度的优化。

根据机械臂DH参数法能够推导出此机械臂的速度雅可比矩阵，进而推导出可操作度表达式，本节不再详细讲述推导过程，由于机械臂的可操作度与时间相关，故记为w_t。本节重点探讨如何将可操作度加入到奖励函数中进行强化学习训练。

对于本发明中12自由度的机械臂而言，距离d_t的数量级在10^-2～10^-1，而可操作度w_t的数量级一般在10^-2。将可操作度放入到奖励函数中需要同时满足两点要求，一是我们希望机械臂学到的策略是尽量使可操作度变大，二是不能掩盖主要的末端接近任务。式(3-9)满足了第一点要求，可操作度越大，奖励越大，但是不满足第二点要求，因为机械臂的可操作度前的符号为正数，这会导致机械臂在目标点附近不断地调整臂型以获得正奖励从而进行“刷分”，而不去完成目标点的接近任务。

R_t+1＝-d_t+1+w_t+1 (3-9)

那么综合两点要求，我们可以设计出很多的满足要求的奖励。式(3-10)是一种可行的奖励，其中k_w1是可调整的超参数。k_w1的数量级在10^-4～10^-3较好，一方面

的数量级不会超过d_t+1，保证机械臂学到的策略仍然能够完成末端接近任务；另一方面/>

不会太小，不会在训练过程中被忽略。图7-8和图9尝试了不同k_w1对接近任务成功率的影响，其余的超参数与表2相同，γ的取值为0。可以看到k_w1的范围在10^-4～10^-1时，末端接近任务能够很好地完成，但是超过10^-1的范围时，末端接近任务就不容易完成了，因为可操作度那一项的数量级已经远超过欧式距离的数量级，在强化学习算法中会认为调节可操作度任务比末端接近任务更重要。

接着比较在同一随机种子经过20000个回合的训练(这样能够保证在训练时生成的随机目标点一致)后，不同k_w1对机械臂训练后的末端轨迹跟踪效果的差异。由于k_w1超过10^-1时，算法难以正确地收敛，故使用TD3算法训练和测试时仅限于k_w1∈[0,10^-1]，我们从中挑选了5个值，分别为：k_w1＝0,10^-4,10^-3,10^-2,10^-1。在测试部分中，机械臂的初始状态为水平伸直状态，我们给定的任务为跟踪以下三种不同的路径：

1.圆。要求机械臂末端在测试中能够跟踪圆心位置为(0.6,0,0)，半径为0.1的圆轨迹。

2.线段。要求机械臂末端在测试中能够跟踪起点为(0.55,-0.1,0)，终点为(0.65,0.2,0)的线段轨迹。

3.线段+圆。要求机械臂末端在测试中能够首先跟踪起点为(0.8,0,0)，终点为(0.7,0,0)的线段轨迹，然后跟踪圆心位置为(0.6,0,0)，半径为0.1的圆轨迹。

图10-11和图12-13为TD3算法训练机械臂后进行轨迹跟踪的测试结果，k_w1＝0意味着没有在奖励中加入可操作度这一项。kw1＝0就代表不加可操作度，kw1≠0就代表加了可操作度，然后我描绘出了运动过程中的可操作度变化曲线，发现加了可操作度的机械臂它在运动过程中的可操作度值明显高于没加的情况，从而说明了确实能够提高机械臂的灵巧性，规避奇异状态。

对比五种不同奖励训练出来的机械臂在三种路径跟踪任务的表现，我们可以得到以下三点观察：

1.用k_w1＝0的奖励训练出来的机械臂完成指定任务所需的时间步更长，有时候甚至无法完成任务，比如它无法完成任务三。

2.用k_w1＝0训练的机械臂在运动过程中可操作度的值一般都低于其他用可操作度奖励训练出来的机械臂，特别是终态的可操作度是其他机械臂的一半。

3.在所有用可操作度奖励训练的机械臂中，k_w1＝10^-3表现最好。不仅可操作度最大，而且运动过程所需的时间步最少。

以上三个观察能得出的结论是，加入可操作度奖励能让TD3算法更好地训练机械臂完成末端轨迹跟踪任务，不仅能够提高机械臂运动过程中的可操作度(代表灵巧性)还能够缩短机械臂运动的控制步长。k_w1＝10^-3表现最好是因为此时k_w1/w_t+1与d_t+1的数量级相近，在训练中能够兼顾末端接近任务和增大可操作度任务。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于深度强化学习的冗余机械臂可操作度优化方法，其特征在于，包括如下步骤：

其中，将可操作度加入到奖励函数中进行强化学习训练，式(3-10)是一种可行的奖励：

其中，R_t+1为奖励，d_t+1为机械臂末端位置与目标点的欧氏距离，k_w1是可调整的超参数，w_t+1为可操作度；

S4、用优化后的算法对冗余机械臂进行控制。

2.如权利要求1所述的基于深度强化学***伸直状态。

3.如权利要求1所述的基于深度强化学习的冗余机械臂可操作度优化方法，其特征在于，步骤S3中，通过调整“可操作度”项的系数，让算法能够正常收敛；其中，使用TD3算法训练和测试时仅限于k_w1∈[0,10^-1]。

4.如权利要求1所述的基于深度强化学习的冗余机械臂可操作度优化方法，其特征在于，使用强化学习中的TD3算法完成冗余机械臂的固定复位机制下随机目标接近任务；所述机械臂的运动过程可视为马尔可夫决策过程；马尔可夫决策过程可以由一个六元组

ρ₀,γ表示，/>

为状态空间、/>

为动作空间、/>

为奖励空间、/>

为状态转移概率空间、ρ₀为初始状态分布、γ为折扣因子。

5.如权利要求1所述的基于深度强化学***伸直状态，然后机械臂末端到达随机设置的目标点，每次回合结束后都固定地复位到水平伸直状态。

6.如权利要求4所述的基于深度强化学习的冗余机械臂可操作度优化方法，其特征在于，对输入状态和输出动作的值范围都进行对称处理，保证它们都具备的对称分布特点。

7.如权利要求4所述的基于深度强化学习的冗余机械臂可操作度优化方法，其特征在于，设置奖励为机械臂末端位置与目标点的欧氏距离的相反数。

8.如权利要求4所述的基于深度强化学习的冗余机械臂可操作度优化方法，其特征在于，将折扣因子γ取值取0，以消除下一步动作价值Q(s,a)的干扰；其中，所述下一步动作价值Q(s,a)体现在下一步状态S_t+1时下一时刻动作A_t+1的价值。

9.如权利要求1所述的基于深度强化学习的冗余机械臂可操作度优化方法，其特征在于，取k_w1的值使得k_w1/w_t+1与d_t+1的数量级相近，从而在训练中兼顾末端接近任务和增大可操作度任务，其中k_w1是可调整的超参数，d_t+1为机械臂末端位置与目标点的欧氏距离，下标t代表t时刻的状态变量，下标t+1代表t+1时刻的状态变量。

10.一种冗余机械臂控制装置，其特征在于，包括：包括至少一个存储器以及至少一个处理器；

所述存储器，包括存储于其中的至少一个可执行程序；

所述可执行程序在由所述处理器执行时，实现如权利要求1至9中任一项所述的方法。