CN114800488B - 一种基于深度强化学习的冗余机械臂可操作度优化方法及装置 - Google Patents

一种基于深度强化学习的冗余机械臂可操作度优化方法及装置 Download PDF

Info

Publication number
CN114800488B
CN114800488B CN202210272600.8A CN202210272600A CN114800488B CN 114800488 B CN114800488 B CN 114800488B CN 202210272600 A CN202210272600 A CN 202210272600A CN 114800488 B CN114800488 B CN 114800488B
Authority
CN
China
Prior art keywords
operability
mechanical arm
reinforcement learning
redundant
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210272600.8A
Other languages
English (en)
Other versions
CN114800488A (zh
Inventor
梁斌
王学谦
杨皓强
孟得山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen International Graduate School of Tsinghua University
Original Assignee
Shenzhen International Graduate School of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen International Graduate School of Tsinghua University filed Critical Shenzhen International Graduate School of Tsinghua University
Priority to CN202210272600.8A priority Critical patent/CN114800488B/zh
Publication of CN114800488A publication Critical patent/CN114800488A/zh
Application granted granted Critical
Publication of CN114800488B publication Critical patent/CN114800488B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/1643Programme controls characterised by the control loop redundant control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/1651Programme controls characterised by the control loop acceleration, rate control
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于深度强化学习的冗余机械臂可操作度优化方法,其特征在于,包括用强化学习方法完成在固定复位机制下冗余机械臂对随机目标的接近训练;继续用强化学习方法完成在随机复位机制下冗余机械臂对随机目标的接近训练;其中“随机复位”是指让机械臂处于随机状态;在奖励函数中加“可操作度”项,并增加“可操作度”项的系数,再次用强化学习方法完成对冗余机械臂可操作度的优化;用优化后的算法对冗余机械臂进行控制。本发明通过首次使用带有可操作度奖励的强化学习方法来训练机械臂,使得机械臂在具备末端轨迹跟踪能力的同时,具备自动优化可操作度的能力,并且具备很好的通用性,能够对各种复杂的机器人结构进行训练。

Description

一种基于深度强化学习的冗余机械臂可操作度优化方法及 装置
技术领域
本发明涉及冗余机械臂控制技术领域,具体为一种基于深度强化学习的冗余机械臂可操作度优化方法及装置。
背景技术
冗余机械臂具有多余的空间运动自由度,在空间避障和运动规划方面具有很大的优点,成为机器人研究领域的热点。但是冗余机械臂控制领域中存在一个重要的控制难题,是运动规划中的奇异点问题。冗余机械臂虽然具备很强的灵活性,但是其在实际的运动规划中仍然会遇到奇异臂型的问题,当机械臂靠近奇异状态时,末端很小的位移就会引发机械臂的关节剧烈抖动,从而引发关节损坏、传感器故障的问题。为了解决这一问题,很多学者在机器人运动规划中优化机器人的操作性能评价指标(如可操作度),以保障机器人运动的灵巧性,从而在运动过程中尽可能地远离机器人奇异状态。
在对机器人进行灵巧控制时,通常的做法是基于传统的控制方法,即在规划路径时在关节的零空间中加入可操作度w随角度q的梯度
Figure BDA0003554275360000011
使得规划时臂型尽量地朝着可操作度高的方向运动,但是这样处理会带来很复杂的矩阵求导以及矩阵求逆的运算,不便于实时解算。强化学习属于机器学习的一种,它研究的问题是如何让智能体学习到一种执行策略使得其在环境中能获得最大奖赏。如中国专利CN201710042360.1提出一种冗余度机械臂的可操作度优化的运动规划方法包括:设定冗余度机械臂的可操作度导数最大化的优化运动性能指标,以及与所述运动性能指标相应的约束关系;将所述运动性能指标以及相应的约束关系转化为二次规划问题;通过二次规划求解器对所述二次规划问题进行求解,得到求解结果;根据所述求解结果控制机械臂运动。但是该专利存在如下几个缺点:a)此专利的可操作度优化是基于传统的雅可比矩阵优化,且需要多次迭代计算,这给轨迹规划过程带来很大的时间复杂度,运算速度慢;b)可操作度优化需要针对不同机器人的结构进行数学变换,公式复杂,不便于推广到结构更复杂的机器人上。
发明内容
为了解决现有技术中存在针对轨迹规划过程中优化可操作度的实时性差、运算速度慢以及针对数学变换,公式复杂的技术问题,本发明的目的在于提供一种基于深度强化学习的冗余机械臂可操作度优化方法及装置。
本发明提供了一种基于深度强化学习的冗余机械臂可操作度优化方法,包括如下步骤:
S1、用强化学习方法完成在固定复位机制下冗余机械臂对随机目标的接近训练;
S2、继续用强化学习方法完成在随机复位机制下冗余机械臂对随机目标的接近训练;其中“随机复位”是指让机械臂处于随机状态;
S3、在奖励函数中加“可操作度”项,并增加“可操作度”项的系数,再次用强化学习方法完成对冗余机械臂可操作度的优化;
S4、用优化后的算法对冗余机械臂进行控制。
在一些实施例中,步骤S1中所述固定复位是机械臂处于水平伸直状态。
在一些实施例中,步骤S3中,通过调整“可操作度”项的系数,让算法能够正常收敛。
在一些实施例中,使用强化学习中的TD3算法完成冗余机械臂的固定复位机制下随机目标接近任务。
在一些实施例中,所述步骤S1中,每次回合开始,机械臂处于水平伸直状态,然后机械臂末端到达随机设置的目标点,每次回合结束后都固定地复位到水平伸直状态。
在一些实施例中,对输入状态和输出动作的值范围都进行对称处理,保证它们都具备的对称分布特点。
在一些实施例中,设置奖励为机械臂末端位置与目标点的欧氏距离的相反数。
在一些实施例中,将折扣因子γ取值取0,以消除下一步动作价值Q(s,a)的干扰。
在一些实施例中,取kw1的值使得kw1/wt+1与dt+1的数量级相近,从而在训练中兼顾末端接近任务和增大可操作度任务,其中kw1是可调整的超参数,dt+1为机械臂末端位置与目标点的欧氏距离,下标t代表t时刻的状态变量,下标t+1代表t+1时刻的状态变量。
本发明还提供一种冗余机械臂控制装置,包括:包括至少一个存储器以及至少一个处理器;
所述存储器,包括存储于其中的至少一个可执行程序;
所述可执行程序在由所述处理器执行时,实现所述的方法。
本发明所述的基于深度强化学习的冗余机械臂可操作度优化方法,通过首次使用带有可操作度奖励的强化学习方法来训练机械臂,在强化学习方法的奖励函数中增加可操作度指标,可以让训练后的机械臂在末端轨迹运动的同时自动地增大其可操作度,无需复杂的运动学求解和迭代计算,具备更强的实时性,从而解决传统方法中实时差的问题,从而使得机械臂在具备末端轨迹跟踪能力的同时,具备自动优化可操作度的能力,并且具备很好的通用性,能够对各种复杂的机器人结构进行训练。
另外,本发明所述的基于深度强化学习的冗余机械臂可操作度优化方法,通过分步优化,一步一步由易到难,在奖励函数中加“可操作度”项,并增加“可操作度”项的系数,以确保训练能够收敛。
附图说明
图1为本发明实施例提供的基于深度强化学习的冗余机械臂可操作度优化方法的流程示意图;
图2为本发明实施例中6关节12自由度的超冗余机械臂在mujoco仿真引擎中的显示图;
图3为本发明实施例中固定复位机制下不同γ在评估过程中的成功率随回合的变化曲线图;
图4为本发明实施例中固定复位机制下不同γ在评估过程中的回报随回合的变化曲线图;
图5为本发明实施例中随机复位机制下不同γ在评估过程中的成功率随回合的变化曲线图;
图6为本发明实施例中随机复位机制下不同γ在评估过程中的回报随回合的变化曲线图;
图7为本发明实施例中不同kw1在评估过程中的成功率随回合的变化曲线图;
图8为本发明实施例中不同kw1在评估过程中的成功率随回合的变化曲线图;
图9为本发明实施例中不同kw1在评估过程中的成功率随回合的变化曲线图;
图10为本发明实施例中不同kw1在评估过程中,圆轨迹跟踪过程中可操作度随机械臂运动步数的变化曲线图;
图11为不同kw1在评估过程中,直线轨迹跟踪过程中可操作度随机械臂运动步数的变化曲线图;
图12为本发明实施例中不同kw1在线段与圆混合轨迹评估过程中,包括kw1=0可操作度随机械臂运动步数的变化曲线图;
图13为本发明实施例中不同kw1在线段与圆混合轨迹评估过程中,删去kw1=0可操作度随机械臂运动步数的变化曲线图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1是根据本发明实施例提供的基于深度强化学习的冗余机械臂可操作度优化方法的流程示意图,基于深度强化学习的冗余机械臂可操作度优化方法包括以下步骤:
S1、用强化学习方法完成在固定复位机制下冗余机械臂对随机目标的接近训练;
S2、继续用强化学习方法完成在随机复位机制下冗余机械臂对随机目标的接近训练;其中“随机复位”是指让机械臂处于随机状态;
S3、在奖励函数中加“可操作度”项,并增加“可操作度”项的系数,再次用强化学习方法完成对冗余机械臂可操作度的优化;
S4、用优化后的算法对冗余机械臂进行控制。
在本发明的一种实施例中,使用强化学***伸直状态,然后机械臂末端到达随机设置的目标点,每次回合结束后都固定地复位到水平伸直状态。此任务是后续随机复位机制任务与末端轨迹跟踪任务(即完全不复位)的基础。
为了体现机械臂的超冗余特性,此12自由度机械臂仅考虑其末端的位置,而不考虑其姿态,这样对于3个自由度的末端位置信息,12个控制量是超冗余的。值得一提的是,本发明的思路完全可以推广到加上末端姿态信息。
本发明的研究对象为图2所示机械臂,其有6个关节,每个关节具备俯仰和偏航两个自由度,共12自由度。每段臂杆的长度为0.09m,每个关节及末端执行器用小球表示,小球的直径为0.01m,因而整个机械臂长度为0.7m。根据实际机械臂情况可知,环境是全局可观的并且状态转移符合马尔可夫链,因而机械臂的运动过程可视为马尔可夫决策过程。马尔可夫决策过程可以由一个六元组
Figure BDA0003554275360000061
表示,/>
Figure BDA0003554275360000062
为状态空间、/>
Figure BDA0003554275360000063
为动作空间、/>
Figure BDA0003554275360000064
为奖励空间、/>
Figure BDA0003554275360000066
为状态转移概率空间、ρ0为初始状态分布、γ为折扣因子。
为了后续描述的方便,将机械臂的状态空间记为
Figure BDA0003554275360000065
其中包含臂杆关节角度、臂杆关节角速度、机械臂末端位置、机械臂末端线速度;将目标点位置的状态空间记为/>
Figure BDA0003554275360000067
因为本节的任务为随机目标点的接近,所以根据广义值函数拟合器方法可知,需要引入目标点的信息作为状态的一部分,才能有助于强化学习算法的收敛,即状态空间/>
Figure BDA0003554275360000068
由两部分拼接而成。“行动者”网络和“评论家”网络的输入状态/>
Figure BDA0003554275360000069
如表1所示,由五部分组成,为:臂杆关节角度、臂杆关节角速度、机械臂末端位置、机械臂末端线速度、目标坐标。动作/>
Figure BDA00035542753600000610
是mujoco仿真引擎中驱动器的值。经过简单的测试发现,mujoco中设置关节的驱动模式为速度模式和位置模式的差别不大,关节速度或关节角度都不会直接地等于设置的值,由PID控制调节。
为了使神经网络更好地收敛,对输入状态和输出动作的值范围都进行了对称处理,保证它们都具备[-X,X]的对称分布特点。由于TD3算法是无模型(无模型)的算法,故训练算法可以推广到更加多自由度的机械臂。
因为机械臂的运动学是完全确定的,所以状态转移概率
Figure BDA00035542753600000611
的取值p也是完全确定的,满足式(3-4),其中f(·)代表机械臂的正运动学,Pr[·]代表概率,St代表t时刻的状态变量,对应的s代表变量的取值、St+1代表t+1时刻的状态变量,对应的s'代表变量的取值。
Figure BDA0003554275360000071
强化学习算法最重要的是设置奖励
Figure BDA0003554275360000072
正确的奖励能够引导智能体收敛到预期的策略。一般来说Rt+1是与St,At,St+1有关的,但是根据式可知St+1会被St和At唯一确定,故为了简单起见,设置奖励Rt+1为St+1中机械臂末端位置et+1与目标点/>
Figure BDA0003554275360000073
的欧氏距离dt+1的相反数,即满足式(3-5),其中奖励Rt+1为St+1中机械臂末端位置et+1与目标点/>
Figure BDA0003554275360000074
的欧氏距离dt+1的相反数,R(St,At)表明变量Rt+1与St和At有关,而与St+1无关;这样不仅能够直接表示任务目的,正确地引导智能体学习动作,而且奖励的形式足够简单。
Figure BDA0003554275360000075
因为状态空间
Figure BDA0003554275360000076
由/>
Figure BDA0003554275360000077
和/>
Figure BDA0003554275360000078
两部分组成,所以初始状态分布ρ0也分两部分讲述。在本节中机械臂为固定复位,每个回合开始时,机械臂的关节角速度和关节角度均为0,(末端位置和线速度可由关节角度和角速度确定),将此时的机械臂状态记为ms0。而目标点位置g则是在工作空间/>
Figure BDA0003554275360000079
中随机选取。故初始状态分布ρ0满足式(3-6),其中/>
Figure BDA00035542753600000710
为目标点位置空间
Figure BDA00035542753600000711
中所有点的数量,Pr[S0=s]代表当状态变量S0=s时的取值概率。
Figure BDA00035542753600000712
折扣因子γ∈[0,1]。此参数在TD3算法中体现在对“评论家”网络的更新,表示对下一步动作价值Q(s',a')重视的程度,γ越大,说明对下一步重视地越多,它体现在式中。
每个回合结束的标志为dt+1≤dthreshold=0.02或机械臂运动的步数等于100步。
表1“行动者”网络和“评论家”网络的输入情况
Figure BDA0003554275360000081
amujoco中的驱动器都是单一控制输入,若设置速度模式,驱动器的速度并不会直接达到那个值,而是通过PID调节到达那个值,因此需要一定的滞留时间。
b此值是“行动者”网络的输出
c尝试加过,但是发现状态变量中加上这个没有明显的效果提升
表2“行动者”网络和“评论家”网络的超参数
Figure BDA0003554275360000091
折扣因子γ是影响强化学习训练的重要超参数。本节研究了在不同随机种子下,折扣因子γ的取值对训练的影响。如图3和4所示,图中各点的含义为:在12000个回合的训练中每隔40个回合就进行一次评估,每个点的取值为最近10次评估的成功率均值和回报均值,而图中的实线表示3个不同随机种子下运行结果的均值,而阴影区域则为所求得的95%的置信区间。由图3和4可知,γ取值越大,效果反而越差,因此γ最佳取值为0。分析其原因,奖励设置为式(3-5)的形式,能够很好地描绘动作价值Q(s,a)体现当前动作At对当前状态St的影响,而在奖励函数的基础上考虑下一步动作价值Q(s',a')反而增加了干扰,不利于“评论家”网络收敛。
随机复位机制下随机目标接近任务
在上一节中发现使用TD3算法能够很好地使机械臂收敛到目标策略,完成固定复位机制下的随机目标接近任务。本节进一步地将初始状态进行随机化,在式(3-6)的基础上,随机化机械臂的初始关节角度,机械臂的关节角速度仍然为0。随机复位机制下初始状态分布满足式(3-7),其中
Figure BDA0003554275360000101
为机械臂状态空间的大小。
Figure BDA0003554275360000102
超参数的设置与表2完全相同。在随机复位机制下,训练机械臂20000个回合,同样每隔40个回合评估一次,其平均成功率和回报变化曲线如图4所示。对比图3-4和图5-6可知,随机复位比固定复位更难收敛,且同样地γ越小,收敛效果越好。
可操作度优化的末端轨迹跟踪
可操作度是机器人学中最常用的描述机器人操作性能的指标,笼统地来说,它代表机器人的灵巧性,可操作度越大,机器人越灵巧。具体而言,可操作度w的定义是基于机器人的速度雅可比矩阵J(θ),计算公式为式,其中σi是矩阵J(θ)的奇异值。
Figure BDA0003554275360000103
因为可操作度越小,机械臂越靠近奇异状态,所以国内外许多学者为了避免机械臂在运动过程中遇到奇异状态,在运动规划中会对机械臂的可操作度进行优化,从而保证运动过程中的灵巧性。传统控制方法以及神经网络求解方法通常遇到的问题是实时性差、求解复杂、无法迁移到其它种类的机械臂上、不具备很好的通用性,因此有必要使用强化学习的方法进行训练,使得机械臂在运动过程中能够自动地进行可操作度的优化。
根据机械臂DH参数法能够推导出此机械臂的速度雅可比矩阵,进而推导出可操作度表达式,本节不再详细讲述推导过程,由于机械臂的可操作度与时间相关,故记为wt。本节重点探讨如何将可操作度加入到奖励函数中进行强化学习训练。
对于本发明中12自由度的机械臂而言,距离dt的数量级在10-2~10-1,而可操作度wt的数量级一般在10-2。将可操作度放入到奖励函数中需要同时满足两点要求,一是我们希望机械臂学到的策略是尽量使可操作度变大,二是不能掩盖主要的末端接近任务。式(3-9)满足了第一点要求,可操作度越大,奖励越大,但是不满足第二点要求,因为机械臂的可操作度前的符号为正数,这会导致机械臂在目标点附近不断地调整臂型以获得正奖励从而进行“刷分”,而不去完成目标点的接近任务。
Rt+1=-dt+1+wt+1 (3-9)
那么综合两点要求,我们可以设计出很多的满足要求的奖励。式(3-10)是一种可行的奖励,其中kw1是可调整的超参数。kw1的数量级在10-4~10-3较好,一方面
Figure BDA0003554275360000111
的数量级不会超过dt+1,保证机械臂学到的策略仍然能够完成末端接近任务;另一方面/>
Figure BDA0003554275360000112
不会太小,不会在训练过程中被忽略。图7-8和图9尝试了不同kw1对接近任务成功率的影响,其余的超参数与表2相同,γ的取值为0。可以看到kw1的范围在10-4~10-1时,末端接近任务能够很好地完成,但是超过10-1的范围时,末端接近任务就不容易完成了,因为可操作度那一项的数量级已经远超过欧式距离的数量级,在强化学习算法中会认为调节可操作度任务比末端接近任务更重要。
Figure BDA0003554275360000113
接着比较在同一随机种子经过20000个回合的训练(这样能够保证在训练时生成的随机目标点一致)后,不同kw1对机械臂训练后的末端轨迹跟踪效果的差异。由于kw1超过10-1时,算法难以正确地收敛,故使用TD3算法训练和测试时仅限于kw1∈[0,10-1],我们从中挑选了5个值,分别为:kw1=0,10-4,10-3,10-2,10-1。在测试部分中,机械臂的初始状态为水平伸直状态,我们给定的任务为跟踪以下三种不同的路径:
1.圆。要求机械臂末端在测试中能够跟踪圆心位置为(0.6,0,0),半径为0.1的圆轨迹。
2.线段。要求机械臂末端在测试中能够跟踪起点为(0.55,-0.1,0),终点为(0.65,0.2,0)的线段轨迹。
3.线段+圆。要求机械臂末端在测试中能够首先跟踪起点为(0.8,0,0),终点为(0.7,0,0)的线段轨迹,然后跟踪圆心位置为(0.6,0,0),半径为0.1的圆轨迹。
图10-11和图12-13为TD3算法训练机械臂后进行轨迹跟踪的测试结果,kw1=0意味着没有在奖励中加入可操作度这一项。kw1=0就代表不加可操作度,kw1≠0就代表加了可操作度,然后我描绘出了运动过程中的可操作度变化曲线,发现加了可操作度的机械臂它在运动过程中的可操作度值明显高于没加的情况,从而说明了确实能够提高机械臂的灵巧性,规避奇异状态。
对比五种不同奖励训练出来的机械臂在三种路径跟踪任务的表现,我们可以得到以下三点观察:
1.用kw1=0的奖励训练出来的机械臂完成指定任务所需的时间步更长,有时候甚至无法完成任务,比如它无法完成任务三。
2.用kw1=0训练的机械臂在运动过程中可操作度的值一般都低于其他用可操作度奖励训练出来的机械臂,特别是终态的可操作度是其他机械臂的一半。
3.在所有用可操作度奖励训练的机械臂中,kw1=10-3表现最好。不仅可操作度最大,而且运动过程所需的时间步最少。
以上三个观察能得出的结论是,加入可操作度奖励能让TD3算法更好地训练机械臂完成末端轨迹跟踪任务,不仅能够提高机械臂运动过程中的可操作度(代表灵巧性)还能够缩短机械臂运动的控制步长。kw1=10-3表现最好是因为此时kw1/wt+1与dt+1的数量级相近,在训练中能够兼顾末端接近任务和增大可操作度任务。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于深度强化学习的冗余机械臂可操作度优化方法,其特征在于,包括如下步骤:
S1、用强化学习方法完成在固定复位机制下冗余机械臂对随机目标的接近训练;
S2、继续用强化学习方法完成在随机复位机制下冗余机械臂对随机目标的接近训练;其中“随机复位”是指让机械臂处于随机状态;
S3、在奖励函数中加“可操作度”项,并增加“可操作度”项的系数,再次用强化学习方法完成对冗余机械臂可操作度的优化;
其中,将可操作度加入到奖励函数中进行强化学习训练,式(3-10)是一种可行的奖励:
Figure FDA0004197839640000011
其中,Rt+1为奖励,dt+1为机械臂末端位置与目标点的欧氏距离,kw1是可调整的超参数,wt+1为可操作度;
S4、用优化后的算法对冗余机械臂进行控制。
2.如权利要求1所述的基于深度强化学***伸直状态。
3.如权利要求1所述的基于深度强化学习的冗余机械臂可操作度优化方法,其特征在于,步骤S3中,通过调整“可操作度”项的系数,让算法能够正常收敛;其中,使用TD3算法训练和测试时仅限于kw1∈[0,10-1]。
4.如权利要求1所述的基于深度强化学习的冗余机械臂可操作度优化方法,其特征在于,使用强化学习中的TD3算法完成冗余机械臂的固定复位机制下随机目标接近任务;所述机械臂的运动过程可视为马尔可夫决策过程;马尔可夫决策过程可以由一个六元组
Figure FDA0004197839640000021
ρ0,γ表示,/>
Figure FDA0004197839640000022
为状态空间、/>
Figure FDA0004197839640000023
为动作空间、/>
Figure FDA0004197839640000024
为奖励空间、/>
Figure FDA0004197839640000025
为状态转移概率空间、ρ0为初始状态分布、γ为折扣因子。
5.如权利要求1所述的基于深度强化学***伸直状态,然后机械臂末端到达随机设置的目标点,每次回合结束后都固定地复位到水平伸直状态。
6.如权利要求4所述的基于深度强化学习的冗余机械臂可操作度优化方法,其特征在于,对输入状态和输出动作的值范围都进行对称处理,保证它们都具备的对称分布特点。
7.如权利要求4所述的基于深度强化学习的冗余机械臂可操作度优化方法,其特征在于,设置奖励为机械臂末端位置与目标点的欧氏距离的相反数。
8.如权利要求4所述的基于深度强化学习的冗余机械臂可操作度优化方法,其特征在于,将折扣因子γ取值取0,以消除下一步动作价值Q(s,a)的干扰;其中,所述下一步动作价值Q(s,a)体现在下一步状态St+1时下一时刻动作At+1的价值。
9.如权利要求1所述的基于深度强化学习的冗余机械臂可操作度优化方法,其特征在于,取kw1的值使得kw1/wt+1与dt+1的数量级相近,从而在训练中兼顾末端接近任务和增大可操作度任务,其中kw1是可调整的超参数,dt+1为机械臂末端位置与目标点的欧氏距离,下标t代表t时刻的状态变量,下标t+1代表t+1时刻的状态变量。
10.一种冗余机械臂控制装置,其特征在于,包括:包括至少一个存储器以及至少一个处理器;
所述存储器,包括存储于其中的至少一个可执行程序;
所述可执行程序在由所述处理器执行时,实现如权利要求1至9中任一项所述的方法。
CN202210272600.8A 2022-03-18 2022-03-18 一种基于深度强化学习的冗余机械臂可操作度优化方法及装置 Active CN114800488B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210272600.8A CN114800488B (zh) 2022-03-18 2022-03-18 一种基于深度强化学习的冗余机械臂可操作度优化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210272600.8A CN114800488B (zh) 2022-03-18 2022-03-18 一种基于深度强化学习的冗余机械臂可操作度优化方法及装置

Publications (2)

Publication Number Publication Date
CN114800488A CN114800488A (zh) 2022-07-29
CN114800488B true CN114800488B (zh) 2023-06-20

Family

ID=82530104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210272600.8A Active CN114800488B (zh) 2022-03-18 2022-03-18 一种基于深度强化学习的冗余机械臂可操作度优化方法及装置

Country Status (1)

Country Link
CN (1) CN114800488B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115272541B (zh) * 2022-09-26 2023-01-03 成都市谛视无限科技有限公司 一种驱动智能体到达多目标点的姿态生成方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956297B (zh) * 2016-05-09 2022-09-13 金陵科技学院 一种冗余机器人运动灵活性能综合评价与优化方法
CN108326844B (zh) * 2017-01-20 2020-10-16 香港理工大学深圳研究院 冗余度机械臂的可操作度优化的运动规划方法和装置
CN106842907B (zh) * 2017-02-16 2020-03-27 香港理工大学深圳研究院 一种多冗余度机械臂***的协同控制方法与装置
CN110333739B (zh) * 2019-08-21 2020-07-31 哈尔滨工程大学 一种基于强化学习的auv行为规划及动作控制方法
CN111923039B (zh) * 2020-07-14 2022-07-05 西北工业大学 一种基于强化学习的冗余机械臂路径规划方法
CN112528552A (zh) * 2020-10-23 2021-03-19 洛阳银杏科技有限公司 一种基于深度强化学习的机械臂控制模型构建方法

Also Published As

Publication number Publication date
CN114800488A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
US20180036882A1 (en) Layout setting method and layout setting apparatus
CN109901397B (zh) 一种使用粒子群优化算法的机械臂逆运动学方法
Thakar et al. Accounting for part pose estimation uncertainties during trajectory generation for part pick-up using mobile manipulators
CN114800488B (zh) 一种基于深度强化学习的冗余机械臂可操作度优化方法及装置
CN106965171A (zh) 具备学习功能的机器人装置
Gao et al. Optimal trajectory planning for robotic manipulators using improved teaching-learning-based optimization algorithm
CN112847235B (zh) 基于深度强化学习的机器人分阶力引导装配方法及***
CN116533249A (zh) 基于深度强化学习的机械臂控制方法
Laezza et al. Reform: A robot learning sandbox for deformable linear object manipulation
CN115091469B (zh) 一种基于最大熵框架的深度强化学习机械臂运动规划方法
CN113664829A (zh) 一种空间机械臂避障路径规划***、方法、计算机设备及存储介质
Hebecker et al. Towards real-world force-sensitive robotic assembly through deep reinforcement learning in simulations
CN111123943A (zh) 一种基于伪逆约束的超冗余机器人轨迹规划方法及***
Lämmle et al. Simulation-based learning of the peg-in-hole process using robot-skills
CN116803635A (zh) 基于高斯核损失函数的近端策略优化训练加速方法
CN113967909B (zh) 基于方向奖励的机械臂智能控制方法
CN110114195B (zh) 动作转移装置、动作转移方法和存储动作转移程序的非暂时性计算机可读介质
CN115533920A (zh) 一种求解绳驱机械臂逆运动学的协同规划方法及***、计算机存储介质
Yovchev Finding the optimal parameters for robotic manipulator applications of the bounded error algorithm for iterative learning control
CN117140527B (zh) 一种基于深度强化学习算法的机械臂控制方法及***
CN113290557A (zh) 一种基于数据驱动的蛇形机器人控制方法
US11921492B2 (en) Transfer between tasks in different domains
Liu et al. Optimizing Non-diagonal Stiffness Matrix of Compliance Control for Robotic Assembly Using Deep Reinforcement Learning
Flageat et al. Incorporating Human Priors into Deep Reinforcement Learning for Robotic Control.
US20230195843A1 (en) Machine learning device, machine learning method, and computer program product

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant