CN111515961B - 一种适用于移动机械臂的强化学习奖励方法 - Google Patents

一种适用于移动机械臂的强化学习奖励方法 Download PDF

Info

Publication number
CN111515961B
CN111515961B CN202010487548.9A CN202010487548A CN111515961B CN 111515961 B CN111515961 B CN 111515961B CN 202010487548 A CN202010487548 A CN 202010487548A CN 111515961 B CN111515961 B CN 111515961B
Authority
CN
China
Prior art keywords
mechanical arm
reward
mobile
mobile mechanical
coordinate system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010487548.9A
Other languages
English (en)
Other versions
CN111515961A (zh
Inventor
辛博
朱冰清
程旭
陈春林
马晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Nanxin Medical Technology Research Institute Co ltd
Nanjing University
Original Assignee
Nanjing Nanxin Medical Technology Research Institute Co ltd
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Nanxin Medical Technology Research Institute Co ltd, Nanjing University filed Critical Nanjing Nanxin Medical Technology Research Institute Co ltd
Priority to CN202010487548.9A priority Critical patent/CN111515961B/zh
Publication of CN111515961A publication Critical patent/CN111515961A/zh
Application granted granted Critical
Publication of CN111515961B publication Critical patent/CN111515961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

本发明公开一种适用于移动机械臂的强化学习奖励方法,包括如下步骤:S1、设计任务场景,初始化算法和移动机械臂的各项参数以及算法对应的深度网络模型;S2、重构并栅格化移动机械臂上信息采集设备发送的环境信息,明确移动机械臂的起始位置和目标位置;S3、与环境交互,收集训练数据存放于经验池;S4、从经验池中采样一个批次的数据,通过奖励函数的处理得到额外设计的反思奖励用于后续的训练;S5、结合原始奖励和额外奖励,使用深度强化学习算法训练移动机械臂在规划空间内完成目标任务;S6、记录相关训练数据和最后训练完成的模型参数,得到相对应的最优策略。

Description

一种适用于移动机械臂的强化学习奖励方法
技术领域
本发明涉及一种适用于移动机械臂的强化学习奖励方法,将强化学习用于传统的机械臂控制任务中,并重新设计奖励信号的构造方式,解决现有方法奖励设置的缺陷,取得了更好的控制性能。
背景技术
在传统的控制领域中,对于移动机械臂的控制与运动规划通常都是对机械臂进行运动学建模并求解末端位姿和对应各个关节的角度值。随着实际应用环境的复杂性不断提高,传统的基于模型和规则的控制方法对于环境的建模和机械臂的运动学求解也会越来越复杂,并且需要大量人为经验去设计相应的规则。
设计规则和建模都需要耗费很大的精力,并且多数场景下机械臂不能及时适应外部环境的变化。此时强化学习作为人工智能的一个重要研究方向,在处理这一类序列决策问题时就显示出了独特的优势并且不需要人为设计规则和建模就可以对移动机械臂进行正向的运动学求解。因此将强化学习应用于移动机械臂的训练是可行的。在强化学习中一个科学的奖励信号设置尤为重要,现有方法奖励信号设置过于简单,我们充分利用获得的历史奖励序列中的信息,结合心理学的峰终定律(Peak-EndRule)和势能函数理论重新构造奖励信号,使得被训练对象在联合奖励下能更快地找到最优策略。最后本发明使用深度强化学习算法和提出的奖励函数设计方法来训练移动机械臂完成相应的控制任务。
发明内容
本发明的目的主要是针对传统移动机械臂控制方案的不足,传统控制方法在实际应用环境变得越来越复杂后,使得机械臂的运动学求解也变得越来越困难。本发明提出了一种适用于移动机械臂的强化学习奖励方法,并在现有方法的基础上重新构造奖励函数,最终实现更好的控制性能。
技术方案:一种适用于移动机械臂的强化学习奖励方法,其特征在于,包括如下步骤:
S1、设计任务场景,初始化算法和移动机械臂的各项参数以及算法对应的深度网络模型;
S2、重构并栅格化移动机械臂上信息采集设备发送的环境信息,明确移动机械臂的初始位姿和相应自由度的位姿;
S3、与环境交互,收集训练数据存放于经验池;
S4、从经验池中采样一个批次的数据,通过奖励函数的处理得到额外设计的反思奖励用于后续的训练;
S5、结合原始奖励和额外设计的反思奖励,使用深度强化学习算法训练移动机械臂在规划空间内完成目标任务;
S6、记录相关训练数据和最后训练完成的模型参数,得到相对应的最优策略。
本发明技术方案进一步限定的技术方案为:在步骤S6中,所述策略的函数π*
Figure GDA0003592073700000021
其中:s为环境状态;
Figure GDA0003592073700000022
表示从状态s转移到状态s′的概率,Qπ(s′,a′)表示在策略π下,Q表中状态s′下选择某一动作a′的状态动作价值,r(s,a)表示在状态s下选取动作a所得回报奖励。
作为优选,所述步骤S1中,初始化各项参数的步骤包括:
步骤1.1,根据采用的强化学习算法模型设置基本的超参数、一次训练迭代所用的数据批次的大小k、步长η、初始化经验池的周期K、经验池的大小N,以及训练迭代次数T;其中k用于控制训练机械臂时一次所输入的数据的batchsize,步长η用于控制神经网络参数的更新幅度,初始化经验池的周期K为步骤3中使用随机策略与环境交互的次数,从而获得初始的训练数据;N用来控制经验池的大小,即总共能存储的数据量;
步骤1.2,对机械臂对应模块和控制器的参数进行初始化,获得移动机械臂的初始位置和相应的关节变量、末端位姿;
步骤1.3,设计环境状态的输入和移动机械臂的动作输出,具体包括:
a、训练机械臂时直接输入机械臂传感器和摄像头采集后的经过栅格化处理的图像观测和对应目标试管在世界坐标系的坐标作为环境的状态输入;
b、整个移动机械臂的动作输出至少包括两种不同形式:
(1)、移动机械臂末端对应在水平和竖直方向上的移动,并在合适的时机采取夹取的动作;
(2)当整个机械臂部分在动作空间内无法到达目标位置时,四轮移动机器人再进行相应的移动,四轮移动机器人只在水平方向上移动或停止。
作为优选,所述步骤S2包括以下几步:
步骤2.1,利用移动机械臂自带的双目视觉摄像头和相关传感器采集环境信息,明确移动机械臂的初始位姿和相应自由度的位姿;
假设移动机械臂的几何中心为M,移动机械臂自身坐标系为xoy,对应的世界坐标系为XOY;移动机械臂的运动方向角为φ,则对应的移动机械臂在世界坐标系中的初始位姿,可以表示为:
p=[xM,yM,φ]T (2)
初始状态下的运动方向角可以认为φ=0;对应的移动机械臂坐标系和世界坐标系之间的转换矩阵为:
Figure GDA0003592073700000031
由此可以得到对应的六轴机械臂末端坐标系在世界坐标系中的转换矩阵:
Figure GDA0003592073700000032
其中,M对应移动机械臂自身坐标系,W代表世界坐标系,数字0到6对应机械臂每个自由度的坐标系;对应的
Figure GDA0003592073700000033
P1=[e,0,f]T此时就可根据移动机械臂位姿和各个关节的角度得到末端位姿;
步骤2.2,对图像进行灰度处理并将图像的大小调整至合适尺寸,将灰度图等间隔等大小划分为若干正方形栅格,以便于表示出目标点的坐标作为环境状态的输入。
作为优选,所述步骤S3包括以下几个步骤:
步骤3.1,先使用合理的随机策略让机械臂去尝试完成控制任务,记录相应的数据并保存起来用于后续的训练;
步骤3.2,机械臂在完成控制任务时利用强化学习算法输出得到末端位姿和逆向运动学求解对应各个关节的角度值,避免机械臂的姿态出现不合理的情况。
作为优选,所述步骤S4包括以下几个步骤:
步骤4.1,设置原始奖励,所述原始奖励可以表示为:
R=Rdis+Rp (5)
其中:
Figure GDA0003592073700000041
pt表示的是目标试管在世界坐标系下的坐标,pm表示当前机械臂末端在世界坐标系下的坐标,对应的惩罚项为:
Figure GDA0003592073700000042
步骤4.2,根据对应的采样优先级从经验池中先获取一个批次的训练数据,其中的采样优先级可以看成一个满足下述条件的概率分布:
Figure GDA0003592073700000043
Figure GDA0003592073700000044
P(i)即为采样的概率分布,δi为强化学习算法模型的TD-error,rank(i)是采样每个样本的优先级,pi为对应的概率;
步骤4.3,采样得到数据后,对于数据的历史奖励序列可以表示为:
R=[r0,r1,r2,…,rt,rt+1,…,rN] (10)
其中:N为经验池的大小,在得到一个批次的数据后,计算当前奖励rt相对于过去时间段内的变化rd,得到奖励序列Rd:
Figure GDA0003592073700000045
Figure GDA0003592073700000046
步骤4.4,使用signal函数对Rd序列中的奖励进行处理得到Rsgn=f(Rd),signal函数具体表达式为:
Figure GDA0003592073700000047
步骤4.5,定义反思奖励,这里的反思奖励函数F=γΦ(s′)-Φ(s)满足势能函数的设定,使得在新MDP(马尔科夫决策过程)中学习到的最优策略仍然是原始MDP中的最优策略,保证不会因为奖励函数的重新构造而学习到错误的控制策略:
Figure GDA0003592073700000048
F=γΦ(s′)-Φ(s) (15)
作为优选,所述步骤S5主要包括以下几个步骤:
步骤5.1,训练和测试机械臂完成控制任务;
步骤5.2,输出对应动作空间的每个动作的估计Q值,根据Q值选取回报最大的动作进行执行;对应的神经网络模型输出两部分Q值,分别对应机械臂和移动机器人部分的值函数;
步骤5.3,根据优先级从事先准备的经验池中采样相应的数据(St,At,Rt,St+1)j
Figure GDA0003592073700000051
采样一个批次的数据作为神经网络的输入进行训练;
步骤5.4,根据值函数的定义,移动机械臂计算方式如下:
Q(s,a)=E[Runion|st,at,π]
=Es′[runion+γEa′~π(s′)[Q(s′,a′)]] (16)
其中:runion=r+rintro,r为原始设定的奖励信号,rintro为额外添加的反思奖励,对应的目标函数为:
Lii)=Es,a,r,s′[(yi-Q(s,a;θi))2] (17)
其中:
Figure GDA0003592073700000052
Figure GDA0003592073700000053
表示的是对应的目标网络的参数,目标网络的参数按设定周期进行参数更新;
步骤5.5,计算对应的TD-error用于后续更新采样优先级:
Figure GDA0003592073700000054
步骤5.6,根据梯度计算网络参数的改变量Δ:
Figure GDA0003592073700000055
步骤5.7,更新网络参数θ←θ+ηΔ,并重置
Figure GDA0003592073700000056
同时判断是否要更新目标网络参数。
有益效果:与现有技术相比,本发明所提出的适用于移动机械臂的强化学习奖励方法使用强化学习方法实现移动机械臂的正向运动学求解,并训练移动机械臂完成相应的控制任务;本发明在现有方法奖励函数设置的基础上,结合峰终定律和势能函数理论重新构造奖励信号,使得被训练智能体在联合奖励的指导下学习最优控制策略,有效的提高了学习的效率和最终性能。
附图说明
图1为本发明的简要任务场景图。
图2为本发明实施例采用的移动机械臂***示例图。
图3为本发明实施例的算法整体框架图。
图4为本发明实施例在强化学习基准仿真环境中对比同类算法的实验效果图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明。
如附图1所示:本实施例提供一种适用于移动机械臂的强化学***和竖直方向上进行移动;和机械臂相连的是一个四轮移动机器人,该机器人在任务设定中只在水平方向上移动。本实施例设计的任务场景是利用移动机械臂完成相对应的化学实验任务,任务流程主要是利用移动机械臂按照指定的方式获取相关原料并将原料加入已放置好的试管内。因此任务分为两个阶段,首先是取到相关原料,然后将原料放入指定试管。本实施例所述的适用于移动机械臂的强化学习奖励方法,如图3所示:至少包括以下几个步骤:
步骤S1、设计任务场景,初始化算法和移动机械臂的各项参数,然后再初始化算法对应的深度网络模型,具体包括以下步骤:
步骤1.1,根据采用的强化学习算法模型设置基本的超参数,一次训练迭代所用的数据批次的大小k,步长η,初始化经验池的周期K,经验池的大小N,以及训练迭代次数T;其中k用于控制训练机械臂时一次所输入的数据的batchsize,步长η用于控制神经网络参数的更新幅度,初始化经验池的周期K指的是步骤3中使用随机策略与环境交互的次数,从而获得初始的训练数据;N用来控制经验池的大小,即总共能存储的数据量。
步骤1.2,在初始化算法相关参数后对机械臂对应模块和控制器的参数进行初始化,获得移动机械臂的初始位置和相应的关节变量、末端位姿;
步骤1.3,设计环境状态的输入和移动机械臂的动作输出,具体包括:
a、训练机械臂时直接输入机械臂传感器和摄像头采集后的经过栅格化处理的图像观测和对应目标试管在世界坐标系的坐标作为环境的状态输入;
b、整个移动机械臂的动作输出至少包括两种不同形式:
(1)、移动机械臂末端对应在水平和竖直方向上的移动,并在合适的时机采取夹取的动作;
(2)当整个机械臂部分在动作空间内无法到达目标位置时,四轮移动机器人再进行相应的移动,四轮移动机器人只在水平方向上移动或停止。
步骤S2、利用移动机械臂自带的传感器和摄像头采集并处理环境信息,对环境信息进行重构并做栅格化处理,明确起始位置和目标位置,具体步骤如下:
步骤2.1,利用移动机械臂自带的双目视觉摄像头和相关传感器采集环境信息,明确移动机械臂的初始位姿和相应自由度的位姿;
假设移动机械臂的几何中心为M,移动机械臂自身坐标系为xoy,对应的世界坐标系为XOY;移动机械臂的运动方向角为φ,则对应的移动机械臂在世界坐标系中的初始位姿,可以表示为:
p=[xM,yM,φ]T (2)
初始状态下的运动方向角可以认为φ=0;对应的移动机械臂坐标系和世界坐标系之间的转换矩阵为:
Figure GDA0003592073700000071
由此可以得到对应的六轴机械臂末端坐标系在世界坐标系中的转换矩阵:
Figure GDA0003592073700000072
其中M对应移动机械臂自身坐标系,W代表世界坐标系,数字0到6对应机械臂每个自由度的坐标系;对应的
Figure GDA0003592073700000073
P1=[e,0,f]T,此时就可根据移动机械臂位姿和各个关节的角度得到末端位姿;
步骤2.2,采集到环境的图像信息后,对图像进行灰度处理并将图像的大小调整为84*84的尺寸;同时将灰度图等间隔等大小划分为若干正方形栅格,以便于表示出目标点的坐标作为环境状态的输入。
步骤S3、使用随机策略与环境交互收集训练数据,初始化经验池,这里的经验池用来存放训练所需要的数据和相关历史信息,具体包括以下步骤:
步骤3.1,先使用合理的随机策略让机械臂去尝试完成控制任务,记录相应的数据并保存起来用于后续的训练,此阶段的主要目的是学会基本的控制技能;
步骤3.2,机械臂在完成控制任务时利用强化学习算法输出得到末端位姿和逆向运动学求解对应各个关节的角度值,使机械臂的姿态不会出现拉伸、扭曲等不合理的情况;
步骤S4、根据当前奖励信号和历史奖励序列计算反思奖励,具体包括以下步骤:
步骤4.1,设置原始奖励,其中原始奖励分为两部分,一部分与机械臂末端距离目标的欧氏距离有关,另一部分是对相应的不合理的情况给出相应的惩罚,可以表示为:
R=Rdis+Rp (5)
其中:
Figure GDA0003592073700000081
pt表示的是目标试管在世界坐标系下的坐标,pm表示当前机械臂末端在世界坐标系下的坐标,对应的惩罚项为:
Figure GDA0003592073700000082
步骤4.2,根据对应的采样优先级从经验池中先获取一个批次的训练数据,其中的采样优先级可以看成一个满足下述条件的概率分布:
Figure GDA0003592073700000083
Figure GDA0003592073700000084
P(i)即为采样的概率分布,δi为强化学习算法模型的TD-error,采样的优先级正是由这个误差来决定;这个时候采样的概率分布是一个幂律分布,并且相对于|δi|是单调的,∈是一个很小的正数,用来保证每一个样本数据都会被采样到,rank(i)是采样每个样本的优先级,pi为对应的概率;
步骤4.3,采样得到数据后,对于数据的历史奖励序列可以表示为:
R=[r0,r1,r2,…,rt,rt+1,…,rN] (10)
N为经验池的大小,在得到一个批次的数据后,计算当前奖励rt相对于过去时间段内的变化rd,得到奖励序列Rd:
Figure GDA0003592073700000091
Figure GDA0003592073700000092
在现有算法中,训练机械臂只利用了当前得到的奖励,并没有考虑到奖励在过去时间内的变化趋势和整体情况,类似心理学峰终定律描述人类做评价往往是依据峰值体验和距离现在时间最近的体验。利用历史奖励序列中的二阶信息,使得被训练对象除了知道当前决策的优劣,也可以有效的学习到当前决策相对过去整体的优劣。
步骤4.4,在经过步骤4.3的处理后,使用signal函数对Rd序列中的奖励进行处理得到Rsgn=f(Rd),signal函数具体表达式为:
Figure GDA0003592073700000093
步骤4.5,定义反思奖励(introspection-reward),这里的反思奖励函数F=γΦ(s′)-Φ(s)满足势能函数的设定,使得在新MDP(马尔科夫决策过程)中学习到的最优策略仍然是原始MDP中的最优策略,保证不会因为奖励函数的重新构造而学习到错误的控制策略:
Figure GDA0003592073700000094
F=γΦ(s′)-Φ(s) (15)
步骤S5,结合原始奖励和反思奖励,使用深度强化学习算法训练移动机械臂在规划空间内完成目标任务:
步骤5.1,使用深度Q学习算法(DQN)作为基准来训练和测试机械臂完成控制任务;算法的输入是移动机械臂采集环境信息后进行重构的栅格化图像和目标位置的坐标,其输出对应机械臂末端和四轮移动机器人的可执行动作以达到目标位置;同时根据末端需要到达目标位置调节各个关节对应的姿态,根据关节姿态和末端在规划空间内的位置来判断任务的完成情况并给予相应的奖励和惩罚;
步骤5.2,输入图像组合直到当前的4帧画面,经过卷积层和全连接层的处理最后输出对应动作空间的每个动作的估计Q值;随后根据Q值选取回报最大的动作进行执行;对应的神经网络模型输出两部分Q值,分别对应机械臂和移动机器人部分的值函数;
步骤5.3,根据优先级从事先准备的经验池中采样相应的数据(St,At,Rt,St+1)j
Figure GDA0003592073700000101
采样一个批次的数据作为神经网络的输入进行训练;
步骤5.4,根据值函数的定义,对于移动机械臂自然有如下计算方式:
Q(s,a)=E[Runion|st,at,π]
=Es′[runion+γEa′~π(s′)[Q(s′,a′)]] (16)
这里runion=r+rintro,其中r为原始设定的奖励信号,rintro为额外添加的反思奖励,对应的目标函数为:
Lii)=Es,a,r,s′[(yi-Q(s,a;θi))2] (17)
其中:
Figure GDA0003592073700000102
Figure GDA0003592073700000103
表示的是对应的目标网络的参数,目标网络的参数并不是每一轮都更新,会设定一个周期,每过一个周期更新一次参数;
步骤5.5,计算对应的TD-error用于后续更新采样优先级:
Figure GDA0003592073700000104
步骤5.6,根据梯度计算网络参数的改变量Δ:
Figure GDA0003592073700000105
步骤5.7,更新网络参数θ←θ+ηΔ,并重置
Figure GDA0003592073700000106
同时判断是否要更新目标网络参数。
步骤S6,记录相关训练数据和最后训练完成的模型参数,得到相对应的最优策略π*
Figure GDA0003592073700000107
s为环境状态;
Figure GDA0003592073700000108
Figure GDA0003592073700000109
表示从状态s转移到状态s′的概率,Qπ(s′,a′)表示在策略π下,Q表中状态s′下选择某一动作a′的状态动作价值,r(s,a)表示在状态s下选取动作a所得回报奖励。
本实施中对比了本发明公开的方法与DQN系列算法的效果,结果对比如图3所示,从图中可以看出,本发明公开的方法在一系列强化学习基准测试环境中取得了更好的效果。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进,这些改进也应视为本发明的保护范围。

Claims (5)

1.一种适用于移动机械臂的强化学习奖励方法,其特征在于,包括如下步骤:
S1、设计任务场景,初始化算法和移动机械臂的各项参数以及算法对应的深度网络模型;
S2、重构并栅格化移动机械臂上信息采集设备发送的环境信息,明确移动机械臂的初始位姿和相应自由度的位姿;
S3、与环境交互,收集训练数据存放于经验池;
S4、从经验池中采样一个批次的数据,通过奖励函数的处理得到额外设计的反思奖励用于后续的训练;
S5、结合原始奖励和额外设计的反思奖励,使用深度强化学习算法训练移动机械臂在规划空间内完成目标任务;
S6、记录相关训练数据和最后训练完成的模型参数,得到相对应的最优策略;
所述步骤S4包括以下几个步骤:
步骤4.1,设置原始奖励,所述原始奖励可以表示为:
R=Rdis+Rp (1)
其中:
Figure FDA0003592073690000011
pt表示的是目标试管在世界坐标系下的坐标,pm表示当前机械臂末端在世界坐标系下的坐标,对应的惩罚项为:
Figure FDA0003592073690000012
步骤4.2,根据对应的采样优先级从经验池中先获取一个批次的训练数据,其中的采样优先级可以看成一个满足下述条件的概率分布:
Figure FDA0003592073690000013
Figure FDA0003592073690000014
p(i)即为采样的概率分布,δi为强化学习算法模型的TD-error,rank(i)是采样每个样本的优先级,pi为对应的概率;
步骤4.3,采样得到数据后,对于数据的历史奖励序列可以表示为:
R=[r0,r1,r2,…,rt,rt+1,…,rN] (10)
其中:N为经验池的大小,在得到一个批次的数据后,计算当前奖励rt相对于过去时间段内的变化rd,得到奖励序列Rd:
Figure FDA0003592073690000021
Figure FDA0003592073690000022
步骤4.4,使用signal函数对Rd序列中的奖励进行处理得到Rsgn=f(Rd),signal函数具体表达式为:
Figure FDA0003592073690000023
步骤4.5,定义反思奖励,这里的反思奖励函数F=γΦ(s′)-Φ(s)满足势能函数的设定,使得在新MDP(马尔科夫决策过程)中学习到的最优策略仍然是原始MDP中的最优策略,保证不会因为奖励函数的重新构造而学习到错误的控制策略:
Figure FDA0003592073690000024
F=γΦ(s′)-Φ(s) (15)。
2.根据权利要求1所述的适用于移动机械臂的强化学习奖励方法,其特征在于,
在步骤S6中,所述策略的函数π*
Figure FDA0003592073690000025
s为环境状态;
Figure FDA0003592073690000026
Figure FDA0003592073690000027
表示从状态s转移到状态s′的概率,Qπ(s′,a′)表示在策略π下,Q表中状态s′下选择某一动作a′的状态动作价值,r(s,a)表示在状态s下选取动作a所得回报奖励。
3.根据权利要求1所述的适用于移动机械臂的强化学习奖励方法,其特征在于,所述步骤S1中,初始化各项参数的步骤包括:
步骤1.1,根据采用的强化学习算法模型设置基本的超参数、一次训练迭代所用的数据批次的大小k、步长η、初始化经验池的周期K、经验池的大小N,以及训练迭代次数T;其中k用于控制训练机械臂时一次所输入的数据的batchsize,步长η用于控制神经网络参数的更新幅度,初始化经验池的周期K为步骤3中使用随机策略与环境交互的次数,从而获得初始的训练数据;N用来控制经验池的大小,即总共能存储的数据量;
步骤1.2,对机械臂对应模块和控制器的参数进行初始化,获得移动机械臂的初始位置和相应的关节变量、末端位姿;
步骤1.3,设计环境状态的输入和移动机械臂的动作输出,具体包括:
a、训练机械臂时直接输入机械臂传感器和摄像头采集后的经过栅格化处理的图像观测和对应目标试管在世界坐标系的坐标作为环境的状态输入;
b、整个移动机械臂的动作输出至少包括两种不同形式:
(1)、移动机械臂末端对应在水平和竖直方向上的移动,并在合适的时机采取夹取的动作;
(2)当整个机械臂部分在动作空间内无法到达目标位置时,四轮移动机器人再进行相应的移动,四轮移动机器人只在水平方向上移动或停止。
4.根据权利要求1所述的适用于移动机械臂的强化学习奖励方法,其特征在于,所述步骤S2包括以下几步:
步骤2.1,利用移动机械臂自带的双目视觉摄像头和相关传感器采集环境信息,明确移动机械臂的初始位姿和相应自由度的位姿;
假设移动机械臂的几何中心为M,移动机械臂自身坐标系为xoy,对应的世界坐标系为XOY;移动机械臂的运动方向角为φ,则对应的移动机械臂在世界坐标系中的初始位姿,可以表示为:
p=[xM,yM,φ]T (5)
初始状态下的运动方向角可以认为φ=0;对应的移动机械臂坐标系和世界坐标系之间的转换矩阵为:
Figure FDA0003592073690000031
由此可以得到对应的六轴机械臂末端坐标系在世界坐标系中的转换矩阵:
Figure FDA0003592073690000032
其中,M对应移动机械臂自身坐标系,W代表世界坐标系,数字0到6对应机械臂每个自由度的坐标系;对应的
Figure FDA0003592073690000041
P1=[e,0,f]T,此时就可根据移动机械臂位姿和各个关节的角度得到末端位姿;
步骤2.2,对图像进行灰度处理并将图像的大小调整至合适尺寸,将灰度图等间隔等大小划分为若干正方形栅格,以便于表示出目标点的坐标作为环境状态的输入。
5.根据权利要求1所述的适用于移动机械臂的强化学习奖励方法,其特征在于,所述步骤S3包括以下几个步骤:
步骤3.1,先使用合理的随机策略让机械臂去尝试完成控制任务,记录相应的数据并保存起来用于后续的训练;
步骤3.2,机械臂在完成控制任务时利用强化学习算法输出得到末端位姿和逆向运动学求解对应各个关节的角度值,避免机械臂的姿态出现不合理的情况。
CN202010487548.9A 2020-06-02 2020-06-02 一种适用于移动机械臂的强化学习奖励方法 Active CN111515961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010487548.9A CN111515961B (zh) 2020-06-02 2020-06-02 一种适用于移动机械臂的强化学习奖励方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010487548.9A CN111515961B (zh) 2020-06-02 2020-06-02 一种适用于移动机械臂的强化学习奖励方法

Publications (2)

Publication Number Publication Date
CN111515961A CN111515961A (zh) 2020-08-11
CN111515961B true CN111515961B (zh) 2022-06-21

Family

ID=71909385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010487548.9A Active CN111515961B (zh) 2020-06-02 2020-06-02 一种适用于移动机械臂的强化学习奖励方法

Country Status (1)

Country Link
CN (1) CN111515961B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112021001B (zh) * 2020-09-02 2022-05-10 东北林业大学 一种基于ql-si算法的松果采摘装置振动抑制方法
CN112506044A (zh) * 2020-09-10 2021-03-16 上海交通大学 一种基于视觉反馈和强化学习的柔性臂控制与规划方法
CN112528552A (zh) * 2020-10-23 2021-03-19 洛阳银杏科技有限公司 一种基于深度强化学习的机械臂控制模型构建方法
EP3988255A1 (en) 2020-10-26 2022-04-27 Siemens Aktiengesellschaft Method and assembly unit for assembling non-electric components onto a component-carrier
CN112215328B (zh) * 2020-10-29 2024-04-05 腾讯科技(深圳)有限公司 一种智能体的训练、基于智能体的动作控制方法及装置
CN112347900B (zh) * 2020-11-04 2022-10-14 中国海洋大学 基于距离估计的单目视觉水下目标自动抓取方法
CN112405543B (zh) * 2020-11-23 2022-05-06 长沙理工大学 一种基于深度强化学习的机械臂密集物体温度优先抓取方法
CN114851184B (zh) * 2021-01-20 2023-05-09 广东技术师范大学 一种面向工业机器人的强化学习奖励值计算方法
CN112734759B (zh) * 2021-03-30 2021-06-29 常州微亿智造科技有限公司 飞拍拍摄触发点的确定方法和装置
CN113076615B (zh) * 2021-04-25 2022-07-15 上海交通大学 基于对抗式深度强化学习的高鲁棒性机械臂操作方法及***
CN113524196A (zh) * 2021-08-10 2021-10-22 南京深一科技有限公司 一种基于平面视觉深度强化学习的机械臂抓取控制方法
CN113967909B (zh) * 2021-09-13 2023-05-16 中国人民解放军军事科学院国防科技创新研究院 基于方向奖励的机械臂智能控制方法
CN113843802B (zh) * 2021-10-18 2023-09-05 南京理工大学 一种基于深度强化学习td3算法的机械臂运动控制方法
CN114002957B (zh) * 2021-11-02 2023-11-03 广东技术师范大学 一种基于深度强化学习的智能控制方法及***
CN114371729B (zh) * 2021-12-22 2022-10-25 中国人民解放军军事科学院战略评估咨询中心 一种基于距离优先经验回放的无人机空战机动决策方法
CN114393576A (zh) * 2021-12-27 2022-04-26 江苏明月智能科技有限公司 基于人工智能的四轴机械臂点击和位置校准方法和***
CN114454160B (zh) * 2021-12-31 2024-04-16 中国人民解放军国防科技大学 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及***
CN114683280B (zh) * 2022-03-17 2023-11-17 达闼机器人股份有限公司 对象控制方法、装置、存储介质及电子设备
CN114952828B (zh) * 2022-05-09 2024-06-14 华中科技大学 一种基于深度强化学习的机械臂运动规划方法和***
CN114734446B (zh) * 2022-05-10 2024-06-18 南京理工大学 基于改进的强化学习算法的机械手高精度位置控制方法
CN114939870B (zh) * 2022-05-30 2023-05-09 兰州大学 模型训练方法和装置、策略优化方法、设备及介质
CN115796364A (zh) * 2022-11-30 2023-03-14 南京邮电大学 一种面向离散制造***的智能交互式决策方法
CN116747026B (zh) * 2023-06-05 2024-06-25 北京长木谷医疗科技股份有限公司 基于深度强化学习的机器人智能截骨方法、装置及设备
CN117162086B (zh) * 2023-08-07 2024-07-05 南京云创大数据科技股份有限公司 一种用于机械臂目标寻找的训练方法、方法及训练***
CN116690588B (zh) * 2023-08-07 2023-10-10 南京云创大数据科技股份有限公司 多机械臂多任务的目标获取方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106950969A (zh) * 2017-04-28 2017-07-14 深圳市唯特视科技有限公司 一种基于无地图运动规划器的移动机器人连续控制方法
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN109760046A (zh) * 2018-12-27 2019-05-17 西北工业大学 基于强化学习的空间机器人捕获翻滚目标运动规划方法
CN110181515A (zh) * 2019-06-10 2019-08-30 浙江工业大学 一种双机械臂协同装配作业路径规划方法
CN110764416A (zh) * 2019-11-11 2020-02-07 河海大学 基于深度q网络的仿人机器人步态优化控制方法
CN110794842A (zh) * 2019-11-15 2020-02-14 北京邮电大学 基于势场的强化学习路径规划算法
CN110963209A (zh) * 2019-12-27 2020-04-07 中电海康集团有限公司 一种基于深度强化学习的垃圾分拣装置与方法
CN111061277A (zh) * 2019-12-31 2020-04-24 歌尔股份有限公司 一种无人车全局路径规划方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106950969A (zh) * 2017-04-28 2017-07-14 深圳市唯特视科技有限公司 一种基于无地图运动规划器的移动机器人连续控制方法
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN109760046A (zh) * 2018-12-27 2019-05-17 西北工业大学 基于强化学习的空间机器人捕获翻滚目标运动规划方法
CN110181515A (zh) * 2019-06-10 2019-08-30 浙江工业大学 一种双机械臂协同装配作业路径规划方法
CN110764416A (zh) * 2019-11-11 2020-02-07 河海大学 基于深度q网络的仿人机器人步态优化控制方法
CN110794842A (zh) * 2019-11-15 2020-02-14 北京邮电大学 基于势场的强化学习路径规划算法
CN110963209A (zh) * 2019-12-27 2020-04-07 中电海康集团有限公司 一种基于深度强化学习的垃圾分拣装置与方法
CN111061277A (zh) * 2019-12-31 2020-04-24 歌尔股份有限公司 一种无人车全局路径规划方法和装置

Also Published As

Publication number Publication date
CN111515961A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN111515961B (zh) 一种适用于移动机械臂的强化学习奖励方法
CN111203878B (zh) 一种基于视觉模仿的机器人序列任务学习方法
Breyer et al. Comparing task simplifications to learn closed-loop object picking using deep reinforcement learning
Chen et al. Deep reinforcement learning to acquire navigation skills for wheel-legged robots in complex environments
Demiris et al. From motor babbling to hierarchical learning by imitation: a robot developmental pathway
CN109397285B (zh) 一种装配方法、装配装置及装配设备
CN110900598A (zh) 机器人三维运动空间动作模仿学习方法和***
CN114603564A (zh) 机械臂导航避障方法、***、计算机设备及存储介质
Chella et al. A cognitive framework for imitation learning
Tang et al. Learning collaborative pushing and grasping policies in dense clutter
Liu et al. A reinforcement learning-based framework for robot manipulation skill acquisition
CN115990875B (zh) 一种基于隐空间插值的柔性线缆状态预测与控制***
Valarezo Anazco et al. Natural object manipulation using anthropomorphic robotic hand through deep reinforcement learning and deep grasping probability network
CN115464659A (zh) 一种基于视觉信息的深度强化学习ddpg算法的机械臂抓取控制方法
Kim et al. Learning and generalization of dynamic movement primitives by hierarchical deep reinforcement learning from demonstration
Wang et al. Learning of long-horizon sparse-reward robotic manipulator tasks with base controllers
Zakaria et al. Robotic control of the deformation of soft linear objects using deep reinforcement learning
Frazelle et al. Optimizing a continuum manipulator’s search policy through model-free reinforcement learning
CN114792028A (zh) 基于物理的高性能仿生水下机器人仿真训练平台构建方法
Tan et al. A computational framework for integrating robotic exploration and human demonstration in imitation learning
CN112975968A (zh) 基于第三视角可变主体演示视频的机械臂模仿学习方法
Fang et al. Quadrotor navigation in dynamic environments with deep reinforcement learning
CN113011081B (zh) 一种基于元学习的无人机导航方法
Nakajo et al. Acquisition of viewpoint representation in imitative learning from own sensory-motor experiences
Konidaris et al. Sensorimotor abstraction selection for efficient, autonomous robot skill acquisition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant