CN109048892A - 一种基于q学习的机械臂末端避障方法 - Google Patents

一种基于q学习的机械臂末端避障方法 Download PDF

Info

Publication number
CN109048892A
CN109048892A CN201810835401.7A CN201810835401A CN109048892A CN 109048892 A CN109048892 A CN 109048892A CN 201810835401 A CN201810835401 A CN 201810835401A CN 109048892 A CN109048892 A CN 109048892A
Authority
CN
China
Prior art keywords
mechanical arm
tail end
barrier
study
arm tail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810835401.7A
Other languages
English (en)
Inventor
袁建平
李晨熹
张博
王铮
方静
徐杨
魏锦源
彭志旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201810835401.7A priority Critical patent/CN109048892A/zh
Publication of CN109048892A publication Critical patent/CN109048892A/zh
Pending legal-status Critical Current

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1674Programme controls characterised by safety, monitoring, diagnostic
    • B25J9/1676Avoiding collision or forbidden zones

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)
  • Numerical Control (AREA)

Abstract

一种基于Q学习的机械臂末端避障方法,包括以下步骤:步骤1:采用拉格朗日方法对空间六自由度机械臂进行位置级、速度级运动学和动力学建模;步骤2:针对障碍物模型、关节角约束建立适应度函数;步骤3:采用五阶多项式对机械臂路径进行拟合,并对机械臂末端轨迹使用Q学习进行规划,满足使适应度函数最优。本发明针对机械臂抓捕任务中,机械臂通过自学习对可能出现的障碍物进行有效的规避,并在满足一定约束情况下的最优路径进行规划。

Description

一种基于Q学习的机械臂末端避障方法
技术领域
本发明属于空间机械臂领域,特别涉及一种基于Q学习的机械臂末端避障方法。
背景技术
路径规划一直是机器人学研究领域的一个热点,机器人路径规划问题研究的是如何依据某种最优准则,规划出一条让机器人可以从出发点到达目标点,并可以安全避开障碍物的最优路径或者是次最优路径是现有研究遇到的问题。
发明内容
本发明的目的在于提供一种基于Q学习的机械臂末端避障方法,以解决上述问题。
为实现上述问题,本发明采用以下技术方案:
一种基于Q学习的机械臂末端避障方法,包括以下步骤:
步骤1:采用拉格朗日方法对空间六自由度机械臂进行位置级、速度级运动学和动力学建模;
步骤2:针对障碍物模型、关节角约束建立适应度函数;
步骤3:采用五阶多项式对机械臂路径进行拟合,并对机械臂末端轨迹使用Q学习进行规划,满足使适应度函数最优。
进一步的,步骤1中,拉格朗日法建立空间六自由度机械臂模型;
位置级运动学方程:
为第i个连杆相对于基坐标系位姿的齐次变换矩阵,为第i个连杆相对于第i-1个连杆位姿的齐次变换矩阵,固定在末端连杆上的坐标系为n;
速度级运动学方程:
表示空间机械臂末端在惯性系下的线速度和角速度,Jb表示基座速度与机械臂末端速度之间的雅可比矩阵,表示基座在惯性系下的线速度和角速度,Jm表示关节角速度与机械臂末端速度之间的雅可比矩阵,表示关节角速度;
动力学方程:
H为表示基座惯量和基座与机械臂耦合惯量的矩阵,cb、cm分别为基座和机械臂运动有关的非线性力项,Fb、Fe分别为基座和机械臂末端执行器上的外作用力和力矩,τm为机械臂各关节外力矩。
进一步的,步骤2中,适应度函数建立;
障碍物模型:
Pn=(xn1,xn2)
建立障碍物在空间内的坐标定义;
使关节角限定在给定的范围内,设计如下:
αi为每个关节角的权重,θimax、θimin为第i个关节角期望的上下限;
综合上述条件,得适应度函数:
Xn为机械臂末端空间坐标,k1、k2分别为两项的权重。
进一步的,步骤3中,机械臂轨迹规划;
采用五阶多项式差值算法对机械臂轨迹进行描述:假设某一关节在开始时刻t0=0的关节角度为θ0,在终止时刻tf的关节角度为θf,满足此条件的光滑轨迹用θ(t)表示,a0...a5为多项式差值系数。
θ(t)=a0+a1t+a2t2+...+a5t5
五次多项式的一阶导函数、二阶导函数分别作为关节速度、加速度的时间函数在起始点和终止点的约束条件分别为:
可以解出:
进一步的,步骤3中,Q学习进行末端规划;
基于贝尔曼方程得出Q值形式
Q(sn,an)=E{rn+γQ(sn+1,an+1)}
sn为n时刻状态、an为n时刻动作、E为期望、rn为n时刻即时奖励、γ为折扣因子、Q为预测回报;
Q(sn+1,an+1)=Q(sn,an)+αn{rn+γmaxQ(sn+1,an)-Q(sn,an)}
e.对每一步进行Q值更新;
f.对当前状态的所有可能的动作中,选择一个可能的动作,使用这个可能的动作,到达下一个状态;
g.对下一个状态,基于其所有可能的动作,获得最大的Q值;
h.重复上述流程,获得最佳预测回报Q;
e.解算Q矩阵得到机械臂末端轨迹。
与现有技术相比,本发明有以下技术效果:
本发明针对目前机械臂抓捕任务中,普遍采用传统优化算法进行路径规划,在多任务优化时出现速度过慢,早熟等现象的问题,使用了一种强化学习算法:Q学习。智能体利用上述的算法从经验中学习,每一次经历等价于一次训练。在每一次训练中,智能体对环境进行探索,并且其一旦到达目标状态,就得到奖励值。训练的目的是增强智能体的大脑,用矩阵Q表示,越多的训练结果将导致更优的矩阵Q。智能体在最初对环境一无所知,因此矩阵Q被初始化为0。在不断的训练中,如果矩阵Q已经被增强,那么智能体就不会四处盲目的探索,而是会找到最快的路线到达目标状态。随着学习进程不断加深,智能体会更快找到最优路径。
具体实施方式
以下对本发明进一步说明:
一种基于Q学习的机械臂末端避障方法,包括以下步骤:
步骤1:采用拉格朗日方法对空间六自由度机械臂进行位置级、速度级运动学和动力学建模;
步骤2:针对障碍物模型、关节角约束建立适应度函数;
步骤3:采用五阶多项式对机械臂路径进行拟合,并对机械臂末端轨迹使用Q学习进行规划,使适应度函数最优。
步骤1中,拉格朗日法建立空间六自由度机械臂模型;
位置级运动学方程:
为第i个连杆相对于基坐标系位姿的齐次变换矩阵,为第i个连杆相对于第i-1个连杆位姿的齐次变换矩阵,固定在末端连杆上的坐标系为n;
速度级运动学方程:
表示空间机械臂末端在惯性系下的线速度和角速度,Jb表示基座速度与机械臂末端速度之间的雅可比矩阵,表示基座在惯性系下的线速度和角速度,Jm表示关节角速度与机械臂末端速度之间的雅可比矩阵,表示关节角速度;
动力学方程:
H为表示基座惯量和基座与机械臂耦合惯量的矩阵,cb、cm分别为基座和机械臂运动有关的非线性力项,Fb、Fe分别为基座和机械臂末端执行器上的外作用力和力矩,τm为机械臂各关节外力矩。
步骤2中,适应度函数建立;
障碍物模型:
Pn=(xn1,xn2)
建立障碍物在空间内的坐标定义;
使关节角限定在给定的范围内,设计如下:
αi为每个关节角的权重,θimax、θimin为第i个关节角期望的上下限;
综合上述条件,得适应度函数:
Xn为机械臂末端空间坐标,k1、k2分别为两项的权重。
步骤3中,机械臂轨迹规划;
采用五阶多项式差值算法对机械臂轨迹进行描述:假设某一关节在开始时刻t0=0的关节角度为θ0,在终止时刻tf的关节角度为θf,满足此条件的光滑轨迹用θ(t)表示,a0...a5为多项式差值系数。
θ(t)=a0+a1t+a2t2+...+a5t5
五次多项式的一阶导函数、二阶导函数分别作为关节速度、加速度的时间函数在起始点和终止点的约束条件分别为:
可以解出:
步骤3中,Q学习进行末端规划;
基于贝尔曼方程得出Q值形式
Q(sn,an)=E{rn+γQ(sn+1,an+1)}
sn为n时刻状态、an为n时刻动作、E为期望、rn为n时刻即时奖励、γ为折扣因子、Q为预测回报;
Q(sn+1,an+1)=Q(sn,an)+αn{rn+γmaxQ(sn+1,an)-Q(sn,an)}
i.对每一步进行Q值更新;
j.对当前状态的所有可能的动作中,选择一个可能的动作,使用这个可能的动作,到达下一个状态;
k.对下一个状态,基于其所有可能的动作,获得最大的Q值;
l.重复上述流程,获得最佳预测回报Q;
e.解算Q矩阵得到机械臂末端轨迹。
表1空间六自由度机械臂DH参数表

Claims (5)

1.一种基于Q学习的机械臂末端避障方法,其特征在于,包括以下步骤:
步骤1:采用拉格朗日方法对空间六自由度机械臂进行位置级、速度级运动学和动力学建模;
步骤2:针对障碍物模型、关节角约束建立适应度函数;
步骤3:采用五阶多项式对机械臂路径进行拟合,并对机械臂末端轨迹使用Q学习进行规划,满足适应度函数最优。
2.根据权利要求1所述的一种基于Q学习的机械臂末端避障方法,其特征在于,步骤1中,拉格朗日法建立空间六自由度机械臂模型;
位置级运动学方程:
为第i个连杆相对于基坐标系位姿的齐次变换矩阵,为第i个连杆相对于第i-1个连杆位姿的齐次变换矩阵,固定在末端连杆上的坐标系为n;
速度级运动学方程:
表示空间机械臂末端在惯性系下的线速度和角速度,Jb表示基座速度与机械臂末端速度之间的雅可比矩阵,表示基座在惯性系下的线速度和角速度,Jm表示关节角速度与机械臂末端速度之间的雅可比矩阵,表示关节角速度;
动力学方程:
H为表示基座惯量和基座与机械臂耦合惯量的矩阵,cb、cm分别为基座和机械臂运动有关的非线性力项,Fb、Fe分别为基座和机械臂末端执行器上的外作用力和力矩,τm为机械臂各关节外力矩。
3.根据权利要求1所述的一种基于Q学习的机械臂末端避障方法,其特征在于,步骤2中,适应度函数建立;
障碍物模型:
Pn=(xn1,xn2)
建立障碍物在空间内的坐标定义;
使关节角限定在给定的范围内,设计如下:
αi为每个关节角的权重,θimax、θimin为第i个关节角期望的上下限;
综合上述条件,得适应度函数:
Xn为机械臂末端空间坐标,k1、k2分别为两项的权重。
4.根据权利要求1所述的一种基于Q学习的机械臂末端避障方法,其特征在于,步骤3中,机械臂轨迹规划;
采用五阶多项式差值算法对机械臂轨迹进行描述:假设某一关节在开始时刻t0=0的关节角度为θ0,在终止时刻tf的关节角度为θf,满足此条件的光滑轨迹用θ(t)表示,a0...a5为多项式差值系数;
θ(t)=a0+a1t+a2t2+...+a5t5
五次多项式的一阶导函数、二阶导函数分别作为关节速度、加速度的时间函数在起始点和终止点的约束条件分别为:
解出:
5.根据权利要求1所述的一种基于Q学习的机械臂末端避障方法,其特征在于,步骤3中,Q学习进行末端规划;
基于贝尔曼方程得出Q值形式
Q(sn,an)=E{rn+γQ(sn+1,an+1)}
sn为n时刻状态、an为n时刻动作、E为期望、rn为n时刻即时奖励、γ为折扣因子、Q为预测回报;
Q(sn+1,an+1)=Q(sn,an)+αn{rn+γmaxQ(sn+1,an)-Q(sn,an)}
a.对每一步进行Q值更新;
b.对当前状态的所有可能的动作中,选择一个可能的动作,使用这个可能的动作,到达下一个状态;
c.对下一个状态,基于其所有可能的动作,获得最大的Q值;
d.重复上述流程,获得最佳预测回报Q;
e.解算Q矩阵得到机械臂末端轨迹。
CN201810835401.7A 2018-07-26 2018-07-26 一种基于q学习的机械臂末端避障方法 Pending CN109048892A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810835401.7A CN109048892A (zh) 2018-07-26 2018-07-26 一种基于q学习的机械臂末端避障方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810835401.7A CN109048892A (zh) 2018-07-26 2018-07-26 一种基于q学习的机械臂末端避障方法

Publications (1)

Publication Number Publication Date
CN109048892A true CN109048892A (zh) 2018-12-21

Family

ID=64836579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810835401.7A Pending CN109048892A (zh) 2018-07-26 2018-07-26 一种基于q学习的机械臂末端避障方法

Country Status (1)

Country Link
CN (1) CN109048892A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857110A (zh) * 2019-02-13 2019-06-07 广州视源电子科技股份有限公司 运动规划方法、装置、设备及计算机可读存储介质
CN111496770A (zh) * 2020-04-09 2020-08-07 上海电机学院 基于3d视觉与深度学习的智能搬运机械臂***及使用方法
CN112171660A (zh) * 2020-08-18 2021-01-05 南京航空航天大学 一种基于深度强化学习的空间双臂***约束运动规划方法
CN113664829A (zh) * 2021-08-17 2021-11-19 西北工业大学 一种空间机械臂避障路径规划***、方法、计算机设备及存储介质
CN114633258A (zh) * 2022-04-24 2022-06-17 中国铁建重工集团股份有限公司 一种隧道环境下机械臂运动轨迹的规划方法及相关装置
CN116968016A (zh) * 2022-11-16 2023-10-31 重庆大学 液压臂末端速度可行空间的构建方法及可视化交互***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050390A (zh) * 2014-06-30 2014-09-17 西南交通大学 一种基于可变维粒子群膜算法的移动机器人路径规划方法
CN104526695A (zh) * 2014-12-01 2015-04-22 北京邮电大学 一种最小化基座碰撞扰动的空间机械臂轨迹规划方法
CN106773739A (zh) * 2017-02-28 2017-05-31 山东大学 基于遗传混沌优化算法的机器人轨迹规划方法
CN106881718A (zh) * 2017-03-13 2017-06-23 哈尔滨工业大学 基于遗传算法的六自由度串联机器人误差标定方法
US20170323219A1 (en) * 2016-05-04 2017-11-09 Sentient Technologies (Barbados) Limited Data mining technique with distributed novelty search

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050390A (zh) * 2014-06-30 2014-09-17 西南交通大学 一种基于可变维粒子群膜算法的移动机器人路径规划方法
CN104526695A (zh) * 2014-12-01 2015-04-22 北京邮电大学 一种最小化基座碰撞扰动的空间机械臂轨迹规划方法
US20170323219A1 (en) * 2016-05-04 2017-11-09 Sentient Technologies (Barbados) Limited Data mining technique with distributed novelty search
CN106773739A (zh) * 2017-02-28 2017-05-31 山东大学 基于遗传混沌优化算法的机器人轨迹规划方法
CN106881718A (zh) * 2017-03-13 2017-06-23 哈尔滨工业大学 基于遗传算法的六自由度串联机器人误差标定方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘厚德: "双臂空间机器人捕获自旋目标的协调运动规划研究", 《中国博士学位论文全文数据库 信息科技辑》 *
张龙: "空间机械臂在轨碰撞动力学及控制研究", 《中国博士学位论文全文数据库 信息科技辑》 *
盛巍: "基于多自由度工业机械臂的避障路径规划技术的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
赵辉: "基于Q学习算法的机械臂轨迹规划研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857110A (zh) * 2019-02-13 2019-06-07 广州视源电子科技股份有限公司 运动规划方法、装置、设备及计算机可读存储介质
CN111496770A (zh) * 2020-04-09 2020-08-07 上海电机学院 基于3d视觉与深度学习的智能搬运机械臂***及使用方法
CN112171660A (zh) * 2020-08-18 2021-01-05 南京航空航天大学 一种基于深度强化学习的空间双臂***约束运动规划方法
CN113664829A (zh) * 2021-08-17 2021-11-19 西北工业大学 一种空间机械臂避障路径规划***、方法、计算机设备及存储介质
CN114633258A (zh) * 2022-04-24 2022-06-17 中国铁建重工集团股份有限公司 一种隧道环境下机械臂运动轨迹的规划方法及相关装置
CN114633258B (zh) * 2022-04-24 2023-06-20 中国铁建重工集团股份有限公司 一种隧道环境下机械臂运动轨迹的规划方法及相关装置
CN116968016A (zh) * 2022-11-16 2023-10-31 重庆大学 液压臂末端速度可行空间的构建方法及可视化交互***

Similar Documents

Publication Publication Date Title
CN109048892A (zh) 一种基于q学习的机械臂末端避障方法
CN111618847B (zh) 基于深度强化学习与动态运动基元的机械臂自主抓取方法
CN102646148B (zh) 仿人机器人机械臂避碰运动轨迹规划方法
CN108858198A (zh) 一种基于模拟退火遗传算法的机械臂路径规划方法
US20110035050A1 (en) Method and apparatus to plan motion path of robot
Luo et al. Collision‐free path‐planning for six‐dof serial harvesting robot based on energy optimal and artificial potential field
Kaldestad et al. Collision avoidance with potential fields based on parallel processing of 3D-point cloud data on the GPU
CN107957684A (zh) 一种基于虚拟速度向量场的机器人三维无碰轨迹规划方法
CN107538493A (zh) 一种避免线缆干涉约束的工业机器人轨迹规划方法
Lawitzky et al. Feedback motion planning and learning from demonstration in physical robotic assistance: differences and synergies
Rokbani et al. IK-PSO, PSO inverse kinematics solver with application to biped gait generation
CN115091469B (zh) 一种基于最大熵框架的深度强化学习机械臂运动规划方法
Yang et al. Real-time motion adaptation using relative distance space representation
Jamone et al. Interactive online learning of the kinematic workspace of a humanoid robot
CN112749515A (zh) 融合生物启发和深度强化学习的损伤机器人步态自学习
CN112847235A (zh) 基于深度强化学习的机器人分阶力引导装配方法及***
Mishra et al. Kinematic stability based afg-rrt path planning for cable-driven parallel robots
Duan et al. Constrained DMPs for feasible skill learning on humanoid robots
CN111421540A (zh) 一种机械臂运动控制方法
Cui et al. Coupled multiple dynamic movement primitives generalization for deformable object manipulation
JP3105694B2 (ja) マニピュレータ制御方法
CN113146637B (zh) 一种机器人笛卡尔空间的运动规划方法
Ang et al. Solving continuous trajectory and forward kinematics simultaneously based on ANN
Murakami et al. Motion planning for catching a light-weight ball with high-speed visual feedback
US20230302645A1 (en) Method of robot dynamic motion planning and control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181221

RJ01 Rejection of invention patent application after publication