CN111267109B - 一种基于强化学习的机器人速度规划方法和*** - Google Patents

一种基于强化学习的机器人速度规划方法和*** Download PDF

Info

Publication number
CN111267109B
CN111267109B CN202010215475.8A CN202010215475A CN111267109B CN 111267109 B CN111267109 B CN 111267109B CN 202010215475 A CN202010215475 A CN 202010215475A CN 111267109 B CN111267109 B CN 111267109B
Authority
CN
China
Prior art keywords
robot
speed
value
network
environment model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010215475.8A
Other languages
English (en)
Other versions
CN111267109A (zh
Inventor
杨建中
武俊雄
向单奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202010215475.8A priority Critical patent/CN111267109B/zh
Publication of CN111267109A publication Critical patent/CN111267109A/zh
Application granted granted Critical
Publication of CN111267109B publication Critical patent/CN111267109B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/1605Simulation of manipulator lay-out, design, modelling of manipulator

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种基于强化学习的机器人速度规划方法和***,包括:构建一个利用六轴扭转力矩驱动机器人行走的仿真的环境,得到仿真环境模型;将机器人行走路径输入仿真环境模型,得到起点速度,将起点速度输入决策网络,得到第一步的六轴扭转力矩,仿真环境模型根据第一步六轴扭转力矩驱动机器人,得到第一步的速度,仿真环境模型与决策网络不断交互,得到机器人在路径中从起点至终点的速度规划;重复上一步得到多条速度规划,利用评判网络对每一条速度规划作出判断,得到评分,将评分最高的速度规划作为最优速度规划。本发明考虑了实际加工过程中的动力学特性,能够快速、准确地规划原轨迹上的速度,使其更加适应实际加工过程。

Description

一种基于强化学习的机器人速度规划方法和***
技术领域
本发明属于工业机器人领域,更具体地,涉及一种基于强化学习的机器人速度规划方法和***。
背景技术
当前工业机器人在功能和应用上已逐渐完善。随着机器人行业突飞猛进的发展,机器人现在已经广泛应用于包括喷涂、码垛、搬运、包装、焊接、装配、机械加工等任务当中。机器人的使用极大地解放了人力,尤其在极端工作环境的情况下,提高了安全系数,提升了生产效率和质量。
然而,很多机器人工作任务中,尤其是在机械加工任务中,对速度规划的要求非常高。在机器人执行机械加工任务时,当末端执行器轨迹速度骤然变化时,有可能会导致末端执行器与被加工工件之间的作用力急剧变化,甚至强烈震动的产生,这种不可控的变化不仅会降低被加工零件的加工质量,还会降低机器人和执行器的使用寿命,因此,对机器人速度规划的研究具有十分重要的理论意义和现实价值。
传统的机器人速度规划方法从虚轴运动目标出发,通过带有约束条件的机器人逆解方法,将运动分解到各个轴上,得到各个轴关于时间的序列。然而,当前的规划方法大都是基于几何形状而没有考虑实际加工过程中的动力学问题,导致机器人末端执行器的生成速度较差、加速度特性不佳、与实际工作过程的契合度较低、需要人为参与及灵活性较差等技术问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于强化学习的机器人速度规划方法和***,由此解决现有技术存在机器人末端执行器的生成速度较差、加速度特性不佳、与实际工作过程的契合度较低、需要人为参与及灵活性较差的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于强化学习的机器人速度规划方法,包括如下步骤:
(1)构建一个利用六轴扭转力矩驱动机器人行走的仿真的环境,得到仿真环境模型;
(2)将机器人行走路径输入仿真环境模型,得到起点速度,将起点速度输入决策网络,得到第一步的六轴扭转力矩,仿真环境模型根据第一步六轴扭转力矩驱动机器人,得到第一步的速度,将第一步的速度输入决策网络,得到第二步的六轴扭转力矩,仿真环境模型根据第二步的六轴扭转力矩驱动机器人,仿真环境模型与决策网络不断交互,得到机器人在路径中从起点至终点的速度规划;
(3)重复步骤(2)得到多条速度规划,利用评判网络对每一条速度规划作出判断,得到评分,将评分最高的速度规划作为最优速度规划。
进一步地,步骤(1)包括:
将机器人的六轴扭转力矩作为起始端,机器人作为观察目标,建立物理引擎,根据机器人运行过程中摩擦力和转动惯量的变化,得到动力学过程,采用物理引擎和动力学过程构建一个利用六轴扭转力矩驱动机器人行走的仿真的环境,得到仿真环境模型。
进一步地,决策网络为训练好的决策网络,所述决策网络的训练包括:
仿真环境模型根据动作值生成奖赏值,利用动作值和奖赏值进行值函数估计,得到优势值,利用动作值、奖赏值和优势值训练决策网络收敛到预定状态,得到训练好的决策网络;
其中,所述动作值为样本六轴力矩值,所述奖赏值为样本速度,所述优势值为最优速度。
进一步地,预定状态为奖赏值和优势值之间的误差小于5%。
进一步地,值函数估计的具体实现方式为:
R=γ*(R′+r)
其中,γ为衰减系数,R为下一步的优势值,R’为下一步的奖赏值,r为当前步的动作值对应的奖赏值。
进一步地,评判网络为训练好的评判网络,所述评判网络的训练包括:
机器人在路径中行走时,利用评判网络对每一步的奖赏值进行判断得到每一步的评分,将连续两步的评分之差作为当前步评分,利用当前步评分进行当前步的梯度下降,由此训练得到评判网络。
按照本发明的另一方面,提供了一种基于强化学习的机器人速度规划***,包括:
模型建立模块,用于构建一个利用六轴扭转力矩驱动机器人行走的仿真的环境,得到仿真环境模型;
速度规划模块,用于将机器人行走路径输入仿真环境模型,得到起点速度,将起点速度输入决策网络,得到第一步的六轴扭转力矩,仿真环境模型根据第一步六轴扭转力矩驱动机器人,得到第一步的速度,将第一步的速度输入决策网络,得到第二步的六轴扭转力矩,仿真环境模型根据第二步的六轴扭转力矩驱动机器人,仿真环境模型与决策网络不断交互,得到机器人在路径中从起点至终点的速度规划;
最优规划模块,用于重复执行速度规划模块得到多条速度规划,利用评判网络对每一条速度规划作出判断,得到评分,将评分最高的速度规划作为最优速度规划。
进一步地,模型建立模块包括:
物理引擎建立模块,用于将机器人的六轴扭转力矩作为起始端,机器人作为观察目标,建立物理引擎;
动力学分析模块,用于根据机器人运行过程中摩擦力和转动惯量的变化,得到动力学过程;
联合建模模块,用于采用物理引擎和动力学过程构建一个利用六轴扭转力矩驱动机器人行走的仿真的环境,得到仿真环境模型。
进一步地,***还包括:决策网络训练模块,用于采用仿真环境模型根据动作值生成奖赏值,利用动作值和奖赏值进行值函数估计,得到优势值,利用动作值、奖赏值和优势值训练决策网络收敛到预定状态,得到训练好的决策网络;
其中,所述动作值为样本六轴力矩值,所述奖赏值为样本速度,所述优势值为最优速度。
进一步地,***还包括:评判网络训练模块,用于当机器人在路径中行走时,利用评判网络对每一步的奖赏值进行判断得到每一步的评分,将连续两步的评分之差作为当前步评分,利用当前步评分进行当前步的梯度下降,由此训练得到评判网络。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明仿真环境模型根据六轴力矩值驱动机器人,考虑了实际加工过程中的动力学特性,能够快速、准确地规划原轨迹上的速度,使其更加适应实际加工过程。通过仿真环境模型与决策网络不断交互,得到机器人在路径中从起点至终点的速度规划,利用评判网络找到最优速度规划,结合了强化学习的决策能力及深度神经网络优秀的感知能力,由此得到的速度规划考虑了机器人动力学问题,克服了机器人末端执行器的生成速度较差、加速度特性不佳、与实际工作过程的契合度较低、需要人为参与及灵活性较差的技术问题。
(2)本发明采用物理引擎构建仿真环境,进而得到所述环境仿真模型,模拟了机器人的动力学特性,符合真实的加工动力学特性,保证了任务完成的精度和效率。
(3)本发明利用动作值、奖赏值和优势值训练决策网络收敛到预定状态,然后利用决策网络进行速度规划,生成更加符合实际过程的轨迹和速度,从而在实际过程中能够获得具有更加平稳的速度及加速度特性。
附图说明
图1是本发明实施例提供的一种基于强化学习的机器人速度规划方法的流程图;
图2是本发明实施例提供的仿真环境模型建立流程图;
图3是本发明实施例提供的速度规划前向决策流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,一种基于强化学习的机器人速度规划方法,包括如下步骤:
(1)根据机器人以及机器人从起点至终点之间的路径,建立仿真环境模型;
(2)将机器人行走路径输入仿真环境模型,得到起点速度,将起点速度输入决策网络,得到第一步的六轴扭转力矩,仿真环境模型根据第一步六轴扭转力矩驱动机器人,得到第一步的速度,将第一步的速度输入决策网络,得到第二步的六轴扭转力矩,仿真环境模型根据第二步的六轴扭转力矩驱动机器人,仿真环境模型与决策网络不断交互,得到机器人在路径中从起点至终点的速度规划;
(3)重复步骤(2)得到多条速度规划,利用评判网络对每一条速度规划作出判断,得到评分,将评分最高的速度规划作为最优速度规划。
将机器人的六轴扭转力矩作为起始端,机器人作为观察目标,建立物理引擎,根据机器人运行过程中摩擦力和转动惯量的变化,得到动力学过程,采用物理引擎和动力学过程构建一个利用六轴扭转力矩驱动机器人行走的仿真的环境,得到仿真环境模型。如图2所示,本发明中仿真环境模型的接收指令为:六轴扭转力矩(即六轴转角扭转力矩),模型建立过程中考虑了摩擦力和转动惯量等物理属性,同时,在仿真环境模型中通过机器人正解可以获得机器人末端执行器的位姿。
如图3所示,本发明通过仿真环境模型与决策网络不断交互,得到机器人在路径中从起点至终点的速度规划,结合了强化学习的决策能力及深度神经网络优秀的感知能力。仿真环境模型(即机器人仿真环境)根据六轴扭转力矩(即图3中的六轴扭矩指令)驱动机器人,得到机器人状态(即速度),决策网络根据机器人状态产生新的六轴扭矩指令。
决策网络的结构为:基于Reception-v3结构,后接一层数目为6的全连接层,作为输出。
决策网络为训练好的决策网络,所述决策网络的训练包括:
仿真环境模型根据动作值生成奖赏值,利用动作值和奖赏值进行值函数估计,得到优势值,利用动作值、奖赏值和优势值训练决策网络收敛到预定状态,得到训练好的决策网络;
其中,所述动作值为样本六轴力矩值,所述奖赏值为样本速度,所述优势值为最优速度。
预定状态为奖赏值和优势值之间的误差小于5%。
值函数估计的具体实现方式为:
R=γ*(R′+r)
其中,γ为衰减系数,R为下一步的优势值,R’为下一步的奖赏值,r为当前步的动作值对应的奖赏值。
评判网络的结构为:基于Reception-v3结构,后接一层数目为1的全连接层。评判网络为训练好的评判网络,所述评判网络的训练包括:
机器人在路径中行走时,利用评判网络对每一步的奖赏值进行判断得到每一步的评分,将连续两步的评分之差作为当前步评分,利用当前步评分进行当前步的梯度下降,由此训练得到评判网络。
本发明方法结合了强化学***稳的速度及加速度特性。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于强化学习的机器人速度规划方法,其特征在于,包括如下步骤:
(1)构建一个利用六轴扭转力矩驱动机器人行走的仿真的环境,得到仿真环境模型;
(2)将机器人行走路径输入仿真环境模型,得到起点速度,将起点速度输入决策网络,得到第一步的六轴扭转力矩,仿真环境模型根据第一步六轴扭转力矩驱动机器人,得到第一步的速度,将第一步的速度输入决策网络,得到第二步的六轴扭转力矩,仿真环境模型根据第二步的六轴扭转力矩驱动机器人,仿真环境模型与决策网络不断交互,得到机器人在路径中从起点至终点的速度规划;
(3)重复步骤(2)得到多条速度规划,利用评判网络对每一条速度规划作出判断,得到评分,将评分最高的速度规划作为最优速度规划;
所述决策网络为训练好的决策网络,所述决策网络的训练包括:
仿真环境模型根据动作值生成奖赏值,利用动作值和奖赏值进行值函数估计,得到优势值,利用动作值、奖赏值和优势值训练决策网络收敛到预定状态,得到训练好的决策网络;
其中,所述动作值为样本六轴力矩值,所述奖赏值为样本速度,所述优势值为最优速度;
所述值函数估计的具体实现方式为:
R=γ*(R’+r)
其中,γ为衰减系数,R为下一步的优势值,R’为下一步的奖赏值,r为当前步的动作值对应的奖赏值。
2.如权利要求1所述的一种基于强化学习的机器人速度规划方法,其特征在于,所述步骤(1)包括:
将机器人的六轴扭转力矩作为起始端,机器人作为观察目标,建立物理引擎,根据机器人运行过程中摩擦力和转动惯量的变化,得到动力学过程,采用物理引擎和动力学过程构建一个利用六轴扭转力矩驱动机器人行走的仿真的环境,得到仿真环境模型。
3.如权利要求1所述的一种基于强化学习的机器人速度规划方法,其特征在于,所述预定状态为奖赏值和优势值之间的误差小于5%。
4.如权利要求1所述的一种基于强化学习的机器人速度规划方法,其特征在于,所述评判网络为训练好的评判网络,所述评判网络的训练包括:
机器人在路径中行走时,利用评判网络对每一步的奖赏值进行判断得到每一步的评分,将连续两步的评分之差作为当前步评分,利用当前步评分进行当前步的梯度下降,由此训练得到评判网络。
5.一种基于强化学习的机器人速度规划***,其特征在于,包括:
模型建立模块,用于构建一个利用六轴扭转力矩驱动机器人行走的仿真的环境,得到仿真环境模型;
速度规划模块,用于将机器人行走路径输入仿真环境模型,得到起点速度,将起点速度输入决策网络,得到第一步的六轴扭转力矩,仿真环境模型根据第一步六轴扭转力矩驱动机器人,得到第一步的速度,将第一步的速度输入决策网络,得到第二步的六轴扭转力矩,仿真环境模型根据第二步的六轴扭转力矩驱动机器人,仿真环境模型与决策网络不断交互,得到机器人在路径中从起点至终点的速度规划;
最优规划模块,用于重复执行速度规划模块得到多条速度规划,利用评判网络对每一条速度规划作出判断,得到评分,将评分最高的速度规划作为最优速度规划;
决策网络训练模块,用于采用仿真环境模型根据动作值生成奖赏值,利用动作值和奖赏值进行值函数估计,得到优势值,利用动作值、奖赏值和优势值训练决策网络收敛到预定状态,得到训练好的决策网络;
其中,所述动作值为样本六轴力矩值,所述奖赏值为样本速度,所述优势值为最优速度,所述值函数估计的具体实现方式为:
R=γ*(R’+r)
其中,γ为衰减系数,R为下一步的优势值,R’为下一步的奖赏值,r为当前步的动作值对应的奖赏值。
6.如权利要求5所述的一种基于强化学习的机器人速度规划***,其特征在于,所述模型建立模块包括:
物理引擎建立模块,用于将机器人的六轴扭转力矩作为起始端,机器人作为观察目标,建立物理引擎;
动力学分析模块,用于根据机器人运行过程中摩擦力和转动惯量的变化,得到动力学过程;
联合建模模块,用于采用物理引擎和动力学过程构建一个利用六轴扭转力矩驱动机器人行走的仿真的环境,得到仿真环境模型。
7.如权利要求5所述的一种基于强化学习的机器人速度规划***,其特征在于,所述***还包括:评判网络训练模块,用于当机器人在路径中行走时,利用评判网络对每一步的奖赏值进行判断得到每一步的评分,将连续两步的评分之差作为当前步评分,利用当前步评分进行当前步的梯度下降,由此训练得到评判网络。
CN202010215475.8A 2020-03-24 2020-03-24 一种基于强化学习的机器人速度规划方法和*** Active CN111267109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010215475.8A CN111267109B (zh) 2020-03-24 2020-03-24 一种基于强化学习的机器人速度规划方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010215475.8A CN111267109B (zh) 2020-03-24 2020-03-24 一种基于强化学习的机器人速度规划方法和***

Publications (2)

Publication Number Publication Date
CN111267109A CN111267109A (zh) 2020-06-12
CN111267109B true CN111267109B (zh) 2021-07-02

Family

ID=70993012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010215475.8A Active CN111267109B (zh) 2020-03-24 2020-03-24 一种基于强化学习的机器人速度规划方法和***

Country Status (1)

Country Link
CN (1) CN111267109B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5615116A (en) * 1990-02-05 1997-03-25 Caterpillar Inc. Apparatus and method for autonomous vehicle navigation using path data
CN106877746A (zh) * 2017-03-21 2017-06-20 北京京东尚科信息技术有限公司 速度控制方法和速度控制装置
CN107182206A (zh) * 2016-06-08 2017-09-19 驭势科技(北京)有限公司 车辆自动驾驶的速度规划方法、装置及计算装置
CN109491320A (zh) * 2018-10-31 2019-03-19 华中科技大学 一种基于强化学习的刀具路径生成与优化方法
CN109773784A (zh) * 2018-12-28 2019-05-21 深圳市越疆科技有限公司 一种机器人的参数调整方法、装置及机器人
CN110083160A (zh) * 2019-05-16 2019-08-02 哈尔滨工业大学(深圳) 一种基于深度学习的机器人轨迹规划方法
CN110328668A (zh) * 2019-07-27 2019-10-15 南京理工大学 基于速度平滑确定性策略梯度的机械臂路径规划方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5615116A (en) * 1990-02-05 1997-03-25 Caterpillar Inc. Apparatus and method for autonomous vehicle navigation using path data
CN107182206A (zh) * 2016-06-08 2017-09-19 驭势科技(北京)有限公司 车辆自动驾驶的速度规划方法、装置及计算装置
CN106877746A (zh) * 2017-03-21 2017-06-20 北京京东尚科信息技术有限公司 速度控制方法和速度控制装置
CN109491320A (zh) * 2018-10-31 2019-03-19 华中科技大学 一种基于强化学习的刀具路径生成与优化方法
CN109773784A (zh) * 2018-12-28 2019-05-21 深圳市越疆科技有限公司 一种机器人的参数调整方法、装置及机器人
CN110083160A (zh) * 2019-05-16 2019-08-02 哈尔滨工业大学(深圳) 一种基于深度学习的机器人轨迹规划方法
CN110328668A (zh) * 2019-07-27 2019-10-15 南京理工大学 基于速度平滑确定性策略梯度的机械臂路径规划方法

Also Published As

Publication number Publication date
CN111267109A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN108161934B (zh) 一种利用深度强化学习实现机器人多轴孔装配的方法
CN106503373B (zh) 一种基于b样条曲线的双机器人协调装配轨迹规划方法
US9044856B2 (en) Robot apparatus, method of controlling the same, and computer program
CN110561438A (zh) 基于动力学参数辨识的工业机器人力/位柔顺控制方法
CN113821045B (zh) 一种腿足机器人强化学习动作生成***
CN112847235B (zh) 基于深度强化学习的机器人分阶力引导装配方法及***
CN113687659B (zh) 一种基于数字孪生的最优轨迹生成方法及***
CN106041932A (zh) 一种ur机器人的运动控制方法
CN107443379A (zh) 一种基于仿真数据的机械臂运动控制方法
CN111267109B (zh) 一种基于强化学习的机器人速度规划方法和***
CN112434464B (zh) 基于maddpg算法的船舶多机械臂弧焊协同焊接方法
CN114211492A (zh) 一种基于模型的多自由度机械臂的最优轨迹规划方法
CN111890364A (zh) 机器人的运动控制方法、装置、电子设备及存储介质
Wang et al. Path planning optimization for teaching and playback welding robot
CN115648209A (zh) 一种工业机器人多目标自适应协同轨迹优化方法及应用
CN116442227A (zh) 液压驱动移动作业机器人的末端接触力控制方法及***
Tang et al. Coordinated motion planning of dual-arm space robot with deep reinforcement learning
CN111546035B (zh) 一种基于学习与预测的齿轮在线快速装配方法
CN113829351B (zh) 一种基于强化学习的移动机械臂的协同控制方法
CN108227493A (zh) 一种机器人轨迹跟踪方法
Nonoyama et al. Every-efficient motion planning for dual-armed robot by PID gain optimization with genetic algorithm
Nomanfar et al. Reinforcement Learning Control for Cable-Driven Parallel Robot
Gao et al. Adaptive velocity planning for 6-DOF Robots with fixed tracks
Fratu et al. Robots collision avoidance using learning through imitation
Banga Optimal Trajectory Planning Analysis of Robot Manipulator Using PSO

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant