CN111267109B

CN111267109B - 一种基于强化学习的机器人速度规划方法和***

Info

Publication number: CN111267109B
Application number: CN202010215475.8A
Authority: CN
Inventors: 杨建中; 武俊雄; 向单奇
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2021-07-02
Anticipated expiration: 2040-03-24
Also published as: CN111267109A

Abstract

本发明公开了一种基于强化学习的机器人速度规划方法和***，包括：构建一个利用六轴扭转力矩驱动机器人行走的仿真的环境，得到仿真环境模型；将机器人行走路径输入仿真环境模型，得到起点速度，将起点速度输入决策网络，得到第一步的六轴扭转力矩，仿真环境模型根据第一步六轴扭转力矩驱动机器人，得到第一步的速度，仿真环境模型与决策网络不断交互，得到机器人在路径中从起点至终点的速度规划；重复上一步得到多条速度规划，利用评判网络对每一条速度规划作出判断，得到评分，将评分最高的速度规划作为最优速度规划。本发明考虑了实际加工过程中的动力学特性，能够快速、准确地规划原轨迹上的速度，使其更加适应实际加工过程。

Description

一种基于强化学习的机器人速度规划方法和***

技术领域

本发明属于工业机器人领域，更具体地，涉及一种基于强化学习的机器人速度规划方法和***。

背景技术

当前工业机器人在功能和应用上已逐渐完善。随着机器人行业突飞猛进的发展，机器人现在已经广泛应用于包括喷涂、码垛、搬运、包装、焊接、装配、机械加工等任务当中。机器人的使用极大地解放了人力，尤其在极端工作环境的情况下，提高了安全系数，提升了生产效率和质量。

然而，很多机器人工作任务中，尤其是在机械加工任务中，对速度规划的要求非常高。在机器人执行机械加工任务时，当末端执行器轨迹速度骤然变化时，有可能会导致末端执行器与被加工工件之间的作用力急剧变化，甚至强烈震动的产生，这种不可控的变化不仅会降低被加工零件的加工质量，还会降低机器人和执行器的使用寿命，因此，对机器人速度规划的研究具有十分重要的理论意义和现实价值。

传统的机器人速度规划方法从虚轴运动目标出发，通过带有约束条件的机器人逆解方法，将运动分解到各个轴上，得到各个轴关于时间的序列。然而，当前的规划方法大都是基于几何形状而没有考虑实际加工过程中的动力学问题，导致机器人末端执行器的生成速度较差、加速度特性不佳、与实际工作过程的契合度较低、需要人为参与及灵活性较差等技术问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于强化学习的机器人速度规划方法和***，由此解决现有技术存在机器人末端执行器的生成速度较差、加速度特性不佳、与实际工作过程的契合度较低、需要人为参与及灵活性较差的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于强化学习的机器人速度规划方法，包括如下步骤：

(1)构建一个利用六轴扭转力矩驱动机器人行走的仿真的环境，得到仿真环境模型；

(2)将机器人行走路径输入仿真环境模型，得到起点速度，将起点速度输入决策网络，得到第一步的六轴扭转力矩，仿真环境模型根据第一步六轴扭转力矩驱动机器人，得到第一步的速度，将第一步的速度输入决策网络，得到第二步的六轴扭转力矩，仿真环境模型根据第二步的六轴扭转力矩驱动机器人，仿真环境模型与决策网络不断交互，得到机器人在路径中从起点至终点的速度规划；

(3)重复步骤(2)得到多条速度规划，利用评判网络对每一条速度规划作出判断，得到评分，将评分最高的速度规划作为最优速度规划。

进一步地，步骤(1)包括：

将机器人的六轴扭转力矩作为起始端，机器人作为观察目标，建立物理引擎，根据机器人运行过程中摩擦力和转动惯量的变化，得到动力学过程，采用物理引擎和动力学过程构建一个利用六轴扭转力矩驱动机器人行走的仿真的环境，得到仿真环境模型。

进一步地，决策网络为训练好的决策网络，所述决策网络的训练包括：

仿真环境模型根据动作值生成奖赏值，利用动作值和奖赏值进行值函数估计，得到优势值，利用动作值、奖赏值和优势值训练决策网络收敛到预定状态，得到训练好的决策网络；

其中，所述动作值为样本六轴力矩值，所述奖赏值为样本速度，所述优势值为最优速度。

进一步地，预定状态为奖赏值和优势值之间的误差小于5％。

进一步地，值函数估计的具体实现方式为：

R＝γ*(R′+r)

其中，γ为衰减系数，R为下一步的优势值，R’为下一步的奖赏值，r为当前步的动作值对应的奖赏值。

进一步地，评判网络为训练好的评判网络，所述评判网络的训练包括：

机器人在路径中行走时，利用评判网络对每一步的奖赏值进行判断得到每一步的评分，将连续两步的评分之差作为当前步评分，利用当前步评分进行当前步的梯度下降，由此训练得到评判网络。

按照本发明的另一方面，提供了一种基于强化学习的机器人速度规划***，包括：

模型建立模块，用于构建一个利用六轴扭转力矩驱动机器人行走的仿真的环境，得到仿真环境模型；

速度规划模块，用于将机器人行走路径输入仿真环境模型，得到起点速度，将起点速度输入决策网络，得到第一步的六轴扭转力矩，仿真环境模型根据第一步六轴扭转力矩驱动机器人，得到第一步的速度，将第一步的速度输入决策网络，得到第二步的六轴扭转力矩，仿真环境模型根据第二步的六轴扭转力矩驱动机器人，仿真环境模型与决策网络不断交互，得到机器人在路径中从起点至终点的速度规划；

最优规划模块，用于重复执行速度规划模块得到多条速度规划，利用评判网络对每一条速度规划作出判断，得到评分，将评分最高的速度规划作为最优速度规划。

进一步地，模型建立模块包括：

物理引擎建立模块，用于将机器人的六轴扭转力矩作为起始端，机器人作为观察目标，建立物理引擎；

动力学分析模块，用于根据机器人运行过程中摩擦力和转动惯量的变化，得到动力学过程；

联合建模模块，用于采用物理引擎和动力学过程构建一个利用六轴扭转力矩驱动机器人行走的仿真的环境，得到仿真环境模型。

进一步地，***还包括：决策网络训练模块，用于采用仿真环境模型根据动作值生成奖赏值，利用动作值和奖赏值进行值函数估计，得到优势值，利用动作值、奖赏值和优势值训练决策网络收敛到预定状态，得到训练好的决策网络；

进一步地，***还包括：评判网络训练模块，用于当机器人在路径中行走时，利用评判网络对每一步的奖赏值进行判断得到每一步的评分，将连续两步的评分之差作为当前步评分，利用当前步评分进行当前步的梯度下降，由此训练得到评判网络。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明仿真环境模型根据六轴力矩值驱动机器人，考虑了实际加工过程中的动力学特性，能够快速、准确地规划原轨迹上的速度，使其更加适应实际加工过程。通过仿真环境模型与决策网络不断交互，得到机器人在路径中从起点至终点的速度规划，利用评判网络找到最优速度规划，结合了强化学习的决策能力及深度神经网络优秀的感知能力，由此得到的速度规划考虑了机器人动力学问题，克服了机器人末端执行器的生成速度较差、加速度特性不佳、与实际工作过程的契合度较低、需要人为参与及灵活性较差的技术问题。

(2)本发明采用物理引擎构建仿真环境，进而得到所述环境仿真模型，模拟了机器人的动力学特性，符合真实的加工动力学特性，保证了任务完成的精度和效率。

(3)本发明利用动作值、奖赏值和优势值训练决策网络收敛到预定状态，然后利用决策网络进行速度规划，生成更加符合实际过程的轨迹和速度，从而在实际过程中能够获得具有更加平稳的速度及加速度特性。

附图说明

图1是本发明实施例提供的一种基于强化学习的机器人速度规划方法的流程图；

图2是本发明实施例提供的仿真环境模型建立流程图；

图3是本发明实施例提供的速度规划前向决策流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，一种基于强化学习的机器人速度规划方法，包括如下步骤：

(1)根据机器人以及机器人从起点至终点之间的路径，建立仿真环境模型；

将机器人的六轴扭转力矩作为起始端，机器人作为观察目标，建立物理引擎，根据机器人运行过程中摩擦力和转动惯量的变化，得到动力学过程，采用物理引擎和动力学过程构建一个利用六轴扭转力矩驱动机器人行走的仿真的环境，得到仿真环境模型。如图2所示，本发明中仿真环境模型的接收指令为：六轴扭转力矩(即六轴转角扭转力矩)，模型建立过程中考虑了摩擦力和转动惯量等物理属性，同时，在仿真环境模型中通过机器人正解可以获得机器人末端执行器的位姿。

如图3所示，本发明通过仿真环境模型与决策网络不断交互，得到机器人在路径中从起点至终点的速度规划，结合了强化学习的决策能力及深度神经网络优秀的感知能力。仿真环境模型(即机器人仿真环境)根据六轴扭转力矩(即图3中的六轴扭矩指令)驱动机器人，得到机器人状态(即速度)，决策网络根据机器人状态产生新的六轴扭矩指令。

决策网络的结构为：基于Reception-v3结构，后接一层数目为6的全连接层，作为输出。

决策网络为训练好的决策网络，所述决策网络的训练包括：

预定状态为奖赏值和优势值之间的误差小于5％。

值函数估计的具体实现方式为：

R＝γ*(R′+r)

评判网络的结构为：基于Reception-v3结构，后接一层数目为1的全连接层。评判网络为训练好的评判网络，所述评判网络的训练包括：

本发明方法结合了强化学***稳的速度及加速度特性。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习的机器人速度规划方法，其特征在于，包括如下步骤：

(3)重复步骤(2)得到多条速度规划，利用评判网络对每一条速度规划作出判断，得到评分，将评分最高的速度规划作为最优速度规划；

所述决策网络为训练好的决策网络，所述决策网络的训练包括：

其中，所述动作值为样本六轴力矩值，所述奖赏值为样本速度，所述优势值为最优速度；

所述值函数估计的具体实现方式为：

R＝γ*(R’+r)

2.如权利要求1所述的一种基于强化学习的机器人速度规划方法，其特征在于，所述步骤(1)包括：

3.如权利要求1所述的一种基于强化学习的机器人速度规划方法，其特征在于，所述预定状态为奖赏值和优势值之间的误差小于5％。

4.如权利要求1所述的一种基于强化学习的机器人速度规划方法，其特征在于，所述评判网络为训练好的评判网络，所述评判网络的训练包括：

5.一种基于强化学习的机器人速度规划***，其特征在于，包括：

最优规划模块，用于重复执行速度规划模块得到多条速度规划，利用评判网络对每一条速度规划作出判断，得到评分，将评分最高的速度规划作为最优速度规划；

决策网络训练模块，用于采用仿真环境模型根据动作值生成奖赏值，利用动作值和奖赏值进行值函数估计，得到优势值，利用动作值、奖赏值和优势值训练决策网络收敛到预定状态，得到训练好的决策网络；

其中，所述动作值为样本六轴力矩值，所述奖赏值为样本速度，所述优势值为最优速度，所述值函数估计的具体实现方式为：

R＝γ*(R’+r)

6.如权利要求5所述的一种基于强化学习的机器人速度规划***，其特征在于，所述模型建立模块包括：

7.如权利要求5所述的一种基于强化学习的机器人速度规划***，其特征在于，所述***还包括：评判网络训练模块，用于当机器人在路径中行走时，利用评判网络对每一步的奖赏值进行判断得到每一步的评分，将连续两步的评分之差作为当前步评分，利用当前步评分进行当前步的梯度下降，由此训练得到评判网络。