CN113232016A - 一种强化学习与模糊避障融合的机械臂路径规划方法 - Google Patents

一种强化学习与模糊避障融合的机械臂路径规划方法 Download PDF

Info

Publication number
CN113232016A
CN113232016A CN202110393339.2A CN202110393339A CN113232016A CN 113232016 A CN113232016 A CN 113232016A CN 202110393339 A CN202110393339 A CN 202110393339A CN 113232016 A CN113232016 A CN 113232016A
Authority
CN
China
Prior art keywords
mechanical arm
fuzzy
obstacle avoidance
reinforcement learning
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110393339.2A
Other languages
English (en)
Inventor
谢玮
孙宜枫
马家辰
张乐贡
刘茂熠
尹剑
李永磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Ataw Industrial Robot Technology Co ltd
Harbin Institute of Technology Weihai
Original Assignee
Shandong Ataw Industrial Robot Technology Co ltd
Harbin Institute of Technology Weihai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Ataw Industrial Robot Technology Co ltd, Harbin Institute of Technology Weihai filed Critical Shandong Ataw Industrial Robot Technology Co ltd
Priority to CN202110393339.2A priority Critical patent/CN113232016A/zh
Publication of CN113232016A publication Critical patent/CN113232016A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • B25J9/1666Avoiding collision or forbidden zones
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J18/00Arms
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明属于智能控制领域,具体涉及一种强化学习与模糊避障融合的机械臂路径规划方法,包括以下步骤:在机械臂运动前,采用双目视觉***的两台相同相机获取环境图片,三维重建构建三维空间立体模型,对空间进行离散化,即将目标转化为点的集合;构建模糊控制避障算法,使用强化学习在先验立体空间模型寻找最优轨迹,在遇到障碍物时启用模糊控制避障算法,躲避障碍物成功后再次进入强化学习算法使机械臂向目标点运动。该方法能够在不同的环境中根据不同的状态规划出可行路径,并且决策时间短、成功率高,能够满足在线规划的实时性要求,克服了传统机械臂路径规划方法实时性差、计算量大的缺点也克服了基于传统强化学习方法难以提高学习效率的缺点。

Description

一种强化学习与模糊避障融合的机械臂路径规划方法
技术领域
本发明属于智能控制领域 ,特别涉及一种强化学习与模糊避障融合的机械臂路径规划方法,特别是6轴机械臂轨迹优化方法。
背景技术
众所周知,通常,在对机械臂进行轨迹规划时,人们需要对外界的环境建立精确的数学模型,然后经过复杂的一系列计算,才能规划出一条轨迹。然而,外部环境是会一直变化的,这时就要求机械臂能够减少对外部环境模型的依赖,即机械臂的控制器能够根据外部环境智能地调整其输出轨迹,躲避障碍物,以此来适应动态多变的外部环境,完成所给的任务。
将强化学习算法和模糊避障算法融合应用到机械臂的轨迹规划中,设计了一款用于轨迹规划的控制***,该控制***具有一定的泛化能力,它可以应用到不同型号和不同自由度的机械臂上,它也不需要像深度学习算法那样需要大量的标签数据集,只需要与环境交互学习就可以,并且其与传统的轨迹规划算法相比较,具有一定的自学习优势,即机械臂不必对外部环境构建精确的数学模型,也不需要重复的编写控制***的程序,就可以实时学习到不同的轨迹规划策略。
针对目前强化学习的方法,强化学习方法的描述基于马尔科夫决策过程,通过智能体与环境的互动积累经验,并且不断更新智能体的策略,使它做出的决策能够获得更高的奖励。相比于传统控制方法,该方法不需要构建物理模型,在训练完成后,策略能够直接根据当前环境状态输出下一步的决策,由于网络进行一次前向计算的计算量很少,因此相比于传统的机械臂控制方法此方法能够实现路径规划更加快速的目的。
发明内容
本发明的目的是解决上述现有技术的不足,提供一种强化学习与模糊避障融合的机械臂路径规划方法,解决了机械臂在路线规划过程中学习效率低下,容易发生碰撞的缺点。
本发明解决其技术问题所采用的技术方案是:
一种强化学习与模糊避障融合的机械臂路径规划方法,其特征在于,包括步骤如下:
步骤1:用双目视觉***两台相机获取机械臂工作场景的图像信息并进行三维重建;
步骤2:利用基于稀疏奖励的深度强化学习改进算法选择最优轨线策略,以较高的学习效率在可行作业空间中为机械臂规划运动策略,利用模糊避障算法使机械臂以最小的代价避开障碍物,强化学习与模糊避障融合算法使得机械臂以最小代价运动到达目标位置。
本发明在步骤1中,采用双目视觉***的两台相同规格的相机获取环境图片。
本发明在步骤1中,对图片做预处理,对于获取的畸变向量,消除它的径向和切线方向上的镜头畸变,获得无畸变图像,同时建立摄像机的成像模型,确定目标点与像素点之间的对应关系;通过线性变换使处理后的无畸变图像中的共轭极线位于同一水平线上,把二维空间的匹配问题化简为一维空间的求解问题;将图片分成等大格栅;采用立体匹配算法得到校准后的图像与原图像的视差值,然后利用这个视差值得到每两幅图像之间的稀疏匹配,再通过优化算法,获得稠密匹配。
本发明步骤1中,三维重建采用三角测量原理计算获取的立体匹配图像的深度值,得到稠密的三维空间点云,再对获取的三维空间点云进行网格化和差值计算,得到物体的三维结构模型;对空间进行离散化,即将目标转化为点的集合;
本发明所述步骤2中,使用模糊控制方法完成机械臂避障。当机械臂与障碍物之间的距离小于最小避障距离时采用模糊控制,当避障成功之后并且机械臂的所处的状态与避障之前所处的状态不同时再把指挥权交由强化学习的路径规划。
本发明所述步骤2中,定义模糊变量:对机械臂前端的四个超声传感器
Figure 955944DEST_PATH_IMAGE002
所测的机械臂到障碍物的距离分别定义为
Figure 138664DEST_PATH_IMAGE004
,并把
Figure 839773DEST_PATH_IMAGE006
作为模糊控制器的一组输入变量,把距离信息模糊化为两个等级,为{Far,Near}={“远”,“近”},论域定义为 (0,
Figure 172665DEST_PATH_IMAGE008
) ,其中
Figure 455879DEST_PATH_IMAGE010
为人为设置的数值,这里取1。
本发明所述步骤2中,引入输入变量:为了使在进行避障动作时能够更加趋进于目标点,使得行驶的路径最优化,在此我们需要引入另一输入变量
Figure 996450DEST_PATH_IMAGE012
,它表示的是机械臂末端前进的方向与机械臂末端所在点到目标终点连线的夹角,其模糊语言的定义为{PB,PS,Z,NS,NB}={“正大”,“正小”,“零”,“负小”,“负大”},其中定义顺时针方向的夹角180°之内为正,逆时针方向的夹角为负。论域的定义为 (−π,+π ),确定输出变量:模糊控制器的输出变量为机械臂的运动位移TR,定义 TR 的模糊信息为{TPB,TPS,TZ,TNS,TNB}={“右”,“右前”,“前”,“左前”,“左”},论域为(-1.57 ,1.57)。
本发明所述步骤2中,制定模糊控制知识规则:
当机械臂的前方区域无障碍物或者远离障碍物时:机械臂根据目标点所在的方向进行动作选择,
当障碍物在机械臂的正前方时:如果目标点不在机械臂的正前方,则转向目标点的那一方向;如果目标点在机械臂的正前方,则规定机械臂向右运动,
当障碍物在机械臂的左方时:如果目标点在机械臂的左方或者正前方,则机械臂向前;如果目标点在右方,则机器转向右运动,
当障碍物在机械臂的右方时:如果目标点在机械臂的右方或者正前方,则机械臂向前;如果目标点在左方,则机械臂向左运动,
当障碍物在机械臂的左前方时:如果目标点在机械臂的左方或者正前方,则机械臂右前方运动;如果目标点在右方,则机械臂向右运动,
当障碍物在机械臂的右前方时:如果目标点在机械臂的右方或者正前方,则机械臂向左前方运动;如果目标点在左方,则机械臂向左运动。
本发明所述步骤2中,使用DDPG算法与HER算法的结合,其中DDPG算法的主要任务是做决策与探索来寻找代价最小的运动轨线,HER算法的主要任务是构造DDPG算法的经验池,来解决奖励稀疏情况下DDPG难以达到预期学习效果的问题。
本发明所述DDPG算法包括:
设置Actor网络和Critic网络的网络结构,隐藏层均使用ReLU作为激活函数,输出层使用tanh作为激活函数,输出动作后,加入随机探索噪声增大训练初期探索概率,最大训练回合数为600,每个回合最大步数为500,target网络采用soft模式更新:
Figure 529063DEST_PATH_IMAGE014
,其中取
Figure 196805DEST_PATH_IMAGE016
,记忆库R的大小设为
Figure 928000DEST_PATH_IMAGE018
,设置训练过程中每个轨迹的最后一个状态作为g。
本发明HER算法为每个轨迹设置了一个可实现的中间目标,通过中间目标反馈更丰富的奖励信息,然后利用这些奖励信息进行学习,因此更加适合用在强化学习控制机械臂的算法中。
DDPG+HER算法主要包括以下几个主要步骤:
(1)初始化参数
(2)先用DDPG算法运行并记录每一回合的最终状态形成状态集合G;
(3)再选取用HER算法重构经验池R;
(4)将存储在经验池R中;
(5)将存储在经验池R中;
(6)在经验池中采样,对神经网络参数更新;
(7)网络参数复制。
本发明的优点在于:
(1)本发明基于强化学习与模糊避障融合的机械臂路径规划方法,该方法能够在不同的环境中根据始、终点、障碍物的位置和大小不同的情况下自动规划出代价最小的可行路线,避免了传统机械臂控制实时性差、计算量大、对环境依赖严重的缺点;
(2)本发明基于强化学习与模糊避障融合的机械臂路径规划方法,引入HER算法,提高了奖励稀疏情况下的学习效率,相比于传统强化学习方法,在学习速度和效果上都有明显提升;
(3)本发明基于强化学习与模糊避障融合的机械臂路径规划方法,使用超声传感器探测机械臂与障碍物举例,提高了精确度和反应速度;
(4)本发明基于强化学习与模糊避障融合的机械臂路径规划方法,以强化学习算法为主干融入模糊控制方法高效避障,提高了机械臂作业的安全性。
附图说明
图1是本发明的控制***结构图。
图2是本发明中所用强化学习算法的结构示意图。
图3是本发明控制算法流程图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明。
一种强化学习路径规划与模糊避障融合的机械臂路径规划方法,其创新点在于:所述路径规划方法通过改进的深度强化学习算法与模糊控制避障方法结合使用,从而在保障不会碰撞障碍物的前提下确定出最优运动轨迹,具体步骤如下:
步骤1:在机械臂运动前,采用双目视觉***的两台相同相机获取环境图片,三维重建构建三维空间立体模型,对空间进行离散化,即将目标转化为点的集合;
步骤2:使用强化学习路径规划与模糊避障融合的方法作为机械臂的控制算法。强化学习作为主体算法,模糊避障算法与强化学习算法交替使用。当机械臂与障碍物之间的距离小于最小避障距离
Figure DEST_PATH_IMAGE020
时采用模糊控制,当避障成功之后并且机械臂的所处的状态与避障之前所处的状态不同时再把指挥权交由强化学习的路径规划。判断机械臂与障碍物距离是否小于
Figure DEST_PATH_IMAGE022
步骤3:若机械臂与障碍物距离小于
Figure 498528DEST_PATH_IMAGE020
则选用模糊避障算法避障,若机械臂与障碍物距离不小于
Figure 518436DEST_PATH_IMAGE020
,则使用强化学习算法规划路径。
模糊控制是以模糊集合论、模糊语言变量和模糊逻辑推理为基础的一种计算机数字控制,是基于模糊推理和模仿人的思维方法,对难以建立数学模型的对象实施的一种控制。由专家构造语言信息并将其转化为控制策略使得模糊控制成功的应用于工程领域。模糊控制***的核心是模糊控制器。
首先定义模糊变量:对机械臂前端的四个超声传感器
Figure DEST_PATH_IMAGE024
所测的机械臂到障碍物的距离分别定义为
Figure DEST_PATH_IMAGE026
,并把
Figure DEST_PATH_IMAGE028
作为模糊控制器的一组输入变量。我们把距离信息模糊化为两个等级,为{Far,Near}={“远”,“近”},论域定义为 (0,
Figure DEST_PATH_IMAGE030
) ,其中
Figure 380082DEST_PATH_IMAGE030
为人为设置的数值,这里取1。
引入输入变量:为了使在进行避障动作时能够更加趋进于目标点,使得行驶的路径最优化,在此我们需要引入另一输入变量
Figure DEST_PATH_IMAGE032
,它表示的是机械臂末端前进的方向与机械臂末端所在点到目标终点连线的夹角,其模糊语言的定义为{PB,PS,Z,NS,NB}={“正大”,“正小”,“零”,“负小”,“负大”},其中定义顺时针方向的夹角(180°之内)为正,逆时针方向的夹角为负。论域的定义为 (−π,+π )。
确定输出变量:模糊控制器的输出变量为机械臂的运动方向TR 。定义 TR 的模糊信息为{TPB,TPS,TZ,TNS,TNB}={“右”,“右前”,“前”,“左前”,“左”},论域为(-1.57 ,1.57)。
然后根据具体情况制定模糊控制知识规则。
强化学习是机器学习的一类,通过智能体不断和环境进行交互来达到目标的学习与规划算法,并不断地追寻奖励的最大化来优化自己的决策。机械臂运动规划属于高维连续空间的策略。DDPG算法是一个无模型的,离线策略行为批评者算法,使用深度学习函数逼近器,可以在高维的连续动作空间中学习策略。所以本发明的控制算法以DDPG算法为基础。
在DDPG算法中,设置两类深度神经网络Actor和Critic。Actor的输入层为机械臂从环境中获取的状态,输出动作。Critic的输入层为Actor输出的动作,Critic的输出层为每个动作的价值Q。
深度神经网络的参数设置:Actor神经网络有三个隐层,第一层激活函数为relu,128个节点;第二层激活函数为relu,128个节点,第三层激活函数为relu,128个节点。输出层通过tanh进行归一化。Critic神经网络有三层隐藏层,第一层为128个节点,激活函数采用relu函数,第二层为128个节点,采用relu激活函数,第三层为10个节点,采用relu激活函数。
强化学习奖励设置:在深度强化学习探索过程中,如果机械臂碰触到三维模型中的障碍物边界,则获得较大幅值的负奖励,机械臂回到上一步状态重新探索。机械臂控制问题属于奖励稀疏问题,在奖励很稀疏的环境中智能体很难探索。所以在DDPG算法基础上加入HER算法可以在一定程度上解决这个问题。HER基于后见之明的思想,有一个明显的优点就是学习即使没有成功仍可以学习到一定经验。在进行训练时,能达到最终的目标轨迹很少,而那些没有达到最终目标的轨迹也应该为学习做出贡献,HER算法为这类轨迹设置了一个可实现的中间目标,通过中间目标反馈更丰富的奖励信息,然后利用这些奖励信息进行学习。
在训练策略或者值函数的时候,输入不止有状态
Figure DEST_PATH_IMAGE034
,还要加上一个目标
Figure DEST_PATH_IMAGE036
,目标g的作用就是为智能体设置中间奖励以获取更丰富的奖励信息。定义
Figure DEST_PATH_IMAGE038
,如果在状态s下能到达g,那么输出为1,否则输出为0。当设置了目标g后,可以利用
Figure DEST_PATH_IMAGE040
来生成新的reward。
参数更新设置:神经网络采用RMSProp优化算法进行参数更新以提高学习效率,target网络采用soft模式更新,设置参数
Figure DEST_PATH_IMAGE042
步骤4:判断机械臂是否到达目标点,若是则结束,若否则重新回到步骤1。
实施例:本实施例提供一种基于深度强化学习的机械臂运动规划方法,以6自由度机械臂为例进行举例说明,具体包括以下几个步骤:
步骤1,在机械臂运动前,采用双目视觉***的两台相同相机获取环境图片,三维重建构建三维空间立体模型,对空间进行离散化,即将目标转化为点的集合;
步骤2,判断机械臂与障碍物距离是否小于
Figure DEST_PATH_IMAGE044
。这里取
Figure 434626DEST_PATH_IMAGE044
值为0.4m。
步骤3:若机械臂与障碍物距离小于
Figure 582579DEST_PATH_IMAGE044
则选用模糊避障算法避障,若机械臂与障碍物距离不小于
Figure 293046DEST_PATH_IMAGE044
,则使用强化学习算法规划路径。
强化学习算法选用DDPG+HER算法。DDPG算法为本发明的基础算法,如图2所示。设置Actor和Critic网络,如图3所示。Actor神经网络有三个隐层,第一层激活函数为relu,128个节点;第二层激活函数为relu,128个节点,第三层激活函数为relu,128个节点。输出层通过tanh进行归一化。Critic神经网络有三层隐藏层,第一层为128个节点,激活函数采用relu函数,第二层为128个节点,采用relu激活函数,第三层为10个节点,采用relu激活函数。设置最大训练回合数为600,每个回合最大步数为500。target网络采用soft模式更新:
Figure DEST_PATH_IMAGE046
,其中取
Figure DEST_PATH_IMAGE048
,记忆库R的大小设为
Figure DEST_PATH_IMAGE050
。设置训练过程中每个轨迹的最后一个状态作为g。
DDPG+HER算法流程如下:
1.随机初始化Actor和Critic的online神经网络参数
Figure DEST_PATH_IMAGE052
并将参数复制到对应的target网络中:
Figure DEST_PATH_IMAGE054
2.初始化预设内存缓冲区R;
3.回合循环:从1到600回合循环并对每一步;
4.随机初始化噪声
Figure DEST_PATH_IMAGE056
,采样目标
Figure DEST_PATH_IMAGE058
5.步循环:从1到500步循环;
5.Actor网络根据行为策略
Figure DEST_PATH_IMAGE060
、目标
Figure DEST_PATH_IMAGE062
和噪声
Figure DEST_PATH_IMAGE064
选择一个动作
Figure DEST_PATH_IMAGE066
发送给环境并执行;
6.
Figure DEST_PATH_IMAGE068
7.环境执行
Figure DEST_PATH_IMAGE070
,返回奖励
Figure DEST_PATH_IMAGE072
和新的状态
Figure DEST_PATH_IMAGE074
,如果碰到障碍物,则获得负奖励并返回上一状态;
8.步循环结束;
9.步循环:从1到500步循环;
10.
Figure DEST_PATH_IMAGE076
11.将
Figure DEST_PATH_IMAGE078
存储在经验池R中;
12.采样目标集中的另一组目标
Figure DEST_PATH_IMAGE080
13.
Figure DEST_PATH_IMAGE082
14.将
Figure DEST_PATH_IMAGE084
存储在经验池R中;
15.在经验池R中随机选取N个样本数据;
16.
Figure DEST_PATH_IMAGE086
17.定义Critic网络的损失函数为:
Figure DEST_PATH_IMAGE088
18.使用梯度下降法更新Actor网络:
Figure DEST_PATH_IMAGE090
19.采用soft更新模式更新target网络,提高稳定性:
Figure DEST_PATH_IMAGE092
20.步循环结束;
21.回合循环结束。
模糊避障算法步骤如下:
对机械臂前端的四个超声传感器
Figure DEST_PATH_IMAGE094
所测的机械臂到障碍物的距离分别定义为
Figure DEST_PATH_IMAGE096
,并把
Figure DEST_PATH_IMAGE098
作为模糊控制器的一组输入变量。我们把距离信息模糊化为两个等级,为{Far,Near}={“远”,“近”},论域定义为 (0,
Figure DEST_PATH_IMAGE100
) ,其中
Figure DEST_PATH_IMAGE102
为人为设置的数值,这里取1。
为了使在进行避障动作时能够更加趋进于目标点,使得行驶的路径最优化,在此我们需要引入另一输入变量
Figure DEST_PATH_IMAGE104
,它表示的是机械臂末端前进的方向与机械臂末端所在点到目标终点连线的夹角,其模糊语言的定义为{PB,PS,Z,NS,NB}={“正大”,“正小”,“零”,“负小”,“负大”},其中定义顺时针方向的夹角(180°之内)为正,逆时针方向的夹角为负。论域的定义为 (−π,+π )。
模糊控制器的输出变量为机械臂的运动方向TR 。定义 TR 的模糊信息为{TPB,TPS,TZ,TNS,TNB}={“右”,“右前”,“前”,“左前”,“左”},论域为(-1.57 ,1.57)。
模糊控制知识规则确定如下:
当机械臂的前方区域无障碍物或者远离障碍物时:机械臂根据目标点所在的方向进行动作选择,
当障碍物在机械臂的正前方时:如果目标点不在机械臂的正前方,则转向目标点的那一方向;如果目标点在机械臂的正前方,则规定机械臂向右运动。
当障碍物在机械臂的左方时:如果目标点在机械臂的左方或者正前方,则机械臂向前;如果目标点在右方,则机器转向右运动。
当障碍物在机械臂的右方时:如果目标点在机械臂的右方或者正前方,则机械臂向前;如果目标点在左方,则机械臂向左运动。
当障碍物在机械臂的左前方时:如果目标点在机械臂的左方或者正前方,则机械臂右前方运动;如果目标点在右方,则机械臂向右运动。
当障碍物在机械臂的右前方时:如果目标点在机械臂的右方或者正前方,则机械臂向左前方运动;如果目标点在左方,则机械臂向左运动。
步骤4:判断机械臂是否到达目标点,若是则结束,若否则重新回到步骤1。

Claims (12)

1.一种强化学习与模糊避障融合的机械臂路径规划方法,其特征在于,包括步骤如下:
步骤1:用双目视觉***两台相机获取机械臂工作场景的图像信息并进行三维重建;
步骤2:利用基于稀疏奖励的深度强化学习改进算法选择最优轨线策略,以较高的学习效率在可行作业空间中为机械臂规划运动策略,利用模糊避障算法使机械臂以最小的代价避开障碍物,强化学习与模糊避障融合算法使得机械臂以最小代价运动到达目标位置。
2.根据权利要求1所述的强化学习与模糊避障融合的机械臂路径规划方法,其特征在于,在步骤1中,采用双目视觉***的两台相同规格的相机获取环境图片。
3.根据权利要求2所述的强化学***线上,把二维空间的匹配问题化简为一维空间的求解问题;将图片分成等大格栅;采用立体匹配算法得到校准后的图像与原图像的视差值,然后利用这个视差值得到每两幅图像之间的稀疏匹配,再通过优化算法,获得稠密匹配。
4.根据权利要求3所述的强化学习与模糊避障融合的机械臂路径规划方法,其特征在于,在步骤1中,三维重建采用三角测量原理计算获取的立体匹配图像的深度值,得到稠密的三维空间点云,再对获取的三维空间点云进行网格化和差值计算,得到物体的三维结构模型;对空间进行离散化,即将目标转化为点的集合。
5.根据权利要求1所述的强化学习与模糊避障融合的机械臂路径规划方法,其特征在于,所述步骤2中,使用模糊控制方法完成机械臂避障。
6.当机械臂与障碍物之间的距离小于最小避障距离时采用模糊控制,当避障成功之后并且机械臂的所处的状态与避障之前所处的状态不同时再把指挥权交由强化学习的路径规划。
7.根据权利要求1所述的强化学习与模糊避障融合的机械臂路径规划方法,其特征在于,所述步骤2中,定义模糊变量:对机械臂前端的四个超声传感器
Figure DEST_PATH_IMAGE001
所测的机械臂到障碍物的距离分别定义为
Figure 672985DEST_PATH_IMAGE002
,并把
Figure DEST_PATH_IMAGE003
作为模糊控制器的一组输入变量,把距离信息模糊化为两个等级,为{Far,Near}={“远”,“近”},论域定义为 (0,
Figure 58967DEST_PATH_IMAGE004
) ,其中
Figure DEST_PATH_IMAGE005
为人为设置的数值,这里取1。
8.根据权利要求1所述的强化学习与模糊避障融合的机械臂路径规划方法,其特征在于,所述步骤2中,引入输入变量:为了使在进行避障动作时能够更加趋进于目标点,使得行驶的路径最优化,在此我们需要引入另一输入变量
Figure 307546DEST_PATH_IMAGE006
,它表示的是机械臂末端前进的方向与机械臂末端所在点到目标终点连线的夹角,其模糊语言的定义为{PB,PS,Z,NS,NB}={“正大”,“正小”,“零”,“负小”,“负大”},其中定义顺时针方向的夹角180°之内为正,逆时针方向的夹角为负。
9.论域的定义为 (−π,+π ),确定输出变量:模糊控制器的输出变量为机械臂的运动位移TR,定义 TR 的模糊信息为{TPB,TPS,TZ,TNS,TNB}={“右”,“右前”,“前”,“左前”,“左”},论域为(-1.57 ,1.57)。
10.根据权利要求1所述的强化学习与模糊避障融合的机械臂路径规划方法,其特征在于,所述步骤2中,制定模糊控制知识规则:
当机械臂的前方区域无障碍物或者远离障碍物时:机械臂根据目标点所在的方向进行动作选择,
当障碍物在机械臂的正前方时:如果目标点不在机械臂的正前方,则转向目标点的那一方向;如果目标点在机械臂的正前方,则规定机械臂向右运动,
当障碍物在机械臂的左方时:如果目标点在机械臂的左方或者正前方,则机械臂向前;如果目标点在右方,则机器转向右运动,
当障碍物在机械臂的右方时:如果目标点在机械臂的右方或者正前方,则机械臂向前;如果目标点在左方,则机械臂向左运动,
当障碍物在机械臂的左前方时:如果目标点在机械臂的左方或者正前方,则机械臂右前方运动;如果目标点在右方,则机械臂向右运动,
当障碍物在机械臂的右前方时:如果目标点在机械臂的右方或者正前方,则机械臂向左前方运动;如果目标点在左方,则机械臂向左运动。
11.根据权利要求1所述的强化学习与模糊避障融合的机械臂路径规划方法,其特征在于,所述步骤2中,使用DDPG算法与HER算法的结合,其中DDPG算法的主要任务是做决策与探索来寻找代价最小的运动轨线,HER算法的主要任务是构造DDPG算法的经验池,来解决奖励稀疏情况下DDPG难以达到预期学习效果的问题。
12.根据权利要求9所述的强化学习与模糊避障融合的机械臂路径规划方法,其特征在于,所述DDPG算法包括:
设置Actor网络和Critic网络的网络结构,隐藏层均使用ReLU作为激活函数,输出层使用tanh作为激活函数,输出动作后,加入随机探索噪声增大训练初期探索概率,最大训练回合数为600,每个回合最大步数为500,target网络采用soft模式更新:
Figure DEST_PATH_IMAGE007
,其中取
Figure 968334DEST_PATH_IMAGE008
,记忆库R的大小设为
Figure DEST_PATH_IMAGE009
,设置训练过程中每个轨迹的最后一个状态作为g。
CN202110393339.2A 2021-04-13 2021-04-13 一种强化学习与模糊避障融合的机械臂路径规划方法 Pending CN113232016A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110393339.2A CN113232016A (zh) 2021-04-13 2021-04-13 一种强化学习与模糊避障融合的机械臂路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110393339.2A CN113232016A (zh) 2021-04-13 2021-04-13 一种强化学习与模糊避障融合的机械臂路径规划方法

Publications (1)

Publication Number Publication Date
CN113232016A true CN113232016A (zh) 2021-08-10

Family

ID=77128604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110393339.2A Pending CN113232016A (zh) 2021-04-13 2021-04-13 一种强化学习与模糊避障融合的机械臂路径规划方法

Country Status (1)

Country Link
CN (1) CN113232016A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114454160A (zh) * 2021-12-31 2022-05-10 中国人民解放军国防科技大学 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及***
CN115609595A (zh) * 2022-12-16 2023-01-17 北京中海兴达建设有限公司 一种机械臂的轨迹规划方法、装置、设备及可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110060711A (ko) * 2009-11-30 2011-06-08 재단법인대구경북과학기술원 모바일 로봇의 장애물 회피 퍼지 제어기
GB201612957D0 (en) * 2015-07-28 2016-09-07 Harris Corp Path-optimized manipulator reversing controller
CN109521774A (zh) * 2018-12-27 2019-03-26 南京芊玥机器人科技有限公司 一种基于强化学习的喷涂机器人轨迹优化方法
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
US10399778B1 (en) * 2018-10-25 2019-09-03 Grey Orange Pte. Ltd. Identification and planning system and method for fulfillment of orders
CN110262478A (zh) * 2019-05-27 2019-09-20 浙江工业大学 基于改进人工势场法的人机安全避障路径规划方法
CN110561440A (zh) * 2019-09-27 2019-12-13 华侨大学 一种冗余度机械臂加速度层多目标规划方法
CN110632931A (zh) * 2019-10-09 2019-12-31 哈尔滨工程大学 动态环境下基于深度强化学习的移动机器人避碰规划方法
CN111645065A (zh) * 2020-03-25 2020-09-11 南京大学 一种基于深度强化学习的机械臂运动规划方法
CN111923039A (zh) * 2020-07-14 2020-11-13 西北工业大学 一种基于强化学习的冗余机械臂路径规划方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110060711A (ko) * 2009-11-30 2011-06-08 재단법인대구경북과학기술원 모바일 로봇의 장애물 회피 퍼지 제어기
GB201612957D0 (en) * 2015-07-28 2016-09-07 Harris Corp Path-optimized manipulator reversing controller
US10399778B1 (en) * 2018-10-25 2019-09-03 Grey Orange Pte. Ltd. Identification and planning system and method for fulfillment of orders
CN109521774A (zh) * 2018-12-27 2019-03-26 南京芊玥机器人科技有限公司 一种基于强化学习的喷涂机器人轨迹优化方法
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN110262478A (zh) * 2019-05-27 2019-09-20 浙江工业大学 基于改进人工势场法的人机安全避障路径规划方法
CN110561440A (zh) * 2019-09-27 2019-12-13 华侨大学 一种冗余度机械臂加速度层多目标规划方法
CN110632931A (zh) * 2019-10-09 2019-12-31 哈尔滨工程大学 动态环境下基于深度强化学习的移动机器人避碰规划方法
CN111645065A (zh) * 2020-03-25 2020-09-11 南京大学 一种基于深度强化学习的机械臂运动规划方法
CN111923039A (zh) * 2020-07-14 2020-11-13 西北工业大学 一种基于强化学习的冗余机械臂路径规划方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱心放: "基于强化学习的服务机器人导航研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114454160A (zh) * 2021-12-31 2022-05-10 中国人民解放军国防科技大学 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及***
CN114454160B (zh) * 2021-12-31 2024-04-16 中国人民解放军国防科技大学 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及***
CN115609595A (zh) * 2022-12-16 2023-01-17 北京中海兴达建设有限公司 一种机械臂的轨迹规划方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
Zhu et al. Deep reinforcement learning based mobile robot navigation: A review
Cao et al. Target search control of AUV in underwater environment with deep reinforcement learning
Chen et al. Stabilization approaches for reinforcement learning-based end-to-end autonomous driving
Botteghi et al. On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach
CN113232016A (zh) 一种强化学习与模糊避障融合的机械臂路径规划方法
CN105425828A (zh) 基于传感器融合技术的机器人防碰撞冲击双臂协调控制***
CN116540731B (zh) 融合堆叠lstm与sac算法的路径规划方法及***
Yan et al. Reinforcement Learning‐Based Autonomous Navigation and Obstacle Avoidance for USVs under Partially Observable Conditions
CN116382267B (zh) 一种基于多模态脉冲神经网络的机器人动态避障方法
CN116679719A (zh) 基于动态窗口法与近端策略的无人车自适应路径规划方法
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
CN117007066A (zh) 多规划算法集成的无人驾驶轨迹规划方法及相关装置
Zhang et al. Intelligent vector field histogram based collision avoidance method for auv
CN116300909A (zh) 一种基于信息预处理和强化学习的机器人避障导航方法
Tan et al. A local path planning method based on Q-learning
Sun et al. Event-triggered reconfigurable reinforcement learning motion-planning approach for mobile robot in unknown dynamic environments
CN117705113A (zh) 一种改进ppo的无人机视觉避障及自主导航方法
Ejaz et al. Autonomous visual navigation using deep reinforcement learning: An overview
CN117518907A (zh) 智能体的控制方法、装置、设备及存储介质
CN114594776B (zh) 一种基于层次化和模块化学习的导航避障方法
Lu et al. Autonomous mobile robot navigation in uncertain dynamic environments based on deep reinforcement learning
Duo et al. A deep reinforcement learning based mapless navigation algorithm using continuous actions
Rybak et al. Development of an algorithm for managing a multi-robot system for cargo transportation based on reinforcement learning in a virtual environment
Gattu Autonomous Navigation and Obstacle Avoidance using Self-Guided and Self-Regularized Actor-Critic
Toan et al. Environment exploration for mapless navigation based on deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210810