CN113910221A

CN113910221A - 一种机械臂自主运动规划方法、装置、设备及存储介质

Info

Publication number: CN113910221A
Application number: CN202111143685.1A
Authority: CN
Inventors: 林凡; 李沐; 卢泉州
Original assignee: GCI Science and Technology Co Ltd
Current assignee: GCI Science and Technology Co Ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2022-01-11
Anticipated expiration: 2041-09-28
Also published as: CN113910221B

Abstract

本发明公开了一种机械臂自主运动规划方法、装置、设备及存储介质，所述方法包括：获取包括机械臂的位置坐标值、当前移动速度值、当前横摆角速度值的机械臂数据和包括障碍物的位置坐标值、尺寸数据的障碍物数据；根据机械臂数据和障碍物数据，采用人工势场算法获得动作评价指标值；将机械臂数据、障碍物数据和动作评价指标值作为状态值，输入至预设的决策模型，通过决策模型选择机械臂的移动动作、移动动作的连续速度值、横摆动作和横摆动作的连续角速度值；其中，决策模型采用基于正态分布的动作策略函数。本发明能够基于正态分布的动作策略函数，输出具有连续移动速度值和连续摆动角速度值的动作，提高了机械臂在连续运动时的操作精确度。

Description

一种机械臂自主运动规划方法、装置、设备及存储介质

技术领域

本发明涉及机器人控制技术领域，尤其是涉及一种机械臂自主运动规划方法、装置、设备及存储介质。

背景技术

精密操作机械手是一种通过工作人员对其导入事先编写好的运动代码后，便可以对工厂流水线上的产品进行精密加工的新型产物，是一种集高操作精度、高执行效率、高自动化的新型智能化产品。在传统车间里，往往需要依靠员工时刻盯紧流水线，对流水线上经过的半成品进行及时加工，但随着工厂智能化的持续推进，精密操作机械手凭借其操作精度高、误差小、操作时间短、效率高、可减少工厂人力资源损耗且降低企业成本等优点，逐渐被广泛应用于工厂流水线上，是未来智能化工厂的构建中不可缺少的一环。

然而目前大多数机械手采用的算法都是传统实现自主导航功能类的算法，如A*，D*，RRT类算法等，此类算法的思想是通过定位自身位置，同时根据目的点位置和障碍物位置，搜索出一条最优路径，应用于简单的实际场景时可以得到很好的效果，但采用此类算法的机械手在连续运动时操作精确度不高，难以适用于复杂的实际环境。

发明内容

本发明提供了一种机械臂自主运动规划方法、装置、设备及存储介质，以解决现有的机械臂动作规划方法无法提高机械臂在连续运动时的操作精确度的问题，能够基于正态分布的动作策略函数对机械臂的动作进行决策，决策动作能从正态分布中对移动速度和横摆角速度进行采样，以输出具有连续移动速度值和连续摆动角速度值的动作，提高了机械臂在连续运动时的操作精确度，以使机械臂适用于复杂的实际环境。

为了解决上述技术问题，本发明实施例第一方面提供了一种机械臂自主运动规划方法，包括：

获取机械臂数据和障碍物数据，所述机械臂数据包括机械臂的位置坐标值、当前移动速度值和当前横摆角速度值，所述障碍物数据包括障碍物的位置坐标值和尺寸数据；

根据所述机械臂数据和所述障碍物数据，采用人工势场算法获得动作评价指标值；

将所述机械臂数据、所述障碍物数据和所述动作评价指标值作为状态值，输入至预设的决策模型，通过所述决策模型选择所述机械臂的移动动作、所述移动动作的连续速度值、横摆动作和所述横摆动作的连续角速度值；其中，所述决策模型采用基于正态分布的动作策略函数。

作为其中一种改进，所述动作策略函数具体为：

其中，s表示状态值，θ表示参数向量值，α表示学习率，σ(s,θ)表示带有参数向量值θ的策略分布方差，μ(s,θ)表示带有参数向量值θ的策略分布期望，π(x|s,θ)表示决策模型在状态值为s，参数向量值为θ时选取动作x的概率。

作为其中一种改进，所述通过所述决策模型选择所述机械臂的移动动作、所述移动动作的连续速度值、横摆动作和所述横摆动作的连续角速度值，具体包括：

采用tanh激活函数分别对所述机械臂的移动速度的正态分布期望、所述机械臂的横摆角速度的正态分布期望进行限制，分别获得速度策略分布期望、角速度策略分布期望；

根据所述移动速度的策略分布方差和所述速度策略分布期望，获得所述移动速度的正态分布和移动动作策略函数；

根据所述移动动作策略函数，选择所述机械臂的移动动作，所述移动动作根据所述移动速度的正态分布对所述移动速度进行采样，选择所述连续速度值；

根据所述横摆角速度的策略分布方差和所述角速度策略分布期望，获得所述横摆角速度的正态分布和横摆动作策略函数；

根据所述横摆动作策略函数，选择所述机械臂的横摆动作，所述横摆动作根据所述横摆角速度的正态分布对所述横摆角速度进行采样，获得所述连续角速度值。

作为其中一种改进，所述方法通过以下步骤预先获取所述决策模型：

获取多个时刻的机械臂数据和障碍物数据；

根据多个时刻的所述机械臂数据和所述障碍物数据，采用人工势场算法获得多个时刻的动作评价指标值；

将多个时刻的所述机械臂数据、所述障碍物数据和所述动作评价指标值作为状态值输入至PPO模型；

基于正态分布的动作策略函数，采用PPO算法对所述PPO模型进行训练，并获取所述决策模型。

作为其中一种改进，所述决策模型包括输入层、全连接层、选择网络和评价网络；

所述输入层用于将状态空间序列(S₁,S₂,…,S_t)输入至所述全连接层，S_t表示在时刻t的状态值；

所述全连接层包括第一激活层和第二激活层；

其中，所述第一激活层有256个节点，一个节点对应所述机械臂的一个移动动作或横摆动作，根据所述状态空间序列，所述第一激活层选择所述机械臂的移动动作或横摆动作对应的评价函数，所述评价函数包括状态价值函数和动作价值函数；

所述第二激活层用于根据所述状态空间序列，采用tanh激活函数分别对所述机械臂的移动速度的正态分布期望、所述机械臂的横摆角速度的正态分布期望进行限制，分别获得速度策略分布期望、角速度策略分布期望；

所述评价网络用于根据所述状态空间序列对所述评价函数进行估计，并根据估计后的评价函数获得优势函数，根据所述优势函数获得回报值，根据所述回报值更新所述参数向量值；

所述选择网络根据所述第二激活层获得的所述速度策略分布期望和所述角速度策略分布期望，构造所述移动动作策略函数、所述移动速度的正态分布、所述横摆动作策略函数和所述角速度的正态分布，根据所述移动动作策略函数，选择所述机械臂的移动动作，所述移动动作根据所述移动速度的正态分布对所述移动速度进行采样，选择所述连续速度值，根据所述横摆动作策略函数，选择所述机械臂的横摆动作，所述横摆动作根据所述横摆角速度的正态分布对所述横摆角速度进行采样，获得所述连续角速度值。

作为其中一种改进，所述根据所述机械臂数据和所述障碍物信息数据，采用人工势场算法获得动作评价指标值，具体包括：

根据所述机械臂数据和所述障碍物数据，获得危险因子；

根据所述危险因子和预设危险阈值，获得障碍物的斥力势能；

根据所述斥力势能和目的地区域的引力势能，获得所述动作评价指标值；

其中，所述危险因子定义为：

t＝d₀-max(L,W)

t表示危险因子的值，d₀表示所述机械臂与所述障碍物的距离，L、W分别表示所述障碍物的长度、宽度；

所述斥力势能定义为：

U′_r表示斥力势能，η表示斥力因子，t^*表示危险因子的最小值，t₀表示预设危险阈值；

所述引力势能定义为：

U′_a表示引力势能，k_p表示引力因子，d_g表示所述机械臂与目的地之间的距离，

表示所述机械臂的移动平台与目的地之间的距离阈值；

所述动作评价指标值通过公式U＝U′_r+U′_a获得。

作为其中一种改进，所述获取机械臂数据和障碍物数据，具体包括：

基于安装在所述机械臂的底座位置感应传感器，获得所述机械臂的位置坐标值；

基于安装在所述机械臂上的至少一个速度感应传感器，获得所述机械臂的当前移动速度值，基于安装在所述机械臂上的至少一个偏摆型角速度传感器，获得所述机械臂的当前横摆角速度值；

根据激光雷达获得所述障碍物的激光雷达点云数据，采用K-D树的欧式距离聚类方法，对所述激光雷达点云数据进行聚类处理，获得所述障碍物数据。

本发明实施例第二方面提供了一种机械臂自主运动规划装置，包括：

数据获取模块，用于获取机械臂数据和障碍物数据，所述机械臂数据包括机械臂的位置坐标值、当前移动速度值和当前横摆角速度值，所述障碍物数据包括障碍物的位置坐标值和尺寸数据；

动作评价指标值获取模块，用于根据所述机械臂数据和所述障碍物数据，采用人工势场算法获得动作评价指标值；

动作决策模块，用于将所述机械臂数据、所述障碍物数据和所述动作评价指标值作为状态值，输入至预设的决策模型，通过所述决策模型选择所述机械臂的移动动作、所述移动动作的连续速度值、横摆动作和所述横摆动作的连续角速度值；其中，所述决策模型采用基于正态分布的动作策略函数。

本发明实施例第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一项所述的机械臂自主运动规划方法。

本发明实施例第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面任一项所述的机械臂自主运动规划方法。

相比于现有技术，本发明实施例的有益效果在于，本发明实施例提供的一种机械臂自主运动规划方法、装置、设备及存储介质，通过采用基于正态分布的动作策略函数作为决策模型的动作策略函数，并基于正态分布的动作策略函数对机械臂的动作进行决策，决策动作能从正态分布中对移动速度和横摆角速度进行采样，以输出具有连续移动速度值和连续摆动角速度值的动作，提高了机械臂在连续运动时的操作精确度，以使机械臂适用于复杂的实际环境。

附图说明

图1是本发明提供的一种机械臂自主运动规划方法的一个优选实施例的流程示意图；

图2是本发明提供的决策模型的一个优选实施例的网络架构示意图；

图3是本发明提供的一种机械臂自主运动规划装置的一个优选实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明提供的一种机械臂自主运动规划方法的一个优选实施例的流程示意图。

本发明实施例第一方面提供了一种机械臂自主运动规划方法，包括步骤S1至步骤S3，具体如下：

步骤S1：获取机械臂数据和障碍物数据，所述机械臂数据包括机械臂的位置坐标值、当前移动速度值和当前横摆角速度值，所述障碍物数据包括障碍物的位置坐标值和尺寸数据。

具体地，为定义强化学习算法中的状态S_t，需要获取机械臂自身位置、速度和障碍物数据等多个数据。对工厂内以磁北方向设为y轴正方向，磁北偏东90°为x轴正方向，每隔一段距离放置一个路由器，放置距离以工厂的规模为准，规模越大，放置距离可适当缩短；通过路由器收集传感器发送的信息，借助无线传感网络，为机械臂提供其自身位置、速度和障碍物数据等多个数据。

本发明实施例在机械臂底座上放置一个位置感应传感器，借助由路由器构成的无线传感网络感知其在工厂里的所在位置坐标值(N,E,U)，在机械臂上放置多个速度感应传感器和偏摆型角速度传感器，通过传感器得到机械臂移动的速度v和转过的横摆角速度ω。

进一步地，采用激光雷达作为障碍物的感知传感器，使用基于K-D树的欧式距离聚类方法，对激光雷达点云进行聚类处理后即可得到障碍物相对自身的位置坐标值(X_i,Y_i,Z_i)和包括长、宽、高信息的尺寸数据(L_i,W_i,H_i)。

需要说明的是，强化学习是根据某一时刻状态S_t进行动作选择的，在本发明实施例的自主导航场景中，状态S_t中包含了位置坐标值(N,E,U)，机械臂运动信息(ν,ω)，障碍物信息(X_i,Y_i，Z_i,L_i,W_i,H_i)。

步骤S2：根据所述机械臂数据和所述障碍物数据，采用人工势场算法获得动作评价指标值；

根据所述机械臂数据和所述障碍物数据，获得危险因子；

其中，所述危险因子定义为：

t＝d₀-max(L,W)

所述斥力势能定义为：

U′_r表示斥力势能，η表示斥力因子，t^*表示危险因子的最小值，t₀表示预设危阈值；

险所述引力势能定义为：

表示所述机械臂的移动平台与目的地之间的距离阈值；

所述动作评价指标值通过公式U＝U′_r+U′_a获得。

具体地，本发明实施例提出了一种改进的人工势场算法，以评价机械臂自身完成任务的情况，并将其作为作为决策模型进行强化学习的状态值。

人工势场算法作为机械臂的运动算法之一，其基本思想是障碍物对自身产生排斥力，目的地对自身产生吸引力，势能为引力斥力之和，通过这样的方法在环境中构建人工势场。传统的引力势能U_a和斥力势能U_r公式分别如下：

式子(1)中，U_a为引力势能，k_p为引力因子，d_g为自身与目的地的距离；式子(2)中，U_r为斥力势能，η为斥力因子，ρ为机械臂自身与最近障碍物间的距离，ρ₀为机械臂自身与障碍物间的距离阈值。

然而传统人工势场的斥力势能取最近障碍物与自身的距离ρ，但很多时候距离远的障碍物可能因为其体积大更有碰撞风险，因此本文设计了一种危险因子t用于判断障碍物的危险程度，危险因子定义如下：

t＝d₀-max(L,W) (3)

式子(3)中，d₀表示机械臂自身与障碍物的距离，L和W分别表示障碍物的长度和宽度。

计算各障碍物的危险因子并取其最小值t^*，将斥力势能替换如下：

式子(4)中，t₀为危险阈值。

除此之外，倘若机械手在复杂的环境下进行操作，即机械手运动的目的地并非某个点，而是一个区域，为更准确定义目的地区域的势能，将引力势能定义如下：

式子(5)中，

为所述机械臂的移动平台与目的地间的距离阈值，若移动平台与目的地距离小于阈值时，则引力势能为0。

最终，取引力和斥力的势能和作为机械臂运动动作评价指标：

U＝U′_r+U′_a (6)

需要说明的是，U值越大说明完成动作完成情况越差，U值越小说明动作完成情况越好。将该评价指标作为决策模型的状态值，方便模型进行动作决策设计。

步骤S3：将所述机械臂数据、所述障碍物数据和所述动作评价指标值作为状态值，输入至预设的决策模型，通过所述决策模型选择所述机械臂的移动动作、所述移动动作的连续速度值、横摆动作和所述横摆动作的连续角速度值；其中，所述决策模型采用基于正态分布的动作策略函数。

作为其中一种改进，所述动作策略函数具体为：

获取多个时刻的机械臂数据和障碍物数据；

需要说明的是，强化学习算法的基本思想是通过与环境交互来获取奖励，并以此进行自我学习。强化学习算法包含几个主要部分，分别为智能体、环境、状态、动作以及奖励。智能体若在t时刻处于状态S_t，可根据当前的策略函数π选择动作A_t，该动作会影响环境，并在下一时刻获得返回奖励R_t+1，与环境交互的轨迹序列可表示为：S₀，A₀，R₁，S₁，A₁，R₂，…，S_t，A_t，R_t+1。

其中，智能体训练的目的是最大化获取的回合奖励，即期望回报G_t，回报表示回合结束后的累计奖励加权值，G_t定义公式为：

式子(7)中，γ是值小于1的折扣因子。

为了评价某一个状态或者动作的好坏，引入状态价值函数V_π(s)和动作价值函数Q_π(s，a)，方程分别如下：

V_π(s)＝E_π[G_t|S_t＝s] (8)

Q_π(s，a)＝E_π[G_t|S_t＝s，A_t＝a] (9)

状态价值函数和动作价值函数反应了当前状态或动作可获取的回合平均期望回报值，因此可作为强化学***均期望回报值；E_π[G_t|S_t＝s，A_t＝a]表示在状态S_t＝s，模型选取动作A_t为a的概率的情况下，期望回报G_t的平均期望回报值。

进一步地，目前许多强化学习算法都基于Q值，模型参数用于更新动作价值函数Q_π(s，a)，策略即选择最大的Q_π(s，a)。不同于基于Q值的强化学习算法，本发明实施例采用的PPO算法将模型参数定义在策略函数π(a|s，θ)中：

π(a|s，θ_t)＝Pr{A_t＝a|S_t＝s，θ_t＝θ} (10)

式子(10)中，Pr{A_t＝a|S_t＝s，θ_t＝θ}表示在t时刻，状态S_t＝s，参数向量θ_t＝θ，该模型选取动作A_t为a的概率。

通过更新参数向量θ_t，可得到更优的策略函数，参数向量更新方程如下：

θ_t+1＝θ_t+αδ_tπ(a|s，θ_t) (11)

式子(11)中，α为学习率，δ_t是根据训练过程中求解出来的基准值。

其参数向量更新的目的是使回报函数最大。回报函数定义如下：

式子(12)中，r(s_t)表示在s_t状态下的奖励值，求解所述奖励值的奖励函数如下：

式子(13)中，d_a表示机械臂到目的地中心的距离，

表示可行驶区域阈值，c为碰撞检测因子，若发生碰撞则为1，不发生碰撞为0。当机械臂碰撞障碍物会得到负奖励，到达目的地会得到正奖励。除此之外，还定义了可行驶区域，超出该区域也会得到负奖励。

进一步地，在实际训练过程中，可能会由于设置的学习率α不合适导致决策模型表现越来越差。为解决此问题，PPO算法定义了优势函数A_π(s_t，a_t)：

A_π(s_t，a_t)＝Q_π(s，a)-V_π(s) (14)

式(14)表示动作a所获得的回合奖励与动作平均可获得的回合奖励差值。若A_π(s_t，a_t)＞0，则说明动作a优于平均表现。

根据优势函数，构建了近似回报函数

式子(15)中，

表示更新后的策略

所对应的近似回报函数，η(π)表示更新前策略π对应的回报函数，

表示更新前θ₀策略参数为所对应的状态分布。

若式(15)中的优势函数项

则策略更新后的回报函数单调不减，即模型策略更优或不变。通过公式(15)可以筛选出最优的模型策略。

进一步地，为解决机械臂在运动过程中输出动作的连续性问题，本发明实施例在PPO算法的基础上，根据式(10)的PPO动作策略函数，利用正态分布函数将动作策略函数重新定义如下：

基于式(16)动作策略函数的定义，机械臂移动速度和横摆角速度将从正态分布中进行采样。相比于离散性采样，在正态分布中进行采样可以使输出动作数值连续，由此可解决输出动作连续性问题。且通过式(11)更新参数，可改变正态分布的期望和方差，从而改变动作的采样概率，使好的动作采样概率更高，坏的动作采样概率更低，进而得到更优的决策模型。

但考虑到机械臂的移动速度和角速度有上限值，若不对正态分布期望进行限制，大多采样动作会超出其上限值，这意味着许多采样动作将对模型的更新起不到作用，进而导致模型收敛速度慢。因此使用tanh激活函数对正态分布期望进行限制。由于tanh激活函数方程取值为(-1,1)，将其乘以期望因子δ_μ可限制策略分布的期望，将策略分布期望定义如下：

μ(s,θ)＝δ_μtanh(x) (17)

式子(17)中期望因子δ_μ取值为机械臂移动速度和横摆角速度的上限值。

参见图2，是本发明提供的决策模型的一个优选实施例的网络架构示意图。

作为其中一种改进，所述决策模型包括输入层201、全连接层202、选择网络203和评价网络204；

所述输入层201用于将状态空间序列(S₁,S₂,…,S_t)输入至所述全连接层202，S_t表示在时刻t的状态值；

所述全连接层202包括第一激活层301和第二激活层302；

其中，所述第一激活层301有256个节点，一个节点对应所述机械臂的一个移动动作或横摆动作，根据所述状态空间序列，所述第一激活层301选择所述机械臂的移动动作或横摆动作对应的评价函数，所述评价函数包括状态价值函数和动作价值函数；

所述第二激活层302用于根据所述状态空间序列，采用tanh激活函数分别对所述机械臂的移动速度的正态分布期望、所述机械臂的横摆角速度的正态分布期望进行限制，分别获得速度策略分布期望、角速度策略分布期望；

所述评价网络204用于根据所述状态空间序列对所述评价函数进行估计，并根据估计后的评价函数获得优势函数，根据所述优势函数获得回报值，根据所述回报值更新所述参数向量值；

所述选择网络203根据所述第二激活层302获得的所述速度策略分布期望和所述角速度策略分布期望，构造所述移动动作策略函数、所述移动速度的正态分布、所述横摆动作策略函数和所述角速度的正态分布，根据所述移动动作策略函数，选择所述机械臂的移动动作，所述移动动作根据所述移动速度的正态分布对所述移动速度进行采样，选择所述连续速度值，根据所述横摆动作策略函数，选择所述机械臂的横摆动作，所述横摆动作根据所述横摆角速度的正态分布对所述横摆角速度进行采样，获得所述连续角速度值。

具体地，根据式(16)动作策略函数的定义，本发明实施例提出了决策模型的网络框架如图2所示，包括输入层201、全连接层202、选择网络203和评价网络204。

输入层为状态空间序列(S₁,S₂,…,S_t)，分别输入选择网络203和评价网络204的待激活层中。选择网络203和评价网络204的待激活层称为全连接层202，且第一层有256个节点，根据机械臂操作目的选取恰当的评价函数作为激活函数，当函数被运用，即被激活时，进入评价网络204；第二层有128个节点，激活函数为tanh，同理，当函数被激活时，进入选择网络203。

选择网络203用以选择策略分布π(x|s,θ)的期望μ(s,θ)和方差σ(s,θ)，以构造机械臂移动速度v的正态分布和转过的横摆角速度ω的正态分布，决策动作将根据其分布函数进行采样。

评价网络204用于估计评价函数，根据式(14)和式(15)可知，该评价函数可计算出优势函数A_π(s_t,a_t)，进而得到回报函数

的值，并参与选择网络策略分布的参数更新，逐步筛选出，在该机械臂运动场景中，机械臂应该选择怎样合适的移动速度v和横摆角速度ω，才能得到较高的回报函数

采用本发明实施例提供的一种机械臂自主运动规划方法，通过采用基于正态分布的动作策略函数作为决策模型的动作策略函数，并基于正态分布的动作策略函数对机械臂的动作进行决策，决策动作能从正态分布中对移动速度和横摆角速度进行采样，以输出具有连续移动速度值和连续摆动角速度值的动作，提高了机械臂在连续运动时的操作精确度，以使机械臂适用于复杂的实际环境。

数据获取模块401，用于获取机械臂数据和障碍物数据，所述机械臂数据包括机械臂的位置坐标值、当前移动速度值和当前横摆角速度值，所述障碍物数据包括障碍物的位置坐标值和尺寸数据；

动作评价指标值获取模块402，用于根据所述机械臂数据和所述障碍物数据，采用人工势场算法获得动作评价指标值；

动作决策模块403，用于将所述机械臂数据、所述障碍物数据和所述动作评价指标值作为状态值，输入至预设的决策模型，通过所述决策模型选择所述机械臂的移动动作、所述移动动作的连续速度值、横摆动作和所述横摆动作的连续角速度值；其中，所述决策模型采用基于正态分布的动作策略函数。

作为其中一种改进，所述动作策略函数具体为：

作为其中一种改进，所述动作决策模块403还用于：

作为其中一种改进，所述机械臂自主运动规划装置还包括决策模型获取模块404，用于：

获取多个时刻的机械臂数据和障碍物数据；

所述全连接层202包括第一激活层301和第二激活层302；

作为其中一种改进，所述动作评价指标值获取模块402还用于：

根据所述机械臂数据和所述障碍物数据，获得危险因子；

其中，所述危险因子定义为：

t＝d₀-max(L,W)

所述斥力势能定义为：

所述引力势能定义为：

表示所述机械臂的移动平台与目的地之间的距离阈值；

所述动作评价指标值通过公式U＝U′_r+U′_a获得。

作为其中一种改进，所述数据获取模块401还用于：

需要说明的是，本发明实施例所提供的一种机械臂自主运动规划装置，能够实现上述任一实施例所述的机械臂自主运动规划方法的所有流程，装置中的各个模块的作用以及实现的技术效果分别与上述实施例所述的机械臂自主运动规划方法的作用以及实现的技术效果对应相同，这里不再赘述。

本发明实施例第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一实施例所述的机械臂自主运动规划方法。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明实施例第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面任一实施例所述的机械臂自主运动规划方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种机械臂自主运动规划方法，其特征在于，包括：

2.如权利要求1所述的机械臂自主运动规划方法，其特征在于，所述动作策略函数具体为：

其中，s表示状态值，θ表示参数向量值，α表示学习率，σ(s，θ)表示带有参数向量值θ的策略分布方差，μ(s，θ)表示带有参数向量值θ的策略分布期望，π(x|s，θ)表示决策模型在状态值为s，参数向量值为θ时选取动作x的概率。

3.如权利要求2所述的机械臂自主运动规划方法，其特征在于，所述通过所述决策模型选择所述机械臂的移动动作、所述移动动作的连续速度值、横摆动作和所述横摆动作的连续角速度值，具体包括：

4.如权利要求2所述的机械臂自主运动规划方法，其特征在于，所述方法通过以下步骤预先获取所述决策模型：

获取多个时刻的机械臂数据和障碍物数据；

5.如权利要求3所述的机械臂自主运动规划方法，其特征在于，所述决策模型包括输入层、全连接层、选择网络和评价网络；

所述输入层用于将状态空间序列(S₁，S₂，…，S_t)输入至所述全连接层，S_t表示在时刻t的状态值；

所述全连接层包括第一激活层和第二激活层；

6.如权利要求1所述的机械臂自主运动规划方法，其特征在于，所述根据所述机械臂数据和所述障碍物信息数据，采用人工势场算法获得动作评价指标值，具体包括：

根据所述机械臂数据和所述障碍物数据，获得危险因子；

其中，所述危险因子定义为：

t＝d₀-max(L，W)

t表示危险因子的值，d0表示所述机械臂与所述障碍物的距离，L、W分别表示所述障碍物的长度、宽度；

所述斥力势能定义为：

所述引力势能定义为：

表示所述机械臂的移动平台与目的地之间的距离阈值；

所述动作评价指标值通过公式U＝U′_r+U′_a获得。

7.如权利要求1所述的机械臂自主运动规划方法，其特征在于，所述获取机械臂数据和障碍物数据，具体包括：

8.一种机械臂自主运动规划装置，其特征在于，包括：

9.一种终端设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的机械臂自主运动规划方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7任一项所述的机械臂自主运动规划方法。