CN109241552A

CN109241552A - 一种基于多约束目标的水下机器人运动规划方法

Info

Publication number: CN109241552A
Application number: CN201810764979.8A
Authority: CN
Inventors: 张国成; 程俊涵; 孙玉山; 盛明伟; 冉祥瑞; 王力锋; 焦文龙; 王子楷; 贾晨凯; 吴凡宇
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2018-07-12
Filing date: 2018-07-12
Publication date: 2019-01-18
Anticipated expiration: 2038-07-12
Also published as: CN109241552B

Abstract

一种基于多约束目标的水下机器人运动规划方法，属于机器学习以及水下机器人运动规划领域。模型构建阶段：将机器人避障声呐的信号与流速传感器的流速信号转化为当前环境；根据动力学约束，建立离散动作空间；以水下障碍物作为约束，建立奖赏函数；基于多目标约束建立马尔可夫决策过程，为算法实现建立基础；训练阶段：基于Q学习算法进行训练，在当前环境，基于贪心策略执行动作，每执行一步策略，基于原始策略进行评估并更新一次策略，改进策略直到适应环境，实现规划目的。本发明考虑了水流、碍航物、目标等多约束目标，将强化学习方法与水下多约束目标结合，实现了水下机器人的运动规划，具有较强的实时性，并且可以适用于多种环境。

Description

一种基于多约束目标的水下机器人运动规划方法

技术领域

本发明属于机器学习以及水下机器人运动规划领域，具体涉及一种基于多约束目标的水下机器人运动规划方法。

背景技术

智能水下机器人在海洋科学研究、海洋开发、水下工程以及军事等方面都有广泛的应用前景。智能水下机器人一般工作在复杂的海洋环境下，为了更好的完成各种作业使命任务和保证其自身安全，需要其在未知环境下具有自主运动规划能力，能够在未知环境中躲避障碍物、航行至目标点。

传统的水下机器人运动规划技术，需要预先构建全局地图。在环境发生变化时需要重新建立连通模型，适应能力差，实用性不强。强化学习是一种无监督学习方法，它是一个不断的尝试的过程。它通过不断的行动与评价获得知识，改进策略以适应环境，使最终的评价函数值最大，达到学习的目的。

强化学习已经被证实可以在水下机器人中使用，但是传统的基于强化学习的水下机器人运动规划方法，考虑了单一的约束目标，没有同时考虑到水流约束、目标约束以及碍航物约束等多目标约束情况下对水下机器人运动的影响。

发明内容

本发明的目的在于提供一种基于多约束目标的水下机器人运动规划方法。该方法通过构造水流影响下的水下机器人动力学模型，并结合强化学习的方法将多约束目标进行融合，构造合理的奖励信号与动作空间，通过训练输出水下机器人最优控制策略。此外本发明还将水下的多约束目标与强化学习中的Q学习算法相结合，可以让水下机器人在未知的水下环境下获得环境特征，进行策略迭代，完成水下机器人的运动规划。

本发明的目的是这样实现的：

一种基于多约束目标的水下机器人运动规划方法分为模型构建阶段和算法训练阶段，具体包括以下步骤：

(1)模型构建阶段，具体指马尔可夫决策过程E的模型构建，强化学习任务通常可以用马尔可夫决策过程描述。因为水下环境的特殊性，考虑环境约束、碍航物约束以及目标点约束等多目标约束构建马尔可夫决策过程，具体包括以下步骤：

(1-1)根据传感器信号建立当前环境x_t；设机器人第i自由度方向的障碍物距离为l_i，若i自由度上不存在障碍物，则设置为无穷；机器人所处位置的流速设为vc；实时定位机器人位置，计算机器人与目标点的欧几里得距离d；

(1-2)根据水下机器人所能前进的最大值，建立机器人的动作空间A，A由五个运动命令组成，分别为前进、左前、右前、左侧推和右侧推，速度为v_a，角速度为ω_a；

(1-3)考虑碍航物约束，设第i自由度水下警戒安全距离h_i，如果检测到的l_i＜h_i，则认为碰撞发生，设置一个负的奖励r_ter；

(1-4)考虑目标点约束，目标点阈值为d'，如果检测到d变大，设置一个负的奖励r_opp，如果检测到d变小，设置一个正的奖励r_move，如果检测到d＜d'，机器人抵达目标点，设置一个正的奖励r_arr。

(2)算法训练阶段，具体指机器人在计算机仿真中进行不断试错，学习策略，具体包括以下步骤：

(2-1)初始化t＝0，t代表机器人每一次训练运动的步次；初始化r_t＝0，r_t代表机器人执行第t个动作时所获得的奖励；

(2-2)初始化一个矩阵Q(x,a)，记录在状态x时，选择动作a可以获得的Q值，初始化为0；

(2-3)初始化计数器count＝0，记录机器人训练的总次数；设定M值，代表机器人总共需要训练M次；

(2-4)当count小于指定的训练次数M时，执行(2-5)，否则执行(2-14)；

(2-5)获取传感器信号，获得当前状态x_t，其中包括碍航物信息，机器人i自由度方向的障碍物的距离l_i，如果没有障碍物则将距离设置为无穷；当前位置的海流流速信息vc_t；自身位置信息，并计算得到目标点距离机器人的欧几里得距离d；

(2-6)根据矩阵Q，选择动作a_t；

(2-7)考虑运动学约束以及水流约束，根据目标公式实际对外表现出的速度，将选择的动作a_t的速度与流速结合，根据结合得到的进行仿真，并更新l_i；

(2-8)如果l_i＜h_i，执行(2-9)，否则执行(2-10)；

(2-9)发生碰撞，r_t＝r_ter，结束本次训练，令x_t+1为空，更新矩阵Q，并将count+1，令t＝0，从(2-4)重新执行训练；

(2-10)如果d'＜d，执行(2-11)，否则抵达目标点，结束本次训练，令r_t＝r_arr，令x_t+1为空，并更新矩阵Q将count+1，令t＝0，从(2-4)重新执行训练；

(2-11)如果d_t＜d_t-1，执行(2-12)，否则执行(2-13)；

(2-12)d减小，令r_t＝r_move，更新x_t+1，并更新矩阵Q，将t+1，从(2-5)重新执行训练流程；

(2-13)d增加，令r_t＝r_opp，更新x_t+1，并更新矩阵Q，将t+1，从(2-5)重新执行训练流程；

(2-14)结束训练，得到训练后的矩阵Q；

(2-15)输出水下机器人运动规划策略。

所述的运动学约束，即训练过程中水下机器人本身的运动约束为：假设航行器的重心在固定坐标系的坐标为(x,y)，则机器人固定坐标系速度为：

其中，θ为纵倾角，φ为横倾角，α为运动约束对水下机器人速度的影响系数。

所述的水流约束在训练过程中选择动作时以下述方法进行考虑：在学习训练过程中，x_t状态下由ADCP获取的流速为vc_t，根据策略，机器人选择动作集中的一个动作a_t，其本身的速度为机器人执行动作时，考虑水流约束，其实际对外表现出的航行速度为：vi_t＝v_at+βvc_t，其中，β为水流对水下机器人速度的影响系数。

所述的选择动作a_t的具体方法为：采用贪心策略，设定阈值ε，使用计算机生成随机数ε'，若随机数小于阈值，即ε'＜ε，则机器人执行Q矩阵中状态Q(x_t,a)中元素的最大值对应的动作，即a_t＝max_a Q(x_t,a)；若随机数大于阈值，即ε'＞ε，则机器人随机选择一个动作执行，即a_t＝randomQ(xt,a)。

所述的更新矩阵Q的方法为：假定机器人执行动作前所属的状态为x_t，应执行的动作为a_t，根据反馈得到的奖励系数r_t，执行动作后抵达的状态为x_t+1，则

Q(x_t,a_t)←(1-α)*r_t+α*(r_t+γmax_a'Q(x_t+1,a'))

其中α为学习效率，其中γ为折扣因子。

本发明的有益效果在于：

(1)本发明考虑了水流、碍航物、目标等多约束目标，而传统的强化学习规划方法没有同时考虑多种约束目标，该训练的方法具有实用性与鲁棒性；

(2)本发明将强化学习方法与水下多约束目标结合，实现了水下机器人的运动规划，具有较强的实时性，并且可以适用于多种环境。

附图说明

图1为一种基于多约束目标的水下机器人运动规划方法的模型构建示意图；

图2为一种基于多约束目标的水下机器人运动规划方法的训练阶段执行流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

本发明涉及一种水下机器人运动规划方法，具体是将多目标约束与强化学习方法结合起来，用于水下机器人运动规划中。模型构建阶段：将机器人避障声呐的信号与流速传感器的流速信号转化为当前环境；基于水下机器人的动力学约束，建立离散动作空间；以水下障碍物作为约束，建立奖赏函数；基于多目标约束建立马尔可夫决策过程，为算法实现建立基础。训练阶段：基于Q学习算法进行训练，在当前环境，基于贪心策略执行动作，每执行一步策略，基于原始策略进行评估并更新一次策略，改进策略直到适应环境，实现规划目的。本发明将强化学习方法与水下多约束目标结合，实现了水下机器人的运动规划，具有较强的实时性，并且可以适用于多种环境。

本发明针对水下环境的特殊性，考虑多约束目标结合强化学习方法，训练水下机器人运动规划策略。分为模型构建阶段和策略训练阶段，包括以下步骤：

1.模型构建阶段，由图1所示，具体步骤如下：

强化学习任务通常可以用马尔可夫决策过程描述。因为水下环境的特殊性，考虑环境约束、碍航物约束以及目标点约束等多目标约束构建马尔可夫决策过程。

状态空间X的具体组成：一、水下机器人的避障声呐处理机器人所处环境的碍航物信息，即机器人i自由度方向的碍航物距离信息l_i；二、ADCP处理机器人所处环境的海流信息，即机器人所处位置的流速vc；三、GPS处理机器人与目标点的相对位置信息，即机器人距离目标点的欧几里得距离d。

动作空间A的具体组成：本发明中的动作空间包括四种控制命令，名称分别为左前、前、右前、左侧推以及右侧推。机器人的线速度为固定值v_a。

奖励函数R的具体组成：机器人一旦发生碰撞，奖励值为r_ter；机器人没有发生碰撞但是距离目标点越来越远，奖励值为r_opp；机器人没有发生碰撞且距离目标点越来越近，奖励值为r_move；机器人抵达目标点，奖励值为r_arr。

2.策略训练阶段，流程如图2所示，具体步骤如下：

首先建立虚拟环境用于训练，具体方法如下：

使用机器人运动仿真软件建立一个仿真的海洋环境，在虚拟环境中设定障碍物、目标点以及海流。障碍物与目标点可以随机定义，并定义6-12个不同的机器人起始点。

将二维平面空间进行栅格化处理，每个栅格内的海流可视为相同，流场用一个流函数Ψ(x,y)随机生成，海流的速度场可以由流场函数得到：

由于流体的不可压缩性

式中vc_x，vc_y分别为海流在(x,y)位置沿X轴方向和Y轴方向的速度分量，取作每个栅格的中心点。

进行策略训练，具体步骤如下：

1)初始化t＝0，t代表机器人每一次训练运动的步次；初始化rt＝0，rt代表机器人执行第t个动作所获得的奖励。定义一个矩阵Q(x,a)，记录在状态x时，选择动作a的可以获得的Q值，初始化为0。初始化计数器count＝0，记录机器人训练的总次数。设定M值，代表机器人总共需要训练M次。初始化水下机器人i自由度方向的安全半径h_i。设定d'值，代表机器人与目标点距离的阈值。

2)初始化机器人的状态，随机选取一个起始点开始进行探索。

3)机器人获取环境信息x_t，其中包括碍航物信息，机器人i自由度方向的障碍物与机器人的距离l_i，如果没有障碍物则将距离设置为无穷；当前位置的海流流速信息vc；自身位置信息，并计算得到目标点距离机器人的欧几里得距离d。

4)设置一个阈值ε，依靠计算机产生一个随机数ε'，如果ε'＜ε，机器人随机选取动作空间中的一个动作执行，即a_t＝randomQ(xt,a)；如果ε'＞ε，机器人根据矩阵Q(x,a)，选择在状态x_t下，值最大的动作a，即a_t＝max_a Q(xt,a)。

5)机器人考虑运动学约束以及水流约束，根据目标公式实际对外表现出的速度，在仿真环境下，根据速度vi_t运动。

6)机器人执行完动作a_t后，再次获取环境信息x_t+1。

6-1)如果l_i＜h_i，说明发生碰撞，本次训练结束，计数器count+1，根据

Q(xt,at)←(1-α)*r_t+α*(r_t+γmax_a'Q(x_t+1,a'))

更新矩阵Q，训练步数t＝0，如果count＜M，从步骤2)开始重新训练，如果count＝M，继续执行步骤7)。

6-2)如果li＞hi，说明没有发生碰撞，继续判断其是否抵达目标点。

6-2-1)如果d≤d'，说明抵达目标点，本次训练结束，计数器count+1，更新矩阵Q，训练步数t＝0，如果count＜M，从步骤2)开始重新训练，如果count＝M，继续执行步骤7)。

6-2-2)如果d＞d'，说明没有抵达目标点，t+1，从步骤3)继续本次训练。

7)训练完成，输出水下机器人运动规划策略。

本方法优势在于考虑了水流、碍航物、目标等多约束目标，传统的强化学习规划方法没有同时考虑多种约束目标，训练的方法缺乏实用性与鲁棒性。本发明通过强化学习对多约束目标进行特征融合，可以训练出更加实用的水下机器人运动规划策略。

Claims

1.一种基于多约束目标的水下机器人运动规划方法，其特征在于，该方法分为模型构建阶段和算法训练阶段，包括：

(1)模型构建阶段；马尔可夫决策过程E的模型构建，包括以下步骤：

(1-1)根据传感器信号建立当前环境x_t；设机器人第i自由度方向的障碍物距离为l_i，若i自由度上不存在障碍物，则将l_i设置为无穷；机器人所处位置的流速设为vc；实时定位机器人位置，计算机器人与目标点的欧几里得距离d；

(1-2)根据水下机器人所能前进的最大值，建立机器人的动作空间A；所述的A包括五个运动命令，分别为前进、左前、右前、左侧推和右侧推；速度为v_a，角速度为ω_a；

(1-3)考虑碍航物约束；设第i自由度水下警戒安全距离h_i，若检测到的l_i＜h_i，则认为碰撞发生，设置一个负的奖励r_ter；

(1-4)考虑目标点约束；设目标点阈值为d'，若检测到d变大，则设置一个负的奖励r_opp，若检测到d变小，则设置一个正的奖励r_move，若检测到d＜d'，则机器人抵达目标点，设置一个正的奖励r_arr。

(2)算法训练阶；机器人在计算机仿真中进行不断试错，学习策略，包括以下步骤：

(2-2)初始化一个矩阵Q(x,a)，记录在状态x时，选择动作a获得的Q值；

(2-5)获取传感器信号，获得当前状态x_t；所述的当前状态x_t包括碍航物信息，机器人i自由度方向的障碍物的距离l_i、当前位置的海流流速信息vc_t、自身位置信息，计算得到目标点距离机器人的欧几里得距离d；

(2-6)根据矩阵Q，选择动作a_t；

(2-7)考虑运动学约束以及水流约束，将选择的动作a_t的速度与流速结合，根据结合得到的实际对外表现出的航行速度进行仿真，并更新l_i；

(2-8)如果l_i＜h_i，执行(2-9)，否则执行(2-10)；

(2-11)如果d_t＜d_t-1，执行(2-12)，否则执行(2-13)；

(2-14)结束训练，得到训练后的矩阵Q；

(2-15)输出水下机器人运动规划策略。

2.根据权利要求1所述的所述的一种基于多约束目标的水下机器人运动规划方法，其特征在于：所述的运动学约束，即训练过程中水下机器人本身的运动约束为：假设航行器的重心在固定坐标系的坐标为(x,y)，则机器人固定坐标系速度为：

3.根据权利要求1所述的一种基于多约束目标的水下机器人运动规划方法，其特征在于：所述的水流约束在训练过程中选择动作时以下述方法进行考虑：在学习训练过程中，x_t状态下由ADCP获取的流速为vc_t，根据策略，机器人选择动作集中的一个动作a_t，其本身的速度为机器人执行动作时，考虑水流约束，其实际对外表现出的航行速度为：vi_t＝v_at+βvc_t，其中，β为水流对水下机器人速度的影响系数。

4.根据权利要求1所述的一种基于多约束目标的水下机器人运动规划方法，其特征在于：所述的选择动作a_t的具体方法为：采用贪心策略，设定阈值ε，使用计算机生成随机数ε'，若随机数小于阈值，即ε'＜ε，则机器人执行Q矩阵中状态Q(x_t,a)中元素的最大值对应的动作，即a_t＝max_aQ(x_t,a)；若随机数大于阈值，即ε'＞ε，则机器人随机选择一个动作执行，即a_t＝randomQ(xt,a)。

5.根据权利要求1所述的一种基于多约束目标的水下机器人运动规划方法，其特征在于：所述的更新矩阵Q的方法为：假定机器人执行动作前所属的状态为x_t，应执行的动作为a_t，根据反馈得到的奖励系数r_t，执行动作后抵达的状态为x_t+1，则

Q(x_t,a_t)←(1-α)*r_t+α*(r_t+γmax_a'Q(x_t+1,a'))

其中α为学习效率，其中γ为折扣因子。