CN108319293B

CN108319293B - 一种基于lstm网络的uuv实时避碰规划方法

Info

Publication number: CN108319293B
Application number: CN201810043820.7A
Authority: CN
Inventors: 王宏健; 张雪莲; 吕洪莉; 郭峰; 陈涛; 林常见
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2018-01-17
Filing date: 2018-01-17
Publication date: 2021-01-12
Anticipated expiration: 2038-01-17
Also published as: CN108319293A

Abstract

本发明公开了一种基于LSTM网络的UUV实时避碰规划方法属于神经网络技术领域和实时避障技术领域。包括步骤：构建全局坐标系和局部坐标系，建立声纳仿真模型；设计用于实时避碰规划的LSTM网络；构建数据集；利用训练集中数据训练LSTM网络，得到基于LSTM网络的实时避碰规划器；将声纳探测信息及目标点信息输入至基于LSTM网络的避碰规划器，获得UUV下一时刻的转艏及速度的调整指令。本发明设计的用于UUV实时避碰规划的LSTM网络，不仅有强大的学习能力，同时还具有非常强的泛化能力，这使得所实现的实时避碰规划器适用于各种复杂的环境；同时，该避碰规划器满足实时性的要求，并且所规划的路径满足UUV运动特性的要求。

Description

一种基于LSTM网络的UUV实时避碰规划方法

技术领域

本发明属于神经网络技术领域和实时避障技术领域，具体涉及一种基于LSTM网络的UUV实时避碰规划方法。

背景技术

随着国家海洋战略的不断推进，海洋开发技术成为了研究的热点，各种海洋装备的应用也越来越广泛。作为完成海底考察、数据收集、铺设管线、钻井支援、海底施工、侦查、布雷、扫雷、援潜和救生等各种水下任务的重要工具，UUV的实时避碰规划能力是保证其安全航行的关键技术，是UUV完成各种任务的基础。这就要求UUV在航行过程中根据传感器探测到的已知的环境信息找到一条从起点到终点的无碰撞安全路径。常用的传统的实时避碰规划方法包括蚁群算法、粒子群优化算法、人工免疫算法、遗传算法、A*算法、人工势场法、Dijkstra算法等。对于实时避碰规划问题，除了考虑安全性和避碰运动平滑性等，***的实时性也是重要的指标，然而基于上述传统算法的实时避碰规划***，存在避碰的实时性与避碰精度相互矛盾的问题。而且由于水下感知设备的限制，常常需要复杂的计算来分析处理探测数据，这也大大影响了规划的实时性和精度。深度学习是目前最具潜力的人工智能算法，其强大的非线性拟合能力可以为UUV提供一套简单、高效、易于实现的实时避碰规划***。这使得UUV具有了一定的自主学习的能力，从而减少了其对感知设备的依赖，增强了其在避碰过程中的灵活度。实时避碰规划***的规划能力随着UUV在运动的过程中的不断学习而逐步提高。即使训练集中只包含简单环境下的避碰规划样本，训练完成后的基于LSTM网络的UUV实时避碰规划器也可以灵活处理复杂多变环境下的避碰规划问题。

CN107368076A公开了一种智能环境下机器人运动路径深度学习控制规划方法，该方法使用深度学习DBN网络解决运载机器人全局路径规划问题。所提深度学习DBN网络包括一层输入层、三层隐藏层以及一层输出层，其中可视层与第一隐藏层构成第一层限制玻尔兹曼机RBM，第一隐藏层与第二隐藏层构成第二层限制玻尔兹曼机RBM，第二隐藏层与第三隐藏层构成BP网络层。该专利采用逐层训练的方法依次对两层限制玻尔兹曼机RBM和BP网络层进行训练。与全局路径规划不同，避碰规划器需要根据过去一段时间内的环境障碍信息实时输出规划结果。相较于限制玻尔兹曼机RBM，LSTM网络具有处理较长时间序列的能力，且更适用于复杂的规划问题。

发明内容

本发明的目的在于提供解决了UUV实时避碰规划的问题，克服了现有的实时避碰规划方法存在环境模型的精度与规划的实时性之间的矛盾的一种基于LSTM网络的UUV实时避碰规划方法。

本发明的目的通过如下技术方案来实现：

一种基于LSTM网络的UUV实时避碰规划方法，包括以下步骤：

步骤1：构建全局坐标系和局部坐标系，建立声纳仿真模型；

全局坐标系采用北东坐标系，地图左下角为原点，正北方向为X轴，正东方向为Y轴；

局部坐标系原点选在UUV重心处，X轴取在UUV纵向剖面内，指向UUV艏端，Y轴与纵剖面垂直，指向右舷；

二维多波束声纳仿真模型水平开角为120°，最大探测半径为120m，共80个波束，波束角为1.5°，每个波束上探测噪声为±1％；

步骤2：设计用于实时避碰规划的LSTM网络；

所设计的LSTM网络为端对端模型，可以直接根据传感器探测信息得出规划结果，该网络模型包含四层，分别为输入层、隐藏层、中间层以及输出层；

步骤3：构建数据集；

数据集包括训练集和测试集，分别用于神经网络的训练阶段和测试阶段；

构建训练集时，在全局坐标系中生成若干组随机地图及实时路径，并在每个路径节点采集声纳信息，所采集的信息为训练样本，将实时路径中UUV艏向调整的角度(转艏)及速度作为训练标签；

构建测试集时，在全局坐标系中生成若干组随机地图及实时路径，并在每个路径节点采集声纳信息，所采集的信息为测试样本，将实时路径中UUV转艏及速度作为测试标签；

步骤4：利用训练集中数据训练LSTM网络，得到基于LSTM网络的实时避碰规划器；

将训练数据中的声纳信息作为输入数据，将训练集中相对应的标签作为输出数据，对LSTM网络进行训练，从而获得基于LSTM网络的实时避碰规划器；

损失函数为均方差函数；

在训练过程中，采用小批量梯度下降误差反向传播算法优化LSTM网络的权值；

步骤5：将声纳探测信息及目标点信息输入至基于LSTM网络的避碰规划器，获得UUV下一时刻的转艏及速度的调整指令；

LSTM网络具体结构为：

输入层由81个单元组成，其中前80个单元分别对应仿真声纳的80个波束中包含的距离信息，第81个单元对应UUV当前位置与目标点之间的夹角；

隐藏层由45个LSTM模块组成，每个LSTM模块都包含输入单元、输出单元、输入门、输出门、遗忘门等结构；

序列长度为10，上一时刻的隐藏层的输出反馈到下一时刻的模块中；

中间层由23个单元组成；

输出层由2个单元组成，分别对应所规划的下一时刻UUV的转艏和速度；

输入层与隐藏层、隐藏层与中间层、中间层与输出层间的连接方式为全连接。

LSTM记忆模块输出计算方式为：

i_t＝σ(W_xix_t+W_hih_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)

c_t＝f_t·c_t-1+i_t·tanh(W_xcx_t+W_hch_t-1+b_c)

o_t＝σ(W_xox_t+W_hoh_t-1+b_o)

h_t＝o_t·tanh(c_t)

其中i_t、f_t、c_t、o_t和h_t分别为t时刻输入门、遗忘门、记忆单元、输出门和记忆模块的输出；x_t为t时刻记忆模块的输入向量；h_t-1为t-1时刻记忆模块的输出向量；W_xi、W_xf、W_xc和W_xo分别为模块输入与输入门、遗忘门、记忆单元和输出门间的权重矩阵；W_hi、W_hf、W_hc和W_ho分别为t-1时刻记忆模块的输出与输入门、遗忘门、记忆单元和输出门间的权重矩阵；b_i、b_f、b_c和b_o分别为输入门、遗忘门、记忆单元和输出门的偏置；σ(·)表示逻辑sigmoid函数，其为门单元的激活函数；·表示对应元素相乘。

数据集中数据具体为：

仿真声纳探测到的距离信息为

其中

为当前时刻第i个波束探测到的距离信息，当第i个波束未探测到障碍时，

为了简化输入信息，将t时刻声纳探测到的距离信息做如下处理：

将t时刻UUV所在位置与目标点形成的角度表示为

则t时刻LSTM网络的输入向量

t时刻LSTM网络的标签l_t＝[Δθ_t,v_t]，其中Δθ_t和v_t分别表示期望的UUV转艏和速度的调整指令。

在训练开始前对数据集中数据做如下预处理：

将数据集中数据分为n个批量；

数据集的归一化方法为减去列最小值后除以列最大值和列最小值的差。

在训练过程中输入数据和标签对应关系为：

若时刻t<10，则[x₁,L,x_t]对应标签l_t，若t310，则[x_t-9,L,x_t]对应标签l_t。

LSTM网络的训练过程可表述为：

1)初始化LSTM网络各层权重，令i＝0；

2)令k＝0；

3)取第k个批量的数据作为本次训练集，并令t＝0；

4)将本次训练集中的输入数据[x_t-9,L,x_t]输入到网络，经过LSTM网络的前向传播过程得到对应输出y_t；

5)计算网络输出y_t与对应标签l_t的误差；

6)判断是否完成该批量计算，若是，执行7)，否则t＝t+1，并返回4)；

7)利用小批量梯度下降误差反向传播算法更新LSTM网络权重；

8)判断是否所有批量数据均完成训练，若是，执行9)，否则k＝k+1，并返回3)；

9)i＝i+1，并判断iMOD 500是否为零，若是，执行10)，否则返回2)；

10)在测试集中随机选取50个序列，使用当前网络进行测试，计算均方误差；

11)若测试集中均方误差连续10次没有减小，则停止训练，否则返回2)。

基于LSTM网络的UUV实时避碰规划其工作过程为：

1)将UUV布放在起始位置；

2)仿真声纳开始获取UUV当前位置的环境信息x_t；

3)将仿真声纳获取的环境信息[x_t-9,L,x_t]输入到LSTM网络，获得下一时刻UUV转艏及速度的调整指令；

4)UUV执行运动指令，到达下一路径点；

5)判断UUV是否到达目标点，若是，避碰规划器停止工作，否则返回2)；

本发明的有益效果在于：

该方法利用了LSTM在长时间序列上强大的非线性拟合能力，实现了一个端到端的简单高效的实时避碰规划器。本发明设计的用于UUV实时避碰规划的LSTM网络，不仅有强大的学习能力，同时还具有非常强的泛化能力，这使得所实现的实时避碰规划器适用于各种复杂的环境；同时，该避碰规划器满足实时性的要求，并且所规划的路径满足UUV运动特性的要求。

附图说明

图1是本发明的仿真声纳示意图；

图2是本发明的LSTM网络结构图；

图3是本发明的角度示意图；

图4是本发明的仿真效果图；

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

一种基于LSTM网络的UUV实时避碰规划方法，其特征在于，包含如下步骤：

(1)构建全局坐标系和局部坐标系，建立声纳仿真模型；

(2)设计用于实时避碰规划的LSTM网络；

(3)构建数据集；

(4)利用训练集中数据训练LSTM网络，得到基于LSTM网络的实时避碰规划器；

(5)将声纳探测信息及目标点信息输入至基于LSTM网络的避碰规划器，获得UUV下一时刻的转艏及速度的调整指令。

所述的步骤(1)具体为：

二维多波束声纳仿真模型水平开角为120°，最大探测半径为120m，共80个波束，波束角为1.5°，每个波束上探测噪声为±1％。

所述的步骤(2)具体为：

如图(2)所设计的LSTM网络为端对端模型，该网络模型包含四层，分别为输入层、隐藏层、中间层以及输出层；

隐藏层由45个LSTM记忆模块组成，每个LSTM模块都包含输入单元、输出单元、输入门、输出门、遗忘门；

中间层由23个单元组成；

所述的LSTM记忆模块输出计算方式为：

i_t＝σ(W_xix_t+W_hih_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)

c_t＝f_t·c_t-1+i_t·tanh(W_xcx_t+W_hch_t-1+b_c)

o_t＝σ(W_xox_t+W_hoh_t-1+b_o)

h_t＝o_t·tanh(c_t)

所述的步骤(3)具体为：

构建训练集时，在全局坐标系中生成若干组随机地图及实时路径，并在每个路径节点采集声纳信息，所采集的信息为训练样本，将实时路径中UUV艏向调整的角度及速度作为训练标签；

构建测试集时，在全局坐标系中生成若干组随机地图及实时路径，并在每个路径节点采集声纳信息，所采集的信息为测试样本，将实时路径中UUV艏向调整的角度及速度作为测试标签。

所述的步骤(4)具体为：

(4.1)收集数据

仿真声纳探测到的距离信息为

其中

将t时刻声纳探测到的距离信息做如下处理：

将t时刻UUV所在位置与目标点形成的角度表示为

则t时刻LSTM网络的输入向量

t时刻LSTM网络的标签l_t＝[Δθ_t,v_t]，其中Δθ_t和v_t分别表示期望的UUV转艏和速度的调整指令；

(4.2)数据预处理

将数据集中数据分为n个批量；

在训练过程中输入数据和标签对应关系为：

若时刻t<10，则[x₁,L,x_t]对应标签l_t，若t³10，则[x_t-9,L,x_t]对应标签l_t；

(4.3)训练LSTM网络

1)初始化LSTM网络各层权重，令i＝0；

2)令k＝0；

3)取第k个批量的数据作为本次训练集，并令t＝0；

5)计算网络输出y_t与对应标签l_t的误差；

7)利用小批量梯度下降误差反向传播算法更新LSTM网络权重；

所述的步骤(5)具体为：

1)将UUV布放在起始位置；

2)仿真声纳开始获取UUV当前位置的环境信息x_t；

4)UUV执行运动指令，到达下一路径点；

5)判断UUV是否到达目标点，若是，避碰规划器停止工作，否则返回2)。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于LSTM网络的UUV实时避碰规划方法，其特征在于，包含如下步骤：

(1)构建全局坐标系和局部坐标系，建立声纳仿真模型；

(2)设计用于实时避碰规划的LSTM网络；

(3)构建数据集；

(5)将声纳探测信息及目标点信息输入至基于LSTM网络的避碰规划器，获得UUV下一时刻的转艏及速度的调整指令；

所述的步骤(1)具体为：

所述的步骤(2)具体为：

所设计的LSTM网络为端对端模型，该网络模型包含四层，分别为输入层、隐藏层、中间层以及输出层；

中间层由23个单元组成；

输入层与隐藏层、隐藏层与中间层、中间层与输出层间的连接方式为全连接；

所述的LSTM记忆模块输出计算方式为：

i_t＝σ(W_xix_t+W_hih_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)

c_t＝f_t·c_t-1+i_t·tanh(W_xcx_t+W_hch_t-1+b_c)

o_t＝σ(W_xox_t+W_hoh_t-1+b_o)

h_t＝o_t·tanh(c_t)

2.根据权利要求1所述的一种基于LSTM网络的UUV实时避碰规划方法，其特征在于，所述的步骤(3)具体为：

3.根据权利要求1所述的一种基于LSTM网络的UUV实时避碰规划方法，其特征在于，所述的步骤(4)具体为：

(4.1)收集数据

仿真声纳探测到的距离信息为

其中

将t时刻声纳探测到的距离信息做如下处理：

将t时刻UUV所在位置与目标点形成的角度表示为

则t时刻LSTM网络的输入向量

(4.2)数据预处理

将数据集中数据分为n个批量；

数据集的归一化方法为减去列最小值后除以列最大值和列最小值的差；

在训练过程中输入数据和标签对应关系为：

若时刻t＜10，则[x₁,…,x_t]对应标签l_t，若t≥10，则[x_t-9,…,x_t]对应标签l_t；

(4.3)训练LSTM网络

1)初始化LSTM网络各层权重，令i＝0；

2)令k＝0；

3)取第k个批量的数据作为本次训练集，并令t＝0；

4)将本次训练集中的输入数据[x_t-9,…,x_t]输入到网络，经过LSTM网络的前向传播过程得到对应输出y_t；

5)计算网络输出y_t与对应标签l_t的误差；

7)利用小批量梯度下降误差反向传播算法更新LSTM网络权重；

9)i＝i+1，并判断iMOD500是否为零，若是，执行10)，否则返回2)；

4.根据权利要求1所述的一种基于LSTM网络的UUV实时避碰规划方法，其特征在于，所述的步骤(5)具体为：

1)将UUV布放在起始位置；

2)仿真声纳开始获取UUV当前位置的环境信息x_t；

3)将仿真声纳获取的环境信息[x_t-9,…,x_t]输入到LSTM网络，获得下一时刻UUV转艏及速度的调整指令；

4)UUV执行运动指令，到达下一路径点；