CN108181900B

CN108181900B - 一种基于增强学习智能算法的航海船舶运动控制方法

Info

Publication number: CN108181900B
Application number: CN201711426992.4A
Authority: CN
Inventors: 袁银龙; 俞祝良
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2020-11-24
Anticipated expiration: 2037-12-26
Also published as: CN108181900A

Abstract

本发明公开了一种基于增强学习智能算法的航海船舶运动控制方法，包括：利用多模态传感器采集船舶的各类重要数据；对获取的数据信息进行滤波及融合处理，得到满足精度要求的各种状态数据，包括：船舶的姿态信息，船舶实际位置、船舶速度、海面风速、洋流速度等；通过评估函数对实际状态数据进行评估，得到当前时刻的奖赏值；通过增强学习智能算法不断的学习，最终得到在不同的环境状态条件下船舶的运动控制规律。本发明船舶运动控制方法，是不依赖于环境模型的一种优化算法，相比较传统的运动控制算法，控制更加灵活，并且可以在使用中持续优化学习。

Description

一种基于增强学习智能算法的航海船舶运动控制方法

技术领域

本发明涉及航海航舶领域，具体涉及一种基于增强学习智能算法的航海船舶运动控制方法。

背景技术

随着世界经济贸易的繁荣，船舶在运输过程中起着越来越重要的作用，但是其高能耗也限制着船舶的长距离运输的发展。据测算，航运企业燃油成本占总运营成本的40％左右。一个大的船舶企业一年的燃油费用可达几十甚至上百亿。船舶在航行前要制定航行计划，并随着实时条件变化调整；但影响船舶节能减排的因素多达40多个，关系错综复杂，而对船舶实时的有效的动态控制是其中一项最重要的关键点。

船舶在航行过程中环境变化多端，控制***要处理各种各样的环境外力影响，在此过程中保持运动控制***实时有效的做出控制命令显得很有必要。增强学习是当今人工智能领域研究的热点之一，当外界环境模型复杂难以建立时，该算法依旧可以使得交互式代理学习得到最优的控制规律。

发明内容

为了克服现有技术存在的缺点与不足，本发明提供一种基于增强学习智能算法的航海船舶运动控制方法，使船舶能够在复杂环境下自适应节能航行，并且不依赖于外部环境模型。

本发明采用如下技术方案：

一种基于增强学习智能算法的航海船舶运动控制方法，包括如下步骤：

S1船舶上安装多模态传感器，周期性采集当前t时刻的传感器数据信息；

S2对传感器数据信息，进行滤波及归一化处理，归一化后处理后的环境状态信息为：

式中，c_t为当前t时刻的船舶姿态信息，p_t为当前t时刻的船舶实际位置信息，

为当前t时刻的船舶速度信息，

为当前t时刻的海面风速信息，

为当前t时刻的洋流速度信息，σ_t为其他多模态传感器的数据；

S3根据动作-状态值函数Q(S_t,aθ)得到当前时刻t的运动控制动作a_t；

S4执行S3得到的动作a_t，得到t+1时刻的状态数据信息

S5通过评估函数对t+1时刻状态数据进行评估，得到当前时刻的奖赏值：

R_t+1＝f(S_t+1)

式中，函数f是自定义的评价函数；

S6通过最小化损失函数L(θ)来更新网络参数θ：

其中γ为折扣因子；

S7循环迭代上述步骤，直到网络参数θ达到收敛，即网络参数达到稳定，终止。

所述运动控制动作a_t：

a_t＝argmax_aQ(S_t,a|θ)。

本发明的有益效果：

本发明应用于种复杂的航海环境，是一种自主学习的控制***。

附图说明

图1是本发明一种基于增强学习智能算法的航海船舶运动控制方法。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例

如图1所示，一种基于增强学习智能算法的航海船舶运动控制方法，包括如下步骤：

S1船舶上相应位置安装多模态传感器，周期性的采集船舶及周围行驶环境的数据信息，所述数据信息包括船舶的姿态信息，船舶实际位置、船舶速度、海面风速、洋流速度等。

S2对获取的传感器数据信息进行滤波及融合处理，得到满足精度要求的各种状态数据，归一化处理后的环境状态信息为：

为当前t时刻的船舶速度信息，

为当前t时刻的海面风速信息，

S3根据动作-状态值函数Q(S_t,aθ)得到当前时刻t的运动控制动作a_t，其计算公式为：

a_t＝argmax_aQ(S_t,a|θ)；

S4执行S3得到的动作a_t，得到t+1时刻的状态数据信息

R_t+1＝f(S_t+1)

式中，函数f是自定义的评价函数，其目的是为了评估当前环境下控制策略的好坏程度。

S6根据S2、S3、S4及S5检测得到的数据信息，通过最小化损失函数L(θ)来更新网络参数θ：

其中γ为折扣因子；

S7通过增强学习智能算法不断的学习动作-状态值函数Q(S,a)，通过迭代循环最终得到稳定的动作-状态值函数，则满足条件，终止。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。