CN114721409A

CN114721409A - 一种基于强化学习的水下航行器对接控制方法

Info

Publication number: CN114721409A
Application number: CN202210638552.XA
Authority: CN
Inventors: 李沂滨; 张天泽; 缪旭弘; 魏征; 尤岳; 周广礼; 贾磊; 庄英豪; 宋艳
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-07-08
Anticipated expiration: 2042-06-08
Also published as: CN114721409B

Abstract

本发明涉及一种基于强化学习的水下航行器对接控制方法，属于海洋控制实验技术领域，本发明基于深度强化学习中的PPO算法框架，引入新旧策略更新的可靠边界，提升智能体学习的稳定性。同时，采用自适应回滚裁剪机制，根据收集到成功完成任务经验的情况自适应地调节回滚力度，从而调节新旧策略更新的上下限，从而鼓励智能体在训练初期进行探索，在训练后期稳定收敛。在仿真训练方面，本发明构建了考虑海流、海浪干扰的对接训练环境，使用此训练环境进行智能体的学习，大大提升了水下航行器的抗干扰能力。

Description

一种基于强化学习的水下航行器对接控制方法

技术领域

本发明涉及一种基于强化学习的水下航行器对接控制方法，属于海洋控制实验技术领域。

背景技术

水下航行器作为特殊的海洋调查设备，已经被大量应用于海底地形测绘、海洋资源勘探、沉船古迹调查、油气管道维护、生命科学监测等诸多海洋工程领域，是人类探索海洋、利用海洋过程中不可或缺的手段。然而，由于要保证水下航行器自身的灵活性并还要携带相应设备，其自身携带的有限能源限制了其长期巡航的能力，定期补充能源是不可避免的。为了避免水下航行器依赖水面舰艇进行能源补充，使其具有全自动的长期运行能力，诸如中国专利文件CN201120224621.X等设计了自主水下航行器对接站作为其能量补充的必要装置。而真实的海洋环境中存在复杂的海流干扰和波浪干扰，发明一种水下航行器抗干扰、高鲁棒性的智能对接控制算法是十分必要的。

成功的对接控制需要航行器在波浪或海流的干扰下，按照智能的策略高成功率地引导、导航和控制自身进入对接站，整个过程如图1所示。但是，到目前为止，对于水下航行器智能对接控制仍然有很多困难点。传统的例如比例积分微分（PID）控制器等线性控制器，对于水下航行器这类具有复杂非线性动力学特性的***，难以取得良好的控制性能。即便使用现有的非线性控制器，在实际的任务环境中水下航行器动态模型及任务环境模型都难以精确获取，所以也难以获得良好的控制效果。此外，复杂多变的洋流及存在于海面的海浪都会对水下航行器的对接过程带来干扰。所以需要一种可以不依赖于模型且能够进行自学习的智能控制算法来解决上述问题。

机器学习技术近些年的快速发展给水下航行器智能化控制带来更多可能。深度强化学习（DeepReinforcement Learning, DRL）作为一种可以解决无模型马尔可夫决策过程（Markov decision process, MDP）问题的算法框架，能够构建一个与海底任务环境不断交互的水下航行器智能体。基于DRL原理的控制器可以在无环境模型的情况下通过获取来自任务环境反馈的惩罚或奖励，最大化累积折损奖励来最终寻找到完成任务目标的最优策略，如图2所示。

然而，现有深度强化学***衡了数据的利用和环境的探索，非常适合处理高维状态及动作空间中的控制问题。PPO在更新中使用的新旧策略概率之比作为更新裁剪的参考，这实际上不能很好地保持在预先给定的裁剪范围内，这将导致不适当的策略更新幅度，而回滚裁剪机制有助于提高学习能力。而其提出的回滚裁剪机制引入了新的超参数来调节回滚力度，此影响策略更新的超参数依然要凭借人工经验进行设定，这是很不具备普适性的。于是在本发明中，我们提出了一种基于训练进度的自适应回滚裁剪机制，在不设置新的超参数的前提下改进了PPO的策略更新，并基于此机制设计了基于深度强化学习算法的水下航行器对接控制方法。

发明内容

针对现有技术的不足，为了解决水下航行器对接控制问题，本发明基于深度强化学习中的PPO算法框架，提出一种基于自适应可靠边界回滚裁剪强化学习的水下航行器对接控制方法。本方法特点主要在于：1.引入新旧策略更新的可靠边界，提升智能体学习的稳定性。2. 采用自适应回滚裁剪机制，根据收集到成功完成任务经验的情况自适应地调节回滚力度，从而调节新旧策略更新的上下限，从而鼓励智能体在训练初期进行探索，在训练后期稳定收敛。

在仿真训练方面，本发明构建了考虑海流、海浪干扰的对接训练环境，使用此训练环境进行智能体的学习，大大提升了水下航行器的抗干扰能力。

本发明的技术方案如下：

一种基于自适应裁剪强化学习技术的水下航行器对接控制方法，包括步骤如下：

步骤1、定义任务环境及模型

1-1、构建水下航行器所在的任务环境及水下航行器动力学模型；

任务环境包括固定在地理原点的

坐标系、设置了三维地图尺寸的三维区域、三维锥体对接站区域；

水下航行器包括三个执行机构，分别为艉部推进器、艉部水平舵以及艉部垂直舵；

通过在仿真中基于牛顿-欧拉运动方程推导，对水下航行器进行六自由度的动力学建模，包括，在

坐标系下对水下航行器坐标

及姿态角

进行描述，使用固定在水下航行器上随水下航行器运动的、以其重心为原点

的

坐标系，描述水下航行器的线速度

及角速度

，以完整描述水下航行器的运动状态；其中，

为固定坐标系

下的三维坐标值；

为固定坐标系

绕三个坐标轴旋转的姿态角角度：艏向角

、横滚角

以及俯仰角

，

为水下航行器在

坐标系下沿三个坐标轴运动的线速度值，

为

坐标系下绕三个坐标轴旋转的角速度，如图3所示；根据构建好的水下航行器动力学模型，已知

时刻水下航行器的运动状态，由水下航行器艉部推进器输出力的大小及艉部水平舵、艉部垂直舵的舵角偏转值，经四阶龙格库塔法解算微分方程可以得到

时刻的运动状态；

四阶龙格库塔法解算微分方程示例说明如下：

；

；

；

；

；

其中，

为定义的微分时间间隔；

为航行器在

时刻的速度向量，

为下一时刻的速度向量，

为航行器的动力学方程；

，

，

，

表示微分方程在该点处的一阶导数，即斜率。

为了使用基于强化学习的控制算法，所构建的任务环境需要定义明确任务环境给与水下航行器智能体的奖励函数以及水下航行器对任务环境观察量。

为了几何化地描述水下航行器的对接控制问题，将三维运动投影到穿过锥体对接站中心轴的平面上，在这个投影平面上，原本三维的锥体对接站的入口形成入口三角形区域PAB，优选的，以过中轴线的截面三角入口三角形区域PAB为正三角形，边长AB设定为1.2 米；

是入口AB的半径；成功对接的基本要求是：当航行器头部到达AB时，

小于

；由于锥形入口具有辅助导向作用，因此要求

小于

；考虑安全裕度，成功对接的最终约束写为：

（1-1）

（1-2）

其中，

与

分别为半径安全裕度与角度安全裕度；

为航行器头部与对接站中心轴的垂直距离，

为航行器中轴线与对接站中心轴的夹角；

为三角形的

。

1-2、定义奖励函数

根据航行器对接控制任务的设定，构建如下奖励分量：

首先，根据水下航行器接近目标的行为进行奖励，设定该奖励分量为每一个仿真时间步长水下航行器到对接站终点距离的减小值，具体如式（1-3）至式（1-6）：

（1-3）

（1-4）

（1-5）

（1-6）

其中，

与

表示水下航行器接近对接站终点及对接站中轴线的步进奖励，

表示上一时刻水下航行器与终点的距离，

表示当前时刻水下航行器与终点的距离，

表示上一时刻水下航行器与中轴线的距离，

表示当前时刻水下航行器与中轴线的距离；

与

均是带容差的惩罚函数，

是权重，

是容差，

、

是一个小于1的正常数，用于调整惩罚项；

是航行器重心到对接站坐标距离的

次幂，设定此量来为智能体提供惩罚信息，

是航行器重心到对接站中轴线距离的

次幂，设定此量来为智能体提供惩罚信息；

入口三角形区域PAB沿对接站中心轴向外延伸形成外部圆锥体区域，当水下航行器到达外部圆锥体区域时，改变奖励分量的权重，并设置奖励分量

，以帮助航行器调整到所需的姿态。

（1-7）

其中，

是权重，且满足

，

为前一时刻航行器姿态角与目标姿态角的差值；

为当前时刻航行器姿态角与目标姿态角的差值；

综合起来，奖励函数被设定为：

（1-8）。

1-3、定义状态空间S

在本发明所构建的水下航行器仿真环境中，状态空间由水下航行器对环境的几个观察分量构成，即状态空间可相应定义为

，n为观察分量的数量，其中包括：如图4所示，在每个时刻，以航行器重心到对接站的距离

、航行器重心到对接站中心轴的距离

、航行器和最终期望姿态之间的角度

，以及到终点P的导航角

作为观测值；最终，确定构成航行器智能体对环境的观察的形式为：

（1-9）

其中，

是水下航行器艉部推进器的推力大小、

为艉部水平舵的偏转角度，

为艉部垂直舵的偏转角度；

各个观察分量被加载到神经网络之前均进行了最大最小值归一化处理，具体的计算方式为：

（1-10）

通过最大最小值归一化处理将水下航行器对环境的观察值放缩到

的范围内；以防止不同指数量级的数值对后续神经网络梯度反向传播的影响。

1-4、定义动作空间

本发明所提出的水下航行器智能控制算法可以使用于各类型水下航行器，在后续的举例仿真中，使用了一个运动在三维空间下、具有六个自由度，有三个执行机构的欠驱动水下航行器。水下航行器的三个执行机构分别为艉部推进器、艉部水平舵以及艉部垂直舵；本发明所提出的控制算法通过建立从水下航行器的各观察量到控制推进器输出力的大小、两组舵面的偏转角度的非线性映射，实现了对水下航行器端到端的控制。同时，定义本发明中举例仿真所使用的水下航行器的动作空间为

其中，F为推进器输出力的大小，

为水平舵以及垂直舵的偏转角度。

1-5、海浪干扰

如果水下航行器在近水面进行对接，则有必要考虑海洋表面存在的波浪扰动。参考《Review of marine current speed and power coefficient—mathematical models》（Ćalasan, Martin, 等人于2015 4th Mediterranean Conference on EmbeddedComputing (MECO). IEEE会议上发表）中的波谱理论，我们构建了一个随机海浪模型，海浪波谱如下所示：

（1-11）

（1-12）

其中，g为重力加速度；U为航行器速度向量；

为子谐波波长的倒数；

是有效波高（significant wave height，船舶工程领域专业术语，指按一定规则统计的实际波高值，此处取最大的1/3部分波高的平均值），

是海浪子谐波角频率；此外，

是航行器遇到波浪的遭遇角频率，

是遭遇角；设定航行器尺寸相比海浪波长较小，参考莫里森方程，考虑到滚转恢复力矩的存在和对接控制中的主要扰动，可以通过沿航行器长度积分获得波浪力和力矩如下所示：

（1-13）

（1-14）

（1-15）

其中，

是水下航行器的直径，

是阻力系数，

是附加质量系数，

是海水密度，

是海浪在动系下的横移速度、即y方向速度，

是航行器在动系下的横移速度、即y方向速度，

是海浪在动系下的横移加速度、即y方向加速度，

是航行器在动系下的横移加速度、即y方向加速度，

是海浪引起的横向干扰力，

是海浪引起的垂向干扰力，

是海浪引起的纵倾干扰力矩，

是海浪在动系下的升沉速度、即z方向速度，

是航行器在动系下的升沉速度、即z方向速度，

是海浪在动系下的升沉加速度、即z方向加速度，

是航行器在动系下的升沉加速度、即z方向加速度，海浪子谐波的速度和加速度可以通过叠加次谐波速度得到；

（1-16）

（1-17）

（1-18）

（1-19）

其中，

是次谐波振幅，

是次谐波波数，

是谐波波数与深度坐标的乘积，

是每个子谐波的随机相移（0＜

＜

），

是子谐波的序号，

是子谐波的周期，

是海浪的主传播方向，t为仿真进行的时间，在仿真训练中，将上面计算得到的海浪干扰力及干扰力矩叠加进水下航行器的动力学方程，得到受干扰的动力学模型。

1-6、海流干扰

我们在整个深度范围内，在水平面上构建一个包含两个分量的流场

，包括非定常均匀流

和稳定循环流

。在地理坐标系下，水平面上两个分量产生的流速简化为

，具体描述如下：

（1-20）

（1-21）

（1-22）

其中，

是地理坐标系中表示的当前流的大小，

是当前相对于北方的方向；将电流向量从地理坐标系转换为体坐标系，从而将电流力整合到运动方程中，以体坐标系表示

（1-23）

（1-24）

其中，

是从体坐标系到地理坐标系的旋转矩阵，为了简化计算，在每个时间步，直接将当前速度叠加在航行器的线速度上。

步骤2、定义基于深度强化学习的对接控制算法

2-1、基本近端策略优化方法：

对于深度强化学习方法中的近端策略优化方法来说，策略网络

输入为

，输出为

，即一个由状态到动作的映射关系，其策略网络

的目标函数

为

（2-1）

其中，

为裁剪因子（优选的，

为小于1的正数，一般取0.1~0.2），

为优势函数，

为一轮训练（一个episode内）t时刻智能体状态，

为t时刻智能体所执行的动作，

则为基于旧的策略函数计算得到的t时刻的优势函数值，t时刻的优势函数为：

（2-2）

其中，

为值网络的网络权重参数，

为一个样本序列

中某一个动作点之后总的折扣奖励，

为折扣因子，一般取0.90~0.99，

为值网络输出的状态-价值函数的近似值；

（2-3）

状态价值函数的目标函数

为：

（2-4）

（2-5）

（2-6）

（2-7）

其中，

为值网络权重，

为调整因子，

为时序差分误差，

是第i个时间步的状态的值网络输出值，

是第i个时间步的状态的环境奖励值；

改进后的近端策略优化方法：

针对基本目标函数

中的

函数，该函数原本功能是将新旧策略网络之比

控制在

的范围内，以防止策略网络更新过大导致不稳定。

但实际上，这种简单粗暴的裁剪机制会导致不适当的策略更新，这种以新旧网络输出之比作为约束参考的方法也并不能很好地保持在预先给定的裁剪范围内。

针对此，本发明，使用新的约束参考

，来约束新旧网络的更新，并使用基于训练进程的参考量

（即航行器智能体在最近经历的100次训练中成功的次数），作为回滚机制的调节因子，自适应地调整回滚裁剪力度；

（2-8）

（2-9）

其中，

为自适应的回滚因子，

为航行器智能体在最近经历的100次训练中成功的次数，通过自适应可靠边界回滚裁剪机制计算得到

；

则改进后的目标函数

为：

（2-10）

其中，

如上公式（2-9）所示。

2-2、定义算法流程

整个自适应可靠边界回滚裁剪近端策略优化算法（ARAB-PPO）流程包括步骤如下：

输入：初始化策略网络参数

，初始化值网络参数

；

（1）循环开始，遍历k = 0, 1, 2 , …进行以下步骤：

（2）使用策略网络

，

为更新策略网络的次序，收集若干条完整的训练轨迹

存入

，

为收集到的训练轨迹次序；

（3）根据公式（2-2）基于当前值网络

计算优势函数的估计值

；

（4）通过策略网络的梯度下降，最大化目标函数

来更新ARAB-PPO网络参数，得到新的网络参数

；

（2-11）

（5）通过梯度下降法，基于均方根误差来拟合值网络：

（2-12）

（6）结束循环；

优选的，步骤2-2中，策略网络定义为含有三层全连接层的神经网络，输入层神经元数设定为9（对应公式（1-9）），输出层神经元设定为3（对应动作空间维度），中间层设定为128个神经元；值网络定义为含有三层全连接层的神经网络，输入层神经元数设定为9（对应公式（1-9）），输出层神经元设定为1，中间层设定为128个神经元。

步骤3、进行对接训练

3-1、初始化任务环境及水下航行器动力学模型；

3-2、根据设定好的海浪参数，根据式（1-11）至式（1-19）计算海浪产生的干扰力及干扰力矩；

3-3、根据设定好的海流参数及具体形式，根据式（1-20）至式（1-24）计算得到体坐标系下的海流速度在两个方向上的速度分量；

3-4、根据步骤2-2中所述初始化策略网络参数及值网络参数；

3-5、策略网络

根据t时刻获得的如公式（1-9）所示的观察量

，输出动作

；

3-6、根据公式（1-8）计算环境给予航行器智能体的单步环境奖励，并根据公式（1- 1）、（1-2）判断航行器是否满足对接控制约束，并记录航行器智能体在最近经历的100次训练中训练成功次数

；

若不满足，且t小于等于设定的单轮最大步数，则重复步骤3-6；

若满足，且t小于等于设定的单轮最大步数，则进行3-7；

若不满足，且t大于设定的单轮最大步数，则进行3-7；

3-7、将得到的完整训练轨迹

，其中

表示第0个时间步的航行器状态；

表示第0时刻航行器智能体执行的动作；

表示0时刻航行器智能体在执行动作后获得的奖励值；后续以此类推，存入

；

3-8、设定更新频率，判断是否满足更新频率：

当满足更新频率时，进行步骤2-2中的步骤（3），基于当前值网络

计算优势函数的估计值

并继续执行3-9；

当不满足更新频率时，重复步骤3-6；

3-9、根据公式（2-10），根据

使用本发明提出的自适应可靠边界回滚机制，计算策略网络的目标函数

；

3-10、对目标函数求取梯度，并根据步骤2-2中的步骤（4）更新策略网络参数；

3-11、根据步骤2-2中的步骤（5）更新值网络参数；

3-12、重复3-6，直到达到设定的收敛目标。

本发明的有益效果在于：

本发明提出了基于深度强化学习的水下航行器对接控制算法，航行器智能体在考虑海流、海浪的干扰环境下训练后能够高鲁棒性地完成对接操作。

具体来说，本发明使用了自适应可靠边界回滚裁剪近端策略优化算法，通过采用自适应的回滚裁剪机制，在训练初期促进智能体进行对环境的探索，并在成功达到任务目标后快速收敛，促进了训练后期的学习稳定性。最终提升了水下航行器在训练过程中的自学习能力，促进其高鲁棒性的完成对接任务。

附图说明

图1为水下航行器对接控制过程示意图；

图2为基于深度强化学习的水下航行器对接控制示意图；

图3为水下航行器坐标系定义示意图；

图4为对接控制几何化描述示意图；

图5a为自适应可靠边界回滚裁剪的运作效果示意图，为当

大于边界

的裁剪方式；

图5b为自适应可靠边界回滚裁剪的运作效果示意图，为当

小于边界

的裁剪方式；

图6为考虑海浪海流干扰的经过训练后的一次对接过程；

图7为本发明所提出的方法相对比与原始PPO算法的训练奖励曲线图；横坐标表示航行器智能体训练轮回（一个episode）的轮数，即训练了多少轮（episodes number），纵坐标表示该轮所获得的总奖励值；

图8为实施例1中设定的海浪参数产生的海浪波形图，该图表示航行器智能体在一个训练轮回（一个episode）中所遭遇的浪高，横坐标表示一个训练轮回中的时间步，纵坐标表示海浪高度。

具体实施方式

下面通过实施例并结合附图对本发明做进一步说明，但不限于此。

实施例1：

一种基于强化学习的水下航行器对接控制方法，包括步骤如下：

步骤1、定义任务环境及模型

任务环境包括固定在地理原点的

通过在仿真中基于牛顿-欧拉运动方程推导，对一个长度为2.38米、直径为0.32 米、重量为167千克的流线型水下航行器进行六自由度的动力学建模，包括，在

坐标系下对水下航行器坐标

及姿态角

的

坐标系，描述水下航行器的线速度

及角速度

，以完整描述水下航行器的运动状态；其中，

为固定坐标系

下的三维坐标值；

为固定坐标系

绕三个坐标轴旋转的姿态角角度：艏向角

、横滚角

以及俯仰角

，

为水下航行器在

坐标系下沿三个坐标轴运动的线速度值，

为

时刻的运动状态；

四阶龙格库塔法解算微分方程示例说明如下：

；

；

；

；

；

其中，

为定义的微分时间间隔；

为航行器在

时刻的速度向量，

为下一时刻的速度向量，

为航行器的动力学方程；

，

，

，

表示微分方程在该点处的一阶导数，即斜率。

为了几何化地描述水下航行器的对接控制问题，将三维运动投影到穿过锥体对接站中心轴的平面上，如图4所示，在这个投影平面上，原本三维的锥体对接站的入口形成入口三角形区域PAB，P点为对接站，以过中轴线的截面三角入口三角形区域PAB为正三角形，边长AB设定为1.2米；

小于

；由于锥形入口具有辅助导向作用，因此要求

小于

；考虑安全裕度，成功对接的最终约束写为：

（1-1）

（1-2）

其中，

与

分别为半径安全裕度与角度安全裕度；

为航行器头部与对接站中心轴的垂直距离，

为航行器中轴线与对接站中心轴的夹角；

为三角形的

。

1-2、定义奖励函数

根据航行器对接控制任务的设定，构建如下奖励分量：

（1-3）

（1-4）

（1-5）

（1-6）

其中，

与

表示上一时刻水下航行器与终点的距离，

表示当前时刻水下航行器与终点的距离，

表示上一时刻水下航行器与中轴线的距离，

表示当前时刻水下航行器与中轴线的距离；

与

均是带容差的惩罚函数，

是权重，

是容差，

、

是一个小于1的正常数，用于调整惩罚项；

是航行器重心到对接站坐标距离的

次幂，设定此量来为智能体提供惩罚信息，

是航行器重心到对接站中轴线距离的

次幂，设定此量来为智能体提供惩罚信息。

入口三角形区域PAB沿对接站中心轴向外延伸形成外部圆锥体区域，外部圆锥体区域自定义范围大小，将对接站的坐标设定为（100，50，0.5），锥体开口的方向为

坐标减小的方向，外部圆锥体区域为（90，50，0.5）到（100，50，0.5）的圆锥体区域，当水下航行器到达外部圆锥体区域时（图4中阴影区域），改变奖励分量的权重，并设置奖励分量

，以帮助航行器调整到所需的姿态。

（1-7）

其中，

是权重，且满足

，

为前一时刻航行器姿态角与目标姿态角的差值；

为当前时刻航行器姿态角与目标姿态角的差值；

综合起来，奖励函数被设定为：

（1-8）

本发明所提出的方法相对比与原始PPO算法的训练奖励曲线如图7所示。

1-3、定义状态空间S

、航行器重心到对接站中心轴的距离

、航行器和最终期望姿态之间的角度

，以及到终点P的导航角

（1-9）

其中，

是水下航行器艉部推进器的推力大小、

为艉部水平舵的偏转角度，

为艉部垂直舵的偏转角度；

（1-10）

1-4、定义动作空间

其中，F为推进器输出力的大小，

为水平舵以及垂直舵的偏转角度。

1-5、海浪干扰

（1-11）

（1-12）

其中，g为重力加速度；U为航行器速度向量；

为子谐波波长的倒数；

是海浪子谐波角频率；此外，

是航行器遇到波浪的遭遇角频率，

（1-13）

（1-14）

（1-15）

其中，

是水下航行器的直径，

是阻力系数，

是附加质量系数，

是海水密度，

是海浪在动系下的横移速度、即y方向速度，

是航行器在动系下的横移速度、即y方向速度，

是海浪在动系下的横移加速度、即y方向加速度，

是航行器在动系下的横移加速度、即y方向加速度，

是海浪引起的横向干扰力，

是海浪引起的垂向干扰力，

是海浪引起的纵倾干扰力矩，

是海浪在动系下的升沉速度、即z方向速度，

是航行器在动系下的升沉速度、即z方向速度，

是海浪在动系下的升沉加速度、即z方向加速度，

（1-16）

（1-17）

（1-18）

（1-19）

其中，

是次谐波振幅，

是次谐波波数，

是谐波波数与深度坐标的乘积，

是每个子谐波的随机相移（0＜

＜

），

是子谐波的序号，

是子谐波的周期，

1-6、海流干扰

，包括非定常均匀流

和稳定循环流

。在地理坐标系下，水平面上两个分量产生的流速可简化为

，具体描述如下：

（1-20）

（1-21）

（1-22）

其中，

是地理坐标系中表示的当前流的大小，

（1-23）

（1-24）

其中，

步骤2、定义基于深度强化学习的对接控制算法

2-1、基本近端策略优化方法：

输入为

，输出为

，即一个由状态到动作的映射关系，其策略网络

的目标函数

为

（2-1）

其中，

为裁剪因子（优选的，

为小于1的正数，一般取0.1~0.2），

为优势函数，

为一轮训练（一个episode内）t时刻智能体状态，

为t时刻智能体所执行的动作，

（2-2）

其中，

为值网络的网络权重参数，

为一个样本序列

中某一个动作点之后总的折扣奖励，

为折扣因子，一般取0.90~0.99，

为值网络输出的状态-价值函数的近似值；

（2-3）

状态价值函数的目标函数

为：

（2-4）

（2-5）

（2-6）

（2-7）

其中，

为值网络权重，

为调整因子，

为时序差分误差，

是第i个时间步的状态的值网络输出值，

是第i个时间步的状态的环境奖励值；

改进后的近端策略优化方法：

针对基本目标函数

中的

函数，该函数原本功能是将新旧策略网络之比

控制在

的范围内，以防止策略网络更新过大导致不稳定。

针对此，本发明，使用新的约束参考

，来约束新旧网络的更新，并使用基于训练进程的参考量

（即航行器智能体在最近经历的100次训练中训练成功次数），作为回滚机制的调节因子，自适应地调整回滚裁剪力度；

（2-8）

（2-9）

其中，

为自适应的回滚因子，

为航行器智能体在最近经历的100次训练中的任务成功次数，通过自适应可靠边界回滚裁剪机制计算得到

；可由图5a图5b中的实线行描述（点断线为原clip函数

值变化）；

其含义为，当目标函数

中

函数在超出裁剪上下边界时的值变化，原始的

是对

的粗暴裁剪，即图5a图5b中的点断线变化，而本发明使用自适应裁剪，使该函数的变化为图中实线所示。图5a表示当

大于边界

的裁剪方式，图5b表示当

小于边界

的裁剪方式。

箭头表示超出范围的回滚裁剪函数会按照训练近期的成功率进行上旋转或者下旋转，当成功率高时，则上旋转接近原始的裁剪函数，当成功率低时，则下旋转。其目的是放大或缩小策略更新的变化范围，以使其在训练效果不好时扩大搜索空间，训练效果好时减少策略变化，减小搜索空间。

则改进后的目标函数

为：

（2-10）

其中，

如上公式（2-9）所示。

2-2、定义算法流程

输入：初始化策略网络参数

，初始化值网络参数

；

（1）循环开始，遍历k = 0, 1, 2 , …进行以下步骤：

（2）使用策略网络

，

为更新策略网络的次序，收集若干条完整的训练轨迹

存入

，

为收集到的训练轨迹次序；

（3）根据公式（2-2）基于当前值网络

计算优势函数的估计值

；

（4）通过策略网络的梯度下降，最大化目标函数

来更新ARAB-PPO网络参数，得到新的网络参数

；

（2-11）

（5）通过梯度下降法，基于均方根误差来拟合值网络：

（2-12）

（6）结束循环；

步骤2-2中，策略网络定义为含有三层全连接层的神经网络，输入层神经元数设定为9（对应公式（1-9）），输出层神经元设定为3（对应动作空间维度），中间层设定为128个神经元；值网络定义为含有三层全连接层的神经网络，输入层神经元数设定为9（对应公式（1-9）），输出层神经元设定为1，中间层设定为128个神经元。

步骤3、进行对接训练

3-1、初始化任务环境及水下航行器动力学模型；

使用python语言在vscode集成编译环境下编写水下航行器仿真环境任务环境，所构建的模拟水池地图的地理坐标系

如图3所示，三维水池的尺寸设定为100米*100米* 50米。

基于Khalil H, 哈里尔, Khalil等人在《非线性***（第三版）》（电子工业出版社，2005））中对牛顿-欧拉运动方程的推导，对一个长度为2.38米、直径为0.32米、重量为 167千克的流线型水下航行器进行六自由度的动力学建模。其中，在

坐标系下对水下航行器坐标

及姿态角

的

坐标系，描述水下航行器的线速度

及角速度

，以完整描述水下航行器的运动状态，如图3所示。

将对接站的坐标设定为（100，50，0.5），锥体开口的方向为

坐标减小的方向。外部圆锥体区域为（90，50，0.5）到（100，50，0.5）的圆锥体区域。

航行器三坐标起点被定义为

，均为均匀随机分布。一个训练过程（episode）设定最大步数为1000，单步时间为0.1s。当成功完成对接或超过最大时间步限制时，触发终止条件。

3-2、根据设定好的海浪参数，选择1000个（0.01，5）rad/s范围内的次谐波进行叠加，有效波高为0.88m，产生的海浪波形如图8所示。根据式（1-11）至式（1-19）计算海浪产生的干扰力及干扰力矩；

3-3、根据设定好的海流参数及具体形式，选择均匀随机分布的

作为均匀流，选择

作为非均匀流，其中

，根据式（1-20）至式（1-24）计算得到体坐标系下的海流速度在两个方向上的速度分量；

3-4、根据步骤2-2中所述初始化策略网络参数及值网络参数；

3-5、策略网络

根据t时刻获得的如公式（1-9）所示的观察量

，输出动作

；

若满足，且t小于等于设定的单轮最大步数，则进行3-7；

若不满足，且t大于设定的单轮最大步数，则进行3-7；

3-7、将得到的完整训练轨迹

，其中

表示第0个时间步的航行器状态；

表示第0时刻航行器智能体执行的动作；

；

3-8、设定更新频率，判断是否满足更新频率：频率设定为4，即每得到4次完整的训练轨迹，才进行以下更新；

计算优势函数的估计值

并继续执行3-9；

当不满足更新频率时，重复步骤3-6；

3-9、根据公式（2-10），根据

；其中

设定为0.2，折扣因子

设定为0.9。

3-10、对目标函数求取梯度（即某一函数在该点处的方向导数沿着该方向取得最大值，此处即对网络参数求导，即

），并根据步骤2-2中的步骤（4）更新策略网络参数；

3-11、根据步骤2-2中的步骤（5）更新值网络参数；

3-12、重复3-6，直到达到设定的收敛目标。收敛目标定义为，

大于等于90。经过训练后的一次对接过程如图6所示。

Claims

1.一种基于强化学习的水下航行器对接控制方法，其特征在于，包括步骤如下：

步骤1、定义任务环境及模型

任务环境包括固定在地理原点的

将三维运动投影到穿过锥体对接站中心轴的平面上，锥体对接站的入口形成入口三角形区域PAB，入口三角形区域PAB沿对接站中心轴向外延伸形成外部圆锥体区域，

是入口AB的半径；设定成功对接的要求是：当航行器头部到达AB时，

小于

，

小于

；成功对接的最终约束为：

（1-1）

（1-2）

其中，

与

分别为半径安全裕度与角度安全裕度；

为航行器头部与对接站中心轴的垂直距离，

为航行器中轴线与对接站中心轴的夹角；

为三角形的

；

1-2、定义奖励函数

根据航行器对接控制任务的设定，构建如下奖励分量：水下航行器接近对接站终点的步进奖励

、水下航行器接近对接站中轴线的步进奖励

、带容差的惩罚函数

与

、水下航行器到达外部圆锥体区域时的奖励分量

；

奖励函数设定为：

（1-8）

是权重；

1-3、定义状态空间S，

，n为观察分量的数量，

（1-9）

其中，

为航行器重心到对接站的距离、

为航行器重心到对接站中心轴的距离、

为航行器和最终期望姿态之间的角度、

为航行器到终点P的导航角、

为俯仰角、

是水下航行器艉部推进器的推力大小、

为艉部水平舵的偏转角度、

为艉部垂直舵的偏转角度；

1-4、定义动作空间

，其中，F为推进器输出力的大小，

为水平舵以及垂直舵的偏转角度；

1-5、根据海浪干扰，构建一个随机海浪模型；

1-6、根据海流干扰，在水平面上构建一个包含两个分量的流场；

步骤2、定义基于深度强化学习的对接控制算法

2-1、定义目标函数：策略网络

输入为

，输出为

，即一个由状态到动作的映射关系，其策略网络

的目标函数

为：

（2-8）

（2-9）

（2-10）

为裁剪因子，

为优势函数，

为一轮训练t时刻智能体状态，

为t时刻智能体所执行的动作，

则为计算得到的t时刻的优势函数值，

为自适应的回滚因子，

为训练阶段近100轮的任务成功次数，通过自适应可靠边界回滚裁剪机制计算得到

；

2-2、定义算法流程：

输入：初始化策略网络参数

，初始化值网络参数

；

（1）循环开始，遍历k = 0, 1, 2 , …进行以下步骤：

（2）使用策略网络

，

为更新策略网络的次序，收集若干条完整的训练轨迹

存入

，

为收集到的训练轨迹次序；

（3）根据公式（2-2）基于当前值网络

计算优势函数的估计值

；

（4）通过策略网络的梯度下降，最大化目标函数

来更新ARAB-PPO网络参数，得到新的网络参数

；

（2-11）

（5）通过梯度下降法，基于均方根误差来拟合值网络：

（2-12）

（6）结束循环；

步骤3、进行对接训练

3-1、初始化任务环境及水下航行器动力学模型；

3-2、根据设定好的海浪参数，计算海浪产生的干扰力及干扰力矩；

3-3、根据设定好的海流参数及具体形式，计算得到体坐标系下的海流速度在两个方向上的速度分量；

3-4、根据步骤2-2中所述初始化策略网络参数及值网络参数；

3-5、策略网络

根据t时刻获得的如公式（1-9）所示的观察量

，输出动作

；

3-6、根据公式（1-8）计算环境给予航行器智能体的单步环境奖励，并根据公式（1-1）、（1-2）判断航行器是否满足对接控制约束，并记录近100轮训练成功次数

；

若满足，且t小于等于设定的单轮最大步数，则进行3-7；

若不满足，且t大于设定的单轮最大步数，则进行3-7；

3-7、将得到的完整训练轨迹

，其中

表示第0个时间步的航行器状态；

表示第0时刻航行器智能体执行的动作；

；

3-8、设定更新频率，判断是否满足更新频率：

计算优势函数的估计值

并继续执行3-9；

当不满足更新频率时，重复步骤3-6；

3-9、根据公式（2-10），根据

，使用本发明提出的自适应可靠边界回滚机制，计算策略网络的目标函数

；

3-11、根据步骤2-2中的步骤（5）更新值网络参数；

3-12、重复3-6，直到达到设定的收敛目标。

2.根据权利要求1所述的基于强化学***舵、艉部垂直舵的舵角偏转值，经四阶龙格库塔法解算微分方程可以得到

时刻的运动状态。

3.根据权利要求1所述的基于强化学习的水下航行器对接控制方法，其特征在于，步骤1-2中，构建奖励分量如下：

首先，根据水下航行器接近目标的行为进行奖励，设定该奖励分量为每一个仿真时间步长水下航行器到对接站终点距离的减小值，具体如式(1-3)至式（1-6）：

（1-3）

（1-4）

（1-5）

（1-6）

其中，

与

表示上一时刻水下航行器与终点的距离，

表示当前时刻水下航行器与终点的距离，

表示上一时刻水下航行器与中轴线的距离，

表示当前时刻水下航行器与中轴线的距离；

与

均是带容差的惩罚函数，

是权重，

是容差，

、

是一个小于1的正常数，用于调整惩罚项；

是航行器重心到对接站坐标距离的

次幂，设定此量来为智能体提供惩罚信息，

是航行器重心到对接站中轴线距离的

次幂，设定此量来为智能体提供惩罚信息；

当水下航行器到达外部圆锥体区域时，改变奖励分量的权重，并设置奖励分量

，

（1-7）

其中，

是权重，且满足

，

为前一时刻航行器姿态角与目标姿态角的差值；

为当前时刻航行器姿态角与目标姿态角的差值；

综合起来，奖励函数被设定为：

（1-8）。

4.根据权利要求1所述的基于强化学习的水下航行器对接控制方法，其特征在于，步骤1-3中，各个观察分量被加载到神经网络之前均进行了最大最小值归一化处理，具体的计算方式为：

（1-10）

的范围内。

5.根据权利要求1所述的基于强化学习的水下航行器对接控制方法，其特征在于，步骤1-5中，构建一个随机海浪模型，海浪波谱如下所示：

（1-11）

（1-12）

其中g为重力加速度；U为航行器速度向量；

为子谐波波长的倒数；

是有效波高，

是海浪子谐波角频率；此外，

是航行器遇到波浪的遭遇角频率，

是遭遇角；设定航行器尺寸相比海浪波长较小，通过沿航行器长度积分获得波浪力和力矩如下所示：

（1-13）

（1-14）

（1-15）

其中，

是水下航行器的直径，

是阻力系数，

是附加质量系数，

是海水密度，

是海浪在动系下的横移速度、即y方向速度，

是航行器在动系下的横移速度、即y方向速度，

是海浪在动系下的横移加速度、即y方向加速度，

是航行器在动系下的横移加速度、即y方向加速度，

是海浪引起的横向干扰力，

是海浪引起的垂向干扰力，

是海浪引起的纵倾干扰力矩，

是海浪在动系下的升沉速度、即z方向速度，

是航行器在动系下的升沉速度、即z方向速度，

是海浪在动系下的升沉加速度、即z方向加速度，

（1-16）

（1-17）

（1-18）

（1-19）

其中，

是次谐波振幅，

是次谐波波数，

是谐波波数与深度坐标的乘积，

是每个子谐波的随机相移（0＜

＜

），

是子谐波的序号，

是子谐波的周期，

6.根据权利要求1所述的基于强化学***面上构建一个包含两个分量的流场

，包括非定常均匀流

和稳定循环流

，在地理坐标系下，水平面上两个分量产生的流速简化为

，具体描述如下：

（1-20）

（1-21）

（1-22）

其中，

是地理坐标系中表示的当前流的大小，

（1-23）

（1-24）

其中，

是从体坐标系到地理坐标系的旋转矩阵，在每个时间步，直接将当前速度叠加在航行器的线速度上。

7.根据权利要求1所述的基于强化学习的水下航行器对接控制方法，其特征在于，步骤2-1中，

为计算得到的t时刻的优势函数值，t时刻的优势函数为：

（2-2）

其中，

为值网络的网络权重参数，

为一个样本序列

中某一个动作点之后总的折扣奖励，

为折扣因子，取0.90~0.99，

为值网络输出的状态-价值函数的近似值，

为值网络权重；

（2-3）。

8.根据权利要求1所述的基于强化学习的水下航行器对接控制方法，其特征在于，步骤1-1中，入口三角形区域PAB为正三角形，边长AB设定为1.2米。

9.根据权利要求1所述的基于强化学习的水下航行器对接控制方法，其特征在于，步骤2-1中，

取0.1~0.2。

10.根据权利要求1所述的基于强化学习的水下航行器对接控制方法，其特征在于，步骤2-2中，策略网络定义为含有三层全连接层的神经网络，输入层神经元数设定为9，输出层神经元设定为3，中间层设定为128个神经元；值网络定义为含有三层全连接层的神经网络，输入层神经元数设定为9，输出层神经元设定为1，中间层设定为128个神经元。