CN112698646B

CN112698646B - 一种基于强化学习的航行器路径规划方法

Info

Publication number: CN112698646B
Application number: CN202011418107.XA
Authority: CN
Inventors: 彭星光; 刘硕; 王童豪; 宋保维; 潘光; 张福斌; 高剑; 李乐; 张立川
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-12-05
Filing date: 2020-12-05
Publication date: 2022-09-13
Anticipated expiration: 2040-12-05
Also published as: CN112698646A

Abstract

本发明公开了一种基于强化学习的航行器路径规划方法。该方法通过接入电子海图中障碍物的信息构建了虚拟力场，设定虚拟力场的奖励函数，然后将状态转移五元组引入航行器路径规划任务中，最后通过结合虚拟力场思想的确定性策略强化学习算法引导航行器通过最优路径到达目标点。该方法接入了实时海图信息，航行器能够应对不同地形情景下进行避障，具有良好的扩展性和自适应性。

Description

一种基于强化学习的航行器路径规划方法

技术领域

本发明属于航行器技术领域，具体涉及一种路径规划方法。

背景技术

路径规划是航行器实施任务的前提条件之一。以海洋航行器为例，在其执行任务时，由于洋流及地形复杂，为保障作业的安全性，航行器需要具备路径规划的能力。同时，路径规划也是确保航行器能开展探测环境、采集资源、布放设施等后续任务的前提。因此，研究航行器的路径规划技术尤为重要。

强化学习是一种让智能体通过“试错”方式进行学习的机器学习算法。强化学习利用大量的交互数据，让智能体从经历中学习，并最终采取最大化预期利益的行动策略。航行器在实际场景下的移动可视为一个马尔科夫链，因此，该路径规划问题可建模为一个马尔科夫决策问题，适用于利用强化学习方法对路径进行优化。

在航行器路径规划问题中，路径应具备安全性和节能性。安全性体现在给航行器下达任务后，航行器应远离危险区域、威胁区域，从而保障自身安全，并保证后续任务的顺利开展。节能性体现在航迹路径应尽可能短，能够给航行器节约储备能源。此外，规划的路径应满足航行器的运动特性，能够应用于实际场景。综上所述，规划的路径应使得航行器能在远离障碍物和威胁区域的前提下，尽可能快速到达目标点。

发明内容

为了克服现有技术的不足，本发明提供了一种基于强化学习的航行器路径规划方法。该方法通过接入电子海图中障碍物的信息构建了虚拟力场，设定虚拟力场的奖励函数，然后将状态转移五元组引入航行器路径规划任务中，最后通过结合虚拟力场思想的确定性策略强化学习算法引导航行器通过最优路径到达目标点。该方法接入了实时海图信息，航行器能够应对不同地形情景下进行避障，具有良好的扩展性和自适应性。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1：设定航行器路径规划的任务奖励函数；

设定航行器远离威胁区域时受到虚拟斥力的奖励函数如下：

式中，

是航行器的纬度，

是第i个威胁区域中心的纬度，ψ_vsl是航行器的经度，

是第i个威胁区域中心的经度，N是威胁区域数量，t是时间步；

设定航行器与威胁区域保持安全距离的奖励函数如下：

式中，d_safety是航行器距离威胁区域的最小距离；

设定航行器受到目标点的虚拟吸引力的奖励函数如下：

式中，

是目标点的纬度，ψ_tar是目标点的经度，λ是虚拟吸引力系数；

设定航行器到达目标点的奖励函数设置如下：

综合式(1)到式(4)，每个时间步内航行器采取动作时受到环境反馈的总奖励值r_total为上述总和，公式如下：

r_total＝r_repulsion+r_safety+r_attract+r_arrival (5)

步骤2：将航行器的路径规划任务对应马尔科夫决策过程进行五元组建模，得到状态转移五元组如下：

<S,A,P,R,γ>

其中，S为航行器的策略网络输入状态的集合，在每一个时间步内，S包括航行器地理位置坐标即纬度

和经度ψ、当前航向角θ、距离威胁区域中心的距离总和d_obs和距离目标点的距离d_tar，S由航行器传感器联合电子海图***进行获取；当前航向角θ是航行器的艏向与地理正北的矢量夹角；A是航行器动作的集合，在每一个时间步内，A是一个舵角值δ，即航向改变量；航行器在t时间步航向改变δ_t舵角后，t+1时间步航行器的航向角θ_t+1计算方式如下：

θ_t+1＝θ_t+δ_t (6)

P是航行器的状态转移概率；R是总奖励值r_total；γ是奖励折扣因子；

步骤3：构建结合虚拟力场思想的确定性策略强化学习算法；

步骤3-1：确定性策略强化学习算法的演员网络包括优化器、航行器动作策略网络和策略网络目标网络，用于接收环境信息，并做出应答；

确定性策略强化学习算法的评论家网络包括优化器、航行器动作价值Q网络和动作价值网络目标网络，用于更新航行器动作策略网络的参数；

确定性策略强化学习算法的航行环境为地图实际场景，航行器数据经验池用于储存状态转移五元组，航行器数据经验池容量为固定值；

步骤3-2：随机初始化航行器动作策略网络、策略网络目标网络、航行器动作价值Q网络和动作价值网络目标网络的网络参数，并每间隔一定时间步将航行器动作策略网络的网络参数复制给策略网络目标网络，每间隔一定时间步将航行器动作价值Q网络的网络参数复制给动作价值网络目标网络；

步骤3-3：在训练时，航行器通过传感器收集来自航行环境的信息，作为航行器动作策略网络的输入，并结合航行器状态作为航行器动作价值Q网络的输入；

策略网络目标网络将当前时间步的状态转移五元组输入给航行器数据经验池；

航行器动作价值Q网络的输出通过梯度下降回传给航行器动作策略网络；

优化器对航行器动作策略网络、航行器动作价值Q网络进行梯度更新；

航行器动作策略网络输出一个动作即舵角，并添加舵角噪声得到实际舵角值，航行器根据实际舵角值进行航向角调整，完成一次航行器与航行环境的交互；

当航行器数据经验池中的状态转移五元组达到指定数目后开始采样并训练，输出目标动作价值Q值给动作价值网络目标网络；当训练达到指定次数后，航行器能够避开威胁区域，得到最优路径；

步骤4：航行器在路径规划任务中的航速为固定值，步骤3的算法通过修正每个时间步内航行器的舵角，来改变航行器的航向，引导航行器到达目标点。

优选地，所述θ∈[0°,360°)，δ∈[-35°，+35°]，γ∈[0,1]。

由于采用了本发明提出了一种基于强化学习的航行器路径规划方法，带来了如下有益效果：

1、本发明方法不易陷入局部极值而导致路径规划任务失败。

2、本发明方法考虑长期回报总和最高，能够有效避开威胁区域以及快速到达目标点。

3、本发明方法对应不同的地图场景均适用，具有良好的泛化性、拓展性。

4、本发明方法通过改变舵角对航行器进行控制，符合实际场景下航行器的操纵机动规律。

附图说明

图1是本发明方法的结构框图。

图2是本发明方法的仿真验证图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明提供一种基于强化学习的航行器路径规划方法，包括以下步骤：

步骤1：设定航行器路径规划的任务奖励函数；

设定航行器远离威胁区域时受到虚拟斥力的奖励函数如下：

式中，

是航行器的纬度，

是第i个威胁区域中心的纬度，ψ_vsl是航行器的经度，

设定航行器与威胁区域保持安全距离的奖励函数如下：

式中，d_safety是航行器距离威胁区域的最小距离；

设定航行器受到目标点的虚拟吸引力的奖励函数如下：

式中，

设定航行器到达目标点的奖励函数设置如下：

r_total＝r_repulsion+r_safety+r_attract+r_arrival (5)

<S,A,P,R,γ>

θ_t+1＝θ_t+δ_t (6)

P是航行器的状态转移概率；R是总奖励值r_total；γ是奖励折扣因子；至此，路径规划任务的马尔科夫决策过程建模完成，对于每个时间步内的舵角值，本发明用一种结合虚拟力场思想的确定性策略强化学习算法来确定。当达到一定的神经网络训练次数后，该方法能够得到航行器对于每一个时间步的唯一策略动作，即最优的航迹。

步骤3：构建结合虚拟力场思想的确定性策略强化学习算法；算法框图如图1所示。通过图1的框架，对航行器的动作策略网络进行训练，最终得到最优的策略，即最优航迹。

确定性策略强化学习算法的航行环境为地图实际场景，航行器数据经验池用于储存状态转移五元组；

步骤3-2：随机初始化航行器动作策略网络、策略网络目标网络、航行器动作价值Q网络和动作价值网络目标网络的网络参数，并每间隔一定时间步将航行器动作策略网络的网络参数复制给策略网络目标网络，每间隔一定时间步将航行器动作价值Q网络的网络参数复制给动作价值网络目标网络；初始化容量为一定数值的航行器数据经验池。

优选地，所述θ∈[0°,360°)，δ∈[-35°，+35°]，γ∈[0,1]。

在本方法中，通过强化学习得到的最优策略，就对应了路径规划的最优路径。如图2所示，航行器的起点设定为白色点，终点设定为黑色点，圆形灰色区域为航行环境中的潜在威胁点，白色的路径即为本方法规划出的最优路径。此外，本方法可用于推广到运载车辆、飞行器等航行器的路径规划。