CN111880549B

CN111880549B - 面向无人船路径规划的深度强化学习奖励函数优化方法

Info

Publication number: CN111880549B
Application number: CN202010962958.4A
Authority: CN
Inventors: 曹志英; 杜意权; 张秀国; 郭嗣彧; 郑易松
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2024-06-04
Anticipated expiration: 2040-09-14
Also published as: CN111880549A

Abstract

本发明提供一种面向无人船路径规划的深度强化学习奖励函数优化方法，包括：S1、获取环境信息；S2、获取无人船与障碍物之间的距离以及无人船与目标点之间的距离；S3、根据船舶到达目标点的次数，给予相对应的奖励值；S4、判断船舶是否在奖励域内，根据奖励域奖励原则给予相应的奖励；S5、判断无人船是否与障碍物碰撞，给予相对应的惩罚值；S6、判断船舶是否在危险域内，根据危险域惩罚原则给予相应的惩罚，否则根据一般情况奖励原则给予奖励。本发明通过在船舶航行的目标点附近增加奖励域、在障碍物附近增加危险域，并引入计数原则，来增大或者减少获得的奖励或惩罚，加快深度强化学习算法的收敛速度，引导船舶更快地避开障碍物到达目标点。

Description

面向无人船路径规划的深度强化学习奖励函数优化方法

技术领域

本发明涉及路径规划技术领域，具体而言，尤其涉及一种面向无人船路径规划的深度强化学习奖励函数优化方法。

背景技术

目前全世界各国的经济联系越发紧密，贸易更加频繁，船舶作为一种重要的交通工具，发挥着重要作用。然而，随着船舶航行密度的越来越大以及航行环境也日渐复杂，导致海上安全事故频繁发生。近年来的数据显示，造成海难的主要原因是船舶在航行过程中船员未及时检测到的障碍物对船舶产生了碰撞。同时有些情况下不适合载人船舶前往工作地点执行任务，需要船舶自主航行去应对海上复杂多变的恶劣环境，这就需要船舶具备自主避障功能。为了保障船舶行驶安全，避免海上安全事故的发生，国内外学者提出了许多有关船舶避障的方法。

路径规划作为船舶避障最基本且重要的环节，其目标就是建立一条从起始点到目标点之间的最优路径，在满足船舶航行性能要求的前提下，还可以避开所有障碍物。

目前传统的无人船路径规划算法有人工势场法(APF)、A*算法、进化神经网络和进化算法等。APF通过构建虚拟引力场引导无人船驶向目标航路点，将航行限制区转换为虚拟障碍物区域，从而构建虚拟斥力场避开静态障碍物，但是当有一个相等的斥力和吸引力或当目标点的斥力很大时，船舶就会停滞不前，陷入局部最优。A*算法是Dijkstra算法的改进版，通过在状态空间中搜索并对每一个搜索的位置进行评估，得到最好的位置，再从这个位置进行搜索直到达到目标。但是该方法的规划路径功能依赖于栅格地图，栅格的间距大小和数量会直接影响算法的计算速度和准确性。进化神经网络主要是通过对历史船舶避碰操作的样本数据进行学习，实现无人船在静态及动态障碍物的环境下进行路径规划并规避障碍物。但是该方法的准确性高度依赖于训练进化神经网络的样本数据，对于不同的航行区域需要训练对应的神经网络模型。进化算法包括蚁群算法和模拟退化算法等，例如Vettor,R et al.利用optimization genetic algorithm将环境信息作为初始种群进行计算，最终得到满足要求的航行路径并在开阔水域实现了无人船舶自主路径规划。这类算法实现简单但是迭代次数高，容易陷入局部最优解，而且找到的路径转角过多，不能用于连续的拓扑环境。

最近几年，随着深度强化学习的发展，基于深度强化学习的船舶路径规划方法也开始被许多学者研究。该方法将深度强化学习算法与无人船舶操控动作相结合，让船舶在仿真环境中不断尝试，实时输出准确的航行动作，学习如何避开障碍物到达目标点，最后得到有效的船舶路径规划模型。在使用该模型的时候，不需要再次训练，只需要将得到的模型部署到需要进行路径规划的船舶上，然后将环境信息传入模型，就可以实现路径规划。

基于深度强化学习的无人船路径规划需要随机初始化深度强化学习算法网络参数，将现实环境中的障碍物抽象出来建立实验环境。建立路径规划模型时首先初始化船舶位置、航向、航速、船舶与目标点距离、船舶与障碍物距离等数据作为输入，确定船舶初始状态。然后网络根据输入的船舶状态信息预测船舶需要执行的动作，船舶执行该动作得到下一时刻船舶状态，并且由奖励函数评判动作好坏得到一个奖励或者惩罚。最后将本次船舶状态、执行的动作、获得的奖励以及执行动作后的下一状态保存到缓冲池中用来更新深度强化学习算法网络参数。重复上述过程直到得到有效的船舶路径规划模型。而在这个过程中奖励函数作为评价执行动作好坏的评价者对深度强化学习算法有着很大的影响。

目前，大部分基于深度强化学习的无人船路径规划中采用的奖励函数都是通过将船舶与目标点的距离取反作为奖励，采用这种奖励函数会导致深度强化学习算法收敛速度很慢，训练周期很长，而且可能学习不到最优的路径规划策略。

发明内容

为了解决传统的奖励函数收敛速度慢、训练周期长的问题，本发明提出了一种面向无人船舶路径规划的深度强化学习奖励函数优化方法。通过在目标点附近增加奖励域、在障碍物附近增加危险域，并引入计数原则，来增大或者减少获得的奖励或惩罚，从而加快模型的收敛速度，让船舶更快地避开障碍物到达目标点。

本发明采用的技术手段如下：

面向无人船舶路径规划的深度强化学习奖励函数优化方法，包括：

S1、获取环境信息，并对所述环境信息进行预处理，将获取的环境信息转变为实验环境中的信息；

S2、获取无人船与障碍物之间的距离以及无人船与目标点之间的距离，根据所述无人船与目标点之间的距离判断无人船是否到达目标点，若到达则执行S3，否则执行S4；

S3、根据船舶到达目标点的次数，给予与所述船舶到达目标点的次数相对应的奖励值；

S4、判断船舶是否在奖励域内，如果在奖励域内，则根据奖励域奖励原则给予相应的奖励，执行S2，否则执行S5；

S5、判断无人船是否与障碍物碰撞，根据船舶与障碍物碰撞的次数，给予与所述船舶与障碍物碰撞的次数相对应的惩罚值，执行步骤S2，否则执行S6；

S6、判断船舶是否在危险域内，如果在危险域内，则根据危险域惩罚原则给予相应的惩罚，并执行S2；否则根据一般情况奖励原则给予奖励，并执行S2。

进一步地，S1中对所述环境信息进行预处理，包括：

根据船舶的当前位置读取与下一个转向点之间的障碍物位置数据，对所述障碍物位置数据进行解析，得到障碍物的坐标信息；

对所述障碍物的坐标信息通过墨卡托投影转换为直角坐标系下的第一转换坐标；

对所述第一转换坐标进行单位转换，得到第二转换坐标；

对所述第二转换坐标进行归一化操作，使坐标数值在[0,1]区间内。

进一步地，S3中根据船舶到达目标点的次数，给予与所述船舶到达目标点的次数相对应的奖励值，包括：若所述船舶到达目标点的次数大于阈值，则给予最大奖励，否则给予标准奖励值的加权奖励，其中加权系数与到达目标点的次数正相关。

进一步地，S5中根据船舶与障碍物碰撞的次数，给予与所述船舶与障碍物碰撞的次数相对应的惩罚值，包括：若所述船舶碰撞障碍物的次数大于阈值，则给予最大惩罚，否则给予标准惩罚值的加权惩罚，其中加权系数与碰撞障碍物的次数正相关。

进一步地，S4中根据奖励域奖励原则给予相应的奖励，包括：根据船舶与目标点的距离，给予相应的奖励值。

进一步地，S6中根据危险域惩罚原则给予相应的惩罚，包括：根据船舶与最近障碍物的距离，给予相应的惩罚值。

进一步地，S6中根据一般情况奖励原则给予奖励，包括：根据船舶与目标点的距离，给予相应的奖励值。

较现有技术相比，本发明具有以下优点：

本发明通过在目标点附近增加奖励域、在障碍物附近增加危险域，并引入计数原则，来增大或者减少获得的奖励或惩罚，从而加快模型的收敛速度，让船舶更快地避开障碍物到达目标点。

基于上述优势，本发明能够在船舶避障领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明奖励函数优化方法流程图。

图2为示例环境一示意图。

图3为示例环境二示意图。

图4为示例环境一中的奖励得分示意图。

图5为示例环境二中的奖励得分示意图。

图6为示例环境一中收敛次数对比图。

图7为示例环境二中收敛次数对比图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，本发明提供了一种面向无人船舶路径规划的深度强化学习奖励函数优化方法，包括：

步骤1：将环境信息进行数据预处理换算成为实验环境。数据预处理方法如下：

环境信息主要包括船舶的位置信息、速度大小，角速度和障碍物的位置大小等信息，在算法运行前根据船舶的当前位置读取与下一个转向点之间的障碍物数据，进行解析数据，得到障碍物的坐标等信息，并将障碍物的数据信息使用墨卡托投影进行坐标转换，将坐标转换成直角坐标系下的坐标。转换坐标后，数据以米为单位，再进行数据转换，转换为千米为单位的最终坐标，如公式(1)所示。其中a为地球长轴，b为地球短轴，地球上某点的经度为θ∈(-π，+π)，纬度为α∈(-π2,+π2)，为地球椭球体的第一偏心率，(x,y)为最后转换后的坐标。最后进行归一化操作，保证传入算法的数据都在[0,1]之间。

步骤2：初始化算法运行所需要的变量。本发明方法需要的变量包括：

goal_counter为目标计数器；

obs_counter为碰撞计数器；

reward为每步奖励或者惩罚；

reward_standard_goal为到达目标点的标准奖励；

max_reward_goal为到达目标点的最大奖励；

reward_standard_obs为碰撞障碍物的标准惩罚；

max_reward_obs为碰撞障碍物的最大惩罚。

步骤3：计算船舶与障碍物和目标点之间的距离。无人船与障碍物之间的距离记为d_obs＝[d₁,d₂,d₃,...,d_n]，d₁,d₂,d₃,...,d_n为与每个障碍物之间的距离；与目标点的距离记为d_goal，在计算距离的过程中为防止出现计算误差，计算的是船舶与目标点或障碍物之间的边界距离，而不是中心距离。

步骤4：判断船舶是否到达目标点，若到达则进行步骤5，否则进行步骤6。

步骤5：目标计数器加一，碰撞计数器归零。判断目标计数器是否大于阈值，如果大于直接给最大奖励，奖励公式如公式(2)所示，否则根据公式(3)计算奖励值，其中ceil()为取整函数。结束本回合，开始下一回合。

reward＝max_reward_goal(2)

步骤6:判断船舶是否在奖励域内，如果在奖励域内，则根据奖励域奖励原则给予相应的奖励，返回步骤3，否则进行步骤7。

奖励域奖励原则如下：

奖励域指的是船舶在目标点附近，还没有到达目标点，为了帮助船舶快速到达目标点，针对奖励域内离目标点的不同的距离给予不同的奖励，加快模型的收敛速度，同时为了防止陷入局部最优，奖励域内的奖励不能太密集，和到达目标点的奖励要有差距，具体的奖励给予如公式(4)所示。其中l和D为奖励域范围的两个阈值，在/>l和D范围内分别给予不同的奖励。

步骤7：判断船舶是否与障碍物碰撞，如果碰撞，则碰撞计数器加一，目标计数器归零，判断碰撞计数器是否大于阈值，如果大于直接给予最大惩罚，该惩罚由公式(5)计算所得；如果没有达到阈值，则根据公式(6)计算惩罚值，并结束本回合，开始下一回合。如果没有碰撞则进行步骤8.

reward＝max_reward_obs(5)

步骤8：判断船舶是否在危险域内，如果在危险域内，则根据危险域惩罚原则给予相应的惩罚，并返回到步骤3；如果没有在危险域内，则根据一般情况奖励原则给予奖励，并返回步骤3。

危险域奖励原则如下：危险域指的是船舶在某个障碍物附近，但是还没有碰撞到障碍物，为了帮助船舶快速离开障碍物附近，走到目标点，需要在障碍物附近加大惩罚，惩罚数值大小与本船到障碍物之间的距离成反比。同理，为了避免陷入局部最优，危险域内的惩罚也不应太密集，和障碍物处的惩罚也有一定的差距，具体的惩罚给予由公式(7)计算所得，其中min(d_^obs)为船舶距离障碍物的最小值，α、β和δ为危险域范围的阈值，在α、β和δ范围内分别给予不同的惩罚。

一般情况奖励原则：一般情况指的是船舶既不在目标点附近，也不在障碍物附近，这种情况下，奖励设置应尽可能的稀疏来避免算法陷入局部最优。所以在一般情况情况下，采用船舶与目标点的距离的相反数作为每一步的奖励，具体计算公式如公式(8)所示，其中inverse()为取反函数。

reward＝inverse(d_goal)(8)

下面从不同环境中奖励得分和收敛次数两方面进行对比分析，来说明使用本专利的奖励函数比使用传统奖励函数收敛速度更快。

(1)不同环境中奖励得分对比分析

在船舶航行过程中，整条路径被分为若干个航路点，路径规划需要规划出一个航路点与下一个航路点的路径。在实验仿真环境过程中，实际环境大小为60海里×60海里，在从一个航路点到下一个航路点中，设置障碍物数量在7个以内，所以在实验过程中实验环境大小设置为600像素×600像素，并分别选取1-7个障碍物来仿真实际的环境。因为障碍物数量越多，算法收敛越慢，为此根据环境中障碍物数量的多少将环境划分为Ⅰ类环境和Ⅱ类环境，进行收敛次数统计。Ⅰ类环境中障碍物数量为1-4个，Ⅱ类环境中障碍物数量为5-7个。下面以其中两个环境(图2为Ⅰ类环境中的一个示例环境、图3为Ⅱ类环境中的一个示例环境)为例来描述本方法的收敛效果。

如图2、图3所示，示例环境一中有3个障碍物，示例环境二中有5个障碍物，五角星处为目标点，船舶处为出发点，障碍物用山体表示。在这两个环境中，使用传统奖励函数和本专利方法采用的DoubleDQN算法进行实验。在深度强化学***稳则说明算法已经收敛。使用本专利的奖励函数和传统的奖励函数在两个环境中得到的奖励得分图如4和图5所示。

如图4和图5所示，图中横坐标为训练回合数，纵坐标表示各训练回合获得的奖励得分，New表示使用本专利的奖励函数，Traditional表示使用传统的奖励函数。从图4中可以看到使用本发明的奖励函数在训练到50个回合的时候奖励得分已经基本稳定，算法基本收敛，但是使用传统的奖励函数在100回合之后奖励得分才逐渐开始稳定，算法开始收敛，并且在后续的过程中还有震荡发生,表明算法还没有完全收敛。从图5中可以看到使用本发明的奖励函数在前100回合之前奖励得分持续震荡，而在100-150回合中虽然有震荡发生但是慢慢趋于稳定，算法开始收敛，在200回合之后算法已经基本收敛。而使用传统的奖励函数在150回合之前奖励得分都在大幅度震荡，在150-250回合得分振幅幅度开始减小，算法开始趋向于收敛，在250回合之后算法才基本收敛。

通过以上实验对比，可以看到在相同的算法中，采用本专利的奖励函数，要比传统的奖励函数收敛得更快。在相同的回合数下，使用本发明的奖励函数，要比传统的奖励函数获得更高的奖励分数。

(2)收敛次数分析

在进行实验过程中，通过改变障碍物位置、数量和大小分别设计不同的环境，每个环境分别使用本发明的奖励函数和传统的奖励函数进行实验。在实验中使用的算法分别是DQN、DoubleDQN和dueling DQN算法，每种算法在简单环境和复杂环境中分别进行10次实验，统计得到的收敛次数分别如图6、图7所示。

图6、图7中横坐标表示算法收敛回合数，纵坐标表示收敛次数，New表示使用本专利的奖励函数，Traditional表示使用传统的奖励函数。

图6描述的是Ⅰ类环境下的收敛情况，从图中可以看出，在进行30次的实验中，使用本专利的奖励函数，100回合以内收敛的有18次，100-150回合之间收敛的有8次，150-250回合收敛的只有4次；使用传统的奖励函数，100回合以内收敛的有6次，100-150回合收敛的有15次，150-250回合收敛的有9次。综合可以看到使用本专利的奖励函数大部分在100回合以内就收敛了，而使用传统的奖励函数大部分在150回合时才收敛。

图7描述的是Ⅱ类环境下的收敛情况，从图中可以看出，使用本专利的奖励函数，150回合以内收敛的有14次，150-200回合及以外收敛的有9次，200-250回合收敛的有5次，300回合以外收敛的有2次；使用传统的奖励函数，150回合以内收敛的有7次，150-200回合收敛的有10次，200-250回合收敛的有8次，300以外收敛的有5次。综上，使用本专利的奖励函数，大多数都在200回合以内收敛，而使用传统的奖励函数，大多数都在250回合以内收敛。

通过以上对比可以看出，在障碍物数量不同的环境中，使用不同的深度强化学习算法，使用本专利的奖励函数都比使用传统奖励函数收敛速度快。

传统的奖励函数都是通过将船舶与目标点的距离取反作为奖励。但是这种奖励函数收敛速度慢，训练周期长，可能会导致由于时间问题终止训练或摒弃方案。

本发明采用计数原则的方法设计奖励函数，如果船舶连续到达目标点则奖励翻倍，如果船舶连续碰撞障碍物则惩罚翻倍，并在目标点设置奖励域，在障碍物处设置危险域。通过这样的设计，帮助算法更快地达到收敛效果，从而使船舶更快地避开障碍物到达目标点。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种面向无人船路径规划的深度强化学习奖励函数优化方法，其特征在于，包括：

S3、根据船舶到达目标点的次数，给予与所述船舶到达目标点的次数相对应的奖励值，包括：若船舶到达目标点，则目标计数器加一，碰撞计数器归零，判断目标计数器是否大于阈值，如果大于直接给最大奖励，否则根据以下公式计算奖励值：

其中ceil()为取整函数，goal_counter为目标计数器，reward_standard_goal为到达目标点的标准奖励；

S4、判断船舶是否在奖励域内，所述奖励域指的是船舶在目标点附近，还没有到达目标点，如果在奖励域内，则根据奖励域奖励原则给予相应的奖励，执行S2，否则执行S5，奖励域奖励根据以下公式计算：

其中，l和D为奖励域范围阈值，d_goal为目标点的距离；

S5、判断无人船是否与障碍物碰撞，根据船舶与障碍物碰撞的次数，给予与所述船舶与障碍物碰撞的次数相对应的惩罚值，执行步骤S2，否则执行S6，包括：

判断船舶是否与障碍物碰撞，如果碰撞，则碰撞计数器加一，目标计数器归零，判断碰撞计数器是否大于阈值，如果大于直接给予最大惩罚，如果没有达到阈值，则根据以下公式计算惩罚值：

其中，obs_counter为碰撞计数器，reward_standard_obs为碰撞障碍物的标准惩罚；

S6、判断船舶是否在危险域内，所述危险域指的是船舶在某个障碍物附近，但是还没有碰撞到障碍物，如果在危险域内，则根据危险域惩罚原则给予相应的惩罚，并执行S2；否则根据一般情况奖励原则给予奖励，并执行S2，危险阈惩罚根据以下公式计算：

其中，min(d_obs)为船舶距离障碍物的最小值，α、β和δ为危险域范围的阈值。

2.根据权利要求1所述的面向无人船路径规划的深度强化学习奖励函数优化方法，其特征在于，S1中对所述环境信息进行预处理，包括：

对所述第一转换坐标进行单位转换，得到第二转换坐标；

3.根据权利要求1所述的面向无人船路径规划的深度强化学习奖励函数优化方法，其特征在于，S3中根据船舶到达目标点的次数，给予与所述船舶到达目标点的次数相对应的奖励值，包括：若所述船舶到达目标点的次数大于阈值，则给予最大奖励，否则给予标准奖励值的加权奖励，其中加权系数与到达目标点的次数正相关。

4.根据权利要求1所述的面向无人船路径规划的深度强化学习奖励函数优化方法，其特征在于，S5中根据船舶与障碍物碰撞的次数，给予与所述船舶与障碍物碰撞的次数相对应的惩罚值，包括：若所述船舶碰撞障碍物的次数大于阈值，则给予最大惩罚，否则给予标准惩罚值的加权惩罚，其中加权系数与碰撞障碍物的次数正相关。

5.根据权利要求1所述的面向无人船路径规划的深度强化学习奖励函数优化方法，其特征在于，S4中根据奖励域奖励原则给予相应的奖励，包括：根据船舶与目标点的距离，给予相应的奖励值。

6.根据权利要求1所述的面向无人船路径规划的深度强化学习奖励函数优化方法，其特征在于，S6中根据危险域惩罚原则给予相应的惩罚，包括：根据船舶与最近障碍物的距离，给予相应的惩罚值。

7.根据权利要求1所述的面向无人船路径规划的深度强化学习奖励函数优化方法，其特征在于，S6中根据一般情况奖励原则给予奖励，包括：根据船舶与目标点的距离，给予相应的奖励值。