CN115206157A

CN115206157A - 一种无人潜航器寻路训练方法、装置及无人潜航器

Info

Publication number: CN115206157A
Application number: CN202210939126.XA
Authority: CN
Inventors: 黄安付; 曹一丁; 尹辉; 郭伟
Original assignee: Baiyang Times Beijing Technology Co ltd
Current assignee: Baiyang Times Beijing Technology Co ltd
Priority date: 2022-08-05
Filing date: 2022-08-05
Publication date: 2022-10-18

Abstract

本申请提供了一种无人潜航器寻路训练方法、装置及无人潜航器，属于涉及无人潜航器技术领域。利用本申请提供的方案，基于对潜航器寻路的执行决策的不断判断和修正，能够对无人潜航器进行训练，使无人潜航器具备一定的自主判断能力。经过本申请提供方法训练的无人机可以依靠自身训练所得的经验，即使面对水下复杂的环境，也能够在面对障碍物时，采用避让、绕路等方式，顺利通过陌生水域。同时，利用本申请提供的训练方法，训练无人潜航器的水域越接近实战，越能使无人潜航器具备在实战环境下自动寻路的能力，从而顺利到达目标地点，完成所分配的任务。

Description

一种无人潜航器寻路训练方法、装置及无人潜航器

技术领域

本申请涉及无人潜航器技术领域，特别是涉及一种无人潜航器寻路训练方法、装置及无人潜航器。

背景技术

无人潜航器，是利用无线电遥控设备和自备的程序控制装置操纵的不载人飞机，是没有人驾驶、靠遥控或自动控制在水下航行的器具，主要指那些代替潜水员或载人小型潜艇进行深海探测、救生、排除水雷等高危险性水下作业的智能化***，在多个领域都能发挥重要作用。

其中，在军事领域，无人潜航器可以作为诱饵混淆敌方视听，也可以作为″侦察兵″深入敌方阵营执行目标侦察，还可以提前对指定目标区域进行提前侦察与反侦察，也可以对未知区域进行提前侦察和搜索，可以说，无人潜航器在军事上的应用，实现了在现代海域战争中，有效地扩大己方的侦察视野、了解敌方动向，便捷地为己方提供战场支援的战术目的。同时，美国的″黑鱼″无人潜航器还能实现在水下秘密布设鱼雷，更突出了水下潜航器在未来战争中的重要作用。

而在上述所描述的无人潜航器的作用中，都需要无人潜航器能够实现在复杂的水下环境下的精准定位与寻路。在当前技术中，通常无人潜航器在规划空间中快速寻找到由多个线段或多个路径点依次连接而成的最优路径的方法是采用传统经典算法，即对无人潜航器的环境进行精准建模，通过在已完成的环境建模中，使无人潜航器通过动态规划法、导数相关法、最优控制法在建模环境中模拟行驶，进而控制无人潜航器在实际水域中行驶。但是，随着无人潜航器应用场景的复杂化，例如在深海工作环境难以获取环境参数、在军事应用场景中没有时间获取环境参数、建模环境无法模拟实际场景中的突发情况等等情况，传统经典算法的预先精准建模难以满足实际应用场景需求，无人潜航器也就无法实现特定环境下的寻路工作。

针对上述问题，提出一种新的无人潜航器自动寻路的训练方法，用以解决上述问题。

发明内容

基于上述问题，本申请提供了一种无人潜航器寻路训练方法、装置及无人潜航器，能够实现对无人潜航器进行寻路训练，使得无人潜航器在经过训练之后拥有在陌生环境下自动训练的能力。本申请实施例具体公开了如下技术方案：

一种无人潜航器寻路训练方法，其特征在于，所述方法包括：

读取无人潜航器的执行决策；

根据所述执行决策控制所述无人潜航器执行寻路动作；

根据寻路动作结果对所述寻路动作中采取的执行决策进行评价；

根据对所述执行决策的评价，修改所述寻路动作中对所述执行决策的评分；

依据所述执行决策的评分对所述执行决策进行选择；

重复执行所述读取无人潜航器的执行决策以及后续步骤，直至所述无人潜航器行驶至训练终点，获取行驶路径；

重复执行所述读取无人潜航器的执行决策以及后续步骤，在每次获取行驶路径之后，根据对最新行驶路径的执行决策的评价对所述执行决策的评分进行修改，直到达到预设条件，完成所述无人潜航器寻路训练。

可选地，

所述读取无人潜航器的执行决策，具体包括：

在所述执行决策为空和/或所述执行决策的评分低于阈值，无法读取无人潜航器的执行决策时，随机读取一种其它动作指令作为所述无人潜航器的执行决策。

可选地，

所述根据寻路动作结果对所述寻路动作中采取的执行决策进行评价，具体包括：

寻路动作结果划分为激励动作结果、惩罚动作结果和平稳动作结果；

当所述寻路动作结果为激励动作结果，对所述寻路动作中采取的执行决策进行激励评价；

当所述寻路动作结果为惩罚动作结果，对所述寻路动作中采取的执行决策进行惩罚评价；

当所述寻路动作结果为平稳动作结果，对所述寻路动作中采取的执行决策进行平稳评价。

可选地，

所述根据对所述执行决策的评价，修改所述寻路动作中对所述执行决策的评分，具体包括：

当对所述执行决策的评价为所述激励评价时，增加所述寻路动作中对所述执行决策的评分；

当对所述执行决策的评价为所述惩罚评价时，减少所述寻路动作中对所述执行决策的评分；

当对所述执行决策的评价为所述平稳评价时，保持所述寻路动作中对所述执行决策的评分不变。

可选地，

所述预设条件，具体包括：

依据所述最新行驶路径所执行的执行决策对所述执行决策的评分进行修改，评分的变化值小于阈值，且当前所述执行决策令所述无人潜航器到达所述训练终点的消耗时间值在固定区间内波动。

可选地，

所述依据所述执行决策的评分选择所述执行决策，具体包括：

依据所述执行决策的评分，选择已有的执行策略项目，或选择重新生成新的执行策略项目，或选择对历史的执行策略内容进行调整的执行策略。

可选地，

在所述获取行驶路径之后，所述方法还包括：

根据在所述行驶路径中的全部所述执行动作，对本次行驶路径中的所述执行策略的评分和/或执行策略项目进行修改。

可选地，

所述方法还包括：

对任意所述执行决策和所述对执行决策的评价进行保存，所述保存的具体的所述执行决策和所述对执行决策的评价应用于对所述执行决策的评分的调整。

一种无人潜航器寻路训练装置，其特征在于，所述装置包括：

执行决策读取模块，用于读取无人潜航器的执行决策；

寻路动作控制模块，用于根据所述执行决策控制所述无人潜航器执行寻路动作；

执行决策评价模块，用于根据寻路动作结果对所述寻路动作中采取的执行决策进行评价；

执行决策评分模块，用于根据对所述执行决策的评价，修改所述寻路动作中对所述执行决策的评分；

执行决策选择模块，用于依据所述执行决策的评分选择所述执行决策；

单路执行决策更新模块，用于重复执行所述读取无人潜航器的执行决策以及后续步骤，直至所述无人潜航器行驶至训练终点，获取行驶路径；

多路执行策略更新模块，用于重复执行所述读取无人潜航器的执行决策以及后续步骤，在每次获取行驶路径之后，根据对最新行驶路径的执行决策的评价对所述执行决策的评分进行修改，直到达到预设条件，完成所述无人潜航器寻路训练。

一种无人潜航器，其特征在于，包括用于实现一种无人潜航器寻路训练方法的无人潜航器。

相较于现有技术，本申请所提供的技术方案使经过训练的无人潜航器具备自主寻路的能力。无人潜航器在陌生的环境中工作时，不需要经过建模对环境的指导以及远程通信连接的指挥才能执行任务，使无人潜航器摆脱了传统经典算法对无人潜航器的使用时的钳制。经过本申请提供的训练方法训练的无人潜航器，经过多场景、高次数的训练之后，具备了一定智能的自动寻路功能。即使在复杂的新环境中，也能依靠反复训练的经验，通过根据环境变化调整自身的运动状态，找到一条到达目标地点的最优途径。

本申请还提供了一种无人潜航器寻路训练装置、无人潜航器，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术任务来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为一种无人潜航器寻路训练方法的流程示意图；

图2为在判断节点选择执行策略的逻辑示意图；

图3为对执行决策评分进行修改的逻辑示意图；

图4为列举的一种地点与执行决策之间的对应关系示意图；

图5为由图4推导出的一种地点与执行决策之间的对应关系矩阵；

图6为与图5对应的一种初始矩阵；

图7为一种无人潜航器寻路训练装置示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术任务在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施方式及实施方式中的特征可以相互组合。

在当前所广泛应用的无人潜航器中，为了控制无人潜航器执行相应的水下任务，往往需要提前对无人潜航器执行水下任务的水下环境进行精准建模，并将完成的建模载入无人潜航器的***中，使无人潜航器利用搭载的建模实现的精准定位和寻路，或通过卫星实时与无人潜航器通信连接，利用远程遥控实现对无人潜航器的控制。但是采用上述的方法需要提前对无人潜航器的工作环境有充足的了解或无人潜航器工作的水域能够保证通讯的正常传输。如果在一些高时效要求的应用领域，比如在执行军事任务时，无人潜航器在陌生水域执行任务，既无法提前了解具体的水下地形环境，也无法保证所在水域能够支持远程通信的正常连接。因此，就需要无人潜航器在水下行动时，需要有一定的自主寻路能力，安全顺利到达目标地点后，执行相应的水下任务。

下面结合参考附图与实施方式来对本方案的发明进行详细说明。

图1为本申请实施例下的一种无人潜航器寻路训练方法的流程示意图，该方法用于训练无人潜航器的自主寻路的能力，经过本申请提供的方法进行训练的无人潜航器，能够具备在陌生环境下的自动寻路能力。所述一种无人潜航器寻路训练方法可以包括以下步骤：

步骤S101，读取无人潜航器的执行决策；

无人潜航器航行在训练环境中时，到达一定的判断节点时，需要自主判断自身的运动状态是否满足接下来的运动需求，是否需要切换运动状态，这一过程也就是一个自主决策的过程。

需要注意的是，自主决策是一种决策确定的过程，其主要目的是确定一种适合当前节点的可用执行决策。每一个执行决策项目代表每一个执行决策的决策整体本身。例如″直行″决策中，直行所代表的含义为执行决策，″直行″所占用表示的命令为执行决策项目。

如果认为当前无人潜航器的运动状态能够满足接下的运动需求，就会命令无人潜航器保持当前运动状态，也就是说潜航器作出了保持运动状态不变的执行决策；反之如果其认为当前无人潜航器的运动状态无法满足接下的运动需求，就会命令无人潜航器切换运动状态，也就是说潜航器作出了切换运动状态的执行决策。其中，选择执行决策的依据是通过对比执行决策项目间的评分，优先选择评分高的执行决策作为判断节点下选择的执行决策。

其中，针对如何令无人潜航器开始进行自主决策，可以有多种方式，例如针对固定时间间隔、固定的距离间隔、或者实际的水域图像、声音信息变化参数，都可以作为启动每一次自主决策的起始信号，在此不做赘述，所有可以控制无人潜航器启动自主决策的外界信号，都在本申请的保护范围内。

针对上述内容，举例来讲，无人潜航器在水域中直线行驶，到达某一个判断节点时，判断出如果继续直线行驶，可能会触碰障碍物，不满足无人潜航器安全行驶的运动需求，作出向左转弯90°的执行决策，″向左转弯90°″即为无人潜航器的执行决策。

在确定了无人潜航器的执行决策之后，读取所作出的执行决策的具体含义。

具体示例如图2所示，在判断节点S₁时，包括两个决策项目a₁、a₂，其中a₁的Q值评分为-2，a₂的Q值评分为1，则优先选择a₂作为此判断节点下的选择的执行决策，执行a₂代表的执行的决策，同理当到达判断节点S₂时，选择Q值评分较高的a₂执行决策。重复上述选择过程，依次一步步在各个判断节点选择执行决策。

在本申请的一种实施例1中，读取无人潜航器的执行决策，具体包括：在执行决策为空和/或执行决策的评分低于阈值，无法读取无人潜航器的执行决策时，随机读取一种其它动作指令作为无人潜航器的执行决策。

在本申请提出的寻路训练过程中，考虑到在无人潜航器执行寻路训练的初期，没有或者很少有寻路经验数据的情况。在这种情况下，现有的经验数据无法指导无人潜航器作出合适当前点位的执行决策。其中，执行决策为空代表完全没有确定当前点位执行决策的经验数据，执行决策的评分低于阈值代表虽然有应对当前点位的经验数据，但是根据经验数据确定历史选择的执行决策的评分较低，不建议继续执行历史执行决策。在此情况下，本实施例提出随机选择一种其它动作指令作为所述无人潜航器的执行决策进行读取。其中，其它动作指令代表不同于历史执行决策的执行决策。

步骤S102，根据执行决策控制无人潜航器执行寻路动作。

在读取到执行决策之后，根据执行决策所代表的运动指令，根据运动指令的内容控制无人潜航器执行寻路动作。

步骤S103，根据寻路动作结果对寻路动作中采取的执行决策进行评价。

在执行寻路动作后，会根据所执行的动作产生相应的动作结果，对所采取的执行决策进行评价。

需要注意的是，所产生的一个寻路动作结果可能与一个或多个执行的寻路动作相关，因此，根据每一个寻路动作结果对与所有与该动作结果相关的执行决策进行评价。

在本申请的一种实施例2中，公开了：

将寻路动作结果划分为激励动作结果、惩罚动作结果和平稳动作结果；

当寻路动作结果为激励动作结果，对寻路动作中采取的执行决策进行激励评价；

当寻路动作结果为惩罚动作结果，对寻路动作中采取的执行决策进行惩罚评价；

当寻路动作结果为平稳动作结果，对寻路动作中采取的执行决策进行平稳评价。

在本实施例中，将动作结果划分三种，分别为激励动作结果、惩罚动作结果和平稳动作结果，其中激励动作结果为有益于无人潜航器自动寻路的结果，例如，通过了某一障碍物；惩罚动作结果为在自动寻路过程中不要再次出现的动作结果，例如，无人潜航器撞墙动作；平稳动作结果为当前动作结果暂时没有或无法判断对于无人潜航器自动寻路训练的影响。

其中，针对如何触发对动作结果的开始判断，可以通过预设的相应的动作结果，并将结果动作归类为激励动作结果、惩罚动作结果和平稳动作结果，并根据相应类别的动作结果进行评价。

通过对动作结果进行划分，并对造成此动作结果进行评价。可以使无人潜航器″了解″什么动作结果不要再出现，什么动作结果鼓励继续出现，什么动作结果暂时可以继续出现。无人潜航器在了解具体的动作结果之后，就可以对产生结果的过程，即所选择的执行决策进行相应的调整。

步骤S104，根据对执行决策的评价，修改寻路动作中对执行决策的评分。

在每一个自主决策的过程中，是在多个可选择的执行决策中进行选择。而如何在多个执行决策选择一个作为当前执行决策，依靠的是在当前时间点下对执行决策的评分的比较，选择执行决策的评分最高的作为执行决策控制无人潜航器执行其所包含的寻路动作。

在本申请的一种实施例3中，具体公开一种针对执行决策的评价，修改评分的具体实施方式：

当对执行决策的评价为所述激励评价时，增加寻路动作中对执行决策的评分；

当对执行决策的评价为惩罚评价时，减少寻路动作中对执行决策的评分；

当对执行决策的评价为平稳评价时，保持寻路动作中对执行决策的评分不变。

当确定执行决策的评价为激励决策时，针对此节点下的决策进行加分处理；

当确定执行决策的评价为惩罚决策时，针对此节点下的决策进行减分处理；

当确定执行决策的评价为平稳决策时，针对此节点下的决策评分暂时不变。

针对上述的实施例，可以如图3所示，根据Q(s，a)_差距值＝r+γmaxaQ(s′，a′)公式所示，依靠S₁判断节点下的所选择的a₂执行决策，根据a₂执行决策动作结果的最大取值或贪婪算法，对a₂执行决策的Q值评分进行修改，其中r为执行a₂后的收益值，γ为折扣因子。

具体修改方式为：Q(s，a)_新←Q(s，a)_旧+α[r+γmax_aQ(s′，a′)-Q(s，a)]，其中新的Q值是通过修改评分前旧的Q值评分计算得到的。

步骤S105，依据执行决策的评分选择执行决策。

在不断对执行决策的评分进行修改之后，在面临自主决策的判断节点时，依据执行决策的评分选择修改后的执行决策。针对执行决策的选择，优先选择评分最高的执行决策项目。

在本申请的一种实施例4中，依据执行决策的评分选择执行决策，主要包括：依据执行决策的评分，选择已有的执行策略项目，或选择重新生成新的执行策略项目，或选择对历史的执行策略内容进行调整的执行策略。

选择执行决策的选择逻辑是依据执行决策评分高的进行选择，选择的具体过程主要包括：

1、读取依据执行决策的评分，选择已有的执行策略项目

包含多项执行决策，选择其中执行决策项目评分最高的作为所选的执行决策。

2、选择重新生成新的执行策略项目

在执行决策为空或较少时，随机命令无人潜航器执行某一方向的航行动作，作为所选的执行决策。

3、选择对历史的执行策略内容进行调整的执行策略

对历史已有的执行决策，在对执行决策内容进行调整之后，作为所选的执行决策，例如：已有执行决策左转90°方向转弯，将执行决策内容修改为，左转45°方向转弯行驶。

步骤106，重复执行读取无人潜航器的执行决策以及后续步骤，直至无人潜航器行驶至训练终点，获取行驶路径。

在训练过程中，循环执行步骤S101～S105步骤的内容，在执行上述步骤的过程中，通过不断调整执行决策切换无人潜航器自身的方向和动作，无人潜航器最终会到达训练终点。

在到达训练终点后，结束这一小周期的寻路训练，获取无人潜航在这一小周期内的行驶路径。

在本申请的一种实施例5中，提出根据本次获取的整体行驶路径的执行策略对本次行驶路径中的执行策略的评分和/或执行策略项目进行修改。

在本实施例中，提出对每次的整体行驶路径的执行策略进行一次整体的修改。修改的内容主要包括执行策略的评分和/或执行策略项目。

设立本实施例的方案主要在于，例如针对在一次寻路训练周期过程中，出现的无人潜航器因为选择的执行决策评分不当或执行决策项目不合适，出现了绕路的现象。在采用本实施例的方案之后，从整体的角度，对每一小周期的行驶路径进行分析，并根据分析结果对在行驶路径上出现的问题进行及时改正，使得在之后的训练过程中，避免再次出现同一问题，有效减少训练次数，节约训练资源。

步骤107，重复执行读取无人潜航器的执行决策以及后续步骤，在每次获取行驶路径之后，根据对最新行驶路径的执行决策的评价对执行决策的评分进行修改，直到达到预设条件，完成无人潜航器寻路训练。

循环执行步骤S101～S106步骤的内容，将每次小周期获取的无人潜航器的行驶路径进行对比分析，依据最新行驶路径中对执行决策的评价整体，对已有的执行决策的评分进行重新修改，使执行决策的评分更加贴合实战的可使用执行决策值。

在一种实施例6中，预设条件，具体包括：依据最新行驶路径所执行的执行决策对执行决策的评分进行修改的变化值小于阈值，且当前执行决策能够令无人潜航器到达训练终点的消耗时间值在固定区间内波动。

本实施提出的方案，判断当前无人潜航器的执行决策的选择逻辑已经适应当前训练场所的依据为：

1、依据最新行驶路径所执行的执行决策对执行决策的评分进行修改的变化值小于阈值。

在无人潜航器最新的寻路训练过程中，在寻路过程中所修正执行决策的评分的数值非常小，或者说执行决策的评分的数值不变。

2、无人潜航器到达训练终点的消耗时间值在固定区间内波动

依据当前的执行决策数值，能够在任一出发点，无人潜航器到达训练终点的时间没有太大变化，只是在固定区间内波动。

依据上述两点可以确认，无人潜航器通过在当前场景中的训练，已经可以依据选择自身的执行决策，实现无人潜航器的自主寻路功能。

另外，在本申请中，还提供了一种实施例7，对任意执行决策和对执行决策的评价进行保存，保存的具体的执行决策和对执行决策的评价应用于对执行决策的评分的调整。

在训练寻路的过程中，针对任意的执行决策和对执行决策的评价进行保存在决策池中进行保存。所保存的执行决策和对执行决策的评价作为训练过程中的学习样本全部保存在经验池中。

其中，学习样本将每一节点下执行决策项目和对执行决策项目的评价共同保存，同时可以满足依据一个动作结果调取所有相关的节点下的执行决策项目和对执行决策项目的评价。

本申请提供的一种无人潜航器寻路训练方法，以平面的图像示例，如图4所示，代表了1～6地点之间的可运动轨迹，1～6地点中任意两个直接相连地点间的箭头方向及正负数值，表示依据箭头方向执行决策的评分。根据图4，可以绘画出图5，图5代表了在地点1～6之间选择执行决策的评分，纵列中状态1～6代表所选择地点，横向中动作1～6代表所执行决策，即由选择地点出发，要到达的目标地点，矩阵箭头附近的数字代表由从出发点出发，到达目标地点的执行决策的评分(如果两点间没有可走的路径，则评分为-100)。有了这张矩阵，就可以找出最优的路径。

在此举例具体寻路过程，假设我们随机选中4开始出发，最终目标是到达6，此时可以选择的执行决策有1、5、6。随机选中执行决策6，此时在仿真环境中已经达到的最终点，因此测试结束，得到了90的评分(到达测试点，奖励30的评分)。然后，保留本次的记录。我们重新再随机抽中1出发，随机抽中动作4，因此得到110的回报。

而上述图3所示的执行决策的评分在刚开始训练时，是不存在的，需要依据在不断仿真测试中进行测试得到的。依据图6所示，图5所示的执行决策的评分在训练开始时是全零矩阵，在不断的训练中，根据不断摸索出执行策略和执行策略之间的评分，图6的全零矩阵逐渐生成图5的完整矩阵。

根据公式Q(s，a)＝r+γmaxQ(s′，a′)，对图4所示的矩阵数据进行修改，当学习率a＝1时，贪婪因子γ取0.8，此时取由地点4作为出发点，地点6作为最终点，Q(6，6)代表由6出发，到达6的评分。

Q(4，6)_new＝R(4，6)+0.8max{Q(6，4)，Q(6，5)，Q(6，6)}＝90+0.8*0＝90；

由此在仿真环境中不断迭代更新，最终矩阵的评分数值更新变化值小于阈值且无人潜航器到达训练终点的消耗时间值在固定区间内波动，从而依据最终矩阵找出最优的路径。

基于上述实施例公开的一种无人潜航器寻路训练方法，本申请还公开一种无人潜航器寻路训练装置，参考图7，该装置包括：

执行决策读取模块701，用于读取无人潜航器的执行决策；

寻路动作控制模块702，用于根据所述执行决策控制所述无人潜航器执行寻路动作；

执行决策评价模块703，用于根据寻路动作结果对所述寻路动作中采取的执行决策进行评价；

执行决策评分模块704，用于根据对所述执行决策的评价，修改所述寻路动作中对所述执行决策的评分；

执行决策选择模块705，用于依据所述执行决策的评分选择所述执行决策；

单路执行决策更新模块706，用于重复执行所述读取无人潜航器的执行决策以及后续步骤，直至所述无人潜航器行驶至训练终点，获取行驶路径；

多路执行策略更新模块707，用于重复执行所述读取无人潜航器的执行决策以及后续步骤，在每次获取行驶路径之后，根据对最新行驶路径的执行决策的评价对所述执行决策的评分进行修改，直到达到预设条件，完成所述无人潜航器寻路训练。

可选地，

执行决策读取模块701，还用于在所述执行决策为空和/或所述执行决策的评分低于阈值时，无法读取所述无人潜航器的执行决策时，随机读取一种其它动作指令作为所述无人潜航器的执行决策。

可选地，

所述动作结果划分为激励动作结果、惩罚动作结果和平稳动作结果；

执行决策评价模块703，具体用于：

当所述动作结果为激励动作结果，对所述寻路动作中采取的执行决策进行激励评价；

当所述动作结果为惩罚动作结果，对所述寻路动作中采取的执行决策进行惩罚评价；

当所述动作结果为平稳动作结果，对所述寻路动作中采取的执行决策进行平稳评价。

可选地，

执行决策评分模块704，具体用于：

可选地，所述预设条件，具体包括：，

依据所述最新行驶路径所执行的执行决策对所述执行决策的评分进行修改的变化值小于阈值，且当前所述执行决策能够令所述无人潜航器到达所述训练终点的消耗时间值在固定区间内波动。

可选地，

执行决策选择模块705，具体用于依据所述执行决策的评分，读取依据所述执行决策的评分，选择已有的执行策略项目，或选择重新生成新的执行策略项目，或选择对历史的执行策略内容进行调整的执行策略。

可选地，

所述装置，还包括

路径执行策略检验模块，用于根据本次获取的整体所述行驶路径的执行策略对本次行驶路径中的所述执行策略的评分和/或执行策略项目进行修改。

可选地，

所述装置，还包括

数据保存装置，用于对任意所述执行决策和所述对执行决策的评价进行保存，所述保存的具体的所述执行决策和所述对执行决策的评价应用于对所述执行决策的评分的调整。

一种无人潜航器，用于实现上述无人潜航器寻路训练方法的所有步骤。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种无人潜航器寻路训练方法、装置及无人潜航器进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种无人潜航器寻路训练方法，其特征在于，所述方法包括：

读取无人潜航器的执行决策；

根据所述执行决策控制所述无人潜航器执行寻路动作；

依据所述执行决策的评分选择所述执行决策；

2.根据权利要求1所述的方法，其特征在于，所述读取无人潜航器的执行决策，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述根据寻路动作结果对所述寻路动作中采取的执行决策进行评价，具体包括：

4.根据权利要求3所述的方法，其特征在于，所述根据对所述执行决策的评价，修改所述寻路动作中对所述执行决策的评分，具体包括：

5.根据权利要求1所述的方法，其特征在于，所述预设条件，具体包括：

6.根据权利要求1所述的方法，其特征在于，所述依据所述执行决策的评分选择所述执行决策，具体包括：

7.根据权利要求1所述的方法，其特征在于，在所述获取行驶路径之后，所述方法还包括：

8.根据权利要求1～7任一项权利要求所述的方法，其特征在于，所述方法还包括：

9.一种无人潜航器寻路训练装置，其特征在于，所述装置包括：

执行决策读取模块，用于读取无人潜航器的执行决策；

10.一种无人潜航器，其特征在于，包括用于实现如权利要求1～8任一项所述的一种无人潜航器寻路训练方法的无人潜航器。