CN112766329B

CN112766329B - 一种多无人艇协同拦截控制方法及***

Info

Publication number: CN112766329B
Application number: CN202110012035.7A
Authority: CN
Inventors: 蒲华燕; 刘源; 罗均; 谢志江; 谢佳佳; 李小毛; 苏洲; 彭艳; 李恒宇; 谢少荣
Original assignee: Chongqing University; University of Shanghai for Science and Technology
Current assignee: Chongqing University; University of Shanghai for Science and Technology
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2022-03-22
Anticipated expiration: 2041-01-06
Also published as: CN112766329A; US11887485B2; US20220215758A1

Abstract

本发明公开了一种多无人艇协同拦截控制方法及***，涉及海洋智能无人艇协同作业领域，该方法包括获取当前时刻无人艇团队内每个无人艇的任务环境信息；根据当前时刻所有无人艇的任务环境信息，采用卡尔曼滤波器，估计当前时刻入侵目标的拦截点信息；确定当前时刻每个无人艇的过程状态信息；将当前时刻每个无人艇的过程状态信息分别输入至相应的入侵目标拦截策略输出模型以获取下一时刻每个无人艇的执行动作，进而对入侵目标进行拦截。本发明能够对应入侵目标进行精准拦截。

Description

一种多无人艇协同拦截控制方法及***

技术领域

本发明涉及海洋智能无人艇协同作业领域，特别是涉及一种多无人艇协同拦截控制方法及***。

背景技术

由于无人艇具有体积小、机动性强、成本低、安全性高以及对传统船舶无伤亡等优点，所以无人艇在执行各种海上任务方面引起了广泛关注，其中，海上护航已成为无人艇应用场景之一。

虽然，无人艇团队(多个无人艇组成的***)可以大大扩展海上行动的范围，并且可以完成复杂的任务，但是目前在海上护航时，通常仅用单个无人艇进行协作护航。因此，急需一种控制方法以实现无人艇团队进行协作护航。

发明内容

本发明的目的是提供一种多无人艇协同拦截控制方法及***，能够对应入侵目标进行精准拦截。

为实现上述目的，本发明提供了如下方案：

一种多无人艇协同拦截控制方法，包括：

获取当前时刻无人艇团队内每个无人艇的任务环境信息；所述任务环境信息包括无人艇位置信息、无人艇速度信息、无人艇与入侵目标的相对位置信息、以及无人艇与入侵目标的相对速度信息；一个所述无人艇对应一个入侵目标拦截策略输出模型；所述入侵目标拦截策略输出模型是根据训练样本和多主体深度确定性策略梯度网络结构训练得到的；

根据当前时刻所有所述无人艇的任务环境信息，采用卡尔曼滤波器，估计当前时刻所述入侵目标的拦截点信息；所述拦截点信息包括入侵目标预测位置和入侵目标预测速度；

确定当前时刻每个所述无人艇的过程状态信息；所述过程状态信息包括无人艇位置信息、无人艇速度信息以及入侵目标拦截点信息；

将当前时刻每个所述无人艇的过程状态信息分别输入至相应的所述入侵目标拦截策略输出模型以获取下一时刻每个所述无人艇的执行动作，并将所述执行动作发送至相应的所述无人艇的执行结构以对所述入侵目标进行拦截。

可选的，在执行获取当前时刻无人艇团队内每个无人艇的任务环境信息之前，还包括：

判断当前时刻所述无人艇团队对应的航行区域内是否存在入侵目标；

若否，则判断下一时刻所述无人艇团队对应的航行区域内是否存在入侵目标；

若是，则获取当前时刻无人艇团队内每个无人艇的任务环境信息。

可选的，所述根据当前时刻所有所述无人艇的任务环境信息，采用卡尔曼滤波器，估计当前时刻所述入侵目标的拦截点信息，具体包括：

根据上一时刻入侵目标的拦截点信息，采用卡尔曼滤波器，确定当前时刻入侵目标的预测拦截点信息；

将所有无人艇抽象为在二维平面上移动的粒子，然后根据当前时刻所有所述无人艇的任务环境信息，确定所述入侵目标在笛卡尔坐标系下的位置测量值和速度测量值；

根据所述位置测量值和所述速度测量值，采用卡尔曼滤波器，对所述当前时刻入侵目标的预测拦截点信息进行修正，以确定当前时刻所述入侵目标的拦截点信息。

可选的，所述入侵目标拦截策略输出模型的构建过程为：

确定第i个无人艇的训练样本；所述训练样本为具有时间连续性的数据集；所述数据集包括多个样本集合；每个所述样本集合包括多个元素，分别为当前时刻过程状态信息，当前时刻执行动作，当前时刻奖励以及下一时刻过程状态信息；

构建多主体深度确定性策略梯度网络结构；

将所述第i个无人艇的训练样本输入到所述多主体深度确定性策略梯度网络结构中以对所述多主体深度确定性策略梯度网络结构进行训练，进而得到第i个无人艇对应的入侵目标拦截策略输出模型，进而得到每个无人艇对应的入侵目标拦截策略输出模型。

可选的，所述确定第i个无人艇的训练样本，具体包括：

获取第t时刻无人艇团队内每个无人艇的任务环境信息；

根据第t时刻所有所述无人艇的任务环境信息，采用卡尔曼滤波器，估计第t时刻所述入侵目标的拦截点信息；所述拦截点信息包括入侵目标预测位置和入侵目标预测速度；

根据第t时刻第i个无人艇的任务环境信息和第t时刻所述入侵目标的拦截点信息，确定第t时刻第i个无人艇的过程状态信息；

获取第t时刻第i个无人艇的执行动作；

根据公式

计算第t时刻第i个无人艇的奖励；其中，r₁是第t时刻第i个无人艇的奖励，u_i是第i个无人艇，b_j是第j个入侵目标，

是在第t时刻下第j个入侵目标和第i个无人艇的距离，

是在第t+1时刻下第j个入侵目标和第i个无人艇的距离；

获取第t+1时刻无人艇团队内每个无人艇的任务环境信息；

根据第t+1时刻所有所述无人艇的任务环境信息，采用卡尔曼滤波器，估计第t+1时刻所述入侵目标的拦截点信息；所述拦截点信息包括入侵目标预测位置和入侵目标预测速度；

根据第t+1时刻第i个无人艇的任务环境信息和第t+1时刻所述入侵目标的拦截点信息，确定第t+1时刻第i个无人艇的过程状态信息；

将所述第t时刻第i个无人艇的过程状态信息、所述第t时刻第i个无人艇的执行动作、所述第t时刻第i个无人艇的奖励和所述第t+1时刻第i个无人艇的过程状态信息合并为第t时刻第i个无人艇的样本集合；

将所述第t时刻样本第i个无人艇的样本集合存储在经验池内；

当存储在所述经验池内数据达到设定数量后停止存储；停止存储后的所述经验池内的数据为第i个无人艇的训练样本。

一种多无人艇协同拦截控制***，包括：

当前时刻任务环境信息获取模块，用于获取当前时刻无人艇团队内每个无人艇的任务环境信息；所述任务环境信息包括无人艇位置信息、无人艇速度信息、无人艇与入侵目标的相对位置信息、以及无人艇与入侵目标的相对速度信息；一个所述无人艇对应一个入侵目标拦截策略输出模型；所述入侵目标拦截策略输出模型是根据训练样本和多主体深度确定性策略梯度网络结构训练得到的；

当前时刻拦截点信息估计模块，用于根据当前时刻所有所述无人艇的任务环境信息，采用卡尔曼滤波器，估计当前时刻所述入侵目标的拦截点信息；所述拦截点信息包括入侵目标预测位置和入侵目标预测速度；

当前时刻过程状态信息确定模块，用于确定当前时刻每个所述无人艇的过程状态信息；所述过程状态信息包括无人艇位置信息、无人艇速度信息以及入侵目标拦截点信息；

入侵目标拦截模块，用于将当前时刻每个所述无人艇的过程状态信息分别输入至相应的所述入侵目标拦截策略输出模型以获取下一时刻每个所述无人艇的执行动作，并将所述执行动作发送至相应的所述无人艇的执行结构以对所述入侵目标进行拦截。

可选的，还包括：

当前时刻判断模块，用于判断当前时刻所述无人艇团队对应的航行区域内是否存在入侵目标；

下一时刻判断模块，用于当当前时刻所述无人艇团队对应的航行区域内不存在入侵目标时，判断下一时刻所述无人艇团队对应的航行区域内是否存在入侵目标；

跳入模块，用于当当前时刻所述无人艇团队对应的航行区域内存在入侵目标时，进入当前时刻任务环境信息获取模块。

可选的，所述当前时刻拦截点信息估计模块，具体包括：

当前时刻预测拦截点信息确定单元，用于根据上一时刻入侵目标的拦截点信息，采用卡尔曼滤波器，确定当前时刻入侵目标的预测拦截点信息；

当前时刻测量值确定单元，用于将所有无人艇抽象为在二维平面上移动的粒子，然后根据当前时刻所有所述无人艇的任务环境信息，确定所述入侵目标在笛卡尔坐标系下的位置测量值和速度测量值；

当前时刻拦截点信息估计单元，用于根据所述位置测量值和所述速度测量值，采用卡尔曼滤波器，对所述当前时刻入侵目标的预测拦截点信息进行修正，以确定当前时刻所述入侵目标的拦截点信息。

可选的，还包括：入侵目标拦截策略输出模型构建模块；所述入侵目标拦截策略输出模型构建模块包括：

训练样本确定单元，用于确定第i个无人艇的训练样本；所述训练样本为具有时间连续性的数据集；所述数据集包括多个样本集合；每个所述样本集合包括多个元素，分别为当前时刻过程状态信息，当前时刻执行动作，当前时刻奖励以及下一时刻过程状态信息；

网络结构构建单元，用于构建多主体深度确定性策略梯度网络结构；

入侵目标拦截策略输出模型构建单元，用于将所述第i个无人艇的训练样本输入到所述多主体深度确定性策略梯度网络结构中以对所述多主体深度确定性策略梯度网络结构进行训练，进而得到第i个无人艇对应的入侵目标拦截策略输出模型，进而得到每个无人艇对应的入侵目标拦截策略输出模型。

可选的，所述训练样本确定单元，具体包括：

第t时刻任务环境信息获取子单元，用于获取第t时刻无人艇团队内每个无人艇的任务环境信息；

第t时刻拦截点信息估计子单元，用于根据第t时刻所有所述无人艇的任务环境信息，采用卡尔曼滤波器，估计第t时刻所述入侵目标的拦截点信息；所述拦截点信息包括入侵目标预测位置和入侵目标预测速度；

第t时刻过程状态信息确定子单元，用于根据第t时刻第i个无人艇的任务环境信息和第t时刻所述入侵目标的拦截点信息，确定第t时刻第i个无人艇的过程状态信息；

第t时刻执行动作获取子单元，用于获取第t时刻第i个无人艇的执行动作；

第t时刻奖励获取子单元，用于根据公式

是在第t时刻下第j个入侵目标和第i个无人艇的距离，

是在第t+1时刻下第j个入侵目标和第i个无人艇的距离；

第t+1时刻任务环境信息获取子单元，用于获取第t+1时刻无人艇团队内每个无人艇的任务环境信息；

第t+1时刻拦截点信息估计子单元，用于根据第t+1时刻所有所述无人艇的任务环境信息，采用卡尔曼滤波器，估计第t+1时刻所述入侵目标的拦截点信息；所述拦截点信息包括入侵目标预测位置和入侵目标预测速度；

第t+1时刻过程状态信息确定子单元，用于根据第t+1时刻第i个无人艇的任务环境信息和第t+1时刻所述入侵目标的拦截点信息，确定第t+1时刻第i个无人艇的过程状态信息；

第t时刻样本集合确定子单元，用于将所述第t时刻第i个无人艇的过程状态信息、所述第t时刻第i个无人艇的执行动作、所述第t时刻第i个无人艇的奖励和所述第t+1时刻第i个无人艇的过程状态信息合并为第t时刻第i个无人艇的样本集合；

存储单元，用于将所述第t时刻样本第i个无人艇的样本集合存储在经验池内；

训练样本确定子单元，用于当存储在所述经验池内数据达到设定数量后停止存储；停止存储后的所述经验池内的数据为第i个无人艇的训练样本。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明通过卡尔曼滤波器和多主体深度确定性策略梯度算法来实现多无人艇协同精准拦截入侵目标的技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明多无人艇协同拦截控制方法的流程示意图；

图2为本发明多无人艇协同拦截控制***的结构示意图；

图3为本发明卡尔曼滤波器工作过程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种多无人艇协同拦截控制方法及***，旨在解决现有无人艇拦截任务中，拦截成功率不高、任务分配不明确等问题，本发明充分发挥无人艇团队在海上护航任务中的优势与特点。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提供了一种多无人艇协同拦截控制方法及***，在具有其他船只和障碍物的复杂海上环境中，通对敌对的入侵船只进行拦截，护送一艘高价船(例如母船)航行。

实施例一

本实施例提供了一种多无人艇协同拦截控制方法，可以使无人艇团队内所有无人艇合作并进行任务分配，从而使无人艇团队内的每个无人艇都能最大化的发挥性能。

如图1所示，本实施例提供的一种多无人艇协同拦截控制方法，包括以下步骤。

步骤101：获取当前时刻无人艇团队内每个无人艇的任务环境信息；所述任务环境信息包括无人艇位置信息、无人艇速度信息、无人艇与入侵目标的相对位置信息、以及无人艇与入侵目标的相对速度信息；一个所述无人艇对应一个入侵目标拦截策略输出模型；所述入侵目标拦截策略输出模型是根据训练样本和多主体深度确定性策略梯度网络结构训练得到的。

步骤102：根据当前时刻所有所述无人艇的任务环境信息，采用卡尔曼滤波器，估计当前时刻所述入侵目标的拦截点信息；所述拦截点信息包括入侵目标预测位置和入侵目标预测速度。

步骤103：确定当前时刻每个所述无人艇的过程状态信息；所述过程状态信息包括无人艇位置信息、无人艇速度信息以及入侵目标拦截点信息。

步骤104：将当前时刻每个所述无人艇的过程状态信息分别输入至相应的所述入侵目标拦截策略输出模型以获取下一时刻每个所述无人艇的执行动作，并将所述执行动作发送至相应的所述无人艇的执行结构以对所述入侵目标进行拦截。

作为一种优选的具体实施方式，本实施例在执行步骤101之前还包括：

判断当前时刻所述无人艇团队对应的航行区域内是否存在入侵目标；若否，则判断下一时刻所述无人艇团队对应的航行区域内是否存在入侵目标；若是，则执行步骤101。

作为一种优选的具体实施方式，本实施例所述的步骤102，具体包括：

根据上一时刻入侵目标的拦截点信息，采用卡尔曼滤波器，确定当前时刻入侵目标的预测拦截点信息。

将所有无人艇抽象为在二维平面上移动的粒子，然后根据当前时刻所有所述无人艇的任务环境信息，确定所述入侵目标在笛卡尔坐标系下的位置测量值和速度测量值。

作为一种优选的具体实施方式，本实施例所述的入侵目标拦截策略输出模型的构建过程为：

确定第i个无人艇的训练样本；所述训练样本为具有时间连续性的数据集；所述数据集包括多个样本集合；每个所述样本集合包括多个元素，分别为当前时刻过程状态信息，当前时刻执行动作，当前时刻奖励以及下一时刻过程状态信息。

构建多主体深度确定性策略梯度网络结构。

其中，确定第i个无人艇的训练样本，具体包括：

获取第t时刻无人艇团队内每个无人艇的任务环境信息。

根据第t时刻所有所述无人艇的任务环境信息，采用卡尔曼滤波器，估计第t时刻所述入侵目标的拦截点信息；所述拦截点信息包括入侵目标预测位置和入侵目标预测速度。

根据第t时刻第i个无人艇的任务环境信息和第t时刻所述入侵目标的拦截点信息，确定第t时刻第i个无人艇的过程状态信息。

获取第t时刻第i个无人艇的执行动作。

根据公式

是在第t时刻下第j个入侵目标和第i个无人艇的距离，

是在第t+1时刻下第j个入侵目标和第i个无人艇的距离。

获取第t+1时刻无人艇团队内每个无人艇的任务环境信息。

根据第t+1时刻所有所述无人艇的任务环境信息，采用卡尔曼滤波器，估计第t+1时刻所述入侵目标的拦截点信息；所述拦截点信息包括入侵目标预测位置和入侵目标预测速度。

根据第t+1时刻第i个无人艇的任务环境信息和第t+1时刻所述入侵目标的拦截点信息，确定第t+1时刻第i个无人艇的过程状态信息。

将所述第t时刻第i个无人艇的过程状态信息、所述第t时刻第i个无人艇的执行动作、所述第t时刻第i个无人艇的奖励和所述第t+1时刻第i个无人艇的过程状态信息合并为第t时刻第i个无人艇的样本集合。

将所述第t时刻样本第i个无人艇的样本集合存储在经验池内。

实施例二

如图2所示，本实施例提供的一种多无人艇协同拦截控制***，包括：

当前时刻任务环境信息获取模块201，用于获取当前时刻无人艇团队内每个无人艇的任务环境信息；所述任务环境信息包括无人艇位置信息、无人艇速度信息、无人艇与入侵目标的相对位置信息、以及无人艇与入侵目标的相对速度信息；一个所述无人艇对应一个入侵目标拦截策略输出模型；所述入侵目标拦截策略输出模型是根据训练样本和多主体深度确定性策略梯度网络结构训练得到的。

当前时刻拦截点信息估计模块202，用于根据当前时刻所有所述无人艇的任务环境信息，采用卡尔曼滤波器，估计当前时刻所述入侵目标的拦截点信息；所述拦截点信息包括入侵目标预测位置和入侵目标预测速度。

当前时刻过程状态信息确定模块203，用于确定当前时刻每个所述无人艇的过程状态信息；所述过程状态信息包括无人艇位置信息、无人艇速度信息以及入侵目标拦截点信息。

入侵目标拦截模块204，用于将当前时刻每个所述无人艇的过程状态信息分别输入至相应的所述入侵目标拦截策略输出模型以获取下一时刻每个所述无人艇的执行动作，并将所述执行动作发送至相应的所述无人艇的执行结构以对所述入侵目标进行拦截。

作为一种优选的具体实施方式，本实施例提供的一种多无人艇协同拦截控制***还包括：

当前时刻判断模块，用于判断当前时刻所述无人艇团队对应的航行区域内是否存在入侵目标。

下一时刻判断模块，用于当当前时刻所述无人艇团队对应的航行区域内不存在入侵目标时，判断下一时刻所述无人艇团队对应的航行区域内是否存在入侵目标。

作为一种优选的具体实施方式，本实施例所述的当前时刻拦截点信息估计模块202，具体包括：

当前时刻预测拦截点信息确定单元，用于根据上一时刻入侵目标的拦截点信息，采用卡尔曼滤波器，确定当前时刻入侵目标的预测拦截点信息。

当前时刻测量值确定单元，用于将所有无人艇抽象为在二维平面上移动的粒子，然后根据当前时刻所有所述无人艇的任务环境信息，确定所述入侵目标在笛卡尔坐标系下的位置测量值和速度测量值。

作为一种优选的具体实施方式，本实施例提供的一种多无人艇协同拦截控制***还包括：入侵目标拦截策略输出模型构建模块；所述入侵目标拦截策略输出模型构建模块包括：

训练样本确定单元，用于确定第i个无人艇的训练样本；所述训练样本为具有时间连续性的数据集；所述数据集包括多个样本集合；每个所述样本集合包括多个元素，分别为当前时刻过程状态信息，当前时刻执行动作，当前时刻奖励以及下一时刻过程状态信息。

网络结构构建单元，用于构建多主体深度确定性策略梯度网络结构。

其中，所述训练样本确定单元，具体包括：

第t时刻任务环境信息获取子单元，用于获取第t时刻无人艇团队内每个无人艇的任务环境信息。

第t时刻拦截点信息估计子单元，用于根据第t时刻所有所述无人艇的任务环境信息，采用卡尔曼滤波器，估计第t时刻所述入侵目标的拦截点信息；所述拦截点信息包括入侵目标预测位置和入侵目标预测速度。

第t时刻过程状态信息确定子单元，用于根据第t时刻第i个无人艇的任务环境信息和第t时刻所述入侵目标的拦截点信息，确定第t时刻第i个无人艇的过程状态信息。

第t时刻奖励获取子单元，用于根据公式

是在第t时刻下第j个入侵目标和第i个无人艇的距离，

是在第t+1时刻下第j个入侵目标和第i个无人艇的距离。

第t+1时刻任务环境信息获取子单元，用于获取第t+1时刻无人艇团队内每个无人艇的任务环境信息。

第t+1时刻拦截点信息估计子单元，用于根据第t+1时刻所有所述无人艇的任务环境信息，采用卡尔曼滤波器，估计第t+1时刻所述入侵目标的拦截点信息；所述拦截点信息包括入侵目标预测位置和入侵目标预测速度。

第t+1时刻过程状态信息确定子单元，用于根据第t+1时刻第i个无人艇的任务环境信息和第t+1时刻所述入侵目标的拦截点信息，确定第t+1时刻第i个无人艇的过程状态信息。

第t时刻样本集合确定子单元，用于将所述第t时刻第i个无人艇的过程状态信息、所述第t时刻第i个无人艇的执行动作、所述第t时刻第i个无人艇的奖励和所述第t+1时刻第i个无人艇的过程状态信息合并为第t时刻第i个无人艇的样本集合。

存储单元，用于将所述第t时刻样本第i个无人艇的样本集合存储在经验池内。

实施例三

本实施例提供的多无人艇协同拦截控制方法采用了分布式训练、集中式学习的方式，无人艇团队内的无人艇通过信息共享、信息学习得到拦截入侵目标保护高价值船舶的策略。具体为：首先确定入侵目标拦截点信息，然后根据入侵目标拦截点信息利用强化学习方法学习到相应的拦截策略，以实现入侵目标拦截。

本实施例提供的多无人艇协同拦截控制方法主要包括两部分，一部分是入侵目标拦截点信息的确定，另一部分是拦截策略的学习。

1、入侵目标拦截点信息的确定

将所有无人艇抽象为在二维平面上移动的粒子，根据每个无人艇所搭载的传感器采集到的任务环境信息(各个无人艇的位置信息、速度信息、是否探测到入侵目标以及无人艇与入侵目标的相对速度信息、无人艇与入侵目标的相对位置信息)以及各个无人艇之间通过任务环境信息共享方式，确定入侵目标在笛卡尔坐标系下的位置测量值和速度测量值，然后利用卡尔曼滤波器来预测入侵目标拦截点信息。

入侵目标拦截点信息的预测，主要有时间更新步骤和测量更新步骤。前者作为预测方程，如图3左半部分所示，可以及时预测入侵目标拦截点信息，后者是度量方程，通过当时获得的测量值来对预测的入侵目标拦截点信息进行修正，如图3右半部分所示。

卡尔曼滤波器方程式包括初始状态值

过程状态值x_k，过程状态预测值

卡尔曼增益K_k，转换矩阵A，测量矩阵H，过程噪声协方差Q，测量噪声协方差R，初始误差协方差P₀，误差协方差P_k。

本实施例将无人艇抽象为在二维平面上移动的粒子。在此阶段，无人艇通过图3中的卡尔曼滤波器的更新方程式估算每个入侵目标b_j的过程状态信息即拦截点信息

其中

和

分别是入侵目标预测位置和入侵目标预测速度。

2.拦截策略的学习

本实施例利用多主体深度确定性策略梯度算法(MADDPG)来训练无人艇团队学习到相应的拦截策略。

以某一个无人艇为例，本实施例将训练过程中的一个训练单元定义为<S，A，R，S_next>，S代表一个无人艇的过程状态值，该过程状态值包含无人艇的速度和位置，以及入侵目标拦截点信息。A代表该无人艇的动作集合，R是该无人艇采取相应的动作后所获得的奖励，S_next代表采取动作后该无人艇的过程更新状态值。

在训练开始阶段，在每个时间步长上，该无人艇使用随机策略来选择一个动作A，并根据相应的奖励函数获得奖励r₁，然后获取该无人艇下一个状态S_next，接着将得到的训练单元<S，A，R，S_next>依次存储到经验池中。当经验池中的数据达到一定数量时随机抽取经验池中的数据对MADDPG网络结构进行训练，训练的目标是使该无人艇的奖励最大化，进而得到该无人艇对应的入侵目标拦截策略输出模型。该无人艇对应的入侵目标拦截策略输出模型会根据过程状态值S反馈给该无人艇相应的动作值A，也就是相应的协同拦截策略。

MADDPG算法具有演示和评价架构，可以根据状态值给无人艇输出相应的动作，也能根据输出的动作所获得奖励不断地修正网络参数使训练过程更加精确。

为了得到最优拦截策略，本实施例设计了相应的奖励函数，这些奖励函数可以确保无人艇在与MADDPG网络结构交互时获得合适的奖励，最终学习到能使自身获得最大奖励值的拦截策略，也就是需要的最佳拦截策略，奖励函数如下所示：

在设定的任务背景下，无人艇团队内的所有无人艇都可以将守卫目标(高价值船舶)和入侵目标放在相对的两侧位置，此时奖励函数为：

其中，u_i是无人艇，b_j是入侵目标，

是在t时刻下入侵目标和无人艇的距离，

是在t+1时刻下入侵目标和无人艇之间的距离。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。