CN115309041A

CN115309041A - 一种无人艇集群运行信息智能同步方法及***

Info

Publication number: CN115309041A
Application number: CN202210628745.7A
Authority: CN
Inventors: 韩玮; 王千一; 曾江峰; 谢杨柳; 张馗; 陈骁; 陈卓; 郭晓晔; 马向峰; 梁旭; 王伟; 董钉; 胥凤驰; 李哲; 骆福宇; 王一帆; 刘如磊; 王子帅; 宋胜男; 吴与伦
Original assignee: China Shipbuilding Corp System Engineering Research Institute
Current assignee: China Shipbuilding Corp System Engineering Research Institute
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2022-11-08

Abstract

本发明涉及一种无人艇集群运行信息智能同步方法及***，所述方法包括：建立无人艇集群的多智能体MDP离散时间模型；根据所述多智能体MDP离散时间模型，确定最优动作策略；按照所述最优动作策略，对多智能体进行一致性控制。最终构建的无人艇集群运行信息智能同步***以实现集群的协同控制为构建目的，实现对无人艇集群的一致性控制，最终实现无人艇集群中无人艇之间的数据资源共享，有利于最大程度发挥无人艇集群执行群体任务的能力和优势。

Description

一种无人艇集群运行信息智能同步方法及***

技术领域

本发明涉及无人艇技术领域，具体涉及一种无人艇集群运行信息智能同步方法及***。

背景技术

随着无人艇应用场景的不断扩大和执行任务的复杂化，单艘无人艇执行任务已经很难满足任务需求，而往往需要无人艇集群出动，协同完成出航任务。这就需要将无人艇控制***推广到多无人艇集群。

目前，无人艇集群控制大多采用预定程序控制或集中式的地面控制，这种场景中无人艇集群的群体优势就无法完全发挥。而构建无人艇集群则是对其控制***的高阶功能需求，是当前大环境和主流研究趋势下，无人艇应当具备的高级特性，即无人艇控制***不仅可以完成单独行动任务，也应当可以随时与其他无人艇个体交互信息，进而构成无人艇任务集群。因此，就要求无人艇控制***能够对集群构建和多艇协作提供技术支撑和理论支持，使得无人艇集群信息共享和协同执行任务成为可能。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种无人艇集群运行信息智能同步方法及***，本发明能够满足在无人艇集群中无人艇之间的数据资源共享，有利于最大程度发挥无人艇集群执行群体任务的能力和优势，同时也可以为无人艇集群体系提供了群体控制和数据共享的技术基础。

为实现以上目的，本发明采用如下技术方案：一种无人艇集群运行信息智能同步方法，包括：

建立无人艇集群的多智能体MDP离散时间模型；

根据所述多智能体MDP离散时间模型，确定最优动作策略；

按照所述最优动作策略，对多智能体进行一致性控制。

可选的，所述根据所述多智能体MDP离散时间模型，确定最优动作策略，包括：

采用结合势博弈理论的CQL算法，以智能体获取联合回报期望的最大值作为目标，自主学习迭代动作价值函数，以得到收敛的Q表，Q表为最优动作策略。

可选的，所述建立无人艇集群的多智能体MDP离散时间模型，包括：

智能体与环境交互，根据从环境中受到的奖罚来学习规则，以概率转移函数表示交互结果，并通过回报函数表示奖惩；

集群中的智能体组通过尝试各种动作来最大化所有智能体的回报函数的期望值之和，价值函数为：

式(1)中，

为智能体i在离散时间中未来j步的奖励；β为折扣因子；π为智能体的策略，表示基于状态S所选择的动作a；n为集群中智能体个体总数；

如果一组智能体采用联合策略π₁,π₂,π₃...π_n，那么动作价值函数Q函数的迭代公式定义为：

式(2)中，s′为后一时刻状态；a′为后一时刻状态下智能体所选择的动作。

可选的，集群中的智能体组通过尝试各种动作来最大化所有智能体的回报函数的期望值之和，迭代寻找满足多智能体的Q值收敛的期望均衡点。

可选的，当为多智能体的Q值收敛的期望均衡点时，对应的该组策略是最佳策略，对于智能体i在任意状态s下获得的收敛的Q值表示为：

将满足对于其他智能体的Q值同样收敛的条件

可选的，所述迭代寻找满足多智能体的Q值收敛的期望均衡点，包括：

在CQL算法中应用势博弈理论的方法，将每个智能体不同策略下Q值的改变视为个体效用函数，并将它们映射到一个全局势函数上，使个体效用函数与全局势函数的单调性一致；

当势函数取得最大值时，所有智能体都达到了各自效用的最大值，得到满足多智能体的Q值收敛的期望均衡点。

可选的，所述迭代寻找满足多智能体的Q值收敛的期望均衡点，具体包括：

在拥有n个智能体集合p的一致问题中，每个智能体p_i∈p同样拥有状态集S_i及对应的动作集A_i，那么其一致性个体效用函数U_i(S,A)通过学习过程中的Q函数定义为：

对应的全局一致性势函数表示为：

若智能体p_i在同一状态下选择动作

而不是动作

其目标函数的变化满足了势博弈的单调性要求；

Q值的迭代公式中策略π对应的智能体i的动作，需要满足个体效用函数U_i(S,A)与全局势函数φ(S,A)最大的条件，该条件为：

在每次Q值迭代过程中，智能体i只须获取其他智能体的Q表，根据自己的状态S_t计算个体效用函数值，并选择对应最大值的动作a_t作为输出执行，进入下一次迭代，这样最终获得的Q值收敛值能够使所有智能体Q值的和最大。

可选的，每个无人艇视为智能个体节点在本地维护一张存储Q值信息与群体信息的电子信息表，所述电子信息表中记录有本地任务定义的各信息元素项；

每个智能个体节点不需要获取全局信息，并且每个信息元素项强度也随着时间逐渐减弱；

当智能个体节点本地传感器感知到某信息元素项的触发状态时，或者一跳范围内的邻居节点发出某信息元素项信号时，该智能个体节点本地会强化该信息元素项的强度，并且按照该信息元素项调节本地节点行为。

本发明还提供了一种无人艇集群运行信息智能同步***，包括：

模型建立模块，用于建立无人艇集群的多智能体MDP离散时间模型；

确定模块，用于根据所述多智能体MDP离散时间模型，确定最优动作策略；

控制模块，用于按照所述最优动作策略，对多智能体进行一致性控制。

此外，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前面任一项所述的无人艇集群运行信息智能同步方法。

本发明采用以上技术方案，按照联合行为策略中不同的类型，如无人艇的航速、航向等，划分相应的智能体区块进行分布式控制。最终构建的无人艇集群运行信息智能同步***以实现集群的协同控制为构建目的，实现对无人艇集群的一致性控制。所述一致性的内涵是无人艇控制***中所有的智能体可以通过某些控制规则智能地相互传递以达到信息同步共享，随着时间的推移，智能体的各种状态值可以逐渐变得一致，最终实现无人艇集群中无人艇之间的数据资源共享，该发明有利于最大程度发挥无人艇集群执行群体任务的能力和优势。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一种无人艇集群运行信息智能同步方法一个实施例提供的流程示意图；

图2是无人艇的运动学模型；

图3是多智能体MDP离散时间模型的示意图；

图4是CQL算法的处理流程示意图；

图5是本发明一种无人艇集群运行信息智能同步***一个实施例提供的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

图1是本发明一种无人艇集群运行信息智能同步方法一个实施例提供的流程示意图。

如图1所示，本实施例所述的方法包括：

S11：建立无人艇集群的多智能体MDP离散时间模型；

S12：根据所述多智能体MDP离散时间模型，确定最优动作策略；

S13：按照所述最优动作策略，对多智能体进行一致性控制。

本发明实施例采用强化学习的方法对无人艇的控制器进行设计与优化。建立基于无人艇集群的马尔可夫决策过程(Markov Decision Process，MDP)控制框架，提出一种结合势博弈理论的一致性Q学习(consensus Q-learning，CQL)算法，以智能体获取联合回报期望的最大值作为目标，自主学习迭代其动作价值函数。最终得到收敛的Q表，即最优动作策略，并以Q函数制定控制器中的一致性控制规则。

集群一致性问题的离散时间数学表达为：

式中，n为集群中个体总数；i为个体编号；-i为任何除个体i以外的任意其他个体；S_i(t)为个体i在时间t的状态；t_x为达成一致性的时间点。

如图2所示，将对象设定为3艘同构无人艇组成的集群。x,y,θ,V分别为无人艇的位置、航向、航速；u,v,ω分别为无人艇在随动坐标系下的速度分量及角速度；u_i,v_i,ω_i()(i＝0,1,2)分别为无人艇在惯性坐标系下的速度分量及角速度；δ为实际容许误差范围，即控制精度，运动学公式为：

基于集群一致性问题的离散时间数学表达式和运动学公式，实际一致控制目标表示为：

式(9)中，δ_v,δ_θ,δ_x,δ_y分别为航速、航向、x位置、y位置的实际容许误差范围，即控制精度。无人艇在海洋环境中工作，考虑风浪流对无人艇控制器的影响，采用经验方程模拟船舶在航行中的扰动，施加一个正态分布的随机扰动作用在角速度以及航速上，即：

Δω＝4.5H₁+3.5H₂ 式(10)

式(10)中，H₁和H₂为服从正态分布N[0，1]的两个独立的随机变量。对于上述问题，传统的一致性控制算法并不适用，难以自主适应复杂的环境噪声扰动。当算法设计为自适应时，对控制对象进行建模设计又将面临非线性问题。基于以上原因，设计了适用于无人艇集群的多智能体MDP同步框架来解决无人艇集群一致性同步问题。

多智能体MDP离散时间模型如图3所示，S为智能体感知的状态；A为智能体动作；T(s,a)为概率转移函数，根据当前状态和动作并通过一定概率转移到下一状态；R(s,a)为回报函数。

在图3所示的MDP框架中，智能体与环境交互，根据从环境中受到的奖罚来学习规则，以概率转移函数表示交互结果，并通过回报函数表示奖惩。集群中的智能体组通过尝试各种动作来最大化所有智能体的回报函数的期望值之和，价值函数为：

式(1)中，

为智能体i在离散时间中未来j步的奖励；β为折扣因子；π为智能体的策略，即基于状态S所选择的动作a。如果一组智能体采用联合策略π₁,π₂,π₃...π_n，那么Q函数的迭代公式可定义为：

式(2)中，s′为后一时刻状态；a′为后一时刻状态下智能体所选择的动作。若该组策略是最佳策略，则对于智能体i在任意状态s下获得的收敛的Q值，即

将满足对于其他智能体的Q值同样收敛的条件

这样就达到多智能体的期望均衡点，下面详细说明找到这个均衡的Q值的迭代算法。

在多智能体强化学习过程中，Q值的收敛目标将不是满足单个智能体Q值最大，而是所有智能体Q值的和最大的条件。博弈理论中，可以将这个过程看作为合作博弈，智能体须寻求到在整体目标效能下的均衡点。

在CQL算法中应用势博弈理论的方法，将每个智能体不同策略下Q值的改变视为个体效用函数，并将它们映射到一个全局势函数上，使个体效用函数与全局势函数的单调性一致，那么当势函数取得最大值时，就相当于所有智能体都达到了其效用的最大值，也就是均衡。

在拥有n个智能体集合p的一致问题中，每个智能体p_i∈p同样拥有状态集S_i及对应的动作集A_i，那么其一致性个体效用函数U_i(S,A)可以通过学习过程中的Q函数定义为：

对应的全局一致性势函数可表示为：

若智能体p_i在同一状态下选择动作

而不是

动作其目标函数的变化满足了势博弈的单调性要求。

CQL算法的具体流程如图4所示，图4中，Q值的迭代公式中策略π对应的智能体i的动作，须要满足个体效用函数U_i(S,A)与全局势函数φ(S,A)最大的条件，即：

在每次Q值迭代过程中，智能体i只须从知识池获取其他智能体的Q表，根据自己的状态S_t计算个体效用函数值，并选择对应最大值的动作a_t作为输出执行，进入下一次迭代。这样获得的Q值收敛值即可使所有智能体Q值的和最大。

基于以上信息智能同步框架中协同一致性的Q值计算结果，在无人艇智能个体间实现了彼此的感知交互，进一步，利用智能个体间同步信息的交互策略实现无人艇之间的信息传递，通过简单的逻辑处理从而形成协同作战能力。在指控节点少量简洁的控制指令下，完成多样性的复杂任务。

本发明实施例中，每个无人艇视为智能个体节点在本地维护一张存储Q值信息与群体信息的电子信息表，表中记录有本地任务定义的各信息元素项。节点不需要获取全局信息，并且每个信息元素项强度也随着时间逐渐减弱。但当本地传感器感知到某信息元素项的触发状态时，或者一跳范围内的邻居节点发出某信息元素项信号时，本地节点会强化该信息元素项的强度，并且按照该信息元素项调节本地节点行为。

每个节点存储的电子信息的强度变化可用如下公式表达：

S(t+1,p)＝E*S(t,p)+q(t,p) 式(11)

式(11)中，p＝{p_i}表示网络中所有节点的集合；s(t,p)表示信息元素强度；r(t,p)表示额外的信息元素强度输入，由新加入节点产生；q(t,p)表示在t时刻传播到节点p的信息元素强度；E∈(0,1)为信息元素减弱参数；F∈[0,1)为信息元素传播参数；式(11)描述了在节点p处信息元素强度的变化，第1项为随时间弱化的强度，第2项为新的输入带来的信息元素加强的强度，第3项为邻居节点发送的信息元素带来的强度。1跳范围内互为邻居的节点，电子信息的传播可用式(12)表示：

式(12)中，N:p→p表示节点间的邻居关系。描述了网络中以节点p为邻居节点的节点，将无人艇个体本地总电子信息强度按照一定比例发送至p，比例取决于发送参数F以及邻居节点数量。

本发明实施例中，网络中的每个节点按照电子信息的强度定义简单行为。如当无人艇集群担负作战任务时，集群活动的路径规划按照路径发现过程中各节点标记位置的电子信息强度运动，躲避敌方雷达区域的同时依据梯度向电子信息强度最高的位置汇聚；抵近打击则按照各节点标记的电子信息强度选择武器，并在强度最高的位置开展攻击。

本发明实施例的工作流程是：借助多智能体***设计其控制架构，按照联合行为策略中不同的类型，如无人艇的航速、航向等，划分相应的智能体区块进行分布式控制。最终构建的无人艇集群信息智能同步架构以实现集群的协同控制为构建目的，主要围绕实现无人艇集群的一致性控制进行架构研究。所述一致性的内涵是无人艇控制***中所有的智能体可以通过某些控制规则智能地相互传递以达到信息同步共享，随着时间的推移，智能体的各种状态值可以逐渐变得一致。

本发明实施例所述的无人艇集群运行信息智能同步方法能够满足以下信息智能同步要求：

(1)无中心

为保证无人艇集群的抗毁顽存能力，集群网络必须无中心，信息处理和决策要进行分布式协同。

(2)自主性

每架无人艇需要在本地进行决策，不依赖某一指挥控制节点发送详细的指令。因为指控指令的收发存在不可忽视的时延，在无人艇执行任务过程中，环境及态势快速变化，任何时延都会降低无人平台的反应能力，从而降低***效能。

(3)高动态

未来战场的无人艇需要对战场空间的环境变化做出快速响应。传统的以预规划的方式进行任务分发和资源管理的方法不能满足战场环境下高动态的需求，需要无人艇能够在仅获取局部信息的情况下对环境变化做出决策。

如图5所示，本发明实施例提供的一种无人艇集群运行信息智能同步***，包括：

模型建立模块51，用于建立无人艇集群的多智能体MDP离散时间模型；

确定模块52，用于根据所述多智能体MDP离散时间模型，确定最优动作策略；

控制模块53，用于按照所述最优动作策略，对多智能体进行一致性控制。

本实施例所述的无人艇集群运行信息智能同步***的工作原理与上文所述的无人艇集群运行信息智能同步方法的工作原理相同，在此不再赘述。

本发明实施例最终构建的无人艇集群运行信息智能同步***以实现集群的协同控制为构建目的，实现对无人艇集群的一致性控制，最终实现无人艇集群中无人艇之间的数据资源共享，有利于最大程度发挥无人艇集群执行群体任务的能力和优势。

此外，本发明还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前面任一项所述的无人艇集群运行信息智能同步方法。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。