CN116643587A - 一种基于信息素启发的多无人机自主覆盖方法 - Google Patents

一种基于信息素启发的多无人机自主覆盖方法 Download PDF

Info

Publication number
CN116643587A
CN116643587A CN202310623947.7A CN202310623947A CN116643587A CN 116643587 A CN116643587 A CN 116643587A CN 202310623947 A CN202310623947 A CN 202310623947A CN 116643587 A CN116643587 A CN 116643587A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
pheromone
function
coverage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310623947.7A
Other languages
English (en)
Inventor
何斌
程徐
蒋荣
李刚
程斌
陆萍
张朋朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202310623947.7A priority Critical patent/CN116643587A/zh
Publication of CN116643587A publication Critical patent/CN116643587A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明涉及一种基于信息素启发的多无人机自主覆盖方法,该方法包括以下步骤:步骤S1、构建多无人机自主收集自然灾害区域数据的覆盖场景图;步骤S2、基于信息素聚合模型,构建多无人机路径信息素地图,标记多无人机路径;步骤S3、根据多无人机自主覆盖任务,定义状态函数、动作函数及奖励函数,建立基于神经网络的多无人机自主覆盖模型并进行训练;步骤S4、采用训练好的多无人机自主覆盖模型进行多无人机自主覆盖。与现有技术相比,本发明具有高效节能、覆盖率高、适用性广的优点。

Description

一种基于信息素启发的多无人机自主覆盖方法
技术领域
本发明涉及无人机自主控制技术领域,尤其是涉及一种基于信息素启发的多无人机自主覆盖方法。
背景技术
传统的静态区域覆盖方法一旦部署了静态传感器节点,如果传感器节点出现了覆盖空洞或者故障,则难以进行重新部署。相比之下,动态区域覆盖更具灵活性,因此广泛应用于目标检测、结构健康监测以及灾害救援领域。
在动态区域覆盖过程中,由于无人机的可操作性、灵活性以及鲁棒性,可根据环境变化动态调整位置极大提高移动传感器网络的性能,通过动态覆盖算法控制无人机完成物联网设备或者无线传感器数据的收集工作,实现无人机对目标区域的精准覆盖。另一方面,由于无人机无线通信***的成本优势和快速部署能力,使其更适合于突发事件或持续时间有限的任务,如自然灾害造成的通信基础设施破坏时的应急通信恢复,以增强通信网络在紧急通信中的覆盖范围和性能。
无人机动态区域覆盖的控制算法一般分为两类,非自组织控制算法和自组织控制算法。非自组织动态覆盖算法通过位型空间建模优化减少目标区域的重复覆盖从而达到高效的覆盖。然而,这种非自组织控制方法鲁棒性较低,紧急情况下,无人机故障或者相距太远将导致覆盖空洞。自组织控制算法使无人机具有较强的鲁棒性和良好的自主性,它们可以通过局部信息交互解决紧急情况下目标区域覆盖不均匀的问题。智能化的深度强化学习被视为无人机自主控制的关键技术,因为它们可以很好的处理复杂的状态空间以及环境。但传统的RL方法,比如Q-Learning或者策略梯度方法都不适用于多无人机的动态覆盖环境。因为在训练过程中,每架无人机的策略不断变化,导致无人机始终处于动态环境,使得无人机的策略难以收敛。
为了提供长期有效的动态区域覆盖,这项任务相当具有挑战性。因为UAVs通常是小型到中型的电池驱动设备且通信范围有限,具有有限的飞行时间和有效的载荷能力,所以无人机的动态覆盖过程需要以节能的方式操作,达到延长网络生命周期的目的。此外,无人机在动态的、开放的以及不可预测的环境中工作,实现资源共享可以有效减少无人机的重复覆盖且降低无人机不必要的能量消耗。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供了一种基于信息素启发的多无人机自主覆盖方法,具有高效节能、覆盖率高、适用性广等优点。
本发明的目的可以通过以下技术方案来实现:
根据本发明的第一方面,提供了一种基于信息素启发的多无人机自主覆盖方法,该方法包括以下步骤:
步骤S1、构建多无人机自主收集自然灾害区域数据的覆盖场景图;
步骤S2、基于信息素聚合模型,构建多无人机路径信息素地图,标记多无人机路径;
步骤S3、根据多无人机自主覆盖任务,定义状态函数、动作函数及奖励函数,建立基于神经网络的多无人机自主覆盖模型并进行训练;
步骤S4、采用训练好的多无人机自主覆盖模型进行多无人机自主覆盖。
优选地,所述步骤S1中多无人机自主收集自然灾害区域数据的覆盖场景图包括无人机、覆盖目标和障碍物位置,具体为:
定义n=1,2,…,N表示各架无人机的编号,N为无人机的总数量,则所有无人机的集合表示为:
定义k=1,2,…,K表示任务区域各灾害源的编号,K为灾害源的总数量,自然灾害区域所有灾害源的集合表示为:
定义覆盖区域是长度为L,宽度为W的二维有边界区域,该二维区域被划分为若干单元格,且该区域包含随机生成的若干障碍物。
优选地,所述步骤S2包括以下子步骤:
步骤S21、信息素地图的初始化过程;
步骤S22、信息素地图的聚合过程。
优选地,无人机起始位置的信息素初始化函数为:
Pe,0=P((x,y),(1)
其中,(x,y)表示无人机的起始位置,Pe,0表示任务区域无人机初始化的信息素浓度。
优选地,所述信息素地图的聚合过程,具体为:
当无人机运动到单元格i处时,该处的信息素总量表示为:
其中,为第k架无人机在单元格i处释放的信息素量;n表示(t-1,t)时刻,在单元格i处,半径为无人机感知范围r内的无人机总数;
第i个单元格的踪迹信息素在(t,t+1)时刻蒸发量表示为:
其中,η为信息素蒸发系数,η∈(0,1);
t+1时刻第i个单元格的信息素总量表示为:
其中,η为信息素蒸发系数,η∈(0,1),为单元格i在t+1时刻的信息素增加值;
踪迹信息素的取值限制在[Pmin,Pmax]内,局部信息素更新规则与全局信息素更新规则集成如下:
优选地,所述步骤S3中状态函数、动作函数及奖励函数分别为:
状态函数:包含任务区域单元格的踪迹信息素浓度第n架UAV剩余能量消耗/>以及灾害源的覆盖状态/>在t时刻,状态函数表示为:
动作函数:包含无人机的飞行方向和无人机的飞行距离/>在t时刻,动作函数表示为:
奖励函数:包括无人机覆盖灾害源获得的奖励撞击障碍物的奖励/>以及重叠覆盖某区域的奖励/>在t时刻,奖励函数表示为:
优选地,所述步骤S3中基于神经网络的多无人机自主覆盖模型,具体为:神经网络包括动作网络和评价网络,具体为:动作网络的输入为每架无人机的状态函数输出为每架无人机的动作函数/>评价网络的输入为联合状态s(t)和联合动作a(t),输出为Q值,记为Q(s,a)。
优选地,所述基于神经网络的多无人机自主覆盖模型的训练过程具体为:
1)随机初始化评价网络Q(s,a|θQ)和动作网络π(s|θπ),以及对应的权重参数θQ和θπ
2)从经验回放缓冲区中随机抽取一批样本,样本数为/>其中一条为(sj,aj,rj,s′j),其中j为样本索引;
3)利用最小化损失函数更新无人机的评价网络:
其中,yj是由第j架无人机的Target Q网络计算得出,表示在联合状态函数s下使用策略π采取动作a1,…,aN)的预期折扣奖励;
4)更新动作网络与评价网络对应的目标网络参数:
其中,参数τ表示学习率,为目标网络参数。
根据本发明的第二方面,提供了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现任一项所述的方法。
根据本发明的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现任一项所述的方法。
与现有技术相比,本发明具有以下优点:
1)本发明利用多无人机路径信息素地图,有效避免任务区域短时间内的重叠覆盖,最小化了无人机的能量消耗;
2)本发明基于多无人机自主覆盖任务设计的奖励函数,有效引导了多无人机协同完成了自然灾害区域数据收集难题,解决了多无人机强化学习中动态不稳定性的问题;
3)本发明所提出的多无人机自主覆盖方法,具有高效节能、覆盖率高、适用性广等优点,进而提高多无人机灾难救援效率。
附图说明
图1为本发明方法的流程示意图;
图2为本发明在自然灾害区域多无人机自主收集数据的场景图;
图3为本发明信息素地图示意图;
图4为本发明网络结构示意图;
图5为本发明在自然灾害应用场景中Actor网络示意图;
图6为本发明在自然灾害应用场景中Critic网络示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
实施例
如图1所示,本实施例以多无人机自主收集自然灾害区域数据为研究背景,基于信息素启发的多无人机自主覆盖方法,该方法包括以下步骤:
步骤S1、建立多无人机自主覆盖示意图,包括覆盖目标和障碍物位置,进而构建多无人机自主收集自然灾害区域数据的覆盖场景图,如图2所示,具体包括:
1)定义n=1,2,…,N表示各架无人机的编号,N为无人机的总数量,则所有无人机的集合可以表示为:
2)定义k=1,2,…,K表示任务区域各灾害源的编号,K为灾害源的总数量,则自然灾害区域所有灾害源的集合可以表示为:
3)定义覆盖区域是长度为L,宽度为W的二维有边界区域,该二维区域被划分为更小的单元格,且该区域包含随机生成的若干障碍物。
步骤S2、基于信息素机制,设计信息素的聚合模型,构建多无人机路径信息素地图,标记多无人机路径,具体包括以下子步骤:
1)信息素地图的初始化过程:
蚂蚁使用信息素来指引其他蚂蚁的觅食路线,定义踪迹信息素来记录无人机的行驶路径,该机制可以在短时间内有效避免无人机的重复访问,与穷尽搜索算法相比,可以降低搜索难度,提高全局覆盖率。
无人机起始位置的信息素初始化函数如下所示:
Pe,0=P((x,y),0) (1)
其中,(x,y)表示无人机的起始位置,Pe,0表示任务区域无人机初始化的信息素浓度。
2)信息素地图的聚合过程:
首先,每架无人机都能感知一定范围内的踪迹信息素浓度。
将任何充满踪迹信息素的单元格视为局部环境的排斥力,它对附近的无人机具有排斥效应,从而有效的观察局部状态空间。此时,无人机需要选择踪迹信息素浓度最低的区域执行动作,这代表该区域未被访问或者很少被访问。当无人机运动到单元格i处时,该处的信息素总量可以表示为:
其中,为第k架无人机在单元格i处释放的信息素量;n表示(t-1,t)时刻,在单元格i处,半径为无人机感知范围r内的无人机总数。
然后,踪迹信息素聚合的自然过程包含蒸发,蒸发则意味着已沉淀的信息素会随着时间的消失而流逝,这也满足无人机在一段时间后再次去采集灾害源数据。第i个单元格的踪迹信息素在(t,t+1)时刻蒸发量可以表示为:
其中,η为信息素蒸发系数,η∈(0,1)。
最后,t+1时刻第i个单元格的信息素总量可以表示为:
其中,η为信息素蒸发系数,η∈(0,1),为单元格i在t+1时刻的信息素增加值。
为了避免算法陷入局部最优且防止踪迹信息素的负值和波动过大,将踪迹信息素的取值限制在[Pmin,Pmax]以内。在增加搜索空间的同时保证了算法的快速收敛速度,并将局部信息素更新规则与全局信息素更新规则集成如下:
步骤S3、根据多无人机自主覆盖任务,定义状态函数、动作函数及奖励函数,建立基于神经网络的多无人机自主覆盖模型并进行训练;
状态函数、动作函数及奖励函数表达式分别为:
①状态函数:包含任务区域单元格的踪迹信息素浓度第n架UAV剩余能量消耗以及灾害源的覆盖状态/>在t时刻,状态函数可以表示为:
其中,当时,表示灾害源k已经被覆盖;如果/>表示该灾害源未被覆盖过。
②动作函数:包含无人机的飞行方向和无人机的飞行距离/>
t时刻的动作函数表达式为:
其中,表示无人机n的飞行方向;/>表示无人机n的飞行距离。如果/>表示无人机处于悬停状态;如果/>表示无人机在能量允许的情况下飞行了最大距离。
③奖励函数:包含无人机覆盖灾害源获得的奖励撞击障碍物的奖励/>以及重叠覆盖某区域的奖励/>三部分。
其中,当灾害源在无人机的覆盖范围r内,则第n架UAV得到奖励Vk表示无人机覆盖范围r内k个灾害源的价值;
当无人机撞击障碍物或者边界时,此时第n架UAV得到奖励R为撞击障碍物或者边界的总次数。
无人机选择方向时,如果选择了信息素最高的区域,则代表该区域已被多架无人机访问过,此时第n架UAV得到奖励
因此,在t时刻,奖励函数可以表示为:
神经网络并更新参数,得到基于神经网络的多无人机自主覆盖模型,具体为:
如图4所示,该网络结构包含Actor网络与Critic网络两部分。如图5所示,Actor网络的输入是每架无人机的状态函数输出为每架无人机的动作函数/>如图6所示,Critic网络的输入是联合状态s(t)和联合动作a(t),输出是Q值,记为Q(s,a0。
神经网络的训练过程具体为:
1)随机初始化Critic网络Q(s,a|QQ)和Actor网络π(s|θπ)以及权重参数θQ和θπ,同时初始化经验回放缓冲区
2)计算t时刻N架无人机的状态s(t)、动作a(t)以及奖励函数r(t),并计算下一时刻的状态s,并将其存入到经验回放缓冲区
3)从经验回放缓冲区中随机抽取一批样本,样本数为/>其中一条为(sj,aj,rj,s′j),其中j为样本索引;
4)利用最小化损失函数更新无人机的Critic网络:
其中yj是由第j架无人机的Target Q网络计算得出,表示在联合状态函数s下使用策略π采取动作a1,…,aN)的预期折扣奖励。
5)更新Actor网络与Critic网络对应的目标网络参数:
其中,参数τ表示学习率,表示Target策略网络参数,/>表示Target策略网络参数。
步骤S4、采用训练好的多无人机自主覆盖模型进行多无人机自主覆盖。
本发明电子设备包括中央处理单元(CPU),其可以根据存储在只读存储器(ROM)中的计算机程序指令或者从存储单元加载到随机访问存储器(RAM)中的计算机程序指令,来执行各种适当的动作和处理。在RAM中,还可以存储设备操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
设备中的多个部件连接至I/O接口,包括:输入单元,例如键盘、鼠标等;输出单元,例如各种类型的显示器、扬声器等;存储单元,例如磁盘、光盘等;以及通信单元,例如网卡、调制解调器、无线通信收发机等。通信单元允许设备通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理单元执行上文所描述的各个方法和处理,例如方法S1~S4。例如,在一些实施例中,方法S1~S4可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元。在一些实施例中,计算机程序的部分或者全部可以经由ROM和/或通信单元而被载入和/或安装到设备上。当计算机程序加载到RAM并由CPU执行时,可以执行上文描述的方法S1~S4的一个或多个步骤。备选地,在其他实施例中,CPU可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法S1~S4。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于信息素启发的多无人机自主覆盖方法,其特征在于,该方法包括以下步骤:
步骤S1、构建多无人机自主收集自然灾害区域数据的覆盖场景图;
步骤S2、基于信息素聚合模型,构建多无人机路径信息素地图,标记多无人机路径;
步骤S3、根据多无人机自主覆盖任务,定义状态函数、动作函数及奖励函数,建立基于神经网络的多无人机自主覆盖模型并进行训练;
步骤S4、采用训练好的多无人机自主覆盖模型进行多无人机自主覆盖。
2.根据权利要求1所述的一种基于信息素启发的多无人机自主覆盖方法,其特征在于,所述步骤S1中多无人机自主收集自然灾害区域数据的覆盖场景图包括无人机、覆盖目标和障碍物位置,具体为:
定义n=1,2,…,N表示各架无人机的编号,N为无人机的总数量,则所有无人机的集合表示为:
定义k=1,2,…,K表示任务区域各灾害源的编号,K为灾害源的总数量,自然灾害区域所有灾害源的集合表示为:
定义覆盖区域是长度为L,宽度为W的二维有边界区域,该二维区域被划分为若干单元格,且该区域包含随机生成的若干障碍物。
3.根据权利要求1所述的一种基于信息素启发的多无人机自主覆盖方法,其特征在于,所述步骤S2包括以下子步骤:
步骤S21、信息素地图的初始化过程;
步骤S22、信息素地图的聚合过程。
4.根据权利要求3所述的一种基于信息素启发的多无人机自主覆盖方法,其特征在于,无人机起始位置的信息素初始化函数为:
Pe,0=P((x,y),(1)
其中,(x,y)表示无人机的起始位置,Pe,0表示任务区域无人机初始化的信息素浓度。
5.根据权利要求4所述的一种基于信息素启发的多无人机自主覆盖方法,其特征在于,所述信息素地图的聚合过程,具体为:
当无人机运动到单元格i处时,该处的信息素总量表示为:
其中,为第k架无人机在单元格i处释放的信息素量;n表示(t-1,t)时刻,在单元格i处,半径为无人机感知范围r内的无人机总数;
第i个单元格的踪迹信息素在(t,t+1)时刻蒸发量表示为:
其中,η为信息素蒸发系数,η∈(0,1);
t+1时刻第i个单元格的信息素总量表示为:
其中,η为信息素蒸发系数,η∈(0,1),为单元格i在t+1时刻的信息素增加值;
踪迹信息素的取值限制在[Pmin,Pmax]内,局部信息素更新规则与全局信息素更新规则集成如下:
6.根据权利要求1所述的一种基于信息素启发的多无人机自主覆盖方法,其特征在于,所述步骤S3中状态函数、动作函数及奖励函数分别为:
状态函数:包含任务区域单元格的踪迹信息素浓度第n架UAV剩余能量消耗/>以及灾害源的覆盖状态/>在t时刻,状态函数表示为:
动作函数:包含无人机的飞行方向和无人机的飞行距离/>在t时刻,动作函数表示为:
奖励函数:包括无人机覆盖灾害源获得的奖励撞击障碍物的奖励/>以及重叠覆盖某区域的奖励/>在t时刻,奖励函数表示为:
7.根据权利要求6所述的一种基于信息素启发的多无人机自主覆盖方法,其特征在于,所述步骤S3中基于神经网络的多无人机自主覆盖模型,具体为:神经网络包括动作网络和评价网络,具体为:动作网络的输入为每架无人机的状态函数输出为每架无人机的动作函数/>评价网络的输入为联合状态s(t)和联合动作a(t),输出为Q值,记为Q(s,a)。
8.根据权利要求7所述的一种基于信息素启发的多无人机自主覆盖方法,其特征在于,所述基于神经网络的多无人机自主覆盖模型的训练过程具体为:
1)随机初始化评价网络Q(s,a|θQ)和动作网络π(s|θπ),以及对应的权重参数θQ和θπ
2)从经验回放缓冲区中随机抽取一批样本,样本数为/>其中一条为(sj,aj,rj,s′j),其中j为样本索引;
3)利用最小化损失函数更新无人机的评价网络:
其中,yj是由第j架无人机的Target Q网络计算得出,表示在联合状态函数s下使用策略π采取动作a1,…,aN)的预期折扣奖励;
4)更新动作网络与评价网络对应的目标网络参数:
其中,参数τ表示学习率,为目标网络参数。
9.一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~8任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~8中任一项所述的方法。
CN202310623947.7A 2023-05-30 2023-05-30 一种基于信息素启发的多无人机自主覆盖方法 Pending CN116643587A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310623947.7A CN116643587A (zh) 2023-05-30 2023-05-30 一种基于信息素启发的多无人机自主覆盖方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310623947.7A CN116643587A (zh) 2023-05-30 2023-05-30 一种基于信息素启发的多无人机自主覆盖方法

Publications (1)

Publication Number Publication Date
CN116643587A true CN116643587A (zh) 2023-08-25

Family

ID=87624247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310623947.7A Pending CN116643587A (zh) 2023-05-30 2023-05-30 一种基于信息素启发的多无人机自主覆盖方法

Country Status (1)

Country Link
CN (1) CN116643587A (zh)

Similar Documents

Publication Publication Date Title
CN112256056B (zh) 基于多智能体深度强化学习的无人机控制方法及***
CN110587606B (zh) 一种面向开放场景的多机器人自主协同搜救方法
US11992944B2 (en) Data-efficient hierarchical reinforcement learning
CN111417964A (zh) 使用异策略行动者-评价者强化学习进行分布式训练
CN112711271B (zh) 基于深度强化学习的自主导航无人机功率优化方法
CN116776964A (zh) 用于分布式强化学习的方法、程序产品和存储介质
CN112580795A (zh) 一种神经网络的获取方法以及相关设备
Ntakolia et al. Autonomous path planning with obstacle avoidance for smart assistive systems
US11514363B2 (en) Using a recursive reinforcement model to determine an agent action
KR102303126B1 (ko) 사용자 선호에 따른 강화학습 기반 자율주행 최적화 방법 및 시스템
CN113253733A (zh) 一种基于学习和融合的导航避障方法、装置及***
Puente-Castro et al. Q-learning based system for path planning with unmanned aerial vehicles swarms in obstacle environments
CN115380293A (zh) 多任务强化学习中利用元梯度学习动作选择的选项
Li et al. Research on global path planning of unmanned vehicles based on improved ant colony algorithm in the complex road environment
KR20230171962A (ko) 로봇 자율성 개발을 위한 시스템, 장치 및 방법
Long et al. A multi-subpopulation bacterial foraging optimisation algorithm with deletion and immigration strategies for unmanned surface vehicle path planning
Peake et al. Wilderness search and rescue missions using deep reinforcement learning
CN115265547A (zh) 一种未知环境下基于强化学习的机器人主动导航方法
Wu et al. UAV Path Planning Based on Multicritic‐Delayed Deep Deterministic Policy Gradient
US20220269948A1 (en) Training of a convolutional neural network
CN117371895A (zh) 未知环境下多地面无人车路径规划方法、***及介质
CN116643587A (zh) 一种基于信息素启发的多无人机自主覆盖方法
CN116203987A (zh) 一种基于深度强化学习的无人机集群协同避障方法
CN112987713A (zh) 自动驾驶设备的控制方法、装置及存储介质
Saito et al. A movement adjustment method for DQN-based autonomous aerial vehicle

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination