CN113900445A - 基于多智能体强化学习的无人机协同控制训练方法及*** - Google Patents

基于多智能体强化学习的无人机协同控制训练方法及*** Download PDF

Info

Publication number
CN113900445A
CN113900445A CN202111193986.5A CN202111193986A CN113900445A CN 113900445 A CN113900445 A CN 113900445A CN 202111193986 A CN202111193986 A CN 202111193986A CN 113900445 A CN113900445 A CN 113900445A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
network
target
drone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111193986.5A
Other languages
English (en)
Inventor
洪万福
王旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yuanting Information Technology Co ltd
Original Assignee
Xiamen Yuanting Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Yuanting Information Technology Co ltd filed Critical Xiamen Yuanting Information Technology Co ltd
Priority to CN202111193986.5A priority Critical patent/CN113900445A/zh
Publication of CN113900445A publication Critical patent/CN113900445A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于多智能体强化学习的无人机协同控制训练方法和***。所述方法包括:建立大规模无人机集群任务模型;根据任务模型建立马尔科夫博弈模型;构建MADDPG算法神经网络;调整神经网络的超参数,在通过MADDPG算法训练时,以一定的概率分别从探索环境经验和高质量经验中采集样本,以每个无人机的自身状态信息和环境信息作为神经网络的输入,以多无人机的速度作为输出,完成运动规划策略的训练,实现多无人机在复杂环境下自主避障并安全快速地到达目标位置。本发明的方法可提高策略的鲁棒性,训练出适应性更强和灵活性更高的优秀策略,在多无人机协同运动规划的场景中有很好的应用前景。

Description

基于多智能体强化学习的无人机协同控制训练方法及***
技术领域
本发明属于人工智能、无人机技术领域,尤其涉及一种基于多智能体强化学习的无人机协同控制训练方法及***。
背景技术
近年来,自主集群无人作战成为智能化军事应用的探索趋势,每个无人平台可视为一个智能体,无人作战过程中存在多种不稳定因素,战场态势不断变化,使得对作战态势的动态响应各不相同。由于需要大量训练样本的监督学习训练模型的泛化性能较弱,而深度强化学习方法仅需对当前***运行效果评价信息做出反应,因此,深度强化学习技术具有更高的实时性和鲁棒性,更适用于智能体博弈对抗行为建模。
无人集群***的协同控制包含协调和合作两个方面。协调的目的是确保多无人平台在执行任务过程中不发生冲突,研究的是多无人平台之间的动作控制问题。合作的目的是组织多个无人平台共同完成任务,研究的是高层的组织和决策机制问题。无人集群协同控制涉及无人集群***体系结构设计和无人集群分布式控制等内容。引入强化学***台的自主分布式控制具有更强的适应性和灵活性,提高单个无人平台完成作战任务的能力,同时也可增强无人集群的协调协作,提高集群***的整体性能。无人集群***中,单个无人平台感知的环境信息是局部的,因此通过传统单智能体强化学习算法得到的策略不具有普适性。为了解决该问题,多智能体强化学习在单智能体强化学习的基础上增加了智能体数量,并通过引入分布式协同策略机制使每个智能体具有自主性、目的性和协调性,且具备学习、推理和自组织能力。
发明内容
本发明的目的是提供一种基于多智能体强化学习的无人机协同控制训练方法及***,以解决大规模无人机在执行各种复杂任务和环境时协同决策,充分地学习到大规模无人机中各无人机在训练学习自身动作策略的同时,也学习到了其他智能体的策略,并提高了策略的鲁棒性,训练出适应性更强和灵活性更高的优秀策略,在多无人机协同控制的场景中有很好的应用前景。
为实现上述目的,本发明第一方面提出一种基于多智能体强化学习的无人机协同控制训练方法,包括:
步骤S1:建立大规模无人机集群的任务模型;
步骤S2:根据任务模型建立马尔科夫博弈模型;
步骤S3:构建MADDPG算法神经网络;
步骤S4:训练MADDPG算法神经网络;
步骤S5:将MADDPG算法神经网络加载到无人机群中,执行无人机集群协同控制,将所述神经网络输出的动作映射为对应的无人机的控制指令。
进一步的,所述步骤S1具体包括:
(1)任务描述:描述无人机集群在场景中的协同任务,所述协同任务为无人机集群需要在一定时间内全部到达指定目的地,其中在一定范围内存在建筑群和障碍物;所述无人机集群中的所有无人机都是同构的,拥有相同的性能参数;
(2)环境约束:
初始坐标约束:场景中无人机i在初始区域内随机产生,目标位置与障碍物位置在目标区域一定距离内随机出现;其无人机i在初始时刻到目标区域g的距离dig满足:
di,g≥dinit
其中,dinit为成功完成任务的有效距离;
高度与边界约束:其飞行高度满足如下约束:
hmin≤h≤hmax
其中,hmin为最低飞行高度,hmax为最大飞行高度;
速度与加速度约束:在三维空间中,无人机的速度和加速度需满足最大值约束:
Figure BDA0003302331410000023
Figure BDA0003302331410000022
最大偏航角约束:假设无人机航迹点i的坐标为(xi,yi,zi),则从点i-1到点i的航迹段的水平投影为αi=(xi-xi-1,yi-yi-1)T,那么最大偏航角φ约束为:
Figure BDA0003302331410000021
障碍物约束:无人机与障碍物的距离l满足:
l≥Rsaft+lmin+RUAV
式中,Rsaft为规定的安全距离;lmin为障碍物在无人机方向上的长度;RUAV为无人机半径。
进一步的,所述步骤S2具体包括:
(1)采用五元组<N,S,A,P,R>表示马尔科夫博弈模型,其中:N={1,2,…,n},表示n个无人机的集合;S为联合状态,S=s1×s2×…×sn,表示所有无人机的状态的笛卡尔积,其中的Si代表着无人机i的状态;A为联合动作,A=a1×a2×…×an,表示所有无人机的动作的笛卡尔积,其中的ai表示无人机i的动作;P:S×A×S→[0,1]为状态转移模型,表示所有的无人机在当前状态采取联合动作到达下一状态的概率值;R为联合奖励,即所有无人机奖励函数的笛卡尔积,R=R1×R2×…×Rn,其中的Ri表示无人机i与环境交互获得的奖励值;
(2)设定无人机的状态空间,在极坐标系下设置每个无人机的状态空间;将无人机i中心作为原点,无人机i到自身目标的方向看作正方向建立极坐标系,则无人机i的状态表示为:si=(s,sU,sE),其中,s=(Pix,Piy,Pigx,Pigy)为无人机i和目标的位置信息,Pix,Piy为无人机i的位置信息,Pigx,Pigy为无人机i的目标的位置信息;SU=(Pjx,Pjy)表示在无人机i的通讯范围内距离无人机i最近的障碍物的位置信息,如果通讯范围内无其他障碍物,则SE=(0,0);
(3)设定无人机的动作空间,对于无人机i,动作空间为ai=(ωit),ωit为t时刻无人机i的角速度值;
(4)设定无人机的奖励函数;无人机i的奖励函数具体设置如下:
R1=10+Rit
R2=-20,
R3=-2|α|+l-τ,
R4=-2|α|+1,
Ri=ω1R12R23R34R4
其中,R1表示无人机到达目标时的奖励值,
Figure BDA0003302331410000031
表示无人机到达目标消耗时间的惩罚,Wt为惩罚因子,Ti为无人机到达目标位置消耗的具体时间值,
Figure BDA0003302331410000041
表示无人机以ui的线速度沿着直线到达目标位置时所需的最短时间,Pio和Pig分别为无人机的初始位置和目标位置;R2为无人机碰撞时的惩罚值;R3为碰撞预警,选取通信距离l的通信范围内距无人机最近的障碍物或者其他无人机作为危险物体,在当前时刻的无人机与前方危险物体之间的欧氏距离小于上一时刻无人机与前方危险物体的欧氏距离时,给予相应的惩罚;R4为无人机的密集回报函数,惩罚程度随着无人机的目标角速度α的增大而增加;无人机i的奖励Ri由R1 R2 R3 R4经过不同的权重ω1 ω2 ω3 ω4加权求和得到。
进一步的,所述步骤S3具体包括:
(1)构建MADDPG算法中的策略网络:无人机i的策略网络μi由输入层、隐藏层和输出层组成,输入为无人机i的状态向量si,输出为无人机i的动作向量ai=μi(si);
(2)构建MADDPG算法的评价网络:无人机i的评价网络
Figure BDA0003302331410000042
由输入层、隐藏层和输出层组成,输入为所有无人机的状态向量x=(s1,…,sn)和所有无人机根据各自的策略网络得到的动作a1,…,an,输出为无人机i的动作值函数,为集中的动作值函数
Figure BDA0003302331410000043
(3)构建目标神经网络:对于无人机i,将策略网络μi和评价网络
Figure BDA0003302331410000044
的参数复制到各自对应的目标网络中,即
Figure BDA0003302331410000045
其中
Figure BDA0003302331410000046
分别表示当前策略网络和评价网络的参数,
Figure BDA0003302331410000047
分别表示目标策略网络和目标评价网络的参数。
进一步的,所述步骤S4具体包括:
(1)初始化所有网络的参数
Figure BDA0003302331410000048
清空各自的经验回放集合;
(2)设置训练总回合数,开始迭代;
(3)对于每一架无人机,在当前策略网络基于状态si得到
Figure BDA0003302331410000049
(4)对于每一架无人机执行动作ai,得到新的状态s′i和各自的奖励Ri,并且将(s,s′,a1,…an,r1,…rn)加入到经验回放集合中;
(5)对于每一架无人机从经验回放集合M中采样m个样本开始更新网络;
(6)通过目标策略网络计算下一时刻采取的最佳的动作
Figure BDA00033023314100000410
(7)通过目标评价网络计算近似的真实价值,输入为状态和动作,输出为
Figure BDA00033023314100000411
(8)以
Figure BDA0003302331410000051
作为损失函数对当前评价网络进行更新;
(9)通过
Figure BDA0003302331410000052
对当前策略网络进行更新;
(10)如果迭代次数达到网络参数更新的频率,则更新目标评价网络和目标策略网络参数:
Figure BDA0003302331410000053
Figure BDA0003302331410000054
更新方式为软更新,其中θ为软更新比例系数。
进一步的,所述步骤S4中神经网络的超参数包括:
策略网络和评价网络,选用全连接神经网络,都采用Adam优化器进行训练;
设置策略网络和评价网络的基础参数,所述基础参数包括:隐藏层层数、激活函数、学习率、批量更新的样本数量和奖励函数中各奖励权重。
进一步的,策略网络设置为:包括两层隐藏层,隐藏层的激活函数都为relu函数,第一层为64个节点,第二层为32个节点,输出层为1个节点,即无人机采取的动作,输出层采用的激活函数为tanh函数,策略网络的学习率为0.001;评价网络设置为:包括两层隐藏层,隐藏层的激活函数都为relu函数,节点数都为64,输出层为1个节点,即Q值函数,输出层的激活函数为线性函数y=x+b,b为偏置参数,评价网络的学习率为0.0001;设定随机采样经验进行批量更新的样本数量为N=128。
本发明第二方面提出了一种基于多智能体强化学习的无人机协同控制训练***,用于实现本发明第一方面任一技术方案所述的基于多智能体强化学习的无人机协同控制训练方法,包括:
任务模型数据采集模块,用于对任务中的多无人机环境的数据加工预处理,将环境中的各无人机的观测空间、全局的状态空间进行编码处理,转化为神经网络可识别的向量特征;
神经网络构建模块,用于根据任务模型构建MADDPG神经网络,接收由任务模型数据采集模块传入的向量特征;
参数调整模块,用于设置神经网络的超参数,所述超参数包括隐藏层层数、激活函数、学习率、批量更新的样本数量,及奖励函数中的奖励权重;
和主控单元,用于将MADDPG算法神经网络加载到无人机群中,执行无人机集群协同控制,将所述神经网络输出的动作映射为对应的无人机的控制指令。
本发明的基于多智能体强化学习的无人机协同控制训练方法,提高了策略的鲁棒性,可训练出适应性更强和灵活性更高的优秀策略,在多无人机协同控制的场景中有很好的应用前景。
附图说明
图1为本发明的方法流程示意图。
图2为本发明的***结构示意图。
具体实施方式
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。
现结合附图和具体实施方式对本发明进一步说明。
如图1所示,本发明提出了一种基于多智能体强化学习的无人机协同控制训练方法,包括以下步骤:
步骤一:建立大规模无人机集群任务模型。
具体包括:设定无人机为圆形的智能体,无人机i的半径为ri;设定障碍物的形状为圆形,障碍物半径为ro,无人机与障碍物的碰撞距离为Dio=ri+ro;无人机i的目标位置为一个圆形空间,半径为rig,当无人机i接触到目标范围,即无人机i的中心位置与目标范围中心位置的距离Dio≤ri+ro时,即判定无人机i成功到达目标位置;
无人机i的位置设置为Pi=[xi,yi]T,无人机的通信距离表示为Lc,无人机的通信范围以无人机中心为圆心,以Lc为半径的圆形;在无人机的通信范围内,无人机能感知到其他无人机或者障碍物信息。
步骤二:根据任务模型建立马尔科夫博弈模型。
具体包括:
(1)对马尔科夫博弈模型的表示用五元组<N,S,A,P,R>来表示,每个分量具体解释如下:N={1,2,...,n},表示n个无人机的集合;S为联合状态,S=s1×s2×…×sn,表示所有无人机的状态的笛卡尔积,其中Si代表着无人机i的状态;A为联合动作,A=a1×a2×...×an,表示所有无人机的动作的笛卡尔积,ai表示无人机i的动作;
P:S×A×S→[0,1]为状态转移模型,表示所有的无人机在当前状态采取联合动作到达下一状态的概率值;为联合奖励,即所有无人机奖励函数的笛卡尔积,R=R1×R2×...×Rn其中Ri表示无人机i与环境交互获得的奖励值;
(2)设定无人机的状态空间,在极坐标系下设置每个无人机的状态空间;将无人机i中心作为原点,无人机i到自身目标的方向看作正方向建立极坐标系,则无人机i的状态表示为:si=(s,sU,sE),其中,s=(Pix,Piy,Pigx,Pigy)为无人机i和目标的位置信息,Pix,Piy为无人机i的位置信息,Pigx,Pigy为无人机i的目标的位置信息;SU=(Pjx,Pjy)表示在无人机i的通讯范围内距离无人机i最近的障碍物的位置信息,如果通讯范围内无其他障碍物,则SE=(0,0);
(3)设定无人机的动作空间,对于无人机i,动作空间为ai=(ωit),ωit为t时刻无人机i的角速度值,由于无人机的飞行约束和障碍物的限制,不同时刻的可选择动作是不同的,无人机只能从当前动作空间中选取动作。
(4)设定无人机的奖励函数;无人机i的奖励函数具体设置如下:
R1=10+Rit
R2=-20,
R3=-2|α|+l-τ,
R4=-2|α|+1,
Ri=ω1R12R23R34R4
其中,R1表示无人机到达目标时的奖励值,
Figure BDA0003302331410000071
表示无人机到达目标消耗时间的惩罚,Wt为惩罚因子,Ti为无人机到达目标位置消耗的具体时间值,
Figure BDA0003302331410000072
表示无人机以ui的线速度沿着直线到达目标位置时所需的最短时间,Pio和Pig分别为无人机的初始位置和目标位置;R2为无人机碰撞时的惩罚值;R3为碰撞预警,选取通信距离l的通信范围内距无人机最近的障碍物或者其他无人机作为危险物体,在当前时刻的无人机与前方危险物体之间的欧氏距离小于上一时刻无人机与前方危险物体的欧氏距离时,给予相应的惩罚;R4为无人机的密集回报函数,惩罚程度随着无人机的目标角速度α的增大而增加;无人机i的奖励Ri由R1 R2 R3 R4经过不同的权重ω1ω2ω3ω4加权求和得到。
步骤三:构建MADDPG(多智能体强化学习)算法神经网络。
具体包括:
(1)构建MADDPG算法中的策略网络(Actor):无人机i的策略网络μi由输入层、隐藏层和输出层组成,输入为无人机i的状态向量si,输出为无人机i的动作向量ai=μi(si);
(2)构建MADDPG算法的评价网络(Critic):无人机i的评价网络
Figure BDA00033023314100000812
由输入层、隐藏层和输出层组成,输入为所有无人机的状态向量x=(s1,…,sn)和所有无人机根据各自的策略网络得到的动作a1,…,an,输出为无人机i的动作值函数,为集中的动作值函数
Figure BDA0003302331410000081
(3)构建目标神经网络:对于无人机i,将策略网络μi和评价网络
Figure BDA0003302331410000082
的参数复制到各自对应的目标网络中,即
Figure BDA0003302331410000083
其中
Figure BDA0003302331410000084
分别表示当前策略网络和评价网络的参数,
Figure BDA0003302331410000085
分别表示目标策略网络和目标评价网络的参数。
步骤四:训练MADDPG算法神经网络。
具体包括:
(1)初始化所有网络的参数
Figure BDA0003302331410000086
清空各自的经验回放集合;
(2)设置训练总回合数,开始迭代;
(3)对于每一架无人机,在当前策略网络基于状态si得到
Figure BDA0003302331410000087
(4)对于每一架无人机执行动作ai,得到新的状态s′i和各自的奖励Ri,并且将(s,s′,a1,…an,r1,…rn)加入到经验回放集合中;
(5)对于每一架无人机从经验回放集合M中采样m个样本开始更新网络;
(6)通过目标策略网络计算下一时刻采取的最佳的动作
Figure BDA0003302331410000088
(7)通过目标评价网络计算近似的真实价值,输入为状态和动作,输出为
Figure BDA0003302331410000089
(8)以
Figure BDA00033023314100000810
作为损失函数对当前评价网络进行更新;
(9)通过
Figure BDA00033023314100000811
对当前策略网络进行更新;
(10)如果迭代次数达到网络参数更新的频率,则更新目标评价网络和目标策略网络参数:
Figure BDA0003302331410000091
Figure BDA0003302331410000092
更新方式为软更新,其中θ为软更新比例系数。
在训练过程中,需要对神经网络超参数进行设置。
具体包括:
策略网络和评价网络,选用全连接神经网络,都采用Adam优化器进行训练;
设置策略网络和评价网络的隐藏层层数、激活函数、学习率、批量更新的样本数量等参数,及对奖励函数中各奖励权重进行调整。
以下给出了一组参数设置示例:
策略网络包括两层隐藏层,隐藏层的激活函数都为relu函数,第一层为64个节点,第二层为32个节点,输出层为1个节点,即无人机采取的动作,输出层采用的激活函数为tanh函数,策略网络的学习率为0.001。
评价网络同样包括两层隐藏层,隐藏层的激活函数都为relu函数,节点数都为64,输出层为1个节点,即Q值函数,输出层的激活函数为线性函数y=x+b,b为偏置参数,评价网络的学习率为0.0001。设定随机采样经验进行批量更新的样本数量为N=128。
步骤六:将MADDPG算法神经网络加载到无人机群中,执行无人机集群协同控制,将所述神经网络输出的动作映射为对应的无人机的控制指令。具体为:将保存好的策略网络和评价网络参数数据加载至无人机集群中,使多无人机根据训练好的网络执行飞行动作,完成大规模无人机运动规划任务。
如图2所示,本发明还提出了一种用于实现上述实施例所述方法的***,包括:
任务模型数据采集模块10,用于对任务中的多无人机环境的数据加工预处理,将环境中的各无人机的观测空间、全局的状态空间进行编码处理,转化为神经网络可识别的向量特征;
神经网络构建模块20,用于根据任务模型构建MADDPG神经网络,设置隐藏层维度,可接收来自环境的编码信息;
参数调整模块30,用于设置神经网络的超参数,包括:针对网络结构设置不同的隐藏层层数,更换不同激活函数,控制网络的学习率,设置批量更新的样本数量;也可对奖励函数中各奖励权重进行调整提升协同控制效果;
和主控单元40,用于将MADDPG算法神经网络加载到无人机群中,执行无人机集群协同控制,将所述神经网络输出的动作映射为对应的无人机的控制指令。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(***)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
本发明的保护内容不局限于以上实施例。在不违背发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

Claims (9)

1.一种基于多智能体强化学习的无人机协同控制训练方法,其特征在于,包括:
步骤S1:建立大规模无人机集群的任务模型;
步骤S2:根据任务模型建立马尔科夫博弈模型;
步骤S3:构建MADDPG算法神经网络;
步骤S4:训练MADDPG算法神经网络;
步骤S5:将MADDPG算法神经网络加载到无人机群中,执行无人机集群协同控制,将所述神经网络输出的动作映射为对应的无人机的控制指令。
2.如权利要求1所述的基于多智能体强化学习的无人机协同控制训练方法,其特征在于,所述步骤S1具体包括:
(1)任务描述:描述无人机集群在场景中的协同任务,所述协同任务为无人机集群需要在一定时间内全部到达指定目的地,其中在一定范围内存在建筑群和障碍物;所述无人机集群中的所有无人机都是同构的,拥有相同的性能参数;
(2)环境约束:
初始坐标约束:场景中无人机i在初始区域内随机产生,目标位置与障碍物位置在目标区域一定距离内随机出现;其无人机i在初始时刻到目标区域g的距离dig满足:
di,g≥dinit
其中,dinit为成功完成任务的有效距离;
高度与边界约束:其飞行高度满足如下约束:
hmin≤h≤hmax
其中,hmin为最低飞行高度,hmax为最大飞行高度;
速度与加速度约束:在三维空间中,无人机的速度和加速度需满足最大值约束:
|vx,y,z|≤vmaxx,y,z
|ax,y,z|≤amaxx,y,z
最大偏航角约束:假设无人机航迹点i的坐标为(xi,yi,zi),则从点i-1到点i的航迹段的水平投影为αi=(xi-xi-1,yi-yi-1)T,那么最大偏航角φ约束为:
Figure FDA0003302331400000011
障碍物约束:无人机与障碍物的距离l满足:
l≥Rsaft+lmin+RUAV
式中,Rsaft为规定的安全距离;lmin为障碍物在无人机方向上的长度;RUAV为无人机半径。
3.如权利要求1所述的基于多智能体强化学习的无人机协同控制训练方法,其特征在于,所述步骤S2具体包括:
(1)采用五元组<N,S,A,P,R>表示马尔科夫博弈模型,其中:N={1,2,...,n},表示n个无人机的集合;S为联合状态,S=s1×s2×...×sn,表示所有无人机的状态的笛卡尔积,其中的Si代表着无人机i的状态;A为联合动作,A=a1×a2×...×an,表示所有无人机的动作的笛卡尔积,其中的ai表示无人机i的动作;P:S×A×S→[0,1]为状态转移模型,表示所有的无人机在当前状态采取联合动作到达下一状态的概率值;R为联合奖励,即所有无人机奖励函数的笛卡尔积,R=R1×R2×...×Rn,其中的Ri表示无人机i与环境交互获得的奖励值;
(2)设定无人机的状态空间,在极坐标系下设置每个无人机的状态空间;将无人机i中心作为原点,无人机i到自身目标的方向看作正方向建立极坐标系,则无人机i的状态表示为:si=(s,sU,sE),其中,s=(Pix,Piy,Pigx,Pigy)为无人机i和目标的位置信息,Pix,Piy为无人机i的位置信息,Pigx,Pigy为无人机i的目标的位置信息;SU=(Pjx,Pjy)表示在无人机i的通讯范围内距离无人机i最近的障碍物的位置信息,如果通讯范围内无其他障碍物,则SE=(0,0);
(3)设定无人机的动作空间,对于无人机i,动作空间为ai=(ωit),ωit为t时刻无人机i的角速度值;
(4)设定无人机的奖励函数。
4.如权利要求3所述的基于多智能体强化学习的无人机协同控制训练方法,其特征在于,所述步骤(4)中无人机i的奖励函数具体设置如下:
R1=10+Rit
R2=-20,
R3=-2|α|+l-τ,
R4=-2|α|+1,
Ri=ω1R12R23R34R4
其中,R1表示无人机到达目标时的奖励值,
Figure FDA0003302331400000031
表示无人机到达目标消耗时间的惩罚,Wt为惩罚因子,Ti为无人机到达目标位置消耗的具体时间值,
Figure FDA0003302331400000032
表示无人机以ui的线速度沿着直线到达目标位置时所需的最短时间,Pio和Pig分别为无人机的初始位置和目标位置;R2为无人机碰撞时的惩罚值;R3为碰撞预警,选取通信距离l的通信范围内距无人机最近的障碍物或者其他无人机作为危险物体,在当前时刻的无人机与前方危险物体之间的欧氏距离小于上一时刻无人机与前方危险物体的欧氏距离时,给予相应的惩罚;R4为无人机的密集回报函数,惩罚程度随着无人机的目标角速度α的增大而增加。
5.如权利要求1所述的基于多智能体强化学习的无人机协同控制训练方法,其特征在于,所述步骤S3具体包括:
(1)构建MADDPG算法中的策略网络:无人机i的策略网络μi由输入层、隐藏层和输出层组成,输入为无人机i的状态向量si,输出为无人机i的动作向量ai=μi(si);
(2)构建MADDPG算法的评价网络:无人机i的评价网络
Figure FDA00033023314000000311
由输入层、隐藏层和输出层组成,输入为所有无人机的状态向量x=(s1,…,sn)和所有无人机根据各自的策略网络得到的动作a1,…,an,输出为无人机i的动作值函数,为集中的动作值函数
Figure FDA0003302331400000033
(3)构建目标神经网络:对于无人机i,将策略网络μi和评价网络
Figure FDA0003302331400000034
的参数复制到各自对应的目标网络中,即
Figure FDA0003302331400000035
其中
Figure FDA0003302331400000036
分别表示当前策略网络和评价网络的参数,
Figure FDA0003302331400000037
分别表示目标策略网络和目标评价网络的参数。
6.如权利要求5所述的一种基于多智能体强化学习的无人机协同控制训练方法,其特征在于,所述步骤S4具体包括:
(1)初始化所有网络的参数
Figure FDA0003302331400000038
Figure FDA0003302331400000039
清空各自的经验回放集合;
(2)设置训练总回合数,开始迭代;
(3)对于每一架无人机,在当前策略网络基于状态si得到
Figure FDA00033023314000000310
(4)对于每一架无人机执行动作ai,得到新的状态s′i和各自的奖励Ri,并且将(s,s′,a1,…an,r1,…rn)加入到经验回放集合中;
(5)对于每一架无人机从经验回放集合M中采样m个样本开始更新网络;
(6)通过目标策略网络计算下一时刻采取的最佳的动作
Figure FDA0003302331400000041
(7)通过目标评价网络计算近似的真实价值,输入为状态和动作,输出为
Figure FDA0003302331400000042
(8)以
Figure FDA0003302331400000043
作为损失函数对当前评价网络进行更新;
(9)通过
Figure FDA0003302331400000044
对当前策略网络进行更新;
(10)如果迭代次数达到网络参数更新的频率,则更新目标评价网络和目标策略网络参数:
Figure FDA0003302331400000045
Figure FDA0003302331400000046
更新方式为软更新,其中
Figure FDA0003302331400000047
为软更新比例系数。
7.如权利要求1所述的基于多智能体强化学习的无人机协同控制训练方法,其特征在于,所述步骤S4中神经网络的超参数包括:
策略网络和评价网络,选用全连接神经网络,都采用Adam优化器进行训练;
设置策略网络和评价网络的基础参数,所述基础参数包括:隐藏层层数、激活函数、学习率、批量更新的样本数量和奖励函数中各奖励权重。
8.如权利要求7所述的基于多智能体强化学习的无人机协同控制训练方法,其特征在于,策略网络设置为:包括两层隐藏层,隐藏层的激活函数都为relu函数,第一层为64个节点,第二层为32个节点,输出层为1个节点,即无人机采取的动作,输出层采用的激活函数为tanh函数,策略网络的学习率为0.001;评价网络设置为:包括两层隐藏层,隐藏层的激活函数都为relu函数,节点数都为64,输出层为1个节点,即Q值函数,输出层的激活函数为线性函数y=x+b,b为偏置参数,评价网络的学习率为0.0001;设定随机采样经验进行批量更新的样本数量为N=128。
9.一种基于多智能体强化学习的无人机协同控制训练***,其特征在于,用于实现权利要求1-8任一项所述的基于多智能体强化学习的无人机协同控制训练方法,包括:
任务模型数据采集模块,用于对任务中的多无人机环境的数据加工预处理,将环境中的各无人机的观测空间、全局的状态空间进行编码处理,转化为神经网络可识别的向量特征;
神经网络构建模块,用于根据任务模型构建MADDPG神经网络,接收由任务模型数据采集模块传入的向量特征;
参数调整模块,用于设置神经网络的超参数,所述超参数包括隐藏层层数、激活函数、学习率、批量更新的样本数量,及奖励函数中的奖励权重;
和主控单元,用于将MADDPG算法神经网络加载到无人机群中,执行无人机集群协同控制,将所述神经网络输出的动作映射为对应的无人机的控制指令。
CN202111193986.5A 2021-10-13 2021-10-13 基于多智能体强化学习的无人机协同控制训练方法及*** Pending CN113900445A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111193986.5A CN113900445A (zh) 2021-10-13 2021-10-13 基于多智能体强化学习的无人机协同控制训练方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111193986.5A CN113900445A (zh) 2021-10-13 2021-10-13 基于多智能体强化学习的无人机协同控制训练方法及***

Publications (1)

Publication Number Publication Date
CN113900445A true CN113900445A (zh) 2022-01-07

Family

ID=79191936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111193986.5A Pending CN113900445A (zh) 2021-10-13 2021-10-13 基于多智能体强化学习的无人机协同控制训练方法及***

Country Status (1)

Country Link
CN (1) CN113900445A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114415735A (zh) * 2022-03-31 2022-04-29 天津大学 面向动态环境的多无人机分布式智能任务分配方法
CN114638167A (zh) * 2022-03-22 2022-06-17 北京航空航天大学 基于多智能体强化学***分配方法
CN114721409A (zh) * 2022-06-08 2022-07-08 山东大学 一种基于强化学习的水下航行器对接控制方法
CN114722946A (zh) * 2022-04-12 2022-07-08 中国人民解放军国防科技大学 基于概率模型检测的无人机异步行动与协同策略合成方法
CN114879742A (zh) * 2022-06-17 2022-08-09 电子科技大学 基于多智能体深度强化学习的无人机集群动态覆盖方法
CN115019185A (zh) * 2022-08-03 2022-09-06 华中科技大学 类脑连续学习协同围捕方法、***及介质
CN115273501A (zh) * 2022-07-27 2022-11-01 同济大学 一种基于maddpg的自动驾驶车辆匝道合流协同控制方法及***
CN115309041A (zh) * 2022-06-06 2022-11-08 中国船舶集团有限公司***工程研究院 一种无人艇集群运行信息智能同步方法及***
CN115334165A (zh) * 2022-07-11 2022-11-11 西安交通大学 一种基于深度强化学***台调度方法及***
CN115525058A (zh) * 2022-10-24 2022-12-27 哈尔滨工程大学 一种基于深度强化学习的无人潜航器集群协同对抗方法
CN116069023A (zh) * 2022-12-20 2023-05-05 南京航空航天大学 一种基于深度强化学习的多无人车编队控制方法和***
CN116736883A (zh) * 2023-05-23 2023-09-12 天津大学 一种无人飞行集群智能协同运动规划的方法
CN117076134A (zh) * 2023-10-13 2023-11-17 天之翼(苏州)科技有限公司 基于人工智能的无人机状态数据处理方法及***
CN117111620A (zh) * 2023-10-23 2023-11-24 山东省科学院海洋仪器仪表研究所 一种异构无人***任务分配自主决策方法
CN117406706A (zh) * 2023-08-11 2024-01-16 汕头大学 结合因果模型和深度强化学习的多智能体避障方法及***
CN117575220A (zh) * 2023-11-15 2024-02-20 杭州智元研究院有限公司 一种面向异构多智能体的多任务策略博弈方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180174038A1 (en) * 2016-12-19 2018-06-21 Futurewei Technologies, Inc. Simultaneous localization and mapping with reinforcement learning
US20190266489A1 (en) * 2017-10-12 2019-08-29 Honda Motor Co., Ltd. Interaction-aware decision making
CN110958680A (zh) * 2019-12-09 2020-04-03 长江师范学院 面向能量效率的无人机群多智能体深度强化学习优化方法
CN111667513A (zh) * 2020-06-01 2020-09-15 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN112256056A (zh) * 2020-10-19 2021-01-22 中山大学 基于多智能体深度强化学习的无人机控制方法及***
CN112488310A (zh) * 2020-11-11 2021-03-12 厦门渊亭信息科技有限公司 一种多智能体群组协作策略自动生成方法
CN112947562A (zh) * 2021-02-10 2021-06-11 西北工业大学 一种基于人工势场法和maddpg的多无人机运动规划方法
CN113190032A (zh) * 2021-05-10 2021-07-30 重庆交通大学 一种应用于多场景的无人机感知规划***、方法及无人机
CN113298368A (zh) * 2021-05-14 2021-08-24 南京航空航天大学 一种基于深度强化学习的多无人机任务规划方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180174038A1 (en) * 2016-12-19 2018-06-21 Futurewei Technologies, Inc. Simultaneous localization and mapping with reinforcement learning
US20190266489A1 (en) * 2017-10-12 2019-08-29 Honda Motor Co., Ltd. Interaction-aware decision making
CN110958680A (zh) * 2019-12-09 2020-04-03 长江师范学院 面向能量效率的无人机群多智能体深度强化学习优化方法
CN111667513A (zh) * 2020-06-01 2020-09-15 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN112256056A (zh) * 2020-10-19 2021-01-22 中山大学 基于多智能体深度强化学习的无人机控制方法及***
CN112488310A (zh) * 2020-11-11 2021-03-12 厦门渊亭信息科技有限公司 一种多智能体群组协作策略自动生成方法
CN112947562A (zh) * 2021-02-10 2021-06-11 西北工业大学 一种基于人工势场法和maddpg的多无人机运动规划方法
CN113190032A (zh) * 2021-05-10 2021-07-30 重庆交通大学 一种应用于多场景的无人机感知规划***、方法及无人机
CN113298368A (zh) * 2021-05-14 2021-08-24 南京航空航天大学 一种基于深度强化学习的多无人机任务规划方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李宝安;: "基于深度强化学习的无人艇控制研究" *
赵丽华;万晓冬;: "基于改进A算法的多无人机协同路径规划" *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114638167A (zh) * 2022-03-22 2022-06-17 北京航空航天大学 基于多智能体强化学***分配方法
CN114415735B (zh) * 2022-03-31 2022-06-14 天津大学 面向动态环境的多无人机分布式智能任务分配方法
CN114415735A (zh) * 2022-03-31 2022-04-29 天津大学 面向动态环境的多无人机分布式智能任务分配方法
CN114722946A (zh) * 2022-04-12 2022-07-08 中国人民解放军国防科技大学 基于概率模型检测的无人机异步行动与协同策略合成方法
CN115309041A (zh) * 2022-06-06 2022-11-08 中国船舶集团有限公司***工程研究院 一种无人艇集群运行信息智能同步方法及***
CN114721409A (zh) * 2022-06-08 2022-07-08 山东大学 一种基于强化学习的水下航行器对接控制方法
CN114879742A (zh) * 2022-06-17 2022-08-09 电子科技大学 基于多智能体深度强化学习的无人机集群动态覆盖方法
CN114879742B (zh) * 2022-06-17 2023-07-04 电子科技大学 基于多智能体深度强化学习的无人机集群动态覆盖方法
CN115334165A (zh) * 2022-07-11 2022-11-11 西安交通大学 一种基于深度强化学***台调度方法及***
CN115334165B (zh) * 2022-07-11 2023-10-17 西安交通大学 一种基于深度强化学***台调度方法及***
CN115273501A (zh) * 2022-07-27 2022-11-01 同济大学 一种基于maddpg的自动驾驶车辆匝道合流协同控制方法及***
CN115273501B (zh) * 2022-07-27 2023-08-29 同济大学 一种基于maddpg的自动驾驶车辆匝道合流协同控制方法及***
CN115019185A (zh) * 2022-08-03 2022-09-06 华中科技大学 类脑连续学习协同围捕方法、***及介质
CN115019185B (zh) * 2022-08-03 2022-10-21 华中科技大学 类脑连续学习协同围捕方法、***及介质
CN115525058A (zh) * 2022-10-24 2022-12-27 哈尔滨工程大学 一种基于深度强化学习的无人潜航器集群协同对抗方法
CN116069023A (zh) * 2022-12-20 2023-05-05 南京航空航天大学 一种基于深度强化学习的多无人车编队控制方法和***
CN116069023B (zh) * 2022-12-20 2024-02-23 南京航空航天大学 一种基于深度强化学习的多无人车编队控制方法和***
CN116736883A (zh) * 2023-05-23 2023-09-12 天津大学 一种无人飞行集群智能协同运动规划的方法
CN116736883B (zh) * 2023-05-23 2024-03-08 天津大学 一种无人飞行集群智能协同运动规划的方法
CN117406706A (zh) * 2023-08-11 2024-01-16 汕头大学 结合因果模型和深度强化学习的多智能体避障方法及***
CN117406706B (zh) * 2023-08-11 2024-04-09 汕头大学 结合因果模型和深度强化学习的多智能体避障方法及***
CN117076134A (zh) * 2023-10-13 2023-11-17 天之翼(苏州)科技有限公司 基于人工智能的无人机状态数据处理方法及***
CN117076134B (zh) * 2023-10-13 2024-04-02 天之翼(苏州)科技有限公司 基于人工智能的无人机状态数据处理方法及***
CN117111620A (zh) * 2023-10-23 2023-11-24 山东省科学院海洋仪器仪表研究所 一种异构无人***任务分配自主决策方法
CN117111620B (zh) * 2023-10-23 2024-03-29 山东省科学院海洋仪器仪表研究所 一种异构无人***任务分配自主决策方法
CN117575220A (zh) * 2023-11-15 2024-02-20 杭州智元研究院有限公司 一种面向异构多智能体的多任务策略博弈方法

Similar Documents

Publication Publication Date Title
CN113900445A (zh) 基于多智能体强化学习的无人机协同控制训练方法及***
CN112947562B (zh) 一种基于人工势场法和maddpg的多无人机运动规划方法
CN113495578B (zh) 一种基于数字孪生式训练的集群航迹规划强化学习方法
CN113093802B (zh) 一种基于深度强化学习的无人机机动决策方法
Liu et al. Multi-UAV path planning based on fusion of sparrow search algorithm and improved bioinspired neural network
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
CN113253733B (zh) 一种基于学习和融合的导航避障方法、装置及***
Kimmel et al. Maintaining team coherence under the velocity obstacle framework.
CN111723931B (zh) 一种多智能体对抗动作预测方法及装置
Grando et al. Deep reinforcement learning for mapless navigation of unmanned aerial vehicles
CN112651486A (zh) 一种提高maddpg算法收敛速度的方法及其应用
Chen et al. Runtime safety assurance for learning-enabled control of autonomous driving vehicles
Farhood Neural network based control system for robots group operating in 2-d uncertain environment
Diallo et al. Multi-agent pattern formation: a distributed model-free deep reinforcement learning approach
Xue et al. Multi-agent deep reinforcement learning for UAVs navigation in unknown complex environment
CN116661503A (zh) 一种基于多智能体安全强化学习的集群航迹自动规划方法
CN116243727A (zh) 一种渐进式深度强化学习的无人载具对抗与避障方法
Al-Sharman et al. Self-learned autonomous driving at unsignalized intersections: A hierarchical reinforced learning approach for feasible decision-making
Shen Bionic communication network and binary pigeon-inspired optimization for multiagent cooperative task allocation
Chen et al. A deep multi-agent reinforcement learning framework for autonomous aerial navigation to grasping points on loads
CN113110101A (zh) 一种生产线移动机器人聚集式回收入库仿真方法及***
CN116796843A (zh) 一种基于pso-m3ddpg的无人机多对多追逃博弈方法
Huang et al. A deep reinforcement learning approach to preserve connectivity for multi-robot systems
CN114326826B (zh) 多无人机队形变换方法及***
Xie et al. A distributed multi-agent formation control method based on deep Q learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination