CN113791634B - 一种基于多智能体强化学习的多机空战决策方法 - Google Patents

一种基于多智能体强化学习的多机空战决策方法 Download PDF

Info

Publication number
CN113791634B
CN113791634B CN202110964271.9A CN202110964271A CN113791634B CN 113791634 B CN113791634 B CN 113791634B CN 202110964271 A CN202110964271 A CN 202110964271A CN 113791634 B CN113791634 B CN 113791634B
Authority
CN
China
Prior art keywords
machine
blue
red
angle
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110964271.9A
Other languages
English (en)
Other versions
CN113791634A (zh
Inventor
刘小雄
尹逸
苏玉展
秦斌
韦大正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110964271.9A priority Critical patent/CN113791634B/zh
Publication of CN113791634A publication Critical patent/CN113791634A/zh
Application granted granted Critical
Publication of CN113791634B publication Critical patent/CN113791634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于多智能体强化学习的多机空战决策方法,首先建立无人机的六自由度模型、导弹模型、神经网络归一化模型、战场环境模型、态势判断和目标分配模型;然后采用MAPPO算法作为多智能体强化学习算法,在具体空战环境的基础上设计相应的回报函数;最后将构建的无人机模型和多智能体强化学习算法进行结合,生成最终的基于多智能体强化学习的多机协同空战决策方法。本发明方法有效解决了传统的多智能体协同空战计算量大,难以应对需要实时结算瞬息万变的战场态势的问题。

Description

一种基于多智能体强化学习的多机空战决策方法
技术领域
本发明属于无人机技术领域,具体涉及一种多机空战决策方法。
背景技术
无人飞行战斗机决策的目的是使其能够在战斗中占据优势取胜或者转劣势为优势,研究的关键就是设计出高效的自主决策机制。无人飞行战斗机的自主决策是关于如何在空战中根据实战环境实时制定战术计划或选择飞行动作的机制,该决策机制的优劣程度反映了无人飞行战斗机在现代化空战中的智能化水平。自主决策机制的输入是与空战有关的各种参数,如飞行器的飞行参数,武器参数和三维空间场景参数以及敌我双方的相对关系,决策过程是***内部的信息处理和计算决策过程,输出是决策制定的战术计划或某些特定的飞行动作。
目前,研究空战战术决策方法基本可以分为两类,第一类为传统基于规则的非学习策略主要包括微分对策法,专家***,影响图法和矩阵博弈算法等,它们的决策策略一般是固定的,无法完整地覆盖复杂且瞬时变化的多机空战的问题,第二类是基于智能算法的自我学习策略主要包括人工免疫***,遗传算法,迁移学习,近似动态规划算法和强化学习等,通过自身的经验来优化自身决策模型的结构和参数。自我学习的策略自适应性强,能够应对势态复杂多变的空战战场环境。
随着空战技术的发展,现代化无人机空战已经不拘泥于以前一架飞机对一架飞机的作战环境,编队协同意味着多对多的无人机攻击模式,无人机之间的相互掩护,协同攻击也成为多机空战决策的重要组成部分。
多智能体多机战术决策的难点,主要体现在(1)多异构智能体合作。(2)实时对抗及动作持续性。(3)非完整信息博弈和强不确定性。(4)巨大的搜索空间及多复杂任务。随着以深度强化学习为核心的人工智能技术的突破和发展,为指挥信息***的智能化开拓了新的技术途径,也为复杂的多智能体多机空决策带来了新的解决方法。
发明内容
为了克服现有技术的不足,本发明提供了一种基于多智能体强化学习的多机空战决策方法,首先建立无人机的六自由度模型、导弹模型、神经网络归一化模型、战场环境模型、态势判断和目标分配模型;然后采用MAPPO算法作为多智能体强化学习算法,在具体空战环境的基础上设计相应的回报函数;最后将构建的无人机模型和多智能体强化学习算法进行结合,生成最终的基于多智能体强化学习的多机协同空战决策方法。本发明方法有效解决了传统的多智能体协同空战计算量大,难以应对需要实时结算瞬息万变的战场态势的问题。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:假定对战双方无人机为我方和敌方,我方无人机为红机,敌方无人机为蓝机;建立无人机的六自由度模型、导弹模型、神经网络归一化模型、战场环境模型、态势判断和目标分配模型;
步骤2:采用MAPPO算法作为多智能体强化学习算法,在具体空战环境的基础上设计相应的回报函数;
步骤3:将步骤1构建的无人机模型和步骤2中的多智能体强化学习算法进行结合,生成最终的基于多智能体强化学习的多机协同空战决策方法。
进一步地,所述步骤1中,建立无人机的飞机模型、导弹模型、神经网络归一化模型、战场环境模型、态势判断和目标分配模型,具体步骤如下:
步骤1-1:建立无人机的飞机模型;
步骤1-1-1:输入无人机的状态Sr=[Vr,γr,φr,xr,yr,hr],依次为无人机的速度Vr,俯仰角γr,滚转角φr,三轴位置(xr,yr,hr);
步骤1-1-2:构建无人机六自由度模型和七个动作;动作选用无人机的切向过载、法向过载和滚转角来进行动作编码,即式(1)中的来表示仿真中每个时刻下采取的动作,经过编码,动作包括定常平飞、加速、减速、左转弯、右转弯、向上拉起、向下俯冲共七个动作;
其中,v表示无人机的速度,Nx表示无人机的切向过载,θ表示无人机的俯仰角,ψ表示无人机的偏航角,Nz表示无人机的法向过载,表示无人机的滚转角,t表示无人机状态的更新时间,g表示重力加速度;
步骤1-1-3:输入无人机需要执行的动作;
步骤1-1-4:通过龙格库塔解算出飞机执行完动作后的状态;
步骤1-1-5:更新飞机状态;
步骤1-2:构建导弹模型;
步骤1-2-1:决定导弹性能的参数为最大离轴发射角最大最小攻击距离DMmax和DMmin、最大和最小不可逃逸距离DMkmax和DMkmin、以及圆锥角/>
假设导弹攻击区是静态的,且只关注最大攻击距离、最大不可逃逸距离与圆锥角;攻击区记为Areaack,满足:
其中,dt表示红机到蓝机的距离,qt表示红机到蓝机的视线角;Pos(Target)表示蓝机的位置;
不可逃逸区记为Areadead,满足:
当蓝机进入红机的攻击区内,以一定概率被击毁;
步骤1-2-2:对攻击区进行划分;
且DMk min<d<DMk max时,蓝机处于攻击区的⑤区;
且DM min<d<DMk min时,蓝机处于攻击区的①区;
且DMk max<d<DM max时,蓝机处于攻击区的④区;
且DM min<d<DM max,蓝机处于攻击区的②区或者③区;具体在②区或③区通过红机和蓝机的相对位置进行判断,红机和蓝机的相对位置如式(4):
其中,Δx、Δy、Δi分别表示红机和蓝机在x轴方向、y轴方向和z轴方向的距离差,xb、yb、zb分别表示蓝机在x轴方向、y轴方向和z轴方向的位置,xr、yr、zr分别表示红机在x轴方向、y轴方向和z轴方向的位置;
如果则蓝机相对于红机位于右侧,即攻击区的③区,如果/>则蓝机相对于红机位于左侧,即攻击区的②区;
综上所述,攻击区的具体划分如下:
步骤1-2-3:当蓝机处于区域⑤时,蓝机在红机的不可逃逸区内,导弹命中概率最大;当蓝机处于其他区域时候,导弹命中概率为0到1的一个函数,命中概率的大小与距离、脱离角、偏离角以及飞行方向有关;当导弹命中概率小于0.3时,认为导弹无法命中,此时不能发射导弹;具体击毁概率如下:
其中,pa表示与蓝机机动相关联的击毁概率,pd表示与距离相关联的击毁概率,position(aircraft_aim)表示蓝机所处我方攻击区的区域;
步骤1-2-4:发射导弹的具体步骤如下:
步骤1-2-4-1:输入红机与蓝机的距离d、脱离角AA、偏离角ATA、位置和速度;
步骤1-2-4-2:构建导弹模型,设定导弹数量;
步骤1-2-4-3:根据距离d和脱离角ATA判断蓝机是否处于红机的攻击区;
步骤1-2-4-4:当蓝机处于红机攻击区,判断蓝机处于攻击区的哪一部分;
步骤1-2-4-5:判断蓝机相对于红机的速度方向;
步骤1-2-4-6:计算此时导弹的命中率;
步骤1-2-4-7:判断导弹是否命中;
步骤1-3:神经网络归一化模型;
步骤1-3-1:输入无人机的状态变量;
步骤1-3-2:归一化速度
步骤1-3-3:归一化角度
步骤1-3-4:归一化位置
步骤1-3-5:对归一化后的红机与蓝机的位置做差;
步骤1-3-6:输出数据;
步骤1-4:构建战场环境模型;
步骤1-5:态势判断和目标分配模型;
步骤1-5-1:输入红机和蓝机的状态,包括速度、俯仰角、偏航角和三轴位置;
步骤1-5-2:根据俯仰角和偏航角算出各自的角度优势φt为目标进入角,φf为目标方位角;
步骤1-5-3:根据三轴位置算出各自的距离优势
步骤1-5-4:根据速度和三轴位置中的高度算出各自的能量优势
步骤1-5-5:结合角度、速度和能量优势算出综合优势S=C1Sa+C2Sr+C3Eg,C1、C2和C3均为加权系数;
步骤1-5-6:根据综合优势对目标进行排序,生成目标分配矩阵;
步骤1-5-7:根据目标分配矩阵,输出对目标的分配。
进一步地,所述步骤2中,采用MAPPO算法作为多智能体强化学习算法,将集中式训练、分布式执行框架与PPO算法相结合,形成MAPPO算法,在具体空战环境的基础上设计相应的回报函数,具体步骤如下:
回报函数由四个子回报函数组成,分别是高度回报函数,速度回报函数,角度回报函数和距离回报函数;具体如下:
步骤2-1:输入无人机状态Sr=[Vr,γr,φr,xr,yr,hr];
步骤2-2:计算高度差Δh=hr-hb并计算高度差奖励r_h,hr、hb分别为红机的高度和蓝机的高度,高度单位为米:
步骤2-3:计算红机的高度安全奖励:
步骤2-4:计算总的高度奖励Rh=r_h+r_h_self;
步骤2-5:计算速度差Δh=vr-vb并计算速度差奖励,vr、vb分别表示红机的速度和蓝机的速度,速度单位为米/秒:
步骤2-6:计算红机的速度安全奖励:
步骤2-7:计算总的速度奖励Rv=r_v+r_v_self;
步骤2-8:计算红机和蓝机的偏离角AA和脱离角ATA;
步骤2-9:计算得到角度奖励
步骤2-10:计算红机和蓝机的距离,当脱离角ATA小于60度时候,得到距离奖励
步骤2-11:设置不同的权重将各个奖励求和得到连续奖励Rc=a1·Ra+a2·Rh+a3·Rv+a4·Rd,a1、a2、a3和a4分别表示不同的权重。
进一步地,所述步骤3中,将步骤1构建的无人机模型和步骤2中的多智能体强化学习算法进行结合,生成最终的基于多智能体强化学习的多机协同空战决策方法,具体如下:
步骤3-1:多智能体强化学习算法由策略网络和价值网络组成,价值网络负责对策略网络选出的动作进行评价从而指导策略网络的更新;价值网络的输入是上一时刻中无人机自身、友机和敌机的速度、俯仰角、偏航角、x方向位置、y方向位置、高度以及所选取的动作;策略网络的输入是无人机自身的速度、俯仰角、偏航角、x方向位置、y方向位置和高度,策略网络的输出为选择的动作;
步骤3-2:首先红机和蓝机都先根据自己的策略网络的初始参数选择初始动作,在战场环境模型中执行动作得到新的状态,接着计算奖励,再将红机和蓝机的状态、奖励和动作打包归一化存入多智能体强化学习算法的经验回放库;当存够设定的数据之后,红机与蓝机的价值网络对经验回放库的数据进行采样,将红机与蓝机的状态联合,从而策略网络对策略进行更新,然后无人机将自身的状态作为自己的策略网络的输入,策略网络根据自身的状态选择该架无人机的动作,再由无人机执行得到新的数据,循环往复进行。
本发明的有益效果如下:
(1)本发明方法有效解决了传统的多智能体协同空战计算量大,难以应对需要实时结算瞬息万变的战场态势的问题。
(2)本发明方法所形成的基于多智能体强化学习的多机协同空战决策算法有效解决了多智能体决策中多异构智能体合作、实时对抗及动作持续性、巨大的搜索空间及多复杂任务等问题。
(3)本发明所形成的基于多智能体强化学习的多机协同空战决策算法中包含了战场环境构建模块、归一化模块、强化学习模块、飞机模块、导弹模块、奖励模块和目标分配模块,能够根据战场环境和态势信息建立决策模型。
(4)本发明能够实现多机空战决策输出,强化学习算法可以根据不同场景单独训练,决策算法具有良好的输入/输出接口和模块化快速移植特点。
附图说明
图1为本发明无人机攻击区横截面示意图。
图2为本发明战场环境模块流程图。
图3为本发明多智能体多机空战决策算法设计框架。
图4为本发明方法各个模块之间的关系图。
图5为本发明实施例2V2空战初始占位图。
图6为本发明实施例空战双方速度变化图。
图7为本发明实施例空战双方高度变化图。
图8为本发明实施例空战双方态势变化图。
图9为本发明实施例空战双方轨迹图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
一种基于多智能体强化学习的多机空战决策方法,包括如下步骤:
步骤1:假定对战双方无人机为我方和敌方,我方无人机为红机,敌方无人机为蓝机;建立无人机的六自由度模型、导弹模型、神经网络归一化模型、战场环境模型、态势判断和目标分配模型;
步骤2:采用MAPPO算法作为多智能体强化学习算法,在具体空战环境的基础上设计相应的回报函数;
步骤3:将步骤1构建的无人机模型和步骤2中的多智能体强化学习算法进行结合,生成最终的基于多智能体强化学习的多机协同空战决策方法。
进一步地,所述步骤1中,建立无人机的飞机模型、导弹模型、神经网络归一化模型、战场环境模型、态势判断和目标分配模型,具体步骤如下:
步骤1-1:建立无人机的飞机模型;
首先根据地面惯性坐标系下的三维空间运动学方程构建无人机六自由度模型,然后根据无人机的切向过载、法相过载和滚转角构建飞机的七个动作,当飞机选择执行其中任一个动作时,通过龙格库塔更新动作完成后的状态;
步骤1-1-1:输入无人机的状态Sr=[Vr,γr,φr,xr,yr,hr],依次为无人机的速度Vr,俯仰角γr,滚转角φr,三轴位置(xr,yr,hr);
步骤1-1-2:构建无人机六自由度模型和七个动作;
步骤1-1-3:输入无人机需要执行的动作;
步骤1-1-4:通过龙格库塔解算出飞机执行完动作后的状态;
步骤1-1-5:更新飞机状态;
步骤1-2:构建导弹模型;
步骤1-2-1:决定导弹性能的参数为最大离轴发射角最大最小攻击距离DMmax和DMmin、最大和最小不可逃逸距离DMkmax和DMkmin、以及圆锥角/>
为了简化问题,假设导弹攻击区是静态的,且只关注最大攻击距离、最大不可逃逸距离与圆锥角;攻击区记为Areaack,满足:
其中,qt表示红机到蓝机的视线角;Pos(Target)表示蓝机的位置;
不可逃逸区记为Areadead,满足:
当蓝机进入红机的攻击区内,以一定概率被击毁;
为更好地确定这个概率,如附图1所示,对攻击区进行了进一步的分析。
步骤1-2-2:对攻击区进行划分;
且DMk min<d<DMk max时,蓝机处于攻击区的⑤区;
且DMmin<d<DMk min时,蓝机处于攻击区的①区;
且DMk max<d<DM max时,蓝机处于攻击区的④区;
且DM min<d<DM max,蓝机处于攻击区的②区或者③区;具体在②区或③区通过红机和蓝机的相对位置进行判断,红机和蓝机的相对位置如式(4):
如果则蓝机相对于红机位于右侧,即攻击区的③区,如果/>则蓝机相对于红机位于左侧,即攻击区的②区;
综上所述,攻击区的具体划分如下:
步骤1-2-3:当蓝机处于区域⑤时,蓝机在红机的不可逃逸区内,导弹命中概率最大;当蓝机处于其他区域时候,导弹命中概率为0到1的一个函数,命中概率的大小与距离、脱离角、偏离角以及飞行方向有关;当导弹命中概率小于0.3时,认为导弹无法命中,此时不能发射导弹;具体击毁概率如下:
步骤1-2-4:发射导弹的具体步骤如下:
步骤1-2-4-1:输入红机与蓝机的距离d、脱离角AA、偏离角ATA、位置和速度;
步骤1-2-4-2:构建导弹模型,设定导弹数量;
步骤1-2-4-3:根据距离d和脱离角ATA判断蓝机是否处于红机的攻击区;
步骤1-2-4-4:当蓝机处于红机攻击区,判断蓝机处于攻击区的哪一部分;
步骤1-2-4-5:判断蓝机相对于红机的速度方向;
步骤1-2-4-6:计算此时导弹的命中率;
步骤1-2-4-7:判断导弹是否命中;
步骤1-3:神经网络归一化模型;
归一化可以保证神经网络每一层的输入保持相同的分布梯度下降时,让模型收敛到正确的地方,而在不同量纲下梯度更新方向被带偏。并且归一化到合理范围有利于模型泛化性。
步骤1-3-1:输入无人机的状态变量;
步骤1-3-2:归一化速度
步骤1-3-3:归一化角度
步骤1-3-4:归一化位置
步骤1-3-5:对归一化后的红机与蓝机的位置做差;
步骤1-3-6:输出数据;
步骤1-4:构建战场环境模型;
步骤1-5:态势判断和目标分配模型;
态势判断和目标分配模型通过分析距离威胁、角度优势、能量优势构造综合优势函数,从而构建出空战威胁度模型。然后依据长机获得的所有信息,经过数据融合后,依据目标分配矩阵准则计算目标分配矩阵。然后根据目标分配矩阵选择战术的慎重程度或冒险程度系数,表示飞行员在攻击和规避危险问题上的权衡。
步骤1-5-1:输入红机和蓝机的状态,包括速度、俯仰角、偏航角和三轴位置;
步骤1-5-2:根据俯仰角和偏航角算出各自的角度优势φt为目标进入角,φf为目标方位角;
步骤1-5-3:根据三轴位置算出各自的距离优势
步骤1-5-4:根据速度和三轴位置中的高度算出各自的能量优势
步骤1-5-5:结合角度、速度和能量优势算出综合优势;
步骤1-5-6:根据综合优势对目标进行排序,生成目标分配矩阵;
步骤1-5-7:根据目标分配矩阵,输出对目标的分配。
进一步地,所述步骤2中,采用MAPPO算法作为多智能体强化学习算法,在具体空战环境的基础上设计相应的回报函数,具体步骤如下:
MAPPO算法:
由于多机空战场景的状态、动作空间庞大,单个无人机能够探索的空间有限,样本使用效率不高。另外,作为典型的多机***,多机协同空战问题中,单个无人机的策略不只取决于自身的策略和环境的反馈,同时还受到其他无人机的动作及与其合作关系的影响,所以设计了经验共享机制,该机制包含共享样本经验库和共享网络参数两个方面。所谓共享样本经验库,是将全局环境态势信息、无人机的动作决策信息、无人机执行新动作后的环境态势信息和环境针对该动作反馈的奖励值按照四元组的形式存储进经验回放库,每一个无人机的信息均按照该格式存储进同一个经验回放库中。在更新网络参数时,从经验回放库中提取样本,分别计算不同无人机产生的样本在Actor网络和Critic网络下的损失值,进而求得两个神经网络的更新梯度,将不同无人机的样本计算的梯度值进行加权,可以得到全局梯度公式。如附图3所示是基于深度强化学***台环境可接受的操作指令,对相应单元进行控制;同时,通过执行新动作获得的新的环境态势以及奖励值与本步决策的环境态势信息、动作决策方案一并被打包存储进经验存储模块,待训练网络时,再将这些样本数据从经验库中提取出来,传入神经网络训练模块进行训练。
回报函数由四个子回报函数组成,分别是高度回报函数,速度回报函数,角度回报函数和距离回报函数;这四个回报函数反应了飞机在空中作战时候的能量优势、动能优势和攻击区命中概率的分布,概况了整个空战环境。该回报函数可以反映出当前时刻己机相对于敌机的占位,并且能够引导飞机飞往高奖励值也就是态势较好的地方。具体如下:
步骤2-1:输入无人机状态Sr=[Vr,γr,φr,xr,yr,hr];
步骤2-2:计算高度差Δh=hr-hb并计算高度差奖励r_h:
步骤2-3:计算红机的高度安全奖励:
步骤2-4:计算总的高度奖励Rh=r_h+r_h_self;
步骤2-5:计算速度差Δh=vr-vb并计算速度差奖励:
步骤2-6:计算红机的速度安全奖励:
步骤2-7:计算总的速度奖励Rv=r_v+r_v_self;
步骤2-8:计算红机和蓝机的偏离角AA和脱离角ATA;
步骤2-9:计算得到角度奖励
步骤2-10:计算红机和蓝机的距离,当脱离角ATA小于60度时候,得到距离奖励
步骤2-11:设置不同的权重将各个奖励求和得到连续奖励Rc=a1·Ra+a2·Rh+a3·Rv+a4·Rd,a1、a2、a3和a4分别表示不同的权重。
进一步地,所述步骤3中,将步骤1构建的无人机模型和步骤2中的多智能体强化学习算法进行结合,生成最终的基于多智能体强化学习的多机协同空战决策方法,具体如下:
步骤3-1:步骤1中构建的模型和步骤2的MAPPO算法以及设计的汇报函数的关系如附图4,多智能体强化学习算法由策略网络和价值网络组成,价值网络负责对策略网络选出的动作进行评价从而指导策略网络的更新;价值网络的输入是上一时刻中无人机自身、友机和敌机的速度、俯仰角、偏航角、x方向位置、y方向位置、高度以及所选取的动作;策略网络的输入是无人机自身的速度、俯仰角、偏航角、x方向位置、y方向位置和高度,策略网络的输出为选择的动作;
步骤3-2:首先红机和蓝机都先根据自己的策略网络的初始参数选择初始动作,在战场环境模型中执行动作得到新的状态,接着计算奖励,再将红机和蓝机的状态、奖励和动作打包归一化存入多智能体强化学习算法的经验回放库;当存够设定的数据之后,红机与蓝机的价值网络对经验回放库的数据进行采样,将红机与蓝机的状态联合,从而策略网络对策略进行更新,然后无人机将自身的状态作为自己的策略网络的输入,策略网络根据自身的状态选择该架无人机的动作,再由无人机执行得到新的数据,循环往复进行。
具体实施例:
双机对战时的情况如图5所示,四架飞机处于同一平面上,红机1和红机2分别处于蓝机1和蓝机2的正前方,蓝机1和蓝机2有接近红机1和红机2的联合攻击区的趋势,红机1和红机2也有接近蓝机1和蓝机2的联合攻击区的趋势。因此红机1和红机2与蓝机1和蓝机2处于均势。
在训练结束之后,经过1000次试验后,红方胜利和蓝方胜利的次数如表1所示。可以得出红方胜率为51.8%,蓝方胜率为48.2%。
表1红方胜利和蓝方胜利的次数
情况 次数
红机1击中蓝机1 226
红机1击中蓝机2 129
红机2击中蓝机1 0
红机2击中蓝机2 163
蓝机1击中红机1 330
蓝机1击中红机2 0
蓝机2击中红机1 152
蓝机2击中红机2 0
以红机1击中蓝机1为例进行分析。
红机1选择的动作是[right,right,right,right,acc,acc,acc,acc,acc,acc,acc,acc,acc,acc]。
红机2选择的动作是[right,right,acc,right,acc,acc,acc,acc,acc,acc,acc,acc,acc,acc]。
蓝机1选择的动作是[right,right,right,right,acc,acc,acc,acc,acc,acc,acc,acc,acc,acc]。
蓝机2选择的动作是[right,right,right,right,acc,acc,acc,acc,acc,acc,acc,acc,acc,acc]。
仿真结果图如图6-图8所示,实线代表红机1,虚线代表红机2,虚点线代表蓝机1,点曲线代表蓝机2。如图6所示,蓝机2的速度最高,具有最大的速度优势,红机1和红机2的速度远远不如蓝机1和蓝机2。由图7可以看出,蓝机1和蓝机2在高度优势上不如红机红机1和红机2,由图8可以看出,红机1、红机2、蓝机1和蓝机2都在安全飞行,因此它们的初始态势都为正,随着空战的进行蓝机1和蓝机2对红机1进行夹击,蓝机1和蓝机2的态势逐渐上升,而红机1的态势逐渐变劣,随后红方两架飞机也开始对蓝机2进行夹击,蓝方的态势下降,红方的态势上升,最后蓝方先完成对红机1的夹击,并且蓝机2发射导弹,成功命中红机1,蓝2的态势上升,掌握战场主动权。
如图9为四架无人机轨迹图。
综合各个仿真结果,证明了本发明所设计的基于多智能体强化学习的多机协同空战决策算法的有效性,有效解决了传统的多智能体协同空战计算量大,难以应对需要实时结算瞬息万变的战场态势的问题,同时有效解决了多智能体决策中多异构智能体合作、实时对抗及动作持续性、巨大的搜索空间及多复杂任务等问题,能够根据战场环境和态势信息建立决策模型;能够实现多机空战决策输出,强化学习算法可以根据不同场景单独训练,决策算法具有良好的输入/输出接口和模块化快速移植特点。

Claims (1)

1.一种基于多智能体强化学习的多机空战决策方法,其特征在于,包括以下步骤:
步骤1:假定对战双方无人机为我方和敌方,我方无人机为红机,敌方无人机为蓝机;建立无人机的六自由度模型、导弹模型、神经网络归一化模型、战场环境模型、态势判断和目标分配模型;
步骤1-1:建立无人机的飞机模型;
步骤1-1-1:输入无人机的状态Sr=[Vrrr,xr,yr,hr],依次为无人机的速度Vr,俯仰角γr,滚转角φr,三轴位置(xr,yr,hr);
步骤1-1-2:构建无人机六自由度模型和七个动作;动作选用无人机的切向过载、法向过载和滚转角来进行动作编码,即式(1)中的来表示仿真中每个时刻下采取的动作,经过编码,动作包括定常平飞、加速、减速、左转弯、右转弯、向上拉起、向下俯冲共七个动作;
其中,v表示无人机的速度,Nx表示无人机的切向过载,θ表示无人机的俯仰角,ψ表示无人机的偏航角,Nz表示无人机的法向过载,表示无人机的滚转角,t表示无人机状态的更新时间,g表示重力加速度;
步骤1-1-3:输入无人机需要执行的动作;
步骤1-1-4:通过龙格库塔解算出飞机执行完动作后的状态;
步骤1-1-5:更新飞机状态;
步骤1-2:构建导弹模型;
步骤1-2-1:决定导弹性能的参数为最大离轴发射角最大最小攻击距离DMmax和DMmin、最大和最小不可逃逸距离DMkmax和DMkmin、以及圆锥角/>
设定导弹攻击区是静态的,只采用最大攻击距离、最大不可逃逸距离与圆锥角三个参数;攻击区记为Areaack,满足:
其中,dt表示红机到蓝机的距离,qt表示红机到蓝机的视线角;Pos(Target)表示蓝机的位置;
不可逃逸区记为Areadead,满足:
当蓝机进入红机的攻击区内,以一定概率被击毁;
步骤1-2-2:对攻击区进行划分;
且DMkmin<d<DMkmax时,蓝机处于攻击区的⑤区;
且DMmin<d<DMkmin时,蓝机处于攻击区的①区;
且DMkmax<d<DMmax时,蓝机处于攻击区的④区;
且DMmin<d<DMmax,蓝机处于攻击区的②区或者③区;具体在②区或③区通过红机和蓝机的相对位置进行判断,红机和蓝机的相对位置如式(4):
其中,Δx、Δx、Δz分别表示红机和蓝机在x轴方向、y轴方向和z轴方向的距离差,xb、yb、zb分别表示蓝机在x轴方向、y轴方向和z轴方向的位置,xr、yr、zr分别表示红机在x轴方向、y轴方向和z轴方向的位置;
如果则蓝机相对于红机位于右侧,即攻击区的③区,如果/>则蓝机相对于红机位于左侧,即攻击区的②区;
综上所述,攻击区的具体划分如下:
步骤1-2-3:当蓝机处于区域⑤时,蓝机在红机的不可逃逸区内,导弹命中概率最大;当蓝机处于其他区域时候,导弹命中概率为0到1的一个函数,命中概率的大小与距离、脱离角、偏离角以及飞行方向有关;当导弹命中概率小于0.3时,认为导弹无法命中,此时不能发射导弹;具体击毁概率如下:
其中,pa表示与蓝机机动相关联的击毁概率,pd表示与距离相关联的击毁概率,position(aircraft_aim)表示蓝机所处我方攻击区的区域;
步骤1-2-4:发射导弹的具体步骤如下:
步骤1-2-4-1:输入红机与蓝机的距离d、脱离角AA、偏离角ATA、位置和速度;
步骤1-2-4-2:构建导弹模型,设定导弹数量;
步骤1-2-4-3:根据距离d和脱离角ATA判断蓝机是否处于红机的攻击区;
步骤1-2-4-4:当蓝机处于红机攻击区,判断蓝机处于攻击区的哪一部分;
步骤1-2-4-5:判断蓝机相对于红机的速度方向;
步骤1-2-4-6:计算此时导弹的命中率;
步骤1-2-4-7:判断导弹是否命中;
步骤1-3:神经网络归一化模型;
步骤1-3-1:输入无人机的状态变量;
步骤1-3-2:归一化速度
步骤1-3-3:归一化角度
步骤1-3-4:归一化位置
步骤1-3-5:对归一化后的红机与蓝机的位置做差;
步骤1-3-6:输出数据;
步骤1-4:构建战场环境模型;
步骤1-5:态势判断和目标分配模型;
步骤1-5-1:输入红机和蓝机的状态,包括速度、俯仰角、偏航角和三轴位置;
步骤1-5-2:根据俯仰角和偏航角算出各自的角度优势φt为目标进入角,φf为目标方位角;
步骤1-5-3:根据三轴位置算出各自的距离优势
步骤1-5-4:根据速度和三轴位置中的高度算出各自的能量优势
步骤1-5-5:结合角度、速度和能量优势算出综合优势S=C1Sa+C2Sr+C3Eg,C1、C2和C3均为加权系数;
步骤1-5-6:根据综合优势对目标进行排序,生成目标分配矩阵;
步骤1-5-7:根据目标分配矩阵,输出对目标的分配;
步骤2:采用MAPPO算法作为多智能体强化学习算法,将集中式训练、分布式执行框架与PPO算法相结合,形成MAPPO算法,在具体空战环境的基础上设计相应的回报函数;
所述回报函数由四个子回报函数组成,分别是高度回报函数,速度回报函数,角度回报函数和距离回报函数;具体如下:
步骤2-1:输入无人机状态Sr=[Vrrr,xr,yr,hr];
步骤2-2:计算高度差Δh=hr-hb并计算高度差奖励r_h,hr、hb分别为红机的高度和蓝机的高度,高度单位为米:
步骤2-3:计算红机的高度安全奖励:
步骤2-4:计算总的高度奖励Rh=r_h+r_h_self;
步骤2-5:计算速度差Δv=vr-vb并计算速度差奖励,vr、vb分别表示红机的速度和蓝机的速度,速度单位为米/秒:
步骤2-6:计算红机的速度安全奖励:
步骤2-7:计算总的速度奖励Rv=r_v+r_v_self;
步骤2-8:计算红机和蓝机的偏离角AA和脱离角ATA;
步骤2-9:计算得到角度奖励
步骤2-10:计算红机和蓝机的距离,当脱离角ATA小于60度时候,得到距离奖励
步骤2-11:设置不同的权重将各个奖励求和得到连续奖励Rc=a1·Ra+a2·Rh+a3·Rv+a4·Rd,a1、a2、a3和a4分别表示不同的权重;
步骤3:将步骤1构建的无人机模型和步骤2中的多智能体强化学习算法进行结合,生成最终的基于多智能体强化学习的多机协同空战决策方法;
步骤3-1:多智能体强化学习算法由策略网络和价值网络组成,价值网络负责对策略网络选出的动作进行评价从而指导策略网络的更新;价值网络的输入是上一时刻中无人机自身、友机和敌机的速度、俯仰角、偏航角、x方向位置、y方向位置、高度以及所选取的动作;策略网络的输入是无人机自身的速度、俯仰角、偏航角、x方向位置、y方向位置和高度,策略网络的输出为选择的动作;
步骤3-2:首先红机和蓝机都先根据自己的策略网络的初始参数选择初始动作,在战场环境模型中执行动作得到新的状态,接着计算奖励,再将红机和蓝机的状态、奖励和动作打包归一化存入多智能体强化学习算法的经验回放库;当存够设定的数据之后,红机与蓝机的价值网络对经验回放库的数据进行采样,将红机与蓝机的状态联合,从而策略网络对策略进行更新,然后无人机将自身的状态作为自己的策略网络的输入,策略网络根据自身的状态选择该架无人机的动作,再由无人机执行得到新的数据,循环往复进行。
CN202110964271.9A 2021-08-22 2021-08-22 一种基于多智能体强化学习的多机空战决策方法 Active CN113791634B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110964271.9A CN113791634B (zh) 2021-08-22 2021-08-22 一种基于多智能体强化学习的多机空战决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110964271.9A CN113791634B (zh) 2021-08-22 2021-08-22 一种基于多智能体强化学习的多机空战决策方法

Publications (2)

Publication Number Publication Date
CN113791634A CN113791634A (zh) 2021-12-14
CN113791634B true CN113791634B (zh) 2024-02-02

Family

ID=78876259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110964271.9A Active CN113791634B (zh) 2021-08-22 2021-08-22 一种基于多智能体强化学习的多机空战决策方法

Country Status (1)

Country Link
CN (1) CN113791634B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114371729B (zh) * 2021-12-22 2022-10-25 中国人民解放军军事科学院战略评估咨询中心 一种基于距离优先经验回放的无人机空战机动决策方法
CN114492058B (zh) * 2022-02-07 2023-02-03 清华大学 面向多智能体对抗场景的防御态势评估方法及装置
CN114492059B (zh) * 2022-02-07 2023-02-28 清华大学 基于场能的多智能体对抗场景态势评估方法及装置
CN114578838B (zh) * 2022-03-01 2022-09-16 哈尔滨逐宇航天科技有限责任公司 一种适应多种构型飞行器的强化学习自抗扰姿态控制方法
CN115113642B (zh) * 2022-06-02 2023-06-20 中国航空工业集团公司沈阳飞机设计研究所 一种多无人机时空关键特征自学习协同对抗决策方法
CN115047907B (zh) * 2022-06-10 2024-05-07 中国电子科技集团公司第二十八研究所 一种基于多智能体ppo算法的空中同构编队指挥方法
CN115484205B (zh) * 2022-07-12 2023-12-01 北京邮电大学 确定性网络路由与队列调度方法及装置
CN116679742B (zh) * 2023-04-11 2024-04-02 中国人民解放军海军航空大学 一种多六自由度飞行器协同作战决策方法
CN116187787B (zh) * 2023-04-25 2023-09-12 中国人民解放军96901部队 作战资源跨域调配问题的智能规划方法
CN116880186B (zh) * 2023-07-13 2024-04-16 四川大学 一种数据驱动的自适应动态规划空战决策方法
CN116909155B (zh) * 2023-09-14 2023-11-24 中国人民解放军国防科技大学 基于持续强化学习的无人机自主机动决策方法及装置
CN117313561B (zh) * 2023-11-30 2024-02-13 中国科学院自动化研究所 无人机智能决策模型训练方法及无人机智能决策方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110404264A (zh) * 2019-07-25 2019-11-05 哈尔滨工业大学(深圳) 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、***及存储介质
WO2020000399A1 (zh) * 2018-06-29 2020-01-02 东莞理工学院 一种基于智能电网的多智能体深度强化学习代理方法
WO2020024097A1 (zh) * 2018-07-30 2020-02-06 东莞理工学院 基于深度强化学习的自适应博弈算法
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及***
CN112947581A (zh) * 2021-03-25 2021-06-11 西北工业大学 基于多智能体强化学习的多无人机协同空战机动决策方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020000399A1 (zh) * 2018-06-29 2020-01-02 东莞理工学院 一种基于智能电网的多智能体深度强化学习代理方法
WO2020024097A1 (zh) * 2018-07-30 2020-02-06 东莞理工学院 基于深度强化学习的自适应博弈算法
CN110404264A (zh) * 2019-07-25 2019-11-05 哈尔滨工业大学(深圳) 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、***及存储介质
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及***
CN112947581A (zh) * 2021-03-25 2021-06-11 西北工业大学 基于多智能体强化学习的多无人机协同空战机动决策方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度强化学习的兵棋推演决策方法框架;崔文华;李东;唐宇波;柳少军;;国防科技(02);全文 *

Also Published As

Publication number Publication date
CN113791634A (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
CN113791634B (zh) 一种基于多智能体强化学习的多机空战决策方法
CN111880563B (zh) 一种基于maddpg的多无人机任务决策方法
Yang et al. Maneuver decision of UAV in short-range air combat based on deep reinforcement learning
CN111859541B (zh) 一种基于迁移学习改进的pmaddpg多无人机任务决策方法
CN113050686B (zh) 一种基于深度强化学习的作战策略优化方法及***
CN111240353A (zh) 基于遗传模糊树的无人机协同空战决策方法
CN112198892B (zh) 一种多无人机智能协同突防对抗方法
CN114330115B (zh) 一种基于粒子群搜索的神经网络空战机动决策方法
CN115291625A (zh) 基于多智能体分层强化学习的多无人机空战决策方法
CN114063644B (zh) 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法
CN114492805A (zh) 一种基于模糊推理的空战机动决策设计方法
CN115903865A (zh) 一种飞行器近距空战机动决策实现方法
CN113893539A (zh) 智能体的协同对战方法及装置
CN115755956B (zh) 一种知识与数据协同驱动的无人机机动决策方法与***
CN114638339A (zh) 基于深度强化学习的智能体任务分配方法
CN113625569A (zh) 一种基于深度强化学习和规则驱动的小型无人机防控混合决策方法及***
CN115933717A (zh) 基于深度强化学习的无人机智能空战机动决策训练***及方法
CN114815891A (zh) 一种基于per-idqn的多无人机围捕战术方法
CN113741186B (zh) 一种基于近端策略优化的双机空战决策方法
Xianyong et al. Research on maneuvering decision algorithm based on improved deep deterministic policy gradient
CN117313561B (zh) 无人机智能决策模型训练方法及无人机智能决策方法
Zhu et al. Mastering air combat game with deep reinforcement learning
CN116520884A (zh) 一种基于分层强化学习的无人机集群对抗策略优化方法
Ma et al. Strategy generation based on reinforcement learning with deep deterministic policy gradient for UCAV
Wang et al. Research on naval air defense intelligent operations on deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant