CN112052511A - 一种基于深度随机博弈的空战机动策略生成技术 - Google Patents

一种基于深度随机博弈的空战机动策略生成技术 Download PDF

Info

Publication number
CN112052511A
CN112052511A CN202010546485.XA CN202010546485A CN112052511A CN 112052511 A CN112052511 A CN 112052511A CN 202010546485 A CN202010546485 A CN 202010546485A CN 112052511 A CN112052511 A CN 112052511A
Authority
CN
China
Prior art keywords
air combat
strategy
game
state
random game
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010546485.XA
Other languages
English (en)
Inventor
马文
王壮
吴昭欣
李辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Rongao Technology Co ltd
Original Assignee
Chengdu Rongao Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Rongao Technology Co ltd filed Critical Chengdu Rongao Technology Co ltd
Priority to CN202010546485.XA priority Critical patent/CN112052511A/zh
Publication of CN112052511A publication Critical patent/CN112052511A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/14Force analysis or force optimisation, e.g. static or dynamic forces

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computational Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度随机博弈的近距空战机动策略生成技术,包括以下步骤:首先,依据1V1近距空战流程构建战机博弈对抗的训练环境,并设置敌方机动策略;其次,以随机博弈为标准,构建空战对抗双方的智能体,确定每个智能体的状态空间、动作空间和奖励函数;然后,使用随机博弈与深度强化学习相结合的极大极小值DQN算法构建神经网络,并训练我方智能体;最后,根据训练好的神经网络,通过线性规划方法得到空战态势下的最优机动策略,与敌方进行博弈对抗。本发明结合了随机博弈与深度强化学习的思想,提出了极大极小值DQN算法来获取一种最优的空战机动策略,可以应用于现有的空战机动引导***中,能够实时准确地做出有效决策引导战机占据有利的态势位置。

Description

一种基于深度随机博弈的空战机动策略生成技术
技术领域
本发明涉及空战博弈机动策略生成技术领域,特别设计一种基于深度随机博弈的空战机动策略生成技术。
背景技术
空中力量在现代战争中起着越来越重要的作用,制空权的争夺很大程度上决定了战争的胜负。然而空中作战形势瞬息万变,需要采集的信息极为复杂,使得作战方在感知空战态势后做出决策变得困难,传统方法无法实现一种快速准确的空战策略。本发明提出了一种基于深度随机博弈的空战机动策略生成技术,该方法结合了深度强化学习和随机博弈的思想,能够有效地针对空战对手的行动策略实时地选择有利于我方的机动动作并取得优势地位,对空战博弈对抗中制空权的争夺具有重要意义。
发明内容
本发明提供了一种基于深度随机博弈的空战机动策略生成技术,旨在感知空战态势后快速准确地获取一种能有效对抗对手的最优机动策略。
实现本发明的技术方案为:一种基于深度随机博弈的空战机动策略生成技术,包括如下步骤:
S1:根据飞机的运动学和动力学方程,构建双方战机的运动模型,结合空战规则,建立智能体的训练环境,并设置敌方机动策略;
S2:构建基于随机博弈和深度强化学习的红蓝双方智能体,确定每个智能体的状态空间、动作空间和奖励函数;
S3:使用随机博弈与深度强化学习相结合的极大极小值DQN算法构建神经网络,并训练红方智能体;
S4:在空战博弈中,训练完成的红方智能体通过感知当前的空战态势,实时地生成最优机动策略,与蓝方进行博弈对抗,引导战机在空战中占据有利的态势位置。
作为优选的技术方案,步骤S3中,所述极大极小值DQN算法训练智能体的过程包括:
S301:利用DQN处理战机的连续无限状态空间,创建两个神经网络,分别为当前Q网络和目标Q网络,初始化当前Q网络参数为θ,目标Q网络参数为θ-=θ。神经网络的输入为战机的状态特征,输出为该状态下所有红方可选动作a与蓝方可选动作o对应的状态动作值函数Q(s,a,o);
S302:将智能体与环境交互得到的当前状态s、红方采取的动作a、蓝方采取的动作o、红方获取的奖励值r以及执行动作到达的下一状态s'作为一个五元组 {s,a,o,r,s'}存储到记忆池;
S303:从记忆池中随机抽取一定大小的数据作为训练样本,将训练样本的s' 值作为神经网络的输入,根据神经网络输出得到状态s'下的Q[s'];
S304:采用极大极小值算法求解随机博弈状态s下的最优值函数为
Figure RE-GDA0002764351460000021
根据公式使用线性规划得到极大极小状态值V[s'],再根据公式target_q=(1-α)*Q[s,a,o,θ-]+α*(r+γ·V[s'])计算出目标Q值 target_q,式中α代表学习效率,r代表当前获得的奖励;γ代表折扣因子,是对未来奖励的衰减;
S305:计算损失函数loss=(target_q-Q(s,a,o,θ))2,采用梯度下降法进行优化,更新当前Q网络参数。
作为优选的技术方案,步骤S4中,所述生成最优机动策略的方法是根据公式
Figure RE-GDA0002764351460000022
使用训练好的神经网络输出的Q值进行线性规划求解得到最优策略π,红方智能体根据策略π采用轮盘赌选法选择动作,引导战机占据有利态势位置。
本发明相对于现有技术具有如下的优点和效果:
1.本发明利用基于深度强化学习的技术,大大提高了计算效率,能够在5ms 内生成一条指令,保证了策略生成的实时性。
2.本发明构建仿真环境,引入深度强化学习等方法探索一种近距空战机动策略智能生成技术,通过搭建面向深度强化学习的仿真环境,利用DQN算法训练网络生成指令,具有较高的适应性和智能性。
3.本发明结合随机博弈的思想,通过极大极小值算法求纳什均衡解,与传统方法相比,能够更加准确地针对对手可能执行的最优决策来选择自己的机动策略,从而可以有效应对高决策水平的对手,提高了我方博弈对抗的胜率。
附图说明
图1为本发明实施例的步骤流程图;
图2为本发明实施例的红蓝双方战机相对几何关系图;
图3为本发明实施例的极大极小值DQN算法训练过程示意图;
图4为本发明实施例的极大极小值DQN算法流程图;
具体实施方式
为了使本发明的目的、技术方案以及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
在本实施例中,红蓝双方战机进行1V1近距空战机动博弈,一种基于深度随机博弈的空战机动策略生成技术,智能化生成机动策略,引导红方战机在空战中到达有利态势位置;如图1所示,该方法包括下述步骤:
S1:根据飞机的运动学和动力学方程,构建双方战机的运动模型,结合空战规则,建立智能体的训练环境,并设置敌方机动策略;
S2:构建基于随机博弈和深度强化学习的红蓝双方智能体,确定每个智能体的状态空间、动作空间和奖励函数;
S3:使用随机博弈与深度强化学习相结合的极大极小值DQN算法构建神经网络,并训练红方智能体;
S4:在空战博弈中,训练完成的红方智能体通过感知当前的空战态势,实时地生成最优机动策略,与蓝方进行博弈对抗,引导战机在空战中占据有利的态势位置。
所述步骤S1具体包括以下步骤:
在本实施例中,设定空战博弈的环境,空域范围限制在水平面内,水平面横坐标x∈[-10km,10km],水平面纵坐标y∈[-10km,10km]。根据飞机的运动学和动力学方程,构建战机的运动模型如下:
Figure RE-GDA0002764351460000041
其中,(xpos,ypos)表示战机在坐标系下的位置,υ表示战机速度,ψ表示航迹偏角,φ和
Figure RE-GDA0002764351460000042
分别表示滚转角和滚转角变化率,其中航迹偏角的限制范围为 [-180°,180°],滚转角的范围根据实际飞机最大转弯能力限制;
在本实施例中,红方战机的目标是在蓝方战机背后取得并保持优势地位,使用视界角(AA)和天线偏转角(ATA)来量化这个优势位置,航向交叉角(HCA) 也用于描述红蓝战机之间的朝向差异。红蓝双方战机相对几何关系如图2所示。
所述步骤S2具体包含以下步骤:
根据影响战机空战态势的因素,构建红蓝双方基于随机博弈的状态空间为
Figure RE-GDA0002764351460000043
其中,
Figure RE-GDA0002764351460000044
表示红方战机的坐标位置、
Figure RE-GDA0002764351460000045
表示蓝方战机坐标位置、
Figure RE-GDA0002764351460000046
和φr表示红方战机的航迹偏角与滚转角,
Figure RE-GDA0002764351460000047
和φb表示蓝方战机的航迹偏角与滚转角;
在本实施例中,战机的可选机动动作设置为向左滚转、维持滚转和向右滚转,分别用L,S,R代表这3种可选动作,构建离散的动作空间,红方的动作空间为 Ar={L,S,R},蓝方动作空间为Ab={L,S,R};
在本实施例中,战机的优势奖励函数主要根据视界角(AA)和天线偏转角(ATA) 来量化。战机占据有利态势需要满足的要求如下:
Figure RE-GDA0002764351460000048
其中,D表示红蓝双方战机的欧氏距离,Dmin和Dmax分别表示满足优势态势的最小与最大距离,本实施例中分别为100米和500米,AA表示战机的视界角,其绝对值应小于AAmax,本实施例中为60度,ATA表示战机的天线偏转角,其绝对值应小于ATAmax,本实施例中为30度。同时满足上式三个条件则判定战机取得优势,并获得奖励值r=1,若取得优势地位的是敌方,则战机获取的奖励值 r=-1,此外其他情况判定为平局且战机获取奖励值r=0。
所述步骤S3具体包含以下步骤:
S301:利用DQN处理战机的连续无限状态空间,创建两个神经网络,分别为当前Q网络和目标Q网络,初始化当前Q网络参数为θ,目标Q网络参数为θ-=θ。神经网络的输入为战机的状态特征,输出为该状态下所有红方可选动作a与蓝方可选动作o对应的状态动作值函数Q(s,a,o);
S302:将智能体与环境交互得到的当前状态s、红方采取的动作a、蓝方采取的动作o、对应的奖励值r以及执行动作到达的下一状态s'作为一个五元组 {s,a,o,r,s'}存储到记忆池,设置记忆库存储上限为100000组数据;
S303:从记忆池中随机抽取256组数据作为一个训练样本,将训练样本的s' 值作为神经网络的输入,根据神经网络输出得到状态s'下的Q[s'];
S304:采用极大极小值算法求解随机博弈状态s下的最优值函数为
Figure RE-GDA0002764351460000051
根据公式使用线性规划得到极大极小状态值V[s'],再根据公式target_q=(1-α)*Q[s,a,o,θ-]+α*(r+γ·V[s'])计算出目标Q值target_q,式中α代表学习效率,r代表当前获得的奖励;γ代表折扣因子,是对未来奖励的衰减;
S305:计算损失函数loss=(target_q-Q(s,a,o,θ))2,采用梯度下降法进行优化,更新Q网络参数。
极大极小值DQN训练过程示意图如图3所示,极大极小值DQN算法流程图如图4所示。
所述步骤S4具体包含以下步骤:
根据公式
Figure RE-GDA0002764351460000052
使用训练好的神经网络输出的Q值进行线性规划求解得到最优策略π,红方智能体根据策略π采用轮盘赌选法选择动作,引导战机占据有利态势位置。
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (3)

1.一种基于深度随机博弈的空战机动策略生成技术,其特征在于,包括以下步骤:
S1:根据飞机的运动学和动力学方程,构建双方战机的运动模型,结合空战规则,建立智能体的训练环境,并设置敌方机动策略;
S2:构建基于随机博弈和深度强化学习的红蓝双方智能体,确定每个智能体的状态空间、动作空间和奖励函数;
S3:使用随机博弈与深度强化学习相结合的极大极小值DQN算法构建神经网络,并训练红方智能体;
S4:在空战博弈中,训练完成的红方智能体通过感知当前的空战态势,实时地生成最优机动策略,与蓝方进行博弈对抗,引导战机在空战中占据有利的态势位置。
2.根据权利要求1所述的一种基于深度随机博弈的空战机动策略生成技术,其特征在于:步骤S3中,所述极大极小值DQN算法训练智能体的过程包括:
S301:利用DQN处理战机的连续无限状态空间,创建两个神经网络,分别为当前Q网络和目标Q网络,初始化当前Q网络参数为θ,目标Q网络参数为θ-=θ。神经网络的输入为战机的状态特征,输出为该状态下所有红方可选动作a与蓝方可选动作o对应的状态动作值函数Q(s,a,o);
S302:将智能体与环境交互得到的当前状态s、红方采取的动作a、蓝方采取的动作o、红方获取的奖励值r以及执行动作到达的下一状态s'作为一个五元组{s,a,o,r,s'}存储到记忆池;
S303:从记忆池中随机抽取一定大小的数据作为训练样本,将训练样本的s'值作为神经网络的输入,根据神经网络输出得到状态s'下的Q[s'];
S304:采用极大极小值算法求解随机博弈状态s下的最优值函数为
Figure RE-FDA0002764351450000011
根据公式使用线性规划得到极大极小状态值V[s'],再根据公式target_q=(1-α)*Q[s,a,o,θ-]+α*(r+γ·V[s'])计算出目标Q值target_q,式中α代表学习效率,r代表当前获得的奖励;γ代表折扣因子,是对未来奖励的衰减;
S305:计算损失函数loss=(target_q-Q(s,a,o,θ))2,采用梯度下降法进行优化,更新当前Q网络参数。
3.根据权利要求1所述的一种基于深度随机博弈的空战机动策略生成技术,其特征在于:步骤S4中生成最优机动策略的方法是根据公式
Figure RE-FDA0002764351450000021
使用训练好的神经网络输出的Q值进行线性规划求解得到最优策略π,红方智能体根据策略π采用轮盘赌选法选择动作,引导战机占据有利态势位置。
CN202010546485.XA 2020-06-15 2020-06-15 一种基于深度随机博弈的空战机动策略生成技术 Pending CN112052511A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010546485.XA CN112052511A (zh) 2020-06-15 2020-06-15 一种基于深度随机博弈的空战机动策略生成技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010546485.XA CN112052511A (zh) 2020-06-15 2020-06-15 一种基于深度随机博弈的空战机动策略生成技术

Publications (1)

Publication Number Publication Date
CN112052511A true CN112052511A (zh) 2020-12-08

Family

ID=73601854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010546485.XA Pending CN112052511A (zh) 2020-06-15 2020-06-15 一种基于深度随机博弈的空战机动策略生成技术

Country Status (1)

Country Link
CN (1) CN112052511A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113050686A (zh) * 2021-03-19 2021-06-29 北京航空航天大学 一种基于深度强化学习的作战策略优化方法及***
CN113095481A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于并行自我博弈的空战机动方法
CN113093802A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于深度强化学习的无人机机动决策方法
CN113221444A (zh) * 2021-04-20 2021-08-06 中国电子科技集团公司第五十二研究所 一种面向空中智能博弈的行为模仿训练方法
CN113282061A (zh) * 2021-04-25 2021-08-20 南京大学 一种基于课程学习的无人机空中博弈对抗的解决方法
CN113704979A (zh) * 2021-08-07 2021-11-26 中国航空工业集团公司沈阳飞机设计研究所 一种基于随机神经网络的空中对抗机动控制方法
CN113721645A (zh) * 2021-08-07 2021-11-30 中国航空工业集团公司沈阳飞机设计研究所 一种基于分布式强化学习的无人机连续机动控制方法
CN113822409A (zh) * 2021-09-18 2021-12-21 中国电子科技集团公司第五十四研究所 一种基于异构多智能体强化学习的多无人机协同突防方法
CN113962012A (zh) * 2021-07-23 2022-01-21 中国科学院自动化研究所 无人机对抗策略优化方法及装置
CN114371729A (zh) * 2021-12-22 2022-04-19 中国人民解放军军事科学院战略评估咨询中心 一种基于距离优先经验回放的无人机空战机动决策方法
CN114460959A (zh) * 2021-12-15 2022-05-10 北京机电工程研究所 一种基于多体博弈的无人机群协同自主决策方法及装置
CN117130379A (zh) * 2023-07-31 2023-11-28 南通大学 一种基于lqr近视距的无人机空战攻击方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819264A (zh) * 2012-07-30 2012-12-12 山东大学 移动机器人路径规划q学习初始化方法
CN109241552A (zh) * 2018-07-12 2019-01-18 哈尔滨工程大学 一种基于多约束目标的水下机器人运动规划方法
CN110533932A (zh) * 2019-08-06 2019-12-03 银江股份有限公司 一种基于滚动优化的城市级全域交通信号推荐方法及***
CN111160565A (zh) * 2019-12-18 2020-05-15 四川大学 一种基于强化学习的空战博弈机动策略交替冻结训练方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819264A (zh) * 2012-07-30 2012-12-12 山东大学 移动机器人路径规划q学习初始化方法
CN109241552A (zh) * 2018-07-12 2019-01-18 哈尔滨工程大学 一种基于多约束目标的水下机器人运动规划方法
CN110533932A (zh) * 2019-08-06 2019-12-03 银江股份有限公司 一种基于滚动优化的城市级全域交通信号推荐方法及***
CN111160565A (zh) * 2019-12-18 2020-05-15 四川大学 一种基于强化学习的空战博弈机动策略交替冻结训练方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
姚桐等: ""深度强化学习在作战任务规划中的应用"", 《飞航导弹》 *
孙彧等: ""多智能体深度强化学习研究综述"", 《计算机工程与应用》 *
小草CYS: ""多智能体强化学习入门(二)——基础算法(MiniMax-Q,NashQ,FFQ,WoLF-PHC)"", 《CSDN》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113050686A (zh) * 2021-03-19 2021-06-29 北京航空航天大学 一种基于深度强化学习的作战策略优化方法及***
CN113095481A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于并行自我博弈的空战机动方法
CN113093802A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于深度强化学习的无人机机动决策方法
CN113095481B (zh) * 2021-04-03 2024-02-02 西北工业大学 一种基于并行自我博弈的空战机动方法
CN113093802B (zh) * 2021-04-03 2022-08-02 西北工业大学 一种基于深度强化学习的无人机机动决策方法
CN113221444A (zh) * 2021-04-20 2021-08-06 中国电子科技集团公司第五十二研究所 一种面向空中智能博弈的行为模仿训练方法
CN113282061A (zh) * 2021-04-25 2021-08-20 南京大学 一种基于课程学习的无人机空中博弈对抗的解决方法
CN113962012A (zh) * 2021-07-23 2022-01-21 中国科学院自动化研究所 无人机对抗策略优化方法及装置
CN113962012B (zh) * 2021-07-23 2024-05-24 中国科学院自动化研究所 无人机对抗策略优化方法及装置
CN113721645A (zh) * 2021-08-07 2021-11-30 中国航空工业集团公司沈阳飞机设计研究所 一种基于分布式强化学习的无人机连续机动控制方法
CN113704979A (zh) * 2021-08-07 2021-11-26 中国航空工业集团公司沈阳飞机设计研究所 一种基于随机神经网络的空中对抗机动控制方法
CN113704979B (zh) * 2021-08-07 2024-05-10 中国航空工业集团公司沈阳飞机设计研究所 一种基于随机神经网络的空中对抗机动控制方法
CN113822409A (zh) * 2021-09-18 2021-12-21 中国电子科技集团公司第五十四研究所 一种基于异构多智能体强化学习的多无人机协同突防方法
CN113822409B (zh) * 2021-09-18 2022-12-06 中国电子科技集团公司第五十四研究所 一种基于异构多智能体强化学习的多无人机协同突防方法
CN114460959A (zh) * 2021-12-15 2022-05-10 北京机电工程研究所 一种基于多体博弈的无人机群协同自主决策方法及装置
CN114371729A (zh) * 2021-12-22 2022-04-19 中国人民解放军军事科学院战略评估咨询中心 一种基于距离优先经验回放的无人机空战机动决策方法
CN117130379A (zh) * 2023-07-31 2023-11-28 南通大学 一种基于lqr近视距的无人机空战攻击方法
CN117130379B (zh) * 2023-07-31 2024-04-16 南通大学 一种基于lqr近视距的无人机空战攻击方法

Similar Documents

Publication Publication Date Title
CN112052511A (zh) 一种基于深度随机博弈的空战机动策略生成技术
CN113791634B (zh) 一种基于多智能体强化学习的多机空战决策方法
CN108168381B (zh) 一种多枚导弹协同作战的控制方法
CN113095481A (zh) 一种基于并行自我博弈的空战机动方法
CN112902767B (zh) 一种多弹时间协同的导弹制导方法及***
CN113050686B (zh) 一种基于深度强化学习的作战策略优化方法及***
CN113893539B (zh) 智能体的协同对战方法及装置
CN114460959A (zh) 一种基于多体博弈的无人机群协同自主决策方法及装置
CN114330115B (zh) 一种基于粒子群搜索的神经网络空战机动决策方法
CN112859921B (zh) 一种三维同时攻击鲁棒协同制导律设计方法
CN113282061A (zh) 一种基于课程学习的无人机空中博弈对抗的解决方法
CN113741500B (zh) 仿哈里斯鹰智能捕食优化的无人机空战机动决策方法
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN114063644B (zh) 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法
CN113962012A (zh) 无人机对抗策略优化方法及装置
CN115688268A (zh) 一种飞行器近距空战态势评估自适应权重设计方法
CN113741186B (zh) 一种基于近端策略优化的双机空战决策方法
CN116243727A (zh) 一种渐进式深度强化学习的无人载具对抗与避障方法
Yuan et al. Research on UCAV maneuvering decision method based on heuristic reinforcement learning
CN116700079A (zh) 基于ac-nfsp的无人机对抗占位机动控制方法
CN117313561B (zh) 无人机智能决策模型训练方法及无人机智能决策方法
CN116107213A (zh) 一种基于sac和lgvf的航天器追捕任务组合优化控制方法
CN114815891A (zh) 一种基于per-idqn的多无人机围捕战术方法
CN114997054A (zh) 一种兵棋对弈模拟方法及装置
CN116796843A (zh) 一种基于pso-m3ddpg的无人机多对多追逃博弈方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201208

WD01 Invention patent application deemed withdrawn after publication