CN111897316B - 一种场景快变条件下的多飞行器自主决策方法 - Google Patents
一种场景快变条件下的多飞行器自主决策方法 Download PDFInfo
- Publication number
- CN111897316B CN111897316B CN202010575719.3A CN202010575719A CN111897316B CN 111897316 B CN111897316 B CN 111897316B CN 202010575719 A CN202010575719 A CN 202010575719A CN 111897316 B CN111897316 B CN 111897316B
- Authority
- CN
- China
- Prior art keywords
- aircraft
- distance
- action
- ith
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000006870 function Effects 0.000 claims abstract description 56
- 238000001514 detection method Methods 0.000 claims abstract description 42
- 230000009471 action Effects 0.000 claims abstract description 37
- 230000003068 static effect Effects 0.000 claims abstract description 32
- 238000013528 artificial neural network Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000005457 optimization Methods 0.000 claims abstract description 7
- 230000002787 reinforcement Effects 0.000 claims abstract description 7
- 230000006399 behavior Effects 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000001186 cumulative effect Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 2
- 230000003111 delayed effect Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000013526 transfer learning Methods 0.000 abstract 1
- 230000001133 acceleration Effects 0.000 description 5
- 230000002567 autonomic effect Effects 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/104—Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Game Theory and Decision Science (AREA)
- Medical Informatics (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种场景快变条件下的多飞行器自主决策方法,属于飞行器技术领域;所述的场景快变条件下的多飞行器自主决策方法,具体为:首先,每个飞行器分别搭载一个激光雷达进行目标探测,根据返回的三维点云数据,识别探测范围内的静态障碍物或其他飞行器;然后利用飞行器的三维点云数据构建自主冲突解脱模型;基于多智能体强化学习框架进行求解,得到根据输入状态选择动作的奖励函数;最后,神经网络学习模块基于奖励函数进行中心化训练和非中心化执行,通过收敛的神经网络计算出基于某状态的所有可采取的动作值,并根据组合优化求解多智能体行为动作。本发明当场景信息改变时可利用迁移学习技术进行继承训练,迁移性较好。
Description
技术领域
本发明属于飞行器技术领域,涉及一种冲突解脱方法,具体是指一种场景快变条件下的多飞行器自主决策方法。
背景技术
随着航空科学技术的快速发展,在复杂恶劣、高风险的作业环境中,低空小型飞行器在空中监视、森林救援、侦察勘探和军事应用等方面获得了广泛的应用。由此,多飞行器自主决策中的路径规划和冲突解脱问题引起了国内外学者的广泛关注。
实际低空运行环境存在一个最主要的特性是场景复杂高动态,可能存在运动特性未知的动态威胁,并且许多实际任务中,智能体的目标一般不是静态的,而是动态变化的,而现有飞行器的调控主要依赖于预先规划或既定的动作集,难以适应未来的复杂性和动态性场景。
多飞行器自主决策是一个典型的多智能体协同问题,我们希望智能体具有向环境学习的能力,即自动获取知识、积累经验、不断更新和扩充知识,改善知识性能。所谓的学习能力,就是智能体通过试验、观察和推测来更新知识的能力。智能体只有通过不断的学习,才能完善自身的适应能力,依靠与环境不断的交互来获得知识。
发明内容
针对上述问题,本发明提供一种场景快变条件下的多飞行器自主决策方法,充分考虑了场景的动态性,提高了多飞行器的学习能力。
所述的场景快变条件下的多飞行器自主决策方法,包括如下步骤:
步骤一、针对NU架飞行器和NT个目标构成的场景,每个飞行器分别搭载一个激光雷达传感器,在探测范围内定期发送雷达回波信号;
每架飞行器分别对应一个目标,目标初始值随机设定。NU和NT的取值相同。
步骤二、每个飞行器根据雷达回波信号返回的三维点云数据,识别探测范围内的静态障碍物或其他飞行器;
当探测到其他飞行器时,返回的三维点云数据为其他飞行器的三维坐标及速度方向,当探测到静态障碍时,返回的三维点云数据是静态障碍物的边界坐标,若无障碍物返回的三维点云数据为0。
步骤三、针对时隙t,第i架飞行器与其他飞行器的三维点云数据构建自主冲突解脱模型;
自主冲突解脱模型的目标为每个飞行器到达各自目标点的距离最短,目标函数如下:
s.t.R1,R2,R3
di表示第i架飞行器与该飞行器对应的目标点之间的距离。
三个约束条件分别如下:
(1)R1表示每个飞行器都要到达各自的目标位置的回报函数;计算公式为:
(3)R3表示任意飞行器之间不能发生碰撞的回报函数,计算公式为:
步骤四、基于多智能体强化学习框架对多飞行器自主冲突解脱模型进行求解,得到根据输入状态选择动作的奖励函数;
奖励函数包括以下:
(1)每个飞行器与各自目标的初始位置之间的最短路径设定的奖励函数ra;
首先,设定初始ra=0;
最后,累积计算NU架飞行器在时刻t,选择各自动作后的当前位置与各自的目标位置之间的距离之和,并更新奖励函数ra;
因此,若累积的各飞行器距离之和越大,则表明联合策略越差;反之,则表明联合策略好。
(2)对飞行器和障碍物进行碰撞检测设定的奖励函数rb;
首先,设定初始rb=0;
累积计算NU架飞行器在时刻t各自对应的惩罚值之和,并更新奖励函数rb:
因此,若飞行器距离障碍物越近,则整个多飞行器自主决策获得的联合收益越小。
(3)对飞行器和飞行器间进行碰撞检测设定的奖励函数rc;
首先,设定初始rc=0;
此处设定对其他飞行器的观测存在噪声且有一个时间步的延迟。
累积计算NU架飞行器在时刻t各自对应的惩罚值之和,并更新惩罚函数rc:
因此,若飞行器距离其他飞行器越近,则整个多飞行器自主决策获得的联合收益越小。
步骤五、神经网络学习模块基于奖励函数进行中心化训练和非中心化执行,通过收敛的神经网络计算出基于某状态的所有可采取的动作值,并根据组合优化求解多智能体行为动作。
本发明的优点在于:
(1)本发明一种场景快变条件下的多飞行器自主决策方法,针对低空空域复杂高动态,多元要素的运行特性未知,空域环境与交通对象的耦合关系更加复杂,加之任务复杂快变的场景作为研究背景,有很重要的现实意义。
(2)本发明一种场景快变条件下的多飞行器自主决策方法,除了充分考虑场景的动态性,还考虑了非完全信息和非理想通信,提出了指导飞行器自主决策方法,相比于启发式方法和传统优化方法,当场景信息改变时可利用迁移学习技术进行继承训练,不需要重新设计和训练算法,迁移性较好。
附图说明
图1为本发明飞行器进行冲突探测时激光雷达的探测范围示意图。
图2为本发明多智能体强化学习模型示意图。
图3为本发明的飞行器安全距离示意图。
图4为本发明一种场景快变条件下的多飞行器自主决策方法流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图对本发明作进一步的详细和深入描述。
本发明提供一种场景快变条件下的多飞行器自主决策方法,针对的复杂高动态场景具有以下特征:(1)场景中静态、动态障碍并存,目标在飞行过程中可能发生动态变化;(2)单个无人机感知范围有限无法获得全局信息;(3)无人机之间可以进行通信来共享局部空域信息;(4)无人机之间的通信存在干扰和随机丢失;将多飞行器自主决策分解为两个子问题:(1)路径规划;(2)冲突解脱。对于路径规划和冲突解脱,作为优化问题已经被证明是一个NP-hard问题,需要使用启发式算法进行求解。所以,一种求解多飞行器自主决策的方法可以通过分治完成:通过先求解路径规划和冲突解脱两个子问题,再组合两个子问题的解作为最终解。
如图4所示,所述飞行器自主决策方法包括如下步骤:
步骤一、针对NU架飞行器和NT个目标构成的场景,每个飞行器分别搭载一个激光雷达传感器,在探测范围内定期进行冲突探测,并发送雷达回波信号;
飞行冲突探测采用基于雷达***的非合作威胁冲突探测,激光雷达在自主导航技术中发挥中重要作用。激光雷达的主要性能参数有激光的波长、探测距离、视场角(FOV),视场角分为水平视场角和垂直视场角。最常用的两种激光雷达波长为905nm和1550nm。1550nm波长雷达传感器可以以更高的功率运行,探测距离比905nm波长的远,但是重量更大。
本发明假设有NU架飞行器和NT个目标,每架飞行器分别对应一个目标,目标初始值随机设定;NU和NT的取值相同。针对第i架飞行器Xi,在时刻t的状态为动作为状态由飞行器所搭载的激光雷达传感器机载测量设备返回的三维点云数据来获取静态障碍的位置信息;
步骤二、每个飞行器根据雷达回波信号返回的三维点云数据,识别探测范围内的静态障碍物或其他飞行器;
将飞行器视为质点,飞行器在探测范围内定期发送雷达回波信号,当探测到其他飞行器时,返回的三维点云数据为其他飞行器的三维坐标及速度方向,当探测到静态障碍时,返回的三维点云数据是静态障碍物的边界坐标,若无障碍物返回的三维点云数据为0。
步骤三、针对时隙t,第i架飞行器与其他飞行器的三维点云数据构建自主决策建模模型;
本发明从观察值、动作以及回报函数三方面描述自主决策问题的设计过程。
1)观察值st:在每个时刻t,t=1,2,...,T,T表示飞行器到达目标的最大时刻;因为强化学习中的代理会根据收集到的当前状态与飞行器奖励值制定一个控制决策,所以要先构建观察值st,第i架飞行器Xi在时刻t的状态观察值表示为所有飞行器构成的多智能体***的联合状态表示为
ρj(t)∈[0,ρmax]表示第j架飞行器在时刻t作为起始时刻收到的俯仰方向速度,ρmax表示俯仰方向最大速度。
集合at中元素的个数为2×|NU|,从代理收到了动作at之后,第j架飞行器将决定在当前位置悬停或者移动到一个新的位置,实现了飞行器连续移动的控制。
3)回报函数rt:自主决策问题的目标是每架飞行器到达各自对应目标点的距离最短,因此会存在三个不同的约束(飞行器要完成目标,飞行器与障碍或飞行器之间不能发生碰撞),为了设计回报函数,本发明采用分开讨论自主避险问题的目标与约束。
除此,又分别设计了三个约束条件,需要满足以下约束:
(1)所有的目标都要完成到:
R1表示每个飞行器都要到达各自的目标位置的回报函数;计算公式为:
(2)飞行器与障碍之间不能发生碰撞:
R2表示每个飞行器与静态障碍物之间都不能发生碰撞的回报函数,计算公式为:Pi是第i架飞行器的路径, 表示飞行器在时刻T的飞行位置坐标;Dm代表第m个静态障碍物;m∈[1,NM],NM表示场景中静态障碍物的总数。
(3)飞行器之间不能发生碰撞:
R3表示任意飞行器之间不能发生碰撞的回报函数,计算公式为:
所以,多飞行器自主决策问题现在转化为一个组合优化问题,即自主冲突解脱模型的目标为每个飞行器到达各自目标点的距离最短,目标函数如下:
s.t.R1,R2,R3
步骤四、基于多智能体强化学习(MADDPG)框架对多飞行器自主决策模型进行求解,得到根据输入状态选择动作的奖励函数;
具体过程如下:
1)建立多智能体神经网络
每个智能体(Agent)的状态空间和动作空间被抽象成与飞行器完全一致。每个智能体的策略由参数θ决定, 表示第NU个飞行器的神经网络参数。智能体的策略为μ, 表示飞行器在神经网络参数为θi时的策略。令智能体的策略为确定型策略,则智能体的动作完全由其策略与其对应的参数决定:
ai为第i架飞行器的动作;οi表示第i架飞行器的观测,包含了智能体与障碍、目标和其他智能体之间的距离信息;θi表示第i架飞行器的神经网络参数。
ri表示第i架飞行器的奖励函数;γ∈(0,1)表示衰减因子;表示第NU架飞行器下一时刻的动作;a'j表示第j架飞行器下一时刻的动作;μ'j为第j架飞行器下一时刻的策略、οj表示第j架飞行器的观测;和结构完全一样,但是参数更新滞后于的神经网络产生。表示参数更新滞后于的评论家网络策略动作值函数,物理含义辅助动作网络训练更好,动作网络按照下式进行更新:
其中,J表示动作网络目标函数;S代表了随机抽取的一小批样本。
整个设计的模型如图2所示。
2)奖励函数设计
为了满足约束条件,需要对MADDPG进行奖励函数的设计;如图3所示,奖励函数包括以下:
(1)累积每个飞行器与各自目标的初始位置之间的最短路径设定的奖励函数ra;
首先,设定初始ra=0;
最后,累积计算NU架飞行器在时刻t,选择各自动作后的当前位置与各自的目标位置之间的距离之和,并更新奖励函数ra;
因此,若累积的各飞行器距离之和越大,则表明联合策略越差;反之,则表明联合策略好。
(2)对飞行器和障碍物进行碰撞检测设定的奖励函数rb;
为了保证飞行器和障碍物不发生碰撞,需要进行碰撞检测,首先,设定初始rb=0;
累积计算NU架飞行器在时刻t各自对应的惩罚值之和,并更新奖励函数rb:
因此,若飞行器距离障碍物越近,则整个多飞行器自主决策获得的联合收益越小。
(3)对飞行器和飞行器间进行碰撞检测设定的奖励函数rc;
为了保证飞行器和飞行器之间不发生碰撞,需要进行碰撞检测,首先,设定初始rc=0;
此处设定对其他飞行器的观测存在噪声且有一个时间步的延迟。
累积计算NU架飞行器在时刻t各自对应的惩罚值之和,并更新惩罚函数rc:
因此,若飞行器距离其他飞行器越近,则整个多飞行器自主决策获得的联合收益越小。
步骤五、神经网络学习模块基于奖励函数进行中心化训练和非中心化执行,通过收敛的神经网络计算出基于某状态的所有可采取的动作值,并根据组合优化求解多智能体行为动作。
每一个智能体都包含动作网络(Actor Network)和评论家网络(CriticNetwork)。每个Agent的Critic部分能够获取其余所有Agent的动作信息,进行中心化训练和非中心化执行,即在训练的时候,引入可以观察全局的critic来指导actor训练,而测试的时候只使用有局部观测的actor采取行动。
Claims (4)
1.一种场景快变条件下的多飞行器自主决策方法,其特征在于,包括如下步骤:
步骤一、针对NU架飞行器和NT个目标构成的场景,每个飞行器分别搭载一个激光雷达传感器,在探测范围内定期发送雷达回波信号;
步骤二、每个飞行器根据雷达回波信号返回的三维点云数据,识别探测范围内的静态障碍物或其他飞行器;
步骤三、针对时隙t,第i架飞行器与其他飞行器的三维点云数据构建自主冲突解脱模型;
自主冲突解脱模型的目标为每个飞行器到达各自目标点的距离最短,目标函数如下:
s.t.R1,R2,R3
di表示第i架飞行器与该飞行器对应的目标点之间的距离;
三个约束条件分别如下:
(1)R1表示每个飞行器都要到达各自的目标位置的回报函数;计算公式为:
(3)R3表示任意飞行器之间不能发生碰撞的回报函数,计算公式为:
步骤四、基于多智能体强化学习框架对多飞行器自主冲突解脱模型进行求解,得到根据输入状态选择动作的奖励函数;
奖励函数包括以下:
(1)每个飞行器与各自目标的初始位置之间的最短路径设定的奖励函数ra;
首先,设定初始ra=0;
最后,累积计算NU架飞行器在时刻t,选择各自动作后的当前位置与各自的目标位置之间的距离之和,并更新奖励函数ra;
因此,若累积的各飞行器距离之和越大,则表明联合策略越差;反之,则表明联合策略好;
(2)对飞行器和障碍物进行碰撞检测设定的奖励函数rb;
首先,设定初始rb=0;
累积计算NU架飞行器在时刻t各自对应的惩罚值之和,并更新奖励函数rb:
因此,若飞行器距离障碍物越近,则整个多飞行器自主决策获得的联合收益越小;
(3)对飞行器和飞行器间进行碰撞检测设定的奖励函数rc;
首先,设定初始rc=0;
此处设定对其他飞行器的观测存在噪声且有一个时间步的延迟;
累积计算NU架飞行器在时刻t各自对应的惩罚值之和,并更新惩罚函数rc:
因此,若飞行器距离其他飞行器越近,则整个多飞行器自主决策获得的联合收益越小;
步骤五、神经网络学习模块基于奖励函数进行中心化训练和非中心化执行,通过收敛的神经网络计算出基于某状态的所有可采取的动作值,并根据组合优化求解多智能体行为动作。
2.如权利要求1所述的一种场景快变条件下的多飞行器自主决策方法,其特征在于,所述的步骤一中,每架飞行器分别对应一个目标,目标初始值随机设定。
3.如权利要求1所述的一种场景快变条件下的多飞行器自主决策方法,其特征在于,所述的步骤二中,当探测到其他飞行器时,返回的三维点云数据为其他飞行器的三维坐标及速度方向,当探测到静态障碍时,返回的三维点云数据是静态障碍物的边界坐标,若无障碍物返回的三维点云数据为0。
4.如权利要求1所述的一种场景快变条件下的多飞行器自主决策方法,其特征在于,所述的步骤五中,每一个智能体都包含动作网络Actor Network和评论家网络CriticNetwork,每个Agent的Critic部分能够获取其余所有Agent的动作信息,进行中心化训练和非中心化执行,即在训练的时候,引入观察全局的critic来指导actor训练,而测试的时候只使用有局部观测的actor采取行动。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010575719.3A CN111897316B (zh) | 2020-06-22 | 2020-06-22 | 一种场景快变条件下的多飞行器自主决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010575719.3A CN111897316B (zh) | 2020-06-22 | 2020-06-22 | 一种场景快变条件下的多飞行器自主决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111897316A CN111897316A (zh) | 2020-11-06 |
CN111897316B true CN111897316B (zh) | 2021-05-14 |
Family
ID=73207769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010575719.3A Active CN111897316B (zh) | 2020-06-22 | 2020-06-22 | 一种场景快变条件下的多飞行器自主决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111897316B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11907335B2 (en) * | 2020-10-16 | 2024-02-20 | Cognitive Space | System and method for facilitating autonomous target selection |
CN112462804B (zh) * | 2020-12-24 | 2022-05-10 | 四川大学 | 基于ads-b和蚁群算法的无人机感知与规避策略 |
CN114679757B (zh) * | 2020-12-26 | 2023-11-03 | 中国航天科工飞航技术研究院(中国航天海鹰机电技术研究院) | 一种超高速低真空管道飞行器越区切换方法及装置 |
CN112633415B (zh) * | 2021-01-11 | 2023-05-19 | 中国人民解放军国防科技大学 | 基于规则约束训练的无人机集群智能任务执行方法和装置 |
CN113705921B (zh) * | 2021-09-03 | 2024-02-27 | 厦门闽江智慧科技有限公司 | 一种混合充电策略的电动汽车动态路径规划优化方法 |
CN114237235B (zh) * | 2021-12-02 | 2024-01-19 | 之江实验室 | 一种基于深度强化学习的移动机器人避障方法 |
CN114115350B (zh) * | 2021-12-02 | 2024-05-10 | 清华大学 | 飞行器的控制方法、装置及设备 |
CN114237293B (zh) * | 2021-12-16 | 2023-08-25 | 中国人民解放军海军航空大学 | 一种基于动态目标分配的深度强化学习队形变换方法及*** |
CN113962031B (zh) * | 2021-12-20 | 2022-03-29 | 北京航空航天大学 | 一种基于图神经网络强化学***台冲突消解方法 |
CN117177275B (zh) * | 2023-11-03 | 2024-01-30 | 中国人民解放军国防科技大学 | 基于scma-mec的物联网设备计算速率优化方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109116854A (zh) * | 2018-09-16 | 2019-01-01 | 南京大学 | 一种基于强化学习的多组机器人协作控制方法及控制*** |
CN109725532A (zh) * | 2018-12-24 | 2019-05-07 | 杭州电子科技大学 | 一种应用于多智能体间相对距离控制及自适应矫正方法 |
CN109992000A (zh) * | 2019-04-04 | 2019-07-09 | 北京航空航天大学 | 一种基于分层强化学习的多无人机路径协同规划方法及装置 |
WO2019234702A2 (en) * | 2018-06-08 | 2019-12-12 | Tata Consultancy Services Limited | Actor model based architecture for multi robot systems and optimized task scheduling method thereof |
CN110991545A (zh) * | 2019-12-10 | 2020-04-10 | 中国人民解放军军事科学院国防科技创新研究院 | 一种面向多智能体对抗的强化学习训练优化方法及装置 |
CN111045445A (zh) * | 2019-10-23 | 2020-04-21 | 浩亚信息科技有限公司 | 一种基于强化学习的飞行器智能避撞方法、设备、介质 |
CN111103881A (zh) * | 2019-12-25 | 2020-05-05 | 北方工业大学 | 一种多智能体编队防碰撞控制方法及*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11533593B2 (en) * | 2018-05-01 | 2022-12-20 | New York University | System method and computer-accessible medium for blockchain-based distributed ledger for analyzing and tracking environmental targets |
-
2020
- 2020-06-22 CN CN202010575719.3A patent/CN111897316B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019234702A2 (en) * | 2018-06-08 | 2019-12-12 | Tata Consultancy Services Limited | Actor model based architecture for multi robot systems and optimized task scheduling method thereof |
CN109116854A (zh) * | 2018-09-16 | 2019-01-01 | 南京大学 | 一种基于强化学习的多组机器人协作控制方法及控制*** |
CN109725532A (zh) * | 2018-12-24 | 2019-05-07 | 杭州电子科技大学 | 一种应用于多智能体间相对距离控制及自适应矫正方法 |
CN109992000A (zh) * | 2019-04-04 | 2019-07-09 | 北京航空航天大学 | 一种基于分层强化学习的多无人机路径协同规划方法及装置 |
CN111045445A (zh) * | 2019-10-23 | 2020-04-21 | 浩亚信息科技有限公司 | 一种基于强化学习的飞行器智能避撞方法、设备、介质 |
CN110991545A (zh) * | 2019-12-10 | 2020-04-10 | 中国人民解放军军事科学院国防科技创新研究院 | 一种面向多智能体对抗的强化学习训练优化方法及装置 |
CN111103881A (zh) * | 2019-12-25 | 2020-05-05 | 北方工业大学 | 一种多智能体编队防碰撞控制方法及*** |
Non-Patent Citations (2)
Title |
---|
A SATISFICING CONFLICT RESOLUTION APPROACH FOR MULTIPLE UAVS;YUMENG LI ETC;《IEEE INTERNET OF THINGS JOURNAL》;20190430;第6卷(第2期);全文 * |
航迹预测的多无人机任务规划方法;齐乃明等;《哈尔滨工业大学学报》;20160430;第48卷(第4期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111897316A (zh) | 2020-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111897316B (zh) | 一种场景快变条件下的多飞行器自主决策方法 | |
CN110456823B (zh) | 一种针对无人机计算与存储能力受限的双层路径规划方法 | |
Tisdale et al. | Autonomous UAV path planning and estimation | |
CN113848974B (zh) | 一种基于深度强化学习的飞行器轨迹规划方法及*** | |
CN110703804A (zh) | 一种固定翼无人机集群的分层防撞控制方法 | |
Tang et al. | Systematic review of collision-avoidance approaches for unmanned aerial vehicles | |
CN111811511A (zh) | 一种基于降维解耦机制的无人机集群实时航迹生成方法 | |
Wang et al. | Virtual reality technology of multi uavearthquake disaster path optimization | |
CN111880574B (zh) | 一种无人机避撞方法及*** | |
Li et al. | Autonomous maneuver decision-making for a UCAV in short-range aerial combat based on an MS-DDQN algorithm | |
Chen et al. | Path planning and cooperative control for multiple UAVs based on consistency theory and Voronoi diagram | |
CN114679729B (zh) | 一种雷达通信一体化的无人机协同多目标探测方法 | |
CN110825112B (zh) | 基于多无人机的油田动态侵入目标追踪***与方法 | |
CN113900449B (zh) | 多无人机轨迹规划方法、装置、无人机及存储介质 | |
Bodi et al. | Reinforcement learning based UAV formation control in GPS-denied environment | |
CN114138022A (zh) | 一种基于精英鸽群智能的无人机集群分布式编队控制方法 | |
Huang et al. | Cooperative collision avoidance method for multi-UAV based on Kalman filter and model predictive control | |
Yan et al. | Collaborative path planning based on MAXQ hierarchical reinforcement learning for manned/unmanned aerial vehicles | |
Duoxiu et al. | Proximal policy optimization for multi-rotor UAV autonomous guidance, tracking and obstacle avoidance | |
CN116822362A (zh) | 一种基于粒子群算法的无人机无冲突四维航迹规划方法 | |
Zhang et al. | Survey of safety management approaches to unmanned aerial vehicles and enabling technologies | |
Chronis et al. | Path planning of autonomous UAVs using reinforcement learning | |
CN113126647A (zh) | 一种基于领导者跟追随者原理的协同制导方法 | |
CN117170238B (zh) | 基于协作分布式mpc的异构无人机集群搜索算法 | |
Han | Small unmanned aircraft systems for cooperative source seeking with fractional order potential fields |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |