CN111897316B - 一种场景快变条件下的多飞行器自主决策方法 - Google Patents

一种场景快变条件下的多飞行器自主决策方法 Download PDF

Info

Publication number
CN111897316B
CN111897316B CN202010575719.3A CN202010575719A CN111897316B CN 111897316 B CN111897316 B CN 111897316B CN 202010575719 A CN202010575719 A CN 202010575719A CN 111897316 B CN111897316 B CN 111897316B
Authority
CN
China
Prior art keywords
aircraft
distance
action
ith
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010575719.3A
Other languages
English (en)
Other versions
CN111897316A (zh
Inventor
杜文博
曹先彬
李宇萌
郭通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202010575719.3A priority Critical patent/CN111897316B/zh
Publication of CN111897316A publication Critical patent/CN111897316A/zh
Application granted granted Critical
Publication of CN111897316B publication Critical patent/CN111897316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种场景快变条件下的多飞行器自主决策方法,属于飞行器技术领域;所述的场景快变条件下的多飞行器自主决策方法,具体为:首先,每个飞行器分别搭载一个激光雷达进行目标探测,根据返回的三维点云数据,识别探测范围内的静态障碍物或其他飞行器;然后利用飞行器的三维点云数据构建自主冲突解脱模型;基于多智能体强化学习框架进行求解,得到根据输入状态选择动作的奖励函数;最后,神经网络学习模块基于奖励函数进行中心化训练和非中心化执行,通过收敛的神经网络计算出基于某状态的所有可采取的动作值,并根据组合优化求解多智能体行为动作。本发明当场景信息改变时可利用迁移学习技术进行继承训练,迁移性较好。

Description

一种场景快变条件下的多飞行器自主决策方法
技术领域
本发明属于飞行器技术领域,涉及一种冲突解脱方法,具体是指一种场景快变条件下的多飞行器自主决策方法。
背景技术
随着航空科学技术的快速发展,在复杂恶劣、高风险的作业环境中,低空小型飞行器在空中监视、森林救援、侦察勘探和军事应用等方面获得了广泛的应用。由此,多飞行器自主决策中的路径规划和冲突解脱问题引起了国内外学者的广泛关注。
实际低空运行环境存在一个最主要的特性是场景复杂高动态,可能存在运动特性未知的动态威胁,并且许多实际任务中,智能体的目标一般不是静态的,而是动态变化的,而现有飞行器的调控主要依赖于预先规划或既定的动作集,难以适应未来的复杂性和动态性场景。
多飞行器自主决策是一个典型的多智能体协同问题,我们希望智能体具有向环境学习的能力,即自动获取知识、积累经验、不断更新和扩充知识,改善知识性能。所谓的学习能力,就是智能体通过试验、观察和推测来更新知识的能力。智能体只有通过不断的学习,才能完善自身的适应能力,依靠与环境不断的交互来获得知识。
发明内容
针对上述问题,本发明提供一种场景快变条件下的多飞行器自主决策方法,充分考虑了场景的动态性,提高了多飞行器的学习能力。
所述的场景快变条件下的多飞行器自主决策方法,包括如下步骤:
步骤一、针对NU架飞行器和NT个目标构成的场景,每个飞行器分别搭载一个激光雷达传感器,在探测范围内定期发送雷达回波信号;
每架飞行器分别对应一个目标,目标初始值随机设定。NU和NT的取值相同。
探测范围为:每个飞行器视为质点,
Figure BDA0002550901490000012
为最大探测距离的半径,水平探测范围角为θi,垂直探测范围角为
Figure BDA0002550901490000011
步骤二、每个飞行器根据雷达回波信号返回的三维点云数据,识别探测范围内的静态障碍物或其他飞行器;
当探测到其他飞行器时,返回的三维点云数据为其他飞行器的三维坐标及速度方向,当探测到静态障碍时,返回的三维点云数据是静态障碍物的边界坐标,若无障碍物返回的三维点云数据为0。
步骤三、针对时隙t,第i架飞行器与其他飞行器的三维点云数据构建自主冲突解脱模型;
自主冲突解脱模型的目标为每个飞行器到达各自目标点的距离最短,目标函数如下:
Figure BDA0002550901490000021
s.t.R1,R2,R3
di表示第i架飞行器与该飞行器对应的目标点之间的距离。
三个约束条件分别如下:
(1)R1表示每个飞行器都要到达各自的目标位置的回报函数;计算公式为:
Figure BDA0002550901490000022
i′∈{1,2,…,NT};Si′表示目标完成程度的判断,若某目标未完成,则Si′=-1,反之,目标完成,则Si′=0。
(2)R2表示每个飞行器与静态障碍物之间都不能发生碰撞的回报函数,计算公式为:
Figure BDA0002550901490000023
Pi是第i架飞行器的路径,Dm代表第m个静态障碍物;m∈[1,NM],NM表示场景中静态障碍物的总数。
(3)R3表示任意飞行器之间不能发生碰撞的回报函数,计算公式为:
Figure BDA0002550901490000024
Figure BDA0002550901490000025
为第i架飞行器在当前时刻的位置坐标;
Figure BDA0002550901490000026
为第j架飞行器在当前时刻的位置坐标;
步骤四、基于多智能体强化学习框架对多飞行器自主冲突解脱模型进行求解,得到根据输入状态选择动作的奖励函数;
奖励函数包括以下:
(1)每个飞行器与各自目标的初始位置之间的最短路径设定的奖励函数ra
首先,设定初始ra=0;
然后,第i架飞行器Xi在时刻t的状态为
Figure BDA0002550901490000027
动作为
Figure BDA0002550901490000028
根据动作
Figure BDA0002550901490000029
计算执行该动作后飞行器Xi的当前位置
Figure BDA00025509014900000210
与目标位置
Figure BDA00025509014900000211
之间的距离
Figure BDA00025509014900000212
表示为:
Figure BDA00025509014900000213
最后,累积计算NU架飞行器在时刻t,选择各自动作后的当前位置与各自的目标位置之间的距离之和,并更新奖励函数ra
更新公式为:
Figure BDA00025509014900000214
因此,若累积的各飞行器距离之和越大,则表明联合策略越差;反之,则表明联合策略好。
(2)对飞行器和障碍物进行碰撞检测设定的奖励函数rb
首先,设定初始rb=0;
然后,计算第i架飞行器Xi,根据时刻t的动作
Figure BDA0002550901490000031
计算执行该动作后飞行器Xi的当前位置
Figure BDA0002550901490000032
与探测范围内第m个静态障碍物的位置pm之间的距离,表示为:
Figure BDA0002550901490000033
进而,判定距离
Figure BDA0002550901490000034
是否小于飞行器Xi与静态障碍物的最小安全距离no,如果是,则设定惩罚值
Figure BDA0002550901490000035
否则
Figure BDA0002550901490000036
设定惩罚值
Figure BDA0002550901490000037
针对第i架飞行器Xi,在时刻t将该飞行器Xi与探测范围内所有静态障碍物的距离分别与最小安全距离no判断,得到惩罚值之和
Figure BDA0002550901490000038
累积计算NU架飞行器在时刻t各自对应的惩罚值之和,并更新奖励函数rb
Figure BDA0002550901490000039
因此,若飞行器距离障碍物越近,则整个多飞行器自主决策获得的联合收益越小。
(3)对飞行器和飞行器间进行碰撞检测设定的奖励函数rc
首先,设定初始rc=0;
然后,计算第i架飞行器Xi,根据时刻t的动作
Figure BDA00025509014900000310
计算执行该动作后飞行器Xi的当前位置
Figure BDA00025509014900000311
与探测范围内第j架飞行器当前位置
Figure BDA00025509014900000312
之间的距离,表示为:
Figure BDA00025509014900000313
此处设定对其他飞行器的观测存在噪声且有一个时间步的延迟。
进而,判定距离
Figure BDA00025509014900000314
是否小于飞行器的碰撞距离nc和接近风险距离nm,nc<nm;如果是,
Figure BDA00025509014900000315
则设定惩罚值
Figure BDA00025509014900000316
否则,当满足
Figure BDA00025509014900000317
则设定惩罚值
Figure BDA00025509014900000318
若满足
Figure BDA00025509014900000319
则设定惩罚值
Figure BDA00025509014900000320
针对第i架飞行器Xi,在时刻t将该飞行器Xi与所有其他飞行器的距离分别与碰撞距离nc和接近风险距离nm判断,得到惩罚值之和
Figure BDA00025509014900000321
累积计算NU架飞行器在时刻t各自对应的惩罚值之和,并更新惩罚函数rc
Figure BDA00025509014900000322
因此,若飞行器距离其他飞行器越近,则整个多飞行器自主决策获得的联合收益越小。
步骤五、神经网络学习模块基于奖励函数进行中心化训练和非中心化执行,通过收敛的神经网络计算出基于某状态的所有可采取的动作值,并根据组合优化求解多智能体行为动作。
本发明的优点在于:
(1)本发明一种场景快变条件下的多飞行器自主决策方法,针对低空空域复杂高动态,多元要素的运行特性未知,空域环境与交通对象的耦合关系更加复杂,加之任务复杂快变的场景作为研究背景,有很重要的现实意义。
(2)本发明一种场景快变条件下的多飞行器自主决策方法,除了充分考虑场景的动态性,还考虑了非完全信息和非理想通信,提出了指导飞行器自主决策方法,相比于启发式方法和传统优化方法,当场景信息改变时可利用迁移学习技术进行继承训练,不需要重新设计和训练算法,迁移性较好。
附图说明
图1为本发明飞行器进行冲突探测时激光雷达的探测范围示意图。
图2为本发明多智能体强化学习模型示意图。
图3为本发明的飞行器安全距离示意图。
图4为本发明一种场景快变条件下的多飞行器自主决策方法流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图对本发明作进一步的详细和深入描述。
本发明提供一种场景快变条件下的多飞行器自主决策方法,针对的复杂高动态场景具有以下特征:(1)场景中静态、动态障碍并存,目标在飞行过程中可能发生动态变化;(2)单个无人机感知范围有限无法获得全局信息;(3)无人机之间可以进行通信来共享局部空域信息;(4)无人机之间的通信存在干扰和随机丢失;将多飞行器自主决策分解为两个子问题:(1)路径规划;(2)冲突解脱。对于路径规划和冲突解脱,作为优化问题已经被证明是一个NP-hard问题,需要使用启发式算法进行求解。所以,一种求解多飞行器自主决策的方法可以通过分治完成:通过先求解路径规划和冲突解脱两个子问题,再组合两个子问题的解作为最终解。
如图4所示,所述飞行器自主决策方法包括如下步骤:
步骤一、针对NU架飞行器和NT个目标构成的场景,每个飞行器分别搭载一个激光雷达传感器,在探测范围内定期进行冲突探测,并发送雷达回波信号;
飞行冲突探测采用基于雷达***的非合作威胁冲突探测,激光雷达在自主导航技术中发挥中重要作用。激光雷达的主要性能参数有激光的波长、探测距离、视场角(FOV),视场角分为水平视场角和垂直视场角。最常用的两种激光雷达波长为905nm和1550nm。1550nm波长雷达传感器可以以更高的功率运行,探测距离比905nm波长的远,但是重量更大。
本发明假设有NU架飞行器和NT个目标,每架飞行器分别对应一个目标,目标初始值随机设定;NU和NT的取值相同。针对第i架飞行器Xi,在时刻t的状态为
Figure BDA0002550901490000041
动作为
Figure BDA0002550901490000042
状态
Figure BDA0002550901490000043
由飞行器所搭载的激光雷达传感器机载测量设备返回的三维点云数据来获取静态障碍的位置信息;
如图1所示,雷达的探测范围为:每个飞行器视为质点,
Figure BDA0002550901490000051
为最大探测距离的半径,水平FOV的探测范围角为θi,垂直FOV探测范围角为
Figure BDA0002550901490000052
步骤二、每个飞行器根据雷达回波信号返回的三维点云数据,识别探测范围内的静态障碍物或其他飞行器;
将飞行器视为质点,飞行器在探测范围内定期发送雷达回波信号,当探测到其他飞行器时,返回的三维点云数据为其他飞行器的三维坐标及速度方向,当探测到静态障碍时,返回的三维点云数据是静态障碍物的边界坐标,若无障碍物返回的三维点云数据为0。
步骤三、针对时隙t,第i架飞行器与其他飞行器的三维点云数据构建自主决策建模模型;
本发明从观察值、动作以及回报函数三方面描述自主决策问题的设计过程。
1)观察值st:在每个时刻t,t=1,2,...,T,T表示飞行器到达目标的最大时刻;因为强化学习中的代理会根据收集到的当前状态与飞行器奖励值制定一个控制决策,所以要先构建观察值st,第i架飞行器Xi在时刻t的状态观察值表示为
Figure BDA0002550901490000053
所有飞行器构成的多智能体***的联合状态表示为
Figure BDA0002550901490000054
其中,
Figure BDA0002550901490000055
表示在时隙t,第i架飞行器Xi在时刻t的动作为
Figure BDA0002550901490000056
根据动作
Figure BDA0002550901490000057
计算执行该动作后飞行器Xi的当前位置
Figure BDA0002550901490000058
与目标位置
Figure BDA0002550901490000059
之间的距离
Figure BDA00025509014900000510
判断是否完成当前任务。
Figure BDA00025509014900000511
表示在时刻t,第i架飞行器Xi执行动作
Figure BDA00025509014900000512
后飞行器Xi的当前位置pt i与探测范围内第j架飞行器当前位置
Figure BDA00025509014900000513
之间的距离,以判断飞行器间是否发生冲突,此处设定对其他飞行器的观测是存在噪声且有一个时间步的延迟。
Figure BDA00025509014900000514
在时刻t,第i架飞行器Xi执行动作
Figure BDA00025509014900000515
后飞行器Xi的当前位置
Figure BDA00025509014900000516
与探测范围内第m个静态障碍物的位置pm之间的距离,以判断飞行器与障碍物之间是否发生冲突;
2)动作at:从DRL机制的角度来讲,若是将飞行器的移动表征为动作,那么该动作能够引起环境的变化,飞行器的移动距离能够决定飞行器的能耗大小。因此根据飞行器移动模型的飞行方向加速度表示强化学习的动作
Figure BDA00025509014900000517
ρj(t)∈[0,ρmax]表示第j架飞行器在时刻t作为起始时刻收到的俯仰方向速度,ρmax表示俯仰方向最大速度。
Figure BDA00025509014900000518
表示第j架飞行器在时刻t作为起始时刻收到的俯仰方向加速度。
Figure BDA00025509014900000519
表示俯仰方向最大加速度;
Figure BDA00025509014900000520
表示俯仰方向最小加速度;
Figure BDA0002550901490000061
表示第j架飞行器在时刻t作为起始时刻收到的偏航方向速度。
Figure BDA0002550901490000062
表示第j架飞行器在时刻t作为起始时刻收到的偏航方向加速度。
集合at中元素的个数为2×|NU|,从代理收到了动作at之后,第j架飞行器将决定在当前位置悬停或者移动到一个新的位置,实现了飞行器连续移动的控制。
3)回报函数rt:自主决策问题的目标是每架飞行器到达各自对应目标点的距离最短,因此会存在三个不同的约束(飞行器要完成目标,飞行器与障碍或飞行器之间不能发生碰撞),为了设计回报函数,本发明采用分开讨论自主避险问题的目标与约束。
首先,多飞行器自主决策的优化目标是到达目标后各飞行器的路径最短,则目标函数表示为:
Figure BDA0002550901490000063
di表示第i架飞行器与该飞行器对应的目标点之间的距离。
除此,又分别设计了三个约束条件,需要满足以下约束:
(1)所有的目标都要完成到:
R1表示每个飞行器都要到达各自的目标位置的回报函数;计算公式为:
Figure BDA0002550901490000064
i′∈{1,2,…,NT};Si′表示目标完成程度的判断,若某目标未完成,则Si′=-1,反之,目标完成,则Si′=0。
(2)飞行器与障碍之间不能发生碰撞:
R2表示每个飞行器与静态障碍物之间都不能发生碰撞的回报函数,计算公式为:
Figure BDA0002550901490000065
Pi是第i架飞行器的路径,
Figure BDA0002550901490000066
Figure BDA0002550901490000067
表示飞行器在时刻T的飞行位置坐标;Dm代表第m个静态障碍物;m∈[1,NM],NM表示场景中静态障碍物的总数。
(3)飞行器之间不能发生碰撞:
R3表示任意飞行器之间不能发生碰撞的回报函数,计算公式为:
Figure BDA0002550901490000068
Figure BDA0002550901490000069
为第i架飞行器在当前时刻的位置坐标;
Figure BDA00025509014900000610
为第j架飞行器在当前时刻的位置坐标;
所以,多飞行器自主决策问题现在转化为一个组合优化问题,即自主冲突解脱模型的目标为每个飞行器到达各自目标点的距离最短,目标函数如下:
Figure BDA00025509014900000611
s.t.R1,R2,R3
步骤四、基于多智能体强化学习(MADDPG)框架对多飞行器自主决策模型进行求解,得到根据输入状态选择动作的奖励函数;
具体过程如下:
1)建立多智能体神经网络
每个智能体(Agent)的状态空间和动作空间被抽象成与飞行器完全一致。每个智能体的策略由参数θ决定,
Figure BDA0002550901490000071
Figure BDA0002550901490000072
表示第NU个飞行器的神经网络参数。智能体的策略为μ,
Figure BDA0002550901490000073
Figure BDA0002550901490000074
表示飞行器在神经网络参数为θi时的策略。令智能体的策略为确定型策略,则智能体的动作完全由其策略与其对应的参数决定:
Figure BDA0002550901490000075
ai为第i架飞行器的动作;οi表示第i架飞行器的观测,包含了智能体与障碍、目标和其他智能体之间的距离信息;θi表示第i架飞行器的神经网络参数。
由MADDPG相关理论,确定性策略
Figure BDA0002550901490000076
的梯度为:
Figure BDA0002550901490000077
Figure BDA0002550901490000078
表示动作网络目标函数;Ex,a~D表示随机策略序列的期望;
Figure BDA0002550901490000079
表示智能体的联合观测;
Figure BDA00025509014900000710
表示Q值函数,D代表了MADDPG中的经验池(Experience Replay Buffer),包含了诸多元组:
Figure BDA00025509014900000711
x'表示智能体下一时刻的联合观测;
Figure BDA00025509014900000712
表示第NU架飞行器的回报奖励函数;
Figure BDA00025509014900000713
表示评论家网络策略动作值函数,完全由一个神经网络实现,命名为评论家网络,按照最小化以下目标函数进行更新:
Figure BDA00025509014900000714
L(θi)表示评论家网络损失函数;r表示奖励,
Figure BDA00025509014900000715
ri表示第i架飞行器的奖励函数;γ∈(0,1)表示衰减因子;
Figure BDA00025509014900000716
表示第NU架飞行器下一时刻的动作;a'j表示第j架飞行器下一时刻的动作;μ'j为第j架飞行器下一时刻的策略、οj表示第j架飞行器的观测;
Figure BDA00025509014900000717
Figure BDA00025509014900000718
结构完全一样,但是参数更新滞后于
Figure BDA00025509014900000719
的神经网络产生。
Figure BDA00025509014900000720
表示参数更新滞后于
Figure BDA00025509014900000721
的评论家网络策略动作值函数,物理含义辅助动作网络训练更好,动作网络按照下式进行更新:
Figure BDA00025509014900000722
其中,J表示动作网络目标函数;S代表了随机抽取的一小批样本。
整个设计的模型如图2所示。
2)奖励函数设计
为了满足约束条件,需要对MADDPG进行奖励函数的设计;如图3所示,奖励函数包括以下:
(1)累积每个飞行器与各自目标的初始位置之间的最短路径设定的奖励函数ra
首先,设定初始ra=0;
然后,第i架飞行器Xi在时刻t的状态为
Figure BDA0002550901490000081
动作为
Figure BDA0002550901490000082
根据动作
Figure BDA0002550901490000083
计算执行该动作后飞行器Xi的当前位置
Figure BDA0002550901490000084
与目标位置
Figure BDA0002550901490000085
之间的距离
Figure BDA0002550901490000086
表示为:
Figure BDA0002550901490000087
最后,累积计算NU架飞行器在时刻t,选择各自动作后的当前位置与各自的目标位置之间的距离之和,并更新奖励函数ra
更新公式为:
Figure BDA0002550901490000088
因此,若累积的各飞行器距离之和越大,则表明联合策略越差;反之,则表明联合策略好。
(2)对飞行器和障碍物进行碰撞检测设定的奖励函数rb
为了保证飞行器和障碍物不发生碰撞,需要进行碰撞检测,首先,设定初始rb=0;
然后,计算第i架飞行器Xi,根据时刻t的动作
Figure BDA0002550901490000089
计算执行该动作后飞行器Xi的当前位置
Figure BDA00025509014900000810
与探测范围内第m个静态障碍物的位置pm之间的距离,表示为:
Figure BDA00025509014900000811
进而,判定距离
Figure BDA00025509014900000812
是否小于飞行器Xi与静态障碍物的最小安全距离no,如果是,则设定惩罚值
Figure BDA00025509014900000813
否则
Figure BDA00025509014900000814
设定惩罚值
Figure BDA00025509014900000815
针对第i架飞行器Xi,在时刻t将该飞行器Xi与探测范围内所有静态障碍物的距离分别与最小安全距离no判断,得到惩罚值之和
Figure BDA00025509014900000816
累积计算NU架飞行器在时刻t各自对应的惩罚值之和,并更新奖励函数rb
Figure BDA00025509014900000817
因此,若飞行器距离障碍物越近,则整个多飞行器自主决策获得的联合收益越小。
(3)对飞行器和飞行器间进行碰撞检测设定的奖励函数rc
为了保证飞行器和飞行器之间不发生碰撞,需要进行碰撞检测,首先,设定初始rc=0;
然后,计算第i架飞行器Xi,根据时刻t的动作
Figure BDA00025509014900000818
计算执行该动作后飞行器Xi的当前位置
Figure BDA00025509014900000819
与探测范围内第j架飞行器当前位置
Figure BDA00025509014900000820
之间的距离,表示为:
Figure BDA00025509014900000821
此处设定对其他飞行器的观测存在噪声且有一个时间步的延迟。
进而,判定距离
Figure BDA00025509014900000822
是否小于飞行器的碰撞距离nc和接近风险距离nm,nc<nm;如果是,
Figure BDA00025509014900000823
则设定惩罚值
Figure BDA00025509014900000824
否则,当满足
Figure BDA00025509014900000825
则设定惩罚值
Figure BDA00025509014900000826
若满足
Figure BDA00025509014900000827
则设定惩罚值
Figure BDA00025509014900000828
针对第i架飞行器Xi,在时刻t将该飞行器Xi与所有其他飞行器的距离分别与碰撞距离nc和接近风险距离nm判断,得到惩罚值之和
Figure BDA0002550901490000091
累积计算NU架飞行器在时刻t各自对应的惩罚值之和,并更新惩罚函数rc
Figure BDA0002550901490000092
因此,若飞行器距离其他飞行器越近,则整个多飞行器自主决策获得的联合收益越小。
步骤五、神经网络学习模块基于奖励函数进行中心化训练和非中心化执行,通过收敛的神经网络计算出基于某状态的所有可采取的动作值,并根据组合优化求解多智能体行为动作。
每一个智能体都包含动作网络(Actor Network)和评论家网络(CriticNetwork)。每个Agent的Critic部分能够获取其余所有Agent的动作信息,进行中心化训练和非中心化执行,即在训练的时候,引入可以观察全局的critic来指导actor训练,而测试的时候只使用有局部观测的actor采取行动。

Claims (4)

1.一种场景快变条件下的多飞行器自主决策方法,其特征在于,包括如下步骤:
步骤一、针对NU架飞行器和NT个目标构成的场景,每个飞行器分别搭载一个激光雷达传感器,在探测范围内定期发送雷达回波信号;
步骤二、每个飞行器根据雷达回波信号返回的三维点云数据,识别探测范围内的静态障碍物或其他飞行器;
步骤三、针对时隙t,第i架飞行器与其他飞行器的三维点云数据构建自主冲突解脱模型;
自主冲突解脱模型的目标为每个飞行器到达各自目标点的距离最短,目标函数如下:
Figure FDA0002969522540000011
s.t.R1,R2,R3
di表示第i架飞行器与该飞行器对应的目标点之间的距离;
三个约束条件分别如下:
(1)R1表示每个飞行器都要到达各自的目标位置的回报函数;计算公式为:
Figure FDA0002969522540000012
i′∈{1,2,…,NT};Si′表示目标完成程度的判断,若某目标未完成,则Si′=-1,反之,目标完成,则Si′=0;
(2)R2表示每个飞行器与静态障碍物之间都不能发生碰撞的回报函数,计算公式为:
Figure FDA0002969522540000013
Pi是第i架飞行器的路径,Dm代表第m个静态障碍物;m∈[1,NM],NM表示场景中静态障碍物的总数;
(3)R3表示任意飞行器之间不能发生碰撞的回报函数,计算公式为:
Figure FDA0002969522540000014
Figure FDA0002969522540000015
为第i架飞行器在当前时刻的位置坐标;
Figure FDA0002969522540000016
为第j架飞行器在当前时刻的位置坐标;
步骤四、基于多智能体强化学习框架对多飞行器自主冲突解脱模型进行求解,得到根据输入状态选择动作的奖励函数;
奖励函数包括以下:
(1)每个飞行器与各自目标的初始位置之间的最短路径设定的奖励函数ra
首先,设定初始ra=0;
然后,第i架飞行器Xi在时刻t的状态为
Figure FDA0002969522540000017
动作为
Figure FDA0002969522540000018
根据动作
Figure FDA0002969522540000019
计算执行该动作后飞行器Xi的当前位置
Figure FDA00029695225400000110
与目标位置
Figure FDA00029695225400000111
之间的距离
Figure FDA00029695225400000112
表示为:
Figure FDA00029695225400000113
最后,累积计算NU架飞行器在时刻t,选择各自动作后的当前位置与各自的目标位置之间的距离之和,并更新奖励函数ra
更新公式为:
Figure FDA0002969522540000021
因此,若累积的各飞行器距离之和越大,则表明联合策略越差;反之,则表明联合策略好;
(2)对飞行器和障碍物进行碰撞检测设定的奖励函数rb
首先,设定初始rb=0;
然后,计算第i架飞行器Xi,根据时刻t的动作
Figure FDA0002969522540000022
计算执行该动作后飞行器Xi的当前位置
Figure FDA0002969522540000023
与探测范围内第m个静态障碍物的位置pm之间的距离,表示为:
Figure FDA0002969522540000024
进而,判定距离
Figure FDA0002969522540000025
是否小于飞行器Xi与静态障碍物的最小安全距离no,如果是,则设定惩罚值
Figure FDA0002969522540000026
否则
Figure FDA0002969522540000027
设定惩罚值
Figure FDA0002969522540000028
针对第i架飞行器Xi,在时刻t将该飞行器Xi与探测范围内所有静态障碍物的距离分别与最小安全距离no判断,得到惩罚值之和
Figure FDA0002969522540000029
累积计算NU架飞行器在时刻t各自对应的惩罚值之和,并更新奖励函数rb
Figure FDA00029695225400000210
因此,若飞行器距离障碍物越近,则整个多飞行器自主决策获得的联合收益越小;
(3)对飞行器和飞行器间进行碰撞检测设定的奖励函数rc
首先,设定初始rc=0;
然后,计算第i架飞行器Xi,根据时刻t的动作
Figure FDA00029695225400000211
计算执行该动作后飞行器Xi的当前位置
Figure FDA00029695225400000212
与探测范围内第j架飞行器当前位置
Figure FDA00029695225400000213
之间的距离,表示为:
Figure FDA00029695225400000214
此处设定对其他飞行器的观测存在噪声且有一个时间步的延迟;
进而,判定距离
Figure FDA00029695225400000215
是否小于飞行器的碰撞距离nc和接近风险距离nm,nc<nm;如果是,
Figure FDA00029695225400000216
则设定惩罚值
Figure FDA00029695225400000217
否则,当满足
Figure FDA00029695225400000218
则设定惩罚值
Figure FDA00029695225400000219
若满足
Figure FDA00029695225400000220
则设定惩罚值
Figure FDA00029695225400000221
针对第i架飞行器Xi,在时刻t将该飞行器Xi与所有其他飞行器的距离分别与碰撞距离nc和接近风险距离nm判断,得到惩罚值之和
Figure FDA00029695225400000222
累积计算NU架飞行器在时刻t各自对应的惩罚值之和,并更新惩罚函数rc
Figure FDA00029695225400000223
因此,若飞行器距离其他飞行器越近,则整个多飞行器自主决策获得的联合收益越小;
步骤五、神经网络学习模块基于奖励函数进行中心化训练和非中心化执行,通过收敛的神经网络计算出基于某状态的所有可采取的动作值,并根据组合优化求解多智能体行为动作。
2.如权利要求1所述的一种场景快变条件下的多飞行器自主决策方法,其特征在于,所述的步骤一中,每架飞行器分别对应一个目标,目标初始值随机设定。
3.如权利要求1所述的一种场景快变条件下的多飞行器自主决策方法,其特征在于,所述的步骤二中,当探测到其他飞行器时,返回的三维点云数据为其他飞行器的三维坐标及速度方向,当探测到静态障碍时,返回的三维点云数据是静态障碍物的边界坐标,若无障碍物返回的三维点云数据为0。
4.如权利要求1所述的一种场景快变条件下的多飞行器自主决策方法,其特征在于,所述的步骤五中,每一个智能体都包含动作网络Actor Network和评论家网络CriticNetwork,每个Agent的Critic部分能够获取其余所有Agent的动作信息,进行中心化训练和非中心化执行,即在训练的时候,引入观察全局的critic来指导actor训练,而测试的时候只使用有局部观测的actor采取行动。
CN202010575719.3A 2020-06-22 2020-06-22 一种场景快变条件下的多飞行器自主决策方法 Active CN111897316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010575719.3A CN111897316B (zh) 2020-06-22 2020-06-22 一种场景快变条件下的多飞行器自主决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010575719.3A CN111897316B (zh) 2020-06-22 2020-06-22 一种场景快变条件下的多飞行器自主决策方法

Publications (2)

Publication Number Publication Date
CN111897316A CN111897316A (zh) 2020-11-06
CN111897316B true CN111897316B (zh) 2021-05-14

Family

ID=73207769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010575719.3A Active CN111897316B (zh) 2020-06-22 2020-06-22 一种场景快变条件下的多飞行器自主决策方法

Country Status (1)

Country Link
CN (1) CN111897316B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11907335B2 (en) * 2020-10-16 2024-02-20 Cognitive Space System and method for facilitating autonomous target selection
CN112462804B (zh) * 2020-12-24 2022-05-10 四川大学 基于ads-b和蚁群算法的无人机感知与规避策略
CN114679757B (zh) * 2020-12-26 2023-11-03 中国航天科工飞航技术研究院(中国航天海鹰机电技术研究院) 一种超高速低真空管道飞行器越区切换方法及装置
CN112633415B (zh) * 2021-01-11 2023-05-19 中国人民解放军国防科技大学 基于规则约束训练的无人机集群智能任务执行方法和装置
CN113705921B (zh) * 2021-09-03 2024-02-27 厦门闽江智慧科技有限公司 一种混合充电策略的电动汽车动态路径规划优化方法
CN114237235B (zh) * 2021-12-02 2024-01-19 之江实验室 一种基于深度强化学习的移动机器人避障方法
CN114115350B (zh) * 2021-12-02 2024-05-10 清华大学 飞行器的控制方法、装置及设备
CN114237293B (zh) * 2021-12-16 2023-08-25 中国人民解放军海军航空大学 一种基于动态目标分配的深度强化学习队形变换方法及***
CN113962031B (zh) * 2021-12-20 2022-03-29 北京航空航天大学 一种基于图神经网络强化学***台冲突消解方法
CN117177275B (zh) * 2023-11-03 2024-01-30 中国人民解放军国防科技大学 基于scma-mec的物联网设备计算速率优化方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109116854A (zh) * 2018-09-16 2019-01-01 南京大学 一种基于强化学习的多组机器人协作控制方法及控制***
CN109725532A (zh) * 2018-12-24 2019-05-07 杭州电子科技大学 一种应用于多智能体间相对距离控制及自适应矫正方法
CN109992000A (zh) * 2019-04-04 2019-07-09 北京航空航天大学 一种基于分层强化学习的多无人机路径协同规划方法及装置
WO2019234702A2 (en) * 2018-06-08 2019-12-12 Tata Consultancy Services Limited Actor model based architecture for multi robot systems and optimized task scheduling method thereof
CN110991545A (zh) * 2019-12-10 2020-04-10 中国人民解放军军事科学院国防科技创新研究院 一种面向多智能体对抗的强化学习训练优化方法及装置
CN111045445A (zh) * 2019-10-23 2020-04-21 浩亚信息科技有限公司 一种基于强化学习的飞行器智能避撞方法、设备、介质
CN111103881A (zh) * 2019-12-25 2020-05-05 北方工业大学 一种多智能体编队防碰撞控制方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11533593B2 (en) * 2018-05-01 2022-12-20 New York University System method and computer-accessible medium for blockchain-based distributed ledger for analyzing and tracking environmental targets

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019234702A2 (en) * 2018-06-08 2019-12-12 Tata Consultancy Services Limited Actor model based architecture for multi robot systems and optimized task scheduling method thereof
CN109116854A (zh) * 2018-09-16 2019-01-01 南京大学 一种基于强化学习的多组机器人协作控制方法及控制***
CN109725532A (zh) * 2018-12-24 2019-05-07 杭州电子科技大学 一种应用于多智能体间相对距离控制及自适应矫正方法
CN109992000A (zh) * 2019-04-04 2019-07-09 北京航空航天大学 一种基于分层强化学习的多无人机路径协同规划方法及装置
CN111045445A (zh) * 2019-10-23 2020-04-21 浩亚信息科技有限公司 一种基于强化学习的飞行器智能避撞方法、设备、介质
CN110991545A (zh) * 2019-12-10 2020-04-10 中国人民解放军军事科学院国防科技创新研究院 一种面向多智能体对抗的强化学习训练优化方法及装置
CN111103881A (zh) * 2019-12-25 2020-05-05 北方工业大学 一种多智能体编队防碰撞控制方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A SATISFICING CONFLICT RESOLUTION APPROACH FOR MULTIPLE UAVS;YUMENG LI ETC;《IEEE INTERNET OF THINGS JOURNAL》;20190430;第6卷(第2期);全文 *
航迹预测的多无人机任务规划方法;齐乃明等;《哈尔滨工业大学学报》;20160430;第48卷(第4期);全文 *

Also Published As

Publication number Publication date
CN111897316A (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN111897316B (zh) 一种场景快变条件下的多飞行器自主决策方法
CN110456823B (zh) 一种针对无人机计算与存储能力受限的双层路径规划方法
Tisdale et al. Autonomous UAV path planning and estimation
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及***
CN110703804A (zh) 一种固定翼无人机集群的分层防撞控制方法
Tang et al. Systematic review of collision-avoidance approaches for unmanned aerial vehicles
CN111811511A (zh) 一种基于降维解耦机制的无人机集群实时航迹生成方法
Wang et al. Virtual reality technology of multi uavearthquake disaster path optimization
CN111880574B (zh) 一种无人机避撞方法及***
Li et al. Autonomous maneuver decision-making for a UCAV in short-range aerial combat based on an MS-DDQN algorithm
Chen et al. Path planning and cooperative control for multiple UAVs based on consistency theory and Voronoi diagram
CN114679729B (zh) 一种雷达通信一体化的无人机协同多目标探测方法
CN110825112B (zh) 基于多无人机的油田动态侵入目标追踪***与方法
CN113900449B (zh) 多无人机轨迹规划方法、装置、无人机及存储介质
Bodi et al. Reinforcement learning based UAV formation control in GPS-denied environment
CN114138022A (zh) 一种基于精英鸽群智能的无人机集群分布式编队控制方法
Huang et al. Cooperative collision avoidance method for multi-UAV based on Kalman filter and model predictive control
Yan et al. Collaborative path planning based on MAXQ hierarchical reinforcement learning for manned/unmanned aerial vehicles
Duoxiu et al. Proximal policy optimization for multi-rotor UAV autonomous guidance, tracking and obstacle avoidance
CN116822362A (zh) 一种基于粒子群算法的无人机无冲突四维航迹规划方法
Zhang et al. Survey of safety management approaches to unmanned aerial vehicles and enabling technologies
Chronis et al. Path planning of autonomous UAVs using reinforcement learning
CN113126647A (zh) 一种基于领导者跟追随者原理的协同制导方法
CN117170238B (zh) 基于协作分布式mpc的异构无人机集群搜索算法
Han Small unmanned aircraft systems for cooperative source seeking with fractional order potential fields

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant