CN109655066B - 一种基于Q(λ)算法的无人机路径规划方法 - Google Patents

一种基于Q(λ)算法的无人机路径规划方法 Download PDF

Info

Publication number
CN109655066B
CN109655066B CN201910071929.6A CN201910071929A CN109655066B CN 109655066 B CN109655066 B CN 109655066B CN 201910071929 A CN201910071929 A CN 201910071929A CN 109655066 B CN109655066 B CN 109655066B
Authority
CN
China
Prior art keywords
state
aerial vehicle
unmanned aerial
action
threat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910071929.6A
Other languages
English (en)
Other versions
CN109655066A (zh
Inventor
张迎周
竺殊荣
高扬
孙仪
张灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201910071929.6A priority Critical patent/CN109655066B/zh
Publication of CN109655066A publication Critical patent/CN109655066A/zh
Application granted granted Critical
Publication of CN109655066B publication Critical patent/CN109655066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Catching Or Destruction (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提供了一种基于Q(λ)算法的无人机任务规划方法,包括环境建模步骤,马尔科夫决策过程模型初始化步骤,Q(λ)算法迭代计算步骤,根据状态价值函数计算最优路径步骤,首先根据无人机最小航迹段长度初始化栅格空间,将栅格空间坐标映射为航路点,并对圆形和多边形威胁区域进行表示,然后建立马尔科夫决策模型,包括无人机飞行动作空间表示,状态转移概率的设计,奖励函数的构造,然后采用Q(λ)算法在构建的模型基础上进行迭代计算,并根据最终收敛的状态价值函数计算得出一条能够安全避开威胁区域的无人机的最优路径,本发明将传统的Q学习算法与效用追踪结合,提升了价值函数收敛的速度与精度,引导无人机避开威胁区域并进行自主路径规划。

Description

一种基于Q(λ)算法的无人机路径规划方法
技术领域
本发明涉及一种无人机,具体的说是一种无人机路径规划方法,属于启发式算法技术领域。
背景技术
无人机路径规划是无人机任务规划的重要组成部分,是实现无人机自主执行任务的重要阶段。无人机路径规划要求在给定已知、部分已知或完全未知信息的环境中,规划出从起始点到达目标点,可以绕过威胁区和障碍物、安全可靠无碰撞、且同时满足各种约束条件的飞行航迹。根据无人机所处的战场环境信息的获取情况将路径规划分为全局路径规划和局部路径规划。
在实际应用中,如果无人机能获取全局环境知识,可以使用动态规划实现路径规划。然而随着战场环境的复杂性和不确定性增加,无人机很少有环境的先验知识,所以在实际应用中需要无人机具有较强的适应动态环境的能力。在这种情况下,依赖于传感器信息实时感知威胁区域信息进行局部路径规划的技术就显示出巨大的优越性。
目前的局部路径规划技术存在着算法易陷入局部极小或局部振荡、算法时间代价大和计算机信息存储量大、规则难以确定等问题。而基于行为的无人机路径规划方法称为当今研究的热点,其实质就是将传感器感知的环境状态映射到执行器的动作,基于行为的方法中对状态特征向量的设计和有监督的样本的获取在实际复杂环境中往往是非常困难的。因此这些问题亟待解决。
发明内容
本发明的目的是提供一种基于Q(λ)算法的无人机任务规划方法,结合Q 学习和效用追踪(Eligibility Traces),对传感器感知的环境状态给与量化的奖惩信号,通过不断与环境的交互,引导无人机进行自主路径规划并进行安全避开威胁区域,实现对外界环境变化的快速响应,具有快速、实时的优点,提升无人机在未知或部分未知环境下适应能力。
本发明提供一种基于Q(λ)算法的无人机路径规划方法,其特征在于:包括以下步骤:
步骤1,环境建模:利用传感器采集到的环境信息,识别威胁区域,使用栅格法将无人机飞行环境进行建模,将连续的空间离散化,根据设定的空间大小生成均匀的网格图,将网格顶点作为离散后的航路点;
步骤2,初始化马尔科夫决策过程模型:初始化适用于求解所述无人机路径规划的马尔科夫决策过程模型,所述马尔科夫决策过程模型可以用四元组<S, A,P,R>表示,S为无人机所处的状态空间,A为无人机的动作空间,P为状态转移矩阵,R为奖励函数,马尔科夫决策过程模型初始化包括对无人机飞行动作空间的表示、状态转移概率的设计以及奖励函数的构造;
步骤3,在所建立的模型上,使用Q(λ)算法迭代计算:在步骤1和步骤2 建立的模型基础上,使用结合Q-learning算法和效用追踪的Q(λ)算法进行迭代计算;引入状态动作价值函数Q(s,a)来表征无人机在状态s采取动作a的价值,建立Q表存储每个状态动作对<s,a>的价值;引入效用追踪函数E(s,a)表示终止状态与状态行为对<s,a>的因果关系;首先进行Q值和E值初始化,然后在每个学习周期内,通过Boltzmann策略选择在s状态下采取的动作a;执行动作a转移到下一状态s'后,通过Q值更新公式更新Q(s,a)的值,并通过E值更新公式更新所有状态动作对的E值,当到达终止状态时,当次学习周期结束,直到到达最大学习周期数后,Q(λ)算法迭代计算过程结束;
步骤4,根据状态价值函数计算最优路径:经过步骤3后得到收敛的状态价值函数,则可以在状态s下选择具有最大Q值的动作a*,采取动作a*后继续采用确定性的策略,直到到达终止状态,最后将网格中的节点映射至经纬度则得到最优路径。
作为本发明的进一步限定:所述步骤1环境建模的具体步骤为:
步骤1.1根据无人机最小航迹段长度初始化栅格空间;
无人机在若干个航点之间飞行是沿直线飞行,而到达某些航点时根据航迹要求而改变飞行姿态,最小航迹段长度是限制无人机在开始改变飞行姿态前必须直飞的最短距离,以无人机最小航迹段长度设置步长,可获得满足无人机自身约束的离散栅格空间;
设置无人机起点位置的经纬度坐标为S=(lonS,latS),目标点的经纬度坐标为 T=(lonT,latT),无人机最小航迹段长度为dmin,栅格空间的大小为m*n,将dmin设置为栅格步长,则m、n的计算公式为:
Figure BDA0001957555760000031
步骤1.2将栅格空间坐标映射为航路点;
将栅格顶点作为离散后的航路点,栅格空间中的坐标使用(x,y)表示,设置栅格空间原点(0,0)对应的经纬度坐标为(lono,lato),则(x,y)对应的航路点经纬度坐标(lonxy,latxy)的计算公式如下:lonxy=lono+dmin*x,latxy=lato+dmin*y。
步骤1.3威胁区域信息的表示;
无人机在飞行过程中要考虑威胁源的空间位置,根据威胁源种类将威胁区域分为圆形区域和多边形区域,在栅格空间中,将含有威胁区域的节点标注为 1,表示为禁飞区域,不含有威胁区域的节点标注为0,表示为可飞区域;对于圆形威胁区域,设置区域圆心坐标为(lonc,latc),威胁区域半径为r(km),对于栅格中的每个节点(x,y),根据haversine公式计算节点对应的航路点到威胁区圆心的距离dxyo,haversine方程是根据经纬度坐标计算球面上两个点间的距离;
Figure BDA0001957555760000032
如果dxyo≦r,则将(x,y)对应的节点标注为1,否则标注为0,对于多边形威胁区域,以航路点(lonxy,latxy)开始,向右(或向左)的水平方向作一射线,计算该射线与多边形区域的交点个数,如果交点个数为奇数,则航路点位于多边形威胁区内,将(x,y)节点标注为1,若交点个数为偶数,则在多边形威胁区外,将节点标注为1。
作为本发明的进一步限定:所述步骤2马尔科夫决策过程模型初始化的具体步骤为:
步骤2.1表示无人机飞行动作空间
在栅格空间中将网格顶点作为航路点,则一个顶点到另一个顶点共有八个转移方向(边界点除外);根据无人机自身的约束和空间的威胁分布对转移方向做一定的限制,将无人机的行为泛化为离散动作空间,将航向状态以45°为间隔进行离散化,可以获得8个离散状态;根据设置的离散化航向状态,设置5 个无人机飞行动作,直飞用数字0表示、右转45°用1表示,左转45°用2表示,右转90°用3表示、左转90°用4表示,则动作空间表示为A=[0,1,2,3,4],每个数字分别表示一个动作;
步骤2.2设计状态转移概率
状态转移概率是指当无人机在某一航路状态下执行动作后,到达另一航路状态的条件概率,用
Figure BDA0001957555760000043
表示,代表无人机在状态s下执行动作a转移到状态s' 的概率;
由于在学习初期,无人机对环境未知,极易进入威胁区域,无人机进入威胁区域即代表一个学习周期结束,对环境的探索局限在初始状态附近,所以设定当无人机采取的动作会导致其进入威胁区域或者会导致无人机离开状态空间时,不发生状态转移,即无人机状态不发生改变,其余条件下将100%转移到动作指向的状态;无人机的状态空间为S,威胁区域空间为O,则
Figure BDA0001957555760000041
的计算公式为:
Figure BDA0001957555760000042
步骤2.3奖励函数的构造
无人机进行航路点转移进入下一个状态时会获得即时奖励,基于Q(λ)算法的学习目标就是最大化累积即时奖励,奖励函数的构造要考虑影响航迹性能的各种指标,包括距目标点的距离、飞行安全性、威胁程度等;
Figure BDA0001957555760000051
表示无人机在状态s下采取动作a转移到s'状态获得的即时奖励函数,计算公式如下,其中 w1、w2、w3为加权系数,fd、fo、fa为经过归一化处理的航迹评价因素;
Figure BDA0001957555760000059
fd表示能见度,取状态s'距目标点距离的倒数,s'的经纬度坐标为s'=(lon s',lats'),目标点的经纬度坐标为T=(lonT,latT),fd计算公式为:
Figure BDA0001957555760000052
fo表示威胁区域对状态s'的威胁程度,
Figure BDA0001957555760000053
其中Io表示对无人机当前状态转移存在威胁的威胁区集合,
Figure BDA0001957555760000054
表示威胁区oi对s'的威胁程度,威胁区 oi的经纬度坐标为
Figure BDA0001957555760000055
Figure BDA0001957555760000056
计算公式为:
Figure BDA0001957555760000057
fa表示对无人机飞行动作的惩罚项,无人机采取的飞行动作是影响无人机飞行安全的关键因素;根据步骤2.1设置的无人机飞行动作空间,将fa处理为离散函数:
Figure BDA0001957555760000058
作为本发明的进一步限定:所述步骤3在所建立的模型上,使用Q(λ)算法迭代计算的具体步骤为:
步骤3.1初始化Q表
对Q表中的每个状态动作对Q(s,a)进行Q值初始化,Q(s,~)表示s状态下所有状态动作对的初始价值,sT表示终止状态,则Q(s,a)的计算公式如下:
Figure BDA0001957555760000061
如果s为终止状态,则初始Q值为0,否则将Q值设置为s与sT的距离的倒数,s状态对应的坐标为(x,y),sT状态对应的坐标为(xT,yT),dssT的计算公式为:
Figure BDA0001957555760000062
步骤3.2初始化E值
在每个学习周期开始时,将所有状态动作对<s,a>的E值E(s,a)初始化为0;
步骤3.3使用Boltzmann分布策略进行动作选择。
在每个学习周期内,首先设定初始状态,然后根据Boltzmann分布策略选择动作进行状态转移;s状态下采取动作a的概率p(a|s)计算公式为:
Figure BDA0001957555760000063
其中T表示温度系数,用来控制策略的探索强度。在学习初期可以使用较大的温度系数以保证较强的策略探索能力,之后逐渐减小温度系数。然后根据 p(a|s)使用轮盘法选择动作a,并将E(s,a)的值加一;
步骤3.4更新Q值
无人机在状态s下采取步骤3.2选取的动作a,转移到状态s',并获得即时奖励r,则Q(s,a)的更新公式为:
Q(s,a)=Q(s,a)+α*(r+γ*maxaQ(s′,a)-Q(s,a))*E(s,a)
其中α为学习率,γ为折扣因子,γ表示对未来奖励的重视程度,maxaQ(s',a) 为状态s'下最大的Q值;
步骤3.5更新E值
对所有的状态动作对E(s,a)的更新公式为:E(s,a)=λ*E(s,a),其中λ为权重参数,当状态s'为终止状态时,则本次学习周期结束,进入下个学习周期,否则转移到s'状态,并返回步骤3.2,继续学习过程;
作为本发明的进一步限定:所述步骤4根据状态价值函数计算最优路径的具体步骤为:
步骤4.1使用确定性策略进行状态转移
经过步骤3后,状态价值Q已经收敛;首先设定初始状态s,在s状态下选择具有最大Q值的动作a*,并进行状态转移,动作a*的选择公式为:a*=argmaxa∈AQ(s,a),当采取动作a转移到下一状态s'后,继续采取确定性策略选择动作,直到到达终止状态;
步骤4.2将网格空间映射成航路点经纬度坐标
根据步骤1.2中的公式将步骤4.1中得到的网格中的最优路径坐标映射成航路点的经纬度坐标,则得到无人机最优路径。。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1.使用无人机最小航迹段长度作为离散化步长,考虑了无人机自身约束,解决了环境建模的离散化过程缺少依据的缺点,获得能充分发挥无人机飞行能力的离散规划空间;
2.在设置状态转移概率时,当无人机采取的动作会导致其进入威胁区域时,无人机不发生状态转移,保持当前状态不变继续进行当前周期的学习,解决了在学习初期无人机与环境交互局限在初始状态附近的缺点,提升了算法的收敛速度;
3.Q学习算法不需要全局得环境知识,而是通过类似试错的方法,不断与环境交互,通过优化行为价值函数来逼近最优策略,适用于动态环境下无人机对环境未知或部分未知的情况,引导无人机进行自主路径规划;
4.传统Q学习算法在算法迭代过程中是在当前状态下多看一步,通过在Q 学习算法内引入效用追踪函数,综合考虑了所有步数的预测,使得对于价值函数的计算更准确。并且可以进行有效的在线更新,不需要等到一个学习周期结束才进行Q值更新,可以丢弃之前的学习数据,加快算法收敛的速度。
附图说明
图1栅格空间内无人机离散动作及其转移结果。
图2每个学习周期内算法迭代流程图。
具体实施方式
下面结合附图对本发明做更进一步的解释。
为了方便叙述,简单定义算法中的主要变量:
无人机起点位置的经纬度坐标为S=(lonS,latS),目标点的经纬度坐标为 T=(lonT,latT),栅格空间的大小为m*n,栅格空间内点坐标为(x,y)。马尔科夫模型用四元组<S,A,P,R>表示,S为无人机所处状态空间,A为无人机动作空间, R为奖励函数,P为状态转移概率矩阵。
本发明提出一种基于Q(λ)算法的无人机路径规划方法,包括环境建模步骤,马尔科夫决策过程模型初始化步骤,Q(λ)算法迭代计算步骤,根据状态价值函数计算最优路径步骤;
具体步骤如下:
步骤1)环境建模步骤
步骤1.1)将栅格空间的步长设置为无人机最小航迹段长度dmin
步骤1.2)根据公式
Figure BDA0001957555760000081
计算栅格空间大小;
步骤1.3)根据公式lonxy=lono+dmin*x,latxy=lato+dmin*y将栅格空间坐标映射为航路点经纬度坐标,(lono,lato)为栅格空间原点(0,0)对应的经纬度坐标;
步骤1.4)在栅格空间内,将含有威胁区域的节点标注为1,表示禁飞区域。将不含有威胁区域的节点标注为0,表示为可飞区域;
步骤2)马尔科夫决策过程模型初始化
步骤2.1)根据如图1所示的无人机转移方向,设置5个无人机飞行动作,直飞用数字0表示、右转45°用1表示,左转45°用2表示,右转90°用3表示、左转90°用4表示,将无人机飞行动作空间表示为A=[0,1,2,3,4],每个数字分别表示一个动作;
步骤2.2)将状态转移概率设定为无人机采取的动作会导致其进入威胁区域或者会导致无人机离开状态空间时,不发生状态转移,即无人机状态不发生改变,其余条件下将100%转移到动作指向的状态。状态转移概率计算公式为:
Figure BDA0001957555760000091
其中O为威胁区域空间;
步骤2.3)无人机在状态s下采取动作a转移到s'状态获得的即时奖励函数
Figure BDA0001957555760000092
计算公式为
Figure BDA0001957555760000093
其中w1、w2、w3为加权系数,fd、fo、 fa为经过归一化处理的航迹评价因素;
步骤2.4)fd表示能见度,取状态s'距目标点距离的倒数,s'的经纬度坐标为 s'=(lons',lats'),目标点的经纬度坐标为T=(lonT,latT),fd计算公式为:
Figure BDA0001957555760000094
步骤2.5)fo表示威胁区域对状态s'的威胁程度,
Figure BDA0001957555760000095
其中Io表示对无人机当前状态转移存在威胁的威胁区集合,
Figure BDA0001957555760000096
表示威胁区oi对s'的威胁程度,威胁区oi的经纬度坐标为
Figure BDA0001957555760000097
Figure BDA0001957555760000098
计算公式为:
Figure BDA0001957555760000099
步骤2.6)fa表示对无人机飞行动作的惩罚项,无人机采取的飞行动作是影响无人机飞行安全的关键因素。根据步骤2.1设置的无人机飞行动作空间,将fa处理为离散函数,
Figure BDA00019575557600000910
步骤3)在所建立的模型上,使用Q(λ)算法进行迭代计算,算法在每个学习周期内的迭代流程如图2所示;
步骤3.1)对Q表中的每个状态动作对Q(s,a)进行Q值初始化。Q(s,~)表示 s状态下所有状态动作对的初始价值,sT表示终止状态,则Q(s,a)的计算公式如下:
Figure BDA0001957555760000101
步骤3.2)在每个学习周期开始时,将所有状态动作对<s,a>的E值E(s,a) 初始化为0;
步骤3.3)设置初始状态;
步骤3.4)根据Boltzmann分布策略进行动作选择,s状态下采取动作a的概率p(a|s)计算公式为:
Figure BDA0001957555760000102
步骤3.5)根据公式:
Q(s,a)=Q(s,a)+α*(r+γ*maxaQ(s′,a)-Q(s,a))*E(s,a)
对Q(s,a)进行更新;
步骤3.6)根据公式E(s,a)=λ*E(s,a)对E值进行更新:
步骤3.7)采取动作a转移至下一状态s',若s'为终止状态,则本次学习周期结束,返回步骤3.2)进入下一学习周期,否则返回步骤3.4)继续迭代。
步骤4)根据状态价值函数计算最优路径:
步骤4.1)经过步骤3)后,状态价值Q已经收敛,首先设定初始状态s,在s状态下选择具有最大Q值的动作a*,并进行状态转移,动作a*的选择公式为:a*=argmaxa∈AQ(s,a)。当采取动作a转移到下一状态s'后,继续采取确定性策略选择动作,直到到达终止状态;
步骤4.2)根据步骤1.3)中的公式将步骤4.1)中得到的网格中的最优路径坐标映射成航路点的经纬度坐标,则得到无人机最优路径。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (5)

1.基于Q(λ)算法的无人机路径规划方法,其特征在于:包括以下步骤:
步骤1,环境建模:利用传感器采集环境信息,识别威胁区域,使用栅格法将无人机飞行环境进行建模,将连续的空间离散化,根据设定的空间大小生成均匀的网格图,将网格顶点作为离散后的航路点;
步骤2,初始化马尔科夫决策过程模型:初始化适用于求解所述无人机路径规划的马尔科夫决策过程模型,所述马尔科夫决策过程模型用四元组<S,A,P,R>表示,S为无人机所处的状态空间,A为无人机的动作空间,P为状态转移矩阵,R为奖励函数,马尔科夫决策过程模型初始化包括对无人机飞行动作空间的表示、状态转移概率的设计以及奖励函数的构造;
步骤3,在所建立的模型上,使用Q(λ)算法迭代计算:在步骤1和步骤2建立的模型基础上,使用结合Q-learning算法和效用追踪的Q(λ)算法进行迭代计算;引入状态动作价值函数Q(s,a)来表征无人机在状态s采取动作a的价值,建立Q表存储每个状态动作对<s,a>的价值;引入效用追踪函数E(s,a)表示终止状态与状态行为对<s,a>的因果关系;首先进行Q值和E值初始化,然后在每个学习周期内,通过Boltzmann策略选择在s状态下采取的动作a;执行动作a转移到下一状态s'后,通过Q值更新公式更新Q(s,a)的值,并通过E值更新公式更新所有状态动作对的E值,当到达终止状态时,当次学习周期结束,直到到达最大学习周期数后,Q(λ)算法迭代计算过程结束;
步骤4,根据状态价值函数计算最优路径:经过步骤3后得到收敛的状态价值函数,则在状态s下选择具有最大Q值的动作a*,采取动作a*后继续采用确定性的策略,直到到达终止状态,最后将网格中的节点映射至经纬度则得到最优路径。
2.根据权利要求1所述的基于Q(λ)算法的无人机路径规划方法,其特征在于:所述步骤1环境建模的具体步骤为:
步骤1.1根据无人机最小航迹段长度初始化栅格空间;
无人机在若干个航点之间飞行是沿直线飞行,而到达某些航点时根据航迹要求而改变飞行姿态,最小航迹段长度是限制无人机在开始改变飞行姿态前必须直飞的最短距离,以无人机最小航迹段长度设置步长,可获得满足无人机自身约束的离散栅格空间;
设置无人机起点位置的经纬度坐标为S=(lonS,latS),目标点的经纬度坐标为T=(lonT,latT),无人机最小航迹段长度为dmin,栅格空间的大小为m*n,将dmin设置为栅格步长,则m、n的计算公式为:
Figure FDA0003553271700000021
步骤1.2将栅格空间坐标映射为航路点;
将栅格顶点作为离散后的航路点,栅格空间中的坐标使用(x,y)表示,设置栅格空间原点(0,0)对应的经纬度坐标为(lono,lato),则(x,y)对应的航路点经纬度坐标(lonxy,latxy)的计算公式如下:lonxy=lono+dmin*x,latxy=lato+dmin*y;
步骤1.3威胁区域信息的表示;
无人机在飞行过程中要考虑威胁源的空间位置,根据威胁源种类将威胁区域分为圆形区域和多边形区域,在栅格空间中,将含有威胁区域的节点标注为1,表示为禁飞区域,不含有威胁区域的节点标注为0,表示为可飞区域;对于圆形威胁区域,设置区域圆心坐标为(lonc,latc),威胁区域半径为rkm,对于栅格中的每个节点(x,y),根据haversine公式计算节点对应的航路点到威胁区圆心的距离dxyo,haversine方程是根据经纬度坐标计算球面上两个点间的距离;
Figure FDA0003553271700000022
如果dxyo≦r,则将(x,y)对应的节点标注为1,否则标注为0,对于多边形威胁区域,以航路点(lonxy,latxy)开始,向右或向左的水平方向作一射线,计算该射线与多边形区域的交点个数,如果交点个数为奇数,则航路点位于多边形威胁区内,将(x,y)节点标注为1,若交点个数为偶数,则在多边形威胁区外,将节点标注为1。
3.根据权利要求2所述的基于Q(λ)算法的无人机路径规划方法,其特征在于:所述步骤2马尔科夫决策过程模型初始化的具体步骤为:
步骤2.1表示无人机飞行动作空间
在栅格空间中将网格顶点作为航路点,则一个顶点到另一个顶点共有八个转移方向,边界点除外;根据无人机自身的约束和空间的威胁分布对转移方向做一定的限制,将无人机的行为泛化为离散动作空间,将航向状态以45°为间隔进行离散化,获得8个离散状态;根据设置的离散化航向状态,设置5个无人机飞行动作,直飞用数字0表示、右转45°用1表示,左转45°用2表示,右转90°用3表示、左转90°用4表示,则动作空间表示为A=[0,1,2,3,4],每个数字分别表示一个动作;
步骤2.2设计状态转移概率
状态转移概率是指当无人机在某一航路状态下执行动作后,到达另一航路状态的条件概率,用
Figure FDA0003553271700000031
表示,代表无人机在状态s下执行动作a转移到状态s'的概率;
由于在学习初期,无人机对环境未知,极易进入威胁区域,无人机进入威胁区域即代表一个学习周期结束,对环境的探索局限在初始状态附近,所以设定当无人机采取的动作会导致其进入威胁区域或者会导致无人机离开状态空间时,不发生状态转移,即无人机状态不发生改变,其余条件下将100%转移到动作指向的状态;无人机的状态空间为S,威胁区域空间为O,则
Figure FDA0003553271700000032
的计算公式为:
Figure FDA0003553271700000033
步骤2.3奖励函数的构造
无人机进行航路点转移进入下一个状态时会获得即时奖励,基于Q(λ)算法的学习目标就是最大化累积即时奖励,奖励函数的构造要考虑影响航迹性能的各种指标,包括距目标点的距离、飞行安全性、威胁程度;
Figure FDA0003553271700000034
表示无人机在状态s下采取动作a转移到s'状态获得的即时奖励函数,计算公式如下,其中w1、w2、w3为加权系数,fd、fo、fa为经过归一化处理的航迹评价因素;
Figure FDA0003553271700000035
fd表示能见度,取状态s'距目标点距离的倒数,s'的经纬度坐标为s'=(lons',lats'),目标点的经纬度坐标为T=(lonT,latT),fd计算公式为:
Figure FDA0003553271700000036
fo表示威胁区域对状态s'的威胁程度,
Figure FDA0003553271700000041
其中Io表示对无人机当前状态转移存在威胁的威胁区集合,
Figure FDA0003553271700000042
表示威胁区oi对s'的威胁程度,威胁区oi的经纬度坐标为
Figure FDA0003553271700000043
Figure FDA0003553271700000044
计算公式为:
Figure FDA0003553271700000045
fa表示对无人机飞行动作的惩罚项,无人机采取的飞行动作是影响无人机飞行安全的关键因素;根据步骤2.1设置的无人机飞行动作空间,将fa处理为离散函数:
Figure FDA0003553271700000046
4.根据权利要求3所述的基于Q(λ)算法的无人机路径规划方法,其特征在于:所述步骤3在所建立的模型上,使用Q(λ)算法迭代计算的具体步骤为:
步骤3.1初始化Q表
对Q表中的每个状态动作对Q(s,a)进行Q值初始化,Q(s,~)表示s状态下所有状态动作对的初始价值,sT表示终止状态,则Q(s,a)的计算公式如下:
Figure FDA0003553271700000047
如果s为终止状态,则初始Q值为0,否则将Q值设置为s与sT的距离的倒数,s状态对应的坐标为(x,y),sT状态对应的坐标为(xT,yT),dssT的计算公式为:
Figure FDA0003553271700000048
步骤3.2初始化E值
在每个学习周期开始时,将所有状态动作对<s,a>的E值E(s,a)初始化为0;
步骤3.3使用Boltzmann分布策略进行动作选择;
在每个学习周期内,首先设定初始状态,然后根据Boltzmann分布策略选择动作进行状态转移;s状态下采取动作a的概率p(a|s)计算公式为:
Figure FDA0003553271700000049
其中T表示温度系数,用来控制策略的探索强度;在学习初期使用较大的温度系数以保证较强的策略探索能力,之后逐渐减小温度系数;然后根据p(a|s)使用轮盘法选择动作a,并将E(s,a)的值加一;
步骤3.4更新Q值
无人机在状态s下采取步骤3.2选取的动作a,转移到状态s',并获得即时奖励r,则Q(s,a)的更新公式为:
Q(s,a)=Q(s,a)+α*(r+γ*maxaQ(s′,a)-Q(s,a))*E(s,a)
其中α为学习率,γ为折扣因子,γ表示对未来奖励的重视程度,maxaQ(s',a)为状态s'下最大的Q值;
步骤3.5更新E值
对所有的状态动作对E(s,a)的更新公式为:E(s,a)=λ*E(s,a),其中λ为权重参数,当状态s'为终止状态时,则本次学习周期结束,进入下个学习周期,否则转移到s'状态,并返回步骤3.2,继续学习过程。
5.根据权利要求4所述的基于Q(λ)算法的无人机路径规划方法,其特征在于:所述步骤4根据状态价值函数计算最优路径的具体步骤为:
步骤4.1使用确定性策略进行状态转移
经过步骤3后,状态价值Q已经收敛;首先设定初始状态s,在s状态下选择具有最大Q值的动作a*,并进行状态转移,动作a*的选择公式为:a*=argmaxa∈AQ(s,a),当采取动作a转移到下一状态s'后,继续采取确定性策略选择动作,直到到达终止状态;
步骤4.2将网格空间映射成航路点经纬度坐标
根据步骤1.2中的公式将步骤4.1中得到的网格中的最优路径坐标映射成航路点的经纬度坐标,则得到无人机最优路径。
CN201910071929.6A 2019-01-25 2019-01-25 一种基于Q(λ)算法的无人机路径规划方法 Active CN109655066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910071929.6A CN109655066B (zh) 2019-01-25 2019-01-25 一种基于Q(λ)算法的无人机路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910071929.6A CN109655066B (zh) 2019-01-25 2019-01-25 一种基于Q(λ)算法的无人机路径规划方法

Publications (2)

Publication Number Publication Date
CN109655066A CN109655066A (zh) 2019-04-19
CN109655066B true CN109655066B (zh) 2022-05-17

Family

ID=66121623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910071929.6A Active CN109655066B (zh) 2019-01-25 2019-01-25 一种基于Q(λ)算法的无人机路径规划方法

Country Status (1)

Country Link
CN (1) CN109655066B (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134140B (zh) * 2019-05-23 2022-01-11 南京航空航天大学 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法
CN110320931A (zh) * 2019-06-20 2019-10-11 西安爱生技术集团公司 基于航向控制律的无人机避障航路规划方法
CN110324805B (zh) * 2019-07-03 2022-03-08 东南大学 一种无人机辅助的无线传感器网络数据收集方法
CN110428115A (zh) * 2019-08-13 2019-11-08 南京理工大学 基于深度强化学习的动态环境下的最大化***效益方法
CN111340324B (zh) * 2019-09-25 2022-06-07 中国人民解放军国防科技大学 基于顺次分配的多层多粒度集群任务规划方法
CN110673637B (zh) * 2019-10-08 2022-05-13 福建工程学院 一种基于深度强化学习的无人机伪路径规划的方法
CN110726416A (zh) * 2019-10-23 2020-01-24 西安工程大学 一种基于障碍区域扩张策略的强化学习路径规划方法
CN110879610B (zh) * 2019-10-24 2021-08-13 北京航空航天大学 太阳能无人机自主寻优航迹规划的强化学习方法
CN111006693B (zh) * 2019-12-12 2021-12-21 中国人民解放军陆军工程大学 智能飞行器航迹规划***及其方法
CN111026157B (zh) * 2019-12-18 2020-07-28 四川大学 一种基于奖励重塑强化学习的飞行器智能引导方法
CN111123963B (zh) * 2019-12-19 2021-06-08 南京航空航天大学 基于强化学习的未知环境自主导航***及方法
CN111160755B (zh) * 2019-12-26 2023-08-18 西北工业大学 一种基于dqn的飞机大修车间实时调度方法
CN111328023B (zh) * 2020-01-18 2021-02-09 重庆邮电大学 一种基于预测机制的移动设备多任务竞争卸载方法
CN111399541B (zh) * 2020-03-30 2022-07-15 西北工业大学 无监督学习型神经网络的无人机全区域侦察路径规划方法
CN111479216B (zh) * 2020-04-10 2021-06-01 北京航空航天大学 基于uwb定位的无人机货物运送方法
CN111538059B (zh) * 2020-05-11 2022-11-11 东华大学 一种基于改进的玻尔兹曼机的自适应快速动态定位***及方法
CN111612162B (zh) * 2020-06-02 2021-08-27 中国人民解放军军事科学院国防科技创新研究院 一种强化学习方法、装置、电子设备及存储介质
CN111736461B (zh) * 2020-06-30 2021-05-04 西安电子科技大学 基于q学习的无人机任务协同分配方法
CN111880563B (zh) * 2020-07-17 2022-07-15 西北工业大学 一种基于maddpg的多无人机任务决策方法
CN112130124B (zh) * 2020-09-18 2023-11-24 郑州市混沌信息技术有限公司 一种民航机场内无人机管控设备快速标校与误差处理方法
CN112356031B (zh) * 2020-11-11 2022-04-01 福州大学 一种基于Kernel采样策略在不确定性环境下的在线规划方法
CN113033815A (zh) * 2021-02-07 2021-06-25 广州杰赛科技股份有限公司 一种阀门智能协作控制方法、装置、设备及存储介质
CN112525213B (zh) * 2021-02-10 2021-05-14 腾讯科技(深圳)有限公司 Eta的预测方法、模型训练方法、装置及存储介质
CN113093803B (zh) * 2021-04-03 2022-10-14 西北工业大学 一种基于e-sac算法的无人机空战运动控制方法
CN113176786A (zh) * 2021-04-23 2021-07-27 成都凯天通导科技有限公司 一种基于Q-Learning的高超声速飞行器动态路径规划方法
CN114020009B (zh) * 2021-10-20 2024-03-29 中国航空工业集团公司洛阳电光设备研究所 一种小型固定翼无人机地形突防规划方法
CN114115340B (zh) * 2021-11-15 2024-07-23 南京航空航天大学 一种基于强化学习的空域协同控制方法
CN114153213A (zh) * 2021-12-01 2022-03-08 吉林大学 一种基于路径规划的深度强化学习智能车行为决策方法
CN113867369B (zh) * 2021-12-03 2022-03-22 中国人民解放军陆军装甲兵学院 一种基于交流学习的海鸥算法的机器人路径规划方法
CN115192452A (zh) * 2022-07-27 2022-10-18 苏州泽达兴邦医药科技有限公司 一种中药生产制粒工艺及工艺策略计算方法
CN115562357B (zh) * 2022-11-23 2023-03-14 南京邮电大学 一种面向无人机集群的智能路径规划方法
CN117928559A (zh) * 2024-01-26 2024-04-26 兰州理工大学 一种基于强化学习的威胁规避下无人机路径规划方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106970648B (zh) * 2017-04-19 2019-05-14 北京航空航天大学 城市低空环境下无人机多目标路径规划联合搜索方法
CN108413959A (zh) * 2017-12-13 2018-08-17 南京航空航天大学 基于改进混沌蚁群算法的无人机航路规划方法
CN108171315B (zh) * 2017-12-27 2021-11-19 南京邮电大学 基于smc粒子群算法的多无人机任务分配方法
CN108170147B (zh) * 2017-12-31 2020-10-16 南京邮电大学 一种基于自组织神经网络的无人机任务规划方法
CN108319286B (zh) * 2018-03-12 2020-09-22 西北工业大学 一种基于强化学习的无人机空战机动决策方法

Also Published As

Publication number Publication date
CN109655066A (zh) 2019-04-19

Similar Documents

Publication Publication Date Title
CN109655066B (zh) 一种基于Q(λ)算法的无人机路径规划方法
Singla et al. Memory-based deep reinforcement learning for obstacle avoidance in UAV with limited environment knowledge
Tai et al. Virtual-to-real deep reinforcement learning: Continuous control of mobile robots for mapless navigation
CN107504972B (zh) 一种基于鸽群算法的飞行器航迹规划方法及装置
Zhu et al. Chaotic predator–prey biogeography-based optimization approach for UCAV path planning
Liu et al. Adaptive sensitivity decision based path planning algorithm for unmanned aerial vehicle with improved particle swarm optimization
Sharma et al. Path planning for multiple targets interception by the swarm of UAVs based on swarm intelligence algorithms: A review
CN107450593B (zh) 一种无人机自主导航方法和***
CN112435275A (zh) 一种融合卡尔曼滤波和ddqn算法的无人机机动目标追踪方法
CN113268074B (zh) 一种基于联合优化的无人机航迹规划方法
CN109597425A (zh) 基于强化学习的无人机导航和避障方法
US20210325891A1 (en) Graph construction and execution ml techniques
CN116661503B (zh) 一种基于多智能体安全强化学习的集群航迹自动规划方法
Haghighi et al. Multi-objective cooperated path planning of multiple unmanned aerial vehicles based on revisit time
Xue et al. A UAV navigation approach based on deep reinforcement learning in large cluttered 3D environments
Chen et al. Risk-aware trajectory sampling for quadrotor obstacle avoidance in dynamic environments
Wu et al. UAV Path Planning Based on Multicritic‐Delayed Deep Deterministic Policy Gradient
Liang et al. Multi-UAV autonomous collision avoidance based on PPO-GIC algorithm with CNN–LSTM fusion network
Saha et al. Real-time robot path planning around complex obstacle patterns through learning and transferring options
Hasanzade et al. A dynamically feasible fast replanning strategy with deep reinforcement learning
Nguyen et al. Uncertainty-aware visually-attentive navigation using deep neural networks
Lu et al. Flight with limited field of view: A parallel and gradient-free strategy for micro aerial vehicle
Rottmann et al. Adaptive autonomous control using online value iteration with gaussian processes
Chronis et al. Dynamic navigation in unconstrained environments using reinforcement learning algorithms
Hao et al. A search and rescue robot search method based on flower pollination algorithm and Q-learning fusion algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant