CN113268074A - 一种基于联合优化的无人机航迹规划方法 - Google Patents
一种基于联合优化的无人机航迹规划方法 Download PDFInfo
- Publication number
- CN113268074A CN113268074A CN202110632549.2A CN202110632549A CN113268074A CN 113268074 A CN113268074 A CN 113268074A CN 202110632549 A CN202110632549 A CN 202110632549A CN 113268074 A CN113268074 A CN 113268074A
- Authority
- CN
- China
- Prior art keywords
- aerial vehicle
- flight
- unmanned aerial
- action
- flight state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000009471 action Effects 0.000 claims abstract description 120
- 230000002787 reinforcement Effects 0.000 claims abstract description 14
- 238000005259 measurement Methods 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 19
- 238000007637 random forest analysis Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 4
- 239000000446 fuel Substances 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 abstract description 3
- 238000004422 calculation algorithm Methods 0.000 description 21
- 210000002569 neuron Anatomy 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000013507 mapping Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/08—Control of attitude, i.e. control of roll, pitch, or yaw
- G05D1/0808—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/106—Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明属于无人机飞行控制技术领域,具体涉及一种基于联合优化的无人机航迹规划方法。本发明通过前端飞行状态优化模型获取无人机自身飞行状态的最优估计,大幅度降低了自然干扰因素对传感器数据的误差;通过后端飞行动作优化模型,将实际偏差大的飞行角度调整至预期飞行角度,解决了强化学习决策飞行动作不佳的问题,提高了飞行航迹的可靠性。在实际应用中,对于传感器实时采集飞行状态数据,利用前端飞行状态优化模型实时获得最优飞行状态估计,将其作为已训练TD3模型的输入,得到飞行动作,并利用后端飞行动作优化模型,得到对应的飞行动作偏置,对其进行判决,控制输出优化后的飞行动作,从而实现无人机面对自然干扰影响的实时航迹规划。
Description
技术领域
本发明属于无人机飞行控制技术领域,具体涉及一种基于联合优化的无人机航迹规划方法。
背景技术
无人机是一种不载人的通过无线传输遥控装置或自主传感控制设备完成相应任务的飞行设备,航迹规划是无人机执行飞行任务的有效技术手段,航迹可靠才能确保无人机完成飞行任务。
传统的规划算法有人工势场法、Dijkstra算法等。人工势场法通过模拟引力场和排斥场对空间中无人机的综合作用规划无人机的飞行航迹,其适用于局部范围的规划,对全局规划的能力不足。Dijkstra算法是一种经典的用于最短路径求解的算法,它能够求出固定点到其他任意点的最短路径,简单有效,但缺点是一旦计算点数目增多,则算法计算量和所需内存极具增加。随着飞行环境日趋复杂,传统规划算法计算复杂度高、实时性差,难以实时控制无人机飞行。
强化学习算法具有运算速度快、实时性强的特点,且能够根据无人机的飞行状态,端到端地决策飞行动作,使无人机飞行的实时控制成为可能,因此在规划领域广泛应用。通过对现有技术文献的检索发现,西北工业大学在其申请的专利“基于DDPG的无人机自主引导控制方法”(专利申请号:CN201910853746.X,申请公布号:CN110806756A)中提出了一种基于DDPG的无人机自主引导控制方法,该方法能够使无人机安全并快速地从起点飞到终点,提高了无人机执行任务的自主性和效率,但是该方法仅适用于静态地形环境。何金等在《兵工自动化》(2020,39(09):15-21)上发表的“未知环境下基于PF-DQN的无人机路径规划”中提出了一种环境信息未知情况下基于势函数奖赏的DQN路径规划方法,实现了无人机在环境信息未知下有效避障的路径规划,但是该算法的应用局限于与其训练近似的环境模型。已有文献的检索结果表明,这些方法的建模过程并未考虑实际环境中自然干扰因素的影响,如突发天气变化、风力、气流等,这类影响会导致无人机传感器采集的飞行数据具有偏差,使强化学习算法决策的飞行动作不佳,难以满足无人机飞行航迹的可靠性。
发明内容
本发明的目的在于提供一种基于联合优化的无人机航迹规划方法。
本发明的目的通过如下技术方案来实现:包括以下步骤:
步骤1:搭建飞行状态优化模型;所述的飞行状态优化模型的输入为无人机携带的I个传感器在t时刻对无人机飞行状态的量测向量mi(t),飞行状态优化模型的输出为无人机t时刻飞行状态的最优估计ζ(t|t)=[p(t),v(t)]T;
步骤1.1:输入无人机携带的I个传感器在t时刻对无人机飞行状态的量测向量mi(t);
其中,I个传感器的采样间隔均为Ω;mi(t)=[pi(t),vi(t)]T;i={1,2,...,I};pi(t)表示第i个传感器获取的无人机位置量测向量,pi(t)=[pix(t),piy(t),piz(t)]T,pix(t)、piy(t)和piz(t)分别表示第i个传感器获取的笛卡尔坐标系下无人机在三维空间中x、y和z三个方向的位置坐标量测值;vi(t)表示第i个传感器获取的无人机速度量测向量,vi(t)=[vix(t),viy(t),viz(t)]T,vix(t)、viy(t)和viz(t)分别表示第i个传感器获取的笛卡尔坐标系无人机在三维空间中x、y和z三个方向的速度分量量测值;
步骤1.2:根据t-1时刻无人机飞行状态的最优估计ζ(t-1|t-1),计算t时刻无人机飞行状态的预测ζ(t|t-1);
步骤1.3:计算t时刻各传感器对无人机飞行状态的量测预测δi(t|t-1);
δi(t|t-1)=Hi(t)ζ(t|t-1)
步骤1.4:计算t时刻各传感器的量测新息εi(t);
εi(t)=mi(t)-δi(t|t-1)
步骤1.5:根据t-1时刻无人机飞行状态的协方差P(t-1|t-1),计算t时刻无人机飞行状态的协方差预测P(t|t-1);
P(t|t-1)=FP(t-1|t-1)FT+O
步骤1.6:计算t时刻各传感器的预测新息协方差Ii(t);
步骤1.7:计算t时刻各传感器量测向量的关联概率βi(t);
步骤1.8:计算t时刻I个传感器的综合量测新息ε(t);
步骤1.9:计算t时刻无人机飞行状态的协方差P(k|k);
步骤1.10:计算无人机t时刻飞行状态的最优估计ζ(t|t);
ζ(t|t)=ζ(t|t-1)K(t)ε(t)
步骤2:构建并训练基于TD3的无人机航迹规划模型;
设置基于TD3的无人机航迹规划模型的状态空间输入为ζ(t|t),设置基于TD3的无人机航迹规划模型的动作空间的输出为表示无人机t时刻飞行的方位角,θ(t)表示无人机t时刻飞行的俯仰角;设置强化学习奖励函数r(t)为:
r(t)=r1(t)+r2(t)
其中,r1表示到达正奖励;r2表示航程负奖励;parrive表示终点的位置坐标;pstart表示起点的位置坐标;dmax表示无人机最大探测范围;ρmax表示无人机携带的燃料可供给的最大可飞行航程;
步骤3:构建并训练基于随机森林回归的飞行动作优化模型;
利用步骤2中训练好的基于TD3的无人机航迹规划模型,根据每一时刻基于TD3的无人机航迹规划模型输出的动作获取无人机执行动作a(t)后在t+1时刻到达的位置,将无人机t+1时刻的位置与t时刻的位置连接成标定线,标定线与无人机执行动作a(t)所得航迹构成夹角在直角坐标系中分解,得到构造训练数据集Angle_data={Angle_datat},训练好的基于随机森林回归的飞行动作优化模型根据输入的动作a(t)输出动作偏置
步骤4:联合飞行状态优化模型、基于TD3的无人机航迹规划模型和基于随机森林回归的飞行动作优化模型,对无人机航迹进行实时规划;
步骤4.1:获取无人机携带的I个传感器在t时刻对无人机飞行状态的量测向量mi(t),输入至飞行状态优化模型中,得到无人机t时刻飞行状态的最优估计ζ(t|t)=[p(t),v(t)]T;
步骤4.6:在无人机的飞行过程中,实时执行步骤4.1至步骤4.5,实现每一时刻的前端飞行状态优化和后端飞行动作优化,并实时控制优化后的飞行动作输出,形成最终航迹。
本发明的有益效果在于:
本发明通过设计前端飞行状态优化模型,引入目标跟踪机理,最优估计无人机自身的飞行状态,大幅度降低了自然干扰因素对传感器数据的误差;通过设计后端飞行动作优化模型,结合姿态优化机制,将实际偏差大的飞行角度调整至预期飞行角度,解决了强化学习决策飞行动作不佳的问题,提高了飞行航迹的可靠性。
附图说明
图1是本发明的总体流程图。
图2是本发明的实施例中基于PDA的无人机飞行状态优化方法的流程图。
图3是本发明的实施例中基于TD3的无人机航迹规划方法训练流程图。
图4是无人机球面坐标系下速度模型图。
图5是本发明的实施例中动作优化回归模型数据集构建方法的示意图。
图6是本发明的实施例中应用基于联合优化的无人机航迹规划方法的流程图。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明属于无人机飞行控制领域,涉及一种基于联合优化的无人机航迹规划方法。本发明降低了自然干扰因素对无人机飞行航迹的影响,联合前端飞行状态优化和后端飞行动作优化。本发明的技术方案具体包括以下步骤:
步骤1:搭建飞行状态优化模型,利用概率数据关联算法实现无人机传感器量测数据到最优飞行状态的估计;
步骤2:结合步骤1的最优飞行状态,构建基于TD3的无人机航迹规划模型,实现无人机对规划环境的探索;
步骤3:结合步骤2的TD3模型,设计基于随机森林回归的飞行动作优化模型,实现飞行动作到飞行动作修正偏置的映射;
步骤4:联合步骤1的飞行状态优化模型和步骤2、步骤3的飞行动作优化模型,构成基于联合优化的无人机航迹规划模型,实时控制飞行动作输出,形成航迹,
步骤1包括:
选择概率数据关联(Probability Data Association,PDA)算法为状态优化算法。
根据实际情况设定传感器线性量测矩阵以获得飞行状态的量测预测。式中,p(k)=[px(k),py(k),pz(k)]T表示无人机位置信息,px(k)、py(k)和pz(k)分别代表笛卡尔坐标系下,无人机在三维空间中x、y和z三个方向的位置坐标点,v(k)=[vx(k),vy(k),vz(k)]T表示k时刻无人机速度信息,vx(k)、vy(k)和vz(k)分别代表笛卡尔坐标系下,无人机在三维空间中x、y和z三个方向的速度分量,||·||表示求模运算。
利用机载传感器,量测得到多组无人机自身飞行状态数据,将所得数据均作为有效量测数据,结合量测预测,获得每个传感器量测数据的新息。
将每个传感器量测数据的关联概率和新息加权计算,得到综合新息,并结合卡尔曼滤波器增益和飞行状态模型预测,得到最优估计的飞行状态。
步骤2包括:
选择双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic PolicyGradient,TD3)算法为无人机航迹规划算法。
考虑由PDA得到的最优飞行状态,设计无人机航迹规划的强化学习状态空间为st=[pt,vt]T,式中,pt=[px,t,py,t,pz,t]T表示t时刻无人机位置信息,px,t、py,t和pz,t分别代表笛卡尔坐标系下,无人机在三维空间中x、y和z三个方向的位置坐标点,vt=[vx,t,vy,t,vz,t]T为t时刻无人机速度信息,vx,t、vy,t和vz,t分别代表笛卡尔坐标系下,无人机在三维空间中x、y和z三个方向的速度分量。
考虑模型训练应使无人机飞行趋向于终点并避免燃料耗尽,设计无人机航迹规划的强化学习奖励函数为rt=r1+r2,式中,r1表示到达正奖励,r2表示航程负奖励,式中,pt表示t时刻无人机所处位置坐标,parrive表示终点位置坐标,dmax表示无人机最大探测范围;式中,pstart表示起点位置坐标,ρmax表示无人机最大可飞行航程。
搭建TD3网络结构,其中Actor网络和Critic网络,均为3层全连接网络结构,Actor网络的输入层为2个神经元,输出层为6个神经元,Critic网络的输入层为8个神经元,输出层为1个神经元,设置TD3训练参数,进行网络训练,得到基于TD3的无人机航迹规划模型。
步骤3包括:
定义回归模型训练的数据集Angle_data={Angle_datat},式中,为任意t时刻的角度数据集,表示无人机的飞行动作,作为样本,表示无人机航迹连线和无人机与终点连线的夹角,即飞行动作偏置,作为标签,和为在直角坐标系的方位角和俯仰角。
利用步骤2得到的已训练TD3模型的Actor在线网络,决策无人机在规划空间中每一时刻的飞行动作无人机执行飞行动作,飞行到下一位置;将该步飞行前无人机所处位置和无人机任务终点形成标定线,标定线与该步飞行所得航迹构成夹角在直角坐标系中对该夹角分解,得到得到每一时刻的Angle_datat并存储;完成整个飞行过程,存储整体数据集Angle_data。
设置随机森林回归模型的基本参数,结合数据集Angle_data,进行回归模型训练,得到基于随机森林回归的飞行动作优化模型。
步骤4包括:
无人机携带4个传感器实时量测飞行状态数据,利用PDA算法得到无人机在该时刻的最优飞行状态。
最优飞行状态作为步骤2所得已训练TD3模型的输入,利用其中的Actor在线网络,决策飞行动作输出。
将飞行动作,作为步骤3所得已训练随机森林回归模型的输入,得到对应的飞行动作偏置。
依照判决结果,若不优化飞行动作,则将已训练TD3模型所得飞行动作控制输出;若需要优化飞行动作,则将原飞行动作at和飞行动作偏置依照式(1)处理,得到新的飞行动作at_new,并控制飞行动作实时输出,形成最终航迹。
本发明的有益效果在于:
本发明设计的前端飞行状态优化模型,引入了目标跟踪机理,最优估计无人机自身的飞行状态,大幅度降低了自然干扰因素对传感器数据的误差;后端飞行动作优化模型结合了姿态优化机制,将实际偏差大的飞行角度调整至预期飞行角度,解决了强化学习决策飞行动作不佳的问题,提高了飞行航迹的可靠性。总之,本发明联合前端飞行状态优化和后端飞行动作优化,提供的基于联合优化的无人机航迹规划方法,在自然干扰因素的影响下,提高了无人机飞行航迹的可靠性,提升了无人机抗干扰的能力。
实施例1:
本发:针对实际环境中,无人机传感器采集的数据受到自然干扰影响存在误差,导致强化学习算法决策飞行动作不佳的问题,提供一种基于联合优化的无人机航迹规划方法。本发明通过搭建基于概率数据关联的飞行状态优化模型,完成无人机传感器量测数据到飞行状态的最优估计;设定无人机航迹规划背景下的强化学习基本要素,结合最优飞行状态设计状态空间,依据无人机机动原理设计动作空间,根据实际任务需求设计奖励函数,构建并训练基于TD3的无人机航迹规划模型,实时决策飞行动作;利用已训练TD3,构建动作优化回归模型数据集,设计并训练基于随机森林回归的飞行动作优化模型,完成飞行动作到飞行动作修正偏置的映射。在实际应用中,对于传感器实时采集飞行状态数据,利用状态优化模型实时获得最优飞行状态,将其作为已训练TD3模型的输入,得到飞行动作,并利用飞行动作优化模型,得到对应的飞行动作偏置,对其进行判决,控制输出优化后的飞行动作,从而在联合优化的作用下,实现无人机面对自然干扰影响的实时航迹规划。
如附图1所示是本发明实施例基于联合优化的无人机航迹规划方法流程示意图,包括步骤1至步骤4:
步骤1:搭建飞行状态优化模型,利用概率数据关联算法实现无人机传感器量测数据到最优飞行状态的估计。
如附图2所示是本发明实施例基于PDA的无人机飞行状态优化方法流程示意图,包括步骤1.1至步骤1.13:
步骤1.1:设计在任意k时刻,无人机运动的状态向量为:
ζ(k)=[p(k),v(k)]T (2)
式中,p(k)=[px(k),py(k),pz(k)]T表示无人机位置信息,px(k)、py(k)和pz(k)分别代表笛卡尔坐标系下,无人机在三维空间中x、y和z三个方向的位置坐标点,v(k)=[vx(k),vy(k),vz(k)]T表示k时刻无人机速度信息,vx(k)、vy(k)和vz(k)分别代表笛卡尔坐标系下,无人机在三维空间中x、y和z三个方向的速度分量。
步骤1.2:根据k-1时刻无人机的运动状态ζ(k-1|k-1),完成k时刻的状态预测ζ(k|k-1):
步骤1.3:计算k时刻的量测预测δ(k|k-1):
δ(k|k-1)=H(k)ζ(k|k-1) (4)
式中,H(k)表示线性测量矩阵,在本发明的实施例中,将其设定为:
式中,||·||表示求模运算。
步骤1.4:利用传感器,获得有效量测数据M(k),在本发明的实施例中,无人机携带4个传感器:
M(k)=mi(k),i=1,2,3,4 (6)
式中,mi(k)即为在k时刻,第i个传感器得到的状态的有效量测值,在本发明的实施例中,规定传感器量测的数据均为有效量测值。
步骤1.5:计算每个有效量测值mi(k)的新息:
εi(k)=mi(k)-δ(k|k-1),i=1,2,3,4 (7)
式中,εi(k)即为在k时刻,第i个传感器所得量测值的新息。
步骤1.6:计算k-1时刻无人机状态协方差为:
式中,Cov(·,·)表示协方差运算。
步骤1.7:计算k时刻的状态协方差预测P(k|k-1):
P(k|k-1)=F(k-1)P(k-1|k-1)FT(k-1)+O (9)
步骤1.8:预测新息的协方差I(k):
I(k)=H(k)P(k|k-1)HT(k)+R(k) (10)
式中,R(k)为量测噪声协方差,在本发明的实施例中,将其设定为:
步骤1.9:计算每个量测值的关联概率βi(k):
步骤1.10:依据公式(13),综合新息εi(k):
步骤1.11:更新无人机在k时刻的最优状态ζ(k|k),用于k+1时刻的最优飞行状态更新:
ζ(k|k)=ζ(k|k-1)+K(k)ε(k) (14)
式中,K(k)=P(k|k-1)HT(k)I-1(k)为卡尔曼滤波器增益。
步骤1.12:更新无人机在k时刻的状态协方差预测P(k|k),用于k+1时刻的最优飞行状态更新:
步骤1.13:在无人机的飞行的每一时刻均执行步骤1.2至步骤1.12,实现无人机飞行状态在每一时刻由传感器量测数据到最优飞行状态的估计。
步骤2:结合步骤1的最优飞行状态,构建基于TD3的无人机航迹规划模型,实现无人机对规划环境的探索。
如附图3所示是本发明实施例基于TD3的无人机航迹规划方法训练流程示意图,包括步骤2.1至步骤2.6:
步骤2.1:在本发明的实施例中,选择TD3作为实现无人机航迹规划的算法。
步骤2.2:在本发明的实施例中,考虑由PDA得到的最优飞行状态ζ(k|k)=[p(k),v(k)]T,设计无人机航迹规划的强化学习状态空间st为:
st=[pt,vt]T=ζ(t|t) (16)
式中,pt=[px,t,py,t,pz,t]T表示t时刻无人机位置信息,px,t、py,t和pz,t分别代表笛卡尔坐标系下,无人机在三维空间中x、y和z三个方向的位置坐标点,vt=[vx,t,vy,t,vz,t]T为t时刻无人机速度信息,vx,t、vy,t和vz,t分别代表笛卡尔坐标系下,无人机在三维空间中x、y和z三个方向的速度分量。
图4所示是无人机球面坐标系下速度模型图,如附图4所示,1是无人机在空间中飞行的点迹,2是坐标系的x轴方向,3是坐标系的y轴方向,4是坐标系的z轴方向,5是无人机飞行速度方向,6是无人机飞行速度方向的方位角7是无人机飞行速度方向的俯仰角θt。
步骤2.3:在本发明的实施例中,设计无人机航迹规划的强化学习动作空间at为:
步骤2.4:在本发明的实施例中,设计无人机航迹规划的强化学习奖励函数rt为:
rt=r1+r2 (18)
式中,r1表示到达正奖励,r2表示航程负奖励。
r1具体设计为:
式中,pt表示t时刻无人机所处位置坐标,parrive表示终点位置坐标,dmax表示无人机最大探测范围。
r2具体设计为:
式中,pstart表示起点位置坐标,ρmax表示无人机携带的燃料可供给的最大可飞行航程。
步骤2.5:搭建Actor网络和Critic网络,均为3层全连接网络结构,Actor网络的输入层为2个神经元,输出层为6个神经元,Critic网络的输入层为8个神经元,输出层为1个神经元。设置训练参数:回合更新次数为10000,每回合时间步数为50,延迟步数为2,记忆池大小为5000,采集经验数据的批量大小为32,折扣因子大小为0.99,Actor网络学习率为1×10-4,Critic网络学习率为2×10-4。
步骤2.6:利用步骤2.1至2.4设置的无人机航迹规划背景下的强化学习状态空间、动作空间和奖励函数,在步骤2.5设定的参数条件下,依据TD3的原理,训练基于TD3的无人机航迹规划模型,获得无人机从飞行状态到飞行动作端到端的决策映射。
步骤3:结合步骤2的TD3模型,设计基于随机森林回归的飞行动作优化模型,实现飞行动作到飞行动作修正偏置的映射。
图5是本发明实施例的动作优化回归模型数据集构建方法示意图,如附图5所示,8是无人机飞行空间直角坐标系原点,9是直角坐标系x轴方向,10是直角坐标系y轴方向,11是直角坐标系z轴方向,12是无人机飞行的起点即航迹的第0点,13是1时刻的航迹点,14是2时刻的航迹点,15是t时刻的航迹点,16是t+1时刻的航迹点,17是无人机飞行的终点,18是空间中的障碍,19是无人机飞行起点与1时刻航迹点形成的航迹连线和起点至终点的标定线的夹角20是无人机1时刻航迹点与2时刻航迹点形成的航迹连线和1时刻航迹点至终点的标定线的夹角21是无人机t时刻航迹点与t+1时刻航迹点形成的航迹连线和t时刻航迹点至终点的标定线的夹角
步骤3.1:在本发明的实施例中,生成回归模型训练的数据集Angle_data:
Angle_data={Angle_datat} (21)
步骤3.2:在本发明的实施例中,利用步骤2已训练TD3模型的Actor在线网络,在图5所示规划空间中决策无人机每一时刻的飞行动作,即无人机执行飞行动作,飞行到下一位置;将该步飞行前无人机所处位置和终点形成标定线,标定线与该步飞行所得航迹构成夹角在直角坐标系中对该夹角分解,得到得到每一时刻的Angle_datat并存储;完成整个飞行过程,存储整体数据集Angle_data。
步骤3.3:在本发明的实施例中,设置随机森林回归模型的基本参数:决策树个数100,决策树最大深度10。
步骤3.4:利用步骤3.2得到的关于步骤3.1生成的数据集Angle_data,在步骤3.3设定的参数条件下,依据随机森林回归的原理,训练随机森林回归模型,得到飞行动作到飞行动作修正偏置的映射。
步骤4:联合步骤1的飞行状态优化模型和步骤2、步骤3的飞行动作优化模型,构成基于联合优化的无人机航迹规划模型,实时控制飞行动作输出,形成航迹。
如附图6所示是本发明实施例应用基于联合优化的无人机航迹规划方法示意图,包括步骤4.1至步骤4.6:
步骤4.1:对于4个传感器实时量测的4组状态数据,利用PDA算法实施步骤1,得到无人机在该时刻的最优飞行状态ζ(t|t)。
步骤4.2:将步骤4.1获得的最优飞行状态ζ(t|t),作为步骤2所得已训练TD3模型的输入st,利用其中的Actor在线网络,决策飞行动作at。
步骤4.4:在本发明的实施例中,定义判决式(23),并判决飞行动作偏置:
步骤4.5:依照步骤4.4的判决结果,若不优化飞行动作,则将步骤4.2所得飞行动作at控制输出;若需要优化飞行动作,则将原飞行动作at和飞行动作偏置依照式(24)及式(25)处理,得到新的飞行动作at_new:
步骤4.6:在无人机的飞行过程中,实时执行步骤4.1至步骤4.5,实现每一时刻的前端飞行状态优化和后端飞行动作优化,并实时控制优化后的飞行动作输出,形成最终航迹。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于联合优化的无人机航迹规划方法,其特征在于,包括以下步骤:
步骤1:搭建飞行状态优化模型;所述的飞行状态优化模型的输入为无人机携带的I个传感器在t时刻对无人机飞行状态的量测向量mi(t),飞行状态优化模型的输出为无人机t时刻飞行状态的最优估计ζ(t|t)=[p(t),v(t)]T;
步骤1.1:输入无人机携带的I个传感器在t时刻对无人机飞行状态的量测向量mi(t);
其中,I个传感器的采样间隔均为Ω;mi(t)=[pi(t),vi(t)]T;i={1,2,...,I};pi(t)表示第i个传感器获取的无人机位置量测向量,pi(t)=[pix(t),piy(t),piz(t)]T,pix(t)、piy(t)和piz(t)分别表示第i个传感器获取的笛卡尔坐标系下无人机在三维空间中x、y和z三个方向的位置坐标量测值;vi(t)表示第i个传感器获取的无人机速度量测向量,vi(t)=[vix(t),viy(t),viz(t)]T,vix(t)、viy(t)和viz(t)分别表示第i个传感器获取的笛卡尔坐标系无人机在三维空间中x、y和z三个方向的速度分量量测值;
步骤1.2:根据t-1时刻无人机飞行状态的最优估计ζ(t-1|t-1),计算t时刻无人机飞行状态的预测ζ(t|t-1);
步骤1.3:计算t时刻各传感器对无人机飞行状态的量测预测δi(t|t-1);
δi(t|t-1)=Hi(t)ζ(t|t-1)
步骤1.4:计算t时刻各传感器的量测新息εi(t);
εi(t)=mi(t)-δi(t|t-1)
步骤1.5:根据t-1时刻无人机飞行状态的协方差P(t-1|t-1),计算t时刻无人机飞行状态的协方差预测P(t|t-1);
P(t|t-1)=FP(t-1|t-1)FT+O
步骤1.6:计算t时刻各传感器的预测新息协方差Ii(t);
步骤1.7:计算t时刻各传感器量测向量的关联概率βi(t);
步骤1.8:计算t时刻I个传感器的综合量测新息ε(t);
步骤1.9:计算t时刻无人机飞行状态的协方差P(k|k);
步骤1.10:计算无人机t时刻飞行状态的最优估计ζ(t|t);
ζ(t|t)=ζ(t|t-1)K(t)ε(t)
步骤2:构建并训练基于TD3的无人机航迹规划模型;
设置基于TD3的无人机航迹规划模型的状态空间输入为ζ(t|t),设置基于TD3的无人机航迹规划模型的动作空间的输出为 表示无人机t时刻飞行的方位角,θ(t)表示无人机t时刻飞行的俯仰角;设置强化学习奖励函数r(t)为:
r(t)=r1(t)+r2(t)
其中,r1表示到达正奖励;r2表示航程负奖励;parrive表示终点的位置坐标;pstart表示起点的位置坐标;dmax表示无人机最大探测范围;ρmax表示无人机携带的燃料可供给的最大可飞行航程;
步骤3:构建并训练基于随机森林回归的飞行动作优化模型;
利用步骤2中训练好的基于TD3的无人机航迹规划模型,根据每一时刻基于TD3的无人机航迹规划模型输出的动作获取无人机执行动作a(t)后在t+1时刻到达的位置,将无人机t+1时刻的位置与t时刻的位置连接成标定线,标定线与无人机执行动作a(t)所得航迹构成夹角在直角坐标系中分解,得到构造训练数据集Angle_data={Angle_datat},训练好的基于随机森林回归的飞行动作优化模型根据输入的动作a(t)输出动作偏置
步骤4:联合飞行状态优化模型、基于TD3的无人机航迹规划模型和基于随机森林回归的飞行动作优化模型,对无人机航迹进行实时规划;
步骤4.1:获取无人机携带的I个传感器在t时刻对无人机飞行状态的量测向量mi(t),输入至飞行状态优化模型中,得到无人机t时刻飞行状态的最优估计ζ(t|t)=[p(t),v(t)]T;
步骤4.6:在无人机的飞行过程中,实时执行步骤4.1至步骤4.5,实现每一时刻的前端飞行状态优化和后端飞行动作优化,并实时控制优化后的飞行动作输出,形成最终航迹。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110632549.2A CN113268074B (zh) | 2021-06-07 | 2021-06-07 | 一种基于联合优化的无人机航迹规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110632549.2A CN113268074B (zh) | 2021-06-07 | 2021-06-07 | 一种基于联合优化的无人机航迹规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113268074A true CN113268074A (zh) | 2021-08-17 |
CN113268074B CN113268074B (zh) | 2022-05-13 |
Family
ID=77234465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110632549.2A Active CN113268074B (zh) | 2021-06-07 | 2021-06-07 | 一种基于联合优化的无人机航迹规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113268074B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113885564A (zh) * | 2021-10-20 | 2022-01-04 | 哈尔滨工程大学 | 一种基于大数据的组队循迹规划导航方法 |
CN114217632A (zh) * | 2021-12-03 | 2022-03-22 | 中国人民解放军国防科技大学 | 自适应容错无人机跟踪巡航***及方法 |
CN114489107A (zh) * | 2022-01-29 | 2022-05-13 | 哈尔滨逐宇航天科技有限责任公司 | 一种飞行器双延迟深度确定性策略梯度姿态控制方法 |
CN116628448A (zh) * | 2023-05-26 | 2023-08-22 | 兰州理工大学 | 扩展目标中基于深度强化学习的传感器管理方法 |
CN116698037A (zh) * | 2023-05-31 | 2023-09-05 | 哈尔滨工程大学 | 一种无人机航迹规划方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007064691A (ja) * | 2005-08-29 | 2007-03-15 | Navitime Japan Co Ltd | ナビゲーションシステム、端末装置及び経路案内方法 |
CN103017753A (zh) * | 2012-11-01 | 2013-04-03 | 中国兵器科学研究院 | 一种无人机航路规划方法及装置 |
CN103471592A (zh) * | 2013-06-08 | 2013-12-25 | 哈尔滨工程大学 | 一种基于蜂群协同觅食算法的多无人机航迹规划方法 |
CN106595671A (zh) * | 2017-02-22 | 2017-04-26 | 南方科技大学 | 一种基于强化学习的无人机路径规划方法和装置 |
CN110162077A (zh) * | 2019-06-18 | 2019-08-23 | 哈尔滨工程大学 | 一种基于飞鱼算法的无人机航迹规划方法 |
CN110333739A (zh) * | 2019-08-21 | 2019-10-15 | 哈尔滨工程大学 | 一种基于强化学习的auv行为规划及动作控制方法 |
US10671076B1 (en) * | 2017-03-01 | 2020-06-02 | Zoox, Inc. | Trajectory prediction of third-party objects using temporal logic and tree search |
WO2021017227A1 (zh) * | 2019-07-30 | 2021-02-04 | 北京邮电大学 | 无人机轨迹优化方法、装置及存储介质 |
CN112819253A (zh) * | 2021-03-02 | 2021-05-18 | 华东师范大学 | 一种无人机避障和路径规划装置及方法 |
-
2021
- 2021-06-07 CN CN202110632549.2A patent/CN113268074B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007064691A (ja) * | 2005-08-29 | 2007-03-15 | Navitime Japan Co Ltd | ナビゲーションシステム、端末装置及び経路案内方法 |
CN103017753A (zh) * | 2012-11-01 | 2013-04-03 | 中国兵器科学研究院 | 一种无人机航路规划方法及装置 |
CN103471592A (zh) * | 2013-06-08 | 2013-12-25 | 哈尔滨工程大学 | 一种基于蜂群协同觅食算法的多无人机航迹规划方法 |
CN106595671A (zh) * | 2017-02-22 | 2017-04-26 | 南方科技大学 | 一种基于强化学习的无人机路径规划方法和装置 |
US10671076B1 (en) * | 2017-03-01 | 2020-06-02 | Zoox, Inc. | Trajectory prediction of third-party objects using temporal logic and tree search |
CN110162077A (zh) * | 2019-06-18 | 2019-08-23 | 哈尔滨工程大学 | 一种基于飞鱼算法的无人机航迹规划方法 |
WO2021017227A1 (zh) * | 2019-07-30 | 2021-02-04 | 北京邮电大学 | 无人机轨迹优化方法、装置及存储介质 |
CN110333739A (zh) * | 2019-08-21 | 2019-10-15 | 哈尔滨工程大学 | 一种基于强化学习的auv行为规划及动作控制方法 |
CN112819253A (zh) * | 2021-03-02 | 2021-05-18 | 华东师范大学 | 一种无人机避障和路径规划装置及方法 |
Non-Patent Citations (4)
Title |
---|
JIAXUAN FAN等: "UAV online path planning technology based on deep reinforcement learning", 《2020 CHINESE AUTOMATION CONGRESS (CAC)》 * |
丁力等: "基于航迹规划的四旋翼飞行器轨迹跟踪控制", 《电光与控制》 * |
万磊,等: "欠驱动水下机器人航迹跟踪控制", 《电机与控制学报》 * |
宋欣屿,等: "基于深度强化学习的无人机着陆轨迹跟踪控制", 《航空科学技术》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113885564A (zh) * | 2021-10-20 | 2022-01-04 | 哈尔滨工程大学 | 一种基于大数据的组队循迹规划导航方法 |
CN114217632A (zh) * | 2021-12-03 | 2022-03-22 | 中国人民解放军国防科技大学 | 自适应容错无人机跟踪巡航***及方法 |
CN114217632B (zh) * | 2021-12-03 | 2023-09-26 | 中国人民解放军国防科技大学 | 自适应容错无人机跟踪巡航***及方法 |
CN114489107A (zh) * | 2022-01-29 | 2022-05-13 | 哈尔滨逐宇航天科技有限责任公司 | 一种飞行器双延迟深度确定性策略梯度姿态控制方法 |
CN114489107B (zh) * | 2022-01-29 | 2022-10-25 | 哈尔滨逐宇航天科技有限责任公司 | 一种飞行器双延迟深度确定性策略梯度姿态控制方法 |
CN116628448A (zh) * | 2023-05-26 | 2023-08-22 | 兰州理工大学 | 扩展目标中基于深度强化学习的传感器管理方法 |
CN116628448B (zh) * | 2023-05-26 | 2023-11-28 | 兰州理工大学 | 扩展目标中基于深度强化学习的传感器管理方法 |
CN116698037A (zh) * | 2023-05-31 | 2023-09-05 | 哈尔滨工程大学 | 一种无人机航迹规划方法 |
CN116698037B (zh) * | 2023-05-31 | 2024-03-26 | 哈尔滨工程大学 | 一种无人机航迹规划方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113268074B (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113268074B (zh) | 一种基于联合优化的无人机航迹规划方法 | |
CN109655066B (zh) | 一种基于Q(λ)算法的无人机路径规划方法 | |
US11727812B2 (en) | Airplane flight path planning method and device based on the pigeon-inspired optimization | |
CN111667513B (zh) | 一种基于ddpg迁移学习的无人机机动目标跟踪方法 | |
CN108319293B (zh) | 一种基于lstm网络的uuv实时避碰规划方法 | |
CN101943916B (zh) | 一种基于卡尔曼滤波器预测的机器人避障方法 | |
CN110320809B (zh) | 一种基于模型预测控制的agv轨迹修正方法 | |
Yan et al. | Consensus formation tracking for multiple AUV systems using distributed bioinspired sliding mode control | |
CN111538241B (zh) | 一种平流层飞艇水平轨迹智能控制方法 | |
CN108803321A (zh) | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 | |
CN112435275A (zh) | 一种融合卡尔曼滤波和ddqn算法的无人机机动目标追踪方法 | |
CN113848974B (zh) | 一种基于深度强化学习的飞行器轨迹规划方法及*** | |
Nie et al. | Three‐Dimensional Path‐Following Control of a Robotic Airship with Reinforcement Learning | |
CN112712193A (zh) | 基于改进Q-Learning的多无人机局部航路规划方法及装置 | |
CN115033022A (zh) | 面向移动平台基于专家经验的ddpg无人机降落方法 | |
CN114967721B (zh) | 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 | |
Xue et al. | Multi-agent deep reinforcement learning for UAVs navigation in unknown complex environment | |
CN115562357A (zh) | 一种面向无人机集群的智能路径规划方法 | |
Wu et al. | UAV Path Planning Based on Multicritic‐Delayed Deep Deterministic Policy Gradient | |
CN110779526B (zh) | 一种路径规划方法、装置及存储介质 | |
Qiu | Multi-agent navigation based on deep reinforcement learning and traditional pathfinding algorithm | |
Chronis et al. | Dynamic navigation in unconstrained environments using reinforcement learning algorithms | |
CN108459614B (zh) | 一种基于cw-rnn网络的uuv实时避碰规划方法 | |
CN116203987A (zh) | 一种基于深度强化学习的无人机集群协同避障方法 | |
Baxevani et al. | Resilient Ground Vehicle Autonomous Navigation in GPS-Denied Environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |