CN111538241B

CN111538241B - 一种平流层飞艇水平轨迹智能控制方法

Info

Publication number: CN111538241B
Application number: CN202010361483.3A
Authority: CN
Inventors: 杨希祥; 杨晓伟; 侯中喜; 邓小龙; 朱炳杰; 王曰英
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2022-12-23
Anticipated expiration: 2040-04-30
Also published as: CN111538241A

Abstract

本发明公开了一种平流层飞艇水平轨迹智能控制方法，针对平流层飞艇在风场环境中的水平轨迹控制问题，建立飞艇的观测模型和马尔可夫决策过程模型；考虑飞艇这一特征对象，限定动作空间中的元素区间，基于已知的风场模型，以每一刻风向来流相对于飞艇的夹角概率作为动作选择依据，对飞艇的动作输入和状态输出进行神经网络学***运动的跟踪，有效解决动力学模型参数不确定、环境风场干扰等因素对平流层飞艇水平运动控制产生的不利影响。

Description

一种平流层飞艇水平轨迹智能控制方法

技术领域

本发明涉及平流层飞艇风场中水平轨迹智能控制方法，特别涉及一种基于Q-learning算法和CMAC神经网络学***流层飞艇水平轨迹控制方法。

背景技术

临近空间介于常规航空器最高飞行高度和航天器最低轨道高度之间，是跨接航空与航天的新兴战略空间。各国通过发展临近空间飞行器这一途径，充分利用其潜在价值，平流层飞艇、高空气球、太阳能无人机等均为目前的研究热点。平流层飞艇是一种典型的低速临近空间飞行器、是一种能够长期驻留在平流层区域，实现对地球表面高分辨率观测、战区侦查、通信中继、环境检测、科学探测、提供地面精确信息的战略无人飞行器。相较于卫星，平流层飞艇具有更高的时空分辨率，相较于飞机，平流层飞艇可借助临近空间环境实现区域驻留，具有长航时、低能耗、高经济效益比等特点。基于风场环境下的飞艇轨迹控制是实现飞艇长航时驻留的关键要素，但在控制问题中面临着飞艇运动欠驱动、大惯量、长时延、风场中的飞艇动力学模型复杂、参数不确定、非线性特征明显等诸多难题。

现今研究成果中，大部分控制策略是建立在不考虑风场作用的动力学模型基础上，但是，从现实中的控制效果上可知，忽略风场影响下的控制模型无法精确完成控制***发出的控制指令，难以满足预期的控制需求，因此，必须建立有风场干扰的动力学模型。部分学者对考虑风场后的非线性模型进行小扰动线性化，并提出基于模型预测、滑模控制以及反步法等多种控制策略，虽然在仿真阶段于一定程度上改善了控制精度，但模型构建过程复杂，在实际中对控制器参数的动态调参较为困难，仿真结果未得到证实。随着人工智能的兴起，深度学***流层飞艇水平轨迹控制上的研究尚未见报道。

发明内容

本发明针对风场中平流层飞艇水平轨迹控制问题，提出基于Q-learning算法和CMAC神经网络学***轨迹的控制。

该方法是基于无动力学模型的学***流层飞艇在风场中水平轨迹控制的目的。

为实现上述目的，本发明提供一种平流层飞艇水平轨迹智能控制方法，参考图1-图2，具体包括如下步骤：

步骤1，建立风场中平流层飞艇的观测模型。根据观测模型获取平流层飞艇的状态量，所述状态量包括平流层飞艇的当前点位置(x_c,y_c)、航向角ψ_c以及期望轨迹上的目标点位置(x_d,y_d)；

步骤2，建立风场中平流层飞艇基于Q-learning算法的马尔科夫决策过程(MarkovDecision Process,MDP)模型。将观测模型中平流层飞艇当前点与目标点的相对位置(l_c,ψ_c)，作为Q-learning算法的输入；将风场环境下的风向相对于飞艇运动的来流方向，作为Q-learning算法中动作概率选择依据，其中，l_c为平流层飞艇的当前位置与期望轨迹上的目标点位置的相对距离；

步骤3，基于样本数据中的期望输入、输出对Q-learning算法进行训练。平流层飞艇每一个位置状态下所采取的每一个动作输入对应一个值函数Q，为每一个动作的值函数Q建立一个小脑神经网络(Cerebellar Model Articulation Controller,CMAC)，得到平流层飞艇每一个位置状态下所采取的每一个动作输入的最优值函数Q^π，其中，所述动作输入为平流层飞艇的航向角增量；

步骤4，基于平流层飞艇每一个位置状态下所采取的每一个动作输入的最优值函数Q^π，对每一时刻航向角增量的选择进行神经网络学***流层飞艇控制***的训练；

步骤5，根据步骤4中训练后的控制***，给定飞艇的期望轨迹和仿真时间，随机设置飞艇的位置初值，基于位置关系和最优动作策略，得到倾转角的变化以及航向角的增量(偏航角)，将转移后的状态与当前目标状态之间的误差是否满足规定精度，作为目标是否更新的判断依据，将当前目标是否是最终目标，作为轨迹跟踪控制过程是否结束的判断依据，完成飞艇水平运动轨迹的智能控制。

进一步优选的，步骤1中，所述建立风场中平流层飞艇的观测模型具体为：建立平流层飞艇与外界环境之间关联的坐标系，包括放飞坐标系(O_g-x_gy_gz_g)、体坐标系(O_b-x_by_bz_b)和速度坐标系(O_v-x_vy_vz_v)，形成在学习过程中表征飞艇方位的观测模型；

放飞坐标系是指以平流层飞艇的放飞点为原点，描述平流层飞艇体心相对于放飞起点的运动轨迹，用来描述期望轨迹和作为跟踪轨迹的基础；

体坐标系是指以平流层飞艇体心为原点，描述相对于平流层飞艇艇身的姿态关系、获取飞艇的当前姿态和作为飞艇上执行机构动作选择的依据；

速度坐标系是指以平流层飞艇体心为原点，描述平流层飞艇与大气环境之间的关系，用来建立飞艇的运动学方程。

进一步优选的，步骤2中，建立风场中平流层飞艇基于Q-learning算法的MDP模型，其中五个元素(S,A,R,P,J)对应到平流层飞艇中，具体为：

将观测模型中得到的位置状态值l_c和方向值ψ_c作为MDP模型中的状态空间S的组成元素；

将平流层飞艇上决定执行机构作用效果的控制参数即推力螺旋桨装置的矢量倾转角，作为MDP模型中动作空间A的组成元素。根据实际飞行中倾转角的有效作用范围设计一定的范围裕度，并设置一定的动作步长；

将平流层飞艇状态转移之后的状态与目标状态之间的相对距离，作为MDP模型中的回报奖励函数值R；

将环境风场中风向相对于平流层飞艇运动方向的夹角概率，作为平流层飞艇状态转移的概率P；

给予平流层飞艇***一定的仿真时长，考虑该范围内的动作学习，并对学习过程中每一个动作回报奖励值进行折扣累加，将该累加和作为MDP模型中的目标优化函数J，最优动作策略的判断依据是在仿真时间段中J值是否为最小值。

进一步优选的，所述将平流层飞艇上决定执行机构作用效果的控制参数即推力螺旋桨装置的矢量倾转角，作为MDP模型中动作空间A的组成元素。根据实际飞行中倾转角的有效作用范围设计一定的范围裕度，并设置一定的动作步长，具体为：

基于现实中平流层飞艇倾转装置的可调区间，将推力螺旋桨装置的矢量倾转角的动作值区间设置为

并将其划分为九个动作值即

回报奖励值r为转移后的状态与当前目标状态之间的相对距离大小值；目标优化函数J设为考虑折扣因子γ作用下的总回报奖励值，即：

考虑所有动作策略π下的目标函数，对其进行寻优得到最优回报值J*：

进一步优选的，所述将环境风场中风向相对于平流层飞艇运动方向的夹角概率，作为平流层飞艇状态转移的概率P，具体为：

式中，t代表当前时刻，s_i为当前状态，s_j为t+1时刻状态，a_k代表受控对象在t时刻执行的动作值，S表示平流层飞艇的状态集，A表示平流层飞艇的动作集；r代表回报奖励值，作为影响概率大小的一定影响因素；P代表转移的概率，对于风场中的平流层飞艇而言，将风场中风向相对于飞艇运动的来流方向作为概率值；p_ij(a_k)表示在执行a_k动作时，平流层飞艇状态由s_i转移到s_j的概率值。

进一步优选的，步骤3的具体过程为：

为平流层飞艇的每一个动作建立一个CMAC神经网络，对动作值函数进行寻优，以获得最优值函数；

其中，CMAC神经网络是一种表格查询网络，具有输入层、中间层以及输出层，中间层包括真实区和虚拟区，真实区存储输入的状态空间元素，虚拟区存储权值项。真实区中每一个元素对应虚拟区中有限少数个权值项，而且若每个状态之间的距离越近，则相对应的权值重合度越高。将CMAC神经网络应用在平流层飞艇中，网络输入为飞艇上推力螺旋桨装置的所有倾转角状态，输出为飞艇在某一时刻位置状态下所对应的倾转角输入的动作值函数估计：

为表征真实区与虚拟区之间的联系，引入激活状态的概念，即τ_ij＝1代表权值影响当前的输入状态而处于激活态，τ_ij＝0代表权值与状态输入无关而处于冻结态，确定激活函数之后，将其与权值进行乘积求和得到网络输出，即：

式中，m代表真实区中元素个数，n代表虚拟区中元素个数，Γ_i代表真实区中第i个元素对应的激活函数集合，W为权值项矩阵，y_netouti代表真实区中第i个元素对应的网络输出值；

获取网络输出之后，对其前后的输出值进行对比，再反馈到虚拟区中，即对权值进行在线实时更新，采用传统的梯度下降法对权值进行更新：

w_i+1＝w_i+α_w(y_netout(i+1)-y_netouti)Γ_i

式中，α_w为权值的学习速率，当该值过大会造成所获得的权值并非最优，过小会导致计算时间冗长多余；

应用在平流层飞艇中，假设飞艇的当前位置状态为s_t，动作输入状态为a_k，则对应的网络输出值函数以及权值的更新规则为：

式中，r(s_t,a_kt,s_t+1)代表在t时刻，执行a_kt动作使状态s_t变换为s_t+1的回报奖励值；γ为折扣因子(0＜γ＜1)；

代表最优动作值函数；

根据上述过程进行权值更新和获取动作值函数，对不同状态下的结果进行比较，以确定最优值函数Q^π。

进一步优选的，步骤4的具体过程为：

获取受控对象当前的状态值和目标状态值，应用在平流层飞艇上中为：获取平流层飞艇当前状态下的位置坐标(x_c,y_c)，目标坐标(x_d,y_d)以及当前状态点和下一时刻目标点之间的位置关系(l_c,ψ_c)；

式中，x_c、x_d、x_r分别代表飞艇在放飞系中当前的x方向位置、期望的x方向位置以及二者在x方向上的差值；y_c、y_d、y_r分别代表飞艇在放飞系中当前的y方向位置、期望的y方向位置，二者在y方向上的差值；l_c为相对距离，ψ_c为偏航角，ψ为航向角，ψ_r为观测模型中，目标方向与x轴的夹角；

采用具有被控对象特征的概率策略从MDP模型的动作空间A中选择一个动作a_t，应用在平流层飞艇中为：针对平流层飞艇所处的风场环境的特殊性，根据风向相对于飞艇运动方向的夹角概率，从影响飞艇航向的推力螺旋桨装置有效运动区间中选择一个倾转角度以实现航向角变化；

通过动作的作用效果，获得被控对象下一时刻的状态以及相应的回报奖励值，应用在平流层飞艇中为：通过动作的作用效果，获得平流层飞艇下一时刻的状态以及相应的回报奖励值，即将转移后的平流层飞艇位置与当前目标位置之间的相对距离作为奖励值；

被控对象根据状态转移后的***反应，获得一个强化信号，应用在平流层飞艇中为：根据相对距离的大小作用到平流层飞艇推力螺旋桨装置动作选择上的一个反馈增益环节中；

根据上述获得的回报奖励值、强化信号以及折扣因子得到每个动作对应的值函数Q，应用在平流层飞艇中为：根据推力螺旋桨装置的倾转角输入和状态位置输出，调整输入与输出之间的值函数，得到期望输出下的值函数。根据期望输出，从中选择一个最优的倾转角输入使得输出的相对距离最小：

式中，Q^π(s,a)为根据策略π，在状态s下执行a动作的最优值函数；E^π(·)代表根据括号中的结果，根据策略π，通过改变变量，得到最优值；γ为折扣因子，0＜γ＜1；r_t为包含强化信号的回报奖励值；s为状态量，s₀为初始状态量；a为动作量，a₀为初始动作量；

获取每个动作下的最优值函数Q^π，设置一定时间步长，得到该时间段内的最优动作选择策略，完成Q-learning算法，应用在平流层飞艇中为：对平流层每一个时刻通过值函数大小获得最优的倾转角输入，得到了相应的最优动作策略π^*：

式中，

为依据最优动作策略π^*，在状态s下执行a动作的最优值函数；π^*(s)为为状态s下的最优动作策略。

进一步优选的，步骤5具体包括：

步骤5.1，输入平流层飞艇当前初值状态和目标状态；

步骤5.2，基于训练过程中获得的动作策略π，对倾转角进行选择；

步骤5.3，执行动作，获得平流层飞艇转移后的状态，判断转移后的状态与当前目标状态是否满足精度要求，若是则更新目标，若否，目标不变，返回到步骤5.2中，直至满足精度，再进行目标更新；

步骤5.4，判断目标状态是否为最终目标，若是则完成控制任务，若否，则返回到步骤5.2中，重复循环直至抵达目标。

有益效果

1)本发明不再需要获取平流层飞艇的动力学模型参数，而是基于平流层飞艇的实时位置状态和所处的外部环境作为控制***的控制输入，简化控制回路；

2)本发明充分利用了平流层飞艇所处的风场环境，将原本影响确定飞艇动力学模型的干扰因素作为控制策略中所需设计考虑的关键步骤，借助风场环境完成对平流层飞艇执行机构所做动作的抉择，增强了控制器的鲁棒性；

3)本发明采用了CMAC神经网络寻优策略，利用神经网络学习的泛化能力，对不在控制器训练期间所利用的样本数据中的状态输入也能达到期望的轨迹输出，增强了控制器的自适应性；

4)本发明结合了增强学***流层飞艇的智能控制，通过平流层飞艇实时的位置状态特性、运动的可实现性以及飞艇上执行机构的动作区间反映飞艇对象特征，根据飞艇的在线位置和环境的实时状态进行控制，具有较强的自主性、抗扰动性和稳定性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例中平流层飞艇水平轨迹智能控制方法的方法流程图；

图2为本发明实施例中基于Q-learning算法和CMAC学习的控制器结构；

图3为本发明实施例中所构建的飞艇观测模型示意图；

图4为本发明实施例中所利用的风场环境风速分布图

图5为本发明实施例中基于Q-learning算法和CMAC学***流层飞艇参考轨迹示意图；

图6为本发明实施例中基于Q-learning算法和CMAC学习方法的不同航速步长下的跟踪轨迹仿真效果对比图；

图7为本发明实施例中基于Q-learning算法和CMAC学习方法的期望与实际航向角对比图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接，还可以是物理连接或无线通信连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本实施例以某1000立方米仿真艇和2019年6月3日长沙地区18km处的风场数据作为仿真对象和仿真环境，结合上述附图，对本发明“一种平流层飞艇水平轨迹智能控制方法”的具体实施方案进一步说明，过程如下：

由于本发明是基于外界环境和实时状态的控制策略，故而对飞艇的动力学模型不做过多的描述，不需要构建动力学方程，但需要对飞艇的执行机构的运动区间和受力最值进行一定的限定，即基于现实意义下给予飞艇一定的约束。飞艇的模型约束以及时间步长设置，如表1所示：

表1模型参数

建立风场中平流层飞艇的观测模型

如图3所示，放飞系下的左图涉及到的角度有飞艇的实际航向角ψ_c,期望航向角ψ_d以及二者之间的航向角增量ψ_r；右图中的角度有实际航向角ψ_c，偏航角ψ，侧滑角β，在仿真中将侧滑角设定为0，即速度轴与体系纵轴重合。

确定飞艇的马尔可夫决策过程(MDP)中的动作概率

如图4所示为2019年6月3日长沙地区的风向数据在18km处风向随时间的变化曲线，将风向角的范围[0,360]划分为九个区间，对应到执行机构上的九个动作值，以及相应的航向角增量，其对应关系如表2所示：

表2动作选择对应表

针对某一时间段内的风场数据，将各个区间的风向角数量占整个区间的比例大小作为实时风向角下的动作选择的概率，与此同时，建立执行机构所采取的动作值与航向角之间的关系。以π/180为航向角的最小变化增量，航向角增量随着动作值的变化进行同样趋势上的变化，从而建立起风向角与实际航向角之间的对应变化关系。令动作选择概率即航向角的变化选择概率与风向角所占的比例大小值一致，即：

P(s_t,a_t)＝P_wind-angle/P_all

本次仿真算例中，以2019年6月3日长沙地区18km处00：00～09：00九个小时的风场变化数据为控制器的样本学习对象。将该时间段内所获得的不同风向角比例大小按照表2中的规则作为动作(航向角)的概率。

建立风场中平流层飞艇完整的MDP模型

首先，确定状态空间元素，将飞艇的水平运动轨迹中的位置坐标(x_c,y_c)和目标坐标(x_d,y_d)作为MDP模型中的状态元素，在此次仿真中，期望的水平运动轨迹由斜率为1的直线、半径为20km的两段圆弧以及一段水平直线构成，如图5所示；

然后，确定动作空间，即将表2中不同的航向角增量作为不同的动作值，暂时不考虑从执行机构到航向角之间的传递关系；

其次，引进上述概率作为动作选择依据；

再者，计算回报奖励值：

其中，y_c(t+1)＝Δs·sinψ_t，x_c(t+1)＝Δs·sinψ_t，ψ_t＝ψ_r+Δψ。

最后，根据仿真时长和折扣因子确定目标优化函数：

上式中,x_d(t+1),y_d(t+1)代表在当前时刻t的下一时刻的目标位置，x_c(t+1),y_c(t+1)代表在当前时刻的下一时刻t的状态位置。

获取最优动作值函数

将飞艇运动过程中飞艇的当前状态和目标状态，作为CMAC神经网络的输入；将所设置的所有动作输入值即所有的航向角增量，作为CMAC神经网络的权值项；将所有航向角增量对应转移后的位置状态与目标状态之间距离即目标优化函数，作为CMAC神经网络输出。在不同的位置状态下，有着不同的可选动作值范围等价于对应不同的权值系数，其过程为：

(1)获取在当前的位置状态下，通过权值更新得到每一个位置状态下的最优航向角增量，判断转移后的位置状态与当前目标状态之间的差距是否处于设定的精度范围之内。若最优状态仍未到达当前目标值附近，则目标值不变，当前位置状态转移至最接近当前目标值的位置；

(2)若最优的状态抵达当前目标值附近，则更新目标值，进入下一个目标值的跟踪学习；

(3)重复上述过程，直至目标值为终点时结束对所有位置状态的动作值寻优过程，得到最优的航向角变化序列。

仿真跟踪轨迹

固定飞艇每一个动作值下的移动路程大小即飞艇的航速，分别设为1km、1.4km以及1.5km，根据上述过程进行仿真，得到的跟踪轨迹如图6所示。从图中可知其结果对于航速的敏感度较低，但存在较优的跟踪轨迹。因此，以该航速下的最优动作策略为基准，得到了相应的期望与实际航向角的对比图如图7所示。

对航向角的跟踪效果进行分析，仿真结果表明，基于Q-learning和CMAC神经网络的控制器能够较好的实现对期望航向角的跟踪，整体趋势和误差值都在比较良好的状态，达到了较高的控制精度，证明了该控制器在仿真理论上的可行性。

综上所述，根据上述步骤能够实现对期望参考轨迹的跟踪以及就仿真结果上可以知道能够拥有较好的跟踪效果。证明了采用Q-learning算法和CMAC神经网络学习的控制策略的可行性，并且应用在不同的迭代步长上也有着相当的控制精度。通过仿真结果可知，不同的迭代步长或航速对控制精度虽然有一定的影响，但是不影响对规划任务的完成情况，体现该方法的适应性。本发明所设计的控制***在实际任务应用中相较于利用非线性控制而构建的控制***更为简单，易于操作、容易复现。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明实施例进行了较为详细的说明，但是本发明实施例不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，本发明的范围由所附的权利要求范围决定，而非由实施例的具体描述所界定。

Claims

1.一种平流层飞艇水平轨迹智能控制方法，其特征在于，包括如下步骤：

步骤1，建立风场中平流层飞艇的观测模型，并根据观测模型获取平流层飞艇的状态量，所述状态量包括平流层飞艇的当前点位置(x_c,y_c)、航向角ψ_c以及期望轨迹上的目标点位置(x_d,y_d)；

步骤2，建立风场中平流层飞艇基于Q-learning算法的马尔可夫决策过程模型，将观测模型中平流层飞艇当前点与目标点的相对位置(l_c,ψ_c)作为Q-learning算法的输入，将风向相对于飞艇运动的来流方向作为Q-learning算法中动作概率选择依据，其中，l_c为平流层飞艇的当前点位置与期望轨迹上的目标点位置的相对距离；利用了平流层飞艇所处的风场环境，将原本影响确定飞艇动力学模型的干扰因素作为控制策略中所需设计考虑的关键步骤，借助风场环境完成对平流层飞艇执行机构所做动作的抉择；

步骤3，基于样本数据中的期望输入、输出，对Q-learning算法进行训练，平流层飞艇每一个位置状态下所采取的每一个动作输入对应一个值函数Q，为每一个动作的值函数Q建立一个小脑模型神经网络，得到平流层飞艇每一个位置状态下所采取的每一个动作输入的最优值函数Q^π，其中，所述动作输入为平流层飞艇的航向角增量；

步骤5，根据步骤4中训练后的控制***，给定飞艇的期望轨迹和仿真时间，随机设置飞艇的位置初值，基于位置关系和最优动作策略，得到倾转角的变化、航向角的增量，将转移后的状态与当前目标状态之间的误差是否满足规定精度，作为目标是否更新的判断依据，将当前目标是否是最终目标，作为轨迹跟踪控制过程是否结束的判断依据，完成飞艇水平运动轨迹的智能控制；

步骤2中，建立风场中平流层飞艇基于Q-learning算法的马尔科夫决策过程模型，其中五个元素(S,A,R,P,J)对应到平流层飞艇中，具体为：

将观测模型中得到的位置状态值l_c和方向值ψ_c，作为马尔科夫决策过程模型中的状态空间S的组成元素；

将平流层飞艇上决定执行机构作用效果的控制参数即推力螺旋桨装置的矢量倾转角，作为马尔科夫决策过程模型中动作空间A的组成元素，根据实际飞行中倾转角的有效作用范围设计一定的范围裕度，并设置一定的动作步长；

将平流层飞艇状态转移之后的状态与目标状态之间的相对距离，作为马尔科夫决策过程模型中的回报奖励函数值R；

给予平流层飞艇***一定的仿真时长，考虑该范围内的动作学习，并对学习过程中每一个动作回报奖励值进行折扣累加，将累加和作为马尔科夫决策过程模型中的目标优化函数J，最优动作策略的判断依据是在仿真时间段中J值是否为最小值；

所述将风向相对于平流层飞艇运动方向的夹角概率，作为平流层飞艇状态转移的概率P，具体为：

式中，t代表当前时刻，s_i为当前状态，s_j为t+1时刻状态，a_k代表受控对象在t时刻执行的动作值，S表示平流层飞艇的状态集，A表示平流层飞艇的动作集；r代表回报奖励值，作为影响概率大小的一定影响因素；P代表转移的概率，对于风场中的平流层飞艇而言，将风向相对于飞艇运动的来流方向作为概率值；p_ij(a_k)表示在执行a_k动作时，平流层飞艇状态由s_i转移到s_j的概率值。

2.根据权利要求1所述平流层飞艇水平轨迹智能控制方法，其特征在于，步骤1中，所述建立风场中平流层飞艇的观测模型具体为：建立平流层飞艇与外界环境之间关联的坐标系，包括放飞坐标系、体坐标系和速度坐标系，形成在学习过程中表征飞艇方位的观测模型；

3.根据权利要求2所述平流层飞艇水平轨迹智能控制方法，其特征在于，所述将平流层飞艇上决定执行机构作用效果的控制参数，即推力螺旋桨装置的矢量倾转角，作为马尔科夫决策过程模型中动作空间A的组成元素，根据实际飞行中倾转角的有效作用范围设计一定的范围裕度，并设置一定的动作步长，具体为：

并将其划分为九个动作值即

4.根据权利要求1所述平流层飞艇水平轨迹智能控制方法，其特征在于，步骤3的具体过程为：

为平流层飞艇的每一个动作建立一个小脑神经网络，对动作值函数进行寻优，以获得最优值函数；

其中，小脑神经网络具有输入层、中间层以及输出层，中间层包括有真实区和虚拟区，真实区存储输入的状态空间元素，虚拟区存储权值项，真实区中每一个元素对应虚拟区中有限少数个权值项，而且若每个状态之间的距离越近，则相对应的权值重合度越高,将小脑神经网络应用在平流层飞艇中，网络输入为飞艇上推力螺旋桨装置的所有倾转角状态，输出为飞艇在某一时刻位置状态下所对应的倾转角输入的动作值函数估计：