CN106650172A

CN106650172A - 基于mdp的机载防撞***逻辑单元的设计方法

Info

Publication number: CN106650172A
Application number: CN201710008637.9A
Authority: CN
Inventors: 林云松; 彭良福; 王黎; 李朋
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-01-05
Filing date: 2017-01-05
Publication date: 2017-05-10
Anticipated expiration: 2037-01-05
Also published as: CN106650172B

Abstract

本发明公开了基于MDP的机载防撞***逻辑单元的设计方法，其特征在于，包括以下步骤：步骤1、建立相遇模型；步骤2、采用马尔科夫决策过程对飞机防碰撞问题进行建模；步骤3、根据建立的模型构建逻辑表，得到逻辑单元。本发明应用时能提升设计出的逻辑单元的可靠性，且在修改逻辑单元时操作便捷。如此，本发明不仅改善了飞机飞行过程中的安全性能，并且逻辑单元可以不断的被修改和重建。

Description

基于MDP的机载防撞***逻辑单元的设计方法

技术领域

本发明涉及机载防撞***，具体是基于MDP的机载防撞***逻辑单元的设计方法。

背景技术

逻辑单元模块是空中交通防碰撞***(TCAS)的一个重要模块，其用于判断入侵机是否会对本机构成威胁，并进一步判断是否发出决策咨询。当前TCAS逻辑单元的开发过程主要采用伪代码定义逻辑单元，其包含了复杂的启发式法则和参数设置，这使得逻辑单元的修改变得非常困难，而且还可能在修改过程中引入新的问题。

TCAS逻辑单元设有预测飞机下一时刻位置的模型，现有TCAS逻辑单元的预测模型普遍采用直线型预测模型。直线型预测模型应用时，如果预测到入侵机进入了冲突范围内，就会认为发出报警是必要的，然后会预测每一个可以选择建议产生的结果，最终会选择一个最优的建议来阻止碰撞事故的发生。直线型预测模型的预测结果是飞机在下一时刻最可能所在的位置，其没能够考虑到小概率的飞机发生碰撞的情况，这会对逻辑单元做出决策的可靠性产生影响。

发明内容

本发明的目的在于克服现有技术的不足，提供了一种基于MDP的机载防撞***逻辑单元的设计方法，其应用时能提升设计出的逻辑单元的可靠性，且在修改逻辑单元时操作便捷。

本发明的目的主要通过以下技术方案实现：基于MDP的机载防撞***逻辑单元的设计方法，包括以下步骤：

步骤1、建立相遇模型；

步骤2、采用马尔科夫决策过程对飞机防碰撞问题进行建模；

步骤3、根据建立的模型构建逻辑表，得到逻辑单元。本发明应用时是在TCAS***可以完全获得外界状态的前提下实施的，在马尔科夫模型中，***的状态是根据动态模型发生变化的，马尔科夫的解是在某一个性能指标下获得的一个最优策略。本发明直接对要解决的问题进行建模，然后根据提供的一组性能指标用优化的方法自动推导出逻辑单元。与之前的伪代码相比，先确定性能指标再对飞机相遇的问题进行建模来设计逻辑单元的方法更加方便。本发明应用时不需要再去研究各条启发式规则之间的关系，只需要把工作重心放在对相遇模型和性能指标的研究上，这会加快整个逻辑模块的开发过程。对于生产制造商实现逻辑表只需把每个状态的状态信息和状态对应的最优动作放在一个索引文件里即可，这样也避免了生产过程中的偏差。

飞机防撞***的设计主要是为了提高飞机的安全性，因此安全性是主要也是首要的性能指标，随着TCAS的不断发展，可能的空中碰撞(NMAC)成为衡量安全性的标准，早期的NMAC是指两架飞机垂直距离小于500英尺，水平距离小于100英尺，即有可能发生碰撞的不安全范围。飞机在一定的距离范围内TCAS会向飞行员提供报警，虽然报警对飞行员有警示作用，但是过于频繁的报警会干扰到飞行员的正常行驶思维，不必要的报警也称为虚警，有效的警示是可执行性的性能指标，因此目前TCAS的研究是要保证安全的情况下，降低虚警率。

进一步的，所述逻辑表的构建包括以下步骤：

步骤3.1、生成一个状态动作效用函数U(s,a)，其中，状态动作效用函数U(s,a)给出在状态s时执行动作a获得的期望效用；

步骤3.2、根据离散状态转移概率T和末态的期望效用U(s_f)＝U(x_f,y_f,AS_f)，确定前一个状态s_p＝{x_p,y_p,AS_p}对应动作a的状态动作效用，如公式(1)所示：

步骤3.3、采用式(1)计算出每个动作的状态动作效用，其中，末态的前一个状态s_p的期望效用是状态s_p所有状态动作效用中的最大值，其求取公式如公式(2)所示：

步骤3.4、使当前状态的状态动作效用最大的动作a是当前状态的输出策略π(s_p)；

步骤3.5、根据公式(2)，确定状态集x_p中每个状态的效用；

步骤3.6、根据下一时刻的状态集x_q转移到状态集x_p的概率分布，确定状态集x_q中每个状态的效用；

步骤3.7、重复步骤3.1～步骤3.6，直到获得整个状态空间状态的效用并获得整个状态空间的最优动作策略，即可求出逻辑表。

进一步的，所述离散状态转移概率的计算公式如公式(3)所示：

其中，Pr(s|x)为在给定的连续状态下离散状态的概率；

x'＝f(s,a,a₀,a₁)，其为在状态s执行动作a且加速对为(a₀，a₁)时，根据动态模型得到的状态；

对于N个加速度采样点，Pr(x’|s，a)采用以下公式进行拟合：

其中当x＝y时，δ(x,y)＝1，反之为0，是每个采样点的权值。

进一步的，所述最优策略的求取公式如下所示：

其中，马尔科夫决策过程由S、A、T、γ及R五元组构成，S表示状态集，A表示一组动作，S中的一个状态到另一个状态的转移概率只与当前状态s和执行动作a有关，T表示的是在当前s∈S状态下，经过a∈A作用后，会转移到其它状态的概率，γ是折扣因子，γ∈(0，1)，和是在当前状态s执行最优动作a后，获得的最大未来折算回报和的期望值。

进一步的，所述步骤2中建立的模型符合下式：

两架飞机的运动方程，如公式(6)所示：

两架飞机在垂直方向加速度的变化情况如公式(7)所示：

其中，h为入侵机相对本机的高度，τ为两架飞机到水平方向距离为0时所需要的时间，h₁为本机在垂直方向的速度，h₂为入侵机在垂直方向的速度,s_RA为RA的状态变量，饱和函数φ_L(y)＝max(-L,min(L,y))表示垂直方向的速度不超过飞机的极限速度。

进一步的，所述相遇模型建立时两架飞机的相遇过程满足以下条件：TCAS***决策频率为1Hz、两架飞机没有水平方向的机动、传感器测量数据精确、两架飞机之间没有协调、以及单架入侵机。其中，TCAS***决策频率为1Hz：每一秒钟内TCAS***判断一次，以使本发明的频率与当前TCAS***使用的决策频率相同；两架飞机没有水平方向的机动：本机和入侵机在水平方向以恒定的速度接近对方，两架飞机在水平方向都不做出机动，例如做出转向的机动，由于两架飞机都以恒定的速度接近对方，并且在水平方向不做出机动，那么两架飞机在两维平面内飞行；传感器测量数据准确：传感器可以准确测量飞机的运动状态如本机的垂直速度、入侵机的垂直速度等；两架飞机之间没有协调：本机与入侵机不可以相互交流当前执行的动作；单架入侵机：只有一架入侵机从本机对面飞来。

综上所述，本发明具有以下有益效果：(1)本发明基于马尔可夫决策过程，根据飞机相遇模型和性能指标来确定逻辑单元，采用概率型预测模型，能提升本发明的可靠性，在空域模型或监视***发生改变时，只需修改相应的模型，然后进行优化，操作便捷，不仅改善了飞机飞行过程中的安全性能，并且逻辑单元可以不断的被修改和重建。因此，本发明能够满足空域和监视技术快速发展的要求，并能够提高防碰撞***的健壮性。

(2)本发明的概率型预测模型的算法采用动态规划的方法，根据飞机的预测模型和一组性能指标求出最优策略，这种开发框架与用伪代码定义逻辑单元的开发框架相比，需要调节的参数更少，开发时间短，能够达到航空业和监视技术快速发展的要求。本发明在求解时需要使用许多飞行轨迹样本，但只在离线阶段求解逻辑表时需要大量的计算，而在飞机飞行过程中只需直接查询逻辑表，需要的计算量非常小，因此，本发明应用时更能保证飞机飞行的安全性。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明一个具体实施例的流程图；

图2为本发明中报警结果的分类图；

图3为末态值的定义图；

图4为具有报警状态变量的状态空间图；

图5为末态的效用和概率分布图；

图6为多线性插值的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例：

如图1所示，基于MDP的机载防撞***逻辑单元的设计方法，包括以下步骤：步骤1、建立相遇模型；步骤2、采用马尔科夫决策过程对飞机防碰撞问题进行建模；步骤3、根据建立的模型构建逻辑表，得到逻辑单元。本实施例在相遇模型建立时两架飞机的相遇过程满足以下条件：TCAS***决策频率为1Hz、两架飞机没有水平方向的机动、传感器测量数据精确、两架飞机之间没有协调、以及单架入侵机。

马尔科夫决策过程由一个五元组构成(S，A，T，γ，R)，其中，S表示状态集(例如，在两架飞机相遇过程中，两架飞机的位置和速度组成的状态集)。A表示一组动作(例如，使用控制杆操纵飞机的飞行方向，让其爬升、降落等)。T是状态转移概率。S中的一个状态到另一个状态的转移概率只与当前状态s和执行动作a有关。T表示的是在当前s∈S状态下，经过a∈A作用后，会转移到其它状态的概率(在当前状态执行动作a后***可能跳转到多个状态)。γ∈(0，1)，是折扣因子。R:S×A→R是回报函数，回报函数经常写作s的函数(只与s有关)，这样的话，R重新写作R:S→R。

MDP的动态过程如下：***的初始状态为s₀，然后从A中挑选一个动作a₀执行，执行后，***按T概率值随机转移到了下一个s₁状态。然后再执行一个动作a₁，就转移到了s₂，接下来再执行a₂……，整个过程如下所示：

经过上面的状态转移过程后得到的效用函数如下。

U(s₀)＝R(s₀,a₀)+γR(s₁,a₁)+γ²R(s₂,a₂)+… (1)

在回报函数R只和状态S有关的情况下，那么上式可以写作

U(s₀)＝R(s₀)+γR(s₁)+γ²R(s₂)+… (2)

在实际情况中，从状态s₀开始按照策略π执行，状态的转移过程并不是确定的。因此求解的目标往往是选择一组最佳动作，即一个最优策略，使效用的期望值最大。

U(s₀)＝E[R(s₀)+γR(s₁)+γ²R(s₂)+…] (3)

上式中γ是折扣因子，其中0<γ<1。在t时刻获得的回报值被打了γ^t的折扣，因此越靠后的状态对当前状态的效用影响越小。当变化过程是无限时间边界时，若回报值直接进行叠加，那么效用函数的值将达到无穷大，使得算法不能够判断哪个策略才是最优。然而如果状态的变化过程是有限时间边界的，折扣因子的值可以为1，例如对于本实施例，从防碰撞***开始跟踪入侵机到本机避开入侵机，这段时间是有限的，那么回报就可以直接进行叠加。

策略是一个函数π:S→A，它是从状态集到动作集的一个映射。如果在状态s，执行动作a＝π(s)，那么就是在执行某个策略π。下面定义执行策略π的效用函数。

U^π(s)＝E[R(s₀)+γR(s₁)+γ²R(s₂)+…|s₀＝s,π] (4)

U^π(s)是从状态s开始执行策略π，折算回报和的期望。从递推的角度讲，当前状态效用函数的值等于当前状态的回报与未来的折算回报和的期望之和，也就是把公式(4)变换为：

U^π(s)＝R(s)+γU^π(s') (5)

由于动态过程的不确定性，***不能够精确预测***在下一时刻所处的状态，例如在飞机在飞行时，由于飞行员操作的不确定性，很难确定飞机的速度和下一时刻所处的位置。假设在状态s执行动作a＝π(s)后s'P_sπ(s)。因此对某个固定策略π，它的效用函数满足贝尔曼方程：

状态为s的效用包括两项，分别是立即回报R(s)和下一个状态的期望效用。定义最优效用函数为：

换而言之，这是最优折算回报和的期望。

本实施例的防碰撞问题中回报函数的定义，在MDP框架中，报警***的所有目标可以表示为可能发生事件的效用。报警决策的性能指标可以用是否发出报警、报警是否安全和产生的曲线是否安全进行衡量。其中，报警结果的分类如图2所示。

报警的结果既有期望的结果也有不期望的结果，报警***不可能保证只出现期望的结果。在设计***时，需要在好的结果与差的结果之间做出折中。所有结果效用的排列如下所示。

这说明所有的碰撞结果有相等的效用，所有成功报警有相等的效用，正确拒绝的效用比其它结果的效用都大。三种结果被分配的效用值表示的是每种结果的重要程度，因此结果之间的相对效用值比绝对效用值更加重要。

在前面的马尔可夫模型中，曲线整体的效用等于曲线穿过每个状态获得的回报之和，末态的可能回报值如图3所示。在本实施例中，采用曲线的整体效用等于末态的回报值，这表明前面各个状态的回报值为0。例如当入侵机的末态位于本机的碰撞区域内时，曲线的整体效用等于U_incident。除了碰撞结果之外，还可能出现非碰撞结果，非碰撞结果有正确拒绝报警(成功的无报警)和成功报警。

非碰撞结果的效用与是否出现报警有关。如果末态位于安全区域内且没有出现报警，那么对应的结果效用为U_CR。如果的确出现了报警且末态位于安全区域内时，那么结果效用为U_SA。因此需要增加一个变量来区分***是否发出报警，以确定最终的效用是U_CR还是U_SA。这个表示报警状态的变量是AS，它有两个离散的状态值分别是Before or After analert。

图4描述了有三个状态变量的状态空间和末态的回报值。这个图可以看作是两个位置平面，每个平面对应的是每个报警状态对应的末态回报。***的曲线源于右边前面的平面，只要不出现报警，曲线就按照假定的动态过程向左移动。如果***没有发出报警，那么曲线的效用是事故的效用或是正确拒绝的效用。如果出现报警，状态从Before Alert状态平面转移到After Alert状态平面，余下的状态在After Alert平面内移动，那么曲线的效用是事故的效用或是成功报警的效用。任一条曲线的效用都为相应结果的效用。在末态之前，不需要从曲线的状态中获得另外的回报或惩罚，曲线效用函数的形式为：

U_τ＝R(x_f,y_f,AS_f) (9)

其中R(x_f,y_f,AS_f)是在末态获得的回报。

因相遇模型中包含一个连续的状态变量y，而马尔可夫模型采用的变量都是离散的，本实施例通过采样的方法和拟合的方法来解决这个问题。

本实施例中逻辑表的构建过程如下：

步骤3.2、根据离散状态转移概率T和末态的期望效用U(s_f)＝U(x_f,y_f,AS_f)，确定前一个状态s_p＝{x_p,y_p,AS_p}对应动作a的状态动作效用，如公式(10)所示(图5描述了公式中的函数和变量)：

步骤3.3、采用式(10)计算出每个动作的状态动作效用，其中，末态的前一个状态s_p的期望效用是状态s_p所有状态动作效用中的最大值，其求取公式如公式(11)所示：

步骤3.5、根据公式(11)，确定状态集x_p中每个状态的效用；

步骤3.7、重复步骤3.1～步骤3.6，直到获得整个状态空间状态的效用并获得整个状态空间的最优动作策略，即可求出逻辑表。其中，公式(10)体现出了下一个效用是执行的动作代价加上前一个状态的动作效用转移概率。根据最大化期望效用准则，最优动作是获得最大状态动作效用的那个动作。状态动作效用函数中包括四个变量，分别是三个状态变量和动作。对于任意一个末态，它的回报函数值是确定的。另外，末态前面的状态是一个状态集，状态集的水平位置是x_p＝x_f-△x，其中x_f是末态的位置，△x是水平位置的增量。根据期望值的定义，U(x_p,y_p,AS_p,a)是末态效用的加权之和，权值是在执行动作a时状态s_p转移到末态s_f的概率T(s_f|s_p,a)。在图5中，每个末态s_f附近的黑色线条表示状态s_p转移到s_f的概率，阴影条表示s_f的期望效用。把每个状态s_f的这两个量相乘然后进行求和就得到了在状态s_p的期望效用。在这个问题中，x和AS由前面的状态和动作a精确确定，因此实际上状态转移概率只与y的分布有关。

飞机在相遇过程中的运动状态主要和飞机的加速度有关，用加速度更新飞机的垂直速度，再更新飞机的垂直位置。假设两架飞机的垂直速度范围为-2500ft/min～2500ft/min,当飞行员对***发出的建议没有进行响应或***没有发出建议时，飞机的加速度服从高斯白噪声模型,在每一个时间步，飞机从零均值方差为σ的高斯分布中选择一个加速度,加速度的确定根据sigma采样的方法，每一组加速度有对应的概率分布。当飞行员执行***发出的建议后，飞机以规定的加速度(如1/4g)加速到目标的垂直速度范围。一旦飞机的速度达到目标值，飞机的加速度又是一个服从高斯白噪声加速度模型的随机值。

两架飞机相遇过程的状态可以用表示，其中h为入侵机相对本机的高度，τ为两架飞机到水平方向距离为0时所需要的时间，h₁为本机在垂直方向的速度，h₂为入侵机在垂直方向的速度,s_RA为RA的状态变量。用一个状态变量x(t)表示***在某个时刻***的状态，状态变量用一个向量表示，如公式(12)所示：

x(t+△t)＝f(x(t),w(t),a(t)),其中

a(t)本机在t时刻执行的动作，w(t)表示两架飞机在垂直方向加速度的噪声，也就是入侵机或者是本机平飞的时候的加速度，w₁，w₂是相互独立的。

本实施例建立的模型符合下式：两架飞机的运动方程，如公式(13)所示：

其中饱和函数φ_L(y)＝max(-L,min(L,y))表示垂直方向的速度不超过飞机的极限速度。

两架飞机在垂直方向加速度的变化情况采用公式(14)进行详细描述：

在采用动态规划方法对MDP模型进行求解时，需要把连续的***动态模型离散化为离散的状态转移模型。其中的一种离散化方法是定义Pr(s|x)，即在给定的连续状态下离散状态的概率。本实施例采用多线性插值的方法对这个概率进行定义，其中离散状态为包含连续状态x的网格顶点。概率值的大小是根据离散状态与x的接近程度进行分配的，若状态s距离x越近，被分配的概率值也越大。如果概率值被当做权重，那么求得的概率值即为从当前状态s转移到下一个状态s’的概率。一旦用多线性插值的方法或其它方法对Pr(s|x)进行定义，其中离散状态为包含连续状态x的网格格点。概率值的大小是根据离散状态与x的接近程度进行分配的，若状态s距离x越近，被分配的概率值也越大。

公式(15)是对一维函数的拟合。

其中x₁是x左边的顶点，而x₂是x右边的顶点。其中多线性插值是上式在更高维度上的一个推广。图6是在两维空间上对函数g(x)的估计，估计方法如公式(16)所示。

g(x)＝β₁(x)f₁(x)+β₂(x)f₂(x)+β₃(x)f₃(x)+β₄(x)f₄(x)

如果概率值被当做权重，那么求得的概率值即为从当前状态s转移到下一个状态s’的概率。一旦用多线性插值的方法或其它方法对Pr(s|x)进行定义，那么，本实施例***的离散状态转移概率可用公式(17)计算：

在给定的状态和动作之后通过加速度可以求得下一个连续状态，然后通过线性插值的方法将连续状态转移到固定的离散状态点。如此，本实施例可以把飞机的任意一个状态离散到有限的网格中。

sigma-point采样方法有一个很好的性质是它的采样点是固定的。当飞行员没有执行建议时，动态模型中的噪声只有两架飞机的加速度噪声a₁和a₂。下面的是用sigma-point采样方法获得的加速度对：(0,0)、(a,0)、(-a,0)、(0,a)、(0,-a)。第一个采样点被分配的权重为1/3，而其它采样点被分配的权重为1/6。在状态s执行动作a且加速对为(a₀,a₁)时，那么根据动态模型得到的状态是唯一的，如公式(18)所示。

x'＝f(s,a,a₀,a₁) (18)

对于N个加速度采样点(如上面的描述中，有五个sigma-point采样点)，Pr(x’|s,a)采用公式(19)进行拟合。

其中当x＝y时，δ(x,y)＝1反之为0，概率是每个采样点的权值。通过公式(19)和公式(18)可以求得离散模型的状态转移概率。

本实施例最优策略的求取公式如下所示：

其中，和是在当前状态s执行最优动作a后，获得的最大未来折算回报和的期望值。

本实施例设计的逻辑单元应用时，对生成的逻辑表进行大量的相遇仿真，发现逻辑表的在线使用中，不会出现两架飞机的相撞。

采用蒙特卡洛仿真的方法对本实施例设计的逻辑单元进行测试，表1给出了测试结果。

表1性能评估

性能指标	数目
		可能的空中碰撞(NMAC)	0
报警(Alert)	36073
		反转动作(Reversal)	0
增强动作(Strengthen)	5

虽然只是用蒙特卡罗方法对本实施例设计的逻辑单元进行了数以千万次的测试，并没有使用空中精确的监视数据对逻辑单元进行测试，但是蒙特卡罗(Monte Carlo)方法由于能够真实地模拟实际物理过程，故解决问题与实际非常符合，可以得到值得信赖的实验结果。从表1的显示可知，本实施例设计的逻辑单元的报警机动也相对可接受，同时根据与现有版本的逻辑单元进行比较，本实施例不仅提高了安全性能，报警次数也明显减少，由此可见，采用本实施例设计的逻辑单元能提升飞机防撞***性能。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于MDP的机载防撞***逻辑单元的设计方法，其特征在于，包括以下步骤：

步骤1、建立相遇模型；

步骤2、采用马尔科夫决策过程对飞机防碰撞问题进行建模；

步骤3、根据建立的模型构建逻辑表，得到逻辑单元。

2.根据权利要求1所述的基于MDP的机载防撞***逻辑单元的设计方法，其特征在于，

所述逻辑表的构建包括以下步骤：

\begin{matrix} U (s_{p}, a) = R (a) + \underset{s_{f} &Element; S}{Σ} U (s_{f}) T (s_{f} | s_{p}, a) \\ = R (a) + \underset{s_{f} &Element; S}{Σ} U (x_{f}, y_{f}, {AS}_{f}) T (x_{f}, y_{f}, {AS}_{f} | x_{p}, y_{p}, {AS}_{p}, a) \end{matrix} - - - (1);

U (x_{p}, y_{p}, {AS}_{p}) = \underset{a}{m a x} [U (x_{p}, y_{p}, {AS}_{p}, a)] - - - (2);

步骤3.5、根据公式(2)，确定状态集x_p中每个状态的效用；

3.根据权利要求2所述的基于MDP的机载防撞***逻辑单元的设计方法，其特征在于，

所述离散状态转移概率的计算公式如公式(3)所示：

\begin{matrix} T (s^{'}, s, a) = \Pr (s^{'} | s, a) \\ = \underset{x^{'}}{Σ} \Pr (s^{'} | x^{'}) \Pr (x^{'} | s, a) \end{matrix} - - - (3)

其中，Pr(s|x)为在给定的连续状态下离散状态的概率；

对于N个加速度采样点，Pr(x’|s，a)采用以下公式进行拟合：

\Pr (x^{'} | s, a) = Σ_{n = 1}^{N} δ (x^{'}, f (s, a, a_{0}^{(n)}, a_{1}^{(n)})) \Pr (a_{0}^{(n)}, a_{1}^{(n)}) - - - (4)

其中当x＝y时，δ(x,y)＝1，反之为0，是每个采样点的权值。

4.根据权利要求2所述的基于MDP的机载防撞***逻辑单元的设计方法，其特征在于，所述最优策略的求取公式如下所示：

\begin{matrix} π^{*} (s) = \arg \max_{a &Element; A} \underset{s^{'} &Element; S}{Σ} P_{s a} (s^{'}) U^{*} (s^{'}) \\ = \arg \max_{a &Element; A} \underset{s^{'} &Element; S}{Σ} T (s^{'} | s, a) U^{*} (s^{'}) \end{matrix} - - - (5)

5.根据权利要求1所述的基于MDP的机载防撞***逻辑单元的设计方法，其特征在于，所述步骤2中建立的模型符合下式：

两架飞机的运动方程，如公式(6)所示：

\begin{matrix} h (t + Δ t) = h (t) + ({\overset{\cdot}{h}}_{2} (t) - {\overset{\cdot}{h}}_{1} (t)) + \frac{1}{2} ({\overset{\cdot\cdot}{h}}_{2} (t) - {\overset{\cdot\cdot}{h}}_{1} (t)) {Δt}^{2} \\ τ (t + Δ t) = τ (t) - Δ t \\ {\overset{\cdot}{h}}_{1} (t + Δ t) = φ_{L} ({\overset{\cdot}{h}}_{1} (t) + {\overset{\cdot\cdot}{h}}_{1} (t) Δ t) \\ {\overset{\cdot}{h}}_{2} (t + Δ t) = φ_{L} ({\overset{\cdot}{h}}_{2} (t) + {\overset{\cdot\cdot}{h}}_{2} (t) Δ t) \end{matrix} - - - (6);

两架飞机在垂直方向加速度的变化情况如公式(7)所示：

\begin{matrix} {\overset{\cdot\cdot}{h}}_{1} (t) = \{\begin{matrix} - 0.25 g & i f s_{R A} (t) = d e s c e n d_0 a n d {\overset{\cdot}{h}}_{1} (t) > - 1500 f t / s \\ + 0.25 g & i f s_{R A} (t) = c \lim b_0 a n d {\overset{\cdot}{h}}_{1} (t) < 1500 f t / s \\ w_{1} (t) & o t h e r w i s e \end{matrix} \\ {\overset{\cdot\cdot}{h}}_{2} (t) = w_{2} (t) \end{matrix} - - - (7);

6.根据权利要求1～5中任意一项所述的基于MDP的机载防撞***逻辑单元的设计方法，其特征在于，所述相遇模型建立时两架飞机的相遇过程满足以下条件：TCAS***决策频率为1Hz、两架飞机没有水平方向的机动、传感器测量数据精确、两架飞机之间没有协调、以及单架入侵机。