CN105182988A

CN105182988A - 基于马尔科夫决策过程的飞行员操作行为引导方法

Info

Publication number: CN105182988A
Application number: CN201510579624.8A
Authority: CN
Inventors: 张耀中; 胡波; 汤志荔; 张安; 刘泽石
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2015-09-11
Filing date: 2015-09-11
Publication date: 2015-12-23
Anticipated expiration: 2035-09-11
Also published as: CN105182988B

Abstract

本发明提供了一种基于马尔科夫决策过程的飞行员操作行为引导方法，首先对飞机驾驶舱内飞行员的操作行为进行编码并描述，对飞机在任务过程中存在的状态进行描述；然后构建某一飞行任务下机组行为预测的马尔可夫模型，确定该任务下飞行操作状态转移概率集合和转移过程中行为操作的报酬集合；用MDP折扣模型计算报酬效用函数，建立该任务下操作收益的最优方程并计算任务紧迫度，进行迭代计算和判断，得到收益最大的行动策略。本发明能够克服以往如飞行指引仪等传统定性分析方法缺乏对任务需要的判断以及不考虑飞行员的操作习惯而导致提供的援助侵入性较大的缺点。

Description

基于马尔科夫决策过程的飞行员操作行为引导方法

技术领域

本发明涉及飞机驾驶舱自动化***设计领域。

背景技术

自动化技术(AutomationTechnology)在很多领域的成功应用，为工业生产和日常生活带来很多便利。当前自动化和智能化技术大量应用于飞机驾驶舱当中，各种各样的高自动化、高智能化的技术应用，推动了航空产业的飞速发展。驾驶舱自动化在很大程度上提高了飞行员操作的准确性和可靠性，给燃料经济性以及飞行安全等方面带来了许多好处，但与此同时，也引起了飞行员的态势感知(SituationAwareness)水平下降、自动化***与人之间不能相互理解以及对***的过渡依赖等诸多问题，给驾驶舱人机界面、飞行操作等带来了人机功效学方面新的挑战。驾驶舱自动化虽然在一定程度上减轻了飞行员的工作负荷，但同时不合理的自动化设计必然会对整个飞行安全造成严重的威胁。

马尔科夫过程(MarkovProcesses)是具有一类普遍共性的过程，其原始模型是1907年由俄罗斯数学家Markov提出的马尔科夫链。马尔科夫过程具有如下特性：某阶段的状态一旦确定，则此后过程的演变不再受到此前各状态的影响。马尔科夫决策过程(MarkovDecisionProcess,MDP)是在马尔科夫过程的基础上增加了决策者的概念，是一种应用广泛的随机决策过程。

自适应自动化技术(AdaptiveAutomationTechnology)是一种更加灵活的能够使得特定的用户在特定的情况下得到最佳的自动化援助的自动化技术，是人机协同过程的控制方法，飞机驾驶舱内的自适应自动化技术发展已久。自适应自动化的目的是监测人机***控制环内人的状态，触发自动化援助，将人为差错率降到最低。目前驾驶舱内使用的飞行指引仪是将飞机的实际飞行线路与目标线路进行比较，并计算出进入目标线路所需要的操纵量，以目视的形式在指示器上给出，最终会在显示界面上出现向上、向下、向左和向右。驾驶员看到后，根据提示操纵飞机，调整飞行线路使其与目标线路重合。这种方法在巡航阶段对飞行员帮助较大，但在起飞爬升段或进近着陆阶段，完全比对航线的方法就无法满足飞行安全的要求。飞行控制计算机计算得出副翼、升降舵等需要的位置量，并将相关信息反馈给飞行员，但其本身缺乏对任务需要的推断，计算过程也不考虑当前任务所处的状态和飞行员的操作习惯。

发明内容

为了克服现有技术的不足，本发明提供一种基于马尔科夫决策过程的飞行员操作行为引导方法，根据当前飞行状态和飞行员的操作习惯得到一组行为操作序列，此序列得到的结果符合飞行员的行为习惯且能调整当前的飞行状态。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1，对飞机驾驶舱内飞行员的操作行为进行编码并描述，对飞机在任务过程中存在的状态进行描述；

步骤2，构建某一飞行任务下机组行为预测的马尔可夫模型，步骤如下：

设时刻集合T＝{1,2,3,…}；

设飞机的状态空间包含了***所有可能出现的状态，其中n_s表示飞机的最大状态数；S中任意一个元素sⁱ表示第i个状态，包含在当前状态sⁱ下的任务目标集合Gⁱ、***目标集合Fⁱ和历史行动集合Aⁱ；i＝1,2,...,n_s；

设状态sⁱ下的任务目标集包含了n_g个任务目标，其中n_g表示在当前状态下最大的任务目标数，Gⁱ中的元素表示在状态sⁱ下的第k个任务目标，k＝{1,…,ng}，当任务目标已经完成，否则

设状态sⁱ下的***任务目标集合包含了n_f个任务目标，其中n_f表示在当前状态下最大的***任务目标数，元素表示在状态sⁱ下的第k个***任务目标，k＝{1,…,nf}，当***任务目标已经完成，否则

设状态sⁱ下采取的历史行动集合n_h为集合元素的个数，表示历史时刻的操作序列数；元素表示在状态sⁱ下的第k个操作行动，k＝{1,…,n_h}；

设T(sⁱ,a_k,s^j)表示所有状态转移概率的集合，其任意元素p(s^j|sⁱ,a_k)表示在状态sⁱ下，执行可用行动a_k，***状态变化到s^j的概率，j＝1,2,...,n_s，

设报酬集合R(sⁱ)的任意元素r(sⁱ,a_k)表示在状态sⁱ下执行行动a_k的报酬，当r(sⁱ,a_k)≥0时表示收益，r(sⁱ,a_k)＜0表示费用，r(sⁱ,a_k,s^j)表示在状态sⁱ下执行行动a_k得到状态s^j的报酬；

设飞机的行动空间A＝{a₁,a₂,…,a_n}，包含了所有可执行并能够改变***状态的行动，元素a_k表示第k个操作行动，n为行动空间中元素的个数，k＝1,2,…,n；

给出某一飞行任务下机组行为预测的马尔可夫模型如下：

\{\begin{matrix} M D P = {T, S, A_{s}, p (s^{j} | s^{i}, a_{k}), r (s^{i}, a_{k})} &RightArrow; π_{t} (s^{i}) \\ M D P = {S, A, T (s^{i}, a_{k}, s^{j}), R (s^{i})} &RightArrow; π (s^{i}) \end{matrix}

其中，π为策略，表示从状态集合到行动集合的映射，π(sⁱ)表示从状态sⁱ到行动集合的映射，π_t(sⁱ)表示在t时刻从状态sⁱ到行动集合的映射；

步骤3，确定步骤2所述任务下飞行操作状态转移概率集合T(sⁱ,a_k,s^j)，并根据飞行任务要求确定转移过程中行为操作的报酬集合R(sⁱ)；

用行动a_k影响到的状态参数α与其期望区间d_α的偏差来计算报酬，则

\{\begin{matrix} r (s^{i}, a_{k}) > 0 & i f & α (a_{k}) &NotElement; d_{α} a n d & α &Element; d_{α} \\ r (s^{i}, a_{k}) < < 0 & i f & α (a_{k}) &NotElement; d_{α} a n d & α &NotElement; d_{α} \\ r (s^{i}, a_{k}) = 0 & i f & α (a_{k}) &Element; d_{α} a n d & α &Element; d_{α} \\ r (s^{i}, a_{k}) > 0 & i f & α (a_{k}) &NotElement; d_{α} a n d & α &NotElement; d_{α} \end{matrix};

步骤4，用MDP折扣模型计算报酬效用函数时，折扣因子β有0＜β＜1；折扣模型的报酬效用函数表示在开始时刻0从状态sⁱ触发的条件下，使用策略π后***的折扣期望总报酬；

根据MDP折扣模型的最优方程，建立在状态sⁱ下该飞行任务中机组行为操作的收益的最优方程

v (s^{i}) = \underset{a_{k} &Element; A (s^{i})}{m a x} {r (s^{i}, a_{k}) + β \underset{s^{j} &Element; S}{Σ} p (s^{j} | s^{i}, a_{k}) v (s^{j})};

步骤5，计算飞机的状态参数θ在t时刻的任务紧迫度其中θ⁰为目标参数初始值，θ^T为期望到达值，θ^t为当前值，初始时间为0，T为任务要求时间；

步骤6，任取v⁰为有界集，给定折扣因子β和误差界ε，令迭代次数n＝0；

步骤7，对每个状态sⁱ∈S，计算

v^{n + 1} (s^{i}) = \underset{a_{k} &Element; A (s^{i})}{m a x} {r (s^{i}, a_{k}) + β \underset{s^{j} &Element; S}{Σ} p (s^{j} | s^{i}, a_{k}) v^{n} (s^{j})};

步骤8，如果则跳到步骤7，否则迭代次数n增加1，返回步骤5；

9.对每个状态sⁱ∈S，取

f_{e} (s^{i}) &Element; \underset{α &Element; A (s^{i})}{argmax} {r (s^{i}, a_{k}) + β \underset{s^{j} &Element; S}{Σ} p (s^{j} | s^{i}, a_{k}) v^{n + 1} (s^{j})},

从而得到在当前时刻下，收益最大的行动策略。

本发明的有益效果是：采用上述方法对驾驶舱内机组成员的操作行为进行引导，能够克服以往如飞行指引仪等传统定性分析方法缺乏对任务需要的判断以及不考虑飞行员的操作习惯而导致提供的援助侵入性较大的缺点。

附图说明

图1是水平转弯任务下操作程序示意图；

图2是水平转弯任务下仿真流程图。

具体实施方式

本发明包括以下几个步骤：

1.对飞机驾驶舱内飞行员的操作行为进行编码并描述，并对飞机在任务过程中存在的状态进行描述。

2.构建某一飞行任务下机组行为预测的马尔可夫模型。在该步骤中，需要用到如下定义。

定义1：设T＝{1,2,3,…}，T表示时刻集合。

定义2：设S表示飞机的状态空间，包含了***所有可能出现的状态，其中n_s表示飞机的最大状态数。S中任意一个元素sⁱ(i＝1,2,...,n_s)表示第i个状态，包含三个部分：Gⁱ、Fⁱ和Aⁱ，它们分别表示在当前状态sⁱ下的任务目标集合、***目标集合以及历史行动集合。

定义3：设Gⁱ表示在状态sⁱ下的任务目标集，包含了n_g个任务目标，其中n_g表示在当前状态下最大的任务目标数，它随***状态的变化而变化。Gⁱ中的元素表示在状态sⁱ下的第k个任务目标(k＝{1,…,n_g})，当任务目标已经完成，否则

定义4：设Fⁱ表示在状态sⁱ下的***任务目标集合，包含了n_f个任务目标，其中n_f表示在当前状态下最大的***任务目标数，它随***状态的变化而变化。其元素表示在状态sⁱ下的第k个***任务目标(k＝{1,…,n_f})，当***任务目标已经完成，否则

定义5：设Aⁱ表示在状态sⁱ下采取的历史行动集合，n_h为集合元素的个数，表示历史时刻的操作序列数。其元素表示在状态sⁱ下的第k个操作行动(k＝{1,…,n_h})。

定义6：设T(sⁱ,a_k,s^j)表示所有状态转移概率的集合，其任意元素p(s^j|sⁱ,a_k)表示在状态sⁱ下，执行可用行动a_k，***状态变化到s^j(j＝1,2,...,n_s)的概率，并假设

\underset{j &Element; S}{Σ} p (s^{j} | s^{i}, a_{k}) = 1 - - - (1)

定义7：设R(sⁱ)表示报酬集合，其任意元素r(sⁱ,a_k)表示在状态sⁱ下执行行动a_k的报酬，假设当r(sⁱ,a_k)≥0时表示收益，r(sⁱ,a_k)＜0表示费用。且

r (s^{i}, a_{k}) = \underset{j &Element; S}{Σ} r (s^{i}, a_{k}, s^{j}) p (s^{j} | s^{i}, a_{k}) - - - (2)

r(sⁱ,a_k,s^j)表示在状态sⁱ下执行行动a_k得到状态s^j的报酬。

定义8：设A＝{a₁,a₂,…,a_n}，A表示飞机的行动空间，包含了所有可执行并能够改变***状态的行动，这里描述为人的可改变飞机状态的操作行动，其元素a_k(k＝1,2,…,n)表示第k个操作行动，n为行动空间中元素的个数。

在以上定义基础上，给出某一飞行任务下机组行为预测的马尔可夫模型，其表达式如下：

\{\begin{matrix} M D P = {T, S, A_{s}, p (s^{j} | s^{i}, a_{k}), r (s^{i}, a_{k})} &RightArrow; π_{t} (s^{i}) \\ M D P = {S, A, T (s^{i}, a_{k}, s^{j}), R (s^{i})} &RightArrow; π (s^{i}) \end{matrix} - - - (3)

其中的π称为策略，表示从状态集合到行动集合的映射，π(sⁱ)表示从状态sⁱ到行动集合的映射，π_t(sⁱ)表示在t时刻从状态sⁱ到行动集合的映射。

3.确定该任务下飞行操作状态转移概率集合T(sⁱ,a_k,s^j)，并根据飞行任务要求确定转移过程中行为操作的报酬集合R(sⁱ)。其中转移概率是与历史操作序列Aⁱ相关的概率函数，可根据行动对状态的影响得到。

由于本发明根据飞行参数来判断任务目标状态，所以用行动a_k影响到的状态参数α(如高度、航向等)与其期望区间d_α的偏差来计算报酬。为保证报酬的合理性，本发明规定

\{\begin{matrix} r (s^{i}, a_{k}) < 0 & i f & α (a_{k}) &NotElement; d_{α} \\ r (s^{i}, a_{k}) &GreaterEqual; 0 & i f & α (a_{k}) &Element; d_{α} \end{matrix} - - - (4)

其中α(a_k)表示采用行动a_k后α可能的值，并不一定是一个确定的数值，其意义在于描述参数α的变化方向，进而表示a_k对任务目标的影响。假设表示采取行动a_k后，α向d_α外变化；反之，α(a_k)∈d_α表示是采取行动a_k后，α的变化在d_α内。进而，式(2)可以经过修正得到

\{\begin{matrix} r (s^{i}, a_{k}) > 0 & i f & α (a_{k}) &NotElement; d_{α} a n d & α &Element; d_{α} \\ r (s^{i}, a_{k}) < < 0 & i f & α (a_{k}) &NotElement; d_{α} a n d & α &NotElement; d_{α} \\ r (s^{i}, a_{k}) = 0 & i f & α (a_{k}) &Element; d_{α} a n d & α &Element; d_{α} \\ r (s^{i}, a_{k}) > 0 & i f & α (a_{k}) &NotElement; d_{α} a n d & α &NotElement; d_{α} \end{matrix} - - - (5)

4.根据飞机当前所处的飞行状态sⁱ，建立该飞行任务下机组行为的收益的最优方程。

本发明在计算报酬效用函数时使用MDP折扣模型，即在选定一个策略并实施后，决策者在时刻T依一定概率获取一串报酬，报酬折现后累加起来就是该模型的具体效用函数，其折扣率为折扣因子，用β表示，并有0＜β＜1。折扣模型的报酬效用函数为

V_{β} (s^{i}, π) = Σ_{t = 0}^{\infty} β^{t} E_{π}^{s^{i}} [r (s^{i}, a_{k})] - - - (6)

表示在开始时刻0从状态sⁱ触发的条件下。使用策略π后***的折扣期望总报酬。根据报酬r(sⁱ,a_k)的定义可以得到报酬函数有界，则效用函数同样有界。

根据MDP折扣模型的最优方程，可以建立飞机在状态sⁱ下该飞行任务中机组行为操作的收益的最优方程，其表达式如下：

v (s^{i}) = \underset{a_{k} &Element; A (s^{i})}{m a x} {r (s^{i}, a_{k}) + β \underset{s^{j} &Element; S}{Σ} p (s^{j} | s^{i}, a_{k}) v (s^{j})} - - - (7)

5.确定当前时刻飞机的任务紧迫度。

考虑到在实际的任务执行过程中，几乎每一时刻人为误差都会或多或少地产生，加上飞机动力***的滞后性，误差积累到一定程度，经过一段时间后才会被察觉，为了减小人为误差的影响，定义MP(θ)_t为飞机的状态参数θ(如高度、航向等)在t时刻的任务紧迫度，其计算方式为：

M P {(θ)}_{i} = \frac{| θ^{T} - θ^{t} | / | θ^{T} - θ^{0} |}{(T - t) / T} - - - (8)

其中θ⁰为目标参数初始值，θ^T为期望到达值，θ^t为当前值。初始时间为0，T为任务要求时间。

任务紧迫度MP(θ)_t描述了当前飞机状态相对于完美飞行的差距程度，当飞行员完美地执行任务时，在任意时刻，计算得到的的值应该趋近于1，任何大于1或小于1都表示当前任务执行完成地过早或过晚。MP(θ)_t的计算，可以将一个跨度较大的状态很好的依时间离散化。同时，根据人为操作的特点，MP(θ)_t在每一时刻的接受域也与执行时间t相关，一般刚开始执行时，对人为误差的限制较低，同时***本身的滞后性，MP(θ)_t可以灵活地保持在一个较广的范围内。当任务执行到后期，为保证人-机***的安全，需要严格控制MP(θ)_t，以保证以规定的飞行参数完成飞行任务

6.初始化参数。任取v⁰为有界集，给定折扣因子β(0＜β＜1)和误差界ε，令迭代次数n＝0。

7.对每个状态sⁱ∈S，通过计算

v^{n + 1} (s^{i}) = \underset{a_{k} &Element; A (s^{i})}{m a x} {r (s^{i}, a_{k}) + β \underset{s^{j} &Element; S}{Σ} p (s^{j} | s^{i}, a_{k}) v^{n} (s^{j})} - - - (9)

得到vⁿ⁺¹(sⁱ)。

8.如果

| | v^{n + 1} - v^{n} | | < \frac{ϵ * (1 - β)}{2 β} - - - (10)

跳到步骤7，否则迭代次数n增加1，返回步骤5。

9.对每个状态sⁱ∈S，取

f_{e} (s^{i}) &Element; \underset{α &Element; A (s^{i})}{argmax} {r (s^{i}, a_{k}) + β \underset{s^{j} &Element; S}{Σ} p (s^{j} | s^{i}, a_{k}) v^{n + 1} (s^{j})} - - - (11)

从而得到在当前时刻下，收益最大的行动策略。

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

已知参数：选择水平转弯飞行任务进行计算，机组操作程序如图1。由图1可以知道在执行水平转弯过程中，需要对坡度、航向、空速、高度以及侧滑等5个状态参数进行持续监控，对以上5个状态参数用符号表示并描述如表1所示。本发明以B737-800NG为例，假设驾驶舱内有10种可以执行的操作行为，对其编码如表2所示。

假设飞行高度要求为16000ft；转弯坡度要求为-15°；初始航向为MAG下θ⁰＝135°；目标航向为θ^T＝45°；空速要求200kt～215kt；当前飞行高度15899ft；坡度-14°；当前航向θ^t＝141°；当前空速178kt；PFD警告外侧滑；任务要求时间T＝60s；当前时刻t＝15s；历史行为序列集合A_h＝[1,5,3,7,9,9,9,9,3,9,3,9,7]，编码对应行为如表1；策略迭代折扣因子β＝0.95；误差界ε＝1×10^-5。

表1水平转弯任务目标集合

表2行动集合编码

未知参数：最优行动集合A^*。

方案实施过程如下：

1.建立相应的马尔可夫模型，规定状态含义。Gⁱ和Fⁱ取-1表示：从机尾沿飞机轴线看去坡度偏左；空速偏低；高度偏低；出现内侧滑。Gⁱ和Fⁱ1时表示：从机尾沿飞机轴线看去坡度偏右；空速偏大；高度偏高；出现外侧滑；Gⁱ和Fⁱ取0表示各任务目标状态符合飞行任务要求。

2.根据各参数值计算出当前状态集合，s^t＝[0,0,1,0,1]，如图2。

3.根据状态s^t选择相应的状态转移概率集合和报酬集合，如表3。

表3水平转弯任务下状态转移概率集合和相应报酬集合

4.计算迭代收敛精度。

\frac{ϵ * (1 - β)}{2 β} = 5.26 \times 10^{- 7}

5.设置初始收益集合v＝[0,0,0,0,0,0,0,0,0]，依照图2进行仿真迭代。得到当前两个任务目标状态在不同行动下的收益集合，计算得到：

v_{f_{1}} = 37.8095, 41.9048, 39.8095, 37.8095, 38.1809, 39.8095, 39.8095,

39.8095];

迭代次数317。计算

| | {v_{f_{1}}}^{n + 1} - {v_{f_{1}}}^{n} | | = 2.5189 \times 10^{- 7} < 5.26 \times 10^{- 7}

结果满足精度，迭代结束。

\begin{matrix} v_{f_{3}} = [57.0000, 57.0000, 58.0000, 54.0000, 57.0000, 57.0000, 54.0000, 60.0000, \\ 57.0000] \end{matrix};

迭代次数为324。计算

| | {v_{f_{3}}}^{n + 1} - {v_{f_{3}}}^{n} | | = 2.5709 \times 10^{- 7} < 5.26 \times 10^{- 7}

结果满足精度，迭代结束。

6.根据计算出的收益选择最优策略作为预测得到的最佳行为序列，A^*＝[8,2]；结束。

Claims

1.一种基于马尔科夫决策过程的飞行员操作行为引导方法，其特征在于包括下述步骤：

设时刻集合T＝{1,2,3,…}；

设状态sⁱ下的任务目标集包含了n_g个任务目标，其中n_g表示在当前状态下最大的任务目标数，Gⁱ中的元素表示在状态sⁱ下的第k个任务目标，k＝{1,…,n_g}，当任务目标已经完成，否则

设状态sⁱ下的***任务目标集合包含了n_f个任务目标，其中n_f表示在当前状态下最大的***任务目标数，元素表示在状态sⁱ下的第k个***任务目标，k＝{1,…,n_f}，当***任务目标已经完成，否则

设T(sⁱ,a_k,s^j)表示所有状态转移概率的集合，其任意元素p(s^j|sⁱ,a_k)表示在状态sⁱ下，执行可用行动a_k，***状态变化到s^j的概率，

给出某一飞行任务下机组行为预测的马尔可夫模型如下：

\{\begin{matrix} M D P = {T, S, A_{s}, p (s^{j} | s^{i}, a_{k}), r (s^{i}, a_{k})} &RightArrow; π_{t} (s^{i}) \\ M D P = {S, A, T (s^{i}, a_{k}, s^{j}), R (s^{i})} &RightArrow; π (s^{i}) \end{matrix}

\{\begin{matrix} r (s^{i}, a_{k}) < 0 & i f & α (a_{k}) &NotElement; d_{α} a n d & α &Element; d_{α} \\ r (s^{i}, a_{k}) < < 0 & i f & α (a_{k}) &NotElement; d_{α} a n d & α &NotElement; d_{α} \\ r (s^{i}, a_{k}) = 0 & i f & α (a_{k}) &Element; d_{α} a n d & α &Element; d_{α} \\ r (s^{i}, a_{k}) > 0 & i f & α (a_{k}) &NotElement; d_{α} a n d & α &NotElement; d_{α} \end{matrix};

步骤4，用MDP折扣模型计算报酬效用函数时使，折扣因子β有；折扣模型的报酬效用函数表示在开始时刻0从状态sⁱ触发的条件下，使用策略π后***的折扣期望总报酬；

v (s^{i}) = \underset{a_{k} &Element; A (s^{i})}{m a x} {r (s^{i}, a_{k}) + β \underset{s^{j} &Element; S}{Σ} p (s^{j} | s^{i}, a_{k}) v (s^{j})};

步骤7，对每个状态sⁱ∈S，计算

v^{n + 1} (s^{i}) = \underset{a_{k} &Element; A (s^{i})}{m a x} {r (s^{i}, a_{k}) + β \underset{s^{j} &Element; S}{Σ} p (s^{j} | s^{i}, a_{k}) v^{n} (s^{j})};

9.对每个状态sⁱ∈S，取

f_{e} (s^{i}) &Element; \underset{a &Element; A (s^{i})}{argmax} {r (s^{i}, a_{k}) + β \underset{s^{j} &Element; S}{Σ} p (s^{j} | s^{i}, a_{k}) v^{n + 1} (s^{j})},

从而得到在当前时刻下，收益最大的行动策略。