CN105182988A - 基于马尔科夫决策过程的飞行员操作行为引导方法 - Google Patents

基于马尔科夫决策过程的飞行员操作行为引导方法 Download PDF

Info

Publication number
CN105182988A
CN105182988A CN201510579624.8A CN201510579624A CN105182988A CN 105182988 A CN105182988 A CN 105182988A CN 201510579624 A CN201510579624 A CN 201510579624A CN 105182988 A CN105182988 A CN 105182988A
Authority
CN
China
Prior art keywords
state
represent
alpha
under
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510579624.8A
Other languages
English (en)
Other versions
CN105182988B (zh
Inventor
张耀中
胡波
汤志荔
张安
刘泽石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201510579624.8A priority Critical patent/CN105182988B/zh
Publication of CN105182988A publication Critical patent/CN105182988A/zh
Application granted granted Critical
Publication of CN105182988B publication Critical patent/CN105182988B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于马尔科夫决策过程的飞行员操作行为引导方法,首先对飞机驾驶舱内飞行员的操作行为进行编码并描述,对飞机在任务过程中存在的状态进行描述;然后构建某一飞行任务下机组行为预测的马尔可夫模型,确定该任务下飞行操作状态转移概率集合和转移过程中行为操作的报酬集合;用MDP折扣模型计算报酬效用函数,建立该任务下操作收益的最优方程并计算任务紧迫度,进行迭代计算和判断,得到收益最大的行动策略。本发明能够克服以往如飞行指引仪等传统定性分析方法缺乏对任务需要的判断以及不考虑飞行员的操作习惯而导致提供的援助侵入性较大的缺点。

Description

基于马尔科夫决策过程的飞行员操作行为引导方法
技术领域
本发明涉及飞机驾驶舱自动化***设计领域。
背景技术
自动化技术(AutomationTechnology)在很多领域的成功应用,为工业生产和日常生活带来很多便利。当前自动化和智能化技术大量应用于飞机驾驶舱当中,各种各样的高自动化、高智能化的技术应用,推动了航空产业的飞速发展。驾驶舱自动化在很大程度上提高了飞行员操作的准确性和可靠性,给燃料经济性以及飞行安全等方面带来了许多好处,但与此同时,也引起了飞行员的态势感知(SituationAwareness)水平下降、自动化***与人之间不能相互理解以及对***的过渡依赖等诸多问题,给驾驶舱人机界面、飞行操作等带来了人机功效学方面新的挑战。驾驶舱自动化虽然在一定程度上减轻了飞行员的工作负荷,但同时不合理的自动化设计必然会对整个飞行安全造成严重的威胁。
马尔科夫过程(MarkovProcesses)是具有一类普遍共性的过程,其原始模型是1907年由俄罗斯数学家Markov提出的马尔科夫链。马尔科夫过程具有如下特性:某阶段的状态一旦确定,则此后过程的演变不再受到此前各状态的影响。马尔科夫决策过程(MarkovDecisionProcess,MDP)是在马尔科夫过程的基础上增加了决策者的概念,是一种应用广泛的随机决策过程。
自适应自动化技术(AdaptiveAutomationTechnology)是一种更加灵活的能够使得特定的用户在特定的情况下得到最佳的自动化援助的自动化技术,是人机协同过程的控制方法,飞机驾驶舱内的自适应自动化技术发展已久。自适应自动化的目的是监测人机***控制环内人的状态,触发自动化援助,将人为差错率降到最低。目前驾驶舱内使用的飞行指引仪是将飞机的实际飞行线路与目标线路进行比较,并计算出进入目标线路所需要的操纵量,以目视的形式在指示器上给出,最终会在显示界面上出现向上、向下、向左和向右。驾驶员看到后,根据提示操纵飞机,调整飞行线路使其与目标线路重合。这种方法在巡航阶段对飞行员帮助较大,但在起飞爬升段或进近着陆阶段,完全比对航线的方法就无法满足飞行安全的要求。飞行控制计算机计算得出副翼、升降舵等需要的位置量,并将相关信息反馈给飞行员,但其本身缺乏对任务需要的推断,计算过程也不考虑当前任务所处的状态和飞行员的操作习惯。
发明内容
为了克服现有技术的不足,本发明提供一种基于马尔科夫决策过程的飞行员操作行为引导方法,根据当前飞行状态和飞行员的操作习惯得到一组行为操作序列,此序列得到的结果符合飞行员的行为习惯且能调整当前的飞行状态。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1,对飞机驾驶舱内飞行员的操作行为进行编码并描述,对飞机在任务过程中存在的状态进行描述;
步骤2,构建某一飞行任务下机组行为预测的马尔可夫模型,步骤如下:
设时刻集合T={1,2,3,…};
设飞机的状态空间包含了***所有可能出现的状态,其中ns表示飞机的最大状态数;S中任意一个元素si表示第i个状态,包含在当前状态si下的任务目标集合Gi、***目标集合Fi和历史行动集合Ai;i=1,2,...,ns
设状态si下的任务目标集包含了ng个任务目标,其中ng表示在当前状态下最大的任务目标数,Gi中的元素表示在状态si下的第k个任务目标,k={1,…,ng},当任务目标已经完成,否则
设状态si下的***任务目标集合包含了nf个任务目标,其中nf表示在当前状态下最大的***任务目标数,元素表示在状态si下的第k个***任务目标,k={1,…,nf},当***任务目标已经完成,否则
设状态si下采取的历史行动集合nh为集合元素的个数,表示历史时刻的操作序列数;元素表示在状态si下的第k个操作行动,k={1,…,nh};
设T(si,ak,sj)表示所有状态转移概率的集合,其任意元素p(sj|si,ak)表示在状态si下,执行可用行动ak,***状态变化到sj的概率,j=1,2,...,ns
设报酬集合R(si)的任意元素r(si,ak)表示在状态si下执行行动ak的报酬,当r(si,ak)≥0时表示收益,r(si,ak)<0表示费用,r(si,ak,sj)表示在状态si下执行行动ak得到状态sj的报酬;
设飞机的行动空间A={a1,a2,…,an},包含了所有可执行并能够改变***状态的行动,元素ak表示第k个操作行动,n为行动空间中元素的个数,k=1,2,…,n;
给出某一飞行任务下机组行为预测的马尔可夫模型如下:
M D P = { T , S , A s , p ( s j | s i , a k ) , r ( s i , a k ) } → π t ( s i ) M D P = { S , A , T ( s i , a k , s j ) , R ( s i ) } → π ( s i )
其中,π为策略,表示从状态集合到行动集合的映射,π(si)表示从状态si到行动集合的映射,πt(si)表示在t时刻从状态si到行动集合的映射;
步骤3,确定步骤2所述任务下飞行操作状态转移概率集合T(si,ak,sj),并根据飞行任务要求确定转移过程中行为操作的报酬集合R(si);
用行动ak影响到的状态参数α与其期望区间dα的偏差来计算报酬,则
r ( s i , a k ) > 0 i f &alpha; ( a k ) &NotElement; d &alpha; a n d &alpha; &Element; d &alpha; r ( s i , a k ) < < 0 i f &alpha; ( a k ) &NotElement; d &alpha; a n d &alpha; &NotElement; d &alpha; r ( s i , a k ) = 0 i f &alpha; ( a k ) &Element; d &alpha; a n d &alpha; &Element; d &alpha; r ( s i , a k ) > 0 i f &alpha; ( a k ) &NotElement; d &alpha; a n d &alpha; &NotElement; d &alpha; ;
步骤4,用MDP折扣模型计算报酬效用函数时,折扣因子β有0<β<1;折扣模型的报酬效用函数表示在开始时刻0从状态si触发的条件下,使用策略π后***的折扣期望总报酬;
根据MDP折扣模型的最优方程,建立在状态si下该飞行任务中机组行为操作的收益的最优方程 v ( s i ) = m a x a k &Element; A ( s i ) { r ( s i , a k ) + &beta; &Sigma; s j &Element; S p ( s j | s i , a k ) v ( s j ) } ;
步骤5,计算飞机的状态参数θ在t时刻的任务紧迫度其中θ0为目标参数初始值,θT为期望到达值,θt为当前值,初始时间为0,T为任务要求时间;
步骤6,任取v0为有界集,给定折扣因子β和误差界ε,令迭代次数n=0;
步骤7,对每个状态si∈S,计算 v n + 1 ( s i ) = m a x a k &Element; A ( s i ) { r ( s i , a k ) + &beta; &Sigma; s j &Element; S p ( s j | s i , a k ) v n ( s j ) } ;
步骤8,如果则跳到步骤7,否则迭代次数n增加1,返回步骤5;
9.对每个状态si∈S,取 f e ( s i ) &Element; argmax &alpha; &Element; A ( s i ) { r ( s i , a k ) + &beta; &Sigma; s j &Element; S p ( s j | s i , a k ) v n + 1 ( s j ) } , 从而得到在当前时刻下,收益最大的行动策略。
本发明的有益效果是:采用上述方法对驾驶舱内机组成员的操作行为进行引导,能够克服以往如飞行指引仪等传统定性分析方法缺乏对任务需要的判断以及不考虑飞行员的操作习惯而导致提供的援助侵入性较大的缺点。
附图说明
图1是水平转弯任务下操作程序示意图;
图2是水平转弯任务下仿真流程图。
具体实施方式
本发明包括以下几个步骤:
1.对飞机驾驶舱内飞行员的操作行为进行编码并描述,并对飞机在任务过程中存在的状态进行描述。
2.构建某一飞行任务下机组行为预测的马尔可夫模型。在该步骤中,需要用到如下定义。
定义1:设T={1,2,3,…},T表示时刻集合。
定义2:设S表示飞机的状态空间,包含了***所有可能出现的状态,其中ns表示飞机的最大状态数。S中任意一个元素si(i=1,2,...,ns)表示第i个状态,包含三个部分:Gi、Fi和Ai,它们分别表示在当前状态si下的任务目标集合、***目标集合以及历史行动集合。
定义3:设Gi表示在状态si下的任务目标集,包含了ng个任务目标,其中ng表示在当前状态下最大的任务目标数,它随***状态的变化而变化。Gi中的元素表示在状态si下的第k个任务目标(k={1,…,ng}),当任务目标已经完成,否则
定义4:设Fi表示在状态si下的***任务目标集合,包含了nf个任务目标,其中nf表示在当前状态下最大的***任务目标数,它随***状态的变化而变化。其元素表示在状态si下的第k个***任务目标(k={1,…,nf}),当***任务目标已经完成,否则
定义5:设Ai表示在状态si下采取的历史行动集合,nh为集合元素的个数,表示历史时刻的操作序列数。其元素表示在状态si下的第k个操作行动(k={1,…,nh})。
定义6:设T(si,ak,sj)表示所有状态转移概率的集合,其任意元素p(sj|si,ak)表示在状态si下,执行可用行动ak,***状态变化到sj(j=1,2,...,ns)的概率,并假设
&Sigma; j &Element; S p ( s j | s i , a k ) = 1 - - - ( 1 )
定义7:设R(si)表示报酬集合,其任意元素r(si,ak)表示在状态si下执行行动ak的报酬,假设当r(si,ak)≥0时表示收益,r(si,ak)<0表示费用。且
r ( s i , a k ) = &Sigma; j &Element; S r ( s i , a k , s j ) p ( s j | s i , a k ) - - - ( 2 )
r(si,ak,sj)表示在状态si下执行行动ak得到状态sj的报酬。
定义8:设A={a1,a2,…,an},A表示飞机的行动空间,包含了所有可执行并能够改变***状态的行动,这里描述为人的可改变飞机状态的操作行动,其元素ak(k=1,2,…,n)表示第k个操作行动,n为行动空间中元素的个数。
在以上定义基础上,给出某一飞行任务下机组行为预测的马尔可夫模型,其表达式如下:
M D P = { T , S , A s , p ( s j | s i , a k ) , r ( s i , a k ) } &RightArrow; &pi; t ( s i ) M D P = { S , A , T ( s i , a k , s j ) , R ( s i ) } &RightArrow; &pi; ( s i ) - - - ( 3 )
其中的π称为策略,表示从状态集合到行动集合的映射,π(si)表示从状态si到行动集合的映射,πt(si)表示在t时刻从状态si到行动集合的映射。
3.确定该任务下飞行操作状态转移概率集合T(si,ak,sj),并根据飞行任务要求确定转移过程中行为操作的报酬集合R(si)。其中转移概率是与历史操作序列Ai相关的概率函数,可根据行动对状态的影响得到。
由于本发明根据飞行参数来判断任务目标状态,所以用行动ak影响到的状态参数α(如高度、航向等)与其期望区间dα的偏差来计算报酬。为保证报酬的合理性,本发明规定
r ( s i , a k ) < 0 i f &alpha; ( a k ) &NotElement; d &alpha; r ( s i , a k ) &GreaterEqual; 0 i f &alpha; ( a k ) &Element; d &alpha; - - - ( 4 )
其中α(ak)表示采用行动ak后α可能的值,并不一定是一个确定的数值,其意义在于描述参数α的变化方向,进而表示ak对任务目标的影响。假设表示采取行动ak后,α向dα外变化;反之,α(ak)∈dα表示是采取行动ak后,α的变化在dα内。进而,式(2)可以经过修正得到
r ( s i , a k ) > 0 i f &alpha; ( a k ) &NotElement; d &alpha; a n d &alpha; &Element; d &alpha; r ( s i , a k ) < < 0 i f &alpha; ( a k ) &NotElement; d &alpha; a n d &alpha; &NotElement; d &alpha; r ( s i , a k ) = 0 i f &alpha; ( a k ) &Element; d &alpha; a n d &alpha; &Element; d &alpha; r ( s i , a k ) > 0 i f &alpha; ( a k ) &NotElement; d &alpha; a n d &alpha; &NotElement; d &alpha; - - - ( 5 )
4.根据飞机当前所处的飞行状态si,建立该飞行任务下机组行为的收益的最优方程。
本发明在计算报酬效用函数时使用MDP折扣模型,即在选定一个策略并实施后,决策者在时刻T依一定概率获取一串报酬,报酬折现后累加起来就是该模型的具体效用函数,其折扣率为折扣因子,用β表示,并有0<β<1。折扣模型的报酬效用函数为
V &beta; ( s i , &pi; ) = &Sigma; t = 0 &infin; &beta; t E &pi; s i &lsqb; r ( s i , a k ) &rsqb; - - - ( 6 )
表示在开始时刻0从状态si触发的条件下。使用策略π后***的折扣期望总报酬。根据报酬r(si,ak)的定义可以得到报酬函数有界,则效用函数同样有界。
根据MDP折扣模型的最优方程,可以建立飞机在状态si下该飞行任务中机组行为操作的收益的最优方程,其表达式如下:
v ( s i ) = m a x a k &Element; A ( s i ) { r ( s i , a k ) + &beta; &Sigma; s j &Element; S p ( s j | s i , a k ) v ( s j ) } - - - ( 7 )
5.确定当前时刻飞机的任务紧迫度。
考虑到在实际的任务执行过程中,几乎每一时刻人为误差都会或多或少地产生,加上飞机动力***的滞后性,误差积累到一定程度,经过一段时间后才会被察觉,为了减小人为误差的影响,定义MP(θ)t为飞机的状态参数θ(如高度、航向等)在t时刻的任务紧迫度,其计算方式为:
M P ( &theta; ) i = | &theta; T - &theta; t | / | &theta; T - &theta; 0 | ( T - t ) / T - - - ( 8 )
其中θ0为目标参数初始值,θT为期望到达值,θt为当前值。初始时间为0,T为任务要求时间。
任务紧迫度MP(θ)t描述了当前飞机状态相对于完美飞行的差距程度,当飞行员完美地执行任务时,在任意时刻,计算得到的的值应该趋近于1,任何大于1或小于1都表示当前任务执行完成地过早或过晚。MP(θ)t的计算,可以将一个跨度较大的状态很好的依时间离散化。同时,根据人为操作的特点,MP(θ)t在每一时刻的接受域也与执行时间t相关,一般刚开始执行时,对人为误差的限制较低,同时***本身的滞后性,MP(θ)t可以灵活地保持在一个较广的范围内。当任务执行到后期,为保证人-机***的安全,需要严格控制MP(θ)t,以保证以规定的飞行参数完成飞行任务
6.初始化参数。任取v0为有界集,给定折扣因子β(0<β<1)和误差界ε,令迭代次数n=0。
7.对每个状态si∈S,通过计算
v n + 1 ( s i ) = m a x a k &Element; A ( s i ) { r ( s i , a k ) + &beta; &Sigma; s j &Element; S p ( s j | s i , a k ) v n ( s j ) } - - - ( 9 )
得到vn+1(si)。
8.如果
| | v n + 1 - v n | | < &epsiv; * ( 1 - &beta; ) 2 &beta; - - - ( 10 )
跳到步骤7,否则迭代次数n增加1,返回步骤5。
9.对每个状态si∈S,取
f e ( s i ) &Element; argmax &alpha; &Element; A ( s i ) { r ( s i , a k ) + &beta; &Sigma; s j &Element; S p ( s j | s i , a k ) v n + 1 ( s j ) } - - - ( 11 )
从而得到在当前时刻下,收益最大的行动策略。
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
已知参数:选择水平转弯飞行任务进行计算,机组操作程序如图1。由图1可以知道在执行水平转弯过程中,需要对坡度、航向、空速、高度以及侧滑等5个状态参数进行持续监控,对以上5个状态参数用符号表示并描述如表1所示。本发明以B737-800NG为例,假设驾驶舱内有10种可以执行的操作行为,对其编码如表2所示。
假设飞行高度要求为16000ft;转弯坡度要求为-15°;初始航向为MAG下θ0=135°;目标航向为θT=45°;空速要求200kt~215kt;当前飞行高度15899ft;坡度-14°;当前航向θt=141°;当前空速178kt;PFD警告外侧滑;任务要求时间T=60s;当前时刻t=15s;历史行为序列集合Ah=[1,5,3,7,9,9,9,9,3,9,3,9,7],编码对应行为如表1;策略迭代折扣因子β=0.95;误差界ε=1×10-5
表1水平转弯任务目标集合
表2行动集合编码
未知参数:最优行动集合A*
方案实施过程如下:
1.建立相应的马尔可夫模型,规定状态含义。Gi和Fi取-1表示:从机尾沿飞机轴线看去坡度偏左;空速偏低;高度偏低;出现内侧滑。Gi和Fi1时表示:从机尾沿飞机轴线看去坡度偏右;空速偏大;高度偏高;出现外侧滑;Gi和Fi取0表示各任务目标状态符合飞行任务要求。
2.根据各参数值计算出当前状态集合,st=[0,0,1,0,1],如图2。
3.根据状态st选择相应的状态转移概率集合和报酬集合,如表3。
表3水平转弯任务下状态转移概率集合和相应报酬集合
4.计算迭代收敛精度。
&epsiv; * ( 1 - &beta; ) 2 &beta; = 5.26 &times; 10 - 7
5.设置初始收益集合v=[0,0,0,0,0,0,0,0,0],依照图2进行仿真迭代。得到当前两个任务目标状态在不同行动下的收益集合,计算得到:
v f 1 = 37.8095 , 41.9048 , 39.8095 , 37.8095 , 38.1809 , 39.8095 , 39.8095 , 39.8095 &rsqb; ; 迭代次数317。计算
| | v f 1 n + 1 - v f 1 n | | = 2.5189 &times; 10 - 7 < 5.26 &times; 10 - 7
结果满足精度,迭代结束。
v f 3 = &lsqb; 57.0000 , 57.0000 , 58.0000 , 54.0000 , 57.0000 , 57.0000 , 54.0000 , 60.0000 , 57.0000 &rsqb; ;
迭代次数为324。计算
| | v f 3 n + 1 - v f 3 n | | = 2.5709 &times; 10 - 7 < 5.26 &times; 10 - 7
结果满足精度,迭代结束。
6.根据计算出的收益选择最优策略作为预测得到的最佳行为序列,A*=[8,2];结束。

Claims (1)

1.一种基于马尔科夫决策过程的飞行员操作行为引导方法,其特征在于包括下述步骤:
步骤1,对飞机驾驶舱内飞行员的操作行为进行编码并描述,对飞机在任务过程中存在的状态进行描述;
步骤2,构建某一飞行任务下机组行为预测的马尔可夫模型,步骤如下:
设时刻集合T={1,2,3,…};
设飞机的状态空间包含了***所有可能出现的状态,其中ns表示飞机的最大状态数;S中任意一个元素si表示第i个状态,包含在当前状态si下的任务目标集合Gi、***目标集合Fi和历史行动集合Ai;i=1,2,...,ns
设状态si下的任务目标集包含了ng个任务目标,其中ng表示在当前状态下最大的任务目标数,Gi中的元素表示在状态si下的第k个任务目标,k={1,…,ng},当任务目标已经完成,否则
设状态si下的***任务目标集合包含了nf个任务目标,其中nf表示在当前状态下最大的***任务目标数,元素表示在状态si下的第k个***任务目标,k={1,…,nf},当***任务目标已经完成,否则
设状态si下采取的历史行动集合nh为集合元素的个数,表示历史时刻的操作序列数;元素表示在状态si下的第k个操作行动,k={1,…,nh};
设T(si,ak,sj)表示所有状态转移概率的集合,其任意元素p(sj|si,ak)表示在状态si下,执行可用行动ak,***状态变化到sj的概率,
设报酬集合R(si)的任意元素r(si,ak)表示在状态si下执行行动ak的报酬,当r(si,ak)≥0时表示收益,r(si,ak)<0表示费用,r(si,ak,sj)表示在状态si下执行行动ak得到状态sj的报酬;
设飞机的行动空间A={a1,a2,…,an},包含了所有可执行并能够改变***状态的行动,元素ak表示第k个操作行动,n为行动空间中元素的个数,k=1,2,…,n;
给出某一飞行任务下机组行为预测的马尔可夫模型如下:
M D P = { T , S , A s , p ( s j | s i , a k ) , r ( s i , a k ) } &RightArrow; &pi; t ( s i ) M D P = { S , A , T ( s i , a k , s j ) , R ( s i ) } &RightArrow; &pi; ( s i )
其中,π为策略,表示从状态集合到行动集合的映射,π(si)表示从状态si到行动集合的映射,πt(si)表示在t时刻从状态si到行动集合的映射;
步骤3,确定步骤2所述任务下飞行操作状态转移概率集合T(si,ak,sj),并根据飞行任务要求确定转移过程中行为操作的报酬集合R(si);
用行动ak影响到的状态参数α与其期望区间dα的偏差来计算报酬,则
r ( s i , a k ) < 0 i f &alpha; ( a k ) &NotElement; d &alpha; a n d &alpha; &Element; d &alpha; r ( s i , a k ) < < 0 i f &alpha; ( a k ) &NotElement; d &alpha; a n d &alpha; &NotElement; d &alpha; r ( s i , a k ) = 0 i f &alpha; ( a k ) &Element; d &alpha; a n d &alpha; &Element; d &alpha; r ( s i , a k ) > 0 i f &alpha; ( a k ) &NotElement; d &alpha; a n d &alpha; &NotElement; d &alpha; ;
步骤4,用MDP折扣模型计算报酬效用函数时使,折扣因子β有;折扣模型的报酬效用函数表示在开始时刻0从状态si触发的条件下,使用策略π后***的折扣期望总报酬;
根据MDP折扣模型的最优方程,建立在状态si下该飞行任务中机组行为操作的收益的最优方程 v ( s i ) = m a x a k &Element; A ( s i ) { r ( s i , a k ) + &beta; &Sigma; s j &Element; S p ( s j | s i , a k ) v ( s j ) } ;
步骤5,计算飞机的状态参数θ在t时刻的任务紧迫度其中θ0为目标参数初始值,θT为期望到达值,θt为当前值,初始时间为0,T为任务要求时间;
步骤6,任取v0为有界集,给定折扣因子β和误差界ε,令迭代次数n=0;
步骤7,对每个状态si∈S,计算 v n + 1 ( s i ) = m a x a k &Element; A ( s i ) { r ( s i , a k ) + &beta; &Sigma; s j &Element; S p ( s j | s i , a k ) v n ( s j ) } ;
步骤8,如果则跳到步骤7,否则迭代次数n增加1,返回步骤5;
9.对每个状态si∈S,取 f e ( s i ) &Element; argmax a &Element; A ( s i ) { r ( s i , a k ) + &beta; &Sigma; s j &Element; S p ( s j | s i , a k ) v n + 1 ( s j ) } , 从而得到在当前时刻下,收益最大的行动策略。
CN201510579624.8A 2015-09-11 2015-09-11 基于马尔科夫决策过程的飞行员操作行为引导方法 Expired - Fee Related CN105182988B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510579624.8A CN105182988B (zh) 2015-09-11 2015-09-11 基于马尔科夫决策过程的飞行员操作行为引导方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510579624.8A CN105182988B (zh) 2015-09-11 2015-09-11 基于马尔科夫决策过程的飞行员操作行为引导方法

Publications (2)

Publication Number Publication Date
CN105182988A true CN105182988A (zh) 2015-12-23
CN105182988B CN105182988B (zh) 2017-12-26

Family

ID=54905127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510579624.8A Expired - Fee Related CN105182988B (zh) 2015-09-11 2015-09-11 基于马尔科夫决策过程的飞行员操作行为引导方法

Country Status (1)

Country Link
CN (1) CN105182988B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650172A (zh) * 2017-01-05 2017-05-10 电子科技大学 基于mdp的机载防撞***逻辑单元的设计方法
CN106997488A (zh) * 2017-03-22 2017-08-01 扬州大学 一种结合马尔科夫决策过程的动作知识提取方法
CN107357282A (zh) * 2017-07-06 2017-11-17 中国民航大学 一种基于多维隐马尔可夫模型的飞行控制***评估方法
CN108806337A (zh) * 2018-06-19 2018-11-13 华航信息技术(绍兴)有限公司 一种用于机场近空飞行行为的定性***
CN112819242A (zh) * 2021-02-22 2021-05-18 西北工业大学 民用运输类飞机飞行试验任务分配优化方法
CN116257741A (zh) * 2023-03-15 2023-06-13 南京航空航天大学 基于实时飞行数据的民航飞机飞行异常操作在线识别方法
US11971728B1 (en) 2020-10-23 2024-04-30 Rockwell Collins, Inc. Platform guidance system incorporating hierarchical modular arbitration architecture

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090177400A1 (en) * 2006-02-14 2009-07-09 Airbus France Method and system for piloting an aircraft
CN102737525A (zh) * 2012-06-28 2012-10-17 上海交通大学 一种直升机地形感知与告警***告警包线生成方法
US20130184899A1 (en) * 2011-12-06 2013-07-18 Airbus Operations (Sas) Method for the automatic monitoring of air operations necessitating guaranteed navigation and guidance performance
CN103354041A (zh) * 2013-06-25 2013-10-16 上海交通大学 一种民用飞机地形感知与告警***的告警包线生成方法
CN104867371A (zh) * 2015-05-29 2015-08-26 杨珊珊 一种飞行器的训练引导装置及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090177400A1 (en) * 2006-02-14 2009-07-09 Airbus France Method and system for piloting an aircraft
US20130184899A1 (en) * 2011-12-06 2013-07-18 Airbus Operations (Sas) Method for the automatic monitoring of air operations necessitating guaranteed navigation and guidance performance
CN102737525A (zh) * 2012-06-28 2012-10-17 上海交通大学 一种直升机地形感知与告警***告警包线生成方法
CN103354041A (zh) * 2013-06-25 2013-10-16 上海交通大学 一种民用飞机地形感知与告警***的告警包线生成方法
CN104867371A (zh) * 2015-05-29 2015-08-26 杨珊珊 一种飞行器的训练引导装置及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李翔 等: "基于Markov的模块化电传操纵***软件可靠性模型", 《数学的实践与认识》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650172A (zh) * 2017-01-05 2017-05-10 电子科技大学 基于mdp的机载防撞***逻辑单元的设计方法
CN106997488A (zh) * 2017-03-22 2017-08-01 扬州大学 一种结合马尔科夫决策过程的动作知识提取方法
CN107357282A (zh) * 2017-07-06 2017-11-17 中国民航大学 一种基于多维隐马尔可夫模型的飞行控制***评估方法
CN108806337A (zh) * 2018-06-19 2018-11-13 华航信息技术(绍兴)有限公司 一种用于机场近空飞行行为的定性***
US11971728B1 (en) 2020-10-23 2024-04-30 Rockwell Collins, Inc. Platform guidance system incorporating hierarchical modular arbitration architecture
CN112819242A (zh) * 2021-02-22 2021-05-18 西北工业大学 民用运输类飞机飞行试验任务分配优化方法
CN112819242B (zh) * 2021-02-22 2023-06-09 西北工业大学 民用运输类飞机飞行试验任务分配优化方法
CN116257741A (zh) * 2023-03-15 2023-06-13 南京航空航天大学 基于实时飞行数据的民航飞机飞行异常操作在线识别方法
CN116257741B (zh) * 2023-03-15 2023-10-03 南京航空航天大学 基于实时飞行数据的民航飞机飞行异常操作在线识别方法

Also Published As

Publication number Publication date
CN105182988B (zh) 2017-12-26

Similar Documents

Publication Publication Date Title
CN105182988A (zh) 基于马尔科夫决策过程的飞行员操作行为引导方法
CN112162564B (zh) 基于模仿学习和强化学习算法的无人机飞行控制方法
CN110806759B (zh) 一种基于深度强化学习的飞行器航线跟踪方法
US20180292830A1 (en) Automatic Tuning of Autonomous Vehicle Cost Functions Based on Human Driving Data
CN100591900C (zh) 具有三个控制环设计的飞行控制***
CN110110419A (zh) 一种基于多目标学习的tbm掘进参数预测方法
CN110481536B (zh) 一种应用于混合动力汽车的控制方法及设备
CN102298329A (zh) 一种基于自适应遗传算法的小型无人旋翼机动力学模型辨识方法
CN110134140A (zh) 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法
CN105404152B (zh) 一种模拟飞行员主观评价的飞行品质预测方法
CN112818599A (zh) 一种基于强化学习和四维轨迹的空中管制方法
CN109978025A (zh) 一种基于高斯过程回归的智能网联车辆前车加速度预测方法
Dong et al. Study on the resolution of multi-aircraft flight conflicts based on an IDQN
CN113093568A (zh) 基于长短时记忆网络的飞机自动驾驶操作模拟方法
Deng et al. Advanced self-improving ramp metering algorithm based on multi-agent deep reinforcement learning
CN114253274A (zh) 基于数据驱动的网联混合车辆编队滚动优化控制方法
Qiang et al. Conceptual design and preliminary experiment of icing risk management and protection system
CN109491385A (zh) 基于elm的自动驾驶列车车速跟随的控制方法
Juang et al. Analysis and comparison of aircraft landing control using recurrent neural networks and genetic algorithms approaches
CN106842924A (zh) 基于多工况anfis模型的动车组优化控制方法
CN106647327B (zh) 基于虚拟飞行经验的着舰指挥员纵向强制指令建模方法
Chen et al. Research on intelligent merging decision-making of unmanned vehicles based on reinforcement learning
CN114384931A (zh) 一种基于策略梯度的无人机多目标最优控制方法和设备
EP3920070A1 (en) Testing and simulation in autonomous driving
Shi et al. A collaborative control scheme for smart vehicles based on multi-agent deep reinforcement learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171226

Termination date: 20180911