CN110852497A - 基于大数据深度学习的场面可变滑出时间预测*** - Google Patents

基于大数据深度学习的场面可变滑出时间预测*** Download PDF

Info

Publication number
CN110852497A
CN110852497A CN201911044358.3A CN201911044358A CN110852497A CN 110852497 A CN110852497 A CN 110852497A CN 201911044358 A CN201911044358 A CN 201911044358A CN 110852497 A CN110852497 A CN 110852497A
Authority
CN
China
Prior art keywords
scene
out time
data
slide
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911044358.3A
Other languages
English (en)
Inventor
周龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Smart Aviation Research Institute Co Ltd
Original Assignee
Nanjing Smart Aviation Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Smart Aviation Research Institute Co Ltd filed Critical Nanjing Smart Aviation Research Institute Co Ltd
Priority to CN201911044358.3A priority Critical patent/CN110852497A/zh
Publication of CN110852497A publication Critical patent/CN110852497A/zh
Priority to PCT/CN2020/089916 priority patent/WO2021082394A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Educational Administration (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种基于大数据深度学习的场面可变滑出时间预测***,包括:数据集建立模块,适于获取历史运行数据并进行数据清洗从而获得数据集;指标定义及量化模块,适于定义并量化场面交通特性的交通状况指标;特征集提取模块,适于基于数据集以及交通状况指标分析和提取影响场面滑出时间的特征集;模型建立模块,适于依据特征集通过集成机器学习方法建立场面滑出时间预测模型,预测模块,适于通过场面滑出时间预测模型完成对机场场面滑出时间的预测。处理机场原始记录数据,对机场场面交通状况进行建模,分析和提取滑行时间影响因素,训练GBRT集成学习模型,进而得到滑出时间预测模型,为机场运行的管理和优化提供数据依据。

Description

基于大数据深度学习的场面可变滑出时间预测***
技术领域
本发明涉及机场交通管制领域,具体涉及一种基于大数据深度学习的场面可变滑出时间预测***。
背景技术
现有技术中,飞行器滑出时间预测大多从两方面建立模型:仿真和分析。仿真模型使用了已有的机场拓扑结构模型、冲突探测以及解决方案作为因素,通过仿真地面上所有进离场航空器的运行进而获取滑出时间。仿真模型具有很强的针对性,对不同机场没有很好的普适性。分析模型的以往研究主要聚焦在线性回归等模型上,也有一些尝试使用机器学习技术的研究。对于分析模型而言,确定影响滑行时间的主要因素是研究的一个侧重点。分析模型通常有影响因素不全等缺点,实际参考价值较弱,不能满足实际应用需求。
如何解决上述问题,是目前亟待解决的。
发明内容
本发明的目的是提供一种基于大数据深度学习的场面可变滑出时间预测***,以实现提高分析模型中影响因素的全面性的目的。
为了解决上述技术问题,本发明提供了一种基于大数据深度学习的场面可变滑出时间预测***,包括:
数据集建立模块,适于获取历史运行数据并进行数据清洗从而获得数据集;
指标定义及量化模块,适于定义并量化场面交通特性的交通状况指标;
特征集提取模块,适于基于数据集以及交通状况指标分析和提取影响场面滑出时间的特征集;
模型建立模块,适于依据特征集通过集成机器学习方法建立场面滑出时间预测模型;
预测模块,适于通过场面滑出时间预测模型完成对机场场面滑出时间的预测。
进一步的,所述数据集建立模块包括:
原始数据集获取单元,适于获取历史运行数据构建原始数据集;
数据清理单元,适于对原始数据集进行数据清理;
数据集获取单元,适于将原始数据集进行数据集成获取数据集;
数据集划分单元,适于将数据集分为训练集以及测试集。
进一步的,所述指标定义及量化模块包括:
网络拓扑结构获取单元,适于采用宏观时空网络拓扑模型,对机场场面运行交通态势进行建模获取宏观时空网络拓扑结构;
量化单元,适于基于宏观时空网络拓扑结构,定义体现场面交通量的四类指标并进行量化。
进一步的,所述特征集提取模块包括:
原始特征集提取单元,适于从数据集以及交通状况指标提取影响场面滑出时间的特征并构成原始特征集;
特征分析单元,适于对原始特征集中的特征进行特征分析
特征集构建单元,适于依据特征分析结果构建特征集。
进一步的,所述特征分析单元,即:采用相关性度量相关系数、标准化互信息以及因子分析三者中的一种或多种对原始特征集重的特征进行特征分析;
相关性度量相关系数反映两个变量线性相关程度的统计量,其取值为[-1,1],绝对值越大表示线性相关程度越强,正值表示正相关,负值表示负相关,用X、Y代指任意两个变量,相关性度量相关系数PX,Y的定义为:
Figure BDA0002253731690000031
其中Cov(X,Y)为X与Y的协方差,σX、σY为X、Y的标准差,μX、μY为X、Y的均值;
标准化互信息是常用相关度量其取值范围为[0,1],值越大表示变量间的相关程度越大,标准化互信息UX,Y的定义为:
Figure BDA0002253731690000032
其中,IX,Y为X、Y的互信息,HX、HY为X、Y各自的信息熵,p(x,y)为X、Y的联合概率分布,p(x)、p(y)为X、Y各自的概率分布
因子分析,即,提取到的特征x是完全被潜在影响因子z控制的,表达式为=Az+ε,其中A为系数矩阵,ε为误差,加以影响因子之间互相独立、影响因子与误差互相独立,最终推导得出:∑x=AAT+∑ε,其中∑表示协方差矩阵,从而可以求出A与z。
进一步的,所述模型建立模块包括:
初始模型获取单元,适于将特征集作为集成学习模型GBRT的输入获取初始模型;
训练单元,适于对初始模型进行训练并调整超参数取值从而完成场面滑出时间预测模型的建立
进一步的,所述训练单元,即:
选取最大深度作为控制决策树的控制方式;
选取最小二乘作为损失函数;
最优乘积值下,选择能保持性能稳定下最大的学习率和相应最小的估计器数量;
根据训练集中滑出时间的整体数据分布,设置最小样本划分为200;
完成对初始模型的训练从而建立场面滑出时间预测模型。
进一步的,所述模型建立模块还包括
模型测试单元,适于使用测试集对场面滑出时间预测模型进行验证并进行性能评估。
进一步的,所述模型测试单元中的性能评估采用均方误差,计算公式为:
Figure BDA0002253731690000041
其中N为测试集样本数量,oi为第i个样本的实际滑行时间,pi为模型的预测滑行时间。
本发明的有益效果是,本发明提供了一种基于大数据深度学习的场面可变滑出时间预测***。基于大数据深度学习的场面可变滑出时间预测***包括:数据集建立模块,适于获取历史运行数据并进行数据清洗从而获得数据集;指标定义及量化模块,适于定义并量化场面交通特性的交通状况指标;特征集提取模块,适于基于数据集以及交通状况指标分析和提取影响场面滑出时间的特征集;模型建立模块,适于依据特征集通过集成机器学习方法建立场面滑出时间预测模型,预测模块,适于通过场面滑出时间预测模型完成对机场场面滑出时间的预测。。处理机场原始记录数据,对机场场面交通状况进行建模,分析和提取滑行时间影响因素,训练GBRT集成学习模型,进而得到滑出时间预测模型,为机场运行的管理和优化提供数据依据。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明所提供的基于大数据深度学习的场面可变滑出时间预测***的原理框图。
图2是本发明所提供的滑行过程宏观时空网络拓扑结构。
图3是本发明所提供的候选影响因素与滑出时间的相关性度量相关系数。
图4是本发明所提供的候选影响因素与滑出时间的标准化互信息关系。
图5是本发明所提供的候选影响因素的因子分析结果图。
图6是本发明所提供的模型训练与测试阶段性能变化过程图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
实施例1
如图1所示,本实施例1提供了一种基于大数据深度学习的场面可变滑出时间预测***,处理机场原始记录数据,对机场场面交通状况进行建模,分析和提取滑行时间影响因素,训练GBRT集成学习模型,进而得到滑出时间预测模型,为机场运行的管理和优化提供数据依据。具体的,基于大数据深度学习的场面可变滑出时间预测***包括:
数据集建立模块,适于获取历史运行数据并进行数据清洗从而获得数据集;
指标定义及量化模块,适于定义并量化场面交通特性的交通状况指标;
特征集提取模块,适于基于数据集以及交通状况指标分析和提取影响场面滑出时间的特征集;
模型建立模块,适于依据特征集通过集成机器学习方法建立场面滑出时间预测模型,
预测模块,适于通过场面滑出时间预测模型完成对机场场面滑出时间的预测。
在本实施例中,数据集建立模块包括:
原始数据集获取单元,适于获取历史运行数据构建原始数据集。
具体的,从机场场面运行数据库中尽可能多的提取数据,构成机场航班离港运行原始数据集。收集滑行轨迹相关信息,包括离港跑道、离港停机位、走廊口编号、滑行长度等;收集航班属性相关信息,包括航班号、航班类型、机型、所属航司、引擎类型等;收集交通管制相关信息,包括是否受限、管制员信息、通话信息、延误情况、本场气象、机场通播等;收集飞行计划相关信息,包括起飞机场、目的机场、计划起飞时间、计划撤轮档时间、航路点信息等;收集滑行过程实录信息,包括撤轮档时间、推出时间、请求/许可开车时间、实际起飞时间、滑行速度、跑道头等待时间等。
数据清理单元,适于对原始数据集进行数据清理。
具体的,考虑机场实获数据集的情况,为实际工作制定具体的处理方案。在缺失值处理方面,采用设置默认缺省值和直接删除两种方法。设置默认缺省值,为“是否受限”设置默认缺省值“否”,为“受限内容”设置默认缺省值“无”。在默认缺省值填充完毕后,直接删除了信息缺失超过半数的属性,包括“请求开车”、“许可开车”、“撤轮挡时间”、“尾流”、“滑行速度”、“离场排队数”。之后,对数据集进行完备性检查,删除缺失信息的数据条目。在异常值处理方面,首先对所有属性的数据进行数据类型和是否越界的基本检查,再采用定界检测法对部分属性进一步检查异常值。基于机场场面运行实际情况为属性划定取值范围,将取值不在对应范围内的数据视作异常值。最后从数据集中删除含有异常值的数据条目。属性取值范围如下表所示。
部分属性的取值范围
Figure BDA0002253731690000071
Figure BDA0002253731690000081
数据集获取单元,适于将原始数据集进行数据集成获取数据集。
具体的,本步骤包含冗余属性识别、数据类型转换以及逻辑错误检验的工作。识别并删除冗余属性,通过计算各属性的信息熵识别携带信息较少的冗余属性,通过计算属性间的互信息识别信息被其他属性包含的冗余属性。删除了冗余属性“起飞机场”、“执行日期”。转换数据类型,将非数值型属性中仅具标识作用的信息转换为易于后续处理和使用的整数值型。“受限内容”属性包含的信息难以量化,综合考虑后予以删除。检查逻辑错误,考虑各特征的物理意义,建立特征间的约束关系,排除逻辑错误。检查机型与引擎数量的对应关系,检查场面运行中各时间节点的先后关系,直接删除存在逻辑错误的信息条目。
数据集划分单元,适于将数据集分为训练集以及测试集。
具体的,数据集被划分为两个部分,分别是训练集和测试集。其中90%的数据为训练集用于模型的训练阶段,而10%的数据作为测试集被用于验证模型有效性和鲁棒性。”也就是说,训练集与测试集是同源同性质的。在得到最终处理好的数据集之后,在机器学习模型训练之前,从数据集中预留10%用作测试,将数据集中的剩下90%当做训练集训练机器学习模型。
在本实施例中,指标定义及量化模块包括:
网络拓扑结构获取单元,适于采用宏观时空网络拓扑模型,对机场场面运行交通态势进行建模获取宏观时空网络拓扑结构;
具体的,采用宏观时空网络拓扑模型,对机场场面运行交通态势进行建模。图2可视化了在任何时空域下离港和进港的滑行过程中网络拓扑的一般情况。在机场场面的实际运行中,滑入和滑出的过程是相互耦合、相互依存的。因此,在模型中同时考虑到进港对出港过程的影响。时空网络拓扑模型是描述机场***宏观资源流动的通用框架,如图2所示,离港d1,...,d4表示与参考离港航班d0的所有四种不同关系,分别是“推出前,起飞前”、“推出前,起飞后”、“推出后,起飞前”以及“推出后,起飞后”。相似地,进港a1,...,a4表示与参考进港航班a0的所有四种不同关系,分别是“落地前,到位前”、“落地前,到位后”、“落地后,到位前”以及“落地后,到位后”。ton,tin表示参考进港航班a0的落地时间和到位时间。tout,toff表示参考离港航班的推出时间和起飞时间。δ表示进港和离港的时间阈值。
量化单元,适于基于宏观时空网络拓扑结构,定义体现场面交通量的四类指标并进行量化。
具体的,基于宏观时空网络拓扑结构,定义了体现场面交通量的四类共八个指标。这四类分别是场面瞬时流量指数(SIFIs)、场面累积流量指数(SCFIs)、飞机排队长度指数(AQLIs)和槽资源需求指数(SRDIs)。每个类别中计算两个统计量,分别是离港航空器的数量(前缀为D-)和进港航空器的数量(前缀为A-)。下表显示了以d0为参考离港航班在图2情况下的各种统计量。
离港航班d0场面交通态势指标统计结果
Figure BDA0002253731690000091
以图2为例,下面详细介绍了表1中指标的定义和计算方法。对于任何离场航班d0,SIFIs包括D-SIFI和A-SIFI,分别表示当d0从登机口推出时,滑行离港和进港的航班数量。SCFIs包括D-SCFI和A-SCFI,分别表示离港和进港航空器的滑行周期与d0滑行周期重叠的数量。AQLIs包括D-AQLI和A-AQLI,分别表示d0整个滑行过程中在跑道上的起飞和降落的航空器数量。SRDIs包括D-SRDI和A-SRDI,表示在航空器d0的离港槽[t0-δ,t0+δ]期间推出和降落航空器的数量。一般来说,δ的取值可以设置为10分钟到30分钟之间。
在本实施例中,特征集提取模块包括:
原始特征集提取单元,适于从数据集以及交通状况指标提取影响场面滑出时间的特征并构成原始特征集。
具体的,对数据集建立模块以及指标定义及量化模块获取的影响场面滑出时间的相关因素进行整理,构成原始特征集。处理原始特征集,从原始特征中提取新特征替换原始特征集中的部分特征。
数据集建立模块获取的影响场面滑出时间相关因素为:航班号、航班属性、目的机场、计划起飞时间、机型、所属航司、推出时间、实际起飞时间、离港跑道、离港停机位、停机位类型、引擎类型、走廊口、是否受限、登机口。S120获取的影响场面画出时间相关因素为:D-SIFI、D-SCFI、D-AQLI、D-SRDI、Corridor_NO。使用推出时间与实际起飞时间之差作为场面滑行时间,替代原特征。从计划起飞时间中提取月、日、周、小时、分钟新特征替代原特征。对停机位、登机口特征进行进一步划分和分析。提取跑道与机位/登机口的对应关系作为新特征。最终获取的原始特征集即候选影响因素如下表所示:
候选影响因素
Figure BDA0002253731690000111
特征分析单元,适于对原始特征集中的特征进行特征分析
特征集构建单元,适于依据特征分析结果构建特征集。
具体的,基于特征分析单元的分析结果,从原始特征集提取单元形成的原始特征集中选出重要特征,构成用于集成机器学习模型的特征集。筛除部分与场面滑行时间相关性较小的特征。包括“引擎类型”、“停机位类型”、“月”、“周”、“日”、“分钟”。最终获取的特征集即影响因素如下表所示:
最终选取的影响因素
Figure BDA0002253731690000121
在本实施例中,特征分析单元包括:
采用相关性度量相关系数、标准化互信息以及因子分析三者中的一种或多种对原始特征集重的特征进行特征分析,图3、图4、图5分别展示了候选影响因素与滑出时间的Pearson相关系数、候选影响因素与滑出时间的标准化互信息以及候选影响因素的因子分析结果。
相关性度量相关系数反映两个变量线性相关程度的统计量,其取值为[-1,1],绝对值越大表示线性相关程度越强,正值表示正相关,负值表示负相关,用X、Y代指任意两个变量,相关性度量相关系数PX,Y的定义为:
Figure BDA0002253731690000122
其中Cov(X,Y)为X与Y的协方差,σX、σY为X、Y的标准差,μX、μY为X、Y的均值;
标准化互信息是常用相关度量其取值范围为[0,1],值越大表示变量间的相关程度越大,标准化互信息UX,Y的定义为:
Figure BDA0002253731690000131
其中,IX,Y为X、Y的互信息,HX、HY为X、Y各自的信息熵,p(x,y)为X、Y的联合概率分布,p(x)、p(y)为X、Y各自的概率分布
因子分析,即,提取到的特征x是完全被潜在影响因子z控制的,表达式为=Az+ε,其中A为系数矩阵,ε为误差,加以影响因子之间互相独立、影响因子与误差互相独立,最终推导得出:∑x=AAT+∑ε,其中∑表示协方差矩阵,从而可以求出A与z。
在本实施例中,模型建立模块包括:
初始模型获取单元,适于将特征集作为集成学习模型GBRT的输入获取初始模型;
训练单元,适于对初始模型进行训练并调整超参数取值从而完成场面滑出时间预测模型的建立。
在本实施例中,训练单元,即:选取“最大深度”作为控制决策树的控制方式;选取“最小二乘”作为损失函数;最优乘积值下,选择能保持性能稳定下最大的学习率和相应最小的估计器数量;根据训练集中滑出时间的整体数据分布,设置最小样本划分为200;完成对初始模型的训练从而建立场面滑出时间预测模型。
具体的,采用集成学习的典型代表GradientBoostedRegressionTrees(GBRT)模型来完成场面滑出时间的预测操作。将步骤S133所获的特征集作为模型的输入,通过执行scikit-learn库中的算法快速训练GBRT模型。需要设置的超参数有:决策树大小控制、损失函数类型、估计器个数与学习率以及最小样本划分。在控制决策树大小上,共有两种方式选择,分别是“最大深度(max_depth)”和“最大叶子结点个数(max_leaf_nodes)”。在回归任务中共有四种可选损失函数,分别是“最小二乘(ls)”、“最小绝对偏差(lad)”、“Huber损失(huber)”以及“分位数损失(quantile)”。由于学习率和估计器个数是具有高度的相互作用,二者的乘积大致反映迭代训练情况。因此在设置参数的时候,根据经验设置不同的乘积值,并选择在训练集中获得最好性能的乘积值。最小样本划分用于控制叶子节点中样本个数下限,用于提高模型的鲁棒性。总的来说需要根据应用场景的数据条件合理的调整超参数取值。
具体的,GBRT模型F(x)是以下形式的可加模型:
Figure BDA0002253731690000141
其中hm(x)是基函数,通常在boosting的概念下被称为弱学习器,γm是弱学习器对应的权重,M是弱学习器的数量和。GBRT使用固定大小的决策树作为弱学习器。与其他boosting算法思想类似,GBRT贪婪地构建了可加模型:
Fm(x)=Fm-1(x)+γmhm(x)
其中,Fm(x)表示第m次迭代得到的GBRT模型。其中hm(x)由
Figure BDA0002253731690000142
得出。n为训练样本总数,L为选定的损失函数,yi为第i个样本的标签,Fm-1(xi)为第m-1次迭代获取的GBRT模型对第i个样本的预测值,h(xi)为要获取的弱学习器对第i个样本的预测值。而γm
Figure BDA0002253731690000151
得出。n为训练样本总数,L为选定的损失函数,yi为第i个样本的标签,Fm-1(xi)为第m-1次迭代获取的GBRT模型对第i个样本的预测值
最初的模型F0是与问题相关的,对于最小二乘回归,通常选择目标值的平均值。
即,模型未训练状态为
在本实施例中,模型建立模块还包括:
模型测试单元,适于使用测试集对场面滑出时间预测模型进行验证并进行性能评估。
具体的,所述使用测试集对场面滑出时间预测模型进行验证并进行性能评估中的性能评估采用均方误差,计算公式为:
其中N为测试集样本数量,oi为第i个样本的实际滑行时间,pi为模型的预测滑行时间。
在本实施例中,使用MSE监测模型在训练和测试过程中的性能变化,结果如图6所示。最终,MSE在训练集中达到2.5,而在测试集的性能为5.5。尽管训练集和测试集的MSE性能上有一定的距离,但在一定程度上反应了模型的泛化能力。
另一方面,下表比较了测试集不同误差范围内的预测精度情况。在所有测试集中,85.7%的数据集其滑行时间误差在3分钟之内;超过93%的数据,其预测误差在4分钟之间;大约96.5%的数据,其误差在5分钟之内。由上述测试集上的验证结果可知,所设计的数据挖掘模型及算法能够较好的达到实际场面动态滑出时间预测任务的精度要求。
不同误差范围内的测试集精度
误差范围 [-3,3] [-4,4] [-5,5]
精度 85.7% 93.1% 96.5%
综上所述,本发明提供了一种基于大数据深度学习的场面可变滑出时间预测***。基于大数据深度学习的场面可变滑出时间预测***包括:数据集建立模块,适于获取历史运行数据并进行数据清洗从而获得数据集;指标定义及量化模块,适于定义并量化场面交通特性的交通状况指标;特征集提取模块,适于基于数据集以及交通状况指标分析和提取影响场面滑出时间的特征集;模型建立模块,适于依据特征集通过集成机器学习方法建立场面滑出时间预测模型,预测模块,适于通过场面滑出时间预测模型完成对机场场面滑出时间的预测。。处理机场原始记录数据,对机场场面交通状况进行建模,分析和提取滑行时间影响因素,训练GBRT集成学习模型,进而得到滑出时间预测模型,为机场运行的管理和优化提供数据依据。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (9)

1.一种基于大数据深度学习的场面可变滑出时间预测***,其特征在于,包括:
数据集建立模块,适于获取历史运行数据并进行数据清洗从而获得数据集;
指标定义及量化模块,适于定义并量化场面交通特性的交通状况指标;
特征集提取模块,适于基于数据集以及交通状况指标分析和提取影响场面滑出时间的特征集;
模型建立模块,适于依据特征集通过集成机器学习方法建立场面滑出时间预测模型;
预测模块,适于通过场面滑出时间预测模型完成对机场场面滑出时间的预测。
2.如权利要求1所述的基于大数据深度学习的场面可变滑出时间预测***,其特征在于,
所述数据集建立模块包括:
原始数据集获取单元,适于获取历史运行数据构建原始数据集;
数据清理单元,适于对原始数据集进行数据清理;
数据集获取单元,适于将原始数据集进行数据集成获取数据集;
数据集划分单元,适于将数据集分为训练集以及测试集。
3.如权利要求2所述的基于大数据深度学习的场面可变滑出时间预测***,其特征在于,
所述指标定义及量化模块包括:
网络拓扑结构获取单元,适于采用宏观时空网络拓扑模型,对机场场面运行交通态势进行建模获取宏观时空网络拓扑结构;
量化单元,适于基于宏观时空网络拓扑结构,定义体现场面交通量的四类指标并进行量化。
4.如权利要求3所述的基于大数据深度学习的场面可变滑出时间预测***,其特征在于,
所述特征集提取模块包括:
原始特征集提取单元,适于从数据集以及交通状况指标提取影响场面滑出时间的特征并构成原始特征集;
特征分析单元,适于对原始特征集中的特征进行特征分析
特征集构建单元,适于依据特征分析结果构建特征集。
5.如权利要求4所述的基于大数据深度学习的场面可变滑出时间预测***,其特征在于,
所述特征分析单元,即:
采用相关性度量相关系数、标准化互信息以及因子分析三者中的一种或多种对原始特征集重的特征进行特征分析;
相关性度量相关系数反映两个变量线性相关程度的统计量,其取值为[-1,1],绝对值越大表示线性相关程度越强,正值表示正相关,负值表示负相关,用X、Y代指任意两个变量,相关性度量相关系数PX,Y的定义为:
Figure FDA0002253731680000021
其中Cov(X,Y)为X与Y的协方差,σX、σY为X、Y的标准差,μX、μY为X、Y的均值;
标准化互信息是常用相关度量其取值范围为[0,1],值越大表示变量间的相关程度越大,标准化互信息UX,Y的定义为:
Figure FDA0002253731680000031
其中,IX,Y为X、Y的互信息,HX、HY为X、Y各自的信息熵,p(x,y)为X、Y的联合概率分布,p(x)、p(y)为X、Y各自的概率分布
因子分析,即,提取到的特征x是完全被潜在影响因子z控制的,表达式为x=Az+ε,其中A为系数矩阵,ε为误差,加以影响因子之间互相独立、影响因子与误差互相独立,最终推导得出:∑x=AAT+∑ε,其中∑表示协方差矩阵,从而可以求出A与z。
6.如权利要求5所述的基于大数据深度学习的场面可变滑出时间预测***,其特征在于,
所述模型建立模块包括:
初始模型获取单元,适于将特征集作为集成学习模型GBRT的输入获取初始模型;
训练单元,适于对初始模型进行训练并调整超参数取值从而完成场面滑出时间预测模型的建立。
7.如权利要求6所述的基于大数据深度学习的场面可变滑出时间预测***,其特征在于,
所述训练单元,即:
选取最大深度作为控制决策树的控制方式;
选取最小二乘作为损失函数;
最优乘积值下,选择能保持性能稳定下最大的学习率和相应最小的估计器数量;
根据训练集中滑出时间的整体数据分布,设置最小样本划分为200;
完成对初始模型的训练从而建立场面滑出时间预测模型。
8.如权利要求7所述的基于大数据深度学习的场面可变滑出时间预测***,其特征在于,
所述模型建立模块还包括
模型测试单元,适于使用测试集对场面滑出时间预测模型进行验证并进行性能评估。
9.如权利要求8所述的基于大数据深度学习的场面可变滑出时间预测***,其特征在于,
所述模型测试单元中的性能评估采用均方误差,计算公式为:
其中N为测试集样本数量,oi为第i个样本的实际滑行时间,pi为模型的预测滑行时间。
CN201911044358.3A 2019-10-30 2019-10-30 基于大数据深度学习的场面可变滑出时间预测*** Pending CN110852497A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911044358.3A CN110852497A (zh) 2019-10-30 2019-10-30 基于大数据深度学习的场面可变滑出时间预测***
PCT/CN2020/089916 WO2021082394A1 (zh) 2019-10-30 2020-05-13 基于大数据深度学习的场面可变滑出时间预测***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911044358.3A CN110852497A (zh) 2019-10-30 2019-10-30 基于大数据深度学习的场面可变滑出时间预测***

Publications (1)

Publication Number Publication Date
CN110852497A true CN110852497A (zh) 2020-02-28

Family

ID=69599051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911044358.3A Pending CN110852497A (zh) 2019-10-30 2019-10-30 基于大数据深度学习的场面可变滑出时间预测***

Country Status (2)

Country Link
CN (1) CN110852497A (zh)
WO (1) WO2021082394A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021082394A1 (zh) * 2019-10-30 2021-05-06 南京智慧航空研究院有限公司 基于大数据深度学习的场面可变滑出时间预测***
WO2021082393A1 (zh) * 2019-10-30 2021-05-06 南京智慧航空研究院有限公司 基于大数据深度学习的机场场面可变滑出时间预测方法
CN114783212A (zh) * 2022-03-29 2022-07-22 南京航空航天大学 一种繁忙机场航空器离港滑行时间预测模型特征集的构建方法
CN117253584A (zh) * 2023-02-14 2023-12-19 南雄市民望医疗有限公司 一种基于血液透析成分检测的透析时间预测***

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743498A (zh) * 2021-09-02 2021-12-03 美视(杭州)人工智能科技有限公司 一种角膜塑形镜验配okai解决方法
CN117668497B (zh) * 2024-01-31 2024-05-07 山西卓昇环保科技有限公司 基于深度学习实现环境保护下的碳排放分析方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463993A (zh) * 2017-08-04 2017-12-12 贺志尧 基于互信息‑核主成分分析‑Elman网络的中长期径流预报方法
CN108846523A (zh) * 2018-07-31 2018-11-20 中国民航大学 一种基于贝叶斯网的航班离港滑行时间动态预测方法
US20190108758A1 (en) * 2017-10-06 2019-04-11 Tata Consultancy Services Limited System and method for flight delay prediction
US20190316909A1 (en) * 2018-04-13 2019-10-17 Passur Aerospace, Inc. Estimating Aircraft Taxi Times
CN110363361A (zh) * 2019-07-25 2019-10-22 四川青霄信息科技有限公司 一种基于大数据预测可变滑动时间的方法及***
CN110363333A (zh) * 2019-06-21 2019-10-22 南京航空航天大学 一种基于渐进梯度回归树的天气影响下空中通行能力的预测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100185426A1 (en) * 2009-01-16 2010-07-22 Rajesh Ganesan Predicting Aircraft Taxi-Out Times
CN106339358B (zh) * 2016-08-16 2018-11-09 南京航空航天大学 基于多元回归分析的航空器场面滑行时间预测方法
CN106529734A (zh) * 2016-11-18 2017-03-22 中国民航大学 一种基于knn和svr的航班滑出时间预测方法
CN110826788A (zh) * 2019-10-30 2020-02-21 南京智慧航空研究院有限公司 基于大数据深度学习的机场场面可变滑出时间预测方法
CN110852497A (zh) * 2019-10-30 2020-02-28 南京智慧航空研究院有限公司 基于大数据深度学习的场面可变滑出时间预测***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463993A (zh) * 2017-08-04 2017-12-12 贺志尧 基于互信息‑核主成分分析‑Elman网络的中长期径流预报方法
US20190108758A1 (en) * 2017-10-06 2019-04-11 Tata Consultancy Services Limited System and method for flight delay prediction
US20190316909A1 (en) * 2018-04-13 2019-10-17 Passur Aerospace, Inc. Estimating Aircraft Taxi Times
CN108846523A (zh) * 2018-07-31 2018-11-20 中国民航大学 一种基于贝叶斯网的航班离港滑行时间动态预测方法
CN110363333A (zh) * 2019-06-21 2019-10-22 南京航空航天大学 一种基于渐进梯度回归树的天气影响下空中通行能力的预测方法
CN110363361A (zh) * 2019-07-25 2019-10-22 四川青霄信息科技有限公司 一种基于大数据预测可变滑动时间的方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘桂荣等: "《统计学原理 第2版》", 30 June 2019, 华东理工大学出版社 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021082394A1 (zh) * 2019-10-30 2021-05-06 南京智慧航空研究院有限公司 基于大数据深度学习的场面可变滑出时间预测***
WO2021082393A1 (zh) * 2019-10-30 2021-05-06 南京智慧航空研究院有限公司 基于大数据深度学习的机场场面可变滑出时间预测方法
CN114783212A (zh) * 2022-03-29 2022-07-22 南京航空航天大学 一种繁忙机场航空器离港滑行时间预测模型特征集的构建方法
CN117253584A (zh) * 2023-02-14 2023-12-19 南雄市民望医疗有限公司 一种基于血液透析成分检测的透析时间预测***

Also Published As

Publication number Publication date
WO2021082394A1 (zh) 2021-05-06

Similar Documents

Publication Publication Date Title
CN110826788A (zh) 基于大数据深度学习的机场场面可变滑出时间预测方法
CN110852497A (zh) 基于大数据深度学习的场面可变滑出时间预测***
CN107086935B (zh) 基于wifi ap的人流量分布预测方法
CN111401601B (zh) 一种面向延误传播的航班起降时间预测方法
CN110503245B (zh) 一种机场航班大面积延误风险的预测方法
CN104156594B (zh) 一种基于贝叶斯网的航班过站时间动态估计方法
CN110570693B (zh) 一种基于可靠性的航班运行时间预测方法
Choi et al. Artificial neural network models for airport capacity prediction
CN108710623A (zh) 基于时间序列相似性度量的机场离港延误时间预测方法
CN106339358B (zh) 基于多元回归分析的航空器场面滑行时间预测方法
CN110060513A (zh) 基于历史轨迹数据的空中交通管制员工作负荷评估方法
CN113706931B (zh) 空域的流控策略推荐方法、装置、电子设备及存储介质
CN111160612A (zh) 一种基于天气影响的离场航班延误分析及预测方法
CN110796315B (zh) 基于时效信息和深度学习的离港航班延误预测方法
Provan et al. A probabilistic airport capacity model for improved ground delay program planning
CN112419131A (zh) 交通起讫点需求估算方法
CN116956757A (zh) 出港航班滑行时间预测方法、电子设备和存储介质
CN113610282A (zh) 航班滑行时间预测方法
CN115752708A (zh) 一种基于深度时间卷积网络的机场单点噪声预测方法
CN116911434A (zh) 一种机场运行态势预测方法、装置、***以及存储介质
CN112365037A (zh) 基于长短期数据预测模型的机场空域流量预测方法
CN110009939B (zh) 基于asm的航班延误预测及波及分析方法
CN115759386B (zh) 一种民航航班执飞结果预测方法、装置及电子设备
CN116109212A (zh) 一种机场运行效率评价指标设计及监测方法
Meijers Data-driven predictive analytics of runway occupancy time for improved capacity at airports

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200228

RJ01 Rejection of invention patent application after publication