CN109816010A - 一种用于航班延误预测的基于选择性集成的cart增量学习分类方法 - Google Patents

一种用于航班延误预测的基于选择性集成的cart增量学习分类方法 Download PDF

Info

Publication number
CN109816010A
CN109816010A CN201910052118.1A CN201910052118A CN109816010A CN 109816010 A CN109816010 A CN 109816010A CN 201910052118 A CN201910052118 A CN 201910052118A CN 109816010 A CN109816010 A CN 109816010A
Authority
CN
China
Prior art keywords
classifier
base classifier
base
cart
kappa
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910052118.1A
Other languages
English (en)
Inventor
王丹
王萌
赵文兵
杜金莲
付利华
杜晓琳
苏航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910052118.1A priority Critical patent/CN109816010A/zh
Publication of CN109816010A publication Critical patent/CN109816010A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种用于航班延误预测的基于选择性集成的CART增量学习分类方法。针对航班延误预测模型面对新的航班数据不能有效更新模型问题,以及集成分类器规模庞大影响预测性能的弊端。将CART决策树算法与Learn++增量学习框架结合,提出了I‑CART方法,实现了对于新数据的增量学习,高效更新预测模型;采用kappa系数作为基分类器投票权重,进一步降低分类错误率;探究基分类器间差异性与准确率关系,设计了两种针对集成分类器的选择方案VS(纵向划线法)与HS(横向划线法),减小集成分类器规模。本发明能够提高航班延误预测模型对于新数据的学习效率及分类性能,提出的选择性集成方案能显著减小最终集成分类器的规模,提高航班延误预测分类器性能。

Description

一种用于航班延误预测的基于选择性集成的CART增量学习分 类方法
技术领域
本发明属于计算机软件领域,尤其涉及一种用于航班延误预测的基于选择性集成的CART增量学习分类方法。
背景技术
根据美国航空数据网站Flightstats列出的2018年全球航空公司延误率排名最低的前40家航空公司中,中国平均排名25,平均航班准点率约为71.13%,平均延误时长约为62.4分钟。中国民航公司公布的2017年航班数据统计为平均航班准点率约为71.67%,平均延误时长约为24分钟,2016年航班数据统计为平均航班准点率约为76.54%,平均延误时长约为16分钟。可见我国航班延误问题十分严重,且形势逐年严峻。航班延误预测可使相关部门提前知晓可能延误的时间,做好应对措施并进行航班计划的优化;对于出行者也可根据预测结果适当调整自己的行程,缓解由于航班延误带来的各方面压力。因此对于航班延误预测的研究具有重要的现实意义。
国内外已有大量学者投入到航班延误预测的研究工作中,目前有针对机器学习算法的选择的研究,比较贝叶斯分类法与决策树分类算法在航班延误预测的表现;有将航班数据与气象数据融合提取更多的特征进一步提高预测准确率的研究;有为更好的分析航班数据搭建大数据处理***的设计。关于航班预测的进一步研究有学者提出,对于航班预测而言,获取最新的信息并加入到预测中,会对预测准确度有更大的提升,因为在航班信息中,越新的信息意味着价值越大,例如前航班延误时间、机场天气情况。
在航班信息领域,不仅每天都会有大量新的数据产生,且历史数据高达千万条,如果使用传统机器学习算法训练模型,当有新数据到来时,需要将新数据与历史数据放在一起,重新执行学习算法训练新的模型。一方面,由于数据量大使得学习更加困难,另一方面,会浪费很多的时间以及存储空间,为了学习新信息需要将之前已经学习过的数据再重新学习一遍,导致了时间的浪费;且需要大量的存储空间保存大量历史数据,因为传统机器学习算法在学习新信息时必须要再次对历史数据进行学习。而增量学习与传统机器学习算法相比拥有更多的优势,一方面,能够保留之前学习的知识,节省了大量再次学习的时间;另一方面,由于学习新信息时不需要再访问历史数据,因此不用对历史数据进行保存,节省很多存储空间。因此提出一种基于CART决策树的增量学习方法,并针对增量学习方法中存在的基分类器投票权重非客观公正问题,与随着数据的不断增加,最终集成分类器规模庞大问题进行了探究并提出了创新性的解决方案。
增量学习技术是一种比较智能的知识发现和数据挖掘技术,在很多方面都得到了普及。当面临新数据时传统机器学习只能抛弃现有模型,利用静态历史数据集重新训练模型,而增量学习可以在学习新知识的同时不遗忘之前过学习的知识,像人类学习过程一样,逐步更新迭代知识架构,使得分类器性能不断增强。增量学习与传统机器学习相比较,具有增量学习能力的分类技术优势主要体现在节省时间和存储空间两个方面:一方面可以保存之前历史数据学习到的模型,只需要再对新增样本进行学习就可以了,所以节省了很多时间,另一方面是之前学习过的历史数据不需要再进行保存,会节省大量存储空间。
实现增量学习算法的方式有两种,一种方式是对本不能够增量处理数据的学习算法进行改造,使其有能力处理新到来的数据。例如:神经网络算法改造、SVM支持向量机算法改造、KNN最近邻算法改造等。第二种方式是采用多分类器集成思想实现增量学习,使得算法具备增量学习的能力。集成式增量学习方式的代表算法之一是Learn++算法,一种基于AdaBoost(adaptive boosting)思想和监督学习的集成式增量学习框架;以及演化神经网络ENN(Evolved Neural Network)算法;还有SONG算法,此算法是一种基于SGNT(Self-Generating Neural Networks)算法的增量集成方法。
Learn++算法具有以下优势,优势一,提供了与传统机器学习相结合的机制,不必依赖于特定的分类算法;优势二,不易发生过拟合现象;优势三,算法参数设置简单,容易达到较好的分类效果。
Learn++算法投票权重问题分析如下,Learn++算法是一个基于AdaBoost(Adaptive Boosting)算法思想的增量学习框架。AdaBoost算法最终模型的基分类器投票权重由分类错误样本的权重构成。由于算法多次迭代后,难以分类的样本权重将被放大,使得集成分类器的分类性能降低。Learn++算法中会出现同样的问题,由于分类困难样本权重过大,基分类器在这些样本区域上的表现,将成为基分类器投票权重大小的决定性因素。从而引发以下两种权重问题:基分类器对分类困难样本分类正确时,会被赋予较大的投票权重,但对于分类困难样本之外的区域该基分类器不能保证同样好的分类性能,但最终加权集成时仍然会有较大的权重,导致最终判别错误;基分类器对几个权重过大的分类困难样本不能正确分类时,基分类器就会被给予较小的投票权重,由于分类困难样本的权重大,此时会忽略基分类器对其他样本的分类性能,将整体分类效果还不错的分类器给予较小的投票权重,无法在最终加权集成时发挥作用。
Kappa系数是一种常用在医学检测方面的统计数据,在诊断实验中,研究者为验证不同诊断方法的诊断结果是否具有一致性,通常借助Kappa系数有效地度量这种一致性。Kappa系数是一种度量测量结果一致性的统计量,因此可以度量分类结果与真实类别标签的一致性,客观公正的评价分类器效果。
增量学习算法最终生成的集成分类器规模庞大问题分析如下,Learn++算法采用的是多分类器集成思想实现增量学习,因此,随着数据的不断增加,增量学习算法的运行,基分类器的个数不可避免的增多,导致最终集成分类器规模庞大,占据过大储存空间,预测速率下降,甚至一些冗余的、性能不好的基分类器对分类性能产生负面影响。针对上述情况,根据我国学者Zhou等人提出的“选择性集成”思想,仅选择一些性能较好的基分类器进行集成,以便获取更优的分类性能。考虑到集成分类器间的差异性和准确性对最终判定效果会产生极大的影响,以及目前增量学习对集成学习算法对于基分类器间的差异性与准确性间的关系仍有很大的研究空间。
综上,为解决航班延误预测模型面对海量航班数据在学习新数据时存在的重复学习浪费大量时间,以及为存储历史数据占据大量内存空间的问题,本发明提出将CART决策树与Learn++增量学习框架结合的增量学习方法I-CART(Incremental Classificationand Regression Decision Tree),以提高航班延误预测模型学习新数据的效率,提高航班延误预测模型的预测性能。又由于I-CART增量学习算法中基分类器的投票权重会导致最终集成分类器的分类错误,降低分类性能,本发明提出采用kappa系数作为基分类器的投票权重的I-CART.kappa方法,客观公正的为基分类器给予投票权重,提升分类器分类性能。对于集成分类规模庞大的问题,根据选择性集成的思想,充分考虑基分类器间差异性与准确率的关系,发明了两大类选择方案,提出了最终的基于选择性集成的CART增量学习分类方法——I-CART.kappaS方法,有效的减小了集成分类器的规模,提高了模型的预测性能。
发明内容
本发明的内容:
①提出了一种基于选择性集成的CART增量学习分类方法,该方法不仅可以有效提高航班延误预测模型对于新数据的学习效率,而且能够显著减小集成分类器的规模,提高分类器的预测性能及预测效率。
②将CART决策树算法与Learn++增量学习框架结合,提出了I-CART方法,实现了对于新数据的增量学习,提高了航班延误预测模型对于新数据的学习效率及分类性能。
③采用kappa系数代替分类错误样本的权重之和作为I-CART方法中基分类器的投票权重。避免分类错误样本的过大权重影响基分类器投票权重的客观性,客观公正的给予基分类器投票权重,降低分类错误率,进一步改善I-CART方法。
④基于基分类器间差异性与准确率关系,有选择的集成差异性大且准确率高的基分类器,本发明提出了两类选择方案VS(纵向划线选择法)与HS(横向划线选择法),应用到改进的I-CART方法,显著减小了最终集成分类器的规模,提高了集成分类器分类性能。
为达到以上发明目的,经过研究讨论和反复实践,本方法确定最终方案如下:
将CART决策树算法与Learn++增量学习框架结合,构造I-CART方法。实现对于新数据的增量学习,节省分类模型训练时间,有效利用新信息,提高分类性能。在为集成分类器中的基分类器设置投票权重时,采用kappa系数代替分类错误样本的权重之和作为I-CART方法中基分类器的投票权重。避免分类错误样本的过大权重影响基分类器投票权重的客观性,客观公正的基于基分类器投票权重,降低分类错误率。从最终生成的集成分类器中,按照提出的选择性集成方案利用合适的选择方案,选择差异性大且准确率高的基分类器集成到最终分类器中,也就是,将选择性集成方案加入到改进后的I-CART算法中,显著减少了最终集成分类器的规模,提高了集成分类器分类性能。
为实现上述目的,本发明采用如下的技术方案:
一种用于航班延误预测的基于选择性集成的CART增量学习分类方法,包括以下步骤:
步骤1.将航班数据集,划分为K个子数据集(通常情况下等分),作为每次迭代的数据集,每个子数据集可以视为新增的数据集。设置迭代次数Tk,以提高集成分类器的泛化性。最终基分类器个数N,N=K*Tk。设置选择基分类器的个数SN,根据实际需求及观察分类效果,设定SN,一般为1/3N~1/2N,此处为选择性集成方案的要求。并将CART决策树算法作为基础学习算法。
步骤2.执行改进后I-CART方法,迭代调用基础学习算法生成基分类器。在每个基分类器生成后,计算基分类器的kappa系数,作为基分类器的投票权重保存。Kappa系数能够客观公正的给予基分类器的分类效果给予评价,将其作为投票权重进一步提高分类性能。
步骤3.迭代完成后,N个基分类器已经全部生成。采用合适的选择性集成方案VS(纵向划线选择法)或HS(横向划线选择法),从所有的基分类器中选择SN个基分类器,组成最终的集成分类器。经过选择性集成后可显著减少集成分类器中基分类器的个数,减小集成分类器的规模,提升分类性能。
步骤4.采用加权投票法将选择后的基分类器进行组合,kappa系数作为投票权重,最终票数最多的类别作为最终分类,得到航班延误预测结果。
附图说明
图1基于选择性集成的CART增量学习分类方法方案图
图2 I-CART方法流程图
图3基于选择性集成的CART增量学习分类方法流程图
图4选择性集成方案VS(纵向划线选择法)示意图
图5选择性集成方案HS(横向划线选择法)示意图
具体实施方式
本发明将CART决策树算法与Learn++算法结合,提出实现增量学习的I-CART方法,高效的学习航班新信息,提高对于航班延误的预测准确率;采用kappa系数作为集成分类器的投票权重,优化增量学习算法,最后进行选择性集成基分类器,实现基于选择性集成的CART增量学习分类方法,减小集成分类器规模,提高预测速率和分类准确率。为航班延误预测分类模型发明了具有强分类性能的集成学习方法。
图1可以分解为本发明的几个步骤。
步骤一,将航班数据集划分为K个子数据集,可以视为不断增加的新数据;
步骤二,将K个子数据集输入到该方法,执行改进后的I-CART方法,首先借助CART决策树算法,在每个子数据集上迭代Tk次(Tk>0,一般设置为3~5)生成Tk个基分类器,并计算基分类器的kappa系数保存。由于有K个子数据集,在每个子数据集上迭代了Tk次,因此最终I-CART算法会生成N(N=K*Tk)个基分类器。
步骤三,迭代完成后,N个基分类器已经全部生成,进入选择性集成方法。利用发明的基于基分类器间差异性与准确性关系的选择性方案,从中N个基分类器中选择SN(SN>0&&SN<=N,SN一般设置为1/2N~1/3N,SN太大或太小都没有意义)个基分类器加入到集成分类器中。
步骤四,将kappa系数作为基分类器投票权重组合基分类器得出最终分类结果,票数最高的类别为样本分类类别。
也可将基于选择性集成的CART增量学习分类方法分为两大部分,一部分是改进后的I-CART增量学习方法,即采用kappa系数作为投票权重用的I-CART增量学习方法;另一部分为选择性集成方案VS(纵向划线选择法)和HS(横向划线选择法),将选择性集成方案加入到改进后的I-CART算法即为本发明。因此,下面分别针对这两部分的实施进行具体介绍。
一、I-CART增量学习方法及投票权重的改进
1.1I-CART增量学习方法
I-CART增量学习方式是将CART决策树算法与Learn++增量学习框架结合,使得CART算法具备增量学习的能力。由于CART在航班延误预测分类上有较有优秀的表现,但不具备增量学习的能力。而I-CART增量学习方法在面对新增数据集时,可以不遗忘已经学习过的知识,在已有知识的基础上学习新的数据,提高学习效率,增强分类性能。
I-CART增量学习实现增量学习主要依赖于Learn++增量学习算法。Learn++通过将历史数据转化为基分类器保留下来,实现不遗忘已经学习过的知识;通过利用新数据训练新的基分类器来学习新的知识。不仅仅是对新数据的学习,更重要的是对于新的类别的学习。Learn++为每个子数据集维持一组样本权重w,权重决定样本被选入训练集的概率。每次迭代后,用现有集成分类器测试数据集,并更新样本权重,使得分类错误的样本的权重增加,而已经分类正确的样本权重降低,以此来增大分类错误样本选中到训练集的概率,使得分类器更加关注于难以分类的样本。如果有新的类别出现,那么一定会被现有的分类器分类错误,成为分类错误的样本,这样就会使得学习算法关注这些具有新类别的样本,实现对新类别的学习。
I-CART增量学习方法变量含义及具体设置为:(1)基础学习算法设置为CART算法,由此生成基分类器。(2)并输入K份子数据集,k表示第k个子数据集,k=1,2,…,K。(3)子数据迭代次数Tk,Tk>0,一般设置为3~10,t表示每一次迭代,t=1,2,…,Tk。(4)以及生成的基分类器的个数的记录count,初始化count=0。(5)wt表示一组样本的权重。(6)Hcount表示拥有count个基分类器的集成分类器。(7)kappa表示基分类器的kappa系数(8)betak表示基分类器的投票权重;(9)Hfinal表示最终集成分类器。
具体步骤为:该方法中有两层循环,外层循环是对子数据集的遍历,可以视为不断增加的数据集,以此来保证该算法可以接纳新增数据集;内层循环是生成具有差异性基分类器。
首先,开始外层循环对于子数据集的遍历K次:
步骤1:当k=1时,初始化样本权重w1=1/m,m表示子数据集中样本的个数;当k>1时,也就是从第二个子数据集开始(因为k=1时没有任何基分类器组成Hcount),会根据Hcount对新数据的评价更新样本权重w1,使得训练样本中包含难以分类的样本,促使新的基分类器更多的学习这些样本
开始内层循环对于每个子数据集的迭代Tk次,t表示第t次迭代:
步骤2:为保证wt能够作为一种分布,根据样本权重wt构造训练数据集。
步骤3:调用CART学习算法,用步骤2中生成的训练数据集训练得到基分类器Ct
步骤4:计算基分类器Ct的投票权重beta。
步骤5、6:将现有基分类器集成Hcount,根据Hcount对子数据集的评价,更新样本权重wt
步骤7:加权投票集成最终集成分类器Hfinal
如图2所示,“Hcount评价数据集,更新样本权重w”模块是增量学习的核心部分。每次子数据集k的迭代可以视为新数据的加入,表示现有模型可以学习新的数据。接下来是,“k>1”的判断,当k>1时,会进入“Hcount评价数据集,更新样本权重w”。此操作为Learn++能够学习到新类别的关键,用现有分类器评价加入的新数据,分类错误的样本权重将会增加,已经正确分类的样本权重降低,而那些包含新的类别的样本,一定在分类错误的样本中,因此会有更大的概率被选中到训练集中。
将CART算法作为基础学习算法输入到Learn++算法中,构造I-CART增量学习方法,实现增量学习。方法具体步骤如方法1:
1.2投票权重的改进
I-CART增量学习方法步骤4为计算基分类器的投票权重,公式为log((1-εt)/εt),实际含义是基分类器Ct在子数据集分类错误样本的权重之和,以此作为基分类器会出现的问题,在Learn++算法投票权重问题已经解释,不再赘述。改进为以基分类器的kappa系数作为投票权重,将I-CART增量学习方法步骤4投票权重betak改为kappa系数的计算方法,且步骤7中最终集成时投票权重改为kappa值,如方法1中*号部分所示。基分类器的kappa系数计算方法如方法2:
二、选择性集成方案
对于最终集成分类器规模庞大问题,依据选择性集成的思想,对基分类器间差异性与准确性的关系进行探究,差异性评价指数为基分类器间的kappa系数,准确性的评价系数为基分类器间的平均错误率error。kappa系数越小表示差异性越大,error越低表示准确性越高,本发明充分考虑基分类器间的差异性与准确性的关系,从不同方面对两者进行取舍和平衡,设计了两种选择方案选择性集成方案VS(纵向划线法)和选择性集成方案HS(横向划线法),这是两种并列的方法,执行仅需要选择其中一种即可。进行选择集成,可大大减少基分类器个数,同时提升集成分类器分类性能。两个基分类器间的kappa系数,计算方法如方法3。
2.1选择性集成方案VS(纵向划线选择法)
图3为将所有的各不相同的基分类器两两间产生的kappa值与error绘制而得,x轴为kappa值,y轴为error。如果不考虑差异性与准确性的关系,从差异性最大的基分类器开始选择,从图中会发现差异性大的基分类器错误率极高,并不符合选择性集成的思想。因此为兼顾两者,也要保证基分类器的准确性,垂直于x轴的直线右边的基分类器对应的error值普遍小于左边,因此从直线处开始向右进行选择性集成,保证基分类器的精确度。
选择性集成方案为图1“选择性集成”部分,此部分是在所有的基分类器训练完成后才进行的。参数意义与具体设置如下:此选择方案需要增加参数begin,以此来保证基分类器的精确度。N表示I-CART算法中产生的基分类器的个数,即K*Tk。SN表示选择基分类器的个数,SN>0&&SN<=N,SN一般设置为1/2N~1/3N,SN太接近N对于减小集成分类器的规模效果不明显,太小无法满足集成的目的。HfinalH表示用选择后的基分类器组成的集成分类器。hi、hj表示不同的基分类器,i≠j,i,j=1,2,...,N。执行过程如下:
步骤1:不重复的计算所有基分类器两两间的kappa系数与平均错误率error,并存储到数组kappa和数组error;步骤2:将kappa数组升序排序,得到对应的基分类器序号,保证从差异性最高的基分类器中选择;步骤3:设置开始进行选择的序号位置begin,一般为kappa值个数的n倍的位置,n一般取值1/2或1/3,即并不是从kappa值最小的基分类器开始集成,而是放弃一定的差异性可以保证较高的精确度;步骤4:从begin开始依次选择基分类器加入到集成分类器中,直到基分类器的个数达到SN。步骤5:使用选择出的SN个基分类器采用加权投票集成最终集成分类器HfinalS。具体选择方法如方法4:
2.2选择性集成方案HS(横向划线选择法)
图4为将所有的基分类器两两间产生的kappa值与error绘制而得,x轴为error,y轴为kappa值。如果不考虑差异性与准确性的关系,从错误率最低的基分类器开始选择,从图中会发现错误率低的基分类器差异性极小,并不符合选择性集成的思想。因此为兼顾两者,需要控制基分类器的差异性,从指定kappa阈值以下的基分类器中选择具有最大精确度的基分类器进行集成,如图4所示垂直于y轴的直线以下的区域中选择,保证了基分类器间的差异性。
选择性方案部分为图1“选择性集成”部分,与VS任选其一即可。参数意义与具体设置如下:该选择方案需要增加参数threshold代表差异性的阈值,以此来控制差异性。N表示I-CART算法中产生的基分类器的个数。SN表示选择基分类器的个数,SN>0&&SN<=N,SN一般设置为1/2N~1/3N,SN太接近N对于减小集成分类器的规模效果不明显,太小无法满足集成的目的。HfinalH表示用选择后的基分类器组成的集成分类器。IndexH表示基分类器序号。hi1、hj1表示不同的基分类器,i1≠j1,i1,j1=1,2,...,N。执行步骤如下:
步骤1:不重复的计算所有基分类器两两间的kappa系数与平均错误率error,并存储到数组kappaH和errorH;步骤2:设定阈值threshold,将其设为所有kappa系数的平均值,设置平均值比设定某个固定的阈值更具有动态性,能更好的适应具体情况;步骤3:将errorH数组升序排序,得到对应的基分类器序号,保证从精确率最高的基分类器中选择;步骤4:开始进行选择的序号位置为beginH,设定为第一个kappaH(IndexH)<threshold的序号位置,此步骤为节省选择时间设计,不需要再去依次比较;步骤5:从beginH开始选择基分类器,满足条件kappaH(IndexH)<threshold的基分类器加入到集成分类器中,直到基分类器的个数达到SN;步骤6:使用选择出的SN个基分类器采用加权投票集成最终集成分类器HfinalS
具体选择方法如方法5:
如图3,选择合适的选择方案加入到改进后的I-CART方法中,实现基于选择性集成的CART增量学习分类方法。
实验及结果:
实验使用数据为美国交通运输***(Bureau of Transportation Statistics,BTS)提供的航班准时表现数据(Airline On-Time Performance Data,AOTP),纽约2017年8月份的全部航班数据45853条,剔除不可用样本573条,实验使用样本45280条。
实验设置,训练数据集43016,测试数据集2264,K=20,Tk=5,由K*Tk可得N=100。选择性集成方案为HS(横向划线法),SN=50。
实验结果,数据集在C4.5方法、CART方法、I-CART方法的学习新数据的时间(s)如下表:
I-CART方法比CART方法节省时间约70%。I-CART方法正确率为88.2%,改进后I-CART方法正确率为89.5%,改进后I-CART方法与I-CART方法相比错误率降低1.3%,基于选择性集成的CART方法基分类器个数比I-CART方法减少50个,因此集成分类器规模缩小50%,有效减小了集成分类器的规模,且正确率为90.2%,分类性能提升2.0%。本发明能够实现航班信息的增量学习,且进一步提高了航班延误预测模型的分类性能。

Claims (4)

1.一种用于航班延误预测的基于选择性集成的CART增量学习分类方法,其特征在于,包括以下步骤:
步骤1.将航班数据集,划分为K个子数据集,作为每次迭代的数据集;设置迭代次数Tk,基分类器个数N,N=K*Tk。设置选择基分类器的个数SN,SN为1/3N~1/2N;
步骤2.迭代调用基础学习算法生成基分类器;在每个基分类器生成后,计算基分类器的kappa系数,作为基分类器的投票权重保存;
步骤3.迭代完成后,所有基分类器已经全部生成;采用纵向划线法VS或横向划线法HS,从所有的基分类器中选择SN个基分类器,组成最终的集成分类器;
步骤4.采用加权投票法将选择后的基分类器进行组合,kappa系数作为投票权重,最终票数最多的类别作为最终分类,得到航班延误预测结果。
2.根据权利要求1所述的学习分类方法,其特征在于,改进后的I-CART方法具体为:
改进后的I-CART方法变量含义及具体设置为:(1)基础学习算法设置为CART算法,由此生成基分类器;(2)并输入K份子数据集,k表示第k个子数据集,k=1,2,…,K;(3)子数据迭代次数Tk,Tk>0,设置为3~10,t表示每一次迭代,t=1,2,…,Tk;(4)以及生成的基分类器的个数的记录count,初始化count=0;(5)wt表示一组样本的权重;(6)Hcount表示拥有count个基分类器的集成分类器;(7)kappa表示基分类器的kappa系数(8)betak表示基分类器的投票权重;(9)Hfinal表示最终集成分类器。
具体步骤为:有两层循环,外层循环是对子数据集的遍历,视为不断增加的数据集;内层循环是生成具有差异性基分类器。
首先,开始外层循环对于子数据集的遍历K次:
步骤1:当k=1时,初始化样本权重w1=1/m,m表示子数据集中样本的个数;当k>1时,也就是从第二个子数据集开始,会根据Hcount对新数据的评价更新样本权重w1,使得训练样本中包含难以分类的样本,促使新的基分类器更多的学习这些样本开始内层循环对于每个子数据集的迭代Tk次,t表示第t次迭代:
步骤2:为保证wt能够作为一种分布,根据样本权重wt构造训练数据集;
步骤3:调用CART学习算法,用步骤2中生成的训练数据集训练得到基分类器Ct
步骤4:计算基分类器Ct的投票权重betak:计算基分类器Ct的kappa系数κ1,betak=κ1
步骤5、6:将现有基分类器集成Hcount,根据Hcount对子数据集的评价,更新样本权重wt
步骤7:加权投票集成最终集成分类器Hfinal
3.根据权利要求1所述的学习分类方法,其特征在于,纵向划线法具体为:
N表示I-CART算法中产生的基分类器的个数,即K*Tk;SN表示选择基分类器的个数,SN>0&&SN<=N,SN设置为1/2N~1/3N;HfinalH表示用选择后的基分类器组成的集成分类器;hi、hj表示不同的基分类器,i≠j,i,j=1,2,...,N;执行过程如下:
步骤1:不重复的计算所有基分类器两两间的kappa系数与平均错误率error,并存储到数组kappa和数组error;步骤2:将kappa数组升序排序,得到对应的基分类器序号,保证从差异性最高的基分类器中选择;步骤3:设置开始进行选择的序号位置begin,为kappa值个数的n倍的位置,n一般取值1/2或1/3;步骤4:从begin开始依次选择基分类器加入到集成分类器中,直到基分类器的个数达到SN;步骤5:使用选择出的SN个基分类器采用加权投票集成最终集成分类器HfinalS
4.根据权利要求1所述的学习分类方法,其特征在于,横向划线法具体为:
N表示改进后I-CART算法中产生的基分类器的个数;SN表示选择基分类器的个数,SN>0&&SN<=N,SN设置为1/2N~1/3N;HfinalS表示执行选择方案HS后的基分类器组成的集成分类器;hi1、hj1表示不同的基分类器,i1≠j1,i1,j1=1,2,...,N。IndexH表示基分类器序号。执行步骤如下:
步骤1:不重复的计算所有基分类器两两间的kappa系数与平均错误率error,并存储到数组kappaH和errorH;步骤2:设定阈值threshold,将其设为所有kappa系数的平均值,设;步骤3:将errorH数组升序排序,得到对应的基分类器序号,保证从精确率最高的基分类器中选择;步骤4:开始进行选择的序号位置为beginH,设定为第一个kappaH(IndexH)<threshold的序号位置;步骤5:从beginH开始选择基分类器,满足条件kappaH(IndexH)<threshold的基分类器加入到集成分类器中,直到基分类器的个数达到SN;步骤6:使用选择出的SN个基分类器采用加权投票集成最终集成分类器HfinalS
CN201910052118.1A 2019-01-21 2019-01-21 一种用于航班延误预测的基于选择性集成的cart增量学习分类方法 Pending CN109816010A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910052118.1A CN109816010A (zh) 2019-01-21 2019-01-21 一种用于航班延误预测的基于选择性集成的cart增量学习分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910052118.1A CN109816010A (zh) 2019-01-21 2019-01-21 一种用于航班延误预测的基于选择性集成的cart增量学习分类方法

Publications (1)

Publication Number Publication Date
CN109816010A true CN109816010A (zh) 2019-05-28

Family

ID=66604669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910052118.1A Pending CN109816010A (zh) 2019-01-21 2019-01-21 一种用于航班延误预测的基于选择性集成的cart增量学习分类方法

Country Status (1)

Country Link
CN (1) CN109816010A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160439A (zh) * 2019-12-24 2020-05-15 西北工业大学 一种无人机***自主能力评价方法、***及可读存储介质
CN112115829A (zh) * 2020-09-09 2020-12-22 贵州大学 一种基于分类器选择性集成的表情识别方法
CN112651951A (zh) * 2020-12-30 2021-04-13 深圳高性能医疗器械国家研究院有限公司 一种基于dce-mri的乳腺癌分级方法
CN116362430A (zh) * 2023-06-02 2023-06-30 中国民航大学 一种基于在线增量mhha-sru航班延误预测方法及***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160439A (zh) * 2019-12-24 2020-05-15 西北工业大学 一种无人机***自主能力评价方法、***及可读存储介质
CN112115829A (zh) * 2020-09-09 2020-12-22 贵州大学 一种基于分类器选择性集成的表情识别方法
CN112115829B (zh) * 2020-09-09 2023-02-28 贵州大学 一种基于分类器选择性集成的表情识别方法
CN112651951A (zh) * 2020-12-30 2021-04-13 深圳高性能医疗器械国家研究院有限公司 一种基于dce-mri的乳腺癌分级方法
CN116362430A (zh) * 2023-06-02 2023-06-30 中国民航大学 一种基于在线增量mhha-sru航班延误预测方法及***
CN116362430B (zh) * 2023-06-02 2023-08-01 中国民航大学 一种基于在线增量mhha-sru航班延误预测方法及***

Similar Documents

Publication Publication Date Title
CN109816010A (zh) 一种用于航班延误预测的基于选择性集成的cart增量学习分类方法
CN106203523B (zh) 基于梯度提升决策树半监督算法融合的高光谱图像分类方法
CN106845717A (zh) 一种基于多模型融合策略的能源效率评价方法
CN106022509A (zh) 考虑地域和负荷性质双重差异的配电网空间负荷预测方法
CN109002492B (zh) 一种基于LightGBM的绩点预测方法
CN106503867A (zh) 一种遗传算法最小二乘风电功率预测方法
CN110348624A (zh) 一种基于Stacking集成策略的沙尘暴等级预测方法
CN110503245A (zh) 一种机场航班大面积延误风险的预测方法
CN109034194A (zh) 基于特征分化的交易欺诈行为深度检测方法
CN110674993A (zh) 一种用户负荷短期预测方法和装置
CN112232561B (zh) 基于约束并行lstm分位数回归的电力负荷概率预测方法
CN110363230A (zh) 基于加权基分类器的stacking集成污水处理故障诊断方法
CN108009571A (zh) 一种新的直推式半监督数据分类方法及***
CN103605711A (zh) 支持向量机分类器的构造方法及装置、分类方法及装置
CN109255029A (zh) 一种采用加权优化训练集增强自动Bug报告分配的方法
CN104850867A (zh) 一种基于直觉模糊c均值聚类的目标识别方法
CN111599219A (zh) 一种基于排序学习的多数据源航班起飞时间预测方法
CN108877947A (zh) 基于迭代均值聚类的深度样本学习方法
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及***
CN109919236A (zh) 一种基于标签相关性的bp神经网络多标签分类方法
CN103235954A (zh) 一种基于改进AdaBoost算法的地基云图识别方法
Yan et al. Evaluation and Forecasting of Wind Energy Investment Risk along the Belt and Road Based on a NovelHybrid Intelligent Model.
CN111652264A (zh) 基于最大均值差异的负迁移样本筛选方法
CN107480441A (zh) 一种基于支持向量机的儿童脓毒性休克预后预测的建模方法及***
CN109978051A (zh) 基于混合神经网络的监督分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190528

RJ01 Rejection of invention patent application after publication