CN108108762A

CN108108762A - 一种用于冠心病数据分类的基于核极限学习机及并行化的随机森林分类方法

Info

Publication number: CN108108762A
Application number: CN201711399080.2A
Authority: CN
Inventors: 王丹; 石智强; 杜金莲; 付利华; 赵文兵; 杜晓林; 苏航
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2018-06-01
Anticipated expiration: 2037-12-22
Also published as: CN108108762B

Abstract

本发明公开一种用于冠心病数据分类的基于核极限学习机及并行化的随机森林分类方法，采用Bootstrap方法对冠心病样本集进行有放回的采样，生成不同的冠心病数据训练子集和测试子集以供基分类器使用；采用混合核形式的核函数作为核极限学习机的核函数，减少核类型对分类模型的性能影响；使用冠心病数据训练子集对核极限学习机进行模型训练并使用测试子集对基分类器进行性能测试，采用排序加粒子群优化的方式循环判断重新生成优化的新基分类器，剔除并代替分类性能较差的基分类器，从而达到提高整体分类性能的目的；形成随机森林模型之后，采用相对多数投票法选取分类结果。

Description

一种用于冠心病数据分类的基于核极限学习机及并行化的随机森林分类方法

技术领域

本发明属于计算机软件领域，尤其涉及一种用于冠心病数据分类的基于核极限学习机及并行化的随机森林分类方法。

背景技术

医疗资料显示，冠心病已经成为危害人类健康最严重的疾病之一。冠心病的一个特点是很难事先做出准确的诊断，但其发生和发展的规律有一定的规律可循。在机器学习技术中，冠心病的诊断本质上是一个分类问题，随着机器学习技术在医疗领域中的发展与应用，人们希望借助机器学习技术和方法辅助对冠心病等复杂疾病的诊断，避免医生在诊断过程中由于经验不足导致的误诊，得到更准确的诊断结果，帮助医生建立临床辅助决策模型，为其在临床应用中提供科学依据。

从研究人员利用不同的模型对冠心病数据分类的结果显示，基于SVM和神经网络的模型表现出较好的分类性能。但是仍然存在如下一些问题。第一，对于SVM和神经网络，很典型的一个难题是模型的参数选择问题，参数的选择对分类结果有很大的影响，而且参数的选择没有统一的标准和理论指导；第二，已存在的很多方法都采用单分类模型，分类性能往往会受到单分类器性能的限制而达到瓶颈，第三，典型人工神经网络模型复杂且训练速度慢。

极限学习机(ELM)比SVM和神经网络具有更优的性能，它的优点在于只含有一个隐藏层，输入层与隐藏层的网络权重值和偏倚值随机产生，而隐藏层和输出层之间的输出权重直接计算求出，不需要迭代调节网络权重，避免了梯度下降法产生的局部极值、学习时间长及学习率低的影响等问题，因此训练速度非常快。但是，由于极限学习机的隐藏层节点数目是随机给定的，而实际实验显示隐藏层节点数目的选取很大程度上决定了神经网络的分类精度是否可最优。换言之，就是极限学习机的神经元数目直接关系到神经网络的***逼近与泛化性能。随机产生输入层与隐藏层的网络权重值和偏倚值导致极限学习机对未在训练集中出现的样本泛化能力差、输出结果不稳定等缺点，需要大量的隐藏层节点才能达到理想的精度。为了进一步提高极限学习机的泛化能力和稳定性，黄广斌等人在极限学习机中引入核函数，形成核极限学习机(KELM)，避免了随机产生的输入权重和偏倚值的问题，使极限学习机的泛化能力更强，更稳定。同时，我们也发现，目前大多数的预测分类模型在医疗领域中还不能完全摆脱人工干预，因为分类精度不够高。如果充分利用海量的数据支持可以提高分类精度，特别是对神经网络来说，数据规模越大，神经网络性能就越强。但是，单机是无法处理海量数据的，因此，还要进一步对分类***进行并行化来解决能够处理海量数据的问题。

随机森林算法是一种用于分类，回归和其他任务的集成学***衡的数据比较稳健，可以很好地预测多达几千个解释变量的作用。

综上，鉴于核极限学习机具有比传统的SVM、ELM、神经网络训练速度快、泛化性能好等优点，且随机森林算法不但能够打破单个分类器性能瓶颈问题，而且在处理高维度数据上具有训练速度快等优点。所以本发明提出采用核极限学习机作为随机森林算法的基分类器，使其不仅可以提高核极限学习机的泛化性能，而且易于并行化，以更好地解决单机不能处理海量数据的问题。考虑到基于随机森林算法的分类方法得到更高分类精度的充要条件是基分类器不仅需要分类性能好且基分类器之间应存在差异性。因此，本发明通过采用排序加粒子群优化的方法提高基分类器的分类性能，并使用Bootstrap采样样本集和随机选取特征子集提高基分类器差异化和训练速度，以满足它的充要条件。传统上使用单机多线程的方法对程序进行并行化，但是，对于海量数据来说单机多线程的方法依旧不可行，需要使用多机进行并行化。因此，本发明采用Map-Reduce计算模型对***进行多机并行化。

发明内容

本发明的内容：

①提出了一种基于优化核极限学习机及并行化的随机森林分类方法，该方法不仅可以支持海量冠心病医疗数据的处理，而且能够提高对冠心病医疗数据的分类性能。

②采用混合核作为极限学习机的核函数来减少核类型对模型性能的影响。

③采用排序加粒子群优化的方式优化基分类器的分类性能并且减少不必要的时间开销。

本方法是一种集成式学习分类方法，传统上采用决策树作为随机森林的基分类器，鉴于核极限学习机的众多优点，本方法采用优化的混合核形式的极限学习机作为随机森林的基分类器，进一步提高核极限学习机的泛化能力和稳定性。

为达到以上发明目的，经过研究讨论和反复实践，本方法确定最终方案如下：

使用优化的核极限学习机作为随机森林算法的基分类器来提高集成分类器的分类性能，多个弱分类器可以组成一个强分类器，进而可以提高分类性能。采用Bootstrap方法对冠心病样本集进行有放回的采样，生成不同的冠心病数据训练子集和测试子集以供基分类器使用。采用混合核形式的核函数作为核极限学习机的核函数，减少核类型对分类模型的性能影响。使用冠心病数据训练子集对核极限学习机进行模型训练并使用测试子集对基分类器进行性能测试，采用排序加粒子群优化的方式循环判断重新生成优化的新基分类器，剔除并代替分类性能较差的基分类器，从而达到提高整体分类性能的目的。形成随机森林模型之后，采用多数投票法选取分类结果。为了能够提高分类性能和达到处理海量冠心病医疗数据的目的，采用基于Map-Reduce计算模型对分类方法进行并行化。

为实现上述目的，本发明采用如下的技术方案：

一种用于冠心病数据分类的基于核极限学习机及并行化的随机森林分类方法，包括以下步骤：

步骤1.采用Bootstrap法从N个冠心病数据样本中有放回地随机抽取N个样本并从F个特征中随机选取f个特征(f<<F)组成新的样本集。随机选取冠心病数据样本子空间不仅提高了基分类器的差异性并且能够减少模型训练时间开销。

步骤2.采用径向基核函数与多项式核函数加权得到混合核形式作为核极限学习机的核函数来提高模型的泛化能力，通过混合核的形式充分利用各核的优点，减少核类型对分类模型的性能影响。

步骤3.使用冠心病数据训练子集训练得到混合核极限学习机模型之后，使用测试子集测试每个基分类器的分类性能并排序，剔除分类性能最差的基分类器。再结合粒子群优化算法优化核参数、正则化系数、混合核权重得到优化的新基分类器代替被删除的基分类器。再次使用测试集对新基分类器进行性能测试，遍历其他基分类器依次与新基分类器的分类性能进行比较，如果比新基分类器的分类性能差，则需要使用粒子群优化算法进行优化。

步骤4.由于训练得到的核极限学习机分类性能高且差异性大，由这种基分类器组成的随机森林分类器的泛化性能会更好。通过采用多数投票的方式选取最终分类结果。为了能够提高分类性能和达到处理海量数据的目的，采用基于Map-Reduce计算模型对分类方法进行并行化。

附图说明

图1基于核极限学习机的随机森林分类方法方案图

图2核极限学习机优化流程图

图3粒子群优化算法流程图

图4随机森林算法并行化过程图

具体实施方式

本发明采用混合核的极限学习机作为随机森林的基分类器以及采用排序加粒子群优化的方式优化基分类器，希望达到对冠心病数据分类结果更好的目的。

传统极限学习机的输出权重β通过公式β＝H⁺T计算，H⁺是特征映射矩阵H的广义矩阵，H是随机特征映射矩阵。为了进一步提高极限学习机的泛化能力，黄广斌引入核函数避免极限学习机方法随机产生输入权重和偏倚值的问题，提出基于核函数的极限学习机方法核极限学习机，核极限学习机输出权重的计算公式如下：

由此，核极限学习机的输出函数如下：

h(x)是输入x经过隐层映射后的输出，是偏置常量，用于增加稳定性和泛化性能。当隐层映射函数h(x)不可知时，核函数矩阵计算公式如下：

Ω_ELM＝HH^T:Ω_ELMi,j＝h(x_i)·h(x_j)＝K(x_i,x_j) (3)

其中K(x_i,x_j)表示核函数，我们使用径向基核函数和多项式核函数的加权作为核极限学习机的核函数，如下：

K(x,x_i)＝λK_rbf(x,x_i)+(1-λ)K_poly(x,x_i) (4)

式中，λ(0≤λ≤1)是权重系数，

K_poly(x,x_i)＝(x·x_i+1)^d,d＝1,2,...,N (6)

那么，核极限学习机的最终输出函数为：

下面将结合附图，对本方法进行详细说明。

图1是基于核极限学习机的随机森林分类方法方案图。首先采用Bootstrap方法对冠心病数据样本集进行采样，从N个冠心病数据样本中随机有放回地选取N个样本组成冠心病数据样本子集，没被选中的样本组成冠心病数据测试子集，在从样本子集和测试子集的F个属性中随机选取f个属性(f<<F)，最后形成冠心病数据训练子集D_i和测试子集T_i(i＝1,2.....k,k为基分类器个数)。然后，开始训练基分类器，详细过程如下：

步骤3的零矩阵temp_T，行数为类别个数，列数为样本个数，若每个样本的类别等于label中的某一值，则在temp_T对应位置赋值为1，否则赋值为-1。然后将temp_T重新赋值给T。

在步骤4中我们使用了具有局部特性的径向基核函数与具有全局特性的多项式核函数加权得到的混合核函数，利用两个核函数的优点，减少核类型对模型性能造成的影响。核参数是随机进行输入的，便于后续对基分类器进行优化。

然后，通过训练子集个数，循环训练出所有基分类器后，得到模型集合M。使用冠心病数据测试子集T_i对模型E_i进行性能测试。首先，根据公式(4)计算出核矩阵omega_train，再利用模型E_i中的输出权重矩阵output_weight的转置矩阵output_weight’与omega_train相乘得到所有测试子集样本的分类结果，最后，使用计算得到的分类结果与真实的分类结果对比，即可进一步计算出模型E_i的分类精度。使用所有测试集对所有基分类器进行同样的测试，即可得到分类精度列表。

使用Bootstrap抽样产生不同的训练集训练出来的模型保证了模型之间的差异性，对已训练出来的基分类器进行强化可以提高模型的分类性能。差异性大且分类性能好的模型组成的随机森林分类性能会更好。模型参数对基分类器的分类性能有很大影响，通过对模型参数进行优化可以提高其分类性能。

使用粒子群优化算法进行参数的寻优，它是一种群智能算法，是通过群体中个体之间的协作和信息共享来寻找最优解。粒子群优化算法初始化为一群随机粒子(随机解)，粒子i在D维空间的位置表示为矢量x_i＝(x₁,x₂,...,x_D)，飞行速度表示为矢量v_i＝(v₁,v₂,...,v_D)。每个粒子都有一个由目标函数决定的适应值，并且知道自己到目前为止发现的最好位置pbest和现在的位置x_i。除此之外，每个粒子还知道到目前为止整个群体中所有粒子发现的最好位置gbest(gbest是pbest中的最好值)。然后通过迭代找到最优解。在每一次的迭代中，粒子通过跟踪pbest和gbest更新自己。在找到这两个最优值后，粒子通过下面的公式来更新自己的速度和位置。

v_i＝ω×v_i+c₁×rand()×(pbest_i-x_i)+c₂×rand()×(gbest_i-x_i) (8)

其中，ω是惯性因子，c₁,c₂是学习因子，rand()是随机数介于(0,1)之间。

x_i＝x_i+v_i (9)

结合图3，模型参数C、d、σ、λ寻优过程如下：

进一步地，使用基分类器精度列表和粒子群优化算法对基分类器模型集合进行优化，剔除分类性能最差的基分类器，使用粒子群优化算法优化新基分类器代替被删除的基分类器。结合图2，具体过程如下：

在初始训练每个基分类器的时候，并没有直接使用粒子群优化算法对每个基分类器进行参数寻优，而是在先验核参数范围内随机生成核参数进行基分类器的训练。这样做的理由是，既然随机化核参数可能产生性能优良的基分类器，那么在遍历模型集合M过程中，就只需找出那些比最优模型分类性能的差别大于给定阈值的模型进行剔除，然后使用粒子群优化算法进行优化即可。对于那些比最优模型性能差别不大的模型来说，没必要进行重新优化训练，这样做可以避免不必要的重复训练，减少时间开销。

经过数据的抽样、模型训练、模型优化之后，就得到了随机森林分类模型，使用相对多数投票的组合策略决定冠心病数据样本最后的分类结果。对于分类任务来说，基分类器h_i将从类别标记集合{c₁,c₂,...,c_L}中预测出一个标记，我们将h_i在给定的冠心病数据样本x上的预测输出为一个L维向量其中是h_i在类别标记c_j上的输出。那么相对多数投票组合策略的计算公式如下：

即预测为得票最多的标记，若同时有多个标记获得最高票，则从中随机选取一个。其中T为基分类器个数。

海量数据可以增强神经网络的性能，但是，单机硬件配置无法满足处理海量数据的要求。为了能够提高分类性能和达到处理海量数据的目的，采用Map-Reduce计算模型对分类方法进行并行化。结合图4，详细说明并行化的过程。

在整个训练过程中不需要数据的混洗操作，所以不需要reduce过程，只利用mapper即可完成并行化。需要重写mapper的setup、map、cleanup三个方法分别实现参数的获取、数据的加载、模型的训练，最后在驱动程序中汇总所有子森林，组成随机森林模型。

1.重写setup方法，该方法从DistributedCache中获取基分类器总数、模型参数、训练集数据分片个数等数据，这些数据是在驱动程序中写入到DistributedCache中的。

2.重写map方法，该方法把数据加载到矩阵中。

3.步骤1和步骤2完成了所需参数和数据的准备，根据图1的处理过程重写cleanup方法实现模型的训练和优化。模型训练好之后，序列化到指定的文件中。

4.在驱动程序中，把基分类器总数、核参数范围、训练集数据分片个数等数据写入到DistributedCache中以便setup方法读取。当所有的计算节点都处理完mapper流程之后，把所有的序列化文件处理汇总到一个序列化文件中，形成随机森林模型，完成并行化。

Claims

1.一种用于冠心病数据分类的基于核极限学习机及并行化的随机森林分类方法，其特征在于，包括以下步骤：

步骤1.采用Bootstrap法从N个冠心病数据样本中有放回地随机抽取N个样本并从F个特征中随机选取f个特征(f<<F)组成新的样本集；

步骤2.核极限学习机模型训练，采用径向基核函数与多项式核函数加权得到混合核函数作为极限学习机的核函数；

步骤3.使用冠心病数据训练子集训练得到混合核极限学习机模型之后，使用测试子集测试每个基分类器的分类性能并排序，剔除分类性能最差的基分类器。再结合粒子群优化算法优化核参数、正则化系数、混合核权重得到优化的新基分类器代替被删除的基分类器；再次使用测试集对新基分类器进行性能测试，遍历其他基分类器依次与新基分类器的分类性能进行比较，如果与新基分类器的分类性能差别超过规定阈值，则需要使用粒子群优化算法进行优化；

步骤4.经过数据的抽样、模型训练、模型优化之后，得到随机森林分类模型，使用相对多数投票的组合策略决定冠心病数据样本最后的分类结果。

2.权利要求1所述的用于冠心病数据分类的基于核极限学习机及并行化的随机森林分类方法，其特征在于，步骤4中，对于分类任务来说，基分类器h_i将从类别标记集合{c₁,c₂,...,c_L}中预测出一个标记，将h_i在给定的冠心病数据样本x上的预测输出为一个L维向量其中，是h_i在类别标记c_j上的输出，相对多数投票组合策略的计算公式如下：

<mrow> <mi>H</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>c</mi> <mrow> <msub> <mi>arg</mi> <mi>j</mi> </msub> <msubsup> <mi>max&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </msubsup> <msubsup> <mi>h</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> </msub> </mrow>

即预测为得票最多的标记，若同时有多个标记获得最高票，则从中随机选取一个。