CN104537391A

CN104537391A - 一种极限学习机的元学习方法

Info

Publication number: CN104537391A
Application number: CN201410814269.3A
Authority: CN
Inventors: 廖士中; 冯昌
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2014-12-23
Filing date: 2014-12-23
Publication date: 2015-04-22

Abstract

本发明公开了一种极限学习机的元学习方法，包括以下步骤：步骤(1)、产生若干原始训练集；步骤(2)、在每一原始训练集上训练出若干Base-ELM；步骤(3)、将若干Base-ELM作为Meta-ELM的隐结点激活函数，训练Meta-ELM，包括计算隐藏层矩阵H；计算输出层权重β，最终得到预测函数f(x)＝<β,h(x)>。本发明有效并且高效的管理语义大数据的混合分布式存储方案，从而促进了大规模数据存储管理的进步与发展。与现有技术相比，本发明减少了原始ELM算法的随机性对ELM的学习性能受到影响。

Description

一种极限学习机的元学习方法

技术领域

本发明所属的技术领域为机器学习技术领域，特别是涉及一种极限学习机的学习方法。

背景技术

极限学习机(ELM)是在神经网络理论基础上发展起来的一类重要的学习方法，在数据挖掘、人脸识别、模式识别等领域已有广泛应用。ELM本质上一个单隐层前馈型神经网络(Single hidden-Layer Feedforward Networks，SLFNs)，与传统SLFNs不同的是，ELM单隐层对应的输入权重(Weight)与偏置(Bias)是通过随机赋值产生，形成一个参数固定的线性***，然后通过最小二乘方法求解该线性***。Huang等人通过理论及大量的实验验证了ELM是一种高效并且有效的学习算法。但是输入权重和偏置的随机赋值给该学习算法带来了一定的随机性，影响了ELM的泛化性能。

在统计上，多个学习器的均值比单个学习器具有更小的方差，学习效果更加稳定。因此组合模型会比最好的单个模型有更好的方法性能。这促进了使用若干ELM的综合结果来提升单个ELM学习性能方法的研究。本发明基于基ELM不同的学习方式与不同的元学习方式给出了一种新的ELM的元学习方法。本发明依赖的关键技术分别介绍如下。

一、极限学习机(ELM)

给定训练数据集S＝{(x_i,y_i),i＝1,…,N}，x_i∈R^d为输入向量，y_i∈R为与输入对应的输出，N为训练样本数，R为实数域，d为输入数据的维度。

L个隐结点的SLFNs的数学模型为：

Σ_{i = 1}^{L} β_{i} G (w_{i}, b_{i}, x_{j}) = t_{j}, j = 1, . . ., N;

其中β为权重向量，G表示某一激活函数，w,b为函数G的参数，输入为x，输出为t，N为样本数。

写成矩阵形式为Hβ＝T，其中

H = [\begin{matrix} h (x_{i}) \\ . \\ . \\ . \\ h (x_{N}) \end{matrix}] = {[\begin{matrix} G (w_{1}, b_{1}, x_{1}) & . . . & G (w_{L}, b_{L}, x_{1}) \\ . & . \\ . & . . . & . \\ . & . \\ G (w_{1}, b_{1}, x_{N}) & . . . & G (w_{L}, b_{L}, x_{N}) \end{matrix}]}_{N \times L},

β = {[\begin{matrix} β_{1} \\ . \\ . \\ . \\ β_{L} \end{matrix}]}_{L \times 1} and T = {[\begin{matrix} t_{1} \\ . \\ . \\ . \\ t_{N} \end{matrix}]}_{N \times 1},

其中H代表隐藏层输出矩阵，h表示L维非线性特征映射，N为样本数，L为隐藏层节点个数，t为输出。

对于ELM算法，H中所有的参数随机产生之后就保持固定，只需要求解β，

‖Hβ-T‖＝min_β‖Hβ-T‖。

ELM算法包含三个步骤：

(1)随机生成隐藏层参数(w_i,b_i),i＝1,…,L；

(2)计算隐藏层矩阵SLFNs的数学模型，用矩阵H表示；

(3)计算输出层权重其中表示矩阵H的Moore-Penrose逆(广义逆)。

那么最终的预测函数为

f(x)＝〈β,h(x)〉。

二、元学习(Meta-Learning)

元学习是一种利用多个已有学习结果再次进行学习的一个广义的方法。在机器学习领域可以简单地理解为，在得到多个基学习器之后，再将这些基学习器以某种方式结合。这样学习方法包括集成学习、Boosting、Bagging、Stacking等等。

元极限学习机包括两个层次训练，即：Base-ELM层次训练，Meta-ELM层次训练。Base-ELM层次训练的输入为训练集，隐结点为一般激活函数；Meta-ELM将Base-ELM作为隐结点训练一个新的ELM，最终得到的模型即为预测模型。如图1所示，为元极限学习机的模型架构，即Meta-ELM形成的单隐层前馈型神经网络模型，从左至右包括：第一层为输入层，即原始数据输入层；第二层为隐藏层，其中的隐结点激活函数为单个ELM；第三层为输出层。

从单隐层前馈型神经网络的角度去看Meta-ELM，Meta-ELM本身也是一个SLFN，其隐藏层节点不是之前的激活函数，而是一个ELM。

如图2所示，为元极限学习机Meta-ELM算法流程图。该算法流程描述如下：

1、训练Base-ELM；

1)在原始训练数据上产生Base-ELM训练所需的数据集；

2)在训练集上训练Base-ELM；

2、训练Meta-ELM；

1)计算隐藏层矩阵H；

2)计算输出层权重β。Meta-ELM以不同的方式训练Base-ELM，然后再训练一个上层的ELM，形成了一个分层的学习模型。

与ELM不同的是，Meta-ELM隐藏层矩阵并不是简单的激活函数，而是单个的Base-ELM，

H = [\begin{matrix} h (x_{1}) \\ . \\ . \\ . \\ h (x_{N}) \end{matrix}] = {[\begin{matrix} {ELM}_{1} (x_{1}) & . . . & {ELM}_{M} (x_{1}) \\ . & . \\ . & . . . & . \\ . & . \\ {ELM}_{1} (x_{N}) & . . . & {ELM}_{M} (x_{N}) \end{matrix}]}_{N \times M},

其中h(x)＝[ELM₁(x),ELM₂(x),…,ELM_M(x)]。

那么最终的预测函数为f(x)＝〈β,h(x)〉。

参考文献：

[1]G.-B.Huang，Q.-Y.Zhu，C.-K.Siew，Extreme Learning Machine:Theory andapplications，Neurocomputing 70(1)(2006)489–501.

[2]G.-B.Huang，H.Zhou，X.Ding，R.Zhang，Extreme Learning Machine forregression and multiclass classification，IEEE Transactions on Systems，Man，andCybernetics，Part B:Cybernetics 42(2)(2012)513–529.

[3]Z.-L Sun，T.-M.Choi，K.-F.Au，Y.Yu，Sales forecasting using Extreme LearningMachine with applications in fashion retailing，Decision Support Systems 46(1)(2008)411–419.

[4]Y.Lan，Y.C.Soh，G.-B.Huang，Ensemble of online sequential Extreme LearningMachine，Neurocomputing 72(135)(2009)3391–3395.

[5]M.V.Heeswijk，Y.Miche，E.Oja，A.Lendasse，GPU-accelerated and parallelizedELM ensembles for large-scale regression，Neurocomputing 74(16)(2011)2430–2437.

[6]Y.Guo，S.M.R¨uger，J.Sutiwaraphun，J.Forbes-Millott，Meta-learning for paralleldata mining，in:Proceedings of the Seventh Parallel Computing Workshop，1997.

[7]D.Serre，Matrices:Theory and applications，Springer-Verlag，2010.

[8]L.Breiman，Bagging predictors，Machine Learning 24(2)(1996)123–140.

发明内容

基于上述现有技术，本发明提出一种极限学习机的元学习方法，利用多个学习器的综合性减少了ELM的学习性能随机性。

本发明的一种极限学习机的元学习方法，包括以下步骤：

步骤1、产生若干原始训练集；

步骤2、在每一原始训练集上训练出若干Base-ELM；

步骤3、将若干Base-ELM作为Meta-ELM的隐结点激活函数，训练Meta-ELM，包括计算隐藏层矩阵H；计算输出层权重β，最终得到预测函数f(x)＝〈β,h(x)〉。

所述步骤1中的原始训练集，由包括原始训练数据法、有放回的原始训练数据采样法、原始训练数据分割法或原始训练数据子采样法产生。

所述步骤3中的输出层权重β，采用以下两种方式之一获得：

取平均法或按照ELM算法训练的方式学习出输出权重

与现有技术相比，本发明减少了原始ELM算法的随机性对ELM的学习性能受到影响。

附图说明

图1为现有技术的元极限学习机的模型结构；

图2为本发明的元极限学习机算法流程图；

图3为在SinC数据集上，基于数据分割的Meta-ELM算法与ELM算法的性能比较结果示意图；

图4为在标准回归数据集上，原始ELM算法、Ensemble和Meta-ELM算法测试均方误差的方差比较结果示意图；

图5为基于子采样的Meta-ELM测试均方误差随着采样比例变化示意图。

表1为Meta-ELM中不同训练集产生方式与元学习方法测试均方误差与总时间比较。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明，但本发明的实施范围并不局限于此。

本发明的一种极限学习机的元学习方法，包括以下步骤：

步骤1、产生训练集；产生训练集的方式有多种，本发明主要使用以下四种：

1-1、原始训练数据：即对原始数据不进行任何操作，在整个训练数据上训练Base-ELM，这种方法在规模相对较小的数据集上比较有效，对于数据量较大的数据很难完成训练；

1-2、Bagging：使用有放回的采样得到与原始训练集等大小的不同训练集，在训练集上训练Base-ELM；

1-3、分割：将原始训练数据分成大小几乎相等的不交叉的若干小的训练集；

1-4、子采样：根据采样大小又放回的采样得到训练集。

步骤2、训练Base-ELM

通过步骤1得到若干训练集，在每一个训练集上训练Base-ELM。

步骤3、训练Meta-ELM

得到若干Base-ELM，作为Meta-ELM的隐结点激活函数。其中，对于输出权重，考虑如下两种训练方式得出：

3-1、取平均；

3-2、按照ELM算法训练的方式学习出输出权重。

如图5所示，基于子采样的Meta-ELM，测试均方误差随着采样比例的增加而减小。

本发明的实施使用MatLab和R编程语言实现。具体地步骤如下：

根据不同的训练集产生方法产生训练集；

1、在每一个训练集上训练Base-ELM；

2、将每一个Base-ELM作为Meta-ELM的隐藏层激活函数，训练Meta-ELM。

3、在整个原始训练数据集上训练Meta-ELM得到最终的预测模型。

表1、Meta-ELM中不同训练集产生方法与元学习方法测试均方误差与总时间比较

Claims

1.一种极限学习机的元学习方法，其特征在于，该方法包括以下步骤：

步骤(1)、产生若干原始训练集；

步骤(2)、在每一原始训练集上训练出若干Base-ELM；

步骤(3)、将若干Base-ELM作为Meta-ELM的隐结点激活函数，训练Meta-ELM，包括计算隐藏层矩阵H；计算输出层权重β，最终得到预测函数f(x)＝<β,h(x)>。

2.如权利要求1所述的一种极限学习机的元学习方法，其特征在于，所述步骤(1)中的原始训练集，由包括原始训练数据法、有放回的原始训练数据采样法、原始训练数据分割法或原始训练数据子采样法四种方法之一来产生。

3.如权利要求1所述的一种极限学习机的元学习方法，其特征在于，所述步骤(3)中的输出层权重β，采用以下两种方式之一获得：

取平均法或按照ELM算法训练的方式学习出输出权重。