CN110363230B

CN110363230B - 基于加权基分类器的stacking集成污水处理故障诊断方法

Info

Publication number: CN110363230B
Application number: CN201910566728.3A
Authority: CN
Inventors: 许玉格; 莫华森; 罗飞; 邓晓燕
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2021-07-20
Anticipated expiration: 2039-06-27
Also published as: CN110363230A

Abstract

本发明公开了一种基于加权基分类器的stacking集成污水处理故障诊断方法，用均值法补全污水数据中属性不完整的样本的缺陷项，将其归一化到[0,1]区间中；设置基分类器隐层节点数、正则化系数、核宽度的最优参数；利用处理好的训练样本对基分类器进行3折交叉验证，获得基分类器的原始输出，并得到每个基分类器对于训练样本集的G‑mean值；根据基分类器G‑mean值，定义权值计算公式，得到每个基分类器的输出权值；将基分类器的原始输出转化为概率型输出，结合其输出权值，构造出元训练集；利用元训练集对元分类器进行训练，得到最终的诊断模型。本发明可以提高污水处理过程中故障诊断的整体性能。

Description

基于加权基分类器的stacking集成污水处理故障诊断方法

技术领域

本发明涉及污水处理故障诊断的技术领域，尤其是指一种基于加权基分类器的stacking集成污水处理故障诊断方法。

背景技术

污水处理是一个复杂的，多变量的生化过程。污水处理厂发生故障容易引发一系列严重的污水污染问题。而污水处理过程的故障诊断可转化为一个模式识别的分类问题。污水数据由定期将污水厂采集到的数据及其当前工作状态组成，一段时间内的污水数据组成污水数据集。由于合格的污水处理厂发生故障的频率很低，采集到的污水数据集中故障状态下的数据往往远少于正常状态下的数据。这就导致污水数据集是分布高度不平衡集，即污水处理过程的故障诊断是一个数据不平衡的分类问题。

传统学习算法往往基于总体准确率对参数进行优化，这容易使分类结果更偏向多数类。但在现实应用场合更被看重的是少数类的分类准确率，即在污水处理故障诊断场合，更重要的是准确分类出作为少数类的故障类。准确分类出作为少数类的故障类对及时诊断污水处理厂的运行故障并及时进行处理有巨大的帮助。及时诊断并处理污水故障可稳定出水水质并减少污水对环境的污染，并减少维护费用。因此，应注重研究及时精确少数类的故障类的故障诊断算法。

发明内容

本发明的目的是为了解决现有学***衡数据有不错分类效果的分类算法，即SVM，RVM，WELM作为基分类器，得到基分类器的权值，并对基分类器的输出结果进行加权融合，并选择WELM作为最终输出诊断结果的分类器。实验证明，本方法提高了对污水处理故障类的分类准确率，进而有效提高了污水处理过程中故障诊断的整体性能。

为实现上述目的，本发明所提供的技术方案为：基于加权基分类器的stacking集成污水处理故障诊断方法，包括以下步骤：

1)原始污水数据中某些样本在某些属性上如化学需氧量COD，生化需氧量BOD等上存在缺失值，对这些样本采用均值法补全其缺失值，并将所有属性值归一化到[0,1]区间；

2)利用步骤1)中处理好的完整的污水样本作为Stacking两层学***均值、正常状态但是进水流量低、故障类情况；

3)根据步骤2)中得到的G-mean值，定义基于G-mean值的基分类器输出权值计算公式，获得基分类器h_i(x)对应的输出权值α_i；

4)将步骤2)中的输出结果转化为概率型输出，即得到了每个原始污水样本分别属于4个类别的概率值，利用每个样本属于4个类别的概率值乘以步骤3)中获得的基分类器的权值α_i，加上原始的类别标签，构造成新的训练集，称为元训练集；

5)用步骤4)得到的元训练集作为Stacking两层学习框架中第二层元分类器的输入，其中选择WELM作为第二层的元分类器，得到最终的诊断模型M_stacking；

6)用步骤1)相同的方法填补污水待测数据的缺失值，并将其归一化到[0,1]区间，通过第一层基分类器在训练数据集D上训练学习产生的模型M_k，K＝1,2,3(分别对应3个基分类器)，对处理后的待测数据输出预测结果；

7)对步骤6)中的预测结果用步骤4)相同的方法进行处理，在此基础上构成M_stacking的输入，其输出分类结果即为待测数据对应的故障诊断结果；

8)进行参数寻优，需要寻优的参数有WELM模型的隐层节点数L、最优正则化系数C及RVM模型的核宽度σ，寻优方法为网格法，以寻优得到的最优参数为基础，训练基分类器和元分类器。

在步骤2)中，3折交叉验证具体过程如下：

将训练数据集D随机分为3个大小基本相等的数据集D₁，D₂，D₃，定义D_j和D^-j＝D-D_j(j＝1,2,3)分别为3折交叉验证的第j折测试集和训练集。在训练集D^-j上训练基分类器得到模型

(k＝1,2,3)，对于测试集D_j中的每一个样本，模型

会输出一个预测结果。当交叉验证过程结束，则可以得到基分类器对于整个训练样本的输出结果。

在步骤3)中，基分类器h_i(x)输出权值α_i可表示为：

其中，GM_i为第i个基分类器对于训练样本集的G-mean值，c为基分类器个数。

所述步骤4)包括以下步骤：

4.1)基分类器WELM的输出为数值输出，通过下述公式将数值输出转化为概率形式：

其中，x为某一样本，i为类别标签，m为类别个数，f_i(x)为该样本属于标签i的原始输出，p_i(x)为该样本属于标签i的概率型输出。通过此方法将基分类器WELM原输出结果A1为概率型输出结果A1'；

4.2)SVM和RVM的基本模型是针对二分类问题的，其输出为硬判决输出，即对于一个样本的预测结果为0和1；在本方法中，基分类器SVM和RVM是利用一对一策略构建的多分类器，通过下述公式将硬判决输出转化为概率形式：

其中，x为某一样本，i为类别标签，m为类别个数，f_i(x)为该样本属于标签i的原始输出，p_i(x)为该样本属于标签i的概率型输出；通过此方法将基分类器SVM和RVM原输出结果A2，A3转化为概率型输出结果A2'，A3'；

4.3)将A1'，A2'，A3'和训练集标签拼接起来构造成新的训练集，即[A1'*α₁ A2'*α₂A3'*α₃ train_label](train_label为原始训练样本类别标签)，也称为元训练集。

在步骤8)中，基分类器及元分类器的网格法寻优参数具体如下：

寻找隐层节点数L、最优正则化系数C及RVM模型的核宽度σ的参数组合以满足算法的最优性能，L的寻优范围为{10,15,20,…,500}，步长为5；C的寻优范围为{2⁰,2¹,…,2¹⁸}，步长为1；σ的寻优范围为{2^-2.5,2^-2.4,…,2^2.5}，步长为0.1。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明方法采用stacking元学习策略构造了一个两层的叠加式结构作为整体算法框架，其中基分类器的输出作为元分类器的输入，使低层学习能够充分用于高层的归纳过程，进而发现并且学习基分类器在初始训练集上产生误差的原因，从而提高最终诊断结果的正确率。

2、本发明利用元学***衡数据时可能会出现的偏差，有效减少了学习过程中出现过拟合现象的风险，基分类器的多样性增强了算法的稳定性。

3、本发明在对不同的基分类器的输出结果进行融合的同时，引入了基分类器的权值，降低单个分类器在分类不平衡数据时可能会出现的偏差造成的影响，使得融合结果更加稳定。

4、更注重不平衡污水数据中的故障类数据的分类性能，本发明采用G-mean值计算基分类器相应的权值，定义了基于G-mean的基分类器输出权值更新公式，提高了故障类别的识别正确率。

5、本发明选择支持向量机，相关向量机，加权极限学***衡数据都具有不错的分类效果，单个基分类器的有效性保证了融合结果的可靠性。

6、采用加权极限学习机作为本发明的元分类器，利用加权极限学习机的训练时间较短的优势加快了最终决策模型的学习速度，实现对污水处理状态实时准确的检测。

7、本发明的基分类器和元分类器都通过采用加权极限学***衡性，提高了污水故障诊断的整体G-mean值。

附图说明

图1为本发明方法的训练流程图。

图2为本发明方法的故障诊断流程图。

具体实施方式

为更加清楚地表述本发明实施例的目的、技术方案和优点，下面将结合本发明实施例中的附图来对本发明实施例中的技术方案进行全面的描述。需要指出的是本实施例仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例、本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本文采用加州大学数据(UCI)中的污水处理厂数据做为实验仿真的数据。污水测量数据来自西班牙某城市的污水处理厂，该处理厂包括三级处理，一级处理为预处理，二级处理为活性污泥处理，最后进行氯化处理。污水处理厂历时两年通过传感器获取和生化处理之后***的性能指标计算得到的527个样本。每个样本有38维属性，每个属性的含义如表1所示。将污水处理厂的运行状态分为13种，具体状态类别及其分布情况如表2所示。

表1污水数据属性的名称和含义

表2状态类别及其分布情况

由表2可见，正常状态下的样本数远大于其他状态的样本数。其中，第2、3、4、6、7、8、10、12、13类每类样本数最多只有4个。为降低故障诊断过程的复杂性，将样本重新分为4类，分类结果如表3所示。

表3 527个样本在4分类下的分布情况

在新的分类中，第一类表示正常状态，包括原始数据的第1、11类；第二类为正常状态但某些性能指标超过了平均值，包括原始数据第5类；第三类为正常状态但是进水流量低，包括原始数据第9类；第四类为故障类情况，包括原始数据的第2,3,4,6,7,8,10,12,13类。其中将第一、二类样本视为多数类，而第三、四类为少数类。结合表3各类的样本数容易看出，污水数据属于典型的重度不平衡数据。

由于各种现实原因，污水数据有时不能完整的记录某个时刻所有属性的数据。所有属性数据都被完整地记录下来的样本只有380个，其中包括6个第四类样本。直接删去不完整数据样本会损失大量少数类样本的信息。因此对污水数据的缺失数据进行填补。

目前存在成熟实用的数据填补方法，常用的数据填补方法有平均值填补法、特殊值填补法和最近邻距离填补法等。本发明采用近邻均值填补法对缺陷数据进行填补。具体做法是取缺陷数据近邻的5个数据的对应属性均值来作为缺陷数据的填补值。使用经过数据填补处理后的527个污水数据进行仿真实验。

在进行仿真实验时，传统学***衡数据学***衡。进行不平衡数据学***衡数据学习场合的性能使更注重评价分类器在少数类样本的分类准确率。本实施例采用G-mean值作为仿真实验结果的评价指标。

本实施例是多分类问题。对k类问题，G-mean的混淆矩阵如表4所示：

表4 k类问题的混淆矩阵

其中，第i类样本正确预测为第i类的样本个数为n_ii，预测错误的样本个数为n_ij(i≠j)。R_i分别表示对第i类样本的召回率其定义为：

G-mean定义为所有类的召回率的几何平均值，计算公式如下：

以下称本发明的故障诊断方法为WBC-Stacking(Weighted Base ClassifierStacking)，本发明在本实施例的具体实施过程，如图1和图2所示，包括以下步骤：

1)采用两层的叠加式结构作为整体算法框架，选择SVM，RVM，WELM作为第0层的基分类器，选择WELM作为第一层的元分类器，其中第0层基分类器的输出作为第一层元分类器的输入。具体应用中包括：

1.1)用训练样本分别对3个基分类器进行3折交叉验证，得到3个基分类器对训练样本的输出结果。

此处对本发明中应用的3个基分类器介绍如下：

设输入训练集为X＝{(x₁,y₁),(x₂,y₂),…(x_N,y_N)}。训练集共有N个样本，样本含d个特征，被分为K类。其中y_i为训练样本x_i所对应的类别标签。y_i为K维行向量。y_i中只有{+1,-1}两种元素，有

1.1.1)支持向量机(SVM)基础模型是解决二分类问题的，遵循结构风险最小化是支持向量机用来构造决策超平面的重要准则，使得两类样本之间的分类间隔最大化，即需要解决以下优化问题：

y_i(ω·x_i+b)-1≥0,i＝1,2,…,N (9)

式中，ω为权向量，b为分类阈值。非松弛变量x_i≥0，C为惩罚系数，其值的大小影响的精度。把式(8)和式(9)转化为下列对偶问题：

式中，K(x,y)＝h(x)·h(y)为核函数，它将样本数据从低维空间映射到线性可分的高维空间，通过选择合适的核函数与惩罚系数构造并找到最优解

其中b^*可以由任一支持向量用式求得，由此得到分类决策函数：

1.1.2)加权极限学习机(WELM)采用单隐层前馈神经网络(single-hidden layerfeedforward networks,SLFN)结构作为整体框架。设定隐含层节点个数为L，极限学习机的输出模型可表示为：

其中，β_i表示第i个隐藏节点其对应输出节点的输出权值，δ_i表示输入层与第i个隐含节点的输入权值。θ_i为第i个隐含节点的偏置参数。o_j为第j个训练样本下模型对应的输出。G(δ_i,θ_i,x_j)为每个隐含层的激活函数，本实施例激活函数采用Sigmoid函数。

在训练过程中期望WELM模型的输出无误差的对训练集X进行拟合，有

即

有激发函数矩阵H写作

输出权值矩阵β写作

(15)式可写作

Hβ＝Y (18)

其中

加权极限学***衡分类问题将极限学习机(Extreme Learning Machine,ELM)和加权策略进行结合得到的改进算法。根据类别对每个训练样本x_i赋予一个权值w_i，有

其中#c_i为训练集中类别正好为训练样本x_i的类型c_i的样本数。

有权值矩阵W写作

当激活函数G(δ_i,θ_i,x_j)无限可微时，参数δ_i，θ_i在训练开始时可随机选定，且在训练过程中不需要进行更改。其中δ_i在(-1,1)范围下随机生成，θ_i在(0,1)范围下随机生成。这时WELM的训练过程可转化为求解式(18)的最小二乘解，即转化为下列优化问题

其中ξ_i为对样本x_i分类器的训练误差。通过KKT最优化条件定义Lagrange函数来求解式(11)的二次优化问题。定义l_i为Lagrange乘数，将式(20)转化为

通过求解式(21)可得h_i(x)的隐层输出权值矩阵β_i的解为

即

1.1.3)相关向量机(RVM)

1.1.3.1)RVM回归模型

给定训练样本集

x_n∈R^d,t_n∈R,N是样本数目，n是样本序号，d是样本属性维度，根据标准概率公式，假设目标是带有噪声的样本：

t_n＝y(x_n；w)+ε_n (27)

其中函数y(x)被定义为

其中K(x,x_i)表示核函数；w_i表示模型的权值，w＝[w₀,w₁,…w_N]^T是权值向量，ε_n为附加噪声，且满足高斯分布，即：ε_n～(0，σ²)，因此有t_n～N(y(x_n,w)，σ²)，假设目标值t_n之间是相互独立的，那么训练集的似然估计概率为：

其中t＝[t₀,t₁,…t_N]^T，φ是一个N×(N+1)维的由多个核函数组成的一个高维的构造矩阵，φ＝[φ(x₁),φ(x₂),…φ(x_N)]^T，这里的φ(x_n)＝[1,K(x_n,x₁),K(x_n,x₂),…K(x_n,x_N)]^T。随着样本数目的增多，模型中参数的个数也会增加，如果对模型中的权值向量w和噪声方差进行最大似然估计，那么可能会导致模型过拟合，为了避免该问题，采用采用贝叶斯学习的方法，对权重参数进行先验假设，这种做法已经在支持向量机中应用并且得到不错的效果，即给权值参数定义一个零均值的高斯先验分布

α是N+1维的超参数向量，它决定着权值w的先验分布，经过多次迭代后，大部分超参数都会趋向于无穷大，对应的权值此时为0，以此保证模型的稀疏性。

同样需要对模型中的超参数α和噪声方差σ²进行限制，因为这些参数变量都是标量，所以采用比较适合伽马分布对其进行假设，即：

p(β)＝Gamma(β|c,d) (33)

式中：β＝α^-1，并且

Gamma(a|a,b)＝Γ(α)^-1b^aα^n-1e^-ba (34)

式中

为伽马函数，为了确保这些参数都是无先验知识的，将它们取很小的值，比如a＝b＝c＝d＝0.0001，通常取a＝b＝c＝d＝0。

根据贝叶斯理论，可得所有的参数在给定的训练样本数据集上的后验分布为：

给定一个新的测试样本Xn,可以得到对应的目标值t_i的概率分布为：

p(t_*|t)＝∫p(t_*|w,α,σ²)p(w,α,σ²|t)dwdαdσ² (36)

由于很难对p(t_n|t)＝∫p(t_n|w,α,σ²)p(w,α,σ²|t)dwdαdσ²进行积分运算，可以把后验概率公式分解为：

p(w,α,σ²|t)＝p(w|t,α,σ²)p(α,σ²|t) (37)

由于权值的积分p(t|α,σ²)＝∫p(t|w,σ²)p(w|α)dw是一种高斯卷积，可以得到权值后验分布为：

其中后验概率方差与均值分别为：

Σ＝(σ^-2φ^Tφ+A)^-1 (39)

u＝Σσ^-2φ^Tt (40)

其中A＝diag(α₀,α₁,…,α_N)。

直接求解P(α,σ²|t)很难，可以采用超参数α和方差σ²，最可能得到值α_MP和

处的Delta函数近似代替P(α,σ²|t)，基于最大概率思想，并不需要严格的要求

只需要近似地满足：

所以有：

综合上述公式可以得到，相关向量机求解转化成了极大化p(t|α,σ²)，这样可以求出α_MP和

因此可以得到：

其中C＝(σ²I+φA^-1φ^T)^-1,对上式取对数可以得到：

对超参数α和方差σ²分别求偏导数，并令倒数为0，解方程可以得到超参数的迭代更新公式：

其中y_i＝1-α_iΣ_ii,Σ_ii为后验权重协方差矩阵Σ的第i个对角线元素，u_i表示第i个权重后验均值。同样可以求得噪声方差的迭代更新公式：

这里N表示的是训练数据样本的个数，而不是基函数的个数，通过迭代计算公式不断更新超参数α和方差σ²，同时通过不断更新协方差矩阵和权重后验均值，直到达到预先设定的收敛条件满足为止。通过不断地迭代计算，最终大部分超参数α_i会趋向于无穷大，对应的权值后验概率会趋向于0，也就是对应的权重w_i会趋向于0，所以这些权值对应的基函数会从模型中删除，不会对模型产生影响，从而实现了模型的稀疏性。

继续对p(t_*|t)＝∫p(t_*|w,α,σ²)p(w,α,σ²|t)dwdαdσ²进行整理得到：

式中待测样本的先验分布和权值的后验分布都是服从高斯分布，所以p(t_*|t)也服从高斯分布，上式可以写为：

式中y_*表示预测输出，

为模型预测方差，给定待测样本输入x_*，计算如下：

y_*＝μ^Tφ(x_*)

1.1.3.2)RVM分类模型

在RVM分类中，分类模型最终的输出是类别的概率。对于一个二分类的问题，目标值t_n∈{0,1},给定一个输入变量x_n，期望获取它相对于每一类的后验概率，在这里对最后输出y(x；w)引入链接函数σ(y)＝1/(1+e^-1),使得后验概率p(t|x)服从伯努利分布，这样就可以得到目标向量t的似然函数为：

与回归模型不一样，这里不能直接计算权重后验概率p(w|t,α)或边际似然函数p(t|α)。针对此问题，可以采用基于拉普拉斯逼近的方法来解决，具体如下：

其中y_n＝σ{y(x_n；w)}。对上式采用二阶牛顿迭代方法可以快速的找到w_MP。

(2)然后对后验分布的对数形式进行二次逼近，即对上式进行二阶求导，可以得到：

其中B＝diag(β₁,β₂,…,β_N)是一个对角矩阵，β_n＝σ(y(x_n))[1-σy(x_n)]，H为海森矩阵。协方差矩阵Σ可通过对H取负号再求逆得到。

(3)利用协方差矩阵Σ和w_MP(代替μ)的高斯逼近，超参数α可以利用迭代更新公式更新。

在模型p(w|t,α)中，利用

以及

可以得到：

Σ＝(φ^TBφ+A)^-1

w_MP＝Σφ^TBt (53)

根据得到的协方差和权重，对超参数进行更新，直到满足迭代结束条件。

1.2)定义新的基于不平衡分类性能指标G-mean值的基分类器输出权值计算公式，获得基分类器h_i(x)对应的输出权值α_i，公式如下：

其中GM_i为第i个基分类器对于训练样本集的G-mean值，c为基分类器个数。

1.3)将3个基分类器的输出结果转化为概率型输出，然后在此基础上构造新的训练集，也称为元训练集,主要包含以下步骤：

1.3.1)基分类器WELM的输出为数值输出，通过下述公式将数值输出转化为概率形式：

其中x为某一样本，i为类别标签，m为类别个数，f_i(x)为该样本属于标签i的原始输出，p_i(x)为该样本属于标签i的概率型输出。通过此方法将基分类器WELM原输出结果A1为概率型输出结果A1'。

1.3.2)SVM和RVM的基本模型是针对二分类问题的，其输出为硬判决输出，即对于一个样本的预测结果为0和1。在本方法中，基分类器SVM和RVM是利用一对一策略构建的多分类器，通过下述公式将硬判决输出转化为概率形式：

其中x为某一样本，i为类别标签，m为类别个数，f_i(x)为该样本属于标签i的原始输出，p_i(x)为该样本属于标签i的概率型输出。通过此方法将基分类器SVM和RVM原输出结果A2，A3转化为概率型输出结果A2'，A3'。

1.3.3)将A1'，A2'，A3'和训练集标签拼接起来构造成新的训练集，即[A1'A2'A3'train_label]，也称为元训练集。

1.4)利用元训练集对元分类器进行训练，得到最终的模型M_stacking。

2)输入原始训练数据，设置分类器WELM的隐含层节点L，对应的最优正则化系数C，设置分类器RVM的核宽度σ进行网格法参数寻优，输出最优参数组。

在此实施例中寻找WELM隐含层节点数L、最优正则化系数C及RVM模型的核宽度σ的参数组合以满足算法的最优性能，L的寻优范围为{10,15,20,…,500}，步长为5；C的寻优范围为{2⁰,2¹,…,2¹⁸}，步长为1；σ的寻优范围为{2^-2.5,2^-2.4,…,2^2.5}，步长为0.1。

本发明在此实现例中的最优参数为：

L＝290；C＝4；σ＝0.9330

3)输入测试数据，步骤2)寻优得到的基分类器的隐含层节点L，对应的最优正则化系数C和RVM模型的核宽度σ，以及步骤1)训练得到M_stacking，M_stacking的输出分类结果即为待测数据对应的故障诊断结果。

根据以上步骤，采用经过数据填补及归一化处理的污水样本集进行仿真实验。实验环境为Intel Core i7处理器、12GB内存、Windows 7平台下的Matlab2014a软件；采用5折交叉验证法，取支持向量机(Support Vector Machine,SVM)、相关向量机(RVM)、加权极限学习机WELM、基于加权极限学习机的Bagging集成算法(Bagging_WELM)作对比算法，基于支持向量机的Bagging集成算法(Bagging_SVM)作对比算法，基于相关向量机的Bagging集成算法(Bagging_RVM)，基于加权极限学习机的Adaboost集成算法(Adaboost_WELM)，原始Stacking(基分类器选择SVM，RVM，WELM，元分类器选择WELM)作对比算法作对比算法。其中SVM与Bagging_SVM使用径向基核，由Matlab自动寻优得到核函数的比例值，并对预测指标进行标准化。RVM与Bagging_RVM采用网格法对核宽度σ进行寻优，寻优范围及其对应寻优步长与本发明寻优过程设置相同，寻优范围为{2^-2.5,2^-2.4,…,2^2.5}，步长为0.1。WELM与Bagging_WELM，Adaboost_WELM用网格法寻优，寻找基分类器的隐含层节点数L、正则化系数C和隐含层节点L的寻优范围及其对应寻优步长与本发明寻优过程设置相同，隐含层节点L的寻优范围为{10,15,20,…,500}，步长为5；C的寻优范围为{2⁰,2¹,…,2¹⁸}，其中，步长为1。原始Stacking的寻优参数与寻优范围与本发明完全一致。

实验结果如表5所示。

表5仿真实验结果

表5给出了本实施例下进行的对比仿真实验结果，同时列出了本发明所用算法(WBC-Stacking)及其对比模型SVM、RVM、WELM、Bagging_SVM、Bagging_RVM、Bagging_WELM、Adaboost_WELM、Stacking的实验结果。其中R1、R2、R3、R4分别表示污水数据四大类对应的每一类的分类准确率。从表中可知，虽然WBC-Stacking对于第一类样本(正常类)的分类准确率较其他对比算法略低，但是在其他三类的分类准确率中较其他算法取得较高的准确率。尤其在重要性最高的第四类(故障类)的分类准确率上，WBC-Stacking的分类准确率比其他对比算法要高。同时，WBC-Stacking在对比实验中取得了最高的整体G-mean值。由此可知，本发明所采用的算法比较适合应用于污水不平衡数据的分类诊断问题。

综上所述，本发明针对污水处理厂的故障诊断问题，重点研究了基于加权基分类器的stacking集成污水处理故障诊断方法。该方法通过构造一个两层的叠加式框架结构，选择3种对不平衡数据有不错分类效果的分类算法，即SVM，RVM，WELM作为基分类器，通过计算其权值后进行加权融合，并选择WELM作为最终输出诊断结果的分类器。仿真实验结果证明该方法提高了污水故障诊断过程中少数类的分类准确率，提高了整体G-mean值，值得推广。

上述实施例为本发明效果较好的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于加权基分类器的stacking集成污水处理故障诊断方法，其特征在于，包括以下步骤：

1)原始污水数据中某些样本在某些属性上存在缺失值，对这些样本采用均值法补全其缺失值，并将所有属性值归一化到[0,1]区间；

4)将步骤2)中的输出结果转化为概率型输出，即得到了每个原始污水样本分别属于4个类别的概率值，利用每个样本属于4个类别的概率值乘以在步骤3)中获得的基分类器的权值α_i，加上原始的类别标签，构造成新的训练集，称为元训练集；

6)用步骤1)相同的方法填补污水待测数据的缺失值，并将其归一化到[0,1]区间，通过第一层基分类器在训练数据集D上训练学习产生的模型M_k，K＝1,2,3，分别对应3个基分类器，对处理后的待测数据输出预测结果；

2.根据权利要求1所述的基于加权基分类器的stacking集成污水处理故障诊断方法，其特征在于，在步骤2)中，3折交叉验证的具体过程如下：

将训练数据集D随机分为3个大小相等的数据集D₁，D₂，D₃；定义D_j和D^-j＝D-D_j，j＝1,2,3，分别为3折交叉验证的第j折测试集和训练集；在训练集D^-j上训练基分类器得到模型

对于测试集D_j中的每一个样本，模型

会输出一个预测结果；当交叉验证过程结束，则能够得到基分类器对于整个训练样本的输出结果。

3.根据权利要求1所述的基于加权基分类器的stacking集成污水处理故障诊断方法，其特征在于，在步骤3)中，基分类器h_i(x)输出权值α_i表示为：

4.根据权利要求1所述的基于加权基分类器的stacking集成污水处理故障诊断方法，其特征在于，所述步骤4)包括以下步骤：

其中，x为某一样本，i为类别标签，m为类别个数，f_i(x)为该样本属于标签i的原始输出，p_i(x)为该样本属于标签i的概率型输出；通过此方法将基分类器WELM原输出结果A1转化为概率型输出结果A1'；

4.2)SVM和RVM的基本模型是针对二分类问题的，其输出为硬判决输出，即对于一个样本的预测结果为0和1；在此，基分类器SVM和RVM是利用一对一策略构建的多分类器，通过下述公式将硬判决输出转化为概率形式：

4.3)将A1'，A2'，A3'和训练集标签拼接起来构造成新的训练集，即

也称为元训练集，其中，train_label为原始训练样本类别标签。

5.根据权利要求1所述的基于加权基分类器的stacking集成污水处理故障诊断方法，其特征在于，在步骤8)中，基分类器及元分类器的网格法寻优参数具体如下：