CN110826611A - 基于多个元分类器加权集成的stacking污水处理故障诊断方法 - Google Patents
基于多个元分类器加权集成的stacking污水处理故障诊断方法 Download PDFInfo
- Publication number
- CN110826611A CN110826611A CN201911043358.1A CN201911043358A CN110826611A CN 110826611 A CN110826611 A CN 110826611A CN 201911043358 A CN201911043358 A CN 201911043358A CN 110826611 A CN110826611 A CN 110826611A
- Authority
- CN
- China
- Prior art keywords
- classifiers
- output
- meta
- sample
- stacking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 239000010865 sewage Substances 0.000 title claims abstract description 65
- 238000003745 diagnosis Methods 0.000 title claims abstract description 37
- 230000010354 integration Effects 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 69
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 25
- 230000008569 process Effects 0.000 claims abstract description 19
- 238000012706 support-vector machine Methods 0.000 claims description 38
- 238000005457 optimization Methods 0.000 claims description 16
- 238000002790 cross-validation Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 claims description 4
- 230000007812 deficiency Effects 0.000 claims description 4
- 229910052760 oxygen Inorganic materials 0.000 claims description 4
- 239000001301 oxygen Substances 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 206010066901 Treatment failure Diseases 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 5
- 238000002474 experimental method Methods 0.000 abstract description 4
- 238000007635 classification algorithm Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 21
- 238000009826 distribution Methods 0.000 description 18
- 239000011159 matrix material Substances 0.000 description 13
- 238000004088 simulation Methods 0.000 description 8
- 230000007547 defect Effects 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003851 biochemical process Effects 0.000 description 1
- 238000005660 chlorination reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 239000010802 sludge Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000002351 wastewater Substances 0.000 description 1
- 238000004065 wastewater treatment Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于多个元分类器加权集成的stacking污水处理故障诊断方法,通过构造一个两层的叠加式框架结构,选择3种对不平衡数据有不错分类效果的分类算法,即SVM、RVM、WELM作为基分类器,得到基分类器对原始训练集的预测结果作为第二层元分类器的输入,同样选择SVM、RVM、WELM作为元分类器,对元分类器进行加权集成得到最终诊断模型,通过最终诊断模型输出分类结果即为待测数据对应的故障诊断结果。实验证明,本方法通过对多个元分类器进行加权集成提高了算法的多样性和稳定性及对污水处理故障类的分类准确率,进而有效提高了污水处理过程中故障诊断的整体性能。
Description
技术领域
本发明涉及污水处理故障诊断的技术领域,尤其是指一种基于多个元分类器加权集成的stacking污水处理故障诊断方法。
背景技术
污水处理是一个复杂的,多变量的生化过程。污水处理厂发生故障容易引发一系列严重的污水污染问题。而污水处理过程的故障诊断可转化为一个模式识别的分类问题。污水数据由定期将污水厂采集到的数据及其当前工作状态组成,一段时间内的污水数据组成污水数据集。由于合格的污水处理厂发生故障的频率很低,采集到的污水数据集中故障状态下的数据往往远少于正常状态下的数据。这就导致污水数据集是分布高度不平衡集,即污水处理过程的故障诊断是一个数据不平衡的分类问题。
传统学习算法往往基于总体准确率对参数进行优化,这容易使分类结果更偏向多数类。但在现实应用场合更被看重的是少数类的分类准确率,即在污水处理故障诊断场合,更重要的是准确分类出作为少数类的故障类。准确分类出作为少数类的故障类对及时诊断污水处理厂的运行故障并及时进行处理有巨大的帮助。及时诊断并处理污水故障可稳定出水水质并减少污水对环境的污染,并减少维护费用。因此,应注重研究及时精确少数类的故障类的故障诊断算法。
发明内容
本发明的目的是为了解决现有学***衡数据有不错分类效果的分类算法,即SVM、RVM、WELM作为基分类器,得到基分类器对原始训练集的预测结果作为第二层元分类器的输入,同样选择SVM、RVM、WELM作为元分类器,对元分类器进行加权集成得到最终诊断模型。实验证明,本方法提高了对污水处理故障类的分类准确率,进而有效提高了污水处理过程中故障诊断的整体性能。
为实现上述目的,本发明所提供的技术方案为:基于多个元分类器加权集成的stacking污水处理故障诊断方法,包括以下步骤:
1)原始污水数据中某些样本在某些属性上存在缺失值,包括化学需氧量COD和生化需氧量BOD,对这些样本采用均值法补全其缺失值,并将所有属性值归一化到[0,1]区间,得到处理好的完整的污水样本;
2)利用步骤1)中处理好的完整的污水样本作为Stacking两层学习框架中的第一层基分类器的原始输入,其中基分类器选择有3个,分别为支持向量机SVM、加权极限学习机WELM和相关向量机RVM,分别对该3个基分类器进行3折交叉验证,得到第一层学习对每个污水样本的诊断结果,即3个基分类器对于每个污水样本在4个类别上的输出结果;
3)将步骤2)中的输出结果转化为概率型输出,即得到了每个原始污水样本分别属于4个类别的概率值,加上原始的类别标签,构造成新的训练集,称为元训练集;
4)选择支持向量机SVM、加权极限学习机WELM和相关向量机RVM作为元分类器,再进行参数寻优,需要寻优的参数有WELM的隐层节点数L、最优正则化系数C及RVM的核宽度σ,寻优方法为网格法,以寻优得到的最优参数为基础,训练基分类器和元分类器,然后再用步骤3)得到的元训练集分别训练3个元分类器,得到3个元分类器对于元训练集的G-mean值,定义基于G-mean值的元分类器输出权值计算公式,获得元分类器对应的输出权值;
5)通过步骤4)获得的输出权值对3个元分类器进行加权集成,得到最终的诊断模型Mstacking;
6)用步骤1)相同的方法填补污水待测数据的缺失值,并将其归一化到[0,1]区间,通过第一层基分类器在训练数据集D上训练学习产生的模型Mk,K=1,2,3,分别对应3个基分类器,对处理后的待测数据输出预测结果;
7)对步骤6)中的预测结果用步骤3)相同的方法进行处理,在此基础上构成Mstacking的输入,其输出分类结果即为待测数据对应的故障诊断结果。
在步骤2)中,3折交叉验证的具体过程如下:
将训练数据集D随机分为3个大小相等的数据集D1,D2,D3;定义Dj和D-j=D-Dj,j=1,2,3,分别为3折交叉验证的第j折测试集和训练集;在训练集D-j上训练基分类器得到模型k=1,2,3,对于测试集Dj中的每一个样本,模型会输出一个预测结果;当交叉验证过程结束,则能够得到基分类器对于整个训练数据集的输出结果。
所述步骤3)包括以下步骤:
3.1)基分类器WELM的输出为数值输出,通过下述公式将数值输出转化为概率形式:
其中,x为某一样本,i为类别标签,m为类别个数,fi(x)为该样本属于标签i的原始输出,P(fi(x))为该样本属于标签i的转换输出,pi(x)为该样本属于标签i的概率型输出;通过此方法将基分类器WELM原输出结果A1转化为概率型输出结果A1';
3.2)SVM和RVM的基本模型是针对二分类问题的,其输出为硬判决输出,即对于一个样本的预测结果为0和1;在此,基分类器SVM和RVM是利用一对一策略构建的多分类器,通过下述公式将硬判决输出转化为概率形式:
其中,x为某一样本,i为类别标签,m为类别个数,fi(x)为该样本属于标签i的原始输出,为排列组合公式,pi(x)为该样本属于标签i的概率型输出;通过此方法将基分类器SVM和RVM原输出结果A2,A3转化为概率型输出结果A2',A3';
3.3)将A1'、A2'、A3'和训练集标签拼接起来构造成新的训练集,即[A1'A2'A3'train_label],也称为元训练集,其中,train_label为原始训练样本类别标签。
在步骤4)中,基分类器及元分类器的网格法寻优参数具体如下:
寻找隐层节点数L、最优正则化系数C及RVM的核宽度σ的参数组合以满足算法的最优性能,L的寻优范围为{10,15,20,…,500},步长为5;C的寻优范围为{20,21,…,218},步长为1;σ的寻优范围为{2-2.5,2-2.4,…,22.5},步长为0.1。
在步骤4)中,元分类器对应的输出权值表示为:
其中,αi为输出权值,GMi为第i个元分类器对于元训练集的G-mean值,c为元分类器个数。
在步骤5)中,通过下述公式对3个元分类器进行加权集成:
其中,hi(x)为第i个元分类器,αi为第i个元分类器对应的输出权值,c为元分类器个数,m为类别个数,Mstacking为最终的诊断模型。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明方法采用stacking元学习策略构造了一个两层的叠加式结构作为整体算法框架,其中基分类器的输出作为元分类器的输入,使低层学习能够充分用于高层的归纳过程,进而发现并且学习基分类器在初始训练集上产生误差的原因,从而提高最终诊断结果的正确率。
2、本发明选择支持向量机、相关向量机、加权极限学***衡数据都具有不错的分类效果,单个基分类器的有效性保证了融合结果的可靠性。
3、本发明利用元学***衡数据时可能会出现的偏差,有效减少了学习过程中出现过拟合现象的风险,基分类器的多样性增强了算法的稳定性。
4、更注重不平衡污水数据中的故障类数据的分类性能,本发明采用G-mean值计算元分类器相应的权值,定义了基于G-mean的元分类器输出权值更新公式,提高了故障类别的识别正确率。
5、本发明选择支持向量机、相关向量机、加权极限学习机作为元分类器,对3个元分类器的输出结果进行加权集成,消除了单一元分类器在作出最终诊断时可能出现的特殊性,使得诊断结果更加稳定。
6、本发明的基分类器和元分类器都通过采用加权极限学***衡性,提高了污水故障诊断的整体G-mean值。
附图说明
图1为本发明方法的训练流程图。
图2为本发明方法的故障诊断流程图。
具体实施方式
为更加清楚地表述本发明实施例的目的、技术方案和优点,下面将结合本发明实施例中的附图来对本发明实施例中的技术方案进行全面的描述。需要指出的是本实施例仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例、本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本文采用加州大学数据(UCI)中的污水处理厂数据做为实验仿真的数据。污水测量数据来自西班牙某城市的污水处理厂,该处理厂包括三级处理,一级处理为预处理,二级处理为活性污泥处理,最后进行氯化处理。污水处理厂历时两年通过传感器获取和生化处理之后***的性能指标计算得到的527个样本。每个样本有38维属性,每个属性的含义如表1所示。将污水处理厂的运行状态分为13种,具体状态类别及其分布情况如表2所示。
表1污水数据属性的名称和含义
表2状态类别及其分布情况
由表2可见,正常状态下的样本数远大于其他状态的样本数。其中,第2、3、4、6、7、8、10、12、13类每类样本数最多只有4个。为降低故障诊断过程的复杂性,将样本重新分为4类,分类结果如表3所示。
表3 527个样本在4分类下的分布情况
在新的分类中,第一类表示正常状态,包括原始数据的第1、11类;第二类为正常状态但某些性能指标超过了平均值,包括原始数据第5类;第三类为正常状态但是进水流量低,包括原始数据第9类;第四类为故障类情况,包括原始数据的第2,3,4,6,7,8,10,12,13类。其中将第一、二类样本视为多数类,而第三、四类为少数类。结合表3各类的样本数容易看出,污水数据属于典型的重度不平衡数据。
由于各种现实原因,污水数据有时不能完整的记录某个时刻所有属性的数据。所有属性数据都被完整地记录下来的样本只有380个,其中包括6个第四类样本。直接删去不完整数据样本会损失大量少数类样本的信息。因此对污水数据的缺失数据进行填补。
目前存在成熟实用的数据填补方法,常用的数据填补方法有平均值填补法、特殊值填补法和最近邻距离填补法等。本发明采用近邻均值填补法对缺陷数据进行填补。具体做法是取缺陷数据近邻的5个数据的对应属性均值来作为缺陷数据的填补值。使用经过数据填补处理后的527个污水数据进行仿真实验。
在进行仿真实验时,传统学***衡数据学***衡。进行不平衡数据学***衡数据学习场合的性能使更注重评价分类器在少数类样本的分类准确率。本实施例采用G-mean值作为仿真实验结果的评价指标。
本实施例是多分类问题。对k类问题,G-mean的混淆矩阵如表4所示:
表4 k类问题的混淆矩阵
其中,第i类样本正确预测为第i类的样本个数为nii,预测错误的样本个数为nij(i≠j)。Ri分别表示对第i类样本的召回率其定义为:
G-mean定义为所有类的召回率的几何平均值,计算公式如下:
以下称本发明的故障诊断方法为MMW-Stacking(Multiple Meta-ClassifierWeighting Stacking),本发明在本实施例的具体实施过程,如图1和图2所示,包括以下步骤:
1)采用两层的叠加式结构作为整体算法框架,选择SVM,RVM,WELM作为第一层的基分类器,同样选择SVM,RVM,WELM作为第二层的元分类器,其中第一层基分类器的输出作为第二层元分类器的输入。具体应用中包括:
1.1)用训练样本分别对3个基分类器进行3折交叉验证,得到3个基分类器对训练样本的输出结果。
此处对本发明中应用的3个基分类器介绍如下:
设输入训练集为X={(x1,y1),(x2,y2),...,(xN,yN)}。训练集共有N个样本,样本含d个特征,被分为K类。其中yi为训练样本xi所对应的类别标签。yi为K维行向量。yi中只有{+1,-1}两种元素,有
1.1.1)支持向量机(SVM)基础模型是解决二分类问题的,遵循结构风险最小化是支持向量机用来构造决策超平面的重要准则,使得两类样本之间的分类间隔最大化,即需要解决以下优化问题:
yi(ω·xi+b)-1≥0,i=1,2,...,N (5)
式中,ω为权向量,b为分类阈值。非松弛变量xi≥0,C为惩罚系数,其值的大小影响的精度。把式(4)和式(5)转化为下列对偶问题:
式中,K(x,y)=h(x)·h(y)为核函数,它将样本数据从低维空间映射到线性可分的高维空间,通过选择合适的核函数与惩罚系数构造并找到最优解ai *,其中b*可以由任一支持向量用式求得,由此得到分类决策函数:
1.1.2)加权极限学习机(WELM)采用单隐层前馈神经网络(single-hidden layerfeedforward networks,SLFN)结构作为整体框架。设定隐含层节点个数为L,极限学习机的输出模型可表示为:
其中,βi表示第i个隐藏节点其对应输出节点的输出权值,δi表示输入层与第i个隐含节点的输入权值。θi为第i个隐含节点的偏置参数。oj为第j个训练样本下模型对应的输出。G(δi,θi,xj)为每个隐含层的激活函数,本实施例激活函数采用Sigmoid函数。
在训练过程中期望WELM模型的输出无误差的对训练集X进行拟合,有
即
有激发函数矩阵H写作
输出权值矩阵β写作
(11)式可写作
Hβ=Y (14)
其中
加权极限学***衡分类问题将极限学习机(Extreme Learning Machine,ELM)和加权策略进行结合得到的改进算法。根据类别对每个训练样本xi赋予一个权值wi,有
其中#ci为训练集中类别正好为训练样本xi的类型ci的样本数。
有权值矩阵W写作
当激活函数G(δi,θi,xj)无限可微时,参数δi,θi在训练开始时可随机选定,且在训练过程中不需要进行更改。其中δi在(-1,1)范围下随机生成,θi在(0,1)范围下随机生成。这时WELM的训练过程可转化为求解式(14)的最小二乘解,即转化为下列优化问题
其中ξi为对样本xi分类器的训练误差。通过KKT最优化条件定义Lagrange函数来求解式(11)的二次优化问题。定义li为Lagrange乘数,将式(16)转化为
通过求解式(17)可得hi(x)的隐层输出权值矩阵βi的解为
即
1.1.3)相关向量机(RVM)
1.1.3.1)RVM回归模型
给定训练样本集是样本数目,n是样本序号,d是样本属性维度,根据标准概率公式,假设目标是带有噪声的样本:
tn=y(xn;w)+εn (23)
其中函数y(x)被定义为
其中K(x,xi)表示核函数;wi表示模型的权值,w=[w0,w1,…wN]T是权值向量,εn为附加噪声,且满足高斯分布,即:εn~(0,σ2),因此有tn~N(y(xn,w),σ2),假设目标值tn之间是相互独立的,那么训练集的似然估计概率为:
其中t=[t0,t1,…tN]T,φ是一个N×(N+1)维的由多个核函数组成的一个高维的构造矩阵,φ=[φ(x1),φ(x2),…φ(xN)]T,这里的φ(xn)=[1,K(xn,x1),K(xn,x2),…K(xn,xN)]T。随着样本数目的增多,模型中参数的个数也会增加,如果对模型中的权值向量w和噪声方差进行最大似然估计,那么可能会导致模型过拟合,为了避免该问题,采用采用贝叶斯学习的方法,对权重参数进行先验假设,这种做法已经在支持向量机中应用并且得到不错的效果,即给权值参数定义一个零均值的高斯先验分布
α是N+1维的超参数向量,它决定着权值w的先验分布,经过多次迭代后,大部分超参数都会趋向于无穷大,对应的权值此时为0,以此保证模型的稀疏性。
同样需要对模型中的超参数α和噪声方差σ2进行限制,因为这些参数变量都是标量,所以采用比较适合伽马分布对其进行假设,即:
p(β)=Gamma(β|c,d) (28)
式中:β=α-1,并且
Gamma(a|a,b)=Γ(α)-1baαn-1e-ba (29)
根据贝叶斯理论,可得所有的参数在给定的训练样本数据集上的后验分布为:
给定一个新的测试样本Xn,可以得到对应的目标值ti的概率分布为:
p(t*|t)=∫p(t*|w,α,σ2)p(w,α,σ2|t)dwdαdσ2 (31)
由于很难对p(tn|t)=∫p(tn|w,α,σ2)p(w,α,σ2|t)dwdαdσ2进行积分运算,可以把后验概率公式分解为:
p(w,α,σ2|t)=p(w|t,α,σ2)p(α,σ2|t) (32)
由于权值的积分p(t|α,σ2)=∫p(t|w,σ2)p(w|α)dw是一种高斯卷积,可以得到权值后验分布为:
其中后验概率方差与均值分别为:
Σ=(σ-2φTφ+A)-1 (34)
u=Σσ-2φTt (35)
其中A=diag(α0,α1,…,αN)。
所以有:
其中C=(σ2I+φA-1φT)-1,对上式取对数可以得到:
对超参数α和方差σ2分别求偏导数,并令倒数为0,解方程可以得到超参数的迭代更新公式:
其中yi=1-αiΣii,Σii为后验权重协方差矩阵Σ的第i个对角线元素,ui表示第i个权重后验均值。同样可以求得噪声方差的迭代更新公式:
这里N表示的是训练数据样本的个数,而不是基函数的个数,通过迭代计算公式不断更新超参数α和方差σ2,同时通过不断更新协方差矩阵和权重后验均值,直到达到预先设定的收敛条件满足为止。通过不断地迭代计算,最终大部分超参数αi会趋向于无穷大,对应的权值后验概率会趋向于0,也就是对应的权重wi会趋向于0,所以这些权值对应的基函数会从模型中删除,不会对模型产生影响,从而实现了模型的稀疏性。
继续对p(t*|t)=∫p(t*|w,α,σ2)p(w,α,σ2|t)dwdαdσ2进行整理得到:
式中待测样本的先验分布和权值的后验分布都是服从高斯分布,所以p(t*|t)也服从高斯分布,上式可以写为:
式中y*表示预测输出,为模型预测方差,给定待测样本输入x*,计算如下:
y*=μTφ(x*)
1.1.3.2)RVM分类模型
在RVM分类中,分类模型最终的输出是类别的概率。对于一个二分类的问题,目标值tn∈{0,1},给定一个输入变量xn,期望获取它相对于每一类的后验概率,在这里对最后输出y(x;w)引入链接函数σ(y)=1/(1+e-1),使得后验概率p(t|x)服从伯努利分布,这样就可以得到目标向量t的似然函数为:
与回归模型不一样,这里不能直接计算权重后验概率p(w|t,α)或边际似然函数p(t|α)。针对此问题,可以采用基于拉普拉斯逼近的方法来解决,具体如下:
a、首先对于已知的超参数α的值,通过迭代计算后验概率分布给出最可能的权重值wMP。由于p(w|t,α)∝p(t|w)p(w|α),因此可以将权重后验分布概率极大化的过程转化为对p(t|w)p(w|α),的极大化,根据逻辑似然对数有:
其中yn=σ{y(xn;w)}。对上式采用二阶牛顿迭代方法可以快速的找到wMP。
b、然后对后验分布的对数形式进行二次逼近,即对上式进行二阶求导,可以得到:
其中B=diag(β1,β2,…,βN)是一个对角矩阵,βn=σ(y(xn))[1-σy(xn)],H为海森矩阵。协方差矩阵Σ可通过对H取负号再求逆得到。
c、利用协方差矩阵Σ和wMP(代替μ)的高斯逼近,超参数α可以利用迭代更新公式更新。
Σ=(φTBφ+A)-1
wMP=ΣφTBt (48)
根据得到的协方差和权重,对超参数进行更新,直到满足迭代结束条件。
1.2)将3个基分类器的输出结果转化为概率型输出,然后在此基础上构造新的训练集,也称为元训练集,主要包含以下步骤:
1.2.1)基分类器WELM的输出为数值输出,通过下述公式将数值输出转化为概率形式:
其中x为某一样本,i为类别标签,m为类别个数,fi(x)为该样本属于标签i的原始输出,pi(x)为该样本属于标签i的概率型输出。通过此方法将基分类器WELM原输出结果A1为概率型输出结果A1'。
1.2.2)SVM和RVM的基本模型是针对二分类问题的,其输出为硬判决输出,即对于一个样本的预测结果为0和1。在本方法中,基分类器SVM和RVM是利用一对一策略构建的多分类器,通过下述公式将硬判决输出转化为概率形式:
其中x为某一样本,i为类别标签,m为类别个数,fi(x)为该样本属于标签i的原始输出,pi(x)为该样本属于标签i的概率型输出。通过此方法将基分类器SVM和RVM原输出结果A2,A3转化为概率型输出结果A2',A3'。
1.2.3)将A1',A2',A3'和训练集标签拼接起来构造成新的训练集,即[A1'A2'A3'train_label],也称为元训练集。
1.3)定义新的基于不平衡分类性能指标G-mean值的元分类器输出权值计算公式,获得元分类器hi(x)对应的输出权值αi,公式如下:
其中GMi为第i个元分类器对于训练样本集的G-mean值,c为元分类器个数。
1.4)利用元训练集对元分类器进行训练,通过下述公式对元分类器进行加权集成,得到最终的模型Mstacking:
其中,hi(x)为第i个元分类器,αi为第i个元分类器对应的输出权值,c为元分类器个数,m为类别个数,Mstacking为最终的诊断模型。
2)输入原始训练数据,设置分类器WELM的隐含层节点L,对应的最优正则化系数C,设置分类器RVM的核宽度σ进行网格法参数寻优,输出最优参数组。
在此实施例中寻找WELM隐含层节点数L、最优正则化系数C及RVM模型的核宽度σ的参数组合以满足算法的最优性能,L的寻优范围为{10,15,20,…,500},步长为5;C的寻优范围为{20,21,…,218},步长为1;σ的寻优范围为{2-2.5,2-2.4,…,22.5},步长为0.1。
本发明在此实现例中的最优参数为:
L=90;C=16;σ=0.3536
3)输入测试数据,步骤2)寻优得到的基分类器的隐含层节点L,对应的最优正则化系数C和RVM模型的核宽度σ,以及步骤1)训练得到Mstacking,Mstacking的输出分类结果即为待测数据对应的故障诊断结果。
根据以上步骤,采用经过数据填补及归一化处理的污水样本集进行仿真实验。实验环境为Intel Core i7处理器、12GB内存、Windows 7平台下的Matlab2014a软件;采用5折交叉验证法,取支持向量机(Support Vector Machine,SVM)、相关向量机(RVM)、加权极限学习机WELM、基于加权极限学习机的Bagging集成算法(Bagging_WELM)作对比算法,基于支持向量机的Bagging集成算法(Bagging_SVM)作对比算法,基于相关向量机的Bagging集成算法(Bagging_RVM),基于加权极限学习机的Adaboost集成算法(Adaboost_WELM),原始Stacking(基分类器选择SVM,RVM,WELM,元分类器选择WELM)作对比算法作对比算法。其中SVM与Bagging_SVM使用径向基核,由Matlab自动寻优得到核函数的比例值,并对预测指标进行标准化。RVM与Bagging_RVM采用网格法对核宽度σ进行寻优,寻优范围及其对应寻优步长与本发明寻优过程设置相同,寻优范围为{2-2.5,2-2.4,…,22.5},步长为0.1。WELM与Bagging_WELM,Adaboost_WELM用网格法寻优,寻找基分类器的隐含层节点数L、正则化系数C和隐含层节点L的寻优范围及其对应寻优步长与本发明寻优过程设置相同,隐含层节点L的寻优范围为{10,15,20,…,500},步长为5;C的寻优范围为{20,21,…,218},其中,步长为1。原始Stacking的寻优参数与寻优范围与本发明完全一致。
实验结果如表5所示。
表5仿真实验结果
Algorithms | G-mean% | R1% | R2% | R3% | R4% |
MMW-Stacking | 83.13 | 89.26 | 71.8 | 79.95 | 93.33 |
Stacking | 82.31 | 88.99 | 69.92 | 79.78 | 93.33 |
SVM | 66.92 | 93.76 | 63.83 | 52.70 | 66.67 |
RVM | 77.31 | 90.75 | 74.17 | 62.31 | 86.67 |
WELM | 75.62 | 78.18 | 67.75 | 85.45 | 75.33 |
Bagging_SVM | 70.59 | 90.18 | 72.83 | 59.95 | 66.67 |
Bagging_RVM | 77.28 | 91.05 | 73.33 | 63.48 | 86.67 |
Bagging_WELM | 75.2 | 79.91 | 66.58 | 84.28 | 74.67 |
Adaboost_WELM | 76.78 | 82.3 | 72 | 79.39 | 76 |
表5给出了本实施例下进行的对比仿真实验结果,同时列出了本发明所用算法(MMW-Stacking)及其对比模型SVM、RVM、WELM、Bagging_SVM、Bagging_RVM、Bagging_WELM、Adaboost_WELM、Stacking的实验结果。其中R1、R2、R3、R4分别表示污水数据四大类对应的每一类的分类准确率。从表中可知,虽然MMW-Stacking对于第一类样本(正常类)的分类准确率较其它对比算法略低,但是在其它三类的分类准确率中较其他算法取得较高的准确率。尤其在重要性最高的第四类(故障类)的分类准确率上,MMW-Stacking的分类准确率比其它对比算法要高。同时,MMW-Stacking在对比实验中取得了最高的整体G-mean值。由此可知,本发明所采用的算法比较适合应用于污水不平衡数据的分类诊断问题。
综上所述,本发明针对污水处理厂的故障诊断问题,重点研究了基于多个元分类器加权集成的stacking污水处理故障诊断。本发明方法通过构造一个两层的叠加式框架结构,选择3种对不平衡数据有不错分类效果的分类算法,即SVM,RVM,WELM作为基分类器,对其输出结果进行融合形成元训练集,并选择SVM,RVM,WELM作为元分类器,计算其输出权值,通过加权集成得到最终输出诊断模型。仿真实验结果证明了本发明方法可以提高污水故障诊断过程中少数类的分类准确率,提高了整体G-mean值,值得推广。
上述实施例为本发明效果较好的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.基于多个元分类器加权集成的stacking污水处理故障诊断方法,其特征在于,包括以下步骤:
1)原始污水数据中某些样本在某些属性上存在缺失值,包括化学需氧量COD和生化需氧量BOD,对这些样本采用均值法补全其缺失值,并将所有属性值归一化到[0,1]区间,得到处理好的完整的污水样本;
2)利用步骤1)中处理好的完整的污水样本作为Stacking两层学习框架中的第一层基分类器的原始输入,其中基分类器选择有3个,分别为支持向量机SVM、加权极限学习机WELM和相关向量机RVM,分别对该3个基分类器进行3折交叉验证,得到第一层学习对每个污水样本的诊断结果,即3个基分类器对于每个污水样本在4个类别上的输出结果;
3)将步骤2)中的输出结果转化为概率型输出,即得到了每个原始污水样本分别属于4个类别的概率值,加上原始的类别标签,构造成新的训练集,称为元训练集;
4)选择支持向量机SVM、加权极限学习机WELM和相关向量机RVM作为元分类器,再进行参数寻优,需要寻优的参数有WELM的隐层节点数L、最优正则化系数C及RVM的核宽度σ,寻优方法为网格法,以寻优得到的最优参数为基础,训练基分类器和元分类器,然后再用步骤3)得到的元训练集分别训练3个元分类器,得到3个元分类器对于元训练集的G-mean值,定义基于G-mean值的元分类器输出权值计算公式,获得元分类器对应的输出权值;
5)通过步骤4)获得的输出权值对3个元分类器进行加权集成,得到最终的诊断模型Mstacking;
6)用步骤1)相同的方法填补污水待测数据的缺失值,并将其归一化到[0,1]区间,通过第一层基分类器在训练数据集D上训练学习产生的模型Mk,K=1,2,3,分别对应3个基分类器,对处理后的待测数据输出预测结果;
7)对步骤6)中的预测结果用步骤3)相同的方法进行处理,在此基础上构成Mstacking的输入,其输出分类结果即为待测数据对应的故障诊断结果。
3.根据权利要求1所述的基于多个元分类器加权集成的stacking污水处理故障诊断方法,其特征在于,所述步骤3)包括以下步骤:
3.1)基分类器WELM的输出为数值输出,通过下述公式将数值输出转化为概率形式:
其中,x为某一样本,i为类别标签,m为类别个数,fi(x)为该样本属于标签i的原始输出,P(fi(x))为该样本属于标签i的转换输出,pi(x)为该样本属于标签i的概率型输出;通过此方法将基分类器WELM原输出结果A1转化为概率型输出结果A1';
3.2)SVM和RVM的基本模型是针对二分类问题的,其输出为硬判决输出,即对于一个样本的预测结果为0和1;在此,基分类器SVM和RVM是利用一对一策略构建的多分类器,通过下述公式将硬判决输出转化为概率形式:
其中,x为某一样本,i为类别标签,m为类别个数,fi(x)为该样本属于标签i的原始输出,为排列组合公式,pi(x)为该样本属于标签i的概率型输出;通过此方法将基分类器SVM和RVM原输出结果A2,A3转化为概率型输出结果A2',A3';
3.3)将A1'、A2'、A3'和训练集标签拼接起来构造成新的训练集,即[A1' A2' A3'train_label],也称为元训练集,其中,train_label为原始训练样本类别标签。
4.根据权利要求1所述的基于多个元分类器加权集成的stacking污水处理故障诊断方法,其特征在于,在步骤4)中,基分类器及元分类器的网格法寻优参数具体如下:
寻找隐层节点数L、最优正则化系数C及RVM的核宽度σ的参数组合以满足算法的最优性能,L的寻优范围为{10,15,20,…,500},步长为5;C的寻优范围为{20,21,…,218},步长为1;σ的寻优范围为{2-2.5,2-2.4,…,22.5},步长为0.1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911043358.1A CN110826611A (zh) | 2019-10-30 | 2019-10-30 | 基于多个元分类器加权集成的stacking污水处理故障诊断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911043358.1A CN110826611A (zh) | 2019-10-30 | 2019-10-30 | 基于多个元分类器加权集成的stacking污水处理故障诊断方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110826611A true CN110826611A (zh) | 2020-02-21 |
Family
ID=69551295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911043358.1A Pending CN110826611A (zh) | 2019-10-30 | 2019-10-30 | 基于多个元分类器加权集成的stacking污水处理故障诊断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110826611A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111427265A (zh) * | 2020-03-19 | 2020-07-17 | 中南大学 | 基于迁移学习的重金属废水处理过程异常工况智能化监测方法、装置及存储介质 |
CN111488946A (zh) * | 2020-04-28 | 2020-08-04 | 东南大学 | 基于信息融合的雷达伺服***故障诊断方法 |
CN112837677A (zh) * | 2020-10-13 | 2021-05-25 | 讯飞智元信息科技有限公司 | 一种有害音频检测方法及装置 |
CN113011530A (zh) * | 2021-04-29 | 2021-06-22 | 国网新疆电力有限公司营销服务中心(资金集约中心、计量中心) | 一种基于多分类器融合的智能电表故障预测方法 |
CN116797557A (zh) * | 2023-05-31 | 2023-09-22 | 浙江沃乐科技有限公司 | 一种用于厌氧氨氧化污泥活性智能感知的装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228716A (zh) * | 2017-12-05 | 2018-06-29 | 华南理工大学 | 基于加权极限学习机的SMOTE_Bagging集成污水处理故障诊断方法 |
CN110009030A (zh) * | 2019-03-29 | 2019-07-12 | 华南理工大学 | 基于stacking元学习策略的污水处理故障诊断方法 |
CN110363230A (zh) * | 2019-06-27 | 2019-10-22 | 华南理工大学 | 基于加权基分类器的stacking集成污水处理故障诊断方法 |
-
2019
- 2019-10-30 CN CN201911043358.1A patent/CN110826611A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228716A (zh) * | 2017-12-05 | 2018-06-29 | 华南理工大学 | 基于加权极限学习机的SMOTE_Bagging集成污水处理故障诊断方法 |
CN110009030A (zh) * | 2019-03-29 | 2019-07-12 | 华南理工大学 | 基于stacking元学习策略的污水处理故障诊断方法 |
CN110363230A (zh) * | 2019-06-27 | 2019-10-22 | 华南理工大学 | 基于加权基分类器的stacking集成污水处理故障诊断方法 |
Non-Patent Citations (2)
Title |
---|
DONG WANG 等,: "The Weighted Multiple Meta-Models Stacking Method for Regression Problem", 《2019 CHINESE CONTROL CONFERENCE (CCC)》 * |
许玉格 等,: "基于不平衡分类的Bagging集成污水处理故障诊断", 《华南理工大学学报(自然科学版)》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111427265A (zh) * | 2020-03-19 | 2020-07-17 | 中南大学 | 基于迁移学习的重金属废水处理过程异常工况智能化监测方法、装置及存储介质 |
CN111427265B (zh) * | 2020-03-19 | 2021-03-16 | 中南大学 | 基于迁移学习的重金属废水处理过程异常工况智能化监测方法、装置及存储介质 |
CN111488946A (zh) * | 2020-04-28 | 2020-08-04 | 东南大学 | 基于信息融合的雷达伺服***故障诊断方法 |
CN112837677A (zh) * | 2020-10-13 | 2021-05-25 | 讯飞智元信息科技有限公司 | 一种有害音频检测方法及装置 |
CN113011530A (zh) * | 2021-04-29 | 2021-06-22 | 国网新疆电力有限公司营销服务中心(资金集约中心、计量中心) | 一种基于多分类器融合的智能电表故障预测方法 |
CN116797557A (zh) * | 2023-05-31 | 2023-09-22 | 浙江沃乐科技有限公司 | 一种用于厌氧氨氧化污泥活性智能感知的装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110009030B (zh) | 基于stacking元学习策略的污水处理故障诊断方法 | |
CN110363230B (zh) | 基于加权基分类器的stacking集成污水处理故障诊断方法 | |
CN108228716B (zh) | 基于加权极限学习机的SMOTE_Bagging集成污水处理故障诊断方法 | |
CN110826611A (zh) | 基于多个元分类器加权集成的stacking污水处理故障诊断方法 | |
CN110175386B (zh) | 变电站电气设备温度预测方法 | |
WO2020220544A1 (zh) | 不平衡数据分类模型训练方法、装置、设备及存储介质 | |
CN112070128B (zh) | 一种基于深度学习的变压器故障诊断方法 | |
CN113884290B (zh) | 基于自训练半监督生成对抗网络的调压器故障诊断方法 | |
Foygel et al. | Bayesian model choice and information criteria in sparse generalized linear models | |
CN108846512B (zh) | 基于择优分类的水质预测方法 | |
Trawiński et al. | A genetic fuzzy linguistic combination method for fuzzy rule-based multiclassifiers | |
CN109558893B (zh) | 基于重采样池的快速集成污水处理故障诊断方法 | |
Fu et al. | Construction of EBRB classifier for imbalanced data based on Fuzzy C-Means clustering | |
CN112966114A (zh) | 基于对称图卷积神经网络的文献分类方法和装置 | |
CN109492748B (zh) | 一种基于卷积神经网络的电力***的中长期负荷预测模型建立方法 | |
CN115661550B (zh) | 基于生成对抗网络的图数据类别不平衡分类方法及装置 | |
CN103440493A (zh) | 基于相关向量机的高光谱影像模糊分类方法及装置 | |
CN112418476A (zh) | 一种超短期电力负荷预测方法 | |
CN114609994A (zh) | 基于多粒度正则化重平衡增量学习的故障诊断方法及装置 | |
CN114565021A (zh) | 基于量子循环神经网络的金融资产定价方法、***及存储介质 | |
CN113988177A (zh) | 一种水质传感器异常数据检测与故障诊断方法 | |
CN109409434A (zh) | 基于随机森林的肝脏疾病数据分类规则提取的方法 | |
CN111209939A (zh) | 一种具有智能参数优化模块的svm分类预测方法 | |
CN116303786B (zh) | 一种基于多维数据融合算法的区块链金融大数据管理*** | |
Titsias et al. | A probabilistic RBF network for classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200221 |