CN111191726A

CN111191726A - 一种基于弱监督学习多层感知器的故障分类方法

Info

Publication number: CN111191726A
Application number: CN201911418196.5A
Authority: CN
Inventors: 葛志强; 廖思奋
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-22
Anticipated expiration: 2039-12-31
Also published as: CN111191726B

Abstract

本发明公开了一种基于弱监督学习多层感知器的过程数据故障分类方法，它由多层感知器，BatchNormalization层，Dropout层和Softmax输出层组成的有监督分类网络和用于获取样本标签不准确情况的高斯混合模型组成；多层感知器能够从不准确标签数据中学习数据的特征表示，此外，高斯混合模型对多层感知器提取的特征进行无监督聚类，聚类的结果可以用于估计各类样本不准确标签与潜在的样本真实标签的关系，即标签概率转移矩阵，并且利用估计的标签概率转移矩阵修正网络损失函数对分类网络进行第二次训练，提高网络对不准确标签样本的分类精度。本发明可以适用工业过程数据样本部分标签标注错误，即不准确标签的故障分类的情形。

Description

一种基于弱监督学习多层感知器的故障分类方法

技术领域

本发明属于工业过程故障诊断和分类领域，具体地涉及一种基于弱监督学习多层感知器的故障分类方法。

背景技术

在工业过程监测中，当检测到故障发生后，需要对故障信息进行进一步分析，而故障分类是其中的一个重要环节，获得发生故障类别，有利于进行工业过程的恢复。

在传统的故障分类中，都假设获取的数据样本标签是精确的，从而进行模型训练，然而，工业过程数据的标签通过外部知识库、规则库或者人工标定等方式生成，样本的标签可能不准确。此外，不准确标签样本相比准确标签样本更容易获得，成本更低。样本标签并不准确已成为模型不可忽视的特点。因此，在实际中对不准确标签样本进行弱监督学习建模，能有利于提高模型对故障样本的分类精度。

发明内容

针对目前工业过程中样本标签可能并不准确等问题，本发明提出了一种基于弱监督学习多层感知器的故障分类方法。

本发明的目的是通过如下技术方案实现的：一种基于弱监督学习的多层感知器的过程数据故障分类方法，所述基于弱监督学习的多层感知器包括：两层感知器MLP、Softmax输出层和高斯混合模型GMM。所述过程数据故障分类方法具体包括如下步骤：

步骤一：收集历史工业过程中含有不准确标签的样本作为训练数据集

其中,

为不准确标签数据样本，

为该样本的标签，

N表示训练数据集的样本个数,K为样本类别数。

步骤二：将步骤一中收集到的训练数据集D标准化，即将有标签样本集X每个变量映射为均值为0，方差为1的样本集X_std，并通过one-hot编码将标签集Y每个样本标签转化为一维向量，得到标准化数据集

步骤三：首先将新数据集D_std作为输入，对感知器MLP的网络进行第一次有监督训练，在Softmax输出层得到样本集X_std属于其标签

的后验概率。

步骤四：将步骤三得到的后验概率作为高斯混合模型GMM的输入，并训练高斯混合模型，用训练完成后的高斯混合模型参数

来估计标签概率转移矩阵T，得到估计矩阵

步骤五：根据

来修正步骤三感知器MLP拟合不准确标签样本的损失函数，以步骤二得到的数据集D_std作为输入，第二次有监督训练步骤三感知器MLP，完成弱监督学习，得到训练好的WS-MLP网络；

步骤六：收集新的未知故障类别的工业过程数据，按照步骤二的方法将过程数据标准化，得到数据集d_std,输入到步骤五训练好的WS-MLP网络，求取样本对应每个故障类别的后验概率，把后验概率最大的类别，作为该样本的类别，实现样本的故障分类。

进一步地，步骤三具体包括如下步骤：

(3.1)构建感知器MLP的网络，所述感知器MLP的网络由依次连接的第一层隐层、BatchNormalization层、Dropout层、第二层隐层、BatchNormalization层、Dropout层和Softmax层组成。其中，第一层隐层和第二层隐层的权重矩阵和偏置向量分别为W₁,b₁,W₂,b₂,第二层隐层到Softmax层的权重矩阵和偏置向量分别为W₃,b₃，将这些网络参数表示为θ＝{W₁,b₁,W₂,b₂,W₃,b₃}。

(3.2)标准化后样本集D_std作为输入，对感知器MLP的网络进行有监督训练，其中使用交叉熵损失函数：

其中，

是MLP网络的最后一层的表示。

损失函数通过反向传播算法(BP)对整个感知器MLP的网络进行参数调整，经过多次迭代损失收敛后，得到整个网络的参数，完成训练。

进一步地，步骤四具体包括如下步骤：

(4.1)不准确标签样本集的每类样本由标签准确的样本和标签错误的样本组成，作出以下假设：假设不准确标签的产生与输入独立，即某类样本标记成其他类别的概率相同。并且假设MLP网络具有感知一致性，即MLP网络对每个类别中标签准确的样本和标签错误的样本的特征表示分别服从高斯分布。

根据假设，可以得到：

其中，

是样本集D_std的一个样本表示，y是该样本潜在的真实标签，p(·)表示概率，eⁱ,i∈{1,2,L,K}表示在

空间上，第i个元素为1，其他元素为0的向量，θ表示MLP网络中所有的权重矩阵和偏置向量参数，μ,Σ分别表示高斯分布未知的均值向量和协方差矩阵，

和

分别表示所有样本和类别为i样本的高斯分布密度，T表示标签概率转移矩阵，并且定义

(4.2)对于不同类别样本子集

使用高斯混合模型建模：

其中，xⁱ表示属于数据集

的样本数据，

表示

┐i表示除类别i外的其他类别。

(4.3)建立两组分的高斯混合模型，使用最大期望化(EM)算法完成高斯混合模型的参数估计，求解出

即

期望步(E步)时，计算Q函数：

其中t为迭代次数。

计算模型对于观测数据

的责任度

其中，

表示xⁱ的第n个样本。

极大步(M步)时，估计高斯分布平均值μ_m和混合系数α_m。

其中，S_i表示

样本个数。

E步和M步交替迭代到模型参数收敛或者预设的最大迭代次数。求解出

即

(4.4)根据公式

求解得到混合系数

并用此来得到标签概率转移矩阵T的估计值

其中，

表示估计矩阵

的第i行第k列的元素。

进一步地，步骤五中，感知器MLP的网络第二次训练使用修正损失函数为：

与现有技术相比，本发明的有益效果是，本发明可以在获得有标签样本标签不准确场景进行建模，通过对不准确标签样本进行标签概率转移矩阵评估，并用于修正分类网络的损失函数，完成弱监督学习，从而提升模型对不准确标签样本的分类精度。

附图说明

图1是TennesseeEastman(TE)过程流程图；

图2是MLP网络和基于弱监督学习的多层感知器(WS-MLP)对9类TE过程故障情况在5种标签噪声比例下的分类精度对比图。

具体实施方式

下面结合具体实施方式对本发明基于弱监督学习多层感知器的故障分类方法作进一步的详述。

一种基于弱监督学习的多层感知器的过程数据故障分类方法，其特征在于，所述基于弱监督学习的多层感知器包括：两层感知器MLP、Softmax输出层和高斯混合模型GMM。所述过程数据故障分类方法具体包括如下步骤：

其中,

为不准确标签数据样本，

为该样本的标签，

N表示训练数据集的样本个数,K为样本类别数。

的后验概率。该过程具体包括以下子步骤：

其中，

是MLP网络的最后一层的表示。

来估计标签概率转移矩阵T，得到估计矩阵

一般标签概率转移矩阵是难于获得的，根据假设不准确标签的产生与输入独立，和MLP网络具有感知一致性，并利用高斯混合模型能对MLP网络第一次训练结果进行无监督学习，从而将高斯混合模型学习到的混合系数近似标签概率转移矩阵中的元素，具体包括以下步骤：

根据假设，可以得到：

其中，

是样本集D_std的一个样本表示，y是该样本潜在的真实标签，p(·)表示概率，eⁱ,i∈{1,2,…,K}表示在

和

(4.2)对于不同类别样本子集

使用高斯混合模型建模：

其中，xⁱ表示属于数据集

的样本数据，

表示

┐i表示除类别i外的其他类别。

即

期望步(E步)时，计算Q函数：

其中t为迭代次数。

计算模型对于观测数据

的责任度

其中，

表示xⁱ的第n个样本。

极大步(M步)时，估计高斯分布平均值μ_m和混合系数α_m。

其中，S_i表示

样本个数。

即

(4.4)根据公式

求解得到混合系数

并用此来得到标签概率转移矩阵T的估计值

其中，

表示估计矩阵

的第i行第k列的元素。

步骤五：根据

来修正步骤三感知器MLP拟合不准确标签样本的损失函数，以步骤二得到的数据集D_std作为输入，第二次有监督训练步骤三感知器MLP的网络，完成弱监督学习，得到训练好的WS-MLP网络。

第二次感知器MLP的网络训练使用修正损失函数为：

为了评价该故障分类模型的分类效果，定义某类故障对应的分类F₁指标，计算公式如下：

precision＝TP/(TP+FP)

recall＝TP/(TP+FN)

其中，TP为该类故障样本分类正确的样本数；FP为将其他类别样本误分为该类故障的样本数，FN为该类故障样本分类错误的样本数。

实施例

以下结合一个具体的TE过程的例子来说明基于弱监督学习的多层感知器的故障分类方法的性能。TE过程是故障诊断与故障分类领域常用的标准数据集，整个数据集包括53个过程变量，其工艺流程如图1所示。该流程由气液分离塔，连续搅拌式反应釜，分凝器，离心式压缩机，再沸器等5个操作单元组成。

选取TE过程中的9种故障，表1给出了选取的这9类故障的具体情况。

表1：TE过程故障列表

针对该过程，将22种过程测量变量和12种控制变量共34个变量作为建模变量，在9类故障工况数据上测试分类性能。

MLP网络由依次连接的第一层隐层、BatchNormalization层、Dropout层、第二层隐层、BatchNormalization层、Dropout层和Softmax层组成。MLP网络的的输入节点数为34，两个隐含层节点数分别为200,100，最后Softmax层节点数为9，BatchNormalization层的动量值均设为0.5，Dropout层节点丢失的比例均为0.5，使用初始学习率为0.001的Adam优化器，批次大小为110，迭代次数为30次。

在图2中，展示了MLP网络和基于弱监督学习多层感知器(WS-MLP)两种模型在F1指标下的分类效果对比，将两种网络的MLP隐层节点保持一致，通过调整输入样本的标签不准确率，分别设置了0％，10％，20％，30％，40％，50％比例的样本标签是标错，进行观察分类指标F1的变化情况。可以看出WS-MLP除了在样本标签是准确(即0％的样本标签标错)，在其他情形都是比MLP网络的分类效果好，验证了本方法中高斯混合模型估计标签概率转移矩阵及利用其进行MLP网络损失函数修正所带来的分类性能提升；同时可以看出，WS-MLP模型在标签准确的情况分类性能和MLP网络接近，说明WS-MLP不仅适用于不准确标签样本，也适合准确标签样本的故障分类中。