CN110647117A

CN110647117A - 一种化工过程故障识别方法及***

Info

Publication number: CN110647117A
Application number: CN201910844132.5A
Authority: CN
Inventors: 田文德; 贾旭清; 刘子健; 张士发
Original assignee: Qingdao University of Science and Technology
Current assignee: Qingdao University of Science and Technology
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2020-01-03
Anticipated expiration: 2039-09-06
Also published as: CN110647117B

Abstract

本公开提出了一种化工过程故障识别方法及***，采用应用于标签昂贵的化工故障识别领域，采用动态主动安全半监督支持向量机模型(简称为PCA‑DAS4VM模型)识别化工过程运行状态，将主成分分析方法与动态主动安全半监督支持向量机结合，弥补了传统监督学习对于标签数据数量的要求，提高了半监督学习的识别精度。采用主成分分析方能够消除化工过程噪声和冗余数据，结合历史信息和未来信息进行异常工况故障识别，有效地选择和标记高熵值的无标记数据，充分利用无标签数据提升识别模型性能，实现了高效和完整的进行化工过程故障识别工作，识别准确度更高，识别速度更快有益于推动化工安全的发展。

Description

一种化工过程故障识别方法及***

技术领域

本公开涉及化工过程故障识别相关技术领域，具体的说，是涉及一种化工过程故障识别方法及***。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，并不必然构成在先技术。

根据化工企业中的事故统计分析发现，任何重大事故发生之前，必然会有多个微小异常发生。因此，针对化工过程进行故障识别研究，及时发现潜在的异常状况，对保持化工装置的安全平稳运行具有重要的理论和现实意义。

发明人发现，现有的工艺故障识别方法主要分为：定性模型、定量模型和数据驱动的方法。其中所有的数据驱动故障识别方法中，监督学习技术对于化工过程故障识别展现了良好的识别结果，识别精度达到92％以上。然而，实际化工过程中的标签数据数量往往达不到监督学习的要求，给无标签数据增加标签一般采用人力根据经验添加，标记大量容易收集的无标签化工数据代价也是昂贵的。

半监督学习目前已经应用于多个领域，例如数字识别、情感分类、医学图像分类等等。在一些研究中，传统监督学习对于标签数据数量的要求比较高，在基于相同数量标签数据的情况下，现有的半监督学习方法比监督学习体现出更差的性能。因此，应用半监督学习到化工过程故障识别是一个很少研究的主题。

发明内容

本公开为了解决上述问题，提出了一种化工过程故障识别方法及***，应用于标签昂贵的化工故障识别领域，将主成分分析方法与动态主动安全半监督支持向量机的结合方法，采用动态主动安全半监督支持向量机模型(简称为PCA-DAS4VM模型)识别化工过程运行状态，弥补了传统监督学习对于标签数据数量的要求，提高了半监督学习的识别精度。

为了实现上述目的，本公开采用如下技术方案：

一个或多个实施例提供了一种化工过程故障识别方法，包括如下步骤：

实时获取化工生产过程中的运行数据；

对获取的运行数据进行预处理；

采用主成分分析方法选择运行数据中的关键特征数据；

基于半监督学习方法建立动态主动安全半监督支持向量机模型，将关键特征数据输入训练好的动态主动安全半监督支持向量机模型，输出化工过程的运行状态。

进一步地，关键特征数据包括有标签数据和无标签数据，动态主动安全半监督支持向量机模型对关键数据的处理包括采用主动学习方法为无标签数据添加标签的步骤。

进一步地，所述采用主成分分析方法选择运行数据中的关键特征数据，包括如下步骤：

计算预处理后的数据矩阵的特征协方差矩阵及协方差矩阵的特征值、特征向量；按方差贡献率从大到小排序，获得方差贡献率之和超过设定比例阈值的变量作为主成分变量；

根据主成分变量建立主元线性表达式,根据特征值计算各主元线性表达式中主成分变量的系数；

根据主元线性表达式中主成分变量的系数，获得综合得分模型,通过主成分变量的方差计算综合得分模型中的变量系数；

对所得综合得分模型中的变量系数进行归一化，重新确定变量权重；

将重新确定变量权重按照权重值大小进行排序，权重总和高于设定阈值的变量对应的运行数据为关键特征数据。

进一步地，根据特征值计算各主元线性表达式中主成分变量的系数，计算公式为：

其中，coe是第d个主元线性表达式中变量q的系数；v是变量q的第d个主元；e是第d个主元的特征根。

或

根据主元线性表达式中主成分变量的系数，计算综合得分模型中的变量系数，计算公式为：

其中，方程中w是综合得分模型中变量q的系数；o是主成分数量；s是第d个主元的方差。

进一步地，所述动态主动安全半监督支持向量机模型的训练过程，包括如下步骤：

获取化工生产过程的历史数据，所述历史数据包括有故障数据和无故障数据；

对获取的历史数据进行预处理；

采用主成分分析方法选择运行数据中的关键特征数据，所述关键特征数据包括有标签数据和无标签数据；

将采用主动学习方法为无标签数据添加标签，将添加标签后的数据与有标签数据作为输入，输入动态主动安全半监督支持向量机模型进行训练，以故障类型或者运行正常为输出，获得动态主动安全半监督支持向量机模型的参数。

进一步地，所述将采用主动学习方法为无标签数据添加标签，包括如下步骤：

结合化工过程数据的历史信息和未来信息优化识别模型的伪标签置信度；

根据伪标签置信度计算关键特征数据的熵值，采用主动学习挑选高熵值的关键特征数据，基于知识本体为关键特征数据的添加数据标签。

进一步地，所述结合化工过程数据的历史信息和未来信息优化识别模型的伪标签置信度的方法具体为：

将历史数据按照故障分类，得到对应k个故障的k个类别；

计算每个数据属于某各类别K的置信度,根据计算的置信度采用均值法计算每个关键特征数据的伪标签置信度。

一种化工过程故障识别***，包括：

数据获取模块：用于实时获取化工生产过程中的运行数据；

预处理模块：用于对获取的运行数据进行预处理；

关键特征数据提取模块：用于采用主成分分析方法选择运行数据中的关键特征数据；

识别模块：用于将关键特征数据输入训练好的动态主动安全半监督支持向量机模型，输出化工过程的运行状态。

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述方法所述的步骤。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述方法所述的步骤。

与现有技术相比，本公开的有益效果为：

本公开将主成分分析方法与动态主动安全半监督支持向量机结合，弥补了传统监督学习对于标签数据数量的要求，提高了半监督学习的识别精度。本公开采用主成分分析方法能够消除化工过程噪声和冗余数据，结合历史信息和未来信息进行异常工况故障识别，有效地选择和标记高熵值的无标记数据，基于知识本体建立了图形化剧情对象模型，根据所建立的图形化剧情对象模型依据专家知识确定无标签数据的标签。充分利用无标签数据提升识别模型性能，实现了高效和完整的进行化工过程故障识别工作，识别准确度更高，识别速度更快有益于推动化工安全的发展。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的限定。

图1为一个或多个实施例的化工过程故障识别方法流程图；

图2为本公开实施例1的训练过程中TE过程故障4的主成分方差百分比；

图3为本公开实施例1的训练过程中TE过程故障4的主成分特征值；

图4为本公开实施例1的训练过程中TE过程故障4的关键测量变量权重；

图5为本公开实施例1的训练过程中20种TE故障中确定的关键测量变量；

图6为不同未标记数据数量下的PCA-DAS4VM准确性对比；

图7为基于知识本体的TE过程图形化剧情对象模型；

图8为TE过程故障4的图形化剧情对象模型；

图9为PCA-S4VM、DAS4VM和PCA-DAS4VM模型的F1分数对比；

图10为PCA-S4VM、DAS4VM和PCA-DAS4VM模型的FPR对比；

图11为PCA-S4VM、DAS4VM和PCA-DAS4VM模型的FDR对比；

图12为PCA-S4VM、DAS4VM和PCA-DAS4VM模型的G-mean对比；

图13为DSSAE、ALSemiFDA和PCA-DAS4VM模型的准确率对比。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是，在不冲突的情况下，本公开中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。

实施例1

在一个或多个实施方式中公开的技术方案中，如图1所示，一种化工过程故障识别方法，包括如下步骤：

步骤1、实时获取化工生产过程中的运行数据；

步骤2、对获取的运行数据进行预处理；

步骤3、采用主成分分析方法选择运行数据中的关键特征数据；

步骤4、基于半监督学习方法建立动态主动安全半监督支持向量机模型，将关键特征数据输入训练好的动态主动安全半监督支持向量机模型，输出化工过程的运行状态。

所述步骤1中获取化工生产过程中的运行数据包括化工生产各物料的流量\各设备中的控制参数数据等。如下表1是本实施例列举的一个生产实例的运行数据参数。

表1

步骤2中对数据进行预处理包括对获取的运行数据进行Z-score标准化处理，处理方法为减去均值，比上标准差，如下式：

其中，方程中x_qg是过程数据；μ是数据矩阵的均值；σ是数据矩阵的标准差；Z是数据归一化的值。

预处理将多组数据转化为无单位的Z-Score分值，使得数据标准归一化，提高了数据可比性，削弱了数据解释性。

所述步骤3中采用主成分分析方法选择运行数据中的关键特征数据，包括如下步骤：

(31)计算预处理后的数据矩阵的特征协方差矩阵及协方差矩阵的特征值、特征向量；按方差贡献率从大到小排序，获得方差贡献率之和超过设定比例阈值的变量作为主成分变量。本实施例可以设定比例阈值为80％及以上。

特征方差和特征值的计算公式可以如下：

|C-λE|＝0 (3)

方程中C是计算得到的特征协方差矩阵；m是数据矩阵的维度；λ是数据矩阵的特征值；E是单位矩阵，Z是数据矩阵。

(32)根据主成分变量建立主元线性表达式,根据特征值计算各主元线性表达式中主成分变量的系数，通过如下公式计算：

其中，coe是第d个主元线性表达式中变量q的系数；v是变量q的第d个主成分变量(简称为主元)的值；e是第d个主元的特征根。

(33)根据主元线性表达式中主成分变量的系数，获得综合得分模型,综合得分模型包括变量及变量系数,综合得分模型中的变量系数，计算公式如下：

(34)对所得综合得分模型中的变量系数进行归一化，重新确定变量权重。

(35)将所有故障变量的权重值大小进行排序，权重总和高于设定阈值的变量对应的运行数据为关键特征数据。设定阈值可以根据具体的情况进行设定，可以为80％及以上。

关键特征数据包括有标签数据和无标签数据，将上述关键特征数据作为动态主动安全半监督支持向量机模型的输入可以获得当前化工过程是否存在故障或者故障隐患。

所述步骤4中，动态主动安全半监督支持向量机模型的训练过程包括如下步骤：

步骤4-1、获取化工生产过程的历史数据，所述历史数据包括有故障数据和无故障数据；

步骤4-2、对获取的历史数据进行预处理；

步骤4-3、采用主成分分析方法选择运行数据中的关键特征数据，所述关键特征数据包括有标签数据和无标签数据；

步骤4-4、将采用主动学习方法为无标签数据添加标签，将添加标签后的数据与有标签数据作为输入，输入动态主动安全半监督支持向量机模型进行训练，以故障类型或者运行正常为输出，获得动态主动安全半监督支持向量机模型的参数。

所述步骤4-4中，采用主动学习方法为无标签数据添加标签的方法包括：

步骤441、结合化工过程数据的历史信息和未来信息采用取均值方法优化识别模型的伪标签置信度。

其中,当前时刻的值为P_j,k，历史信息即为前一时刻的值(P_j-1,k)，未来信息即为后一时刻的值(P_j+1,k)。

本实施例所述优化方法即为取均值，用于过滤异常值。假如正常状态是5，前一时刻的值为4.8，后一时刻的值为5.1，当前时刻的值为8，那么取这三个值的均值5.97为当前时刻的值。

步骤442、根据伪标签置信度计算关键特征数据的熵值，采用主动学习挑选高熵值的关键特征数据，基于知识本体为关键特征数据的添加数据标签。

采用基于知识本体的知识推理的方法为无标签数据增加标签，减少了添加标签的成本，减少了人力浪费。

知识本体是个领域的概念和它们之间关系的显示说明。如本实施例中应用知识本体建立了一个TE过程的剧情对象模型(如图7)，用来表达工艺过程中的隐含信息，即将头脑风暴获得的信息转换为采用图形形式表达的逻辑关系。知识本体就是将技术经验转换为图形关系。

下面对训练过程中的每个步骤进行具体的说明：

本实施例的训练过程选取田纳西-伊斯曼过程(英文为Tennessee Eastman，简称为TE过程)数据集，针对不同的化工生产过程也可选用其他数据集或者直接获取化工生产过程中的历史数据。

以TE过程中的故障4为案例，首先对故障4中的数据进行Z-score标准化，统一变量量纲，预处理的具体方法可以与步骤1相同。设置模型的运行参数如表2所示：

表2

步骤4-3、采用主成分分析方法选择历史运行数据中的关键特征数据的方法，可以与步骤3相同。

(4-31)、计算预处理后的数据矩阵的特征协方差矩阵及协方差矩阵的特征值、特征向量；按方差贡献率从大到小排序，获得方差贡献率之和超过设定比例阈值的变量作为主成分变量。本实施例可以设定比例阈值为80％及以上。TE过程中的故障4的数据进行计算后的结果显示，前12个主成分的方差贡献率总和为83.15％，前12个主成分的信息能够代表所有变量信息，如图2为TE过程中的故障4的前12个主成分方差百分比，图3为TE过程中的故障4的前12个主成分特征值。每种主成分对应多个测量变量，下面的步骤用于确定对应主成分的关键变量的权重。

(4-32)确定各主元线性表达式中变量的系数，方法可以与步骤32相同。

(4-33)确定综合得分模型中的变量系数方法可以与步骤33相同。

(4-34)对所得综合得分模型中的变量系数进行归一化，重新确定变量权重，方法可以与步骤34相同。图4为TE过程中的故障4的关键测量变量权重。

(4-35)将所有故障变量的权重值大小进行排序，权重总和高于设定阈值的变量对应的运行数据为关键特征数据。设定阈值可以根据具体的情况进行设定，可以为80％及以上。本实施例以田纳西-伊斯曼过程20种故障中变量权重值大小进行排序，权重总和高于80％的变量为输入数据，图4的结果显示，TE过程中的故障4的前13个变量的权重和为80.06％，所以通过前13个变量代表所有变量。类似的以权重和高于80％为标准，可以确定TE过程其他故障的关键变量，结果如图5所示。

所述步骤441中，结合化工过程数据的历史信息和未来信息优化识别模型的伪标签置信度的方法具体为：

441-1将历史数据按照故障分类，得到对应k个故障的k个类别；具体的类别举例如表3所示。

表3

442-2计算每个数据属于某各类别K的置信度,根据计算的置信度采用均值法计算每个关键特征数据的伪标签置信度，计算公式如下：

其中，P_j,k是第j个数据属于类别k的置信度；

所述步骤442中，根据伪标签置信度计算关键特征数据的熵值，采用主动学习挑选高熵值的关键特征数据，基于知识本体为关键特征数据的添加数据标签的方法，具体为：

1)、基于工艺机理和事件之间的对应关系建立基于知识本体的剧情对象模型。图7中的任意一个圆圈均代表一个事件。

2)、采用主动学习挑选高熵值的关键特征数据。熵值的取值范围为[0,1],确定高熵值的方法可以通过设定阈值实现，本实施例可以设定为0.8，高熵值的关键特征数据携带的信息量比较大，根据剧情对象模型如图7中的基于知识本体建立的剧情对象模型，反向推理得到故障原因，进而确定标签。

关键特征数据的熵值的计算公式如下：

其中，P_j,k是第j个数据属于类别k的置信度；ent_j是第j个数据的熵值；k是类别数量(k＝1,2,…,K)；a是主动学习的停止标准。

基于知识本体的剧情对象模型是以生产经验建立，以故障4为例，将TE过程划分为五个部分：反应器、冷凝器、产品分离塔、循环压缩机和汽提塔，反应器温度是故障4的第一个报警变量。由于该反应是放热反应，因此有三个可能影响反应器温度的直接原因：循环流量异常、反应器进料流率异常和反应器冷却水温度异常。该故障导致4个主要的后果：高反应器冷却水出口温度、高冷凝器冷却水出口温度、高产品分离器温度和高反应器压力。经分析，循环流量和反应器进料流率无偏差，因此，反应器冷却水温度异常最有可能导致反应器温度异常。图7是基于知识本体的TE过程图形化剧情对象模型，图8是TE过程故障4的图形化剧情对象模型。

为说明本实施例建立的动态主动安全半监督支持向量机模型(简称为PCA-DAS4VM模型)识别化工过程运行状态的识别效果进行了仿真实验，具体如下。

PCA-DAS4VM模型为：本实施例的动态主动安全半监督支持向量机模型。

DAS4VM模型为：动态主动安全半监督支持向量机模型，不经过主成分分析方法(PCA)关键变量选择，使用DAS4VM模型对测量变量进行故障识别。

PCA-S4VM模型为：经过PCA关键变量选择，安全半监督支持向量机模型。

DSSAE模型为：引用文献“Jiang L,Ge Z,Song Z.Semi-supervised faultclassification based on dynamic Sparse Stacked auto-encoders model[J].Chemometrics and Intelligent Laboratory Systems,2017:S0169743917302496.”中记载的模型。

ALSemiFDA模型为：引用文献“Lili yin,huanguang w,etc.Incorporate activelearning to semi-supervised industrial fault classification[J]，Journal ofProcess control78(2019)88-97”中记载的模型。

横向对比：图6说明无标签数据量越多，本实施例的所提PCA-DAS4VM模型对于故障识别的效果越好。

纵向对比：本实施例模型与其他模型对比。根据识别效果计算出不同对比模型的F1分数、假阳性率(FPR)、故障诊断率(FDR)、G-mean和准确率的对比曲线。如图9-12所示，G-mean是另一种统一准确率和召回率的***性能评估标准，被定义为准确率和召回率的几何平均数。F1分数越高越好，FPR越小越好，FDR越高越好，G-mean越高越好，Accuracy越高越好。这些只是一些机器学***均率。分类模型的精确率是指在被识别为正类别的样本中，确实为正类别的比例。Accuracy是所有的预测正确(正类负类)的占总的比重。

图13为DSSAE、ALSemiFDA和PCA-DAS4VM模型的准确率对比，说明本实施例的模型准确度较高。

实施例2

本实施例提供一种化工过程故障识别***，包括：

数据获取模块：用于实时获取化工生产过程中的运行数据；

预处理模块：用于对获取的运行数据进行预处理；

识别模块：用于基于半监督学习方法建立动态主动安全半监督支持向量机模型，将关键特征数据输入训练好的动态主动安全半监督支持向量机模型，输出化工过程的运行状态。

实施例3

本实施例提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中方法所述的步骤。

实施例4

本实施例提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1的方法所述的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种化工过程故障识别方法，其特征是，包括如下步骤：

实时获取化工生产过程中的运行数据；

对获取的运行数据进行预处理；

采用主成分分析方法选择运行数据中的关键特征数据；

2.如权利要求1所述的一种化工过程故障识别方法，其特征是：关键特征数据包括有标签数据和无标签数据，动态主动安全半监督支持向量机模型对关键数据的处理包括采用主动学习方法为无标签数据添加标签的步骤。

3.如权利要求1所述的一种化工过程故障识别方法，其特征是：所述采用主成分分析方法选择运行数据中的关键特征数据，包括如下步骤：

4.如权利要求3所述的一种化工过程故障识别方法，其特征是：

根据特征值计算各主元线性表达式中主成分变量的系数，计算公式为：

或

5.如权利要求1所述的一种化工过程故障识别方法，其特征是：所述动态主动安全半监督支持向量机模型的训练过程，包括如下步骤：

对获取的历史数据进行预处理；

6.如权利要求2或5所述的一种化工过程故障识别方法，其特征是：所述将采用主动学习方法为无标签数据添加标签，包括如下步骤：

7.如权利要求6所述的一种化工过程故障识别方法，其特征是：所述结合化工过程数据的历史信息和未来信息优化识别模型的伪标签置信度的方法具体为：

将历史数据按照故障分类，得到对应k个故障的k个类别；

8.一种化工过程故障识别***，其特征是，包括：

数据获取模块：用于实时获取化工生产过程中的运行数据；

预处理模块：用于对获取的运行数据进行预处理；

9.一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项方法所述的步骤。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项方法所述的步骤。