CN113743489B - 一种基于数据缺失的流程工业过程故障检测方法 - Google Patents
一种基于数据缺失的流程工业过程故障检测方法 Download PDFInfo
- Publication number
- CN113743489B CN113743489B CN202110987661.8A CN202110987661A CN113743489B CN 113743489 B CN113743489 B CN 113743489B CN 202110987661 A CN202110987661 A CN 202110987661A CN 113743489 B CN113743489 B CN 113743489B
- Authority
- CN
- China
- Prior art keywords
- data
- matrix
- missing
- calculating
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于数据缺失的流程工业过程故障检测方法,该方法包括以下步骤:步骤S1:对流程工业过程进行数据采样和处理;步骤S2:利用核极限学习机KELM填补采样数据中的缺失数据;步骤S3:采用地标等距映射法L‑ISOMAP对数据进行低维特征提取;步骤S4:在特征空间和残差空间分别计算统计量和控制现,进行故障检测。与现有技术相比,本发明具有准确性高、节约时间和计算资源等优点。
Description
技术领域
本发明涉及流程工业过程控制、监测及安全生产领域,尤其是涉及一种基于数据缺失的流程工业过程故障检测方法。
背景技术
随着工业4.0概念的提出,以及工业互联网、物联网等技术的日益成熟,工业生产过程的智能制造转型已然成为了传统工业发展的必然趋势,随之带来的结果是工业过程变得愈加集成化和大规模化。例如炼油、制药等流程工业的生产过程日趋复杂,通过传统方式对其过程建立精确的机理模型变得愈发困难。在分布式控制***、数据采集与监视控制***等技术的支撑和机器/深度学习的浪潮下,基于数据驱动的流程工业过程建模和过程监测成为了工业智能化运行生产不可或缺的环节。
工业数据传输过程中信号不稳定,数据存储失败,采样时传感器丢包,多采样率等原因会致使数据出现缺失的情况。当应用于建模的历史过程数据出现大量缺失值时,若直接采用删除法则会剔除大量有效信息,用于构建模型的少量样本数据将无法体现出原过程的特性;若采用不合理的填补方法则会错误预测缺失值,同样导致构建的故障检测模型具有较低的准确性。
经过检索,中国专利公开号CN109146004A公开了一种基于迭代缺失数据估计策略的动态过程检测方法,该发明利用迭代缺失数据估计法推测出缺失数据的估计值,从而将假设的原始数据转变成了估计误差;采用PCA模型迭代求取缺失变量的估计值,最后利用估计误差作为被监测对象实施在线故障检测。但是,该方法采用的PCA模型训练较慢且准确性不高。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种准确性高、节约时间和计算资源的基于数据缺失的流程工业过程故障检测方法。
本发明的目的可以通过以下技术方案来实现:
一种基于数据缺失的流程工业过程故障检测方法,该方法包括以下步骤:
步骤S1:对流程工业过程进行数据采样和处理;
步骤S2:利用核极限学习机KELM填补采样数据中的缺失数据;
步骤S3:采用地标等距映射法L-ISOMAP对数据进行低维特征提取;
步骤S4:在特征空间和残差空间分别计算统计量和控制现,进行故障检测。
优选地,所述步骤S1包括以下步骤:
步骤S101:对正常运行的流程工业过程进行数据进行采样,并模拟各种工业现场原因对数据进行缺失异常处理,获得包含有各种缺失类型的不完整缺失数据集XM,XM∈Rm ×n,其中Rm×n表示样本数为m,维数为n的实矩阵;
步骤S102:对缺失数据集XM进行标准化处理,得到新的数据集XSM;
步骤S103:找到数据集XSM中的缺失数据所在位置,将所有包含缺失值的采样点划分为数据集XSM-NC,并将完整的采样点数据划分为另一数据集XSM-C。
优选地,所述步骤S2具体为:
步骤S201:确定KELMi模型的输入输出数据;
对于第i个采样点,找到缺失值所属变量vms_i,将vms_i对应的数据NanNCi作为需要预测的值,将该采样点中除去缺失值外的已观测到的变量为vob_i,将该vob_i对应的数据XNCi作为KELMi模型的测试输入;
将完整数据集XSM-C作为KELMi模型的训练数据-,XSM-C中变量vob_i对应的数据XCi作为输入,XSM-C中变量vms_i对应的数据YCi作为模型输出,构成具有P个采样点的数据集为其中XCi∈RP×T表示训练输入XCi是T维的数据点,YCi∈RP×K表示标签YCi为K维的数据点,xCi_t表示第t个采样点的训练数据,yCi_t表示第t个采样点的标签;
步骤S202:建立第i个采样时刻的KELMi模型;
步骤S203:对第i个样本点的缺失数据进行预测;
步骤S204:将XSM-NC中所有具有缺失值的时刻进行填补,得到完整数据集Xf。
优选地,所述步骤S202具体为:
极限学习机ELM是一种特殊的单隐层的前馈神经网络SLFNs,针对第i个采样时刻,SLFNs满足如下表达式:
其中L表示的是隐含层的节点个数,G(xCi_j,aq,bq)表示的是激活函数,xCi_j为模型的训练数据,q表示第q层隐含层节点;a∈RT×L为输入权值矩阵,b∈R1×L为隐含层偏差,β∈RL ×K为输出权值矩阵,y* Ci_j表示模型的输出值;
在极限学习机ELM模型中参数a,b都是随机确定的,只需求取输出权值矩阵参数β,极限学习机ELM对应的输出为:
YCi *=Hβ (2)
其中H表示特征映射矩阵:
其中g(xCi_1,aq,bq)为激活函数矩阵G(xCi_j,aq,bq)的元素;
获得输出权值矩阵
其中HT表示特征映射矩阵H的转置,C表示正则化参数,I表示单位矩阵,P为样本个数;
ELM的输出函数表示为:
其中h(xCi)为xCi的映射函数;
在ELM的基础上引入Mercer定理构建KELMi,所述KELMi的输出函数如下:
其中Ωi表示为了填补第i个样本点的缺失值所训练得到的核函数矩阵,表示为:
K(xCi_α,xCi_β)表示的是以XCi中的两个元素xCi_α,xCi_β构建的径向基核函数:
其中σ为核函数宽度参数,α和β分别表示元素所在位置,为xCi_α,xCi_β所构成核函数的简写形式。
优选地,所述步骤S203具体为:将XSM-NC中第i个时刻的数据XNCi作为模型的输入预测该时刻的缺失数据NanNCi:
优选地,所述步骤S3包括以下步骤:
步骤S301:在m个样本中随机选取m′个样本作为地标点;
步骤S302:构建近邻邻域图G;
计算m′个地标点对之间的欧式距离,数据点对(Xfi,Xfj)的欧氏距离记为dXm′(Xfi,Xfj);设定距离阈值,选取合适的近邻,构建近邻邻域图G;
步骤S303:计算高维数据间的测地线距离Dijkstra距离,即最短路径;
通过计算近邻邻域图G上Xfi,Xfj两点的测地线距离dDm′(Xfi,Xfj)来近似原始流形的测地线距离,测地线距离矩阵DDm′由测地线距离的平方构成;
步骤S304:确定内积矩阵Bm′:
其中Hm′是中心化矩阵;
步骤S305:得到地标点的d维嵌入矩阵Ld:
求解得到矩阵Bm′对应的最大的d个特征值λ1≥λ2≥…λd,特征值对应的d个特征向量为[v1,v2,…,vd],从而地标点的d维嵌入矩阵Ld表示为:
其中表示第一个特征值对应的特征向量;
步骤S306:求取测地线距离矩阵DDm′的平均向量
步骤S307:计算数据集中除去地标点的数据点与地标点之间的距离,即其余数据点中的某一点r与地标点之间的距离记为dDmm′(Xfr,Xfj),距离平方组成矩阵,矩阵中数据点r所在列形成的向量记为
步骤S308:求取矩阵Ld的伪逆转置矩阵L# d
步骤S309:计算其余数据点的d维嵌入矩阵Lrd;
步骤S310:采用主成分分析PCA算法实现嵌入坐标对齐;
计算得到d维嵌入矩阵Xfd∈Rm×d,利用PCA标准化方法实现坐标对齐,得到对齐后的d维特征矩阵Y∈Rm×d。
优选地,所述步骤S301中的地标点样本数满足m′<<m。
优选地,所述步骤S4包括以下步骤:
步骤S401:计算映射矩阵A;
通过局部线性回归思想求取原始高维数据投影到低维空间的映射矩阵A:
Y=AXf (12)
A=YXf T(XfXf T)-1 (13)
其中Xf为填补缺失数据之后的完整数据集,Y为特征矩阵;
步骤S402:构造离线数据故障检测统计量和控制限;
步骤S403:计算在线数据统计量,进行实时监控。
优选地,所述步骤S402具体为:对于离线数据Xf分别构建特征空间统计量和残差空间统计量SPEf;并采用核密度估计算法进行计算分别计算/>和SPEf的控制限/>和SPEucl。
优选地,所述步骤S403具体为:标准化观测到的实时数据xt得到xrt,通过映射矩阵A求得实时数据的低维映射yrt为:
yrt=Axrt (14)
计算实时数据统计量和SPErt,若在线数据统计量大于控制限时,说明过程出现故障。
与现有技术相比,本发明具有以下优点:
1)在预测缺失值时,充分考虑了每一个具有缺失值的采样时刻的差异,通过模型更新的方式,依次对每一个采样时刻进行填补,适合多种缺失类型,确保了填补数据的准确性;
2)核极限学习机具有泛化性能强和学习速度快的特点,在保证准确性的同时,使用核极限学习模型预测缺失值具有更少的时间耗费和计算资源;
3)建立地标等距映射(L-ISOMAP)模型实现特征提取时,低维特征数据能保持原始高维数据的流形结构,从而保证低维数据尽可能多地保留原始数据的有效信息;
4)相较于等距映射算法(ISOMAP),地标等距映射算法(L-ISOMAP)在保证降维可靠性的同时,在计算距离矩阵时具有更小的运算量,因此算法具有更快的运行速度。
附图说明
图1为本发明在基于数据缺失实现故障检测整体步骤的流程图;
图2为利用模型更新的KELM模型实现缺失数据填补的流程图;
图3为利用L-ISOMAP算法实现特征提取的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
如图1所示,本发明提供了一种基于数据缺失的流程工业过程故障检测方法,该方法工作原理为:首先,收集流程工业过程正常运行时的正常数据,处理得到包含缺失值的训练数据集,通过基于模型更新的核极限学习机(KELM)每个采样数据进行缺失值填补,得到完整的数据集;在此基础上,采用地标等距映射算法(Landmark-ISOMAP,L-ISOMAP)实现低维特征提取;最终在特征空间建立T2统计量,在残差空间建立SPE统计量,并分别计算相应的控制限,从而实现故障检测。
本实施例通过以下具体技术方案来实现,具体包括以下步骤:
步骤S1:对正常运行的流程工业过程进行数据进行采样,并模拟工业现场各种使数据缺失的原因对数据进行缺失异常处理,获得包含有各种缺失类型的不完整缺失数据集XM,XM∈Rm×n,其中Rm×n表示样本数为m,维数为n的实矩阵;
步骤S2:对上述缺失数据集XM进行标准化处理,得到新的数据集XSM;
如图2所示,展现了数据填补方法的流程图。
这里,为了简明说明填补过程,XSM设置为一具有三个缺失值的矩阵;
其中缺失数据的坐标(u1,v1),(u1,v2),(u2,v3)分别表示第u1个采样时刻的第v1,v2个变量以及第u2个采样时刻的第v3个变量出现数据缺失情况;
步骤S3:找到数据集XSM的缺失数据所在位置,将所有包含缺失值的采样点划分为数据集XSM-NC,将完整的采样点数据划分为另一数据集XSM-C;
步骤S4:依次对数据集XSM-NC中每个采样点进行填补;
如图2所示,显示了数据填补的对于第i个采样点,找到缺失值所属于的变量vms_i,将vms_i变量对应的数据NanNCi作为需要预测的值,该采样点中除去缺失值外的已观测到的变量为vob_i,其对应的数据XNCi作为KELMi模型的测试输入;
将完整数据集XSM-C作为KELMi模型的训练数据,XSM-C中变量vob_i对应的数据XCi作为输入,XSM-C中变量vms_i对应的数据YCi作为模型输出,构成具有P个采样点的数据集为其中XCi∈RP×T表示训练输入XCi是T维的数据点,YCi∈RP×K表示标签YCi为K维的数据点;
当XSM为上述所示具有三个缺失值的实例矩阵,首先需要对第u1个采样时刻的缺失值进行填补,该采样时刻缺失值所属于的变量为v1,v2,对应的缺失数据为和/>将缺失数据/>和/>作为模型的预测模型输出,该采样时刻除去缺失值后其余的数据记为/>,将/>作为模型的预测模型输入;然后选取XSM-C中找到v1,v2变量所对应的数据作为模型训练数据的输出标签,XSM-C中其余数据/>作为模型训练数据的输入;
为了填补第u1个时刻缺失值的核极限学习机模型记为KELMu1,训练模型的数据集在这个时刻对应的具体数据为/>
极限学习机(ELM)是一种特殊的单隐层的前馈神经网络(SLFNs),针对第u1个采样时刻,SLFNs满足如下表达式:
其中L表示的是隐含层的节点个数,表示的是激活函数,g(·)表示的激活函数的类型,a∈RT×L为输入权值矩阵,b∈R1×L为隐含层偏差,β∈RL×K为输出权值矩阵,表示模型的输出值;
极限学习机(ELM)是一种特殊的SLFNs,ELM模型中参数a,b都是随机确定的,只需求取输出权值矩阵参数β;相较于传统的SLFNs,ELM具有更好的泛化性能和学习速度;ELM对应的输出为:其中H表示特征映射矩阵:
输出权值矩阵的求取方式如下:
其中,HT表示特征映射矩阵的转置,C表示正则化参数,I表示单位矩阵。
ELM的输出函数可以表示为:
为了避免隐含层节点个数L选取对模型训练结果造成的影响,在ELM的基础上引入Mercer定理构建 的输出函数如下:
表示为了填补第i个时刻缺失值所训练得到的核函数矩阵,形式如下:
K(xCi_α,xCi_β)表示的是以中的两个元素/>构建的径向基核函数:
表示的是以XCi中的两个元素/>构建的径向基核函数:
其中σ为核函数宽度参数。
综上,可以确定填补u1时刻缺失值的模型
将XSM-NC中u1时刻的数据XNCi作为模型的输入预测该时刻的缺失数据
填补完u1时刻的缺失值后,同理,对第u2个采样时刻的缺失值进行预测填补,该采样时刻缺失值所属的变量为v3,对应的缺失数据为将缺失数据/>作为模型的预测模型输出,该采样时刻除去缺失值后其余的数据记为/>,将/>作为模型的预测模型输入;然后选取XSM-C中找到v3变量所对应的数据/>作为模型训练数据的输出标签,XSM-C中其余数据/>作为模型训练数据的输入;
为了填补第u2个时刻缺失值的核极限学习机模型记为训练模型的数据集在u2时刻对应的具体数据为/>确认好模型的输入输出数据后,按照上述训练/>同样的步骤训练/>最终得到预测缺失值XSM-NC中所有缺失值得到填补后,最终得到完整的数据集Xf。
步骤S5:利用L-ISOMAP算法对填补得到的数据集Xf进行特征提取;
通过L-ISOMAP算法将高维训练数据集Xf∈Rm×n映射到低维矩阵Y∈Rm×d,其中Xf为样本数为m,维度为n的矩阵;Y为样本数为m,维度为d的矩阵;在流程工业过程中,维度即表示过程中的变量个数。
如图2所示,L-ISOMAP算法降维的过程如下:
1)选取m′个地标点;
传统的ISOMAP算法无论在计算欧式距离时需要计算m个样本点两两之间的距离,当m值很大时,算法具有很高的计算复杂度;L-ISOMAP算法在m个样本中随机选取m′个样本作为地标点,其中m′<<m,这时仅需计算m′个地标点之间的距离,从而大大较少了复杂度;
2)构建近邻邻域图G;
计算m′个地标点对之间的欧式距离,数据点对(Xfi,Xfj)的欧氏距离记为dXm′(Xfi,Xfj),计算公式如下:
设定距离阈值,选取合适的近邻,构建近邻邻域图G;
3)计算高维数据间的测地线距离(Dijkstra距离),即最短路径;
通过计算近邻邻域图G上Xfi,Xfj两点的测地线距离dDm′(Xfi,Xfj)来近似原始流形的测地线距离,如果Xfi,Xfj两点共边,则有:
dDm′(Xfi,Xfj)=dXm′(Xfi,Xfj) (13)
否则有:
dDm′(xfi,xfj)=min{dDm′(xfi,xfj),dDm′(xfi,xfp)+dDm′(xfp,xfj)} (14)
其中dDm′(Xfi,Xfj)=∞,i,j=1,2,…,m′,p=1,2,…,m′;
测地线距离矩阵DDm′由测地线距离的平方构成,具体形式如下:
4)确定内积矩阵Bm′;
其中Hm′是中心化矩阵,具体的定义如下:
δij=[DDm′]ij (18)
其中δij表示Xfi,Xfj两点的距离平方;
5)得到地标点的d维嵌入;
求解得到矩阵Bm′对应的最大的d个特征值λ1≥λ2≥…λd,特征值对应的d个特征向量为[v1,v2,…,vd],从而地标点的d维嵌入矩阵Ld可以表示为:
6)求取测地线距离矩阵DDm′的平均向量
已知DDm′由m′个向量构成,平均向量/>如下表示:
7)计算数据集中除去地标点的数据点与地标点之间的距离,即其余数据点中的某一点r与地标点之间的距离记为dDmm′(Xfr,Xfj),距离平方组成矩阵,矩阵中数据点r所在列形成的向量记为
8)求取矩阵Ld的伪逆转置矩阵L# d;
9)计算其余数据点的d维嵌入矩阵Lrd;
Lrd中和相关的嵌入向量/>表达式如下:
由此可以求得剩余数据点的d维嵌入矩阵Lrd。
10)主成分分析(PCA)算法实现嵌入坐标对齐;
通过上述步骤得到d维嵌入矩阵Xfd∈Rm×d,利用PCA标准化方法实现坐标对齐,得到对齐后的d维特征矩阵Y∈Rm×d。
步骤S6:计算映射矩阵A;
为了方便计算实时统计量,通过局部线性回归思想求取原始高维数据投影到低维空间的映射矩阵A:
Y=AXf(23)
A=YXf T(XfXf T)-1 (24)
步骤S7:构造离线数据故障检测统计量和控制限;
对于离线数据Xf,分别构建特征空间统计量和残差空间统计量(SPEf):
Tf 2=YS-1Y (25)
SPEf=||(I-ATA)Xf||2 (26)
其中S是协方差矩阵,
S=YYT/(m-1) (27)
使用核密度估计方法分别计算和SPEf的控制限;若置信系数取为0.99,则有α=0.01,因此可以通过下述方程式推导出控制限/>和SPEucl:
步骤S8:计算在线数据统计量,实现实时检测;
若观测到实时数据xt,标准化后得到xrt,通过映射矩阵A求得实时数据的低维映射yrt:
yrt=Axrt (30)
计算实时数据统计量:
Trt 2=yrtS-1yrt (31)
SPErt=||(I-ATA)Xrt||2 (32)
通过两种统计量同时实现在线检测,若在线数据统计量大于控制限时,说明过程出现故障,即出现如下条件时故障发生:
在流程工业生产的工业现场,设备老化、错误操作、技术瓶颈等诸多原因均会导致流程工业过程数据在采集、传输、存储等过程中会出现数据丢失的状况。本发明提出了一种数据缺失状况下的故障检测方法,首先通过模型更新的核极限学习机模型能有效地预测到缺失的数据,在得到完整训练数据集后,利用地标等距映射算法进行特征提取,建立相应统计量和控制限,实现了故障检测。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (7)
1.一种基于数据缺失的流程工业过程故障检测方法,其特征在于,该方法包括以下步骤:
步骤S1:对流程工业过程进行数据采样和处理;
步骤S2:利用核极限学习机KELM填补采样数据中的缺失数据;
步骤S3:采用地标等距映射法L-ISOMAP对数据进行低维特征提取;
步骤S4:在特征空间和残差空间分别计算统计量和控制现,进行故障检测;
所述步骤S2具体为:
步骤S201:确定KELMi模型的输入输出数据;
对于第i个采样点,找到缺失值所属变量vms_i,将vms_i对应的数据NanNCi作为需要预测的值,将该采样点中除去缺失值外的已观测到的变量为vob_i,将该vob_i对应的数据XNCi作为KELMi模型的测试输入;
将完整数据集XSM-C作为KELMi模型的训练数据,XSM-C中变量vob_i对应的数据XCi作为输入,XSM-C中变量vms_i对应的数据YCi作为模型输出,构成具有P个采样点的数据集为其中XCi∈RP×T表示训练输入XCi是T维的数据点,YCi∈RP×K表示标签YCi为K维的数据点,xCi_t表示第t个采样点的训练数据,yCi_t表示第t个采样点的标签;
步骤S202:建立第i个采样时刻的KELMi模型;
步骤S203:对第i个样本点的缺失数据进行预测;
步骤S204:将XSM-NC中所有具有缺失值的时刻进行填补,得到完整数据集Xf;
所述步骤S3包括以下步骤:
步骤S301:在m个样本中随机选取m′个样本作为地标点;
步骤S302:构建近邻邻域图G;
计算m′个地标点对之间的欧式距离,数据点对(Xfi,Xfj)的欧氏距离记为dXm′(Xfi,Xfj);设定距离阈值,选取合适的近邻,构建近邻邻域图G;
步骤S303:计算高维数据间的测地线距离Dijkstra距离,即最短路径;
通过计算近邻邻域图G上Xfi,Xfj两点的测地线距离dDm′(Xfi,Xfj)来近似原始流形的测地线距离,测地线距离矩阵DDm′由测地线距离的平方构成;
步骤S304:确定内积矩阵Bm′:
其中Hm′是中心化矩阵;
步骤S305:得到地标点的d维嵌入矩阵Ld:
求解得到矩阵Bm′对应的最大的d个特征值λ1≥λ2≥…λd,特征值对应的d个特征向量为[v1,v2,…,vd],从而地标点的d维嵌入矩阵Ld表示为:
其中表示第一个特征值对应的特征向量;
步骤S306:求取测地线距离矩阵DDm′的平均向量
步骤S307:计算数据集中除去地标点的数据点与地标点之间的距离,即其余数据点中的某一点r与地标点之间的距离记为dDmm′(Xfr,Xfj),距离平方组成矩阵,矩阵中数据点r所在列形成的向量记为
步骤S308:求取矩阵Ld的伪逆转置矩阵L# d
步骤S309:计算其余数据点的d维嵌入矩阵Lrd;
步骤S310:采用主成分分析PCA算法实现嵌入坐标对齐;
计算得到d维嵌入矩阵Xfd∈Rm×d,利用PCA标准化方法实现坐标对齐,得到对齐后的d维特征矩阵Y∈Rm×d;
所述步骤S4包括以下步骤:
步骤S401:计算映射矩阵A;
通过局部线性回归思想求取原始高维数据投影到低维空间的映射矩阵A:
Y=AXf (12)
A=YXf T(XfXf T)-1 (13)
其中Xf为填补缺失数据之后的完整数据集,Y为特征矩阵;
步骤S402:构造离线数据故障检测统计量和控制限;
步骤S403:计算在线数据统计量,进行实时监控。
2.根据权利要求1所述的一种基于数据缺失的流程工业过程故障检测方法,其特征在于,所述步骤S1包括以下步骤:
步骤S101:对正常运行的流程工业过程进行数据进行采样,并模拟各种工业现场原因对数据进行缺失异常处理,获得包含有各种缺失类型的不完整缺失数据集XM,XM∈Rm×n,其中Rm×n表示样本数为m,维数为n的实矩阵;
步骤S102:对缺失数据集XM进行标准化处理,得到新的数据集XSM;
步骤S103:找到数据集XSM中的缺失数据所在位置,将所有包含缺失值的采样点划分为数据集XSM-NC,并将完整的采样点数据划分为另一数据集XSM-C。
3.根据权利要求1所述的一种基于数据缺失的流程工业过程故障检测方法,其特征在于,所述步骤S202具体为:
极限学习机ELM是一种特殊的单隐层的前馈神经网络SLFNs,针对第i个采样时刻,SLFNs满足如下表达式:
其中L表示的是隐含层的节点个数,G(xCi_j,aq,bq)表示的是激活函数,xCi_j为模型的训练数据,q表示第q层隐含层节点;a∈RT×L为输入权值矩阵,b∈R1×L为隐含层偏差,β∈RL×K为输出权值矩阵,y* Ci_j表示模型的输出值;
在极限学习机ELM模型中参数a,b都是随机确定的,只需求取输出权值矩阵参数β,极限学习机ELM对应的输出为:
YCi *=Hβ (2)
其中H表示特征映射矩阵:
其中g(xCi_1,aq,bq)为激活函数矩阵G(xCi_j,aq,bq)的元素;
获得输出权值矩阵
其中HT表示特征映射矩阵H的转置,C表示正则化参数,I表示单位矩阵,P为样本个数;
ELM的输出函数表示为:
其中h(xCi)为xCi的映射函数;
在ELM的基础上引入Mercer定理构建KELMi,所述KELMi的输出函数如下:
其中Ωi表示为了填补第i个样本点的缺失值所训练得到的核函数矩阵,表示为:
K(xCi_α,xCi_β)表示的是以XCi中的两个元素xCi_α,xCi_β构建的径向基核函数:
其中σ为核函数宽度参数,α和β分别表示元素所在位置,为xCi_α,xCi_β所构成核函数的简写形式。
4.根据权利要求3所述的一种基于数据缺失的流程工业过程故障检测方法,其特征在于,所述步骤S203具体为:将XSM-NC中第i个时刻的数据XNCi作为模型的输入预测该时刻的缺失数据NanNCi:
5.根据权利要求1所述的一种基于数据缺失的流程工业过程故障检测方法,其特征在于,所述步骤S301中的地标点样本数满足m′<<m。
6.根据权利要求1所述的一种基于数据缺失的流程工业过程故障检测方法,其特征在于,所述步骤S402具体为:对于离线数据Xf分别构建特征空间统计量和残差空间统计量SPEf;并采用核密度估计算法进行计算分别计算/>和SPEf的控制限/>和SPEucl。
7.根据权利要求1所述的一种基于数据缺失的流程工业过程故障检测方法,其特征在于,所述步骤S403具体为:标准化观测到的实时数据xt得到xrt,通过映射矩阵A求得实时数据的低维映射yrt为:
yrt=Axrt (14)
计算实时数据统计量Trt 2和SPErt,若在线数据统计量大于控制限时,说明过程出现故障。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110987661.8A CN113743489B (zh) | 2021-08-26 | 2021-08-26 | 一种基于数据缺失的流程工业过程故障检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110987661.8A CN113743489B (zh) | 2021-08-26 | 2021-08-26 | 一种基于数据缺失的流程工业过程故障检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113743489A CN113743489A (zh) | 2021-12-03 |
CN113743489B true CN113743489B (zh) | 2023-09-29 |
Family
ID=78733173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110987661.8A Active CN113743489B (zh) | 2021-08-26 | 2021-08-26 | 一种基于数据缺失的流程工业过程故障检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743489B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092923A (zh) * | 2017-03-22 | 2017-08-25 | 东北大学 | 基于改进监督核局部线性嵌入法的电熔镁炉过程监测方法 |
CN108181894A (zh) * | 2017-12-15 | 2018-06-19 | 宁波大学 | 一种基于修剪独立元回归策略的非高斯过程监测方法 |
CN108960329A (zh) * | 2018-07-06 | 2018-12-07 | 浙江科技学院 | 一种包含缺失数据的化工过程故障检测方法 |
CN111142501A (zh) * | 2019-12-27 | 2020-05-12 | 浙江科技学院 | 基于半监督自回归动态隐变量模型的故障检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11486925B2 (en) * | 2020-05-09 | 2022-11-01 | Hefei University Of Technology | Method for diagnosing analog circuit fault based on vector-valued regularized kernel function approximation |
-
2021
- 2021-08-26 CN CN202110987661.8A patent/CN113743489B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092923A (zh) * | 2017-03-22 | 2017-08-25 | 东北大学 | 基于改进监督核局部线性嵌入法的电熔镁炉过程监测方法 |
CN108181894A (zh) * | 2017-12-15 | 2018-06-19 | 宁波大学 | 一种基于修剪独立元回归策略的非高斯过程监测方法 |
CN108960329A (zh) * | 2018-07-06 | 2018-12-07 | 浙江科技学院 | 一种包含缺失数据的化工过程故障检测方法 |
CN111142501A (zh) * | 2019-12-27 | 2020-05-12 | 浙江科技学院 | 基于半监督自回归动态隐变量模型的故障检测方法 |
Non-Patent Citations (1)
Title |
---|
张妮 ; 田学民 ; 蔡连芳 ; .基于RISOMAP的非线性过程故障检测方法.化工学报.2013,(第06期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113743489A (zh) | 2021-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115618296B (zh) | 一种基于图注意力网络的大坝监测时序数据异常检测方法 | |
Jiang et al. | Deep discriminative representation learning for nonlinear process fault detection | |
CN112989635B (zh) | 基于自编码器多样性生成机制的集成学习软测量建模方法 | |
CN107403196B (zh) | 基于谱聚类分析的即时学习建模对脱丁烷塔底丁烷浓度进行预测的方法 | |
CN113051822A (zh) | 基于图注意力网络与lstm自动编码模型的工业***异常检测方法 | |
CN111709577B (zh) | 基于长程相关性gan-lstm的rul预测方法 | |
CN117272196A (zh) | 一种基于时空图注意力网络的工业时序数据异常检测方法 | |
Dong et al. | Quality monitoring and root cause diagnosis for industrial processes based on Lasso-SAE-CCA | |
CN114048546B (zh) | 一种基于图卷积网络和无监督域自适应的航空发动机剩余使用寿命预测方法 | |
CN115438897A (zh) | 一种基于blstm神经网络的工业过程产品质量预测方法 | |
CN115018012A (zh) | 一种高维度特性下的物联网时间序列异常检测方法及*** | |
CN116894180B (zh) | 一种基于异构图注意力网络的产品制造质量预测方法 | |
CN113743489B (zh) | 一种基于数据缺失的流程工业过程故障检测方法 | |
CN114091600A (zh) | 一种数据驱动的卫星关联故障传播路径辨识方法及*** | |
CN117493930A (zh) | 一种基于对比生成对抗网络的多元时间序列异常检测方法 | |
CN117077052A (zh) | 一种基于工况识别的干式变压器异常检测方法 | |
CN116882299A (zh) | 一种基于增强局部感知自注意力的动态软测量建模方法 | |
CN109542974B (zh) | 一种基于非线性动态成分分析的动态过程监测方法 | |
CN109656202B (zh) | 基于局部和结构一致性流形gmm的多模态过程监测方法 | |
Annas et al. | Improving the accuracy of rainfall forecasting using multivariate transfer function and resilient backpropagation neural network | |
CN117272244B (zh) | 一种融合特征提取和自适应构图的软测量建模方法 | |
He et al. | An Improved Industrial Process Soft Sensor Method Based on LSTM | |
CN116541794B (zh) | 一种基于自适应图注意网络的传感器数据异常检测方法 | |
Xia et al. | A fault detection method for AUV based on multi-scale spatiotemporal feature fusion | |
Zhang et al. | Deep Graph Convolutional Neural Network for Fault Diagnosis of Complex Industrial Processes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |