CN107451102B - 一种基于改进自训练算法的半监督高斯过程回归软测量建模对脱丁烷塔底丁烷浓度进行预测的方法 - Google Patents

一种基于改进自训练算法的半监督高斯过程回归软测量建模对脱丁烷塔底丁烷浓度进行预测的方法 Download PDF

Info

Publication number
CN107451102B
CN107451102B CN201710632197.4A CN201710632197A CN107451102B CN 107451102 B CN107451102 B CN 107451102B CN 201710632197 A CN201710632197 A CN 201710632197A CN 107451102 B CN107451102 B CN 107451102B
Authority
CN
China
Prior art keywords
sample
samples
soft measurement
training
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710632197.4A
Other languages
English (en)
Other versions
CN107451102A (zh
Inventor
熊伟丽
史旭东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN201710632197.4A priority Critical patent/CN107451102B/zh
Publication of CN107451102A publication Critical patent/CN107451102A/zh
Application granted granted Critical
Publication of CN107451102B publication Critical patent/CN107451102B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于改进自训练算法的半监督高斯过程回归软测量建模对脱丁烷塔底丁烷浓度进行预测的方法。用于带有缺失主导变量的训练数据集的化工过程软测量建模。该方法采用自训练算法估计缺失的主导变量样本,并根据得到的估计样本对原有训练数据的影响,筛选出泛化能力强的样本加入到原始样本集中,从而构成新的训练样本集进行建模。该方法一方面实现估计样本的有效筛选,提高半监督模型精度;另一方面筛选准则简单,不需要划分完整数据集,且不受模型结构的限制。该方法可以提高产品质量,降低生产成本。

Description

一种基于改进自训练算法的半监督高斯过程回归软测量建模 对脱丁烷塔底丁烷浓度进行预测的方法
技术领域
本发明涉及基于改进自训练算法的半监督高斯过程回归软测量建模对脱丁烷塔底丁烷浓度进行预测的方法,属于复杂工业过程建模和软测量领域。
背景技术
目前,化工过程的复杂性正在日益增加,对产品质量的要求也在不断提高,现代工业往往需要装备一些先进的监控***。然而由于某些关键质量变量的传感器价格昂贵、可靠性差或者具有很大的测量滞后性等缺点,导致一些重要的过程变量不能实时有效地测量。
为了解决这些问题,软测量技术在工业过程领域受到了越来越广泛的关注。在过去的十几年,基于数据驱动的软测量建模技术得到了广泛研究,用于提高产品的质量,降低对环境的影响。一些常用的线性回归的方法如主元回归(principal componentregression,PCR)、偏最小二乘(partial least squares,PLS)、等能够很好地处理输入变量和输出变量之间的线性关系。然而,输入和输出之间常常呈现非线性的关系,线性建模方法不再适用,非线性建模方法如人工神经网络(artificial neural networks,ANN)、支持向量机(support vector machine,SVM)、最小二乘支持向量机(least squares supportvector machine,LS-SVM)可以得到良好的预测精度。
虽然这些方法能够获得很好的全局泛化性能,但是工业过程常常呈现多阶段、时变的动态特性,预测效果往往不能得到保证。高斯过程回归(Gaussian processregression,GPR)能够作为一种非参数概率模型,不仅可以给出预测值,还可以得到预测值对模型的信任值。因此,选择GPR建立软测量模型。
针对实际工业过程中主导变量的获取频率远远低于辅助变量,导致训练样本集中仅有一部分样本是有标签的,更多的是只有输入变量而缺失输出变量的无标签样本。自训练方法运算简单,可操作性强,且易于同软测量模型结合,本发明采用自训练估计缺失的主导变量值。
传统的自训练算法仅实现缺失主导变量样本的估计,却无法辨别估计值的好坏。由于自训练模型根据相似度估计缺失主导变量,以及GPR方法的非线性和非参数特征,二者简单结合容易发生模型过拟合的现象,因此本发明建立一种筛选估计样本的准则,剔除信息冗余的样本,将泛化能力强的样本加入到完整数据集中,实现训练样本的重构以提高模型预测精度。
发明内容
针对实际工业过程中主导变量的获取频率远远低于辅助变量,导致训练样本集中仅有一部分样本是有标签的,直接采用这样的数据集进行建模会导致模型预测性能不高。
采用自训练算法估计缺失的主导变量样本,并根据得到的估计样本对原有训练数据的影响,筛选出泛化能力强的样本加入到原始样本集中,从而构成新的训练样本集进行建模。
本发明的目的是通过以下技术方案实现的:
基于改进自训练算法的半监督GPR软测量建模,所述方法包括以下过程:针对半监督数据集,用自训练算法估计缺失主导变量值,并采用一种变量筛选方法,挑选出泛化能力强的样本重构训练样本集。
最终根据重构后的训练样本集,新到来的查询样本进行预测。
附图说明
图1是改进的自训练算法半监督GPR建模步骤;
图2是在不同标签率下各种方法预测的RMSE;
具体实施方式
下面结合图1所示,对本发明做进一步详述:
以常见的化工过程——脱丁烷塔过程为例。实验数据来自于脱丁烷塔E过程,对丁烷浓度进行预测。
步骤1:采集有标签样本集{XL,YL},L表示有标签;和无标签样本集{XU},U表示无标签,并对于无标签样本集中的每个样本xi∈{XU},计算其与有标签样本集中每个样本xj∈{XL,j=1,2,...,NL}的相似度,NL表示有标签样本个数,,相似度指标Sim的计算如式(1)所示,并将按降序排列的相似度记为RSim,其中γ∈(0,1)是相似度参数,||xi-xj||,cos<xi,xj>分别表示向量xi,xj之间的欧式距离和夹角的余弦。
Simj=γexp(-||xi-xj||)+(1-γ)cos<xi,xj> (1)
步骤2:采用式(2)估计当前的无标签样本,其中
Figure GDA0002501824910000021
表示第k个与当前无标签样本最相似的标签样本的标签值,w是设置的最相似样本个数。
Figure GDA0002501824910000022
步骤3:重复Step 1和Step 2,直到无标签样本集的估计值全部得到,得到估计样本集
Figure GDA0002501824910000023
步骤4:建立与
Figure GDA0002501824910000024
i=1,2,...,nU对应的GPR模型,并计算该模型对原有数据集{XL,YL}的预测误差,计算方法为式(3)。
Figure GDA0002501824910000025
步骤5:重复Step4直到所有估计样本对应的预测误差全部计算出,即得到误差向量ERR(i),i=1,2,...nU,并将按降序排列的误差向量记为RERR。
步骤6:将预测误差最大的前k个样本作为扩充样本集[Xadd;Yadd]加入到有标签样本集中,构成训练样本集{Xtrain,Ytrain}={[XL;Xadd],[YL;Yadd]},其中,RERR(k)表示为重排列的误差向量RERR的前k个元素,Xadd=XU[RERR(k)],
Figure GDA0002501824910000026
步骤7:使用重构后的训练样本,建立最终的GPR模型,当查询样本到来时使用模型进行预测。
假设有n个样本构成的训练样本集X=[x1,x2,...,xn]T和Y=[y1,y2,...,yn]T,其中xi∈Rm(i=1,2,...,n)是m维的输入向量,yi∈R(i=1,2,...,n)是输出。高斯过程回归假设回归函数y=f(x)具有零均值的高斯先验分布,服从具体描述见(4)式:f~N(μ,Σ)表示f~N(μ,Σ)
y={f(x1),f(x2),...,f(xn)}~N(0,K) (4)
其中,f~N(μ,Σ)表示f服从以μ,Σ为均值和方差的正态分布
式(4)中f是未知的函数形式,K是协方差矩阵,其第i行第j列元素定义为kij=k(xi,xj),其中k(·,·)为核函数,本文选取常用的平方指数核函数,其定义由(5)式给出:
Figure GDA0002501824910000027
其中δij=1仅在i=j时成立,否则δij=0。M=l-2I,l是方差尺度,
Figure GDA0002501824910000031
Figure GDA0002501824910000032
分别是信号方差和噪声方差。
超参数集合
Figure GDA0002501824910000033
的取值对最后的预测结果有很大的影响,因此合适的超参数对GPR模型的性能起关键性作用。一般采用极大似然估计法求解出最优超参数Θ*,如(6)式所示。
Figure GDA0002501824910000034
通过共轭梯度下降法求得各个参数最优解的闭合形式
一旦获得最优的超参数,GPR模型即可确定。当新的查询样本xnew到来后,根据多维高斯分布的性质,可以得到同为高斯分布的主导变量的后验概率(ynew|X,y,xnew)~N(mean(ynew),var(ynew)),最后将期望值作为模型的预测输出值,其中mean(ynew)和var(ynew)分别是(ynew|X,Y,xnew)分布的期望与方差,计算方法如式(7)和(8):
Figure GDA0002501824910000035
Figure GDA0002501824910000036
输出即为丁烷浓度的预测值
图2是在不同标签率下各种方法预测的RMSE;由图可知,基于改进自训练算法的高斯过程回归半监督软测量建模方法能够有效地预测丁烷浓度。

Claims (1)

1.基于改进自训练算法的半监督高斯过程回归软测量建模对脱丁烷塔底丁烷浓度进行预测的方法,以常见的化工过程,脱丁烷塔过程为例,实验数据来自于脱丁烷塔E过程,对丁烷浓度进行预测,其特征在于,该方法步骤为:步骤1:采集有标签样本集{XL,YL},L表示有标签;和无标签样本集{XU},U表示无标签,并对于无标签样本集中的每个样本xi∈{XU},计算其与有标签样本集中每个样本xj∈{XL,j=1,2,...,NL}的相似度,NL表示有标签样本个数,相似度指标Sim的计算如式(1)所示,并将按降序排列的相似度记为RSim,其中γ∈(0,1)是相似度参数,||xi-xj||,cos<xi,xj>分别表示向量xi,xj之间的欧式距离和夹角的余弦;
Simj=γexp(-||xi-xj||)+(1-γ)cos<xi,xj> (1)
步骤2:采用式(2)估计当前的无标签样本,其中
Figure FDA0002501824900000011
表示第k个与当前无标签样本最相似的标签样本的标签值,w是设置的最相似样本个数;
Figure FDA0002501824900000012
步骤3:重复Step1和Step2,直到无标签样本集的估计值全部得到,得到估计样本集
Figure FDA0002501824900000013
步骤4:建立与
Figure FDA0002501824900000014
i=1,2,...,nU对应的软测量模型,并计算该模型对原有数据集{XL,YL}的预测误差,计算方法为式(3):
Figure FDA0002501824900000015
步骤5:重复Step4直到所有估计样本对应的预测误差全部计算出,即得到误差向量ERR(i),i=1,2,...nU,并将按降序排列的误差向量记为RERR;
步骤6:将预测误差最大的前k个样本作为扩充样本集[Xadd;Yadd]加入到有标签样本集中,构成训练样本集{Xtrain,Ytrain}={[XL;Xadd],[YL;Yadd]},其中,RERR(k)表示为重排列的误差向量RERR的前k个元素,Xadd=XU[RERR(k)],
Figure FDA0002501824900000016
步骤7:使用重构后的训练样本,建立最终的软测量模型,当查询样本到来时使用模型进行预测;
步骤8:在不同标签率下各种方法预测的RMSE,基于改进自训练算法的高斯过程回归半监督软测量建模方法能够有效地预测丁烷浓度。
CN201710632197.4A 2017-07-28 2017-07-28 一种基于改进自训练算法的半监督高斯过程回归软测量建模对脱丁烷塔底丁烷浓度进行预测的方法 Active CN107451102B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710632197.4A CN107451102B (zh) 2017-07-28 2017-07-28 一种基于改进自训练算法的半监督高斯过程回归软测量建模对脱丁烷塔底丁烷浓度进行预测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710632197.4A CN107451102B (zh) 2017-07-28 2017-07-28 一种基于改进自训练算法的半监督高斯过程回归软测量建模对脱丁烷塔底丁烷浓度进行预测的方法

Publications (2)

Publication Number Publication Date
CN107451102A CN107451102A (zh) 2017-12-08
CN107451102B true CN107451102B (zh) 2020-06-30

Family

ID=60490245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710632197.4A Active CN107451102B (zh) 2017-07-28 2017-07-28 一种基于改进自训练算法的半监督高斯过程回归软测量建模对脱丁烷塔底丁烷浓度进行预测的方法

Country Status (1)

Country Link
CN (1) CN107451102B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664706B (zh) * 2018-04-16 2020-11-03 浙江大学 一种基于半监督贝叶斯高斯混合模型的合成氨过程一段炉氧气含量在线估计方法
CN109002686B (zh) * 2018-04-26 2022-04-08 浙江工业大学 一种自动生成样本的多牌号化工过程软测量建模方法
CN108764295B (zh) * 2018-04-28 2021-05-28 江南大学 一种基于半监督集成学习的软测量建模对脱丁烷塔底丁烷浓度进行预测的方法
CN108647272B (zh) * 2018-04-28 2020-12-29 江南大学 一种基于数据分布的小样本扩充对脱丁烷塔底丁烷浓度进行预测的方法
WO2019213860A1 (en) 2018-05-09 2019-11-14 Jiangnan University Advanced ensemble learning strategy based semi-supervised soft sensing method
CN108734207B (zh) * 2018-05-14 2021-05-28 江南大学 一种基于双优选半监督回归算法的模型对脱丁烷塔底丁烷浓度进行预测的方法
CN108959182B (zh) * 2018-05-21 2021-09-17 北京理工大学 基于高斯过程回归的小天体引力场建模方法
CN108763857A (zh) * 2018-05-29 2018-11-06 浙江工业大学 一种基于相似度生成对抗网络的过程软测量建模方法
CN108694293B (zh) * 2018-06-20 2021-10-26 浙江工业大学 一种往复式混输泵流率的主动建模与预测方法
CN110533251B (zh) * 2019-09-03 2020-07-31 北京天泽智云科技有限公司 提升预测性维护模型适应能力的方法及装置
CN110895880B (zh) * 2019-12-12 2020-12-25 浙江工业大学 采用obd数据融合的公交车到达时间预测方法
CN111797540A (zh) * 2020-07-17 2020-10-20 浙江工业大学 结晶过程晶体尺寸分布的及时在线高斯过程回归模型方法
CN112001115B (zh) * 2020-07-17 2024-04-02 西安理工大学 一种半监督动态软测量网络的软测量建模方法
CN113158473B (zh) * 2021-04-27 2022-03-15 昆明理工大学 一种半监督集成即时学习工业混炼胶门尼粘度软测量方法
CN116821695B (zh) * 2023-08-30 2023-11-03 中国石油大学(华东) 一种半监督神经网络软测量建模方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009082586A1 (en) * 2007-12-21 2009-07-02 Honda Motor Co., Ltd. Online sparse matrix gaussian process regression and visual applications
CN102542126A (zh) * 2011-10-10 2012-07-04 上海交通大学 基于半监督学习的软测量方法
CN102693452A (zh) * 2012-05-11 2012-09-26 上海交通大学 基于半监督回归学习的多模型软测量方法
US8684921B2 (en) * 2010-10-01 2014-04-01 Flint Hills Scientific Llc Detecting, assessing and managing epilepsy using a multi-variate, metric-based classification analysis
CN104914723A (zh) * 2015-05-22 2015-09-16 浙江大学 基于协同训练偏最小二乘模型的工业过程软测量建模方法
CN106874862A (zh) * 2017-01-24 2017-06-20 复旦大学 基于子模技术和半监督学习的人群计数方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009082586A1 (en) * 2007-12-21 2009-07-02 Honda Motor Co., Ltd. Online sparse matrix gaussian process regression and visual applications
US8684921B2 (en) * 2010-10-01 2014-04-01 Flint Hills Scientific Llc Detecting, assessing and managing epilepsy using a multi-variate, metric-based classification analysis
CN102542126A (zh) * 2011-10-10 2012-07-04 上海交通大学 基于半监督学习的软测量方法
CN102693452A (zh) * 2012-05-11 2012-09-26 上海交通大学 基于半监督回归学习的多模型软测量方法
CN104914723A (zh) * 2015-05-22 2015-09-16 浙江大学 基于协同训练偏最小二乘模型的工业过程软测量建模方法
CN106874862A (zh) * 2017-01-24 2017-06-20 复旦大学 基于子模技术和半监督学习的人群计数方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Sequential training of semi-supervised classification based on sparse gaussian process regression;Rongqing Huang,etc;《Proceeding of the 2012 International Conference on Machine Learning and Cybernetics》;20121231;第702-707页 *

Also Published As

Publication number Publication date
CN107451102A (zh) 2017-12-08

Similar Documents

Publication Publication Date Title
CN107451102B (zh) 一种基于改进自训练算法的半监督高斯过程回归软测量建模对脱丁烷塔底丁烷浓度进行预测的方法
CN109060001B (zh) 一种基于特征迁移学习的多工况过程软测量建模方法
CN111079836B (zh) 基于伪标签方法和弱监督学习的过程数据故障分类方法
CN111142501B (zh) 基于半监督自回归动态隐变量模型的故障检测方法
CN104794484B (zh) 基于分段正交多项式分解的时序数据最近邻分类方法
CN114297036B (zh) 数据处理方法、装置、电子设备及可读存储介质
CN108520310B (zh) G-L混合噪声特性v-支持向量回归机的风速预报方法
Gad et al. Performance evaluation of predictive models for missing data imputation in weather data
Li et al. Robust and flexible strategy for missing data imputation in intelligent transportation system
Cheng et al. A lightweight ensemble spatiotemporal interpolation model for geospatial data
Qu et al. Improving the reliability for confidence estimation
CN114048546A (zh) 一种基于图卷积网络和无监督域自适应的航空发动机剩余使用寿命预测方法
CN114117852A (zh) 一种基于有限差分工作域划分的区域热负荷滚动预测方法
Bahri et al. Time series forecasting using smoothing ensemble empirical mode decomposition and machine learning techniques
Saffari et al. Behind-the-meter load and PV disaggregation via deep spatiotemporal graph generative sparse coding with capsule network
Liski Detecting influential measurements in a growth curves model
Valabhoju et al. Optimized ensemble of regression tree-based location of evolving faults in dual-circuit line
Hassanvand et al. A robust control chart for simple linear profiles in two‐stage processes
CN108827905A (zh) 一种基于局部加权Lasso的近红外模型在线更新方法
CN111160464B (zh) 基于多隐层加权动态模型的工业高阶动态过程软测量方法
CN114021465A (zh) 基于深度学习的电力***鲁棒状态估计方法及***
CN108021876B (zh) 一种基于参数辨识的压气机故障诊断方法
CN112329805A (zh) 基于异方差噪声孪生lssvr的风速预报装置及方法
Masti et al. Learning virtual sensors for estimating the scheduling signal of parameter-varying systems
Sarajcev et al. Wide & Deep Machine Learning Model for Transformer Health Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant