CN102930158A - 基于偏最小二乘的变量选择方法 - Google Patents

基于偏最小二乘的变量选择方法 Download PDF

Info

Publication number
CN102930158A
CN102930158A CN2012104279749A CN201210427974A CN102930158A CN 102930158 A CN102930158 A CN 102930158A CN 2012104279749 A CN2012104279749 A CN 2012104279749A CN 201210427974 A CN201210427974 A CN 201210427974A CN 102930158 A CN102930158 A CN 102930158A
Authority
CN
China
Prior art keywords
variable
variables
input
sequence
input variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012104279749A
Other languages
English (en)
Other versions
CN102930158B (zh
Inventor
尹珅
卫作龙
王光
高会军
刘方舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201210427974.9A priority Critical patent/CN102930158B/zh
Publication of CN102930158A publication Critical patent/CN102930158A/zh
Application granted granted Critical
Publication of CN102930158B publication Critical patent/CN102930158B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Testing And Monitoring For Control Systems (AREA)
  • Complex Calculations (AREA)

Abstract

基于偏最小二乘的变量选择方法,涉及基于偏最小二乘的变量选择方法。它为了解决目前的变量选择方法存在的预测能力差,无法提高预测性能的问题。基于偏最小二乘的变量选择方法为:对待分析变量进行预处理,获取标准化变量集;根据标准化变量集计算回归向量,所述的回归向量的各元素表示相应的输入变量对于输出的贡献率,所述的贡献率的排序顺序为依次减小的顺序;根据回归向量的贡献率的排序顺序对输入变量进行排序,获取输入变量序列Xior;对输入变量序列Xior中的所有输入变量进行相关性检验;对输入变量选择计算获取回归系数。本发明应用于钢铁、锅炉、化工、制药等诸多领域的过程控制***中。

Description

基于偏最小二乘的变量选择方法
技术领域
本发明涉及一种选择方法,具体涉及基于偏最小二乘的变量选择方法。
背景技术
过程控制***涉及钢铁、锅炉、化工、制药等诸多领域,已经成为现代工业生产中重要的组成部分。
现代过程控制***往往会对生产过程中的许多状态变量进行长期的测量,从而获得大量现场监控数据。如何对这些数据进行合理、高效地利用,从而保证最终产品的质量,是现在工业过程控制***所面临的主要挑战之一。尤其是当所监测的变量规模巨大时,如果直接使用全部变量进行分析,则会对***造成巨大的计算压力,甚至影响到***的控制效果。因此,在不损失主要信息的前提下,通过提取关键变量来简化控制***成为一种合理的选择。一种好的变量选择方法,可以有效的减少变量数量,并获得一个准确、合理的回归模型。目前,变量选择方法的设计已经受到了越来越多的重视。
目前的变量选择方法存在的预测能力差,无法提高预测性能的问题。
发明内容
本发明为了解决目前的变量选择方法存在的预测能力差,无法提高预测性能的问题,从而提出了基于偏最小二乘的变量选择方法。
基于偏最小二乘的变量选择方法,它包括下述步骤:
步骤一、对待分析变量进行预处理,获取标准化变量集;
步骤二、根据标准化变量集计算回归向量,所述的回归向量的各元素表示相应的输入变量对于输出的贡献率,所述的贡献率的排序顺序为依次减小的顺序;
步骤三、根据回归向量的贡献率的排序顺序对输入变量进行排序,获取输入变量序列Xior;
步骤四、对输入变量序列Xior中的所有输入变量进行相关性检验;
步骤五、对输入变量选择计算获取回归系数。
本发明计算计算回归向量、留一交叉检验方法以及变量进行相关性检验提高了变量预测能力的评估性能,达到了变量选择的预测能力好,提高预测性能的目的。
附图说明
图1为本发明所述的基于偏最小二乘的变量选择方法的流程图。
具体实施方式
具体实施方式一、结合图1具体说明本实施方式,本实施方式所述的基于偏最小二乘的变量选择方法,它包括下述步骤:
步骤一、对待分析变量进行预处理,获取标准化变量集;
步骤二、根据标准化变量集计算回归向量,所述的回归向量的各元素表示相应的输入变量对于输出的贡献率,所述的贡献率的排序顺序为依次减小的顺序;
步骤三、根据回归向量的贡献率的排序顺序对输入变量进行排序,获取输入变量序列Xior;
步骤四、对输入变量序列Xior中的所有输入变量进行相关性检验;
步骤五、对输入变量选择计算获取回归系数。
具体实施方式二、本实施方式与具体实施方式一所述的基于偏最小二乘的变量选择方法的区别在于,步骤一所述的对待分析变量进行预处理,获取标准化变量集的具体过程为:
待分析变量的集合构成变量集X,初始化变量集X,根据归一化处理剔除变量集X的野值获取标准化变量集,所述的标准化变量集为均值为0,方差为1的标准化变量集。
本实施方式通过对待分析变量进行预处理保证了分析的有效性。
具体实施方式三、本实施方式与具体实施方式一所述的基于偏最小二乘的变量选择方法的区别在于,步骤二所述的根据标准化变量集计算回归向量的具体过程为:
输入变量存在较大的冗余,具有自相关性,不利于后面的分析和处理,根据留一交叉检验方法确定标准化变量集的潜在变量的数目nlv,
所述的潜在变量的数目nlv再根据改进的偏差最小二乘回归方法得到回归向量b,其各元素代表相应的输入变量对于输出的贡献率。
本实施方式所述的改进的偏差最小二乘回归方法可以保证数字计算的稳定性,提高运算速度。
具体实施方式四、本实施方式与具体实施方式一或三所述的基于偏最小二乘的变量选择方法的区别在于,步骤三所述的根据回归向量的贡献率的排序顺序对输入变量进行排序,获取变量序列Xior的具体过程为:
回归向量b各元素的绝对值按照回归向量的贡献率依次减小的顺序排序,获取输入变量序列Xior。
具体实施方式五、本实施方式与具体实施方式一所述的基于偏最小二乘的变量选择方法的区别在于,步骤四所述的对输入变量序列Xior中的所有元素进行相关性检验的具体过程为:
步骤四一、在输入变量序列Xior中去除与任意一个输入变量相关的其他输入变量,获取无冗余的变量序列Xor;
步骤四二、根据回归向量的贡献率由低到高的顺序,对无冗余的变量序列Xor中各变量进行相关性检验,直到所有变量都检验完成。
具体实施方式六、本实施方式与具体实施方式一所述的基于偏最小二乘的变量选择方法的区别在于,步骤五所述的对输入变量选择计算获取回归系数的具体过程为:
步骤五一、从无冗余的变量序列Xor中选取前k个输入变量构成第一个子集X1,根据检验方法计算该第一个子集X1的预测性能;
其中,k=3,
步骤五二、在第一个子集X1上增加i个输入变量,得到第二个子集X2,该子集有k=k+i个输入变量,根据检验方法计算该二个子集X2的预测性能;
其中,i=1,
步骤五三、重复步骤二,直到计算完无冗余的变量序列Xor中的所有输入变量的预测性能;
步骤五四、计算无冗余的变量序列Xor中所有输入变量的预测性能的均方根误差,获取均方根误差最小的输入变量,根据该输入变量计算回归矩阵偏差系数C、贡献率Bn和Bn经过逆归一化构成后得到的贡献率B。
可以写成如下形式:
Y=Bn X
其中,Y是计算的输出,X是选出的输入变量,Bn是贡献率。由于在前面的步骤中对变量进行了归一化处理,所以要还原成未处理的变量,以方便实际使用,记为
Y=BX+C
其中,X是输入变量,B是Bn经过逆归一化构成后得到的贡献率,C是偏差系数,是在逆归一化过程中产生的。
具体实施方式七、本实施方式提供一种应用于工业过程的田纳西-伊斯曼模型的具体实例如下,所述的田纳西-伊斯曼模型为一个工业过程的标准模型,通常用来验证方法的优劣。
获取田纳西-伊斯曼模型中11输入变量在20个采样时刻数据,以及相应时刻输出变量的数据。表1表示数据集-初始数据集X、Y,并执行归一化操作。
表1
Figure BDA00002339549700041
执行留N交叉检验,得到潜在变量数量nlv=8。
利用改进的偏差最小二乘回归方法得到回归向量b=[0.000274270786857268;-0.00512986100659507;0.994395917039226;0.00326691898620576;-0.00543850736249477;0.00171073946773176;0.00155756955575098;-0.00174488763358110;-0.00365807061374843;-0.000898265799188703;0.00235487116712645]。
按照贡献率依次减小的顺序,也就是回归向量b各元素的绝对值递减的方式,对输入变量X进行重新排序,得到排序后的变量序列Xior如表2表示数据集-排序后的数据集Xior。
表2
对变量序列Xior中各变量进行相关性检验,发现无相关性变量,故Xor=Xior。
从Xor中选择第1个输入变量(即k=1)构成第一个子集X1,利用留一交叉检验方法计算其预测性能。每次增加1个变量(即ki=1),重复进行计算,直到11个变量那个全部计算进来。即可得到第一组数据集的均方根误差最小。故取关键变量为输入变量3。(即第一组)
根据所得子集的变量,计算回归矩阵B=[0.0101]、C=[0.0023]、Bn=[0.996]。即Y=0.0101*X+0.0023。(其中X为关键变量,此处为输入变量3)。

Claims (6)

1.基于偏最小二乘的变量选择方法,其特征在于,它包括下述步骤:
步骤一、对待分析变量进行预处理,获取标准化变量集;
步骤二、根据标准化变量集计算回归向量,所述的回归向量的各元素表示相应的输入变量对于输出的贡献率,所述的贡献率的排序顺序为依次减小的顺序;
步骤三、根据回归向量的贡献率的排序顺序对输入变量进行排序,获取输入变量序列Xior;
步骤四、对输入变量序列Xior中的所有输入变量进行相关性检验;
步骤五、对输入变量选择计算获取回归系数。
2.根据权利要求1所述的基于偏最小二乘的变量选择方法,其特征在于,步骤一所述的对待分析变量进行预处理,获取标准化变量集的具体过程为:
待分析变量的集合构成变量集X,初始化变量集X,根据归一化处理剔除变量集X的野值获取标准化变量集,所述的标准化变量集为均值为0,方差为1的标准化变量集。
3.根据权利要求1所述的基于偏最小二乘的变量选择方法,其特征在于,步骤二所述的根据标准化变量集计算回归向量的具体过程为:
根据留一交叉检验方法确定标准化变量集的潜在变量的数目nlv,
所述的潜在变量的数目nlv再根据改进的偏差最小二乘回归方法得到回归向量b,其各元素代表相应的输入变量对于输出的贡献率。
4.根据权利要求1或3所述的基于偏最小二乘的变量选择方法,其特征在于,步骤三所述的根据回归向量的贡献率的排序顺序对输入变量进行排序,获取变量序列Xior的具体过程为:
回归向量b各元素的绝对值按照回归向量的贡献率依次减小的顺序排序,获取输入变量序列Xior。
5.根据权利要求1所述的基于偏最小二乘的变量选择方法,其特征在于,步骤四所述的对输入变量序列Xior中的所有元素进行相关性检验的具体过程为:
步骤四一、在输入变量序列Xior中去除与任意一个输入变量相关的其他输入变量,获取无冗余的变量序列Xor;
步骤四二、根据回归向量的贡献率由低到高的顺序,对无冗余的变量序列Xor中各变量进行相关性检验,直到所有变量都检验完成。
6.根据权利要求1所述的基于偏最小二乘的变量选择方法,其特征在于,步骤五所述的对输入变量选择计算获取回归系数的具体过程为:
步骤五一、从无冗余的变量序列Xor中选取前k个输入变量构成第一个子集X1,根据留一交叉检验方法计算该第一个子集X1的预测性能;
其中,k=3,
步骤五二、在第一个子集X1上增加i个输入变量,得到第二个子集X2,该子集有k=k+i个输入变量,根据留一交叉检验方法计算该二个子集X2的预测性能;
其中,i=1,
步骤五三、重复步骤二,直到计算完无冗余的变量序列Xor中的所有输入变量的预测性能;
步骤五四、计算无冗余的变量序列Xor中所有输入变量的预测性能的均方根误差,获取均方根误差最小的输入变量,根据该输入变量计算回归矩阵偏差系数C、贡献率Bn和Bn经过逆归一化构成后得到的贡献率B。
CN201210427974.9A 2012-10-31 2012-10-31 基于偏最小二乘的变量选择方法 Expired - Fee Related CN102930158B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210427974.9A CN102930158B (zh) 2012-10-31 2012-10-31 基于偏最小二乘的变量选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210427974.9A CN102930158B (zh) 2012-10-31 2012-10-31 基于偏最小二乘的变量选择方法

Publications (2)

Publication Number Publication Date
CN102930158A true CN102930158A (zh) 2013-02-13
CN102930158B CN102930158B (zh) 2016-01-20

Family

ID=47644955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210427974.9A Expired - Fee Related CN102930158B (zh) 2012-10-31 2012-10-31 基于偏最小二乘的变量选择方法

Country Status (1)

Country Link
CN (1) CN102930158B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103969212A (zh) * 2014-04-17 2014-08-06 首都师范大学 利用太赫兹频段ftir技术定量检测粮食中农药残留的方法
CN105550498A (zh) * 2015-12-05 2016-05-04 中国航空工业集团公司洛阳电光设备研究所 一种基于移动最小二乘法的弹道曲线拟合方法
CN110174106A (zh) * 2019-04-01 2019-08-27 香港理工大学深圳研究院 一种基于pm2.5的健康步行路径规划方法及终端设备
CN112116443A (zh) * 2019-06-20 2020-12-22 中科聚信信息技术(北京)有限公司 基于变量分组的模型生成方法、模型生成装置和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477112A (zh) * 2009-01-12 2009-07-08 浙江大学 工业流化床气相聚乙烯装置的产品质量在线软测量方法
US20120119080A1 (en) * 2010-11-17 2012-05-17 Pioneer Hi-Bred International, Inc. Prediction of phenotypes and traits based on the metabolome

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477112A (zh) * 2009-01-12 2009-07-08 浙江大学 工业流化床气相聚乙烯装置的产品质量在线软测量方法
US20120119080A1 (en) * 2010-11-17 2012-05-17 Pioneer Hi-Bred International, Inc. Prediction of phenotypes and traits based on the metabolome

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
REINALDO F.TEO´FILO, JOA˜O PAULO A. MARTINS AND MA´RCIA M.C.F: "Sorting variables by using informative vectors as a strategy for feature selection in multivariate regression", 《JOURNAL OF CHEMOMETRICS》, 29 October 2008 (2008-10-29), pages 32 - 46 *
SVANTE WOLD,HENNART ERIKSSON AND SERGIO CLEMENTI: "《chemometric method in molecular design》", 28 February 1995, article "Statistical Validation of QSAR Result", pages: 333 *
丁磊: "偏最小二乘回归算法改进及应用", 《中国优秀硕士学位论文全文数据库基础科学辑》, no. 06, 15 December 2007 (2007-12-15) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103969212A (zh) * 2014-04-17 2014-08-06 首都师范大学 利用太赫兹频段ftir技术定量检测粮食中农药残留的方法
CN103969212B (zh) * 2014-04-17 2016-08-17 首都师范大学 利用太赫兹频段ftir技术定量检测粮食中农药残留的方法
CN105550498A (zh) * 2015-12-05 2016-05-04 中国航空工业集团公司洛阳电光设备研究所 一种基于移动最小二乘法的弹道曲线拟合方法
CN105550498B (zh) * 2015-12-05 2018-11-16 中国航空工业集团公司洛阳电光设备研究所 一种基于移动最小二乘法的弹道曲线拟合方法
CN110174106A (zh) * 2019-04-01 2019-08-27 香港理工大学深圳研究院 一种基于pm2.5的健康步行路径规划方法及终端设备
CN112116443A (zh) * 2019-06-20 2020-12-22 中科聚信信息技术(北京)有限公司 基于变量分组的模型生成方法、模型生成装置和电子设备

Also Published As

Publication number Publication date
CN102930158B (zh) 2016-01-20

Similar Documents

Publication Publication Date Title
Ju et al. 16S rRNA gene high-throughput sequencing data mining of microbial diversity and interactions
Kaneko et al. Development of a new soft sensor method using independent component analysis and partial least squares
Liu et al. Data anomaly detection for structural health monitoring using a combination network of GANomaly and CNN
CN103810101A (zh) 一种软件缺陷预测方法和软件缺陷预测***
CN102930158A (zh) 基于偏最小二乘的变量选择方法
CN113868006A (zh) 时间序列的检测方法、装置、电子设备及计算机存储介质
Sanusi et al. A comparative study of some EWMA schemes for simultaneous monitoring of mean and variance of a Gaussian process
Wang et al. Fault detection and identification using a Kullback-Leibler divergence based multi-block principal component analysis and Bayesian inference
CN102737063B (zh) 一种日志信息的处理方法及***
CN115793552B (zh) 一种基于数据处理的电子气体生产监测方法及***
Wang et al. Quick‐switch inspection scheme based on the overall process capability index for modern industrial web‐based processing environment
CN102436542B (zh) 一种基于格拉布斯规则和矩阵实验室语言的药学测试数据中异常值的剔除方法
Thangaiyarkarasi et al. The impact of financial development on decarbonization factors of carbon emissions: A global perspective
CN102541738B (zh) 加速多核cpu抗软错误测试的方法
Dos Santos et al. Preprocessing in fuzzy time series to improve the forecasting accuracy
CN111080089A (zh) 一种基于随机矩阵理论的线损率关键因子确定方法和装置
Hua et al. Multi-sensor degradation data analysis
Menard et al. Design of fixed-point embedded systems (defis) french anr project
CN110969340A (zh) 一种确定智能电能表质量技术基础能力的方法和***
CN112329108A (zh) 一种地铁车站优化抗浮验算方法及***
CN113435058B (zh) 配网自愈测试模型的数据降维方法、***、终端及介质
Gong et al. Research on customer churn prediction method based on variable precision rough set and BP neural network
CN112446002B (zh) 一种面向时序kpi数据的异常检测方法
CN117291175B (zh) 基于多个大语言模型统计特征融合的生成文本检测方法
Shi et al. Data augmentation to improve the performance of ensemble learning for system failure prediction with limited observations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160120

Termination date: 20211031