CN108827905B - 一种基于局部加权Lasso的近红外模型在线更新方法 - Google Patents

一种基于局部加权Lasso的近红外模型在线更新方法 Download PDF

Info

Publication number
CN108827905B
CN108827905B CN201810305190.6A CN201810305190A CN108827905B CN 108827905 B CN108827905 B CN 108827905B CN 201810305190 A CN201810305190 A CN 201810305190A CN 108827905 B CN108827905 B CN 108827905B
Authority
CN
China
Prior art keywords
asso
sample
matrix
spectrum
physical property
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810305190.6A
Other languages
English (en)
Other versions
CN108827905A (zh
Inventor
栾小丽
刘进
冯恩波
赵忠盖
王志国
刘飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN201810305190.6A priority Critical patent/CN108827905B/zh
Publication of CN108827905A publication Critical patent/CN108827905A/zh
Application granted granted Critical
Publication of CN108827905B publication Critical patent/CN108827905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/359Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N2021/3595Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using FTIR

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明提供一种基于局部加权Lasso的近红外模型在线更新方法,属于近红外在线检测领域。该方法分为四个部分:历史数据采集与预处理、得到相似度测量矩阵、建立局部Lasso模型和获取查询样本预测值。本发明提出基于局部加权Lasso的更新方法,兼具JITL方法可以克服工业过程非线性,增强算法泛化性能;以及能同时进行变量选择和回归,从而降低计算量,达到提高模型精度和预测能力,并进一步实现近红外在线分析检测技术的推广。

Description

一种基于局部加权Lasso的近红外模型在线更新方法
技术领域
本发明属于近红外在线检测领域,尤其涉及一种基于局部加权Lasso的近红外模型在线更新方法。
背景技术
近红外光谱分析技术以其检测速度快、分析效率高、无需或极少对样品预处理、不破坏样品等优点,已广泛应用于制药、石油化工、农业、食品、高分子等许多领域。建立光谱与被测样本物性参数之间的模型,可以实现复杂物质的定量分析。然而大多数近红外光谱建模都是离线进行的,当离线模型投入实际生产应用后,其预测性能往往会随着过程状态变化、催化剂活性改变、外界环境的影响、仪表漂移等因素而慢慢降低,致使离线模型已不能满足当前的工况条件。因此,对近红外模型进行维护更新是实现近红外的在线分析检测的必要手段。
即时学习(just-in-time learning,JITL)是一种基于数据库的局部模型在线更新方法,它对新样本进行实时建模,与传统的建模方法相比,JIT建模有以下特点:(1)当新的输入、输出数据均可获得时,将它们存入数据库中。(2)当仅有新的输入数据可获得、同时需要估计输出变量值时,计算新来样本与数据库中各数据点之间的相似度,建立局部模型。(3)对输出变量值进行预测后,丢弃建立的局部模型。由此可见,JITL可以很好地跟踪过程当前生产状态、克服实际生产过程的非线性问题。
目前常用于模型更新的方法都是利用全光谱信息参与计算,比如将PCR、PLS、KPLS等算法与JITL、移动窗以及递推方法相结合实现模型更新。然而近红外光谱波长范围广,包含成百上千的变量信息,除了与样品性质相关的部分,还有与样品性质相关性很弱或是除了样品自身信息以外的噪声冗余。若直接使用所有变量信息进行建模更新,模型性能恶化的同时计算成本也大大增加,实际可操作性不强、限制了近红外在线检测技术的推广。因此本发明将可同时进行变量选择和回归的(Least absolute shrinkage and selectionoperator,Lasso)方法应用于JITL学习框架中,提出一种基于局部加权Lasso(LW-Lasso)的近红外模型在线更新方法,降低计算量的同时,可不断在线校正模型以适应最新过程状态,提高建模精度和预测能力,从而达到推广近红外在线分析检测应用的目的。
发明内容
本发明旨在提供一种可用于在线检测的近红外模型更新方法。目的是当生产工程呈现非线性、时变性的问题时,能够快速、计算量小的自适应更新近红外模型,从而节约模型维护成本,提高预测精度,满足工业生产在线检测要求。
本发明采用的技术方案:
一种基于局部加权Lasso的近红外模型在线更新方法,分为四个部分:历史数据采集与预处理、得到相似度测量矩阵、建立局部Lasso模型和获取查询样本预测值;具体步骤如下:
步骤一:历史数据采集与预处理
采集样本物性参数和近红外光谱原始数据组成历史数据库,作为样本校正集,对近红外光谱原始数据进行预处理,并对校正集的样本按照3σ准则进行异常值剔除;
所述的预处理方法为平滑法、微分法、标准化法、多元散射校正法、标准正态变量变换法或小波变换法。
步骤二:得到相似度测量矩阵
利用剔除异常值后的样本校正集,建立光谱矩阵
Figure BDA0001620758840000021
和物性参数矩阵
Figure BDA0001620758840000031
其中,N为样本数目,M为光谱变量数目,xi为第i个样本对应的光谱,yi为第i个样本对应的物性参数;
当新来一个查询样本xq时,依据自定义的相似度准则,计算查询样本xq与历史数据库中所有样本的相似度,赋予与xq相似度高的样本更大的权重,得到相似度测量矩阵:W=diag(w1,w2,…,wi),wi为历史数据库中第i个样本被赋予的权重;
所述自定义的相似度准则是基于欧氏距离、马氏距离、角度、贝叶斯、相关性、数据密度、性能指标中的一种方法或两种以上方法的组合。
步骤三:建立局部加权Lasso模型
(1)将光谱矩阵X作为自变量,物性参数矩阵Y作为因变量,分别对矩阵X和矩阵Y进行加权后的均值中心化处理,得到
Figure BDA0001620758840000032
Figure BDA0001620758840000033
Figure BDA0001620758840000034
Figure BDA0001620758840000035
Figure BDA0001620758840000036
Figure BDA0001620758840000037
其中,1N∈RN是全为1的列向量,
Figure BDA0001620758840000038
为N个样本的光谱加权平均值,
Figure BDA0001620758840000039
为N个样本的物性参数加权平均值,
Figure BDA00016207588400000310
为均值中心化处理后的第i个样本的光谱,
Figure BDA00016207588400000311
为为均值中心化处理后的第i个样本的物性参数;
(2)在原有的Lasso方法基础上,给公式(5)添加权值,
Figure BDA0001620758840000041
得到局部加权Lasso建模方法,并得到估计的回归系数
Figure BDA0001620758840000042
Figure BDA0001620758840000043
其中,βLasso为Lasso建模方法估计的回归系数,βj为第j个变量对应的回归系数,λ为惩罚参数,
Figure BDA0001620758840000044
为局部加权Lasso建模方法估计的回归系数,xij为第i个样本的第j个光谱变量,
Figure BDA0001620758840000045
为均值中心化处理后的第i个样本的第j个光谱变量;
步骤四:获取查询样本预测值
(3)通过步骤三得到的估计的回归系数
Figure BDA0001620758840000046
完成对新来查询样本xq的预测;得到预测输出值后,丢弃当前模型,直到下一个新的查询样本xq′到来,重复步骤二、步骤三,建立新的局部加权Lasso模型,得到xq′的预测输出值,如此往返。
本发明的有益效果:本发明提出基于局部加权Lasso的更新方法,兼具JITL方法可以克服工业过程非线性,增强算法泛化性能;以及能同时进行变量选择和回归,从而降低计算量,达到提高模型精度和预测能力,并进一步实现近红外在线分析检测技术的推广。
附图说明
图1为本发明中模型更新方法的流程图。
图2(a)为Lasso方法的建模效果图。
图2(b)为与本发明方法的建模效果图。
具体实施方式
以下结合实例对本发明实施步骤进行详细说明。
实施例:如图1所示,一种基于局部加权Lasso的近红外模型在线更新方法。
步骤1:采用德国Bruker公司生产的MATRIX-F型傅里叶近红外光谱仪对脱盐原油输出过程进行光谱采集,一共采集了262个样本(光谱波长测量范围为1000-2200nm,分辨率选择为2cm-1),并按照标准方法测定样品中的水分含量。将采集得到的光谱和水分含量值组成历史数据库,作为样本校正集。
对采集得到的光谱进行一阶微分的预处理,并对校正集的样本按照3σ准则进行异常值剔除。
步骤2:
Figure BDA0001620758840000051
Figure BDA0001620758840000052
分别是光谱矩阵和物性参数矩阵,N为样本数目,M为光谱变量数目。对新来的查询样本xq,基于欧氏距离建立相似度测量矩阵,公式如下:
Figure BDA0001620758840000053
Figure BDA0001620758840000054
其中,σd是di(i=1,…,N)的标准差,
Figure BDA0001620758840000055
是位置参数,得到相似度测量矩阵:W=diag(w1,w2,…,wN)。计算得到的wi在0和1之间,wi越接近于1,xi与xq相似度越高。
步骤3:将光谱矩阵作为自变量,物性参数作为因变量,并分别对X和Y矩阵进行加权后的均值中心化处理,计算得到
Figure BDA0001620758840000056
Figure BDA0001620758840000057
Figure BDA0001620758840000058
Figure BDA0001620758840000059
Figure BDA00016207588400000510
Figure BDA00016207588400000511
进行局部加权Lasso建模得到系数估计:
Figure BDA0001620758840000061
步骤4:完成对新来查询样本的预测后,丢弃当前模型,直到下一个新的查询样本xq′到来,重复步骤二、三,建立新的局部加权Lasso模型,得到xq′的预测值,如此往返。图2(b)是实验室分析值和局部加权Lasso模型预测值的比较,其相关系数为89.47%,均方误差为0.2888(kg/L)。可以看出本发明提出的在线更新算法提高了模型预测精度。
对比例:原有的Lasso方法下石油脱盐过程中水分含量预测
采集原油脱盐输出过程不同阶段不同时间下的166组光谱数据作为测试样本,进行和校正集相同的预处理。将本方法和Lasso方法对测试样本进行石油脱盐过程中水分含量预测效果对比:图2(a)是实验室分析值和Lasso模型预测值的比较。其相关系数为57.13%,均方误差为0.3634(kg/L)。

Claims (4)

1.一种基于局部加权Lasso的近红外模型在线更新方法,其特征在于,步骤如下:
步骤一:历史数据采集与预处理
采集样本物性参数和近红外光谱原始数据组成历史数据库,作为样本校正集,对近红外光谱原始数据进行预处理,并对校正集的样本按照3σ准则进行异常值剔除;
步骤二:得到相似度测量矩阵
利用剔除异常值后的样本校正集,建立光谱矩阵
Figure FDA0001620758830000011
和物性参数矩阵
Figure FDA0001620758830000012
其中,N为样本数目,M为光谱变量数目,xi第i个样本对应的光谱,yi为第i个样本对应的物性参数;
当新来一个查询样本xq时,依据自定义的相似度准则,计算查询样本xq与历史数据库中所有样本的相似度,赋予与xq相似度高的样本更大的权重,得到相似度测量矩阵:W=diag(w1,w2,…,wi),wi为历史数据库中第i个样本被赋予的权重;
步骤三:建立局部加权Lasso模型
(1)将光谱矩阵X作为自变量,物性参数矩阵Y作为因变量,分别对矩阵X和矩阵Y进行加权后的均值中心化处理,得到
Figure FDA0001620758830000016
Figure FDA0001620758830000017
Figure FDA0001620758830000013
Figure FDA0001620758830000014
Figure FDA0001620758830000015
Figure FDA0001620758830000021
其中,1N∈RN是全为1的列向量,
Figure FDA0001620758830000022
为N个样本的光谱加权平均值,
Figure FDA0001620758830000023
为N个样本的物性参数加权平均值,
Figure FDA0001620758830000024
为均值中心化处理后的第i个样本的光谱,
Figure FDA0001620758830000025
为均值中心化处理后的第i个样本的物性参数;
(2)在原有的Lasso方法基础上,给公式(5)添加权值,
Figure FDA0001620758830000026
得到局部加权Lasso建模方法,并得到估计的回归系数
Figure FDA0001620758830000027
Figure FDA0001620758830000028
其中,βLasso为Lasso建模方法估计的回归系数,βj为第j个变量对应的回归系数,λ为惩罚参数,
Figure FDA0001620758830000029
为局部加权Lasso建模方法估计的回归系数,xij为第i个样本的第j个光谱变量,
Figure FDA00016207588300000210
为均值中心化处理后的第i个样本的第j个光谱变量;
步骤四:获取查询样本预测值
(3)通过步骤三得到的估计的回归系数
Figure FDA00016207588300000211
完成对新来查询样本xq的预测;得到预测输出值后,丢弃当前模型,直到下一个新的查询样本xq′到来,重复步骤二、步骤三,建立新的局部加权Lasso模型,得到xq′的预测输出值,如此往返。
2.根据权利要求1所述的一种基于局部加权Lasso的近红外模型在线更新方法,其特征在于,所述的预处理方法为平滑法、微分法、标准化法、多元散射校正法、标准正态变量变换法或小波变换法。
3.根据权利要求1或2所述的一种基于局部加权Lasso的近红外模型在线更新方法,其特征在于,所述自定义的相似度准则是基于欧氏距离、马氏距离、角度、贝叶斯、相关性、数据密度、性能指标中的一种方法或两种以上方法的组合。
4.根据权利要求3所述的一种基于局部加权Lasso的近红外模型在线更新方法,其特征在于,当所述自定义的相似度准则采用欧氏距离时,wi的计算公式为:
Figure FDA0001620758830000031
Figure FDA0001620758830000032
其中,σd是di的标准差,i=1,…,N,
Figure FDA0001620758830000033
是位置参数。
CN201810305190.6A 2018-04-08 2018-04-08 一种基于局部加权Lasso的近红外模型在线更新方法 Active CN108827905B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810305190.6A CN108827905B (zh) 2018-04-08 2018-04-08 一种基于局部加权Lasso的近红外模型在线更新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810305190.6A CN108827905B (zh) 2018-04-08 2018-04-08 一种基于局部加权Lasso的近红外模型在线更新方法

Publications (2)

Publication Number Publication Date
CN108827905A CN108827905A (zh) 2018-11-16
CN108827905B true CN108827905B (zh) 2020-07-24

Family

ID=64155417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810305190.6A Active CN108827905B (zh) 2018-04-08 2018-04-08 一种基于局部加权Lasso的近红外模型在线更新方法

Country Status (1)

Country Link
CN (1) CN108827905B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111141704B (zh) * 2020-02-21 2021-03-02 江南大学 一种基于近红外光谱的冰酒控温缓慢发酵过程实时监测方法
CN116258087B (zh) * 2023-05-15 2023-08-01 矿冶科技集团有限公司 冰铜品位软测量方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102608061A (zh) * 2012-03-21 2012-07-25 西安交通大学 一种改进的tr多组分气体傅里叶变换红外光谱特征变量提取方法
CN104964943A (zh) * 2015-05-28 2015-10-07 中北大学 一种基于自适应Group Lasso的红外光谱波长选择方法
CN105203498A (zh) * 2015-09-11 2015-12-30 天津工业大学 一种基于lasso的近红外光谱变量选择方法
CN106529008A (zh) * 2016-11-01 2017-03-22 天津工业大学 一种基于蒙特卡罗及lasso的双集成偏最小二乘建模方法
WO2018057583A1 (en) * 2016-09-21 2018-03-29 Trutag Technologies, Inc. Calibration for fabry perot spectral measurements

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102608061A (zh) * 2012-03-21 2012-07-25 西安交通大学 一种改进的tr多组分气体傅里叶变换红外光谱特征变量提取方法
CN104964943A (zh) * 2015-05-28 2015-10-07 中北大学 一种基于自适应Group Lasso的红外光谱波长选择方法
CN105203498A (zh) * 2015-09-11 2015-12-30 天津工业大学 一种基于lasso的近红外光谱变量选择方法
WO2018057583A1 (en) * 2016-09-21 2018-03-29 Trutag Technologies, Inc. Calibration for fabry perot spectral measurements
CN106529008A (zh) * 2016-11-01 2017-03-22 天津工业大学 一种基于蒙特卡罗及lasso的双集成偏最小二乘建模方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Regression Shrinkage and Selection via the Lasso;RoBert Tibshirani;《Journal of the Royal Statistical Society.Series B》;19961231;第58卷(第1期);第267-288页 *
siPLS-LASSO的近红外特征波长选择及其应用;梅从立 等;《光谱学与光谱分析》;20180228;第436-440页 *

Also Published As

Publication number Publication date
CN108827905A (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
CN111222290B (zh) 一种基于多参数特征融合的大型设备剩余使用寿命预测方法
CN103927412B (zh) 基于高斯混合模型的即时学习脱丁烷塔软测量建模方法
CN107451101B (zh) 一种分层集成的高斯过程回归软测量建模对脱丁烷塔底丁烷浓度进行预测的方法
CN109884892B (zh) 基于交叉相关时滞灰色关联分析的流程工业***预测模型
CN104914723B (zh) 基于协同训练偏最小二乘模型的工业过程软测量建模方法
CN108920863B (zh) 一种机器人伺服***能耗估计模型的建立方法
CN109407649B (zh) 一种基于故障特征变量选择的故障类型匹配方法
CN109389314B (zh) 一种基于最优近邻成分分析的质量软测量与监测方法
CN109409425B (zh) 一种基于近邻成分分析的故障类型识别方法
CN108595803B (zh) 基于递归神经网络的页岩气井生产压力预测方法
CN113569742B (zh) 一种基于卷积神经网络的宽频带电磁干扰源识别方法
CN111638707B (zh) 基于som聚类和mpca的间歇过程故障监测方法
CN111080074B (zh) 基于网络多特征关联的***服役安全态势要素获取方法
CN114363195B (zh) 面向时间和频谱残差卷积网络的网络流量预测预警方法
CN107403196B (zh) 基于谱聚类分析的即时学习建模对脱丁烷塔底丁烷浓度进行预测的方法
CN108827905B (zh) 一种基于局部加权Lasso的近红外模型在线更新方法
CN111639304B (zh) 基于Xgboost回归模型的CSTR故障定位方法
CN114626304B (zh) 一种矿浆铜品位在线预测软测量建模方法
CN110673568A (zh) 玻璃纤维制造业工业设备故障顺序确定方法及***
CN112381145A (zh) 基于最近相关谱聚类的高斯过程回归多模型融合建模方法
CN106599391B (zh) 基于三角形角度值动态加权的关联向量机软测量建模方法
CN116975535A (zh) 一种基于土壤环境监测数据的多参数数据分析方法
CN110619176A (zh) 一种基于dbn-rlssvm的航煤闪点预测方法
CN113959974B (zh) 一种普适性近红外光谱模型的传递方法
CN110990383A (zh) 一种基于工业大数据集的相似度计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant