CN111220565B - 一种基于cpls的红外光谱测量仪器标定迁移方法 - Google Patents

一种基于cpls的红外光谱测量仪器标定迁移方法 Download PDF

Info

Publication number
CN111220565B
CN111220565B CN202010045812.3A CN202010045812A CN111220565B CN 111220565 B CN111220565 B CN 111220565B CN 202010045812 A CN202010045812 A CN 202010045812A CN 111220565 B CN111220565 B CN 111220565B
Authority
CN
China
Prior art keywords
center
matrix
data set
spectrum
domain data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010045812.3A
Other languages
English (en)
Other versions
CN111220565A (zh
Inventor
赵煜辉
刘晓东
李雪晶
芦鹏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University Qinhuangdao Branch
Original Assignee
Northeastern University Qinhuangdao Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University Qinhuangdao Branch filed Critical Northeastern University Qinhuangdao Branch
Priority to CN202010045812.3A priority Critical patent/CN111220565B/zh
Publication of CN111220565A publication Critical patent/CN111220565A/zh
Application granted granted Critical
Publication of CN111220565B publication Critical patent/CN111220565B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/359Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2201/00Features of devices classified in G01N21/00
    • G01N2201/12Circuits of general importance; Signal processing
    • G01N2201/127Calibration; base line adjustment; drift compensation

Landscapes

  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明涉及机器学习模块下的迁移学习技术领域,提供一种基于CPLS的红外光谱测量仪器标定迁移方法。首先采集源域数据集{Xm,Y}和目标域数据集{Xs,Y},并对其进行中心化处理,得到中心化处理后的源域数据集{Xm_center,Ycenter}和目标域数据集{Xs_center,Ycenter};接着基于CPLS算法对矩阵Xm_center、Ycenter进行主成分分析,并对矩阵Xs_center进行主成分分析;再计算转移矩阵Mtrans_pre和转移矩阵Mtrans;最后,对被测对象的物质浓度变量进行预测。本发明能够清除主仪器测量的随机噪声,提高数据利用率和建模精度,降低时间复杂度。

Description

一种基于CPLS的红外光谱测量仪器标定迁移方法
技术领域
本发明涉及机器学习模块下的迁移学习技术领域,特别是涉及一种基于CPLS的红外光谱测量仪器标定迁移方法。
背景技术
近红外光谱(NIRS)分析技术具备仪器操作简单、分析数据速度快、成本较低、不污染样品等优势,已在各领域得到了普遍应用。在生产过程中,使用近红外光谱分析技术进行建模,由于测量条件和仪器硬件性能往往并不稳定,会导致已有的标定模型失效。
迁移学习的主要目的是从源域的一项或多项任务中提取分类或回归知识,并将这些知识应用到目标域任务中,如果一个任务的知识成功地转移到另一个任务中,那么新任务的模型可以在没有太多新样本的情况下获得。利用在一个或多个源域学习的知识,提高目标域的学习性能,解决了目标域标签缺失、标签成本高、学习过程耗时等问题,达到提高学习性能的目的。
标定迁移方法指的是在不同测量仪器或测量状态下的多元标定模型的迁移。这种方法利用不同来源的光谱数据间的线性关系,对新仪器或新状态下测得光谱样本进行转换,进而可以直接利用原有模型对新样本进行预测。迁移研究可以应用于相关领域而不是同一个领域之间,实现对迁移、域间转换的有用信息,从而可以保持原有模型的有效性或利用原有信息加快建模速度,避免用大量的目标域样本或模型再次对目标域进行采样或建模,从而提高模型的有效性,在很大程度上降低了成本,加快了建模速度。
已有的标定迁移方法存在着预测精度不高、限制应用场合等问题。如基于PLS的标定迁移方法中,偏最小二乘(partial least-regression,PLS)是数据信息提取和过程监控中常用的算法之一,通过提取过程变量与质量变量相关性最大的特征信息并对过程变量进行划分,将过程变量和质量变量转化为主元子空间和剩余子空间,实现了数据的压缩和提取。然而,PLS算法首先使用主成分分析法分别提取过程变量和质量变量的主元,二者主元没有关联。它默认为所有进程变量对质量变量都起作用,忽略了内部变量的状态信息。在许多情况下,由于过程数据缺乏激励,存在大量未测量的过程和质量扰动,当质量变量的剩余信息发生变化时,会出现报警失效现象,导致PLS预测输出较差。实际上,相较于过程变量,对质量变量信息变化的监控更加重要。另一方面,建立PLS模型所涉及的优化目标是在不受残差约束的情况下,最大化过程变量与质量变量之间的主成分相关性,使过程变量与质量变量之间的残差方差达到最大。变量不能保证是最小的,这可能会导致大量的过程变量和质量变量的信息残留。再者,目前近红外光谱建模处理数据量大,串行偏最小二乘算法时间复杂度高、训练和测试过程长。
发明内容
针对现有技术存在的问题,本发明提供一种基于CPLS的红外光谱测量仪器标定迁移方法,能够清除主仪器测量的随机噪声,提高数据利用率和建模精度,降低时间复杂度。
本发明的技术方案为:
一种基于CPLS的红外光谱测量仪器标定迁移方法,其特征在于,包括下述步骤:
步骤1:将红外光谱测量主仪器对应到源域、将红外光谱测量从仪器对应到目标域,使用红外光谱测量主仪器、红外光谱测量从仪器采集每个样本的光谱,分别得到主光谱、从光谱,对主光谱、从光谱分别在波长范围内间隔anm提取光谱数据,并采集每个样本的物质浓度变量值,得到源域数据集{Xm,Y}和目标域数据集{Xs,Y};
其中,Xm=(Xm1,Xm2,...,Xmi,...,XmI)T,Xmi=(xmi1,xmi2,...,xmij,...,xmiJ),Xs=(Xs1,Xs2,...,Xsi,...,XsI)T,Xsi=(xsi1,xsi2,...,xsij,...,xsiJ),xmij、xsij分别为第i个样本的第j个主光谱数据、从光谱数据,i=1,2,...,I,j=1,2,...,J,I为样本总数,J为提取的光谱数据点总数;Y=(Y1,Y2,...,Yi,...,YI)T,Yi=(yi1,yi2,...,yik,...,yiK),yik为第i个样本的第k个物质浓度变量的值,k=1,2,...,K,K为物质浓度变量总数;
步骤2:对源域数据集和目标域数据集进行中心化处理,得到中心化处理后的源域数据集{Xm_center,Ycenter}和目标域数据集{Xs_center,Ycenter};
步骤3:基于CPLS算法对矩阵Xm_center、Ycenter进行主成分分析:
步骤3.1:基于PLS算法对数据集{Xm_center,Ycenter}建立标定模型Ycenter=Xm_centerB,计算得到系数矩阵B、Xm_center的得分矩阵T、Xm_center的载荷矩阵P、Ycenter的得分矩阵U、Ycenter的载荷矩阵Q,引入矩阵R使T=Xm_centerR,并确定潜在变量个数l;
步骤3.2:计算可预测的物质浓度变量为
Figure BDA0002369344620000021
对可预测的物质浓度变量进行奇异值分解,得到
Figure BDA0002369344620000031
其中,Uc为左奇异矩阵,Dc为奇异值对角矩阵,Vc为右奇异矩阵,Vc是正交矩阵;Qc=VcDc T,包括降序的lc个非零奇异值和相应的右奇异向量;
由式(2)得到
Figure BDA0002369344620000032
得到
Rc=RQTVcDc -1 (4)
步骤3.3:计算不可预测的物质浓度变量为
Figure BDA0002369344620000033
对不可预测的物质浓度变量进行主成分提取,得到ly个主成分数为
Figure BDA0002369344620000034
其中,
Figure BDA0002369344620000035
Figure BDA0002369344620000036
的输出残差矩阵;
通过式(6)求出矩阵
Figure BDA0002369344620000037
步骤3.4:通过在空间上Rc投影,得到与物质浓度变量无关的输入变量为
Figure BDA0002369344620000038
其中,Rc *=(Rc TRc)-1Rc T
对与物质浓度变量无关的输入变量进行主成分提取,得到lx个主成分数为
Figure BDA0002369344620000039
其中,
Figure BDA00023693446200000310
Figure BDA00023693446200000311
的输入残差矩阵;
通过式(8)求出矩阵
Figure BDA00023693446200000312
步骤3.5:由步骤3.1至步骤3.4,得到Xm_center、Ycenter的经PLS算法提取的主成分分别为Xm_pre=TPT、Ypre=UQT,Xm_center、Ycenter的残差分别为Xm_res_c=Xm_center-Xm_pre、Yres_c=Ycenter-Ypre,也即得到
Figure BDA0002369344620000041
Figure BDA0002369344620000042
步骤4:采用与步骤3中相同的方法对矩阵Xs_center进行主成分分析,得到Xs_center的残差为Xs_res_c
步骤5:计算主光谱经PLS算法提取主成分后源域数据集的得分Tm_pre=Xm_centerR,计算从光谱经PLS算法提取主成分后目标域数据集的得分Ts_pre=Xs_centerR,根据Tm_pre、Ts_pre基于最小二乘法计算转移矩阵Mtrans_pre;计算主光谱对残差提取主成分后源域数据集的得分Tm=Xm_res_cP,计算从光谱对残差提取主成分后目标域数据集的得分Ts=Xs_res_cP,根据Tm、Ts基于最小二乘法计算转移矩阵Mtrans
步骤6:对被测对象的物质浓度变量进行预测:
步骤6.1:使用红外光谱测量从仪器采集被测对象的光谱,使用与步骤1中相同的方法提取光谱数据,得到被测对象的J个从光谱数据构成的矩阵Xs_test
步骤6.2:基于CPLS算法对Xs_test进行主成分分析,得到Xs_test的残差为Xs_res_c_test
步骤6.3:预测被测对象的物质浓度变量构成的矩阵为Ytest_predict=(Xs_test*R*Mtrans_pre*PT+Xs_res_c_test*R*Mtrans*PT)*B。
进一步地,所述步骤1中,所述样本为谷物,所述光谱数据为吸收度,所述物质浓度变量包括谷物的水分含量、油分含量、蛋白质含量、淀粉含量。
本发明的有益效果为:
本发明基于CPLS算法对源域数据集和目标域数据集进行一次主成分提取后,对残差再进行一次主成分提取,在两次主成分提取的基础上计算转移矩阵,清除了主仪器测量的随机噪声,提高了数据利用率和建模精度,降低了时间复杂度,提高了训练和测试的速度。
附图说明
图1为本发明的基于CPLS的红外光谱测量仪器标定迁移方法的流程图。
图2为本发明的基于CPLS的红外光谱测量仪器标定迁移方法中基于CPLS对源域数据集进行主成分分析的流程图。
图3为本发明的基于CPLS的红外光谱测量仪器标定迁移方法中求转移矩阵的流程图。
图4为本发明的基于CPLS的红外光谱测量仪器标定迁移方法中对被测对象的物质浓度变量进行预测的流程图。
图5为具体实施方式中玉米数据集上油分的交叉验证误差随主成分数变化的示意图。
图6为具体实施方式中mp6spec-mp5spec的拟合结果图。
图7为具体实施方式中m5spec-mp5spec的拟合结果图。
具体实施方式
下面将结合附图和具体实施方式,对本发明作进一步描述。
本发明提出一种基于CPLS的红外光谱测量仪器标定迁移方法。因为在对数据处理上,PLS只是简单地对X和Y进行一次主成分提取,但通常X和Y的残差中也包含有效信息,由于提取不充分导致建立的模型误差较大,因此提出并行偏最小二乘(Concurrent PLS,CPLS)算法,在PLS的基础上,对残差再进行一次主成分提取,这样建立的模型误差更小,线性关系更接近于真实情况。但是由于现实中,样本的采集非常昂贵、费时,因此又在CPLS的基础上提出迁移学习,通过在源域和目标域的标准集上建立映射关系,完成对目标域测试集的预测。
本发明采用的CPLS算法对PLS算法进一步改进,对与质量变量不相关的过程变量信息、无法分别预测信息的质量进行主成分分析,划分为5个子空间:过程变量与质量变量相关信息的子空间(相关主元子空间)、过程变量主元空间、过程变量残差空间、质量变量主元空间、质量变量残差子空间。
CPLS模型实现了三个目标:(1)从标准PLS投影中提取与输出的可预测变化直接相关的分数,并且这些得分向量构成了共变子空间(CVS);(2)进一步将未预测的输出变化投影到输出主元子空间(OPS)和输出残差子空间(ORS),以监测这些子空间的异常变化;(3)与预测输出无关的输入变化被进一步投影到输入主元子空间(IPS)和输入残差子空间(IRS),以监视这些子空间中的异常变化。
CPLS算法设置过程变量数据分为两个主要部分,其中一部分是与质量变量有关的信息,另一部分是与质量变量无关的信息。质量变量数据也分为两个主要部分,一部分是属于可由过程变量预测的信息,另一部分是不能由过程变量预测的信息。因此,基于CPLS监控方法提供了一个完整的监控框架,能够监控过程变量和质量变量以及信息的其他部分。
如图1所示,本发明的基于CPLS的红外光谱测量仪器标定迁移方法,包括下述步骤:
步骤1:将红外光谱测量主仪器对应到源域、将红外光谱测量从仪器对应到目标域,使用红外光谱测量主仪器、红外光谱测量从仪器采集每个样本的光谱,分别得到主光谱、从光谱,对主光谱、从光谱分别在波长范围内间隔anm提取光谱数据,并采集每个样本的物质浓度变量值,得到源域数据集{Xm,Y}和目标域数据集{Xs,Y};
其中,Xm=(Xm1,Xm2,...,Xmi,...,XmI)T,Xmi=(xmi1,xmi2,...,xmij,...,xmiJ),Xs=(Xs1,Xs2,...,Xsi,...,XsI)T,Xsi=(xsi1,xsi2,...,xsij,...,xsiJ),xmij、xsij分别为第i个样本的第j个主光谱数据、从光谱数据,i=1,2,...,I,j=1,2,...,J,I为样本总数,J为提取的光谱数据点总数;Y=(Y1,Y2,…,Yi,…,YI)T,Yi=(yi1,yi2,…,yik,...,yiK),yik为第i个样本的第k个物质浓度变量的值,k=1,2,…,K,K为物质浓度变量总数。
本实施例中,样本为谷物类中的玉米,光谱数据为吸收度,物质浓度变量包括玉米的水分含量、油分含量、蛋白质含量、淀粉含量。三种光谱仪器对相同的I=80个样本测得的数据构成玉米数据集。用红外光谱测量仪器m5、mp5、mp6在1100-2498nm波长范围内每隔a=2nm测量红外光谱,共J=700个属性。第一次实验的主光谱-从光谱为m5spec-mp6spec,也即将m5测得的光谱作为主光谱,对应的光谱数据集作为初始源域数据集;由于mp6测得的光谱与m5测得的差异大些,被选为从光谱,对应的光谱数据集作为初始目标域数据集。然后在mp5spec-mp6spec、mp6spec-mp5spec、m5spec-mp5spec、mp5spec-m5spec、mp6spec-m5spec上依次又进行了五次实验。
本实施例中,采用Kennard-Stone(KS)算法对玉米数据集进行分割。首先,提取初始源域数据集和初始目标域数据集中20%的数据作为测试样本,分别为16个样本的数据。利用目标域的测试样本对标定迁移模型进行测试。然后,提取初始源域数据集和初始目标域数据集中剩余的80%的数据作为训练样本,分别为64个样本的数据。利用源域的训练样本建立参考模型,对目标域的迁移样本进行预测;并利用目标域的训练样本建立目标域的标准模型,以便于对比其他迁移模型的性能。接着,从源域的训练样本和目标域的训练样本中,采用KS算法分别提取20%的数据构成源域的标准样本集和目标域的标准样本集,分别作为本发明的方法中使用的源域数据集{Xm,Y}和目标域数据集{Xs,Y},来建立源域样本与目标域样本之间的传递关系。
步骤2:对源域数据集和目标域数据集进行中心化处理,也即对每一列数据求均值,然后用每列的原始数据减去该列的均值,得到中心化处理后的源域数据集{Xm_center,Ycenter}和目标域数据集{Xs_center,Ycenter},这样可以有效避免由于数值差异较大引起的偏差。
步骤3:如图2所示,基于CPLS算法对矩阵Xm_center、Ycenter进行主成分分析:
步骤3.1:基于PLS算法对数据集{Xm_center,Ycenter}建立标定模型Ycenter=Xm_centerB,计算得到系数矩阵B、Xm_center的得分矩阵T、Xm_center的载荷矩阵P、Ycenter的得分矩阵U、Ycenter的载荷矩阵Q,引入矩阵R使T=Xm_centerR,并确定潜在变量个数l;
步骤3.2:计算可预测的物质浓度变量为
Figure BDA0002369344620000071
对可预测的物质浓度变量进行奇异值(SVD,Singular Value Decomposition)分解,得到
Figure BDA0002369344620000072
其中,Uc为左奇异矩阵,Dc为奇异值对角矩阵,Vc为右奇异矩阵,Vc是正交矩阵;Qc=VcDc T,包括降序的lc个非零奇异值和相应的右奇异向量;
由式(2)得到
Figure BDA0002369344620000073
得到
Rc=RQTVcDc -1 (4)
步骤3.3:计算不可预测的物质浓度变量为
Figure BDA0002369344620000074
对不可预测的物质浓度变量进行主成分提取(PCA),得到ly个主成分数为
Figure BDA0002369344620000075
其中,
Figure BDA0002369344620000076
Figure BDA0002369344620000077
的输出残差矩阵;
通过式(6)求出矩阵
Figure BDA0002369344620000078
步骤3.4:通过在空间上Rc投影,得到与物质浓度变量无关的输入变量为
Figure BDA0002369344620000081
其中,Rc *=(Rc TRc)-1Rc T
对与物质浓度变量无关的输入变量进行主成分提取,得到lx个主成分数为
Figure BDA0002369344620000082
其中,
Figure BDA0002369344620000083
Figure BDA0002369344620000084
的输入残差矩阵;
通过式(8)求出矩阵
Figure BDA0002369344620000085
步骤3.5:由步骤3.1至步骤3.4,得到Xm_center、Ycenter的经PLS算法提取的主成分分别为Xm_pre=TPT、Ypre=UQT,Xm_center、Ycenter的残差分别为Xm_res_c=Xm_center-Xm_pre、Yres_c=Ycenter-Ypre,也即得到
Figure BDA0002369344620000086
Figure BDA0002369344620000087
根据CPLS的算法流程,可以明显看出Xm_center、Ycenter被划分为三部分:经PLS算法提取的主成分、对残差提取的主成分、不可预测的误差。CPLS算法流程说明相较于PLS算法,它的优点在于多了对残差提取主成分的处理,提高了数据利用率。
步骤4:采用与步骤3中相同的方法对矩阵Xs_center进行主成分分析,得到Xs_center的残差为Xs_res_c
本实施例中,PLS算法最佳主成分数的选择结果分析如下:采用10折交叉验证方法对PLS方法的主成分数进行选取,以油这一成分为例,主成分数变化引起的玉米数据集中目标域训练集的油分含量模型交叉验证误差的变化情况如图5所示。从图5中可以看到,玉米集上油分的交叉验证误差在主成分数为12时达到了全局最小,因此我们对油分的最佳主成分数设为12。其他三种成分的最佳主成分数选择方法与此方法相同。
步骤5:如图3所示,使用最小二乘算法建立使目标域潜结构映射到源域潜结构的转移矩阵:计算主光谱经PLS算法提取主成分后源域数据集的得分Tm_pre=Xm_centerR,计算从光谱经PLS算法提取主成分后目标域数据集的得分Ts_pre=Xs_centerR,根据Tm_pre、Ts_pre基于最小二乘法计算转移矩阵Mtrans_pre;计算主光谱对残差提取主成分后源域数据集的得分Tm=Xm_res_cP,计算从光谱对残差提取主成分后目标域数据集的得分Ts=Xs_res_cP,根据Tm、Ts基于最小二乘法计算转移矩阵Mtrans
步骤6:如图4所示,对被测对象的物质浓度变量进行预测:
步骤6.1:使用红外光谱测量从仪器采集被测对象的光谱,使用与步骤1中相同的方法提取光谱数据,得到被测对象的J个从光谱数据构成的矩阵Xs_test
步骤6.2:基于CPLS算法对Xs_test进行主成分分析,得到Xs_test的残差为Xs_res_c_test
步骤6.3:预测被测对象的物质浓度变量构成的矩阵为Ytest_predict=(Xs_test*R*Mtrans_pre*PT+Xs_res_c_test*R*Mtrans*PT)*B。
本实施例中,使用模型对数据进行预测,玉米数据集中不同主仪器-从仪器组合下的预测误差RMSEP结果如下表1所示:
表1
Figure BDA0002369344620000091
分析表1可知:总的来说,在光谱mp5spec和光谱mp6spec之间利用本发明的运算效果普遍比另外两组要好,这是因为相比较而言,mp5spec和mp6spec的相似度比较高,这两组与光谱m5spec的区别比较大,因此在这两个之间迁移学习更有意义,因此结果误差比较小。且不难看出,以mp6spec为主光谱、mp5spec为从光谱,对水分、油分、蛋白质和淀粉的测量误差基本都是这六组实验中最小的,而m5spec和mp5spec、mp6spec之间的迁移结果则是六组中误差最大的。
如图6和图7所示,分别为本实施例中mp6spec-mp5spec、m5spec-mp5spec的拟合结果图。对比图6和图7,可以明显看出两组拟合效果的好坏。光谱mp6spec和光谱mp5spec之间,相似度较高,拟合度较好,对比光谱m5spec和光谱mp5spec之间的迁移学习,可以看出前者大部分点落在拟合线附近或者拟合线上,后者所有点都落在拟合直线的下方,表明前者迁移学习的效果明显好于后者,后者两个光谱之间其实没有迁移的必要,因为预测的效果一点都不好。
由于光谱mp6spec-mp5spec之间的迁移效果最好,因此这里选用这组光谱进行实验与其他的算法进行对比,这里所述的其他算法分别是:多元散射校正(MultiplicativeScatter/Signal Correction,MSC)、典型相关分析(Canonical Correlation Analysis,CCA)、斜率偏差校正(Slope and Bias Correction,SBC)、分段直接标准化(PiecewiseDirect Standardization,PDS)。如表2所示,为玉米数据集中mp6spec-m5spec在各算法下的RMSEP对比结果。由表2可以看出,总的来说,本发明的基于CPLS的红外光谱测量仪器标定迁移方法的迁移效果是很好的:相比较MSC、CCA和PDS算法,本发明对四个成分的预测都是远远优于此三种算法的;和SBC算法相比,对水分、油分的预测效果比较好,而对蛋白质和淀粉的预测效果相差不大。
表2
Figure BDA0002369344620000101
总之,通过在玉米数据集上做的六组实验,根据得出的实验结果,并分别与MSC算法、CCA算法、SBC算法、PDS算法作比较,都可以看出本发明的CPLS算法结合迁移学习的预测效果与SBC的效果相近,但远远优于MSC算法、CCA算法、PDS算法。可见,本发明清除了主仪器测量的随机噪声,提高了数据利用率和建模精度。
显然,上述实施例仅仅是本发明的一部分实施例,而不是全部的实施例。上述实施例仅用于解释本发明,并不构成对本发明保护范围的限定。基于上述实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,也即凡在本申请的精神和原理之内所作的所有修改、等同替换和改进等,均落在本发明要求的保护范围内。

Claims (2)

1.一种基于CPLS的红外光谱测量仪器标定迁移方法,其特征在于,包括下述步骤:
步骤1:将红外光谱测量主仪器对应到源域、将红外光谱测量从仪器对应到目标域,使用红外光谱测量主仪器、红外光谱测量从仪器采集每个样本的光谱,分别得到主光谱、从光谱,对主光谱、从光谱分别在波长范围内间隔anm提取光谱数据,并采集每个样本的物质浓度变量值,得到源域数据集{Xm,Y}和目标域数据集{Xs,Y};
其中,Xm=(Xm1,Xm2,...,Xmi,...,XmI)T,Xmi=(xmi1,xmi2,...,xmij,...,xmiJ),Xs=(Xs1,Xs2,...,Xsi,...,XsI)T,Xsi=(xsi1,xsi2,...,xsij,...,xsiJ),xmij、xsij分别为第i个样本的第j个主光谱数据、从光谱数据,i=1,2,...,I,j=1,2,...,J,I为样本总数,J为提取的光谱数据点总数;Y=(Y1,Y2,...,Yi,...,YI)T,Yi=(yi1,yi2,...,yik,...,yiK),yik为第i个样本的第k个物质浓度变量的值,k=1,2,...,K,K为物质浓度变量总数;
步骤2:对源域数据集和目标域数据集进行中心化处理,得到中心化处理后的源域数据集{Xm_center,Ycenter}和目标域数据集{Xs_center,Ycenter};
步骤3:基于CPLS算法对矩阵Xm_center、Ycenter进行主成分分析:
步骤3.1:基于PLS算法对数据集{Xm_center,Ycenter}建立标定模型Ycenter=Xm_centerB,计算得到系数矩阵B、Xm_center的得分矩阵T、Xm_center的载荷矩阵P、Ycenter的得分矩阵U、Ycenter的载荷矩阵Q,引入矩阵R使T=Xm_centerR,并确定潜在变量个数l;
步骤3.2:计算可预测的物质浓度变量为
Figure FDA0002369344610000011
对可预测的物质浓度变量进行奇异值分解,得到
Figure FDA0002369344610000012
其中,Uc为左奇异矩阵,Dc为奇异值对角矩阵,Vc为右奇异矩阵,Vc是正交矩阵;Qc=VcDc T,包括降序的lc个非零奇异值和相应的右奇异向量;
由式(2)得到
Figure FDA0002369344610000013
得到
Rc=RQTVcDc -1 (4)
步骤3.3:计算不可预测的物质浓度变量为
Figure FDA0002369344610000021
对不可预测的物质浓度变量进行主成分提取,得到ly个主成分数为
Figure FDA0002369344610000022
其中,
Figure FDA0002369344610000023
Figure FDA0002369344610000024
的输出残差矩阵;
通过式(6)求出矩阵
Figure FDA0002369344610000025
步骤3.4:通过在空间上Rc投影,得到与物质浓度变量无关的输入变量为
Figure FDA0002369344610000026
其中,Rc *=(Rc TRc)-1Rc T
对与物质浓度变量无关的输入变量进行主成分提取,得到lx个主成分数为
Figure FDA0002369344610000027
其中,
Figure FDA0002369344610000028
Figure FDA0002369344610000029
的输入残差矩阵;
通过式(8)求出矩阵
Figure FDA00023693446100000210
步骤3.5:由步骤3.1至步骤3.4,得到Xm_center、Ycenter的经PLS算法提取的主成分分别为Xm_pre=TPT、Ypre=UQT,Xm_center、Ycenter的残差分别为Xm_res_c=Xm_center-Xm_pre、Yres_c=Ycenter-Ypre,也即得到
Figure FDA00023693446100000211
Figure FDA00023693446100000212
步骤4:采用与步骤3中相同的方法对矩阵Xs_center进行主成分分析,得到Xs_center的残差为Xs_res_c
步骤5:计算主光谱经PLS算法提取主成分后源域数据集的得分Tm_pre=Xm_centerR,计算从光谱经PLS算法提取主成分后目标域数据集的得分Ts_pre=Xs_centerR,根据Tm_pre、Ts_pre基于最小二乘法计算转移矩阵Mtrans_pre;计算主光谱对残差提取主成分后源域数据集的得分Tm=Xm_res_cP,计算从光谱对残差提取主成分后目标域数据集的得分Ts=Xs_res_cP,根据Tm、Ts基于最小二乘法计算转移矩阵Mtrans
步骤6:对被测对象的物质浓度变量进行预测:
步骤6.1:使用红外光谱测量从仪器采集被测对象的光谱,使用与步骤1中相同的方法提取光谱数据,得到被测对象的J个从光谱数据构成的矩阵Xs_test
步骤6.2:基于CPLS算法对Xs_test进行主成分分析,得到Xs_test的残差为Xs_res_c_test
步骤6.3:预测被测对象的物质浓度变量构成的矩阵为Ytest_predict=(Xs_test*R*Mtrans_pre*PT+Xs_res_c_test*R*Mtrans*PT)*B。
2.根据权利要求1所述的基于CPLS的红外光谱测量仪器标定迁移方法,其特征在于,所述步骤1中,所述样本为谷物,所述光谱数据为吸收度,所述物质浓度变量包括谷物的水分含量、油分含量、蛋白质含量、淀粉含量。
CN202010045812.3A 2020-01-16 2020-01-16 一种基于cpls的红外光谱测量仪器标定迁移方法 Active CN111220565B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010045812.3A CN111220565B (zh) 2020-01-16 2020-01-16 一种基于cpls的红外光谱测量仪器标定迁移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010045812.3A CN111220565B (zh) 2020-01-16 2020-01-16 一种基于cpls的红外光谱测量仪器标定迁移方法

Publications (2)

Publication Number Publication Date
CN111220565A CN111220565A (zh) 2020-06-02
CN111220565B true CN111220565B (zh) 2022-07-29

Family

ID=70827000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010045812.3A Active CN111220565B (zh) 2020-01-16 2020-01-16 一种基于cpls的红外光谱测量仪器标定迁移方法

Country Status (1)

Country Link
CN (1) CN111220565B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113959979B (zh) * 2021-10-29 2022-07-29 燕山大学 基于深度Bi-LSTM网络的近红外光谱模型迁移方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5606164A (en) * 1996-01-16 1997-02-25 Boehringer Mannheim Corporation Method and apparatus for biological fluid analyte concentration measurement using generalized distance outlier detection
CN106596450A (zh) * 2017-01-06 2017-04-26 东北大学秦皇岛分校 基于红外光谱分析物质成分含量的增量式方法
CN106680238A (zh) * 2017-01-06 2017-05-17 东北大学秦皇岛分校 基于红外光谱分析物质成分含量的方法
CN107064054A (zh) * 2017-02-28 2017-08-18 浙江大学 一种基于cc‑pls‑rbfnn优化模型的近红外光谱分析方法
CN108152239A (zh) * 2017-12-13 2018-06-12 东北大学秦皇岛分校 基于特征迁移的样品成分含量测定方法
CN108960329A (zh) * 2018-07-06 2018-12-07 浙江科技学院 一种包含缺失数据的化工过程故障检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7098037B2 (en) * 1998-10-13 2006-08-29 Inlight Solutions, Inc. Accommodating subject and instrument variations in spectroscopic determinations
HUP0201283A2 (en) * 2000-03-31 2002-08-28 Japan Government Method and apparatus for detecting mastitis by using visible light and/or near infrared light

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5606164A (en) * 1996-01-16 1997-02-25 Boehringer Mannheim Corporation Method and apparatus for biological fluid analyte concentration measurement using generalized distance outlier detection
CN106596450A (zh) * 2017-01-06 2017-04-26 东北大学秦皇岛分校 基于红外光谱分析物质成分含量的增量式方法
CN106680238A (zh) * 2017-01-06 2017-05-17 东北大学秦皇岛分校 基于红外光谱分析物质成分含量的方法
CN107064054A (zh) * 2017-02-28 2017-08-18 浙江大学 一种基于cc‑pls‑rbfnn优化模型的近红外光谱分析方法
CN108152239A (zh) * 2017-12-13 2018-06-12 东北大学秦皇岛分校 基于特征迁移的样品成分含量测定方法
CN108960329A (zh) * 2018-07-06 2018-12-07 浙江科技学院 一种包含缺失数据的化工过程故障检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
A machine learning calibration model using random forests to improve sensor performance for lower-cost air quality monitoring;Zimmerman N;《Atmospheric Measurement Techniques》;20181231;第11卷(第1期);全文 *
Qualitative analysis of maize haploid kernels based on calibration transfer by near-infrared spectroscopy;Li J;《Analytical Letters》;20191231;第52卷(第2期);全文 *
基于Si-cPLS的小麦种子发芽率近红外模型优化研究;吴静珠等;《光谱学与光谱分析》;20170415(第04期);全文 *
基于校正分布差异的标定迁移方法研究;赵煜辉;《东北大学学报(自然科学版)》;20210331;第42卷(第3期);全文 *
平均分布差异最小化的NIR标定迁移方法研究;赵煜辉;《光谱学与光谱分析》;20211031;第41卷(第10期);全文 *
迁移学习在食用油光谱模型转移中的应用;刘翠玲;《食品科学技术学报》;20190731;第37卷(第4期);全文 *

Also Published As

Publication number Publication date
CN111220565A (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
Feilhauer et al. Multi-method ensemble selection of spectral bands related to leaf biochemistry
Deng et al. A bootstrapping soft shrinkage approach for variable selection in chemical modeling
CN106815643B (zh) 基于随机森林迁移学习的红外光谱模型传递方法
CN110687072B (zh) 一种基于光谱相似度的校正集和验证集的选择及建模方法
CN111563436B (zh) 一种基于ct-cdd的红外光谱测量仪器标定迁移方法
CN106680238B (zh) 基于红外光谱分析物质成分含量的方法
CN106248621B (zh) 一种评价方法与***
CN107958267B (zh) 一种基于光谱线性表示的油品性质预测方法
Fan et al. Direct calibration transfer to principal components via canonical correlation analysis
CN111999258B (zh) 一种面向光谱基线校正的加权建模局部优化方法
CN114611582B (zh) 一种基于近红外光谱技术分析物质浓度的方法及***
CN111220565B (zh) 一种基于cpls的红外光谱测量仪器标定迁移方法
Lei et al. Achieving joint calibration of soil Vis-NIR spectra across instruments, soil types and properties by an attention-based spectra encoding-spectra/property decoding architecture
Shao et al. A new approach to discriminate varieties of tobacco using vis/near infrared spectra
CN114878509A (zh) 一种烟草近红外定量分析模型的无标样转移方法
Metz et al. RoBoost-PLS2-R: an extension of RoBoost-PLSR method for multi-response
Wu et al. Variety identification of Chinese cabbage seeds using visible and near-infrared spectroscopy
CN112651173B (zh) 一种基于跨域光谱信息的农产品品质无损检测方法及可泛化***
CN111125629B (zh) 一种域自适应的pls回归模型建模方法
Norgaard et al. Artificial Neural Networks and Near Infrared Spectroscopy-A case study on protein content in whole wheat grain
Xie et al. Calibration transfer via filter learning
CN109063767B (zh) 一种基于样本和变量共识的近红外光谱建模方法
CN115630332A (zh) 一种小麦粉粉质特性预测方法
CN116484989A (zh) 一种基于深度迁移学习的烟叶近红外多组分预测方法
Shan et al. A nonlinear calibration transfer method based on joint kernel subspace

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant