CN111125629A - 一种域自适应的pls回归模型建模方法 - Google Patents

一种域自适应的pls回归模型建模方法 Download PDF

Info

Publication number
CN111125629A
CN111125629A CN201911353268.2A CN201911353268A CN111125629A CN 111125629 A CN111125629 A CN 111125629A CN 201911353268 A CN201911353268 A CN 201911353268A CN 111125629 A CN111125629 A CN 111125629A
Authority
CN
China
Prior art keywords
matrix
domain
parameter
adopting
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911353268.2A
Other languages
English (en)
Other versions
CN111125629B (zh
Inventor
陈孝敬
黄光造
石文
袁雷明
陈熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenzhou University
Original Assignee
Wenzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenzhou University filed Critical Wenzhou University
Priority to CN201911353268.2A priority Critical patent/CN111125629B/zh
Publication of CN111125629A publication Critical patent/CN111125629A/zh
Application granted granted Critical
Publication of CN111125629B publication Critical patent/CN111125629B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/359Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Biochemistry (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Immunology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种域自适应的PLS回归模型建模方法,采用从原始域获取的近红外光谱数据构建原始域光谱中心化矩阵,采用从目标域获取的近红外光谱数据构建目标域光谱中心化矩阵,消除原始域和目标域光谱的均值差异,基于原始域光谱中心化矩阵和目标域光谱中心化矩阵,采用转移矩阵映射到核矩阵空间的方式,从中找到最优的投影方向,确定最优投影矩阵,基于最优投影矩阵构建得到最终的PLS回归模型,削弱不同域之间的投影得分和域标签的非独立性;优点是采用域自适应算法来消除不同域下所采集近光谱数据的差异,不需要采集目标域样本的浓度信息,从而简化了建模过程,使得构建的PLS回归模型的对目标域近红外光谱数据具有良好的预测精度。

Description

一种域自适应的PLS回归模型建模方法
技术领域
本发明涉及一种PLS回归模型建模方法,尤其是涉及一种域自适应的PLS回归模型建模方法。
背景技术
近红外光谱技术是一种简单、快速、可靠的检测技术。它综合运用了光谱技术、 计算机技术、模式识别等多个学科的研究成果,以其独特的优势在多个领域得到了日益 广泛的应用,并已逐渐得到大众的普遍接受和官方的认可。近红外光谱分析是一种间接 的分析方法,往往需要构造反映近红外光谱数据和待分析样本属性关系的回归模型。其 中,偏最小二乘(PLS)回归模型是最常用的多元回归模型。PLS能够消除光谱矩阵以及浓 度矩阵里的噪声信息,取得较好的预测效果。
现有的偏最小二乘(PLS)回归模型在近红外光谱分析中的建模方法为:首先采集标 准样本的近红外光谱数据和浓度数据来构造相应的近红外光谱数据矩阵和浓度向量,然 后对近红外光谱矩阵进行分解,通过交叉验证法确定其最佳主成分数,最后利用偏最小二乘(PLS)回归法建立起近红外光谱矩阵与浓度向量之间的数学模型关系。
常规基于近红外光谱数据的偏最小二乘(PLS)回归模型建模方法需要采集标准样本 的近红外光谱数据和浓度数据。但是,随着近红外光谱应用场景的复杂化,经常会遇到检测条件或仪器自身发生变化的情况,如样品检查温/湿度变化、样品形态改变、仪器 老化和附件更换等,此时采集的标准样本的近红外光谱数据往往会发生吸光度差异和波 长漂移,从而导致基于原始域(source domain,对应条件1状态下采集的近红外光谱 数据)数据构建的偏最小二乘(PLS)回归模型对目标域(target domain,对应条件2 状态下采集的近红外光谱数据)数据的预测结果出现较大偏差。
发明内容
本发明所要解决的技术问题是提供一种域自适应的PLS回归模型建模方法,该建模 方法不需要采集目标域样本的浓度信息,简化了建模过程,通过采用域自适应算法来消除不同域下所采集近光谱数据的差异,从而使得构建的PLS回归模型的对目标域近红外 光谱数据具有良好的预测精度。
本发明解决上述技术问题所采用的技术方案为:一种域自适应的PLS回归模型建模 方法,包括以下步骤:
步骤1、从原始域获取ns个近红光谱样本,ns为大于等于5的整数,采用ns个近红光谱样本构建得到原始域近红外光谱数据集{xsq,ysq|q=1,2,…,ns},其中xsq为从原始域获 取的第q个样本的近红光谱数据,ysq为从原始域获取的第q个样本的浓度属性值;
从目标域获取nt个近红光谱样本,nt为大于等于5的整数,采用nt个近红光谱样本构建得到目标域近红外光谱数据集{xtj|j=1,2,…,nt},其中xtj是从目标域获取的第j个样 本的近红外光谱数据;xsq和xtj分别为1行p列的向量,p为采集原始域近红光谱数据xsq和目标域近红外光谱数据xtj所使用的光谱仪器的波段数;
步骤2、采用原始域近红外光谱数据集中的近红光谱数据xs1~xsns构建得到原始域光 谱矩阵X,
Figure BDA0002335212570000021
对原始域光谱矩阵X进行中心化处理,得到原始域光谱中心化矩 阵,具体为:计算X中每行所有数据的均值,然后将X中每行数据中每列数据分别减去 该行所有数据的均值,得到原始域光谱中心化矩阵Xs
采用目标域近红外光谱数据集中的近红光谱数据xt1~xsnt构建得到目标域光谱矩阵S,
Figure BDA0002335212570000022
对目标域光谱矩阵S进行中心化处理,得到目标域光谱中心化矩阵,具体为:计算S中每行所有数据的均值,然后将S中每行数据中每列数据分别减去该行所有数据 的均值,得到目标域光谱中心化矩阵Xt
采用原始域近红外光谱数据集中的浓度属性值ys1~ysns构建得到原始域浓度向量Y,
Figure BDA0002335212570000031
步骤3、设计核函数,将向量x和向量y的核函数记为k(x,y),k(x,y)采用式(1) 表示为:
Figure BDA0002335212570000032
式(1)中,exp表示以自然对数为底数的指数函数,|| ||表示计算x和y之间的欧式距离,d表示核参数,利用式(1)和现有的核矩阵计算方法能够计算两个矩阵相应的 核矩阵,将采用式(1)和现有的核矩阵计算方法计算得到的两个矩阵Q和D相应的核矩 阵记为K(Q,D);
步骤4、构建一个m+n行m+n列的类别标签矩阵,m=nt,n=ns,将该类别标签矩 阵记为L,L采用式(2)表示为:
Figure BDA0002335212570000033
步骤5、构造转移矩阵,将该转移矩阵记为Xst,Xst采用式(3)表示为:
Xst=[Xs→Xt] (3)
其中,Xs→Xt表示矩阵Xs和Xt中的数据按行纵向连接;
步骤6、构建中间矩阵,将该中间矩阵记为H,H采用式(4)表示为:
Figure BDA0002335212570000034
其中v是转移矩阵Xst的行数,Iv×v为包含v行v列元素的单位对角矩阵,1v表示包含v列元 素且所有元素都为1的列向量,上角标T表示矩阵的转置,/表示除运算符号;
步骤7、设定参数d,r和A的参数优化区间d∈[10-5,10-4,…104,105],r∈[10-5,10-4,…104,105],A∈[1,2,…14,15],构建参数组[d,r,A],采用d、r和A的参数优化区 间中所有参数进行组合,得到
Figure BDA0002335212570000042
个参数组[d,r,A];
步骤8、设定投影矩阵W,对于步骤7得到的
Figure BDA0002335212570000043
个参数组[d,r,A]中的每一个参数组[d,r,A],分别采用网格寻优的方法计算每个参数组相应的投影矩阵W,共得到
Figure BDA0002335212570000044
个投影矩阵W,具体过程为:
a、判断A是否等于1,根据判断结果进行如下操作:
如果A等于1,按照以下步骤进行:
a1-1、设定中间参数KS1、Y1、KT1和B1,采用公式(5)至公式(8)分别计算得到 中间参数KS1、Y1、KT1和B1
KS1=K(Xs,Xs) (5)
Y1=Y (6)
KT1=K(Xst,Xs) (7)
Figure BDA0002335212570000041
式(8)中,上角标T代表矩阵转置,K(Xs,Xs)表示矩阵Xs与矩阵Xs相应的核矩阵, 采用式(1)和现有的核矩阵计算方法计算得到,K(Xst,Xs)表示矩阵Xst与矩阵Xs相应的核 矩阵,采用式(1)和现有的核矩阵计算方法计算得到;
a1-2、设置中间参数w1,将B1的最大特征值所对应的特征向量赋值给w1
a1-3、将w1作为利用本次参数组[d,r,A]计算得到的投影矩阵W;
如果A不等于1,按照以下步骤进行:
a2-1、按照步骤a1-1计算得到中间参数KS1、Y1、KT1和B1
a2-2、采用步骤a1-2的方法得到中间参数w1,将中间参数w1作为第1代投影矩阵,完成投影矩阵的第1代赋值;
a2-3、设定中间参数t11、t21、p11、p21和c1,采用式(9)至式(13)计算得到中间 参数t11、t21、p11、p21和c1
t11=KS1w1 (9)
t21=KT1w1 (10)
Figure BDA0002335212570000051
Figure BDA0002335212570000052
Figure BDA0002335212570000057
其中,上角标-1代表矩阵求逆,上角标T表示矩阵的转置;
a2-4、设定代数变量i,对i进行初始化,令i等于2;
a2-5、对投影矩阵进行第i代赋值,具体为:
S1、设定中间参数KSi、KTi、Yi和Bi,采用式(14)至式(17)计算得到中间参数 KSi、KTi、Yi和Bi
Figure BDA0002335212570000053
Figure BDA0002335212570000054
Yi=Yi-1-cit1i-1 (16)
Figure BDA0002335212570000055
S2、设置中间参数wi,将Bi的最大特征值所对应的特征向量赋值给wi,将wi作为第i代投影矩阵,完成投影矩阵的第i代赋值;
S3、设定中间参数t1i、t2i、p1i、p2i和ci,采用式(18)至式(22)计算得到中间 参数t1i、t2i、p1i、p2i和ci c1
t1i=KSiwi (18)
t2i=KTiwi (19)
Figure BDA0002335212570000056
Figure BDA0002335212570000061
Figure BDA0002335212570000062
S4、判断i的值是否等于A,如果不等于,则采用i的当前值加1的和更新i的值后,返回步骤S1进行投影矩阵的下一代赋值,如果i的值等于A,则进入步骤a2-6;
步骤a2-6、将得到的w1至wA依次按列横向连接后作为利用本次参数组[d,r,A]计算得 到的投影矩阵,W=[w1,…,wA];
步骤9、设定中间变量Ts和Tt,将步骤8得到的
Figure BDA0002335212570000063
个投影矩阵W分别代入公式(23)和(24)中进行计算,得到
Figure BDA0002335212570000064
个中间变量Ts
Figure BDA0002335212570000065
个中间变量Tt
Ts=K(Xs,Xs)W (23)
Tt=K(Xxt,Xs)W (24)
步骤10、将步骤9得到
Figure BDA0002335212570000066
个中间变量Ts分别作为自变量,Y作为因变量,得到
Figure BDA0002335212570000067
个由自变量和因变量构成的数据矩阵。
步骤11、通过5折交叉验证方法构建PLS回归模型,得到
Figure BDA0002335212570000068
个PLS回归模型,具体为:将采用
Figure BDA0002335212570000069
个中间变量Ts分别作为自变量,Y作为因变量得到的
Figure BDA00023352125700000610
个由 自变量和因变量构成的数据矩阵随机均分为5部分,随机选取4部分采用交叉验证方法 构建得到
Figure BDA00023352125700000611
个PLS回归模型;
步骤12、将步骤9得到的
Figure BDA00023352125700000612
个中间变量Tt作为自变量,与剩余1部分中的自 变量合并在一起作为测试数据,对步骤11得到的
Figure BDA00023352125700000613
个PLS回归模型进行测试,连 续测试4次,得到每个PLS回归模型的因变量Y的预测结果
Figure BDA00023352125700000614
和Xt所对应因变量的预测 结果
Figure BDA00023352125700000615
其中预测结果
Figure BDA00023352125700000616
通过剩余1部分中的自变量得到,预测结果
Figure BDA00023352125700000617
通过作为自变量 的中间变量Tt得到;
步骤13、定义PLS回归模型优化目标函数,该优化目标函数采用式(25)表示为:
Figure RE-GDA0002419407730000071
式(25)中,Mean表示求向量的均值,std表示求向量的标准差,||表示取绝对值 符号;
步骤14、将每个PLS回归模型对应的因变量Y、预测结果
Figure BDA0002335212570000072
以及预测结果
Figure BDA0002335212570000073
分别代入式(25)中进行计算,得到每个PLS回归模型对应的f的值;
步骤15、比较步骤14得到的所有f的值,将值最小的f对应的一组[d,r,A]采用步骤8的方法,计算得到相应的投影矩阵,将该投影矩阵作为最优投影矩阵,记为Wop,设定 最优自变量,将其记为Tsop,采用Tsop=K(Xs,Xs)Wop计算得到Tsop,以Tsop为自变量,以Y 作为因变量,构造最终的PLS回归模型。
与现有技术相比,本发明的优点在于通过采用从原始域获取的近红外光谱数据构建 原始域光谱中心化矩阵,采用从目标域获取的近红外光谱数据构建目标域光谱中心化矩 阵,消除原始域和目标域光谱的均值差异,然后基于原始域光谱中心化矩阵和目标域光谱中心化矩阵,采用转移矩阵映射到核矩阵空间的方式,从中找到最优的投影方向, 确定最优投影矩阵,基于最优投影矩阵构建得到最终的PLS回归模型,从而削弱不同域 之间的投影得分和域标签的非独立性,本发明方法通过采用域自适应算法来消除不同域 下所采集近光谱数据的差异,不需要采集目标域样本的浓度信息,从而简化了建模过程, 使得构建的PLS回归模型的对目标域近红外光谱数据具有良好的预测精度。
具体实施方式
以下结合实施例对本发明作进一步详细描述。
实施例:一种域自适应的PLS回归模型建模方法,包括以下步骤:
步骤1、从原始域获取ns个近红光谱样本,ns为大于等于5的整数,采用ns个近红光谱样本构建得到原始域近红外光谱数据集{xsq,ysq|q=1,2,…,ns},其中xsq为从原始域获 取的第q个样本的近红光谱数据,ysq为从原始域获取的第q个样本的浓度属性值;
从目标域获取nt个近红光谱样本,nt为大于等于5的整数,采用nt个近红光谱样本构建得到目标域近红外光谱数据集{xtj|j=1,2,…,nt},其中xtj是从目标域获取的第j个样 本的近红外光谱数据;xsq和xtj分别为1行p列的向量,p为采集原始域近红光谱数据xsq和目标域近红外光谱数据xtj所使用的光谱仪器的波段数;
步骤2、采用原始域近红外光谱数据集中的近红光谱数据xs1~xsns构建得到原始域光 谱矩阵X,
Figure BDA0002335212570000081
对原始域光谱矩阵X进行中心化处理,得到原始域光谱中心化矩阵,具体为:计算X中每行所有数据的均值,然后将X中每行数据中每列数据分别减去 该行所有数据的均值,得到原始域光谱中心化矩阵Xs
采用目标域近红外光谱数据集中的近红光谱数据xt1~xsnt构建得到目标域光谱矩阵S,
Figure BDA0002335212570000082
对目标域光谱矩阵S进行中心化处理,得到目标域光谱中心化矩阵,具体为:计算S中每行所有数据的均值,然后将S中每行数据中每列数据分别减去该行所有数据 的均值,得到目标域光谱中心化矩阵Xt
采用原始域近红外光谱数据集中的浓度属性值ys1~ysns构建得到原始域浓度向量Y,
Figure BDA0002335212570000083
步骤3、设计核函数,将向量x和向量y的核函数记为k(x,y),k(x,y)采用式(1) 表示为:
Figure BDA0002335212570000084
式(1)中,exp表示以自然对数为底数的指数函数,|| ||表示计算x和y之间的欧式距离,d表示核参数,利用式(1)和现有的核矩阵计算方法能够计算两个矩阵相应的 核矩阵,将采用式(1)和现有的核矩阵计算方法计算得到的两个矩阵Q和D相应的核矩 阵记为K(Q,D);
步骤4、构建一个m+n行m+n列的类别标签矩阵,m=nt,n=ns,将该类别标签矩 阵记为L,L采用式(2)表示为:
Figure BDA0002335212570000091
步骤5、构造转移矩阵,将该转移矩阵记为Xst,Xst采用式(3)表示为:
Xst=[Xs→Xt] (3)
其中,Xs→Xt表示矩阵Xs和Xt中的数据按行纵向连接;
步骤6、构建中间矩阵,将该中间矩阵记为H,H采用式(4)表示为:
H=Iv×v-(1/v)1v1vT (4)
其中v是转移矩阵Xst的行数,Iv×v为包含v行v列元素的单位对角矩阵,1v表示包含v列元 素且所有元素都为1的列向量,上角标T表示矩阵的转置,/表示除运算符号;
步骤7、设定参数d,r和A的参数优化区间d∈[10-5,10-4,…104,105], r∈[10-5,10-4,…104,105],A∈[1,2,…14,15],构建参数组[d,r,A],采用d、r和A的参数优化区 间中所有参数进行组合,得到
Figure BDA0002335212570000092
个参数组[d,r,A];
步骤8、设定投影矩阵W,对于步骤7得到的
Figure BDA0002335212570000093
个参数组[d,r,A]中的每一个参数组[d,r,A],分别采用网格寻优的方法计算每个参数组相应的投影矩阵W,共得到
Figure BDA0002335212570000094
个投影矩阵W,具体过程为:
a、判断A是否等于1,根据判断结果进行如下操作:
如果A等于1,按照以下步骤进行:
a1-1、设定中间参数KS1、Y1、KT1和B1,采用公式(5)至公式(8)分别计算得到 中间参数KS1、Y1、KT1和B1
KS1=K(Xs,Xs) (5)
Y1=Y (6)
KT1=K(Xst,Xs) (7)
Figure BDA0002335212570000101
式(8)中,上角标T代表矩阵转置,K(Xs,Xs)表示矩阵Xs与矩阵Xs相应的核矩阵, 采用式(1)和现有的核矩阵计算方法计算得到,K(Xst,Xs)表示矩阵Xst与矩阵Xs相应的核 矩阵,采用式(1)和现有的核矩阵计算方法计算得到;
a1-2、设置中间参数w1,将B1的最大特征值所对应的特征向量赋值给w1
a1-3、将w1作为利用本次参数组[d,r,A]计算得到的投影矩阵W;
如果A不等于1,按照以下步骤进行:
a2-1、按照步骤a1-1计算得到中间参数KS1、Y1、KT1和B1
a2-2、采用步骤a1-2的方法得到中间参数w1,将中间参数w1作为第1代投影矩阵,完成投影矩阵的第1代赋值;
a2-3、设定中间参数t11、t21、p11、p21和c1,采用式(9)至式(13)计算得到中间 参数t11、t21、p11、p21和c1
t11=KS1w1 (9)
t21=KT1w1 (10)
Figure BDA0002335212570000102
Figure BDA0002335212570000103
Figure BDA0002335212570000104
其中,上角标-1代表矩阵求逆,上角标T表示矩阵的转置;
a2-4、设定代数变量i,对i进行初始化,令i等于2;
a2-5、对投影矩阵进行第i代赋值,具体为:
S1、设定中间参数KSi、KTi、Yi和Bi,采用式(14)至式(17)计算得到中间参数 KSi、KTi、Yi和Bi
Figure BDA0002335212570000111
Figure BDA0002335212570000112
Yi=Yi-1-cit1i-1 (16)
Figure BDA0002335212570000113
S2、设置中间参数wi,将Bi的最大特征值所对应的特征向量赋值给wi,将wi作为第i代投影矩阵,完成投影矩阵的第i代赋值;
S3、设定中间参数t1i、t2i、p1i、p2i和ci,采用式(18)至式(22)计算得到中间 参数t1i、t2i、p1i、p2i和ci c1
t1i=KSiwi (18)
t2i=KTiwi (19)
Figure BDA0002335212570000114
Figure BDA0002335212570000115
Figure BDA0002335212570000116
S4、判断i的值是否等于A,如果不等于,则采用i的当前值加1的和更新i的值后,返回步骤S1进行投影矩阵的下一代赋值,如果i的值等于A,则进入步骤a2-6;
步骤a2-6、将得到的w1至wA依次按列横向连接后作为利用本次参数组[d,r,A]计算得 到的投影矩阵,W=[w1,…,wA];
步骤9、设定中间变量Ts和Tt,将步骤8得到的
Figure BDA0002335212570000117
个投影矩阵W分别代入公式(23)和(24)中进行计算,得到
Figure BDA0002335212570000118
个中间变量Ts
Figure BDA0002335212570000119
个中间变量Tt
Ts=K(Xs,Xs)W (23)
Tt=K(Xxt,Xs)W (24)
步骤10、将步骤9得到
Figure BDA0002335212570000121
个中间变量Ts分别作为自变量,Y作为因变量,得到
Figure BDA0002335212570000122
个由自变量和因变量构成的数据矩阵。
步骤11、通过5折交叉验证方法构建PLS回归模型,得到
Figure BDA0002335212570000123
个PLS回归模型,具体为:将采用
Figure BDA0002335212570000124
个中间变量Ts分别作为自变量,Y作为因变量得到的
Figure BDA0002335212570000125
个由 自变量和因变量构成的数据矩阵随机均分为5部分,随机选取4部分采用交叉验证方法 构建得到
Figure BDA0002335212570000126
个PLS回归模型;5折交叉验证方法为当前成熟的构建PLS回归模型 的方法之一;
步骤12、将步骤9得到的
Figure BDA0002335212570000127
个中间变量Tt作为自变量,与剩余1部分中的自 变量合并在一起作为测试数据,对步骤11得到的
Figure BDA0002335212570000128
个PLS回归模型进行测试,连 续测试4次,得到每个PLS回归模型的因变量Y的预测结果
Figure BDA0002335212570000129
和Xt所对应因变量的预测 结果
Figure BDA00023352125700001210
其中预测结果
Figure BDA00023352125700001211
通过剩余1部分中的自变量得到,预测结果
Figure BDA00023352125700001212
通过作为自变量 的中间变量Tt得到;
步骤13、定义PLS回归模型优化目标函数,该优化目标函数采用式(25)表示为:
Figure RE-GDA00024194077300001213
式(25)中,Mean表示求向量的均值,std表示求向量的标准差,| |表示取绝对值符号;
步骤14、将每个PLS回归模型对应的因变量Y、预测结果
Figure BDA00023352125700001214
以及预测结果
Figure BDA00023352125700001215
分别代 入式(25)中进行计算,得到每个PLS回归模型对应的f的值;
步骤15、比较步骤14得到的所有f的值,将值最小的f对应的一组[d,r,A]采用步骤8的方法,计算得到相应的投影矩阵,将该投影矩阵作为最优投影矩阵,记为Wop,设定 最优自变量,将其记为Tsop,采用Tsop=K(Xs,Xs)Wop计算得到Tsop,以Tsop为自变量,以Y 作为因变量,构造最终的PLS回归模型。
采用本发明的域自适应的PLS回归模型建模方法对测试样本进行测试时,对于测试 样本,获取其相应的近红外光谱xt,将xt当做一维的矩阵,设定自变量参数Tt,采用 Tt=K(xt,Xs)Wop计算得到Tt,然后将Tt作为自变量带入所构建的PLS模型即可得到xt相应 的因变量的预测结果。

Claims (1)

1.一种域自适应的PLS回归模型建模方法,其特征在于包括以下步骤:
步骤1、从原始域获取ns个近红光谱样本,ns为大于等于5的整数,采用ns个近红光谱样本构建得到原始域近红外光谱数据集{xsq,ysq|q=1,2,…,ns},其中xsq为从原始域获取的第q个样本的近红光谱数据,ysq为从原始域获取的第q个样本的浓度属性值;
从目标域获取nt个近红光谱样本,nt为大于等于5的整数,采用nt个近红光谱样本构建得到目标域近红外光谱数据集{xtj|j=1,2,…,nt},其中xtj是从目标域获取的第j个样本的近红外光谱数据;xsq和xtj分别为1行p列的向量,p为采集原始域近红光谱数据xsq和目标域近红外光谱数据xtj所使用的光谱仪器的波段数;
步骤2、采用原始域近红外光谱数据集中的近红光谱数据xs1~xsns构建得到原始域光谱矩阵X,
Figure RE-FDA0002419407720000011
对原始域光谱矩阵X进行中心化处理,得到原始域光谱中心化矩阵,具体为:计算X中每行所有数据的均值,然后将X中每行数据中每列数据分别减去该行所有数据的均值,得到原始域光谱中心化矩阵Xs
采用目标域近红外光谱数据集中的近红光谱数据xt1~xsnt构建得到目标域光谱矩阵S,
Figure RE-FDA0002419407720000012
对目标域光谱矩阵S进行中心化处理,得到目标域光谱中心化矩阵,具体为:计算S中每行所有数据的均值,然后将S中每行数据中每列数据分别减去该行所有数据的均值,得到目标域光谱中心化矩阵Xt
采用原始域近红外光谱数据集中的浓度属性值ys1~ysns构建得到原始域浓度向量Y,
Figure RE-FDA0002419407720000013
步骤3、设计核函数,将向量x和向量y的核函数记为k(x,y),k(x,y)采用式(1) 表示为:
Figure RE-FDA0002419407720000021
式(1)中,exp表示以自然对数为底数的指数函数,|| ||表示计算x和y之间的欧式距离,d表示核参数,利用式(1)和现有的核矩阵计算方法能够计算两个矩阵相应的核矩阵,将采用式(1)和现有的核矩阵计算方法计算得到的两个矩阵Q和D相应的核矩阵记为K(Q,D);
步骤4、构建一个m+n行m+n列的类别标签矩阵,m=nt,n=ns,将该类别标签矩阵记为L,L采用式(2)表示为:
Figure RE-FDA0002419407720000022
步骤5、构造转移矩阵,将该转移矩阵记为Xst,Xst采用式(3)表示为:
Xst=[Xs→Xt] (3)
其中,Xs→Xt表示矩阵Xs和Xt中的数据按行纵向连接;
步骤6、构建中间矩阵,将该中间矩阵记为H,H采用式(4)表示为:
Figure RE-FDA0002419407720000023
其中v是转移矩阵Xst的行数,Iv×v为包含v行v列元素的单位对角矩阵,1v表示包含v列元素且所有元素都为1的列向量,上角标T表示矩阵的转置,/表示除运算符号;
步骤7、设定参数d,r和A的参数优化区间d∈[10-5,10-4,…104,105],r∈[10-5,10-4,…104,105],A∈[1,2,…14,15],构建参数组[d,r,A],采用d、r和A的参数优化区间中所有参数进行组合,得到
Figure RE-FDA0002419407720000024
个参数组[d,r,A];
步骤8、设定投影矩阵W,对于步骤7得到的
Figure RE-FDA0002419407720000025
个参数组[d,r,A]中的每一个参数组[d,r,A],分别采用网格寻优的方法计算每个参数组相应的投影矩阵W,共得到
Figure RE-FDA0002419407720000031
个投影矩阵W,具体过程为:
a、判断A是否等于1,根据判断结果进行如下操作:
如果A等于1,按照以下步骤进行:
a1-1、设定中间参数KS1、Y1、KT1和B1,采用公式(5)至公式(8)分别计算得到中间参数KS1、Y1、KT1和B1
KS1=K(Xs,Xs) (5)
Y1=Y (6)
KT1=K(Xst,Xs) (7)
Figure RE-FDA0002419407720000032
式(8)中,上角标T代表矩阵转置,K(Xs,Xs)表示矩阵Xs与矩阵Xs相应的核矩阵,采用式(1)和现有的核矩阵计算方法计算得到,K(Xst,Xs)表示矩阵Xst与矩阵Xs相应的核矩阵,采用式(1)和现有的核矩阵计算方法计算得到;
a1-2、设置中间参数w1,将B1的最大特征值所对应的特征向量赋值给w1
a1-3、将w1作为利用本次参数组[d,r,A]计算得到的投影矩阵W;
如果A不等于1,按照以下步骤进行:
a2-1、按照步骤a1-1计算得到中间参数KS1、Y1、KT1和B1
a2-2、采用步骤a1-2的方法得到中间参数w1,将中间参数w1作为第1代投影矩阵,完成投影矩阵的第1代赋值;
a2-3、设定中间参数t11、t21、p11、p21和c1,采用式(9)至式(13)计算得到中间参数t11、t21、p11、p21和c1
t11=KS1w1 (9)
t21=KT1w1 (10)
Figure RE-FDA0002419407720000041
Figure RE-FDA0002419407720000042
Figure RE-FDA0002419407720000043
其中,上角标-1代表矩阵求逆,上角标T表示矩阵的转置;
a2-4、设定代数变量i,对i进行初始化,令i等于2;
a2-5、对投影矩阵进行第i代赋值,具体为:
S1、设定中间参数KSi、KTi、Yi和Bi,采用式(14)至式(17)计算得到中间参数KSi、KTi、Yi和Bi
Figure RE-FDA0002419407720000044
Figure RE-FDA0002419407720000045
Yi=Yi-1-cit1i-1 (16)
Figure RE-FDA0002419407720000046
S2、设置中间参数wi,将Bi的最大特征值所对应的特征向量赋值给wi,将wi作为第i代投影矩阵,完成投影矩阵的第i代赋值;
S3、设定中间参数t1i、t2i、p1i、p2i和ci,采用式(18)至式(22)计算得到中间参数t1i、t2i、p1i、p2i和ci c1
t1i=KSiwi (18)
t2i=KTiwi (19)
Figure RE-FDA0002419407720000047
Figure RE-FDA0002419407720000048
Figure RE-FDA0002419407720000049
S4、判断i的值是否等于A,如果不等于,则采用i的当前值加1的和更新i的值后,返回步骤S1进行投影矩阵的下一代赋值,如果i的值等于A,则进入步骤a2-6;
步骤a2-6、将得到的w1至wA依次按列横向连接后作为利用本次参数组[d,r,A]计算得到的投影矩阵,W=[w1,…,wA];
步骤9、设定中间变量Ts和Tt,将步骤8得到的
Figure RE-FDA0002419407720000051
个投影矩阵W分别代入公式(23)和(24)中进行计算,得到
Figure RE-FDA0002419407720000052
个中间变量Ts
Figure RE-FDA0002419407720000053
个中间变量Tt
Ts=K(Xs,Xs)W (23)
Tt=K(Xxt,Xs)W (24)
步骤10、将步骤9得到
Figure RE-FDA0002419407720000054
个中间变量Ts分别作为自变量,Y作为因变量,得到
Figure RE-FDA0002419407720000055
个由自变量和因变量构成的数据矩阵。
步骤11、通过5折交叉验证方法构建PLS回归模型,得到
Figure RE-FDA0002419407720000056
个PLS回归模型,具体为:将采用
Figure RE-FDA0002419407720000057
个中间变量Ts分别作为自变量,Y作为因变量得到的
Figure RE-FDA0002419407720000058
个由自变量和因变量构成的数据矩阵随机均分为5部分,随机选取4部分采用交叉验证方法构建得到
Figure RE-FDA0002419407720000059
个PLS回归模型;
步骤12、将步骤9得到的
Figure RE-FDA00024194077200000510
个中间变量Tt作为自变量,与剩余1部分中的自变量合并在一起作为测试数据,对步骤11得到的
Figure RE-FDA00024194077200000511
个PLS回归模型进行测试,连续测试4次,得到每个PLS回归模型的因变量Y的预测结果
Figure RE-FDA00024194077200000512
和Xt所对应因变量的预测结果
Figure RE-FDA00024194077200000513
其中预测结果
Figure RE-FDA00024194077200000514
通过剩余1部分中的自变量得到,预测结果
Figure RE-FDA00024194077200000515
通过作为自变量的中间变量Tt得到;
步骤13、定义PLS回归模型优化目标函数,该优化目标函数采用式(25)表示为:
Figure RE-FDA00024194077200000516
式(25)中,Mean表示求向量的均值,std表示求向量的标准差,| |表示取绝对值符号;
步骤14、将每个PLS回归模型对应的因变量Y、预测结果
Figure RE-FDA00024194077200000517
以及预测结果
Figure RE-FDA00024194077200000518
分别代入式(25)中进行计算,得到每个PLS回归模型对应的f的值;
步骤15、比较步骤14得到的所有f的值,将值最小的f对应的一组[d,r,A]采用步骤8的方法,计算得到相应的投影矩阵,将该投影矩阵作为最优投影矩阵,记为Wop,设定最优自变量,将其记为Tsop,采用Tsop=K(Xs,Xs)Wop计算得到Tsop,以Tsop为自变量,以Y作为因变量,构造最终的PLS回归模型。
CN201911353268.2A 2019-12-25 2019-12-25 一种域自适应的pls回归模型建模方法 Active CN111125629B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911353268.2A CN111125629B (zh) 2019-12-25 2019-12-25 一种域自适应的pls回归模型建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911353268.2A CN111125629B (zh) 2019-12-25 2019-12-25 一种域自适应的pls回归模型建模方法

Publications (2)

Publication Number Publication Date
CN111125629A true CN111125629A (zh) 2020-05-08
CN111125629B CN111125629B (zh) 2023-04-07

Family

ID=70502473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911353268.2A Active CN111125629B (zh) 2019-12-25 2019-12-25 一种域自适应的pls回归模型建模方法

Country Status (1)

Country Link
CN (1) CN111125629B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069450A (zh) * 2020-10-07 2020-12-11 武汉筑信科技有限公司 基于凸集间交互投影的多对象结构方程模型计算技术
CN114611582A (zh) * 2022-02-16 2022-06-10 温州大学 一种基于近红外光谱技术分析物质浓度的方法及***

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101832909A (zh) * 2010-03-12 2010-09-15 江苏大学 基于模拟退火-遗传算法近红外光谱特征子区间选择方法
CN102928382A (zh) * 2012-11-12 2013-02-13 江苏大学 基于改进型模拟退火算法的近红外光谱特征波长选择方法
CN103308463A (zh) * 2013-06-28 2013-09-18 中国农业大学 一种近红外光谱特征谱区选择方法
CN104063710A (zh) * 2014-06-13 2014-09-24 武汉理工大学 基于支持向量机模型的实测光谱曲线中异常光谱剔除方法
CN104091089A (zh) * 2014-07-28 2014-10-08 温州大学 一种红外光谱数据pls建模方法
CN104237158A (zh) * 2014-09-04 2014-12-24 浙江科技学院 一种具有普适性的近红外光谱定性分析方法
CN104376325A (zh) * 2014-10-30 2015-02-25 中国科学院半导体研究所 一种近红外定性分析模型的建立方法
CN107064054A (zh) * 2017-02-28 2017-08-18 浙江大学 一种基于cc‑pls‑rbfnn优化模型的近红外光谱分析方法
CN108593592A (zh) * 2018-04-19 2018-09-28 广东药科大学 一种基于近红外光谱技术的半夏掺伪鉴别方法
CN109145403A (zh) * 2018-07-31 2019-01-04 温州大学 一种基于样本共识的近红外光谱建模方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101832909A (zh) * 2010-03-12 2010-09-15 江苏大学 基于模拟退火-遗传算法近红外光谱特征子区间选择方法
CN102928382A (zh) * 2012-11-12 2013-02-13 江苏大学 基于改进型模拟退火算法的近红外光谱特征波长选择方法
CN103308463A (zh) * 2013-06-28 2013-09-18 中国农业大学 一种近红外光谱特征谱区选择方法
CN104063710A (zh) * 2014-06-13 2014-09-24 武汉理工大学 基于支持向量机模型的实测光谱曲线中异常光谱剔除方法
CN104091089A (zh) * 2014-07-28 2014-10-08 温州大学 一种红外光谱数据pls建模方法
CN104237158A (zh) * 2014-09-04 2014-12-24 浙江科技学院 一种具有普适性的近红外光谱定性分析方法
CN104376325A (zh) * 2014-10-30 2015-02-25 中国科学院半导体研究所 一种近红外定性分析模型的建立方法
CN107064054A (zh) * 2017-02-28 2017-08-18 浙江大学 一种基于cc‑pls‑rbfnn优化模型的近红外光谱分析方法
CN108593592A (zh) * 2018-04-19 2018-09-28 广东药科大学 一种基于近红外光谱技术的半夏掺伪鉴别方法
CN109145403A (zh) * 2018-07-31 2019-01-04 温州大学 一种基于样本共识的近红外光谱建模方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YASHENG WANG 等: "Improved PLS regression based on SVM classification for rapid analysis of coal properties by near-infrared reflectance spectroscopy" *
张红光: "近红外光谱新型建模方法与应用基础研究" *
成忠 等: "快速稳健偏最小二乘回归及其在近红外光谱分析中的应用" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069450A (zh) * 2020-10-07 2020-12-11 武汉筑信科技有限公司 基于凸集间交互投影的多对象结构方程模型计算技术
CN114611582A (zh) * 2022-02-16 2022-06-10 温州大学 一种基于近红外光谱技术分析物质浓度的方法及***
CN114611582B (zh) * 2022-02-16 2024-05-14 温州大学 一种基于近红外光谱技术分析物质浓度的方法及***

Also Published As

Publication number Publication date
CN111125629B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
Teye et al. Innovative and rapid analysis for rice authenticity using hand-held NIR spectrometry and chemometrics
US5592402A (en) Method for interpreting complex data and detecting abnormal instrumentor process behavior
Bai et al. Accurate prediction of soluble solid content of apples from multiple geographical regions by combining deep learning with spectral fingerprint features
Pu et al. Hierarchical variable selection for predicting chemical constituents in lamb meats using hyperspectral imaging
CN110687072B (zh) 一种基于光谱相似度的校正集和验证集的选择及建模方法
CN111079856B (zh) 一种基于csjitl-rvm的多时段间歇过程软测量建模方法
Dong et al. Sensory quality evaluation for appearance of needle-shaped green tea based on computer vision and nonlinear tools
CN111125629B (zh) 一种域自适应的pls回归模型建模方法
Oliveri et al. Data analysis and chemometrics
CN114611582B (zh) 一种基于近红外光谱技术分析物质浓度的方法及***
CN113705092B (zh) 基于机器学习的疾病预测方法及装置
CN110648763A (zh) 利用人工智能进行光谱分析以进行肿瘤评估的方法及设备
CN112651173B (zh) 一种基于跨域光谱信息的农产品品质无损检测方法及可泛化***
CN111191502B (zh) 基于钻柱振动信号的粘滑和跳钻异常工况识别方法
CN109145403B (zh) 一种基于样本共识的近红外光谱建模方法
US11610112B2 (en) Method for the computer-aided configuration of a data-driven model on the basis of training data
Sena et al. Multivariate statistical analysis and chemometrics
CN111220565B (zh) 一种基于cpls的红外光谱测量仪器标定迁移方法
Kalivas Data fusion of nonoptimized models: applications to outlier detection, classification, and image library searching
Miszczyk et al. Multivariate analysis of impedance data obtained for coating systems of varying thickness applied on steel
CN115713634A (zh) 一种联合相似性度量与视觉感知的色彩搭配评价方法
CN111160464B (zh) 基于多隐层加权动态模型的工业高阶动态过程软测量方法
CN113392586B (zh) 基于r语言、正交偏最小二乘判别分析的植物油鉴定方法
Cocchi et al. Chemometrics–Bioinformatics
Pluta et al. Ridge‐penalized adaptive Mantel test and its application in imaging genetics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant