CN111125629A - 一种域自适应的pls回归模型建模方法 - Google Patents
一种域自适应的pls回归模型建模方法 Download PDFInfo
- Publication number
- CN111125629A CN111125629A CN201911353268.2A CN201911353268A CN111125629A CN 111125629 A CN111125629 A CN 111125629A CN 201911353268 A CN201911353268 A CN 201911353268A CN 111125629 A CN111125629 A CN 111125629A
- Authority
- CN
- China
- Prior art keywords
- matrix
- domain
- parameter
- adopting
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000010238 partial least squares regression Methods 0.000 title claims abstract description 47
- 239000011159 matrix material Substances 0.000 claims abstract description 163
- 238000001228 spectrum Methods 0.000 claims abstract description 49
- 238000002329 infrared spectrum Methods 0.000 claims abstract description 31
- 238000012546 transfer Methods 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 30
- 230000003595 spectral effect Effects 0.000 claims description 27
- 230000001419 dependent effect Effects 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 24
- 238000005457 optimization Methods 0.000 claims description 18
- 239000004576 sand Substances 0.000 claims description 12
- 238000002790 cross-validation Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000017105 transposition Effects 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 3
- 210000000299 nuclear matrix Anatomy 0.000 abstract description 10
- 102000008297 Nuclear Matrix-Associated Proteins Human genes 0.000 abstract description 6
- 108010035916 Nuclear Matrix-Associated Proteins Proteins 0.000 abstract description 6
- 230000003044 adaptive effect Effects 0.000 abstract description 2
- 238000013507 mapping Methods 0.000 abstract 1
- 230000003313 weakening effect Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 4
- 238000004497 NIR spectroscopy Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000002835 absorbance Methods 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Biochemistry (AREA)
- Algebra (AREA)
- Computing Systems (AREA)
- Immunology (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种域自适应的PLS回归模型建模方法,采用从原始域获取的近红外光谱数据构建原始域光谱中心化矩阵,采用从目标域获取的近红外光谱数据构建目标域光谱中心化矩阵,消除原始域和目标域光谱的均值差异,基于原始域光谱中心化矩阵和目标域光谱中心化矩阵,采用转移矩阵映射到核矩阵空间的方式,从中找到最优的投影方向,确定最优投影矩阵,基于最优投影矩阵构建得到最终的PLS回归模型,削弱不同域之间的投影得分和域标签的非独立性;优点是采用域自适应算法来消除不同域下所采集近光谱数据的差异,不需要采集目标域样本的浓度信息,从而简化了建模过程,使得构建的PLS回归模型的对目标域近红外光谱数据具有良好的预测精度。
Description
技术领域
本发明涉及一种PLS回归模型建模方法,尤其是涉及一种域自适应的PLS回归模型建模方法。
背景技术
近红外光谱技术是一种简单、快速、可靠的检测技术。它综合运用了光谱技术、 计算机技术、模式识别等多个学科的研究成果,以其独特的优势在多个领域得到了日益 广泛的应用,并已逐渐得到大众的普遍接受和官方的认可。近红外光谱分析是一种间接 的分析方法,往往需要构造反映近红外光谱数据和待分析样本属性关系的回归模型。其 中,偏最小二乘(PLS)回归模型是最常用的多元回归模型。PLS能够消除光谱矩阵以及浓 度矩阵里的噪声信息,取得较好的预测效果。
现有的偏最小二乘(PLS)回归模型在近红外光谱分析中的建模方法为:首先采集标 准样本的近红外光谱数据和浓度数据来构造相应的近红外光谱数据矩阵和浓度向量,然 后对近红外光谱矩阵进行分解,通过交叉验证法确定其最佳主成分数,最后利用偏最小二乘(PLS)回归法建立起近红外光谱矩阵与浓度向量之间的数学模型关系。
常规基于近红外光谱数据的偏最小二乘(PLS)回归模型建模方法需要采集标准样本 的近红外光谱数据和浓度数据。但是,随着近红外光谱应用场景的复杂化,经常会遇到检测条件或仪器自身发生变化的情况,如样品检查温/湿度变化、样品形态改变、仪器 老化和附件更换等,此时采集的标准样本的近红外光谱数据往往会发生吸光度差异和波 长漂移,从而导致基于原始域(source domain,对应条件1状态下采集的近红外光谱 数据)数据构建的偏最小二乘(PLS)回归模型对目标域(target domain,对应条件2 状态下采集的近红外光谱数据)数据的预测结果出现较大偏差。
发明内容
本发明所要解决的技术问题是提供一种域自适应的PLS回归模型建模方法,该建模 方法不需要采集目标域样本的浓度信息,简化了建模过程,通过采用域自适应算法来消除不同域下所采集近光谱数据的差异,从而使得构建的PLS回归模型的对目标域近红外 光谱数据具有良好的预测精度。
本发明解决上述技术问题所采用的技术方案为:一种域自适应的PLS回归模型建模 方法,包括以下步骤:
步骤1、从原始域获取ns个近红光谱样本,ns为大于等于5的整数,采用ns个近红光谱样本构建得到原始域近红外光谱数据集{xsq,ysq|q=1,2,…,ns},其中xsq为从原始域获 取的第q个样本的近红光谱数据,ysq为从原始域获取的第q个样本的浓度属性值;
从目标域获取nt个近红光谱样本,nt为大于等于5的整数,采用nt个近红光谱样本构建得到目标域近红外光谱数据集{xtj|j=1,2,…,nt},其中xtj是从目标域获取的第j个样 本的近红外光谱数据;xsq和xtj分别为1行p列的向量,p为采集原始域近红光谱数据xsq和目标域近红外光谱数据xtj所使用的光谱仪器的波段数;
步骤2、采用原始域近红外光谱数据集中的近红光谱数据xs1~xsns构建得到原始域光 谱矩阵X,对原始域光谱矩阵X进行中心化处理,得到原始域光谱中心化矩 阵,具体为:计算X中每行所有数据的均值,然后将X中每行数据中每列数据分别减去 该行所有数据的均值,得到原始域光谱中心化矩阵Xs;
采用目标域近红外光谱数据集中的近红光谱数据xt1~xsnt构建得到目标域光谱矩阵S, 对目标域光谱矩阵S进行中心化处理,得到目标域光谱中心化矩阵,具体为:计算S中每行所有数据的均值,然后将S中每行数据中每列数据分别减去该行所有数据 的均值,得到目标域光谱中心化矩阵Xt;
采用原始域近红外光谱数据集中的浓度属性值ys1~ysns构建得到原始域浓度向量Y,
步骤3、设计核函数,将向量x和向量y的核函数记为k(x,y),k(x,y)采用式(1) 表示为:
式(1)中,exp表示以自然对数为底数的指数函数,|| ||表示计算x和y之间的欧式距离,d表示核参数,利用式(1)和现有的核矩阵计算方法能够计算两个矩阵相应的 核矩阵,将采用式(1)和现有的核矩阵计算方法计算得到的两个矩阵Q和D相应的核矩 阵记为K(Q,D);
步骤4、构建一个m+n行m+n列的类别标签矩阵,m=nt,n=ns,将该类别标签矩 阵记为L,L采用式(2)表示为:
步骤5、构造转移矩阵,将该转移矩阵记为Xst,Xst采用式(3)表示为:
Xst=[Xs→Xt] (3)
其中,Xs→Xt表示矩阵Xs和Xt中的数据按行纵向连接;
步骤6、构建中间矩阵,将该中间矩阵记为H,H采用式(4)表示为:
其中v是转移矩阵Xst的行数,Iv×v为包含v行v列元素的单位对角矩阵,1v表示包含v列元 素且所有元素都为1的列向量,上角标T表示矩阵的转置,/表示除运算符号;
步骤7、设定参数d,r和A的参数优化区间d∈[10-5,10-4,…104,105],r∈[10-5,10-4,…104,105],A∈[1,2,…14,15],构建参数组[d,r,A],采用d、r和A的参数优化区 间中所有参数进行组合,得到个参数组[d,r,A];
a、判断A是否等于1,根据判断结果进行如下操作:
如果A等于1,按照以下步骤进行:
a1-1、设定中间参数KS1、Y1、KT1和B1,采用公式(5)至公式(8)分别计算得到 中间参数KS1、Y1、KT1和B1:
KS1=K(Xs,Xs) (5)
Y1=Y (6)
KT1=K(Xst,Xs) (7)
式(8)中,上角标T代表矩阵转置,K(Xs,Xs)表示矩阵Xs与矩阵Xs相应的核矩阵, 采用式(1)和现有的核矩阵计算方法计算得到,K(Xst,Xs)表示矩阵Xst与矩阵Xs相应的核 矩阵,采用式(1)和现有的核矩阵计算方法计算得到;
a1-2、设置中间参数w1,将B1的最大特征值所对应的特征向量赋值给w1;
a1-3、将w1作为利用本次参数组[d,r,A]计算得到的投影矩阵W;
如果A不等于1,按照以下步骤进行:
a2-1、按照步骤a1-1计算得到中间参数KS1、Y1、KT1和B1;
a2-2、采用步骤a1-2的方法得到中间参数w1,将中间参数w1作为第1代投影矩阵,完成投影矩阵的第1代赋值;
a2-3、设定中间参数t11、t21、p11、p21和c1,采用式(9)至式(13)计算得到中间 参数t11、t21、p11、p21和c1:
t11=KS1w1 (9)
t21=KT1w1 (10)
其中,上角标-1代表矩阵求逆,上角标T表示矩阵的转置;
a2-4、设定代数变量i,对i进行初始化,令i等于2;
a2-5、对投影矩阵进行第i代赋值,具体为:
S1、设定中间参数KSi、KTi、Yi和Bi,采用式(14)至式(17)计算得到中间参数 KSi、KTi、Yi和Bi:
Yi=Yi-1-cit1i-1 (16)
S2、设置中间参数wi,将Bi的最大特征值所对应的特征向量赋值给wi,将wi作为第i代投影矩阵,完成投影矩阵的第i代赋值;
S3、设定中间参数t1i、t2i、p1i、p2i和ci,采用式(18)至式(22)计算得到中间 参数t1i、t2i、p1i、p2i和ci c1:
t1i=KSiwi (18)
t2i=KTiwi (19)
S4、判断i的值是否等于A,如果不等于,则采用i的当前值加1的和更新i的值后,返回步骤S1进行投影矩阵的下一代赋值,如果i的值等于A,则进入步骤a2-6;
步骤a2-6、将得到的w1至wA依次按列横向连接后作为利用本次参数组[d,r,A]计算得 到的投影矩阵,W=[w1,…,wA];
Ts=K(Xs,Xs)W (23)
Tt=K(Xxt,Xs)W (24)
步骤11、通过5折交叉验证方法构建PLS回归模型,得到个PLS回归模型,具体为:将采用个中间变量Ts分别作为自变量,Y作为因变量得到的个由 自变量和因变量构成的数据矩阵随机均分为5部分,随机选取4部分采用交叉验证方法 构建得到个PLS回归模型;
步骤12、将步骤9得到的个中间变量Tt作为自变量,与剩余1部分中的自 变量合并在一起作为测试数据,对步骤11得到的个PLS回归模型进行测试,连 续测试4次,得到每个PLS回归模型的因变量Y的预测结果和Xt所对应因变量的预测 结果其中预测结果通过剩余1部分中的自变量得到,预测结果通过作为自变量 的中间变量Tt得到;
步骤13、定义PLS回归模型优化目标函数,该优化目标函数采用式(25)表示为:
式(25)中,Mean表示求向量的均值,std表示求向量的标准差,||表示取绝对值 符号;
步骤15、比较步骤14得到的所有f的值,将值最小的f对应的一组[d,r,A]采用步骤8的方法,计算得到相应的投影矩阵,将该投影矩阵作为最优投影矩阵,记为Wop,设定 最优自变量,将其记为Tsop,采用Tsop=K(Xs,Xs)Wop计算得到Tsop,以Tsop为自变量,以Y 作为因变量,构造最终的PLS回归模型。
与现有技术相比,本发明的优点在于通过采用从原始域获取的近红外光谱数据构建 原始域光谱中心化矩阵,采用从目标域获取的近红外光谱数据构建目标域光谱中心化矩 阵,消除原始域和目标域光谱的均值差异,然后基于原始域光谱中心化矩阵和目标域光谱中心化矩阵,采用转移矩阵映射到核矩阵空间的方式,从中找到最优的投影方向, 确定最优投影矩阵,基于最优投影矩阵构建得到最终的PLS回归模型,从而削弱不同域 之间的投影得分和域标签的非独立性,本发明方法通过采用域自适应算法来消除不同域 下所采集近光谱数据的差异,不需要采集目标域样本的浓度信息,从而简化了建模过程, 使得构建的PLS回归模型的对目标域近红外光谱数据具有良好的预测精度。
具体实施方式
以下结合实施例对本发明作进一步详细描述。
实施例:一种域自适应的PLS回归模型建模方法,包括以下步骤:
步骤1、从原始域获取ns个近红光谱样本,ns为大于等于5的整数,采用ns个近红光谱样本构建得到原始域近红外光谱数据集{xsq,ysq|q=1,2,…,ns},其中xsq为从原始域获 取的第q个样本的近红光谱数据,ysq为从原始域获取的第q个样本的浓度属性值;
从目标域获取nt个近红光谱样本,nt为大于等于5的整数,采用nt个近红光谱样本构建得到目标域近红外光谱数据集{xtj|j=1,2,…,nt},其中xtj是从目标域获取的第j个样 本的近红外光谱数据;xsq和xtj分别为1行p列的向量,p为采集原始域近红光谱数据xsq和目标域近红外光谱数据xtj所使用的光谱仪器的波段数;
步骤2、采用原始域近红外光谱数据集中的近红光谱数据xs1~xsns构建得到原始域光 谱矩阵X,对原始域光谱矩阵X进行中心化处理,得到原始域光谱中心化矩阵,具体为:计算X中每行所有数据的均值,然后将X中每行数据中每列数据分别减去 该行所有数据的均值,得到原始域光谱中心化矩阵Xs;
采用目标域近红外光谱数据集中的近红光谱数据xt1~xsnt构建得到目标域光谱矩阵S, 对目标域光谱矩阵S进行中心化处理,得到目标域光谱中心化矩阵,具体为:计算S中每行所有数据的均值,然后将S中每行数据中每列数据分别减去该行所有数据 的均值,得到目标域光谱中心化矩阵Xt;
步骤3、设计核函数,将向量x和向量y的核函数记为k(x,y),k(x,y)采用式(1) 表示为:
式(1)中,exp表示以自然对数为底数的指数函数,|| ||表示计算x和y之间的欧式距离,d表示核参数,利用式(1)和现有的核矩阵计算方法能够计算两个矩阵相应的 核矩阵,将采用式(1)和现有的核矩阵计算方法计算得到的两个矩阵Q和D相应的核矩 阵记为K(Q,D);
步骤4、构建一个m+n行m+n列的类别标签矩阵,m=nt,n=ns,将该类别标签矩 阵记为L,L采用式(2)表示为:
步骤5、构造转移矩阵,将该转移矩阵记为Xst,Xst采用式(3)表示为:
Xst=[Xs→Xt] (3)
其中,Xs→Xt表示矩阵Xs和Xt中的数据按行纵向连接;
步骤6、构建中间矩阵,将该中间矩阵记为H,H采用式(4)表示为:
H=Iv×v-(1/v)1v1vT (4)
其中v是转移矩阵Xst的行数,Iv×v为包含v行v列元素的单位对角矩阵,1v表示包含v列元 素且所有元素都为1的列向量,上角标T表示矩阵的转置,/表示除运算符号;
步骤7、设定参数d,r和A的参数优化区间d∈[10-5,10-4,…104,105], r∈[10-5,10-4,…104,105],A∈[1,2,…14,15],构建参数组[d,r,A],采用d、r和A的参数优化区 间中所有参数进行组合,得到个参数组[d,r,A];
a、判断A是否等于1,根据判断结果进行如下操作:
如果A等于1,按照以下步骤进行:
a1-1、设定中间参数KS1、Y1、KT1和B1,采用公式(5)至公式(8)分别计算得到 中间参数KS1、Y1、KT1和B1:
KS1=K(Xs,Xs) (5)
Y1=Y (6)
KT1=K(Xst,Xs) (7)
式(8)中,上角标T代表矩阵转置,K(Xs,Xs)表示矩阵Xs与矩阵Xs相应的核矩阵, 采用式(1)和现有的核矩阵计算方法计算得到,K(Xst,Xs)表示矩阵Xst与矩阵Xs相应的核 矩阵,采用式(1)和现有的核矩阵计算方法计算得到;
a1-2、设置中间参数w1,将B1的最大特征值所对应的特征向量赋值给w1;
a1-3、将w1作为利用本次参数组[d,r,A]计算得到的投影矩阵W;
如果A不等于1,按照以下步骤进行:
a2-1、按照步骤a1-1计算得到中间参数KS1、Y1、KT1和B1;
a2-2、采用步骤a1-2的方法得到中间参数w1,将中间参数w1作为第1代投影矩阵,完成投影矩阵的第1代赋值;
a2-3、设定中间参数t11、t21、p11、p21和c1,采用式(9)至式(13)计算得到中间 参数t11、t21、p11、p21和c1:
t11=KS1w1 (9)
t21=KT1w1 (10)
其中,上角标-1代表矩阵求逆,上角标T表示矩阵的转置;
a2-4、设定代数变量i,对i进行初始化,令i等于2;
a2-5、对投影矩阵进行第i代赋值,具体为:
S1、设定中间参数KSi、KTi、Yi和Bi,采用式(14)至式(17)计算得到中间参数 KSi、KTi、Yi和Bi:
Yi=Yi-1-cit1i-1 (16)
S2、设置中间参数wi,将Bi的最大特征值所对应的特征向量赋值给wi,将wi作为第i代投影矩阵,完成投影矩阵的第i代赋值;
S3、设定中间参数t1i、t2i、p1i、p2i和ci,采用式(18)至式(22)计算得到中间 参数t1i、t2i、p1i、p2i和ci c1:
t1i=KSiwi (18)
t2i=KTiwi (19)
S4、判断i的值是否等于A,如果不等于,则采用i的当前值加1的和更新i的值后,返回步骤S1进行投影矩阵的下一代赋值,如果i的值等于A,则进入步骤a2-6;
步骤a2-6、将得到的w1至wA依次按列横向连接后作为利用本次参数组[d,r,A]计算得 到的投影矩阵,W=[w1,…,wA];
Ts=K(Xs,Xs)W (23)
Tt=K(Xxt,Xs)W (24)
步骤11、通过5折交叉验证方法构建PLS回归模型,得到个PLS回归模型,具体为:将采用个中间变量Ts分别作为自变量,Y作为因变量得到的个由 自变量和因变量构成的数据矩阵随机均分为5部分,随机选取4部分采用交叉验证方法 构建得到个PLS回归模型;5折交叉验证方法为当前成熟的构建PLS回归模型 的方法之一;
步骤12、将步骤9得到的个中间变量Tt作为自变量,与剩余1部分中的自 变量合并在一起作为测试数据,对步骤11得到的个PLS回归模型进行测试,连 续测试4次,得到每个PLS回归模型的因变量Y的预测结果和Xt所对应因变量的预测 结果其中预测结果通过剩余1部分中的自变量得到,预测结果通过作为自变量 的中间变量Tt得到;
步骤13、定义PLS回归模型优化目标函数,该优化目标函数采用式(25)表示为:
式(25)中,Mean表示求向量的均值,std表示求向量的标准差,| |表示取绝对值符号;
步骤15、比较步骤14得到的所有f的值,将值最小的f对应的一组[d,r,A]采用步骤8的方法,计算得到相应的投影矩阵,将该投影矩阵作为最优投影矩阵,记为Wop,设定 最优自变量,将其记为Tsop,采用Tsop=K(Xs,Xs)Wop计算得到Tsop,以Tsop为自变量,以Y 作为因变量,构造最终的PLS回归模型。
采用本发明的域自适应的PLS回归模型建模方法对测试样本进行测试时,对于测试 样本,获取其相应的近红外光谱xt,将xt当做一维的矩阵,设定自变量参数Tt,采用 Tt=K(xt,Xs)Wop计算得到Tt,然后将Tt作为自变量带入所构建的PLS模型即可得到xt相应 的因变量的预测结果。
Claims (1)
1.一种域自适应的PLS回归模型建模方法,其特征在于包括以下步骤:
步骤1、从原始域获取ns个近红光谱样本,ns为大于等于5的整数,采用ns个近红光谱样本构建得到原始域近红外光谱数据集{xsq,ysq|q=1,2,…,ns},其中xsq为从原始域获取的第q个样本的近红光谱数据,ysq为从原始域获取的第q个样本的浓度属性值;
从目标域获取nt个近红光谱样本,nt为大于等于5的整数,采用nt个近红光谱样本构建得到目标域近红外光谱数据集{xtj|j=1,2,…,nt},其中xtj是从目标域获取的第j个样本的近红外光谱数据;xsq和xtj分别为1行p列的向量,p为采集原始域近红光谱数据xsq和目标域近红外光谱数据xtj所使用的光谱仪器的波段数;
步骤2、采用原始域近红外光谱数据集中的近红光谱数据xs1~xsns构建得到原始域光谱矩阵X,对原始域光谱矩阵X进行中心化处理,得到原始域光谱中心化矩阵,具体为:计算X中每行所有数据的均值,然后将X中每行数据中每列数据分别减去该行所有数据的均值,得到原始域光谱中心化矩阵Xs;
采用目标域近红外光谱数据集中的近红光谱数据xt1~xsnt构建得到目标域光谱矩阵S,对目标域光谱矩阵S进行中心化处理,得到目标域光谱中心化矩阵,具体为:计算S中每行所有数据的均值,然后将S中每行数据中每列数据分别减去该行所有数据的均值,得到目标域光谱中心化矩阵Xt;
步骤3、设计核函数,将向量x和向量y的核函数记为k(x,y),k(x,y)采用式(1) 表示为:
式(1)中,exp表示以自然对数为底数的指数函数,|| ||表示计算x和y之间的欧式距离,d表示核参数,利用式(1)和现有的核矩阵计算方法能够计算两个矩阵相应的核矩阵,将采用式(1)和现有的核矩阵计算方法计算得到的两个矩阵Q和D相应的核矩阵记为K(Q,D);
步骤4、构建一个m+n行m+n列的类别标签矩阵,m=nt,n=ns,将该类别标签矩阵记为L,L采用式(2)表示为:
步骤5、构造转移矩阵,将该转移矩阵记为Xst,Xst采用式(3)表示为:
Xst=[Xs→Xt] (3)
其中,Xs→Xt表示矩阵Xs和Xt中的数据按行纵向连接;
步骤6、构建中间矩阵,将该中间矩阵记为H,H采用式(4)表示为:
其中v是转移矩阵Xst的行数,Iv×v为包含v行v列元素的单位对角矩阵,1v表示包含v列元素且所有元素都为1的列向量,上角标T表示矩阵的转置,/表示除运算符号;
步骤7、设定参数d,r和A的参数优化区间d∈[10-5,10-4,…104,105],r∈[10-5,10-4,…104,105],A∈[1,2,…14,15],构建参数组[d,r,A],采用d、r和A的参数优化区间中所有参数进行组合,得到个参数组[d,r,A];
a、判断A是否等于1,根据判断结果进行如下操作:
如果A等于1,按照以下步骤进行:
a1-1、设定中间参数KS1、Y1、KT1和B1,采用公式(5)至公式(8)分别计算得到中间参数KS1、Y1、KT1和B1:
KS1=K(Xs,Xs) (5)
Y1=Y (6)
KT1=K(Xst,Xs) (7)
式(8)中,上角标T代表矩阵转置,K(Xs,Xs)表示矩阵Xs与矩阵Xs相应的核矩阵,采用式(1)和现有的核矩阵计算方法计算得到,K(Xst,Xs)表示矩阵Xst与矩阵Xs相应的核矩阵,采用式(1)和现有的核矩阵计算方法计算得到;
a1-2、设置中间参数w1,将B1的最大特征值所对应的特征向量赋值给w1;
a1-3、将w1作为利用本次参数组[d,r,A]计算得到的投影矩阵W;
如果A不等于1,按照以下步骤进行:
a2-1、按照步骤a1-1计算得到中间参数KS1、Y1、KT1和B1;
a2-2、采用步骤a1-2的方法得到中间参数w1,将中间参数w1作为第1代投影矩阵,完成投影矩阵的第1代赋值;
a2-3、设定中间参数t11、t21、p11、p21和c1,采用式(9)至式(13)计算得到中间参数t11、t21、p11、p21和c1:
t11=KS1w1 (9)
t21=KT1w1 (10)
其中,上角标-1代表矩阵求逆,上角标T表示矩阵的转置;
a2-4、设定代数变量i,对i进行初始化,令i等于2;
a2-5、对投影矩阵进行第i代赋值,具体为:
S1、设定中间参数KSi、KTi、Yi和Bi,采用式(14)至式(17)计算得到中间参数KSi、KTi、Yi和Bi:
Yi=Yi-1-cit1i-1 (16)
S2、设置中间参数wi,将Bi的最大特征值所对应的特征向量赋值给wi,将wi作为第i代投影矩阵,完成投影矩阵的第i代赋值;
S3、设定中间参数t1i、t2i、p1i、p2i和ci,采用式(18)至式(22)计算得到中间参数t1i、t2i、p1i、p2i和ci c1:
t1i=KSiwi (18)
t2i=KTiwi (19)
S4、判断i的值是否等于A,如果不等于,则采用i的当前值加1的和更新i的值后,返回步骤S1进行投影矩阵的下一代赋值,如果i的值等于A,则进入步骤a2-6;
步骤a2-6、将得到的w1至wA依次按列横向连接后作为利用本次参数组[d,r,A]计算得到的投影矩阵,W=[w1,…,wA];
Ts=K(Xs,Xs)W (23)
Tt=K(Xxt,Xs)W (24)
步骤11、通过5折交叉验证方法构建PLS回归模型,得到个PLS回归模型,具体为:将采用个中间变量Ts分别作为自变量,Y作为因变量得到的个由自变量和因变量构成的数据矩阵随机均分为5部分,随机选取4部分采用交叉验证方法构建得到个PLS回归模型;
步骤12、将步骤9得到的个中间变量Tt作为自变量,与剩余1部分中的自变量合并在一起作为测试数据,对步骤11得到的个PLS回归模型进行测试,连续测试4次,得到每个PLS回归模型的因变量Y的预测结果和Xt所对应因变量的预测结果其中预测结果通过剩余1部分中的自变量得到,预测结果通过作为自变量的中间变量Tt得到;
步骤13、定义PLS回归模型优化目标函数,该优化目标函数采用式(25)表示为:
式(25)中,Mean表示求向量的均值,std表示求向量的标准差,| |表示取绝对值符号;
步骤15、比较步骤14得到的所有f的值,将值最小的f对应的一组[d,r,A]采用步骤8的方法,计算得到相应的投影矩阵,将该投影矩阵作为最优投影矩阵,记为Wop,设定最优自变量,将其记为Tsop,采用Tsop=K(Xs,Xs)Wop计算得到Tsop,以Tsop为自变量,以Y作为因变量,构造最终的PLS回归模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911353268.2A CN111125629B (zh) | 2019-12-25 | 2019-12-25 | 一种域自适应的pls回归模型建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911353268.2A CN111125629B (zh) | 2019-12-25 | 2019-12-25 | 一种域自适应的pls回归模型建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111125629A true CN111125629A (zh) | 2020-05-08 |
CN111125629B CN111125629B (zh) | 2023-04-07 |
Family
ID=70502473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911353268.2A Active CN111125629B (zh) | 2019-12-25 | 2019-12-25 | 一种域自适应的pls回归模型建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111125629B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069450A (zh) * | 2020-10-07 | 2020-12-11 | 武汉筑信科技有限公司 | 基于凸集间交互投影的多对象结构方程模型计算技术 |
CN114611582A (zh) * | 2022-02-16 | 2022-06-10 | 温州大学 | 一种基于近红外光谱技术分析物质浓度的方法及*** |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101832909A (zh) * | 2010-03-12 | 2010-09-15 | 江苏大学 | 基于模拟退火-遗传算法近红外光谱特征子区间选择方法 |
CN102928382A (zh) * | 2012-11-12 | 2013-02-13 | 江苏大学 | 基于改进型模拟退火算法的近红外光谱特征波长选择方法 |
CN103308463A (zh) * | 2013-06-28 | 2013-09-18 | 中国农业大学 | 一种近红外光谱特征谱区选择方法 |
CN104063710A (zh) * | 2014-06-13 | 2014-09-24 | 武汉理工大学 | 基于支持向量机模型的实测光谱曲线中异常光谱剔除方法 |
CN104091089A (zh) * | 2014-07-28 | 2014-10-08 | 温州大学 | 一种红外光谱数据pls建模方法 |
CN104237158A (zh) * | 2014-09-04 | 2014-12-24 | 浙江科技学院 | 一种具有普适性的近红外光谱定性分析方法 |
CN104376325A (zh) * | 2014-10-30 | 2015-02-25 | 中国科学院半导体研究所 | 一种近红外定性分析模型的建立方法 |
CN107064054A (zh) * | 2017-02-28 | 2017-08-18 | 浙江大学 | 一种基于cc‑pls‑rbfnn优化模型的近红外光谱分析方法 |
CN108593592A (zh) * | 2018-04-19 | 2018-09-28 | 广东药科大学 | 一种基于近红外光谱技术的半夏掺伪鉴别方法 |
CN109145403A (zh) * | 2018-07-31 | 2019-01-04 | 温州大学 | 一种基于样本共识的近红外光谱建模方法 |
-
2019
- 2019-12-25 CN CN201911353268.2A patent/CN111125629B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101832909A (zh) * | 2010-03-12 | 2010-09-15 | 江苏大学 | 基于模拟退火-遗传算法近红外光谱特征子区间选择方法 |
CN102928382A (zh) * | 2012-11-12 | 2013-02-13 | 江苏大学 | 基于改进型模拟退火算法的近红外光谱特征波长选择方法 |
CN103308463A (zh) * | 2013-06-28 | 2013-09-18 | 中国农业大学 | 一种近红外光谱特征谱区选择方法 |
CN104063710A (zh) * | 2014-06-13 | 2014-09-24 | 武汉理工大学 | 基于支持向量机模型的实测光谱曲线中异常光谱剔除方法 |
CN104091089A (zh) * | 2014-07-28 | 2014-10-08 | 温州大学 | 一种红外光谱数据pls建模方法 |
CN104237158A (zh) * | 2014-09-04 | 2014-12-24 | 浙江科技学院 | 一种具有普适性的近红外光谱定性分析方法 |
CN104376325A (zh) * | 2014-10-30 | 2015-02-25 | 中国科学院半导体研究所 | 一种近红外定性分析模型的建立方法 |
CN107064054A (zh) * | 2017-02-28 | 2017-08-18 | 浙江大学 | 一种基于cc‑pls‑rbfnn优化模型的近红外光谱分析方法 |
CN108593592A (zh) * | 2018-04-19 | 2018-09-28 | 广东药科大学 | 一种基于近红外光谱技术的半夏掺伪鉴别方法 |
CN109145403A (zh) * | 2018-07-31 | 2019-01-04 | 温州大学 | 一种基于样本共识的近红外光谱建模方法 |
Non-Patent Citations (3)
Title |
---|
YASHENG WANG 等: "Improved PLS regression based on SVM classification for rapid analysis of coal properties by near-infrared reflectance spectroscopy" * |
张红光: "近红外光谱新型建模方法与应用基础研究" * |
成忠 等: "快速稳健偏最小二乘回归及其在近红外光谱分析中的应用" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069450A (zh) * | 2020-10-07 | 2020-12-11 | 武汉筑信科技有限公司 | 基于凸集间交互投影的多对象结构方程模型计算技术 |
CN114611582A (zh) * | 2022-02-16 | 2022-06-10 | 温州大学 | 一种基于近红外光谱技术分析物质浓度的方法及*** |
CN114611582B (zh) * | 2022-02-16 | 2024-05-14 | 温州大学 | 一种基于近红外光谱技术分析物质浓度的方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN111125629B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Teye et al. | Innovative and rapid analysis for rice authenticity using hand-held NIR spectrometry and chemometrics | |
US5592402A (en) | Method for interpreting complex data and detecting abnormal instrumentor process behavior | |
Bai et al. | Accurate prediction of soluble solid content of apples from multiple geographical regions by combining deep learning with spectral fingerprint features | |
Pu et al. | Hierarchical variable selection for predicting chemical constituents in lamb meats using hyperspectral imaging | |
CN110687072B (zh) | 一种基于光谱相似度的校正集和验证集的选择及建模方法 | |
CN111079856B (zh) | 一种基于csjitl-rvm的多时段间歇过程软测量建模方法 | |
Dong et al. | Sensory quality evaluation for appearance of needle-shaped green tea based on computer vision and nonlinear tools | |
CN111125629B (zh) | 一种域自适应的pls回归模型建模方法 | |
Oliveri et al. | Data analysis and chemometrics | |
CN114611582B (zh) | 一种基于近红外光谱技术分析物质浓度的方法及*** | |
CN113705092B (zh) | 基于机器学习的疾病预测方法及装置 | |
CN110648763A (zh) | 利用人工智能进行光谱分析以进行肿瘤评估的方法及设备 | |
CN112651173B (zh) | 一种基于跨域光谱信息的农产品品质无损检测方法及可泛化*** | |
CN111191502B (zh) | 基于钻柱振动信号的粘滑和跳钻异常工况识别方法 | |
CN109145403B (zh) | 一种基于样本共识的近红外光谱建模方法 | |
US11610112B2 (en) | Method for the computer-aided configuration of a data-driven model on the basis of training data | |
Sena et al. | Multivariate statistical analysis and chemometrics | |
CN111220565B (zh) | 一种基于cpls的红外光谱测量仪器标定迁移方法 | |
Kalivas | Data fusion of nonoptimized models: applications to outlier detection, classification, and image library searching | |
Miszczyk et al. | Multivariate analysis of impedance data obtained for coating systems of varying thickness applied on steel | |
CN115713634A (zh) | 一种联合相似性度量与视觉感知的色彩搭配评价方法 | |
CN111160464B (zh) | 基于多隐层加权动态模型的工业高阶动态过程软测量方法 | |
CN113392586B (zh) | 基于r语言、正交偏最小二乘判别分析的植物油鉴定方法 | |
Cocchi et al. | Chemometrics–Bioinformatics | |
Pluta et al. | Ridge‐penalized adaptive Mantel test and its application in imaging genetics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |