CN111125629A

CN111125629A - 一种域自适应的pls回归模型建模方法

Info

Publication number: CN111125629A
Application number: CN201911353268.2A
Authority: CN
Inventors: 陈孝敬; 黄光造; 石文; 袁雷明; 陈熙
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-08
Anticipated expiration: 2039-12-25
Also published as: CN111125629B

Abstract

本发明公开了一种域自适应的PLS回归模型建模方法，采用从原始域获取的近红外光谱数据构建原始域光谱中心化矩阵，采用从目标域获取的近红外光谱数据构建目标域光谱中心化矩阵，消除原始域和目标域光谱的均值差异，基于原始域光谱中心化矩阵和目标域光谱中心化矩阵，采用转移矩阵映射到核矩阵空间的方式，从中找到最优的投影方向，确定最优投影矩阵，基于最优投影矩阵构建得到最终的PLS回归模型，削弱不同域之间的投影得分和域标签的非独立性；优点是采用域自适应算法来消除不同域下所采集近光谱数据的差异，不需要采集目标域样本的浓度信息，从而简化了建模过程，使得构建的PLS回归模型的对目标域近红外光谱数据具有良好的预测精度。

Description

一种域自适应的PLS回归模型建模方法

技术领域

本发明涉及一种PLS回归模型建模方法，尤其是涉及一种域自适应的PLS回归模型建模方法。

背景技术

近红外光谱技术是一种简单、快速、可靠的检测技术。它综合运用了光谱技术、计算机技术、模式识别等多个学科的研究成果，以其独特的优势在多个领域得到了日益广泛的应用，并已逐渐得到大众的普遍接受和官方的认可。近红外光谱分析是一种间接的分析方法，往往需要构造反映近红外光谱数据和待分析样本属性关系的回归模型。其中，偏最小二乘(PLS)回归模型是最常用的多元回归模型。PLS能够消除光谱矩阵以及浓度矩阵里的噪声信息，取得较好的预测效果。

现有的偏最小二乘(PLS)回归模型在近红外光谱分析中的建模方法为：首先采集标准样本的近红外光谱数据和浓度数据来构造相应的近红外光谱数据矩阵和浓度向量，然后对近红外光谱矩阵进行分解，通过交叉验证法确定其最佳主成分数，最后利用偏最小二乘(PLS)回归法建立起近红外光谱矩阵与浓度向量之间的数学模型关系。

常规基于近红外光谱数据的偏最小二乘(PLS)回归模型建模方法需要采集标准样本的近红外光谱数据和浓度数据。但是，随着近红外光谱应用场景的复杂化，经常会遇到检测条件或仪器自身发生变化的情况，如样品检查温/湿度变化、样品形态改变、仪器老化和附件更换等，此时采集的标准样本的近红外光谱数据往往会发生吸光度差异和波长漂移，从而导致基于原始域(source domain，对应条件1状态下采集的近红外光谱数据)数据构建的偏最小二乘(PLS)回归模型对目标域(target domain，对应条件2 状态下采集的近红外光谱数据)数据的预测结果出现较大偏差。

发明内容

本发明所要解决的技术问题是提供一种域自适应的PLS回归模型建模方法，该建模方法不需要采集目标域样本的浓度信息，简化了建模过程，通过采用域自适应算法来消除不同域下所采集近光谱数据的差异,从而使得构建的PLS回归模型的对目标域近红外光谱数据具有良好的预测精度。

本发明解决上述技术问题所采用的技术方案为：一种域自适应的PLS回归模型建模方法，包括以下步骤：

步骤1、从原始域获取ns个近红光谱样本，ns为大于等于5的整数，采用ns个近红光谱样本构建得到原始域近红外光谱数据集{x_sq,y_sq|q＝1,2,…,ns}，其中x_sq为从原始域获取的第q个样本的近红光谱数据，y_sq为从原始域获取的第q个样本的浓度属性值；

从目标域获取nt个近红光谱样本，nt为大于等于5的整数，采用nt个近红光谱样本构建得到目标域近红外光谱数据集{x_tj|j＝1,2,…,nt}，其中x_tj是从目标域获取的第j个样本的近红外光谱数据；x_sq和x_tj分别为1行p列的向量，p为采集原始域近红光谱数据x_sq和目标域近红外光谱数据x_tj所使用的光谱仪器的波段数；

步骤2、采用原始域近红外光谱数据集中的近红光谱数据x_s1～x_sns构建得到原始域光谱矩阵X,

对原始域光谱矩阵X进行中心化处理，得到原始域光谱中心化矩阵，具体为：计算X中每行所有数据的均值，然后将X中每行数据中每列数据分别减去该行所有数据的均值，得到原始域光谱中心化矩阵X_s；

采用目标域近红外光谱数据集中的近红光谱数据x_t1～x_snt构建得到目标域光谱矩阵S,

对目标域光谱矩阵S进行中心化处理，得到目标域光谱中心化矩阵，具体为：计算S中每行所有数据的均值，然后将S中每行数据中每列数据分别减去该行所有数据的均值，得到目标域光谱中心化矩阵X_t；

采用原始域近红外光谱数据集中的浓度属性值y_s1～y_sns构建得到原始域浓度向量Y,

步骤3、设计核函数，将向量x和向量y的核函数记为k(x,y)，k(x,y)采用式(1) 表示为：

式(1)中，exp表示以自然对数为底数的指数函数，|| ||表示计算x和y之间的欧式距离，d表示核参数，利用式(1)和现有的核矩阵计算方法能够计算两个矩阵相应的核矩阵，将采用式(1)和现有的核矩阵计算方法计算得到的两个矩阵Q和D相应的核矩阵记为K(Q,D)；

步骤4、构建一个m+n行m+n列的类别标签矩阵，m＝nt，n＝ns，将该类别标签矩阵记为L，L采用式(2)表示为：

步骤5、构造转移矩阵，将该转移矩阵记为X_st，X_st采用式(3)表示为：

X_st＝[X_s→X_t] (3)

其中，X_s→X_t表示矩阵X_s和X_t中的数据按行纵向连接；

步骤6、构建中间矩阵，将该中间矩阵记为H,H采用式(4)表示为：

其中v是转移矩阵X_st的行数，I_v×v为包含v行v列元素的单位对角矩阵，1_v表示包含v列元素且所有元素都为1的列向量，上角标T表示矩阵的转置,/表示除运算符号；

步骤7、设定参数d，r和A的参数优化区间d∈[10^-5,10^-4,…10⁴,10⁵]，r∈[10^-5,10^-4,…10⁴,10⁵]，A∈[1,2,…14,15],构建参数组[d,r,A]，采用d、r和A的参数优化区间中所有参数进行组合，得到

个参数组[d,r,A]；

步骤8、设定投影矩阵W，对于步骤7得到的

个参数组[d,r,A]中的每一个参数组[d,r,A]，分别采用网格寻优的方法计算每个参数组相应的投影矩阵W，共得到

个投影矩阵W，具体过程为：

a、判断A是否等于1，根据判断结果进行如下操作：

如果A等于1，按照以下步骤进行：

a1-1、设定中间参数KS₁、Y₁、KT₁和B₁，采用公式(5)至公式(8)分别计算得到中间参数KS₁、Y₁、KT₁和B₁：

KS₁＝K(X_s,X_s) (5)

Y₁＝Y (6)

KT₁＝K(X_st,X_s) (7)

式(8)中，上角标T代表矩阵转置，K(X_s,X_s)表示矩阵X_s与矩阵X_s相应的核矩阵，采用式(1)和现有的核矩阵计算方法计算得到，K(X_st,X_s)表示矩阵X_st与矩阵X_s相应的核矩阵，采用式(1)和现有的核矩阵计算方法计算得到；

a1-2、设置中间参数w₁，将B₁的最大特征值所对应的特征向量赋值给w₁；

a1-3、将w₁作为利用本次参数组[d,r,A]计算得到的投影矩阵W；

如果A不等于1，按照以下步骤进行：

a2-1、按照步骤a1-1计算得到中间参数KS₁、Y₁、KT₁和B₁；

a2-2、采用步骤a1-2的方法得到中间参数w₁，将中间参数w₁作为第1代投影矩阵，完成投影矩阵的第1代赋值；

a2-3、设定中间参数t1₁、t2₁、p1₁、p2₁和c₁，采用式(9)至式(13)计算得到中间参数t1₁、t2₁、p1₁、p2₁和c₁：

t1₁＝KS₁w₁ (9)

t2₁＝KT₁w₁ (10)

其中，上角标-1代表矩阵求逆，上角标T表示矩阵的转置；

a2-4、设定代数变量i，对i进行初始化，令i等于2；

a2-5、对投影矩阵进行第i代赋值，具体为：

S1、设定中间参数KS_i、KT_i、Y_i和B_i，采用式(14)至式(17)计算得到中间参数 KS_i、KT_i、Y_i和B_i：

Y_i＝Y_i-1-c_it1_i-1 (16)

S2、设置中间参数w_i，将B_i的最大特征值所对应的特征向量赋值给w_i,将w_i作为第i代投影矩阵，完成投影矩阵的第i代赋值；

S3、设定中间参数t1_i、t2_i、p1_i、p2_i和c_i，采用式(18)至式(22)计算得到中间参数t1_i、t2_i、p1_i、p2_i和c_i c₁：

t1_i＝KS_iw_i (18)

t2_i＝KT_iw_i (19)

S4、判断i的值是否等于A，如果不等于，则采用i的当前值加1的和更新i的值后，返回步骤S1进行投影矩阵的下一代赋值，如果i的值等于A,则进入步骤a2-6；

步骤a2-6、将得到的w₁至w_A依次按列横向连接后作为利用本次参数组[d,r,A]计算得到的投影矩阵，W＝[w₁,…,w_A]；

步骤9、设定中间变量T_s和T_t，将步骤8得到的

个投影矩阵W分别代入公式(23)和(24)中进行计算，得到

个中间变量T_s和

个中间变量T_t：

T_s＝K(X_s,X_s)W (23)

T_t＝K(X_xt,X_s)W (24)

步骤10、将步骤9得到

个中间变量T_s分别作为自变量，Y作为因变量，得到

个由自变量和因变量构成的数据矩阵。

步骤11、通过5折交叉验证方法构建PLS回归模型，得到

个PLS回归模型，具体为：将采用

个中间变量T_s分别作为自变量，Y作为因变量得到的

个由自变量和因变量构成的数据矩阵随机均分为5部分，随机选取4部分采用交叉验证方法构建得到

个PLS回归模型；

步骤12、将步骤9得到的

个中间变量T_t作为自变量，与剩余1部分中的自变量合并在一起作为测试数据，对步骤11得到的

个PLS回归模型进行测试，连续测试4次，得到每个PLS回归模型的因变量Y的预测结果

和X_t所对应因变量的预测结果

其中预测结果

通过剩余1部分中的自变量得到，预测结果

通过作为自变量的中间变量T_t得到；

步骤13、定义PLS回归模型优化目标函数，该优化目标函数采用式(25)表示为：

式(25)中，Mean表示求向量的均值，std表示求向量的标准差，||表示取绝对值符号；

步骤14、将每个PLS回归模型对应的因变量Y、预测结果

以及预测结果

分别代入式(25)中进行计算，得到每个PLS回归模型对应的f的值；

步骤15、比较步骤14得到的所有f的值，将值最小的f对应的一组[d,r,A]采用步骤8的方法，计算得到相应的投影矩阵，将该投影矩阵作为最优投影矩阵，记为W_op，设定最优自变量，将其记为T_sop，采用T_sop＝K(X_s,X_s)W_op计算得到T_sop，以T_sop为自变量，以Y 作为因变量，构造最终的PLS回归模型。

与现有技术相比，本发明的优点在于通过采用从原始域获取的近红外光谱数据构建原始域光谱中心化矩阵，采用从目标域获取的近红外光谱数据构建目标域光谱中心化矩阵，消除原始域和目标域光谱的均值差异，然后基于原始域光谱中心化矩阵和目标域光谱中心化矩阵，采用转移矩阵映射到核矩阵空间的方式，从中找到最优的投影方向，确定最优投影矩阵，基于最优投影矩阵构建得到最终的PLS回归模型，从而削弱不同域之间的投影得分和域标签的非独立性，本发明方法通过采用域自适应算法来消除不同域下所采集近光谱数据的差异，不需要采集目标域样本的浓度信息，从而简化了建模过程，使得构建的PLS回归模型的对目标域近红外光谱数据具有良好的预测精度。

具体实施方式

以下结合实施例对本发明作进一步详细描述。

实施例：一种域自适应的PLS回归模型建模方法，包括以下步骤：

X_st＝[X_s→X_t] (3)

其中，X_s→X_t表示矩阵X_s和X_t中的数据按行纵向连接；

H＝I_v×v-(1/v)1_v1_vT (4)

步骤7、设定参数d，r和A的参数优化区间d∈[10^-5,10^-4,…10⁴,10⁵]， r∈[10^-5,10^-4,…10⁴,10⁵]，A∈[1,2,…14,15],构建参数组[d,r,A]，采用d、r和A的参数优化区间中所有参数进行组合，得到

个参数组[d,r,A]；

步骤8、设定投影矩阵W，对于步骤7得到的

个投影矩阵W，具体过程为：

a、判断A是否等于1，根据判断结果进行如下操作：

如果A等于1，按照以下步骤进行：

KS₁＝K(X_s,X_s) (5)

Y₁＝Y (6)

KT₁＝K(X_st,X_s) (7)

a1-3、将w₁作为利用本次参数组[d,r,A]计算得到的投影矩阵W；

如果A不等于1，按照以下步骤进行：

a2-1、按照步骤a1-1计算得到中间参数KS₁、Y₁、KT₁和B₁；

t1₁＝KS₁w₁ (9)

t2₁＝KT₁w₁ (10)

其中，上角标-1代表矩阵求逆，上角标T表示矩阵的转置；

a2-4、设定代数变量i，对i进行初始化，令i等于2；

a2-5、对投影矩阵进行第i代赋值，具体为：

Y_i＝Y_i-1-c_it1_i-1 (16)

t1_i＝KS_iw_i (18)

t2_i＝KT_iw_i (19)

步骤9、设定中间变量T_s和T_t，将步骤8得到的

个投影矩阵W分别代入公式(23)和(24)中进行计算，得到

个中间变量T_s和

个中间变量T_t：

T_s＝K(X_s,X_s)W (23)

T_t＝K(X_xt,X_s)W (24)

步骤10、将步骤9得到

个中间变量T_s分别作为自变量，Y作为因变量，得到

个由自变量和因变量构成的数据矩阵。

步骤11、通过5折交叉验证方法构建PLS回归模型，得到

个PLS回归模型，具体为：将采用

个中间变量T_s分别作为自变量，Y作为因变量得到的

个PLS回归模型；5折交叉验证方法为当前成熟的构建PLS回归模型的方法之一；

步骤12、将步骤9得到的

和X_t所对应因变量的预测结果

其中预测结果

通过剩余1部分中的自变量得到，预测结果

通过作为自变量的中间变量T_t得到；

式(25)中，Mean表示求向量的均值，std表示求向量的标准差，| |表示取绝对值符号；

步骤14、将每个PLS回归模型对应的因变量Y、预测结果

以及预测结果

采用本发明的域自适应的PLS回归模型建模方法对测试样本进行测试时，对于测试样本，获取其相应的近红外光谱x_t，将x_t当做一维的矩阵，设定自变量参数T_t，采用 T_t＝K(x_t,X_s)W_op计算得到T_t，然后将T_t作为自变量带入所构建的PLS模型即可得到x_t相应的因变量的预测结果。

Claims

1.一种域自适应的PLS回归模型建模方法，其特征在于包括以下步骤：

X_st＝[X_s→X_t] (3)

其中，X_s→X_t表示矩阵X_s和X_t中的数据按行纵向连接；

个参数组[d,r,A]；

步骤8、设定投影矩阵W，对于步骤7得到的

个投影矩阵W，具体过程为：

a、判断A是否等于1，根据判断结果进行如下操作：

如果A等于1，按照以下步骤进行：

KS₁＝K(X_s,X_s) (5)

Y₁＝Y (6)

KT₁＝K(X_st,X_s) (7)

a1-3、将w₁作为利用本次参数组[d,r,A]计算得到的投影矩阵W；

如果A不等于1，按照以下步骤进行：

a2-1、按照步骤a1-1计算得到中间参数KS₁、Y₁、KT₁和B₁；

t1₁＝KS₁w₁ (9)

t2₁＝KT₁w₁ (10)

其中，上角标-1代表矩阵求逆，上角标T表示矩阵的转置；

a2-4、设定代数变量i，对i进行初始化，令i等于2；

a2-5、对投影矩阵进行第i代赋值，具体为：

S1、设定中间参数KS_i、KT_i、Y_i和B_i，采用式(14)至式(17)计算得到中间参数KS_i、KT_i、Y_i和B_i：

Y_i＝Y_i-1-c_it1_i-1 (16)

t1_i＝KS_iw_i (18)

t2_i＝KT_iw_i (19)

步骤9、设定中间变量T_s和T_t，将步骤8得到的

个投影矩阵W分别代入公式(23)和(24)中进行计算，得到

个中间变量T_s和

个中间变量T_t：

T_s＝K(X_s,X_s)W (23)

T_t＝K(X_xt,X_s)W (24)

步骤10、将步骤9得到

个中间变量T_s分别作为自变量，Y作为因变量，得到

个由自变量和因变量构成的数据矩阵。

步骤11、通过5折交叉验证方法构建PLS回归模型，得到

个PLS回归模型，具体为：将采用

个中间变量T_s分别作为自变量，Y作为因变量得到的

个PLS回归模型；

步骤12、将步骤9得到的

和X_t所对应因变量的预测结果

其中预测结果

通过剩余1部分中的自变量得到，预测结果

通过作为自变量的中间变量T_t得到；

步骤14、将每个PLS回归模型对应的因变量Y、预测结果

以及预测结果

步骤15、比较步骤14得到的所有f的值，将值最小的f对应的一组[d,r,A]采用步骤8的方法，计算得到相应的投影矩阵，将该投影矩阵作为最优投影矩阵，记为W_op，设定最优自变量，将其记为T_sop，采用T_sop＝K(X_s,X_s)W_op计算得到T_sop，以T_sop为自变量，以Y作为因变量，构造最终的PLS回归模型。