CN107563448A

CN107563448A - 基于近红外光谱分析的样本空间聚类划分法

Info

Publication number: CN107563448A
Application number: CN201710811980.7A
Authority: CN
Inventors: 刘彤; 向轶; 许定舟; 曾永平; 肖青青; 凌亚东
Original assignee: Guangzhou Sondon Network Technology Co Ltd
Current assignee: Guangzhou Sondon Network Technology Co Ltd
Priority date: 2017-09-11
Filing date: 2017-09-11
Publication date: 2018-01-09
Anticipated expiration: 2037-09-11
Also published as: CN107563448B

Abstract

本发明公开了一种基于近红外光谱分析的样本空间聚类划分法，步骤是：对数据集中的近红外光谱进行聚类分析，聚为多个类别；从聚类后的每个类别中分别选取一定比例的训练集及测试集，判断训练集和测试集中的样品是否满足建模算法的要求，若满足，则聚类划分成功，确定最终的训练集及测试集，若不满足，则更新训练集及测试集，再次计算，直到聚类划分成功，或者满足失败条件。通过利用该方法划分后的样本集，能有效降低随机划分训练集与测试集造成的PLS算法最佳主因子数不稳定的情况；能在样本数量较大的情况下有效降低使用留一交叉验证法带来的时耗问题；能根据样本数量大小来调整聚类法中的类别数量，从而提升样本成功划分的几率。

Description

基于近红外光谱分析的样本空间聚类划分法

技术领域

本发明涉及近红外光谱分析研究领域，特别涉及一种基于近红外光谱分析的样本空间聚类划分法。

背景技术

目前，近红外光谱结合化学计量学方法用于定量和定性分析大都是采用同样一种模式，即基于一组已知样品建立校正模型。这一组已知样品称为训练集样品，通过这组样品的光谱及其对应基础数据(理化数据)，利用回归法或模式识别法建立定量或定性模型。对于待测样品，只需测定其光谱，根据已建的模型便可快速给出定量或定性结果。

以回归法中的PLS算法为例，该算法针对定量分析，实现的具体步骤是：

A1：将样品理化值设为标签、光谱设为特征集合。

A2：将样品集按一定比例分为训练集与测试集。

A3：为PLS算法设定最小主因子数及最大主因子数。其中主因子数需为正整数、不大于近红外光谱波长点数的一半、不大于训练集样本数量的一半。

A4：针对A3中设定的最小到最大主因子数范围内的n个主因子数，使用PLS算法为训练集建立回归模型。

A5：针对A4中建立的n个模型，对测试集进行理化值预测，得到n组预测值。

A6：分析A5中的n组预测值，得到n个模型评价参数(实际可选用预测标准偏差SEP)。

A7：找出A6中n个模型评价参数中最小的，将该参数对应的主因子数做为模型的PLS最佳主因子数F_best。

A8：使用A7中找出的最佳主因子数F_best，使用PLS算法为样品全集建立模型M_best。

A9：此时，该样品集的定量分析模型为M_best。

A10：检测时直接使用M_best对新光谱(特征集)进行理化值(标签)预测。

以模式识别法中的PLSDA算法为例，该算法针对定性分析，实现的具体步骤是：

B1：将正样品的标签设为1、负样品的标签设为0、光谱设为特征集合。

B2：将样品集按一定比例分为训练集与测试集。

B3：为PLS算法设定最小主因子数及最大主因子数。其中，主因子数需为正整数、不大于近红外光谱波长点数的一半、不大于训练集样本数量的一半。

B4：针对B3中设定的最小到最大主因子数范围内的n个主因子数，使用PLS算法为训练集建立回归模型。

B5：针对B4中建立的n个模型，对测试集进行理化值预测，得到n组预测值。

B6：分析B5中的n组预测值，得到n个模型评价参数(实际可选用预测标准偏差SEP)。

B7：找出B6中n个模型评价参数中最小的，将该参数对应的主因子数作为模型的PLS最佳主因子数F_best。

B8：使用B7中找出的最佳主因子数Fbest，使用PLS算法为样品全集建立模型M_best。

B9：此时，该样品集的定量分析模型为M_best。

B10：检测时使用M_best对新光谱(特征集)进行标签预测。

B11：若预测结果小于等于0.5则判定为负样本，若预测结果大于0.5则判定为正样本。

通过上述步骤可知，无论是PLS算法还是PLSDA算法均存在最佳主因子数选择的问题，而该因子数选择的准确性依赖于样品集的划分方法，目前对样品集的划分主要有两种方法，一种是随机划分法，另一种是留一交叉验证法。

随机划分法的步骤是：设定训练集与测试集的划分比例，如6：4。随机从总样本中取出60％的数据作为训练集，剩余的40％数据作为测试集。使用训练集建模，对测试集进行预测，得到测试集样本的预测值集合。通过预测值集合与对应的真实值，可计算预测标准偏差SEP。这种方法是随机划分训练集与测试集，容易造成PLS算法计算出的最佳主因子数不稳定。

留一交叉验证法的步骤是：设样本集中有样本i个，从样本集中选择第一个样本作为测试样本，剩余的为训练集。使用训练集建立模型，对测试样本进行预测，得到预测值P₁。对样本集中的每个样本，重复上述步骤，得到i个预测值(P₁，P₂，P₃，…，P_i)。通过这i个预测值与对应的真实值，可计算预测标准偏差SEP。这种方法需要将每一个样本单独列出进行计算，在样本数量较大(300以上)的情况下，建立模型需要的时间会非常长，时效性很差。

为此，研究一种能够准确划分训练集与测试集，使得通过上述样本能快速准确地建立模型的样本划分方法具有重要的实用价值。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于近红外光谱分析的样本空间聚类划分法，通过利用该方法划分后的样本集，可以提高后续建立模型的稳定性，以及降低时耗。

本发明的目的通过以下的技术方案实现：基于近红外光谱分析的样本空间聚类划分法，步骤是：对数据集中的近红外光谱进行聚类分析，聚为多个类别；从聚类后的每个类别中分别选取一定比例的训练集及测试集，判断训练集和测试集中的样品是否满足建模算法的要求，若满足，则聚类划分成功，确定最终的训练集及测试集，若不满足，则更新训练集及测试集，再次计算，直到聚类划分成功，或者满足失败条件。

具体的，包括步骤：

(1)设定聚类类别数k，对数据集中的近红外光谱进行聚类分析，聚为k个类别，得到k组数据集，保证每组数据集中至少包含1个样本；

(2)确定划分比例，从这k组数据集中的每个集合中都随机抽取同样比例的训练集数据，得到C1-Train,C2-Train,…,Ck-Train，每个集合中的剩余数据作为测试集，得到C1-Test,C2-Test,…Ck-Test；

(3)组合C1-Train,C2-Train,…,Ck-Train作为当前的训练集C-Train；

组合C1-Test,C2-Test,…Ck-Test作为当前的测试集C-Test；

(4)若当前建模方法是采用PLS算法进行定量分析，执行下述步骤：

(4-1)计算当前训练集C-Train对应理化数据的均值C-Train-Ave及标准差C-Train-Sd，计算当前测试集C-Test对应理化数据的均值C-Test-Ave及标准差C-Test-Sd；

(4-2)计算训练集与测试集理化值之间的均值误差AveError及标准差误差SdError；

(4-3)若AveError≤A1且SdError≤A2，说明聚类划分成功，将当前的C-Train、C-Test分别作为该样品集的最终训练集、最终测试集；否则，重新执行步骤(2)，再次按比例随机抽取数据，更新C-Train、C-Test，直到聚类划分成功，或者满足失败条件，终止聚类划分；

(5)若当前建模方法是采用PLSDA算法进行定性分析，执行下述步骤：

(5-1)统计训练集中正样本的数量Train(+)，测试集中正样本的数量Test(+)；

(5-2)若Train(+)占训练集总样本数量的B1％以上、B2％以下，且Test(+)占测试集总样本数量的B1％以上、B2％以下，聚类划分成功，将当前的C-Train作为该样品集的最终训练集，当前的C-Test作为该样品集的最终测试集；

(5-3)若Train(+)占训练集总样本数量的B1％以下或B2％以上，或Test(+)占测试集总样本数量的B1％以下或B2％以上，则重新执行步骤(2)，再次按比例随机抽取数据，更新C-Train、C-Test，直到聚类划分成功，或者满足失败条件，终止聚类划分。

优选的，所述步骤(1)中，采用kmeans算法对数据集中的近红外光谱进行聚类分析。

更进一步的，采用kmeans算法进行聚类分析的步骤是：

(1-1)初始化k个聚类中心坐标；

(1-2)计算每条光谱离各个聚类中心点的距离，并把它的类别归为与其距离最近的类别；

(1-3)根据每个类别中的光谱，重新计算该聚类中心的坐标；

(1-4)迭代步骤(1-2)-(1-3)，直至新的聚类中心与原聚类中心相等或相差小于一定阈值，聚类结束。

具体的，步骤(4)中，均值误差AveError及标准差误差SdError的计算公式如下：

CTrainAve、CTestAve、CTrainSd、CtestSd分别代表训练集C-Train的均值、测试集C-Test的均值、训练集C-Train的标准差、测试集C-Test的标准差。

优选的，步骤(4-3)中，若聚类划分成功，则使用得到的最终训练集、最终测试集进行PLS的最佳主因子数选择并建立模型；

若聚类划分失败，则使用传统留一交叉验证法来进行PLS的最佳主因子数选择，然后使用计算得出的最佳主因子数创建全集模型。

优选的，步骤(5-2)和(5-3)中，若聚类划分成功，则使用得到的最终训练集、最终测试集进行PLS的最佳主因子数选择并建立模型；

若聚类划分失败，则使用传统留一交叉验证法来进行PLS的最佳主因子数选择，然后使用计算得出的最佳主因子数创建全集模型；

建立模型后在检测时使用DA判别法，以0.5为界限划分正负样本。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明可有效降低随机划分训练集与测试集造成的PLS算法最佳主因子数不稳定的情况。

2、本发明可在样本数量较大(300以上)的情况下，有效降低使用留一交叉验证法带来的时耗问题。

3、本发明可根据样本数量大小，调整聚类法中的类别数量，从而提升样本成功划分的几率，例如可设定：

在定量分析时，满足训练集和测试集中的样品对应理化值的均值误差小于20％、标准差误差小于20％。

在定性分析时，满足训练集和预测集中的正样本数量不少于集合内总样本数量的20％、负样本数量不少于集合内总样本数量的20％。

附图说明

图1是实施例中聚类类别为2，划分比例为6：4时聚类划分的示意图。

图2是实施例中聚类类别为3，划分比例为5：5时聚类划分的示意图

图3是本发明的流程示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图3所示，本发明基于近红外光谱分析的样本空间聚类划分法，步骤是：对数据集中的近红外光谱进行聚类分析，聚为多个类别；从聚类后的每个类别中分别选取一定比例的训练集及测试集，判断训练集和测试集中的样品是否满足建模算法的要求，若满足，则聚类划分成功，确定最终的训练集及测试集，若不满足，则更新训练集及测试集，再次计算，直到聚类划分成功，或者满足失败条件。下面针对定量分析和定性分析两种建模算法进行具体说明。

一、针对定量分析

聚类划分的步骤如下：

1、设样本集中有i个样本，若i<100，则聚类类别为k＝2；若i≥100，则聚类类别为i/50取整。

2、采用kmeans算法对i个样本中的光谱(特征数据)进行聚类分析，该算法为：

2.1、初始化k个聚类中心坐标(k由步骤1确定)。

2.2、计算每条光谱离各个聚类中心点的距离，并把它的类别归为与其距离最近的类别。

2.3、根据每个类别中的光谱，重新计算该聚类中心的坐标。

2.4、迭代2.2-2.3步，直至新的聚类中心与原聚类中心相等或相差小于一定阈值，算法结束。

3、此时，有聚类后的k组数据集，C1,C1,…,Ck，每组数据集中都包含1到多个样本。

4、按照划分比例，从这k组数据集中的每个集合中都随机抽取同样比例的训练集数据C1-Train,C2-Train,…,Ck-Train，每个集合中的剩余数据作为测试集C1-Test,C2-Test,…Ck-Test。参见图1是聚类类别为2，划分比例为6：4时聚类划分的示意图。图2是聚类类别为3，划分比例为5：5时聚类划分的示意图，在具体应用中，可根据数据实际情况确定划分比例。

5、将各个集合中抽取的训练数据组合成样本的训练集C-Train，将各个集合中抽取的测试数据组合成样本的训练集C-Test。

6、计算训练集对应理化数据的均值C-Train-Ave及标准差C-Train-Sd，计算测试集对应理化数据的均值C-Test-Ave及标准差C-Test-Sd。

7、计算训练集与测试集理化值之间的均值误差及标准差误差：

8、若AveError≤0.2且SdError≤0.2，聚类划分法结束，C-Train作为该样品集的训练集，C-Test作为该样品集的训练集。

9、若AveError>0.2或SdError>0.2，重复步骤4-7，并再次计算均值误差及标准差误差，直到误差满足要求，聚类划分成功，或者50次迭代内未能满足划分条件，聚类划分失败，终止聚类划分。

10、若聚类划分成功，则使用步骤8或9中最后得到的训练集和测试集进行PLS的最佳主因子数选择并建立模型。

11、若聚类划分失败，则使用留一交叉验证法来进行PLS的最佳主因子数选择。使用计算得出的最佳主因子数创建全集模型。

二、针对定性分析

聚类划分的步骤如下：

2、采用kmeans算法对i个样本中的光谱(特征数据)进行聚类分析。

算法过程如下：

2.1、初始化k个聚类中心坐标(k由步骤1确定)。

2.3、根据每个类别中的光谱，重新计算该聚类中心的坐标。

4、按照划分比例，从这k组数据集中的每个集合中都随机抽取同样比例的训练集数据C1-Train,C2-Train,…,Ck-Train，每个集合中的剩余数据做为测试集C1-Test,C2-Test,…Ck-Test。参见图1、2。

6、统计训练集C-Train中正样本的数量Train(+)，测试集C-Test中正样本的数量Test(+)。

7、若Train(+)占训练集总样本数量的20％以上、80％以下，且Test(+)占测试集总样本数量的20％以上、80％以下，聚类划分结束，C-Train作为该样品集的训练集，C-Test作为该样品集的训练集。

8、若Train(+)占训练集总样本数量的20％以下或80％以上，或Test(+)占测试集总样本数量的20％以下或80％以上，重复步骤4-6，并再次统计Train(+)与Test(+)的比例，直到比例满足要求，聚类划分成功，或者50次迭代内未能满足划分条件，聚类划分失败，终止聚类划分。

9、若聚类划分成功，则使用步骤7或8中最后得到的训练集和测试集进行PLS的最佳主因子数选择并建立模型。

10、若聚类划分失败，则使用留一交叉验证法来进行PLS的最佳主因子数选择。使用计算得出的最佳主因子数创建全集模型。

11、预测时还需使用DA判别法，及以0.5为界限划分正负样本。

当然，为了保证准确性，若样本全集内的正样本数量本身不满足大于全集数量的30％且小于全集数量的70％，则直接跳到步骤11。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于近红外光谱分析的样本空间聚类划分法，其特征在于，步骤是：对数据集中的近红外光谱进行聚类分析，聚为多个类别；从聚类后的每个类别中分别选取一定比例的训练集及测试集，判断训练集和测试集中的样品是否满足建模算法的要求，若满足，则聚类划分成功，确定最终的训练集及测试集，若不满足，则更新训练集及测试集，再次计算，直到聚类划分成功，或者满足失败条件。

2.根据权利要求1所述的基于近红外光谱分析的样本空间聚类划分法，其特征在于，包括步骤：

(3)组合C1-Train,C2-Train,…,Ck-Train作为当前的训练集C-Train；

组合C1-Test,C2-Test,…Ck-Test作为当前的测试集C-Test；

3.根据权利要求2所述的基于近红外光谱分析的样本空间聚类划分法，其特征在于，所述步骤(1)中，采用kmeans算法对数据集中的近红外光谱进行聚类分析。

4.根据权利要求3所述的基于近红外光谱分析的样本空间聚类划分法，其特征在于，采用kmeans算法进行聚类分析的步骤是：

(1-1)初始化k个聚类中心坐标；

(1-3)根据每个类别中的光谱，重新计算该聚类中心的坐标；

5.根据权利要求2所述的基于近红外光谱分析的样本空间聚类划分法，其特征在于，步骤(4)中，均值误差AveError及标准差误差SdError的计算公式如下：

6.根据权利要求2所述的基于近红外光谱分析的样本空间聚类划分法，其特征在于，步骤(4-3)中，若聚类划分成功，则使用得到的最终训练集、最终测试集进行PLS的最佳主因子数选择并建立模型；

7.根据权利要求1所述的基于近红外光谱分析的样本空间聚类划分法，其特征在于，步骤(5-2)和(5-3)中，若聚类划分成功，则使用得到的最终训练集、最终测试集进行PLS的最佳主因子数选择并建立模型；