CN109115692B

CN109115692B - 一种光谱数据分析方法及装置

Info

Publication number: CN109115692B
Application number: CN201810725001.0A
Authority: CN
Inventors: 朱业伟; 曹江娜; 曾智朋; 王征; 王帅
Original assignee: Beijing Great Tech Technology Co ltd
Current assignee: Neil soft technology (Beijing) Co.,Ltd.
Priority date: 2018-07-04
Filing date: 2018-07-04
Publication date: 2021-06-25
Anticipated expiration: 2038-07-04
Also published as: CN109115692A

Abstract

本发明实施例公开了一种光谱数据分析方法及装置，方法包括：建立样本数据库，筛选待测样本的邻近光谱组，通过主成分累计贡献率对邻近光谱组进行降维，根据马氏距离之比确定目标邻近光谱组，选择相关相对预测误差最小的目标邻近光谱组为训练集样本对待测样本进行预测，确定样本数据库的代表性是否充足，不充足则将待测样本添加至样本数据库。通过使用分子光谱技术建立样本数据库，自动根据待测样本的光谱特征从样本数据库中选出最优的目标邻近光谱组，进一步预测待测样本的理化数据和确定样本数据库的代表性，实现了光谱数据分析流程和数据库更新的自动化，提高了预测准确度，免除了人工建立及维护模型的复杂工作，便于推广和应用分子光谱技术。

Description

一种光谱数据分析方法及装置

技术领域

本发明实施例涉及数据分析技术领域，具体涉及一种光谱数据分析方法及装置。

背景技术

分子光谱分析技术是利用物质分子和电磁波发生作用，从而对物质进行定性或定量分析的技术。分子光谱分析技术具有方便、快速、高效、准确、环境友好以及成本较低等优点，已被广泛应用于农业、石化产业、临床诊断、环境检测等领域。

该技术的应用也面临着一些严峻的挑战。由于分子光谱技术的检测结果是基于大量数据建立的多元校正模型进行预测，只有待测样本的特征或含量范围处于模型数据适用范围内才能保证预测的准确性。随着时间、地点、原料、环境等要素的变化，超出模型适用范围的样本会不断增多，需要持续不断地对原模型进行扩充更新，但光谱数据分析的工作需要相当专业的知识背景和经验，多数使用者都难以达到该条件，这成为推广应用分子光谱技术的主要瓶颈。

发明内容

由于现有方法存在上述问题，本发明实施例提出一种光谱数据分析方法及装置。

第一方面，本发明实施例提出一种光谱数据分析方法，包括：

根据各样本的分子光谱和理化参考值建立样本数据库，根据光谱距离建立待测样本与所述样本数据库中的若干个样本的邻近光谱组，并分别根据各邻近光谱组建立对应的矩阵；

对各矩阵进行主成分分析，计算得到各矩阵每个主成分对应的得分以及贡献率，并根据累计贡献率阈值对各矩阵进行筛选，得到若干个目标矩阵；

计算所述待测样本的光谱与所述若干个目标矩阵对应的邻近光谱组之间的马氏距离，根据各马氏距离计算得到拟合评价参数RRPE(Related Relative PredictionError，相关相对预测误差)；

选择RRPE最小的目标邻近光谱组，根据所述目标邻近光谱组预测所述待测样本的理化数据，并根据所述目标邻近光谱组的RRPE确定所述样本数据库对所述待测样本的代表性是否充足；

若判断获知所述样本数据库的代表性不充足，则将所述待测样本添加至所述样本数据库，完成数据库的自动更新。

可选地，所述根据光谱距离建立待测样本与所述样本数据库中的若干个样本的邻近光谱组，并分别根据各邻近光谱组建立对应的矩阵，具体包括：

根据K最近邻分类算法KNN计算出所述样本数据库的样本中与所述待测样本的光谱距离最近的i个光谱，组成邻近光谱组NSS_i，计算出所述样本数据库的样本中与所述待测样本的光谱距离最近的(i+1)个光谱，组成邻近光谱组NSS_i+1，以此类推，计算出所述样本数据库的样本中与所述待测样本的光谱距离最近的(i+n)个光谱，组成邻近光谱组NSS_i+n，并根据NSS_i、NSS_i+1、……、NSS_i+n分别建立对应的矩阵；

其中，i为大于等于10的整数，n为正整数。

可选地，所述根据马氏距离计算得到拟合评价参数相关相对预测误差RRPE，具体包括：

分别计算各邻近光谱组的马氏距离之比MDr_i:

MDr_i＝Max(D_i,D₁₀)/Min(D_i,D₁₀)

其中，D₁₀表示所述待测样本的光谱到NSS₁₀的距离；

筛选得到小于设定阈值的目标MDr_i，并对各目标MDr_i对应的邻近光谱组和所述待测样本进行拟合，得到拟合评价参数相关相对预测误差RRPE。

可选地，所述选择RRPE最小的目标邻近光谱组，根据所述目标邻近光谱组预测所述待测样本的理化数据，并根据所述目标邻近光谱组的RRPE确定所述样本数据库对所述待测样本的代表性是否充足，具体包括：

选择RRPE最小的目标邻近光谱组为自变量，所述待测样本光谱为因变量进行回归拟合得到回归系数，并根据所述回归系数预测所述待测样本的理化数据；

若所述目标邻近光谱组的RRPE大于或等于预设的右阈值，则确定所述样本数据库的代表性不足，待测样本的预测结果需要验证，且提示当前样本数据库需要更新；

若所述目标邻近光谱组的RRPE小于所述右阈值且大于预设的左阈值，则确定所述样本数据库的代表性正常，可满足待测样本的预测需求；

若所述目标邻近光谱组的RRPE小于或等于所述左阈值，则确定所述样本数据库的代表性充足，样本数据库无需更新。

可选地，所述分子光谱包括：紫外光谱、可见光谱、近红外光谱、中红外光谱或太赫兹光谱，所述分子光谱的光谱范围为10nm-3mm。

可选地，所述各矩阵主成分的累计贡献率阈值的范围为0.9-0.95和0.95-0.99。

可选地，所述回归拟合的算法包括：多元线性回归算法、主成分回归算法、偏最小二乘回归算法、人工神经网络算法和支持向量机回归算法的任意组合。

第二方面，本发明实施例还提出一种光谱数据分析装置，包括：

矩阵建立模块，用于根据各样本的分子光谱和理化参考值建立样本数据库，根据光谱距离建立待测样本与所述样本数据库中的若干个样本的邻近光谱组，并分别根据各邻近光谱组建立对应的矩阵；

主成分分析模块，用于对各矩阵进行主成分分析，计算得到各矩阵每个主成分对应的得分以及贡献率，并根据累计贡献率阈值对各矩阵进行筛选，得到若干个目标矩阵；

距离计算模块，用于计算所述待测样本的光谱与所述若干个目标矩阵对应的邻近光谱组之间的马氏距离，根据各马氏距离计算得到拟合评价参数相关相对预测误差RRPE；

样本判断模块，用于选择RRPE最小的目标邻近光谱组，根据所述目标邻近光谱组预测所述待测样本的理化数据，并根据所述目标邻近光谱组的RRPE确定所述样本数据库对所述待测样本的代表性是否充足；

数据库更新模块，用于若判断获知所述样本数据库的代表性不充足，则将所述待测样本添加至所述样本数据库，完成数据库的自动更新。

第三方面，本发明实施例还提出一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述方法。

第四方面，本发明实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行上述方法。

由上述技术方案可知，本发明实施例通过使用分子光谱技术建立样本数据库，并自动根据待测样本的光谱特征从样本数据库中选出最优的目标邻近光谱组，根据目标邻近光谱组的相关相对预测误差(RRPE)预测待测样本的理化数据，并确定所述样本数据库的代表性，当代表性不充足时将待测样本添加至样本数据库，实现了光谱数据分析流程和数据库更新的自动化，提高了预测准确度，免除了人工建立及维护模型的复杂工作，便于推广和应用分子光谱技术。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明一实施例提供的一种光谱数据分析方法的流程示意图；

图2为本发明另一实施例提供的一种光谱数据分析方法的流程示意图；

图3为本发明一实施例提供的一种邻近光谱组的构建流程示意图；

图4为本发明一实施例提供的传统方法、KNN方法和本发明方法三种方法的流程对比图；

图5为本发明一实施例提供的一种光谱数据分析装置的结构示意图；

图6为本发明一实施例提供的电子设备的逻辑框图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

图1示出了本实施例提供的一种光谱数据分析方法的流程示意图，包括：

S101、根据各样本的分子光谱和理化参考值建立样本数据库，根据光谱距离建立待测样本与所述样本数据库中的若干个样本的邻近光谱组，并分别根据各邻近光谱组建立对应的矩阵。

其中，所述分子光谱包括：紫外光谱、可见光谱、近红外光谱、中红外光谱或太赫兹光谱，所述分子光谱的光谱范围为10nm-3mm。

具体地，收集不少于50个彼此相互独立的样本，测定每个样本的分子光谱，再用参考方法测定每个样本需要预测的理化参考值，将样本分子光谱与其测定的理化数据一一对应，建立样本数据库。

S102、对各矩阵进行主成分分析，计算得到各矩阵每个主成分对应的得分以及贡献率，并根据累计贡献率阈值对各矩阵进行筛选，得到若干个目标矩阵。

其中，所述各矩阵主成分的累计贡献率阈值的范围为0.9-0.95和0.95-0.99。

需要说明的是，各矩阵主成分的累计贡献率阈值的范围可设定在90％到99％之间。优选阈值为95％，即当矩阵的主成分累计贡献率阈值大于等于0.95时，可筛选为目标矩阵。

S103、计算所述待测样本的光谱与所述若干个目标矩阵对应的邻近光谱组之间的马氏距离，根据各马氏距离计算得到拟合评价参数相关相对预测误差RRPE。

S104、选择RRPE最小的目标邻近光谱组，根据所述目标邻近光谱组预测所述待测样本的理化数据，并根据所述目标邻近光谱组的RRPE确定所述样本数据库对所述待测样本的代表性是否充足。

S105、若判断获知所述样本数据库的代表性不充足，则将所述待测样本添加至所述样本数据库，完成数据库的自动更新。

本实施例通过使用分子光谱技术建立样本数据库，并自动根据待测样本的光谱特征从样本数据库中选出最优的目标邻近光谱组，根据目标邻近光谱组的相关相对预测误差(RRPE)预测待测样本的理化数据，并确定所述样本数据库的代表性是否充足，当代表性不充足时将待测样本添加至样本数据库，实现了光谱数据分析流程和数据库更新的自动化，提高了预测准确度，免除了人工建立及维护模型的复杂工作，便于推广和应用分子光谱技术。

进一步地，在上述方法实施例的基础上，S101中所述根据光谱距离建立待测样本与所述样本数据库中的若干个样本的邻近光谱组，并分别根据各邻近光谱组建立对应的矩阵，具体包括：

根据K最近邻分类算法KNN计算出所述样本数据库的样本中与所述待测样本的光谱距离最近的i个光谱，组成邻近光谱组NSS_i，计算出所述样本数据库的样本中与所述待测样本的光谱距离最近的(i+1)个光谱，组成邻近光谱组NSS_i+1，以此类推，计算出所述样本数据库的样本中与所述待测样本的光谱距离最近的(i+n)个光谱，组成邻近光谱组NSS_i+n，并根据NSS_i、NSS_i+1、……、NSS_i+n分别建立对应的矩阵。

其中，i为大于等于10的整数，n为正整数。

进一步地，S103中所述根据马氏距离计算得到拟合评价参数相关相对预测误差RRPE，具体包括：

S1031、分别计算各邻近光谱组的马氏距离之比(Mahalanobis Distance ratio，MDr)MDr_i:

MDr_i＝Max(D_i,D₁₀)/Min(D_i,D₁₀)

其中，D₁₀表示所述待测样本的光谱到NSS₁₀的距离。

S1032、筛选得到小于设定阈值的目标MDr_i，并对各目标MDr_i对应的邻近光谱组和所述待测样本进行拟合，得到拟合评价参数相关相对预测误差RRPE。

具体地，参见图2，首先获取待测样本和待测样本的理化数据，根据K最近邻分类算法KNN计算出所述样本数据库的样本中与所述待测样本的光谱距离最近的i个光谱，组成邻近光谱组并建立对应的矩阵；分别对各矩阵做主成分分析，计算各矩阵每个主成分对应的得分以及贡献率和累计贡献率。

其中，设定主成分的累计贡献率阈值，以不小于所设定的主成分累计贡献率阈值所需维数的主成分得分矩阵为基础。

然后分别计算待测样本光谱与NSS_i、NSS_i+1、……、NSS_i+n之间的马氏距离，记为D_i、D_i+1、……、D_i+n，参见图3。

接着构建参数邻近光谱组间马氏距离之比，依次计算每个邻近光谱组的MDr值，当MDr大于或等于设定阈值时，停止计算，取前面MDr小于设定阈值的邻近光谱组做后续数据分析。

需要说明的是，MDr存在阈值，阈值范围可设定在1到10之间，优选阈值为2：当首次出现MDr≥2时，停止计算，取前面MDr小于2的邻近光谱组做后续计算。

最后以待测样本光谱为因变量，各目标MDr_i对应的邻近光谱组分别作为自变量，对其进行拟合。构建拟合评价参数相关相对预测误差(Related Relative PredictionError，RRPE)，具体公式为：

RRPE＝(RMSECV/Mean×100)/R_cv

其中，RMSECV表示光谱拟合时交互验证均方根偏差，Mean表示待测样本光谱所有波长点响应强度的平均值，所述响应强度可以是吸光度、反射率、透过率原始数据或预处理数据；R_cv表示交互验证结果和参考方法测定结果之间的相关系数。

对光谱数据进行预处理的方法包括：基线校正(Base-Line Correction,BLC)、标准正态变换(Standard Normal Variate,SNV)、多元散射校正(Multiplicative ScatterCorrection,MSC)、SG求导(Savitzky-Golay Derivative,SGD)、SG平滑(Savitzky-GolaySmoothing,SGS)、中心化(Center)和归一化(Normalization)的任意组合。

本实施例通过收集样本光谱和理化数据，建立样本数据库，可以用K最邻近算法从数据库中挑选距离待测样本最近的光谱，组建多个邻近光谱组，通过邻近光谱组间马氏距离之比排除距离待测样本较远的邻近光谱，再根据相关相对预测误差最小原则选择训练集样本，用训练集光谱对待测样本光谱拟合求得回归系数，进而计算出待测样本理化数据，并用RRPE评价数据库中与待测样本类似的样本的状态信息。与现有类似方法相比，预测结果更加准确，能自动判断当前数据库是否适用于待测样本，并且免除了人工建立及维护模型的复杂工作，降低了技术应用门槛。

进一步地，在上述方法实施例的基础上，S104具体包括：

S1041、选择RRPE最小的邻近光谱组为训练集样本，以所述训练集样本光谱为自变量，待测样本光谱为因变量进行回归拟合，得到回归系数，并根据所述回归系数预测所述待测样本的理化数据。

其中，所述回归拟合的算法包括：多元线性回归算法(Multiple LinearRegression，MLR)、主成分回归算法(Principal Component Regression,PCR)、偏最小二乘回归算法(Partial Least Square Regression,PLSR)、人工神经网络算法(ArtificialNeural Network,ANN)和支持向量机回归算法(Surport Vector Regression,SVR)的任意组合。

S1042、若所述目标邻近光谱组的RRPE大于或等于预设的右阈值，则确定所述待测样本的代表性不足，待测样本的预测结果需要验证，且提示当前样本数据库需要更新。

S1043、若所述目标邻近光谱组的RRPE小于所述右阈值且大于预设的左阈值，则确定所述待测样本的代表性正常，可满足待测样本的预测需求。

S1044、若所述目标邻近光谱组的RRPE小于或等于所述左阈值，则确定所述待测样本的代表性充足，样本数据库无需更新。

具体地，参见图2，选择RRPE最小的邻近光谱组为训练集，并把训练集样本量定义为k；以训练集样本的光谱为自变量，待测样本光谱为因变量进行回归拟合，通过回归系数和训练集理化数据计算待测样本相关理化数据，输出预测结果；样本状态判断：RRPE设定左阈值、右阈值(左阈值<右阈值)。若最优邻近光谱组的RRPE值大于或等于设定的右阈值，则提示样本数据库中相对于当前待测样本的代表性不足，当前待测样本不在数据库可测范围内，需用参考方法化验相关理化数据并录入数据库中；如果RRPE值在左阈值和右阈值之间，则说明样本数据库相对于当前待测样本的代表性正常；如果RRPE值小于或等于左阈值，则说明样本数据库相对于当前待测样本的代表性充足。

需要说明的是，所述RRPE存在左阈值和右阈值，阈值建议设置在0到1之间，若RRPE≤左阈值，则说明数据库相对于待测样本代表性充足，预测结果稳定可靠；若左阈值＜RRPE＜右阈值，则说明数据库相对于当前待测样本代表性正常；若右阈值≤RRPE，则说明数据库相对于当前待测样本代表性不足，需进一步做人工理化分析验证并录入数据库中。

在本实施例中，对于待测样本，首先利用KNN原理从样本数据库中筛选邻近样本，组成邻近样本组；其次依据本发明参数MDr做出判断，选择MDr小于设定阈值的邻近光谱组；再以待测样本光谱为因变量，以选出的邻近样本组为自变量，进行回归拟合，根据RRPE最小原则，确定最优邻近光谱组和k值；用最优邻近光谱组作为训练集，以训练集和待测样本计算得到待测样本理化数据，并根据最优邻近光谱组RRPE阈值提示用户是否需要更新数据库。实现近红外样品预测及数据库更新流程的完全自动化。

目前出现了一些基于KNN的方法，可以做到建立好数据库后，输入待测样本光谱，就可以自动从数据库中挑选出给定数量的训练集进行预测，一定程度上也减少了人工建模工作。但对于不同待测样本，这些方法选择的训练集样本数量往往是同样的，这未必是最优的；另外，这些方法不能识别出待测样本是否超出选中训练集的适用范围，更不能自动给出提示信息，此时仍然需要使用者有适当的技术及经验基础进行人工判断，从而难以实现流程自动化。

如图4为本实施例提供的传统方法、KNN方法和本发明方法三种方法的流程对比图，其中，传统方法通过收集样本数据建立模型，并根据建立的模型进行预测；KNN方法收集样本数据后，固定K值，选择训练集样本进行拟合计算，确定拟合系数，进行结果预测；本发明方法收集样本数据后，通过KNN方法选择多个邻近光谱组，进行MDr和RRPE计算，确定K值，选择训练样本进行拟合计算，确定拟合系数，得到预测结果后，通过RRPE值进行判断，并将获取的参考值反馈至样本。

与传统方法和目前的KNN方法相比，本发明方法通过确定参数MDr和RRPE，实现近红外光谱数据分析的流程自动化，免除了近红外技术中人工建立及维护模型的复杂工作，降低了技术的应用门槛；同时根据RRPE值给出数据库中类似样本状态信息，对新的待测样本是否需要添加到数据库中做出诊断，为数据库的更新提供了量化指标。

由此，本发明方法使用分子光谱技术将不再需要人工建立模型，只需要录入足够量的数据形成数据库即可。自动根据待测样本光谱的特征从数据库中选出最优邻近光谱组，以最优邻近光谱组作为训练集和待测样本光谱进行计算，得出待测样本的理化数据。同时相比于目前给定训练集数量的方法，本发明方法对于每个待测样本光谱重新挑选训练集，动态确定训练集中光谱数量，对待测样本光谱的拟合效果更佳。另外，本发明方法还可利用最优邻近光谱组对待测样本进行评价。当待测样本超出设定评价阈值时，提示使用者预测结果超范围，需要将该光谱及对应的化验值录入以完成数据库的升级。

为实现对光谱数据分析方法的详细说明，本实施例应用手持近红外光谱仪，对烟草中的总糖和还原糖指标进行分析，说明本发明所提出方法对提高所分析指标的预测准确性的实用性。

A1、获取样本数据

获取样本数据采用手持近红外光谱仪MicroNIR^TM OnSite，该光谱仪核心分光元件为线性渐变滤光片，检测器为128像元InGaAs检测器，分辨率小于中心波长1.25％；波长范围900nm-1700nm，共125个波长变量；单个样本在不同的位置扫描5次，取平均光谱作为该样品的特征光谱。

用手持近红外光谱仪对145个批次的烟草样本进行扫描，获取145个样本的光谱，并用烟草行业标准YC/T 159-2002方法测定样本的总糖和还原糖参考值。

A2、数据计算

获取的145组数据，随机选择其中的30个作为验证集V，剩余115个作为样本数据库S，利用样本数据库对验证集进行预测计算，并与化验值进行比较。

根据本发明，每次计算一个验证集样本V_t(t＝1，2，……，30)，首先用KNN欧式距离法，从样本数据库S中找到距离光谱V_t最近的10到30条光谱，分别组成邻近光谱组，共21个不同邻近光谱组。各邻近光谱组分别与验证光谱V_t组成矩阵，对各矩阵做主成分分析，得到矩阵的主成分得分、贡献率和累计贡献率。提取累计贡献率达到95％所需的主成分，利用得分分别计算验证光谱V_t与21个邻近光谱组之间的马氏距离，记为D₁₀和D_i(i＝11，12，……，30)。根据公式

MDr_i＝Max(D_i,D₁₀)/Min(D_i,D₁₀)

计算D_i与D₁₀的比值MDr，首次出现MDr≥2时，停止计算，选择MDr小于2的邻近光谱组。

计算选中的各邻近光谱组的RRPE值，选定该值最小时对应的邻近光谱组作为训练集，其对应的样本量为k，以训练集的光谱作为自变量，待测样本光谱为因变量，用偏最小二乘回归(Partial Least Squares Regression，PLSR)拟合，得到拟合回归系数，回归系数分别与训练集样本的总糖和还原糖相乘，得到验证光谱V_t的总糖和还原糖的化学值。

根据RRPE值对样本在样本数据库中状态进行判断，RRPE左阈值、右阈值设定为0.25和0.50，当RRPE≤0.25时表明样本数据库相对于该测试样本的代表性充足，0.25＜RRPE＜0.5时，表明样本数据库中相对于该待测样本的代表性正常，RRPE≥0.5时，表明样本数据库中相对于该待测样本的代表性不足，自动将该样本的光谱数据添加至样本数据库，并提示用户添加该样本的总糖和还原糖数据至样本数据库对样本数据库进行升级。

为了验证本发明中通过MDr和RRPE自动确定训练集样本数量k(10≤k≤30)的实际应用效果，以给定训练集样本数为参考(k分别取10、15、20、25、30)，比较本发明方法预测的准确度。选择与待测样本光谱距离最近的给定k值的样本光谱作为训练集，代入本发明中计算，其他步骤不变化，计算结果与本发明计算结果比较。

A3、结果分析

计算结果见下表1：

表1 烟草样品总糖和还原糖验证结果一览表

需要说明的是，表中的偏差均以偏差的绝对值为计算依据。

由表1中可以看出，总糖和还原糖的平均偏差控制在0.30和0.24，相对平均偏差达到3.15％，2.92％，整体预测偏差较小，满足工业生产要求。

表1中的RRPE值反映了验证样本所代表的该类样本在样本数据库中数量情况，并间接反映了预测偏差。RRPE≤0.25时，说明样本数据库相对于该测试样本的代表性充足，样本数据库能够很好地表征该类样本的信息；0.25＜RRPE＜0.5时，说明样本数据库相对于该测试样本的代表性正常，可适当添加。而RRPE≥0.5时，说明样本数据库相对于该测试样本的代表性不足，所选样本不能很好地表征该类样本信息，预测偏差较大，提示需用参考方法化验相关理化数据并录入数据库中。表中样本状态一栏，充足，说明样本数据库对该待测样本的代表性充足；正常，说明本校数据库对该待测样本的代表性正常；不足，说明样本数据库对该待测样本的代表性不足。

表2是本发明中的动态训练集样本数量法与目前的给定训练集样本数量法的平均偏差比较：

表2 动态训练集样本数量与给定训练集样本数量平均偏差对比

由表2中可以看出，与传统KNN方法相比，本发明方法对于未知样品的测定结果更加准确，总糖和还原糖的平均偏差控制在0.30和0.24，相对平均偏差达到3.15％，2.92％，整体预测偏差较小，满足工业生产要求。

由本实施例可以看出，相比于传统建模方法，本发明方法免除了人工建模过程，减少了工作量，降低了分子光谱技术的使用门槛；相比于目前给定训练集样本量的KNN方法，本发明方法通过参数MDr和RRPE选择拟合度最高的训练集，提高了预测结果的稳健性、准确性，并能够利用数据库对待测样本分析，更新自身数据库，进一步提升自动化水平。

在另一实施例中，以在线近红外光谱仪在饲料生产线上的应用为例，在线分析饲料样品中的水分，粗蛋白和粗脂肪，说明本发明所提出方法对提高所分析指标的预测准确性的实用性。

B1、获取样本数据

获取样本数据采用国产在线近红光谱仪OLNIR-1700，该光谱仪核心分光元件为线性渐变滤光片，检测器为128像元InGaAs检测器，分辨率小于中心波长1.25％，波长范围900nm-1700nm，共125个波长变量；单个样本扫描3次取平均值作为该样本的特征光谱，采样间隔2秒钟；背景校正采用镀金板作为标准物，校正间隔时间为30分钟。

用在线近红外光谱仪OLNIR-1700对饲料生产线上193个批次的饲料进行扫描，获取193个批次样本的光谱，并分别参照国标GBT 6435-2014，GBT 6432-94，GBT 6433-2006对样本中的水分、粗蛋白、粗脂肪三项指标值进行化验，建立饲料样本数据库。对在线近红外光谱仪获得的样本进行分析和预测，并随机取样验证，共取得44个验证样本。

B2、数据分析过程

获取的193个样本数据作为样本库数据，当有饲料流经在线近红外光谱仪监测窗口时，光谱仪启动扫描，根据本发明，首先采用标准正态变量变换方法(Standard NormalVariate，SNV)对数据库样本和未知样本预处理，消除样本本身的颗粒及形态造成的偏差，再用KNN欧氏距离法，计算样本数据库S中距离未知光谱V_t(t＝1，2，……，44)最近的10到30条光谱，分别组成邻近光谱组，共21个。各邻近光谱组分别与验证光谱V_t组成矩阵，对各矩阵做主成分分析，得到矩阵的主成分得分和累积贡献率。提取累计贡献率达到95％的前a个主成分，利用得分分别计算验证光谱V_t与21个邻近光谱组之间的

马氏距离，记为D₁₀和D_i(i＝11，12，……，30)。根据公式

MDr_i＝Max(D_i,D₁₀)/Min(D_i,D₁₀)

计算D_i与D₁₀的比值MDr，首次出现MDr≥2时，停止计算，选择MDr小于2的邻近光谱组计算。

计算选中的各邻近光谱组的RRPE值，选定该值最小时对应的邻近光谱组为训练集样本，用多元线性回归(Multiple Linear Regression，MLR)拟合未知光谱，得到拟合回归系数，回归系数分别与训练集样本的水分，粗蛋白，粗脂肪相乘，得到未知光谱V_t相应的化学值。

根据RRPE值对样本在样本数据库中状态进行判断，RRPE左阈值、右阈值设定为0.25和0.50，当RRPE≤0.25时表明样本数据库相对于该测试样本的代表性充足，0.25＜RRPE＜0.5时，表明样本数据库中相对于该待测样本的代表性正常，RRPE≥0.5时，表明样本数据库中相对于该待测样本的代表性不足。

为了验证本发明中通过MDr和RRPE自动确定训练集样本数量k(10≤k≤30)的实际效果，以给定训练集样本数为参考(k分别取10、15、20、25、30)，通过预测准确度进行比较。选择与待测样本光谱距离最近的给定k值的样本光谱作为训练集，代入本发明中计算，其他步骤不变化，计算结果与本发明计算结果比较。

B3、结果分析

44个验证样本的预测值与参考值对比结果如表3所示。水分、粗蛋白和粗脂肪的平均偏差分别为0.133、0.419、0.130，44个未知样本分析预测值与化验值对比，三项指标的预测值与化验值的绝对偏差基本控制在0.5以内。

表3 饲料预测与化验结果对比

需要说明的是，上表中的偏差均以偏差的绝对值为计算依据。

表4是动态训练集样本数量法与给定训练集样本数量法的平均偏差比较。训练集样本对未知样本光谱拟合度越高，残差越小，待测样本理化指标预测结果偏差越小。

表4 不同训练集样本数量平均偏差对比

从表4可以看出，给定训练集样本数量，未能充分考虑不同未知样本与拟合光谱之间的拟合度，不同样本采用相同的样本数量进行拟合，预测偏差较大。本发明对不同的未知样本，根据参数MDr和RRPE挑选出不同数量的训练集，充分考虑了不同样本的差异性，同时本发明提出的RRPE值能很好的反映拟合光谱与未知光谱的拟合程度，RRPE值越小拟合度越高，对未知光谱预测偏差越小。由实施例二可知，本发明方中动态选择k值的方法，在实际应用中，预测偏差在可接受范围内，满足使用要求；同时，与目前的给定k值的KNN方法相比，本发明方法通过动态选择k值，能够充分考虑不同样本的差异性，与未知样本的拟合程度高，总体预测效果更好。

图5示出了本实施例提供的一种光谱数据分析装置的结构示意图，所述装置包括：矩阵建立模块501、主成分分析模块502、距离计算模块503、样本判断模块504和数据库更新模块505，其中：

所述矩阵建立模块501用于根据各样本的分子光谱和理化参考值建立样本数据库，根据光谱距离建立待测样本与所述样本数据库中的若干个样本的邻近光谱组，并分别根据各邻近光谱组建立对应的矩阵；

所述主成分分析模块502用于对各矩阵进行主成分分析，计算得到各矩阵每个主成分对应的得分以及贡献率，并根据累计贡献率阈值对各矩阵进行筛选，得到若干个目标矩阵；

所述距离计算模块503用于计算所述待测样本的光谱与所述若干个目标矩阵对应的邻近光谱组之间的马氏距离，根据各马氏距离计算得到拟合评价参数相关相对预测误差RRPE；

所述样本判断模块504用于选择RRPE最小的目标邻近光谱组，根据所述目标邻近光谱组预测所述待测样本的理化数据，并根据所述目标邻近光谱组的RRPE确定所述样本数据库对所述待测样本的代表性是否充足。

数据库更新模块505，用于若判断获知所述样本数据库的代表性不充足，则将所述待测样本添加至所述样本数据库，完成数据库的自动更新。

具体地，所述矩阵建立模块501根据各样本的分子光谱和理化参考值建立样本数据库，根据光谱距离建立待测样本与所述样本数据库中的若干个样本的邻近光谱组，并分别根据各邻近光谱组建立对应的矩阵；所述主成分分析模块502对各矩阵进行主成分分析，计算得到各矩阵每个主成分对应的得分以及贡献率，并根据累计贡献率阈值对各矩阵进行筛选，得到若干个目标矩阵；所述距离计算模块503计算所述待测样本的光谱与所述若干个目标矩阵对应的邻近光谱组之间的马氏距离，根据各马氏距离计算得到拟合评价参数相关相对预测误差RRPE；所述样本判断模块504选择RRPE最小的目标邻近光谱组，根据所述目标邻近光谱组预测所述待测样本的理化数据，并根据所述目标邻近光谱组的RRPE确定所述样本数据库对所述待测样本的代表性是否充足。数据库更新模块505若判断获知所述样本数据库的代表性不充足，则将所述待测样本添加至所述样本数据库，完成数据库的自动更新。

本实施例通过使用分子光谱技术建立样本数据库，并自动根据待测样本的光谱特征从样本数据库中选出最优的目标邻近光谱组，根据目标邻近光谱组的各参数相关相对预测误差(RRPE)预测待测样本的理化数据，并确定所述样本数据库的代表性是否充足，当代表性不充足时将待测样本添加至样本数据库，实现了光谱数据分析的流程自动化，提高了预测准确度，免除了人工建立及维护模型的复杂工作，便于推广和应用分子光谱技术。

本实施例所述的光谱数据分析装置可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

参照图6，所述电子设备，包括：处理器(processor)601、存储器(memory)602和总线603；

其中，

所述处理器601和存储器602通过所述总线603完成相互间的通信；

所述处理器601用于调用所述存储器602中的程序指令，以执行上述各方法实施例所提供的方法。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种光谱数据分析方法，其特征在于，包括：

计算所述待测样本的光谱与所述若干个目标矩阵对应的邻近光谱组之间的马氏距离，根据马氏距离计算得到拟合评价参数相关相对预测误差RRPE；

若判断获知所述样本数据库的代表性不充足，则将所述待测样本添加至所述样本数据库，完成数据库的自动更新；

所述选择RRPE最小的目标邻近光谱组，根据所述目标邻近光谱组预测所述待测样本的理化数据，并根据所述目标邻近光谱组的RRPE确定所述样本数据库对所述待测样本的代表性是否充足，具体包括：

2.根据权利要求1所述的方法，其特征在于，所述根据光谱距离建立待测样本与所述样本数据库中的若干个样本的邻近光谱组，并分别根据各邻近光谱组建立对应的矩阵，具体包括：

其中，i为大于等于10的整数，n为正整数。

3.根据权利要求1所述的方法，其特征在于，所述根据马氏距离计算得到拟合评价参数相关相对预测误差RRPE，具体包括：

分别计算各邻近光谱组的马氏距离之比MDr_i:

MDr_i＝Max(D_i,D₁₀)/Min(D_i,D₁₀)

其中，D₁₀表示所述待测样本的光谱到NSS₁₀的距离；

4.根据权利要求1-3任一项所述的方法，其特征在于，所述分子光谱包括：紫外光谱、可见光谱、近红外光谱、中红外光谱或太赫兹光谱，所述分子光谱的光谱范围为10nm-3mm。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述各矩阵主成分的累计贡献率阈值的范围为0.9-0.95和0.95-0.99。

6.根据权利要求1所述的方法，其特征在于，所述回归拟合的算法包括：多元线性回归算法、主成分回归算法、偏最小二乘回归算法、人工神经网络算法和支持向量机回归算法的任意组合。

7.一种光谱数据分析装置，其特征在于，包括：

数据库更新模块，用于若判断获知所述样本数据库的代表性不充足，则将所述待测样本添加至所述样本数据库，完成数据库的自动更新；

所述样本判断模块，具体用于选择RRPE最小的目标邻近光谱组为自变量，所述待测样本光谱为因变量进行回归拟合得到回归系数，并根据所述回归系数预测所述待测样本的理化数据；

8.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行如权利要求1至6任一所述的方法。