CN112881333A

CN112881333A - 一种基于改进免疫遗传算法的近红外光谱波长筛选方法

Info

Publication number: CN112881333A
Application number: CN202110045592.9A
Authority: CN
Inventors: 高美凤; 陶焕明; 于力革
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-06-01
Anticipated expiration: 2041-01-13
Also published as: CN112881333B

Abstract

本发明公开了一种基于改进免疫遗传算法的近红外光谱波长筛选方法，属于近红外光谱检测技术领域。所述方法通过采用自适应相似度阈值、引入精英保留策略、引入贪心算法思想对免疫遗传算法进行改进，使得算法朝着正确的方向进行局部性探索，最终达到全局最优。在实际近红外光预测物质含量时，存在精度低的问题，将该方法应用到近红外光谱波长筛选中，能够有效的筛选出与被测物质浓度密切相关的波段，使得波段变量与所测理化值之间的联系更紧密，在预测物质的含量时，可以大大提升模型预测含量的精度。

Description

一种基于改进免疫遗传算法的近红外光谱波长筛选方法

技术领域

本发明涉及一种基于改进免疫遗传算法的近红外光谱波长筛选方法，属于近红外光谱检测技术领域。

背景技术

在石油化工工业过程检测领域中，需要检测油类，化学物品等成分质量，检测过程不仅要求较快的检测速度及对被测物质进行无损检测，而且还要求较高的检测精度。近红外光谱分析技术的出现满足了上述要求。

近红外光谱分析检测技术相较于传统的人工检测技术具有快速、无损以及低成本的优势，已经广泛运用在食品、生物医学制药、农业、石油化工等领域。但由于被测物质中的化学基团只可能被某些近红外光谱波段吸收，即被测物质浓度并不与光谱全谱波长信息相关，与之相关的有效信息仅仅存在于全谱信息中的一部分。因此对采集到的全光谱数据进行变量选择可以大大减小预测模型，有效防止预测模型出现过拟合现象，加快预测速度，增强模型的鲁棒性，同时，也能提升预测准确率。所以如何快速有效地提取出有用光谱信息，即光谱变量选择，是近红外光谱技术研究的重点之一。

目前，许多国内外研究学者提出大量基于不同原理策略的光谱变量选择方法。现有的波长筛选算法主要有：以全谱PLS模型的某些参数作为光谱变量选择依据的方法，例如无信息变量消除法(UVE)对回归系数设定阈值限制来选择有效变量；以光谱区间为筛选对象的方法，例如移动窗口偏最小二乘(MWPLS)、向前和向后间隔偏最小二乘(FB-iPLS)等；以智能算法为核心进行波长组合优化的方法，比如遗传算法(GA)、粒子群算法(PSO)、蚁群算法(ACO)等。

上述各种方法中，GA算法是一种模拟自然进化过程搜索最优解的方法，将问题的求解转换成类似生物进化中的染色体基因的交叉、变异、复制等过程，模拟了种群个体对环境的适应度大小的不同，进行优胜劣汰，通过不断的迭代更新，种群个体对环境的适应度不断提升，最终达到群体适应度的最佳表现。但GA算法在算法迭代后期，种群个体之间的差异性会越来越小，会导致算法陷入局部最优。

针对算法迭代后期会陷入局部最优的问题，刘鑫等(刘鑫,冒智康,张小鸣等.基于改进遗传算法的区间光谱特征波长变量选择方法[J].江苏大学学报(自然科学版),2020,41(3):321-327)提出了一种基于改进遗传算法的区间光谱特征波长变量选择方法，采用一种改进的实数编码差分变异算子对GA算法进行改进，扩大了全局最优解搜索空间，提高收敛速度，也缓解了局部最优的问题。

免疫遗传算法(IGA)在GA算法的基础上引入了生物免疫机制，本质也是对GA算法的一种改进。在抗体(个体)对环境的适应度中引入了抗体浓度，促使抗体浓度越高，适应度反遭抑制，维持了种群中个体的多样性，有效防止算法陷入局部最优。

但是无论是上述“基于改进遗传算法的区间光谱特征波长变量选择方法”，还是基于引入了生物免疫机制的免疫遗传算法的近红外光谱波长选择方法，在实际应用中都有待于进一步改进，以能够筛选出包含更多与被测物质相关的有效信息的近红外光谱波长、从而达到更准确的对被测物质的相关信息进行预测的目的。

发明内容

为了筛选出包含更多与被测物质相关的有效信息的近红外光谱波长、从而达到更准确的对被测物质的相关信息进行预测的目的，本发明提供了一种基于改进免疫遗传算法的近红外光谱波长筛选方法，所述方法包括：

S1初始化种群：在种群中设置N个个体，作为抗体；将需筛选的近红外光谱波段均分为L个波段，每个波段包括多个波长点；每个波段对应抗体上的一个基因位，按照0-1形式对抗体的基因进行随机编码；1表示选中该波段，0表示未选中该波段；

S2计算S1初始化的每个抗体的亲和度：对抗体的基因进行随机编码后，将选中的波段与对应的理化值进行PLS建模，得到校正集均方根误差RMSEC和相关系数R，根据校正集均方根误差RMSEC和相关系数R为变量计算每个抗体的亲和度；

S3初始化记忆细胞：另设M个个体，用于存放后续更新迭代过程中亲和度最高的抗体，作为记忆细胞进行存储；并且对其基因进行0-1随机编码；

S4计算抗体相似度：计算S1初始化的各个抗体与其他抗体的相似程度；

S5自适应相似阈值并计算S1初始化的各个抗体的抗体浓度d_i：抗体浓度d_i指抗体相似个数c_i和群体总个数N的比值；所述相似阈值为当抗体浓度标准差达到最大值时的相似度；

S6计算聚合适应度：将亲和度和抗体浓度融合成聚合适应度；

S7对亲和度最优个体的基因进行局部性探优，即随机改变亲和度最优个体的一个基因位，并且保证改变之后该个体的亲和度大于改变之前的亲和度；如果改变之后该个体的亲和度小于改变之前的亲和度，则恢复被改变的基因位，再随机重取一个基因位进行改变，直到改变之后该个体的亲和度大于改变之前的亲和度；所述亲和度最优个体为N个抗体中亲和度最高的抗体；

S8更新记忆细胞：重新计算N+M个抗体中每个抗体的亲和度，选取最高的M个个体作为记忆细胞，作为记忆细胞储存起来，记忆细胞中的抗体直接以概率为1复制到下一代种群中；

S9进行遗传操作：通过轮盘赌选择法进行基因的复制；

S10更新迭代：迭代次数达到K的时候，选取种群中亲和度最优个体作为最终候选个体；最终候选个体中编码为1对应的波段作为最终筛选波段。

可选的，所述S4采用海明距离作为抗体相似度的度量方法。

可选的，所述抗体相似度的计算公式为：

其中，Ab(p_i,p_j)表示抗体p_i和p_j的相似度，L为抗体基因编码长度；

f(p_i,p_j)表示抗体p_i和p_j之间的海明距离；

分别表示第i个抗体的第k位基因位和第j个抗体的第k位基因位；

即为中间变量。

可选的，所述S2中亲和度计算公式为：

可选的，所述S6将亲和度和抗体浓度融合成聚合适应度包括：

根据下式计算聚合适应度：

PZ＝λZ+(1-λ)exp(-μd_i) (6)

其中，λ，μ为分别反映亲和度和抗体浓度期望被选择到下一代的相对重要性的参数。

可选的，所述S9包括：

第i个抗体通过轮盘赌选择法进行基因的复制，被选择进行遗传复制操作的概率表示为P_i：

其中，PZ_i为第i个抗体对应的聚合适应度，PZ_j为第j个抗体对应的聚合适应度，N为种群大小；

通过单点交叉对种群各抗体进行交叉处理；所述单点交叉指交换两个抗体的部分基因值；设定交叉概率为Pc，设定变异概率Pm；对于0-1基因链码，随机挑选c个基因位，以变异概率Pm对挑选的c个基因位上的值取反，即0变1，1变0。

可选的，所述抗体浓度d_i的计算公式为：

其中，c_i表示第i个抗体对应的抗体相似个数，N表示群体总个数。

可选的，所述需筛选的近红外光谱波段为采用马氏距离剔除异常数据后的光谱波段。

可选的，λ取0.7，μ取1.25。

可选的，设定交叉概率Pc取0.85，设定变异概率Pm取0.05。

本发明有益效果是：

通过提出自适应相似度阈值取代现有方法中固定抗体相似度阈值，克服了可能存在的阈值过大或者过小而导致抗体浓度不具备差异性，使引入的抗体浓度失去意义从而可能导致预测不准的问题；本申请通过采用自适应相似度阈值，所选取的相似度阈值使得群体抗体浓度的标准差达到最大，完全体现出抗体浓度的差异性。同时引入精英保留策略，将亲和度高的若干个抗体存入到记忆细胞中，直接复制到下一代中。并且引入贪心算法思想，由局部最优扩展到全局最优。将每一次迭代中的亲和度最优基因随机反转一位基因位进行局部性探优，并且保证探优之后的基因亲和度值大于原先的最优基因，然后将探优成功之后的基因替换本次迭代中亲和度最差基因。使得算法朝着正确的方向进行局部性探索，最终达到全局最优。该方法应用到近红外光谱波长筛选中，能够有效的提取出有用波段，从而根据所提取的有用波段实现对于被测物质的相关信息更准确的进行预测的目的。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例中提出的基于改进IGA算法进行筛选波长的方法流程图。

图2是本发明一个实施例中所选用的各个数据样本点到数据中心点的马氏距离分布图。

图3是本发明一个实施例中所选用的数据集剔除异常样本之后的原始光谱图。

图4是本发明一个实施例中提出的改进IGA算法在迭代的过程中，最优波段的亲和度示意图。

图5是本发明一个实施例中分别采用IGA和本申请提出的改进IGA算法对光谱数据进行波长筛选，测试50次的预测均方差值的对比示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一：

本实施例提供一种基于改进免疫遗传算法的近红外光谱波长筛选方法，所述方法包括：

S9进行遗传操作：通过轮盘赌选择法进行基因的复制；

实施例二：

本实施例提供一种基于改进免疫遗传算法的近红外光谱波长筛选方法，参见图1，所述方法包括：

步骤一：初始化种群。

在种群中设置N个个体，作为算法模型中抗体角色。将需筛选的近红外光谱波段均分为L个波段，每个波段包括多个波长点，每个波段对应抗体上的一个基因位，按照0-1形式对抗体的基因进行随机编码，1表示选中该波段，0表示未选中。

步骤二：计算每个抗体的亲和度。

对抗体基因进行随机编码后，将选中的波段与对应的理化值进行PLS建模，得到校正集均方根误差RMSEC和相关系数R，亲和度就是以建模得到的校正集均方根误差(RMSEC)和相关系数(R)为变量的函数值。

亲和度计算公式为：

将选中的波段与对应的理化值进行PLS建模，得到校正集均方根误差RMSEC和相关系数R的内容可参考“路敏.基于近红外光谱的梨的可溶性固形物含量的无损检测.2019.Master's Thesis.兰州大学.”中的介绍。

步骤三：初始化记忆细胞。

在种群中另外设置M个个体，作为算法模型中记忆细胞角色，并且对其基因进行0-1随机编码，同时计算其亲和度。由于种群的选择具有不确定性，可能造成最优个体的丢失。因此后续更新迭代过程中每次迭代就将亲和度最高的M个个体，作为记忆细胞储存起来。

步骤四：计算抗体相似度。

抗体相似度就是抗体与其他抗体之间的相似程度，其度量方法有基于信息熵的、基于欧氏距离的、基于基因值距离的以及基于海明距离。其中海明距离主要用于计算离散编码，符合本发明的0-1编码形式。因此，本发明采用海明距离作为抗体相似度的度量方法。

海明距离计算公式如下所示：

Ab(p_i,p_j)表示抗体p_i和p_j的相似度，L为抗体基因编码长度，f(p_i,p_j)表示抗体p_i和p_j之间的海明距离；

即为中间变量。

步骤五：自适应相似阈值并计算抗体浓度。

抗体浓度用与第i个抗体相似的抗体个数总数c_i与群体总个数N进行表示。当两个抗体之间的相似度达到一定的阈值的时候，就判定两个抗体相似。本发明采用自适应相似阈值对抗体进行相似判定。

抗体浓度为抗体相似个数c_i和群体总个数N的比值，用d_i来表示，即：

自适应相似阈值指的是阈值从种群中抗体相似度最小值遍历至最大值，当群体抗体浓度标准差达到最大时，即抗体浓度差异性最大时对应的抗体相似度作为最终自适应相似度阈值。

步骤六：计算聚合适应度。

将亲和度和抗体浓度融合成聚合适应度。在种群更新的过程中，抗体被选择的概率与聚合适应度成正比。因此，聚合适应度也反映了亲和度与抗体浓度在种群更新中的影响力。亲和度越高的个体，聚合适应度也越高；抗体浓度越高的个体应该被抑制，保证种群的多样性，因此聚合适应度越低。

聚合适应度为：

PZ＝λZ+(1-λ)exp(-μd_i) (6)

式中λ，μ为常数，其反映了亲和度和抗体浓度期望被选择到下一代的相对重要性的参数。

步骤七：引入贪心思想。

对亲和度最优个体的基因进行局部性探优，即随机改变亲和度最优个体的一个基因位，并且保证改变之后该个体的亲和度大于改变之前的亲和度；如果改变之后该个体的亲和度小于改变之前的亲和度，则恢复被改变的基因位，再随机重取一个基因位进行改变，直到改变之后该个体的亲和度大于改变之前的亲和度；所述亲和度最优个体为N个抗体中亲和度最高的抗体；如果重取次数达到上限值，则将原先亲和度最优个体直接替换亲和度最差个体。

步骤八：更新记忆细胞。重新计算群体中个体的亲和度，选取最高的M个个体作为记忆细胞，作为记忆细胞储存起来，记忆细胞中的抗体直接以概率为1复制到下一代种群中。

步骤九：进行遗传操作。

通过轮盘赌选择法进行基因的复制。在轮盘赌中，个体是根据概率随机选的，概率最低的也有可能被选。种群中个体被选择的概率与对应的聚合适应度成正比，即聚合适应度越高的个体被选择的概率越大，反之，聚合适应度越低的个体被选择的概率越小。然后通过单点交叉对种群个体进行交叉处理。

设定交叉概率为Pc，单点交叉操作就是交换两个个体的部分基因值。最后设定变异概率Pm，对于0-1基因链码，随机挑选c个基因位，以变异概率Pm对这些基因位上的值取反，即0变1，1变0。

遗传操作中第i个抗体被选择的概率可表示为P_i：

式中，PZ_i为第i个抗体对应的聚合适应度，N为种群大小。

步骤十：更新迭代。迭代次数达到K的时候，选取种群中最优个体作为最终候选个体。选出其对应的波段作为最终筛选波段。

实施例三

本实施例提供一种淀粉含量值预测方法，所述方法采用实施例一或二中给出的基于改进免疫遗传算法的近红外光谱波长筛选方法实现对于光谱波段的筛选。

本实施例以应用在一组标准玉米近红外光谱数据集为例进行说明，该光谱数据集引用自eigenvector网站上开源的玉米样本光谱数据集，地址https://eigenvector.com/resources/data-sets/。该光谱数据集包括80个玉米样品，分别用三台光谱仪器测得(m5,mp5,mp6)。波长范围为1100-2498nm，间隔为2nm(700变量)，包括每个样品的水分、油、蛋白质和淀粉值。这些数据最初是在Cargill公司采集的。本次实验数据采用该数据集中用设备mp5所采集到的样本数据以及对应的淀粉含量值。所述方法包括：

步骤一：异常点剔除及样本集划分。

考虑到仪器测量光谱数据时产生误差而得到异常光谱，会影响模型性能，故先用马氏距离剔除光谱中异常数据。

图2为各个数据样本点到数据中心点的马氏距离分布图，由图2可得，第75号和77号样本的马氏距离过远，因此将这两个样本作为异常样本剔除。图3为剔除异常样本之后的原始光谱图。采用K-S法将剩余的78个样本点分成校正集和预测集。划分结果为校正集样本50个，预测集样本为28个。

校正集和预测集淀粉含量值统计如表1。由表1可知，校正集样本与预测集样本的平均值和标准差相差不大，通过K-S方法划分数据集保证了校正集样本均匀分布。

表1：校正集和预测集淀粉含量值统计表

步骤二：初始化种群。

在种群中设置N个个体，作为算法模型中抗体角色。将需筛选的近红外光谱波段均分为L个波段，每个波段包括多个波长点，每个波段对应抗体上的一个基因位，按照0-1形式对其进行随机编码，1表示选中该波段，0表示未选中。

步骤三：计算亲和度。

对抗体基因进行编码后，将选中的波段与对应的理化值进行PLS建模，亲和度就是以建模得到的校正集均方根误差(RMSEC)和相关系数(R)为变量的函数值，本发明设定亲和度如式1所示。

步骤四：初始化记忆细胞。

在种群中另外设置M个个体，作为算法模型中记忆细胞角色，并且对其基因进行0-1随机编码，同时计算其亲和度。由于种群的选择具有不确定性，可能造成最优个体的丢失。因此将亲和度最高的M个个体，作为记忆细胞储存起来，直接以概率为1复制到下一代种群中。

步骤五：计算抗体相似度。

相似度就是抗体与其他抗体之间的相似程序，其度量方法有基于信息熵的、基于欧氏距离的、基于基因值距离的以及基于海明距离。其中海明距离主要用于计算离散编码，符合本发明的0-1编码形式。因此，本发明采用海明距离作为抗体相似度的度量方法，公式如下所示。

其中，Ab(p_i,p_j)表示抗体p_i和p_j的相似度，L为抗体基因编码长度。f(p_i,p_j)表示抗体p_i和p_j之间的海明距离；

分别表示第i个抗体的第k位基因位和第j个抗体的第k位基因位。

即为中间变量。

步骤六：自适应相似阈值计算抗体浓度。

抗体浓度用与第i个抗体相似的抗体个数总数c_i与群体总个数N的比值d_i来表示

当两个抗体之间的相似度达到一定的阈值的时候，就判定两个抗体相似。本发明采用自适应相似阈值对抗体进行相似判定，阈值从群体抗体相似度最小值遍历至最大值，当群体抗体浓度标准差达到最大时，即抗体浓度差异性最大时的阈值作为最终自适应相似度阈值。

步骤七：计算聚合适应度。

PZ＝λZ+(1-λ)exp(-μd_i) (6)

式中λ，μ为某一常数，其反映了亲和度和浓度期望被选择到下一代的相对重要性的参数。

步骤八：引入贪心思想。

对亲和度最优个体基因进行局部性探优，即随机改变一个基因位并且保证改变之后的亲和度大于原先的个体，如果小于等于原先的个体，那就恢复那个改变了的基因位，再随机重取一个基因位进行改变，直到改变之后的亲和度大于原先的个体。如果重取次数达到上限值，则将原先亲和度最优个体直接替换亲和度最差个体。

步骤九：更新记忆细胞。

重新计算群体中个体的亲和度，选取最高的M个个体作为记忆细胞，作为记忆细胞储存起来，直接以概率为1复制到下一代种群中。

步骤十：进行遗传操作。

通过轮盘赌选择法进行基因的复制。在轮盘赌中，个体是根据概率随机选的，概率最低的也有可能被选。种群中个体被选择的概率与对应的聚合适应度成正比，即聚合适应度越高的个体被选择的概率越大，反之，聚合适应度越低的个体被选择的概率越小。被选择的概率可表示为

式中，PZ_i为第i个体对应的聚合适应度，N为种群大小。

然后通过单点交叉对种群个体进行交叉处理；设定交叉概率为Pc，单点交叉操作就是交换两个个体的部分基因值。最后设定变异概率Pm，对于0-1基因链码，随机挑选c个基因位，以变异概率Pm对这些基因位上的值取反，即0变1，1变0。

步骤十一：更新迭代。

迭代次数达到K的时候，选取种群中最优个体作为最终候选个体。选出其对应的波段作为最终筛选波段。

本实施例中将原光谱共700个波长点数划分为175个区间，每个区间包含4个波长点，即遗传编码长度为4。设定种群个数为50个，交叉概率为0.85，变异概率为0.05，记忆细胞数目为8，最大迭代次数K为100。设定式6中参数λ为0.7，μ为1.25。

根据基因选出的波段建立PLS模型，进化迭代获取最大亲和度值所对应的优选子区间组合。图4显示的是算法在迭代过程中，最优波段对应的亲和度值。

本实施例将经典的近红外光谱波长筛选算法GA算法(即GA-PLS)、IGA算法(即IGA-PLS)、本发明提出的改进IGA算法以及全谱PLS(即F-PLS)做建模效果比较。其中，GA算法和IGA算法设定的参数与本发明提出的改进IGA算法一致。适应度(即亲和度)函数保持一致如式1所示。在种群进化过程中寻找最大迭代次数内进化过程中最优适应度个体。由于GA算法、IGA算法和本发明提出的改进IGA算法具有随机性，因此将此三种算法分别运行50次求平均。

图5为IGA、改进IGA算法分别对光谱数据进行波长筛选，测试50次的预测均方差值对比图。由图5可得，本发明提出的改进之后的IGA算法较原IGA算法RMSEP更小，RMSEP越小，则表明预测精度有所提升。

表2为经典的近红外光谱波长筛选算法GA(GA-PLS)、IGA(IGA-PLS)、本发明提出的改进IGA算法以及全谱PLS(F-PLS)比较结果，其中，Rc表示校正集相关系数；RMSEC表示校正集均方根误差；Rp表示预测集相关系数；RMSEP表示预测集均方根误差。相关系数越高，均方根误差越低，表明预测精度越高。

表2

由表2可得，GA、IGA、改进IGA算法较全谱PLS对于模型预测精度都有大幅提升，全谱PLS的RMSEP为0.3914。其中IGA算法是对GA算法的一个改进，该算法的RMSEP为0.3153，Rp为0.9186，在预测精度上相较于GA算法对应的RMSEP值0.3209，Rp值0.9154有了不小提升。

而本发明提出的改进IGA算法的RMSEP为0.2987，Rp为0.9274，相比于IGA算法的RMSEP值0.3153，Rp值0.9186有了明显的提升。因此，本发明提出的改进IGA算法相比于IGA算法能有效的提升模型预测精度。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。