CN117789038B

CN117789038B - 一种基于机器学习的数据处理与识别模型的训练方法

Info

Publication number: CN117789038B
Application number: CN202410205784.5A
Authority: CN
Inventors: 张镇; 靖婉琦; 刘晨甲; 王兆信; 谢东明; 宋光恒; 孙德润; 徐如明
Original assignee: Shuju Shandong Intelligent Technology Co ltd; Liaocheng Laike Intelligent Robot Co ltd
Current assignee: Shuju Shandong Intelligent Technology Co ltd; Liaocheng Laike Intelligent Robot Co ltd
Priority date: 2024-02-26
Filing date: 2024-02-26
Publication date: 2024-05-10
Anticipated expiration: 2044-02-26
Also published as: CN117789038A

Abstract

本发明提出一种基于机器学习的数据处理与识别模型的训练方法，属于数据处理技术领域，首先，采集土壤信息，并标注训练样本，用于模型的训练，对数据进行降维操作，然后通过一种基于快速聚类的SMOTE样本生成方法进行样本扩充，接下来采用神经网络对数据进行特征提取，提出一种基于搜索算子算法优化的神经网络模型对神经元的参数进行优化，避免了传统神经网络参数优化方法带来的梯度消失和梯度***现象，最后提出一种基于改进随机森林的机器学习分类模型对高光谱数据进行分类，在决策树训练阶段，通过评估每棵决策树的分类性能，有效提高分类器的分类精度；本发明所设计的算法具有较高的检测精度，同时具有较高的鲁棒性能和泛化能力。

Description

一种基于机器学习的数据处理与识别模型的训练方法

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于机器学习的数据处理与识别模型的训练方法。

背景技术

土壤重金属元素难以被自然环境降解，重金属污染治理难度大、危害性强。因此实时的监控土壤重金属污染状况，可以及时避免污染区域扩散，防止土壤重金属污染进一步加重。传统识别土壤重金属污染的方法是通过野外采集土壤并由实验室进行化学分析判断某区域内的污染状况，虽然识别精度准确，但是分析周期长，花费大量的人力和物力，难以满足宏观区域实时监测需求。随高光谱遥感以及相关领域的发展，为迅速监测宏观区域中土壤重金属污染带来了解决途径。高光谱遥感具有迅速、动态、无破坏性的特点，将高光谱遥感应用于土壤重金属污染领域可以满足大范围实时监测的需求。高光谱图像空间信息可以反映出物体外部的物理空间结构信息，如纹理特征、几何特征等；光谱信息反映出物体内部化学组成成分变化。无论是实验室内测量的单点高分辨率光谱波段还是由卫星或机载的方式获得的高光谱图像，这些光谱波段中包含大量的被测量物体的信息，但是相邻光谱波段具有相关性较高的特点，大量信息冗余会增加特征提取的难度。且土壤成分复杂并且重金属元素含量较低，导致其在土壤光谱中的响应微弱。因此如何在复杂的众多光谱波段中有效提取重要特征信息是高光谱领域重要研究内容。

现有技术中专利号为CN202110651965.7的发明专利提出一种基于高光谱成像和支持向量机技术的原状土壤剖面碳组分预测方法，基于各样本位置预设深度土壤剖面样本的高光谱图像的获得，以目标样本光谱区域对应土壤碳组分类型的各个特征光谱波段为输入，目标样本光谱区域所对应该土壤碳组分类型的土壤碳组分数据为输出，通过训练，获得该土壤碳组分类型所对应的土壤碳组分预测模型，进而实现对目标区域土壤剖面碳组分的预测；整个设计方案可以快速、准确地预测原状土壤剖面有机碳、可溶性碳、易氧化碳和土壤微生物量碳等组分含量，并实现精细化绘制它们在土壤剖面上的空间分布；弥补了传统实验室化学分析方法存在的不足。

现有技术中专利号为CN201910717696.2的发明专利提出一种基于航空高光谱的土地质量监测方法，包括以下步骤：步骤1、采集土地质量监测区的航空高光谱数据，并野外采集土地质量监测区的样品进行重金属元素含量分析；步骤2、对航空高光谱数据进行预处理；步骤3、重建航空高光谱数据光谱消除各种大气成分造成的地物光谱的辐射畸变；步骤4、提取航空高光谱遥感数据中采样点航空高光谱图像光谱；步骤5、光谱变换及相关系数分析，获得其含量与土壤光谱参量之间的相关系数，找出特征光谱的敏感波段；步骤6、建立航空高光谱数据反演土地质量监测模型，得到监测的土壤养分及金属元素含量数据。本发明应用时可准确地获得大范围的土地基础数据，能减少工作量，缩短土地质量监测周期，降低成本。

现有技术中专利号为CN201510119440.3的发明专利提出一种土壤属性高光谱识别技术方法，涉及土壤勘探技术领域。该方法包括：S1，基于遥感卫星数据，获取不同时间的土壤高光谱图像；S2，进行图像预处理后，经过监督分类得到裸露土壤，提取所述裸露土壤的地表反射率，依据所述裸露土壤的地表反射率建立裸露土壤地表反射率反演模型；S3，设计室内土壤侵蚀性试验，获取与所述土壤高光谱图像获得时间相对应的土壤可蚀性数据；S4，通过步骤S3获得的土壤可蚀性数据，获取土壤分类并计算土壤K值；S5，根据所述土壤K值和所述地表反射率反演模型中的光谱数据，建立影响可蚀性K的土壤属性的高光谱模型。该发明解决了高光谱遥感技术不能用于测定土壤可蚀性的问题。

以上现有技术虽然能够实现对土壤的污染程度进行识别，但现有方法在模型设计和数据处理方面仍需进一步改进，尤其是在提高检测精度、模型的鲁棒性和泛化能力方面需要进一步优化。

发明内容

针对上述技术问题，本发明采用的技术方案为：一种基于机器学习的数据处理与识别模型的训练方法，包括以下步骤：

S1、土壤数据采集，并标注训练样本，用于模型训练；

S2、数据降维，将相关系数较大的高维特征变量重新组合，形成低维的线性无关的一组变量；

S3、样本扩充，在少数样本的类别中生成新的样本，降低样本类别不均衡现象；

S4、对S3中的数据进行特征提取，提出一种基于搜索算子算法优化的神经网络模型对神经元的参数进行优化，本步骤采用的神经网络层数为2层，基于搜索算子算法优化的神经网络模型中的搜索算子算法对参数进行搜索；

S5、训练分类器机器学习模型；

S6、应用训练好的模型进行土壤重金属污染程度，使用带标记的样本对上述模型进行训练，模型训练完成后，对待检测识别的数据进行检测识别。

进一步地，S2中采用的降维方法为主成分分析法，包括以下步骤：

S201、数据标准化，标准化的计算方法为：

；

式中，Z表示标准化数值，通过本步骤将所有变量按照比例进行缩放；

S202、计算协方差矩阵，协方差矩阵在数学上被定义为一个矩阵，/>表示采集数据的维数，矩阵中的每个元素代表相应变量的协方差，对于一个带有变量/>和变量b的高光谱波段场景，其协方差就是一个2×2的矩阵，如下所示：

；

其中，表示协方差矩阵，/>代表变量与其自身的协方差，也就是变量/>的方差；/>代表变量/>与变量b的协方差，表示变量/>的方差；

S203、计算特征向量和特征值：

从协方差矩阵中计算得到特征向量和特征值，特征向量和特征值是成对计算的，即对于每个特征向量都有对应的一个特征值，需要计算的特征向量的数量决定了数据的维数；

特征向量是使用协方差矩阵来了解数据中最大方差量，由于高光谱数据中更多的差异表示有关该数据的更多信息，特征向量用于识别和计算主成分，另一方面，特征值仅表示各个特征向量的标量，因此，特征向量和特征值将用于计算数据的主成分；

S204、计算主要成分：

在计算出特征向量和特征值后，需要对其进行降序排序，较高的特征值对应的特征向量具有更重要的地位，特征值最高的特征向量作为第一主成分，之后以此类推，筛选出来的主成分组成特征矩阵；

S205、减少数据集的维数：

将原始数据与最终的主要成分进行重新排列，这些最终的主要成分代表数据集的最大和最重要信息；为了用新形成的主成分替换原始数据集，只需将其与原始数据的转置相乘，所获得数据作为降维后的数据。

进一步地，S3中样本扩充采用一种基于快速聚类的SMOTE样本生成方法，包括以下步骤：

S301、通过计算每个少数类样本到其他少数类样本的欧式距离，得到该样本的个近邻样本，并通过随机选取的方式在该样本与选择的近邻样本之间做线性插值，生成新的少数类样本，具体过程如下公式所示：

；

其中，表示/>个近邻中的一个样本，/>是一个随机数，/>是输入样本，/>是生成的新样本；

S302、对生成的个样本进行快速聚类，首先，计算对象间距离，公式如下：

；

其中，和/>为/>个样本中的2个样本，/>为/>和/>之间的距离，为了加快聚类速度，设定阈值，公式如下：

；

其中，表示阈值，/>为比例系数，由人为设置，通常大于0且小于1；/>分别为类别间的最小距离和最大距离；

在生成的样本中，对各类别中生成的样本进行筛选，以提高生成样本的质量，筛选条件如下：

；

表示筛选样本集，将/>样本集与原始数据集合并，得到均衡样本集/>，用于后续特征提取。

进一步地，S4中采用一种基于搜索算子算法优化的神经网络模型对神经元的参数和参数/>进行优化，/>指神经元的权重参数，/>指神经元的阈值参数；

本步骤采用的神经网络层数为2层，基于搜索算子算法优化的神经网络模型中的搜索算子算法对参数和参数/>的搜索方法包括以下步骤：

S401、定义搜索算子，设置搜索条件：

设置搜索算子种群中有n个搜索算子，搜索算子个体状态表示为，其中/>为第/>个搜索算子的状态，也就是参数寻优问题中的自由变量；目标函数用/>表示；搜索算子/>、/>之间的距离为/>；搜索算子的搜索半径为Visual；搜索的步长为Step；拥挤度因子为/>；某一时刻第/>个搜索算子在搜索半径Visual内搜索到任意位置/>，若/>位置状态优于/>位置，则向/>位置方向前进一步，即到达/>位置；否则，继续搜索视野范围内的其他位置，此过程表示为：

；

式中，为0~1之间的随机数；

在行动之前，每个搜索算子都会依次执行搜寻行为、聚群行为、追尾行为和随机行为，然后选择最优行为执行，使搜索算子种群能够到达离最优解更近的位置：

（1）搜寻行为

假设第个搜索算子的某一时刻状态为/>，在其搜索范围内随机选择一个状态，满足下式：

；

和/>分别表示/>和/>状态下的优先解密集度，如果/>，则这个搜索算子向该方向移动一步，即：

；

如果不满足前进条件，则重新在搜索范围内选择一个状态，判断是否满足移动的条件，反复选择设定的重复次数之后，如果仍然没有移动，则随机移动一步；

（2）聚集行为

假设第个搜索算子的某一时刻状态为/>，在当前状态下搜索到其他搜索算子的数量为n，中心位置为/>，判断依据为：

；

其中，为拥挤度因子，/>和/>分别表示中心位置和当前位置的优先解密集度；

如果上式成立，表示中心的优先解密集度较高且不拥挤，则向中心方向移动一步；如果不成立，则执行搜寻行为；

（3）追尾行为

假设第个搜索算子的某一时刻状态为/>，在当前状态下搜索附近其他搜索算子，找到同伴中优先解密集度最大的/>，其位置为/>，判断依据为：

；

如果上式成立，表明其他搜索算子处具有浓度较密集的优先解并且不太拥挤，则向该搜索算子/>方向移动一步；如果不成立，则执行搜寻行为；

（4）随机行为

该行为是搜寻行为的一个缺省行为，即在视野范围内随机选择一个位置向其移动，下一个状态的位置为：

；

通过上述方式，获取神经网络参数的最优解集。

进一步地，S5中通过一种基于改进随机森林的机器学习分类模型对高光谱数据进行分类，识别重金属污染程度，改进随机森林算法为：

在决策树训练阶段，通过评估每棵决策树的分类性能，为能够准确分类少数类样本的决策树赋予一个更高的权重，并通过加权投票的方式获得最终的预测结果，将随机森林的预测结果定义为：

；

其中，表示随机森林的预测结果，/>表示最大值索引函数，N为测试集，T为决策树的数量，/>为指示函数，/>为第/>棵决策树的预测结果，/>表示类别，/>为第/>棵决策树的投票权重；当决策树的预测结果为真时，指示函数/>的值为1，反之为0；

改进的随机森林算法在工作时，首先构建混淆矩阵，混淆矩阵中TP表示将稳定样本判别为稳定样本，FN表示将稳定样本判别为失稳样本，FP表示将失稳样本判别为稳定样本，TN表示将失稳样本判别为失稳样本；

使用每棵决策树对失稳样本分类的精确率和召回率/>的调和平均值/>作为该树的权重，将每棵树的投票权值/>定义为：

；

越大，表明该决策树对少数类样本的分类性能越好，通过改进随机森林的机器学习分类模型识别重金属污染程度。

本发明与现有技术相比的有益效果为：本发明所设计的算法通过对高维的原始数据进行降维、通过引入快速聚类的SMOTE样本生成方法实现样本的扩充，降低样本类别不均衡现象；通过使用基于搜索算子算法优化的神经网络模型获得神经网络参数的最优解集；通过改进随机森林算法在决策树训练阶段，通过评估每棵决策树的分类性能，为能够准确分类少数类样本的决策树赋予一个更高的权重，并通过加权投票的方式获得最终的预测结果，提高了模型的分类性能；最终使得获得的算法模型具有较高的检测精度，同时具有较高的鲁棒性能和泛化能力。

附图说明

图1为发明一个实施例的技术方案整体流程图。

具体实施方式

下面结合附图对本发明具体实施方式作进一步说明。

实施例：参考图1，一种基于机器学习的数据处理与识别模型的训练方法，包括以下步骤：

S1、土壤数据采集，并标注训练样本，用于模型训练；采集数据来源于高光谱遥感图像或者传感器数据，本实施例中以高光谱遥感图像为例进行说明。

S2、对高维的高光谱数据进行降维操作

原始的高光谱数据波段多、维数高、数据量大，且存在数据冗余，为了降低“维数灾难”带来的影响，在降低数据维数的同时，尽可能减少信息损失，所提出的土壤重金属污染识别分类框架首先对原始的高光谱遥感图像进行光谱维度上的约束，通过保留若干主成分，达到数据的降维与冗余信息剔除的目的。

该步骤采用的降维方法为主成分分析法，通过将高维的高光谱遥感图像投影到低维的子空间，把相关系数较大的高维特征变量重新组合，形成低维的线性无关的一组变量；主成分分析法在处理原始高光谱遥感图像时，主要包含以下步骤：

S201、数据标准化，标准化可以使高光谱数据中所有变量及数值在相似的范围内，如果不进行标准化操作，可能导致结果出现偏差；标准化的计算方法为：

；

式中，Z表示标准化数值，通过本步骤将所有变量按照比例进行缩放。

S202、计算协方差矩阵，主成分分析法有助于识别高光谱数据集中要素之间的相关性和依赖性，协方差矩阵表示数据集中不同变量之间的相关性；协方差矩阵在数学上被定义为一个矩阵，在高光谱遥感图像中，/>表示高光谱遥感图像的维数，矩阵中的每个元素代表相应变量的协方差，对于一个带有变量/>和变量b的高光谱波段场景，其协方差就是一个2×2的矩阵，如下所示：

；

其中，表示协方差矩阵，/>代表变量与其自身的协方差，也就是变量/>的方差；/>代表变量/>与变量b的协方差，表示变量/>的方差；在协方差矩阵中，协方差值表示两个变量相互依存的程度，如果协方差值为负，则表示各个变量之间成反比，反之则表示各个变量彼此成正比。

S203、计算特征向量和特征值：

从协方差矩阵中计算得到特征向量和特征值，而主成分是通过对原始向量进行转换，取部分转换后的向量进行的重新表示，在主成分的提取过程中，原先散布在初始向量中的绝大部分信息经过压缩并重新整合，如果要保留高光谱数据中前5个空间维数，则将计算5个主要成分，因此第1个主要成分存储了最大可能的信息，第2个主要成分存储了剩余的最大信息，依此类推；特征向量和特征值是成对计算的，即对于每个特征向量都有对应的一个特征值，需要计算的特征向量的数量决定了数据的维数。

高光谱遥感图像是一个3维数据集，其特征向量和特征值的个数为3，特征向量是使用协方差矩阵来了解数据中最大方差量，由于高光谱数据中更多的差异表示有关该数据的更多信息，特征向量用于识别和计算主成分；另一方面，特征值仅表示各个特征向量的标量，因此，特征向量和特征值将用于计算高光谱数据的主成分。

S204、计算主要成分：

在计算出特征向量和特征值后，需要对其进行降序排序，较高的特征值对应的特征向量具有更重要的地位，特征值最高的特征向量作为第一主成分，之后以此类推，因此，可以删除重要性较低的主要成分，以减小数据的尺寸，筛选出来的主成分组成特征矩阵，其中包含所有具有最大数据信息的重要数据变量。

S205、减少数据集的维数：

S3、样本扩充：

由于数据采集往往存在样本类别不均衡现象，即不同类别的样本数量差距较大，容易导致对数据分类时，样本数量少的类别难以进行有效区分，因此，本发明提出一种基于快速聚类的SMOTE样本生成方法，在少数样本的类别中生成新的样本，降低样本类别不均衡现象。

采用一种基于快速聚类的SMOTE样本生成方法，包括以下步骤：

；

S4、对高光谱数据进行特征提取：

对经过上述步骤处理得到的数据，进行特征提取，本发明采用神经网络对高光谱数据进行特征提取，区别于传统的神经网络模型，本发明在本步骤中对神经网络的优化算法进行改进，提出一种基于搜索算子算法优化的神经网络模型对神经元的参数和参数进行优化，其中/>指神经元的权重参数，/>指神经元的阈值参数；本步骤采用的神经网络层数为2层，基于搜索算子算法优化的神经网络模型中的搜索算子算法对参数/>和参数/>的搜索方法包括以下步骤：

S401、定义搜索算子，设置搜索条件：

；

式中，为0~1之间的随机数。

（1）搜寻行为

；

如果不满足前进条件，则重新在搜索范围内选择一个状态，判断是否满足移动的条件，反复选择设定的重复次数之后，如果仍然没有移动，则随机移动一步。

（2）聚集行为

；

其中，为拥挤度因子，/>和/>分别表示中心位置和当前位置的优先解密集度。

如果上式成立，表示中心的优先解密集度较高且不拥挤，则向中心方向移动一步；如果不成立，则执行搜寻行为。

（3）追尾行为

；

如果上式成立，表明其他搜索算子处具有浓度较密集的优先解并且不太拥挤，则向该搜索算子/>方向移动一步；如果不成立，则执行搜寻行为。

（4）随机行为

；

通过上述方式，获取神经网络参数的最优解集。

S5、训练分类器机器学习模型；

在特征提取后，本发明提出一种基于改进随机森林的机器学习分类模型对高光谱数据进行分类，识别重金属污染程度。

传统的随机森林不加以区分的对待所有的决策树，导致分类性能不同的决策树具有相同的投票权重，为了提高随机森林对少数类样本的识别能力，本发明提出一种改进随机森林算法，在决策树训练阶段，通过评估每棵决策树的分类性能，为能够准确分类少数类样本的决策树赋予一个更高的权重，并通过加权投票的方式获得最终的预测结果，随机森林的预测结果定义为：

；

其中，表示随机森林的预测结果，/>表示最大值索引函数，N为测试集，T为决策树的数量，/>为指示函数，/>为第/>棵决策树的预测结果，/>表示类别，/>为第/>决策树的投票权重；当决策树的预测结果为真时，指示函数/>的值为1，反之为0。

；

Claims

1.一种基于机器学习的数据处理与识别模型的训练方法，其特征在于，包括以下步骤：

S1、土壤数据采集，并标注训练样本，用于模型训练；

S2、数据降维，将高维特征变量重新组合，形成低维的线性无关的一组变量；

S4中采用一种基于搜索算子算法优化的神经网络模型对神经元的参数和参数/>进行优化，/>指神经元的权重参数，/>神经元的阈值参数；

S401、定义搜索算子，设置搜索条件：

设置搜索算子种群中有n个搜索算子，搜索算子个体状态可以表示为，其中/>为第/>个搜索算子的状态，也就是参数寻优问题中的自由变量；目标函数用/>表示；搜索算子/>、/>之间的距离为/>；搜索算子的搜索半径为Visual；搜索的步长为Step；拥挤度因子为/>；某一时刻第/>个搜索算子在搜索半径Visual内搜索到任意位置/>，若/>位置状态优于/>位置，则向/>位置方向前进一步，即到达/>位置；否则，继续搜索视野范围内的其他位置，此过程表示为：

；

式中，为0~1之间的随机数；

（1）搜寻行为

假设第个搜索算子的某一时刻状态为/>，在其搜索范围内随机选择一个状态/>，满足下式：

；

（2）聚集行为

；

（3）追尾行为

；

（4）随机行为

；

通过搜寻行为、聚集行为、追尾行为和随机行为方式，获取神经网络参数的最优解集；

S5、训练分类器机器学习模型；

S6、应用训练好的模型进行土壤重金属污染程度，使用带标记的样本对上述模型进行训练，模型训练完成后，对待检测识别的数据进行检测识别；

S3中样本扩充采用一种基于快速聚类的SMOTE样本生成方法，包括以下步骤：

S301、通过计算每个少数类样本到其他少数类样本的欧式距离，得到该样本的k个近邻样本，并通过随机选取的方式在该样本与选择的近邻样本之间做线性插值，生成新的少数类样本，具体过程如公下式所示：

；

其中，表示k个近邻中的一个样本，/>是一个随机数，/>是输入样本，/>是生成的新样本；

；

其中，表示阈值，/>为比例系数，由人为设置，/>的取值范围大于0且小于1；分别为类别间的最小距离和最大距离；

；

2.根据权利要求1所述的一种基于机器学习的数据处理与识别模型的训练方法，其特征在于，S2中采用的降维方法为主成分分析法，包括以下步骤：

S201、数据标准化，标准化的计算方法为：

；

S202、计算协方差矩阵，协方差矩阵在数学上被定义为一个矩阵，/>表示采集数据的维数，矩阵中的每个元素代表相应变量的协方差，对于一个带有变量/>和变量b的高光谱波段场景，其协方差就是一个2×2的矩阵，如下所示：；

S203、计算特征向量和特征值：

S204、计算主要成分：

S205、减少数据集的维数：

将原始数据与最终的主要成分进行重新排列，这些最终的主要成分代表数据集的最大和最重要信息；为了用新形成的主成分替换原始数据集，只需将其与原始数据的转置相乘，所获得数据作为降维后的

；

其中，表示随机森林的预测结果，/>表示最大值索引函数，N为测试集，T为决策树的数量，/>为指示函数，/>为第t棵决策树的预测结果，y表示类别，为第t棵决策树的投票权重；当决策树的预测结果为真时，指示函数/>的值为1，反之为0；

；