CN116187543A

CN116187543A - 基于机器学习的土壤重金属含量预测方法及其应用

Info

Publication number: CN116187543A
Application number: CN202310030466.5A
Authority: CN
Inventors: 田晨; 巢瑾; 林璋; 齐冲冲; 古黄玲; 廖钦鹏
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-01-10
Filing date: 2023-01-10
Publication date: 2023-05-30

Abstract

本发明提供了一种基于机器学习的土壤重金属含量预测的方法，包括步骤：S1.从文献数据库和专业数据库中筛选重金属污染数据，作为样本数据集；S2.基于土壤重金属环境质量标准剔除样本数据集中的异常数据，得到第一处理样本数据集；S3.对第一处理样本数据集进行预处理得到预处理样本数据集；S4.将预处理样本数据集划分为训练集以及测试集，基于训练集及测试集训练并评价机器学习模型，并确定土壤重金属含量预测模型；S5.根据土壤重金属含量预测模型对未知重金属含量的土壤点进行重金属含量预测。本发明构建的土壤重金属含量预测模型精度高、普适性强，值得推广。

Description

基于机器学习的土壤重金属含量预测方法及其应用

技术领域

本发明属于环境污染预测领域，具体涉及一种基于机器学习的土壤重金属含量预测方法及其应用。

背景技术

土壤中重金属作为社会发展土地利用过程中面临的严重威胁，不仅带来潜在的生态风险，也可能影响导致人类健康。为了解决土壤中的重金属问题，各地研究人员积极开展土壤重金属污染预警研究、绘制土壤重金属含量地图，从而实现土壤分区治理，为决策者制定高效的土壤保护措施提供科学支持。

基于大量关于土壤类型性质及其重金属含量的实验研究，近年来土壤重金属污染预警研究取得了飞速进展，国内外相关技术部门与研究人员提出了一系列土壤性质及重金属含量的化学测定方法。

常用技术中土壤性质及污染物含量测绘主要是以网络模式物理采集土壤样本，并将土壤运输到实验室进行进一步的化学分析。确定各污染物水平后，应用地质统计插值法来预测未采样点的污染物含量。但上述常用技术研究部分大多集中在土壤重金属及其含量上，存在精度低、效率低、普适性不强等技术问题。

鉴于此，有必要提供一种基于机器学习的重金属含量预测方法及其应用，以解决上述常用技术中存在的重金属预测精度低、效率低、普适性不强的技术问题。

发明内容

旨在解决上述常用技术中存在的重金属预测精度低、效率低、普适性不强的技术问题，本发明提供了一种基于机器学习的土壤重金属含量预测方法，包括以下步骤：

S1.从文献数据库和专业数据库中筛选重金属污染数据，作为样本数据集；所述重金属污染数据包括位置信息以及至少部分所述位置信息对应位置的重金属含量数据和有效特征数据；所述有效特征为影响重金属含量的特征因素，所述有效特征包括自然因素及社会因素；

S2.基于土壤重金属环境质量标准剔除所述样本数据集中的异常数据，得到第一处理样本数据集；

S3.对第一处理样本数据集进行预处理得到预处理样本数据集；

S4.将所述预处理样本数据集划分为训练集以及测试集，基于所述训练集及测试集训练并评价机器学习模型，并确定土壤重金属含量预测模型；

S5.根据所述土壤重金属含量预测模型对未知重金属含量的土壤点进行重金属含量预测。

进一步的，所述重金属含量数据包括Cd含量、Pb含量、Cr含量和As含量中的一种或多种。

进一步的，所述自然因素包括土质、气候、植被和土壤的理化性质中的一种或多种，所述社会因素包括土地利用类型和/或人口。

进一步的，所述步骤S3包括步骤：

S31.对所述第一样本数据集进行标准化处理，得到第二样本数据集；

其中，所述标准化处理的方法为线性比例标准化法、0-1标准化法、Z-score标准化法或极差标准化法；

S32.对所述第二样本数据集进行降维处理，得预处理样本数据集；

其中，降维方法为随机森林法、主成分分析法或SHAP筛选特征。

进一步的，所述步骤S3还包括：

对所述预处理样本数据集中的有效特征进行独立性检验；

其中，所述独立性检验的方法包括spearman相关系数或距离相关系数。

进一步的，所述步骤S4包括步骤：

S41.将所述预处理样本数据集分为训练集和测试集；

其中，所述预处理样本数据集的划分方法为随机划分或Kennard-Stone划分；

S42.采用所述训练集对机器学习模型进行训练，并在训练过程中确定并优化超参数；

其中，所述机器学习模型包括随机森林、支持向量机、多元线性回归、决策树和神经网络；

所述超参数的确定方法包括遗传算法和网格搜索法；

S43.采用所述测试集对所述确定并优化超参数过后的机器学习模型进行评价，将评价结果最佳的所述机器学习模型确定为所述土壤重金属含量预测模型。

进一步的，所述步骤S43包括：对所述超参数进行交叉验证得优化超参数，将所述优化超参数应用于所述目标模型，得所述土壤重金属含量预测模型。

进一步的，所述目标模型为随机森林，所述优化超参数包括决策树最大深度、叶子节点最少样本数、森林中决策树个数以及拆分内部节点所需的最小样本数中的一种或多种。

进一步的，所述步骤S4中所述对所述确定并优化超参数过后的机器学习模型进行评价包括步骤包括：

根据所述土壤重金属含量预测模型预测所述测试集的结果和实验结果，评价所述土壤重金属含量预测模型；

评价指标包括决定系数、均方根差和平均绝对误差中的一种或多种，所述评价指标的计算公式如下：

/>

其中，N为样本数目，y_i与y_i ^*为第i个样本的实验值与预测值，

为数据集中实验值的平均值，/>

为数据集中预测值的平均值。

本发明还提供了一种如上任意一项所述的基于机器学习的重金属含量预测的方法在重金属含量预测中的应用。

与现有技术相比，本发明至少包括以下优点：

本发明中有效特征包括自然因素与社会因素，综合的考虑了自然因素与社会因素对重金属种类以及含量的影响，参考了不同重金属污染物的污染现状以及使其富集的环境因素(包括自然因素与社会因素)，有效提高样本数据集数据量的同时，增强了土壤重金属含量预测模型的精度与泛化能力，提高了土壤重金属含量预测模型的普适性。

本发明还依据土壤重金属环境质量标准剔除所述样本数据集中的异常数据，避免重金属污染范围研究中严重超标的数据对重金属述预测模型精度造成影响，进而导致未知土壤点重金属含量的预测值偏颇。即，利用国家标准剔除由于场地污染导致重金属含量过高的样本，使得样本数据更为中肯客观，有效提高了重金属预测模型的精度以及普适性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明一实施例中土壤重金属含量预测模型构建过程中的流程示意图。

图2为本发明一实施例中土壤重金属含量预测模型评价的拟合结果图。

具体实施方式

下面将结合附图对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明的一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

并且，本发明各个实施方式之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

当实施例给出数值范围时，应理解，除非本发明另有说明，每个数值范围的两个端点以及两个端点之间任何一个数值均可选用。除非另外定义，本发明中使用的所有技术和科学术语与本技术领域的技术人员对现有技术的掌握及本发明的记载，还可以使用与本发明实施例中所述的方法、设备、材料相似或等同的现有技术的任何方法、设备和材料来实现本发明。

如图1所示，本发明提供了一种基于机器学习的重金属含量预测的方法，包括以下步骤：

S1.从文献数据库和专业数据库中筛选重金属污染数据，作为样本数据集；所述重金属污染数据包括位置信息以及至少部分所述位置信息对应位置的重金属含量数据和有效特征数据；所述有效特征为影响重金属含量的特征因素，所述有效特征包括自然因素及社会因素。

在一些实施例中，重金属含量数据包括Cd含量、Pb含量、Cr含量和As含量中的一种或多种。

其中，Cd、Pb、Cr在土壤环境中普遍是以阳离子形式存在；而As更多是以阴离子基团的形式存在，如砷酸根；因此，土壤中的阳离子交换量，土壤pH等环境变量会对上述重金属浓度造成一定影响，即，在考虑土壤中重金属的赋存量时，理应考虑到环境变量。

出于将环境变量因素纳入重金属含量的影响因素，本发明中土壤重金属含量预测模型的有效特征可以包括自然因素与社会因素；其中，自然因素可以包括土质、气候、植被和土壤的理化性质中的一种或多种，社会因素可以包括土地利用类型和/或人口。

进一步细化，土质可以包括土壤的构造与性质等环境变量，气候可以包括气温、光照以及降水量等环境变量，土壤理化性质可以包括酸碱度(pH)、阳离子交换量(CEC)、土壤蒸散量(AET)、土壤湿度等环境变量。

综合考虑各个方面环境变量造成的影响，从影响土壤重金属赋存的学界理论基础出发，全方位的从自然与社会因素出发对重金属含量影响因素进行考量，可以在增大样本数据集的数据量，减小部分极端数据造成数据偏颇的同时，提高有效特征选取的客观性与说服力。广泛样本数据集的建立以及有效特征精准选取相当于为重金属预测模型打造了坚固精巧的地基，使得重金属预测模型的精度大大提高。

S2.基于土壤重金属环境质量标准剔除所述样本数据集中的异常数据，得到第一处理样本数据集。

在一些实施例中，可以针对收集到的样本数据集，参照《土壤环境质量农用地土壤污染风险管控标准(试行)》(GB15618-2018)剔除由于场地污染造成的局部重金属含量超标的数据条，以保证大范围预测模型的准确性。

在提取土壤重金属实际含量时，发现由于大多数常用技术中的范围性研究都是针对场地污染严重的地区，其重金属含量通常远超国标多倍。将上述极端的重金属含量剔除，上述由于场地污染造成的重金属含量超标通常是人为或者意外情况造成的，在土壤重金属含量预测模型中不但参考意义极小，还极容易在影响整个重金属预测模型精度的同时，导致未知土壤点导致数据偏高，不适用于大范围的土壤重金属含量普查。而本发明中利用国家标准剔除由于场地污染导致重金属含量过高的样本，使得样本数据更为中肯客观，有效提高了重金属预测模型的精度以及普适性。

S3.对第一处理样本数据集进行预处理得到预处理样本数据集。

在一些实施例中，所述步骤S3通常包括步骤：

S31.对所述第一样本数据集进行标准化处理，得到第二样本数据集。

其中，所述标准化处理的方法为线性比例标准化法、0-1标准化法、Z-score标准化法或极差标准化法。

由于地球化学参数和环境变量类型(离散/连续)、取值区间(量纲)、变化程度各不相同，且差异较大，因此可以根据实际需要对数据集进行标准化操作并对预测目标进行对数化处理。

上述标准化处理作为数据处理中的常见方式，通常是通过将原始数据转化为无量纲、无数量级差异的标准化数值，进而消除不同指标之间因属性不同而带来的影响，从而使结果更具有可比性。

在一些实施例中，可以在标准化处理前将第一样本数据集中的缺失量用该缺失量对应的有效特征的中位数进行填充，并删除第一样本数据集中的重复值，再对其进行标准化处理，从而减小标准化处理时的较大数据量造成的处理负担，减少数据储存成本。

S32.对所述第二样本数据集进行降维处理，得预处理样本数据集。

降维处理通过机器学习算法得到不同特征的特征值或权重，选择权重较大的特征，利用降维处理能够将有效特征通过重要性进行筛选降维，进一步筛选出更为精准的有效特征。

在一些实施例中，可以对降维处理之后的预处理样本数据集中的有效特征进行独立性检验，排除相关度较高的有效特征，进一步提高建模效率与精度；

降维处理以及独立性检验依次进行的有效特征筛选工作能够通过将降维得到的有效特征进行独立性检验，保留了其代表性的同时实现去相关，防止在预测的过程中产生数据冗余以提高模型精度。即，利用重要性删选过一轮后，再检验独立性，就可以根据前面进行的重要性排去除高度相关的特征了，避免了有效特征高度相关时的选择困难，从而针对性的筛选出独立性、重要性俱佳的有效特征。

S4.将所述预处理样本数据集划分为训练集以及测试集，基于所述训练集及测试集从机器学习模型中确定目标模型，并作为土壤重金属含量预测模型。

在一些实施例中，步骤S4具体包括步骤：

S41.将所述预处理样本数据集分为训练集和测试集。

其中，所述预处理样本数据集的划分方法为随机划分或Kennard-Stone划分。

在一些实施例中，训练集主要是用于训练模型的数据集，而测试集主要是用于评价模型进而验证模型的泛化能力。

所述超参数的确定方法包括遗传算法和网格搜索法。

在一些实施例中还可以对所述超参数进行交叉验证，进而得优化超参数，将所述优化超参数应用于所述目标模型，得所述土壤重金属含量预测模型。

示例性的，所述目标模型可以为随机森林，所述优化超参数可以包括决策树最大深度、叶子节点最少样本数、森林中决策树个数以及拆分内部节点所需的最小样本数中的一种或多种。

在一些实施例中，学***均绝对误差(MAE)等。

示例性的，可以根据上述测试集对重金属预测模型进行评价，即，可以根据所述土壤重金属含量预测模型预测所述测试集的结果和实验结果，评价所述土壤重金属含量预测模型，进一步验证重金属预测模型的泛化能力，从而验证模型的精度。

其中，评价指标包括决定系数、均方根差和平均绝对误差中的一种或多种，所述评价指标的计算公式如下：

为数据集中实验值的平均值，/>

为数据集中预测值的平均值。

在一些实施例中，步骤S5可以包括步骤：

测得未知重金属含量土壤点的有效特征数据，将其带入重金属预测模型中，得到未知重金属含量土壤点的重金属含量，完成重金属含量预测。

本发明主要具有以下优点：本发明中有效特征包括自然因素与社会因素，综合的考虑了自然因素与社会因素对重金属种类以及含量的影响，参考了不同重金属污染物的污染现状以及使其富集的环境因素(包括自然因素与社会因素)，有效提高样本数据集数据量的同时，增强了土壤重金属含量预测模型的精度与泛化能力，提高了土壤重金属含量预测模型的普适性。

相较常用技术中对于未知重金属含量的土壤点重金属含量检测的化学方法：如，以网络模式物理采集土壤样本，并将土壤运输到实验室进行进一步的化学分析，确定各污染物水平后，再应用地质统计插值法来预测未采样点的污染物含量，测量过程中需要耗费大量的人力物力成本以及实验资源，且受制于样本量等因素，其检测结果的精确性也难以保证。

而本发明的技术方案极大程度的解决了土壤重金属含量检测所需的人力、物力以及时间成本，提高了重金属含量的检测效率，并通过对于有效特征的选择以及数据处理，进一步保证了重金属含量检测结果的精确性与客观性。

为了便于本领域技术人员对本发明做进一步理解，现举例说明：

S1.从文献数据库和专业数据库中筛选重金属污染数据，作为样本数据集；所述重金属污染数据包括位置信息以及至少部分所述位置信息对应位置的镉(Cd)、砷(As)、铬(Cr)、铅(Pb)的重金属含量数据和有效特征数据。

具体包括步骤：

从web of science中以检索词“TS＝[(soil OR farm)AND(heavy metal ORheavy metals OR Cd OR Cadmium OR Arsenic OR Pb OR lead OR Cr OR chromium)]”，数据库中以检索词“SU＝(重金属OR镉OR砷OR铅OR铬)AND SU＝土壤”搜寻相关文献，结合***粮食及农业组织公开数据库、全球土壤水分平衡地理空间数据库等，在数据库中提取包含具体点位信息的重金属含量数据及相关环境变量。

并在相关环境变量中筛选有效特征，如酸碱度(pH)、阳离子交换量(CEC)、土壤蒸散量(AET)、人口、降雨量、土壤湿度等，共计76个特征，22807个样本量。借助ArcGIS按地理坐标整理成一个完整的机器学习模型样本数据集。

具体包括：针对收集到的初始数据集，参照《土壤环境质量农用地土壤污染风险管控标准(试行)》(GB15618-2018)剔除由于场地污染造成的局部重金属含量超标的数据条，以保证大范围预测模型的准确性，得第一样本数据集，使得样本量由22807个下降至19547个。

对预处理样本数据集中某些有效特征的个别缺失值用该有效特征的中位数进行填充。

S31.根据实际需要对第一处理样本数据集进行标准化操作并对预测目标进行对数化处理，得第二样本数据集。

S32.采用随机森林依据特征重要性对有效特征进行降维处理并利用spearman相关分析对有效特征做独立性检验，删除冗余特征，使有效特征由76个降至17个，得预处理样本数据集。

S41.采用随机划分的方法将预处理样本数据集分为训练集和测试集，在本实例中，训练集占总数据子集的80％，测试集占总数据子集的20％。

其中，所述机器学习模型包括随机森林、支持向量机、梯度提升树。

所述超参数的确定方法包括遗传算法和网格搜索法。

利用训练集训练随机森林模型并通过网格搜索法确定超参数后，再在训练集上交叉验证优化超参数，优化后的超参数分别为“决策树最大深度(max_depth)＝100”,“叶子节点最少样本数(min_samples_leaf)＝3”,“森林中决策树个数(n_estimators)＝500”,“拆分内部节点所需的最小样本数(min_samples_split)＝8”,其余参数均为默认值。

S43.在上述机器学习模型中进行土壤重金属含量预测，再在其中选择表现最佳的机器学习模型作为学习子模型。

其中，学***均绝对误差(MAE)等。

本实施例中，经过多次循环运行之后性能表现最佳的机器学习模型是随机森林，如图2所示，该重金属预测模型在测试集上重金属含量预测值与真实值之间的R²(决定系数)可以达到0.909，可以发现真实值与预测值十分接近，表明该重金属预测模型在测试集上具有极好的精度，这说明利用机器学习预测土壤中重金属含量的方法是可行的。

S5.基于以上选取的特征和最终建立的土壤土壤重金属含量预测模型，得到未知重金属含量的土壤点的有效特征数据，从而预测得到该未知重金属含量的土壤点对应的土壤重金属含量。

本发明的上述技术方案中，以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的技术构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围。

Claims

1.一种基于机器学习的土壤重金属含量预测的方法，其特征在于，包括以下步骤：

S4.将所述预处理样本数据集划分为训练集以及测试集，基于所述训练集及所述测试集训练并评价机器学习模型，并确定土壤重金属含量预测模型；

2.根据权利要求1所述的基于机器学习的土壤重金属含量预测的方法，其特征在于，所述重金属含量数据包括Cd含量、Pb含量、Cr含量和As含量中的一种或多种。

3.根据权利要求2所述的基于机器学习的土壤重金属含量预测的方法，其特征在于，所述自然因素包括土质、气候、植被和土壤的理化性质中的一种或多种，所述社会因素包括土地利用类型和/或人口。

4.根据权利要求1所述的基于机器学习的土壤重金属含量预测的方法，其特征在于，所述步骤S3包括步骤：

5.根据权利要求4所述的基于机器学习的土壤重金属含量预测的方法，其特征在于，所述步骤S3还包括：

对所述预处理样本数据集中的有效特征进行独立性检验；

6.根据权利要求1所述的基于机器学习的土壤重金属含量预测的方法，其特征在于，所述步骤S4包括步骤：

S41.将所述预处理样本数据集分为训练集和测试集；

所述超参数的确定方法包括遗传算法和网格搜索法；

7.根据权利要求6所述的基于机器学习的土壤重金属含量预测的方法，其特征在于，所述步骤S42中所述优化超参数包括步骤，在所述训练集上对所述超参数进行交叉验证。

8.根据权利要求7所述的基于机器学习的土壤重金属含量预测的方法，其特征在于，所述目标模型为随机森林，所述优化超参数包括决策树最大深度、叶子节点最少样本数、森林中决策树个数以及拆分内部节点所需的最小样本数中的一种或多种。

9.根据权利要求1所述的基于机器学习的土壤重金属含量预测的方法，其特征在于，所述步骤S4中所述对所述确定并优化超参数过后的机器学习模型进行评价包括步骤：

为数据集中实验值的平均值，/>

为数据集中预测值的平均值。

10.一种如权利要求1～9任意一项所述的基于机器学习的土壤重金属含量预测的方法在土壤重金属含量预测中的应用。