CN111275072B

CN111275072B - 一种基于聚类采样的山区土壤厚度预测方法

Info

Publication number: CN111275072B
Application number: CN202010013200.6A
Authority: CN
Inventors: 赵宇; 王玮; 王锐
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2023-12-22
Anticipated expiration: 2040-01-07
Also published as: CN111275072A

Abstract

本发明涉及数据挖掘和地质测绘技术，旨在提供一种基于聚类采样的山区土壤厚度预测方法。包括：获取研究区内DEM，选取土壤厚度影响因子和各栅格点坐标，构建预测模型的输入数据库；确定DEM栅格的最佳分辨率，利用基于SDW‑FMS聚类方法对整个研究区的数据进行聚类分析；在每个分区内实地采样，对样本按照3∶1的比例进行训练集和测试集划分；建立地理加权回归模型以预测土壤厚度；对各分区的GWR模型进行性能测试，预测该分区其他栅格处的土层厚度。本发明采样均匀、其预测结果合理可靠、可拓展性高，可根据其他研究区地形和环境的特点随时更改影响要素，即可完成对土壤厚度的准确预测；能为其他地理空间情报的预测工作提供一定的借鉴作用。

Description

一种基于聚类采样的山区土壤厚度预测方法

技术领域

本发明涉及到数据挖掘和地质测绘技术领域，更具体地说，是在GIS的平台下，通过采用机器学习的方法对大范围山区内的地质、地貌信息进行挖掘，从而实现土壤厚度的高精度预测，这是一种基于多学科交叉融合的新方法。

背景技术

土壤厚度一般指从地表到基岩竖直方向上的深度，是土壤的一个重要属性，对多数地表及地下过程如地表演化、土壤运移、泥沙沉积等起着控制作用，也决定着土壤的持水和保水能力，对区域内植物的生长有着重要的影响。此外，土壤厚度还与滑坡等地质灾害的发育有着密切的关系，是浅层滑坡地质灾害的重要评价指标之一。所以，土壤厚度的有效预测，对区域地表演化过程、植被发育情况以及地质灾害评价均具有十分重要的意义。

为了扩大土壤厚度预测的应用范围，各国学者陆续推出了土壤厚度的空间模拟方法，其中点采样插值方法和土壤—景观模型外推法应用较广。点采样插值方法是通过野外实地探查得到单点上的土壤厚度实测值，然后再通过插值处理分析得到整个研究区域内的土壤厚度；而土壤—景观模型外推法是以土壤发生学为理论依据，结合数学方法和3S技术的一种定量预测方法，该方法假设相同的土壤环境能发育出相同类型的土壤，从样本出发建立土壤与景观单元的对应关系，通过这些景观单元的特征来预测土壤的属性。无论是点采样插值法还是土壤—景观模型外推法对样本的采集要求较高。

目前，采样方式大多以经典采样(随机和***采样)、地统计采样和目的采样为主。经典采样往往需要大量样本才能获得高精度的地理要素空间分布，受人力、物理限制难以大范围应用；地统计采样不但需要大量样本来构造空间变异函数，还要求变异函数满足二阶平稳假设和其它内在假设，而地形地貌复杂多变的山区通常难以满足这些假设；目的采样是根据研究目的和先验知识，做少量具有代表性或平均性的状态样本抽样，但样本能否正确反映总体特征取决于研究者的主观判断，缺少客观的误差评估。

因此，为了实现大型山区内土壤厚度的准确预测，提出一种科学、高效、便捷的采样方法和预测方法是十分必要的。

发明内容

本发明要解决的技术问题是，克服现有技术中的不足，提供一种基于聚类采样的山区土壤厚度预测方法。

为解决技术问题，本发明的解决方案是：

提供一种基于聚类采样的山区土壤厚度预测方法，包括以下步骤：

(1)获取研究区内数字高程模型(Digital elevation model，DEM)；

(2)选取土壤厚度影响因子和各栅格点坐标，构建预测模型的输入数据库；

(3)确定DEM栅格的最佳分辨率；

(4)利用基于SDW-FMS(空间距离加权的快速均值漂移，Spatial distanceweighting-Fast mean shift)聚类方法对整个研究区的数据进行聚类分析，即对整个区域按相似属性进行分区；

(5)分别在每个分区内进行土壤厚度实地采样；

(6)对每个分区的样本按照3∶1的比例进行训练集和测试集划分；

(7)利用每个分区的训练集样本建立各自的地理加权回归(geographicallyweighed regression，GWR)模型以预测土壤厚度；

(8)利用分区的测试集样本对各自分区的GWR模型进行性能测试；

(9)利用各分区性能良好的GWR模型预测该分区其他栅格处的土层厚度。

本发明中，所述土壤厚度影响因子包括地形因子和环境因子。

本发明中，在所述步骤(3)中，采用试凑法确定DEM栅格最佳分辨率：分别对DEM中采样分辨率为10m、15m、20m、25m和30m所对应的影响因子进行聚类分析，根据聚类的效果选择最佳栅格分辨率。

本发明中，所述步骤(4)具体包括：

给定大数据集V＝{v_i|v_i＝[x_i×1，x_i×2，...，x_i×k，p_i×1，p_i×2]^T∈R^k+2，i＝1，2，…，n}其中，n为整个研究区栅格点个数；v_i表示研究区内第i个栅格点数据，同时包含了k个影响因子和经纬度坐标值p_i×1，p_i×2；

(1)空间距离加权(Spatial distance weighting，SDW)算法

对每个栅格点的各变量进行加权处理，其加权欧式距离如下：

通过每个变量的熵值确定其权值，具体计算步骤如下：

I.标准化栅格点数据

II.各变量的熵值计算

其中，各变量的比值/>

III.各变量权值计算

(2)快速均值漂移(Fast mean shift，FMS)算法

根据“最近邻一致性”原则，采用序贯采样方式对原始大数据集初划分，在此基础上采用快速均值漂移方法对初划分簇心聚类；其具体步骤如下：

I.原始数据集划分

设最终划分的初始簇心集合为C＝{c_j|j＝1，2，...，m}，各簇心所对应的簇记为Data_j(j＝1，2，...，m)，且每个簇含有n_j个栅格点数据；数据划分具体操作如下：

通过SS方式从给定大数据集V中随机选取一个栅格点数据v作为第一个初始簇心c₁，然后计算大数据集V中剩余各点与初始簇心之间的加权欧式距离dist_SDW(·)；当遍历到点v_i(i＝1，2，...n)时，若dist_SDW(v_i，c_j)≤r，则将点v_i与簇心c_j归为一类，并添加进Data_j内，然后令i＝i+1，继续遍历；而如果v_i对所有的c_j∈C都有dist_SDW(v_i，c_j)＞r，则将该点v_i作为新的簇心，将其添进集合C中；然后令i＝i+1，继续遍历。直到V中所有的点都遍历一遍；最后对每个簇的所有栅格点数据取平均，以之作为最终的初始簇心，即值得一提的是，参数r的选取应适当小于固定带宽h；

II.初始簇心更新

采用MS聚类算法对初始簇心集合进行迭代更新，当簇心c_j迭代至收敛时，即q为迭代次数，则停止该簇心的更新；转而继续更新簇心c_j+1，如此依次进行，直至所有簇心都得到更新；MS簇心更新计算公式如下：

其中，表示为dist_SDW(·)的平方；/>g(·)为K(·)的影子核，即核函数K(·)求导的负方向，而核函数一般采用高斯核函数；

对于固定带宽h，其计算公式：d为数据维度；σ_l为标准误差；

上式中迭代收敛计算以开始，并将更新后的簇心记为/>

III.相似簇融合

对任意若/>则表示a，b簇为相似簇，并将两簇的栅格点集合data_a，data_b合并成一个新的簇；否则划分为不同的簇。而误差ε₂＝10^-3。

本发明中，所述步骤(5)具体包括：根据聚类结果，找到各分区的簇心或簇心邻近区域进行土壤厚度的实地采样，并同时以各簇簇心或近似簇心为起点，以距离簇心为半径，分别在其周围进行适量采样；另根据分区大小决定是否需要进行多轮采样，即每轮采样以R的倍数N×R为半径进行，N＝1，2，……，n。

发明原理描述：

本发明是在对整个研究区的地形、环境要素以及地理坐标做相似性聚类的基础上，进行有计划、有针对性的少量采样，之后在各类子区域内单独建立性能良好的预测模型以实现从采样点(土壤厚度已测得)出发逐步向该区其他未栅格点进行外延预测。主要包括：研究区数据库的建立、栅格分辨率的选取、各变量SDW权值计算、Mean Shift聚类、分区采样、分区GWR建模、分区GWR性能检验、分区GWR外延预测等内容。本发明的区域土壤厚度预测方法是从整个研究区的地形、地貌、环境因子和地理坐标等属性出发，将研究区内各栅格数据按照彼此之间的相似性进行分区，相似性高的数据点归为一类，组成一个分区，如此便将整个研究区域分割成多个子区域，且各子区域之间相似性较低，然后再分别对各子区域进行单独采样和预测。

与现有技术相比，本发明的有益效果是：

1、较之常规的基于采样方法所面临的采样不均(有些地形采集的多，有些采集的少，甚至漏采)的问题，本发明所采集到的样本足以涵盖整个研究区的特征属性，确保采样均匀；也避免了常规方法为确保预测准确率而需要大量采样所带来的高昂时间、经济、人力和物力等成本问题；此外，

2、就聚类效果而言，由于研究区地形复杂多变，栅格点的各变量对聚类结果的贡献程度有所差异。与常规的用于图像处理的FMS聚类算法相比，SDW-FMS通过计算相应的权值来强化相关性较强的变量和弱化相关性较弱的变量对聚类的影响，更适用于地形地貌特征复杂多变的地理空间信息处理。

3、就预测效果而言，研究区域之大，环境之复杂，本发明方法在各分区根据其数据特点独自建模、调参和外延预测，其预测结果合理可靠，且能完成大面积的准确预测。

4、本发明交叉融合了地质学、应用数学和信息科学等多学科知识，具有较高的理论深度和研究价值；而且其可拓展性较高，可根据其他研究区地形和环境的特点随时更改影响要素，即可完成对土壤厚度的准确预测；

5、本发明中针对大型区域的采样方式也能为其他地理空间情报的预测工作提供一定的借鉴作用。

附图说明

图1为本发明研究技术路线图；

图2为本研究采用的采样方式示意图(图中所使用分区边界线只为描述采样方式所用，并非实际聚类后的结果)。

具体实施方式

首先需要说明的是，本发明涉及大数据技术，是计算机技术在地理信息技术领域的一种应用。在本发明的实现过程中，会涉及到多种现有算法的应用，这些算法在相关领域已得到成功应用，如SDW算法的熵值法求权重在多元统计分析中得到广泛应用；FMS聚类算法也成功应用于聚类、跟踪和图像处理等技术；GWR算法也常见于空间地理信息领域和环境科学领域。本发明所涉及的现有算法包括但不限于：SDW算法、FMS聚类算法和GWR算法等，申请人认为，如在仔细阅读申请文件、准确理解本发明的实现原理和发明目的以后，在结合现有公知技术的情况下，本领域技术人员完全可以运用其掌握的技能实现本发明。凡本发明申请文件提及的均属此范畴，申请人不再一一列举。

下面结合附图和具体实施方式对本发明做进一步详细说明。

本发明提供一种基于聚类采样的区域土壤厚度预测方法，其实施步骤如下：

(1)获取研究区内数字高程模型(DEM)；(2)提取土壤影响因子和栅格点坐标(即经、纬度)，构建预测模型的输入数据库；(3)确定DEM的栅格大小，即分辨率；(4)利用SDW-FMS算法对整个研究区的栅格数据进行聚类分析，即对整个区域按相同属性进行分区；(5)根据聚类结果，分别对每个分区进行单独采样；(6)将每个分区所采集到的样本按3：1的比例随机划分为训练集和测试集；(7)各分区在其训练集的基础上建立地理加权回归(geographically weighed regression,GWR)定量预测模型；(8)运用测试集数据对各分区已建的模型进行性能检测；(9)利用各分区性能良好的GWR模型对该分区其他未知结果的栅格数据进行预测。其中：

土壤影响因子主要分为地形影响因子和环境影响因子。其中，地形影响因子(高程、曲率、坡长和坡位等)数据是利用ArcGIS从DEM中获得，而环境影响因子包括植被覆盖度由Landsat 8OLI数据计算NDVI值得到。

DEM栅格大小的选取是通过试凑法从栅格尺寸为10m、15m、20m、25m和30m的栅格数据选择聚类效果最好的作为最佳尺寸。

聚类分析通过轮廓系数(Silhouette Coefficient,SC)、各类间间隔性(Compactness,CP)和同类间紧凑性(Separation,SP)等指标进行评价。由于研究区面积很大，其所含栅格数据过多，且地形地貌等环境特征复杂多变，各变量的相对重要程度也会所有差异，而单纯地聚类不仅计算量过大而且聚类效果也欠佳(如表1所示)。因此，本发明将SDW算法和FMS聚类算法相结合，可实现快速高效的聚类。

表1为SDW-FMS联合算法与FMS算法对不同采样分辨率分别计算10次取平均的聚类结果

R^&：CP/SP，该值越大聚类效果越佳；而SC则越接近1表示效果越好。

注：表1结果显示除采样分辨率为30m的聚类外，SDW-FMS的整体聚类效果要优于FMS。而造成这一差异的原因可能是由于30m的采样间隔过大，掩盖了该区间内的一些局部特征，使之倾向于均一化，更有利于FMS聚类。

分区采样按照每个分区的大小采集相应的样本量。此外，由于聚类计算是针对栅格数据进行的，因此聚类结果可能会出现同属一类的栅格数据在地理位置上被其他类的区域割裂成多个小块的现象。那么在对该类采样时，应该对同属于该类的每个小块区域分别进行采样。

预测模型的性能检测是通过预测均方根误差(Root Mean Squared Error ofPrediction,RMSEP)、相关系数(R²)和相对分析误差(residual predictive deviation,RPD)进行界定。

下面将结合本发明实施的附图1，对本发明实施的技术方案进行清楚、完整地描述，其主要技术流程如下：

1、获取研究区内数字高程模型(Digital elevation model，DEM)；

2、选取土壤厚度影响因子，构建预测模型的输入数据库；

土壤厚度是地形地貌、风化剥蚀和地表径流等多种因子共同作用下的结果，而影响因子的选择，是决定土壤厚度预测精度的重要因素。本发明通过分析土壤形成的物理过程，再结合前人的研究基础和专家经验选择的地形影响因子有：高程、曲率、坡度、坡向和地形湿度指数；选择的环境因子为植被覆盖度。其中，高程影响着土壤的垂直分布；坡度和坡向分别影响着地表物质和能量的强度和方向；平面曲率影响着地表物质和能量在地表上集中或分散方向；剖面曲率影响着物质和能量的加速或减速运动；地形湿度指数能有效地指示土壤内水分运动和土壤相对含水量；而植被覆盖度表示区域内植物对地面的垂直投影面积于该区域面积之比，为土壤的形成发育提高有机介质，增强土壤的水分和养分，对土壤厚度的形成有重要的影响。各影响因子的计算公式如下：

3、确定DEM栅格的最佳分辨率；

大量研究表明，DEM栅格分辨率对地形指数的精度有显著的影响，并且这些研究结果表明，随着分辨率的下降，地形湿度指数、坡度和曲率均值都将减小，一些细微的变化也将被忽略。这些结果将给以地形因子为输入变量的模型造成影响。此外，也有研究表明高分辨率的DEM也并不意味着能预测较好的结果。为此，在对区域土壤厚度建模预测前，需先选取最佳的栅格分辨率。

本发明采用试凑法分别对分辨率为10m、15m、20m、25m和30m的栅格数据进行聚类分析，根据聚类性能，选取最佳栅格分辨率。其中，聚类性能可通过类内紧凑性、类间间隔性、戴维森堡丁指数(Davies-Bouldin Index,DBI)和邓恩指数(Dunn Validity Index，DVI)进行评价。

4、利用SDW-FMS聚类方法对整个研究区的数据进行聚类分析，即对整个区域按相似属性进行分区；

(1)空间距离加权(Spatial distance weighting，SDW)算法

通过每个变量的熵值确定其权值，具体计算步骤如下：

IV.标准化栅格点数据

V.各变量的熵值计算

其中，各变量的比值/>

VI.各变量权值计算

(2)快速均值漂移(Fast mean shift，FMS)算法

II.原始数据集划分

设最终划分的初始簇心集合为C＝{c_j|j＝1，2，...，m}，各簇心所对应的簇记为Data_j(j＝1，2，...，m)，且每个簇含有n_j个栅格点数据。数据划分具体操作如下：

通过SS方式从给定大数据集V中随机选取一个栅格点数据v作为第一个初始簇心c₁，然后计算大数据集V中剩余各点与初始簇心之间的加权欧式距离dist_SDW(·)。当遍历到点v_i(i＝1，2，...n)时，若dist_SDW(v_i，c_j)≤r，则将点v_i与簇心c_j归为一类，并添加进Data_j内，然后令i＝i+1，继续遍历；而如果v_i对所有的c_j∈C都有dist_SDW(v_i，c_j)＞r，则将该点v_i作为新的簇心，将其添进集合C中。然后令i＝i+1，继续遍历。直到V中所有的点都遍历一遍；最后对每个簇的所有栅格点数据取平均，以之作为最终的初始簇心，即值得一提的是，参数r的选取应适当小于固定带宽h(在本示例中r＝0.9h，但不仅限于0.9h，在其它实操案例中可以根据实际的聚类效果进行调整)；

IV.初始簇心更新

采用MS聚类算法对初始簇心集合进行迭代更新，当簇心c_j迭代至收敛时，即(本示例中ε₁＝10^-3)q为迭代次数，则停止该簇心的更新。转而继续更新簇心c_j+1，如此依次进行，直至所有簇心都得到更新。MS簇心更新计算公式如下：

对于固定带宽h，其计算公式：d为数据维度(本示例中d＝k+2)；σ_l为标准误差；

上式中迭代收敛计算以开始，并将更新后的簇心记为/>

V.相似簇融合

对任意若/>则表示a，b簇为相似簇，并将两簇的栅格点集合data_a，data_b合并成一个新的簇；否则划分为不同的簇，而误差ε₂＝10^-3。

5、分别在每个分区内进行土壤厚度实地采样；

根据聚类结果，以各簇(各分区)的簇心或近似簇心为起点(采样位置由簇心地理坐标确定)在研究区进行采样，并以簇心距离R为半径，分别在其周围做适量采样。另可根据分区的大小，决定是否需要进行多轮采样，即每轮采样以R的倍数N×R(N＝1，2，……，n)为半径进行，如图2所示。

由于簇心更新后，新簇心可能不再是原栅格中的某点，在此可通过计算各簇中与新簇心之间的加权欧式距离，选择距离最近的栅格点作为近似簇心点。

6、对每个分区的样本按照3∶1的比例进行训练集和测试集划分，利用每个分区的训练集样本建立各自的GWR模型以预测土壤厚度；利用分区的测试集样本对各自分区的GWR模型进行性能测试。

根据各簇(分区)采集的土壤厚度样本，分别将其按3∶1随机分成训练集和测试集。其中，训练集用于GWR的建模和调参，测试集用于对已建模型的性能测试，性能检测是通过预测均方根误差(Root Mean Squared Error of Prediction，RMSEP)、相关系数(R²)和相对分析误差(residual predictive deviation，RPD)进行评价。

7、利用各分区性能良好的GWR模型预测该分区其他栅格处的土层厚度，即各分区GWR模型的外延预测。

以上所述，已经示出和描述了本发明的实施例，却并非对本发明作任何形式上的限制。本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于聚类采样的山区土壤厚度预测方法，其特征在于，包括以下步骤：

(1)获取研究区内数字高程模型；

(3)确定DEM栅格的最佳分辨率；

(4)利用基于空间距离加权的快速均值漂移聚类方法对整个研究区的数据进行聚类分析，即对整个区域按相似属性进行分区；具体包括以下内容：

(4.1)空间距离加权算法

通过每个变量的熵值确定其权值，具体计算步骤如下：

I.标准化栅格点数据

II.各变量的熵值计算

其中，各变量的比值/>

III.各变量权值计算

(4.2)快速均值漂移算法

I.原始数据集划分

设最终划分的初始簇心集合为C＝{c_j|j＝1，2，...，m}，各簇心所对应的簇记为Data_j，j＝1,2,…,m，且每个簇含有n_j个栅格点数据；数据划分具体操作如下：

通过SS方式从给定大数据集V中随机选取一个栅格点数据v作为第一个初始簇心 c₁，然后计算大数据集V中剩余各点与初始簇心之间的加权欧式距离dist_SDW(·)；当遍历到点v_i，i＝1,2,…,n时，若dist_SDW(v_i，c_j)≤r，则将点v_i与簇心c_j归为一类，并添加进Data_j内，然后令i＝i+1，继续遍历；如果v_i对所有的c_j∈C都有dist_SDW(v_i，c_j)＞r，则将该点v_i作为新的簇心，将其添进集合C中；然后令i＝i+1，继续遍历，直到V中所有的点都遍历一遍；最后对每个簇的所有栅格点数据取平均，以之作为最终的初始簇心，即参数r的选取应适当小于固定带宽h；

II.初始簇心更新

上式中迭代收敛计算以开始，并将更新后的簇心记为/>

III.相似簇融合

对任意若/>则表示a，b簇为相似簇，并将两簇的栅格点集合data_a，data_b合并成一个新的簇；否则划分为不同的簇，而误差ε₂＝10^-3；

(5)分别在每个分区内进行土壤厚度实地采样；具体包括：

根据聚类结果，找到各分区的簇心或簇心邻近区域进行土壤厚度的实地采样，并同时以各簇簇心或近似簇心为起点，以距离簇心R为半径，分别在其周围进行适量采样；另根据分区大小决定是否需要进行多轮采样，即每轮采样以R的倍数N×R为半径进行，N＝1,2,……,z；所述以近似簇心为起点是指，当由于簇心更新导致新簇心不再是原栅格中的某点时，通过计算各簇中与新簇心之间的加权欧式距离，选择距离最近的栅格点作为近似簇心点；

(7)利用每个分区的训练集样本建立各自的地理加权回归模型以预测土壤厚度；

2.根据权利要求1所述的方法，其特征在于，所述土壤厚度影响因子包括地形因子和环境因子。

3.根据权利要求1所述的方法，其特征在于，在所述步骤(3)中，采用试凑法确定DEM栅格最佳分辨率：分别对DEM中采样分辨率为10m、15m、20m、25m和30m所对应的影响因子进行聚类分析，根据聚类的效果选择最佳栅格分辨率。