CN114880954A

CN114880954A - 一种基于机器学习的滑坡敏感性的评估方法

Info

Publication number: CN114880954A
Application number: CN202210657465.9A
Authority: CN
Inventors: 杨海清; 陈立川; 梁丹; 李卓航; 徐洪; 王�琦; 梁振兴; 王骏
Original assignee: Chongqing University; Chongqing Institute of Geology and Mineral Resources
Current assignee: Chongqing University; Chongqing Institute of Geology and Mineral Resources
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2022-08-09

Abstract

本发明涉及滑坡灾害预测领域，公开了一种基于机器学习的滑坡敏感性的评估方法。本发明是通过使用不同的机器学习方法来提升滑坡敏感性图的可靠性，其原理是两个或多个模型可能具有非常相似的预测性能，即使它们包含不同的环境预测因子和/或它们产生截然不同的空间预测，因此很难知道使用哪个等效的候选模型，几种模型的组合表明，它们产生的输出比单一模型更强大、更稳定的集合预测。

Description

一种基于机器学习的滑坡敏感性的评估方法

技术领域

本发明涉及滑坡灾害预测领域，具体涉及一种基于机器学习的滑坡敏感性的评估方法。

背景技术

山体滑坡是主要的自然灾害之一，在世界各地具有巨大和广泛的影响，并造成人员和社会经济损失。滑坡风险的时空预测仍存在较大的不确定性，因此，滑坡风险的识别和缓解仍是地方政府面临的一项艰巨任务。为此，滑坡敏感性评估对于滑坡风险的识别十分重要。近年来，由于科学的发展，结合数值确定性建模与统计方法，发明了许多方法旨在评估滑坡敏感性绘图(LSM)。确定性模型需要关于导致触发的物理过程的信息，因此根据类型涉及不同的方法。

统计模型假设过去导致斜坡崩塌的因素会反复引发滑坡。因此，过去滑坡的清单加上环境因素可以用来训练统计模型。许多算法已应用于LSM，例如人工神经网络，支持向量机，随机森林等。许多学者提出了最小化不确定性的方法，该方法依赖于组合多种算法产生的预测。因此，研究新的用于滑坡敏感性绘图的集合方法(EMs)是非常必要的。集成建模(EM)在最小化不确定性、改进和提高预测精度方面做出了重要贡献，而预测精度一直是使用LSM时需要考虑的关键参数。滑坡易感性制图是滑坡风险缓解的重要工具，特别是如果以严格的方式进行并有准确的数据集支持的话。统计方法的限制之一是与每个过程相关的不确定性。即使许多以评估统计方法的可靠性和评估统计方法的优良性为目标的方法(如ROC/AUC等)都可以实施，但一定比例的不可预判性总是与统计建模严格挂钩。

因此，本发明通过使用不同的机器学习方法来最小化这种影响，旨在通过集成三种不同的机器学习方法对研究区进行建模，根据研究区域的主要特征考虑多种诱发因素(PFs)，展示集成建模如何支持土地利用规划和滑坡灾害管理。

发明内容

本发明意在提供一种基于机器学习的滑坡敏感性的评估方法，通过集成不同的机器学习算法建模，提高其可靠性，对土地利用规划和滑坡灾害管理有重要意义。

为达到上述目的，本发明采用如下技术方案：一种基于机器学习的滑坡敏感性的评估方法，包括如下步骤：

S1：研究区滑坡初始数据采集；通过航空正射摄影测量和实地调查获取研究区滑坡编目；

S2：滑坡诱发因素选择；所述诱发因素包括坡角、方位角、平面曲率、剖面曲率、与道路的距离、与河流的距离、地形湿度指数、地形位置指数、径流强度指数、农业梯田活动状态、土地使用、地质岩性、和土壤厚度；

S3：处理预测变量共线性问题；选择两种不同的策略来使用渐进程序排除高度共线性的变量；使用了VIF_cor，其中cor代表相关性，首先，找到一对线性相关的变量，并排除VIF最大的变量；重复该过程，直到任意一个变量与另一个变量之间不具有相关系数，即大于阈值。

S4：研究区敏感性建模；运用人工神经网络(ANN)、梯度提升机(GBM)、最大熵模型(MaxEnt)进行研究区滑坡易感性建模；

S5：物种分布模型可靠性评估；选择了接受者操作特征曲线(ROC)和真实技能统计(TSS)评估每个物种分布模型(SDM)的可靠性；

S6：集成算法建模；

S7：集成模型交互；根据易感性值的空间分布，对整体易感性图进行比较，分析了不同模型之间的空间相似性。

进一步，步骤S2中，将已经滑坡的数据设置为响应变量，已滑坡的数据为在研究区收集到的数据点；将诱发因素设置为预测变量。

进一步，步骤S3中，测量方差膨胀因子VIF，将阈值设置为0.7；方差膨胀因子VIF是基于将一个预测变量与所有其他预测变量回归得到的多重相关系数的平方，VIF的公式如下：

方差膨胀系数是容忍度的倒数,其中，Ri为自变量对其余自变量作回归分析的负相关系数；

VIF_step计算了所有变量的VIF，排除VIF最高的变量(大于阈值)并重复该过程，直到有VIF大于其余变量。

方差膨胀系数是衡量多元线性回归模型中复(多重)共线性严重程度的一种度量，多重共线性是指自变量之间存在线性相关关系，即一个自变量可以是其他一个或几个自变量的线性组合。若存在多重共线性，计算自变量的偏回归系数时矩阵不可逆，其表现主要有：整个模型的方差分析结果与各个自变量的回归系数的检验结果不一致，专业判断有统计学意义的自变量检验结果却无意义，自变量的系数或符号与实际情况严重不符等；它表示回归系数估计量的方差与假设自变量间不线性相关时方差相比的比值，方差膨胀系数是容忍度的倒数,其中，Ri为自变量对其余自变量作回归分析的负相关系数；方差膨胀系数VIF越大，说明自变量之间存在共线性的可能性越大；一般来讲，如果方差膨胀因子超过10，则回归模型存在严重的多重共线性，又根据的共线性诊断标准，当自变量的容忍度大于0.1，方差膨胀系数小于10的范围是可以接受的，表明自变量之间没有共线性问题存在；VIF的取值大于1，VIF值越接近于1，多重共线性越轻，反之越重，当多重共线性严重时，应采取适当的方法进行调整，容忍度的值界于0至1之间，当容忍度值较小时，表示此自变量与其他自变量之间存在共线性。

进一步，步骤S4中，使用k折交叉验证方法，保留数据的随机部分以进行校准，其余用于测试模型的预测；然后对单个模型重复多次整个方法，最终报告平均预测精度。

进一步，步骤S5中，TSS范围从-1到1，从0.2到0.5的值被认为是差的，从0.5到0.8的值被认为是好的，大于0.8的值被认为是极好的；当ROC/AUC值低于0.5时，预测精度较差，值在0.5-0.7之间预测效果较好，值在0.7-0.9范围之间预测效果好，当值大于0.9说明效果很好。

进一步，步骤S6中，选择四种具有代表性的集成模型，分别是概率平均值模型(PM)、概率中值模型(PME)、基于委员会的学***均值模型(PMW)。

进一步，步骤S6中，集成模型预测结果评估：为了衡量所选择的EM对预测输出的作用，通过ANOVA检验对均值、加权均值和基于中值的最终预测之间的空间变异性进行了检验。

进一步，步骤S6中，模型的不确定性评估：从所有执行的EM获得的结果并评估它们的不确定性，计算了变异系数(CV)，从EM中提取的易感性值分为5类，CV图分为6类，使用基于矩阵的方法分析集成模型和不确定图(CV图)之间的关系，以生成置信度图对模型的不确定性评估。

相比现有技术，本发明是通过使用不同的机器学习方法来提升滑坡敏感性图的可靠性，其原理是两个或多个模型可能具有非常相似的预测性能，即使它们包含不同的环境预测因子和/或它们产生截然不同的空间预测，因此很难知道使用哪个等效的候选模型，几种模型的组合表明，它们产生的输出比单一模型更强大、更稳定的集合预测。

附图说明

图1是本发明一种基于机器学习的滑坡敏感性的评估方法的流程图。

具体实施方式

下面通过具体实施方式进一步详细说明：

本发明中S1表示步骤1，S101表示S1中的01步骤，S102表示S1中的02步骤，依次类推。

具体实施过程如下：

设研究区为M区。

S1：研究区滑坡初始数据采集：

S101:滑坡编目数据获取：通过航空正射摄影测量和实地调查获取研究区滑坡编目。M区已发生过260处浅层滑坡，因此收集这些滑坡数据，由于所调查的滑坡为多边形，因此只选取了一个最高点，即滑坡区海拔最高的点。执行这个操作是为了能够运行需要点作为输入数据的不同模型。

S102：滑坡诱发因素选择：根据最具代表性的局部形态和空间特征，选择了13个预测变量。它们包括坡角、方位角、平面曲率、剖面曲率、与道路的距离、与河流的距离、地形湿度指数、地形位置指数、径流强度指数、农业梯田活动状态、土地使用、地质岩性、和土壤厚度。本方法分析重点是环境变量，因此没有考虑触发因素如强降雨和地震。由于大多数影响因子来自5×5m单元的数字地形模型(DTM)，所有预测因素图都被设置为相等的DTM分辨率。

S2：设置初始数据集：

将已经滑坡的数据设置为响应变量，已滑坡的数据为在研究区域收集到的数据点。将诱发因素设置为预测变量，这包括了步骤S102中所述的8个连续变量和5个分类变量。

S3：处理预测变量共线性问题：

为了减少预测变量之间的共线性，测量了方差膨胀因子(VIF)，并将阈值设置为0.7。方差膨胀因子(VIF)是基于将一个预测变量与所有其他预测变量回归得到的多重相关系数的平方。因此，它通过简单的相关检测出不可能容易检测到多重共线性。具体的，选择两种不同的策略来使用渐进程序排除高度共线性的变量。使用了VIF_cor(cor代表相关性)，首先，找到一对线性相关最大的变量，并排除VIF最大的那个变量。该过程重复进行，直到没有一个变量与另一个变量之间具有较高的相关系数(大于阈值)。VIF_step计算了所有变量的VIF，排除VIF最高的变量(大于阈值)并重复该过程，直到有VIF大于其余变量。

VIF通过测量回归中的方差因共线而增加的程度来估计多重共线效应的严重程度，VIF测试可以检测变量的线性相关结构，VIF测试可以检测变量的线性相关结构，使用从R语言中的usdm包中导入的数据对象和vif()命令，usdm包中含有方差膨胀测试功能；它可以用于测试数据帧和光栅堆栈对象，它还提供了测试哪些变量组合仍低于给定相关性阈值的选项；与分别为R语言中的命令，函数查看各自变量间的相关系数，接下来利用函数进行变量的初步筛选

所述两种不同的策略分别为与，使用(cor代表相关性)，先找到一对线性相关最大的变量，并排除VIF最大的那个变量，该过程重复进行，直到没有一个变量与另一个变量之间具有较高的相关系数(大于阈值)，计算了所有变量的VIF，排除VIF最高的变量(大于阈值)并重复该过程，直到有VIF大于其余变量，通过以上步骤进行多重共线性的检验。

S4：研究区敏感性建模：

运用三种机器学***均预测精度。因此，每个SDM执行100次，将总体分成80％用于训练，其余部分用于测试。训练模型后，通过对各个变量之间进行相关性得到变量的重要性。两个预测变量之间相关性高分意味着两个变量中的一个影响较低，对于模型来说被认为不重要。相反，低相关性意味着两个变量对模型的影响都很高。获得与事件发生概率相关的每个变量的重要性，训练模型后，通过在各个变量之间建立相关性来获得变量的重要性，两个预测变量之间的良好相关性得分意味着两个变量之一的影响较小，并且被认为对模型不重要；相反，低相关性意味着这两个变量对模型的影响很大。通过对各个变量之间进行相关性得到变量的重要性，重要性越高说明该变量对滑坡的影响越高。

S5：物种分布模型可靠性评估：

选择了接受者操作特征曲线(ROC)和真实技能统计(TSS)评估每个物种分布模型(SDM)的可靠性。TSS考虑了遗漏和操作错误，范围从-1到1，从0.2到0.5的值被认为是差的，从0.5到0.8的值被认为是好的，大于0.8的值被认为是好到极好的。当ROC/AUC值低于0.5时，预测精度较差，值在0.5-0.7之间预测效果较好，值在0.7-0.9范围之间预测效果好，当值大于0.9说明效果很好。由于ROC/AUC曲线表现出更高的性能，因此使用了集成建模。通过实施四种集成技术来组合模型的输出，并通过执行变异系数来计算建模输出的可变性。

ROC的全称是“受试者工作特征”曲线，是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系，它通过将连续变量设定出多个不同的临界值，从而计算出一系列敏感性和特异性，再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线，曲线下面积越大，诊断准确性越高。在ROC曲线上，最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。其中最重要的两个公式如下：

TP为真正例，FP为假正例，FN为假负例，TN为真负例；TPR为真正例率，FPR为假正利率，TP+FN表示实际数据集中正样本的数量，FP+TN表示实际数据集中负样本的数量，在ROC曲线图中，每个点以对应的FPR值为横坐标，以TPR值为纵坐标。假设已经得出一系列样本被划分为正类的概率Score值，按照大小排序；从高到低，依次将“Score”值作为阈值threshold，当测试样本属于正样本的概率大于或等于这个threshold时，我们认为它为正样本，否则为负样本。举例来说，对于某个样本，其“Score”值为0.6，那么“Score”值大于等于0.6的样本都被认为是正样本，而其他样本则都认为是负样本；每次选取一个不同的threshold，得到一组FPR和TPR，以FPR值为横坐标和TPR值为纵坐标，即ROC曲线上的一点；根据之前的每个坐标点，画图。

S6：集成算法建模：

S601：选择集成模型：在得到独立的滑坡敏感性制图后，选择四种具有代表性的集成模型。

①概率平均值模型(PM)—这种集成方法对应于每个选择模型的平均概率。

②概率中值模型(PME)—这个集合模型对应于所选模型上的中位数概率。中位数对异常值的敏感性小于均值。

③基于委员会的学习模型(CA)—首先要将所选模型的概率转换成二进制数据。它建立在简单投票的基础上。每个模型都对滑坡是否存在进行了投票。这种方法的好处在于，它既给出了预测，也给出了不确定性的度量。当预测值接近于0或1时，表示各模型的预测值分别为0和1；当预测值在0.5左右时，这意味着一半的模型预测1，另一半预测0。

④概率加权平均值模型(PMW)—此算法返回所选评估方法分数的加权平均值，更准确地说，这是加权和。

PM模型对应于所选模型的平均概率。

PME模型对应于所选模型的中值概率，中位数对异常值的敏感度低于平均值，实际上，计算中值比平均值(甚至加权平均值)需要更多的时间和内存，因为它要求加载所有预测，然后提取中值。

为了建立CA模型，首先根据BIOMOD_Modeling步骤(最大化“测试数据集”上的评估指标得分)定义的阈值，将所选模型的概率转换为二进制数据,委员会的平均分数就是二元预测的平均值,它建立在简单投票的基础上。每个模型都会投票选出存在或不存在的物种,对于每个站点，1的总和除以模型的数量。这一模型的有趣之处在于，它既给出了预测，也给出了不确定性的度量。当预测值接近0或1时，意味着所有模型都同意分别预测0和1。当预测值在0.5左右时，这意味着一半的模型预测1，另一半预测0。

PMW算法返回所选评估方法得分的加权平均值(或者更准确地说，这是加权和)模型越好，它在集合中的重要性越大，该方法来自BIOMOD_Modeling步骤。

S602：集成模型预测结果评估：

为了衡量所选择的EM对预测输出的作用，通过ANOVA检验(Analysis of Variancetest)对均值、加权均值和基于中值的最终预测之间的空间变异性进行了检验。ANOVA提供了两个或两个以上的总体均值是否相等的统计检验，它基于总方差定律，其中某一特定变量的观察方差被划分为可归因于不同变异源的成分。此外，方法之间的两两差异通过图基显著性差异检验来验证，这是在进行多次两两比较时，控制第一类错误率最推荐和使用的程序之一。

S603：集合模型结果预报：每种单一的机器学期模型都运用了100中不同的训练和测试组合，在此阶段生成的每个敏感性图都有很小的变化并且具有不同的误差和评估分数，在之后的集成模型阶段会降低。

EM是通过使用四种不同的集成技术进行的：概率平均值技术(PM)、概率中值技术(PME)、委员会平均值技术(CA)和概率加权平均值技术(PMW)。通过对单一的机器学习模型预测结果的比较可知，EM的使用提高了模型的可靠性，获得的结果也可以相互比较，结果均具有优异的AUC值和良好的TSS分数。

S604：模型中变量重要性评估：运用R语言中的“biomod2”库可以评估滑坡的动力学特征和有代表性的预测变量。所有模型中，坡向和曲率相对于其他变量表现出更高的分数。其他PF表现出中等程度的重要性，例如土地利用和梯田活动状态。通过运行可知“坡度”、“坡向”、“平面曲率”、“土地利用情况”、“梯田活动状况”5个预测变量具有较高的重要性。

S605：模型的不确定性评估：为了比较从所有执行的EM获得的结果并评估它们的不确定性，计算了变异系数(CV)。概率的CV(即每个像素的标准差/平均值)是衡量集成模型不确定性的指标，当数据可用时，它具有相应的重要性。如果CV得出的评估分数高，则说明给定数据的不确定性很高，而分数越低，模型的输出越好。具有高CV值的区域可以识别出主要位于低敏感性值的区域。一般来说，CV图为估计M区的坡易发区以及集合地图提供了基础。然而，CV图无法考虑来自诱发因素的不确定性；因此，通过对每个SDM使用相同的输入变量，减少了来自变量的不确定性。

本发明中使用基于矩阵的方法分析集成模型和不确定图，即CV图之间的关系，以生成“置信度”图。通过这种方式，对集成模型的可靠性进行了评估。

来自EM的易感性值细分为五组(1-5)，而CV图分为六类(1-6)；在两张地图中，都应用了自然间断法。该矩阵是在整个表格中生成的，以识别集合图在减少各种SDM的不确定性方面的功效。矩阵表中的值51突出显示了具有高滑坡可能性和低变异性的像素。相反，值为16意味着一个像素具有高不确定性和低崩溃倾向，具体可见下表1，变异系数与滑坡敏感***互作用的矩阵。

表1

从EM中提取的易感性值可分为5类(1～5)，CV图可分为6类(1～6)，分类方法为自然间断法，该矩阵是在整个表格中生成的，以识别整体图在降低不同SDM的不确定性方面的有效性。

S7：集成模型交互：根据易感性值的空间分布，对整体易感性图进行了进一步的比较，分析了不同模型之间的空间相似性。如前所述，集合地图已分为五类(1-5)，随后，已经执行了不同地图之间的相交操作。在不同的地图之间进行了相交操作，但没有考虑基于委员会的学***均值。相交图的每个像素代表了各个模型可以假设的不同组合。因此，标记为“111”的值表示所有模型都具有低敏感性的像素。同样，标记为“555”的像素代表所有模型都具有高敏感性的区域。在此操作期间，还获得了中间组合作为输出(例如“121”)，其中第一个和第三个模型的敏感性较低，而第二个模型的敏感性较高。

滑坡敏感性图是滑坡风险缓解的一个重要工具，尤其是如果以严格的方式进行并有准确的数据集支持的话。对于这一点，统计概率方法代表了一种理想的综合方法，尤其是如果应用于大面积区域，并且当地质、地貌、水文和人为影响因素之间的相互作用极高时。然而，统计方法的一个限制是与每个过程相关的不确定性。即使可以实施许多旨在评估可靠性和评估统计方法优点的方法(如ROC\/AUC等)，不可预测性的百分比始终与统计建模密切相关。因此，本方法通过使用不同的机器学***均值、中值、加权平均值)和总体变化(以及不确定性)。通过模型的评估对比，集成建模在制作滑坡敏感性图时具有更高的可靠性，这对滑坡风险的预测具有重要的意义。

以上所述的仅是本发明的实施例，方案中公知的具体技术方案和/或特性等常识在此未作过多描述。应当指出，对于本领域的技术人员来说，在不脱离本发明技术方案的前提下，还可以作出若干变形和改进，在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种基于机器学习的滑坡敏感性的评估方法，其特征在于，包括如下步骤：

S3：处理预测变量共线性问题；选择两种不同的策略来使用渐进程序排除高度共线性的变量；使用了VIF_cor，其中cor代表相关性，首先，找到一对线性相关的变量，并排除VIF最大的变量；重复该过程，直到任意一个变量与另一个变量之间不具有相关系数。

S6：集成算法建模；

2.根据权利要求1所述的一种基于机器学习的滑坡敏感性的评估方法，其特征在于：步骤S2中，将已经滑坡的数据设置为响应变量，已滑坡的数据为在研究区收集到的数据点；将诱发因素设置为预测变量。

3.根据权利要求1所述的一种基于机器学***方，VIF的公式如下：

VIF_step计算了所有变量的VIF，排除VIF大于阈值的最高的变量，并重复该过程，直到有VIF大于其余变量。

4.根据权利要求1所述的一种基于机器学***均预测精度。

5.根据权利要求1所述的一种基于机器学习的滑坡敏感性的评估方法，其特征在于：步骤S5中，TSS范围从-1到1，从0.2到0.5的值被认为是差的，从0.5到0.8的值被认为是好的，大于0.8的值被认为是极好的；当ROC/AUC值低于0.5时，预测精度较差，值在0.5-0.7之间预测效果较好，值在0.7-0.9范围之间预测效果好，当值大于0.9说明效果很好。

6.根据权利要求1所述的一种基于机器学***均值模型(PM)、概率中值模型(PME)、基于委员会的学***均值模型(PMW)。

7.根据权利要求6所述的一种基于机器学习的滑坡敏感性的评估方法，其特征在于：步骤S6中，集成模型预测结果评估：为了衡量所选择的EM对预测输出的作用，通过ANOVA检验对均值、加权均值和基于中值的最终预测之间的空间变异性进行了检验。

8.根据权利要求7所述的一种基于机器学习的滑坡敏感性的评估方法，其特征在于：步骤S6中，模型的不确定性评估：从所有执行的EM获得的结果并评估它们的不确定性，计算了变异系数CV，从EM中提取的易感性值分为5类，CV图分为6类，使用基于矩阵的方法分析集成模型和不确定图之间的关系，以生成置信度图对模型的不确定性评估。