CN109118004B

CN109118004B - 一种工程构筑选址适宜区预测方法

Info

Publication number: CN109118004B
Application number: CN201810936211.4A
Authority: CN
Inventors: 李宏伟; 卫建华; 田智慧; 赫晓慧; 郭恒亮; 王晓蕾; 赵姗
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-08-16
Filing date: 2018-08-16
Publication date: 2021-09-14
Anticipated expiration: 2038-08-16
Also published as: CN109118004A

Abstract

本发明涉及工程构筑选址适宜区预测的技术领域，具体涉及一种工程构筑选址适宜区预测方法，包括影响指标因子划分的步骤、各影响指标因子划分相关性分析的步骤和网格单元大小选择的步骤，加权信息量计算的步骤和信息量阈值确定的步骤；所述加权信息量计算的步骤，包括计算每个影响指标因子的信息量；根据所述信息量和地质要素约简属性的权重，计算每个影响指标因子的加权信息量；根据所述加权信息量计算每一个网格单元包含的所有影响指标因子综合加权信息量。本发明结合空间加权理论，将模糊粗糙集方法确定的权重加入传统信息量模型中，极大提高预测精度。

Description

一种工程构筑选址适宜区预测方法

技术领域

本发明涉及工程构筑选址适宜区预测的技术领域，具体涉及一种工程构筑选址适宜区预测方法。

背景技术

工程构筑选址适宜区预测前人曾提出过多种方法，如德菲尔法、层次分析法(AHP)、模糊层次分析法(FAHP)、熵权理论法、模糊数学与粗糙集理论法、证据权重法、神经网络法、粒子群算法等。这些方法在实际应用中存在许多不足，特别是评价指标权重分配问题突出，需要改革改进，这也正是该发明的出发点。梳理前人研究方法，大致可分为层次分析相关方法、概率与统计方法、模糊数学与粗糙集理论方法、机器学习方法、空间预测方法等类别。

1)层次分析相关方法及其不足

德菲尔法是最早的权重确定方法，源于管理学中对决策影响指标的重要性度量，后被其他学科引用，并被改进成层析分析法，其权重确定方法的客观性得到提高。

德菲尔法在选取指标或确定指标权重时，仅凭专家们的知识和经验，缺乏客观定量的度量，且选取的指标往往相关性大、关联性强，存在赋权值重叠的问题。

工程构筑选址适宜区预测，涉及许多模糊性指标，经典数学理论已难以描述。用AHP法运算时则会导致权重排序结果出现偏差，为此将模糊数学理论引入AHP法来度量模糊指标，修正AHP法的结果偏差。

层次分析相关方法不能够处理不完备性的指标，也无法提炼数据之间的内部关系，所以难以适用于不同的工程地质环境。

2)概率与统计方法及其不足

工程构筑选址适宜区预测，进行权重指标选择时，可以参考和利用已建成工程的评价指标，以提高工程构筑选址预测评价指标权重确定的合理性与科学性，为此，学者们结合概率论与统计学的知识发明了熵权理论、证据权重等权重确定方法。

证据权重、熵权理论由数据驱动，虽然较好地避免了权重设置的主观性，但证据权重法的二元模式缺乏对已知研究目标规模的考虑和区分，熵权理论则不适用于评价指标值变动很小或突然变大变小的情况。

3)模糊数学与粗糙集理论方法及其不足

模糊数学与粗糙集理论因其处理模糊和不确定问题方面的优势而得到青睐，但其无法处理不完备性的信息***。粗糙集理论则要求被处理的数据必须是离散的，不能处理连续型的数据。

4)机器学习方法及其不足

神经网络法、粒子群算法等机器学习方法应用于工程构筑选址评价指标权重确定研究，要求样本数量多、数据质量高，这在工程选址调查数据较少，且存在大量定性数据时，无法合理地确定各指标的权重。

5)空间预测方法及其不足

从上个世纪60年代开始，欧美国家研究提出空间预测方法。但是空间预测方法中的多元逻辑回归方法、人工神经网络法要求样本数量多、数据质量高，而只适用于特定的空间预测研究领域。

因子加权叠加法用于工程构筑选址适宜区预测时，其依据实际的勘察资料来确定阈值，属于定性推导划分的范畴，主观意识比较强。

传统信息量法是等权重叠加，其实现工程构筑选址适宜区预测中并没有考虑对空间研究目标发生有控制性影响的评价指标的贡献，由此放大了对空间研究目标发生没有或较少有控制性影响的评价指标的贡献。

2、模糊粗糙集理论

模糊集和粗糙集支撑起人类表示、处理、计算不完备和不确定信息的理论框架，二者的影响在人类工程应用领域有明显的体现。尽管早期人们发现模糊集与粗糙集是相辅相成的关系，而不是竞争关系；但是，早期利用两者概念的相似性和结合两者的优势去形成一个全新的混合理论却遇到了很大的阻碍。尽管如此，对模糊集和粗糙集的混合理论——模糊粗糙集理论的开创性研究在20世纪90年代和2000年初期兴起；最近，跨学科研究也从模糊集和粗糙集两大重要计算范式的普及中受益，并帮助完善了模糊粗糙集的理论基础。因此，更加贴近人类的思维模式的模糊粗糙集在处理模糊、不确定性、连续性、不完备性的信息***中得到了广泛应用。

1)模糊粗糙决策表

若将论域U的对象x_i看备选地址，条件属性集A＝{a₁，a₂，a₃，}中的元素a_f看做位置、地形、交通等影响因素，决策属性d看做适合选址程度，则模糊粗糙决策表如表1。

表1模糊粗糙决策表

由表1可以看出，选址结论D就是论域U上的模糊集：

2)模糊等价类

在模糊粗糙集中，将表达出不完整信息的上、下近似集概念以及具有不可区分性的等价关系R按如下方式扩展到模糊等价类，我们可以评价对象间的相似性即对象间多大程度类似，而不是对象模糊元素的不可区分性。由此可定义模糊等价类：

定义1：设S为U上的模糊等价关系，[x]_s为模糊等价类，则有：

令模糊等价类[x]_s为F，则模糊等价类有如下性质：

(1)

(2)u_F(x)∧u_s(x，y)≤u_F(y)；

(3)u_F(x)∧u_F(y)≤u_S(x，y).

3)模糊上、下近似

定义2：设(U，P)为模糊近似空间，F_i为属于U/P的模糊等价类，

模糊P下近似和模糊P上近似定义如下：

其中，X关于(U，P)的正域是PX，X的边界是

这个定义与清晰的上下近似集略有不同，因为每个对象的近似值不明确，所以可以重新定义为：

在计算过程中，不是所有的y∈U都需要考虑，只考虑那些u_F(y)是非零的y对象，此时对象y是模糊等价类F的一个模糊元素。

被称为模糊粗糙集。由定义2上述四个公式可以看出，当全部的等价类都清晰时，这个定义变为传统的粗糙集。此时，考虑清晰下近似的隶属函数：

这表明，如果一个对象x属于一个X子集的等价类，则它属于X的P下近似，模糊下近似的特性与清晰情况下的清晰定义完全相同。模糊下近似可以重写为：

其中，→称为模糊蕴含算子。在清晰的情况下，u_F(x)和u_X(x)取值为0或1，因此，当它的等价类F中至少一个对象完全属于F而不是X时，u _P _X(x)是零，这与清晰下近似的定义完全相同。同样，对于P上近似的定义也可以改写，使其具有实际计算的意义。

4)模糊粗糙集的性质

粗糙集的负域、正域和边界域都可以用模糊隶属函数来表示，正区域的所有元素的隶属度为1，边界区域元素的隶属度为0.5，那些包含在负面区域元素的隶属度为零。因此，有必要允许边界区域中的元素具有0-1范围内的隶属度值，而不仅仅是0.5。设粗糙集为X，等价关系为R，则模糊粗糙集有如下性质：

(1)u_Y(R(X))＝1；

(2)

(3)

5).模糊正域隶属度和模糊属性依赖度

定义3：模糊正域对象x∈U的隶属度为：

只有当对象x所属的等价类是正区域的组成部分时，它才会属于正区域。

定义4：模糊属性依赖度函数为：

模糊属性依赖度对应于确定

的模糊基数除以论域中对象的总数。利用模糊属性依赖度，可以建立起地质属性权重分配的理论基础。

3、信息量模型

信息量的概念源于通信领域，由香农在1948年创作的《A Mathematical Theoryof Communication》一文中首先提出。信息量的主要理论源于概率统计理论与随机过程。信息量于1980年代被引入灾害易发性评估与危险性空间预测研究。随着GIS和遥感技术的发展，被广泛应用于其他领域的空间预测。信息量模型(IVM)的核心思想是以空间研究目标的影响指标为根据，通过信息量公式计算各影响指标因子分段的信息量，使用GIS的叠加分析功能计算各影响指标空间叠加总信息量，评价空间研究目标发生的可能性。

假设空间研究目标Y受影响指标x_i(i＝1，2，3，…，n)的影响，x_i对空间研究目标的影响程度不同。在特定的地质环境条件下，总是有一些影响指标的组合会导致空间研究目标的发生或出现，因此，信息量模型的目标是通过可用已发生或出现的空间研究目标的概率来确定组合中影响指标的信息量。信息量定义为：

其中，P(Y，x₁，x₂，…，x_n)称为x₁，x₂，…，x_n影响指标组合下空间研究目标发生的条件概率，P(Y)表示空间研究目标发生的概率，I(Y，x₁，x₂，…，x_n)为影响指标组合x₁，x₂，…，x_n对空间研究目标提供的信息量。根据条件概率公式，(式1)可以改写成(式2)：

其中，

表示有影响指标x₁存在时，影响指标x₂对空间目标提供的信息量，

表示有影响指标组合x₁，x₂，…，x_n-1存在时，影响指标x_n对空间目标贡献的信息量。

由于导致空间研究目标发生的影响指标以及相应的影响指标组合非常多，为了确定统计样本和计算信息量，把模型的建立过程分为三个步骤：

首先，计算单个影响指标x_i对空间研究目标贡献的信息量，公式如下：

其中，P(x_i|Y)是空间研究目标发生时有影响指标x_i的概率，P(x_i)表示在调查区域中影响指标x_i出现的概率。然而，空间预测是在网格矩阵的基础上进行的，因此，用样本频率取代实际应用中的繁杂理论运算，即：

其中，S是调查区域网格单元总数目，N是调查区域中出现空间研究目标的网格单元总数目，S_i表示调查区域中含有影响指标x_i的网格单元总数目，N_i表示出现空间研究目标区域中含有影响指标x_i的网格单元总数目。

第二步是计算每个影响指标的总信息量I_i，公式如下：

第三步是用通过GIS空间叠加分析计算出的综合信息量表示每一个网格单元可能会出现空间研究目标的程度。I_i＜0表示该网格单元出现空间研究目标的概率低于调查区域的平均出现空间研究目标概率，I_i＝0表示该网格单元出现空间研究目标的概率等于调查区域的平均概率，I_i＞0表示该网格单元出现空间研究目标的概率等于调查区域的平均概率。这表明综合信息量愈大，出现空间研究目标的几率愈大。

发明内容

本发明的目的在于提供一种工程构筑选址适宜区预测方法，结合空间加权理论，将模糊粗糙集方法确定的权重加入传统信息量模型中，极大提高预测精度。

为了达到上述技术目的，本发明所采用的技术方案如下：

一种工程构筑选址适宜区预测方法，该预测方法依次包括以下步骤：

影响指标因子划分的步骤、各影响指标因子划分相关性分析的步骤和网格单元大小选择的步骤，其特征在于：还包括加权信息量计算的步骤和信息量阈值确定的步骤；

所述加权信息量计算的步骤，包括：

根据研究区域单元格的总数目、工程构筑选址定性模型划定的地表工程或临时工程构筑选址适宜区单元格总数目、研究区域中含有地质要素约简属性因子的单元格总数目、和地表工程或临时工程构筑选址适宜区含有地质要素约简属性因子的单元格总数目，来计算地质要素约简属性中每个影响指标因子的信息量；

根据所述每个影响指标因子的信息量和由模糊粗糙集法确定的地表工程或临时工程地质要素约简属性的权重，计算每个影响指标因子的加权信息量；

根据所述每个影响指标因子的加权信息量计算每一个网格单元包含的所有影响指标因子综合加权信息量；

所述信息量阈值确定的步骤，包括：

采用jenks自然断点法的某个划分点作为工程构筑选址适宜区信息量阈值。

进一步，所述地质要素约简属性中每个影响指标因子的信息量的计算公式为：

其中，S表示研究区域单元格的总数目、N表示工程构筑选址定性模型划定的地表工程或临时工程构筑选址适宜区单元格总数目、S_i表示研究区域中含有地质要素约简属性因子x_i的单元格总数目、N_i表示地表工程或临时工程构筑选址适宜区含有地质要素约简属性因子x_i的单元格总数目。

进一步，所述每个影响指标因子的加权信息量的计算公式为：

I(x_i，Y)＝w_iln(N_i/N)/(S_i/S)

其中，S表示研究区域单元格的总数目、N表示工程构筑选址定性模型划定的地表工程或临时工程构筑选址适宜区单元格总数目、S_i表示研究区域中含有地质要素约简属性因子x_i的单元格总数目、N_i表示地表工程或临时工程构筑选址适宜区含有地质要素约简属性因子x_i的单元格总数目，w_i表示由模糊粗糙集法确定的地表工程或临时工程地质要素约简属性的权重。

进一步，所述每一个网格单元包含的所有影响指标因子综合加权信息量的计算公式为：

其中，S表示研究区域单元格的总数目、N表示工程构筑选址定性模型划定的地表工程或临时工程构筑选址适宜区单元格总数目、S_i表示研究区域中含有地质要素约简属性因子x_i的单元格总数目、N_i表示地表工程或临时工程构筑选址适宜区含有地质要素约简属性因子x_i的单元格总数目，w_i表示由模糊粗糙集法确定的地表工程或临时工程地质要素约简属性的权重；

I_i＜0表示该网格单元出现空间研究目标的概率低于调查区域的平均出现空间研究目标概率，I_i＝0表示该网格单元出现空间研究目标的概率等于调查区域的平均概率，I_i＞0表示该网格单元出现空间研究目标的概率等于调查区域的平均概率。

本发明具有如下有益效果：

采用模糊粗糙集理论改进信息量模型。针对传统信息量模型等权重叠加的缺点，为体现对空间研究目标发生有控制性影响的指标的贡献，结合空间加权理论，将模糊粗糙集方法确定的权重加入传统信息量模型中，极大提高预测精度。

在基于粗糙集差分矩阵的地质要素属性筛选与优化方法、基于模糊粗糙集的地质要素约简属性权重确定方法基础上，提出模糊粗糙集改进信息量模型的工程构筑选址适宜区预测方法，解决了信息量模型等权重叠加的缺陷，体现了影响指标之间对空间研究目标发生影响程度的差异性，实现了工程构筑选址适宜区的高精度预测。更好地满足了复杂地质环境条件下工程构筑选址适宜区快速预测的需求，为管理人员正确实施工程构筑选址决策提供科学的依据。

附图说明

图1为本发明的流程图；

图2为本发明的实施例的宽甸地貌简图；

图3为本发明的实施例的长江村和前进村适宜区；

图4为本发明的实施例的坦甸村、永甸镇、窑场村、刘家店村适宜区；

图5为本发明的实施例的岩体风化程度加权信息量分布图；

图6为本发明的实施例的岩体结构面密度加权信息量分布图；

图7为本发明的实施例的岩体结构面结合程度加权信息量分布图；

图8为本发明的实施例的岩体完整性指数加权信息量分布图；

图9为本发明的实施例的岩体点载荷测试平均值加权信息量分布图；

图10为本发明的实施例的岩体单轴饱和抗压强度加权信息量分布图；

图11为本发明的实施例的岩体基本质量指标加权信息量分布图；

图12为本发明的实施例的岩体坚硬程度加权信息量分布图；

图13为本发明的实施例的陆域水体水质等级加权信息量分布图；

图14为本发明的实施例的陆域水体水量等级加权信息量分布图；

图15为本发明的实施例的地下水位埋深加权信息量分布图；

图16为本发明的实施例的地质灾害坡度加权信息量分布图；

图17为本发明的实施例的资源量加权信息量分布图；

图18为本发明的实施例的空间防护岩层厚度加权信息量分布图；

图19为本发明的实施例的地下工程地质要素约简属性综合加权信息量分布图；

图20为本发明的实施例的地下工程构筑选址适宜区；

图21为本发明的实施例的碎石土含砾量加权信息量分布图；

图22为本发明的实施例的土体承载力平均值加权信息量分布图；

图23为本发明的实施例的土体坚硬程度加权信息量分布图；

图24为本发明的实施例的岩体覆土厚度加权信息量分布图；

图25为本发明的实施例的岩体风化程度加权信息量分布图；

图26为本发明的实施例的陆域水体水质等级加权信息量分布图；

图27为本发明的实施例的陆域水体水量等级加权信息量分布图；

图28为本发明的实施例的地质灾害坡度加权信息量分布图；

图29为本发明的实施例的资源量加权信息量分布图；

图30为本发明的实施例的地表工程或临时工程地质要素约简属性综合加权信息量分布图；

图31为本发明的实施例的地表工程或临时工程构筑选址适宜区；

图32为本发明的实施例的基于信息量模型预测的地下工程构筑选址适宜区；

图33为本发明的实施例的基于因子加权叠加模型预测的地下工程构筑选址适宜区；

图34a为本发明的实施例的IVM的ROC曲线；

图34b为本发明的实施例的FWAM的ROC曲线；

图34c为本发明的实施例的IVM-FRS的ROC曲线。

具体实施方式

下面通过具体实施例结合附图来详细说明本发明，需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合，本发明的保护范围并不限于此。

针对传统工程构筑选址适宜区预测方法存在的局限，提出了一种利用模糊粗糙集改进信息量模型的工程构筑选址适宜区预测方法。信息量模型中的空间叠加属于等权重叠加，其缺点是容易减少对空间研究目标发生有控制性影响的影响指标的贡献，而放大对空间研究目标发生较小或没有控制性影响的影响指标的贡献。结合空间加权理论，采用模糊粗糙集改进信息量模型，使得进行GIS空间叠加分析时能够对每个影响指标赋予一定的权重即空间加权，以体现影响指标之间对空间研究目标发生影响程度的差异性，使工程构筑选址适宜区预测更加科学、合理、精准。如图1所示，一种工程构筑选址适宜区预测方法，该预测方法依次包括以下步骤：

步骤S01：影响指标因子划分

模糊粗糙集改进信息量模型要求对空间研究目标的影响指标进行状态划分即因子划分，以便影响指标去除量纲因素，平等地参与空间叠加分析。影响指标通常分成定性属性指标和定量属性指标两类，这两类指标可以细分为三种变量尺度：连续尺度、顺序尺度和名义尺度。对于名义尺度变量，依据名义尺度变量的定性描述就可以对其进行因子划分，一种特征或状态代表一种因子。对于顺序尺度变量，依据顺序尺度变量的顺序等级就可以对其进行因子划分，一种顺序等级代表一种因子。对于连续尺度变量，其数据有量纲且数值是连续的，必须对其连续区间进行划分得到状态区间因子。

影响指标的因子划分影响着空间加权叠加分析的结果。以岩体点载荷测试平均值作为例子，采用等距离离散化方法对岩体点载荷测试平均值进行离散化处理，可将其分为0-3.385、3.385-6.77、6.77-10.155、10.155-13.54四个区间即四个因子，若这四个因子对工程构筑选址适宜性影响差异程度相似，则这种因子划分不能正确体现影响指标对工程构筑选址的影响，因子划分不合理；若影响差异程度显著，则表明因子划分充分体现了影响指标的影响，因子划分合理。所以，模糊粗糙集改进信息量模型在对岩体点载荷测试平均值这类连续尺度变量进行因子划分时，划分区间的合理性取决于其离散化的方法。连续尺度变量的因子可以通过等距离离散化法、Nguyen启发式离散化法等方法划分，也可以通过经验法、统计法划分。连续尺度变量的因子划分数量要适当，并能充分表现不同因子区间对工程构筑选址适宜性的影响差异。

由于模糊粗糙集改进信息量模型预测结果的实用性依赖于因子划分的合理性，因此有必要评估划分方法。因子信息量是其对工程构筑选址适宜性贡献的量度指标，其差异越大，表明不同因子对工程构筑选址适宜性贡献差异越大。在此，可以借用概率与统计理论中的标准差概念，把因子信息量之间的标准差作为衡量划分规则好坏的评价指标，好的划分规则往往使得影响指标范围内的工程构筑选址适宜调查点呈现正态分布，利用这两个方法可以评估划分方法的合理性。

步骤S02：各影响指标因子划分相关性分析

根据条件概率，信息量模型要求因子划分后的各影响指标之间无相关性。一个好的因子划分方法虽然可以体现不同因子对工程构筑选址适宜性贡献的差异，但并不能表明划分后的影响指标互相无相关性。所以，在对各影响指标因子划分后，必须对各影响指标进行相关性分析，以符合条件概率对影响指标的相关性要求。

IVM-FRS使用GIS软件对各影响指标进行相关性分析，分析中涉及的因素对影响指标相关性有很大影响，按照信息量模型的要求，必须是因子划分后的影响指标。举例来说，专家的经验表明岩体的覆土厚度和岩体的点载荷测试平均值没有任何相关性，若在进行影响指标因子划分时将两个属性都只划为一个因子，那么岩体的覆土厚度和岩体的点载荷测试平均值划分结果将完全一样，这表明两个属性的相关性一致。ArcGIS中Spatial Analyst工具提供的Band Collection Statistics可以分析各影响指标的相关性，BandCollection Statistics要求先把各影响指标分布图通过ArcToolbox转换工具转为栅格图层，然后分析因子划分后的各影响指标的相关性，并生成相关矩阵。若矩阵中的数字约等于1，表明这两个影响指标相关；若矩阵中的数字约等于0，表明这两个影响指标是独立的。

步骤S03：网格单元大小选择

网格单元大小划分是IVM-FRS模型关键的一个步骤，是空间叠加分析的基础，也是开展工程构筑选址适宜区预测的基础，其划分的合理性直接影响影响指标叠加的精度，进而影响工程构筑选址适宜区的精度。适宜大小的网格单元能充分体现影响指标因子对工程构筑选址的贡献程度，既不会夸大也不会忽略影响指标因子的作用。网格单元划分过小，会增加ArcGIS软件的计算量，降低计算效率，并且可能会导致部分地质要素单元被分隔开，无法体现地质要素单元对工程构筑选址的整体作用。网格单元划分过大，可能会混淆各影响指标因子的贡献程度，降低工程构筑选址适宜区预测的精度。

网格单元作为空间叠加分析的基本统计单元，前人已对其进行了***性研究，并总结出适用于空间预测网格单元划分的经验公式：

G_S＝7.49+0.0006S-2.0×10^-9S²+2.9×10^-15S³ (8)

式中，G_S表示适宜网格单元大小，S表示原始等高线数据精度的分母。

步骤S04：加权信息量计算

加权信息量计算包括三个步骤：

步骤一：根据以下公式计算地质要素约简属性中每个影响指标因子的信息量：

步骤二：根据以下公式计算每个影响指标因子的加权信息量：

I(x_i，Y)＝w_iln(N_i/N)/(S_i/S) (6)

其中，w_i表示由模糊粗糙集法确定的地表工程或临时工程地质要素约简属性的权重。

步骤三：根据以下公式计算每一个网格单元包含的所有影响指标因子综合加权信息量：

此步骤通过ArcGIS软件栅格叠加功能实现，最终形成工程构筑选址综合加权信息量图。公式6和公式7是基于模糊粗糙集的改进信息量模型(IVM-FRS)的核心公式，依据这两个公式即可划分空间研究目标发生的等级。

在步骤一中计算影响指标因子的信息量时需要注意一点，若影响指标某个因子或者因子组合中无工程构筑选址适宜区域，则在用公式4计算信息量时会出现分子为0的情况，即因子的信息量为负无穷。负无穷的信息量与其他影响指标因子信息量进行空间叠加时会综合加权信息量一直是负无穷的情况，从而会抵消其他影响指标对工程构筑选址适宜性的贡献，而此有负无穷信息量的因子本身可能不那么重要。所以，必须消除负无穷信息量。在信息量模型中，使用影响指标其他因子信息量的最小值作为该有负无穷信息量因子的信息量值。

步骤S05：信息量阈值确定

阈值定义为产生给定效果或结果时必须超过的水平阈值。当超过阈值时，***内部会发生根本性的状态变化，这种变化通常会突然出现。这个定义隐含一种确定性观点：***的状态可以通过比较输入值或一组输入值和阈值来预测，另外隐含的是：当***未来状态发展不涉及随机性时，给定的输入将具有单个可能的输出(高于或低于阈值)。信息量阈值定义为综合加权信息量图中产生工程构筑选址适宜区域时综合加权信息量必须超过的值。采用基于概率与统计的方法确定信息量阈值。当传统方法存在高度主观的缺点时，jenks自然断点法提供了一种客观的方法来确定复杂情况下的阈值。Jenks自然断点优化是一种旨在确定空间数据值到不同类别最佳安排的数据聚类方法，其通过尽量减少每类所有值与本类别平均值的偏差，同时最大限度地提高每个类与其他类的平均值偏差。换句话说，该方法旨在减少类别内部的方差，并最大化类别之间的方差。从其核心数学理论可以看出，jenks自然断点法基于概率分布与统计规律划分综合加权信息量类别和选择类别之间的划分点；因此，jenks自然断点法克服了人为依据调查资料选择信息量阈值的主观性，使得信息量阈值选择更加客观、科学、合理。

通过ArcGIS软件运用jenks自然断点法可以把综合加权信息量划分为若干类。根据jenks自然断点法核心思想，每一类与相邻类别划分点的信息量值能使工程构筑选址适宜性发生跳跃式变化。所以选择jenks自然断点法的某一个划分点作为工程构筑选址适宜区信息量阈值。

下面列举出一个具体的实施例来进一步说明本发明。

1、研究区域地理地质环境

如图1所示，以辽宁宽甸为工程构筑选址研究区。该区域地貌地质形态多样，主要地貌地质类型有构造剥蚀低山丘陵、高丘、山间谷地和玄武岩台地：

(1)构造剥蚀低山区，分布于宽甸县南部、东部的大部分地区，是宽甸主要地貌之一。海拔在500～1000m之间，呈东西向展布。相对高差300～500m，山坡坡度多为20°～30°。植被总体较发育，平均覆盖率60％以上，树种多为天然林和人工林。

(2)高丘陵区，主要分布在长甸镇及其以南等地。海拔多在100～500m之间，大体沿鸭绿江展布，岩石类型主要为元古代的混合岩及辽河群变质岩。山势低矮、谷坡宽缓、峰顶稍圆。丘陵外形浑圆、波状起伏。

(3)山间谷地，分布在鸭绿江水系沿河两岸，海拔高度在200m以下。形状呈树枝状窄谷地，为宽甸主要耕地分布区。

(4)玄武岩台地，仅极少量分布于宽甸西北角，为第四纪火山玄武岩台地发育区。宽甸县内分布死火山口有20余处，火山锥、火山口地貌景观为辽东地区罕见。

2、地质要素约简属性因子划分

地质要素约简属性中没有名义尺度属性，因此不需要考虑名义尺度属性的因子划分。对具体的地质要素约简属性因子划分，可以分为两种情况。依据影响指标因子划分原理，对于地质要素约简属性中的顺序尺度变量，如土体要素的土体坚硬程度，岩体要素的岩体风化程度、岩体结构面结合程度、岩体坚硬程度，陆域水体要素的水体水质等级、水体水量等级，资源要素的资源量，可以按照其顺序等级划分因子并进行编号。地质要素筛选与优化中，已经对这些顺序尺度属性进行了等级划分，在此只需套用这个等级划分就可完成这些顺序尺度属性的因子划分，如表2所示。

表2地质要素约简顺序尺度属性因子划分

对于地质要素约简属性连续尺度变量，如土体要素的碎石土含砾量、承载力平均值，岩体要素的覆土厚度、结构面密度、完整性指数、点载荷测试平均值、岩体单轴抗饱和强度、岩体基本质量指标，陆域水体要素的地下水位埋深，地质灾害要素的坡度，资源要素的空间防护岩层厚度，可以采用等距离离散化法、Nguyen启发式离散化法以及经验法、统计法进行因子划分。在此以岩体基本质量指标为例，选择因子信息量之间标准差最大且地质要素约简属性范围内的工程构筑选址适宜调查点呈现正态分布两个标准的因子划分方法。

分析研究区调查数据可知，岩体基本质量指标的数值范围为255.38-547.76，把其划分为五个因子。按照等距离离散化理论可以划分为255.38-313.856、313.856-372.332、372.332-430.808、430.808-489.284、489.284-547.76五个因子；按照Nguyen启发式离散化理论可以划分为255.38-326、326-391、391-413、413-455、455-547.76五个因子；按照专家的经验可以划分为255.38-321、321-386、386-425、425-463、463-547.76五个因子；按照统计法理论可以划分为255.38-316、316-384、384-448、448-489、489-547.76五个因子；分别对上述因子按照顺序编号为1、2、3、4、5。根据信息量模型理论统计上述四种方法划分的各因子工程构筑选址适宜区的数据，并依据公式4计算各因子的信息量，计算结果见表3和表4。工程构筑选址适宜区数据是前人在工程构筑选址定性模型划定的长江村、前进村地下工程构筑选址适宜区(如图3所示)和坦甸村、永甸镇、窑场村、刘家店村地表工程或临时工程构筑选址适宜区(如图4所示)的工程构筑选址适宜区数据，这些数据也是模糊粗糙集改进信息量模型的统计样本。

表3岩体基本质量指标各因子的工程构筑选址适宜调查点统计数量

因子	1	2	3	4	5
						等距离法	1	36	37	33	3
Nguyen启发式法	15	25	28	18	24
						经验法	11	15	23	26	35
统计法	2	14	56	35	3

表4岩体基本质量指标各因子的信息量

因子	1	2	3	4	5	标准差
							等距离法	-0.673	0.572	3.285	2.392	-0.861	2.013
Nguyen启发式法	-2.836	-0.489	1.382	1.871	2.165	1.897
							经验法	-1.392	-0.237	1.732	2.136	3.829	1.502
统计法	-3.526	-1.139	2.725	3.481	2.749	2.185

从表3得知，统计法的适宜调查点因子数量分布最趋向正态分布，从表3得知统计法的信息量标准差最大；所以统计法的因子划分结果可选为岩体基本质量指标的因子划分。其他地质要素约简属性连续尺度变量最佳因子划分结果如表5，从1开始给每个地质要素约简属性连续尺度变量的因子编序列号。

表5地质要素约简属性连续尺度变量的因子划分

3、地质要素约简属性因子划分相关性分析

按照IVM-FRS模型要求，地质要素约简属性进行因子划分后，必须对其进行相关性分析，以满足公式6和公式7中条件概率对地质要素约简属性无相关性的要求。相关性分析的影响指标有7个因子划分后的地质要素约简属性顺序尺度变量：土体坚硬程度、岩体风化程度、岩体结构面结合程度、岩体坚硬程度、水体水质等级、水体水量等级、资源量，有11个因子划分后的地质要素约简属性连续尺度变量：碎石土含砾量、土体承载力平均值、岩体覆土厚度、岩体结构面密度、岩体完整性指数、岩体点载荷测试平均值、岩体单轴抗饱和强度、岩体基本质量指标、地下水位埋深、地质灾害坡度、空间防护岩层厚度，上述18个地质要素约简属性的因子划分结果如表2和表5。

首先把各地质要素约简属性因子划分结果分布图通过ArcToolbox转为栅格图，再使用Spatial Analyst中的Band Collection Statistics工具统计分析18个因子划分后的地质要素约简属性的相关性，生成各地质要素约简属性之间的相关矩阵，如表6所示。

表6列示的18个因子划分后的地质要素约简属性相关系数可以看出，相关矩阵对角线的元素为1，即18个约简属性本身的相关系数是1，其他元素大小趋近于0，即18个约简属性之间的相关系数趋近0，这表明因子划分后的18个地质要素约简属性互相之间独立。

4、单元格划分

因子划分后的地质要素约简属性之间无相关性，就可以对地质要素约简属性进行空间叠加分析。空间叠加分析的基础是对地质要素约简属性分布图进行单元格划分，单元格的大小要适中以保证充分体现地质要素约简属性每个因子的信息量大小以及每个因子对工程构筑选址适宜性的贡献程度。使用空间预测网格单元划分经验公式8对地质要素约简属性分布图进行单元格划分，研究区地质要素约简属性分布图原始等高线精度分母是80000，则：G_S＝7.49+0.0006×8×10⁴-2.0×10^-9×64×10⁸+2.9×10^-15×512×10¹²≈69.7748，为空间叠加分析时计算方便，单元格大小划分为70米。

5、地质要素约简属性加权信息量计算

在计算地质要素约简属性加权信息量之前，把工程构筑选址定性模型划定的适宜区内的地质要素调查点数据随机分为两个组，将含有70％数据的训练组用于IVM-FRS模型训练以计算加权信息量，含有其余30％数据的验证组用于验证IVM-FRS模型有效性。

表6因子划分后的地质要素约简属性相关矩阵

1)地下工程地质要素约简属性因子加权信息量计算

地下工程构筑选址的影响指标有岩体风化程度、岩体结构面密度、岩体结构面结合程度、岩体完整性指数、岩体点载荷测试平均值、岩体单轴饱和抗压强度、岩体基本质量指标、岩体坚硬程度、陆域水体水质等级、陆域水体水量等级、地下水位埋深、地质灾害坡度、资源量、空间防护岩层厚度14个地质要素约简属性。地下工程地质要素约简属性因子加权信息量的计算分为两个步骤：

第一是根据公式4计算14个地质要素约简属性每个因子的信息量；用S表示研究区域单元格的总数目，N表示工程构筑选址定性模型划定的地下工程构筑选址适宜区单元格总数目，S_i表示研究区域中含有地质要素约简属性因子x_i的单元格总数目，N_i表示地下工程构筑选址适宜区含有地质要素约简属性因子x_i的单元格总数目。

第二是根据公式6计算14个地质要素约简属性每个因子的加权信息量，用w_i表示由模糊粗糙集法确定的地下工程地质要素约简属性的权重。地下工程地质要素约简属性因子加权信息量计算结果如表7。

表7地下工程地质要素约简属性因子加权信息量

2)地表工程或临时工程地质要素约简属性因子加权信息量计算

地表工程或临时工程构筑选址的影响指标有碎石土含砾量、土体承载力平均值、土体坚硬程度、岩体覆土厚度、岩体风化程度、陆域水体水质等级、陆域水体水量等级、地质灾害坡度、资源量9个地质要素约简属性。与地下工程一样，地表工程或临时工程地质要素约简属性因子加权信息量的计算也分为两个步骤：

第一是根据公式4计算9个地质要素约简属性每个因子的信息量；用S表示研究区域单元格的总数目，N表示工程构筑选址定性模型划定的地表工程或临时工程构筑选址适宜区单元格总数目，S_i表示研究区域中含有地质要素约简属性因子x_i的单元格总数目，N_i表示地表工程或临时工程构筑选址适宜区含有地质要素约简属性因子x_i的单元格总数目。

第二是根据公式6计算9个地质要素约简属性每个因子的加权信息量，用w_i表示由模糊粗糙集法确定的地表工程或临时工程地质要素约简属性的权重。地表工程或临时工程地质要素约简属性因子加权信息量计算结果如表8所示。表格中加权信息量值的意义同地下工程因子加权信息量值的意义。

表8地表工程或临时工程地质要素约简属性因子加权信息量

6、工程构筑选址适宜区预测

实现工程构筑选址适宜区预测的基础是通过空间叠加各地质要素约简属性每个因子加权信息量图得到工程构筑选址综合加权信息量图。这可以通过ArcGIS软件栅格叠加功能实现。最关键的是使用jenks自然断点法将综合加权信息量划分为非常大、大、中等、小、非常小五个等级，根据jenks自然断点法核心思想，非常大等级与大等级划分点的信息量值能使工程构筑选址适宜性发生跳跃式变化，所以取非常大的范围为工程构筑选址适宜区。

1)地下工程构筑选址适宜区预测

影响地下工程构筑选址的14个地质要素约简属性中岩体风化程度加权信息量分布图如图5所示，岩体结构面密度加权信息量分布图如图6所示，岩体结构面结合程度加权信息量分布图如图7所示，岩体完整性指数加权信息量分布图如图8所示，岩体点载荷测试平均值加权信息量分布图如图9所示，岩体单轴饱和抗压强度加权信息量分布图如图10所示，岩体基本质量指标加权信息量分布图如图11所示，岩体坚硬程度加权信息量分布图如图12所示，陆域水体水质等级加权信息量分布图如图13所示，陆域水体水量等级加权信息量分布图如图14所示，地下水位埋深加权信息量分布图如图15所示，地质灾害坡度加权信息量分布图如图16所示，资源量加权信息量分布图如图17所示，空间防护岩层厚度加权信息量分布图见图18。通过ArcGIS软件对前述14个地质要素约简属性加权信息量分布图栅格叠加得到地下工程地质要素约简属性综合加权信息量分布图，如图19所示。

使用jenks自然断点法将地下工程地质要素约简属性综合加权信息量划分为非常大、大、中等、小、非常小五个等级，见表9；取非常大等级与大等级的划分点信息量值为地下工程构筑选址适宜区阈值，其值为0.607950；取非常大等级范围为地下工程构筑选址适宜区，并用红色标示在经过正射校正的遥感影像上，见图20。

表9地下工程地质要素约简属性综合加权信息量等级划分

2)地表工程或临时工程构筑选址适宜区预测

影响地表工程或临时工程构筑选址的9个地质要素约简属性中碎石土含砾量加权信息量分布图见图21，土体承载力平均值加权信息量分布图见图22，土体坚硬程度加权信息量分布图见图23，岩体覆土厚度加权信息量分布图见图24，岩体风化程度加权信息量分布图见图25，陆域水体水质等级加权信息量分布图见图26，陆域水体水量等级加权信息量分布图见图27，地质灾害坡度加权信息量分布图见图28，资源量加权信息量分布图见图29。通过ArcGIS软件对前述9个地质要素约简属性加权信息量分布图进行栅格叠加，得到地表工程或临时工程地质要素约简属性综合加权信息量分布图，如图30所示。

使用jenks自然断点法将地表工程或临时工程地质要素约简属性综合加权信息量划分为非常大、大、中等、小、非常小五个等级，见表10；取非常大等级与大等级的划分点信息量值为地表工程或临时工程构筑选址适宜区阈值，其值为1.59172；取非常大等级范围为地表工程或临时工程构筑选址适宜区，并用绿色标示在经过正射校正的遥感影像上，见图31。

表10地表工程或临时工程地质要素约简属性综合加权信息量等级划分

7、工程构筑选址适宜区预测结果评价

工程构筑选址适宜区预测结果评价有两种方法，一是采用对比验证法，通过对比适宜区预测结果和定性模型划定的适宜区验证基于模糊粗糙集改进信息量模型预测工程构筑选址适宜区的有效性；二是采用ROC曲线即受试者工作特性曲线，通过对比IVM-FRS与其他模型ROC曲线下的面积比例来评价IVM-FRS的精度。本节提到的工程构筑选址定性模型划定的地下工程构筑选址适宜区是指长江村工程构筑选址适宜区，其地理坐标为E124°53′ 27.81″ -124° 56′ 15.11″、N40° 36′ 01.29″ -40° 37′ 41.31″；前进村工程构筑选址适宜区，其地理坐标：E124° 53′ 17.78″ -124° 56′ 05.77″、N40° 30′ 37.28″ -40°31′ 44.89″，矩形范围如图3所示。划定的地表工程或临时工程构筑选址适宜区是指坦甸村、永甸镇、窑场村和刘家店村工程构筑选址适宜区，由于其范围呈多边形，在此不表述其地理坐标，具体范围如图4所示。

对比验证法的核心思想是比较工程构筑选址适宜区预测结果与地质要素调查点数据验证组，若验证组数据分布在预测的适宜区内，则表明IVM-FRS模型能有效预测工程构筑选址适宜区。我们随机将工程构筑选址定性模型划定的适宜区内30％的地质要素调查点数据分为验证组，在对比验证方法中，用N_i(f＝1，2，…，n)表示验证组第n个调查点数据是否在预测适宜区内，若N_i＝1，则说明在，若N_i＝0表明不在。然后统计N的数值并与验证组数据数量作对比，在允许误差存在的条件下，如果数值N与验证组数据数量比例高于96％，即验证组中96％的调查点落在预测适宜区内，则表明IVM-FRS模型预测工程构筑选址适宜区是有效的。现分别统计地下工程与地表工程或临时工程的数值N，结果如表11。

表11工程构筑选址适宜区对比验证法评价表

工程类别	数值N	验证组数据数量	比例
				地下工程	86	86	100％
地表工程或临时工程	52	53	98.1％

表11中地下工程的数值N与验证组数据数量比例为100％，地表工程或临时工程的比例为98.1％，均超过98％，说明IVM-FRS模型预测工程构筑选址适宜区是有效的。所以图20即为研究区地下工程构筑选址适宜区，图31即为研究区地表工程或临时工程构筑选址适宜区。对比图20和图3以及图31和图4的适宜区范围可以发现，预测的地下工程构筑选址适宜区处于长江村和前进村两个矩阵适宜区范围内，并呈不规则多边形状；预测的地表工程或临时工程构筑选址适宜区处于坦甸村、永甸镇、窑场村和刘家店村适宜区范围内，两个预测适宜区范围边界更加精确。

ROC曲线作为一个研究二元问题的有用工具，如工程构筑选址适宜与否，已被广泛评估空间预测模型的性能，通过设置不同的阈值得到真阳性率(TRR)和假阳性率(FRR)来绘制ROC曲线。在本研究中，X轴的假阳性值表示为预测适宜区地质要素约简属性综合加权信息量与最高综合加权信息量的比例，Y轴的真阳性值表示为预测适宜区内调查点数量累计百分比。利用ROC曲线下的面积比例(AUC)评估空间预测模型，且AUC取值范围为0.5-1，AUC值最大的模型是最好的。AUC值愈接近1则模型产生的结果愈好；相反，AUC值愈接近0.5意味着模型产生的结果愈差；一般认为，模型的AUC值大于0.7表明其具有高精度。

利用ROC曲线统计AUC，评估经典的信息量模型(IVM)、前人开发的因子加权叠加模型(FWAM)和本发明研究的基于模糊粗糙集的改进信息量模型的精度和预测能力。使用信息量模型预测的研究区地下工程构筑选址适宜区如图32所示，基于因子加权叠加模型预测的研究区地下工程构筑选址适宜区如图33所示。

本发明提出了模糊粗糙集改进信息量模型，以实现工程构筑选址适宜区的高精度预测。首先介绍了传统信息量模型的核心思想和计算公式，并给出了在空间网格矩阵条件下的影响指标信息量计算公式。针对等权重叠加的缺点，提出了模糊粗糙集改进信息量模型，并给出了IVM-FRS的核心公式6和公式7；IVM-FRS模型分为影响指标因子划分、各影响指标因子划分相关性分析、网格单元大小选择、加权信息量计算、信息量阈值确定等五个步骤；给出了衡量因子划分方法好坏的影响指标即因子信息量之间的标准差和工程构筑选址适宜调查点是否呈现正态分布；利用Band Collection Statistics分析了各影响指标的相关性，以实现IVM-FRS模型对影响指标的无相关性要求；采用空间预测网格单元划分的经验公式实现对网格单元的划分；给出了加权信息量计算的三个步骤，通过ArcGIS软件栅格叠加功能形成工程构筑选址综合加权信息量图；采用jenks自然断点法的某一个划分点作为工程构筑选址适宜区信息量阈值。

以辽宁宽甸作为研究区，实现了工程构筑选址适宜区预测。按照IVM-FRS模型五个步骤，对地质要素约简属性进行因子划分，套用顺序尺度属性等级划分得到了地质要素约简顺序尺度属性因子划分结果，得到了地质要素约简属性连续尺度变量的因子划分结果；对地质要素约简属性进行因子划分相关性分析，利用Band Collection Statistics工具统计分析得到了18个因子划分后的地质要素约简属性相关矩阵，结果表明因子划分后的18个地质要素约简属性互相之间独立；对地质要素约简属性分布图进行单元格划分，取单元格大小为70米；计算得到地下工程地质要素约简属性因子加权信息量和地表工程或临时工程地质要素约简属性因子加权信息量；最终实现了地下工程构筑选址适宜区预测和地表工程或临时工程构筑选址适宜区预测。

对工程构筑选址适宜区预测结果进行评价，采用对比验证法统计地下工程的数值N与验证组数据数量比例为100％，地表工程或临时工程的比例为98.1％，验证了IVM-FRS模型预测工程构筑选址适宜区是有效的；采用ROC曲线统计IVM、FWAM和IVM-FRS的AUC值分别为0.834、0.792和0.878，验证了IVM-FRS在预测能力方面比IVM、FWAM有更好的表现，是三种模型中预测工程构筑选址适宜区最好的模型。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种工程构筑选址适宜区预测方法，该预测方法依次包括以下步骤：影响指标因子划分的步骤、各影响指标因子划分相关性分析的步骤和网格单元大小选择的步骤，其特征在于：还包括加权信息量计算的步骤和信息量阈值确定的步骤；

所述加权信息量计算的步骤包括如下三步：

其中，S表示研究区域单元格的总数目、N表示工程构筑选址定性模型划定的地表工程或临时工程构筑选址适宜区单元格总数目、S_i表示研究区域中含有地质要素约简属性因子x_i的单元格总数目、N_i表示地表工程或临时工程构筑选址适宜区含有地质要素约简属性因子x_i的单元格总数目；

I(x_i,Y)＝w_iln(N_i/N)/(S_i/S)

其中，w_i表示由模糊粗糙集法确定的地表工程或临时工程地质要素约简属性的权重；

I_i＜0表示该网格单元出现空间研究目标的概率低于调查区域的平均出现空间研究目标概率，I_i＝0表示该网格单元出现空间研究目标的概率等于调查区域的平均概率，I_i＞0表示该网格单元出现空间研究目标的概率等于调查区域的平均概率；

此步骤通过ArcGIS软件栅格叠加功能实现，最终形成工程构筑选址综合加权信息量图；

在信息量模型中，使用影响指标其他因子信息量的最小值作为有负无穷信息量因子的信息量值；

所述信息量阈值确定的步骤，包括：

采用jenks自然断点法的一划分点作为工程构筑选址适宜区信息量阈值。