CN112948932A

CN112948932A - 一种基于TSP预报数据与XGBoost算法的围岩等级预测方法

Info

Publication number: CN112948932A
Application number: CN202110242796.1A
Authority: CN
Inventors: 彭浩; 梁铭; 马文安; 田园; 解威威; 宋冠先; 朱孟龙; 董宏源
Original assignee: Guangxi Road and Bridge Engineering Group Co Ltd
Current assignee: Guangxi Road and Bridge Engineering Group Co Ltd
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2021-06-11

Abstract

本发明属于隧道TSP超前地质预报技术领域。一种基于TSP预报数据与XGBoost算法的围岩等级预测方法，包括如下步骤：(1)获取围岩等级预测模型所需的样本特征数据；(2)收集样本特征数据，对样本特征数据进行预处理和特征工程构建，输出训练数据集；(3)构建基于XGBoost的围岩等级预测模型，运用XGBoost算法训练，模型调参；(4)模型性能评估：根据检验指标评估模型的准确性；(5)过拟合检验：围岩等级预测模型通过过拟合检验后可进行工程实例应用。本发明以TSP超前地质预报技术探测结果为基础，建立基于XGBoost的围岩等级预测模型，能够实现对超前岩体的围岩等级划分，预测精度高。

Description

一种基于TSP预报数据与XGBoost算法的围岩等级预测方法

技术领域

本发明属于隧道TSP超前地质预报技术领域，具体涉及一种基于TSP预报数据与XGBoost算法的围岩等级预测方法。

背景技术

进入21世纪以来，借助交通运输行业的迅猛发展，隧道的建设规模日益庞大。在这其中，公路隧道由于自身的工程特点，愈发面临项目地点偏远化、地质条件复杂化以及修建距离特长化的趋势。基于以上三点，除设计阶段给出的围岩分级之外，在隧道施工阶段中常常面临围岩动态分级的困难与挑战，而传统的围岩分级方法，如BQ法、RMR法、Q值法等量化分级方法，由于其计算所必需的单轴抗压强度、完整性系数等参数往往需要现场或室内试验来获取，因此在隧道施工阶段进行应用具有较大的局限性。至于一些模糊数学模型，如正态云理论、可拓理论等，虽然在围岩分级方面得到了一定程度的应用，但面临指标权重赋值主观性高、预见性不足等缺点。

随着机器学习在数据分析方面的具有赋值客观、处理高效、使用简便等特点，将其应用于隧道围岩动态分级的研究逐渐成为趋势。但不可避免的，不同机器学习方法同样存在自身的局限性，如神经网络(ANN)训练精度必须基于大样本数据，且容易出现过拟合现象；支持向量机(SVM)虽然可以处理小样本问题，但其本身核函数及其参数等难以确定；而高斯过程常在高维空间失去有效性，当样本特征过多时需要进行降维处理。通过对机器学习向相关算法的分析和筛选，XGBoost机器学习模型展现出较为综合与优异的性能。

XGBoost全称是Extreme Gradient Boosting，可译为极限梯度提升算法，与多年前就已经研发出来的传统算法，比如决策树，支持向量机(SVM)、聚类分析等不同，它是由传统机器学习分类回归树算法(CART)发展演变而来的一种高效率的机器学习算法。作为集成算法中提升法(Boosting)的代表算法，XGBoost通过在数据上逐一构建多个弱评估器，经过多次迭代逐渐累积并汇总多个弱评估器的建模结果，以获取比单个模型更好的回归或分类表现。XGBoost被认为是在分类和回归上都拥有超高性能的先进评估器，且在包括岩土等专业的模糊分类问题上取得了创造性的研究成果，这为其在围岩分级中的应用奠定了充实的科学依据。

机器学习的应用前提，是具备可供学习与训练的大量定量化样本数据，这点与TSP超前地质预报相契合。TSP(Tunnel Seismic Prediction)地震波法，是一种基于地震波反射原理对隧道开挖掌子面前方岩体进行超前地质预报与评估的方法，相比较目前隧道常用的地质雷达法，TSP探测距离较远，通常可达100～150m，不仅能预报掌子面前方及周围岩石构造的变化，如围岩破碎带、裂隙密集带、含水夹泥层、断层、溶洞、暗河等不良地质体，还能评估掌子面前方岩体的力学特性。TSP超前地质预报***在对收集的数据进行处理后，可提供掌子面前方岩体丰富、可靠的物理力学参数，如波速、杨氏模量、泊松比等。但由于这些定量数据在与特定围岩等级对应时彼此之间非线性相关，因此在TSP预报数据的围岩分级解译过程中，常从某单一指标出发，且分级预报结果较大程度上依赖人为经验判断，无法实现多指标综合性的定量分析。如何运用一种定量数据分析方法对围岩进行正确的等级预测是目前面临的重大难题。

发明内容

本发明的目的在于克服上述技术问题的缺点，结合TSP超前地质预报***提供超前围岩的定量数据，利用XGBoost机器学习模型提供一种针对隧道施工阶段的围岩等级预测方法，实现对超前岩体的围岩等级划分，预测精度高。

为了实现上述目的，本发明采用如下技术方案：

一种基于TSP预报数据与XGBoost算法的围岩等级预测方法，包括如下步骤：

(1)获取围岩等级预测模型所需的样本特征数据：

确定影响围岩等级的定量数据，构建TSP围岩分级指标体系，并将所述影响围岩等级的定量数据作为围岩等级预测模型输入所需的样本特征数据；

(2)收集样本特征数据，对样本特征数据进行预处理，并对预处理后的样本特征数据进行特征工程构建，输出训练数据集：

对所收集样本数据进行预处理及特征工程的过程包括数据标准化、数据缺失值填充以及主成分降维；

(3)构建基于XGBoost的围岩等级预测模型，运用XGBoost算法训练，模型调参；

(4)模型性能评估：根据检验指标评估模型的准确性；

(5)过拟合检验：围岩等级预测模型通过过拟合检验后可进行工程实例应用。

进一步的，所述影响围岩等级的定量数据包括静态杨氏模量(GPa)、纵波波速(ν_p/m·s^-1)、横波波速(ν_s/m·s^-1)、波速比、泊松比以及密度(kg·m^-3)。

进一步的，所述步骤(2)中，主成分降维通常采用PCA对样本特征数据进行降维处理，在降维中，PCA使用的信息量衡量指标为样本方差，样本方差公式如下式所示：

式中，x_i为单个样本数值，

为整体样本平均值，n为样本数量；

实现主成分降维需要对主成分进行求解，步骤如下：

①将数据进行标准化，求解样本协方差矩阵S，协方差矩阵公式为：

②求解特征方程|S-λE|＝0，其中E为单位矩阵，λ为特征根，解得特征根λ₁,λ₂,...,λ_p

③计算特征值λ_i对应得单位特征向量α_i＝(α_i1,α_i2,...,α_ip)

④计算各主成分的方差贡献率，公式为：

选取主成分的个数由累计方差贡献率确定，一般认为累计方差贡献率达到85％时即可反映原始变量的大部分信息；

⑤写出主成分的表达式，公式为:

P_i＝α_i1X₁+α_i2X₂+...+α_ipX_p (4)。

进一步的，所述步骤(3)中，基于XGBoost的围岩等级预测模型采用如下公式表达：

式中，

表示整个模型在此样本上的预测结果，K表示弱评估器的总数量，f_k表示第k棵决策树，x_i表示样本i对应的特征向量；

XGBoost引入了模型复杂度来衡量算法的运算效率，因此目标函数由传统损失函数与模型复杂度两部分构成，公式表达为：

式中，Obj表示模型的目标函数，n表示导入第k棵树的数据总量；

其中第一项代表传统的损失函数，衡量真实标签y_i和预测值

之间的差异，第二项代表模型的复杂度，使用树模型的某种变换Ω表示，这个变化代表了一个从树的结构来衡量树模型复杂度的式子；

为了求解目标函数，使用泰勒展开对式(6)进行运算，结果如以下公式所示：

式中，γ、λ表示模型复杂度的系数，T表示模型决策树叶子节点个数，g_i、h_i分别表示样本x_i的一阶导数和二阶导数，j表示每个叶子节点的索引，ω_j表示第j个叶子节点上的样本权重，I_j表示第j个叶子节点的样本子集；

将树的结构带入损失函数，即对ω_j求导并且令导函数等于零，可求得目标函数的最小值Obj_min，如以下公式所示：

与现有技术相比，本发明具有以下有益效果：

1.本发明基于TSP预报数据与XGBoost算法的围岩等级预测方法，通过对已验明围岩等级准确性的TSP预报定量数据进行提取收集，组成供XGBoost训练学习的训练集，在导入围岩等级预测模型之前，还需要进行数据预处理及特征工程，以保证训练集数据的规范化与高质量。在围岩等级预测模型对数据进行训练学习过程中，通过对围岩等级预测模型主要参数进行调参，以达到满意的准确度。最后对训练好的模型进行保存，可用于后续TSP新探测数据的定量解译，实现对掌子面前方岩体的围岩等级预测，大大节省围岩分级的成本，开辟XGBoost模型的新领域；所建预测模型具有良好的推广能力，为我国隧道围岩分级提供了一种有效的、新型方法。

2.本发明以TSP超前地质预报技术探测结果为基础，建立基于XGBoost的围岩等级预测模型，训练模型简单，预测精度高。

3.本发明将静态杨氏模量、纵波波速、横波波速、波速比、泊松比以及密度与地质相关联，进一步完善提高了掌子面围岩地质情况的预测精度。

附图说明

图1是本发明一种基于TSP预报数据与XGBoost算法的围岩等级预测方法的流程图；

图2是本发明实施例TSP303样本特征数据降维可视化示意图；

图3是本发明实施例预测集混淆矩阵情况图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。需要说明的是，本发明的具体实施例只是为了能更清楚的描述技术方案，而不能作为本发明保护范围的一种限制。

请参阅图1，一种基于TSP预报数据与XGBoost算法的围岩等级预测方法，包括如下步骤：

(1)获取围岩等级预测模型所需的样本特征数据：

确定影响围岩等级的定量数据，构建TSP围岩分级指标体系，并将所述影响围岩等级的定量数据作为围岩等级预测模型输入所需的样本特征数据；在进行围岩等级划分时，指标主要涉及围岩的坚硬程度、完整程度以及地下水的影响这三点因素，因此综合考虑TSP***可探测并提供的有效围岩物理力学参数，结合相关文献，选取静态杨氏模量(GPa)、纵波波速(ν_p/m·s^-1)、横波波速(ν_s/m·s^-1)、波速比、泊松比以及密度(kg·m^-3)以及密五项定量参数构成围岩分级指标体系，并作为机器学习模型的样本特征数据进行输入。

在样本特征数据导入机器学习模型进行训练之前，通常要根据数据的类型与特点，进行数据预处理与特征工程两项工作，以提高模型的预测准确度。本实施例根据项目提供的TSP超前地质预报资料，共选取70条样本特征数据，其中50条供预测模型进行学习与训练，20条抹去数据标签，最后用于模型性能评估。样本特征数据设置为A1(静态杨氏模量)、A2(纵波波速)、A3(横波波速)、A4(波速比)、A5(泊松比)、A6(密度)，样本标签以现场揭露围岩等级及采取的支护措施等级为标准，同时进行编码，分为0(二级围岩)、1(三级围岩)、2(四级围岩)、3(五级围岩)四个等级。

a1.数据标准化

TSP提供的样本特征数据的特征全部为数值型参数，数据预处理主要涉及归一化(MinMaxScaler)或标准化(StandardScaler)。由于归一化处理对异常值非常敏感，大多数机器学习算法中，如聚类、逻辑回归、支持向量机和神经网络这些算法，会选择数据标准化来进行特征缩放。

当数据(x)按均值(μ)中心化后，再按标准差(σ)缩放，数据就会服从为均值为0，方差为1的正态分布(即标准正态分布)，这个过程就叫做数据标准化，公式如下式所示：

x^*＝(x-μ)/σ

在sklearn中，使用preprocessing.StandardScaler来实现这个功能，将原始样本数据导入后标准化完成的样本数据如表1所示。

a2.数据缺失值填充

在收集的样本特征数据中，某些样本的某些特征参数由于TSP数据异常或其它原因，并未进行有效的采集，为了确保样本数据的完整性，对数据缺失值进行填充。在sklearn中，使用impute.SimpleImputer来实现这个功能，具体参数输入strategy＝’mean’，即用均值对缺失值进行填充。

进行标准化及缺失值填充后的训练集样本数据如表1所示。

表1数据预处理后的模型训练集

a3.主成分降维

在高维数据(通常样本特征大于3)中，必然有一些特征是不带有有效的信息的(比如噪音)，或者有一些特征带有的信息和其他一些特征是重复的，比如在TSP***提供的围岩物理力学参数中，纵波速度及泊松比都可以在一定程度上反映岩石完整程度，波速比及泊松比的变化都可以用来判断地下水状态。因此为了提高样本数据质量、提高模型训练效率，通常采用PCA(Principal Component Analysis，主成分分析理论)对高维样本特征数据进行降维的过程处理。

在降维中，PCA使用的信息量衡量指标，就是样本方差，又称可解释性方差，方差越大，特征所带的信息量越多，样本方差公式如下式所示：

式中，x_i为单个样本数值，

为整体样本平均值，n为样本数量；

实现主成分降维需要对主成分进行求解，步骤如下：

①将数据进行标准化，求解样本协方差矩阵S，标准化在前面步骤已经完成，协方差矩阵公式为：

③计算特征值λ_i对应得单位特征向量α_i＝(α_i1,α_i2,...,α_ip)

④计算各主成分的方差贡献率，公式为：

⑤写出主成分的表达式，公式为:

P_i＝α_i1X₁+α_i2X₂+...+α_ipX_p (4)

在sklearn中，使用sklearn.decomposition中PCA功能对标准化后的数据进行降维处理，参数设置n_components＝2，即将数据降到2维，也就是用2个主成分对原始数据进行表达，并尽可能的保留原始数据的信息量。将降维处理后的数据进行可视化表达，如图2所示。

由图2可以看出，除极个别点之外，降维后的数据具有良好的聚类性，这为后续模型的训练与预测提供了良好的学习基础。同时为量化主成分的信息量，设主成分分别为P1～P6，提取各主成分的总计特征值和总解释方差，如表3所示。

表3主成分总方差解释

如表3所示，当提取P1、P2主成分时，累计方差贡献率高达96.769％，按照主成分选取的原则，当累计方差贡献率达到85％时，提取的主成分基本能够包括原变量蕴含的信息，因此满足要求。进一步提取两主成分的得分系数矩阵，如表4所示。

表4样本特征得分系数矩阵

由表4，可以得到降维后2个主成分关于样本特征的表达式，如式(9)～式(10)所示:

P1＝0.92A1+0.98A2-0.61A3-0.49A4+0.97A5+0.91A6 (9)

P2＝0.34A1+0.12A2+0.76A3+0.84A4+0.21A5+0.26A6 (10)

XGBoost全称是Extreme Gradient Boosting，可译为极限梯度提升算法，作为集成算法中提升法(Boosting)的代表算法，XGBoost通过在数据上逐一构建多个弱评估器，经过多次迭代逐渐累积并汇总多个弱评估器的建模结果，以获取比单个模型更好的回归或分类表现。XGBoost被认为是在分类和回归上都拥有超高性能的先进评估器，且在包括岩土等专业的模糊分类问题上取得了创造性的研究成果，这为其在围岩分级中的应用奠定了充实的科学依据。

该算法以单个决策树作为弱评估器，基本原理是叠加策略，可表示成一种加法的形式，基于XGBoost的围岩等级预测模型采用如下公式表达：

式中，

表示整个模型在此样本上的预测结果，K表示弱评估器(决策树)的总数量，f_k表示第k棵决策树，x_i表示样本i对应的特征向量；

其中第一项代表传统的损失函数，衡量真实标签y_i和预测值

目标函最小值Obj_min是衡量模型好坏的一个重要的指标，其最小值越小，就认为该模型的表现越好。

将经过预处理及特征工程的50条样本数据组成训练集，导入XGBoost模型后进行训练学习，主要涉及到模型调参与模型评价。

a1.模型调参

XGBoost作为一款功能强大的集成算法机器学习模型，涉及到许多参数的设置，且参数取值的不同将在很大程度上限制模型的分级性能，因此在进行学习训练的过程中，应根据数据情况，通过网格搜索GridSearchCV进行模型自身的参数调整，以提高模型的预测效果，发挥模型的最佳性能。

XGBoost调参主要涉及到n_estimators(集成中弱评估器的数量)、eta(迭代决策树时的步长)、max_depth(最大深度)及objective(目标函数)。使用sklearn.model_selection中的GridSearchCV模块，先预先设定各参数的预期取值范围，再对所有参数在该范围内进行遍历，最终得到满足模型最优异性能下的参数取值组合。

本发明的模型主要用到的参数设定如表5所示。

表5 XGBoost模型参数设置

以上述组合为XGBoost的最终参数设定，针对训练集进行模型的训练与学习，通过sklearn.model_selection设置train_test_split为0.3，即训练集50条样本数据中70％用来学习，30％用来预测。

(4)模型性能评估：根据检验指标评估模型的准确性；

模型学习训练完毕后，需要对围岩等级预测模型的性能进行评价。首先通过sklearn.metrics模块进行混淆矩阵的输出。混淆矩阵是一个情形分析表，显示以下16组记录的数目：作出正确判断的肯定记录(真阳性TP)、作出错误判断的肯定记录(假阴性FP)、作出正确判断的否定记录(真阴性FN)以及作出错误判断的否定记录(假阳性TN)。本训练集的预测集情况如图3混淆矩阵所示。

图3中横坐标代表围岩等级预测模型预测标签，纵坐标为原始数据带有的实际标签，可以看出仅在标签3(Ⅴ级围岩)处存在一个样本数据被模型预测为标签2(Ⅳ级围岩)，其余预测集样本全部正确。

通过混淆矩阵，可以计算本模型评价指标Accuracy，计算公式为：Accuracy＝(TP+TN)/(TP+TN+FN+TN)＝14/15＝93.33％

该准确度满足预期设定阈值，该模型在基于TSP数据进行围岩等级预测方面具有优异的性能，最后保存模型。

通过围岩等级预测模型进行过拟合判断，如出现过拟合现象则调整参数，然后重新训练，如此循环，直至未出现过拟合，围岩等级预测模型输出围岩等级预测结果。

本发明基于TSP预报数据与XGBoost算法的围岩等级预测方法，通过对已验明围岩等级准确性的TSP预报定量数据进行提取收集，组成供XGBoost训练学习的训练集，在导入围岩等级预测模型之前，还需要进行数据预处理及特征工程，以保证训练集数据的规范化与高质量。在围岩等级预测模型对数据进行训练学习过程中，通过对围岩等级预测模型主要参数进行调参，以达到满意的准确度。最后对训练好的模型进行保存，可用于后续TSP新探测数据的定量解译，实现对掌子面前方岩体的围岩等级预测，大大节省围岩分级的成本，开辟XGBoost模型的新领域。

上述说明是针对本发明较佳可行实施例的详细说明，但实施例并非用以限定本发明的专利申请范围，凡本发明所提示的技术精神下所完成的同等变化或修饰变更，均应属于本发明所涵盖专利范围。