CN112948932A - 一种基于TSP预报数据与XGBoost算法的围岩等级预测方法 - Google Patents
一种基于TSP预报数据与XGBoost算法的围岩等级预测方法 Download PDFInfo
- Publication number
- CN112948932A CN112948932A CN202110242796.1A CN202110242796A CN112948932A CN 112948932 A CN112948932 A CN 112948932A CN 202110242796 A CN202110242796 A CN 202110242796A CN 112948932 A CN112948932 A CN 112948932A
- Authority
- CN
- China
- Prior art keywords
- model
- surrounding rock
- data
- sample
- xgboost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000011435 rock Substances 0.000 title claims abstract description 104
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000007689 inspection Methods 0.000 claims abstract description 8
- 238000012360 testing method Methods 0.000 claims abstract description 6
- 238000005516 engineering process Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 29
- 230000009467 reduction Effects 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000003066 decision tree Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 8
- 230000001186 cumulative effect Effects 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 5
- 230000003068 static effect Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 150000001875 compounds Chemical class 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 5
- 238000010801 machine learning Methods 0.000 description 13
- 238000010606 normalization Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000000513 principal component analysis Methods 0.000 description 6
- 238000012706 support-vector machine Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013178 mathematical model Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000002689 soil Substances 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000019994 cava Nutrition 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 229940088594 vitamin Drugs 0.000 description 1
- 229930003231 vitamin Natural products 0.000 description 1
- 235000013343 vitamin Nutrition 0.000 description 1
- 239000011782 vitamin Substances 0.000 description 1
- 150000003722 vitamin derivatives Chemical class 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
- G06F30/13—Architectural design, e.g. computer-aided architectural design [CAAD] related to design of buildings, bridges, landscapes, production plants or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/08—Construction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Biology (AREA)
- Marketing (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Hardware Design (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Educational Administration (AREA)
- Pure & Applied Mathematics (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Architecture (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Structural Engineering (AREA)
- Civil Engineering (AREA)
Abstract
本发明属于隧道TSP超前地质预报技术领域。一种基于TSP预报数据与XGBoost算法的围岩等级预测方法,包括如下步骤:(1)获取围岩等级预测模型所需的样本特征数据;(2)收集样本特征数据,对样本特征数据进行预处理和特征工程构建,输出训练数据集;(3)构建基于XGBoost的围岩等级预测模型,运用XGBoost算法训练,模型调参;(4)模型性能评估:根据检验指标评估模型的准确性;(5)过拟合检验:围岩等级预测模型通过过拟合检验后可进行工程实例应用。本发明以TSP超前地质预报技术探测结果为基础,建立基于XGBoost的围岩等级预测模型,能够实现对超前岩体的围岩等级划分,预测精度高。
Description
技术领域
本发明属于隧道TSP超前地质预报技术领域,具体涉及一种基于TSP预报数据与XGBoost算法的围岩等级预测方法。
背景技术
进入21世纪以来,借助交通运输行业的迅猛发展,隧道的建设规模日益庞大。在这其中,公路隧道由于自身的工程特点,愈发面临项目地点偏远化、地质条件复杂化以及修建距离特长化的趋势。基于以上三点,除设计阶段给出的围岩分级之外,在隧道施工阶段中常常面临围岩动态分级的困难与挑战,而传统的围岩分级方法,如BQ法、RMR法、Q值法等量化分级方法,由于其计算所必需的单轴抗压强度、完整性系数等参数往往需要现场或室内试验来获取,因此在隧道施工阶段进行应用具有较大的局限性。至于一些模糊数学模型,如正态云理论、可拓理论等,虽然在围岩分级方面得到了一定程度的应用,但面临指标权重赋值主观性高、预见性不足等缺点。
随着机器学习在数据分析方面的具有赋值客观、处理高效、使用简便等特点,将其应用于隧道围岩动态分级的研究逐渐成为趋势。但不可避免的,不同机器学习方法同样存在自身的局限性,如神经网络(ANN)训练精度必须基于大样本数据,且容易出现过拟合现象;支持向量机(SVM)虽然可以处理小样本问题,但其本身核函数及其参数等难以确定;而高斯过程常在高维空间失去有效性,当样本特征过多时需要进行降维处理。通过对机器学习向相关算法的分析和筛选,XGBoost机器学习模型展现出较为综合与优异的性能。
XGBoost全称是Extreme Gradient Boosting,可译为极限梯度提升算法,与多年前就已经研发出来的传统算法,比如决策树,支持向量机(SVM)、聚类分析等不同,它是由传统机器学习分类回归树算法(CART)发展演变而来的一种高效率的机器学习算法。作为集成算法中提升法(Boosting)的代表算法,XGBoost通过在数据上逐一构建多个弱评估器,经过多次迭代逐渐累积并汇总多个弱评估器的建模结果,以获取比单个模型更好的回归或分类表现。XGBoost被认为是在分类和回归上都拥有超高性能的先进评估器,且在包括岩土等专业的模糊分类问题上取得了创造性的研究成果,这为其在围岩分级中的应用奠定了充实的科学依据。
机器学习的应用前提,是具备可供学习与训练的大量定量化样本数据,这点与TSP超前地质预报相契合。TSP(Tunnel Seismic Prediction)地震波法,是一种基于地震波反射原理对隧道开挖掌子面前方岩体进行超前地质预报与评估的方法,相比较目前隧道常用的地质雷达法,TSP探测距离较远,通常可达100~150m,不仅能预报掌子面前方及周围岩石构造的变化,如围岩破碎带、裂隙密集带、含水夹泥层、断层、溶洞、暗河等不良地质体,还能评估掌子面前方岩体的力学特性。TSP超前地质预报***在对收集的数据进行处理后,可提供掌子面前方岩体丰富、可靠的物理力学参数,如波速、杨氏模量、泊松比等。但由于这些定量数据在与特定围岩等级对应时彼此之间非线性相关,因此在TSP预报数据的围岩分级解译过程中,常从某单一指标出发,且分级预报结果较大程度上依赖人为经验判断,无法实现多指标综合性的定量分析。如何运用一种定量数据分析方法对围岩进行正确的等级预测是目前面临的重大难题。
发明内容
本发明的目的在于克服上述技术问题的缺点,结合TSP超前地质预报***提供超前围岩的定量数据,利用XGBoost机器学习模型提供一种针对隧道施工阶段的围岩等级预测方法,实现对超前岩体的围岩等级划分,预测精度高。
为了实现上述目的,本发明采用如下技术方案:
一种基于TSP预报数据与XGBoost算法的围岩等级预测方法,包括如下步骤:
(1)获取围岩等级预测模型所需的样本特征数据:
确定影响围岩等级的定量数据,构建TSP围岩分级指标体系,并将所述影响围岩等级的定量数据作为围岩等级预测模型输入所需的样本特征数据;
(2)收集样本特征数据,对样本特征数据进行预处理,并对预处理后的样本特征数据进行特征工程构建,输出训练数据集:
对所收集样本数据进行预处理及特征工程的过程包括数据标准化、数据缺失值填充以及主成分降维;
(3)构建基于XGBoost的围岩等级预测模型,运用XGBoost算法训练,模型调参;
(4)模型性能评估:根据检验指标评估模型的准确性;
(5)过拟合检验:围岩等级预测模型通过过拟合检验后可进行工程实例应用。
进一步的,所述影响围岩等级的定量数据包括静态杨氏模量(GPa)、纵波波速(νp/m·s-1)、横波波速(νs/m·s-1)、波速比、泊松比以及密度(kg·m-3)。
进一步的,所述步骤(2)中,主成分降维通常采用PCA对样本特征数据进行降维处理,在降维中,PCA使用的信息量衡量指标为样本方差,样本方差公式如下式所示:
实现主成分降维需要对主成分进行求解,步骤如下:
①将数据进行标准化,求解样本协方差矩阵S,协方差矩阵公式为:
②求解特征方程|S-λE|=0,其中E为单位矩阵,λ为特征根,解得特征根λ1,λ2,...,λp
③计算特征值λi对应得单位特征向量αi=(αi1,αi2,...,αip)
④计算各主成分的方差贡献率,公式为:
选取主成分的个数由累计方差贡献率确定,一般认为累计方差贡献率达到85%时即可反映原始变量的大部分信息;
⑤写出主成分的表达式,公式为:
Pi=αi1X1+αi2X2+...+αipXp (4)。
进一步的,所述步骤(3)中,基于XGBoost的围岩等级预测模型采用如下公式表达:
XGBoost引入了模型复杂度来衡量算法的运算效率,因此目标函数由传统损失函数与模型复杂度两部分构成,公式表达为:
式中,Obj表示模型的目标函数,n表示导入第k棵树的数据总量;
为了求解目标函数,使用泰勒展开对式(6)进行运算,结果如以下公式所示:
式中,γ、λ表示模型复杂度的系数,T表示模型决策树叶子节点个数,gi、hi分别表示样本xi的一阶导数和二阶导数,j表示每个叶子节点的索引,ωj表示第j个叶子节点上的样本权重,Ij表示第j个叶子节点的样本子集;
将树的结构带入损失函数,即对ωj求导并且令导函数等于零,可求得目标函数的最小值Objmin,如以下公式所示:
与现有技术相比,本发明具有以下有益效果:
1.本发明基于TSP预报数据与XGBoost算法的围岩等级预测方法,通过对已验明围岩等级准确性的TSP预报定量数据进行提取收集,组成供XGBoost训练学习的训练集,在导入围岩等级预测模型之前,还需要进行数据预处理及特征工程,以保证训练集数据的规范化与高质量。在围岩等级预测模型对数据进行训练学习过程中,通过对围岩等级预测模型主要参数进行调参,以达到满意的准确度。最后对训练好的模型进行保存,可用于后续TSP新探测数据的定量解译,实现对掌子面前方岩体的围岩等级预测,大大节省围岩分级的成本,开辟XGBoost模型的新领域;所建预测模型具有良好的推广能力,为我国隧道围岩分级提供了一种有效的、新型方法。
2.本发明以TSP超前地质预报技术探测结果为基础,建立基于XGBoost的围岩等级预测模型,训练模型简单,预测精度高。
3.本发明将静态杨氏模量、纵波波速、横波波速、波速比、泊松比以及密度与地质相关联,进一步完善提高了掌子面围岩地质情况的预测精度。
附图说明
图1是本发明一种基于TSP预报数据与XGBoost算法的围岩等级预测方法的流程图;
图2是本发明实施例TSP303样本特征数据降维可视化示意图;
图3是本发明实施例预测集混淆矩阵情况图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。需要说明的是,本发明的具体实施例只是为了能更清楚的描述技术方案,而不能作为本发明保护范围的一种限制。
请参阅图1,一种基于TSP预报数据与XGBoost算法的围岩等级预测方法,包括如下步骤:
(1)获取围岩等级预测模型所需的样本特征数据:
确定影响围岩等级的定量数据,构建TSP围岩分级指标体系,并将所述影响围岩等级的定量数据作为围岩等级预测模型输入所需的样本特征数据;在进行围岩等级划分时,指标主要涉及围岩的坚硬程度、完整程度以及地下水的影响这三点因素,因此综合考虑TSP***可探测并提供的有效围岩物理力学参数,结合相关文献,选取静态杨氏模量(GPa)、纵波波速(νp/m·s-1)、横波波速(νs/m·s-1)、波速比、泊松比以及密度(kg·m-3)以及密五项定量参数构成围岩分级指标体系,并作为机器学习模型的样本特征数据进行输入。
(2)收集样本特征数据,对样本特征数据进行预处理,并对预处理后的样本特征数据进行特征工程构建,输出训练数据集:
在样本特征数据导入机器学习模型进行训练之前,通常要根据数据的类型与特点,进行数据预处理与特征工程两项工作,以提高模型的预测准确度。本实施例根据项目提供的TSP超前地质预报资料,共选取70条样本特征数据,其中50条供预测模型进行学习与训练,20条抹去数据标签,最后用于模型性能评估。样本特征数据设置为A1(静态杨氏模量)、A2(纵波波速)、A3(横波波速)、A4(波速比)、A5(泊松比)、A6(密度),样本标签以现场揭露围岩等级及采取的支护措施等级为标准,同时进行编码,分为0(二级围岩)、1(三级围岩)、2(四级围岩)、3(五级围岩)四个等级。
对所收集样本数据进行预处理及特征工程的过程包括数据标准化、数据缺失值填充以及主成分降维;
a1.数据标准化
TSP提供的样本特征数据的特征全部为数值型参数,数据预处理主要涉及归一化(MinMaxScaler)或标准化(StandardScaler)。由于归一化处理对异常值非常敏感,大多数机器学习算法中,如聚类、逻辑回归、支持向量机和神经网络这些算法,会选择数据标准化来进行特征缩放。
当数据(x)按均值(μ)中心化后,再按标准差(σ)缩放,数据就会服从为均值为0,方差为1的正态分布(即标准正态分布),这个过程就叫做数据标准化,公式如下式所示:
x*=(x-μ)/σ
在sklearn中,使用preprocessing.StandardScaler来实现这个功能,将原始样本数据导入后标准化完成的样本数据如表1所示。
a2.数据缺失值填充
在收集的样本特征数据中,某些样本的某些特征参数由于TSP数据异常或其它原因,并未进行有效的采集,为了确保样本数据的完整性,对数据缺失值进行填充。在sklearn中,使用impute.SimpleImputer来实现这个功能,具体参数输入strategy=’mean’,即用均值对缺失值进行填充。
进行标准化及缺失值填充后的训练集样本数据如表1所示。
表1数据预处理后的模型训练集
a3.主成分降维
在高维数据(通常样本特征大于3)中,必然有一些特征是不带有有效的信息的(比如噪音),或者有一些特征带有的信息和其他一些特征是重复的,比如在TSP***提供的围岩物理力学参数中,纵波速度及泊松比都可以在一定程度上反映岩石完整程度,波速比及泊松比的变化都可以用来判断地下水状态。因此为了提高样本数据质量、提高模型训练效率,通常采用PCA(Principal Component Analysis,主成分分析理论)对高维样本特征数据进行降维的过程处理。
在降维中,PCA使用的信息量衡量指标,就是样本方差,又称可解释性方差,方差越大,特征所带的信息量越多,样本方差公式如下式所示:
实现主成分降维需要对主成分进行求解,步骤如下:
①将数据进行标准化,求解样本协方差矩阵S,标准化在前面步骤已经完成,协方差矩阵公式为:
②求解特征方程|S-λE|=0,其中E为单位矩阵,λ为特征根,解得特征根λ1,λ2,...,λp
③计算特征值λi对应得单位特征向量αi=(αi1,αi2,...,αip)
④计算各主成分的方差贡献率,公式为:
选取主成分的个数由累计方差贡献率确定,一般认为累计方差贡献率达到85%时即可反映原始变量的大部分信息;
⑤写出主成分的表达式,公式为:
Pi=αi1X1+αi2X2+...+αipXp (4)
在sklearn中,使用sklearn.decomposition中PCA功能对标准化后的数据进行降维处理,参数设置n_components=2,即将数据降到2维,也就是用2个主成分对原始数据进行表达,并尽可能的保留原始数据的信息量。将降维处理后的数据进行可视化表达,如图2所示。
由图2可以看出,除极个别点之外,降维后的数据具有良好的聚类性,这为后续模型的训练与预测提供了良好的学习基础。同时为量化主成分的信息量,设主成分分别为P1~P6,提取各主成分的总计特征值和总解释方差,如表3所示。
表3主成分总方差解释
如表3所示,当提取P1、P2主成分时,累计方差贡献率高达96.769%,按照主成分选取的原则,当累计方差贡献率达到85%时,提取的主成分基本能够包括原变量蕴含的信息,因此满足要求。进一步提取两主成分的得分系数矩阵,如表4所示。
表4样本特征得分系数矩阵
由表4,可以得到降维后2个主成分关于样本特征的表达式,如式(9)~式(10)所示:
P1=0.92A1+0.98A2-0.61A3-0.49A4+0.97A5+0.91A6 (9)
P2=0.34A1+0.12A2+0.76A3+0.84A4+0.21A5+0.26A6 (10)
(3)构建基于XGBoost的围岩等级预测模型,运用XGBoost算法训练,模型调参;
XGBoost全称是Extreme Gradient Boosting,可译为极限梯度提升算法,作为集成算法中提升法(Boosting)的代表算法,XGBoost通过在数据上逐一构建多个弱评估器,经过多次迭代逐渐累积并汇总多个弱评估器的建模结果,以获取比单个模型更好的回归或分类表现。XGBoost被认为是在分类和回归上都拥有超高性能的先进评估器,且在包括岩土等专业的模糊分类问题上取得了创造性的研究成果,这为其在围岩分级中的应用奠定了充实的科学依据。
该算法以单个决策树作为弱评估器,基本原理是叠加策略,可表示成一种加法的形式,基于XGBoost的围岩等级预测模型采用如下公式表达:
XGBoost引入了模型复杂度来衡量算法的运算效率,因此目标函数由传统损失函数与模型复杂度两部分构成,公式表达为:
式中,Obj表示模型的目标函数,n表示导入第k棵树的数据总量;
为了求解目标函数,使用泰勒展开对式(6)进行运算,结果如以下公式所示:
式中,γ、λ表示模型复杂度的系数,T表示模型决策树叶子节点个数,gi、hi分别表示样本xi的一阶导数和二阶导数,j表示每个叶子节点的索引,ωj表示第j个叶子节点上的样本权重,Ij表示第j个叶子节点的样本子集;
将树的结构带入损失函数,即对ωj求导并且令导函数等于零,可求得目标函数的最小值Objmin,如以下公式所示:
目标函最小值Objmin是衡量模型好坏的一个重要的指标,其最小值越小,就认为该模型的表现越好。
将经过预处理及特征工程的50条样本数据组成训练集,导入XGBoost模型后进行训练学习,主要涉及到模型调参与模型评价。
a1.模型调参
XGBoost作为一款功能强大的集成算法机器学习模型,涉及到许多参数的设置,且参数取值的不同将在很大程度上限制模型的分级性能,因此在进行学习训练的过程中,应根据数据情况,通过网格搜索GridSearchCV进行模型自身的参数调整,以提高模型的预测效果,发挥模型的最佳性能。
XGBoost调参主要涉及到n_estimators(集成中弱评估器的数量)、eta(迭代决策树时的步长)、max_depth(最大深度)及objective(目标函数)。使用sklearn.model_selection中的GridSearchCV模块,先预先设定各参数的预期取值范围,再对所有参数在该范围内进行遍历,最终得到满足模型最优异性能下的参数取值组合。
本发明的模型主要用到的参数设定如表5所示。
表5 XGBoost模型参数设置
以上述组合为XGBoost的最终参数设定,针对训练集进行模型的训练与学习,通过sklearn.model_selection设置train_test_split为0.3,即训练集50条样本数据中70%用来学习,30%用来预测。
(4)模型性能评估:根据检验指标评估模型的准确性;
模型学习训练完毕后,需要对围岩等级预测模型的性能进行评价。首先通过sklearn.metrics模块进行混淆矩阵的输出。混淆矩阵是一个情形分析表,显示以下16组记录的数目:作出正确判断的肯定记录(真阳性TP)、作出错误判断的肯定记录(假阴性FP)、作出正确判断的否定记录(真阴性FN)以及作出错误判断的否定记录(假阳性TN)。本训练集的预测集情况如图3混淆矩阵所示。
图3中横坐标代表围岩等级预测模型预测标签,纵坐标为原始数据带有的实际标签,可以看出仅在标签3(Ⅴ级围岩)处存在一个样本数据被模型预测为标签2(Ⅳ级围岩),其余预测集样本全部正确。
通过混淆矩阵,可以计算本模型评价指标Accuracy,计算公式为:Accuracy=(TP+TN)/(TP+TN+FN+TN)=14/15=93.33%
该准确度满足预期设定阈值,该模型在基于TSP数据进行围岩等级预测方面具有优异的性能,最后保存模型。
(5)过拟合检验:围岩等级预测模型通过过拟合检验后可进行工程实例应用。
通过围岩等级预测模型进行过拟合判断,如出现过拟合现象则调整参数,然后重新训练,如此循环,直至未出现过拟合,围岩等级预测模型输出围岩等级预测结果。
本发明基于TSP预报数据与XGBoost算法的围岩等级预测方法,通过对已验明围岩等级准确性的TSP预报定量数据进行提取收集,组成供XGBoost训练学习的训练集,在导入围岩等级预测模型之前,还需要进行数据预处理及特征工程,以保证训练集数据的规范化与高质量。在围岩等级预测模型对数据进行训练学习过程中,通过对围岩等级预测模型主要参数进行调参,以达到满意的准确度。最后对训练好的模型进行保存,可用于后续TSP新探测数据的定量解译,实现对掌子面前方岩体的围岩等级预测,大大节省围岩分级的成本,开辟XGBoost模型的新领域。
上述说明是针对本发明较佳可行实施例的详细说明,但实施例并非用以限定本发明的专利申请范围,凡本发明所提示的技术精神下所完成的同等变化或修饰变更,均应属于本发明所涵盖专利范围。
Claims (4)
1.一种基于TSP预报数据与XGBoost算法的围岩等级预测方法,其特征在于,包括如下步骤:
(1)获取围岩等级预测模型所需的样本特征数据:
确定影响围岩等级的定量数据,构建TSP围岩分级指标体系,并将所述影响围岩等级的定量数据作为围岩等级预测模型输入所需的样本特征数据;
(2)收集样本特征数据,对样本特征数据进行预处理,并对预处理后的样本特征数据进行特征工程构建,输出训练数据集:
对所收集样本数据进行预处理及特征工程的过程包括数据标准化、数据缺失值填充以及主成分降维;
(3)构建基于XGBoost的围岩等级预测模型,运用XGBoost算法训练,模型调参;
(4)模型性能评估:根据检验指标评估模型的准确性;
(5)过拟合检验:围岩等级预测模型通过过拟合检验后可进行工程实例应用。
2.根据权利要求1所述的一种基于TSP预报数据与XGBoost算法的围岩等级预测方法,其特征在于:所述影响围岩等级的定量数据包括静态杨氏模量、纵波波速、横波波速、波速比、泊松比以及密度。
3.根据权利要求1所述的一种基于TSP预报数据与XGBoost算法的围岩等级预测方法,其特征在于:所述步骤(2)中,主成分降维通常采用PCA对样本特征数据进行降维处理,在降维中,PCA使用的信息量衡量指标为样本方差,样本方差公式如下式所示:
实现主成分降维需要对主成分进行求解,步骤如下:
①将数据进行标准化,求解样本协方差矩阵S,协方差矩阵公式为:
②求解特征方程|S-λE|=0,其中E为单位矩阵,λ为特征根,解得特征根λ1,λ2,...,λp
③计算特征值λi对应得单位特征向量αi=(αi1,αi2,...,αip)
④计算各主成分的方差贡献率,公式为:
选取主成分的个数由累计方差贡献率确定,一般认为累计方差贡献率达到85%时即可反映原始变量的大部分信息;
⑤写出主成分的表达式,公式为:
Pi=αi1X1+αi2X2+...+αipXp (4)。
4.根据权利要求1所述的一种基于TSP预报数据与XGBoost算法的围岩等级预测方法,其特征在于:所述步骤(3)中,基于XGBoost的围岩等级预测模型采用如下公式表达:
XGBoost引入了模型复杂度来衡量算法的运算效率,因此目标函数由传统损失函数与模型复杂度两部分构成,公式表达为:
式中,Obj表示模型的目标函数,n表示导入第k棵树的数据总量;
为了求解目标函数,使用泰勒展开对式(6)进行运算,结果如以下公式所示:
式中,γ、λ表示模型复杂度的系数,T表示模型决策树叶子节点个数,gi、hi分别表示样本xi的一阶导数和二阶导数,j表示每个叶子节点的索引,ωj表示第j个叶子节点上的样本权重,Ij表示第j个叶子节点的样本子集;
将树的结构带入损失函数,即对ωj求导并且令导函数等于零,可求得目标函数的最小值Objmin,如以下公式所示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110242796.1A CN112948932A (zh) | 2021-03-05 | 2021-03-05 | 一种基于TSP预报数据与XGBoost算法的围岩等级预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110242796.1A CN112948932A (zh) | 2021-03-05 | 2021-03-05 | 一种基于TSP预报数据与XGBoost算法的围岩等级预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112948932A true CN112948932A (zh) | 2021-06-11 |
Family
ID=76247698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110242796.1A Pending CN112948932A (zh) | 2021-03-05 | 2021-03-05 | 一种基于TSP预报数据与XGBoost算法的围岩等级预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112948932A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326660A (zh) * | 2021-06-17 | 2021-08-31 | 广西路桥工程集团有限公司 | 基于GA-XGBoost模型的隧道围岩挤压变形预测方法 |
CN113688446A (zh) * | 2021-07-12 | 2021-11-23 | 南通大学 | 一种围岩判别分级方法 |
CN113807570A (zh) * | 2021-08-12 | 2021-12-17 | 水利部南京水利水文自动化研究所 | 基于XGBoost的水库大坝风险等级评估方法及*** |
CN115017791A (zh) * | 2021-12-18 | 2022-09-06 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 隧道围岩级别识别方法和装置 |
CN117556291A (zh) * | 2023-09-25 | 2024-02-13 | 西南交通大学 | 基于随钻参数与波速信息融合的围岩级别判识方法及*** |
CN117711140A (zh) * | 2024-02-06 | 2024-03-15 | 山东大学 | 基于多源数据融合的隧洞突水灾害定时预警方法及*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079810A (zh) * | 2019-12-06 | 2020-04-28 | 中国铁路设计集团有限公司 | 基于支持向量机的隧道围岩等级预测方法 |
CN111859800A (zh) * | 2020-07-15 | 2020-10-30 | 河海大学 | 用于pm2.5浓度分布的时空估算和预测的方法 |
-
2021
- 2021-03-05 CN CN202110242796.1A patent/CN112948932A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079810A (zh) * | 2019-12-06 | 2020-04-28 | 中国铁路设计集团有限公司 | 基于支持向量机的隧道围岩等级预测方法 |
CN111859800A (zh) * | 2020-07-15 | 2020-10-30 | 河海大学 | 用于pm2.5浓度分布的时空估算和预测的方法 |
Non-Patent Citations (3)
Title |
---|
"《武汉理工大学学报(交通科学与工程版)》2019年第43卷总目次", 《武汉理工大学学报(交通科学与工程版)》 * |
柴敬 等: "基于XGBoost的光纤监测矿压时序预测研究", 《采矿与岩层控制工程学报》 * |
邱道宏 等: "基于TSP203***和GA-SVM的围岩超前分类预测", 《岩石力学与工程学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326660A (zh) * | 2021-06-17 | 2021-08-31 | 广西路桥工程集团有限公司 | 基于GA-XGBoost模型的隧道围岩挤压变形预测方法 |
CN113326660B (zh) * | 2021-06-17 | 2022-11-29 | 广西路桥工程集团有限公司 | 基于GA-XGBoost模型的隧道围岩挤压变形预测方法 |
CN113688446A (zh) * | 2021-07-12 | 2021-11-23 | 南通大学 | 一种围岩判别分级方法 |
CN113688446B (zh) * | 2021-07-12 | 2023-09-15 | 南通大学 | 一种围岩判别分级方法 |
CN113807570A (zh) * | 2021-08-12 | 2021-12-17 | 水利部南京水利水文自动化研究所 | 基于XGBoost的水库大坝风险等级评估方法及*** |
CN113807570B (zh) * | 2021-08-12 | 2024-02-02 | 水利部南京水利水文自动化研究所 | 基于XGBoost的水库大坝风险等级评估方法及*** |
CN115017791A (zh) * | 2021-12-18 | 2022-09-06 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 隧道围岩级别识别方法和装置 |
CN117556291A (zh) * | 2023-09-25 | 2024-02-13 | 西南交通大学 | 基于随钻参数与波速信息融合的围岩级别判识方法及*** |
CN117711140A (zh) * | 2024-02-06 | 2024-03-15 | 山东大学 | 基于多源数据融合的隧洞突水灾害定时预警方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112948932A (zh) | 一种基于TSP预报数据与XGBoost算法的围岩等级预测方法 | |
CN106407649B (zh) | 基于时间递归神经网络的微震信号到时自动拾取方法 | |
Leng et al. | A hybrid data mining method for tunnel engineering based on real-time monitoring data from tunnel boring machines | |
CN112989708A (zh) | 一种基于lstm神经网络的测井岩性识别方法及*** | |
Yang et al. | Long short-term memory suggests a model for predicting shale gas production | |
CN108897975A (zh) | 基于深度信念网络的煤层气测井含气量预测方法 | |
CN111797364B (zh) | 一种基于复合云模型的滑坡多层次安全评价方法 | |
CN113792936A (zh) | 一种随钻岩性智能识别方法、***、设备和存储介质 | |
CN112836802A (zh) | 一种半监督学习方法、岩性预测方法及存储介质 | |
CN112614021B (zh) | 一种基于已建隧道信息智能识别的隧道围岩地质信息预测方法 | |
CN114358434A (zh) | 基于lstm循环神经网络模型的钻井机械钻速预测方法 | |
Tunkiel et al. | Training-while-drilling approach to inclination prediction in directional drilling utilizing recurrent neural networks | |
CN115481565A (zh) | 一种基于lstm和蚁群算法的土压平衡盾构机掘进参数预测方法 | |
CN113779880B (zh) | 一种基于超前钻探数据的隧道围岩二维质量评价方法 | |
CN115526096A (zh) | 盾构机施工掘进参数的预测方法、装置及可存储介质 | |
Cao et al. | Neural network committee-based sensitivity analysis strategy for geotechnical engineering problems | |
CN115438897A (zh) | 一种基于blstm神经网络的工业过程产品质量预测方法 | |
CN110956543A (zh) | 异常交易检测的方法 | |
Xie et al. | Prediction of shear strength of rock fractures using support vector regression and grid search optimization | |
CN110990938B (zh) | 一种掌子面在掘岩体状态软测量方法 | |
CN108197824B (zh) | 一种高坝服役安全空间警戒域诊断方法 | |
CN111026790A (zh) | 一种基于数据挖掘的结构安全评估及预报方法 | |
CN114818493A (zh) | 一种隧道岩体完整程度定量评价的方法 | |
Al-Bazzaz et al. | Permeability modeling using neural-network approach for complex Mauddud-Burgan carbonate reservoir | |
Wang et al. | Grouped machine learning methods for predicting rock mass parameters in a tunnel boring machine‐driven tunnel based on fuzzy C‐means clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210611 |
|
RJ01 | Rejection of invention patent application after publication |