CN108280289B - 基于局部加权c4.5算法的冲击地压危险等级预测方法 - Google Patents

基于局部加权c4.5算法的冲击地压危险等级预测方法 Download PDF

Info

Publication number
CN108280289B
CN108280289B CN201810058598.8A CN201810058598A CN108280289B CN 108280289 B CN108280289 B CN 108280289B CN 201810058598 A CN201810058598 A CN 201810058598A CN 108280289 B CN108280289 B CN 108280289B
Authority
CN
China
Prior art keywords
attribute
sample
training set
data
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810058598.8A
Other languages
English (en)
Other versions
CN108280289A (zh
Inventor
王彦彬
彭连会
何满辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Technical University
Original Assignee
Liaoning Technical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Technical University filed Critical Liaoning Technical University
Priority to CN201810058598.8A priority Critical patent/CN108280289B/zh
Publication of CN108280289A publication Critical patent/CN108280289A/zh
Application granted granted Critical
Publication of CN108280289B publication Critical patent/CN108280289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于局部加权C4.5算法的冲击地压危险等级预测方法,涉及冲击地压预测技术领域。该方法首先采用MDLP方法对样本数据中的连续属性数据进行离散化,再采用局部加权方法选择训练集并计算样本权重,利用样本权重计算各属性的信息增益率,根据信息增益率选择样本属性作为C4.5决策树的根节点及其它各分支节点的***属性,最后采用样本权重代替样本个数对建立的决策树进行悲观剪枝,实现对预测区域冲击地压危险等级的预测。本发明提供的基于局部加权C4.5算法的冲击地压危险等级预测方法,克服了ID3算法中采用信息增益选择节点***属性时偏向选择取值较多属性的不足,避免了过拟合问题,模型的预测准确性较高。

Description

基于局部加权C4.5算法的冲击地压危险等级预测方法
技术领域
本发明涉及冲击地压预测技术领域,尤其涉及一种基于局部加权C4.5算法的冲击地压危险等级预测方法。
背景技术
冲击地压是矿山井巷和采场周围煤岩体由于变形能的释放而产生的以突然、急剧、猛烈的破坏为特征的动力现象,是影响煤矿安全生产的重大灾害之一,世界上几乎所有国家都不同程度地受到冲击地压的威胁,近些年发达国家出于能源结构调整和安全考虑陆续关闭了冲击地压矿井,我国成为冲击地压主要受害国及进行冲击地压防治的主要国家。
对冲击地压进行预测、评价是在对冲击地压发生机理研究的基础上对冲击地压进行防治的一个关键步骤,但是由于对冲击地压的机理没有完全认识清楚,尤其是对深部冲击地压发生机理的研究尚处在起步阶段,增加了冲击地压预测的难度。目前对冲击地压进行预测的方法主要有岩石力学方法和地球物理方法,其中岩石力学方法有钻屑法、采动应力检测法等,地球物理方法有地音监测、微震监测、电磁辐射监测等方法;此外随着人工智能的发展,出现了一些采用智能算法进行冲击地压预测的方法,如:神经网络方法、Bayes判别分析法、支持向量机等,上述方法在进行冲击地压危险等级预测中取得了大量研究成果,但是也存在一些问题,如神经网络一般需要的样本量较多,而用于冲击地压预测的样本量较少,Bayes方法需要数据间具有较高的独立性,而现实中的冲击地压采样数据很难满足独立性要求,且上述方法没有考虑模型的过拟合问题等。
发明内容
针对现有技术的缺陷,本发明提供一种基于局部加权C4.5算法的冲击地压危险等级预测方法,实现对矿山井巷和采场周围煤岩体的冲击地压危险等级的预测。
基于局部加权C4.5算法的冲击地压危险等级预测方法,包括以下步骤:
步骤1、采集已知类别的冲击地压数据作为样本数据,设采集的样本数据集为T,样本的类别集合为C,k′为样本类别总数,样本的数量为N;
步骤2、对已知类别的样本数据中的连续属性数据采用最小化描述准则(MDLP,theMinimum Description Length Principle)进行离散化,具体方法为:
步骤2.1:将待离散化的一组连续属性值及其相应类别根据连续属性值从小到大的顺序进行排序;
步骤2.2:根据排序后的连续属性值所对应的类别的差异,选择连续属性值作为分界点,构成分界点集;如果不同类别所对应的属性值相同,则选择最小的类别所对应的属性值作为分界点;
步骤2.3:计算分界点集合中所有分界点的信息增益,选择信息增益最小的分界点,并判断该分界点是否符合最小描述准则,如果符合,则保留该分界点;否则,去掉该分界点;
所述分界点的信息增益的计算公式如下所示:
Gain(a)=H(C)-H(C|a)
其中,a为分界点集中的一个分界点,H(C)为类别信息熵,H(C|a)为分界点a将类别集合C划分为两个子集后的信息熵;
设amin是信息增益最小的分界点,其将类别集合C划分为两个子集C1和C2,判断amin是否符合最小描述准则的计算公式如下所示:
Gain(amin)>log2(N-1)/N+log2(3k′-2)-[k'H(C)-k′1H(C1)-k′2H(C2)]
其中,k′1、k′2分别为子集C1和C2中所包括的类别数量;
步骤2.4:判断步骤2.3中的分界点将原数据集所划分的两个区间序列中是否还有其它分界点,如果有,则各区间序列中的分界点重新组成相应的分界点集合并返回步骤2.3,根据区间序列中样本的数量及相应类别集合继续判断各区间序列是否保留相应分界点,否则执行步骤2.5;
步骤2.5:根据最终选择的分界点集合,对连续属性数据进行区间序列划分,如果最终没有分界点符合最小描述准则,则该属性中所有连续属性数据划分为一个区间序列,否则由分界点将连续属性数据划分为不同的区间序列,得到连续属性数据的离散化结果;
步骤2.6:判断样本数据集中的连续属性是否均进行了离散化,如果是,则执行步骤3,否则,重复步骤2.1-步骤2.5,将样本数据集的所有连续属性进行离散化;
步骤3、采集待预测区域的冲击地压属性数据,并将其中的连续属性数据与步骤2中相应属性数据进行比较,根据比较结果确定待预测区域冲击地压属性数据中连续属性数据所在的区间序列,从而将待预测区域冲击地压属性数据中的连续属性数据离散化;
步骤4、采用K近邻算法从步骤2中生成的离散化数据集中查找与待预测样本相邻的k个样本,由k个样本构成C4.5决策树的训练集,并计算训练集中样本的权重;
所述训练集中样本的权重根据如下公式进行计算:
Figure BDA0001554600150000021
其中,ωi为训练集中第i个与待预测样本相邻的样本的权重,i=1、2、…、k,di为待预测样本到第i个样本数据xi的距离,该距离采用样本的属性数据,并根据距离公式进行计算,dmax为待预测样本到训练集中所有样本的距离的最大值;
步骤5:根据训练集中样本数据的权重计算训练集中所有属性的信息增益率,在根节点和其它各分支节点的生成过程中,选择各次迭代过程中信息增益率最大的属性作为C4.5决策树中根节点和其它各分支节点的***属性;
所述计算训练集中属性的信息增益率的具体方法为:
设V为训练集中的一个属性,vj为属性V中第j个属性取值,j=1、2、…、m,m为训练集中样本数据的属性V的互不重合的属性取值个数,训练集中样本数据所对应的类别集合为C′={c1、c2、…、cn},其中,ci′为第i′个类别,i′=1,2,…,n,n为训练集中样本数据所对应类别的总数,计算训练集中属性的信息增益率的具体方法为:
计算训练集中样本数据的类别信息熵,如下式所示:
Figure BDA0001554600150000031
其中,
Figure BDA0001554600150000032
为训练集中样本类别为ci′的样本的权重和,ωC′为训练集中所有类别的样本的权重和,p(ci′)为训练集中类别为ci′的样本的权重和
Figure BDA0001554600150000033
与所有类别的样本的权重和ωC′的比值;
计算训练集中样本数据的类别条件熵,如下式所示:
Figure BDA0001554600150000034
其中,
Figure BDA0001554600150000035
为属性取值为vj的样本的权重和,ωV为属性V中所有样本的权重和,
Figure BDA0001554600150000036
表示属性取值为vj的样本中属于ci′类的样本权重之和,p(vj)为训练集中属性取值为vj的样本的权重和与所有样本的权重和的比值,p(ci′|vj)为属性取值为vj的样本中类别为ci′的样本的权重和与所有属性取值为vj的样本的权重和的比值;
计算训练集中样本数据的属性V的信息增益,如下式所示:
I(C′,V)=I(C′)-I(C′|V)
计算训练集中样本数据的属性V的信息熵,如下式所示:
Figure BDA0001554600150000037
计算训练集中样本数据的属性V的信息增益率,如下式所示:
gain_radio(V)=I(C′,V)/I(V);
步骤6:根据***属性建立决策树,然后采用悲观剪枝法对决策树进行剪枝,剪枝过程中使用样本权重代替样本个数计算分支节点及相应叶子节点的错误率;最后由生成的决策树对待预测区域的潜在冲击地压危险等级进行预测。
由上述技术方案可知,本发明的有益效果在于:本发明提供的基于局部加权C4.5算法的冲击地压危险等级预测方法,采用的最小化描述准则MDLP方法对样本数据中的连续属性数据进行的离散化能够较好地处理连续属性数据,局部加权的方法可以根据离散化后的样本到待预测样本的距离选择训练集并对训练集中的样本赋予不同权值,采用的C4.5算法利用样本权重计算信息增益率来选择节点***属性,克服了ID3算法中采用信息增益选择节点***属性时偏向选择取值较多属性的不足,并采用样本权重代替样本个数进行悲观剪枝操作避免过拟合问题,提高了预测模型的准确性。
附图说明
图1为本发明实施例提供的基于局部加权C4.5算法的冲击地压危险等级预测方法的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例以某地区砚石台煤矿为例,使用本发明的基于局部加权C4.5算法的冲击地压危险等级预测方法,对该砚石台煤矿的冲击地压危险等级进行预测。
基于局部加权C4.5算法的冲击地压危险等级预测方法,如图1所示,包括以下步骤:
步骤1、采集已知类别的冲击地压数据作为样本数据,设采集的样本数据集为T,样本的类别集合为C,k′为样本类别总数,样本的数量为N。
由于影响冲击地压的因素较多,本实施例选取煤厚(V1)、倾角(V2)、埋深(V3)、构造情况(V4)、倾角变化(V5)、煤厚变化(V6)、瓦斯浓度(V7)、顶板管理(V8)、卸压(V9)、响煤炮声(V10)10个因素作为样本数据的属性对煤矿的冲击地压危险等级进行预测。其中,构造情况(V4)、倾角变化(V5)、煤厚变化(V6)、顶板管理(V8)、卸压(V9)、响煤炮声(V10)为状态参量,赋值情况如表1所示:
表1 状态参量赋值
Figure BDA0001554600150000041
Figure BDA0001554600150000051
冲击地压的危险等级根据冲击地压的强度分为四个类别,分别为微冲击的类别1、弱冲击的类别2、中等冲击的类别3和强冲击的类别4。
本实施例采集的作为样本数据的冲击地压数据如表2所示。
表2 作为样本数据的冲击地压数据
Figure BDA0001554600150000052
Figure BDA0001554600150000061
步骤2、对已知类别的样本数据中的连续属性数据采用最小化描述准则(MDLP,theMinimum Description Length Principle)进行离散化,具体方法为:
步骤2.1:将待离散化的一组连续属性值及其相应类别根据连续属性值从小到大的顺序进行排序;
步骤2.2:根据排序后的连续属性值所对应的类别的差异,选择连续属性值作为分界点,构成分界点集;如果不同类别所对应的属性值相同,则选择最小的类别所对应的属性值作为分界点;
步骤2.3:计算分界点集合中所有分界点的信息增益,选择信息增益最小的分界点,并判断该分界点是否符合最小描述准则,如果符合,则保留该分界点;否则,去掉该分界点;
所述分界点的信息增益的计算公式如下所示:
Gain(a)=H(C)-H(C|a)
其中,a为分界点集中的一个分界点,H(C)为类别信息熵,H(C|a)为分界点a将类别集合C划分为两个子集后的信息熵;
设amin是信息增益最小的分界点,其将类别集合C划分为两个子集C1和C2,判断amin是否符合最小描述准则的计算公式如下所示:
Gain(amin)>log2(N-1)/N+log2(3k′-2)-[k'H(C)-k′1H(C1)-k′2H(C2)]
其中,k′1、k′2分别为子集C1和C2中所包括的类别数量;
步骤2.4:判断步骤2.3中的分界点将原数据集所划分的两个区间序列中是否还有其它分界点,如果有,则各区间序列中的分界点重新组成相应的分界点集合并返回步骤2.3,根据区间序列中样本的数量及相应类别集合继续判断各区间序列是否保留相应分界点,否则执行步骤2.5;
步骤2.5:根据最终选择的分界点集合,对连续属性数据进行区间序列划分,如果最终没有分界点符合最小描述准则,则该属性中所有连续属性数据划分为一个区间序列,否则由分界点将连续属性数据划分为不同的区间序列,得到连续属性数据的离散化结果;
步骤2.6:判断样本数据集中的连续属性是否均进行了离散化,如果是,则执行步骤3,否则,重复步骤2.1-步骤2.5,将样本数据集的所有连续属性进行离散化。
本实施例中,连续属性V1、V3和V7的分界点集中的分界点的信息增益均不满足最小描述准则,根据MDLP离散化原则,相应连续属性数据离散化为同一区间序列,本实施例中输出为1。连续属性V2的最终分界点为连续属性值45,因此将大于等于45的连续属性值归为一个区间序列并输出为2,小于45的连续属性值归为一个区间序列并输出为1。本实施例中,经过离散化后的作为训练集的样本数据如表3所示。
表3 离散化后的样本数据
Figure BDA0001554600150000071
Figure BDA0001554600150000081
步骤3、采集待预测区域的冲击地压属性数据,并将其中的连续属性数据与步骤2中相应属性数据进行比较,根据比较结果确定待预测区域冲击地压属性数据中连续属性数据所在的区间序列,从而将待预测区域冲击地压属性数据中的连续属性数据离散化。
本实施例中,为了验证本发明方法的有效性,将表4中的属性数据作为采集的待预测区域冲击地压属性数据,表4中的类别数据用来与预测结果进行比较,对于该10组数据中的连续属性数据,通过与表2中的25组数据中相应属性数据进行比较,得到该10组数据中的连续属性数据的离散化结果,如表5所示。
表4 待预测数据
序号 V<sub>1</sub>/m V<sub>2</sub>/(°) V<sub>3</sub>/m V<sub>4</sub> V<sub>5</sub> V<sub>6</sub> V<sub>7</sub>/(m<sup>3</sup>·min<sup>-1</sup>) V<sub>8</sub> V<sub>9</sub> V<sub>10</sub> 类别
1 1.5 35 530 0 0 0 0.56 3 3 0 1
2 1.6 62 307 3 2 2 1 0 0 2 4
3 1.9 59 542 1 2 3 0.25 0 0 1 3
4 1.3 44 570 0 0 0 0.66 3 3 0 1
5 2.2 54 290 3 2 2 1 0 0 2 4
6 3 34 475 2 2 1 0.42 0 0 2 3
7 3.2 42 574 3 0 0 0.29 0 0 2 3
8 1.8 62 283 3 2 3 1 0 0 2 4
9 1.3 44 656 2 1 3 0.24 1 1 2 3
10 1.2 40 553 2 2 2 0.49 1 2 2 3
表5 离散化后的待预测数据
Figure BDA0001554600150000082
Figure BDA0001554600150000091
步骤4、采用K近邻算法从步骤2中生成的离散化数据集中查找与待预测样本相邻的k个样本,由k个样本构成C4.5决策树的训练集,并计算训练集中样本的权重;
训练集中样本的权重根据如下公式进行计算:
Figure BDA0001554600150000092
其中,ωi为训练集中第i个与待预测样本相邻的样本的权重,i=1、2、…、k,di为待预测样本到第i个样本数据xi的距离,该距离采用样本的属性数据,并根据距离公式进行计算,dmax为待预测样本到训练集中所有样本的距离的最大值。
步骤5:根据训练集中样本数据的权重计算训练集中所有属性的信息增益率,在根节点和其它各分支节点的生成过程中,选择各次迭代过程中信息增益率最大的属性作为C4.5决策树中根节点和其它各分支节点的***属性;
所述计算训练集中属性的信息增益率的具体方法为:
设V为训练集中的一个属性,vj为属性V中第j个属性取值,j=1、2、…、m,m为训练集中样本数据的属性V的互不重合的属性取值个数,训练集中样本数据所对应的类别集合为C′={c1、c2、…、cn},其中,ci′为第i′个类别,i′=1,2,…,n,n为训练集中样本数据所对应类别的总数,计算训练集中属性的信息增益率的具体方法为:
计算训练集中样本数据的类别信息熵,如下式所示:
Figure BDA0001554600150000101
其中,
Figure BDA0001554600150000102
为训练集中样本类别为ci′的样本的权重和,ωC′为训练集中所有类别的样本的权重和,p(ci′)为训练集中类别为ci′的样本的权重和
Figure BDA0001554600150000103
与所有类别的样本的权重和ωC′的比值;
计算训练集中样本数据的类别条件熵,如下式所示:
Figure BDA0001554600150000104
其中,
Figure BDA0001554600150000105
为属性取值为vj的样本的权重和,ωV为属性V中所有样本的权重和,
Figure BDA0001554600150000106
表示属性取值为vj的样本中属于ci′类的样本权重之和,p(vj)为训练集中属性取值为vj的样本的权重和与所有样本的权重和的比值,p(ci′|vj)为属性取值为vj的样本中类别为ci′的样本的权重和与所有属性取值为vj的样本的权重和的比值;
计算训练集中样本数据的属性V的信息增益,如下式所示:
I(C′,V)=I(C′)-I(C′|V)
计算训练集中样本数据的属性V的信息熵,如下式所示:
Figure BDA0001554600150000107
计算训练集中样本数据的属性V的信息增益率,如下式所示:
gain_radio(V)=I(C′,V)/I(V);
步骤6:根据***属性建立决策树,然后采用悲观剪枝法对决策树进行剪枝,剪枝过程中使用样本权重代替样本个数计算分支节点及相应叶子节点的错误率;最后由生成的决策树对待预测区域的潜在冲击地压危险等级进行预测。
本实施例中,为了验证根据离散化后的样本数据建立的决策树模型的预测性能,首先采用十折交叉验证的方法对模型进行检验。由于训练集中样本数据数量不多,交叉验证中选用全部训练集中的样本数据作为邻近样本,此外C4.5决策树剪枝过程中显著性水平设置为常用的25%,加权学习中的样本距离采用欧氏距离函数进行确定,采用离散化训练样本集建立的模型经十折交叉验证结果的正确率为88%,而采用表2中原始数据建立的模型的正确率为84%,表明离散化后的样本数据能建立更好的预测模型。
采用局部加权C4.5算法对离散化后的表4中的待预测地区的冲击地压危险等级进行预测。本实施例还采用NaiveBayes方法、原始C4.5方法和随机森林方法根据表2中数据建立预测模型对表4中的冲击地压危险等级进行预测,与本发明方法的预测结果的比较如表6所示:
表6 冲击地压危险等级的预测结果比较
算法 正确率
NaiveBayes 70%
C4.5决策树 80%
随机森林 80%
本发明方法 100%
从表中可见本发明方法能准确预测待预测地区的冲击地压危险等级,预测结果优于NaiveBayes方法、原始C4.5方法及随机森林方法的预测结果。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (3)

1.一种基于局部加权C4.5算法的冲击地压危险等级预测方法,其特征在于:包括以下步骤:
步骤1、采集已知类别的冲击地压数据作为样本数据,设采集的样本数据集为T,样本的类别集合为C,k′为样本类别总数,样本的数量为N;
步骤2、对已知类别的样本数据中的连续属性数据采用最小化描述准则(MDLP,theMinimum Description Length Principle)进行离散化;
步骤3、采集待预测区域的冲击地压属性数据,并将其中的连续属性数据与步骤2中相应属性数据进行比较,根据比较结果确定待预测区域冲击地压属性数据中连续属性数据所在的区间序列,从而将待预测区域冲击地压属性数据中的连续属性数据离散化;
步骤4、采用K近邻算法从步骤2中生成的离散化数据集中查找与待预测样本相邻的k个样本,由k个样本构成C4.5决策树的训练集,并计算训练集中样本的权重;
步骤5:根据训练集中样本数据的权重计算训练集中所有属性的信息增益率,在根节点和其它各分支节点的生成过程中,选择各次迭代过程中信息增益率最大的属性作为C4.5决策树中根节点和其它各分支节点的***属性;
步骤6:根据***属性建立决策树,然后采用悲观剪枝法对决策树进行剪枝,剪枝过程中使用样本权重代替样本个数计算分支节点及相应叶子节点的错误率;最后由生成的决策树对待预测区域的潜在冲击地压危险等级进行预测;
步骤2所述进行离散化的具体方法为:
步骤2.1:将待离散化的一组连续属性值及其相应类别根据连续属性值从小到大的顺序进行排序;
步骤2.2:根据排序后的连续属性值所对应的类别的差异,选择连续属性值作为分界点,构成分界点集;如果不同类别所对应的属性值相同,则选择最小的类别所对应的属性值作为分界点;
步骤2.3:计算分界点集合中所有分界点的信息增益,选择信息增益最小的分界点,并判断该分界点是否符合最小描述准则,如果符合,则保留该分界点;否则,去掉该分界点;
所述分界点的信息增益的计算公式如下所示:
Gain(a)=H(C)-H(C|a)
其中,a为分界点集中的一个分界点,H(C)为类别信息熵,H(C|a)为分界点a将类别集合C划分为两个子集后的信息熵;
设amin是信息增益最小的分界点,其将类别集合C划分为两个子集C1和C2,判断amin是否符合最小描述准则的计算公式如下所示:
Gain(amin)>log2(N-1)/N+log2(3k′-2)-[k′H(C)-k1′H(C1)-k2′H(C2)]
其中,k′1、k′2分别为子集C1和C2中所包括的类别数量;
步骤2.4:判断步骤2.3中的分界点将原数据集所划分的两个区间序列中是否还有其它分界点,如果有,则各区间序列中的分界点重新组成相应的分界点集合并返回步骤2.3,根据区间序列中样本的数量及相应类别集合继续判断各区间序列是否保留相应分界点,否则执行步骤2.5;
步骤2.5:根据最终选择的分界点集合,对连续属性数据进行区间序列划分,如果最终没有分界点符合最小描述准则,则该属性中所有连续属性数据划分为一个区间序列,否则由分界点将连续属性数据划分为不同的区间序列,得到连续属性数据的离散化结果;
步骤2.6:判断样本数据集中的连续属性是否均进行了离散化,如果是,则执行步骤3,否则,重复步骤2.1-步骤2.5,将样本数据集的所有连续属性进行离散化。
2.根据权利要求1所述的基于局部加权C4.5算法的冲击地压危险等级预测方法,其特征在于:步骤4所述训练集中样本的权重的具体方法为:
训练集中样本的权重根据如下公式进行计算:
Figure FDA0003028421540000021
其中,ωi为训练集中第i个与待预测样本相邻的样本的权重,i=1、2、…、k,di为待预测样本到第i个样本数据xi的距离,该距离采用样本的属性数据,并根据距离公式进行计算,dmax为待预测样本到训练集中所有样本的距离的最大值。
3.根据权利要求2所述的基于局部加权C4.5算法的冲击地压危险等级预测方法,其特征在于:步骤5所述计算训练集中属性的信息增益率的具体方法为
设V为训练集中的一个属性,vj为属性V中第j个属性取值,j=1、2、…、m,m为训练集中样本数据的属性V的互不重合的属性取值个数,训练集中样本数据所对应的类别集合为C′={c1、c2、…、cn},其中,ci′为第i′个类别,i′=1,2,…,n,n为训练集中样本数据所对应类别的总数,计算训练集中属性的信息增益率的具体方法为:
计算训练集中样本数据的类别信息熵,如下式所示:
Figure FDA0003028421540000022
其中,
Figure FDA0003028421540000031
为训练集中样本类别为ci′的样本的权重和,ωC′为训练集中所有类别的样本的权重和,p(ci′)为训练集中类别为ci′的样本的权重和
Figure FDA0003028421540000032
与所有类别的样本的权重和ωC′的比值;
计算训练集中样本数据的类别条件熵,如下式所示:
Figure FDA0003028421540000033
其中,
Figure FDA0003028421540000034
为属性取值为vj的样本的权重和,ωV为属性V中所有样本的权重和,
Figure FDA0003028421540000035
表示属性取值为vj的样本中属于ci′类的样本权重之和,p(vj)为训练集中属性取值为vj的样本的权重和与所有样本的权重和的比值,p(ci′|vj)为属性取值为vj的样本中类别为ci′的样本的权重和与所有属性取值为vj的样本的权重和的比值;
计算训练集中样本数据的属性V的信息增益,如下式所示:
I(C′,V)=I(C′)-I(C′|V)
计算训练集中样本数据的属性V的信息熵,如下式所示:
Figure FDA0003028421540000036
计算训练集中样本数据的属性V的信息增益率,如下式所示:
gain_radio(V)=I(C′,V)/I(V)。
CN201810058598.8A 2018-01-22 2018-01-22 基于局部加权c4.5算法的冲击地压危险等级预测方法 Active CN108280289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810058598.8A CN108280289B (zh) 2018-01-22 2018-01-22 基于局部加权c4.5算法的冲击地压危险等级预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810058598.8A CN108280289B (zh) 2018-01-22 2018-01-22 基于局部加权c4.5算法的冲击地压危险等级预测方法

Publications (2)

Publication Number Publication Date
CN108280289A CN108280289A (zh) 2018-07-13
CN108280289B true CN108280289B (zh) 2021-10-08

Family

ID=62804465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810058598.8A Active CN108280289B (zh) 2018-01-22 2018-01-22 基于局部加权c4.5算法的冲击地压危险等级预测方法

Country Status (1)

Country Link
CN (1) CN108280289B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175194B (zh) * 2019-04-19 2021-02-02 中国矿业大学 一种基于关联规则挖掘的煤矿巷道围岩变形破裂辨识方法
CN111764963B (zh) * 2020-07-06 2021-04-02 中国矿业大学(北京) 基于Faster-RCNN的冲击地压预测方法
CN113901939B (zh) * 2021-10-21 2022-07-01 黑龙江科技大学 基于模糊修正的冲击地压危险等级预测方法、存储介质及设备
CN114780443A (zh) * 2022-06-23 2022-07-22 国网数字科技控股有限公司 微服务应用自动化测试方法、装置、电子设备及存储介质
CN117557087A (zh) * 2023-09-01 2024-02-13 广州市河涌监测中心 基于水务数据的排水单元风险预测模型训练方法和***

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1279167B1 (en) * 2000-04-24 2007-05-30 QUALCOMM Incorporated Method and apparatus for predictively quantizing voiced speech
CN102473247B (zh) * 2009-06-30 2017-02-08 陶氏益农公司 用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用
WO2013075104A1 (en) * 2011-11-18 2013-05-23 Rutgers, The State University Of New Jersey Method and apparatus for detecting granular slip
US20160358099A1 (en) * 2015-06-04 2016-12-08 The Boeing Company Advanced analytical infrastructure for machine learning
CN105373606A (zh) * 2015-11-11 2016-03-02 重庆邮电大学 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN106096748A (zh) * 2016-04-28 2016-11-09 武汉宝钢华中贸易有限公司 基于聚类分析和决策树算法的装车工时预测模型
CN107145998A (zh) * 2017-03-31 2017-09-08 中国农业大学 一种基于Dyna‑CLUE模型的土地压力计算方法和***

Also Published As

Publication number Publication date
CN108280289A (zh) 2018-07-13

Similar Documents

Publication Publication Date Title
CN108280289B (zh) 基于局部加权c4.5算法的冲击地压危险等级预测方法
CN107357966B (zh) 一种回采巷道围岩稳定性预测的评估方法
CN107194524B (zh) 一种基于rbf神经网络的煤与瓦斯突出预测方法
CN110674841B (zh) 一种基于聚类算法的测井曲线识别方法
CN107122860B (zh) 基于网格搜索和极限学习机的冲击地压危险等级预测方法
CN112232522B (zh) 一种深部巷道支护方案智能推荐及动态优化方法
CN109934398A (zh) 一种钻爆法施工隧道瓦斯危险等级预测方法和装置
CN112529341A (zh) 一种基于朴素贝叶斯算法的钻井漏失机率预测方法
CN115130375A (zh) 一种岩爆烈度预测方法
CN115017791A (zh) 隧道围岩级别识别方法和装置
CN114723095A (zh) 缺失测井曲线预测方法及装置
CN108268460A (zh) 一种基于大数据的自动选择最优模型的方法
CN110633504A (zh) 一种煤层瓦斯渗透率预测方法
Zhang et al. Geological Type Recognition by Machine Learning on In‐Situ Data of EPB Tunnel Boring Machines
CN115438823A (zh) 一种井壁失稳机制分析与预测方法及***
CN115980826A (zh) 一种基于加权的元启发式组合模型的岩爆烈度预测方法
CN116822971B (zh) 一种井壁风险等级预测方法
CN110568495A (zh) 基于广义目标函数的瑞雷波多模式频散曲线反演方法
CN117473305A (zh) 一种近邻信息增强的储层参数预测方法及***
CN110348510B (zh) 一种基于深水油气钻井过程阶段性特征的数据预处理方法
CN116933920A (zh) 一种矿山井下泥石流的预测预警方法及***
CN111667192A (zh) 一种基于nlp大数据的安全生产风险评估方法
CN115809411A (zh) 一种基于测井数据的改进型决策树岩性识别方法
CN112598061B (zh) 一种隧道围岩聚类分级方法
CN113946790A (zh) 一种导水裂隙带高度预测方法、***、设备及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant