CN105678481A - 一种基于随机森林模型的管线健康状态评估方法 - Google Patents
一种基于随机森林模型的管线健康状态评估方法 Download PDFInfo
- Publication number
- CN105678481A CN105678481A CN201610179367.3A CN201610179367A CN105678481A CN 105678481 A CN105678481 A CN 105678481A CN 201610179367 A CN201610179367 A CN 201610179367A CN 105678481 A CN105678481 A CN 105678481A
- Authority
- CN
- China
- Prior art keywords
- pipeline
- random forest
- damaged
- factor
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 53
- 230000036541 health Effects 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 26
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 34
- 238000011156 evaluation Methods 0.000 claims abstract description 30
- 230000000694 effects Effects 0.000 claims abstract description 14
- 230000001419 dependent effect Effects 0.000 claims abstract description 11
- 239000003086 colorant Substances 0.000 claims abstract description 8
- 238000013210 evaluation model Methods 0.000 claims description 8
- 230000007797 corrosion Effects 0.000 claims description 4
- 238000005260 corrosion Methods 0.000 claims description 4
- 230000003247 decreasing effect Effects 0.000 claims description 4
- 238000012423 maintenance Methods 0.000 abstract description 9
- 238000007781 pre-processing Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 10
- 238000003066 decision tree Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000002689 soil Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于随机森林模型的管线健康状态评估方法,属于城市供水管网技术领域。所述方法包括:分别从城市供水管网的基础数据库和破损数据库中提取管线基本信息和历史破损情况;对获取到的管线信息进行数据预处理;利用随机森林模型建立自变量与因变量之间的关系,评价模型的分类效果;利用通过分类效果评估的随机森林模型预测供水管网的破损概率;对预测结果进行分级,用不同颜色表示健康等级,绘制健康状态专题图;评价管线破损影响因子重要性,分析影响规律。应用本发明对管网健康状态评估,其预测结果与实际情况基本相符,能够有效地评价管道状态,为供水企业制定管线维护改造优先次序、优化维修计划提供一定的理论支持。
Description
技术领域
本发明涉及一种对管线健康状态进行日常评估的方法,属于城市供水管网领域。
背景技术
作为城市基础设施的重要组成部分,城市供水管网的安全、高效运行是人民正常生活、发展生产的重要保障。目前我国的城市供水管网存在管线老化严重、维护难度大、管理水平落后、维护管理不力等问题,不可避免地导致破损事故多发,影响供水***的服务水平。这一方面浪费大量优质水资源,增加供水成本;另一方面引发地下公共设施的损坏,甚至妨碍交通,破坏市民生活和生产秩序。因此,对城市管网进行有计划的更新势在必行,而确定大型复杂管网的优化更新方案,对管网进行有效、可行的健康状态评估必不可少。
现有管线健康状态评估方法大致分成两大类,直接检测法和建模分析法。直接检测法能够更为准确的得到管道的运行情况,但是往往需要大量资金的投入,并且实际监测会受到场地等情况的限制;建模分析法节省人力物力,是国内外专家学者的研究热点。
管线健康的影响因素众多,存在复杂的非线性关系,且难以定量评价其影响程度;我国管网数据库的建设水平滞后,对历史数据的记录不完整、不准确,缺乏统一标准,差异性较大。目前已有的管线评价方法多采用Logistic广义线型回归(CN102222169)、遗传算法(CN102072409)、层次分析法(CN103578045)、神经网络(CN103258243)等方法建立模型,而这些方法不同程度上存在主观性较强、数据质量要求高、适用于特定管网、计算量大等不足。
发明内容
鉴于上述问题,本发明的目的是提供一种新的对数据质量要求不高、适用范围广、准确性较高的基于随机森林模型的管线健康状态评估方法,以便在事故发生前发现管线问题,为管线维护、更新改造计划的制定提供参考,辅助供水管网日常管理的科学决策。
本发明的技术方案如下:
一种基于随机森林模型的管线健康状态评估方法,其特征在于该方法包括如下步骤:
1)分别从城市供水管网的基础数据库和破损数据库中提取管线基本信息和历史破损情况,所述的基本信息包括管线属性信息、地理环境、运行状况和空间位置四大类;所述的历史破损情况包括破损管线编号、破损时间、破损原因和破损位置;
2)对获取到的管线信息进行数据预处理:
a.数据库关联:对城市供水管网的基础数据库和破损数据库按照管线编号或者空间位置进行关联,匹配出每根管线的历史破损信息;
b.确定影响因子:筛选出对管线健康有直接或间接影响的属性因子作为模型的输入参数,该输入参数包括管材、管径、管龄、管长、接口类型、管道防腐、埋深、道路负荷、覆土类型、杂散电流和运行压力;
c.数字编码:根据影响因子的数据属性,将其分为连续变量和分类变量,对分类变量进行数字编码,用不同数字表示数据类别;对于管线的历史破损信息,用0表示管线未发生过破损,用1表示管线发生破损;
3)利用随机森林模型建立自变量与因变量之间的关系,评价模型的分类效果:
自变量为筛选出的影响因子,因变量为用0和1表示的历史破损信息;模型分类误差小于20%时,认为模型效果较好,误差大于20%时,可通过调整参数重新建立模型;评价模型分类效果时,采用随机森林自身特有的OOB误差估计模型误差。
4)利用通过分类效果评估的随机森林模型预测供水管网的破损概率:
预测结果为介于[0,1]之间的数值,其值越接近于1,管线越危险,越接近于0,管线越健康;
5)对预测结果进行分级,用不同颜色表示健康等级,绘制健康状态专题图;
6)评价管线破损影响因子重要性,分析影响规律:用平均精度下降和平均基尼指数下降两个参数评价管线破损影响因子的重要性,其值越大表示因子重要性越大:
通过绘制偏相关图,用图表描述一个因子对类的概率的边际效应,来分析各因子对管线破损的影响规律。
上述技术方案中,步骤3)利用随机森林模型中,原始数据样本集由破损管线和未破损管线两部分组成,数据量占比为1:1;评价模型分类效果时,采用随机森林自身特有的OOB误差估计模型误差。
本发明步骤5)中,所述的对预测结果进行分级,采用等间隔分类法,根据0~0.2、0.2~0.4、0.4~0.6、0.6~0.8、0.8~1的概率区间将健康状态评估结果分别划分为健康、较好、一般、较差和危险五个等级,并在ArcGIS平台上用不同的颜色表示,绘制健康状态专题图。
与现有城市供水管网评估方法相比,本发明具有以下优点及突出性的技术效果:
①随机森林模型虽然结构复杂,但是简单易用。与传统模型相比,需要的假设条件及模型参数少,一般情况下,模型参数的缺省值即可得到最优结果。对于众多影响管线健康的因素,无需检查各因素间的交互作用和非线性关系是否显著。
②随机森林的学习过程快,通过随机抽取样本和随机抽取特征降低了对异常值和噪声的敏感程度,提高了准确率和稳定性。针对我国城市供水管网数据量大、记录不完整不准确等问题,依然可以高效处理,在较小的运算量下提供较高的预测准确度。
③随机森林模型具备影响因子重要性评价和影响规律分析功能,拓展了管线健康状态评估的成果,对供水管网的日常管理工作具有较好地实际意义。
④我国各城市供水管网的数据记录标准不同,用于评估管线状态的数据指标存在差异。应用随机森林模型,只需针对不同城市的实际情况,改变输入输出参数,模型自身即可通过学习新的样本,建立适合该数据集的“森林”,可使评价结果更科学、准确。因此,本技术的适用范围非常广泛。
附图说明
图1示出了基于随机森林模型的管线健康状态评估方法的流程图。
图2示出了随机森林方法的原理图。
图3(a)和图3(b)示出了随机森林方法预测专题图与实际情况对比图。
图4示出了管线破损影响因子重要性评价图。
图5(a)和图5(b)示出了管线破损影响因子的影响规律分析图
具体实施方式
为更好的理解和实施本发明,下面将结合附图和具体实施例对本发明进行详细阐述。
为了提升供水管网的服务水平,优化管线维护改造计划制定的科学方法,需要在供水管线发生事故前,建立健康状态评估方法,确定问题管线,制定维护方案与优先次序,及时发现管线安全隐患并排除,以节省管网检测耗费的大量人力物力财力。
为实现上述目的,本发明利用R软件作为健康状态评估方法的开发平台。R是一个免费、开源的自由软件,有着强大的统计分析功能及作图功能,内置丰富的数学计算、统计计算函数。本发明采用RandomForest功能包,编写相应代码以实现所需功能,大大提高了开发效率。
图1示出了基于随机森林模型的管线健康状态评估方法的流程图,主要步骤如下:
1)分别从城市供水管网的基础数据库和破损数据库中提取管线基本信息和历史破损情况。
从城市供水管网的基础数据库中,提取管线的基础属性信息、地理环境、运行状况、空间位置。其中基础属性信息包括管线编号、管材、管径、管长、管龄、接口类型等,地理环境信息包括管道埋深、道路负荷、土壤性质等,运行状况包括运行压力、海森-威廉系数等。在具体实施中,可根据实际数据质量情况,扩充数据类型。
从城市供水管网的破损数据库中,提取管线的历史破损情况,包括破损管线编号、破损时间、破损原因、破损位置信息。
2)对获取到的管线信息进行数据预处理:
数据筛选:剔除非自然因素(第三方、人为)导致事故的破损记录;修正录入错误,剔除明显异常数据;
数据库关联:对城市供水管网的基础数据库和破损数据库按照管线编号或者空间位置进行关联,匹配出每根管线的历史破损信息;
确定影响因子:筛选出对管线健康有直接或间接影响的属性因子作为模型的输入参数,该输入参数包括管材、管径、管龄、管长、接口类型、管道防腐、埋深、道路负荷、覆土类型、杂散电流和运行压力;
数字编码:根据影响因子的数据属性,将其分为连续变量和分类变量,对分类变量进行数字编码,用不同数字表示数据类别;对于管线的历史破损信息,用0表示管线未发生过破损,用1表示管线发生破损;
3)利用随机森林模型建立自变量与因变量之间的关系,评价模型的分类效果:
自变量为筛选出的影响因子,因变量为用0和1表示的历史破损信息;模型分类误差小于20%时,认为模型效果较好,误差大于20%时,可通过调整参数重新建立模型;利用随机森林模型中,原始数据样本集由破损管线和未破损管线两部分组成,数据量占比为1:1。评价模型分类效果时,可采用随机森林自身特有的OOB误差估计模型误差。
4)利用通过分类效果评估的随机森林模型预测供水管网的破损概率:
预测结果为介于[0,1]之间的数值,其值越接近于1,管线越危险,越接近于0,管线越健康;
5)对预测结果进行分级,用不同颜色表示健康等级,绘制健康状态专题图;
6)评价管线破损影响因子重要性,分析影响规律:用平均精度下降和平均基尼指数下降两个参数评价管线破损影响因子的重要性,其值越大表示因子重要性越大:
通过绘制偏相关图,用图表描述一个因子对类的概率的边际效应,来分析各因子对管线破损的影响规律。
下面以我国南方某城市供水管网为实施例,详细介绍基于随机森林模型的管线健康状态评估的具体步骤:
(1)分别从城市供水管网的基础数据库和破损数据库中提取管线基本信息和历史破损情况。
从城市供水管网的基础数据库中,提取管线的基础属信息包括:管线编号、管材、管径、管长、建设年份、道路负荷、杂散电流、运行压力、地理位置、土壤腐蚀等。在具体实施中,可根据实际数据质量情况,扩充数据类型。
从城市供水管网的破损数据库中,提取破损管线编号、破损时间、破损原因、破损类型、破损点X、Y坐标。
(2)对获取到的管线信息进行数据预处理。
在本具体实施例中,根据数据的完整性、准确性,选取管径、管材、管龄、道路负荷、运行压力、杂散电流六个基本属性作为管线破损的影响因子,是否发生破损作为管线状态的标签。其中,道路负荷是根据该市各区域综合交通规划图,定义每条道路的负荷,若铺设管道在该道路下方,则将道路类型值赋予到管道上;杂散电流是设定地铁及铁路左右10米范围内为杂散电流影响区域,若管道分布在此区域,则认为该管道可能受到杂散电流影响。数据集示例见表1,分类变量数字编码对照表见表2。
表1管线数据集示例
管线编号 | 管径 | 管材 | 管龄 | 道路负荷 | 运行压力 | 杂散电流 | 是否发生破损 |
315711 | 400 | 2 | 9 | 4 | 34.07 | 1 | 1 |
106787 | 1000 | 5 | 14 | 2 | 42.78 | 0 | 1 |
489678 | 300 | 6 | 20 | 0 | 42.76 | 0 | 0 |
193536 | 250 | 4 | 4 | 3 | 37.14 | 0 | 0 |
102190 | 200 | 1 | 16 | 5 | 44.36 | 1 | 1 |
110772 | 800 | 5 | 32 | 0 | 41.75 | 0 | 1 |
309219 | 600 | 2 | 11 | 1 | 43.34 | 1 | 1 |
615496 | 200 | 6 | 5 | 0 | 29.66 | 0 | 0 |
507080 | 300 | 6 | 7 | 3 | 35.16 | 0 | 0 |
109813 | 800 | 5 | 17 | 0 | 41.98 | 0 | 0 |
表2分类变量数字编码对照表
(3)利用随机森林模型建立自变量与因变量之间的关系,评价模型的分类效果。
随机森林是2001年提出的一种比较新的机器学习算法,图2示出了随机森林方法的原理图。给定原始数据样本集D,样本数量为N,从中有放回的重复取样N次,构成一个新的训练集D1,用于生成一棵决策树;在生成决策树的过程中,给定每一个样本共有M个特征向量,在决策树的每个节点随机选择m(<M)个特征,通过计算选择其中最优特征对节点进行***;重复上述步骤k次,生成k棵决策树,将其组成随机森林,用于分类预测,最终由每棵树投票决定最优结果。
可以这样简单地理解随机森林算法:每一棵决策树就是一个精通于某一个窄领域的专家,随机森林中有很多个精通不同领域的专家,对于同一个问题,分别用不同的角度去看待,最终结果由各个专家民主投票产生。
原始数据样本集由正样本和负样本同两部分组成,数据量为1:1,即选取等量的破损管线和未破损管线。
随机森林模型的建立有两个重要参数:ntree——表示决策树的棵树,一般不少于100棵,缺省值为500;mtry——表示决策树分类结点处预选的特征个数,即上文原理介绍中的m,缺省值为一般情况下采用缺省值即可得到最优结果。
随机森林在有放回的重复取样生成新训练集的过程中,原始数据集中大约有1/3的样本不会被抽中,这部分样本称为袋外数据(Out-Of-Bag,OOB),可用于估计模型误差,评估预测效果,即OOB估计。OOB估计属于无偏估计,其本身的算法类似交叉验证,所以随机森林的训练不需要另外预留部分数据做交叉验证,无需测试集。
在本具体实施例中,随机选取1000个破损数据(正样本)和等量的1000个未破损管线数据(负样本)作为原始数据集,以步骤(1)中筛选出的六个基本属性作为自变量,以是否发生破损作为因变量,两个参数均采用缺省值,建立随机森林模型挖掘自变量与因变量间的关系。经计算,本实施例的OOB误差为10.39%,即预测准确率达到89.61%,模型效果较好。
(4)利用通过分类效果评估的随机森林模型预测供水管网的破损概率。
建立好的模型经过预测效果的评估后,即可应用于全研究管网。当利用数值表示分类变量(0代表未发生破损,1代表发生破损)作为因变量建立随机森林模型时,预测结果可得到发生/未发生破损的概率。预测结果示例见表3。
表3预测结果示例
表中最后一列表示管线发生破损的概率,倒数第二列表示管线不发生破损的概率,两个值和为1。发生破损的概率越接近于1,管线越危险;越接近于0,管线越健康。
(5)对预测结果进行分级,用不同颜色表示健康等级,绘制健康状态专题图。
为使评估结果一目了然,采用等间隔分类法,将健康状态评估结果划分为健康、较好、一般、较差、危险五个等级,详见表4。
表4管线健康状态分级
健康等级 | 健康 | 较好 | 一般 | 较差 | 危险 |
预测结果 | 0~0.2 | 0.2~0.4 | 0.4~0.6 | 0.6~0.8 | 0.8~1 |
将健康状态分级结果在ArcGIS中用不同的颜色分级显示,绘制健康状态专题图。图3(a)和图3(b)示出了在本具体实施例中实际情况与随机森林方法预测专题图对比图,预测专题图中颜色越深代表管线破损的概率越高,两张图的相似度较高,表明随机森林模型的预测效果较好。
(6)评价管线破损影响因子重要性,分析影响规律。
随机森林模型可以通过varImpPlot函数用图形的方式展示因子的重要程度。衡量因子重要性的参数有2种:平均精度下降(MeanDecreaseAccuracy),衡量把一个因子的取值变为随机数,随机森林预测准确性的降低程度,该值越大表示该因子的重要性越大;平均基尼指数下降(MeanDecreaseGini),通过基尼指数计算每个因子对决策树每个节点不纯度的降低程度的影响,该值越大表示该因子的重要性越大。两种重要性参数衡量出的因子重要性会略有差距,但是差距不会很大。
图4示出了在本具体实施例中管线破损影响因子重要性评价图。随机森林给出的因子重要性评价结果表明,影响管线破损的主导因素是管龄和运行压力,影响因素最小的是杂散电流。
通过因子重要性排序,可以在模型优化过程中剔除影响较小的自变量;对重要性较高的因子,在今后的数据收集中可作为重要指标,提升数据质量。
随机森林模型的另一个功能就是绘制偏相关图,用图表描述一个因子对类的概率的边际效应,通过partialPlot函数实现。该功能可以更好地分析各因子对管线破损的影响规律。
偏相关图的纵坐标和横坐标是对数关系,因此主要关注曲线的相对走向变化。纵坐标值越大,则因子对管线破损的影响程度越大。
以重要性最大的两个因子管龄和运行压力为例,图5(a)和图5(b)示出了管线破损影响因子的影响规律分析图。由图可知,本具体实施例中,10-15年的管线最易破损,运行压力过低或者过高的管线健康状态均较差。
以上结果说明,采用随机森林对城市供水管网进行健康状态评估,预测结果与实际情况基本相符,表明该模型能够较有效地评价管道状态,因子重要性评价和影响规律分析其结果能够为供水企业制定管线维护改造优先次序、优化维修计划提供一定的理论支持。
以上实施例仅用于更好地描述本发明,但并不限制本发明的应用范围。
Claims (4)
1.一种基于随机森林模型的管线健康状态评估方法,其特征在于该方法包括如下步骤:
1)分别从城市供水管网的基础数据库和破损数据库中提取管线基本信息和历史破损情况,所述的基本信息包括管线属性信息、地理环境、运行状况和空间位置四大类;所述的历史破损情况包括破损管线编号、破损时间、破损原因和破损位置;
2)对获取到的管线信息进行数据预处理:
a.数据库关联:对城市供水管网的基础数据库和破损数据库按照管线编号或者空间位置进行关联,匹配出每根管线的历史破损信息;
b.确定影响因子:筛选出对管线健康有直接或间接影响的属性因子作为模型的输入参数,该输入参数包括管材、管径、管龄、管长、接口类型、管道防腐、埋深、道路负荷、覆土类型、杂散电流和运行压力;
c.数字编码:根据影响因子的数据属性,将其分为连续变量和分类变量,对分类变量进行数字编码,用不同数字表示数据类别;对于管线的历史破损信息,用0表示管线未发生过破损,用1表示管线发生破损;
3)利用随机森林模型建立自变量与因变量之间的关系,评价模型的分类效果:
自变量为筛选出的影响因子,因变量为用0和1表示的历史破损信息;模型分类误差小于20%时,认为模型效果较好,误差大于20%时,可通过调整参数重新建立模型;
4)利用通过分类效果评估的随机森林模型预测供水管网的破损概率:
预测结果为介于[0,1]之间的数值,其值越接近于1,管线越危险,越接近于0,管线越健康;
5)对预测结果进行分级,用不同颜色表示健康等级,绘制健康状态专题图;
6)评价管线破损影响因子重要性,分析影响规律:用平均精度下降和平均基尼指数下降两个参数评价管线破损影响因子的重要性,其值越大表示因子重要性越大:
通过绘制偏相关图,用图表描述一个因子对类的概率的边际效应,来分析各因子对管线破损的影响规律。
2.按照权利要求1所述的一种基于随机森林模型的管线健康状态评估方法,其特征在于,步骤3)利用随机森林模型中,原始数据样本集由破损管线和未破损管线两部分组成,数据量占比为1:1。
3.按照权利要求1所述的一种基于随机森林模型的管线健康状态评估方法,其特征在于,步骤3)评价模型分类效果时,采用随机森林自身特有的OOB误差估计模型误差。
4.按照权利要求1所述的一种基于随机森林模型的管线健康状态评估方法,其特征在于,步骤5)所述的对预测结果进行分级,采用等间隔分类法,根据0~0.2、0.2~0.4、0.4~0.6、0.6~0.8、0.8~1的概率区间将健康状态评估结果分别划分为健康、较好、一般、较差和危险五个等级,并在ArcGIS平台上用不同的颜色表示,绘制健康状态专题图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610179367.3A CN105678481B (zh) | 2016-03-25 | 2016-03-25 | 一种基于随机森林模型的管线健康状态评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610179367.3A CN105678481B (zh) | 2016-03-25 | 2016-03-25 | 一种基于随机森林模型的管线健康状态评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105678481A true CN105678481A (zh) | 2016-06-15 |
CN105678481B CN105678481B (zh) | 2019-02-22 |
Family
ID=56224182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610179367.3A Active CN105678481B (zh) | 2016-03-25 | 2016-03-25 | 一种基于随机森林模型的管线健康状态评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105678481B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106090630A (zh) * | 2016-06-16 | 2016-11-09 | 厦门数析信息科技有限公司 | 基于集成分类器的液体管道检漏方法及其*** |
CN106339593A (zh) * | 2016-08-31 | 2017-01-18 | 青岛睿帮信息技术有限公司 | 基于医疗数据建模的川崎病分类预测方法 |
CN107025514A (zh) * | 2016-12-27 | 2017-08-08 | 贵州电网有限责任公司电力科学研究院 | 一种动态评估变压器设备状态的评价方法及输变电设备 |
CN107832924A (zh) * | 2017-10-20 | 2018-03-23 | 北京工业大学 | 一种城市供水管网具体管段的漏失风险评价方法 |
CN108459582A (zh) * | 2018-03-01 | 2018-08-28 | 中国航空无线电电子研究所 | 面向ima***的综合健康评估方法 |
CN108710864A (zh) * | 2018-05-25 | 2018-10-26 | 北华航天工业学院 | 基于多维度识别及图像降噪处理的冬小麦遥感提取方法 |
CN109034641A (zh) * | 2018-08-10 | 2018-12-18 | 中国石油大学(北京) | 管道缺陷预测方法及装置 |
CN109027700A (zh) * | 2018-06-26 | 2018-12-18 | 清华大学 | 一种漏点探漏效果的评估方法 |
CN109034546A (zh) * | 2018-06-06 | 2018-12-18 | 北京市燃气集团有限责任公司 | 一种城镇燃气埋地管道腐蚀风险的智能预测方法 |
CN109711428A (zh) * | 2018-11-20 | 2019-05-03 | 佛山科学技术学院 | 一种含水天然气管线内腐蚀速度预测方法及装置 |
CN110383308A (zh) * | 2017-04-13 | 2019-10-25 | 甲骨文国际公司 | 预测管道泄漏的新型自动人工智能*** |
CN110705018A (zh) * | 2019-08-28 | 2020-01-17 | 泰华智慧产业集团股份有限公司 | 基于热线工单和管线健康评估的给水管线爆管定位方法 |
CN112801137A (zh) * | 2021-01-04 | 2021-05-14 | 中国石油天然气集团有限公司 | 一种基于大数据的石油管材质量动态评价方法及*** |
CN113902327A (zh) * | 2021-10-21 | 2022-01-07 | 南京工程学院 | 一种海上风电场基础结构腐蚀健康状态的评估方法及*** |
CN114370612A (zh) * | 2022-01-19 | 2022-04-19 | 安徽欧泰祺智慧水务科技有限公司 | 基于随机森林模型的供水管道状态监测方法 |
CN114492980A (zh) * | 2022-01-21 | 2022-05-13 | 中特检深燃安全技术服务(深圳)有限公司 | 一种城镇燃气埋地管道腐蚀风险的智能预测方法 |
CN116451885A (zh) * | 2023-06-20 | 2023-07-18 | 埃睿迪信息技术(北京)有限公司 | 一种供水管网健康度预测方法、装置及计算设备 |
CN112801137B (zh) * | 2021-01-04 | 2024-06-28 | 中国石油天然气集团有限公司 | 一种基于大数据的石油管材质量动态评价方法及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102362279A (zh) * | 2009-04-07 | 2012-02-22 | 拜奥尼茨生命科学公司 | 复杂疾病的体外诊断方法 |
CN102597639A (zh) * | 2009-09-16 | 2012-07-18 | 施耐德电气美国股份有限公司 | 对能量负荷进行建模和监测的***和方法 |
KR101283828B1 (ko) * | 2012-04-04 | 2013-07-15 | 한국수자원공사 | 상수관망 진단 시스템 |
CN104020274A (zh) * | 2014-06-05 | 2014-09-03 | 刘健 | 一种林地立地质量遥感量化估测的方法 |
CN105453093A (zh) * | 2013-08-14 | 2016-03-30 | 皇家飞利浦有限公司 | 出院处的患者风险因子的建模 |
-
2016
- 2016-03-25 CN CN201610179367.3A patent/CN105678481B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102362279A (zh) * | 2009-04-07 | 2012-02-22 | 拜奥尼茨生命科学公司 | 复杂疾病的体外诊断方法 |
CN102597639A (zh) * | 2009-09-16 | 2012-07-18 | 施耐德电气美国股份有限公司 | 对能量负荷进行建模和监测的***和方法 |
KR101283828B1 (ko) * | 2012-04-04 | 2013-07-15 | 한국수자원공사 | 상수관망 진단 시스템 |
CN105453093A (zh) * | 2013-08-14 | 2016-03-30 | 皇家飞利浦有限公司 | 出院处的患者风险因子的建模 |
CN104020274A (zh) * | 2014-06-05 | 2014-09-03 | 刘健 | 一种林地立地质量遥感量化估测的方法 |
Non-Patent Citations (1)
Title |
---|
孙福强: "国内外供水管网漏损管理技术与指标浅析", 《城镇供水》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106090630B (zh) * | 2016-06-16 | 2018-07-31 | 厦门数析信息科技有限公司 | 基于集成分类器的液体管道检漏方法及其*** |
CN106090630A (zh) * | 2016-06-16 | 2016-11-09 | 厦门数析信息科技有限公司 | 基于集成分类器的液体管道检漏方法及其*** |
CN106339593A (zh) * | 2016-08-31 | 2017-01-18 | 青岛睿帮信息技术有限公司 | 基于医疗数据建模的川崎病分类预测方法 |
CN106339593B (zh) * | 2016-08-31 | 2023-04-18 | 北京万灵盘古科技有限公司 | 基于医疗数据建模的川崎病分类预测方法 |
CN107025514A (zh) * | 2016-12-27 | 2017-08-08 | 贵州电网有限责任公司电力科学研究院 | 一种动态评估变压器设备状态的评价方法及输变电设备 |
CN110383308A (zh) * | 2017-04-13 | 2019-10-25 | 甲骨文国际公司 | 预测管道泄漏的新型自动人工智能*** |
CN110383308B (zh) * | 2017-04-13 | 2023-12-26 | 甲骨文国际公司 | 预测管道泄漏的新型自动人工智能*** |
CN107832924A (zh) * | 2017-10-20 | 2018-03-23 | 北京工业大学 | 一种城市供水管网具体管段的漏失风险评价方法 |
CN107832924B (zh) * | 2017-10-20 | 2020-01-10 | 北京工业大学 | 一种城市供水管网具体管段的漏失风险评价方法 |
CN108459582A (zh) * | 2018-03-01 | 2018-08-28 | 中国航空无线电电子研究所 | 面向ima***的综合健康评估方法 |
CN108710864A (zh) * | 2018-05-25 | 2018-10-26 | 北华航天工业学院 | 基于多维度识别及图像降噪处理的冬小麦遥感提取方法 |
CN108710864B (zh) * | 2018-05-25 | 2022-05-24 | 北华航天工业学院 | 基于多维度识别及图像降噪处理的冬小麦遥感提取方法 |
CN109034546A (zh) * | 2018-06-06 | 2018-12-18 | 北京市燃气集团有限责任公司 | 一种城镇燃气埋地管道腐蚀风险的智能预测方法 |
CN109027700A (zh) * | 2018-06-26 | 2018-12-18 | 清华大学 | 一种漏点探漏效果的评估方法 |
CN109034641A (zh) * | 2018-08-10 | 2018-12-18 | 中国石油大学(北京) | 管道缺陷预测方法及装置 |
CN109711428A (zh) * | 2018-11-20 | 2019-05-03 | 佛山科学技术学院 | 一种含水天然气管线内腐蚀速度预测方法及装置 |
CN110705018A (zh) * | 2019-08-28 | 2020-01-17 | 泰华智慧产业集团股份有限公司 | 基于热线工单和管线健康评估的给水管线爆管定位方法 |
CN110705018B (zh) * | 2019-08-28 | 2023-03-10 | 泰华智慧产业集团股份有限公司 | 基于热线工单和管线健康评估的给水管线爆管定位方法 |
CN112801137A (zh) * | 2021-01-04 | 2021-05-14 | 中国石油天然气集团有限公司 | 一种基于大数据的石油管材质量动态评价方法及*** |
CN112801137B (zh) * | 2021-01-04 | 2024-06-28 | 中国石油天然气集团有限公司 | 一种基于大数据的石油管材质量动态评价方法及*** |
CN113902327A (zh) * | 2021-10-21 | 2022-01-07 | 南京工程学院 | 一种海上风电场基础结构腐蚀健康状态的评估方法及*** |
CN114370612B (zh) * | 2022-01-19 | 2022-10-14 | 安徽欧泰祺智慧水务科技有限公司 | 基于随机森林模型的供水管道状态监测方法 |
CN114370612A (zh) * | 2022-01-19 | 2022-04-19 | 安徽欧泰祺智慧水务科技有限公司 | 基于随机森林模型的供水管道状态监测方法 |
CN114492980A (zh) * | 2022-01-21 | 2022-05-13 | 中特检深燃安全技术服务(深圳)有限公司 | 一种城镇燃气埋地管道腐蚀风险的智能预测方法 |
CN116451885A (zh) * | 2023-06-20 | 2023-07-18 | 埃睿迪信息技术(北京)有限公司 | 一种供水管网健康度预测方法、装置及计算设备 |
CN116451885B (zh) * | 2023-06-20 | 2023-09-01 | 埃睿迪信息技术(北京)有限公司 | 一种供水管网健康度预测方法、装置及计算设备 |
Also Published As
Publication number | Publication date |
---|---|
CN105678481B (zh) | 2019-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105678481A (zh) | 一种基于随机森林模型的管线健康状态评估方法 | |
CN110866974B (zh) | 一种基于三维展示的水工监测*** | |
CN110097297B (zh) | 一种多维度窃电态势智能感知方法、***、设备及介质 | |
CN107610469B (zh) | 一种考虑多因素影响的日维度区域交通指数预测方法 | |
Yang et al. | Assessment of water resources carrying capacity for sustainable development based on a system dynamics model: a case study of Tieling City, China | |
CN106022518B (zh) | 一种基于bp神经网络的管道破损概率预测方法 | |
CN106651211A (zh) | 一种不同尺度区域洪水灾害风险评估的方法 | |
CN105825342A (zh) | 一种管道失效可能性评价方法及*** | |
CN112529327A (zh) | 一种用于构建商业地区建筑火灾风险预测等级模型的方法 | |
Li et al. | Research and application of random forest model in mining automobile insurance fraud | |
CN102567807A (zh) | 加油卡客户流失预测方法 | |
CN116777223B (zh) | 一种城市地下管网安全综合风险评估方法及*** | |
CN117236199B (zh) | 城市水网区域河湖水质提升与水安全保障方法及*** | |
CN104574141A (zh) | 一种业务影响度分析方法 | |
CN111401653A (zh) | 一种隧道渗漏水风险空间相依性预测方法及预测*** | |
CN117172556B (zh) | 一种桥梁工程的施工风险预警方法与*** | |
Fakher et al. | New insights into development of an environmental–economic model based on a composite environmental quality index: a comparative analysis of economic growth and environmental quality trend | |
CN111144637A (zh) | 基于机器学习的区域电网地质灾害预报模型构建方法 | |
CN111199298A (zh) | 基于神经网络的洪水预报方法与*** | |
CN115907822A (zh) | 一种考虑区域及经济影响的负荷特征指标关联性挖掘方法 | |
CN115796702A (zh) | 一种红壤土地综合治理生态修复成效的评估方法及*** | |
CN107145995A (zh) | 生产环境安全性预测方法、装置和*** | |
CN103970651A (zh) | 基于组件安全属性的软件体系结构安全性评估方法 | |
CN115905319B (zh) | 一种海量用户电费异常的自动识别方法及*** | |
CN115907719A (zh) | 充电站分级运维管理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |