CN110675036A - 一种基于随机森林优化微生物指数的高原河流生态健康评价方法 - Google Patents
一种基于随机森林优化微生物指数的高原河流生态健康评价方法 Download PDFInfo
- Publication number
- CN110675036A CN110675036A CN201910847077.5A CN201910847077A CN110675036A CN 110675036 A CN110675036 A CN 110675036A CN 201910847077 A CN201910847077 A CN 201910847077A CN 110675036 A CN110675036 A CN 110675036A
- Authority
- CN
- China
- Prior art keywords
- index
- random forest
- microbial
- microorganism
- indexes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000813 microbial effect Effects 0.000 title claims abstract description 50
- 238000011156 evaluation Methods 0.000 title claims abstract description 47
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 40
- 230000036541 health Effects 0.000 title claims abstract description 30
- 238000005457 optimization Methods 0.000 title claims abstract description 25
- 244000005700 microbiome Species 0.000 claims abstract description 48
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 26
- 238000012216 screening Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 40
- 238000009826 distribution Methods 0.000 claims description 19
- 238000005070 sampling Methods 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000035945 sensitivity Effects 0.000 claims description 9
- 241001135761 Deltaproteobacteria Species 0.000 claims description 7
- 230000007613 environmental effect Effects 0.000 claims description 7
- QGZKDVFQNNGYKY-UHFFFAOYSA-N Ammonia Chemical compound N QGZKDVFQNNGYKY-UHFFFAOYSA-N 0.000 claims description 6
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 claims description 6
- 229910002651 NO3 Inorganic materials 0.000 claims description 6
- NHNBFGGVMKEFGY-UHFFFAOYSA-N Nitrate Chemical compound [O-][N+]([O-])=O NHNBFGGVMKEFGY-UHFFFAOYSA-N 0.000 claims description 6
- 238000010220 Pearson correlation analysis Methods 0.000 claims description 6
- 238000011109 contamination Methods 0.000 claims description 6
- 230000002550 fecal effect Effects 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 238000012165 high-throughput sequencing Methods 0.000 claims description 4
- 229910052760 oxygen Inorganic materials 0.000 claims description 4
- 239000001301 oxygen Substances 0.000 claims description 4
- 238000000611 regression analysis Methods 0.000 claims description 4
- 241000203069 Archaea Species 0.000 claims description 3
- 241001112696 Clostridia Species 0.000 claims description 3
- 238000000585 Mann–Whitney U test Methods 0.000 claims description 3
- 241001453382 Nitrosomonadales Species 0.000 claims description 3
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 3
- CVTZKFWZDBJAHE-UHFFFAOYSA-N [N].N Chemical compound [N].N CVTZKFWZDBJAHE-UHFFFAOYSA-N 0.000 claims description 3
- 229910021529 ammonia Inorganic materials 0.000 claims description 3
- 229910052799 carbon Inorganic materials 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000012851 eutrophication Methods 0.000 claims description 3
- 230000008676 import Effects 0.000 claims description 3
- 229910052757 nitrogen Inorganic materials 0.000 claims description 3
- 230000001590 oxidative effect Effects 0.000 claims description 3
- 229910052698 phosphorus Inorganic materials 0.000 claims description 3
- 239000011574 phosphorus Substances 0.000 claims description 3
- 108090000623 proteins and genes Proteins 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 239000002352 surface water Substances 0.000 claims description 3
- 238000007400 DNA extraction Methods 0.000 claims description 2
- 241000425347 Phyla <beetle> Species 0.000 claims description 2
- 238000012952 Resampling Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000009827 uniform distribution Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 241000863434 Myxococcales Species 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 241000192142 Proteobacteria Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012854 evaluation process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 241000896533 Gliocladium Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 239000004698 Polyethylene Substances 0.000 description 1
- XKMRRTOUMJRJIA-UHFFFAOYSA-N ammonia nh3 Chemical compound N.N XKMRRTOUMJRJIA-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 231100000049 endocrine disruptor Toxicity 0.000 description 1
- 239000000598 endocrine disruptor Substances 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000036449 good health Effects 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000002906 microbiologic effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000009304 pastoral farming Methods 0.000 description 1
- 229920003023 plastic Polymers 0.000 description 1
- 239000004033 plastic Substances 0.000 description 1
- 231100000719 pollutant Toxicity 0.000 description 1
- -1 polyethylene Polymers 0.000 description 1
- 229920000573 polyethylene Polymers 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A20/00—Water conservation; Efficient water supply; Efficient water use
- Y02A20/152—Water filtration
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种基于随机森林优化微生物指数的高原地区河流生态健康评价方法,包括以下步骤:计算综合水质指数,确定参考点;构建候选参数指标库;筛选核心微生物指标;随机森林模型训练,权重计算;基于随机森林优化的微生物完整性指数构建;评价结果可靠性分析。本发明以微生物完整性指数为基础,运用随机森林算法计算生态权重,建立了一套针对高原河流的生态健康状况评价体系。
Description
技术领域
本发明涉及环境监测和环境保护技术领域,具体涉及一种基于随机森林优化微生物指数的高原地区河流生态健康评价方法。
背景技术
平均海拔超过4000米的三江源地区,是中国乃至世界典型高原河流源头区域,作为长江、黄河、澜沧江(湄公河)的发源地,该地区的生态状况对中国乃至整个东南亚的生态安全起着重要的作用。由于过度放牧、粪便污染等人为干扰,高原地区面临着生态退化的风险,20年来,中国政府一直致力于保护该地区的生态环境。准确、全面客观地评价高原地区河流生态***健康状况对三江源等高原地区的保护工程具有极为重要的指导意义。但是由于数据采集困难,三江源地区河流的生态健康状况研究相对较少,相邻水生态***的生态脆弱性也很少被关注。并且由于缺乏传统的大型生物指标,传统基于大型底栖无脊椎动物的生态健康评价方法已不适用于此区域,因此迫切需要开发一套针对高原源区河流的生态健康状况评价体系,可以快速、灵敏、准确、全面客观地反映高原地区河流生态***健康状况,为我国的源区保护工程提供科学指导。
与传统指标相比,微生物作为生态健康评价指标具有显著优势。首先,微生物对极端环境的耐受力强,即使是在生态退化的高原生态***中,微生物群落仍非常发达,可为健康评价提供足够的信息。其次,微生物群落结构和功能对环境干扰具有较强的敏感性,能够较全面的反映由内分泌干扰物等多种类型污染物所引起的生态过程变化。再次,底质微生物生活场所相对固定,可以稳定反映周围环境变化。最后,采用分子生物学技术可以经济快速地检测微生物群落的组成和功能多样性,***表征生态***的结构和功能完整性。因此,在高原河流源区开展基于微生物群落的生态健康状况评价,可以进一步发展和完善高原河流生态健康评价***,进而更有效地应用于高原源区水生态***的保护和修复工作。
由于研究不足,微生物指标的生态权重计算问题还没有解决,目前构建的微生物完整性指标鲜有准确的生态权重计算方法,目前权重计算方法主要分为三大类:主观赋权法、客观赋权法以及主客观综合集成赋权法。主观赋权法在确定权重时主要依据决策者和专家的知识经验或偏好,将各指标按重要程度进行比较、分配权值或计算得出其权重,其认为权重的实质是评价指标对于评价目标相对重要程度的量化体现。此类方法的主观随意性比较强,但指标权重大小的排序基本与评价对象的实际情况相符合。客观赋权法是依赖一定的数学理论,完全基于对指标实际数据的定量分析而确定指标权重的方法,保证了权重的绝对客观性,对样本数据有较高的要求。但客观赋权法忽略了人的经验等主观信息,有可能会出现权重分配结果与实际情况相悖的现象,且依赖于实际业务领域,缺乏通用性。目前主要的客观赋权法有:变异系数法、基于主成分分析与因子分析的多元统计法、向量相似度法、灰色关联度法、熵值法、粗糙集法以及神经网络法。综合集成赋权法是依据不同的偏好系数将主观赋权法和客观赋权法相结合来确定指标权重的综合方法。基于主观赋权法中对专家经验知识与决策者主观意向的信息体现,以及基于客观赋权法中对指标与评价对象间内在联系的信息表现,综合集成赋权法通过一定的数学运算将两者有效结合起来,达到了优势互补的效果。本发明采用有监督随机森林算法的特征重要度计算权重,能够获得经实际检验是合理、科学且符合实际的指标相对重要性信息,保证了指标权重的客观性和实用性。
发明内容
针对现有技术及研究存在的不足,本发明目的是提供一种基于随机森林优化微生物指数的高原地区河流生态健康评价方法。
本发明采用以下技术方案:
一种基于随机森林优化微生物指数的高原河流生态健康评价方法,包括以下步骤:
第一步:按照沿着主干流均匀分布的布置原则布置采样点,计算综合水质指标IWQ,确定参考点;
第二步:建立候选微生物参数指标库,首先建立候选微生物参数指标库,将不同水平的微生物群落丰富度指数、多样性指数参数、耐受性参数以及功能性参数作为计算生物完整性指数的候选参数,建立候选微生物参数指标库;
第三步:筛选核心敏感微生物参数,对候选微生物参数指标库进行时空分布差异、判别能力敏感性、冗余性检验,筛选出核心敏感微生物参数;
第四步:随机森林模型训练,各敏感微生物指标权重计算;
第五步:基于随机森林优化的微生物完整性指数构建及评价等级划分;
第六步:评价结果可靠性分析。
作为本申请的一种优选技术方案:所述第一步中综合水质指标IWQ具体的计算方法如下:
A1、采样时记录海拔Ele和温度T,并检测各样品的理化指标如:PH、溶解氧DO、电导率Tur、总氮TN、硝酸盐NO3 -、亚硝酸盐NO2 -、氨氮NH4 +、总有机碳TOC、总磷TP;
B1、对以上数据利用SPSS软件进行Pearson相关性分析,其中相关性系数r>0.6表示具有强相关性,筛选最终无明显相关性的指标作为综合水质参数;
C1、按照《地表水环境质量标准》GB 3838—2002规定值范围进行赋分,将待评价河流的上述检测指标分布范围5分位、25分位、50分位、75分位和95分位的值作为临界值,将各指标分成五类,最终求和得到综合水质指标IWQ;根据IWQ值a分位和b分位作为阈值划分为三级,分别为不健康、较健康和健康;分别选择2个最高健康点与不健康点作为参考点。
作为本申请的一种优选技术方案:所述第二步中微生物候选参数指标库的构建方法如下:
A2、候选微生物参数指标中微生物群落的丰富度指数包括:门、纲、目、科、属五个分类水平,采集的河流生物膜样品进行DNA提取,基于高通量测序平台对提取的合格的生物膜DNA进行测序,经过质量分析和筛选后获得有效序列;基于97%的相似度,将测得的序列进行比对后进行OTU聚类,获得微生物种类与丰度信息;然后将序列与基因文库比对,计算样品覆盖率,以确定测序的可靠性;
B2、优选的采用Shannon-Wiener多样性指数作为微生物群落多样性指数参数;
C2、优选的基于OUT单元分析微生物群落对环境因素的耐受性;
D2、优选的两个功能指示指标:AOA:AOB,表示属分类水平的氨氧化古菌和氨氧化细菌的比值,是富营养化的指示因子;BBC:A,表示芽孢杆菌纲、拟杆菌纲、和梭菌纲的总丰度与δ变形菌纲丰度的比值,是指示粪便污染的综合指示因子。
作为本申请的一种优选技术方案:所述第三步中核心敏感微生物参数筛选方法如下:
A3、首先进行分布范围筛选,分布范围指候选参数指标库中的各个参数在不同样点的分布情况,优选的,若某参数在70%以上的采样点内相对丰度为0,即删除该参数;
B3、判别能力筛选,利用SPSS软件对参数进行Mann-Whitney U检验p<0.05,此外,结合箱体图法来检验参数的敏感性,删除箱体重叠多于70%的候选参数指标,保留箱体重叠少于30%的候选指标对于保留的候选指标参数方可进行冗余性分析;
C3、冗余性分析筛选,基于Pearson相关性分析,筛选相对独立性强并且生物信息冗余性低的候选参数,若相关性系数r>0.6,则两指标选其一。
5、作为本申请的一种优选技术方案:所述第四步中随机森林模型训练,各敏感微生物指标权重计算方法如下:
A4、以上述建立的综合水质指标IWQ作为因变量,以筛选的敏感微生物指标作为解释变量进行随机森林模型训练;
B4、基于随机森林来计算特征重要度,采用带外数OOB做测试集,利用重抽样技术构造多个数据集,分别在每个数据集上进行特征重要性度量ei,调用importance函数计算特征重要性度量ei,然后归一化处理,最后得到综合评估特征重要权重度
作为本申请的一种优选技术方案:所述第五步中基于随机森林优化的微生物完整性指数构建及评价等级划分:
对最终保留的核心微生物参数进行0-10的连续分值赋分;如果核心微生物参数随着污染状况的加剧而降低,则按照如下公式进行计算;
Xi=10×(上临界值-观测值)/(上临界值-下临界值)
如果核心微生物参数随着污染状况的加剧而增加,则按照如下公式进行计算
Xi=10×(下临界值-观测值)/(下临界值-上临界值)
最后计算将各点核心微生物参数加权计算RF-McIBI值:RF-McIBI=∑Xi×ωi
基于将河流的生物完整性指数分值从低到高划分的五个等级,分别为重度不健康、中度不健康、轻度不健康、亚健康和健康,将各采样点的得分对应到每个等级,从而得到最终评价结果。
作为本申请的一种优选技术方案:所述第六步中评价结果可靠性分析为:将加权计算的RF-McIBI值与IWQ值进行最小二乘法回归分析。
有益效果:
本申请所述基于随机森林优化微生物指数的高原地区河流生态健康评价方法采用以上技术方案与现有技术相比,具有以下技术效果:
1、本方法填补了高原地区河流生态健康评价的空白,具有较强敏感性与适用性,并且通过对样本的机器学习模型训练,能够获得合理、科学且符合实际的指标相对重要性信息,保证了指标权重的客观性和实用性。
2、本方法优选了高原地区环境压力的粪便污染指示因子,对海拔超过4000米的青藏高原地区同样具有很好的适用性。
3、δ变形菌纲的丰度比例可以在一定程度上反映草原农牧业的粪便污染。
4、本方法将微生物完整性指数与水质建立联系,R2=0.81显示,我们构建的随机森林优化的微生物指数能很好的反映水质的变化。
5、本方法可以快速、灵敏、准确、全面客观地反映高原地区河流生态***健康状况。
附图说明
图1为评价流程流程图
图2为δ变形菌纲丰度图;
图3为黏胶球形菌目丰度图;
图4为厌氧绳菌纲丰度图;
图5为黏胶球形菌属丰度图;
图6为变形菌门丰度图;
图7为随机森林优化的微生物指数RF-McIBI与综合水质指数的回归分析R2=0.81。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例:
本发明基于随机森林优化的微生物指数的高原地区河流进行生态健康评价,以平均海拔超过4000米的三江源区为研究对象开展评价过程。
基于随机森林优化的微生物完整性指数,以下简称RF-McIBI。
一种基于随机森林优化微生物指数的高原河流生态健康评价方法,包括以下步骤:
第一步:计算综合水质指标IWQ,确定参考点:
按照沿着主干流均匀分布,考虑不同的土地利方式、人为活动对水环境状况造成的影响的布置原则布置采样点。
通过对青藏公路沿线各大河流中沱沱河桥心、沱沱河岸边、通天河桥下、北麓河大桥等107个采样点利用有机玻璃采水器采集河流上覆水体水样,每个采样点的水样保存于1L聚乙烯塑料瓶中,用于水质指标检测。所得到的海拔Ele、温度T、PH、溶解氧DO、电导率Tur、总氮TN、硝酸盐NO3 -、亚硝酸盐NO2 -、氨氮NH4 +、总有机碳TOC、总磷TP理化数据,对以上数据利用SPSS软件进行Pearson相关性分析,其中相关性系数r>0.6表示具有强相关性,筛选出无显著相关性的指标PH、氨氮、溶解氧、电导率四大理化数据,按照《地表水环境质量标准》GB 3838—2002规定值范围进行赋分,将待评价河流的上述检测指标分布范围5分位、25分位、50分位、75分位和95分位的值作为临界值,将各指标分成五类,最终求和得到综合水质指标IWQ,如表1所示。根据IWQ值a分位和b分位作为阈值划分为三级,分别为不健康、较健康和健康;分别选择2个最高健康点与不健康点作为参考点。
表1综合水质指数IWQ赋值表
第二步:建立微生物候选参数指标库:
采集的河流生物膜样品进行DNA提取,基于高通量测序平台对提取的合格的生物膜DNA进行测序,经过质量分析和筛选后获得有效序列;基于97%的相似度,将测得的序列进行比对后进行OTU聚类,获得微生物种类与丰度信息;然后将序列与基因文库比对,计算样品覆盖率,以确定测序的可靠性;其中候选微生物参数指标库中微生物群落的丰富度指数包括:门、纲、目、科、属五个分类水平;优选的采用Shannon-Wiener多样性指数作为微生物群落多样性指数参数;优选的基于OUT单元分析微生物群落对环境因素的耐受性;优选的两个功能指示指标:AOA:AOB,表示属分类水平的氨氧化古菌和氨氧化细菌的比值,是富营养化的指示因子;BBC:A,表示芽孢杆菌纲、拟杆菌纲、和梭菌纲的总丰度与δ变形菌纲丰度的比值,是指示粪便污染的综合指示因子。基于高通量测序分析得到的青藏高原微生物群落结构组成特征,本研究共选取了82个候选指标。如表2所示。
表2候选微生物指标库
第三步:筛选核心敏感微生物参数:
对候选参数指标库进行时空分布差异、判别能力敏感性、冗余性检验,筛选出核心微生物参数;
A3、首先进行分布范围筛选,分布范围指候选参数指标库中的各个参数在不同样点的分布情况,优选的,若某参数在70%以上的采样点内相对丰度为0,即删除该参数;
B3、判别能力筛选,利用SPSS软件对参数进行Mann-Whitney U检验p<0.05,此外,结合箱体图法来检验参数的敏感性,删除箱体重叠多于70%的候选参数指标,保留箱体重叠少于30%的候选指标,对于保留的候选指标参数方可进行冗余性分析;
C3、冗余性分析筛选,基于Pearson相关性分析,筛选相对独立性强并且生物信息冗余性低的候选参数,若相关性系数r>0.6,则两指标选其一。
可以得到参与计算的微生物完整指数的5个生物参数为:变形菌门丰度M6、δ变形菌纲丰度M24、黏胶球形菌目丰度M26、黏胶球形菌属丰度M53、厌氧绳菌纲丰度M54。如附图2-6所示,参照点与受损点的核心生物参数具有良好的敏感性与差异性,可以应用于RF-McIBI的构建。
第四步:随机森林模型训练,各敏感微生物指标权重计算
将筛选出的核心敏感微生物参数作为解释变量,对应点位的IWQ指数作为因变量输入随机森林模型,进行模型训练,调用importance函数计算特征重要性度量ei,经过归一化处理得到权重所有计算在R版本3.4.2中实现,软件包“randomForest”版本4.6-14。经计算变形菌门丰度权重0.14,δ变形菌纲丰度权重为0.25,黏胶球形菌目丰度权重为0.12,黏胶球形菌属丰度权重为0.30,厌氧蝇菌纲丰度权重为0.19,最终计算出的权重值参照表4。
第五步:基于随机森林优化的微生物完整性指数构建及评价等级划分
对最终保留的核心微生物参数进行0-10的连续分值赋分;如果核心微生物参数随着污染状况的加剧而降低,则按照如下公式进行计算;
Xi=10×(上临界值-观测值)/(上临界值-下临界值)
如果核心微生物参数随着污染状况的加剧而增加,则按照如下公式进行计算
Xi=10×(下临界值-观测值)/(下临界值-上临界值)。
筛选出来的每个核心参数按照表4的公式进行赋分,最终的RF-McIBI得分通过把每个参数的分值加权求和得到。通过计算,我们得到青藏公路沿线的RF-McIBI得分的分布范围在0-100。将其分布范围进行四等分,得到基于微生物生物完整性指数评价的四类评价等级:“健康”(75~100)、“亚健康”(50~75)、“良好”(25~50)和“一般”(0~25)。青藏高原河流的得分分布范围在0~100之间,沿线河流的RF-McIBI平均值为31.22,整体属于“良好”等级,在选取的采样点中直达门等河段10个采样点属于“健康”等级,沱沱河等有12个采样点属于“亚健康”等级,北麓河等河流有31个采样点属于“良好”等级,其余通天河等54个点为“一般”等级。总体来看,三江源区河流生态健康状态较为良好,其中健康状态较好的河流在三江源自然保护区及人口较少地区。
表4五个核心参数的上临界值、下临界值以及得分计算公式
第六步:评价结果可靠性分析
为验证本方法的可靠性,本研究将加权计算的RF-McIBI值与IWQ值进行最小二乘法回归分析,结果如图7所示,R2>0.8,证明基于随机森林优化的微生物完整性指数与综合水质指数有良好的相关性,从而证明基于随机森林优化的微生物完整性指数应用于青藏高原河流的生态健康状态评价具有可靠性。RF-McIBI值与IWQ值结果如表5所示。
表5 RF-McIBI值与IWQ值计算结果
上面结合附图对本申请的实施方式作了详细说明,但是本申请并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本申请宗旨的前提下做出各种变化。
Claims (7)
1.一种基于随机森林优化微生物指数的高原河流生态健康评价方法,其特征在于,包括以下步骤:
第一步:按照沿着主干流均匀分布的布置原则布置采样点,计算综合水质指标IWQ,确定参考点;
第二步:建立候选微生物参数指标库,首先建立候选微生物参数指标库,将不同水平的微生物群落丰富度指数、多样性指数参数、耐受性参数以及功能性参数作为计算生物完整性指数的候选参数,建立候选微生物参数指标库;
第三步:筛选核心敏感微生物参数,对候选微生物参数指标库进行时空分布差异、判别能力敏感性、冗余性检验,筛选出核心敏感微生物参数;
第四步:随机森林模型训练,各敏感微生物指标权重计算;
第五步:基于随机森林优化的微生物完整性指数构建及评价等级划分;
第六步:评价结果可靠性分析。
2.根据权利要求1所述基于随机森林优化微生物指数的高原河流生态健康评价方法,其特征在于,所述第一步中综合水质指标IWQ具体的计算方法如下:
A1、采样时记录海拔Ele和温度T,并检测各样品的理化指标如:PH、溶解氧DO、电导率Tur、总氮TN、硝酸盐NO3 -、亚硝酸盐NO2 -、氨氮NH4 +、总有机碳TOC、总磷TP;
B1、对以上数据利用SPSS软件进行Pearson 相关性分析,其中相关性系数r>0.6表示具有强相关性,筛选最终无明显相关性的指标作为综合水质参数;
C1、按照《地表水环境质量标准》GB 3838—2002规定值范围进行赋分, 将待评价河流的上述检测指标分布范围5分位、25分位、50分位、75分位和95分位的值作为临界值,将各指标分成五类,最终求和得到综合水质指标IWQ;根据IWQ值a分位和b分位作为阈值划分为三级,分别为不健康、较健康和健康;分别选择2个最高健康点与不健康点作为参考点。
3.根据权利要求1所述基于随机森林优化微生物指数的高原地区河流生态健康评价方法,其特征在于,所述第二步中微生物候选参数指标库的构建方法如下:
A2、候选微生物参数指标中微生物群落的丰富度指数包括:门、纲、目、科、属五个分类水平,采集的河流生物膜样品进行DNA提取,基于高通量量测序平台对提取的合格的生物膜DNA进行测序,经过质量分析和筛选后获得有效序列;基于97%的相似度,将测得的序列进行比对后进行OTU聚类,获得微生物种类与丰度信息;然后将序列与基因文库比对,计算样品覆盖率,以确定测序的可靠性;
B2、优选的采用Shannon-Wiener 多样性指数作为微生物群落多样性指数参数;
C2、优选的基于OUT单元分析微生物群落对环境因素的耐受性;
D2、优选的两个功能指示指标:AOA:AOB,表示属分类水平的氨氧化古菌和氨氧化细菌的比值,是富营养化的指示因子;BBC:A,表示芽孢杆菌纲、拟杆菌纲、和梭菌纲的总丰度与δ变形菌纲丰度的比值,是指示粪便污染的综合指示因子。
4.根据权利要求1所述基于随机森林优化微生物指数的高原地区河流生态健康评价方法,其特征在于,所述第三步中核心敏感微生物参数筛选方法如下:
A3、首先进行分布范围筛选,分布范围指候选参数指标库中的各个参数在不同样点的分布情况,优选的,若某参数在70%以上的采样点内相对丰度为0,即删除该参数;
B3、判别能力筛选,利用SPSS软件对参数进行Mann-Whitney U 检验p < 0.05,此外,结合箱体图法来检验参数的敏感性,删除箱体重叠多于70%的候选参数指标,保留箱体重叠少于30%的候选指标对于保留的候选指标参数方可进行冗余性分析;
C3、冗余性分析筛选,基于Pearson 相关性分析,筛选相对独立性强并且生物信息冗余性低的候选参数,若相关性系数r>0.6,则两指标选其一。
5.根据权利要求1所述基于随机森林优化微生物指数的高原地区河流生态健康评价方法,其特征在于,所述第四步中随机森林模型训练,各敏感微生物指标权重计算方法如下:
A4、以上述建立的综合水质指标IWQ作为因变量,以筛选的敏感微生物指标作为解释变量进行随机森林模型训练;
B4、基于随机森林来计算特征重要度,采用带外数OOB做测试集,利用重抽样技术构造
多个数据集,分别在每个数据集上进行特征重要性度量ei,调用importance函数计算特征
重要性度量ei,然后归一化处理,最后得到综合评估特征重要权重度ωi=。
6.根据权利要求1所述基于随机森林优化微生物指数的高原地区河流生态健康评价方法,其特征在于,所述第五步中基于随机森林优化的微生物完整性指数构建及评价等级划分:
对最终保留的核心微生物参数进行0-10的连续分值赋分;如果核心微生物参数随着污染状况的加剧而降低,则按照公式如下公式进行计算;
Xi=10 × (上临界值-观测值) / (上临界值-下临界值)
如果核心微生物参数随着污染状况的加剧而增加,则按照公式如下进行计算
Xi=10 × (下临界值-观测值) / (下临界值-上临界值)
基于将河流的生物完整性指数分值从低到高划分的五个等级,分别为重度不健康、中度不健康、轻度不健康、亚健康和健康,将各采样点的得分对应到每个等级,从而得到最终评价结果。
7.根据权利要求1所述基于随机森林优化微生物指数的高原地区河流生态健康评价方法,其特征在于,所述第六步中评价结果可靠性分析为:将加权计算的RF-McIBI值与IWQ值进行最小二乘法回归分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910847077.5A CN110675036B (zh) | 2019-09-09 | 2019-09-09 | 一种基于随机森林优化微生物指数的高原河流生态健康评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910847077.5A CN110675036B (zh) | 2019-09-09 | 2019-09-09 | 一种基于随机森林优化微生物指数的高原河流生态健康评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110675036A true CN110675036A (zh) | 2020-01-10 |
CN110675036B CN110675036B (zh) | 2022-08-16 |
Family
ID=69076725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910847077.5A Active CN110675036B (zh) | 2019-09-09 | 2019-09-09 | 一种基于随机森林优化微生物指数的高原河流生态健康评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110675036B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111243676A (zh) * | 2020-03-10 | 2020-06-05 | 南京农业大学 | 一种基于高通量测序数据的枯萎病发病预测模型及应用 |
CN112597436A (zh) * | 2020-12-25 | 2021-04-02 | 东北林业大学 | 基于可拓评判法的红皮云杉含碳率质量评价方法 |
CN113257362A (zh) * | 2021-05-24 | 2021-08-13 | 自然资源部第三海洋研究所 | 一种生物环境样品的筛选方法 |
CN113269436A (zh) * | 2021-05-21 | 2021-08-17 | 河海大学 | 一种基于knn算法的河流幸福等级评估方法 |
CN113393081A (zh) * | 2021-05-08 | 2021-09-14 | 北控水务(中国)投资有限公司 | 一种适用于再生水补给河流的健康评价方法 |
CN113791186A (zh) * | 2021-08-12 | 2021-12-14 | 北京金水永利科技有限公司 | 一种选择水质异常报警监测因子的方法及其*** |
CN115545521A (zh) * | 2022-10-20 | 2022-12-30 | 河海大学 | 一种沿海滩涂生态健康评估方法 |
CN115691670A (zh) * | 2022-08-16 | 2023-02-03 | 广东省科学院微生物研究所(广东省微生物分析检测中心) | 一种基于微生物群落特异性响应的河流生态***健康评价方法 |
CN117370827A (zh) * | 2023-12-07 | 2024-01-09 | 飞特质科(北京)计量检测技术有限公司 | 一种基于深度聚类模型的风机质量等级评估方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063962A (zh) * | 2018-06-28 | 2018-12-21 | 河海大学 | 一种基于权重的城市内河生态***健康评价方法 |
CN109374860A (zh) * | 2018-11-13 | 2019-02-22 | 西北大学 | 一种基于机器学习算法的土壤养分预测及综合评价方法 |
-
2019
- 2019-09-09 CN CN201910847077.5A patent/CN110675036B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063962A (zh) * | 2018-06-28 | 2018-12-21 | 河海大学 | 一种基于权重的城市内河生态***健康评价方法 |
CN109374860A (zh) * | 2018-11-13 | 2019-02-22 | 西北大学 | 一种基于机器学习算法的土壤养分预测及综合评价方法 |
Non-Patent Citations (1)
Title |
---|
陈凯等: "应用生物完整性指数评价我国河流的生态健康", 《中国环境科学》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111243676B (zh) * | 2020-03-10 | 2024-03-22 | 南京农业大学 | 一种基于高通量测序数据的枯萎病发病预测模型及应用 |
CN111243676A (zh) * | 2020-03-10 | 2020-06-05 | 南京农业大学 | 一种基于高通量测序数据的枯萎病发病预测模型及应用 |
CN112597436B (zh) * | 2020-12-25 | 2023-11-24 | 东北林业大学 | 基于可拓评判法的红皮云杉含碳率质量评价方法 |
CN112597436A (zh) * | 2020-12-25 | 2021-04-02 | 东北林业大学 | 基于可拓评判法的红皮云杉含碳率质量评价方法 |
CN113393081A (zh) * | 2021-05-08 | 2021-09-14 | 北控水务(中国)投资有限公司 | 一种适用于再生水补给河流的健康评价方法 |
CN113269436A (zh) * | 2021-05-21 | 2021-08-17 | 河海大学 | 一种基于knn算法的河流幸福等级评估方法 |
CN113269436B (zh) * | 2021-05-21 | 2024-03-15 | 河海大学 | 一种基于knn算法的河流幸福等级评估方法 |
CN113257362A (zh) * | 2021-05-24 | 2021-08-13 | 自然资源部第三海洋研究所 | 一种生物环境样品的筛选方法 |
CN113791186A (zh) * | 2021-08-12 | 2021-12-14 | 北京金水永利科技有限公司 | 一种选择水质异常报警监测因子的方法及其*** |
CN115691670A (zh) * | 2022-08-16 | 2023-02-03 | 广东省科学院微生物研究所(广东省微生物分析检测中心) | 一种基于微生物群落特异性响应的河流生态***健康评价方法 |
WO2023098239A1 (zh) * | 2022-08-16 | 2023-06-08 | 广东省科学院微生物研究所(广东省微生物分析检测中心) | 一种基于微生物群落特异性响应的河流生态***健康评价方法 |
CN115545521A (zh) * | 2022-10-20 | 2022-12-30 | 河海大学 | 一种沿海滩涂生态健康评估方法 |
CN115545521B (zh) * | 2022-10-20 | 2024-04-26 | 河海大学 | 一种沿海滩涂生态健康评估方法 |
CN117370827A (zh) * | 2023-12-07 | 2024-01-09 | 飞特质科(北京)计量检测技术有限公司 | 一种基于深度聚类模型的风机质量等级评估方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110675036B (zh) | 2022-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110675036B (zh) | 一种基于随机森林优化微生物指数的高原河流生态健康评价方法 | |
Yan et al. | Indices and models of surface water quality assessment: Review and perspectives | |
King et al. | Integrating bioassessment and ecological risk assessment: an approach to developing numerical water-quality criteria | |
CN105608324B (zh) | 基于毒性效应的流域沉积物中重金属生态风险评估方法 | |
CN115577018B (zh) | 一种水质监测数据的智能处理方法及*** | |
CN109063962B (zh) | 一种基于权重的城市内河生态***健康评价方法 | |
Sinshaw et al. | Artificial neural network for prediction of total nitrogen and phosphorus in US lakes | |
CN113658640B (zh) | 一种淡水生态***健康评价方法 | |
Lücke et al. | Detection of ecological change in stream macroinvertebrate assemblages using single metric, multimetric or multivariate approaches | |
CN105447248B (zh) | 基于金属定量构效关系的海水急性基准预测方法 | |
CN116340723B (zh) | 基于大数据的乡村水污染快速溯源方法及*** | |
CN116482313A (zh) | 一种基于环境dna技术的水生态监测及综合评价方法 | |
CN108334943A (zh) | 基于主动学习神经网络模型的工业过程半监督软测量建模方法 | |
Elbagalati et al. | Development of an enhanced decision-making tool for pavement management using a neural network pattern-recognition algorithm | |
CN113011661A (zh) | 一种用于河流生态修复的曝气控制***及其控制方法 | |
CN117195135B (zh) | 一种水污染异常溯源检测方法及*** | |
CN110033133A (zh) | 一种河湖***中泥沙溯源方法 | |
CN115774953A (zh) | 一种基于数据处理的污染时空风险监管评估***及方法 | |
CN112581038A (zh) | 一种红树林湿地的健康状况的评估方法 | |
CN114707786A (zh) | 一种基于共现性网络的河流生态***健康评价方法 | |
Singh et al. | Review on Data Mining Techniques for Prediction of Water Quality. | |
Liu et al. | Improved method for benthic ecosystem health assessment by integrating chemical indexes into multiple biological indicator species—A case study of the Baiyangdian Lake, China | |
CN117114469A (zh) | 基于环境水质和生物数据的地表水体生态健康评价方法 | |
CN111007220B (zh) | 一种生猪养殖污水水质敏捷监测的方法 | |
Andreatta et al. | Tools for discrimination and analysis of lake bacterioplankton subgroups measured by flow cytometry in a high-resolution depth profile |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |