CN116595461A - 一种基于随机森林识别的雨水口晴天排污溯源方法 - Google Patents

一种基于随机森林识别的雨水口晴天排污溯源方法 Download PDF

Info

Publication number
CN116595461A
CN116595461A CN202310606124.3A CN202310606124A CN116595461A CN 116595461 A CN116595461 A CN 116595461A CN 202310606124 A CN202310606124 A CN 202310606124A CN 116595461 A CN116595461 A CN 116595461A
Authority
CN
China
Prior art keywords
sample
sewage
data
matrix
random forest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310606124.3A
Other languages
English (en)
Inventor
刘锐
匡立涛
金梦
兰亚琼
陈吕军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangtze Delta Region Institute of Tsinghua University Zhejiang
Original Assignee
Yangtze Delta Region Institute of Tsinghua University Zhejiang
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangtze Delta Region Institute of Tsinghua University Zhejiang filed Critical Yangtze Delta Region Institute of Tsinghua University Zhejiang
Priority to CN202310606124.3A priority Critical patent/CN116595461A/zh
Publication of CN116595461A publication Critical patent/CN116595461A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)

Abstract

本发明提供了一种基于随机森林识别的雨水口晴天排污溯源方法,该方法包括:采集待溯源区域内的污水样本,获取三维荧光光谱数据;筛选剔除异常污水样本,获得优化的样本数据集;将三维荧光数据修正和归一化处理,得到矩阵化的样本数据;将矩阵化的样本数据输入至随机森林模型中进行训练,构建污染源三维荧光识别模型;采集待溯源的晴天排口污水样品,获取三维荧光光谱数据,经三维荧光光谱数据修正和归一化处理后,输入至识别模型中,得到溯源结果。本发明通过预先获取水污染源三维荧光数据,根据区域内存在的污染源类别灵活调取污染源数据库,避免了过多类别导致模型的过拟合,同时通过粒子群优化随机森林提高了雨水口晴天排污识别的准确率。

Description

一种基于随机森林识别的雨水口晴天排污溯源方法
技术领域
本发明涉及水污染溯源技术领域,尤其涉及一种基于随机森林识别的雨水口晴天排污溯源方法。
背景技术
近年来,随着管网雨污分流的日益完善,河道水环境明显改善。但雨水口晴天排污的现象还时有发生,对周边河道水环境依然有较大影响。明晰雨水口排污源头,是有效提升环境水质的根本和关键。基于COD、氮、磷等常规水质因子的传统水环境监测手段在水污染成因溯源方面适用性差,在溯源过程中需要人工排查,费时费力,效率低,时效性差,并且溯源结果具有模糊性。
三维荧光光谱技术具有灵敏度高、经济高效、环境友好的特性,具有“指纹”的功能,可作为污染源的识别依据。传统的三维荧光识别方法主要是从峰位置,峰个数和峰形态等特征来判别可能的污染来源,存在主观性较强、难以挖掘潜在的荧光信息的问题。对于潜在的荧光信息,则需要更加复杂的数学分析方法,如平行因子、自组织映射法等,而这些方法不仅需要繁琐的操作流程,而且较难对混合样品中的非纯组分物质分类识别,特别是对于成分复杂的水污染源,其三维荧光光谱数据信息丰富,数据维度高且人工处理难度大。
随机森林(Random Forest,RF)是有监督的机器学习算法。RF算法基本思想是基于集成学习理论中的袋装法和随机子空间法,将单个基分类器结合起来,一般以决策树作为RF的基分类器。在输入样本后,基分类器会产生独立的分类结果,RF汇总所有基分类器的投票结果来确定输出值。同时该算法在处理高纬度特征时不需要对数据降维,不会损失数据信息,并能给对各个特征组分的重要性进行评估,相比于其他机器学习,对数据格式要求简单,耗时少,具有较好的泛化性。RF能够随机选取特征构建分类树并给出特征的权重指标,对于三维荧光数据具有良好的适用性。
发明内容
本发明提供了一种基于随机森林识别的雨水口晴天排污溯源方法,该方法在获取各类水污染源三维荧光数据的条件下,通过粒子群优化随机森林构建识别模型,能实现雨水口晴天排污来源的准确识别。
具体技术方案如下:
一种基于随机森林识别的雨水口晴天排污溯源方法,包括以下步骤:
(1)采集待溯源区域内所有排污企业和生活污水处理设施排污口处的污水样本,对污水样本进行三维荧光扫描,获取各样本对应的三维荧光光谱数据;
(2)根据污染源来源将三维荧光光谱数据进行分类,筛选剔除异常的污水样本,获得优化后的三维荧光光谱样本数据集;
(3)将优化后的三维荧光光谱样本数据集进行三维荧光数据修正和归一化处理,得到矩阵化的样本数据;
(4)将矩阵化的样本数据输入至随机森林模型中进行训练,构建得到污染源三维荧光识别模型;
(5)采集待溯源区域内晴天雨水口的污水待测样品,获取污水待测样品对应的三维荧光光谱数据,经三维荧光数据修正和归一化处理后,输入至污染源三维荧光识别模型中,得到最终的溯源结果。
构建识别模型阶段所需水样来源于企业与生活污水处理设施的排放,企业污水均为生产过程中已经过处理后达到入网要求的废水,企业污水的行业来源包含但不仅限于化纤染整、毛织物染整、造纸、金属表面加工、食品加工等行业。生活污水来源主要为居民的洗漱、***、厨房用水,经小型污水处理装置处理后的排水。
进一步地,步骤(1)中,三维荧光扫描的仪器参数为Ex/Em,Ex/Em扫描范围为220-450/260-600nm,Ex/Em扫描带宽为5nm/5nm,Ex/Em扫描间隔为5nm/1nm,扫描速度为2400nm/min,狭缝宽度为5nm。
上述污水样本均用孔径0.22μm的Millipore滤膜过滤后,在室温25℃左右上机扫描。对于浓度较高,超出三维荧光检测仪上限的样本作稀释处理,以5倍梯度多次稀释,直至荧光强度落入检测限。
根据企业所属行业对步骤(1)所获取的荧光数据进行分类。由于同一类型的企业中存在工艺相差过大、产品组成变化以及工况不同的情况,会存在异常的荧光样本影响建模过程,所以需要对异常的样本进行筛选剔除。异常值可通过聚类分析法、荧光参数(荧光峰比值、荧光组分百分比、腐殖化指数、生物指数等)的最大标准差检验法、平行因子模型分析法等进行筛选。
作为优选,步骤(2)中,采用平行因子模型分析法筛选异常污水样本。
进一步优选,将各污水样本的三维荧光光谱数据输入至平行因子数学模型中,通过拟合拆分获得荧光强度矩阵A、发射矩阵B和激发矩阵C;根据荧光强度矩阵A计算杠杆率,再根据杠杆率进行异常值筛选,从而筛选剔除异常污水样本,得到优化后的三维荧光光谱样本数据集;
所述平行因子数学模型的公式如式(1)所示:
式(1)中,三维荧光光谱数据的矩阵为X(I×J×F)分解为三个载荷矩阵:荧光强度矩阵A(I×F)、发射矩阵B(J×F)和激发矩阵C(K×F)的乘积;i为样本,I为最大样本数,f为因子数,F为总因子的个数,j为发射波长,J为最大发射波长,k为激发波长,K为最大激发波长;xijk是三维矩阵X(I×J×F)中的元素,表示在发射波长为j、激发波长为k的条件下第i个样品测得的荧光强度;aif为荧光组分强度矩阵A(I×F)的元素,表示第i个样本中第f个因子数相对浓度值;bjf为发射矩阵B(J×F)中的元素,表示第f个因子数在波长j出的荧光强度;ckf为激发矩阵C(K×F中的元素,表示第f个因子数在波长k处的荧光强度;F表示最大因子数;εijk代表模型无法解释的信号所构成的残差矩阵;
杠杆率为每个污水样本各个组分荧光强度与平均数据分布的偏差,其计算公式如式(2)和式(3)所示:
Li=aii i=1,2,…,I (3)
式(2)和式(3)中,Li为第i个样本的杠杆率,bii为矩阵B的主对角线元素,I为样本数;矩阵A为各组分荧光强度矩阵,AH为A的共轭矩阵,(AHA)+为AHA的伪逆矩阵。
因子数F的选择会影响杠杆率,需调整因子数观察由εijk组成的残差矩阵图来确定最佳因子数,在增加因子数后组分残差值变化不大且残差图谱呈现随机分布,无特殊结构,则确认未增加前因子数最佳。一般因子数为2-6,当第i个样本杠杆率Li>0.5时,则该样本作为异常值剔除。
所以,进一步地,所述异常值筛选剔除的标准为:当某个样本的Li>0.5时,则该样本为异常污水样本。
进一步地,步骤(3)中,三维荧光数据的修正方法为:
(3-1)对超纯水进行三维荧光扫描,获得超纯水的三维荧光光谱数据;
(3-2)利用公式(4)计算超纯水的拉曼峰积分值Arp,计算公式如下:
式(4)中,为特定λex下对应某一λem范围内的拉曼积分值;λex表示激发波长;λem表示发射波长;Arp为超纯水的拉曼峰的积分值,d表示积分公式,/>为在λex下,λem处测得的拉曼光谱荧光强度;/>与/>为积分区间的起点和终点。
(3-3)将每批污染源样本所有的荧光信号强度均除以该批次的超纯水的Arp,使得污水样本荧光信号强度由任意单位(A.U.)校准为拉曼单位(R.U.);公式如下:
为任意λex、λem下对应的校正后的数据,即以拉曼(R.U.)为单位的荧光强度;/>为校正前任意λex、λem下对应的荧光强度,单位为(A.U.);Arp为超纯水的拉曼峰的积分值。进一步地,步骤(3-2)中,超纯水的拉曼峰的积分值Arp是在λex=350nm下λem=371~428处获得;公式(4)中,λex取350nm;λem的区间[371,428]nm。
进一步地,步骤(3)中,三维荧光数据的修正方法还包括步骤(3-4);
步骤(3-4),利用drEEM工具箱中的CutData函数将Em<Ex±20nm和Em>2Ex±10nm的拉曼瑞丽散射区域去除。Ex表示激发波长,Em表示发射波长。
步骤(3)中,在进行归一化处理之前,先对数据进行格式整理;
所述格式整理的方式为:将经过修正的光谱数据沿激发波长i的方向展开,将相邻行之间的数据点首尾相连构成1×16027的1维向量形式,n个样本形成n×16027的一个矩阵;
所述归一化处理的方式为:对格式整理后矩阵中每行特征进行minmax归一化处理,得到矩阵形式的归一化的样本数据;归一化公式(6)所示:
式(6)中,x′表示单个数据的取值,min是数据所在列的最小值,max是数据所在列的最大值。
进一步地,按照污染源来源做好标注,可按照1、2、3、4…来赋值,例如1对应化纤染整废水,2对应毛织物染整废水,3对应生活污水等,样品类别放在表格首列或最后一列,便于计算机读取。
进一步地,步骤(4)中,模型的训练可以根据园区含有的企业类别,灵活调取对应的数据,组合为该园区特有的训练数据集,避免模型因过多类别导致的识别率下降,进行随机森林识别模型训练,训练模型样本不少于20个,预测样5个以上。
进一步地,步骤(4)中,采用xlsread函数读取矩阵化的样本数据,利用randperm函数将矩阵化的样本数据集任意分割为2/3的训练集和1/3预测集;测试集用于训练模型,预测集用于检验模型识别性能;随机森林及优化算法的代码均由Matlab软件编制。
进一步地,步骤(4)中,所述随机森林模型采用基分类器进行处理,即:从N个样本的训练集中用Bootstrap算法有放回的随机选择N个样本,用选择好的N个样本来训练一个基分类器。
进一步地,所述基分类器不仅限于决策树,也可以利用SVM、逻辑回归等分类模型作为基分类器。更进一步地,本发明优选基分类器为决策树。
进一步地,决策树形成过程中每个节点的***策略为:从样本荧光数据的M个特征中随机选取出m个特征,m<<M,然后采用信息增益率策略或Gini指标策略,从m个特征中选择1个最优特征作为该节点的***特征。
决策树形成过程中每个节点都要按照上述策略来***,直到不能够再***为止;最终生成T棵决策树,构成随机森林;未知样本经模型识别时,T棵决策树投出最多票数的类别为最终类别。
进一步地,随机森林模型构建后进行参数优化,所述参数包括n_estimators、max_features、min_sample_leaf、min_samples_split。
所述参数n_estimators为基分类器的数量,随着数量的提升能够让模型具有更好的稳定性和泛化能力,但是同时会让学习速度变慢,采用粒子群优化算法和误差曲线来确定最优的参数值。
具体方案如下:
初始化粒子群规模为10;粒子个数20;最大迭代次数t为100;学习因子c1=c2=4.495;s速度最大值V_max设置为50;速度最小值V_min设置为-10;最大边界设置为200;最小边界设置为50。
初始化种群粒子位置x和速度v,粒子个体最优位置P和最优值P_best,粒子群全局最优位置G和最优值G_best。
适应度为粒子当前准确率F,若F>P_best,则用F替换P_best,若F>G_best,则用F替换G_best。
根据下式迭代更新粒子速度和位置:
vi(t+1)=wvt+c1r1(Pbest(t)-xi)+c2r2(Gbest(t)-xi(t)) (7)
xi(t+1)=xi(t)+vi(t+1) (8)
式(7)和式(8)中,i=1,2,…,N;N是粒子群中的总数,t为迭代次数,vi为第i个粒子的速度,xi为第i个粒子的位置;r1和r2表示区间(0,1)上的随机数,c1和c2为加速度常数,c1为每个粒子的个体学习因子,c2为每个粒子的社会学习因子;w为惯性权重,一般取值区间为[0.8,1.2];Pbest为个体最优值,Gbest为全局最优值。vt为粒子i在第t次迭代中对应的速度。
终止条件:在误差<0.15即F>85%或达到迭代次数最大值停止。将识别准确率最优值的粒子位置x赋值给n_estimators。
所述参数max_features为单棵决策树允许使用的最大特征数,对参数max_features的网格寻优步骤为,将参数n_estimators设置为最优值,其余参数为默认值。选取区间内N为样本特征数,步长为1,交叉验证,选择准确率最高时对应的max_features。
所述参数min_sample_leaf为叶子节点含有的最少样本。默认值是1。可利用上述粒子群优化算法同步寻优。也可利用网格搜索寻优法在区间[1,21]内,步长为1,交叉验证,进行寻优。模型识别准确率最高所对应的值为该参数最优解
所述参数min_samples_split为节点可分的最小样本数,默认值是2。利用网格搜索在区间[2,22]内,步长为1,交叉验证,进行参数寻优。模型识别准确率最高所对应的值为该参数最优解。
经预测集检验,模型识别准确率在90%以上即可利用该模型对晴天雨水排口污水进行荧光溯源,即:获取雨水口晴天排污的水样,检测三维荧光,校正数据,剔除拉曼瑞丽散射区域,平铺矩阵(即按行展开为1维向量),归一化,输入模型判别,最终输出污染源类别。
与现有技术相比,本发明具有以下有益效果:
(1)本发明通过预先获取水污染源三维荧光数据,根据区域内污染源类别灵活调取污染源数据库,避免了过多类别导致模型的过拟合,同时通过粒子群优化随机森林提高了雨水口晴天排污识别的准确率。
(2)与传统分析方法相比,使用训练好的随机森林识别模型溯源,速度更快,缩减成本,对三维荧光数据分析处理步骤大大简化。在对面积较大的园区,能够将污染源追溯到某一类别,可以极大缩小排查面积。
附图说明
图1为本发明基于随机森林识别的雨水口晴天排污溯源方法的流程图。
图2为应用例1中拉曼校正后去除拉曼瑞利散射前后的荧光数据绘图。
其中,a为去除拉曼瑞利散射前的荧光数据绘图;b为去除拉曼瑞利散射后的荧光数据绘图。
图3为应用例1中化纤染整样本平行因子拟合的杠杆率;其中,该类别15和17号样本杠杆率>0.5,故将15与17号样本剔除。
图4是应用例1中随机森林训练集的自预测准确率;其中,1-4类测试组自预测结果均正确。
图5是应用例1中误差曲线;其中,误差率在决策树数目大于60时开始趋于稳定,则考虑将决策树数目调整到60以上,最终值以粒子群优化结果为主。
图6是应用例1中特征重要性;其中,横坐标为特征,纵坐标为每个特征对于分类结果的重要性。
图7是应用例1中混淆矩阵;其中,每一列代表预测类别,每列数字之和预测结果为该类别的总数;每一行的数据总数表示该类别的数据实例的数目;预测集中有一个真实值为第4类的样本被错误地识别为第2类。
图8是应用例1中随机森林预测集的准确率;其中,第4类有一个样本被错误识别成第2类,因此预测集的整体准确率为97.1%。
图9是应用例1中PLS预测集的准确率;其中,预测集中第2类有3个样本被错误识别为第1类,第3类污染源有1个样本被错误识别为第1类,第4类污染源有1个样本被错误识别为第1类。整体识别准确率为85.7%。
图10是应用例1中SVM预测集的准确率;其中,预测集中第2类有2个样本被错误识别为第1类;第3类有两个样本被错误识别为第4类。整体识别准确率为88%。
具体实施方式
下面结合具体实施例对本发明作进一步描述,以下列举的仅是本发明的具体实施例,但本发明的保护范围不仅限于此。
实施例1
本案例提供了一种基于随机森林识别的雨水口晴天排污溯源方法,具体包括以下步骤:
(1)采集待溯源区域内所有排污企业和生活污水处理设施排污口处的污水样本,对污水样本进行三维荧光扫描,获取各样本对应的三维荧光光谱数据;
其中,三维荧光扫描的仪器参数为Ex/Em,Ex/Em扫描范围为220-450/260-600nm,Ex/Em扫描带宽为5nm/5nm,Ex/Em扫描间隔为5nm/1nm,扫描速度为2400nm/min,狭缝宽度为5nm。
上述污水样本均用孔径0.22μm的Millipore滤膜过滤后,在室温25℃左右上机扫描。对于浓度较高,超出三维荧光检测仪上限的样本作稀释处理,以5倍梯度多次稀释,直至荧光强度落入检测限。
(2)根据污染源来源将三维荧光光谱数据进行分类,筛选剔除异常的污水样本,获得优化后的三维荧光光谱样本数据集;
根据企业所属行业对步骤(1)所获取的荧光数据进行分类。由于同一类型的企业中存在工艺相差过大、产品组成变化以及工况不同的情况,会存在异常的荧光样本影响建模过程,所以需要对异常的样本进行筛选剔除。异常值可通过聚类分析法、荧光参数(荧光峰比值、荧光组分百分比、腐殖化指数、生物指数等)的最大标准差检验法、平行因子模型分析法等进行筛选。
本案例采用平行因子模型分析法筛选剔除异常的污水样本。
具体为:将各污水样本的三维荧光光谱数据输入至平行因子数学模型中,通过拟合拆分获得荧光强度矩阵A、发射矩阵B和激发矩阵C;根据荧光强度矩阵A计算杠杆率,再根据杠杆率进行异常值筛选,从而筛选剔除异常污水样本,得到优化后的三维荧光光谱样本数据集;
所述平行因子数学模型的公式如式(1)所示:
式(1)中,三维荧光光谱数据的矩阵为X(I×J×F)分解为三个载荷矩阵:荧光强度矩阵A(I×F)、发射矩阵B(J×F)和激发矩阵C(K×F)的乘积;i为样本,I为最大样本数,f为因子数,F为总因子的个数,j为发射波长,J为最大发射波长,k为激发波长,K为最大激发波长;xijk是三维矩阵X(I×J×F)中的元素,表示在发射波长为j、激发波长为k的条件下第i个样品测得的荧光强度;aif为荧光组分强度矩阵A(I×JF)的元素,表示第i个样本中第f个因子数相对浓度值;bjf为发射矩阵B(J×F)中的元素,表示第f个因子数在波长j出的荧光强度;ckf为激发矩阵C(K×F)中的元素,表示第f个因子数在波长k处的荧光强度;F表示最大因子数;εijk代表模型无法解释的信号所构成的残差矩阵;
杠杆率为每个污水样本各个组分荧光强度与平均数据分布的偏差,其计算公式如式(2)和式(3)所示:
Li=aii i=1,2,…,I (3)
式(2)和式(3)中,Li为第i个样本的杠杆率,bii为矩阵B的主对角线元素,I为样本数;矩阵A为各组分荧光强度矩阵,AH为A的共轭矩阵,(AHA)+为AHA的伪逆矩阵。
因子数F的选择会影响杠杆率,需调整因子数观察由εijk组成的残差矩阵图来确定最佳因子数,在增加因子数后组分残差值变化不大且残差图谱呈现随机分布,无特殊结构,则确认未增加前因子数最佳。一般因子数为3-4,当第i个样本杠杆率Li>0.5时,则该样本作为异常值剔除。异常值筛选的标准为:当某个样本的Li>0.5时,则该样本为异常污水样本。
(3)将优化后的三维荧光光谱样本数据集进行三维荧光数据修正和归一化处理,得到矩阵化的样本数据;
三维荧光数据的修正方法为:
(3-1)对超纯水进行三维荧光扫描,获得超纯水的三维荧光光谱数据;
(3-2)利用公式(4)计算超纯水的拉曼峰积分值Arp,计算公式如下:
式(4)中,为λex下对应某一λem范围内的拉曼积分值;λex表示激发波长;λem表示发射波长;Arp为超纯水的拉曼峰的积分值,d表示积分公式,/>为在λex下、λem处测得的拉曼光谱荧光强度;/>与/>为积分区间的起点和终点。
(3-3)将每批污染源样本所有的荧光信号强度均除以该批次的超纯水的Arp,使得污水样本荧光信号强度由任意单位(A.U.)校准为拉曼单位(R.U.),公式如下:
式(5)中,为任意λex、λem下对应的校正后的数据,即以拉曼(R.U.)为单位的荧光强度;/>为校正前任意λex、λem下对应的荧光强度,单位为(A.U.);Arp为超纯水的拉曼峰的积分值。进一步地,步骤(3-2)中,超纯水的拉曼峰的积分值Arp是在λex=350nm下λem=371~428处获得;公式(4)中,λex取350nm;λem的区间[371,428]nm。
步骤(3)中,三维荧光数据的修正方法还包括步骤(3-4);
步骤(3-4),利用drEEM工具箱中的CutData函数将Em<Ex±20nm和Em>2Ex±10nm的拉曼瑞丽散射区域去除。其中Em为发射波长,Ex为激发波长。
步骤(3)中,在进行归一化处理之前,先对数据进行格式整理;
所述格式整理的方式为:将经过修正的光谱数据沿激发波长i的方向展开,将相邻行之间的数据点首尾相连构成1×16027的1维向量形式,n个样本形成n×16027的一个矩阵;
所述归一化处理的方式为:对格式整理后矩阵中每行特征进行minmax归一化处理,得到矩阵形式的归一化的样本数据;归一化公式(6)所示:
式(6)中,x′表示单个数据的取值,min是数据所在列的最小值,max是数据所在列的最大值。
(4)将矩阵化的样本数据输入至随机森林模型中进行训练,构建得到污染源三维荧光识别模型;
构建识别模型阶段所需水样来源于企业与生活污水处理设施的排放,企业污水均为生产过程中已经过处理后达到入网要求的废水,企业污水的行业来源包含但不仅限于化纤染整、毛织物染整、造纸、金属加工、食品加工等行业。生活污水来源主要为居民的洗漱、***、厨房等用水。
按照污染源来源做好标注,可按照1、2、3、4…来赋值,例如1对应化纤染整废水,2对应毛织物染整废水,3对应生活污水等,样品类别放在表格首列或最后一列,便于计算机读取。
模型的训练可以根据园区含有的企业类别,灵活调取对应的数据,组合为该园区特有的训练数据集,避免模型因过多类别导致的识别率下降。进行随机森林识别模型训练,训练模型样本不少于20个,预测样5个以上。
采用xlsread函数读取矩阵化的样本数据,利用randperm函数将矩阵化的样本数据集任意分割为2/3的训练集和1/3预测集;测试集用于训练模型,预测集用于检验模型识别性能;随机森林及优化算法的代码均由Matlab软件编制。
随机森林模型采用基分类器进行处理,即:从N个样本的训练集中用Bootstrap算法有放回的随机选择N个样本,用选择好的N个样本来训练一个基分类器。
基分类器不仅限于决策树,也可以利用SVM、逻辑回归等分类模型作为基分类器。本案例采用的基分类器为决策树。
决策树形成过程中每个节点的***策略为:从样本荧光数据的M个特征中随机选取出m个特征,m<<M,然后采用信息增益率策略或Gini指标策略,从m个特征中选择1个最优特征作为该节点的***特征。
决策树形成过程中每个节点都要按照上述策略来***,直到不能够再***为止;最终生成T棵决策树,构成随机森林;未知样本经模型识别时,T棵决策树投出最多票数的类别为最终类别。
随机森林模型构建后进行参数优化,所述参数包括n_estimators、max_features、min_sample_leaf、min_samples_split。
参数n_estimators为基分类器的数量,随着数量的提升能够让模型具有更好的稳定性和泛化能力,但是同时会让学习速度变慢,采用粒子群优化算法和误差曲线来确定最优的参数值。
具体方案如下:
初始化粒子群规模为10;粒子个数20;最大迭代次数t为100;学习因子c1=c2=4.495;s速度最大值V_max设置为50;速度最小值V_min设置为-10;最大边界设置为200;最小边界设置为50。
初始化种群粒子位置x和速度v,粒子个体最优位置P和最优值P_best,粒子群全局最优位置G和最优值G_best。
适应度为粒子当前准确率F,若F>P_best,则用F替换P_best,若F>G_best,则用F替换G_best。
根据下式迭代更新粒子速度和位置。
vi(t+1)=wvt+c1r1(Pbest(t)-xi)+c2r2(Gbest(t)-xi(t)) (7)
xi(t+1)=xi(t)+vi(t+1) (8)
式(7)和式(8)中,i=1,2,…,N;N是粒子群中的总数,t为迭代次数,vi为第i个粒子的速度,xi为第i个粒子的位置;r1和r2表示区间(0,1)上的随机数,c1和c2为加速度常数,c1为每个粒子的个体学习因子,c2为每个粒子的社会学习因子;w为惯性权重,一般取值区间为[0.8,1.2];Pbest为个体最优值,Gbest为全局最优值。vt为粒子i在第t次迭代中对应的速度。
终止条件:在误差<0.15即F>85%或达到迭代次数最大值停止。将识别准确率最优值的粒子位置x赋值给n_estimators。
所述参数max_features为单棵决策树允许使用的最大特征数,对参数max_features的网格寻优步骤为:将参数n_estimators设置为最优值,其余参数为默认值。选取区间内N为样本特征数,步长为1,交叉验证,选择准确率最高时对应的max_features。
所述参数min_sample_leaf为叶子节点含有的最少样本。默认值是1。可利用上述粒子群优化算法同步寻优。也可利用网格搜索寻优法,在区间[1,21]内,步长为1,交叉验证,进行寻优。模型识别准确率最高所对应的值为该参数最优解。
所述参数min_samples_split为节点可分的最小样本数,默认值是2。利用网格搜索在区间[2,22]内,步长为1,交叉验证,进行参数寻优。模型识别准确率最高所对应的值为该参数最优解。
(5)采集待溯源区域内晴天雨水口的污水待测样品,获取污水待测样品对应的三维荧光光谱数据,经三维荧光数据修正和归一化处理后,输入至污染源三维荧光识别模型中,得到最终的溯源结果。
经预测集检验,模型识别准确率在90%以上即可利用该模型对晴天雨水排口污水进行荧光溯源,即:获取雨水口晴天排污的水样,检测三维荧光,校正数据,剔除拉曼瑞丽散射区域,平铺矩阵(即按行展开为1维向量),归一化,输入模型判别,最终输出污染源类别。
应用例1
本应用例采用实施例1提供的方法进行溯源,具体信息如下:
收集某区域235家企业污水(8种类型)和43个生活污水处理设施出水,并获取污水的来源信息,包括企业的名称及所属行业,主要产品和生产工艺。
详细表1:
(2)样品的采集与扫描:对采集的污染源,按前期调研信息进行编号,用孔径0.22μm的Millipore滤膜过滤后上机扫描,获取其三维荧光光谱。
仪器参数如表2所示:
对于浓度较高的样本作稀释处理,以5倍梯度多次稀释。生活污水样本均取于生活污水处理设施处理后出水。企业废水应在企业正常生产时间段内采集。
(3)检测后的荧光数据按污水样来源分类。
对各类荧光数据进行平行因子分析,利用杠杆率筛选异常值,如图3所示,该类别的样本15和样本17的杠杆率较高,应当去除。将剔除异常值后的荧光光谱数据进行拉曼矫正,利用drEEM工具箱中的CutData函数将Em<Ex±20nm和Em>2Ex±10nm的拉曼瑞丽散射区域去除。矫正和消除散射后的数据前后对比图如图2所示。Em为发射波长,Ex为激发波长。
将去除散射后的荧光数据沿激发波长i方向展开,将相邻行之间的数据点首尾相连。样本由47×341的矩阵转化为1×16027的向量形式。将n个样本组合为n×16027的矩阵,并附一列标签,标签为1、2、3…,每个数字各代表一类污染源。
(4)数据处理:将整理好的数据代入mapminmax函数中进行归一化处理,再输入随机森林中;mapminmax函数的公式为式中,x'表示单个数据的取值,min是数据所在列的最小值,max是数据所在列的最大值。
(5)模型训练:根据某园区污染类别灵活调取上述处理过后的化纤染整(标注1)、毛织物染整(标注2)、生活污水(标注3)、造纸(标注4),共90个数据集随机选取55组数据作为训练集,35个作为待测污染源,利用随机森林进行学习训练,构建水污染源三维荧光识别模型,并导出训练集的准确率。粒子群优化算法以及网格寻优参数结果为n_estimators=123.2,min_sample_leaf=1.19,min_samples_split=2,max_features=126,得出训练集为100%准确率。
(6)模型预测:将剩余的35组数据作为未知污染源,输入步骤(5)所得的识别模型中,得到识别结果。
识别结果:前三类污染源全部识别正确,第4类污染源有一个识别错误;故预测集准确率97%。
对比例1
使用与上述相同的数据集,模型改为PLS偏最小二乘模型,经参数优化后得出以下结果,如图8所示,识别准确率为85.7%。
对比例2
使用与上述相同的数据集,模型改为SVM支持向量机模型,经参数优化后得出以下结果,如图9所示,识别准确率为88%。
在使用相同全图谱数据集下,与传统分类模型相比,随机森林表现出更高的识别准确率。
实施例2
某园区存在雨水口晴天排污现象,采测该排口水样,获取三维荧光数据。
该园区含化纤染整企业4家,金属表面加工企业5家,造纸企业1家,制革企业1家,食品加工企业1家。根据该园区存在的污染源类别,灵活调取实例1中已处理好的数据,并按实施例1处理步骤进行随机森林建模。
对该水样进行识别。结果表明,该污水口被识别为化纤染整行业,极大缩小了排查范围。

Claims (10)

1.一种基于随机森林识别的雨水口晴天排污溯源方法,其特征在于,包括以下步骤:
(1)采集待溯源区域内所有排污企业和生活污水处理设施排污口处的污水样本,对污水样本进行三维荧光扫描,获取各样本对应的三维荧光光谱数据;
(2)根据污染源来源将三维荧光光谱数据进行分类,筛选剔除异常的污水样本,获得优化后的三维荧光光谱样本数据集;
(3)将优化后的三维荧光光谱样本数据集进行三维荧光数据修正和归一化处理,得到矩阵化的样本数据;
(4)将矩阵化的样本数据输入至随机森林模型中进行训练,构建得到污染源三维荧光识别模型;
(5)采集待溯源区域内晴天雨水口的污水待测样品,获取污水待测样品对应的三维荧光光谱数据,经三维荧光数据修正和归一化处理后,输入至污染源三维荧光识别模型中,得到最终的溯源结果。
2.如权利要求1所述的基于随机森林识别的雨水口晴天排污溯源方法,其特征在于,步骤(1)中,三维荧光扫描的仪器参数为Ex/Em,Ex/Em扫描范围为220-450/260-600nm,Ex/Em扫描带宽为5nm/5nm,Ex/Em扫描间隔为5nm/1nm,扫描速度为2400nm/min,狭缝宽度为5nm。
3.如权利要求1所述的基于随机森林识别的雨水口晴天排污溯源方法,其特征在于,步骤(2)中,采用平行因子模型分析法筛选异常的污水样本。
4.如权利要求3所述的基于随机森林识别的雨水口晴天排污溯源方法,其特征在于,将各污水样本的三维荧光光谱数据输入至平行因子数学模型中,通过拟合拆分获得荧光强度矩阵A、发射矩阵B和激发矩阵C;根据各个样本的荧光强度矩阵A计算杠杆率,再根据杠杆率进行异常值筛选,从而筛选剔除异常污水样本,得到优化后的三维荧光光谱样本数据集;
所述平行因子数学模型的公式如式(1)所示:
式(1)中,三维荧光光谱数据的矩阵为X(I×J×K)分解为三个载荷矩阵:荧光强度矩阵A(I×F)、发射矩阵B(J×F)和激发矩阵C(K×F)的乘积;i为样本,I为最大样本数,f为因子数,F为总因子的个数,j为发射波长,J为最大发射波长,k为激发波长,K为最大激发波长;xijk是三维矩阵X(I×J×K)中的元素,表示在发射波长为j、激发波长为k的条件下第i个样品测得的荧光强度;aif为荧光组分强度矩阵A(I×F)的元素,表示第i个样本中第f个因子数相对浓度值;bif为发射矩阵B(J×F)中的元素,表示第f个因子数在波长j出的荧光强度;cif为激发矩阵C(K×F)中的元素,表示第f个因子数在波长k处的荧光强度,F表示最大因子数;εijk代表模型无法解释的信号所构成的残差矩阵;
杠杆率为每个污水样本各个组分荧光强度与平均数据分布的偏差,其计算公式如式(2)和式(3)所示:
Li=aiii=1,2,...,I (3)
式(2)和式(3)中,Li为第i个样本的杠杆率,bii为矩阵B的主对角线元素,I为样本数;矩阵A为各组分荧光强度矩阵,AH为A的共轭矩阵,(AHA)+为AHA的伪逆矩阵。
5.如权利要求4所述的基于随机森林识别的雨水口晴天排污溯源方法,其特征在于,所述异常值筛选的标准为:当某个样本的Li>0.5时,则该样本为异常污水样本。
6.如权利要求1所述的基于随机森林识别的雨水口晴天排污溯源方法,其特征在于,步骤(3)中,三维荧光数据的修正方法为:
(3-1)对超纯水进行三维荧光扫描,获得超纯水的三维荧光光谱数据;
(3-2)利用公式(4)计算超纯水的拉曼峰积分值Arp,计算公式如下:
式(4)中,为λex下对应某一λem范围内的拉曼积分值;λex表示激发波长;λem表示发射波长;d表示积分公式,/>为在λex下,λem处测得的拉曼光谱荧光强度;/>与/>为积分区间的起点和终点。
(3-3)将每批污染源样本所有的荧光信号强度均除以该批次的超纯水的Arp,使得污水样本荧光信号强度由任意单位(A.U.)校准为拉曼单位(R.U.);公式如下:
式(5)中,为任意λex、λem下对应的校正后的数据,即以拉曼(R.U.)为单位的荧光强度;/>为校正前任意λex、λem下对应的荧光强度,单位为(A.U.);Arp为超纯水的拉曼峰的积分值。
7.如权利要求1所述的基于随机森林识别的雨水口晴天排污溯源方法,其特征在于,步骤(3)中,三维荧光数据的修正方法还包括步骤(3-4);
步骤(3-4),将Em<Ex±20nm和Em>2Ex±10nm区域内的拉曼瑞丽散射区域去除;Ex表示激发波长,Em表示发射波长。
8.如权利要求1所述的基于随机森林识别的雨水口晴天排污溯源方法,其特征在于,步骤(3)中,在进行归一化处理之前,先对数据进行格式整理;
所述格式整理的方式为:将经过修正的光谱数据沿激发波长i的方向展开,将相邻行之间的数据点首尾相连构成1×16027的1维向量形式,n个样本形成n×16027的一个矩阵;
所述归一化处理的方式为:对格式整理后矩阵中每行特征进行minmax归一化处理,得到矩阵形式的归一化的样本数据;归一化公式(6)所示:
式(6)中,x′表示单个数据的取值,min是数据所在列的最小值,max是数据所在列的最大值。
9.如权利要求1所述的基于随机森林识别的雨水口晴天排污溯源方法,其特征在于,步骤(4)中,所述随机森林模型采用基分类器进行处理;所述基分类器为决策树;
决策树形成过程中每个节点的***策略为:从样本荧光数据的M个特征中随机选取出m个特征,m<<M,然后采用信息增益率策略或Gini指标策略,从m个特征中选择1个最优特征作为该节点的***特征;每个节点都要按照所述***策略来***,直到不能够再***为止;最终生成T棵决策树,构成随机森林;未知样本经模型识别时,T棵决策树投出最多票数的类别为最终类别。
10.如权利要求1所述的基于随机森林识别的雨水口晴天排污溯源方法,其特征在于,随机森林模型构建后进行参数优化,所述参数包括n_estimators、max_features、min_sample_leaf、min_samples_split。
CN202310606124.3A 2023-05-25 2023-05-25 一种基于随机森林识别的雨水口晴天排污溯源方法 Pending CN116595461A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310606124.3A CN116595461A (zh) 2023-05-25 2023-05-25 一种基于随机森林识别的雨水口晴天排污溯源方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310606124.3A CN116595461A (zh) 2023-05-25 2023-05-25 一种基于随机森林识别的雨水口晴天排污溯源方法

Publications (1)

Publication Number Publication Date
CN116595461A true CN116595461A (zh) 2023-08-15

Family

ID=87595324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310606124.3A Pending CN116595461A (zh) 2023-05-25 2023-05-25 一种基于随机森林识别的雨水口晴天排污溯源方法

Country Status (1)

Country Link
CN (1) CN116595461A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117316277A (zh) * 2023-11-29 2023-12-29 吉林大学 一种基于荧光光谱的基因检测数据处理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117316277A (zh) * 2023-11-29 2023-12-29 吉林大学 一种基于荧光光谱的基因检测数据处理方法
CN117316277B (zh) * 2023-11-29 2024-02-06 吉林大学 一种基于荧光光谱的基因检测数据处理方法

Similar Documents

Publication Publication Date Title
CN109142317B (zh) 一种基于随机森林模型的拉曼光谱物质识别方法
Zhao et al. Comparison of decision tree methods for finding active objects
CN105630743B (zh) 一种光谱波数的选择方法
CN112635063B (zh) 一种肺癌预后综合预测模型、构建方法及装置
CN110717368A (zh) 一种纺织品定性分类方法
CN108595414B (zh) 基于源汇空间变量推理的土壤重金属企业污染源识别方法
CN108596038B (zh) 一种结合形态学分割和神经网络的粪便中红细胞识别方法
CN109870421B (zh) 一种基于可见光/近红外光谱分析的递增式木材树种分类识别方法
CN109558893B (zh) 基于重采样池的快速集成污水处理故障诊断方法
CN116595461A (zh) 一种基于随机森林识别的雨水口晴天排污溯源方法
CN113011478A (zh) 基于数据融合的污染源识别方法及***
CN117309831A (zh) 一种基于三维荧光lpp-svm的河道有机物的污染的溯源方法
CN110702648B (zh) 基于非下采样轮廓波变换的荧光光谱污染物分类方法
CN115905881B (zh) 黄珍珠分类的方法以及装置、电子设备、存储介质
CN115810403B (zh) 一种基于环境特征信息评估水质污染的方法
CN112098361A (zh) 一种基于近红外光谱的玉米种子鉴别方法
CN113408616B (zh) 基于pca-uve-elm的光谱分类方法
CN117253543B (zh) 一种皮肤表皮细胞抗衰基因库及其构建方法和应用
CN110533102A (zh) 基于模糊推理的单类分类方法以及分类器
CN117541095A (zh) 一种农用地土壤环境质量类别划分的方法
Arhonditsis et al. Analysis of phytoplankton community structure using similarity indices: a new methodology for discriminating among eutrophication levels in coastal marine ecosystems
CN109612961B (zh) 海岸环境微塑料的开集识别方法
CN111426657B (zh) 一种溶解性有机物三维荧光谱图的识别比对方法
CN114863286B (zh) 一种基于多算法协同选优的混合废塑料分类方法
Chen et al. Spectroscopic identification of environmental microplastics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination