CN113011478A - 基于数据融合的污染源识别方法及*** - Google Patents

基于数据融合的污染源识别方法及*** Download PDF

Info

Publication number
CN113011478A
CN113011478A CN202110246412.3A CN202110246412A CN113011478A CN 113011478 A CN113011478 A CN 113011478A CN 202110246412 A CN202110246412 A CN 202110246412A CN 113011478 A CN113011478 A CN 113011478A
Authority
CN
China
Prior art keywords
data
pollution source
sample
module
ultraviolet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110246412.3A
Other languages
English (en)
Inventor
吴静
刘博�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110246412.3A priority Critical patent/CN113011478A/zh
Publication of CN113011478A publication Critical patent/CN113011478A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/33Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using ultraviolet light
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/64Fluorescence; Phosphorescence
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/18Water
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Data Mining & Analysis (AREA)
  • Biochemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)

Abstract

本发明公开了一种基于数据融合的污染源识别方法及***,该方法包括:对污染源样品预处理后进行污染指标测试得到常规水质数据、紫外‑可见吸收光谱数据和三维荧光光谱数据;对测试数据预处理后进行特征提取;将提取出的特征数据进行拼接构建融合数据;根据融合数据和分类算法建立污染源识别模型并进行训练;通过训练后的污染源识别模型进行污染源识别。该***包括取样模块、样品预处理模块、进样模块、分析测试模块、数据传输模块、显示和***控制模块。本发明将常规水质、紫外‑可见吸收光谱和三维荧光光谱进行数据融合并应用于污染源识别,相对于传统的污染源识别方法,该方法准确、智能、成本低、可操作性强,对污染源溯源具有重要意义。

Description

基于数据融合的污染源识别方法及***
技术领域
本发明涉及环境监管技术领域,特别涉及一种基于数据融合的污染源识别方法及***。
背景技术
目前对排污单位偷排漏排溯源主要依靠人工排查。人工排查通常是指污染事故发生后从事故地点逐步向上游排查排污单位排水水质状况来实现非法排污的溯源。但这种方法费时费力,还容易丧失时效性,效率较低。
近年来出现了基于特征污染物数据库辅助的人工排查方法。将污染水体、土壤或大气的污染物数据与污染源特征污染物数据库进行比对,能够缩小排查范围,减少排查工作量,提高排查效率。此前,北京化工大学万平玉等人提出了包含了阴离子种类、有机物种类、金属元素种类、以及荧光信息等污染源化学水纹信息数据库用于水体污染溯源。相关技术中提出一种可操作性较强的新型水污染排放源数据库,该数据库包含污染源基本信息库、常规水质数据库和水质指纹数据库三个子库。这些数据库较为复杂,成本较高,难以实现在线预警溯源。
此外,这种方法尚缺乏污染源自动比对方法和成套***。在实际工作中,往往还是通过人工比对来判断污染来源。这种比对方法要求工作人员具有较强的专业知识和经验,判断结果具有较强的主观性,缺乏科学量化的数据支持。复杂情况下对污染源的误判率较高且污染源判别上仍存在较大滞后。因此,需要发展污染源自动比对方法和***以提高污染溯源准确性和实时性。
以数据驱动为基础,利用化学计量学分析方法建立判别模型能够实现污染源的智能、准确和高效判别。污染源的污染物组成通常组成复杂,单一指标对污染源的表征具有局限性。对于相似污染源(例如相同行业的不同企业)基于单一指标的识别模型对污染源识别的正确率往往不高。数据融合策略可以将不同的污染信息整合在一起,能够更加全面的反映污染源特征。因此,基于数据融合的识别模型往往比基于单数据源模型具有更好的识别性能,能够提高污染源识别正确率。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于数据融合的污染源识别方法,该方法准确、智能、成本低、可操作性强,有利于大范围推广,对污染源溯源具有重要意义。
本发明的另一个目的在于提出一种基于数据融合的污染源识别***。
为达到上述目的,本发明一方面实施例提出了一种基于数据融合的污染源识别方法,包括以下步骤:
采集污染源样品;
对所述污染源样品进行预处理;
对预处理后的污染源样品进行污染指标测试得到常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据;
对所述常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据进行预处理;
对预处理后的所述常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据进行特征提取;
将在所述常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据中提取出的特征数据进行拼接构建融合数据;
根据所述融合数据和分类算法建立污染源识别模型并进行训练;
通过训练后的污染源识别模型进行污染源识别。
另外,根据本发明上述实施例的基于数据融合的污染源识别方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述污染源样品包括:水样、土壤样品和大气样品,对所述污染源样品进行预处理包括:对水样用0.2~10.0μm滤膜过滤,对土壤样品先用超纯水溶解,然后土壤浸出液用0.2~10.0μm滤膜过滤,对气体样品溶于超纯水后用0.2~10.0μm滤膜过滤。
进一步地,在本发明的一个实施例中,所述污染指标测试包括常规水质、紫外-可见吸收光谱和三维荧光光谱;
所述常规水质包括但不限于pH值、电导率、化学需氧量、总氮、氨氮和总磷;
所述紫外-可见吸收光谱扫描范围为200~800nm,扫描间隔为0.1~10nm;
所述三维荧光光谱的激发波长扫描范围为200~600nm,发射波长扫描范围为230~700nm,扫描间隔1~10nm。
进一步地,在本发明的一个实施例中,对所述常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据进行预处理,包括:
对常规水质数据预处理:采用拉依达准则将异常数据剔除;
对紫外-可见吸收光谱预处理:剔除光谱数据中的无效数据,再将光谱数据进行标准正态变换;
对三维荧光光谱预处理:利用激发波长350nm,发射波长370~430nm之间超纯水拉曼散射强度的积分将原始荧光指纹的荧光强度转换为拉曼单位(R.U.)。
进一步地,在本发明的一个实施例中,对预处理后的测试数据进行特征提取,包括对常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据的特征提取;
所述常规水质数据和所述紫外-可见吸收光谱数据的特征提取方法包括主成分分析、非负矩阵分解、独立成分分析;
所述三维荧光光谱数据的特征提取为利用平行因子分析提取三维荧光光谱的主要荧光组分。
进一步地,在本发明的一个实施例中,所述分类算法包括但不限于偏最小二乘分辨分析、支持向量机、K最近邻节点算法。
进一步地,在本发明的一个实施例中,根据所述融合数据和分类算法建立污染源识别模型并进行训练,进一步包括:
模型初始化:选择75%~95%的样本数据作为训练集,采用交叉验证的方法建立所述污染源识别模型,并根据交叉验证误差最小化原则选择最佳潜在变量数;
模型训练:将变量数设置为最佳潜在变量数对所述污染源识别模型再次拟合;
模型预测:通过拟合后的污染源识别模型对剩余5%~25%的样本数据进行预测,根据预测结果评估模型性能,其中,评估参数为评估所述污染源识别模型的灵敏度、特异度、精确率和正确率。
为达到上述目的,本发明另一方面实施例提出了一种基于数据融合的污染源识别方法***,包括:
取样模块、样品预处理模块、进样模块、分析测试模块、数据传输模块、显示模块和***控制模块;
所述取样模块用于采集污染源样品;
所述样品预处理模块用于对所述污染源样品进行预处理;
所述进样模块用于将预处理后的样品输送至所述分析测试模块;
所述分析测试模块用于对预处理后的污染源样品进行污染指标测试得到常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据;
所述数据传输模块用于进行各模块间的数据传输;
所述显示模块用于进行数据显示;
所述***控制模块用于嵌入污染源识别模型及进行控制,通过所述数据传输模块获得常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据,并利用组态软件在所述显示模块实时显示结果,将组态软件中收集的所述常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据输送至所述污染源识别模型,所述污染源识别模型对样本类别进行判别,再把判别结果返回至所述显示模块显示判别结果。
进一步地,在本发明的一个实施例中,所述分析测试模块包括但不限于在线pH计、在线电导率仪、在线COD分析仪、在线氨氮分析仪、在线总氮仪和在线总磷分析仪、紫外-可见吸收分光光度计和荧光分光光度计。
本发明实施例的基于数据融合的污染源识别方法及***,具有以下优势:
(1)将数据融合技术应用于污染源识别并建立了污染源识别模型,突破了对技术专家的依赖,提高溯源的效率;提高了溯源准确性,尤其是在复杂污染排放场景下的溯源准确性;
(2)数据融合选择的污染指标分析测试方法成熟可靠、操作简便、成本低、信息丰富,有利于大范围推广;
(3)人工比对通常需要数小时,本发明搭建的污染源识别***能够实时比对,增强了污染溯源时效性,对污染溯源具有重要意义。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于数据融合的污染源识别方法流程图;
图2为根据本发明一个实施例的污染源识别模型建立流程图;
图3为根据本发明一个实施例的交叉验证错误率随潜在变量数的变化示意图;
图4为根据本发明一个实施例的训练和预测阶段模型对类别1(ZQ)的计算响应值;
图5为根据本发明一个实施例的基于数据融合的污染源识别***结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于数据融合的污染源识别方法及***。
首先将参照附图描述根据本发明实施例提出的基于数据融合的污染源识别方法。
图1为根据本发明一个实施例的基于数据融合的污染源识别方法流程图。
图2为根据本发明一个实施例的污染源识别模型建立流程图。
如图1和图2所示,该基于数据融合的污染源识别方法包括以下步骤:
步骤S1,采集污染源样品。
步骤S2,对污染源样品进行预处理。
污染源样品包括:水样、土壤样品和大气样品,对污染源样品进行预处理包括:对水样用0.2~10.0μm滤膜过滤,对土壤样品先用超纯水溶解,然后土壤浸出液用0.2~10.0μm滤膜过滤,对气体样品溶于超纯水后用0.2~10.0μm滤膜过滤。
步骤S3,对预处理后的污染源样品进行污染指标测试得到常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据。
进一步地,污染指标分析测试包括但不限于常规水质、紫外-可见吸收光谱和三维荧光光谱。
常规水质包括但不限于的pH值、电导率、化学需氧量、总氮、氨氮和总磷;紫外-可见吸收光谱扫描范围为200~800nm,扫描间隔为0.1~10nm;三维荧光光谱的激发波长扫描范围为200~600nm,发射波长扫描范围为230~700nm,扫描间隔1~10nm。
步骤S4,对常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据进行预处理。
数据预处理包括常规水质、紫外-可见吸收光谱和三维荧光光谱数据的预处理。
常规水质数据预处理是指采用拉依达准则(3σ准则)将异常数据剔除。
紫外-可见吸收光谱预处理是指剔除光谱数据中无有效数据(即基本上全是溶剂背景吸收)的部分,然后将光谱进行标准正态变换以降低散射的影响,计算公式为:
Figure BDA0002964255620000051
其中,SSNV为变换后的数据,Sk为原始数据,
Figure BDA0002964255620000052
为原始光谱所有波长点均值,m为光谱的波长点个数。
三维荧光光谱预处理是指利用激发波长350nm,发射波长370~430nm之间超纯水拉曼散射强度的积分将原始荧光指纹的荧光强度转换为拉曼单位(R.U.)。
步骤S5,对预处理后的常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据进行特征提取。
数据特征提取包括常规水质数据、紫外-可见吸收光谱和三维荧光光谱数据的特征提取。
常规水质数据和紫外-可见吸收光谱的特征提取方法包括但不限于主成分分析、非负矩阵分解、独立成分分析。作为优选的方案,本发明采用主成分分析法,其基本原理为:
Figure BDA0002964255620000061
其中,X表示常规水质数据或紫外-可见吸收光谱数据,F表示主元数,tf表示第f个主元的得分向量,pf表示第f个主元的荷载向量。得分向量tf是样本在第f个主元上的坐标,即新变量的坐标。荷载向量pf表示原始变量与第f个主元的相关系数,荷载越大表示主元对该变量解释的越充分。F个得分向量构成得分矩阵T,F个荷载向量构成荷载矩阵P。T和P相乘得到F个主元模拟的部分
Figure BDA0002964255620000062
E是模型残差。
三维荧光光谱数据的特征提取是指利用平行因子分析法获得三维荧光光谱的主要荧光组分,其基本原理为:
Figure BDA0002964255620000063
其中,xijk是第i个样本在发射波长j、激发波长k处的荧光强度;F表示因子数;aif、bjf、ckf分别代表荷载矩阵A、B、C中的元素;εijk是模型残差,表示不能被模型解释的部分。
步骤S6,将在常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据中提取出的特征数据进行拼接构建融合数据。
融合数据是指将从常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据中提取的特征数据矩阵拼接成一个新的矩阵,公式为:
F=[A,B,C]
式中,F为融合数据矩阵,A、B、C分别为从常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据中提取的特征数据矩阵。
步骤S7,根据融合数据和分类算法建立污染源识别模型并进行训练。
步骤S8,通过训练后的污染源识别模型进行污染源识别。
污染源识别模型建立是指利用融合数据和分类算法建立基于特征融合数据的分类模型。分类算法包括但不限于偏最小二乘分辨分析(PLS-DA)、支持向量机(SVM)、K最近邻(KNN)节点算法。作为优选方案,本发明采用偏最小二乘分辨分析作为识别模型的分类算法。识别模型建立的过程包括模型初始化、训练、预测和性能评价。
模型初始化是指选择75%~95%的样本数据作为训练集,采用交叉验证的方法建立模型并根据交叉验证误差最小化原则选择最佳潜在变量数。
模型训练是指将潜在变量数设置为最佳潜在变量数对模型再次拟合。
模型预测是指用训练后的模型对剩余5%~25%的样本集进行预测,根据预测结果评估模型性能。
模型性能评价参数包括灵敏度(sensitivity,sn)、特异度(specificity,sp)、精确率(precision,pr)和正确率(Accuracy,Acc)。sn、sp和pr为单类别性能参数。
灵敏度表示分类器正确识别某一类别的能力。假设有两个类别,类别1是positive,类别2是negative。以类别1为例,类别1的灵敏度描述了所有真实值为positive的样本中,模型预测正确的比例,计算公式为:
sn=TPN/(TPN+FNN)
其中,TPN表示真实值是positive,分类结果也是positive的样本数目。FNN表示真实值是positive,分类结果却是negative的样本数目,即假negative的样本数。
特异度表示分类器拒绝另一类别(类别2)样本的能力,即分类器正确识别negative样本的能力,描述了所有真实值为negative的样本中,模型预测正确的比例,计算公式为:
sp=TNN/(FPN+TNN)
其中,TNN表示真实值是negative,分类结果也是negative的样本数目。FPN表示真实值是negative,分类结果却是positive的样本数目,即假positive的样本数。
精确率表示分类器避免将某一类别样本误分的能力。以类别1为例,精确率描述了所有预测值为positive的样本中,模型预测正确的比例,计算公式为:
pr=TPN/(TPN+FPN)
正确率描述的是正确分类样本数占分类样本总数的比例,它不考虑任何关于单个类的分类性能信息。对于上述类别1和类别2,正确率计算公式为:
Acc=(TPN+TNN)/(TPN+FNN+TNN+FPN)
下面结合具体实施例及其附图对本发明进一步阐述。
1)污染源样品采集
A和B分别是两个污染源,从这两个污染源各采集30个水样。
2)样品预处理
样品用0.45μm滤膜过滤。
3)样品分析测试
测试样品的pH值、电导率、化学需氧量、氨氮、总氮和总磷。结果发现A和B的常规水质差异不显著:pH值在6~8之间,电导率在900~1800μS/cm之间,总磷在1~11mg/L之间。A的化学需氧量在150~1300mg/L之间,B的化学需氧量在70~600mg/L之间。A的氨氮在50~150mg/L之间,B的氨氮在30~130mg/L之间。A的总氮在60~130mg/L之间,B的总氮在20~110mg/L之间。
测试样品的紫外-可见吸收光谱和三维荧光光谱。紫外-可见吸收光谱扫描范围为200~800nm,扫描间隔0.2nm。结果发现A和B的紫外-可见吸收光谱基本呈单指数下降趋势,在260~280nm附近均存在一个弱吸收峰,差异不明显。
测试样品的三维荧光光谱,激发波长220~600nm,发射波长230~650nm,扫描间隔5nm。A和B典型的三维荧光光谱均在激发/发射波长(记作Ex/Em)=225/340nm和Ex/Em=275/340nm附近存在两个荧光峰,差异也不显著。
4)数据预处理
采用拉依达准则对常规水质数据进行分析未发现异常样本,故所有样本的常规水质数据均可以用于建模。
原始紫外-可见吸收光谱在500nm之后的吸光几乎为零,因此剔除这部分光谱。然后对剩余的光谱进行标准正态变换。
三维荧光光谱利用超纯水激发波长350nm,发射波长370~430nm之间拉曼散射强度的积分将原始三维应光谱的荧光强度转换为拉曼单位(R.U.)。
5)特征提取
对常规水质数据进行主成分分析,前三个主成分的累计方差贡献率已经达到95.53%,包含了原始数据的绝大部分信息。因此,从6个常规水质数据中提取到3个主成分PC1~PC3。
对预处理后的紫外-可见吸收光谱进行主成分分析,前六个主成分的累计方差贡献率达到98.78%,包含了原始数据的绝大部分信息。因此,从紫外-可见吸收光谱数据中也提取到6个主成分,UVPC1~UVPC6。
对预处理后的三维荧光光谱数据进行平行因子分解,获得6个主要荧光组分F1~F6。
6)数据融合
将PC1~PC3、UVPC1~UVPC6和F1~F6拼接在一起构建融合数据FD=[PC1,PC2,PC3,UVPC1,UVPC2,UVPC3,UVPC4,UVPC5,UVPC6,F1,F2,F3,F4,F5,F6]。
7)建立污染源识别模型
a)将A的样本视为类别1,B的样本视为类别2。把23个A和23个B样本作为训练样本,其余样本作为预测样本;
b)导入训练样本并进行数据归一化;
c)初步建立PLS-DA分类模型,并根据交叉验证错误率最小化原则选择最佳变量数。如图3所示,潜在变量数为1~5时,交叉验证错误率均为最小值0。理论上,潜在变量数为1~5皆可。但潜在变量数较低可能含有的信息量较少,在预测时可能使得模型性能下降;潜在变量数较多可能有较多信息冗余,预测时增加噪声。作为优选的,本案例最佳潜在变量数选择中间值3;
d)将潜在变量数设置为3重新拟合模型并保存模型;
e)导入预测样本并进行数据归一化;
f)利用建立的模型对预测样本进行分类识别;
g)查看模型预测性能,结果表明建立的识别模型对A和B的预测性能完美。训练和预测阶段均没有一个样本被误分,见图4。单类别性能参数灵敏度、特异度和精确率均为1,整体性能参数正确率也为1。
根据本发明实施例提出的基于数据融合的污染源识别方法,包括样品采集、样品分析测试、数据预处理、特征提取、数据融合、识别模型建立和污染源识别***搭建。将常规水质、紫外-可见吸收光谱和三维荧光光谱进行数据融合并应用于污染源识别。相对于传统的污染源识别方法,该方法准确、智能、成本低、可操作性强,有利于大范围推广,对污染源溯源具有重要意义。
其次参照附图描述根据本发明实施例提出的基于数据融合的污染源识别***。
图5为根据本发明一个实施例的基于数据融合的污染源识别***结构示意图。
如图5所示,该基于数据融合的污染源识别***包括:取样模块、样品预处理模块、进样模块、分析测试模块、数据传输模块、显示模块和***控制模块;
取样模块用于采集污染源样品;
样品预处理模块用于对污染源样品进行预处理;
进样模块用于将预处理后的样品输送至分析测试模块;
分析测试模块用于对预处理后的污染源样品进行污染指标测试得到常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据;
数据传输模块用于进行各模块间的数据传输;
显示模块用于进行数据显示;
***控制模块用于嵌入污染源识别模型及进行控制,通过数据传输模块获得常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据,并利用组态软件在显示模块实时显示结果,将组态软件中收集的常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据输送至污染源识别模型,污染源识别模型对样污染源样本类别进行判别,再把判别结果返回至显示模块显示判别结果。
分析测试模块包括但不限于在线pH计、在线电导率仪、在线COD分析仪、在线氨氮分析仪、在线总氮仪和在线总磷分析仪、紫外-可见吸收分光光度计和荧光分光光度计。
搭建污染源识别***包括以下步骤:
1)将取样模块、样品预处理模块、进样模块、分析测试模块、数据传输模块、显示模块和***控制模块连接在一起,分析测试模块包括在线pH计、在线电导率仪、在线COD分析仪、在线氨氮分析仪、在线总氮仪和在线总磷分析仪、紫外-可见吸收分光光度计和荧光分光光度计;
2)将污染源识别模型嵌入***控制模块;
3)***控制模块启动样品采集模块,通过进样模块将样品送入分析测试模块,然后将测得的数据通过数据传输模块传输给***控制模型,并利用组态软件MCGS在显示模块实时显示结果;
4)采用OPC技术将污染源识别模型和MCGS工控机组态软件进行数据交换。将组态软件中收集的水质数据输送至污染源识别模型,污染源识别模型对样本类别进行分析,再把判别结果返回至显示模块显示判别结果;
5)不断重复步骤3)和4)以实现污染源的实时比对。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的***,此处不再赘述。
根据本发明实施例提出的基于数据融合的污染源识别***,包括样品采集、样品分析测试、数据预处理、特征提取、数据融合、识别模型建立和污染源识别***搭建。将常规水质、紫外-可见吸收光谱和三维荧光光谱进行数据融合并应用于污染源识别。相对于传统的污染源识别方法,该方法准确、智能、成本低、可操作性强,有利于大范围推广,对污染源溯源具有重要意义。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (9)

1.一种基于数据融合的污染源识别方法,其特征在于,包括以下步骤:
采集污染源样品;
对所述污染源样品进行预处理;
对预处理后的污染源样品进行污染指标测试得到常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据;
对所述常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据进行预处理;
对预处理后的所述常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据进行特征提取;
将在所述常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据中提取出的特征数据进行拼接构建融合数据;
根据所述融合数据和分类算法建立污染源识别模型并进行训练;
通过训练后的污染源识别模型进行污染源识别。
2.根据权利要求1所述的方法,其特征在于,所述污染源样品包括:水样、土壤样品和大气样品,对所述污染源样品进行预处理包括:对水样用0.2~10.0μm滤膜过滤,对土壤样品先用超纯水溶解,然后土壤浸出液用0.2~10.0μm滤膜过滤,对气体样品溶于超纯水后用0.2~10.0μm滤膜过滤。
3.根据权利要求1所述的方法,其特征在于,所述污染指标测试包括常规水质、紫外-可见吸收光谱和三维荧光光谱;
所述常规水质包括但不限于pH值、电导率、化学需氧量、总氮、氨氮和总磷;
所述紫外-可见吸收光谱扫描范围为200~800nm,扫描间隔为0.1~10nm;
所述三维荧光光谱的激发波长扫描范围为200~600nm,发射波长扫描范围为230~700nm,扫描间隔1~10nm。
4.根据权利要求3所述的方法,其特征在于,对所述常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据进行预处理,包括:
对常规水质数据预处理:采用拉依达准则将异常数据剔除;
对紫外-可见吸收光谱预处理:剔除光谱数据中的无效数据,再将光谱数据进行标准正态变换;
对三维荧光光谱预处理:利用激发波长350nm,发射波长370~430nm之间超纯水拉曼散射强度的积分将原始荧光指纹的荧光强度转换为拉曼单位(R.U.)。
5.根据权利要求1所述的方法,其特征在于,对预处理后的测试数据进行特征提取,包括对常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据的特征提取;
所述常规水质数据和所述紫外-可见吸收光谱数据的特征提取方法包括但不限于主成分分析、非负矩阵分解、独立成分分析;
所述三维荧光光谱数据的特征提取为利用平行因子分析提取三维荧光光谱的主要荧光组分。
6.根据权利要求1所述的方法,其特征在于,所述分类算法包括但不限于偏最小二乘分辨分析、支持向量机、K最近邻节点算法。
7.根据权利要求1所述的方法,其特征在于,根据所述融合数据和分类算法建立污染源识别模型并进行训练,进一步包括:
模型初始化:选择75%~95%的样本数据作为训练集,采用交叉验证的方法建立所述污染源识别模型,并根据交叉验证误差最小化原则选择最佳潜在变量数;
模型训练:将变量数设置为最佳潜在变量数对所述污染源识别模型再次拟合;
模型预测:通过拟合后的污染源识别模型对剩余5%~25%的样本数据进行预测,根据预测结果评估模型性能,其中,评估参数为评估所述污染源识别模型的灵敏度、特异度、精确率和正确率。
8.一种基于数据融合的污染源识别***,其特征在于,包括:
取样模块、样品预处理模块、进样模块、分析测试模块、数据传输模块、显示模块和***控制模块;
所述取样模块用于采集污染源样品;
所述样品预处理模块用于对所述污染源样品进行预处理;
所述进样模块用于将预处理后的样品输送至所述分析测试模块;
所述分析测试模块用于对预处理后的污染源样品进行污染指标测试得到常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据;
所述数据传输模块用于进行各模块间的数据传输;
所述显示模块用于进行数据显示;
所述***控制模块用于嵌入污染源识别模型及进行控制,通过所述数据传输模块获得常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据,并利用组态软件在所述显示模块实时显示结果,将组态软件中收集的所述常规水质数据、紫外-可见吸收光谱数据和三维荧光光谱数据输送至所述污染源识别模型,所述污染源识别模型对样本类别进行判别,再把判别结果返回至所述显示模块显示判别结果。
9.根据权利要求8所述的***,其特征在于,所述分析测试模块包括但不限于在线pH计、在线电导率仪、在线COD分析仪、在线氨氮分析仪、在线总氮仪和在线总磷分析仪、紫外-可见吸收分光光度计和荧光分光光度计。
CN202110246412.3A 2021-03-05 2021-03-05 基于数据融合的污染源识别方法及*** Pending CN113011478A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110246412.3A CN113011478A (zh) 2021-03-05 2021-03-05 基于数据融合的污染源识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110246412.3A CN113011478A (zh) 2021-03-05 2021-03-05 基于数据融合的污染源识别方法及***

Publications (1)

Publication Number Publication Date
CN113011478A true CN113011478A (zh) 2021-06-22

Family

ID=76407160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110246412.3A Pending CN113011478A (zh) 2021-03-05 2021-03-05 基于数据融合的污染源识别方法及***

Country Status (1)

Country Link
CN (1) CN113011478A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113029994A (zh) * 2021-03-31 2021-06-25 扬州大学 基于胞外有机物多源特征光谱的微囊藻毒素浓度反演方法
CN113376114A (zh) * 2021-06-24 2021-09-10 北京市生态环境监测中心 一种基于紫外-可见光谱数据的水污染溯源方法
CN113588617A (zh) * 2021-08-02 2021-11-02 清华大学 水质多特征预警溯源***及方法
CN114166747A (zh) * 2021-11-29 2022-03-11 浙江大学 判别水质污染的离散三维荧光/可见光吸收谱检测装置
CN115219472A (zh) * 2022-08-12 2022-10-21 生态环境部华南环境科学研究所(生态环境部生态环境应急研究所) 一种定量识别混合水体多污染源的方法及***
CN115239354A (zh) * 2022-08-11 2022-10-25 中国科学院大气物理研究所 一种应用于非定常多点源的污染物溯源方法以及***
CN116363440A (zh) * 2023-05-05 2023-06-30 北京建工环境修复股份有限公司 基于深度学习的土壤中有色微塑料的识别检测方法及***
CN117633706A (zh) * 2023-11-30 2024-03-01 众悦(威海)信息技术有限公司 一种用于信息***数据融合的数据处理方法
CN117388198B (zh) * 2023-10-31 2024-06-28 重庆大学 一种基于多源光谱融合的水质cod检测方法及检测设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009080049A1 (en) * 2007-12-21 2009-07-02 Dma Sorption Aps Monitoring oil condition and/or quality, on-line or at-line, based on chemometric data analysis of flourescence and/or near infrared spectra
CN107480839A (zh) * 2017-10-13 2017-12-15 深圳市博安达信息技术股份有限公司 基于主成分分析和随机森林的高危污染源的分类预测方法
CN109470667A (zh) * 2018-11-14 2019-03-15 华东理工大学 一种结合水质参数和三维荧光光谱进行污染物溯源的方法
CN109711547A (zh) * 2018-12-24 2019-05-03 武汉邦拓信息科技有限公司 一种基于深度学习算法的污染源异常数据识别方法
CN110083585A (zh) * 2019-03-15 2019-08-02 清华大学 一种水污染排放源数据库及其建立方法
CN111222575A (zh) * 2020-01-07 2020-06-02 北京联合大学 一种基于hrrp目标识别的klxs多模型融合方法及***
CN111426668A (zh) * 2020-04-28 2020-07-17 华夏安健物联科技(青岛)有限公司 一种利用三维荧光光谱特征信息对污染水体溯源分类识别的方法
US20200348232A1 (en) * 2020-04-28 2020-11-05 Chinese Research Academy Of Environmental Sciences Rapid detection method for condition of landfill leachate polluting groundwater and application thereof
CN111982878A (zh) * 2020-08-24 2020-11-24 安徽思环科技有限公司 一种基于紫外线可见光谱与三维荧光光谱水污染分析方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009080049A1 (en) * 2007-12-21 2009-07-02 Dma Sorption Aps Monitoring oil condition and/or quality, on-line or at-line, based on chemometric data analysis of flourescence and/or near infrared spectra
CN107480839A (zh) * 2017-10-13 2017-12-15 深圳市博安达信息技术股份有限公司 基于主成分分析和随机森林的高危污染源的分类预测方法
CN109470667A (zh) * 2018-11-14 2019-03-15 华东理工大学 一种结合水质参数和三维荧光光谱进行污染物溯源的方法
CN109711547A (zh) * 2018-12-24 2019-05-03 武汉邦拓信息科技有限公司 一种基于深度学习算法的污染源异常数据识别方法
CN110083585A (zh) * 2019-03-15 2019-08-02 清华大学 一种水污染排放源数据库及其建立方法
CN111222575A (zh) * 2020-01-07 2020-06-02 北京联合大学 一种基于hrrp目标识别的klxs多模型融合方法及***
CN111426668A (zh) * 2020-04-28 2020-07-17 华夏安健物联科技(青岛)有限公司 一种利用三维荧光光谱特征信息对污染水体溯源分类识别的方法
US20200348232A1 (en) * 2020-04-28 2020-11-05 Chinese Research Academy Of Environmental Sciences Rapid detection method for condition of landfill leachate polluting groundwater and application thereof
CN111982878A (zh) * 2020-08-24 2020-11-24 安徽思环科技有限公司 一种基于紫外线可见光谱与三维荧光光谱水污染分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
武晓莉等;: "多源光谱信息融合在水质分析中的应用", 分析化学, vol. 35, no. 12, pages 1716 - 1720 *
鲍灵利;: "紫外可见光谱检测水体COD算法研究", 信息通信, no. 03, pages 6 - 8 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113029994A (zh) * 2021-03-31 2021-06-25 扬州大学 基于胞外有机物多源特征光谱的微囊藻毒素浓度反演方法
CN113376114A (zh) * 2021-06-24 2021-09-10 北京市生态环境监测中心 一种基于紫外-可见光谱数据的水污染溯源方法
CN113588617A (zh) * 2021-08-02 2021-11-02 清华大学 水质多特征预警溯源***及方法
CN114166747B (zh) * 2021-11-29 2023-12-15 浙江大学 判别水质污染的离散三维荧光/可见光吸收谱检测装置
CN114166747A (zh) * 2021-11-29 2022-03-11 浙江大学 判别水质污染的离散三维荧光/可见光吸收谱检测装置
CN115239354B (zh) * 2022-08-11 2024-03-22 中国科学院大气物理研究所 一种应用于非定常多点源的污染物溯源方法以及***
CN115239354A (zh) * 2022-08-11 2022-10-25 中国科学院大气物理研究所 一种应用于非定常多点源的污染物溯源方法以及***
NL2034211A (en) 2022-08-12 2024-02-16 South China Institute Of Environmental Sciences Mee Res Institute Of Eco Environmental Emergency Mee Method and system for quantitatively identifying multi-pollution sources of mixed water body
CN115219472A (zh) * 2022-08-12 2022-10-21 生态环境部华南环境科学研究所(生态环境部生态环境应急研究所) 一种定量识别混合水体多污染源的方法及***
CN116363440B (zh) * 2023-05-05 2023-12-19 北京建工环境修复股份有限公司 基于深度学习的土壤中有色微塑料的识别检测方法及***
CN116363440A (zh) * 2023-05-05 2023-06-30 北京建工环境修复股份有限公司 基于深度学习的土壤中有色微塑料的识别检测方法及***
CN117388198B (zh) * 2023-10-31 2024-06-28 重庆大学 一种基于多源光谱融合的水质cod检测方法及检测设备
CN117633706A (zh) * 2023-11-30 2024-03-01 众悦(威海)信息技术有限公司 一种用于信息***数据融合的数据处理方法

Similar Documents

Publication Publication Date Title
CN113011478A (zh) 基于数据融合的污染源识别方法及***
CN105631203A (zh) 识别土壤中重金属污染源的方法
CN108665119B (zh) 一种供水管网异常工况预警方法
CN111724290B (zh) 基于深度分层模糊算法的环保设备识别方法与***
CN105334186A (zh) 一种近红外光谱分析方法
CN115389439B (zh) 基于大数据的河流污染物监测方法及***
CN116359285A (zh) 一种基于大数据的油气浓度智能检测***及方法
CN114611582B (zh) 一种基于近红外光谱技术分析物质浓度的方法及***
CN113311081B (zh) 基于三维液相色谱指纹的污染源识别方法及装置
CN116858822A (zh) 一种基于机器学习和拉曼光谱的水体中磺胺嘧啶定量分析方法
CN116595461A (zh) 一种基于随机森林识别的雨水口晴天排污溯源方法
CN111476363A (zh) 区分化变量去相关的稳定学习方法及装置
CN115659056A (zh) 基于大数据的用户服务精准匹配***
CN112508946B (zh) 一种基于对抗神经网络的电缆隧道异常检测方法
CN115219472A (zh) 一种定量识别混合水体多污染源的方法及***
CN113916817A (zh) 用于城镇生活饮用水的光谱法色度在线测量方法
CN114897835B (zh) 一种基于图像的煤炭产品灰分实时检测***
CN117349777B (zh) 一种水环境在线监测数据真伪智能识别***及方法
CN102692395B (zh) 光干涉气体检测装置及其工况检测方法
CN112906793B (zh) 一种用于桥梁健康监测***的监测数据修补方法及***
CN115329862A (zh) 基于dbscan和随机森林算法的半监督气体识别方法
CN114354534A (zh) 利用二元线性分类器建立航空煤油性质预测模型的方法
CN118225772A (zh) 一种基于图像信息的水质检测方法及***
CN115063638A (zh) 基于图像识别的垃圾热值建模方法
CN106226265A (zh) 基于光谱分析的生物炭炭化温度快速鉴别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination