CN116628598A - 一种基于大数据和nmf模型的二噁英来源解析方法及*** - Google Patents

一种基于大数据和nmf模型的二噁英来源解析方法及*** Download PDF

Info

Publication number
CN116628598A
CN116628598A CN202310548898.5A CN202310548898A CN116628598A CN 116628598 A CN116628598 A CN 116628598A CN 202310548898 A CN202310548898 A CN 202310548898A CN 116628598 A CN116628598 A CN 116628598A
Authority
CN
China
Prior art keywords
dioxin
data
source
matrix
nmf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310548898.5A
Other languages
English (en)
Other versions
CN116628598B (zh
Inventor
杨艳艳
李世平
谢丹平
付建平
丁紫荣
贾文超
韩静磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Institute of Environmental Science of Ministry of Ecology and Environment
Original Assignee
South China Institute of Environmental Science of Ministry of Ecology and Environment
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Institute of Environmental Science of Ministry of Ecology and Environment filed Critical South China Institute of Environmental Science of Ministry of Ecology and Environment
Priority to CN202310548898.5A priority Critical patent/CN116628598B/zh
Publication of CN116628598A publication Critical patent/CN116628598A/zh
Application granted granted Critical
Publication of CN116628598B publication Critical patent/CN116628598B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)

Abstract

本发明公开了一种基于大数据和NMF模型的二噁英来源解析方法及***,方法包括以下步骤:获取多源排放二噁英浓度数据,对原始数据进行标准化处理,利用随机森林算法构建二噁英来源识别模型;获取环境介质中二噁英浓度数据,利用NMF对环境介质中二噁英来源进行定量解析;构建判别模型,判别NMF解析出来的源是否为已知源,获得环境介质中二噁英各来源的贡献率。本发明可实现对环境中二噁英来源的精准、定量识别,获得环境介质中二噁英各排放源的贡献率,有效提高二噁英监测监管的针对性、科学性和准确性,提升环境精细化管理水平,大力推动二噁英减排控制,改善环境质量,有效解决二噁英管控难、成本高的问题。

Description

一种基于大数据和NMF模型的二噁英来源解析方法及***
技术领域
本发明涉及有机污染物防治技术领域,具体涉及一种基于大数据和NMF模型的二噁英来源解析方法及***。
背景技术
近年来,随着经济的高速发展,环境中二噁英的排放量呈逐年上升的趋势。根据全国主要行业持久性有机污染物调查显示,17个主要行业二噁英排放企业有万余家,涉及钢铁、再生有色金属、废弃物焚烧处置、造纸生产、氯碱工业等多个领域。
二噁英通常指具有相似结构和理化特性的一组多氯取代的平面芳烃类化合物,属氯代含氧三环芳烃类化合物,是多氯二苯并对二噁英(PCDDs)和多氯二苯并呋喃(PCDFs)的总称,由于氯原子取代数目和位置不同,构成了75种PCDDs和135种PCDFs的210种同类物,以17种2,3,7,8四个位置被氯原子取代的化合物生物毒性最强,其中又以2,3,7,8-TCDD毒性最大,其毒性相当于***的1000倍以上,是目前发现的无意识合成的副产品中毒性最强的化合物,被称为“地球上最强的毒物”。二噁英是一类具有急性致死毒性、高致癌、致畸、致突变、内分泌干扰及生殖和发育毒性的持久性有机污染物(POPs),被列入优先控制化学品名录和重点管控新污染物清单。
由于二噁英属于非故意产生的POPs,因此不能通过对其禁产和禁用来达到控制污染的目的,二噁英污染控制的关键是源头减排,但二噁英来源极其广泛,不同源排放的二噁英生成机制与排放状况差异很大,关于二噁英来源解析的研究不多,且大多数研究为定性解析,仅有的少数定量解析研究也存在一定的局限性和不确定性问题,对环境中二噁英来源的精准、定量解析研究更是严重缺乏。
现有技术中,常用的污染物源解析技术有化学质量平衡模型(CMB)、主成分分析(PCA)、正定矩阵因子分解(PMF)模型。
化学质量平衡模型(CMB)是一种在污染物源解析中广泛应用并且发展较为成熟的模型,该模型的基本原理是质量守恒,由于各个污染源的指纹谱有一定的差别,从而可以通过检测受体中各种物质的含量(组成)来确定各种污染源的贡献率。该模型存在以下缺点:1.需要污染源较完整的指纹谱图,不能解析未知源,尤其是对于环境中二噁英等持久性有毒污染物的污染源指纹谱图难以获得,且其成分复杂,如果直接应用会带来较大的误差;2.排放源的选择上存在主观性和经验性;3.对存在共线性的源解析结果较差。因此,CMB模型在应用于二噁英等持久性有毒污染物的源解析时受到一定限制。
主成分分析(PCA)是通过线性变换将多个变量转化为数量较少、两两不相关的新变量(即主成分)的一种多元统计分析方法。该技术为定性分析,无法量化给出各污染源的贡献率。
正定矩阵因子分解(PMF)模型目前常用的污染物源解析方法,它是一个多元因子分析类模型,通过将样本数据的矩阵(X)分解成因子贡献(G)和因子成分谱(F)两个矩阵,通过多线性多次迭代(ME)算法识别因子数量和因子贡献。该模型存在以下缺点:1.目前,该技术在二噁英来源解析方面的应用尚不成熟。由于二噁英组分复杂,实际应用过程中会出现某个或某几个排放源的贡献率为负值,难以解释。因此,该方法对于二噁英的来源解析存在一定的局限性;2.需要通过特定源的指纹图谱来识别潜在的排放源。由于PMF模型计算不需要测量源指纹图谱,即可对污染物来源进行解析。目前许多学者使用PMF模型进行二噁英来源解析时,大都是将PMF模型计算结果与已知的污染源的指纹谱图进行比对,如果其特征跟某个排放源特征相似,就认为来自该排放源,这种人为判别排放源的方式,存在一定的主观性和很大的不确定性。
发明内容
针对现有技术中的上述不足,本发明提供了一种基于大数据和非负矩阵分解(NMF)模型的二噁英来源解析方法及***,采用随机森林算法构建二噁英来源识别模型,从而精准识别利用NMF模型对二噁英来源进行定量解析的结果,由此解决现有的二噁英来源解析研究中无法进行精准、定量识别的技术问题,为二噁英的排放监管、污染溯源和精细化管控等提供技术支撑,为二噁英污染防治对策的制定提供依据。
为了达到上述发明目的,本发明采用的技术方案为:
第一方面,提供一种基于大数据和NMF模型的二噁英来源解析方法,该方法包括以下步骤:
S1、获取多源排放二噁英浓度数据,进行标准化处理,得到样本数据;
S2、分析不同排放源二噁英特征的关联性,得到影响二噁英来源识别的特征变量;
S3、基于样本数据,利用随机森林算法构建二噁英来源识别模型;
S4、获取环境介质中二噁英浓度数据,利用NMF对环境介质中二噁英来源进行定量解析;
S5、构建判别模型,将NMF解析结果输入到判别模型中,得到识别出的真实数据;
S6、将真实数据输入到二噁英来源识别模型中,获得环境介质中二噁英的各个来源是否为已知来源,结合NMF源解析中的权重矩阵获得二噁英各来源的贡献率。
进一步地,步骤S2中,影响二噁英来源识别的特征变量有18个,具体为:2,3,7,8-TCDF、1,2,3,7,8-PeCDF、2,3,4,7,8-PeCDF、1,2,3,4,7,8-HxCDF、1,2,3,6,7,8-HxCDF、2,3,4,6,7,8-HxCDF、1,2,3,7,8,9-HxCDF、1,2,3,4,6,7,8-HpCDF、1,2,3,4,7,8,9-HpCDF、OCDF、2,3,7,8-TCDD、1,2,3,7,8-PeCDD、1,2,3,4,7,8-HxCDD、1,2,3,6,7,8-HxCDD、1,2,3,7,8,9-HxCDD、1,2,3,4,6,7,8-HpCDD、OCDD、PCDFs/PCDDs。
进一步地,步骤S3具体为:通过自助法重采样技术,从原始训练样本数据集N中有放回地重复随机抽取k个样本数据生成新的训练样本集合,然后根据自助样本数据集生成k个分类树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。
进一步地,步骤S4的方法具体包括以下子步骤:
S4-1、获取环境介质中二噁英浓度数据;
S4-2、应用NMF模型将受体二噁英组分浓度矩阵因子化,分解为一个非负因子矩阵W和一个非负因子矩阵H,初始化矩阵W和矩阵H,采用非负双奇异值分解初始化方法对矩阵进行初始赋值,通过欧式距离的Frobenius范数来最小化目标函数;
S4-3、设置迭代次数上限和误差阈值,采用坐标下降算法优化算法;
S4-4、按照公式:
依次迭代矩阵W和矩阵H,当两次目标函数差小于10-4时停止迭代。
进一步地,步骤S5的方法具体包括以下子步骤:
S5-1、构建随机噪声生成器,生成随机噪声矩阵并将每条数据随机标记为0.7~1,该数据为二噁英假数据;
S5-2、将每条多源排放二噁英大数据随机标注为0~0.3,该数据为二噁英真数据;
S5-3、组合并随机打乱随机噪声矩阵和多源排放二噁英大数据;
S5-4、构建并训练判别网络,得到可以区分真实二噁英数据和随机假数据的判别模型。
第二方面,提供一种基于大数据和NMF模型的二噁英来源解析***,其包括:
数据获取模块,用于获取多源排放二噁英大数据;
数据标准化模块,用于对获取的多源排放二噁英大数据进行标准化处理,包括数据清洗、数据变换和数据集成,得到样本数据;
分析模块,用于分析不同排放源二噁英特征的关联性,得到影响二噁英来源识别的特征变量;
识别模型构建模块,用于通过随机森林算法构建二噁英来源识别模型;
来源解析模块,用于获取环境介质中二噁英浓度数据,利用NMF对环境介质中二噁英来源进行定量解析;
判别模型构建模块,用于将NMF解析结果输入到判别模型中,得到识别出的真实数据;
来源识别模块,用于将真实数据输入到二噁英来源识别模型中,获得环境介质中二噁英的各个来源是否为已知来源,结合NMF源解析中的权重矩阵获得二噁英各来源的贡献率。
进一步地,识别模型构建模块具体为,用于通过自助法重采样技术,从原始训练样本数据集N中有放回地重复随机抽取k个样本数据生成新的训练样本集合,然后根据自助样本数据集生成k个分类树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。
进一步地,来源解析模块包括:
数据获取子模块,用于获取环境介质中二噁英浓度数据;
赋值子模块,用于应用NMF模型将受体二噁英组分浓度矩阵因子化,分解为一个非负因子矩阵W和一个非负因子矩阵H,初始化矩阵W和矩阵H,采用非负双奇异值分解初始化方法对矩阵进行初始赋值,通过欧式距离的Frobenius范数来最小化目标函数;
迭代子模块,用于设置迭代次数上限和误差阈值,采用坐标下降算法优化算法;
按照公式:
依次迭代矩阵W和矩阵H,当两次目标函数差小于10-4时停止迭代。
进一步地,判别模型构建模块包括:
随机噪声构建子模块,用于构建随机噪声生成器,生成随机噪声矩阵并将每条数据随机标记为0.7~1,该数据为二噁英假数据;
随机标注子模块,用于将每条多源排放二噁英大数据随机标注为0~0.3,该数据为二噁英真数据;
随机组合子模块,用于组合并随机打乱随机噪声矩阵和多源排放二噁英大数据;
判别模型构建子模块,用于构建并训练判别网络,得到可以区分真实二噁英数据和随机假数据的判别模型。
第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,处理器执行计算机程序时实现二噁英来源解析方法的步骤。
本发明的有益效果为:
1.通过本发明方法或***可获得环境介质中二噁英各排放源的贡献率,有效提高二噁英监测监管的针对性、科学性和准确性,提升环境精细化管理水平,大力推动二噁英减排控制,改善环境质量。
2.本发明方法或***可为二噁英污染防治对策的制定提供依据,有效解决二噁英管控难、成本高的问题,减少二噁英监测的高额费用,也为企业节约运行成本。
附图说明
图1为本发明方法流程图;
图2为本发明二噁英来源识别模型权重示意图;
图3为珠三角环境空气中二噁英来源解析示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例1:
参照图1,一种基于大数据和非负矩阵分解(NMF)模型的二噁英来源解析方法,该方法具体包括以下步骤:
(1)获取生活垃圾焚烧、危险废物焚烧、医疗废物焚烧、殡葬、钢铁生产和再生有色金属生产等6个典型行业近10年的排放二噁英数据。
(2)对获取的6个典型行业二噁英数据进行标准化处理,包括数据清洗、数据变换和数据集成,得到可以分析的样本数据。确定样品数量,获取数据集样本组成如表1所示:
表1数据集样本组成
行业名称 样本数
生活垃圾焚烧行业 210
危险废物焚烧行业 227
医疗废物焚烧行业 166
殡葬行业 206
钢铁生产行业 49
再生有色金属生产 83
(3)分析不同排放源二噁英特征的关联性,得到影响二噁英来源识别的18个特征变量,具体为:2,3,7,8-TCDF、1,2,3,7,8-PeCDF、2,3,4,7,8-PeCDF、1,2,3,4,7,8-HxCDF、1,2,3,6,7,8-HxCDF、2,3,4,6,7,8-HxCDF、1,2,3,7,8,9-HxCDF、1,2,3,4,6,7,8-HpCDF、1,2,3,4,7,8,9-HpCDF、OCDF、2,3,7,8-TCDD、1,2,3,7,8-PeCDD、1,2,3,4,7,8-HxCDD、1,2,3,6,7,8-HxCDD、1,2,3,7,8,9-HxCDD、1,2,3,4,6,7,8-HpCDD、OCDD、PCDFs/PCDDs。
(4)构建二噁英来源识别模型,通过自助法(bootstrap)重采样技术,从原始训练样本数据集N中有放回地重复随机抽取k个样本数据生成新的训练样本集合,然后根据自助样本数据集生成k个分类树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定,建立的模型结果如表2所示,模型权重如图2所示。该模型准确率为74%。
表2基于随机森林的二噁英来源识别模型结果
名称 precision recall f1-score support
生活垃圾焚烧行业 0.94 0.94 0.94 209
危险废物焚烧行业 0.93 0.91 0.92 232
医疗废物焚烧行业 0.96 0.95 0.95 167
殡葬行业 0.96 0.93 0.95 212
钢铁生产行业 0.9 1 0.95 44
再生有色金属生产 0.92 0.99 0.95 77
accuracy / / 0.94 941
macro avg 0.93 0.95 0.94 941
weighted avg 0.94 0.94 0.94 941
具体地说,决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别,常见的决策树算法有C4.5、ID3和CART,其中CART可用于分类与回归。本发明选择CART决策树算法作为随机森林内分类树的构建方法,CART决策树通过基尼指数(公示(1))选择最优特征,同时决定该特征的最优二值切分点。基尼指数越大,样本集合不确定性越大,反之越小。
CART决策树生成:
①设结点的训练数据集为N,计算现有特征对该数据集的基尼指数。此时,对于每个特征,每次取其中一个每个可能取得值,根据样本点对该值的测试结果为”是”或”否”将N分成2部分,并计算基尼指数。
②在所有可能的特征,以及他们所有可能的切分点中,选择基尼指数最小的特征,该选择的特征为最优特征,该特征中的切分点为最优切分点,依照最优特征和最优切分点生成二叉树,并把训练数据集分配到子节点中。
③对两个子节点递归调用①、②,直至满足停止条件。
④生成CART决策树。
随机森林实现过程:
随机森林中的每一棵分类树为二叉树,生成遵循自顶向下的递归***原则,即从根节点开始依次对训练集进行划分;在二叉树中,根节点包含全部训练数据,按照节点纯度最小原则,***为左节点和右节点,它们分别包含训练数据的一个子集,按照同样的规则节点继续***,直到满足分支停止规则而停止生长,若节点n上的分类数据全部来自于同一类别,则此节点的纯度I(n)=0,纯度度量方法是Gini准则,即假设P(Xj)是节点n上属于Xj类样本个数占训练,具体实现过程如下:
①原始训练集为N,应用bootstrap法有放回地随机抽取k个新的自助样本集合,并由此构建k棵分类树,每次未被抽到的样本组成了k个袋外数据。
②设有mall个变量,则在每一棵树的每个节点处随机抽取mtry个变量(mtry nmall),然后在mtry中选择一个最具有分类能力的变量,变量分类的阈值通过检查每一个分类点确定。
③每棵树最大限度地生长,不做任何修剪。
④将生成的多棵分类树组成随机森林,用随机森林分类器对新的数据进行判别与分类,分类结果按树分类器的投票多少而定。
(5)采用非负矩阵分解(NMF)模型对二噁英来源进行定量解析。应用NMF模型将受体二噁英组分浓度矩阵因子化,分解为一个非负因子矩阵W和一个非负因子矩阵H,如公示(2)所示:
Vn×m=Wn×k·Hk×m (2)
具体实现过程如下:
①获取珠三角地区环境空气中二噁英浓度数据44个。
②初始化随机矩阵W和矩阵H。采用非负双奇异值分解(NNDSVD)初始化(更好的稀疏性)方法对矩阵进行初始赋值,通过欧式距离的Frobenius范数来最小化目标函数。
③设置迭代次数上限和误差阈值。采用坐标下降法(Coordinate Descent)优化算法。
④按照公式(1)和公示(2)依次迭代矩阵W和矩阵H,当两次目标函数差小于10-4时停止迭代。
迭代步骤:696;损失值:0.65。
(6)构建判别模型
①构建随机噪声生成器,生成随机噪声矩阵并将每条数据随机标记为0.7~1,该数据为二噁英假数据。
②将每条多源排放二噁英大数据随机标注为0~0.3,该数据为二噁英真数据。
③组合并随机打乱随机噪声矩阵和多源排放二噁英大数据。
④构建并训练判别网络,得到可以区分来真实二噁英数据和随机假数据的判别模型,准确率为85%。
(7)将(5)得出的解析结果输入到通过(6)建立的判别模型中,得出判别器识别出的真实数据,再将该真实数据输入通过(4)建立的二噁英来源识别模型中,获得环境空气中二噁英的各个来源是否为已知来源,结合NMF源解析中的权重矩阵获得二噁英各来源的贡献率。分析结果见表3~表4和图3,表3显示源1~源6分别来源危险废物焚烧行业、殡葬行业、再生有色金属生产、生活垃圾焚烧行业、危险废物焚烧行业、再生有色金属生产。
表3珠三角环境空气中二噁英来源解析结果(源矩阵)
名称 源1 源2 源3 源4 源5 源6
2,3,7,8-TCDF 0 0 0.43093 0.01736 0 0.80475
1,2,3,7,8-PeCDF 0.00586 0.03508 0.62541 0.03064 0.16447 0.6349
2,3,4,7,8-PeCDF 0.76352 0.10095 0.22386 0.03733 0.11222 0.53192
1,2,3,4,7,8-HxCDF 0.0592 0.0245 0.79713 0.06924 0.16347 0.33859
1,2,3,6,7,8-HxCDF 0.70075 0.15569 0.57088 0.07449 0.1747 0.40533
2,3,4,6,7,8-HxCDF 0.94361 0.1176 0 0.03399 0 0.14219
1,2,3,7,8,9-HxCDF 0 0.04287 1.05131 0 0 0
1,2,3,4,6,7,8-HpCDF 0.49983 0.16505 0.8758 0.10995 0.19352 0.11246
1,2,3,4,7,8,9-HpCDF 0.14124 0.05565 0.97566 0.01946 0.14892 0.01371
OCDF 0 0.09811 0.9937 0.08509 0.10952 0.08032
2,3,7,8-TCDD 0 0 0 1.10518 0 0
1,2,3,7,8-PeCDD 0.09407 0 0 0 0.67439 0.31617
1,2,3,4,7,8-HxCDD 0 0.27812 0.13796 0 0.75272 0.02668
1,2,3,6,7,8-HxCDD 0.21757 0.39013 0.09284 0.02225 0.69014 0.01638
1,2,3,7,8,9-HxCDD 0.40723 0.59456 0.0569 0 0.43779 0
1,2,3,4,6,7,8-HpCDD 0.05831 0.69954 0.01262 0.01961 0.11823 0
OCDD 0 0.72378 0 0.01221 0 0.00255
表4珠三角环境空气中二噁英来源解析结果(贡献矩阵)
实施例2:
实施例2属于实施例1的并列实施例,主要阐述二噁英来源解析***的结构及功能:
数据获取模块,用于获取多源排放二噁英大数据;
数据标准化模块,用于对获取的多源排放二噁英大数据进行标准化处理,包括数据清洗、数据变换和数据集成,得到样本数据;
分析模块,用于分析不同排放源二噁英特征的关联性,得到影响二噁英来源识别的特征变量;
识别模型构建模块,用于通过随机森林算法构建二噁英来源识别模型;
来源解析模块,用于获取环境介质中二噁英浓度数据,利用NMF对环境介质中二噁英来源进行定量解析;
判别模型构建模块,用于将NMF解析结果输入到判别模型中,得到识别出的真实数据;
来源识别模块,用于将真实数据输入到二噁英来源识别模型中,获得环境介质中二噁英的各个来源是否为已知来源,结合NMF源解析中的权重矩阵获得二噁英各来源的贡献率。
识别模型构建模块具体为,用于通过自助法重采样技术,从原始训练样本数据集N中有放回地重复随机抽取k个样本数据生成新的训练样本集合,然后根据自助样本数据集生成k个分类树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。
来源解析模块包括:
数据获取子模块,用于获取环境介质中二噁英浓度数据;
赋值子模块,用于应用NMF模型将受体二噁英组分浓度矩阵因子化,分解为一个非负因子矩阵W和一个非负因子矩阵H,初始化矩阵W和矩阵H,采用非负双奇异值分解初始化方法对矩阵进行初始赋值,通过欧式距离的Frobenius范数来最小化目标函数;
迭代子模块,用于设置迭代次数上限和误差阈值,采用坐标下降算法优化算法;
按照公式:
依次迭代矩阵W和矩阵H,当两次目标函数差小于10-4时停止迭代。
判别模型构建模块包括:
随机噪声构建子模块,用于构建随机噪声生成器,生成随机噪声矩阵并将每条数据随机标记为0.7~1,该数据为二噁英假数据;
随机标注子模块,用于将每条多源排放二噁英大数据随机标注为0~0.3,该数据为二噁英真数据;
随机组合子模块,用于组合并随机打乱随机噪声矩阵和多源排放二噁英大数据;
判别模型构建子模块,用于构建并训练判别网络,得到可以区分真实二噁英数据和随机假数据的判别模型。
实施例3:
实施例3为实施例1的进一步应用,并具体阐述电子设备的学习内容:包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,处理器执行计算机程序时实现二噁英来源解析方法的步骤。
本发明通过运用大数据分析方法,对近10年典型行业二噁英排放数据进行挖掘,利用随机森林算法和NMF模型构建二噁英来源解析的方法及***,实现对环境中二噁英来源的精准、定量识别,获得环境介质中二噁英各排放源的贡献率,有效提高二噁英监测监管的针对性、科学性和准确性,提升环境精细化管理水平,大力推动二噁英减排控制,改善环境质量,有效解决二噁英管控难、成本高的问题。
于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (10)

1.一种基于大数据和NMF模型的二噁英来源解析方法,其特征在于,包括以下步骤:
S1、获取多源排放二噁英浓度数据,进行标准化处理,得到样本数据;
S2、分析不同排放源二噁英特征的关联性,得到影响二噁英来源识别的特征变量;
S3、基于样本数据,利用随机森林算法构建二噁英来源识别模型;
S4、获取环境介质中二噁英浓度数据,利用NMF对环境介质中二噁英来源进行定量解析;
S5、构建判别模型,将NMF解析结果输入到判别模型中,得到识别出的真实数据;
S6、将真实数据输入到二噁英来源识别模型中,获得环境介质中二噁英的各个来源是否为已知来源,结合NMF源解析中的权重矩阵获得二噁英各来源的贡献率。
2.根据权利要求1所述的一种基于大数据和NMF模型的二噁英来源解析方法,其特征在于,步骤S2中,影响二噁英来源识别的特征变量有18个,具体为:2,3,7,8-TCDF、1,2,3,7,8-PeCDF、2,3,4,7,8-PeCDF、1,2,3,4,7,8-HxCDF、1,2,3,6,7,8-HxCDF、2,3,4,6,7,8-HxCDF、1,2,3,7,8,9-HxCDF、1,2,3,4,6,7,8-HpCDF、1,2,3,4,7,8,9-HpCDF、OCDF、2,3,7,8-TCDD、1,2,3,7,8-PeCDD、1,2,3,4,7,8-HxCDD、1,2,3,6,7,8-HxCDD、1,2,3,7,8,9-HxCDD、1,2,3,4,6,7,8-HpCDD、OCDD、PCDFs/PCDDs。
3.根据权利要求1所述的一种基于大数据和NMF模型的二噁英来源解析方法,其特征在于,步骤S3具体为:通过自助法重采样技术,从原始训练样本数据集N中有放回地重复随机抽取k个样本数据生成新的训练样本集合,然后根据自助样本数据集生成k个分类树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。
4.根据权利要求1所述的一种基于大数据和NMF模型的二噁英来源解析方法,其特征在于,步骤S4的方法具体包括以下子步骤:
S4-1、获取环境介质中二噁英浓度数据;
S4-2、应用NMF模型将受体二噁英组分浓度矩阵因子化,分解为一个非负因子矩阵W和一个非负因子矩阵H,初始化矩阵W和矩阵H,采用非负双奇异值分解初始化方法对矩阵进行初始赋值,通过欧式距离的Frobenius范数来最小化目标函数;
S4-3、设置迭代次数上限和误差阈值,采用坐标下降算法优化算法;
S4-4、按照公式:
依次迭代矩阵W和矩阵H,当两次目标函数差小于10-4时停止迭代。
5.根据权利要求1所述的一种基于大数据和NMF模型的二噁英来源解析方法,其特征在于,步骤S5的方法具体包括以下子步骤:
S5-1、构建随机噪声生成器,生成随机噪声矩阵并将每条数据随机标记为0.7~1,该数据为二噁英假数据;
S5-2、将每条多源排放二噁英大数据随机标注为0~0.3,该数据为二噁英真数据;
S5-3、组合并随机打乱随机噪声矩阵和多源排放二噁英大数据;
S5-4、构建并训练判别网络,得到可以区分真实二噁英数据和随机假数据的判别模型。
6.一种基于大数据和NMF模型的二噁英来源解析***,其特征在于,包括:
数据获取模块,用于获取多源排放二噁英大数据;
数据标准化模块,用于对获取的多源排放二噁英大数据进行标准化处理,包括数据清洗、数据变换和数据集成,得到样本数据;
分析模块,用于分析不同排放源二噁英特征的关联性,得到影响二噁英来源识别的特征变量;
识别模型构建模块,用于通过随机森林算法构建二噁英来源识别模型;
来源解析模块,用于获取环境介质中二噁英浓度数据,利用NMF对环境介质中二噁英来源进行定量解析;
判别模型构建模块,用于将NMF解析结果输入到判别模型中,得到识别出的真实数据;
来源识别模块,用于将真实数据输入到二噁英来源识别模型中,获得环境介质中二噁英的各个来源是否为已知来源,结合NMF源解析中的权重矩阵获得二噁英各来源的贡献率。
7.根据权利要求6所述的一种基于大数据和NMF模型的二噁英来源解析***,其特征在于,识别模型构建模块具体为,用于通过自助法重采样技术,从原始训练样本数据集N中有放回地重复随机抽取k个样本数据生成新的训练样本集合,然后根据自助样本数据集生成k个分类树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。
8.根据权利要求6所述的一种基于大数据和NMF模型的二噁英来源解析***,其特征在于,来源解析模块包括:
数据获取子模块,用于获取环境介质中二噁英浓度数据;
赋值子模块,用于应用NMF模型将受体二噁英组分浓度矩阵因子化,分解为一个非负因子矩阵W和一个非负因子矩阵H,初始化矩阵W和矩阵H,采用非负双奇异值分解初始化方法对矩阵进行初始赋值,通过欧式距离的Frobenius范数来最小化目标函数;
迭代子模块,用于设置迭代次数上限和误差阈值,采用坐标下降算法优化算法;
按照公式:
依次迭代矩阵W和矩阵H,当两次目标函数差小于10-4时停止迭代。
9.根据权利要求6所述的一种基于大数据和NMF模型的二噁英来源解析***,其特征在于,判别模型构建模块包括:
随机噪声构建子模块,用于构建随机噪声生成器,生成随机噪声矩阵并将每条数据随机标记为0.7~1,该数据为二噁英假数据;
随机标注子模块,用于将每条多源排放二噁英大数据随机标注为0~0.3,该数据为二噁英真数据;
随机组合子模块,用于组合并随机打乱随机噪声矩阵和多源排放二噁英大数据;
判别模型构建子模块,用于构建并训练判别网络,得到可以区分真实二噁英数据和随机假数据的判别模型。
10.一种电子设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述的二噁英来源解析方法的步骤。
CN202310548898.5A 2023-05-15 2023-05-15 一种基于大数据和nmf模型的二噁英来源解析方法及*** Active CN116628598B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310548898.5A CN116628598B (zh) 2023-05-15 2023-05-15 一种基于大数据和nmf模型的二噁英来源解析方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310548898.5A CN116628598B (zh) 2023-05-15 2023-05-15 一种基于大数据和nmf模型的二噁英来源解析方法及***

Publications (2)

Publication Number Publication Date
CN116628598A true CN116628598A (zh) 2023-08-22
CN116628598B CN116628598B (zh) 2024-03-12

Family

ID=87609235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310548898.5A Active CN116628598B (zh) 2023-05-15 2023-05-15 一种基于大数据和nmf模型的二噁英来源解析方法及***

Country Status (1)

Country Link
CN (1) CN116628598B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140088884A1 (en) * 2012-05-04 2014-03-27 Battelle Memorial Institute Methods of source attribution for chemical compounds
CN105095884A (zh) * 2015-08-31 2015-11-25 桂林电子科技大学 一种基于随机森林支持向量机的行人识别***及处理方法
US20180060758A1 (en) * 2016-08-30 2018-03-01 Los Alamos National Security, Llc Source identification by non-negative matrix factorization combined with semi-supervised clustering
CN109470667A (zh) * 2018-11-14 2019-03-15 华东理工大学 一种结合水质参数和三维荧光光谱进行污染物溯源的方法
CN111461355A (zh) * 2020-03-20 2020-07-28 北京工业大学 基于随机森林的二噁英排放浓度迁移学习预测方法
CN111797918A (zh) * 2020-06-29 2020-10-20 平安国际智慧城市科技股份有限公司 大气污染源识别方法、装置、计算机设备及存储介质
CN112183709A (zh) * 2020-09-22 2021-01-05 生态环境部华南环境科学研究所 一种垃圾焚烧废气二噁英超标预测预警方法
WO2021056160A1 (zh) * 2019-09-23 2021-04-01 广州禾信仪器股份有限公司 一种VOCs污染的溯源方法
US20210241048A1 (en) * 2020-01-31 2021-08-05 Illumina, Inc. Machine Learning-Based Root Cause Analysis of Process Cycle Images
CN113780383A (zh) * 2021-08-27 2021-12-10 北京工业大学 基于半监督随机森林和深度森林回归集成的二噁英排放浓度预测方法
CN113837436A (zh) * 2021-08-19 2021-12-24 成都市环境保护信息中心 重点管控区域污染防控管理办法
CN114117893A (zh) * 2021-11-08 2022-03-01 南开大学 一种解析大气降尘污染来源及其评估污染源对降尘边际效应的方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140088884A1 (en) * 2012-05-04 2014-03-27 Battelle Memorial Institute Methods of source attribution for chemical compounds
CN105095884A (zh) * 2015-08-31 2015-11-25 桂林电子科技大学 一种基于随机森林支持向量机的行人识别***及处理方法
US20180060758A1 (en) * 2016-08-30 2018-03-01 Los Alamos National Security, Llc Source identification by non-negative matrix factorization combined with semi-supervised clustering
CN109470667A (zh) * 2018-11-14 2019-03-15 华东理工大学 一种结合水质参数和三维荧光光谱进行污染物溯源的方法
WO2021056160A1 (zh) * 2019-09-23 2021-04-01 广州禾信仪器股份有限公司 一种VOCs污染的溯源方法
US20210241048A1 (en) * 2020-01-31 2021-08-05 Illumina, Inc. Machine Learning-Based Root Cause Analysis of Process Cycle Images
CN111461355A (zh) * 2020-03-20 2020-07-28 北京工业大学 基于随机森林的二噁英排放浓度迁移学习预测方法
CN111797918A (zh) * 2020-06-29 2020-10-20 平安国际智慧城市科技股份有限公司 大气污染源识别方法、装置、计算机设备及存储介质
CN112183709A (zh) * 2020-09-22 2021-01-05 生态环境部华南环境科学研究所 一种垃圾焚烧废气二噁英超标预测预警方法
CN113837436A (zh) * 2021-08-19 2021-12-24 成都市环境保护信息中心 重点管控区域污染防控管理办法
CN113780383A (zh) * 2021-08-27 2021-12-10 北京工业大学 基于半监督随机森林和深度森林回归集成的二噁英排放浓度预测方法
CN114117893A (zh) * 2021-11-08 2022-03-01 南开大学 一种解析大气降尘污染来源及其评估污染源对降尘边际效应的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIASHEN FENG等: "An improved nonnegative matrix factorization with the imputation method model for pollution source apportionment during rainstorm events", 《JOURNAL OF ENVIRONMENTAL MANAGEMENT》, pages 1 - 11 *
宋志廷;赵玉杰;周其文;刘潇威;张铁亮;: "基于地质统计及随机模拟技术的天津武清区土壤重金属源解析", 环境科学, no. 07, pages 351 - 357 *

Also Published As

Publication number Publication date
CN116628598B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN109697162B (zh) 一种基于开源代码库的软件缺陷自动检测方法
Bansal et al. Leaving reality to imagination: Robust classification via generated datasets
CN107391353B (zh) 基于日志的复杂软件***异常行为检测方法
CN112416806B (zh) 一种基于标准文档分析的js引擎模糊测试方法
CN116363440B (zh) 基于深度学习的土壤中有色微塑料的识别检测方法及***
CN115796181A (zh) 一种针对化工领域的文本关系抽取方法
CN115277180B (zh) 一种区块链日志异常检测与溯源***
Del Carpio et al. Trends in software engineering processes using deep learning: a systematic literature review
CN112102813A (zh) 基于用户评论中上下文的语音识别测试数据生成方法
Li et al. Emotion-cause span extraction: a new task to emotion cause identification in texts
Garlapati et al. Classification of Toxicity in Comments using NLP and LSTM
CN115827797A (zh) 一种基于大数据的环境数据分析整合方法及***
Hu et al. Unsupervised software repositories mining and its application to code search
CN103679034A (zh) 一种基于本体的计算机病毒分析***及其特征提取方法
Rao et al. Search4Code: Code search intent classification using weak supervision
CN116628598B (zh) 一种基于大数据和nmf模型的二噁英来源解析方法及***
CN116304062B (zh) 一种基于级联深度学***竞争审查方法
Smith Ecological statistics
Aladics et al. Bug prediction using source code embedding based on Doc2Vec
EP4049141A1 (en) Automated exception featurization and search
CN117038074A (zh) 基于大数据的用户管理方法、装置、设备及存储介质
CN110502669A (zh) 基于n边dfs子图的轻量级无监督图表示学习方法及装置
CN114974454A (zh) 基于机器学习算法对废气处理率进行预测的方法及***
CN112069835A (zh) 基于语义分析的计算机流程分析挖掘***及方法
Liu et al. Air Pollution Lidar Signals Classification Based on Machine Learning Methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant