CN108595414A - 基于源汇空间变量推理的土壤重金属企业污染源识别方法 - Google Patents

基于源汇空间变量推理的土壤重金属企业污染源识别方法 Download PDF

Info

Publication number
CN108595414A
CN108595414A CN201810239430.7A CN201810239430A CN108595414A CN 108595414 A CN108595414 A CN 108595414A CN 201810239430 A CN201810239430 A CN 201810239430A CN 108595414 A CN108595414 A CN 108595414A
Authority
CN
China
Prior art keywords
pollution
enterprise
heavy metal
data
soil
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810239430.7A
Other languages
English (en)
Other versions
CN108595414B (zh
Inventor
史舟
徐烨
贾晓琳
尤其浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201810239430.7A priority Critical patent/CN108595414B/zh
Publication of CN108595414A publication Critical patent/CN108595414A/zh
Application granted granted Critical
Publication of CN108595414B publication Critical patent/CN108595414B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Processing Of Solid Wastes (AREA)

Abstract

本发明公开了一种基于源汇空间变量推理的土壤重金属企业污染源识别方法。首先获取待研究区域的污染企业数据、企业POI数据与重金属污染数据,再对数据集的企业行业类别分布进行调整,并在分词处理剔除地方性的词汇后分离出训练数据集和测试数据集,然后根据这两个数据集所建立的语料库,统计各个样本出现的词的词频,作为该样本对应的文本特征,并且使用训练集的样本来训练多项式朴素贝叶斯模型,通过测试集的评分来评估模型;最后根据获取的企业数据预测行业分类与重金属污染指数在根据研究区拓扑形状生成的格网内进行数值统计,并使用双变量空间自相关方法进行空间分析,判断污染与企业的空间分布关系,识别研究区内的重金属点源、面源污染区域。

Description

基于源汇空间变量推理的土壤重金属企业污染源识别方法
技术领域
本发明涉及一种基于源汇空间变量推理的土壤重金属企业污染源识别方法,具体涉及到一种基于特定文本挖掘手段的分类方法以及基于双变量空间自相关分析方法。
技术背景
在现代工业化的发展下,一些不受监管的企业肆意排放工业“三废”,造成了严重的环境污染,其中土壤重金属污染已经成为了世界性的环境问题。据调查,全国土壤污染总超标率为16.1%,污染类型主要以重金属污染为主,对大约两千万公顷的农田耕地造成了破坏。农田土壤污染主要分为点源污染与面源污染,其中面源污染是指没有固定的污染排放点通过土壤侵蚀、地表径流等方式造成的土壤污染;点源污染有固定的排放污染源,具有可识别的范围,相较于面源污染更容易管控治理,而企业污染属于点源污染。目前已经有许多土壤重金属污染源解析的研究方法与模型,如王学松和秦勇(王学松,秦勇.徐州城市表层土壤中重金属环境风险测度与源解析[J].地球化学,2006,35(1):88-94.)采用了因子分析与聚类分析的统计方法界定了研究区表层土壤中重金属元素的来源和类别;Saby等(Saby N P,Thioulouse J,Jolivet C C,et al.Multivariate analysis of the spatialpatterns of 8trace elements using the French soil monitoring network data.[J].Science of the Total Environment,2009,407(21):5644-5652.)运用主成分分析法计算出研究区表层土壤中在自然因素与人为活动因素下的八种重金属累积效应,并通过降维计算的方法将重金属含量得到四个主成分,再根据稳健地统计插值模型对主成分的得分进行了空间插值的预测来得到重金属的四个来源:土壤母质、土壤质地、土壤风化与人为因素。但是这些源解析的方法或模型都有一定的缺陷,传统的统计分析方法和化学方法如相关性分析法、主成分分析法、聚类分析法和因子分析法等都忽视了重金属污染的空间位置信息,这对于土壤重金属污染的防控的帮助相当有限;而空间插值方法与传统多元统计方法的结合没有提供可靠的定量分析,对于污染的空间变异性也不能很好的解决。又由于企业造成的土壤重金属污染的源头与汇集的机理十分复杂,这使得目前企业污染的防控治理工作变得相当艰难。对此,可以采用双变量空间自相关模型(Moran’s I)来研究土壤重金属污染状况与企业分布之间的空间相关性,能够对企业污染的管控提供有效的指导与帮助。
但是,由于数据孤岛现象的存在,跨部门间的数据合作难度大,部门间难以协作,企业信息的获取难度相当大。因此,可以采用一种基于特定文本挖掘手段的分类方法,通过企业的名称来对污染企业的行业类别进行识别,作为企业分布与污染分布间联系的研究的基础。文本分类在数据挖掘中是很重要的一种方法,其在一定量的已有数据的基础上构造一个分类函数或模型,再在具体的分类体系下将其它未知类别的文本数据通过具体的文本内容指定到预定义的类别中。段炼(段炼.基于随机词汇迭代模型的POI分类检索[J].计算机应用研究,2014,31(10):3024-3027.)采用了随机词汇迭代模型对海量的兴趣点即POI(Point of intrest)数据进行文本分类。Zhang等(Zhang X,Zhao J,Lecun Y.Character-level Convolutional Networks for Text Classification[J].2015:649-657.)使用了字符级的卷积神经网络来进行文本分类。
基于源汇空间变量推理的土壤重金属企业污染源识别方法是通过一种基于特定的文本挖掘手段,主要采用了多项式朴素贝叶斯的方法建立分类模型,并通过分类得到的企业数据与当地的污染数据进行双变量空间自相关分析,对企业分布与污染分布间联系的研究工作起到一个指向性的作用。
发明内容
本发明的目的在于解决现有技术中存在的问题,并提供一种基于源汇空间变量推理的土壤重金属企业污染源识别方法。具体技术方案如下:
基于源汇空间变量推理的土壤重金属企业污染源识别方法,包括以下步骤:
步骤1)数据获取:获取待研究区域的污染企业数据、企业POI数据与土壤重金属污染数据,所述的污染企业数据包含企业名称及其对应的行业分类;所述的企业POI数据包含待研究区域所有企业名称以及经纬度信息;所述的土壤重金属污染数据为待研究区域的土壤调查数据,包含土壤各重金属元素污染指数以及经纬度信息;
步骤2)企业数据预处理:将步骤1)获取到的污染企业数据进行描述性分析,根据分析结果,对数据集的企业行业类别分布进行调整,使企业样本的类别分布平均化;然后,对企业名称进行分词处理,并剔除地方名称的词汇;最后,按比例分离出训练数据集和测试数据集;
步骤3)企业数据分类:将步骤2)处理后的结果,先提取出训练数据集和测试数据集中出现过的所有词或词组的集合,作为语料库;根据这个语料库,统计各个样本的企业名称中出现的词的词频,抽取作为该样本对应的文本特征;并且使用训练集的样本来训练多项式朴素贝叶斯模型得到模型最优参数;并通过测试数据集的评分来评估模型;
步骤4)空间分析:对步骤1)获取的POI企业数据进行分词处理,并剔除地方名称的词汇,将其输入步骤3)中已经训练好的多项式朴素贝叶斯模型,预测数据集中各企业的行业分类,再使用核密度法对不同企业进行空间密度分析;同时,根据待研究区的拓扑形状生成指定大小的规整格网,统计格网内的各行业分类的企业数与土壤各重金属元素污染指数;然后使用双变量空间自相关方法进行空间分析;
步骤5)污染源判别:分析土壤重金属污染与污染企业的空间分布关系,判断待研究区域的点源污染、面源污染分布特征并识别企业污染源。
作为优选,所述的步骤2)中,对数据集的企业行业类别分布进行调整的方法为:根据帕累托原理,将所述的分析结果按照行业类别的频数从高到低排序,选择累计占比超过阈值的前若干个行业类别作为代表性类别,其余行业类别全部归并为一类,使得样本的行业类别分布平均化。
作为优选,所述的步骤2)中,对企业名称进行分词处理时,具体采用的分词引擎是jieba;被剔除的地方名称词汇包含行政区划的乡/镇级别及以上的地名。
作为优选,所述的步骤3)具体步骤如下:
3.1)抽取文本特征:首先,找出训练数据集和测试数据集中的词或n元词组的集合,总共N个词或词组;然后,对这些词或词组从1到N进行编号,将编号后的词作为语料库;接着,对于训练数据集和测试数据集中的任意一个样本,构造一个N维的向量,其中第m个维度的值就表示编号为m的词在该样本中的词频,构造出来的N维向量就是抽取出来的文本特征;
3.2)训练多项式朴素贝叶斯模型:结合训练集数据的文本特征,对文本特征化参数n以及多项式朴素贝叶斯模型的平滑参数α进行调参,即采用基于10折交叉验证的网格搜索方法,而交叉验证的评估指标是分类准确率,最后选择平均分类准确率最高的那个参数作为最优参数;
3.3)确定好模型的最优参数后,通过测试数据集的分类准确率Acc与Kappa系数来评估模型。
作为优选,所述的步骤4)中,根据待研究区的拓扑形状生成指定大小的规整格网的具体做法是:根据待研究区的拓扑形状,计算最小外接矩形所代表的范围,然后从最小外接矩形的某一个顶点开始,按照预设大小规格划分格网,得到格网数据;而统计格网内的各行业分类的企业数与各土壤重金属元素污染指数的具体做法是:分别统计落入各个格网内的各行业分类的企业POI点的个数,其计数值代表该格网区域内的企业聚集程度;同时统计各个格网内每种土壤重金属元素污染指数,若某个格网中存在多个调查点,则对于某种土壤重金属元素,以该格网内所有调查点的该种土壤重金属元素污染指数平均值作为该格网区域内的该种土壤重金属元素污染指数;将格网数据分不同行业类别、不同土壤重金属元素进行双变量空间相关分析,具体分析公式如下:
公式(2)中,代表格网i中经过二值化之后的a属性值,其中a属性为格网内某一种土壤重金属元素污染指数,标准化过程为:土壤重金属元素污染指数小于等于1时,将土壤重金属元素污染指数重定义为0,土壤重金属元素污染指数大于1时,将土壤重金属元素污染指数重定义为1;代表格网i中经过z-score均值标准化之后的b属性值,其中b属性是格网内某一行业类别的企业POI点的个数;wij为空间权重矩阵,表示格网i处的a属性与b属性的局部空间关联指标;若显著为正,则表明格网i处的土壤重金属污染程度与邻近范围内的企业聚集程度具有正的相关性;若显著为负,则表明格网i处的土壤重金属污染程度与邻近范围内的企业聚集程度具有负的相关性;如不显著,则表明格网i处土壤重金属污染程度与邻近范围内的企业聚集程度无明显的关联性;根据得到的各个格网的值,形成相应的空间聚类图。
作为优选,所述的步骤5)中,根据空间聚类图判断土壤重金属污染与污染企业的空间分布关系;若空间聚类图中某一种土壤重金属污染指数属性与某一行业类别的企业POI点的个数属性在某一区域为High-High,则判定该区域该种土壤重金属的污染源可能为该类企业带来的点源污染;若空间聚类图中土壤重金属污染指数属性在某一区域与所有企业POI点的个数属性均为High-Low,则判定该区域该土壤重金属的污染源可能为面源污染。
本发明的有益效果是基于已有的污染企业的分类数据进行建模,后续可以直接根据公开POI企业的名称来识别其类别,同时,根据预测的类别,通过建立格网数据使用双变量空间自相关分析各类企业分布与不同元素土壤重金属污染在空间上的分布关系,从而使得离散的土壤重金属污染点数据与企业点数据能够较为准确的进行空间关系的分析,扩展了原有的分析方法和思路,对企业污染的治理管控工作具有重要的理论、实践意义和推广应用价值。
附图说明
图1是实施例中的,污染企业数据的行业分布图
图2是实施例中的,污染企业类型预测结果空间分布密度(a.纺织业,b.金属制品业,c.化学原料与化学制品制造业,d.其它行业)
图3是实施例中的,研究区土壤重金属Cd元素的污染程度与金属制品业企业聚集程度的空间聚类图
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明的基于源汇空间变量推理的土壤重金属企业污染源识别方法,包括以下步骤:
步骤1)数据获取:获取待研究区域的污染企业数据、企业POI数据与土壤重金属污染数据。污染企业数据应包含企业名称及其对应的行业分类,且该行业分类符合国民经济行业分类标准GB/T4754-2011。企业POI数据应包含待研究区域所有企业名称以及企业所在位置的经纬度信息。土壤重金属污染数据为待研究区域的土壤调查数据,包含调查点位各土壤重金属元素污染指数以及调查点位的经纬度信息,需识别多种重金属的污染源时,需在调查数据中也包含相应重金属元素污染指数。
步骤2)企业数据预处理:将步骤1)获取到的污染企业数据进行描述性分析,得到关于企业所属行业分类的描述性分析结果。由于原始的污染企业数据的行业类别分布是严重不均的,因此只需要提取出少数具有代表性的类别(少数类别样本累计占比80%左右),其余类别全部归并为一类,通过对数据集的企业行业类别分布进行调整从而使得样本的分布尽量平均化。本实施例中的调整方法具体为:将所述的分析结果按照行业类别的频数从高到低排序,选择累计占比超过阈值(可选取80%)的前若干个行业类别作为代表性类别,其余行业类别全部归并为一类。调整完毕后,对企业名称用分词引擎是jieba进行分词处理(该引擎是经过隐马尔科夫链模型训练而来,具备很好的分词效果),并剔除企业名称中包含行政区划的乡/镇级别及以上的地方名称的词汇。最后将上述处理后的企业数据,按照8:2的样本比例分离出训练数据集和测试数据集,每个数据集中包含经过分词、删除处理后的企业名称中所含词汇,以及企业对应的行业类别。
步骤3)企业数据分类:将步骤2)处理后的结果,先提取出训练数据集和测试数据集中出现过的所有词或词组的集合,作为语料库;根据这个语料库,统计各个样本的企业名称中出现的词的词频,抽取作为该样本对应的文本特征;并且使用训练集的样本来训练多项式朴素贝叶斯模型得到模型最优参数;并通过测试数据集的评分来评估模型。其具体做法如下:
3.1)抽取文本特征:首先,找出训练数据集和测试数据集中的词或n元词组的集合,得到总共N个词或词组;然后,对这些词或词组从1到N进行编号,将编号后的词作为语料库;接着,对于训练数据集和测试数据集中的任意一个样本,构造一个N维的向量,其中第m个维度的值就表示编号为m的词在该样本中的词频,构造出来的N维向量就是抽取出来的文本特征;
3.2)训练多项式朴素贝叶斯模型:结合训练集数据的文本特征,对文本特征化参数n以及多项式朴素贝叶斯模型的平滑参数α进行调参,即采用基于10折交叉验证的网格搜索方法,而交叉验证的评估指标是分类准确率,最后选择平均分类准确率最高的那个参数作为最优参数;
对于上述的超参数n与朴素贝叶斯平滑参数α的具体阐述如下:
所谓的特征化参数n,实际上是在分词处理后,扩充语料库的一种方法,假定经过分词处理后,共计m个词,但这个m实际上可能很小,建立的分类模型的效果会很差,而基于这m个,可以按照顺序,取n个词组成一个新词,这样就可以达到扩充语料库的效果。显然,这个N既不能太大,最小为1,且为正整数,所以需要用网格搜索法来进行调整;
所谓的朴素贝叶斯平滑参数α是一种处理新词的手段,朴素贝叶斯建模依赖于一个语料库,即便我们能用超参数N来扩充语料库,但还是不可能考虑到所有的语料的,所以在对新词向量化的时候会损失新词的特征,更容易产生过拟合现象,所以在计算后验概率的时候,需要引入词平滑技术来缓解这种现象,具体公式如下:
公式(1)中,α是平滑参数,n指特征的个数,与语料库中词的个数一致;c指的某个类别,xi指的是第i个特征的取值,i=1,2,3,…,n,P(x1,x2,…,xn|c)是指的在已知某个样本类别为c的前提下,该样本特征取值为x1,x2,…,xn的概率;N指的特征取值为x1,x2,…,xn的样本在整体样本中的个数统计,而Nc指的特征取值为x1,x2,…,xn的样本在类别c中集合的个数统计。
3.3)确定好模型的最优参数后,通过测试数据集的分类准确率Acc与Kappa系数来评估分类模型。
若该模型的各项分类准确率系数都达到了要求,既表明模型已经训练好,可以用于后续预测,通过向模型中输入经过与前述训练数据相同的预处理后的POI企业数据,就可以根据企业名称中的词汇预测各企业的行业分类。
步骤4)空间分析:对步骤1)获取的POI企业数据进行分词处理,并剔除地方名称的词汇,将处理后的数据输入步骤3)中已经训练好的多项式朴素贝叶斯模型中,预测数据集中各企业的行业分类,再使用核密度法对不同企业进行空间密度分析;同时,根据待研究区的拓扑形状生成指定大小的规整格网,具体做法为:根据待研究区的拓扑形状,计算最小外接矩形所代表的范围,然后从最小外接矩形的某一个顶点开始,按照预设大小规格划分格网(大小可根据实际需要进行调整),得到格网数据。统计格网内的各行业分类的企业数与各土壤重金属元素污染指数,统计方法为:分别统计落入各个格网内的各行业分类的企业POI点的个数,其计数值代表该格网区域内的企业聚集程度;同时统计各个格网内每种土壤重金属元素污染指数(有多种的话每种均需统计),若某个格网中只有1个调查点,则直接以该点的数据代表该格网的土壤重金属元素污染指数;若某个格网中存在多个调查点,则对于某种土壤重金属元素,以该格网内所有调查点的该种土壤重金属元素污染指数平均值作为该格网区域内的该种土壤重金属元素污染指数。完成上述统计后,使用双变量空间自相关方法进行空间分析,分析时需将格网数据分不同行业类别、不同土壤重金属元素依次进行双变量空间相关分析,例如A重金属与B行业元素进行分析,A和B具体选择可根据研究需要进行调整。具体分析公式如下:
公式(2)中,代表格网i中经过二值化之后的a属性值,其中a属性为格网内某一种土壤重金属元素污染指数,标准化过程为:土壤重金属元素污染指数小于等于1时即警戒限下为一个级别,将土壤重金属元素污染指数重定义为0,土壤重金属元素污染指数大于1时即轻度、中度和重度污染为另一个级别,将土壤重金属元素污染指数重定义为1;代表格网i中经过z-score均值标准化之后的b属性值,其中b属性是格网内某一行业类别的企业POI点的个数;wij为空间权重矩阵,表示格网i处的a属性与b属性的局部空间关联指标;若显著为正,则表明格网i处的土壤重金属污染程度与邻近范围内的企业聚集程度具有正的相关性;若显著为负,则表明格网i处的土壤重金属污染程度与邻近范围内的企业聚集程度具有负的相关性;如不显著,则表明格网i处土壤重金属污染程度与邻近范围内的企业聚集程度无明显的关联性。根据得到的各个格网的值,既可以形成相应的空间聚类图。
步骤5)污染源判别:根据空间聚类图判断土壤重金属污染与污染企业的空间分布关系,空间聚类图中具有High-High、High-Low、Low-High、Low-Low四种属性。若空间聚类图某一区域为High-High,则表明某一种土壤重金属污染指数属性与某一行业类别的企业POI点的个数属性均较高,即此处该种土壤重金属元素污染程度较重,且该行业的企业也较为集中,由此判定该区域该种土壤重金属的污染源可能为该类企业带来的点源污染;同理,对其他需要进行识别的土壤重金属污染指数属性与其他类型企业POI点的个数属性可逐个进行判别,同一种重金属可能存在多种类型的污染企业,同一类企业也可能产生多种重金属污染。但聚类图中土壤重金属污染指数属性在某一区域与所有企业POI点的个数属性均为High-Low,则表明此处该种土壤重金属元素污染程度较重,但任一行业的企业都不集中,该类土壤重金属并不是有任何一类企业所带来的点源污染,该区域该土壤重金属的污染源可能为面源污染。当然该判别结果并不能作为最终结果,最好需要结合人工实地调查进行甄别。但是该方法能够快速地在大面积的空间范围内进行可能污染源的识别,大大减少人力物力消耗。
下面利用上述方法选取中国东南沿海某区域作为研究区进行展示,具体的主要步骤如前所述,不再重复赘述,仅展示针对该实施例的具体实现细节和实现效果。
实施例:
本实施例中,使用上述方法进行分析,具体步骤如下:
步骤1)数据获取:获取研究区污染企业数据、研究区POI企业数据、研究区行政区划拓扑数据、研究区土壤重金属污染数据;对于研究区污染企业数据,要求其分类符合国民经济行业分类标准GB/T4752-2011;对于研究区土壤重金属污染数据,选取当地的土壤调查数据;对于研究区POI企业数据,需要有经纬度信息,且属于WGS84坐标系;此外,POI数据,是基于百度地图的Web API下载而来;
步骤2)企业数据预处理:将步骤1)获取到的污染企业数据进行描述性分析,如图1所示,发现企业行业分类分布严重不均,为了后续建模的效果,这里需要将类别分布进一定平衡处理,根据结果,只保留金属制品业、化学原料与化学制品制造业、纺织业三个主要类别,其余全部归为一类;做完类均衡处理后,对企业名称进行分词处理,在分词的时候,需要剔除县/市级别以上的地方名称词汇;分词完成后,按照8:2的样本比例分离出测试数据集与训练数据集;
步骤3)企业数据分类:对于步骤2)获取到的两份数据集,首先提取出两个数据集中出现过的所有词的组合,并且根据组成词组的词的个数N(N-gram语言模型),对这些词进行组合,形成语料库;根据这个语料库,统计各个样本中对应词的词频,作为该样本的文本特征;同时,使用训练集的样本来训练朴素贝叶斯模型,在这个过程中,使用基于10折交叉验证的网格搜索法来调整组成词组的词的个数N与朴素贝叶斯平滑参数α,使用10次验证集的平均分类准确率Acc来选择最优参数;确定好模型的参数后,使用测试集上的Acc与Kappa系数k来评价模型,计算出来的Acc为86.3%,Kappa系数k=0.82;
各指标的计算公式如下:
公式(2)中,Acc表示分类准确率,是指的模型预测对的样本,占所有样本的比率,其中n指的是所有样本的个数,nc指的是预测对的样本个数;公式(3)中,k指的是kappa系数,其中的Acc的计算公式就是公式(2),而pe的计算则如公式(4)所示,在公式(4)中,m指的是分类的个数,Ci指的是真实类别为i的样本个数,Pi指的是模型预测类别为i的样本个数,n指所有样本个数。
步骤4)空间分析:根据步骤3)的模型,对步骤1)获取的研究区POI企业数据,做同样的分词、文本特征抽取,然后用朴素贝叶斯模型预测POI企业数据的类型,预测完毕后,将其转换为空间点数据(矢量数据);使用核密度模型,输入不同类别的企业点数据,设定输出的像元大小为1km,搜索距离为10km,得到不同企业的空间分布密度图;根据该省的行政区划拓扑形状生成1km×1km的规整格网,同时把土壤重金属污染数据加载该省网格数据中;在这里选取金属制品业企业与土壤重金属Cd元素的数据作为示例;统计各个格网内的金属制品业企业个数计数与土壤重金属Cd元素污染指数的平均值,将统计值赋值在各个格网单元上;使用改良后双变量莫兰指数方法对该格网数据进行空间自相关分析,选取的空间相邻关系为Queen,对生成的空间聚类图中不同区域的空间关系类型进行污染与企业的空间分布关系的判断,分析点源污染、面源污染空间分布特征;
步骤5)污染源判别:结果如研究区土壤重金属Cd元素的污染程度与金属制品业企业聚集程度的空间聚类图所示,对分析该图进行,分析点源污染、面源污染空间分布特征,若空间聚类图某一区域为High-High,则判定该区域中土壤重金属Cd为由金属制品业企业所带来的点源污染;若空间聚类图某一区域为High-Low,则表明土壤重金属Cd并不是由金属制品业企业所带来的点源污染,若其他的企业类型也呈现相同结果,则判定该区域中此类土壤重金属可能是由畜禽、干湿沉降、化肥施用等原因造成的面源污染。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (6)

1.一种基于源汇空间变量推理的土壤重金属企业污染源识别方法,其特征在于,包括以下步骤:
步骤1)数据获取:获取待研究区域的污染企业数据、企业POI数据与土壤重金属污染数据,所述的污染企业数据包含企业名称及其对应的行业分类;所述的企业POI数据包含待研究区域所有企业名称以及经纬度信息;所述的土壤重金属污染数据为待研究区域的土壤调查数据,包含土壤各重金属元素污染指数以及经纬度信息;
步骤2)企业数据预处理:将步骤1)获取到的污染企业数据进行描述性分析,根据分析结果,对数据集的企业行业类别分布进行调整,使企业样本的类别分布平均化;然后,对企业名称进行分词处理,并剔除地方名称的词汇;最后,按比例分离出训练数据集和测试数据集;
步骤3)企业数据分类:将步骤2)处理后的结果,先提取出训练数据集和测试数据集中出现过的所有词或词组的集合,作为语料库;根据这个语料库,统计各个样本的企业名称中出现的词的词频,抽取作为该样本对应的文本特征;并且使用训练集的样本来训练多项式朴素贝叶斯模型得到模型最优参数;并通过测试数据集的评分来评估模型;
步骤4)空间分析:对步骤1)获取的POI企业数据进行分词处理,并剔除地方名称的词汇,将其输入步骤3)中已经训练好的多项式朴素贝叶斯模型,预测数据集中各企业的行业分类,再使用核密度法对不同企业进行空间密度分析;同时,根据待研究区的拓扑形状生成指定大小的规整格网,统计格网内的各行业分类的企业数与土壤各重金属元素污染指数;然后使用双变量空间自相关方法进行空间分析;
步骤5)污染源判别:分析土壤重金属污染与污染企业的空间分布关系,判断待研究区域的点源污染、面源污染分布特征并识别企业污染源。
2.如权利要求1所述的基于源汇空间变量推理的土壤重金属企业污染源识别方法,其特征在于,所述的步骤2)中,对数据集的企业行业类别分布进行调整的方法为:根据帕累托原理,将所述的分析结果按照行业类别的频数从高到低排序,选择累计占比超过阈值的前若干个行业类别作为代表性类别,其余行业类别全部归并为一类,使得样本的行业类别分布平均化。
3.如权利要求1所述的基于源汇空间变量推理的土壤重金属企业污染源识别方法,其特征在于,所述的步骤2)中,对企业名称进行分词处理时,具体采用的分词引擎是jieba;被剔除的地方名称词汇包含行政区划的乡/镇级别及以上的地名。
4.如权利要求1所述的基于源汇空间变量推理的土壤重金属企业污染源识别方法,其特征在于,所述的步骤3)具体步骤如下:
3.1)抽取文本特征:首先,找出训练数据集和测试数据集中的词或n元词组的集合,总共N个词或词组;然后,对这些词或词组从1到N进行编号,将编号后的词作为语料库;接着,对于训练数据集和测试数据集中的任意一个样本,构造一个N维的向量,其中第m个维度的值就表示编号为m的词在该样本中的词频,构造出来的N维向量就是抽取出来的文本特征;
3.2)训练多项式朴素贝叶斯模型:结合训练集数据的文本特征,对文本特征化参数n以及多项式朴素贝叶斯模型的平滑参数α进行调参,即采用基于10折交叉验证的网格搜索方法,而交叉验证的评估指标是分类准确率,最后选择平均分类准确率最高的那个参数作为最优参数;
3.3)确定好模型的最优参数后,通过测试数据集的分类准确率Acc与Kappa系数来评估模型。
5.如权利要求1所述的基于源汇空间变量推理的土壤重金属企业污染源识别方法,其特征在于,所述的步骤4)中,根据待研究区的拓扑形状生成指定大小的规整格网的具体做法是:根据待研究区的拓扑形状,计算最小外接矩形所代表的范围,然后从最小外接矩形的某一个顶点开始,按照预设大小规格划分格网,得到格网数据;而统计格网内的各行业分类的企业数与各土壤重金属元素污染指数的具体做法是:分别统计落入各个格网内的各行业分类的企业POI点的个数,其计数值代表该格网区域内的企业聚集程度;同时统计各个格网内每种土壤重金属元素污染指数,若某个格网中存在多个调查点,则对于某种土壤重金属元素,以该格网内所有调查点的该种土壤重金属元素污染指数平均值作为该格网区域内的该种土壤重金属元素污染指数;将格网数据分不同行业类别、不同土壤重金属元素进行双变量空间相关分析,具体分析公式如下:
公式(2)中,代表格网i中经过二值化之后的a属性值,其中a属性为格网内某一种土壤重金属元素污染指数,标准化过程为:土壤重金属元素污染指数小于等于1时,将土壤重金属元素污染指数重定义为0,土壤重金属元素污染指数大于1时,将土壤重金属元素污染指数重定义为1;代表格网i中经过z-score均值标准化之后的b属性值,其中b属性是格网内某一行业类别的企业POI点的个数;wij为空间权重矩阵,表示格网i处的a属性与b属性的局部空间关联指标;若显著为正,则表明格网i处的土壤重金属污染程度与邻近范围内的企业聚集程度具有正的相关性;若显著为负,则表明格网i处的土壤重金属污染程度与邻近范围内的企业聚集程度具有负的相关性;如不显著,则表明格网i处土壤重金属污染程度与邻近范围内的企业聚集程度无明显的关联性;根据得到的各个格网的值,形成相应的空间聚类图。
6.如权利要求1所述的基于源汇空间变量推理的土壤重金属企业污染源识别方法,其特征在于,所述的步骤5)中,根据空间聚类图判断土壤重金属污染与污染企业的空间分布关系;若空间聚类图中某一种土壤重金属污染指数属性与某一行业类别的企业POI点的个数属性在某一区域为High-High,则判定该区域该种土壤重金属的污染源可能为该类企业带来的点源污染;若空间聚类图中土壤重金属污染指数属性在某一区域与所有企业POI点的个数属性均为High-Low,则判定该区域该土壤重金属的污染源可能为面源污染。
CN201810239430.7A 2018-03-22 2018-03-22 基于源汇空间变量推理的土壤重金属企业污染源识别方法 Active CN108595414B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810239430.7A CN108595414B (zh) 2018-03-22 2018-03-22 基于源汇空间变量推理的土壤重金属企业污染源识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810239430.7A CN108595414B (zh) 2018-03-22 2018-03-22 基于源汇空间变量推理的土壤重金属企业污染源识别方法

Publications (2)

Publication Number Publication Date
CN108595414A true CN108595414A (zh) 2018-09-28
CN108595414B CN108595414B (zh) 2020-07-10

Family

ID=63626992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810239430.7A Active CN108595414B (zh) 2018-03-22 2018-03-22 基于源汇空间变量推理的土壤重金属企业污染源识别方法

Country Status (1)

Country Link
CN (1) CN108595414B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109785912A (zh) * 2019-02-13 2019-05-21 中国科学院大气物理研究所 一种用于目标污染物源解析的因子快速识别方法及装置
CN110175739A (zh) * 2019-04-12 2019-08-27 广东省生态环境技术研究所 一种重金属工业污染源解析方法、***和存储介质
CN110175647A (zh) * 2019-05-28 2019-08-27 北华航天工业学院 一种基于主成分分析和K-means聚类的污染源识别方法
CN110706004A (zh) * 2019-06-27 2020-01-17 华南农业大学 一种基于层次聚类的农田重金属污染物溯源方法
CN111310803A (zh) * 2020-01-20 2020-06-19 江苏神彩科技股份有限公司 环境数据处理方法和装置
CN112084286A (zh) * 2020-09-14 2020-12-15 智慧足迹数据科技有限公司 空间数据处理方法、装置、计算机设备及存储介质
CN112288247A (zh) * 2020-10-20 2021-01-29 浙江大学 一种基于空间交互关系的土壤重金属风险识别方法
CN112903660A (zh) * 2021-03-11 2021-06-04 广西大学 一种判别流域水体污染现状和污染来源的方法
CN113470765A (zh) * 2021-06-29 2021-10-01 广州市华南自然资源科学技术研究院 一种土壤重金属来源解析方法
CN113902249A (zh) * 2021-09-02 2022-01-07 北京市农林科学院信息技术研究中心 一种土壤重金属影响因素解析方法及装置
CN113918783A (zh) * 2021-09-28 2022-01-11 中国环境科学研究院 识别复合污染风险区的方法和装置
CN114742272A (zh) * 2022-03-10 2022-07-12 浙江大学 一种基于时空交互关系的土壤镉风险预测方法
CN116662853A (zh) * 2023-05-29 2023-08-29 新禾数字科技(无锡)有限公司 一种自动识别出污染来源解析结果的方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138668A (zh) * 2015-09-06 2015-12-09 中山大学 基于poi数据的城市商业中心与零售业态集聚区识别方法
CN105844301A (zh) * 2016-04-05 2016-08-10 北华航天工业学院 基于贝叶斯源识别的土壤中重金属污染源解析方法
CN107657284A (zh) * 2017-10-11 2018-02-02 宁波爱信诺航天信息有限公司 一种基于语义相似性扩展的商品名称分类方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138668A (zh) * 2015-09-06 2015-12-09 中山大学 基于poi数据的城市商业中心与零售业态集聚区识别方法
CN105844301A (zh) * 2016-04-05 2016-08-10 北华航天工业学院 基于贝叶斯源识别的土壤中重金属污染源解析方法
CN107657284A (zh) * 2017-10-11 2018-02-02 宁波爱信诺航天信息有限公司 一种基于语义相似性扩展的商品名称分类方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUNFENGXIE TONG-BINCHEN MEILEI JUNYANG QING-JUNGUO BOSONG XIAO-Y: "《Spatial distribution of soil heavy metal pollution estimated by different interpolation methods: Accuracy and uncertainty analysis》", 《CHEMOSPHERE》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109785912A (zh) * 2019-02-13 2019-05-21 中国科学院大气物理研究所 一种用于目标污染物源解析的因子快速识别方法及装置
CN110175739A (zh) * 2019-04-12 2019-08-27 广东省生态环境技术研究所 一种重金属工业污染源解析方法、***和存储介质
CN110175647A (zh) * 2019-05-28 2019-08-27 北华航天工业学院 一种基于主成分分析和K-means聚类的污染源识别方法
CN110706004B (zh) * 2019-06-27 2022-03-29 华南农业大学 一种基于层次聚类的农田重金属污染物溯源方法
CN110706004A (zh) * 2019-06-27 2020-01-17 华南农业大学 一种基于层次聚类的农田重金属污染物溯源方法
CN111310803A (zh) * 2020-01-20 2020-06-19 江苏神彩科技股份有限公司 环境数据处理方法和装置
CN112084286B (zh) * 2020-09-14 2021-06-29 智慧足迹数据科技有限公司 空间数据处理方法、装置、计算机设备及存储介质
CN112084286A (zh) * 2020-09-14 2020-12-15 智慧足迹数据科技有限公司 空间数据处理方法、装置、计算机设备及存储介质
CN112288247A (zh) * 2020-10-20 2021-01-29 浙江大学 一种基于空间交互关系的土壤重金属风险识别方法
CN112288247B (zh) * 2020-10-20 2024-04-09 浙江大学 一种基于空间交互关系的土壤重金属风险识别方法
CN112903660A (zh) * 2021-03-11 2021-06-04 广西大学 一种判别流域水体污染现状和污染来源的方法
CN113470765A (zh) * 2021-06-29 2021-10-01 广州市华南自然资源科学技术研究院 一种土壤重金属来源解析方法
CN113902249A (zh) * 2021-09-02 2022-01-07 北京市农林科学院信息技术研究中心 一种土壤重金属影响因素解析方法及装置
CN113902249B (zh) * 2021-09-02 2022-07-22 北京市农林科学院信息技术研究中心 一种土壤重金属影响因素解析方法及装置
CN113918783A (zh) * 2021-09-28 2022-01-11 中国环境科学研究院 识别复合污染风险区的方法和装置
CN114742272A (zh) * 2022-03-10 2022-07-12 浙江大学 一种基于时空交互关系的土壤镉风险预测方法
CN116662853A (zh) * 2023-05-29 2023-08-29 新禾数字科技(无锡)有限公司 一种自动识别出污染来源解析结果的方法及***
CN116662853B (zh) * 2023-05-29 2024-04-30 新禾数字科技(无锡)有限公司 一种自动识别出污染来源解析结果的方法及***

Also Published As

Publication number Publication date
CN108595414B (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN108595414A (zh) 基于源汇空间变量推理的土壤重金属企业污染源识别方法
DeFries et al. Multiple criteria for evaluating machine learning algorithms for land cover classification from satellite data
Wan et al. A knowledge-based decision support system to analyze the debris-flow problems at Chen-Yu-Lan River, Taiwan
Chen et al. A method for mineral prospectivity mapping integrating C4. 5 decision tree, weights-of-evidence and m-branch smoothing techniques: a case study in the eastern Kunlun Mountains, China
CN111126865B (zh) 一种基于科技大数据的技术成熟度判断方法和***
CN114330812A (zh) 基于机器学习的滑坡灾害风险评估方法
Sumathi et al. Data mining: analysis of student database using classification techniques
A. Rashid et al. Association rule mining using time series data for Malaysia climate variability prediction
Sharma et al. Forecasting and prediction of air pollutants concentrates using machine learning techniques: the case of India
CN117114105B (zh) 基于科研大数据信息的目标对象推荐方法和***
Kosztyán et al. Generalized network-based dimensionality analysis
Hussain Machine learning of the reverse migration models for population prediction: a review
Arifin et al. Comparative analysis on educational data mining algorithm to predict academic performance
Gunawan et al. C4. 5, K-Nearest Neighbor, Naïve Bayes, and Random Forest Algorithms Comparison to Predict Students' on TIME Graduation
Ni et al. The analysis and research of clustering algorithm based on PCA
Yang et al. Research on landslide susceptibility prediction model based on LSTM-RF-MDBN
CN114707033A (zh) 基于三维视域专利地图和深度学习的量子行业分析方法
Dai et al. Landslide risk classification based on ensemble machine learning
Riahi-Madvar et al. Pre-processing and Input Vector Selection Techniques in Computational Soft Computing Models of Water Engineering
Chaudhari et al. Data mining with meteorological data
Ompusunggu et al. Implementation of Data Mining To Predict the Value of Indonesian Oil and Non-Oil and Gas Import Exports Using the Linear Regression Method
CN112506930A (zh) 一种基于机器学***台
Rachmawanto et al. Visitor Prediction Decision Support System at Dieng Tourism Objects Using the K-Nearest Neighbor Method
Stutz et al. Computationally intensive multivariate statistics and relative frequency distributions in archaeology (with an application to the Early Epipaleolithic of the Levant)
CN117952658B (zh) 基于大数据的城市资源配置和产业特色分析方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant