CN110838344A - 一种水质数据分析方法 - Google Patents
一种水质数据分析方法 Download PDFInfo
- Publication number
- CN110838344A CN110838344A CN201911088806.XA CN201911088806A CN110838344A CN 110838344 A CN110838344 A CN 110838344A CN 201911088806 A CN201911088806 A CN 201911088806A CN 110838344 A CN110838344 A CN 110838344A
- Authority
- CN
- China
- Prior art keywords
- water quality
- quality data
- item
- items
- analysis method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A20/00—Water conservation; Efficient water supply; Efficient water use
- Y02A20/152—Water filtration
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Artificial Intelligence (AREA)
- Pure & Applied Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及水质分析技术领域,尤其涉及一种水质数据分析方法。一种水质数据分析方法,包括:S1、对水质数据的变量进行离散,以得到离散后的区间值即为项;S2、通过关联规则挖掘方法获取已发生的项之间的关联;S3、将不发生的项之间的关联转化为计算所述不发生的项的支持度;当任意项i在项集X中不发生的时候表示为X_i,则所述X_i的支持度为s(X_i)=s(X\i)‑s(X),其中,s(X\i)表示移除项i后的新项集的支持度,s(X)表示项集X的支持度;S4、根据所述不发生的项的支持度,以确定需要分析的所述水质数据的浓度值区间。本发明针对连续变量,采取离散化处理,并且能够挖掘在先导中某个区间值不发生时,其他区间值的变化,本发明的水质数据分析方法的分析结果准确。
Description
技术领域
本发明涉及水质分析技术领域,尤其涉及一种水质数据分析方法。
背景技术
水质分析又称水化学分析,即用化学和物理方法测定水中各种化学成分的含量。水质数据的变量之间的相关度获取是否准确,对水质的分析起着至关重要的作用。
在一个大数据集中,如何有效地辨识变量之间的潜在关系越来越具有挑战性和重要性。例如在对世界健康组织的数据进行分析时,判断人的健康系数与什么变量的关系最紧密,是饮食习惯、睡眠规律还是其他因素?在互联网信息推荐时,如何根据一些用户的浏览记录、关注内容判断另一些用户感兴趣的信息?市场分析时,如何根据以往市场分析报告找出市场波动的影响因素,从而根据这些因素的现状预测下一阶段的市场动态?变量之间的相关度获取是否准确至关重要。关联规则(Association Rule,AR)就是描述数据库中数据项目之间所存在的潜在关系。一个关联规则是形如(support,简记为s,confidence,简记为c)的蕴涵式,例如:关联规则“(support=10%,confidence=80%)说明在所有的顾客事务中,有10%的顾客同时购买了牛奶和面包,其支持度support=10%,而购买了牛奶的顾客中有80%的顾客也购买了面包,其置信度confidence=80%”,这就是有名的支持度-置信度框架。如果它的支持度和置信度满足用户给定的最小支持度(Minimum support,简记为ms)和最小支持度(Minimum confidence,简记为mc)阈值,即满足和置信度则是一条强关联规则。其中X和Y分别称之为先导和后继,目前规则中处理的变量的类别都是离散的变量之间的关系。
关联规则挖掘实质上就是在满足给定的最小支持度的频繁项集中,找出所有满足最小置信度的关联规则,具体分为两步:1)找出所有的频繁项集;2)用频繁项集产生关联规则。挖掘关联规则的主流算法Apriori算法,用于挖掘事务数据库中项集之间的关联规则问题。
Apriori算法的基本思想是重复扫描数据库,在第K次扫描产生出长度为K的频繁项集,称为Lk,而在第K+1次扫描时,只考虑由Lk中的k项集连接产生的长度为K+1的侯选项集Ck+1。因此除了第1次扫描以外,以后每一次扫描要考虑的并不是所有项目的组合,而只是其中的一部分,即侯选项集Ck。围绕着怎样精简侯选项集Ck的大小(特别是C2的选择会大大影响采掘的性能)和减少对数据库的扫描次数,后来诸多的研究人员对此挖掘问题进行了大量的研究,对其进行改进以提高算法挖掘规则的效率。
虽然目前关联规则的研究在效率上已取得了非常大的突破,但缺少在连续变量上进行的研究。其中有两个问题亟待解决。首先,如何针对特定问题对连续变量进行分割离散化;其次,针对分割之后的连续变量的某个区间值若不发生,那么对其他区间值会产生什么样的影响,而不是仅仅局限于这些已经发生的事件。
现有技术中的水质分析方法在对水质的处理上,应用在海的水质中,还用于在湖泊等等,但是所做的水质变量的相关性都是单纯的相关性度量,所采用的方法存在以下缺陷:采用的方法都是线性相关,导致了非线性关系的遗漏;没有对变量的不同区间值的关系的关联进行分析,因此导致水质分析具有局限性,分析结果不准确。
发明内容
有鉴于此,本发明提供了一种水质数据分析方法,用于解决现有技术中的采用的方法都是线性相关,导致了非线性关系的遗漏;没有对变量的不同区间值的关系的关联进行分析,因此导致水质分析具有局限性,分析结果不准确的问题。
为了解决上述技术问题,本发明是这样实现的:
一种水质数据分析方法,包括如下步骤:
S1、对水质数据的变量进行离散,以得到离散后的区间值即为项;
S2、通过关联规则挖掘方法获取已发生的项之间的关联;
S3、将不发生的项之间的关联转化为计算所述不发生的项的支持度;当任意项i在项集X中不发生的时候表示为X_i,则所述X_i的支持度为s(X_i)=s(X\i)-s(X),其中,s(X\i)表示移除项i后的新项集的支持度,s(X)表示项集X的支持度;
S4、根据所述不发生的项的支持度,以确定需要分析的所述水质数据的浓度值区间。
进一步的,采取等宽离散方法对所述水质数据的变量进行离散。
进一步的,所述项集X中的项的个数大于或等于两个。
进一步的,所述水质数据的变量为连续变量或非连续变量。
进一步的,根据所述已发生的项之间的关联和不发生的项之间的关联,以分析所述水质数据中的化学指标与水生微生物之间的关联关系。
有益效果:
(1)、本发明通过关联规则挖掘方法获取已发生的项之间的关联,以及将不发生的项之间的关联转化为计算不发生的项的支持度,本发明针对水质数据的连续变量,采取离散化处理,并且能够挖掘在先导中某个区间值不发生时,其他区间值的变化,而且本发明可以挖掘数据变量中潜在的不发生的关联关系,本发明的水质数据分析方法的分析结果准确。
(2)、在一实施例中,所述水质数据的变量既可以是连续变量,也可以是非连续变量,应用范围较广。
(3)、在一实施例中,本发明利用水质数据分析方法帮助发现了水质中各种化学指标与水生微生物之间的关系,以利于对水质做进一步的处理。
附图说明
图1为本发明的一种水质数据分析方法的工作流程图。
图2为本发明的图1中一种水质数据分析方法的增加步骤S0的工作流程图。
图3为本发明的图1中一种水质数据分析方法的增加步骤S5的工作流程图。
图4为本发明的一种水质数据分析方法的不发生项间的关联示意图。(a)为项集中的项均发生时的示意图,(b)为项集中的项i1不发生时的示意图,(c)为项集中的项i2不发生时的示意图,(d)为项集中的项i3不发生时的示意图。
图5为本发明的一种水质数据分析方法的各个发生项与不发生项的集合表示示意图。(a)为项集中的项i1不发生时的集合表示示意图,(b)为项集中的项i2不发生时的集合表示示意图,(c)为项集中的项i3不发生时的集合表示示意图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
请参阅图1,图1为本发明的一种水质数据分析方法的工作流程图。本发明提供一种水质数据分析方法,包括如下步骤:
S1、对水质数据的变量进行离散,以得到离散后的区间值即为项。
具体的,所述变量为连续变量或非连续变量,采取等宽离散方法对所述变量进行离散。
由于水质数据的绝大部分值是浓度,为连续变量,所以需要对水质数据的连续变量进行离散化,然后再做的处理。
S2、通过关联规则挖掘方法获取已发生的项之间的关联。
首先,针对水质数据的变量离散化问题,为了普适性,我们在这里采取等宽离散的方法。将连续变量离散化之后,离散的区间值便可视作项。在发生的项之间的关联可以通过关联规则挖掘方法获取。
S3、将不发生的项之间的关联转化为计算所述不发生的项的支持度;当任意项i在项集X中不发生的时候表示为X_i,则所述X_i的支持度为s(X_i)=s(X\i)-s(X),其中,s(X\i)表示移除项i后的新项集的支持度,s(X)表示项集X的支持度。
S4、根据所述不发生的项的支持度,以确定需要分析的所述水质数据的浓度值区间。具体的,所述不发生的项的支持度决定水质数据中的哪些浓度值区间需要保留下来,为进一步的水质分析做准备。所述不发生的项的支持度类似设定阈值概念,对水质数据中的所有的浓度区间值进行筛选,过滤掉达不到阈值的浓度区间。
例如,所述水质数据的变量为:藻类和生化变量,所述藻类包括但不限于蓝藻(cyanobacteria)、绿藻门(chlorophyta)、浮游硅藻(bacillariophyta)、隐藻门(cryptophyta)。所述生化变量包括但不限于:pH值、气温(temperature)、氨(ammonia)、氮(nitrogen)、硝酸盐氮(nitrate nitrogen)、亚硝态氮(nitrite nitrogen)、可溶性磷酸(soluble phosphate)、可溶性直磷酸酯(soluble orthophosphate)、无机磷(inorganicphosphorus)。
具体的,请参阅图2,图2为本发明的图1中一种水质数据分析方法的增加步骤S0的工作流程图。所述水质数据分析方法还包括步骤S0,所述步骤S0为获取所述水质数据的变量,所述水质数据的变量为连续变量或非连续变量。
请参阅图4、图5,图4为本发明的一种水质数据分析方法的不发生项间的关联示意图。(a)为项集中的项均发生时的示意图,(b)为项集中的项i1不发生时的示意图,(c)为项集中的项i2不发生时的示意图,(d)为项集中的项i3不发生时的示意图。图5为本发明的一种水质数据分析方法的各个发生项与不发生项的集合表示示意图。(a)为项集中的项i1不发生时的集合表示示意图,(b)为项集中的项i2不发生时的集合表示示意图,(c)为项集中的项i3不发生时的集合表示示意图。
假设项i1,i2和i3是先导内三个不同的项,项i4表示后继。从图4(a)中可以看出,若先导中区间值i1,i2和i3都发生的话,那么后继中的项i4也发生。图4(b)、图4(c)、图4(d)中的空白分别表示i1,i2和i3不发生时,对后继结果如何影响。算图4(b)、图4(c)、图4(d)中某个项不发生时,对后继的影响的问题,可以转化为如何表示和计算这些不发生的项的支持度。采用集合论的思想来解决不发生项表示与计算的问题。
当采用传统的关联规则挖掘方法得到所有的发生项之间的关联之后,对规则中先导内项个数大于等于2的采用集合论的方法对不发生区间进行计算支持度计算。表1为挖掘连续变量发生区间与不发生区间关联的方法的伪代码。
表1:
其中,对于一个项集X包含了一个不发生的项i,X\i表示移除项i后的新项集。当项i在项集中不发生的时候表示为X_i。那么s(X_i)=s(X\i)-s(X)。L和AR为传统关联规则挖掘出来的频繁项集和关联规则。NAR(Non-occurring Association Rule,不发生关联规则)表示先导中存在不发生项的关联规则。当得到AR和NAR都获得之后,便可进行对比分析,不发生的项对发生项的影响变化。
本发明提出了对水质数据的变量离散化以适应关联规则挖掘,可以处理连续变量和非连续变量,可以挖掘数据变量中潜在的不发生的关联关系。
具体的,所述连续变量和非连续变量可以但不限于来自监测站中的水质数据。
请参阅图3,图3为本发明的图1中一种水质数据分析方法的增加步骤S5的工作流程图。所述水质数据分析方法还包括步骤S5,所述步骤S5为根据所述已发生的项之间的关联和不发生的项之间的关联,以分析所述水质数据中的化学指标与水生微生物之间的关联关系。
本步骤S5具体为:直接通过关联规则挖掘方法获取已发生的项之间化学指标与水生微生物之间的关联关系,以及找出所有的满足不发生的项的支持度的浓度值区间之后,浓度值区间中的微生物与水质生化指标之间的关联是一个循环判断的过程,每一个所述浓度值区间的微生物与水质浓度值区间会进行置信度的计算,达到置信度的浓度值区间之间称为具有关联的关系。
本发明的水质数据分析方法应用于海洋湖泊研究中心监测数据。其中数据是监测站收集用于分析的数据,通过所述水质数据分析方法帮助发现了水质中各种化学指标与水生微生物之间的关系。
本发明的水质数据分析方法可以但不限于布置于大数据平台上,可以通过上网访问服务器调用所述水质数据分析方法来进行实现。
综上所述,本发明的水质数据分析方法通过关联规则挖掘方法获取已发生的项之间的关联,以及将不发生的项之间的关联转化为计算不发生的项的支持度,本发明针对连续变量,采取离散化处理,并且能够挖掘在先导中某个区间值不发生时,其他区间值的变化,而且本发明可以挖掘数据变量中潜在的不发生的关联关系,本发明的水质数据分析方法的分析结果准确。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种水质数据分析方法,其特征在于,包括如下步骤:
S1、对水质数据的变量进行离散,以得到离散后的区间值即为项;
S2、通过关联规则挖掘方法获取已发生的项之间的关联;
S3、将不发生的项之间的关联转化为计算所述不发生的项的支持度;当任意项i在项集X中不发生的时候表示为X_i,则所述X_i的支持度为s(X_i)=s(X\i)-s(X),其中,s(X\i)表示移除项i后的新项集的支持度,s(X)表示项集X的支持度;
S4、根据所述不发生的项的支持度,以确定需要分析的所述水质数据的浓度值区间。
2.如权利要求1所述的一种水质数据分析方法,其特征在于,采取等宽离散方法对所述水质数据的变量进行离散。
3.如权利要求1所述的一种水质数据分析方法,其特征在于,所述项集X中的项的个数大于或等于两个。
4.如权利要求1所述的一种水质数据分析方法,其特征在于,所述水质数据的变量为连续变量或非连续变量。
5.如权利要求4所述的一种水质数据分析方法,其特征在于,根据所述已发生的项之间的关联和不发生的项之间的关联,以分析所述水质数据中的化学指标与水生微生物之间的关联关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911088806.XA CN110838344B (zh) | 2019-11-08 | 2019-11-08 | 一种水质数据分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911088806.XA CN110838344B (zh) | 2019-11-08 | 2019-11-08 | 一种水质数据分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110838344A true CN110838344A (zh) | 2020-02-25 |
CN110838344B CN110838344B (zh) | 2023-04-07 |
Family
ID=69574732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911088806.XA Active CN110838344B (zh) | 2019-11-08 | 2019-11-08 | 一种水质数据分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110838344B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544540A (zh) * | 2013-11-12 | 2014-01-29 | 柳州市宏亿科技有限公司 | 一种智能的城市库区水源水质综合预测方法 |
CN103942457A (zh) * | 2014-05-09 | 2014-07-23 | 浙江师范大学 | 基于关联向量机回归的水质参数时间序列预测方法 |
CN104460577A (zh) * | 2014-07-24 | 2015-03-25 | 上海市城市排水有限公司 | 一种水质安全预警决策*** |
CN107704610A (zh) * | 2017-10-18 | 2018-02-16 | 国网上海市电力公司 | 一种配电网运行数据事件关联分析***及分析方法 |
-
2019
- 2019-11-08 CN CN201911088806.XA patent/CN110838344B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544540A (zh) * | 2013-11-12 | 2014-01-29 | 柳州市宏亿科技有限公司 | 一种智能的城市库区水源水质综合预测方法 |
CN103942457A (zh) * | 2014-05-09 | 2014-07-23 | 浙江师范大学 | 基于关联向量机回归的水质参数时间序列预测方法 |
CN104460577A (zh) * | 2014-07-24 | 2015-03-25 | 上海市城市排水有限公司 | 一种水质安全预警决策*** |
CN107704610A (zh) * | 2017-10-18 | 2018-02-16 | 国网上海市电力公司 | 一种配电网运行数据事件关联分析***及分析方法 |
Non-Patent Citations (2)
Title |
---|
XIANGJUN DU 等: "A novel marine big data analysis framework based on complex network theory", 《2015 IEEE 16TH INTERNATIONAL CONFERENCE ON COMMUNICATION TECHNOLOGY (ICCT)》 * |
张卫国 等: "基于支持度-置信度框架的负关联规则研究", 《微电子学与计算机》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110838344B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Thorson | Guidance for decisions using the Vector Autoregressive Spatio-Temporal (VAST) package in stock, ecosystem, habitat and climate assessments | |
Grossman et al. | Species richness and traits predict overyielding in stem growth in an early‐successional tree diversity experiment | |
Peters et al. | Structuring scientific activities by co-author analysis: An expercise on a university faculty level | |
Birks | Challenges in the presentation and analysis of plant-macrofossil stratigraphical data | |
Weber et al. | Community-level physiological profiling | |
Molekoa et al. | Hydrogeochemical assessment of groundwater quality of Mokopane area, Limpopo, South Africa using statistical approach | |
Watanabe et al. | The utility of cranial ontogeny for phylogenetic inference: a case study in crocodylians using geometric morphometrics | |
Roopnarine | Analysis of rates of morphologic evolution | |
Chun et al. | Partitioning the regional and local drivers of phylogenetic and functional diversity along temperate elevational gradients on an East Asian peninsula | |
Schaefer et al. | Oribatid mites show that soil food web complexity and close aboveground-belowground linkages emerged in the early Paleozoic | |
Stadnitski | Some critical aspects of fractality research | |
Smith | Estimating the reliability of diet overlap measures | |
Chetverikov | Unique features and intensity of COVID-19 spread in large economies | |
Navarro et al. | First approach to the growth and age corroboration of Northeast Atlantic chub mackerel (Scomber colias) in Northern Iberian waters | |
Freeman et al. | Nutrient criteria for lakes, ponds, and reservoirs: a Bayesian TREED model approach | |
Juma et al. | Comparison of morphological and genetic characteristics of avocados grown in Tanzania | |
Xia et al. | Alpha diversity | |
Ketterings et al. | Conversion of modified Morgan and Mehlich-III soil tests to Morgan soil test values | |
CN110838344B (zh) | 一种水质数据分析方法 | |
Reinstaller et al. | Using PageRank in the analysis of technological progress through patents: an illustration for biotechnological inventions | |
Liang et al. | A study on quality control using delta data with machine learning technique | |
Birks | Introduction and overview of part II | |
Head et al. | Methods for estimating peak physiological performance and correlating performance measures | |
Zhang et al. | An Approach to Estimate Individual Tree Ages Based on Time Series Diameter Data—A Test Case for Three Subtropical Tree Species in China | |
Escudé et al. | Why all vole molars (Arvicolinae, Rodentia) are informative to be considered as proxy for Quaternary paleoenvironmental reconstructions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |