CN110838344A

CN110838344A - 一种水质数据分析方法

Info

Publication number: CN110838344A
Application number: CN201911088806.XA
Authority: CN
Inventors: 王树良; 耿晶; 刘传鲁
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2020-02-25
Anticipated expiration: 2039-11-08
Also published as: CN110838344B

Abstract

本发明涉及水质分析技术领域，尤其涉及一种水质数据分析方法。一种水质数据分析方法，包括：S1、对水质数据的变量进行离散，以得到离散后的区间值即为项；S2、通过关联规则挖掘方法获取已发生的项之间的关联；S3、将不发生的项之间的关联转化为计算所述不发生的项的支持度；当任意项i在项集X中不发生的时候表示为X_i，则所述X_i的支持度为s(X_i)＝s(X\i)‑s(X)，其中，s(X\i)表示移除项i后的新项集的支持度，s(X)表示项集X的支持度；S4、根据所述不发生的项的支持度，以确定需要分析的所述水质数据的浓度值区间。本发明针对连续变量，采取离散化处理，并且能够挖掘在先导中某个区间值不发生时，其他区间值的变化，本发明的水质数据分析方法的分析结果准确。

Description

一种水质数据分析方法

技术领域

本发明涉及水质分析技术领域，尤其涉及一种水质数据分析方法。

背景技术

水质分析又称水化学分析，即用化学和物理方法测定水中各种化学成分的含量。水质数据的变量之间的相关度获取是否准确，对水质的分析起着至关重要的作用。

在一个大数据集中，如何有效地辨识变量之间的潜在关系越来越具有挑战性和重要性。例如在对世界健康组织的数据进行分析时，判断人的健康系数与什么变量的关系最紧密，是饮食习惯、睡眠规律还是其他因素？在互联网信息推荐时，如何根据一些用户的浏览记录、关注内容判断另一些用户感兴趣的信息？市场分析时，如何根据以往市场分析报告找出市场波动的影响因素，从而根据这些因素的现状预测下一阶段的市场动态？变量之间的相关度获取是否准确至关重要。关联规则(Association Rule，AR)就是描述数据库中数据项目之间所存在的潜在关系。一个关联规则是形如

(support，简记为s，confidence，简记为c)的蕴涵式，例如：关联规则“

(support＝10％，confidence＝80％)说明在所有的顾客事务中，有10％的顾客同时购买了牛奶和面包，其支持度support＝10％，而购买了牛奶的顾客中有80％的顾客也购买了面包，其置信度confidence＝80％”，这就是有名的支持度－置信度框架。如果它的支持度

和置信度

满足用户给定的最小支持度(Minimum support，简记为ms)和最小支持度(Minimum confidence，简记为mc)阈值，即满足

和置信度

则

是一条强关联规则。其中X和Y分别称之为先导和后继，目前规则中处理的变量的类别都是离散的变量之间的关系。

关联规则挖掘实质上就是在满足给定的最小支持度的频繁项集中，找出所有满足最小置信度的关联规则，具体分为两步：1)找出所有的频繁项集；2)用频繁项集产生关联规则。挖掘关联规则的主流算法Apriori算法，用于挖掘事务数据库中项集之间的关联规则问题。

Apriori算法的基本思想是重复扫描数据库，在第K次扫描产生出长度为K的频繁项集，称为L_k，而在第K+1次扫描时，只考虑由L_k中的k项集连接产生的长度为K+1的侯选项集C_k+1。因此除了第1次扫描以外，以后每一次扫描要考虑的并不是所有项目的组合，而只是其中的一部分，即侯选项集C_k。围绕着怎样精简侯选项集C_k的大小(特别是C₂的选择会大大影响采掘的性能)和减少对数据库的扫描次数，后来诸多的研究人员对此挖掘问题进行了大量的研究，对其进行改进以提高算法挖掘规则的效率。

虽然目前关联规则的研究在效率上已取得了非常大的突破，但缺少在连续变量上进行的研究。其中有两个问题亟待解决。首先，如何针对特定问题对连续变量进行分割离散化；其次，针对分割之后的连续变量的某个区间值若不发生，那么对其他区间值会产生什么样的影响，而不是仅仅局限于这些已经发生的事件。

现有技术中的水质分析方法在对水质的处理上，应用在海的水质中，还用于在湖泊等等，但是所做的水质变量的相关性都是单纯的相关性度量，所采用的方法存在以下缺陷：采用的方法都是线性相关，导致了非线性关系的遗漏；没有对变量的不同区间值的关系的关联进行分析，因此导致水质分析具有局限性，分析结果不准确。

发明内容

有鉴于此，本发明提供了一种水质数据分析方法，用于解决现有技术中的采用的方法都是线性相关，导致了非线性关系的遗漏；没有对变量的不同区间值的关系的关联进行分析，因此导致水质分析具有局限性，分析结果不准确的问题。

为了解决上述技术问题，本发明是这样实现的：

一种水质数据分析方法，包括如下步骤：

S1、对水质数据的变量进行离散，以得到离散后的区间值即为项；

S2、通过关联规则挖掘方法获取已发生的项之间的关联；

S3、将不发生的项之间的关联转化为计算所述不发生的项的支持度；当任意项i在项集X中不发生的时候表示为X_i，则所述X_i的支持度为s(X_i)＝s(X\i)-s(X)，其中，s(X\i)表示移除项i后的新项集的支持度，s(X)表示项集X的支持度；

S4、根据所述不发生的项的支持度，以确定需要分析的所述水质数据的浓度值区间。

进一步的，采取等宽离散方法对所述水质数据的变量进行离散。

进一步的，所述项集X中的项的个数大于或等于两个。

进一步的，所述水质数据的变量为连续变量或非连续变量。

进一步的，根据所述已发生的项之间的关联和不发生的项之间的关联，以分析所述水质数据中的化学指标与水生微生物之间的关联关系。

有益效果：

(1)、本发明通过关联规则挖掘方法获取已发生的项之间的关联，以及将不发生的项之间的关联转化为计算不发生的项的支持度，本发明针对水质数据的连续变量，采取离散化处理，并且能够挖掘在先导中某个区间值不发生时，其他区间值的变化，而且本发明可以挖掘数据变量中潜在的不发生的关联关系，本发明的水质数据分析方法的分析结果准确。

(2)、在一实施例中，所述水质数据的变量既可以是连续变量，也可以是非连续变量，应用范围较广。

(3)、在一实施例中，本发明利用水质数据分析方法帮助发现了水质中各种化学指标与水生微生物之间的关系，以利于对水质做进一步的处理。

附图说明

图1为本发明的一种水质数据分析方法的工作流程图。

图2为本发明的图1中一种水质数据分析方法的增加步骤S0的工作流程图。

图3为本发明的图1中一种水质数据分析方法的增加步骤S5的工作流程图。

图4为本发明的一种水质数据分析方法的不发生项间的关联示意图。(a)为项集中的项均发生时的示意图，(b)为项集中的项i₁不发生时的示意图，(c)为项集中的项i₂不发生时的示意图，(d)为项集中的项i₃不发生时的示意图。

图5为本发明的一种水质数据分析方法的各个发生项与不发生项的集合表示示意图。(a)为项集中的项i₁不发生时的集合表示示意图，(b)为项集中的项i₂不发生时的集合表示示意图，(c)为项集中的项i₃不发生时的集合表示示意图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

请参阅图1，图1为本发明的一种水质数据分析方法的工作流程图。本发明提供一种水质数据分析方法，包括如下步骤：

S1、对水质数据的变量进行离散，以得到离散后的区间值即为项。

具体的，所述变量为连续变量或非连续变量，采取等宽离散方法对所述变量进行离散。

由于水质数据的绝大部分值是浓度，为连续变量，所以需要对水质数据的连续变量进行离散化，然后再做的处理。

S2、通过关联规则挖掘方法获取已发生的项之间的关联。

首先，针对水质数据的变量离散化问题，为了普适性，我们在这里采取等宽离散的方法。将连续变量离散化之后，离散的区间值便可视作项。在发生的项之间的关联可以通过关联规则挖掘方法获取。

S3、将不发生的项之间的关联转化为计算所述不发生的项的支持度；当任意项i在项集X中不发生的时候表示为X_i，则所述X_i的支持度为s(X_i)＝s(X\i)-s(X)，其中，s(X\i)表示移除项i后的新项集的支持度，s(X)表示项集X的支持度。

S4、根据所述不发生的项的支持度，以确定需要分析的所述水质数据的浓度值区间。具体的，所述不发生的项的支持度决定水质数据中的哪些浓度值区间需要保留下来，为进一步的水质分析做准备。所述不发生的项的支持度类似设定阈值概念，对水质数据中的所有的浓度区间值进行筛选，过滤掉达不到阈值的浓度区间。

例如，所述水质数据的变量为：藻类和生化变量，所述藻类包括但不限于蓝藻(cyanobacteria)、绿藻门(chlorophyta)、浮游硅藻(bacillariophyta)、隐藻门(cryptophyta)。所述生化变量包括但不限于：pH值、气温(temperature)、氨(ammonia)、氮(nitrogen)、硝酸盐氮(nitrate nitrogen)、亚硝态氮(nitrite nitrogen)、可溶性磷酸(soluble phosphate)、可溶性直磷酸酯(soluble orthophosphate)、无机磷(inorganicphosphorus)。

具体的，请参阅图2，图2为本发明的图1中一种水质数据分析方法的增加步骤S0的工作流程图。所述水质数据分析方法还包括步骤S0，所述步骤S0为获取所述水质数据的变量，所述水质数据的变量为连续变量或非连续变量。

请参阅图4、图5，图4为本发明的一种水质数据分析方法的不发生项间的关联示意图。(a)为项集中的项均发生时的示意图，(b)为项集中的项i₁不发生时的示意图，(c)为项集中的项i₂不发生时的示意图，(d)为项集中的项i₃不发生时的示意图。图5为本发明的一种水质数据分析方法的各个发生项与不发生项的集合表示示意图。(a)为项集中的项i₁不发生时的集合表示示意图，(b)为项集中的项i₂不发生时的集合表示示意图，(c)为项集中的项i₃不发生时的集合表示示意图。

假设项i₁，i₂和i₃是先导内三个不同的项，项i₄表示后继。从图4(a)中可以看出，若先导中区间值i₁，i₂和i₃都发生的话，那么后继中的项i₄也发生。图4(b)、图4(c)、图4(d)中的空白分别表示i₁，i₂和i₃不发生时，对后继结果如何影响。算图4(b)、图4(c)、图4(d)中某个项不发生时，对后继的影响的问题，可以转化为如何表示和计算这些不发生的项的支持度。采用集合论的思想来解决不发生项表示与计算的问题。

请参阅图5，不发生的项i₁的支持度为：

不发生的项i₂的支持度为：

不发生的区间i₃的支持度为：

这里不发生的项i被表示为

i。

当采用传统的关联规则挖掘方法得到所有的发生项之间的关联之后，对规则中先导内项个数大于等于2的采用集合论的方法对不发生区间进行计算支持度计算。表1为挖掘连续变量发生区间与不发生区间关联的方法的伪代码。

表1：

其中，对于一个项集X包含了一个不发生的项i，X\i表示移除项i后的新项集。当项i在项集中不发生的时候表示为X_i。那么s(X_i)＝s(X\i)-s(X)。L和AR为传统关联规则挖掘出来的频繁项集和关联规则。NAR(Non-occurring Association Rule，不发生关联规则)表示先导中存在不发生项的关联规则。当得到AR和NAR都获得之后，便可进行对比分析，不发生的项对发生项的影响变化。

本发明提出了对水质数据的变量离散化以适应关联规则挖掘，可以处理连续变量和非连续变量，可以挖掘数据变量中潜在的不发生的关联关系。

具体的，所述连续变量和非连续变量可以但不限于来自监测站中的水质数据。

请参阅图3，图3为本发明的图1中一种水质数据分析方法的增加步骤S5的工作流程图。所述水质数据分析方法还包括步骤S5，所述步骤S5为根据所述已发生的项之间的关联和不发生的项之间的关联，以分析所述水质数据中的化学指标与水生微生物之间的关联关系。

本步骤S5具体为：直接通过关联规则挖掘方法获取已发生的项之间化学指标与水生微生物之间的关联关系，以及找出所有的满足不发生的项的支持度的浓度值区间之后，浓度值区间中的微生物与水质生化指标之间的关联是一个循环判断的过程，每一个所述浓度值区间的微生物与水质浓度值区间会进行置信度的计算，达到置信度的浓度值区间之间称为具有关联的关系。

本发明的水质数据分析方法应用于海洋湖泊研究中心监测数据。其中数据是监测站收集用于分析的数据，通过所述水质数据分析方法帮助发现了水质中各种化学指标与水生微生物之间的关系。

本发明的水质数据分析方法可以但不限于布置于大数据平台上，可以通过上网访问服务器调用所述水质数据分析方法来进行实现。

综上所述，本发明的水质数据分析方法通过关联规则挖掘方法获取已发生的项之间的关联，以及将不发生的项之间的关联转化为计算不发生的项的支持度，本发明针对连续变量，采取离散化处理，并且能够挖掘在先导中某个区间值不发生时，其他区间值的变化，而且本发明可以挖掘数据变量中潜在的不发生的关联关系，本发明的水质数据分析方法的分析结果准确。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种水质数据分析方法，其特征在于，包括如下步骤：

S2、通过关联规则挖掘方法获取已发生的项之间的关联；

2.如权利要求1所述的一种水质数据分析方法，其特征在于，采取等宽离散方法对所述水质数据的变量进行离散。

3.如权利要求1所述的一种水质数据分析方法，其特征在于，所述项集X中的项的个数大于或等于两个。

4.如权利要求1所述的一种水质数据分析方法，其特征在于，所述水质数据的变量为连续变量或非连续变量。

5.如权利要求4所述的一种水质数据分析方法，其特征在于，根据所述已发生的项之间的关联和不发生的项之间的关联，以分析所述水质数据中的化学指标与水生微生物之间的关联关系。