CN108241644A - 一种数据流挖掘方法

Info

本发明提供一种数据流挖掘方法，将数据流进行时序划分为实时数据流、近期数据文件和历史数据文件，根据计算节点的实时处理能力相应的分别分配上述实时数据流、近期数据文件和历史数据文件，根据计算节点的实时处理能力实现数据流的细粒度管理。

一种数据流挖掘方法

【技术领域】

本发明属于数据流处理领域，尤其涉及数据流挖掘方法。

【背景技术】

现有技术中对日志进行实时分析可以把握***的当前状态并进行实时响应，目前对海量日志数据流进行分布式实时流处理的方式为：首先实时接收一批数据流，并将该数据流采用分布式分发的方式下发到多个处理单元，每个处理单元接收分发的一个或多个数据流并进行实时分析处理，处理完的数据流进行整合输出。

但是，现有的数据流分布式并行处理方式在任务划分时没有精细化地考虑到各个计算节点的实时处理能力，会造成有些计算节点当前的实时计算能力较低不适合进行日志数据流的实时处理，无法实现细粒度的并行管理。

基于上述问题，现在亟需一种新的数据流挖掘方法，根据将数据流进行时序划分为实时数据流、近期数据文件和历史数据文件，根据计算节点的实时处理能力相应的分别分配上述实时数据流、近期数据文件和历史数据文件，根据计算节点的实时处理能力实现数据流的细粒度管理。

【发明内容】

为了解决现有技术中的上述问题，本发明提出了一种数据流挖掘方法。

本发明采用的技术方案如下：

一种数据流挖掘方法，其特征在于，该方法包括如下步骤：

(1)接收数据流，并对数据流进行时序分组，时序分组后将日志数据流分为实时数据流、近期数据文件和历史数据文件；

(2)从多个计算节点中选择实时计算能力排序高的计算节点作为实时数据流计算节点，选择用于处理近期数据文件和历史数据文件的近期数据文件计算节点和历史数据文件计算节点；

(3)将实时数据流、近期数据文件和历史数据文件任务分配给实时数据流计算节点、近期数据文件计算节点和历史数据文件计算节点；

(4)实时数据流计算节点、近期数据文件计算节点和历史数据文件计算节点分别进行相应挖掘任务的处理；

(5)对上述处理结果进行整合并输出。

本发明的有益效果包括：根据将数据流进行时序划分为实时数据流、近期数据文件和历史数据文件，根据计算节点的实时处理能力相应的分别分配上述实时数据流、近期数据文件和历史数据文件，根据计算节点的实时处理能力实现数据流的细粒度管理。

【附图说明】

此处所说明的附图是用来提供对本发明的进一步理解，构成本申请的一部分，但并不构成对本发明的不当限定，在附图中：

图1是本发明多节点数据处理***的框架图；

图2是本发明数据流挖掘方法的流程图。

【具体实施方式】

下面将结合附图以及具体实施例来详细说明本发明，其中的示意性实施例以及说明仅用来解释本发明，但并不作为对本发明的限定。

参见附图1，一种数据流挖掘方法用于多节点数据流处理***中，所述***包括一个主控节点和多个计算节点，其中所述主控节点用于根据接收到的数据流向各个计算节点分配任务，各个计算节点用于对所接收到的分配任务并行地进行计算。在一个实施方式，所述多节点处于分布式***中，或多节点处于云***中。

实施例1，参见附图2，一种数据流挖掘方法，该方法包括如下步骤：

在一个实施例中，根据实际需要来定义作为“实时”的时间范围，当前“实时”时间范围内的日志数据流被划分为实时数据流，在一个实施例中，“当前3个小时内”日志数据流被作为实时数据流，“当前3个小时外的当天数据已经被存储的数据文件”作为近期数据文件，其余的数据流是已经被存储的历史数据被作为历史数据文件。

(2)从多个计算节点中选择实时计算能力排序高的计算节点作为实时数据流计算节点，选择用于处理近期数据文件和历史数据文件的近期数据文件计算节点和历史数据文件计算节点。

由于历史数据文件已经进行存储，因此可以离线处理，对于计算节点的实时计算能力要求不高，而子实时数据流需要进行实时处理，因此要求计算节点的实时处理能力较高。

(5)对上述处理结果进行整合并输出。

本发明将数据流进行时序划分为实时数据流、近期数据文件和历史数据文件，根据计算节点的实时处理能力相应的分别分配上述实时数据流、近期数据文件和历史数据文件，根据计算节点的实时处理能力实现数据流的细粒度管理。

以上所述仅是本发明的较佳实施方式，故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰，均包括于本发明专利申请范围内。

1.一种数据流挖掘方法，其特征在于，该方法包括如下步骤：

(2)从多个计算节点中选择实时计算能力排序高的计算节点作为实时数据流计算节点，选择分别用于处理近期数据文件和历史数据文件的近期数据文件计算节点和历史数据文件计算节点；

(5)对上述处理结果进行整合并输出。

2.根据权利要求1所述的数据流挖掘方法，其特征在于，所述多节点处于分布式***中。

3.根据权利要求1所述的数据流挖掘方法，其特征在于，所述多节点处于云***中。