CN108241644A - 一种数据流挖掘方法 - Google Patents

一种数据流挖掘方法 Download PDF

Info

Publication number
CN108241644A
CN108241644A CN201611208516.0A CN201611208516A CN108241644A CN 108241644 A CN108241644 A CN 108241644A CN 201611208516 A CN201611208516 A CN 201611208516A CN 108241644 A CN108241644 A CN 108241644A
Authority
CN
China
Prior art keywords
data file
stream
calculate node
real
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611208516.0A
Other languages
English (en)
Inventor
唐德可
宋才秀
任丽君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Space Star Technology (beijing) Co Ltd
Original Assignee
Space Star Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Space Star Technology (beijing) Co Ltd filed Critical Space Star Technology (beijing) Co Ltd
Priority to CN201611208516.0A priority Critical patent/CN108241644A/zh
Publication of CN108241644A publication Critical patent/CN108241644A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种数据流挖掘方法,将数据流进行时序划分为实时数据流、近期数据文件和历史数据文件,根据计算节点的实时处理能力相应的分别分配上述实时数据流、近期数据文件和历史数据文件,根据计算节点的实时处理能力实现数据流的细粒度管理。

Description

一种数据流挖掘方法
【技术领域】
本发明属于数据流处理领域,尤其涉及数据流挖掘方法。
【背景技术】
现有技术中对日志进行实时分析可以把握***的当前状态并进行实时响应,目前对海量日志数据流进行分布式实时流处理的方式为:首先实时接收一批数据流,并将该数据流采用分布式分发的方式下发到多个处理单元,每个处理单元接收分发的一个或多个数据流并进行实时分析处理,处理完的数据流进行整合输出。
但是,现有的数据流分布式并行处理方式在任务划分时没有精细化地考虑到各个计算节点的实时处理能力,会造成有些计算节点当前的实时计算能力较低不适合进行日志数据流的实时处理,无法实现细粒度的并行管理。
基于上述问题,现在亟需一种新的数据流挖掘方法,根据将数据流进行时序划分为实时数据流、近期数据文件和历史数据文件,根据计算节点的实时处理能力相应的分别分配上述实时数据流、近期数据文件和历史数据文件,根据计算节点的实时处理能力实现数据流的细粒度管理。
【发明内容】
为了解决现有技术中的上述问题,本发明提出了一种数据流挖掘方法。
本发明采用的技术方案如下:
一种数据流挖掘方法,其特征在于,该方法包括如下步骤:
(1)接收数据流,并对数据流进行时序分组,时序分组后将日志数据流分为实时数据流、近期数据文件和历史数据文件;
(2)从多个计算节点中选择实时计算能力排序高的计算节点作为实时数据流计算节点,选择用于处理近期数据文件和历史数据文件的近期数据文件计算节点和历史数据文件计算节点;
(3)将实时数据流、近期数据文件和历史数据文件任务分配给实时数据流计算节点、近期数据文件计算节点和历史数据文件计算节点;
(4)实时数据流计算节点、近期数据文件计算节点和历史数据文件计算节点分别进行相应挖掘任务的处理;
(5)对上述处理结果进行整合并输出。
本发明的有益效果包括:根据将数据流进行时序划分为实时数据流、近期数据文件和历史数据文件,根据计算节点的实时处理能力相应的分别分配上述实时数据流、近期数据文件和历史数据文件,根据计算节点的实时处理能力实现数据流的细粒度管理。
【附图说明】
此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定,在附图中:
图1是本发明多节点数据处理***的框架图;
图2是本发明数据流挖掘方法的流程图。
【具体实施方式】
下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。
参见附图1,一种数据流挖掘方法用于多节点数据流处理***中,所述***包括一个主控节点和多个计算节点,其中所述主控节点用于根据接收到的数据流向各个计算节点分配任务,各个计算节点用于对所接收到的分配任务并行地进行计算。在一个实施方式,所述多节点处于分布式***中,或多节点处于云***中。
实施例1,参见附图2,一种数据流挖掘方法,该方法包括如下步骤:
(1)接收数据流,并对数据流进行时序分组,时序分组后将日志数据流分为实时数据流、近期数据文件和历史数据文件;
在一个实施例中,根据实际需要来定义作为“实时”的时间范围,当前“实时”时间范围内的日志数据流被划分为实时数据流,在一个实施例中,“当前3个小时内”日志数据流被作为实时数据流,“当前3个小时外的当天数据已经被存储的数据文件”作为近期数据文件,其余的数据流是已经被存储的历史数据被作为历史数据文件。
(2)从多个计算节点中选择实时计算能力排序高的计算节点作为实时数据流计算节点,选择用于处理近期数据文件和历史数据文件的近期数据文件计算节点和历史数据文件计算节点。
由于历史数据文件已经进行存储,因此可以离线处理,对于计算节点的实时计算能力要求不高,而子实时数据流需要进行实时处理,因此要求计算节点的实时处理能力较高。
(3)将实时数据流、近期数据文件和历史数据文件任务分配给实时数据流计算节点、近期数据文件计算节点和历史数据文件计算节点;
(4)实时数据流计算节点、近期数据文件计算节点和历史数据文件计算节点分别进行相应挖掘任务的处理;
(5)对上述处理结果进行整合并输出。
本发明将数据流进行时序划分为实时数据流、近期数据文件和历史数据文件,根据计算节点的实时处理能力相应的分别分配上述实时数据流、近期数据文件和历史数据文件,根据计算节点的实时处理能力实现数据流的细粒度管理。
以上所述仅是本发明的较佳实施方式,故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本发明专利申请范围内。

Claims (3)

1.一种数据流挖掘方法,其特征在于,该方法包括如下步骤:
(1)接收数据流,并对数据流进行时序分组,时序分组后将日志数据流分为实时数据流、近期数据文件和历史数据文件;
(2)从多个计算节点中选择实时计算能力排序高的计算节点作为实时数据流计算节点,选择分别用于处理近期数据文件和历史数据文件的近期数据文件计算节点和历史数据文件计算节点;
(3)将实时数据流、近期数据文件和历史数据文件任务分配给实时数据流计算节点、近期数据文件计算节点和历史数据文件计算节点;
(4)实时数据流计算节点、近期数据文件计算节点和历史数据文件计算节点分别进行相应挖掘任务的处理;
(5)对上述处理结果进行整合并输出。
2.根据权利要求1所述的数据流挖掘方法,其特征在于,所述多节点处于分布式***中。
3.根据权利要求1所述的数据流挖掘方法,其特征在于,所述多节点处于云***中。
CN201611208516.0A 2016-12-23 2016-12-23 一种数据流挖掘方法 Pending CN108241644A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611208516.0A CN108241644A (zh) 2016-12-23 2016-12-23 一种数据流挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611208516.0A CN108241644A (zh) 2016-12-23 2016-12-23 一种数据流挖掘方法

Publications (1)

Publication Number Publication Date
CN108241644A true CN108241644A (zh) 2018-07-03

Family

ID=62703629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611208516.0A Pending CN108241644A (zh) 2016-12-23 2016-12-23 一种数据流挖掘方法

Country Status (1)

Country Link
CN (1) CN108241644A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569271A (zh) * 2019-09-17 2019-12-13 第四范式(北京)技术有限公司 用于抽取特征的数据处理方法和***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136217A (zh) * 2011-11-24 2013-06-05 阿里巴巴集团控股有限公司 一种分布式数据流处理方法及其***
CN103593452A (zh) * 2013-11-21 2014-02-19 北京科技大学 一种基于MapReduce机制的数据密集型成本优化方法
CN105740431A (zh) * 2016-01-29 2016-07-06 湖南大学 一种基于多层周期指数递阶的时序数据预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136217A (zh) * 2011-11-24 2013-06-05 阿里巴巴集团控股有限公司 一种分布式数据流处理方法及其***
CN103593452A (zh) * 2013-11-21 2014-02-19 北京科技大学 一种基于MapReduce机制的数据密集型成本优化方法
CN105740431A (zh) * 2016-01-29 2016-07-06 湖南大学 一种基于多层周期指数递阶的时序数据预测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569271A (zh) * 2019-09-17 2019-12-13 第四范式(北京)技术有限公司 用于抽取特征的数据处理方法和***
CN110569271B (zh) * 2019-09-17 2022-11-15 第四范式(北京)技术有限公司 用于抽取特征的数据处理方法和***

Similar Documents

Publication Publication Date Title
CN105900064B (zh) 调度数据流任务的方法和装置
CN103309738B (zh) 用户作业调度方法及装置
CN106844483A (zh) 一种日志数据流处理方法
CN107193652A (zh) 容器云环境中流数据处理***的弹性资源调度方法及***
TW201929510A (zh) 支援基於數據類型將數據流分組並儲存至雲端儲存文件中的系統和電腦可執行方法
CN106776984B (zh) 一种分布式***挖掘数据的清洗方法
CN104317928A (zh) 一种基于分布式数据库的业务etl方法及***
CN104461551A (zh) 基于数据并行处理的大数据处理***
CN108369584B (zh) 信息处理***、描述符创建方法和描述符创建程序
CN106506266A (zh) 基于GPU、Hadoop/Spark混合计算框架的网络流量分析方法
CN104317970A (zh) 一种基于数据加工中心的数据流式处理方法
CN104679590A (zh) 分布式计算***中的Map优化方法及装置
CN106202092A (zh) 数据处理的方法及***
CN108345450A (zh) 生成用于管理数据的软件架构的方法
CN105243499A (zh) 订单分配方法及***
CN106909624B (zh) 一种海量数据实时排序优化方法
CN104156505A (zh) 一种基于用户行为分析的Hadoop集群作业调度方法及装置
CN104320382A (zh) 分布式的实时流处理装置、方法和单元
CN108241644A (zh) 一种数据流挖掘方法
CN106802825A (zh) 一种基于实时***的动态任务调度方法与***
CN112148779A (zh) 确定业务指标的方法、装置及存储介质
CN106990913B (zh) 一种大规模流式集合数据的分布式处理方法
CN105468676A (zh) 一种大数据处理方法
CN106502842A (zh) 数据恢复方法及***
CN106411971B (zh) 负载调节方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information

Address after: 101399 No. 2 East Airport Road, Shunyi Airport Economic Core Area, Beijing (1st, 5th and 7th floors of Industrial Park 1A-4)

Applicant after: Zhongke Star Map Co.,Ltd.

Address before: 101399 Building 1A-4, National Geographic Information Technology Industrial Park, Guomen Business District, Shunyi District, Beijing

Applicant before: GEOVIS TECHNOLOGY (BEIJING) Co.,Ltd.

CB02 Change of applicant information
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180703

RJ01 Rejection of invention patent application after publication