CN106202346B - 一种数据加载清洗引擎、调度与存储*** - Google Patents

一种数据加载清洗引擎、调度与存储*** Download PDF

Info

Publication number
CN106202346B
CN106202346B CN201610524292.8A CN201610524292A CN106202346B CN 106202346 B CN106202346 B CN 106202346B CN 201610524292 A CN201610524292 A CN 201610524292A CN 106202346 B CN106202346 B CN 106202346B
Authority
CN
China
Prior art keywords
data
module
etl
scheduling
storage system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610524292.8A
Other languages
English (en)
Other versions
CN106202346A (zh
Inventor
孙永剑
郑书礼
裘鑫芳
董磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Information Network Co., Ltd.
Original Assignee
Guangdong Information Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Information Network Co Ltd filed Critical Guangdong Information Network Co Ltd
Priority to CN201610524292.8A priority Critical patent/CN106202346B/zh
Publication of CN106202346A publication Critical patent/CN106202346A/zh
Application granted granted Critical
Publication of CN106202346B publication Critical patent/CN106202346B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据加载清洗引擎、调度与存储***,包括数据源、数据仓库和用户展现模块,数据仓库连接有ETL管理模块,ETL管理模块包括ETL调度模块、ETL监控模块、数据质量模块和ETL任务模块,数据仓库包括接口文件区、细节数据暂存区SSA、细节数据SOR、数据集市、数据总结模块、反馈模块和元数据存储MDR。本发明具有实用性强,数据管理便捷,灵活性高,易于推广,高效能数据处理,大吞吐量,能够应对添加更多的数据源,支持更多分析需求的优点。

Description

一种数据加载清洗引擎、调度与存储***
技术领域
本发明属于计算机技术领域,尤其涉及一种数据加载清洗引擎、调度与存储***。
背景技术
大数据技术的迅猛发展和信息化的推进,使得人类社会所积累的数据量已经超过了过去5000年的总和,海量数据的采集、存储、处理和传播的数量也与日俱增。企业实现数据共享,可以使更多的人更充分地使用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用。但是,在实施数据共享的过程当中,由于不同用户提供的数据可能来自不同的途径,其数据内容、数据格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后,丢失信息等棘手问题,严重阻碍了数据在各部门和各软件***中的流动与共享。因此,如何对海量数据进行有效的集成管理已成为增强商业银行竞争力的必然选择。
近几年来,随着Hadoop、Spark等大数据处理技术的发展,数据已经引起人们重视,成为与水、石油同等重要的战略资源。当前大量数据主要存储在传统的SQL数据库中,与大数据技术使用的NoSQL数据库有很大的不同,同时由于数据的多样性特点,使用大数据平台处理数据前,需要把数据导入大数据平台自己的存储***,且在导入时一般需要进行ETL处理,完成各类数据的抽取,清洗,装载等过程。传统ETL***主要运行的单机上,也有分布式ETL处理,但主要是面向多任务场景。这些传统的ETL***功能已经发展的较为完善,但是在应对大数据量的场景时,在处理速度上难以满足处理需求,功能对接上存在很多偏差,导致传统的ETL处理方式难堪重负。
发明内容
本发明目的在于解决现有技术中存在的上述技术问题,提供一种数据加载清洗引擎、调度与存储***,具有实用性强,数据管理便捷,灵活性高,易于推广,高效能数据处理,大吞吐量,能够应对添加更多的数据源,支持更多分析需求的优点。
为了解决上述技术问题,本发明采用如下技术方案:
一种数据加载清洗引擎、调度与存储***,其特征在于:包括数据源、数据仓库和用户展现模块,数据仓库连接有ETL管理模块,ETL管理模块包括ETL调度模块、ETL监控模块、数据质量模块和ETL任务模块,ETL调度模块用于控制所有ETL任务的运行,ETL监控模块用于跟踪监控ETL任务的运行,数据质量模块用于跟踪数据仓库的数据质量,ETL任务模块用于完成具体的数据ETL工作;数据仓库包括接口文件区、细节数据暂存区SSA、细节数据SOR、数据集市、数据总结模块、反馈模块和元数据存储MDR,细节数据SOR连接数据总结模块,数据总结模块连接反馈模块,文件接口区用于存储和处理接口文件,文件接口区连接有权限设定模块,权限设定模块用于按照特定的目录结构组织起来,对每个目录按照其特定的用途设定对不同用户的访问权限,ETL管理模块以元数据为中心进行交互和协作,从数据源中抽取数据,然后进行传转换、清洗和加载,按照定义好的数据仓库模型,将数据加载到数据仓库中,很好地满足数据集成的续期,实现各业务之间的数据的汇总和分发;
细节数据暂存区SSA连接有验证模块,验证模块连接有查找模块,查找模块连接细节数据SOR,验证模块连接有处理模块,处理模块连接细节数据SOR,细节数据SOR连接有交换分区模块,元数据存储MDR用来保存关于数据仓库中的过程和数据的信息,元数据存储MDR连接有元数据管理模块;数据集市连接有多维立方体模块,多维立方体模块用于存储多维数据,数据仓库和数据集市存储在一个TDH数据群内,各个不同的数据在TDH数据群内按不同的私有区域来区分,数据集市存储在三维视觉区域内,用于分析多维数据,多维立方体模块存储在集成区域内;交换分区模块采用“分区忽略”和“分而治之”两种分区机制,可以减少导入数据操作对用户实时访问数据的影响,操作模式就像使用可热插拔的硬盘一样,使用方便,在性能上,由于***中存储了海量数据,可以通过“分区忽略”能够有效地提高查询性能,可以提高数据的可管理性和可用性,如数据删除、数据备份等,采取“分而治之”进行更加完善快捷的管理,可以将任务产生的故障局限在分区中,并且可以有效地缩短恢复时间;由于各个工具和***都会生成自己的元数据,利用元数据管理模块把这些元数据尽可能的集中存储到元数据存储MDR内,元数据存储MDR只是一个共享元数据供用户集中访问的地方,真正元数据的维护地还是在生成这些元数据的***和工具内;用户展现模块连接有查询模块,查询模块用于根据用户需求展现业务内容。该***具有实用性强,数据管理便捷,灵活性高,易于推广,高效能数据处理,大吞吐量,能够应对添加更多的数据源,支持更多分析需求的优点。
进一步,ETL调度模块连接有时间设定模块,每个任务都可以设定在什么时候执行,使得每个任务都能够在指定的时刻自动运行,任务的执行周期具有很大的差异性,有的定义了时间间隔,有的定义了确定时间,通过时间设定模块在***中建立了一个调度链表,链表中的每个结点包含了“任务的调度信息”和“下次执行时刻”,并始终按照“下次执行时刻”从小到大进行排序,提高了调度效率,以应对大数量的任务。
进一步,ETL监控模块连接有故障处理模块,故障处理模块连接ETL调度模块,当出现任务运行错误或是故障时,故障处理模块会重新分配任务,保证***继续运行。
进一步,ETL任务模块连接有图形转化模块,图形转化模块将任务的运行情况转化为可视化的图形,直观清楚。
进一步,接口文件区的数据处理工具主要是Kettle,接口文件区在Unix***下按照特定的目录结构组织起来,通过权限设定模块对每个目录按照其特定的用途设定对不同用户的访问权限,相互独立,分区明确。
进一步,细节数据SOR是基于BDW开发的一套符合3NF范式规范的表结构,细节数据SOR存储了数据仓库内最细节层次的数据,通过交换分区模块按照不同的主题域进行分类组织,细节数据SOR作为企业数据模型,是整个数据仓库数据模型的核心,具有足够的灵活性,能够应对添加更多的数据源,支持更多分析需求,扩大了***的适用范围。
进一步,细节数据SOR连接有BDW升级更新模块,通过BDW升级更新模块可支持BDW的进一步升级和更新。
进一步,ETL管理模块采用微软的DTS组件,通过标准接口OLE DB或ODBC定义ETL过程的数据源连接,通过DTS自带的抽取规则或使用T-SQL脚本语言定义数据抽取、清洗和转换方法,使用微软SQL Server的DTS工具设计并完成所有的数据仓库中的ETL操作。
进一步,数据集市呈星型或雪花型结构,数据集市是数据仓库的一个子集,可以称作"小数据仓库",数据集市的应用是对数据仓库应用的补充,数据集市为面向分析的多维数据,为特定用户存储预先计算好的数据,从而满足用户特殊的需求,具有独立性,访问快速且方便,不受***进行中的更新的影响。
本发明由于采用了上述技术方案,具有以下有益效果:
本发明快速地实现了自动、可靠的数据采集、传输、转换和加载,ETL处理速度快,能够完成大数据量的处理加工,使得ETL任务执行起来更加容易实现,并能支持多任务执行,相互独立,互不影响,且降低了ETL数据处理的成本,提高了ETL数据处理的性能,提高了数据的可管理性和可用性,细节数据SOR作为企业数据模型,是整个数据仓库数据模型的核心,具有足够的灵活性,能够应对添加更多的数据源,支持更多分析需求,***的适用范围大大增强。本发明具有实用性强,数据管理便捷,灵活性高,易于推广,高效能数据处理,大吞吐量,能够应对添加更多的数据源,支持更多分析需求的优点。
附图说明
下面结合附图对本发明作进一步说明:
图1为本发明一种数据加载清洗引擎、调度与存储***的流程示意图;
图2为本发明中数据仓库的流程示意图。
具体实施方式
如图1至图2所示,为本发明一种数据加载清洗引擎、调度与存储***,包括数据源、数据仓库和用户展现模块,数据仓库连接有ETL管理模块,ETL管理模块包括ETL调度模块、ETL监控模块、数据质量模块和ETL任务模块,ETL调度模块用于控制所有ETL任务的运行,ETL调度模块连接有时间设定模块,每个任务都可以设定在什么时候执行,使得每个任务都能够在指定的时刻自动运行,任务的执行周期具有很大的差异性,有的定义了时间间隔(如每隔3分钟执行一次),有的定义了确定时间(如每周的星期五晚上21:00开始执行),对于确定时间,又可以分为按年、月、周、日等很多方式,通过时间设定模块在***中建立了一个调度链表,链表中的每个结点包含了“任务的调度信息”和“下次执行时刻”,并始终按照“下次执行时刻”从小到大进行排序,提高了调度效率,以应对大数量的任务。ETL监控模块用于跟踪监控ETL任务的运行,ETL监控模块连接有故障处理模块,故障处理模块连接ETL调度模块,当出现任务运行错误或是故障时,故障处理模块会重新分配任务,保证***继续运行。数据质量模块用于跟踪数据仓库的数据质量,ETL任务模块用于完成具体的数据ETL工作,ETL任务模块连接有图形转化模块,图形转化模块将任务的运行情况转化为可视化的图形,直观清楚。
ETL管理模块采用微软的DTS组件,通过标准接口OLE DB或ODBC定义ETL过程的数据源连接,通过DTS自带的抽取规则或使用T-SQL脚本语言定义数据抽取、清洗和转换方法,使用微软SQL Server的DTS工具设计并完成所有的数据仓库中的ETL操作,用DTS组件设计完DTS包后,可以对包进行一次性执行,也可以把包设置为自动调度,使包的执行过程无需人工干预。为了给***管理员提供方便,将后台的DTS包的执行和调度通过ASP技术实现为B/S模式用户界面,这样***管理员无须在服务器上对数据仓库的ETL进行管理和维护,管理员可以在其他任何一个地方完成管理和维护操作,管理方便,提高工作效率。ETL管理模块以元数据为中心进行交互和协作,从数据源中抽取数据,然后进行传转换、清洗和加载,按照定义好的数据仓库模型,将数据加载到数据仓库中,很好地满足数据集成的续期,实现各业务之间的数据的汇总和分发。
数据仓库包括接口文件区、细节数据暂存区SSA、细节数据SOR、数据集市、数据总结模块、反馈模块和元数据存储MDR,细节数据SOR连接数据总结模块,数据总结模块连接反馈模块,文件接口区用于存储和处理接口文件,文件接口区连接有权限设定模块,文件接口区在Unix***下按照特定的目录结构组织起来,通过权限设定模块对每个目录按照其特定的用途设定对不同用户的访问权限,接口文件区的数据处理工具主要是Kettle,相互独立,互不影响,分区明确,保证访问的有效性。细节数据暂存区SSA连接有验证模块,验证模块连接有查找模块,查找模块连接细节数据SOR,验证模块连接有处理模块,处理模块连接细节数据SOR,细节数据暂存区SSA用于数据的暂存,把支持的接口文件装载到数据库,验证模块根据查找模块到的细节数据SOR内已有的数据与新加载的数据进行比较,通过验证则由出处理模块将这些新加载的数据整合到细节数据SOR内。
细节数据SOR是基于BDW开发的一套符合3NF范式规范的表结构,细节数据SOR存储了数据仓库内最细节层次的数据,细节数据SOR连接有交换分区模块,通过交换分区模块按照不同的主题域进行分类组织,交换分区模块采用“分区忽略”和“分而治之”两种分区机制,可以减少导入数据操作对用户实时访问数据的影响,操作模式就像使用可热插拔的硬盘一样,使用方便,在性能上,由于***中存储了海量数据,可以通过“分区忽略”能够有效地提高查询性能,可以提高数据的可管理性和可用性,如数据删除、数据备份等,采取“分而治之”进行更加完善快捷的管理,可以将任务产生的故障局限在分区中,并且可以有效地缩短恢复时间,细节数据SOR作为企业数据模型,是整个数据仓库数据模型的核心,具有足够的灵活性,能够应对添加更多的数据源,支持更多分析需求,扩大了***的适用范围。细节数据SOR连接有BDW升级更新模块,通过BDW升级更新模块可支持BDW的进一步升级和更新。
元数据存储MDR用来保存关于数据仓库中的过程和数据的信息,数据的信息包括日志、数据词典和配置信息等,元数据存储MDR连接有元数据管理模块,由于各个工具和***都会生成自己的元数据,利用元数据管理模块把这些元数据尽可能的集中存储到元数据存储MDR内,元数据存储MDR只是一个共享元数据供用户集中访问的地方,真正元数据的维护地还是在生成这些元数据的***和工具内。数据集市连接有多维立方体模块,数据仓库和数据集市存储在一个TDH数据群内,各个不同的数据在TDH数据群内按不同的私有区域来区分,数据集市存储在三维视觉区域内,用于分析多维数据,多维立方体模块存储在集成区域内,用于存储多维数据。数据集市呈星型或雪花型结构,数据集市是数据仓库的一个子集,可以称作"小数据仓库",数据集市的应用是对数据仓库应用的补充,数据集市为面向分析的多维数据,为特定用户存储预先计算好的数据,从而满足用户特殊的需求,具有独立性,访问快速且方便,不受***进行中的更新的影响。数据总结模块设计为反规范化,用来更新多维数据,反馈模块以数据挖掘结果为主。用户展现模块连接有查询模块,查询模块用于根据用户设定的需求展现相应的业务内容,包括业务的办理时间,业务的截止时间,业务的详细内容参数等。特定用户可快速查询到自己需求的业务的详细内容。
本发明快速地实现了自动、可靠的数据采集、传输、转换和加载,ETL处理速度快,能够完成大数据量的处理加工,使得ETL任务执行起来更加容易实现,并能支持多任务执行,相互独立,互不影响,且降低了ETL数据处理的成本,提高了ETL数据处理的性能,提高了数据的可管理性和可用性,细节数据SOR作为企业数据模型,是整个数据仓库数据模型的核心,具有足够的灵活性,能够应对添加更多的数据源,支持更多分析需求,***的适用范围大大增强。本发明具有实用性强,数据管理便捷,灵活性高,易于推广,高效能数据处理,大吞吐量,能够应对添加更多的数据源,支持更多分析需求的优点。
以上仅为本发明的具体实施例,但本发明的技术特征并不局限于此。任何以本发明为基础,为解决基本相同的技术问题,实现基本相同的技术效果,所作出的简单变化、等同替换或者修饰等,皆涵盖于本发明的保护范围之中。

Claims (8)

1.一种数据加载清洗引擎、调度与存储***,其特征在于:包括数据源、数据仓库和用户展现模块,所述数据仓库连接有ETL管理模块,所述ETL管理模块包括ETL调度模块、ETL监控模块、数据质量模块和ETL任务模块,所述ETL调度模块用于控制所有ETL任务的运行,所述ETL监控模块用于跟踪监控ETL任务的运行,所述数据质量模块用于跟踪数据仓库的数据质量,所述ETL任务模块用于完成具体的数据ETL工作,所述ETL监控模块连接有故障处理模块,所述故障处理模块连接所述ETL调度模块;
所述数据仓库包括接口文件区、细节数据暂存区SSA、细节数据SOR、数据集市、数据总结模块、反馈模块和元数据存储MDR,所述细节数据SOR连接所述数据总结模块,所述数据总结模块连接所述反馈模块,所述文件接口区用于存储和处理接口文件,所述文件接口区连接有权限设定模块,所述权限设定模块用于按照特定的目录结构组织起来,对每个目录按照其特定的用途设定对不同用户的访问权限;
所述细节数据暂存区SSA连接有验证模块,所述验证模块连接有查找模块,所述查找模块连接所述细节数据SOR,所述验证模块连接有处理模块,所述处理模块连接所述细节数据SOR,所述细节数据SOR连接有交换分区模块,所述元数据存储MDR用来保存关于数据仓库中的过程和数据的信息,所述元数据存储MDR连接有元数据管理模块;所述数据集市连接有多维立方体模块,所述多维立方体模块用于存储多维数据;
所述用户展现模块连接有查询模块,所述查询模块用于根据用户需求展现业务内容。
2.根据权利要求1所述的一种数据加载清洗引擎、调度与存储***,其特征在于:所述ETL调度模块连接有时间设定模块。
3.根据权利要求1所述的一种数据加载清洗引擎、调度与存储***,其特征在于:所述ETL任务模块连接有图形转化模块。
4.根据权利要求1所述的一种数据加载清洗引擎、调度与存储***,其特征在于:所述接口文件区的数据处理工具主要是Kettle。
5.根据权利要求1所述的一种数据加载清洗引擎、调度与存储***,其特征在于:所述细节数据SOR是基于BDW开发的一套符合3NF范式规范的表结构。
6.根据权利要求5所述的一种数据加载清洗引擎、调度与存储***,其特征在于:所述细节数据SOR连接有BDW升级更新模块。
7.根据权利要求1所述的一种数据加载清洗引擎、调度与存储***,其特征在于:所述ETL管理模块采用微软的DTS组件。
8.根据权利要求1所述的一种数据加载清洗引擎、调度与存储***,其特征在于:所述数据集市呈星型或雪花型结构。
CN201610524292.8A 2016-06-29 2016-06-29 一种数据加载清洗引擎、调度与存储*** Active CN106202346B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610524292.8A CN106202346B (zh) 2016-06-29 2016-06-29 一种数据加载清洗引擎、调度与存储***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610524292.8A CN106202346B (zh) 2016-06-29 2016-06-29 一种数据加载清洗引擎、调度与存储***

Publications (2)

Publication Number Publication Date
CN106202346A CN106202346A (zh) 2016-12-07
CN106202346B true CN106202346B (zh) 2019-11-01

Family

ID=57465396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610524292.8A Active CN106202346B (zh) 2016-06-29 2016-06-29 一种数据加载清洗引擎、调度与存储***

Country Status (1)

Country Link
CN (1) CN106202346B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280084A (zh) * 2017-01-06 2018-07-13 上海前隆信息科技有限公司 一种数据仓库的构建方法、***及服务器
CN107688592B (zh) * 2017-04-06 2020-03-17 平安科技(深圳)有限公司 数据清洗的方法及终端
CN107679160A (zh) * 2017-09-28 2018-02-09 深圳市华傲数据技术有限公司 基于图数据库的数据处理方法及装置
CN107895032A (zh) * 2017-11-23 2018-04-10 安徽科创智慧知识产权服务有限公司 进行数据初步清洗的网络数据采集方法
CN107832451A (zh) * 2017-11-23 2018-03-23 安徽科创智慧知识产权服务有限公司 一种简化的大数据清洗方式
CN107992552A (zh) * 2017-11-28 2018-05-04 南京莱斯信息技术股份有限公司 一种数据交换平台及数据交换方法
CN108196912B (zh) * 2018-01-03 2021-04-23 新疆熙菱信息技术股份有限公司 一种基于热插拔组件式数据集成方法
CN109033291A (zh) * 2018-07-13 2018-12-18 深圳市小牛在线互联网信息咨询有限公司 一种作业调度方法、装置、计算机设备及存储介质
CN109269557A (zh) * 2018-09-19 2019-01-25 中国南方电网有限责任公司超高压输电公司广州局 一种换流站设备运行参数及运行环境智能监测***及方法
CN109669975B (zh) * 2018-11-09 2020-12-18 成都数之联科技有限公司 一种工业大数据处理***及方法
CN109918437A (zh) * 2019-03-08 2019-06-21 北京中油瑞飞信息技术有限责任公司 分布式数据处理方法、装置及数据资产管理***
CN112667615B (zh) * 2020-12-25 2022-02-15 广东电网有限责任公司电力科学研究院 一种数据清洗***和方法
CN112667472B (zh) * 2020-12-28 2022-04-08 武汉达梦数据库股份有限公司 一种数据源连接状态监控装置与方法
CN113177039B (zh) * 2021-04-27 2024-02-27 中通服咨询设计研究院有限公司 一种基于数据融合的数据中心数据清洗***
CN114817393B (zh) * 2022-06-24 2022-09-16 深圳市信联征信有限公司 数据抽取和清洗方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452485A (zh) * 2008-12-31 2009-06-10 中国建设银行股份有限公司 一种基于关系数据库生成多维立方体的方法及装置
CN201600693U (zh) * 2009-11-26 2010-10-06 ***通信集团河北有限公司 数据仓库***
CN103577605A (zh) * 2013-11-20 2014-02-12 贵州电网公司电力调度控制中心 基于数据融合和数据挖掘的数据仓库及其应用方法
CN104933160A (zh) * 2015-06-26 2015-09-23 河海大学 一种面向安全监测业务分析的etl框架设计方法
CN105095327A (zh) * 2014-05-23 2015-11-25 深圳市珍爱网信息技术有限公司 一种分布式etl***及调度方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452485A (zh) * 2008-12-31 2009-06-10 中国建设银行股份有限公司 一种基于关系数据库生成多维立方体的方法及装置
CN201600693U (zh) * 2009-11-26 2010-10-06 ***通信集团河北有限公司 数据仓库***
CN103577605A (zh) * 2013-11-20 2014-02-12 贵州电网公司电力调度控制中心 基于数据融合和数据挖掘的数据仓库及其应用方法
CN105095327A (zh) * 2014-05-23 2015-11-25 深圳市珍爱网信息技术有限公司 一种分布式etl***及调度方法
CN104933160A (zh) * 2015-06-26 2015-09-23 河海大学 一种面向安全监测业务分析的etl框架设计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《基于数据仓库的高校数据统计服务平台研究》;龙新征,等;《通信学报》;20130930;全文 *
IBM数据仓库解决方案简述;石油论文资料库;《豆丁》;20140413;第1-24页 *

Also Published As

Publication number Publication date
CN106202346A (zh) 2016-12-07

Similar Documents

Publication Publication Date Title
CN106202346B (zh) 一种数据加载清洗引擎、调度与存储***
CN105005570B (zh) 基于云计算的海量智能用电数据挖掘方法及装置
US6901405B1 (en) Method for persisting a schedule and database schema
CN104050042B (zh) Etl作业的资源分配方法及装置
CN106446153A (zh) 一种分布式newSQL数据库***及方法
CN104111996A (zh) 基于hadoop平台的医保门诊大数据抽取***及方法
CN105843182A (zh) 一种基于oms的电力调度事故预案***及方法
EP3180695A1 (en) Systems and methods for auto-scaling a big data system
CN101566981A (zh) 分析处理***中建立动态虚拟数据仓库的方法
CN106599197A (zh) 数据采集交换引擎
CN102917006B (zh) 一种实现计算资源和对象权限的统一控制管理方法及装置
CN106528341B (zh) 基于Greenplum数据库的自动化容灾***
CN103246549B (zh) 一种数据转存的方法及***
CN113721892A (zh) 领域建模方法、装置、计算机设备和存储介质
CN108009258A (zh) 一种可在线配置的数据采集与分析平台
CN106471501A (zh) 数据查询的方法、数据对象的存储方法和数据***
CN102279891A (zh) 一种并行搜索it日志的检索方法、装置及***
CN109684412A (zh) 一种分布式数据库***
US7020656B1 (en) Partition exchange loading technique for fast addition of data to a data warehousing system
Qiao et al. Gobblin: Unifying data ingestion for Hadoop
JP6262505B2 (ja) 分散型データ仮想化システム、クエリ処理方法及びクエリ処理プログラム
CN103365740A (zh) 一种数据冷备方法及装置
Lee et al. A big data management system for energy consumption prediction models
CN109359205A (zh) 一种基于地理格网的遥感影像切分方法及设备
CN103810258A (zh) 基于数据仓库的数据汇聚调度方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20191008

Address after: 510030 floor 2 and 5, building 9, No. 305, Dongfeng Middle Road, Yuexiu District, Guangzhou City, Guangdong Province

Applicant after: Guangdong Information Network Co., Ltd.

Address before: 310018, No. 2, No. 928, Xiasha Higher Education Park, Hangzhou, Zhejiang, Jianggan District

Applicant before: Zhejiang University of Technology

GR01 Patent grant
GR01 Patent grant