CN108280084A - 一种数据仓库的构建方法、***及服务器 - Google Patents

一种数据仓库的构建方法、***及服务器 Download PDF

Info

Publication number
CN108280084A
CN108280084A CN201710009996.6A CN201710009996A CN108280084A CN 108280084 A CN108280084 A CN 108280084A CN 201710009996 A CN201710009996 A CN 201710009996A CN 108280084 A CN108280084 A CN 108280084A
Authority
CN
China
Prior art keywords
data
task
warehouse
layer
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710009996.6A
Other languages
English (en)
Inventor
董林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Pre Long Mdt Infotech Ltd
Original Assignee
Shanghai Pre Long Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Pre Long Mdt Infotech Ltd filed Critical Shanghai Pre Long Mdt Infotech Ltd
Priority to CN201710009996.6A priority Critical patent/CN108280084A/zh
Publication of CN108280084A publication Critical patent/CN108280084A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种数据仓库的构建方法、***及服务器,所述方法包括:构建多层数据处理架构将数据分层处理;从数据源抽取所需的数据并将抽取的数据清洗成符合预设要求的数据;对数据处理任务进行调度和监管;对多层数据处理架构中的数据的访问权限进行控制并对数据的整体运行状况进行监管;所述多层数据处理架构包括:临时存储从所述数据源获取的数据的临时存储层、对清洗后的数据进行存储和处理的核心数据层、将数据进行组织形成对应数据主题的数据集市层以及面向用户处理用户输入的具体需求数据的应用层。本发明可以快速构建企业数据仓库,降低仓库构建的复杂度,缩短企业搭建数据仓库的开发周期,减少仓库开发、运维成本,具有广泛的应用前景。

Description

一种数据仓库的构建方法、***及服务器
技术领域
本发明涉及计算机软件技术领域,具体为一种数据仓库的构建方法、***及服务器。
背景技术
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库是决策支持***(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。
数据仓库,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能仍是将组织透过资讯***之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有***的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持***(DSS)、主管资讯***(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。
数据仓库是一个为企业决策者提供数据分析处理的集成、统一的数据平台;其主要用于支持经营管理中的,数据分析、决策支持、数据挖掘、业务报表等;数据仓库的目的是建立一种体系结构化的数据存储环境,将分析决策所需要的大量数据从传统的操作环境中分离出来,使分散、不一致的操作数据转换为集成、统一的信息。主要有以下特点:
数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过***加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
数据仓库中的数据通常包含历史信息,***记录了企业从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
信息技术与数据智能大环境下,数据仓库在软硬件领域、Internet和企业内部网解决方案以及数据库方面提供了许多经济高效的计算资源,可以保存极大量的数据供分析使用,且允许使用多种数据访问技术。
近年来,随着互联网行业的快速发展,越来越多的企业出于对业务发展和风险控制的需要都急需建立一套自己的数据仓库供决策分析、模型训练使用。互联网与传统企业数据的差异:
1)数据量***式增长,远快于传统企业数据的增长速度;2)互联网行业的数据多样性,不但包含了大量的传统的结构化数据,而且包含了许多非结构化的数据;3)互联网企业对于数据时效性的要求要远高于传统型企业;4)仓库分析的结果需要能够对业务进行快速响应;5)互联网行业的业务变化非常快,不可能像传统行业一样,使用自顶向下的方法建立数据仓库,它要求新的业务很快能融入数据仓库中来,老的下线的业务,能很方便的从现有的数据仓库中下线。传统的数据仓库开发和运维成本较高,建设周期长,数据格式单一,已不能满足互联网企业的快速发展的需求。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种数据仓库的构建方法、***及服务器,用于解决现有技术中数据仓库的构建开发周期较长,开发和运维成本较高的问题。
为实现上述目的及其他相关目的,本发明提供一种数据仓库的构建方法,所述数据仓库的构建方法包括:构建多层数据处理架构将数据分层处理;从数据源抽取所需的数据并将抽取的数据清洗成符合预设要求的数据;对数据处理任务进行调度和监管;对所述多层数据处理架构中的数据的访问权限进行控制并对数据的整体运行状况进行监管。
于本发明的一实施例中,所述多层数据处理架构包括:临时存储从所述数据源获取的数据的临时存储层、对清洗后的数据进行存储和处理的核心数据层、将数据进行组织形成对应数据主题的数据集市层以及面向用户处理用户输入的具体需求数据的应用层。
于本发明的一实施例中,所述从数据源抽取所需的数据中包括:数据抽取选择全量抽取或指定时间戳进行增量抽取并可通过指定字段和过滤条件进行选择性抽取。
于本发明的一实施例中,所述将抽取的数据清洗成符合预设要求的数据中包括:将不完整的数据信息补全、将错误数据清除、将重复数据去重以及将数据进行格式转换中的一种或多种组合。
于本发明的一实施例中,所述对数据处理任务进行调度包括:将任务进行分组并根据配置的任务之间的依赖关系进行调度或根据设置的任务的优先级进行调度;对数据处理任务进行监管包括:监管任务的新增、暂停和删除、查看任务的运行情况和耗时情况以及重新调度运行失败的任务。
为实现上述目的,本发明还提供一种数据仓库的构建***,所述数据仓库的构建***包括:分层模块,用于构建多层数据处理架构将数据分层处理;抽取模块,用于从数据源抽取所需的数据;清洗模块,用于将抽取的数据清洗成符合预设要求的数据;调度模块,用于对数据处理任务进行调度;任务监管模块,对数据处理任务进行监管;权限管理模块,用于对所述多层数据处理架构中的数据的访问权限进行控制;数据监管模块,用于对数据的整体运行状况进行监管。
于本发明的一实施例中,所述分层模块构建的多层数据处理架构包括:临时存储从所述数据源获取的数据的临时存储层、对清洗后的数据进行存储和处理的核心数据层、将数据进行组织形成对应数据主题的数据集市层以及面向用户处理用户输入的具体需求数据的应用层。
于本发明的一实施例中,所述抽取模块从数据源抽取所需的数据时选择全量抽取或指定时间戳进行增量抽取并可通过指定字段和过滤条件进行选择性抽取。
于本发明的一实施例中,所述清洗模块将抽取的数据清洗成符合预设要求的数据中包括:将不完整的数据信息补全、将错误数据清除、将重复数据去重以及将数据进行格式转换中的一种或多种组合。
于本发明的一实施例中,所述调度模块对数据处理任务进行调度包括:将任务进行分组并根据配置的任务之间的依赖关系进行调度或根据设置的任务的优先级进行调度;所述任务监管模块对数据处理任务进行监管包括:监管任务的新增、暂停和删除、查看任务的运行情况和耗时情况以及重新调度运行失败的任务。
为实现上述目的,本发明还提供一种服务器,所述服务器包括如上所述的数据仓库的构建***。
如上所述,本发明的一种数据仓库的构建方法、***及服务器,具有以下有益效果:
本发明可以快速构建企业数据仓库,降低仓库构建的复杂度,缩短企业搭建数据仓库的开发周期,减少仓库开发、运维成本,具有广泛的应用前景。
附图说明
图1显示为本发明的一种数据仓库的构建方法的具体流程示意图。
图2显示为本发明的一种数据仓库的构建方法的构建示意图。
图3显示为本发明的一种数据仓库的构建***的原理框图。
元件标号说明
100 数据仓库的构建***
101 分层模块
102 抽取模块
103 清洗模块
104 调度模块
105 任务监管模块
106 权限管理模块
107 数据监管模块
S101~S104 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
本发明的目的在于提供一种数据仓库的构建方法、***及服务器,用于解决现有技术中数据仓库的构建时产生的负载量大、退出耗时长、数据丢失或需要数据重发的问题。以下将详细阐述本发明的一种数据仓库的构建方法、***及服务器的原理及实施方式,使本领域技术人员不需要创造性劳动即可理解本发明的一种数据仓库的构建方法、***及服务器。
本实施例中的数据仓库的构建方法、***及服务器旨在快速构建企业数据仓库,包括整体架构、数据的抽取转换和任务的开发、调度、集成、部署,减少仓库开发、运维成本,更高效的发挥企业数据的价值。
以下对本实施例中的数据仓库的构建方法、***及服务器进行具体说明。
具体地,如图1所示,本实施例提供一种数据仓库的构建方法,所述数据仓库的构建方法包括以下步骤:
步骤S101,构建多层数据处理架构将数据分层处理。
步骤S102,从数据源抽取所需的数据并将抽取的数据清洗成符合预设要求的数据。
步骤S103,对数据处理任务进行调度和监管。
步骤S104,对所述多层数据处理架构中的数据的访问权限进行控制并对数据的整体运行状况进行监管。
以下对本实施例中的步骤S101~步骤S104进行具体说明。
步骤S101,构建多层数据处理架构将数据分层处理。
具体地,于本实施例中,所述多层数据处理架构包括:临时存储从所述数据源获取的数据的临时存储层、对清洗后的数据进行存储和处理的核心数据层、将数据进行组织形成对应数据主题的数据集市层以及面向用户处理用户输入的具体需求数据的应用层。数据分层可以简化整个数据仓库的构建工作,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,所以,于本实施例中,如图2所示,将数据仓库分为四层:ODS(临时存储层)、PDW(数据仓库层)、MID(数据集市层)以及APP(应用层)。
以下对本实施例中的ODS(临时存储层)、PDW(数据仓库层)、MID(数据集市层)以及APP(应用层)进行具体说明。
临时存储层(ODS)是接口数据的临时存储区域,为后一步的数据处理做准备。一般来说ODS层的数据和源数据***的数据是同构的,主要目的是简化后续数据加工处理的工作。
数据仓库层(PDW)的数据应该是一致的、准确的、干净的数据,即对源数据进行了清洗(去除了杂质)后的数据。这一层的数据一般是遵循数据库第三范式的,其数据粒度通常和ODS的粒度相同。在PDW层会保存BI(Business Intelligence,商业智能)***中所有的历史数据。
数据集市层(MID)是面向主题来组织数据的,通常是星形或雪花结构的数据。从数据粒度来说,这层的数据是轻度汇总级的数据,已经不存在明细数据了。从数据的时间跨度来说,通常是PDW层的一部分,主要的目的是为了满足用户分析的需求。
应用层(APP)这层数据是完全为了满足具体的分析需求而构建的数据,也是星形或雪花结构的数据。从数据粒度来说是高度汇总的数据。从数据的广度来说,则并不一定会覆盖所有业务数据,而是MID层数据的一个子集。
步骤S102,从数据源抽取所需的数据并将抽取的数据清洗成符合预设要求的数据。
ETL(Extract-Transform-Load)用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL是构建数据仓库不可或缺的一步,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
于本实施例中,所述从数据源抽取所需的数据中包括:数据抽取选择全量抽取或指定时间戳进行增量抽取并可通过指定字段和过滤条件进行选择性抽取。
于本实施例中,可根据需求对结构化或非结构化数据库表进行数据抽取,可对数据抽取的频率和数据抽取的条件进行过滤,可进行灵活的配置。
于本实施例中,通过配置清洗规则和算法,将数据清洗成格式规范、含义统一、质量良好的数据。具体地,于本实施例中,所述将抽取的数据清洗成符合预设要求的数据中包括:将不完整的数据信息补全、将错误数据清除、将重复数据去重以及将数据进行格式转换中的一种或多种组合。
步骤S103,对数据处理任务进行调度和监管。
对于企业级的数据仓库***,其中的处理程序成千上万,而这些处理程序之间的关系千丝万缕,如何有效的调度和管理这些任务是数据仓库管理中非常重要的工作,也是提高数据仓库运行性能和资源利用率的关键。
于本实施例中,所述对数据处理任务进行调度包括:将任务进行分组并根据配置的任务之间的依赖关系进行调度或根据设置的任务的优先级进行调度。
为了提高调度的性能,于本实施例中,调度使用线程池技术,为了更好地隔离各任务之间的互相影响和更好的控制资源的分配,对任务进行分组调度,一个组对应一个线程池,一个组中并行的任务数可配置。
具体地,任务的运行频率可设置为日、月、周,任务之间根据配置的依赖关系进行调度,任务依赖的子任务都执行完则任务进入可运行队列;或者可对任务设置优先级别,满足运行条件后优先级高的任务优先被调起。
根据不同的数据源,任务调度过程可以采用Java、SQL Procedure、shell等脚本语言实现。
于本实施例中,对数据处理任务进行监管包括但不限于:监管任务的新增、暂停和删除、查看任务的运行情况和耗时情况以及重新调度运行失败的任务。
步骤S104,对所述多层数据处理架构中的数据的访问权限进行控制并对数据的整体运行状况进行监管。
具体地,于本实施例中,针对仓库的不同消费人群进行权限的管理,对于数据仓库中的表进行权限的封装,包括部门、用户、角色、权限4个实体。可按照部门进行统一授权或者按指定用户进行单一授权,通过视图达到对表进行字段级别设置管理。
于本实施例中,所述对数据的整体运行状况进行监管包括:对操作***、数据仓库数据库的运行情况进行监控,采集数据运行负荷情况,便于查看***的性能瓶颈和异常情况,统一采集低效运行任务便于进行优化工作。
此外,于本实施例中,可以对所述数据集市层(MID)中的表进行全量或增量备份。
为实现上述数据仓库的构建方法,本实施例对应还提供一种数据仓库的构建***,具体地,如图3所示,所述数据仓库的构建***100包括:分层模块101,抽取模块102,清洗模块103,调度模块104,任务监管模块105,权限管理模块106以及数据监管模块107。
具体地,于本实施例中,所述分层模块101用于构建多层数据处理架构将数据分层处理。
于本实施例中,所述分层模块101构建的多层数据处理架构包括:临时存储从所述数据源获取的数据的临时存储层、对清洗后的数据进行存储和处理的核心数据层、将数据进行组织形成对应数据主题的数据集市层以及面向用户处理用户输入的具体需求数据的应用层。
数据分层可以简化整个数据仓库的构建工作,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,所以,于本实施例中,如图2所示,将数据仓库分为四层:ODS(临时存储层)、PDW(数据仓库层)、MID(数据集市层)以及APP(应用层)。
以下对本实施例中的ODS(临时存储层)、PDW(数据仓库层)、MID(数据集市层)以及APP(应用层)进行具体说明。,a):
临时存储层(ODS)是接口数据的临时存储区域,为后一步的数据处理做准备。一般来说ODS层的数据和源数据***的数据是同构的,主要目的是简化后续数据加工处理的工作。
数据仓库层(PDW)的数据应该是一致的、准确的、干净的数据,即对源数据进行了清洗(去除了杂质)后的数据。这一层的数据一般是遵循数据库第三范式的,其数据粒度通常和ODS的粒度相同。在PDW层会保存BI(Business Intelligence,商业智能)***中所有的历史数据。
数据集市层(MID)是面向主题来组织数据的,通常是星形或雪花结构的数据。从数据粒度来说,这层的数据是轻度汇总级的数据,已经不存在明细数据了。从数据的时间跨度来说,通常是PDW层的一部分,主要的目的是为了满足用户分析的需求。
应用层(APP)这层数据是完全为了满足具体的分析需求而构建的数据,也是星形或雪花结构的数据。从数据粒度来说是高度汇总的数据。从数据的广度来说,则并不一定会覆盖所有业务数据,而是MID层数据的一个子集。
于本实施例中,所述抽取模块102用于从数据源抽取所需的数据。
ETL(Extract-Transform-Load)用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL是构建数据仓库不可或缺的一步,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
具体地,于本实施例中,所述抽取模块102从数据源抽取所需的数据时选择全量抽取或指定时间戳进行增量抽取并可通过指定字段和过滤条件进行选择性抽取。
于本实施例中,可根据需求对结构化或非结构化数据库表进行数据抽取,可对数据抽取的频率和数据抽取的条件进行过滤,可进行灵活的配置。
具体地,于本实施例中,所述清洗模块103用于将抽取的数据清洗成符合预设要求的数据。
于本实施例中,通过配置清洗规则和算法,将数据清洗成格式规范、含义统一、质量良好的数据。具体地,于本实施例中,所述清洗模块103将抽取的数据清洗成符合预设要求的数据中包括:将不完整的数据信息补全、将错误数据清除、将重复数据去重以及将数据进行格式转换中的一种或多种组合。
具体地,于本实施例中,所述调度模块104用于对数据处理任务进行调度。
对于企业级的数据仓库***,其中的处理程序成千上万,而这些处理程序之间的关系千丝万缕,如何有效的调度和管理这些任务是数据仓库管理中非常重要的工作,也是提高数据仓库运行性能和资源利用率的关键。
于本实施例中,所述调度模块104对数据处理任务进行调度包括:将任务进行分组并根据配置的任务之间的依赖关系进行调度或根据设置的任务的优先级进行调度。
为了提高调度的性能,于本实施例中,所述调度模块104的调度使用线程池技术,为了更好地隔离各任务之间的互相影响和更好的控制资源的分配,所述调度模块104对任务进行分组调度,一个组对应一个线程池,一个组中并行的任务数可配置。
具体地,于所述调度模块104中,任务的运行频率可设置为日、月、周,任务之间根据配置的依赖关系进行调度,任务依赖的子任务都执行完则任务进入可运行队列;或者可对任务设置优先级别,满足运行条件后优先级高的任务优先被调起。
根据不同的数据源,所述调度模块104的任务调度过程可以采用Java、SQLProcedure、shell等脚本语言实现。
具体地,于本实施例中,所述任务监管模块105对数据处理任务进行监管。
于本实施例中,所述任务监管模块105对数据处理任务进行监管包括:监管任务的新增、暂停和删除、查看任务的运行情况和耗时情况以及重新调度运行失败的任务。
具体地,于本实施例中,所述权限管理模块106用于对所述多层数据处理架构中的数据的访问权限进行控制。
于本实施例中,针对仓库的不同消费人群进行权限的管理,对于数据仓库中的表进行权限的封装,包括部门、用户、角色、权限4个实体。可按照部门进行统一授权或者按指定用户进行单一授权,通过视图达到对表进行字段级别设置管理。
具体地,于本实施例中,所述数据监管模块107用于对数据的整体运行状况进行监管。
于本实施例中,所述数据监管模块107对数据的整体运行状况进行监管包括:对操作***、数据仓库数据库的运行情况进行监控,采集数据运行负荷情况,便于查看***的性能瓶颈和异常情况,统一采集低效运行任务便于进行优化工作。
此外,于本实施例中,所述数据监管模块107可以对所述数据集市层(MID)中的表进行全量或增量备份。
最后本实施例还提供一种服务器,所述服务器包括如上所述的数据仓库的构建***100。上述已经对所述数据仓库的构建***100进行了详细说明,在此不再赘述。
综上所述,本发明可以快速构建企业数据仓库,降低仓库构建的复杂度,缩短企业搭建数据仓库的开发周期,减少仓库开发、运维成本,具有广泛的应用前景。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (11)

1.一种数据仓库的构建方法,其特征在于,所述数据仓库的构建方法包括:
构建多层数据处理架构将数据分层处理;
从数据源抽取所需的数据并将抽取的数据清洗成符合预设要求的数据;
对数据处理任务进行调度和监管;
对所述多层数据处理架构中的数据的访问权限进行控制并对数据的整体运行状况进行监管。
2.根据权利要求1所述的数据仓库的构建方法,其特征在于,所述多层数据处理架构包括:临时存储从所述数据源获取的数据的临时存储层、对清洗后的数据进行存储和处理的核心数据层、将数据进行组织形成对应数据主题的数据集市层以及面向用户处理用户输入的具体需求数据的应用层。
3.根据权利要求1所述的数据仓库的构建方法,其特征在于,所述从数据源抽取所需的数据中包括:数据抽取选择全量抽取或指定时间戳进行增量抽取并可通过指定字段和过滤条件进行选择性抽取。
4.根据权利要求1所述的数据仓库的构建方法,其特征在于,所述将抽取的数据清洗成符合预设要求的数据中包括:将不完整的数据信息补全、将错误数据清除、将重复数据去重以及将数据进行格式转换中的一种或多种组合。
5.根据权利要求1所述的数据仓库的构建方法,其特征在于,所述对数据处理任务进行调度包括:将任务进行分组并根据配置的任务之间的依赖关系进行调度或根据设置的任务的优先级进行调度;对数据处理任务进行监管包括:监管任务的新增、暂停和删除、查看任务的运行情况和耗时情况以及重新调度运行失败的任务。
6.一种数据仓库的构建***,其特征在于,所述数据仓库的构建***包括:
分层模块,用于构建多层数据处理架构将数据分层处理;
抽取模块,用于从数据源抽取所需的数据;
清洗模块,用于将抽取的数据清洗成符合预设要求的数据;
调度模块,用于对数据处理任务进行调度;
任务监管模块,对数据处理任务进行监管;
权限管理模块,用于对所述多层数据处理架构中的数据的访问权限进行控制;
数据监管模块,用于对数据的整体运行状况进行监管。
7.根据权利要求6所述的数据仓库的构建***,其特征在于,所述分层模块构建的多层数据处理架构包括:临时存储从所述数据源获取的数据的临时存储层、对清洗后的数据进行存储和处理的核心数据层、将数据进行组织形成对应数据主题的数据集市层以及面向用户处理用户输入的具体需求数据的应用层。
8.根据权利要求7所述的数据仓库的构建***,其特征在于,所述抽取模块从数据源抽取所需的数据时选择全量抽取或指定时间戳进行增量抽取并可通过指定字段和过滤条件进行选择性抽取。
9.根据权利要求6所述的数据仓库的构建***,其特征在于,所述清洗模块将抽取的数据清洗成符合预设要求的数据中包括:将不完整的数据信息补全、将错误数据清除、将重复数据去重以及将数据进行格式转换中的一种或多种组合。
10.根据权利要求6所述的数据仓库的构建***,其特征在于,所述调度模块对数据处理任务进行调度包括:将任务进行分组并根据配置的任务之间的依赖关系进行调度或根据设置的任务的优先级进行调度;所述任务监管模块对数据处理任务进行监管包括:监管任务的新增、暂停和删除、查看任务的运行情况和耗时情况以及重新调度运行失败的任务。
11.一种服务器,其特征在于,所述服务器包括如权利要求6至权利要求10任一权利要求所述的数据仓库的构建***。
CN201710009996.6A 2017-01-06 2017-01-06 一种数据仓库的构建方法、***及服务器 Pending CN108280084A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710009996.6A CN108280084A (zh) 2017-01-06 2017-01-06 一种数据仓库的构建方法、***及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710009996.6A CN108280084A (zh) 2017-01-06 2017-01-06 一种数据仓库的构建方法、***及服务器

Publications (1)

Publication Number Publication Date
CN108280084A true CN108280084A (zh) 2018-07-13

Family

ID=62800908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710009996.6A Pending CN108280084A (zh) 2017-01-06 2017-01-06 一种数据仓库的构建方法、***及服务器

Country Status (1)

Country Link
CN (1) CN108280084A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109150283A (zh) * 2018-07-23 2019-01-04 千寻位置网络有限公司 观测数据的传输方法及终端、代理服务器及数据播发***
CN109189764A (zh) * 2018-09-20 2019-01-11 北京桃花岛信息技术有限公司 一种基于Hive的高校数据仓库分层设计方法
CN109241042A (zh) * 2018-07-24 2019-01-18 新华三大数据技术有限公司 数据处理方法、装置以及电子设备
CN109597846A (zh) * 2018-10-22 2019-04-09 平安科技(深圳)有限公司 大数据平台数据仓库数据处理方法、装置和计算机设备
CN109840269A (zh) * 2018-12-26 2019-06-04 成都康赛信息技术有限公司 基于四层数据架构的数据关系可视化管理方法
CN111104394A (zh) * 2019-12-31 2020-05-05 新奥数能科技有限公司 一种能源数据仓库***构建方法及装置
CN112035450A (zh) * 2020-07-30 2020-12-04 深圳市中盛瑞达科技有限公司 一种基于kettle的数据仓库实时构建方法
CN112231301A (zh) * 2020-10-21 2021-01-15 黄河水利委员会黄河水利科学研究院 黄河水沙变化数据仓库
CN112540854A (zh) * 2020-12-28 2021-03-23 上海体素信息科技有限公司 在限定硬件资源条件下的深度学习模型调度部署方法及***
CN112699096A (zh) * 2020-12-30 2021-04-23 银盛支付服务股份有限公司 一种基于大数据的数据访问权限控制的方法
CN113032495A (zh) * 2021-03-23 2021-06-25 深圳市酷开网络科技股份有限公司 基于数据仓库的多层数据存储***、处理方法、及服务器
WO2021135727A1 (zh) * 2019-12-31 2021-07-08 新奥数能科技有限公司 一种能源数据仓库***
CN113190630A (zh) * 2021-05-31 2021-07-30 深圳金石创新科技有限公司 一种构建企业数据仓库的数据整合方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040249644A1 (en) * 2003-06-06 2004-12-09 International Business Machines Corporation Method and structure for near real-time dynamic ETL (extraction, transformation, loading) processing
CN104239100A (zh) * 2014-09-11 2014-12-24 浪潮软件集团有限公司 一种通用数据处理方法
CN104731791A (zh) * 2013-12-18 2015-06-24 东阳艾维德广告传媒有限公司 一种市场销售分析数据集市***
CN104933112A (zh) * 2015-06-04 2015-09-23 浙江力石科技股份有限公司 分布式互联网交易信息存储处理方法
CN105933446A (zh) * 2016-06-28 2016-09-07 中国农业银行股份有限公司 一种大数据平台业务双活实现方法及***
CN106202346A (zh) * 2016-06-29 2016-12-07 浙江理工大学 一种数据加载清洗引擎、调度与存储***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040249644A1 (en) * 2003-06-06 2004-12-09 International Business Machines Corporation Method and structure for near real-time dynamic ETL (extraction, transformation, loading) processing
CN104731791A (zh) * 2013-12-18 2015-06-24 东阳艾维德广告传媒有限公司 一种市场销售分析数据集市***
CN104239100A (zh) * 2014-09-11 2014-12-24 浪潮软件集团有限公司 一种通用数据处理方法
CN104933112A (zh) * 2015-06-04 2015-09-23 浙江力石科技股份有限公司 分布式互联网交易信息存储处理方法
CN105933446A (zh) * 2016-06-28 2016-09-07 中国农业银行股份有限公司 一种大数据平台业务双活实现方法及***
CN106202346A (zh) * 2016-06-29 2016-12-07 浙江理工大学 一种数据加载清洗引擎、调度与存储***

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109150283B (zh) * 2018-07-23 2021-02-19 千寻位置网络有限公司 观测数据的传输方法及终端、代理服务器及数据播发***
CN109150283A (zh) * 2018-07-23 2019-01-04 千寻位置网络有限公司 观测数据的传输方法及终端、代理服务器及数据播发***
CN109241042B (zh) * 2018-07-24 2020-12-08 新华三大数据技术有限公司 数据处理方法、装置以及电子设备
CN109241042A (zh) * 2018-07-24 2019-01-18 新华三大数据技术有限公司 数据处理方法、装置以及电子设备
CN109189764A (zh) * 2018-09-20 2019-01-11 北京桃花岛信息技术有限公司 一种基于Hive的高校数据仓库分层设计方法
CN109597846A (zh) * 2018-10-22 2019-04-09 平安科技(深圳)有限公司 大数据平台数据仓库数据处理方法、装置和计算机设备
CN109597846B (zh) * 2018-10-22 2024-05-07 平安科技(深圳)有限公司 大数据平台数据仓库数据处理方法、装置和计算机设备
CN109840269A (zh) * 2018-12-26 2019-06-04 成都康赛信息技术有限公司 基于四层数据架构的数据关系可视化管理方法
CN111104394A (zh) * 2019-12-31 2020-05-05 新奥数能科技有限公司 一种能源数据仓库***构建方法及装置
WO2021135177A1 (zh) * 2019-12-31 2021-07-08 新奥数能科技有限公司 一种能源数据仓库***构建方法及装置
WO2021135727A1 (zh) * 2019-12-31 2021-07-08 新奥数能科技有限公司 一种能源数据仓库***
CN112035450A (zh) * 2020-07-30 2020-12-04 深圳市中盛瑞达科技有限公司 一种基于kettle的数据仓库实时构建方法
CN112035450B (zh) * 2020-07-30 2021-10-29 深圳市中盛瑞达科技有限公司 一种基于kettle的数据仓库实时构建方法
CN112231301A (zh) * 2020-10-21 2021-01-15 黄河水利委员会黄河水利科学研究院 黄河水沙变化数据仓库
CN112540854A (zh) * 2020-12-28 2021-03-23 上海体素信息科技有限公司 在限定硬件资源条件下的深度学习模型调度部署方法及***
CN112699096A (zh) * 2020-12-30 2021-04-23 银盛支付服务股份有限公司 一种基于大数据的数据访问权限控制的方法
CN113032495A (zh) * 2021-03-23 2021-06-25 深圳市酷开网络科技股份有限公司 基于数据仓库的多层数据存储***、处理方法、及服务器
CN113190630A (zh) * 2021-05-31 2021-07-30 深圳金石创新科技有限公司 一种构建企业数据仓库的数据整合方法及***
CN113190630B (zh) * 2021-05-31 2022-02-01 深圳金石创新科技有限公司 一种构建企业数据仓库的数据整合方法及***

Similar Documents

Publication Publication Date Title
CN108280084A (zh) 一种数据仓库的构建方法、***及服务器
Li et al. Preventive maintenance scheduling optimization based on opportunistic production-maintenance synchronization
El-Seoud et al. Big Data and Cloud Computing: Trends and Challenges.
Wu et al. A self-tuning system based on application profiling and performance analysis for optimizing hadoop mapreduce cluster configuration
US20140358844A1 (en) Workflow controller compatibility
Sivaraman et al. High performance and fault tolerant distributed file system for big data storage and processing using hadoop
WO2016053695A1 (en) Apparatus and method for scheduling distributed workflow tasks
CN108829505A (zh) 一种分布式调度***及方法
CN106227862A (zh) 基于分布式的电商数据整合方法
Dagade et al. Big data weather analytics using hadoop
CN105868222A (zh) 一种任务调度方法及装置
Jun et al. Cloud computing based solution to decision making
CN106528297A (zh) 一种管理任务的***
Talib et al. A multi-agent framework for data extraction, transformation and loading in data warehouse
CN117182910A (zh) 一种智能装配机器人装配控制方法及控制***
Nemeth et al. Determination issues of data mining process of failures in the production systems
Arnold et al. Machine Learning Models for Cyberattack Detection in Industrial Control Systems
Jamal et al. Performance Comparison between S3, HDFS and RDS storage technologies for real-time big-data applications
EP4113418B1 (en) Non-linear planning model based production planning system, production planning method and computer-readable storage medium
Ionescu et al. An architecture and methods for big data analysis
CN115714807A (zh) 工业场景数据中台的设计***
Shouaib et al. Survey on iot-based big data analytics
Hassan et al. Real-time big data analytics for data stream challenges: an overview
Marinescu et al. Software system for inventory and assessment of the wear of computing machines from a network of grid data centers
Ren et al. Application massive data processing platform for smart manufacturing based on optimization of data storage

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180713

RJ01 Rejection of invention patent application after publication