CN108280084A

CN108280084A - 一种数据仓库的构建方法、***及服务器

Info

Publication number: CN108280084A
Application number: CN201710009996.6A
Authority: CN
Inventors: 董林
Original assignee: Shanghai Pre Long Mdt Infotech Ltd
Current assignee: Shanghai Pre Long Mdt Infotech Ltd
Priority date: 2017-01-06
Filing date: 2017-01-06
Publication date: 2018-07-13

Abstract

本发明提供一种数据仓库的构建方法、***及服务器，所述方法包括：构建多层数据处理架构将数据分层处理；从数据源抽取所需的数据并将抽取的数据清洗成符合预设要求的数据；对数据处理任务进行调度和监管；对多层数据处理架构中的数据的访问权限进行控制并对数据的整体运行状况进行监管；所述多层数据处理架构包括：临时存储从所述数据源获取的数据的临时存储层、对清洗后的数据进行存储和处理的核心数据层、将数据进行组织形成对应数据主题的数据集市层以及面向用户处理用户输入的具体需求数据的应用层。本发明可以快速构建企业数据仓库，降低仓库构建的复杂度，缩短企业搭建数据仓库的开发周期，减少仓库开发、运维成本，具有广泛的应用前景。

Description

一种数据仓库的构建方法、***及服务器

技术领域

本发明涉及计算机软件技术领域，具体为一种数据仓库的构建方法、***及服务器。

背景技术

数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库是决策支持***(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。

数据仓库，由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出，主要功能仍是将组织透过资讯***之联机事务处理(OLTP)经年累月所累积的大量资料，透过数据仓库理论所特有的资料储存架构，作一有***的分析整理，以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行，并进而支持如决策支持***(DSS)、主管资讯***(EIS)之创建，帮助决策者能快速有效的自大量资料中，分析出有价值的资讯，以利决策拟定及快速回应外在环境变动，帮助建构商业智能(BI)。

数据仓库是一个为企业决策者提供数据分析处理的集成、统一的数据平台；其主要用于支持经营管理中的，数据分析、决策支持、数据挖掘、业务报表等；数据仓库的目的是建立一种体系结构化的数据存储环境，将分析决策所需要的大量数据从传统的操作环境中分离出来，使分散、不一致的操作数据转换为集成、统一的信息。主要有以下特点：

数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过***加工、汇总和整理得到的，必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企业的一致的全局信息。

数据仓库的数据主要供企业决策分析之用，所涉及的数据操作主要是数据查询，一旦某个数据进入数据仓库以后，一般情况下将被长期保留，也就是数据仓库中一般有大量的查询操作，但修改和删除操作很少，通常只需要定期的加载、刷新。

数据仓库中的数据通常包含历史信息，***记录了企业从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息，通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测。

信息技术与数据智能大环境下，数据仓库在软硬件领域、Internet和企业内部网解决方案以及数据库方面提供了许多经济高效的计算资源，可以保存极大量的数据供分析使用，且允许使用多种数据访问技术。

近年来，随着互联网行业的快速发展，越来越多的企业出于对业务发展和风险控制的需要都急需建立一套自己的数据仓库供决策分析、模型训练使用。互联网与传统企业数据的差异：

1)数据量***式增长，远快于传统企业数据的增长速度；2)互联网行业的数据多样性，不但包含了大量的传统的结构化数据，而且包含了许多非结构化的数据；3)互联网企业对于数据时效性的要求要远高于传统型企业；4)仓库分析的结果需要能够对业务进行快速响应；5)互联网行业的业务变化非常快，不可能像传统行业一样，使用自顶向下的方法建立数据仓库，它要求新的业务很快能融入数据仓库中来，老的下线的业务，能很方便的从现有的数据仓库中下线。传统的数据仓库开发和运维成本较高，建设周期长，数据格式单一，已不能满足互联网企业的快速发展的需求。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种数据仓库的构建方法、***及服务器，用于解决现有技术中数据仓库的构建开发周期较长，开发和运维成本较高的问题。

为实现上述目的及其他相关目的，本发明提供一种数据仓库的构建方法，所述数据仓库的构建方法包括：构建多层数据处理架构将数据分层处理；从数据源抽取所需的数据并将抽取的数据清洗成符合预设要求的数据；对数据处理任务进行调度和监管；对所述多层数据处理架构中的数据的访问权限进行控制并对数据的整体运行状况进行监管。

于本发明的一实施例中，所述多层数据处理架构包括：临时存储从所述数据源获取的数据的临时存储层、对清洗后的数据进行存储和处理的核心数据层、将数据进行组织形成对应数据主题的数据集市层以及面向用户处理用户输入的具体需求数据的应用层。

于本发明的一实施例中，所述从数据源抽取所需的数据中包括：数据抽取选择全量抽取或指定时间戳进行增量抽取并可通过指定字段和过滤条件进行选择性抽取。

于本发明的一实施例中，所述将抽取的数据清洗成符合预设要求的数据中包括：将不完整的数据信息补全、将错误数据清除、将重复数据去重以及将数据进行格式转换中的一种或多种组合。

于本发明的一实施例中，所述对数据处理任务进行调度包括：将任务进行分组并根据配置的任务之间的依赖关系进行调度或根据设置的任务的优先级进行调度；对数据处理任务进行监管包括：监管任务的新增、暂停和删除、查看任务的运行情况和耗时情况以及重新调度运行失败的任务。

为实现上述目的，本发明还提供一种数据仓库的构建***，所述数据仓库的构建***包括：分层模块，用于构建多层数据处理架构将数据分层处理；抽取模块，用于从数据源抽取所需的数据；清洗模块，用于将抽取的数据清洗成符合预设要求的数据；调度模块，用于对数据处理任务进行调度；任务监管模块，对数据处理任务进行监管；权限管理模块，用于对所述多层数据处理架构中的数据的访问权限进行控制；数据监管模块，用于对数据的整体运行状况进行监管。

于本发明的一实施例中，所述分层模块构建的多层数据处理架构包括：临时存储从所述数据源获取的数据的临时存储层、对清洗后的数据进行存储和处理的核心数据层、将数据进行组织形成对应数据主题的数据集市层以及面向用户处理用户输入的具体需求数据的应用层。

于本发明的一实施例中，所述抽取模块从数据源抽取所需的数据时选择全量抽取或指定时间戳进行增量抽取并可通过指定字段和过滤条件进行选择性抽取。

于本发明的一实施例中，所述清洗模块将抽取的数据清洗成符合预设要求的数据中包括：将不完整的数据信息补全、将错误数据清除、将重复数据去重以及将数据进行格式转换中的一种或多种组合。

于本发明的一实施例中，所述调度模块对数据处理任务进行调度包括：将任务进行分组并根据配置的任务之间的依赖关系进行调度或根据设置的任务的优先级进行调度；所述任务监管模块对数据处理任务进行监管包括：监管任务的新增、暂停和删除、查看任务的运行情况和耗时情况以及重新调度运行失败的任务。

为实现上述目的，本发明还提供一种服务器，所述服务器包括如上所述的数据仓库的构建***。

如上所述，本发明的一种数据仓库的构建方法、***及服务器，具有以下有益效果：

本发明可以快速构建企业数据仓库，降低仓库构建的复杂度，缩短企业搭建数据仓库的开发周期，减少仓库开发、运维成本，具有广泛的应用前景。

附图说明

图1显示为本发明的一种数据仓库的构建方法的具体流程示意图。

图2显示为本发明的一种数据仓库的构建方法的构建示意图。

图3显示为本发明的一种数据仓库的构建***的原理框图。

元件标号说明

100 数据仓库的构建***

101 分层模块

102 抽取模块

103 清洗模块

104 调度模块

105 任务监管模块

106 权限管理模块

107 数据监管模块

S101～S104 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

本发明的目的在于提供一种数据仓库的构建方法、***及服务器，用于解决现有技术中数据仓库的构建时产生的负载量大、退出耗时长、数据丢失或需要数据重发的问题。以下将详细阐述本发明的一种数据仓库的构建方法、***及服务器的原理及实施方式，使本领域技术人员不需要创造性劳动即可理解本发明的一种数据仓库的构建方法、***及服务器。

本实施例中的数据仓库的构建方法、***及服务器旨在快速构建企业数据仓库，包括整体架构、数据的抽取转换和任务的开发、调度、集成、部署，减少仓库开发、运维成本，更高效的发挥企业数据的价值。

以下对本实施例中的数据仓库的构建方法、***及服务器进行具体说明。

具体地，如图1所示，本实施例提供一种数据仓库的构建方法，所述数据仓库的构建方法包括以下步骤：

步骤S101，构建多层数据处理架构将数据分层处理。

步骤S102，从数据源抽取所需的数据并将抽取的数据清洗成符合预设要求的数据。

步骤S103，对数据处理任务进行调度和监管。

步骤S104，对所述多层数据处理架构中的数据的访问权限进行控制并对数据的整体运行状况进行监管。

以下对本实施例中的步骤S101～步骤S104进行具体说明。

步骤S101，构建多层数据处理架构将数据分层处理。

具体地，于本实施例中，所述多层数据处理架构包括：临时存储从所述数据源获取的数据的临时存储层、对清洗后的数据进行存储和处理的核心数据层、将数据进行组织形成对应数据主题的数据集市层以及面向用户处理用户输入的具体需求数据的应用层。数据分层可以简化整个数据仓库的构建工作，因为把原来一步的工作分到了多个步骤去完成，相当于把一个复杂的工作拆成了多个简单的工作，所以，于本实施例中，如图2所示，将数据仓库分为四层：ODS(临时存储层)、PDW(数据仓库层)、MID(数据集市层)以及APP(应用层)。

以下对本实施例中的ODS(临时存储层)、PDW(数据仓库层)、MID(数据集市层)以及APP(应用层)进行具体说明。

临时存储层(ODS)是接口数据的临时存储区域，为后一步的数据处理做准备。一般来说ODS层的数据和源数据***的数据是同构的，主要目的是简化后续数据加工处理的工作。

数据仓库层(PDW)的数据应该是一致的、准确的、干净的数据，即对源数据进行了清洗(去除了杂质)后的数据。这一层的数据一般是遵循数据库第三范式的，其数据粒度通常和ODS的粒度相同。在PDW层会保存BI(Business Intelligence，商业智能)***中所有的历史数据。

数据集市层(MID)是面向主题来组织数据的，通常是星形或雪花结构的数据。从数据粒度来说，这层的数据是轻度汇总级的数据，已经不存在明细数据了。从数据的时间跨度来说，通常是PDW层的一部分，主要的目的是为了满足用户分析的需求。

应用层(APP)这层数据是完全为了满足具体的分析需求而构建的数据，也是星形或雪花结构的数据。从数据粒度来说是高度汇总的数据。从数据的广度来说，则并不一定会覆盖所有业务数据，而是MID层数据的一个子集。

ETL(Extract-Transform-Load)用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL是构建数据仓库不可或缺的一步，用户从数据源抽取出所需的数据，经过数据清洗，最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。

于本实施例中，所述从数据源抽取所需的数据中包括：数据抽取选择全量抽取或指定时间戳进行增量抽取并可通过指定字段和过滤条件进行选择性抽取。

于本实施例中，可根据需求对结构化或非结构化数据库表进行数据抽取，可对数据抽取的频率和数据抽取的条件进行过滤，可进行灵活的配置。

于本实施例中，通过配置清洗规则和算法，将数据清洗成格式规范、含义统一、质量良好的数据。具体地，于本实施例中，所述将抽取的数据清洗成符合预设要求的数据中包括：将不完整的数据信息补全、将错误数据清除、将重复数据去重以及将数据进行格式转换中的一种或多种组合。

步骤S103，对数据处理任务进行调度和监管。

对于企业级的数据仓库***，其中的处理程序成千上万，而这些处理程序之间的关系千丝万缕，如何有效的调度和管理这些任务是数据仓库管理中非常重要的工作，也是提高数据仓库运行性能和资源利用率的关键。

于本实施例中，所述对数据处理任务进行调度包括：将任务进行分组并根据配置的任务之间的依赖关系进行调度或根据设置的任务的优先级进行调度。

为了提高调度的性能，于本实施例中，调度使用线程池技术，为了更好地隔离各任务之间的互相影响和更好的控制资源的分配，对任务进行分组调度，一个组对应一个线程池，一个组中并行的任务数可配置。

具体地，任务的运行频率可设置为日、月、周，任务之间根据配置的依赖关系进行调度，任务依赖的子任务都执行完则任务进入可运行队列；或者可对任务设置优先级别，满足运行条件后优先级高的任务优先被调起。

根据不同的数据源，任务调度过程可以采用Java、SQL Procedure、shell等脚本语言实现。

于本实施例中，对数据处理任务进行监管包括但不限于：监管任务的新增、暂停和删除、查看任务的运行情况和耗时情况以及重新调度运行失败的任务。

具体地，于本实施例中，针对仓库的不同消费人群进行权限的管理，对于数据仓库中的表进行权限的封装，包括部门、用户、角色、权限4个实体。可按照部门进行统一授权或者按指定用户进行单一授权，通过视图达到对表进行字段级别设置管理。

于本实施例中，所述对数据的整体运行状况进行监管包括：对操作***、数据仓库数据库的运行情况进行监控，采集数据运行负荷情况，便于查看***的性能瓶颈和异常情况，统一采集低效运行任务便于进行优化工作。

此外，于本实施例中，可以对所述数据集市层(MID)中的表进行全量或增量备份。

为实现上述数据仓库的构建方法，本实施例对应还提供一种数据仓库的构建***，具体地，如图3所示，所述数据仓库的构建***100包括：分层模块101，抽取模块102，清洗模块103，调度模块104，任务监管模块105，权限管理模块106以及数据监管模块107。

具体地，于本实施例中，所述分层模块101用于构建多层数据处理架构将数据分层处理。

于本实施例中，所述分层模块101构建的多层数据处理架构包括：临时存储从所述数据源获取的数据的临时存储层、对清洗后的数据进行存储和处理的核心数据层、将数据进行组织形成对应数据主题的数据集市层以及面向用户处理用户输入的具体需求数据的应用层。

数据分层可以简化整个数据仓库的构建工作，因为把原来一步的工作分到了多个步骤去完成，相当于把一个复杂的工作拆成了多个简单的工作，所以，于本实施例中，如图2所示，将数据仓库分为四层：ODS(临时存储层)、PDW(数据仓库层)、MID(数据集市层)以及APP(应用层)。

以下对本实施例中的ODS(临时存储层)、PDW(数据仓库层)、MID(数据集市层)以及APP(应用层)进行具体说明。，a)：

于本实施例中，所述抽取模块102用于从数据源抽取所需的数据。

具体地，于本实施例中，所述抽取模块102从数据源抽取所需的数据时选择全量抽取或指定时间戳进行增量抽取并可通过指定字段和过滤条件进行选择性抽取。

具体地，于本实施例中，所述清洗模块103用于将抽取的数据清洗成符合预设要求的数据。

于本实施例中，通过配置清洗规则和算法，将数据清洗成格式规范、含义统一、质量良好的数据。具体地，于本实施例中，所述清洗模块103将抽取的数据清洗成符合预设要求的数据中包括：将不完整的数据信息补全、将错误数据清除、将重复数据去重以及将数据进行格式转换中的一种或多种组合。

具体地，于本实施例中，所述调度模块104用于对数据处理任务进行调度。

于本实施例中，所述调度模块104对数据处理任务进行调度包括：将任务进行分组并根据配置的任务之间的依赖关系进行调度或根据设置的任务的优先级进行调度。

为了提高调度的性能，于本实施例中，所述调度模块104的调度使用线程池技术，为了更好地隔离各任务之间的互相影响和更好的控制资源的分配，所述调度模块104对任务进行分组调度，一个组对应一个线程池，一个组中并行的任务数可配置。

具体地，于所述调度模块104中，任务的运行频率可设置为日、月、周，任务之间根据配置的依赖关系进行调度，任务依赖的子任务都执行完则任务进入可运行队列；或者可对任务设置优先级别，满足运行条件后优先级高的任务优先被调起。

根据不同的数据源，所述调度模块104的任务调度过程可以采用Java、SQLProcedure、shell等脚本语言实现。

具体地，于本实施例中，所述任务监管模块105对数据处理任务进行监管。

于本实施例中，所述任务监管模块105对数据处理任务进行监管包括：监管任务的新增、暂停和删除、查看任务的运行情况和耗时情况以及重新调度运行失败的任务。

具体地，于本实施例中，所述权限管理模块106用于对所述多层数据处理架构中的数据的访问权限进行控制。

于本实施例中，针对仓库的不同消费人群进行权限的管理，对于数据仓库中的表进行权限的封装，包括部门、用户、角色、权限4个实体。可按照部门进行统一授权或者按指定用户进行单一授权，通过视图达到对表进行字段级别设置管理。

具体地，于本实施例中，所述数据监管模块107用于对数据的整体运行状况进行监管。

于本实施例中，所述数据监管模块107对数据的整体运行状况进行监管包括：对操作***、数据仓库数据库的运行情况进行监控，采集数据运行负荷情况，便于查看***的性能瓶颈和异常情况，统一采集低效运行任务便于进行优化工作。

此外，于本实施例中，所述数据监管模块107可以对所述数据集市层(MID)中的表进行全量或增量备份。

最后本实施例还提供一种服务器，所述服务器包括如上所述的数据仓库的构建***100。上述已经对所述数据仓库的构建***100进行了详细说明，在此不再赘述。

综上所述，本发明可以快速构建企业数据仓库，降低仓库构建的复杂度，缩短企业搭建数据仓库的开发周期，减少仓库开发、运维成本，具有广泛的应用前景。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种数据仓库的构建方法，其特征在于，所述数据仓库的构建方法包括：

构建多层数据处理架构将数据分层处理；

从数据源抽取所需的数据并将抽取的数据清洗成符合预设要求的数据；

对数据处理任务进行调度和监管；

对所述多层数据处理架构中的数据的访问权限进行控制并对数据的整体运行状况进行监管。

2.根据权利要求1所述的数据仓库的构建方法，其特征在于，所述多层数据处理架构包括：临时存储从所述数据源获取的数据的临时存储层、对清洗后的数据进行存储和处理的核心数据层、将数据进行组织形成对应数据主题的数据集市层以及面向用户处理用户输入的具体需求数据的应用层。

3.根据权利要求1所述的数据仓库的构建方法，其特征在于，所述从数据源抽取所需的数据中包括：数据抽取选择全量抽取或指定时间戳进行增量抽取并可通过指定字段和过滤条件进行选择性抽取。

4.根据权利要求1所述的数据仓库的构建方法，其特征在于，所述将抽取的数据清洗成符合预设要求的数据中包括：将不完整的数据信息补全、将错误数据清除、将重复数据去重以及将数据进行格式转换中的一种或多种组合。

5.根据权利要求1所述的数据仓库的构建方法，其特征在于，所述对数据处理任务进行调度包括：将任务进行分组并根据配置的任务之间的依赖关系进行调度或根据设置的任务的优先级进行调度；对数据处理任务进行监管包括：监管任务的新增、暂停和删除、查看任务的运行情况和耗时情况以及重新调度运行失败的任务。

6.一种数据仓库的构建***，其特征在于，所述数据仓库的构建***包括：

分层模块，用于构建多层数据处理架构将数据分层处理；

抽取模块，用于从数据源抽取所需的数据；

清洗模块，用于将抽取的数据清洗成符合预设要求的数据；

调度模块，用于对数据处理任务进行调度；

任务监管模块，对数据处理任务进行监管；

权限管理模块，用于对所述多层数据处理架构中的数据的访问权限进行控制；

数据监管模块，用于对数据的整体运行状况进行监管。

7.根据权利要求6所述的数据仓库的构建***，其特征在于，所述分层模块构建的多层数据处理架构包括：临时存储从所述数据源获取的数据的临时存储层、对清洗后的数据进行存储和处理的核心数据层、将数据进行组织形成对应数据主题的数据集市层以及面向用户处理用户输入的具体需求数据的应用层。

8.根据权利要求7所述的数据仓库的构建***，其特征在于，所述抽取模块从数据源抽取所需的数据时选择全量抽取或指定时间戳进行增量抽取并可通过指定字段和过滤条件进行选择性抽取。

9.根据权利要求6所述的数据仓库的构建***，其特征在于，所述清洗模块将抽取的数据清洗成符合预设要求的数据中包括：将不完整的数据信息补全、将错误数据清除、将重复数据去重以及将数据进行格式转换中的一种或多种组合。

10.根据权利要求6所述的数据仓库的构建***，其特征在于，所述调度模块对数据处理任务进行调度包括：将任务进行分组并根据配置的任务之间的依赖关系进行调度或根据设置的任务的优先级进行调度；所述任务监管模块对数据处理任务进行监管包括：监管任务的新增、暂停和删除、查看任务的运行情况和耗时情况以及重新调度运行失败的任务。

11.一种服务器，其特征在于，所述服务器包括如权利要求6至权利要求10任一权利要求所述的数据仓库的构建***。