CN111078766A - 一种基于多维理论的数据仓库模型建设***及方法 - Google Patents
一种基于多维理论的数据仓库模型建设***及方法 Download PDFInfo
- Publication number
- CN111078766A CN111078766A CN201911124899.7A CN201911124899A CN111078766A CN 111078766 A CN111078766 A CN 111078766A CN 201911124899 A CN201911124899 A CN 201911124899A CN 111078766 A CN111078766 A CN 111078766A
- Authority
- CN
- China
- Prior art keywords
- model
- dimension
- data
- measurement
- data warehouse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于多维理论的数据仓库模型建设***及其建设方法,属于数据仓库领域,基于多维模型设计的基础上改进,通过将设计模型的元数据在元模型中沉淀下来,充分利用元数据自动构建星型多维数据模型,缩短数据模型设计;***包括元数据模型、维度及层次、度量组及度量、数据方体、物理模型等模块,通过构建这一系列的模块实现数据仓库物理模型自动化产生,本发明采用了单独构建多维设计元模型,抛弃了传统的数据模型设计工具,实现了基于数据模型元数据把物理模型脚本产生自动化,与传统的设计相比缩短了数据模型设计过程,提高了数据仓库建设的效率。
Description
技术领域
本发明属于数据仓库领域,尤其涉及一种基于多维理论的数据仓库模型建设***及其建设方法。
背景技术
构建数据仓库的过程中,数据仓库模型是基础,数据的处理过程(ETL)是核心。
一般传统的构建过程是首先是通过数据建模工具构建多维数据模型,在建设模型的过程中需要人工的创建大量的维度表和事实表,耗费了非常多的人力,并且很难使用标准规范约束,就导致了产出的数据模型不规范、不统一,给后续的数据处理和数据的应用带来不必要的工作量开销和隐患。
其次是数据处理过程(ETL),传统的ETL过程是人工根据数据仓库模型设计ETL的映射处理关系,然后ETL工程师根据ETL设计文档开发ETL任务,这样做的ETL任务很难保障和数据仓库模型的设计保持一致,带来了大量的测试和反复修改的工作量。
发明内容
本发明所要解决的技术问题是针对背景技术的不足提供一种基于多维理论的数据仓库模型建设***及其建设方法,通过改进设计方法、将设计元数据通过元模型沉淀下来,充分利用元模型数据内容构建建设数据仓库需要的物理数据模型,缩短数据仓库的建设过程,为数据处理过程ETL提供元数据支持。
本发明为解决上述技术问题采用以下技术方案:
一种基于多维理论的数据仓库模型建设***,包括元数据模型模块、维度及层次模块、度量组及度量模块、数据方体模块、物理模型等模块;
其中,元数据模型模块,用于管理和存储数据仓库模型元数据;
维度及层次模块,用于定义数据仓库模型中的维度模型;
度量组及度量模块,用于定义数据仓库中的度量模型;
数据方体模块,用于定义整个数据仓库模型,是将维度模型和度量模型结合后构建的模型;
物理模型,用于构建实体数据仓库的数据模型,是最终的输出结果。
一种基于多维理论的数据仓库模型建设***的建设方法,具体包含如下步骤;
步骤1,定义维度,维度是看数据的视角,通过对业务需求的理解分析,梳理出相应的数据维度信息,定义维度的描述信息;
步骤2,定义维度层次,维度的层次是数据计算从低粒度往高粒度计算和观察的基础,定义维度层次的描述信息;
步骤3,定义度量组,度量组是一组相关性的度量的集合,是构建数据主题应用的基础,定义度量组的描述信息;
步骤4,定义度量,度量即衡量业务的标准,是按照维度观察分析的具体内容,通过分析业务需求分析,整理出相关的度量,如销售数量、销售金额、客户数量、采购数量、采购金额等等,定义度量的描述信息,包括所属度量组、度量代码、度量名称、度量的计算方法(聚合、平均、最大、最小、计数)、排序号;
步骤5,构建数据方体,根据业务需求分析,根据步骤1的维护维度和步骤3的度量组的关系,构建成数据方体;
步骤6,保存用电子表格或者开发相应的软件实现的元数据,将步骤1至步骤5产生的元数据包含维度、维度层次、度量组、度量和数据方体保存到元模型中;
步骤7,构建建库脚本,读取用SQL或者开发相应的软件实现元模型元数据,构建出创建数据仓库所需要的维度表和事实表见表的SQL脚本;
作为本发明一种基于多维理论的数据仓库模型建设***的建设方法的进一步优选方案,
在步骤1中,所述数据维度信息包含组织维度、日期维度、商品维度、客户维
度,维度的描述信息包括维度代码、维度名称、维度描述、排序号。
作为本发明一种基于多维理论的数据仓库模型建设***的建设方法的进一步优选方案,
在步骤2中,维度层次包含日期维度中的日、月、年;维度层次的描述信息包括维度层次代码、维度层次名称、维度层次描述、维度表名、数据规模、主键字段、排序号。
作为本发明一种基于多维理论的数据仓库模型建设***的建设方法的进一步优选方案,
在步骤3中,度量组的描述信息包括度量组代码、度量组名称、度量组说明、排序号。
作为本发明一种基于多维理论的数据仓库模型建设***的建设方法的进一步优选方案,
在步骤4中,相关的度量包含销售数量、销售金额、客户数量、采购数量、采购金额;描述信息包含所属度量组、度量代码、度量名称、度量的计算方法、排序号;其中,度量的计算方法包含聚合、平均、最大、最小、计数。
根作为本发明一种基于多维理论的数据仓库模型建设***的建设方法的进一步优选方案,在步骤6中,所述元模型为存储数据模型元数据的数据库模型。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、本发明方法采用了单独构建多维设计元模型,抛弃了传统的数据模型设计工具,实现了基于数据模型元数据把物理模型脚本产生自动化,与传统的设计相比缩短了数据模型设计过程,提高了数据仓库建设的效率;
2、本发明通过元模型将数据模型存储到数据库中,可以通过开发相关的功能的管理软件配合使用,能够将复杂的数据模型调整过程简化,可以自动批量生成数据仓库创建脚本,也可以自动生成数据模型的变更脚本;
3、通过本发明的多维设计元模型产生的元数据,可以指导后续数据仓库建设中重要的一个环境ETL设计开发,可以自动生成数据在数据仓库中不同维度粒度的事实表中计算的先后顺序及依赖关系。
附图说明
图1是本发明基于多维理论的数据仓库模型建设方法的流程图;
图2是本发明元模型的结构原理图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明提供一种多维分析模型设计方法,主要是基于多维模型设计的基础上改进,通过将设计模型的元数据在元模型中沉淀下来,充分利用元数据自动构建星型多维数据模型,缩短数据模型设计周期。
一种基于多维理论的数据仓库模型建设***,包括元数据模型模块、维度及层次模块、
度量组及度量模块、数据方体模块、物理模型等模块;
其中,元数据模型模块,用于管理和存储数据仓库模型元数据;
维度及层次模块,用于定义数据仓库模型中的维度模型;
度量组及度量模块,用于定义数据仓库中的度量模型;
数据方体模块,用于定义整个数据仓库模型,是将维度模型和度量模型结合后构建的模型;
物理模型,用于构建实体数据仓库的数据模型,是最终的输出结果。
本设计方法主要包括元数据模型、维度及层次、度量组及度量、数据方体、物理模型等模块,通过构建这一系列的模块实现数据仓库物理模型自动化产生。
具体实施过程说明:步骤如图1所示:
步骤1,构建元模型,元模型是用来保存后面各个环节产生的元数据的数据模型如图2所示,它定义了维度、维度层次(粒度)、度量、度量组等等一系列表(表结构参考上面每个步骤配图),它可以用各种通用的关系型数据库来实现。
步骤2,业务需求分析,通过收集、汇总企业的业务需求,综合分析需求后得出数据仓库需要输出的具体结果,梳理出维度信息(常见的维度有日期维度、组织维度、商品维度、客户维度、合作伙伴维度、区域维度等等)和度量信息(常见的度量有销售金额、销售数量、采购金额、采购数量、库存金额、库存数量、用户数量、访问次数、毛利、毛利率等等)
步骤3,定义维度和维度层次,在业务需求分析的过程产生的维度元数据可以通过电子表格(或者实现管理程序)管理起来。
步骤4,定义度量组和度量,在业务需求分析的过程产生的度量元数据可以通过电子表格(或者实现管理程序)管理起来。
步骤5,构建数据方体,通过电子表格(或者实现管理程序)管理,明确好每一个度量组与维度的关系。
步骤6,保存元数据,将电子表格(管理程序可以跳过该步骤)中保存的元数据导入到元模型数据库中。
步骤7,构建建库脚本,根据元模型数据库中保存的数据方体元数据,通过实现一段程序代码实现自动生成建库脚本的工作,实现过程:假设一个简单数据方体中有日期维度、组织维度和销售订单度量组,日期维度中有日、月、年维度层次,组织维度中有总公司、分公司维度层次,销售订单度量组中有销售金额及销售数量,那么根据维度层次关联就可以有日_总公司_销售订单、日_分公司_销售订单、月_总公司_销售订单、月_分公司_销售订单、年_总公司_销售订单、年_分公司_销售订单共六张表,每个表中都有相关维度的主键字段和销售订单度量组中的销售金额和销售数量共四个字段,最后将表结构输出成SQL脚本就完成了。
基于多维理论的数据仓库模型建设方法,具体包含如下步骤:
第一步:定义维度,维度是看数据的视角,通过对业务需求的理解分析,梳理出相应的数据维度信息,如组织维度、日期维度、商品维度、客户维度等等,定义维度的描述信息,包括维度代码、维度名称、维度描述、排序号。如表1所示:
表1
维度代码 | 维度名称 | 维度描述 | 排序号 |
ORG | 组织维 | 组织维 | 1 |
DT | 日期维 | 日期维 | 2 |
PT | 商品品维 | 商品维 | 3 |
SP | 供应商维 | 供应商维 | 4 |
CU | 客户维 | 客户维 | 5 |
… | … | … | … |
第二步:定义维度层次,维度的层次是数据计算从低粒度往高粒度计算和观察的基础,如,日期维度中的日、月、年等,定义维度层次的描述信息,包括维度层次代码、维度层次名称、维度层次描述、维度表名、数据规模、主键字段、排序号,如表2所示:
表2
第三步:定义度量组,度量组是一组相关性的度量的集合,是构建数据主题应用的基础,定义度量组的描述信息,包括度量组代码、度量组名称、度量组说明、排序号,如表3所示:
表3
度量组代码 | 度量组名称 | 度量组说明 | 排序号 |
purchase | 采购订单 | 采购订单 | 1 |
order | 销售订单 | 销售订单 | 2 |
inventory | 仓储库存 | 仓储库存 | 3 |
… | … | … | … |
第四步:定义度量,度量即衡量业务的标准,是按照维度观察分析的具体内容,通过分析业务需求分析,整理出相关的度量,如销售数量、销售金额、客户数量、采购数量、采购金额等等,定义度量的描述信息,包括所属度量组、度量代码、度量名称、度量的计算方法(聚合、平均、最大、最小、计数)、排序号,如表4所示:
表4
度量组 | 度量代码 | 度量名称 | 度量计算方法 | 排序号 |
购进 | PU_AMT | 购进含税金额(元) | 聚合 | 1 |
购进 | PU_QTY | 购进金额(元) | 聚合 | 2 |
购进 | PU_TAX | 购进税额(元) | 聚合 | 3 |
销售 | ORD_AMT | 订单金额(元) | 聚合 | 1 |
销售 | ORD_QTY | 订单数量(个) | 计数 | 1 |
… | … | … | … | … |
第五步:构建数据方体,根据业务需求分析,维护维度(步骤1)和度量组(步骤3)的关系,构建成数据方体(多维模型),如表5所示:
表5
第六步:保存元数据(用电子表格或者开发相应的软件实现),将步骤1至步骤5产生的元数据(维度、维度层次、度量组、度量、数据方体等)保存到元模型(元模型就是存储数据模型元数据的数据库模型,相见元模型图)中,具体的元模型如下图所示:
第七步:构建建库脚本(最终输出结果),读取(用SQL或者开发相应的软件实现)元模型元数据(步骤6结果),构建出创建数据仓库所需要的维度表和事实表见表的SQL脚本,
数据表清单如表6,表7所示;
表6
表7
以上实施例不构成对本专利保护范围的限制。
Claims (7)
1.一种基于多维理论的数据仓库模型建设***,其特征在于:包括元数据模型模块、维度及层次模块、度量组及度量模块、数据方体模块、物理模型等模块;
其中,元数据模型模块,用于管理和存储数据仓库模型元数据;
维度及层次模块,用于定义数据仓库模型中的维度模型;
度量组及度量模块,用于定义数据仓库中的度量模型;
数据方体模块,用于定义整个数据仓库模型,是将维度模型和度量模型结合后构建的模型;
物理模型,用于构建实体数据仓库的数据模型,是最终的输出结果。
2.一种基于权利要求1所述的多维理论的数据仓库模型建设***的建设方法,其特征在于:在一个实施方式中,具体包含如下步骤;
步骤1,定义维度,维度是看数据的视角,通过对业务需求的理解分析,梳理出相应的数据维度信息,定义维度的描述信息;
步骤2,定义维度层次,维度的层次是数据计算从低粒度往高粒度计算和观察的基础,定义维度层次的描述信息;
步骤3,定义度量组,度量组是一组相关性的度量的集合,是构建数据主题应用的基础,定义度量组的描述信息;
步骤4,定义度量,度量即衡量业务的标准,是按照维度观察分析的具体内容,通过分析业务需求分析,整理出相关的度量,定义度量的描述信息;
步骤5,构建数据方体,根据业务需求分析,根据步骤1的维护维度和步骤3的度量组的关系,构建成数据方体;
步骤6,保存用电子表格或者开发相应的软件实现的元数据,将步骤1至步骤5产生的元数据包含维度、维度层次、度量组、度量和数据方体保存到元模型中;
步骤7,构建建库脚本,读取用SQL或者开发相应的软件实现元模型元数据,构建出创建数据仓库所需要的维度表和事实表见表的SQL脚本。
3.根据权利要求2所述的一种基于多维理论的数据仓库模型建设***的建设方法,其特征在于:在一个实施方式中,在步骤1中,所述数据维度信息包含组织维度、日期维度、商品维度、客户维度,维度的描述信息包括维度代码、维度名称、维度描述、排序号。
4.根据权利要求2所述的一种基于多维理论的数据仓库模型建设***的建设方法,其特征在于:在一个实施方式中,在步骤2中,维度层次包含日期维度中的日、月、年;维度层次的描述信息包括维度层次代码、维度层次名称、维度层次描述、维度表名、数据规模、主键字段、排序号。
5.根据权利要求2所述的一种基于多维理论的数据仓库模型建设***的建设方法,其特征在于:在一个实施方式中,在步骤3中,度量组的描述信息包括度量组代码、度量组名称、度量组说明、排序号。
6.根据权利要求2所述的一种基于多维理论的数据仓库模型建设***的建设方法,其特征在于:在一个实施方式中,在步骤4中,相关的度量包含销售数量、销售金额、客户数量、采购数量、采购金额;描述信息包含所属度量组、度量代码、度量名称、度量的计算方法、排序号;其中,度量的计算方法包含聚合、平均、最大、最小、计数。
7.根据权利要求2所述的一种基于多维理论的数据仓库模型建设***的建设方法,其特征在于:在一个实施方式中,在步骤6中,所述元模型为存储数据模型元数据的数据库模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911124899.7A CN111078766A (zh) | 2019-11-18 | 2019-11-18 | 一种基于多维理论的数据仓库模型建设***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911124899.7A CN111078766A (zh) | 2019-11-18 | 2019-11-18 | 一种基于多维理论的数据仓库模型建设***及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111078766A true CN111078766A (zh) | 2020-04-28 |
Family
ID=70311084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911124899.7A Withdrawn CN111078766A (zh) | 2019-11-18 | 2019-11-18 | 一种基于多维理论的数据仓库模型建设***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111078766A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112416752A (zh) * | 2020-11-02 | 2021-02-26 | 四川新网银行股份有限公司 | 一种基于数据仓库etl分层测试的方法 |
CN112612764A (zh) * | 2020-12-18 | 2021-04-06 | 云南大学 | 一种基于执行者过程树的双维度遗传过程挖掘方法 |
CN113806391A (zh) * | 2020-06-17 | 2021-12-17 | 北京滴普科技有限公司 | 基于数据仓库构建主题模型的方法、装置以及存储介质 |
CN114611044A (zh) * | 2022-03-18 | 2022-06-10 | 江苏红网技术股份有限公司 | 一种基于数据仓库的数据开发***及方法 |
CN117874009A (zh) * | 2024-03-13 | 2024-04-12 | 云筑信息科技(成都)有限公司 | 一种数仓模型创建和管理的*** |
-
2019
- 2019-11-18 CN CN201911124899.7A patent/CN111078766A/zh not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806391A (zh) * | 2020-06-17 | 2021-12-17 | 北京滴普科技有限公司 | 基于数据仓库构建主题模型的方法、装置以及存储介质 |
CN112416752A (zh) * | 2020-11-02 | 2021-02-26 | 四川新网银行股份有限公司 | 一种基于数据仓库etl分层测试的方法 |
CN112416752B (zh) * | 2020-11-02 | 2023-06-06 | 四川新网银行股份有限公司 | 一种基于数据仓库etl分层测试的方法 |
CN112612764A (zh) * | 2020-12-18 | 2021-04-06 | 云南大学 | 一种基于执行者过程树的双维度遗传过程挖掘方法 |
CN114611044A (zh) * | 2022-03-18 | 2022-06-10 | 江苏红网技术股份有限公司 | 一种基于数据仓库的数据开发***及方法 |
CN117874009A (zh) * | 2024-03-13 | 2024-04-12 | 云筑信息科技(成都)有限公司 | 一种数仓模型创建和管理的*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111078766A (zh) | 一种基于多维理论的数据仓库模型建设***及方法 | |
US11741059B2 (en) | System and method for extracting a star schema from tabular data for use in a multidimensional database environment | |
CN104778540B (zh) | 一种建材装备制造bom管理方法及管理*** | |
Poess et al. | TPC-DI: the first industry benchmark for data integration | |
US8655918B2 (en) | System and method of transforming data for use in data analysis tools | |
CN111104394A (zh) | 一种能源数据仓库***构建方法及装置 | |
CN111324602A (zh) | 一种实现面向金融大数据分析可视化方法 | |
US11983199B2 (en) | Linking discrete dimensions to enhance dimensional analysis | |
US20130166515A1 (en) | Generating validation rules for a data report based on profiling the data report in a data processing tool | |
US20130166498A1 (en) | Model Based OLAP Cube Framework | |
CN101111835A (zh) | 多维企业软件***中的自动默认维度选择 | |
Hamad et al. | An enhanced technique to clean data in the data warehouse | |
CN110728422A (zh) | 用于施工项目的建筑信息模型、方法、装置和结算*** | |
Batini et al. | A Framework And A Methodology For Data Quality Assessment And Monitoring. | |
CA2804441A1 (en) | Database performance analysis | |
CN112328577A (zh) | 一种基于县域的农业大数据管理***及方法 | |
CN117573646A (zh) | 一种基于维度建模的数据管理方法及*** | |
CN111913962A (zh) | 一种多维度年度明细资金计划编制***及方法 | |
CN112288150A (zh) | 一种船舶工业管件加工管控集成*** | |
Chandra et al. | Analysis Students' Graduation Eligibility Using Data Warehouse | |
CN114490571A (zh) | 一种建模方法、服务器及存储介质 | |
Oliveira et al. | Improving organizational decision making using a SAF-T based business intelligence system | |
Sohail et al. | From ER model to star model: a systematic transformation approach | |
CN117829121B (zh) | 数据处理方法、装置、电子设备和介质 | |
Chatzistefanou | Data Warehousing in Business Intelligence and ETL Processes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200428 |