CN103853820B - 一种数据处理方法及*** - Google Patents

一种数据处理方法及*** Download PDF

Info

Publication number
CN103853820B
CN103853820B CN201410058539.2A CN201410058539A CN103853820B CN 103853820 B CN103853820 B CN 103853820B CN 201410058539 A CN201410058539 A CN 201410058539A CN 103853820 B CN103853820 B CN 103853820B
Authority
CN
China
Prior art keywords
dimension
data
subject heading
heading list
true
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410058539.2A
Other languages
English (en)
Other versions
CN103853820A (zh
Inventor
陈国强
朱培冬
郝栋
姬永杰
刘广财
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing UYU Government Software Co.,Ltd.
Original Assignee
BEIJING UFIDA SOFTWARE CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING UFIDA SOFTWARE CO LTD filed Critical BEIJING UFIDA SOFTWARE CO LTD
Priority to CN201410058539.2A priority Critical patent/CN103853820B/zh
Publication of CN103853820A publication Critical patent/CN103853820A/zh
Application granted granted Critical
Publication of CN103853820B publication Critical patent/CN103853820B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法及***,首先将原始数据存储到主题表中,并在主题表中记录需要生成维度表的维度的代码和名称;之后根据主题表中记录的维度的代码和名称生成对应的维度表,将对应的维度表数据存储在维度表中,并生成每一个维度的维度ID,根据维度ID从主题表生成与维度表关联的事实表,将对应的事实表数据存储在事实表中;最后根据需要从事实表生成应用汇总表,得到应用汇总数据,并存储到应用汇总表中。该方法及***,通过在数据处理流程中增加了“主题表”和“应用汇总表”,使数据能够基于主题表进行重复利用,通过派生维支持的计算,实现了数据分析口径的转换,有效提高了数据处理的效率和处理后数据的实用性。

Description

一种数据处理方法及***
技术领域
本发明涉及数据仓库的数据处理技术领域,具体涉及一种数据处理方法及***。
背景技术
随着大数据概念的兴起,各级政府部门都在基于数据仓库技术,积极地利用政府管理过程中产生的各类结构化和非结构化数据,传统数据仓库技术基于的前提是已经明确了数据如何去利用,但现实的需求是政府部门需要先将数据收集起来,如何利用数据还没有完全想清楚。
传统数据仓库技术的基本原理是将数据源中的原始数据抽取到临时区,经过统一的清洗、转换和加工后,更新到维度表和事实表,通过数据可视化工具基于事实表和维度表组成的多维立方体进行数据利用。但是,在利用传统数据仓库技术建设政府数据仓库过程中面临一系列的挑战,由于历史数据的口径比较粗、规范性相对不高,在不同年度、不同区划的数据管理口径不一致,在业务上缺乏统一的转换规则,往往需要业务人员对操作数据进行逐一确认转换方式,这种工作量和难度是不可想象的;即使数据按照统一的数据规范完成转换,由于政府管理数据口径与分析数据口径有很大差异,导致操作数据无法直接用于分析,往往需要技术人员开发复杂的转换代码,需要进行大量的临时运算工作,经常出现展现效率低,甚至是数据不一致的现象,导致不能够快速响应需求,数据的实用性大大降低。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种数据处理方法及***,提高数据处理的效率以及处理后数据的实用性。
为实现上述目的,本发明采用的技术方案为:一种数据处理方法,包括以下步骤:
(1)将原始数据存储到主题表中,并在主题表中记录需要生成维度表的维度的代码和名称;所述的主题表是指根据业务对象的描述需求构建的用于存储各类原始业务数据的数据表;
(2)根据主题表中记录的维度的代码和名称生成对应的维度表,将对应的维度表数据存储在维度表中,并生成每一个维度的维度ID;
(3)根据所述的维度ID,从主题表生成与维度表关联的事实表,并将对应的事实表数据存储在事实表中;
(4)根据需要从事实表生成应用汇总表,得到应用汇总数据,并存储到应用汇总表中;所述的应用汇总表用于存储根据预设的派生计算关系将事实表中的数据转换后的数据。
进一步,如上所述的一种数据处理方法,步骤(1)中,将原始数据存储到主题表之前,首先将原始数据存储到临时区,之后从临时区获取原始数据存储到主题表中,将原始数据存储到主题表后,删除临时区中对应的原始数据。
进一步,如上所述的一种数据处理方法,步骤(1)中,对原始数据进行预处理后,再将原始数据存储到主题表中;所述的预处理包括补齐原始数据缺少的全局性属性、统一转换区划和日期属性、以及删除主题表中不需要的数据;所述的不需要的数据包括作废和在途的业务数据。
进一步,如上所述的一种数据处理方法,步骤(3)中,根据维度ID从主题表生成与维度表关联的事实表的具体方式包括:
根据需要的数据的维度名称,在主题表中获取该维度名称对应的维度代码,将主题表中记录的维度代码与对应维度表中的维度代码关联,得到维度ID,将维度ID存储到事实表中,并将主题表中该维度下的非维度表数据直接存储到事实表中。
进一步,如上所述的一种数据处理方法,步骤(3)中,生成事实表时,采用增量抽取的方式,只抽取设定时间段的主题表中的数据更新到事实表中。
进一步,如上所述的一种数据处理方法,步骤(4)中,根据需要从事实表生成应用汇总表的具体方式包括:
根据需要,预设派生计算关系,根据派生计算关系生成派生维度表;所述的派生计算关系是指派生维度表与维度表之间的计算关系;
将派生计算公式与事实表中的维度ID关联,并根据派生计算公式对事实表中的数据进行转换,生成应用汇总表。
再进一步,如上所述的一种数据处理方法,步骤(4)中,所述的派生计算关系包括加、减和乘的运算关系。
更进一步,如上所述的一种数据处理方法,步骤(4)中,根据派生计算公式对事实表中的数据进行转换时,将所述的派生计算关系转换为笛卡尔积的运算关系。
一种数据处理***,包括:
主题表构建模块,用于建立主题表,将原始数据存储到主题表中,并在主题表中记录需要生成维度表的维度的代码和名称;所述的主题表是指根据业务对象的描述需求构建的用于存储各类业务数据的数据表;
维度表生成模块,用于根据主题表中记录的维度的代码和名称生成对应的维度表,将对应的维度表数据存储在维度表中,并生成每一个维度的维度ID;
事实表生成模块,用于根据所述的维度ID,从主题表生成与维度表关联的事实表,并将对应的事实表数据存储在事实表中;
应用汇总表生成模块,根据需要从事实表生成应用汇总表,得到应用汇总数据,并存储到应用汇总表中;所述的应用汇总表用于存储根据预设的派生计算关系将事实表中的数据转换后的数据。
进一步,如上所述的一种数据处理***,所述的应用汇总表生成模块包括:
派生维度表生成单元,用于预设派生计算关系,根据派生计算关系生成派生维度表;所述的派生计算关系是指派生维度表与维度表之间的计算关系;
应用汇总表生成单元,用于将派生计算公式与事实表中的维度ID关联,并根据派生计算公式对事实表中的数据进行转换,生成应用汇总表。
本发明的有益效果在于:本发明所述的方法及***,通过在数据处理流程中增加了“主题表”、“派生维”和“应用数据表”,使数据能够基于主题表进行重复利用,此外,通过派生维支持的计算,实现了数据分析口径的转换,有效提高了数据处理的效率和处理后数据的实用性。
附图说明
图1为具体实施方式中一种数据处理***的架构示意图;
图2为具体实施方式中一种数据处理***的结构框图;
图3为具体实施方式中一种数据处理***的流程图;
图4为具体实施方式中主题表的结构示意图;
图5为具体实施方式中维度表的示意图;
图6为实施例中维度表的示意图;
图7为实施例中事实表的示意图;
图8为实施例中派生维度表的示意图;
图9为实施例中将派生计算关系转换为笛卡尔积运算关系的示意图;
图10为实施例中应用汇总表的示意图。
具体实施方式
下面结合说明书附图与具体实施方式对本发明做进一步的详细说明。
为了更好的理解本发明,首先对本具体实施方式中所涉及的技术术语进行解释说明:
临时区:用于临时存储从数据源中获取的原始数据,一般情况下存储的数据是不完整的,如:一年数据、一月数据或一天数据,在数据抽取到主题表后,临时区的数据会被丢弃。
主题表:用于永久存储政府跨年度、跨区划的各类业务数据,作为数据仓库最核心的部分,主题表的结构按照业务对象的描述需求来构建,主题表的数据保留原有业务的细颗粒度,能够最大程度地描述原始业务。
维度表:传统数据仓库的一部分,用于存储维度表数据。
事实表:传统数据仓库的一部分,用于存储加工后的业务数据,与维度表一起构成数据仓库“立方体”,便于灵活的多维数据分析。
派生维度表:用于存储派生维定义的数据,包括派生维值集列表,以及每一个派生维值的计算公式。
应用汇总表:用于存储依据派生维定义计算出来的统计分析数据,按照实际的统计分析需要,数据存储的颗粒度更粗,能够被可视化工具直接利用。
图1和图2分别示出了本具体实施方式中一种数据处理***的架构示意图和结构框图,该***包括主题表构建模块11、维度表生成模块12、事实表生成模块13、以及应用汇总表生成模块14,其中:
主题表构建模块11用于建立主题表,将原始数据存储到主题表中,并在主题表中记录需要生成维度表的维度的代码和名称;所述的主题表是指根据业务对象的描述需求构建的用于存储各类业务数据的数据表;
维度表生成模块12用于根据主题表中记录的维度的代码和名称生成对应的维度表,将对应的维度表数据存储在维度表中,并生成每一个维度的维度ID;
事实表生成模块13用于根据所述的维度ID,从主题表生成与维度表关联的事实表,并将对应的事实表数据存储在事实表中;
应用汇总表生成模块14根据需要从事实表生成应用汇总表,得到应用汇总数据,并存储到应用汇总表中;所述的应用汇总表用于存储根据预设的派生计算关系将事实表中的数据转换后的数据。该模块包括派生维度表生成单元141和应用汇总表生成单元142,派生维度表生成单元141用于预设派生计算关系,根据派生计算关系生成派生维度表;所述的派生计算关系是指派生维度表与维度表之间的计算关系;应用汇总表生成单元142用于将派生计算公式与事实表中的维度ID关联,并根据派生计算公式对事实表中的数据进行转换,生成应用汇总表。
图3示出了本具体实施方式中基于图2中所示***的一种数据处理方法的流程图,该方法包括以下步骤:
步骤S21:构建主题表,将原始数据存储到主题表中;
首先构建一主题表,将数据源的原始数据存储到主题表中,并在主题表中记录需要生成维度表的维度的代码和名称。所述的主题表是指根据业务对象的描述需求构建的用于存储各类原始业务数据的数据表。本实施方式中的主题表用于永久存储政府跨年度、跨区划的各类业务数据,作为数据仓库最核心的部分,主题表中的数据保留了原有业务数据的细颗粒度,能够最大程度的描述原始业务。
本实施方式中,在将原始数据存储到主题表之前,还可以建立一用于暂时存储从数据源中获取的原始数据的临时区,首先将原始数据存储到临时区,之后从临时区获取原始数据存储到主题表中,如图1中所示,临时区一般情况下存储的数据并不是完整的原始数据,而只是一设定时间范围内的数据,如一年的数据、一个月的数据或一天的数据,在将原始数据存储到主题表后,会删除临时区中对应的原始数据。
数据源的原始数据可以是一个数据文件,如Excel文件,也可以是一个数据库的快照。在将原始数据存储到主题表之前,还需要对原始数据进行一些预处理,这些预处理主要包括补齐原始数据缺少的全局性属性、统一转换区划和日期属性、以及删除主题表中不需要的数据。
其中,所述的全局性属性包括但不限于原始数据的日期(年度、月份等)以及区划等。在统一转换区划和日期属性时,需要确保区划和日期这两类属性的代码与步骤S22中建立的维度表中的区划维度表和日期维度表中的代码保持一致。所述的不需要的数据包括作废和在途的业务数据。
图4中示出了本实施方式中一“支付凭证”主题表结构的示意图,该主题表中“字段名”一列所示的为原始数据的全局性属性,字段描述是对全局性属性的解释说明,用于帮助理解字段名的含义,如字段名为“YEAR”的属性的含义是“年度”。该表中除了保留了上述原始的支付ID、支付凭证号、摘要等属性信息外,同时还为步骤S22中设计了维度的代码和字段名称,如图4中所示的“业务处室”、“资金性质”以及“预算单位”等是需要生成维度表的属性(步骤S22中的维度),因此在该步骤中为“业务处室”、“资金性质”以及“预算单位”等属性设计了维度的代码和字段名称。该实施例中在设计维度的代码和字段名称时,其前缀与主题表设计规范一致,后缀分别带“CODE”和“NAME”的字段名分别为维度的代码和维度的名称。此外,图4中的“源***ID”指的是原始业务数据表的唯一主键ID,主题表中存储了其对应的原始业务表数据的唯一主键ID,通过该ID可以实现主题表与最原始采集数据的关联与核对。
通过主题表的合理设计,能够确保每一条记录能够独立完整的描述一笔业务,通过表中的数据能够反映出一笔具体的支付业务,什么时候支付的、支付给哪个单位、哪个处室以及支付金额等信息。
在主题表中具体需要设计哪些维度的代码和名称是由用户根据需要确定的,但是需要保证主题表中需要生成维度表的属性的代码和名称与维度表中维度的代码和名称一致,如图4中的资金性质,在生成维度表时,主题表中资金性质的代码和名称需要与步骤S22中生成的维度表中的资金性质的代码和名称一致。
步骤S22:根据需要从主题表生成维度表;
步骤S23:根据需要从主题表生成事实表;
在步骤S21中,主题表中记录了需要生成维度表的维度的代码和名称,根据主题表中记录的这些维度的代码和名称分别生成对应的维度表,将对应的维度表数据(维度表数据是指维度名称和维度代码)存储在维度表中,并生成每一个维度的维度ID。例如对于一主题表中的记录的“区划”这一维度的代码和名称,生成区划维度表,并在该维度表中记录所有区划维度的代码和名称,同时生成每一个区划维度的维度ID,如图5所示,“局领导”这一维度,其维度名称为“局领导”、维度代码“01”,维度ID为“118301”,由步骤S21中的描述可知,对于图5中的维度表,其中维度代码“01”和维度名称“局领导”在主题表中也记录了维度代码“01”和维度名称“局领导”。
此外,为了提高维度表的效率,避免重复生成,在生成维度表时,可以首先将主题表中记录的维度代码与对应维度表里的维度代码进行比较,如果在维度表中找不到匹配的维度代码和维度名称,则将主题表中记录的维度代码和名称存储到该维度表中,并补充生成对应该维度代码的维度ID,如果在维度表中找到了匹配的结果,则说明在维度表中已经存储该维度代码和维度名称,不需要再生成。在更新维度表时遵循的规则包括:维度表的值集只增加和修改,不能删除(同一维度在不同年度值集可能不一样,如果删除,会导致历史年度的业务数据在维度表值集中找不到相应的维度代码,无法再进行分析);以本区划和本年度的值集为基础值集;本年度存在代码和名称冲突时使用最新的名称;历史年度的代码在本年度没有使用且层次关系不存在冲突时增加到维度表中。
在生成维度表后,根据维度表中的维度ID,从主题表生成与维度表关联的事实表,并将对应的事实表数据存储在事实表中。具体的生成方式为:
根据需要的数据的维度名称,在主题表中获取该维度名称对应的维度代码,将主题表中记录的该维度代码与对应维度表中的维度代码关联,得到维度ID,将得到的维度ID存储到事实表中,并将主题表中该维度下的非维度表数据直接存储到事实表中。
也就是说,在生成事实表时,首先根据需要的数据的维度名称,在主题表中得到该维度名称对应的维度代码,之后根据主题表与维度表中的维度代码关联得到对应的维度ID,并将维度ID以及主题表中该维度下需要的非维度表数据存储到事实表中。如图4中的“业务处室”对应的数据,首先将“支付凭证”主题表中的某一业务处室代码和图5中业务处室维度表的维度代码进行关联,得到相应业务处室的维度ID,然后将得到的业务处室维度ID存储到事实表中,并将主题表中该业务处室对应的非维度表数据(维度代码和名称之外的数据)直接存储到事实表中。
事实表只有维度ID和具体的度量字段(非维度表数据),从主题表生成事实表时,采用增量抽取的方式,根据事实表的类型只抽取设定时间段(如最近一年、一月或一日的汇总数据)的主题表中的数据更新到事实表中。
本实施方式中,将存储在各表中的数据的名称定义为与其表名称对应名称,如存储在维度表中的数据称为维度表数据,将存储在事实表中的数据称为事实表数据,将应用汇总表中的数据称为应用汇总数据。
步骤S24:根据需要从事实表生成应用汇总表。
根据需要从事实表生成应用汇总表,得到应用汇总数据,并存储到应用汇总表中;所述的应用汇总表用于存储根据预设的派生计算关系将事实表中的数据转换后的数据。本实施方式中根据需要从事实表生成应用汇总表的具体方式包括:
根据需要,预设派生计算关系,根据派生计算关系生成派生维度表;所述的派生计算关系是指派生维度表与维度表之间的计算关系;
将派生计算公式与事实表中的维度ID关联,并根据派生计算公式对事实表中的数据进行转换,生成应用汇总表。
其中,所述的派生计算关系包括加、减和乘的运算关系。根据派生维度表与原始维度表(步骤S22中生成的维度表)之间的计算关系将事实表中的数据进行转换时,为了提高计算效率,将所述的计算关系转换为笛卡尔积的运算关系。
本实施方式中应用汇总表的生成依赖于预设的派生计算关系,根据该派生计算关系生成对应的派生维度表,在派生计算关系设置时,支持“加”、“减”和“乘”的运算。考虑计算效率,需要将运算转换为笛卡尔集运算,派生维“统计区划”部分运算逻辑转换为笛卡尔积示例参见图7。本实施方式中从事实表生成应用汇总表的伪代码为:
INSERT INTO[应用汇总表](”派生维”,”度量”)
SELECT DIMT.”派生维”,SUM(FACT.”度量”*DIMT.”系数”)
FROM[事实表]FACT
INNER JOIN[派生维转换表]DIMT ON DIMT.”原始维”=FACT.”原始维”
Group By DIMT.”派生维”。
对于上述伪代码,[]内为表名标识,在开发过程中使用实际表名替换,()内为表字段标识,在开发过程中使用实际表的实际字段替换。具体的INSERT INTO[应用汇总表]表示将数据***到应用汇总表中,[应用汇总表]指应用汇总表的表名,在伪代码中为“应用汇总表表名”的标识,在开发代码中根据实际的“应用汇总表表名”进行替换。(”派生维”,”度量”)指应用汇总表的属性字段(主要包括派生维ID字段和度量字段),在伪代码中为派生维字段和度量字段的标识,在开发代码中根据实际的“应用汇总表”的表字段名称进行替换。SELECT表示查询哪些字段,作为***应用汇总表的维度和度量;FROM表示从事实表和派生维转换表中查询数据;INNER JOIN通过派生维对应的原始维度ID与事实表的原始维度ID相关联。Group By表示分组的级次,按派生维分组。上述伪代码的编写对于本领域人员来说是属于现有技术,可以根据需要进行调整。
上述步骤S21-S24的数据处理步骤中,在没有明确数据如何利用之前,可以不执行步骤S22、S23、S24,在明确数据如何利用之后,根据需要再生成维度表、事实表和应用汇总表;当然,在数据利用需求发生变化时,步骤S22、S23、S24需要重新执行。通过本发明的方法及***进行数据处理具有以下效果:
1)通过规范的数据处理流程提高数据质量。数据依次进入主题表、维度表、事实表和应用汇总表,在转换规则不明确时,将数据存放在主题表中,数据没有被刻意地转换,保证了数据的原汁原味。
在维度表和事实表的基础上增加了主题表、派生维和应用汇总表概念,明确每类数据表的用途,将数据先放入主题表,数据转换工作推迟到事实表和应用汇总表生成之前。
2)处理后的数据具备较高实用性。进入应用汇总表的数据完全按照业务需要来生成,符合统计分析的需要。通过引入派生维定义,可以灵活设置“加”、“减”和“乘”的运算关系,通过转换为笛卡尔集运算极大地提高了转换效率,将业务人员产生的操作数据快速转换为领导需要的统计分析数据,让数据变得更有价值。
3)数据能够被重复利用。数据仓库的建设以管理主题表为核心,而不仅仅是以生成多维立方体为目的。在分析需求发生变化时,不需要重新加载原始数据,维度表、事实表和应用汇总表都可以依据主题表重新生成。
为了更好的理解本发明,下面结合具体的实施例对本发明进行进一步说明。
实施例
该实施例中的原始数据为江苏省的政府数据,根据需要从众多的政府数据中提取南京市、无锡市、徐州市、常州市和苏州市五个地级市2013的合计“指标金额”和“支出金额”,以及上述五个地级市中东部地区的“指标金额”和“支出金额”,以及特殊口径的“指标金额”和“支出金额”。
上述的“特殊口径”和“地市合计”、“东部地区”一样,都是指一种统计分析口径,只是一种口径标识。“特殊口径”主要用于不能归类于正常分组的数据分析口径标识。口径标识的方式是多样的,可以根据需要设置不同的口径标识。“指标金额”指某个区划(如南京市)、某个年度(如2013年)可以进行财政支出的金额,相当于指标额度。“支出金额”指某个区划(如南京市)、某个年度(如2013年)实际发生的财政支出的金额、依据指标额度进行支出。
第一步,首先构建一主题表,将江苏省的政府数据存储到主题表中。由于最终需要获取的数据是五个地级市的相关数据,需要建立区划维度表,因此,在主题表中需要记录下每个区划的维度代码和名称。需要说明的是,主题表数据是最完整的,在生成主题表数据时,维度表数据和非维度表数据(如金额数据)都会生成。事实表数据再根据主题表数据生成。
第二步,根据主题表中区划的维度代码和名称生成维度表,并在维度表中存储需要的南京市、无锡市、徐州市、常州市和苏州市五个区划维度的维度代码和名称,并生成每个区划维度的维度ID,如图6所示。
第三步,将主题表中的维度代码和维度表中的维度代码关联,分别得到南京市、无锡市、徐州市、常州市和苏州市的维度ID,并将得到的维度ID存储到事实表中,同时,将主题表中对应维度ID下的“指标金额”数据和“支出金额”数据存储到事实表中,如图7中所示。
第四步,根据需要,预设派生计算关系。具体的中需要统计的是上述五个地级市的合计“指标金额”和“支出金额”,以及上述五个地级市中东部地区的“指标金额”和“支出金额”,以及特殊口径的“指标金额”和“支出金额”,因此,派生计算公式设置为“3201南京市+3202无锡市+3203徐州市+3204常州市+3205苏州市”、“3201南京市+3203徐州市+3204常州市”、“3201南京市+3205苏州市”,并根据上述计算公式生成派生维度表,如图8所示,之后将上述计算关系转换为如图9所示的笛卡尔积关系表。最后关联派生维度表和事实表,通过伪代码的方式生成应用汇总表,得到需要的数据,如图10中所示,得到的五个地区的合计“指标金额”和“支出金额”分别为790和700,东部地区的“指标金额”和“支出金额”分别为470和410,特殊口径的“指标金额”和“支出金额”分别为220和190。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种数据处理方法,包括以下步骤:
(1)将原始数据存储到主题表中,并在主题表中记录需要生成维度表的维度的代码和名称;所述的主题表是指根据业务对象的描述需求构建的用于存储各类原始业务数据的数据表;
(2)根据主题表中记录的维度的代码和名称生成对应的维度表,将对应的维度表数据存储在维度表中,并生成每一个维度的维度ID;
(3)根据所述的维度ID,从主题表生成与维度表关联的事实表,并将对应的事实表数据存储在事实表中;根据维度ID从主题表生成与维度表关联的事实表的具体方式包括:根据需要的数据的维度名称,在主题表中获取该维度名称对应的维度代码,将主题表中记录的维度代码与对应维度表中的维度代码关联,得到维度ID,将维度ID存储到事实表中,并将主题表中该维度下的非维度表数据直接存储到事实表中;
(4)根据需要从事实表生成应用汇总表,得到应用汇总数据,并存储到应用汇总表中;所述的应用汇总表用于存储根据预设的派生计算关系将事实表中的数据转换后的数据。
2.如权利要求1所述的一种数据处理方法,其特征在于,步骤(1)中,将原始数据存储到主题表之前,首先将原始数据存储到临时区,之后从临时区获取原始数据存储到主题表中,将原始数据存储到主题表后,删除临时区中对应的原始数据。
3.如权利要求1或2所述的一种数据处理方法,其特征在于,步骤(1)中,对原始数据进行预处理后,再将原始数据存储到主题表中;所述的预处理包括补齐原始数据缺少的全局性属性、统一转换区划和日期属性、以及删除主题表中不需要的数据;所述的不需要的数据包括作废和在途的业务数据。
4.如权利要求1所述的一种数据处理方法,其特征在于,步骤(3)中,生成事实表时,采用增量抽取的方式,只抽取设定时间段的主题表中的数据更新到事实表中。
5.如权利要求1所述的一种数据处理方法,其特征在于,步骤(4)中,根据需要从事实表生成应用汇总表的具体方式包括:
根据需要,预设派生计算关系,根据派生计算关系生成派生维度表;所述的派生计算关系是指派生维度表与维度表之间的计算关系;
将派生计算公式与事实表中的维度ID关联,并根据派生计算公式对事实表中的数据进行转换,生成应用汇总表。
6.如权利要求5所述的一种数据处理方法,其特征在于,步骤(4)中,所述的派生计算关系包括加、减和乘的运算关系。
7.如权利要求6所述的一种数据处理方法,其特征在于,步骤(4)中,根据派生计算公式对事实表中的数据进行转换时,将所述的派生计算关系转换为笛卡尔积的运算关系。
8.一种数据处理***,包括:
主题表构建模块,用于建立主题表,将原始数据存储到主题表中,并在主题表中记录需要生成维度表的维度的代码和名称;所述的主题表是指根据业务对象的描述需求构建的用于存储各类业务数据的数据表;
维度表生成模块,用于根据主题表中记录的维度的代码和名称生成对应的维度表,将对应的维度表数据存储在维度表中,并生成每一个维度的维度ID;
事实表生成模块,用于根据所述的维度ID,从主题表生成与维度表关联的事实表,并将对应的事实表数据存储在事实表中;根据维度ID从主题表生成与维度表关联的事实表的具体方式包括:根据需要的数据的维度名称,在主题表中获取该维度名称对应的维度代码,将主题表中记录的维度代码与对应维度表中的维度代码关联,得到维度ID,将维度ID存储到事实表中,并将主题表中该维度下的非维度表数据直接存储到事实表中;
应用汇总表生成模块,根据需要从事实表生成应用汇总表,得到应用汇总数据,并存储到应用汇总表中;所述的应用汇总表用于存储根据预设的派生计算关系将事实表中的数据转换后的数据。
9.如权利要求8所述的一种数据处理***,其特征在于,所述的应用汇总表生成模块包括:
派生维度表生成单元,用于预设派生计算关系,根据派生计算关系生成派生维度表;所述的派生计算关系是指派生维度表与维度表之间的计算关系;
应用汇总表生成单元,用于将派生计算公式与事实表中的维度ID关联,并根据派生计算公式对事实表中的数据进行转换,生成应用汇总表。
CN201410058539.2A 2014-02-20 2014-02-20 一种数据处理方法及*** Expired - Fee Related CN103853820B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410058539.2A CN103853820B (zh) 2014-02-20 2014-02-20 一种数据处理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410058539.2A CN103853820B (zh) 2014-02-20 2014-02-20 一种数据处理方法及***

Publications (2)

Publication Number Publication Date
CN103853820A CN103853820A (zh) 2014-06-11
CN103853820B true CN103853820B (zh) 2017-05-03

Family

ID=50861475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410058539.2A Expired - Fee Related CN103853820B (zh) 2014-02-20 2014-02-20 一种数据处理方法及***

Country Status (1)

Country Link
CN (1) CN103853820B (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346449B (zh) * 2014-10-28 2017-11-24 用友网络科技股份有限公司 数据合并方法和数据合并装置
CN104360879B (zh) * 2014-10-29 2019-03-01 中国建设银行股份有限公司 一种数据处理方法及装置
CN104391927A (zh) * 2014-11-21 2015-03-04 浪潮通用软件有限公司 一种多维数据模型的维度重构实现方法
CN105679309B (zh) * 2014-11-21 2019-05-07 北京讯飞乐知行软件有限公司 一种语音识别***的优化方法及装置
CN104536982A (zh) * 2014-12-08 2015-04-22 北京用友政务软件有限公司 一种数据处理方法及装置
CN104408183B (zh) * 2014-12-15 2018-05-15 北京国双科技有限公司 数据***的数据导入方法和装置
CN106156040A (zh) * 2015-03-26 2016-11-23 阿里巴巴集团控股有限公司 多维度数据管理方法及装置
CN106326249B (zh) * 2015-06-23 2021-08-03 中兴通讯股份有限公司 数据整合处理方法及装置
CN106909566A (zh) * 2015-12-23 2017-06-30 阿里巴巴集团控股有限公司 一种数据建模方法及设备
CN105574188A (zh) * 2015-12-23 2016-05-11 武汉璞华大数据技术有限公司 一种数据分维度分层次管理的方法及***
CN106933909B (zh) * 2015-12-31 2020-06-12 北京国双科技有限公司 多维度数据的查询方法及装置
CN106933906B (zh) * 2015-12-31 2020-05-22 北京国双科技有限公司 数据多维度的查询方法及装置
CN106933907B (zh) * 2015-12-31 2020-09-15 北京国双科技有限公司 数据表扩展指标的处理方法及装置
CN106294792B (zh) * 2016-08-15 2019-05-31 上海携程商务有限公司 关联查询***的建立方法及建立***
CN106407360B (zh) * 2016-09-07 2020-07-24 广州视源电子科技股份有限公司 一种数据的处理方法及装置
CN106713032B (zh) * 2016-12-21 2019-09-17 瑞斯康达科技发展股份有限公司 一种实现网管业务管理的方法及装置
CN108241653A (zh) * 2016-12-23 2018-07-03 阿里巴巴集团控股有限公司 数据处理方法及装置
CN107402981B (zh) * 2017-07-07 2023-07-18 国网浙江省电力公司信息通信分公司 一种基于分布式离线数据库的数据增量处理方法及***
CN110019195A (zh) * 2017-09-27 2019-07-16 北京国双科技有限公司 一种数据的存储方法及装置
CN107818177B (zh) * 2017-11-23 2021-06-15 浪潮通用软件有限公司 一种商务智能模型搭建方法及搭建装置
CN110019559A (zh) * 2017-12-27 2019-07-16 航天信息股份有限公司 一种数据查询方法和***
CN109086309B (zh) * 2018-06-21 2022-12-30 土巴兔集团股份有限公司 一种指标维度关系定义方法、服务器及存储介质
CN110928903B (zh) * 2018-08-31 2024-03-15 阿里巴巴集团控股有限公司 数据提取方法及装置、设备和存储介质
CN109656986A (zh) * 2018-10-09 2019-04-19 阿里巴巴集团控股有限公司 一种业务数据汇总的辅助方法、装置及电子设备
CN111159173B (zh) * 2018-11-08 2023-04-18 王纹 一种构造多维语义数据库的方法
CN110309496B (zh) * 2019-06-24 2023-08-22 招商局金融科技有限公司 数据汇总方法、电子装置及计算机可读存储介质
CN110297818B (zh) * 2019-06-26 2022-03-01 杭州数梦工场科技有限公司 构建数据仓库的方法及装置
CN112182119A (zh) * 2020-09-30 2021-01-05 中国平安财产保险股份有限公司 数据仓库维度表的校验方法及装置
CN112256744A (zh) * 2020-10-27 2021-01-22 武汉市钱鲸科技有限公司 一种零售用数据统计流程
CN112632067B (zh) * 2020-12-19 2024-06-07 西安银石科技发展有限责任公司 机车乘务员一次乘务作业数据分析***及分析方法
CN112464619B (zh) * 2021-01-25 2021-05-25 平安国际智慧城市科技股份有限公司 大数据处理方法、装置、设备及计算机可读存储介质
CN113934782A (zh) * 2021-09-22 2022-01-14 易联众智鼎(厦门)科技有限公司 一种基于dag模型的数据etl***及使用方法
CN114416722A (zh) * 2021-12-15 2022-04-29 广联达科技股份有限公司 一种数据处理方法、装置、电子设备及可读存储介质
CN117350520B (zh) * 2023-12-04 2024-02-27 浙江大学高端装备研究院 一种汽车生产优化方法和***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446964A (zh) * 2008-12-31 2009-06-03 中国建设银行股份有限公司 一种数据钻取的方法及计算机设备
CN101866360A (zh) * 2010-06-28 2010-10-20 北京用友政务软件有限公司 基于对象多维属性空间的数据仓库鉴权方法及***
CN101957852A (zh) * 2010-09-26 2011-01-26 用友软件股份有限公司 生成表格数据的关联信息的方法和***
CN103020301A (zh) * 2012-12-31 2013-04-03 中国科学院自动化研究所 一种多维度数据查询和存储方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2311884A1 (en) * 2000-06-16 2001-12-16 Cognos Incorporated Method of managing slowly changing dimensions

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446964A (zh) * 2008-12-31 2009-06-03 中国建设银行股份有限公司 一种数据钻取的方法及计算机设备
CN101866360A (zh) * 2010-06-28 2010-10-20 北京用友政务软件有限公司 基于对象多维属性空间的数据仓库鉴权方法及***
CN101957852A (zh) * 2010-09-26 2011-01-26 用友软件股份有限公司 生成表格数据的关联信息的方法和***
CN103020301A (zh) * 2012-12-31 2013-04-03 中国科学院自动化研究所 一种多维度数据查询和存储方法及***

Also Published As

Publication number Publication date
CN103853820A (zh) 2014-06-11

Similar Documents

Publication Publication Date Title
CN103853820B (zh) 一种数据处理方法及***
CN106339274B (zh) 一种数据快照获取的方法及***
CN104636338B (zh) 一种用于增值税阴阳票监控的数据清洗存储方法
CN106648446A (zh) 一种用于时序数据的存储方法、装置及电子设备
CN103577590A (zh) 一种数据查询方法和***
CN106021389A (zh) 基于模板自动生成新闻的***和方法
CN110275920A (zh) 数据查询方法、装置、电子设备及计算机可读存储介质
CN107273482A (zh) 基于HBase的告警数据存储方法及装置
CN107657049A (zh) 一种基于数据仓库的数据处理方法
CN107704590A (zh) 一种基于数据仓库的数据处理方法及***
CN104182484A (zh) 一种实现HBase数据与Java域对象映射的方法和装置
CN104636337B (zh) 一种用于增值税的数据清洗存储方法
CN106326438A (zh) 一种人员信息的关联方法
CN103744948B (zh) 查找数据核对差异原因的方法和***
CN107729448A (zh) 一种基于数据仓库的数据处理***
CN106095964A (zh) 一种对数据进行可视化归档与搜索的方法
CN105630934A (zh) 一种数据统计方法及***
CN106897285A (zh) 数据要素抽取分析***及数据要素抽取分析方法
CN108959560A (zh) 基于数据表的信息处理方法、装置及电子设备
CN110019694A (zh) 用于知识图谱的方法、装置和计算机可读存储介质
CN108415990B (zh) 数据质量监控方法、装置、计算机设备和存储介质
CN102208061A (zh) 数据核销处理装置和数据核销处理方法
CN104050291B (zh) 一种账户余额数据的并行处理方法和***
CN101963993B (zh) 一种数据库单表记录快速查找的方法
CN104636341B (zh) 一种用于增值税一号多名监控的数据清洗存储方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100094 2F, building 11, UFIDA Software Park, 68 Beiqing Road, Haidian District, Beijing

Patentee after: Beijing UYU Government Software Co.,Ltd.

Address before: 100094 2F, building 11, UFIDA Software Park, 68 Beiqing Road, Haidian District, Beijing

Patentee before: YONYOU GOVERNMENT AFFAIRS SOFTWARE Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170503

Termination date: 20210220