CN109597846B - 大数据平台数据仓库数据处理方法、装置和计算机设备 - Google Patents

大数据平台数据仓库数据处理方法、装置和计算机设备 Download PDF

Info

Publication number
CN109597846B
CN109597846B CN201811229370.7A CN201811229370A CN109597846B CN 109597846 B CN109597846 B CN 109597846B CN 201811229370 A CN201811229370 A CN 201811229370A CN 109597846 B CN109597846 B CN 109597846B
Authority
CN
China
Prior art keywords
data
layer
source data
preprocessing
data table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811229370.7A
Other languages
English (en)
Other versions
CN109597846A (zh
Inventor
许浩奇
欧阳智
张小松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811229370.7A priority Critical patent/CN109597846B/zh
Publication of CN109597846A publication Critical patent/CN109597846A/zh
Application granted granted Critical
Publication of CN109597846B publication Critical patent/CN109597846B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请揭示了一种大数据平台数据仓库数据处理方法、装置和计算机设备,其中数据仓库的数据仓库层包括数据预处理层和数据汇总层,所述数据汇总层依赖于所述数据预处理层;所述处理方法,包括:获取源数据层的源数据表,并通过所述数据预处理层对所述源数据表进行预处理,得到公共数据表;通过所述数据汇总层将所述公共数据表与其它无需预处理的数据表进行汇总。本申请将数据仓库的数据仓库层拆分成数据预处理层和数据汇总层,通过将数据清洗放在数据预处理层,得到公共数据表,无需对同一张源数据表进行重复的加工处理,避免了数据的重复处理,减少占用***资源,同样的数据处理量,本申请的方法延时情况远低于现有技术的延时情况。

Description

大数据平台数据仓库数据处理方法、装置和计算机设备
技术领域
本申请涉及到大数据处理领域,特别是涉及到一种大数据平台数据仓库数据处理方法、装置和计算机设备。
背景技术
传统的大数据平台数据仓库一般分为源数据层(ODS)、数据仓库层(DW)、数据集市层(DM)、数据应用层(APP);其中数据仓库层是对源数据层数据的清洗(去重、脏数据处理等)、相同粒度字段进行汇总,以便提供给上层数据集市层进行更好的使用。在实际项目中,数据仓库层的数据处理负荷是最重的,一方面需要对脏数据和重复数据等进行清洗,另一方面需要关联多个相同粒度的表汇总为一张宽表;在每天的***跑批中,经常会出现数据仓库层占用***资源太长,导致整个数据仓库任务调度严重延时,无法在规定的时间内完成数据处理,影响使用。因为数据处理的方法与数据的汇总处于同一个数据仓库层,当需要修改某一个数据表的预处理方法的时候需要顾忌是否会对如汇总方法、其他数据表的预处理方法产生影响,修改不够灵活
发明内容
本申请的主要目的为提供一种大数据平台数据仓库数据处理方法、装置和计算机设备,旨在解决现有技术中数据仓库层跑批处理数据延时严重的问题。
为了实现上述发明目的,本申请提出一种大数据平台数据仓库数据处理方法,其特征在于,所述数据仓库的数据仓库层包括数据预处理层和数据汇总层,所述数据汇总层依赖于所述数据预处理层;所述处理方法,包括:
获取源数据层的源数据表,并通过所述数据预处理层对所述源数据表进行预处理,得到公共数据表;
通过所述数据汇总层将所述公共数据表与其它无需预处理的数据表进行汇总。
进一步地,所述获取源数据层的源数据表,并通过所述数据预处理层对所述源数据表进行预处理,得到公共数据表的步骤,包括:
判断待预处理的所述源数据表的数量;
若所述源数据表的数量大于等于两个,则判断各所述源数据表之前的依赖关系;
将存在依赖关系的各源数据表的第一顺位表,以及与其它源数据表没有依赖关系的离散源数据表并发进行预处理,将有依赖关系的源数据表根据依赖顺序进行预处理。
进一步地,所述判断待预处理的所述源数据表的数量的步骤之前,包括:
判断所述大数据平台的运行资源使用率;
根据所述运行资源使用率确定对所述源数据表的并发线程数量。
进一步地,所述通过所述数据汇总层将所述公共数据表与其它无需预处理的数据表进行汇总的步骤,包括:
通过所述数据汇总层直接使用所述公共数据表,与其它无需预处理的数据表进行汇总。
进一步地,所述获取源数据层的源数据表,并通过所述数据预处理层对所述源数据表进行预处理,得到公共数据表的步骤之前,包括:
判断当前时间是否为预设的批处理时间段:
若是,则生成对所述大数据平台数据仓库数据处理的命令。
进一步地,,所述判断当前时间是否为预设的批处理时间段的步骤之前,包括:
将所述源数据层中的源数据表根据业务模块进行分类;
给不同分类的源数据表设定预设的所述批处理时间段。
进一步地,所述给不同分类的源数据表设定预设的所述批处理时间段的步骤之后,包括:
获取不同分类的元数据表的分类数据量;
根据所述分类数据量在预设的时间-批处理列表中查找对应各不同分类的元数据表对应的所述批处理时间段。
本申请还提供一种大数据平台数据仓库数据处理装置,其特征在于,所述数据仓库的数据仓库层包括数据预处理层和数据汇总层,所述数据汇总层依赖于所述数据预处理层;所述处理装置,包括:
预处理单元,用于获取源数据层的源数据表,并通过所述数据预处理层对所述源数据表进行预处理,得到公共数据表;
汇总单元,用于通过所述数据汇总层将所述公共数据表与其它无需预处理的数据表进行汇总。
本本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的大数据平台数据仓库数据处理方法、装置和计算机设备,将数据仓库的数据仓库层拆分成数据预处理层和数据汇总层,通过将数据清洗放在数据预处理层,得到公共数据表,无需对同一张源数据表进行重复的加工处理,避免了数据的重复处理,减少占用***资源,同样的数据处理量,本申请的方法延时情况远低于现有技术的延时情况。
附图说明
图1为本申请一实施例的大数据平台数据仓库数据处理方法的流程示意图;
图2为本申请一实施例的各元数据表的依赖关系示意图;
图3为本申请一实施例的大数据平台数据仓库数据处理装置的结构示意框图;
图4为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种大数据平台数据仓库数据处理方法,所述数据仓库的数据仓库层包括数据预处理层和数据汇总层,所述数据汇总层依赖于所述数据预处理层。
上述数据汇总层依赖于数据预处理层,即为数据预处理层与数据汇总层是上下层的关系。
上述处理方法,包括步骤:
S1、获取源数据层的源数据表,并通过所述数据预处理层对所述源数据表进行预处理,得到公共数据表;
S2、通过所述数据汇总层将所述公共数据表与其它无需预处理的数据表进行汇总。
如上述步骤S1所述,上述对元数据表进行预处理的过程,一般包括去除重复数据、清洗脏数据等。其中,去除重复数据即为将表达同样意思的、重复出现的数据清除,只保留一组数据即可;清洗脏数据即为将不完整的数据(例如,字段信息缺少,需要补全)、错误的数据(例如,字段信息有全角字符、有回车、日期格式不正确、日期越界、需要数据进行修正等)等清除掉,已保留完成、准确的数据。
上述步骤S2中,即为将公共数据表和其他数据表进行汇总。需要注意的是,在数据表汇总时,各数据表的字段粒度相同。
本实施例中,将数据仓库层分成两层,则可以将数据预处理的动作和数据汇总的动作分开。因为对数据进行预处理的过程都在数据预处理层,所以对脏数据的清洗和数据重方法需要调整时,只需要对数据预处理层进行修改即可,修改起来更加了灵活。
在一个实施例中,上述获取源数据层的源数据表,并通过所述数据预处理层对所述源数据表进行预处理,得到公共数据表的步骤S1,包括:
S11、判断待预处理的所述源数据表的数量;
S12、若所述源数据表的数量大于等于两个,则判断各所述源数据表之前的依赖关系;
S13、将存在依赖关系的各源数据表的第一顺位表,以及与其它源数据表没有依赖关系的离散源数据表并发进行预处理,将有依赖关系的源数据表根据依赖顺序进行预处理。
在上述步骤S11至S13中,如果待预处理的源数据表包括两个以上,为了提高预处理的速度,可以将各源数据表并行的进行预处理,但是,在预处理的过程中,如果两张源数据表之间存在依赖关系,则需要按照依赖关系进行预处理。在多个源数据表中,与其它源数据表没有依赖关系的源数据表,可以看做是离散源数据表;与其它源数据表有依赖关系的源数据表,可以看做是依赖源数据表,而各依赖源数据表又可能存在多条主脉和支脉等,可以将各主脉上的第一个源数据表看做第一顺为源数据表。具体如图2所示,包括A、B、C、D、E、F、G、H、I等多个源数据表,其中A、B、C与其它源数据表均没有依赖关系,则A、B、C为离散源数据表;D分别与E、F存在依赖关系,且D为第一顺为源数据表;G、H、I依次存在依赖关系,G为第一顺为源数据表。
在一个实施例中,上述判断待预处理的所述源数据表的数量的步骤S11之前,包括:
S11a、判断所述大数据平台的运行资源使用率;
S11b、根据所述运行资源使用率确定对所述源数据表的并发线程数量。
如上述步骤S11a和S11b所述,对源数据表进行预处理时,虽然并发可以提高运行效率,但是运行所需要的资源并没有变小,反而会在并发处理时占用大量的运算资源,此时通过控制并发的线程数量,则可以有效控制大数据平台的运行稳定性,比如,根据大数据平台的资源量设置一个列表,根据大数据平台的运行资源使用率在列表中查找对应的并发线程数。
在一个实施例中,上述通过所述数据汇总层将所述公共数据表与其它无需预处理的数据表进行汇总的步骤S2,包括:
S21、通过所述数据汇总层直接使用所述公共数据表,与其它无需预处理的数据表进行汇总。
如上述步骤S21所述,上述公共数据表是已经处理过的数据表,所以可以直接使用,无需与每个数据表进行汇总时再次进行去除脏数据和去重等处理,进一步地提高大数据平台数据仓库数据处理的效率。在一个具体实施例中,源数据层上有一张表ODS_A,这张表在数据仓库层中会被DW_B、DW_C、DW_D三张表使用。假设表ODS_A字段信息有错误(脏数据)需要清洗,同时这张表ODS_A是一个记录某个***修改记录的表,数据仓库层根据ODS_A表的update_time时间只取最近的一次修改记录信息(去重)。在现有技术中,则是在DW_B、DW_C、DW_D表***数据前,分别要对ODS_A表进行数据清洗和去重,这个操作需要被重复做三次。而使用本申请中的上述大数据平台数据仓库数据处理方法,则只需要在数据预处理层中先对ODS_A表清洗、去重,得到DWP_A表的公共数据表DWP_A1,然后DWD_B、DWD_C、DWD_D表直接使用DWP_A1即可,避免了数据的重复处理,减少占用***资源。
在一个是实施例中,上述获取源数据层的源数据表,并通过所述数据预处理层对所述源数据表进行预处理,得到公共数据表的步骤S1之前,包括:
S101、判断当前时间是否为预设的批处理时间段:
S102、若是,则生成对所述大数据平台数据仓库数据处理的命令。
如上述步骤S101和S102所述,上述批处理时间段是一个预设的时间,一般为夜间或者是公休日(国家法定假日,如周六、周日、国庆节等等)的时间,在一些具体实施例中,也可以定在工作日,比如需要实时获取到最新状态的数据等,则需要在工作日进行处理。因为对大数据平台数据仓库数据处理的过程是一个对大量数据进行处理的过程,所以会占用大数据平台的大量资源,如果在工作日进行数据处理,可能会对大数据平台的运行产生一定的负面影响(降低平台的运行速度等),而将处理的时间设置在晚上或工休日等,工作人员对大数据平台的运用较少,所以不会影响工作人员的工作。
在一个实施例中,上述判断当前时间是否为预设的批处理时间段的步骤S101之前,包括:
S101a、将所述源数据层中的源数据表根据业务模块进行分类;
S101b、给不同分类的源数据表设定预设的所述批处理时间段。
如上述步骤S101a和S101b所述,因为不同业务模块的数据对数据处理的及时性并不相同,比如一家保险公司,对于出险的数据需要及时更新处理,而对于人员调岗等数据的更新则并不需要即时处理,那么,将出险业务模块的数据处理的批处理时间段设定为工作日的工作时间,而将人员调岗业务模块的数据处理的批处理时间段设定为非工作时间等,具体地,每天凌晨12点批处理人员调岗业务模块的数据等。本申请中,将源数据表进行分类,然后对不同分类的元数据表设定不同的批处理时间段,则可以将大数据平台的运算资源分时间段分配,降低大数据平台的运行负载,提高其运行稳定度。本实施例中,对源数据表进行分类的方法包括,判断源数据表的数据来源是哪一个业务模块,来自哪一个业务模块,则属于哪一个业务模块的类。在其它实施例中,还可以分析各源数据表的字段,然后根据字段与业务模块的匹配度等进行分类。
在一个实施例中,上述给不同分类的源数据表设定预设的所述批处理时间段的步骤S101b之后,包括:
S101c、当所述源数据表在指定的批处理时间段进行批处理时,获取该元数据表的数据量;
S101d、根据所述数据量调整所述批处理时间段的时间长度。
如上述步骤S101c和S101d所述,因为批处理时间段的长度是有限制的,比如,保险单据数据在中午12点-13点进行跑批处理,客户报险数据在下午13点-14点进行等,如果批处理时间段内需要批处理的源数据表的数据量过大,则需要大量的时间进行数据处理,处理数据需要的时间长度可能大于预设的批处理时间段的时间长度,所以需要对对应的批处理时间段的时间长度进行相应的调整,以防止批处理数据没有处理完成就被终止处理的情况发生。一般可以延长当前大数据量的批处理时间段的长度,然后将下一个批处理时间段的跑批处理适当延后,并获取下一个批处理时间段对用的眼数据的数据量,如果下一个批处理时间段的批处理的数据量很小,则可以将下一个批处理时间的时间长度调小,以将以后的各批处理时间段的时间恢复正常。在另一个实施例中,每一个批处理时间段之间设置有过度时间段,以用于防止数据量过大批处理的时间长度超出批处理时间的时间长度等。
本申请的大数据平台数据仓库数据处理方法,数据仓库的数据仓库层拆分成数据预处理层和数据汇总层,通过将数据清洗放在数据预处理层,并拆分为多个小任务,可以在同一个时间内并行运行多个任务,缩短了任务的执行时间;传统方案中数据仓库层不同的主题表会对同一张源数据表进行重复的加工处理,本方案将数据清洗放在数据预处理层中,处理完成后生成公共数据表,数据汇总层可以直接使用,避免了数据的重复处理,减少占用***资源;修改更加灵活,预处理统一放在预处理层,方便修改调整。
参照图3,本申请实施例提供一种大数据平台数据仓库数据处理装置,所述数据仓库的数据仓库层包括数据预处理层和数据汇总层,所述数据汇总层依赖于所述数据预处理层。
上述数据汇总层依赖于数据预处理层,即为数据预处理层与数据汇总层是上下层的关系。
上述处理装置,包括步骤:
预处理单元10,用于获取源数据层的源数据表,并通过所述数据预处理层对所述源数据表进行预处理,得到公共数据表;
汇总单元20,用于通过所述数据汇总层将所述公共数据表与其它无需预处理的数据表进行汇总。
如上述预处理单元10,上述对元数据表进行预处理的过程,一般包括去除重复数据、清洗脏数据等。其中,去除重复数据即为将表达同样意思的、重复出现的数据清除,只保留一组数据即可;清洗脏数据即为将不完整的数据(例如,字段信息缺少,需要补全)、错误的数据(例如,字段信息有全角字符、有回车、日期格式不正确,日期越界、需要数据进行修正等)等清除掉,已保留完成、准确的数据。
上述汇总单元20,即为将公共数据表和其他数据表进行汇总。需要注意的是,在数据表汇总时,各数据表的字段粒度相同。
本实施例中,将数据仓库层分成两层,则可以将数据预处理的动作和数据汇总的动作分开。因为对数据进行预处理的过程都在数据预处理层,所以对脏数据的清洗和数据重方法需要调整时,只需要对数据预处理层进行修改即可,修改起来更加了灵活。
在一个实施例中,上述预处理单元10,包括:
数据量判断模块,用于判断待预处理的所述源数据表的数量;
依赖关系判断模块,用于若所述源数据表的数量大于等于两个,则判断各所述源数据表之前的依赖关系;
并发处理模块,用于将存在依赖关系的各源数据表的第一顺位表,以及与其它源数据表没有依赖关系的离散源数据表并发进行预处理,将有依赖关系的源数据表根据依赖顺序进行预处理。
在上述数据量判断模块、依赖关系判断模块和并发处理模块,如果待预处理的源数据表包括两个以上,为了提高预处理的速度,可以将各源数据表并行的进行预处理,但是,在预处理的过程中,如果两张源数据表之间存在依赖关系,则需要按照依赖关系进行预处理。在多个源数据表中,与其它源数据表没有依赖关系的源数据表,可以看做是离散源数据表;与其它源数据表有依赖关系的源数据表,可以看做是依赖源数据表,而各依赖源数据表又可能存在多条主脉和支脉等,可以将各主脉上的第一个源数据表看做第一顺为源数据表。具体如图2所示,包括A、B、C、D、E、F、G、H、I等多个源数据表,其中A、B、C与其它源数据表均没有依赖关系,则A、B、C为离散源数据表;D分别与E、F存在依赖关系,且D为第一顺为源数据表;G、H、I依次存在依赖关系,G为第一顺为源数据表。
在一个实施例中,上述预处理单元10,还包括:
资源使用判断模块,用于判断所述大数据平台的运行资源使用率;
线程数量选择模块,用于根据所述运行资源使用率确定对所述源数据表的并发线程数量。
如上述资源使用判断模块和线程数量选择模块,对源数据表进行预处理时,虽然并发可以提高运行效率,但是运行所需要的资源并没有变小,反而会在并发处理时占用大量的运算资源,此时通过控制并发的线程数量,则可以有效控制大数据平台的运行稳定性,比如,根据大数据平台的资源量设置一个列表,根据大数据平台的运行资源使用率在列表中查找对应的并发线程数。
在一个实施例中,上述汇总单元20,包括:
直接汇总模块,用于通过所述数据汇总层直接使用所述公共数据表,与其它无需预处理的数据表进行汇总。
如上述直接汇总模块,上述公共数据表是已经处理过的数据表,所以可以直接使用,无需与每个数据表进行汇总时再次进行去除脏数据和去重等处理,进一步地提高大数据平台数据仓库数据处理的效率。在一个具体实施例中,源数据层上有一张表ODS_A,这张表在数据仓库层中会被DW_B、DW_C、DW_D三张表使用。假设表ODS_A字段信息有错误(脏数据)需要清洗,同时这张表ODS_A是一个记录某个***修改记录的表,数据仓库层根据ODS_A表的update_time时间只取最近的一次修改记录信息(去重)。在现有技术中,则是在DW_B、DW_C、DW_D表***数据前,分别要对ODS_A表进行数据清洗和去重,这个操作需要被重复做三次。而使用本申请中的上述大数据平台数据仓库数据处理方法,则只需要在数据预处理层中先对ODS_A表清洗、去重,得到DWP_A表的公共数据表DWP_A1,然后DWD_B、DWD_C、DWD_D表直接使用DWP_A1即可,避免了数据的重复处理,减少占用***资源。
在一个是实施例中,上述大数据平台数据仓库数据处理装置,包括:
时间判断单元,用于判断当前时间是否为预设的批处理时间段:
生成单元,用于若当前时间是预设的批处理时间段,则生成对所述大数据平台数据仓库数据处理的命令。
本实施例中,上述批处理时间段是一个预设的时间,一般为夜间或者是公休日(国家法定假日,如周六、周日、国庆节等等)的时间,在一些具体实施例中,也可以定在工作日,比如需要实时获取到最新状态的数据等,则需要在工作日进行处理。因为对大数据平台数据仓库数据处理的过程是一个对大量数据进行处理的过程,所以会占用大数据平台的大量资源,如果在工作日进行数据处理,可能会对大数据平台的运行产生一定的负面影响(降低平台的运行速度等),而将处理的时间设置在晚上或工休日等,工作人员对大数据平台的运用较少,所以不会影响工作人员的工作。
在一个实施例中,上述大数据平台数据仓库数据处理装置,还包括:
分类单元,用于将所述源数据层中的源数据表根据业务模块进行分类;
设定单元,用于给不同分类的源数据表设定预设的所述批处理时间段。
在本实施例中,因为不同业务模块的数据对数据处理的及时性并不相同,比如一家保险公司,对于出险的数据需要及时更新处理,而对于人员调岗等数据的更新则并不需要即时处理,那么,将出险业务模块的数据处理的批处理时间段设定为工作日的工作时间,而将人员调岗业务模块的数据处理的批处理时间段设定为非工作时间等,具体地,每天凌晨12点批处理人员调岗业务模块的数据等。本申请中,将源数据表进行分类,然后对不同分类的元数据表设定不同的批处理时间段,则可以将大数据平台的运算资源分时间段分配,降低大数据平台的运行负载,提高其运行稳定度。本实施例中,对源数据表进行分类的方法包括,判断源数据表的数据来源是哪一个业务模块,来自哪一个业务模块,则属于哪一个业务模块的类。在其它实施例中,还可以分析各源数据表的字段,然后根据字段与业务模块的匹配度等进行分类。
在一个实施例中,上述大数据平台数据仓库数据处理装置,还包括:
获取单元,用于当所述源数据表在指定的批处理时间段进行批处理时,获取该元数据表的数据量;
调整单元,用于根据所述数据量调整所述批处理时间段的时间长度。
在本实施例中,因为批处理时间段的长度是有限制的,比如,保险单据数据在中午12点-13点进行跑批处理,客户报险数据在下午13点-14点进行等,如果批处理时间段内需要批处理的源数据表的数据量过大,则需要大量的时间进行数据处理,处理数据需要的时间长度可能大于预设的批处理时间段的时间长度,所以需要对对应的批处理时间段的时间长度进行相应的调整,以防止批处理数据没有处理完成就被终止处理的情况发生。一般可以延长当前大数据量的批处理时间段的长度,然后将下一个批处理时间段的跑批处理适当延后,并获取下一个批处理时间段对用的眼数据的数据量,如果下一个批处理时间段的批处理的数据量很小,则可以将下一个批处理时间的时间长度调小,以将以后的各批处理时间段的时间恢复正常。在另一个实施例中,每一个批处理时间段之间设置有过度时间段,以用于防止数据量过大批处理的时间长度超出批处理时间的时间长度等。
本申请的大数据平台数据仓库数据处理装置,数据仓库的数据仓库层拆分成数据预处理层和数据汇总层,通过将数据清洗放在数据预处理层,并拆分为多个小任务,可以在同一个时间内并行运行多个任务,缩短了任务的执行时间;传统方案中数据仓库层不同的主题表会对同一张源数据表进行重复的加工处理,本方案将数据清洗放在数据预处理层中,处理完成后生成公共数据表,数据汇总层可以直接使用,避免了数据的重复处理,减少占用***资源;修改更加灵活,预处理统一放在预处理层,方便修改调整。
参照图4,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储源数据表等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种大数据平台数据仓库数据处理方法。
上述处理器执行上述大数据平台数据仓库数据处理方法,所述数据仓库的数据仓库层包括数据预处理层和数据汇总层,所述数据汇总层依赖于所述数据预处理层;所述处理方法,包括:获取源数据层的源数据表,并通过所述数据预处理层对所述源数据表进行预处理,得到公共数据表;通过所述数据汇总层将所述公共数据表与其它无需预处理的数据表进行汇总。
在一个实施例中,所述获取源数据层的源数据表,并通过所述数据预处理层对所述源数据表进行预处理,得到公共数据表的步骤,包括:判断待预处理的所述源数据表的数量;若所述源数据表的数量大于等于两个,则判断各所述源数据表之前的依赖关系;将存在依赖关系的各源数据表的第一顺位表,以及与其它源数据表没有依赖关系的离散源数据表并发进行预处理,将有依赖关系的源数据表根据依赖顺序进行预处理。
在一个实施例中,上述判断待预处理的所述源数据表的数量的步骤之前,包括:判断所述大数据平台的运行资源使用率;根据所述运行资源使用率确定对所述源数据表的并发线程数量。
在一个实施例中,所述通过所述数据汇总层将所述公共数据表与其它无需预处理的数据表进行汇总的步骤,包括:通过所述数据汇总层直接使用所述公共数据表,与其它无需预处理的数据表进行汇总。
在一个实施例中,所述获取源数据层的源数据表,并通过所述数据预处理层对所述源数据表进行预处理,得到公共数据表的步骤之前,包括:判断当前时间是否为预设的批处理时间段:若是,则生成对所述大数据平台数据仓库数据处理的命令。
在一个实施例中,所述判断当前时间是否为预设的批处理时间段的步骤之前,包括:将所述源数据层中的源数据表根据业务模块进行分类;给不同分类的源数据表设定预设的所述批处理时间段。
在一个实施例中,所述给不同分类的源数据表设定预设的所述批处理时间段的步骤之后,包括:当所述源数据表在指定的批处理时间段进行批处理时,获取该元数据表的数据量;根据所述数据量调整所述批处理时间段的时间长度。
本申请实施例的计算机设备,数据仓库的数据仓库层拆分成数据预处理层和数据汇总层,通过将数据清洗放在数据预处理层,并拆分为多个小任务,可以在同一个时间内并行运行多个任务,缩短了任务的执行时间;传统方案中数据仓库层不同的主题表会对同一张源数据表进行重复的加工处理,本方案将数据清洗放在数据预处理层中,处理完成后生成公共数据表,数据汇总层可以直接使用,避免了数据的重复处理,减少占用***资源;修改更加灵活,预处理统一放在预处理层,方便修改调整。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种大数据平台数据仓库数据处理方法,其特征在于,所述数据仓库的数据仓库层包括数据预处理层和数据汇总层,所述数据汇总层依赖于所述数据预处理层;所述处理方法,包括:获取源数据层的源数据表,并通过所述数据预处理层对所述源数据表进行预处理,得到公共数据表;通过所述数据汇总层将所述公共数据表与其它无需预处理的数据表进行汇总。
上述大数据平台数据仓库数据处理方法,数据仓库的数据仓库层拆分成数据预处理层和数据汇总层,通过将数据清洗放在数据预处理层,并拆分为多个小任务,可以在同一个时间内并行运行多个任务,缩短了任务的执行时间;传统方案中数据仓库层不同的主题表会对同一张源数据表进行重复的加工处理,本方案将数据清洗放在数据预处理层中,处理完成后生成公共数据表,数据汇总层可以直接使用,避免了数据的重复处理,减少占用***资源;修改更加灵活,预处理统一放在预处理层,方便修改调整。
在一个实施例中,所述获取源数据层的源数据表,并通过所述数据预处理层对所述源数据表进行预处理,得到公共数据表的步骤,包括:判断待预处理的所述源数据表的数量;若所述源数据表的数量大于等于两个,则判断各所述源数据表之前的依赖关系;将存在依赖关系的各源数据表的第一顺位表,以及与其它源数据表没有依赖关系的离散源数据表并发进行预处理,将有依赖关系的源数据表根据依赖顺序进行预处理。
在一个实施例中,上述判断待预处理的所述源数据表的数量的步骤之前,包括:判断所述大数据平台的运行资源使用率;根据所述运行资源使用率确定对所述源数据表的并发线程数量。
在一个实施例中,所述通过所述数据汇总层将所述公共数据表与其它无需预处理的数据表进行汇总的步骤,包括:通过所述数据汇总层直接使用所述公共数据表,与其它无需预处理的数据表进行汇总。
在一个实施例中,所述获取源数据层的源数据表,并通过所述数据预处理层对所述源数据表进行预处理,得到公共数据表的步骤之前,包括:判断当前时间是否为预设的批处理时间段:若是,则生成对所述大数据平台数据仓库数据处理的命令。
在一个实施例中,所述判断当前时间是否为预设的批处理时间段的步骤之前,包括:将所述源数据层中的源数据表根据业务模块进行分类;给不同分类的源数据表设定预设的所述批处理时间段。
在一个实施例中,所述给不同分类的源数据表设定预设的所述批处理时间段的步骤之后,包括:当所述源数据表在指定的批处理时间段进行批处理时,获取该元数据表的数据量;根据所述数据量调整所述批处理时间段的时间长度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (5)

1.一种大数据平台数据仓库数据处理方法,其特征在于,所述数据仓库的数据仓库层包括数据预处理层和数据汇总层,所述数据汇总层依赖于所述数据预处理层;所述处理方法,包括:
获取源数据层的源数据表,并通过所述数据预处理层对所述源数据表进行预处理,得到公共数据表;
通过所述数据汇总层将所述公共数据表与其它无需预处理的数据表进行汇总;所述获取源数据层的源数据表,并通过所述数据预处理层对所述源数据表进行预处理,得到公共数据表的步骤,包括:
判断待预处理的所述源数据表的数量;
若所述源数据表的数量大于等于两个,则判断各所述源数据表之间的依赖关系;
将存在依赖关系的各源数据表的第一顺位表,以及与其它源数据表没有依赖关系的离散源数据表并发进行预处理,将有依赖关系的源数据表根据依赖顺序进行预处理;其中,存在依赖关系的各源数据表存在多条主脉和支脉,所述第一顺位表为各主脉上的第一个源数据表;
所述通过所述数据汇总层将所述公共数据表与其它无需预处理的数据表进行汇总的步骤,包括:
通过所述数据汇总层直接使用所述公共数据表,与其它无需预处理的数据表进行汇总;
所述获取源数据层的源数据表,并通过所述数据预处理层对所述源数据表进行预处理,得到公共数据表的步骤之前,包括:
判断当前时间是否为预设的批处理时间段:
若是,则生成对所述大数据平台数据仓库数据处理的命令;
所述判断当前时间是否为预设的批处理时间段的步骤之前,包括:
将所述源数据层中的源数据表根据业务模块进行分类;
给不同分类的源数据表设定预设的所述批处理时间段;
所述给不同分类的源数据表设定预设的所述批处理时间段的步骤之后,包括:
当所述源数据表在指定的批处理时间段进行批处理时,获取该源数据表的数据量;
根据所述数据量调整所述批处理时间段的时间长度。
2.根据权利要求1所述的大数据平台数据仓库数据处理方法,其特征在于,所述判断待预处理的所述源数据表的数量的步骤之前,包括:
判断所述大数据平台的运行资源使用率;
根据所述运行资源使用率确定对所述源数据表的并发线程数量。
3.一种大数据平台数据仓库数据处理装置,其特征在于,所述数据仓库的数据仓库层包括数据预处理层和数据汇总层,所述数据汇总层依赖于所述数据预处理层;所述处理装置,包括:
时间判断单元,用于判断当前时间是否为预设的批处理时间段:
生成单元,用于若当前时间是预设的批处理时间段,则生成对所述大数据平台数据仓库数据处理的命令;
预处理单元,用于获取源数据层的源数据表,并通过所述数据预处理层对所述源数据表进行预处理,得到公共数据表;
汇总单元,用于通过所述数据汇总层将所述公共数据表与其它无需预处理的数据表进行汇总;
上述预处理单元,包括:
数据量判断模块,用于判断待预处理的所述源数据表的数量;
依赖关系判断模块,用于若所述源数据表的数量大于等于两个,则判断各所述源数据表之间的依赖关系;
并发处理模块,用于将存在依赖关系的各源数据表的第一顺位表,以及与其它源数据表没有依赖关系的离散源数据表并发进行预处理,将有依赖关系的源数据表根据依赖顺序进行预处理;其中,存在依赖关系的各源数据表存在多条主脉和支脉,所述第一顺位表为各主脉上的第一个源数据表;
汇总单元,包括:
直接汇总模块,用于通过所述数据汇总层直接使用所述公共数据表,与其它无需预处理的数据表进行汇总;
所述大数据平台数据仓库数据处理装置,还包括:
分类单元,用于将所述源数据层中的源数据表根据业务模块进行分类;
设定单元,用于给不同分类的源数据表设定预设的所述批处理时间段;
获取单元,用于当所述源数据表在指定的批处理时间段进行批处理时,获取该源数据表的数据量;
调整单元,用于根据所述数据量调整所述批处理时间段的时间长度。
4.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至2中任一项所述方法的步骤。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至2中任一项所述的方法的步骤。
CN201811229370.7A 2018-10-22 2018-10-22 大数据平台数据仓库数据处理方法、装置和计算机设备 Active CN109597846B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811229370.7A CN109597846B (zh) 2018-10-22 2018-10-22 大数据平台数据仓库数据处理方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811229370.7A CN109597846B (zh) 2018-10-22 2018-10-22 大数据平台数据仓库数据处理方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN109597846A CN109597846A (zh) 2019-04-09
CN109597846B true CN109597846B (zh) 2024-05-07

Family

ID=65957969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811229370.7A Active CN109597846B (zh) 2018-10-22 2018-10-22 大数据平台数据仓库数据处理方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN109597846B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362562A (zh) * 2019-07-16 2019-10-22 中国工商银行股份有限公司 大数据抽取样本数据的方法及***
CN110543478B (zh) * 2019-07-17 2023-02-03 创新先进技术有限公司 公共层宽表建设方法、装置及服务器
CN110569315B (zh) * 2019-07-29 2020-11-10 北京创鑫旅程网络技术有限公司 基于数据仓库的数据处理方法和装置
CN112364001A (zh) * 2020-11-03 2021-02-12 北京红山信息科技研究院有限公司 多维空间大数据的清洗方法、装置、计算机设备及介质
CN112380218B (zh) * 2020-11-18 2023-03-28 浪潮通信信息***有限公司 一种基于etl进行数据仓库各层数据表汇总的自动触发方法
CN117609210A (zh) * 2023-11-30 2024-02-27 上海一谈网络科技有限公司 数据表处理方法、装置、计算机设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101183986A (zh) * 2007-11-26 2008-05-21 河北全通通信有限公司 节约存储、营造“绿色”数据仓库的方法
CN104123303A (zh) * 2013-04-27 2014-10-29 阿里巴巴集团控股有限公司 一种提供数据的方法及装置
CN106055654A (zh) * 2016-06-01 2016-10-26 东软集团股份有限公司 异构数据的整合方法以及装置
CN106296498A (zh) * 2015-05-21 2017-01-04 中兴通讯股份有限公司 数据处理方法及装置
CN108280084A (zh) * 2017-01-06 2018-07-13 上海前隆信息科技有限公司 一种数据仓库的构建方法、***及服务器
CN108427711A (zh) * 2018-01-31 2018-08-21 北京三快在线科技有限公司 实时数据仓库、实时数据处理方法、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10354080B2 (en) * 2016-05-13 2019-07-16 Winshuttle, Llc Facilitating offline or other contemporaneous editing of tabular data

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101183986A (zh) * 2007-11-26 2008-05-21 河北全通通信有限公司 节约存储、营造“绿色”数据仓库的方法
CN104123303A (zh) * 2013-04-27 2014-10-29 阿里巴巴集团控股有限公司 一种提供数据的方法及装置
CN106296498A (zh) * 2015-05-21 2017-01-04 中兴通讯股份有限公司 数据处理方法及装置
CN106055654A (zh) * 2016-06-01 2016-10-26 东软集团股份有限公司 异构数据的整合方法以及装置
CN108280084A (zh) * 2017-01-06 2018-07-13 上海前隆信息科技有限公司 一种数据仓库的构建方法、***及服务器
CN108427711A (zh) * 2018-01-31 2018-08-21 北京三快在线科技有限公司 实时数据仓库、实时数据处理方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN109597846A (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN109597846B (zh) 大数据平台数据仓库数据处理方法、装置和计算机设备
US10541870B2 (en) Unified work backlog
CN106802826B (zh) 一种基于线程池的业务处理方法及装置
CN109271435B (zh) 一种支持断点续传的数据抽取方法及***
WO2020228177A1 (zh) 批量数据处理方法、装置、计算机设备及存储介质
US10725965B1 (en) Systems and methods for managing copy creation and deletion
CN106776855B (zh) 基于Spark Streaming读取Kafka数据的处理方法
US8826277B2 (en) Cloud provisioning accelerator
US7440973B2 (en) Systems, methods and software for automating database tasks
CN100538646C (zh) 一种在分布式***中执行sql脚本文件的方法和装置
US10740336B2 (en) Computerized methods and systems for grouping data using data streams
US9164849B2 (en) Backup jobs scheduling optimization
CN106909554B (zh) 一种数据库文本表数据的加载方法及装置
CN109885642B (zh) 面向全文检索的分级存储方法及装置
WO2019200767A1 (zh) 坐席任务分配方法、装置、计算机设备及存储介质
CN105279261A (zh) 动态可扩展数据库归档方法和***
CN114722119A (zh) 数据同步方法及***
CN114385760A (zh) 增量数据实时同步的方法、装置、计算机设备及存储介质
CN112750027A (zh) 批量业务处理方法、装置、计算机设备和存储介质
CN109656692B (zh) 一种大数据任务管理方法、装置、设备及存储介质
US10261718B1 (en) Adaptively controlling data copy operations that copy data in an electronic environment
WO2019080424A1 (zh) 客户迁徙方法、***、计算机设备及存储介质
US8554753B1 (en) Maintaining database transaction priority between web pages in the absence of direct communication between the pages
CN112256418A (zh) 一种大数据任务调度方法
US11922310B1 (en) Forecasting activity in software applications using machine learning models and multidimensional time-series data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant