CN109213764A - 数据仓库内数据处理方法、装置、计算机设备和存储介质 - Google Patents
数据仓库内数据处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN109213764A CN109213764A CN201810948608.5A CN201810948608A CN109213764A CN 109213764 A CN109213764 A CN 109213764A CN 201810948608 A CN201810948608 A CN 201810948608A CN 109213764 A CN109213764 A CN 109213764A
- Authority
- CN
- China
- Prior art keywords
- data
- memory block
- bills
- dsc
- logical process
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请揭示了一种数据仓库内数据处理方法、装置、计算机设备和存储介质,数据仓库至少包括冷数据存储区和热数据存储区;其中,所述冷数据存储区用于存储已结案的单据数据,热数据存储区用于存储未结案的单据数据;所述数据处理方法,包括:获取当前***的时间信息;判断所述时间信息是否为预设的繁忙时间;若所述时间信息是预设的繁忙时间,则只对所述热数据存储区内的单据数据进行逻辑处理。本申请,在工作日(繁忙时间)的时候只对热数据存储区中的数据进行逻辑处理,而不是进行全量处理,加快了数据仓库数据处理的效率,进而提高对数据处理的时效,节省了计算资源。
Description
技术领域
本申请涉及到计算机领域,特别是涉及到一种数据仓库内数据处理方法、装置、计算机设备和存储介质。
背景技术
目前在大数据Hive领域建设数据仓库都是用全量处理方案,随着时间的延长,数据仓库能的数据会也来越多,比如保险公司的保险单据等,会随着时间的延长不断地增加新的保险单据,如果每次对数据仓库内的数据进行全量处理,会大大地占用***的运算资源,而且耗时较长,无法对某些对时效性要求较高的数据及时处理。
发明内容
本申请的主要目的为提供一种数据仓库内数据处理方法、装置、计算机设备和存储介质,旨在解决上述当数据仓库中数据量较大时,全处理占用过多运算资源等技术问题。
为了解决上述发明目的,本申请提出一种数据仓库内数据处理方法,所述数据仓库至少包括冷数据存储区和热数据存储区;其中,所述冷数据存储区用于存储已结案的单据数据,热数据存储区用于存储未结案的单据数据;所述数据处理方法,包括:
获取当前***的时间信息;
判断所述时间信息是否为预设的繁忙时间;
若所述时间信息是预设的繁忙时间,则只对所述热数据存储区内的单据数据进行逻辑处理;
若所述时间信息不是预设的所述繁忙时间,则判断所述时间信息是否为预设的空闲时间;
若判定所述时间信息是空闲时间,则对所述冷数据存储区和热数据存储区中的单据数据进行全量逻辑处理。
进一步地,所述判断所述时间信息是否为预设的繁忙时间的步骤之前,包括:
获取所述数据仓库内各单据数据的案件状态;
将已结案的单据数据存储到所述冷数据存储区,以及将未结案的单据数据标存储到所述热数据存储区。
进一步地,所述只对所述热数据存储区内的单据数据进行逻辑处理的步骤,包括:
当日第一次对热数据存储区中的单据数据进行逻辑处理时,对热数据存储区内的单据数据进行案件状态分类;
将处于已结案状态的单据数据***到所述冷数据存储区内;
对热数据存储区中剩余的单据数据进行逻辑处理。
进一步地,所述只对所述热数据存储区内的单据数据进行逻辑处理的步骤之前,包括:
获取当日产生的新的单据数据,并将所述新的单据数据***到所述热数据存储区中。
进一步地,所述只对所述热数据存储区内的单据数据进行逻辑处理的步骤之后,还包括:
获取所述冷数据存储区中被逻辑处理的次数等于第一阈值,且未被更新的第一单据数据;
将所述第一单据数据存储到预设的逻辑处理隔离区。
进一步地,所述只对所述热数据存储区内的单据数据进行逻辑处理的步骤之后,还包括:
获取所述冷数据存储区中结案日期与当前日期之间的时间差等于第二阈值,且未被更新的第二单据数据;
将所述第二单据数据存储到预设的逻辑处理隔离区。
本申请还提供一种数据仓库内数据处理装置,所述数据仓库至少包括冷数据存储区和热数据存储区;其中,所述冷数据存储区用于存储已结案的单据数据,热数据存储区用于存储未结案的单据数据;所述数据处理装置,包括:
第一获取单元,用于获取当前***的时间信息;
第一判断单元,用于判断所述时间信息是否为预设的繁忙时间;
处理单元,用于若所述时间信息是预设的繁忙时间,则只对所述热数据存储区内的单据数据进行逻辑处理;
第二判断单元,用于若所述时间信息不是预设的所述繁忙时间,则判断所述时间信息是否为预设的空闲时间;
全处理单元,用于若判定所述时间信息是空闲时间,则对所述冷数据存储区和热数据存储区中的单据数据进行全量逻辑处理。
进一步地,所述数据仓库内数据处理装置还包括:
获取状态单元,用于获取所述数据仓库内各单据数据的案件状态;
标记存储单元,用于将已结案的单据数据存储到所述冷数据存储区,以及将未结案的单据数据存储到所述热数据存储区。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的数据仓库内数据处理方法、装置、计算机设备和存储介质,将数据仓库至少分为包括冷数据存储区和热数据存储区的不同存储区;其中,所述冷数据存储区用于存储已结案的单据数据,热数据存储区用于存储未结案的单据数据,在工作日(繁忙时间)的时候只对热数据存储区中的数据进行逻辑处理,而不是进行全量处理,加快了数据仓库数据处理的效率,进而提高对数据处理的时效,节省了计算资源。
附图说明
图1为本申请一实施例的数据仓库内数据处理方法的流程示意图;
图2为本申请一实施例的数据仓库内数据处理装置的结构示意框图;
图3为本申请一实施例的处理单元的结构示意框图;
图4为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种数据仓库内数据处理方法,上述数据仓库至少包括冷数据存储区和热数据存储区;其中,所述冷数据存储区用于存储已结案的单据数据,热数据存储区用于存储未结案的单据数据;所述数据处理方法,包括步骤:
S1、获取当前***的时间信息;
S2、判断所述时间信息是否为预设的繁忙时间;
S3、若所述时间信息是预设的繁忙时间,则只对所述热数据存储区内的单据数据进行逻辑处理。
如上述步骤S1所述,上述当前的时间信息即为***后台需要对上述数据仓库中的数据进行逻辑处理时的时间。逻辑处理即为按照预设的规则对指定的数据进行处理,比如判断单据数据是否被曾、删、改的更新等;比如判断单据数据是否结案,判断单据数据是否存在指定的错误等等。
如上述步骤S2和S3所述,上述预设的繁忙时间是指用户频繁使用***资源的时间段,用户可以自定义设置,一般为工作日,在工作日,***不但在后台对各种数据进行跑批处理,还会接收大量工作人员的任务运行、调度等操作,此时在***后台只对上述热数据存储区中的数据进行逻辑处理,会节约***的计算资源,同时提高了数据仓库数据处理的时效性,以及提高了数据处理的效率。本申请中,上述数据仓库基于HIVE架构。上述HIVE是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作。
在一个实施例中,上述判断所述时间信息是否为预设的繁忙时间的步骤S2之后,包括:
S4、若所述时间信息不是预设的所述繁忙时间,则判断所述时间信息是否为预设的空闲时间;
S5、若判定所述时间信息是空闲时间,则对所述冷数据存储区和热数据存储区中的单据数据进行全量逻辑处理。
如上述步骤S4和S5所述,上述空闲时间一般为***运行计算量相对工作日的计算量较少时所对应的时间,一般为非工作日时间,如法定假日、下班之后的时间等。冷数据存储区中单据数据虽然是已结案的单据数据,但是存在人为修改的情况,比如,某保险单据已结案,但是在保单期限内存在报险情况,但是被人为或***出错而漏掉,在此种情况的保险单据的数据应该修改。所以对数据仓库内的冷数据存储区的数据还是需要进行全处理的,只是在频率上不需要太快,可以每天、每周进行一次全处理即可。本申请中,优选空闲时间为周日,即每周对上述数据仓库内的数据进行一次全处理。在其它实施例中,还可以设置指定的下班时间为空闲时间,或者其它法定假日为空闲时间等。
在一个具体实施例中,上述空闲时间设置有多个,各空闲时间的时间长度不同,比如工作日的晚上时间较短,周六、周日的时间长度适中,国庆节的时间长度较长。本申请中,先判断数据仓库中的数据量是多少,如果数据量小于等于第一预设量,则选择空闲时间为工作日的晚上;如果数据量大于第一预设量小于等于第二预设量,则选择空闲时间为周六周日;如果数据量大于第二预设量,则选择空闲时间为国庆节假日等。以保险公司的保险单数据为例,随着时间的增长,保险单数据会越积累越多,进行一次全处理的时间也会也来越长,为了充分利用空闲时间,则预设多个空闲时间,而空闲时间的选择则根据数据量进行确定。
在一个实施例中,上述判断所述时间信息是否为预设的繁忙时间的步骤S2之前,包括:
S201、获取所述数据仓库内各单据数据的案件状态;
S202、将已结案的单据数据存储到所述冷数据存储区,以及将未结案的单据数据存储到所述热数据存储区。
在如上述步骤S201所述,上述案件状态包括两种,第一种是已结案状态,第二种是未结案状态。判断单据的案件状态的方法包括:将单据数据的到期日期与当前日期进行比较,如果当期日期等于或早于单据数据的到期日期,则判定单据的案件状态为未结案状态;如果到期日期早于当前日期,则判断单据数据对应的案件是否处于处理状态中,如果处于处理状态中,则说明虽然单据的到期日期已过,但是仍然没有结案,所以其属于未结案状态。在一具体实施例中,上述单据数据为保险单据数据,保险单据数据的到期日期已过,但是该保险单据数据对应的保险处于出险未完结的状态,则说明该保险单据数为未结案状态,待出险完成,并完成后期的理赔之后,才算完结;如果保险单据的到期日期已过,也没有处于出险状态,则可以直接判定该保险单据处于已结案状态。
如上述步骤S202所述,即为将数据仓库内的单据进行分类,单据的案件状态为已结案状态的,说明其数据等无需再次处理,或者无需每一次都进行处理;同理,处于未结案状态的单据,其数据等可能会发生变化的概率更大,所以需要定时的进行批处理,以做到到及时更新等。本申请还将已结案的单据数据和未结案的单据数据分别存储,即将已结案的单据数据存储于上述冷数据存储区,将未结案的单据数据存储于热数据存储区,以便于后续对存储在不同存储区的数据进行处理等。
在一个实施例中,上述只对所述热数据存储区内的单据数据进行逻辑处理的步骤S3,包括:
S31、当日第一次对热数据存储区中的单据数据进行逻辑处理时,对热数据存储区内的单据数据进行案件状态分类;
S32、将处于已结案状态的单据数据***到所述冷数据存储区内;
S33、对热数据存储区中剩余的单据数据进行逻辑处理。
如上述步骤S31、S32和S33中,上述当日是指当前所处的一天,比如,前一天是2018年5月1号,今天是2018年5月2号,那么当日即为2018年5月2号。当日第一次处理的热数据存储区中的单据数据为前一天处理过的单据数据,此时,热数据存储区中存储的未结案的单据数据是相对于前一天而言的,比如,某单据数据的到期日期恰好是前一天,那么其在前一天属于未结案的单据数据,而在当日则为已结案的单据数据。所以,在当日中,第一次对热数据存储区中的未结案的单据数据进行逻辑处理的时候,先将前一天的未结案的单据数据进行分类,以分辨出热数据存储区中当前的单据数据中哪些单据数据已经变为已结案的单据数据,然后将查找出的已结案的单据数据先***到冷数据存储区中,然后对剩余的未结案的单据数据进行逻辑处理,进一步的节省逻辑处理的计算资源等。在一个具体实施例中,如果当日对所述热数据存储区中的单据数据进行多伦逻辑处理时,第二次以及第二次之后的逻辑处理过程中,则无需再次对单据数据进行分类。
在一个实施例中,上述只对所述热数据存储区内的单据数据进行逻辑处理的步骤S3之前,包括:
S301、获取当日产生的新的单据数据,并将所述新的单据数据***到所述热数据存储区中。
如上述步骤S301所述,上述新的单据数据是指当天生成的单据数据,比如,业务人员当天签单后生成的单据数据等。因为新的单据数据是当天刚刚生成的,所以可以作为未结案的单据数据直接***到热数据存储区中,不会对当日产生的新的单据数据漏掉逻辑处理。
在一个实施例中,所述只对所述热数据存储区内的单据数据进行逻辑处理的步骤S3之后,还包括:
S6、获取冷数据存储区中被逻辑处理的次数等于第一阈值,且未被更新的第一单据数据;
S7、将所述第一单据数据存储到预设的逻辑处理隔离区。
如上述步骤S6和S7所述,上述第一阈值是一个经验值,工程师可以根据经验进行设置。上述逻辑处理隔离区是指对数据仓库数据全量逻辑处理时仍然不会被调用的存储空间。上述第一单据数据是被处理了第一阈值次数,仍然没有更新的已结案的单据数据,说明其稳定性较高,基本不会被再次更新,所以将其存入到逻辑处理隔离区不会对业务等产生影响,而将其存入到逻辑处理隔离区,可以减低***在做全量逻辑处理时的计算资源,以及提高计算的效率。
在一个实施例中,上述只对所述热数据存储区内的单据数据进行逻辑处理的步骤S3之后,还包括:
S8、获取冷数据存储区中结案日期与当前日期之间的时间差等于第二阈值,且未被更新的第二单据数据;
S9、将所述第二单据数据存储到预设的逻辑处理隔离区。
如上述步骤S8和S9所述,上述第二阈值可以设定一个较长的时间,比如5年的时间长度、10年的时间长度等,这样长的时间跨度中,且数据没有被更新过,说明其稳定性较高,基本不会被再次更新,所以将其存入到逻辑处理隔离区不会对业务等产生影响,而将其存入到逻辑处理隔离区,可以减低***在做全量逻辑处理是的计算资源,以及提高计算的效率。
本申请实施例的数据仓库内数据处理方法,将数据仓库至少分为包括冷数据存储区和热数据存储区的不同存储区;其中,所述冷数据存储区用于存储已结案的单据数据,热数据存储区用于存储未结案的单据数据,在工作日(繁忙时间)的时候只对热数据存储区中的数据进行逻辑处理,而不是进行全量处理,加快了数据仓库数据处理的效率,进而提高对数据处理的时效,节省了计算资源。
参照图2,本申请实施例还提供一种数据仓库内数据处理装置,上述数据仓库至少包括冷数据存储区和热数据存储区;其中,所述冷数据存储区用于存储已结案的单据数据,热数据存储区用于存储未结案的单据数据;所述数据处理装置法,包括步骤:
第一获取单元10,用于获取当前***的时间信息;
第一判断单元20,用于判断所述时间信息是否为预设的繁忙时间;
处理单元30,用于若所述时间信息是预设的繁忙时间,则只对所述热数据存储区内的单据数据进行逻辑处理。
如上述第一获取单元10,上述当前的时间信息是指用户频繁使用***资源的时间段,用户可以自定义设置,即为***后台需要对上述数据仓库中的数据进行逻辑处理时的时间。逻辑处理即为按照预设的规则对指定的数据进行处理,比如判断单据数据是否被曾、删、改的更新等;比如判断单据数据是否结案,判断单据数据是否存在指定的错误等等。
如上述第一判断单元20和处理单元30,上述预设的繁忙时间一般为工作日,在工作日,***不但在后台对各种数据进行跑批处理,还会接收大量工作人员的任务运行、调度等操作,此时在***后台只对上述热数据存储区中的数据进行逻辑处理,会节约***的计算资源,同时提高了数据仓库数据处理的时效性,以及提高了数据处理的效率。本申请中,上述数据仓库基于HIVE架构。上述HIVE是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作。
在一个实施例中,上述数据仓库内数据处理装置,还包括:
第二判断单40,用于若所述时间信息不是预设的所述繁忙时间,则判断所述时间信息是否为预设的空闲时间;
全处理单元50,用于若判定所述时间信息是空闲时间,则对所述冷数据存储区和热数据存储区中的单据数据进行全量逻辑处理。
如上述第二判断单元和全处理单元,上述空闲时间一般为***运行计算量相对工作日的计算量较少时所对应的时间,一般为非工作日时间,如法定假日、下班之后的时间等。冷数据存储区中单据数据虽然是已结案的单据数据,但是存在人为修改的情况,比如,某保险单据已结案,但是在保单期限内存在报险情况,但是被人为或***出错而漏掉,在此种情况的保险单据的数据应该修改。所以对数据仓库内的冷数据存储区的数据还是需要进行全处理的,只是在频率上不需要太快,可以每天、每周进行一次全处理即可。本申请中,优选空闲时间为周日,即每周对上述数据仓库内的数据进行一次全处理。在其它实施例中,还可以设置指定的下班时间为空闲时间,或者其它法定假日为空闲时间等。
在一个具体实施例中,上述空闲时间设置有多个,各空闲时间的时间长度不同,比如工作日的晚上时间较短,周六、周日的时间长度适中,国庆节(7天假期)的时间长度较长。本申请中,先判断数据仓库中的数据量是多少,如果数据量小于等于第一预设量,则选择空闲时间为工作日的晚上;如果数据量大于第一预设量小于等于第二预设量,则选择空闲时间为周六周日;如果数据量大于第二预设量,则选择空闲时间为国庆节假日等。以保险公司的保险单数据为例,随着时间的增长,保险单数据会越积累越多,进行一次全处理的时间也会也来越长,为了充分利用空闲时间,则预设多个空闲时间,而空闲时间的选择则根据数据量进行确定。
在一个实施例中,上述数据仓库内数据处理装置,还包括:
获取状态单元,用于获取所述数据仓库内各单据数据的案件状态;
标记存储单元,用于将已结案的单据数据存储到所述冷数据存储区,以及将未结案的单据数据存储到所述热数据存储区。
在如上述获取状态单元,上述案件状态包括两种,第一种是已结案状态,第二种是未结案状态。判断单据的案件状态的方法包括:将单据数据的到期日期与当前日期进行比较,如果当期日期等于或早于单据数据的到期日期,则判定单据的案件状态为未结案状态;如果到期日期早于当前日期,则判断单据数据对应的案件是否处于处理状态中,如果处于处理状态中,则说明虽然单据的到期日期已过,但是仍然没有结案,所以其属于未结案状态。在一具体实施例中,上述单据数据为保险单据数据,保险单据数据的到期日期已过,但是该保险单据数据对应的保险处于出险未完结的状态,则说明该保险单据数为未结案状态,待出险完成,并完成后期的理赔之后,才算完结;如果保险单据的到期日期已过,也没有处于出险状态,则可以直接判定该保险单据处于已结案状态。
如上述标记存储单元,即为将数据仓库内的单据进行分类并且标记的单元,单据的案件状态为已结案状态的,说明其数据等无需再次处理,或者无需每一次都进行处理,本申请期中将其添加冷数据的标签;同理,处于未结案状态的单据,其数据等可能会发生变化的概率更大,所以需要定时的进行批处理,以做到到及时更新等,本申请将其添加热数据的标签。本申请还将已结案的单据数据和未结案的单据数据分别存储,即将已结案的单据数据存储于上述冷数据存储区,将未结案的单据数据存储于热数据存储区,以便于后续对存储在不同存储区的数据进行处理等。
参照图3,在一个实施例中,上述处理单元30,包括:
分类模块31,用于当日第一次对热数据存储区中的单据数据进行逻辑处理时,对热数据存储区内的单据数据进行案件状态分类;
***模块32,用于将处于已结案状态的单据数据***到所述冷数据存储区内;
处理模块33,用于对热数据存储区中剩余的单据数据进行逻辑处理。
如上述分类模块31、***模块32和处理模块33,上述当日是指当前所处的一天,比如,前一天是2018年5月1号,今天是2018年5月2号,那么当日即为2018年5月2号。当日第一次处理的热数据存储区中的单据数据为前一天处理过的单据数据,此时,热数据存储区中存储的未结案的单据数据是相对于前一天而言的,比如,某单据数据的到期日期恰好是前一天,那么其在前一天属于未结案的单据数据,而在当日则为已结案的单据数据。所以,在当日中,第一次对热数据存储区中的未结案的单据数据进行逻辑处理的时候,先将前一天的未结案的单据数据进行分类,以分辨出当前的热数据存储区中的单据数据中哪些单据数据已经变为已结案的单据数据,然后将查找出的已结案的单据数据先***到冷数据存储区中,然后对剩余的未结案的单据数据进行逻辑处理,进一步的节省逻辑处理的计算资源等。在一个具体实施例中,如果当日对所述热数据存储区中的单据数据进行多伦逻辑处理时,第二次以及第二次之后的逻辑处理过程中,则无需再次对单据数据进行分类。
在一个实施例中,上述数据仓库内数据处理装置,还包括:
***单元,用于获取当日产生的新的单据数据,并将所述新的单据数据***到所述热数据存储区中。
如上述***单元,上述新的单据数据是指当天生成的单据数据,比如,业务人员当天签单后生成的单据数据等。因为新的单据数据是当天刚刚生成的,所以可以作为未结案的单据数据直接***到热数据存储区中,不会对当日产生的新的单据数据漏掉逻辑处理。
在一个实施例中,上述数据仓库内数据处理装置,还包括:
第二获取单元,用于获取冷数据存储区中被逻辑处理的次数等于第一阈值,且未被更新的第一单据数据;
第一存储单元,用于将所述第一单据数据存储到预设的逻辑处理隔离区。
如上述第二获取单元和第一存储单元,上述第一阈值是一个经验值,工程师可以根据经验进行设置。上述逻辑处理隔离区是指对数据仓库数据全量逻辑处理时仍然不会被调用的存储空间。上述第一单据数据是被处理了第一阈值次数,仍然没有更新的已结案的单据数据,说明其稳定性较高,基本不会被再次更新,所以将其存入到逻辑处理隔离区不会对业务等产生影响,而将其存入到逻辑处理隔离区,可以减低***在做全量逻辑处理是的计算资源,以及提高计算的效率。
在一个实施例中,上述数据仓库内数据处理装置,还包括:
第三获取单元,用于获取冷数据存储区中结案日期与当前日期之间的时间差等于第二阈值,且未被更新的第二单据数据;
第二存储单元,用于将所述第二单据数据存储到预设的逻辑处理隔离区。
如上述第三获取单元和第二存储单元,上述第二阈值可以设定一个较长的时间,比如5年的时间长度、10年的时间长度等,这样长的时间跨度中,且数据没有被更新过,说明其稳定性较高,基本不会被再次更新,所以将其存入到逻辑处理隔离区不会对业务等产生影响,而将其存入到逻辑处理隔离区,可以减低***在做全量逻辑处理是的计算资源,以及提高计算的效率。
本申请实施例的数据仓库内数据处理装置,将数据仓库至少分为包括冷数据存储区和热数据存储区的不同存储区;其中,所述冷数据存储区用于存储已结案的单据数据,热数据存储区用于存储未结案的单据数据,在工作日(繁忙时间)的时候只对热数据存储区中的数据进行逻辑处理,而不是进行全量处理,加快了数据仓库数据处理的效率,进而提高对数据处理的时效,节省了计算资源。
参照图4,本发明实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据仓库内数据处理方法的程序数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据仓库内数据处理方法。
上述处理器执行上述数据仓库内数据处理方法,所述数据仓库至少包括冷数据存储区和热数据存储区;其中,所述冷数据存储区用于存储已结案的单据数据,热数据存储区用于存储未结案的单据数据;所述数据处理方法,包括:获取当前***的时间信息;判断所述时间信息是否为预设的繁忙时间;若所述时间信息是预设的繁忙时间,则只对所述热数据存储区内的单据数据进行逻辑处理。
在一个实施例中,上述判断所述时间信息是否为预设的繁忙时间的步骤之后,包括:若所述时间信息不是预设的所述繁忙时间,则判断所述时间信息是否为预设的空闲时间;若判定所述时间信息是空闲时间,则对所述冷数据存储区和热数据存储区中的单据数据进行全量逻辑处理。
在一个实施例中,上述判断所述时间信息是否为预设的繁忙时间的步骤之前,包括:获取所述数据仓库内各单据数据的案件状态;将已结案的单据数据存储到所述冷数据存储区,以及将未结案的单据数据存储到所述热数据存储区。
在一个实施例中,上述只对所述热数据存储区内的单据数据进行逻辑处理的步骤,包括:当日第一次对热数据存储区中的单据数据进行逻辑处理时,对热数据存储区内的单据数据进行案件状态分类;将处于已结案状态的单据数据***到所述冷数据存储区内;对热数据存储区中剩余的单据数据进行逻辑处理。
在一个实施例中,上述只对所述热数据存储区内的单据数据进行逻辑处理的步骤之前,包括:获取当日产生的新的单据数据,并将所述新的单据数据***到所述热数据存储区中。
在一个实施例中,上述只对所述热数据存储区内的单据数据进行逻辑处理的步骤之后,还包括:获取所述冷数据存储区中被逻辑处理的次数等于第一阈值,且未被更新的第一单据数据;将所述第一单据数据存储到预设的逻辑处理隔离区。
在一个实施例中,上述只对所述热数据存储区内的单据数据进行逻辑处理的步骤之后,还包括:获取所述冷数据存储区中结案日期与当前日期之间的时间差等于第二阈值,且未被更新的第二单据数据;将所述第二单据数据存储到预设的逻辑处理隔离区。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本发明实施例的数据仓库内数据处理方法,将数据仓库至少分为包括冷数据存储区和热数据存储区的不同存储区;其中,所述冷数据存储区用于存储已结案的单据数据,热数据存储区用于存储未结案的单据数据,在工作日(繁忙时间)的时候只对热数据存储区中的数据进行逻辑处理,而不是进行全量处理,加快了数据仓库数据处理的效率,进而提高对数据处理的时效,节省了计算资源。
本发明一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现数据仓库内数据处理方法,所述数据仓库至少包括冷数据存储区和热数据存储区;其中,所述冷数据存储区用于存储已结案的单据数据,热数据存储区用于存储未结案的单据数据;所述数据处理方法,包括:获取当前***的时间信息;判断所述时间信息是否为预设的繁忙时间;若所述时间信息是预设的繁忙时间,则只对所述热数据存储区内的单据数据进行逻辑处理。
上述执行的数据仓库内数据处理方法,将数据仓库至少分为包括冷数据存储区和热数据存储区的不同存储区;其中,所述冷数据存储区用于存储已结案的单据数据,热数据存储区用于存储未结案的单据数据,在工作日(繁忙时间)的时候只对热数据存储区中的数据进行逻辑处理,而不是进行全量处理,加快了数据仓库数据处理的效率,进而提高对数据处理的时效,节省了计算资源。
在一个实施例中,上述判断所述时间信息是否为预设的繁忙时间的步骤之后,包括:若所述时间信息不是预设的所述繁忙时间,则判断所述时间信息是否为预设的空闲时间;若判定所述时间信息是空闲时间,则对所述冷数据存储区和热数据存储区中的单据数据进行全量逻辑处理。
在一个实施例中,上述判断所述时间信息是否为预设的繁忙时间的步骤之前,包括:获取所述数据仓库内各单据数据的案件状态;将已结案的单据数据存储到所述冷数据存储区,以及将未结案的单据数据存储到所述热数据存储区。
在一个实施例中,上述只对所述热数据存储区内的单据数据进行逻辑处理的步骤,包括:当日第一次对热数据存储区中的单据数据进行逻辑处理时,对热数据存储区内的单据数据进行案件状态分类;将处于已结案状态的单据数据***到所述冷数据存储区内;对热数据存储区中剩余的单据数据进行逻辑处理。
在一个实施例中,上述只对所述热数据存储区内的单据数据进行逻辑处理的步骤之前,包括:获取当日产生的新的单据数据,并将所述新的单据数据***到所述热数据存储区中。
在一个实施例中,上述只对所述热数据存储区内的单据数据进行逻辑处理的步骤之后,还包括:获取所述冷数据存储区中被逻辑处理的次数等于第一阈值,且未被更新的第一单据数据;将所述第一单据数据存储到预设的逻辑处理隔离区。
在一个实施例中,上述只对所述热数据存储区内的单据数据进行逻辑处理的步骤之后,还包括:获取所述冷数据存储区中结案日期与当前日期之间的时间差等于第二阈值,且未被更新的第二单据数据;将所述第二单据数据存储到预设的逻辑处理隔离区。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种数据仓库内数据处理方法,其特征在于,所述数据仓库至少包括冷数据存储区和热数据存储区;其中,所述冷数据存储区用于存储已结案的单据数据,热数据存储区用于存储未结案的单据数据;所述数据处理方法,包括:
获取当前***的时间信息;
判断所述时间信息是否为预设的繁忙时间;
若所述时间信息是预设的繁忙时间,则只对所述热数据存储区内的未结案的单据数据进行逻辑处理;
若所述时间信息不是预设的所述繁忙时间,则判断所述时间信息是否为预设的空闲时间;
若判定所述时间信息是空闲时间,则对所述冷数据存储区和热数据存储区中的单据数据进行全量逻辑处理。
2.根据权利要求1所述的数据仓库内数据处理方法,其特征在于,所述判断所述时间信息是否为预设的繁忙时间的步骤之前,包括:
获取所述数据仓库内各单据数据的案件状态;
将已结案的单据数据存储到所述冷数据存储区,以及将未结案的单据数据标存储到所述热数据存储区。
3.根据权利要求1所述的数据仓库内数据处理方法,其特征在于,所述只对所述热数据存储区内的单据数据进行逻辑处理的步骤,包括:
当日第一次对热数据存储区中的单据数据进行逻辑处理时,对热数据存储区内的单据数据进行案件状态分类;
将处于已结案状态的单据数据***到所述冷数据存储区内;
对热数据存储区中剩余的单据数据进行逻辑处理。
4.根据权利要求1所述的数据仓库内数据处理方法,其特征在于,所述只对所述热数据存储区内的单据数据进行逻辑处理的步骤之前,包括:
获取当日产生的新的单据数据,并将所述新的单据数据***到所述热数据存储区中。
5.根据权利要求1所述的数据仓库内数据处理方法,其特征在于,所述只对所述热数据存储区内的单据数据进行逻辑处理的步骤之后,还包括:
获取所述冷数据存储区中被逻辑处理的次数等于第一阈值,且未被更新的第一单据数据;
将所述第一单据数据存储到预设的逻辑处理隔离区。
6.根据权利要求1所述的数据仓库内数据处理方法,其特征在于,所述只对所述热数据存储区内的单据数据进行逻辑处理的步骤之后,还包括:
获取所述冷数据存储区中结案日期与当前日期之间的时间差等于第二阈值,且未被更新的第二单据数据;
将所述第二单据数据存储到预设的逻辑处理隔离区。
7.一种数据仓库内数据处理装置,其特征在于,所述数据仓库至少包括冷数据存储区和热数据存储区;其中,所述冷数据存储区用于存储已结案的单据数据,热数据存储区用于存储未结案的单据数据;所述数据处理装置,包括:
第一获取单元,用于获取当前***的时间信息;
第一判断单元,用于判断所述时间信息是否为预设的繁忙时间;
处理单元,用于若所述时间信息是预设的繁忙时间,则只对所述热数据存储区内的单据数据进行逻辑处理;
第二判断单元,用于若所述时间信息不是预设的所述繁忙时间,则判断所述时间信息是否为预设的空闲时间;
全处理单元,用于若判定所述时间信息是空闲时间,则对所述冷数据存储区和热数据存储区中的单据数据进行全量逻辑处理。
8.根据权利要求7所述的数据仓库内数据处理装置,其特征在于,还包括:
获取状态单元,用于获取所述数据仓库内各单据数据的案件状态;
标记存储单元,用于将已结案的单据数据存储到所述冷数据存储区,以及将未结案的单据数据存储到所述热数据存储区。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810948608.5A CN109213764B (zh) | 2018-08-20 | 2018-08-20 | 数据仓库内数据处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810948608.5A CN109213764B (zh) | 2018-08-20 | 2018-08-20 | 数据仓库内数据处理方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109213764A true CN109213764A (zh) | 2019-01-15 |
CN109213764B CN109213764B (zh) | 2023-08-22 |
Family
ID=64988796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810948608.5A Active CN109213764B (zh) | 2018-08-20 | 2018-08-20 | 数据仓库内数据处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109213764B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114896261A (zh) * | 2022-06-22 | 2022-08-12 | 中国平安财产保险股份有限公司 | 数据库的升级方法、装置、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101320458A (zh) * | 2007-06-07 | 2008-12-10 | 阿里巴巴集团控股有限公司 | 在海量数据下完成账单对账的方法及*** |
CN102984244A (zh) * | 2012-11-21 | 2013-03-20 | 用友软件股份有限公司 | 单据数据的上传***和上传方法 |
CN108108131A (zh) * | 2017-12-29 | 2018-06-01 | 北京联想核芯科技有限公司 | 一种ssd硬盘的数据处理方法和装置 |
CN108197289A (zh) * | 2018-01-18 | 2018-06-22 | 吉浦斯信息咨询(深圳)有限公司 | 一种数据存储结构、数据存储查询方法、终端及介质 |
-
2018
- 2018-08-20 CN CN201810948608.5A patent/CN109213764B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101320458A (zh) * | 2007-06-07 | 2008-12-10 | 阿里巴巴集团控股有限公司 | 在海量数据下完成账单对账的方法及*** |
CN102984244A (zh) * | 2012-11-21 | 2013-03-20 | 用友软件股份有限公司 | 单据数据的上传***和上传方法 |
CN108108131A (zh) * | 2017-12-29 | 2018-06-01 | 北京联想核芯科技有限公司 | 一种ssd硬盘的数据处理方法和装置 |
CN108197289A (zh) * | 2018-01-18 | 2018-06-22 | 吉浦斯信息咨询(深圳)有限公司 | 一种数据存储结构、数据存储查询方法、终端及介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114896261A (zh) * | 2022-06-22 | 2022-08-12 | 中国平安财产保险股份有限公司 | 数据库的升级方法、装置、计算机设备和存储介质 |
CN114896261B (zh) * | 2022-06-22 | 2024-04-05 | 中国平安财产保险股份有限公司 | 数据库的升级方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109213764B (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751358A (zh) | 一种机场地面服务人员的排班方法、电子设备及存储介质 | |
CN110909006B (zh) | 数据同步的方法、装置、计算机设备及存储介质 | |
CN109857549A (zh) | 基于负载均衡的图像数据处理方法、***、设备及介质 | |
CN105095484B (zh) | 一种数据拉链方法 | |
CN112612908A (zh) | 自然资源知识图谱构建方法、装置、服务器及可读存储器 | |
CN105069134A (zh) | 一种Oracle统计信息自动收集方法 | |
CN108509501A (zh) | 一种查询处理方法、服务器及计算机可读存储介质 | |
CN103425564B (zh) | 一种智能手机软件使用预测方法 | |
CN110442752A (zh) | 组织架构图生成方法、装置、计算机设备和存储介质 | |
CN110109750A (zh) | 虚拟资源获取方法、装置、计算机设备和存储介质 | |
CN103020753A (zh) | 单据状态显示***和单据状态显示方法 | |
CN109308258A (zh) | 测试数据的构造方法、装置、计算机设备和存储介质 | |
CN109816157A (zh) | 项目计划优化方法、装置、计算机设备和存储介质 | |
CN110287219A (zh) | 一种数据处理方法及*** | |
CN112905706A (zh) | 数据库同步方法、装置、存储介质和计算机设备 | |
CN110689228A (zh) | 试验业务排程方法、装置、计算机设备和存储介质 | |
CN106708912A (zh) | 垃圾文件识别及管理方法、识别装置、管理装置和终端 | |
CN110400080A (zh) | 考核数据监控方法、装置、计算机设备和存储介质 | |
CN109213764A (zh) | 数据仓库内数据处理方法、装置、计算机设备和存储介质 | |
CN115794839A (zh) | 基于Php+Mysql体系的数据归集方法、计算机设备及存储介质 | |
CN109471879A (zh) | 一种数据排行的辅助方法及装置 | |
CN105512313B (zh) | 一种增量式数据处理的方法和装置 | |
CN110399534B (zh) | 终端性能报表生成方法、装置、设备和存储介质 | |
CN109308605B (zh) | 一种基于区块链的电子时间胶囊管理方法及*** | |
CN110442614A (zh) | 元数据的搜索方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |