CN116719971B - 拉链表数据加载方法、装置和电子设备 - Google Patents

拉链表数据加载方法、装置和电子设备 Download PDF

Info

Publication number
CN116719971B
CN116719971B CN202310513473.0A CN202310513473A CN116719971B CN 116719971 B CN116719971 B CN 116719971B CN 202310513473 A CN202310513473 A CN 202310513473A CN 116719971 B CN116719971 B CN 116719971B
Authority
CN
China
Prior art keywords
date
data
pull chain
zipper
increment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310513473.0A
Other languages
English (en)
Other versions
CN116719971A (zh
Inventor
候嘉鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Boc Financial Technology Co ltd
Original Assignee
Boc Financial Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Boc Financial Technology Co ltd filed Critical Boc Financial Technology Co ltd
Priority to CN202310513473.0A priority Critical patent/CN116719971B/zh
Publication of CN116719971A publication Critical patent/CN116719971A/zh
Application granted granted Critical
Publication of CN116719971B publication Critical patent/CN116719971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种拉链表加载方法、装置和电子设备,属于计算机技术领域。其中,拉链表数据加载方法包括:基于待加工成拉链表的源表建立初始拉链表,所述初始拉链表的预设表结构至少包括:跑批日期、拉链起始日期和拉链终止日期;确定所述初始拉链表不为空,基于当前跑批日期和所述初始拉链表的最大跑批日期,按日将准实时日增量数据***所述初始拉链表,直至所述初始拉链表中最大跑批日期更新为所述当前跑批日期,得到第一拉链表,本发明基于初始拉链表中预设表结构的信息,实现对初始拉链表的准实时加载、耗时较短且成本较低。

Description

拉链表数据加载方法、装置和电子设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种拉链表数据加载方法、装置和电子设备。
背景技术
随着信息技术的高速发展,数据呈爆发式的增长,在这种情况下,数据仓库应运而生,而拉链表是是数据仓库创建过程中的重要环节,针对数据仓库中表存储数据的方式而定义的,可以保留数据历史变化的过程。在现有技术中,拉链表的加载方式有三种,即日加载、准实时增量加载以及准实时全量加载。然而,采用日加载方式,在数据量大的情况下,数据时效存在一定的滞后性;采用准实时增量加载方式,会导致无效数据重复存入,占用存储空间,而且存储空间被大量占用会导致数据库使用性能降低;采用准实时全量加载方式,存储空间利用率更低、耗时较长以及成本较高等问题。
发明内容
本发明提供一种拉链表数据加载方法、装置和电子设备,用以解决现有技术中在对初始拉链表进行加载时,存在数据时效存在滞后性、存储空间利用率低、耗时较长以及成本较高等缺陷。
第一方面,本发明提供一种拉链表数据加载方法,包括:
基于待加工成拉链表的源表建立初始拉链表,所述初始拉链表的预设表结构至少包括:跑批日期、拉链起始日期和拉链终止日期;
确定所述初始拉链表不为空,基于当前跑批日期和所述初始拉链表的最大跑批日期,按日将准实时日增量数据***所述初始拉链表,直至所述初始拉链表中最大跑批日期更新为所述当前跑批日期,得到第一拉链表。
在一些实施例中,所述方法还包括:
基于所述待加工成拉链表的源表,确定配置表,所述配置表的字段至少包括:表名、主键字段、数据抽取时间和日常维护信息。
在一些实施例中,所述基于所述初始拉链表的最大跑批日期和当前跑批日期,按日将准实时日增量数据***所述初始拉链表,直至所述初始拉链表中最大跑批日期更新为当前跑批日期,得到第一拉链表之前,还包括:
基于所述配置表,生成所述待加工成拉链表的源表对应的日增量表、日增量新增表和日增量更新表;
通过查询预先建立的拉链表加载批次日志表,确定最近一次跑批没有未正常结束的批次。
在一些实施例中,所述基于所述初始拉链表的最大跑批日期和当前跑批日期,按日将准实时日增量数据***所述初始拉链表,直至所述初始拉链表中最大跑批日期更新为当前跑批日期,得到第一拉链表,包括:
基于所述初始拉链表的最大跑批日期和当前跑批日期,确定未处理日期,所述未处理日期包括从所述最大跑批日期开始直至当前跑批日期中的每一个日期;
对于所述未处理日期,按日执行以下步骤:
获取当前未处理日期对应的准实时日增量数据,将所述准实时日增量数据***到所述日增量表;
基于所述日增量表和所述初始拉链表,将所述准实时日增量数据中的更新数据***所述日增量更新表,得到第一日增量更新表,并将所述增量数据中的新增数据***所述日增量新增表,得到第一日增量新增表;
根据所述第一日增量更新表,更新所述初始拉链表中相应数据的拉链终止日期为时间戳字段的值的前一天,得到更新后的初始拉链表;
更新所述第一日增量更新表和所述第一日增量新增表的跑批日期、拉链起始日期和拉链终止日期;
将所述第一日增量更新表和所述第一日增量新增表的所有数据***所述更新后的初始拉链表,并删除所述更新后的初始拉链表中拉链起始日期大于拉链终止日期的数据;
将所述当前未处理日期更新为下一日。
在一些实施例中,所述获取当前未处理日期对应的准实时日增量数据,包括:
按照时间戳字段的值为所述当前未处理日期,从所述待加工成拉链表的源表中抽取所述当前未处理日期对应的日增量数据;
对所述日增量数据进行去重处理,得到所述准实时日增量数据。
在一些实施例中,所述基于所述日增量表和所述初始拉链表,将所述日增量数据中的更新数据***所述日增量更新表,得到第一日增量更新表,并将所述增量数据中的新增数据***所述日增量新增表,得到第一日增量新增表,包括:
根据所述配置表中的主键字段,将所述日增量表与所述初始拉链表进行匹配;
将匹配成功的数据作为所述更新数据***所述日增量更新表,得到第一日增量更新表;
将匹配失败的数据作为所述新增数据***所述日增量新增表,得到第一日增量新增表。
在一些实施例中,所述更新所述第一日增量更新表和所述第一日增量新增表的跑批日期、拉链起始日期和拉链结束日期,包括:
更新所述第一日增量新增表和第一日增量更新表的跑批日期为所述当前未处理日期;
更新所述日增量新增表和日增量更新表的拉链起始日期为所述当前未处理日期;
更新所述日增量新增表和日增量更新表的拉链终止日期为预设值,所述预设值表示数据永久有效。
在一些实施例中,所述方法还包括:
确定所述初始拉链表为空;
将所述待加工成拉链表的源表中截止到所述配置表的数据抽取时间的所有数据存入所述初始拉链表,得到第二拉链表;
更新所述第二拉链表的跑批日期为当前跑批日期,更新所述第二拉链表的拉链起始日期为当前跑批日期,更新所述第二拉链表的拉链终止日期为预设值,其中,所述预设值表示数据永久有效。
第二方面,本发明提供一种拉链表数据加载装置,包括:
建立单元,用于基于待加工成拉链表的源表建立初始拉链表,所述初始拉链表的预设表结构至少包括:跑批日期、拉链起始日期和拉链终止日期;
***单元,用于确定所述初始拉链表不为空,基于所述初始拉链表的最大跑批日期和当前跑批日期,按日将准实时日增量数据***所述初始拉链表,直至所述初始拉链表中最大跑批日期更新为所述当前跑批日期,得到第一拉链表。
第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面任一项所述的拉链表数据加载方法。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面任一项所述的拉链表数据加载方法。
第五方面,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的拉链表数据加载方法。
本发明提供的拉链表数据加载方法、装置和电子设备,首先基于待加工成拉链表的源表建立初始拉链表,初始拉链表的预设表结构至少包括:跑批日期、拉链起始日期和拉链终止日期;然后在确定初始拉链表不为空的情况下,基于当前跑批日期和初始拉链表的最大跑批日期,按日将准实时日增量数据***初始拉链表,直至初始拉链表中最大跑批日期更新为当前跑批日期,得到第一拉链表,本发明基于初始拉链表中预设表结构的信息,实现对初始拉链表的准实时加载、耗时较短且成本较低。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例提供的拉链表数据加载方法的流程示意图之一;
图2为本发明一个实施例提供的拉链表数据加载方法的流程示意图之二;
图3为本发明一个实施例提供的拉链表数据加载方法的流程示意图之三;
图4为本发明一个实施例提供的拉链表数据加载方法的流程示意图之四;
图5为本发明一个实施例提供的拉链表数据加载方法的流程示意图之五;
图6为本发明一个实施例提供的拉链表数据加载方法的流程示意图之六;
图7为本发明一个实施例提供的拉链表数据加载方法的流程示意图之七;
图8为本发明一个实施例提供的拉链表数据加载装置的结构示意图;
图9为本发明一个实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”所区别的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”一般表示前后关联对象是一种“或”的关系。
针对现有技术中,在对初始拉链表进行加载时,存在数据时效存在滞后性、存储空间利用率低、耗时较长以及成本较高等缺陷,本发明提供了一种拉链表数据加载方法、装置和电子设备。
本发明所提供的拉链表数据加载方法的执行主体可以是拉链表数据加载装置,该装置可通过软件和/或硬件实现,该装置可集成在电子设备中,电子设备可以是终端设备(如智能手机、个人电脑、学习机等),也可以是服务器(如本地服务器或云端服务器,也可以为服务器集群等),也可以是处理器,也可以是芯片等。
下面以执行主体是拉链表数据加载装置为例,结合图1-图9,对本发明进行描述。
图1为本发明一个实施例提供的拉链表数据加载方法的流程示意图之一,如图1所示,该方法包括以下步骤:步骤110和步骤120。该方法流程步骤仅仅作为本发明一个可能的实现方式。包括:
步骤110、基于待加工成拉链表的源表建立初始拉链表,所述初始拉链表的预设表结构至少包括:跑批日期、拉链起始日期和拉链终止日期;
可以理解,拉链表是针对数据仓库设计中表存储数据的方式而定义的,用于记录历史数据,可以记录一个事物从开始一直到当前状态的所有变化的信息,即记录每条数据的生命周期,一旦一条数据的生命周期结束,就重新开始一条新的记录,并把当前日期放入生效开始日期。
本发明中的源表为数据仓库中需要加工成拉链表的表,属于数据仓库中存放原始数据的层,即ODS层。数据仓库中的表为数据仓库中用来存储数据的对象,是有结构的数据的集合,与电子表格相似,数据在表中是按行和列的格式组织排列的,表中的每一列都设计为存储某种类型的信息,例如,日期、名称、当前状态或数字等。
跑批是指将要处理的数据积攒成“批”,在指定时间一次性进行处理,通过对源表中的数据进行跑批处理,以实现对初始拉链表数据的加载,也称为批处理。通过对源表中的数据执行跑批处理,以实现准实时获取最新状态的数据。
本发明在待加工成拉链表的源表的基础上,通过增加以下字段:跑批日期、拉链起始日期和拉链终止日期,建立初始拉链表,即所述初始拉链表的预设表结构中既包括源表中的信息,也包括新增的字段。
步骤120、确定所述初始拉链表不为空,基于当前跑批日期和所述初始拉链表的最大跑批日期,按日将准实时日增量数据***所述初始拉链表,直至所述初始拉链表中最大跑批日期更新为所述当前跑批日期,得到第一拉链表。
具体地,当前跑批日期是指当前时间戳字段对应的日期,所述初始拉链表的最大跑批日期是指最近一次的跑批日期。
在具体实施时,首先对所述初始拉链表中是否存储有数据进行判断,若存储有数据,即所述初始拉链表不为空,则按照正常日常增量处理所述初始拉链表,若未存储数据,即所述初始拉链表为空,则按照第一次处理所述初始拉链表。
在确定所述初始拉链表不为空的情况下,基于当前跑批日期和所述初始拉链表的最大跑批日期,从所述初始拉链表的最大跑批日期的当天开始,一天一天地对源表执行跑批,并按日将准实时日增量数据***所述初始拉链表,直至所述初始拉链表中最大跑批日期更新为所述当前跑批日期,从而得到第一拉链表。
在本申请实施例中,准实时相比实时会有一定延迟,相比一天只统计一次的日增量数据,准实时日增量数据要根据业务需求,可以按照小时、分钟或者秒来计算。
示例性的,所述初始拉链表的最大跑批日期为2023-02-20,当前跑批日期为2023-02-25,则从2023-02-20当天开始,对源表执行跑批,并在执行本次跑批后,将所述初始拉链表中最大跑批日期更新为2023-02-20,同时将2023-02-20对应的准实时日增量数据***所述初始拉链表;然后再按照2023-02-21对源表执行跑批,并在执行本次跑批后,将所述初始拉链表中最大跑批日期更新为2023-02-21,同时将2023-02-21对应的准实时日增量数据***所述初始拉链表;以此类推,直至所述初始拉链表中最大跑批日期更新为2023-02-25,从而得到第一拉链表。
在本发明实施例中,首先基于待加工成拉链表的源表建立初始拉链表,初始拉链表的预设表结构至少包括:跑批日期、拉链起始日期和拉链终止日期;然后在确定初始拉链表不为空的情况下,基于当前跑批日期和初始拉链表的最大跑批日期,按日将准实时日增量数据***初始拉链表,直至初始拉链表中最大跑批日期更新为当前跑批日期,从而得到第一拉链表,实现对初始拉链表的准实时加载、耗时较短且成本较低。
在一些实施例中,所述方法还包括:
基于所述待加工成拉链表的源表,确定配置表,所述配置表的字段至少包括:表名、主键字段、数据抽取时间和日常维护信息。
可以理解,表名是指所述待加工成拉链表的源表的表名,可以为一个或者多个;主键字段是指所述待加工成拉链表的源表中包含的字段;数据抽取时间是指第一次抽取所述待加工成拉链表的源表的时间;日常维护信息,是指在所述待加工成拉链表的源表中的某些字段或配置表中的主键字段发生变化时,所记录的信息。
在本发明实施例中,基于待加工成拉链表的源表,确定配置表,进一步地,基于配置表中的表名、主键字段、数据抽取时间和日常维护信息等字段等,实现对初始拉链表的准实时加载、耗时较短且成本较低。
在一些实施例中,图2为本发明一个实施例提供的拉链表数据加载方法的流程示意图之二,如图2所示,所述步骤120之前,还包括:
步骤210、基于所述配置表,生成所述待加工成拉链表的源表对应的日增量表、日增量新增表和日增量更新表;
在具体实施时,基于所述配置表中的表名,即一个或多个所述待加工成拉链表的源表的表名,通过在表名前增加前缀,分别创建所述待加工成拉链表的源表对应的日增量表、日增量新增表和日增量更新表。
示例性的,源表的表名为tb,通过在表名前增加前缀,分别创建所述待加工成拉链表的源表对应的日增量表为daily inc tb、日增量新增表为daily insert tb、日增量更新表daily update tb。
步骤220、通过查询预先建立的拉链表加载批次日志表,确定最近一次跑批没有未正常结束的批次。
在具体实施时,通过查询预先建立的拉链表加载批次日志表中的用于标识跑批是否正常结束的标签,确定最近一次跑批没有未正常结束的批次。若存在,则进行数据回滚,若不存在,则判断所述初始拉链表是否为空,从而确定所述初始拉链表的加载方式,即按照正常日常增量处理所述初始拉链表或按照第一次处理所述初始拉链表。
可以理解,拉链表加载批次日志表用于对跑批过程的监控及重跑,拉链表加载批次日志中设置有用于标识跑批是否正常结束的标签。例如,跑批开始前,在拉链表加载批次日志表中标记一个未正常结束的标签,待跑批成功后将标签设置为成功,如果中途出现问题,导致跑批未能正常结束,则标签不变。
本发明通过查询预先建立的拉链表加载批次日志表中的标签的状态,判断最近一次跑批是否有未正常结束的批次,在确定最近一次跑批没有未正常结束的批次的情况下,再执行步骤110。
在本发明实施例中,首先基于配置表,生成待加工成拉链表的源表对应的日增量表、日增量新增表和日增量更新表;然后通过查询预先建立的拉链表加载批次日志表,确定最近一次跑批没有未正常结束的批次,可实现对拉链表数据加载过程的监控,实现对初始拉链表的准实时加载、耗时较短且成本较低。
在一些实施例中,图3为本发明一个实施例提供的拉链表数据加载方法的流程示意图之三,如图3所示,所述基于当前跑批日期和所述初始拉链表的最大跑批日期,按日将准实时日增量数据***所述初始拉链表,直至所述初始拉链表中最大跑批日期更新为当前跑批日期,得到第一拉链表,包括:
步骤310、基于当前跑批日期和所述初始拉链表的最大跑批日期,确定未处理日期,所述未处理日期包括从所述最大跑批日期开始直至当前跑批日期中的每一个日期;
示例性的,所述初始拉链表的最大跑批日期为2023-02-20,当前跑批日期为2023-02-25,基于当前跑批日期和所述初始拉链表的最大跑批日期,确定的未处理日期为从2023-02-20开始直至2023-02-25中的每一个日期。
步骤320、对于所述未处理日期,按日对所述初始拉链表进行加载,直至所述初始拉链表中最大跑批日期更新为当前跑批日期,得到第一拉链表。
在一些实施例中,图4为本发明一个实施例提供的拉链表数据加载方法的流程示意图之四,如图4所示,所述步骤320对于所述未处理日期,按日对所述初始拉链表进行加载,具体按日执行以下步骤:
步骤32010、获取当前未处理日期对应的准实时日增量数据,将所述准实时日增量数据***到所述日增量表;
可以理解,当前未处理日期为所述未处理日期中的某一个日期,即2023-02-20、2023-02-21、2023-02-22、2023-02-23、2023-02-24和2023-02-25中的某一个日期。例如,在当前未处理日期为2023-02-22时,获取2023-02-22对应的准实时日增量数据,将所述准实时日增量数据***到所述日增量表。
在一些实施例中,步骤32010中所述获取当前未处理日期对应的准实时日增量数据,包括:
按照时间戳字段的值为所述当前未处理日期,从所述待加工成拉链表的源表中抽取所述当前未处理日期对应的日增量数据;
对所述日增量数据进行去重处理,得到所述准实时日增量数据。
示例性的,在所述当前未处理日期为2023-02-23时,从所述待加工成拉链表的源表中抽取与2023-02-23相应的时间戳字段的值对应的日增量数据;
在抽取到与2023-02-23相应的时间戳字段的值对应的日增量数据后,对其进行去重处理,例如,基于开窗函数row_number按照时间戳字段排序取出最新的一条数据。
在本发明实施例中,首先按照时间戳字段的值为当前未处理日期,从待加工成拉链表的源表中抽取当前未处理日期对应的日增量数据,然后对日增量数据进行去重处理,从而得到准实时日增量数据,可满足准实时加载拉链表的需求,同时经过去重处理,删除大量无效数据,节约存储空间,提高数据库使用性能。
步骤32020、基于所述日增量表和所述初始拉链表,将所述准实时日增量数据中的更新数据***所述日增量更新表,得到第一日增量更新表,并将所述增量数据中的新增数据***所述日增量新增表,得到第一日增量新增表;
在一些实施例中,图5为本发明一个实施例提供的拉链表数据加载方法的流程示意图之五,如图5所示,步骤32020包括:
步骤510、根据所述配置表中的主键字段,将所述日增量表与所述初始拉链表进行匹配;
在具体实施时,根据所述配置表中的主键字段,将所述日增量表与所述初始拉链表进行匹配,确定所述日增量表与所述初始拉链表中是否存在相同的主键字段,进而确定哪些数据是新增数据,哪些数据是进行了更新的数据。
步骤520、将匹配成功的数据作为所述更新数据***所述日增量更新表,得到第一日增量更新表;
可以理解,若匹配成功,则所述日增量表与所述初始拉链表中存在相同的主键字段,即表示匹配成功的数据是进行了更新的数据,然后将匹配成功的数据作为所述更新数据***所述日增量更新表,从而得到第一日增量更新表。
步骤530、将匹配失败的数据作为所述新增数据***所述日增量新增表,得到第一日增量新增表。
若未匹配成功,则所述日增量表与所述初始拉链表中不存在相同的主键字段,即表示未匹配成功的数据是新增的数据,然后将匹配失败的数据作为所述新增数据***所述日增量新增表,从而得到第一日增量新增表。
在本发明实施例中,首先根据配置表中的主键字段,将日增量表与初始拉链表进行匹配;然后将匹配成功的数据作为更新数据***所述日增量更新表,得到第一日增量更新表;同时将匹配失败的数据作为新增数据***日增量新增表,得到第一日增量新增表,为准实时加载拉链表做准备。
步骤32030、根据所述第一日增量更新表,更新所述初始拉链表中相应数据的拉链终止日期为时间戳字段的值的前一天,得到更新后的初始拉链表;
可以理解,根据所述第一日增量更新表,更新所述初始拉链表中相应数据的拉链终止日期为时间戳字段的值的前一天,其目的是将相应数据失效。
示例性的,在时间戳字段的值为2022-02-23时,更新所述初始拉链表中相应数据的拉链终止日期为时间戳字段的值的前一天,即2022-02-22,表示2022-02-22相应数据时效。
在将所述初始拉链表中相应数据的拉链终止日期为时间戳字段的值的前一天后,得到更新后的初始拉链表;
步骤32040、更新所述第一日增量更新表和所述第一日增量新增表的跑批日期、拉链起始日期和拉链终止日期;
在一些实施例中,图6本发明一个实施例提供的拉链表数据加载方法的流程示意图之六,如图6所示,步骤32040包括:
步骤610、更新所述第一日增量新增表和第一日增量更新表的跑批日期为所述当前未处理日期;
步骤620、更新所述日增量新增表和日增量更新表的拉链起始日期为所述当前未处理日期;
步骤630、更新所述日增量新增表和日增量更新表的拉链终止日期为预设值,所述预设值表示数据永久有效。
示例性的,在当前未处理日期为2022-02-23时,更新所述第一日增量新增表中的字段,将所述第一日增量新增表的跑批日期更新为2022-02-23,拉链起始日期更新为2022-02-23,拉链终止日期更新为预设值,所述预设值表示数据永久有效。
示例性的,在当前未处理日期为2022-02-23时,更新所述第一日增量更新表中的字段,将所述第一日增量更新表的跑批日期更新为2022-02-23,拉链起始日期更新为2022-02-23,拉链终止日期更新为预设值,例如,预设值为9999-12-31,其中,所述预设值表示数据永久有效。
在本发明实施例中,详细描述了如何更新第一日增量更新表和第一日增量新增表的跑批日期、拉链起始日期和拉链终止日期,为准实时加载拉链表做准备。
步骤32050、将所述第一日增量更新表和所述第一日增量新增表的所有数据***所述更新后的初始拉链表,并删除所述更新后的初始拉链表中拉链起始日期大于拉链终止日期的数据;
在具体实施时,本发明对所述初始拉链表的加载频次可以基于不同的需求制定,可以设置为每天上午和下午的固定时间进行加载、也可以按照小时级进行加载,如每隔5小时加载一次。然而,在同一天中对所述初始拉链表进行多次加载时,该日期中进行的每一次加载都会将前一次的拉链终止日期设置为该日期的前一天,导致在该日期下,存在失效的多条拉链起始日期大于拉链终止日期的数据,占用较多存储空间,存在资源浪费。因此,在将所述第一日增量更新表和所述第一日增量新增表的所有数据***所述更新后的初始拉链表之后,需要将所述更新后的初始拉链表中拉链起始日期大于拉链终止日期的数据进行删除,以节约存储空间,提高数据库使用性能。
示例性的,在2022-02-23对初始拉链表执行了3次加载,第一次加载时,根据所述配置表中的主键字段,将所述日增量表与所述初始拉链表进行匹配,匹配成功后,将初始拉链表中相应数据的拉链终止日期更新为2022-02-22,使其失效,同时将所述第一日增量更新表和所述第一日增量新增表的所有数据***所述更新后的初始拉链表,此时记载的新增的和更新的数据的拉链起始日期为2022-02-23、拉链终止日期为预设值,如9999-12-31;第二次加载时,同样执行上述步骤,匹配成功后,初始拉链表中相应数据的拉链起始日期为2022-02-23,将初始拉链表中相应数据的拉链终止日期更新为2022-02-22,使其失效,同样地,记载的新增的和更新的数据的拉链起始日期为2022-02-23、拉链终止日期为预设值,如9999-12-31;第三次加载时,同样执行上述步骤,匹配成功后,初始拉链表中相应数据的拉链起始日期为2022-02-23,将初始拉链表中相应数据的拉链终止日期更新为2022-02-22,使其失效,同时将所述第一日增量更新表和所述第一日增量新增表的所有数据***所述更新后的初始拉链表,此时记载的新增的和更新的数据的拉链起始日期为2022-02-23、拉链终止日期为预设值,如9999-12-31。由上可知,在2022-02-23对初始拉链表执行了3次加载,初始拉链表中出现了3条拉链起始日期为2022-02-23、拉链终止日期更新为2022-02-22的数据,占用较多存储空间,存在资源浪费。因此,需要将拉链起始日期大于拉链终止日期的数据进行删除,以节约存储空间,提高数据库使用性能。
步骤32060、将所述当前未处理日期更新为下一日。
示例性的,在所述当前未处理日期为2022-02-23时,将所述当前未处理日期更新为下一日,即2022-02-24,返回执行步骤32010,以此类推,进行循环,直至所述当前未处理日期更新为当前跑批日期。
在本发明实施例中,首先通过当前跑批日期和初始拉链表的最大跑批日期,确定未处理日期,然后对于未处理日期,按日对初始拉链表进行加载,具体通过获取当前未处理日期对应的准实时日增量数据,将其***到日增量表;基于日增量表和初始拉链表,得到第一日增量更新表和第一日增量新增表;根据第一日增量更新表,更新初始拉链表中相应数据的拉链终止日期,得到更新后的初始拉链表;同时更新第一日增量更新表和第一日增量新增表的跑批日期、拉链起始日期和拉链终止日期;将第一日增量更新表和第一日增量新增表的所有数据***更新后的初始拉链表,并删除更新后的初始拉链表中拉链起始日期大于拉链终止日期的数据;将当前未处理日期更新为下一日,可实现准实时加载拉链表,同时节约存储空间,提高数据库使用性能,耗时较短且成本较低。
在一些实施例中,图7本发明一个实施例提供的拉链表数据加载方法的流程示意图之七,如图7所示,所述方法还包括:
步骤710、确定所述初始拉链表为空;
在具体实施时,首先对所述初始拉链表中是否存储有数据进行判断,若所述初始拉链表中未存储数据,即所述初始拉链表为空,在确定所述初始拉链表为空的情况下,表示对所述初始拉链表进行第一次处理,执行步骤720。
步骤720、将所述待加工成拉链表的源表中截止到所述配置表的数据抽取时间的所有数据存入所述初始拉链表,得到第二拉链表;
可以理解,按照所述配置表中的数据抽取时间,即第一次抽取所述待加工成拉链表的源表的时间,将所述待加工成拉链表的源表中与数据抽取时间对应的时间戳字段的值所对应的所有数据,存入所述初始拉链表,得到第二拉链表。
步骤730、更新所述第二拉链表的跑批日期为当前跑批日期,更新所述第二拉链表的拉链起始日期为当前跑批日期,更新所述第二拉链表的拉链终止日期为预设值,其中,所述预设值表示数据永久有效。
示例性的,当前跑批日期为22-02-23,则更新所述第二拉链表的跑批日期为22-02-23,更新所述第二拉链表的拉链起始日期为22-02-23,更新所述第二拉链表的拉链终止日期为预设值,例如,预设值为9999-12-31,其中,所述预设值表示数据永久有效。
在本发明实施例中,进一步描述了在初始拉链表为空的情况下,如何对初始拉链表进行加载,相对于在初始拉链表不为空时,减少了对初始拉链表进行加载的中间环节,可提高拉链表数据加载的时效性,耗时较短且成本较低。
下面对本发明提供的拉链表数据加载装置进行描述,下文描述的拉链表数据加载装置与上文描述的拉链表数据加载方法可相互对应参照。
图8为本发明一个实施例提供的拉链表数据加载装置的结构示意图,如图8所示,该拉链表数据加载装置800包括:
建立单元810,用于基于待加工成拉链表的源表建立初始拉链表,所述初始拉链表的预设表结构至少包括:跑批日期、拉链起始日期和拉链终止日期;
***单元820,用于确定所述初始拉链表不为空,基于所述初始拉链表的最大跑批日期和当前跑批日期,按日将准实时日增量数据***所述初始拉链表,直至所述初始拉链表中最大跑批日期更新为所述当前跑批日期,得到第一拉链表。
在一些实施例中,所述装置还包括:
第一确定单元,用于基于所述待加工成拉链表的源表,确定配置表,所述配置表的字段至少包括:表名、主键字段、数据抽取时间和日常维护信息。
在一些实施例中,所述基于所述初始拉链表的最大跑批日期和当前跑批日期,按日将准实时日增量数据***所述初始拉链表,直至所述初始拉链表中最大跑批日期更新为当前跑批日期,得到第一拉链表之前,所述装置还包括:
生成单元,用于基于所述配置表,生成所述待加工成拉链表的源表对应的日增量表、日增量新增表和日增量更新表;
第二确定单元,用于通过查询预先建立的拉链表加载批次日志表,确定最近一次跑批没有未正常结束的批次。
在一些实施例中,所述基于所述初始拉链表的最大跑批日期和当前跑批日期,按日将准实时日增量数据***所述初始拉链表,直至所述初始拉链表中最大跑批日期更新为当前跑批日期,得到第一拉链表,包括:
基于所述初始拉链表的最大跑批日期和当前跑批日期,确定未处理日期,所述未处理日期包括从所述最大跑批日期开始直至当前跑批日期中的每一个日期;
对于所述未处理日期,按日执行以下步骤:
获取当前未处理日期对应的准实时日增量数据,将所述准实时日增量数据***到所述日增量表;
基于所述日增量表和所述初始拉链表,将所述准实时日增量数据中的更新数据***所述日增量更新表,得到第一日增量更新表,并将所述增量数据中的新增数据***所述日增量新增表,得到第一日增量新增表;
根据所述第一日增量更新表,更新所述初始拉链表中相应数据的拉链终止日期为时间戳字段的值的前一天,得到更新后的初始拉链表;
更新所述第一日增量更新表和所述第一日增量新增表的跑批日期、拉链起始日期和拉链终止日期;
将所述第一日增量更新表和所述第一日增量新增表的所有数据***所述更新后的初始拉链表,并删除所述更新后的初始拉链表中拉链起始日期大于拉链终止日期的数据;
将所述当前未处理日期更新为下一日。
在一些实施例中,所述获取当前未处理日期对应的准实时日增量数据,包括:
按照时间戳字段的值为所述当前未处理日期,从所述待加工成拉链表的源表中抽取所述当前未处理日期对应的日增量数据;
对所述日增量数据进行去重处理,得到所述准实时日增量数据。
在一些实施例中,所述基于所述日增量表和所述初始拉链表,将所述日增量数据中的更新数据***所述日增量更新表,得到第一日增量更新表,并将所述增量数据中的新增数据***所述日增量新增表,得到第一日增量新增表,包括:
根据所述配置表中的主键字段,将所述日增量表与所述初始拉链表进行匹配;
将匹配成功的数据作为所述更新数据***所述日增量更新表,得到第一日增量更新表;
将匹配失败的数据作为所述新增数据***所述日增量新增表,得到第一日增量新增表。
在一些实施例中,所述更新所述第一日增量更新表和所述第一日增量新增表的跑批日期、拉链起始日期和拉链结束日期,包括:
更新所述第一日增量新增表和第一日增量更新表的跑批日期为所述当前未处理日期;
更新所述日增量新增表和日增量更新表的拉链起始日期为所述当前未处理日期;
更新所述日增量新增表和日增量更新表的拉链终止日期为预设值,所述预设值表示数据永久有效。
在一些实施例中,所述装置还包括:
第三确定单元,用于确定所述初始拉链表为空;
存入单元,用于将所述待加工成拉链表的源表中截止到所述配置表的数据抽取时间的所有数据存入所述初始拉链表,得到第二拉链表;
更新所述第二拉链表的跑批日期为当前跑批日期,更新所述第二拉链表的拉链起始日期为当前跑批日期,更新所述第二拉链表的拉链终止日期为预设值,其中,所述预设值表示数据永久有效。
在此需要说明的是,本发明实施例提供的拉链表数据加载装置,能够实现上述拉链表数据加载方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
图9为本发明一个实施例提供的电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行拉链表数据加载方法,该方法包括:基于待加工成拉链表的源表建立初始拉链表,所述初始拉链表的预设表结构至少包括:跑批日期、拉链起始日期和拉链终止日期;确定所述初始拉链表不为空,基于当前跑批日期和所述初始拉链表的最大跑批日期,按日将准实时日增量数据***所述初始拉链表,直至所述初始拉链表中最大跑批日期更新为所述当前跑批日期,得到第一拉链表。
此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的拉链表数据加载方法,该方法包括:基于待加工成拉链表的源表建立初始拉链表,所述初始拉链表的预设表结构至少包括:跑批日期、拉链起始日期和拉链终止日期;确定所述初始拉链表不为空,基于当前跑批日期和所述初始拉链表的最大跑批日期,按日将准实时日增量数据***所述初始拉链表,直至所述初始拉链表中最大跑批日期更新为所述当前跑批日期,得到第一拉链表。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的拉链表数据加载方法,该方法包括:基于待加工成拉链表的源表建立初始拉链表,所述初始拉链表的预设表结构至少包括:跑批日期、拉链起始日期和拉链终止日期;确定所述初始拉链表不为空,基于当前跑批日期和所述初始拉链表的最大跑批日期,按日将准实时日增量数据***所述初始拉链表,直至所述初始拉链表中最大跑批日期更新为所述当前跑批日期,得到第一拉链表。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种拉链表数据加载方法,其特征在于,包括:
基于待加工成拉链表的源表建立初始拉链表,所述初始拉链表的预设表结构至少包括:跑批日期、拉链起始日期和拉链终止日期;
确定所述初始拉链表不为空,基于当前跑批日期和所述初始拉链表的最大跑批日期,按日将准实时日增量数据***所述初始拉链表,直至所述初始拉链表中最大跑批日期更新为所述当前跑批日期,得到第一拉链表;
所述方法还包括:
基于所述待加工成拉链表的源表,确定配置表,所述配置表的字段至少包括:表名、主键字段、数据抽取时间和日常维护信息;
所述基于所述初始拉链表的最大跑批日期和当前跑批日期,按日将准实时日增量数据***所述初始拉链表,直至所述初始拉链表中最大跑批日期更新为当前跑批日期,得到第一拉链表之前,还包括:
基于所述配置表,生成所述待加工成拉链表的源表对应的日增量表、日增量新增表和日增量更新表;
通过查询预先建立的拉链表加载批次日志表,确定最近一次跑批没有未正常结束的批次;
所述基于所述初始拉链表的最大跑批日期和当前跑批日期,按日将准实时日增量数据***所述初始拉链表,直至所述初始拉链表中最大跑批日期更新为当前跑批日期,得到第一拉链表,包括:
基于所述初始拉链表的最大跑批日期和当前跑批日期,确定未处理日期,所述未处理日期包括从所述最大跑批日期开始直至当前跑批日期中的每一个日期;
对于所述未处理日期,按日执行以下步骤:
获取当前未处理日期对应的准实时日增量数据,将所述准实时日增量数据***到所述日增量表;
基于所述日增量表和所述初始拉链表,将所述准实时日增量数据中的更新数据***所述日增量更新表,得到第一日增量更新表,并将所述增量数据中的新增数据***所述日增量新增表,得到第一日增量新增表;
根据所述第一日增量更新表,更新所述初始拉链表中相应数据的拉链终止日期为时间戳字段的值的前一天,得到更新后的初始拉链表;
更新所述第一日增量更新表和所述第一日增量新增表的跑批日期、拉链起始日期和拉链终止日期;
将所述第一日增量更新表和所述第一日增量新增表的所有数据***所述更新后的初始拉链表,并删除所述更新后的初始拉链表中拉链起始日期大于拉链终止日期的数据;
将所述当前未处理日期更新为下一日。
2.根据权利要求1所述的拉链表数据加载方法,其特征在于,所述获取当前未处理日期对应的准实时日增量数据,包括:
按照时间戳字段的值为所述当前未处理日期,从所述待加工成拉链表的源表中抽取所述当前未处理日期对应的日增量数据;
对所述日增量数据进行去重处理,得到所述准实时日增量数据。
3.根据权利要求2所述的拉链表数据加载方法,其特征在于,所述基于所述日增量表和所述初始拉链表,将所述日增量数据中的更新数据***所述日增量更新表,得到第一日增量更新表,并将所述增量数据中的新增数据***所述日增量新增表,得到第一日增量新增表,包括:
根据所述配置表中的主键字段,将所述日增量表与所述初始拉链表进行匹配;
将匹配成功的数据作为所述更新数据***所述日增量更新表,得到第一日增量更新表;
将匹配失败的数据作为所述新增数据***所述日增量新增表,得到第一日增量新增表。
4.根据权利要求1所述的拉链表数据加载方法,其特征在于,所述更新所述第一日增量更新表和所述第一日增量新增表的跑批日期、拉链起始日期和拉链结束日期,包括:
更新所述第一日增量新增表和第一日增量更新表的跑批日期为所述当前未处理日期;
更新所述日增量新增表和日增量更新表的拉链起始日期为所述当前未处理日期;
更新所述日增量新增表和日增量更新表的拉链终止日期为预设值,所述预设值表示数据永久有效。
5.根据权利要求1所述的拉链表数据加载方法,其特征在于,所述方法还包括:
确定所述初始拉链表为空;
将所述待加工成拉链表的源表中截止到所述配置表的数据抽取时间的所有数据存入所述初始拉链表,得到第二拉链表;
更新所述第二拉链表的跑批日期为当前跑批日期,更新所述第二拉链表的拉链起始日期为当前跑批日期,更新所述第二拉链表的拉链终止日期为预设值,其中,所述预设值表示数据永久有效。
6.一种拉链表数据加载装置,其特征在于,包括:
建立单元,用于基于待加工成拉链表的源表建立初始拉链表,所述初始拉链表的预设表结构至少包括:跑批日期、拉链起始日期和拉链终止日期;
***单元,用于确定所述初始拉链表不为空,基于所述初始拉链表的最大跑批日期和当前跑批日期,按日将准实时日增量数据***所述初始拉链表,直至所述初始拉链表中最大跑批日期更新为所述当前跑批日期,得到第一拉链表;
所述装置还包括:
第一确定单元,用于基于所述待加工成拉链表的源表,确定配置表,所述配置表的字段至少包括:表名、主键字段、数据抽取时间和日常维护信息;
所述装置还包括:
生成单元,用于基于所述配置表,生成所述待加工成拉链表的源表对应的日增量表、日增量新增表和日增量更新表;
第二确定单元,用于通过查询预先建立的拉链表加载批次日志表,确定最近一次跑批没有未正常结束的批次;
所述基于所述初始拉链表的最大跑批日期和当前跑批日期,按日将准实时日增量数据***所述初始拉链表,直至所述初始拉链表中最大跑批日期更新为当前跑批日期,得到第一拉链表,包括:
基于所述初始拉链表的最大跑批日期和当前跑批日期,确定未处理日期,所述未处理日期包括从所述最大跑批日期开始直至当前跑批日期中的每一个日期;
对于所述未处理日期,按日执行以下步骤:
获取当前未处理日期对应的准实时日增量数据,将所述准实时日增量数据***到所述日增量表;
基于所述日增量表和所述初始拉链表,将所述准实时日增量数据中的更新数据***所述日增量更新表,得到第一日增量更新表,并将所述增量数据中的新增数据***所述日增量新增表,得到第一日增量新增表;
根据所述第一日增量更新表,更新所述初始拉链表中相应数据的拉链终止日期为时间戳字段的值的前一天,得到更新后的初始拉链表;
更新所述第一日增量更新表和所述第一日增量新增表的跑批日期、拉链起始日期和拉链终止日期;
将所述第一日增量更新表和所述第一日增量新增表的所有数据***所述更新后的初始拉链表,并删除所述更新后的初始拉链表中拉链起始日期大于拉链终止日期的数据;
将所述当前未处理日期更新为下一日。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述的拉链表数据加载方法。
CN202310513473.0A 2023-05-08 2023-05-08 拉链表数据加载方法、装置和电子设备 Active CN116719971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310513473.0A CN116719971B (zh) 2023-05-08 2023-05-08 拉链表数据加载方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310513473.0A CN116719971B (zh) 2023-05-08 2023-05-08 拉链表数据加载方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN116719971A CN116719971A (zh) 2023-09-08
CN116719971B true CN116719971B (zh) 2024-04-09

Family

ID=87868718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310513473.0A Active CN116719971B (zh) 2023-05-08 2023-05-08 拉链表数据加载方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN116719971B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6463439B1 (en) * 1999-07-15 2002-10-08 American Management Systems, Incorporated System for accessing database tables mapped into memory for high performance data retrieval
CN107526733A (zh) * 2016-06-20 2017-12-29 咪咕互动娱乐有限公司 一种拉链表数据存储方法和装置
CN110096509A (zh) * 2019-05-16 2019-08-06 普元信息技术股份有限公司 大数据环境下实现历史数据拉链表存储建模处理的***及方法
CN111078709A (zh) * 2019-12-28 2020-04-28 辽宁振兴银行股份有限公司 一种基于数仓工具hive的非更新方式的增量拉链实现方法
CN111125106A (zh) * 2019-12-23 2020-05-08 深圳乐信软件技术有限公司 一种跑批任务执行方法、装置、服务器和存储介质
CN111400304A (zh) * 2020-02-19 2020-07-10 中国建设银行股份有限公司 一种获取截面日期全量数据的方法、装置、电子设备及存储介质
CN112328702A (zh) * 2020-12-04 2021-02-05 中信银行股份有限公司 数据同步方法及***
CN113010523A (zh) * 2021-03-23 2021-06-22 华泰证券股份有限公司 数据仓库拉链表存储方法、刷新方法及可读存储介质
CN114218238A (zh) * 2021-12-16 2022-03-22 城云科技(中国)有限公司 记录数据完整变化信息的数据存储方法、***及应用
CN114625809A (zh) * 2022-03-04 2022-06-14 北京金堤科技有限公司 一种基于Binlog日志的数据同步方法、装置以及存储介质和电子设备
WO2022133981A1 (zh) * 2020-12-25 2022-06-30 京东方科技集团股份有限公司 数据处理方法、平台、计算机可读存储介质及电子设备
CN114860727A (zh) * 2022-04-29 2022-08-05 上海哔哩哔哩科技有限公司 拉链表更新方法及装置
CN115391015A (zh) * 2022-09-09 2022-11-25 中国平安人寿保险股份有限公司 基于测试框架的跑批处理方法、装置、电子设备及介质
CN115481132A (zh) * 2022-10-28 2022-12-16 上海极豆科技有限公司 数据表更新方法、装置、设备及存储介质
CN115640301A (zh) * 2022-11-09 2023-01-24 中国联合网络通信集团有限公司 拉链表处理方法、装置、电子设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10121169B2 (en) * 2015-09-16 2018-11-06 Amobee, Inc. Table level distributed database system for big data storage and query
GB201812375D0 (en) * 2018-07-30 2018-09-12 Ibm Updating a table using incremental and batch updates

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6463439B1 (en) * 1999-07-15 2002-10-08 American Management Systems, Incorporated System for accessing database tables mapped into memory for high performance data retrieval
CN107526733A (zh) * 2016-06-20 2017-12-29 咪咕互动娱乐有限公司 一种拉链表数据存储方法和装置
CN110096509A (zh) * 2019-05-16 2019-08-06 普元信息技术股份有限公司 大数据环境下实现历史数据拉链表存储建模处理的***及方法
CN111125106A (zh) * 2019-12-23 2020-05-08 深圳乐信软件技术有限公司 一种跑批任务执行方法、装置、服务器和存储介质
CN111078709A (zh) * 2019-12-28 2020-04-28 辽宁振兴银行股份有限公司 一种基于数仓工具hive的非更新方式的增量拉链实现方法
CN111400304A (zh) * 2020-02-19 2020-07-10 中国建设银行股份有限公司 一种获取截面日期全量数据的方法、装置、电子设备及存储介质
CN112328702A (zh) * 2020-12-04 2021-02-05 中信银行股份有限公司 数据同步方法及***
WO2022133981A1 (zh) * 2020-12-25 2022-06-30 京东方科技集团股份有限公司 数据处理方法、平台、计算机可读存储介质及电子设备
CN113010523A (zh) * 2021-03-23 2021-06-22 华泰证券股份有限公司 数据仓库拉链表存储方法、刷新方法及可读存储介质
CN114218238A (zh) * 2021-12-16 2022-03-22 城云科技(中国)有限公司 记录数据完整变化信息的数据存储方法、***及应用
CN114625809A (zh) * 2022-03-04 2022-06-14 北京金堤科技有限公司 一种基于Binlog日志的数据同步方法、装置以及存储介质和电子设备
CN114860727A (zh) * 2022-04-29 2022-08-05 上海哔哩哔哩科技有限公司 拉链表更新方法及装置
CN115391015A (zh) * 2022-09-09 2022-11-25 中国平安人寿保险股份有限公司 基于测试框架的跑批处理方法、装置、电子设备及介质
CN115481132A (zh) * 2022-10-28 2022-12-16 上海极豆科技有限公司 数据表更新方法、装置、设备及存储介质
CN115640301A (zh) * 2022-11-09 2023-01-24 中国联合网络通信集团有限公司 拉链表处理方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于Web Service多源异构***增量同步的实现;庞秋奔;李银;;计算机应用与软件(05);178-182 *
多数据库***数据仓库集成技术应用研究;战颖;中国优秀硕士学位论文全文数据库信息科技辑(第8期);I138-950 *
对数据仓库中迟到数据的研究;何晨钢;;计算机应用与软件(12);232-234+241 *

Also Published As

Publication number Publication date
CN116719971A (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
CN109815291B (zh) 数据同步方法、装置、电子设备及存储介质
CN109391646B (zh) 消息中间件消息获取方法、装置和***
EP2506531A1 (en) Method for finding, updating and synchronizing modified record item and data synchronizing device
CN109062592B (zh) 一种游戏数值同步的方法及***
CN112612775B (zh) 一种数据存储方法、装置、计算机设备及存储介质
CN115730008A (zh) 一种日志解析方法、数据同步***、电子设备及存储介质
CN110083372B (zh) 一种区块链数据版本升级方法
CN116719971B (zh) 拉链表数据加载方法、装置和电子设备
CN107766512B (zh) 一种日志数据存储方法和日志数据存储***
CN113986942B (zh) 一种基于人机对话的消息队列管理方法及装置
US9268809B2 (en) Method and system for document update
CN114722045A (zh) 时间序列数据的存储方法及装置
CN110990640B (zh) 一种数据判定方法、装置、设备及计算机可读存储介质
CN114780536A (zh) 一种SQL Server数据库索引创建的方法、装置、电子设备及存储介质
CN114511314A (zh) 一种支付账户管理的方法、装置、计算机设备和存储介质
CN111143155B (zh) 一种应用于通信行业实现告警同步和清除机制的方法
CN113382372B (zh) 短信管控方法及装置
CN117271509A (zh) 一种基于Redis的账户分录明细表构建方法及***
CN114461605B (zh) 内存多维数据库的事务数据多版本实现方法、装置及设备
CN110222078B (zh) 一种数据处理方法及装置
CN110147355B (zh) 数据同步方法、装置及服务器
CN116450603A (zh) 日志数据库的升级方法、装置及存储介质
CN115858244A (zh) 数据库备份和还原方法、装置、终端及存储介质
CN117708175A (zh) 文件导出方法及装置
CN112835933A (zh) 一种基于socket的大批量数据实时同步方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant