CN113392085A - 一种分布式文件批量处理方法及平台 - Google Patents

一种分布式文件批量处理方法及平台 Download PDF

Info

Publication number
CN113392085A
CN113392085A CN202110653768.9A CN202110653768A CN113392085A CN 113392085 A CN113392085 A CN 113392085A CN 202110653768 A CN202110653768 A CN 202110653768A CN 113392085 A CN113392085 A CN 113392085A
Authority
CN
China
Prior art keywords
file
batch
files
check
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110653768.9A
Other languages
English (en)
Inventor
丁文定
徐平
伊布拉音江·玉素甫
王金余
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110653768.9A priority Critical patent/CN113392085A/zh
Publication of CN113392085A publication Critical patent/CN113392085A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例涉及大数据技术领域,具体公开了一种分布式文件批量处理方法及平台,所述方法包括:在接收到批量文件传输请求后,向所述批量文件传输请求所指定的***节点中布设的批量文件生成模块发送批量文件生成指令,以使所述批量文件生成模块生成批量文件,并将生成的批量文件及批量文件的文件信息反馈至所述数据交换平台;所述文件信息至少包括文件标识及文件大小;在接收到各所述指定的***节点反馈的批量文件生成成功的消息后,基于各所述指定的***节点对应的文件信息生成所述批量文件传输请求的校验文件;基于所述校验文件向下游***传输所述批量文件,从而可以在降低对***资源消耗的同时,提高批量文件传输的准确性及完整性。

Description

一种分布式文件批量处理方法及平台
技术领域
本说明书涉及大数据技术领域,特别地,涉及一种分布式文件批量处理方法及平台。
背景技术
随着现代化信息技术的高速发展,大型企业***逐步走向分工精细明确的应用体系,由此产生了满足企业多应用***间批量文件交换的数据交换平台。同时,随着企业的数据规模的极速增长,传统金融行业大型主机数据库纷纷向分布式数据库转型。在此过程中,原有大型主机单个数据库即可生成的完整批量文件,在采用分布式数据库分离存放后,将由多个数据库对应的批量文件所组成。且因分布式数据库存在动态数量调整需求,各数据库所产生的批量文件的数量和名称不能固定,导致***使用文件的下游***无法较好适应大型主机***的变化。
目前存在两种常见解决方案,一种方案是由转型后的分布式***,在生成多个数据对应的批量文件后,执行数据合并,以避免对***下游***的影响。但此方案需要分布式***设计专用的数据合并装置,因为数据规模大,增加了资源消耗,尤其当这类***为核心业务交易***时,影响其对外服务稳定性。且在企业有大量***从集中式向分布式转型过程中,上述方案显然还会额外增加整体实施成本,影响企业向分布式转型的进程。另一种方案是由数据交换平台,对分布式***生成的文件进行合并,但这种方案一方面在海量文件交换场景下,易造成数据交换平台的成本瓶颈,且增加了数据交换的耗时,对数据交换平台的处理时效性也造成较大影响。因此,目前亟需一种更加高效准确的分布式批量文件传输方法。
发明内容
本说明书实施例的目的在于提供一种分布式文件批量处理方法及平台,可以***地、低成本地实现企业大型主机向分布式***转型过程的数据交换,且可以提高文件批量传输的准确性及完整性。
本说明书提供一种分布式文件批量处理方法及平台是包括如下方式实现的:
一种分布式文件批量处理方法,应用于数据交换平台,所述方法包括:在接收到批量文件传输请求后,向所述批量文件传输请求所指定的***节点中布设的批量文件生成模块发送批量文件生成指令,以使所述批量文件生成模块生成相应***节点对应的批量文件,并将生成的批量文件及批量文件的文件信息反馈至所述数据交换平台;所述文件信息至少包括文件标识及文件大小;在接收到各所述指定的***节点反馈的批量文件生成成功的消息后,基于各所述指定的***节点对应的文件信息生成所述批量文件传输请求的校验文件;基于所述校验文件向下游***传输所述批量文件。
另一些实施例中,所述文件标识至少包括文件名、***节点标识及文件生成时间。
另一些实施例中,所述校验文件与所述批量文件采用不同的文件类型。
另一些实施例中,所述校验文件中还配置有文件标识与相应文件标识对应的批量文件待传输至的指定下游***之间的第一关联关系;所述基于所述校验文件向下游***传输所述批量文件,包括:对于任一所述指定下游***,基于所述第一关联关系从所述校验文件中提取所述指定下游***对应的全部文件标识,得到文件标识集;并将所述文件标识集中各文件标识对应的批量文件传输至所述指定下游***中。
另一些实施例中,所述将所述文件标识集中各文件标识对应的批量文件传输至所述指定下游***中,包括:从所述校验文件中提取所述文件标识集中各文件标识对应的批量文件的总文件大小;基于所述文件标识集中各文件标识及总文件大小,校验所述文件标识集中各文件标识对应的批量文件是否已全部传输至所述指定下游***。
另一些实施例中,所述校验文件还包括文件标识与相应文件标识对应的批量文件待加载至的指定下游***的数据库表之间的第二关联关系;所述基于所述校验文件向下游***传输所述批量文件,包括:在确定批量文件已全部传输至所述指定下游***的情况下,基于所述第二关联关系,将所述文件标识集中各文件标识对应的批量文件加载至相应数据库表中。
另一些实施例中,所述将所述文件标识集中各文件标识对应的批量文件加载至相应数据库表中,包括:依次将所述文件标识集中各文件标识作为指定文件标识,从校验文件中查找所述指定文件标识对应的批量文件待加载至的数据库表配置信息;在未能查找到所述数据库表配置信息的情况下,发出所述指定文件标识的表信息未定义的异常提醒。
另一些实施例中,所述方法还包括:基于批量文件加工逻辑对所述批量文件进行加工处理;提取加工处理后的批量文件的文件大小,利用提取的文件大小更新所述校验文件中相应批量文件的文件大小,得到更新后的校验文件,以基于所述更新后的校验文件向下游***传输加工处理后的批量文件。
另一方面,本说明书实施例还提供一种数据交换平台,所述平台至少包括分布式批量装置及文件加载装置;所述分布式批量装置至少包括批量调度模块、批量文件生成模块及校验文件生成模块,其中,所述批量文件生成模块布设在分布式***的各***节点中;所述批量调度模块用于在接收到批量文件传输请求后,向所述批量文件传输请求所指定的***节点中的批量文件生成模块发送批量文件生成指令;所述批量文件生成模块用于基于所述批量文件生成指令生成批量文件,并将生成的批量文件及批量文件的文件信息反馈至批量调度模块;所述文件信息至少包括文件标识及文件大小;所述批量调度模块用于在接收到各所述指定的***节点反馈的批量文件生成成功的消息后,向所述校验文件生成模块发送校验文件生成指令;所述校验文件生成指令包括各所述指定的***节点对应的批量文件的文件信息;所述校验文件生成模块用于接收所述校验文件生成指令,基于所述校验文件生成指令中的文件信息生成所述批量文件传输请求的校验文件;并将所述校验文件反馈至所述批量调度模块;所述批量调度模块用于将所述校验文件与所述批量文件发送至所述文件加载装置;所述文件加载装置用于基于所述校验文件向下游***传输所述批量文件。
另一些实施例中,所述平台还包括文件交换装置;所述批量调度模块用于将所述校验文件与所述批量文件发送至所述文件交换装置;所述文件交换装置用于基于批量文件加工逻辑对所述批量文件进行加工处理;并提取加工处理后的批量文件的文件大小,利用提取的文件大小更新所述校验文件中相应批量文件的文件大小,得到更新后的校验文件;以及将加工后的批量文件及更新后的校验文件发送至所述文件加载装置;所述文件加载装置用于基于所述更新后的校验文件向下游***传输加工处理后的批量文件。
另一方面,本说明书实施例还提供一种数据交换平台,所述平台包括至少一个处理器及用于存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现上述任意一个或者多个实施例所述方法的步骤。
本说明书一个或多个实施例提供的分布式文件批量处理方法及平台,对于企业大型主机向分布式转型过程中所引发的批量文件数量和名称不固定问题,通过重新设计***架构,在***部署后,使得分布式***以及数据交换平台均无需合并文件,即可完成批量文件的传输,避免了批量文件传输过程中因文件合并所造成的资源过度消耗。且下游***又可以兼容上游***文件数量和名称不能固定的问题,进一步保证批量文件向下游***加载的准确性及完整性。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本说明书提供的数据交换平台的模块结构示意图;
图2为本说明书提供的分布式批量装置的模块结构及文件传输流程示意图;
图3为本说明书提供的文件交换装置的模块结构及文件传输流程示意图;
图4为本说明书提供的文件加载装置的模块结构及文件传输流程示意图;
图5为本说明书提供的分布式文件批量处理方法的实施流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是说明书一部分实施例,而不是全部的实施例。基于说明书一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书实施例方案保护的范围。
本说明书提供的一个场景示例中,所述分布式文件批量处理方法可以应用于数据交换平台。如图1所示,所述数据交换平台可以包括分布式批量装置1、文件交换装置2及文件加载装置3。
分布式批量装置1与分布式***连接,用于对分布式***的各***节点的数据进行处理,以生成对应于各***节点的批量文件;并将生成的批量文件的文件信息记录至一个校验文件中。分布式批量装置1还可以与文件交换装置2连接,用于将生成的批量文件和校验文件传输给文件交换装置2。
文件交换装置2还与文件加载装置3连接。文件交换装置2可以将批量文件进行过滤、清洗等加工处理,并将加工处理后的批量文件及所述校验文件传输给文件加载装置3。
文件加载装置3还与***下游***的数据库连接。文件加载装置3可以根据校验文件中的文件信息校验批量文件,并在校验无误后,将多个批量文件加载到***下游***的数据库中。
图2为所述分布式批量装置1的***架构及文件处理流程示意图。如图2所示,分布式批量装置1至少可以包含批量调度模块、批量文件生成模块和校验文件生成模块。其中,所述批量文件生成模块布设在各***节点中,以对相应的***节点下的数据库中的数据进行处理,生成相应***节点对应的批量文件。平台的配置中心可以预先存放有各分布式***的各***节点下的数据库配置信息。所述数据库配置信息至少可以包括数据库所属的***节点。
相应的,分布式批量装置1可以执行下述步骤201-206进行文件批量处理。
步骤201:批量调度模块在接收到批量文件传输请求后,可以向配置中心发送读取各***节点的数据库配置信息的请求。所述批量文件传输请求如可以包括本次批量文件传输待传输数据所属的***节点、***节点下的数据库、数据库中表信息及对数据库中的数据执行处理的方式等。或者,还可以包括生成的各批量文件待传输至的下游***的配置信息、批量文件中的数据待加载至的下游***的数据库表配置信息等等。批量文件传输请求的生成及包含的内容可以根据需要配置,这里不做限定。所述配置中心可以预先配置有分布式***下各***节点的配置信息、下游***的配置信息等等。
步骤202:配置中心接到批量调度模块的上述请求后,可以将存放的数据库配置信息,返回给批量调度模块。
步骤203:批量调度模块根据分布式***的数据库配置信息,向所述批量文件传输请求所指定的***节点下的批量文件生成模块发送批量文件生成指令。
步骤204:批量文件生成模块接收到批量文件生成指令后,可以根据批量文件传输请求对该***节点下的数据库中的数据进行处理,生成批量文件。并将生成的批量文件的文件信息返回给批量调度模块。所述文件信息至少可以包括文件标识及文件大小。所述文件标识至少可以包括文件名、***节点标识及文件生成时间等。如文件标识可以为:[文件英文名]-[分布式数据库编号]-[日期].BIN。通过增加分布式数据库编号作为文件标识的一部分,可以确保不同***节点下的数据库所生成的文件标识不重复,同时,也便于追溯。
步骤205:批量调度模块在接到各所述指定的***节点均返回批量文件生成成功的指令后,向校验文件生成模块发送校验文件生成的启动指令。校验文件生成指令中至少包含有从各***节点接收到的文件信息。
步骤206:校验文件生成模块在接到校验文件生成指令后,生成校验文件,并向批量调度模块返回结果。校验文件的文件标识规则可以为“[文件英文名]-[日期].CHK”。保持批量文件的文件标识类似,但后缀不同,以区分校验文件和批量文件。校验文件所包含的内容以及具体格式优选方式为:
(1)校验文件的第一条记录可以包括所述批量文件传输请求所需传输的批量文件的总体信息。表1为第一条记录所包含的字段信息示例表。
表1
字段名 字段描述
APP_ID 源应用的应用标识
APP_NAME 源应用名称
BIZ_DATE 文件传输日期
FILE_COUNT 批量文件个数
BAK_FIELD 备用字段
(2)第二条至最后一条记录为文件信息。表2为第二条至最后一条记录的字段信息示例表。
表2
Figure BDA0003111831550000061
Figure BDA0003111831550000071
图3为文件交换装置2的***架构及批量文件的处理流程示意图。文件交换装置将从分布式批量装置1接收到的批量文件和校验文件,根据预先设定的配置,分发给与下游***关联的文件加载装置。文件交换装置2可以包含文件接收模块、文件加工模块、文件分发模块。平台的配置中心还可以配置有批量文件的加工处理方式(例如字段格式转换、译码方式、过滤配置)及批量文件所应分发到的目标下游***(例如,M文件给***A、***B;N文件给***A、***C等)。或者,也可以将批量文件所应分发到的目标下游***及待加载至的数据库表配置信息记录至校验文件中。相应的,所述校验文件中可以配置有文件标识与相应文件标识对应的批量文件待传输至的指定下游***之间的第一关联关系;以及文件标识与相应文件标识对应的批量文件待加载至的指定下游***的数据库表之间的第二关联关系。
相应的,文件交换装置2可以执行下述步骤301至303进行文件批量处理。
步骤301:文件接收模块可以接收分布式批量装置1发送的批量文件和校验文件,并提供给文件加工模块处理。
步骤302:文件加工模块可以从配置中心调取对批量文件的加工处理方式,以对批量文件进行过滤、清洗等加工处理,并将加工处理后的批量文件的文件大小更新至校验文件中。
步骤303:文件分发模块可以将文件加工模块处理后的批量文件及更新后的校验文件,并基于所述第一关联关系,分发给与相应指定下游***关联的文件加载装置3。
图4为文件加载装置3的***架构及批量文件的处理流程示意图。文件加载装置,配合***的下游***,接收来自文件交换装置2提供的批量文件和校验文件,并根据校验文件中的文件信息,加载所有批量文件至对应的下游***的数据库表中,从而简单有效地使得下游***适应分布式***的文件数量和名称不固定等问题。各文件加载装置3可以利用步骤401至404将批量文件加载至下游***的数据库表中。
步骤401:判断校验文件对应的批量文件是否到齐。具体可以根据校验文件中的文件信息,通过文件标识“[文件英文名]-[分布式数据库编号]-[日期]”,逐个判断该文件加载装置所关联的下游***对应的批量文件是否已到达该下游***。当确认各批量文件已达到,且实际批量文件的总文件大小与校验文件中记录的一致时(验证批量文件的完整性),则进入步骤步骤402;否则继续等待一段时间后,重新执行批量文件传输及步骤步骤401。
步骤402:基于所述第二关联关系,从校验文件中查找各文件需加载至的下游***的数据库表配置信息,所述数据库表配置信息可以包括待加载至的数据库及表信息。若成功找到对应的数据库及表信息,则执行步骤404;否则,执行步骤403。
步骤403:若步骤402未成功找到对应的数据库表配置信息,抛出“校验文件未定义”的异常提醒。
步骤404:根据步骤402查找到的数据库表配置信息,以及校验文件中记录的“文件标识”,将相应的文件加载至对应的数据库表中。
重复上述步骤,直至该文件加载装置所关联的下游***对应的批量文件全部加载完成。采用上述***架构执行批量文件的传输,可以在无需对各***节点的批量文件进行合并的情况下,实现对批量文件的传输,避免了因批量文件合并所带来的资源消耗过大问题。即使分布式***的文件数量及名称不固定,也可以准确、完整地将批量文件加载至下游***的数据库表中,提高批量文件加载的准确性及完整性。且如果出现无法加载的问题时,也可以快速的追溯到出现问题的文件来源,提高异常文件加载被纠正的效率。
基于上述场景示例,本说明书实施例提供一种分布式批量文件传输方法,如图5所示。图5是本说明书提供的分布式文件批量处理方法的一个实施例的流程示意图。所述方法可以应用于数据交换平台,所述方法可以包括如下步骤。
S52:在接收到批量文件传输请求后,向所述批量文件传输请求所指定的***节点中布设的批量文件生成模块发送批量文件生成指令,以使所述批量文件生成模块生成相应***节点对应的批量文件,并将生成的批量文件及批量文件的文件信息反馈至所述数据交换平台;所述文件信息至少包括文件标识及文件大小;
S54:在接收到各所述指定的***节点反馈的批量文件生成成功的消息后,基于各所述指定的***节点对应的文件信息生成所述批量文件传输请求的校验文件;
S56:基于所述校验文件向下游***传输所述批量文件。
采用上述方式执行批量文件的传输,可以在无需对各***节点的批量文件进行合并的情况下,实现对批量文件的传输,避免了因批量文件合并所带来的资源消耗过大问题。即使分布式***的文件数量及名称不固定,也可以准确、完整地将批量文件加载至下游***的数据库表中,提高批量文件加载的准确性及完整性。
另一些实施例中,所述文件标识至少可以包括文件名、***节点标识及文件生成时间。所述文件名可以根据批量文件所包含的内容生成,或者也可以利用随机码的方式生成。所述***节点标识如可以采用***节点下的数据库编码等。采用上述方式配置文件标识,可以避免不同***节点在不同时间点所生成的文件标识不同,在批量文件传输过程中便于对文件进行准确处理,提高批量文件传输及加载的准确性。
另一些实施例中,所述校验文件与所述批量文件采用不同的文件类型。通过采用不同的文件类型,可以便于区分校验文件及批量文件。如可以采用不同的文件标识后缀来区分校验文件与所述批量文件的文件类型。如批量文件采用“BIN”作为文件标识的后缀、校验文件采用“CHK”作为文件标识的后缀。
另一些实施例中,所述校验文件中还配置有文件标识与相应文件标识对应的批量文件待传输至的指定下游***之间的第一关联关系。所述基于所述校验文件向下游***传输所述批量文件可以包括:对于任一所述指定下游***,基于所述第一关联关系从所述校验文件中提取所述指定下游***对应的全部文件标识,得到文件标识集;并将所述文件标识集中各文件标识对应的批量文件传输至所述指定下游***中。
另一些实施例中,所述将所述文件标识集中各文件标识对应的批量文件传输至所述指定下游***中可以包括:从所述校验文件中提取所述文件标识集中各文件标识对应的批量文件的总文件大小;基于所述文件标识集中各文件标识及总文件大小,校验所述文件标识集中各文件标识对应的批量文件是否已全部传输至所述指定下游***。综合下游***所对应的批量文件的全部文件标识及总文件大小,校验各下游***所对应的批量文件是否已全部到齐,可以更加准确地的确定批量文件传输的完整性。在文件全部到齐的情况下,再执行后的文件加载步骤,可以进一步提高文件加载的准确性。
另一些实施例中,所述校验文件还包括文件标识与相应文件标识对应的批量文件待加载至的指定下游***的数据库表之间的第二关联关系。所述基于所述校验文件向下游***传输所述批量文件可以包括:在确定批量文件已全部传输至所述指定下游***的情况下,基于所述第二关联关系,将所述文件标识集中各文件标识对应的批量文件加载至相应数据库表中。通过在校验文件中配置上述第二关联关系,可以大幅提高各下游***文件加载的效率及准确性。
另一些实施例中,所述将所述文件标识集中各文件标识对应的批量文件加载至相应数据库表中,包括:依次将所述文件标识集中各文件标识作为指定文件标识,从校验文件中查找所述指定文件标识对应的批量文件待加载至的数据库表配置信息;在未能查找到所述数据库表配置信息的情况下,发出所述指定文件标识的表信息未定义的异常提醒。通过上述方式执行文件传输及加载,还可以在文件加载出现异常的情况下,基于文件标识抛出异常提醒,大幅提高文件加载异常追溯的效率,及时修正该异常。
另一些实施例中,所述方法还包括:所述文件交换装置基于批量文件加工逻辑对所述批量文件进行加工处理;并提取加工处理后的批量文件的文件大小,利用提取的文件大小更新所述校验文件中相应批量文件的文件大小,得到更新后的校验文件,以将加工后的批量文件及更新后的校验文件传输给相应下游***所关联的文件加载装置。所述批量文件加工逻辑可以预先配置。优选的,所述批量文件加工逻辑可以基于文件标识分别进行配置。相应的,还可以将各加工逻辑对应的加工逻辑标识记录在校验文件中。在批量文件传输过程中,可以从校验文件中读取各文件标识对应的加工逻辑标识,以调取该加工逻辑标识对应的加工逻辑,对相应文件标识对应的批量文件进行加工处理,提高加工处理的效率。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。具体的可以参照前述相关处理相关实施例的描述,在此不做一一赘述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于上述实施例提供的方法及***架构,本说明书实施例还提供一种数据交换平台,所述平台至少可以包括分布式批量装置及文件加载装置;所述分布式批量装置至少包括批量调度模块、批量文件生成模块及校验文件生成模块,其中,所述批量文件生成模块布设在分布式***的各***节点中。
所述批量调度模块可以用于在接收到批量文件传输请求后,向所述批量文件传输请求所指定的***节点中的批量文件生成模块发送批量文件生成指令。
所述批量文件生成模块可以用于基于所述批量文件生成指令生成批量文件,并将生成的批量文件及批量文件的文件信息反馈至批量调度模块;所述文件信息至少包括文件标识及文件大小。
所述批量调度模块可以用于在接收到各所述指定的***节点反馈的批量文件生成成功的消息后,向所述校验文件生成模块发送校验文件生成指令;所述校验文件生成指令包括各所述指定的***节点对应的批量文件的文件信息。
所述校验文件生成模块可以用于接收所述校验文件生成指令,基于所述校验文件生成指令中的文件信息生成所述批量文件传输请求的校验文件;并将所述校验文件反馈至所述批量调度模块。
所述批量调度模块可以用于将所述校验文件与所述批量文件发送至所述文件加载装置。
所述文件加载装置可以用于基于所述校验文件向下游***传输所述批量文件。
另一些实施例中,所述平台还可以包括文件交换装置。相应的,所述批量调度模块可以用于将所述校验文件与所述批量文件发送至所述文件交换装置。所述文件交换装置可以用于基于批量文件加工逻辑对所述批量文件进行加工处理;并提取加工处理后的批量文件的文件大小,利用提取的文件大小更新所述校验文件中相应批量文件的文件大小,得到更新后的校验文件;以及将加工后的批量文件及更新后的校验文件发送至所述文件加载装置。所述文件加载装置可以用于基于所述更新后的校验文件向下游***传输加工处理后的批量文件。
需要说明的,上述所述的平台根据上述实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本说明书还提供一种数据交换平台,所述平台可以包括至少一个处理器及用于存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现包括上述任意一个或者多个实施例所述方法的步骤。所述存储器可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。
需要说明的是,本说明书实施例并不局限于必须是符合标准数据模型/模板或本说明书实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例,仍然可以属于本说明书的可选实施方案范围之内。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述并不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (11)

1.一种分布式文件批量处理方法,其特征在于,应用于数据交换平台,所述方法包括:
在接收到批量文件传输请求后,向所述批量文件传输请求所指定的***节点中布设的批量文件生成模块发送批量文件生成指令,以使所述批量文件生成模块生成相应***节点对应的批量文件,并将生成的批量文件及批量文件的文件信息反馈至所述数据交换平台;所述文件信息至少包括文件标识及文件大小;
在接收到各所述指定的***节点反馈的批量文件生成成功的消息后,基于各所述指定的***节点对应的文件信息生成所述批量文件传输请求的校验文件;
基于所述校验文件向下游***传输所述批量文件。
2.根据权利要求1所述的方法,其特征在于,所述文件标识至少包括文件名、***节点标识及文件生成时间。
3.根据权利要求1所述的方法,其特征在于,所述校验文件与所述批量文件采用不同的文件类型。
4.根据权利要求1所述的方法,其特征在于,所述校验文件中还配置有文件标识与相应文件标识对应的批量文件待传输至的指定下游***之间的第一关联关系;
所述基于所述校验文件向下游***传输所述批量文件,包括:对于任一所述指定下游***,基于所述第一关联关系从所述校验文件中提取所述指定下游***对应的全部文件标识,得到文件标识集;并将所述文件标识集中各文件标识对应的批量文件传输至所述指定下游***中。
5.根据权利要求4所述的方法,其特征在于,所述将所述文件标识集中各文件标识对应的批量文件传输至所述指定下游***中,包括:
从所述校验文件中提取所述文件标识集中各文件标识对应的批量文件的总文件大小;
基于所述文件标识集中各文件标识及总文件大小,校验所述文件标识集中各文件标识对应的批量文件是否已全部传输至所述指定下游***。
6.根据权利要求5所述的方法,其特征在于,所述校验文件还包括文件标识与相应文件标识对应的批量文件待加载至的指定下游***的数据库表之间的第二关联关系;
所述基于所述校验文件向下游***传输所述批量文件,包括:在确定批量文件已全部传输至所述指定下游***的情况下,基于所述第二关联关系,将所述文件标识集中各文件标识对应的批量文件加载至相应数据库表中。
7.根据权利要求6所述的方法,其特征在于,所述将所述文件标识集中各文件标识对应的批量文件加载至相应数据库表中,包括:
依次将所述文件标识集中各文件标识作为指定文件标识,从校验文件中查找所述指定文件标识对应的批量文件待加载至的数据库表配置信息;
在未能查找到所述数据库表配置信息的情况下,发出所述指定文件标识的表信息未定义的异常提醒。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于批量文件加工逻辑对所述批量文件进行加工处理;
提取加工处理后的批量文件的文件大小,利用提取的文件大小更新所述校验文件中相应批量文件的文件大小,得到更新后的校验文件,以基于所述更新后的校验文件向下游***传输加工处理后的批量文件。
9.一种数据交换平台,其特征在于,所述平台至少包括分布式批量装置及文件加载装置;所述分布式批量装置至少包括批量调度模块、批量文件生成模块及校验文件生成模块,其中,所述批量文件生成模块布设在分布式***的各***节点中;
所述批量调度模块用于在接收到批量文件传输请求后,向所述批量文件传输请求所指定的***节点中的批量文件生成模块发送批量文件生成指令;
所述批量文件生成模块用于基于所述批量文件生成指令生成批量文件,并将生成的批量文件及批量文件的文件信息反馈至批量调度模块;所述文件信息至少包括文件标识及文件大小;
所述批量调度模块用于在接收到各所述指定的***节点反馈的批量文件生成成功的消息后,向所述校验文件生成模块发送校验文件生成指令;所述校验文件生成指令包括各所述指定的***节点对应的批量文件的文件信息;
所述校验文件生成模块用于接收所述校验文件生成指令,基于所述校验文件生成指令中的文件信息生成所述批量文件传输请求的校验文件;并将所述校验文件反馈至所述批量调度模块;
所述批量调度模块用于将所述校验文件与所述批量文件发送至所述文件加载装置;
所述文件加载装置用于基于所述校验文件向下游***传输所述批量文件。
10.根据权利要求9所述的平台,其特征在于,所述平台还包括文件交换装置;
所述批量调度模块用于将所述校验文件与所述批量文件发送至所述文件交换装置;
所述文件交换装置用于基于批量文件加工逻辑对所述批量文件进行加工处理;并提取加工处理后的批量文件的文件大小,利用提取的文件大小更新所述校验文件中相应批量文件的文件大小,得到更新后的校验文件;以及将加工后的批量文件及更新后的校验文件发送至所述文件加载装置;
所述文件加载装置用于基于所述更新后的校验文件向下游***传输加工处理后的批量文件。
11.一种数据交换平台,其特征在于,所述平台包括至少一个处理器及用于存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现权利要求1至8任一项所述方法的步骤。
CN202110653768.9A 2021-06-11 2021-06-11 一种分布式文件批量处理方法及平台 Pending CN113392085A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110653768.9A CN113392085A (zh) 2021-06-11 2021-06-11 一种分布式文件批量处理方法及平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110653768.9A CN113392085A (zh) 2021-06-11 2021-06-11 一种分布式文件批量处理方法及平台

Publications (1)

Publication Number Publication Date
CN113392085A true CN113392085A (zh) 2021-09-14

Family

ID=77620583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110653768.9A Pending CN113392085A (zh) 2021-06-11 2021-06-11 一种分布式文件批量处理方法及平台

Country Status (1)

Country Link
CN (1) CN113392085A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168549A (zh) * 2021-12-10 2022-03-11 中国建设银行股份有限公司 文件处理方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168549A (zh) * 2021-12-10 2022-03-11 中国建设银行股份有限公司 文件处理方法及装置

Similar Documents

Publication Publication Date Title
EP2474919B1 (en) System and method for data replication between heterogeneous databases
CN102682052B (zh) 过滤数据存储上的查询数据
CN103164523A (zh) 数据一致性检查方法、装置及***
CN110287251B (zh) MongoDB到HBase的分布式高容错数据实时同步方法
CN104090901A (zh) 一种对数据进行处理的方法、装置及服务器
CN110688828A (zh) 文件处理方法及装置、文件处理***、计算机设备
CN106612330A (zh) 支持分布式多文件导入的***及方法
US20230030856A1 (en) Distributed table storage processing method, device and system
CN107391611A (zh) 一种基于工作流的通用etl工具的过程模型生成方法
CN113392085A (zh) 一种分布式文件批量处理方法及平台
CN110019169B (zh) 一种数据处理的方法及装置
CN112258266B (zh) 分布式订单处理方法、装置、设备及存储介质
CN111581227A (zh) 事件推送方法、装置、计算机设备及存储介质
CN116089527A (zh) 一种数据校验方法、存储介质与设备
CN115170152A (zh) 一种数据分发方法、装置、设备和存储介质
CN112596806A (zh) 数据湖数据加载脚本生成方法和***
WO2021133448A1 (en) Edge table representation of processes
CN111651259A (zh) 基于依赖关系的***管理方法、装置及存储介质
CN111324783B (zh) 数据处理方法及装置
CN116860871B (zh) 统一处理源数据的元数据标准化方法、设备及存储介质
US11194665B2 (en) Systems and methods for seamless redelivery of missing data
CN115658383A (zh) 备份数据的处理方法、装置和计算机设备
CN118152036A (zh) 调度模板处理方法、装置、计算机设备和存储介质
CN116451652A (zh) 一种***对接时数据格式快速转换方法及***
CN117076546A (zh) 数据处理方法、终端设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination