CN117762865A - 大数据平台的数据入湖方法及*** - Google Patents

大数据平台的数据入湖方法及*** Download PDF

Info

Publication number
CN117762865A
CN117762865A CN202311755245.0A CN202311755245A CN117762865A CN 117762865 A CN117762865 A CN 117762865A CN 202311755245 A CN202311755245 A CN 202311755245A CN 117762865 A CN117762865 A CN 117762865A
Authority
CN
China
Prior art keywords
lake
data
entering
information
lake entering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311755245.0A
Other languages
English (en)
Inventor
孙昱
康蕊
张晨曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yatu Software Technology Co ltd
Original Assignee
Shandong Yatu Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yatu Software Technology Co ltd filed Critical Shandong Yatu Software Technology Co ltd
Priority to CN202311755245.0A priority Critical patent/CN117762865A/zh
Publication of CN117762865A publication Critical patent/CN117762865A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种大数据平台的数据入湖方法及***,该大数据平台的数据入湖方法包括:获取数据入湖任务的入湖调研信息文件,入湖调研信息文件中包括待入湖业务数据的入湖调研信息;对入湖调研信息文件进行解析,生成待入湖业务数据的入湖流程的入湖信息,入湖流程的入湖信息包括调度流程和多个数据处理任务;根据调度流程,对所述待入湖业务数据执行所述多个数据处理任务,将所述待入湖业务数据写入到所述大数据平台的数据湖中。本发明通过对入湖调研文件进行解析,可以自动生成待入湖业务数据的入湖流程的入湖信息,根据入湖流程的入湖信息完成待入湖业务数据自动入湖,方便快捷,解决了现有方案中手动入湖步骤繁琐,效率低且维护容易出错的问题。

Description

大数据平台的数据入湖方法及***
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种大数据平台的数据入湖方法及***。
背景技术
数据入湖是指将各种来源、形式和类型的数据集成到数据湖中,以供后续的数据分析、建模和处理。数据湖是一种大型数据存储和管理***,它解决了数据集成和管理的问题,可以包含结构化数据、半结构化数据和非结构化数据。通过数据入湖,企业可以更好地管理和利用海量数据,实现对数据的深度挖掘和分析,提高数据价值和业务效益。
现有基于大数据平台的入湖流程都是手工添加任务入湖,需要手动维护多个数据和文件,并且维护多个功能模块进行任务创建,该手动入湖流程涉及步骤较多,功能模块分散,工作量较大,且维护容易出现错误。
发明内容
本发明实施例提供一种大数据平台的数据入湖方法及***,用于解决现有方案中手动入湖步骤繁琐,效率低且维护容易出错的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种大数据平台的数据入湖方法,包括:
获取数据入湖任务的入湖调研信息文件,所述入湖调研信息文件中包括待入湖业务数据的入湖调研信息;
对所述入湖调研信息文件进行解析,生成所述待入湖业务数据的入湖流程的入湖信息,所述入湖流程的入湖信息包括调度流程和多个数据处理任务;
根据所述调度流程,对所述待入湖业务数据执行所述多个数据处理任务,将所述待入湖业务数据写入到所述大数据平台的数据湖中。
第二方面,本发明实施例提供了一种大数据平台的数据入湖方法,包括:
接收用户的第一操作,创建数据入湖任务;
接收用户的第二操作,获取所述数据入湖任务的入湖调研信息文件,所述入湖调研信息文件中包括待入湖业务数据的入湖调研信息;
接收用户的第三操作,对所述入湖调研信息文件进行解析,生成所述待入湖业务数据的入湖流程的入湖信息,所述入湖流程的入湖信息包括调度流程和多个数据处理任务;
接收用户的第四操作,根据所述调度流程,对所述待入湖业务数据执行所述多个数据处理任务,将所述待入湖业务数据写入到所述大数据平台的数据湖中。
第三方面,本发明实施例提供了一种大数据平台的数据入湖***,包括:
获取模块,用于获取数据入湖任务的入湖调研信息文件,所述入湖调研信息文件中包括待入湖业务数据的入湖调研信息;
解析模块,用于对所述入湖调研信息文件进行解析,生成所述待入湖业务数据的入湖流程的入湖信息,所述入湖流程的入湖信息包括调度流程和多个数据处理任务;
入湖模块,用于根据所述调度流程,对所述待入湖业务数据执行所述多个数据处理任务,将所述待入湖业务数据写入到所述大数据平台的数据湖中。
第四方面,本发明实施例提供了一种大数据平台的数据入湖***,包括:
任务创建模块,用于接收用户的第一操作,创建数据入湖任务;
文件上传模块,用于接收用户的第二操作,获取所述数据入湖任务的入湖调研信息文件,所述入湖调研信息文件中包括待入湖业务数据的入湖调研信息;
解析模块,用于接收用户的第三操作,对所述入湖调研信息文件进行解析,生成所述待入湖业务数据的入湖流程的入湖信息,所述入湖流程的入湖信息包括调度流程和多个数据处理任务;
入湖模块,用于接收用户的第四操作,根据所述调度流程,对所述待入湖业务数据执行所述多个数据处理任务,将所述待入湖业务数据写入到所述大数据平台的数据湖中。
第五方面,本发明实施例提供了一种服务器,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如上述第一方面所述的大数据平台的数据入湖方法的步骤,或者,所述程序被所述处理器执行时实现如上述第二方面所述的大数据平台的数据入湖方法的步骤。
第六方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的大数据平台的数据入湖方法的步骤;或者,所述计算机程序被处理器执行时实现如上述第二方面所述的大数据平台的数据入湖方法的步骤。
本发明实施例中,通过对入湖调研文件进行解析,可以自动生成待入湖业务数据的入湖流程的入湖信息,根据入湖流程的入湖信息,完成待入湖业务数据自动入湖,方便快捷,解决了现有方案中手动入湖步骤繁琐,效率低且维护容易出错的问题。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例的大数据平台的数据入湖方法的流程示意图之一;
图2为本发明实施例的对入湖调研信息文件进行解析的流程示意图;
图3为本发明实施例的大数据平台的数据入湖方法的流程示意图之二;
图4为本发明实施例的用于自动化入湖的用户界面的示意图;
图5为本发明实施例的配置自动化入湖所需的配置信息的用户界面的示意图;
图6为本发明实施例的大数据平台的数据入湖***的结构示意图之一;
图7为本发明实施例的大数据平台的数据入湖***的结构示意图之二;
图8为本发明实施例的服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在一些实施方式中,可以通过如下具体流程完成数据入湖流程:先在数据源模块维护数据源,在元数据模块维护缓存层和贴源层元数据,在文件元数据模块维护文件,在数据同步模块维护数据同步任务,在数据加工模块维护数据加工任务,再在调度流程模块将数据同步任务和数据加工任务添加到调度流程中。然后再运行调度流程,将数据从文件写入到缓存层再到贴源层,最终完成入湖流程。该种数据入湖流程的自动化程度不高,因而需要更智能化、自动化和高效率的数据入湖方法,以提高数据入湖的可靠性和效率。
请参考图1,本发明实施例提供一种大数据平台的数据入湖方法,包括:
步骤S1:获取数据入湖任务的入湖调研信息文件,所述入湖调研信息文件中包括待入湖业务数据的入湖调研信息;
本发明实施例中,针对每个待入湖业务可以设置一个或多个数据入湖任务,所述数据入湖任务也可以称为入湖调研任务,用于对待入湖业务入湖所需的相关信息进行调研。
本发明实施例中,可以提供一入湖调研信息文件模板,所述入湖调研信息文件模板中可以包括需要用户填写的待入湖业务数据的入湖调研信息的填写项,用户在所述入湖调研信息文件模板中填写待入湖业务数据的入湖调研信息,从而生成入湖调研信息文件。
本发明实施例中,可选地,所述入湖调研信息文件可以是Excel文件,当然,也不排除采用其他文件格式。
本发明实施例中,也可以为用户提供用户界面,用户界面上可以包括为用户提供选项框或者填写框等,由用户在用户界面上完成待入湖业务数据的入湖调研信息的填写。
步骤S2:对所述入湖调研信息文件进行解析,生成所述待入湖业务数据的入湖流程的入湖信息,所述入湖流程的入湖信息包括调度流程和多个数据处理任务。
步骤S3:根据所述调度流程,对所述待入湖业务数据执行所述多个数据处理任务,将所述待入湖业务数据写入到所述大数据平台的数据湖中。
本发明实施例中,通过对入湖调研文件进行解析,可以自动生成待入湖业务数据的入湖流程的入湖信息,根据入湖流程的入湖信息,完成待入湖业务数据自动入湖,方便快捷,解决了现有方案中手动入湖步骤繁琐,效率低且维护容易出错的问题。
本发明实施例中,可选地,所述入湖调研信息包括:入湖字段清单,所述入湖字段清单中包括以下至少一项:文件层元数据的字段,缓存层元数据的字段,贴源层元数据的字段,以及,数据处理任务的字段;所述数据处理任务包括数据同步任务和数据加工任务,其中,所述数据同步任务是用于将所述文件层的数据同步到所述缓存层的任务,所述数据加工任务是用于将所述缓存层的数据进行加工后发送到所述贴源层的任务,所述文件层元数据,缓存层元数据和贴源层元数据包括相同的字段。
可选地,文件层元数据、缓存层元数据、贴源层元数据,共用一套字段,在所述入湖字段清单中,针对所述文件层元数据、缓存层元数据、贴源层元数据,可以仅包括一套字段,当然,在所述入湖字段清单中,也可以分别包括所述文件层元数据、缓存层元数据、贴源层元数据,只是这些字段是完全相同的。
其中,元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(dataabout data),主要是描述数据属性(property)的信息。
需要说明的是,上述文件层、缓存层和贴源层是数据入湖的三个入湖工作节点,在数据入湖时,基于文件层元数据的字段从源***(数据源所在的***)采集数据,并存储在文件中,通过数据同步任务将文件中的数据同步到缓存层,通过数据加工任务将缓存层的数据进行加工后发送到贴源层,从而完成数据入湖。
本发明实施例中,可选地,所述数据加工任务可以采用全量拉链加工算法、增量拉链加工算法、增量加工算法或者全量加工算法,对数据进行加工。
本发明实施例中,可选地,所述入湖调研信息还包括:接入***的信息,表清单,码值清单,其中,所述表清单包括源表信息、目标表信息和加工表信息,所述接入***的信息包括源表配置信息,目标表配置信息和加工表配置信息。
其中,源表是指源***的表格,目标表和加工表是数据湖中的表格,数据的流向是从源表到目标表,然后从目标表到加工表。
上述源表、目标表和加工表的配置信息可以包括以下至少一项:文件的字段、字段类型、约束条件等。
码值清单是指源表的原始字段码值的订单。所谓码值,从业务***数据库设计的视角来看,为了提升性能常常会选用占用存储空间更少的字段进行数据存储,于是一些通常只有几个取值的状态值字段,如订单状态,就会使用单字节字段类型进行存储,此时,状态值会被映射为例如数字进行存储,如1代表创建,2代表交易成功等,这里的数字称为码,而其对应的值称为值。
本发明实施例中,可选地,所述待入湖业务数据的入湖流程的入湖信息还包括:文件层元数据、缓存层元数据,贴源层元数据、数据同步任务、数据加工任务。
本发明实施例中,可选地,对所述入湖调研信息文件进行解析,生成所述待入湖业务数据的入湖流程的入湖信息,包括:
对所述入湖调研信息文件进行解析,获得文件层元数据,缓存层元数据,贴源层元数据;
对所述入湖调研信息文件进行解析,获得所述数据处理任务的配置信息,根据所述数据处理任务的配置信息、所述缓存层元数据和所述贴源层元数据,生成多个数据处理任务;
对所述入湖调研信息文件进行解析,获得所述调度流程的配置信息,根据所述调度流程的配置信息和所述数据处理任务,生成所述调度流程,所述调度流程由所述多个所述数据处理任务组装而成。
其中,数据处理任务的配置信息例如包括数据处理任务的字段,数据处理任务对应的数据表等。
所述调度流程的配置信息例如包括调度流程对应的数据处理任务等。
本发明实施例中,可选地,对所述入湖调研信息文件进行解析,生成所述待入湖业务数据的入湖流程的入湖信息,包括:
步骤S21:判断是否存储有所述数据入湖任务对应的原始入湖信息;
即判断数据入湖***是否存储有所述数据入湖任务对应的原始入湖信息;
步骤S22:在已存储所述原始入湖信息,且存储的所述原始入湖信息与生成的所述入湖信息不一致的情况下,采用生成的所述入湖信息更新存储的所述原始入湖信息以及更新所述数据湖中存储的所述原始入湖信息;
需要说明的是,可选地,数据入湖***和数据湖中均存储待入湖业务数据的入湖信息,且两者存储的入湖信息相同,需要对入湖信息进行更新时,两者均需要更新。
步骤S23:在未存储所述原始入湖信息的情况下,存储所述入湖信息以及将所述入湖信息存储到所述数据湖中。
可选地,在已存储所述原始入湖信息,且与生成的所述入湖信息一致的情况下,可以不做任何操作。
当然,在其他一些实施例中,在已存储所述原始入湖信息的情况下,也可以直接采用生成的所述入湖信息更新存储的所述原始入湖信息,不用判断两者是否一致。
下面举例进行说明,请参考图2,对所述入湖调研信息文件进行解析,生成所述待入湖业务数据的入湖流程的入湖信息的步骤可以包括:
1)解析入湖调研信息文件中的缓存层元数据和贴源层元数据。如果数据湖中已存在该元数据,则可以对数据湖中的元数据进行更新(或者称为修改);如果***中不存在该元数据,则在数据湖中新增该元数据。
2)解析文件元数据,如果数据湖中已存在该文件元数据,则可以对数据湖中的文件元数据进行更新(或者称为修改);如果数据湖中不存在该文件元数据,则在数据湖中新增该文件元数据。
3)解析数据同步任务,如果数据湖中已存在该数据同步任务,则可以对数据湖中的数据同步任务进行更新(或者称为修改);如果数据湖中不存在该数据同步任务,则在数据湖中新增该数据同步任务。
4)解析数据加工任务,如果数据湖中已存在该数据加工任务,则可以对数据湖中的数据加工任务进行更新(或者称为修改);如果数据湖中不存在该数据加工任务,则在数据湖中新增该数据加工任务。
5)解析调度流程,如果数据湖中已存在该调度流程,则可以对数据湖中的调度流程进行更新(或者称为修改);如果数据湖中不存在该调度流程,则在数据湖中新增该调度流程。
本发明实施例中,可选地,对所述入湖调研信息文件进行解析,生成所述待入湖业务数据的入湖流程的入湖信息可以包括:根据入湖所需的配置信息,对所述入湖调研信息文件进行解析,生成所述待入湖业务数据的入湖流程的入湖信息。所述入湖所需的配置信息可以包括:任务的数据分层信息和调度流程的运行信息,其中任务的数据分层信息可以包括目标层数据和加工层数据,即目标层数据和加工层数据与源数据的绑定关系信息,所述调度流程的运行信息可以包括:运行用户、运行分组和调度流程租户。
本发明实施例中,可选地,所述数据处理任务包括数据同步任务和数据加工任务;根据所述调度流程,对所述待入湖业务数据执行所述多个数据处理任务,将所述待入湖业务数据写入到所述大数据平台的数据湖中,包括:
运行所述调度流程,基于文件层元数据的字段从源***采集数据,并存储在文件层中;
根据调度流程执行所述数据同步任务和所述数据加工任务,将所述待入湖业务数据写入到所述大数据平台的数据湖中;其中,所述数据同步任务用于将所述文件层中的数据同步到缓存层中,所述数据加工任务用于将所述缓存层的数据进行加工后发送到贴源层。
本发明实施例中,可选地,可以定时运行所述调度流程,也可以基于任务需求触发所述调度流程。
请参考图3,本发明实施例还提供一种大数据平台的数据入湖方法,包括:
步骤S1:接收用户的第一操作,创建数据入湖任务;
本发明实施例中,针对每个待入湖业务可以创建一个或多个数据入湖任务,所述数据入湖任务也可以称为入湖调研任务,用于对待入湖业务入湖所需的相关信息进行调研。
本发明实施例中,该用户界面例如图4所示,用户可以通过在该用户界面上点击“新增”按钮(即第一操作),在弹出的窗口中,输入用于创建数据入湖任务的相关信息,并点击“新增”按钮,以创建数据入湖任务。
所述用于创建数据入湖任务的相关信息可以包括以下至少一项:任务名称、调研***、***简称、任务描述、负责人、联系方式、备注。
服务器后台收到前端用户界面发送的新增数据入湖任务的请求后,根据用户输入的用于创建数据入湖任务的相关信息,创建数据入湖任务,并显示在如图4所示的用户界面中。
请参考图4,创建的数据入湖任务可以采用列表的方式显示在用户界面上,如图4中的5个数据入湖任务。
步骤S2:接收用户的第二操作,获取所述数据入湖任务的入湖调研信息文件,所述入湖调研信息文件中包括待入湖业务数据的入湖调研信息;
如图4所示,用户可以点击用户界面上的数据入湖任务的“操作”对应的上传文件小图标(即第二操作),在弹出的窗口中,上传该数据入湖任务对应的入湖调研信息文件。
本发明实施例中,可选地,所述入湖调研信息文件可以是Excel文件,当然,也不排除采用其他文件格式。
本发明实施例中,可以提供一入湖调研信息文件模板,所述入湖调研信息文件模板中可以包括需要用户填写的待入湖业务数据的入湖调研信息的填写项,用户在所述入湖调研信息文件模板中填写待入湖业务数据的入湖调研信息,从而生成入湖调研信息文件。
请参考图4,用户可以点击用户界面上的“入湖模板下载”,以将入湖调研信息文件模板下载到本地进行编辑。
本发明实施例中,也可以为用户提供用户界面,用户界面上可以包括为用户提供选项框或者填写框等,由用户在用户界面上完成待入湖业务数据的入湖调研信息的填写。
步骤S3:接收用户的第三操作,对所述入湖调研信息文件进行解析,生成所述待入湖业务数据的入湖流程的入湖信息,所述入湖流程的入湖信息包括调度流程和多个数据处理任务;
如图4所示,用户可以点击用户界面上的数据入湖任务的“操作”对应的自动化入湖小图标(即第三操作),在弹出的窗口中(图5),选择自动化入湖所需的配置信息,并点击确定按钮。
服务器后台收到前端用户界面发送的解析入湖调研信息文件的请求后,根据上述配置信息,对所述入湖调研信息文件进行解析,生成所述待入湖业务数据的入湖流程的入湖信息。
步骤S4:接收用户的第四操作,根据所述调度流程,对所述待入湖业务数据执行所述多个数据处理任务,将所述待入湖业务数据写入到所述大数据平台的数据湖中。
本发明实施例中,通过用户界面可以方便快捷地完成自动化入湖,解决了现有方案中手动入湖步骤繁琐,效率低且维护容易出错的问题。
本发明实施例中,可选地,所述入湖调研信息包括:入湖字段清单,所述入湖字段清单中包括以下至少一项:文件层元数据的字段,缓存层元数据的字段,贴源层元数据的字段,以及,数据处理任务的字段;所述数据处理任务包括数据同步任务和数据加工任务,其中,所述数据同步任务是用于将所述文件层的数据同步到所述缓存层的任务,所述数据加工任务是用于将所述缓存层的数据进行加工后发送到所述贴源层的任务,所述文件层元数据,缓存层元数据和贴源层元数据包括相同的字段。
可选地,文件层元数据、缓存层元数据、贴源层元数据,共用一套字段,在所述入湖字段清单中,针对所述文件层元数据、缓存层元数据、贴源层元数据,可以仅包括一套字段,当然,在所述入湖字段清单中,也可以分别包括所述文件层元数据、缓存层元数据、贴源层元数据,只是这些字段是完全相同的。
本发明实施例中,可选地,所述数据加工任务可以采用全量拉链加工算法、增量拉链加工算法、增量加工算法或者全量加工算法,对数据进行加工。
本发明实施例中,可选地,所述入湖调研信息还包括:接入***的信息,表清单,码值清单,其中,所述表清单包括源表信息、目标表信息和加工表信息,所述接入***的信息包括源表配置信息,目标表配置信息和加工表配置信息。
上述源表、目标表和加工表的配置信息可以包括以下至少一项:文件的字段、字段类型、约束条件等。
本发明实施例中,可选地,所述待入湖业务数据的入湖流程的入湖信息还包括:文件层元数据、缓存层元数据,贴源层元数据、数据同步任务、数据加工任务。
本发明实施例中,可选地,对所述入湖调研信息文件进行解析,生成所述待入湖业务数据的入湖流程的入湖信息,包括:
步骤S21:判断是否存储有所述数据入湖任务对应的原始入湖信息;
步骤S22:在已存储所述原始入湖信息,且存储的所述原始入湖信息与生成的所述入湖信息不一致的情况下,采用生成的所述入湖信息更新存储的所述原始入湖信息以及更新所述数据湖中存储的所述原始入湖信息;
步骤S23:在未存储所述原始入湖信息的情况下,存储所述入湖信息以及将所述入湖信息存储到所述数据湖中。
可选地,在已存储所述原始入湖信息,且与生成的所述入湖信息一致的情况下,可以不做任何操作。
当然,在其他一些实施例中,在已存储所述原始入湖信息的情况下,也可以直接采用生成的所述入湖信息更新存储的所述原始入湖信息,不用判断两者是否一致。
本发明实施例中,可选地,根据入湖所需的配置信息,对所述入湖调研信息文件进行解析,生成所述待入湖业务数据的入湖流程的入湖信息。所述入湖所需的配置信息可以包括:任务的数据分层信息和调度流程的运行信息,其中任务的数据分层信息可以包括目标层数据和加工层数据,即目标层数据和加工层数据与源数据的绑定关系信息,所述调度流程的运行信息可以包括:运行用户、运行分组和调度流程租户。
本发明实施例中,可选地,所述数据处理任务包括数据同步任务和数据加工任务;根据所述调度流程,对所述待入湖业务数据执行所述多个数据处理任务,将所述待入湖业务数据写入到所述大数据平台的数据湖中,包括:
运行所述调度流程,基于文件层元数据的字段从源***采集数据,并存储在文件层中;
根据调度流程执行所述数据同步任务和所述数据加工任务,将所述待入湖业务数据写入到所述大数据平台的数据湖中;其中,所述数据同步任务用于将所述文件层中的数据同步到缓存层中,所述数据加工任务用于将所述缓存层的数据进行加工后发送到贴源层。
本发明实施例中,可选地,可以定时运行所述调度流程,也可以基于任务需求触发所述调度流程。
请参考图6,本发明实施例还提供一种大数据平台的数据入湖***10,包括:
获取模块11,用于获取数据入湖任务的入湖调研信息文件,所述入湖调研信息文件中包括待入湖业务数据的入湖调研信息;
解析模块12,用于对所述入湖调研信息文件进行解析,生成所述待入湖业务数据的入湖流程的入湖信息,所述入湖流程的入湖信息包括调度流程和多个数据处理任务;
入湖模块,用于根据所述调度流程,对所述待入湖业务数据执行所述多个数据处理任务,将所述待入湖业务数据写入到所述大数据平台的数据湖中。
可选地,所述入湖调研信息包括入湖字段清单,所述入湖字段清单中包括以下至少一项:文件层元数据的字段,缓存层元数据的字段,贴源层元数据的字段,以及,数据处理任务的字段;所述数据处理任务包括数据同步任务和数据加工任务,所述数据同步任务是用于将所述文件层的数据同步到所述缓存层的任务,所述数据加工任务是用于将所述缓存层的数据进行加工后发送到所述贴源层的任务,所述文件层元数据,缓存层元数据和贴源层元数据包括相同的字段。
可选地,所述入湖调研信息还包括:接入***的信息,表清单,码值清单,其中,所述表清单包括源表信息、目标表信息和加工表信息,所述接入***的信息包括源表配置信息,目标表配置信息和加工表配置信息。
可选地,所述待入湖业务数据的入湖流程的入湖信息还包括:文件层元数据、缓存层元数据,贴源层元数据、数据同步任务和数据加工任务。
可选地,所述解析模块12,用于对所述入湖调研信息文件进行解析,获得文件层元数据,缓存层元数据,贴源层元数据;对所述入湖调研信息文件进行解析,获得所述数据处理任务的配置信息,根据所述数据处理任务的配置信息、所述缓存层元数据和所述贴源层元数据,生成多个数据处理任务;对所述入湖调研信息文件进行解析,获得所述调度流程的配置信息,根据所述调度流程的配置信息和所述数据处理任务,生成所述调度流程,所述调度流程由所述多个所述数据处理任务组装而成。
可选地,所述解析模块12,用于判断是否存储有所述数据入湖任务对应的原始入湖信息;在已存储所述原始入湖信息,且存储的所述原始入湖信息与生成的所述入湖信息不一致的情况下,采用生成的所述入湖信息更新存储的所述原始入湖信息以及更新所述数据湖中存储的所述原始入湖信息;在未存储所述原始入湖信息的情况下,存储所述入湖信息以及将所述入湖信息存储到所述数据湖中。
可选地,所述数据处理任务包括数据同步任务和数据加工任务;根据所述调度流程,所述入湖模块,用于运行所述调度流程,基于文件层元数据的字段从源***采集数据,并存储在文件层中;根据调度流程执行所述数据同步任务和所述数据加工任务,将所述待入湖业务数据写入到所述大数据平台的数据湖中;其中,所述数据同步任务用于将所述文件层中的数据同步到缓存层中,所述数据加工任务用于将所述缓存层的数据进行加工后发送到贴源层。
请参考图7,本发明实施例还提供一种大数据平台的数据入湖***20,包括:
任务创建模块21,用于接收用户的第一操作,创建数据入湖任务;
文件上传模块22,用于接收用户的第二操作,获取所述数据入湖任务的入湖调研信息文件,所述入湖调研信息文件中包括待入湖业务数据的入湖调研信息;
解析模块23,用于接收用户的第三操作,对所述入湖调研信息文件进行解析,生成所述待入湖业务数据的入湖流程的入湖信息,所述入湖流程的入湖信息包括调度流程和多个数据处理任务;
入湖模块,用于接收用户的第四操作,根据所述调度流程,对所述待入湖业务数据执行所述多个数据处理任务,将所述待入湖业务数据写入到所述大数据平台的数据湖中。
可选地,所述入湖调研信息包括入湖字段清单,所述入湖字段清单中包括以下至少一项:文件层元数据的字段,缓存层元数据的字段,贴源层元数据的字段,以及,数据处理任务的字段;所述数据处理任务包括数据同步任务和数据加工任务,所述数据同步任务是用于将所述文件层的数据同步到所述缓存层的任务,所述数据加工任务是用于将所述缓存层的数据进行加工后发送到所述贴源层的任务,所述文件层元数据,缓存层元数据和贴源层元数据包括相同的字段。
可选地,所述入湖调研信息还包括:接入***的信息,表清单,码值清单,其中,所述表清单包括源表信息、目标表信息和加工表信息,所述接入***的信息包括源表配置信息,目标表配置信息和加工表配置信息。
可选地,所述入湖流程的入湖信息还包括:文件层元数据、缓存层元数据,贴源层元数据、数据同步任务和数据加工任务。
可选地,所述解析模块23,用于对所述入湖调研信息文件进行解析,获得文件层元数据,缓存层元数据,贴源层元数据;对所述入湖调研信息文件进行解析,获得所述数据处理任务的配置信息,根据所述数据处理任务的配置信息、所述缓存层元数据和所述贴源层元数据,生成多个数据处理任务;对所述入湖调研信息文件进行解析,获得所述调度流程的配置信息,根据所述调度流程的配置信息和所述数据处理任务,生成所述调度流程,所述调度流程由所述多个所述数据处理任务组装而成。
可选地,所述解析模块23,用于判断是否存储有所述数据入湖任务对应的原始入湖信息;在已存储所述原始入湖信息,且存储的所述原始入湖信息与生成的所述入湖信息不一致的情况下,采用生成的所述入湖信息更新存储的所述原始入湖信息以及更新所述数据湖中存储的所述原始入湖信息;在未存储所述原始入湖信息的情况下,存储所述入湖信息以及将所述入湖信息存储到所述数据湖中。
可选地,所述入湖模块24,用于运行所述调度流程,基于文件层元数据的字段从源***采集数据,并存储在文件层中;
根据调度流程执行所述数据同步任务和所述数据加工任务,将所述待入湖业务数据写入到所述大数据平台的数据湖中;其中,所述数据同步任务用于将所述文件层中的数据同步到缓存层中,所述数据加工任务用于将所述缓存层的数据进行加工后发送到贴源层。
请参考图8,本发明实施例还提供一种服务器30,包括处理器31,存储器32,存储在存储器32上并可在所述处理器31上运行的计算机程序,该计算机程序被处理器31执行时实现上述大数据平台的数据入湖方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述大数据平台的数据入湖方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (10)

1.一种大数据平台的数据入湖方法,其特征在于,包括:
获取数据入湖任务的入湖调研信息文件,所述入湖调研信息文件中包括待入湖业务数据的入湖调研信息;
对所述入湖调研信息文件进行解析,生成所述待入湖业务数据的入湖流程的入湖信息,所述入湖流程的入湖信息包括调度流程和多个数据处理任务;
根据所述调度流程,对所述待入湖业务数据执行所述多个数据处理任务,将所述待入湖业务数据写入到所述大数据平台的数据湖中。
2.根据权利要求1所述的方法,其特征在于,所述入湖调研信息包括入湖字段清单,所述入湖字段清单中包括以下至少一项:文件层元数据的字段,缓存层元数据的字段,贴源层元数据的字段,以及,数据处理任务的字段;所述数据处理任务包括数据同步任务和数据加工任务,所述数据同步任务是用于将所述文件层的数据同步到所述缓存层的任务,所述数据加工任务是用于将所述缓存层的数据进行加工后发送到所述贴源层的任务,所述文件层元数据,缓存层元数据和贴源层元数据包括相同的字段。
3.根据权利要求1或2所述的方法,其特征在于,所述入湖流程的入湖信息还包括:文件层元数据、缓存层元数据,贴源层元数据、数据同步任务和数据加工任务。
4.根据权利要求3所述的方法,其特征在于,对所述入湖调研信息文件进行解析,生成所述待入湖业务数据的入湖流程的入湖信息,包括:
对所述入湖调研信息文件进行解析,获得文件层元数据,缓存层元数据,贴源层元数据;
对所述入湖调研信息文件进行解析,获得所述数据处理任务的配置信息,根据所述数据处理任务的配置信息、所述缓存层元数据和所述贴源层元数据,生成多个数据处理任务;
对所述入湖调研信息文件进行解析,获得所述调度流程的配置信息,根据所述调度流程的配置信息和所述数据处理任务,生成所述调度流程,所述调度流程由所述多个所述数据处理任务组装而成。
5.根据权利要求1所述的方法,其特征在于,对所述入湖调研信息文件进行解析,生成所述待入湖业务数据的入湖流程的入湖信息,包括:
判断是否存储有所述数据入湖任务对应的原始入湖信息;
在已存储所述原始入湖信息,且存储的所述原始入湖信息与生成的所述入湖信息不一致的情况下,采用生成的所述入湖信息更新存储的所述原始入湖信息以及更新所述数据湖中存储的所述原始入湖信息;
在未存储所述原始入湖信息的情况下,存储所述入湖信息以及将所述入湖信息存储到所述数据湖中。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述数据处理任务包括数据同步任务和数据加工任务;根据所述调度流程,对所述待入湖业务数据执行所述多个数据处理任务,将所述待入湖业务数据写入到所述大数据平台的数据湖中,包括:
运行所述调度流程,基于文件层元数据的字段从源***采集数据,并存储在文件层中;
根据调度流程执行所述数据同步任务和所述数据加工任务,将所述待入湖业务数据写入到所述大数据平台的数据湖中;其中,所述数据同步任务用于将所述文件层中的数据同步到缓存层中,所述数据加工任务用于将所述缓存层的数据进行加工后发送到贴源层。
7.一种大数据平台的数据入湖方法,其特征在于,包括:
接收用户的第一操作,创建数据入湖任务;
接收用户的第二操作,获取所述数据入湖任务的入湖调研信息文件,所述入湖调研信息文件中包括待入湖业务数据的入湖调研信息;
接收用户的第三操作,对所述入湖调研信息文件进行解析,生成所述待入湖业务数据的入湖流程的入湖信息,所述入湖流程的入湖信息包括调度流程和多个数据处理任务;
接收用户的第四操作,根据所述调度流程,对所述待入湖业务数据执行所述多个数据处理任务,将所述待入湖业务数据写入到所述大数据平台的数据湖中。
8.一种大数据平台的数据入湖***,其特征在于,包括:
获取模块,用于获取数据入湖任务的入湖调研信息文件,所述入湖调研信息文件中包括待入湖业务数据的入湖调研信息;
解析模块,用于对所述入湖调研信息文件进行解析,生成所述待入湖业务数据的入湖流程的入湖信息,所述入湖流程的入湖信息包括调度流程和多个数据处理任务;
入湖模块,用于根据所述调度流程,对所述待入湖业务数据执行所述多个数据处理任务,将所述待入湖业务数据写入到所述大数据平台的数据湖中。
9.一种大数据平台的数据入湖***,其特征在于,包括:
任务创建模块,用于接收用户的第一操作,创建数据入湖任务;
文件上传模块,用于接收用户的第二操作,获取所述数据入湖任务的入湖调研信息文件,所述入湖调研信息文件中包括待入湖业务数据的入湖调研信息;
解析模块,用于接收用户的第三操作,对所述入湖调研信息文件进行解析,生成所述待入湖业务数据的入湖流程的入湖信息,所述入湖流程的入湖信息包括调度流程和多个数据处理任务;
入湖模块,用于接收用户的第四操作,根据所述调度流程,对所述待入湖业务数据执行所述多个数据处理任务,将所述待入湖业务数据写入到所述大数据平台的数据湖中。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的大数据平台的数据入湖方法的步骤;或者,所述计算机程序被处理器执行时实现如权利要求7所述的大数据平台的数据入湖方法的步骤。
CN202311755245.0A 2023-12-19 2023-12-19 大数据平台的数据入湖方法及*** Pending CN117762865A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311755245.0A CN117762865A (zh) 2023-12-19 2023-12-19 大数据平台的数据入湖方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311755245.0A CN117762865A (zh) 2023-12-19 2023-12-19 大数据平台的数据入湖方法及***

Publications (1)

Publication Number Publication Date
CN117762865A true CN117762865A (zh) 2024-03-26

Family

ID=90319306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311755245.0A Pending CN117762865A (zh) 2023-12-19 2023-12-19 大数据平台的数据入湖方法及***

Country Status (1)

Country Link
CN (1) CN117762865A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118093729A (zh) * 2024-04-28 2024-05-28 浙江锦智人工智能科技有限公司 一种物联网数据湖的流批一体方法、设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118093729A (zh) * 2024-04-28 2024-05-28 浙江锦智人工智能科技有限公司 一种物联网数据湖的流批一体方法、设备及介质

Similar Documents

Publication Publication Date Title
US8346803B2 (en) Dynamic generation of target files from template files and tracking of the processing of target files
CN110807067B (zh) 关系型数据库和数据仓库的数据同步方法、装置及设备
CN102741844B (zh) 自动的上下文发现
US7904418B2 (en) On-demand incremental update of data structures using edit list
US9256583B2 (en) Conversion of a presentation to Darwin Information Typing Architecture (DITA)
US11093242B2 (en) Automatically mapping data while designing process flows
US10782961B2 (en) Analyzing components related to a software application in a software development environment
US8326889B2 (en) Systems and methods for generating customizing documentation
CN110275861B (zh) 数据存储方法及装置、存储介质、电子装置
US20200174917A1 (en) Rapid Automation First-pass Testing Framework
US20200319995A1 (en) Customizable Enterprise Automation Test Framework
CN117008923B (zh) 基于ai大模型的代码生成和编译部署方法、平台和设备
CN117762865A (zh) 大数据平台的数据入湖方法及***
CN103744680A (zh) 一种业务流程处理方法及装置
US11556702B2 (en) Orchestration of crud operations for a hierarchical web service data model in a spreadsheet
CN114780109B (zh) Python项目第三方库依赖自动化解析与安装方法
CN106484488B (zh) 一体化云编译方法和***
US10552524B1 (en) Systems and methods for in-line document tagging and object based data synchronization
CN117493333A (zh) 数据归档方法、装置、电子设备及存储介质
US20140129965A1 (en) Guided activity with user's defined steps
US20210165726A1 (en) Transferring data from a source complex variable to a target complex variable
CN112256365B (zh) 一种自动化管理多语言版本的方法及终端
CN114519071A (zh) 规则匹配模型的生成方法、匹配方法、***、设备和介质
CN112307400A (zh) 一种一键生成后台管理***web项目的方法及***
US20130031116A1 (en) Modeled business object data import

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination