CN114610803A - 一种数据处理方法、装置、电子设备和存储介质 - Google Patents
一种数据处理方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114610803A CN114610803A CN202210158830.1A CN202210158830A CN114610803A CN 114610803 A CN114610803 A CN 114610803A CN 202210158830 A CN202210158830 A CN 202210158830A CN 114610803 A CN114610803 A CN 114610803A
- Authority
- CN
- China
- Prior art keywords
- data
- information
- interface
- configuration
- data processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44505—Configuring for program initiating, e.g. using registry, configuration files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种数据处理方法、装置、电子设备和存储介质,所述方法包括:获取针对业务数据的数据格式信息;将所述数据格式信息输入预先配置的数据处理工具中进行处理,得到针对所述业务数据的作业配置模板;根据所述作业配置模板,导出大数据ETL作业配置文件;所述大数据ETL作业配置文件用于配置针对所述业务数据的ETL作业操作。本发明实施例可以在无需编写代码,只需将整理好的数据格式信息输入预先配置好的数据处理工具的情况下,完成大数据ETL作业的开发工作,降低直接开发大数据ETL作业的技术难度。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种数据处理方法、一种数据处理装置、一种电子设备和一种计算机可读存储介质。
背景技术
Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架。由于Hadoop生态圈的技术的更新迭代速度较快,目前还没有支持Hive、Spark、MR等计算引擎的数据ETL(Extract-Transform-Load,抽取-转换-加载)作业自动化生产工具。另外,由于基于大数据的加工处理逻辑和优化策略等与传统的ETL工具存在很大的差别,使得基于TD(Test Director,测试管理)、DS(Data Stage,数据集成)等的开发工具在Hadoop生态圈很难进行应用,导致直接开发大数据作业的技术难度较大。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种数据处理方法、一种数据处理装置、一种电子设备和一种计算机可读存储介质。
为了解决上述问题,本发明实施例公开了一种数据处理方法,所述方法包括:
获取针对业务数据的数据格式信息;
将所述数据格式信息输入预先配置的数据处理工具中进行处理,得到针对所述业务数据的作业配置模板;
根据所述作业配置模板,导出大数据ETL作业配置文件;所述大数据ETL作业配置文件用于配置针对所述业务数据的ETL作业操作。
可选地,所述数据格式信息包括数据接口信息;所述将所述数据格式信息输入预先配置的数据处理工具中进行处理,得到针对所述业务数据的作业配置模板,包括:
将所述数据接口信息输入预先配置的数据处理工具,由所述数据处理工具对所述数据接口信息进行配置,得到数据接口配置信息;所述数据接口配置信息为用于从所述业务数据中选择多张数据表进行组合,或选择多个分区和/或分桶字段进行组合的配置信息。
可选地,所述数据格式信息还包括接口列表信息;所述将所述数据格式信息输入预先配置的数据处理工具中进行处理,得到针对所述业务数据的作业配置模板,还包括:
将所述接口列表信息输入所述数据处理工具,由所述数据处理工具对所述接口列表信息进行配置,得到接口列表配置信息;所述接口列表配置信息为用于对所述业务数据进行数据权限控制,或过滤所述业务数据中的无效数据的配置信息。
可选地,所述接口列表信息包括用于配置接口的信息;所述数据处理工具包括贴源层配置模块;所述将所述接口列表信息输入所述数据处理工具,由所述数据处理工具对所述接口列表信息进行配置,得到可用接口列表配置信息,包括:
将用于配置接口的信息导入贴源层配置模块,由所述贴源层配置模块接口导出贴源层配置信息;所述贴源层配置信息包括针对外表进行数据加载的配置信息、针对内表进行数据加工的配置信息、数据质量管理配置信息、数据获取配置信息、接口导出配置信息中的至少一种。
可选地,所述接口列表信息包括用于配置数据模型的信息;所述数据处理工具包括共性加工层配置模块;所述将所述接口列表信息输入所述数据处理工具,由所述数据处理工具对所述接口列表信息进行配置,得到可用接口列表配置信息,还包括:
将用于配置数据模型的信息导入共性加工层配置模块,由所述共性加工层配置模块接口导出共性加工层配置信息;所述共性加工层配置信息包括数据共性加工配置信息和接口结构配置信息中的至少一种。
可选地,所述接口列表信息包括用于接口订阅的信息;所述数据处理工具包括接口订阅管理配置模块;所述将所述接口列表信息输入所述数据处理工具,由所述数据处理工具对所述接口列表信息进行配置,得到可用接口列表配置信息,还包括:
将用于接口订阅的信息导入接口订阅管理配置模块,由所述接口订阅管理配置模块导出接口订阅管理配置信息;所述接口订阅管理配置信息包括数据卸载配置信息和数据分发配置信息中的至少一种。
可选地,在所述将所述数据格式信息输入预先配置的数据处理工具中进行处理,得到目标作业配置模板的步骤之前,还包括:
根据预先定义的校验逻辑,对所述数据格式信息中用于进行配置的信息进行校验;
若所述用于进行配置的信息不符合所述校验逻辑,则发出校验失败的提示信息;
若所述用于进行配置的信息符合校验逻辑,则进行将所述数据格式信息输入预先配置的数据处理工具中进行处理,得到目标作业配置模板的步骤。
本发明实施例还公开了一种数据处理装置,所述装置包括:
信息获取模块,用于获取针对业务数据的数据格式信息;
数据处理模块,用于将所述数据格式信息输入预先配置的数据处理工具中进行处理,得到针对所述业务数据的作业配置模板;
导出模块,用于根据所述作业配置模板,导出大数据ETL作业配置文件;所述大数据ETL作业配置文件用于配置针对所述业务数据的ETL作业操作。
可选地,所述数据格式信息包括数据接口信息;所述数据处理模块包括:
数据接口配置子模块,用于将所述数据接口信息输入预先配置的数据处理工具,由所述数据处理工具对所述数据接口信息进行配置,得到数据接口配置信息;所述数据接口配置信息为用于从所述业务数据中选择多张数据表进行组合,或选择多个分区和/或分桶字段进行组合的配置信息。
可选地,所述数据格式信息还包括接口列表信息;所述数据处理模块还包括:
接口列表配置子模块,用于将所述接口列表信息输入所述数据处理工具,由所述数据处理工具对所述接口列表信息进行配置,得到接口列表配置信息;所述接口列表配置信息为用于对所述业务数据进行数据权限控制,或过滤所述业务数据中的无效数据的配置信息。
可选地,所述接口列表信息包括用于配置接口的信息;所述数据处理工具包括贴源层配置模块;所述接口列表配置子模块包括:
配置接口信息导入单元,用于将用于配置接口的信息导入贴源层配置模块,由所述贴源层配置模块接口导出贴源层配置信息;所述贴源层配置信息包括针对外表进行数据加载的配置信息、针对内表进行数据加工的配置信息、数据质量管理配置信息、数据获取配置信息、接口导出配置信息中的至少一种。
可选地,所述接口列表信息包括用于配置数据模型的信息;所述数据处理工具包括共性加工层配置模块;所述接口列表配置子模块还包括:
配置数据模型信息导入单元,用于将用于配置数据模型的信息导入共性加工层配置模块,由所述共性加工层配置模块接口导出共性加工层配置信息;所述共性加工层配置信息包括数据共性加工配置信息和接口结构配置信息中的至少一种。
可选地,所述接口列表信息包括用于接口订阅的信息;所述数据处理工具包括接口订阅管理配置模块;所述接口列表配置子模块还包括:
接口订阅信息导入单元,用于将用于接口订阅的信息导入接口订阅管理配置模块,由所述接口订阅管理配置模块导出接口订阅管理配置信息;所述接口订阅管理配置信息包括数据卸载配置信息和数据分发配置信息中的至少一种。
可选地,所述装置还包括:
校验模块,用于根据预先定义的校验逻辑,对所述数据格式信息中用于进行配置的信息进行校验;
校验失败模块,用于若所述用于进行配置的信息不符合所述校验逻辑,则发出校验失败的提示信息;
校验成功模块,用于若所述用于进行配置的信息符合校验逻辑,则进行将所述数据格式信息输入预先配置的数据处理工具中进行处理,得到目标作业配置模板的步骤。
本发明实施例还公开了一种电子设备,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的数据处理方法的步骤。
本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的数据处理方法的步骤。
本发明实施例包括以下优点:
通过获取针对业务数据的数据格式信息,将数据格式信息输入预先配置的数据处理工具中进行处理,并根据得到的针对业务数据的作业配置模板,导出用于配置针对业务数据的ETL作业操作的大数据ETL作业配置文件,从而可以在无需编写代码,只需将整理好的数据格式信息输入预先配置好的数据处理工具的情况下,完成大数据ETL作业的开发工作,降低直接开发大数据ETL作业的技术难度。
附图说明
图1是本发明实施例提供的一种数据处理方法的步骤流程图;
图2是本发明实施例提供的另一种数据处理方法的步骤流程图;
图3是本发明实施例提供的一种数据处理工具功能架构示意图;
图4是本发明实施例提供的一种采用数据处理工具进行流程管理的流程示意图;
图5是本发明实施例提供的一种数据处理装置的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
基于大数据的加工处理逻辑和优化策略与传统的ETL工具存在很大的差别,使得基于TD,DS等的开发工具较难得到应用,ETL作业开发较为繁琐,导致直接开发大数据作业的技术难度较大。
本发明实施例的核心构思在于,通过获取针对业务数据的数据格式信息,将数据格式信息输入预先配置的数据处理工具中进行处理,并根据得到的针对业务数据的作业配置模板,导出用于配置针对业务数据的ETL作业操作的大数据ETL作业配置文件,从而可以在无需编写代码,只需将整理好的数据格式信息输入预先配置好的数据处理工具的情况下,完成大数据ETL作业的开发工作,降低直接开发大数据ETL作业的技术难度。
参照图1,示出了本发明实施例提供的一种数据处理方法的步骤流程图,所述方法具体可以包括如下步骤:
步骤101,获取针对业务数据的数据格式信息。
数据格式信息可以为用于描述数据保存在文件或记录中的规则的信息。数据格式可以为字符形式的文本格式,也可以为二进制数据形式的压缩格式。可以将针对业务数据整理的数据格式信息记录在接口excel表中。在进行大数据作业开发之前,分析人员可以整理业务数据的数据格式,服务器可以获取到针对业务数据进行整理的数据格式信息。
步骤102,将所述数据格式信息输入预先配置的数据处理工具中进行处理,得到针对所述业务数据的作业配置模板。
在获取到针对业务数据的数据格式信息之后,可以将数据格式信息录入预先配置的数据处理工具中,由数据处理工具根据数据格式信息进行配置,得到针对业务数据的大数据作业配置模板。
步骤103,根据所述作业配置模板,导出大数据ETL作业配置文件;所述大数据ETL作业配置文件用于配置针对所述业务数据的ETL作业操作。
配置文件是一种计算机文件,可以为计算机程序配置参数和初始设置。配置文件可以由注释内容和配置项内容两部分组成,注释内容可以用于解释必要内容,在示例文件中可以由#来单行注释表示;配置项内容可以为键值对的记录,可以以key/value的形式进行记录保存。
在本发明实施例中,可以基于从数据处理工具中得到的作业配置模板,导出对应的用于配置数据导入、数据清洗、数据同步、数据加工、数据分发等针对业务数据的ETL作业操作的大数据ETL作业配置文件,从而完成相应大数据ETL作业的开发工作。
在本发明实施例中,通过获取针对业务数据的数据格式信息,将数据格式信息输入预先配置的数据处理工具中进行处理,并根据得到的针对业务数据的作业配置模板,导出用于配置针对业务数据的ETL作业操作的大数据ETL作业配置文件,从而可以在无需编写代码,只需将整理好的数据格式信息输入预先配置好的数据处理工具的情况下,完成大数据ETL作业的开发工作,降低直接开发大数据ETL作业的技术难度。
参照图2,示出了本发明实施例提供的另一种数据处理方法的步骤流程图,所述方法具体可以包括如下步骤:
步骤201,获取针对业务数据的数据格式信息。
步骤202,根据预先定义的校验逻辑,对所述数据格式信息中用于进行配置的信息进行校验。
用于进行配置的信息可以为ETL配置信息。具体的,服务器可以根据预先定义的校验逻辑,进行接口字段正确性校验、接口字段类型校验、主键信息校验、大小表关联校验、循环依赖校验等自动化校验,从而完成对ETL配置信息的自动化校验工作。
步骤203,若所述用于进行配置的信息不符合所述校验逻辑,则发出校验失败的提示信息。
校验失败的提示信息可以为校验失败的原因。在本发明实施例中,如果用于进行配置的信息没有通过根据校验逻辑进行的校验工作,可以发出校验失败的原因的提示。
步骤204,若所述用于进行配置的信息符合校验逻辑,则进行将所述数据格式信息输入预先配置的数据处理工具中进行处理,得到目标作业配置模板的步骤。
在本发明实施例中,如果用于进行配置的信息通过了根据校验逻辑进行的校验工作,可以进行将数据格式信息输入预先配置的数据处理工具中进行处理,得到目标作业配置模板的步骤。
步骤205,将所述数据格式信息输入预先配置的数据处理工具中进行处理,得到针对所述业务数据的作业配置模板。
可以将通过校验工作的针对业务数据整理的数据格式信息记录在接口excel表中,并将接口excel表输入预先配置的数据处理工具中进行处理,得到针对业务数据的作业配置模板。
在一个可选的实施例中,所述数据格式信息包括数据接口信息;所述步骤205包括以下子步骤S11:
子步骤S11,将所述数据接口信息输入预先配置的数据处理工具,由所述数据处理工具对所述数据接口信息进行配置,得到数据接口配置信息;所述数据接口配置信息为用于从所述业务数据中选择多张数据表进行组合,或选择多个分区和/或分桶字段进行组合的配置信息。
数据接口信息可以为每项接口的详细信息,可以包括字段名称信息、字段类型信息、字段大小信息中的至少一种。可以将每项接口的详细信息输入预先配置的数据处理工具中,由数据处理工具对数据接口信息进行配置,得到用于从业务数据中选择多张数据表进行组合的配置信息,或者得到用于从业务数据中选择多个分区和/或分桶字段进行组合的配置信息。
在一个示例中,分区字段可以选择业务时间分区。与根据时间字段进行分区相比,分区字段选择业务时间分区可以使得数据分布相对均匀,减少数据倾斜问题出现的概率。在选择分区字段时,还可以考虑数据的分布特点,当按照业务字段A进行分区时,拉链表中开始日期为分区字段,开始日期可以为当天数据传过来的日期,但在贴源层表上线投产时存在巨大的历史存量,因此导致业务字段A的分布绝对倾斜。例如,字段A一共有1000个不同的数值,但是50%的值都是0,假如按照字段A进行分区,则对应的分区占了全表50%的数据,从而导致SQL业务的低效。因此可以对分区字段作处理,把历史存量数据打散在历史日期中,从而保证各个区之间数据量大致均衡,避免出现大部分分区没有数据或者数据非常少的情况。
在一个示例中,可以在保证分区里面没有过多冷热数据混合的情况下,根据业务特点对分区个数进行配置。例如,SQL业务可以是操作2~3个月的数,则可以按照3个月做一个分区。
分区字段可以选择范围分区,例如日分区、月分区、年分区。可以根据数据量的大小选择分区范围。若追加数据的数据量比较大,可以进行分区,并将数据打散到各个分区中。在选择好分区字段后,可以根据数据量的大小确定分区个数的可选择区间,可以配置分区个数在几十以内。
在一个示例中,可以在主键中选取分桶字段,可以选择客户号、ID、身份证号、账户、流水号等离散度高的字段做分桶字段,避免选择地址类型、黑名单类型等离散度低的字段做分桶字段导致出现数据倾斜的问题。
在一个示例中,可以根据表的数据类型对分桶个数进行配置,可以计算近三年的分桶数。具体的,可以配置全量数据分桶数=全量数据量/200M,可以配置增量数据分桶数=(全量数据量+增量数据量*365*3)/200M,可以配置追加数据分桶数=追加数据量*365*3/200M。针对不同的存储类型,可以配置不同的分桶个数,示例性地,对于普通ORC表单分桶大小可以设置在200M以内,对于ORC事务表,可以设置在100M以内,记录条数可以限制在几百万条以内。
在对分桶个数进行配置时,可以考虑是否已经分过区。对于已经分过区的表,可以按照单区的大小和条数估计桶数,例如,当数据表进行分区分桶后,分桶数量过大,导致每个桶的文件大小仅为几十K时,容易导致单个Task的执行效率很低,总体任务数过大导致浪费***资源的问题。可以根据实际情况,降低原桶数的数量级。
在一个示例中,可以对substr函数、left函数、right函数等进行优化。示例性地,M_CM_INST_LDAP_ORG_NUM_NMA是按照DC_START_DATE进行的分区,查询2017年01月数据时,使用的原语句如下:
select count(*)from A a from M_CM_INST_LDAP_ORG_NUM_NMA where substr(DC_START_DATE,1,6)=‘201701’;
采用原语句容易导致对数据库全表扫描时,不能用到分区信息。
进行优化后可以修改如下:
select count(*)from M_CM_INST_LDAP_ORG_NUM_NMA where DC_START_DATE>=‘20170101’and DC_START_DATE<=‘20170131’;
在对字符串截取时,如果用到了left(column,2)或者right(column,2),可能会出现空指针,可以采用substr代替,substr(column,0,2)或者right(column,length(column)-2,2)。
通过以上分区字段的选择、分区个数的配置、分桶字段的选择、分桶个数的配置以及substr函数、left函数、right函数等函数优化,可以根据Hadoop各技术组件的特性,进行分区、分桶的优化,从而降低直接开发大数据作业的技术难度。
在一个可选的实施例中,所述数据格式信息还包括接口列表信息;所述步骤205还包括以下子步骤S12:
子步骤S12,将所述接口列表信息输入所述数据处理工具,由所述数据处理工具对所述接口列表信息进行配置,得到接口列表配置信息;所述接口列表配置信息为用于对所述业务数据进行数据权限控制,或过滤所述业务数据中的无效数据的配置信息。
接口列表信息可以包括目标***信息、目标接口信息、传输信息、调度信息、数据源信息、数据清洗配置信息、预估数据量信息中的至少一种。可以由预先配置的数据处理工具根据接口列表信息进行配置,得到用于对业务数据进行权限控制的配置信息,或者得到用于过滤业务数据中的无效数据的配置信息。
在一个可选的实施例中,所述接口列表信息包括用于配置接口的信息;所述数据处理工具包括贴源层配置模块;所述子步骤S12包括:将用于配置接口的信息导入贴源层配置模块,由所述贴源层配置模块接口导出贴源层配置信息;所述贴源层配置信息包括针对外表进行数据加载的配置信息、针对内表进行数据加工的配置信息、数据质量管理配置信息、数据获取配置信息、接口导出配置信息中的至少一种。
在一个可选的实施例中,所述接口列表信息包括用于配置数据模型的信息;所述数据处理工具包括共性加工层配置模块;所述子步骤S12还包括:将用于配置数据模型的信息导入共性加工层配置模块,由所述共性加工层配置模块接口导出共性加工层配置信息;所述共性加工层配置信息包括数据共性加工配置信息和接口结构配置信息中的至少一种。
在一个可选的实施例中,所述接口列表信息包括用于接口订阅的信息;所述数据处理工具包括接口订阅管理配置模块;所述子步骤S12还包括:将用于接口订阅的信息导入接口订阅管理配置模块,由所述接口订阅管理配置模块导出接口订阅管理配置信息;所述接口订阅管理配置信息包括数据卸载配置信息和数据分发配置信息中的至少一种。
参照图3所示,为本发明实施例提供的一种数据处理工具功能架构示意图。如图所示,数据处理工具可以包括贴源层配置模块、共性加工层配置模块和接口订阅管理配置模块。
贴源层配置模块可以包括接口管理子模块、接口展示子模块和接口导出子模块。接口管理子模块可以包括文件校验(EXCEL接口)单元和文件导入(EXCEL接口)单元。接口展示子模块可以包括接口查询单元和接口统计单元。接口导出子模块可以包括数据加载(外表)单元、数据加工(内表)单元、CPS(Cyber-Physical Systems,信息物理***)信号单元、MOIA作业单元、数据质量管理单元、数据获取(FTP,File Transfer Protocol,文件传输协议/HDFS,Hadoop Distributed File System,分布式文件***)单元、接口导出(EXCEL)单元和数据采集单元。将用于配置接口的信息导入贴源层配置模块后,可以由贴源层配置模块接口导出针对外表进行数据加载的配置信息、针对内表进行数据加工的配置信息、数据质量管理配置信息、数据获取配置信息、接口导出配置信息中的至少一种。
共性加工层配置模块可以包括接口管理子模块、接口展示子模块、接口导出子模块。接口管理子模块可以包括文件校验(EXCEL接口)单元和文件导入(EXCEL接口)单元。接口展示子模块可以包括接口查询单元和接口统计单元。接口导出子模块可以包括数据加工单元、CPS信号单元、MOIA作业单元、接口结构(EXCEL)单元和数据采集单元。将用于配置数据模型的信息导入共性加工层配置模块后,可以由共性加工层配置模块接口导出数据共性加工配置信息和接口结构配置信息中的至少一种。
接口订阅管理配置模块可以包括订阅主题子模块、接口展示子模块和订阅导出子模块。订阅主题子模块可以包括接口订阅(共性加工层)单元和接口订阅(贴源层)单元。接口展示子模块可以包括接口查询单元和个性定制单元。订阅导出单元可以包括数据卸载(HDFS)单元、数据分发(FTP/HDFS)单元、CPS信号单元、MOIA作业单元、接口结构(EXCEL)单元和数据采集单元。将用于接口订阅的信息导入接口订阅管理配置模块后,可以由接口订阅管理配置模块导出数据卸载配置信息和数据分发配置信息中的至少一种。
通过配置接口查询单元,可以进行对工具内维护的各项数据及接口的版本信息、数据表结构、接口表以及字段详细信息等查询操作。
根据以上对数据处理工具设计的功能架构,将记录了数据格式信息的接口EXCEL表输入数据处理工具后,可以产出Inceptor SQL、Spark SQL、Spark JOB、MOIA JOB等大数据作业,从而可以通过预先配置的数据处理工具实现自动化创建、自动化校验、调度管理、流程管理等功能。数据处理工具针对统一调度工具MOIA,可以将工具内配置的如前置校验、作业依赖等作业执行信息,自动化生成对应的MOIA配置文件,从而实现直接导入MOIA以完成调度工具的配置工作。
步骤206,根据所述作业配置模板,导出大数据ETL作业配置文件;所述大数据ETL作业配置文件用于配置针对所述业务数据的ETL作业操作。
在本发明实施例中,可以基于从数据处理工具中得到的作业配置模板,导出对应的用于配置数据导入、数据清洗、数据同步、数据加工、数据分发等针对业务数据的ETL作业操作的大数据ETL作业配置文件,从而完成相应大数据ETL作业的开发工作。
参照图4所示,为本发明实施例提供的一种采用数据处理工具进行流程管理的流程示意图。如图所示,在银行业务场景中,对于重要的对客类、监管类场景数据加工过程,可以作为重保链路,可以进行人工审核。人工审核的内容可以为人工填写信息,可以包括数据下发方式、数据接入日期、数据分区分表、作业命名和调度队列等信息中的至少一种。采用数据处理工具进行流程管理的流程可以包括:
(1)分析人员可以根据业务来源数据整理数据格式信息,数据格式信息可以包括字段名称、字段类型和字段长度等接口层面的信息,还可以包括表名、存储位置、全量/增量、同步频度等数据源层面的信息。
(2)将数据格式信息录入数据处理工具中作为数据源,并提交数据源进行人工审核。
(3)针对数据格式信息的人工审核通过后,可以得到可用数据源,并对可用数据源进行定制得到目标模板,并提交目标模板进行人工审核。其中,定制可以包括接口层面的定制和数据层面的定制,接口层面的定制可以是选择部分字段或者对多张数据表进行组合,数据层面的定制可以是对数据进行权限控制或者过滤无效数据。
(4)针对目标模板的人工审核通过后,可以得到可用目标模板。
(5)获取业务来源数据,并依据可用目标模板可以导出大数据ETL作业配置文件至下游***,从而完成相应大数据ETL作业的开发工作。
在本发明实施例中,通过配置数据处理工具的功能架构,获取针对业务数据的数据格式信息,将数据格式信息输入预先配置的数据处理工具中进行处理,并根据得到的针对业务数据的作业配置模板,导出用于配置针对业务数据的ETL作业操作的大数据ETL作业配置文件,从而可以使预先配置好的数据处理工具适用于Hadoop技术架构,实现大数据ETL作业的自动化生成,在无需编写代码,只需将整理好的数据格式信息输入预先配置好的数据处理工具的情况下,完成大数据ETL作业的开发工作,降低直接开发大数据ETL作业的技术难度。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图5,示出了本发明实施例提供的一种数据处理装置的结构框图,具体可以包括如下模块:
信息获取模块501,用于获取针对业务数据的数据格式信息;
数据处理模块502,用于将所述数据格式信息输入预先配置的数据处理工具中进行处理,得到针对所述业务数据的作业配置模板;
导出模块503,用于根据所述作业配置模板,导出大数据ETL作业配置文件;所述大数据ETL作业配置文件用于配置针对所述业务数据的ETL作业操作。
在一个可选的实施例中,所述数据格式信息包括数据接口信息;所述数据处理模块包括:
数据接口配置子模块,用于将所述数据接口信息输入预先配置的数据处理工具,由所述数据处理工具对所述数据接口信息进行配置,得到数据接口配置信息;所述数据接口配置信息为用于从所述业务数据中选择多张数据表进行组合,或选择多个分区和/或分桶字段进行组合的配置信息。
在一个可选的实施例中,所述数据格式信息还包括接口列表信息;所述数据处理模块还包括:
接口列表配置子模块,用于将所述接口列表信息输入所述数据处理工具,由所述数据处理工具对所述接口列表信息进行配置,得到接口列表配置信息;所述接口列表配置信息为用于对所述业务数据进行数据权限控制,或过滤所述业务数据中的无效数据的配置信息。
在一个可选的实施例中,所述接口列表信息包括用于配置接口的信息;所述数据处理工具包括贴源层配置模块;所述接口列表配置子模块包括:
配置接口信息导入单元,用于将用于配置接口的信息导入贴源层配置模块,由所述贴源层配置模块接口导出贴源层配置信息;所述贴源层配置信息包括针对外表进行数据加载的配置信息、针对内表进行数据加工的配置信息、数据质量管理配置信息、数据获取配置信息、接口导出配置信息中的至少一种。
在一个可选的实施例中,所述接口列表信息包括用于配置数据模型的信息;所述数据处理工具包括共性加工层配置模块;所述接口列表配置子模块还包括:
配置数据模型信息导入单元,用于将用于配置数据模型的信息导入共性加工层配置模块,由所述共性加工层配置模块接口导出共性加工层配置信息;所述共性加工层配置信息包括数据共性加工配置信息和接口结构配置信息中的至少一种。
在一个可选的实施例中,所述接口列表信息包括用于接口订阅的信息;所述数据处理工具包括接口订阅管理配置模块;所述接口列表配置子模块还包括:
接口订阅信息导入单元,用于将用于接口订阅的信息导入接口订阅管理配置模块,由所述接口订阅管理配置模块导出接口订阅管理配置信息;所述接口订阅管理配置信息包括数据卸载配置信息和数据分发配置信息中的至少一种。
在一个可选的实施例中,所述装置还包括:
校验模块,用于根据预先定义的校验逻辑,对所述数据格式信息中用于进行配置的信息进行校验;
校验失败模块,用于若所述用于进行配置的信息不符合所述校验逻辑,则发出校验失败的提示信息;
校验成功模块,用于若所述用于进行配置的信息符合校验逻辑,则进行将所述数据格式信息输入预先配置的数据处理工具中进行处理,得到目标作业配置模板的步骤。
在本发明实施例中,通过配置数据处理工具的功能架构,获取针对业务数据的数据格式信息,将数据格式信息输入预先配置的数据处理工具中进行处理,并根据得到的针对业务数据的作业配置模板,导出用于配置针对业务数据的ETL作业操作的大数据ETL作业配置文件,从而可以使预先配置好的数据处理工具适用于Hadoop技术架构,实现大数据ETL作业的自动化生成,在无需编写代码,只需将整理好的数据格式信息输入预先配置好的数据处理工具的情况下,完成大数据ETL作业的开发工作,降低直接开发大数据ETL作业的技术难度。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还提供了一种电子设备,包括:
包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种数据处理方法、装置、电子设备和存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
获取针对业务数据的数据格式信息;
将所述数据格式信息输入预先配置的数据处理工具中进行处理,得到针对所述业务数据的作业配置模板;
根据所述作业配置模板,导出大数据ETL作业配置文件;所述大数据ETL作业配置文件用于配置针对所述业务数据的ETL作业操作。
2.根据权利要求1所述的方法,其特征在于,所述数据格式信息包括数据接口信息;所述将所述数据格式信息输入预先配置的数据处理工具中进行处理,得到针对所述业务数据的作业配置模板,包括:
将所述数据接口信息输入预先配置的数据处理工具,由所述数据处理工具对所述数据接口信息进行配置,得到数据接口配置信息;所述数据接口配置信息为用于从所述业务数据中选择多张数据表进行组合,或选择多个分区和/或分桶字段进行组合的配置信息。
3.根据权利要求2所述的方法,其特征在于,所述数据格式信息还包括接口列表信息;所述将所述数据格式信息输入预先配置的数据处理工具中进行处理,得到针对所述业务数据的作业配置模板,还包括:
将所述接口列表信息输入所述数据处理工具,由所述数据处理工具对所述接口列表信息进行配置,得到接口列表配置信息;所述接口列表配置信息为用于对所述业务数据进行数据权限控制,或过滤所述业务数据中的无效数据的配置信息。
4.根据权利要求3所述的方法,其特征在于,所述接口列表信息包括用于配置接口的信息;所述数据处理工具包括贴源层配置模块;所述将所述接口列表信息输入所述数据处理工具,由所述数据处理工具对所述接口列表信息进行配置,得到可用接口列表配置信息,包括:
将用于配置接口的信息导入贴源层配置模块,由所述贴源层配置模块接口导出贴源层配置信息;所述贴源层配置信息包括针对外表进行数据加载的配置信息、针对内表进行数据加工的配置信息、数据质量管理配置信息、数据获取配置信息、接口导出配置信息中的至少一种。
5.根据权利要求4所述的方法,其特征在于,所述接口列表信息包括用于配置数据模型的信息;所述数据处理工具包括共性加工层配置模块;所述将所述接口列表信息输入所述数据处理工具,由所述数据处理工具对所述接口列表信息进行配置,得到可用接口列表配置信息,还包括:
将用于配置数据模型的信息导入共性加工层配置模块,由所述共性加工层配置模块接口导出共性加工层配置信息;所述共性加工层配置信息包括数据共性加工配置信息和接口结构配置信息中的至少一种。
6.根据权利要求5所述的方法,其特征在于,所述接口列表信息包括用于接口订阅的信息;所述数据处理工具包括接口订阅管理配置模块;所述将所述接口列表信息输入所述数据处理工具,由所述数据处理工具对所述接口列表信息进行配置,得到可用接口列表配置信息,还包括:
将用于接口订阅的信息导入接口订阅管理配置模块,由所述接口订阅管理配置模块导出接口订阅管理配置信息;所述接口订阅管理配置信息包括数据卸载配置信息和数据分发配置信息中的至少一种。
7.根据权利要求1所述的方法,其特征在于,在所述将所述数据格式信息输入预先配置的数据处理工具中进行处理,得到目标作业配置模板的步骤之前,还包括:
根据预先定义的校验逻辑,对所述数据格式信息中用于进行配置的信息进行校验;
若所述用于进行配置的信息不符合所述校验逻辑,则发出校验失败的提示信息;
若所述用于进行配置的信息符合校验逻辑,则进行将所述数据格式信息输入预先配置的数据处理工具中进行处理,得到目标作业配置模板的步骤。
8.一种数据处理装置,其特征在于,所述装置包括:
信息获取模块,用于获取针对业务数据的数据格式信息;
数据处理模块,用于将所述数据格式信息输入预先配置的数据处理工具中进行处理,得到针对所述业务数据的作业配置模板;
导出模块,用于根据所述作业配置模板,导出大数据ETL作业配置文件;所述大数据ETL作业配置文件用于配置针对所述业务数据的ETL作业操作。
9.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述的数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210158830.1A CN114610803A (zh) | 2022-02-21 | 2022-02-21 | 一种数据处理方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210158830.1A CN114610803A (zh) | 2022-02-21 | 2022-02-21 | 一种数据处理方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114610803A true CN114610803A (zh) | 2022-06-10 |
Family
ID=81860037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210158830.1A Pending CN114610803A (zh) | 2022-02-21 | 2022-02-21 | 一种数据处理方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114610803A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116795664A (zh) * | 2023-08-25 | 2023-09-22 | 四川省农村信用社联合社 | 一种自动化处理增全量历史数据保存方法 |
-
2022
- 2022-02-21 CN CN202210158830.1A patent/CN114610803A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116795664A (zh) * | 2023-08-25 | 2023-09-22 | 四川省农村信用社联合社 | 一种自动化处理增全量历史数据保存方法 |
CN116795664B (zh) * | 2023-08-25 | 2023-10-31 | 四川省农村信用社联合社 | 一种自动化处理增全量历史数据保存方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10452998B2 (en) | Cognitive blockchain automation and management | |
US10339038B1 (en) | Method and system for generating production data pattern driven test data | |
CN104572122A (zh) | 一种软件应用数据的生成装置及方法 | |
CN112861496A (zh) | 报表生成显示方法、装置、计算机设备和可读存储介质 | |
US9830385B2 (en) | Methods and apparatus for partitioning data | |
CN113590576A (zh) | 数据库参数调整方法、装置、存储介质以及电子设备 | |
CN113204598A (zh) | 一种数据同步方法、***及存储介质 | |
US9342800B2 (en) | Storage model for information related to decision making process | |
US8655920B2 (en) | Report updating based on a restructured report slice | |
CN108140022B (zh) | 数据查询方法和数据库*** | |
CN109255587A (zh) | 一种工作数据的协同处理方法及装置 | |
CN103678591A (zh) | 自动执行多业务单据统计处理的装置和方法 | |
US11928083B2 (en) | Determining collaboration recommendations from file path information | |
US20180357100A1 (en) | System and method in a database system for creating a field service work order | |
CN114610803A (zh) | 一种数据处理方法、装置、电子设备和存储介质 | |
CN116795859A (zh) | 数据分析方法、装置、计算机设备和存储介质 | |
CN114443015A (zh) | 一种基于数据库元数据的增删改查服务接口生成方法 | |
CN112860954A (zh) | 实时计算的方法以及实时计算*** | |
CN112905720A (zh) | 一种基于源数据管理模型的运营数据处理方法和装置 | |
CN111125045B (zh) | 一种轻量级etl处理平台 | |
CN115858322A (zh) | 日志数据处理方法、装置和计算机设备 | |
US20220108404A1 (en) | Systems and methods for distributed ledger-based auditing | |
CN115048359A (zh) | 一种多类型接入数据源的通用数据处理架构设计方法 | |
CN115617874A (zh) | 数据分析***、方法、电子设备和计算机可读介质 | |
CN115293685A (zh) | 物流订单的状态跟踪方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |