CN111046050A

CN111046050A - 数据Schema的处理方法、装置、设备及存储介质

Info

Publication number: CN111046050A
Application number: CN201811194008.0A
Authority: CN
Inventors: 陈东沂; 姚小龙; 郭林东
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd; SF Tech Co Ltd
Priority date: 2018-10-12
Filing date: 2018-10-12
Publication date: 2020-04-21

Abstract

本申请公开了一种数据Schema的处理方法、装置、设备和存储介质，该方法包括：获取数据库日志和消息队列实时数据流；解析所述数据库日志和所述消息队列实时数据流，获取所述数据库日志和所述消息队列实时数据流对应的数据Schema；依据符合预设条件的数据Schema，更新Schema数据库。该方法减少了人工更改程序代码，降低了人工成本，实现了对数据Schema的自动化处理和共享。

Description

数据Schema的处理方法、装置、设备及存储介质

技术领域

本发明一般涉及互联网应用技术领域，具体涉及一种数据Schema的处理方法、装置、设备及存储介质。

背景技术

随着云时代的到来，大数据也吸引了越来越多的关注，它需要特殊的技术，以有效的处理大量的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等特征。其中，在数据的存储计算、共享使用的过程中，数据Schema是数据平台和数据使用方关注的问题，其中，数据Schema指的是由业务数据的字段、结构、类型和格式等组成的元信息。当上游业务***数据库变更字段时，为了使大数据平台和下游数据使用方实时知悉数据Schema的变更，需要对应用程序或者数据表字段进行变更处理。

现有技术中，业务***通过Schema注册中心来注册或更新数据Schema，下游使用方通过注册中心以获取更新后的Schema，从而实现数据Schema的共享。

但是，传统技术需要人工向注册中心发送数据Schema，需要不同组件不同模块间的相互配合，该处理过程复杂且无法自动化实现数据Schema的演化处理和共享，其灵活性较低。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种数据Schema的处理方法、装置、设备及存储介质，能够实现对数据Schema的自动更新和发布。

第一方面，本发明提供了一种数据Schema的处理方法，该方法包括：

获取数据库日志和消息队列实时数据流；

解析所述数据库日志和所述消息队列实时数据流，获取所述数据库日志和所述消息队列实时数据流对应的数据Schema；

依据符合预设条件的数据Schema，更新Schema数据库。

在其中一个实施例中，所述解析所述数据库日志和所述消息队列实时数据流，获取所述数据库日志和所述消息队列实时数据流对应的数据Schema，包括：

解析所述数据库日志，获取所述数据库日志中的操作记录；所述操作记录包括创建、删除和更改字段；

解析所述消息队列实时数据流，获取所述消息队列实时数据流中的指定数据字段；

将所述操作记录和所述数据字段确定为所述数据Schema。

在其中一个实施例中，所述依据符合预设条件的数据Schema，更新Schema数据库，包括：

向所述Schema数据库发送查询指令，判断所述Schema数据库中是否存在与所述数据Schema文件名相同的数据Schema；

若存在，则根据所述符合预设条件的数据Schema，对与所述符合预设条件的数据Schema文件名相同的数据Schema进行更新操作；

若不存在，则在所述Schema数据库中注册所述符合预设条件的数据Schema。

在其中一个实施例中，根据所述依据符合预设条件的数据Schema，更新数据Schema数据库之后，还包括：

发布所述符合预设条件的数据Schema。

在其中一个实施例中，所述依据符合预设条件的数据Schema，更新所述Schema数据库之前，还包括：

从所述数据Schema中筛选出符合预设条件的数据Schema；所述预设条件包括：所述数据Schema的文件格式符合预设标准格式。

第二方面，本申请实施例提供了一种数据Schema的处理装置，该装置包括：

第一获取模块，用于获取数据库日志和消息队列实时数据流；

第二获取模块，用于解析所述数据库日志和所述消息队列实时数据流，获取所述数据库日志和所述消息队列实时数据流对应的数据Schema；

更新模块，用于依据符合预设条件的数据Schema，更新Schema数据库。

第三方面，本申请实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的数据Schema的处理方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的数据Schema的处理方法。

本发明实施例提供的数据Schema的处理方法、装置、设备和存储介质，获取数据库日志和消息队列实时数据流，通过解析数据库日志和消息队列实时数据流，获取数据库日志和消息队列实时数据流对应的数据Schema，并依据符合预设条件的数据Schema，更新Schema数据库。本技术方案中，由于实时监听数据库日志和消息队列实时数据流，使得能够实时获取到数据Schema，并根据获取到的符合预设条件的数据Schema，自动更新Schema数据库，很大程度上减少了人工更改程序代码等操作，降低了人工成本，实现了对数据Schema的自动化更新。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本发明实施例提供的数据Schema的处理方法的流程示意图；

图2为本发明实施例提供的获取数据Schema的流程示意图；

图3为本发明实施例提供的依据符合预设条件的数据Schema，更新Schema数据库的流程示意图；

图4为本发明实施例的提供的数据Schema的处理装置的结构示意图；

图5为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如背景技术中提到的，当上游业务***数据库变更字段时，大数据平台和下游数据使用方无法第一时间知悉数据Schema的变更，导致应用业务需要手工对应用程序或底层数据表字段进行变更，对数据仓库建设、管理和数据使用带来诸多不便。目前，提出了注册中心服务，业务***注册或更新数据Schema，下游使用方通过注册中心获取最新的数据Schema，以此实现数据Schema的共享，该过程需要依赖不同组件且模块流程比较复杂，不仅处理过程复杂而且灵活性较低，应用过程中具有一定的局限性。

基于上述缺陷，本发明实施例提供了一种数据Schema的处理方法，可以实时监听数据库日志和消息队列实时数据流，通过解析数据库日志和消息队列实时数据流，自动更新Schema数据库，与现有技术相比，大大减轻了技术人员的工作量，且能够第一时间将数据Schema传递至下游使用方，克服了传统技术的局限性，能够有效对数据仓库进行建设、管理和数据使用，进一步提高了工作效率。

下面将参考附图并结合实施例来详细说明本申请。

图1为本发明实施例提供的数据Schema的处理方法的流程示意图，本实施例涉及的是当获取数据库日志和消息队列实时数据流，根据数据Schema，更新Schema数据库的方法。如图1所示，该方法包括:

S101、获取数据库日志和消息队列实时数据流。

具体的，每个数据库至少包含两个操作***文件，分别为数据文件和日志文件，其中，数据文件包括数据和对象，例如表、索引、存储过程和视图，而日志文件，即数据库日志保存的是对数据库的各种操作，例如数据的增加、修改和删除等，并可以在数据库内容发生丢失时可以用来恢复数据库；消息队列是分布式应用间交换信息的重要组件，可以解决应用解耦、异步消息、流量削锋等问题，例如：Kafka为消息队列的一种，其是一种分布式的、开源流的处理平台，为实时业务数据流源，可以处理消费者规模网站中的所有动作流数据。

可选的，本发明实施例可以通过调用***中的相关命令来监听数据库日志，实时读取日志文件以获取数据库日志；可以通过开启客户端消费消息队列的消息，来获取消息队列实时数据流。

S102、解析数据库日志和消息队列实时数据流，获取数据库日志和消息队列实时数据流对应的数据Schema。

具体的，在获取数据库日志和消息队列实时数据流之后，对数据库日志进行查找并分析，解析数据库日志中创建、删除和更改字段等变更信息，并将该变更信息确定为数据库日志对应的数据Schema；同时，开启客户端消费队列的消息，解析消息队列实时数据流，获取消息队列实时数据流对应的数据字段，并将该数据字段确定为消息队列实时数据流对应的数据Schema。

S103、依据符合预设条件的数据Schema，更新Schema数据库。

具体的，获取到数据Schema之后，可以从数据Schema中筛选出符合预设条件的数据Schema，并向Schema数据库发送查询指令，查找Schema数据库中是否存在上述获取的符合预设条件的数据Schema，当Schema数据库中不存在上述获取的符合预设条件的数据Schema时，可以根据该符合预设条件的数据Schema，对Schema数据库进行更新操作，其中，该更新操作可以包括：对数据Schema中的字段进行删除、增加和修改等操作。可选的，该预设条件可以是包括数据Schema的文件格式符合预设标准格式。

本发明实施例提供的数据Schema的处理方法，当获取数据库日志和消息队列实时数据流，解析数据库日志和消息队列实时数据流，获取数据库日志和消息队列实时数据流对应的数据Schema，并依据符合预设条件的数据Schema，更新Schema数据库。由于实时监听数据库日志和消息队列实时数据流，使得能够实时获取到数据Schema，并筛选出符合预设条件的数据Schema，根据符合预设条件的数据Schema，自动更新Schema数据库，很大程度上减少了人工更改程序代码等操作，降低了人工成本，实现了对数据Schema的自动化更新，进一步更好的是实现了数据共享和使用。

图2为本发明实施例提供的获取数据Schema的流程示意图。可选的，可以参见图2所示，作为S102的一种可能实现方式包括：

S201、解析数据库日志，获取数据库日志中的操作记录；操作记录包括创建、删除和更改字段。

示例性的，上述数据库日志记录了数据库上的所有变化，以二进制的形式保存在磁盘中，用来查看数据库的变更历史、数据库增量备份和回复、数据库的复制；以数据库mysql为例，数据库日志为mysql数据库的重要组成部分，其中记录着mysql数据库的客户端连接状况、sql语句的执行情况，可以通过调用相关语句指令，设置查询日志为开启，定义查询日志的文件地址名称来确定出数据库日志对应的操作记录。

S202、解析消息队列实时数据流，获取消息队列实时数据流中的指定数据字段。

上述消息队列为数据存储的中间件，例如，以消息队列kafka为例，其是一种高吞吐量的分布式发布订阅消息***，通过Hadoop的并行加载机制来统一线上和离线的消息处理，可以处理消费者规模的网站中的所有动作流数据。

可选的，可以通过对消息队列进行异步处理，得到消息队列对应实时数据流中的指定数据字段，其中，该指定数据字段可以是代表数据格式的字段，例如可以是json数据格式的字段。

S203、将数据库日志中的操作记录和消息队列实时数据流中的指定数据字段，确定为数据Schema。

具体的，数据Schema为数据库对象的组合，一个用户一般对应一个Schema，可以通过解析数据库日志对应的操作记录以及消息队列实时数据流对应的数据字段，确定数据Schema，并以Avro文件格式表示，通过使用Avro文件，其不需要生成额外的API(Application Programming Interface,简称应用程序编程接口)代码即可实现存储数据和RPC(Remote Procedure Call，简称远程过程调用)交互。

可选的，在执行步骤S103之前，还可以包括：

从数据Schema中筛选出符合预设条件的数据Schema。

具体的，符合预设条件的数据Schema即是合法的数据Schema，从上述获取的数据Schema中筛选出符合预设条件的数据Schema，可以通过判断数据Schema的文件格式是否合法，从而筛选出合法的数据Schema，并对其进行更新操作。

具体的，Avro是一种支持数据密集型的二进制文件格式，在确定数据Schema后，可以通过查看数据Schema的文件格式是否符合Avro文件的标准格式，如果符合该文件格式，则表示该数据Schema为有效文件，通过判断数据Schema是否为有效文件，确保了Schema数据库中均为有效文件。

本实施例提供的数据Schema的处理方法，通过解析数据库日志，确定数据库日志对应的操作记录，并解析消息队列实时数据流，确定消息队列实时数据流对应的数据字段，根据数据库对应的操作记录和消息队列实时数据流对应的数据字段，确定数据Schema，并将数据Schema以Avro文件保存。由于解析数据库日志和消息队列实时数据流，使得能够更完整的确定出数据库日志对应的操作记录和消息队列实时数据流对应的数据字段，从而更精准的确定出数据Schema。

图3为本发明实施例提供的依据符合预设条件的数据Schema，更新Schema数据库的流程示意图。可选的，可以参见图3所示，作为步骤S103的一种可实现方式，包括：

S301、向Schema数据库发送查询指令，判断Schema数据库中是否存在与符合预设条件的数据Schema文件名相同的数据Schema。

S302、若存在，则根据符合预设条件的数据Schema，对与符合预设条件的数据Schema文件名相同的数据Schema进行更新操作；

S303、若不存在，则在Schema数据库中注册符合预设条件的数据Schema。

需要说明的是，当确定数据Schema后，并判断出数据Schema合法时，则向Schema数据库发送查询指令，其中，该查询指令可以包括查询符合预设条件的数据Schema的文件名，从而判断该Schema数据库中是否含有该符合预设条件的数据Schema。

进一步的，如果Schema数据库中存在该符合预设条件的数据Schema，则对数据库中的同文件名的符合预设条件的数据Schema进行增加、删除和修改等处理操作，更新数据库Schema；如果该Schema数据库中不存在该符合预设条件的数据Schema，则在Schema数据库中注册增加该符合预设条件的数据Schema。

本发明实施例实现了对业务数据Schema的自动更新和维护，并在对数据的不断处理变更操作中，确保了Schema数据库可以自动维护，便于数据的有效管理和使用。

可选的，在执行步骤S103之后，该方法还可以包括：

发布符合预设条件的数据Schema。

需要说明的是，在确定数据Schema后，将其存储在数据库Schema中，并发布符合预设条件的数据Schema，可选的，可以将数据Schema以实体类的Jar格式打包并发布至Maven仓库中，当用户需要用到该数据时，可以自行在Maven仓库中下载，并在其应用程序中使用；也可以通过Json文件格式发布至消息队列的kafka中，用来存储实时数据，便于用户在对实时数据处理场景下使用；还可以通过Avro文件格式推送至HDFS(Hadoop Distributed FileSystem，简称Hadoop分布式文件***)表存储路径中，以适用于离线大数据场景下的数据应用；还可以通过触发邮件***，通过第三方邮件以通知使用方更新的数据Schema，从而更好的实现了数据Schema的共享，且可以适用于不同的应用场景中，进一步更好的实现了数据的共享和使用。

应当注意，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

图4为本发明实施例提供的数据Schema的处理装置的结构示意图。如图4所示，该装置可以实现如图1所示的方法，该装置可以包括：

第一获取模块10，用于获取数据库日志和消息队列实时数据流；

第二获取模块20，用于解析所述数据库日志和所述消息队列实时数据流，获取所述数据库日志和所述消息队列实时数据流对应的数据Schema；

更新模块30，用于依据符合预设条件的数据Schema，更新Schema数据库。

优选的，上述第二获取模块20可以包括：

操作记录获取单元201，用于解析所述数据库日志，确定所述数据库日志对应的操作记录；所述操作记录包括创建、删除和更改字段；

数据字段获取单元202，用于解析所述消息队列实时数据流，获取所述消息队列实时数据流中的指定数据字段；

确定单元203，用于将所述操作记录和所述数据字段确定为所述数据Schema。

本实施例提供的数据Schema的处理装置，由于解析数据库日志和消息队列实时数据流，使得能够更完整的确定出数据库日志对应的操作记录和消息队列实时数据流对应的数据字段，从而更精准的确定出数据Schema。

可选的，所述装置还包括：

筛选模块40，用于从所述数据Schema中筛选出符合预设条件的数据Schema；所述预设条件包括：所述数据Schema的文件格式符合预设标准格式。

可选的，上述更新模块30包括：

判断单元301，用于向Schema数据库发送查询指令，判断所述Schema数据库中是否存在与所述符合预设条件的数据Schema文件名相同的数据Schema；

更新单元302，用于当Schema数据库中存在与符合预设条件的数据Schema文件名相同的数据Schema时，则根据所述数据Schema，则对与所述符合预设条件的数据Schema文件名相同的数据Schema进行更新操作；

注册单元303，用于当所述Schema数据库中不存在与所述数据Schema文件名相同的数据Schema时，则在所述Schema数据库中注册所述符合预设条件的数据Schema。

可选的，在执行上述更新模块103之后，还包括：

发布模块50，用于发布所述符合预设条件的数据Schema。

可选的，上述发布模块50，具体用于将所述数据Schema以Jar文件格式、Json文件格式、Avro文件格式和第三方邮件中任意一种或组合的方式发送至用户。

本实施例提供的数据Schema的处理装置，可以执行上述如图3所示方法的实施例，其实现原理和技术效果类似，在此不再赘述。

图5为本发明实施例本发明实施例提供的一种计算机设备的结构示意图。如图5所示，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机***500的结构示意图。

如图5所示，计算机***500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有***500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口506也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口506。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本公开的数据Schema的处理方法对应的上述实施例，上文参考图1-3描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行图1-3的数据Schema的处理方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。

附图中的流程图和框图，图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括第一子区域生成单元、第二子区域生成单元以及显示区域生成单元。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定，例如，显示区域生成单元还可以被描述为“用于根据第一子区域和第二子区域生成文本的显示区域的单元”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中前述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，前述程序被一个或者一个以上的处理器用来执行描述于本申请的数据Schema的处理方法。

综上所述，本发明实施例提供的一种数据Schema的处理方法、方法、装置、设备和存储介质，当获取数据库日志和消息队列实时数据流，解析数据库日志和消息队列实时数据流，获取数据库日志和消息队列实时数据流对应的数据Schema，并依据符合预设条件的数据Schema，更新Schema数据库。由于实时监听数据库日志和消息队列实时数据流，使得能够实时获取到数据Schema，并筛选出符合预设条件的数据Schema，根据符合预设条件的数据Schema，自动更新Schema数据库，很大程度上减少了人工更改程序代码等操作，降低了人工成本，实现了对数据Schema的自动化更新，进一步更好的是实现了数据共享和使用。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种数据Schema的处理方法，其特征在于，包括：

获取数据库日志和消息队列实时数据流；

依据符合预设条件的数据Schema，更新Schema数据库。

2.根据权利要求1所述的数据Schema的处理方法，其特征在于，所述解析所述数据库日志和所述消息队列实时数据流，获取所述数据库日志和所述消息队列实时数据流对应的数据Schema，包括：

将所述操作记录和所述数据字段确定为所述数据Schema。

3.根据权利要求1所述的数据Schema的处理方法，其特征在于，所述依据符合预设条件的数据Schema，更新Schema数据库，包括：

向所述Schema数据库发送查询指令，判断所述Schema数据库中是否存在与所述符合预设条件的数据Schema文件名相同的数据Schema；

4.根据权利要求1所述的数据Schema的处理方法，其特征在于，根据所述依据符合预设条件的数据Schema，更新数据Schema数据库之后，还包括：

发布所述符合预设条件的数据Schema。

5.根据权利要求1-4任一项所述的数据Schema的处理方法，其特征在于，所述依据符合预设条件的数据Schema，更新Schema数据库之前，还包括：

6.一种数据Schema的处理装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述第二获取模块包括：

操作记录获取单元，用于解析所述数据库日志，获取所述数据库日志中的操作记录；所述操作记录包括创建、删除和更改字段；

数据字段获取单元，用于解析所述消息队列实时数据流，获取所述消息队列实时数据流中的指定数据字段；

确定单元，用于将所述操作记录和所述数据字段确定为所述数据Schema。

8.根据权利要求6所述的装置，所述更新模块，包括：

判断单元，用于向所述Schema数据库发送查询指令，判断所述Schema数据库中是否存在与所述符合预设条件的数据Schema文件名相同的数据Schema；

更新单元，用于当Schema数据库中存在符合预设条件的数据Schema时，则对与所述符合预设条件的数据Schema文件名相同的数据Schema进行更新操作；

注册单元，用于当Schema数据库中不存在数据Schema时，在所述Schema数据库中注册所述符合预设条件的数据Schema。

9.根据权利要求6所述的装置，所述装置还包括:

发布模块，用于发布所述符合预设条件的数据Schema。

10.根据权利要求6-9任一项所述的装置，所述装置还包括：

筛选模块，用于从所述数据Schema中筛选出符合预设条件的数据Schema；所述预设条件包括：所述数据Schema的文件格式符合预设标准格式。

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-5中任一项所述方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。