CN110674220A

CN110674220A - 一种数据异构的方法、装置及设备

Info

Publication number: CN110674220A
Application number: CN201910911575.1A
Authority: CN
Inventors: 杨森; 王彭
Original assignee: Enyike (beijing) Data Technology Co Ltd
Current assignee: Enyike (beijing) Data Technology Co Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2020-01-10
Anticipated expiration: 2039-09-25
Also published as: CN110674220B

Abstract

一种数据异构的方法、装置、设备和计算机可读存储介质，所述方法包括：根据数据输入源信息和数据输出源信息，设置数据异构规则；按照所述数据异构规则对历史数据进行异构，以及，通过监听数据库更新日志binLog，按照所述数据异构规则对实时数据进行异构；将异构得到的数据输出至搜索引擎。本申请实施例提高数据异构的稳定性和实时性，并且支持数据异构的可配置化，保证数据的可用性。

Description

一种数据异构的方法、装置及设备

技术领域

本文涉及数据处理领域，尤指一种数据异构的方法、装置、设备和计算机可读存储介质。

背景技术

在目前的大数据时代，数据分布情况存在碎片化和分散化。数据异构是数据搜索、数据分析的前提，现阶段绝大多数的数据均是以结构化数存储在结构化数据库中，譬如MySql等，结构化数据在实现绝大多数业务逻辑有其天然的优势，但是在大量数据情况的搜索、推荐、数据报表等业务场景下，结构化数据的短板被放大，查询速度随着数据增加呈现正比例函数的降低。

相关的数据异构技术中，通常采用定时定期数据同步异构。采用定时定期数据同步异构是通过按时同步的方式进行全量和增量数据异构，即对同步上一次同步时间到本次同步时间期间的数据，保证数据一致性。但这种方式不具备实时性，在大数据量下会拖垮结构化数据库，影响正常的业务***稳定性。

发明内容

本申请提供了一种数据异构的方法、装置、设备和计算机可读存储介质，以提高数据异构的稳定性和实时性。

本申请实施例提供了一种数据异构的方法，包括：

根据数据输入源信息和数据输出源信息，设置数据异构规则；

按照所述数据异构规则对历史数据进行异构，以及，通过监听数据库更新日志binLog，按照所述数据异构规则对实时数据进行异构；

将异构得到的数据输出至搜索引擎。

在一实施例中，所述数据输入源信息包括数据输入源表结构，所述数据输出源信息包括数据输出源索引，所述根据数据输入源信息和数据输出源信息，设置数据异构规则，包括：

获取数据输入源表结构，以及获取数据输出源索引，根据所述数据输入源表结构对所述数据输出源索引中每个字段进行数据输入源字段映射，生成映射关系规则模型，存储在非结构化数据库中。

在一实施例中，所述映射关系规则模型包括多个规则组，所述数据输入源表结构与所述规则组为多对多的关系。

在一实施例中，所述按照所述数据异构规则对历史数据进行异构，包括：

按照所述数据异构规则创建历史数据初始化任务Job，设置初始化的数据最后修改时间，执行Job。

在一实施例中，所述方法还包括：

所述Job完成后，按照所述数据最后修改时间设置实时消费的偏移量offset，开启实时数据异构，当数据消费时间等于最新数据时间时，完成历史数据异构。

在一实施例中，所述通过监听binLog，按照所述数据异构规则对实时数据进行异构，包括：

通过监听binLog，获取binLog，对每一条binLog设置一个唯一的数据ID，将所述数据ID和对应的实时数据通过kafka消息发送到kafka数据管道中，按照所述数据异构规则通过多个并行的异构服务对实时数据进行数据异构。

在一实施例中，所述方法还包括：

通过Zookeeper对所述多个并行的异构服务进行管理。

在一实施例中，所述通过Zookeeper对所述多个并行的异构服务进行管理，包括：

在异构服务增加或减少时，通过Zookeeper关闭数据异构的开关，重新散列kafka消息，并上报异构服务的服务状态；

在所有异构服务处于无数据处理状态后，通过Zookeeper打开数据异构开关，进行数据异构。

在一实施例中，所述方法还包括：

通过Zookeeper按照kafka的offset对实时数据进行回放重新处理。

本申请实施例还提供一种数据异构的装置，包括：

数据模型规则模块，用于根据数据输入源的信息和数据输出源的信息，设置数据异构规则；

历史数据异构模块，用于按照所述数据异构规则对历史数据进行异构；

数据分发模块，用于通过监听数据库更新日志binLog，按照所述数据异构规则对实时数据进行异构，将异构得到的数据输出至搜索引擎。

本申请实施例还提供一种数据异构的设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述数据异构的方法。

本申请实施例还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行所述数据异构的方法。

与相关技术相比，本申请包括：根据数据输入源信息和数据输出源信息，设置数据异构规则；按照所述数据异构规则对历史数据进行异构，以及，通过监听数据库更新日志binLog，按照所述数据异构规则对实时数据进行异构；将异构得到的数据输出至搜索引擎。本申请实施例提高数据异构的稳定性和实时性，并且支持数据异构的可配置化，保证数据的可用性。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的其他优点可通过在说明书、权利要求书以及附图中所描述的方案来实现和获得。

附图说明

附图用来提供对本申请技术方案的理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请实施例的数据异构的方法的流程图；

图2为本申请应用实例的数据异构的方法的流程图；

图3是本申请应用实例的数据流转图；

图4是本申请实施例的数据异构的装置的示意图。

具体实施方式

本申请描述了多个实施例，但是该描述是示例性的，而不是限制性的，并且对于本领域的普通技术人员来说显而易见的是，在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合，并在具体实施方式中进行了讨论，但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外，任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用，或可以替代任何其它实施例中的任何其他特征或元件。

本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合，以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合，以形成另一个由权利要求限定的独特的发明方案。因此，应当理解，在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此，除了根据所附权利要求及其等同替换所做的限制以外，实施例不受其它限制。此外，可以在所附权利要求的保护范围内进行各种修改和改变。

此外，在描述具有代表性的实施例时，说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而，在该方法或过程不依赖于本文所述步骤的特定顺序的程度上，该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的，其它的步骤顺序也是可能的。因此，说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外，针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤，本领域技术人员可以容易地理解，这些顺序可以变化，并且仍然保持在本申请实施例的精神和范围内。

目前大部分的异构策略不能同时解决数据异构的实时性、数据一致性、数据异构规则可配置化，异构数据切换，***容灾，以及数据恢复等问题，对数据的异构可用性和稳定性存在不足。

本申请实施例从稳定性和实时性的角度提出了一种新的数据异构的方法，在此基础上，提出了一种数据异构的策略，提高数据异构的稳定性和实时性，并且支持数据异构的可配置化，优化容灾策略，确保数据恢复，保证数据的可用性。

如图1所示，本申请实施例的数据异构的方法，包括：

步骤101，根据数据输入源信息和数据输出源信息，设置数据异构规则。

在一实施例中，所述数据输入源信息包括数据输入源表结构，所述数据输出源信息包括数据输出源索引，所述步骤101包括：

获取数据输入源表结构，以及获取数据输出源索引(Index)，根据所述数据输入源表结构对所述数据输出源索引中每个字段进行数据输入源字段映射，生成映射关系规则模型，存储在非结构化数据库中。

非结构化数据库可以是Redis。

本实施例中，基于数据输入源信息和数据输出源信息，可以在页面对异构规则进行设置，选择一个输出源的Index，对index的每个字段进行数据输入源字段映射，最终生成一个Map结构的映射关系规则模型存储在非结构化数据库Redis中，用于数据异构同时方便规则的修改，数据规则创建记录存储在结构化数据库Mysql中，方便用户查看和后面流程的配置。

即一个数据表结构属于多个规则组，一个规则组包含多个表结构，一个规则组异构出一种数据结构体，包含父子关系等。

所述规则组同时支持多数据输入源，多表，多字段归一到一个数据输出源的规则，并灵活多变。也就是说，可以将多个数据输入源的数据通过规则组映射到输出源。

步骤102，按照所述数据异构规则对历史数据进行异构，以及，通过监听binLog(数据库更新日志)，按照所述数据异构规则对实时数据进行异构。

按照所述数据异构规则创建历史数据初始化Job(任务)，设置初始化的数据最后修改时间，执行Job。

其中，Job是一种数据库定时任务。

历史数据的Job，用于历史数据的异构，确保异构前的数据不丢失。

binLog为数据库更新日志，是二进制格式的文件，用于记录用户对数据库更新的SQL语句信息。

通过监听binLog，获取binLog，对每一条binLog设置一个唯一的数据ID，将所述数据ID和对应的实时数据通过kafka消息(message)发送到kafka数据管道中，按照所述数据异构规则通过多个并行的异构服务对实时数据进行数据异构。

唯一ID的规则是数据库链接+数据库名称+表名称+主键ID，设置到kafka message的ID中，发送到kafka数据管道中。

本实施例中，可基于Mysql的监听binLog日志并做简单的数据过滤，主要过滤掉对数据无影响的操作减少，精简数据处理量。并且生成数据的Id，目的是为了给数据分类，为了保证数据的顺序性，只需一个库中一个表的一行记录顺序处理就可以，为了满足这一要求，对每一条binLog设置一个ID编号，ID编号规则数据库链接+数据库名称+表名称+主键ID。

在一实施例中，所述Job完成后，按照所述数据最后修改时间设置实时消费的offset(偏移量)，开启实时数据异构，当数据消费时间等于最新数据时间时，完成历史数据异构。

其中，实时消费的offset即初始化的数据最后修改时间，当数据消费时间等于最新数据时间时，表示数据消费时间追上最新数据时间，即历史数据异构完成，新数据(即实时异构数据)正常运行。

设置新数据(即实时异构数据)与历史异构数据相同的别名，删除历史异构数据别名，开始使用新数据，删除废弃数据。

拉取kafka消息，根据数据规则对数据进行数据异构。

步骤103，将异构得到的数据输出至搜索引擎。

其中，搜索引擎可以是Elasticsearch。

在一实施例中，所述方法还包括：通过Zookeeper对所述多个并行的异构服务进行管理。

其中，在异构服务增加或减少时，通过Zookeeper关闭数据异构的开关，重新散列kafka消息，并上报异构服务的服务状态；在所有异构服务处于无数据处理状态后，通过Zookeeper打开数据异构开关，进行数据异构。

利用Zookeeper实现异构注册中心和异构服务管理。异构服务每次启动会向异构注册中心进行注册，异构服务管理中保存着是否可以数据异构的开关，以及每个服务的当前状态，状态为：正在进行数据异构，无数据处理。每当异构服务增减都会触发数据异构关闭，重新散列kafka message，同时触发服务状态上报，当所有服务全部为无数据处理状态后，打开数据异构开关，开始进行数据异构。解决在服务增加和减少过程中因kafkamessage重新散列导致的数据ID被分配在不同机器上后发先至的情况。

在一实施例中，所述方法还包括：

通过Zookeeper按照kafka的offset对实时数据进行回放重新处理。

本实施例中，Zookeeper对kafka的offset的管理，可以做到数据回放到某一个时间点，重新做数据异构。

其中，可以基于kafka的offset对数据进行回放重新处理，通过设置到kafka的offset，格式是时间点，可以消息消费掉回放到设置的时间，从而改时间重新消费刷新。

本申请实施例可以提高异构服务的稳定性和实效性，有效的降低数据异构对结构化数据库的压力，而且使用数据规则配置的方式能有效适应数据变化进而异构数据的变化，有效提高新老数据的平滑切换，保证数据变化的***兼容性。

下面以一个应用实例进行说明。

本应用实例中，通过kafka作为数据流转的载体，Zookeeper作为数据异构处理服务和kafka的offset的管理，Elasticsearch作为异构结果的载体。

使用Java语言，通过数据分发到kafka中，数据异构处理服务监听Kafka消息对数据进行清洗异构到Elasticsearch。

如图2和图3所示，包括如下步骤：

步骤201，设置数据输入源信息。

其中，数据输入源可以是多个。

步骤202，获取数据输入源表结构，执行步骤205。

步骤203，设置数据输出源信息。

步骤204，获取数据输入源Index结构，执行步骤205。

其中步骤201～202与步骤203～204并行执行。

步骤205，设置映射规则。

其中，根据数据输入源表结构和数据输入源Index结构，设置映射规则，映射规则存储在非结构化数据库Redis中。

步骤206，创建历史数据Job。

其中，根据映射规则创建历史数据Job

步骤207，创建实时数据异构任务。

其中，根据映射规则实时数据异构任务。

步骤208，开始实时异构规则，验证实时异构正确。

步骤209，开启历史数据Job。

其中，设置初始化的数据最后修改时间(即Job开启时间)，执行Job。

步骤210，历史数据Job完成。

步骤211，实时数据回退至历史数据Job开启时间，重新实时异构。

步骤212，验证新规则映射数据。

其中，新规则映射数据是指当前的实时异构数据。

步骤213，停止老规则异构数据。

其中，老规则异构数据是指之前进行的实时异构数据。

步骤214，删除老规则数据Index。

步骤215，异构切换完成。

如图4所示，为本发明实施例的数据异构的装置，包括：

数据模型规则模块41，用于根据数据输入源的信息和数据输出源的信息，设置数据异构规则；

历史数据异构模块42，用于按照所述数据异构规则对历史数据进行异构；

数据分发模块43，用于通过监听数据库更新日志binLog，按照所述数据异构规则对实时数据进行异构，将异构得到的数据输出至搜索引擎。

在一实施例中，所述数据输入源信息包括数据输入源表结构，所述数据输出源信息包括数据输出源索引，所述数据模型规则模块41，用于：

在一实施例中，所述历史数据异构模块42，用于：

在一实施例中，所述数据分发模块43，用于：

在一实施例中，所述装置还包括：

数据异构处理服务管理模块44，用于：

通过Zookeeper对所述多个并行的异构服务进行管理。

在一实施例中，所述数据异构处理服务管理模块，用于：

在一实施例中，所述装置还包括：

所述数据回放恢复模块45，用于通过Zookeeper按照kafka的offset对实时数据进行回放重新处理。

在一实施例中，所述数据回放恢复模块45，还用于所述Job完成后，按照所述数据最后修改时间设置实时消费的偏移量offset，开启实时数据异构，当数据消费时间等于最新数据时间时，完成历史数据异构。

本申请实施例提高数据异构的稳定性和实时性，并且支持数据异构的可配置化，保证数据的可用性。

本申请实施例还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于所述数据异构的方法。

在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种数据异构的方法，其特征在于，包括：

将异构得到的数据输出至搜索引擎。

2.根据权利要求1所述的方法，其特征在于，所述数据输入源信息包括数据输入源表结构，所述数据输出源信息包括数据输出源索引，所述根据数据输入源信息和数据输出源信息，设置数据异构规则，包括：

3.根据权利要求2所述的方法，其特征在于，

所述映射关系规则模型包括多个规则组，所述数据输入源表结构与所述规则组为多对多的关系。

4.根据权利要求1所述的方法，其特征在于，所述按照所述数据异构规则对历史数据进行异构，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述通过监听binLog，按照所述数据异构规则对实时数据进行异构，包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

通过Zookeeper对所述多个并行的异构服务进行管理。

8.根据权利要求7所述的方法，其特征在于，所述通过Zookeeper对所述多个并行的异构服务进行管理，包括：

9.根据权利要求7所述的方法，其特征在于，所述方法还包括：

通过Zookeeper按照kafka的offset对实时数据进行回放重新处理。

10.一种数据异构的装置，其特征在于，包括：

11.一种数据异构的设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～9中任意一项所述的方法。

12.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1～9中任意一项所述的方法。