CN115982231A

CN115982231A - 分布式实时搜索***及方法

Info

Publication number: CN115982231A
Application number: CN202211592840.2A
Authority: CN
Inventors: 孙志强; 左鹏; 王禹博; 徐士强
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-04-18

Abstract

本发明公开了一种分布式实时搜索***及方法，属于分布式数据收集处理技术领域，本发明要解决的技术问题为如何实现数据同步高可用，减少业务耦合和代码入侵，轻松完成数据检索，采用的技术方案为：该***包括服务注册端、服务端、消息端及客户端。该方法具体如下：开启MySQL的binary log日志记录；修改MySQL的binary log模式为ROW；canal‑server充当MySQL集群的一个slave，获取master的binary log信息；canal‑server将拿到的binary log信息推送给canal‑adapter；canal‑server和canal‑adapter采用多节点部署的方式提高可用性；构建客户端，消费MQ；canal‑adapter将数据同步到es集群；引入组件，扫描实体类；引入组件，扫描实体类，配置ES、MQ和注册中心；定义数据索引，简化创建索引工作；实现业务路由，完成数据操作、综合检索。

Description

分布式实时搜索***及方法

技术领域

本发明涉及分布式数据收集分析处理技术领域，具体地说是一种分布式实时搜索***及方法。

背景技术

一个***最重要的是数据，数据是保存在数据库里。但是很多时候不单止要保存在数据库中，还要同步保存到Elastic Search、HBase、Redis等等。拿ES举例,由于Mysql对全文检索或模糊查询支持的能力不强,需要将数据发送到搜索引擎(如ES)上，由搜索引擎来提供专业的服务。在实践中常用的方式具体有：

①、同步双写：将数据写到Mysql的同时也将数据写到ES；

②、异步双写：引入MQ异步将数据写入ES；

同步双写和异步双写这两种方案存在硬编码，业务耦合性强，也就是有任何对Mysql进行增删改查的地方要么植入ES代码，要么替换为MQ代码，代码的侵入性太强，双写存在数据丢失的风险，本来Mysql的性能不是很高，再加一个ES，***的性能必然会下降，***中增加了MQ的代码，也增加了复杂度。如果实时性要求不高的话也可以采用定时器来处理：数据库的相关表中增加一个字段为timestamp的字段，任何crud操作都会导致该字段的时间发生变化，加一个定时器程序，让该程序按一定的时间周期扫描指定的表，把该时间段内发生变化的数据提取出来，逐条写入到ES中。这样虽然解决了上面两种方案的问题但是时效性较差，定时器工作周期不可能设置到秒级，对数据库的轮询也有一定压力。

分布式***中会对一些业务数据进行大量的查询和筛选，面对读多写少的情况，显然只通过DB来支撑大量的查询是不可取的，同时对于复杂的查询Mysql等数据库支持的不够友好，所以需要一套完整的***来承载数据查询的主要压力。故如何实现数据同步高可用，减少业务耦合和代码入侵，轻松完成数据检索是目前亟待解决的技术问题。

发明内容

本发明的技术任务是提供一种分布式实时搜索***及方法，来解决针对大量数据查询和筛选的环境，现有***承载能力不足的问题。

本发明的技术任务是按以下方式实现的，一种分布式实时搜索***，该***包括服务注册端、服务端、消息端及客户端；其中，服务注册端用于实现集群统一管理；服务端用于监听收集数据变动信息；消息端用于推送数据信息到客户端；客户端用于统一消费对接业务处理。

作为优选，所述服务注册端通过canal-server和canal-adapter采用多节点部署的方式提高可用性，使用ZooKeeper进行集群管理。

更优地，canal-server的安装具体如下：

直接下载安装包或者下载源码自己打包，将下载好的文件移动到自定义的安装路径,修改配置文件vi/opt/app/canal/canal_server/conf/canal.prop erties,配置多个destination，并在conf下创建对应的目录,在对应的目录下边编写配置文件instance.properties,进入到路径bin下边，有几个脚本,运行./startup.sh即可启动。

更优地，canal-server配置说明具体如下：

canal.instance.master.journal.name+canal.instance.master.posit ion:精确指定一个binlog位点，进行启动；

canal.instance.master.timestamp:指定一个时间戳，canal自动遍历mysqlbinlog，找到对应时间戳的binlog位点后，进行启动；

不指定任何信息：默认从当前数据库的位点，进行启动；

instance.xml配置文件；

memory-instance.xml：所有的组件(parser,sink,store)均选择内存版模式，记录位点均选择memory模式，重启后又会回到初始位点进行解析；

default-instance.xml：store选择内存模式，其余的parser/sink依赖的位点管理选择了持久化模式，目前持久化的方式是写入zookeeper，保证数据集群共享；

group-instance.xml：针对需要进行多库合并时，将多个物理instance合并为一个逻辑instance，提供客户端访问；

多个destination配置；

在canal.properties里边配置canal.destinations,用英文逗号分隔；

在conf路径下创建对应的路径并添加对应的instance.properties。

更优地，canal-adapter的安装具体如下：

下载安装包并解压,修改conf/application.yml,在conf/es/路径下添加配置文件example_01.yml和example_02.yml,一份数据被多个group同时消费,多个group之间会是一个并行执行,一个group内部是一个串行执行多个outerAdapters,进入到路径bin下边，有几个脚本,运行./startup.sh即可启动。

作为优选，所述服务端的工作过程具体如下：

(1)、配置Mysql开启MySQL的binary log日志记录，并选择模式为Row；

MySQL master将数据变更写入二进制日志(binary log,其中记录叫做二进制日binary log events，可以通过show binlog events进行查看)；

(2)、MySQL slave将master的binary log events拷贝到对应的中继日志relaylog；

(3)、MySQL slave重放relay log中事件，将数据变更反映自己的数据；

(4)、canal-server充当MySQL集群的一个slave，获取master的binary log信息；

(5)、canal模拟MySQL slave的交互协议，伪装自己为MySQL slave，向MySQLmaster发送dump协议；

(6)、MySQL master收到dump请求，开始推送binary log给slave，即canal；

(7)、canal解析binary log对象(原始为byte流)；

(8)、canal-server将拿到的binary log信息推送给canal-adapter。

作为优选，所述消息端的工作过程具体如下：

(1)、canal-adapter配合使用Kafka将数据同步到消息处理客户端；

(2)、构建客户端：即编写一个MQ消费程序，不断消费MQ，每消费一条消息，将消息写入到ES中；

(3)、引入自动发现es索引结构实体类的组件：在springboot启动类上添相关注解，引入自动发现es索引结构实体类的组件，默认扫描启动类所在包下的所有类：

(4)、配置Application.yml，接入ES、MQ和注册中心；

(5)、定义业务数据索引，梳理业务逻辑，筛选搜索数据，具体为：

indexName：索引名称；

number_of_shards：分片；

number_of_replicas：备份；

(6)、定制es索引结构对应实体类的元数据在spring管理的bean内直接自动注入组件内置的工具服务，类型注解用于定制es索引结构对应实体类的索引结构，以简化创建索引工作；将相关注解配置于实体类field上，用于标识field对应elasticsearch索引结构字段的相关信息。

作为优选，所述客户端的工作过程具体如下：

(1)、业务路由操作：继承BusinessRouter，实现processHandler方法，processHandler接收数据库、变动表及主键的信息，业务在判断操作类型后执行相应操作，同时处理关联数据同步至ES；

(2)、数据操作及综合检索。

一种分布式实时搜索方法，该方法具体如下：

开启MySQL的binary log日志记录；

修改MySQL的binary log模式为ROW；

canal-server充当MySQL集群的一个slave，获取master的binary log信息；

canal-server将拿到的binary log信息推送给canal-adapter；

canal-server和canal-adapter采用多节点部署的方式提高可用性；

构建客户端，消费MQ；

canal-adapter将数据同步到es集群；

引入组件，扫描实体类；

引入组件，扫描实体类，配置ES、MQ和注册中心；

定义数据索引，简化创建索引工作；

实现业务路由，完成数据操作、综合检索。

作为优选，canal-server的安装具体如下：

直接下载安装包或者下载源码自己打包，将下载好的文件移动到自定义的安装路径,修改配置文件vi/opt/app/canal/canal_server/conf/canal.prop erties,配置多个destination，并在conf下创建对应的目录,在对应的目录下边编写配置文件instance.properties,进入到路径bin下边，有几个脚本,运行./startup.sh即可启动；

canal-adapter的安装具体如下：

其中，开源框架Canal，可以很方便地同步数据库的增量数据到其他的存储应用。Canal的部署也是支持集群的，使用ZooKeeper进行集群管理，配合使用Kafka将数据同步到消息处理客户端，客户端可以是一个Starter组件也可以是服务端。这种方式完全解耦，对业务代码没有侵入，因为是基于监听Bi nlog日志去进行同步数据的，实时性也能做到准实时。

Cana是一个开源项目，基于java实现，整体已经在很多大型的互联网项目生产环境中使用，在很多电商平台都有广泛的应用，是一个非常成熟的数据库同步方案，基础的使用只需要进行简单的配置即可。

Kafka是一种高吞吐量的分布式发布订阅消息***，可以处理消费者在网站中的所有动作流数据。

Zookeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Go ogle的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。

Elasticsearch:是使用Java编写的一种开源搜索引擎，在内部使用Luc ene做索引与搜索，通过对Lucene的封装，隐藏了Lucene的复杂性，取而代之的提供一套简单一致的RESTful API。

本发明的分布式实时搜索***及方法具有以下优点：

(一)本发明提供了利用Mysql的Binlog机制同步数据的方案，集成Kafka将读取的信息转为MQ,编写一个MQ消费程序,不断消费MQ,每消费完一条信息将消息写入到ES中,同时该程序提供通过elasticsearch官网推荐的RestHighLevelClient实现，内置了es索引结构工具、es索引数据增删改工具、es查询工具、es数据分析工具或者es用法脚手架，能够轻松集成并非常方便的使用，本方案没有代码入侵和硬编码，原有***不需要任何变化，没有感知，业务解耦的同时,不需要关注原来***的逻辑；

(二)本发明主要是针对现有大量数据查询和筛选的前提下，原有***承载能力不足提供解决方案，通过本发明实现数据同步高可用，减少业务耦合和代码入侵，轻松完成数据检索；

(三)本发明为多种数据存储方式间数据的同步提供了可靠的解决方案，支持简单的组件插拔，减少项目开发中的复杂度，避免了业务耦合和代码入侵；

(四)本发明只需要增加修改配置即可为多个项目同时提供服务，减轻业务***压力，使数据同步更实时高效；

(五)本发明提供了一种同步Mysql数据到其他数据源的解决方案，具有高效稳定解耦，具体表现在：

①组件化应用到项目中，完全解耦，没有代码侵入、没有硬编码；

②原有***不需要任何变化，没有感知，不需要关注原来***的业务逻辑；

③接口灵活，满足多种业务场景需求；

④实时同步数据，不会降低***本身性能。

附图说明

下面结合附图对本发明进一步说明。

附图1为分布式实时搜索***的结构示意图；

附图2为客户端的示意图；

附图3为MySQL主备复制原理的示意图。

具体实施方式

参照说明书附图和具体实施例对本发明的分布式实时搜索***及方法作以下详细地说明。

实施例1：

如附图1和3所示，本实施例提供了一种分布式实时搜索***,其结构包括服务注册，服务端，消息端，客户端。服务注册实现集群统一管理，服务端监听收集数据变动信息，消息端推送数据信息到客户端，客户端统一消费对接业务处理。

该***的工作过程具体如下：

S1、配置Mysql开启MySQL的binary log日志记录，并选择模式为Row；

S2、MySQL master将数据变更写入二进制日志(binary log,其中记录叫做二进制日binary log events，可以通过show binlog events进行查看)；

S3、MySQL slave将master的binary log events拷贝到它的中继日志(relaylog)；

S4、MySQL slave重放relay log中事件，将数据变更反映它自己的数据；

S5、canal-server充当MySQL集群的一个slave，获取master的binary log信息；

S6、canal模拟MySQL slave的交互协议，伪装自己为MySQL slave，向MySQLmaster发送dump协议；

S7、MySQL master收到dump请求，开始推送binary log给slave(即canal)；

S8、canal解析binary log对象(原始为byte流)；

S9、canal-server将拿到的binary log信息推送给canal-adapter；

其中canal-server的安装具体如下：

可以直接下载安装包，也可以下载源码自己打包,将下载好的文件移动到自定义的安装路径,修改配置文件vi/opt/app/canal/canal_server/conf/ca nal.properties,配置多个destination，需要在conf下创建对应的目录,在对应的目录下边编写配置文件instance.properties,进入到路径bin下边，有几个脚本,运行./startup.sh就可以启动了。

canal-server配置说明具体如下：

canal.instance.master.journal.name+canal.instance.master.posit ion：精确指定一个binlog位点，进行启动；

canal.instance.master.timestamp:指定一个时间戳，canal会自动遍历mysqlbinlog，找到对应时间戳的binlog位点后，进行启动；

不指定任何信息：默认从当前数据库的位点，进行启动；

instance.xml配置文件；

memory-instance.xml：所有的组件(parser,sink,store)都选择了内存版模式，记录位点的都选择了memory模式，重启后又会回到初始位点进行解析；

default-instance.xml：store选择了内存模式，其余的parser/sink依赖的位点管理选择了持久化模式，目前持久化的方式主要是写入zookeeper，保证数据集群共享；

group-instance.xml：主要针对需要进行多库合并时，可以将多个物理in stance合并为一个逻辑instance，提供客户端访问；

多个destination配置；

在canal.properties里边配置canal.destinations,用英文逗号分隔；

在conf路径下创建对应的路径并添加对应的instance.properties。

S10、canal-server和canal-adapter采用多节点部署的方式提高可用性，使用ZooKeeper进行集群管理；

其中，canal-adapter的安装具体如下：

下载安装包,解压,修改conf/application.yml,在conf/es/路径下添加配置文件example_01.yml和example_02.yml,一份数据可以被多个group同时消费,多个group之间会是一个并行执行,一个group内部是一个串行执行多个outerAdapters,进入到路径bin下边，有几个脚本,运行./startup.sh就可以启动了。

S11、canal-adapter配合使用Kafka将数据同步到消息处理客户端；

S12、如附图2所示，构建客户端：即编写一个MQ消费程序，不断消费MQ，每消费一条消息，将消息写入到ES中。

以java项目为例，构建一个SpringBootStarter，读取java配置，连接canal服务端订阅消费，定义一个公共路由接口，业务项目引用Starter后可以自主实现该接口，并获取到相关库表变动信息和动作，自由调配业务执行；

S13、引入组件，在springboot启动类上添相关注解，引入自动发现es索引结构实体类的功能，默认扫描启动类所在包下的所有类；

S14、配置Application.yml，接入ES、MQ和注册中心；

S15、定义业务数据索引，梳理业务逻辑，筛选搜索数据，indexName：索引名称number_of_shards：分片，number_of_replicas：备份；

S16、定制es索引结构对应实体类的元数据在spring管理的bean内直接自动注入组件内置的工具服务，类型注解用于定制es索引结构对应实体类的索引结构，以简化创建索引工作；将相关注解配置于实体类field上，用于标识field对应elasticsearch索引结构字段的相关信息；

S17、业务路由操作：继承BusinessRouter，实现processHandler方法；该方法可以接收数据库、变动表、主键等信息，业务在判断操作类型后执行相应操作，同时处理关联数据同步至ES；

S18、数据操作、综合检索。

实施例2：

如附图2所示，本实施例提供了一种分布式实时搜索方法，具体如下：

(1)、开启MySQL的binary log日志记录；

(2)、修改MySQL的binary log模式为ROW；

(3)、canal-server充当MySQL集群的一个slave，获取master的binar y log信息；

(4)、canal-server将拿到的binary log信息推送给canal-adapter；

(5)、canal-server和canal-adapter采用多节点部署的方式提高可用性；

(6)、构建客户端，消费MQ；

(7)、canal-adapter将数据同步到es集群；

(8)、引入组件，扫描实体类；

(9)、引入组件，扫描实体类，配置ES、MQ和注册中心；

(10)、定义数据索引，简化创建索引工作；

(11)、实现业务路由，完成数据操作、综合检索。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种分布式实时搜索***，其特征在于，该***包括服务注册端、服务端、消息端及客户端；其中，服务注册端用于实现集群统一管理；服务端用于监听收集数据变动信息；消息端用于推送数据信息到客户端；客户端用于统一消费对接业务处理。

2.根据权利要求1所述的分布式实时搜索***，其特征在于，所述服务注册端通过canal-server和canal-adapter采用多节点部署的方式提高可用性，使用ZooKeeper进行集群管理。

3.根据权利要求2所述的分布式实时搜索***，其特征在于，canal-server的安装具体如下：

直接下载安装包或者下载源码自己打包，将下载好的文件移动到自定义的安装路径,修改配置文件vi/opt/app/canal/canal_server/conf/canal.prop erties,配置多个destination，并在conf下创建对应的目录,在对应的目录下边编写配置文件instance.properties,进入到路径bin下边,运行./start up.sh即可启动。

4.根据权利要求2或3所述的分布式实时搜索***，其特征在于，canal-server配置说明具体如下：

canal.instance.master.timestamp:指定一个时间戳，canal自动遍历m ysqlbinlog，找到对应时间戳的binlog位点后，进行启动；

不指定任何信息：默认从当前数据库的位点，进行启动；

instance.xml配置文件；

memory-instance.xml：所有的组件均选择内存版模式，记录位点均选择memory模式，重启后又会回到初始位点进行解析；

多个destination配置；

在canal.properties里边配置canal.destinations,用英文逗号分隔；

在conf路径下创建对应的路径并添加对应的instance.properties。

5.根据权利要求2所述的分布式实时搜索***，其特征在于，canal-adapter的安装具体如下：

下载安装包并解压,修改conf/application.yml,在conf/es/路径下添加配置文件example_01.yml和example_02.yml,一份数据被多个group同时消费,多个group之间会是一个并行执行,一个group内部是一个串行执行多个outerAdapters,进入到路径bin下边,运行./startup.sh即可启动。

6.根据权利要求1所述的分布式实时搜索***，其特征在于，所述服务端的工作过程具体如下：

(1)、配置Mysql开启MySQL的binarylog日志记录，并选择模式为Row；

MySQL master将数据变更写入二进制日志；

(2)、MySQL slave将master的binary log events拷贝到对应的中继日志relay log；

(3)、MySQL slave重放relaylog中事件，将数据变更反映自己的数据；

(5)、canal模拟MySQL slave的交互协议，伪装自己为MySQL slave，向MySQL master发送dump协议；

(6)、MySQL master收到dump请求，开始推送binarylog给slave，即canal；

(7)、canal解析binary log对象；

(8)、canal-server将拿到的binary log信息推送给canal-adapter。

7.根据权利要求1所述的分布式实时搜索***，其特征在于，所述消息端的工作过程具体如下：

(1)、canal-adapter配合使用Kafka将数据同步到消息处理客户端；

(4)、配置Application.yml，接入ES、MQ和注册中心；

indexName：索引名称；

number_of_shards：分片；

number_of_replicas：备份；

8.根据权利要求1所述的分布式实时搜索***及方法，其特征在于，所述客户端的工作过程具体如下：

(2)、数据操作及综合检索。

9.一种分布式实时搜索方法，其特征在于，该方法具体如下：

开启MySQL的binary log日志记录；

修改MySQL的binary log模式为ROW；

canal-server将拿到的binary log信息推送给canal-adapter；

canal-server和canal-adapter采用多节点部署的方式提高可用性；

构建客户端，消费MQ；

canal-adapter将数据同步到es集群；

引入组件，扫描实体类；

引入组件，扫描实体类，配置ES、MQ和注册中心；

定义数据索引，简化创建索引工作；

实现业务路由，完成数据操作、综合检索。

10.根据权利要求9所述的分布式实时搜索方法，其特征在于，canal-server的安装具体如下：

直接下载安装包或者下载源码自己打包，将下载好的文件移动到自定义的安装路径,修改配置文件vi/opt/app/canal/canal_server/conf/canal.prop erties,配置多个destination，并在conf下创建对应的目录,在对应的目录下边编写配置文件instance.properties,进入到路径bin下边,运行./start up.sh即可启动；

canal-adapter的安装具体如下：