CN112905390A

CN112905390A - 日志数据备份方法、装置、设备及存储介质

Info

Publication number: CN112905390A
Application number: CN202110348113.0A
Authority: CN
Inventors: 马骋原; 张良友; 张绍震
Original assignee: Hundsun Technologies Inc
Current assignee: Hundsun Technologies Inc
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-06-04

Abstract

本申请提供了一种日志数据备份方法、装置、设备及存储介质，日志数据备份方法包括：从第一集群中每个区域服务的预写日志文件中采集每个区域服务对应的多条日志记录，每个区域服务预先分配有至少一个预分配存储区域，从至少一个预分配存储区域中分别确定每条日志记录对应的目标存储区域，采用目标存储区域对应的目标解析线程，对每条日志记录进行解析处理，得到每条日志记录中的日志数据，对多条日志记录中的日志数据进行备份。采用目标解析线程对日志记录进行解析处理，实现了多线程分片并行处理日志记录，各目标存储区域之间不会互相干扰，使各目标存储区域在串行解析的同时也能保证高吞吐量，并且无需对HBase集群的配置进行额外调整。

Description

日志数据备份方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种日志数据备份方法、装置、设备及存储介质。

背景技术

HBase(Hadoop Database)是一个高可靠性、高性能、面向列、可伸缩的分布式存储***，利用HBase技术可在个人电脑服务器上搭建起大规模结构化存储集群。

相关技术中，HBase的预写日志(Write Ahead Log，WAL)机制提供了一种高并发、持久化的日志保存与回放的功能，每次执行业务数据的写入操作时，都会将该数据对应的日志记录在日志文件中，因此，基于HBase的复制(Replication)功能，通过日志文件的获取和回放能够实现HBase集群间的业务数据的同步。

然而，在对日志文件进行备份过程中，需要对HBase集群配置做一定的调整，并且基于Replication功能无法对压缩的日志文件进行解析。

发明内容

本申请的目的在于，针对上述现有技术中的不足，提供一种日志数据备份方法、装置、设备及存储介质，以实现多线程分片并行处理日志记录，各目标存储区域之间不会互相干扰，使各目标存储区域在串行解析的同时也能保证高吞吐量，并且无需对HBase集群的配置进行额外调整。

第一方面，本申请一实施例提供了一种问答模型训练方法，方法包括：

从第一集群中每个区域服务的预写日志文件中采集每个区域服务对应的多条日志记录，其中，每个区域服务预先分配有至少一个预分配存储区域，第一集群为HBase集群；

从至少一个预分配存储区域中分别确定每条日志记录对应的目标存储区域；

采用目标存储区域对应的目标解析线程，对每条日志记录进行解析处理，得到每条日志记录中的日志数据；

对多条日志记录中的日志数据进行备份。

可选地，采用目标存储区域对应的目标解析线程，对每条日志记录进行解析处理，得到每条日志记录中的日志数据，包括：

采用目标解析线程，将每条日志记录反序列化为单位对象；

根据预设的开始字符和读取长度，从单位对象中读取字节数组；

将读取到的字节数组写入预设的数据对象，得到每条日志记录中的日志数据。

可选地，根据预设的开始字符和读取长度，从单位对象中读取字节数组，包括：

根据每个属性特征对应的开始字符和读取长度，从单位对象中读取每个属性特征；字节数组包括：读取到的至少一个属性特征。

可选地，每个区域服务还具有迁移存储区域，迁移存储区域为从其他区域服务迁移的存储区域；

采用目标存储区域对应的目标解析线程，对每条日志记录进行解析处理，得到每条日志记录中的日志数据，包括：

若待解析日志记录对应的目标存储区域为迁移存储区域，获取其他区域服务中最新解析的日志记录的第一序列标识，与待解析日志记录的第二序列标识的偏差；

若偏差大于预设的标识单位偏差，则在其他区域服务中采用迁移存储区域对应的解析线程对第二序列标识之前的日志记录进行解析；

在对第二序列标识之前的日志记录解析完成之后，在每个区域服务中采用迁移存储区域对应的解析线程，解析待解析日志记录，得到待解析日志记录中的日志数据。

可选地，从第一集群中每个区域服务的预写日志文件中采集每个区域服务对应的多条日志记录，包括：

采用每个区域服务对应的采集线程，从预写日志文件中采集多条日志记录。

可选地，采用采集线程，从预写日志文件中采集多条日志记录，包括：

采用采集线程，从预写日志文件中前一次读取位置之后开始读取预设读取范围内的多条日志记录。

可选地，采用采集线程，从预写日志文件中前一次读取位置之后开始读取预设读取范围内的多条日志记录，包括：

采用采集线程，判断预写日志文件中预设读取范围内是否具有日志记录；

若没有日志记录，则等待预设时长之后，从前一次读取位置之后开始重新读取预设读取范围内的多条日志记录。

可选地，从第一集群中每个区域服务的预写日志文件中采集每个区域服务对应的多条日志记录之前，方法还包括：

根据每个区域服务对应的预设日志存储范围，从第一集群的预写日志文件中确定每个区域服务的预写日志文件。

可选地，从至少一个预分配存储区域中分别确定每条日志记录对应的目标存储区域，包括：

获取每条日志记录针对的业务数据在HBase数据库中的存储位置；

根据存储位置和每个预分配存储区域对应的存储位置范围，确定每条日志记录对应的目标存储区域。

可选地，采用目标存储区域对应的目标解析线程，对每条日志记录进行解析处理，得到每条日志记录中的日志数据之前，方法还包括：

根据目标存储区域的标识，以及预设的多个解析线程的数量，确定目标解析线程。

可选地，根据目标存储区域的标识，以及预设的多个解析线程的数量，确定目标解析线程，包括：

对目标存储区域的标识进行哈希处理，得到目标存储区域的标识哈希值；

对标识哈希值和多个解析线程的数量进行取模运算，得到多个解析线程中目标解析线程的序列号。

可选地，对多条日志记录中的日志数据进行备份，包括：

将多条日志记录中的日志数据发送给第二集群，第二集群与第一集群为同构库的集群或者异构库的集群；

或者

将多条日志记录中的日志数据发送给消息中间件。

可选地，将多条日志记录中的日志数据发送给消息中间件，包括：

对标识哈希值和消息中间件的主题序列的数量进行取模运算，得到目标存储区域对应的目标主题序列的序列号；

将多条日志记录中的日志数据发送给目标主题序列。

第三方面，本申请另一实施例提供了一种日志数据备份装置，包括：

采集模块，用于从第一集群中每个区域服务的预写日志文件中采集每个区域服务对应的多条日志记录，其中，每个区域服务预先分配有至少一个存储区域；

确定模块，用于从至少一个存储区域中分别确定每条日志记录对应的目标存储区域；

解析模块，用于采用目标存储区域对应的目标解析线程，对每条日志记录进行解析处理，得到每条日志记录中的日志数据；

备份模块，用于对多条日志记录中的日志数据进行备份。

可选地，解析模块，具体用于：

采用目标解析线程，将每条日志记录反序列化为单位对象；

可选地，解析模块，具体用于：

解析模块，具体用于：

可选地，采集模块，具体用于：

可选地，确定模块，还用于：

可选地，确定模块，具体用于：

可选地，确定模块，还用于：

可选地，确定模块，具体用于：

可选地，备份模块，具体用于：

或者

将多条日志记录中的日志数据发送给消息中间件。

可选地，备份模块，具体用于：

将多条日志记录中的日志数据发送给目标主题序列。

第三方面，本申请另一实施例提供了一种日志数据备份设备，包括：处理器、存储器和总线，存储器存储有处理器可执行的计算机程序，当日志数据备份设备运行时，处理器与存储器之间通过总线通信，处理器执行计算机程序，以执行第一方面任一项的方法。

第四方面，本申请另一实施例提供了一种存储介质，存储介质上存储有计算机程序，计算机程序被处理器运行时执行第一方面任一项的方法。

本申请提供了一种日志数据备份方法、装置、设备及存储介质，日志数据备份方法包括：从第一集群中每个区域服务的预写日志文件中采集每个区域服务对应的多条日志记录，其中，每个区域服务预先分配有至少一个预分配存储区域，从至少一个预分配存储区域中分别确定每条日志记录对应的目标存储区域，采用目标存储区域对应的目标解析线程，对每条日志记录进行解析处理，得到每条日志记录中的日志数据，对多条日志记录中的日志数据进行备份。采用目标解析线程对日志记录进行解析处理，实现了多线程分片并行处理日志记录，各目标存储区域之间不会互相干扰，使各目标存储区域在串行解析的同时也能保证高吞吐量，并且无需对HBase集群的配置进行额外调整。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的日志数据备份方法的流程示意图一；

图2示出了本申请实施例提供的日志数据备份方法的流程示意图二；

图3示出了本申请实施例提供的region迁移的示意图；

图4示出了本申请实施例提供的日志数据备份方法的流程示意图三；

图5示出了本申请实施例提供的日志数据备份方法的流程示意图四；

图6示出了本申请实施例提供的日志数据备份方法的流程示意图五；

图7示出了本申请实施例提供的日志数据备份装置的结构示意图；

图8示出了本申请实施例提供的日志数据备份设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

现有技术中，为了对HBase建立二级索引、实时同步HBase数据到异构库或实现HBase集群的灾备，通常使用三种常用方案：第一种是通过跑批程序对增量数据进行批量采集再批量同步至异构库；第二种是通过HBase的协处理器(coprocessor)对增量、变更数据做监听并同步至异构库；第三种是通过HBase的复制(Replication)功能实现集群间的复制。

然而，第一种方案以增量批采集的方式，只能根据HBase的Rowkey去采集增量的数据，无法采集到更新、删除的数据，这部分数据需要做额外的处理；此外，批量定时采集的实时性不够高，如果定时间隔过短则会频繁读HBase的增量数据，可能会一直处于空读的状态对HBase造成无意义的性能压力；如果定时时间间隔过长则实时性过低。

第二种方案以协处理器同步的方式，需要编写相关的处理逻辑打包集成至HBase的协处理器，所有逻辑都要编写代码配置相对比较繁琐类似于关系型数据库的存储过程和触发器；此外，协处理器实时监听HBase的数据变化以触发事件，严重影响HBase的写入性能。

第三种方案基于HBase的Replication功能通过日志文件的获取和回放来实现HBase集群间的数据同步，这种方式存在以下一些问题：需要对HBase集群配置做一定的调整，只能在使用在同构库的HBase集群间的数据同步；在Region迁移时在极端情况下会出现数据不一致的情况，虽然通过串行Replication机制能解决该问题，仍然会严重影响吞吐量；基于Replication功能无法对压缩的日志文件进行解析。

基于第三种方案，本申请提供了一种日志数据备份方法，采用目标存储区域对应的目标解析线程对日志记录进行解析处理，实现了多线程分片并行处理日志记录，各目标存储区域之间不会互相干扰，使各目标存储区域在串行解析的同时也能保证高吞吐量，并且无需对HBase集群的配置进行额外调整；可以使用在同构库、异构库以及消息中间件之间进行日志备份，以实现数据同步；在region迁移时，能够使用串行处理方式保证日志的有序性和一致性。

下面结合几个具体实施例对本申请提供的日志数据备份方法进行详细说明。

图1示出了本申请实施例提供的日志数据备份方法的流程示意图一，本实施例的执行主体可以为日志数据备份设备，例如可以为终端设备、服务器等。如图1所示，该方法可以包括：

S101、从第一集群中每个区域服务的预写日志文件中采集每个区域服务对应的多条日志记录。

其中，第一集群可以为利用HBase技术在个人电脑服务器上搭建的结构化存储集群，第一集群为HBase集群，第一集群中包括多个区域服务，以三个区域服务为例，可以分别记作：RegionService1、RegionService2、RegionService3，每个区域服务预先分配有至少一个预分配存储区域，以三个预分配存储区域为例，可以记作：region1、region2、region3、region4、region5、region6、region7、region8、region9。

通常情况下，HBase写入数据时为了保证数据一致性以及宕机恢复，默认会开启预写日志的功能，即数据在写入HMemStore的同时还需要写日志文件，也就是说，第一HBase中的每个区域服务均对应有预写日志文件，每个预写日志文件中包括每个区域服务对应的多条日志记录，那么在本实施例中，可以从第一集群中每个区域服务的预写日志文件中采集每个区域服务对应的多条日志记录。

可选地，步骤S101之前，该方法还可以包括：

其中，每个区域服务对应的预设日志存储范围可以根据每个区域服务中至少一个预分配存储区域对应的日志存储范围确定，例如，区域服务RegionService1中包括三个预分配存储区域，可以记作：Region1、Region2、Region3，Region1对应的日志存储范围为000-100，表示该日志存储范围存储的日志记录对应的业务数据在HBase数据库中的主键(rowkey)为000-100，Region2对应的日志存储范围为100-200，Region3对应的日志存储范围为200-300，那么区域服务RegionService1的预设日志存储范围可以为000-300。需要说明的是，预分配存储区域对应的日志存储范围可以为写入操作在HBase数据库中的写入范围，该写入范围可以以rowkey进行表示。

具体地，用户在执行业务数据的写入操作时，都会将该写入操作对应的日志记录存储在第一集群的预写日志文件中，然后可以根据每个区域服务对应的预设日志存储范围，从第一集群的预写日志文件中确定每个区域服务的预写日志文件。

S102、从至少一个预分配存储区域中分别确定每条日志记录对应的目标存储区域。

每个区域服务预先分配有至少一个预分配存储区域，采集得到每个区域服务对应的多条日志记录之后，还可以从至少一个预分配存储区域中确定每条日志记录对应的目标存储区域，也就是说，预分配存储区域和日志记录之间可以具有对应关系，那么根据该对应关系，从至少一个预分配存储区域中确定每条日志记录对应的目标存储区域。

S103、采用目标存储区域对应的目标解析线程，对每条日志记录进行解析处理，得到每条日志记录中的日志数据。

其中，每条日志记录对应的存储区域和解析线程之间可以具有对应关系，那么可以目标存储区域对应的目标解析线程，对每条日志记录进行解析处理，得到每条日志记录中的日志数据，需要说明的是，对日志记录的解析处理可以为提取日志记录针对的业务数据的操作类型、操作值、操作时间戳等属性特征。

可选地，步骤S103之前，该方法还可以包括：

目标存储区域的标识可以为目标存储区域的标识名称，记作：RegionName，预设多个解析线程的数量可以为每个区域服务对应的解析线程的数量，在一种可能的实现中，可以对目标存储区域的标识进行哈希处理，得到目标存储区域的标识哈希值，然后对标识哈希值和多个解析线程的数量进行取模运算，得到多个解析线程中目标解析线程的序列号。

例如，预设的多个解析线程可以分别记作：Thread1、Thread2、Thread3，对目标存储区域的标识RegionName进行哈希处理，得到标识哈希值，该标识哈希值可以为整数类型(int)的数据，例如可以为1234567，然后对标识哈希值和多个解析线程的数量进行取模运算，即取余运算，例如1234567％3＝1，也即1为多个解析线程中目标解析线程的序列号，即目标解析线程为Thread1。

S104、对多条日志记录中的日志数据进行备份。

对每条日志记录进行解析处理，得到每条日志记录中的日志数据之后，还可以将多条日志记录中的日志数据进行备份，以便备份接收方可以根据该日志数据回放多条日志记录针对的业务数据，也即实现了业务数据的同步。

可选地，步骤S104可以包括：

将多条日志记录中的日志数据发送给第二集群；

或者

将多条日志记录中的日志数据发送给消息中间件。

其中，第二集群与第一集群为同构库的集群或者异构库的集群，也就是说，第二集群可以为HBase集群，或者其他集群，将多条日志记录解析得到日志数据，可以直接将多条日志数据发送给第二集群，即实现了日志数据的流式复制，第二集群根据接收到的多条日志记录中的日志数据可以进行业务数据的同步。

当然，还可以将多条日志记录中的日志数据发送给消息中间件，消息中间件例如可以为消息队列(Message Queue，MQ)，以便消息中间件根据接收到的日志数据进行业务数据的同步。

本实施例的日志数据备份方法，从第一集群中每个区域服务的预写日志文件中采集每个区域服务对应的多条日志记录，其中，每个区域服务预先分配有至少一个预分配存储区域，从至少一个预分配存储区域中分别确定每条日志记录对应的目标存储区域，采用目标存储区域对应的目标解析线程，对每条日志记录进行解析处理，得到每条日志记录中的日志数据，对多条日志记录中的日志数据进行备份。在本实施例，采用目标解析线程对日志记录进行解析处理，实现了多线程分片并行处理日志记录，各目标存储区域之间不会互相干扰，使各目标存储区域在串行解析的同时也能保证高吞吐量，并且无需对HBase集群的配置进行额外调整。

下面结合图2实施例对日志记录进行解析处理的一种可能实施方式进行说明，图2示出了本申请实施例提供的日志数据备份方法的流程示意图二，如图2所示，步骤S103可以包括：

S201、采用目标解析线程，将每条日志记录反序列化为单位对象。

S202、根据预设的开始字符和读取长度，从单位对象中读取字节数组。

反序列化指的是把字节序列恢复为Java对象的过程，每条日志记录为二进制的字节序列，单位对象为Java对象，例如可以为Cell(KeyValue)对象，采用目标解析线程可以对每条日志记录进行反序列化处理，将每条日志记录反序列化为单位对象。

其中，预设的开始字符可以记作：offset开始位，读取长度可以记作：length长度，开始字符可以为字节数组的开始字符，读取长度可以为字节数组的读取长度，也就是说，根据指定的字节数组的开始字符和读取长度，可以从单位对象中读取字节数组。

可选地，步骤S202可以包括：

根据每个属性特征对应的开始字符和读取长度，从单位对象中读取每个属性特征。

其中，字节数组包括：读取到的至少一个属性特征，至少一个属性特征例如可以包括：日志记录针对的业务数据的操作类型、操作值、操作时间戳等。

每个属性特征对应的开始字符和读取长度是固定的，因此可以根据每个属性特征对应的开始字符和读取长度，从单位对象中读取每个属性特征。

S203、将读取到的字节数组写入预设的数据对象，得到每条日志记录中的日志数据。

预设的数据对象可以为自定义的pojo对象或Protobuf对象，可以根据预设写入规则，将读取的字节数组作为写入参数，写入预设的数据对象中，写入后的数据对象即为每条日志记录中的日志数据，预设的数据对象可以为自定义的pojo对象或Protobuf对象。

其中，预设的数据对象可以包括多个参数项，分别记作：空间名前缀(namespace)、表名(table name)、列簇(family)、列(columnqualifier)、主键(rowkey)、值(value)，按照预设写入规则，将读取的字节数组分别写入到对应的参数项中，例如，将日志记录针对的业务数据的操作值写入到value中，将日志记录针对的业务数据在HBase数据库中的存储位置写入rowkey中。

可选地，还可以设置黑白名单，从对写入后的数据对象中将黑名单的内容进行过滤，具体地，可以设置关于namespace、table name、column family以及value的黑白名单，将黑名单的数据从写入后的数据对象中过滤，然后根据过滤后的数据对象得到每条日志记录中的日志数据。例如，黑名单的数据为A表的cf:name字段的数据，那么当可以将tablename＝A且family＝cf且column＝name的数据自动过滤掉。

本实施例的日志数据备份方法，采用目标解析线程，将每条日志记录反序列化为单位对象，根据预设的开始字符和读取长度，从单位对象中读取字节数组，将读取到的字节数组写入预设的数据对象，得到每条日志记录中的日志数据。在本实施例，通过该方式可以实现对日志记录的解析，便于备份接收方后续根据日志数据实现业务数据的同步。

示例性地，采用图1-图2实施例所提供的方法可以对日志记录进行解析处理得到日志数据，从而满足分区内日志记录处理的有序性，但在一些情况下，例如region迁移到其他RegionServer，就会出现日志记录的解析顺序的错乱，从而造成后续同步的业务数据不一致的情况。

参考图3，图3示出了本申请实施例提供的region迁移的示意图，如图3所示，迁移之前第一集群两个区域服务，可以分别记作：区域服务1(RegionService1)、区域服务2(RegionService2)，每个区域服务预先分配有三个预分配存储区域，可以记作：预分配存储区域1(region1)、预分配存储区域2(region2)、预分配存储区域3(region3)、预分配存储区域4(region4)、预分配存储区域5(region5)、预分配存储区域6(region6)；若RegionService1中的region1中对某条数据执行了put和delete操作，但是在解析delete操作对应的日志记录之前region1从RegionService1中移到了RegionService2，由于两个RegionServer1、RegionService2对应不同线程在解析，那么delete操作对应的日志记录就有可能发生在put操作对应的日志记录之前被解析，于是就产生了一条脏数据，也即对于某条数据的日志记录的顺序错乱，导致该条数据无法准确同步。

基于此，本申请提供了一种解决region迁移后导致某条数据的日志记录的顺序错乱的问题，参考图4实施例。图4示出了本申请实施例提供的日志数据备份方法的流程示意图三，如图4所示，步骤S103可以包括：

S301、若待解析日志记录对应的目标存储区域为迁移存储区域，获取其他区域服务中最新解析的日志记录的第一序列标识，与待解析日志记录的第二序列标识的偏差。

其中，每个区域服务还可以具有迁移存储区域，迁移存储区域为从其他区域服务迁移的存储区域，也即，每个区域服务下包括预先分配的至少一个预分配存储区域和迁移存储区域，那么日志记录的目标存储区域可以是从至少一个预分配存储区域和迁移存储区域中确定的。

在对每个区域服务下的日志记录进行解析时，若待解析日志记录对应的目标存储区域为迁移存储区域，则获取其他区域服务中最新解析的日志记录的第一序列标识，与待解析日志记录的第二序列标识。其中，第一序列标识可以为最新解析的日志记录在其他区域服务的存储区域(即迁移存储区域)中的标识，该标识可以记作：sequence Id，需要说明的是，在每个预分配存储区域和迁移存储区域中的日志记录均有一个sequenceId，该sequenceId属性在每个预分配存储区域和迁移存储区域内都是按照写入顺序严格递增的。类似地，第二序列标识也可以为待解析日志记录在其他区域服务的存储区域(即迁移存储区域)中的标识。

参考图3，第一序列标识可以为区域服务RegionService1中最新解析的日志记录的sequence Id，第二序列标识可以为待解析日志记录在RegionService1的region1中的sequence Id。

S302、若偏差大于预设的标识单位偏差，则在其他区域服务中采用迁移存储区域对应的解析线程对第二序列标识之前的日志记录进行解析。

S303、在对第二序列标识之前的日志记录解析完成之后，在每个区域服务中采用迁移存储区域对应的解析线程，解析待解析日志记录，得到待解析日志记录中的日志数据。

若其他区域服务中最新解析的日志记录的第一序列标识，与待解析日志记录的第二序列标识的偏差大于预设的标识单位偏差，说明在待解析日志记录的第二序列标识之前，还有未解析的日志记录，则可以在其他区域服务采用迁移存储区域对应的解析线程对第二序列标识之前的日志记录进行解析，然后在解析完成之后，在每个区域服务中采用迁移存储区域对应的解析线程，解析待解析日志记录，得到待解析日志记录中的日志数据。

也就是说，若其他区域服务中最新解析的日志记录还未与第二序列标识相差1，则每个区域服务中采用迁移存储区域对应的解析线程阻塞等待其他区域服务中最新解析的日志记录与第二序列标识相差1，那么每个区域服务中采用迁移存储区域对应的解析线程继续执行，即解析待解析日志记录，得到待解析日志记录中的日志数据，从而使用串行解析的方式保证了日志记录的有序性和一致性。

其中，对待解析日志进行解析处理的具体过程可以参见图2实施例的相关描述，在此不再赘述。

参考图3，标识单位偏差为1，第一序列标识1为2，第二序列标识为10，由于第一序列标识和第二序列标识的偏差为8，则在RegionService1采用region1对应的解析线程对序列标识为8之前的日志记录，即序列标识分别为3至7的日志记录进行解析，在对序列标识分别为3至7的日志记录解析完成之后，在RegionService2采用region1对应的解析线程，解析待解析日志记录，得到待解析日志记录中的日志数据。

需要说明的是，若每个区域服务还具有迁移存储区域，那么每个区域服务对应的预设日志存储范围可以根据每个区域服务中至少一个预分配存储区域对应的日志存储范围，以及迁移存储区域对应的日志存储范围确定，例如，迁移存储区域对应的日志存储范围为300-400，至少一个预分配存储区域对应的日志存储范围分别为000-100、100-200、200-300，那么每个区域服务对应的预设日志存储范围可以为000-400。

本实施例的日志数据备份方法，每个区域服务还具有迁移存储区域，迁移存储区域为从其他区域服务迁移的存储区域，若待解析日志记录对应的目标存储区域为所述迁移存储区域，获取所述其他区域服务中最新解析的日志记录的第一序列标识，与待解析日志记录的第二序列标识的偏差，若偏差大于预设的标识单位偏差，则在其他区域服务中采用迁移存储区域对应的解析线程对第二序列标识之前的日志记录进行解析，在对第二序列标识之前的日志记录解析完成之后，在每个区域服务中采用迁移存储区域对应的解析线程，解析待解析日志记录，得到待解析日志记录中的日志数据。在本实施例，在region迁移时，使用串行处理方式保证日志记录的有序性和一致性，保证了后续业务数据的准确同步。

可选地，步骤S101可以包括：

也就是说，针对每个区域服务可以开启采集线程，采用该采集线程，从每个区域服务器的预写日志文件中采集多条日志记录。需要说明的是，每个区域服务的预写日志文件的数量为至少一个，因此针对每个预写日志文件，可以开启一个采集线程进行采集，其中，每个区域服务的预写日志文件的数量可以根据预设的***设置而定，本实施例对此不做特别限定。若预写日志文件的数量为多个，说明每个区域服务的每个预写日志文件较小，这样可以提高文件的写入性能。

可选地，采用每个区域服务对应的采集线程，从预写日志文件中采集多条日志记录，包括：

其中，每个区域服务对应的多条日志记录可以具有位置编号，例如可以为行号编号，记作：position编号。前一次读取位置可以为前一次在预写日志文件读取的位置编号，由于前一次在进行日志数据备份时，已经读取到前一次读取位置，即已经将前一次读取位置及其之前的日志记录进行了备份，那么在本次进行日志数据备份时，只需从预写日志文件中从前一次读取位置之后开始读取日志记录。

其中，还可以设置每次批量读取的范围，即预设读取范围，预设读取范围可以为从预写日志文件中批量读取的日志记录的位置范围，记作：batch size，在本实施例中，采用采集线程，可以从预写日志文件中前一次读取位置之后开始读取预设范围内的多条日志记录，例如读取第101行至第110行的多条日志记录，预设读取范围为10行，前一次读取位置为第100行。

可选地，采用采集线程，从预写日志文件中前一次读取位置之后开始读取预设读取范围内的多条日志记录，可以包括：

采用采集线程，判断预写日志文件中预设读取范围内是否具有日志记录。

采用采集线程，判断预写日志文件中预设读取范围内是否具有日志记录，若没有日志记录，说明该预设读取范围内不存在对应的写入操作，则可以等待预设时长，从前一次读取位置之后开始重新读取预设读取范围内的多条日志记录，重复循环该步骤，直至从预设读取范围内读取到多条日志记录。

需要说明的是，预设时长可以根据实际情况选择，例如可以为50ms，本实施例对此不做特别限定。

下面结合图5实施例对确定目标存储区域的一种可能的实施方式进行说明，图5示出了本申请实施例提供的日志数据备份方法的流程示意图四，如图5所示，步骤S102可以包括：

S401、获取每条日志记录针对的业务数据在HBase数据库中的存储位置。

S402、根据存储位置和每个预分配存储区域对应的存储位置范围，确定每条日志记录对应的目标存储区域。

每个预分配存储区域对应有存储位置范围，存储位置范围可以为日志存储范围，日志存储范围用于表征该日志存储范围存储的日志记录对应的业务数据在HBase数据库中的行号，例如可以为000-100。

在本实施例中，获取每条日志记录针对的业务数据在HBase数据库中的存储位置，然后根据该存储位置和每个预分配存储区域对应的存储位置范围，可以确定每条日志记录对应的目标存储区域，例如一预分配存储区域的存储位置范围为000-100，日志记录的存储位置为50，可见该日志记录的存储位置落在该存储区域的存储位置范围内，则该预分配存储区域为该日志记录对应的目标存储区域。

本实施例的日志数据备份方法，获取每条日志记录针对的业务数据在HBase数据库中的存储位置，根据存储位置和每个预分配存储区域对应的存储位置范围，确定每条日志记录对应的目标存储区域。在本实施例，根据该方式可以确定出每条日志记录对应的目标存储区域，进而便于后续采用目标存储区域对应的目标解析线程，对每条日志记录进行解析处理。

下面结合图6实施例对将多条日志记录中的日志数据备份至消息中间件的一种可能的实施方式进行说明，图6示出了本申请实施例提供的日志数据备份方法的流程示意图五，如图6所示，将多条日志记录中的日志数据发送给消息中间件，可以包括：

S501、对目标存储区域的标识进行哈希处理，得到目标存储区域的标识哈希值。

S502、对标识哈希值和消息中间件的主题序列的数量进行取模运算，得到目标存储区域对应的目标主题序列的序列号。

S503、将多条日志记录中的日志数据发送给目标主题序列。

其中，消息中间件可以设有多个主题序列，用于存储消息队列，主题序列可以为记作：Topic_0、Topic_1、Topic_2。

目标存储区域的标识可以记作：RegionName，对目标存储区域的标识进行哈希处理，得到标识哈希值，该标识哈希值可以为整数类型(int)的数据，例如可以为1234567，对标识哈希值和消息中间件的主题序列的数量进行取模运算，则有1234567％3＝1，也即1为消息中间件的主题序列中目标主题序列的序列号，即目标主题序列为Topic_1。

需要说明的是，在此使用RegionName作为数据的分片条件而不是RegionServer是因为每个Region都会发送迁移的情况，如果使用RegionServer作为分片的依据，就有可能出现同一存储区域的数据被分发到两个Topic的情况，而Topic之间是被并行消费的，从而无法保证数据消费的分区内有序性，从而造成后续同步的业务数据不一致的情况。

本实施例的日志数据备份方法，对目标存储区域的标识进行哈希处理，得到目标存储区域的标识哈希值，对标识哈希值和消息中间件的主题序列的数量进行取模运算，得到目标存储区域对应的目标主题序列的序列号，将多条日志记录中的日志数据发送给目标主题序列。在本实施例，将日志数据流式复制到消息中间件，并且能保证分区内的数据源一致性，从而能实现流式数据的处理。

图7示出了本申请实施例提供的日志数据备份装置的结构示意图，日志数据备份装置可以集成在日志数据备份设备中。如图7所示，日志数据备份装置70可以包括：

采集模块701，用于从第一集群中每个区域服务的预写日志文件中采集每个区域服务对应的多条日志记录，其中，每个区域服务预先分配有至少一个存储区域；

确定模块702，用于从至少一个存储区域中分别确定每条日志记录对应的目标存储区域；

解析模块703，用于采用目标存储区域对应的目标解析线程，对每条日志记录进行解析处理，得到每条日志记录中的日志数据；

备份模块704，用于对多条日志记录中的日志数据进行备份。

可选地，解析模块703，具体用于：

采用目标解析线程，将每条日志记录反序列化为单位对象；

可选地，解析模块703，具体用于：

解析模块703，具体用于：

可选地，采集模块701，具体用于：

可选地，确定模块702，还用于：

可选地，确定模块702，具体用于：

可选地，确定模块702，还用于：

可选地，确定模块702，具体用于：

可选地，备份模块704，具体用于：

或者

将多条日志记录中的日志数据发送给消息中间件。

可选地，备份模块704，具体用于：

将多条日志记录中的日志数据发送给目标主题序列。

本实施例的日志数据备份装置，实现过程和实现原理可以参见上述方法实施例提供的日志数据备份方法，在此不再赘述。

图8示出了本申请实施例提供的日志数据备份设备的结构示意图，如图8所示，日志数据备份设备80包括：处理器801、存储器802和总线803，存储器802存储有处理器801可执行的计算机程序，当日志数据备份设备80运行时，处理器801与存储器802之间通过总线803通信，处理器801执行计算机程序，以执行上述方法实施例。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种日志数据备份方法，其特征在于，包括：

从第一集群中每个区域服务的预写日志文件中采集所述每个区域服务对应的多条日志记录，其中，每个区域服务预先分配有至少一个预分配存储区域，第一集群为HBase集群；

从所述至少一个预分配存储区域中分别确定每条日志记录对应的目标存储区域；

采用所述目标存储区域对应的目标解析线程，对所述每条日志记录进行解析处理，得到所述每条日志记录中的日志数据；

对所述多条日志记录中的日志数据进行备份。

2.根据权利要求1所述的方法，其特征在于，所述采用所述目标存储区域对应的目标解析线程，对所述每条日志记录进行解析处理，得到所述每条日志记录中的日志数据，包括：

采用所述目标解析线程，将所述每条日志记录反序列化为单位对象；

根据预设的开始字符和读取长度，从所述单位对象中读取字节数组；

将读取到的字节数组写入预设的数据对象，得到所述每条日志记录中的日志数据。

3.根据权利要求2所述的方法，其特征在于，所述根据预设的开始字符和读取长度，从所述单位对象中读取字节数组，包括：

根据每个属性特征对应的所述开始字符和所述读取长度，从所述单位对象中读取所述每个属性特征；所述字节数组包括：读取到的至少一个属性特征。

4.根据权利要求1所述的方法，其特征在于，所述每个区域服务还具有迁移存储区域，所述迁移存储区域为从其他区域服务迁移的存储区域；

所述采用所述目标存储区域对应的目标解析线程，对所述每条日志记录进行解析处理，得到所述每条日志记录中的日志数据，包括：

若待解析日志记录对应的目标存储区域为所述迁移存储区域，获取所述其他区域服务中最新解析的日志记录的第一序列标识，与所述待解析日志记录的第二序列标识的偏差；

若所述偏差大于预设的标识单位偏差，则在所述其他区域服务中采用所述迁移存储区域对应的解析线程对所述第二序列标识之前的日志记录进行解析；

在对所述第二序列标识之前的日志记录解析完成之后，在所述每个区域服务中采用所述迁移存储区域对应的解析线程，解析所述待解析日志记录，得到所述待解析日志记录中的日志数据。

5.根据权利要求1所述的方法，其特征在于，所述从第一集群中每个区域服务的预写日志文件中采集所述每个区域服务对应的多条日志记录，包括：

采用所述每个区域服务对应的采集线程，从所述预写日志文件中采集所述多条日志记录。

6.根据权利要求5所述的方法，其特征在于，所述采用所述采集线程，从所述预写日志文件中采集所述多条日志记录，包括：

采用所述采集线程，从所述预写日志文件中前一次读取位置之后开始读取预设读取范围内的所述多条日志记录。

7.根据权利要求6所述的方法，其特征在于，所述采用所述采集线程，从所述预写日志文件中前一次读取位置之后开始读取预设读取范围内的所述多条日志记录，包括：

采用所述采集线程，判断所述预写日志文件中所述预设读取范围内是否具有日志记录；

若没有日志记录，则等待预设时长之后，从所述前一次读取位置之后开始重新读取所述预设读取范围内的所述多条日志记录。

8.根据权利要求1所述的方法，其特征在于，所述从第一集群中每个区域服务的预写日志文件中采集所述每个区域服务对应的多条日志记录之前，所述方法还包括：

根据所述每个区域服务对应的预设日志存储范围，从所述第一集群的预写日志文件中确定所述每个区域服务的预写日志文件。

9.根据权利要求1所述的方法，其特征在于，所述从所述至少一个预分配存储区域中分别确定每条日志记录对应的目标存储区域，包括：

获取所述每条日志记录针对的业务数据在HBase数据库中的存储位置；

根据所述存储位置和每个预分配存储区域对应的存储位置范围，确定所述每条日志记录对应的目标存储区域。

10.根据权利要求1所述的方法，其特征在于，所述采用所述目标存储区域对应的目标解析线程，对所述每条日志记录进行解析处理，得到所述每条日志记录中的日志数据之前，所述方法还包括：

根据所述目标存储区域的标识，以及预设的多个解析线程的数量，确定所述目标解析线程。

11.根据权利要求10所述的方法，其特征在于，所述根据所述目标存储区域的标识，以及预设的多个解析线程的数量，确定所述目标解析线程，包括：

对所述目标存储区域的标识进行哈希处理，得到所述目标存储区域的标识哈希值；

对所述标识哈希值和所述多个解析线程的数量进行取模运算，得到所述多个解析线程中所述目标解析线程的序列号。

12.根据权利要求1所述的方法，其特征在于，所述对所述多条日志记录中的日志数据进行备份，包括：

将所述多条日志记录中的日志数据发送给第二集群，所述第二集群与所述第一集群为同构库的集群或者异构库的集群；

或者

将所述多条日志记录中的日志数据发送给消息中间件。

13.根据权利要求12所述的方法，其特征在于，所述将所述多条日志记录中的日志数据发送给消息中间件，包括：

对所述标识哈希值和所述消息中间件的主题序列的数量进行取模运算，得到所述目标存储区域对应的目标主题序列的序列号；

将所述多条日志记录中的日志数据发送给所述目标主题序列。

14.一种日志数据备份装置，其特征在于，包括：

采集模块，用于从第一集群中每个区域服务的预写日志文件中采集所述每个区域服务对应的多条日志记录，其中，每个区域服务预先分配有至少一个存储区域；

确定模块，用于从所述至少一个存储区域中分别确定每条日志记录对应的目标存储区域；

解析模块，用于采用所述目标存储区域对应的目标解析线程，对所述每条日志记录进行解析处理，得到所述每条日志记录中的日志数据；

备份模块，用于对所述多条日志记录中的日志数据进行备份。

15.一种日志数据备份设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的计算机程序，当日志数据备份设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述计算机程序，以执行权利要求1-13任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行权利要求1-13任一项所述的方法。