CN110659157A

CN110659157A - 一种无损恢复的分布式多语种检索平台及其方法

Info

Publication number: CN110659157A
Application number: CN201910816137.7A
Authority: CN
Inventors: 陆夏根; 朱世伟; 魏墨济; 于俊凤; 李晨; 李宪毅
Original assignee: Anhui Qianrui Technology Co Ltd
Current assignee: Anhui Qianrui Technology Co Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2020-01-07

Abstract

本公开提供了无损恢复的分布式多语种检索平台及其方法。其中，无损恢复的分布式多语种检索平台，包括主节点以及与主节点相互通信的分布式节点；主节点和分布式节点分别对应与一个外存设备相连，外存设备被配置为间隔预设时间存储与其相连的主节点或分布式节点所接收的数据及内存状态；在故障恢复时，将外存设备内的数据直接恢复到本地内存，并调整数据、操作路由算法，使之指向新的节点；主节点被配置为向分布式节点下发查询符合检索条件的多语种数据；分布式节点被配置为在索引内存缓存层的热点索引表中查询符合检索条件的多语种数据；所述热点索引表中存在有访问频度不小于预设访问频度阈值的多语种数据。

Description

一种无损恢复的分布式多语种检索平台及其方法

技术领域

本公开属于多语种大数据处理领域，尤其涉及一种无损恢复的分布式多语种检索平台及其方法。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

在确保高效计算、确保正确结果和实时响应的前提下，必须保证***的高可用性，即发生故障时，实施最快速度的、用户无感知的故障恢复和持续服务。发明人发现，现有流数据处理引擎故障恢复机制还有严重缺陷，会造成数据丢失。另外，当面向海量大数据检索时，要对全表扫描或访问多磁盘，这样降低了索引表查询速度。

发明内容

为了解决上述问题，本公开提供一种无损恢复的分布式多语种检索平台及其方法，其降低内存资源消耗且提高索引表查询速度。

为了实现上述目的，本公开采用如下技术方案：

本公开的第一方面提供一种无损恢复的分布式多语种检索平台。

一种无损恢复的分布式多语种检索平台，包括：

主节点以及与主节点相互通信的分布式节点；主节点和分布式节点分别对应与一外存设备相连，所述外存设备被配置为间隔预设时间存储与其相连的主节点或分布式节点所接收的数据及内存状态；在故障恢复时，将外存设备内的数据直接恢复到本地内存，并调整数据、操作路由算法，使之指向新的节点；

所述主节点被配置为：向分布式节点下发查询符合检索条件的多语种数据；

所述分布式节点被配置为：

在索引内存缓存层的热点索引表中查询符合检索条件的多语种数据；所述热点索引表中存在有访问频度不小于预设访问频度阈值的多语种数据；

当热点索引表中存在符合检索条件的多语种数据时，则直接将查询到的多语种数据上传至主节点；

当热点索引表中不存在符合检索条件的多语种数据时，则转到索引持久化存储层继续查询符合检索条件的多语种数据，并将查询结果上传至主节点。

本公开的第二方面提供一种无损恢复的分布式多语种检索平台的工作方法。

一种无损恢复的分布式多语种检索平台的工作方法，包括：

在故障恢复时，将外存设备内的数据直接恢复到本地内存，并调整数据、操作路由算法，使之指向新的节点；

在查询数据时，主节点向分布式节点下发查询符合检索条件的多语种数据；

分布式节点在索引内存缓存层的热点索引表中查询符合检索条件的多语种数据；热点索引表中存在有访问频度不小于预设访问频度阈值的多语种数据；

本公开的有益效果是：

本公开的主节点和分布式节点分别对应与一外存设备相连，外存设备被配置为间隔预设时间存储与其相连的主节点或分布式节点所接收的数据及内存状态；在故障恢复时，将外存设备内的数据直接恢复到本地内存，并调整数据、操作路由算法，使之指向新的节点，降低了内存资源消耗，使得整个检索平台在发生故障时，能够实施最快速度的、用户无感知的故障恢复和持续服务。

本公开首先到索引内存缓存层查询热点索引数据，若缓存中不存在该记录，则将查询转发到索引持久化存储层进行检索，通过将索引热点数据缓存在内存中，部分查询可以直接在内存中命中结果集，从而降低了磁盘访问开销，提高整体查询性能，这对于具有倾斜的数据访问分布特性的应用来说尤为有效。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开实施例的无损恢复的分布式多语种检索平台结构示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例的一种无损恢复的分布式多语种检索平台，包括：

所述分布式节点被配置为：

作为一种可选实施方式，主节点和分布式节点还分别与对应一备份节点相连；

当主节点或分布式节点失效时，相应备份节点代替与其相连的主节点或分布式节点工作。

这种方案要求备份节点具有过滤重复信息的功能。这种方案我们实现了内存版本和外存版本，外存版本的资源占用很少，但需要一定的恢复时间。另外，备份节点的上线需要一定的恢复过程，这个过程的长短取决于节点与上游节点的消息反馈的周期和消息的发送速率

在具体实施中，在所述分布式节点中，所述索引持久化存储层中持久化存储有HBase，所述HBase中存储有多个非主键属性索引表，每个非主键属性索引表用来对应存储管理用户表中的一个待查询非主键属性的索引。

Hbase(Hadoop Database)是一个高可靠性、高性能、面向列、可伸缩的分布式存储***。HBase利用Hadoop HDFS作为其文件存储***；利用Hadoop MapReduce来处理HBase中的海量数据。

HBase提供给了两种查询方法和多种组合查询条件：

(1)根据主键直接查找对应的记录。这是速度最快的查询操作。

(2)提供快速扫描的方法，可以让用户组合多种条件进行扫描，例如：

1)指定行主键的特征，例如满足某个前缀、包含某个子字符串或者满足某个正则表达式；

2)指定列前缀的特征，与行主键一样，可以描述多种条件；

3)指定某列的值的特征，例如比较关系、字符串包含关系；

4)指定时间戳范围，例如大于某个时间点的记录，或者最近3次的记录值。

所述索引内存缓存层为分布式内存缓存，使用一致性哈希来确定数据所在的服务器节点；在分布式节点发生变化时，只有和变化分布式节点相邻的节点数据需要迁移。

作为一种可选实施方式，在所述分布式节点中，在索引内存缓存层中执行查询请求时，内存缓存的服务进程对访问到的每条索引数据记录本周期内的访问次数，直到查询请求次数达到预设访问次数阈值，即到达热度计算周期时，服务进程触发缓存的更新替换。

在具体实施中，索引表将为HBase表实现索引数据的持久化存储。由于索引数据是存放在HBase中，每次查询访问HBase表会涉及到很多磁盘访问，进一步考虑把索引中那些访问频度高的索引数据作为热点数据缓存在内存中，形成基于HBase和分布式内存的分层式索引存储和查询机制，进一步提高索引表查询速度。分层式索引存储模型基本的查询过程是：首先到索引内存缓存层查询热点索引数据，若缓存中不存在该记录，则将查询转发到索引持久化存储层进行检索。可以看出，通过将索引热点数据缓存在内存中，部分查询可以直接在内存中命中结果集，从而降低了磁盘访问开销，提高整体查询性能，这对于具有倾斜的数据访问分布特性的应用来说尤为有效。

具体地，所述索引持久化存储层中持久化存储有HBase，所述HBase中存储有多个非主键属性索引表，每个非主键属性索引表用来对应存储管理用户表中的一个待查询非主键属性的索引。

在另一实施例中，通常缓存的容量远远小于保存全部数据的磁盘数据库的容量，所以当缓存满了之后需要选择合适的牺牲者淘汰出缓存，这就是缓存替换策略。本实施例采用热度累积的缓存替换策略，其基本设计思想是周期性地累积记录被访问的次数。

在内存中缓存的索引热点数据基于Redis的集合(Set)存储，Redis Set也是以<key,value>格式来组织数据。索引热点数据的索引主键做Redis Set的key，而索引集合作为Redis Set的value保存在内存缓存中。显然，具有相同索引列值的记录被绑定在同一个集合中，基于索引列值的查询命中是以集合为单位的。同时，它们也是热度累积的基本单位，每个集合都会累积它在一个计算周期内的访问次数。热度累积的缓存替换策略基于与LRU算法相同的假设：最近被访问的数据在最近的未来最有可能被重复访问。算法周期性地计算集合的累积热度，对所有的记录累积热度排序，选择累积热度TOP-K的索引记录缓存到内存中，这就是热度累积的缓存替换策略。

具体地，在索引内存缓存层中执行查询请求时，内存缓存的服务进程对访问到的每条索引数据记录本周期内的访问次数，直到查询请求次数达到预设访问次数阈值，即到达热度计算周期时，服务进程触发缓存的更新替换。

热度累积缓存替换策略的热度计算公式1如下：

其中0<a<1。公式中的countPeriod即热度计算周期，visitCount指当前热度计算周期中，该索引集合被访问的次数。历史热度scoren-1则反映集合累积的历史热度。参数a是衰减系数，用来确定当前周期累积的热度和历史热度在scoren中各自所占的权重。a越大，则最近的访问在数据访问热度中所占的权重越大，历史访问记录对数据热度的影响越小，反之亦然。

为了降低热度计算带来的计算和更新开销，在执行查询请求时，内存缓存的服务进程将会对访问到的每条索引数据记录本周期内的访问次数，此时并不对内存缓存的数据进行替换。直到查询请求次数达到countPeriod，即到达热度计算周期时，服务进程触发缓存的更新替换。按照热度累积公式对所有的记录计算热度，根据热度排序，将热度排序TOP-K的集合记录缓存到内存中，集合中包含的记录条数是不固定的，所以选择TOP-K时，根据缓存空间能够容纳的记录条数限制计算出热度门限，高于门限的集合被缓存到内存中。

然而，在***初始阶段，缓存是大量空闲的。LRU算法在***初始阶段的命中率提升很快，这是由于LRU算法中数据记录是访问即进入缓存，最长时间没有被访问的数据记录会在缓存充满后被淘汰。所以LRU可以快速地进入稳定状态。而热度累积的访问如果在***初始阶段通过周期性地计算热度，等被访问数据记录的热度累积到门限时才可以进入缓存的话，初始阶段预热代价大。所以我们的热度累积算法在缓存空闲阶段做了优化，只要缓存有空闲，就采用“访问即进入”的策略，将所有访问到的记录都***缓存。而当缓存充满以后，热度累积的缓存替换策略根据记录的热度累积评分选择“牺牲者”淘汰出内存，选择获得热度高分的记录保存在缓存中。

本实施例的热度累积的缓存替换策略不仅考虑了数据的访问时间远近，同时考虑了数据的访问频率，所以比LRU更准确。从实验结果看出，热度累积的缓存替换策略明显优于LRU算法，和不使用内存缓存策略相比，可以提升5-15倍的查询性能。

本实施例的无损恢复的分布式多语种检索平台的工作方法，包括：

具体地，在故障恢复时，主节点或分布式节点失效时，相应备份节点代替与其相连的主节点或分布式节点工作。

在索引内存缓存层中执行查询请求时，内存缓存的服务进程对访问到的每条索引数据记录本周期内的访问次数，直到查询请求次数达到预设访问次数阈值，即到达热度计算周期时，服务进程触发缓存的更新替换。

根据索引集合在相应周期内的被访问次数计算所有记录的热度，根据热度排序，将热度排序位于前K位的集合记录缓存到内存中；其中，K为热度门限值；根据缓存空间能够容纳的记录条数限制计算出热度门限K，高于热度门限的集合被缓存到内存中。

本领域内的技术人员应明白，本公开的实施例可提供为方法、***、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种无损恢复的分布式多语种检索平台，其特征在于，包括：

所述分布式节点被配置为：

2.如权利要求1所述的无损恢复的分布式多语种检索平台，其特征在于，主节点和分布式节点还分别与对应一备份节点相连；

3.如权利要求1所述的无损恢复的分布式多语种检索平台，其特征在于，在所述分布式节点中，所述索引持久化存储层中持久化存储有HBase，所述HBase中存储有多个非主键属性索引表，每个非主键属性索引表用来对应存储管理用户表中的一个待查询非主键属性的索引。

4.如权利要求1所述的无损恢复的分布式多语种检索平台，其特征在于，所述索引内存缓存层为分布式内存缓存，使用一致性哈希来确定数据所在的服务器节点；在分布式节点发生变化时，只有和变化分布式节点相邻的节点数据需要迁移。

5.如权利要求1所述的无损恢复的分布式多语种检索平台，其特征在于，在所述分布式节点中，在索引内存缓存层中执行查询请求时，内存缓存的服务进程对访问到的每条索引数据记录本周期内的访问次数，直到查询请求次数达到预设访问次数阈值，即到达热度计算周期时，服务进程触发缓存的更新替换。

6.如权利要求1所述的无损恢复的分布式多语种检索平台，其特征在于，在所述分布式节点中，根据索引集合在相应周期内的被访问次数计算所有记录的热度，根据热度排序，将热度排序位于前K位的集合记录缓存到内存中；其中，K为热度门限值；根据缓存空间能够容纳的记录条数限制计算出热度门限K，高于热度门限的集合被缓存到内存中。

7.一种如权利要求1-6中任一项所述的无损恢复的分布式多语种检索平台的工作方法，其特征在于，包括：

8.如权利要求7所述的无损恢复的分布式多语种检索平台的工作方法，其特征在于，在故障恢复时，主节点或分布式节点失效时，相应备份节点代替与其相连的主节点或分布式节点工作。

9.如权利要求7所述的无损恢复的分布式多语种检索平台的工作方法，其特征在于，在索引内存缓存层中执行查询请求时，内存缓存的服务进程对访问到的每条索引数据记录本周期内的访问次数，直到查询请求次数达到预设访问次数阈值，即到达热度计算周期时，服务进程触发缓存的更新替换。

10.如权利要求7所述的无损恢复的分布式多语种检索平台的工作方法，其特征在于，根据索引集合在相应周期内的被访问次数计算所有记录的热度，根据热度排序，将热度排序位于前K位的集合记录缓存到内存中；其中，K为热度门限值；根据缓存空间能够容纳的记录条数限制计算出热度门限K，高于热度门限的集合被缓存到内存中。