CN112100004A

CN112100004A - Redis集群节点的管理方法、存储介质

Info

Publication number: CN112100004A
Application number: CN202010807783.XA
Authority: CN
Inventors: 刘德建; 林伟; 郭玉湖; 陈宏�
Original assignee: Fujian Tianquan Educational Technology Ltd
Current assignee: Fujian Tianquan Educational Technology Ltd
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2020-12-18

Abstract

本发明提供redis集群节点的管理方法、存储介质，方法包括：当监控程序判定一从节点宕机，则发送第一通知至配置中心；配置中心从路由地址列表中移除所述一从节点，并通过与客户端之间的监听链路通知客户端；监控程序向资源集群申请创建一新从节点；资源集群完成所述一新从节点的创建后，发送第二通知至监控程序；监控程序添加所述一新从节点至路由地址列表，并通过所述监听链路发送通知至客户端。本发明能够自动移除无法自动修复的宕机节点，同时，建立新的节点并添加至集群中。不仅能够确保集群性能良好、稳定；而且实现对集群宕机节点的智能化自动管理，减少人工维护的工作量，提高维护效率。

Description

Redis集群节点的管理方法、存储介质

技术领域

本发明涉及redis集群领域，具体涉及redis集群节点的管理方法、存储介质。

背景技术

业务***或者软件中存在着各种各样的数据，例如配置信息、经常使用到的数据信息、常用的重要数据等。面对上述经常使用到的数据，会有一个存储的地方。正常情况下，一般***会存放在一个统一的地方，比如说redis集群或者本地内存。当客户端请求数据时，预先查询缓存中数据，如果不存在，则程序从数据源中查询出数据，一般是数据库，并返回程序，由程序加载数据至缓存层中，并返回结果数据给客户端。

为了保证redis的高可用性，一般情况下是搭建redis集群来保证其可用性。通常情况下会搭建一主一从或者一主多从的方式来实现redis集群，并设置专门的redis监控程序sentinel(哨兵)来实现redis集群的实时监控。

哨兵的主要功能是当集群中主节点宕机时，能够把其中一个从节点升级成主节点，不影响外部使用。实现该种功能主要是哨兵中的故障检测机制，其有两个节点下线的概念：主观下线(S_DOWN，Subjectively-DOWN)和客观下线(O_DOWN,Objectively-DOWN)。以master节点故障监测为例，如果某个sentinel节点判定master节点故障，他会投出一票S_DO WN，当有足够多的sentinel节点判定master节点故障都投出S_DOWN票时，master节点会被认为是真正的下线。但是需要注意的是，Sentinel只对Master节点做O_DOWN状态判断，对Slave节点和其他Sentinel节点只做S_DOWN状态判断。

此时，使用哨兵功能就会存在一种问题，当集群内从节点宕机或者出现真正问题后(不可自动恢复正常)，哨兵只会监控并从集群中移除从节点；如果该从节点只是因为网络抖动或者其他类似问题，一段时间可自动恢复，则哨兵能够成功监控并重新恢复该从节点。但是如果是因为宕机等问题而引起的从节点不可用，则需要人工手动地进行修复，或者重新添加从节点并加入集群中。如果是一个业务量很大的公司，其内部存在多个的redis，则每次从节点宕机之后都手动地进行从节点的新建并且重新加入集群，就会非常的麻烦，并带来较大的工作量。

因此，有必要提供一种新的架构方式，能够针对现有技术无法自动地移除已无法恢复的从节点，并新增从节点至集群中的问题，从而确保集群性能稳定而良好的问题进行很好地解决。

发明内容

本发明所要解决的技术问题是：提供redis集群节点的管理方法、存储介质，能够更智能地管理集群中节点，减少人工操作。

为了解决上述技术问题，本发明采用的技术方案为：

redis集群节点的管理方法，包括：

当监控程序判定一从节点宕机，则发送第一通知至配置中心；

配置中心从路由地址列表中移除所述一从节点，并通过与客户端之间的监听链路通知客户端；

监控程序向资源集群申请创建一新从节点；

资源集群完成所述一新从节点的创建后，发送第二通知至监控程序；

监控程序添加所述一新从节点至路由地址列表，并通过所述监听链路发送通知至客户端。

本发明提供的另一个技术方案为：

一种计算机可读存储介质，其上存储有计算机程序，所述程序在分配给一个或多个处理器执行时，能够实现上述redis集群节点的管理方法所包含的步骤。

本发明的有益效果在于：提供新的监控方式，能够自动移除无法自动修复的宕机节点，同时，建立新的节点并添加至集群中。本发明不仅能够确保集群性能良好、稳定；而且实现对集群宕机节点的智能化自动管理，减少人工维护的工作量。

附图说明

图1为本发明一实施例一种redis集群节点的管理方法的流程示意图；

图2为本发明一实施例一种redis集群节点的管理架构示意图。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

本发明最关键的构思在于：能够自动移除无法自动修复的宕机节点，同时，建立新的节点并添加至集群中。

请参照图1以及图2，本发明提供redis集群节点的管理方法，包括：

监控程序向资源集群申请创建一新从节点；

从上述描述可知，本发明的有益效果在于：本发明不仅能够确保集群性能良好、稳定；而且实现对集群宕机节点的智能化自动管理，减少人工维护的工作量。

进一步地，还包括：

创建客户端与配置中心之间的监听链路；

当配置中心的路由地址列表发生变更，则通过所述监听链路通知客户端；

客户端访问配置中心，获取变更后的路由地址列表。

由上述描述可知，在客户端与配置中心之间建立起一条监听链路，能够实现客户端实时监控路由地址列表的变更，及时获取最新的路由地址列表，确保客户端与集群维持有效通信。

进一步地，所述第一通知包括对应移除节点的数据处理类型，以及所述一从节点的实例id和集群id；所述第二通知包括对应添加节点的数据处理类型，以及所述一新从节点的实例id和集群id。

由上述描述可知，监控程序与配置中心之间，配置中心与资源集群之间，基于数据结构简单的通知传达即可触发执行相应的操作，具有实施方式简便且效率高的特点。

进一步地，所述监控程序向资源集群申请创建一新从节点，包括：

监控程序发送第三通知至资源集群申请创建一新从节点，所述第三通知包括对应新建节点的数据处理类型，以及复制节点的实例id和集群id；

资源集群依据复制节点的实例id，复制对应节点的实例数据，得到一新从节点。

由上述描述可知，基于同一个集群下所有从节点资源配置一致的特性，监控程序只需通过向资源集群复制特定集群下任一从节点的数据，即可快速新建与宕机从节点相同配置的从节点，为实现快速“修复”宕机从节点提供支持。

本发明提供的另一个技术方案为：

一种计算机可读存储介质，其上存储有计算机程序，所述程序在分配给一个或多个处理器执行时，能够实现下述redis集群节点的管理方法所包含的步骤：

监控程序向资源集群申请创建一新从节点；

进一步地，还包括：

创建客户端与配置中心之间的监听链路；

客户端访问配置中心，获取变更后的路由地址列表。

从上述描述可知，对应本领域普通技术人员可以理解实现上述技术方案中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来实现的，所述的程序可存储于一计算机可读取的存储介质中，该程序在执行时，可包括如上述各方法的流程。所述程序在被处理器执行后，同样能够实现对应各方法的有益效果。

其中，所述的存储介质可以是磁盘、光碟、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

实施例一

请参照图1和图2，本实施例提供一种redis集群节点的管理方法，能够快速“修复”宕机节点，能够确保集群性能稳定，并且具有实施方式简便、高效，且全程自动化等特点。

所述方法基于图2所示的***架构图实现，所述***架构包括客户端、监控程序、配置中心、资源集群和redis集群；如图所示，所述客户端分别与配置中心和redis集群连接；所述监控程序分别与配置中心、redis集群和资源集群连接；所述资源集群还与redis集群连接。

所述方法包括：

S1：redis集群中的每个节点启动后，都将向配置中心写入其节点信息，所述节点信息包括：节点实例ip和节点实例端口；

S2：配置中心存储接收到的节点信息至路由地址列表；所述路由地址列表记载有对应集群中可以正常使用的节点路由地址，其数据记录格式为：节点的实例id(该字段为唯一标识)、节点实例ip和节点实例端口；

S3：客户端访问配置中心，获取路由地址列表，并缓存至本地；

S4：创建客户端与配置中心之间的监听链路；用于当配置中心的路由地址列表发生变更，则通过所述监听链路通知客户端；则客户端通过访问配置中心，获取变更后的路由地址列表，并更新至本地。

S5：监控程序实时监控各集群中各主节点和各从节点的可用性；

具体而言，当某一时刻，监控程序监控到某个从节点无法访问时，则监控程序将判定该从节点本次访问失败，并记录失败一次；若该从节点访问失败的次数连续达到N次以上，则判定该从节点不可用；所述N为大于等于1的整数。

S6：当监控程序判定一从节点宕机，则发送第一通知至配置中心；

具体而言，当监控程序判定某个从节点连续M次访问失败或者在规定时间内均访问失败，则判定该从节点宕机。所述M大于N。

S7：监控程序发送对应宕机从节点的第一通知至配置中心；

所述第一通知的数据记录格式包括对应移除节点的数据处理类型，以及宕机从节点的实例id和集群id；其中，所述数据处理类型用于告知配置中心的处理方式，而实例id和集群id用于后续节点移除和节点新建。

S8：配置中心接收到第一通知后，将从路由地址列表中移除对应的宕机从节点，并通过与客户端之间的监听链路通知客户端；

具体而言，即配置中心从路由地址列表中移除宕机从节点的地址信息，优选为宕机从节点的所有信息；此时，路由地址列表发生了变更，则配置中心将触发通知经监听链路至客户端。

S9：客户端接收到监听链路的发来的通知后，将通过访问配置中心，获取变更后的路由地址列表(即移除了宕机节点的路由地址列表)，对本地的路由地址列表进行更新。在此，客户端将依据新的路由地址列表判断自身连接情况，确保客户端始终与状态正常的从节点进行通信连接。

至此，完成了宕机从节点的自动移除功能。

S10：监控程序向资源集群(如K8S集群)申请资源，请求创建一与宕机从节点配置相同的新从节点，以维持redis集群的性能。

具体而言，该步骤可以包括以下子步骤；

S101：监控程序发送第三通知至资源集群申请创建一新从节点，所述第三通知包括对应新建节点的数据处理类型(新建从节点)，以及复制节点的实例id和集群id；其中，所述复制节点的实例id可以是与宕机节点属于同一个集群内的任一从节点。因为一般而言，同一个集群内的所有从节点资源配置都是一样的。

S102：资源集群依据复制节点的实例id，将其实例数据全部复制过来，得到一个新从节点。

S11：资源集群完成所述一新从节点的创建后，发送第二通知至监控程序；

其中，所述第二通知包括对应添加节点的数据处理类型(添加从节点)，以及所述一新从节点的实例id和集群id。

S12：监控程序添加所述一新从节点至路由地址列表，并通过所述监听链路发送通知至客户端。

S13：客户端依据监听链路的发来的通知，通过访问配置中心，获取变更后的路由地址列表(即新增了从节点的路由地址列表)，对本地的路由地址列表进行更新。

至此，完成了宕机从节点的全自动移除和“修复”。

本实施例通过独立的监控程序针对redis集群进行可用性监控，并实时反馈监控结果信息至配置中心；而客户端访问redis地址时，预先访问配置中心获取可以接入的redis地址列表，当redis集群内部任意从节点故障时，监控程序监控到相关信息后，将会自动移除从节点实例，并实时反馈结果至配置中心，由配置中心通知对应客户端更新路由地址列表；当明确该从节点已宕机后，则由监控程序发出命令，重新创建从节点并加入集群成功后，更新对应路由地址列表，此时，已完成宕机从节点的自动移除与重新创建从节点并自动加入集群的操作，可完全由程序自动化实现，减少维护的工作量，提高效率。

实施例二

本实施例对应实施例一提供一具体运用场景：

redis集群中存在master节点以及slave1和slave2两个从节点。

1、监控程序每秒均会访问master、slave1、slave2节点，检测对应的节点是否可用。当某一时刻，slave1从节点无法访问时，则监控程序判定该从节点本次访问失败，记录失败一次。当某个从节点连续失败次数达到3次时，则判断该从节点不可用。此为判断从节点失败的监控规则。

2、配置中心主要功能为存储redis从节点路由地址列表，每个从节点启动后将会向配置中心写入自身的ip+端口，配置中心的数据记录格式为：redis从节点的实例id(该字段唯一)、实例ip和实例端口。

3、客户端会通过http方式预先访问配置中心，获取redis集群可以正常使用的从节点路由地址列表，并缓存本地。当需要进行redis的数据访问时，使用本地已缓存数据进行查询。同时，配置中心与客户端存在一个监听链路，该监听链路为一个TCP长链接，客户端会与配置中心保持一个这样的长链接，当配置中心路由地址列表变更时，会通过该长链接实时通知客户端，触发客户端重新更新路由地址列表至本地缓存中。

4、假设slave1从节点停电导致宕机。通过监控程序，已达到了步骤1中的从节点失败的监控规则，当连续3次访问slave1失败时，认为该从节点不可用。当连续的1分钟之内访问slave1失败时，认为该从节点宕机。

5、当明确slave1宕机后，监控程序将会向配置中心发出移除从节点slave1的通知消息。该通知消息主要包括：数据处理类型(移除从节点)、从节点slave1的实例id，redis集群id。当配置中心获取到该通知消息时，根据实例id删除路由配置表中从节点slave1的信息，同时，通过步骤2中的监听链路，实时通知客户端，由客户端重新到配置中心拉取最新的路由地址列表，并更新客户端本地缓存。

6、当步骤5结束后，监控程序将会向k8s集群发送创建新的从节点new_slave1的通知消息。该通知消息主要包括：数据处理类型(新建从节点)、复制从节点的实例id和redis集群id。当k8s集群收到该通知消息后，首先k8s集群根据复制从节点的实例id(即slave2的实例id，因为一般情况下某个集群下的所有从节点资源配置都是一样的)，将创建一个新的redis从节点实例出来，称之为new_slave1；new_slave1实例需要从slave2实例中复制完所有数据才算是创建成功。

7、当步骤6中新实例new_slave1创建成功后，k8s集群将会向配置中心发出添加新的从节点new_slave1的通知消息。该通知消息主要包括：数据处理类型(添加新的从节点)、new_slave1从节点的实例id和redis集群id。当配置中心获取到该通知消息时，根据实例id新增路由配置表中的从节点信息，同时，通过步骤2中的监听链路，实时通知客户端，由客户端重新到配置中心拉取最新的路由地址列表，并更新客户端本地缓存。

至此，已经完成了一次宕机从节点的移除与新创建从节点的自动加入集群功能，并且监控程序能够实时针对新的从节点实例进行监控，同时，能够实时的通知客户端进行路由地址变更，客户端无需进行旧节点的下线与新节点的上线配置变更，减少工作量，提高效率。

实施例三

本实施例针对实施例一和实施例二，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序在分配给一个或多个处理器执行时，能够实现上述实施例一或实施例二所述的redis集群节点的管理方法所包含的步骤。具体的步骤在此不进行复述，详情请参阅实施例一和实施例二的记载。

综上所述，本发明提供的redis集群节点的管理方法、存储介质，能够自动移除无法自动修复的宕机节点，同时，建立新的节点并添加至集群中。不仅能够确保集群性能良好、稳定；而且实现对集群宕机节点的智能化自动管理，减少人工维护的工作量，提高维护效率；进一步地，能够确保客户端与集群维持有效通信；进一步地，还具有实施方式简便、实用性强等特点。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.redis集群节点的管理方法，其特征在于，包括：

监控程序向资源集群申请创建一新从节点；

2.如权利要求1所述的redis集群节点的管理方法，其特征在于，还包括：

创建客户端与配置中心之间的监听链路；

客户端访问配置中心，获取变更后的路由地址列表。

3.如权利要求1所述的redis集群节点的管理方法，其特征在于，所述第一通知包括对应移除节点的数据处理类型，以及所述一从节点的实例id和集群id；所述第二通知包括对应添加节点的数据处理类型，以及所述一新从节点的实例id和集群id。

4.如权利要求1所述的redis集群节点的管理方法，其特征在于，所述监控程序向资源集群申请创建一新从节点，包括：

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序在分配给一个或多个处理器执行时，能够实现上述权利要求1-4任意一项所述的redis集群节点的管理方法所包含的步骤。