CN107026762B

CN107026762B - 一种基于分布式集群的容灾***及方法

Info

Publication number: CN107026762B
Application number: CN201710372773.6A
Authority: CN
Inventors: 张大帅
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2017-05-24
Filing date: 2017-05-24
Publication date: 2020-07-03
Anticipated expiration: 2037-05-24
Also published as: CN107026762A

Abstract

本发明公开了一种基于分布式集群的容灾***，所述***包括状态检测模块和多个数据节点；所述数据节点均设置有管理***进程，正在运行所述管理***进程的数据节点为管理节点，所述管理节点用于对全部所述数据节点进行管理；当作为管理节点的数据节点发生故障时，所述状态检测模块用于选择任一个非故障数据节点，将所选择的非故障数据节点作为当前管理节点；本发明所公开的***，极大地增加了管理节点灾备的冗余度，可以尽可能的保证企业业务顺利运行；本发明还公开了一种基于上述容灾***的容灾方法，同样具有上述有益效果。

Description

一种基于分布式集群的容灾***及方法

技术领域

本发明涉及网络通信技术领域，尤其涉及一种基于分布式集群的容灾***；本发明还涉及一种基于分布式集群的容灾方法。

背景技术

当前，随着网络通信技术的发展以及企业规模的不断扩大，企业的业务对于网络的依赖性越来越大。但是由于各种天灾人祸的发生，企业的业务会发生中断，这将给企业带来巨大的财产损失。所以现代企业需要一套完善的容灾***以保证企业业务的正常进行。

在当今社会，企业的业务通常是在由分布式集群所构成的***中运行的，此时企业就需要对分布式集群进行容灾建设，以保证企业业务的正常运行。

在分布式集群中，通常拥有一个管理节点，专门用于对其他的节点进行管理。在现有技术中，通常是设置一个备用节点，所述备用节点的同样能起到与管理节点相同的作用，但是在备用节点中的管理进程通常情况下是关闭的。上述管理节点与备用节点之间进行心跳连接，用以判断彼此的存活状态。当管理节点发生故障时，备用节点才会接替管理节点来提供管理服务。

但是在现有技术中，会出现管理节点和备用节点都不可用的情况，此时整个***将会受到影响，整个企业的业务将会发生中断，这会对企业造成严重的财产损失。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于分布式集群的容灾***，可以极大增加管理节点灾备的冗余度；本发明的另一目的在于提供一种基于分布式集群的容灾方法，可以有效增加管理节点灾备的冗余度，使企业业务顺利运行。

为了解决上述问题，本发明提供了一种基于分布式集群的容灾***，所述***包括：

状态检测模块和多个数据节点；

所述数据节点均设置有管理***进程，正在运行所述管理***进程的数据节点为管理节点，所述管理节点用于对全部所述数据节点进行管理；

当作为管理节点的数据节点发生故障时，所述状态检测模块用于选择任一个非故障数据节点，将所选择的非故障数据节点作为当前管理节点。

可选的，所述状态监测模块还用于：

测量各个所述数据节点的负载状态值；

当所述作为管理节点的数据节点的负载状态值超过预先设定的阈值时，将对应数据节点的管理***进程关闭，选择任一个所述非故障数据节点，将所选择的非故障数据节点作为当前管理节点。

可选的，所述非故障数据节点为负载状态值最小的数据节点。

可选的，所述管理节点还用于提供公共管理平台，所述平台用于显示各个所述数据节点的状态参数。

可选的，所述状态检测模块还用于：

当所述作为管理节点的数据节点发生故障时，向所述公共管理平台推送故障信息。

本发明还提供了一种基于分布式集群的容灾犯法，所述方法包括：

当管理节点发生故障时，状态检测模块获取所述管理节点的故障信息，所述管理节点为正在运行管理***进程的数据节点，所述管理节点用于对全部所述数据节点进行管理；

所述状态检测模块选择任一个非故障的数据节点；

开启所述非故障的数据节点中的所述管理***进程。

可选的，所述方法进一步包括：

所述状态检测模块测量所述数据节点的负载状态值；

当所述管理节点的负载状态值超过预先设定的阈值时，所述状态检测模块将所述管理节点的管理***进程关闭；

所述状态检测模块选择任一个所述非故障的数据节点；

所述状态检测模块开启所述非故障的数据节点中的管理***进程。

可选的，所述选择任一个所述非故障的数据节点包括：

选择负载状态值最小的数据节点。

可选的，所述方法进一步包括：

当所述管理节点发生故障时，所述状态检测模块向公共管理平台推送故障信息，所述公共管理平台是所述管理节点提供的，用于显示各个所述数据节点的状态参数。

本发明所提供的一种基于分布式集群的容灾***，包括了多个数据节点，并且每个数据节点均设置有管理***进程，正在运行所述管理***进程的数据节点为管理节点，所述管理节点用于对全部所述数据节点进行管理。

当正在对全部节点提供管理服务的管理节点发生故障时，其余所有数据节点均有能力对全部数据节点进行管理，此时选择一个节点对其余所有节点提供管理服务即可。本发明所提供的容灾***，极大地增加了管理节点灾备的冗余度，可以尽可能的保证企业业务顺利运行。本发明还提供了一种基于分布式集群的容灾方法，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其它的附图。

图1为本发明实施例所提供的第一种容灾***的结构示意图；

图2为本发明实施例所提供的第二种容灾***的结构示意图；

图3为本发明实施例所提供的第三种容灾***的结构示意图；

图4为本发明实施例所提供的第一种容灾方法的流程图；

图5为本发明实施例所提供的第二种容灾方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明为一种基于分布式集群的容灾***，在现有技术中，由于通常只设置有一个管理节点和一个备用节点，有时候会出现管理节点和备用节点都不可用的情况，此时整个***将会受到影响，整个企业的业务将会发生中断，这会对企业造成严重的财产损失。出现上述情况的原因在于现有技术所提供的容灾***中，管理节点的冗余度还不足。

而在本发明所提供的容灾***中，每个数据节点均设置有管理***进程，即每个数据节点均有能力对全部数据节点进行管理。本发明所提供的容灾***相对于现有技术，极大的增加了容灾***中管理节点的冗余度，可以有效避免企业的业务发生中断的情况，有效减少由于管理节点发生故障从而给企业造成的财产损失。、

下面将结合附图对本发明做详细描述。

请参考图1，图1为本发明实施例所提供的第一种容灾***的结构示意图，该***包括：

状态检测模块101和多个数据节点102；所述数据节点102均设置有管理***进程，正在运行所述管理***进程的数据节点102为管理节点103，所述管理节点103用于对全部所述数据节点102进行管理；

在本发明实施例中，设置有多个数据节点102，每个数据节点102均可以提供数据业务服务，在每一个数据节点102中，均设置有管理***进程，在通常情况下，大部分数据节点102中的管理***进程是处于关闭状态，只有一个数据节点102的管理***进程是处于开启状态。正在运行管理***进程的数据节点102为管理节点103，所述管理节点103会对全部的数据节点102进行管理，具体包括：对各个数据节点102正在进行的业务进行控制，管理各个数据节点102的开启或者是关闭的时间，检测各个数据节点102所产生的数据的等等，总体而言，管理节点103的其中一项工作是对全部节点进行管理。

当某一个数据节点102的管理***进程开始运行时，该数据节点102可以继续提供原有的数据业务服务，也可以只进行管理业务，即仅对全部数据节点102进行管理，而不再继续提供原有的数据业务服务。

在本发明实施例中，所述状态检测模块101的个数可以只有一个，也可以有多个，通常情况下，会在每一个数据节点102中设置有stat_check(统计检验)进程，所述stat_check进程之间可以通过UDP(用户数据报)协议互相通信，因为所述stat_check进程所占***开销很小，对每个数据节点102的负载影响不大。当然，除了设置stat_check进程，还可以设置其他的进程，或者是其他的模块，其具体个数不做具体限定，全部上述进程或者是模块构成整个状态检测模块101。

当作为管理节点103的数据节点102发生故障时，所述状态检测模块101用于选择任一个非故障数据节点102，将所选择的非故障数据节点102作为当前管理节点103。

在本发明实施例中，由于管理节点103所进行的管理业务通常来说非常复杂，工作量非常大，其对于管理节点103的开销很大，所以通常情况下是管理节点103会首先发生故障。

当作为管理节点103的数据节点102发生故障时，所述状态检测模块101会首先获取所述管理节点103的故障信息，获取故障信息的方式有很多种，例如，管理节点103中某些进程或者是硬件设备由于某些原因发生故障而无法进行管理业务，但是所述管理节点103还可以发出故障信息，在状态检测模块101收到所述故障信息时，将会选择任一个非故障数据节点102，将所选择的非故障数据节点102作为当前管理节点103。

又或者当所述管理节点103发生严重故障时，即无法向外界发送信息时，状态检测模块101会以一定的频率扫描各个数据节点102，当连续扫描管理节点103而无法获得任何信息时，例如状态检测模块101会以每分钟一次的频率扫描各个数据节点102，当连续三次扫描管理节点103而又无法获得所述管理节点103的任何信息时，判断所述管理节点103已经发生了故障，之后状态检测模块101会选择任一个非故障数据节点102，将所选择的非故障数据节点102作为当前管理节点103；当状态检测模块101是由设置在各个数据节点102中的stat_check进程所构成时，上述状态检测模块101会以一定的频率扫描各个数据节点102具体为各个数据节点102中的stat_check进程以一定的频率相互之间进行通信，即把当前数据节点102的状态以某种形式，例如报文的形式通过UDP协议发送至其他数据节点102。当其他数据节点102没有收到由管理节点103所发出的信息连续达到预先设定的次数时，判断所述管理节点103已经发生了故障，之后状态检测模块101会选择任一个非故障数据节点102，将所选择的非故障数据节点102作为当前管理节点103。在实际情况中，还会遇见其他故障的情况，具体的判断方法也不仅仅局限于上述两种，但是无论使用哪种判断管理节点103发生故障的方法，均不影响本发明的实现。

在通常情况下，一般是将上述两种方法结合使用，即当状态检测模块101收到管理节点103所发送的故障信息，或者是当状态检测模块101连续多次没有扫描到管理节点103的信息时，发生上述两种情况的任意一种，状态检测模块101会选择任一个非故障数据节点102，将所选择的非故障数据节点102作为当前管理节点103。当然也可以选择上述两种方法中的一种，在本发明实施例中不做具体限定。

在本发明实施例中，状态检测模块101选择任一个非故障数据节点102可以是随机选择一个非故障的数据节点102，也可以是选择一个符合特定要求的数据节点102，详细情况将在下述实施例中做详细描述，在此不做展开。

在本发明实施例中，所述将所选择的非故障数据节点102作为当前管理节点103，具体是状态检测模块101在选择完一个非故障的数据节点102之后，打开该数据节点102的管理***进程，此时正在运行所述管理***进程的数据节点102为新的管理节点103，该管理节点103开始对全部数据节点102提供管理业务。

本发明实施例所提供的一种基于分布式集群的容灾***，包括了多个数据节点102，并且每个数据节点102均设置有管理***进程，当正在对全部节点提供管理服务的管理节点103发生故障时，其余所有数据节点102均有能力对全部数据节点102进行管理，此时选择一个节点对其余所有节点提供管理服务即可。本发明所提供的容灾***，极大地增加了管理节点103灾备的冗余度，尽可能的保证企业业务顺利运行。

在上述发明实施例中，是在管理节点103发生故障时，才开启另一个管理节点103继续对全部数据节点102提供管理业务。当管理节点103的某些状态参数比较高时，例如负载或者是温度等比较高时，管理节点103也容易发生故障，此时也可以将当前管理节点103关闭，并开启另一个管理节点103，以此来平衡利用***中的资源，延长各个数据节点102的使用时间。

请参考图2，图2为本发明实施例所提供的第二种容灾***的结构示意图，本发明实施例所提供的***与上一份发明实施例所提供的***的区别在于，在本发明实施例所提供的***中，状态检测模块101还可以测量数据节点102的状态值。

在本发明实施例中，所述状态监测模块还用于：

测量各个所述数据节点102的负载状态值；

在本发明实施例中，状态检测模块101可以测量各个数据节点102的状态参数，其中可以有负载状态值，当然还可以有的温度值，湿度值等等。当需要测量温值度时，相应的需要在各个数据节点102中加入温度传感器，当需要测量湿度值时，相应的需要在各个数据节点102中加入湿度传感器。

当所述作为管理节点103的数据节点102的负载状态值超过预先设定的阈值时，将对应数据节点102的管理***进程关闭，选择任一个所述非故障数据节点102，将所选择的非故障数据节点102作为当前管理节点103。

当测量的数据节点102的状态参数是负载状态值时，相应的上述预先设定的阈值即为负载状态的阈值。当然，在上一个步骤中，也可以测量多中状态参数，此时相对应的就会有多个预先设定的阈值与测量的状态参数相对应。在本发明实施例中，负载状态值只是其中的一种个例。当数据节点102的负载状态值比较高时，该数据节点102容易发生故障，所以当所述作为管理节点103的数据节点102的负载状态值超过预先设定的阈值时，例如当管理节点103的负载状态值超过80％时，状态检测模块101会将此时管理节点103的管理***进程关闭，再选择任一个所述非故障的数据节点102，并开启所述非故障的数据节点102中的管理***进程。此时正在运行管理***进程的数据节点102为新的管理节点103，用于对全部数据节点102提供管理服务。

对于数据节点102来说，除了负载状态值高时容易发生故障，其他状态参数高时也容易发生故障，例如：当数据节点102的运行环境的温度比较高时，该数据节点102也容易发生故障。相应的，当所述作为管理节点103的数据节点102的温度值超过预先设定的阈值时，例如当管理节点103的温度值超过70℃时，状态检测模块101会将此时管理节点103的管理***进程关闭，再选择任一个所述非故障的数据节点102，并开启所述非故障的数据节点102中的管理***进程。

更进一步的，所述状态检测模块101选择任一个非故障数据节点102可以是随机选择一个非故障的数据节点102，也可以是选择一个符合特定要求的数据节点102。

本发明实施例中，所述非故障数据节点102为负载状态值最小的数据节点102，即当状态检测模块101发现管理节点103宕机时，或者是当状态检测模块101检测到当前管理节点103的负载状态值不符合要求时，可以选择此时在整个***中，负载状态值最小的数据节点102，将该数据节点102的管理***进程打开，此时该数据节点102即为管理节点103，用于对全部数据节点102提供管理业务。

由于运行管理***进程所消耗的资源比较多，会极大增加数据节点102的负载状态值，此时把整个***中负载状态值最小的数据节点102来当作是管理节点103来对全部数据节点102提供管理业务，可以很好的平衡整个***的资源，使整个***的资源利用率显著提高。

当***中有多个并列的拥有最小负载状态值的数据节点102时，由于在***中，为了区分各个数据节点102，会给每个数据节点102添加一个特定的序列号，当出现有多个拥有最小负载状态值的数据节点102时，可以从多个拥有最小负载状态值的数据节点102中选择序列号最小的数据节点102当作是管理节点103，当然也可以是选择序列号最大的数据节点102作为管理节点103，同样也可以通过其他方法选出某一个数据节点102作为管理节点103，在此不做具体限定。

本发明实施例所提供的一种基于分布式集群的容灾***，当管理节点103的状态参数，例如负载状态值比较高时，为了预防该管理节点103发生故障，可以换成另一个数据节点102对整个***提供管理业务。更进一步的，当需要换管理节点103时，可以把当前***中负载状态值最小的数据节点102当成管理节点103，以此来更好的平衡整个***的资源。

为了方便工作人员对于整个***当前状态的掌握，管理节点103可以进一步的提供公共管理平台。

请参考图3，图3为本发明实施例所提供的第三种容灾***的结构示意图，本发明实施例所提供的***与前两个发明实施例所提供的***的不同之处在于，在本发明实施例中管理节点103会提供公共管理平台301，所述平台用于显示各个所述数据节点102的状态参数。

状态检测模块101在测量到各个数据节点102的状态参数之后，会上传到所述管理节点103提供的公共管理平台301，用于显示各个所述数据节点102的状态参数。

工作人员通过所述公共管理平台301除了可以查看各个数据节点102的状态参数，进一步的还可以通过公共管理平台301对各个数据节点102进行管理，例如对各个数据节点102正在进行的业务进行控制，管理各个数据节点102的开启或者是关闭的时间等等。所述公共管理平台301除了上述功能外，还可以有其他的功能，在此不做具体限定。公共管理平台301的作用仅仅是方便工作人员直接对整个***进行管理。

当所述作为管理节点103的数据节点102发生故障时，状态检测模块101还会向所述公共管理平台301推送故障信息。

当管理节点103发生故障时，状态检测模块101可以进一步的向公共管理平台301推送故障信息，其中，故障信息可以包括有发生故障节点的序列号，故障时间，故障原因等，以此来提醒工作人员尽快对故障数据节点102进行维修。

当管理节点103的状态参数过高时，例如负载状态值超过了预先设定的阈值时，也可以向公共管理平台301推送更换管理节点103的信息，方便工作人员及时了解当前***的状态。

本发明实施例所提供的一种基于分布式集群的容灾***，管理节点103会提供公共管理平台301，通过公共管理平台301工作人员会及时的了解当前整个***的状态，方法工作人员对整个***进行管理。

请参考图4、图4为本发明实施例所提供的第一种容灾方法的流程图。

本发明实施例所提供的容灾方法应用于在上述任一个实施例中所描述的一种基于分布式集群的容灾***，所述***在上述实施例中以作详细描述，在此不再赘述，具体情况参见上述实施例。

本发明实施例所提供的容灾方法，具体包括：

步骤101：当管理节点发生故障时，状态检测模块获取所述管理节点的故障信息，所述管理节点为正在运行管理***进程的数据节点，所述管理节点用于对全部所述数据节点进行管理。

在本步骤中，状态检测模块获取所述管理节点的故障信息的方式有很多种，已在上述发明实施例中做详细描述，在此不再具体展开。

步骤102：所述状态检测模块选择任一个非故障的数据节点。

步骤103：所述状态检测模块开启所述非故障的数据节点中的所述管理***进程。

在开启所述管理***进程之后，该运行所述管理***进程的数据节点为新的管理节点，所述新的管理节点用于对全部所述数据节点进行管理。

本发明实施例所提供的一种基于分布式集群的容灾方法，当正在对全部节点提供管理服务的管理节点发生故障时，其余所有数据节点均有能力对全部数据节点进行管理，此时选择一个节点对其余所有节点提供管理服务即可。本发明所提供的容灾方法，极大地增加了管理节点灾备的冗余度，尽可能的保证企业业务顺利运行。

在上述发明实施例中，是在管理节点发生故障时，才开启另一个管理节点继续对全部数据节点提供管理业务。当管理节点的某些状态参数比较高时，例如负载或者是温度等比较高时，管理节点也容易发生故障，此时也可以将当前管理节点关闭，并开启另一个管理节点，以此来平衡利用***中的资源，延长各个数据节点的使用时间。

请参考图5，图5为本发明实施例所提供的第二种容灾方法的流程图。

本发明实施例所提供的容灾方法，具体包括：

步骤201：所述状态检测模块测量所述数据节点的负载状态值。

在本发明实施例中，状态检测模块可以测量各个数据节点的状态参数，其中可以有负载状态值，当然还可以有的温度值，湿度值等等。具体情况已在上述实施例中做详细描述，在此不再赘述。

步骤202：当所述管理节点的负载状态值超过预先设定的阈值时，所述状态检测模块将所述管理节点的管理***进程关闭。

当测量的数据节点的状态参数是负载状态值时，相应的上述预先设定的阈值即为负载状态的阈值。当然，在步骤201中，也可以测量多中状态参数，此时相对应的就会有多个预先设定的阈值与测量的状态参数相对应。

步骤203：所述状态检测模块选择任一个所述非故障的数据节点。

更进一步的，所述状态检测模块选择任一个非故障数据节点可以是随机选择一个非故障的数据节点，也可以是选择一个符合特定要求的数据节点。

当状态检测模块发现管理节点宕机时，或者是当状态检测模块检测到当前管理节点的负载状态值不符合要求时，可以选择此时在整个***中，负载状态值最小的数据节点，将该数据节点的管理***进程打开，此时该数据节点即为管理节点，用于对全部数据节点提供管理业务。具体情况已在上述实施例中做详细描述，在此不再赘述。

步骤204：所述状态检测模块开启所述非故障的数据节点中的管理***进程。

在本发明实施例中，可以进一步包括步骤205。

步骤205：当所述管理节点发生故障时，所述状态检测模块向公共管理平台推送故障信息，所述公共管理平台是所述管理节点提供的，用于显示各个所述数据节点的状态参数。

当管理节点发生故障时，状态检测模块可以进一步的向公共管理平台推送故障信息，其中，故障信息可以包括有发生故障节点的序列号，故障时间，故障原因等，以此来提醒工作人员尽快对故障数据节点进行维修。具体情况已在上述实施例中做详细描述，在此不再进行赘述。

本发明实施例所提供的一种基于分布式集群的容灾方法，当管理节点的状态参数，例如负载状态值比较高时，为了预防该管理节点发生故障，可以换成另一个数据节点对整个***提供管理业务。更进一步的，当需要更换管理节点时，可以把当前***中负载状态值最小的数据节点当成管理节点，以此来更好的平衡整个***的资源。本发明实施例所提供的容灾方法还可以通过公共管理平台工作人员会及时的了解当前整个***的状态，方法工作人员对整个***进行管理。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于分布式集群的容灾***，其特征在于，所述***包括：

状态检测模块和多个数据节点；

当作为管理节点的数据节点发生故障时，所述状态检测模块用于选择任一个非故障数据节点，将所选择的非故障数据节点作为当前管理节点；

所述管理节点还用于提供公共管理平台，所述平台用于显示各个所述数据节点的状态参数；

所述状态检测模块用于测量各个所述数据节点的状态参数，并将所述状态参数上传到所述公共管理平台；

所述状态检测模块还用于：

2.根据权利要求1所述***，其特征在于，所述状态监测模块还用于：

测量各个所述数据节点的负载状态值；

3.根据权利要求2所述***，其特征在于，所述非故障数据节点为负载状态值最小的数据节点。

4.一种基于分布式集群的容灾方法，其特征在于，所述方法包括：

所述状态检测模块选择任一个非故障的数据节点；

开启所述非故障的数据节点中的所述管理***进程；

所述方法进一步包括：

当所述管理节点发生故障时，所述状态检测模块向公共管理平台推送故障信息；所述公共管理平台是所述管理节点提供的，用于显示各个所述数据节点的状态参数；

所述状态检测模块测量各个所述数据节点的状态参数，并将所述状态参数上传到所述公共管理平台。

5.根据权利要求4所述方法，其特征在于，所述方法进一步包括：

所述状态检测模块测量所述数据节点的负载状态值；

所述状态检测模块选择任一个所述非故障的数据节点；

6.根据权利要求5所述方法，其特征在于，所述选择任一个所述非故障的数据节点包括：

选择负载状态值最小的数据节点。