CN114531373A - 节点状态检测方法、节点状态检测装置、设备及介质 - Google Patents
节点状态检测方法、节点状态检测装置、设备及介质 Download PDFInfo
- Publication number
- CN114531373A CN114531373A CN202210179461.4A CN202210179461A CN114531373A CN 114531373 A CN114531373 A CN 114531373A CN 202210179461 A CN202210179461 A CN 202210179461A CN 114531373 A CN114531373 A CN 114531373A
- Authority
- CN
- China
- Prior art keywords
- node
- state
- nodes
- node group
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 107
- 238000004891 communication Methods 0.000 claims abstract description 23
- 230000004044 response Effects 0.000 claims description 63
- 230000015654 memory Effects 0.000 claims description 24
- 238000000034 method Methods 0.000 claims description 24
- 230000002159 abnormal effect Effects 0.000 claims description 23
- 230000009467 reduction Effects 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 abstract description 6
- 230000036541 health Effects 0.000 description 8
- 238000007726 management method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 238000002955 isolation Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003862 health status Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/104—Peer-to-peer [P2P] networks
- H04L67/1044—Group management mechanisms
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Environmental & Geological Engineering (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供一种节点状态检测方法、节点状态检测装置、设备及介质。节点状态检测方法包括:根据分布式集群中存储池与网段之间的对应关系,将同一存储池内的多个节点划分为同一节点组,同一节点组中的所有节点对应的网段相同。确定节点组中的主节点。基于主节点与节点组中其他节点之间的通信状态,检测节点组中各节点的状态。通过本发明,能够预先将分布式集群中的各节点根据存储池与网段之间的对应关系进行划分,将同一网段对应各节点划分为同一节点组,进而在进行检测时,各节点组中的主节点能够直接与节点组中的其他节点建立通信关系,进行有效检测,从而有助于提高检测结果的准确性,减少检测误差。
Description
技术领域
本发明涉及分布式存储***技术领域,具体涉及一种节点状态检测方法、节点状态检测装置、设备及介质。
背景技术
在海量数据环境下,分布式存储***的集群规模逐渐壮大,进而导致集群复杂度越来越高,因此,在需要对***的扩展性进行高适配的同时,对分布式集群的管理及运维的要求也越来越高、越来越重要。
相关技术中,在检测节点状态时,是通过分布式集群中的主节点检测各节点的健康状态,但部分节点之间的二层网络协议存在通信隔离,进而导致主节点无法与其进行通信,无法检测该节点的健康状态,从而影响检测结果。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中利用分布式集群中的主节点检测其他节点的健康状态的检测结果存在误差的缺陷,从而提供一种节点状态检测方法、节点状态检测装置、设备及介质。
根据第一方面,本发明提供一种节点状态检测方法,所述方法包括:
根据分布式集群中存储池与网段之间的对应关系,将同一存储池内的多个节点划分为同一节点组,同一节点组中的所有节点对应的网段相同;
确定所述节点组中的主节点;
基于所述主节点与所述节点组中其他节点之间的通信状态,检测所述节点组中各节点的状态。
在该方式中,预先将分布式集群中的各节点根据存储池与网段之间的对应关系进行划分,将同一网段对应各节点划分为同一节点组,进而在进行检测时,各节点组中的主节点能够直接与节点组中的其他节点建立通信关系,进行有效检测,从而有助于提高检测结果的准确性,减少检测误差。
结合第一方面,在第一方面的第一实施例中,所述基于所述主节点与所述节点组中其他节点之间的通信状态,检测所述节点组中各节点的状态,包括:
通过所述主节点根据指定时间周期定时向所述节点组中其他节点发送用户数据报协议报文信息;
根据所述主节点接收到的响应信息数量,检测所述节点组中各节点的状态,所述响应信息数量为目标节点根据所述数据报协议报文信息进行响应所发送的响应信息的数量,所述目标节点为所述节点组中的至少一个其他节点。
结合第一方面的第一实施例,在第一方面的第二实施例中,所述根据所述主节点接收到的响应信息数量,检测所述节点组中各节点的状态,包括:
确定所述节点组中其他节点的节点数量;
若所述响应信息数量大于或者等于1且小于所述节点数量,则确定所述主节点的状态为健康状态,确定发送所述响应信息的目标节点的状态为健康状态,确定未发送所述响应信息的目标节点的状态为异常状态;
若所述响应信息数量等于所述节点数量,则确定所述节点组中所有节点的状态均为健康状态。
结合第一方面的第二实施例,在第一方面的第三实施例中,所述根据所述主节点接收到的响应信息数量,检测所述节点组中各节点的状态,包括:
若所述响应信息数量为0,则确定所述主节点的状态为异常状态。
结合第一方面的第二实施例,在第一方面的第四实施例中,若确定所述主节点的状态为异常状态,则所述方法还包括:
基于所述节点组中的其他节点,重新确定所述节点组的主节点,以便通过重新确定的主节点检测所述节点组中其他节点的状态。
结合第一方面,在第一方面的第五实施例中,所述确定所述节点组中的主节点,包括:
确定所述节点组中每一个节点的优先级;
将所述节点组中优先级最高的节点确定为所述节点组的主节点。
结合第一方面,在第一方面的第六实施例中,所述方法还包括:
若目标存储池的容量状态发生改变,则重新确定所述目标存储池内的多个节点,所述容量状态包括扩容或者缩容;
根据所述目标存储池重新确定的多个节点,更新所述目标存储池对应的目标节点组。
在该方式中,能够根据容器池的容量状态变化,及时更新容器池对应节点组中的节点数量,进而在进行节点检测时,能够避免漏检或者误检的情况发生,从而提高节点状态检测的准确性。
根据第二方面,本发明提供一种节点状态检测装置,所述装置包括:
划分单元,用于根据分布式集群中存储池与网段之间的对应关系,将同一存储池中内的多个节点划分为同一节点组,同一节点组中的所有节点对应的网段相同;
确定单元,用于确定所述节点组中的主节点;
检测单元,用于基于所述主节点与所述节点组中其他节点之间的通信状态,检测所述节点组中每一个节点的状态。
结合第二方面,在第二方面的第一实施例中,所述检测单元,包括:
发送单元,用于通过所述主节点根据指定时间周期定时向所述节点组中其他节点发送用户数据报协议报文信息;
检测单元,用于根据所述主节点接收到的响应信息数量,检测所述节点组中各节点的状态,所述响应信息数量为目标节点根据所述数据报协议报文信息进行响应所发送的响应信息的数量,所述目标节点为所述节点组中的至少一个其他节点。
结合第二方面的第一实施例,在第二方面的第二实施例中,所述检测单元,包括:
第一检测单元,用于确定所述节点组中其他节点的节点数量;
第二检测单元,用于若所述响应信息数量大于或者等于1且小于所述节点数量,则确定所述主节点的状态为健康状态,确定发送所述响应信息的目标节点的状态为健康状态,确定未发送所述响应信息的目标节点的状态为异常状态;
第三检测单元,用于若所述响应信息数量等于所述节点数量,则确定所述节点组中所有节点的状态均为健康状态。
结合第二方面的第二实施例,在第二方面的第三实施例中,所述检测单元,还包括:
第四检测单元,用于若所述响应信息数量为0,则确定所述主节点的状态为异常状态。
结合第二方面的第二实施例,在第二方面的第四实施例中,若确定所述主节点的状态为异常状态,则所述装置还包括:
第一调节单元,用于基于所述节点组中的其他节点,重新确定所述节点组的主节点,以便通过重新确定的主节点检测所述节点组中其他节点的状态。
结合第二方面,在第二方面的第五实施例中,所述确定单元,包括:
第一确定单元,用于确定所述节点组中每一个节点的优先级;
第二确定单元,用于将所述节点组中优先级最高的节点确定为所述节点组的主节点。
结合第二方面,在第二方面的第六实施例中,所述装置还包括:
第二调节单元,用于若目标存储池的容量状态发生改变,则重新确定所述目标存储池内的多个节点,所述容量状态包括扩容或者缩容;
第三调节单元,用于根据所述目标存储池重新确定的多个节点,更新所述目标存储池对应的目标节点组。
根据第三方面,本发明还提供一种计算机设备,包括存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面及其可选实施方式中任一项的节点状态检测方法。
根据第四方面,本发明实施方式还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行第一方面及其可选实施方式中任一项的节点状态检测方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例提出的一种节点状态检测方法的流程图。
图2是根据一示例性实施例提出的另一种节点状态检测方法的流程图。
图3是根据一示例性实施例提出的一种节点状态检测装置的结构框图。
图4是根据一示例性实施例提出的另一种节点状态检测装置的结构框图。
图5是根据一示例性实施例提出的一种计算机设备的硬件结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,在检测节点状态时,是通过分布式集群中的主节点检测各节点的健康状态,但部分节点之间的二层网络协议存在通信隔离,进而导致主节点无法与其进行通信,无法检测该节点的健康状态,从而影响检测结果。
为解决上述问题,本发明实施例中提供一种节点状态检测方法,用于计算机设备中,需要说明的是,其执行主体可以是节点状态检测装置,该装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部,其中,该计算机设备可以是终端或客户端或服务器,服务器可以是一台服务器,也可以为由多台服务器组成的服务器集群,本申请实施例中的终端可以是智能手机、个人电脑、平板电脑、可穿戴设备以及智能机器人等其他智能硬件设备。下述方法实施例中,均以执行主体是计算机设备为例来进行说明。
本实施例的计算机设备,用于管理分布式集群中的各节点的状态。在本发明实施例中,预先将分布式集群中各节点根据存储池与网段之间的对应关系进行划分,将同一网段对应各节点划分为同一节点组,进而在进行检测时,各节点组中的主节点能够直接与节点组中的其他节点建立通信关系,进行有效检测,从而有助于提高检测结果的准确性,减少检测误差。
图1是根据一示例性实施例提出的一种节点状态检测方法的流程图。如图1所示,节点状态检测方法包括如下步骤S101至步骤S103。
在步骤S101中,根据分布式集群中存储池与网段之间的对应关系,将同一存储池内的多个节点划分为同一节点组。
在本发明实施例中,同一节点组中的所有节点对应的网段相同。分布式集群在创建过程中,为保证各节点能够正常运行,则在规划管理各节点的管理网络时,是基于该分布式集群所应用的存储池进行规划的,进而能够提高交互安全性。因此,在分布式集群中,存储池与网段之间具有对应关系,不同存储池对应的网段不同,同一存储池中的各节点对应网段相同。
由于不同存储池对应的网段不同,进而当第一存储池中的节点访问第二存储池中的节点时,可能会因为第一存储池所应用的二层网络协议与第二存储池所应用的二层网络协议之间存在网络隔离,导致第一存储池中的节点无法直接访问第二存储池中的节点。因此,为保证节点检测的顺利进行,避免因为网络隔离问题而导致无法对其他节点状态进行检测的情况发生,则将分布式集群中的各节点根据存储池进行划分,将同一存储池中的多个节点划分为同一节点组,进而以组为单位进行节点状态检测时,同一节点组中的各节点能够相互进行通信访问,从而有助于避免误检测的情况发生。
在步骤S102中,确定节点组中的主节点。
在本发明实施例中,针对每一个节点组,对应确定该节点组的主节点,以便通过该主节点检测同一节点组中的其他节点的状态。
在一实施例中,可以采用随机选取的方式,将节点组中的任意一个节点确定为该节点主的主节点,进而有助于提高检测效率。
在另一示例中,可以根据节点组中各节点的优先级,将优先级最高的节点确定为节点组的主节点。在划分节点组时,能够获取各节点的节点信息,例如节点名称。将各节点根据节点名称进行排序,分别为各节点设置不同的优先级,进而明确各节点的优先级。其中,优先级可以根据各节点的排名顺序、性能或者待执行任务量等因素进行设定。例如:若根据排名顺序确定各节点的优先级时,则排名顺序越靠前的节点对应的优先级越高。若根据性能确定各节点的优先级时,则性能越好的节点对应的优先级越高。若根据待执行任务量确定各节点的优先级时,则待执行业务量越少的节点对应的优先级越高。
在步骤S103中,基于主节点与节点组中其他节点之间的通信状态,检测节点组中各节点的状态。
在本发明实施例中,由于同一节点组中的各节点对应的网段相同,进而在各节点的通信状态均为通信正常的情况下,任一节点组的主节点均能够与其所在节点组中的其他节点直接进行通信交互。若某一节点的通信状态为通信异常时,则容易无法接收其他节点发送的交互信息,进而导致无法与其他节点进行通信交互。因此,在检测节点组中各节点的状态时,可以基于主节点与节点组中其他节点之间的通信状态进行检测,进而有助于提高检测效率,便于快速完成检测。其中,主节点在检测该节点组中各节点的状态时,包括检测该主节点自身的状态和节点组中其他节点的状态。
通过上述实施例,预先将分布式集群中的各节点根据存储池与网段之间的对应关系进行划分,将同一网段对应各节点划分为同一节点组,进而在进行检测时,各节点组中的主节点能够直接与节点组中的其他节点建立通信关系,进行有效检测,从而有助于提高检测结果的准确性,减少检测误差。
由于分布式集群中各节点组通过其主节点检测节点组中各节点的状态的过程相同,因此,为便于描述,以下实施例将以单个节点组中的主节点检测该节点组中各节点的状态为例进行具体说明。
预先设定主节点能够自动检测节点组中各节点状态的指定时间周期,进而主节点能够根据指定时间周期定时向其他节点发送用户数据报协议(User Datagram Protocol,UDP)报文信息以访问其他节点,从而根据接收到的其他节点反馈的响应信息数量对各节点的状态进行检测。其中,指定时间周期可以根据需求进行设定,例如:每隔10分钟检测一次。
由于用户数据报协议是一种无需建立连接便可以发送封装的互联网协议(Internet Protocol,IP)地址数据包的协议,进而主节点向目标节点发送用户数据报协议报文信息时,无需预先建立通信关系,便可以直接将用户数据报协议报文信息发送至目标节点。其中,目标节点可以为节点组中的任意一个或者多个其他节点。例如:主节点可以采用广播的形式,对节点组中的其他节点发送用户数据报协议报文信息。
在主节点和目标节点的状态均为健康状态的情况下,主节点向目标节点发送用户数据报协议报文信息后,目标节点能够根据接收到的用户数据报协议报文信息进行响应,并向主节点发送响应信息进行反馈。若目标节点的状态为异常状态,则主节点向目标节点发送用户数据报协议报文信息后,目标节点无法根据接收到的用户数据报协议报文信息进行响应,进而导致无法向主节点发送响应信息进行反馈。若主节点的状态为异常时,则主节点向目标节点发送用户数据报协议报文信息时,只能执行发送动作,并不能真正的将用户数据报协议报文信息发送至节点组中的其他节点,进而导致节点组中的其他节点接收不到主节点发送的用户数据报协议报文信息,从而也无法进行响应。
因此,为便于检测节点组中各节点的状态,则主节点可以根据接收到的响应信息数量,确定节点组中各节点的状态。
在一实施场景中,主节点发送的用户数据报协议报文信息中包括主节点网口的媒体存取控制位址(Media Access Control Address,mac地址)和目标节点网口的mac地址。其中,主节点网口的mac地址为源mac,目标地址网口的mac为目标mac。在主节点的状态和目标节点的状态均为健康状态的情况下,当目标节点接收到用户数据报协议报文信息后,将该用户数据报协议报文信息中的源mac和目标地址进行对调,将目标地址的mac作为源mac,主节点的mac作为目标mac,进而根据对调后的源mac和目标mac向主节点发送响应信息进行反馈,从而主节点根据接收到的响应信息便可以确定该目标节点的状态为健康状态。
在一实施例中,在划分节点组的过程中,能够确定节点组中所有节点的总节点数量。由于响应信息是由节点组中其他节点发送的信息,因此,主节点接收到的响应信息数量最大值与节点组中其他节点的节点数量相同。其中,节点数量=总节点数量-1,1为主节点的数量。若主节点节接受到的响应信息数量大于或者等于1且小于节点数量,则表征主节点能够将用户数据报协议报文信息发送至目标节点中,进而可以确定主节点的状态为健康状态,并且可以确定发送响应信息的目标节点的状态为健康状态,确定未发送响应信息的目标节点的状态为异常状态。若响应信息数量等于节点数量,则表征节点组中的其他节点均进行了反馈,向主节点发送了响应信息,因此,可以确定节点组中的所有节点的状态均为健康状态。
在又一实施例中,若响应信息数量为0,则表征主节点虽然执行了发送用户数据报协议报文信息的动作,但并没有真正的将用户数据报协议报文信息发送至目标节点中,进而可以确定该主节点的状态为异常状态。
在又一实施例中,通过节点状态检测,当确定主节点或者目标节点的状态为异常状态时,则将该主节点或者目标节点的状态为异常状态的事件进行上报告警,以告知用户该主节点或者目标节点出现故障,以便用户能够及时进行针对性维护,进而降低损失。
在又一实施例中,为提高节点状态检测效率,避免检测时间过长,影响节点状态检测进程,则预设主节点接收响应信息的等待时间阈值。等待时间阈值为主节点等待接收响应信息的最大等待时间。当主节点向其他节点发送用户数据报协议报文信息后,开始统计主节点接收响应信息的等待时间。若等待时间未超过等待时间阈值且主节点接收到的目标节点发送的响应信息,则确定主节点的状态为健康状态,并持续等待接收响应信息。当等待时间大于等待时间阈值,则停止等待,并将在等待时间阈值内发送响应信息的目标节点的状态确定为健康状态,将未发送响应信息的目标节点的状态确定为异常状态。若等待时间大于等待时间阈值且主节点接收到的响应信息数量为0,则确定主节点的状态为异常状态。
在一示例中,当确定主节点的状态为异常状态后,则基于节点组中的其他节点,重新确定节点组的主节点,以便通过重新确定的主节点检测节点组中其他节点的状态,以保证节点组内的节点状态检测能够顺利进行。
图2是根据一示例性实施例提出的另一种节点状态检测方法的流程图。如图2所示,节点状态检测方法包括如下步骤。
在步骤S201中,根据分布式集群中存储池与网段之间的对应关系,将同一存储池内的多个节点划分为同一节点组。
在步骤S202中,确定节点组中的主节点。
在步骤S203中,基于主节点与节点组中其他节点之间的通信状态,检测节点组中各节点的状态。
在步骤S204中,若目标存储池的容量状态发生改变,则重新确定目标存储池内的多个节点。
在本发明实施例中,目标存储池可以理解为是分布式集群中的任意一个或多个存储池。当目标存储池的容量状态发生改变时,则该存储池中所包括的节点信息也相应发生改变。其中,容量状态包括扩容或者缩容,节点信息可以包括各节点网口的mac以及总节点数量。因此,为便于管理目标存储池中的各节点,避免在进行节点状态检测时存在漏检或者误检的情况发生,则重新确定目标存储池内的多个节点。
在一实施场景中,为便于节点组中的主节点能够监控其他节点的状态,则可以在每一个节点中均安装节点健康状态检测客户端程序,进而便于节点信息管理,明确同一节点组中的其他节点。例如:若对存储池的容量状态进行扩充处理时,则可以通过在新增加的节点上开启节点健康状态检测客户端程序,进而加入至该存储池内。若对存储池的容量状态进行缩充处理时,则可以通过在被缩容的节点上关闭节点健康状态检测客户端程序,进而将该节点从该存储池内移除。
在步骤S205中,根据目标存储池重新确定的多个节点,更新目标存储池对应的目标节点组。
在本发明实施例中,若对目标存储池的容量状态进行扩容处理,则目标存储池中的节点数量增多,新增的节点的网段也变为与该目标存储池对应的网段,进而在对该节点组中的节点进行节点状态检测时,需要对新增的节点的状态一并进行节点状态检测。若对目标存储池的容量状态进行缩容处理,则目标存储池中的节点数量减少,进而在对该节点组中的节点进行节点状态检测时,则不包括对被缩除的节点的状态进行节点状态检测。因此,为提高节点状态检测的准确性,则根据目标存储池重新确定的多个节点,更新目标存储池对应的目标节点组,进而避免漏检或者误检的情况发生。
通过上述实施例,能够根据容器池的容量状态变化,及时更新容器池对应节点组中的节点数量,进而在进行节点检测时,能够避免漏检或者误检的情况发生,从而提高节点状态检测的准确性。
基于相同发明构思,本发明还提供一种节点状态检测装置。
图3是根据一示例性实施例提出的一种节点状态检测装置的结构框图。如图3所示,节点状态检测装置包括集群节点分组模块301、节点健康状态检测模块302和分组信息动态管理模块303。
集群节点分组模块301,用于统计分布式集群中的所有的存储池以及每个存储池包含的节点以及存储池内节点的管理网络所对应的网段,并将将同一存储池内的多个节点划分为同一节点组。
节点健康状态检测模块302,用于确定节点组中每一个节点的优先级,并将节点组中优先级最高的节点确定为该节点组的主节点。控制主节点根据指定时间周期定时向节点组中其他节点发送用户数据报协议报文信息,检测节点组中各节点的状态,并将为异常状态的节点进行上报告警。以及当主节点的状态为异常状态时,基于其他节点重新确定主节点,并完成对其他节点的节点状态检测。
分组信息动态管理模块303,用于当目标存储池的容量状态发生改变后,重新确定目标存储池内的多个节点,并更新目标存储池对应的目标节点组。
基于相同发明构思,本发明还提供另一种节点状态检测装置。
图4是根据一示例性实施例提出的另一种节点状态检测装置的结构框图。如图4所示,节点状态检测装置包括划分单元401、确定单元402和检测单元403。
划分单元401,用于根据分布式集群中存储池与网段之间的对应关系,将同一存储池中内的多个节点划分为同一节点组,同一节点组中的所有节点对应的网段相同。
确定单元402,用于确定节点组中的主节点。
检测单元403,用于基于主节点与节点组中其他节点之间的通信状态,检测节点组中每一个节点的状态。
在一实施例中,检测单元403,包括:发送单元,用于通过主节点根据指定时间周期定时向节点组中其他节点发送用户数据报协议报文信息。检测单元,用于根据主节点接收到的响应信息数量,检测节点组中各节点的状态,响应信息数量为目标节点根据数据报协议报文信息进行响应所发送的响应信息的数量,目标节点为节点组中的至少一个其他节点。
在另一实施例中,检测单元,包括:第一检测单元,用于确定所述节点组中其他节点的节点数量。第二检测单元,用于若所述响应信息数量大于或者等于1且小于所述节点数量,则确定所述主节点的状态为健康状态,确定发送所述响应信息的目标节点的状态为健康状态,确定未发送所述响应信息的目标节点的状态为异常状态。第三检测单元,用于若所述响应信息数量等于所述节点数量,则确定所述节点组中所有节点的状态均为健康状态。
在又一实施例中,检测单元,还包括:第四检测单元,用于若响应信息数量为0,则确定主节点的状态为异常状态。
在又一实施例中,若确定主节点的状态为异常状态,则装置还包括:第一调节单元,用于基于节点组中的其他节点,重新确定节点组的主节点,以便通过重新确定的主节点检测节点组中其他节点的状态。
在又一实施例中,确定单元,包括:第一确定单元,用于确定节点组中每一个节点的优先级。第二确定单元,用于将节点组中优先级最高的节点确定为节点组的主节点。
在又一实施例中,装置还包括:第二调节单元,用于若目标存储池的容量状态发生改变,则重新确定目标存储池内的多个节点,容量状态包括扩容或者缩容。第三调节单元,用于根据目标存储池重新确定的多个节点,更新目标存储池对应的目标节点组。
上述节点状态检测装置的具体限定以及有益效果可以参见上文中对于节点状态检测方法的限定,在此不再赘述。上述各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图5是根据一示例性实施例提出的一种计算机设备的硬件结构示意图。如图5所示,该设备包括一个或多个处理器510以及存储器520,存储器520包括持久内存、易失内存和硬盘,图5中以一个处理器510为例。该设备还可以包括:输入装置530和输出装置540。
处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接,图5中以通过总线连接为例。
处理器510可以为中央处理器(Central Processing Unit,CPU)。处理器510还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器520作为一种非暂态计算机可读存储介质,包括持久内存、易失内存和硬盘,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的业务管理方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述任意一种节点状态检测方法。
存储器520可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据、需要使用的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器520可选包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至数据处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置530可接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。
一个或者多个模块存储在存储器520中,当被一个或者多个处理器510执行时,执行如图1-图2所示的方法。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,具体可参见如图1-图2所示的实施例中的相关描述。
本发明实施例还提供了一种非暂态计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的认证方法。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccess Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种节点状态检测方法,其特征在于,所述方法包括:
根据分布式集群中存储池与网段之间的对应关系,将同一存储池内的多个节点划分为同一节点组,同一节点组中的所有节点对应的网段相同;
确定所述节点组中的主节点;
基于所述主节点与所述节点组中其他节点之间的通信状态,检测所述节点组中各节点的状态。
2.根据权利要求1所述的方法,其特征在于,所述基于所述主节点与所述节点组中其他节点之间的通信状态,检测所述节点组中各节点的状态,包括:
通过所述主节点根据指定时间周期定时向所述节点组中其他节点发送用户数据报协议报文信息;
根据所述主节点接收到的响应信息数量,检测所述节点组中各节点的状态,所述响应信息数量为目标节点根据所述数据报协议报文信息进行响应所发送的响应信息的数量,所述目标节点为所述节点组中的至少一个其他节点。
3.根据权利要求2所述的方法,其特征在于,所述根据所述主节点接收到的响应信息数量,检测所述节点组中各节点的状态,包括:
确定所述节点组中其他节点的节点数量;
若所述响应信息数量大于或者等于1且小于所述节点数量,则确定所述主节点的状态为健康状态,确定发送所述响应信息的目标节点的状态为健康状态,确定未发送所述响应信息的目标节点的状态为异常状态;
若所述响应信息数量等于所述节点数量,则确定所述节点组中所有节点的状态均为健康状态。
4.根据权利要求3所述的方法,其特征在于,所述根据所述主节点接收到的响应信息数量,检测所述节点组中各节点的状态,包括:
若所述响应信息数量为0,则确定所述主节点的状态为异常状态。
5.根据权利要求4所述的方法,其特征在于,若确定所述主节点的状态为异常状态,则所述方法还包括:
基于所述节点组中的其他节点,重新确定所述节点组的主节点,以便通过重新确定的主节点检测所述节点组中其他节点的状态。
6.根据权利要求1所述的方法,其特征在于,所述确定所述节点组中的主节点,包括:
确定所述节点组中每一个节点的优先级;
将所述节点组中优先级最高的节点确定为所述节点组的主节点。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若目标存储池的容量状态发生改变,则重新确定所述目标存储池内的多个节点,所述容量状态包括扩容或者缩容;
根据所述目标存储池重新确定的多个节点,更新所述目标存储池对应的目标节点组。
8.一种节点状态检测装置,其特征在于,所述装置包括:
划分单元,用于根据分布式集群中存储池与网段之间的对应关系,将同一存储池中内的多个节点划分为同一节点组,同一节点组中的所有节点对应的网段相同;
确定单元,用于确定所述节点组中的主节点;
检测单元,用于基于所述主节点与所述节点组中其他节点之间的通信状态,检测所述节点组中每一个节点的状态。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-7中任一项所述的节点状态检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的节点状态检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210179461.4A CN114531373A (zh) | 2022-02-25 | 2022-02-25 | 节点状态检测方法、节点状态检测装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210179461.4A CN114531373A (zh) | 2022-02-25 | 2022-02-25 | 节点状态检测方法、节点状态检测装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114531373A true CN114531373A (zh) | 2022-05-24 |
Family
ID=81624292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210179461.4A Pending CN114531373A (zh) | 2022-02-25 | 2022-02-25 | 节点状态检测方法、节点状态检测装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114531373A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115118635A (zh) * | 2022-06-29 | 2022-09-27 | 济南浪潮数据技术有限公司 | 一种时延检测方法、装置、设备及存储介质 |
CN116170446A (zh) * | 2023-04-20 | 2023-05-26 | 成都致学教育科技有限公司 | 一种基于边缘云的数据处理方法和*** |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1859599A (zh) * | 2006-03-08 | 2006-11-08 | 华为技术有限公司 | 一种带宽管理装置及方法 |
CN104754016A (zh) * | 2013-12-31 | 2015-07-01 | ***通信集团河南有限公司 | 对等网络中节点集群实现方法、装置及*** |
CN204719176U (zh) * | 2015-06-19 | 2015-10-21 | 光一科技股份有限公司 | 一种智能故障指示器 |
CN112367179A (zh) * | 2020-09-25 | 2021-02-12 | 新华三信息安全技术有限公司 | 一种链路切换方法及装置 |
CN112422320A (zh) * | 2020-10-27 | 2021-02-26 | 北京金山云网络技术有限公司 | 服务器的主从切换方法、装置和服务器 |
CN112764993A (zh) * | 2021-01-22 | 2021-05-07 | 苏州浪潮智能科技有限公司 | 一种节点信息收集方法、装置、设备及可读存储介质 |
CN113254245A (zh) * | 2020-02-13 | 2021-08-13 | 北京沃东天骏信息技术有限公司 | 一种存储集群的故障检测方法和*** |
-
2022
- 2022-02-25 CN CN202210179461.4A patent/CN114531373A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1859599A (zh) * | 2006-03-08 | 2006-11-08 | 华为技术有限公司 | 一种带宽管理装置及方法 |
CN104754016A (zh) * | 2013-12-31 | 2015-07-01 | ***通信集团河南有限公司 | 对等网络中节点集群实现方法、装置及*** |
CN204719176U (zh) * | 2015-06-19 | 2015-10-21 | 光一科技股份有限公司 | 一种智能故障指示器 |
CN113254245A (zh) * | 2020-02-13 | 2021-08-13 | 北京沃东天骏信息技术有限公司 | 一种存储集群的故障检测方法和*** |
CN112367179A (zh) * | 2020-09-25 | 2021-02-12 | 新华三信息安全技术有限公司 | 一种链路切换方法及装置 |
CN112422320A (zh) * | 2020-10-27 | 2021-02-26 | 北京金山云网络技术有限公司 | 服务器的主从切换方法、装置和服务器 |
CN112764993A (zh) * | 2021-01-22 | 2021-05-07 | 苏州浪潮智能科技有限公司 | 一种节点信息收集方法、装置、设备及可读存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115118635A (zh) * | 2022-06-29 | 2022-09-27 | 济南浪潮数据技术有限公司 | 一种时延检测方法、装置、设备及存储介质 |
CN116170446A (zh) * | 2023-04-20 | 2023-05-26 | 成都致学教育科技有限公司 | 一种基于边缘云的数据处理方法和*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107295080B (zh) | 应用于分布式服务器集群的数据存储方法和服务器 | |
CN108696581B (zh) | 分布式信息的缓存方法、装置、计算机设备以及存储介质 | |
US8295963B2 (en) | Methods for performing data management for a recipe-and-component control module | |
CN114531373A (zh) | 节点状态检测方法、节点状态检测装置、设备及介质 | |
WO2021072847A1 (zh) | 计算机网络状况监控方法、装置、计算机设备及存储介质 | |
CN114070739B (zh) | 一种集群部署方法、装置、设备和计算机可读存储介质 | |
US7499987B2 (en) | Deterministically electing an active node | |
US10735478B2 (en) | Controller and method for setting up communication links to redundantly operated controllers in an industrial automation system | |
CN111400041A (zh) | 服务器配置文件的管理方法、装置及计算机可读存储介质 | |
CN112637265B (zh) | 一种设备管理方法、装置及存储介质 | |
CN111427689B (zh) | 集群保活方法、装置及存储介质 | |
CN108234215B (zh) | 一种网关的创建方法、装置、计算机设备及存储介质 | |
US20150244780A1 (en) | System, method and computing apparatus to manage process in cloud infrastructure | |
CN108021407B (zh) | 基于网络设备的业务处理方法及装置 | |
CN111934909A (zh) | 主备机ip资源切换方法、装置、计算机设备和存储介质 | |
US20190007482A1 (en) | Systems and methods for cross-cluster service provision | |
US11853175B2 (en) | Cluster system and restoration method that performs failover control | |
CN115242687B (zh) | 一种节点探活方法、装置、设备及介质 | |
CN114979141B (zh) | 一种任务处理方法、装置、设备以及存储介质 | |
KR102518774B1 (ko) | 배전계통 감시 제어를 위한 전단처리 장치 및 방법 | |
JP7277206B2 (ja) | 通信制御装置および方法 | |
CN110532135B (zh) | 一种集群***的服务迁移方法、***、设备及存储介质 | |
WO2024014047A1 (ja) | 制御システム、制御装置および通信方法 | |
US10606232B2 (en) | Controller system and control method | |
CN117492944A (zh) | 任务调度方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |