CN106656584B - 一种分布式***无效节点判定方法 - Google Patents

一种分布式***无效节点判定方法 Download PDF

Info

Publication number
CN106656584B
CN106656584B CN201611108759.7A CN201611108759A CN106656584B CN 106656584 B CN106656584 B CN 106656584B CN 201611108759 A CN201611108759 A CN 201611108759A CN 106656584 B CN106656584 B CN 106656584B
Authority
CN
China
Prior art keywords
node
system management
management
safety message
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611108759.7A
Other languages
English (en)
Other versions
CN106656584A (zh
Inventor
陆俊
钱锋
陆鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NR Engineering Co Ltd
Original Assignee
NR Electric Co Ltd
NR Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NR Electric Co Ltd, NR Engineering Co Ltd filed Critical NR Electric Co Ltd
Priority to CN201611108759.7A priority Critical patent/CN106656584B/zh
Publication of CN106656584A publication Critical patent/CN106656584A/zh
Application granted granted Critical
Publication of CN106656584B publication Critical patent/CN106656584B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/508Network service management, e.g. ensuring proper service fulfilment according to agreements based on type of value added network service under agreement
    • H04L41/5096Network service management, e.g. ensuring proper service fulfilment according to agreements based on type of value added network service under agreement wherein the managed service relates to distributed or central networked applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Multi Processors (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开一种分布式***无效节点判定方法,包括如下内容:(1)各节点的进程启动时在网络中间件中注册信息,退出时清理注册信息,网络中间件之间实时同步本节点的进程状态信息;(2)各节点的***管理进程定时发送***管理平安报文,由管理节点的***管理进程接收并进行节点状态更新;(3)管理节点的***管理进程对工作节点依次进行状态检测,判定节点是否正常工作,对于无法正常工作的节点进行退出处理。此种方法可达到更加精准判定节点状态的目标。

Description

一种分布式***无效节点判定方法
技术领域
本发明涉及一种分布式***无效节点判定方法。
背景技术
分布式***(Distributed System)有很多不同的定义,一般认为:“一个分布式***是一些独立的计算机集合,但是对这个***的用户来说,***就像一台计算机一样”。这个定义有两方面的含义:第一,从硬件角度来讲,每台计算机都是自主的;第二,从软件角度来讲,用户将整个***看做是一台计算机。这两者都是必需的,缺一不可。在一个分布式***中,一组独立的计算机节点展现给用户的是一个统一的整体,***拥有多种通用的物理和逻辑资源,可以动态地分配任务,分散的物理和逻辑资源通过计算机网络实现信息交换。主频可达到GHZ的功能强大的微处理器的开发和高速计算机网络的出现是分布式***的产生的基础。
分布式***通常由一个管理节点与多个工作节点组成,节点管理是分布式******管理的核心功能之一。管理节点的***管理进程实时对工作节点的状态进行监督,判断工作节点能否正常工作,将其加入或排除出***。由于节点自身运行状态和网络传输的可靠性等问题(例如报文只能单向传输),异常的工作节点给***带来众多不确定性问题,如数据不一致、返回超时等,快速准确的节点管理策略已成为***管理的难点问题。
发明内容
本发明的目的,在于提供一种分布式***无效节点判定方法,其可达到更加精准判定节点状态的目标。
为了达成上述目的,本发明的解决方案是:
一种分布式***无效节点判定方法,包括如下内容:
(1)各节点的进程启动时在网络中间件中注册信息,退出时清理注册信息,网络中间件之间实时同步本节点的进程状态信息;
(2)各节点的***管理进程定时发送***管理平安报文,由管理节点的***管理进程接收并进行节点状态更新;
(3)管理节点的***管理进程对工作节点依次进行状态检测,判定节点是否正常工作,对于无法正常工作的节点进行退出处理。
上述内容(1)中,当节点退出时,主动注销或被动由网络中间件清理注册信息。
上述内容(1)中,网络中间件之间通过网络平安报文实时同步本节点的进程状态信息,并为上层***管理模块提供查询接口。
上述网络平安报文包括整体平安报文和变化平安报文,整体平安报文周期性发送,记录了本节点的所有注册引用进程信息;变化平安报文在本节点注册应用程序变化的时候发送。
上述内容(2)中,当***管理平安报文出现超时,管理节点的***管理进程向目标节点的***管理进程主动请求应答,进行进一步确认。
上述内容(3)的详细内容是:管理节点的***管理程序通过网络中间件访问接口检查对方节点管理进程是否在线:如不在线,再对节点的投运状态进行判断,对于未投运的节点直接判断该节点为故障,做节点退出处理;对于投运的节点进行进一步故障计数,超过阈值判断节点故障,做节点退出处理;如在线,则验证***管理平安报文是否超时,如超时则请求对方发送***管理平安报文,若在更长一些的时间段内仍然还收不到,则判断该节点为故障,做节点退出处理;如不超时说明一切正常,将故障计数清零。
采用上述方案后,本发明采用基于网络中间件同步信息和***管理通讯状态的综合判定方法,管理节点的***管理进程定期对工作节点的状态进行维护,通过综合网络中间件同步的进程状态信息与管理进程间通讯状态信息,判定节点是否正常工作,使得管理节点可以准确判断工作节点是否处于正常工作状态,及时将异常节点退出***操作,达到保证***可靠性与可用性的效果。
附图说明
图1是本发明中分布式***的层次结构图;
图2是本发明网络中间件间信息同步示意图;
图3是本发明工作节点状态维护流程图。
具体实施方式
以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
首先,对本发明涉及的分布式***的架构进行说明,如图1所示,自底向上依次是网络层、应用层和***管理层。其中,网络层屏蔽操作***差异,对上统一提供网络服务;应用层负责处理具体的应用事务;***管理层利用网络层对应用服务、网络节点等进行管理。
本发明提供一种分布式***无效节点判定方法,包括网络中间件间的信息同步技术,***管理平安报文和探测技术,以及基于这两项技术的工作节点状态判定策略,下面分别介绍。
第一,网络中间件进程注册信息同步功能
节点内部应用进程启动时需要在网络中间件中注册进程信息,退出时主动注销或被动由网络中间件清理注册信息。网络中间件之间实时同步本节点的进程状态信息,并为上层***管理模块提供查询接口,***管理模块可以实时获得***内任意节点及进程的当前状态。如图2所示,网络中间件之间通过平安报文维持各节点中的注册应用进程信息的同步,网络平安报文包括整体平安报文和变化平安报文。
整体平安报文周期性发送,记录了本节点的所有注册引用进程信息。发送整体平安报文的目的是为了让新加入的节点能很快知道本节点的注册应用进程信息,同时不至于因为丢包而使各个节点上保存的注册应用信息不一致。定时发送的报文都是整体平安报文。
变化平安报文在本节点注册应用程序变化的时候发送。注册应用进程变化是指本节点有新的应用程序注册、本节点有应用进程注销、本节点有应用进程的事件订阅信息发生了变化。
通过平安报文维持各节点中的注册应用进程信息的同步的内容包括:节点状态信息、应用进程信息以及注册事件信息,如下所示:
1)节点信息包括:现场名、节点名、节点IP、节点组号、节点状态、链路连接信息等。
2)应用进程信息包括:进程编号、进程注册信息(现场名、节点名、进程注册名);
3)注册事件信息包括:事件数量、注册事件号、事件屏蔽码等。
第二,***管理平安报文及探测机制
分布式***内各节点的***管理进程定时发送***管理平安报文(可设定为约30秒发送一次),***管理平安报文由管理节点的***管理进程接收并进行节点状态更新,用于维护***管理间通讯状态。***管理平安报文用于报告当前节点***管理进程状态,内容包括:报文进程类型标识、报文类型以及时标等。
当***管理平安报文出现超时,通过主动请求应答的探测技术对目标节点***管理工作状态进行进一步确认。
第三,工作节点状态判定策略
管理节点的***管理进程对工作节点依次进行状态检测,如图3所示,具体流程如下所示:
管理节点的***管理程序通过网络中间件访问接口检查对方节点管理进程是否在线:
1)不在线,说明当前已无法通过网络中间件访问到目标节点,为了避免网络抖动造成误判,还对节点的投运状态进行判断:
a)未投运,说明节点前状态已经是离线,直接判断该节点为故障,做节点退出处理;
b)已投运,说明节点在稍早前的一段时间内还是处于正常运行的状态,为了避免网络抖动造成误判,在此增加故障计数验证,当前故障计数加1,且如果计数超过阈值判断节点故障,做节点退出处理。
2)在线,说明可以通过网络中间件访问到目标节点,但为了避免网络单向传输或不稳定的故障,还需要进一步验证***管理平安报文的状态,验证目标节点***管理平安报文是否超时:
a)超时,请求对方发送平安报文,若在更长一些的时间段内仍然还收不到,则判断该节点为故障,做节点退出处理;
b)不超时,说明一切正常,将故障计数清零。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (5)

1.一种分布式***无效节点判定方法,其特征在于包括如下内容:
(1)各节点的进程启动时在网络中间件中注册信息,退出时清理注册信息,网络中间件之间实时同步本节点的进程状态信息;
(2)各节点的***管理进程定时发送***管理平安报文,由管理节点的***管理进程接收并进行节点状态更新;
(3)管理节点的***管理进程对工作节点依次进行状态检测,判定节点是否正常工作,对于无法正常工作的节点进行退出处理;
所述内容(3)的详细内容是:管理节点的***管理程序通过网络中间件访问接口检查对方节点管理进程是否在线:如不在线,再对节点的投运状态进行判断,对于未投运的节点直接判断该节点为故障,做节点退出处理;对于投运的节点进行进一步故障计数,具体是增加故障计数验证,当前故障计数加1,如果计数超过阈值判断节点故障,做节点退出处理;如在线,则验证***管理平安报文是否超时,如超时则请求对方发送***管理平安报文,若在更长一些的时间段内仍然还收不到,则判断该节点为故障,做节点退出处理;如不超时说明一切正常,将故障计数清零。
2.如权利要求1所述的一种分布式***无效节点判定方法,其特征在于:所述内容(1)中,当节点退出时,主动注销或被动由网络中间件清理注册信息。
3.如权利要求1所述的一种分布式***无效节点判定方法,其特征在于:所述内容(1)中,网络中间件之间通过网络平安报文实时同步本节点的进程状态信息,并为上层***管理模块提供查询接口。
4.如权利要求3所述的一种分布式***无效节点判定方法,其特征在于:所述网络平安报文包括整体平安报文和变化平安报文,整体平安报文周期性发送,记录了本节点的所有注册引用进程信息;变化平安报文在本节点注册应用程序变化的时候发送。
5.如权利要求1所述的一种分布式***无效节点判定方法,其特征在于:所述内容(2)中,当***管理平安报文出现超时,管理节点的***管理进程向目标节点的***管理进程主动请求应答,进行进一步确认。
CN201611108759.7A 2016-12-06 2016-12-06 一种分布式***无效节点判定方法 Active CN106656584B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611108759.7A CN106656584B (zh) 2016-12-06 2016-12-06 一种分布式***无效节点判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611108759.7A CN106656584B (zh) 2016-12-06 2016-12-06 一种分布式***无效节点判定方法

Publications (2)

Publication Number Publication Date
CN106656584A CN106656584A (zh) 2017-05-10
CN106656584B true CN106656584B (zh) 2020-09-04

Family

ID=58818959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611108759.7A Active CN106656584B (zh) 2016-12-06 2016-12-06 一种分布式***无效节点判定方法

Country Status (1)

Country Link
CN (1) CN106656584B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108540353B (zh) * 2018-06-14 2021-11-05 平安科技(深圳)有限公司 一种网络节点的监测方法与***
CN109412890B (zh) * 2018-10-17 2020-09-08 哈尔滨工业大学 基于dds的联合试验平台中间件节点状态检测方法
CN109981782B (zh) * 2019-03-28 2022-03-22 浪潮云信息技术股份公司 用于集群脑裂的远端存储异常处理方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103001809A (zh) * 2012-12-25 2013-03-27 曙光信息产业(北京)有限公司 用于云存储***的服务节点状态监控方法
CN104994166A (zh) * 2015-07-10 2015-10-21 李德毅 智能车分布式进程虚拟交换机通信方法
EP2953295A1 (en) * 2014-06-06 2015-12-09 Nokia Solutions and Networks Oy Automatic delta event synchronization in multiple manager-agent environments

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103001809A (zh) * 2012-12-25 2013-03-27 曙光信息产业(北京)有限公司 用于云存储***的服务节点状态监控方法
EP2953295A1 (en) * 2014-06-06 2015-12-09 Nokia Solutions and Networks Oy Automatic delta event synchronization in multiple manager-agent environments
CN104994166A (zh) * 2015-07-10 2015-10-21 李德毅 智能车分布式进程虚拟交换机通信方法

Also Published As

Publication number Publication date
CN106656584A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
CN109597723B (zh) 用于地铁综合监控***的双机热备冗余实现***及方法
CN100411401C (zh) 网络设备自适应负载均衡的方法
CN106656584B (zh) 一种分布式***无效节点判定方法
CN112468592B (zh) 一种基于电力信息采集的终端在线状态侦测方法及***
CN104092746B (zh) 一种运维审计***及用在其***中的网络负载均衡方法
CN103019866A (zh) 基于消息队列的分布式方法和***
CN107947998A (zh) 一种基于应用***的实时监测***
CN102315975A (zh) 一种基于irf***的故障处理方法及其设备
WO2012145963A1 (zh) 数据管理***及方法
Germanus et al. Increasing the resilience of critical scada systems using peer-to-peer overlays
CN101155079B (zh) 一种监控即时通讯服务器的方法、装置和***
CN101155147B (zh) 一种即时通讯服务器监控数据的分发方法和装置
CN100413248C (zh) 一种基于流量进行计费的改进方法和***
CN102025728A (zh) 客户端/服务端架构下的调度方法和服务器
CN116302862B (zh) 一种微服务架构下监控告警方法和***
CN113873033B (zh) 一种具有容错功能的智能边缘计算网关平台
CN100576185C (zh) 信息处理装置和信息处理方法
CN103118105B (zh) 一种基于无线传感器网络的数据查询***的查询方法
Kim et al. Protection switching methods for point‐to‐multipoint connections in packet transport networks
Khan et al. Centralized schemes of fault management in wireless sensor networks
JP2000148539A (ja) 障害検知方法、コンピュータシステム及び構成装置、記録媒体
CN104301240B (zh) 数据传输方法及***
CN100547560C (zh) 一种机群监控***和方法
CN108833536A (zh) 一种自适应的cdn网络缓存技术
CN113708967B (zh) 一种***监测容灾预警装置及预警方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190730

Address after: 211102 Jiangning, Jiangsu, Jiangsu Province, the source of the road No. 69

Applicant after: Nanrui Relay Protection Electricity Co., Ltd., Nanjing

Applicant after: Nanjing Nari-Relays Engineering Technology Co., Ltd.

Address before: 211102 Jiangning, Jiangsu, Jiangsu Province, the source of the road No. 69

Applicant before: Nanrui Relay Protection Electricity Co., Ltd., Nanjing

GR01 Patent grant
GR01 Patent grant