CN112346925A - 一种进程级双机热备冗余***及方法 - Google Patents

一种进程级双机热备冗余***及方法 Download PDF

Info

Publication number
CN112346925A
CN112346925A CN202011026775.8A CN202011026775A CN112346925A CN 112346925 A CN112346925 A CN 112346925A CN 202011026775 A CN202011026775 A CN 202011026775A CN 112346925 A CN112346925 A CN 112346925A
Authority
CN
China
Prior art keywords
standby
main
host
mode
watchdog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011026775.8A
Other languages
English (en)
Inventor
孙永生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Enruite Industrial Co Ltd
Original Assignee
Nanjing Enruite Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Enruite Industrial Co Ltd filed Critical Nanjing Enruite Industrial Co Ltd
Priority to CN202011026775.8A priority Critical patent/CN112346925A/zh
Publication of CN112346925A publication Critical patent/CN112346925A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种进程级双机热备冗余***及方法,涉及自动化控制技术领域,旨在提高故障定位精准度和物理设备的利用率。其技术方案要点是两个相同配置的设备启动有看门狗进程且两个看门狗进程通过双心跳线通信;***包括有用于选择进程管理模式的选择模块、用于配置主进程或主进程群的进程配置模块、用于标定看门狗进程为服务器模式或客户端模式的服务器/客户端标定模块、用于判定设备为主机或备机的主备模式判定模块;进程配置模块根据进程管理模式配置主进程或主进程群,主备模式判定模块在两个设备中判定一个主机。本发明达到了提高故障定位精准度和物理设备的利用率的效果。

Description

一种进程级双机热备冗余***及方法
技术领域
本发明涉及自动化控制技术领域,尤其是涉及一种进程级双机热备冗余***及方法。
背景技术
轨道交通运营监控***,包含信号***的列车自动监控子***、综合监控***、乘客信息***、乘客广播***、视频监控***、电力调度监控等。为保证整个运营监控***长时间可靠运转,这些***的关键信息处理设备几乎都采用双机热备冗余。
迄今为止,轨道交通运营监控***中所采用的双机热备冗余技术,一般是建立在以物理设备为基础单元的热备冗余,即:配置两台完全相同的硬件设备,且两台设备部署相同的操作***和应用平台软件、部署相同的应用软件;两台设备同时接收数据,一台设备向外发送数据,而另一台作为备用,不向外发送数据;两台设备通过若干心跳数据进行主备信息的同步,并相互监控运行状态;当向外发送数据的设备(主用设备)发生硬件故障、应用软件错误、***平台软件错误、断电、通信异常、程序终止运行等不利情况导致无法完成正常的信息处理功能时,备用设备将会整体接管,变为主用,并切断原主用设备(此时为故障状态)的输出,实现双机热备切换。
本发明公开一种进程级双机热备冗余***及方法,将使监控的粒度大大缩小,达到应用软件进程级别,使故障定位更加精确,也能使物理设备的利用效率大大提高。
发明内容
本发明的目的是提供一种进程级双机热备冗余***及方法,使监控的粒度大大缩小,达到应用软件进程级别,实现故障定位更加精确,同时物理设备的利用效率大大提高的效果。
本发明的上述发明目的一是通过以下技术方案得以实现的:
一种进程级双机热备冗余***,包括两个***部署与软硬件配置完全相同的设备,其特征在于:两个所述设备之间通过双心跳线连接,两个所述设备均配置有看门狗进程且两个所述看门狗进程通过双心跳线通信;所述***包括有用于选择进程管理模式的选择模块、用于配置主进程或主进程群的进程配置模块、用于标定所述看门狗进程为服务器模式或客户端模式的服务器/客户端标定模块、用于判定所述设备为主机或备机的主备模式判定模块,所述看门狗进程还用于监控主进程的运行状况;
所述进程配置模块根据进程管理模式配置主进程或主进程群,所述服务器/客户端标定模块将两个设备标定为服务器或客户端模式,所述客户端看门狗进程利用主备模式判定模块根据主进程或主进程群的运行状况在两个设备中判定一个主机。
本发明进一步设置为:所述进程管理模式为单一进程模式时,所述进程配置模块仅配置一个主进程,所述主备模式判定模块在服务器设备的主进程正常运行时,判定服务器设备为主机,客户端设备为备机,否则,客户端设备为主机,服务器设备为备机;所述主机的主进程故障时,备机转为主机。
本发明进一步设置为:所述进程管理模式为进程群模式时,所述进程配置模块配置由若干个进程组成的主进程群,所述主备模式判定模块在服务器设备的主进程群内所有进程均正常运行时,判定服务器设备为主机,客户端设备为备机,否则,客户端设备为主机,服务器设备为备机;所述主机的主进程群中任一进程故障时,所述备机转为主机。
本发明进一步设置为:所述进程管理模式为进程群类集群管理模式时,所述进程配置模块配置由若干个进程组成的主进程群,所述主备模式判定模块在服务器设备的主进程群内所有进程均正常运行时,判定服务器设备为主机,客户端设备为备机,否则,客户端设备为主机,服务器设备为备机;所述主机的主进程群中任一进程故障时,所述主机运行除故障进程以外的所有进程,所述备机运行故障进程的对应进程。
本发明进一步设置为:所述主备模式判定模块还用于在主机主进程群的故障进程被修复后,令所述主机的原故障进程重新运行,所述备机故障进程的对应进程停止运行。
本发明进一步设置为:在所述主机主进程群中,故障进程占比高于预设值时,所述备机转为主机。
本发明进一步设置为:所述服务器/客户端标定模块将启动后的看门狗进程默认为服务器端,令先后启动的看门狗进程发送自身的心跳信息;当在后启动的看门狗进程发送第一个心跳信息时已经接受到对方的心跳信息,标定为客户端;当在后启动的看门狗进程发送第一个心跳信息时未接受到对方的心跳信息,在先启动的看门狗进程认定己方为服务器端,再次向在后启动的看门狗进程发送心跳信息,在后启动的看门狗进程在发送第二条心跳报文前收到对方心跳信息并判断己方为客户端并标定。
本发明的上述发明目的二是通过以下技术方案得以实现的:
一种进程级双机热备冗余方法,包括两个***部署与软硬件配置完全相同的设备,两个所述设备之间通过双心跳线连接,两个所述设备均配置有看门狗进程且两个所述看门狗进程通过双心跳线通信,其特征在于,包括以下步骤:
启动两个所述看门狗进程,相互发送心跳信息,根据心跳信息将两个设备分别判定为服务器模式和客户端模式,客户端设备同步服务器设备时钟;
选择进程管理模式,当进程管理模式选择为进程群类集群管理模式时,配置由若干个进程组成的主进程群,监控服务器设备的主进程群内所有进程,若均正常运行时,判定服务器设备为主机,客户端设备为备机,否则,客户端设备为主机,服务器设备为备机;
当所述主机的主进程群中任一进程故障时,所述主机运行除故障进程以外的所有进程,所述备机运行故障进程的对应进程。
本发明进一步设置为:当所述进程管理模式选择单一进程模式时,配置一个主进程,所述主备模式判定模块在服务器设备的主进程正常运行时,判定服务器设备为主机,客户端设备为备机,否则,客户端设备为主机,服务器设备为备机;所述主机的主进程故障时,备机转为主机。
本发明进一步设置为:当所述进程管理模式选择进程群模式时,所述进程配置模块配置由若干个进程组成的主进程群,所述主备模式判定模块在服务器设备的主进程群内所有进程均正常运行时,判定服务器设备为主机,客户端设备为备机,否则,客户端设备为主机,服务器设备为备机;所述主机的主进程群中任一进程故障时,所述备机转为主机。
综上所述,本发明的有益技术效果为:进程级双机热备冗余***及方法能对部署于设备中的每一个应用软件进程状态、操作***及应用平台软件报错状态、硬件设备通信部件状态进行监控。其中,对于应用软件进程状态的监控通过配置进程级别(主进程、主进程群)以及提供单一主进程模式、进程群模式、进程群类集群管理模式三种热备冗余模式的选择的方式。用户可根据不同的应用场景、业务需求进行设置。
附图说明
图1是本发明实施例一中进程级双机热备冗余***原理示意图;
图2是本发明实施例一中合法进程注册状态转换图;
图3是本发明实施例一中场景一的看门狗进程客户端/服务器判定时序图;
图4是本发明实施例一中场景二的看门狗进程客户端/服务器判定时序图;
图5是本发明实施例一中单一主进程模式示意图;
图6是本发明实施例一中单一主进程模式下设备状态转换图;
图7是本发明实施例一中进程群模式示意图;
图8是本发明实施例一进程群模式下设备状态转换图;
图9是本发明实施例一中进程群类集群管理模式示意图;
图10是本发明实施例一中进程群类集群管理模式下设备状态转换图;
图11是本发明实施例二中双心跳线均失去通信时的示意图;
图12是本发明实施例二中双心跳丢失情况的设备状态转换图。
具体实施方式
实施例一
本发明公开了一种进程级双机热备冗余***,可用作轨道交通运营监控***的关键信息处理***。参照图1,双机热备冗余***中部署两台完全相同的设备,命名为设备1、设备2;两台设备都部署相同的操作***及应用平台软件,即图中“OS及平台软件”;部署相同的应用软件,图中P0、P1、…、Pn及W1、W2均为应用软件的进程,W1和W2为看门狗进程,W1部署于设备1,W2部署于设备2;两台设备之间连接双心跳线。此外,两台设备与外界***或设备双网连接。
***包括有用于选择进程管理模式的选择模块、用于配置主进程或主进程群的进程配置模块、用于标定看门狗进程为服务器模式或客户端模式的服务器/客户端标定模块、用于判定设备为主机或备机的主备模式判定模块。
进程配置模块根据进程管理模式配置主进程或主进程群,除看门狗进程和主进程或主进程群外,其余进程为次要进程,服务器/客户端标定模块将两个设备标定为服务器或客户端模式,主备模式判定模块在两个设备中判定一个主机、一个备机。
看门狗进程在本实施例中主要包括以下功能:
1、支持人工配置进程标识和级别,并设置冗余模式;
2、监控所在硬件设备的通信部件状态;
3、监控所在操作***及应用平台软件的报错状态;
4、监控所在设备部署的应用软件进程状态;
5、监控与冗余***另一台设备上部署的看门狗进程通过双心跳线进行通信;
6、监控心跳通信状态;
7、决策冗余切换;
8、将监控到的信息发给外界***或设备。
参照图2,在进行进程配置前,各应用软件进程启动时会向所在设备的看门狗进程发送注册消息,看门狗进程根据提前配置的进程唯一标识判定应用软件进程是否合法、是否重复注册。若合法则向对应的应用软件进程反馈注册成功消息;若不合法则向外界***发送告警信息供人工检查,且不再处理关于该进程的信息;若同一进程已在运行,即重复注册,看门狗进程则向外界***发出重复注册告警。合法的应用软件进程在一定时限内收到注册成功后才能正常启动运行,否则将终止启动;看门狗进程不处理非法进程的消息,也不向非法进程发送数据,故非法进程可以运行,但无法被看门狗进程监控。
应用软件进程正常运行时,各应用软件进程会周期性向所在设备的看门狗进程报告进程标识、与其他进程或外界***通信周期数、发送和接收的消息数量。
特别地,当看门狗进程检测到本机硬件故障、操作***致命性报错或应用平台软件报错,会主动屏蔽本机所有应用软件进程向外界发送信息,仅保留看门狗进程自身和外界的通信,以便上报通信、设备及进程状态;另一台设备将会作为主机接管所有任务。
冗余***启动后,人工启动看门狗进程。看门狗进程将首先建立心跳线程并向对方周期性发送心跳消息,心跳消息报文中包含己方心跳周期计数、收到的对方心跳周期计数、服务器/客户端标记。以上工作均通过服务器/客户端标定模块完成。
具体地,在场景一的情况下,参照图3,两台设备的看门狗进程先后启动,例如,W1先启动,W2后启动,后启动的看门狗进程W2在发送第一个心跳信息时已收到对方的心跳信息,立即将自己置为客户端。
在场景二的情况下,参照图4,两台设备的看门狗进程先后启动,例如,W1先启动,W2后启动,后启动的看门狗进程W2在发送第一个心跳信息时未收到对方的心跳信息,则其发出的第一条心跳信息中己方仍为服务器端;先启动的看门狗进程W1收到该条信条信息后,判断通信周期计数,认定己方为服务器端,再次向后启动的看门狗进程发送心跳信息;后启动的看门狗进程在发送第二条心跳报文前收到对方的心跳信息,通过心跳周期计数判定己方为客户端,更改心跳报文中的标记。
当冗余***的看门狗进程确定服务器/客户端后,客户端将同步服务器端的设备时钟,之后由客户端看门狗进程发起冗余***的主备模式判定过程。
根据进程管理模式的选择不同,将会进行不同的配置。
参照图5,当进程管理模式选择单一进程模式时,进程配置模块仅配置一个主进程,如图中将P0作为主进程,主备模式判定模块以P0的状态决定设备1和设备2的主备状态,当主机的主进程P0发生故障,将会实现整机倒切。
具体地,参照图6,假设W1为服务器端,W2为客户端,时钟同步后,当W2检测到设备2的P0进程正常注册时,将向W1发起主备模式判定。当W1所在设备的主进程已启动且正常运行时,W2所在设备转为备机;当W1所在设备的主进程未启动,W2所在设备转为主机。
设备1和设备2的主备模式建立后,W1与W2之间将建立周期性主进程状态监测信息交互。当冗余***运行过程中,主机的主进程故障,备机的主进程自动接管,同时备机转为主机。
该模式下,不同设备的应用软件进程之间不进行信息交互。
参照图7,当进程管理模式选择进程群模式时,进程配置模块配置由若干个进程组成的主进程群,如图中P01…P0m组成主进程群P0,主备模式判定模块以P01…P0m中任一进程的状态来决定P0的状态,进而决定设备1和设备2的主备状态,即:当主机的主进程群中任一进程发生故障,将判定主进程群故障,从而判定主机故障,进而实现整机倒切。
具体地,参照图8,假设W1为服务器端,W2为客户端,时钟同步之后,当W2检测到设备2的主进程群P0中所有进程正常注册时,将向W1发起主备模式判定。当W1所在设备的主进程群所有进程已启动且正常运行时,W2所在设备转为备机;当W1所在设备的主进程群任一进程未启动,W2所在设备转为主机。
设备1和设备2的主备模式建立后,W1与W2之间将建立周期性主进程状态监测信息交互。当冗余***运行过程中,主机的主进程群中任一进程故障,备机的主进程群自动接管所有主进程任务,同时备机转为主机。
该模式下,不同设备的应用软件进程之间不进行信息交互。
参照图9,当进程管理模式选择进程群类集群管理模式时,进程配置模块配置由若干个进程组成的主进程群,如图中P01…P0m组成主进程群P0。当主进程群中有进程故障时,冗余***的设备1和设备2并无真正意义的主备状态。
冗余***启动时,与进程群模式类似,将由主备模式判定模块决定出设备1和设备2的主备模式。具体地,假设W1为服务器端,W2为客户端,时钟同步之后,当W2检测到设备2的主进程群P0中所有进程进程正常注册时,将向W1发起主备模式判定。当W1所在设备的主进程群所有进程已启动且正常运行时,W2所在设备转为备机;当W1所在设备的主进程群任一进程未启动,W2所在设备转为主机。
参照图10,假设图中设备1为主机,当设备1中P0进程群中P01故障,W1将会通知W2启用设备2中的P01进程,同时建立设备间进程通信的通道。此时,设备1中运行除P01外的所有进程,包括次要进程,设备2中运行P01进程,实现类似集群软件管理功能,设备1和2并无真正主备区分。
若设备1主进程群中的故障进程P01被修复,重新注册成功后,看门狗进程W1会通知W2,设备1中的P01进程将接管,设备2中的P01降级为备用状态。此时,整个设备1仍为主用,设备2为备用。
当设备1主进程群中故障进程数目占比高于预设值,则设备2将完全接管,此时设备2将成为主机,设备1将成为备机。在本实施例中,预设值为30%,即设备1主进程群中有30%及以上进程故障,则设备2将完全接管。
实施例二
在实施例一的基础上,设备1和2之间采用双心跳线连接,已经避免了“单点故障”的发生。但是在双心跳线均断开时,看门狗进程W1和W2之间将失去通信,此时,备机的看门狗进程主动屏蔽所有应用软件进程向外界发送信息,仅保留看门狗进程自身和外界的通信,以便上报通信、设备及进程状态;主机的看门狗进程主动向外界***或设备上报心跳线状态。
当冗余***处于进程群类集群管理模式下的类集群状态时,遇到双心跳线均断开的情况时,原本有故障进程的设备上的看门狗进程会主动屏蔽所有应用软件进程向外界发送信息,仅保留看门狗进程自身和外界的通信,以便上报通信、设备及进程状态;原本只有部分主进程运行的设备将完全接管,此设备转为主用设备。
实施例三
本发明公开了一种进程级双机热备冗余方法,包括两个***部署与软硬件配置完全相同的设备,两个设备之间通过双心跳线连接,两个设备均配置有看门狗进程且两个看门狗进程通过双心跳线通信,其特征在于,包括以下步骤:
启动两个看门狗进程,相互发送心跳信息,根据心跳信息将两个设备分别判定为服务器模式和客户端模式,客户端设备同步服务器设备时钟;
选择进程管理模式,当进程管理模式选择为进程群类集群管理模式时,配置由若干个进程组成的主进程群,监控服务器设备的主进程群内所有进程,若均正常运行时,判定服务器设备为主机,客户端设备为备机,否则,客户端设备为主机,服务器设备为备机;
当主机的主进程群中任一进程故障时,主机运行除故障进程以外的所有进程,备机运行故障进程的对应进程。
当进程管理模式选择单一进程模式时,配置一个主进程,主备模式判定模块在服务器设备的主进程正常运行时,判定服务器设备为主机,客户端设备为备机,否则,客户端设备为主机,服务器设备为备机;主机的主进程故障时,备机转为主机。
当进程管理模式选择进程群模式时,进程配置模块配置由若干个进程组成的主进程群,主备模式判定模块在服务器设备的主进程群内所有进程均正常运行时,判定服务器设备为主机,客户端设备为备机,否则,客户端设备为主机,服务器设备为备机;主机的主进程群中任一进程故障时,备机转为主机。
***部署时,在看门狗进程的配置文件中人工配置所在设备的应用软件进程唯一标识、主进程/次要进程,以及启动路径,并选择进程管理模式,进程管理模式包括有单一主进程模式、进程群模式、进程群类集群管理模式。其中,单一主进程模式只允许配置一个主进程,进程群模式和进程群类集群管理模式将允许配置多个主进程组成主进程群,三种模式下都允许配置多个次要进程。应用软件进程将在看门狗进程启动后,人工通过看门狗进程提供的相关操作进行启动。
在看门狗进程中还将配置冗余***对端的网络地址、端口,以及心跳周期等通信参数。
看门狗进程运行后,将建立多个独立的的线程,分别用于监控所在设备的所有网络部件及接口的地址和状态、获取操作***及平台软件的报错状态、监控每一个进程的状态、监控与另一台设备上看门狗进程的通信状态、决策冗余切换、归集所有状态数据并向外界发送。
具体实施方式为:
人工启动看门狗进程后,看门狗进程之间将首先建立心跳线程并向对方周期性发送心跳消息,以确定双机冗余设备看门狗进程的服务器/客户端的模式。
各应用软件进程启动时向所在设备的看门狗进程发送注册消息,看门狗进程判定应用软件进程是否合法、是否重复注册。合法的应用软件进程在一定时限内收到注册成功后才能正常启动运行,否则将终止启动。应用软件进程正常运行时,会周期性向所在设备的看门狗进程报告进程标识、与其他进程或外界***通信周期数、发送和接收的消息数量。
冗余***的看门狗进程确定服务器/客户端后,客户端将同步服务器端的设备时钟,之后由客户端看门狗进程根据进程管理模式发起冗余***的主备模式判定过程。
选择进程管理模式,当进程管理模式为单一主进程模式时,只配置一个主进程。当主机的主进程发生故障,将会实现整机倒切;
当进程管理模式为进程群模式时,看门狗进程中可配置若干个主进程组成主进程群。当主机的主进程群中任一进程发生故障,将判定主进程群故障,从而判定主机故障,进而实现整机倒切;
当进程管理模式为进程群类集群管理模式时,看门狗进程中可配置若干个主进程组成主进程群。当主进程群中有进程故障时,会启用备机主进程群中相应进程,但不进行主备机切换。当主机的主进程群30%及以上进程故障,才会实现主备机切换。进程群类集群管理模式下,主机的主进程群30%以下进程故障,之后故障进程被修复且重新注册成功,会继续接管任务运行。
当冗余***主备机明确时,丢失双心跳通信,备机的看门狗进程会主动屏蔽本机所有应用软件进程向外界发送信息,仅保留看门狗进程自身和外界的通信;主机的看门狗进程主动向外界***或设备上报心跳线状态。
当冗余***处于进程群类集群管理模式下的类集群状态,丢失双心跳通信时,原本有故障进程的设备上的看门狗进程会主动屏蔽本机所有应用软件进程向外界发送信息,仅保留看门狗进程自身和外界的通信;原本只有部分主进程运行的设备将完全接管,此设备转为主用设备。
当看门狗进程检测到本机硬件故障、操作***致命性报错、或应用平台软件报错,会主动屏蔽本机所有应用软件进程向外界发送信息,仅保留看门狗进程自身和外界的通信;冗余***中另一台设备将会作为主机接管所有任务。
本具体实施方式的实施例均为本发明的较佳实施例,并非依此限制本发明的保护范围,故:凡依本发明的结构、形状、原理所做的等效变化,均应涵盖于本发明的保护范围之内。

Claims (10)

1.一种进程级双机热备冗余***,包括两个***部署与软硬件配置完全相同的设备,其特征在于:两个所述设备之间通过双心跳线连接,两个所述设备均配置有看门狗进程且两个所述看门狗进程通过双心跳线通信;所述***包括有用于选择进程管理模式的选择模块、用于配置主进程或主进程群的进程配置模块、用于标定所述看门狗进程为服务器模式或客户端模式的服务器/客户端标定模块、用于判定所述设备为主机或备机的主备模式判定模块,所述看门狗进程还用于监控主进程的运行状况;
所述进程配置模块根据进程管理模式配置主进程或主进程群,所述服务器/客户端标定模块将两个设备标定为服务器或客户端模式,所述客户端看门狗进程利用主备模式判定模块根据主进程或主进程群的运行状况在两个设备中判定一个主机。
2.根据权利要求1所述的一种进程级双机热备冗余***,其特征在于:所述进程管理模式为单一进程模式时,所述进程配置模块仅配置一个主进程,所述主备模式判定模块在服务器设备的主进程正常运行时,判定服务器设备为主机,客户端设备为备机,否则,客户端设备为主机,服务器设备为备机;所述主机的主进程故障时,备机转为主机。
3.根据权利要求1所述的一种进程级双机热备冗余***,其特征在于:所述进程管理模式为进程群模式时,所述进程配置模块配置由若干个进程组成的主进程群,所述主备模式判定模块在服务器设备的主进程群内所有进程均正常运行时,判定服务器设备为主机,客户端设备为备机,否则,客户端设备为主机,服务器设备为备机;所述主机的主进程群中任一进程故障时,所述备机转为主机。
4.根据权利要求1所述的一种进程级双机热备冗余***,其特征在于:所述进程管理模式为进程群类集群管理模式时,所述进程配置模块配置由若干个进程组成的主进程群,所述主备模式判定模块在服务器设备的主进程群内所有进程均正常运行时,判定服务器设备为主机,客户端设备为备机,否则,客户端设备为主机,服务器设备为备机;所述主机的主进程群中任一进程故障时,所述主机运行除故障进程以外的所有进程,所述备机运行故障进程的对应进程。
5.根据权利要求4中任一项权利要求所述的一种进程级双机热备冗余***,其特征在于:所述主备模式判定模块还用于在主机主进程群的故障进程被修复后,令所述主机的原故障进程重新运行,所述备机故障进程的对应进程停止运行。
6.根据权利要求5所述的一种进程级双机热备冗余***,其特征在于:在所述主机主进程群中,故障进程占比高于预设值时,所述备机转为主机。
7.根据权利要求1-6中任一项权利要求所述的一种进程级双机热备冗余***,其特征在于:所述服务器/客户端标定模块将启动后的看门狗进程默认为服务器端,令先后启动的看门狗进程发送自身的心跳信息;当在后启动的看门狗进程发送第一个心跳信息时已经接受到对方的心跳信息,标定为客户端;当在后启动的看门狗进程发送第一个心跳信息时未接受到对方的心跳信息,在先启动的看门狗进程认定己方为服务器端,再次向在后启动的看门狗进程发送心跳信息,在后启动的看门狗进程在发送第二条心跳报文前收到对方心跳信息并判断己方为客户端并标定。
8.一种进程级双机热备冗余方法,包括两个***部署与软硬件配置完全相同的设备,两个所述设备之间通过双心跳线连接,两个所述设备均配置有看门狗进程且两个所述看门狗进程通过双心跳线通信,其特征在于,包括以下步骤:
启动两个所述看门狗进程,相互发送心跳信息,根据心跳信息将两个设备分别判定为服务器模式和客户端模式,客户端设备同步服务器设备时钟;
选择进程管理模式,当进程管理模式选择为进程群类集群管理模式时,配置由若干个进程组成的主进程群,监控服务器设备的主进程群内所有进程,若均正常运行时,判定服务器设备为主机,客户端设备为备机,否则,客户端设备为主机,服务器设备为备机;
当所述主机的主进程群中任一进程故障时,所述主机运行除故障进程以外的所有进程,所述备机运行故障进程的对应进程。
9.根据权利要求8所述的一种进程级双机热备冗余方法,其特征在于:当所述进程管理模式选择单一进程模式时,配置一个主进程,所述主备模式判定模块在服务器设备的主进程正常运行时,判定服务器设备为主机,客户端设备为备机,否则,客户端设备为主机,服务器设备为备机;所述主机的主进程故障时,备机转为主机。
10.根据权利要求8所述的一种进程级双机热备冗余方法,其特征在于:当所述进程管理模式选择进程群模式时,所述进程配置模块配置由若干个进程组成的主进程群,所述主备模式判定模块在服务器设备的主进程群内所有进程均正常运行时,判定服务器设备为主机,客户端设备为备机,否则,客户端设备为主机,服务器设备为备机;所述主机的主进程群中任一进程故障时,所述备机转为主机。
CN202011026775.8A 2020-09-25 2020-09-25 一种进程级双机热备冗余***及方法 Pending CN112346925A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011026775.8A CN112346925A (zh) 2020-09-25 2020-09-25 一种进程级双机热备冗余***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011026775.8A CN112346925A (zh) 2020-09-25 2020-09-25 一种进程级双机热备冗余***及方法

Publications (1)

Publication Number Publication Date
CN112346925A true CN112346925A (zh) 2021-02-09

Family

ID=74360433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011026775.8A Pending CN112346925A (zh) 2020-09-25 2020-09-25 一种进程级双机热备冗余***及方法

Country Status (1)

Country Link
CN (1) CN112346925A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113064748A (zh) * 2021-04-08 2021-07-02 中国第一汽车股份有限公司 进程接替的方法、装置、电子设备及存储介质
CN113542028A (zh) * 2021-07-17 2021-10-22 辽宁工业大学 一种物联网数据接收的双机热备方法
CN115202939A (zh) * 2022-05-20 2022-10-18 中核武汉核电运行技术股份有限公司 一种核电信息***服务器主备冗余框架管理***及方法
CN116980231A (zh) * 2023-09-19 2023-10-31 成都交大光芒科技股份有限公司 一种双链路冗余安全通信方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582787A (zh) * 2008-05-16 2009-11-18 中兴通讯股份有限公司 一种双机备份***及备份方法
CN105450446A (zh) * 2015-11-17 2016-03-30 绵阳市维博电子有限责任公司 一种双机热备份***及仲裁切换方法
CN107634855A (zh) * 2017-09-12 2018-01-26 天津津航计算技术研究所 一种嵌入式***的双机热备方法
CN110750393A (zh) * 2019-09-03 2020-02-04 北京字节跳动网络技术有限公司 避免网络服务双机热备脑裂的方法、装置、介质和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582787A (zh) * 2008-05-16 2009-11-18 中兴通讯股份有限公司 一种双机备份***及备份方法
CN105450446A (zh) * 2015-11-17 2016-03-30 绵阳市维博电子有限责任公司 一种双机热备份***及仲裁切换方法
CN107634855A (zh) * 2017-09-12 2018-01-26 天津津航计算技术研究所 一种嵌入式***的双机热备方法
CN110750393A (zh) * 2019-09-03 2020-02-04 北京字节跳动网络技术有限公司 避免网络服务双机热备脑裂的方法、装置、介质和设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113064748A (zh) * 2021-04-08 2021-07-02 中国第一汽车股份有限公司 进程接替的方法、装置、电子设备及存储介质
CN113064748B (zh) * 2021-04-08 2023-02-28 中国第一汽车股份有限公司 进程接替的方法、装置、电子设备及存储介质
CN113542028A (zh) * 2021-07-17 2021-10-22 辽宁工业大学 一种物联网数据接收的双机热备方法
CN115202939A (zh) * 2022-05-20 2022-10-18 中核武汉核电运行技术股份有限公司 一种核电信息***服务器主备冗余框架管理***及方法
CN116980231A (zh) * 2023-09-19 2023-10-31 成都交大光芒科技股份有限公司 一种双链路冗余安全通信方法和装置
CN116980231B (zh) * 2023-09-19 2023-11-28 成都交大光芒科技股份有限公司 一种双链路冗余安全通信方法和装置

Similar Documents

Publication Publication Date Title
CN112346925A (zh) 一种进程级双机热备冗余***及方法
CN108847982B (zh) 一种分布式存储集群及其节点故障切换方法和装置
CN109597723B (zh) 用于地铁综合监控***的双机热备冗余实现***及方法
US4570261A (en) Distributed fault isolation and recovery system and method
US5875290A (en) Method and program product for synchronizing operator initiated commands with a failover process in a distributed processing system
EP0416943B1 (en) Method for controlling failover between redundant network interface modules
CN101217353B (zh) 一种呼叫中心多点双机冗余***的控制方法
US6385665B1 (en) System and method for managing faults in a data transmission system
CN108429629A (zh) 设备故障恢复方法和装置
CN112650048B (zh) 一种工业网关冗余***和控制方法
CN109104325B (zh) 基于CANopen协议的列车网络数据传输方法、***及其装置
CN112218321B (zh) 主备链路切换方法、装置、通信设备和存储介质
CN110830324A (zh) 一种检测数据中心网络连通性的方法、装置及电子设备
CN112019416A (zh) 一种基于EtherCAT的冗余通信方法
CN110569303B (zh) 一种适用于多种云环境的MySQL应用层高可用***及方法
CN115616678B (zh) 一种安检***运行参数校正同步的方法及装置
CN110053650B (zh) 一种列车自动运行***、列车自动运行***架构及列车自动运行***的模块管理方法
CN101980478A (zh) 设备故障的检测处理方法、装置和网络设备
CN115903578A (zh) 基于混合余度异构网络的机电管理分***容错设计方法
CN112506633B (zh) 一种多机冗余***及处理方法
CN114355803A (zh) 基于任务监听的加固机多机***及冗余设计方法
CN114598594A (zh) 一种多集群下应用故障的处理方法、***、介质和设备
CN107888491A (zh) Hsb备份***及基于二层组网vrrp协议的ac双机热备方法
CN103716186B (zh) 具有网络故障容错能力的人工话务***及其方法
JPH04503434A (ja) コンピュータネットワークの監視方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination