CN101917263A - 多机热备的方法及*** - Google Patents

多机热备的方法及*** Download PDF

Info

Publication number
CN101917263A
CN101917263A CN2010102541507A CN201010254150A CN101917263A CN 101917263 A CN101917263 A CN 101917263A CN 2010102541507 A CN2010102541507 A CN 2010102541507A CN 201010254150 A CN201010254150 A CN 201010254150A CN 101917263 A CN101917263 A CN 101917263A
Authority
CN
China
Prior art keywords
main frame
host
standby
standby host
sign
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010102541507A
Other languages
English (en)
Inventor
周中东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN HEADWARE INFORMATION TECHNOLOGY Co Ltd
Original Assignee
SHENZHEN HEADWARE INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN HEADWARE INFORMATION TECHNOLOGY Co Ltd filed Critical SHENZHEN HEADWARE INFORMATION TECHNOLOGY Co Ltd
Priority to CN2010102541507A priority Critical patent/CN101917263A/zh
Publication of CN101917263A publication Critical patent/CN101917263A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本发明涉及一种多机热备的方法及***,该方法包括:设置主机和备机的用于标示身份的启动标识,所述主机与所述备机的启动标识之间满足预设定顺序;在启动一为用户提供服务的主机的同时,启动至少两台备机;检测所述主机的状态;当所述主机处于停止状态时,各所述备机向所有比自身启动标识顺序靠后的所述备机发送推举消息,收到预设定个数的推举消息的备机确认为代理主机开始为用户提供服务。各备机之间在主机停止时按顺序推举作为主机,防止一个备机多次竞争成为主机使用,也提高了多机热备***的稳定性和可靠度。

Description

多机热备的方法及***
技术领域
本发明涉及服务器热备份技术,尤其涉及一种多机热备的方法及***。
背景技术
目前广泛应用的服务器热备实现是将服务器安装为互为备份的两台或多台服务器,并且同时只有一台服务器在运行,当该服务器出现问题时,另一台备机启动并运行,从而保证整个集群的正常运行。
发明人在实施本发明过程中,发现现有技术至少存在如下技术问题:1.可能会由于***的原因导致对主机停止状态的误判而使主机不适时机地切换为备机。2.在多台备机时存在多台备机竞争主机的问题,可能会出现同一台备机反复使用作为主机的问题。
发明内容
本发明实施例所要解决的技术问题在于,提供一种多机热备的方法及***,以避免不适时机切换主机和备机,并避免同一备机被反复使用作为主机。
为解决上述技术问题,本发明实施例采用如下技术方案:提供一种多机热备的方法,方法包括:设置主机和备机的用于标示身份的启动标识,所述主机与所述备机的启动标识之间满足预设定顺序;在启动一为用户提供服务的主机的同时,启动至少两台备机;检测所述主机的状态;当所述主机处于停止状态时,各所述备机向所有比自身启动标识顺序靠后的所述备机发送推举消息,收到预设定个数的推举消息的备机确认为代理主机开始为用户提供服务。
本发明还提供一种多机热备***,所述***包括:主机,用于为用户提供服务;至少两台备机;启动标识设置单元,用于在所述主机启动前对所述主机和各所述备机设置用于标示身份的启动标识,所述主机与所述备机的启动标识之间满足预设定顺序;监控单元,用于定时检测所述主机及所述备机的运行状态;代理主机启动单元,用于在所述监控单元检测到所述主机为停止状态时,各所述备机向所有比自身启动标识顺序靠后的所述备机发送推举消息,确认收到预设定个数的推举消息的备机为代理主机。
本发明实施例的有益效果是:只有在一台备机收到所有其他备机的推举消息时,才确定主机为停止状态,然后该备机启动作为代理主机,提高了多机热备***的稳定性和可靠度。
主机及备机按一定顺序设置启动标识,并且主机重启后仍按照该顺序设置启动标 识,保证了各备机之间在主机停止时按顺序启动作为主机,防止一个备机多次竞争成为主机使用,也提高了多机热备***的稳定性和可靠度。
下面结合附图对本发明实施例作进一步的详细描述。
附图说明
图1是本发明多机热备***的结构示意图。
图2是本发明多机热备方法流程图。
图3是本发明多机热备***的模块图。
具体实施方式
请参考图1,是本发明多机热备***的结构示意图。该多机热备***是通过在后端设置多台运行服务程序的主机组成一服务器集群(Server Cluster),该服务器集群可以横向扩展。该服务器集群由主机1和备机2-5组成,该主机1和备机2-5通过一交换机通讯连接,遵循TCP协议。该多台服务器同时启动工作,该主机1为用户提供服务,该多机热备***同时维护一个线程和三个队列的增、删、改,当主机1的数据发生相应的增、删、改时同时向增、删、改队列中的数据,线程定期扫描这三个队列,并将该数据广播出去,备机2-5收到消息并更新内存或数据库中的数据,从而达到多个备机的数据同步。当该主机停止服务时,多机热备***推举一备机作为代理主机开始为用户提供服务。
请参考图2,是本发明多机热备方法流程图。
步骤S21,通过一配置文件对主机及备机设置用于标示身份的启动标识。
该启动标识为每台服务器唯一的身份标识,且所述主机与所述备机的启动标识之间满足预设定顺序;该预设定顺序为数字顺序或字母顺序,例如0-9,启动标识为0的服务器为主机,其余为备机;或a-j,启动标识为a的服务器为主机,其余为备机。该预设定顺序可以为正序排列也可为倒序排列,如9-0,启动标识为9的服务器为主机,其余为备机;或j-a,启动标识为j的服务器为主机,其余为备机。本实施例中启动标识按照1-5的顺序设置,即主机启动标识为1,备机启动标识分别从2排列至5。
步骤S22,在启动一为用户提供服务的主机的同时,启动至少两台备机。
通常备机的数量为2-9台,本实施例中备机的数量为4台,主机1启动的同时,该备机2-5同时全部启动。启动时主机1向子网内的备机2-5发起连接,连接成功后每台服务器都向其他服务器发送“读取启动标识”的请求,该请求携带了本机的启动标识。对方服务器收到请求后,返回配置文件中的启动标识。
步骤S23,检测所述主机的状态;并判断所述主机是否为停止状态,若是则执行步骤 S24,若否继续检测判断主机状态。
当主机的活动进程或者该活动进程所依赖的运行环境发生了故障时,主机的状态即为停止状态,当然导致主机的状态为停止状态的原因还可以是现有技术中的其他原因,在此不一一例举。
本实施例中检测主机状态的方法具体为,主机1为用户提供服务的同时,向备机2-5发送心跳信号,且各备机向比该备机启动标识顺序靠后的大的备机发送心跳信号,该心跳信号具体为表示本机处于活动状态的心跳包,即优先级高的备机向优先级低的备机发送心跳包标示自己还处于活动状态,那么当主机1停止时该优先级高的备机则优先竞选为代理主机。例如备机2向备机3-5发送心跳包。另一实施例中,启动标识按照倒序排列,主机启动标识为5,备机启动标识为4-1,那么各备机向比该备机启动标识小的备机发送心跳信号,不再赘述。
步骤S24,若判断所述主机处于停止状态时,根据一推举机制推举一备机作为代理主机开始为用户提供服务。
主机停止时,各个备机向所有比自身启动标识顺序靠后的大的备机发送推举消息,收到预设定个数的推举消息的备机确认为主机,所述预设定个数为所述主机与所述备机的总数减2。本实施例中,如果该主机超过一定时间阀值未发送心跳包,各个备机向比自己启动标识大的备机发送推举消息,收到所述主机与所述备机的总数减2个即3个推举消息的备机确认为主机。也即除本身和主机外所有的服务器都认定主机已停止,并且该备机收到了所有其他备机的推举消息,那么该备机就确认自己成为代理主机。另一实施例中,启动标识按照倒序排列,各个备机向比自己启动标识小的备机发送推举消息,收到所述主机与所述备机的总数减2个推举消息的备机确认为主机。
步骤S25,主机停止后重启,根据所述预设定顺序重设所述主机的启动标识。
本实施方式中,主机1停止后重启,根据由小到大的顺序,该主机1的启动该标识顺次更改为6。
请参考图3,是本发明多机热备***的模块图。该多机热备***100包括主机10、至少两台备机20、监控单元30及代理主机启动单元40。
该主机10用于为用户提供服务。该备机20用于再该主机10启动的同时一起启动,作为备用服务器。
该监控单元30用于实时监控该主机10及该备机20的如活动、停止等的运行状态。
该代理主机启动单元40,用于在所述监控单元30检测到所述主机10为停止状态 时,根据一推举机制启动一备机20作为代理主机为用户提供服务。
所述监控单元30包括检测模块31,用于定时检测所述主机10及所述备机20的运行状态;判断模块32,用于判断所述启动标识是否重复。
该多机热备***100还包括启动标识设置单元50及报警单元60。
该启动标识设置单元50用于在所述主机10启动前对所述主机10和各所述备机20设置用于标示身份的启动标识,所述主机10与所述备机20的启动标识之间满足预设定顺序,及在所述主机10停止后,根据各所述预设定顺序重设所述主机10的启动标识。
该报警单元60,用于在所述监控单元30判断所述启动标识有重复时发出报警提示。该报警提示可以为声音提示,闪光提示或者弹出一界面提示。然后,管理人员根据该报警提示修改该错误的启动标识。
其中,该预设定顺序为数字顺序或字母顺序,可为倒序或顺序排列的数字或字母及其结合,所述推举机制为各所述备机10向所有比自身启动标识顺序靠后的备机20发送推举消息,收到预设定个数的推举消息的备机20确认为主机,所述预设定个数为所述主机10与所述备机20的总数减2。
该主机10包括第一心跳单元101,所述备机20包括第二心跳单元201,分别用于在所述主机10为用户提供服务的同时,所述主机10向所有备机20发送心跳信号,及各所述备机20向比该备机20启动标识顺序靠后的备机20发送心跳信号。
另外,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过程序来指令相关的硬件来完成,该的程序可存储于一计算机可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,该的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上该是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (9)

1.一种多机热备的方法,其特征在于,方法包括:
设置主机和备机的用于标示身份的启动标识,所述主机与所述备机的启动标识之间满足预设定顺序;
在启动一为用户提供服务的主机的同时,启动至少两台备机;
检测所述主机的状态;
当所述主机处于停止状态时,各所述备机向所有比自身启动标识顺序靠后的所述备机发送推举消息,收到预设定个数的推举消息的备机确认为代理主机开始为用户提供服务。
2.如权利要求1所述的多机热备的方法,其特征在于,所述预设定顺序为数字顺序或字母顺序,所述预设定个数为所述主机与所述备机的总数减2。
3.如权利要求1所述的多机热备的方法,其特征在于,还包括:
所述主机停止后重启,根据所述预设定顺序重设所述主机的启动标识。
4.如权利要求1所述的多机热备的方法,其特征在于,所述主机为用户提供服务的同时,向所有备机发送心跳信号,且各所述备机向比该备机启动标识顺序靠后的备机发送心跳信号。
5.一种多机热备***,其特征在于,所述***包括:
主机,用于为用户提供服务;
至少两台备机;
启动标识设置单元,用于在所述主机启动前对所述主机和各所述备机设置用于标示身份的启动标识,所述主机与所述备机的启动标识之间满足预设定顺序;
监控单元,用于定时检测所述主机及所述备机的运行状态;
代理主机启动单元,用于在所述监控单元检测到所述主机为停止状态时,各所述备机向所有比自身启动标识顺序靠后的所述备机发送推举消息,确认收到预设定个数的推举消息的备机为代理主机。
6.如权利要求5所述的多机热备的***,其特征在于,所述预设定顺序为数字顺序或字母顺序,所述预设定个数为所述主机与所述备机的总数减2。
7.如权利要求5所述的多机热备***,其特征在于,所述主机停止后重启,根据所述预设定顺序重设所述主机的启动标识。
8.如权利要求5所述的多机热备的***,其特征在于,所述主机包括第一心跳单元,所述备机包括第二心跳单元,分别用于在所述主机为用户提供服务的同时,所述主机向所有备机发送心跳信号,及各所述备机向比该备机启动标识顺序靠后的备机发送心跳信号。
9.如权利要求5所述的多机热备的***,其特征在于,所述监控单元包括:
检测模块,用于定时检测所述主机及所述备机的运行状态;
判断模块,用于判断所述启动标识是否重复;
所述多机热备的***还包括:
报警单元,用于在所述监控单元判断所述启动标识有重复时发出报警提示。
CN2010102541507A 2010-08-16 2010-08-16 多机热备的方法及*** Pending CN101917263A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102541507A CN101917263A (zh) 2010-08-16 2010-08-16 多机热备的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102541507A CN101917263A (zh) 2010-08-16 2010-08-16 多机热备的方法及***

Publications (1)

Publication Number Publication Date
CN101917263A true CN101917263A (zh) 2010-12-15

Family

ID=43324664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102541507A Pending CN101917263A (zh) 2010-08-16 2010-08-16 多机热备的方法及***

Country Status (1)

Country Link
CN (1) CN101917263A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102624567A (zh) * 2012-03-25 2012-08-01 沈阳通用软件有限公司 一种硬件型网络安全控制服务器热备份装置
CN102724065A (zh) * 2012-05-22 2012-10-10 长沙中联消防机械有限公司 一种网络通信***及包括该***的工程机械设备
CN103530200A (zh) * 2012-07-04 2014-01-22 腾讯科技(深圳)有限公司 一种服务器热备份***和方法
CN103634411A (zh) * 2013-12-16 2014-03-12 上海证券交易所 一种具有状态一致性的市场数据实时广播***及方法
CN105933135A (zh) * 2015-11-16 2016-09-07 ***股份有限公司 一种确定执行调度任务的方法及执行调度任务的第一主机
CN106713056A (zh) * 2017-03-17 2017-05-24 郑州云海信息技术有限公司 一种分布式集群下备机选举切换的方法
CN107632517A (zh) * 2017-07-31 2018-01-26 上海蔚来汽车有限公司 充换电站及充换电监控***、方法
CN107819808A (zh) * 2016-09-14 2018-03-20 北京百度网讯科技有限公司 通信连接建立方法和装置
CN109032849A (zh) * 2018-08-30 2018-12-18 百度在线网络技术(北京)有限公司 热备份***、热备份方法和计算机设备
CN109799797A (zh) * 2019-01-10 2019-05-24 国网陕西省电力公司 厂站电能量采集终端双机热备的方法
CN110333973A (zh) * 2018-12-28 2019-10-15 锐捷网络股份有限公司 一种多机热备的方法和***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002290489A (ja) * 2001-03-28 2002-10-04 Nec Corp 複数の回線を使用した通信方式、通信制御装置
CN1665198A (zh) * 2004-03-06 2005-09-07 鸿富锦精密工业(深圳)有限公司 堆叠式交换机管理方法
CN101207512A (zh) * 2006-12-22 2008-06-25 中兴通讯股份有限公司 一种数据库***冗灾备份和切换方法
CN101212458A (zh) * 2006-12-25 2008-07-02 中兴通讯股份有限公司 一种数据库***备份方法
CN101378334A (zh) * 2008-09-25 2009-03-04 卡斯柯信号有限公司 基于双网冗余通用网络模型的通讯方法
CN101447858A (zh) * 2008-01-17 2009-06-03 中兴通讯股份有限公司 双机热备份***中实现虚拟路由冗余协议同步倒换的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002290489A (ja) * 2001-03-28 2002-10-04 Nec Corp 複数の回線を使用した通信方式、通信制御装置
CN1665198A (zh) * 2004-03-06 2005-09-07 鸿富锦精密工业(深圳)有限公司 堆叠式交换机管理方法
CN101207512A (zh) * 2006-12-22 2008-06-25 中兴通讯股份有限公司 一种数据库***冗灾备份和切换方法
CN101212458A (zh) * 2006-12-25 2008-07-02 中兴通讯股份有限公司 一种数据库***备份方法
CN101447858A (zh) * 2008-01-17 2009-06-03 中兴通讯股份有限公司 双机热备份***中实现虚拟路由冗余协议同步倒换的方法
CN101378334A (zh) * 2008-09-25 2009-03-04 卡斯柯信号有限公司 基于双网冗余通用网络模型的通讯方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102624567A (zh) * 2012-03-25 2012-08-01 沈阳通用软件有限公司 一种硬件型网络安全控制服务器热备份装置
CN102724065A (zh) * 2012-05-22 2012-10-10 长沙中联消防机械有限公司 一种网络通信***及包括该***的工程机械设备
CN103530200A (zh) * 2012-07-04 2014-01-22 腾讯科技(深圳)有限公司 一种服务器热备份***和方法
CN103530200B (zh) * 2012-07-04 2018-01-26 腾讯科技(深圳)有限公司 一种服务器热备份***和方法
CN103634411B (zh) * 2013-12-16 2017-06-06 上海证券交易所 一种具有状态一致性的市场数据实时广播***及方法
CN103634411A (zh) * 2013-12-16 2014-03-12 上海证券交易所 一种具有状态一致性的市场数据实时广播***及方法
CN105933135A (zh) * 2015-11-16 2016-09-07 ***股份有限公司 一种确定执行调度任务的方法及执行调度任务的第一主机
CN105933135B (zh) * 2015-11-16 2019-07-16 ***股份有限公司 一种确定执行调度任务的方法及执行调度任务的第一主机
CN107819808A (zh) * 2016-09-14 2018-03-20 北京百度网讯科技有限公司 通信连接建立方法和装置
CN106713056A (zh) * 2017-03-17 2017-05-24 郑州云海信息技术有限公司 一种分布式集群下备机选举切换的方法
CN106713056B (zh) * 2017-03-17 2019-06-28 郑州云海信息技术有限公司 一种分布式集群下备机选举切换的方法
CN107632517A (zh) * 2017-07-31 2018-01-26 上海蔚来汽车有限公司 充换电站及充换电监控***、方法
CN109032849A (zh) * 2018-08-30 2018-12-18 百度在线网络技术(北京)有限公司 热备份***、热备份方法和计算机设备
CN109032849B (zh) * 2018-08-30 2021-03-23 百度在线网络技术(北京)有限公司 热备份***、热备份方法和计算机设备
US11397647B2 (en) 2018-08-30 2022-07-26 Apollo Intelligent Driving Technology (Beijing) Co., Ltd. Hot backup system, hot backup method, and computer device
CN110333973A (zh) * 2018-12-28 2019-10-15 锐捷网络股份有限公司 一种多机热备的方法和***
CN110333973B (zh) * 2018-12-28 2023-04-25 锐捷网络股份有限公司 一种多机热备的方法和***
CN109799797A (zh) * 2019-01-10 2019-05-24 国网陕西省电力公司 厂站电能量采集终端双机热备的方法

Similar Documents

Publication Publication Date Title
CN101917263A (zh) 多机热备的方法及***
US10560315B2 (en) Method and device for processing failure in at least one distributed cluster, and system
US20220075698A1 (en) Method and Apparatus for Redundancy in Active-Active Cluster System
CN108847982B (zh) 一种分布式存储集群及其节点故障切换方法和装置
US5875290A (en) Method and program product for synchronizing operator initiated commands with a failover process in a distributed processing system
CN106330475B (zh) 一种通信***中管理主备节点的方法和装置及高可用集群
US6012150A (en) Apparatus for synchronizing operator initiated commands with a failover process in a distributed processing system
CN109344014B (zh) 一种主备切换方法、装置及通信设备
WO2018233645A1 (zh) 基于CANopen协议的列车网络数据传输方法、***及其装置
CN103354503A (zh) 一种可自动检测及替换故障节点的云存储***及其方法
CN109471759B (zh) 一种基于sas双控设备的数据库故障切换方法及设备
WO2019128670A1 (zh) 用于在分布式***中使管理能力自恢复的方法和装置
CN110677282B (zh) 一种分布式***的热备份方法及分布式***
US10037253B2 (en) Fault handling methods in a home service system, and associated household appliances and servers
CN114866365B (zh) 仲裁机选举方法、装置、智能设备及计算机可读存储介质
CN111585835B (zh) 一种带外管理***的控制方法、装置和存储介质
CN114461428A (zh) 一种用于双机集群脑裂的仲裁方法
CN112346925A (zh) 一种进程级双机热备冗余***及方法
CN111314098A (zh) 一种ha***中实现vip地址漂移的方法和装置
CN112069032A (zh) 一种虚拟机的可用性检测方法、***及相关装置
JP5285044B2 (ja) クラスタシステム復旧方法及びサーバ及びプログラム
CN109582626B (zh) 一种访问总线的方法、装置、设备及可读存储介质
WO2023041073A1 (zh) 一种多节点间的数据同步方法、***、设备及存储介质
CN115987999A (zh) 多机***的主从竞争方法、装置、arm及存储介质
CN102412973B (zh) 一种引擎模块、线卡、通信设备及其优雅重启的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20101215