CN103647668A - 一种高可用集群内主机群体决策***及切换方法 - Google Patents

一种高可用集群内主机群体决策***及切换方法 Download PDF

Info

Publication number
CN103647668A
CN103647668A CN201310689137.8A CN201310689137A CN103647668A CN 103647668 A CN103647668 A CN 103647668A CN 201310689137 A CN201310689137 A CN 201310689137A CN 103647668 A CN103647668 A CN 103647668A
Authority
CN
China
Prior art keywords
main frame
host
cluster
decision
making
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310689137.8A
Other languages
English (en)
Inventor
郭鹏光
武剑锋
王泊
张佳岭
朱星垠
黄寅飞
白硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Stock Exchange
Original Assignee
Shanghai Stock Exchange
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Stock Exchange filed Critical Shanghai Stock Exchange
Priority to CN201310689137.8A priority Critical patent/CN103647668A/zh
Publication of CN103647668A publication Critical patent/CN103647668A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本发明涉及数据处理领域,具体是一种高可用集群内主机群体决策***其切换方法,其特征在于所述的群体决策***位于***后台,由若干台交易主机组成,整体架构分为三层:定序层服务器主机、通信层服务器主机和处理层服务器主机,构成集群的各台主机之间可通过网络进行通信,通过共享存储设备对文件***进行读写访问,主机间的数据进行实时同步,保持一致性,负责主机状态的转换的高可用模块,由三个模块协同完成,包括:探针模块、决策模块和路由模块。本发明同现有技术相比,提高了服务器整体性能,其优点具体在于:通过二维表交叉集体投票决策的方式,对故障节点进行物理隔离切换,从而实现主机切换及故障隔离,有效的解决了集群脑裂的问题。

Description

一种高可用集群内主机群体决策***及切换方法
[技术领域]
本发明涉及数据处理领域,具体是一种高可用集群内主机群体决策***及切换方法。 
[背景技术]
证券交易所是为证券市场提供公共的交易平台,其中证券核心交易***作为证券产品实时竞价撮合的平台***,也被称为竞价撮合平台,属于关键业务***,其性能安全可靠直接关系到国内金融市场的繁荣稳定,因此竞价撮合平台需要保证稳定、高可用性。 
根据Gartner所作的统计,导致***计划外停机的原因主要是应用问题(40%)、操作问题(40%)、操作***故障(10%)和硬件故障(10%),而这些问题基本在一个运行***里都能解决,只有很少的问题需要业务切换到冷备***,针对主机的故障情况,***需要有热备,才能具备快速切换的能力,保证业务的连续性,持续对外提供服务。 
目前证券从行业流行的一主一备的热备模式,升级为一主两备甚至多备的热备模式,从而可以应对主机硬件的单点故障。随着集群内主机规模的扩张,急需解决的问题是主机状态监控及切换,在主机状态监控集群决策及切换过程中,脑裂是经常遇到的问题。在现有解决脑裂的方法中,以paxos和Fast Paxos最为有名,相对应的项目有ZooKeeper等,但paxos算法本身比较复杂,程序实现难度较大,并且无法有效解决活锁的问题,而当遇到脑裂场景,集群内需要 投票选举产生一个LEADER主机,由LEADER主机进行决策,但选举LEADER的过程同样复杂,并面临着LEADER主机本身假死异常时,将会在决策过程中形成较长的延时。 
[发明内容]
本发明的目的在于解决现有技术中主机状态监控集群决策及切换过程中集体脑裂的问题,而paxos算法比较复杂,程序实现难度较大,无法有效解决活锁的问题,设计了一种能提高服务器整体性能,适用于高可用集群计算机***内多机热备要求的故障侦测、诊断决策、故障隔离与切换、恢复与扩展,通过集体投票决策的方式,对故障节点进行物理隔离切换,夺取共享资源的访问及处理权,从而实现主机切换及故障隔离,支持多台交易主机并行运行的高可用集群内主机群体决策***及切换方法。 
为了实现上述目的,发明一种高可用集群内主机群体决策***,所述的群体决策***位于***后台,由若干台交易主机组成,整体架构分为三层:定序层服务器主机、通信层服务器主机和处理层服务器主机,构成集群的各台主机之间可通过网络进行通信,通过共享存储设备对文件***进行读写访问,主机间的数据进行实时同步,保持一致性,集群内各个节点维护关于集群所有成员节点信息,新加入集群的节点能告知所有主机自身信息及动态更新路由表,负责主机状态的转换的高可用模块,由三个模块协同完成,包括:探针模块、决策模块和路由模块,探针模块周期性的访问本主机的应用程序及资源空闲状态,判断本机的健康状况,探针模块把侦测到得本机健康状况通过TCP/IP网络,在集群内广播,决策模块收到探针模块发送的健康心跳报文,则通过主动和被动的方式,判断发送健康心跳报文的主机是否处于正常状态,如果决策模块在本 轮的判断中,没有发现***内有异常主机,则继续下一轮判断,如果发现有异常主机,则通知路由模块,修改异常主机的状态,并修改交易数据的路由规则,做到故障的隔离和切换。 
所述的定序层服务器主机负责负载均衡及报单定序,通信层服务器主机接收来自定序层服务器主机的订单,根据静态及动态路由表,选定后台交易处理主机,并把订单转发到后台交易处理层服务器主机,后台交易处理层服务器主机接收来自通信主机的订单,进行转换及撮合处理。 
所述的交易主机根据产品集合进行分区,同一时间,属于同一产品集合的产品只会在集群内某一台应用主机上处理,对某一产品集合,对应有主用交易主机和备用交易主机,主用机负责该产品集合的证券交易处理,备用机不进行该产品集合的证券交易处理,备用机通过复制技术保持与主用机的数据一致性,在主用机失效时,备用机将动态调整为该产品集合的主用机。 
所述的路由表负责管理各个产品集合的主用机、备用机信息,这些信息被称为订单路由信息,主用机只能定一个,备用机能定多个,备用机之间定义接管次序,依次称为第一备机、第二备机,以此类推,静态路由表指在交易***启动前预先定义在文件中的各个产品集合的主用机、备用机信息,动态路由表指实时根据主机状态,获得的各个产品集合的主用机、备用机信息。 
一种高可用集群内主机群体决策***的切换方法,所述的切换方法如下: 
a.探针模块主动侦测本机健康状况,检查进程、共享内存、消息队列发生故障,在某个主机出现资源耗尽或进程挂起类的异常,则会触发探针模块主动侦测及报告功能,探针模块主动向***内所有主机广播健康信息,主动要求把 本主机隔离;***内所有其他主机收到探针模块发送的健康心跳报告,实时对异常主机实施隔离操作,隔离操作分为两步,第一步是***内所有其他主机更新到异常主机的路由表,新的交易数据路由到异常主机的第一备机;第二步是对异常的主机实施物理隔离,在网络上隔离异常主机,并开始进行对异常主机的故障排查及恢复; 
b.如果发生主机宕机、网络中断异常,探针模块生成的本机健康心跳报告无法送达集群内其他主机,此时触发集群内群体决策机制,进行无主状态的决策,每个健康主机独立发起投票,最终的决策综合了所有的健康主机的报告,避免了单点故障导致的决策错误,同时也保证了***内决策的依据、结果的统一,即使群体决策错误,也会保证整个***的健康运行及数据的一致性,如果发生主机宕机,则***内所有其他主机侦测到故障主机连续若干次没有按时送达健康心跳报文签到;所有主机把异常主机的诊断结果互相发送给其它主机,也即***内所有主机都在本地实时维护一张二维表,存储各台主机上对故障状态的判断,***内所有主机根据本地汇总的诊断信息进行决策,修改本地存储的路由表;并对异常主机进行隔离;隔离后,对异常主机进行故障排查及恢复; 
c.如果主机从故障中恢复,加入集群并实施数据装载,在不打断当前主用机的正常业务处理的前提下,故障主机与正常热备机完成数据同步,则能在十秒内完成自动恢复和切换,首先探针模块侦测到本机故障解除后,探针模块会向集群内发送广播,申请重新加入集群,***内所有其他主机,在连续若干次收到故障的恢复正常请求后,判断故障确实恢复正常;***内所有其他主机对故障主机实施恢复操作,重新计算到故障主机的动态路由表。 
上述的切换方法还包括:在集群成员主机的状态发生变化时,动态路由表 将重新计算,在主机失效时,***内各台主机都会进行信息综合及处理,全部重新计算动态路由表,该故障主机原先作为主用机的产品集合,其第一备机变为主用机,第二备机递进变为第一备机,以此类推,如果是备机失效,则只会调整本备机之后的备机顺序,即其后的备机递进前推,不会影响优先级更高的主备机顺序,这保证了主用机失效时每个产品集合均由准备最充分的备用机最先接管。 
本发明同现有技术相比,提高了服务器整体性能,其优点具体在于: 
1.通过二维表交叉集体投票决策的方式,对故障节点进行物理隔离切换,夺取共享资源的访问及处理权,从而实现主机切换及故障隔离,支持多台交易主机并行运行,更适合于分层的集群处理***,比Paxos等算法更简洁、有效的解决了集群脑裂的问题; 
2.适用于金融行业,满足关键业务高可用性、稳定性和可扩展性的要求,可用于高可用集群计算机***内多机热备要求的故障侦测、诊断决策、故障隔离与切换、恢复与扩展; 
3.在集群***内部署热备主机,减小冗余,可充分利用主机计算能力,成本较低; 
4.采用无Master模式的故障侦测和切换方法,解决了Mater故障及切换带来的风险,使整个集群***更加简单清晰,容错性更强。 
[附图说明]
图1为本发明中高可用集群部署示意图; 
图2为本发明中交易主机状态转换示意图; 
图3为本发明中交易主机高可用模块部署示意图; 
图4为本发明中故障主动侦测流程图; 
图5本发明中主机状态恢复流程图; 
指定图2作为本发明的摘要附图。 
[具体实施方式]
下面结合附图对本发明作进一步说明,这种***的结构和原理对本专业的人来说是非常清楚的。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。 
本发明高可用集群内主机群体决策***分为三层,其中群体决策及切换方法仅适用于通信服务器层和应用服务器层,在此两层中,所有通信服务器和应用服务器的地位是对等的,也即决策的策略相同。 
本发明位于业务***后台,由若干台负责交易业务处理的交易主机组成,无主节点主机,整体架构分为三层:定序层、通信层和处理层。定序层负责负载均衡及报单定序;通信主机接收来自定序层的订单,根据静态及动态路由表,选定后台交易处理主机,并把订单转发到后台交易处理主机,后台交易主机接收来自通信主机的订单,进行转换及撮合处理,集群内各个节点维护关于集群所有成员节点信息,新加入集群的节点可告知所有主机自身信息及动态更新路由表,构成集群的各台主机之间可通过网络进行通信,通过共享存储设备对文件***进行读写访问,主机间的数据进行实时同步,保持一致性。 
实施例1 
图1展示了基于高可用多机备份技术的一个多机互为热备的典型的部署方式,图中有9台主机构成一个集群,由定序服务器主机、通信服务器主机、应用服务器主机,主机之间通过TCP/IP网络互连以交换数据和控制消息,主机之间通过存储区域网络共享访问磁盘。 
实施例2 
如图2所示,为本发明的主机状态示意图,任务可以有多种状态,负责主机状态的转换的高可用模块,由三个模块协同完成,包括:探针模块、决策模块和路由模块。探针模块周期性的访问本主机的应用程序及资源空闲状态,并在高可用集群内广播本主机健康状况;决策模块收到探针模块发送的健康心跳报文,通过主动和被动的方式,判断主机健康状况;路由模块,装载静态路由表,并维持动态路由表的更新。探针模块把侦测到得本机健康状况通过TCP/IP网络,在高可用集群内广播,决策模块收到探针模块发送的健康心跳报文,则通过主动和被动的方式,判断发送健康心跳报文的主机是否处于正常状态。如果决策模块在本轮的判断中,没有发现***内有异常主机,则继续下一轮判断,如果发现有异常主机,则通知路由模块,修改异常主机的状态,并修改交易数据的路由规则,做到故障的隔离和切换。 
在主机高可用模块开始工作时,初始化其主机状态为“状态1-开始初始化”,初始化完成,探针模块启动计时器,如果在计时器设定的时间触发,则开始检查本机健康状态,将主机的状态改为“状态2-状态正在检查”,此主机状态检查顺利完成,则更改任务状态为“状态N-检查完成状态正常”。如果在探针模块,发现由于某种原因而本机出现异常情况,则修改本机状态为“状态异常”,同时决策模块,定时对健康心跳报文进行检查,在若干次检查未收到探针模块发送 的健康心跳报告后,同样会修改故障主机状态为“状态异常”。当高可用模块发现“主机状态异常”时,主机不再处理正常交易,开始进入“状态0-故障恢复”状态,人工或自动恢复主机;如果主机或应用程序被重启,则进入状态“状态1-开始初始化”;否则进入状态“状态2…N-1状态正在检查-状态正常”。 
“状态1-开始初始化”是初始状态;“状态0-故障恢复”是终止状态;其它都是中间状态。 
实施例3 
图3展示了交易主机的主要功能模块。决策模块:接收探针模块的健康心跳报文,根据主机健康情况修改主机的状态及路由规则;探针模块:检查本机的应用程序及资源空闲,判断本机的健康状态,主动以广播的方式发送健康心跳报文;路由模块:启动时装载静态路由信息,在集群运行时,根据决策模块的指令,动态更新路由信息,完成主机的切换和恢复。 
在同一个主机的各个模块间,采用进程间通讯的方式,传递消息,在不同主机之间,采用TCP/IP方式,进行主机间通讯。 
根据证券本身的特殊性,将进入交易主机处理的产品划分成为不同的产品集合,对于一个产品集合,可以有一台主机作为主处理机,可以有多台主机作为备处理机,分别称为第一备机,第二备机,第三备机等,对于一台主机可以同时主处理多个产品集合,也可以同时备处理多个产品集合。 
本方法中包含一个实体内容,即静态配置路由表,其中写明了每个产品集合所对应的主机,第一备机,第二备机等,路由模块中的静态配置路由表如表1 所示: 
表1路由模块中的静态配置路由表 
产品集合 主处理机 第一备机 第二备机 第三备机
产品集合1 主机1 主机2 主机3 主机5
产品集合2 主机2 主机1 主机4 主机6
产品集合3 主机3 主机4 主机1 主机5
产品集合4 主机1 主机3 主机2 主机6
如上述静态路由表配置,任何一个产品集合都有一个主处理机,和多个备份机,而一台主机可以做多个产品集合的主处理机,可以做多个产品集合的备处理机,可以只做主处理机,也可以只做备处理机,因此对于主机角色的定位相对灵活。比如产品集合1,主处理机是主机1,第一备机是主机2,第二备机是主机3,第三备机主机5。 
实施例4 
图4展示了故障主动侦测流程,具体流程为: 
1.主机1上探针模块主动侦测本机健康状况,检查进程、共享内存、消息队列等资源是否发生正常,若发现本机有消息队列中阻塞消息数已经超过阈值; 
2.主机1上探针模块主动向***内所有主机发送本机健康信息,报告本机有消息队列中阻塞消息数已经超过阈值; 
3.***内所有其他主机对异常主机1实施隔离操作; 
4.***内所有其他主机修改到主机1的路由表,新的交易数据路由到主机1的第一备机; 
5.对异常的主机1实施物理隔离; 
6.主机1开始进行故障排查及恢复; 
在集群中每台主机上探针模块会维护一份本主机的应用程序及资源检查列表,并在定时触发进行检查,并把检查结果记录到健康心跳消息中,在集群***内广播,如下表2所示: 
表2主机1健康检查结果 
主机 进程检查 消息队列检查 共享内存检查 存储及数据库检查
主机1 正常 阻塞超过阀值 正常 正常
由上可以看出,由于消息队列中阻塞消息数已经超过阈值,本主机1已经不能正常处理交易数据,探针模块实时通知***内其他主机的决策模块,告知本主机1已经异常,主动请求隔离。 
在集群中每台主机上决策模块收到此主动异常报告,同步通知路由模块主机1异常,结束本次***状态检查。 
实施例5 
图5展示了主机状态恢复的流程,具体流程为: 
1.异常主机1侦测到本机故障解除,健康状况为正常,同步更新交易数据,完成数据同步; 
2.异常主机1通知***内所有其他主机1…N需要重新接纳自己,可以正常处理交易数据; 
3.***内所有其他主机1…N,连续若干次收到主机1的恢复正常请求,决策判断主机1确实恢复正常; 
4.***内所有其他主机对异常主机1实施恢复操作,修改到主机1的路由表,新的交易数据可以路由到主机1; 
5.新的交易数据可以发送到主机1。

Claims (6)

1.一种高可用集群内主机群体决策***,其特征在于所述的群体决策***位于***后台,由若干台交易主机组成,整体架构分为三层:定序层服务器主机、通信层服务器主机和处理层服务器主机,构成集群的各台主机之间可通过网络进行通信,通过共享存储设备对文件***进行读写访问,主机间的数据进行实时同步,保持一致性,集群内各个节点维护关于集群所有成员节点信息,新加入集群的节点能告知所有主机自身信息及动态更新路由表,负责主机状态的转换的高可用模块,由三个模块协同完成,包括:探针模块、决策模块和路由模块,探针模块周期性的访问本主机的应用程序及资源空闲状态,判断本机的健康状况,探针模块把侦测到得本机健康状况通过TCP/IP网络,在集群内广播,决策模块收到探针模块发送的健康心跳报文,则通过主动和被动的方式,判断发送健康心跳报文的主机是否处于正常状态,如果决策模块在本轮的判断中,没有发现***内有异常主机,则继续下一轮判断,如果发现有异常主机,则通知路由模块,修改异常主机的状态,并修改交易数据的路由规则,做到故障的隔离和切换。
2.如权利要求1所述的一种高可用集群内主机群体决策***,其特征在于所述的定序层服务器主机负责负载均衡及报单定序,通信层服务器主机接收来自定序层服务器主机的订单,根据静态及动态路由表,选定后台交易处理主机,并把订单转发到后台交易处理层服务器主机,后台交易处理层服务器主机接收来自通信主机的订单,进行转换及撮合处理。
3.如权利要求1所述的一种高可用集群内主机群体决策***,其特征在于所述的交易主机根据产品集合进行分区,同一时间,属于同一产品集合的产品只会在集群内某一台应用主机上处理,对某一产品集合,对应有主用交易主机和备用交易主机,主用机负责该产品集合的证券交易处理,备用机不进行该产品集合的证券交易处理,备用机通过复制技术保持与主用机的数据一致性,在主用机失效时,备用机将动态调整为该产品集合的主用机。
4.如权利要求1所述的一种高可用集群内主机群体决策***,其特征在于所述的路由表负责管理各个产品集合的主用机、备用机信息,这些信息被称为订单路由信息,主用机只能定一个,备用机能定多个,备用机之间定义接管次序,依次称为第一备机、第二备机,以此类推,静态路由表指在交易***启动前预先定义在文件中的各个产品集合的主用机、备用机信息,动态路由表指实时根据主机状态,获得的各个产品集合的主用机、备用机信息。
5.一种如权利要求1所述的高可用集群内主机群体决策***的切换方法,其特征在于所述的切换方法如下:
a.探针模块主动侦测本机健康状况,检查进程、共享内存、消息队列发生故障,在某个主机出现资源耗尽或进程挂起类的异常,则会触发探针模块主动侦测及报告功能,探针模块主动向***内所有主机广播健康信息,主动要求把本主机隔离;***内所有其他主机收到探针模块发送的健康心跳报告,实时对异常主机实施隔离操作,隔离操作分为两步,第一步是***内所有其他主机更新到异常主机的路由表,新的交易数据路由到异常主机的第一备机;第二步是对异常的主机实施物理隔离,在网络上隔离异常主机,并开始进行对异常主机的故障排查及恢复;
b.如果发生主机宕机、网络中断异常,探针模块生成的本机健康心跳报告无法送达集群内其他主机,此时触发集群内群体决策机制,进行无主状态的决策,每个健康主机独立发起投票,最终的决策综合了所有的健康主机的报告,避免了单点故障导致的决策错误,同时也保证了***内决策的依据、结果的统一,即使群体决策错误,也会保证整个***的健康运行及数据的一致性,如果发生主机宕机,则***内所有其他主机侦测到故障主机连续若干次没有按时送达健康心跳报文签到;所有主机把异常主机的诊断结果互相发送给其它主机,也即***内所有主机都在本地实时维护一张二维表,存储各台主机上对故障状态的判断,***内所有主机根据本地汇总的诊断信息进行决策,修改本地存储的路由表;并对异常主机进行隔离;隔离后,对异常主机进行故障排查及恢复;
c.如果主机从故障中恢复,加入集群并实施数据装载,在不打断当前主用机的正常业务处理的前提下,故障主机与正常热备机完成数据同步,则能在十秒内完成自动恢复和切换,首先探针模块侦测到本机故障解除后,探针模块会向集群内发送广播,申请重新加入集群,***内所有其他主机,在连续若干次收到故障的恢复正常请求后,判断故障确实恢复正常;***内所有其他主机对故障主机实施恢复操作,重新计算到故障主机的动态路由表。
6.如权利要求5所述的一种高可用集群内主机群体决策***的切换方法,其特征在于所述的切换方法还包括:在集群成员主机的状态发生变化时,动态路由表将重新计算,在主机失效时,***内各台主机都会进行信息综合及处理,全部重新计算动态路由表,该故障主机原先作为主用机的产品集合,其第一备机变为主用机,第二备机递进变为第一备机,以此类推,如果是备机失效,则只会调整本备机之后的备机顺序,即其后的备机递进前推,不会影响优先级更高的主备机顺序,这保证了主用机失效时每个产品集合均由准备最充分的备用机最先接管。
CN201310689137.8A 2013-12-16 2013-12-16 一种高可用集群内主机群体决策***及切换方法 Pending CN103647668A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310689137.8A CN103647668A (zh) 2013-12-16 2013-12-16 一种高可用集群内主机群体决策***及切换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310689137.8A CN103647668A (zh) 2013-12-16 2013-12-16 一种高可用集群内主机群体决策***及切换方法

Publications (1)

Publication Number Publication Date
CN103647668A true CN103647668A (zh) 2014-03-19

Family

ID=50252829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310689137.8A Pending CN103647668A (zh) 2013-12-16 2013-12-16 一种高可用集群内主机群体决策***及切换方法

Country Status (1)

Country Link
CN (1) CN103647668A (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573117A (zh) * 2015-02-05 2015-04-29 赛特斯信息科技股份有限公司 基于共享存储实现数据库服务器高可用的方法及***
CN104780613A (zh) * 2015-04-23 2015-07-15 河北远东通信***工程有限公司 数字集群基站和交换中心之间资源共享和同步的方法
CN105391737A (zh) * 2015-12-14 2016-03-09 福建六壬网安股份有限公司 一种负载均衡主机群文件同步处理***及其处理方法
CN106453656A (zh) * 2016-12-06 2017-02-22 东软集团股份有限公司 一种集群主机选取方法及装置
CN106789193A (zh) * 2016-12-06 2017-05-31 郑州云海信息技术有限公司 一种集群投票仲裁方法及***
CN107533486A (zh) * 2015-10-13 2018-01-02 甲骨文国际公司 用于多租户集群环境中的高效网络隔离和负载平衡的***和方法
CN107733684A (zh) * 2017-08-31 2018-02-23 北京宇航***工程研究所 一种基于龙芯处理器的多控制器计算冗余集群
CN107807608A (zh) * 2017-11-02 2018-03-16 腾讯科技(深圳)有限公司 数据处理方法、数据处理***及存储介质
CN107819605A (zh) * 2016-09-14 2018-03-20 北京百度网讯科技有限公司 用于在服务器集群中切换服务器的方法和装置
CN108712475A (zh) * 2018-04-27 2018-10-26 深圳市元征科技股份有限公司 消息发送方法、装置、电子设备以及计算机可读存储介质
CN109274711A (zh) * 2018-08-13 2019-01-25 中兴飞流信息科技有限公司 集群计算方法、装置及计算机可读存储介质
CN109286529A (zh) * 2018-10-31 2019-01-29 武汉烽火信息集成技术有限公司 一种恢复RabbitMQ网络分区的方法及***
CN110427429A (zh) * 2019-08-06 2019-11-08 上海浦东发展银行股份有限公司***中心 一种基于fabric-sdk-java的交易负载均衡实现方法
CN110519112A (zh) * 2018-05-22 2019-11-29 山东数盾信息科技有限公司 一种实现集群存储***中动态连续高可用的方法
CN110855737A (zh) * 2019-09-24 2020-02-28 中国科学院软件研究所 一种一致性级别可控的自适应数据同步方法和***
CN111008026A (zh) * 2018-10-08 2020-04-14 阿里巴巴集团控股有限公司 集群管理方法、装置及***
CN111026586A (zh) * 2019-11-21 2020-04-17 通号城市轨道交通技术有限公司 一种集群设备的主备状态切换方法及装置
CN111277632A (zh) * 2020-01-13 2020-06-12 中国建设银行股份有限公司 ***集群中应用管理的方法和装置
TWI697224B (zh) * 2018-10-29 2020-06-21 日商三菱電機股份有限公司 通信系統、通信裝置及電腦程式產品
CN111431805A (zh) * 2020-03-27 2020-07-17 上海天好信息技术股份有限公司 一种物联网多路信号复用的同步策略方法
CN111696245A (zh) * 2020-06-30 2020-09-22 郭平波 一种基于p2p网络的投票方法
WO2020211362A1 (zh) * 2019-04-16 2020-10-22 平安科技(深圳)有限公司 提高集群***可用性的方法、装置和计算机设备
CN111901256A (zh) * 2020-08-07 2020-11-06 杭州熙菱信息技术有限公司 一种集群式交换***及方法
CN112035262A (zh) * 2020-09-22 2020-12-04 中国建设银行股份有限公司 多主机动态管理调整的方法和装置
CN112181660A (zh) * 2020-10-12 2021-01-05 北京计算机技术及应用研究所 一种基于服务器集群的高可用方法
CN112596991A (zh) * 2020-12-27 2021-04-02 卡斯柯信号有限公司 一种基于机器健康状态的热备倒切方法
CN113055203A (zh) * 2019-12-26 2021-06-29 ***通信集团重庆有限公司 Sdn控制平面的异常恢复方法及装置
CN113220509A (zh) * 2021-05-19 2021-08-06 扬州万方电子技术有限责任公司 一种双组合交替倒班***及方法
CN113489792A (zh) * 2021-07-07 2021-10-08 上交所技术有限责任公司 一种在跨数据中心集群共识算法中减少数据中心间网络传输次数的方法
CN114124668A (zh) * 2021-11-03 2022-03-01 上证所信息网络有限公司 一种保证多主机行情切片一致的***及方法
CN114189547A (zh) * 2022-02-14 2022-03-15 北京安盟信息技术股份有限公司 一种集群下ssl隧道快速切换方法
CN114844909A (zh) * 2022-03-31 2022-08-02 顾松林 基于互联网的共识机制查询***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6269396B1 (en) * 1997-12-12 2001-07-31 Alcatel Usa Sourcing, L.P. Method and platform for interfacing between application programs performing telecommunications functions and an operating system
CN1741489A (zh) * 2005-09-01 2006-03-01 西安交通大学 构建多机***高可用的自愈合逻辑环故障检测与容忍方法
CN102938705A (zh) * 2012-09-25 2013-02-20 上海证券交易所 一种高可用多机备份路由表管理与切换方法
CN103384212A (zh) * 2013-07-24 2013-11-06 佳都新太科技股份有限公司 一种通信应用***双机高可用方案及其实现

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6269396B1 (en) * 1997-12-12 2001-07-31 Alcatel Usa Sourcing, L.P. Method and platform for interfacing between application programs performing telecommunications functions and an operating system
CN1741489A (zh) * 2005-09-01 2006-03-01 西安交通大学 构建多机***高可用的自愈合逻辑环故障检测与容忍方法
CN102938705A (zh) * 2012-09-25 2013-02-20 上海证券交易所 一种高可用多机备份路由表管理与切换方法
CN103384212A (zh) * 2013-07-24 2013-11-06 佳都新太科技股份有限公司 一种通信应用***双机高可用方案及其实现

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵殿奎: "基于LVS负载调度器的双机热备份研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573117A (zh) * 2015-02-05 2015-04-29 赛特斯信息科技股份有限公司 基于共享存储实现数据库服务器高可用的方法及***
CN104780613A (zh) * 2015-04-23 2015-07-15 河北远东通信***工程有限公司 数字集群基站和交换中心之间资源共享和同步的方法
US11356370B2 (en) 2015-10-13 2022-06-07 Oracle International Corporation System and method for efficient network isolation and load balancing in a multi-tenant cluster environment
CN107533486B (zh) * 2015-10-13 2020-11-10 甲骨文国际公司 用于多租户集群环境中的高效网络隔离和负载平衡的***和方法
US11677667B2 (en) 2015-10-13 2023-06-13 Oracle International Corporation System and method for efficient network isolation and load balancing in a multi-tenant cluster environment
CN107533486A (zh) * 2015-10-13 2018-01-02 甲骨文国际公司 用于多租户集群环境中的高效网络隔离和负载平衡的***和方法
CN105391737A (zh) * 2015-12-14 2016-03-09 福建六壬网安股份有限公司 一种负载均衡主机群文件同步处理***及其处理方法
CN107819605A (zh) * 2016-09-14 2018-03-20 北京百度网讯科技有限公司 用于在服务器集群中切换服务器的方法和装置
CN106453656A (zh) * 2016-12-06 2017-02-22 东软集团股份有限公司 一种集群主机选取方法及装置
CN106789193A (zh) * 2016-12-06 2017-05-31 郑州云海信息技术有限公司 一种集群投票仲裁方法及***
CN106453656B (zh) * 2016-12-06 2019-12-06 东软集团股份有限公司 一种集群主机选取方法及装置
CN107733684B (zh) * 2017-08-31 2021-02-09 北京宇航***工程研究所 一种基于龙芯处理器的多控制器计算冗余集群
CN107733684A (zh) * 2017-08-31 2018-02-23 北京宇航***工程研究所 一种基于龙芯处理器的多控制器计算冗余集群
CN107807608A (zh) * 2017-11-02 2018-03-16 腾讯科技(深圳)有限公司 数据处理方法、数据处理***及存储介质
CN108712475A (zh) * 2018-04-27 2018-10-26 深圳市元征科技股份有限公司 消息发送方法、装置、电子设备以及计算机可读存储介质
CN110519112A (zh) * 2018-05-22 2019-11-29 山东数盾信息科技有限公司 一种实现集群存储***中动态连续高可用的方法
CN109274711A (zh) * 2018-08-13 2019-01-25 中兴飞流信息科技有限公司 集群计算方法、装置及计算机可读存储介质
CN109274711B (zh) * 2018-08-13 2021-05-25 中兴飞流信息科技有限公司 集群计算方法、装置及计算机可读存储介质
CN111008026A (zh) * 2018-10-08 2020-04-14 阿里巴巴集团控股有限公司 集群管理方法、装置及***
CN111008026B (zh) * 2018-10-08 2024-03-26 阿里巴巴集团控股有限公司 集群管理方法、装置及***
TWI697224B (zh) * 2018-10-29 2020-06-21 日商三菱電機股份有限公司 通信系統、通信裝置及電腦程式產品
CN109286529A (zh) * 2018-10-31 2019-01-29 武汉烽火信息集成技术有限公司 一种恢复RabbitMQ网络分区的方法及***
CN109286529B (zh) * 2018-10-31 2021-08-10 武汉烽火信息集成技术有限公司 一种恢复RabbitMQ网络分区的方法及***
WO2020211362A1 (zh) * 2019-04-16 2020-10-22 平安科技(深圳)有限公司 提高集群***可用性的方法、装置和计算机设备
CN110427429A (zh) * 2019-08-06 2019-11-08 上海浦东发展银行股份有限公司***中心 一种基于fabric-sdk-java的交易负载均衡实现方法
CN110427429B (zh) * 2019-08-06 2023-03-14 上海浦东发展银行股份有限公司***中心 一种基于fabric-sdk-java的交易负载均衡实现方法
CN110855737B (zh) * 2019-09-24 2020-11-06 中国科学院软件研究所 一种一致性级别可控的自适应数据同步方法和***
CN110855737A (zh) * 2019-09-24 2020-02-28 中国科学院软件研究所 一种一致性级别可控的自适应数据同步方法和***
CN111026586A (zh) * 2019-11-21 2020-04-17 通号城市轨道交通技术有限公司 一种集群设备的主备状态切换方法及装置
CN111026586B (zh) * 2019-11-21 2024-01-02 通号城市轨道交通技术有限公司 一种集群设备的主备状态切换方法及装置
CN113055203B (zh) * 2019-12-26 2023-04-18 ***通信集团重庆有限公司 Sdn控制平面的异常恢复方法及装置
CN113055203A (zh) * 2019-12-26 2021-06-29 ***通信集团重庆有限公司 Sdn控制平面的异常恢复方法及装置
CN111277632A (zh) * 2020-01-13 2020-06-12 中国建设银行股份有限公司 ***集群中应用管理的方法和装置
CN111431805A (zh) * 2020-03-27 2020-07-17 上海天好信息技术股份有限公司 一种物联网多路信号复用的同步策略方法
CN111431805B (zh) * 2020-03-27 2021-01-12 上海天好信息技术股份有限公司 一种物联网多路信号复用的同步策略方法
CN111696245A (zh) * 2020-06-30 2020-09-22 郭平波 一种基于p2p网络的投票方法
CN111901256A (zh) * 2020-08-07 2020-11-06 杭州熙菱信息技术有限公司 一种集群式交换***及方法
CN111901256B (zh) * 2020-08-07 2022-10-04 杭州熙菱信息技术有限公司 一种集群式交换***及方法
CN112035262A (zh) * 2020-09-22 2020-12-04 中国建设银行股份有限公司 多主机动态管理调整的方法和装置
CN112181660A (zh) * 2020-10-12 2021-01-05 北京计算机技术及应用研究所 一种基于服务器集群的高可用方法
CN112596991B (zh) * 2020-12-27 2023-09-08 卡斯柯信号有限公司 一种基于机器健康状态的热备倒切方法
CN112596991A (zh) * 2020-12-27 2021-04-02 卡斯柯信号有限公司 一种基于机器健康状态的热备倒切方法
CN113220509A (zh) * 2021-05-19 2021-08-06 扬州万方电子技术有限责任公司 一种双组合交替倒班***及方法
CN113220509B (zh) * 2021-05-19 2024-03-05 扬州万方科技股份有限公司 一种双组合交替倒班***及方法
CN113489792B (zh) * 2021-07-07 2023-02-03 上交所技术有限责任公司 一种在跨数据中心集群共识算法中减少数据中心间网络传输次数的方法
CN113489792A (zh) * 2021-07-07 2021-10-08 上交所技术有限责任公司 一种在跨数据中心集群共识算法中减少数据中心间网络传输次数的方法
CN114124668A (zh) * 2021-11-03 2022-03-01 上证所信息网络有限公司 一种保证多主机行情切片一致的***及方法
CN114189547B (zh) * 2022-02-14 2022-05-03 北京安盟信息技术股份有限公司 一种集群下ssl隧道快速切换方法
CN114189547A (zh) * 2022-02-14 2022-03-15 北京安盟信息技术股份有限公司 一种集群下ssl隧道快速切换方法
CN114844909A (zh) * 2022-03-31 2022-08-02 顾松林 基于互联网的共识机制查询***

Similar Documents

Publication Publication Date Title
CN103647668A (zh) 一种高可用集群内主机群体决策***及切换方法
US11360854B2 (en) Storage cluster configuration change method, storage cluster, and computer system
US9063787B2 (en) System and method for using cluster level quorum to prevent split brain scenario in a data grid cluster
CN102402395B (zh) 基于仲裁磁盘的高可用***不间断运行方法
JP5102901B2 (ja) データセンタにわたる複数データサーバ間のデータ完全性を保持する方法およびシステム
CN110807064B (zh) Rac分布式数据库集群***中的数据恢复装置
CN107918570B (zh) 一种双活***共享仲裁逻辑盘的方法
JP2002517819A (ja) 耐障害性演算用の冗長コンピュータ・ベース・システムを管理するための方法及び装置
WO2012145963A1 (zh) 数据管理***及方法
CN110990200B (zh) 一种基于多活数据中心的流量切换方法及装置
JP2005209201A (ja) 高可用性クラスタにおけるノード管理
CN110912991A (zh) 一种基于超融合双节点高可用的实现方法
US10331472B2 (en) Virtual machine service availability
CN113127270B (zh) 一种基于云计算的3取2安全计算机平台
CN108173959A (zh) 一种集群存储***
CN103457775A (zh) 一种基于角色的高可用虚拟机池化管理***
CN102938705A (zh) 一种高可用多机备份路由表管理与切换方法
JP2007156679A (ja) サーバの障害回復方法及びデータベースシステム
CN104573428B (zh) 一种提高服务器集群资源有效性的方法及***
CN111800484B (zh) 机动边缘信息服务***的服务抗毁接替方法
CN110348826A (zh) 异地多活容灾方法、***、设备及可读存储介质
CN114003350B (zh) 超融合***的数据分配方法和***
CN110377487A (zh) 一种处理高可用集群脑裂的方法及装置
CN104052799B (zh) 一种利用资源环实现高可用存储的方法
CN103793296A (zh) 一种在集群中用于辅助备份复制计算机***的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140319