CN110704250B - 一种分布式***的热备份装置 - Google Patents
一种分布式***的热备份装置 Download PDFInfo
- Publication number
- CN110704250B CN110704250B CN201910899646.0A CN201910899646A CN110704250B CN 110704250 B CN110704250 B CN 110704250B CN 201910899646 A CN201910899646 A CN 201910899646A CN 110704250 B CN110704250 B CN 110704250B
- Authority
- CN
- China
- Prior art keywords
- main processing
- module
- management module
- processing module
- rapidio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/2028—Failover techniques eliminating a faulty processor or activating a spare
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/546—Message passing systems or structures, e.g. queues
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Hardware Redundancy (AREA)
- Multi Processors (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种分布式***的热备份装置,涉及分布式***和RapidIO技术领域。本发明在VPX总线架构下利用RapidIO和DDS数据分发服务实现对分布式***中的多个设备热备份。本发明不需要采用仲裁机构,易于实现,具有成本低,可靠性高,具有多机间相互热备份等优点,既保证了DDS的通信质量,又能充分发挥RapidIO总线技术的通信效率,最大限度的保证了分布式***网络的实时性、可用性和可靠性。
Description
技术领域
本发明涉及分布式***和RapidIO技术领域,具体涉及一种分布式***的热备份装置。
背景技术
热备份是容错***中的一个重要机制,利用故障点转移的方式保障分布式***业务的不间断运行。
目前最常见的热备份技术是双机热备***,通常采用如下两种方案:
采用第三方仲裁机构实现故障检测和双机切换;
不用第三方仲裁机构,通过主备机身份识别,建立主备机之间的心跳通信,在主备机同步工作的前提下,实现主备机故障检测和切换。
上述两种方法均能实现双机热备功能,但是也都存在不足之处。
第一种双机容错技术的缺点是若第三方仲裁机构出现故障,则无法实现双机故障检测;第二种双机容错技术虽然没有利用第三方仲裁机构,但是其只能勉强应付软件接口和设备个数较少的***,一旦***较为庞大,或是软件接口较多时,***实现的复杂性会增加,而可靠性会降低,不适用于分布式***的热备份。
为了解决上述热备份技术存在的不足,提高***的可靠性,需要设计一种分布式***的热备份装置。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何设计一种分布式***的热备份装置。
(二)技术方案
为了解决上述技术问题,本发明提供了一种分布式***的热备份装置,该装置在VPX总线架构下利用RapidIO和DDS数据分发服务实现对分布式***中多个设备的热备份。
优选地,所述分布式***的热备份装置包括主处理模块、管理模块、网络交换模块及电源模块组成,共有四块主处理模块和一块管理模块,均采用龙芯3A3000处理器,网络交换模块集成RapidIO交换芯片,主处理模块和管理模块之间采用RapidIO和DDS相结合的通讯方式,管理模块用于实时监控其余四块主处理模块的运行状态,若某个主处理模块出现故障,通过IPMB总线禁止故障主处理模块工作,并由自身接替故障主处理模块当前的工作。
优选地,所述装置还包括计算机机箱,所述计算机机箱采用VPX总线架构,四块主处理模块、一块管理模块、网络交换模块和电源模块通过计算机机箱内部的背板插槽通信;四块主处理模块和一块管理模块这五个模块上均运行VxWorks 6.9操作***,并搭载了DDS中间件软件;网络交换模块上集成了RapidIO接口,五个模块之间通过RapidIO构成了通信网络。
优选地,在装置加电后,四块主处理模块和一块管理模块通过DDS中间件软件匹配各自的主题、数据类型和服务质量策略,如果匹配成功,则四块主处理模块和一块管理模块之间开始通信。
优选地,四块主处理模块和一块管理模块之间通过DDS中间件软件的数据写入者和数据读取者机制互相发送心跳报文的方式彼此监控对方的活跃状态。
优选地,四块主处理模块和一块管理模块之间具体按照以下方式通过DDS中间件软件的数据写入者和数据读取者机制互相发送心跳报文的方式彼此监控对方的活跃状态每个域参与者通过内置数据写入者发送心跳报文给远程域参与者:通过内置数据读取者接收远程域参与者的心跳报文,用于发现其它域参与者的信息,每个本地域参与者通过组播传输方式周期性地向远程域参与者发送心跳报文,用于刷新其自身活跃状态;每个本地域参与者都会在本地数据库中维护着远程参与者的心跳信息,并监视它们的活跃期限。
优选地,每一块主处理模块周期性地向管理模块发布关键的***状态信息,管理模块也实时订阅每一块主处理模块发布的主题消息。
优选地,当分布式***中一块主处理模块在工作时出现故障导致其自身不再处于存活时,此时管理模块通过IPMB总线禁止故障主处理模块工作,并将自身的IP地址设置为故障主处理模块的IP地址,接管故障主处理模块的功能,成为新的主处理模块,同时通过DDS机制发送消息通知其余主处理模块,完成设备的热备份工作。
优选地,所述装置还包括总线底板。
(三)有益效果
本发明在VPX总线架构下利用RapidIO和DDS数据分发服务实现对分布式***中的多个设备热备份。本发明不需要采用仲裁机构,易于实现,具有成本低,可靠性高,具有多机间相互热备份等优点,既保证了DDS的通信质量,又能充分发挥RapidIO总线技术的通信效率,最大限度的保证了分布式***网络的实时性、可用性和可靠性。
附图说明
图1是本发明的分布式***热备份装置的***连接图;
图2是本发明的分布式***热备份装置的***总体架构图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
为实现分布式***中多个设备的热备份,本发明提出了一种分布式***的热备份装置。为实现在分布式***中多个设备的热备份,必须保证各设备节点在动态的加入和退出时不影响其它设备节点的功能,DDS(Data Distribution Service)中参与通信的所有实体间能够动态地发现对方,然后根据主题、数据类型以及服务质量策略进行匹配,只有匹配成功后才会建立通信连接。利用DDS的自动发现机制,一旦检测到***中某个设备节点不可用时,用备用设备节点替换当前故障设备节点,重新匹配和建立通信连接,从而实现设备节点的热备份。
为提高***的整体性能,该装置在VPX总线架构下利用RapidIO和DDS数据分发服务实现对分布式***中多个设备的热备份。
如图1、图2所示,本发明的分布式***的热备份装置由计算机机箱、总线底板、主处理模块、管理模块、网络交换模块及电源模块组成。***中共有四块主处理模块和一块管理模块,均采用龙芯3A3000处理器,网络交换模块集成RapidIO交换芯片。主处理模块和管理模块之间采用RapidIO和DDS相结合的通讯方式,管理模块用于实时监控其余四块主处理模块的运行状态,若某个主处理模块出现故障,通过IPMB(Intelligent PlatformManagementBus)总线禁止故障主处理模块工作,并由自身接替故障主处理模块当前的工作。
计算机机箱采用VPX总线架构,四块主处理模块、一块管理模块、网络交换模块和电源模块通过机箱内部的背板插槽通信;四块主处理模块和一块管理模块这五个模块上均运行VxWorks 6.9操作***,并搭载了DDS中间件软件;网络交换模块上集成了RapidIO接口,五个模块之间通过RapidIO构成了通信网络;
装置加电后,四块主处理模块和一块管理模块通过DDS匹配各自的主题、数据类型和服务质量策略,如果匹配成功,则四块主处理模块和一块管理模块之间开始通信;
四块主处理模块和一块管理模块之间通过DDS的数据写入者和数据读取者机制互相发送心跳报文的方式彼此监控对方的活跃状态:每个域参与者通过内置数据写入者发送心跳报文给远程域参与者,通过内置数据读取者接收远程域参与者的心跳报文,用于发现其它域参与者的信息,每个本地域参与者通过组播传输方式周期性地向远程域参与者发送心跳报文,用于刷新其自身活跃状态;每个本地域参与者都会在本地数据库中维护着远程参与者的心跳信息,并监视它们的活跃期限;
每一块主处理模块周期性地向管理模块发布关键的***状态信息,管理模块也实时订阅每一块主处理模块发布的主题消息;
当分布式***中一块主处理模块在工作时出现故障导致其自身不再处于存活时,此时管理模块通过IPMB总线禁止故障主处理模块工作,并将自身的IP地址设置为故障主处理模块的IP地址,接管故障主处理模块的功能,成为新的主处理模块,同时通过DDS机制发送消息通知其余主处理模块,完成设备的热备份工作。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (2)
1.一种分布式***的热备份装置,其特征在于,该装置在VPX总线架构下利用RapidIO和DDS数据分发服务实现对分布式***中多个设备的热备份;
所述分布式***的热备份装置包括主处理模块、管理模块、网络交换模块及电源模块组成,共有四块主处理模块和一块管理模块,均采用龙芯3A3000处理器,网络交换模块集成RapidIO交换芯片,主处理模块和管理模块之间采用RapidIO和DDS相结合的通讯方式,管理模块用于实时监控其余四块主处理模块的运行状态,若某个主处理模块出现故障,通过IPMB总线禁止故障主处理模块工作,并由自身接替故障主处理模块当前的工作;
所述装置还包括计算机机箱,所述计算机机箱采用VPX总线架构,四块主处理模块、一块管理模块、网络交换模块和电源模块通过计算机机箱内部的背板插槽通信;四块主处理模块和一块管理模块这五个模块上均运行VxWorks 6.9操作***,并搭载了DDS中间件软件;网络交换模块上集成了RapidIO接口,五个模块之间通过RapidIO构成了通信网络;
在装置加电后,四块主处理模块和一块管理模块通过DDS中间件软件匹配各自的主题、数据类型和服务质量策略,如果匹配成功,则四块主处理模块和一块管理模块之间开始通信;
四块主处理模块和一块管理模块之间通过DDS中间件软件的数据写入者和数据读取者机制互相发送心跳报文的方式彼此监控对方的活跃状态;
四块主处理模块和一块管理模块之间具体按照以下方式通过DDS中间件软件的数据写入者和数据读取者机制互相发送心跳报文的方式彼此监控对方的活跃状态每个域参与者通过内置数据写入者发送心跳报文给远程域参与者:通过内置数据读取者接收远程域参与者的心跳报文,用于发现其它域参与者的信息,每个本地域参与者通过组播传输方式周期性地向远程域参与者发送心跳报文,用于刷新其自身活跃状态;每个本地域参与者都会在本地数据库中维护着远程参与者的心跳信息,并监视它们的活跃期限;
每一块主处理模块周期性地向管理模块发布关键的***状态信息,管理模块也实时订阅每一块主处理模块发布的主题消息;
当分布式***中一块主处理模块在工作时出现故障导致其自身不再处于存活时,此时管理模块通过IPMB总线禁止故障主处理模块工作,并将自身的IP地址设置为故障主处理模块的IP地址,接管故障主处理模块的功能,成为新的主处理模块,同时通过DDS机制发送消息通知其余主处理模块,完成设备的热备份工作。
2.如权利要求1所述的装置,其特征在于,所述装置还包括总线底板。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910899646.0A CN110704250B (zh) | 2019-09-23 | 2019-09-23 | 一种分布式***的热备份装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910899646.0A CN110704250B (zh) | 2019-09-23 | 2019-09-23 | 一种分布式***的热备份装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110704250A CN110704250A (zh) | 2020-01-17 |
CN110704250B true CN110704250B (zh) | 2023-03-03 |
Family
ID=69194627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910899646.0A Active CN110704250B (zh) | 2019-09-23 | 2019-09-23 | 一种分布式***的热备份装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110704250B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112511394B (zh) * | 2020-11-05 | 2022-02-11 | 中国航空工业集团公司西安航空计算技术研究所 | 一种RapidIO总线***的管理维护方法 |
CN113741280A (zh) * | 2021-09-03 | 2021-12-03 | 天津津航计算技术研究所 | 一种国产化的vpx架构的智能管理控制装置 |
CN115150322B (zh) * | 2022-09-06 | 2022-11-25 | 中勍科技股份有限公司 | 多通道RapidIO分发***及其故障自我隔离方法 |
CN116032731B (zh) * | 2023-03-28 | 2023-08-18 | 井芯微电子技术(天津)有限公司 | RapidIO网络***热备份的实现方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103001867A (zh) * | 2012-12-27 | 2013-03-27 | 中航(苏州)雷达与电子技术有限公司 | 一种主备双机热备份***及方法 |
CN107065830A (zh) * | 2017-05-03 | 2017-08-18 | 北京电子工程总体研究所 | 一种基于仲裁方式的双冗余热备份*** |
WO2018166308A1 (zh) * | 2017-03-13 | 2018-09-20 | 中兴通讯股份有限公司 | 一种分布式nat双机热备份流量切换***和方法 |
CN109981160A (zh) * | 2019-02-27 | 2019-07-05 | 中国电子科技集团公司第五十四研究所 | 一种基于vpx的卫星通信数据处理模块 |
-
2019
- 2019-09-23 CN CN201910899646.0A patent/CN110704250B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103001867A (zh) * | 2012-12-27 | 2013-03-27 | 中航(苏州)雷达与电子技术有限公司 | 一种主备双机热备份***及方法 |
WO2018166308A1 (zh) * | 2017-03-13 | 2018-09-20 | 中兴通讯股份有限公司 | 一种分布式nat双机热备份流量切换***和方法 |
CN107065830A (zh) * | 2017-05-03 | 2017-08-18 | 北京电子工程总体研究所 | 一种基于仲裁方式的双冗余热备份*** |
CN109981160A (zh) * | 2019-02-27 | 2019-07-05 | 中国电子科技集团公司第五十四研究所 | 一种基于vpx的卫星通信数据处理模块 |
Non-Patent Citations (5)
Title |
---|
《通信技术》2001年总目次;《通信技术》;20010930(第09期);全文 * |
一种基于ATCA架构的高可用性***设计与实现;李杰;《中国新通信》;20131020(第20期);全文 * |
基于DDS技术的舰船平台综合管理***;吕云飞等;《舰船科学技术》;20110515(第05期);全文 * |
基于VPX总线的车载计算平台设计;黄泳铭等;《测控技术》;20110418(第04期);全文 * |
基于高速串行总线的可重构信号处理机;梁慧;《现代雷达》;20110515(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110704250A (zh) | 2020-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110704250B (zh) | 一种分布式***的热备份装置 | |
CN110677282B (zh) | 一种分布式***的热备份方法及分布式*** | |
US20030005350A1 (en) | Failover management system | |
US7130899B1 (en) | Robust indication processing | |
US7526549B2 (en) | Cluster data port services for clustered computer system | |
US6918051B2 (en) | Node shutdown in clustered computer system | |
US7370223B2 (en) | System and method for managing clusters containing multiple nodes | |
US20030097610A1 (en) | Functional fail-over apparatus and method of operation thereof | |
US20070220301A1 (en) | Remote access control management module | |
CN103019889A (zh) | 分布式文件***及其故障处理方法 | |
CN101984573A (zh) | 分布式实现lacp标准状态机的方法及*** | |
CN101841735B (zh) | 框式交换机及堆叠***以及堆叠后故障处理方法 | |
CN105553682B (zh) | 事件通知方法及用于事件通知的*** | |
CN106850255A (zh) | 一种多机备份的实现方法 | |
CN107040403A (zh) | 基于dds技术提高分布式***可靠性的方法 | |
CN102843259A (zh) | 集群内中间件自管理热备方法及*** | |
CN103107906A (zh) | 一种板卡间通信方法、板卡及通信机框设备 | |
CN110958151B (zh) | 保活检测方法、装置、节点、存储介质及通信*** | |
WO1997049034A1 (fr) | Systeme de prise en charge de taches | |
CN109245911B (zh) | 一种bras热备的实现方法、设备及计算机可读存储介质 | |
CN110716827B (zh) | 适用于分布式***的热备份方法及分布式*** | |
CN111262745A (zh) | 信息处理平台冗余***设计 | |
CN114553900B (zh) | 一种分布式块存储管理***、方法及电子设备 | |
CN113220509B (zh) | 一种双组合交替倒班***及方法 | |
CN113742142B (zh) | 存储***管理sata硬盘的方法及存储*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |