CN113127270A - 一种基于云计算的3取2安全计算机平台 - Google Patents

一种基于云计算的3取2安全计算机平台 Download PDF

Info

Publication number
CN113127270A
CN113127270A CN202110355059.2A CN202110355059A CN113127270A CN 113127270 A CN113127270 A CN 113127270A CN 202110355059 A CN202110355059 A CN 202110355059A CN 113127270 A CN113127270 A CN 113127270A
Authority
CN
China
Prior art keywords
host
data
synchronization
computer
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110355059.2A
Other languages
English (en)
Other versions
CN113127270B (zh
Inventor
唐涛
朱力
李松
王悉
王洪伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202110355059.2A priority Critical patent/CN113127270B/zh
Publication of CN113127270A publication Critical patent/CN113127270A/zh
Application granted granted Critical
Publication of CN113127270B publication Critical patent/CN113127270B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1629Error detection by comparing the output of redundant processing systems
    • G06F11/1633Error detection by comparing the output of redundant processing systems using mutual exchange of the output between the redundant processing components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1629Error detection by comparing the output of redundant processing systems
    • G06F11/165Error detection by comparing the output of redundant processing systems with continued operation after detection of the error
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1675Temporal synchronisation or re-synchronisation of redundant processing components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提供了一种基于云计算的3取2安全计算机平台。包括:从上到下的层次结构:云管中心、业务节点、安全计算机虚拟化容器和物理基础设施;云管中心为一个,业务节点为主机,云管中心分别与三个主机进行信令和数据通信,主机与安全计算机虚拟化容器、安全计算机虚拟化容器与物理基础设施一一对应,主机与对应的安全计算机虚拟化容器进行数据通信,安全计算机虚拟化容器与对应的物理基础设施进行数据通信。本发明应用及运行环境容器化封装,轻量,易迁移部署;分布式云管中心实现对下层物理业务节点的实时监控、资源调度,平台自诊断,故障立即恢复,继承历史变量及状态数据;平台提供3取2安全计算机基本功能外,还能进行***应用的开发。

Description

一种基于云计算的3取2安全计算机平台
技术领域
本发明涉及安全计算机技术领域,尤其涉及一种基于云计算的3取2安全计算机平台。
背景技术
安全计算机技术在轨道交通、航空航天等领域都所涉及。该技术用以保障设备或者应用输入、输出以及中间状态的正确性,多采用多模冗余的方式。
在轨道交通领域中,地面设备及车载设备均由安全计算机构成。设备因物理原因或者其他原因导致紧急故障时,需要设计另一套***或者应急处理方案来及时记录故障状态并且恢复设备的安全,即必须遵循故障安全原则:故障时***状态能导向安全。
在架构设计上,安全计算机平台的内部架构一般采用的是双通道结构(2乘2取2)或者多通道结构(3取2),多个通道相互监控并对各自的输入输出进行表决,以判断每个通道的正常或者异常。该架构主要包含数据通信模块、通道间的同步模块和输入输出的三取二表决模块三大模块。
目前,现有技术中的软硬件3取2安全计算机平台存在以下缺点:
1)冗余设计理念造成的板卡或者主机数量成本增加。
德国SIEMENS基于三取二结构的SICAS***以及法国Thales公司同样基于三取二结构的SelTrac***,都包含基于冗余设计理念的安全计算机,而多通道冗余的设计方式势必会造成板卡或者主机数量成倍的增加,导致整套安全计算机设备占用足足一个或者多个机柜。
2)板卡与软体绑定,硬件与软件故障都能导致安全计算机功能失效。
一般的三取二通用安全计算机硬件主要有CPU处理器模块、存储器模块、电源模块和***电路等多个模块。每个模块的物理失效都会提高安全计算机功能失效的概率。
3)维护更换造成应用服务的中断。
安全计算机平台硬件有一定的平均故障时间,即使用寿命有限。而一旦当设备故障或者硬件老化,维护更新所需的时间,势必会造成安全计算机一部分功能失效,从而导致应用服务中断。
发明内容
本发明的实施例提供了一种基于云计算的3取2安全计算机平台,以克服现有技术的问题。
为了实现上述目的,本发明采取了如下技术方案。
一种基于云计算的3取2安全计算机平台,包括:云管中心、业务节点、安全计算机虚拟化容器和物理基础设施,为分层架构,从上到下的层次依次为云管中心、业务节点、安全计算机虚拟化容器和物理基础设施;云管中心为一个,业务节点为主机,云管中心分别与三个主机进行信令和数据通信,主机与安全计算机虚拟化容器一一对应,安全计算机虚拟化容器与物理基础设施一一对应,主机与对应的安全计算机虚拟化容器进行数据通信,安全计算机虚拟化容器与对应的物理基础设施进行数据通信。
优选地,三主机结构之间独立运算,三主机结构之间基于任务级同步达成松散耦合冗余结构,通过虚拟网络技术进行数据交换;三主机结构之间采用3取2的表决机制,只有为主用模式的主机,才能向外部的其它设备发送信息。
优选地,所述云管中心为分布式结构,能够地理容灾及防御单点故障,对业务节点及用户应用进程的监控不中断;任何两台主机间的通信链路中断后,通过第三主机进行数据转发,保证数据表决正常进行。
优选地,在部署好分布式的云管中心及三个业务节点后,通过容器虚拟化技术将应用所需配置环境及软件主体封装成为镜像,再将镜像部署在云计算平台上,通过所述镜像启动安全计算机平台应用容器,所述镜像能够随时迁移并启动应用。
优选地,各个主机根据上电顺序抢占主备优先级,故障及恢复时,根据初始状态及身份切换策略更新三台主机的主备优先级;
所述主机的工作模式包括如下的五种工作模式:
1)上电模式:主机处于上电启动阶段,上电后向另外两主机发送同步请求,最先上电的主机收到同步请求数量最多,该主机即为主用工作模式;
2)主用工作模式:该主机处于正常工作状态,该主机的计算结果至少与其他一台主机的计算结果一致,且该主机的计算结果作为整个***的唯一输出结果;
3)备用工作模式:该主机处于正常工作状态,该主机的计算结果至少与其他一台主机的计算结果一致,但是该主机不对外输出计算结果;
4)跟随模式:主机由于故障而重新上电启动,若身份策略执行完成则进入跟随模式,在跟随模式下,该主机需要等待处于主用工作状态的主机发送的历史状态信息,完成历史数据信息的继承学习,才进入备用工作模式运行;
5)复位模式:主机由于故障,或者表决结果与其他两机不一致时,该主机进入复位模式。
6、根据权利要求5所述的基于云计算的3取2安全计算机平台,其特征在于,在上电模式中,主机遵循的同步判断逻辑真值表如表2所示:
表2
收到同步请求次数 收到同步信号次数 同步结果
2 0 同步成功,且该主机为第一台上电主机
1 1 同步成功,且该主机为第二台上电主机
0 1 同步成功,且该主机为第三台上电主机
0 0 同步失败
优选地,主机启动后进入上电模式,在上电模式时,3取2安全冗余***的各个主机首先进行一次初始上电同步,每台主机启动时都向另外两台主机发送同步请求,每台主机统计自身接收到的同步请求数量,根据同步请求数量切换自己的身份,接收同步请求最多的那台主机即为主用模式主机;
主用模式主机向另外两机发送同步信号,开启任务周期,在每个任务周期各个主机进行一次一般任务同步;
故障恢复主机启动时都会经过一次初始上电同步,以确定每台主机的初始身份。
优选地,每台主机与其他两机进行数据交换时,对输入、输出的数据以及中间状态信息进行表决,表决方式包括逐位表决、选择表决和中值表决:
所述中值表决为每台主机的输入数据不一致,每台主机的输出数据一致;所述选择表决为每台主机中待比较数据不完全相同,每台主机输出三主机交集中的一致数据;所述逐位表决为进行数据交换的两主机数据进行逐位进行比较后,保持一致。
优选地,所述平台采用健康检查机制进行故障自诊断,通过TCP、exec或者HTTP方式对平台内部应用的运行状态进行周期状态检查,通过TCP和HTTP发起链接请求,检查应用IP地址+端口的正常开启,通过exec执行自定义诊断脚本,对应用状态进行监控和触发自启动恢复,状态异常时重启恢复。
优选地,在故障主机维护并重新上电后,采用状态跟随机制从正常运行的主机上通过socket方式获取状态跟随数据,根据所述状态跟随数据进行数据恢复及继承;
所述状态跟随数据包括:
1)发送历史信息的时刻主用模式主机的时间戳,周期号信息;
2)输入应用数据;
3)通信链路管理表有关信息;
4)应用中间状态数据。
由上述本发明的实施例提供的技术方案可以看出,本发明应用及运行环境容器化封装,轻量,易迁移部署;分布式云管中心实现对下层物理业务节点的实时监控、资源调度,平台自诊断,故障立即恢复,并继承历史变量及状态数据;平台除了提供3取2安全计算机基本功能外,还能进行***应用的开发。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于云计算的3取2安全计算机平台架构示意图;
图2为本发明实施例提供的一种3取2安全计算机,在某机故障时触发的身份切换流程。
图3为本发明实施例提供的一种同步模块执行流程,包括初始上电同步和一般任务同步。
图4为本发明实施例提供的一种表决模块执行流程,包含数据交换和同步表决及输出。
图5为本发明实施例提供的一种3取2安全计算机软体应用封装启动流程,包含采用Docker容器化技术封装镜像、计算存储网络资源分配、容器启动三个步骤。
图6为本发明实施例提供的一种针对云计算特性设计的健康检查及状态跟随执行流程,包含虚拟主机故障和业务节点故障两种故障情况。overlay网络可为每个物理节点提供整个集群唯一的虚拟子网并为虚拟主机提供路由功能,若某一物理节点故障,overlay网络可通过维护更新路由表,使故障节点上的虚拟主机IP不变地,迁移至正常物理节点上。
图7为本发明实施例提供的一种状态跟随机制执行流程,包含跟随请求、身份切换以及数据继承三大步骤。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
伴随着信息技术的发展,云计算作为时下信息技术的一种创新服务模式,它凭借超大规模、虚拟化、高可靠性、通用性、高可伸缩性和按需服务等特点,已经成为支撑各行业发展的关键信息基础设施。云计算已经成为当前时代的一种发展趋势,也是轨道交通应用未来的发展方向。
2019年里,云计算在实际城轨线路中的建设发展如雨后春笋一般不断呈现在群众面前。目前,已有北京、上海、广州、深圳和武汉等这样已运营线网规模较庞大的城市部署和推动城轨云的建设,当然也有呼和浩特、太原等这些新兴地铁建设城市。
2019年9月,呼和浩特搭建了全球首个多线多业务***的城轨云项目,从顶层设计入手,构建生产中心云平台、灾备中心云平台、站段云平台,为多***提供IaaS(基础设施及服务)服务,满足呼和浩特轨道交通1、2号线的建设要求。
2019年5月20日,郑州通过融合云、5G、物联网技术,以其作为智慧地铁的技术支撑,开通并运营了全国首个基于线网级的ANCC云平台,将清分中心和线路中心进行深度融合。
由上述事例可以看出,云计算已经作为轨道交通领域的又一发展方向,故本发明将通过云计算技术将作为轨道交通的核心组件之一的安全计算机平台往云上迁移,并针对云计算技术的特性对安全计算机平台做适应性改进。
本发明实施例提供的一种基于云计算的3取2安全计算机平台架构的示意图如图1所示。该安全计算机平台由分布式的云管中心、业务节点、安全计算机虚拟化容器和物理基础设施构成,为分层架构,从上到下的层次依次为云管中心、业务节点、安全计算机虚拟化容器和物理基础设施。云管中心为一个,业务节点为主机。主机、安全计算机虚拟化容器和物理基础设施都为三个,云管中心分别与三个主机(主机一、主机二和主机三)进行信令和数据通信,主机与安全计算机虚拟化容器一一对应,安全计算机虚拟化容器与物理基础设施一一对应。主机与对应的安全计算机虚拟化容器进行数据通信,安全计算机虚拟化容器与对应的物理基础设施进行数据通信。
本发明实施例的3取2安全计算机平台的软件设计为安全苛求***提供软件工作平台,完成通信、应用计算和与容错、安全功能。三组对应的业务节点、安全计算机虚拟化容器和物理基础构成并列设置的三主机结构。三主机结构之间独立运算,以避免共模故障。三主机结构之间基于任务级同步达成松散耦合冗余结构,通过虚拟网络技术进行数据交换。三主机结构之间采用3取2的表决机制保证了平台的安全性,可用性和可维护性。只有为主用模式的主机,才能向外部的其它设备发送信息,保证输出的唯一性。
云管中心为分布式结构,可地理容灾及防御单点故障,对业务节点及用户应用进程的监控不中断。三主机间的信息转发,任何两台主机间的通信链路中断后,可通过第三主机进行数据转发,保证数据表决正常进行。
本发明实施例的3取2安全计算机平台的软件设计通过Docker容器技术封装后,在云计算平台上部署,就可以被云平台调度。为了适应云计算虚拟化(网络、存储、计算资源虚拟化)、高可靠(数据多副本容错、业务节点同构可交接任务)和可扩展(集群规模动态伸缩)的特性,本发明实施例设计了健康检查以及状态跟随机制。健康检查用以检测及保障安全计算机平台的应用生命周期,使之异常中断后能够自行重启。但是重启后平台应用数据随着故障重启已被销毁,故本发明实施例设计了状态跟随机制,故障重启的主机向正常工作的主机继承历史应用数据,保证故障重启的主机能立即上线并恢复提供服务。对于本发明实施例的3取2安全计算机平台来说,除了三主机中任何一台主机故障,平台都仍能正常表决、运行的优点以外,还能在故障发生后,平台故障主机快速上线并恢复平台的完整性,减少运维工作。
本发明实施例在PaaS云平台上--Kubernetes上进行3取2安全计算机平台的设计。在部署好分布式的云端管理节点(云管中心)及三个业务节点后,通过Docker、LXC(LinuxContainer)等容器虚拟化技术将应用所需配置环境及软件主体可封装成为镜像image,再将镜像在云计算平台上部署。镜像可随时迁移并迅速启动应用。具体实施方式如下流程所示:云计算平台搭建—>3取2安全计算机软体三大模块设计—>Docker容器技术封装安全计算机平台软体为镜像—>通过镜像启动安全计算机平台应用容器—>健康检查+状态跟随实时平台监控。
硬件架构上,该基于云计算技术的安全计算机平台的底层硬件支撑(构建云计算平台)仅需至少四台物理服务器(一云端管理节点、三业务节点),至多六台物理服务节点(三管理节点三业务节点),其中管理节点集群构成云管中心。管理节点和业务节点的物理配置如表1所示:
表1管理节点和业务节点的物理配置
*** CentOS7 x64
CPU >2核
内存 >2G
存储 >20Gib
各个主机根据上电顺序(启动顺序)抢占主备优先级,故障及恢复时,根据初始状态及身份切换策略更新三台主机的主备优先级。依据安全核的思想,将平台软件的周期控制方式划分为多个微周期,每个微周期结束时自诊断通信链路状态,并通过日志***向云管中心汇报,减小故障安全反应时间。
设计软件模块前,为区分正常工作主机和故障恢复后的主机,以及对身份切换策略的执行,本发明实施例制定了五种工作模式,如下所示:
1)上电模式:主机处于上电启动阶段,遵循抢占原则如表2所示,上电后立即向另外两主机发送同步请求,最先上电的主机收到同步请求数量最多,即为主用工作模式;
2)主用工作模式:该主机于正常工作状态,该主机的计算结果至少与其他一台主机的计算结果一致,且该主机的计算结果作为整个***的唯一输出结果;
3)备用工作模式:该主机于正常工作状态,该主机的计算结果至少与其他一台主机的计算结果一致,但是该主机不对外输出计算结果;
4)跟随模式:3取2安全计算机平台中的一台主机由于故障而重新上电启动,若身份策略执行完成则进入跟随模式。在跟随模式下,该主机需要等待处于主用工作状态的主机发送的历史状态信息,完成历史数据信息的继承学习,才可以进入备用工作模式运行。
5)复位模式:3取2安全冗余***中的一台主机由于故障,或者表决结果与其他两机不一致时,该主机进入复位模式。
基于上述五种工作模式,本发明实施例提供的一种3取2安全计算机,在某机故障时触发的身份切换流程如图2所示。
处于主用工作模式和备用工作模式的主机能够提供正常的应用处理功能,处于其他工作模式的主机无法提供正常的应用处理功能。
表2主机上电同步判断逻辑真值表
收到同步请求次数 收到同步信号次数 同步结果
2 0 同步成功,且该主机为第一台上电主机
1 1 同步成功,且该主机为第二台上电主机
0 1 同步成功,且该主机为第三台上电主机
0 0 同步失败
软件模块设计上,为保留安全计算机平台数据通信模块、同步模块以及三取二表决模块这三大功能模块的完整性。
而数据通信模块,不同于以太网通信,采用的是overlay网络技术,即在物理网络架构上叠加一层虚拟化网络,即overlay覆盖网络。通过overlay技术,可在业务节点子网的基础上添加新的虚拟子网,比如可以在192.168.1.0/36的物理子网上再设置10.244.159.0/36的虚拟子网,实现安全计算机平台软体网络环境的独立及隔离。在该overlay网络下,主机间通信交互仍然使用的是socket通信协议,通信时延在0.14ms左右。在本发明中,该overlay网络起到虚拟交换机和虚拟路由器的作用,虚拟交换机指的是该overlay网路为每个物理业务节点分配了平台内唯一的虚拟子网,虚拟路由器指的是每个业务节点上的overlay网络共同维护路由表,使得每个业务节点上的虚拟主机能够互相访问。
任务级同步包括初始上电同步和一般任务同步。主机启动后进入上电模式,在上电模式时,3取2安全冗余***的三主机首先进行一次总的任务同步,称为初始上电同步,在完成初始上电同步的前提下,主机才能继续往下运行。一般任务同步,在每个任务周期进行一次,用以进行同步校正,清除积累的软件时钟同步误差。
图3为本发明实施例提供的一种同步模块执行流程。同步模块包括初始上电同步和一般任务同步。初次启动主机和故障恢复主机启动时都会经过一次初始上电同步,以确定每台主机的初始身份,发送的同步信息包括同步请求、同步脉冲信号。每台主机启动时都会向另外两台主机发送同步请求,每台主机统计自身接收到的同步请求数量,根据同步请求数量切换自己的身份,接收同步请求最多的那台主机即为主用模式主机,负责对外输出。此时主用模式主机向另外两机发送同步信号,开启任务周期。同时为区分故障主机的上电重启,主用主机发送的同步信号帧也包括三主机的身份信息。同步方式为松散同步,为软件形式的同步,但不同于一般的软件同步,本发明实施例的平台会在一次同步周期结束后,以主用主机为准重新校正同步时间(一般任务同步),即清除对同步积累的时钟误差。
图4为本发明实施例提供的一种表决模块执行流程,包含数据交换和同步表决及输出。三取二表决模块,采用三种数据比较算法。不同于传统安全计算机的硬件表决方式,基于云计算的3取2安全计算机平台使用的是纯软件表决,解耦了表决模块软件与硬件,每台主机需要与其他两机进行数据交换,从而对输入、输出的数据以及其他必需的中间状态信息进行表决。数据表决过程依据两两比较的原则,从来自本机的数据以及另外两机的数据总共三份数据中选择出两份相同的数据,作为整个***的输出。
本发明实施例的表决方式包括逐位表决、选择表决和中值表决,下面分别介绍各种表决方式:
1)输入数据不一致,但需要保证输出数据一致(中值比较)。
对于时间戳、随机数而言,考虑处理器自身的时钟漂移和随机性,无法保证每台机器产生的数据一致,因此将这类数据归为第(1)类数据,尽管存在时钟漂移,但是在一个周期内,其漂移所带来的影响是能够容忍的,所以采用了求中值的方法予以处理,即D=(D1+D2+D3)/3,这样保证经过数据比较以后,得到的是所有主机一致的数据。当然,根据实际应用的需求和数据特性,还可以采用最大值D=Max(D1,D2,D3)、最小值D=Min(D1,D2,D3)或者其他的算法。
2)三主机之中待比较数据不完全相同,要求输出其交集中的一致数据(选择比较)。
考虑到三主机不可能完全同步,允许某个周期收到同一个通信对象来的多帧数据(有新旧之分,否则作为冗余数据处理)。在这种情况下,需要提供给上层应用的数据是能比较成功的最新数据,保证上层应用处理的是最新的可信数据。
3)要求双机数据严格一致,需要逐位进行比较(逐位比较)。
逐位比较就是待比较双方只有完全一致,才能输出。只要待比较数据中有一位不一致,则返回比较失败,数据不能输出。
3取2安全计算机三大软件模块设计完毕后,需要通过Docker容器技术将对应的软件进行封装为镜像image,封装所需的。镜像封装完毕后,本发明的3取2安全计算机平台就可通过导入封装的镜像以及搭载对应的资源(内存、存储及网络资源)构建容器如图5所示,进而启动3取2虚拟主机。
根据容器技术,本发明可以在任意物理节点上实现虚拟主机的快速上线。
最后,为满足故障安全原则,即故障导向安全原则以及对云计算技术的适应性改进,本发明设计了健康检查机制和状态跟随机制,在主机故障发生后能恢复至安全状态,并继承当前应用的变量及状态数据。图6为本发明实施例提供的一种针对云计算特性设计的健康检查及状态跟随执行流程,包含虚拟主机故障和业务节点故障两种故障情况。overlay网络可为每个物理节点提供整个集群唯一的虚拟子网并为虚拟主机提供路由功能,若某一物理节点故障,overlay网络可通过维护更新路由表,使故障节点上的虚拟主机IP不变地,迁移至正常物理节点上。
健康检查机制,是一种自诊断方式,通过TCP、exec、HTTP方式对平台内部应用的运行状态进行周期状态检查,通过TCP和HTTP发起链接请求,检查应用IP地址+端口的正常开启。通过exec可执行自定义诊断脚本,对应用状态进行监控和触发自启动恢复,状态异常时重启恢复。三台主机在该机制下,保持正在运行主机数量始终为三台。
图7为本发明实施例提供的一种状态跟随机制执行流程,包含跟随请求、身份切换以及数据继承三大步骤。状态跟随机制主要是为了解决数据继承的问题,由于3取2安全计算机平台内部应用服务的数据更新十分频繁,若与数据库对接,应用与数据库之间频繁的交互会影响应用的正常运行,对精度要求高、资源占用大、表决数据多的应用来说十分不利,因此在故障主机维护并重新上电时,根据身份切换策略更新所有主机的身份模式,此时故障重启主机模式为跟随模式,进而开始等待状态跟随,其变量数据及内部应用运行状态将从正常运行的主机上通过socket方式获取,进行数据恢复及继承。主用模式主机在记录所有主机身份的前提下,在当前任务周期结束时,收集并发送历史应用变量或者状态数据至故障重启主机,然后下一周期来临时,故障重启主机和正常工作主机经过一般任务同步后,同步运行。故不同于数据库存储应用数据,状态跟随仅需一次交互便能解决数据继承问题。
状态跟随的数据信息包含的内容有:
1)发送历史信息的时刻主用模式主机的时间戳,周期号信息。在接收到历史信息后,首先要完成校时工作,即调整该主机的时间戳和周期号与主用模式主机保持一致。这样可以保证发生该主机的时间戳,周期号保持在一个可允许的范围内,避免因为时间戳和周期号的原因而导致对消息的有效性产生错误的判断。
2)输入应用数据。
3)通信链路管理表有关信息。
4)其他必要的应用中间状态数据。
综上所述,本发明实施例应用及运行环境容器化封装,轻量,易迁移部署;平台自诊断,故障立即恢复,并继承历史变量及状态数据;分布式云管中心可以实现对下层物理业务节点的实时监控、资源调度;地理容灾,预防单点故障,一机故障不影响三取二安全计算机功能,并能在3s左右内恢复正常工作;可扩展,平台除了提供3取2安全计算机基本功能外,还能进行***应用的开发,如前端显示安全计算机平台的网络流量、各主机身份模式、内存CPU占用率等等。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种基于云计算的3取2安全计算机平台,其特征在于,包括:云管中心、业务节点、安全计算机虚拟化容器和物理基础设施,为分层架构,从上到下的层次依次为云管中心、业务节点、安全计算机虚拟化容器和物理基础设施;云管中心为一个,业务节点为主机,云管中心分别与三个主机进行信令和数据通信,主机与安全计算机虚拟化容器一一对应,安全计算机虚拟化容器与物理基础设施一一对应,主机与对应的安全计算机虚拟化容器进行数据通信,安全计算机虚拟化容器与对应的物理基础设施进行数据通信。
2.根据权利要求1所述的基于云计算的3取2安全计算机平台,其特征在于,三主机结构之间独立运算,三主机结构之间基于任务级同步达成松散耦合冗余结构,通过虚拟网络技术进行数据交换;三主机结构之间采用3取2的表决机制,只有为主用模式的主机,才能向外部的其它设备发送信息。
3.根据权利要求1所述的基于云计算的3取2安全计算机平台,其特征在于,所述云管中心为分布式结构,能够地理容灾及防御单点故障,对业务节点及用户应用进程的监控不中断;任何两台主机间的通信链路中断后,通过第三主机进行数据转发,保证数据表决正常进行。
4.根据权利要求1所述的基于云计算的3取2安全计算机平台,其特征在于,在部署好分布式的云管中心及三个业务节点后,通过容器虚拟化技术将应用所需配置环境及软件主体封装成为镜像,再将镜像部署在云计算平台上,通过所述镜像启动安全计算机平台应用容器,所述镜像能够随时迁移并启动应用。
5.根据权利要求1至4任一项所述的基于云计算的3取2安全计算机平台,其特征在于,各个主机根据上电顺序抢占主备优先级,故障及恢复时,根据初始状态及身份切换策略更新三台主机的主备优先级;
所述主机的工作模式包括如下的五种工作模式:
1)上电模式:主机处于上电启动阶段,上电后向另外两主机发送同步请求,最先上电的主机收到同步请求数量最多,该主机即为主用工作模式;
2)主用工作模式:该主机处于正常工作状态,该主机的计算结果至少与其他一台主机的计算结果一致,且该主机的计算结果作为整个***的唯一输出结果;
3)备用工作模式:该主机处于正常工作状态,该主机的计算结果至少与其他一台主机的计算结果一致,但是该主机不对外输出计算结果;
4)跟随模式:主机由于故障而重新上电启动,若身份策略执行完成则进入跟随模式,在跟随模式下,该主机需要等待处于主用工作状态的主机发送的历史状态信息,完成历史数据信息的继承学习,才进入备用工作模式运行;
5)复位模式:主机由于故障,或者表决结果与其他两机不一致时,该主机进入复位模式。
6.根据权利要求5所述的基于云计算的3取2安全计算机平台,其特征在于,在上电模式中,主机遵循的同步判断逻辑真值表如表2所示:
表2
收到同步请求次数 收到同步信号次数 同步结果 2 0 同步成功,且该主机为第一台上电主机 1 1 同步成功,且该主机为第二台上电主机 0 1 同步成功,且该主机为第三台上电主机 0 0 同步失败
7.根据权利要求5所述的基于云计算的3取2安全计算机平台,其特征在于,主机启动后进入上电模式,在上电模式时,3取2安全冗余***的各个主机首先进行一次初始上电同步,每台主机启动时都向另外两台主机发送同步请求,每台主机统计自身接收到的同步请求数量,根据同步请求数量切换自己的身份,接收同步请求最多的那台主机即为主用模式主机;
主用模式主机向另外两机发送同步信号,开启任务周期,在每个任务周期各个主机进行一次一般任务同步;
故障恢复主机启动时都会经过一次初始上电同步,以确定每台主机的初始身份。
8.根据权利要求5所述的基于云计算的3取2安全计算机平台,其特征在于,每台主机与其他两机进行数据交换时,对输入、输出的数据以及中间状态信息进行表决,表决方式包括逐位表决、选择表决和中值表决:
所述中值表决为每台主机的输入数据不一致,每台主机的输出数据一致;所述选择表决为每台主机中待比较数据不完全相同,每台主机输出三主机交集中的一致数据;所述逐位表决为进行数据交换的两主机数据进行逐位进行比较后,保持一致。
9.根据权利要求5所述的基于云计算的3取2安全计算机平台,其特征在于,所述平台采用健康检查机制进行故障自诊断,通过TCP、exec或者HTTP方式对平台内部应用的运行状态进行周期状态检查,通过TCP和HTTP发起链接请求,检查应用IP地址+端口的正常开启,通过exec执行自定义诊断脚本,对应用状态进行监控和触发自启动恢复,状态异常时重启恢复。
10.根据权利要求5所述的基于云计算的3取2安全计算机平台,其特征在于,在故障主机维护并重新上电后,采用状态跟随机制从正常运行的主机上通过socket方式获取状态跟随数据,根据所述状态跟随数据进行数据恢复及继承;
所述状态跟随数据包括:
1)发送历史信息的时刻主用模式主机的时间戳,周期号信息;
2)输入应用数据;
3)通信链路管理表有关信息;
4)应用中间状态数据。
CN202110355059.2A 2021-04-01 2021-04-01 一种基于云计算的3取2安全计算机平台 Active CN113127270B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110355059.2A CN113127270B (zh) 2021-04-01 2021-04-01 一种基于云计算的3取2安全计算机平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110355059.2A CN113127270B (zh) 2021-04-01 2021-04-01 一种基于云计算的3取2安全计算机平台

Publications (2)

Publication Number Publication Date
CN113127270A true CN113127270A (zh) 2021-07-16
CN113127270B CN113127270B (zh) 2023-06-27

Family

ID=76774512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110355059.2A Active CN113127270B (zh) 2021-04-01 2021-04-01 一种基于云计算的3取2安全计算机平台

Country Status (1)

Country Link
CN (1) CN113127270B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114827148A (zh) * 2022-04-28 2022-07-29 北京交通大学 基于云容错技术的云安全计算方法和装置、存储介质
WO2023005777A1 (zh) * 2021-07-29 2023-02-02 西门子交通技术(北京)有限公司 基于云平台的2*2oo2安全***
CN116156860A (zh) * 2023-02-22 2023-05-23 北京航天发射技术研究所 一种电驱特种车辆同步伺服控制器的电磁兼容优化方法
CN116881920A (zh) * 2023-06-27 2023-10-13 北京城建智控科技股份有限公司 一种基于代码模拟器的安全表决***及方法
WO2024082174A1 (zh) * 2022-10-19 2024-04-25 宁德时代未来能源(上海)研究院有限公司 异常处理方法及三取二保护装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102833314A (zh) * 2012-07-27 2012-12-19 合肥华云通信技术有限公司 云公共服务平台
WO2017049997A1 (zh) * 2015-09-25 2017-03-30 华为技术有限公司 一种基于云计算服务的虚拟机监控方法、装置及***
CN107247644A (zh) * 2017-07-03 2017-10-13 上海航天控制技术研究所 一种三冗余计算机***的重构降级方法
CN110784539A (zh) * 2019-10-29 2020-02-11 深圳供电局有限公司 一种基于云计算的数据管理***及方法
CN111541599A (zh) * 2020-04-24 2020-08-14 山东山大电力技术股份有限公司 基于数据总线的集群软件***及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102833314A (zh) * 2012-07-27 2012-12-19 合肥华云通信技术有限公司 云公共服务平台
WO2017049997A1 (zh) * 2015-09-25 2017-03-30 华为技术有限公司 一种基于云计算服务的虚拟机监控方法、装置及***
CN107247644A (zh) * 2017-07-03 2017-10-13 上海航天控制技术研究所 一种三冗余计算机***的重构降级方法
CN110784539A (zh) * 2019-10-29 2020-02-11 深圳供电局有限公司 一种基于云计算的数据管理***及方法
CN111541599A (zh) * 2020-04-24 2020-08-14 山东山大电力技术股份有限公司 基于数据总线的集群软件***及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
任维贺: ""基于私有云的安全计算机关键技术研究"", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023005777A1 (zh) * 2021-07-29 2023-02-02 西门子交通技术(北京)有限公司 基于云平台的2*2oo2安全***
CN114827148A (zh) * 2022-04-28 2022-07-29 北京交通大学 基于云容错技术的云安全计算方法和装置、存储介质
CN114827148B (zh) * 2022-04-28 2023-01-03 北京交通大学 基于云容错技术的云安全计算方法和装置、存储介质
WO2024082174A1 (zh) * 2022-10-19 2024-04-25 宁德时代未来能源(上海)研究院有限公司 异常处理方法及三取二保护装置
CN116156860A (zh) * 2023-02-22 2023-05-23 北京航天发射技术研究所 一种电驱特种车辆同步伺服控制器的电磁兼容优化方法
CN116156860B (zh) * 2023-02-22 2024-03-08 北京航天发射技术研究所 一种电驱特种车辆同步伺服控制器的电磁兼容优化方法
CN116881920A (zh) * 2023-06-27 2023-10-13 北京城建智控科技股份有限公司 一种基于代码模拟器的安全表决***及方法
CN116881920B (zh) * 2023-06-27 2024-03-26 北京城建智控科技股份有限公司 一种基于代码模拟器的安全表决***及方法

Also Published As

Publication number Publication date
CN113127270B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
CN113127270A (zh) 一种基于云计算的3取2安全计算机平台
CN103199972B (zh) 基于soa、rs485总线实现的双机热备份切换方法及热备份***
TW486637B (en) Method and apparatus for managing redundant computer-based systems for fault tolerant computing
CN102404390B (zh) 高速实时数据库的智能化动态负载均衡方法
CN104133734B (zh) 分布式综合模块化航空电子***混合式动态重构***与方法
US8032786B2 (en) Information-processing equipment and system therefor with switching control for switchover operation
CN112181660A (zh) 一种基于服务器集群的高可用方法
US9231779B2 (en) Redundant automation system
CN109936622A (zh) 一种基于分布式资源共享的无人机集群控制方法及***
CN108551397A (zh) 网桥装置及应用以及多plc主站与多plc从站的通信控制方法
CN107453913B (zh) 具备处理器间高速通信的网关冗余方法
CN105577444B (zh) 一种无线控制器管理方法及无线控制器
CN109104325A (zh) 基于CANopen协议的列车网络数据传输方法、***及其装置
CN102045187B (zh) 一种利用检查点实现高可用性***的方法和设备
CN105959145B (zh) 一种适用高可用性集群的并行管理服务器的方法及***
CN105812161A (zh) 一种控制器故障备份方法和***
WO2014060465A1 (en) Control system and method for supervisory control and data acquisition
CN106027313B (zh) 网络链路容灾***及方法
CN110677288A (zh) 一种通用于多场景部署的边缘计算***及方法
CN114124803B (zh) 设备管理方法、装置、电子设备及存储介质
CN115694748A (zh) 一种基于分层***实时数据同步的冗余框架设计方法
WO2023007209A1 (en) Fault-tolerant distributed computing for vehicular systems
Wirthumer VOTRICS—Fault Tolerance Realized in Software
Gohil et al. Redundancy management and synchronization in avionics communication products
CN113162735A (zh) 基于通用服务器的增强型信号控制***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant