CN110062032A - 一种计算机网络集群控制平台应用重构*** - Google Patents

一种计算机网络集群控制平台应用重构*** Download PDF

Info

Publication number
CN110062032A
CN110062032A CN201910257294.9A CN201910257294A CN110062032A CN 110062032 A CN110062032 A CN 110062032A CN 201910257294 A CN201910257294 A CN 201910257294A CN 110062032 A CN110062032 A CN 110062032A
Authority
CN
China
Prior art keywords
control computer
computer
general control
migration
general
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910257294.9A
Other languages
English (en)
Inventor
张向文
吕建勋
梁策
朱朝文
刘杰
郑国昆
曹向荣
袁海文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Launch Vehicle Technology CALT
Beijing Institute of Space Launch Technology
Original Assignee
China Academy of Launch Vehicle Technology CALT
Beijing Institute of Space Launch Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Launch Vehicle Technology CALT, Beijing Institute of Space Launch Technology filed Critical China Academy of Launch Vehicle Technology CALT
Priority to CN201910257294.9A priority Critical patent/CN110062032A/zh
Publication of CN110062032A publication Critical patent/CN110062032A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1034Reaction to server failures by a load balancer

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Multi Processors (AREA)
  • Hardware Redundancy (AREA)

Abstract

一种计算机网络集群控制平台应用重构***,涉及计算机控制领域;包括主控计算机、交换设备、备份计算机、n个通用控制计算机和迁移调度模块;每个通用控制计算机分别独立执行不同的任务,且每隔时间t1向主控计算机发送一次任务数据包;当主控计算机故障时,替换主控计算机,实现备份;主控计算机当连续t2时间没有接收到某个通用控制计算机传来的数据包,认为该通用控制计算机宕机;生成迁移指令,并将迁移指令发送至迁移调度模块;迁移调度模块计算负载最小的通用控制计算机的负载,将宕机通用控制计算机的任务迁移至该通用控制计算机执行;本发明避免了因单点故障引起整个***瘫痪、崩溃,实时、高效地完成***应用重构。

Description

一种计算机网络集群控制平台应用重构***
技术领域
本发明涉及一种计算机控制领域,特别是一种计算机网络集群控制平台应用重构***。
背景技术
随着计算机技术在控制领域的应用,一个较为复杂的控制***上层通常由多台计算机组成集群,进而控制底层硬件设备或功能模块。在对实时性以及可靠性要求比较高的计算机集群控制***中,如果控制软件、网络或某个单机设备发生故障,特别是发生故障的软件应用在整个***中发挥重要作用的情况下,可能造成整个***的崩溃、瘫痪,造成严重的后果。因此研究计算机控制集群的软件冗余备份和故障重启机制,使整个***具备异常状态下的快速自恢复能力,使得***内所有发生异常的控制进程继续执行下去,提高整个***的可靠性,是非常有价值的。
传统的计算机控制***的应用冗余备份机制中,应用往往与计算机绑定,也就是某个特定的应用只能在特定的计算机上运行。为了保证每个应用的可靠性,需要对各节点添加额外的备份节点。这种方法虽然在一定程度上提高了***的可靠性,但是将产生比较高的成本代价。
对于大多数的计算控制***而言,各节点在实际使用过程中的负载并不需要处于峰值状态,有可能存在着较大的计算资源和存储空间的冗余。这些冗余资源无法分享给其他节点。而添加额外的备份节点,又使得资源的增加一倍。这便造成了计算资源较大的浪费,隐性地提高了成本。另外,传统的备份机制中,很难确保每个应用都能得到有效备份,很难做到故障状态下的快速响应和***的快速自恢复,以满足控制***的实时性。
发明内容
本发明的目的在于克服现有技术的上述不足,提供一种计算机网络集群控制平台应用重构***,避免了因单点故障引起整个***瘫痪、崩溃,实时、高效地完成***应用重构。
本发明的上述目的是通过如下技术方案予以实现的:
一种计算机网络集群控制平台应用重构***,包括主控计算机、交换设备、备份计算机、n个通用控制计算机和迁移调度模块;主控计算机、交换设备、备份计算机和n个通用控制计算机均与交换设备连通;n为正整数,且n≥3;迁移调度模块的一端与主控计算机连通,迁移调度模块的另一端分别与n个通用控制计算机连通
通用控制计算机:每个通用控制计算机分别独立执行不同的任务,且每隔时间t1,各通用控制计算机通过交换设备向主控计算机发送一次任务数据包;
备份计算机:当主控计算机故障时,替换主控计算机,实现备份;
主控计算机:接收n个通用控制计算机传来的n个数据包;当连续t2时间没有接收到某个通用控制计算机传来的数据包,认为该通用控制计算机宕机;生成迁移指令,并将迁移指令发送至迁移调度模块;
迁移调度模块:接收主控计算机传来的迁移指令后,计算除宕机的通用控制计算机外,其余各通用控制计算机的负载q;并筛选出中负载最小的通用控制计算机,认为最佳迁移目标;生成调度指令至该通用控制计算机;该通用控制计算机执行宕机通用控制计算机的任务。
在上述的一种计算机网络集群控制平台应用重构***,所述的主控计算机、交换设备、备份计算机和n个通用控制计算机采用有线或无线的方式与交换设备连通。
在上述的一种计算机网络集群控制平台应用重构***,所述每个通用控制计算机均搭载所有任务执行模块,实现对所有业务的执行能力。
在上述的一种计算机网络集群控制平台应用重构***,所述任务内容包括温度采集、执行机构速度采集、执行机构方向变换、执行机构电源控制和执行机构制动控制;各通用控制计算机执行其中一种任务。
在上述的一种计算机网络集群控制平台应用重构***,每种任务的负载小于等于通用控制计算机总负载的40%。
在上述的一种计算机网络集群控制平台应用重构***,间隔时间t1为0.5-1s。
在上述的一种计算机网络集群控制平台应用重构***,所述t2为1.2-1.4s。
在上述的一种计算机网络集群控制平台应用重构***,所述通用控制计算机的负载q的计算方法为:
q=0.4a+0.4b+0.2c
式中,a为通用控制计算机的CPU利用率;
b为通用控制计算机的内存利用率;
c为CPU队列长度。
在上述的一种计算机网络集群控制平台应用重构***,当有m个通用控制计算机出现宕机时;每迁移一个通用控制计算机任务,即计算一次各通用控制计算机的负载q,选取负载最小的通用控制计算机作为下次迁移目标,直至实现对m个宕机通用控制计算机任务的迁移;m为正整数,
本发明与现有技术相比具有如下优点:
(1)本发明克服了传统计算机控制***冗余备份方案中应用与计算机绑定缺点,能在极短时间内将故障应用灵活部署到其他正常节点,保证了***的各控制任务的正常运行,避免因某个控制进程短时失效而可能造成的严重后果,提高了整个***的可靠性;
(2)本发明包含的在现场控制条件下,基于实时操作***架构的跨节点应用迁移方法,能够及时完成故障应用的迁移部署,具有高可用性和良好的可扩展性;
(3)本发明所包含的在计算机集群控制***可重构条件下,基于剩余负载能力的负载均衡应用迁移部署策略,保证了各节点计算资源的最大化利用,也避免了任务超载。
附图说明
图1为本发明重构***示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述:
本发明提供一种计算机网络集群控制平台应用重构***,保障计算机网络集群控制***发生故障时能够正常运行,避免因单点故障引起整个***瘫痪、崩溃,实时、高效地完成***应用重构。
如图1所示为重构***示意图,由图可知,一种计算机网络集群控制平台应用重构***,包括主控计算机、交换设备、备份计算机、n个通用控制计算机和迁移调度模块;主控计算机、交换设备、备份计算机和n个通用控制计算机均与交换设备连通;各节点之间采用星形网络结构连接,基于TCP/IP以太网协议组成一个小型的局域网;主控计算机、交换设备、备份计算机和n个通用控制计算机采用有线或无线的方式与交换设备连通。n为正整数,且n≥3;迁移调度模块的一端与主控计算机连通,迁移调度模块的另一端分别与n个通用控制计算机连通
通用控制计算机:每个通用控制计算机均搭载所有任务执行模块,实现对所有业务的执行能力。工作时,每个通用控制计算机分别独立执行不同的任务,任务内容包括温度采集、执行机构速度采集、执行机构方向变换、执行机构电源控制和执行机构制动控制;各通用控制计算机执行其中一种任务;每种任务的负载小于等于通用控制计算机总负载的40%。且每隔时间0.5-1s,各通用控制计算机通过交换设备向主控计算机发送一次任务数据包;且每个通用控制计算机发送的任务数据包不同而且任务数据包的发送和接收不能和其他进程冲突,这样才能保证故障节点的准确识别。
备份计算机:为了避免因主控计算机故障而造成的***崩溃,对主控计算机实施双机备份。正常状态下,备机不工作。一旦主控计算机发生故障,备份计算机立即接替主控节点的工作。当主控计算机故障时,替换主控计算机,实现备份;
主控计算机:接收n个通用控制计算机传来的n个数据包;当连续1.2-1.4s时间没有接收到某个通用控制计算机传来的数据包,认为该通用控制计算机宕机;生成迁移指令,并将迁移指令发送至迁移调度模块;
迁移调度模块:在***无故障状态下均处于等待状态;当接收道主控计算机传来的迁移指令后,计算除宕机的通用控制计算机外,其余各通用控制计算机的负载q;
通用控制计算机的负载q的计算方法为:
q=0.4a+0.4b+0.2c
式中,a为通用控制计算机的CPU利用率;
b为通用控制计算机的内存利用率;
c为CPU队列长度。
0.4、0.4和0.2为权值,加权得到该通用控制计算机的综合负载指标。权值的确定结合了***的实际工况,充分考虑到各负载指标数值的数量级差异和每个指标对通用控制计算机负载大小的影响程度。确保得到的综合和负载指标能够较好地反映该节点的负载程度。再获取该通用控制计算机的负载。
并筛选出中负载最小的通用控制计算机,认为最佳迁移目标;生成调度指令至该通用控制计算机;该通用控制计算机执行宕机通用控制计算机的任务。
当有m个通用控制计算机出现宕机时;每迁移一个通用控制计算机任务,即计算一次各通用控制计算机的负载q,选取负载最小的通用控制计算机作为下次迁移目标,直至实现对m个宕机通用控制计算机任务的迁移;m为正整数,
本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。

Claims (9)

1.一种计算机网络集群控制平台应用重构***,其特征在于:包括主控计算机、交换设备、备份计算机、n个通用控制计算机和迁移调度模块;主控计算机、交换设备、备份计算机和n个通用控制计算机均与交换设备连通;n为正整数,且n≥3;迁移调度模块的一端与主控计算机连通,迁移调度模块的另一端分别与n个通用控制计算机连通
通用控制计算机:每个通用控制计算机分别独立执行不同的任务,且每隔时间t1,各通用控制计算机通过交换设备向主控计算机发送一次任务数据包;
备份计算机:当主控计算机故障时,替换主控计算机,实现备份;
主控计算机:接收n个通用控制计算机传来的n个数据包;当连续t2时间没有接收到某个通用控制计算机传来的数据包,认为该通用控制计算机宕机;生成迁移指令,并将迁移指令发送至迁移调度模块;
迁移调度模块:接收主控计算机传来的迁移指令后,计算除宕机的通用控制计算机外,其余各通用控制计算机的负载q;并筛选出中负载最小的通用控制计算机,认为最佳迁移目标;生成调度指令至该通用控制计算机;该通用控制计算机执行宕机通用控制计算机的任务。
2.根据权利要求1所述的一种计算机网络集群控制平台应用重构***,其特征在于:所述的主控计算机、交换设备、备份计算机和n个通用控制计算机采用有线或无线的方式与交换设备连通。
3.根据权利要求2所述的一种计算机网络集群控制平台应用重构***,其特征在于:所述每个通用控制计算机均搭载所有任务执行模块,实现对所有业务的执行能力。
4.根据权利要求3所述的一种计算机网络集群控制平台应用重构***,其特征在于:所述任务内容包括温度采集、执行机构速度采集、执行机构方向变换、执行机构电源控制和执行机构制动控制;各通用控制计算机执行其中一种任务。
5.根据权利要求4所述的一种计算机网络集群控制平台应用重构***,其特征在于:每种任务的负载小于等于通用控制计算机总负载的40%。
6.根据权利要求5所述的一种计算机网络集群控制平台应用重构***,其特征在于:间隔时间t1为0.5-1s。
7.根据权利要求6所述的一种计算机网络集群控制平台应用重构***,其特征在于:所述t2为1.2-1.4s。
8.根据权利要求7所述的一种计算机网络集群控制平台应用重构***,其特征在于:所述通用控制计算机的负载q的计算方法为:
q=0.4a+0.4b+0.2c
式中,a为通用控制计算机的CPU利用率;
b为通用控制计算机的内存利用率;
c为CPU队列长度。
9.根据权利要求8所述的一种计算机网络集群控制平台应用重构***,其特征在于:当有m个通用控制计算机出现宕机时;每迁移一个通用控制计算机任务,即计算一次各通用控制计算机的负载q,选取负载最小的通用控制计算机作为下次迁移目标,直至实现对m个宕机通用控制计算机任务的迁移;m为正整数,
CN201910257294.9A 2019-04-01 2019-04-01 一种计算机网络集群控制平台应用重构*** Pending CN110062032A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910257294.9A CN110062032A (zh) 2019-04-01 2019-04-01 一种计算机网络集群控制平台应用重构***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910257294.9A CN110062032A (zh) 2019-04-01 2019-04-01 一种计算机网络集群控制平台应用重构***

Publications (1)

Publication Number Publication Date
CN110062032A true CN110062032A (zh) 2019-07-26

Family

ID=67318051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910257294.9A Pending CN110062032A (zh) 2019-04-01 2019-04-01 一种计算机网络集群控制平台应用重构***

Country Status (1)

Country Link
CN (1) CN110062032A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118092979A (zh) * 2024-04-17 2024-05-28 浪潮通用软件有限公司 一种集群应用重构方法及介质
CN118092979B (zh) * 2024-04-17 2024-07-30 浪潮通用软件有限公司 一种集群应用重构方法及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102469126A (zh) * 2010-11-10 2012-05-23 ***通信集团公司 一种应用调度***、方法和相关装置
CN103118124A (zh) * 2013-02-22 2013-05-22 桂林电子科技大学 一种基于分层多代理的云计算负载均衡方法
CN103220354A (zh) * 2013-04-18 2013-07-24 广东宜通世纪科技股份有限公司 一种实现服务器集群负载均衡的方法
CN104636187A (zh) * 2015-02-15 2015-05-20 浙江大学 基于负载预测的numa架构中虚拟机调度方法
CN104994156A (zh) * 2015-07-01 2015-10-21 北京京东尚科信息技术有限公司 一种集群的负载均衡方法及***
CN105282230A (zh) * 2015-09-11 2016-01-27 中国人民解放军63796部队 一种强实时计算机集群动态调度***
CN107920104A (zh) * 2016-10-11 2018-04-17 天脉聚源(北京)科技有限公司 一种集群服务器缓存负载均衡的方法和***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102469126A (zh) * 2010-11-10 2012-05-23 ***通信集团公司 一种应用调度***、方法和相关装置
CN103118124A (zh) * 2013-02-22 2013-05-22 桂林电子科技大学 一种基于分层多代理的云计算负载均衡方法
CN103220354A (zh) * 2013-04-18 2013-07-24 广东宜通世纪科技股份有限公司 一种实现服务器集群负载均衡的方法
CN104636187A (zh) * 2015-02-15 2015-05-20 浙江大学 基于负载预测的numa架构中虚拟机调度方法
CN104994156A (zh) * 2015-07-01 2015-10-21 北京京东尚科信息技术有限公司 一种集群的负载均衡方法及***
CN105282230A (zh) * 2015-09-11 2016-01-27 中国人民解放军63796部队 一种强实时计算机集群动态调度***
CN107920104A (zh) * 2016-10-11 2018-04-17 天脉聚源(北京)科技有限公司 一种集群服务器缓存负载均衡的方法和***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张向文等: "基于集群控制的车辆控制***应用重构技术", 《2018年军工装备技术专刊论文集》 *
张向文等: "基于集群控制的车辆控制***应用重构技术", 《2018年军工装备技术专刊论文集》, 18 September 2018 (2018-09-18) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118092979A (zh) * 2024-04-17 2024-05-28 浪潮通用软件有限公司 一种集群应用重构方法及介质
CN118092979B (zh) * 2024-04-17 2024-07-30 浪潮通用软件有限公司 一种集群应用重构方法及介质

Similar Documents

Publication Publication Date Title
CN105487930B (zh) 一种基于Hadoop的任务优化调度方法
EP2159694B1 (en) Method and device for barrier synchronization, and multicore processor
CN103812949B (zh) 一种面向实时云平台的任务调度与资源分配方法及***
EP3002682A1 (en) Method for redundant operation of a controller
CN105610972A (zh) 集群式的任务调派***
CN108845878A (zh) 基于无服务器计算的大数据处理方法及装置
Gotoda et al. Task scheduling algorithm for multicore processor system for minimizing recovery time in case of single node fault
Bogatyrev et al. Model and interaction efficiency of computer nodes based on transfer reservation at multipath routing
CN101778002B (zh) 一种大规模集群***及其构建方法
WO2022028061A1 (zh) 一种基于侦测调节模块的gpu管理装置、方法及gpu服务器
EP2330525A1 (en) Parallel computing method and computing platform for security and stability analysis of large power grid
US20200073703A1 (en) Apparatus and method for virtual machine scheduling in non-uniform memory access architecture
CN102855218A (zh) 数据处理***、方法及装置
Kim ROAFTS: A middleware architecture for real-time object-oriented adaptive fault tolerance support
US20210367855A1 (en) Network-aware workload management using artificial intelligence and exploitation of asymmetric link for allocating network resources
US20050086412A1 (en) System and method for communicating between modules
Kapritsos et al. Scalable agreement: Toward ordering as a service
CN110062032A (zh) 一种计算机网络集群控制平台应用重构***
Sharma et al. An optimal task allocation model through clustering with inter-processor distances in heterogeneous distributed computing systems
WO2020166423A1 (ja) リソース管理装置およびリソース管理方法
JP5331549B2 (ja) 分散処理システム及び分散処理方法
CN104486447A (zh) 基于Big-Cluster的大平台集群***
CN104462581B (zh) 基于微通道内存映射和Smart‑Slice的极速文件指纹提取***及方法
CN106844021B (zh) 计算环境资源管理***及其管理方法
CN112069122A (zh) 一种通用二乘二取二计算机架构及其实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190726