CN103713974B - 一种高性能作业调度管理节点双机加固方法及设备 - Google Patents

一种高性能作业调度管理节点双机加固方法及设备 Download PDF

Info

Publication number
CN103713974B
CN103713974B CN201410007013.1A CN201410007013A CN103713974B CN 103713974 B CN103713974 B CN 103713974B CN 201410007013 A CN201410007013 A CN 201410007013A CN 103713974 B CN103713974 B CN 103713974B
Authority
CN
China
Prior art keywords
management node
heartbeat
shipper
resource
job scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410007013.1A
Other languages
English (en)
Other versions
CN103713974A (zh
Inventor
马四腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201410007013.1A priority Critical patent/CN103713974B/zh
Publication of CN103713974A publication Critical patent/CN103713974A/zh
Application granted granted Critical
Publication of CN103713974B publication Critical patent/CN103713974B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

提供一种高性能作业调度管理节点双机加固方法,同时对主管理节点的心跳信息和作业***资源进行监控,当发现主管理节点的心跳信息或者作业***资源发生故障时,启动管理节点切换。同时还提供相应装置。所述方法和装置实现对作业调度管理节点的双机加固,并能够对作业***资源进行监控,有效的弥补了传统方法的不足。

Description

一种高性能作业调度管理节点双机加固方法及设备
技术领域
本发明涉及计算机技术领域,具体涉及一种作业调度管理节点的双机加固。
背景技术
当前,基于网络的计算机技术,促进了集群***的发展和广泛应用。用高速网络将高性能工作站或个人电脑(PC)按某种结构连接成集群,实现并行计算,只需要很小的花费就可以得到大型机和并行机的性能。然而,随着高性能计算机集群应用规模的不断扩充,集群的管理问题也随之而来。作业调度***主要负责接收用户提交的作业请求,并根据特定的调度规则以及用户对作业的要求选择合适的计算资源来完成用户作业。在作业调度***的帮助下,对用户而言高性能计算集群***就好像一台具备很多CPU的大服务器,多个用户可以同时使用这个***。作业调度***管理用户提交的作业,为各个作业合理地分配资源,从而确保充分利用集群***的计算能力,并尽可能迅速地得到运算结果。因此作业调度***的重要性也就不言而喻。
传统的加固方法包括管理节点单机部署,或者使用心跳(heartbeat)方案进行双机加固。这两种方式都存在一定的缺陷漏洞,例如采用管理节点单机部署的方式,一旦该管理节点发生故障,便会导致整个集群的作业调度***停止工作,整个集群的作业无法进行合理有效的调度,作业运行也就会出现停滞,严重影响***运行效率;再如采用心跳方案进行双机加固,由于心跳软件自身的设计因素,并不能对作业调度***实行资源级监控,一旦监控的资源出现故障,就不能有效的进行资源切换,同样会导致整个集群作业无法进行合理有效的调度,严重影响***运行效率。因上述两种加固方式均存在致命缺点,故如何更加有效的对作业调度***进行加固就成为一个亟待解决的技术问题。
发明内容
本发明提出一种高性能作业调度管理节点双机加固方法及设备,一方面避免了单机部署造成的单点故障问题,另一方面,提供了对作业***资源的监控,能够有效的弥补传统方法的不足。
一种高性能作业调度管理节点双机加固方法,包括:
步骤1:将NFS服务器的共享目录挂载到作业调度双机管理节点上,启动心跳监控和资源监控;
步骤2:心跳监控和资源监控分别对当前主管理节点的心跳信息和作业***资源进行监控;
步骤3:判断当前主管理节点的所述心跳信息或作业***资源是否发生故障,如果是则启动管理节点切换。
一种高性能作业调度管理节点双机加固装置,包括:
心跳监测模块,配置用于对当前主管理节点的心跳信息进行监控,并向资源监测模块报告心跳故障消息;
资源监测模块,配置用于对当前主管理节点的作业***资源进行监控,并在接收到心跳故障消息或者判断所述作业***资源出现故障时,启动管理节点切换。
本发明的有益效果是实现对作业调度管理节点的双机加固,同时也实现了对作业***资源的监控,能够有效的弥补传统方法的不足。
附图说明
图1是本发明提出的一种高性能作业调度管理节点双机加固方法的运行原理框图。
图2是本发明提出的一种高性能作业调度管理节点双机加固方法的流程图。
图3是本发明提出的一种高性能作业调度管理节点双机加固装置的原理框图。
具体实施方式
参照图1,图1示出了本发明提出的方法的运行原理框图,在管理节点1(主管理节点)和管理节点2上运行本发明提出的方法,心跳监测模块实时监测主管理节点的心跳信息,在发现主管理节点的心跳出现故障时,报告资源监控模块。资源监控模块实时监控主管理节点上的作业***资源,当发现作业***资源出现故障时或者接收到心跳监测模块报告的主管理节点心跳故障时,启动管理节点切换过程,使得管理节点2变为主管理节点。
参照附图2,图2示出了本发明提出的一种高性能作业调度管理节点双机加固方法流程图,包括:
步骤1:将NFS服务器的共享目录挂载到作业调度双机管理节点上,启动心跳监控(corosync)和资源监控(pacemaker)。所述心跳监控和资源监控分别对管理节点1和管理节点2进行监控,其中管理节点1作为主管理节点,管理节点2作为备节点,管理节点1和管理节点2构成作业调度双机节点。用户可以事先对心跳监控和资源监控参数进行配置,例如配置资源的监控时长timeout、监控间隔interval、资源的分组以及启动顺序,同时需要配置STONITH,这样可以最大限度的保障资源的可用性。
步骤2:心跳监控和资源监控分别对当前主管理节点的心跳信息和作业***资源进行监控。
步骤3:判断当前主管理节点的所述心跳信息或作业***资源是否发生故障,如果是则启动管理节点切换。
参见图3,图3示出了本发明提出的一种高性能作业调度管理节点双机加固装置,所述装置包括:
心跳监测模块,配置用于对当前主管理节点的心跳信息进行监控,并向资源监测模块报告心跳故障消息;
资源监测模块,配置用于对当前主管理节点的作业***资源进行监控,并在接收到心跳故障消息或者判断所述作业***资源出现故障时,启动管理节点切换。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明的权利要求的保护范围。

Claims (2)

1.一种高性能作业调度双机管理节点的加固方法,所述双机管理节点包括管理节点1和管理节点2,其特征在于,所述加固方法包括:
步骤1:设置管理节点1为主管理节点,管理节点2为备管理节点;
步骤2:对心跳监控参数和资源监控参数进行配置,所述资源监控参数包括:监控时长timeout、监控间隔interval、资源的分组以及启动顺序;
步骤3:将NFS服务器的共享目录挂载到作业调度双机管理节点上,启动心跳监控和资源监控;
步骤4:心跳监控和资源监控分别对管理节点1的心跳信息和作业***资源进行监控;
步骤5:判断管理节点1的所述作业***资源是否发生故障,如果是则启动管理节点切换,使得管理节点2变为主管理节点;
步骤6:判断管理节点1的所述心跳信息是否发生故障,如果是则启动管理节点切换,使得管理节点2变为主管理节点。
2.一种高性能作业调度双机管理节点的加固装置,所述双机管理节点包括管理节点1和管理节点2,其特征在于,管理节点1为主管理节点,管理节点2为备管理节点,所述加固装置包括心跳监测模块和资源监测模块,
心跳监测模块实时监测管理节点1的心跳信息,在发现管理节点1的心跳信息出现故障时,报告资源监测模块;
资源监测模块实时监控管理节点1的作业***资源,当发现管理节点1的作业***资源出现故障时,启动管理节点切换过程,使得管理节点2变为主管理节点,当接收到心跳监测模块报告的管理节点1的心跳信息出现故障时,启动管理节点切换过程,使得管理节点2变为主管理节点。
CN201410007013.1A 2014-01-07 2014-01-07 一种高性能作业调度管理节点双机加固方法及设备 Active CN103713974B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410007013.1A CN103713974B (zh) 2014-01-07 2014-01-07 一种高性能作业调度管理节点双机加固方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410007013.1A CN103713974B (zh) 2014-01-07 2014-01-07 一种高性能作业调度管理节点双机加固方法及设备

Publications (2)

Publication Number Publication Date
CN103713974A CN103713974A (zh) 2014-04-09
CN103713974B true CN103713974B (zh) 2016-02-17

Family

ID=50406975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410007013.1A Active CN103713974B (zh) 2014-01-07 2014-01-07 一种高性能作业调度管理节点双机加固方法及设备

Country Status (1)

Country Link
CN (1) CN103713974B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942128A (zh) * 2014-04-29 2014-07-23 浪潮电子信息产业股份有限公司 一种高性能作业调度管理节点双机加固方法
CN104123183B (zh) * 2014-07-28 2017-11-14 浪潮(北京)电子信息产业有限公司 集群作业调度方法和装置
CN105141456A (zh) * 2015-08-25 2015-12-09 山东超越数控电子有限公司 一种高可用集群资源监控方法
CN105260377B (zh) * 2015-09-01 2019-02-12 浪潮(北京)电子信息产业有限公司 一种基于分级存储的升级方法和***
CN106708881B (zh) * 2015-11-17 2020-08-25 华为技术有限公司 基于网络文件***的交互方法和装置
CN105743995B (zh) * 2016-04-05 2019-10-18 北京轻元科技有限公司 一种可移植高可用部署和管理容器集群的***和方法
CN107819619A (zh) * 2017-11-02 2018-03-20 郑州云海信息技术有限公司 一种实现网络文件***的访问不间断的方法
CN109062184B (zh) * 2018-08-10 2021-05-14 中国船舶重工集团公司第七一九研究所 双机应急救援设备、故障切换方法和救援***
CN109542471A (zh) * 2018-11-28 2019-03-29 郑州云海信息技术有限公司 一种计算节点的安装方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101179432A (zh) * 2007-12-13 2008-05-14 浪潮电子信息产业股份有限公司 一种多机环境中实现***高可用的方法
CN103227838A (zh) * 2013-05-10 2013-07-31 中国工商银行股份有限公司 一种多重负载均衡处理装置与方法
CN103297543A (zh) * 2013-06-24 2013-09-11 浪潮电子信息产业股份有限公司 一种基于计算机集群作业调度的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8606901B2 (en) * 2008-01-30 2013-12-10 At&T Intellectual Property I, L. P. Facilitating deployment of new application services in a next generation network
CN103279386A (zh) * 2013-06-09 2013-09-04 浪潮电子信息产业股份有限公司 一种计算机作业调度***高可用的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101179432A (zh) * 2007-12-13 2008-05-14 浪潮电子信息产业股份有限公司 一种多机环境中实现***高可用的方法
CN103227838A (zh) * 2013-05-10 2013-07-31 中国工商银行股份有限公司 一种多重负载均衡处理装置与方法
CN103297543A (zh) * 2013-06-24 2013-09-11 浪潮电子信息产业股份有限公司 一种基于计算机集群作业调度的方法

Also Published As

Publication number Publication date
CN103713974A (zh) 2014-04-09

Similar Documents

Publication Publication Date Title
CN103713974B (zh) 一种高性能作业调度管理节点双机加固方法及设备
TW201535266A (zh) 虛擬機器之資源調整方法及系統
CN109194514B (zh) 一种双机监测方法、装置、服务器及存储介质
US10728099B2 (en) Method for processing virtual machine cluster and computer system
CN106330523A (zh) 一种集群服务器容灾***、方法和服务器节点
CN104468236A (zh) Sdn控制器集群、sdn交换机及其连接控制方法
CN105183554A (zh) 高性能计算与云计算混合计算***及其资源管理方法
CN103647830A (zh) 一种集群管理***中多层次配置文件的动态管理方法
CN103810015A (zh) 虚拟机创建方法和设备
CN112416969B (zh) 分布式数据库中的并行任务调度***
CN105812169A (zh) 一种主备机切换方法及装置
CN103974140A (zh) 一种基于tr069协议的大规模交互电视终端管理方法及***
CN112737934B (zh) 一种集群式物联网边缘网关装置及方法
CN112948063A (zh) 云平台的创建方法、装置、云平台以及云平台实现***
CN103152420B (zh) 一种避免Ovirt虚拟管理平台单点失效的方法
CN103312541A (zh) 一种高可用互备集群的管理方法
CN107579850B (zh) 一种云数据中心基于sdn控制的有线无线混合组网方法
CN102571595B (zh) 一种堆叠***的路由转发信息同步方法和装置
CN101557307B (zh) 调度自动化***应用状态管理方法
CN105681424A (zh) 一种桌面云***
CN113765690A (zh) 集群切换方法、***、装置、终端、服务器及存储介质
CN107529180B (zh) 一种基站云测试环境构建装置和方法
CN105141691A (zh) 一种云计算下虚拟机集群自动扩展***和方法
CN105302276A (zh) 一种限制SmartRack整机柜功耗的设计方法
WO2012167591A1 (zh) 一种分布式操作命令的处理方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant