CN102880506B - 一种基于作业调度***的应用作业控制***及其控制方法 - Google Patents

一种基于作业调度***的应用作业控制***及其控制方法 Download PDF

Info

Publication number
CN102880506B
CN102880506B CN201210333454.1A CN201210333454A CN102880506B CN 102880506 B CN102880506 B CN 102880506B CN 201210333454 A CN201210333454 A CN 201210333454A CN 102880506 B CN102880506 B CN 102880506B
Authority
CN
China
Prior art keywords
message
application
multicast
multicast message
job
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210333454.1A
Other languages
English (en)
Other versions
CN102880506A (zh
Inventor
张磊
张涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shuguang zhisuan Information Technology Co.,Ltd.
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201210333454.1A priority Critical patent/CN102880506B/zh
Publication of CN102880506A publication Critical patent/CN102880506A/zh
Application granted granted Critical
Publication of CN102880506B publication Critical patent/CN102880506B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种基于作业调度***的应用作业控制***及其控制方法,控制***包括组播消息发送器、应用程序监控器和作业调度***;当组播消息发送器被应用程序作业调用后,向组播域发送组播消息;应用程序监控器中的应用***接收所述组播消息并将其发送到应用程序监控器中的消息分析器中;消息分析器判定所述组播消息运行状态是否正常,若处于异常状态,则通过所述作业调度***将该应用程序作业Rerun;该方法解决了现有调度***仅从作业的角度为使用者提供作业的相应状态信息,而没有针对应用本身的运行状态进行监控和管理的问题,保证高性能计算集群上作业内的应用程序的正常运行,避免了资源的浪费,同时还保证了应用程序作业运行的准确性。

Description

一种基于作业调度***的应用作业控制***及其控制方法
技术领域
本发明涉及一种高性能计算机群的控制***及其控制方法,具体涉及一种基于作业调度***的应用作业控制***及其控制方法。
背景技术
在高性能计算集群的使用中,很多应用作业在提交运行后会长期占用大量的计算资源,甚至有些作业会以服务的形式长时间存在,对于这种类型的作业,从作业调度***的角度所看到的作业状态始终为Run,而使用者更为关注的这类作业的应用本身的运行情况并没能显示出来,应用本身已经处于异常状态,但应用依旧以作业的形式运行于集群之中的情况却是时有发生的,针对这样的情况,调度***暂未捕捉此类异常。而这种情况往往会带来的后果就是:
1、应用作业已经处于异常状态、无法提供正常的服务时,却不能被及时发现,做出相应处理
2、作业所占用的大量资源无法得到及时释放;
3、作业耗费长时运行结束,却无法得到正常的运行结果,或无法确定所得到运行结果的正确性。
现有调度***仅从作业的角度为使用者提供作业的相应状态信息,而没有针对应用本身的运行状态进行监控和管理。这也就出现了上述的问题。
发明内容
针对现有技术的不足,本发明提供一种基于作业调度***的应用作业控制***及其控制方法,该方法解决了现有调度***仅从作业的角度为使用者提供作业的相应状态信息,而没有针对应用本身的运行状态进行监控和管理的问题,保证高性能计算集群上作业内的应用程序的正常运行,同时当应用程序作业运行状态异常时,异常应用对应作业会在第一时间进入作业调度***的Rerun(重新运行)状态,避免了资源的浪费,同时还保证了应用程序作业运行的准确性。
本发明的目的是采用下述技术方案实现的:
一种基于作业调度***的应用作业控制***,其改进之处在于,所述控制***包括组播消息发送器、应用程序监控器和作业调度***;
所述组播消息发送器被应用程序作业调用后,向组播域发送组播消息;所述应用程序监控器中的应用***接收所述组播消息并将其发送到应用程序监控器中的消息分析器中;所述消息分析器判定所述组播消息运行状态是否正常,若处于异常状态,则通过所述作业调度***将该应用程序作业Rerun;
当应用程序监控器中的应用***在>10ms的指定时间内没有收到应用作业的组播消息,则认为应用作业处于异常状态,则通过所述作业调度***将该应用程序作业Rerun。
其中,所述组播消息发送器被应用程序作业调用后,以组播格式组成结构向组播域中发送组播消息。
其中,所述应用程序监控器包括应用***和消息分析器;
所述应用***接收所述组播消息并将其发送到消息分析器中;
所述消息分析器判定组播消息的运行状态是否正常。
其中,若组播消息处于异常状态,则通过所述作业调度***将该应用程序作业Rerun。
本发明基于另一目的提供的一种基于作业调度***的应用作业控制方法,其改进之处在于,所述方法包括下述步骤:
(1)组播消息发送器被应用程序作业调用后,向组播域发送组播消息;
(2)所述应用程序监控器中的应用***接收所述组播消息并将其发送到应用程序监控器中的消息分析器中;
(3)所述消息分析器判定所述组播消息运行状态是否正常;
(4)若处于异常状态,则通过作业调度***将该应用程序作业Rerun。
其中,所述步骤(1)中,组播消息发送器被应用程序作业调用后,以组播格式组成结构向组播域发送组播消息。
其中,所述组播格式组成结构包括:
头部信息:用于应用***在监听组播域时,过滤出组播消息发送器所发出的组播消息;
消息类型码:用于确定组播消息的类型,消息的类型分为组合和单一两种类型;组合类型的消息,是指单从本条消息中无法确定作业中的应用程序运行状态是否正常,与该作业的组播消息发送器发送的下一条组播消息相结合;单一类型的消息,是指利用本条消息中的消息内容码和判定规则码判定当前作业中的应用程序运行状态是否正常;
判定规则码:根据该判定规则码对应的判定规则,来处理消息内容码后,可判定出作业中的应用程序运行状态;
消息内容码:应用***传给组播消息发送器的应用状态信息,用于判定作业中的应用程序的运行状态的依据。
其中,所述步骤(2)中,应用***接收所述组播消息后,根据组播头部信息过滤出所需的组播消息;再利用组播消息中的作业信息获取作业调度***作业的ID信息;所述应用***将ID信息、消息类型码、判定规则码和消息内容码发送到消息分析器中。
其中,所述步骤(3)中,所述消息分析器通过判定消息类型码,判别消息类型;
若消息类型为组合型消息,所述消息分析器在缓存中搜索该组播消息,若没有搜索到,则将该组播消息内容加入消息分析器的缓存;再利用本条消息中的判定规则码和消息内容码判定作业中应用程序的运行状态;
若消息类型为单一型消息,则利用本条消息中的判定规则码和消息内容码判定作业中的应用程序运行状态。
其中,所述步骤(4)中,若步骤(3)作业中的应用程序运行状态为异常状态,则通过作业调度***将应用程序作业Rerun。
与现有技术比,本发明达到的有益效果是:
本发明提供的基于作业调度***的应用作业控制***及其控制方法,解决了现有调度***仅从作业的角度为使用者提供作业的相应状态信息,而没有针对应用本身的运行状态进行监控和管理的问题,保证高性能计算集群上作业内的应用的正常运行,同时当应用程序作业运行状态异常时,异常应用对应作业会在第一时间进入作业调度***的Rerun状态,避免了资源的浪费,同时还保证了应用程序作业运行的准确性。
附图说明
图1是本发明提供的基于作业调度***的应用作业控制方案示意图;
图2是本发明提供的组播格式组成结构示意图;
图3是本发明提供的组播消息应用***工作原理示意图;
图4是本发明提供的消息分析器工作原理示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
本发明中所提出的应用作业控制方案如图1基于作业调度***的应用作业控制方案图所示,基于作业调度***的应用作业控制***由“组播消息发送器”、“应用程序监控器”和“作业调度***”组成。应用作业控制***要求应用程序需按特定时间间隔调用方案中所提供的“组播消息发送器”,该组播消息发送器会向组播域内发送规定格式的组播消息。使用这种组播消息的机制,保证了集群管理节点上的“应用程序监控器”的“应用***”部件可以接收到来自任何计算节点的应用作业通过组播消息发送器所发送出的组播消息。
“应用程序监控器”中的“应用***”组件在接收到“组播域”中的组播后,会根据组播信息判断是来自哪个作业的组播,之后将该组播消息发送到“消息分析器”中,“消息分析器”根据组播内容判断发送该组播消息的作业中“应用程序”的运行状态是否正常。如果应用***在所指定时间段内没能接受到某作业的组播消息,应用程序监控器将会认为该作业中的应用程序已经处于异常状态,便会通过作业调度***将该作业Rerun。
本发明提供的基于作业调度***的应用作业控制方法,包括下述步骤:
(1)组播消息发送器被应用程序作业调用后,向组播域发送组播消息:
a、组播消息发送器:
在被应用程序调用后,组播消息发送器以特定的格式向组播域中发送组播消息,组播格式的组成结构如图2组播格式组成结构所示:
其中,各部分内容如下:
头部信息:用于应用***在监听组播域时,过滤出组播消息发送器所发出的组播消息。
作业信息:用于应用***将组播消息关联到作业的应用程序。
消息类型码:用于确定后面的消息内容的类型,消息的类型分为“组合”和“单一”两种类型。组合类型的消息,是指单从本条消息中无法确定作业中的应用的状态是否正常,需要与该作业的组播消息发送器发送的下一条组播消息相结合,具体结合规则在“判断规则码”中确定。单一类型的消息,是指仅利用本条消息中的消息内容码和判定规则码即可判断当前作业中的应用程序的运行状态是否正常。
判定规则码:根据该判定规则码对应的判定规则,来处理消息内容码后,可判断出应用状态。
消息内容码:应用传给组播消息发送器的应用状态信息,用于判断应用状态的依据。
(2)所述应用程序监控器中的应用***接收所述组播消息并将其发送到应用程序监控器中的消息分析器中;
b、应用程序监控器:
如图1所示,应用程序监控器包括“消息分析器”和“应用***”两个部分。本发明提供的组播消息应用***工作原理如图3所示,“应用***”在接收到“组播域”中的组播后,会根据设定的组播头部信息过滤出所需的组播消息,之后利用组播消息中的作业信息,通过作业调度***获取作业的ID信息,该作业ID将与消息判定相关内容(即消息类型码、判定规则码和消息内容码)一起传给消息分析器。
(3)消息分析器判定所述组播消息运行状态是否正常;
c、消息分析器:
本发明提供的消息分析器工作原理如图4所示,消息分析器会先通过判定消息类型码,来判别消息类型,如果为组合型消息,消息分析器会先在缓存中搜索该消息,如果没有搜索到,则将该条消息内容加入缓存。之后利用消息中的“判定规则码”和“消息内容码”来判定作业中的应用程序的运行状态。
(4)若作业中的应用程序的运行状态处于异常状态,则通过作业调度***将该应用程序作业Rerun,即调用作业调度***命令来实现。
本发明解决了现有调度***仅从作业的角度为使用者提供作业的相应状态信息,而没有针对应用本身的运行状态进行监控和管理的问题,保证高性能计算集群上作业内的应用的正常运行,同时当应用运行异常时,异常应用对应作业会在第一时间进入调度***的Rerun状态,避免了资源的浪费,同时还保证了应用运行的准确性。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。

Claims (1)

1.一种基于作业调度***的应用作业控制方法,其特征在于,所述方法用的***为基于作业调度***的应用作业控制***,所述控制***包括组播消息发送器、应用程序监控器和作业调度***;
所述组播消息发送器被应用程序作业调用后,向组播域发送组播消息;所述应用程序监控器中的应用***接收所述组播消息并将其发送到应用程序监控器中的消息分析器中;所述消息分析器判定所述组播消息运行状态是否正常,若处于异常状态,则通过所述作业调度***将该应用程序作业Rerun;
当应用程序监控器中的应用***在>10ms的指定时间内没有收到应用作业的组播消息,则认为应用作业处于异常状态,则通过所述作业调度***将该应用程序作业Rerun;
所述组播消息发送器被应用程序作业调用后,以组播格式组成结构向组播域中发送组播消息;
所述应用程序监控器包括应用***和消息分析器;
所述应用***接收所述组播消息并将其发送到消息分析器中;
所述消息分析器判定组播消息的运行状态是否正常;
若组播消息处于异常状态,则通过所述作业调度***将该应用程序作业Rerun;
所述方法包括下述步骤:
(1)组播消息发送器被应用程序作业调用后,向组播域发送组播消息;
(2)所述应用程序监控器中的应用***接收所述组播消息并将其发送到应用程序监控器中的消息分析器中;
(3)所述消息分析器判定所述组播消息运行状态是否正常;
(4)若处于异常状态,则通过作业调度***将该应用程序作业Rerun;
所述步骤(1)中,组播消息发送器被应用程序作业调用后,以组播格式组成结构向组播域发送组播消息;
所述组播格式组成结构包括:
头部信息:用于应用***在监听组播域时,过滤出组播消息发送器所发出的组播消息;
消息类型码:用于确定组播消息的类型,消息的类型分为组合和单一两种类型;组合类型的消息,是指单从本条消息中无法确定作业中的应用程序运行状态是否正常,与该作业的组播消息发送器发送的下一条组播消息相结合;单一类型的消息,是指利用本条消息中的消息内容码和判定规则码判定当前作业中的应用程序运行状态是否正常;
判定规则码:根据该判定规则码对应的判定规则,来处理消息内容码后,可判定出作业中的应用程序运行状态;
消息内容码:应用***传给组播消息发送器的应用状态信息,用于判定作业中的应用程序的运行状态的依据;
所述步骤(2)中,应用***接收所述组播消息后,根据组播头部信息过滤出所需的组播消息;再利用组播消息中的作业信息获取作业调度***作业的ID信息;所述应用***将ID信息、消息类型码、判定规则码和消息内容码发送到消息分析器中;
所述步骤(3)中,所述消息分析器通过判定消息类型码,判别消息类型;
若消息类型为组合型消息,所述消息分析器在缓存中搜索该组播消息,若没有搜索到,则将该组播消息内容加入消息分析器的缓存;再利用本条消息中的判定规则码和消息内容码判定作业中应用程序的运行状态;
若消息类型为单一型消息,则利用本条消息中的判定规则码和消息内容码判定作业中的应用程序运行状态;
所述步骤(4)中,若步骤(3)作业中的应用程序运行状态为异常状态,则通过作业调度***将应用程序作业Rerun。
CN201210333454.1A 2012-09-10 2012-09-10 一种基于作业调度***的应用作业控制***及其控制方法 Active CN102880506B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210333454.1A CN102880506B (zh) 2012-09-10 2012-09-10 一种基于作业调度***的应用作业控制***及其控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210333454.1A CN102880506B (zh) 2012-09-10 2012-09-10 一种基于作业调度***的应用作业控制***及其控制方法

Publications (2)

Publication Number Publication Date
CN102880506A CN102880506A (zh) 2013-01-16
CN102880506B true CN102880506B (zh) 2016-09-21

Family

ID=47481844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210333454.1A Active CN102880506B (zh) 2012-09-10 2012-09-10 一种基于作业调度***的应用作业控制***及其控制方法

Country Status (1)

Country Link
CN (1) CN102880506B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103677975A (zh) * 2013-12-09 2014-03-26 北京恒华伟业科技股份有限公司 一种访问应用***内部对象的***和方法
CN106713398A (zh) * 2015-11-18 2017-05-24 中兴通讯股份有限公司 共享存储式集群文件***节点通信的监控方法及监控节点

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100531040C (zh) * 2007-02-07 2009-08-19 杭州华三通信技术有限公司 实现组播虚拟专用网绑定的方法及设备
CN101321207B (zh) * 2008-07-22 2011-07-20 ***通信集团江苏有限公司 一种电信客户服务***数据库故障处理方法
JP2012086416A (ja) * 2010-10-18 2012-05-10 Canon Inc 画像形成装置、印刷ジョブ制御方法およびプログラム

Also Published As

Publication number Publication date
CN102880506A (zh) 2013-01-16

Similar Documents

Publication Publication Date Title
CN103873279B (zh) 一种服务器管理方法,及装置
CN108197261A (zh) 一种智慧交通操作***
CN101958804B (zh) 提升告警处理效率的方法、服务器及***
CN105631026A (zh) 一种安全数据分析***
CN101877618B (zh) 基于无代理方式进行监控的方法、服务器及***
CN107562541B (zh) 一种负载均衡分布式的爬虫方法、爬虫***
CN104657150B (zh) 一种集群环境下的自动化运维方法
CN109255523A (zh) 基于kks编码规则和大数据架构的分析指标计算平台
CN102136949A (zh) 一种基于网络和时间的告警相关性分析方法及***
CN102862589B (zh) 适用于城市轨道交通的应急调度指挥数据处理方法及装置
CN108804215A (zh) 一种任务处理方法、装置以及电子设备
WO2014061518A1 (ja) 保守装置、保守システム、保守プログラム
CN105236056A (zh) 基于物联网的远程监控垃圾站设备及调度转运车辆的方法
CN101639803A (zh) 多线程应用***的异常处理方法和异常处理装置
CN108563455A (zh) 一种k-ux操作***上中间件部署方法、***及设备
CN102880506B (zh) 一种基于作业调度***的应用作业控制***及其控制方法
CN103870549B (zh) 石油地质软件数据的清理方法及装置
CN110817633A (zh) 一种电梯物联网云平台监测***
CN102111508A (zh) 一种故障处理方法、***及故障调度设备
CN109167684A (zh) 一种通信网络状态故障监控***及检修方法
CN109495546B (zh) 数据处理方法、***及服务器
CN102975670B (zh) 车辆总线控制***瞬时故障的处理方法及***、车辆
CN108445857B (zh) 一种scada***的1+n冗余机制设计方法
CN111488997A (zh) 自动运维方法、装置、设备及存储介质
CN115840766A (zh) 一种日志数据解析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211025

Address after: 100089 zone A-1, floor 2, building 36, yard 8, Dongbeiwang West Road, Haidian District, Beijing

Patentee after: Shuguang zhisuan Information Technology Co.,Ltd.

Address before: 100193 No.36 Zhongguancun Software Park, No.8 Dongbeiwang West Road, Haidian District, Beijing

Patentee before: Dawning Information Industry (Beijing) Co.,Ltd.