CN102902598B - 一种与作业调度***相结合的资源检测预处理方法 - Google Patents

一种与作业调度***相结合的资源检测预处理方法 Download PDF

Info

Publication number
CN102902598B
CN102902598B CN201210333671.0A CN201210333671A CN102902598B CN 102902598 B CN102902598 B CN 102902598B CN 201210333671 A CN201210333671 A CN 201210333671A CN 102902598 B CN102902598 B CN 102902598B
Authority
CN
China
Prior art keywords
file
computing node
node resource
content
carry out
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210333671.0A
Other languages
English (en)
Other versions
CN102902598A (zh
Inventor
张磊
张涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shuguang zhisuan Information Technology Co.,Ltd.
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201210333671.0A priority Critical patent/CN102902598B/zh
Publication of CN102902598A publication Critical patent/CN102902598A/zh
Application granted granted Critical
Publication of CN102902598B publication Critical patent/CN102902598B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种与作业调度***相结合的资源检测预处理方法,包括下述步骤:(1)启用作业调度器预处理功能;(2)作业调度器读取计算节点资源配置文件;(3)对计算节点资源进行内容检测;(4)当发现计算节点资源异常内容时,判断是否需要启动自处理过程;(5)判断是否对计算节点资源异常内容进行自处理;(6)对计算节点资源异常内容进行自处理;(7)通过SMTP或SMGP扩展配置接口将计算节点资源异常内容以短信或邮件的形式发送给使用者;(8)将操作过程记录到日志文件中。针对“存储资源的可靠性”和“准备文件可用性”这两问题给出了自处理方案,并提供相关的自动处理和配置文件,真正做到简单、可配置、可扩展。处理效率高,省时省力。

Description

一种与作业调度***相结合的资源检测预处理方法
技术领域
本发明涉及一种高性能计算集群领域的预处理方法,具体涉及一种与作业调度***相结合的资源检测预处理方法。
背景技术
大规模集群作业调度***最常见的问题之一就是:资源(包括计算节点资源、存储资源等)已经出现了异常(非节点下线异常),但调度***却未能捕获该异常,以至于作业被调度到异常节点资源上,或使用了其他异常资源,导致作业最终无法正常完成。这样将造成资源和时间的大量浪费,且无法得到正常的作业运行结果。
Torque 5.0中提供了计算节点健康检测的功能,并且配合调度器(如:Maui)将健康状态异常节点的状态置为Down。Torque的节点健康检测功能通过指定监测脚本,获取检测脚本的运行输出信息,如果输出信息以“ERROR”开头,则调度器将该节点的状态设为Down。同时,可以设置节点检测间隔。现有技术存在以下问题:
首先,Torque所提供的计算节点健康检测功能要求使用者自行编写相应检测脚本或Linux下的可执行程序,这样就要求使用者具有一定的检测脚本或应用检测程序开发能力,使用难度较大;其次,Torque所提供的计算节点健康检测功能仅在检测异常时,利用调度器将节点状态设置为Down,并没有提供相应的异常自动处理功能。
发明内容
针对现有技术的不足,本发明提供一种与作业调度***相结合的资源检测预处理方法。本发明在开源的集群作业调度资源管理***Torque计算节点健康检测功能的基础之上,针对“存储资源的可靠性”和“准备文件可用性”这两问题给出了自处理方案,并提供了相关的自动处理和配置文件,真正做到了简单、可配置、可扩展。
本发明的目的是采用下述技术方案实现的:
一种与作业调度***相结合的资源检测预处理方法,其改进之处在于,所述方法包括下述步骤:
(1)启用作业调度器预处理功能;
(2)所述作业调度器读取计算节点资源配置文件;
(3)对计算节点资源进行内容检测;
(4)当发现计算节点资源异常内容时,判断是否需要启动自处理过程;
(5)判断是否对计算节点资源异常内容进行自处理;
(6)对计算节点资源异常内容进行自处理;
(7)通过SMTP或SMGP扩展配置接口将所述计算节点资源异常内容以短信或邮件的形式发送给使用者;
(8)将操作过程记录到日志文件中。
其中,所述步骤(2)中,所述计算节点资源配置文件用health.prop配置文件表示。
其中,所述health.prop配置文件的内容包括:
A、是否启用资源监测预处理功能,默认为Yes;
B、准备文件(准备文件属于被检测对象之一,对其检测方式仅为可用性检测)可用性对象,即:检查指定文件是否存在,默认为空;
C、所要检测容量的目录或分区是否存在,默认为空;
D、自动处理过程触发阈值,当所指定目录或分区使用容量超出该阈值时,将启动自动处理过程,默认为0.8,即:当指定目录或分区使用量超过80%时,则启动自动处理过程;
E、自动处理时,处理文件对象的最小值,默认:1BM,即:仅处理文件大小大于1BM的文件;
F、自动处理时,处理文件对象需早于此日期前产生,默认值为7,即:仅处理一周以前生产的文件;
G、自动处理时,只处理属于某个任务组的文件,默认值为空,即:处理所有组的文件;
H、自动处理时,只处理属于某个人的文件,默认值为空,即:处理所有人的文件。
其中,所述步骤(3)中,对计算节点资源中脚本文件的内容进行检测;所述脚本文件用node_check.scp表示。
其中,所述步骤(4)中,若需要启动自处理过程,则进行步骤(5);否则返回步骤(1)。
其中,所述步骤(5)中,若对计算节点资源异常内容进行处理时则进行步骤(6);否则进行步骤(7)。
其中,所述步骤(6)中,对计算节点资源异常内容进行自处理后将处理过程记录到日志文件中,即进行步骤(8)。
其中,所述步骤(8)中,所述操作过程包括对计算节点资源异常内容进行处理时的处理过程和发送给使用者的发送过程;所述日志文件用health.log表示。
与现有技术比,本发明达到的有益效果是:
本发明在开源的集群作业调度资源管理***Torque计算节点健康检测功能的基础之上,针对“存储资源的可靠性”和“准备文件可用性”这两问题给出了自处理方案,并提供了相关的自动处理和配置文件,真正做到了简单、可配置、可扩展。处理效率高,省时省力,处理的可靠性提高。
附图说明
图1是本发明提供的pbs_mom config部分为Torque所提供健康检测功能的配置文件示意图;
图2是本发明提供的与作业调度***相结合的资源检测预处理方法流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
高性能计算集群(HPCC,High Performance Computing Cluster):计算机科学的一个分支,以解决复杂的科学计算或数值计算问题为目的,是由多台节点机(服务器)构成的一种松散耦合的计算节点集合。
本发明在Torque计算节点健康检测功能的基础之上,为使用者提供了一套简单、可配置、可扩展的节点检测预处理方案。在与众多高性能计算集群使用者的沟通过程中,我们了解到,在集群资源的使用过程中,使用者所担心的计算资源异常的情况主要集中在:“存储资源的可靠性”和“准备文件可用性”这两问题上。本发明给出的节点检测预处理方案,主要就是针对上述的两个问题,及众多使用者的实际需求,形成的一套配置标准与自动处理相结合的解决方案。
本发明提供的pbs_mom config部分为Torque所提供健康检测功能的配置文件如图1所示,要求在该配置文件中将node_check_script项配置为本解决方案所提供的node_check.scp脚本文件位置。如图1资源检测预处理配置方案所示,本发明中的解决方案主要由node_check.scp等一系列脚本文件、health.prop配置文件、health.log日志记录文件所组成,同时提供SMTP、SMGP等扩展配置接口。
Torque表示一种开源的集群作业调度资源管理***;SMTP(Simple Mail TransferProtocol)即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制邮件的中转方式;SMGP(Short Message Gateway Protocol)是SMGW与其它网元设备进行短消息传输的接口协议。
本发明提供的与作业调度***相结合的资源检测预处理方法流程如图2所示,该方法包括下述步骤:
(1)启用作业调度器预处理功能:该作业调度器为Maui作业调度器。
(2)Maui作业调度器读取计算节点资源heakh.prop配置文件;
(3)对计算节点资源node_check.scp脚本文件的内容进行检测:根据
表1 health.prop部分配置详解中的配置,进行指定内容检测;表1如下:
表1 health.prop部分配置详解
(4)当发现计算节点资源异常内容时,判断是否需要启动自处理过程:若需要启动自处理过程,则进行步骤(5);否则返回步骤(1)。
(5)判断是否对计算节点资源异常内容进行自处理:若对计算节点资源异常内容进行处理时则进行步骤(6);否则进行步骤(7)。
(6)对计算节点资源异常内容进行自处理:对计算节点资源异常内容进行自处理后将处理过程记录到日志文件中,即进行步骤(8)。
(7)通过SMTP或SMGP扩展配置接口将所述计算节点资源异常内容以短信或邮件的形式发送给使用者;
(8)将操作过程记录到日志文件中:操作过程包括对计算节点资源异常内容进行处理时的处理过程和发送给使用者的发送过程;日志文件用health.log表示。
本发明给出的节点检测预处理方案,主要就是针对“存储资源的可靠性”和“准备文件可用性”这两问题给出了处理方案,并提供了相关的自动处理和配置文件,真正做到了简单、可配置、可扩展。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。

Claims (1)

1.一种与作业调度***相结合的资源检测预处理方法,其特征在于,所述方法包括下述步骤:
(1)启用作业调度器预处理功能;
(2)所述作业调度器读取计算节点资源配置文件;
(3)对计算节点资源的内容进行检测;
(4)当发现计算节点资源异常内容时,判断是否需要启动自处理过程;
(5)判断是否对计算节点资源异常内容进行自处理;
(6)对计算节点资源异常内容进行自处理;
(7)通过SMTP或SMGP扩展配置接口将所述计算节点资源异常内容以短信或邮件的形式发送给使用者;
(8)将操作过程记录到日志文件中;
所述步骤(2)中,所述计算节点资源配置文件用health.prop配置文件表示;
所述health.prop配置文件的内容包括:
A、是否启用资源监测预处理功能,默认为Yes;
B、准备文件可用性对象,即:检查指定文件是否存在,默认为空;
C、所要检测容量的目录或分区是否存在,默认为空;
D、自动处理过程触发阈值,当所指定目录或分区使用容量超出该阈值时,将启动自动处理过程,默认为0.8,即:当指定目录或分区使用量超过80%时,则启动自动处理过程;
E、自动处理时,处理文件对象的最小值,默认:1BM,即:仅处理文件大小大于1BM的文件;
F、自动处理时,处理文件对象需早于此日期前产生,默认值为7,即:仅处理一周以前生产的文件;
G、自动处理时,只处理属于某个任务组的文件,默认值为空,即:处理所有组的文件;
H、自动处理时,只处理属于某个人的文件,默认值为空,即:处理所有人的文件;
所述步骤(3)中,对计算节点资源中脚本文件的内容进行检测;所述脚本文件用node_check.scp表示;
所述步骤(4)中,若需要启动自处理过程,则进行步骤(5);否则返回步骤(1);
所述步骤(5)中,若对计算节点资源异常内容进行处理时则进行步骤(6);否则进行步骤(7);
所述步骤(6)中,对计算节点资源异常内容进行自处理后将处理过程记录到日志文件中,即进行步骤(8);
所述步骤(8)中,所述操作过程包括对计算节点资源异常内容进行处理时的处理过程和发送给使用者的发送过程;所述日志文件用health.log表示。
CN201210333671.0A 2012-09-10 2012-09-10 一种与作业调度***相结合的资源检测预处理方法 Active CN102902598B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210333671.0A CN102902598B (zh) 2012-09-10 2012-09-10 一种与作业调度***相结合的资源检测预处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210333671.0A CN102902598B (zh) 2012-09-10 2012-09-10 一种与作业调度***相结合的资源检测预处理方法

Publications (2)

Publication Number Publication Date
CN102902598A CN102902598A (zh) 2013-01-30
CN102902598B true CN102902598B (zh) 2015-08-19

Family

ID=47574844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210333671.0A Active CN102902598B (zh) 2012-09-10 2012-09-10 一种与作业调度***相结合的资源检测预处理方法

Country Status (1)

Country Link
CN (1) CN102902598B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103347059B (zh) * 2013-06-20 2016-06-22 北京奇虎科技有限公司 实现用户配置参数传递的方法、客户端和***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101373447A (zh) * 2008-08-20 2009-02-25 上海超级计算中心 计算机集群的健康度检测***和方法
CN101694630A (zh) * 2009-09-30 2010-04-14 曙光信息产业(北京)有限公司 一种作业调度方法、***及设备
WO2011005073A2 (en) * 2009-07-09 2011-01-13 Mimos Bhd. Job status monitoring method
CN102117225A (zh) * 2009-12-31 2011-07-06 上海可鲁***软件有限公司 一种工业自动化多点集群***及其任务管理方法
CN102148871A (zh) * 2011-03-18 2011-08-10 浪潮(北京)电子信息产业有限公司 存储资源调度方法和装置
CN102147960A (zh) * 2011-03-22 2011-08-10 曙光信息产业股份有限公司 一种超大规模业务集群监控***和方法
CN102231681A (zh) * 2011-06-27 2011-11-02 中国建设银行股份有限公司 一种高可用集群计算机***及其故障处理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040205414A1 (en) * 1999-07-26 2004-10-14 Roselli Drew Schaffer Fault-tolerance framework for an extendable computer architecture

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101373447A (zh) * 2008-08-20 2009-02-25 上海超级计算中心 计算机集群的健康度检测***和方法
WO2011005073A2 (en) * 2009-07-09 2011-01-13 Mimos Bhd. Job status monitoring method
CN101694630A (zh) * 2009-09-30 2010-04-14 曙光信息产业(北京)有限公司 一种作业调度方法、***及设备
CN102117225A (zh) * 2009-12-31 2011-07-06 上海可鲁***软件有限公司 一种工业自动化多点集群***及其任务管理方法
CN102148871A (zh) * 2011-03-18 2011-08-10 浪潮(北京)电子信息产业有限公司 存储资源调度方法和装置
CN102147960A (zh) * 2011-03-22 2011-08-10 曙光信息产业股份有限公司 一种超大规模业务集群监控***和方法
CN102231681A (zh) * 2011-06-27 2011-11-02 中国建设银行股份有限公司 一种高可用集群计算机***及其故障处理方法

Also Published As

Publication number Publication date
CN102902598A (zh) 2013-01-30

Similar Documents

Publication Publication Date Title
CN207301773U (zh) 一种基于物联网的数控机床监控***
US8533731B2 (en) Apparatus and method for distrubuting complex events based on correlations therebetween
CN112769897B (zh) 边缘计算消息的同步方法、装置、电子设备及存储介质
CN103645947A (zh) Mil-std-1553b总线监控及数据分析***
CN106033476A (zh) 一种云计算环境中分布式计算模式下的增量式图计算方法
CN111562889B (zh) 数据处理方法、装置、***及存储介质
CN107612984B (zh) 一种基于互联网的大数据平台
CN103200199A (zh) 一种带外数据采集***
CN105592122A (zh) 一种云平台监控方法以及云平台监控***
CN112118174A (zh) 软件定义数据网关
CN115277566B (zh) 数据访问的负载均衡方法、装置、计算机设备及介质
CN106790403B (zh) 实现移动云计算中间平台的方法及实现分布式的方法
CN104484167B (zh) 任务处理方法及装置
CN111930565B (zh) 分布式管理***中组件的进程故障自愈方法、装置及设备
CN111970195A (zh) 数据传输方法和流式数据传输***
CN103763181A (zh) 自动设置属性的装置和方法
CN117651003B (zh) Erp信息传输安全监控***
CN103678423A (zh) 数据文件导入***、装置及方法
CN102902598B (zh) 一种与作业调度***相结合的资源检测预处理方法
CN104750814B (zh) 基于多传感器的多元异构数据流自动入库方法
CN109672731A (zh) 一种分布式节点信息监测方法、***及应用
CN103916428A (zh) 私有云内部的数据传输方法、私有云平台及私有云***
CN113688009B (zh) 一种云平台的云主机监控数据采集方法、***及设备
CN114756301A (zh) 日志处理方法、装置和***
Cheng et al. Design of the wireless sensor network communication terminal based on embedded Linux

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211025

Address after: 100089 zone A-1, floor 2, building 36, yard 8, Dongbeiwang West Road, Haidian District, Beijing

Patentee after: Shuguang zhisuan Information Technology Co.,Ltd.

Address before: 100193 No.36 Zhongguancun Software Park, No.8 Dongbeiwang West Road, Haidian District, Beijing

Patentee before: Dawning Information Industry (Beijing) Co.,Ltd.

TR01 Transfer of patent right