CN104881327A - 集群的作业流管理方法和装置 - Google Patents

集群的作业流管理方法和装置 Download PDF

Info

Publication number
CN104881327A
CN104881327A CN201510294141.3A CN201510294141A CN104881327A CN 104881327 A CN104881327 A CN 104881327A CN 201510294141 A CN201510294141 A CN 201510294141A CN 104881327 A CN104881327 A CN 104881327A
Authority
CN
China
Prior art keywords
job
job stream
node
stream
ecflow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510294141.3A
Other languages
English (en)
Other versions
CN104881327B (zh
Inventor
原帅
孟浩然
张涛
赵欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shuguang Information Industry Henan Co ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201510294141.3A priority Critical patent/CN104881327B/zh
Publication of CN104881327A publication Critical patent/CN104881327A/zh
Application granted granted Critical
Publication of CN104881327B publication Critical patent/CN104881327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Computer And Data Communications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种集群的作业流管理方法和装置,该方法包括:扫描目标节点范围内每个节点上运行的作业流控制进程的进程号,确定每个节点上所运行的作业流控制进程;基于每个节点上运行的作业流控制进程的进程信息,确定该作业流控制进程所对应的作业流控制器的端口号;根据作业流控制器的端口号,确定每个节点上配置的作业流控制器。本发明通过扫描并确定节点上运行的作业流控制进程的进程号和对应该作业流控制进程的作业流控制器的端口号,实现了对集群中正在运行的作业流控制器的快速定位。

Description

集群的作业流管理方法和装置
技术领域
本发明涉及计算机应用技术领域,具体来说,涉及一种集群的作业流管理方法和装置。
背景技术
在高性能计算领域,面向气象、生物、石油等行业的高性能计算越来越复杂,仅依靠作业管理***构建的高性能计算用户环境,不能完全满足日益复杂的面向行业的高性能计算用户的需求。基于工作流构建的高性能计算用户环境,它不仅便于业务流程的创建和控制,而且扩展了各种关系依赖和流程语义,给复杂的流程控制提供了可能。基于工作流的高性能计算用户环境能够灵活地适应不同用户环境的变化。ecflow就是这样一种作业流控制软件,可以支持多种作业调度***(例如PBS Portable Batch System)。
高性能计算用户向PBS等作业调度***提交作业时,多个作业间可能是有依赖关系的。那么为了方便作业管理,可根据作业间的依赖关系和运行顺序创建一个作业流。而ecflow就可以根据该作业流,控制作业的运行顺序,调整作业运行状态,从而进行复杂的流程控制,实现作业流管理。
Ecflow主要由ecflow server、ecflow_client、ecflowview三部分构成。其中,ecflow server是作业流的服务端,又叫做作业流控制器,用于提供作业流的管理和调度功能,其可以分布在集群内的各个节点上。***用户可以启动自己的ecflow server;ecflow_client是一种命令行工具;ecflowview则是ecflow提供的可视化作业监控和管理客户端。
那么在集群环境中使用ecflow时,多个ecflow server可能分布在集群的不同节点上,也可能在同一个节点上运行多个ecflow server。那么如何快速发现并定位集群中的ecflow server的位置和状态目前还是个未解决的问题。
另外,为方便对ecflow server的管理,实现对多个ecflow server以及应用作业流的流程和状态的监控和管理。ecflow提供了C/S(客户端/服务器)模式的监控客户端ecflowview。但是在现有技术中,ecflowview需要通过vnc等工具登录到ecflow server所在节点才能使用,不方便用户使用;而且ecflowview不能同时管理多个ecflow server,如果在管理ecflow server1时需要管理ecflowserver2,则需要关闭对ecflow server1的连接,然后在建立与ecflow server2的连接。显然,管理员难以掌握集群中所有ecflow server的整体状态,不方便在大规模集群中使用。
此外,ecflow中的单个任务(作业)和作业调度***中的作业,目前没有显式的对应关系,在使用时需要用户自己分析两者之间的对应关系,这样就会不方便定位作业的实际运行位置,以及掌握作业的具体运行数据。
针对相关技术中的上述问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的上述问题,本发明提出一种集群的作业流管理方法和装置,能够实现对集群中正在运行的作业流控制器的快速定位。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种集群的作业流管理方法。
该作业流管理方法包括:
扫描目标节点范围内每个节点上运行的作业流控制进程的进程号,确定每个节点上所运行的作业流控制进程;
基于每个节点上运行的作业流控制进程的进程信息,确定该作业流控制进程所对应的作业流控制器的端口号;
根据作业流控制器的端口号,确定每个节点上配置的作业流控制器。
此外,该作业流管理方法进一步包括:
基于每个节点上运行的作业流控制进程的进程信息,确定发起作业流控制进程的用户信息。
进一步的,该作业流管理方法进一步包括:
根据预先配置的用户优先级信息,控制每个节点上运行的作业流对用户的可见性。
另外,该作业流管理方法进一步包括:
根据每个节点的IP地址信息和每个节点上配置的作业流控制器的端口号,确定目标节点范围内每个节点上的作业流控制器的分布信息。
此外,该作业流管理方法进一步包括:
通过调用预先封装的作业流控制命令,对多个作业流控制器进行管理。
其中,在对任意一个作业流控制器进行管理时,可通过确定该作业流控制器在所在的节点上所对应的多个作业流;获取多个作业流中每个作业流的作业流程信息和作业状态信息;根据每个作业流的作业流程信息和作业状态信息对该作业流控制器所对应的每个作业流进行管理。
另外,该作业流管理方法进一步包括:
对每个节点上配置的作业流控制器所对应的作业流的作业状态进行跟踪;
在作业流的作业状态改变的情况下,对作业调度***中对应该作业状态改变的任务作业的状态信息进行更新。
并且,该作业流管理方法进一步包括:
预先关联作业步骤:根据作业流中的作业的属性信息将作业流中的作业与作业调度***中的任务作业的作业号相关联,生成作业关联信息。
对应的,该作业流管理方法进一步包括:
在对作业调度***中对应该作业状态改变的任务作业的状态信息进行更新之前,根据作业关联信息在作业调度***中查找是否具有对应该作业流中作业状态改变的作业的任务作业;
在未查找到对应该作业流的作业状态改变的作业的任务作业的情况下,执行预先关联作业步骤。
根据本发明的另一方面,提供了一种集群的作业流管理装置。
该作业流管理装置包括:
扫描模块,用于扫描目标节点范围内每个节点上运行的作业流控制进程的进程号,确定每个节点上所运行的作业流控制进程;
第一确定模块,用于基于每个节点上运行的作业流控制进程的进程信息,确定该作业流控制进程所对应的作业流控制器的端口号;
第二确定模块,用于根据作业流控制器的端口号,确定每个节点上配置的作业流控制器。
本发明通过扫描并确定节点上运行的作业流控制进程的进程号和对应该作业流控制进程的作业流控制器的端口号,实现了对集群中正在运行的作业流控制器的快速定位。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的集群的作业流管理方法的流程图;
图2是根据本发明实施例的集群的ecflow server的探测流程图;
图3是根据本发明实施例的多ecflow server下的作业流监控流程图;
图4是根据本发明实施例的作业流和作业调度***中的作业的关联监控流程图;
图5是根据本发明实施例的集群的作业流管理装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种集群的作业流管理方法。
如图1所示,根据本发明实施例的作业流管理方法包括:
步骤S101,扫描目标节点范围内每个节点上运行的作业流控制进程的进程号,确定每个节点上所运行的作业流控制进程;
步骤S103,基于每个节点上运行的作业流控制进程的进程信息,确定该作业流控制进程所对应的作业流控制器的端口号;
步骤S105,根据作业流控制器的端口号,确定每个节点上配置的作业流控制器。
下面以ecflow来对上述技术方案进行详细阐述,在一个具体的实施例中,本发明将集群中的节点分为三类:管理节点、web监控节点和其他节点。其中,管理节点可运行server探测、作业流状态获取和监控等程序;web监控节点则用于提供对作业流的监控和管理功能的页面访问入口,即提供一种可视化界面,用户可通过该可视化界面来对集群中各个节点上的server进行管理;此外,集群中除管理节点和web监控节点外的所有节点都属于其他节点。并且,管理节点和web监控节点可以部署在同一节点,也可分开部署。另外,集群中的所有节点都可运行ecflow server,同时也可作为作业运行节点(即上述其他节点)。
由于多个server可以分布在集群的不同节点上,也可以分布在同一节点上,那么为了快速并定位集群中的ecflow server的位置和状态,在一个实施例中,根据本发明实施例的作业流管理方法包括ecflow server的探测流程,具体参照图2可知,用户为了确定集群中哪些节点上分布有哪些的ecflow server,用户可以输入一个指定节点范围(即目标节点范围)进行ecflow server的集群探测,从图2可以看出,在***接收并获取到用户输入的指定节点范围后,就会通过pssh等并行命令来并行扫描该指定节点范围内每个节点上ecflow server的端口号和进程号,具体的,***会并行扫描每个节点上运行的作业流控制进程(即ecflow server进程)的进程号,从而可以确定每个节点上运行有哪些ecflow server进程;
并且,***还可基于每个节点上运行的ecflow server进程的进程信息,来确定该ecflow server进程所对应的作业流控制器(即ecflow server)的端口号,其中,为了实现不同ecflow server的区分,***预先为ecflow server分配了唯一的端口号;
然后,***就可根据ecflow server端口号,来确定每个节点上配置了哪些作业流控制器。
值得注意的是,在本实施例中为了加快ecflow server的扫描速度采用了并行扫描的方式,但是随着对集群内ecflow server的探测速度要求不同,也可以采用串行或串行与并行相结合的方式来实现ecflow server的搜索。
此外,从图2还可以看出,根据本发明实施例的作业流管理方法还包括获取ecflow server的所属用户(即发起该ecflow server进程的用户),具体的,***可基于每个节点上运行的ecflow server进程的进程信息,来确定发起该ecflow server进程的用户信息。这样,***在确定了各个节点上配置的ecflowserver的所属用户后,就可根据预先配置的用户优先级信息,来控制每个节点上的ecflow server所运行的作业流对用户的可见性,例如,对于级别较低的普遍用户来说,其只可以看见其发起的ecflow server进程下所运行的作业流的相关信息;而对于级别较高的管理员用户来说,***就可控制多个节点上的多个ecflow server所运行的作业流对管理员用户可见,或者一个节点上多个ecflowserver所运行的作业流对管理员用户可见,其中,无需关注多个ecflow server的进程是否是该管理员用户发起的,从而实现不同级别用户对不同ecflowserver的分级管理。
在本实施例中,***默认仅扫描上述管理节点上配置的ecflow server的运行情况,而在实际应用中,本发明对于用户指定的目标节点范围内所包含的节点类型并不作具体限定,其可以根据实际需要做出灵活调整。
另外,为了进一步明确集群下ecflow server的分布情况,根据本发明实施例的作业流管理方法还可包括根据每个节点的IP地址信息和每个节点上配置的ecflow server的端口号,来确定目标节点范围内每个节点上的ecflow server的分布信息。也就是说,由于集群下不同的节点以IP地址区分,而ecflow server则是以端口号区分,那么在集群下多个节点的范围内,就可以以IP地址和ecflow server的端口号的结合来自动探测集群下目标节点范围内任意节点上分布有哪些ecflow server,以及任意ecflow server又是分布在哪个节点上。
进一步的,在确定了ecflow server在集群内的分布情况后,就可以查看ecflow server的状态信息。
通过上述描述可以看出,借助于本发明的上述技术方案可以快速发现并定位集群中正在运行的ecflow server的所在位置以及定位的ecflow server的状态信息。
当然,虽然在上述实施例中描述的是对集群内一定节点范围的ecflowserver搜索,但是本领域的技术人员应当理解,即便没有确定一个目标节点范围,本发明的技术方案仍然可以实现对整个集群内所有节点的ecflow server的搜索定位和状态查看。
在另一个实施例中,本发明为了实现对多个ecflow server的集中管理,根据本发明实施例的作业流管理方法还可包括:通过调用预先封装的作业流控制命令,对多个作业流控制器进行管理。具体的:
一方面,本发明通过采用B/S(浏览器/服务器)模式来实现对多个ecflowserver的同时管理,另一方面,本发明将作业流控制命令(这里为ecflow_client命令)进行了封装,从而避免了对不同ecflow server的单独管理。
其中,在一个实施例中,在对任意一个ecflow server进行管理时,图3示出了多ecflow server下的作业流监控流程图,从图3可以看出,***首先会通过ecflow_client从指定的ecflow server获取所有的应用(即所有作业流,其中,由于一个ecflow server可以对应一个或多个作业流,因此,此处的所有作业流可以是一个,也可以是多个),即***确定指定的ecflow server在所在的节点上所对应的多个作业流;
然后,***通过ecflow_client获取多个作业流中每个作业流的作业流程信息和作业状态信息,具体的,***可以通过ecflow_client获取所有的应用中指定应用的作业流程信息和作业状态信息,其中,作业流程信息即为作业流中各个作业的运行顺序和依赖关系等信息,而作业状态信息则是一个作业流的作业执行情况;
那么在获取了每个作业流的作业流程信息和作业状态信息后,就可对每个作业流的作业流程信息和作业状态信息进行解析,并将解析后的信息返回至图形化的web界面,其中,在进行数据返回时,***可以将作业流中处于不同状态的作业以不同的颜色表示,从而提供对作业流的监控功能;而基于返回的数据,***还可以对作业流中的作业提供运行、终止、挂起、释放、重新运行、查看输出等管理功能。
其中,由于对多个ecflow server的作业流的监控流程相同,因此,仅以图3示出了对一个ecflow server下的作业流的监控流程。
通过上述描述还可以看出,借助于本发明的上述技术方案,本发明实现了对多个ecflow server的集中管理,即无需关闭与ecflow server的连接即可实现对另一个ecflow server的连接,从而实现同时对多个ecflow server下的作业流监控和管理,方便在大规模集群中管理和监控ecflow状态,使得管理员可以快速掌握集群整体情况;并且,本发明提供了图形化的web界面,方便了对ecflow应用作业流状态的监控和管理;并且,通过实现web版本的ecflow应用作业流的监控和管理功能,用户无需借助vnc等工具就可查看和管理作业流状态。
此外,为了快速定位作业任务在集群中的运行位置和运行情况,在一个实施例中,根据本发明实施例的作业流管理方法还可包括:对每个节点上配置的ecflow server所对应的作业流的作业状态进行跟踪;在作业流的作业状态改变的情况下,对作业调度***中对应该作业状态改变的任务作业的状态信息进行更新。具体的,从图4所示的作业流和作业调度***中的作业的关联监控流程图可以看出:
***会跟踪每个节点上配置的ecflow server下运行的作业流的作业状态来查看作业流的作业状态是否改变(具体的可以理解为,作业流中存在三个按照先后顺序执行的作业A、B、C,那么初始状态三个作业均处于排队状态,当开始执行作业A时,则作业A的作业状态则由排队状态更新为运行状态,而作业B和C的作业状态不变,此时作业A的状态改变的情况就可以理解为作业流的作业状态改变的情况,即作业流中存在作业的作业状态改变的情况),还需要判断该作业流中作业状态的当前作业是否存在于作业调度***(例如PBS)中,即图4中的是否对应作业ID的判断步骤。
而为了实现对作业流中作业状态的当前作业是否存在于作业调度***(例如PBS)中的判断,在一个实施例中,根据本发明实施例的作业流管理***则进一步包括:预先关联作业步骤,即根据该作业流中的作业的属性信息(例如作业名、提交该作业的用户、作业的关键字等信息)将作业流中的作业与作业调度***中实际运行的任务作业的作业号相关联,从而生成作业关联信息,在一个具体的例子中可以理解为将作业流中的作业的关键字与PBS中该作业的作业号(即作业ID)相关联,二者为同一个作业,但是由于在ecflow server中作业的属性信息和状态信息对用户是不可见的,而只有ecflow server中的作业提交到PBS中,才可以实现该作业对用户的信息可见,所以本发明设置的了上述预先关联作业步骤。
那么有了上述预先关联作业步骤,即生成了作业关联信息后,根据本发明实施例的作业流管理方法就可执行上述“是否对应作业ID”的判断步骤,***可以根据作业关联信息在PBS中查找是否具有对应该作业流中作业状态改变的作业的任务作业,即根据作业流中的作业的关键字在PBS中查找对应该关键字的作业ID;
如果在PBS中查询到该作业ID,则表示作业流中的当前作业(作业状态改变的作业)已提交到PBS中,***就可对PBS中对应该当前作业的任务作业的状态信息进行更新(例如这里的当前作业为前文的作业A,此时就可以将PBS中的作业A的状态由排队更新为运行);
而如果在PBS中没有查找到该作业ID,则表示作业流中的该作业状态改变的作业未提交到PBS中(例如作业A之前只是执行一条语句,导致作业A未提交到PBS中),那么***就可以将该作业提交到PBS中,并执行上述预先关联作业步骤,使得在作业关联信息中存在作业流中该作业的关键字与PBS中该作业的作业号的对应关系;
然后,***就可以在PBS中查询到该作业ID,从而更新PBS中对应该作业ID的任务作业的状态信息;
最后,在对PBS中的状态改变的任务作业的状态信息更新后,就可从PBS中查看该任务作业的属性信息和状态信息,例如可以快速定位该任务作业在集群中的运行位置(位于哪个节点)以及运行情况,并获取该任务作业的具体数据,从而实现了作业流中的作业与作业调度***中的作业的关联显示和监控。
值得注意的是,虽然在上述描述中是借助于ecflow作业流控制软件来实现本发明的上述技术方案的,但是本发明的上述技术方案同样可以根据实际需要应用到其他类型的作业流控制软件(例如SMS),本发明对此并不做具体限定。
根据本发明的实施例,还提供了一种集群的作业流管理装置。
如图5所示,根据本发明实施例的作业流管理装置包括:
扫描模块51,用于扫描目标节点范围内每个节点上运行的作业流控制进程的进程号,确定每个节点上所运行的作业流控制进程;
第一确定模块52,用于基于每个节点上运行的作业流控制进程的进程信息,确定该作业流控制进程所对应的作业流控制器的端口号;
第二确定模块53,用于根据作业流控制器的端口号,确定每个节点上配置的作业流控制器。
在一个实施例中,根据本发明实施例的作业流管理装置进一步包括:
第三确定模块(未示出),用于基于每个节点上运行的作业流控制进程的进程信息,确定发起作业流控制进程的用户信息。
进一步的,在一个实施例中,根据本发明实施例的作业流管理装置进一步包括:
控制模块(未示出),用于根据预先配置的用户优先级信息,控制每个节点上运行的作业流对用户的可见性。
此外,在一个实施例中,根据本发明实施例的作业流管理装置进一步包括:
第四确定模块(未示出),用于根据每个节点的IP地址信息和每个节点上配置的作业流控制器的端口号,确定目标节点范围内每个节点上的作业流控制器的分布信息。
此外,在一个实施例中,根据本发明实施例的作业流管理装置进一步包括:
管理模块(未示出),用于通过调用预先封装的作业流控制命令,对多个作业流控制器进行管理。
其中,在一个实施例中,所述管理模块(未示出)包括:
确定子模块(未示出),用于确定该作业流控制器在所在的节点上所对应的多个作业流;
获取模块(未示出),用于获取多个作业流中每个作业流的作业流程信息和作业状态信息;
管理子模块(未示出),用于根据每个作业流的作业流程信息和作业状态信息对该作业流控制器所对应的每个作业流进行管理。
此外,在一个实施例中,根据本发明实施例的作业流管理装置进一步包括:
跟踪模块(未示出),用于对每个节点上配置的作业流控制器所对应的作业流的作业状态进行跟踪;
更新模块(未示出),用于在作业流的作业状态改变的情况下,对作业调度***中对应该作业状态改变的任务作业的状态信息进行更新。
此外,在一个实施例中,根据本发明实施例的作业流管理装置进一步包括:
关联模块(未示出),用于根据作业流中的作业的属性信息将作业流中的作业与作业调度***中的任务作业的作业号相关联,生成作业关联信息。
此外,在一个实施例中,根据本发明实施例的作业流管理装置进一步包括:
查找模块(未示出),用于在对作业调度***中对应该作业状态改变的任务作业的状态信息进行更新之前,根据作业关联信息在作业调度***中查找是否具有对应该作业流中作业状态改变的作业的任务作业;
调用模块(未示出),用于在未查找到对应该作业流的作业状态改变的作业的任务作业的情况下,调用所述关联模块(未示出)。
综上所述,本发明基于工作流构建的高性能计算用户环境,实现了对集群中正在运行的ecflow server的自动发现;并实现了对多个ecflow server的集中管理,方便在大规模集群中管理和监控ecflow状态,管理员可快速掌握集群整体情况;同时将ecflow的任务和作业调度***中的实际作业相关联,可以快速定位任务在集群中的运行位置和运行情况,获取任务运行的具体数据;而且通过提供图形化的web页面,能够方便对ecflow应用作业流状态进行监控和管理,通过实现web版本的ecflow应用作业流的监控和管理功能,使得用户无需借助vnc等工具查看和管理作业流状态。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种集群的作业流管理方法,其特征在于,包括:
扫描目标节点范围内每个节点上运行的作业流控制进程的进程号,确定所述每个节点上所运行的作业流控制进程;
基于所述每个节点上运行的作业流控制进程的进程信息,确定该作业流控制进程所对应的作业流控制器的端口号;
根据所述作业流控制器的端口号,确定每个节点上配置的作业流控制器。
2.根据权利要求1所述的作业流管理方法,其特征在于,进一步包括:
基于所述每个节点上运行的作业流控制进程的进程信息,确定发起所述作业流控制进程的用户信息。
3.根据权利要求2所述的作业流管理方法,其特征在于,进一步包括:
根据预先配置的用户优先级信息,控制每个节点上运行的作业流对用户的可见性。
4.根据权利要求1所述的作业流管理方法,其特征在于,进一步包括:
根据每个节点的IP地址信息和每个节点上配置的作业流控制器的端口号,确定所述目标节点范围内每个节点上的作业流控制器的分布信息。
5.根据权利要求1所述的作业流管理方法,其特征在于,进一步包括:
通过调用预先封装的作业流控制命令,对多个作业流控制器进行管理。
6.根据权利要求5所述的作业流管理方法,其特征在于,对任意一个作业流控制器进行管理包括:
确定该作业流控制器在所在的节点上所对应的多个作业流;
获取所述多个作业流中每个作业流的作业流程信息和作业状态信息;
根据每个作业流的所述作业流程信息和所述作业状态信息对该作业流控制器所对应的每个作业流进行管理。
7.根据权利要求1所述的作业流管理方法,其特征在于,进一步包括:
对每个节点上配置的作业流控制器所对应的作业流的作业状态进行跟踪;
在所述作业流的作业状态改变的情况下,对作业调度***中对应该作业状态改变的任务作业的状态信息进行更新。
8.根据权利要求7所述的作业流管理方法,其特征在于,进一步包括:
预先关联作业步骤:根据作业流中的作业的属性信息将作业流中的作业与所述作业调度***中的任务作业的作业号相关联,生成作业关联信息。
9.根据权利要求8所述的作业流管理方法,其特征在于,在对作业调度***中对应该作业状态改变的任务作业的状态信息进行更新之前,进一步包括:
根据所述作业关联信息在所述作业调度***中查找是否具有对应该作业流中作业状态改变的作业的任务作业;
在未查找到对应该作业流的作业状态改变的作业的任务作业的情况下,执行所述预先关联作业步骤。
10.一种集群的作业流管理装置,其特征在于,包括:
扫描模块,用于扫描目标节点范围内每个节点上运行的作业流控制进程的进程号,确定所述每个节点上所运行的作业流控制进程;
第一确定模块用于基于所述每个节点上运行的作业流控制进程的进程信息,确定该作业流控制进程所对应的作业流控制器的端口号;
第二确定模块,用于根据所述作业流控制器的端口号,确定每个节点上配置的作业流控制器。
CN201510294141.3A 2015-06-01 2015-06-01 集群的作业流管理方法和装置 Active CN104881327B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510294141.3A CN104881327B (zh) 2015-06-01 2015-06-01 集群的作业流管理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510294141.3A CN104881327B (zh) 2015-06-01 2015-06-01 集群的作业流管理方法和装置

Publications (2)

Publication Number Publication Date
CN104881327A true CN104881327A (zh) 2015-09-02
CN104881327B CN104881327B (zh) 2018-08-24

Family

ID=53948833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510294141.3A Active CN104881327B (zh) 2015-06-01 2015-06-01 集群的作业流管理方法和装置

Country Status (1)

Country Link
CN (1) CN104881327B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170417A (zh) * 2017-12-29 2018-06-15 曙光信息产业(北京)有限公司 一种在mesos集群中集成高性能的作业调度框架的方法和装置
CN111176792A (zh) * 2019-12-31 2020-05-19 华为技术有限公司 一种资源调度方法、装置及相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080183800A1 (en) * 2007-01-26 2008-07-31 Microsoft Corporation Mobile device management proxy system
CN101572710A (zh) * 2009-06-03 2009-11-04 杭州华三通信技术有限公司 一种进程间通信方法和***
CN103713942A (zh) * 2012-09-28 2014-04-09 腾讯科技(深圳)有限公司 在集群中调度运行分布式计算框架的方法和***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080183800A1 (en) * 2007-01-26 2008-07-31 Microsoft Corporation Mobile device management proxy system
CN101572710A (zh) * 2009-06-03 2009-11-04 杭州华三通信技术有限公司 一种进程间通信方法和***
CN103713942A (zh) * 2012-09-28 2014-04-09 腾讯科技(深圳)有限公司 在集群中调度运行分布式计算框架的方法和***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170417A (zh) * 2017-12-29 2018-06-15 曙光信息产业(北京)有限公司 一种在mesos集群中集成高性能的作业调度框架的方法和装置
CN108170417B (zh) * 2017-12-29 2022-02-11 曙光信息产业(北京)有限公司 一种在mesos集群中集成高性能的作业调度框架的方法和装置
CN111176792A (zh) * 2019-12-31 2020-05-19 华为技术有限公司 一种资源调度方法、装置及相关设备
CN111176792B (zh) * 2019-12-31 2023-11-17 华为技术有限公司 一种资源调度方法、装置及相关设备

Also Published As

Publication number Publication date
CN104881327B (zh) 2018-08-24

Similar Documents

Publication Publication Date Title
US10911332B2 (en) Time sensitive networking in a microservice environment
US20170315522A1 (en) Virtual simulator and building management system including the same
US7185046B2 (en) Submitting jobs in a distributed computing environment
US5729472A (en) Monitoring architecture
US8751420B2 (en) Generic reasoner distribution of resources using a plurality of shallow reasoners, and a predictor server
US20190122178A1 (en) Method and apparatus for automating physical equipment replacement and maintenance
US9086942B2 (en) Software discovery by an installer controller
CN110995480B (zh) 区块链网络部署方法、装置、电子设备和介质
KR102036731B1 (ko) 가상화 네트워크 기능 클러스터링 구성 시스템 및 방법
CN112015521A (zh) 推理服务的配置方法、装置、电子设备及存储介质
Oh et al. Network cost-aware geo-distributed data analytics system
JP2019075077A (ja) ワークフローエンジンフレームワーク
JP2018129020A (ja) インダストリアル・インターネットオペレーティングシステムに基づくインダストリアル・プロセス制御管理方法と装置
KR20040101538A (ko) 컴퓨터 시스템 관리 방법 및 시스템
CN105787300B (zh) 一种控制软件使用的方法及***
CN104881327A (zh) 集群的作业流管理方法和装置
CN106354507A (zh) 一种企业级应用管理***及其运行方法
US20200348930A1 (en) Scaled agile framework program board
CN108885686B (zh) 用于视频分析的基于云的主动调试***
CN109800090A (zh) 一种数据集成***及方法
CN105321128A (zh) 中央控制装置、中央控制***及中央控制装置的显示方法
WO2018147529A1 (ko) 온라인 환경에서 구현되는 대시보드 내 차트간 인터랙션 방법
CN114693131A (zh) 配件机器人的故障处理方法及装置
CN112085471A (zh) 任务分发方法、装置、电子设备及存储介质
KR20100070901A (ko) 가상화 플랫폼을 이용한 가상화 관리 장치 및 그 제어방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220726

Address after: 100089 building 36, courtyard 8, Dongbeiwang West Road, Haidian District, Beijing

Patentee after: Dawning Information Industry (Beijing) Co.,Ltd.

Patentee after: DAWNING INFORMATION INDUSTRY Co.,Ltd.

Address before: 100193 No. 36 Building, No. 8 Hospital, Wangxi Road, Haidian District, Beijing

Patentee before: Dawning Information Industry (Beijing) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240430

Address after: Room 168, 1st Floor, Building 10, No. 1 Courtyard, Longxing Jiayuan, southeast corner of the intersection of Longhu Inner Ring Road and Longzhiyuan East Ninth Street, Zhengdong New District, Zhengzhou City, Henan Province, 450018

Patentee after: Shuguang Information Industry (Henan) Co.,Ltd.

Country or region after: China

Address before: 100089 building 36, courtyard 8, Dongbeiwang West Road, Haidian District, Beijing

Patentee before: Dawning Information Industry (Beijing) Co.,Ltd.

Country or region before: China

Patentee before: DAWNING INFORMATION INDUSTRY Co.,Ltd.