CN114781648A

CN114781648A - 面向机器学习任务的自动化编排、构建、执行方法及***

Info

Publication number: CN114781648A
Application number: CN202210392038.2A
Authority: CN
Inventors: 张典; 马超; 石小川
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-07-22

Abstract

本发明公开了一种面向机器学习任务的自动化编排、构建、执行方法及***，本发明构建了基于机器学习任务的自动化编排***，基于用户输入确定任务参数，生成机器学习任务标准化编排文件。设计了基于任务编排文件的任务自动化构建***，解析出任务的数据集大小、算法模型、评价指标，选择合适的任务模板，结合任务代码，构建可执行的机器学习任务。本发明根据可执行的机器学习任务参数，将任务调度到服务器集群进行处理，同时同步监听任务处理过程，直到任务最终执行成功或失败，收集执行结果。本发明解决了海量机器学习任务难以管理的问题，提高了机器学习任务执行效率，提高了结果数据准确性，降低了人为因素干扰，降低了人力成本。

Description

面向机器学习任务的自动化编排、构建、执行方法及***

技术领域

本发明属于信息技术领域，涉及一种面向机器学习任务的自动化编排、构建、执行方法及***，具体涉及一种通过构造自动化***，解决机器学习任务的自动化编排、构建、执行问题，提高海量机器学习任务执行效率，降低人工成本。

背景技术

一个完整的机器学习任务大致包括机器任务编排、构建、调度执行以及获取结果多个步骤。通常情况下，开发者需要逐一手动执行每个步骤来完成一个机器学习任务。然而随着互联网发展，数据量呈***式增长，开发者很难高效、准确、完整的执行大量的机器学习任务，从而带来工作量巨大，任务执行效率低下，结果数据不准确等问题。

目前还没有专业的基于机器学习任务的自动化编排、构建、执行***。当前，机器学习任务基本都是由开发者创建任务，然后提交到服务器执行，最后回收执行结果。目前，有的***支持服务器集群的管理，有的***支持机器学习任务的管理，但是没有任何***支持机器学习任务整个完整生命周期的管理。

发明内容

本发明目的在于提出一种面向机器学习任务的自动化编排、构建、执行方法及***，以解决海量机器学习任务难以管理的问题，构建流水线化、并行执行***，提高机器学习任务执行效率，提高结果数据准确性，降低人为因素干扰，降低人力成本。

本发明的方法所采用的技术方案是：一种面向机器学习任务的自动化编排、构建、执行方法，所述编排方法包括以下步骤：

步骤1：创建机器学习任务，包括任务名称和任务类型；所述任务类型包括分类、聚类或预测；

步骤2：根据任务类型，提供建议的数据集以及评价指标；

步骤3：根据选中的数据集以及评价指标提供建议的CPU数量、GPU数量，以及内存大小；

步骤4：生成可解析的标准化任务编排文件；

步骤5：检查任务编排文件合理性；

若合理，则执行下述步骤6；

若不合理，则回转执行上述步骤2；

步骤6：将机器学习任务状态设置为待处理。

本发明还提供了一种面向机器学习任务的自动化编排、构建、执行方法，所述构建方法包括以下步骤：

步骤7：调度器获取状态为待处理的机器学习任务，同时将其状态修改为初始化中；

步骤8：读取任务的标准化任务编排文件，解析文件参数；

步骤9：判断是否正常解析；

若是，则执行下述步骤10；

若否，则将任务状态设置为异常，并回转执行步骤7；

步骤10：读取任务需要的CPU数量、GPU数量、内存数量，依据最佳适配原则以及负载均衡原则，选择合适的服务器作为执行节点；

步骤11：判断是否存在可用节点；

若是，则执行下述步骤12；

若否，则将任务状态设置为待处理，并回转执行步骤7；

步骤12：锁定执行节点的计算资源及存储资源，为任务创建单独的目录；

步骤13：使用远程文件拷贝命令将数据集发送到执行节点，并且解压到指定目录下面；

步骤14：使用远程文件拷贝命令将程序代码发送到执行节点，并且解压到指定目录下面，同时确定执行节点上有该程序代码的执行环境；

步骤15：检查执行环境是否具备；

若是，则执行下述步骤16；

若否，则将任务状态设置为待处理，并回转执行步骤7；

步骤16：初始化执行节点上的运行环境；

步骤17：将任务状态修改为已就绪。

本发明还提供了一种面向机器学习任务的自动化编排、构建、执行方法，所述执行方法包括以下步骤：

步骤18：将机器学习任务状态修改为执行中；

步骤19：远程启动执行节点上的机器学习任务；

步骤20：同步实时监听任务处理过程中的输出的INFO级别以上的日志信息；

步骤21：根据日志模板解析日志信息；

步骤22：判断解析是否成功；

若是，则执行下述步骤23；

若否，则回转执行步骤20；

步骤24：获取任务状态的结构化数据；

步骤25：根据结构化数据更新任务执行进度或状态；

步骤26：判断任务是否执行结束；

若是，则执行下述步骤27；

若否，则回转执行步骤20；

步骤27：收集执行结果，更新任务状态为成功或失败；

步骤28：删除执行节点上的数据集、代码；

步骤29：释放执行节点的计算资源和存储资源；

步骤30：释放执行节点上的运行环境。

本发明的***所采用的技术方案是：一种面向机器学习任务的自动化编排、构建、执行***，所述编排***包括以下模块：

模块1，用于创建机器学习任务，包括任务名称和任务类型；所述任务类型包括分类、聚类或预测；

模块2，用于根据任务类型，提供建议的数据集以及评价指标；

模块3，用于根据选中的数据集以及评价指标提供建议的CPU数量、GPU数量，以及内存大小；

模块4，用于生成可解析的标准化任务编排文件；

模块5，用于检查任务编排文件合理性；

若合理，则执行下述模块6；

若不合理，则回转执行上述模块2；

其中，任务编排文件合理性的判定条件包括：数据集大小与内存大小满足预设要求；数据集类型与使用CPU、GPU情况，数据集类型包括图片数据集、文本数据集、视频数据集，其中文本数据集只允许使用CPU；图片数据集、视频数据集能同时使用CPU、GPU。

模块6，用于将机器学习任务状态设置为待处理。

本发明还提供了一种面向机器学习任务的自动化编排、构建、执行***，，所述构建***包括以下模块：

模块7，用于调度器获取状态为待处理的机器学习任务，同时将其状态修改为初始化中；

模块8，用于读取任务的标准化任务编排文件，解析文件参数；

模块9，用于判断是否正常解析；

若是，则执行下述模块10；

若否，则将任务状态设置为异常，并回转执行模块7；

模块10，用于读取任务需要的CPU数量、GPU数量、内存数量，依据最佳适配原则以及负载均衡原则，选择合适的服务器作为执行节点；

模块11，用于判断是否存在可用节点；

若是，则执行下述模块12；

若否，则将任务状态设置为待处理，并回转执行模块7；

模块12，用于锁定执行节点的计算资源及存储资源，为任务创建单独的目录；

模块13，用于使用远程文件拷贝命令将数据集发送到执行节点，并且解压到指定目录下面；

模块14，用于使用远程文件拷贝命令将程序代码发送到执行节点，并且解压到指定目录下面，同时确定执行节点上有该程序代码的执行环境；

模块15，用于检查执行环境是否具备；

若是，则执行下述模块16；

若否，则将任务状态设置为待处理，并回转执行模块7；

模块16，用于初始化执行节点上的运行环境；

模块17，用于将任务状态修改为已就绪。

本发明还提供了一种面向机器学习任务的自动化编排、构建、执行***，所述执行***包括以下模块：

模块18，用于将机器学习任务状态修改为执行中；

模块19，用于远程启动执行节点上的机器学习任务；

模块20，用于同步实时监听任务处理过程中的输出的INFO级别以上的日志信息；

模块21，用于根据日志模板解析日志信息；

模块22，用于判断解析是否成功；

若是，则执行下述模块23；

若否，则回转执行模块20；

模块23，用于获取任务状态的结构化数据；

模块24，用于根据结构化数据更新任务执行进度或状态；

模块25，用于判断任务是否执行结束；

若是，则执行下述模块26；

若否，则回转执行模块20；

模块26，用于收集执行结果，更新任务状态为成功或失败；

模块27，用于删除执行节点上的数据集、代码；

模块28，用于释放执行节点的计算资源和存储资源；

模块29，用于释放执行节点上的运行环境。

本发明的有益效果主要体现在以下几个方面：

(1)提出了标准化编排文件，依据该编排文件可以正确的解析构建可执行的机器学习任务，并且该解析过程具备幂等性的，保证任务定义的标准化及准确性。

(2)根据标准化编排文件，自动构建环境，其包含执行机器学习任务所需要的一切资源，如编程环境、数据集、代码、计算资源、存储资源等，并且该构建过程支持重复构建，多次构建出来的执行环境是完全相同的，保证任务构建的准确性。

(3)全自动开启任务，监听任务状态，获取任务结果，并且全自动释放和任务相关的所有资源。增强了任务执行效率，提高相关的资源利用率，保证了任务结果数据的准确性。

附图说明

图1为本发明实施例的自动化编排方法流程图；

图2为本发明实施例的自动化构建方法流程图；

图3为本发明实施例的自动化执行方法流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种面向机器学习任务的自动化编排、构建、执行方法，编排方法包括以下步骤：

(1)进入管理***，打开创建机器学习任务编排界面；

(2)输入机器学习任务名称taskName、选择任务类型taskType；

(3)***根据任务类型taskType，提供建议的数据集Dataset＝{d1,d2…dn}，以及相应的评价指标Measurement＝{m1,m2…mn}；

(4)***根据选择的数据集提供建议的CPU数量nCpu，需要的GPU数量nGpu，需要的内存大小nMem；

(5)依据前述所有配置信息，生成标准化任务编排文件layout；

(6)将任务状态设置为待处理taskStatus＝waiting；

(7)保存任务数据到数据库database。

请见图2，本发明提供的一种面向机器学习任务的自动化编排、构建、执行方法，构建方法包括以下步骤：

(1)调度器获任务状态taskStatus＝waiting的任务task，将其任务状态修改为初始化中taskStatus＝initializing；

(2)读取任务标准化编排文件layout，解析出任务配置参数params＝{taskName,taskType,dataset,measurement,nCpu,nGpu,nMem}；

(3)依据最佳适配原则matchRule以及负载均衡ha原则，选择最合适的服务器node作为执行节点；

(4)锁定执行节点上的计算资源，包括nCpu个CPU、nGpu个GPU、nMen内存的使用权限，创建任务独享目录taskDir；

(5)使用远程文件拷贝命令rsync将数据集文件datafile拷贝到执行节点taskDir目录下；

(6)使用远程文件拷贝命令rsync将程序代码code拷贝到执行节点taskDir目录下；

(7)测试确定执行节点上程序代码code所需要的执行环境env是否正常；

(8)将任务状态修改为已就绪taskStatus＝ready。

请见图3，本发明提供的一种面向机器学习任务的自动化编排、构建、执行方法，执行方法包括以下步骤：

(1)将机器学习任务状态修改为执行中taskStatus＝running；

(2)远程启动执行节点node上的机器学习任务task；

(3)实时监听任务处理过程中输出的INFO级别以上的日志信息logs＝{log1,log2,log3…logn}；

(4)根据日志模板解析日志log，获取任务状态的结构化数据data＝{status,startTime,executionTime}等数据；

(5)获取任务当前状态status，如果任务状态是成功或失败status in{success,fail}，执行6，否则循环执行3到5；

(6)远程删除执行节点上的数据集datafile；

(7)远程删除执行节点上的代码code；

(8)释放执行节点的计算资源和存储资源，包括nCpu个CPU、nGpu个GPU、nMen内存的使用权限；

(9)删除任务独享目录taskDir。

本发明构建了基于机器学习任务的自动化编排方法，基于用户输入确定任务参数，生成机器学习任务标准化编排文件。

本发明设计了基于任务编排文件的任务自动化构建方法，解析出任务的数据集大小、算法模型、评价指标，选择合适的任务模板，结合任务代码，构建可执行的机器学习任务。

本发明根据可执行的机器学习任务参数，将任务调度到服务器集群进行处理，同时同步监听任务处理过程，直到任务最终执行成功或失败，收集执行结果。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种面向机器学习任务的自动化编排、构建、执行方法，其特征在于，所述编排方法包括以下步骤：

步骤2：根据任务类型，提供建议的数据集以及评价指标；

步骤4：生成可解析的标准化任务编排文件；

步骤5：检查任务编排文件合理性；

若合理，则执行下述步骤6；

若不合理，则回转执行上述步骤2；

步骤6：将机器学习任务状态设置为待处理。

2.根据权利要求1所述的面向机器学习任务的自动化编排、构建、执行方法，其特征在于：步骤5中，任务编排文件合理性的判定条件包括：数据集大小与内存大小满足预设要求；数据集类型与使用CPU、GPU情况，数据集类型包括图片数据集、文本数据集、视频数据集，其中文本数据集只允许使用CPU；图片数据集、视频数据集能同时使用CPU、GPU。

3.根据权利要求1所述的面向机器学习任务的自动化编排、构建、执行方法，其特征在于，所述构建方法包括以下步骤：

步骤7：获取状态为待处理的机器学习任务，同时将其状态修改为初始化中；

步骤8：读取任务的标准化任务编排文件，解析文件参数；

步骤9：判断是否正常解析；

若是，则执行下述步骤10；

若否，则将任务状态设置为异常，并回转执行步骤7；

步骤11：判断是否存在可用节点；

若是，则执行下述步骤12；

若否，则将任务状态设置为待处理，并回转执行步骤7；

步骤13：将数据集发送到执行节点，并且解压到指定目录下面；

步骤15：检查执行环境是否具备；

若是，则执行下述步骤16；

若否，则将任务状态设置为待处理，并回转执行步骤7；

步骤16：初始化执行节点上的运行环境；

步骤17：将任务状态修改为已就绪。

4.根据权利要求3所述的面向机器学习任务的自动化编排、构建、执行方法，其特征在于，所述执行方法包括以下步骤：

步骤18：将机器学习任务状态修改为执行中；

步骤19：启动执行节点上的机器学习任务；

步骤21：根据日志模板解析日志信息；

步骤22：判断解析是否成功；

若是，则执行下述步骤23；

若否，则回转执行步骤20；

步骤23：获取任务状态的结构化数据；

步骤24：根据结构化数据更新任务执行进度或状态；

步骤25：判断任务是否执行结束；

若是，则执行下述步骤26；

若否，则回转执行步骤20；

步骤26：收集执行结果，更新任务状态为成功或失败；

步骤27：删除执行节点上的数据集、代码；

步骤28：释放执行节点的计算资源和存储资源；

步骤29：释放执行节点上的运行环境。

5.一种面向机器学习任务的自动化编排、构建、执行***，其特征在于，所述编排***包括以下模块：

模块4，用于生成可解析的标准化任务编排文件；

模块5，用于检查任务编排文件合理性；

若合理，则执行下述模块6；

若不合理，则回转执行上述模块2；

模块6，用于将机器学习任务状态设置为待处理。

6.根据权利要求5所述的面向机器学习任务的自动化编排、构建、执行***，其特征在于，所述构建***包括以下模块：

模块7，用于获取状态为待处理的机器学习任务，同时将其状态修改为初始化中；

模块9，用于判断是否正常解析；

若是，则执行下述模块10；

若否，则将任务状态设置为异常，并回转执行模块7；

模块11，用于判断是否存在可用节点；

若是，则执行下述模块12；

若否，则将任务状态设置为待处理，并回转执行模块7；

模块13，用于将数据集发送到执行节点，并且解压到指定目录下面；

模块15，用于检查执行环境是否具备；

若是，则执行下述模块16；

若否，则将任务状态设置为待处理，并回转执行模块7；

模块16，用于初始化执行节点上的运行环境；

模块17，用于将任务状态修改为已就绪。

7.根据权利要求6所述的面向机器学习任务的自动化编排、构建、执行***，其特征在于，所述执行***包括以下模块：

模块18，用于将机器学习任务状态修改为执行中；

模块19，用于启动执行节点上的机器学习任务；

模块21，用于根据日志模板解析日志信息；

模块22，用于判断解析是否成功；

若是，则执行下述模块23；

若否，则回转执行模块20；

模块23，用于获取任务状态的结构化数据；

模块24，用于根据结构化数据更新任务执行进度或状态；

模块25，用于判断任务是否执行结束；

若是，则执行下述模块26；

若否，则回转执行模块20；

模块26，用于收集执行结果，更新任务状态为成功或失败；

模块27，用于删除执行节点上的数据集、代码；

模块28，用于释放执行节点的计算资源和存储资源；

模块29，用于释放执行节点上的运行环境。