CN118034938A - 一种作业调度方法、智能计算云操作***以及计算平台 - Google Patents

一种作业调度方法、智能计算云操作***以及计算平台 Download PDF

Info

Publication number
CN118034938A
CN118034938A CN202410431592.6A CN202410431592A CN118034938A CN 118034938 A CN118034938 A CN 118034938A CN 202410431592 A CN202410431592 A CN 202410431592A CN 118034938 A CN118034938 A CN 118034938A
Authority
CN
China
Prior art keywords
job
scheduling
target
target job
intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410431592.6A
Other languages
English (en)
Other versions
CN118034938B (zh
Inventor
邓练兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Qinzhi Technology Research Institute Co ltd
Original Assignee
Guangdong Qinzhi Technology Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Qinzhi Technology Research Institute Co ltd filed Critical Guangdong Qinzhi Technology Research Institute Co ltd
Priority to CN202410431592.6A priority Critical patent/CN118034938B/zh
Publication of CN118034938A publication Critical patent/CN118034938A/zh
Application granted granted Critical
Publication of CN118034938B publication Critical patent/CN118034938B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请属于数据处理领域,尤其涉及一种作业调度方法、智能计算云操作***以及计算平台,该方法包括:接收用户针对目标作业提交的作业请求;通过动态队列模型,分析作业请求,以将目标作业提交到对应的目标作业调度表中;***中设置有多个作业调度表;多个作业调度表中分别设置有适合自身表内各种业务的特定调度机制;通过特定调度机制对应的智能调度模型,根据目标作业的业务特性将目标作业分配到对应的可用资源节点中;在可用资源节点中根据作业内容描述中的作业内容以及作业参数执行相应的作业任务,以完成目标作业的作业请求。该方法提高智能计算云操作***的性能和资源利用率,满足不同类型业务的执行需求,提高***性能。

Description

一种作业调度方法、智能计算云操作***以及计算平台
技术领域
本申请属于数据处理领域,尤其涉及一种作业调度方法、智能计算云操作***以及计算平台。
背景技术
为了推动各个产业和领域智能化应用的普及,迫切需要建立一种智能化计算平台,助力智能超级计算中心的建设,并为科研、产业和城市服务提供人工智能平台的基础构建,进一步实现人才聚集、产业升级和发展。应用容器化是一项技术,将应用程序及其所有依赖关系打包到一个独立、可移植的容器中。容器化技术允许将应用程序、库、配置文件和其他依赖项捆绑在一起,以确保在各种环境中的一致性运行,提高部署效率、可移植性和灵活性,使开发人员更轻松地管理和部署应用程序。
相关技术中,目前是利用虚拟化技术将实际物理资源抽象为逻辑资源,形成资源池。随后,通过调度算法动态地分配这些资源给不同的用户或应用程序。然而,传统作业调度方法难以满足不同类型业务的特殊执行要求,进而影响了***整体的性能表现。因此,亟需设计一个作业调度方案,用以解决上述至少一个技术问题。
发明内容
本申请提供了一种作业调度方法、智能计算云操作***以及计算平台,用以有效地提高智能计算云操作***的性能和资源利用率,同时满足不同类型业务的执行需求,提高***的性能、灵活性、扩展性。
第一方面,本申请提供了一种作业调度方法,应用于智能计算云操作***,所述智能计算云操作***用于调度、执行、监控和管理提交到***的作业;所述作业包括各种类型的数据处理任务;所述作业调度方法包括:
接收用户针对目标作业所提交的作业请求;所述作业请求至少包括:目标作业的作业内容描述和/或资源需求信息;
通过动态队列模型,分析所述作业请求,以将所述目标作业提交到对应的目标作业调度表中;其中,所述智能计算云操作***中设置有多个作业调度表;多个作业调度表中分别设置有适合自身表内各种业务的特定调度机制;
通过所述特定调度机制对应的智能调度模型,根据所述目标作业的业务特性将所述目标作业分配到对应的可用资源节点中;其中,所述智能计算云操作***中部署有多个智能调度模型;多个智能调度模型分别与不同作业调度表相对应;多个智能调度模型中设置有适合自身对应的作业调度表内各种业务的特定调度机制;
在可用资源节点中根据所述作业内容描述中的作业内容以及作业参数执行相应的作业任务,以完成所述目标作业的作业请求。
第二方面,本申请实施例提供了一种智能计算云操作***,所述智能计算云操作***用于调度、执行、监控和管理提交到***的作业;所述作业包括各种类型的数据处理任务;所述智能计算云操作***包括:
获取单元,被配置为接收用户针对目标作业所提交的作业请求;所述作业请求至少包括:目标作业的作业内容描述和/或资源需求信息;
分析单元,被配置为通过动态队列模型,分析所述作业请求,以将所述目标作业提交到对应的目标作业调度表中;其中,所述智能计算云操作***中设置有多个作业调度表;多个作业调度表中分别设置有适合自身表内各种业务的特定调度机制;
分配单元,被配置为通过所述特定调度机制对应的智能调度模型,根据所述目标作业的业务特性将所述目标作业分配到对应的可用资源节点中;其中,所述智能计算云操作***中部署有多个智能调度模型;多个智能调度模型分别与不同作业调度表相对应;多个智能调度模型中设置有适合自身对应的作业调度表内各种业务的特定调度机制;
执行单元,被配置为在可用资源节点中根据所述作业内容描述中的的作业内容以及作业参数执行相应的作业任务,以完成所述目标作业的作业请求。
第三方面,本申请实施例提供了一种智能计算平台,所述智能计算平台包括:
至少一个处理器、存储器和输入输出单元;
其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中存储的计算机程序来执行第一方面的作业调度方法。
第四方面,提供了一种计算机可读存储介质,其包括指令,当其在计算机上运行该指令时,使得计算机执行第一方面的作业调度方法。
本申请实施例提供的技术方案,可以应用于智能计算云操作***。智能计算云操作***用于调度、执行、监控和管理提交到***的作业。作业包括各种类型的数据处理任务。该方案中,首先,接收用户提交的作业请求。此处,作业请求至少包括:目标作业的作业内容描述和/或资源需求信息。进而,通过动态队列模型,分析所述作业请求,以将所述目标作业提交到对应的目标作业调度表中。其中,所述智能计算云操作***中设置有多个作业调度表;多个作业调度表中分别设置有适合自身表内各种业务的特定调度机制。接着,通过所述特定调度机制对应的智能调度模型,根据所述目标作业的业务特性将所述目标作业分配到对应的可用资源节点中。最后,在可用资源节点中根据所述作业内容描述中的作业内容以及作业参数执行相应的作业任务,以完成所述目标作业的作业请求。
本申请技术方案,这种作业调度方法不仅能够在***性能和资源利用率方面带来显著提升,还能够满足不同类型业务的执行需求,并具有诸多附加优势,有助于构建高效稳定、灵活可扩展的智能计算云操作***。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请实施例的一种作业调度方法的流程示意图;
图2是本申请实施例的一种智能计算云操作***的结构示意图;
图3是本申请实施例的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
为了推动各个产业和领域智能化应用的普及,迫切需要建立一种智能化计算平台,助力智能超级计算中心的建设,并为科研、产业和城市服务提供人工智能平台的基础构建,进一步实现人才聚集、产业升级和发展。应用容器化是一项技术,将应用程序及其所有依赖关系打包到一个独立、可移植的容器中。容器化技术允许将应用程序、库、配置文件和其他依赖项捆绑在一起,以确保在各种环境中的一致性运行,提高部署效率、可移植性和灵活性,使开发人员更轻松地管理和部署应用程序。
云计算是一种新兴的计算模式,它通过网络提供按需使用的计算资源和服务。云计算的核心思想是将计算任务分布在大量的计算机构成的资源池上,使各种应用能够根据需要获取计算能力、存储空间和各种软件服务。智能计算则是一种模拟人类智能的技术,它通过模拟人的思维方式和学习能力来实现计算机自动完成复杂任务的过程。资源管理技术则是关于如何有效地分配和调度***资源以满足用户需求的技术。
相关技术中,目前是利用虚拟化技术将实际物理资源抽象为逻辑资源,形成资源池。随后,通过调度算法动态地分配这些资源给不同的用户或应用程序。然而,传统作业调度方法难以满足不同类型业务的特殊执行要求,进而影响了***整体的性能表现。因此,亟需设计一个作业调度方案,用以解决上述至少一个技术问题。
本申请实施例提供了一种作业调度方法、智能计算云操作***以及计算平台。
具体而言,作业调度方案中,可以应用于智能计算云操作***。智能计算云操作***用于调度、执行、监控和管理提交到***的作业。作业包括各种类型的数据处理任务。作业调度方案中,首先,接收用户提交的作业请求。此处,作业请求至少包括:目标作业的作业内容描述和/或资源需求信息。进而,通过动态队列模型,分析所述作业请求,以将所述目标作业提交到对应的目标作业调度表中。其中,所述智能计算云操作***中设置有多个作业调度表;多个作业调度表中分别设置有适合自身表内各种业务的特定调度机制。接着,通过所述特定调度机制对应的智能调度模型,根据所述目标作业的业务特性将所述目标作业分配到对应的可用资源节点中。最后,在可用资源节点中根据所述作业内容描述中的作业内容以及作业参数执行相应的作业任务,以完成所述目标作业的作业请求。
作业调度方案中,通过动态队列模型以及适配于不同情况下的作业调度表的特定调度机制,能够多层次、精细化地实现作业调度和资源分配,可以更好地满足用户对于作业执行速度和质量的需求,提高了资源利用效率,减少资源浪费,降低能源消耗,从而提升用户的整体体验。作业调度方案的精细化管理和智能调度策略可以帮助平衡***负载,防止资源过载或过度抢占,从而提高***的稳定性和可靠性。该作业调度方案,还能够根据***负载和作业需求动态调整资源分配,从而支持***的弹性扩展能力。当***负载增加时,可以自动调整资源分配以满足需求,而无需人工干预。此外,通过作业分类、队列管理和调度策略等手段,***管理员可以更轻松地管理***资源,监控作业执行情况,并进行必要的调整和优化,从而提高***的可管理性和维护效率。
综上所述,这种作业调度方法不仅能够在***性能和资源利用率方面带来显著提升,还能够满足不同类型业务的执行需求,并具有诸多附加优势,有助于构建高效稳定、灵活可扩展的智能计算云操作***。
本申请实施例提供的作业调度方案,可以由芯片来执行。其中,此处介绍的芯片可以是通用处理器,包括人工智能处理器、图形处理器(Graphics Processing Unit,GPU)、人工智能处理器卡(Machine Learning Unit,MLU)、中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
进一步可选地,人工智能芯片及加速卡设计可以采用高性能的MLU作为智能平台的基础模块。MLU高性能低功耗人工智能处理器卡采用最新的架构,等效理论峰值速度可达每秒128万亿次定点运算,典型板级功耗仅为80瓦,峰值功耗不超过110瓦。基于MLU能够模块化的搭建高性能人工智能服务器,可灵活应对不同的智能应用负载。
本申请实施例提供的作业调度方案,也可以由电子设备来执行,该电子设备可以是服务器、服务器集群、云服务器。该电子设备也可以是诸如手机、计算机、平板电脑、可穿戴设备、或者专用设备(如带有作业调度***的专用终端设备等)等终端设备。这些电子设备中也可以搭载上述实施例介绍的芯片。或者,这些电子设备也可以安装用于执行作业调度方案的服务程序。
本申请实施例中,智能计算云操作***主要负责先进计算平台的输入数据、计算结果、观测数据、可视化数据等各种相关数据的存储。这些数据可能是来自不同应用的,需要进行统一的管理和存储,以便后续的分析和处理。
图1为本申请实施例提供的一种作业调度方法的示意图,如图1,该方法包括以下步骤:
101,接收用户针对目标作业所提交的作业请求。
本申请实施例中,作业请求至少包括:目标作业的作业内容描述和/或资源需求信息。在这个实施例中,作业是指用户提交给智能计算云操作***以执行的任务或工作单元。作业可以是各种类型的数据处理任务,包括但不限于数据分析、机器学习模型训练、图像处理等。作业请求,则是用户向智能计算云操作***提交的关于执行特定作业的请求信息。实际上,作业请求至少包括以下内容:其一,目标作业的作业内容描述:这部分描述了用户希望***执行的具体任务内容。例如,对于一个数据分析作业,描述可能包括所需分析的数据集、分析方法和目标结果等。其二,资源需求信息:这部分信息说明了执行目标作业所需的资源情况,包括但不限于计算资源(如CPU、内存、存储)、网络带宽等。例如,某个作业可能需要大量的计算资源来运行复杂的机器学习算法,或者需要高速网络连接来处理大量数据。
这里,作业请求的目的是让智能计算云操作***能够根据用户的需求合理地分配资源并执行相应的作业任务。通过提供作业内容描述和资源需求信息,用户可以确保***能够有效地处理其提交的作业,并在执行过程中满足其要求的性能和资源需求。
102,通过动态队列模型,分析所述作业请求,以将所述目标作业提交到对应的目标作业调度表中。
本申请实施例中,所述智能计算云操作***中设置有多个作业调度表。进一步地,多个作业调度表中分别设置有适合自身表内各种业务的特定调度机制。在这个实施例中,智能计算云操作***设置了多个作业调度表,并在每个调度表中设置了适合自身表内各种业务的特定调度机制。这样的设计可以更好地针对不同类型的作业需求进行调度优化,提高***的灵活性和效率。
举例来说,假设智能计算云操作***包含三个不同的作业调度表,分别是数据分析作业调度表、机器学习作业调度表和图像处理作业调度表。
以数据分析作业调度表为例,假设特定调度机制为:采用先进的数据并行处理调度算法,能够有效地处理大规模数据分析任务。基于此,用户提交了一个数据分析作业请求,要求对一个大型数据集进行统计分析。***接收到请求后,将作业分配给数据分析作业调度表。调度表根据作业的特性和资源需求,采用数据并行处理调度算法将任务分解成多个子任务,并通过并行计算的方式高效地完成数据分析任务。
以机器学习作业调度表为例,假设特定调度机制为:采用支持模型训练和参数调优的调度策略,能够有效地管理和调度各种机器学习任务。基于此,用户提交了一个机器学习模型训练的作业请求,要求对一个复杂的深度学习模型进行训练。***将该作业分配给机器学习作业调度表。调度表根据作业的特性,采用支持模型训练和参数调优的调度策略,动态地分配计算资源,并优化训练过程以提高模型的性能和收敛速度。
以图像处理作业调度表为例,假设特定调度机制为:采用并行图像处理算法和GPU加速技术,能够高效地处理大规模图像处理任务。基于此,用户提交了一个图像处理作业请求,要求对一批高清图像进行滤镜处理和图像增强。***将该作业分配给图像处理作业调度表。调度表根据作业的特性,采用并行图像处理算法和GPU加速技术,将图像处理任务分解成多个子任务,并通过并行处理的方式高效地完成图像处理任务。
通过为不同类型的作业设置特定调度机制的作业调度表,智能计算云操作***能够更好地适应各种业务需求,提高***的调度效率和执行性能,从而为用户提供更优质的服务体验。
作为一个可选实施例,假设所述动态队列模型至少包括:接收层、作业分析层、***状态监测层、动态调度层。在这个可选的实施例中,所述动态队列模型包括四个主要层级,分别是接收层、作业分析层、***状态监测层和动态调度层。下面是这些层级的具体介绍:
接收层,该层负责接收用户提交的作业请求,并将请求传递给下一层进行进一步处理。这个层级通常是***的入口,负责与外部用户进行交互,接收用户的请求信息。
作业分析层,分析接收到的作业请求,将目标作业提交到对应的目标作业调度表中。根据接收到的作业请求,对作业进行分析和解析,确定作业的类型、资源需求等信息,并将作业分配到相应的作业调度表中。这个层级负责对用户提交的作业请求进行解析和分类,为后续的调度和执行提供准确的信息。
***状态监测层,监测***当前的状态,包括资源利用情况、负载情况等。实时监测***中各个节点的资源利用情况、作业队列情况以及***负载等信息,并将这些信息反馈给动态调度层。这个层级负责实时监测***状态,以便及时调整作业的分配和资源的调度,保证***运行的高效性和稳定性。
动态调度层,根据***状态和作业特性动态调整作业的分配和资源的调度。根据接收到的作业请求信息和***状态监测层反馈的实时状态信息,采用特定的调度算法和策略对作业进行调度和资源分配。这个层级负责根据***的实际情况动态地调整作业的执行顺序和资源的分配情况,以保证***的性能和资源利用率最优化。
通过以上四个层级的协同工作,动态队列模型能够实现对作业的有效管理和调度,从而提高***的性能、资源利用率和稳定性。
基于上述假设结构,102中,通过动态队列模型,分析所述作业请求,以将所述目标作业提交到对应的目标作业调度表中,可以实现为如下步骤:
201,通过接收层,将待处理的所述作业请求加入到待处理队列中;
202,通过作业分析层,在待处理队列中,对所述目标作业的作业内容描述和/或资源需求信息进行属性分析,以获取所述目标作业所属的目标业务类型;
203,通过***状态监测层,实时监测所述智能计算云操作***,以获得所述实时***资源状况;
204,通过动态调度层,基于所述实时***资源状况以及所述目标业务类型,将待处理队列中所述目标作业分配到对应的目标作业调度表。
通过步骤201至204,***通过作业分析层的属性分析,可以准确地将目标作业分类到对应的目标业务类型中。动态调度层根据实时***资源状况和目标业务类型,可以智能地将作业分配到适合其特性的作业调度表中。这样可以确保***资源被有效地利用,并避免资源浪费或过载。第二,***通过将作业请求加入待处理队列并进行属性分析,可以快速地识别目标作业的特性和需求。实时监测***资源状况,使得***能够及时调整作业的分配,保持***的响应性和高效率。这样可以最大限度地减少作业等待时间,提高作业的处理效率。第三,根据目标业务类型,动态调度层可以将不同类型的作业分配到不同的作业调度表中。这种分流可以确保不同类型的作业在不同的调度表中独立运行,避免了不同类型作业之间的干扰,提高了***整体的稳定性和可靠性。同时,也可以根据业务的优先级调整作业的执行顺序,确保重要作业能够优先得到处理。第四,实时监测***资源状况并根据需求调整作业分配,有助于***保持稳定运行状态。动态调度层根据***负载情况和作业属性进行合理的资源分配,实现负载均衡,避免了***出现过载或资源不足的情况,保证了***的稳定性和可靠性。综上所述,通过动态队列模型对作业请求进行分析和调度,可以实现资源优化分配、响应性和效率提升、业务分流和优先级调整,以及***稳定性和负载均衡等有益效果,从而提高智能计算云操作***的整体性能和用户体验。
本申请实施例中,实时***资源状况是指智能计算云操作***当前的资源状态。在这个实施例中,实时***资源状况至少包括:***资源利用率、实时负载状态、可用资源状态。其中,***资源利用率指的是***当前正在使用的资源占总可用资源的比例。***资源包括人工智能芯片、板卡、CPU、内存、存储等,***资源利用率可以分别针对这些资源进行监测。可以通过***监控工具或者***性能指标来实时监测各项资源的利用率。***资源利用率的监测可以帮助评估***的资源状况,及时发现资源瓶颈或者过载情况。
实时负载状态指的是***当前的负载情况,即***正在处理的作业数量和负载程度。实时负载状态可以包括当前作业队列长度、作业平均等待时间、作业响应时间等信息。可以通过作业队列长度、作业响应时间等指标来实时监测***的负载状态。实时负载状态的监测可以帮助评估***的工作负载,及时调整作业调度策略以保证***的响应性和效率。
可用资源状态指的是***当前可供分配的资源情况,即尚未被分配或使用的资源数量和类型。可用资源状态可以包括CPU核数、可用内存容量、存储空间等信息。可以通过***资源管理工具或者***监控指标来实时监测***可用资源的状态。可用资源状态的监测可以帮助动态调度层根据***当前的资源状况进行作业分配和资源调度,避免资源不足或者过载的情况发生,保证***的稳定性和可靠性。
通过实时监测***资源利用率、实时负载状态和可用资源状态等信息,智能计算云操作***可以及时了解***的运行情况,有效调配资源,保障***的性能和稳定性。
本申请实施例中,所述目标作业调度表中的特定调度机制与所述目标业务类型相匹配。在这个实施例中,目标作业调度表中的特定调度机制与目标业务类型相匹配,这样设计的目的是为了针对不同类型的作业需求提供最优化的调度方案。从作业内容来分,以数据分析作业调度表为例,特定调度机制为:采用先进的数据并行处理调度算法,能够有效地处理大规模数据分析任务。匹配的目标业务类型为:适用于需要对大规模数据进行分析和处理的业务场景,比如数据挖掘、数据清洗、统计分析等。对于这类业务类型,通常需要大量的数据处理和计算资源,数据并行处理调度算法可以充分利用***资源,高效地完成任务,从而提高数据分析的效率和准确性。
以机器学习作业调度表为例,特定调度机制为:采用支持模型训练和参数调优的调度策略,能够有效地管理和调度各种机器学习任务。匹配的目标业务类型为:适用于需要进行模型训练、参数调优和预测分析等机器学习任务。对于这类业务类型,需要灵活的资源调度和管理,以支持不同类型的模型训练和调优。采用支持模型训练和参数调优的调度策略,可以动态地分配资源,优化训练过程,提高模型的性能和准确率。
以图像处理作业调度表为为例,特定调度机制为:采用并行图像处理算法和GPU加速技术,能够高效地处理大规模图像处理任务。匹配的目标业务类型为:适用于需要对大量图像进行处理、编辑和增强的业务场景,比如图像识别、图像分割、图像特征提取等。对于这类业务类型,通常需要高性能的计算资源和专业的图像处理技术。采用并行图像处理算法和GPU加速技术,可以加速图像处理过程,提高处理效率,满足用户对图像处理任务的实时性和质量要求。
通过将特定调度机制与目标业务类型相匹配,目标作业调度表能够更有效地满足不同类型作业的需求,提高***的灵活性和效率,从而为用户提供更优质的服务体验。
进一步可选地,作业调度表中的特定调度机制采用以下至少一种调度机制:最短作业优先、优先级调度、轮转调度、多级队列调度、先来先服务、最佳适应调度。基于此,所述目标作业调度表中的特定调度机制与所述目标业务类型相匹配,至少包括以下之一:
第一,所述目标业务类型为响应时间敏感的业务,对应的所述目标作业调度表中的特定调度机制为最短作业优先。这里,这种调度机制优先处理预估执行时间最短的作业,旨在减少作业的平均等待时间和平均响应时间。对于需要快速响应的业务,如实时数据处理或交互式请求,最短作业优先能有效提升用户体验和业务响应速度。
第二,所述目标业务类型为需要优先处理的重要业务或紧急任务,对应的所述目标作业调度表中的特定调度机制为优先级调度。显然,根据作业的优先级顺序进行调度,优先级高的作业先被调度执行。该调度机制适用于处理具有紧急性或重要性的任务,如关键业务处理和紧急修复,确保这些任务能够优先得到资源和处理。
第三,所述目标业务类型为资源共享业务,对应的所述目标作业调度表中的特定调度机制为轮转调度。为每个作业分配一个时间片,作业轮流执行。当作业的时间片用完后,如果作业未完成,则将其放回队列末尾,等待下一个轮次。该调度机制适用于需要公平资源分配的场景,确保所有作业都能得到处理,避免长作业饿死问题。
第四,所述目标业务类型为多类型组合业务,对应的所述目标作业调度表中的特定调度机制为多级队列调度。将作业分为不同的队列,每个队列有其调度策略。根据作业的类型和需求,将其分配到相应的队列中。此处调度机制的优势是,能够根据作业的不同类型和需求,提供更加精细化和个性化的调度,提升资源利用效率和作业处理效率。
第五,所述目标业务类型为无特殊要求且时序不敏感的业务,对应的所述目标作业调度表中的特定调度机制为先来先服务。从而,按照作业到达的顺序进行调度,先到达的作业先被处理。这样,调度机制实现简单,对于时序不敏感的任务能够保证公平性,但可能会导致较长的平均等待时间。
第六,所述目标业务类型为资源利用率高或***负载较重的业务,对应的所述目标作业调度表中的特定调度机制为最佳适应性调度。从而,选择最能满足作业需求的资源进行调度,以最小化资源浪费和提高***的整体利用率。这样的调度机制,特别适合于资源紧张或需要高效利用资源的环境,通过合理分配资源,优化***的负载和性能。
通过将特定调度机制与相应的目标业务类型相匹配,可以更有效地满足不同业务场景的需求,提高***的响应速度、资源利用率和整体处理效率,从而为用户提供更加优质和高效的服务。
103,通过所述特定调度机制对应的智能调度模型,根据所述目标业务的业务特性将所述目标作业分配到对应的可用资源节点中。
在本申请实施例中,可用资源节点是由至少一种智能平台资源组成的。具体地,智能平台资源包括不限于以下:
计算资源,指用于执行各种计算任务的硬件资源,包括人工智能芯片、人工智能板卡、中央处理单元(CPU)、图形处理单元(GPU)、可编程逻辑门阵列(FPGA)等。也可以是虚拟化资源,例如虚拟机、容器等。这些计算资源用于执行算法、模型训练、推理等计算密集型任务。存储资源,包括用于数据存储和管理的硬件资源,涵盖了各种存储介质和存储设备,例如硬盘驱动器(HDD)、固态硬盘(SSD)、网络存储(NAS)、对象存储等。这些资源用于存储数据集、模型参数、日志等信息。网络资源,指用于连接和通信的网络设备和带宽资源,包括以太网交换机、路由器、光纤通信设备等。这些资源用于实现智能平台内部各组件之间的通信,以及智能平台与外部***之间的数据交换。
此外,智能平台资源不仅包括计算资源、存储资源和网络资源,还可以扩展为以下几类:
传感器资源,如果智能平台涉及到感知和采集任务,可能还包括各种传感器资源,例如摄像头、声音传感器、温度传感器等。这些传感器用于采集环境信息、图像、声音等数据,为智能***提供输入。
边缘计算资源,随着边缘计算的发展,智能平台资源可能还包括分布在边缘节点的计算、存储和网络资源,用于在边缘端执行部分计算任务、存储数据或进行实时响应。
安全资源,智能平台资源还需要考虑安全性,可能包括加密模块、安全存储设备、访问控制设备等,用于保护***和数据的安全性和隐私性。
综上所述,智能平台资源的范围不仅包括计算、存储和网络资源,还涵盖了传感器资源、边缘计算资源以及安全资源等,这些资源共同构成了智能计算云操作***的基础设施,为各类智能应用提供支持。
基于上述资源介绍,可知,可用资源节点是指***中可供作业调度和执行的物理或虚拟资源节点。在智能计算云操作***中,可用资源节点通常包括计算节点、存储节点、网络节点等,它们可以是物理服务器、虚拟机实例、容器实例或其他计算资源的抽象表示。这些可用资源节点具有一定的计算能力、存储容量和网络带宽,能够执行作业任务并提供相关的服务。通过将目标作业分配到合适的可用资源节点中,可以充分利用***资源,提高作业的执行效率和性能。在实际应用中,可用资源节点的选择可能会受到多种因素的影响,包括作业的需求、资源的可用性、***的负载情况、网络连接情况等。通过合理地选择可用资源节点,可以实现作业的高效执行和***资源的有效利用。
作为一个可选实施例,假设所述智能计算云操作***中部署有多个智能调度模型。在智能计算云操作***中部署多个智能调度模型可以进一步提高***的灵活性和智能化程度,使***能够更好地适应不同类型的作业需求。每个智能调度模型都与特定的作业调度表相对应,并针对该调度表内各种业务的特定调度机制进行设置。
进一步地,假设多个智能调度模型分别与不同作业调度表相对应。再进一步地,假设多个智能调度模型中设置有适合自身对应的作业调度表内各种业务的特定调度机制。在智能计算云操作***中,部署多个智能调度模型,这些模型可能基于不同的调度算法、策略或机器学习模型构建而成。每个智能调度模型都有其独特的特性和优势,能够针对不同场景和需求提供最优的作业调度方案。每个智能调度模型都与特定的作业调度表相对应,这些作业调度表可能根据业务类型、性能需求或其他因素进行划分和定义。智能调度模型根据作业调度表内的需求特点和调度机制,提供相应的调度策略和算法,以实现最佳的作业调度效果。每个智能调度模型都设置了适合自身对应的作业调度表内各种业务的特定调度机制。这些调度机制可能包括最短作业优先、优先级调度、轮转调度、多级队列调度、先来先服务、最佳适应调度等,根据不同的业务类型和需求进行选择和应用。
通过部署多个智能调度模型,***可以根据不同的作业调度表和业务需求选择最合适的调度模型,从而实现更加智能化和灵活的作业调度管理。这种多模型部署的方式能够更好地适应复杂多样的业务场景和作业需求,提高***的整体性能和效率。通过以上方式,智能计算云操作***可以实现更加智能和灵活的作业调度管理,为用户提供更优质的服务体验,并在不同的业务场景下实现更高效的资源利用和作业执行。
基于上述假设,103中通过所述特定调度机制对应的智能调度模型,根据所述目标作业的业务特性将所述目标作业分配到对应的可用资源节点中之前,对于各种特定调度机制,还可以采用历史业务样本预先训练各自对应的智能调度模型,以使训练后的智能调度模型实现适用于对应的作业调度表的调度过程。
这样,通过采用历史业务样本预先训练智能调度模型,可以使得调度过程更加智能化和自适应,提高作业调度的效率和准确性,从而更好地满足不同业务场景下的需求。
作为一个可选实施例,假设所述智能调度模型至少包括:作业特性分析层、优先级配置层、资源节点分配层。基于此,103中,通过所述特定调度机制对应的智能调度模型,根据所述目标作业的业务特性将所述目标作业分配到对应的可用资源节点中,可以实现为如下步骤:
301,通过作业特性分析层,对所述目标作业的作业内容描述和/或资源需求信息进行特性分析,以获取所述目标作业的业务特性;
302,通过优先级配置层,采用所述特定调度机制中的调度顺序配置规则,结合所述业务特性对所述目标作业进行分析,以得到所述目标作业的调度顺位;
303,通过资源节点分配层,基于所述目标作业的调度顺位,从当前监测到的可调用的实时***资源节点中,动态选择所述目标作业对应的可用资源节点,并将所述目标作业的作业请求***到所选的可用资源节点的任务执行队列中。
本申请实施例中,所述业务特性至少包括:计算密集型、资源使用类型、资源利用率、时间敏感性、任务重要性。其中,计算密集型,指目标作业在执行过程中主要消耗计算资源而非I/O资源的特性。计算密集型作业通常需要大量的CPU资源进行计算操作,而对其他资源需求相对较少。资源使用类型,描述目标作业在执行过程中对不同类型资源的需求。资源使用类型可以包括人工智能芯片、CPU、内存、存储、网络带宽等。不同类型的作业可能对这些资源的需求不同,例如某些作业可能对人工智能芯片资源需求较大,而另一些作业可能更依赖存储资源。资源利用率,涉及目标作业对***资源的利用效率。高资源利用率表示目标作业能够充分利用***资源,执行效率较高,而低资源利用率则可能表示存在资源浪费或资源竞争不足等问题。时间敏感性,指目标作业对执行时间的敏感程度。某些作业可能对执行时间有严格的要求,需要在规定的时间内完成,而另一些作业则可能对执行时间要求较为宽松。任务重要性,描述目标作业对业务流程或***整体性能的重要程度。一些重要的作业可能需要优先执行,以确保***的稳定性和业务的顺利进行,而其他非关键性的作业则可以在资源充足时执行。这些业务特性可以帮助***更好地理解目标作业的需求和特点,从而根据不同的调度机制进行合理的调度决策。通过对这些业务特性的分析和利用,可以实现更智能化、灵活化的作业调度管理,提高***的整体性能和效率。
以下是对于所述步骤的具体介绍。301中,作业特性分析层,该层负责对目标作业的作业内容描述和/或资源需求信息进行特性分析,以获取目标作业的业务特性。通过对目标作业的任务类型、执行时间、资源需求等进行分析,确定其特征,例如作业的计算密集型或I/O密集型特性,对实时性的要求等。302中,优先级配置层,在这一步骤中,根据特定调度机制中的调度顺序配置规则,结合作业特性分析层获取的业务特性,对目标作业进行分析,确定其调度顺位。调度顺位可能基于多个因素,如作业类型、紧急程度、资源需求等,通过优先级配置确定作业的执行顺序。303中,资源节点分配层,基于目标作业的调度顺位,该层从当前监测到的可调用的实时***资源节点中进行动态选择。可用资源节点可能包括计算节点、存储节点、网络节点等,通过考虑目标作业的资源需求和***资源的可用性,选择最合适的资源节点。 选择完成后,将目标作业的作业请求***到所选的可用资源节点的任务执行队列中,等待资源分配和执行。通过以上步骤,***能够根据目标作业的业务特性和调度机制,动态地将作业分配到合适的资源节点中,以实现更高效的作业调度和执行。这种基于智能调度模型的调度过程能够更好地适应不同作业调度表的需求,并提高***资源的利用率和作业执行的效率。
在一可选示例中,302中,若所述目标作业的业务特性为计算密集型,并且所述特定调度机制为优先级调度,则通过资源预测模型,预测未来所选时段下的空闲可用硬件计算资源量。首先,利用资源预测模型对未来所选时段下的空闲可用硬件计算资源量进行预测。这个模型可以基于历史数据、趋势分析、机器学习等方法来预测***资源的可用情况,从而为后续的调度决策提供依据。进而,根据预测得到的空闲可用硬件计算资源量,对所述目标作业进行计算资源需求量的适配度分析,以获得所述目标作业的可执行时间段。具体地,根据目标作业的计算密集型业务特性以及预测得到的空闲可用硬件计算资源量,进行计算资源需求量的适配度分析。这一分析可以量化目标作业所需计算资源与***可用计算资源之间的差距,用于评估作业在当前***状态下的可执行性。最后,基于所述目标作业的可执行时间段,确定所述目标作业***到对应的执行时间优先级。如果***在某个时段内的空闲计算资源能够满足目标作业的需求,那么该时段就是目标作业的可执行时间段。这里,可以理解的是,空闲资源较多的时段将会具有较高的执行时间优先级,因为作业在这些时段内更容易得到执行。
其中,所述目标作业的计算资源需求量与某一时段下的空闲可用硬件计算资源量之间的差值越小,所述目标作业配置到所述某一时段下的执行时间优先级的概率越高。也即,在确定执行时间优先级时,可以考虑作业对计算资源的需求与***可用资源的匹配程度,差距越小则优先级越高。这样做可以确保作业在最合适的时段得到执行,从而提高***资源的利用效率和作业执行的效率。
通过以上步骤,***可以根据计算资源的实际情况和目标作业的特性,智能地确定作业的执行时间优先级,从而实现更加合理和高效的作业调度。
在另一个可选示例中,302中,通过优先级配置层,采用所述特定调度机制中的调度顺序配置规则,结合所述业务特性对所述目标作业进行分析,以得到所述目标作业的调度顺位,也可以实现为:
若所述目标作业的业务特性为I/O密集型,并且所述特定调度机制为最短作业优先,则获取所述目标作业的估计执行时间。这里,所述估计执行时间中包含执行时间以及I/O等待时间。对于I/O密集型的目标作业,首先需要获取其估计执行时间。这个估计执行时间包括了作业的实际执行时间以及可能的I/O等待时间。通过对作业执行过程中可能的I/O操作进行估算,可以得到一个较为准确的执行时间估计。对于每个目标作业,计算其总估计执行时间。这包括了作业的执行时间以及在作业执行过程中可能发生的I/O等待时间。总估计执行时间是考虑了作业执行时间和可能的等待时间后的作业执行时间预估。
实际应用中,示例性地,计算第i个作业的估计执行时间的公式表示为如下公式:。其中,/>为第i个作业的执行时间,/>为第i 个作业的I/O端口等待时间,/>为在第i个业务之前的第j 个作业的总估计执行时间,/>为第i个业务之前的所有作业的总估计执行时间,/>为第i 个作业的总估计执行时间。
进而,根据所述目标作业在所处目标作业调度表中的估计执行时间的排序位次,确定所述目标作业的调度顺位。其中,估计执行时间越短的作业,对应的调度顺位越高。此处,将所有目标作业按照其估计执行时间进行排序,估计执行时间越短的作业在调度顺位上越靠前。这意味着执行时间更短的作业将会在调度时被优先考虑。排在前面的作业将有较高的调度优先级,因为它们的估计执行时间更短,更有可能更快地完成,从而释放资源给后续作业使用。
通过以上步骤,***可以根据目标作业的估计执行时间以及I/O等待时间,确定作业的调度顺位。这样做可以确保在最短作业优先的调度机制下,优先执行执行时间更短的作业,以提高整体***的效率和响应速度。
进一步可选地,所述根据所述目标作业在所处目标作业调度表中的估计执行时间的排序位次,确定所述目标作业的调度顺位之后,还可以检测是否接收到占位指令,该占位指令基于任务重要性和/或紧急程度生成。这些指令可能由外部***或用户生成,可以是基于任务的重要性和/或紧急程度。
在接收到所述占位指令之后,基于重新计算所述目标作业的估计执行时间,并基于重新计算的估计执行时间进行调度顺位的重排序。也即,一旦接收到占位指令,***将重新计算受影响的目标作业的估计执行时间。这个重新计算的过程可能会考虑到任务的重要性和/或紧急程度,并据此对原始的估计执行时间进行调整。
其中,重新计算第i个作业的估计执行时间的公式为:。其中,与前一公式重复的参数此处不展开介绍,主要区别在于:加入了一个新参数。该新参数,是由任务重要性和/或紧急程度决定的占位因子,所述占位因子的数值大小与任务重要性和/或紧急程度呈正比。
这里,执行时间、I/O等待时间、前序作业总估计执行时间的计算方法与之前相同,而占位因子是由任务的重要性和/或紧急程度决定的。占位因子的数值大小与任务的重要性和/或紧急程度成正比关系,即任务越重要或紧急,占位因子越大,目标作业的估计执行时间的时长越短,反之亦然。
通过这个流程,***可以根据任务的重要性和/或紧急程度调整作业的调度顺位,确保关键任务得到及时处理,从而提高整体***的效率和响应能力。
104,在可用资源节点中根据所述作业内容描述中的作业内容以及作业参数执行相应的作业任务,以完成所述目标作业的作业请求。
结合示例来说,假设有一个目标作业,要求在一个分布式***中处理一批图像文件。作业内容描述包括了需要处理的图像文件列表、处理每个图像的特定操作(如缩放、旋转、滤镜等)、处理的顺序等信息。作业参数可能包括处理每个图像所需的计算资源(如CPU核数、内存需求等)以及处理操作的配置参数(如滤镜类型、缩放比例等)。首先,***会解析作业内容描述,识别出需要处理的图像文件列表以及每个图像的处理操作。进而,根据作业参数中的计算资源需求,***在可用资源节点中调用匹配的计算资源。这可能涉及到为每个处理操作分配适当的CPU核数和内存。对于每个图像文件,***根据作业内容描述中的处理操作,在分配的计算资源上执行相应的处理任务。这可能包括图像的缩放、旋转、应用滤镜等操作。当所有图像文件的处理任务完成后,***将处理后的图像文件输出或保存到指定位置,完成目标作业的作业请求。在这个示例中,***根据作业内容描述和作业参数,在可用资源节点上执行相应的作业任务,以完成对图像文件的处理。
在本申请实施例中,这种作业调度方法不仅能够在***性能和资源利用率方面带来显著提升,还能够满足不同类型业务的执行需求,并具有诸多附加优势,有助于构建高效稳定、灵活可扩展的智能计算云操作***。
在本申请的又一实施例中,还提供了一种智能计算云操作***,所述智能计算云操作***用于调度、执行、监控和管理提交到***的作业;所述作业包括各种类型的数据处理任务;参见图3所述,该智能计算云操作***包括以下单元:
获取单元,被配置为接收用户针对目标作业所提交的作业请求;所述作业请求至少包括:目标作业的作业内容描述和/或资源需求信息;
分析单元,被配置为通过动态队列模型,分析所述作业请求,以将所述目标作业提交到对应的目标作业调度表中;其中,所述智能计算云操作***中设置有多个作业调度表;多个作业调度表中分别设置有适合自身表内各种业务的特定调度机制;
分配单元,被配置为通过所述特定调度机制对应的智能调度模型,根据所述目标作业的业务特性将所述目标作业分配到对应的可用资源节点中;其中,所述智能计算云操作***中部署有多个智能调度模型;多个智能调度模型分别与不同作业调度表相对应;多个智能调度模型中设置有适合自身对应的作业调度表内各种业务的特定调度机制;
执行单元,被配置为在可用资源节点中根据所述作业内容描述中的的作业内容以及作业参数执行相应的作业任务,以完成所述目标作业的作业请求。
进一步可选地,所述***还包括调度单元,被配置为:
进一步可选地,所述动态队列模型至少包括:接收层、作业分析层、***状态监测层、动态调度层;
所述分析单元,通过动态队列模型,分析所述作业请求,以将所述目标作业提交到对应的目标作业调度表中,被配置为:
通过接收层,将待处理的所述作业请求加入到待处理队列中;
通过作业分析层,在待处理队列中,对所述目标作业的作业内容描述和/或资源需求信息进行属性分析,以获取所述目标作业所属的目标业务类型;
通过***状态监测层,实时监测所述智能计算云操作***,以获得所述实时***资源状况;所述实时***资源状况至少包括:***资源利用率、实时负载状态、可用资源状态;
通过动态调度层,基于所述实时***资源状况以及所述目标业务类型,将待处理队列中所述目标作业分配到对应的目标作业调度表;所述目标作业调度表中的特定调度机制与所述目标业务类型相匹配。
进一步可选地,作业调度表中的特定调度机制采用以下至少一种调度机制:最短作业优先、优先级调度、轮转调度、多级队列调度、先来先服务、最佳适应调度;
所述目标作业调度表中的特定调度机制与所述目标业务类型相匹配,至少包括以下之一:
所述目标业务类型为响应时间敏感的业务,对应的所述目标作业调度表中的特定调度机制为最短作业优先;
所述目标业务类型为需要优先处理的重要业务或紧急任务,对应的所述目标作业调度表中的特定调度机制为优先级调度;
所述目标业务类型为资源共享业务,对应的所述目标作业调度表中的特定调度机制为轮转调度;
所述目标业务类型为多类型组合业务,对应的所述目标作业调度表中的特定调度机制为多级队列调度;
所述目标业务类型为无特殊要求且时序不敏感的业务,对应的所述目标作业调度表中的特定调度机制为先来先服务;
所述目标业务类型为资源利用率高或***负载较重的业务,对应的所述目标作业调度表中的特定调度机制为最佳适应性调度。
进一步可选地,所述分配单元,通过所述特定调度机制对应的智能调度模型,根据所述目标作业的业务特性将所述目标作业分配到对应的可用资源节点中之前,还被配置为:
对于各种特定调度机制,采用历史业务样本预先训练各自对应的智能调度模型,以使训练后的智能调度模型实现适用于对应的作业调度表的调度过程。
进一步可选地,所述智能调度模型至少包括:作业特性分析层、优先级配置层、资源节点分配层;
所述分配单元,通过所述特定调度机制对应的智能调度模型,根据所述目标作业的业务特性将所述目标作业分配到对应的可用资源节点中,被配置为:
通过作业特性分析层,对所述目标作业的作业内容描述和/或资源需求信息进行特性分析,以获取所述目标作业的业务特性;所述业务特性至少包括:计算密集型、资源使用类型、资源利用率、时间敏感性、任务重要性;
通过优先级配置层,采用所述特定调度机制中的调度顺序配置规则,结合所述业务特性对所述目标作业进行分析,以得到所述目标作业的调度顺位;
通过资源节点分配层,基于所述目标作业的调度顺位,从当前监测到的可调用的实时***资源节点中,动态选择所述目标作业对应的可用资源节点,并将所述目标作业的作业请求***到所选的可用资源节点的任务执行队列中。
进一步可选地,所述分配单元,通过优先级配置层,采用所述特定调度机制中的调度顺序配置规则,结合所述业务特性对所述目标作业进行分析,以得到所述目标作业的调度顺位,被配置为:
若所述目标作业的业务特性为计算密集型,并且所述特定调度机制为优先级调度,则
通过资源预测模型,预测未来所选时段下的空闲可用硬件计算资源量;
根据预测得到的空闲可用硬件计算资源量,对所述目标作业进行计算资源需求量的适配度分析,以获得所述目标作业的可执行时间段;
基于所述目标作业的可执行时间段,确定所述目标作业***到对应的执行时间优先级;
其中,所述目标作业的计算资源需求量与某一时段下的空闲可用硬件计算资源量之间的差值越小,所述目标作业配置到所述某一时段下的执行时间优先级的概率越高。
进一步可选地,所述分配单元,通过优先级配置层,采用所述特定调度机制中的调度顺序配置规则,结合所述业务特性对所述目标作业进行分析,以得到所述目标作业的调度顺位,被配置为:
若所述目标作业的业务特性为I/O密集型,并且所述特定调度机制为最短作业优先,则
获取所述目标作业的估计执行时间;所述估计执行时间中包含执行时间以及I/O等待时间;其中,计算第i个作业的估计执行时间的公式为:;/>为第i个作业的执行时间,/>为第i 个作业的I/O端口等待时间,/>为在第i个业务之前的第j 个作业的总估计执行时间,/>为第i个业务之前的所有作业的总估计执行时间,/>为第i 个作业的总估计执行时间;
根据所述目标作业在所处目标作业调度表中的估计执行时间的排序位次,确定所述目标作业的调度顺位;其中,估计执行时间越短的作业,对应的调度顺位越高。
进一步可选地,所述分配单元,在根据所述目标作业在所处目标作业调度表中的估计执行时间的排序位次,确定所述目标作业的调度顺位之后,还被配置为:
检测是否接收到占位指令;所述占位指令基于任务重要性和/或紧急程度生成;
接收到所述占位指令之后,基于重新计算所述目标作业的估计执行时间,并基于重新计算的估计执行时间进行调度顺位的重排序;其中,重新计算第i个作业的估计执行时间的公式为:
其中,是由任务重要性和/或紧急程度决定的占位因子,所述占位因子的数值大小与任务重要性和/或紧急程度呈正比。
在本申请实施例中,这种作业调度装置不仅能够在***性能和资源利用率方面带来显著提升,还能够满足不同类型业务的执行需求,并具有诸多附加优势,有助于构建高效稳定、灵活可扩展的智能计算云操作***。
在本申请的又一实施例中,还提供一种智能计算平台,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现方法实施例所述的作业调度方法。
如图3所示,上述电子设备提到的通信总线1140可以是外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture,EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。
示例性地,假设需要建立一个基于神经元网络专用芯片的大规模、自主可控的智能计算平台,用于为研发和建设智能计算平台提供硬件基础。同时,智能计算平台也可以为智能超算中心建设提供硬件基础,通过该中心的构建可以为科研、产业、城市服务的人工智能平台,集聚人才、发展产业。
具体来说,智能计算平台主要包括:智能硬件平台、智能计算云操作***、应用环境开发、大数据平台、智能应用PaaS平台这五个部分。在智能硬件平台中,以智能计算理论为基础,可以将深度学***台,从而为整个超算平台以及相关衍生平台提供基础硬件支撑,其主要内容包含以下四个部分:智能计算子***、数据存储子***、智能计算云操作***及支撑管理子***。
本申请实施例提供了用于构建低能耗运算器的作业调度方法。
为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(non-volatil ememory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器1110可以是通用处理器,包括人工智能处理器、图形处理器(Graphics Processing Unit,GPU)、人工智能处理器卡(Machine Learning Unit,MLU)、中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(ApplicationSpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述方法实施例中可由电子设备执行的各步骤。

Claims (10)

1.一种作业调度方法,其特征在于,应用于智能计算云操作***,所述智能计算云操作***用于调度、执行、监控和管理提交到***的作业;所述作业包括各种类型的数据处理任务;所述作业调度方法包括:
接收用户针对目标作业所提交的作业请求;所述作业请求至少包括:所述目标作业的作业内容描述和/或资源需求信息;
通过动态队列模型,分析所述作业请求,以将所述目标作业提交到对应的目标作业调度表中;其中,所述智能计算云操作***中设置有多个作业调度表;多个作业调度表中分别设置有适合自身表内各种业务的特定调度机制;
通过所述特定调度机制对应的智能调度模型,根据所述目标作业的业务特性将所述目标作业分配到对应的可用资源节点中;其中,所述智能计算云操作***中部署有多个智能调度模型;多个智能调度模型分别与不同作业调度表相对应;多个智能调度模型中设置有适合自身对应的作业调度表内各种业务的特定调度机制;
在可用资源节点中根据所述作业内容描述中的作业内容以及作业参数执行相应的作业任务,以完成所述目标作业的作业请求。
2.根据权利要求1所述的作业调度方法,其特征在于,所述动态队列模型至少包括:接收层、作业分析层、***状态监测层、动态调度层;
所述通过动态队列模型,分析所述作业请求,以将所述目标作业提交到对应的目标作业调度表中,包括:
通过接收层,将待处理的所述作业请求加入到待处理队列中;
通过作业分析层,在待处理队列中,对所述目标作业的作业内容描述和/或资源需求信息进行属性分析,以获取所述目标作业所属的目标业务类型;
通过***状态监测层,实时监测所述智能计算云操作***,以获得实时***资源状况;所述实时***资源状况至少包括:***资源利用率、实时负载状态、可用资源状态;
通过动态调度层,基于所述实时***资源状况以及所述目标业务类型,将待处理队列中所述目标作业分配到对应的目标作业调度表;所述目标作业调度表中的特定调度机制与所述目标业务类型相匹配。
3.根据权利要求2所述的作业调度方法,其特征在于,作业调度表中的特定调度机制采用以下至少一种调度机制:最短作业优先、优先级调度、轮转调度、多级队列调度、先来先服务、最佳适应调度;
所述目标作业调度表中的特定调度机制与所述目标业务类型相匹配,至少包括以下之一:
所述目标业务类型为响应时间敏感的业务,对应的所述目标作业调度表中的特定调度机制为最短作业优先;
所述目标业务类型为需要优先处理的重要业务或紧急任务,对应的所述目标作业调度表中的特定调度机制为优先级调度;
所述目标业务类型为资源共享业务,对应的所述目标作业调度表中的特定调度机制为轮转调度;
所述目标业务类型为多类型组合业务,对应的所述目标作业调度表中的特定调度机制为多级队列调度;
所述目标业务类型为无特殊要求且时序不敏感的业务,对应的所述目标作业调度表中的特定调度机制为先来先服务;
所述目标业务类型为资源利用率高或***负载较重的业务,对应的所述目标作业调度表中的特定调度机制为最佳适应性调度。
4.根据权利要求1所述的作业调度方法,其特征在于,所述通过所述特定调度机制对应的智能调度模型,根据所述目标作业的业务特性将所述目标作业分配到对应的可用资源节点中之前,还包括:
对于各种特定调度机制,采用历史业务样本预先训练各自对应的智能调度模型,以使训练后的智能调度模型实现适用于对应的作业调度表的调度过程。
5.根据权利要求4所述的作业调度方法,其特征在于,所述智能调度模型至少包括:作业特性分析层、优先级配置层、资源节点分配层;
所述通过所述特定调度机制对应的智能调度模型,根据所述目标作业的业务特性将所述目标作业分配到对应的可用资源节点中,包括:
通过作业特性分析层,对所述目标作业的作业内容描述和/或资源需求信息进行特性分析,以获取所述目标作业的业务特性;所述业务特性至少包括:计算密集型、资源使用类型、资源利用率、时间敏感性、任务重要性;
通过优先级配置层,采用所述特定调度机制中的调度顺序配置规则,结合所述业务特性对所述目标作业进行分析,以得到所述目标作业的调度顺位;
通过资源节点分配层,基于所述目标作业的调度顺位,从当前监测到的可调用的实时***资源节点中,动态选择所述目标作业对应的可用资源节点,并将所述目标作业的作业请求***到所选的可用资源节点的任务执行队列中。
6.根据权利要求5所述的作业调度方法,其特征在于,所述通过优先级配置层,采用所述特定调度机制中的调度顺序配置规则,结合所述业务特性对所述目标作业进行分析,以得到所述目标作业的调度顺位,包括:
若所述目标作业的业务特性为计算密集型,并且所述特定调度机制为优先级调度,则
通过资源预测模型,预测未来所选时段下的空闲可用硬件计算资源量;
根据预测得到的空闲可用硬件计算资源量,对所述目标作业进行计算资源需求量的适配度分析,以获得所述目标作业的可执行时间段;
基于所述目标作业的可执行时间段,确定所述目标作业***到对应的执行时间优先级;
其中,所述目标作业的计算资源需求量与某一时段下的空闲可用硬件计算资源量之间的差值越小,所述目标作业配置到所述某一时段下的执行时间优先级的概率越高。
7.根据权利要求5所述的作业调度方法,其特征在于,所述通过优先级配置层,采用所述特定调度机制中的调度顺序配置规则,结合所述业务特性对所述目标作业进行分析,以得到所述目标作业的调度顺位,包括:
若所述目标作业的业务特性为I/O密集型,并且所述特定调度机制为最短作业优先,则
获取所述目标作业的估计执行时间;所述估计执行时间中包含执行时间以及I/O等待时间;其中,计算第i个作业的估计执行时间的公式为:;/>为第i个作业的执行时间,/>为第i 个作业的I/O端口等待时间,/>为在第i个业务之前的第j 个作业的总估计执行时间,/>为第i个业务之前的所有作业的总估计执行时间,/>为第i 个作业的总估计执行时间;
根据所述目标作业在所处目标作业调度表中的估计执行时间的排序位次,确定所述目标作业的调度顺位;其中,估计执行时间越短的作业,对应的调度顺位越高。
8.根据权利要求7所述的作业调度方法,其特征在于,所述根据所述目标作业在所处目标作业调度表中的估计执行时间的排序位次,确定所述目标作业的调度顺位之后,还包括:
检测是否接收到占位指令;所述占位指令基于任务重要性和/或紧急程度生成;
接收到所述占位指令之后,基于重新计算所述目标作业的估计执行时间,并基于重新计算的估计执行时间进行调度顺位的重排序;其中,重新计算第i个作业的估计执行时间的公式为:
其中,是由任务重要性和/或紧急程度决定的占位因子,所述占位因子的数值大小与任务重要性和/或紧急程度呈正比。
9.一种智能计算云操作***,其特征在于,所述智能计算云操作***用于调度、执行、监控和管理提交到***的作业;所述作业包括各种类型的数据处理任务;所述智能计算云操作***包括:
获取单元,被配置为接收用户针对目标作业所提交的作业请求;所述作业请求至少包括:目标作业的作业内容描述和/或资源需求信息;
分析单元,被配置为通过动态队列模型,分析所述作业请求,以将所述目标作业提交到对应的目标作业调度表中;其中,所述智能计算云操作***中设置有多个作业调度表;多个作业调度表中分别设置有适合自身表内各种业务的特定调度机制;
分配单元,被配置为通过所述特定调度机制对应的智能调度模型,根据所述目标作业的业务特性将所述目标作业分配到对应的可用资源节点中;其中,所述智能计算云操作***中部署有多个智能调度模型;多个智能调度模型分别与不同作业调度表相对应;多个智能调度模型中设置有适合自身对应的作业调度表内各种业务的特定调度机制;
执行单元,被配置为在可用资源节点中根据所述作业内容描述中的的作业内容以及作业参数执行相应的作业任务,以完成所述目标作业的作业请求。
10.一种智能计算平台,其特征在于,所述智能计算平台包括:
至少一个处理器、存储器和输入输出单元;
其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中存储的计算机程序来执行如权利要求1至8中任一项所述的作业调度方法。
CN202410431592.6A 2024-04-11 2024-04-11 一种作业调度方法、智能计算云操作***以及计算平台 Active CN118034938B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410431592.6A CN118034938B (zh) 2024-04-11 2024-04-11 一种作业调度方法、智能计算云操作***以及计算平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410431592.6A CN118034938B (zh) 2024-04-11 2024-04-11 一种作业调度方法、智能计算云操作***以及计算平台

Publications (2)

Publication Number Publication Date
CN118034938A true CN118034938A (zh) 2024-05-14
CN118034938B CN118034938B (zh) 2024-06-28

Family

ID=91002694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410431592.6A Active CN118034938B (zh) 2024-04-11 2024-04-11 一种作业调度方法、智能计算云操作***以及计算平台

Country Status (1)

Country Link
CN (1) CN118034938B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117608840A (zh) * 2023-11-28 2024-02-27 华能江苏综合能源服务有限公司 一种智能监控***资源综合管理的任务处理方法及***

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117608840A (zh) * 2023-11-28 2024-02-27 华能江苏综合能源服务有限公司 一种智能监控***资源综合管理的任务处理方法及***

Also Published As

Publication number Publication date
CN118034938B (zh) 2024-06-28

Similar Documents

Publication Publication Date Title
Praveenchandar et al. Retracted article: dynamic resource allocation with optimized task scheduling and improved power management in cloud computing
Kaur et al. Container-as-a-service at the edge: Trade-off between energy efficiency and service availability at fog nano data centers
CN112465129B (zh) 片内异构人工智能处理器
US9442760B2 (en) Job scheduling using expected server performance information
CN104298550B (zh) 一种面向Hadoop的动态调度方法
Hashem et al. MapReduce scheduling algorithms: a review
US20200174844A1 (en) System and method for resource partitioning in distributed computing
US11816509B2 (en) Workload placement for virtual GPU enabled systems
CN109564528B (zh) 分布式计算中计算资源分配的***和方法
CN109783225B (zh) 一种多租户大数据平台的租户优先级管理方法及***
CN112130963A (zh) 虚拟机任务的调度方法、装置、计算机设备及存储介质
KR20220170428A (ko) 이기종 프로세서 기반 엣지 시스템에서 slo 달성을 위한 인공지능 추론 스케쥴러
US10606650B2 (en) Methods and nodes for scheduling data processing
Vijaya Krishna et al. Task scheduling based on hybrid algorithm for cloud computing
CN104598311A (zh) 一种面向Hadoop的实时作业公平调度的方法和装置
CN111597044A (zh) 任务调度方法、装置、存储介质及电子设备
CN116048721A (zh) 一种gpu集群的任务分配方法、装置、电子设备和介质
KR102320324B1 (ko) 쿠버네티스 환경에서의 이종 하드웨어 가속기 활용 방법 및 이를 이용한 장치
Chiang et al. DynamoML: Dynamic Resource Management Operators for Machine Learning Workloads.
Zhao et al. Gpu-enabled function-as-a-service for machine learning inference
EP4300305A1 (en) Methods and systems for energy-efficient scheduling of periodic tasks on a group of processing devices
CN118034938B (zh) 一种作业调度方法、智能计算云操作***以及计算平台
CN116010020A (zh) 容器池管理
Ding et al. Data locality-aware and QoS-aware dynamic cloud workflow scheduling in Hadoop for heterogeneous environment
CN116610422A (zh) 一种任务调度方法、装置和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant