CN116185596B - 提升广域多集群分布式***执行任务效率的方法及装置 - Google Patents

提升广域多集群分布式***执行任务效率的方法及装置 Download PDF

Info

Publication number
CN116185596B
CN116185596B CN202310448223.3A CN202310448223A CN116185596B CN 116185596 B CN116185596 B CN 116185596B CN 202310448223 A CN202310448223 A CN 202310448223A CN 116185596 B CN116185596 B CN 116185596B
Authority
CN
China
Prior art keywords
delay
factor information
cluster
task
executed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310448223.3A
Other languages
English (en)
Other versions
CN116185596A (zh
Inventor
白文媛
高丰
毛良献
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202310448223.3A priority Critical patent/CN116185596B/zh
Publication of CN116185596A publication Critical patent/CN116185596A/zh
Application granted granted Critical
Publication of CN116185596B publication Critical patent/CN116185596B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4812Task transfer initiation or dispatching by interrupt, e.g. masked
    • G06F9/4831Task transfer initiation or dispatching by interrupt, e.g. masked with variable priority
    • G06F9/4837Task transfer initiation or dispatching by interrupt, e.g. masked with variable priority time dependent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multi Processors (AREA)
  • Computer And Data Communications (AREA)

Abstract

本说明书公开了提升广域多集群分布式***执行任务效率的方法及装置,在广域多集群分布式***的各子队列中确定待执行任务,再确定该待执行任务的时延、执行该待执行任务的目标集群及该待执行任务所需的资源所在的集群,最后,根据时延将所需的资源调度至目标集群。在广域多集群分布式***中,由于集群数量较多,各集群之间的物理距离较远,执行分布式任务时,会存在各种时延,降低了执行任务的效率,因此,本方法通过确定广域多集群分布式***中待执行任务的时延,在执行当前任务的同时,根据该时延将执行该任务的数据提前调度到目标集群,在执行待执行任务时,不再需要等待所需数据的调度,提高了处理广域多集群分布式任务的效率。

Description

提升广域多集群分布式***执行任务效率的方法及装置
技术领域
本说明书涉及计算机领域,尤其涉及提升广域多集群分布式***执行任务效率的方法及装置。
背景技术
随着计算机技术的发展,利用单集群执行分布式任务越来越常见,但随着业务需求的变化,完成业务所要执行的任务增多,单集群环境无法满足业务需求,因此,为了能完成需要执行的任务,任务运行的环境从单集群环境发展为多集群环境,若多集群环境中的各集群物理距离较远,则称该多集群环境为广域多集群环境。对于广域多集群环境来说,由于每个集群之间的距离较远,因此,利用物理线路及多个中间路由器实现通信的成本较高,并且在跨集群通信时,存在通信时延。
因此,在广域多集群环境中,如何提高处理分布式任务的效率是个亟待解决的问题。
发明内容
本说明书提供提升广域多集群分布式***执行任务效率的方法、装置、存储介质及电子设备,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了提升广域多集群分布式***执行任务效率的方法,分布式***由分布在广域的多个集群构成,包括:
确定由分布式任务中的各子任务构成的子任务队列;
在所述子任务队列中,确定执行顺序在当前执行的任务之后的待执行任务;
根据所述待执行任务,确定所述待执行任务的信息,作为第一信息;
根据所述第一信息和每个集群的可用资源,在各集群中,确定执行所述待执行任务的目标集群;
确定所述目标集群的时延因素信息;
将所述时延因素信息输入预先训练的通信时延预测模型,以通过所述通信时延预测模型确定时延;
根据所述时延,确定调度所述待执行任务的调度时间提前量;
根据所述调度时间提前量,将所述待执行任务调度至所述目标集群。
可选地,确定执行顺序在当前执行的任务之后的待执行任务,具体包括:
确定预设数量的执行顺序在当前执行的任务之后的待执行任务。
可选地,根据所述第一信息和每个集群的可用资源,在各集群中,确定执行所述待执行任务的目标集群,具体包括:
根据所述第一信息,确定执行所述待执行任务的资源;
根据执行所述待执行任务的资源及每个集群的可用资源,在各集群中,确定可用资源不少于执行所述待执行任务的资源的集群,作为目标集群。
可选地,确定所述目标集群的时延因素信息,具体包括:
根据执行所述待执行任务所需的数据所在的集群,确定发送所述所需的数据的发送时延因素信息,作为第一因素信息;
根据所述目标集群,确定接收所述所需的数据的接收时延因素信息,作为第二因素信息;
根据所述分布式***中所述所需的数据所在的集群到所述目标集群的传输链路中的中转设备,确定传输所述所需的数据时的中转处理时延因素信息,作为第三因素信息;
根据所述分布式***中所述所需的数据所在的集群到所述目标集群的物理链路,确定传输所述所需的数据的物理传输时延因素信息,作为第四因素信息;
根据所述第一因素信息、所述第二因素信息、所述第三因素信息及所述第四因素信息中至少一种,确定时延因素信息。
可选地,所述通信时延预测模型包括第一通信时延预测模型、第二通信时延预测模型、第三通信时延预测模型及第四通信时延预测模型;
将所述时延因素信息输入预先训练的通信时延预测模型,以通过所述通信时延预测模型确定时延,具体包括:
将所述第一因素信息输入预先训练的所述第一通信时延预测模型,以通过所述通信时延预测模型确定发送时延;
将所述第二因素信息输入预先训练的所述第二通信时延预测模型,以通过所述通信时延预测模型确定接收时延;
将所述第三因素信息输入预先训练的所述第三通信时延预测模型,以通过所述通信时延预测模型确定中转时延;
将所述第四因素信息,输入预先训练的所述第四通信时延预测模型,以通过所述通信时延预测模型确定传输时延;
根据所述发送时延、所述接收时延、所述中转时延及所述传输时延中至少一种,确定总时延。
可选地,将所述待执行任务调度至所述目标集群,具体包括:
确定执行所述待执行任务所需的数据所在的集群;
将所述所需的数据从所述所需的数据所在的集群传输至所述目标集群。
可选地,训练所述通信时延预测模型,具体包括:
确定样本时延因素信息,并获取标签样本时延;
将所述样本时延因素信息输入所述通信时延预测模型,以根据通信时延预测模型,确定输出时延;
根据所述输出时延及所述标签样本时延,确定所述输出时延与所述标签样本时延的差异;
以最小化所述差异为训练目标,训练所述通信时延预测模型。
可选地,所述通信时延预测模型包括多元线性回归模型、卷积神经网络模型、循环神经网络模型中的至少一种。
本说明书提供了提升广域多集群分布式***执行任务效率的装置,包括:
队列确定模块,用于确定由分布式任务中的各子任务构成的子任务队列;
待执行任务确定模块,用于在所述子任务队列中,确定执行顺序在当前执行的任务之后的待执行任务;
第一信息确定模块,用于根据所述待执行任务,确定所述待执行任务的信息,作为第一信息;
目标集群确定模块,用于根据所述第一信息和每个集群的可用资源,在各集群中,确定执行所述待执行任务的目标集群;
时延因素确定模块,用于确定所述目标集群的时延因素信息;
时延确定模块,用于将所述时延因素信息输入预先训练的通信时延预测模型,以通过所述通信时延预测模型确定时延;
提前量确定模块,用于根据所述时延,确定调度所述待执行任务的调度时间提前量;
调度模块,用于根据所述调度时间提前量,将所述待执行任务调度至所述目标集群。
可选地,所述待执行任务确定模块具体用于,确定预设数量的执行顺序在当前执行的任务之后的待执行任务。
可选地,所述目标集群确定模块具体用于,根据所述第一信息,确定执行所述待执行任务的资源;根据执行所述待执行任务的资源及每个集群的可用资源,在各集群中,确定可用资源不少于执行所述待执行任务的资源的集群,作为目标集群。
可选地,所述时延因素确定模块具体用于,根据执行所述待执行任务所需的数据所在的集群,确定发送所述所需的数据的发送时延因素信息,作为第一因素信息;根据所述目标集群,确定接收所述所需的数据的接收时延因素信息,作为第二因素信息;根据所述分布式***中所述所需的数据所在的集群到所述目标集群的传输链路中的中转设备,确定传输所述所需的数据时的中转处理时延因素信息,作为第三因素信息;根据所述分布式***中所述所需的数据所在的集群到所述目标集群的物理链路,确定传输所述所需的数据的物理传输时延因素信息,作为第四因素信息;根据所述第一因素信息、所述第二因素信息、所述第三因素信息及所述第四因素信息中至少一种,确定时延因素信息。
可选地,所述通信时延预测模型包括第一通信时延预测模型、第二通信时延预测模型、第三通信时延预测模型及第四通信时延预测模型;所述时延确定模块具体用于,将所述第一因素信息输入预先训练的所述第一通信时延预测模型,以通过所述通信时延预测模型确定发送时延;将所述第二因素信息输入预先训练的所述第二通信时延预测模型,以通过所述通信时延预测模型确定接收时延;将所述第三因素信息输入预先训练的所述第三通信时延预测模型,以通过所述通信时延预测模型确定中转时延;将所述第四因素信息,输入预先训练的所述第四通信时延预测模型,以通过所述通信时延预测模型确定传输时延;根据所述发送时延、所述接收时延、所述中转时延及所述传输时延中至少一种,确定总时延。
可选地,所述调度模块具体用于,确定执行所述待执行任务所需的数据所在的集群;将所述所需的数据从所述所需的数据所在的集群传输至所述目标集群。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述提升广域多集群分布式***执行任务效率的方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述提升广域多集群分布式***执行任务效率的方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
本说明书提供的提升广域多集群分布式***执行任务效率的方法,确定由分布式任务中的各子任务构成的子任务队列,在所述子任务队列中,确定待执行任务,以确定所述待执行任务的信息,作为第一信息,根据所述第一信息和每个集群的可用资源,在各集群中,确定执行所述待执行任务的目标集群,确定所述目标集群的时延因素信息,将所述时延因素信息输入预先训练的通信时延预测模型,以确定时延,根据所述时延,将所述待执行任务调度至所述目标集群。
从上述方法中可以看出,本方法通过确定待执行任务的时延,根据该时延将执行该任务的数据提前调度到目标集群,提高了处理广域多集群分布式任务的效率。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书中提供的一种提升广域多集群分布式***执行任务效率的方法的流程示意图;
图2为本说明书提供的有向无环图的示意图;
图3为本说明书提供的时延因素信息示意图;
图4为本说明书提供的提升广域多集群分布式***执行任务效率的装置的示意图;
图5为本说明书提供的一种对应于图1的电子设备的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书中提供的提升广域多集群分布式***执行任务效率的方法的流程示意图,包括以下步骤:
S100:确定由分布式任务中的各子任务构成的子任务队列。
在本说明书一个或多个实施例中,分布式***由分布在广域的多个集群构成,其中,广域多集群是指各集群之间的距离超过预设阈值,例如,各集群分布在不同省份、不同国家等。本说明书的执行主体可以是分布式***中的调度器,具体可以是分布式***中用于可实现调度功能的服务器或其他节点设备。为了便于说明,下面仅以服务器为执行主体,对本说明书提供的提升广域多集群分布式***执行任务效率的方法进行说明。
对分布式任务进行调度之前,需要确定由分布式任务中的各子任务构成的子任务队列,以便后续确定待执行任务。
具体的,分布式***中,服务器将分布式任务拆分为多个子任务,并确定各子任务之间的依赖关系,根据该依赖关系,得到各子任务的有向无环图,图2为本说明书提供的有向无环图的示意图。服务器确定分布式***中各子任务的有向无环图后,根据该有向无环图确定由分布式任务中的各子任务构成的子任务队列。例如,在图2中,任务1~任务7为子任务队列。
S102:在所述子任务队列中,确定执行顺序在当前执行的任务之后的待执行任务。
如图2所示,在子任务队列中,若当前正在执行的任务为任务1,则执行顺序在该任务1之后的任务均为待执行任务,即任务2~任务7。当然,也可以仅将任务2作为待执行任务,本说明书对此不做限制。也就是说,服务器可确定预设数量的执行顺序在当前执行的任务之后的待执行任务。
S104:根据所述待执行任务,确定所述待执行任务的信息,作为第一信息。
在本说明书一个或多个实施例中,第一信息包括该待执行任务的数据大小、执行该待执行任务所需的存储空间等,本说明书对此不做限制。
S106:根据所述第一信息和每个集群的可用资源,在各集群中,确定执行所述待执行任务的目标集群。
服务器调度待执行任务之前,还需要确定执行该待执行任务的集群,也就是说,根据第一信息和每个集群的可用资源,在各集群中,确定执行该待执行任务的目标集群。
具体的,服务器根据该第一信息,确定执行该待执行任务的资源,根据执行该待执行任务的资源及每个集群的可用资源,在各集群中,确定可用资源不少于执行该待执行任务的资源的集群,作为目标集群。
S108:确定所述目标集群的时延因素信息。
执行待执行任务所需的数据在发送、传输、接收存在对应的发送时延、中转时延、传输时延及接收时延。为了确定上述时延,以确定调度时间提前量,根据该调度时间提前量调度待执行任务,服务器还需要确定该目标集群的时延因素信息。
具体的,图3为本说明书提供的时延因素信息示意图,针对发送时延,服务器先确定执行该待执行任务所需的数据所在的集群,将执行该待执行任务所需的数据所在的集群作为数据发送端,其中,执行该待执行任务所需的数据包括执行该待执行任务所需的模型、算法以及基础数据等,本说明书对此不作限制。在发送端发送所需数据时,协议软件需要逐层对数据进行封装处理,然后将封装处理好的数据发送至目标集群。若需要发送的数据过多,而信道带宽较小,则数据可能会延迟发送,即需要将待发送数据按照发送顺序排序并按顺序发送。因此,在数据发送端可能出现时延。所以,服务器根据执行该待执行任务所需的数据所在的集群,确定发送该所需的数据的发送时延因素信息,作为第一因素信息。该第一因素信息可包括需要发送的数据的大小、信道带宽等。并且,在其他条件不变的情况下,需要发送的数据的越多,时延越大。同样地,在其他条件不变的情况下,信道带宽越小,时延越大。
针对接收时延,接收该数据的目标集群需要对接收到的数据进行解释、校验、重新排序等处理。若要处理的数据较多,且中央处理器(Central Processing Unit,CPU)性能较差,则会产生时延。因此,服务器根据该目标集群,确定接收该所需的数据的接收时延因素信息,作为第二因素信息,该第二因素信息可包括接收到的数据的大小、CPU性能、网卡的数据处理性能等。并且,在其他条件不变的情况下,接收到的数据越多,时延越大。同样地,在其他条件不变的情况下,网卡的数据处理性能越好,时延越小。
针对中转时延,在数据传输的过程中,会经过中转设备中转,中转设备包括路由器等。为了方便说明,以路由器为中转设备说明。数据在中转时,路由器会对数据进行处理,如分析首部、提取数据、差错检验、查找路由等,若待处理数据较多,路由器的数量较少,则会出现时延。因此,服务器根据该分布***中该所需的数据所在的集群到该目标集群的传输链路中的中转设备,确定传输该所需的数据时的中转处理时延因素信息,作为第三因素信息,该第三因素信息可包括中转设备的数量、中转设备需要处理的数据的大小等。并且,在其他条件不变的情况下,中转设备需要处理的数据的越多,时延越大。需要说明的是,中转处理时延是多个中转设备时延的总和。
针对传输时延,数据需要通过物理线路进行传输,物理线路包括连接网络设备的线缆,如双绞线、光纤等。在数据传输过程中,若线缆过长,则可能产生时延。例如,数据传输速度不变,传输的数据量不变,线缆越长,需要花费的传输时间越长。因此,服务器根据该分布***中该所需的数据所在的集群到该目标集群的物理链路,确定传输该所需的数据的物理传输时延因素信息,作为第四因素信息。该第四因素信息可包括线缆长度等,且在其他条件不变的情况下,线缆长度与时延正相关。
确定各因素信息后,服务器可根据该第一因素信息、该第二因素信息、该第三因素信息及该第四因素信息中至少一种,确定时延因素信息。
S110:将所述时延因素信息输入预先训练的通信时延预测模型,以通过所述通信时延预测模型确定时延。
在本说明书一个或多个实施例中,通信时延预测模型包括第一通信时延预测模型、第二通信时延预测模型、第三通信时延预测模型及第四通信时延预测模型。
服务器将该第一因素信息输入预先训练的该第一通信时延预测模型,以通过该通信时延预测模型确定发送时延。将该第二因素信息输入预先训练的该第二通信时延预测模型,以通过该通信时延预测模型确定接收时延。将该第三因素信息输入预先训练的该第三通信时延预测模型,以通过该通信时延预测模型确定中转时延。将该第四因素信息,输入预先训练的该第四通信时延预测模型,以通过该通信时延预测模型确定传输时延。根据该发送时延、该接收时延、该中转时延及该传输时延中至少一种,确定总时延。例如,将上述时延直接相加,得到总时延,也可以将上述时延赋予不同的权重,再相加,得到总时延,本说明书对此不作限制。服务器还可以将时延因素信息输入通信时延预测模型,直接确定总时延,本说明书对此不做限制。
S112:根据所述时延,确定调度所述待执行任务的调度时间提前量。
S114:根据所述调度时间提前量,将所述待执行任务调度至所述目标集群。
具体的,服务器先确定执行所述待执行任务所需的数据所在的集群,再根据该调度时间提前量,将该所需的数据从该所需的数据所在的集群传输至该目标集群。其中,服务器确定当前任务的结束时刻,将当前任务的结束时刻作为初始调度时刻,根据该调度时间提前量确定最终调度时刻,根据最终调度时刻,将该所需的数据从该所需的数据所在的集群传输至该目标集群。例如,当前任务的结束时间为9点40,则初始调度时刻为9点40,调度时间提前量为10分钟,那么最终调度时刻为9点30,则服务器在9点30将该所需的数据从该所需的数据所在的集群传输至该目标集群。
基于图1所示的提升广域多集群分布式***执行任务效率的方法,本方法通过确定待执行任务的时延,根据该时延将执行该任务的数据提前调度到目标集群,提高了处理广域多集群分布式任务的效率。
针对步骤S114,若待执行任务与当前任务存在依赖关系,即执行待执行任务所需的数据包括当前任务的任务结果,服务器可根据调度时间提前量,将与该任务结果无关且执行待执行任务所需的其他数据,传输至目标集群,以提高执行分布式任务的效率。
此外,本说明书还提供对通信时延预测模型进行训练的方法,在对通信时延预测模型进行训练时,服务器先确定样本时延因素信息,并获取标签样本时延。
具体的,服务器先确定历史时延因素,将该历史时延因素作为样本时延因素信息,再确定该历史时延因素信息对应的时延,将该历史时延因素信息对应的时延确定为标签样本时延。
然后,将该样本时延因素信息输入该通信时延预测模型,以根据通信时延预测模型,确定输出时延。
最后,根据该输出时延及该标签样本时延,确定该输出时延与所述标签样本时延的差异,以最小化该差异为训练目标,训练该通信时延预测模型。其中,通信时延预测模型包括多元线性回归模型、卷积神经网络模型、循环神经网络模型中的至少一种,本说明书不限制该通信时延预测模型的类型。
例如,若该通信时延预测模型的类型为多元线性回归模型,则线性回归模型表示为:
其中,,i=1,2,……n,是历史观测数据,/>,i=1,2,……n,模型可以视为一个普通正态线性模型,在正态假设下,如果是满秩的,则参数/>的最小二乘估计为:
于是y的估计值为:
残差,则随机误差方差/>的最小二乘估计为:
对于多元线性模型而言,确定最适合的模型参数,使得残差平方和达到最小,以确定最终训练完成的通信时延预测模型。
若该通信时延预测模型的类型为递归神经网络模型,则设网络的输入层为r个节点,隐含层和关联层单元为n个节点,输出层为m个节点,那么,网络输入u为r维向量,隐含层输出x及关联层单元输出xc为n维向量,网络输出y为m维向量,连接权为/>维矩阵,/>为/>维矩阵,/>为/>维矩阵,网络的数学模型为:
其中,f(x)一般取sigmoid函数,即
为自连接反馈增益因子,当固定为0时,此网络为标准的递归神经网络,当/>不为0时,为修改的递归神经网络。
假设第k步***的实际输出为,定义误差函数为:
对连接权分别求偏导,由梯度下降法可得递归神经网络的学习算法:
其中、/>、/>分别是/>的学习步长
以上为本说明书的一个或多个实施的方法,基于同样的思路,本说明书还提供了相应的提升广域多集群分布式***执行任务效率的装置,如图4所示。
图4为本说明书提供的提升广域多集群分布式***执行任务效率的装置的示意图,包括:
队列确定模块400,用于确定由分布式任务中的各子任务构成的子任务队列;
待执行任务确定模块402,用于在所述子任务队列中,确定执行顺序在当前执行的任务之后的待执行任务;
第一信息确定模块404,用于根据所述待执行任务,确定所述待执行任务的信息,作为第一信息;
目标集群确定模块406,用于根据所述第一信息和每个集群的可用资源,在各集群中,确定执行所述待执行任务的目标集群;
时延因素确定模块408,用于确定所述目标集群的时延因素信息;
时延确定模块410,用于将所述时延因素信息输入预先训练的通信时延预测模型,以通过所述通信时延预测模型确定时延;
提前量确定模块412,用于根据所述时延,确定调度所述待执行任务的调度时间提前量;
调度模块414,用于根据所述调度时间提前量,将所述待执行任务调度至所述目标集群。
可选地,所述待执行任务确定模块402具体用于,确定预设数量的执行顺序在当前执行的任务之后的待执行任务。
可选地,所述目标集群确定模块406具体用于,根据所述第一信息,确定执行所述待执行任务的资源;根据执行所述待执行任务的资源及每个集群的可用资源,在各集群中,确定可用资源不少于执行所述待执行任务的资源的集群,作为目标集群。
可选地,所述时延因素信息确定模块408具体用于,根据执行所述待执行任务所需的数据所在的集群,确定发送所述所需的数据的发送时延因素信息,作为第一因素信息;根据所述目标集群,确定接收所述所需的数据的接收时延因素信息,作为第二因素信息;根据所述分布式***中所述所需的数据所在的集群到所述目标集群的传输链路中的中转设备,确定传输所述所需的数据时的中转处理时延因素信息,作为第三因素信息;根据所述分布式***中所述所需的数据所在的集群到所述目标集群的物理链路,确定传输所述所需的数据的物理传输时延因素信息,作为第四因素信息;根据所述第一因素信息、所述第二因素信息、所述第三因素信息及所述第四因素信息中至少一种,确定时延因素信息。
可选地,所述通信时延预测模型包括第一通信时延预测模型、第二通信时延预测模型、第三通信时延预测模型及第四通信时延预测模型;所述时延确定模块410具体用于,将所述第一因素信息输入预先训练的所述第一通信时延预测模型,以通过所述通信时延预测模型确定发送时延;将所述第二因素信息输入预先训练的所述第二通信时延预测模型,以通过所述通信时延预测模型确定接收时延;将所述第三因素信息输入预先训练的所述第三通信时延预测模型,以通过所述通信时延预测模型确定中转时延;将所述第四因素信息,输入预先训练的所述第四通信时延预测模型,以通过所述通信时延预测模型确定传输时延;根据所述发送时延、所述接收时延、所述中转时延及所述传输时延中至少一种,确定总时延。
可选地,所述调度模块414具体用于,确定执行所述待执行任务所需的数据所在的集群;将所述所需的数据从所述所需的数据所在的集群传输至所述目标集群。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1提供的提升广域多集群分布式***执行任务效率的方法。
本说明书还提供了图5所示的一种对应于图1的电子设备的结构示意图。如图5所示,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的提升广域多集群分布式***执行任务效率的方法。
当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device, PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、***、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、***或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (10)

1.一种提升广域多集群分布式***执行任务效率的方法,其特征在于,分布式***由分布在广域的多个集群构成,所述方法包括:
确定由分布式任务中的各子任务构成的子任务队列;
在所述子任务队列中,确定执行顺序在当前执行的任务之后的待执行任务;
根据所述待执行任务,确定所述待执行任务的信息,作为第一信息;
根据所述第一信息和每个集群的可用资源,在各集群中,确定执行所述待执行任务的目标集群;
确定所述目标集群的时延因素信息,所述时延因素信息包括发送时延因素信息、接收时延因素信息、中转处理时延因素信息及物理传输时延因素信息;
将所述时延因素信息输入预先训练的通信时延预测模型,以通过所述通信时延预测模型确定时延;
根据所述时延,确定调度所述待执行任务的调度时间提前量;
根据所述调度时间提前量,将执行所述待执行任务所需的数据调度至所述目标集群。
2.权利要求1所述的方法,其特征在于,确定执行顺序在当前执行的任务之后的待执行任务,具体包括:
确定预设数量的执行顺序在当前执行的任务之后的待执行任务。
3.权利要求1所述的方法,其特征在于,根据所述第一信息和每个集群的可用资源,在各集群中,确定执行所述待执行任务的目标集群,具体包括:
根据所述第一信息,确定执行所述待执行任务的资源;
根据执行所述待执行任务的资源及每个集群的可用资源,在各集群中,确定可用资源不少于执行所述待执行任务的资源的集群,作为目标集群。
4.权利要求1所述的方法,其特征在于,确定所述目标集群的时延因素信息,具体包括:
根据执行所述待执行任务所需的数据所在的集群,确定发送所述所需的数据的发送时延因素信息,作为第一因素信息;
根据所述目标集群,确定接收所述所需的数据的接收时延因素信息,作为第二因素信息;
根据所述分布式***中所述所需的数据所在的集群到所述目标集群的传输链路中的中转设备,确定传输所述所需的数据时的中转处理时延因素信息,作为第三因素信息;
根据所述分布式***中所述所需的数据所在的集群到所述目标集群的物理链路,确定传输所述所需的数据的物理传输时延因素信息,作为第四因素信息;
根据所述第一因素信息、所述第二因素信息、所述第三因素信息及所述第四因素信息中至少一种,确定时延因素信息。
5.如权利要求4所述的方法,其特征在于,所述通信时延预测模型包括第一通信时延预测模型、第二通信时延预测模型、第三通信时延预测模型及第四通信时延预测模型;
将所述时延因素信息输入预先训练的通信时延预测模型,以通过所述通信时延预测模型确定时延,具体包括:
将所述第一因素信息输入预先训练的所述第一通信时延预测模型,以通过所述通信时延预测模型确定发送时延;
将所述第二因素信息输入预先训练的所述第二通信时延预测模型,以通过所述通信时延预测模型确定接收时延;
将所述第三因素信息输入预先训练的所述第三通信时延预测模型,以通过所述通信时延预测模型确定中转时延;
将所述第四因素信息,输入预先训练的所述第四通信时延预测模型,以通过所述通信时延预测模型确定传输时延;
根据所述发送时延、所述接收时延、所述中转时延及所述传输时延中至少一种,确定总时延。
6.如权利要求1所述的方法,其特征在于,将执行所述待执行任务所需的数据调度至所述目标集群,具体包括:
确定执行所述待执行任务所需的数据所在的集群;
将所述所需的数据从所述所需的数据所在的集群传输至所述目标集群。
7.如权利要求1所述的方法,其特征在于,训练所述通信时延预测模型,具体包括:
确定样本时延因素信息,并获取标签样本时延;
将所述样本时延因素信息输入所述通信时延预测模型,以根据通信时延预测模型,确定输出时延;
根据所述输出时延及所述标签样本时延,确定所述输出时延与所述标签样本时延的差异;
以最小化所述差异为训练目标,训练所述通信时延预测模型。
8.如权利要求1所述的方法,其特征在于,所述通信时延预测模型包括多元线性回归模型、卷积神经网络模型、循环神经网络模型中的至少一种。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~8任一项所述的方法。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~8任一项所述的方法。
CN202310448223.3A 2023-04-24 2023-04-24 提升广域多集群分布式***执行任务效率的方法及装置 Active CN116185596B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310448223.3A CN116185596B (zh) 2023-04-24 2023-04-24 提升广域多集群分布式***执行任务效率的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310448223.3A CN116185596B (zh) 2023-04-24 2023-04-24 提升广域多集群分布式***执行任务效率的方法及装置

Publications (2)

Publication Number Publication Date
CN116185596A CN116185596A (zh) 2023-05-30
CN116185596B true CN116185596B (zh) 2023-08-01

Family

ID=86452472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310448223.3A Active CN116185596B (zh) 2023-04-24 2023-04-24 提升广域多集群分布式***执行任务效率的方法及装置

Country Status (1)

Country Link
CN (1) CN116185596B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116932175B (zh) * 2023-09-19 2024-01-09 之江实验室 一种基于序列生成的异构芯片任务调度方法以及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667379A (zh) * 2020-12-29 2021-04-16 深圳Tcl新技术有限公司 任务调度方法及服务器
CN113079200A (zh) * 2021-03-19 2021-07-06 北京三快在线科技有限公司 一种数据处理的方法、装置及***
CN115686792A (zh) * 2022-11-07 2023-02-03 中国建设银行股份有限公司 任务调度方法、装置、电子设备、存储介质及产品

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834571B (zh) * 2015-05-25 2018-05-25 南京大学 一种应用于云工作流调度的数据预取方法
CN108228323B (zh) * 2016-12-14 2020-09-01 龙芯中科技术有限公司 基于数据本地性的Hadoop任务调度方法及装置
CN107887033B (zh) * 2017-10-25 2021-04-02 青岛海信医疗设备股份有限公司 为终端预传输数据的方法、装置及服务器
US10771584B2 (en) * 2017-11-30 2020-09-08 Cisco Technology, Inc. Provisioning using pre-fetched data in serverless computing environments
CN110958681B (zh) * 2018-09-27 2023-09-05 中兴通讯股份有限公司 业务传输方法及装置
JP7326969B2 (ja) * 2019-07-30 2023-08-16 富士通株式会社 情報処理装置,ストレージシステム及びスケジューリングプログラム
CN110716802B (zh) * 2019-10-11 2022-05-17 恩亿科(北京)数据科技有限公司 一种跨集群的任务调度***及方法
CN114936086B (zh) * 2022-07-26 2022-11-18 之江实验室 一种多计算中心场景下的任务调度器、调度方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667379A (zh) * 2020-12-29 2021-04-16 深圳Tcl新技术有限公司 任务调度方法及服务器
CN113079200A (zh) * 2021-03-19 2021-07-06 北京三快在线科技有限公司 一种数据处理的方法、装置及***
CN115686792A (zh) * 2022-11-07 2023-02-03 中国建设银行股份有限公司 任务调度方法、装置、电子设备、存储介质及产品

Also Published As

Publication number Publication date
CN116185596A (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN111756550B (zh) 一种区块链共识方法及装置
CN107395665B (zh) 一种区块链业务受理及业务共识方法及装置
CN111930486B (zh) 任务选取数据处理方法、装置、设备及存储介质
JP6716149B2 (ja) ブロックチェーンベースのデータ処理方法および装置
US9503548B2 (en) Subscriber based priority of messages in a publisher-subscriber domain
CN116185596B (zh) 提升广域多集群分布式***执行任务效率的方法及装置
WO2021259041A1 (zh) Ai计算图的排序方法、装置、设备及存储介质
CN116432778B (zh) 一种数据处理的方法、装置、存储介质及电子设备
CN116467061B (zh) 一种任务执行的方法、装置、存储介质及电子设备
CN116185629A (zh) 一种任务执行的方法、装置、存储介质及电子设备
US10996860B2 (en) Method to improve mixed workload performance on storage devices that use cached operations
KR102469811B1 (ko) 서비스품질 제어를 위한 선입선출 버퍼 시스템
CN116347623B (zh) 一种任务调度的方法、装置、存储介质及电子设备
CN116382599B (zh) 一种面向分布式集群的任务执行方法、装置、介质及设备
Shi et al. Model predictive control under timing constraints induced by controller area networks
US20210326189A1 (en) Synchronization of processing elements that execute statically scheduled instructions in a machine learning accelerator
CN110825342B (zh) 存储调度器件和用于处理信息的***、方法及装置
CN109005060B (zh) 一种基于层级化高度异构分布式***的深度学习应用优化框架
CN115935563A (zh) 一种基于图神经网络的网络带宽预测方法及装置
CN109151007B (zh) 应用调度的数据处理方法、核心服务器与传输服务器
CN116996397B (zh) 一种网络丢包优化的方法、装置、存储介质及电子设备
CN117201334B (zh) 一种多模态网络流量预测方法及装置
CN118035618B (zh) 数据处理器、数据处理方法、电子设备、存储介质
CN112822125B (zh) 一种业务流的传输方法、装置、设备及存储介质
CN112711545B (zh) 一种基于数组链表式队列结构的数据存取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant