CN116708446B - 基于网络性能综合权值决策的算网调度服务方法及*** - Google Patents

基于网络性能综合权值决策的算网调度服务方法及*** Download PDF

Info

Publication number
CN116708446B
CN116708446B CN202310967433.3A CN202310967433A CN116708446B CN 116708446 B CN116708446 B CN 116708446B CN 202310967433 A CN202310967433 A CN 202310967433A CN 116708446 B CN116708446 B CN 116708446B
Authority
CN
China
Prior art keywords
computing
platform
storage
network
user client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310967433.3A
Other languages
English (en)
Other versions
CN116708446A (zh
Inventor
陈静
李文
葛菁
李娜
耿玉栋
张传福
孙浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Shandong Computer Science Center National Super Computing Center in Jinan
Original Assignee
Qilu University of Technology
Shandong Computer Science Center National Super Computing Center in Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology, Shandong Computer Science Center National Super Computing Center in Jinan filed Critical Qilu University of Technology
Priority to CN202310967433.3A priority Critical patent/CN116708446B/zh
Publication of CN116708446A publication Critical patent/CN116708446A/zh
Application granted granted Critical
Publication of CN116708446B publication Critical patent/CN116708446B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/10015Access to distributed or replicated servers, e.g. using brokers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/101Server selection for load balancing based on network conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及算力资源调度技术领域,提供了基于网络性能综合权值决策的算网调度服务方法及***,算网服务平台将筛选出来的不属于同一数据中心的存储平台和算力平台进行一一组合,得到若干组存储平台和算力平台的组合;根据每一种组合下存储平台与算力平台之间的不同网络性能指标的数值、不同网络性能指标的主观权重向量、不同网络性能指标的客观权重向量以及用户客户端的资源需求,构建存算分离场景或数据流转场景下的多目标优化函数,对函数进行求解,得到满足用户需求的最佳存储平台和算力平台组合;算网服务平台将用户客户端的作业和计算数据,部署到最佳存储平台和算力平台组合中进行存储和计算。提高了计算资源利用率和任务调度效率。

Description

基于网络性能综合权值决策的算网调度服务方法及***
技术领域
本发明涉及算力资源调度技术领域,特别是涉及基于网络性能综合权值决策的算网调度服务方法及***。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
在当前数字化时代,各行各业对于计算和数据处理的需求不断增长,对算力和存储能力的要求日益提高。随着科学研究、工业生产、社会民生等领域数据量的剧增,大规模数值计算、大数据分析、人工智能数据挖掘等任务的数量也大幅增加。计算场景的多样性对算力、存储和网络资源提出了多样化的需求,对算力能力和数量的需求也日益增长。然而,传统的单一类型算力平台往往难以满足复杂应用需求,迫切需要构建一个算力网络,实现各地算力平台的汇聚和统筹利用。特别是针对大模型训练和科学计算等大规模任务,更需要大数据、强算法、高算力的支持,面对上万亿规模的训练参数,多算力平台的协同计算势在必行。
然而,现有的广域资源协同调度方法在面对复杂多变的网络环境和任务需求时存在一些限制。这些方法通常采用静态的策略或简单的规则来进行任务分配,忽略了网络路径的差异性和资源的异构性,因此无法充分适应实际情况。这种简单的任务分配策略可能导致任务被分配到性能较差的网络路径或资源上,从而降低了***的效率和性能。例如,如果某个算力平台位于网络拓扑的边缘位置或网络瓶颈节点上,那么通过简单规则进行的任务分配可能会导致任务在网络传输过程中遭遇较高的延迟或带宽瓶颈,影响任务的完成时间和质量。
发明内容
为了解决现有技术的不足,本发明提供了基于网络性能综合权值决策的算网调度服务方法及***,提高了计算资源利用率和任务调度效率。
一方面,提供了基于网络性能综合权值决策的算网调度服务方法;
基于网络性能综合权值决策的算网调度服务方法,所述方法包括:
算网服务平台根据用户客户端的数据存储需求,筛选出若干个符合存储需求的存储平台;其中,若干个符合存储需求的存储平台所对应的数据中心,称之为目标组数据中心;
算网服务平台判断目标组数据中心是否有满足用户客户端算力需求的算力平台,如果有,则输出返回数据中心的编号;如果没有,就根据用户客户端的算力需求,从非目标组数据中心中筛选出符合算力需求的算力平台;
算网服务平台将筛选出来的不属于同一数据中心的存储平台和算力平台进行一一组合,得到若干组存储平台和算力平台的组合;计算每一种组合下存储平台与算力平台之间的不同网络性能指标的数值;
算网服务平台根据每一种组合下存储平台与算力平台之间的不同网络性能指标的数值,确定最佳存储平台和算力平台组合;算网服务平台将用户客户端的作业和计算数据,部署到最佳存储平台和算力平台组合中进行存储和计算。
另一方面,提供了基于网络性能综合权值决策的算网调度服务***;
基于网络性能综合权值决策的算网调度服务***,包括:算网服务平台,所述算网服务平台与用户客户端连接,所述算网服务平台还与若干个数据中心连接,每个数据中心均包括算力平台和存储平台;
算网服务平台根据用户客户端的数据存储需求,筛选出若干个符合存储需求的存储平台;其中,若干个符合存储需求的存储平台所对应的数据中心,称之为目标组数据中心;
算网服务平台判断目标组数据中心是否有满足用户客户端算力需求的算力平台,如果有,则输出返回数据中心的编号;如果没有,就根据用户客户端的算力需求,从非目标组数据中心中筛选出符合算力需求的算力平台;
算网服务平台将筛选出来的不属于同一数据中心的存储平台和算力平台进行一一组合,得到若干组存储平台和算力平台的组合;计算每一种组合下存储平台与算力平台之间的不同网络性能指标的数值;
算网服务平台根据每一种组合下存储平台与算力平台之间的不同网络性能指标的数值,确定最佳存储平台和算力平台组合;算网服务平台将用户客户端的作业和计算数据,部署到最佳存储平台和算力平台组合中进行存储和计算。
上述技术方案中的一个技术方案具有如下优点或有益效果:
1.提高任务完成效率:通过综合考虑网络性能指标和任务需求,***能够动态地将任务分配给性能较好的算力平台和网络路径,避免了任务被分配到性能较差的资源上的情况。这样可以有效减少任务执行时间,提高任务完成效率。
2.优化资源利用率:该***能够全面考虑广域范围内算力资源的异构性和性能差异,合理分配任务到不同的资源上。这样可以充分利用各个算力平台的计算能力、存储能力和网络带宽,提高资源的利用效率,避免资源浪费。
3.提供灵活的资源调度策略:基于综合权重决策模型,用户可以设定不同性能指标的权重参数,根据任务需求和优先级,灵活选择调度场景。这使得用户能够根据具体需求实现个性化的资源调度,满足不同场景下的多样化需求。
4.增强***的可扩展性和适应性:该***构建了算力网络和算力服务平台,将分布在广域范围内的算力资源进行统一管理和协同利用。这样可以提供高度可扩展的***架构,适应不断增长的计算需求和不同规模的任务执行。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例一的***架构图;
图2为本发明实施例一的方法流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
术语解释:
1、数据中心:数据中心是一个云服务中心,数据中心包括算力平台和存储平台。
2、算力平台:具有丰富的算力资源,能为任务的计算提供大量算力,主要用于卸载任务计算。
3、存储平台:具有丰富的存储资源,能为用户的数据提供存储空间,主要负责计算数据的存储。
4、算力网络:算力网络是一个基于计算资源的网络架构,旨在提供分布式计算和存储能力。它通常由多个数据中心节点组成,这些节点可以是物理服务器、虚拟机、容器等。这些节点通过网络连接在一起,形成一个协同工作的网络,共同完成计算任务。其关键思想是将计算和存储能力分布在网络中的各个节点上,以提高整体的计算效率和处理能力。节点之间可以通过网络进行通信和协同工作,以实现任务的分发、并行计算、数据交换和结果收集等功能。
5、多目标优化算法NSGA-III:引入了进化目标空间分解的概念,基本思想是将多目标优化问题转化为多个单目标优化子问题,通过分解目标空间,将问题转化为多个较小规模的子问题进行求解。
实施例一
本实施例提供了基于网络性能综合权值决策的算网调度服务方法;
如图1和图2所示,基于网络性能综合权值决策的算网调度服务方法,所述方法包括:
S101:算网服务平台接收用户客户端上传的资源需求,算网服务平台判断用户客户端是否具有足够的配额,如果是则进入S102;如果否就返回用户配额不足信息;
S102:算网服务平台根据用户客户端的数据存储需求,筛选出若干个符合存储需求的存储平台;其中,若干个符合存储需求的存储平台所对应的数据中心,称之为目标组数据中心;
S103:算网服务平台判断目标组数据中心是否有满足用户客户端算力需求的算力平台,如果有,则输出返回数据中心的编号;如果没有,就根据用户客户端的算力需求,从非目标组数据中心中筛选出符合算力需求的算力平台;
S104:算网服务平台将筛选出来的不属于同一数据中心的存储平台和算力平台进行一一组合,得到若干组存储平台和算力平台的组合;计算每一种组合下存储平台与算力平台之间的不同网络性能指标的数值;
S105:算网服务平台根据每一种组合下存储平台与算力平台之间的不同网络性能指标的数值,确定最佳存储平台和算力平台组合;
S106:算网服务平台将用户客户端的作业和计算数据,部署到最佳存储平台和算力平台组合中进行存储和计算。
进一步地,所有的数据中心组成算力网络,非目标组数据中心是指算力网络中除了目标组数据中心以外的数据中心。
如图1所示,所述算网服务平台,包括数据库、全局调度***、作业执行***;
所述数据库,用于存储关键数据,如用户、资源、作业信息;
所述全局调度***,主要为任务和计算数据提供卸载策略,计算出最佳的存储平台和算力平台;
所述作业执行***,主要根据全局调度计算出最佳存储平台和算力平台执行任务和数据计算。
所述算力平台,具有丰富的算力资源,能为任务的计算提供大量算力,主要用于卸载任务计算;
所述存储平台,具有丰富的存储资源,能为用户的数据提供存储空间,主要用于存储数据;设数据中心为D={D1,D2,...,Di},其中Di={(S1,C1),(S2,C2),...,(Sn,Cn)},其中S1,S2,...,Sn为存储平台,C1,C2,...,Cn为算力平台,存储平台存储类型storetype,剩余存储大小为storesizesurplus,所在存储平台为Si,算力平台剩余内存大小为memorysurplus,剩余cpu个数为cpusurplus,所在算力平台为Ci
设用户唯一标识为ID,用户内存配额为memoryquota,cpu配额为cpuquota,计算数据唯一标识为IDdata,用户存储配额的类型为storetypequota,用户存储配额的大小为storesizequota。用户请求的内存大小为memoryrequest,cpu个数为cpurequest;用户请求的存储类型为storetyperequest,计算数据大小为storesizerequest
进一步地,所述S101:算网服务平台接收用户客户端上传的资源需求,其中,资源需求包括:CPU内存容量和核数、存储容量、虚拟机规格、虚拟机数量、是否位置优先、是否网络优先、是否容量优先以及是否低价优先。
其中,位置优先,是指:与用户客户端ip地址的欧式距离最近的数据中心。
进一步地,所述S101:算网服务平台判断用户客户端是否具有足够的配额,具体包括:如果用户客户端内存配额大于用户客户端请求的内存大小,用户客户端CPU配额大于用户请求的CPU个数,用户存储配额类型符合用户客户端请求的存储配额类型,且用户存储配额的存储大小大于用户客户端请求的计算数据的大小,则表示用户客户端具有足够的配额,否则表示用户客户端不具有足够的配额。
示例性地,算网服务平台接收到用户资源需求(cpurequest,memoryrequest,storetyperequest,storesizerequest),根据用户的信息ID判断用户是否具有足够的配额,即:memoryquota>memoryrequest,cpuquota>cpurequest,storetypequota=storetyperequest,storesizequota>storesizerequest,若满足条件,则进行下一步,若不满足,则返回用户配额不足信息。
进一步地,所述S102:算网服务平台根据用户客户端的数据存储需求,筛选出若干个符合存储需求的存储平台,其中,符合存储需求的存储平台,是指:
存储类型符合用户客户端请求,且,存储容量大于用户客户端的数据存储需求的存储平台。
示例性地,算网服务平台根据计算数据的唯一标识为IDdata查询出计算数据的所需存储类型为storetyperequest,计算数据大小为storesizerequest,根据storetype=storetyperequest、storesizesurplus>storesizerequest筛选出符合计算数据的存储平台为Sa={Sa1,Sa2,...,San},存储平台所在数据中心Da={Da1,Da2,...,Dan}。
进一步地,所述S103:算网服务平台判断目标组数据中心是否有满足用户客户端算力需求的算力平台,包括:
如果算力平台的剩余内存大小大于用户客户端算力需求的内存,且,算力平台的剩余CPU个数多于用户客户端算力需求的CPU,则目标组数据中心表示有满足用户客户端算力需求的算力平台,否则表示没有满足用户客户端算力需求的算力平台。
进一步地,S103:如果没有,就根据用户客户端的算力需求,从非目标组的数据中心中筛选出符合算力需求的算力平台,其中,非目标组的数据中心,是指所有数据中心中除了目标组数据中心以外的剩余数据中心。
应理解地,算网服务平台的全局调度***,包含过滤层和决策层。过滤层进行筛选,根据用户信息的算力需求筛选出其他数据中心的所有合适的算力平台Ca={Ca1,Ca2,...,Can},即满足memorysurplus>memoryrequest,cpusurplus>cpurequest的算力平台,若无则表示当前的算网***没有合适的算力平台,若有则返回所有合适的算力平台Ca={Ca1,Ca2,...,Can}与对应的所在的数据中心Da={Da1,Da2,...,Dan}。
进一步地,S104:算网服务平台将筛选出来的不属于同一数据中心的存储平台和算力平台进行一一组合,得到若干组存储平台和算力平台的组合;计算每一种组合下存储平台与算力平台之间的不同网络性能指标的数值,其中,不同网络性能指标,包括:存储平台与算力平台之间的网络带宽、网络时延、网络抖动和网络丢包率。
示例性地,过滤层筛选出那些不属于同一数据中心的存算平台的组合。这些被筛选出的组合将被发送到算网服务平台的全局调度***的决策层进行进一步的处理和决策。
进一步地,所述S104:计算每一种组合下存储平台与算力平台之间的不同网络性能指标的数值,具体包括:
周期性计算出不在同一数据中心的算力平台Ca={Ca1,Ca2,...,Can}与存储平台Sa={Sa1,Sa2,...,San}两两间的网络带宽B={B1,B2,...,Bn}、网络时延L={L1,L2,...,Ln}、网络抖动J={J1,J2,...,Jn}和网络丢包率P={P1,P2,...,Pn}数据,每个算力平台Ca={Ca1,Ca2,...,Can}与存储平台Sa={Sa1,Sa2,...,San}两两间测试多次数据;
将获取的网络性能数据通过截断平均值算法进行数据预处理:首先,将数据按照降序排序,其次,去掉最大值和最小值数量分别为数据总量的2%,最后计算剩余值的平均值,作为最终的网络性能数据;将最终的网络性能数据写入算网服务平台数据库中。
表1网络性能数据
进一步地,所述S105:算网服务平台根据每一种组合下存储平台与算力平台之间的不同网络性能指标的数值,确定最佳存储平台和算力平台组合,包括:
算网服务平台根据每一种组合下存储平台与算力平台之间的不同网络性能指标的数值、不同网络性能指标的主观权重向量、不同网络性能指标的客观权重向量以及用户客户端的资源需求,构建存算分离场景或数据流转场景下的多目标优化函数,对函数进行求解,得到满足用户需求的最佳存储平台和算力平台组合。
进一步地,所述S105:不同网络性能指标的主观权重向量,包括:
根据主观权重决策算法,计算不同网络性能指标的主观权重向量。
进一步地,所述S105:不同网络性能指标的主观权重向量,具体包括:
S105-11:构建AHP的层次结构:明确决策问题的目标和准则,并将它们组织成层次结构,有两个层次:第一个层次是选择存储平台和算力平台,第二个层次是网络质量指标,网络质量指标,包括:带宽、延迟、抖动、丢包率;
S105-12:比较指标之间的相对重要性:对于层次结构中的每一对准则,进行两两比较,确定它们之间的相对重要性;使用1-9的标度,其中1表示相同重要性,3表示轻微重要性差异,5表示中等重要性差异,7表示强烈重要性差异,9表示极端重要性差异,根据专家判断或专家经验,填写比较矩阵;
表2专家经验
带宽(B) 延迟(D) 抖动(J) 丢包率(P)
B/B=1 B/D=5 B/J=3 B/P=2
D/B=1/5 D/D=1 D/J=13 D/P=1/2
J/B=1/3 J/D=3 J/J=1 J/P=1/2
P/B=1/2 P/D=2 P/J=2 P/P=1
S105-13:构建比较矩阵:构建比较矩阵A,其中aij表示准则i相对于准则j的重要性;对于j个网络质量指标的比较矩阵表示为:
S105-14:对比较矩阵进行归一化处理,确保每列的和为1:
首先对于每一列,计算该列元素的和:
将每个元素除以对应列的和,得到归一化比较矩阵:
S105-15:计算权重向量:计算归一化比较矩阵每行的平均值,得到主观权重向量Vj=(V1,V2,V3,V4);
S105-16:计算一致性比率(Consistency Ratio,CR)来检验一致性:如果CR小于0.1,则判断矩阵具有合理的一致性。
进一步地,所述S105:不同网络性能指标的客观权重向量,包括:
根据熵值法,计算不同网络性能指标的客观权重向量。
进一步地,所述S105:不同网络性能指标的客观权重向量,具体包括:
S105-21:标准化数据:首先,将原始数据进行标准化,以便将不同指标的值范围统一化,使用正向指标和负向指标两种标准化方法,将每个指标的值映射到0到1之间,标准准化公式如下:
正向指标时:
负向指标时:
其中,X′ij是标准化后的值,Xij是原始值,和/>分别是指标j的最小值和最大值;
S105-22:计算概率矩阵pij
S105-23:计算每个性能指标的熵值,熵值Ej的计算公式如下:
其中,Ej是指标j的熵值,n是候选方案数量,pij是概率矩阵;
S105-24:计算指标的权重,指标的权重计算公式如下:
其中,Wj是指标j的权重,m是性能指标的个数;
最终,得到各个性能指标的客观权重向量Wj=β=(βi,β2,β3,β4)T
进一步地,所述S105,还包括:
通过建立一个最小二乘法的目标函数来构建综合权值决策模型,得出性能指标的综合权重向量公式:
Fj=λVj+(1-λ)Wj; (9)
Fj=(λV1+(1-λ)W1,λV2+(1-λ)W2,λV3+(1-λ)W3,λV4+(1-λ)W4); (10)
其中,Fj是第j个网络性能指标的综合权值,0<λ<1是主客观偏好系数加权因子,算网服务平台可使用综合权重向量公式对权值向量进行加权。
进一步地,所述S105:算网服务平台根据每一种组合下存储平台与算力平台之间的不同网络性能指标的数值、不同网络性能指标的主观权重向量、不同网络性能指标的客观权重向量以及用户客户端的资源需求,构建存算分离场景或数据流转场景下的多目标优化函数,对函数进行求解,得到满足用户需求的最佳存储平台和算力平台组合,其中,判断进入存算分离场景或数据流转场景的判断依据是:
算网服务平台的网络有效性阈值H和真实网络有效性Kj之间的对比结果:
当算网服务平台的网络有效性阈值H小于网络有效性Kj,进入存算分离场景。
当算网服务平台的网络有效性阈值H大于网络有效性Kj,进入数据流转场景。
算网服务平台的网络有效性阈值H,经过带宽、延迟、抖动、丢包率和时间的统计分析后,形成正态分布的曲线,在曲线中找最大斜率值作为阈值;
真实网络有效性Kj,具体公式为:
其中,Br、Dr、Jr、Pr分别是当前存储平台与算力平台之间的网络性能指标带宽、延迟、抖动、丢包率的真实数值,Bmax、Dmax、Jmax、Pmax分别是算网服务平台所记录当前存储平台与算力平台之间的网络性能指标宽、延迟、抖动、丢包率的最大值。
进一步地,所述构建存算分离场景下的多目标优化函数,对函数进行求解,得到满足用户需求的最佳存储平台和算力平台组合,具体包括:
S105-31:判断位置优先、网络优先、容量优先、低价优先四个选项,用户是单选还是多选,若单选,进入S105-32;若多选,进入步骤S105-33;
S105-32:根据用户需求,使用对应的最小化函数,输出对应的算力平台和算力平台所在的数据中心:
位置优先:计算所有目标数据中心与数据所在中心的欧式距离;
其中,lf表示位置优先的目标数据中心,xtarget和ytarget表示目标数据中心所在城市的经纬度,为二维行向量,xstorage和ystorage表示当前存储数据节点所在城市的经纬度,为二维行向量;
网络优先:计算所有目标数据中心的网络性能参数;
其中,时延Tdelay、吞吐量Ttp、丢包率Tlr、抖动Tdv,为四维行向量
表示目标数据中心的网络参数,if表示网络优先的目标数据中心;
容量优先:获取所有目标数据中心的剩余GPU,选择剩余量最大的一个;
其中,GPUavaiable表示目标数据中心的剩余有效的GPU量,vf表示容量优先的目标数据中心;
低价优先:计算所有目标数据中心的,选择最低的一个;
其中,pf表示容量优先的目标数据中心,表示目标数据中心的存储单价,/>表示目标数据中心的CPU单价,/>表示目标数据中心的GPU单价;
S105-33:根据用户需求,构造多目标优化函数,从位置优先、网络优先、容量优先、低价优先4个策略中随机选择一个,输出最佳存储平台和算力平台组合:
位置优先且网络优先:结合位置与网络信息,计算多目标优化函数;
其中,lif表示位置优先且网络优先的目标数据中心,xtarget和ytarget表示目标数据中心所在城市的经纬度,为二维行向量,xstorage和ystorage表示当前存储数据节点所在城市的经纬度,为二维行向量;时延Tdelay、吞吐量Ttp、丢包率Tlr、抖动Tdv,为四维行向量,表示目标数据中心的网络参数;
位置优先且容量优先:结合位置与容量需求,计算多目标优化函数;
其中,lvf表示位置优先且容量优先的目标数据中心,xtarget和ytarget表示目标数据中心所在城市的经纬度,为二维行向量,xstorage和ystorage表示当前存储数据节点所在城市的经纬度,为二维行向量;GPUavaiable表示目标数据中心的剩余有效的GPU量;
位置+低价优先:结合位置与低价需求,计算多目标优化函数;
其中,lpf表示位置优先且容量优先的目标数据中心,xtarget和ytarget表示目标数据中心所在城市的经纬度,为二维行向量,xstorage和ystorage表示当前存储数据节点所在城市的经纬度,为二维行向量;表示目标数据中心的存储单价,/>表示目标数据中心的CPU单价,/>表示目标数据中心的GPU单价
网络+容量优先:结合网络与容量需求,计算多目标优化函数;
/>
其中,ivf表示位置优先且容量优先的目标数据中心,时延Tdelay、吞吐量Ttp、丢包率Tlr、抖动Tdv,为四维行向量,表示目标数据中心的网络参数;GPUavaiable表示目标数据中心的剩余有效的GPU量;
网络+低价优先:结合网络与低价需求,计算多目标优化函数;
其中,ipf表示位置优先且容量优先的目标数据中心,时延Tdelay、吞吐量Ttp、丢包率Tlr、抖动Tdv,为四维行向量,表示目标数据中心的网络参数;pf表示容量优先的目标数据中心,表示目标数据中心的存储单价,/>表示目标数据中心的CPU单价,/>表示目标数据中心的GPU单价;
容量+低价优先:结合容量与低价需求,计算多目标优化函数;
其中,vpf表示位置优先且容量优先的目标数据中心,;GPUavaiable表示目标数据中心的剩余有效的GPU量;pf表示容量优先的目标数据中心,表示目标数据中心的存储单价,/>表示目标数据中心的CPU单价,/>表示目标数据中心的GPU单价;
示例性地,设通过计算多目标优化函数(位置优先和网络优先)得出存储平台Sa=S1(属于数据中心D1)和算力平台Ca=C5(属于数据中心D5)最为合适。
进一步地,所述构建存算数据流转场景下的多目标优化函数,对函数进行求解,得到满足用户需求的最佳存储平台和算力平台组合,具体包括:
S105-41:获取所有算力平台所在的数据中心的图形处理器(GPU,GraphicProcessing Unit),对内存按照内存由多到少的顺序进行排序后,留下满足用户GPU和内存需求的数据中心;
S105-42:获得S105-41各算力平台所在的数据中心的可用存储容量,按照可用存储容量由多到少的顺序进行排序后,留下满足用户存储需求的数据中心;
S105-43:计算剩余算力平台所在的数据中心的数据流转时间,并按照计算的数据流转时间由多到少的顺序对算力平台进行排序;
数据流转时间,是通过计算相邻两个数据中心之间待流转的数据容量与当前两个数据中心之间的带宽的商得到的;
S105-44:根据S105-43的排序,计算每个算力平台的网络有效性;
S105-45:判断是否至少有一个算力平台所在的数据中心的网络有效性满足用户需求,若是,进入步骤S105-46;若否,获取剩余算力平台所在的数据中心的可用存储容量,留下满足用户存储需求的数据中心,随机选择一个数据中心作为目标数据中心,并返回数据中心ID;
S105-46:判断目标数据中心的数据是否超过1个,若是,进入步骤S105-47;若否,输出唯一的数据中心名称;
S105-47:将用户选择的多种优先策略的需求加到多目标优化函数中,解多目标优化函数,输出最佳存储平台和算力平台组合。
进一步地,S105-47:将用户选择的多种优先策略的需求加到多目标优化函数中,解多目标优化函数,输出最佳存储平台和算力平台组合,其中,多目标优化函数(NSGA-III)。
决策层将进入场景后的输出结果发送给作业执行***。
算网服务平台中作业执行***根据全局调度***的决策层输出结果来执行任务。
作业执行***根据全局调度***选择的最佳存算平台组合,将用户的作业和计算数据部署到相应的存储平台和算力平台上进行执行。同时,作业执行***监控作业的执行进度和状态,并将实时的执行情况反馈给用户。
本发明实现了将分布在广域网络中的计算资源进行池化和集中管理。通过建立一个统一的资源管理***,可以对不同地理位置和网络环境下的计算资源进行有效的管理和调度。
本发明提供了一种智能化的资源调度算法,能够根据用户的需求和任务特性,以及各个计算资源的状态和性能指标,动态地选择最佳的资源组合进行任务调度。这样可以最大程度地提高计算资源的利用率,并提升任务的执行效率。
本发明还包括对广域网络的性能优化机制。通过分析和评估不同存算平台组合之间的网络性能指标,***可以选择网络延迟较低、带宽较大的组合,从而减少任务执行过程中的通信延迟,提高数据传输效率。
实施例二
本实施例提供了基于网络性能综合权值决策的算网调度服务***;
基于网络性能综合权值决策的算网调度服务***,包括:算网服务平台,所述算网服务平台与用户客户端连接,所述算网服务平台还与若干个数据中心连接,每个数据中心均包括算力平台和存储平台;
算网服务平台接收用户客户端上传的资源需求,算网服务平台判断用户客户端是否具有足够的配额,如果是则进入下一步;如果否就返回用户配额不足信息;
算网服务平台根据用户客户端的数据存储需求,筛选出若干个符合存储需求的存储平台;其中,若干个符合存储需求的存储平台所对应的数据中心,称之为目标组数据中心;
算网服务平台判断目标组数据中心是否有满足用户客户端算力需求的算力平台,如果有,则输出返回数据中心的编号;如果没有,就根据用户客户端的算力需求,从非目标组数据中心中筛选出符合算力需求的算力平台;
算网服务平台将筛选出来的不属于同一数据中心的存储平台和算力平台进行一一组合,得到若干组存储平台和算力平台的组合;计算每一种组合下存储平台与算力平台之间的不同网络性能指标的数值;
算网服务平台根据每一种组合下存储平台与算力平台之间的不同网络性能指标的数值、不同网络性能指标的主观权重向量、不同网络性能指标的客观权重向量以及用户客户端的资源需求,构建存算分离场景或数据流转场景下的多目标优化函数,对函数进行求解,得到满足用户需求的最佳存储平台和算力平台组合;
算网服务平台将用户客户端的作业和计算数据,部署到最佳存储平台和算力平台组合中进行存储和计算。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.基于网络性能综合权值决策的算网调度服务方法,其特征是,包括:
算网服务平台根据用户客户端的数据存储需求,筛选出若干个符合存储需求的存储平台;其中,若干个符合存储需求的存储平台所对应的数据中心,称之为目标组数据中心;
算网服务平台判断目标组数据中心是否有满足用户客户端算力需求的算力平台,如果有,则输出返回数据中心的编号;如果没有,就根据用户客户端的算力需求,从非目标组数据中心中筛选出符合算力需求的算力平台;
算网服务平台将筛选出来的不属于同一数据中心的存储平台和算力平台进行一一组合,得到若干组存储平台和算力平台的组合;计算每一种组合下存储平台与算力平台之间的不同网络性能指标的数值;
算网服务平台根据每一种组合下存储平台与算力平台之间的不同网络性能指标的数值,确定最佳存储平台和算力平台组合;算网服务平台将用户客户端的作业和计算数据,部署到最佳存储平台和算力平台组合中进行存储和计算;
算网服务平台根据每一种组合下存储平台与算力平台之间的不同网络性能指标的数值,确定最佳存储平台和算力平台组合,具体包括:
算网服务平台根据每一种组合下存储平台与算力平台之间的不同网络性能指标的数值、不同网络性能指标的主观权重向量、不同网络性能指标的客观权重向量以及用户客户端的资源需求,构建存算分离场景下的多目标优化函数,对函数进行求解,得到满足用户需求的最佳存储平台和算力平台组合,
其中,判断进入存算分离场景的判断依据是:
算网服务平台的网络有效性阈值和真实网络有效性/>之间的对比结果:
当算网服务平台的网络有效性阈值小于网络有效性/>,进入存算分离场景,具体为:
算网服务平台的网络有效性阈值,经过带宽、延迟、抖动、丢包率和时间的统计分析后,形成正态分布的曲线,在曲线中找最大斜率值作为阈值;
真实网络有效性,具体公式为:
其中,、/>、/>、/>分别是当前存储平台与算力平台之间的网络性能指标带宽、延迟、抖动、丢包率的真实数值,/>、/>、/>、/>分别是算网服务平台所记录当前存储平台与算力平台之间的网络性能指标宽、延迟、抖动、丢包率的最大值;
其中,是主客观偏好系数加权因子,/>、/>、/>和/>是客观权重向量,/>、/>和/>是主观权重向量;
构建存算分离场景下的多目标优化函数,对函数进行求解,得到满足用户需求的最佳存储平台和算力平台组合,具体包括:
判断位置优先、网络优先、容量优先、低价优先四个选项,用户是单选还是多选;
若单选,则根据用户需求,使用对应的最小化函数,输出对应的算力平台和算力平台所在的数据中心;所述用户需求,包括:位置优先、网络优先、容量优先、低价优先中的一种;
若多选,则根据用户需求,构造多目标优化函数,从位置优先、网络优先、容量优先、低价优先四个策略中随机选择一个,输出最佳存储平台和算力平台组合。
2.如权利要求1所述的基于网络性能综合权值决策的算网调度服务方法,其特征是,所述算网服务平台根据用户客户端的数据存储需求,筛选出若干个符合存储需求的存储平台之前还包括:
算网服务平台接收用户客户端上传的资源需求,算网服务平台判断用户客户端是否具有足够的配额,如果是则进入下一步;如果否就返回用户配额不足信息。
3.如权利要求2所述的基于网络性能综合权值决策的算网调度服务方法,其特征是,算网服务平台判断用户客户端是否具有足够的配额,具体包括:
如果用户客户端内存配额大于用户客户端请求的内存大小,用户客户端CPU配额大于用户请求的CPU个数,用户存储配额类型符合用户客户端请求的存储配额类型,且用户存储配额的存储大小大于用户客户端请求的计算数据的大小,则表示用户客户端具有足够的配额,否则表示用户客户端不具有足够的配额。
4.如权利要求1所述的基于网络性能综合权值决策的算网调度服务方法,其特征是,算网服务平台判断目标组数据中心是否有满足用户客户端算力需求的算力平台,包括:
如果算力平台的剩余内存大小大于用户客户端算力需求的内存,且,算力平台的剩余CPU个数多于用户客户端算力需求的CPU,则目标组数据中心表示有满足用户客户端算力需求的算力平台,否则表示没有满足用户客户端算力需求的算力平台。
5.如权利要求1所述的基于网络性能综合权值决策的算网调度服务方法,其特征是,算网服务平台将筛选出来的不属于同一数据中心的存储平台和算力平台进行一一组合,得到若干组存储平台和算力平台的组合;计算每一种组合下存储平台与算力平台之间的不同网络性能指标的数值,其中,不同网络性能指标,包括:存储平台与算力平台之间的网络带宽、网络时延、网络抖动和网络丢包率;
不同网络性能指标的主观权重向量,包括:根据主观权重决策算法,计算不同网络性能指标的主观权重向量;
不同网络性能指标的客观权重向量,包括:根据熵值法,计算不同网络性能指标的客观权重向量。
6.采用如权利要求1所述的基于网络性能综合权值决策的算网调度服务方法的基于网络性能综合权值决策的算网调度服务***,其特征是,包括:算网服务平台,所述算网服务平台与用户客户端连接,所述算网服务平台还与若干个数据中心连接,每个数据中心均包括算力平台和存储平台;
算网服务平台接收用户客户端上传的资源需求,算网服务平台判断用户客户端是否具有足够的配额,如果是则进入下一步;如果否就返回用户配额不足信息;
算网服务平台根据用户客户端的数据存储需求,筛选出若干个符合存储需求的存储平台;其中,若干个符合存储需求的存储平台所对应的数据中心,称之为目标组数据中心;
算网服务平台判断目标组数据中心是否有满足用户客户端算力需求的算力平台,如果有,则输出返回数据中心的编号;如果没有,就根据用户客户端的算力需求,从非目标组数据中心中筛选出符合算力需求的算力平台;
算网服务平台将筛选出来的不属于同一数据中心的存储平台和算力平台进行一一组合,得到若干组存储平台和算力平台的组合;计算每一种组合下存储平台与算力平台之间的不同网络性能指标的数值;
算网服务平台根据每一种组合下存储平台与算力平台之间的不同网络性能指标的数值,确定满足用户需求的最佳存储平台和算力平台组合;
算网服务平台将用户客户端的作业和计算数据,部署到最佳存储平台和算力平台组合中进行存储和计算。
CN202310967433.3A 2023-08-03 2023-08-03 基于网络性能综合权值决策的算网调度服务方法及*** Active CN116708446B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310967433.3A CN116708446B (zh) 2023-08-03 2023-08-03 基于网络性能综合权值决策的算网调度服务方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310967433.3A CN116708446B (zh) 2023-08-03 2023-08-03 基于网络性能综合权值决策的算网调度服务方法及***

Publications (2)

Publication Number Publication Date
CN116708446A CN116708446A (zh) 2023-09-05
CN116708446B true CN116708446B (zh) 2023-11-21

Family

ID=87839558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310967433.3A Active CN116708446B (zh) 2023-08-03 2023-08-03 基于网络性能综合权值决策的算网调度服务方法及***

Country Status (1)

Country Link
CN (1) CN116708446B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117596246A (zh) * 2024-01-12 2024-02-23 山东省计算中心(国家超级计算济南中心) 基于异构资源度量特征的算力网络工作流调度方法及***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102781072A (zh) * 2012-07-27 2012-11-14 南京邮电大学 基于多属性决策和群组决策的网络选择方法
CN112132447A (zh) * 2020-09-21 2020-12-25 江苏省未来网络创新研究院 一种基于区块链的算力网络信任评估与保障算法
CN114399309A (zh) * 2022-03-24 2022-04-26 北京微芯感知科技有限公司 一种区块链交易冗余调度方法及***
WO2022095620A1 (zh) * 2020-11-04 2022-05-12 北京中电飞华通信有限公司 一种基于智能电网的异构网络接入选择方法及相关设备
CN115168061A (zh) * 2022-09-09 2022-10-11 北京镜舟科技有限公司 一种计算存储分离方法、***、电子设备及存储介质
CN115757064A (zh) * 2022-11-16 2023-03-07 中国联合网络通信集团有限公司 异构算力综合评估方法、装置及介质
CN116208567A (zh) * 2023-02-15 2023-06-02 山东海量信息技术研究院 跨域数据中心sdn网络资源的流量调度的方法和***
CN116361006A (zh) * 2023-03-31 2023-06-30 山东省计算中心(国家超级计算济南中心) 面向存算分离的算网资源协同调度方法及***
CN116501711A (zh) * 2023-04-28 2023-07-28 山东省计算中心(国家超级计算济南中心) 一种基于“存算分离”架构的算力网络任务调度方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102781072A (zh) * 2012-07-27 2012-11-14 南京邮电大学 基于多属性决策和群组决策的网络选择方法
CN112132447A (zh) * 2020-09-21 2020-12-25 江苏省未来网络创新研究院 一种基于区块链的算力网络信任评估与保障算法
WO2022095620A1 (zh) * 2020-11-04 2022-05-12 北京中电飞华通信有限公司 一种基于智能电网的异构网络接入选择方法及相关设备
CN114399309A (zh) * 2022-03-24 2022-04-26 北京微芯感知科技有限公司 一种区块链交易冗余调度方法及***
CN115168061A (zh) * 2022-09-09 2022-10-11 北京镜舟科技有限公司 一种计算存储分离方法、***、电子设备及存储介质
CN115757064A (zh) * 2022-11-16 2023-03-07 中国联合网络通信集团有限公司 异构算力综合评估方法、装置及介质
CN116208567A (zh) * 2023-02-15 2023-06-02 山东海量信息技术研究院 跨域数据中心sdn网络资源的流量调度的方法和***
CN116361006A (zh) * 2023-03-31 2023-06-30 山东省计算中心(国家超级计算济南中心) 面向存算分离的算网资源协同调度方法及***
CN116501711A (zh) * 2023-04-28 2023-07-28 山东省计算中心(国家超级计算济南中心) 一种基于“存算分离”架构的算力网络任务调度方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
separating storage and comppute with the databricks lakehouse platform;deeptaansshu kumar等;《2022 IEEE 9th international conference on data science and advanced analytics》;全文 *

Also Published As

Publication number Publication date
CN116708446A (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
CN107291545A (zh) 计算集群中多用户的任务调度方法及设备
CN116708446B (zh) 基于网络性能综合权值决策的算网调度服务方法及***
US20050177833A1 (en) Method and apparatus for reassigning objects to processing units
CN111614754B (zh) 面向雾计算的成本效率优化的动态自适应任务调度方法
CN104484233B (zh) 一种资源分配方法
CN111901145B (zh) 一种电力物联网异构共享资源分配***和方法
CN112187535B (zh) 雾计算环境下服务器部署方法及装置
WO2023087658A1 (zh) 一种任务调度方法、装置、设备及可读存储介质
CN115220916B (zh) 视频智能分析平台的自动算力调度方法、装置及***
CN116361006B (zh) 面向存算分离的算网资源协同调度方法及***
CN117931459B (zh) 一种算力资源的弹性评价方法及***
CN115225643A (zh) 点云平台大数据分布式管理方法、装置及***
CN116662010A (zh) 基于分布式***环境下的动态资源分配方法及***
CN117596122B (zh) 一种通算融合网络架构及资源适配方法
CN107155215B (zh) 一种应用归属服务集群的分配方法和装置
CN112437449B (zh) 联合资源分配方法
CN115421885B (zh) 一种分布式多目标云任务的调度方法、装置及云服务***
EP1524599A1 (en) A method of reassigning objects to processing units
CN116954905A (zh) 一种面向Flink大数据的任务编排与迁移方法
CN116302481B (zh) 基于稀疏知识图谱链接预测的资源分配方法及***
CN109298949A (zh) 一种分布式文件***的资源调度***
CN110427217B (zh) 基于内容的发布订阅***匹配算法轻量级并行方法和***
CN114035919A (zh) 基于配电网分层分布特征的任务调度***及方法
CN113727450B (zh) 一种基于资源隔离与复用的网络切片无线资源分配方法
Aparnaa et al. An Enhanced Adaptive Scoring Job Scheduling algorithm for minimizing job failure in heterogeneous grid network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant