CN116361006A - 面向存算分离的算网资源协同调度方法及*** - Google Patents
面向存算分离的算网资源协同调度方法及*** Download PDFInfo
- Publication number
- CN116361006A CN116361006A CN202310357823.9A CN202310357823A CN116361006A CN 116361006 A CN116361006 A CN 116361006A CN 202310357823 A CN202310357823 A CN 202310357823A CN 116361006 A CN116361006 A CN 116361006A
- Authority
- CN
- China
- Prior art keywords
- center
- storage
- computing
- resource
- resources
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015654 memory Effects 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000000926 separation method Methods 0.000 title claims abstract description 29
- 230000005540 biological transmission Effects 0.000 claims abstract description 62
- 238000004364 calculation method Methods 0.000 claims abstract description 54
- 238000012216 screening Methods 0.000 claims abstract description 52
- 230000006870 function Effects 0.000 claims abstract description 17
- 230000005055 memory storage Effects 0.000 abstract 1
- 239000003795 chemical substances by application Substances 0.000 description 8
- 238000012545 processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5066—Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了面向存算分离的算网资源协同调度方法及***,获取多个终端设备发送的用于为任务分配存储资源的资源调度请求,筛选出存储备选中心群;获取多个终端设备发送的用于为任务分配算力资源的资源调度请求,筛选出算力备选中心群;计算存储备选中心群和算力备选中心群中,存储中心和算力中心两两之间网络传输质量数据;根据网络传输质量数据,计算出网络传输质量评分和存算中心匹配评分;根据网络传输质量评分和存算中心匹配评分,给出不同策略需求的调度决策评分函数;获取终端设备发送的策略需求,根据策略需求,选择对应的调度决策评分函数,筛选出调度决策评分最大值所对应的方案输出,根据筛选的中心实现终端设备任务的存储和计算。
Description
技术领域
本发明涉及资源协同调度技术领域,特别是涉及面向存算分离的算网资源协同调度方法及***。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
近年来,随着数据密集型和计算密集型任务的数据规模和计算规模逐步增加,采用分布式资源为大数据处理提供所需的计算能力和存储能力逐渐成为数据处理的重要选择。用户数据存储于一个数据中心的存储***中,而计算所需的算力可能与数据不处于同地通数据中心,网络高带宽低延迟时,跨域多中心存算分离计算成为算力网络典型计算模式。算力网络环境下,根据应用需求,如何选择存储和算力中心实现资源的高效利用及任务高效执行是需要解决的重点问题。
目前常见的资源调度方法集中于云计算领域,大多以提高资源利用、节能降耗、成本收益为目标,大多集中于域内异构资源的调度研究。近年来云边端协同调度、多集群下容器调度方法成为研究热点,大多集中于同构算力平台间的同构或异构资源调度,很少面向异地跨域环境下,存储中心和算力中心异构存算资源的协同调度研究,算力网络环境下应用场景、资源需求更加复杂,存算资源的协同调度面临更大的挑战。
发明内容
为了解决现有技术的不足,本发明提供了面向存算分离的算网资源协同调度方法及***;提高存储和算力资源协同调度能力以及任务执行效率。
第一方面,本发明提供了面向存算分离的算网资源协同调度方法;
面向存算分离的算网资源协同调度方法,包括:
周期性地获取存储中心资源使用情况的数据;获取多个终端设备发送的用于为任务分配存储资源的资源调度请求,根据为任务分配存储资源的资源调度请求和存储中心资源使用情况的数据,筛选出存储备选中心群;
周期性地获取算力中心资源使用情况的数据;获取多个终端设备发送的用于为任务分配算力资源的资源调度请求,根据为任务分配算力资源的资源调度请求和算力中心资源使用情况的数据,筛选出算力备选中心群;
计算存储备选中心群和算力备选中心群中,存储中心和算力中心两两之间网络传输质量数据;根据网络传输质量数据,计算出网络传输质量评分和存算中心匹配评分;根据网络传输质量评分和存算中心匹配评分,给出不同策略需求的调度决策评分函数;
获取终端设备发送的用于为任务分配存储和算力资源的策略需求,根据策略需求,选择对应的调度决策评分函数,筛选出调度决策评分最大值所对应的存储中心和算力中心作为最优方案输出,根据所筛选的中心实现终端设备任务的存储和计算。
第二方面,本发明提供了面向存算分离的算网资源协同调度***;
面向存算分离的算网资源协同调度***,包括:
第一获取模块,其被配置为:周期性地获取存储中心资源使用情况的数据;获取多个终端设备发送的用于为任务分配存储资源的资源调度请求,根据为任务分配存储资源的资源调度请求和存储中心资源使用情况的数据,筛选出存储备选中心群;
第二获取模块,其被配置为:周期性地获取算力中心资源使用情况的数据;获取多个终端设备发送的用于为任务分配算力资源的资源调度请求,根据为任务分配算力资源的资源调度请求和算力中心资源使用情况的数据,筛选出算力备选中心群;
计算模块,其被配置为:计算存储备选中心群和算力备选中心群中,存储中心和算力中心两两之间网络传输质量数据;根据网络传输质量数据,计算出网络传输质量评分和存算中心匹配评分;根据网络传输质量评分和存算中心匹配评分,给出不同策略需求的调度决策评分函数;
输出模块,其被配置为:获取终端设备发送的用于为任务分配存储和算力资源的策略需求,根据策略需求,选择对应的调度决策评分函数,筛选出调度决策评分最大值所对应的存储中心和算力中心作为最优方案输出,根据所筛选的中心实现终端设备任务的存储和计算。
与现有技术相比,本发明的有益效果是:
本发明属于以算力网络异地存储中心和算力中心的资源为基础,通过感知跨域数据中心节点的算力、存储、网络资源状况,结合用户资源需求来优化跨域存算资源的合理分配,可有效提高跨域存算资源的利用率以及海量数据的智能处理分析效率。
通过感知异地分布的存储中心和算力中心的存储状况、算力状况、网络状况,综合用户需求通过存算资源协同策略以存算资源性能最佳、成本最小化、性价比最优为目标实现资源高效调度,优化存储资源和算力资源的合理分配,提高了资源利用率,更好的适应了算力网络任务高效执行的需求。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1面向存算分离算网资源协同调度方法的具体流程;
图2异地异构资源智能感知的具体流程;
图3面向存算分离算网资源协同调度策略的具体流程;
图4基于异地异构的存储中心和算力中心示例;
图5筛选存储备选中心群和算力备选中心群的具体流程;
图6调度决策评分生成三种调度策略的具体流程。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
专业术语解释:
算力网络:通过网络互联,将分布于各地数据中心的资源汇集,动态实时感知算力资源状态和需求,根据业务需求按需灵活调度计算、存储、网络等资源,将算力资源融入网络,通过可靠网络协同调度各级算力的新型基础设施。
存算分离:任务所需算力和数据存储分别来自异地跨域的算力中心和存储中心,通过高带宽低延迟网络实现远程数据挂载进行任务计算。
智能Agent:资源感知监测软件,通过多种方法周期性自动获取算力和存储中心资源总量、已使用量、服务器利用率、网络带宽、网络延迟、抖动、丢包率等信息,用于支持存算资源的协同调度。
Iperf3命令:用于从执行主机到目标主机发送测试数据包,以此来获得主机与目标主机之间的网络状况。它支持调节各种参数,比如通信协议、数据包个数、发送持续时间、测试完会报告网络带宽、丢包率和其他参数。
实施例一
本实施例提供了面向存算分离的算网资源协同调度方法;
面向存算分离的算网资源协同调度方法,包括:
S101:周期性地获取存储中心资源使用情况的数据;获取多个终端设备发送的用于为任务分配存储资源的资源调度请求,根据为任务分配存储资源的资源调度请求和存储中心资源使用情况的数据,筛选出存储备选中心群;
S102:周期性地获取算力中心资源使用情况的数据;获取多个终端设备发送的用于为任务分配算力资源的资源调度请求,根据为任务分配算力资源的资源调度请求和算力中心资源使用情况的数据,筛选出算力备选中心群;
S103:计算存储备选中心群和算力备选中心群中,存储中心和算力中心两两之间网络传输质量数据;根据网络传输质量数据,计算出网络传输质量评分和存算中心匹配评分;根据网络传输质量评分和存算中心匹配评分,给出不同策略需求的调度决策评分函数;
S104:获取终端设备发送的用于为任务分配存储和算力资源的策略需求,根据策略需求,选择对应的调度决策评分函数,筛选出调度决策评分最大值所对应的存储中心和算力中心作为最优方案输出,根据所筛选的中心实现终端设备任务的存储和计算。
进一步地,所述S101:周期性地获取存储中心资源使用情况的数据,其中,所述存储中心资源使用情况的数据,包括:存储中心的存储类型以及存储中心关于存储类型的总存储剩余量。
示例性地,智能Agent感知各存储中心的存储类型和存储剩余量。设Gih代表存储中心Gi(1<i<n)的存储类型、Gis代表存储中心Gi(1<i<n)关于Gih存储类型的总存储剩余量;将感知的各个存储中心数据信息放入数据库中保存。
进一步地,所述S101:获取多个终端设备发送的用于为任务分配存储资源的资源调度请求,根据为任务分配存储资源的资源调度请求和存储中心资源使用情况的数据,筛选出存储备选中心群,具体包括:
设M是二元向量,M表示用户任务m所需的存储资源:M=(Gm1,Gm2),其中Gm1是任务m的所需要存储类型,Gm2是任务m所需关于Gm1的存储量资源;
设S是二元向量,S表示各存储中心Gi(1<i<n)的存储资源:S=(Gih,Gis),用Rel(m,G)表示任务m和各存储中心Gi(1<i<n)的存储资源相关性,公式如下;
其中,Gih代表存储中心Gi(1<i<n)的存储类型、Gis代表存储中心Gi(1<i<n)关于Gih存储类型的总存储剩余量;
筛选出存储资源相关性Rel(m,G)的值大于0.85的存储中心Gi(1<i<n)作为存储备选中心群。
进一步地,所述S102:周期性地获取算力中心资源使用情况的数据,其中,所述算力中心资源使用情况的数据,包括:算力中心所提供的GPU数量、算力中心所提供的Tensorflow条件、算力中心所提供的云主机规格、算力中心符合云主机规格的节点数量、算力中心中关于CPU的总资源剩余量、算力中心关于内存的总资源剩余量和算力中心关于***硬盘的总资源剩余量。
优选地,所述云主机规格,包括:CPU核数、内存、***硬盘。
示例性地,智能Agent感知各算力中心各节点的算力资源状况,设Pigpu是算力中心Pi(1<i<n)所提供的GPU数量,Pitens是算力中心Pi(1<i<n)所提供的Tensorflow条件,Pipc是算力中心Pi(1<i<n)中提供的云主机规格,Pipc是由云主机规格Pics和符合云主机规格节点数Pin的乘积组成:Pipc=Pics*Pin。云主机规格Pics包括CPU核数Picsa、内存Picsb、***硬盘Picsc,Picpu是算力中心Pi(1<i<n)中关于CPU的总资源剩余量,Pioum是算力中心Pi(1<i<n)中关于内存的总资源剩余量,Pihd是算力中心Pi(1<i<n)中关于***硬盘的总资源剩余量。将感知的各个算力中心数据信息放入数据库中保存。
进一步地,所述S102:获取多个终端设备发送的用于为任务分配算力资源的资源调度请求,根据为任务分配算力资源的资源调度请求和算力中心资源使用情况的数据,筛选出算力备选中心群,具体包括:
S102-1:根据终端设备对云主机规格的需求,筛选存在当前云主机规格的算力中心;
S102-2:从所筛选的算力中心中,进一步筛选出符合多个预设条件的算力中心,组成算力预选中心群;
S102-3:基于算力预选中心群,结合终端设备对GPU的需求和终端设备对Tensorflow的需求,计算算力资源相关性,并根据算力资源相关性,筛选出算力备选中心群。
进一步地,所述S102-1:根据终端设备对云主机规格的需求,筛选存在当前云主机规格的算力中心,具体包括:
假设Q是二元向量,Q表示用户任务q的云主机规格所需算力资源:Q=(Qcs,Qn),Qcs为用户需求的云主机规格、Qn为关于Qcs的云主机数量。
假设Pipc是二元向量Pipc=(Pics,Pin),Pipc表示算力中心Pi(1<i<n)提供的云主机规格,Pics为算力中心Pi(1<i<n)提供的云主机规格,Pin为关于Pics的云主机数量。
用Rel(q,Pi)表示任务q和算力中心Pi(1<i<n)的云主机规格相关性
选出云主机规格相关性Rel(q,Pi)值大于0.85的算力中心。
进一步地,所述S102-2:从所筛选的算力中心中,进一步筛选出符合多个预设条件的算力中心,组成算力预选中心群,具体包括:
筛选出同时满足Picpu≥Pin*Picsa、Pioum≥Pin*Picsb、Pihd≥Pin*Picsc的算力中心作为算力预选中心群。
上述技术方案的有益效果是:在符合云主机规格基础上选择有足够资源剩余量的算力中心作为算力预选中心群。
进一步地,所述S102-3:基于算力预选中心群,结合终端设备对GPU的需求和终端设备对Tensorflow的需求,计算算力资源相关性,并根据算力资源相关性,筛选出算力备选中心群,具体包括:
假设T是三元向量,T表示任务t所需的算力资源:
T=(Tgpu,Ttens,Tpc),
其中Tgpu是任务t的所需要GPU的数量、Ttens是运行任务t所需的Tensorflow条件、Tpc是运行任务t的云主机规格。
假设K是三元向量:
K=(Pigpu,Pitens,Pipc),
Pigpu表示算力中心Pi(1<i<n)提供的GPU的数量,Pitens是算力中心Pi(1<i<n)提供的Tensorflow条件,Pipc表示算力中心Pi(1<i<n)中提供的云主机规格。
用Rel(t,Pi)表示任务t和算力中心Pi(1<i<n)的算力资源相关性,表示公式如下;
筛选出算力资源相关性Rel(t,Pi)的值大于0.85的算力中心作为算力备选中心群。
应理解地,所筛选出来的算力备选中心群在符合用户对算力中心云主机需求的基础上又满足Tensorflow和GPU条件。
进一步地,所述S103:计算存储备选中心群和算力备选中心群中,存储中心和算力中心两两之间网络传输质量数据,具体包括:
时延、带宽、丢包率或抖动。
应理解地,筛选出存储备选中心群和算力备选中心群后,智能Agent使用iperf3命令获取存储备选中心群和算力备选中心群中存储和算力中心两两间网络传输质量数据,包括时延、带宽、丢包率、抖动。
进一步地,所述S103:根据网络传输质量数据,计算出网络传输质量评分和存算中心匹配评分,具体包括:
网络传输质量评分trans(Gi,Pi)的高低,表现存储中心Gi(1<i<n)和算力中心Pi(1<i<n)之间的网络传输质量状况;
其中,v是网络传输质量评分的加权因子、a是时延、b是带宽、c是丢包率、d是抖动。
其中,λ是算力中心评分的加权因子、μ是存储中心评分的加权因子、Piv代表算力中心Pi(1<i<n)所提供算力资源(算力云节点)的总价格、Giv代表存储中心Gi(1<i<n)所提供存储资源(存储云节点)的总价格。
调度决策评分res(Gi,Pi)综合考虑网络传输延迟、抖动、带宽等网络因素以及存储和算力中心资源的容量、类型等,用以评估满足需求的存算中心,并依此给出存算分离调度方案;
进一步地,所述S103:根据网络传输质量评分和存算中心匹配评分,给出不同策略需求的调度决策评分函数,具体包括:
策略一:资源最匹配策略,只考虑资源性能最好、不考虑资源成本,调度决策评分res(Gi,Pi)中的存储中心提供的存储资源价格Giv与算力中心所提供的算力资源价格Piv均设为1
将存储和算力备选中心群全部带入资源最匹配策略时的调度决策评分公式,公式数值最大值时的存储和算力中心为资源最匹配的存储和算力中心。
策略二:成本最低策略,只考虑算力备选中心和存储备选中心成本最低,不考虑资源匹配和网络传输质量状况,网络传输质量评分设置为1,算力资源相关性Rel(t,Pi)和存储资源相关性Rel(m,Gi)设置为1;
将存储和算力备选中心群全部带入成本最低的策略时的调度决策评分公式,公式数值最大值时的存储和算力中心为成本最低的存储和算力中心。
策略三:性价比最优策略,综合考虑资源匹配、网络传输质量以及成本。
将存储和算力备选中心群全部带入性价比最优策略时的调度决策评分公式,公式数值最大值时的存储和算力中心为性价比最优的存储和算力中心。
根据用户所选择策略的不同会产生不同的调度决策结果,通过应用***实现调度的下发和执行。
所述方法的工作环境为异地的存储中心和算力中心以及分别分布于两个中心上的数据库、文件存储***、应用***;
所述存储中心,由多个存储服务器节点组成,为存储资源协同调度提供充足的存储资源;
所述算力中心,包括云计算中心、人工智能中心、高性能计算中心等类型的中心,每个算力中心由多个物理服务器节点组成,为存算资源协同调度提供充足的计算资源;
所述数据库,用于保存不同存储和算力中心节点资源状况、两者间的网络状况数据;
所述文件存储***,用于存储资源文件;
所述应用***,用于执行调度策略。
设存储中心G1、G2、G3、G4、G5分别是甲地一区NFS存储中心、乙地一区NFS存储中心、丙地一区HDFS存储中心、甲地二区HDFS存储中心、乙地二区对象存储中心。算力中心P1、P2、P3、P4、P5分别是戊地一区云计算中心、丁地一区云计算中心、丙地三区云计算中心、戊地二区人工智能中心、甲地三区高性能计算中心。
首先使用智能Agent感知各存储中心和算力中心节点的资源状况数据,并写入数据库中。
步骤1.1:智能Agent感知各存储中心的存储类型和存储剩余量。设Gih代表存储中心Gi(1<i<n)的存储类型、Gis代表存储中心Gi(1<i<n)关于Gih存储类型的总存储剩余量。设G1h为NFS存储类型时、存储容量G1s为500GB,G2h为NFS存储类型时、存储容量G2s为550GB,G3h为HDFS存储类型时、存储容量G3s为400GB,G4h为HDFS存储类型时、存储容量G4s为420GB,G5h为对象存储类型时、存储容量G5s为500GB。
步骤1.2:将感知的各个存储中心数据信息放入数据库中保存;
步骤1.3:智能Agent感知算力中心各节点的算力资源状况,设Pigpu是算力中心Pi(1<i<n)所提供的GPU数量,Pitens是算力中心Pi(1<i<n)所提供的Tensorflow条件,Pipc是算力中心Pi(1<i<n)中提供的云主机规格,Pipc是由云主机规格Pics和符合云主机规格节点数Pin的乘积组成:Pipc=Pics*Pin。云主机规格Pics包括CPU核数Picsa、内存Picsb、***硬盘Picsc,Picpu是算力中心Pi(1<i<n)中关于CPU的总资源剩余量,Pioum是算力中心Pi(1<i<n)中关于内存的总资源剩余量,Pihd是算力中心Pi(1<i<n)中关于***硬盘的总资源剩余量。
设P1的GPU数量为4、提供Tensorflow条件、由4个服务器节点构成:(CPU核数,节点内存,节点硬盘)=(2,4,20)=(2,8,30)=(2,16,40)=(4,8,50),P2的GPU数量为2、不提供Tensorflow条件、由4个服务器节点构成:(CPU核数,节点内存,节点硬盘)=(2,4,20)=(2,8,30)=(2,16,40)=(4,8,60),P3的GPU数量为6、提供Tensorflow条件、由3个服务器节点构成:(CPU核数,节点内存,节点硬盘)=(2,4,20)=(2,8,30)=(4,8,55),P4的GPU数量为4、提供Tensorflow条件、由4个服务器节点构成:(CPU核数,节点内存,节点硬盘)=(2,4,20)=(2,8,30)=(2,16,40)=(4,4,20),P5的GPU数量为4、提供Tensorflow条件、由4个服务器节点构成:(CPU核数,节点内存,节点硬盘)=(2,4,20)=(2,8,30)=(2,16,40)=(4,4,30)。
步骤1.4:将感知的各个算力中心数据信息放入数据库中保存;
然后基于感知的算力和存储资源数据综合用户需求,设计面向存算分离的算网资源协同调度策略。
步骤2.1:根据用户需求和数据库关于存储中心的数据通过存储资源相关性筛选存储备选中心群。
设M是二元向量,表示用户任务m所需的存储资源:M=(Gm1,Gm2),其中Gm1是任务m的所需要存储类型为NFS,Gm2是任务m的所需关于Gm1的存储量资源为500GB。
设S是二元向量,表示各存储中心Gi(1<i<n)的存储资源:S=(Gih,Gis),其中Gih,Gis为步骤1.1所设。用Rel(m,G)表示任务m和各存储中心Gi(1<i<n)的存储资源相关性,公式如下;
步骤2.2筛选出存储资源相关性Rel(m,G)的值大于0.85的存储中心Gi(1<i<n)作为存储备选中心群。故Gi=(G1,G2)符合。
步骤2.3:筛选算力中心,根据用户的对云主机规格筛选存在该云主机规格的算力中心。
假设Q是二元向量,表示用户任务q的云主机规格所需算力资源:Q=(Qcs,Qn),用户需求云主机规格Qcs为(4,8,50)即CPU核数Qcsa为4、内存数量Qcsb为8GB、***硬盘Qcsc为50GB,关于Qcs的云主机数Qn为1。
假设Pipc是二元向量Pipc=(Pics,Pin),表示算力中心Pi(1<i<n)提供的云主机规格,其中云主机规格包括云主机规格Pics,关于Pics的云主机数Pin。
用Rel(q,Pi)表示任务q和算力中心Pi(1<i<n)的云主机规格相关性
步骤2.4:选出云主机规格相关性Rel(q,Pi)值大于0.85的算力中心。故P1,P2,P3算力中心符合用户云主机规格。
步骤2.5:在上一步的基础上,筛选出同时满足Picpu≥Pin*Picsa、Pioum≥Pin*Picsb、Pihd≥Pin*Picsc的算力中心作为算力预选中心群,即符合云主机规格基础上选择有足够资源剩余量的算力中心作为算力预选中心群。Picpu、Pioum、Pihd、Pin、Picsa、Picsb、Picsc为步骤1.3所设。
设P1的CPU的总资源剩余量为10、内存的总资源剩余量为36GB,***硬盘的总资源剩余量为140GB。设P2的CPU的总资源剩余量为10、内存的总资源剩余量为36GB,***硬盘的总资源剩余量为150GB。设P3的CPU的总资源剩余量为8、内存的总资源剩余量为20GB,***硬盘的总资源剩余量为105GB。故P1,P2,P3都是有足够的资源剩余量的算力中心,可作为算力预选中心群。
步骤2.6:基于算力预选中心群,结合用户GPU、Tensorflow需求和数据库关于算力中心的数据,通过算力资源相关性筛选算力备选中心群。
假设T是三元向量,表示任务t所需的算力资源:T=(Tgpu,Ttens,Tpc),其中Tgpu是任务t的所需要GPU的数量为4、Ttens是运行任务t所需的Tensorflow条件、Tpc是运行任务的云主机规格(用户需求云主机规格CPU核数为4、内存数量为8GB、***硬盘为50GB、符合上方规格的云主机数量为1)。
假设K是三元向量K=(Pigpu,Pitens,Pipc),Pigpu表示算力中心Pi(1<i<n)提供的GPU的数量,Pitens是算力中心Pi(1<i<n)提供的Tensorflow条件。Pipc表示算力中心Pi(1<i<n)中提供的云主机规格。
用Rel(t,Pi)表示任务t和算力中心Pi(1<i<n)的算力资源相关性,表示公式如下;
步骤2.7:筛选出算力资源相关性Rel(t,Pi)的值大于0.85的算力中心作为算力备选中心群,此算力备选中心群在符合用户对算力中心云主机需求的基础上又满足Tensorflow和GPU条件。故筛选出算力备选中心群Pi=(P1,P3)符合。
步骤2.8:筛选出存储备选中心群Gi=(G1,G2)和算力备选中心群Pi=(P1,P3)后,智能Agent使用iperf3命令使存储备选中心群和算力备选中心群互相通信,获取网络传输条件数据,包括时延、传输带宽、传输丢包率、传输时抖动。
步骤2.9:将获取的网络传输质量数据发送保存到数据库。
网络传输质量评分trans(Gi,Pi)的高低可以具体表现存储中心Gi(1<i<n)和算力中心Pi(1<i<n)之间的网络传输质量状况;
v是网络传输质量评分的加权因子、a是时延、b是带宽、c是丢包率、d是抖动。
λ是算力中心评分的加权因子、μ是存储中心评分的加权因子、Piv代表算力中心Pi(1<i<n)所提供算力资源(算力云节点)的总价格、Giv代表存储中心Gi(1<i<n)所提供存储资源(存储云节点)的总价格、Rel(m,Gi)在步骤2.1中定义、Rel(t,Pi)在步骤2.6中定义。
调度决策评分res(Gi,Pi)综合考虑网络传输延迟、抖动、带宽等网络因素以及存储和算力中心资源的容量、类型等,用以评估满足需求的存算中心,并依此给出存算分离调度方案;
步骤2.11:调度决策评分res(Gi,Pi)可选择资源最匹配的策略;
资源最匹配策略只考虑资源性能最好、不考虑资源成本,调度决策评分res(Gi,Pi)中的存储中心提供的存储资源价格Giv与算力中心所提供的算力资源价格Piv均设为1;
将存储和算力备选中心群全部带入资源最匹配策略时的调度决策评分公式,公式数值最大值时的存储和算力中心为资源最匹配的存储和算力中心,最后得到存储中心G1和算力中心P1为资源最匹配。
步骤2.12:调度决策评分res(Gi,Pi)可选择成本最低的策略;
成本最低策略只考虑算力备选中心和存储备选中心成本最低,不考虑资源匹配和网络传输质量状况,网络传输质量评分设置为1,算力资源相关性Rel(t,Pi)和存储资源相关性Rel(m,Gi)设置为1;
将存储和算力备选中心群全部带入成本最低的策略时的调度决策评分公式,公式数值最大值时的存储和算力中心为成本最低的存储和算力中心,最后得到G2存储中心和P3算力中心为成本最低。
步骤2.13:调度决策评分res(Gi,Pi)可选择调度性价比最优的策略;
性价比最优策略综合考虑资源匹配、网络传输质量以及成本。
将存储和算力备选中心群全部带入性价比最优策略时的调度决策评分公式,公式数值最大值时的存储和算力中心为性价比最优的存储和算力中心。最后得到G2存储中心和P1算力中心为性价比最优。
步骤2.14:一种面向存算分离的算网资源协同调度方法根据用户所选择策略的不同会产生不同的调度决策结果,通过应用***实现调度的下发和执行。
图1面向存算分离算网资源协同调度方法的具体流程;图2异地异构资源智能感知的具体流程;图3面向存算分离算网资源协同调度策略的具体流程;图4基于异地异构的存储中心和算力中心示例;图5筛选存储备选中心群和算力备选中心群的具体流程;图6调度决策评分生成三种调度策略的具体流程。
实施例二
本实施例提供了面向存算分离的算网资源协同调度***;
面向存算分离的算网资源协同调度***,包括:
第一获取模块,其被配置为:周期性地获取存储中心资源使用情况的数据;获取多个终端设备发送的用于为任务分配存储资源的资源调度请求,根据为任务分配存储资源的资源调度请求和存储中心资源使用情况的数据,筛选出存储备选中心群;
第二获取模块,其被配置为:周期性地获取算力中心资源使用情况的数据;获取多个终端设备发送的用于为任务分配算力资源的资源调度请求,根据为任务分配算力资源的资源调度请求和算力中心资源使用情况的数据,筛选出算力备选中心群;
计算模块,其被配置为:计算存储备选中心群和算力备选中心群中,存储中心和算力中心两两之间网络传输质量数据;根据网络传输质量数据,计算出网络传输质量评分和存算中心匹配评分;根据网络传输质量评分和存算中心匹配评分,给出不同策略需求的调度决策评分函数;
输出模块,其被配置为:获取终端设备发送的用于为任务分配存储和算力资源的策略需求,根据策略需求,选择对应的调度决策评分函数,筛选出调度决策评分最大值所对应的存储中心和算力中心作为最优方案输出,根据所筛选的中心实现终端设备任务的存储和计算。
此处需要说明的是,上述第一获取模块、第二获取模块、计算模块和输出模块对应于实施例一中的步骤S101至S104,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为***的一部分可以在诸如一组计算机可执行指令的计算机***中执行。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.面向存算分离的算网资源协同调度方法,其特征是,包括:
周期性地获取存储中心资源使用情况的数据;获取多个终端设备发送的用于为任务分配存储资源的资源调度请求,根据为任务分配存储资源的资源调度请求和存储中心资源使用情况的数据,筛选出存储备选中心群;
周期性地获取算力中心资源使用情况的数据;获取多个终端设备发送的用于为任务分配算力资源的资源调度请求,根据为任务分配算力资源的资源调度请求和算力中心资源使用情况的数据,筛选出算力备选中心群;
计算存储备选中心群和算力备选中心群中,存储中心和算力中心两两之间网络传输质量数据;根据网络传输质量数据,计算出网络传输质量评分和存算中心匹配评分;根据网络传输质量评分和存算中心匹配评分,给出不同策略需求的调度决策评分函数;
获取终端设备发送的用于为任务分配存储和算力资源的策略需求,根据策略需求,选择对应的调度决策评分函数,筛选出调度决策评分最大值所对应的存储中心和算力中心作为最优方案输出,根据所筛选的中心实现终端设备任务的存储和计算。
2.如权利要求1所述的面向存算分离的算网资源协同调度方法,其特征是,获取多个终端设备发送的用于为任务分配存储资源的资源调度请求,根据为任务分配存储资源的资源调度请求和存储中心资源使用情况的数据,筛选出存储备选中心群,具体包括:
设M是二元向量,M表示用户任务m所需的存储资源:M=(Gm1,Gm2),其中Gm1是任务m的所需要存储类型,Gm2是任务m所需关于Gm1的存储量资源;
设S是二元向量,S表示各存储中心Gi的存储资源:S=(Gih,Gis),用Rel(m,G)表示任务m和各存储中心Gi的存储资源相关性,公式如下;
其中,Gih代表存储中心Gi的存储类型、Gis代表存储中心Gi关于Gih存储类型的总存储剩余量;
筛选出存储资源相关性Rel(m,G)的值大于设定阈值的存储中心Gi作为存储备选中心群。
3.如权利要求1所述的面向存算分离的算网资源协同调度方法,其特征是,获取多个终端设备发送的用于为任务分配算力资源的资源调度请求,根据为任务分配算力资源的资源调度请求和算力中心资源使用情况的数据,筛选出算力备选中心群,具体包括:
根据终端设备对云主机规格的需求,筛选存在当前云主机规格的算力中心;
从所筛选的算力中心中,进一步筛选出符合多个预设条件的算力中心,组成算力预选中心群;
基于算力预选中心群,结合终端设备对GPU的需求和终端设备对Tensorflow的需求,计算算力资源相关性,并根据算力资源相关性,筛选出算力备选中心群。
5.如权利要求3所述的面向存算分离的算网资源协同调度方法,其特征是,从所筛选的算力中心中,进一步筛选出符合多个预设条件的算力中心,组成算力预选中心群,具体包括:
筛选出同时满足Picpu≥Pin*Picsa、Pioum≥Pin*Picsb、Pihd≥Pin*Picsc的算力中心作为算力预选中心群。
6.如权利要求3所述的面向存算分离的算网资源协同调度方法,其特征是,基于算力预选中心群,结合终端设备对GPU的需求和终端设备对Tensorflow的需求,计算算力资源相关性,并根据算力资源相关性,筛选出算力备选中心群,具体包括:
假设T是三元向量,T表示任务t所需的算力资源:
T=(Tgpu,Ttens,Tpc),
其中Tgpu是任务t的所需要GPU的数量、Ttens是运行任务t所需的Tensorflow条件、Tpc是运行任务t的云主机规格;
假设K是三元向量:
K=(Pigpu,Pitens,Pipc),
Pigpu表示算力中心Pi提供的GPU的数量,Pitens是算力中心Pi提供的Tensorflow条件,Pipc表示算力中心Pi中提供的云主机规格;
用Rel(t,Pi)表示任务t和算力中心Pi的算力资源相关性,表示公式如下;
筛选出算力资源相关性Rel(t,Pi)的值大于设定阈值的算力中心作为算力备选中心群。
8.如权利要求1所述的面向存算分离的算网资源协同调度方法,其特征是,根据网络传输质量评分和存算中心匹配评分,给出不同策略需求的调度决策评分函数,具体包括:
策略一:资源最匹配策略,只考虑资源性能最好、不考虑资源成本,调度决策评分res(Gi,Pi)中的存储中心提供的存储资源价格Giv与算力中心所提供的算力资源价格Piv均设为1;
将存储和算力备选中心群全部带入资源最匹配策略时的调度决策评分公式,公式数值最大值时的存储和算力中心为资源最匹配的存储和算力中心;
策略二:成本最低策略,只考虑算力备选中心和存储备选中心成本最低,不考虑资源匹配和网络传输质量状况,网络传输质量评分设置为1,算力资源相关性Rel(t,Pi)和存储资源相关性Rel(m,Gi)设置为1;
将存储和算力备选中心群全部带入成本最低的策略时的调度决策评分公式,公式数值最大值时的存储和算力中心为成本最低的存储和算力中心;
策略三:性价比最优策略,综合考虑资源匹配、网络传输质量以及成本;
将存储和算力备选中心群全部带入性价比最优策略时的调度决策评分公式,公式数值最大值时的存储和算力中心为性价比最优的存储和算力中心。
9.如权利要求1所述的面向存算分离的算网资源协同调度方法,其特征是,所述方法的工作环境为异地的存储中心和算力中心以及分别分布于两个中心上的数据库、文件存储***、应用***;
所述存储中心,由多个存储服务器节点组成,为存储资源协同调度提供充足的存储资源;
所述算力中心,包括云计算中心、人工智能中心、高性能计算中心类型的中心,每个算力中心由多个物理服务器节点组成,为存算资源协同调度提供充足的计算资源;
所述数据库,用于保存不同存储和算力中心节点资源状况、两者间的网络状况数据;所述文件存储***,用于存储资源文件;所述应用***,用于执行调度策略。
10.面向存算分离的算网资源协同调度***,其特征是,包括:
第一获取模块,其被配置为:周期性地获取存储中心资源使用情况的数据;获取多个终端设备发送的用于为任务分配存储资源的资源调度请求,根据为任务分配存储资源的资源调度请求和存储中心资源使用情况的数据,筛选出存储备选中心群;
第二获取模块,其被配置为:周期性地获取算力中心资源使用情况的数据;获取多个终端设备发送的用于为任务分配算力资源的资源调度请求,根据为任务分配算力资源的资源调度请求和算力中心资源使用情况的数据,筛选出算力备选中心群;
计算模块,其被配置为:计算存储备选中心群和算力备选中心群中,存储中心和算力中心两两之间网络传输质量数据;根据网络传输质量数据,计算出网络传输质量评分和存算中心匹配评分;根据网络传输质量评分和存算中心匹配评分,给出不同策略需求的调度决策评分函数;
输出模块,其被配置为:获取终端设备发送的用于为任务分配存储和算力资源的策略需求,根据策略需求,选择对应的调度决策评分函数,筛选出调度决策评分最大值所对应的存储中心和算力中心作为最优方案输出,根据所筛选的中心实现终端设备任务的存储和计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310357823.9A CN116361006B (zh) | 2023-03-31 | 2023-03-31 | 面向存算分离的算网资源协同调度方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310357823.9A CN116361006B (zh) | 2023-03-31 | 2023-03-31 | 面向存算分离的算网资源协同调度方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116361006A true CN116361006A (zh) | 2023-06-30 |
CN116361006B CN116361006B (zh) | 2023-11-21 |
Family
ID=86941740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310357823.9A Active CN116361006B (zh) | 2023-03-31 | 2023-03-31 | 面向存算分离的算网资源协同调度方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116361006B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116708446A (zh) * | 2023-08-03 | 2023-09-05 | 山东省计算中心(国家超级计算济南中心) | 基于网络性能综合权值决策的算网调度服务方法及*** |
CN117785482A (zh) * | 2024-02-26 | 2024-03-29 | 广州尚航信息科技股份有限公司 | 一种算力网络的算力调度***及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115658282A (zh) * | 2022-08-18 | 2023-01-31 | 江苏腾威云天科技有限公司 | 服务器算力管理分配方法、***、网络设备和存储介质 |
CN115714817A (zh) * | 2022-11-03 | 2023-02-24 | 天翼数字生活科技有限公司 | 一种动态反馈加权云存储资源调度方法、装置及设备 |
CN115794335A (zh) * | 2022-11-14 | 2023-03-14 | 北京邮电大学 | 算力网络任务调度引擎方法及装置 |
-
2023
- 2023-03-31 CN CN202310357823.9A patent/CN116361006B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115658282A (zh) * | 2022-08-18 | 2023-01-31 | 江苏腾威云天科技有限公司 | 服务器算力管理分配方法、***、网络设备和存储介质 |
CN115714817A (zh) * | 2022-11-03 | 2023-02-24 | 天翼数字生活科技有限公司 | 一种动态反馈加权云存储资源调度方法、装置及设备 |
CN115794335A (zh) * | 2022-11-14 | 2023-03-14 | 北京邮电大学 | 算力网络任务调度引擎方法及装置 |
Non-Patent Citations (1)
Title |
---|
于清林: ""从边缘计算到算力网络"", 《产业科技创新》, no. 03, pages 53 - 55 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116708446A (zh) * | 2023-08-03 | 2023-09-05 | 山东省计算中心(国家超级计算济南中心) | 基于网络性能综合权值决策的算网调度服务方法及*** |
CN116708446B (zh) * | 2023-08-03 | 2023-11-21 | 山东省计算中心(国家超级计算济南中心) | 基于网络性能综合权值决策的算网调度服务方法及*** |
CN117785482A (zh) * | 2024-02-26 | 2024-03-29 | 广州尚航信息科技股份有限公司 | 一种算力网络的算力调度***及方法 |
CN117785482B (zh) * | 2024-02-26 | 2024-05-24 | 广州尚航信息科技股份有限公司 | 一种算力网络的算力调度***及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116361006B (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116361006B (zh) | 面向存算分离的算网资源协同调度方法及*** | |
Chen et al. | Energy-efficient offloading for DNN-based smart IoT systems in cloud-edge environments | |
CN108170530B (zh) | 一种基于混合元启发式算法的Hadoop负载均衡任务调度方法 | |
CN105141541A (zh) | 一种基于任务的动态负载均衡调度方法及装置 | |
CN103401947A (zh) | 多个服务器的任务分配方法和装置 | |
CA2657878A1 (en) | Optimized multi-component co-allocation scheduling with advanced reservations for data transfers and distributed jobs | |
Phan et al. | Evolutionary multiobjective optimization for green clouds | |
CN109831524A (zh) | 一种负载均衡处理方法及装置 | |
CN104484233B (zh) | 一种资源分配方法 | |
CN110502321A (zh) | 一种资源调度方法及*** | |
CN112187535B (zh) | 雾计算环境下服务器部署方法及装置 | |
CN116627631A (zh) | 资源调度方法、***、电子设备和存储介质 | |
Dai et al. | A learning algorithm for real-time service in vehicular networks with mobile-edge computing | |
CN117076882A (zh) | 一种云服务资源动态预测管理方法 | |
CN110198267A (zh) | 一种流量调度方法、***及服务器 | |
CN113014649B (zh) | 一种基于深度学习的云物联负载均衡方法、装置及设备 | |
CN116708446B (zh) | 基于网络性能综合权值决策的算网调度服务方法及*** | |
CN117349026A (zh) | 一种用于aigc模型训练的分布式算力调度*** | |
CN116668442A (zh) | 一种意图驱动的网云资源高精度协同调度***及方法 | |
CN115543582A (zh) | 超算算力网络统一调度方法、***及设备 | |
CN114035940A (zh) | 资源分配方法以及装置 | |
CN111090523A (zh) | 一种kubernetes环境下基于动态优先级的资源调度方法 | |
CN117891618B (zh) | 人工智能模型训练平台的资源任务处理方法及装置 | |
CN118118488B (zh) | 基于云边协同的云数据服务动态自适应调整方法与*** | |
Liu et al. | Distributed two-level cloud-based multimedia task scheduling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |