CN116361006A

CN116361006A - 面向存算分离的算网资源协同调度方法及***

Info

Publication number: CN116361006A
Application number: CN202310357823.9A
Authority: CN
Inventors: 陈静; 李文; 郭莹; 张传福; 耿玉栋; 孙浩
Original assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-06-30
Anticipated expiration: 2043-03-31
Also published as: CN116361006B

Abstract

本发明公开了面向存算分离的算网资源协同调度方法及***，获取多个终端设备发送的用于为任务分配存储资源的资源调度请求，筛选出存储备选中心群；获取多个终端设备发送的用于为任务分配算力资源的资源调度请求，筛选出算力备选中心群；计算存储备选中心群和算力备选中心群中，存储中心和算力中心两两之间网络传输质量数据；根据网络传输质量数据，计算出网络传输质量评分和存算中心匹配评分；根据网络传输质量评分和存算中心匹配评分，给出不同策略需求的调度决策评分函数；获取终端设备发送的策略需求，根据策略需求，选择对应的调度决策评分函数，筛选出调度决策评分最大值所对应的方案输出，根据筛选的中心实现终端设备任务的存储和计算。

Description

面向存算分离的算网资源协同调度方法及***

技术领域

本发明涉及资源协同调度技术领域，特别是涉及面向存算分离的算网资源协同调度方法及***。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

近年来，随着数据密集型和计算密集型任务的数据规模和计算规模逐步增加，采用分布式资源为大数据处理提供所需的计算能力和存储能力逐渐成为数据处理的重要选择。用户数据存储于一个数据中心的存储***中，而计算所需的算力可能与数据不处于同地通数据中心，网络高带宽低延迟时，跨域多中心存算分离计算成为算力网络典型计算模式。算力网络环境下，根据应用需求，如何选择存储和算力中心实现资源的高效利用及任务高效执行是需要解决的重点问题。

目前常见的资源调度方法集中于云计算领域，大多以提高资源利用、节能降耗、成本收益为目标，大多集中于域内异构资源的调度研究。近年来云边端协同调度、多集群下容器调度方法成为研究热点，大多集中于同构算力平台间的同构或异构资源调度，很少面向异地跨域环境下，存储中心和算力中心异构存算资源的协同调度研究，算力网络环境下应用场景、资源需求更加复杂，存算资源的协同调度面临更大的挑战。

发明内容

为了解决现有技术的不足，本发明提供了面向存算分离的算网资源协同调度方法及***；提高存储和算力资源协同调度能力以及任务执行效率。

第一方面，本发明提供了面向存算分离的算网资源协同调度方法；

面向存算分离的算网资源协同调度方法，包括：

周期性地获取存储中心资源使用情况的数据；获取多个终端设备发送的用于为任务分配存储资源的资源调度请求，根据为任务分配存储资源的资源调度请求和存储中心资源使用情况的数据，筛选出存储备选中心群；

周期性地获取算力中心资源使用情况的数据；获取多个终端设备发送的用于为任务分配算力资源的资源调度请求，根据为任务分配算力资源的资源调度请求和算力中心资源使用情况的数据，筛选出算力备选中心群；

计算存储备选中心群和算力备选中心群中，存储中心和算力中心两两之间网络传输质量数据；根据网络传输质量数据，计算出网络传输质量评分和存算中心匹配评分；根据网络传输质量评分和存算中心匹配评分，给出不同策略需求的调度决策评分函数；

获取终端设备发送的用于为任务分配存储和算力资源的策略需求，根据策略需求，选择对应的调度决策评分函数，筛选出调度决策评分最大值所对应的存储中心和算力中心作为最优方案输出，根据所筛选的中心实现终端设备任务的存储和计算。

第二方面，本发明提供了面向存算分离的算网资源协同调度***；

面向存算分离的算网资源协同调度***，包括：

第一获取模块，其被配置为：周期性地获取存储中心资源使用情况的数据；获取多个终端设备发送的用于为任务分配存储资源的资源调度请求，根据为任务分配存储资源的资源调度请求和存储中心资源使用情况的数据，筛选出存储备选中心群；

第二获取模块，其被配置为：周期性地获取算力中心资源使用情况的数据；获取多个终端设备发送的用于为任务分配算力资源的资源调度请求，根据为任务分配算力资源的资源调度请求和算力中心资源使用情况的数据，筛选出算力备选中心群；

计算模块，其被配置为：计算存储备选中心群和算力备选中心群中，存储中心和算力中心两两之间网络传输质量数据；根据网络传输质量数据，计算出网络传输质量评分和存算中心匹配评分；根据网络传输质量评分和存算中心匹配评分，给出不同策略需求的调度决策评分函数；

输出模块，其被配置为：获取终端设备发送的用于为任务分配存储和算力资源的策略需求，根据策略需求，选择对应的调度决策评分函数，筛选出调度决策评分最大值所对应的存储中心和算力中心作为最优方案输出，根据所筛选的中心实现终端设备任务的存储和计算。

与现有技术相比，本发明的有益效果是：

本发明属于以算力网络异地存储中心和算力中心的资源为基础，通过感知跨域数据中心节点的算力、存储、网络资源状况，结合用户资源需求来优化跨域存算资源的合理分配，可有效提高跨域存算资源的利用率以及海量数据的智能处理分析效率。

通过感知异地分布的存储中心和算力中心的存储状况、算力状况、网络状况，综合用户需求通过存算资源协同策略以存算资源性能最佳、成本最小化、性价比最优为目标实现资源高效调度，优化存储资源和算力资源的合理分配，提高了资源利用率，更好的适应了算力网络任务高效执行的需求。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1面向存算分离算网资源协同调度方法的具体流程；

图2异地异构资源智能感知的具体流程；

图3面向存算分离算网资源协同调度策略的具体流程；

图4基于异地异构的存储中心和算力中心示例；

图5筛选存储备选中心群和算力备选中心群的具体流程；

图6调度决策评分生成三种调度策略的具体流程。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

专业术语解释：

算力网络：通过网络互联，将分布于各地数据中心的资源汇集，动态实时感知算力资源状态和需求，根据业务需求按需灵活调度计算、存储、网络等资源，将算力资源融入网络，通过可靠网络协同调度各级算力的新型基础设施。

存算分离：任务所需算力和数据存储分别来自异地跨域的算力中心和存储中心，通过高带宽低延迟网络实现远程数据挂载进行任务计算。

智能Agent：资源感知监测软件，通过多种方法周期性自动获取算力和存储中心资源总量、已使用量、服务器利用率、网络带宽、网络延迟、抖动、丢包率等信息，用于支持存算资源的协同调度。

Iperf3命令：用于从执行主机到目标主机发送测试数据包，以此来获得主机与目标主机之间的网络状况。它支持调节各种参数，比如通信协议、数据包个数、发送持续时间、测试完会报告网络带宽、丢包率和其他参数。

实施例一

本实施例提供了面向存算分离的算网资源协同调度方法；

面向存算分离的算网资源协同调度方法，包括：

S101：周期性地获取存储中心资源使用情况的数据；获取多个终端设备发送的用于为任务分配存储资源的资源调度请求，根据为任务分配存储资源的资源调度请求和存储中心资源使用情况的数据，筛选出存储备选中心群；

S102：周期性地获取算力中心资源使用情况的数据；获取多个终端设备发送的用于为任务分配算力资源的资源调度请求，根据为任务分配算力资源的资源调度请求和算力中心资源使用情况的数据，筛选出算力备选中心群；

S103：计算存储备选中心群和算力备选中心群中，存储中心和算力中心两两之间网络传输质量数据；根据网络传输质量数据，计算出网络传输质量评分和存算中心匹配评分；根据网络传输质量评分和存算中心匹配评分，给出不同策略需求的调度决策评分函数；

S104：获取终端设备发送的用于为任务分配存储和算力资源的策略需求，根据策略需求，选择对应的调度决策评分函数，筛选出调度决策评分最大值所对应的存储中心和算力中心作为最优方案输出，根据所筛选的中心实现终端设备任务的存储和计算。

进一步地，所述S101：周期性地获取存储中心资源使用情况的数据，其中，所述存储中心资源使用情况的数据，包括：存储中心的存储类型以及存储中心关于存储类型的总存储剩余量。

示例性地，智能Agent感知各存储中心的存储类型和存储剩余量。设G_ih代表存储中心G_i(1<i<n)的存储类型、G_is代表存储中心G_i(1<i<n)关于G_ih存储类型的总存储剩余量；将感知的各个存储中心数据信息放入数据库中保存。

进一步地，所述S101：获取多个终端设备发送的用于为任务分配存储资源的资源调度请求，根据为任务分配存储资源的资源调度请求和存储中心资源使用情况的数据，筛选出存储备选中心群，具体包括：

设M是二元向量，M表示用户任务m所需的存储资源：M＝(G_m1,G_m2)，其中G_m1是任务m的所需要存储类型，G_m2是任务m所需关于G_m1的存储量资源；

设S是二元向量，S表示各存储中心G_i(1<i<n)的存储资源：S＝(G_ih,G_is)，用Rel(m,G)表示任务m和各存储中心G_i(1<i<n)的存储资源相关性，公式如下；

其中，G_ih代表存储中心G_i(1<i<n)的存储类型、G_is代表存储中心G_i(1<i<n)关于G_ih存储类型的总存储剩余量；

筛选出存储资源相关性Rel(m,G)的值大于0.85的存储中心G_i(1<i<n)作为存储备选中心群。

进一步地，所述S102：周期性地获取算力中心资源使用情况的数据，其中，所述算力中心资源使用情况的数据，包括：算力中心所提供的GPU数量、算力中心所提供的Tensorflow条件、算力中心所提供的云主机规格、算力中心符合云主机规格的节点数量、算力中心中关于CPU的总资源剩余量、算力中心关于内存的总资源剩余量和算力中心关于***硬盘的总资源剩余量。

优选地，所述云主机规格，包括：CPU核数、内存、***硬盘。

示例性地，智能Agent感知各算力中心各节点的算力资源状况，设P_igpu是算力中心P_i(1<i<n)所提供的GPU数量,P_itens是算力中心P_i(1<i<n)所提供的Tensorflow条件，P_ipc是算力中心P_i(1<i<n)中提供的云主机规格，P_ipc是由云主机规格P_ics和符合云主机规格节点数P_in的乘积组成:P_ipc＝P_ics*P_in。云主机规格P_ics包括CPU核数P_icsa、内存P_icsb、***硬盘P_icsc，P_icpu是算力中心P_i(1<i<n)中关于CPU的总资源剩余量，P_ioum是算力中心P_i(1<i<n)中关于内存的总资源剩余量，P_ihd是算力中心P_i(1<i<n)中关于***硬盘的总资源剩余量。将感知的各个算力中心数据信息放入数据库中保存。

进一步地，所述S102：获取多个终端设备发送的用于为任务分配算力资源的资源调度请求，根据为任务分配算力资源的资源调度请求和算力中心资源使用情况的数据，筛选出算力备选中心群，具体包括：

S102-1：根据终端设备对云主机规格的需求，筛选存在当前云主机规格的算力中心；

S102-2：从所筛选的算力中心中，进一步筛选出符合多个预设条件的算力中心，组成算力预选中心群；

S102-3：基于算力预选中心群，结合终端设备对GPU的需求和终端设备对Tensorflow的需求，计算算力资源相关性，并根据算力资源相关性，筛选出算力备选中心群。

进一步地，所述S102-1：根据终端设备对云主机规格的需求，筛选存在当前云主机规格的算力中心，具体包括：

假设Q是二元向量，Q表示用户任务q的云主机规格所需算力资源：Q＝(Qcs,Q_n)，Q_cs为用户需求的云主机规格、Q_n为关于Q_cs的云主机数量。

假设P_ipc是二元向量P_ipc＝(P_ics,P_in)，P_ipc表示算力中心P_i(1<i<n)提供的云主机规格，P_ics为算力中心P_i(1<i<n)提供的云主机规格，P_in为关于P_ics的云主机数量。

用Rel(q,P_i)表示任务q和算力中心P_i(1<i<n)的云主机规格相关性

选出云主机规格相关性Rel(q,P_i)值大于0.85的算力中心。

进一步地，所述S102-2：从所筛选的算力中心中，进一步筛选出符合多个预设条件的算力中心，组成算力预选中心群，具体包括：

筛选出同时满足P_icpu≥P_in*P_icsa、P_ioum≥P_in*P_icsb、P_ihd≥P_in*P_icsc的算力中心作为算力预选中心群。

上述技术方案的有益效果是：在符合云主机规格基础上选择有足够资源剩余量的算力中心作为算力预选中心群。

进一步地，所述S102-3：基于算力预选中心群，结合终端设备对GPU的需求和终端设备对Tensorflow的需求，计算算力资源相关性，并根据算力资源相关性，筛选出算力备选中心群，具体包括：

假设T是三元向量，T表示任务t所需的算力资源：

T＝(T_gpu,T_tens,T_pc)，

其中T_gpu是任务t的所需要GPU的数量、T_tens是运行任务t所需的Tensorflow条件、T_pc是运行任务t的云主机规格。

假设K是三元向量：

K＝(P_igpu,P_itens,P_ipc)，

P_igpu表示算力中心P_i(1<i<n)提供的GPU的数量,P_itens是算力中心P_i(1<i<n)提供的Tensorflow条件，P_ipc表示算力中心P_i(1<i<n)中提供的云主机规格。

用Rel(t,P_i)表示任务t和算力中心Pi(1<i<n)的算力资源相关性，表示公式如下；

筛选出算力资源相关性Rel(t,P_i)的值大于0.85的算力中心作为算力备选中心群。

应理解地，所筛选出来的算力备选中心群在符合用户对算力中心云主机需求的基础上又满足Tensorflow和GPU条件。

进一步地，所述S103：计算存储备选中心群和算力备选中心群中，存储中心和算力中心两两之间网络传输质量数据，具体包括：

时延、带宽、丢包率或抖动。

应理解地，筛选出存储备选中心群和算力备选中心群后，智能Agent使用iperf3命令获取存储备选中心群和算力备选中心群中存储和算力中心两两间网络传输质量数据，包括时延、带宽、丢包率、抖动。

进一步地，所述S103：根据网络传输质量数据，计算出网络传输质量评分和存算中心匹配评分，具体包括：

网络传输质量评分trans(G_i,P_i)的高低，表现存储中心G_i(1<i<n)和算力中心P_i(1<i<n)之间的网络传输质量状况；

其中，v是网络传输质量评分的加权因子、a是时延、b是带宽、c是丢包率、d是抖动。

存算中心匹配评分

综合考虑成本与资源性能两种因素；

其中，λ是算力中心评分的加权因子、μ是存储中心评分的加权因子、P_iv代表算力中心P_i(1<i<n)所提供算力资源(算力云节点)的总价格、G_iv代表存储中心G_i(1<i<n)所提供存储资源(存储云节点)的总价格。

调度决策评分res(G_i,P_i)综合考虑网络传输延迟、抖动、带宽等网络因素以及存储和算力中心资源的容量、类型等，用以评估满足需求的存算中心，并依此给出存算分离调度方案；

进一步地，所述S103：根据网络传输质量评分和存算中心匹配评分，给出不同策略需求的调度决策评分函数，具体包括：

策略一：资源最匹配策略，只考虑资源性能最好、不考虑资源成本，调度决策评分res(G_i,P_i)中的存储中心提供的存储资源价格G_iv与算力中心所提供的算力资源价格P_iv均设为1

将存储和算力备选中心群全部带入资源最匹配策略时的调度决策评分公式，公式数值最大值时的存储和算力中心为资源最匹配的存储和算力中心。

策略二：成本最低策略，只考虑算力备选中心和存储备选中心成本最低，不考虑资源匹配和网络传输质量状况，网络传输质量评分设置为1，算力资源相关性Rel(t,P_i)和存储资源相关性Rel(m,G_i)设置为1；

将存储和算力备选中心群全部带入成本最低的策略时的调度决策评分公式，公式数值最大值时的存储和算力中心为成本最低的存储和算力中心。

策略三：性价比最优策略，综合考虑资源匹配、网络传输质量以及成本。

将存储和算力备选中心群全部带入性价比最优策略时的调度决策评分公式，公式数值最大值时的存储和算力中心为性价比最优的存储和算力中心。

根据用户所选择策略的不同会产生不同的调度决策结果，通过应用***实现调度的下发和执行。

所述方法的工作环境为异地的存储中心和算力中心以及分别分布于两个中心上的数据库、文件存储***、应用***；

所述存储中心，由多个存储服务器节点组成，为存储资源协同调度提供充足的存储资源；

所述算力中心，包括云计算中心、人工智能中心、高性能计算中心等类型的中心，每个算力中心由多个物理服务器节点组成，为存算资源协同调度提供充足的计算资源；

所述数据库，用于保存不同存储和算力中心节点资源状况、两者间的网络状况数据；

所述文件存储***，用于存储资源文件；

所述应用***，用于执行调度策略。

设存储中心G₁、G₂、G₃、G₄、G₅分别是甲地一区NFS存储中心、乙地一区NFS存储中心、丙地一区HDFS存储中心、甲地二区HDFS存储中心、乙地二区对象存储中心。算力中心P₁、P₂、P₃、P₄、P₅分别是戊地一区云计算中心、丁地一区云计算中心、丙地三区云计算中心、戊地二区人工智能中心、甲地三区高性能计算中心。

首先使用智能Agent感知各存储中心和算力中心节点的资源状况数据，并写入数据库中。

步骤1.1：智能Agent感知各存储中心的存储类型和存储剩余量。设G_ih代表存储中心G_i(1<i<n)的存储类型、G_is代表存储中心G_i(1<i<n)关于G_ih存储类型的总存储剩余量。设G_1h为NFS存储类型时、存储容量G_1s为500GB,G_2h为NFS存储类型时、存储容量G_2s为550GB，G_3h为HDFS存储类型时、存储容量G_3s为400GB，G_4h为HDFS存储类型时、存储容量G_4s为420GB，G_5h为对象存储类型时、存储容量G_5s为500GB。

步骤1.2：将感知的各个存储中心数据信息放入数据库中保存；

步骤1.3：智能Agent感知算力中心各节点的算力资源状况，设P_igpu是算力中心P_i(1<i<n)所提供的GPU数量,P_itens是算力中心P_i(1<i<n)所提供的Tensorflow条件，P_ipc是算力中心P_i(1<i<n)中提供的云主机规格，P_ipc是由云主机规格P_ics和符合云主机规格节点数P_in的乘积组成:P_ipc＝P_ics*P_in。云主机规格P_ics包括CPU核数P_icsa、内存P_icsb、***硬盘P_icsc，P_icpu是算力中心P_i(1<i<n)中关于CPU的总资源剩余量，P_ioum是算力中心P_i(1<i<n)中关于内存的总资源剩余量，P_ihd是算力中心P_i(1<i<n)中关于***硬盘的总资源剩余量。

设P₁的GPU数量为4、提供Tensorflow条件、由4个服务器节点构成：(CPU核数，节点内存，节点硬盘)＝(2,4,20)＝(2,8,30)＝(2,16,40)＝(4,8,50)，P2的GPU数量为2、不提供Tensorflow条件、由4个服务器节点构成：(CPU核数，节点内存，节点硬盘)＝(2,4,20)＝(2,8,30)＝(2,16,40)＝(4,8,60)，P3的GPU数量为6、提供Tensorflow条件、由3个服务器节点构成：(CPU核数，节点内存，节点硬盘)＝(2,4,20)＝(2,8,30)＝(4,8,55)，P4的GPU数量为4、提供Tensorflow条件、由4个服务器节点构成：(CPU核数，节点内存，节点硬盘)＝(2,4,20)＝(2,8,30)＝(2,16,40)＝(4,4,20)，P5的GPU数量为4、提供Tensorflow条件、由4个服务器节点构成：(CPU核数，节点内存，节点硬盘)＝(2,4,20)＝(2,8,30)＝(2,16,40)＝(4,4,30)。

步骤1.4：将感知的各个算力中心数据信息放入数据库中保存；

然后基于感知的算力和存储资源数据综合用户需求，设计面向存算分离的算网资源协同调度策略。

步骤2.1：根据用户需求和数据库关于存储中心的数据通过存储资源相关性筛选存储备选中心群。

设M是二元向量，表示用户任务m所需的存储资源：M＝(G_m1,G_m2)，其中G_m1是任务m的所需要存储类型为NFS，G_m2是任务m的所需关于G_m1的存储量资源为500GB。

设S是二元向量，表示各存储中心G_i(1<i<n)的存储资源：S＝(G_ih,G_is)，其中G_ih,G_is为步骤1.1所设。用Rel(m,G)表示任务m和各存储中心G_i(1<i<n)的存储资源相关性，公式如下；

步骤2.2筛选出存储资源相关性Rel(m,G)的值大于0.85的存储中心G_i(1<i<n)作为存储备选中心群。故G_i＝(G₁,G₂)符合。

步骤2.3：筛选算力中心，根据用户的对云主机规格筛选存在该云主机规格的算力中心。

假设Q是二元向量，表示用户任务q的云主机规格所需算力资源：Q＝(Q_cs,Q_n)，用户需求云主机规格Q_cs为(4,8,50)即CPU核数Q_csa为4、内存数量Q_csb为8GB、***硬盘Q_csc为50GB，关于Q_cs的云主机数Qn为1。

假设P_ipc是二元向量P_ipc＝(P_ics,P_in)，表示算力中心P_i(1<i<n)提供的云主机规格，其中云主机规格包括云主机规格P_ics，关于P_ics的云主机数P_in。

用Rel(q,P_i)表示任务q和算力中心P_i(1<i<n)的云主机规格相关性

步骤2.4：选出云主机规格相关性Rel(q,P_i)值大于0.85的算力中心。故P₁,P₂,P₃算力中心符合用户云主机规格。

步骤2.5：在上一步的基础上，筛选出同时满足P_icpu≥P_in*P_icsa、P_ioum≥P_in*P_icsb、P_ihd≥P_in*P_icsc的算力中心作为算力预选中心群，即符合云主机规格基础上选择有足够资源剩余量的算力中心作为算力预选中心群。P_icpu、P_ioum、P_ihd、P_in、P_icsa、P_icsb、P_icsc为步骤1.3所设。

设P₁的CPU的总资源剩余量为10、内存的总资源剩余量为36GB，***硬盘的总资源剩余量为140GB。设P₂的CPU的总资源剩余量为10、内存的总资源剩余量为36GB，***硬盘的总资源剩余量为150GB。设P₃的CPU的总资源剩余量为8、内存的总资源剩余量为20GB，***硬盘的总资源剩余量为105GB。故P₁,P₂,P₃都是有足够的资源剩余量的算力中心，可作为算力预选中心群。

步骤2.6：基于算力预选中心群，结合用户GPU、Tensorflow需求和数据库关于算力中心的数据，通过算力资源相关性筛选算力备选中心群。

假设T是三元向量，表示任务t所需的算力资源：T＝(T_gpu,T_tens,T_pc)，其中T_gpu是任务t的所需要GPU的数量为4、T_tens是运行任务t所需的Tensorflow条件、T_pc是运行任务的云主机规格(用户需求云主机规格CPU核数为4、内存数量为8GB、***硬盘为50GB、符合上方规格的云主机数量为1)。

假设K是三元向量K＝(P_igpu,P_itens,P_ipc)，P_igpu表示算力中心P_i(1<i<n)提供的GPU的数量,P_itens是算力中心P_i(1<i<n)提供的Tensorflow条件。P_ipc表示算力中心P_i(1<i<n)中提供的云主机规格。

用Rel(t,P_i)表示任务t和算力中心P_i(1<i<n)的算力资源相关性，表示公式如下；

步骤2.7：筛选出算力资源相关性Rel(t,P_i)的值大于0.85的算力中心作为算力备选中心群，此算力备选中心群在符合用户对算力中心云主机需求的基础上又满足Tensorflow和GPU条件。故筛选出算力备选中心群P_i＝(P₁,P₃)符合。

步骤2.8：筛选出存储备选中心群G_i＝(G₁,G₂)和算力备选中心群P_i＝(P₁,P₃)后，智能Agent使用iperf3命令使存储备选中心群和算力备选中心群互相通信，获取网络传输条件数据，包括时延、传输带宽、传输丢包率、传输时抖动。

步骤2.9：将获取的网络传输质量数据发送保存到数据库。

步骤2.10：引入网络传输质量评分trans(G_i,P_i)、存算中心匹配评分

调度决策评分res(G_i,P_i)。

网络传输质量评分trans(G_i,P_i)的高低可以具体表现存储中心G_i(1<i<n)和算力中心P_i(1<i<n)之间的网络传输质量状况；

v是网络传输质量评分的加权因子、a是时延、b是带宽、c是丢包率、d是抖动。

存算中心匹配评分

综合考虑成本与资源性能两种因素；

λ是算力中心评分的加权因子、μ是存储中心评分的加权因子、P_iv代表算力中心P_i(1<i<n)所提供算力资源(算力云节点)的总价格、G_iv代表存储中心G_i(1<i<n)所提供存储资源(存储云节点)的总价格、Rel(m,G_i)在步骤2.1中定义、Rel(t,P_i)在步骤2.6中定义。

步骤2.11：调度决策评分res(G_i,P_i)可选择资源最匹配的策略；

资源最匹配策略只考虑资源性能最好、不考虑资源成本，调度决策评分res(G_i,P_i)中的存储中心提供的存储资源价格G_iv与算力中心所提供的算力资源价格P_iv均设为1；

将存储和算力备选中心群全部带入资源最匹配策略时的调度决策评分公式，公式数值最大值时的存储和算力中心为资源最匹配的存储和算力中心，最后得到存储中心G1和算力中心P₁为资源最匹配。

步骤2.12：调度决策评分res(G_i,P_i)可选择成本最低的策略；

成本最低策略只考虑算力备选中心和存储备选中心成本最低，不考虑资源匹配和网络传输质量状况，网络传输质量评分设置为1，算力资源相关性Rel(t,P_i)和存储资源相关性Rel(m,G_i)设置为1；

将存储和算力备选中心群全部带入成本最低的策略时的调度决策评分公式，公式数值最大值时的存储和算力中心为成本最低的存储和算力中心，最后得到G₂存储中心和P₃算力中心为成本最低。

步骤2.13：调度决策评分res(G_i,P_i)可选择调度性价比最优的策略；

性价比最优策略综合考虑资源匹配、网络传输质量以及成本。

将存储和算力备选中心群全部带入性价比最优策略时的调度决策评分公式，公式数值最大值时的存储和算力中心为性价比最优的存储和算力中心。最后得到G₂存储中心和P₁算力中心为性价比最优。

步骤2.14：一种面向存算分离的算网资源协同调度方法根据用户所选择策略的不同会产生不同的调度决策结果，通过应用***实现调度的下发和执行。

图1面向存算分离算网资源协同调度方法的具体流程；图2异地异构资源智能感知的具体流程；图3面向存算分离算网资源协同调度策略的具体流程；图4基于异地异构的存储中心和算力中心示例；图5筛选存储备选中心群和算力备选中心群的具体流程；图6调度决策评分生成三种调度策略的具体流程。

实施例二

本实施例提供了面向存算分离的算网资源协同调度***；

面向存算分离的算网资源协同调度***，包括：

此处需要说明的是，上述第一获取模块、第二获取模块、计算模块和输出模块对应于实施例一中的步骤S101至S104，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为***的一部分可以在诸如一组计算机可执行指令的计算机***中执行。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.面向存算分离的算网资源协同调度方法，其特征是，包括：

2.如权利要求1所述的面向存算分离的算网资源协同调度方法，其特征是，获取多个终端设备发送的用于为任务分配存储资源的资源调度请求，根据为任务分配存储资源的资源调度请求和存储中心资源使用情况的数据，筛选出存储备选中心群，具体包括：

设S是二元向量，S表示各存储中心G_i的存储资源：S＝(G_ih,G_is)，用Rel(m,G)表示任务m和各存储中心G_i的存储资源相关性，公式如下；

其中，G_ih代表存储中心G_i的存储类型、G_is代表存储中心G_i关于G_ih存储类型的总存储剩余量；

筛选出存储资源相关性Rel(m,G)的值大于设定阈值的存储中心G_i作为存储备选中心群。

3.如权利要求1所述的面向存算分离的算网资源协同调度方法，其特征是，获取多个终端设备发送的用于为任务分配算力资源的资源调度请求，根据为任务分配算力资源的资源调度请求和算力中心资源使用情况的数据，筛选出算力备选中心群，具体包括：

根据终端设备对云主机规格的需求，筛选存在当前云主机规格的算力中心；

从所筛选的算力中心中，进一步筛选出符合多个预设条件的算力中心，组成算力预选中心群；

基于算力预选中心群，结合终端设备对GPU的需求和终端设备对Tensorflow的需求，计算算力资源相关性，并根据算力资源相关性，筛选出算力备选中心群。

4.如权利要求3所述的面向存算分离的算网资源协同调度方法，其特征是，根据终端设备对云主机规格的需求，筛选存在当前云主机规格的算力中心，具体包括：假设Q是二元向量，Q表示用户任务q的云主机规格所需算力资源：Q＝(Q_cs,Q_n)，Q_cs为用户需求的云主机规格、Q_n为关于Q_cs的云主机数量；

假设P_ipc是二元向量P_ipc＝(P_ics,P_in)，P_ipc表示算力中心P_i提供的云主机规格，P_ics为算力中心P_i提供的云主机规格，P_in为关于P_ics的云主机数量；

用Rel(q,P_i)表示任务q和算力中心P_i的云主机规格相关性：

选出云主机规格相关性Rel(q,P_i)值大于设定阈值的算力中心。

5.如权利要求3所述的面向存算分离的算网资源协同调度方法，其特征是，从所筛选的算力中心中，进一步筛选出符合多个预设条件的算力中心，组成算力预选中心群，具体包括：

6.如权利要求3所述的面向存算分离的算网资源协同调度方法，其特征是，基于算力预选中心群，结合终端设备对GPU的需求和终端设备对Tensorflow的需求，计算算力资源相关性，并根据算力资源相关性，筛选出算力备选中心群，具体包括：

假设T是三元向量，T表示任务t所需的算力资源：

T＝(T_gpu,T_tens,T_pc)，

其中T_gpu是任务t的所需要GPU的数量、T_tens是运行任务t所需的Tensorflow条件、T_pc是运行任务t的云主机规格；

假设K是三元向量：

K＝(P_igpu,P_itens,P_ipc)，

P_igpu表示算力中心P_i提供的GPU的数量,P_itens是算力中心P_i提供的Tensorflow条件，P_ipc表示算力中心P_i中提供的云主机规格；

用Rel(t,P_i)表示任务t和算力中心P_i的算力资源相关性，表示公式如下；

筛选出算力资源相关性Rel(t,P_i)的值大于设定阈值的算力中心作为算力备选中心群。

7.如权利要求1所述的面向存算分离的算网资源协同调度方法，其特征是，根据网络传输质量数据，计算出网络传输质量评分和存算中心匹配评分，具体包括：

网络传输质量评分trans(G_i,P_i)的高低，表现存储中心G_i和算力中心P_i之间的网络传输质量状况；

其中，v是网络传输质量评分的加权因子、a是时延、b是带宽、c是丢包率、d是抖动；

存算中心匹配评分

综合考虑成本与资源性能两种因素；

其中，λ是算力中心评分的加权因子、μ是存储中心评分的加权因子、P_iv代表算力中心P_i所提供算力资源的总价格、G_iv代表存储中心G_i所提供存储资源的总价格。

8.如权利要求1所述的面向存算分离的算网资源协同调度方法，其特征是，根据网络传输质量评分和存算中心匹配评分，给出不同策略需求的调度决策评分函数，具体包括：

策略一：资源最匹配策略，只考虑资源性能最好、不考虑资源成本，调度决策评分res(G_i,P_i)中的存储中心提供的存储资源价格G_iv与算力中心所提供的算力资源价格P_iv均设为1；

将存储和算力备选中心群全部带入资源最匹配策略时的调度决策评分公式，公式数值最大值时的存储和算力中心为资源最匹配的存储和算力中心；

将存储和算力备选中心群全部带入成本最低的策略时的调度决策评分公式，公式数值最大值时的存储和算力中心为成本最低的存储和算力中心；

策略三：性价比最优策略，综合考虑资源匹配、网络传输质量以及成本；

9.如权利要求1所述的面向存算分离的算网资源协同调度方法，其特征是，所述方法的工作环境为异地的存储中心和算力中心以及分别分布于两个中心上的数据库、文件存储***、应用***；

所述算力中心，包括云计算中心、人工智能中心、高性能计算中心类型的中心，每个算力中心由多个物理服务器节点组成，为存算资源协同调度提供充足的计算资源；

所述数据库，用于保存不同存储和算力中心节点资源状况、两者间的网络状况数据；所述文件存储***，用于存储资源文件；所述应用***，用于执行调度策略。

10.面向存算分离的算网资源协同调度***，其特征是，包括：