CN117724853B - 基于人工智能的数据处理方法及装置 - Google Patents

基于人工智能的数据处理方法及装置 Download PDF

Info

Publication number
CN117724853B
CN117724853B CN202410177101.XA CN202410177101A CN117724853B CN 117724853 B CN117724853 B CN 117724853B CN 202410177101 A CN202410177101 A CN 202410177101A CN 117724853 B CN117724853 B CN 117724853B
Authority
CN
China
Prior art keywords
computing power
cluster
task
bbu
application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410177101.XA
Other languages
English (en)
Other versions
CN117724853A (zh
Inventor
杨爱东
欧阳晔
屈晋先
吴墨翰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asiainfo Technologies China Inc
Original Assignee
Asiainfo Technologies China Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asiainfo Technologies China Inc filed Critical Asiainfo Technologies China Inc
Priority to CN202410177101.XA priority Critical patent/CN117724853B/zh
Publication of CN117724853A publication Critical patent/CN117724853A/zh
Application granted granted Critical
Publication of CN117724853B publication Critical patent/CN117724853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本申请实施例提供了一种基于人工智能的数据处理方法及装置,涉及算力网络技术领域。该方法包括:响应于针对目标应用的至少一个任务请求,获取至少一个任务请求分别对应的至少一个任务;基于各个任务分别对应的任务信息,从目标应用对应的至少一个第一集群中确定每个任务分别对应的第二集群;针对每个任务,将任务分配至与任务对应的第二集群,以供第二集群基于计算算力资源执行任务。本申请实施例充分利用了算力网络中的网络设备的空闲算力,实现了算力网络中空闲算力的合理分配,无需增加额外的硬件设备,通过将大量BBU的空闲算力与通信业务解耦,为计算应用提供算力支持,实现灵活、低成本的算力供给。

Description

基于人工智能的数据处理方法及装置
技术领域
本申请涉及算力网络技术领域,具体而言,本申请涉及一种基于人工智能的数据处理方法及装置。
背景技术
算力网络是实现从以网络为核心的信息交换到以算力为核心的信息数据处理,是智能化综合性新型信息基础设施的关键部分。当前,由于网络和算力的建设分离,算力供给中存在“效能低、成本高”的问题,很难满足新型数字经济发展的需求。
因此,构建融合算力与网络的通算一体数字化基础设施应运而生,现有技术中是通过在网络设备上增加独立的算力板卡或专用算力服务器,从硬件上实现算力和网络的融合。但是,现有技术中需要额外购买算力板卡或算力服务器,算力网络建设成本较高。
发明内容
本申请实施例提供了一种基于人工智能的数据处理方法及装置,可以解决现有技术中算力网络建设成本较高的问题。
所述技术方案如下:
根据本申请实施例的一个方面,提供了一种基于人工智能的数据处理方法,该方法包括:
响应于针对目标应用的至少一个任务请求,获取所述至少一个任务请求分别对应的至少一个任务;
基于各个任务分别对应的任务信息,从所述目标应用对应的至少一个第一集群中,确定每个任务分别对应的第二集群;所述第二集群为与所述任务的任务信息相匹配的集群;
针对每个任务,将所述任务分配至与所述任务对应的第二集群,以供所述第二集群基于计算算力资源执行所述任务;
其中,所述第一集群是基于如下方式确定的:
获取至少一个基带处理单元BBU分别对应的在任务运行时间的预测空闲算力,并从候选算力资源中确定与所述预测空闲算力对应的所述计算算力资源;
基于各个BBU分别对应的预测空闲算力,对所述各个BBU进行聚类,得到至少一个集群;
获取待处理的至少一个应用;所述至少一个应用包括所述目标应用;
基于各个应用分别对应的算力需求,从所述至少一个集群中确定每个应用分别对应的至少一个第一集群;所述第一集群为与所述应用的算力需求相匹配的集群。
可选地,所述基于各个应用分别对应的算力需求,从所述至少一个集群中确定每个应用分别对应的至少一个第一集群,包括:
确定各个应用分别对应的算力需求,以及各个集群分别对应的集群特征;所述集群特征用于表征集群的算力资源供给水平;
基于各个应用分别对应的算力需求,以及各个集群分别对应的集群特征,确定所述各个应用与各个集群之间的第一映射关系;
基于所述第一映射关系,确定每个应用分别对应的至少一个第一集群。
可选地,所述基于各个应用分别对应的算力需求,以及各个集群分别对应的集群特征,确定所述各个应用与各个集群之间的第一映射关系,包括:
将各个应用分别对应的算力需求,以及各个集群分别对应的集群特征输入至编排模型,得到所述编排模型输出的多个候选编排策略;
基于第一策略评价指标,从所述多个候选编排策略中确定出目标编排策略;
基于所述目标编排策略,确定所述第一映射关系。
可选地,所述基于各个任务分别对应的任务信息,从所述至少一个第一集群中确定每个任务分别对应的第二集群,包括:
将各个任务分别对应的任务信息和各个第一集群输入至调度模型,得到所述调度模型输出的多个候选调度策略;
基于第二策略评价指标,从所述多个候选调度策略中确定出目标调度策略;
基于所述目标调度策略,确定每个任务分别对应的第二集群。
可选地,所述获取至少一个基带处理单元BBU分别对应的在所述任务运行时间的预测空闲算力,包括:
针对每个BBU,获取所述BBU在所述任务运行时间的预测通信算力资源使用量;
基于所述BBU的预测通信算力资源使用量、所述BBU对应的资源约束和扩容阈值,确定所述BBU在所述任务运行时间的预测空闲算力。
可选地,所述扩容阈值是基于如下方式确定的:
确定初始扩容阈值;
对所述初始扩容阈值执行至少一次优化操作,直至满足预设结束条件,将满足预设结束条件的初始扩容阈值作为所述扩容阈值;
其中,所述优化操作包括:
针对每个BBU,获取所述BBU当前通信算力资源状态和历史通信算力资源状态;
基于所述当前通信算力资源状态和所述历史通信算力资源状态,确定在预设时域内的第一预测通信算力资源使用量;
针对所述预设时域内的任一预设时刻,从所述第一预测通信算力资源使用量中确定所述预设时刻的第二预测通信算力资源使用量;
基于所述第二预测通信算力资源使用量、所述BBU对应的资源约束和初始扩容阈值,得到所述BBU在所述预设时刻的预测空闲算力;
基于所述预设时域中各个预设时刻的预测空闲算力和各个预设时刻的真实空闲算力之间的差异,确定预测误差;
若所述预测误差不满足所述预设结束条件,则对所述初始扩容阈值进行修正,并将修正后的初始扩容阈值作为下一次优化的初始扩容阈值。
可选地,所述目标应用包括联邦学习应用;所述第二集群中每个BBU分别部署对应的初始本地模型;
所述第二集群执行任务,包括:
对MEC服务器中的初始聚合模型进行至少一次训练操作,直至满足训练结束条件,并将满足训练结束条件的初始聚合模型作为训练好的聚合模型;
其中,所述训练操作包括:
获取所述第二集群中每个BBU部署的初始本地模型;
将多个初始本地模型进行模型聚合,得到第一聚合模型,基于第一聚合模型对所述初始聚合模型进行更新;
若更新后的初始聚合模型的损失函数不满足训练结束条件,则将更新后的初始聚合模型分别下发给所述第二集群中的每个BBU,以供所述每个BBU将更新后的初始聚合模型作为下一次训练操作的初始本地模型。
根据本申请实施例的另一个方面,提供了一种基于人工智能的数据处理装置,该装置包括:
任务获取模块,用于响应于针对目标应用的至少一个任务请求,获取所述至少一个任务请求分别对应的至少一个任务;
任务调度模块,用于基于各个任务分别对应的任务信息,从所述目标应用对应的至少一个第一集群中,确定每个任务分别对应的第二集群;所述第二集群为与所述任务的任务信息相匹配的集群;
任务执行模块,用于针对每个任务,将所述任务分配至与所述任务对应的第二集群,以供所述第二集群基于计算算力资源执行所述任务;
其中,所述第一集群是基于如下方式确定的:
获取至少一个基带处理单元BBU分别对应的在任务运行时间的预测空闲算力,并从候选算力资源中确定与所述预测空闲算力对应的所述计算算力资源;
基于各个BBU分别对应的预测空闲算力,对所述各个BBU进行聚类,得到至少一个集群;
获取待处理的至少一个应用;所述至少一个应用包括所述目标应用;
基于各个应用分别对应的算力需求,从所述至少一个集群中确定每个应用分别对应的至少一个第一集群;所述第一集群为与所述应用的算力需求相匹配的集群。
根据本申请实施例的另一个方面,提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述任一种基于人工智能的数据处理方法的步骤。
根据本申请实施例的再一个方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种基于人工智能的数据处理方法的步骤。
本申请实施例提供的技术方案带来的有益效果是:
在应用部署阶段,通过获取至少一个BBU分别对应的在任务运行时间的预测空闲算力,基于各个BBU分别对应的预测空闲算力,对各个BBU进行聚类,得到至少一个集群,并基于各个应用分别对应的算力需求,确定与各个应用分别对应的至少一个第一集群,从而可以将每个应用分配至与其算力需求相匹配的集群,充分利用了算力网络中的网络设备的空闲算力,实现了算力网络中空闲算力的合理分配,提高了算力网络中算力资源的利用率。
在任务执行阶段,通过获取目标应用的至少一个任务,基于各个任务分别对应的任务信息,从至少一个第一集群中确定每个任务的任务信息相匹配的第二集群,使得第二集群基于计算算力资源执行任务,无需增加额外的硬件设备,通过将大量BBU的空闲算力与通信业务解耦,为计算应用提供算力支持,实现灵活、低成本的算力供给。
进一步地,通过基于各个任务分别对应的任务信息,确定与每个任务的任务信息相匹配的第二集群,实现了各个集群对于不同任务之间的合理分配,提高了各个任务的计算效率,能够提供高效的计算服务。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种算力网络的***架构图;
图2为本申请实施例提供的一种基于人工智能的数据处理方法的流程示意图;
图3为本申请实施例提供的一种BBU聚类的流程示意图;
图4为本申请实施例提供的一种算力资源编排过程的流程示意图;
图5为本申请实施例提供的一种任务调度过程的流程示意图;
图6为本申请实施例提供的一种算力变化趋势的示意图;
图7为本申请实施例提供的一种算力预测方法的流程示意图;
图8为本申请实施例提供的一种算力资源编排及任务调度过程的流程示意图;
图9为本申请实施例提供的一种联邦学习应用的算力资源编排及任务调度过程的流程示意图;
图10为本申请实施例提供的一种联邦学习应用的算力内生***架构图;
图11为本申请实施例提供的一种基于人工智能的数据处理装置的结构示意图;
图12为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式 “一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或 “耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”可以实现为“A”,或者实现为“B”,或者实现为“A和B”。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面通过对几个示例性实施方式的描述,对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
图1为本申请实施例提供的一种算力网络的***架构图,如图1所示,本申请实施例基于3GPP(3rd Generation Partnership Project,第三代合作伙伴计划)标准的5G SA(Standalone,独立组网)***架构,包括N个5G BBU(Base Band Unit,基带处理单元),5GMEC(Mobile Edge Computing,移动边缘计算)和5GC(5th Generation Core Network,5G核心网)。
5G BBU借助hypervisor(一种虚拟化技术)技术,通过虚拟器将空闲算力与通信服务算力隔离,从而可以提供空闲算力资源用于各种应用服务,例如FL(FederatedLearning,联邦学习)应用、人脸识别应用等,此外还提供3GPP 5G RAN(Radio AccessNetwork,无线接入网)网络服务。
如图1所示,每个BBU可以包括一定的算力资源,图1左侧的一个方格表示一个单位的算力资源,以CPU(Central Processing Unit,中央处理器)为例,一个方格表示一个CPU,其中填充为阴影的方格表示算力资源用于通信服务,填充为灰色的方格表示算力资源用于计算,即空闲算力。在图1所示的示例中,5G BBU(以下简称BBU)1-N均包括14个CPU,上述示例并不构成对BBU中CPU数量的限制。图1中BBU1中有8个CPU用于通信,则可以有6个CPU用于计算;BBU2中有6个CPU用于通信,则可以有8个CPU用于计算;BBU N中全部的CPU均用于通信。需要说明的是,所有的BBU与MEC之间都有物理连接,但是BBU N中没有空闲的算力用于计算,这里不给BBU N分配算力资源,等效于BBU N与5G MEC“没有连接”。
5G MEC进行空闲算力资源编排和任务调度,以及各种应用管理能力,例如FL协调等;5GC可提供基础网络服务,以及网络算力协调服务。
需要说明的是,本申请实施例以5G(5th Generation Mobile CommunicationTechnology,第五代移动通信技术)算力网络***进行说明,本领域人员可以知晓,在其他应用场景中,还可以适用于其他移动通信网络***,例如未来网络,即新一代的网络,例如B5G(Beyond 5G,超五代移动通信技术)或6G(6th Generation Mobile CommunicationTechnology,第六代移动通信技术)网络等。
图2为本申请实施例提供的一种基于人工智能的数据处理方法的流程示意图,如图2所示,该方法包括:
步骤S110,响应于针对目标应用的至少一个任务请求,获取至少一个任务请求分别对应的至少一个任务。
具体地,算力网络***可以包括一个MEC服务器和多个BBU。本申请实施例提供的基于人工智能的数据处理方法的执行主体可以为算力网络***中的MEC服务器、多BBU、或MEC服务器和多BBU联合。
算力网络***的主要功能是实现移动通信,但是网络设备(例如BBU)除了包括通信服务的算力之外,还可以包括多余的空闲算力,也可以称为内生算力(NativeComputing,NC)。
例如,一个BBU可以包括10个CPU的算力资源,其中,6个CPU为通信服务提供算力时,剩余的4个CPU的算力资源是空闲的。为了对网络设备中空闲算力进行充分利用,可以通过算力资源的编排,将多个应用预先部署在多个网络设备上,算力资源的编排方法将在下文中进行详细阐述。
在完成应用部署后,MEC服务器可以接收针对目标应用的至少一个任务请求,并获取至少一个任务请求分别对应的至少一个任务。
其中,目标应用可以为部署在多个BBU上的多个应用中任一应用,例如目标应用可以为FL应用、人脸识别应用等,目标应用可以根据实际的应用场景进行具体设置,本申请实施例对此不做限制。
步骤S120,基于各个任务分别对应的任务信息,从目标应用对应的至少一个第一集群中确定每个任务分别对应的第二集群;第二集群为与所述任务的任务信息相匹配的集群。
具体地,当接收到针对目标应用的多个任务请求时,需要对多个任务请求分别对应的多个任务进行调度。
在得到至少一个任务请求分别对应的至少一个任务之后,可以确定各个任务分别对应的任务信息,其中,任务信息可以为与任务相关的信息,任务信息可以包括任务需求、任务限制条件等。
基于各个任务分别对应的任务信息,从至少一个第一集群中确定每个任务分别对应的第二集群,其中,第二集群可以为与任务的任务信息相匹配的集群,第二集群可以用于执行对应的任务;第一集群可以为目标应用对应的集群,目标应用可以对应至少一个第一集群。
其中,第一集群是基于如下方式确定的:
(1)获取至少一个BBU分别对应的在任务运行时间的预测空闲算力,并从候选算力资源中确定与预测空闲算力对应的计算算力资源;
(2)基于各个BBU分别对应的预测空闲算力,对各个BBU进行聚类,得到至少一个集群;
(3)获取待处理的至少一个应用;至少一个应用包括目标应用;
(4)基于各个应用分别对应的算力需求,从至少一个集群中确定每个应用分别对应的至少一个第一集群;第一集群为与应用的算力需求相匹配的集群。
具体地,在执行步骤S110之前,MEC服务器可以对至少一个BBU分别在任务运行时间的预测空闲算力进行预测,其中,任务运行时间可以为目标应用对应的任务的运行时间,预测空闲算力的获取方法将在下文中进行详细阐述。
基于预测空闲算力,从候选算力资源中确定与预测空闲算力对应的计算算力资源,并利用虚拟化技术hypervisor,将计算算力资源和通信算力资源进行隔离,使得计算算力资源用于处理应用服务,通信算力资源用于处理通信服务。通过将计算算力资源与通信算力资源进行隔离,使得可以利用计算算力资源提供稳定的算力服务。
在得到各个BBU分别对应的预测空闲算力之后,可以根据各个BBU分别对应的预测空闲算力,对各个BBU进行算力聚类,即将预测空闲算力相近的多个BBU归为一类,即一个算力集群。遍历全部的BBU设备得到多个算力集群。
其中,一个集群包括至少一个BBU,可以基于分组法、K-means(K均值)、K-medoids(K中心点)聚类算法等进行聚类,本申请对BBU聚类的具体方法不做限制。
通过基于各个BBU分别对应的预测空闲算力对多个BBU进行聚类,将预测空闲算力相近的多个BBU划分为一个集群,使得一个集群中的多个BBU的算力更平均,避免了资源分配中的“木桶效应”,有利于提高后续资源分配的均衡性和计算的效率。
在对各个BBU进行聚类后,可以获取待处理的至少一个应用,至少一个应用可以是需要利用多个BBU的空闲算力进行处理的应用,至少一个应用中可以包括目标应用。
针对每个应用,可以确定每个应用分别对应的算力需求,并基于各个应用分别对应的算力需求,对算力资源进行编排,从聚类得到的至少一个集群中确定每个应用分别对应的至少一个第一集群,其中,第一集群可以为与应用的算力需求相匹配的集群。算力资源的具体编排方法将在下文中进行详细阐述。
步骤S130,针对每个任务,将任务分配至与任务对应的第二集群,以供第二集群基于计算算力资源执行任务。
具体地,在完成任务调度后,针对每个任务,可以将该任务分配至与该任务对应的第二集群,第二集群可以利用第二集群中的计算算力资源执行该任务。
本申请实施例中,在应用部署阶段,通过获取至少一个BBU分别对应的在任务运行时间的预测空闲算力,基于各个BBU分别对应的预测空闲算力,对各个BBU进行聚类,得到至少一个集群,并基于各个应用分别对应的算力需求,确定与各个应用分别对应的至少一个第一集群,从而可以将每个应用分配至与其算力需求相匹配的集群,充分利用了算力网络中的网络设备的空闲算力,实现了算力网络中空闲算力的合理分配,提高了算力网络中算力资源的利用率。
在任务执行阶段,通过获取目标应用的至少一个任务,基于各个任务分别对应的任务信息,从至少一个第一集群中确定每个任务的任务信息相匹配的第二集群,使得第二集群基于计算算力资源执行任务,无需增加额外的硬件设备,通过将大量BBU的空闲算力与通信业务解耦,为计算应用提供算力支持,实现灵活、低成本的算力供给。
进一步地,通过基于各个任务分别对应的任务信息,确定与每个任务的任务信息相匹配的第二集群,实现了各个集群对于不同任务之间的合理分配,提高了各个任务的计算效率,能够提供高效的计算服务。
作为一种可选实施例,图3为本申请实施例提供的一种BBU聚类的流程示意图,如图3所示,基于各个BBU分别对应的预测空闲算力,对各个BBU进行聚类,得到至少一个集群的过程包括:
(1)基于多个BBU分别对应的预测空闲算力资源,对多个BBU进行预聚类,预聚类指的是从多个BBU中选择预设数量个BBU作为集群中心,例如,随机选择预设数量个BBU作为第i个集群的集群中心/>
(2)针对每个预聚类得到的初始集群,计算初始集群中其余各个BBU与集群中心BBU之间的相似度,得到相似度矩阵,例如计算每个BBU到集群中心BBU的欧式距离,/>表示其余任意BBU。
(3)针对每个BBU,根据相似度大小,与相似度数值最大的集群中心聚为一类,重新聚类得到多个新集群,计算各个新集群的集群中心。如果新的集群中心/>与原集群中心一致,则聚类结束,否则返回步骤(2)继续进行相似度计算直到收敛,将聚类结束时的聚类结果作为最终的聚类结果/>,/>表示BBU经过聚类后的/>个集群
需要说明的是,聚类得到多个集群之间在逻辑上是相互隔离,但是在物理上并不一定相互隔离的,也就是说,两个集群之间可以包括重合的BBU,如图3所示,集群C1和集群C2都包括BBU2和BBUk+1
作为一种可选实施例,基于各个应用分别对应的算力需求,从至少一个集群中确定每个应用分别对应的至少一个第一集群,包括:
确定各个应用分别对应的算力需求,以及各个集群分别对应的集群特征;集群特征用于表征集群的算力资源供给水平;
基于各个应用分别对应的算力需求,以及各个集群分别对应的集群特征,确定各个应用与各个集群之间的第一映射关系;
基于第一映射关系,确定每个应用分别对应的至少一个第一集群。
具体地,在确定出待部署的多个应用之后,可以对多个应用进行分析,得到各个应用分别对应的算力需求,算力需求可以用于表征用于所需的算力资源,例如CPU核数,内存大小等。
经过对多个BBU进行聚类后,得到多个集群,针对每个集群,可以获取该集群的集群特征,例如可以通过对集群中多个BBU的预测空闲算力进行特征提取,得到集群的集群特征,其中,集群特征可以用于表征集群的算力资源供给水平。
可以基于各个应用分别对应的算力需求,以及各个集群分别对应的集群特征,确定各个应用和各个集群之间的第一映射关系,其中,第一映射关系可以用于反映应用与集群之间的匹配关系,一个应用可以与至少一个集群相匹配。
针对每个应用,可以基于第一映射关系,将与该应用匹配的至少一个集群作为该应用对应的至少一个第一集群。
作为一种可选实施例,基于各个应用分别对应的算力需求,以及各个集群分别对应的集群特征,确定各个应用与各个集群之间的第一映射关系,包括:
将各个应用分别对应的算力需求,以及各个集群分别对应的集群特征输入至编排模型,得到所述编排模型输出的多个候选编排策略;
基于第一策略评价指标,从多个候选编排策略中确定出目标编排策略;
基于目标编排策略,确定第一映射关系。
具体地,为对各个应用与各个集群进行匹配,可以基于编排算法建立编排模型,并将各个应用分别对应的算力需求,以及各个集群分别对应的集群特征输入编排模型,通过编排模型基于编排算法将各个应用分别分配至各个集群,得到编排模型输出的多个候选编排策略。
其中,编排算法包括但不限于随机算法等,候选编排策略可以包括将各个应用分配至各个集群的分配方式。
针对每个候选编排策略,确定候选编排策略对应的第一策略评价指标,第一策略评价指标可以用于反映候选编排策略的计算性能,第一策略评价指标可以是基于计算期望时间、计算成本、计算能耗等指标中的至少一项确定的。
基于各个候选编排策略分别对应的第一策略评价指标,从多个候选编排策略中确定出最优的候选编排策略,并将最优的候选编排策略作为目标编排策略。
可选地,当第一策略评价指标包括计算期望时间、计算成本、计算能耗中的任意一项时,可以将第一计算性能指标的数值最小的候选编排方式作为最优的候选编排方式。
例如,以计算期望时间为例,为应用/>在集群/>上运行的时间,为候选编排策略的第一策略评价指标。在此基础上,从多个候选编排策略中将/>值最小的候选编排策略作为最优的候选编排策略,即目标编排策略。
可选地,当第一策略评价指标包括计算期望时间、计算成本、计算能耗中的至少两项时,以计算期望时间和计算成本为例,一个示例中,可以先基于计算期望时间进行筛选,再基于计算成本进行筛选。比如可以从多个候选编排方式中筛选出计算期望时间小于时间阈值的多个第一候选编排方式,然后计算成本最小的第一候选编排方式作为最优的候选编排方式。
在另一示例中,可以为计算期望时间和计算成本分别设置对应的权重,并基于计算期望时间和计算成本进行加权计算,得到第一计算性能指标,并将第一计算性能指标的数值最小的候选编排方式作为最优的候选编排方式。
需要说明的是,上述示例并不构成对第一策略评价指标的设置方法的限制,本申请实施例对第一策略评价指标的具体设置方法不做限制。
在得到目标编排策略后,可以基于目标编排策略中确定出各个应用与各个集群之间的第一映射关系。
图4为本申请实施例提供的一种算力资源编排过程的流程示意图,如图4所示,在需求侧,MEC服务器响应于应用的算力资源请求,计算应用的算力需求,例如需要的CPU核数,内存大小等。在供给侧,基于预测空闲算力,通过算力聚类,将/>个BBU聚类(包括但不仅限于二***算法等)为/>个集群/>,之后将集群算力资源特征提取为/>
例如,其中,C表示集群,/>表示t时刻开始的/>时间间隔中聚类算法输出的聚类结果,如/>=[BBU1,BBU3,BBU4,…BBU k…],i=1,2,3...M;P是C的数据特征矩阵或向量,P=[(u11,u12,..),(u31,u32,...),...],这里(u11,u12,..)表示BBU1的预测空闲算力特征向量。
基于编排算法建立编排模型,通过编排模型将个需求分配给/>个集群,得到编排策略。其中,需求集表示为/>,这里,/>(/>)表示第/>个应用的算力资源需求,以及集群集合为/>,和其对应的特征集表示为,可以有多个集群符合一个应用的算力资源需求。
基于第一策略评价指标,对候选编排策略进行评价,从而筛选出最优的编排策略。根据应用的计算期望时间、计算成本或计算能耗,确定第一策略评价指标,以计算期望时间为例,为应用/>在集群/>上运行的时间,/>为候选编排策略的第一策略评价指标,/>值最小的候选编排策略即为目标编排策略/>。如图4所示,目标编排策略包括:将/>分配给集群/>,将/>分配给集群/>,将/>分配给集群/>,从而基于目标编排策略/>,可以确定各个应用与各个集群之间的第一映射关系。
本申请实施例中,通过基于各个应用分别对应的算力资源需求,对各个集群的算力资源进行编排,将需求侧与供给侧进行有效匹配,实现了各个集群对于不同算力需求之间的合理分配。
作为一种可选实施例,基于各个任务分别对应的任务信息,从至少一个第一集群中确定每个任务分别对应的第二集群,包括:
将各个任务分别对应的任务信息和各个第一集群输入至调度模型,得到调度模型输出的多个候选调度策略;
基于第二策略评价指标,从多个候选调度策略中确定出目标调度策略;
基于目标调度策略,确定每个任务分别对应的第二集群。具体地,为对目标应用的多个任务进行调度,可以确定目标应用所对应的至少一个第一集群,基于调度算法建立调度模型,并将各个任务分别对应的任务信息以及目标应用对应的各个第一集群输入至调度模型,通过调度模型基于调度算法将各个任务调度至各个第一集群上,得到调度模型输出的多个候选调度策略。
其中,调度算法包括但不限于FIFO(First In First Out,先进先出)算法,蚁群算法等,候选调度策略可以包括将各个任务调度至目标应用对应的各个第一集群上的调度方式。
针对每个候选调度策略,确定候选调度策略的第二策略评价指标,第二策略评价指标可以用于反映候选调度策略的计算性能,第二策略评价指标可以是基于计算期望时间、计算成本、计算能耗等指标中的至少一项确定的。
基于各个候选调度策略分别对应的第二策略评价指标,从多个候选调度策略中确定出最优的候选调度策略,并将最优的候选调度策略作为目标调度策略。
需要说明的是,第二策略评价指标的具体设置可以参加上文中第一策略评价指标的设置方法,此处不再赘述。
在得到目标调度策略后,针对每个任务,可以将目标调度策略中将该任务调度到的第一集群,作为该任务对应的第二集群。
图5为本申请实施例提供的一种任务调度过程的流程示意图,如图5所示,任务调度过程包括:
首先MEC服务器接收针对目标应用的多个任务请求,得到任务队列,/>(/>)表示第/>个任务,/>可以为单个任务向量,/>的具体形式可以为/>,其中/>表示任务需求以及任务限制条件等指标。例如/>表示任务所需CPU核数,/>表示任务所需内存大小,/>表示任务完成时间等。
基于调度算法建立调度模型,通过调度模型将任务队列个任务分配给经过目标应用对应的/>个集群执行,得到多个候选调度策略。其中集群表示为,/>表示第/>个集群。
基于第二策略评价指标,对候选调度策略进行评价,从而筛选出最优的调度策略。根据任务的计算期望时间、计算成本或计算能耗,确定第二策略评价指标,以计算期望时间为例,为任务/>在集群/>上运行的时间,/>为候选编排策略的第一策略评价指标,/>值最小的候选调度策略即为目标调度策略/>。如图5所示,目标调度策略/>包括:将/>分配给集群/>,将/>分配给集群/>,将/>分配给集群/>。以任务/>为例,可以基于目标调度策略/>,确定任务/>对应的第二集群为/>,即将/>分配给/>,通过的计算算力资源执行/>
本申请实施例中,通过基于各个任务分别对应的任务信息,对各个任务进行调度,实现了各个集群对于不同任务之间的合理分配,提高了各个任务的计算效率,能够提供高效的计算服务。
作为一种可选实施例,获取至少一个基带处理单元BBU分别对应的在任务运行时间的预测空闲算力,包括:
针对每个BBU,获取BBU在任务运行时间的预测通信算力资源使用量;
基于BBU的预测通信算力资源使用量、BBU对应的资源约束和扩容阈值,确定BBU在任务运行时间的预测空闲算力。
具体地,针对每个BBU,为对BBU在任务运行时间的空闲算力进行预测,可以获取BBU在任务运行时间的预测通信算力资源使用量,预测通信算力资源使用量可以为在任务运行时间通信消耗的算力资源,例如例如,CPU使用率的当前使用量是30%,内存使用量是4.7GB,预测通信算力资源使用量的确定方式将在下文中进行详细描述。
在得到BBU的预测通信算力资源使用量之后,可以基于BBU的预测通信算力资源使用量、BBU对应的资源约束和扩容阈值,通过算力隔离模型获得资源的隔离阈值,将该阈值下发BBU执行后,可确定BBU在任务运行时间的预测空闲算力。算力隔离模型的计算公式将在下文中进行详细说明。
可选地,扩容阈值的数值不小于通信算力抖动区间中通信算力使用量的最大值。
图6为本申请实施例提供的一种算力变化趋势的示意图,如图6所示,图6中横轴表示时间,纵轴表示算力资源的大小,曲线表示通信算力的变化趋势,阴影部分表示用于计算的空闲算力,由图6可知,每个BBU通信算力资源使用量和计算算力资源使用量的总和是不变的,当通信算力的曲线出现抖动时,容易造成实际通信算力资源的使用量大于预测通信算力资源使用量,进而造成预测的空闲算力并不一定全部是空闲的,实际可用的空闲算力小于预测的空闲算力,从而出现后续对空闲算力资源的错误分配,使得部分应用可能因为算力资源不足而无法执行的情况。
针对上述情况,本申请实施例中通过设置扩容阈值,可以使得计算出的预测空闲算力始终是可用的,从而避免了预测空闲算力较高导致的实际算力资源不足的情况,在算力资源的周期变更、毛刺(突发性波动)等场景下都具有很强的鲁棒性。
作为一种可选实施例,扩容阈值是基于如下方式确定的:
确定初始扩容阈值;
对初始扩容阈值执行至少一次优化操作,直至满足预设结束条件,将满足预设结束条件的初始扩容阈值作为扩容阈值;
其中,优化操作包括:
针对每个BBU,获取BBU当前通信算力资源状态和历史通信算力资源状态;
基于当前通信算力资源状态和历史通信算力资源状态,确定在预设时域内的第一预测通信算力资源使用量;
针对预设时域内的任一预设时刻,从第一预测通信算力资源使用量中确定预设时刻的第二预测通信算力资源使用量;
基于第二预测通信算力资源使用量、BBU对应的资源约束和初始扩容阈值,得到BBU在预设时刻的预测空闲算力;
基于预设时域中各个预设时刻的预测空闲算力和各个预设时刻的真实空闲算力之间的差异,确定预测误差;
若预测误差不满足预设结束条件,则对初始扩容阈值进行修正,并将修正后的初始扩容阈值作为下一次优化的初始扩容阈值。
具体地,为确定出最优的扩容阈值,可以先确定一个初始扩容阈值,例如可以根据经验或历史数据确定初始扩容阈值。
在得到初始扩容阈值之后,可以基于初始扩容阈值,通过算力隔离模型,对空闲算力进行预测。
针对每个BBU,MEC服务器可以获取BBU在当前时刻的当前通信算力资源使用量,利用状态估计方法,根据当前通信算力资源使用量/>,得到当前通信算力资源状态/>。其中,状态估计方法包括但不限于最大似然和最大先验,分布式卡尔曼滤波,分布式粒子滤波以及协方差一致等估计算法。
可选地,当前通信算力资源状态的计算公式如下:
式中,表示/>在t时刻的通信算力资源使用量,/>表示/>在t时刻的通信算力资源使用的修正量,/>表示/>在t时刻的通信算力资源状态。
在得到当前通信算力资源状态之后,可以基于当前通信算力资源状态和历史通信算力资源状态,通过时序预测算法,得到预设时域内至少一个时刻的预测通信算力资源使用量,进而得到在预设时域内的第一预测通信算力资源使用量
其中,时序预测算法包括但不限于算数平均,指数平滑法,自回归和移动平均法(Autoregressive Integrated Moving Average Model,ARIMA)等,历史通信算力资源状态可以从预设的数据库中获取。
针对预设时域内的任一预设时刻,将第一预测通信算力资源使用量中该预设时刻的预测通信算力资源使用量,作为第二预测通信算力资源使用量。并基于第二预测通信算力资源使用量、BBU对应的资源约束和初始扩容阈值,通过算力隔离模型,计算得到BBU在预设时刻的预测空闲算力。
其中,每个BBU都有一个资源约束,这里/>可以被写成向量的形式来代表不同的资源,例如CPU,内存等。
当预设时域包括K个时间段,每个时间段的算力隔离模型的公式如下:
式中,表示第i个BBU在t时刻的预测空闲算力,/>表示第i个BBU的资源约束,为初始扩容阈值,/>表示在预设时域/>内的第一预测通信算力资源使用量,/>表示在/>时刻的第二预测通信算力资源使用量,/>表示在/>时刻的第二预测通信算力资源使用量。
基于上述步骤,计算得到预设时域内各个预设时刻的预测空闲算力,基于各个预设时刻的预测空闲算力和各个预设时刻的真实空闲算力之间的差异,确定预测误差。
若预测误差不满足预设结束条件,则对初始扩容阈值进行修正,并将修正后的初始扩容阈值作为下一次优化的初始扩容阈值,重复执行上述优化操作,直至满足预设结束条件,将满足预设结束条件的初始扩容阈值作为实际进行预测的扩容阈值。
其中,预设结束条件可以包括预测误差小于预设误差阈值。
通过不断执行上述优化操作,对初始扩容阈值进行不断修正,使得最终得到的扩容阈值可以根据通信算力的变化进行自适应调整,并尽量接近通信算力抖动区间中通信算力使用量的最大值,这里的通信算力抖动区间如图6所示。
图7为本申请实施例提供的一种算力预测方法的流程示意图,如图7所示,通过MEC收集在t时刻的通信算力资源使用量/>,通过状态估计算法得到通信算力资源状态,通过时序预测算法,对/>在当前时刻t的通信算力资源状态/>和历史通信算力资源状态进行处理,得到预设时域/>内的第一预测通信算力资源使用量/>。基于算力隔离模型,得到/>在t时刻的预测空闲算力/>,基于t时刻的真实空闲算力,计算误差/>对扩容阈值/>反馈修正,目标是/>,直到误差最小,得到最优的扩容阈值。
基于最优的扩容阈值,利用算力隔离模型对预设时域内的空闲算力进行预测。通过算力资源感知,即对未来可用空闲算力资源的预测,基于历史可用空闲算力资源的数据预测未来的变化趋势。其中,常见趋势包含:长期趋势、季节变动、循环波动、和不规则波动等。
根据图7中右侧框图可知,预测得到的用于计算的空闲算力随时间是呈现阶梯型的变化,而且在抖动区间实际通信算力的使用量不会超过预测的通信算力(即抖动区间中横线距离横坐标的垂直距离),能够使得计算出的预测空闲算力始终是可用的,从而避免了预测空闲算力较高导致的实际算力资源不足的情况,在算力资源的周期变更、毛刺(即突发性波动)等场景下都具有很强的鲁棒性。
作为一种可选实施例,图8为本申请实施例提供的一种算力资源编排及任务调度过程的流程示意图,如图8所示,算力资源编排及应用过程分为两个阶段:准备阶段和应用阶段,具体包括:
当用户向MEC服务器进行算力资源申请后,各BBU发起算力纳入管理注册请求,由MEC完成BBU算力纳管的注册,并回复成功消息。
MEC向注册成功的BBU发起算力资源查询请求,各BBU将当前和历史空闲算力资源情况发送给MEC。
MEC针对各BBU将当前和历史空闲算力资源情况,进行未来空闲算力资源预测,并将根据预测结果对各BBU进行算力资源隔离。
在MEC向各BBU发起算力资源隔离申请后,BBU利用虚拟化技术hypervisor将BBU空闲资源隔离出来,并通过消息通知给MEC,MEC将BBU空闲算力自动纳入管理,以提供给后续应用来使用。
MEC将纳入管理的BBU节点聚类群组为集群。每个集群将根据不同应用的算力需求,得到适配各个集群算力资源的应用编排结果。集群将根据任务的算力需求,得到适配各个集群的任务调度结果。
其中,各个步骤的具体实施过程可以参见上文中对应实施例的记载,此处不再赘述。
本申请实施例中,在不改变网络的基础功能与架构前提下,利用网络设备中的空闲算力来增强现有算力网络的能力,为计算应用提供更加灵活、低成本的算力供给。与现有方案比较,算力内生网络(Computing Native Network, CNN)中的网络设备能够同时具备通信能力和计算能力,无需增加额外的算力硬件设备,具备超低时延、超高可靠性、超强安全性、超高性价比的优点。
作为一种可选实施例,目标应用包括联邦学习应用;第二集群中每个BBU分别部署对应的初始本地模型;
第二集群执行任务,包括:
对MEC服务器中的初始聚合模型进行至少一次训练操作,直至满足训练结束条件,并将满足训练结束条件的初始聚合模型作为训练好的聚合模型;
其中,训练操作包括:
获取第二集群中每个BBU部署的初始本地模型;
将多个初始本地模型进行模型聚合,得到第一聚合模型,基于第一聚合模型对初始聚合模型进行更新;
若更新后的初始聚合模型的损失函数不满足训练结束条件,则将更新后的初始聚合模型分别下发给第二集群中的每个BBU,以供每个BBU将更新后的初始聚合模型作为下一次训练操作的初始本地模型。
具体地,可以利用算力网络中多个BBU的空闲算力对联邦学习模型的训练或推理进行计算,联邦学习(Federated Learning,FL)是一种在分布式环境下进行机器学习的方法,它允许多个设备或实体共同训练或推理一个模型,而无需将原始数据传输到集中式服务器,从而可以保护数据隐私。
可以通过算力资源编排,为联邦学习应用分配与其匹配的至少一个第一集群,并通过任务调度,从至少一个第一集群中确定与联邦学习任务对应的第二集群。联邦学习应用的算力资源编排过程和任务调度过程可以参见上文,此处不再赘述。
本申请实施例以联邦学习模型的训练任务为例进行具体说明,为执行联邦学习模型的训练任务,可以在第二集群中每个BBU上部署对应的初始本地模型,第二集群执行联邦学习模型训练任务的过程可以包括:
确定MEC服务器中的初始聚合模型,并对初始聚合模型重复执行训练操作,直至满足预设训练结束条件。
其中,训练操作包括:
第二集群中每个BBU分别将对应的初始本地模型上传至MEC服务器,MEC服务器获取到多个初始本地模型,并将多个初始本地模型进行聚合得到第一聚合模型,并将初始聚合模型替换为第一聚合模型,确定更新后的初始聚合模型的损失函数,若更新后的初始聚合模型的损失函数不符合训练结束条件,例如,更新后的初始聚合模型的损失函数不小于预设阈值,则MEC服务器将更新后的初始聚合模型(即第一聚合模型)分别下发至第二集群中的各个BBU,针对每个BBU,BBU可以基于更新后的初始聚合模型对初始本地模型进行更新,即将聚合得到的第一聚合模型作为新的初始本地模型参与下一次的训练操作。
通过不断地执行上述训练操作,直至更新后的初始聚合模型的损失函数符合训练结束条件,即损失函数小于预设阈值,将符合训练结束条件的初始聚合模型作为训练好的聚合模型,同时,针对每个BBU,将训练结束时的初始本地模型作为训练好的本地模型。
需要说明的是,本领域人员可以知晓,本申请实施例提供的方法不仅可以适用于联邦学习模型的训练和推理,也可以适用于其他分布式机器学习模型的训练和推理。
本申请实施例中,通过利用算力网络中多个BBU的空闲算力处理联邦学习应用,确保本地数据不向外传播,实现满足数据隐私保护要求的多方联合模型训练和推理,打破“数据孤岛”。
作为一种可选实施例,图9为本申请实施例提供的一种联邦学习应用的算力资源编排及任务调度过程的流程示意图,如图9所示,具体过程包括:
通过在MEC节点和选定的BBU集群上部署FL服务端和客户端,以提供算力内生FL服务。图10为本申请实施例提供的一种联邦学习应用的算力内生***架构图,如图10所述,每个BBU上部署FL客户端(FL Client),MEC服务器上部署FL服务端(FL Server)。
当用户发送FL服务请求给MEC服务器,各BBU发起算力及数据特征纳入管理注册请求,由MEC完成BBU纳管的注册,并回复成功消息。MEC向注册成功的BBU发起算力资源和数据特征查询请求,各BBU将当前和历史空闲算力资源以及数据特征情况发送给MEC。MEC针对各BBU将当前和历史空闲算力资源情况,进行FL任务运行时间内的空闲算力资源预测,并将根据预测结果对各BBU进行算力资源隔离。
在MEC向各BBU发起算力资源隔离申请后,BBU利用虚拟化技术hypervisor将BBU空闲资源隔离出来,并通过消息通知给MEC,MEC将BBU空闲算力自动纳入管理,以提供给后续应用来使用。MEC将纳入管理的BBU节点聚类为集群1和集群2。各算力集群将算力资源和数据特征上传给MEC,经过FL算力资源编排,MEC将该FL应用分配到集群1。
MEC服务器首先将FL任务与集群1建立调度模型,确定调度策略后,结合FIFO调度算法选择Cluster1并执行FL任务,计算FL任务在集群上运行的时间/>为该调度方案的评价,优化目标是满足/></>,其中/>是指定的优化目标,最终得到最优调度方案。
在执行模型训练任务时,集群1中的BBU将本地模型信息上传,MEC进行模型聚合,聚合模型下发给BBU,BBU更新本地模型,重复上述步骤直到达到FL任务要求,例如损失函数小于预设阈值,最终MEC将计算的结果返回给用户。
本申请实施例中,将内生算力和联邦学习相结合,设计了基于联邦学习的算力内生***架构,利用各BBU空闲算力资源协作进行FL的模型训练或推理,提高了算力资源利用率的同时提供高效的计算服务。
图11为本申请实施例提供的一种基于人工智能的数据处理装置的结构示意图,如图11所示,该装置包括:
任务获取模块210,用于响应于针对目标应用的至少一个任务请求,获取所述至少一个任务请求分别对应的至少一个任务;
任务调度模块220,用于基于各个任务分别对应的任务信息,从所述目标应用对应的至少一个第一集群中,确定每个任务分别对应的第二集群;所述第二集群为与所述任务的任务信息相匹配的集群;
任务执行模块230,用于针对每个任务,将所述任务分配至与所述任务对应的第二集群,以供所述第二集群基于计算算力资源执行所述任务;
其中,所述第一集群是基于如下方式确定的:
获取至少一个基带处理单元BBU分别对应的在任务运行时间的预测空闲算力,并从候选算力资源中确定与所述预测空闲算力对应的所述计算算力资源;
基于各个BBU分别对应的预测空闲算力,对所述各个BBU进行聚类,得到至少一个集群;
获取待处理的至少一个应用;所述至少一个应用包括所述目标应用;
基于各个应用分别对应的算力需求,从所述至少一个集群中确定每个应用分别对应的至少一个第一集群;所述第一集群为与所述应用的算力需求相匹配的集群。
作为一种可选实施例,该装置还包括第一集群确定模块,用于:
确定各个应用分别对应的算力需求,以及各个集群分别对应的集群特征;所述集群特征用于表征集群的算力资源供给水平;
基于各个应用分别对应的算力需求,以及各个集群分别对应的集群特征,确定所述各个应用与各个集群之间的第一映射关系;
基于所述第一映射关系,确定每个应用分别对应的至少一个第一集群。
作为一种可选实施例,第一集群确定模块在执行基于各个应用分别对应的算力需求,以及各个集群分别对应的集群特征,确定所述各个应用与各个集群之间的第一映射关系时,具体用于:
将各个应用分别对应的算力需求,以及各个集群分别对应的集群特征输入至编排模型,得到所述编排模型输出的多个候选编排策略;
基于第一策略评价指标,从所述多个候选编排策略中确定出目标编排策略;
基于所述目标编排策略,确定所述第一映射关系。
作为一种可选实施例,任务调度模块,具体用于:
将各个任务分别对应的任务信息和各个第一集群输入至调度模型,得到所述调度模型输出的多个候选调度策略;
基于第二策略评价指标,从所述多个候选调度策略中确定出目标调度策略;
基于所述目标调度策略,确定每个任务分别对应的第二集群。
作为一种可选实施例,该装置还包括算力预测模块,用于:
获取至少一个基带处理单元BBU分别对应的在所述任务运行时间的预测空闲算力;
所述算力预测模块,具体用于:
针对每个BBU,获取所述BBU在所述任务运行时间的预测通信算力资源使用量;
基于所述BBU的预测通信算力资源使用量、所述BBU对应的资源约束和扩容阈值,确定所述BBU在所述任务运行时间的预测空闲算力。
作为一种可选实施例,该装置还包括扩容阈值确定模块,用于:
确定初始扩容阈值;
对所述初始扩容阈值执行至少一次优化操作,直至满足预设结束条件,将满足预设结束条件的初始扩容阈值作为所述扩容阈值;
其中,所述优化操作包括:
针对每个BBU,获取所述BBU当前通信算力资源状态和历史通信算力资源状态;
基于所述当前通信算力资源状态和所述历史通信算力资源状态,确定在预设时域内的第一预测通信算力资源使用量;
针对所述预设时域内的任一预设时刻,从所述第一预测通信算力资源使用量中确定所述预设时刻的第二预测通信算力资源使用量;
基于所述第二预测通信算力资源使用量、所述BBU对应的资源约束和初始扩容阈值,得到所述BBU在所述预设时刻的预测空闲算力;
基于所述预设时域中各个预设时刻的预测空闲算力和各个预设时刻的真实空闲算力之间的差异,确定预测误差;
若所述预测误差不满足所述预设结束条件,则对所述初始扩容阈值进行修正,并将修正后的初始扩容阈值作为下一次优化的初始扩容阈值。
作为一种可选实施例,所述目标应用包括联邦学习应用;所述第二集群中每个BBU分别部署对应的初始本地模型;
任务执行模块中所述第二集群执行任务,用于:
对MEC服务器中的初始聚合模型进行至少一次训练操作,直至满足训练结束条件,并将满足训练结束条件的初始聚合模型作为训练好的聚合模型;
其中,所述训练操作包括:
获取所述第二集群中每个BBU部署的初始本地模型;
将多个初始本地模型进行模型聚合,得到第一聚合模型,基于第一聚合模型对所述初始聚合模型进行更新;
若更新后的初始聚合模型的损失函数不满足训练结束条件,则将更新后的初始聚合模型分别下发给所述第二集群中的每个BBU,以供所述每个BBU将更新后的初始聚合模型作为下一次训练操作的初始本地模型。
本申请实施例的装置可执行本申请实施例所提供的方法,其实现原理相类似,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
本申请实施例中提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现上述基于人工智能的数据处理方法的步骤,与相关技术相比可实现:在应用部署阶段,通过获取至少一个BBU分别对应的在任务运行时间的预测空闲算力,基于各个BBU分别对应的预测空闲算力,对各个BBU进行聚类,得到至少一个集群,并基于各个应用分别对应的算力需求,确定与各个应用分别对应的至少一个第一集群,从而可以将每个应用分配至与其算力需求相匹配的集群,充分利用了算力网络中的网络设备的空闲算力,实现了算力网络中空闲算力的合理分配,提高了算力网络中算力资源的利用率。在任务执行阶段,通过获取目标应用的至少一个任务,基于各个任务分别对应的任务信息,从至少一个第一集群中确定每个任务的任务信息相匹配的第二集群,使得第二集群基于计算算力资源执行任务,无需增加额外的硬件设备,通过将大量BBU的空闲算力与通信业务解耦,为计算应用提供算力支持,实现灵活、低成本的算力供给。进一步地,通过基于各个任务分别对应的任务信息,确定与每个任务的任务信息相匹配的第二集群,实现了各个集群对于不同任务之间的合理分配,提高了各个任务的计算效率,能够提供高效的计算服务。
在一个可选实施例中提供了一种电子设备,如图12所示,图12所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图12中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器4003用于存储执行本申请实施例的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述方法实施例所示的步骤。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。

Claims (8)

1.一种基于人工智能的数据处理方法,其特征在于,应用于移动边缘计算MEC服务器,包括:
响应于针对目标应用的至少一个任务请求,获取所述至少一个任务请求分别对应的至少一个任务;
基于各个任务分别对应的任务信息,从所述目标应用对应的至少一个第一集群中,确定每个任务分别对应的第二集群;所述第二集群为与所述任务的任务信息相匹配的集群;
针对每个任务,将所述任务分配至与所述任务对应的第二集群,以供所述第二集群基于计算算力资源执行所述任务;
其中,所述第一集群是基于如下方式确定的:
获取至少一个基带处理单元BBU分别对应的在任务运行时间的预测空闲算力,并从候选算力资源中确定与所述预测空闲算力对应的所述计算算力资源;
基于各个BBU分别对应的预测空闲算力,对所述各个BBU进行聚类,得到至少一个集群;
获取待处理的至少一个应用;所述至少一个应用包括所述目标应用;
基于各个应用分别对应的算力需求,从所述至少一个集群中确定每个应用分别对应的至少一个第一集群;所述第一集群为与所述应用的算力需求相匹配的集群;
所述获取至少一个基带处理单元BBU分别对应的在任务运行时间的预测空闲算力,包括:
针对每个BBU,获取所述BBU在所述任务运行时间的预测通信算力资源使用量;
通过算力隔离模型,基于所述BBU的预测通信算力资源使用量、所述BBU对应的资源约束和扩容阈值,确定所述BBU在所述任务运行时间的预测空闲算力;
所述扩容阈值是基于如下方式确定的:
确定初始扩容阈值;
对所述初始扩容阈值执行至少一次优化操作,直至满足预设结束条件,将满足预设结束条件的初始扩容阈值作为所述扩容阈值;
其中,所述优化操作包括:
针对每个BBU,获取所述BBU当前通信算力资源状态和历史通信算力资源状态;
基于所述当前通信算力资源状态和所述历史通信算力资源状态,确定在预设时域内的第一预测通信算力资源使用量;
针对所述预设时域内的任一预设时刻,从所述第一预测通信算力资源使用量中确定所述预设时刻的第二预测通信算力资源使用量;
通过算力隔离模型,基于所述第二预测通信算力资源使用量、所述BBU对应的资源约束和初始扩容阈值,得到所述BBU在所述预设时刻的预测空闲算力;
基于所述预设时域中各个预设时刻的预测空闲算力和各个预设时刻的真实空闲算力之间的差异,确定预测误差;
若所述预测误差不满足所述预设结束条件,则对所述初始扩容阈值进行修正,并将修正后的初始扩容阈值作为下一次优化的初始扩容阈值;
所述算力隔离模型的具体公式如下:
式中,表示第i个BBU在t时刻的预测空闲算力,/>表示第i个BBU的资源约束,/>为初始扩容阈值,/>表示在/>时刻的第二预测通信算力资源使用量,/>表示在/>时刻的第二预测通信算力资源使用量。
2.根据权利要求1所述的数据处理方法,其特征在于,所述基于各个应用分别对应的算力需求,从所述至少一个集群中确定每个应用分别对应的至少一个第一集群,包括:
确定各个应用分别对应的算力需求,以及各个集群分别对应的集群特征;所述集群特征用于表征集群的算力资源供给水平;
基于各个应用分别对应的算力需求,以及各个集群分别对应的集群特征,确定所述各个应用与各个集群之间的第一映射关系;
基于所述第一映射关系,确定每个应用分别对应的至少一个第一集群。
3.根据权利要求2所述的数据处理方法,其特征在于,所述基于各个应用分别对应的算力需求,以及各个集群分别对应的集群特征,确定所述各个应用与各个集群之间的第一映射关系,包括:
将各个应用分别对应的算力需求,以及各个集群分别对应的集群特征输入至编排模型,得到所述编排模型输出的多个候选编排策略;
基于第一策略评价指标,从所述多个候选编排策略中确定出目标编排策略;
基于所述目标编排策略,确定所述第一映射关系。
4.根据权利要求1所述的数据处理方法,其特征在于,所述基于各个任务分别对应的任务信息,从所述目标应用对应的至少一个第一集群中,确定每个任务分别对应的第二集群,包括:
将各个任务分别对应的任务信息和各个第一集群输入至调度模型,得到所述调度模型输出的多个候选调度策略;
基于第二策略评价指标,从所述多个候选调度策略中确定出目标调度策略;
基于所述目标调度策略,确定每个任务分别对应的第二集群。
5.根据权利要求1所述的数据处理方法,其特征在于,所述目标应用包括联邦学习应用;所述第二集群中每个BBU分别部署对应的初始本地模型;
所述第二集群执行任务,包括:
对MEC服务器中的初始聚合模型进行至少一次训练操作,直至满足训练结束条件,并将满足训练结束条件的初始聚合模型作为训练好的聚合模型;
其中,所述训练操作包括:
获取所述第二集群中每个BBU部署的初始本地模型;
将多个初始本地模型进行模型聚合,得到第一聚合模型,基于第一聚合模型对所述初始聚合模型进行更新;
若更新后的初始聚合模型的损失函数不满足训练结束条件,则将更新后的初始聚合模型分别下发给所述第二集群中的每个BBU,以供所述每个BBU将更新后的初始聚合模型作为下一次训练操作的初始本地模型。
6.一种基于人工智能的数据处理装置,其特征在于,包括:
任务获取模块,用于响应于针对目标应用的至少一个任务请求,获取所述至少一个任务请求分别对应的至少一个任务;
任务调度模块,用于基于各个任务分别对应的任务信息,从所述目标应用对应的至少一个第一集群中,确定每个任务分别对应的第二集群;所述第二集群为与所述任务的任务信息相匹配的集群;
任务执行模块,用于针对每个任务,将所述任务分配至与所述任务对应的第二集群,以供所述第二集群基于计算算力资源执行所述任务;
其中,所述第一集群是基于如下方式确定的:
获取至少一个基带处理单元BBU分别对应的在任务运行时间的预测空闲算力,并从候选算力资源中确定与所述预测空闲算力对应的所述计算算力资源;
基于各个BBU分别对应的预测空闲算力,对所述各个BBU进行聚类,得到至少一个集群;
获取待处理的至少一个应用;所述至少一个应用包括所述目标应用;
基于各个应用分别对应的算力需求,从所述至少一个集群中确定每个应用分别对应的至少一个第一集群;所述第一集群为与所述应用的算力需求相匹配的集群;
算力预测模块,用于针对每个BBU,获取所述BBU在所述任务运行时间的预测通信算力资源使用量;
通过算力隔离模型,基于所述BBU的预测通信算力资源使用量、所述BBU对应的资源约束和扩容阈值,确定所述BBU在所述任务运行时间的预测空闲算力;
扩容阈值确定模块,用于:
确定初始扩容阈值;
对所述初始扩容阈值执行至少一次优化操作,直至满足预设结束条件,将满足预设结束条件的初始扩容阈值作为所述扩容阈值;
其中,所述优化操作包括:
针对每个BBU,获取所述BBU当前通信算力资源状态和历史通信算力资源状态;
基于所述当前通信算力资源状态和所述历史通信算力资源状态,确定在预设时域内的第一预测通信算力资源使用量;
针对所述预设时域内的任一预设时刻,从所述第一预测通信算力资源使用量中确定所述预设时刻的第二预测通信算力资源使用量;
通过算力隔离模型,基于所述第二预测通信算力资源使用量、所述BBU对应的资源约束和初始扩容阈值,得到所述BBU在所述预设时刻的预测空闲算力;
基于所述预设时域中各个预设时刻的预测空闲算力和各个预设时刻的真实空闲算力之间的差异,确定预测误差;
若所述预测误差不满足所述预设结束条件,则对所述初始扩容阈值进行修正,并将修正后的初始扩容阈值作为下一次优化的初始扩容阈值;
所述算力隔离模型的具体公式如下:
式中,表示第i个BBU在t时刻的预测空闲算力,/>表示第i个BBU的资源约束,/>为初始扩容阈值,/>表示在/>时刻的第二预测通信算力资源使用量,/>表示在/>时刻的第二预测通信算力资源使用量。
7.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述方法的步骤。
CN202410177101.XA 2024-02-08 2024-02-08 基于人工智能的数据处理方法及装置 Active CN117724853B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410177101.XA CN117724853B (zh) 2024-02-08 2024-02-08 基于人工智能的数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410177101.XA CN117724853B (zh) 2024-02-08 2024-02-08 基于人工智能的数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN117724853A CN117724853A (zh) 2024-03-19
CN117724853B true CN117724853B (zh) 2024-05-07

Family

ID=90203827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410177101.XA Active CN117724853B (zh) 2024-02-08 2024-02-08 基于人工智能的数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN117724853B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115243293A (zh) * 2022-07-21 2022-10-25 亚信科技(中国)有限公司 网络优化模型的确定方法、装置、电子设备及存储介质
CN115293358A (zh) * 2022-06-29 2022-11-04 中国电子技术标准化研究院 一种面向物联网的分簇联邦多任务学习方法及装置
CN116136799A (zh) * 2023-04-14 2023-05-19 亚信科技(中国)有限公司 算力调度管理侧设备及方法、算力提供侧设备及方法
CN116192960A (zh) * 2023-01-05 2023-05-30 中国联合网络通信集团有限公司 基于约束条件的算力网络集群动态构建方法及***
WO2023164208A1 (en) * 2022-02-25 2023-08-31 Northeastern University Federated learning for automated selection of high band mm wave sectors

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023164208A1 (en) * 2022-02-25 2023-08-31 Northeastern University Federated learning for automated selection of high band mm wave sectors
CN115293358A (zh) * 2022-06-29 2022-11-04 中国电子技术标准化研究院 一种面向物联网的分簇联邦多任务学习方法及装置
CN115243293A (zh) * 2022-07-21 2022-10-25 亚信科技(中国)有限公司 网络优化模型的确定方法、装置、电子设备及存储介质
CN116192960A (zh) * 2023-01-05 2023-05-30 中国联合网络通信集团有限公司 基于约束条件的算力网络集群动态构建方法及***
CN116136799A (zh) * 2023-04-14 2023-05-19 亚信科技(中国)有限公司 算力调度管理侧设备及方法、算力提供侧设备及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
通算一体驱动的算力内生网络技术与应用;孙杰 等;电信科学;20230831;第127-134页 *

Also Published As

Publication number Publication date
CN117724853A (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
Wang et al. Convergence of edge computing and deep learning: A comprehensive survey
CN106776005B (zh) 一种面向容器化应用的资源管理***及方法
CN109492774B (zh) 一种基于深度学习的云资源调度方法
Khoda et al. Efficient computation offloading decision in mobile cloud computing over 5G network
CN111027736A (zh) 多目标优化下的微服务组合部署与调度方法
CN104168318A (zh) 一种资源服务***及其资源分配方法
CN113037877B (zh) 云边端架构下时空数据及资源调度的优化方法
CN110519370B (zh) 一种基于设施选址问题的边缘计算资源分配方法
CN110688213B (zh) 一种基于边缘计算的资源管理方法、***及电子设备
CN110069341A (zh) 边缘计算中结合功能按需配置的有依赖关系任务的调度方法
CN115914392A (zh) 算力网络资源调度方法及***
Wen et al. Load balancing job assignment for cluster-based cloud computing
Li et al. Resource scheduling based on improved spectral clustering algorithm in edge computing
Huang et al. Enabling DNN acceleration with data and model parallelization over ubiquitous end devices
CN115292032A (zh) 一种多用户接入的智能边缘计算***中的任务卸载方法
Dai et al. A learning algorithm for real-time service in vehicular networks with mobile-edge computing
CN115718644A (zh) 一种面向云数据中心的计算任务跨区迁移方法及***
CN112202829A (zh) 基于微服务的社交机器人调度***和调度方法
CN116669111A (zh) 一种基于区块链的移动边缘计算任务卸载方法
CN114691372A (zh) 一种多媒体端边云***的群体智能控制方法
Reffad et al. A dynamic adaptive bio-inspired multi-agent system for healthcare task deployment
CN117724853B (zh) 基于人工智能的数据处理方法及装置
CN116896591A (zh) 网络数据分析模型调度方法、装置和计算机设备
CN116668442A (zh) 一种意图驱动的网云资源高精度协同调度***及方法
Sun et al. A resource allocation scheme for edge computing network in smart city based on attention mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant