CN117453398A - 一种提高供电可靠性的算力调度的智能优化方法及*** - Google Patents

一种提高供电可靠性的算力调度的智能优化方法及*** Download PDF

Info

Publication number
CN117453398A
CN117453398A CN202311405239.2A CN202311405239A CN117453398A CN 117453398 A CN117453398 A CN 117453398A CN 202311405239 A CN202311405239 A CN 202311405239A CN 117453398 A CN117453398 A CN 117453398A
Authority
CN
China
Prior art keywords
data
computing
power
resource allocation
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311405239.2A
Other languages
English (en)
Other versions
CN117453398B (zh
Inventor
钱仲豪
周爱华
蒋玮
徐晓轶
欧朱建
高昆仑
彭林
吕晓祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Smart Grid Research Institute Co ltd
Nantong Power Supply Co Of State Grid Jiangsu Electric Power Co
Southeast University
State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Smart Grid Research Institute Co ltd
Nantong Power Supply Co Of State Grid Jiangsu Electric Power Co
Southeast University
State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Smart Grid Research Institute Co ltd, Nantong Power Supply Co Of State Grid Jiangsu Electric Power Co, Southeast University, State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Smart Grid Research Institute Co ltd
Priority to CN202311405239.2A priority Critical patent/CN117453398B/zh
Publication of CN117453398A publication Critical patent/CN117453398A/zh
Application granted granted Critical
Publication of CN117453398B publication Critical patent/CN117453398B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5094Allocation of resources, e.g. of the central processing unit [CPU] where the allocation takes into account power or heat criteria
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3457Performance evaluation by simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明提供了一种提高供电可靠性的算力调度的智能优化方法及***,涉及数据处理技术领域,包括:获取云计算***的分布式配置数据,进行数字孪生建模获得云计算孪生模型,部署智能传感器进行运行数据采集,获取设备运行数据,包括历史运行数据和实时运行数据,进行模型更新,进行电力故障预测获取电力故障预测结果,获取优化目标,进行计算资源分配,生成资源分配方案,对每个数据中心进行计算节点分配,生成算力分配方案,进行云计算***的算力调度。本发明解决了传统的算力调度方法无法考虑到电力故障对***可靠性的影响,导致供电中断或不稳定,存在算力调度效率低、供电可靠性差的技术问题。

Description

一种提高供电可靠性的算力调度的智能优化方法及***
技术领域
本发明涉及数据处理技术领域,具体涉及一种提高供电可靠性的算力调度的智能优化方法及***。
背景技术
随着云计算的兴起,越来越多的企业和个人开始将他们的应用程序和数据存储在云端,以便获得更高的可扩展性、灵活性和成本效益,由于云计算平台的规模不断增大,资源的管理和调度变得更加复杂,无论是公有云还是私有云,都需要能够根据用户需求有效地分配和管理可用的计算资源,以确保高效的运行,这些通常需要大量的计算能力,并且对计算资源的利用效率要求很高。因此,为了满足不断增长的计算需求和提高资源利用效率,算力调度成了一个重要的问题。
而现今常用的算力调度方法还存在着一定的弊端,传统的算力调度方法无法考虑到电力故障对***可靠性的影响,导致供电中断或不稳定,并且存在对数据分析不足,使得无法生成高效的资源分配方案,导致算力调度效率低、供电可靠性差。因此,对于算力调度还存在着一定的可提升空间。
发明内容
本申请通过提供了一种提高供电可靠性的算力调度的智能优化方法及***,旨在解决传统的算力调度方法无法考虑到电力故障对***可靠性的影响,导致供电中断或不稳定,并且存在对数据分析不足,使得无法生成高效的资源分配方案,导致存在算力调度效率低、供电可靠性差的技术问题。
鉴于上述问题,本申请提供了一种提高供电可靠性的算力调度的智能优化方法及***。
本申请公开的第一个方面,提供了一种提高供电可靠性的算力调度的智能优化方法,所述方法包括:获取云计算***的分布式配置数据,所述云计算***包括多个数据中心;根据所述分布式配置数据,通过数字孪生技术,对每个数据中心进行数字孪生建模,获得云计算孪生模型;在每个数据中心部署智能传感器进行运行数据采集,获取设备运行数据,所述设备运行数据包括历史运行数据和实时运行数据;将所述历史运行数据和实时运行数据输入所述云计算孪生模型进行模型更新,并基于更新模型进行电力故障预测,获取电力故障预测结果;获取优化目标,基于所述优化目标和所述电力故障预测结果,对所述多个数据中心进行计算资源分配,生成资源分配方案;根据所述资源分配方案,对每个数据中心进行计算节点分配,生成算力分配方案;根据所述资源分配方案和所述算力分配方案进行云计算***的算力调度。
本申请公开的另一个方面,提供了一种提高供电可靠性的算力调度的智能优化***,所述***用于上述方法,所述***包括:配置数据获取模块,所述配置数据获取模块用于获取云计算***的分布式配置数据,所述云计算***包括多个数据中心;数字孪生建模模块,所述数字孪生建模模块用于根据所述分布式配置数据,通过数字孪生技术,对每个数据中心进行数字孪生建模,获得云计算孪生模型;运行数据采集模块,所述运行数据采集模块用于在每个数据中心部署智能传感器进行运行数据采集,获取设备运行数据,所述设备运行数据包括历史运行数据和实时运行数据;电力故障预测模块,所述电力故障预测模块用于将所述历史运行数据和实时运行数据输入所述云计算孪生模型进行模型更新,并基于更新模型进行电力故障预测,获取电力故障预测结果;计算资源分配模块,所述计算资源分配模块用于获取优化目标,基于所述优化目标和所述电力故障预测结果,对所述多个数据中心进行计算资源分配,生成资源分配方案;计算节点分配模块,所述计算节点分配模块用于根据所述资源分配方案,对每个数据中心进行计算节点分配,生成算力分配方案;算力调度模块,所述算力调度模块用于根据所述资源分配方案和所述算力分配方案进行云计算***的算力调度。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
通过电力故障预测,可以提前识别潜在的电力故障,并采取相应的资源分配策略来避免或降低对数据中心的影响,从而提高供电可靠性;通过数字孪生建模和智能传感器采集的运行数据,更新云计算孪生模型,并结合优化目标和电力故障预测结果生成资源分配方案和算力分配方案,这样,可以更准确、高效地将计算任务分配给可用的计算资源,提高算力调度效率。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
图1为本申请实施例提供了一种提高供电可靠性的算力调度的智能优化方法流程示意图;
图2为本申请实施例提供了一种提高供电可靠性的算力调度的智能优化***结构示意图。
附图标记说明:配置数据获取模块10,数字孪生建模模块20,运行数据采集模块30,电力故障预测模块40,计算资源分配模块50,计算节点分配模块60,算力调度模块70。
具体实施方式
本申请实施例通过提供一种提高供电可靠性的算力调度的智能优化方法,解决了传统的算力调度方法无法考虑到电力故障对***可靠性的影响,导致供电中断或不稳定,并且存在对数据分析不足,使得无法生成高效的资源分配方案,导致存在算力调度效率低、供电可靠性差的技术问题。
在介绍了本申请基本原理后,下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。
实施例一
如图1所示,本申请实施例提供了一种提高供电可靠性的算力调度的智能优化方法,所述方法包括:
获取云计算***的分布式配置数据,所述云计算***包括多个数据中心;
确定需要获取的分布式配置数据的内容,包括数据中心的拓扑结构、计算节点数据、电力供给网络配置、任务队列需求信息等,根据确定的数据需求,通过访问云计算***的管理接口、监控***等对云计算***中的各个数据中心进行数据采集,将采集到的数据进行整合和关联,获取完整的分布式配置数据,以供后续处理和分析使用。
根据所述分布式配置数据,通过数字孪生技术,对每个数据中心进行数字孪生建模,获得云计算孪生模型;
进一步而言,对每个数据中心进行数字孪生建模,获得云计算孪生模型,包括:
所述分布式配置数据包括数据中心拓扑结构、计算节点数据、电力供给网络配置、任务队列需求信息;根据所述计算节点数据、电力供给网络配置、任务队列需求信息,通过数字孪生技术,对每个数据中心进行建模,获取多个数据中心孪生模型;基于所述数据中心拓扑结构,对所述多个数据中心孪生模型进行连接,获得所述云计算孪生模型。
确定云计算***中各个数据中心之间的连接关系和拓扑结构,包括数据中心之间的网络连接方式,例如星型、网状或层次结构等;收集每个数据中心中可用的计算节点的相关数据,包括计算节点的数量、类型(如CPU、GPU等)、计算能力、存储容量、网络带宽等;获取每个数据中心的电力供给网络配置信息,包括电力线路、变压器、发电机、配电设备等方面的数据;确定每个数据中心中任务队列的需求信息,包括任务的类型、优先级、处理时间、调度策略以及对资源的需求等。
基于以上收集的数据和信息,使用数学建模工具,在每个数据中心上建立数字孪生模型,获得多个数据中心的孪生模型。数字孪生模型是一个与实际数据中心相对应的数学模型,可以进行仿真和分析。
对数据中心的拓扑结构进行分析,包括数据中心之间的连接方式、网络拓扑、通信协议等,根据数据中心的拓扑结构和连接方式,确定孪生模型的连接规则,这可以基于实际的物理连接或网络连接关系来定义,根据连接规则,将每个数据中心的孪生模型进行连接,例如,可以是逐节点连接、部分节点连接或全局连接,得到整个云计算***的孪生模型。这样的连接模型可以更好地反映实际***中各个数据中心之间的相互影响和协作关系,为后续的优化和决策提供更准确的信息和指导。
在每个数据中心部署智能传感器进行运行数据采集,获取设备运行数据,所述设备运行数据包括历史运行数据和实时运行数据;
根据数据中心的特性和需求,选择适合的智能传感器设备,包括温度传感器、湿度传感器、压力传感器、电力传感器等,以覆盖各种参数和指标。确定传感器的数量、布置方式和安装位置,以此将选定的传感器设备安装在每个数据中心内部的合适位置,以确保全面且准确地采集设备运行数据。使用智能传感器设备,对数据中心内的设备进行实时数据采集,传感器设备通过有线或无线方式将采集到的数据传输到数据中心的数据存储***。这些数据包括设备的温度、湿度、电压、电流等实时参数。通过上述步骤,可以获得历史运行数据和实时运行数据,为后续的模型更新和电力故障预测提供基础。
将所述历史运行数据和实时运行数据输入所述云计算孪生模型进行模型更新,并基于更新模型进行电力故障预测,获取电力故障预测结果;
进一步而言,将所述历史运行数据和实时运行数据输入所述云计算孪生模型进行模型更新,并基于更新模型进行电力故障预测,获取电力故障预测结果,包括:
对所述历史运行数据进行故障标记,获取故障标记结果,采用所述历史运行数据和所述故障标记结果作为构建数据集合;基于BP神经网络,构建故障分析模型,采用所述构建数据集合对所述故障分析模型进行训练和验证,当符合预设条件时,获取所述故障分析模型,并将所述故障分析模型嵌入所述云计算孪生模型;将所述实时运行数据输入所述云计算孪生模型进行仿真,并根据预设记录节点对仿真数据进行记录,获取仿真记录数据;在每个预设记录节点将对应的仿真记录数据输入所述故障分析模型进行故障分析,获取每个预设记录节点的故障类型和故障风险等级,作为所述电力故障预测结果。
基于设备状态、错误信息、异常事件等多种方式来判断设备是否存在故障或潜在的故障风险,例如,将某些特定的告警或错误代码作为故障标记的依据,对历史运行数据进行扫描和分析,将被识别为故障或潜在故障的数据点进行标记,将进行故障标记的结果记录下来,形成故障标记结果。
将历史运行数据和对应的故障标记结果结合,构建一个数据集合,该数据集合中每条记录包括历史运行数据中的各个参数和特征,以及其对应的故障标记结果,这样,每条记录即成了一个有监督学习问题中的样本。将构建好的数据集合划分为训练集、验证集等子集,用于故障分析模型的训练和验证。
选择BP神经网络作为故障分析模型的基础,BP神经网络是一种常用的人工神经网络算法,适用于分类和预测问题。将构建好的数据集合划分为训练集、验证集等子集,用于故障分析模型的训练和验证,将数据集合分为输入特征和目标输出两部分,其中输入特征包括历史运行数据的各个参数和特征,目标输出为故障标记结果。使用数据集合对BP神经网络模型进行训练和验证,通过反向传播算法,在训练集上不断调整神经网络的权重和偏置,使其能够准确地预测故障标记结果,同时,使用验证集对模型进行验证和调优,以获得更好的性能。当故障分析模型符合预设条件时,即达到一定的准确度和可靠性要求时,将模型保存下来,作为获取的故障分析模型。
将获取的故障分析模型嵌入到先前构建的云计算孪生模型中,这样,云计算孪生模型就能够利用故障分析模型来预测和识别设备的故障状态,并提供相应的决策支持。
将实时运行数据作为输入,传递给已嵌入故障分析模型的云计算孪生模型,这样,云计算孪生模型可以根据实时数据模拟设备的运行状态和性能,通过云计算孪生模型进行仿真,来推断实时数据对设备的影响,从而生成相应的仿真结果。根据预设,确定需要记录仿真数据的节点,这些节点可以是关键时间点或者预设的固定周期,在预设的记录节点上,对相应的仿真数据进行记录,这些数据包括设备状态、参数值、性能指标等方面的信息,形成仿真记录数据,以便后续的故障分析和评估。
将仿真记录数据输入故障分析模型进行故障分析,模型基于输入数据,通过学习历史故障案例或潜在的故障模式,对预设记录节点进行故障类型的分类和故障风险等级的评估,根据故障分析模型的输出,获取每个预设记录节点的故障类型和故障风险等级,其中,故障类型表示设备可能发生的具体故障情况,故障风险等级表示预测到的故障可能的程度。
获取优化目标,基于所述优化目标和所述电力故障预测结果,对所述多个数据中心进行计算资源分配,生成资源分配方案;
进一步而言,获取优化目标,基于所述优化目标和所述电力故障预测结果,对所述多个数据中心进行计算资源分配,生成资源分配方案,包括:
根据所述电力故障预测结果的故障风险等级,进行对应的数据中心的资源分配约束,获取约束信息;基于所述约束信息随机生成一组资源分配方案,并初始化所述资源分配方案的初始位置和初始速度,其中,位置代表第一资源分配方案的计算资源分配比例、任务调度方案,速度代表资源分配方案的变化程度和方向;基于所述优化目标,对每个资源分配方案进行适应度计算,并记录每个资源分配方案的个体历史最佳适应度值和相应的个体历史最佳位置;根据所述个体历史最佳适应度值,获取全局最佳适应度值和相应的全局最佳位置;根据所述初始位置、初始速度、个体历史最佳位置、全局最佳位置,根据优化公式更新资源分配方案的位置和速度,进行迭代,直到满足预设停止条件,输出全局最佳适应度值和相应的全局最佳位置;根据所述全局最佳位置获取资源分配方案。
确定故障风险等级的分类标准,包括低风险、中风险和高风险等级,将电力故障预测结果与各个数据中心进行映射,根据预测结果中的数据中心标识或其他相关信息,确定哪些数据中心与特定的故障风险等级相关联。根据故障风险等级,制定相应的资源分配约束,这些约束包括对计算资源、存储资源、网络带宽或其他资源的限制,例如,对于高风险的数据中心,可能需要限制其计算资源的使用或提供额外的备份资源。根据上述定义的约束,为每个对应故障风险等级的数据中心获取相应的资源分配约束信息。
根据约束信息和实际需求,确定需要进行资源分配的参数,包括计算资源比例、存储资源分配、网络带宽分配等,根据约束信息,采用随机化的方法生成一组初始资源分配方案,对于每个生成的资源分配方案,将其作为初始位置,并为其分配一个初始速度。这样的初始方案可以用作优化算法中的起点,通过迭代和优化过程来搜索最优的资源分配方案。
所述优化目标包括功耗、延迟、负载均衡方面的指标,结合上述指标和约束条件,定义适应度函数来评估每个资源分配方案的性能,对于每个资源分配方案,将其作为输入,通过适应度函数计算出相应的适应度值,这个值表示该方案在优化目标下的表现,数值越高表示方案越好。
将每个方案的初始适应度值设为个体历史最佳适应度值,并将当前方案作为个体历史最佳位置,对于每个方案,比较当前适应度值与个体历史最佳适应度值,如果当前适应度值更优,则更新个体历史最佳适应度值,并将当前方案设置为新的个体历史最佳位置,对于每个资源分配方案,重复上述步骤,计算适应度值并更新个体历史最佳适应度和位置。
将全局最佳适应度值初始化为第一个个体历史最佳适应度值,依次遍历每个个体历史最佳适应度值,对于每个个体历史最佳适应度值,与当前的全局最佳适应度值进行比较,如果该个体历史最佳适应度值更好,则更新全局最佳适应度值,并同时记录该个体历史最佳位置作为全局最佳位置,继续遍历剩余的个体历史最佳适应度值,不断更新全局最佳适应度值和位置,当遍历完所有个体历史最佳适应度值后,得到了全局最佳适应度值和相应的全局最佳位置,这些表示全局最优解。
定义一个预设的停止条件,例如达到最大迭代次数、适应度函数收敛等,将初始位置和速度作为当前的位置和速度,根据优化公式,使用当前位置、速度、个体历史最佳位置和全局最佳位置来更新资源分配方案的位置和速度,对于更新后的位置,计算其适应度值,比较当前适应度值与个体历史最佳适应度值以及全局最佳适应度值的大小,若更好,则更新个体历史最佳适应度值和位置,同时更新全局最佳适应度值和位置。检查是否满足预设的停止条件,如果满足,则跳出迭代循环;否则,返回进行下一轮迭代。在满足停止条件后,输出全局最佳适应度值和相应的全局最佳位置作为最优的资源分配方案
所述优化公式如下:
其中,i表示粒子序号,d表示粒子维度序号,k表示迭代次数,w表示惯性权重,c1、c2分别表示个体学习因子和群体学习因子,r1、r2为区间[0,1]之间的随机数,用于增加搜索随机性,表示粒子i在第k次迭代中第d维的速度向量,/>表示粒子i在第k次迭代中第d维的位置向量;/>表示粒子i在第k次迭代中第d维的历史最优位置,即个体最优解,表示群体在第k次迭代中第d维的历史最优位置,即群体最优解。
根据全局最佳位置,将其进行解码,即将位置中的数值映射到对应的资源分配参数,例如计算资源比例、任务调度方案等,将其转化为具体的资源分配方案,将获取的资源分配方案作为最终的输出,这个方案代表了根据全局最佳位置找到的最优资源分配策略。
根据所述资源分配方案,对每个数据中心进行计算节点分配,生成算力分配方案;
进一步而言,根据所述资源分配方案,对每个数据中心进行计算节点分配,生成算力分配方案,包括:
获取每个数据中心中可用的计算节点信息,包括多个计算节点及其对应的节点类型;判断所述多个计算节点是否为相同节点类型;当判断结果为是相同节点类型,获取所述计算节点的资源使用信息和能源利用信息;根据所述资源使用信息和能源利用信息,获取所述计算节点的有效负载;获取算力需求总量,根据所述算力分配方案、所述算力需求总量、所述有效负载,进行节点分配。
识别并标识出所有可用的计算节点,这些计算节点可以是物理服务器、虚拟机实例或容器等,对于每个计算节点,获取与之相关的属性信息,包括节点类型,节点类型可以根据硬件配置、操作***、软件环境等特征进行分类,例如,可以将节点分为高性能节点、普通节点、GPU节点等不同类型。
比较所获取的计算节点的节点类型,如果所有计算节点的节点类型完全相同,将它们标记为相同的节点类型。
通过监控***、性能指标采集工具等,获取目标计算节点的资源使用信息,这些信息包括CPU利用率、内存占用、磁盘使用情况、网络带宽使用等;通过能源监测设备、功耗传感器等,获取目标计算节点的能源利用信息,这些信息包括计算节点的能耗数据、电压、功率等,整理和记录所获取的资源使用信息和能源利用信息。
基于资源使用信息和能源利用信息,计算节点的有效负载,有效负载可以通过多种方式来定义,例如可以根据CPU利用率与能源消耗之间的关系来衡量,也可以根据任务完成速度、响应时间或其他性能指标来评估有效负载,这样可以跟踪计算节点在不同时间段的有效负载情况。
通过与***管理员建立联系,或者获取用户需求,获取所需的算力需求总量,根据所述有效负载和算力需求总量,结合算力分配方案,调整节点分配策略,例如,根据不同节点的有效负载和性能指标,确定最佳的算力分配方案,以实现负载均衡和最优的计算资源利用。根据算力需求总量和所得的算力分配方案,对各个计算节点进行分配,例如,将更多的算力分配给高效能或有效负载较低的节点,以充分利用资源。
进一步而言,还包括:
当判断结果为不是相同节点类型,获取不同计算节点的计算能力;根据所述计算能力进行节点分配。
当判断结果为不是相同节点类型时,针对不同计算节点类型,获取它们各自的计算能力信息,这些信息可以根据硬件配置、性能指标等来确定,例如,可以考虑处理器型号、核数、频率、内存容量、存储设备类型等。对于不同计算节点类型,进行计算能力的比较,例如可以根据性能指标的大小、性能评估结果等来确定不同节点类型之间的计算能力优劣关系。
根据不同计算节点类型的计算能力信息,评估每个节点的适用性,选择计算能力与任务需求相匹配的节点,根据评估和选择的结果,将计算任务分配给具有合适计算能力的节点,确保每个任务得到足够的计算资源来执行。通过上述步骤,实现了按需分配计算资源,确保任务得到适当的计算支持,并最大程度地提高***的计算性能与效率。
根据所述资源分配方案和所述算力分配方案进行云计算***的算力调度。
将所述资源分配方案应用于云计算***中的各个数据中心,根据方案中的资源限制和约束,对计算节点、存储设备、网络带宽等进行相应的分配和配置;根据所述算力分配方案,将计算任务或请求分配给相应的计算节点,根据计算任务的算力需求和节点的计算能力,进行合理的分配和调度。通过上述步骤,实现了合理利用资源、提高***性能和效率,并满足用户的计算需求。
综上所述,本申请实施例所提供的一种提高供电可靠性的算力调度的智能优化方法及***具有如下技术效果:
通过电力故障预测,可以提前识别潜在的电力故障,并采取相应的资源分配策略来避免或降低对数据中心的影响,从而提高供电可靠性;
通过数字孪生建模和智能传感器采集的运行数据,更新云计算孪生模型,并结合优化目标和电力故障预测结果生成资源分配方案和算力分配方案,这样,可以更准确、高效地将计算任务分配给可用的计算资源,提高算力调度效率。
通过引入数字孪生技术、电力故障预测,有效解决了现有技术在供电可靠性和算力调度效率方面存在的问题。
实施例二
基于与前述实施例中一种提高供电可靠性的算力调度的智能优化方法相同的发明构思,如图2所示,本申请提供了一种提高供电可靠性的算力调度的智能优化***,所述***包括:
配置数据获取模块10,所述配置数据获取模块10用于获取云计算***的分布式配置数据,所述云计算***包括多个数据中心;
数字孪生建模模块20,所述数字孪生建模模块20用于根据所述分布式配置数据,通过数字孪生技术,对每个数据中心进行数字孪生建模,获得云计算孪生模型;
运行数据采集模块30,所述运行数据采集模块30用于在每个数据中心部署智能传感器进行运行数据采集,获取设备运行数据,所述设备运行数据包括历史运行数据和实时运行数据;
电力故障预测模块40,所述电力故障预测模块40用于将所述历史运行数据和实时运行数据输入所述云计算孪生模型进行模型更新,并基于更新模型进行电力故障预测,获取电力故障预测结果;
计算资源分配模块50,所述计算资源分配模块50用于获取优化目标,基于所述优化目标和所述电力故障预测结果,对所述多个数据中心进行计算资源分配,生成资源分配方案;
计算节点分配模块60,所述计算节点分配模块60用于根据所述资源分配方案,对每个数据中心进行计算节点分配,生成算力分配方案;
算力调度模块70,所述算力调度模块70用于根据所述资源分配方案和所述算力分配方案进行云计算***的算力调度。
进一步而言,所述数字孪生建模模块20还包括如下操作步骤:
所述分布式配置数据包括数据中心拓扑结构、计算节点数据、电力供给网络配置、任务队列需求信息;
根据所述计算节点数据、电力供给网络配置、任务队列需求信息,通过数字孪生技术,对每个数据中心进行建模,获取多个数据中心孪生模型;
基于所述数据中心拓扑结构,对所述多个数据中心孪生模型进行连接,获得所述云计算孪生模型。
进一步而言,所述电力故障预测模块40还包括如下操作步骤:
对所述历史运行数据进行故障标记,获取故障标记结果,采用所述历史运行数据和所述故障标记结果作为构建数据集合;
基于BP神经网络,构建故障分析模型,采用所述构建数据集合对所述故障分析模型进行训练和验证,当符合预设条件时,获取所述故障分析模型,并将所述故障分析模型嵌入所述云计算孪生模型;
将所述实时运行数据输入所述云计算孪生模型进行仿真,并根据预设记录节点对仿真数据进行记录,获取仿真记录数据;
在每个预设记录节点将对应的仿真记录数据输入所述故障分析模型进行故障分析,获取每个预设记录节点的故障类型和故障风险等级,作为所述电力故障预测结果。
进一步而言,所述计算资源分配模块50还包括如下操作步骤:
根据所述电力故障预测结果的故障风险等级,进行对应的数据中心的资源分配约束,获取约束信息;
基于所述约束信息随机生成一组资源分配方案,并初始化所述资源分配方案的初始位置和初始速度,其中,位置代表第一资源分配方案的计算资源分配比例、任务调度方案,速度代表资源分配方案的变化程度和方向;
基于所述优化目标,对每个资源分配方案进行适应度计算,并记录每个资源分配方案的个体历史最佳适应度值和相应的个体历史最佳位置;
根据所述个体历史最佳适应度值,获取全局最佳适应度值和相应的全局最佳位置;
根据所述初始位置、初始速度、个体历史最佳位置、全局最佳位置,根据优化公式更新资源分配方案的位置和速度,进行迭代,直到满足预设停止条件,输出全局最佳适应度值和相应的全局最佳位置;
根据所述全局最佳位置获取资源分配方案。
进一步而言,所述优化公式如下:
其中,i表示粒子序号,d表示粒子维度序号,k表示迭代次数,w表示惯性权重,c1、c2分别表示个体学习因子和群体学习因子,r1、r2为区间[0,1]之间的随机数,用于增加搜索随机性,表示粒子i在第k次迭代中第d维的速度向量,/>表示粒子i在第k次迭代中第d维的位置向量;/>表示粒子i在第k次迭代中第d维的历史最优位置,即个体最优解,表示群体在第k次迭代中第d维的历史最优位置,即群体最优解。
进一步而言,所述计算节点分配模块60还包括如下操作步骤:
获取每个数据中心中可用的计算节点信息,包括多个计算节点及其对应的节点类型;
判断所述多个计算节点是否为相同节点类型;
当判断结果为是相同节点类型,获取所述计算节点的资源使用信息和能源利用信息;
根据所述资源使用信息和能源利用信息,获取所述计算节点的有效负载;
获取算力需求总量,根据所述算力分配方案、所述算力需求总量、所述有效负载,进行节点分配。
进一步而言,所述计算节点分配模块60还包括如下操作步骤:
当判断结果为不是相同节点类型,获取不同计算节点的计算能力;
根据所述计算能力进行节点分配。
本说明书通过前述对一种提高供电可靠性的算力调度的智能优化方法的详细描述,本领域技术人员可以清楚得知道本实施例中一种提高供电可靠性的算力调度的智能优化方法及***,对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述得比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种提高供电可靠性的算力调度的智能优化方法,其特征在于,所述方法包括:
获取云计算***的分布式配置数据,所述云计算***包括多个数据中心;
根据所述分布式配置数据,通过数字孪生技术,对每个数据中心进行数字孪生建模,获得云计算孪生模型;
在每个数据中心部署智能传感器进行运行数据采集,获取设备运行数据,所述设备运行数据包括历史运行数据和实时运行数据;
将所述历史运行数据和实时运行数据输入所述云计算孪生模型进行模型更新,并基于更新模型进行电力故障预测,获取电力故障预测结果;
获取优化目标,基于所述优化目标和所述电力故障预测结果,对所述多个数据中心进行计算资源分配,生成资源分配方案;
根据所述资源分配方案,对每个数据中心进行计算节点分配,生成算力分配方案;
根据所述资源分配方案和所述算力分配方案进行云计算***的算力调度。
2.如权利要求1所述的方法,其特征在于,对每个数据中心进行数字孪生建模,获得云计算孪生模型,包括:
所述分布式配置数据包括数据中心拓扑结构、计算节点数据、电力供给网络配置、任务队列需求信息;
根据所述计算节点数据、电力供给网络配置、任务队列需求信息,通过数字孪生技术,对每个数据中心进行建模,获取多个数据中心孪生模型;
基于所述数据中心拓扑结构,对所述多个数据中心孪生模型进行连接,获得所述云计算孪生模型。
3.如权利要求1所述的方法,其特征在于,将所述历史运行数据和实时运行数据输入所述云计算孪生模型进行模型更新,并基于更新模型进行电力故障预测,获取电力故障预测结果,包括:
对所述历史运行数据进行故障标记,获取故障标记结果,采用所述历史运行数据和所述故障标记结果作为构建数据集合;
基于BP神经网络,构建故障分析模型,采用所述构建数据集合对所述故障分析模型进行训练和验证,当符合预设条件时,获取所述故障分析模型,并将所述故障分析模型嵌入所述云计算孪生模型;
将所述实时运行数据输入所述云计算孪生模型进行仿真,并根据预设记录节点对仿真数据进行记录,获取仿真记录数据;
在每个预设记录节点将对应的仿真记录数据输入所述故障分析模型进行故障分析,获取每个预设记录节点的故障类型和故障风险等级,作为所述电力故障预测结果。
4.如权利要求3所述的方法,其特征在于,获取优化目标,基于所述优化目标和所述电力故障预测结果,对所述多个数据中心进行计算资源分配,生成资源分配方案,包括:
根据所述电力故障预测结果的故障风险等级,进行对应的数据中心的资源分配约束,获取约束信息;
基于所述约束信息随机生成一组资源分配方案,并初始化所述资源分配方案的初始位置和初始速度,其中,位置代表第一资源分配方案的计算资源分配比例、任务调度方案,速度代表资源分配方案的变化程度和方向;
基于所述优化目标,对每个资源分配方案进行适应度计算,并记录每个资源分配方案的个体历史最佳适应度值和相应的个体历史最佳位置;
根据所述个体历史最佳适应度值,获取全局最佳适应度值和相应的全局最佳位置;
根据所述初始位置、初始速度、个体历史最佳位置、全局最佳位置,根据优化公式更新资源分配方案的位置和速度,进行迭代,直到满足预设停止条件,输出全局最佳适应度值和相应的全局最佳位置;
根据所述全局最佳位置获取资源分配方案。
5.如权利要求4所述的方法,其特征在于,所述优化公式如下:
其中,i表示粒子序号,d表示粒子维度序号,k表示迭代次数,w表示惯性权重,c1、c2分别表示个体学习因子和群体学习因子,r1、r2为区间[0,1]之间的随机数,用于增加搜索随机性,表示粒子i在第k次迭代中第d维的速度向量,/>表示粒子i在第k次迭代中第d维的位置向量;/>表示粒子i在第k次迭代中第d维的历史最优位置,即个体最优解,表示群体在第k次迭代中第d维的历史最优位置,即群体最优解。
6.如权利要求1所述的方法,其特征在于,根据所述资源分配方案,对每个数据中心进行计算节点分配,生成算力分配方案,包括:
获取每个数据中心中可用的计算节点信息,包括多个计算节点及其对应的节点类型;
判断所述多个计算节点是否为相同节点类型;
当判断结果为是相同节点类型,获取所述计算节点的资源使用信息和能源利用信息;
根据所述资源使用信息和能源利用信息,获取所述计算节点的有效负载;
获取算力需求总量,根据所述算力分配方案、所述算力需求总量、所述有效负载,进行节点分配。
7.如权利要求1所述的方法,其特征在于,还包括:
当判断结果为不是相同节点类型,获取不同计算节点的计算能力;
根据所述计算能力进行节点分配。
8.一种提高供电可靠性的算力调度的智能优化***,其特征在于,用于实施权利要求1-7任一项所述的一种提高供电可靠性的算力调度的智能优化方法,包括:
配置数据获取模块,所述配置数据获取模块用于获取云计算***的分布式配置数据,所述云计算***包括多个数据中心;
数字孪生建模模块,所述数字孪生建模模块用于根据所述分布式配置数据,通过数字孪生技术,对每个数据中心进行数字孪生建模,获得云计算孪生模型;
运行数据采集模块,所述运行数据采集模块用于在每个数据中心部署智能传感器进行运行数据采集,获取设备运行数据,所述设备运行数据包括历史运行数据和实时运行数据;
电力故障预测模块,所述电力故障预测模块用于将所述历史运行数据和实时运行数据输入所述云计算孪生模型进行模型更新,并基于更新模型进行电力故障预测,获取电力故障预测结果;
计算资源分配模块,所述计算资源分配模块用于获取优化目标,基于所述优化目标和所述电力故障预测结果,对所述多个数据中心进行计算资源分配,生成资源分配方案;
计算节点分配模块,所述计算节点分配模块用于根据所述资源分配方案,对每个数据中心进行计算节点分配,生成算力分配方案;
算力调度模块,所述算力调度模块用于根据所述资源分配方案和所述算力分配方案进行云计算***的算力调度。
CN202311405239.2A 2023-10-27 2023-10-27 一种提高供电可靠性的算力调度的智能优化方法及*** Active CN117453398B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311405239.2A CN117453398B (zh) 2023-10-27 2023-10-27 一种提高供电可靠性的算力调度的智能优化方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311405239.2A CN117453398B (zh) 2023-10-27 2023-10-27 一种提高供电可靠性的算力调度的智能优化方法及***

Publications (2)

Publication Number Publication Date
CN117453398A true CN117453398A (zh) 2024-01-26
CN117453398B CN117453398B (zh) 2024-07-16

Family

ID=89584875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311405239.2A Active CN117453398B (zh) 2023-10-27 2023-10-27 一种提高供电可靠性的算力调度的智能优化方法及***

Country Status (1)

Country Link
CN (1) CN117453398B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117667602A (zh) * 2024-01-31 2024-03-08 山东航天九通车联网有限公司 一种基于云计算在线服务算力优化方法和装置
CN118101720A (zh) * 2024-04-25 2024-05-28 国能信控互联技术有限公司 基于边缘云的新能源数据采集控制方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190317459A1 (en) * 2018-04-13 2019-10-17 Honeywell International Inc. Predictive reactor effluent air cooler maintenance
CN113657031A (zh) * 2021-08-12 2021-11-16 杭州英集动力科技有限公司 基于数字孪生的供热调度自动化实现方法、***及平台
CN113810953A (zh) * 2021-09-08 2021-12-17 重庆邮电大学 一种基于数字孪生的无线传感网络资源调度方法及***
WO2023087442A1 (zh) * 2021-11-18 2023-05-25 清华大学 数字孪生网络低时延高可靠传输方法、装置、设备及介质
CN116614385A (zh) * 2023-05-24 2023-08-18 浪潮通信信息***有限公司 基于数字孪生的业务调度路径规划方法、装置和设备
WO2023184939A1 (zh) * 2022-03-28 2023-10-05 福州大学 基于深度强化学习的云数据中心自适应高效资源分配方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190317459A1 (en) * 2018-04-13 2019-10-17 Honeywell International Inc. Predictive reactor effluent air cooler maintenance
CN113657031A (zh) * 2021-08-12 2021-11-16 杭州英集动力科技有限公司 基于数字孪生的供热调度自动化实现方法、***及平台
CN113810953A (zh) * 2021-09-08 2021-12-17 重庆邮电大学 一种基于数字孪生的无线传感网络资源调度方法及***
WO2023087442A1 (zh) * 2021-11-18 2023-05-25 清华大学 数字孪生网络低时延高可靠传输方法、装置、设备及介质
WO2023184939A1 (zh) * 2022-03-28 2023-10-05 福州大学 基于深度强化学习的云数据中心自适应高效资源分配方法
CN116614385A (zh) * 2023-05-24 2023-08-18 浪潮通信信息***有限公司 基于数字孪生的业务调度路径规划方法、装置和设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
卢锦玲: "基于数字孪生与动态能效模型的综合能源***实时优化调度策略", 电网技术, 13 February 2023 (2023-02-13) *
孙立;: "面向边缘智能产业的工业大数据服务研究", 信息与电脑(理论版), no. 10, 25 May 2020 (2020-05-25) *
赵宏伟;申德荣;田力威;: "云计算环境下资源需求预测与调度方法的研究", 小型微型计算机***, no. 04, 15 April 2016 (2016-04-15) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117667602A (zh) * 2024-01-31 2024-03-08 山东航天九通车联网有限公司 一种基于云计算在线服务算力优化方法和装置
CN117667602B (zh) * 2024-01-31 2024-04-26 山东航天九通车联网有限公司 一种基于云计算在线服务算力优化方法和装置
CN118101720A (zh) * 2024-04-25 2024-05-28 国能信控互联技术有限公司 基于边缘云的新能源数据采集控制方法及***
CN118101720B (zh) * 2024-04-25 2024-07-09 国能信控互联技术有限公司 基于边缘云的新能源数据采集控制方法及***

Also Published As

Publication number Publication date
CN117453398B (zh) 2024-07-16

Similar Documents

Publication Publication Date Title
CN117453398B (zh) 一种提高供电可靠性的算力调度的智能优化方法及***
CN108009016B (zh) 一种资源负载均衡控制方法及集群调度器
CN110389820B (zh) 一种基于v-TGRU模型进行资源预测的私有云任务调度方法
CN107404523A (zh) 云平台自适应资源调度***和方法
Tirado et al. Predictive data grouping and placement for cloud-based elastic server infrastructures
US11283863B1 (en) Data center management using digital twins
CN110502323B (zh) 一种云计算任务实时调度方法
CN111176784B (zh) 一种基于极限学习机和蚁群***的虚拟机整合方法
CN116614385A (zh) 基于数字孪生的业务调度路径规划方法、装置和设备
CN107291539A (zh) 基于资源重要程度的集群程序调度方法
Kumar T et al. Hybrid approach for resource allocation in cloud infrastructure using random forest and genetic algorithm
CN108845886A (zh) 基于相空间的云计算能耗优化方法和***
CN113837383B (zh) 模型训练方法、装置、电子设备及存储介质
CN117406844B (zh) 一种基于神经网络的显卡风扇控制方法及相关装置
CN113158435B (zh) 基于集成学习的复杂***仿真运行时间预测方法与设备
CN118037000A (zh) 基于数字经济的城市资源动态调度方法及***
CN108241864A (zh) 基于多变量分组的服务器性能预测方法
CN116471333B (zh) 一种混合算力网络资源调度优化方法及随动控制装置
Thanh Bui et al. Virtual machines migration game approach for multi‐tier application in infrastructure as a service cloud computing
CN110058942B (zh) 基于层次分析法的资源分配***及方法
Yang et al. Trust-based scheduling strategy for cloud workflow applications
Sundararajan et al. A constrained genetic algorithm for rebalancing of services in cloud data centers
CN115314500A (zh) 基于改进topsis模型的动态负载均衡方法
AlQerm et al. BEHAVE: Behavior-aware, intelligent and fair resource management for heterogeneous edge-IoT systems
CN118069380B (zh) 一种算力资源处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant