CN116450451A - 一种服务器硬件管理方法、***、设备及存储介质 - Google Patents

一种服务器硬件管理方法、***、设备及存储介质 Download PDF

Info

Publication number
CN116450451A
CN116450451A CN202310300829.2A CN202310300829A CN116450451A CN 116450451 A CN116450451 A CN 116450451A CN 202310300829 A CN202310300829 A CN 202310300829A CN 116450451 A CN116450451 A CN 116450451A
Authority
CN
China
Prior art keywords
server hardware
health
server
information
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310300829.2A
Other languages
English (en)
Inventor
牛雅晨
王凯强
董世江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202310300829.2A priority Critical patent/CN116450451A/zh
Publication of CN116450451A publication Critical patent/CN116450451A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Biology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种服务器硬件管理方法,用以解决现有的服务器硬件设备统一管理方式无法合理利用所有的硬件设备,容易导致设备故障和数据丢失的技术问题。包括:获取所有服务器硬件设备的状态信息;基于所述状态信息建立服务器硬件设备的健康状况评估模型;基于所述健康状态评估模型确定各个服务器硬件设备的健康等级,并进行服务器固件OPAL和基板管理控制器BMC之间的信息交互,生成交互结果;基于所述交互结果,生成服务器硬件设备的调控策略。通过对每一个硬件设备进行健康状况评估,根据其健康级别确调控策略,降低***故障的风险,利用神经网络算法计算健康状况评估模型的参数,具有较强的自适应性,通过PLDM协议来传输,传输效率高更加灵活。

Description

一种服务器硬件管理方法、***、设备及存储介质
技术领域
本申请涉及服务器技术领域,尤其涉及一种服务器硬件管理方法、***、设备及存储介质。
背景技术
大型服务器上往往配置了众多的服务器硬件设备,如处理器、内存条、硬盘、风扇、电源等,这些设备在配置规格、性能、使用时间、使用环境及老化程度方面存在较大差异,即使是同一类设备,健康状况也各不相同,而在传统的管理过程中,没有根据硬件设备的具体情况进行明确区分,往往直接混合使用高可用和低可用的硬件设备资源,从而引起服务器***性能降低、数据丢失、功耗增加等一系列问题。
在传统的服务器硬件设备管理和调控的过程中,统一管理方式往往会忽略硬件设备之间在规格、性能等方面的差异,混合使用健康状态差异较大的硬件设备。统一管理方式不能根据设备本身的各项状态信息合理地利用硬件设备资源,因此可能频繁使用可用性较低的设备,从而增加了设备故障、数据丢失、功耗增加等风险,大大降低了服务器***的可靠性和安全性。
发明内容
本申请实施例提供了一种服务器硬件管理方法、***、设备及存储介质,用以解决现有的服务器硬件设备统一管理方式无法合理利用所有的硬件设备,容易导致设备故障和数据丢失的技术问题。
一方面,本申请实施例提供了一种服务器硬件管理方法,所述方法包括:
获取所有服务器硬件设备的状态信息;
基于所述状态信息建立服务器硬件设备的健康状况评估模型;
基于所述健康状态评估模型确定各个服务器硬件设备的健康等级,并进行服务器固件OPAL和基板管理控制器BMC之间的信息交互,生成交互结果;
基于所述交互结果,生成服务器硬件设备的调控策略。
在本申请的一种实现方式中,所述服务器硬件设备的状态信息包括:硬件设备的故障信息、硬件设备的温度信息、硬件设备的性能信息以及硬件设备的使用时间信息。
在本申请的一种实现方式中,所述建立服务器硬件设备的健康状况评估模型的过程,具体为:
确定健康等级评估指标;其中,所述健康等级评估指标包括:设备实时温度、设备故障程度、设备读写速度、设备使用时间;
采集硬件设备的指标数据;
处理所述指标数据,构建神经网络模型;
基于所述指标数据训练所述神经网络模型,获取符合预期的权重参数,得到适用于服务器硬件设备健康等级评估的模型。
在本申请的一种实现方式中,所述处理所述指标数据的过程,具体为:
将采集到的指标数据等比例量化到1~10范围内,生成4维矩阵;
将服务器硬件设备的健康等级进行分级,将量化后的指标数据与各个健康等级进行一一对应。
在本申请的一种实现方式中,所述神经网络模型的训练过程,具体为:
设置神经网络的拓扑结构;其中,所述拓扑结构为4*6*6*5,输入层和输出层都是一层,隐含层为两层,输入节点数为4个神经元,输出节点数为5个神经元,每个隐含层节点数为6个神经元,隐含层的激活函数选取Relu函数,输出层激活函数为softmax函数;
对神经网络的权重取一组随机值,将4维特征矩阵作为神经网络的输入,计算神经网络的真实输出;
计算所有数据预测值与真实值之间的偏差,根据偏差调整各个权重值,直至误差率不超过预设阈值时,获取符合预期的权重参数。
在本申请的一种实现方式中,所述建立服务器硬件设备的健康状况评估模型之后,所述方法还包括:
基于所述健康状态评估模型确定硬件设备的健康等级信息;
将所述健康等级信息保存至服务器固件OPAL,并构建传感器的平台描述符记录;
将所述传感器的平台描述符记录发送给基板管理控制器进行解析,将解析出的健康登记信息保存。
在本申请的一种实现方式中,所述将所述传感器的平台描述符记录发送给基板管理控制器,是通过PLDM协议通信发送的。
本申请还提供了一种服务器硬件管理***,所述***包括:
信息获取单元,用于获取所有服务器硬件设备的状态信息;
模型建立单元,用于基于所述状态信息建立服务器硬件设备的健康状况评估模型;
交互单元,用于基于所述健康状态评估模型确定各个服务器硬件设备的健康等级,并进行服务器固件OPAL和基板管理控制器BMC之间的信息交互,生成交互结果;
策略生成单元,用于基于所述交互结果,生成服务器硬件设备的调控策略。
本申请还提供了一种服务器硬件管理设备,所述设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取所有服务器硬件设备的状态信息;
基于所述状态信息建立服务器硬件设备的健康状况评估模型;
基于所述健康状态评估模型确定各个服务器硬件设备的健康等级,并进行服务器固件OPAL和基板管理控制器BMC之间的信息交互,生成交互结果;
基于所述交互结果,生成服务器硬件设备的调控策略。
本申请还提供了一种服务器硬件管理的非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
获取所有服务器硬件设备的状态信息;
基于所述状态信息建立服务器硬件设备的健康状况评估模型;
基于所述健康状态评估模型确定各个服务器硬件设备的健康等级,并进行服务器固件OPAL和基板管理控制器BMC之间的信息交互,生成交互结果;
基于所述交互结果,生成服务器硬件设备的调控策略。
本申请实施例提供的一种服务器硬件管理方法、***、设备及存储介质,改变了现有的硬件设备管理方式忽视了设备之间在规格等方面的差异,统一作为可用性相同的设备来使用,对于由此引发的各种潜在风险,***缺少相应的调控策略,不能及时地规避风险。通过对每一个硬件设备进行健康状况评估,根据其健康级别确调控策略,降低***故障的风险,增强服务器***的可靠性和安全性;利用神经网络算法计算健康状况评估模型的参数,具有较强的自适应性,且便于计算机实现;通过PLDM协议来实现信息传输,传输效率高,平台管理更加灵活。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种服务器硬件管理方法流程图;
图2为本申请实施例提供的一种服务器硬件管理***组成图;
图3为本申请实施例提供的一种服务器硬件管理设备示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
大型服务器上往往配置了众多的服务器硬件设备,如处理器、内存条、硬盘、风扇、电源等,这些设备在配置规格、性能、使用时间、使用环境及老化程度方面存在较大差异,即使是同一类设备,健康状况也各不相同,而在传统的管理过程中,没有根据硬件设备的具体情况进行明确区分,往往直接混合使用高可用和低可用的硬件设备资源,从而引起服务器***性能降低、数据丢失、功耗增加等一系列问题。
PLDM(Platform Level Data Model,平台级数据模型)平台管理子***中引入PDR(Platform Descriptor Record,平台描述符记录)的概念,PDR提供了多种机制,不同的机制用于将不同的PLDM元素相互关联,其中传感器PDR提供了一种将传感器与实体相关联的机制。每个硬件设备是一个物理实体,一个实体上可以挂载多个传感器,分别监测其温度、电压等信息,使用PDR描述的每个传感器都有一个相应的传感器PDR,能够识别传感器与哪个实体相关联。
首先OpenPOWER服务器上的固件OPAL(OpenPOWER Abstraction Layer,PNOR组件)采集到服务器硬件设备的状态信息,基于设备状态信息和预先构建的健康评估模型计算出硬件设备的健康等级,根据硬件设备基本信息及其健康等级构建传感器PDR,通过PLDM协议命令的形式发送给BMC(Baseboard Management Controller,基板管理控制器),从而服务器***根据设备的健康等级信息执行相应的调控策略。
在传统的服务器硬件设备管理和调控的过程中,统一管理方式往往会忽略硬件设备之间在规格、性能等方面的差异,混合使用健康状态差异较大的硬件设备。统一管理方式不能根据设备本身的各项状态信息合理地利用硬件设备资源,因此可能频繁使用可用性较低的设备,从而增加了设备故障、数据丢失、功耗增加等风险,大大降低了服务器***的可靠性和安全性。
本申请实施例提供了一种服务器硬件管理方法、***、设备及存储介质,用以解决现有的服务器硬件设备统一管理方式无法合理利用所有的硬件设备,容易导致设备故障和数据丢失的技术问题。
本申请中提出的一种服务器硬件管理方法,是基于PLDM协议实现OpenPOWER服务器上的硬件设备管理的。每个硬件设备如处理器、硬盘、内存条、风扇、电源等都是一个物理实体,每个实体上挂载一个负责监测健康状况的传感器,服务器固件OPAL和基板管理控制器BMC通过PLDM协议完成通信过程。下面通过附图对本申请实施例提出的技术方案进行详细的说明。
图1为本申请实施例提供的一种服务器硬件管理方法流程图。如图1所示,该方法主要包括以下步骤:
步骤101、获取所有服务器硬件设备的状态信息。
在本申请实施例中,所述服务器硬件设备的状态信息包括:硬件设备的故障信息、硬件设备的温度信息、硬件设备的性能信息以及硬件设备的使用时间信息。
步骤102、基于所述状态信息建立服务器硬件设备的健康状况评估模型。
在本申请实施例中,首先确定健康等级评估指标;其中,所述健康等级评估指标包括:设备实时温度、设备故障程度、设备读写速度、设备使用时间。采集硬件设备的指标数据。其次,处理所述指标数据,构建神经网络模型。最后,基于所述指标数据训练所述神经网络模型,获取符合预期的权重参数,得到适用于服务器硬件设备健康等级评估的模型。
具体地,评估指标数据的采集要尽可能多地选取状态信息差异较大的内存条,采集内存条的健康等级评估指标数据,包括内存条的实时温度、故障检测工具检测到的故障严重程度、内存性能测试检测到的读写速度、内存条的实际使用时间。
需要说明的是,评估结果共包括5个健康等级,每个等级都有一套划分标准,由高到低为A、B、C、D、E,根据每组评估指标数据预测对应的健康等级。
本申请实施例中,进行指标数据预处理时首先将采集到的指标数据等比例量化到1~10范围内,生成4维矩阵。然后将服务器硬件设备的健康等级进行分级,将量化后的指标数据与各个健康等级进行一一对应。例如,实时温度50C量化为5,75C量化为7.5;使用时间10000小时量化为5,超过20000小时量化为10。内存条的健康等级分为五级,由高到低为A、B、C、D、E,根据每组评估指标数据预测对应的健康等级。
本申请实施例中,神经网络模型的构建及训练过程为:设置神经网络的拓扑结构;其中,所述拓扑结构为4*6*6*5,输入层和输出层都是一层,隐含层为两层,输入节点数为4个神经元,输出节点数为5个神经元,每个隐含层节点数为6个神经元,隐含层的激活函数选取Relu函数,输出层激活函数为softmax函数。对神经网络的权重取一组随机值,将4维特征矩阵作为神经网络的输入,计算神经网络的真实输出。计算所有数据预测值与真实值之间的偏差,根据偏差调整各个权重值,直至误差率不超过预设阈值时,获取符合预期的权重参数。
需要说明的是,故障检测工具检测到某个内存条没有发生故障,但是温度量化值超过5,或者使用时间量化值超过8且读写速度量化值小于5,则健康评估等级为D级,对应的输出为1,其他评估等级对应的输出为0。
步骤103、基于所述健康状态评估模型确定各个服务器硬件设备的健康等级,并进行服务器固件OPAL和基板管理控制器BMC之间的信息交互,生成交互结果。
在本申请实施例中,基于所述健康状态评估模型确定硬件设备的健康等级信息的过程为:
采集内存条的状态信息:OpenPOWER服务器开机启动,OPAL的状态信息采集模块采集服务器上所有在位内存条的状态信息。状态信息数据预处理:将采集到的多组内存状态信息数据预处理,每个数据等比例地量化到1~10范围内,适用于健康状况评估模型。评估模型计算健康等级:基于各组处理后的内存条状态信息数据,结合内存条的健康状况评估模型,计算出各个内存条的健康等级。
进一步地,将所述健康等级信息保存至服务器固件OPAL,并构建传感器的平台描述符记录。将所述传感器的平台描述符记录发送给基板管理控制器进行解析,将解析出的健康登记信息保存。
具体来说,服务器固件OPAL将每个内存条与其对应的健康等级信息保存到本地的硬件设备健康状况仓库。然后,服务器固件OPAL根据每个内存条及其下方挂载的健康状况监测传感器的对应关系,构建传感器平台描述符记录PDR。
本申请实施例中,服务器固件OPAL将传感器平台描述符记录PDR以PLDM命令的形式发送给基板管理控制器BMC。基板管理控制器BMC向服务器固件OPAL发送PLDM请求获取传感器的监测数据,服务器固件OPAL从硬件设备健康状况仓库种提取内存条的健康等级发送给基板管理控制器BMC,基板管理控制器BMC将内存条的健康状况信息保存到设备健康状况仓库。由此,服务器固件OPAL和基板管理控制器BMC双方共享了硬件设备的健康状况信息,以便后续用于***分析并制定硬件设备的调控策略。
步骤104、基于所述交互结果,生成服务器硬件设备的调控策略。
在本申请实施例中,根据交互结果***对各个硬件设备的健康等级进行分析,为设备调度、功耗管理策略的制定提供参考依据,并建立服务器所有硬件设备的统筹调度策略。
本申请实施例提供的一种服务器硬件管理方法,改变了现有的硬件设备管理方式忽视了设备之间在规格等方面的差异,统一作为可用性相同的设备来使用,对于由此引发的各种潜在风险,***缺少相应的调控策略,不能及时地规避风险。通过对每一个硬件设备进行健康状况评估,根据其健康级别确调控策略,降低***故障的风险,增强服务器***的可靠性和安全性;利用神经网络算法计算健康状况评估模型的参数,具有较强的自适应性,且便于计算机实现;通过PLDM协议来实现信息传输,传输效率高,平台管理更加灵活。
以上是本申请实施例提供的一种服务器硬件管理方法,基于同样的发明构思,本申请实施例还提供了一种服务器硬件管理***,图2为本申请实施例提供的一种服务器硬件管理***组成图,如图2所示,所述***主要包括:
信息获取单元201,用于获取所有服务器硬件设备的状态信息。
模型建立单元202,用于基于所述状态信息建立服务器硬件设备的健康状况评估模型。
交互单元203,用于基于所述健康状态评估模型确定各个服务器硬件设备的健康等级,并进行服务器固件OPAL和基板管理控制器BMC之间的信息交互,生成交互结果。
策略生成单元204,用于基于所述交互结果,生成服务器硬件设备的调控策略。
本申请实施例中,信息获取单元201主要采集用于健康等级评估指标的数据,当需要采集内存信息时,信息获取单元201采集的数据包括内存条的实时温度、故障检测工具检测到的故障严重程度、内存性能测试检测到的读写速度、内存条的实际使用时间。
本申请实施例中,模型建立单元202具体用来执行:设置神经网络的拓扑结构;其中,所述拓扑结构为4*6*6*5,输入层和输出层都是一层,隐含层为两层,输入节点数为4个神经元,输出节点数为5个神经元,每个隐含层节点数为6个神经元,隐含层的激活函数选取Relu函数,输出层激活函数为softmax函数。对神经网络的权重取一组随机值,将4维特征矩阵作为神经网络的输入,计算神经网络的真实输出。计算所有数据预测值与真实值之间的偏差,根据偏差调整各个权重值,直至误差率不超过预设阈值时,获取符合预期的权重参数。
交互单元203具体执行:服务器固件OPAL将每个内存条与其对应的健康等级信息保存到本地的硬件设备健康状况仓库。服务器固件OPAL根据每个内存条及其下方挂载的健康状况监测传感器的对应关系,构建传感器PDR。服务器固件OPAL将传感器PDR以PLDM命令的形式发送给基板管理控制器BMC。基板管理控制器BMC向服务器固件OPAL发送PLDM请求获取传感器的监测数据,服务器固件OPAL从硬件设备健康状况仓库种提取内存条的健康等级发送给基板管理控制器BMC,基板管理控制器BMC将内存条的健康状况信息保存到设备健康状况仓库。
本申请实施例提供的一种服务器硬件管理***,改变了现有的硬件设备管理方式忽视了设备之间在规格等方面的差异,统一作为可用性相同的设备来使用,对于由此引发的各种潜在风险,***缺少相应的调控策略,不能及时地规避风险。通过对每一个硬件设备进行健康状况评估,根据其健康级别确调控策略,降低***故障的风险,增强服务器***的可靠性和安全性;利用神经网络算法计算健康状况评估模型的参数,具有较强的自适应性,且便于计算机实现;通过PLDM协议来实现信息传输,传输效率高,平台管理更加灵活。
以上是本申请实施例提供的一种服务器硬件管理***,基于同样的发明构思,本申请实施例还提供了一种服务器硬件管理设备,图3为本申请实施例提供的一种服务器硬件管理设备示意图,如图3所示,该设备主要包括:至少一个处理器301;以及,与至少一个处理器通信连接的存储器302;其中,存储器302存储有可被至少一个处理器301执行的指令,指令被至少一个处理器301执行,以使至少一个处理器301能够完成:获取所有服务器硬件设备的状态信息;基于所述状态信息建立服务器硬件设备的健康状况评估模型;基于所述健康状态评估模型确定各个服务器硬件设备的健康等级,并进行服务器固件OPAL和基板管理控制器BMC之间的信息交互,生成交互结果;基于所述交互结果,生成服务器硬件设备的调控策略。
除此之外,本申请实施例还提供了一种服务器硬件管理的非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:获取所有服务器硬件设备的状态信息;基于所述状态信息建立服务器硬件设备的健康状况评估模型;基于所述健康状态评估模型确定各个服务器硬件设备的健康等级,并进行服务器固件OPAL和基板管理控制器BMC之间的信息交互,生成交互结果;基于所述交互结果,生成服务器硬件设备的调控策略。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种服务器硬件管理方法,其特征在于,所述方法包括:
获取所有服务器硬件设备的状态信息;
基于所述状态信息建立服务器硬件设备的健康状况评估模型;
基于所述健康状态评估模型确定各个服务器硬件设备的健康等级,并进行服务器固件OPAL和基板管理控制器BMC之间的信息交互,生成交互结果;
基于所述交互结果,生成服务器硬件设备的调控策略。
2.根据权利要求1所述的一种服务器硬件管理方法,其特征在于,所述服务器硬件设备的状态信息包括:硬件设备的故障信息、硬件设备的温度信息、硬件设备的性能信息以及硬件设备的使用时间信息。
3.根据权利要求1所述的一种服务器硬件管理方法,其特征在于,所述建立服务器硬件设备的健康状况评估模型的过程,具体为:
确定健康等级评估指标;其中,所述健康等级评估指标包括:设备实时温度、设备故障程度、设备读写速度、设备使用时间;
采集硬件设备的指标数据;
处理所述指标数据,构建神经网络模型;
基于所述指标数据训练所述神经网络模型,获取符合预期的权重参数,得到适用于服务器硬件设备健康等级评估的模型。
4.根据权利要求3所述的一种服务器硬件管理方法,其特征在于,所述处理所述指标数据的过程,具体为:
将采集到的指标数据等比例量化到1~10范围内,生成4维矩阵;
将服务器硬件设备的健康等级进行分级,将量化后的指标数据与各个健康等级进行一一对应。
5.根据权利要求3所述的一种服务器硬件管理方法,其特征在于,所述神经网络模型的训练过程,具体为:
设置神经网络的拓扑结构;其中,所述拓扑结构为4*6*6*5,输入层和输出层都是一层,隐含层为两层,输入节点数为4个神经元,输出节点数为5个神经元,每个隐含层节点数为6个神经元,隐含层的激活函数选取Relu函数,输出层激活函数为softmax函数;
对神经网络的权重取一组随机值,将4维特征矩阵作为神经网络的输入,计算神经网络的真实输出;
计算所有数据预测值与真实值之间的偏差,根据偏差调整各个权重值,直至误差率不超过预设阈值时,获取符合预期的权重参数。
6.根据权利要求1所述的一种服务器硬件管理方法,其特征在于,所述建立服务器硬件设备的健康状况评估模型之后,所述方法还包括:
基于所述健康状态评估模型确定硬件设备的健康等级信息;
将所述健康等级信息保存至服务器固件OPAL,并构建传感器的平台描述符记录;
将所述传感器的平台描述符记录发送给基板管理控制器进行解析,将解析出的健康登记信息保存。
7.根据权利要求6所述的一种服务器硬件管理方法,其特征在于,所述将所述传感器的平台描述符记录发送给基板管理控制器,是通过PLDM协议通信发送的。
8.一种服务器硬件管理***,其特征在于,所述***包括:
信息获取单元,用于获取所有服务器硬件设备的状态信息;
模型建立单元,用于基于所述状态信息建立服务器硬件设备的健康状况评估模型;
交互单元,用于基于所述健康状态评估模型确定各个服务器硬件设备的健康等级,并进行服务器固件OPAL和基板管理控制器BMC之间的信息交互,生成交互结果;
策略生成单元,用于基于所述交互结果,生成服务器硬件设备的调控策略。
9.一种服务器硬件管理设备,其特征在于,所述设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取所有服务器硬件设备的状态信息;
基于所述状态信息建立服务器硬件设备的健康状况评估模型;
基于所述健康状态评估模型确定各个服务器硬件设备的健康等级,并进行服务器固件OPAL和基板管理控制器BMC之间的信息交互,生成交互结果;
基于所述交互结果,生成服务器硬件设备的调控策略。
10.一种服务器硬件管理的非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:
获取所有服务器硬件设备的状态信息;
基于所述状态信息建立服务器硬件设备的健康状况评估模型;
基于所述健康状态评估模型确定各个服务器硬件设备的健康等级,并进行服务器固件OPAL和基板管理控制器BMC之间的信息交互,生成交互结果;
基于所述交互结果,生成服务器硬件设备的调控策略。
CN202310300829.2A 2023-03-24 2023-03-24 一种服务器硬件管理方法、***、设备及存储介质 Pending CN116450451A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310300829.2A CN116450451A (zh) 2023-03-24 2023-03-24 一种服务器硬件管理方法、***、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310300829.2A CN116450451A (zh) 2023-03-24 2023-03-24 一种服务器硬件管理方法、***、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116450451A true CN116450451A (zh) 2023-07-18

Family

ID=87131322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310300829.2A Pending CN116450451A (zh) 2023-03-24 2023-03-24 一种服务器硬件管理方法、***、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116450451A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116744321A (zh) * 2023-08-11 2023-09-12 中维建技术有限公司 一种用于5g通信智能运维一体化平台的数据调控方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116744321A (zh) * 2023-08-11 2023-09-12 中维建技术有限公司 一种用于5g通信智能运维一体化平台的数据调控方法
CN116744321B (zh) * 2023-08-11 2023-11-14 中维建技术有限公司 一种用于5g通信智能运维一体化平台的数据调控方法

Similar Documents

Publication Publication Date Title
EP3557819B1 (en) Server failure detection method and system
US11757982B2 (en) Performing load balancing self adjustment within an application environment
CN108418841B (zh) 基于ai的下一代关键信息基础设施网络安全态势感知***
CN104809051B (zh) 用于预测计算机应用中的异常和故障的方法和装置
CN109144724A (zh) 一种微服务资源调度***及方法
WO2019011015A1 (zh) 一种进行业务调度的方法和装置
CN108075906A (zh) 一种用于云计算数据中心的管理方法及***
JP2013510545A5 (zh)
KR20180108446A (ko) Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법
CN110502431B (zh) ***服务评测方法、装置及电子设备
Zadeh et al. Qos monitoring for web services by time series forecasting
CN116361377B (zh) 基于工业物联网服务平台的负载预测***、方法及介质
CN109194534B (zh) 面向物联网设备群体的调度与管理方法
CN116450451A (zh) 一种服务器硬件管理方法、***、设备及存储介质
CN114422325A (zh) 内容分发网络异常定位方法、装置、设备及存储介质
CN112700131B (zh) 基于人工智能的ab测试方法、装置、计算机设备及介质
CN111124830B (zh) 一种微服务的监控方法及装置
CN108334427B (zh) 存储***中的故障诊断方法及装置
WO2016155996A1 (en) Production system and method for controlling same
CN113487086B (zh) 设备剩余使用寿命预测方法、装置、计算机设备和介质
CN103389690B (zh) 监控***、监控子***、监控节点设备、控制中心设备
CN108023740A (zh) 监控中异常信息的风险提示方法和装置
KR20160044623A (ko) 리눅스 가상 서버의 로드 밸런싱 방법
KR101636141B1 (ko) 전력설비 고유번호 관리 장치 및 방법
US20210216934A1 (en) Managing flexible grid resources

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination