CN116627770B - 网卡温度预测方法、装置、计算机设备及存储介质 - Google Patents

网卡温度预测方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN116627770B
CN116627770B CN202310878390.1A CN202310878390A CN116627770B CN 116627770 B CN116627770 B CN 116627770B CN 202310878390 A CN202310878390 A CN 202310878390A CN 116627770 B CN116627770 B CN 116627770B
Authority
CN
China
Prior art keywords
network card
temperature
target network
target
preset value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310878390.1A
Other languages
English (en)
Other versions
CN116627770A (zh
Inventor
张加书
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202310878390.1A priority Critical patent/CN116627770B/zh
Publication of CN116627770A publication Critical patent/CN116627770A/zh
Application granted granted Critical
Publication of CN116627770B publication Critical patent/CN116627770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明涉及服务器技术领域,公开了网卡温度预测方法、装置、计算机设备及存储介质,网卡温度预测方法包括为目标网卡创建目标对象,为目标网卡开启目标定时器,定时器用于轮询目标网卡的动态信息,动态信息包括目标网卡的温度数据;判断基本输入输出***是否自检完成;若完成,获取目标网卡的温度数据,温度数据包括多个预设时间间隔分别对应的多个温度;目标网卡为服务器网卡;加载训练完成的多层感知器模型;将温度数据输入至训练完成的多层感知器模型,得到预测温度;根据预测温度,确定目标网卡的告警状态。本发明通过多层感知器模型预测网卡的温度,准确率高,根据预测温度,得到目标网卡的告警状态,满足告警的需求。

Description

网卡温度预测方法、装置、计算机设备及存储介质
技术领域
本发明涉及服务器技术领域,具体涉及网卡温度预测方法、装置、计算机设备及存储介质。
背景技术
在信息化时代,随着物联网技术的发展与成熟,高速数据运行、高效数据处理与数据安全存储的技术需求日趋庞大,对服务器技术的要求也越来越高,高性能运算服务器在信息化时代担任着不可或缺的角色,优化高性能运算服务器工作十分重要。
基板管理控制器(Baseboard Management Controller,BMC)是服务器的核心单元,是一个在进阶精简指令集机器(Advanced RISC Machine,ARM)架构上用来管理服务器的主板处理器,开放式基板管理控制器(open BMC)是一个用来构建完整BMC的专用Linux***映像的开源软件架构。open BMC相对于传统的BMC开发有着模块化编程、模块化调试、异步方案管理等优势,在服务器领域,BMC作为核心部件在服务器的整机性能、功耗、日志、监控等健康状态方面的检测发挥着巨大的作用,随着科技的进步,对数据中心的计算密度、资源调度、自主可控等多方面,提出了新的要求,所以网卡监控与管理在服务器应用于开发中显得尤为重要。
传统open BMC网卡监控通常包括网卡驱动程序、自定义协议库程序、网卡监控模块程序、***监控工具、日志记录、为网络提供上层redfish(红鱼)接口。传统的open BMC网卡监控方法准确率较低,实时性较差,对于复杂的***和环境变化,无法根据实时温度预测出网卡温度,进而可能无法满足告警的需求。
发明内容
有鉴于此,本发明提供了一种网卡温度预测方法、装置、计算机设备及存储介质,以解决无法根据实时温度预测出网卡温度的问题。
第一方面,本发明提供了一种网卡温度预测方法,包括:为目标网卡创建目标对象,目标对象用于判断目标网卡的类型以及显示目标网卡的静态信息,以根据目标网卡的类型和静态信息对目标网卡进行身份识别;为目标网卡开启目标定时器,定时器用于轮询目标网卡的动态信息,动态信息包括目标网卡的温度数据;判断基本输入输出***是否自检完成;若基本输入输出***自检完成,获取目标网卡的温度数据,温度数据包括多个预设时间间隔分别对应的多个温度;目标网卡为服务器网卡;加载训练完成的多层感知器模型;将温度数据输入至训练完成的多层感知器模型,得到预测温度;根据预测温度,确定目标网卡的告警状态。
有益效果:本发明首先为目标网卡创建目标对象,目标对象用于判断目标网卡的类型以及显示目标网卡的静态信息,以根据目标网卡的类型和静态信息对目标网卡进行身份识别,使得明确得到的预测温度是哪个网卡的温度。为目标网卡开启目标定时器,定时器用于轮询目标网卡的动态信息,动态信息包括目标网卡的温度数据,通过定时器实现每预设时间间隔检测一次目标网卡的温度数据。判断基本输入输出***是否自检完成,基本输入输出***自检完成,说明***完成将目标网卡的动态信息的上报,才可获取动态信息中的温度数据。
加载训练完成的多层感知器模型,通过获取目标网卡的温度数据,将目标网卡的温度数据输入至训练完成的多层感知器模型,得到预测温度,实现对服务器网卡的温度预测,根据预测温度,确定目标网卡的告警状态,本发明通过预测温度,确定服务器网卡的告警状态,本发明与相关技术中通过采用异步方式采集基本的性能数据来判断***的告警状态相比,避免了数据传送的过程中异常情况改变的状况发生,准确率更高,对于复杂的***和环境变化,根据实时温度预测出网卡温度,进而满足告警的需求。
在一种可选的实施方式中,在为目标网卡创建目标对象之前,方法还包括:创建目标网卡的输入输出端口、连接口以及服务名;判断目标服务器是否开机;若目标服务器开机,则获取基本输入输出***的资产信息。
有益效果:创建目标网卡的输入输出端口、连接口以及服务名是为了创建一个可实现异步通信的监控进程,在此服务上可实现目标网卡的信息展示,将监控到的目标网卡的信息展示,可实现监控信息的可视化。
在一种可选的实施方式中,在判断基本输入输出***是否自检完成之后,方法还包括:创建服务名,用于根据服务名确定用于监控目标网卡温度的服务。
有益效果:为服务创建服务名,一个服务器对应多个服务,为用于监控目标网卡温度的服务创建服务名,以便于找到用于监控目标网卡温度的服务。
在一种可选的实施方式中,在创建服务名之后,方法还包括:在用于监控目标网卡温度的服务上添加接口,接口用于获取目标网卡的静态信息和动态信息。
有益效果:在用于监控目标网卡温度的服务上添加接口,接口连接目标网卡的静态信息和动态信息,以便在需要获取目标网卡静态信息和动态信息时,通过接口获取目标网卡静态信息和动态信息。
在一种可选的实施方式中,目标网卡的静态信息包括网卡的版本信息、网卡资产信息、网卡连接状态信息以及网络媒体存取控制位址。
在一种可选的实施方式中,将预测温度与第一预设值以及第二预设值进行比较,并根据比较的结果确定预测温度的告警状态。
有益效果:得到预测温度后,将预测温度与第一预设值以及第二预设值进行比较,从而根据比较结果得到预测温度的告警状态,对网卡温度进行告警,以采取应对措施。
在一种可选的实施方式中,若预测温度大于或等于第一预设值,则判定预测温度的告警状态为第一告警状态;若预测温度大于或等于第二预设值,且小于第一预设值,则判定预测温度的告警状态为第二告警状态;若预测温度小于第二预设值,则判定预测温度的告警状态为第三告警状态;第一预设值大于第二预设值。
在一种可选的实施方式中,第一告警状态的告警程度大于第二告警状态的告警程度,且第二告警状态的告警程度大于第三告警状态的告警程度。
有益效果:若目标网卡的预测温度大于或等于第一预设值,说明目标网卡的温度过高,因此判定预测温度的告警状态为第一告警状态,以警示目标网卡的温度过高,需要进行降温处理。若目标网卡的预测温度大于或等于第二预设值,且小于第一预设值,说明目标网卡的温度较高,因此判定预测温度的告警状态为第二告警状态,以警示目标网卡的温度较高,需要进行降温处理。若目标网卡的预测温度小于第二预设值,说明目标网卡的预测温度不高,因此判定预测温度的告警状态为第三告警状态,无需对目标网卡进行告警。
在一种可选的实施方式中,训练多层感知器模型的过程,包括:获取网卡的温度训练数据集,温度训练数据集包括网卡温度和时间;对温度训练数据集进行标注;将标注完成的温度训练数据集分为训练集和测试集;构建多层感知器模型,多层感知器模型包括输入层、多个隐藏层以及输出层;将训练集输入多层感知器模型,对多层感知器模型进行训练;将测试集输入多层感知器模型,对多层感知器模型进行评估;保存训练完成的多层感知器模型。
在一种可选的实施方式中,获取网卡的网卡温度和时间;将网卡的网卡温度和时间写入数据文件中;将数据文件作为温度训练数据集。
有益效果:数据文件用于为模型训练提供数据支撑,因此将网卡的网卡温度和时间写入数据文件中,以将数据文件作为温度训练数据集。
在一种可选的实施方式中,为温度训练数据集中的各网卡温度分配对应的标签。
在一种可选的实施方式中,若网卡温度大于或等于第一预设值,为网卡温度分配第一标签;若网卡温度小于第一预设值,且大于或等于第二预设值,为网卡温度分配第二标签;若网卡温度小于第二预设值,为网卡温度分配第三标签,第一预设值大于第二预设值。
在一种可选的实施方式中,第一标签的告警程度大于第二标签的告警程度,且第二标签的告警程度大于第三标签的告警程度。
有益效果:模型训练时,为温度训练数据集中的各网卡温度分配对应的标签,若网卡温度大于或等于第一预设值,说明目标网卡的温度过高,为网卡温度分配第一标签,以标记网卡温度过高,需进行降温处理。若网卡温度小于第一预设值,且大于或等于第二预设值,说明目标网卡的温度较高,需进行降温处理。若网卡温度小于第二预设值,说明目标网卡的温度不高,为网卡温度分配第三标签,以标记网卡温度不高,无需进行告警。
在一种可选的实施方式中,加载温度训练数据集;对温度训练数据集进行归一化处理;确定模型算法参数以及损失函数。
在一种可选的实施方式中,将测试集输入多层感知器模型,得到预测结果;将预测结果与实际结果进行比对,得到比对结果;根据比对结果对多层感知器模型进行评估。
有益效果:对多层感知器模型进行评估,可得知多层感知器模型的准确性和稳定性。
在一种可选的实施方式中,多层感知器模型采用两层全连接网络,两层全连接网络包括:
其中,为输入网卡温度,/>为第一权重,/>为第二权重,/>为第一偏置,/>为第二偏置,/>为预测温度。
有益效果:公式中的为第一权重,/>为第二权重,第一权重和第二权重的大小表示可能性的大小,权重可以手动设定也可以通过反向传播算法自动设定。通过计算每一权重参数,可以了解整个神经网络的整体表现,从而使预测结果更准确,通过两层全连接网络不断训练,根据实际输出与期望输出的差值调整权重,判断训练输出结果和期望输出结果是否相同,若相同则取得最优权重,根据最优权重即可得到最准确的预测温度。
在一种可选的实施方式中,方法还包括对目标网卡的监控过程;监控目标网卡,包括:创建监控目标网卡的输入输出端口、连接口以及服务名;判断目标服务器是否开机;若目标服务器开机,则获取基本输入输出***的资产信息;获取目标网卡的设备信息;为目标网卡创建目标对象,目标对象用于判断目标网卡的类型以及显示目标网卡的静态信息,以根据目标网卡的类型和静态信息对目标网卡进行身份识别;为目标网卡开启目标定时器,定时器用于轮询目标网卡的动态信息,动态信息包括目标网卡的温度数据;判断基本输入输出***是否自检完成;若基本输入输出***自检完成,创建服务名,用于根据服务名确定用于监控目标网卡温度的服务;在用于监控目标网卡温度的服务上添加接口,接口用于获取目标网卡的静态信息和动态信息。
有益效果:本发明创建监控目标网卡的输入输出端口、连接口以及服务名,是为了创建一个可实现异步通信的监控进程,在此服务上可实现目标网卡的信息展示,将监控到的目标网卡的信息展示,可实现监控信息的可视化。判断目标服务器是否开机,只有开机才能获取基本输入输出***的资产信息。获取目标网卡的设备信息,以将目标设备和其他设备作区分。为目标网卡创建目标对象,目标对象用于判断目标网卡的类型以及显示目标网卡的静态信息,以根据目标网卡的类型和静态信息对目标网卡进行身份识别,使得明确得到的预测温度是哪个网卡的温度。为目标网卡开启目标定时器,定时器用于轮询目标网卡的动态信息,动态信息包括目标网卡的温度数据,通过定时器实现每预设时间间隔检测一次目标网卡的温度数据。判断基本输入输出***是否自检完成,基本输入输出***自检完成,说明***完成将目标网卡的动态信息的上报,才可获取动态信息中的温度数据。若基本输入输出***自检完成,创建服务名,用于根据服务名确定用于监控目标网卡温度的服务,若基本输入输出***自检完成,创建服务名,用于根据服务名确定用于监控目标网卡温度的服务。在用于监控目标网卡温度的服务上添加接口,接口用于获取目标网卡的静态信息和动态信息,在用于监控目标网卡温度的服务上添加接口,接口连接目标网卡的静态信息和动态信息,以便在需要获取目标网卡静态信息和动态信息时,通过接口获取目标网卡静态信息和动态信息。
第二方面,本发明提供了一种网卡温度预测装置,包括:目标对象创建模块,用于为目标网卡创建目标对象,目标对象用于判断目标网卡的类型以及显示目标网卡的静态信息,以根据目标网卡的类型和静态信息对目标网卡进行身份识别;目标定时器开启模块,用于为目标网卡开启目标定时器,定时器用于轮询目标网卡的动态信息,动态信息包括目标网卡的温度数据;判断模块,用于判断基本输入输出***是否自检完成;数据获取模块,用于若基本输入输出***自检完成,获取目标网卡的温度数据,温度数据包括多个预设时间间隔分别对应的多个温度;目标网卡为服务器网卡;模型加载模块,用于加载训练完成的多层感知器模型;预测模块,用于将温度数据输入至训练完成的多层感知器模型,得到预测温度;告警状态确认模块,用于根据预测温度,确定目标网卡的告警状态。
有益效果:本发明首先目标对象创建模块为目标网卡创建目标对象,目标对象用于判断目标网卡的类型以及显示目标网卡的静态信息,以根据目标网卡的类型和静态信息对目标网卡进行身份识别,使得明确得到的预测温度是哪个网卡的温度。目标定时器开启模块为目标网卡开启目标定时器,定时器用于轮询目标网卡的动态信息,动态信息包括目标网卡的温度数据,通过定时器实现每预设时间间隔检测一次目标网卡的温度数据。判断模块判断基本输入输出***是否自检完成,基本输入输出***自检完成,说明***完成将目标网卡的动态信息的上报,才可获取动态信息中的温度数据。数据获取模块获取目标网卡的温度数据,模型加载模块,用于加载训练完成的多层感知器模型,预测模块将目标网卡的温度数据输入至训练完成的多层感知器模型,得到预测温度,实现对服务器网卡的温度预测,告警状态确定模块根据预测温度,得到目标网卡的告警状态,本发明通过预测温度,得到服务器网卡的告警状态,本发明与相关技术中通过采用异步方式采集并记录一些基本的性能数据来判断***的运行状况和异常情况相比,避免了数据传送的过程中异常情况改变的状况发生,准确率更高,对于复杂的***和环境变化,根据实时温度预测出网卡温度,进而满足告警的需求。
第三方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的网卡温度预测方法。
第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的网卡温度预测方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的网卡温度预测方法的流程示意图;
图2是根据本发明实施例的另一网卡温度预测方法的流程示意图;
图3是根据本发明实施例的训练多层感知器模型的流程示意图;
图4是根据本发明实施例的风扇调节方法的流程示意图;
图5是根据本发明实施例的监控目标网卡的流程示意图;
图6是根据本发明实施例的网卡温度预测装置的结构框图;
图7是本发明实施例的计算机设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种网卡温度预测方法,通过将温度数据输入至训练完成的多层感知器模型以达到温度预测的效果。
服务器网卡的温度过高会对服务器造成一些损坏,首先,会降低服务器性能,服务器网卡的温度过热会导致服务器运行效率降低,并可能导致性能下降。高温会影响服务器组件(如 中央处理器、内存和存储设备)的性能,从而导致响应时间变慢和吞吐量下降。其次,会造成***不稳定和故障:过热会使服务器不稳定并导致意外的***崩溃或关机。这可能会导致服务中断、数据丢失并可能损坏硬件组件。再次,会造成硬件损坏,长时间高温会对服务器的硬件组件造成永久性损坏。热量会使敏感的电子电路退化,缩短组件的使用寿命,并增加硬件故障的可能性。最后,甚至会有火灾隐患,在极端情况下,服务器网卡过热与电气故障或冷却***不足等其他因素相结合可能会给服务器存放地造成火灾隐患,这对设备和附近人员的安全构成重大风险。
相关技术中,通过实时对服务器网卡的温度进行监控,以获得服务器网卡的温度,当服务器网卡温度过高时,及时实施响应措施,这种方法虽然简单,但是当监控到实时的温度,温度过高的情况下,再对服务器网卡进行降温处理,可能服务器已经由于温度过高造成了损坏,因此,相关技术中的方法实时性较差,无法在即将温度过高的情况下进行告警,无法避免对服务器网卡的损坏。
根据本发明实施例,提供了一种网卡温度预测方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种网卡温度预测方法,可用于上述的服务器网卡,图1是根据本发明实施例的网卡温度预测方法的流程图,如图1所示,该流程包括如下步骤:
步骤S101,为目标网卡创建目标对象,目标对象用于判断目标网卡的类型以及显示目标网卡的静态信息,以根据目标网卡的类型和静态信息对目标网卡进行身份识别。
其中,网卡的类型包括开放计算项目(OpenComputeProject,OCP)网卡和***组件快速互连(PeripheralComponentInterconnectExpress,PCIe)网卡。
在一些可选的实施方式中,目标网卡的静态信息包括:网卡的版本信息、网卡资产信息、网卡连接状态信息以及网络媒体存取控制位址。
判断目标网卡的类型,获取目标网卡的静态信息,以根据目标网卡的类型和静态信息对目标网卡进行身份识别,使得明确得到的预测温度是哪个网卡的温度。
步骤S102,为目标网卡开启目标定时器,定时器用于轮询目标网卡的动态信息,动态信息包括目标网卡的温度数据。
动态信息包括:网卡温度、健康状态、光模块温度等。
步骤S103,判断基本输入输出***是否自检完成。
步骤S104,若基本输入输出***自检完成,获取目标网卡的温度数据,温度数据包括多个预设时间间隔分别对应的多个温度;目标网卡为服务器网卡。
其中,持续监控目标网卡的温度数据,每隔预设时间间隔采集一次目标网卡的温度数据,将采集到的温度数据保存,温度数据中还包括获取到的温度对应的时间。
示例性地,每隔1min采集一次目标网卡的温度数据。
步骤S105,加载训练完成的多层感知器模型。
步骤S106,将温度数据输入至训练完成的多层感知器模型,得到预测温度。
其中,将多个预设时间间隔分别对应的多个温度数据输入至训练完成的多层感知器模型,得到多个预设时间间隔分别对应的多个温度数据的预测温度。
各预测温度为多个预设时间间隔分别对应的多个温度数据的预设时间后的温度,示例性地,预测温度为某温度数据的5分钟后的温度。
步骤S107,根据预测温度,确定目标网卡的告警状态。
在一些可选的实施方式中,将预测温度与第一预设值以及第二预设值进行比较,并根据比较的结果确定预测温度的告警状态。
在一些可选的实施方式中,若预测温度大于或等于第一预设值,则判定预测温度的告警状态为第一告警状态;若预测温度大于或等于第二预设值,且小于第一预设值,则判定预测温度的告警状态为第二告警状态;若预测温度小于第二预设值,则判定预测温度的告警状态为第三告警状态;第一预设值大于第二预设值。
在一些可选的实施方式中,第一告警状态的告警程度大于第二告警状态的告警程度,且第二告警状态的告警程度大于第三告警状态的告警程度。
若目标网卡的预测温度大于或等于第一预设值,说明目标网卡的温度过高,因此判定预测温度的告警状态为第一告警状态,以警示目标网卡的温度过高,需要进行降温处理。若目标网卡的预测温度大于或等于第二预设值,且小于第一预设值,说明目标网卡的温度较高,因此判定预测温度的告警状态为第二告警状态,以警示目标网卡的温度较高,需要进行降温处理。若目标网卡的预测温度小于第二预设值,说明目标网卡的预测温度不高,因此判定预测温度的告警状态为第三告警状态,无需对目标网卡进行告警。
本实施例提供的网卡温度预测方法,首先为目标网卡创建目标对象,目标对象用于判断目标网卡的类型以及显示目标网卡的静态信息,以根据目标网卡的类型和静态信息对目标网卡进行身份识别,使得明确得到的预测温度是哪个网卡的温度。为目标网卡开启目标定时器,定时器用于轮询目标网卡的动态信息,动态信息包括目标网卡的温度数据,通过定时器实现每预设时间间隔检测一次目标网卡的温度数据。判断基本输入输出***是否自检完成,基本输入输出***自检完成,说明***完成将目标网卡的动态信息的上报,才可获取动态信息中的温度数据。加载训练完成的多层感知器模型,通过获取目标网卡的温度数据,将目标网卡的温度数据输入至训练完成的多层感知器模型,得到预测温度,实现对服务器网卡的温度预测,根据预测温度,确定目标网卡的告警状态,本发明通过预测温度,确定服务器网卡的告警状态,本发明与相关技术中通过采用异步方式采集基本的性能数据来判断***的告警状态相比,避免了数据传送的过程中异常情况改变的状况发生,准确率更高,对于复杂的***和环境变化,根据实时温度预测出网卡温度,进而满足告警的需求。
本发明基于神经网络的预测温度可以通过自动化和智能化,减少对人工干预和维护的成本,提高效率和效益。
在本实施例中提供了一种网卡温度预测方法,可用于上述的服务器网卡,图2是根据本发明实施例的另一网卡温度预测方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,为目标网卡创建目标对象,目标对象用于判断目标网卡的类型以及显示目标网卡的静态信息,以根据目标网卡的类型和静态信息对目标网卡进行身份识别。详细请参见图1所示实施例的步骤S101,在此不再赘述。
在一可选的实施方式中,在为目标网卡创建目标对象之前,方法还包括:创建目标网卡的输入输出端口、连接口以及服务名;判断目标服务器是否开机;若目标服务器开机,则获取基本输入输出***的资产信息。
其中,创建目标网卡的输入输出端口(io)、连接口(conn)以及服务名(serve),是为了创建一个可实现异步通信的监控进程,在此服务上可实现目标网卡的信息展示,将监控到的目标网卡的信息展示,可实现监控信息的可视化。
步骤S202,为目标网卡开启目标定时器,定时器用于轮询目标网卡的动态信息,动态信息包括目标网卡的温度数据。详细请参见图1所示实施例的步骤S102,在此不再赘述。
步骤S203,判断基本输入输出***是否自检完成。详细请参见图1所示实施例的步骤S103,在此不再赘述。
在一可选的实施方式中,在判断基本输入输出***是否自检完成之后,方法还包括:创建服务名,用于根据服务名确定用于监控目标网卡温度的服务。
本发明实施例中,为服务创建服务名,一个服务器对应多个服务,为用于监控目标网卡温度的服务创建服务名,以便于找到用于监控目标网卡温度的服务。
在一可选的实施方式中,在创建服务名之后,方法是包括:在用于监控目标网卡温度的服务上添加接口,接口用于获取目标网卡的静态信息和动态信息。
本发明实施例中,在用于监控目标网卡温度的服务上添加接口,接口连接目标网卡的静态信息和动态信息,以便在需要获取目标网卡静态信息和动态信息时,通过接口获取目标网卡静态信息和动态信息。
步骤S204,若基本输入输出***自检完成,获取目标网卡的温度数据,温度数据包括多个预设时间间隔分别对应的多个温度;目标网卡为服务器网卡。详细请参见图1所示实施例的步骤S104,在此不再赘述。
步骤S205,加载训练完成的多层感知器模型。详细请参见图1所示实施例的步骤S105,在此不再赘述。
步骤S206,将温度数据输入至训练完成的多层感知器模型,得到预测温度。详细请参见图1所示实施例的步骤S106,在此不再赘述。
步骤S207,根据预测温度,确定目标网卡的告警状态。详细请参见图1所示实施例的步骤S107,在此不再赘述。
具体地,上述步骤S207包括:
步骤S2071,将预测温度与第一预设值以及第二预设值进行比较,并根据比较的结果确定预测温度的告警状态。
示例性地,第一预设值可以为100℃,第二预设值可以为60℃。
在一些可选的实施方式中,若预测温度大于或等于第一预设值,则判定预测温度的告警状态为第一告警状态;若预测温度大于或等于第二预设值,且小于第一预设值,则判定预测温度的告警状态为第二告警状态;若预测温度小于第二预设值,则判定预测温度的告警状态为第三告警状态;第一预设值大于第二预设值。
在一些可选的实施方式中,第一告警状态的告警程度大于第二告警状态的告警程度,且第二告警状态的告警程度大于第三告警状态的告警程度。
示例性地,第一告警状态为严重告警,第二告警状态为提示告警,第三告警状态为不告警。
若目标网卡的预测温度大于或等于第一预设值,说明目标网卡的温度过高,因此判定预测温度的告警状态为第一告警状态,以警示目标网卡的温度过高,需要进行降温处理。若目标网卡的预测温度大于或等于第二预设值,且小于第一预设值,说明目标网卡的温度较高,因此判定预测温度的告警状态为第二告警状态,以警示目标网卡的温度较高,需要进行降温处理。若目标网卡的预测温度小于第二预设值,说明目标网卡的预测温度不高,因此判定预测温度的告警状态为第三告警状态,无需对目标网卡进行告警。
在本实施例中提供了一种网卡温度预测方法,可用于上述的服务器网卡,图3是根据本发明实施例的训练多层感知器模型的流程图,如图3所示,该流程包括如下步骤:
步骤S301,获取网卡的温度训练数据集,温度训练数据集包括网卡温度和时间。
具体地,上述步骤S301包括,获取网卡的网卡温度和时间;将网卡的网卡温度和时间写入数据文件中;将数据文件作为温度训练数据集。
数据文件用于为模型训练提供数据支撑,因此将网卡的网卡温度和时间写入数据文件中,以将数据文件作为温度训练数据集。
步骤S302,对温度训练数据集进行标注。
在一些可选的实施方式中,对温度训练数据集进行标注的方法为,为温度训练数据集中的各网卡温度分配对应的标签。
在一些可选的实施方式中,若网卡温度大于或等于第一预设值,为网卡温度分配第一标签;若网卡温度小于第一预设值,且大于或等于第二预设值,为网卡温度分配第二标签;若网卡温度小于第二预设值,为网卡温度分配第三标签,第一预设值大于第二预设值。
在一些可选的实施方式中,第一标签的告警程度大于第二标签的告警程度,且第二标签的告警程度大于第三标签的告警程度。
模型训练时,为温度训练数据集中的各网卡温度分配对应的标签,若网卡温度大于或等于第一预设值,说明目标网卡的温度过高,为网卡温度分配第一标签,以标记网卡温度过高,需进行降温处理。若网卡温度小于第一预设值,且大于或等于第二预设值,说明目标网卡的温度较高,需进行降温处理。若网卡温度小于第二预设值,说明目标网卡的温度不高,为网卡温度分配第三标签,以标记网卡温度不高,无需进行告警。
在对温度训练数据集进行标注之前,对温度数据进行预处理,以便用于训练多层感知器模型。
预处理包括数据清洗、异常值处理、标准化或归一化等操作,以确保温度数据的质量和可训练性。
数据清洗指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。
异常值处理的方法包括删除异常值、替换异常值、分箱处理(将异常值转化为正常值)以及使用模型处理。
对温度训练数据集进行标注,即为每个温度样本分配一个相应的标签,示例性地,若温度大于或等于第一预设值,则将该温度标记为第一告警状态;若预测温度大于或等于第二预设值,且小于第一预设值,则将该温度标记为第二告警状态;若预测温度小于第二预设值,则将该温度标记为第三告警状态,第一预设值大于第二预设值。
步骤S303,将标注完成的温度训练数据集分为训练集和测试集。
训练集用于训练多层感知器模型,测试集用于评估多层感知器模型的性能和泛化能力。
步骤S304,构建多层感知器模型,多层感知器模型包括输入层、多个隐藏层以及输出层。
多层感知器模型是一个人工神经网络,用感知机解决线性不可分问题,感知机模型加激活函数(把线性转化为非线性),把感知机的输出,输入到激活函数中,使其变成非线性。常用的激活函数为ReLU max(0, x)激活函数,不存在梯度消失,丢掉不重要的特征,运算简单,收敛速度快,更符合生物神经网络激活机制。激活函数的主要目的就是不断约束引导输入走向需要的目标。
在一些可选的实施方式中,可通过调整隐藏层的神经元数量和层数来控制模型的复杂度。
多层感知器模型采用全连接神经网络进行训练,分为前向传播、后向传播两个过程,前向传播数据沿输入到输出后计算损失函数值,后向传播则是一个优化过程,利用梯度下降法减小前向传播产生的损失函数值,从而优化、更新参数。
在一些可选的实施方式中,在将训练集输入多层感知器模型,对多层感知器模型进行训的步骤之前,加载温度训练数据集;对温度训练数据集进行归一化处理;确定模型算法参数以及损失函数。
发明采用两层全连接网络,层间激活函数为RuLE,最后一层的激活函数为SoftMax,输入数据是一个3维向量,隐藏层有4个结点,意味着通过线性映射将3维向量映射为一个4维向量,最后再变为一个3维向量输出。
在一些可选的实施方式中,加载温度训练数据集为加载获取到的网卡的温度训练数据集。
确定模型算法参数以及损失函数,示例性地,adam算法参数采用keras默认的公开参数,损失函数采用交叉熵损失函数。
将输出结果输入到了softmax激活函数中得到样本的概率分布,再用交叉熵损失函数度量分类器预算分布和真实分布之间的误差,进而提升预测准确率。方案采用one-hot一位有效编码将上述预测值与真实分布进行比较,衡量真实值与模型预测值之间的差异。再使用梯度下降法反向传播,反向传播从后往前传递梯度,得到新计算出来的权重,主要作用是根据前向传播得到的损失值优化权重,使输出的损失函数越来越小,网络预测值更加精准。
在一些可选的实施方式中,多层感知器模型采用两层全连接网络,两层全连接网络包括:
其中,为输入网卡温度,/>为第一权重,/>为第二权重,/>为第一偏置,/>为第二偏置,/>为预测温度。
在本发明实施例中,公式中的为第一权重,/>为第二权重,第一权重和第二权重的大小表示可能性的大小,权重可以手动设定也可以通过反向传播算法自动设定。通过计算每一权重参数,可以了解整个神经网络的整体表现,从而使预测结果更准确,通过两层全连接网络不断训练,根据实际输出与期望输出的差值调整权重,判断训练输出结果和期望输出结果是否相同,若相同则取得最优权重,根据最优权重即可得到最准确的预测温度。
步骤S305,将训练集输入多层感知器模型,对多层感知器模型进行训练。
将训练集的温度训练数据集输入多层感知模型,对多层感知器模型进行训练,得到训练集的温度训练数据集中各网卡温度对应的预测温度。
步骤S306,将测试集输入多层感知器模型,对多层感知器模型进行评估。
具体地,上述步骤S306包括:
步骤S3061,将测试集输入多层感知器模型,得到预测结果。
步骤S3062,将预测结果与实际结果进行比对,得到比对结果。
步骤S3063,根据比对结果对多层感知器模型进行评估。
若预测结果与实际结果的差小于或等于预设值,则说明多层感知器模型的可靠性较高。
若预测结果与实际结果的差大于预设值,则说明多层感知器模型的可靠性较低。
对多层感知器模型进行评估,可得知多层感知器模型的准确性和稳定性。
步骤S307,保存训练完成的多层感知器模型。
保存的格式包括HDF5格式和SavedModel格式,保存模型的方式也可以分为两种,model.save_weights()保存模型参数和model.save()保存整个模型。
在一些可选的实施方式中,将训练集损失、测试集损失、训练集准确率、测试集准确率可视化到折线图,以便于观察。
在本实施例中提供了一种风扇调节方法,可用于上述的服务器网卡,图4是根据本发明实施例的风扇调节方法的流程图,如图4所示,该流程包括如下步骤:
步骤S401,根据上述实施例中任一项所述的网卡温度预测方法确定目标网卡的告警状态。
步骤S402,根据目标网卡的告警状态生成控制信号。
在一些可选的实施方式中,若目标网卡的告警状态为第一告警状态,生成第一控制信号;若目标网卡的告警状态为第二告警状态,生成第二控制信号;若目标网卡的告警状态为第三告警状态,生成第三控制信号。
步骤S403,将控制信号发送给散热风扇的控制器,以使散热风扇的控制器根据控制信号调节散热风扇的档位,散热风扇为服务器上的风扇。
在一些可选的实施方式中,第一控制信号控制散热风扇的控制器将散热风扇的档位调节至第一档位;第二控制信号控制散热风扇的控制器将散热风扇的档位调节至第二档位;第三控制信号控制散热风扇的控制器将散热风扇的档位调节至第三档位;第一档位大于第二档位,且第二档位大于第三档位。
若告警状态为第一告警状态,说明目标网卡的预测温度过高,生成第一控制信号,第一控制信号控制散热风扇的控制器将散热风扇的档位调节至第一档位,也就是最高档位,以对目标网卡进行降温,防止因温度过高损坏目标网卡。若告警状态为第二告警状态,说明目标网卡的预测温度较高,生成第二控制信号,第二控制信号控制散热风扇的控制器将散热风扇的档位调节至第二档位,第二档位为中间档位,以对目标网卡进行降温,让目标网卡恢复到正常运行温度,防止因温度持续升高损坏目标网卡。若告警状态为第三告警状态,说明目标网卡的温度不高,生成第三控制信号,第三控制信号控制散热风扇的控制器将散热风扇的档位调节至第三档位,第三档位为最低档位,以使目标网卡保持正常温度运行。
示例性地,当目标网卡的告警状态为严重告警,则控制散热风扇将档位调节至最高档位,当目标网卡的告警状态为提示告警,则控制散热风扇将档位调节至中间档位,当目标网卡的告警状态为不告警,则控制散热风扇将档位调节至最低档位。
根据目标网卡的告警状态生成控制信号,将控制信号发送给散热风扇,以使散热风扇根据控制信号调节档位,以对目标网卡进行降温,当确定目标网卡的告警状态时,自动根据目标网卡的告警状态生成对应的控制信号,告警状态不同,生成的控制信号不同,对散热风扇档位的调节也不同,针对性的解决不同告状态下目标网卡的散热问题,避免目标网卡的损坏,无需人工对散热风扇的档位进行调节,节省人力资源,同时增强对散热风扇档位调节的准确性。
在本实施例中提供了一种网卡温度预测方法,可用于上述的服务器网卡,图5是根据本发明实施例的监控目标网卡的流程图,如图5所示,该流程包括如下步骤:
步骤S501,创建监控目标网卡的输入输出端口、连接口以及服务名。
步骤S502,判断目标服务器是否开机。
步骤S503,若目标服务器开机,则获取基本输入输出***的资产信息。
步骤S504,获取目标网卡的设备信息。
步骤S505,为目标网卡创建目标对象,目标对象用于判断目标网卡的类型以及显示目标网卡的静态信息,以根据目标网卡的类型和静态信息对目标网卡进行身份识别。
步骤S506,为目标网卡开启目标定时器,定时器用于轮询目标网卡的动态信息,动态信息包括目标网卡的温度数据。
步骤S507,判断基本输入输出***是否自检完成。
步骤S508,若基本输入输出***自检完成,创建服务名,用于根据服务名确定用于监控目标网卡温度的服务。
步骤S509,在用于监控目标网卡温度的服务上添加接口,接口用于获取目标网卡的静态信息和动态信息。
其中,添加接口的方法为,对外提供一些接口函数,接口函数的注册方法等同于函数的实现,本发明实施例采用接口库(sdbusplus库,一套社区提供的异步操作数据总线接口库)来实现添加接口的功能,可执行的动作有,清理初始化动作,获取管理和控制传输(mctp)设备信息,创建使能通道、失能通道以及复位通道,设置连接,获取连接状态,设置虚拟局域网过滤、使能虚拟局域网以及失能虚拟局域网,获取版本号,获取静态信息,自定义厂商命令接口。
在本发明实施例中,sdbusplus库的优点在于,稳定性高、异步操作接口丰富可以降低开放式基板管理控制器的中央处理器(openbmc cpu)的占用率,提高资源利用率。
本发明实施例基于助推放大器(boost asio)对象,创建异步监控服务,通过一个管理对象(用于初始化几张网卡并获取每一张网卡的身份证明(eidpoint)、文件格式(bdf)基本信息与多张网卡多个对象进行监控的监控机制,对每一张网卡进行信息获取处理(包括构造函数获取静态信息、创建数据总线(dbus)接口、定时器获取动态信息实施监控网卡温度)。
本发明实施例中,判断服务器是否开机,解析基本输入输出***上报的资产信息,初始化网卡监控设备信息,更新管理和控制传输(mctp)协议网卡设备信息,每一个网卡设备信息创建一个对象,用于断目标网卡的类型,获取目标网卡的静态信息,以根据目标网卡的类型和静态信息对目标网卡进行身份识别,每一个网卡对象开启一个定时器,定时器轮询网卡以获取网卡的动态信息,也就是网卡温度。查询基本输入输出***是否复位完成,进行初始化管理对象,创建连接接口请求服务。
在本实施例中还提供了一种网卡温度预测装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种网卡温度预测装置,如图6所示,包括:
目标对象创建模块601,用于为目标网卡创建目标对象,目标对象用于判断目标网卡的类型以及显示目标网卡的静态信息,以根据目标网卡的类型和静态信息对目标网卡进行身份识别。
目标定时器开启模块602,用于为目标网卡开启目标定时器,定时器用于轮询目标网卡的动态信息,动态信息包括目标网卡的温度数据。
判断模块603,用于判断基本输入输出***是否自检完成。
数据获取模块604,用于若基本输入输出***自检完成,获取目标网卡的温度数据,温度数据包括多个预设时间间隔分别对应的多个温度;目标网卡为服务器网卡。
模型加载模块605,用于加载训练完成的多层感知器模型。
预测模块606,用于将温度数据输入至训练完成的多层感知器模型,得到预测温度。
告警状态确认模块607,用于根据预测温度,确定目标网卡的告警状态。
在一些可选的实施方式中,模型加载模块605包括:
构建多层感知器模型单元,用于构建多层感知器模型,包括:
获取子单元,用于获取网卡的温度训练数据集,温度训练数据集包括网卡温度和时间。
标注子单元,用于对温度训练数据集进行标注。
对温度训练数据集进行标注的方法为:为温度训练数据集中的各网卡温度分配对应的标签。
在一种可选的实施方式中,若网卡温度大于或等于第一预设值,为网卡温度分配第一标签;若网卡温度小于第一预设值,且大于或等于第二预设值,为网卡温度分配第二标签;若网卡温度小于第二预设值,为网卡温度分配第三标签,第一预设值大于第二预设值。第一标签的告警程度大于第二标签的告警程度,且第二标签的告警程度大于第三标签的告警程度。
模型训练时,为温度训练数据集中的各网卡温度分配对应的标签,若网卡温度大于或等于第一预设值,说明目标网卡的温度过高,为网卡温度分配第一标签,以标记网卡温度过高,需进行降温处理。若网卡温度小于第一预设值,且大于或等于第二预设值,说明目标网卡的温度较高,需进行降温处理。若网卡温度小于第二预设值,说明目标网卡的温度不高,为网卡温度分配第三标签,以标记网卡温度不高,无需进行告警。
划分子单元,用于将标注完成的温度训练数据集分为训练集和测试集。
构建子单元,用于构建多层感知器模型,多层感知器模型包括输入层、多个隐藏层以及输出层。
训练子单元,用于将训练集输入多层感知器模型,对多层感知器模型进行训练。
评估子单元,用于将测试集输入多层感知器模型,对多层感知器模型进行评估。
保存子单元,用于保存训练完成的多层感知器模型。
在一些可选的实施方式中,告警状态确定模块607包括:
比较单元,用于将预测温度与第一预设值以及第二预设值进行比较,得到预测温度的告警状态。
若预测温度大于或等于第一预设值,则判定预测温度的告警状态为第一告警状态;若预测温度大于或等于第二预设值,且小于第一预设值,则判定预测温度的告警状态为第二告警状态;若预测温度小于第二预设值,则判定预测温度的告警状态为第三告警状态;第一预设值大于第二预设值。第一告警状态的告警程度大于第二告警状态的告警程度,且第二告警状态的告警程度大于第三告警状态的告警程度。
若目标网卡的预测温度大于或等于第一预设值,说明目标网卡的温度过高,因此判定预测温度的告警状态为第一告警状态,以警示目标网卡的温度过高,需要进行降温处理。若目标网卡的预测温度大于或等于第二预设值,且小于第一预设值,说明目标网卡的温度较高,因此判定预测温度的告警状态为第二告警状态,以警示目标网卡的温度较高,需要进行降温处理。若目标网卡的预测温度小于第二预设值,说明目标网卡的预测温度不高,因此判定预测温度的告警状态为第三告警状态,无需对目标网卡进行告警。
本发明实施例,首先目标对象创建模块601为目标网卡创建目标对象,目标对象用于判断目标网卡的类型以及显示目标网卡的静态信息,以根据目标网卡的类型和静态信息对目标网卡进行身份识别,使得明确得到的预测温度是哪个网卡的温度。目标定时器开启模块602为目标网卡开启目标定时器,定时器用于轮询目标网卡的动态信息,动态信息包括目标网卡的温度数据,通过定时器实现每预设时间间隔检测一次目标网卡的温度数据。判断模块603判断基本输入输出***是否自检完成,基本输入输出***自检完成,说明***完成将目标网卡的动态信息的上报,才可获取动态信息中的温度数据,数据获取模块604获取目标网卡的温度数据,模型加载模块605,用于加载训练完成的多层感知器模型,预测模块606将目标网卡的温度数据输入至训练完成的多层感知器模型,得到预测温度,实现对服务器网卡的温度预测,告警状态确定模块607根据预测温度,得到目标网卡的告警状态,本发明通过预测温度,得到服务器网卡的告警状态,本发明与相关技术中通过采用异步方式采集并记录一些基本的性能数据来判断***的运行状况和异常情况相比,避免了数据传送的过程中异常情况改变的状况发生,准确率更高,对于复杂的***和环境变化,根据实时温度预测出网卡温度,进而满足告警的需求。
上述各个模块和单元的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本实施例中的网卡温度预测装置是以功能单元的形式来呈现,这里的单元是指ASIC(Application Specific Integrated Circuit,专用集成电路)电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
本发明实施例还提供一种计算机设备,具有上述图6所示的网卡温度预测装置。
请参阅图7,图7是本发明可选实施例提供的一种计算机设备的结构示意图,如图7所示,该计算机设备包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个计算机设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器***)。图7中以一个处理器10为例。
处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。
其中,所述存储器20存储有可由至少一个处理器10执行的指令,以使所述至少一个处理器10执行实现上述实施例示出的方法。
存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。
该计算机设备还包括通信接口30,用于该计算机设备与其他设备或通信网络通信。
本发明实施例还提供了一种计算机可读存储介质,上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现上述实施例示出的方法。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (20)

1.一种网卡温度预测方法,其特征在于,所述方法包括:
为目标网卡创建目标对象,所述目标对象用于判断目标网卡的类型以及显示目标网卡的静态信息,以根据所述目标网卡的类型和所述静态信息对所述目标网卡进行身份识别;
为所述目标网卡开启目标定时器,所述定时器用于轮询所述目标网卡的动态信息,所述动态信息包括目标网卡的温度数据;
判断基本输入输出***是否自检完成;
若所述基本输入输出***自检完成,获取目标网卡的温度数据,所述温度数据包括多个预设时间间隔分别对应的多个温度;所述目标网卡为服务器网卡;
加载训练完成的多层感知器模型;
将所述温度数据输入至训练完成的多层感知器模型,得到预测温度;
根据所述预测温度,确定所述目标网卡的告警状态。
2.根据权利要求1所述的方法,其特征在于,在所述为目标网卡创建目标对象之前,所述方法还包括:
创建所述目标网卡的输入输出端口、连接口以及服务名;
判断目标服务器是否开机;
若所述目标服务器开机,则获取所述基本输入输出***的资产信息。
3.根据权利要求1所述的方法,其特征在于,在所述判断基本输入输出***是否自检完成之后,所述方法还包括:
创建服务名,用于根据所述服务名确定用于监控所述目标网卡温度的服务。
4.根据权利要求3所述的方法,其特征在于,在所述创建服务名之后,所述方法还包括:
在用于监控所述目标网卡温度的服务上添加接口,所述接口用于获取所述目标网卡的静态信息和动态信息。
5.根据权利要求1所述的方法,其特征在于,所述方法包括:
所述目标网卡的所述静态信息包括网卡的版本信息、网卡资产信息、网卡连接状态信息以及网络媒体存取控制位址。
6.根据权利要求1所述的方法,其特征在于,所述根据所述预测温度,确定所述目标网卡的告警状态,包括:
将所述预测温度与第一预设值以及第二预设值进行比较,并根据比较的结果确定所述预测温度的告警状态。
7.根据权利要求6所述的方法,其特征在于,所述将所述预测温度与第一预设值以及第二预设值进行比较,并根据比较的结果确定所述预测温度的告警状态,包括:
若所述预测温度大于或等于所述第一预设值,则判定所述预测温度的告警状态为第一告警状态;
若所述预测温度大于或等于所述第二预设值,且小于所述第一预设值,则判定所述预测温度的告警状态为第二告警状态;
若所述预测温度小于所述第二预设值,则判定所述预测温度的告警状态为第三告警状态;所述第一预设值大于所述第二预设值。
8.根据权利要求7所述的方法,其特征在于,所述方法包括:
所述第一告警状态的告警程度大于所述第二告警状态的告警程度,且所述第二告警状态的告警程度大于所述第三告警状态的告警程度。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括对所述多层感知器模型进行训练的过程;训练所述多层感知器模型的过程,包括:
获取网卡的温度训练数据集,所述温度训练数据集包括网卡温度和时间;
对所述温度训练数据集进行标注;
将标注完成的所述温度训练数据集分为训练集和测试集;
构建多层感知器模型,所述多层感知器模型包括输入层、多个隐藏层以及输出层;
将所述训练集输入所述多层感知器模型,对所述多层感知器模型进行训练;
将所述测试集输入所述多层感知器模型,对所述多层感知器模型进行评估;
保存训练完成的所述多层感知器模型。
10.根据权利要求9所述的方法,其特征在于,所述获取网卡的温度训练数据集,包括:
获取所述网卡的网卡温度和时间;
将所述网卡的网卡温度和时间写入数据文件中;
将所述数据文件作为温度训练数据集。
11.根据权利要求10所述的方法,其特征在于,所述对所述温度训练数据集进行标注,包括:
为所述温度训练数据集中的各所述网卡温度分配对应的标签。
12.根据权利要求11所述的方法,其特征在于,所述为所述温度训练数据集中的各所述网卡温度分配对应的标签,包括:
若所述网卡温度大于或等于第一预设值,为所述网卡温度分配第一标签;
若所述网卡温度小于所述第一预设值,且大于或等于第二预设值,为所述网卡温度分配第二标签;
若所述网卡温度小于所述第二预设值,为所述网卡温度分配第三标签,所述第一预设值大于所述第二预设值。
13.根据权利要求12所述的方法,其特征在于,所述方法包括:
所述第一标签的告警程度大于所述第二标签的告警程度,且所述第二标签的告警程度大于所述第三标签的告警程度。
14.根据权利要求9所述的方法,其特征在于,所述对所述多层感知器模型进行训练之前,还包括:
加载所述温度训练数据集;
对所述温度训练数据集进行归一化处理;
确定模型算法参数以及损失函数。
15.根据权利要求9所述的方法,其特征在于,所述将所述测试集输入所述多层感知器模型,对所述多层感知器模型进行评估,包括:
将所述测试集输入所述多层感知器模型,得到预测结果;
将所述预测结果与实际结果进行比对,得到比对结果;
根据所述比对结果对所述多层感知器模型进行评估。
16.根据权利要求9所述的方法,其特征在于,所述多层感知器模型采用两层全连接网络,所述两层全连接网络包括:
其中,为输入网卡温度,/>为第一权重,/>为第二权重,/>为第一偏置,/>为第二偏置,/>为预测温度。
17.根据权利要求1所述的方法,其特征在于,所述方法还包括对所述目标网卡的监控过程;监控所述目标网卡,包括:
创建监控所述目标网卡的输入输出端口、连接口以及服务名;
判断所述目标服务器是否开机;
若所述目标服务器开机,则获取所述基本输入输出***的资产信息;
获取所述目标网卡的设备信息;
为所述目标网卡创建目标对象,所述目标对象用于判断目标网卡的类型以及显示目标网卡的静态信息,以根据所述目标网卡的类型和所述静态信息对所述目标网卡进行身份识别;
为所述目标网卡开启目标定时器,所述定时器用于轮询所述目标网卡的动态信息,所述动态信息包括目标网卡的温度数据;
判断基本输入输出***是否自检完成;
若所述基本输入输出***自检完成,创建服务名,用于根据所述服务名确定用于监控所述目标网卡温度的服务;
在用于监控所述目标网卡温度的服务上添加接口,所述接口用于获取所述目标网卡的静态信息和动态信息。
18.一种网卡温度预测装置,其特征在于,所述装置包括:
目标对象创建模块,用于为目标网卡创建目标对象,所述目标对象用于判断目标网卡的类型以及显示目标网卡的静态信息,以根据所述目标网卡的类型和所述静态信息对所述目标网卡进行身份识别;
目标定时器开启模块,用于为所述目标网卡开启目标定时器,所述定时器用于轮询所述目标网卡的动态信息,所述动态信息包括目标网卡的温度数据;
判断模块,用于判断基本输入输出***是否自检完成;
数据获取模块,用于若所述基本输入输出***自检完成,获取目标网卡的温度数据,所述温度数据包括多个预设时间间隔分别对应的多个温度;所述目标网卡为服务器网卡;
模型加载模块,用于加载训练完成的多层感知器模型;
预测模块,用于将所述温度数据输入至训练完成的多层感知器模型,得到预测温度;
告警状态确认模块,用于根据所述预测温度,确定所述目标网卡的告警状态。
19.一种计算机设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1至17中任一项所述的网卡温度预测方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至17中任一项所述的网卡温度预测方法。
CN202310878390.1A 2023-07-18 2023-07-18 网卡温度预测方法、装置、计算机设备及存储介质 Active CN116627770B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310878390.1A CN116627770B (zh) 2023-07-18 2023-07-18 网卡温度预测方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310878390.1A CN116627770B (zh) 2023-07-18 2023-07-18 网卡温度预测方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN116627770A CN116627770A (zh) 2023-08-22
CN116627770B true CN116627770B (zh) 2023-09-26

Family

ID=87638448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310878390.1A Active CN116627770B (zh) 2023-07-18 2023-07-18 网卡温度预测方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN116627770B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117806912B (zh) * 2024-02-28 2024-05-14 济南聚格信息技术有限公司 一种服务器异常监测方法及***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111367773A (zh) * 2020-02-29 2020-07-03 苏州浪潮智能科技有限公司 一种检测服务器网卡的方法、***、设备及介质
CN113497725A (zh) * 2020-04-01 2021-10-12 ***通信集团山东有限公司 告警监控方法、***、计算机可读存储介质及电子设备
CN114330099A (zh) * 2021-11-30 2022-04-12 广东浪潮智慧计算技术有限公司 一种网卡功耗调整方法、装置、设备及可读存储介质
CN114840263A (zh) * 2022-05-31 2022-08-02 苏州浪潮智能科技有限公司 一种网卡管理方法、装置、设备及存储介质
CN114885032A (zh) * 2022-04-29 2022-08-09 苏州浪潮智能科技有限公司 一种设备信息生成并显示方法、装置、设备及介质
CN115221017A (zh) * 2022-08-19 2022-10-21 山东云海国创云计算装备产业创新中心有限公司 服务器温度传感器自检的方法、***、设备及存储介质
CN115314416A (zh) * 2022-07-15 2022-11-08 苏州浪潮智能科技有限公司 网卡状态自动检测方法、装置、电子设备及存储介质
CN115525512A (zh) * 2022-09-30 2022-12-27 苏州浪潮智能科技有限公司 服务器风扇控制方法、装置及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111367773A (zh) * 2020-02-29 2020-07-03 苏州浪潮智能科技有限公司 一种检测服务器网卡的方法、***、设备及介质
CN113497725A (zh) * 2020-04-01 2021-10-12 ***通信集团山东有限公司 告警监控方法、***、计算机可读存储介质及电子设备
CN114330099A (zh) * 2021-11-30 2022-04-12 广东浪潮智慧计算技术有限公司 一种网卡功耗调整方法、装置、设备及可读存储介质
CN114885032A (zh) * 2022-04-29 2022-08-09 苏州浪潮智能科技有限公司 一种设备信息生成并显示方法、装置、设备及介质
CN114840263A (zh) * 2022-05-31 2022-08-02 苏州浪潮智能科技有限公司 一种网卡管理方法、装置、设备及存储介质
CN115314416A (zh) * 2022-07-15 2022-11-08 苏州浪潮智能科技有限公司 网卡状态自动检测方法、装置、电子设备及存储介质
CN115221017A (zh) * 2022-08-19 2022-10-21 山东云海国创云计算装备产业创新中心有限公司 服务器温度传感器自检的方法、***、设备及存储介质
CN115525512A (zh) * 2022-09-30 2022-12-27 苏州浪潮智能科技有限公司 服务器风扇控制方法、装置及电子设备

Also Published As

Publication number Publication date
CN116627770A (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN108197658B (zh) 图像标注信息处理方法、装置、服务器及***
US6772099B2 (en) System and method for interpreting sensor data utilizing virtual sensors
CN105474577B (zh) 用于监测***性能和可用性的***和方法
US9541971B2 (en) Multiple level computer system temperature management for cooling fan control
CN116627770B (zh) 网卡温度预测方法、装置、计算机设备及存储介质
US9355010B2 (en) Deriving an operational state of a data center using a predictive computer analysis model
CN109960635B (zh) 实时计算平台的监控和报警方法、***、设备及存储介质
CN101999101B (zh) ***运行预测的确定方法
US20190258959A1 (en) Remote control signal processing in real-time partitioned time-series analysis
JP6871877B2 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
US20220011169A1 (en) Thermal management system, method, and device for monitoring health of electronic devices
CN115185721B (zh) 一种基于人工智能的数据处理方法及***
KR20150041590A (ko) 동적 워크플로우 우선순위 선정 및 작업 수행을 위한 방법들 및 시스템들
CN115549313A (zh) 基于人工智能的用电监测方法及***
CN113487086B (zh) 设备剩余使用寿命预测方法、装置、计算机设备和介质
CN111310778A (zh) 检测装置、检测方法以及记录检测程序的记录介质
WO2023101812A1 (en) Systems and methods for identifying machine anomaly root cause
CN113900718B (zh) 一种bmc与bios资产信息的解耦方法、***及装置
US10573147B1 (en) Technologies for managing safety at industrial sites
CN108880916B (zh) 一种基于iic总线的故障定位方法及***
US11874008B2 (en) HVAC system discomfort index and display
KR102210803B1 (ko) 증강 현실 기반 스마트 관리 방법, 장치 및 시스템
EP4339964A1 (en) A monitoring agent for medical devices
CN117194049B (zh) 一种基于机器学习算法的云主机智能行为分析方法及***
CN114756427A (zh) 一种恒温箱及其控制方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant