CN117992270B - 一种内存资源管理***、方法、装置、设备及存储介质 - Google Patents

一种内存资源管理***、方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117992270B
CN117992270B CN202410372719.1A CN202410372719A CN117992270B CN 117992270 B CN117992270 B CN 117992270B CN 202410372719 A CN202410372719 A CN 202410372719A CN 117992270 B CN117992270 B CN 117992270B
Authority
CN
China
Prior art keywords
memory
management controller
information
baseboard management
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410372719.1A
Other languages
English (en)
Other versions
CN117992270A (zh
Inventor
马晓宇
王兴隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Metabrain Intelligent Technology Co Ltd
Original Assignee
Suzhou Metabrain Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Metabrain Intelligent Technology Co Ltd filed Critical Suzhou Metabrain Intelligent Technology Co Ltd
Priority to CN202410372719.1A priority Critical patent/CN117992270B/zh
Publication of CN117992270A publication Critical patent/CN117992270A/zh
Application granted granted Critical
Publication of CN117992270B publication Critical patent/CN117992270B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本申请实施例涉及存储技术领域,具体涉及一种内存资源管理***、方法、装置、设备及存储介质,旨在对内存资源进行有效的管理和维护。所述***包括:计算节点模块、高速互联交换芯片模块、内存资源模块、网络交换芯片模块;计算节点模块包括第一基板管理控制器、中央处理器;高速互联交换芯片模块包括高速互联交换芯片、第二基板管理控制器、内存资源管理处理器,用于管理内存资源,接收故障信息,进行故障定位;内存资源模块包括第三基板管理控制器、内存扩展控制器、内存,第三基板管理控制器用于控制内存扩展控制器,内存扩展控制器用于监控和管理内存;网络交换芯片模块用于实现各个模块之间的网络互联。

Description

一种内存资源管理***、方法、装置、设备及存储介质
技术领域
本申请实施例涉及存储技术领域,具体而言,涉及一种内存资源管理***、方法、装置、设备及存储介质。
背景技术
随着计算机技术的不断发展,内存资源需求也日益增加,内存资源池化技术应运而生。内存资源池化技术中主要包括了计算资源池、内存池,能够实现内存池中的大规模内存的灵活分配,极大提高了服务器硬件资源的利用率,在内存池化环境下,如何有效的对内存池中的内存资源进行管理和维护,以保证内存池化架构下业务的正常运行,是内存池化技术中研究的重点问题。
相关技术中,通过在内存池中安装传感器对内存池中的内存进行监控,通过维修人员对内存池进行维护。
相关技术中无法及时汇总计算资源池以及内存池中的每个硬件的故障,也无法快速定位发生故障的硬件,无法对内存资源进行有效的维护和管理。
发明内容
本申请实施例提供一种内存资源管理***、方法、装置、设备及存储介质,旨在对内存资源进行有效的管理和维护。
本申请第一方面提供一种内存资源管理***,所述***包括:
计算节点模块、高速互联交换芯片模块、内存资源模块、网络交换芯片模块;
所述计算节点模块包括第一基板管理控制器、中央处理器,所述第一基板管理控制器用于控制所述中央处理器;
所述高速互联交换芯片模块包括高速互联交换芯片、第二基板管理控制器、内存资源管理处理器,所述高速互联交换芯片用于对内存资源进行管理,所述内存资源管理处理器用于通过高速互联交换芯片为所述计算节点模块分配对应的内存,所述第二基板管理控制器用于接收所述内存资源管理处理器发送的故障信息,并且通过所述网络交换芯片接收所述计算节点模块、所述内存资源模块发送的所述故障信息,根据所述故障信息确定对应的故障硬件;
所述内存资源模块包括第三基板管理控制器、内存扩展控制器、内存,所述第三基板管理控制器用于控制所述内存扩展控制器,所述内存扩展控制器用于监控和管理所述内存;
所述网络交换芯片模块用于实现所述计算节点模块、所述高速互联交换芯片模块、所述内存资源模块之间的网络互联。
可选地,所述高速互联交换芯片与所述中央处理器、所述内存资源管理处理器连接,所述内存资源管理处理器与所述第二基板管理控制器连接;
所述第三基板管理控制器与所述内存扩展控制器连接,所述内存扩展控制器与所述高速互联交换芯片、所述内存连接;
所述网络交换芯片与所述计算节点模块、所述高速互联交换芯片模块、所述内存资源模块连接。
可选地,所述第三基板管理控制器通过所述内存扩展控制器获取所述内存的状态信息;
所述第三基板管理控制器在所述内存的所述状态信息中的任意数值超过预设阈值时,生成第一故障信息;
所述第三基板管理控制器将所述第一故障信息发送至所述网络交换芯片模块;
所述网络交换芯片模块将所述第一故障信息发送至所述第二基板管理控制器。
可选地,所述第三基板管理控制器轮询获取所述内存在运行过程中的产生的告警信息;
在所述告警信息为预设告警信息中的任意一条所述告警信息时,生成第二故障信息;
所述第三基板管理控制器将所述第二故障信息发送至所述网络交换芯片模块;
所述网络交换芯片模块将所述第二故障信息发送至所述第二基板管理控制器。
可选地,所述第一基板管理控制器在识别到所述内存扩展控制器存在故障告警信息的情况下,生成第三故障信息;
所述第一基板管理控制器将所述第三故障信息发送至所述网络交换芯片模块;
所述网络交换芯片模块将所述第三故障信息发送至所述第二基板管理控制器。
可选地,所述内存资源管理处理器对所述高速互联交换芯片进行故障识别;
所述内存资源管理处理器将识别到的第四故障信息发送至第二基板管理控制器;
所述第二基板管理控制器对接收到的所有故障信息进行故障汇总。
可选地,所述第二基板管理控制器在接收到所述故障信息的情况下,根据内存资源管理处理器从所述高速互联交换芯片中读取的内存拓扑互联关系,确定所述故障信息对应的计算节点以及所述内存;
所述第二基板管理控制器将所述故障信息记录至故障日志中;
所述第二基板管理控制器触发所述第一基板管理控制器检查所述中央处理器的运行状态;
所述第二基板管理控制器在所述第一基板管理控制器检测到所述中央处理器无法执行计算任务的情况下,控制所述计算节点进行关机;
所述第二基板管理控制器为所述内存添加异常内存标记;
所述第二基板管理控制器将所述内存的内存信息发送至所述内存管理处理器;
所述内存管理处理器在接收到所述内存信息的情况下,停止为所述内存配置任务;
所述第二基板管理控制器向所述内存管理处理器发送资源分配命令;
所述内存管理处理器在接收到所述资源分配命令的情况下,进行内存资源配置;
所述第二基板管理控制器控制所述计算节点重新启动。
可选地,所述第二基板管理控制器在检测到所述内存修复成功的情况下,消除所述异常内存标记。
本申请实施例第二方面提供一种内存资源管理方法,所述方法包括:
在内存池中的内存运行期间,轮询监控所述内存池中的每个所述内存的内存状态信息;
在所述内存状态信息中的任一数值超过预设阈值时,生成第一故障信息;
将所述第一故障信息发送至第二基板管理控制器中。
可选地,所述方法还包括:
在所述内存池中的所述内存运行期间,轮询监控所述内存池中的每个内存发出的告警信息;
在所述告警信息为预设告警信息中的任意一条所述告警信息的情况下,生成第二故障信息;
将所述第二故障信息发送至所述第二基板管理控制器中。
可选地,所述方法还包括:
在计算节点启动过程中,确定内存扩展控制器中是否存在第一故障告警信息;
在所述内存扩展控制器中存在所述第一故障告警信息时,生成第三故障信息;
将所述第三故障信息发送至所述第二基板管理控制器中。
可选地,所述方法还包括:
在内存资源管理处理器的启动过程中,识别高速互联交换控制芯片中的第二故障告警信息;
在识别到所述第二故障告警信息的情况下,生成第四故障信息;
将所述第四故障信息发送至所述第二基板管理控制器中。
可选地,所述方法还包括:
在接收到故障信息时,根据内存拓扑互联关系,确定所述故障信息对应的所述计算节点以及所述内存;
检测所述计算节点对应的中央处理器是否正常运行;
在检测到所述中央处理器无法正常运行的情况下,关闭所述计算节点;
为所述内存添加运行异常标记;
将所述内存的内存信息发送至所述内存资源管理处理器中;
为所述计算节点分配新的所述内存;
在所述计算节点的所述内存分配完毕的情况下,重新启动所述计算节点。
可选地,所述为所述计算节点分配新的所述内存,包括:
从所述内存池中筛选出未被添加所述运行异常标记的多个所述内存;
在未被添加所述运行异常标记的多个所述内存中确定处于空闲状态的任意一个所述内存;
在所述内存处于正常运行状态的情况下,将所述内存分配为所述计算节点对应的所述内存。
可选地,所述方法还包括:
在检测到添加有所述运行异常标记的所述内存修复完毕的情况下,删除所述内存对应的所述运行异常标记。
本申请实施例第三方面提供一种内存资源管理装置,所述装置包括:
内存状态信息确定模块,用于在内存池中的内存运行期间,轮询监控所述内存池中的每个所述内存的内存状态信息;
第一故障信息生成模块,用于在所述内存状态信息中的任一数值超过预设阈值时,生成第一故障信息;
第一故障信息发送模块,用于将所述第一故障信息发送至第二基板管理控制器中。
可选地,所述装置还包括:
内存告警监控模块,用于在所述内存池中的所述内存运行期间,轮询监控所述内存池中的每个内存发出的告警信息;
第二故障信息生成模块,用于在所述告警信息为预设告警信息中的任意一条所述告警信息的情况下,生成第二故障信息;
第二故障信息发送模块,用于将所述第二故障信息发送至所述第二基板管理控制器中。
可选地,所述装置还包括:
第一故障告警信息检测模块,用于在计算节点启动过程中,确定内存扩展控制器中是否存在第一故障告警信息;
第三故障信息生成模块,用于在所述内存扩展控制器中存在所述第一故障告警信息时,生成第三故障信息;
第三故障信息发送模块,用于将所述第三故障信息发送至所述第二基板管理控制器中。
可选地,所述装置还包括:
第二故障告警信息检测模块,用于在内存资源管理处理器的启动过程中,识别高速互联交换控制芯片中的第二故障告警信息;
第四故障信息生成模块,用于在识别到所述第二故障告警信息的情况下,生成第四故障信息;
第四故障信息发送模块,用于将所述第四故障信息发送至所述第二基板管理控制器中。
可选地,所述方法还包括:
硬件确定模块,用于在接收到故障信息时,根据内存拓扑互联关系,确定所述故障信息对应的所述计算节点以及所述内存;
运行状态检测模块,用于检测所述计算节点对应的中央处理器是否正常运行;
计算节点关闭模块,用于在检测到所述中央处理器无法正常运行的情况下,关闭所述计算节点;
运行异常标记添加模块,用于为所述内存添加运行异常标记;
内存信息发送模块,用于将所述内存的内存信息发送至所述内存资源管理处理器中;
内存分配模块,用于为所述计算节点分配新的所述内存;
在所述计算节点的所述内存分配完毕的情况下,重新启动所述计算节点。
可选地,所述内存分配模块包括:
内存筛选子模块,用于从所述内存池中筛选出未被添加所述运行异常标记的多个所述内存;
内存确定子模块,用于在未被添加所述运行异常标记的多个所述内存中确定处于空闲状态的任意一个所述内存;
内存分配子模块,用于在所述内存处于正常运行状态的情况下,将所述内存分配为所述计算节点对应的所述内存。
可选地,所述装置还包括:
运行异常标记删除模块,用于 在检测到添加有所述运行异常标记的所述内存修复完毕的情况下,删除所述内存对应的所述运行异常标记。
本申请实施例第四方面提供一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如本申请第一方面所述的方法中的步骤。
本申请实施例第五方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本申请第一方面所述的方法的步骤。
采用本申请提供的内存资源管理***,该***包括:计算节点模块、高速互联交换芯片模块、内存资源模块、网络交换芯片模块;所述计算节点模块包括第一基板管理控制器、中央处理器,所述第一基板管理控制器用于控制所述中央处理器;所述高速互联交换芯片模块包括高速互联交换芯片、第二基板管理控制器、内存资源管理处理器,所述高速互联交换芯片用于对内存资源进行管理,所述内存资源管理处理器用于通过高速互联交换芯片为所述计算节点模块分配对应的内存,所述第二基板管理控制器用于接收所述内存资源管理处理器发送的故障信息,并且通过所述网络交换芯片接收所述计算节点模块、所述内存资源模块发送的所述故障信息,根据所述故障信息确定对应的故障硬件;所述内存资源模块包括第三基板管理控制器、内存扩展控制器、内存,所述第三基板管理控制器用于控制所述内存扩展控制器,所述内存扩展控制器用于监控和管理所述内存;所述网络交换芯片模块用于实现所述计算节点模块、所述高速互联交换芯片模块、所述内存资源模块之间的网络互联。
本***中,由计算节点模块、高速互联交换芯片模块、内存资源模块以及网络交换芯片模块构成了一个完整的内存资源管理***,计算节点模块上的中央处理器在执行计算任务时使用内存资源模块上的内存,通过内存资源模块上的内存扩展控制器监控和管理内存资源模块上连接的内存,内存资源管理处理器可以通过高速互联交换芯片为每个计算节点分配对应的内存,实现了内存资源的灵活分配,第二基板管理控制器通过网络接收其余模块发送的故障信息,进行故障汇总,并且可以定位到发生故障的硬件,便于对内存资源池进行维护,进而实现了内存资源***的有效管理以及有效维护。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提出的内存资源管理***结构示意图;
图2是本申请一实施例提出的内存资源管理***网络互联示意图;
图3是本申请一实施例提出的内存资源管理方法的流程图;
图4是本申请一实施例提出的内存资源管理装置的示意图;
图5是本申请一实施例提出的电子设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参考图1,图1是本申请一实施例提出的内存资源管理***结构示意图。如图1所示,该***包括:
计算节点模块、高速互联交换芯片模块、内存资源模块、网络交换芯片模块。
本实施例中,上述模块都是集成在电路板上的元器件以及电路组成的模块。
本实施例中,计算节点模块是内存资源管理***中执行计算任务的部件,高速互联(CXL,Compute Express Link)交换(switch)芯片模块用于对内存资源进行管理和配置,内存资源模块用于监控和管理内存,并将内存的高速互联总线转接到高速互联交换芯上一共计算节点连接使用。网络交换芯片模块与各个板卡连接,通过网络实现各个板卡之间的互联。
所述计算节点模块包括第一基板管理控制器、中央处理器,所述第一基板管理控制器用于控制所述中央处理器,所述中央处理器用于执行计算任务。
本实施例中,如图1所示,计算节点模块(CPU Board)中包括第一基板管理控制器(CPU Board BMC),中央处理器(CPU),其中中央处理器通过LPC(Low pin count Bus,低引脚数总线)与第一基板管理控制器连接,中央处理器通过PCIE(高速串行总线)与外界进行连接,连接至高速互联交换控制芯片。中央处理器在执行计算任务时,会使用到内存池中的内存资源。
所述高速互联交换芯片模块包括高速互联交换芯片、第二基板管理控制器、内存资源管理处理器,所述高速互联交换芯片用于对内存资源进行管理,所述内存资源管理处理器用于通过高速互联交换芯片为所述计算节点模块分配对应的内存,所述第二基板管理控制器用于接收所述内存资源管理处理器发送的故障信息,并且通过所述网络交换芯片接收所述计算节点模块、所述内存资源模块发送的所述故障信息,根据所述故障信息确定对应的故障硬件。
本实施例中,如图1所示,高速互联交换芯片模块包括了高速互联交换芯片(CXLSW Board),第二基板管理控制器(CXL SW BMC),内存资源管理处理器(mCPU,ManagementCPU)。
高速互联交换芯片是基于高速互联协议的芯片,用于对内存池中的内存进行管理,高速互联交换芯片的一端通过PCIE接口连接至中央处理器,另一端通过对应的接口连接至MXC(Memory Expander Controller 内存扩展控制器),高速互联交换芯片与内存资源管理处理器之间通过PCIE总线连接,还通过uart(通用异步收发器)/I2C(Inter-Integrated Circuit,集成电路总线)接口连接。
第二基板管理控制器通过网络交换芯片模块接收计算节点模块上的第一基板管理控制器发送的第二故障信息,接收第三基板管理控制器上发送的第一故障信息,接收内存资源管理处理器发送的第三故障信息,对故障信息进行汇总,并根据预先存储的内存拓扑互联关系进行故障定位,定位出发生故障的硬件。如图1所示,第二基板管理控制器通过LPC接口以及SGMII(Serial GMII,串行)接口与内存资源管理处理器连接。
内存资源管理处理器通过高速互联交换芯片控制内存资源的分配,为多个计算节点模块分配对应的内存资源,内存资源模块中的内存可以任意分配至对应的计算节点模块中,实现内存资源的灵活分配。
所述内存资源模块包括第三基板管理控制器、内存扩展控制器、内存,所述第三基板管理控制器用于控制所述内存扩展控制器,所述内存扩展控制器用于监控和管理所述内存,所述第三基板管理控制器与所述内存扩展控制器连接,所述内存扩展控制器与所述高速互联交换芯片、所述内存连接。
本实施例中,如图1所示,第三基板管理控制器(DIMM BMC Board)与内存扩展控制器连接,第三基板管理控制器用于监控和管理内存,在检测到内存运行状态出现异常或者内存在运行中发出告警信息时,生成对应的故障信息发送至第二基板管理控制器中。
内存扩展控制器用于对内存进行控制管理,内存管理控制器可以获取到内存在运行时的温度信息、电压信息、功耗信息等硬件传感器信息,再通过SMBus(微控制器通信链路管理)协议将这些信息传输至第三基板管理控制器中,内存资源模块中包括了多个内存扩展控制器,每个内存扩展控制器连接了多个内存,内存扩展控制器与内存之间通过SMBus(微控制器通信链路管理)协议进行交互。
所述网络交换芯片模块用于实现所述计算节点模块、所述高速互联交换芯片模块、所述内存资源模块之间的网络互联,所述网络交换芯片与所述计算节点模块、所述高速互联交换芯片模块、所述内存资源模块连接。
本实施例中,如图1所示,网络交换芯片模块与高速互联交换芯片模块连接,与计算节点模块连接,与内存资源模块连接。网络交换芯片模块可以实现这三个模块之间的互联。
参考图2,图2是本申请一实施例提出的内存资源管理***网络互联示意图,如图2所示,第一基板管理控制器、第二基板管理控制器、第三基板管理控制器与网络交换芯片模块
本实施例中,高速互联交换芯片与上下游的硬件拓扑连接是固定的,上游连接至计算节点模块的端口,下游连接至内存资源模块的端口,由内存资源管理处理器配置高速互联交换芯片上下游的互联关系以及内存资源切片管理,第二基板管理控制器与内存资源管理处理器交互,获取当前高速互联交换芯片上游计算节点所使用的内存对应于哪些下游端口,并组成计算资源与内存资源的连接拓扑。
所述第三基板管理控制器通过所述内存扩展控制器获取所述内存的状态信息。
本实施例中,内存的状态信息就是内存运行过程中通过预先部署的传感器获取的内存运行时的各个指标的数值。
本实施例中,第三基板管理控制器通过SMBus(微控制器通信链路管理)协议与内存扩展控制器进行交互,从内存扩展控制器中获取到内存在运行过程中的内存信息。
所述第三基板管理控制器在所述内存的所述状态信息中的任意数值超过预设阈值时,生成第一故障信息。
本实施例中,内存的状态信息中包含有多个数值,每个数值都有预设的阈值,在内存的状态信息中的任意数值超过预设阈值时,生成第一故障信息。
示例地,内存状态信息中的温度信息显示当前内存温度为90摄氏度,而预设的温度阈值为80摄氏度,则此时生成第一故障信息。
所述第三基板管理控制器将所述第一故障信息发送至所述网络交换芯片模块。
本实施例中,第三基板管理控制器在生成第一故障信息之后,将第一故障信息发送至网络交换芯片模块中。
所述网络交换芯片模块将所述第一故障信息发送至所述第二基板管理控制器。
本实施例中,网络交换芯片模块在接收到第一故障信息后,将第一故障信息发送至第二基板管理控制器中。
所述第三基板管理控制器轮询获取所述内存在运行过程中产生的告警信息。
本实施例中,第三基板管理控制器通过MCTP over SMBus(一种计算机管理传输协议)协议与内存扩展控制器进行交互,轮询获取内存在运行过程中的告警信息(MailboxEvent Record)。
在所述告警信息为预设告警信息中的任意一条所述告警信息时,生成第二故障信息。
本实施例中,预设告警信息是预先设置的较为重要的告警信息。
本实施例中,在告警信息为预设告警信息中的任意一条告警信息时,生成第二故障信息。
示例地,预设告警信息可以是General Media Event Record(一般媒体事件记录)、DRAM Event Record(动态随机内存事件记录)、Memory Module Event Record(内存模组事件记录)、Physical Switch Event Record(物理交换机事件记录)、Virtual SwitchEvent Record(网络交换机事件记录)、MLD Port Event Record(网络协议事件记录)以及Dynamic Capacity Event Record(内存容量事件记录)等。
所述第三基板管理控制器将所述第二故障信息发送至所述网络交换芯片模块。
本实施例中,第三基板管理控制器将第二故障信息发送至网络交换芯片模块中。
所述网络交换芯片模块将所述第二故障信息发送至所述第二基板管理控制器。
本实施例中,网络交换芯片模块在接收到第二故障信息之后,将第二故障信息发送至第二基板管理控制器中。
所述第一基板管理控制器在识别到所述内存扩展控制器存在故障告警信息的情况下,生成第三故障信息。
本实施例中,在计算节点模块中,BIOS(基本输入输出***)通过LPC总线向第一基板管理控制器发送IPMI(Intelligent Platform Management Interface,智能平台管理接口)命令进行交互。
本实施例中,在计算节点模块中的计算节点开机的过程中,BIOS识别内存扩展控制器的故障告警信息(PCIE告警信息)是否存在,当内存扩展控制器中存在故障告警信息时,计算机节点无法正常使用对应的内存资源,进而无法执行计算任务,此时BIOS发送IPMI命令给第一基板管理控制器,第一基板管理控制器在识别到对应的内存扩展控制器的故障告警信息后,生成第三故障信息。
所述第一基板管理控制器将所述第三故障信息发送至所述网络交换芯片模块。
本实施例中,第一基板管理控制器将第三故障信息发送至网络交换芯片模块中。
所述网络交换芯片模块将所述第三故障信息发送至所述第二基板管理控制器。
本实施例中,网络交换芯片在接收到第三故障信息之后,将第三故障信息发送至第二基板管理控制器中。
所述内存资源管理处理器对所述高速互联交换芯片进行故障识别。
本实施例中,在高速互联交换芯片模块中,BIOS通过LCP总线向第二基板管理控制器发送IPMI命令进行交互。
本实施例中,在内存资源管理处理器的开机过程中,内存资源管理处理器的BIOS识别高速互联交换芯片发出的PCIE告警信息。
所述内存资源管理处理器将识别到的第四故障信息发送至第二基板管理控制器。
本实施例中,内存资源管理处理器将识别到的第四故障信息以IPMI命令的形式发送给第二基板管理控制器。
所述第二基板管理控制器对接收到的所有故障信息进行故障汇总。
本实施例中,第二基板管理控制器对接收到的所有故障信息,包括第一故障信息、第二故障信息、第三故障信息以及第四故障信息进行汇总。
本实施例中,第二基板管理控制器作为整机管理CMC(Chassis ManagementController 机箱管理控制器),进行统一的故障汇总,第一基板管理控制器以及第三基板管理控制器通过网络硬件链路以及命令接口与第二基板管理控制器建立连接,上报内存、内存扩展控制器、接口等硬件的故障信息。
所述第二基板管理控制器在接收到所述故障信息的情况下,根据内存资源管理处理器从所述高速互联交换芯片中读取的内存拓扑互联关系,确定所述故障信息对应的计算节点以及所述内存。
本实施例中,第二基板管理控制器在接收到故障信息的情况下,根据内存资源管理处理器从高速互联交换芯片中读取的内存拓扑互联关系,确定该故障信息对应的计算节点以及内存。
本实施例中,内存资源管理器会从高速互联芯片中读取到每个接口连接的计算节点或者内存扩展控制器,进而获取到整个***的拓扑互联关系,第二基板管理控制器可以从内存资源管理处理器中获取到整个***的拓扑互联关系,进而根据该拓扑互联关系,确定该故障信息对应的计算节点以及内存,只要知道一个硬件的编号,就可以知道对应的另一个硬件的编号,也可以定位到配置过内存切片的内存模块组,一个内存模组由多个内存组成,一个计算节点也可以对应一个内存模组。
示例地,故障信息是由DIMM0(内存0)发送的,从拓扑互联结构中可以DIMM0对应的计算节点是CPU0,则此时确定该故障信息对应的内存为DIMM0,计算节点为CPU0。
所述第二基板管理控制器将所述故障信息记录至故障日志中。
本实施例中,第二基板管理控制器在确定故障信息对应的计算节点以及内存之后,在故障日志中记录该故障信息。
所述第二基板管理控制器触发所述第一基板管理控制器检查所述中央处理器的运行状态。
本实施例中,第二基板管理控制器通过网络交换芯片模块向第一基板管理控制器发送命令,触发第一基板管理控制器检查中央处理器的运行状态。
所述第二基板管理控制器在所述第一基板管理控制器检测到所述中央处理器无法执行计算任务的情况下,控制所述计算节点进行关机。
本实施例中,第一基板管理控制器检测到中央处理器无法执行计算任务的情况下,第二基板管理控制器通过网络控制该中央处理器所在的计算节点关机。
所述第二基板管理控制器为所述内存添加异常内存标记。
本实施例中,第二基板管理控制器为出现故障的内存添加异常内存标记。在所有的内存资源中标注触发异常且未被修复的内存或者内存模组。
所述第二基板管理控制器将所述内存的内存信息发送至所述内存管理处理器。
本实施例中,第二基板管理控制器将被添加了异常内存标记的内存的内存信息发送至内存管理处理器。内存管理处理器在后续的内存分配或者切片配置任务中,将不再使用此部分内存资源。
所述内存管理处理器在接收到所述内存信息的情况下,停止为所述内存配置任务。
本实施例中,内存管理处理器在接收到故障内存的内存信息的情况下,在后续的内存分配或者内存切换配置任务中,将不再使用该内存资源,停止为内存配置对应的任务。
所述第二基板管理控制器向所述内存管理处理器发送资源分配命令。
本实施例中,第二基板管理控制器发送资源分配命令,该命令用于命令内存管理处理器为对应的计算节点重新分配内存。
所述内存管理处理器在接收到所述资源分配命令的情况下,进行内存资源配置。
本实施例中,内存管理处理器在接收到资源分配命令的情况下,进行内存资源配置,为计算节点重新分配可以正常使用的内存。
所述第二基板管理控制器控制所述计算节点重新启动。
本实施例中,第二基板管理控制器在计算节点分配到新的可以正常使用的内存后,重新启动该计算节点。
所述第二基板管理控制器在检测到所述内存修复成功的情况下,消除所述异常内存标记。
本实施例中,在第二基板管理控制器检测到内存修复成功的情况下,说明该内存已经修复完毕可以正常使用,此时消除为该内存添加的异常内存标记,内存资源管理处理器在后续配置时,可以使用该部分内存资源。
本实施例中,内存资源管理***通过高速互联交换芯片模块,实现了对内存资源池中的内存进行灵活分配的目的,并且通过第二基板管理控制器收集汇总各个硬件的故障信息,灵活定位出现故障的硬件,及时通知维修人员进行修复,分配一体机内存资源给不同的计算资源服务节点,极大提高了服务器硬件资源的利用率,降低了运维成本,且在修复期间暂停使用该内存,在该内存修复完毕之后继续启用该内存,不会影响到计算任务的运行。分配一体机内存资源给不同的计算资源服务节点,极大提高了服务器硬件资源的利用率,降低了运维成本。
参考图3,图3是本申请一实施例提出的内存资源管理方法的流程图,该方法应用于内存资源管理***,具体步骤如下:
S11:在内存池中的内存运行期间,轮询监控所述内存池中的每个所述内存的内存状态信息。
本实施例中,内存池就是内存资源模块中的多个内存组成的内存集群。
本实施例中,在内存池中的内存运行器件,轮询监控内存池中的每个内存的内存状态信息。
示例地,一共有10个内存,分别是内存0-内存9,则第三基板管理控制器通过对应的内存扩展控制器分别从内存0-内存9中获取到每个内存的内存状态信息。
S12:在所述内存状态信息中的任一数值超过预设阈值时,生成第一故障信息。
本实施例中,在内存状态信息中的任意数值超过预设阈值时,生成第一故障信息。
S13:将所述第一故障信息发送至第二基板管理控制器中。
本实施例中,第三基板管理控制器将第一故障信息发送至第二基板管理控制器中。
本实施例中,所述方法还包括:
S14:在所述内存池中的所述内存运行期间,轮询监控所述内存池中的每个内存发出的告警信息。
本实施例中,在内存池中的内存运行期间,内存有可能发出各种告警信息,第三基板管理控制器轮询监控内存池中的每个内存发出的告警信息。
S15:在所述告警信息为预设告警信息中的任意一条所述告警信息的情况下,生成第二故障信息。
本实施例中,预设告警信息是预先设置的较为严重,影响内存运行的告警信息。
本实施例中,当内存发出的告警信息为预设告警信息中的任意一条告警信息的情况下,说明该内存出现了影响正常运行的问题,此时生成第二故障信息。
S16:将所述第二故障信息发送至所述第二基板管理控制器中。
本实施例中,在生成第二故障信息之后,将第二故障信息发送至第二基板管理控制器中。
本实施例中,所述方法还包括:
S17:在计算节点启动过程中,确定内存扩展控制器中是否存在第一故障告警信息。
本实施例中,第一故障告警信息是计算节点对应的内存扩展控制器发出的PCIE告警信息。
本实施例中,在计算节点启动过程中,通过第一基板管理控制器确定内存扩展控制器中是否存在第一故障告警信息。
S18:在所述内存扩展控制器中存在所述第一故障告警信息时,生成第三故障信息。
本实施例中,在内存扩展控制器中存在第一故障告警信息时,生成第三故障信息。
S19:将所述第三故障信息发送至所述第二基板管理控制器中。
本实施例中,第一基板管理控制器通过网络互联模块将第三故障信息发送至第二基板管理控制器中。
本实施例中,所述方法还包括:
S110:在内存资源管理处理器的启动过程中,识别高速互联交换控制芯片中的第二故障告警信息。
本实施例中,第二故障告警信息是高速互联交换控制芯片发出的PCIE告警信息。
本实施例中,在内存资源管理处理器的启动过程中,识别高速互联交换控制芯片中的第二故障告警信息。
S111:在识别到所述第二故障告警信息的情况下,生成第四故障信息。
本实施例中,在内存资源管理处理器识别到第二故障告警信息的情况下,生成第四故障信息。
S112:将所述第四故障信息发送至所述第二基板管理控制器中。
本实施例中,内存资源管理处理器将第四故障信息发送至第二基板管理控制器中。
本实施例中,所述方法还包括:
S21在接收到故障信息时,根据内存拓扑互联关系,确定所述故障信息对应的所述计算节点以及所述内存。
本实施例中,第二基板管理控制器在接收到故障信息时,从内存资源管理处理器中获取到内存互联拓扑关系,根据该内存互联拓扑关系,确定故障信息对应的计算节点以及内存。
本实施例中,故障信息中包含了发送故障信息的硬件的编号,而内存互联拓扑关系中记录了每个内存对应的每个计算节点,因此可以根据该内存互联拓扑关系,确定故障信息对应的计算节点以及内存。
S22:检测所述计算节点对应的中央处理器是否正常运行。
本实施例中,第二基板管理控制器通过网络命令第一基板管理控制器检测该计算节点上的中央处理器是否正常运行。
S23:在检测到所述中央处理器无法正常运行的情况下,关闭所述计算节点。
本实施例中,在检测到该中央处理器无法正常运行的情况下,关闭计算节点。
S24:为所述内存添加运行异常标记。
本实施例中,故障异常标记是用于表征内存出现异常事件,无法正常运行的标记。
S25:将所述内存的内存信息发送至所述内存资源管理处理器中。
本实施例中,在为故障内存添加了运行异常标记之后,将该内存的内存信息发送至内存资源管理处理器中。
S26:为所述计算节点分配新的所述内存。
本实施例中,内存资源管理处理器为该计算节点分配新的内存,以使得该计算节点可以正常执行计算任务。
S27:在所述计算节点的所述内存分配完毕的情况下,重新启动所述计算节点。
本实施例中,在为计算节点分配了新的内存的情况下,重新启动该计算节点。
本实施例中,所述为所述计算节点分配新的所述内存,包括:
S27-1:从所述内存池中筛选出未被添加所述运行异常标记的多个所述内存。
本实施例中,为计算节点分配内存时,首先从内存池中筛选出未被添加有运行异常标记的多个内存。
S27-2:在未被添加所述运行异常标记的多个所述内存中确定处于空闲状态的任意一个所述内存。
本实施例中,在确定了多个内存之后,从这多个内存中确定处于空闲状态的任意一个内存。
S27-3:在所述内存处于正常运行状态的情况下,将所述内存分配为所述计算节点对应的所述内存。
本实施例中,在该内存处于正常运行状态的情况下,将该内存分配为该计算机节点对应的内存。
本实施例中,所述方法还包括:
S31:在检测到添加有所述运行异常标记的所述内存修复完毕的情况下,删除所述内存对应的所述运行异常标记。
本实施例中,内存资源管理控制器定期对添加有异常标记的内存进行检测,当检测到添加有运行异常标记的内存修复完毕的情况下,删除该内存对应的运行异常标记。此时该内存在内存池中恢复为正常运行的内存,在内存资源管理处理器进行内存分配时,可以使用该部分内存。
本实施例中,在内存资源管理***中使用上述方法,可以灵活的对内存池中的内存资源进行分配,在内存出现故障的情况下,可以将正常内存分配至计算节点中,保证了计算任务的正常运行,并且可以快速定位到发生故障的硬件,提升了整个***的运维效率。
基于同一发明构思,本申请一实施例提供一种内存资源管理装置。参考图4,图4是本申请一实施例提出的内存资源管理装置400的示意图。如图4所示,该装置包括:
内存状态信息确定模块401,用于在内存池中的内存运行期间,轮询监控所述内存池中的每个所述内存的内存状态信息;
第一故障信息生成模块402,用于在所述内存状态信息中的任一数值超过预设阈值时,生成第一故障信息;
第一故障信息发送模块403,用于将所述第一故障信息发送至第二基板管理控制器中。
可选地,所述装置还包括:
内存告警监控模块,用于在所述内存池中的所述内存运行期间,轮询监控所述内存池中的每个内存发出的告警信息;
第二故障信息生成模块,用于在所述告警信息为预设告警信息中的任意一条所述告警信息的情况下,生成第二故障信息;
第二故障信息发送模块,用于将所述第二故障信息发送至所述第二基板管理控制器中。
可选地,所述装置还包括:
第一故障告警信息检测模块,用于在计算节点启动过程中,确定内存扩展控制器中是否存在第一故障告警信息;
第三故障信息生成模块,用于在所述内存扩展控制器中存在所述第一故障告警信息时,生成第三故障信息;
第三故障信息发送模块,用于将所述第三故障信息发送至所述第二基板管理控制器中。
可选地,所述装置还包括:
第二故障告警信息检测模块,用于在内存资源管理处理器的启动过程中,识别高速互联交换控制芯片中的第二故障告警信息;
第四故障信息生成模块,用于在识别到所述第二故障告警信息的情况下,生成第四故障信息;
第四故障信息发送模块,用于将所述第四故障信息发送至所述第二基板管理控制器中。
可选地,所述方法还包括:
硬件确定模块,用于在接收到故障信息时,根据内存拓扑互联关系,确定所述故障信息对应的所述计算节点以及所述内存;
运行状态检测模块,用于检测所述计算节点对应的中央处理器是否正常运行;
计算节点关闭模块,用于在检测到所述中央处理器无法正常运行的情况下,关闭所述计算节点;
运行异常标记添加模块,用于为所述内存添加运行异常标记;
内存信息发送模块,用于将所述内存的内存信息发送至所述内存资源管理处理器中;
内存分配模块,用于为所述计算节点分配新的所述内存;
在所述计算节点的所述内存分配完毕的情况下,重新启动所述计算节点。
可选地,所述内存分配模块包括:
内存筛选子模块,用于从所述内存池中筛选出未被添加所述运行异常标记的多个所述内存;
内存确定子模块,用于在未被添加所述运行异常标记的多个所述内存中确定处于空闲状态的任意一个所述内存;
内存分配子模块,用于在所述内存处于正常运行状态的情况下,将所述内存分配为所述计算节点对应的所述内存。
基于同一发明构思,本申请另一实施例提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的内存资源管理方法中的步骤。
基于同一发明构思,本申请另一实施例提供一种电子设备,参考图5,图5是本申请实施例提出的一种电子设备500的示意图,包括存储器502、处理器501及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的内存资源管理方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的内存资源管理方法、装置、设备及存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (18)

1.一种内存资源管理***,其特征在于,所述***包括:
计算节点模块、高速互联交换芯片模块、内存资源模块、网络交换芯片模块;
所述计算节点模块包括第一基板管理控制器、中央处理器,所述第一基板管理控制器用于控制所述中央处理器;
所述高速互联交换芯片模块包括高速互联交换芯片、第二基板管理控制器、内存资源管理处理器,所述高速互联交换芯片用于对内存资源进行管理,所述内存资源管理处理器用于通过高速互联交换芯片为所述计算节点模块分配对应的内存,所述第二基板管理控制器用于接收所述内存资源管理处理器发送的故障信息,并且通过所述网络交换芯片接收所述计算节点模块、所述内存资源模块发送的所述故障信息,根据所述故障信息确定对应的故障硬件;
所述内存资源模块包括第三基板管理控制器、内存扩展控制器、内存,所述第三基板管理控制器用于控制所述内存扩展控制器,所述内存扩展控制器用于监控和管理所述内存;
所述网络交换芯片模块用于实现所述计算节点模块、所述高速互联交换芯片模块、所述内存资源模块之间的网络互联。
2.根据权利要求1所述的内存资源管理***,其特征在于,所述高速互联交换芯片与所述中央处理器、所述内存资源管理处理器连接,所述内存资源管理处理器与所述第二基板管理控制器连接;
所述第三基板管理控制器与所述内存扩展控制器连接,所述内存扩展控制器与所述高速互联交换芯片、所述内存连接;
所述网络交换芯片与所述计算节点模块、所述高速互联交换芯片模块、所述内存资源模块连接。
3.根据权利要求1所述的内存资源管理***,其特征在于,所述第三基板管理控制器通过所述内存扩展控制器获取所述内存的状态信息;
所述第三基板管理控制器在所述内存的所述状态信息中的任意数值超过预设阈值时,生成第一故障信息;
所述第三基板管理控制器将所述第一故障信息发送至所述网络交换芯片模块;
所述网络交换芯片模块将所述第一故障信息发送至所述第二基板管理控制器。
4.根据权利要求1所述的内存资源管理***,其特征在于,所述第三基板管理控制器轮询获取所述内存在运行过程中的产生的告警信息;
在所述告警信息为预设告警信息中的任意一条所述告警信息时,生成第二故障信息;
所述第三基板管理控制器将所述第二故障信息发送至所述网络交换芯片模块;
所述网络交换芯片模块将所述第二故障信息发送至所述第二基板管理控制器。
5.根据权利要求1所述的内存资源管理***,其特征在于,所述第一基板管理控制器在识别到所述内存扩展控制器存在故障告警信息的情况下,生成第三故障信息;
所述第一基板管理控制器将所述第三故障信息发送至所述网络交换芯片模块;
所述网络交换芯片模块将所述第三故障信息发送至所述第二基板管理控制器。
6.根据权利要求1所述的内存资源管理***,其特征在于,所述内存资源管理处理器对所述高速互联交换芯片进行故障识别;
所述内存资源管理处理器将识别到的第四故障信息发送至第二基板管理控制器;
所述第二基板管理控制器对接收到的所有故障信息进行故障汇总。
7.根据权利要求1所述的内存资源管理***,其特征在于,所述第二基板管理控制器在接收到所述故障信息的情况下,根据内存资源管理处理器从所述高速互联交换芯片中读取的内存拓扑互联关系,确定所述故障信息对应的计算节点以及所述内存;
所述第二基板管理控制器将所述故障信息记录至故障日志中;
所述第二基板管理控制器触发所述第一基板管理控制器检查所述中央处理器的运行状态;
所述第二基板管理控制器在所述第一基板管理控制器检测到所述中央处理器无法执行计算任务的情况下,控制所述计算节点进行关机;
所述第二基板管理控制器为所述内存添加异常内存标记;
所述第二基板管理控制器将所述内存的内存信息发送至所述内存管理处理器;
所述内存管理处理器在接收到所述内存信息的情况下,停止为所述内存配置任务;
所述第二基板管理控制器向所述内存管理处理器发送资源分配命令;
所述内存管理处理器在接收到所述资源分配命令的情况下,进行内存资源配置;
所述第二基板管理控制器控制所述计算节点重新启动。
8.根据权利要求7所述的内存资源管理***,其特征在于,所述第二基板管理控制器在检测到所述内存修复成功的情况下,消除所述异常内存标记。
9.一种内存资源管理方法,其特征在于,所述方法应用于权利要求1至8任一所述的内存资源管理***,包括:
在内存池中的内存运行期间,轮询监控所述内存池中的每个所述内存的内存状态信息;
在所述内存状态信息中的任一数值超过预设阈值时,生成第一故障信息;
将所述第一故障信息发送至第二基板管理控制器中。
10.根据权利要求9所述的内存资源管理方法,其特征在于,所述方法还包括:
在所述内存池中的所述内存运行期间,轮询监控所述内存池中的每个内存发出的告警信息;
在所述告警信息为预设告警信息中的任意一条所述告警信息的情况下,生成第二故障信息;
将所述第二故障信息发送至所述第二基板管理控制器中。
11.根据权利要求10所述的内存资源管理方法,其特征在于,所述方法还包括:
在计算节点启动过程中,确定内存扩展控制器中是否存在第一故障告警信息;
在所述内存扩展控制器中存在所述第一故障告警信息时,生成第三故障信息;
将所述第三故障信息发送至所述第二基板管理控制器中。
12.根据权利要求11所述的内存资源管理方法,其特征在于,所述方法还包括:
在内存资源管理处理器的启动过程中,识别高速互联交换控制芯片中的第二故障告警信息;
在识别到所述第二故障告警信息的情况下,生成第四故障信息;
将所述第四故障信息发送至所述第二基板管理控制器中。
13.根据权利要求12所述的内存资源管理方法,其特征在于,所述方法还包括:
在接收到故障信息时,根据内存拓扑互联关系,确定所述故障信息对应的所述计算节点以及所述内存;
检测所述计算节点对应的中央处理器是否正常运行;
在检测到所述中央处理器无法正常运行的情况下,关闭所述计算节点;
为所述内存添加运行异常标记;
将所述内存的内存信息发送至所述内存资源管理处理器中;
为所述计算节点分配新的所述内存;
在所述计算节点的所述内存分配完毕的情况下,重新启动所述计算节点。
14.根据权利要求13所述的内存资源管理方法,其特征在于,所述为所述计算节点分配新的所述内存,包括:
从所述内存池中筛选出未被添加所述运行异常标记的多个所述内存;
在未被添加所述运行异常标记的多个所述内存中确定处于空闲状态的任意一个所述内存;
在所述内存处于正常运行状态的情况下,将所述内存分配为所述计算节点对应的所述内存。
15.根据权利要求13所述的内存资源管理方法,其特征在于,所述方法还包括:
在检测到添加有所述运行异常标记的所述内存修复完毕的情况下,删除所述内存对应的所述运行异常标记。
16.一种内存资源管理装置,其特征在于,所述装置应用于权利要求1至8任一所述的内存资源管理***,包括:
内存状态信息确定模块,用于在内存池中的内存运行期间,轮询监控所述内存池中的每个所述内存的内存状态信息;
第一故障信息生成模块,用于在所述内存状态信息中的任一数值超过预设阈值时,生成第一故障信息;
第一故障信息发送模块,用于将所述第一故障信息发送至第二基板管理控制器中。
17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现如权利要求9至15任一所述的方法中的步骤。
18.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求9至15任一所述的方法中的步骤。
CN202410372719.1A 2024-03-29 2024-03-29 一种内存资源管理***、方法、装置、设备及存储介质 Active CN117992270B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410372719.1A CN117992270B (zh) 2024-03-29 2024-03-29 一种内存资源管理***、方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410372719.1A CN117992270B (zh) 2024-03-29 2024-03-29 一种内存资源管理***、方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN117992270A CN117992270A (zh) 2024-05-07
CN117992270B true CN117992270B (zh) 2024-05-31

Family

ID=90902326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410372719.1A Active CN117992270B (zh) 2024-03-29 2024-03-29 一种内存资源管理***、方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117992270B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117289A (zh) * 2018-08-15 2019-01-01 英业达科技有限公司 服务器***及管理双基板管理控制器的方法
CN116881053A (zh) * 2023-09-06 2023-10-13 苏州浪潮智能科技有限公司 数据处理方法及交换板、数据处理***、数据处理装置
CN117707884A (zh) * 2023-11-29 2024-03-15 苏州元脑智能科技有限公司 一种监控电源管理芯片的方法、***、设备和介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6910092B2 (en) * 2001-12-10 2005-06-21 International Business Machines Corporation Chip to chip interface for interconnecting chips

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117289A (zh) * 2018-08-15 2019-01-01 英业达科技有限公司 服务器***及管理双基板管理控制器的方法
CN116881053A (zh) * 2023-09-06 2023-10-13 苏州浪潮智能科技有限公司 数据处理方法及交换板、数据处理***、数据处理装置
CN117707884A (zh) * 2023-11-29 2024-03-15 苏州元脑智能科技有限公司 一种监控电源管理芯片的方法、***、设备和介质

Also Published As

Publication number Publication date
CN117992270A (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
US9747183B2 (en) Method and system for intelligent distributed health monitoring in switching system equipment
US10429914B2 (en) Multi-level data center using consolidated power control
US9800087B2 (en) Multi-level data center consolidated power control
US9934183B2 (en) Server comprising a plurality of modules
US7623460B2 (en) Cluster system, load distribution method, optimization client program, and arbitration server program
US9189349B2 (en) Distributed blade server system, management server and switching method
US8725905B2 (en) Power over ethernet powered management and diagnoses of information handling systems
CN1770707B (zh) 计算机簇中基于法定成员数关无响应服务器的装置和方法
US20150178095A1 (en) Synchronous bmc configuration and operation within cluster of bmc
CN103607297A (zh) 一种计算机集群***的故障处理方法
US10317985B2 (en) Shutdown of computing devices
CN100362481C (zh) 多处理器设备单元主备保护方法
CN102110035A (zh) 多处理器计算机***中的dmi冗余
CN110535714B (zh) 一种仲裁方法及相关装置
CN116483613B (zh) 故障内存条的处理方法及装置、电子设备及存储介质
CN111984471B (zh) 一种机柜电源bmc冗余管理***及方法
CN117992270B (zh) 一种内存资源管理***、方法、装置、设备及存储介质
CN111628944B (zh) 交换机及交换机***
US20230244550A1 (en) Computer device and management method
CN113038299A (zh) 一种交换机、配置方法、控制方法以及存储介质
CN111459768A (zh) 一种硬盘管理方法、装置、设备及机器可读存储介质
CN114124803B (zh) 设备管理方法、装置、电子设备及存储介质
CN109491867A (zh) 一种通讯自动恢复方法和装置
CN114528163A (zh) 一种服务器故障硬盘自动定位***、方法及装置
CN107547257B (zh) 一种服务器集群实现方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant