CN115567400A - 一种整机柜管理方法、装置、设备和介质 - Google Patents

一种整机柜管理方法、装置、设备和介质 Download PDF

Info

Publication number
CN115567400A
CN115567400A CN202211198798.6A CN202211198798A CN115567400A CN 115567400 A CN115567400 A CN 115567400A CN 202211198798 A CN202211198798 A CN 202211198798A CN 115567400 A CN115567400 A CN 115567400A
Authority
CN
China
Prior art keywords
management
management controller
nodes
sub
cabinet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211198798.6A
Other languages
English (en)
Inventor
郭平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202211198798.6A priority Critical patent/CN115567400A/zh
Publication of CN115567400A publication Critical patent/CN115567400A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/085Retrieval of network configuration; Tracking network configuration history
    • H04L41/0853Retrieval of network configuration; Tracking network configuration history by actively collecting configuration information or by backing up configuration information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提供了一种整机柜管理方法、装置、设备和介质,应用于第一管理控制器,所述第一管理控制器部署在资源交换节点上,所述方法包括:向N个子节点分别发送配置参数,以使所述N个子节点分别根据各自接收到的配置参数进行配置,并在配置完毕后向所述资源交换节点上报自身的身份标识信息;根据所述N个子节点各自的身份标识信息,建立整机柜的拓扑关系。在本申请中,利用进行子节点自动化配置和身份标识信息上报以实现资源交换节点与子节点之间的拓扑发现,实现了资源交换节点与子节点之间拓扑关系的快速准确识别。

Description

一种整机柜管理方法、装置、设备和介质
技术领域
本申请涉及服务器应用技术领域,特别涉及一种整机柜管理方法、装置、设备和介质。
背景技术
服务器资源池化技术能够带来灵活、弹性的资源部署,提高资源利用率,以及更有效提高服务器的故障修复能力和运营效率。服务器资源池化技术通常以整机柜为单位进行部署,在整机柜中将一些重要资源池化,如CPU池、内存池、存储池以及异构加速池等,使用资源交换节点(Switch节点)将整机柜内各种资源池连接到一起,实现各种资源的整合和灵活配置。
目前,以资源交换节点为核心的资源池化技术仍处于研究阶段,对于资源池整机柜,如何正确识别资源交换节点各端口与子节点的拓扑关系并进行管理就成为亟待解决的问题。
发明内容
鉴于上述问题,本申请实施例提供了一种整机柜管理方法、装置、设备和介质,以便克服上述问题或者至少部分地解决上述问题。
本申请实施例的第一方面,公开了一种整机柜管理方法,应用于第一管理控制器,所述第一管理控制器部署在资源交换节点上,所述方法包括:
向N个子节点分别发送配置参数,以使所述N个子节点分别根据各自接收到的配置参数进行配置,并在配置完毕后向所述资源交换节点上报自身的身份标识信息;
根据所述N个子节点各自的身份标识信息,建立整机柜的拓扑关系。
可选地,所述第一管理控制器与N个子节点上部署的存储设备分别建立有通信连接,所述通信连接是通过所述资源交换节点的N个端口与所述N个子节点的连接线缆中的通信链路实现通信的;向N个子节点分别发送配置参数,包括:
获取所述N个子节点各自的存储设备的控制权限;
分别将所述N个子节点的配置参数写入到所述N子节点各自的存储设备中,以使所述N个子节点从各自部署的存储设备读取自身配置参数。
可选地,在根据所述N个子节点各自的身份标识信息,建立整机柜的拓扑关系之前,还包括:
从整机柜内部局域网中获取N个子节点上报的身份标识信息,所述整机柜内部局域网是所述第一管理控制器、N个第二管理控制器、通过网络链路分别与整机柜内的TOR网络交换机连接而建立的局域网,每个所述第二管理控制器部署在一个子节点上。
可选地,在建立整机柜的拓扑关系之后,还包括:
将所述拓扑关系通过外部管理网络上报给管理客户端,以供所述管理客户端对所述N个子节点进行管理。
可选地,所述第一管理控制器与N个子节点上部署的存储设备分别建立有通信连接,所述通信连接是通过所述资源交换节点的N个端口与所述N个子节点的连接线缆中的通信链路实现通信的;所述方法还包括:
当在预设时长内未接收到子节点上报的身份标识信息时,读取该子节点的存储设备中故障信息;
当接收到整机柜内部局域网的故障广播时,读取发生故障的子节点的存储设备中故障信息;
将获取的故障信息通过外部管理网络上报给管理客户端,以使所述管理客户端对故障进行处理。
可选地,所述N个子节点上部署有Mux,所述第一管理控制器通过所述Mux与N个子节点上部署的存储设备分别建立有通信连接,所述第二管理控制器通过所述Mux与对应的存储设备通信连接;所述方法还包括:
所述第一管理控制器与每个子节点上部署的第二管理控制器通过所述Mux进行控制权切换,以使所述第一管理控制器、第二管理控制器可分别对所述存储设备进行读写操作。
本申请实施例的第二方面,公开了一种整机柜管理方法,应用于第二管理控制器,所述第二管理控制器部署在子节点上,所述方法包括:
接收第一管理控制器发送的配置参数;
根据接收到的配置参数进行配置;
完成配置后向资源交换节点上报自身的身份标识信息,以使所述第一管理控制器根据所述身份标识信息,建立整机柜的拓扑关系。
可选地,所述第二管理控制器通过通信链路与该子节点上部署的存储设备建立通信连接;所述接收第一管理控制器发送的配置参数,包括:
获取所述存储设备的控制权限;
从所述存储设备中读取所述第一管理控制器预先写入到所述存储设备中的配置参数。
可选地,所述完成配置后向所述资源交换节点上报自身的身份标识信息,包括:
将所述自身的身份标识信息发布在整机柜内部局域网中,所述整机柜内部局域网是所述第一管理控制器、N个第二管理控制器、通过网络链路分别与整机柜内的TOR网络交换机连接而建立的局域网。
可选地,所述第二管理控制器通过通信链路与该子节点上部署的存储设备建立通信连接,所述方法还包括:
当子节点在配置过程中或身份标识信息上报过程中发生故障时,将故障信息写入到该子节点的存储设备中,以使所述第一管理控制器从所述存储设备中读取故障信息;
向所述整机柜内部局域网的发送故障广播,以使所述第一管理控制器接收到所述故障广播后,读取发生故障的子节点的存储设备中故障信息。
本申请实施例的第三方面,公开了一种整机柜管理方法,应用于管理客户端,所述管理客户端通过外部管理网络与整机柜内的TOR网络交换机连接,所述方法包括:
通过所述外部管理网络访问第一管理控制器,以获得整机柜的拓扑关系,所述拓扑关系是按照上述第一方面所述方法生成的;
利用整机柜内部局域网调用所述拓扑关系中N个子节点上的通信接口,以获取N个子节点的设备信息,并对所述N个子节点进行管理。
可选地,所述方法还包括:
通过所述外部管理网络获取所述第一管理控制器上报的故障信息,并对所述故障信息进行处理。
本申请实施例的第四方面,公开了一种整机柜管理装置,应用于第一管理控制器,所述第一管理控制器部署在资源交换节点上,所述装置包括:
发送模块,用于向N个子节点分别发送配置参数,以使所述N个子节点分别根据各自接收到的配置参数进行配置,并在配置完毕后向所述资源交换节点上报自身的身份标识信息;
识别模块,用于根据所述N个子节点各自的身份标识信息,建立整机柜的拓扑关系。
本申请实施例的第五方面,公开了一种整机柜管理装置,应用于第二管理控制器,所述第二管理控制器部署在子节点上,所述装置包括:
接收模块,用于接收第一管理控制器发送的配置参数;
配置模块,用于根据接收到的配置参数进行配置;
上报模块,用于完成配置后向所述资源交换节点上报自身的身份标识信息,以使所述第一管理控制器根据所述身份标识信息,建立整机柜的拓扑关系。
本申请实施例的第六方面,公开了一种整机柜管理装置,应用于管理客户端,所述管理客户端通过外部管理网络与整机柜内的TOR网络交换机连接,所述装置包括:
访问模块,用于通过所述外部管理网络访问第一管理控制器,以获得整机柜的拓扑关系,所述拓扑关系是按照上述第一方面所述方法生成的;
管理模块,用于利用整机柜内部局域网调用所述拓扑关系中N个子节点上的通信接口,以获取N个子节点的设备信息,并对所述N个子节点进行管理。
本申请实施例的第七方面,公开了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现上述第一方面所述的整机柜管理方法或上述第二方面所述的整机柜管理方法或上述第三方面所述的整机柜管理方法。
本申请实施例的第八方面,公开了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现上述第一方面所述的整机柜管理方法或上述第二方面所述的整机柜管理方法或上述第三方面所述的整机柜管理方法。
本申请实施例包括以下优点:
在本申请实施例中,利用整机柜内资源交换节点上的第一管理控制器分别向各子节点发送配置参数,各子节点根据配置参数完成自动化配置后向资源交换节点上报自身的身份标识信息,然后第一管理控制器根据接收到的身份标识信息建立整机柜的拓扑关系。因此,本实施例提出一种可行性高的资源池化整机柜管理方法,利用子节点自动化配置和身份标识信息上报以实现资源交换节点与子节点之间的拓扑发现,实现了资源交换节点与子节点之间拓扑关系的快速准确识别。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种应用于第一管理控制器的整机柜管理方法步骤流程图;
图2是本申请实施例提供的一种应用于第二管理控制器的整机柜管理方法步骤流程图;
图3是本申请实施例提供的一种应用于管理客户端的整机柜管理方法步骤流程图;
图4是本申请实施例提供的一种整机柜管理***硬件拓扑结构示意图;
图5是本申请实施例提供的一种应用于第一管理控制器的整机柜管理装置的结构示意图;
图6是本申请实施例提供的一种应用于第二管理控制器的整机柜管理装置的结构示意图;
图7是本申请实施例提供的一种应用于管理客户端的整机柜管理装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1示出了本申请实施例提供的整机柜控制方法,应用于第一管理控制器,所述第一管理控制器部署在资源交换节点上,所述方法包括:
步骤S101:向N个子节点分别发送配置参数,以使所述N个子节点分别根据各自接收到的配置参数进行配置,并在配置完毕后向所述资源交换节点上报自身的身份标识信息。
在本实施例中,整机柜相当于一台大型服务器,在整机柜内包括有资源交换节点(即Switch节点)和若干个(N个)子节点,资源交换节点是整机柜资源池化的核心交换设备,可用于设备的拓展和资源及信息的交互,在资源交换节点上部署有第一管理控制器,该第一管理控制器用于对资源交换节点的运行和维护进行管理;每个子节点相当于整机柜内部的一个池化资源(例如,CPU池、内存池、存储池以及异构加速池等),在每个子节点上部署有第二管理控制器,该第二管理控制器用于对子节点的运行和维护进行管理。
由于每个子节点的配置参数均不同,当资源交换节点上的第一管理控制器启动后,逐个向每个子节点发送配置参数,其中,配置参数包括整机柜内局域网络的管理参数、资源交换节点上对应连接端口的标识。当子节点接收到配置参数后根据配置参数进行自动配置,并在配置完成后将自身的身份标识信息进行上报,各子节点自身的身份标识信息包括自身的主要能力、管理地址、设备标识、接口标识等信息。
在一种可选的实施例中,所述第一管理控制器与N个子节点上部署的存储设备分别建立有通信连接,所述通信连接是通过所述资源交换节点的N个端口与所述N个子节点的连接线缆中的通信链路实现通信的;向N个子节点分别发送配置参数,包括:
获取所述N个子节点各自的存储设备的控制权限;
分别将所述N个子节点的配置参数写入到所述N子节点各自的存储设备中,以使所述N个子节点从各自部署的存储设备读取自身配置参数。
在本实施例中,每个子节点上部署有存储设备,存储设备是指具有数据存储功能,并能够进行数据读写操作的设备或芯片,例如,EEPROM(Electrically ErasableProgrammable Read Only Memory,带电可擦可编程只读存储器),EEPROM是一种掉电后数据不丢失的存储芯片。通信链路是指具有能够实现设备之间数据的发送和接收功能的链路,通信链路可以为SMBus链路(System Management Bus,***管理总线),SMBus是一种二线制串行总线,通过SMBus链路可实现设备之间数据的发送和接收。进而资源交换节点上第一管理控制器通过资源交换节点各端口与子节点连接线缆中的SMBus链路,建立与子节点EEPROM的连接,实现第一管理控制器与存储设备(EEPROM)之间的通信,即第一管理控制器可通过通信连接对存储设备进行数据写入与读取操作。
当资源交换节点上的第一管理控制器启动后,第一管理控制器主动获取每个子节点的存储设备的控制权限,并在获取控制权限后将配置参数写入到子节点的存储器对应的区域,在完成写入操作后释放该子节点的存储设备的控制权限。此外,当第一管理控制器完成配置参数写入操作后,第一管理控制器可通过发送网络广播的方式以通知各个子节点可以开始读取存储设备中的配置参数。
在本实施例中,利用通信链路和存储设备进行资源池整机柜内设备拓扑建立即管理的硬件连接,第一管理控制器将配置参数写入到存储设备中,以使子节点通过该存储设备获取配置参数,进而以较低的成本实现资源交换节点与子节点之间数据交互,由于存储设备的成本较低,使得整机柜管理***具备更高的可靠性和拓展性。
步骤S102:根据所述N个子节点各自的身份标识信息,建立整机柜的拓扑关系。
在本实施例中,当资源交换节点上的第一管理控制器在接收到各个子节点上报的身份标识信息后,识别身份标识信息,并根据识别到的身份标识信息建立整机柜的拓扑关系,其中,拓扑关系是指资源交换节点与各子节点的连接关系。进而实现资源交换节点与子节点之间的拓扑发现,实现了资源交换节点与子节点之间拓扑关系的快速准确识别。
在一种可选的实施例中,在根据所述N个子节点各自的身份标识信息,建立整机柜的拓扑关系之前,还包括:
从整机柜内部局域网中获取N个子节点上报的身份标识信息,所述整机柜内部局域网是所述第一管理控制器、N个第二管理控制器、通过网络链路分别与整机柜内的TOR网络交换机连接而建立的局域网,每个所述第二管理控制器部署在一个子节点上。
在本实施例中,网络链路可以是LAN(local area network,局域网)链路,资源交换节点上的第一管理控制器和各个子节点上的第二管理控制器通过LAN链路分别连接到位于机柜顶部的TOR网络交换机,进而建立整机内部局域网连接。在建立局域网连接后,第一管理控制器和第二管理控制器可进行网络数据交换,当子节点根据配置参数完成配置后,第二管理控制器将子节点自身的身份标识信息发送到整机柜内部局域网中,资源交换节点上的第一管理控制器从整机柜内部局域网中获取各个子节点发送的身份标识信息。
其中,所述的身份标识信息是以LLDPDU报文的形式进行发送,即第二管理控制器在完成配置后,将自身的身份标识信息(例如,自身的主要能力、管理地址、设备标识、接口标识等信息)封装在LLDPDU(Link Layer Discovery Protocol Data Unit,链路层发现协议数据单元)中,并发布在整机柜内部局域网中,以使第一管理控制器从整机柜内部局域网接收接收各个子节点发送出来的LLDPDU报文,并根据LLDPDU报文中携带的身份标识信息建立整机柜内的拓扑关系。
在一种可选的实施例中,在建立整机柜的拓扑关系之后,还包括:
将所述拓扑关系通过外部管理网络上报给管理客户端,以供所述管理客户端对所述N个子节点进行管理。
在本实施例中位于整机柜顶部的TOR网络交换机连接到外部管理网络并与管理客户端建立连接,使管理客户端可对整机柜进行管理。第一管理控制器将建立好的整机柜的拓扑关系上报给管理客户端,管理客户端对拓扑关系中的各节点进行管理,进而该方法基于拓扑关系实现对整机柜的可靠管理,相较于以往整机柜管理技术匮乏,提出了一种可行性较高的整机柜管理方案。
在一种可选的实施例中,所述第一管理控制器与N个子节点上部署的存储设备分别建立有通信连接,所述通信连接是通过所述资源交换节点的N个端口与所述N个子节点的连接线缆中的通信链路实现通信的;所述方法还包括:
当在预设时长内未接收到子节点上报的身份标识信息时,读取该子节点的存储设备中故障信息;
当接收到整机柜内部局域网的故障广播时,读取发生故障的子节点的存储设备中故障信息;
将获取的故障信息通过外部管理网络上报给管理客户端,以使所述管理客户端对故障进行处理。
在本实施例中,当第一管理控制器在预设时长内没有接收到子节点上报的身份标识信息,说明发生故障导致该子节点无法按时上报自身的身份标识信息,或当接收到整机柜内部局域网的故障广播时,也说明子节点发生故障。
其中,故障问题可能是该子节点配置过程出现故障,或者身份标识信息上报过程中发生故障以及局域网网络故障,在发生故障后,该子节点上的第二管理控制器会将故障信息写入到该子节点的存储设备中,以便于资源交换节点上的第一管理控制器从故障子节点的存储设备中读取该故障信息。因此,通过各个子节点中的存储设备,以及第一管理控制器可实现的子节点故障信息上报,管理客户端并对故障信息进行处理,使得该整机柜管理方法具有故障诊断服务,进而该整机柜管理方法的可靠性更高。
在一种可选的实施例中,所述N个子节点上部署有Mux,所述第一管理控制器通过所述Mux与N个子节点上部署的存储设备分别建立有通信连接,所述第二管理控制器通过所述Mux与对应的存储设备通信连接;所述方法还包括:
所述第一管理控制器与每个子节点上部署的第二管理控制器通过所述Mux进行控制权切换,以使所述第一管理控制器、第二管理控制器可分别对所述存储设备进行读写操作。
第一管理控制器和第二管理控制器对子节点的存储设备进行读、写操作之前,需要先获取该存储设备的控制权限。因此,在各子节点的存储设备之前设置一个Mux(multiplexer,数据选择器),Mux能根据需要进行信号的切换,在本实施例中,利用Mux来实现第一管理控制器和第二管理控制器对存储设备的控制权限进行切换,进而实现资源交换节点与各子节点之间数据有序的交互。
在本实施例中,利用整机柜内资源交换节点上的第一管理控制器分别向各子节点发送配置参数,各子节点根据配置参数完成自动化配置后向资源交换节点上报自身的身份标识信息,然后第一管理控制器根据接收到的身份标识信息建立整机柜的拓扑关系。因此,本实施例提出一种可行性高的资源池化整机柜管理方法,利用子节点自动化配置和身份标识信息上报以实现资源交换节点与子节点之间的拓扑发现,实现了资源交换节点与子节点之间拓扑关系的快速准确识别。
如图2所示,依据本申请的又一个方面,提供了一种整机柜管理方法,应用于第二管理控制器,所述第二管理控制器部署在子节点上,所述方法包括:
步骤S201:接收第一管理控制器发送的配置参数;
步骤S202:根据接收到的配置参数进行配置;
步骤S203:完成配置后向资源交换节点上报自身的身份标识信息,以使所述第一管理控制器根据所述身份标识信息,建立整机柜的拓扑关系。
在本实施例中,每个子节点上均部署有第二管理控制器,该第二管理控制器用于对子节点的运行和维护进行管理,够实现与资源交换节点上第一管理控制器之间的数据交互。接收第一管理控制器发送的配置参数,是指每个子节点接收第一管理控制器单独发送给该子节点的配置参数,配置参数中包含有资源交换节点与子节点对应连接端口的标识信息,因此每个子节点的配置参数并不相同。
当第二管理控制器在接收到各自的配置参数后,第二管理控制器根据各自的配置参数进行自动配置,并在配置完成后向第一管理控制器发送自身的身份标识信息,其中,所述该身份标识信息包括子节点自身的主要能力、管理地址、设备标识、接口标识等信息。而第一管理控制器根据接收到的每个子节点的身份标识信息,建立整机柜内的拓扑关系,进而各子节点通过自动化配置和身份标识信息上报的方式实现资源交换节点与子节点之间的拓扑发现,实现资源交换节点与子节点之间拓扑关系的快速准确识别。
在一种可选的实施例中,所述第二管理控制器通过通信链路与该子节点上部署的存储设备建立通信连接;所述接收第一管理控制器发送的配置参数,包括:
获取所述存储设备的控制权限;
从所述存储设备中读取所述第一管理控制器预先写入到所述存储设备中的配置参数。
在本实施例中,当第一管理控制器将配置参数写入到子节点存储设备对应区域后,会释放子节点存储设备的控制权限,并通知第二管理控制器读取存储设备中的配置信息,第二管理控制器在收到通知后获取存储设备的控制权限,并从中读取配置参数。其中,第一管理控制器可通过网络广播的方式通知第二管理控制器去读取存储设备中的配置参数。
在一种可选的实施例中,所述完成配置后向所述资源交换节点上报自身的身份标识信息,包括:
将所述自身的身份标识信息发布在整机柜内部局域网中,所述整机柜内部局域网是所述第一管理控制器、N个第二管理控制器、通过网络链路分别与整机柜内的TOR网络交换机连接而建立的局域网。
在本实施例中,子节点上的第二管理控制器和资源交换节点上的第一管理控制器可通过整机柜内部局域网进行网络数据交换,当第二管理控制器在完成配置后,将自身的身份标识信息发布到整机柜内部局域网中。其中,该身份标识信息可通过LLDPDU报文的形式进行发布,即在完成配置后,第二管理控制器将子节点的身份标识信息(子节点自身的主要能力、管理地址、设备标识、接口标识等)封装为LLDPDU报文,并发布在整机柜内部局域网,随后第一管理控制器在整机柜内部局域网中接收该LLDPDU报文。
在一种可选的实施例中,所述第二管理控制器通过通信链路与该子节点上部署的存储设备建立通信连接,所述方法还包括:
当子节点在配置过程中或身份标识信息上报过程中发生故障时,将故障信息写入到该子节点的存储设备中,以使所述第一管理控制器从所述存储设备中读取故障信息;
向所述整机柜内部局域网的发送故障广播,以使所述第一管理控制器接收到所述故障广播后,读取发生故障的子节点的存储设备中故障信息。
在本实施例中,当故障节点上第二管理控制器将故障信息写入到存储设备后,该第二管理控制器才会释放储存设备的控制权限,进而当资源交换节点上的第一管理控制器在接收故障广播,或长时间没有接收到子节点上报的身份标识信息时,才能再次获取该故障子节点存储设备的控制权限,并读取存储设备中的故障信息。
如图3所示,依据本申请的再一个方面,提供了一种整机柜管理方法,应用于管理客户端,所述管理客户端通过外部管理网络与整机柜内的TOR网络交换机连接,所述方法包括:
步骤S301:通过所述外部管理网络访问第一管理控制器,以获得整机柜的拓扑关系,所述拓扑关系是按照上述第一方面实施例所述方法生成的。
步骤S302:利用整机柜内部局域网调用所述拓扑关系中N个子节点上的通信接口,以获取N个子节点的设备信息,并对所述N个子节点进行管理。
在本实施例中,管理客户端通过外部管理网络与TOR网络交换机连接,进而可以与第一管理控制器以及第二管理控制器进行数据交互,管理客户端通过整机柜内部局域网对第一管理控制器进行访问并得到整机柜的拓扑关系,进而通过整机柜内部局域网调用拓扑关系中子节点的通信接口,其中,通信接口可以是的Redfish接口,通过子节点的Redfish接口得到子节点的设备信息,进而对节点设备进行管理。
在一种可选的实施例中,所述方法还包括:
通过所述外部管理网络获取所述第一管理控制器上报的故障信息,并对所述故障信息进行处理。
在本实施例中,资源交换节点上的第一管理控制器将从故障子节点的存储设备中读取的故障信息上报给管理客户端,管理客户端在接收到故障信息后进行处理,其中,故障信息包括:参数配置错误故障、网络故障等。进而实现子节点遭遇故障的情况下,该整机柜管理方法的具有故障诊断服务。
在本实施例中,利用通信链路和存储设备进行资源池整机柜内设备拓扑建立即管理的硬件连接,利用整机柜内资源交换节点上的第一管理控制器分别向各子节点发送配置参数,各子节点根据配置参数完成自动化配置后向资源交换节点上报自身的身份标识信息,然后第一管理控制器根据接收到的身份标识信息建立整机柜的拓扑关系,利用子节点自动化配置和身份标识信息上报以实现资源交换节点与子节点之间的拓扑发现,实现了资源交换节点与子节点之间拓扑关系的快速准确识别;由于存储设备的成本较低,且使得整机柜管理***具备更高的可靠性和拓展性;此外,利用存储设备、第一管理控制器和第二管理控制器实现子节点故障信息上报,当子节点遭遇故时,通过整机柜管理方法提供故障诊断服务。
图4示出了本申请实施例提供的整机柜管理***硬件拓扑结构示意图,如图4所示,在整机柜中包括有一个资源交换节点,即Switch节点,在资源交换节点上部署有第一管理控制器,第一管理控制器用于对资源交换节点的运行和维护进行管理。在整机柜中还有若干个子节点,每个子节点相当于一个池化资源,在每个子节点上部署有第二管理控制器,第二管理控制器同样用于对子节点的运行和维护进行管理;在每个子节点上还部署有EEPROM(存储设备)、Mux和Devices(即其它用于业务运行的设备)。在整机柜的顶部还有TOR网络交换机,在整机柜的外部部署有管理客户端。
资源交换节点上部署的第一管理控制器通过资源交换节点各端口与子节点连接线缆中的SMBus链路(通信链路)和Mux,建立与子节点EEPROM的通信连接,子节点上部署的第二管理控制器通过SMBus链路和Mux与EEPROM建立通信连接。资源交换节点上部署的第一管理控制器与子节点部署的第二管理控制器通过EEPROM前置的Mux进行控制权切换,使两者可分别对EEPROM进行读写操作。此外,资源交换节点上部署的第一管理控制器、子节点上部署的第二管理控制器通过网络链路LAN分别连接到位于整机柜顶部的TOR网络交换机,建立局域网连接,使得第一管理控制器与第二管理控制器可进行网络数据交换,例如,身份标识信息,网络广播等。TOR网络交换机连接到外部管理网络,使管理客户端通过外部管理网络对整机柜进行管理。
在实际应用过程中,当资源交换节点上的第一管理控制器启动后,会主动获取每个子节点EEPROM的控制权限,逐个对子节点的EEPROM进行读写操作,将整机柜内局域网络的管理参数、资源交换节点上对应连接端口的标识等配置信息写入到子节点EEPROM对应区域,写入操作完毕后释放子节点EEPROM的控制权限。然后每个子节点上的第二管理控制器获取对应EEPROM的控制权限,读取各自EEPROM中的配置参数并进行自动化配置,配置完毕后将子节点自身的主要能力、管理地址、设备标识、接口标识等身份识别信息封装在LLDPDU中发布在整机柜内部局域网中,并释放EEPROM的控制权限。之后,资源交换节点上的第一管理控制器接收整机柜内部局域网中的LLDPDU报文信息,并根据LLDPDU报文信息建立整机柜的拓扑关系,该拓扑关系可用于向管理端展示或用于对整机柜内部节点管理。最后,管理客户端通过外部管理网络访问第一管理控制器,并利用整机柜内部局域网调用拓扑关系中各个子节点上的Redfish接口,获取子节点上设备详细信息,并对子节点设备进行管理。
此外,当子节点上自动化配置过程中或LLDPDU报文发送错误时,该子节点上的第二管理控制器将部分故障信息写入EEPROM,以供第一管理控制器上报故障信息使用,故障写入操作完毕后释放EEPROM控制权;随后第一管理控制器对发生故障子节点的EEPROM进行访问,读取EEPROM中的故障信息,记录故障信息并通过外部管理网络上报给管理客户端,客户端接收到故障信息后对故障信息进行处理。
图5示出了本申请实施例提供的整机柜管理装置,应用于第一管理控制器,所述第一管理控制器部署在资源交换节点上,所述装置包括:
发送模块51,用于向N个子节点分别发送配置参数,以使所述N个子节点分别根据各自接收到的配置参数进行配置,并在配置完毕后向所述资源交换节点上报自身的身份标识信息;
识别模块52,用于根据所述N个子节点各自的身份标识信息,建立整机柜的拓扑关系。
在一种可选的实施例中,所述第一管理控制器与N个子节点上部署的存储设备分别建立有通信连接,所述通信连接是通过所述资源交换节点的N个端口与所述N个子节点的连接线缆中的通信链路实现通信的,所述发送模块包括:
第一权限获取模块,用于获取所述N个子节点各自的存储设备的控制权限;
参数写入模块,用于分别将所述N个子节点的配置参数写入到所述N子节点各自的存储设备中,以使所述N个子节点从各自部署的存储设备读取自身配置参数。
在一种可选的实施例中,所述装置还包括:
身份获取模块,用于从整机柜内部局域网中获取N个子节点上报的身份标识信息,所述整机柜内部局域网是所述第一管理控制器、N个第二管理控制器、通过网络链路分别与整机柜内的TOR网络交换机连接而建立的局域网,每个所述第二管理控制器部署在一个子节点上。
在一种可选的实施例中,所述装置还包括:
拓扑上报模块,用于将所述拓扑关系通过外部管理网络上报给管理客户端,以供所述管理客户端对所述N个子节点进行管理。
在一种可选的实施例中,所述第一管理控制器与N个子节点上部署的存储设备分别建立有通信连接,所述通信连接是通过所述资源交换节点的N个端口与所述N个子节点的连接线缆中的通信链路实现通信的,所述装置还包括:
第一故障读取模块,用于当在预设时长内未接收到子节点上报的身份标识信息时,读取该子节点的存储设备中故障信息;
第二故障读取模块,用于当接收到整机柜内部局域网的故障广播时,读取发生故障的子节点的存储设备中故障信息;
故障上报模块,用于将获取的故障信息通过外部管理网络上报给管理客户端,以使所述管理客户端对故障进行处理。
在一种可选的实施例中,所述N个子节点上部署有Mux,所述第一管理控制器通过所述Mux与N个子节点上部署的存储设备分别建立有通信连接,所述第二管理控制器通过所述Mux与对应的存储设备通信连接;所述装置还包括:
权限切换模块,用于所述第一管理控制器与每个子节点上部署的第二管理控制器通过所述Mux进行控制权切换,以使所述第一管理控制器、第二管理控制器可分别对所述存储设备进行读写操作。
图6示出了本申请实施例提供的整机柜管理装置,应用于第二管理控制器,所述第二管理控制器部署在子节点上,所述装置包括:
接收模块61,用于接收第一管理控制器发送的配置参数;
配置模块62,用于根据接收到的配置参数进行配置;
上报模块63,用于完成配置后向所述资源交换节点上报自身的身份标识信息,以使所述第一管理控制器根据所述身份标识信息,建立整机柜的拓扑关系。
在一种可选的实施例中,所述第二管理控制器通过通信链路与该子节点上部署的存储设备建立通信连接,所述接收模块包括:
第二权限获取模块,用于获取所述存储设备的控制权限;
参数读取模块,用于从所述存储设备中读取所述第一管理控制器预先写入到所述存储设备中的配置参数。
在一种可选的实施例中,所述上报模块包括:
身份上报模块,将所述自身的身份标识信息发布在整机柜内部局域网中,所述整机柜内部局域网是所述第一管理控制器、N个第二管理控制器、通过网络链路分别与整机柜内的TOR网络交换机连接而建立的局域网。
在一种可选的实施例中,所述第二管理控制器通过通信链路与该子节点上部署的存储设备建立通信连接,所在装置还包括:
故障写入模块,用于当子节点在配置过程中或身份标识信息上报过程中发生故障时,将故障信息写入到该子节点的存储设备中,以使所述第一管理控制器从所述存储设备中读取故障信息;
故障通知模块,用于向所述整机柜内部局域网的发送故障广播,以使所述第一管理控制器接收到所述故障广播后,读取发生故障的子节点的存储设备中故障信息。
图7示出了本申请实施例提供的整机柜管理装置,应用于管理客户端,所述管理客户端通过外部管理网络与整机柜内的TOR网络交换机连接,所述装置包括:
访问模块71,用于通过所述外部管理网络访问第一管理控制器,以获得整机柜的拓扑关系,所述拓扑关系是按照上述第一方面实施例所述方法生成的;
管理模块72,用于利用整机柜内部局域网调用所述拓扑关系中N个子节点上的通信接口,以获取N个子节点的设备信息,并对所述N个子节点进行管理。
在一种可选的实施例中,所述装置还包括:
故障处理模块,通过所述外部管理网络获取所述第一管理控制器上报的故障信息,并对所述故障信息进行处理。
本申请实施例还提供了一种电子设备,包括存储器、处理器及存储在存。储器上并可在处理器上运行的计算机程序,所述处理器执行时实现上述任一实施例所述的整机柜管理方法。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现上述任一实施例所述的整机柜管理方法
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种整机柜管理方法、装置、设备和介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (17)

1.一种整机柜管理方法,其特征在于,应用于第一管理控制器,所述第一管理控制器部署在资源交换节点上,所述方法包括:
向N个子节点分别发送配置参数,以使所述N个子节点分别根据各自接收到的配置参数进行配置,并在配置完毕后向所述资源交换节点上报自身的身份标识信息;
根据所述N个子节点各自的身份标识信息,建立整机柜的拓扑关系。
2.根据权利要求1所述的方法,其特征在于,所述第一管理控制器与N个子节点上部署的存储设备分别建立有通信连接,所述通信连接是通过所述资源交换节点的N个端口与所述N个子节点的连接线缆中的通信链路实现通信的;向N个子节点分别发送配置参数,包括:
获取所述N个子节点各自的存储设备的控制权限;
分别将所述N个子节点的配置参数写入到所述N子节点各自的存储设备中,以使所述N个子节点从各自部署的存储设备读取自身配置参数。
3.根据权利要求1所述的方法,其特征在于,在根据所述N个子节点各自的身份标识信息,建立整机柜的拓扑关系之前,还包括:
从整机柜内部局域网中获取N个子节点上报的身份标识信息,所述整机柜内部局域网是所述第一管理控制器、N个第二管理控制器、通过网络链路分别与整机柜内的TOR网络交换机连接而建立的局域网,每个所述第二管理控制器部署在一个子节点上。
4.根据权利要求1所述的方法,其特征在于,在建立整机柜的拓扑关系之后,还包括:
将所述拓扑关系通过外部管理网络上报给管理客户端,以供所述管理客户端对所述N个子节点进行管理。
5.根据权利要求1所述的方法,其特征在于,所述第一管理控制器与N个子节点上部署的存储设备分别建立有通信连接,所述通信连接是通过所述资源交换节点的N个端口与所述N个子节点的连接线缆中的通信链路实现通信的;所述方法还包括:
当在预设时长内未接收到子节点上报的身份标识信息时,读取该子节点的存储设备中故障信息;
当接收到整机柜内部局域网的故障广播时,读取发生故障的子节点的存储设备中故障信息;
将获取的故障信息通过外部管理网络上报给管理客户端,以使所述管理客户端对故障进行处理。
6.根据权利要求1所述的方法,其特征在于,所述N个子节点上部署有Mux,所述第一管理控制器通过所述Mux与N个子节点上部署的存储设备分别建立有通信连接,所述第二管理控制器通过所述Mux与对应的存储设备通信连接;所述方法还包括:
所述第一管理控制器与每个子节点上部署的第二管理控制器通过所述Mux进行控制权切换,以使所述第一管理控制器、第二管理控制器可分别对所述存储设备进行读写操作。
7.一种整机柜管理方法,其特征在于,应用于第二管理控制器,所述第二管理控制器部署在子节点上,所述方法包括:
接收第一管理控制器发送的配置参数;
根据接收到的配置参数进行配置;
完成配置后向资源交换节点上报自身的身份标识信息,以使所述第一管理控制器根据所述身份标识信息,建立整机柜的拓扑关系。
8.根据权利要求7所述的方法,其特征在于,所述第二管理控制器通过通信链路与该子节点上部署的存储设备建立通信连接;所述接收第一管理控制器发送的配置参数,包括:
获取所述存储设备的控制权限;
从所述存储设备中读取所述第一管理控制器预先写入到所述存储设备中的配置参数。
9.根据权利要求7所述的方法,其特征在于,所述完成配置后向所述资源交换节点上报自身的身份标识信息,包括:
将所述自身的身份标识信息发布在整机柜内部局域网中,所述整机柜内部局域网是所述第一管理控制器、N个第二管理控制器、通过网络链路分别与整机柜内的TOR网络交换机连接而建立的局域网。
10.根据权利要求7所述的方法,其特征在于,所述第二管理控制器通过通信链路与该子节点上部署的存储设备建立通信连接,所述方法还包括:
当子节点在配置过程中或身份标识信息上报过程中发生故障时,将故障信息写入到该子节点的存储设备中,以使所述第一管理控制器从所述存储设备中读取故障信息;
向所述整机柜内部局域网的发送故障广播,以使所述第一管理控制器接收到所述故障广播后,读取发生故障的子节点的存储设备中故障信息。
11.一种整机柜管理方法,其特征在于,应用于管理客户端,所述管理客户端通过外部管理网络与整机柜内的TOR网络交换机连接,所述方法包括:
通过所述外部管理网络访问第一管理控制器,以获得整机柜的拓扑关系,所述拓扑关系是按照权利要求1-6任一所述方法生成的;
利用整机柜内部局域网调用所述拓扑关系中N个子节点上的通信接口,以获取N个子节点的设备信息,并对所述N个子节点进行管理。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
通过所述外部管理网络获取所述第一管理控制器上报的故障信息,并对所述故障信息进行处理。
13.一种整机柜管理装置,其特征在于,应用于第一管理控制器,所述第一管理控制器部署在资源交换节点上,所述装置包括:
发送模块,用于向N个子节点分别发送配置参数,以使所述N个子节点分别根据各自接收到的配置参数进行配置,并在配置完毕后向所述资源交换节点上报自身的身份标识信息;
识别模块,用于根据所述N个子节点各自的身份标识信息,建立整机柜的拓扑关系。
14.一种整机柜管理装置,其特征在于,应用于第二管理控制器,所述第二管理控制器部署在子节点上,所述装置包括:
接收模块,用于接收第一管理控制器发送的配置参数;
配置模块,用于根据接收到的配置参数进行配置;
上报模块,用于完成配置后向所述资源交换节点上报自身的身份标识信息,以使所述第一管理控制器根据所述身份标识信息,建立整机柜的拓扑关系。
15.一种整机柜管理装置,其特征在于,应用于管理客户端,所述管理客户端通过外部管理网络与整机柜内的TOR网络交换机连接,所述装置包括:
访问模块,用于通过所述外部管理网络访问第一管理控制器,以获得整机柜的拓扑关系,所述拓扑关系是按照权利要求1-6任一所述方法生成的;
管理模块,用于利用整机柜内部局域网调用所述拓扑关系中N个子节点上的通信接口,以获取N个子节点的设备信息,并对所述N个子节点进行管理。
16.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行时实现如权利要求1至6任一所述的整机柜管理方法或权利要求7至10任一所述的整机柜管理方法或权利要求11至12任一所述的整机柜管理方法。
17.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现如权利要求1至6任一所述的整机柜管理方法或权利要求7至10任一所述的整机柜管理方法或权利要求11至12任一所述的整机柜管理方法。
CN202211198798.6A 2022-09-29 2022-09-29 一种整机柜管理方法、装置、设备和介质 Pending CN115567400A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211198798.6A CN115567400A (zh) 2022-09-29 2022-09-29 一种整机柜管理方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211198798.6A CN115567400A (zh) 2022-09-29 2022-09-29 一种整机柜管理方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN115567400A true CN115567400A (zh) 2023-01-03

Family

ID=84743608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211198798.6A Pending CN115567400A (zh) 2022-09-29 2022-09-29 一种整机柜管理方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN115567400A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028232A (zh) * 2023-02-27 2023-04-28 浪潮电子信息产业股份有限公司 跨机柜服务器内存池化方法、装置、设备、服务器及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028232A (zh) * 2023-02-27 2023-04-28 浪潮电子信息产业股份有限公司 跨机柜服务器内存池化方法、装置、设备、服务器及介质

Similar Documents

Publication Publication Date Title
CN103051470B (zh) 一种集群及其磁盘心跳的控制方法
TW201318308A (zh) 分散式電池管理系統及其標識分配方法
CN106685733A (zh) 一种fc‑ae‑1553网络快速配置与自动化测试方法
CN108199944B (zh) 一种动态菊花链环网的机载客舱核心***及动态定位方法
US10554497B2 (en) Method for the exchange of data between nodes of a server cluster, and server cluster implementing said method
CN102263651A (zh) Snmp网络管理***中局端设备连接状态的检测方法
CN106230622B (zh) 一种集群实现方法及装置
CN110032334A (zh) 支持基于NVMe-oF***机箱间可管理性的***和方法
CN112019378B (zh) 一种故障排查方法及装置
CN115567400A (zh) 一种整机柜管理方法、装置、设备和介质
CN102664755B (zh) 控制通道故障确定方法及其装置
CN113949649B (zh) 故障检测协议的部署方法、装置、电子设备及存储介质
CN109379239B (zh) 一种OpenStack环境中配置接入交换机的方法及装置
CN109547274A (zh) 一种维护板切换方法、装置及第一网络设备
CN114401250A (zh) 一种地址分配的方法及装置
CN104125079A (zh) 一种确定双机热备份配置信息的方法及装置
CN112953739B (zh) 基于k8s平台纳管sdn的方法、***以及存储介质
CN117312067A (zh) 网卡调试***、方法、设备及存储介质
CN114124803B (zh) 设备管理方法、装置、电子设备及存储介质
CN113342456A (zh) 一种连接方法、装置、设备和存储介质
CN115550427A (zh) 一种设备升级方法、装置、设备及存储介质
CN116137603A (zh) 链路故障的检测方法和装置、存储介质及电子装置
CN114201439B (zh) 服务器信号识别优化方法、***及存储介质
TWI767427B (zh) 監控伺服器及其設備資源監控方法
CN107248935B (zh) 一种网管发现并监控网元的***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination