CN114911644A - 一种vpx服务器管理模块冗余备份方法及*** - Google Patents

一种vpx服务器管理模块冗余备份方法及*** Download PDF

Info

Publication number
CN114911644A
CN114911644A CN202210511533.0A CN202210511533A CN114911644A CN 114911644 A CN114911644 A CN 114911644A CN 202210511533 A CN202210511533 A CN 202210511533A CN 114911644 A CN114911644 A CN 114911644A
Authority
CN
China
Prior art keywords
management module
management
main
standby
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210511533.0A
Other languages
English (en)
Inventor
张凌鹤
胡礼镇
朱从孟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Changfeng Technology Beijing Co Ltd
Original Assignee
Lenovo Changfeng Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Changfeng Technology Beijing Co Ltd filed Critical Lenovo Changfeng Technology Beijing Co Ltd
Priority to CN202210511533.0A priority Critical patent/CN114911644A/zh
Publication of CN114911644A publication Critical patent/CN114911644A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5044Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering hardware capabilities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Hardware Redundancy (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种VPX服务器管理模块冗余备份方法及***,涉及VPX技术领域,通过确认主管理权限分配信息,将主管理权限状态值寄存至CPLD中;通过BMC获得CPLD中管理权限寄存器状态值,根据管理权限寄存器状态值确定管理权限;通过BMC将管理权限发送至CPU,CPU确定主管理权限信息,对主管理模块的工作状态进行监控,当工作状态信息为异常时获得主备切换指令将备管理模块与主管理模块进行权限互换。解决了现有技术中由于管理模块负责多项任务,若管理模块出现异常,将导致整个服务器的崩溃,降低服务器稳定性的技术问题。达到了避免当主管理模块出现异常时而造成整个服务器崩溃的发生,提高服务器的稳定性的技术效果。

Description

一种VPX服务器管理模块冗余备份方法及***
技术领域
本发明涉及VPX服务器技术领域,具体涉及一种VPX服务器管理模块冗余备份方法及***。
背景技术
VPX服务器:基于VPX规范的服务器,一种开放式架构,支持并独立于多处理器计算机***。VPX服务器通常包含管理模块、电源模块和计算模块等。其中VPX服务器计算模块:VPX服务器的计算模块为一块独立的服务器板卡,硬件上包括CPU、内存、硬盘、BMC和CPLD等,可独立运行操作***,执行相应的计算任务;模块上的BMC负责收集本模块内的状态信息,并汇报给管理模块的BMC;计算模块作为子模块,插在VPX服务器的背板卡槽上。每个卡槽都有硬件ID指示pin,作为计算模块的ID,用于模块间的身份识别。在各模块中会设定管理模块,在VPX服务器中包含多块计算模块,其中只有一块计算模块被指定为管理模块。
由于VPX服务器内嵌入了多块用于数据处理的计算板,同时***往往会指定某个计算板为管理模块,是VPX服务器的核心模块,负责调度任务,平衡各个计算板的负荷;收集各个计算板的状态信息。因此,如果VPX服务器的管理模块出现异常,将导致整个服务器的崩溃,大大降低了服务器稳定性。
发明内容
本申请的目的是提供一种VPX服务器管理模块冗余备份方法及***,解决了现有技术中由于管理模块负责多项任务,若管理模块出现异常,将导致整个服务器的崩溃,大大降低了服务器稳定性的技术问题。达到了避免当主管理模块出现异常时而造成整个VPX服务器崩溃的重大事件的发生,提高了VPX服务器的稳定性的技术效果。
鉴于上述问题,本申请提供了一种VPX服务器管理模块冗余备份方法及***。
本申请的第一个方面,提供了一种VPX服务器管理模块冗余备份方法,所述方法应用于管理模块冗余备份***,所述***包括第一管理模块、第二管理模块,所述第一管理模块与所述第二管理模块连接,且,所述第一管理模块、第二管理模块均包括CPLD、BMC、CPU,所述方法包括:通过所述第一管理模块、第二管理模块的CPLD确认主管理权限分配信息,并将主管理权限状态值寄存至CPLD中;分别通过所述第一管理模块、第二管理模块各自的BMC获得各自CPLD中管理权限寄存器状态值,并根据所述管理权限寄存器状态值确定管理权限;通过BMC将所述管理权限发送至CPU,CPU确定主管理权限信息,其中,所述主管理权限信息为将具有主管理权限状态值的所述第一管理模块或第二管理模块作为主管理模块,执行管理任务,将不具有所述主管理权限状态值的管理模块作为备管理模块;对所述主管理模块的工作状态进行监控,获得工作状态信息;当所述工作状态信息为异常时,获得主备切换指令,所述主备切换指令用于将所述备管理模块与主管理模块进行权限互换。
本申请的第二个方面,提供了一种VPX服务器管理模块冗余备份***,所述***包括:第一执行单元,所述第一执行单元用于通过第一管理模块、第二管理模块的CPLD确认主管理权限分配信息,并将主管理权限状态值寄存至CPLD中;
第一获得单元,所述第一获得单元用于分别通过所述第一管理模块、第二管理模块各自的BMC获得各自CPLD中管理权限寄存器状态值,并根据所述管理权限寄存器状态值确定管理权限;
第二执行单元,所述第二执行单元用于通过BMC将所述管理权限发送至CPU,CPU确定主管理权限信息,其中,所述主管理权限信息为将具有主管理权限状态值的所述第一管理模块或第二管理模块作为主管理模块,执行管理任务,将不具有所述主管理权限状态值的管理模块作为备管理模块;
第二获得单元,所述第二获得单元用于通过所述备管理模块对所述主管理模块的工作状态进行监控,获得工作状态信息;
第三获得单元,所述第三获得单元用于当所述工作状态信息为异常时,获得主备切换指令,所述主备切换指令用于将所述备管理模块与主管理模块进行权限互换。
本申请的第三个方面,提供了一种VPX服务器管理模块冗余备份***,包括:处理器,所述处理器与存储器耦合,所述存储器用于存储程序,当所述程序被所述处理器执行时,使***以执行如第一方面所述方法的步骤。
本申请的第四个方面,提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述方法的步骤。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本申请提供的一种VPX服务器管理模块冗余备份方法及***,通过所述第一管理模块、第二管理模块的CPLD确认主管理权限分配信息,并将主管理权限状态值寄存至CPLD中;分别通过所述第一管理模块、第二管理模块各自的BMC获得各自CPLD中管理权限寄存器状态值,并根据所述管理权限寄存器状态值确定管理权限;通过BMC将所述管理权限发送至CPU,CPU确定主管理权限信息,其中,所述主管理权限信息为将具有主管理权限状态值的所述第一管理模块或第二管理模块作为主管理模块,执行管理任务,将不具有所述主管理权限状态值的管理模块作为备管理模块;对所述主管理模块的工作状态进行监控,获得工作状态信息;当所述工作状态信息为异常时,获得主备切换指令,所述主备切换指令用于将所述备管理模块与主管理模块进行权限互换。达到了避免当主管理模块出现异常时而造成整个VPX服务器崩溃的重大事件的发生,提高了VPX服务器的稳定性的技术效果。从而解决了现有技术中由于管理模块负责多项任务,若管理模块出现异常,将导致整个服务器的崩溃,大大降低了服务器稳定性的技术问题。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
图1为本申请实施例提供的一种VPX服务器管理模块冗余备份方法的流程示意图;
图2为本申请实施例一中管理模块冗余备份***的结构示意图;
图3为本申请实施例提供的一种VPX服务器管理模块冗余备份***结构示意图;
图4为本申请示例性电子设备的结构示意图。
附图标记说明:第一执行单元11,第一获得单元12,第二执行单元13,第二获得单元14,第三获得单元15,电子设备300,存储器301,处理器302,通信接口303,总线架构304。
具体实施方式
本申请通过提供了一种VPX服务器管理模块冗余备份方法及***,用于解决现有技术中由于管理模块负责多项任务,若管理模块出现异常,将导致整个服务器的崩溃,大大降低了服务器稳定性的技术问题。
针对上述技术问题,本申请提供的技术方案总体思路如下:
通过所述第一管理模块、第二管理模块的CPLD确认主管理权限分配信息,并将主管理权限状态值寄存至CPLD中;分别通过所述第一管理模块、第二管理模块各自的BMC获得各自CPLD中管理权限寄存器状态值,并根据所述管理权限寄存器状态值确定管理权限;通过BMC将所述管理权限发送至CPU,CPU确定主管理权限信息,其中,所述主管理权限信息为将具有主管理权限状态值的所述第一管理模块或第二管理模块作为主管理模块,执行管理任务,将不具有所述主管理权限状态值的管理模块作为备管理模块;对所述主管理模块的工作状态进行监控,获得工作状态信息;当所述工作状态信息为异常时,获得主备切换指令,所述主备切换指令用于将所述备管理模块与主管理模块进行权限互换。达到了避免当主管理模块出现异常时而造成整个VPX服务器崩溃的重大事件的发生,提高了VPX服务器的稳定性的技术效果。
在介绍了本申请基本原理后,下面,将参考附图对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。基于本申请的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部。
实施例一
如图1所示,本申请提供了一种VPX服务器管理模块冗余备份方法,所述方法应用于管理模块冗余备份***,所述***包括第一管理模块、第二管理模块,所述第一管理模块与所述第二管理模块连接,且,所述第一管理模块、第二管理模块均包括CPLD、BMC、CPU,所述方法包括:
具体而言,VPX服务器的计算模块为一块独立的服务器板卡,硬件上包括CPU、内存、硬盘、BMC和CPLD等,可独立运行操作***,执行相应的计算任务,VPX服务器中包含多块计算模块,其中只有一块计算模块被指定为管理模块,管理模块负责的任务有:计算任务分配,平衡各个计算模块的负载;负责收集各个计算模块的当前状态(包括:CPU负载、CPU温度等);负责VPX服务器各个风扇的转速控制,控制VPX服务器的整体温度;可对各个计算模块的工作状态进行控制(重启、关机等)。管理模块在整个***上电后由BMC协商确认的。本申请实施例将插在卡槽ID(图示硬件ID)为3的计算模块定义为主管理模块,将插在卡槽ID为8的计算模块定义为备管理模块,同时要求,在向服务器***计算模块的时候,优选将计算模块***至3号、8号卡槽中,当然也可以为其他卡槽,只要明确哪个卡槽对应主管理模块、哪个卡槽对应备管理模块即可,要保证这两个卡槽内有***计算模块,以确保对VPX服务器的管理。
第一管理模块、第二管理模块分别对应主管理模块、备管理模块,如图2所示,两个管理模块分别包括了BMC、CPU、CPLD,CPLD与BMC通过I2C、GPIO连接,BMC与CPU通过LPC连接,主管理模块与备管理模块通过IPMB、GPIO连接。
步骤S100:通过所述第一管理模块、第二管理模块的CPLD确认主管理权限分配信息,并将主管理权限状态值寄存至CPLD中。
具体而言,在***上电的初始化阶段,由主管理模块和备管理模块的CPLD进行协商确认,初始状态由哪个卡槽ID对应的管理模块执行主管理权限,可选的默认为主管理模块执行。主管理权限分配信息即为分配主管理权限的结果,也就是说确定哪个卡槽ID对应的管理模块作为主管理模块,是第一管理模块还是第二管理模块。
步骤S200:分别通过所述第一管理模块、第二管理模块各自的BMC获得各自CPLD中管理权限寄存器状态值,并根据所述管理权限寄存器状态值确定管理权限。
具体而言,第一管理模块、第二管理模块分别通过各自的BMC通过I2C接口获取CPLD的管理权限寄存器状态值,确认自己是否需要执行管理权限。
步骤S300:通过BMC将所述管理权限发送至CPU,CPU确定主管理权限信息,其中,所述主管理权限信息为将具有主管理权限状态值的所述第一管理模块或第二管理模块作为主管理模块,执行管理任务,将不具有所述主管理权限状态值的管理模块作为备管理模块。
具体而言,当CPLD中为主管理权限状态值时,则对应的第一管理模块或者第二管理模块即为主管理模块,将确定了主管理模块的身份后,将该状态告知CPU,执行管理任务。没有主管理权限状态值的剩下的第一管理模块或者第二管理模块作为备管理模块及冗余管理模块。
步骤S400:对所述主管理模块的工作状态进行监控,获得工作状态信息。
进一步的,所述第一管理模块与所述第二管理模块通过IPMB接口连接,所述对所述主管理模块的工作状态进行监控,获得工作状态信息,包括:所述备管理模块通过IPMB接口向所述主管理模块发送查询信息,所述查询信息为向主管理模块发送的工作状态查询请求;基于所述查询信息,获得查询反馈信息,所述查询反馈信息为将主管理模块的工作状态包发送至所述备管理模块;根据所述查询反馈信息,获得所述工作状态信息,当接收到所述查询反馈信息时,所述工作状态信息为正常,当未接收到所述查询反馈信息时,所述工作状态信息为异常。
进一步的,所述对所述主管理模块的工作状态进行监控,获得工作状态信息,还包括:通过所述主管理模块的BMC对CPU运行状态进行监控,获得CPU任务分配信息;当所述CPU任务分配信息为无法计算任务分配情况时,所述工作状态信息为异常,并将所述工作状态信息通过所述IPMB接口主动发送至所述备管理模块;当所述CPU任务分配信息为正常计算任务分配情况时,所述工作状态信息为正常。
具体而言,对主管理模块的任务执行状态进行监测,当发现主管理模块出现异常时,及时进行切换,利用备管理模块替换主管理模块执行管理权限,完成各管理任务,确保***的正常稳定的工作。在对主管理模块进行监测的过程中,包括了两个手段,一种为被动监控、一种为主动监控。
其中,被动监控为通过备管理模块对主管理模块的工作状态进行监控,备管理模块通过IPMB接口,定时向主管理模块查询工作状态,若在规定的时限内,备管理模块未收到主管理模块的工作状态包,则备管理模块认为主管理模块出现异常,若正常获得工作状态包,则主管理模块为正常状态。
其中,主动监控为主管理模块自己进行状态的监控,主管理模块BMC主动监控管理模块的CPU运行状态,一旦发现管理模块CPU出现无法进行计算任务分配的情况,则通过IPMB接口,主动通知备管理模块。
步骤S500:当所述工作状态信息为异常时,获得主备切换指令,所述主备切换指令用于将所述备管理模块与主管理模块进行权限互换。
进一步的,所述当所述工作状态信息为异常时,获得主备切换指令,包括:所述备管理模块执行升主流程;所述主管理模块执行降备流程。
进一步的,所述备管理模块执行升主流程,包括:所述备管理模块BMC向CPLD更新管理权限寄存器值,将其更新为主管理权限状态值;当所述备管理模块的CPLD确定所述主管理权限状态值时,修改备管理模块BMC的电平状态为第一状态,同时向主管理模块的CPLD发送降备动作信息;获得所述主管理模块降备完成信息;当所述主管理模块降备完成时,所述备管理模块的CPLD修改所述备管理模块BMC的电平状态为第二状态,获得升主完成信息,并将所述升主完成信息发送至BMC;所述备管理模块BMC接收到所述升主完成信息后,获得主管理权限,通知所述备管理模块执行所述主管理权限,原备管理模块切换为新的主管理模块。
进一步的,所述主管理模块执行降备流程,包括:获得所述备管理模块CPLD的电平变化信息;根据所述备管理模块CPLD的电平变化信息,所述主管理模块对主管理模块CPU、BMC进行掉电重启;所述主管理模块CPLD修改管理权限寄存器状态值,确认模块失去管理权限;所述主管理模块CPLD修改与备管理模块CPLD的状态电平,向所述备管理模块发送降备完成信息;当所述主管理模块BMC重新上电后,读取所述管理权限寄存器状态值,确定降为备管理模块,并通知所述主管理模块CPU无管理权限。
具体而言,一旦发现主管理模块出现了异常时,则启动切换信息,将备管理模块切换为主管理模块,以保证正常***的工作。其中切换的过程主要包括了两个方面,一方面是备管理模块要升为主管理模块,两一方面主管理模块要降为备管理模块,要保证两个模块直接的平稳过渡和有效衔接。
当主管理模块和备管理模块进行切换时,具体如下,其中,应理解,该主管理模块为当前的管理模块。当备管理模块BMC收到主备切换的任务后,则备管理模块执行升主流程如下:
备管理模块BMC通过I2C接口向CPLD更新管理权限寄存器值;
备管理模块CPLD发现管理权限寄存器值改变后,修改与BMC的GPIO电平状态为低(第一状态),告知BMC切换流程发生;同时修改与主管理模块的GPIO状态电平,通知主管理模块CPLD执行降备动作;
备管理模块CPLD等待主管理模块CPLD降备动作完成,即主管理模块CPLD的GPIO电平状态变化;
主管理模块CPLD降备动作完成后,备管理模块CPLD修改与BMC的GPIO电平状态为高(第二状态),通知BMC升主任务完成;
备管理模块BMC获得管理权限,同时通知CPU执行管理权限。
主管理模块降备流程如下:
主管理模块CPLD收到备管理模块CPLD的GPIO电平变化后,开始执行降备动作:
主管理模块CPLD对CPU和BMC进行掉电重启;
主管理模块CPLD修改管理权限寄存器状态值,确认本模块失去管理权限;
主管理模块CPLD修改与备管理模块CPLD的GPIO状态电平,通知备管理模块降备动作完成。
主管理模块BMC重新上电后,读取管理权限寄存器,确认无管理权限,降为备管理模块;同时,通知CPU,无管理权限。
在进行切换完成后,新的管理模块将继续执行状态监控流程,若管理模块发送异常,也将继续发起切换动作,即主管理模块与备管理模块根据执行的工作权限进行身份权限的替换,以确保***的正常运行,避免单一主管理模块出现了异常,导致整个VPX服务器崩溃的重大事件发生,提高了VPX服务器的稳定性。
综上所述,本申请实施例至少具有如下技术效果:
1.通过设定主管理模块、备管理模块,VPX服务器中将某个计算模块定义为备管理模块,在主管理模块发生异常时,利用涉及的冗余管理模块进行替换,便于实现管理模块的主备切换,解决因管理模块异常,导致整个VPX服务器崩溃的重大事件发生的问题,达到提高了VPX服务器的稳定性的技术效果。
2.在无增加任何硬件资源的情况下,基于计算模块本身的硬件资源,实现了管理模块冗余备份,具有操作控制便捷,应用范围广的技术效果。
3.备管理模块实时监控主管理模块的运行状态,对管理模块的异常监控全面,既监控了管理模块中BMC的运行状态,又对管理模块的CPU实现了监控的效果。
4.主备管理模块CPLD之间、CPLD与BMC之间,通过数据通信,采用相互确认的方式实现管理模块权限的切换,主备切换由CPLD执行完成。CPLD为硬件逻辑器件,稳定可靠,确保了切换流程的可靠性。
实施例二
基于与前述实施例中一种VPX服务器管理模块冗余备份方法相同的发明构思,如图3所示,本申请提供了一种VPX服务器管理模块冗余备份***,其中,所述***包括:
第一执行单元11,所述第一执行单元11用于通过第一管理模块、第二管理模块的CPLD确认主管理权限分配信息,并将主管理权限状态值寄存至CPLD中;
第一获得单元12,所述第一获得单元12用于分别通过所述第一管理模块、第二管理模块各自的BMC获得各自CPLD中管理权限寄存器状态值,并根据所述管理权限寄存器状态值确定管理权限;
第二执行单元13,所述第二执行单元13用于通过BMC将所述管理权限发送至CPU,CPU确定主管理权限信息,其中,所述主管理权限信息为将具有主管理权限状态值的所述第一管理模块或第二管理模块作为主管理模块,执行管理任务,将不具有所述主管理权限状态值的管理模块作为备管理模块;
第二获得单元14,所述第二获得单元14用于通过所述备管理模块对所述主管理模块的工作状态进行监控,获得工作状态信息;
第三获得单元15,所述第三获得单元15用于当所述工作状态信息为异常时,获得主备切换指令,所述主备切换指令用于将所述备管理模块与主管理模块进行权限互换。
进一步地,所述***还包括:
第三执行单元,所述第三执行单元用于所述备管理模块通过IPMB接口向所述主管理模块发送查询信息,所述查询信息为向主管理模块发送的工作状态查询请求;
第四获得单元,所述第四获得单元用于基于所述查询信息,获得查询反馈信息,所述查询反馈信息为将主管理模块的工作状态包发送至所述备管理模块;
第五获得单元,所述第五获得单元用于根据所述查询反馈信息,获得所述工作状态信息,当接收到所述查询反馈信息时,所述工作状态信息为正常,当未接收到所述查询反馈信息时,所述工作状态信息为异常。
进一步地,所述***还包括:
第六获得单元,所述第六获得单元用于通过所述主管理模块的BMC对CPU运行状态进行监控,获得CPU任务分配信息;
第四执行单元,所述第四执行单元用于当所述CPU任务分配信息为无法计算任务分配情况时,所述工作状态信息为异常,并将所述工作状态信息通过所述IPMB接口主动发送至所述备管理模块;
第一处理单元,所述第一处理单元用于当所述CPU任务分配信息为正常计算任务分配情况时,所述工作状态信息为正常。
进一步地,所述***还包括:
第五执行单元,所述第五执行单元用于所述备管理模块执行升主流程;
第六执行单元,所述第六执行单元用于所述主管理模块执行降备流程。
进一步地,所述***还包括:
第二处理单元,所述第二处理单元用于所述备管理模块BMC向CPLD更新管理权限寄存器值,将其更新为主管理权限状态值;
第三处理单元,所述第三处理单元用于当所述备管理模块的CPLD确定所述主管理权限状态值时,修改备管理模块BMC的电平状态为第一状态,同时向主管理模块的CPLD发送降备动作信息;
第七获得单元,所述第七获得单元用于获得所述主管理模块降备完成信息;
第八获得单元,所述第八获得单元用于当所述主管理模块降备完成时,所述备管理模块的CPLD修改所述备管理模块BMC的电平状态为第二状态,获得升主完成信息,并将所述升主完成信息发送至BMC;
第九获得单元,所述第九获得单元用于所述备管理模块BMC接收到所述升主完成信息后,获得主管理权限,通知所述备管理模块执行所述主管理权限,原备管理模块切换为新的主管理模块。
进一步地,所述***还包括:
第十获得单元,所述第十获得单元用于获得所述备管理模块CPLD的电平变化信息;
第四处理单元,所述第四处理单元用于根据所述备管理模块CPLD的电平变化信息,所述主管理模块对主管理模块CPU、BMC进行掉电重启;
第一确认单元,所述第一确认单元用于所述主管理模块CPLD修改管理权限寄存器状态值,确认模块失去管理权限;
第一发送单元,所述第一发送单元用于所述主管理模块CPLD修改与备管理模块CPLD的状态电平,向所述备管理模块发送降备完成信息;
第七执行单元,所述第七执行单元用于当所述主管理模块BMC重新上电后,读取所述管理权限寄存器状态值,确定降为备管理模块,并通知所述主管理模块CPU无管理权限。
前述图1实施例一中的一种VPX服务器管理模块冗余备份方法的各种变化方式和具体实例同样适用于本实施例的一种VPX服务器管理模块冗余备份***,通过前述对一种VPX服务器管理模块冗余备份方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种VPX服务器管理模块冗余备份***的实施方法,所以为了说明书的简洁,再次不再详述。
示例性电子设备
下面参考图4来描述本申请的电子设备,
基于与前述实施例中一种VPX服务器管理模块冗余备份方法相同的发明构思,本申请还提供了一种VPX服务器管理模块冗余备份***,包括:处理器,所述处理器与存储器耦合,所述存储器用于存储程序,当所述程序被所述处理器执行时,使得***以执行实施例一所述方法的步骤。
该电子设备300包括:处理器302、通信接口303、存储器301。可选的,电子设备300还可以包括总线架构304。其中,通信接口303、处理器302以及存储器301可以通过总线架构304相互连接;总线架构304可以是外设部件互连标(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry Standardarchitecture,简称EISA)总线等。所述总线架构304可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
处理器302可以是一个CPU,微处理器,ASIC,或一个或多个用于控制本申请方案程序执行的集成电路。
通信接口303,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN),有线接入网等。
存储器301可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable Programmable read only memory,EEPROM)、只读光盘(compactdiscread only memory,CD ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线架构304与处理器相连接。存储器也可以和处理器集成在一起。
其中,存储器301用于存储执行本申请方案的计算机执行指令,并由处理器302来控制执行。处理器302用于执行存储器301中存储的计算机执行指令,从而实现本申请上述实施例提供的一种VPX服务器管理模块冗余备份方法。
本领域普通技术人员可以理解:本申请中涉及的第一、第二等各种数字编号仅为描述方便进行的区分,并不用来限制本申请的范围,也不表示先后顺序。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“至少一个”是指一个或者多个。至少两个是指两个或者多个。“至少一个”、“任意一个”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个、种),可以表示:a,b,c,a b,a c,b c,或a b c,其中a,b,c可以是单个,也可以是多个。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(SolidState Disk,SSD))等。
本申请中所描述的各种说明性的逻辑单元和电路可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列(FPGA)或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本申请中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件单元、或者这两者的结合。软件单元可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于终端中。可选地,处理器和存储媒介也可以设置于终端中的不同的部件中。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管结合具体特征及其实施例对本申请进行了描述,显而易见的,在不脱离本申请的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是本申请的示例性说明,且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样,倘若本申请的这些修改和变型属于本申请及其等同技术的范围之内,则本申请意图包括这些改动和变型在内。

Claims (9)

1.一种VPX服务器管理模块冗余备份方法,其特征在于,所述方法应用于管理模块冗余备份***,所述***包括第一管理模块、第二管理模块,所述第一管理模块与所述第二管理模块连接,且,所述第一管理模块、第二管理模块均包括CPLD、BMC、CPU,所述方法包括:
通过所述第一管理模块、第二管理模块的CPLD确认主管理权限分配信息,并将主管理权限状态值寄存至CPLD中;
分别通过所述第一管理模块、第二管理模块各自的BMC获得各自CPLD中管理权限寄存器状态值,并根据所述管理权限寄存器状态值确定管理权限;
通过BMC将所述管理权限发送至CPU,CPU确定主管理权限信息,其中,所述主管理权限信息为将具有主管理权限状态值的所述第一管理模块或第二管理模块作为主管理模块,执行管理任务,将不具有所述主管理权限状态值的管理模块作为备管理模块;
对所述主管理模块的工作状态进行监控,获得工作状态信息;
当所述工作状态信息为异常时,获得主备切换指令,所述主备切换指令用于将所述备管理模块与主管理模块进行权限互换。
2.如权利要求1所述的方法,其特征在于,所述第一管理模块与所述第二管理模块通过IPMB接口连接,所述对所述主管理模块的工作状态进行监控,获得工作状态信息,包括:
所述备管理模块通过IPMB接口向所述主管理模块发送查询信息,所述查询信息为向主管理模块发送的工作状态查询请求;
基于所述查询信息,获得查询反馈信息,所述查询反馈信息为将主管理模块的工作状态包发送至所述备管理模块;
根据所述查询反馈信息,获得所述工作状态信息,当接收到所述查询反馈信息时,所述工作状态信息为正常,当未接收到所述查询反馈信息时,所述工作状态信息为异常。
3.如权利要求2所述的方法,其特征在于,所述对所述主管理模块的工作状态进行监控,获得工作状态信息,还包括:
通过所述主管理模块的BMC对CPU运行状态进行监控,获得CPU任务分配信息;
当所述CPU任务分配信息为无法计算任务分配情况时,所述工作状态信息为异常,并将所述工作状态信息通过所述IPMB接口主动发送至所述备管理模块;
当所述CPU任务分配信息为正常计算任务分配情况时,所述工作状态信息为正常。
4.如权利要求1所述的方法,其特征在于,所述当所述工作状态信息为异常时,获得主备切换指令,包括:
所述备管理模块执行升主流程;
所述主管理模块执行降备流程。
5.如权利要求4所述的方法,其特征在于,所述备管理模块执行升主流程,包括:
所述备管理模块BMC向CPLD更新管理权限寄存器值,将其更新为主管理权限状态值;
当所述备管理模块的CPLD确定所述主管理权限状态值时,修改备管理模块BMC的电平状态为第一状态,同时向主管理模块的CPLD发送降备动作信息;
获得所述主管理模块降备完成信息;
当所述主管理模块降备完成时,所述备管理模块的CPLD修改所述备管理模块BMC的电平状态为第二状态,获得升主完成信息,并将所述升主完成信息发送至BMC;
所述备管理模块BMC接收到所述升主完成信息后,获得主管理权限,通知所述备管理模块执行所述主管理权限,原备管理模块切换为新的主管理模块。
6.如权利要求4所述的方法,其特征在于,所述主管理模块执行降备流程,包括:
获得所述备管理模块CPLD的电平变化信息;
根据所述备管理模块CPLD的电平变化信息,所述主管理模块对主管理模块CPU、BMC进行掉电重启;
所述主管理模块CPLD修改管理权限寄存器状态值,确认模块失去管理权限;
所述主管理模块CPLD修改与备管理模块CPLD的状态电平,向所述备管理模块发送降备完成信息;
当所述主管理模块BMC重新上电后,读取所述管理权限寄存器状态值,确定降为备管理模块,并通知所述主管理模块CPU无管理权限。
7.一种VPX服务器管理模块冗余备份***,其特征在于,所述***应用于权利要求1-6任一所述方法,所述***包括:
第一执行单元,所述第一执行单元用于通过第一管理模块、第二管理模块的CPLD确认主管理权限分配信息,并将主管理权限状态值寄存至CPLD中;
第一获得单元,所述第一获得单元用于分别通过所述第一管理模块、第二管理模块各自的BMC获得各自CPLD中管理权限寄存器状态值,并根据所述管理权限寄存器状态值确定管理权限;
第二执行单元,所述第二执行单元用于通过BMC将所述管理权限发送至CPU,CPU确定主管理权限信息,其中,所述主管理权限信息为将具有主管理权限状态值的所述第一管理模块或第二管理模块作为主管理模块,执行管理任务,将不具有所述主管理权限状态值的管理模块作为备管理模块;
第二获得单元,所述第二获得单元用于通过所述备管理模块对所述主管理模块的工作状态进行监控,获得工作状态信息;
第三获得单元,所述第三获得单元用于当所述工作状态信息为异常时,获得主备切换指令,所述主备切换指令用于将所述备管理模块与主管理模块进行权限互换。
8.一种VPX服务器管理模块冗余备份***,其特征在于,包括:处理器,所述处理器与存储器耦合,所述存储器用于存储程序,当所述程序被所述处理器执行时,使***以执行权利要求1至6任一项所述方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
CN202210511533.0A 2022-05-11 2022-05-11 一种vpx服务器管理模块冗余备份方法及*** Pending CN114911644A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210511533.0A CN114911644A (zh) 2022-05-11 2022-05-11 一种vpx服务器管理模块冗余备份方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210511533.0A CN114911644A (zh) 2022-05-11 2022-05-11 一种vpx服务器管理模块冗余备份方法及***

Publications (1)

Publication Number Publication Date
CN114911644A true CN114911644A (zh) 2022-08-16

Family

ID=82766412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210511533.0A Pending CN114911644A (zh) 2022-05-11 2022-05-11 一种vpx服务器管理模块冗余备份方法及***

Country Status (1)

Country Link
CN (1) CN114911644A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115408240A (zh) * 2022-09-09 2022-11-29 中国兵器装备集团自动化研究所有限公司 一种冗余***主备方法、装置、设备及储存介质
CN116107817A (zh) * 2023-04-10 2023-05-12 湖南博匠信息科技有限公司 一种vpx服务器双计算模块冗余工作方法和***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115408240A (zh) * 2022-09-09 2022-11-29 中国兵器装备集团自动化研究所有限公司 一种冗余***主备方法、装置、设备及储存介质
CN115408240B (zh) * 2022-09-09 2023-07-25 中国兵器装备集团自动化研究所有限公司 一种冗余***主备方法、装置、设备及储存介质
CN116107817A (zh) * 2023-04-10 2023-05-12 湖南博匠信息科技有限公司 一种vpx服务器双计算模块冗余工作方法和***
CN116107817B (zh) * 2023-04-10 2023-06-13 湖南博匠信息科技有限公司 一种vpx服务器双计算模块冗余工作方法和***

Similar Documents

Publication Publication Date Title
CN109471770B (zh) 一种***管理方法和装置
CN114911644A (zh) 一种vpx服务器管理模块冗余备份方法及***
EP3306476B1 (en) Method and apparatus for hot cpu removal and hot cpu adding during operation
US7802127B2 (en) Method and computer system for failover
EP2095231B1 (en) Computer system and method of control thereof
US8046520B2 (en) Compound computer system and method for sharing PCI devices thereof
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
CN106980529B (zh) 基板管理控制器资源管理的电脑***
WO2021004256A1 (zh) 一种节点故障时进行节点切换的方法及相关设备
US7194614B2 (en) Boot swap method for multiple processor computer systems
CN115113987A (zh) 一种非一致内存访问资源分配方法、装置、设备及介质
US20200314172A1 (en) Server system and management method thereto
EP2110748B1 (en) Cluster control apparatus, cluster system and control program
JP2009237758A (ja) サーバシステム、サーバ管理方法、およびそのプログラム
JP6103060B2 (ja) 管理装置、管理方法及びプログラム
CN115543527A (zh) 一种监控方法、装置、设备及可读存储介质
CN105446833B (zh) 服务器的控制方法和服务器的控制设备
CN117971741B (zh) 互连链路的控制方法及装置、存储介质及电子设备
CN115904621B (zh) 超融合***主机维护方法及装置
US7688840B2 (en) Method for incorporating new device in information processing apparatus, information processing apparatus and computer readable information recording medium
CN116594649A (zh) 一种计算设备
TWI244031B (en) Booting switch method for computer system having multiple processors
CN115664943A (zh) 主从关系的确定方法和装置、存储介质和电子设备
CN113867753A (zh) 一种服务器的固件更新方法及***
CN117992305A (zh) 虚拟机监测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination