CN115543872A - 一种设备管理方法、装置及计算机存储介质 - Google Patents

一种设备管理方法、装置及计算机存储介质 Download PDF

Info

Publication number
CN115543872A
CN115543872A CN202110731449.5A CN202110731449A CN115543872A CN 115543872 A CN115543872 A CN 115543872A CN 202110731449 A CN202110731449 A CN 202110731449A CN 115543872 A CN115543872 A CN 115543872A
Authority
CN
China
Prior art keywords
expansion device
reset control
peripheral controller
target expansion
reset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110731449.5A
Other languages
English (en)
Inventor
李小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110731449.5A priority Critical patent/CN115543872A/zh
Publication of CN115543872A publication Critical patent/CN115543872A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/10Program control for peripheral devices
    • G06F13/102Program control for peripheral devices where the programme performs an interfacing function, e.g. device driver

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例提出了一种设备管理方法、装置及计算机存储介质,该方法包括:通过第一通信链路向每个扩展设备的外设控制器发送心跳命令;接收所述每个扩展设备的外设控制器响应所述心跳命令发送的设备状态数据;若在预设时长内未接收到一个或多个扩展设备中目标扩展设备的外设控制器发送的设备状态数据,则向所述目标扩展设备的复位控制电路发送第一复位控制指令,所述第一复位控制指令用于指示所述目标扩展设备的复位控制电路对所述目标扩展设备的外设控制器执行复位操作,可以便捷、有效地对扩展设备的外设控制器实施故障检测,并及时地进行故障处理,有效缩短了业务中断时间。

Description

一种设备管理方法、装置及计算机存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种设备管理方法、装置及计算机存储介质。
背景技术
异构服务器是指由处理能力或硬件配置不同的电子设备所组成的数据中心或集群,异构服务器通常包括主板以及至少一个扩展设备,扩展设备例如可以是存储服务器、GPU(Graphics Processing Unit,图形处理器)服务器、智能网卡等。其中,主板包括主控制器、处理器等,扩展设备包括外设控制器以及业务处理电路,通常由主板的主控制器负责对外通信,接收运维管理平台下发的操作指令,而扩展设备的外设控制器主要负责对所在的扩展设备包括的业务处理电路进行综合管理。
随着异构服务器的大量应用,随之而来的是设备管理的复杂性,例如主板的主控制器通常仅仅是只基于I2C总线与扩展设备的外设控制器进行连接,从而获取扩展设备的外设控制器采集到的资产信息(例如现场可更换单元)、实时数据(例如温度)等,当扩展设备的外设控制器发生异常时,主板的主控制器无法获取到资产信息、实时数据等,扩展设备的外设控制器也无法自动恢复,这可能导致风扇长时间进行高速转动,而有过热或掉电风险,目前通常是需要人工到达现场对外设控制器进行故障处理,效率较低,业务中断时间较长。可见,对扩展设备的外设控制器运行的状态进行实时监控,以及对扩展设备的外设控制器及时进行故障处理是十分有必要的。
发明内容
本申请实施例提供了一种设备管理方法、装置及计算机存储介质,可以便捷、有效地对扩展设备的外设控制器实施故障检测,并及时地进行故障处理,有效缩短了业务中断时间。
一方面,本申请实施例提供了一种设备管理方法,应用于计算机设备,所述计算机设备包括主控制器、一个或多个扩展设备,所述扩展设备包括复位控制电路和外设控制器,所述主控制器与所述外设控制器、所述复位控制电路之间通过第一通信链路建立连接,所述方法包括:
通过所述第一通信链路向每个扩展设备的外设控制器发送心跳命令;
接收所述每个扩展设备的外设控制器响应所述心跳命令发送的设备状态数据;
若在预设时长内未接收到所述一个或多个扩展设备中目标扩展设备的外设控制器发送的设备状态数据,则向所述目标扩展设备的复位控制电路发送第一复位控制指令,所述第一复位控制指令用于指示所述目标扩展设备的复位控制电路对所述目标扩展设备的外设控制器执行复位操作。
一方面,本申请实施例提供了一种设备管理装置,应用于计算机设备,所述计算机设备包括主控制器、一个或多个扩展设备,所述扩展设备包括复位控制电路和外设控制器,所述主控制器与所述外设控制器、所述复位控制电路之间通过第一通信链路建立连接,所述装置包括:
发送模块,用于通过所述第一通信链路向每个扩展设备的外设控制器发送心跳命令;
接收模块,用于接收所述每个扩展设备的外设控制器响应所述心跳命令发送的设备状态数据;
发送模块,还用于若在预设时长内未接收到所述一个或多个扩展设备中目标扩展设备的外设控制器发送的设备状态数据,则向所述目标扩展设备的复位控制电路发送第一复位控制指令,所述第一复位控制指令用于指示所述目标扩展设备的复位控制电路对所述目标扩展设备的外设控制器执行复位操作。
一方面,本申请实施例提供了一种计算机设备,包括:主控制器、一个或多个扩展设备、存储器、通信接口,所述扩展设备包括复位控制电路和外设控制器,所述主控制器与所述外设控制器、所述复位控制电路之间通过第一通信链路建立连接;
所述主控制器,适于执行计算机程序;
所处存储器,存储有计算机程序,该计算机程序被所述主控制器执行时,实现上述的设备管理方法。
一方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序适于由主控制器加载并执行上述的设备管理方法。
一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的主控制器从计算机可读存储介质读取该计算机指令,主控制器执行该计算机指令,使得该计算机设备执行上述的设备管理方法。
本申请实施例中,主控制器可通过第一通信链路向每个扩展设备的外设控制器发送心跳命令,并接收每个扩展设备的外设控制器响应心跳命令发送的设备状态数据,若在预设时长内未接收到一个或多个扩展设备中目标扩展设备的外设控制器发送的设备状态数据,则向目标扩展设备的复位控制电路发送第一复位控制指令,目标扩展设备的复位控制电路响应第一复位控制指令对目标扩展设备的外设控制器执行复位操作;该设备管理方法可以通过扩展设备的外设控制器是否响应心跳命令返回设备状态数据,对外设控制器的运行状态进行监控,同时,当目标扩展设备的外设控制器未返回设备状态数据时,主控制器可通过向目标扩展设备的复位控制电路下发第一复位控制指令使得目标扩展设备的外设控制器执行复位操作,从而可以便捷、有效地对扩展设备的外设控制器实施故障检测,并及时地进行故障处理,有效缩短了业务中断时间。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的一种计算机设备的结构示意图;
图2是本申请一个示例性实施例提供的一种设备管理方法的流程示意图;
图3是本申请另一个示例性实施例提供的一种设备管理方法的流程示意图;
图4是本申请另一个示例性实施例提供的一种计算机设备的结构示意图;
图5是本申请一个示例性实施例提供的一种设备管理装置的结构示意图;
图6是本申请另一个示例性实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的,而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此,限定有“第一”、“第二”的技术特征可以明示或者隐含的包括至少一个该特征。
为了实现可以便捷、有效地对扩展设备的外设控制器实施故障检测,并及时地进行故障处理,缩短业务中断时间的目的,本申请实施例基于云技术提出了一种设备管理方法。
云技术(Cloud technology)是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台***进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的***后盾支撑,只能通过云计算来实现。
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用***能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
随着云技术研究和进步,云技术在多个领域展开研究和应用,本申请实施例的设备管理方法涉及云技术中的云计算等技术,具体通过以下实施例进行说明。
为了更好的理解本申请实施例提供的设备管理方法、装置及计算机存储介质,下面先对本申请实施例适用的计算机设备的结构进行描述。请参阅图1,图1是本申请一个示例性实施例提供的一种计算机设备的结构示意图。如图1所示,该计算机设备包括主控制器101、一个或多个扩展设备102,扩展设备102包括复位控制电路103、外设控制器104、以及一个或多个业务处理电路105。主控制器101与复位控制电路103、外设控制器104之间通过第一通信链路建立连接,主控制器101与外设控制器104之间还通过第二通信链路建立连接,外设控制器104与业务处理电路105之间连接。扩展设备102的复位控制电路103可以连接扩展设备102的外设控制器104的复位控制端,也可以连接扩展设备102的业务处理电路105的复位控制端。需要说明的是,在具体实现中,该计算机设备还包括内存、硬盘等硬件资源,以及操作***、应用程序等软件资源。其中,该计算机设备具体可以是异构服务器,异构服务器具体可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云计算服务的云服务器。
第一通信链路可以用于传输主控制器101向扩展设备102下发的操作指令(例如复位控制指令、串口切换指令、心跳命令等),还可以用于传输数据(例如扩展设备102的外设控制器104向主控制器101发送扩展设备102的电源状态、温度等)。第二通信链路可以用于传输数据(例如扩展设备102的外设控制器104向主控制器101发送扩展设备102的电源状态、温度、硬件配置、外设控制器104的日志数据等)。
第一通信链路具体可以是I2C总线(串行传输总线)、SMBus(System ManagementBus,***管理总线)等数据传输总线,但并不局限于此。第二通信链路具体可以是USB(Universal Serial Bus,通用串行总线)、NCSI(Network Controller SidebandInterface,网络控制器边带接口)、UART(Universal Asynchronous Receiver/Transmitter,通用异步收发传输器)等,但并不局限于此。
主控制器101可以向扩展设备102下发操作指令,以及监控扩展设备的运行状态,例如可以是基板管理控制器(baseboard management controller,BMC)等。
复位控制电路103可以用于执行主控器101下发的操作指令,例如可以是PCA9555等复位电路。
外设控制器104可以用于对连接的业务处理电路105进行设备管理,例如可以是卫星控制器(Satellite Management Controller,SMC)等。
业务处理电路105为对业务进行处理的电路,例如可以为FPGA(FieldProgrammable Gate Array,现场可编程门阵列)、***级芯片(System on Chip,SoC)、存储服务器、GPU服务器、温度传感器(例如LM76)等。
在一个实施例中,主控制器101可以通过第一通信链路向每个扩展设备102的外设控制器104发送心跳命令,并接收每个扩展设备102的外设控制器104响应心跳命令发送的设备状态数据,当在预设时长内目标扩展设备102的外设控制器104未返回设备状态数据时,此时目标扩展设备102的外设控制器104可能发生异常,主控制器101可以向目标扩展设备102的复位控制电路103发送第一复位控制指令,使得目标扩展设备102的复位控制电路103输出复位触发信息到目标扩展设备102的外设控制器104的复位控制端,使得目标扩展设备102的外设控制器104执行复位操作,该方法,可以便捷、有效地对扩展设备102的外设控制器104实施故障检测,并及时地进行故障处理,有效缩短了业务中断时间。
在一个实施例中,主控制器101可以与管理设备进行连接,该连接可以为有线连接,也可以为无线连接。此时,主控制器101可以接收管理设备发送的串口切换指令,当该串口切换指令包括的操作类型指示信息为串口切换操作时,主控制器101将串口切换指令发送给目标扩展设备102的复位控制电路103以建立主控制器101和目标扩展设备102的外设控制器104之间的第二通信链路,此时主控制器101可以通过第二通信链路从目标扩展设备102的外设控制器104获取目标扩展设备102的硬件配置数据、设备状态数据以及目标扩展设备102的外设控制器104的运行记录数据中的一个或多个,并发送给管理设备,用户可以通过在管理设备上查看上述硬件配置数据、设备状态数据以及运行记录数据中的一个或多个,来对目标扩展设备102,以及目标扩展设备102的外设控制器104进行故障分析;当该串口切换指令包括的操作类型指示信息为复位操作时,主控制器101向目标扩展设备102的复位控制电路103发送第二复位控制指令,从而对目标复位对象执行复位操作,该目标复位对象是通过串口切换指令包括的复位对象指示信息从目标扩展设备的一个或多个业务处理电路以及目标扩展设备的外设控制器中确定的,该方法可以通过管理设备发送的串口切换指令对目标扩展设备102进行故障处理,同时还能采集目标扩展设备102的硬件配置数据、设备状态数据以及外设控制器104的运行记录数据,从而可以离线深入分析出故障原因,节省大量时间,大大提升了问题的解决效率。
可以理解的是,本申请实施例描述的计算机设备的结构示意图是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着结构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
下面详细介绍本申请的一种设备管理方法。
如图2所示,图2是本申请一个示例性实施例提供的一种设备管理方法的流程示意图,以该方法应用于图1中的主控制器101为例进行说明,该方法可包括以下步骤:
S201、通过第一通信链路向每个扩展设备的外设控制器发送心跳命令。
其中,第一通信链路为主控制器与扩展设备的外设控制器之间的交互主通道,可以用于传输操作指令(例如复位控制指令)和传输数据,第一通信链路可以为I2C、SMBus等数据传输总线。心跳命令用于指示扩展设备的外设控制器将设备状态数据发送给主控制器。
主控制器可以通过第一通信链路定期向每个扩展设备的外设控制器发送心跳命令,使得每个扩展设备的外设控制器定期将对应的设备状态数据发送给主控制器,从而对每个扩展设备的外设控制器的运行状态进行监控,探测每个扩展设备的外设控制器是否存活。
主控制器在通过第一通信链路定期向每个扩展设备的外设控制器发送心跳命令之前,需要探测第一通信链路上已挂载的扩展设备。其中,主控制所在主板的周围可以设置一个或多个卡槽,用于***扩展设备,如果扩展设备***对应的卡槽,则该扩展设备外接到了主控制器所在的主板,也即是挂载到了第一通信链路上。
在一个实施例中,主控制器与扩展设备的复位控制电路之间通过第一通信链路建立连接,复位控制电路可以包括一个或多个设备标识端,该一个或多个设备标识端的电平值可以作为扩展设备的设备标识,主控制器通过第一通信链路读取扩展设备的复位控制电路中一个或多个设备标识端的电平值,根据电平值可以唯一确定该扩展设备以及设备类型,从而探测第一通信链路上已挂载的扩展设备。
S202、接收所述每个扩展设备的外设控制器响应所述心跳命令发送的设备状态数据。
其中,设备状态数据为与扩展设备相关的数据,例如可以包括扩展设备的电源状态、健康状态、扩展设备的外设控制器连接的一个或多个业务处理电路的硬件配置。该业务处理电路为处理特定业务的电路,如温度传感器、SoC、FPGA等等。
主控制器向每个扩展设备的外设控制器发送心跳命令之后,接收每个扩展设备的外设控制器响应心跳命令发送的设备状态数据。
S203、若在预设时长内未接收到一个或多个扩展设备中目标扩展设备的外设控制器发送的设备状态数据,则向所述目标扩展设备的复位控制电路发送第一复位控制指令,所述第一复位控制指令用于指示所述目标扩展设备的复位控制电路对所述目标扩展设备的外设控制器执行复位操作。
其中,预设时长可以根据实际应用场景进行配置,例如5分钟。目标扩展设备的复位控制电路连接目标扩展设备的外设控制器的复位控制端。目标扩展设备为没有向主控制器发送设备状态数据的外设控制器对应的扩展设备。
当主控制器未在预设时长内接收到扩展设备的外设控制器发送的设备状态数据时,将其作为一个或多个扩展设备中目标扩展设备的外设控制器。此时主控制器生成第一复位控制指令,并向目标扩展设备的复位控制电路发送第一复位控制指令,目标扩展设备的复位控制电路响应第一复位控制指令产生复位触发信号,并将复位触发信息发送到目标扩展设备的外设控制器的复位控制端,以使得目标扩展设备的外设控制器执行复位操作。
本申请实施例中,主控制器可通过第一通信链路向每个扩展设备的外设控制器发送心跳命令,并接收每个扩展设备的外设控制器响应心跳命令发送的设备状态数据,若在预设时长内未接收到一个或多个扩展设备中目标扩展设备的外设控制器发送的设备状态数据,则向目标扩展设备的复位控制电路发送第一复位控制指令,以使得目标扩展设备的复位控制电路对目标扩展设备的外设控制器执行复位操作;该设备管理方法可以通过扩展设备的外设控制器是否响应心跳命令返回设备状态数据,对外设控制器的运行状态进行监控,同时,当目标扩展设备的外设控制器未返回设备状态数据时,主控制器可通过向目标扩展设备的复位控制电路下发第一复位控制指令使得目标扩展设备的外设控制器执行复位操作,从而可以便捷、有效地对扩展设备的外设控制器实施故障检测,并及时地进行故障处理,有效缩短了业务中断时间。
在某些情况下,例如外设控制器挂死,此时可能对目标扩展设备的外设控制器执行复位操作后外设控制器还是不响应主控制器发送的心跳命令,因此需要人工介入来对外设控制器进行故障处理。基于此,如图3所示,图3是本申请另一个示例性实施例提供的一种设备管理方法的流程示意图,以该方法应用于图1中的主控制器101为例进行说明,该方法可包括以下步骤:
S301、通过第一通信链路向目标扩展设备的外设控制器发送心跳命令。
其中,目标扩展设备为在接收到心跳命令后未在预设时长内向主控制器发送设备状态数据的外设控制器对应的扩展设备。
在一个实施例中,主控制器可以基于IPMI(Intelligent Platform ManagementInterface,智能平台管理接口)协议定期通过第一通信链路向目标扩展设备的外设控制器发送心跳命令。
其中,IPMI协议是管理基于Intel结构的企业***中所使用的***设备采用的一种工业标准,可以利用IPMI协议监视服务器的物理健康特征,如温度、电压、风扇工作状态、电源状态等。
在一个实施例中,主控制器通过第一通信链路向目标扩展设备的外设控制器发送心跳命令,该心跳命令具体可以为:GET Sensor Reading,GET Sensor Reading的详细信息以下表1所示为例,其包括网络功能码(NetFn)、命令标识(Command)、请求数据(RequestData),以及响应心跳命令GET Sensor Reading后返回的响应数据(Response Data)。该网络功能码可以用来标识网络协议(例如0x3A为IPMI协议),命令标识可以用来标识执行的命令(例如0x12为心跳命令),请求数据可以用于对分区风扇设置转速。
表1
Figure BDA0003138464760000101
Figure BDA0003138464760000111
S302、若在预设时长内未接收到所述目标扩展设备的外设控制器响应所述心跳命令发送的设备状态数据,则向管理设备发送所述目标扩展设备的故障指示信息。
其中,设备状态数据为目标扩展设备的外设控制器响应心跳命令返回的响应数据,为与目标扩展设备相关的数据,例如可以包括目标扩展设备的电源状态、健康状态。
当主控制器在预设时长内未接收到目标扩展设备的外设控制器响应心跳命令发送的设备状态数据时,可以向管理设备发送目标扩展设备的故障指示信息,用户可以在管理设备中查收发送的故障指示信息,确定发生故障的扩展设备(即目标扩展设备),以便于用户人工介入对目标扩展设备进行调试、定位故障位置、以及进行故障分析等等。
在一个实施例中,主控制器可以是在向目标扩展设备的外设控制器发送第一复位控制指令后,再向目标扩展设备的外设控制器发送心跳命令时,仍未在预设时长内接收到目标扩展设备的外设控制器响应心跳命令发送的设备状态数据时,向管理设备发送目标扩展设备的故障指示信息;也可以是未在预设时长内接收到目标扩展设备的外设控制器响应心跳命令发送的设备状态数据时,就向管理设备发送目标扩展设备的故障指示信息,本申请对此不作限定。
S303、接收所述管理设备发送的串口切换指令,所述串口切换指令包括操作类型指示信息。
其中,管理设备可以通过有线连接、也可以通过无线连接向主控制器发送串口切换指令,该串口切换指令包括的操作类型指示信息用于指示扩展设备的复位控制电路需要执行的操作,例如可以是建立目标扩展设备的外设控制器的串口与主控制器的串口之间的通信链路,也可以是对外设控制器执行复位操作。
在一个实施例中,用户可以在管理设备上(例如通过运维管理平台)向主控制器发送串口切换指令,主控制器接收管理设备发送的串口切换指令。
在一个实施例中,以串口切换指令为Force Hardware Operation为例,ForceHardware Operation的详细信息以下表2所示为例,其包括网络功能码(NetFn)、命令标识(Command)、请求数据(Request Data),以及响应GET Sensor Reading后返回的响应数据(Response Data)。该网络功能码可以用来标识网络协议(例如0x3A为IPMI协议)、命令标识可以用来标识执行的命令(例如0x11为串口切换指令),请求数据可以用于确定串口切换指令的操作逻辑(包括操作类型指示信息等等)、响应数据可以用于指示串口切换指令的执行情况。
表2
Figure BDA0003138464760000131
其中,表3中扩展设备类型(Device Type)为GPU服务器(JBOD)或存储服务器(JBOG)时,扩展设备的外设控制器与GPU服务器或存储服务器连接,即GPU服务器或存储服务器为业务处理电路,扩展设备类型(Device Type)为智能网卡时,需要根据与外设控制器连接的设备确定业务处理电路,例如为FPGA、SoC等等。
S304、若所述操作类型指示信息为串口切换操作,则向所述目标扩展设备的复位控制电路发送所述串口切换指令,所述串口切换指令用于指示所述目标扩展设备的复位控制电路建立所述主控制器与所述目标扩展设备的外设控制器之间的第二通信链路,所述第二通信链路是由所述目标扩展设备的外设控制器的串口与所述主控制器的串口之间的通信链路。
其中,第二通信链路为用于远程维护诊断交互的通道,用于进行数据传输,是目标扩展设备的外设控制器的串口与主控制器的串口之间的通信链路,例如可以为USB、NCSI、UART等。
目标扩展设备的复位控制电路连接目标扩展设备的外设控制器的串口切换控制端,若串口切换指令包括的操作类型指示信息为串口切换操作,例如串口切换指令ForceHardware Operation的请求数据byte[2]为1,则操作类型指示信息为串口切换操作,主控制器向目标扩展设备的复位控制电路发送串口切换指令,目标扩展设备的复位控制电路响应串口切换指令产生针对串口切换控制端的切换触发信号,从而建立目标扩展设备的外设控制器与主控制器之间的第二通信链路。
在一个实施例中,复位控制电路可以为PCA9555,其定义以下表3所示:
表3
Figure BDA0003138464760000141
Figure BDA0003138464760000151
其中,IO为PCA9555的引脚,IO0_0、IO0_1、IO0_2、IO0_3、IO0_4、IO0_5、IO0_6、IO0_7为复位控制电路的设备标识端,用于指示扩展设备的设备标识,IO1_2为外设控制器的复位控制端,IO1_3可以接入第一通信链路,输入P12V的电压,IO1_6为串口切换控制端。
在一个实施例中,复位控制电路可以响应串口切换指令,然后通过对串口切换控制端(IO1_6)下拉电平或上拉电平生成切换触发信息,从而建立主控制器与目标扩展设备的外设控制器之间的第二通信链路。
在一个实施例中,主控制器可以接收管理设备发送的登录请求,并响应登录请求通过数据透传端口(例如为SOL(Serial Over LAN))建立管理设备与目标扩展设备的外设控制器的串口之间的网络连接,利用网络连接向管理设备发送目标扩展设备的外设控制器的运行记录数据,其中,运行记录数据包括寄存器数据和日志数据,用户可以在管理设备查看运行记录数据,从而对目标扩展设备的外设控制器进行故障分析。通过本实施例,无论外设控制器是在运行阶段、boot阶段、或未存活(例如挂死),管理设备都可以通过远程登录获取目标扩展设备的外设控制器的运行记录数据,从而进行远程诊断,相比于现场诊断而言,可以节省大量的时间,提升运维效率。
S305、若所述操作类型指示信息为复位操作,则获取所述串口切换指令包括的复位对象指示信息,并根据所述复位对象指示信息从所述一个或多个业务处理电路以及所述目标扩展设备的外设控制器中确定目标复位对象。
其中,复位对象指示信息用于从目标扩展设备的一个或多个业务处理电路以及目标扩展设备的外设控制器中确定目标复位对象,目标复位对象可以为一个或多个。
在一个实施例中,目标扩展设备的复位控制电路除了连接目标扩展设备的外设控制器,还可以连接扩展设备的每个业务处理电路的复位控制端。
若串口切换指令包括的操作类型指示信息为复位操作,例如串口切换指令ForceHardware Operation中的请求数据byte[2]为0,则操作类型指示信息为复位操作,主控制器获取串口切换指令包括的复位对象指示信息,并根据复位对象指示信息确定目标复位对象,目标复位对象的复位控制端是与目标扩展设备的复位控制电路连接的。
S306、向所述目标扩展设备的复位控制电路发送第二复位控制指令,所述第二复位控制指令用于指示所述目标扩展设备的复位控制电路对所述目标复位对象执行复位操作。
其中,第二复位控制指令用于指示目标扩展设备的复位控制电路对确定出的目标复位对象执行复位操作。
主控制器在确定目标复位对象后,向目标扩展设备的复位控制电路发送第二复位控制指令,目标扩展设备的复位控制电路响应第二复位控制指令,产生针对目标复位对象的复位触发信号,将该复位触发信息发送到目标复位对象的复位控制端,以使得目标复位对象执行复位操作。
在一个实施例中,复位控制电路可以为PCA9555,PCA9555如上述表3所示,PCA9555的IO1_0、IO1_1、IO1_4、IO1_5、IO1_7可以用于连接扩展设备的每个业务处理电路的复位控制端,PCA9555可以响应第二复位控制指令,通过对IO1_0、IO1_1、IO1_2、IO1_4、IO1_5、IO1_7下拉电平或上拉电平产生复位触发信息,从而对其连接的目标复位对象执行复位操作。
在一个实施例中,若主控制器在预设时长内接收到目标扩展设备的外设控制器发送的设备状态数据,即目标扩展设备能正常响应心跳命令时,主控制器通过第一通信链路向目标扩展设备的外设控制器发送数据采集命令,目标扩展设备的外设控制器响应数据采集命令通过第二通信链路向主控制器发送目标扩展设备的硬件配置数据、设备状态数据以及目标扩展设备的外设控制器的运行记录数据,主控制器进一步向管理设备发送硬件配置数据、设备状态数据以及运行记录数据,用户可以在管理设备查看硬件配置数据、设备状态数据以及运行记录数据,从而对目标扩展设备进行故障分析。
在一个实施例中,数据采集指令可以是在向目标扩展设备的外设控制器发送第一复位指令后,再次向目标扩展设备的外设控制器发送心跳命令时,在预设时长内接收到目标扩展设备的外设控制器发送的设备状态数据时发送的;也可以是在向目标扩展设备的外设控制器发送第二复位指令后,再次向目标扩展设备的外设控制器发送心跳命令时,在预设时长内接收到目标扩展设备的外设控制器发送的设备状态数据时发送的。
在一个实施例中,第二通信链路可以为USB,主控制器可以通过以下步骤从目标扩展设备的外设控制器获取上述硬件配置数据、上述设备状态数据以及上述运行记录数据,具体为:
(1)关闭外设控制器节能模式(启用虚拟设备)。
(2)在外设控制器端创建虚拟磁盘并挂载至虚拟目录(例如/var/usb0)。
(3)外设控制器端将上述硬件配置数据、上述设备状态数据以及上述运行记录数据拷贝至虚拟目录。
(4)将虚拟磁盘作为USB设备挂载至主控制器端。
(5)主控制器将上述硬件配置数据、上述设备状态数据以及上述运行记录数据从虚拟目录拷贝至相关路径。
(6)将虚拟磁盘从主控制器端卸载。
(7)在外设控制器端卸载虚拟磁盘并将其删除,以释放内存。
(8)打开外设控制器节能模式(禁用虚拟设备)。
通过本申请实施例,主控制器通过第一通信链路向目标扩展设备的外设控制器发送心跳命令,若在预设时长内未接收到目标扩展设备的外设控制器响应心跳命令发送的设备状态数据时,可以向管理设备发送故障指示信息,以及接收管理设备发送的串口切换指令,根据串口切换指令包括的操作类型指示信息可以对目标扩展设备的一个或多个业务处理电路以及外设控制器进行复位操作,因此该方法可以远程对目标扩展设备执行复位操作,相比于人工直接到现场对目标扩展设备进行复位而言,该方法可以节省大量时间,减少业务中断时间,同时运维效率高、运维成本低;该方法也可以建立第二通信链路,获取目标扩展设备的硬件配置数据、设备状态数据以及目标扩展设备的外设控制器的运行记录数据,并发送给管理设备,使得可以离线深入分析,从而能够更加方便地发现故障原因。
作为本申请的一个具体示例,如图4所示,提供了另一种计算机设备的结构示意图,该计算机设备包括一个主控制器(BMC)、一个扩展设备(智能网卡),该智能网卡包括一个外设控制器(SMC)、一个复位控制电路(PCA9555)、一个或多个业务处理电路(FPGA、SoC、FPGA FLASH)。BMC与SMC、PCA9555之间通过第一通信链路(I2C)建立连接,BMC与SMC之间通过第二通信链路(USB/NCSI/UART)建立连接,FPGA、FPGA FLASH和SMC之间通过SPI(SerialPeripheral Interface,串行外设接口)连接,SMC与SoC之间通过数据接口(Low pin countBus,LPC),PCA9555包括多个引脚,例如RST FPGA可以连接FPGA的复位控制端、RST SMC可以连接SMC的复位控制端、RST SoC可以连接SoC的复位控制端。运维管理平台可以安装在管理设备上,可以通过有线连接或无线连接与BMC通信,该运维管理平台可以是腾讯的运维管理平台(Tencent Outband Control,TOC)。
在一个实施例中,BMC可以定期向SMC发送心跳命令,并接收SMC响应心跳命令发送的设备状态数据,若在预设时长内未接收到SMC发送的设备状态数据,则向SMC发送第一复位控制指令,使得RST SMC输出复位触发信号,将该复位触发信号发送到SMC的复位控制端,以便SMC能自动复位。
在一个实施例中,若SMC在复位后还是未在预设时长内响应心跳命令,将设备状态数据发送到BMC,则管理设备可以通过运维管理平台发送串口切换指令到BMC,当串口切换指令指示执行复位操作时,可以生成第二复位指令,对SMC和业务处理电路中的一个或多个进行复位;同时当串口切换指令指示执行串口切换操作时,可以将BMC与SMC之间的第一通信链路强制切换,建立BMC与SMC之间的第二通信链路,通过第二通信链路获取智能网卡的设备状态数据(例如温度、电源状态)、硬件配置数据(例如包括FPGA、SoC、FPGA FLASH、SMC)、以及SMC的运行状态数据(例如寄存器数据、日志数据等),以方便提供给用户进行离线故障分析。
在一个实施例中,用户还可以通过管理设备(例如运维管理平台)发送登录请求到BMC,以建立管理设备与SMC的串口的连接,从而获取SMC的运行状态数据,以便用户可以通过查看运行状态数据远程诊断SMC的故障原因。
在一个实施例中,当BMC能在预设时长内接收到SMC返回的设备状态数据时,可以通过第二通信链路获取智能网卡的设备状态数据、硬件配置数据、以及SMC的运行状态数据(例如寄存器数据、日志数据等),以方便提供给用户对扩展设备(智能网卡)进行离线故障分析。
通过本申请实施例,可以对扩展设备(智能网卡)的外设控制器(SMC)的运行状态进行监控,以及对外设控制器(SMC)自动执行复位操作,从而可以减少业务中断时间;当复位失败时,可以通过人工介入对扩展设备进行复位,另外主控制器(BMC)还可以自动获取设备状态数据、硬件配置数据、运行状态数据,同时用户也可以远程登录查看上述运行状态数据,可以便于用户对扩展设备进行故障分析。
上述详细阐述了本申请实施例的方法,为了便于更好地实施本申请实施例的上述方案,相应地,下面提供了本申请实施例的装置。请参见图5,图5是本申请一个示例性实施例提供的一种设备管理装置的结构示意图,该装置50可以包括:
发送模块501,用于通过所述第一通信链路向每个扩展设备的外设控制器发送心跳命令;
接收模块502,用于接收所述每个扩展设备的外设控制器响应所述心跳命令发送的设备状态数据;
发送模块501,还用于若在预设时长内未接收到所述一个或多个扩展设备中目标扩展设备的外设控制器发送的设备状态数据,则向所述目标扩展设备的复位控制电路发送第一复位控制指令,所述第一复位控制指令用于指示所述目标扩展设备的复位控制电路对所述目标扩展设备的外设控制器执行复位操作。
在一个实施例中,上述发送模块501,还用于:
生成第一复位控制指令;
向所述目标扩展设备的复位控制电路发送所述第一复位控制指令。
在一个实施例中,上述发送模块501,还用于:
若在所述预设时长内未接收到所述目标扩展设备的外设控制器发送的设备状态数据,则向管理设备发送所述目标扩展设备的故障指示信息;
上述接收模块502,还用于:
接收所述管理设备发送的串口切换指令;
上述发送模块501,还用于:
向所述目标扩展设备的复位控制电路发送所述串口切换指令,所述串口切换指令用于指示所述目标扩展设备的复位控制电路建立所述主控制器与所述目标扩展设备的外设控制器之间的第二通信链路,所述第二通信链路是所述目标扩展设备的外设控制器的串口与所述主控制器的串口之间的通信链路。
在一个实施例中,上述接收模块502,还用于:
接收所述管理设备发送的登录请求;
上述发送模块501,还用于:
响应所述登录请求通过数据透传端口建立所述管理设备与所述目标扩展设备的外设控制器的串口之间的网络连接;
通过所述网络连接向所述管理设备发送所述目标扩展设备的外设控制器的运行记录数据,所述运行记录数据包括寄存器数据和日志数据,所述运行记录数据用于对所述目标扩展设备的外设控制器进行故障分析。
在一个实施例中,上述发送模块501,还用于:
若所述操作类型指示信息为串口切换操作,执行所述向所述目标扩展设备的复位控制电路发送所述串口切换指令的步骤;
上述设备管理装置还包括处理模块503,该处理模块503用于:
若所述操作类型指示信息为复位操作,则获取所述串口切换指令包括的复位对象指示信息,并根据所述复位对象指示信息从所述一个或多个业务处理电路以及所述目标扩展设备的外设控制器中确定目标复位对象;
上述发送模块501,还用于:
向所述目标扩展设备的复位控制电路发送第二复位控制指令,所述第二复位控制指令用于指示所述目标扩展设备的复位控制电路对所述目标复位对象执行复位操作。
在一个实施例中,上述发送模块501,还用于:
若在所述预设时长内接收到所述目标扩展设备的外设控制器发送的设备状态数据,则通过所述第一通信链路向所述目标扩展设备的外设控制器发送数据采集命令,所述数据采集命令用于指示所述目标扩展设备的外设控制器获取所述目标扩展设备的硬件配置数据、设备状态数据以及所述目标扩展设备的外设控制器的运行记录数据;
上述接收模块502,还用于:
接收所述目标扩展设备的外设控制器通过所述第二通信链路发送的所述硬件配置数据、所述设备状态数据以及所述运行记录数据;
上述发送模块501,还用于:
向所述管理设备发送所述硬件配置数据、所述设备状态数据以及所述运行记录数据,所述硬件配置数据、所述设备状态数据以及所述运行记录数据用于对所述目标扩展设备进行故障分析。
本申请实施例中,主控制器可通过第一通信链路向每个扩展设备的外设控制器发送心跳命令,并接收每个扩展设备的外设控制器响应心跳命令发送的设备状态数据,若在预设时长内未接收到一个或多个扩展设备中目标扩展设备的外设控制器发送的设备状态数据,则向目标扩展设备的复位控制电路发送第一复位控制指令,以使得目标扩展设备的复位控制电路对目标扩展设备的外设控制器执行复位操作;该设备管理方法可以通过扩展设备的外设控制器是否响应心跳命令返回设备状态数据,对外设控制器的运行状态进行监控,同时,当目标扩展设备的外设控制器未返回设备状态数据时,主控制器可通过向目标扩展设备的复位控制电路下发第一复位控制指令使得目标扩展设备的外设控制器执行复位操作,从而可以便捷、有效地对扩展设备的外设控制器实施故障检测,并及时地进行故障处理,有效缩短了业务中断时间。
请参见图6,图6是本申请实施例提供的一种计算机设备的结构示意图,该计算机设备60至少包括主控制器601、一个或多个扩展设备602、存储器603以及通信接口604,其中,扩展设备602至少包括外设控制器6021和复位控制电路6022。主控制器601、扩展设备602、存储器603以及通信接口604可通过总线或者其它方式连接,主控制器601、扩展设备602还可通过第一通信链路(例如I2C)连接,主控制器601、外设控制器6021和复位控制电路6022可通过第一通信链路连接。通信接口604可以用于接收或者发送数据。存储器603中存储有计算机程序,该计算机程序包括计算机指令。主控制器601用于执行计算机指令。主控制器601(是计算机设备60的计算核心以及控制核心,其适于由主控制器601加载并执行一条或多条计算机指令,以实现上述设备管理方法实施例中的相应步骤;具体实现中,存储器603中的计算机指令由主控制器601加载并执行如下步骤:
通过所述第一通信链路向每个扩展设备602的外设控制器6021发送心跳命令;
接收所述每个扩展设备602的外设控制器6021响应所述心跳命令发送的设备状态数据;
若在预设时长内未接收到所述一个或多个扩展设备602中目标扩展设备602的外设控制器6021发送的设备状态数据,则向所述目标扩展设备602的复位控制电路6022发送第一复位控制指令,所述第一复位控制指令用于指示所述目标扩展设备602的复位控制电路6022对所述目标扩展设备602的外设控制器6021执行复位操作。
在一个实施例中,上述主控制器601,还用于:
生成第一复位控制指令;
向所述目标扩展设备602的复位控制电路6022发送所述第一复位控制指令。
在一个实施例中,上述主控制器601,还用于:
若在所述预设时长内未接收到所述目标扩展设备602的外设控制器6021发送的设备状态数据,则向管理设备发送所述目标扩展设备602的故障指示信息;
接收所述管理设备发送的串口切换指令;
向所述目标扩展设备602的复位控制电路6022发送所述串口切换指令,所述串口切换指令用于指示所述目标扩展设备602的复位控制电路6022建立所述主控制器与所述目标扩展设备602的外设控制器6021之间的第二通信链路,所述第二通信链路是所述目标扩展设备602的外设控制器6021的串口与所述主控制器的串口之间的通信链路。
在一个实施例中,上述主控制器601,还用于:
接收所述管理设备发送的登录请求;
响应所述登录请求通过数据透传端口建立所述管理设备与所述目标扩展设备602的外设控制器6021的串口之间的网络连接;
通过所述网络连接向所述管理设备发送所述目标扩展设备602的外设控制器6021的运行记录数据,所述运行记录数据包括寄存器数据和日志数据,所述运行记录数据用于对所述目标扩展设备602的外设控制器6021进行故障分析。
在一个实施例中,上述主控制器601,还用于:
若所述操作类型指示信息为串口切换操作,执行所述向所述目标扩展设备602的复位控制电路6022发送所述串口切换指令的步骤;
若所述操作类型指示信息为复位操作,则获取所述串口切换指令包括的复位对象指示信息,并根据所述复位对象指示信息从所述一个或多个业务处理电路以及所述目标扩展设备602的外设控制器6021中确定目标复位对象;
向所述目标扩展设备602的复位控制电路6022发送第二复位控制指令,所述第二复位控制指令用于指示所述目标扩展设备602的复位控制电路6022对所述目标复位对象执行复位操作。
在一个实施例中,上述主控制器601,还用于:
若在所述预设时长内接收到所述目标扩展设备602的外设控制器6021发送的设备状态数据,则通过所述第一通信链路向所述目标扩展设备602的外设控制器6021发送数据采集命令,所述数据采集命令用于指示所述目标扩展设备602的外设控制器6021获取所述目标扩展设备602的硬件配置数据、设备状态数据以及所述目标扩展设备602的外设控制器6021的运行记录数据;
接收所述目标扩展设备602的外设控制器6021通过所述第二通信链路发送的所述硬件配置数据、所述设备状态数据以及所述运行记录数据;
向所述管理设备发送所述硬件配置数据、所述设备状态数据以及所述运行记录数据,所述硬件配置数据、所述设备状态数据以及所述运行记录数据用于对所述目标扩展设备602进行故障分析。
本申请实施例中,主控制器可通过第一通信链路向每个扩展设备的外设控制器发送心跳命令,并接收每个扩展设备的外设控制器响应心跳命令发送的设备状态数据,若在预设时长内未接收到一个或多个扩展设备中目标扩展设备的外设控制器发送的设备状态数据,则向目标扩展设备的复位控制电路发送第一复位控制指令,以使得目标扩展设备的复位控制电路对目标扩展设备的外设控制器执行复位操作;该设备管理方法可以通过扩展设备的外设控制器是否响应心跳命令返回设备状态数据,对外设控制器的运行状态进行监控,同时,当目标扩展设备的外设控制器未返回设备状态数据时,主控制器可通过向目标扩展设备的复位控制电路下发第一复位控制指令使得目标扩展设备的外设控制器执行复位操作,从而可以便捷、有效地对扩展设备的外设控制器实施故障检测,并及时地进行故障处理,有效缩短了业务中断时间。
本申请实施例还提供了一种计算机可读存储介质(Memory),计算机可读存储介质是计算机设备60中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备60中的内置存储介质,当然也可以包括计算机设备60所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了计算机设备60的操作***。并且,在该存储空间中还存放了适于被前述主控制器601加载并执行的一条或多条的计算机指令,这些计算机指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(Non-Volatile Memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述主控制器601的计算机可读存储介质。
本申请一个或多个实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的主控制器从计算机可读存储介质读取该计算机指令,主控制器执行该计算机指令,使得该计算机设备执行上述各方法的实施例中所执行的步骤。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种设备管理方法,其特征在于,应用于计算机设备,所述计算机设备包括主控制器、一个或多个扩展设备,所述扩展设备包括复位控制电路和外设控制器,所述主控制器与所述外设控制器、所述复位控制电路之间通过第一通信链路建立连接,所述方法包括:
通过所述第一通信链路向每个扩展设备的外设控制器发送心跳命令;
接收所述每个扩展设备的外设控制器响应所述心跳命令发送的设备状态数据;
若在预设时长内未接收到所述一个或多个扩展设备中目标扩展设备的外设控制器发送的设备状态数据,则向所述目标扩展设备的复位控制电路发送第一复位控制指令,所述第一复位控制指令用于指示所述目标扩展设备的复位控制电路对所述目标扩展设备的外设控制器执行复位操作。
2.根据权利要求1所述的方法,其特征在于,所述向所述目标扩展设备的复位控制电路发送第一复位控制指令,包括:
生成第一复位控制指令;
向所述目标扩展设备的复位控制电路发送所述第一复位控制指令。
3.根据权利要求1或2所述的方法,其特征在于,所述目标扩展设备的复位控制电路连接所述目标扩展设备的外设控制器的复位控制端;所述目标扩展设备的复位控制电路,用于响应所述第一复位控制指令产生针对所述复位控制端的复位触发信号,所述复位触发信号用于触发所述目标扩展设备的外设控制器的复位。
4.根据权利要求1所述的方法,其特征在于,所述向所述目标扩展设备的复位控制电路发送第一复位控制指令之后,所述方法还包括:
若在所述预设时长内未接收到所述目标扩展设备的外设控制器发送的设备状态数据,则向管理设备发送所述目标扩展设备的故障指示信息;
接收所述管理设备发送的串口切换指令;
向所述目标扩展设备的复位控制电路发送所述串口切换指令,所述串口切换指令用于指示所述目标扩展设备的复位控制电路建立所述主控制器与所述目标扩展设备的外设控制器之间的第二通信链路,所述第二通信链路是所述目标扩展设备的外设控制器的串口与所述主控制器的串口之间的通信链路。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
接收所述管理设备发送的登录请求;
响应所述登录请求通过数据透传端口建立所述管理设备与所述目标扩展设备的外设控制器的串口之间的网络连接;
通过所述网络连接向所述管理设备发送所述目标扩展设备的外设控制器的运行记录数据,所述运行记录数据包括寄存器数据和日志数据,所述运行记录数据用于对所述目标扩展设备的外设控制器进行故障分析。
6.根据权利要求4所述的方法,其特征在于,所述目标扩展设备的复位控制电路连接所述目标扩展设备的外设控制器的串口切换控制端;所述目标扩展设备的复位控制电路,用于响应所述串口切换指令产生针对所述串口切换控制端的切换触发信号,所述切换触发信号用于触发所述目标扩展设备的外设控制器的串口与所述主控制器的串口建立第二通信链路。
7.根据权利要求4所述的方法,其特征在于,所述目标扩展设备还包括一个或多个业务处理电路,所述目标扩展设备的复位控制电路连接所述每个业务处理电路的复位控制端,所述串口切换指令包括操作类型指示信息;所述接收所述管理设备发送的串口切换指令之后,所述向所述目标扩展设备的复位控制电路发送所述串口切换指令之前,所述方法还包括:
若所述操作类型指示信息为串口切换操作,执行所述向所述目标扩展设备的复位控制电路发送所述串口切换指令的步骤;
若所述操作类型指示信息为复位操作,则获取所述串口切换指令包括的复位对象指示信息,并根据所述复位对象指示信息从所述一个或多个业务处理电路以及所述目标扩展设备的外设控制器中确定目标复位对象;
向所述目标扩展设备的复位控制电路发送第二复位控制指令,所述第二复位控制指令用于指示所述目标扩展设备的复位控制电路对所述目标复位对象执行复位操作。
8.根据权利要求4~7中任一项所述的方法,其特征在于,所述向所述目标扩展设备的复位控制电路发送所述串口切换指令之后,所述方法还包括:
若在所述预设时长内接收到所述目标扩展设备的外设控制器发送的设备状态数据,则通过所述第一通信链路向所述目标扩展设备的外设控制器发送数据采集命令,所述数据采集命令用于指示所述目标扩展设备的外设控制器获取所述目标扩展设备的硬件配置数据、设备状态数据以及所述目标扩展设备的外设控制器的运行记录数据;
接收所述目标扩展设备的外设控制器通过所述第二通信链路发送的所述硬件配置数据、所述设备状态数据以及所述运行记录数据;
向所述管理设备发送所述硬件配置数据、所述设备状态数据以及所述运行记录数据,所述硬件配置数据、所述设备状态数据以及所述运行记录数据用于对所述目标扩展设备进行故障分析。
9.一种设备管理装置,其特征在于,应用于计算机设备,所述计算机设备包括主控制器、一个或多个扩展设备,所述扩展设备包括复位控制电路和外设控制器,所述主控制器与所述外设控制器、所述复位控制电路之间通过第一通信链路建立连接,所述装置包括:
发送模块,用于通过所述第一通信链路向每个扩展设备的外设控制器发送心跳命令;
接收模块,用于接收所述每个扩展设备的外设控制器响应所述心跳命令发送的设备状态数据;
发送模块,还用于若在预设时长内未接收到所述一个或多个扩展设备中目标扩展设备的外设控制器发送的设备状态数据,则向所述目标扩展设备的复位控制电路发送第一复位控制指令,所述第一复位控制指令用于指示所述目标扩展设备的复位控制电路对所述目标扩展设备的外设控制器执行复位操作。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于由主控制器加载并执行权利要求1~8任一项所述的设备管理方法。
CN202110731449.5A 2021-06-29 2021-06-29 一种设备管理方法、装置及计算机存储介质 Pending CN115543872A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110731449.5A CN115543872A (zh) 2021-06-29 2021-06-29 一种设备管理方法、装置及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110731449.5A CN115543872A (zh) 2021-06-29 2021-06-29 一种设备管理方法、装置及计算机存储介质

Publications (1)

Publication Number Publication Date
CN115543872A true CN115543872A (zh) 2022-12-30

Family

ID=84717185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110731449.5A Pending CN115543872A (zh) 2021-06-29 2021-06-29 一种设备管理方法、装置及计算机存储介质

Country Status (1)

Country Link
CN (1) CN115543872A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116743883A (zh) * 2023-08-15 2023-09-12 中移(苏州)软件技术有限公司 一种智能网卡、数据处理***及其工作方法
CN116932274A (zh) * 2023-09-19 2023-10-24 苏州元脑智能科技有限公司 异构计算***和服务器***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116743883A (zh) * 2023-08-15 2023-09-12 中移(苏州)软件技术有限公司 一种智能网卡、数据处理***及其工作方法
CN116743883B (zh) * 2023-08-15 2023-11-03 中移(苏州)软件技术有限公司 一种智能网卡、数据处理***及其工作方法
CN116932274A (zh) * 2023-09-19 2023-10-24 苏州元脑智能科技有限公司 异构计算***和服务器***
CN116932274B (zh) * 2023-09-19 2024-01-09 苏州元脑智能科技有限公司 异构计算***和服务器***

Similar Documents

Publication Publication Date Title
TWI618380B (zh) 管理方法、服務控制器裝置以及非暫態電腦可讀取媒體
EP3575975B1 (en) Method and apparatus for operating smart network interface card
US20040228063A1 (en) IPMI dual-domain controller
EP2472402A1 (en) Remote management systems and methods for mapping operating system and management controller located in a server
CN115543872A (zh) 一种设备管理方法、装置及计算机存储介质
US10691562B2 (en) Management node failover for high reliability systems
CN116719700B (zh) 服务器主机***的硬件分区的监测方法及装置
CN117251333A (zh) 一种硬盘信息获取方法、装置、设备及存储介质
CN115858221A (zh) 存储设备的管理方法、装置、存储介质及电子设备
CN115543746A (zh) 图形处理器监测方法、***、装置及电子设备
CN117093465B (zh) 服务器日志收集方法、装置、通信设备及存储介质
CN116483613B (zh) 故障内存条的处理方法及装置、电子设备及存储介质
CN113849356A (zh) 一种设备测试方法、装置、电子设备和存储介质
CN115599617B (zh) 总线检测方法、装置、服务器及电子设备
CN109542198B (zh) 一种控制pcie卡上电的方法及设备
CN115098342A (zh) ***日志收集方法、***、终端及存储介质
CN106649002A (zh) 服务器及自动检修基板管理控制器的方法
CN107241218B (zh) 一种故障检测方法及装置
CN115934616A (zh) 串口信息保存方法、装置、服务器、电子设备和存储介质
JP6897145B2 (ja) 情報処理装置、情報処理システム及び情報処理装置制御方法
CN115509333A (zh) 一种服务器协同上下电装置、方法、***及介质
CN103326897A (zh) 一种分布式计算环境通用监测装置与失效检测方法
CN114253573A (zh) PCIe设备固件批量升级方法、***、终端及存储介质
CN112003727A (zh) 一种多节点服务器电源测试方法、***、终端及存储介质
CN111694587A (zh) 服务器pnor固件升级方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40079490

Country of ref document: HK