CN109408454B - 一种芯片管理的方法以及相关装置 - Google Patents

一种芯片管理的方法以及相关装置 Download PDF

Info

Publication number
CN109408454B
CN109408454B CN201811296125.8A CN201811296125A CN109408454B CN 109408454 B CN109408454 B CN 109408454B CN 201811296125 A CN201811296125 A CN 201811296125A CN 109408454 B CN109408454 B CN 109408454B
Authority
CN
China
Prior art keywords
chip
local
management
power supply
communication connection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811296125.8A
Other languages
English (en)
Other versions
CN109408454A (zh
Inventor
王志浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201811296125.8A priority Critical patent/CN109408454B/zh
Publication of CN109408454A publication Critical patent/CN109408454A/zh
Application granted granted Critical
Publication of CN109408454B publication Critical patent/CN109408454B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/24Resetting means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Power Sources (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例公开了一种芯片管理的方法,包括:本端管理芯片检测本端第一供电芯片是否工作正常;若本端第一供电芯片工作正常,则本端管理芯片通过本端根复合体芯片检测本端交换器芯片的通信连接是否正常;若本端交换器芯片的通信连接异常,则本端管理芯片通过本端复位芯片对本端交换器芯片进行复位操作。本申请实施例还公开了一种管理芯片。使用管理芯片对***中根复合体芯片以及交换器芯片进行自动化供电以及自动化复位等管理与操作,提升了***的使用便利性以及整体可靠性。

Description

一种芯片管理的方法以及相关装置
技术领域
本申请涉及计算机领域,尤其涉及一种芯片管理的方法以及相关装置。
背景技术
随着外设部件互连标准扩展(peripheral component interconnect express,PCIe)的发展,通过PCIe总线实现多个设备进行板卡间互联已经越来越多应用在计算机设备中,例如多控存储***中各个设备的互联是基于PCIe总线的非透明桥互联技术(non-transparent bridge,NTB)就是一个常见的应用PCIe 总线的场景。
PCIe总线的基本结构包括根复合体(root complex,RC)、交换器 (switch,SW)和各种终端设备(endpoint),SW通常称为高速互联设备。
在实际应用中,高速互联设备大部分位于板卡的边缘,如果遇到板卡撞件可能导致高速互联设备的供电出现异常,影响正常工作。这类问题发生后往往只能通过更换板卡解决,需要占用大量的人力成本与时间成本,极大的影响了使用PCIe总线的***的使用便利性以及整体可靠性。
发明内容
本申请实施例提供了一种芯片管理的方法以及相关装置,使用管理芯片对***中根复合体芯片以及交换器芯片进行自动化供电以及自动化复位等管理与操作,在根复合体芯片以及交换器芯片出现供电异常时,可通过自动化复位操作,解决供电异常,提升了***的使用便利性以及整体可靠性。
有鉴于此,本申请第一方面提供了一种芯片管理的方法,包括:
本端管理芯片检测本端第一供电芯片是否工作正常,其中所述本端第一供电芯片用于向本端交换器芯片供电;
若所述本端第一供电芯片工作正常,则所述本端管理芯片通过本端根复合体芯片检测所述本端交换器芯片的通信连接是否正常;
若所述本端交换器芯片的通信连接异常,则所述本端管理芯片通过本端复位芯片对所述本端交换器芯片进行复位操作。
结合本申请实施例第一方面,在第一方面的第一种可能的实现方式中,所述若所述本端交换器芯片的通信连接异常,则所述本端管理芯片通过本端复位芯片对所述本端交换器芯片进行复位操作之后,所述方法还包括:
所述本端管理芯片通过所述本端根复合体芯片检测所述本端交换器芯片的通信连接是否正常;
若所述本端交换器芯片的通信连接异常,则所述本端管理芯片启动第二供电芯片对所述本端交换器芯片进行供电;
所述本端管理芯片重新启动所述本端根复合体芯片。
结合本申请实施例第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述本端管理芯片检测本端第一供电芯片是否工作正常之后,所述方法还包括:
若所述本端第一供电芯片工作异常,则所述本端管理芯片启动所述第二供电芯片向所述本端交换器芯片供电;
所述本端管理芯片重新启动所述本端根复合体芯片。
结合本申请第一方面至第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述方法还包括:
所述本端交换器芯片上存在第一链路以及第二链路,其中,所述第一链路为所述本端根复合体芯片与所述本端交换器芯片之间进行通信连接的链路,所述第二链路为所述本端交换器芯片与对端交换器芯片进行通信连接的链路。
结合本申请实施例第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述若所述本端第一供电芯片工作正常,则所述本端管理芯片通过本端根复合体芯片检测所述本端交换器芯片的通信连接是否正常之后,所述方法还包括:
若所述第二链路通信连接异常,则所述本端管理芯片检测是否存在对端管理芯片;
若检测不存在所述对端管理芯片,则停止对所述第二链路通信连接异常状态进行处理。
本申请第二方面提供了一种管理芯片,包括:
检测模块,用于检测本端第一供电芯片是否工作正常,其中所述本端第一供电芯片用于向本端交换器芯片供电;
所述检测模块,还用于若所述本端第一供电芯片工作正常,则所述检测模块通过本端根复合体芯片检测所述本端交换器芯片的通信连接是否正常;
复位模块,用于若所述本端交换器芯片的通信连接异常,则所述复位模块通过本端复位芯片对所述本端交换器芯片进行复位操作。
结合本申请实施例第二方面,在第二方面的第一种可能的实现方式中,所述管理芯片还包括启动模块:
所述检测模块,还用于若所述本端交换器芯片的通信连接异常,则所述复位模块通过本端复位芯片对所述本端交换器芯片进行复位操作之后,所述检测模块通过所述本端根复合体芯片检测所述本端交换器芯片的通信连接是否正常;
所述启动模块,用于若所述本端交换器芯片的通信连接异常,则所述启动模块启动第二供电芯片向所述本端交换器芯片供电;所述启动模块,还用于重新启动所述本端根复合体芯片。
结合本申请实施例的第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,包括:
所述启动模块,还用于所述检测模块检测本端第一供电芯片是否工作正常之后,若所述本端第一供电芯片工作异常,则所述启动模块启动所述第二供电芯片对所述本端交换器芯片进行供电;
所述启动模块,还用于重新启动所述本端根复合体芯片。
结合本申请第二方面至第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式中,所述方法还包括:所述本端交换器芯片上存在第一链路以及第二链路,其中,所述第一链路为所述本端根复合体芯片与所述本端交换器芯片之间进行通信连接的链路,所述第二链路为所述本端交换器芯片与对端交换器芯片进行通信连接的链路。
结合本申请实施例的第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式中,包括:
所述检测模块,还用于若所述本端第一供电芯片工作正常,则所述检测模块通过本端根复合体芯片检测所述本端交换器芯片的通信连接是否正常之后,若所述第二链路通信连接异常,则所述检测模块检测是否存在对端管理芯片;
所述检测模块,还用于若所述检测模块检测不存在所述对端管理芯片,则停止对所述第二链路通信连接异常状态进行处理。
从以上技术方案可以看出,本申请实施例具有以下优点:
通过上述方法,使用管理芯片对***中根复合体芯片以及交换器芯片进行自动化供电以及自动化复位等管理与操作,在根复合体芯片以及交换器芯片出现供电异常时,可通过自动化复位操作,解决供电异常,提升了***的使用便利性以及整体可靠性。
附图说明
图1为本申请实施例中网络拓扑结构示意图;
图2为本申请实施例中一种芯片管理的方法的一个实施例示意图;
图3为本申请实施例中管理芯片的一个实施例示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。在本申请中出现的对步骤进行的命名或者编号,并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤,已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序,只要能达到相同或者相类似的技术效果即可。本申请中所出现的模块的划分,是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个***中,或一些特征可以忽略,或不执行,另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合或通信连接可以是电性或其他类似的形式,本申请中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。
本申请实施例提供了一种芯片管理的方法以及相关装置,使用管理芯片对***中根复合体芯片以及交换器芯片进行自动化供电以及自动化复位等管理与操作,在根复合体芯片以及交换器芯片出现供电异常时,可通过自动化复位操作,解决供电异常,提升了***的使用便利性以及整体可靠性。
本申请可以应用于PCIe总线的计算机设备中,下面介绍PCIe总线的相关内容。需要说明的是本申请还可以应用于外设部件互连标准总线 (peripheral componentinterconnect,PCI)的计算机设备中,此处不作限定。
计算机设备中中央处理器(central processing unit,CPU)及平台控制中枢(platform controller hub,PCH)都有用于连接PCIe设备的PCIEe接口, PCIe总线由若干层次组成,包括事务层、数据链路层和物理层。PCIe总线使用数据报文进行数据传递,数据报文需要依次通过PCIe总线的这些层次。
PCIe链路使用端到端的数据传送方式,一个PCIe链路的一端只能连接一个发送设备或者接收设备。因此PCIe链路必须使用交换器芯片(switch,SW) 扩展PCIe链路后,才能连接多个设备。和PCI总线桥类似,根据SW工作原理的不同,可以分为透明桥和非透明桥两种。
非透明桥(non-transparent)通常用于嵌入式智能板卡。它连接两个独立的处理器域,从设备侧的资源和地址对主设备侧的主***是不可见的。允许从设备侧的本地处理器独立地配置和控制其子***。从设备侧和主设备侧的地址完全独立。
PCIe总线的基本结构包括根复合体芯片(root complex,RC)、交换器芯片(switch,SW)和各种终端设备(endpoint)。SW通常称为高速互联设备。
在实际应用中,高速互联设备大部分位于板卡的边缘,如果遇到板卡撞件可能导致高速互联设备的供电出现异常,影响正常工作。这类问题发生后往往只能通过更换板卡解决,需要占用大量的人力成本与时间成本,极大的影响了使用PCIe总线的***的使用便利性以及整体可靠性。
为了便于理解,请参阅图1,图1为本申请实施例中网络拓扑结构示意图:
如图1所示,本申请应用的计算机设备可以是独立的计算机设备,也可以是多个计算机设备的集群,还可以是应用于服务器***中的计算机设备,此处不作限定。本申请应用的计算机设备可运行于如下软件环境中如: Windows***中的HPFS文件***,Mac***中的HFS、HFS+文件***, Linux***中的ResiserFS、XFS、Ext3FS以及JFS文件***,数据库中的ORACLE,MYSQL以及SQLSERVER等。
以服务器***为例,服务器***中包含有本端服务器以及对端服务器,其中,本端服务器可以为一个服务器或由多个服务器组合的服务器集群,本端服务器中包括:本端管理芯片、本端指示单元、本端管理芯片、本端串口单元、本端第一供电芯片、本端第二供电芯片、本端复位芯片、本端无线单元、本端根复合体芯片(root complex,RC)以及本端交换器芯片,其中,本端管理芯片可以为嵌入式微处理器(micro processor unit,MPU),例如基板管理控制器(baseboard management controller,BMC)等,通过管理数据输入输出(management data input/output,MDIO)与本端指示单元、本端第一供电芯片、本端第二供电芯片、本端复位芯片、本端串口单元以及本端根复合体芯片相连。本端指示单元接受本端管理芯片的直接控制,用以对外指示本端根复合体芯片以及本端交换器芯片的通信连接情况。本端根复合体芯片既可以是独立的芯片也可以是CPU,该CPU中集成有本端根复合体芯片的功能。本端第一供电芯片以及本端第二供电芯片直接受到本端管理芯片的控制,负责对本端交换器芯片进行供电,通常情况下,使用本端第一供电芯片对本端交换器芯片进行供电,本端第二供电芯片作为本端第一供电芯片的备份供电芯片。本端复位芯片接收本端管理芯片的控制,用于对本端交换器芯片进行复位操作(reset)。本端管理芯片可以使用本端串口模块与外界建立通信连接,包括通过本端无线模块与对端无线模块建立通信连接。对端服务器中包含的芯片和单元、芯片和单元的用途以及芯片和单元间的连接关系与本端服务器类似,此处不再赘述。
下面对本申请中一种芯片管理的方法进行描述,请参阅图2,图2为本申请实施例中一种芯片管理的方法的一个实施例示意图,包括:
101、本端管理芯片检测本端第一供电芯片是否工作正常;
本实施例中,本端管理芯片在上电之后,检测当前给本端交换器芯片供电的本端第一供电芯片是否工作正常,检测的方法有:检测本端第一供电芯片是否发出电源好(power good,PG)信号,PG信号是直流输出电压检测信号和交流输入电压检测信号的逻辑,与晶体管-晶体管逻辑(transistor transistor logic,TTL)信号兼容。当电源接通之后,如果交流输入电压在额定工作范围之内,且各路直流输出电压也已达到它们的最低检测电平(+5伏特输出为4.75伏特以上),那么经过100毫秒~500毫秒的延时后发出PG信号。
若检测到本端第一供电芯片发出PG信号,则本端管理芯片可确定本端第一供电芯片工作正常;若在一定预设的时长内未能检测到PG信号,则本端管理芯片可确定本端第一供电芯片工作异常。
102、本端管理芯片通过本端根复合体芯片检测本端交换器芯片的通信连接是否正常;
本实施例中,若本端第一供电芯片工作正常,则本端管理芯片通过本端根复合体芯片检测本端交换器芯片的通信连接是否正常,检测的方法为:本端管理芯片接收本端根复合体芯片获取得到的本端交换器芯片的通信连接状态,并判断本端交换器芯片的通信连接状态是否为链路中断状态(link down)。
若本端管理芯片通过本端根复合体芯片检测本端交换器芯片的通信连接处于链路中断状态,则可判断本端交换器芯片通信连接异常。
103、本端管理芯片通过本端复位芯片对本端交换器芯片进行复位操作。
本实施例中,若本端交换器芯片的通信连接异常,则本端管理芯片通过本端复位芯片对本端交换器芯片进行复位操作。本端复位芯片对本端交互器芯片进行的复位操作可以为如下操作中的一种或多种:冷复位(cold reset)、暖复位(warm reset)、热复位(hotreset)和功能层复位(function-level reset, FLR),其中冷复位和暖复位是基于边带信号(PERST#)的,又被统称为基本的复位方式(fundamental reset)。
本端复位芯片对本端交换器芯片进行复位操作,通常情况下为初始化本端交换器芯片的所有状态机(finite state machine,FSM)与相关硬件逻辑,端口状态以及配置空间中的配置寄存器等等。
本申请实施例中,首先本端管理芯片检测本端第一供电芯片是否工作正常,其次本端管理芯片通过本端根复合体芯片检测本端交换器芯片的通信连接是否正常,再次本端管理芯片通过本端复位芯片对本端交换器芯片进行复位操作。通过上述方法,使用管理芯片对***中根复合体芯片以及交换器芯片进行自动化复位等管理与操作,在根复合体芯片以及交换器芯片出现供电异常时,可通过自动化复位操作,解决供电异常,提升了***的使用便利性以及整体可靠性。
可选地,在图2对应的本申请实施例中提供的第一种芯片管理的方法的实施例的基础上,本申请实施例提供的第二种芯片管理的方法的实施例中,若本端交换器芯片的通信连接异常,则本端管理芯片通过本端复位芯片对本端交换器芯片进行复位操作之后,方法还包括:
本端管理芯片通过本端根复合体芯片检测本端交换器芯片的通信连接是否正常;
若本端交换器芯片的通信连接异常,则本端管理芯片启动第二供电芯片对本端交换器芯片进行供电;
本端管理芯片重新启动本端根复合体芯片。
本实施例中,当本端管理芯片通过本端复位芯片对本端交换器芯片进行复位操作之后,本端管理芯片通过本端根复合体芯片检测本端交换器芯片的通信连接是否正常,检测的方法为:本端管理芯片接收本端根复合体芯片获取得到的本端交换器芯片的通信连接状态,并判断本端交换器芯片的通信连接状态是否为链路中断状态。若本端交换器芯片的通信连接还是处于异常状态是,本端管理芯片启动第二供电芯片对本端交换器芯片进行供电,并关闭第一供电芯片,本端管理芯片重新启动本端根复合体芯片。
本申请实施例中,本端管理芯片在通过本端复位芯片对本端交换器芯片进行复位操作之后,本端管理芯片通过本端根复合体芯片检测本端交换器芯片的通信连接是否正常,若此时本端交换器芯片的通信连接还是处于异常状态,则启动第二供电芯片对本端交换器芯片进行供电并重新启动本端根复合体芯片。在复位操作失效后,可以通过切换至备用供电的第二供电芯片,使得本端交换器芯片能够正常工作,提升了***的使用便利性以及整体可靠性。
可选地,在图2对应的本申请实施例中提供的第二种芯片管理的方法的实施例的基础上,本申请实施例提供的第三种芯片管理的方法的实施例中,本端管理芯片检测本端第一供电芯片是否工作正常之后,方法还包括:
若本端第一供电芯片工作异常,则本端管理芯片启动第二供电芯片向本端交换器芯片供电;
本端管理芯片重新启动本端根复合体芯片。
本实施例中,本端管理芯片检测本端第一供电芯片是否工作正常之后,若本端第一供电芯片工作异常,则关闭第一供电芯片,启动第二供电芯片对本端交换器芯片进行供电并重新启动本端根复合体芯片。
本申请实施例中,本端管理芯片检测本端第一供电芯片是否工作正常之后,若本端第一供电芯片工作异常,则启动第二供电芯片对本端交换器芯片进行供电并重新启动本端根复合体芯片。在本端第一供电芯片工作异常之后,可以自动化地切换备用供电芯片对本端交换器芯片进行供电,提升了***的使用便利性以及整体可靠性。
可选地,在图2对应的本申请实施例中提供的第一种至第三种中任一种芯片管理的方法的实施例的基础上,本申请实施例提供的第四种芯片管理的方法的实施例中。
本端交换器芯片上存在第一链路以及第二链路,其中,第一链路为本端根复合体芯片与本端交换器芯片之间进行通信连接的链路,第二链路为本端交换器芯片与对端交换器芯片进行通信连接的链路。
本实施例中,本端交换器芯片上存在与本端根复合体芯片之间建立的上行链路,该链路称为第一链路;本端交换器芯片上存在与对端交换器芯片之间建立的下行链路,该链路称为第二链路。本端管理芯片通过本端交换器芯片检测第一链路以及第二链路的通信连接情况。在本端交换器芯片中,第一链路与第二链路是独立的两条链路,可以分别进行供电与复位,即本端交换器芯片使用本端第一供电芯片进行供电时,可选择第一链路不供电或第二链路不供电。还可以是本端管理芯片控制本端第一供电芯片对本端交换器芯片中第一链路进行供电,控制本端第二供电量芯片对第二链路进行供电,具体的情况根据实际需求决定。
其中,检测到某一链路的通信连接情况为异常,即链路失效时,针对该链路进行切换供电芯片或复位操作后,若该链路恢复正常,则本端管理芯片可判断当前该链路出现故障,并通过本端指示单元向外界展示该链路出现通信故障的情况,具体的展示方法可以包括:通过发光二极管展示链路的通信情况,不同的链路有对应的发光二级管,当某一个链路出现链路失效的情况时,对应的发光二极管发出预先设置的光,用以指示当前对应的链路失效。还可以通过与本端串口模块相连的显示屏展示各个链路的通信情况,具体的展示方法此处不作限定。
本申请实施例中,本端交换器芯片上存在第一链路以及第二链路,第一链路以及第二链路为独立的两条链路,可进行独立的切换供电或复位操作。提升了方案的可行性,提升了***的使用便利性以及整体可靠性。
可选地,在图2对应的本申请实施例中提供的第四种芯片管理的方法的实施例的基础上,本申请实施例提供的第五种芯片管理的方法的实施例中,若本端第一供电芯片工作正常,则本端管理芯片通过本端根复合体芯片检测本端交换器芯片的通信连接是否正常之后,方法还包括:
若第二链路通信连接异常,则本端管理芯片检测是否存在对端管理芯片;
若检测不存在对端管理芯片,则停止对第二链路通信连接异常状态进行处理。
本实施例中,本端第一供电芯片工作正常,则本端管理芯片通过本端根复合体芯片检测本端交换器芯片的通信连接是否正常之后,由于本端无线单元与对端无线单元之间通过无线保真(wireless-fidelity,WI-FI)或蓝牙 (bluetooth)等方式传输数据。本端硬件管理单元与本端无线单元,对端硬件管理单元与对端无线单元通过通用异步收发传输器(universal asynchronous receiver/transmitter,UART)连接。本端管理芯片通过本端无线单元检测对端管理芯片是否存在。检测的方法可采用心跳包通信连接,心跳包通信连接为本端和对端间定时通知对方自己状态的一个自己定义的指令,按照一定的时间间隔发送,类似于心跳,所以叫做心跳包。心跳包通信连接用来判断对端 (设备,进程或其它网元)是否正常运行,采用定时发送简单的数据包,如果在指定时间段内未收到对端响应,则判断对端已经离线。一般用于检测传输控制协议(transmission control protocol,TCP)的异常断开,通常心跳包采用echo包的形式。可根据用户需求设定时间间隔。一般的情况下,判定时间在30至40秒发送一次心跳包。若本端管理芯片发送心跳包后,在预设时间段内未能接收到对端管理芯片返回的响应,则可判断对端管理芯片不存在。由于第二链路为本端交换器芯片与对端交换器芯片进行通信连接的链路,当不存在对端管理芯片时,可判断不存在对端交换器芯片,则第二链路是因为缺失对端所引起的链路失效,无需对该链路失效进行处理,因此本端管理芯片停止对第二链路通信连接异常状态进行处理。
本申请实施例中,当检测到第二链路出现通信连接异常时,本端管理芯片检测是否存在对端管理芯片,若不存在则停止对第二链路通信连接异常状态进行处理。节省了芯片的运算能力,提升了方案的实现灵活性。
下面对本申请中管理芯片进行详细描述,请参阅图3,图3为本申请实施例中管理芯片的一个实施例示意图,本申请实施例提供的管理芯片20的第一种可选实施例中,管理芯片20包括:
检测模块201,用于检测本端第一供电芯片是否工作正常,其中本端第一供电芯片用于向本端交换器芯片供电;
检测模块201,还用于若本端第一供电芯片工作正常,则检测模块201通过本端根复合体芯片检测本端交换器芯片的通信连接是否正常;
复位模块202,用于若本端交换器芯片的通信连接异常,则复位模块202 通过本端复位芯片对本端交换器芯片进行复位操作。
本实施例中,检测模块201,用于检测本端第一供电芯片是否工作正常,其中本端第一供电芯片用于向本端交换器芯片供电;检测模块201,还用于若本端第一供电芯片工作正常,则检测模块201通过本端根复合体芯片检测本端交换器芯片的通信连接是否正常;复位模块202,用于若本端交换器芯片的通信连接异常,则复位模块202通过本端复位芯片对本端交换器芯片进行复位操作。
本申请实施例中,首先本端管理芯片检测本端第一供电芯片是否工作正常,其次本端管理芯片通过本端根复合体芯片检测本端交换器芯片的通信连接是否正常,再次本端管理芯片通过本端复位芯片对本端交换器芯片进行复位操作。通过上述方法,使用管理芯片对***中根复合体芯片以及交换器芯片进行自动化复位等管理与操作,在根复合体芯片以及交换器芯片出现供电异常时,可通过自动化复位操作,解决供电异常,提升了***的使用便利性以及整体可靠性。
可选地,在上述图3对应的管理芯片20的第一种可选实施例的基础上,本申请实施例提供的管理芯片20的第二种可选实施例中,管理芯片20还包括启动模块203:
检测模块201,还用于若本端交换器芯片的通信连接异常,则复位模块 202通过本端复位芯片对本端交换器芯片进行复位操作之后,检测模块201通过本端根复合体芯片检测本端交换器芯片的通信连接是否正常;
启动模块203,用于若本端交换器芯片的通信连接异常,则启动模块203 启动第二供电芯片向本端交换器芯片供电;
启动模块203,还用于重新启动本端根复合体芯片。
本申请实施例中,本端管理芯片在通过本端复位芯片对本端交换器芯片进行复位操作之后,本端管理芯片通过本端根复合体芯片检测本端交换器芯片的通信连接是否正常,若此时本端交换器芯片的通信连接还是处于异常状态,则启动第二供电芯片对本端交换器芯片进行供电并重新启动本端根复合体芯片。在复位操作失效后,可以通过切换至备用供电的第二供电芯片,使得本端交换器芯片能够正常工作,提升了***的使用便利性以及整体可靠性。
可选地,在上述图3对应的管理芯片20的第二种可选实施例的基础上,本申请实施例提供的管理芯片20的第三种可选实施例中,管理芯片20包括:
启动模块203,还用于本端管理芯片检测本端第一供电芯片是否工作正常之后,若本端第一供电芯片工作异常,则启动模块启动第二供电芯片对本端交换器芯片进行供电;
启动模块203,还用于重新启动本端根复合体芯片。
本申请实施例中,本端管理芯片检测本端第一供电芯片是否工作正常之后,若本端第一供电芯片工作异常,则启动第二供电芯片对本端交换器芯片进行供电并重新启动本端根复合体芯片。在本端第一供电芯片工作异常之后,可以自动化地切换备用供电芯片对本端交换器芯片进行供电,提升了***的使用便利性以及整体可靠性。
可选地,在上述图3对应的管理芯片20的第一种可选实施例至第三种可选实施例中任一种可选实施例的基础上,本申请实施例提供的管理芯片20的第四种可选实施例中,管理芯片20包括:
本端交换器芯片上存在第一链路以及第二链路,其中,第一链路为本端根复合体芯片与本端交换器芯片之间进行通信连接的链路,第二链路为本端交换器芯片与对端交换器芯片进行通信连接的链路。
本申请实施例中,本端交换器芯片上存在第一链路以及第二链路,第一链路以及第二链路为独立的两条链路,可进行独立的切换供电或复位操作。提升了方案的可行性,提升了***的使用便利性以及整体可靠性。
可选地,在上述图3对应的管理芯片20的第四种可选实施例的基础上,本申请实施例提供的管理芯片20的第五种可选实施例中,管理芯片20还包括:
检测模块201,还用于若本端第一供电芯片工作正常,则检测模块201通过本端根复合体芯片检测本端交换器芯片的通信连接是否正常之后,若第二链路通信连接异常,则检测模块201检测是否存在对端管理芯片;
检测模块201,还用于若检测模块201检测不存在对端管理芯片,则停止对第二链路通信连接异常状态进行处理。
本申请实施例中,当检测到第二链路出现通信连接异常时,本端管理芯片检测是否存在对端管理芯片,若不存在则停止对第二链路通信连接异常状态进行处理。节省了芯片的运算能力,提升了方案的实现灵活性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (8)

1.一种芯片管理的方法,其特征在于,包括:
本端管理芯片检测本端第一供电芯片是否工作正常,其中所述本端第一供电芯片用于向本端交换器芯片供电;
若所述本端第一供电芯片工作正常,则所述本端管理芯片通过本端根复合体芯片检测所述本端交换器芯片的通信连接是否正常;
若所述本端交换器芯片的通信连接异常,则所述本端管理芯片通过本端复位芯片对所述本端交换器芯片进行复位操作;
所述若所述本端交换器芯片的通信连接异常,则所述本端管理芯片通过本端复位芯片对所述本端交换器芯片进行复位操作之后,所述方法还包括:
所述本端管理芯片通过所述本端根复合体芯片检测所述本端交换器芯片的通信连接是否正常;
若所述本端交换器芯片的通信连接异常,则所述本端管理芯片启动第二供电芯片对所述本端交换器芯片进行供电;
所述本端管理芯片重新启动所述本端根复合体芯片。
2.根据权利要求 1 所述的方法,其特征在于,所述本端管理芯片检测本端第一供电芯片是否工作正常之后,所述方法还包括:
若所述本端第一供电芯片工作异常,则所述本端管理芯片启动所述第二供电芯片向所述本端交换器芯片供电;
所述本端管理芯片重新启动所述本端根复合体芯片。
3.根据权利要求 1 至 2 中任一项所述的方法,其特征在于,所述本端交换器芯片上存在第一链路以及第二链路,其中,所述第一链路为所述本端根复合体芯片与所述本端交换器芯片之间进行通信连接的链路,所述第二链路为所述本端交换器芯片与对端交换器芯片进行通信连接的链路。
4.根据权利要求 3 所述的方法,其特征在于,所述若所述本端第一供电芯片工作正常,则所述本端管理芯片通过本端根复合体芯片检测所述本端交换器芯片的通信连接是否正常之后,所述方法还包括:
若所述第二链路通信连接异常,则所述本端管理芯片检测是否存在对端管理芯片;
若检测不存在所述对端管理芯片,则停止对所述第二链路通信连接异常状态进处理。
5.一种管理芯片,其特征在于,包括:
检测模块,用于检测本端第一供电芯片是否工作正常,其中所述本端第一供电芯片用于向本端交换器芯片供电;
所述检测模块,还用于若所述本端第一供电芯片工作正常,则所述检测模块通过本端根复合体芯片检测所述本端交换器芯片的通信连接是否正常;
复位模块,用于若所述本端交换器芯片的通信连接异常,则所述复位模块通过本端复位芯片对所述本端交换器芯片进行复位操作;
所述管理芯片还包括启动模块:
所述检测模块,还用于若所述本端交换器芯片的通信连接异常,则所述复位模块通过本端复位芯片对所述本端交换器芯片进行复位操作之后,所述检测模块通过所述本端根复合体芯片检测所述本端交换器芯片的通信连接是否正常;
所述启动模块,用于若所述本端交换器芯片的通信连接异常,则所述启动模块启动第二供电芯片向所述本端交换器芯片供电;
所述启动模块,还用于重新启动所述本端根复合体芯片。
6.根据权利要求 5 所述的管理芯片,其特征在于,包括:
所述启动模块,还用于所述检测模块检测本端第一供电芯片是否工作正常之后,若所述本端第一供电芯片工作异常,则所述启动模块启动所述第二供电芯片对所述本端交换器芯片进行供电;
所述启动模块,还用于重新启动所述本端根复合体芯片。
7.根据权利要求 5 至 6 中任一项所述的管理芯片,其特征在于,所述本端交换器芯片上存在第一链路以及第二链路,其中,所述第一链路为所述本端根复合体芯片与所述本端交换器芯片之间进行通信连接的链路,所述第二链路为所述本端交换器芯片与对端交换器芯片进行通信连接的链路。
8.根据权利要求 7 所述的管理芯片,其特征在于,包括:
所述检测模块,还用于若所述本端第一供电芯片工作正常,则所述检测模块通过本端根复合体芯片检测所述本端交换器芯片的通信连接是否正常之后,若所述第二链路通信连接异常,则所述检测模块检测是否存在对端管理芯片;
所述检测模块,还用于若所述检测模块检测不存在所述对端管理芯片,则停止对所述第二链路通信连接异常状态进行处理。
CN201811296125.8A 2018-11-01 2018-11-01 一种芯片管理的方法以及相关装置 Active CN109408454B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811296125.8A CN109408454B (zh) 2018-11-01 2018-11-01 一种芯片管理的方法以及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811296125.8A CN109408454B (zh) 2018-11-01 2018-11-01 一种芯片管理的方法以及相关装置

Publications (2)

Publication Number Publication Date
CN109408454A CN109408454A (zh) 2019-03-01
CN109408454B true CN109408454B (zh) 2021-10-22

Family

ID=65471328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811296125.8A Active CN109408454B (zh) 2018-11-01 2018-11-01 一种芯片管理的方法以及相关装置

Country Status (1)

Country Link
CN (1) CN109408454B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110581786A (zh) * 2019-09-10 2019-12-17 浪潮商用机器有限公司 Ncsi网络连通稳定性的测试方法、装置、***及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101159649A (zh) * 2007-09-21 2008-04-09 杭州华三通信技术有限公司 一种pci快速总线***及其能量管理方法
WO2010044409A1 (ja) * 2008-10-15 2010-04-22 日本電気株式会社 マルチルートpciエクスプレススイッチ、その起動方法、及び、マルチルートpciマネージャプログラム
CN103577284A (zh) * 2013-10-09 2014-02-12 创新科存储技术(深圳)有限公司 非透明桥芯片的异常检测与恢复方法
CN106774724A (zh) * 2016-12-30 2017-05-31 中国科学院计算技术研究所 一种基于水冷散热的多处理器计算机***结构及实现方法
CN107885695A (zh) * 2016-12-23 2018-04-06 比亚迪股份有限公司 基于轨道交通的计算机平台
CN108268412A (zh) * 2013-06-28 2018-07-10 华为技术有限公司 用于扩展***组件互连高速结构的***和方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007296723A (ja) * 2006-04-28 2007-11-15 Ricoh Co Ltd 電力切換え機能を持つ制御装置,画像形成装置および画像読取装置
US9563591B2 (en) * 2014-03-06 2017-02-07 International Business Machines Corporation Peripheral component interconnect express (PCIe) ping in a switch-based environment

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101159649A (zh) * 2007-09-21 2008-04-09 杭州华三通信技术有限公司 一种pci快速总线***及其能量管理方法
WO2010044409A1 (ja) * 2008-10-15 2010-04-22 日本電気株式会社 マルチルートpciエクスプレススイッチ、その起動方法、及び、マルチルートpciマネージャプログラム
CN108268412A (zh) * 2013-06-28 2018-07-10 华为技术有限公司 用于扩展***组件互连高速结构的***和方法
CN103577284A (zh) * 2013-10-09 2014-02-12 创新科存储技术(深圳)有限公司 非透明桥芯片的异常检测与恢复方法
CN107885695A (zh) * 2016-12-23 2018-04-06 比亚迪股份有限公司 基于轨道交通的计算机平台
CN106774724A (zh) * 2016-12-30 2017-05-31 中国科学院计算技术研究所 一种基于水冷散热的多处理器计算机***结构及实现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Accelerating Functional Verification of PCI Express Endpoint by emulating Host System using PCI Express core;Shreeya Badhe 等;《IEEE》;20150216;333-338 *
基于PCI Express总线转换板设计研究;陈有信 等;《研究与开发》;20091231;第28卷(第12期);60-64 *

Also Published As

Publication number Publication date
CN109408454A (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
US6502203B2 (en) Method and apparatus for cluster system operation
US10515043B2 (en) Smart interface card control method and apparatus through a virtualized management interface
US9817468B2 (en) System and method for automatic detection and switching between USB host and device rolls on a type-A connector
CN103995575A (zh) 一种服务器启动方法和服务器
RU2614569C2 (ru) Стойка с функцией автоматического восстановления и способ автоматического восстановления для этой стойки
CN109245950B (zh) 一种链路失效位置确定的方法以及相关装置
CN107870662B (zh) 一种多CPU***中CPU复位的方法及PCIe接口卡
US10691562B2 (en) Management node failover for high reliability systems
CN104050061A (zh) 一种基于PCIe总线多主控板冗余备份***
CN111767244A (zh) 基于国产龙芯平台的双冗余计算机设备
US9424220B2 (en) Method and apparatus for setting working mode of multi-processor system
CN104615572A (zh) 热插拔处理***及方法
CN109408454B (zh) 一种芯片管理的方法以及相关装置
CN105549696A (zh) 具有机箱管理功能的机架式服务器***
CN109032754B (zh) 提高通信路径可靠性的方法和设备
GB2582402A (en) Information processing system and relay device
CN116137603B (zh) 链路故障的检测方法和装置、存储介质及电子装置
CN212541329U (zh) 基于国产龙芯平台的双冗余计算机设备
JP6155500B2 (ja) 中継装置
CN116483613A (zh) 故障内存条的处理方法及装置、电子设备及存储介质
CN106649002A (zh) 服务器及自动检修基板管理控制器的方法
CN102420706B (zh) 一种设置在交换机中的管理板以及交换机
CN105812172B (zh) 用户终端及其hsic从设备故障处理方法及装置
CN110247821B (zh) 一种故障检测方法及相关设备
Cisco Reading LED Indicators

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant