CN115550291A - 交换机的复位***及方法、存储介质、电子设备 - Google Patents

交换机的复位***及方法、存储介质、电子设备 Download PDF

Info

Publication number
CN115550291A
CN115550291A CN202211519689.XA CN202211519689A CN115550291A CN 115550291 A CN115550291 A CN 115550291A CN 202211519689 A CN202211519689 A CN 202211519689A CN 115550291 A CN115550291 A CN 115550291A
Authority
CN
China
Prior art keywords
switch
processor
reset
data transmission
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211519689.XA
Other languages
English (en)
Other versions
CN115550291B (zh
Inventor
钟戟
孔维宾
吴常顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202211519689.XA priority Critical patent/CN115550291B/zh
Publication of CN115550291A publication Critical patent/CN115550291A/zh
Application granted granted Critical
Publication of CN115550291B publication Critical patent/CN115550291B/zh
Priority to PCT/CN2023/103411 priority patent/WO2024113818A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/55Prevention, detection or correction of errors
    • H04L49/557Error correction, e.g. fault recovery or fault tolerance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • G06F13/4204Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus
    • G06F13/4221Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus being an input/output bus, e.g. ISA bus, EISA bus, PCI bus, SCSI bus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/65Re-configuration of fast packet switches

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Retry When Errors Occur (AREA)

Abstract

本申请实施例提供了一种交换机的复位***及方法、存储介质、电子设备,其中,该***包括:处理器,处理器通过数据传输链路与交换机连接;复杂可编程逻辑器件,复杂可编程逻辑器件与处理器和交换机连接,复杂可编程逻辑器件用于接收处理器发送的信号标志位信息,并用于基于信号标志位信息处理交换机中的复位信号,其中,信号标志位信息用于表示交换机与处理器之间的数据传输出现异常;交换机,用于接收复杂可编程逻辑器件发送的处理后的复位信号,并进行复位操作。通过本申请,解决了相关技术中无法有效修复控制器故障的问题,达到可以快速准确的修复控制器故障的效果。

Description

交换机的复位***及方法、存储介质、电子设备
技术领域
本申请实施例涉及计算机领域,具体而言,涉及一种交换机的复位***及方法、存储介质、电子设备。
背景技术
基于高速串行通信总线(Peripheral Component Interconnect Express,简称为PCIe)的非透明桥(Non-Transparent Bridging,简称为NTB)技术在因特网Intel的平台已经有大量的实践应用,但是在国产中央处理器(Central Processing Unit,简称为CPU)的平台应用有限。因国产CPU自身的缺陷,使用过程中在需要单控制器热拔插或需要控制器复位时会出现不可预知的问题。国产CPU无法实现两个控制器之间的直接连接,需要选用基于PCIe的NTB技术实现两个控制器之间的连接。在控制器出现问题的情况下,需要进行修复,但相关技术中尚未提出有效解决控制器修复故障的方案。
发明内容
本申请实施例提供了一种交换机的复位***及方法、存储介质、电子设备,以至少解决相关技术中无法有效修复控制器故障的问题。
根据本申请的一个实施例,提供了一种交换机的复位***,包括:处理器,上述处理器通过数据传输链路与交换机连接;复杂可编程逻辑器件,上述复杂可编程逻辑器件与上述处理器和上述交换机连接,上述复杂可编程逻辑器件用于接收上述处理器发送的信号标志位信息,并用于基于上述信号标志位信息处理上述交换机中的复位信号,其中,上述信号标志位信息用于表示上述交换机与上述处理器之间的数据传输出现异常;上述交换机,用于接收上述复杂可编程逻辑器件发送的处理后的复位信号,并进行复位操作。
在一个示例性实施例中,上述处理器还用于在上述复位信号被处理之后,通过上述数据传输链路读取上述交换机中的数据,以确定上述交换机是否复位。
在一个示例性实施例中,上述交换机的复位***还包括:集成电路总线,与上述处理器和上述复杂可编程逻辑器件连接。
在一个示例性实施例中,上述复杂可编程逻辑器件还用于在基于上述信号标志位信息处理上述复位信号之后,向上述处理器发送反馈信息,其中,上述反馈信息用于表示上述信号标志位已触发上述复杂可编程逻辑器件对上述复位信号的处理。
在一个示例性实施例中,上述信号标志位信息包括冷启动上述交换机的信息。
在一个示例性实施例中,上述处理器还包括接收控制设备,与上述交换机连接,用于向上述交换机传输下行数据流。
在一个示例性实施例中,上述交换机还包括直接存储器访问设备DMA,与上述处理器连接,用于向上述处理器传输上行数据流。
根据本申请的另一个实施例,提供了一种交换机的复位方法,应用于如上述的交换机的复位装置中,包括:接收处理器发送的信号标志位信息,其中,上述信号标志位信息用于表示上述交换机与上述处理器之间的数据传输出现异常;基于上述信号标志位信息处理上述交换机的复位信号;将处理后的复位信号发送至上述交换机,以指示上述交换机进行复位操作。
根据本申请的另一个实施例,提供了一种数据传输链路的修复方法,应用于上述的交换机的复位装置中,包括:向复杂可编程逻辑器件发送信号标志位信息,以指示上述复杂可编程逻辑器件基于上述信号标志位信息处理上述交换机的复位信号,其中,上述信号标志位信息用于表示上述交换机与处理器之间的数据传输出现异常,上述交换机用于接收上述复杂可编程逻辑器件发送的处理后的复位信号,进行复位操作;检测上述交换机中的高速串行通信总线的带宽性能,其中,上述交换机与处理器之间通过数据传输链路连接;
基于上述带宽性能修复上述数据传输链路。
根据本申请的又一个实施例,还提供了一种交换机的复位装置,包括:第一接收模块,用于接收处理器发送的信号标志位信息,其中,上述信号标志位信息用于表示上述交换机与上述处理器之间的数据传输出现异常;第一处理模块,用于基于上述信号标志位信息处理上述交换机的复位信号;第一复位模块,用于将处理后的复位信号发送至上述交换机,以指示上述交换机进行复位操作。
根据本申请的又一个实施例,还提供了一种数据传输链路的修复装置,包括:第一发送模块,用于向复杂可编程逻辑器件发送信号标志位信息,以指示上述复杂可编程逻辑器件基于上述信号标志位信息处理上述交换机的复位信号,其中,上述信号标志位信息用于表示上述交换机与处理器之间的数据传输出现异常,上述交换机用于接收上述复杂可编程逻辑器件发送的处理后的复位信号,进行复位操作;第一检测模块,用于检测上述交换机中的高速串行通信总线的带宽性能,其中,上述交换机与处理器之间通过数据传输链路连接;第一修复模块,用于基于上述带宽性能修复上述数据传输链路。
根据本申请的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本申请的又一个实施例,还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本申请,由于交换机的复位***中包括处理器、复杂可编程逻辑器件以及交换机。处理器和复杂可编程逻辑器件、交换机连接。在处理器与交换机之间的数据传输出现故障的情况下,处理器将信号标志位信息发送至复杂可编程逻辑器件,复杂可编程逻辑器件处理交换机中的复位信号,将处理后的复位信号发送至交换机进行复位。即通过硬件就可以修复控制器的故障。因此,可以解决相关技术中无法有效修复控制器故障的问题,达到可以快速准确的修复控制器故障的效果。
附图说明
图1是根据本申请实施例的交换机的复位***的结构框图;
图2是根据本申请实施例的基于PCIe的NTB总线拓扑图;
图3是根据本申请实施例的CPU下发hotreset的流程图;
图4是根据本申请实施例的处理器、交换机、复杂可编程逻辑器件之间数据交互的流程图;
图5是本申请实施例的一种交换机的复位方法的移动终端的硬件结构框图;
图6是根据本申请实施例的交换机的复位方法的流程图;
图7是根据本申请实施例的数据传输链路的修复方法的流程图;
图8是根据本申请实施例的复位完成后PCIe时序进入的L0的状态机的流程图;
图9是根据本申请实施例的软件修复方式的流程图;
图10是根据本申请实施例的交换机的复位装置的结构框图;
图11是根据本申请实施例的数据传输链路的修复装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请的实施例。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
下面对相关技术进行说明:
Node用于表示节点或控制器;
NTB(Non-Transparent Bridging)用于表示非透明桥。
CPU(Central Processing Unit)用于表示中央处理器。
ARM(Advanced RISC Machine)用于表示ARM处理器。
DIMM(Dual-Inline-Memory-Modules)用于表示双列直插式存储模块。
PCIe(Peripheral Component Interconnect Express)用于表示高速串行通信总线。
RC(Reception Control)用于表示接收控制。
DMA(Direct Memory Access)用于表示直接存储器访问。
active-active,用两个完全一样的server,然后用一个load balancer进行请求的调度。load balancer的算法可以是轮换,即第一个请求发给服务器1,第二个发给服务器2,第三个发给服务器1,以此类推。两个服务器可以是完全一致的。
active-passive,也是两个服务器节点,但是绝大多数时间是active的(或者primary)进行服务,当primary服务器出问题,就使用另一个passive服务器作为备用。跟active-active一样,active-passive也应该确保两个服务器完全一致。无论是active-active还是active-passive, 都可以解决服务器高可用性的问题。
Switch是交换机,前身是网桥。交换机是使用硬件来完成以网桥使用软件来完成过滤、学习和转发过程的任务。
PCIE Switch,提供扩展或聚合能力,并允许更多的设备连接到一个PCle端口。它们充当包路由器,根据地址或其他路由信息识别给定包需要走哪条路径。是一种PCIe转PCIe的桥。
Cold Reset,冷启动,关闭电源,再打开电源重启计算机。
Hot Reset,热启动,在不关闭电源的情况,由软件控制重启计算机。
PCI-E(PCI-Express),是一种通用的总线规格,它由Intel所提倡和推广,其最终的设计目的是为了取代现有电脑***内部的总线传输接口,这不只包括显示接口,还囊括了CPU、PCI、HDD、Network等多种应用接口。
在本实施例中提供了一种交换机的复位***,图1是根据本申请实施例的交换机的复位***的结构框图,如图1所示,交换机的复位***,包括:
处理器101,处理器101通过数据传输链路与交换机102连接;
复杂可编程逻辑器件103,复杂可编程逻辑器件103与处理器101和交换机102连接,复杂可编程逻辑器件103用于接收处理器101发送的信号标志位信息,并用于基于信号标志位信息处理交换机102中的复位信号,其中,信号标志位信息用于表示交换机102与处理器101之间的数据传输出现异常;
交换机102,用于接收复杂可编程逻辑器件103发送的处理后的复位信号,并进行复位操作。
可选地,本实施例可以应用于数据存储服务的场景中。在该场景中,需要两个控制器之间协同工作,两个控制器对应两个处理器,一个是主处理器,一个是从处理器。两个处理器之间协同工作,两个处理器可以均支持5个IIC总线,8个DIMM的接入,128条PCIe,并支持GEN3,基于PCIe的NTB技术实现连接。NTB在Intel的某些处理器中已经集成,可以实现两个拥有独立IO或Memory域的控制器直接沟通交互。
例如,如图2所示,双控之间的NTB口通过控制器1(Node1)中的CPU的RC连接到PCIESwitch的upstream口,带宽为GEN3 x16。同时downstream口通过背板连接到控制器2(Node2)的PCIE Switch背靠背连接,即Node2与Node1实现对称连接。本实施例中的NTB、PCIe Switch支持Active-Active方案,同时也支持Active-Passive两种方案。对于Active-Passive方案,两个节点(Node)一端连接到Link port,一端连接到virtual port,支持Failing的操作。对于Active-Active方案,由于两个Node是完全对称的设计,任意一个节点出现Failing,另一台作为主机,出现错误的节点为从机。当出现Failing的节点修复或替换后,可以继续支持无限次的Failing操作。
可选地,如图2所示,当有一个Node拔出或重启时,另一Node需要对PCIe Switch进行修复或替换后,概率性发生CPU与PCIe Switch之间的链路降级,即有GEN3 x16降级到其它带宽,导致控制器故障。针对出现Failing的节点进行的修复策略,目前在实现的方案,包括使用PCIE带内管理hotreset方案。如图3所示,CPU下发hotreset,通过PCIe链路下发到PCIe Switch,Downstream端通过PCIe协议中的TS1/TS2序列进行透传。通过用协议分析仪抓取PCIe时序,并通过与CPU原厂的分析,CPU PCIe时序问题,导致CPU对hotreset支持有缺陷,存在概率性降lane。
如图1所示,本实施例处理器101(CPU)与复杂可编程逻辑器件103(CPLD)之间通过集成电路总线104(IIC)通道进行通信。
可选地,处理器101还用于在复位信号被处理之后,通过数据传输链路读取交换机中的数据,以确定交换机是否复位。数据传输链路可以是高速串行总线PCIE。
可选地,复杂可编程逻辑器件103还用于在基于信号标志位信息处理复位信号之后,向处理器101发送反馈信息,其中,反馈信息用于表示信号标志位已触发复杂可编程逻辑器件103对复位信号的处理。
可选地,信号标志位信息包括冷启动交换机102的信息。
如图4所示,是本实施例中处理器101(CPU)、交换机102(Switch)、以及复杂可编程逻辑器件103(CPLD)之间数据交互的流程图,包括以下步骤:
S401,CPU通过IIC通道给CPLD下发信号标志位信息(例如,cold reset);
S402,CPLD接收信号标志位信息;
S403,CPLD主动拉低复位信号(例如,PERST信号)至300ms;
S404,触发Switch进人cold reset,即CPLD拉低PERST信号300ms后,Switch开始复位。
此外,CPLD把触发完成cold reset的标志通过IIC通道给到CPU,并把拉低复位次数+1。
通过上述***,由于交换机的复位***中包括处理器101、复杂可编程逻辑器件103以及交换机102。处理器101和复杂可编程逻辑器件103、交换机102连接。在处理器101与交换机102之间的数据传输出现故障的情况下,处理器101将信号标志位信息发送至复杂可编程逻辑器件103,复杂可编程逻辑器件103处理交换机102中的复位信号,将处理后的复位信号发送至交换机102进行复位。即通过硬件就可以修复控制器的故障。因此,可以解决相关技术中无法有效修复控制器故障的问题,达到可以快速准确的修复控制器故障的效果。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图5是本申请实施例的一种交换机的复位方法的移动终端的硬件结构框图。如图5所示,移动终端可以包括一个或多个(图5中仅示出一个)处理器502(处理器502可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器504,其中,上述移动终端还可以包括用于通信功能的传输设备506以及输入输出设备508。本领域普通技术人员可以理解,图5所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。
存储器504可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的交换机的复位方法对应的计算机程序,处理器502通过运行存储在存储器504内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器504可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器504可进一步包括相对于处理器502远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备506用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输设备506包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备506可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
本申请实施例可以运行于图1所示的交换机的复位装置的架构上。
在本实施例中提供了一种交换机的复位方法,图6是根据本申请实施例的交换机的复位方法的流程图,如图6所示,该流程包括如下步骤:
步骤S602,接收处理器发送的信号标志位信息,其中,信号标志位信息用于表示交换机与处理器之间的数据传输出现异常;
步骤S604,基于信号标志位信息处理交换机的复位信号;
步骤S606,将处理后的复位信号发送至交换机,以指示交换机进行复位操作。
其中,上述步骤的执行主体可以为复杂可编程逻辑器件CPLD等,但不限于此。
可选地,本实施例可以应用于数据存储服务的场景中。在该场景中,需要两个控制器之间协同工作,两个控制器对应两个处理器,一个是主处理器,一个是从处理器。本实施例中的处理器可以是主处理器,也可以是从处理器,处理器可以支持5个IIC总线,8个DIMM的接入,128条PCIe,并支持GEN3,基于PCIe的NTB技术实现连接。
可选地,复位信号可以是PERST信号。交换机可以是Switch。例如,复杂可编程逻辑器件CPLD拉低PERST信号300ms后,Switch开始复位。CPLD把触发完成cold reset的标志通过IIC通道给到CPU,并把拉低复位次数+1。
可选地,信号标志位信息包括冷启动交换机102的信息。
可选地,处理器还包括接收控制设备,与交换机连接,用于向交换机传输下行数据流。
可选地,交换机还包括直接存储器访问设备DMA,与处理器连接,用于向处理器传输上行数据流。
通过上述步骤,由于复杂可编程逻辑器件接收处理器发送的信号标志位信息,其中,信号标志位信息用于表示交换机与处理器之间的数据传输出现异常;复杂可编程逻辑器件基于信号标志位信息处理交换机的复位信号;复杂可编程逻辑器件将处理后的复位信号发送至交换机,以指示交换机进行复位操作。即通过硬件就可以修复控制器的故障。因此,可以解决相关技术中无法有效修复控制器故障的问题,达到可以快速准确的修复控制器故障的效果。
在一个示例性实施例中,接收处理器发送的信号标志位信息,包括:
S11,通过集成电路总线接收处理器发送的信号标志位信息。基于信号标志位信息处理交换机的复位信号,包括:
S12,释放复位信号,其中,释放复位信号包括:拉低复位信号得到拉低信号之后,对拉低信号执行拉高操作。
可选地,将复位信号进行拉低之后,再进行拉高,即可以实现释放复位信号的目的。在释放复位信号之后,触发Switch进人cold reset进行复位。从而通过外部设备实现对交换机的复位。
在一个示例性实施例中,基于信号标志位信息处理交换机的复位信号之后,方法还包括:
S21,向处理器发送反馈信息,其中,反馈信息用于表示信号标志位已触发对复位信号的处理;
S22,记录修复数据传输链路的次数。
可选地,反馈信息的形式包括但不限于是文字信息、或者语音信息。例如,CPLD把触发完成cold reset的标志通过IIC通道给到CPU,并把拉低复位次数+1。
可选地,在通过硬件复位交换机之后,还可以通过软件的方式检测到寄存器中的数据的情况下,可以确定处理器和交换机之间的数据传输是正常的。在未检测到寄存器中的数据,或者获取寄存器中的数据的传输速度较慢的情况下,可以确定处理器和寄存器之间的数据传输出现了故障。
在本实施例中提供了一种数据传输链路的修复方法,应用于交换机的复位装置中。图7是根据本申请实施例的数据传输链路的修复方法的流程图,如图7所示,该流程包括如下步骤:
步骤S702,向复杂可编程逻辑器件发送信号标志位信息,以指示复杂可编程逻辑器件基于信号标志位信息处理交换机的复位信号,其中,信号标志位信息用于表示交换机与处理器之间的数据传输出现异常,交换机用于接收复杂可编程逻辑器件发送的处理后的复位信号,进行复位操作;
步骤S704,检测交换机中的高速串行通信总线的带宽性能,其中,交换机与处理器之间通过数据传输链路连接;
步骤S706,基于带宽性能修复数据传输链路。
其中,上述步骤的执行主体可以为处理器CPU等,但不限于此。
可选地,本实施例可以应用于数据存储服务的场景中。在该场景中,需要两个控制器之间协同工作,两个控制器对应两个处理器,一个是主处理器,一个是从处理器。本实施例中的处理器可以是主处理器,也可以是从处理器,处理器可以支持5个IIC总线,8个DIMM的接入,128条PCIe,并支持GEN3,基于PCIe的NTB技术实现连接。
可选地,复位信号可以是PERST信号。交换机可以是Switch。例如,复杂可编程逻辑器件CPLD拉低PERST信号300ms后,Switch开始复位。CPLD把触发完成cold reset的标志通过IIC通道给到CPU,并把拉低复位次数+1。
可选地,信号标志位信息包括冷启动交换机102的信息。
可选地,处理器还包括接收控制设备,与交换机连接,用于向交换机传输下行数据流。
可选地,交换机还包括直接存储器访问设备DMA,与处理器连接,用于向处理器传输上行数据流。
可选地,在通过硬件的方式对交换机进行复位之后,进一步对处理器和交换机之间数据的传输是否正常进行检测。在检测到异常的情况下,通过软件的方式进行进一步的修复。
可选地,软件的修复方式是通过PCIe带内进行修复。例如,如图8所示,CPU发送完信号标志位信息(例如,cold reset)后,switch开始复位,复位完成后PCIe时序进入的L0的状态机;CPU端检测与Switch连接的PCIe设备是不是期望的GEN3 x16带宽,如果异常则进行修复操作,否则***正常开机。
通过上述步骤,由于向复杂可编程逻辑器件发送信号标志位信息,以指示复杂可编程逻辑器件基于信号标志位信息处理交换机的复位信号,其中,信号标志位信息用于表示交换机与处理器之间的数据传输出现异常,交换机用于接收复杂可编程逻辑器件发送的处理后的复位信号,进行复位操作;检测交换机中的高速串行通信总线的带宽性能,其中,交换机与处理器之间通过数据传输链路连接;基于带宽性能修复数据传输链路。因此,即通过硬件和软件相结合的方式可以修复控制器的故障。因此,可以解决相关技术中无法有效修复控制器故障的问题,达到可以快速准确的修复控制器故障的效果。
在一个示例性实施例中,向复杂可编程逻辑器件发送信号标志位信息之后,方法还包括:
S31,在复位信号被处理之后,通过数据传输链路读取交换机中的数据,确定交换机是否复位。
可选地,数据传输链路可以是如图1所示的PCIe。例如,通过PCIe读取Switch中的寄存器中的数据。如果可以读取,则交换机复位,数据可以正常传输,否则,进一步对数据传输链路进行修复,从而可以保证数据的正常的传输。
在一个示例性实施例中,基于带宽性能修复数据传输链路,包括:
S41,在带宽性能未满足预设带宽性能的情况下,降低带宽性能,以修复数据传输链路。
可选地,Switch复位完成后PCIe时序进入L0的状态机;CPU检测与Switch的PCIe是不是预设带宽(例如,GEN3 x16),如果是期望值,则***正常运行,否则进行disable/enable PCIe port进行修复。
在一个示例性实施例中,在带宽性能未满足预设带宽性能的情况下,降低带宽性能,以修复数据传输链路之后,方法还包括:
S51,在将带宽性能降低至预设性能,或者,对数据传输链路的修复次数大于预设次数的情况下,确定数据传输链路处于修复异常状态,其中,修复异常状态包括数据传输链路无法进行修复。
在一个示例性实施例中,检测交换机中的高速串行通信总线的带宽性能,包括:
S1,通过数据传输链路读取交换机中的寄存器中包括的数据;
S2,基于读取的寄存器中的数据检测交换机中的高速串行通信总线的带宽性能。
可选地,在检测到寄存器中的数据的情况下,可以确定处理器和交换机之间的数据传输是正常的。在未检测到寄存器中的数据,或者获取寄存器中的数据的传输速度较慢的情况下,可以确定处理器和寄存器之间的数据传输出现了故障。
可选地,在带宽降低至L0的状态下,或者是修复次数超过了3次,则不再进行修复,直接进行开机,提示错误信息。
可选地,本实施例中的软件修复方式的具体流程如图9所示,包括以下步骤:
S901,CPLD给Switch下发cold reset信号,Switch开始复位;
S902,复位完成后PCIe时序进入的L0的状态机;
S903,CPU检测与Switch的PCIe是不是GEN3 x16;
S904,如果是期望值,则***正常运行;
S905,如果不是期望值,进行最多三次disable/enable PCIe port的修复;
S906,修复之后判断CPU与Switch的PCIe是不是linke到GEN3 x16;
S907,如果CPU与Switch的PCIe linke到GEN3 x16,则***正常运行,否则,转至S905。
本实施例在CPU双控NTB互联方式中,CPU双控NTB互联降级硬件和软件结合的修复方式,可以分析出CPU双控NTB互联降级的原因,解决了CPU出现的NTB降lane的问题,并可以在项目上测试未发现的问题。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
在本实施例中还提供了一种交换机的复位装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图10是根据本申请实施例的交换机的复位装置的结构框图,如图10所示,该装置包括:
第一接收模块1002,用于接收处理器发送的信号标志位信息,其中,信号标志位信息用于表示交换机与处理器之间的数据传输出现异常;
第一处理模块1004,用于基于信号标志位信息处理交换机的复位信号;
第一复位模块1006,用于将处理后的复位信号发送至交换机,以指示交换机进行复位操作。
在一个示例性实施例中,上述第一接收模块,包括:
第一接收单元,用于通过集成电路总线接收处理器发送的信号标志位信息。
在一个示例性实施例中,上述第一处理模块,包括:
第一释放单元,用于释放复位信号,其中,释放复位信号包括:拉低复位信号得到拉低信号之后,对拉低信号执行拉高操作。
在一个示例性实施例中,上述装置还包括:
第二发送模块,用于基于信号标志位信息处理交换机的复位信号之后,向处理器发送反馈信息,其中,反馈信息用于表示信号标志位已触发对复位信号的处理;
第一记录模块,用于记录修复数据传输链路的次数。
图11是根据本申请实施例的数据传输链路的修复装置的结构框图,如图11所示,该装置包括:
第一发送模块1102,用于向复杂可编程逻辑器件发送信号标志位信息,以指示复杂可编程逻辑器件基于信号标志位信息处理交换机的复位信号,其中,信号标志位信息用于表示交换机与处理器之间的数据传输出现异常,交换机用于接收复杂可编程逻辑器件发送的处理后的复位信号,进行复位操作;
第一检测模块1104,用于检测交换机中的高速串行通信总线的带宽性能,其中,交换机与处理器之间通过数据传输链路连接;
第一修复模块1106,用于基于带宽性能修复数据传输链路。
在一个示例性实施例中,上述装置还包括:
第一确定模块,用于向复杂可编程逻辑器件发送信号标志位信息之后,在复位信号被处理之后,通过数据传输链路读取交换机中的数据,确定交换机是否复位。
在一个示例性实施例中,上述第一修复模块,包括:
第一修复单元,用于在带宽性能未满足预设带宽性能的情况下,降低带宽性能,以修复数据传输链路。
在一个示例性实施例中,上述装置还包括:
第二处理模块,用于在带宽性能未满足预设带宽性能的情况下,降低带宽性能,以修复数据传输链路之后,在将带宽性能降低至预设性能,或者,对数据传输链路的修复次数大于预设次数的情况下,确定数据传输链路处于修复异常状态,其中,修复异常状态包括数据传输链路无法进行修复。
在一个示例性实施例中,上述第一检测模块,包括:
第一读取单元,用于通过数据传输链路读取交换机中的寄存器中包括的数据;
第一检测单元,用于基于读取的寄存器中的数据检测交换机中的高速串行通信总线的带宽性能。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本申请的实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (20)

1.一种交换机的复位***,其特征在于,包括:
处理器,所述处理器通过数据传输链路与交换机连接;
复杂可编程逻辑器件,所述复杂可编程逻辑器件与所述处理器和所述交换机连接,所述复杂可编程逻辑器件用于接收所述处理器发送的信号标志位信息,并用于基于所述信号标志位信息处理所述交换机中的复位信号,其中,所述信号标志位信息用于表示所述交换机与所述处理器之间的数据传输出现异常;
所述交换机,用于接收所述复杂可编程逻辑器件发送的处理后的复位信号,并进行复位操作。
2.根据权利要求1所述的***,其特征在于,所述处理器还用于在所述复位信号被处理之后,通过所述数据传输链路读取所述交换机中的数据,以确定所述交换机是否复位。
3.根据权利要求1所述的***,其特征在于,所述交换机的复位装置还包括:
集成电路总线,与所述处理器和所述复杂可编程逻辑器件连接。
4.根据权利要求1所述的***,其特征在于,所述复杂可编程逻辑器件还用于在基于所述信号标志位信息处理所述复位信号之后,向所述处理器发送反馈信息,其中,所述反馈信息用于表示所述信号标志位已触发所述复杂可编程逻辑器件对所述复位信号的处理。
5.根据权利要求1所述的***,其特征在于,所述信号标志位信息包括冷启动所述交换机的信息。
6.根据权利要求1所述的***,其特征在于,所述处理器还包括接收控制设备,与所述交换机连接,用于向所述交换机传输下行数据流。
7.根据权利要求1所述的***,其特征在于,所述交换机还包括直接存储器访问设备DMA,与所述处理器连接,用于向所述处理器传输上行数据流。
8.一种交换机的复位方法,应用于如权利要求1至7任一项所述的交换机的复位***中,其特征在于,包括:
接收处理器发送的信号标志位信息,其中,所述信号标志位信息用于表示所述交换机与所述处理器之间的数据传输出现异常;
基于所述信号标志位信息处理所述交换机的复位信号;
将处理后的复位信号发送至所述交换机,以指示所述交换机进行复位操作。
9.根据权利要求8所述的方法,其特征在于,接收处理器发送的信号标志位信息,包括:
通过集成电路总线接收所述处理器发送的所述信号标志位信息。
10.根据权利要求8所述的方法,其特征在于,基于所述信号标志位信息处理所述交换机的复位信号,包括:
释放所述复位信号,其中,释放所述复位信号包括:拉低所述复位信号得到拉低信号之后,对所述拉低信号执行拉高操作。
11.根据权利要求8所述的方法,其特征在于,基于所述信号标志位信息处理所述交换机的复位信号之后,所述方法还包括:
向所述处理器发送反馈信息,其中,所述反馈信息用于表示所述信号标志位已触发对所述复位信号的处理;
记录修复所述数据传输链路的次数。
12.一种数据传输链路的修复方法,应用于如权利要求1至7任一项所述的交换机的复位装置中,其特征在于,包括:
向复杂可编程逻辑器件发送信号标志位信息,以指示所述复杂可编程逻辑器件基于所述信号标志位信息处理所述交换机的复位信号,其中,所述信号标志位信息用于表示所述交换机与处理器之间的数据传输出现异常,所述交换机用于接收所述复杂可编程逻辑器件发送的处理后的复位信号,进行复位操作;
检测所述交换机中的高速串行通信总线的带宽性能,其中,所述交换机与处理器之间通过数据传输链路连接;
基于所述带宽性能修复所述数据传输链路。
13.根据权利要求12所述的方法,其特征在于,向复杂可编程逻辑器件发送信号标志位信息之后,所述方法还包括:
在所述复位信号被处理之后,通过所述数据传输链路读取所述交换机中的数据,确定所述交换机是否复位。
14.根据权利要求12所述的方法,其特征在于,基于所述带宽性能修复所述数据传输链路,包括:
在所述带宽性能未满足预设带宽性能的情况下,降低所述带宽性能,以修复所述数据传输链路。
15.根据权利要求14所述的方法,其特征在于,在所述带宽性能未满足预设带宽性能的情况下,降低所述带宽性能,以修复所述数据传输链路之后,所述方法还包括:
在将所述带宽性能降低至预设性能,或者,对所述数据传输链路的修复次数大于预设次数的情况下,确定所述数据传输链路处于修复异常状态,其中,所述修复异常状态包括所述数据传输链路无法进行修复。
16.根据权利要求14所述的方法,其特征在于,检测所述交换机中的高速串行通信总线的带宽性能,包括:
通过所述数据传输链路读取所述交换机中的寄存器中包括的数据;
基于读取的所述寄存器中的数据检测所述交换机中的高速串行通信总线的带宽性能。
17.一种交换机的复位装置,其特征在于,包括:
第一接收模块,用于接收处理器发送的信号标志位信息,其中,所述信号标志位信息用于表示所述交换机与所述处理器之间的数据传输出现异常;
第一处理模块,用于基于所述信号标志位信息处理所述交换机的复位信号;
第一复位模块,用于将处理后的复位信号发送至所述交换机,以指示所述交换机进行复位操作。
18.一种数据传输链路的修复装置,其特征在于,包括:
第一发送模块,用于向复杂可编程逻辑器件发送信号标志位信息,以指示所述复杂可编程逻辑器件基于所述信号标志位信息处理交换机的复位信号,其中,所述信号标志位信息用于表示所述交换机与处理器之间的数据传输出现异常,所述交换机用于接收所述复杂可编程逻辑器件发送的处理后的复位信号,进行复位操作;
第一检测模块,用于检测所述交换机中的高速串行通信总线的带宽性能,其中,所述交换机与处理器之间通过数据传输链路连接;
第一修复模块,用于基于所述带宽性能修复所述数据传输链路。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求8至11任一项中所述的方法的步骤,或者实现权利要求12-16任一项中所述的方法的步骤。
20.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述权利要求8至11任一项中所述的方法的步骤,或者实现权利要求12-16任一项中所述的方法的步骤。
CN202211519689.XA 2022-11-30 2022-11-30 交换机的复位***及方法、存储介质、电子设备 Active CN115550291B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211519689.XA CN115550291B (zh) 2022-11-30 2022-11-30 交换机的复位***及方法、存储介质、电子设备
PCT/CN2023/103411 WO2024113818A1 (zh) 2022-11-30 2023-06-28 交换机的复位***及方法、非易失性可读存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211519689.XA CN115550291B (zh) 2022-11-30 2022-11-30 交换机的复位***及方法、存储介质、电子设备

Publications (2)

Publication Number Publication Date
CN115550291A true CN115550291A (zh) 2022-12-30
CN115550291B CN115550291B (zh) 2023-03-10

Family

ID=84722712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211519689.XA Active CN115550291B (zh) 2022-11-30 2022-11-30 交换机的复位***及方法、存储介质、电子设备

Country Status (2)

Country Link
CN (1) CN115550291B (zh)
WO (1) WO2024113818A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116301266A (zh) * 2023-03-03 2023-06-23 无锡众星微***技术有限公司 一种基于安全认证的PCIe设备带内复位的方法和装置
CN117234812A (zh) * 2023-11-16 2023-12-15 中科泓泰电子有限公司 一种控制服务器重启的***及方法
WO2024113818A1 (zh) * 2022-11-30 2024-06-06 苏州元脑智能科技有限公司 交换机的复位***及方法、非易失性可读存储介质、电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103078747A (zh) * 2012-12-28 2013-05-01 华为技术有限公司 PCIe交换机及其工作方法
US20160077799A1 (en) * 2014-09-16 2016-03-17 Fujitsu Limited Control device and control method
CN106201755A (zh) * 2016-07-11 2016-12-07 锐捷网络股份有限公司 网络设备的复位方法及装置
CN110569573A (zh) * 2019-08-22 2019-12-13 苏州浪潮智能科技有限公司 一种基于可编程逻辑器件的故障确认与通信的方法
CN112579400A (zh) * 2020-12-30 2021-03-30 苏州浪潮智能科技有限公司 一种设备故障定位方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984573A (zh) * 2020-08-14 2020-11-24 苏州浪潮智能科技有限公司 一种控制器PCIE Switch扩展芯片的复位方法
CN112256479A (zh) * 2020-10-19 2021-01-22 深圳中科德能科技有限公司 一种受电端设备的重启方法、装置、终端设备和存储介质
CN113688087B (zh) * 2021-10-25 2022-02-18 苏州浪潮智能科技有限公司 一种pcie设备枚举方法、***、存储介质及设备
CN115550291B (zh) * 2022-11-30 2023-03-10 苏州浪潮智能科技有限公司 交换机的复位***及方法、存储介质、电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103078747A (zh) * 2012-12-28 2013-05-01 华为技术有限公司 PCIe交换机及其工作方法
US20160077799A1 (en) * 2014-09-16 2016-03-17 Fujitsu Limited Control device and control method
CN106201755A (zh) * 2016-07-11 2016-12-07 锐捷网络股份有限公司 网络设备的复位方法及装置
CN110569573A (zh) * 2019-08-22 2019-12-13 苏州浪潮智能科技有限公司 一种基于可编程逻辑器件的故障确认与通信的方法
CN112579400A (zh) * 2020-12-30 2021-03-30 苏州浪潮智能科技有限公司 一种设备故障定位方法、装置、设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024113818A1 (zh) * 2022-11-30 2024-06-06 苏州元脑智能科技有限公司 交换机的复位***及方法、非易失性可读存储介质、电子设备
CN116301266A (zh) * 2023-03-03 2023-06-23 无锡众星微***技术有限公司 一种基于安全认证的PCIe设备带内复位的方法和装置
CN116301266B (zh) * 2023-03-03 2023-11-17 无锡众星微***技术有限公司 一种基于安全认证的PCIe设备带内复位的方法和装置
CN117234812A (zh) * 2023-11-16 2023-12-15 中科泓泰电子有限公司 一种控制服务器重启的***及方法
CN117234812B (zh) * 2023-11-16 2024-01-30 中科泓泰电子有限公司 一种控制服务器重启的***及方法

Also Published As

Publication number Publication date
WO2024113818A1 (zh) 2024-06-06
CN115550291B (zh) 2023-03-10

Similar Documents

Publication Publication Date Title
CN115550291B (zh) 交换机的复位***及方法、存储介质、电子设备
US9582448B2 (en) Transmission apparatus and control unit
US7536584B2 (en) Fault-isolating SAS expander
US7010715B2 (en) Redundant control architecture for a network device
EP2052326B1 (en) Fault-isolating sas expander
CN1909559B (zh) 基于快速***组件互连的接口板及其切换主控板的方法
US8843689B2 (en) Concurrent repair of the PCIe switch units in a tightly-coupled, multi-switch, multi-adapter, multi-host distributed system
CN102622279B (zh) 冗余控制***、方法及管理控制器
CN107070731B (zh) 一种主从仲裁方法及***
CN108683528B (zh) 一种数据传输方法、中心服务器、服务器及数据传输***
CN105183575A (zh) 处理器故障的诊断方法、装置及***
JPH086910A (ja) クラスタ型計算機システム
CN105072029A (zh) 一种双活双控存储***的冗余链路设计方法及***
CN100538647C (zh) 多核处理器的业务流处理方法及多核处理器
US10298520B2 (en) Relay apparatus
CN109889411A (zh) 一种数据传输的方法及装置
CN111984573A (zh) 一种控制器PCIE Switch扩展芯片的复位方法
CN102768561A (zh) 一种双桥片主板冗余的设计方法
CN101878620A (zh) 在基于链路的***中修改***路由信息
US7656789B2 (en) Method, system and storage medium for redundant input/output access
CN105009086A (zh) 一种实现处理器切换的方法、计算机和切换装置
CN109885420B (zh) 一种PCIe链路故障的分析方法、BMC及存储介质
CN109995597B (zh) 一种网络设备故障处理方法及装置
CN114880266B (zh) 故障处理的方法、装置、计算机设备和存储介质
US20100229041A1 (en) Device and method for expediting feedback on changes of connection status of monitioring equipments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant