CN117527637A - 一种链路故障检测的方法、装置、存储介质及电子设备 - Google Patents

一种链路故障检测的方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN117527637A
CN117527637A CN202311865723.3A CN202311865723A CN117527637A CN 117527637 A CN117527637 A CN 117527637A CN 202311865723 A CN202311865723 A CN 202311865723A CN 117527637 A CN117527637 A CN 117527637A
Authority
CN
China
Prior art keywords
processor
data packet
detection data
fault detection
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311865723.3A
Other languages
English (en)
Other versions
CN117527637B (zh
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Moore Threads Technology Co Ltd
Original Assignee
Moore Threads Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Moore Threads Technology Co Ltd filed Critical Moore Threads Technology Co Ltd
Priority to CN202311865723.3A priority Critical patent/CN117527637B/zh
Publication of CN117527637A publication Critical patent/CN117527637A/zh
Application granted granted Critical
Publication of CN117527637B publication Critical patent/CN117527637B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本说明书公开了一种链路故障检测的方法、装置、存储介质和电子设备,第一处理器通过高速互联接口与第二处理器通信。由于两个相连的处理器之间的高速互联接口不仅物理连接状态可能会异常,而且通信连接状态也有可能异常,因此,第一处理器先生成用于检测通信连接状态的故障检测数据包,将该故障检测数据包发送至第二处理器,以根据该第一处理器的第一故障检测数据包及第二处理器基于第一故障检测数据包的响应,检测高速互联接口的通信连接状态,以判断两个相连处理器之间的链路是否出现故障。

Description

一种链路故障检测的方法、装置、存储介质及电子设备
技术领域
本说明书涉及计算机领域,尤其涉及一种链路故障检测的方法、装置、存储介质及电子设备。
背景技术
随着计算机技术的发展以及人们需求的增多,仅使用一个处理器处理业务的效率可能较低,因此,可将多个处理器进行连接,以提高执行业务的效率。由于当两个相互连接的处理器之间的链路连接故障时,会影响执行业务的进程,因此,当多个处理器连接完成时,需要检测两个相互连接的处理器之间的链路是否出现故障。在检测两个相互连接的处理器之间的链路是否出现故障时,若两个处理器是通过高速互联技术进行相互连接的,则可通过通信协议检测链路是否出现故障。但两个相连的处理器之间链路连接故障类型多种多样,仅通过通信协议可能无法检测出两个相连的处理器之间的某些种类的链路连接故障,例如,若两个相连的处理器之间出现自身的收方向与自身的发方向连接,也属于链路连接故障,但这种链路连接故障可能无法通过通信协议检测出来,导致后续传输数据出现问题,影响业务执行。
基于此,本说明书提供一种链路故障检测的方法。
发明内容
本说明书提供一种链路故障检测的方法、装置、存储介质及电子设备,以至少部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供一种链路故障检测的方法,第一处理器通过高速互联接口与第二处理器通信;包括:
根据预设的故障检测数据生成格式生成用于检测链路故障的第一故障检测数据包;
通过所述高速互联接口将所述第一故障检测数据包发送至所述第二处理器;
根据所述第一故障检测数据包及所述第二处理器基于所述第一故障检测数据包的响应,检测所述第一处理器的高速互联接口的通信连接状态。
可选地,根据所述第一故障检测数据包及所述第二处理器基于所述第一故障检测数据包的响应,检测所述第一处理器的高速互联接口的通信连接状态之前,所述方法还包括:
检测所述第一处理器的高速互联接口的物理连接状态;
当所述第一处理器的高速互联接口的物理连接状态正常时,根据所述第一故障检测数据包及所述第二处理器基于所述第一故障检测数据包的响应,检测所述第一处理器的高速互联接口的通信连接状态。
可选地,根据预设的故障检测数据生成格式生成用于检测链路故障的第一故障检测数据包,具体包括:
根据所述第一处理器的信息,确定第一收发信息中的第一源信息,所述第一源信息包括所述第一处理器的第一源端口信息及所述第一处理器的标识;
根据所述第二处理器的信息,确定第一收发信息中的第一目标信息,所述第一目标信息包括所述第二处理器的第一目标端口信息及第二处理器的标识;
根据所述第一收发信息,得到用于检测链路故障的第一故障检测数据包。
可选地,根据所述第一故障检测数据包及所述第二处理器基于所述第一故障检测数据包的响应,检测所述第一处理器的高速互联接口的通信连接状态,具体包括:
当所述第一处理器不在预设时长内接收所述第二处理器针对所述第一故障检测数据包发送的第二故障检测数据包时,检测所述第一处理器的高速互联接口的通信连接状态为单通异常。
可选地,根据所述第一故障检测数据包及所述第二处理器基于所述第一故障检测数据包的响应,检测所述第一处理器的高速互联接口的通信连接状态,具体包括:
获取所述第一故障检测数据包中的第一数据包内容;
接收所述第二处理器基于所述第一故障检测数据包返回的第二故障检测数据包;并获取所述第二故障检测数据包中的第二数据包内容;
当所述第一数据包内容与所述第二数据包内容满足第一指定条件时,检测所述第一处理器的高速互联接口的通信连接状态为环回异常。
可选地,根据所述第一故障检测数据包及所述第二处理器基于所述第一故障检测数据包的响应,检测所述第一处理器的高速互联接口的通信连接状态,具体包括:
获取所述第一故障检测数据包中的所述第一收发信息;
接收所述第二处理器基于所述第一故障检测数据包返回的第二故障检测数据包;并获取所述第二故障检测数据包中的第二收发址信息;
当所述第一收发信息与所述第二收发信息不满足第二指定条件时,检测所述第一处理器的高速互联接口的通信连接状态为环回异常。
可选地,检测所述第一处理器的高速互联接口的通信连接状态,具体包括:
若所述第一源信息与第二目标信息匹配,且所述第一目标信息与第二源信息匹配,则所述第一收发信息与所述第二收发信息满足第二指定条件,检测所述第一处理器的高速互联接口的通信连接状态为正常;
若所述第一源信息与第二目标信息不匹配,或所述第一目标信息与第二源信息不匹配,所述第一收发址信息与所述第二收发信息不满足第二指定条件,检测所述第一处理器的高速互联接口的通信连接状态为环回异常。
可选地,所述高速互联接口包括发送缓冲区、接收缓冲区、链路控制器、链路物理层。
本说明书提供一种链路故障检测的方法,第一处理器通过高速互联接口与第二处理器通信;包括:
所述第二处理器通过所述高速互联接口接收所述第一处理器发送的第一故障检测数据包,其中,所述第一故障检测数据包为当所述第一处理器的高速互联接口的物理连接状态正常时发送的;
根据所述第一故障检测数据包响应所述第一处理器,以使所述第一处理器根据所述第一故障检测数据包及所述第二处理器基于所述第一故障检测数据包的响应,检测所述第一处理器的高速互联接口的通信连接状态。
可选地,根据所述第一故障检测数据包响应所述第一处理器,具体包括:
获取所述第一故障检测数据包中的第一数据包内容;
根据预设规则对所述第一数据包内容进行处理,得到第二数据包内容;
根据所述第二数据包内容及预设的故障检测数据生成格式,生成第二故障检测数据包;
将所述第二故障检测数据包发送至所述第一处理器,以使所述第一处理器根据所述第二故障检测数据包及所述第一故障检测数据包,检测所述第一处理器的高速互联接口的通信连接状态。
本说明书提供了一种链路故障检测的装置,第一处理器通过高速互联接口与第二处理器通信;所述装置包括:
第一故障检测数据包生成模块,用于根据预设的故障检测数据生成格式生成用于检测链路故障的第一故障检测数据包;
第一故障检测数据包发送模块,用于通过所述高速互联接口将所述第一故障检测数据包发送至所述第二处理器;
通信连接状态检测模块,用于根据所述第一故障检测数据包及所述第二处理器基于所述第一故障检测数据包的响应,检测所述第一处理器的高速互联接口的通信连接状态。
可选地,所述装置还包括:
物理连接状态检测模块,用于检测所述第一处理器的高速互联接口的物理连接状态;当所述第一处理器的高速互联接口的物理连接状态正常时,根据所述第一故障检测数据包及所述第二处理器基于所述第一故障检测数据包的响应,检测所述第一处理器的高速互联接口的通信连接状态。
可选地,所述第一故障检测数据包生成模块具体用于,根据所述第一处理器的信息,确定第一收发信息中的第一源信息,所述第一源信息包括所述第一处理器的第一源端口信息及所述第一处理器的标识;根据所述第二处理器的信息,确定第一收发信息中的第一目标信息,所述第一目标信息包括所述第二处理器的第一目标端口信息及第二处理器的标识;根据所述第一收发信息,得到用于检测链路故障的第一故障检测数据包。
可选地,所述通信连接状态检测模块具体用于,当所述第一处理器不在预设时长内接收所述第二处理器针对所述第一故障检测数据包发送的第二故障检测数据包时,检测所述第一处理器的高速互联接口的通信连接状态为单通异常。
可选地,所述第一故障检测数据包生成模块具体用于,确定待发送内容;并根据所述待发送内容,确定第一数据包内容;根据所述第一数据包内容,生成第一故障检测数据包;
所述通信连接状态检测模块具体用于,获取所述第一故障检测数据包中的第一数据包内容;接收所述第二处理器基于所述第一故障检测数据包返回的第二故障检测数据包;并获取所述第二故障检测数据包中的第二数据包内容;当所述第一数据包内容与所述第二数据包内容满足第一指定条件时,检测所述第一处理器的高速互联接口的通信连接状态为环回异常。
可选地,所述通信连接状态检测模块具体用于,获取所述第一故障检测数据包中的所述第一收发信息;接收所述第二处理器基于所述第一故障检测数据包返回的第二故障检测数据包;并获取所述第二故障检测数据包中的第二收发信息;当所述第一收发信息与所述第二收发信息不满足第二指定条件时,检测所述第一处理器的高速互联接口的通信连接状态为环回异常。
可选地,所述通信连接状态检测模块具体用于,若所述第一源信息与第二目标信息匹配,且所述第一目标信息与第二源信息匹配,则所述第一收发信息与所述第二收发信息满足第二指定条件,检测所述第一处理器的高速互联接口的通信连接状态为正常;若所述第一源信息与第二目标信息不匹配,或所述第一目标信息与第二源信息不匹配,所述第一收发信息与所述第二收发信息不满足第二指定条件,检测所述第一处理器的高速互联接口的通信连接状态为环回异常。
可选地,所述高速互联接口包括发送缓冲区、接收缓冲区、链路控制器、链路物理层。
本说明书提供了一种链路故障检测的装置,第一处理器通过高速互联接口与第二处理器通信;所述装置包括:
第一故障检测数据包接收模块,用于所述第二处理器通过所述高速互联接口接收所述第一处理器发送的第一故障检测数据包,其中,所述第一故障检测数据包为当所述第一处理器的高速互联接口的物理连接状态正常时发送的;
响应模块,用于根据所述第一故障检测数据包响应所述第一处理器,以使所述第一处理器根据所述第一故障检测数据包及所述第二处理器基于所述第一故障检测数据包的响应,检测所述第一处理器的高速互联接口的通信连接状态。
可选地,所述响应模块具体用于,获取所述第一故障检测数据包中的第一数据包内容;根据预设规则对所述第一数据包内容进行处理,得到第二数据包内容;根据所述第二数据包内容及预设的故障检测数据生成格式,生成第二故障检测数据包;将所述第二故障检测数据包发送至所述第一处理器,以使所述第一处理器根据所述第二故障检测数据包及所述第一故障检测数据包,检测所述第一处理器的高速互联接口的通信连接状态。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述链路故障检测的方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述链路故障检测的方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
从在本说明书提供的链路故障检测的方法可以看出,由于两个相连的处理器之间的高速互联接口不仅物理连接状态可能会异常,而且通信连接状态也有可能异常,因此,本方法先生成用于检测通信连接状态的故障检测数据包,根据该第一处理器的第一故障检测数据包及第二处理器基于第一故障检测数据包的响应,检测高速互联接口的通信连接状态,以判断两个相连处理器之间的链路是否出现故障。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书提供的一种链路故障检测的方法的流程示意图;
图2为两个处理器的高速互联接口的连接示意图;
图3为本说明书提供的故障检测数据包的示意图;
图4为处理器单通异常的结构示意图;
图5为处理器环回异常的结构示意图;
图6为本说明书提供的一种链路故障检测的方法的流程示意图;
图7为本说明书提供的一种链路故障检测的装置示意图;
图8为本说明书提供的对应于图1的电子设备示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书提供的一种链路故障检测的方法的流程示意图,具体包括以下步骤:
S100:根据预设的故障检测数据生成格式生成用于检测链路故障的第一故障检测数据包。
由于处理器之间的链路连接状态对后续执行业务存在一定影响,因此,利用处理器在执行业务之前,需要先确定处理器之间的链路连接状态,若两相连的处理器之间的链路连接故障,则处理器之间无法进行数据传输,可能影响业务执行进程,甚至导致业务无法执行。
通常两个处理器之间可通过高速串行计算机扩展总线标准PCIe(PeripheralComponent Interconnect express,PCIe)总线或高速互联接口连接,若两个处理器通过高速互联接口连接,则可通过通信协议检测两个相连处理器之间的链路是否故障,但若两个相连的处理器之间可能存在的链路故障类型较多,仅通过通信协议可能无法检测出两个相连的处理器之间的某些种类的链路连接故障。因此,本说明书提供一种链路故障检测的方法。本说明书的执行主体可以是用于检测处理器的链路是否故障的***管理单元(SystemManagement Unit,SMU),也可以是其他可检测链路是否故障的处理器或电子设备。为了便于说明,下面仅以SMU为执行主体,对本说明书提供的一种链路故障检测的方法进行说明。
图2为两个处理器的高速互联接口的连接示意图,如图2所示。
在本说明书一个或多个实施例中,一个处理器可与多个处理器相连,为了便于说明,下面以一个处理器通过高速互联接口仅与一个处理器连接为例,即第一处理器通过高速互联接口与第二处理器通信。如图2所示,两个相连的处理器分别为第一处理器和第二处理器。针对每个处理器,该处理器至少有一个高速互联接口,该处理器可为图形处理器(Graphics Processing Unit,GPU),也就是说,第一处理器及第二处理器包括图形处理器。该处理器内部可包括SMU、PCIe及高速互联总线等。该处理器可通过PCIe与主机(host)相连,以便与其他处理器通信。高速互联接口包括发送缓冲区(Tx FIFO)、接收缓冲区(RxFIFO)、链路控制器(Link controller)、链路物理层(Link PHY)。
由于高速互联接口的异常情况包括物理连接状态异常及通信连接状态异常,物理连接状态异常即物理电路连接状态异常。通常情况下,若该第一处理器的高速互联接口的物理连接状态异常,则该第一处理器的高速互联接口的通信连接状态异常,反之不一定。因为当物理连接状态正常时,高速互联接口的协议层、应用层等软件层可能异常,导致通信连接状态异常。因此,在检测该第一处理器的高速互联接口的状态时,可先检测该第一处理器的高速互联接口的物理连接状态。
具体的,该第一处理器接收故障检测指令,即SMU接收主机通过PCIe发送的高速互联接口故障检测指令, SMU根据该故障检测指令,检测该第一处理器的高速互联接口的物理连接状态,当该第一处理器的高速互联接口的物理连接状态正常时,再检测第一处理器的高速互联接口的通信连接状态。
在本说明书一个或多个实施例中,SMU根据预设的故障检测数据生成格式生成用于检测链路故障的第一故障检测数据包,生成该第一故障检测数据包,便于后续步骤根据该第一故障检测数据包检测该第一处理器的高速互联接口的通信连接状态。
图3为本说明书提供的故障检测数据包的示意图,如图3所示,故障检测数据包中可包括收发信息、数据包内容及数据包类型,收发信息包括源信息、目标信息,源信息包括源端口信息及源处理器信息,目标信息包括目标端口信息及目标处理器信息。其中,数据包类型表征该数据包为用于检测链路是否异常的数据包,源处理器信息及目标处理器信息为对应处理器的标识,源端口信息及目标端口信息为对应处理器的端口号。本说明书不限制故障检测数据生成格式,也就是说,本说明书并不限制源信息、目标信息、数据包内容及数据包类型的存放位置顺序。
那么,SMU可根据该第一处理器的信息,确定第一收发信息中的第一源信息,该第一源信息包括该第一处理器的第一源端口信息及第一处理器的标识。以及根据该第二处理器,确定第一收发信息中的第一目标信息,该第一目标信息包括第一目标端口信息及第一目标处理器信息,得到第一收发信息后,即得到用于检测链路故障的第一故障检测数据包。
此外,SMU还可确定待发送内容,并根据该待发送内容,确定第一数据包内容。再根据该第一数据包内容,生成第一故障检测数据包。
本说明书不限制该故障检测数据包中包括的信息,例如,该故障检测数据包中可仅包含源信息及目标信息,还可仅包含数据包内容,只要能根据该故障检测数据包,判断该第一处理器的高速互联接口的通信连接状态是否正常即可。
S102:通过所述高速互联接口将所述第一故障检测数据包发送至所述第二处理器。
具体的,如图2所示,SMU通过总线将该第一故障检测数据包发送至Tx FIFO,再依次通过Link Controller中的Tx(发送口)、Link PHY中的Tx将该第一故障检测数据包发送至第二处理器的Link PHY中的Rx(接收口),最后依次通过第二处理器的Link Controller中的Rx、Rx FIFO及总线将该第一故障检测数据包发送至第二处理器的SMU中。
S104:根据所述第一故障检测数据包及所述第二处理器基于所述第一故障检测数据包的响应,检测所述第一处理器的高速互联接口的通信连接状态。
SMU将该第一故障检测数据包发送至该第二处理器后,该第二处理器会根据该第一故障检测数据包做出相应的响应,例如,解析该第一故障检测数据包中的信息,并对该信息进行处理后,根据处理后的信息生成第二故障检测数据包,将该第二故障检测数据包返回该第一处理器。因此,SMU可根据该第二处理器的响应,检测第一处理器的高速互联接口的通信连接状态。
具体的,第一处理器的高速互联接口的通信连接状态异常可能包括单通异常及环回异常,图4为处理器单通异常的结构示意图,单通异常是指第一处理器将数据发送给第二处理器,该第二处理器接收到该数据后,未能将该响应于该数据的响应内容成功返回给该第一处理器,导致该第一处理器未接收到该第二处理器返回的响应内容。如图4所示,在第一处理器及第二处理器中任意一个或多个标注“×”的连接线路出现故障,导致该第二处理器无法响应第一处理器。因此,SMU可需要根据该第二处理器的响应内容,检测该第一处理器的高速互联接口的通信连接状态是否为单通异常,当该第一处理器不在预设时长内接收该第二处理器针对该第一故障检测数据包发送的第二故障检测数据包时,检测该第一处理器的高速互联接口的通信连接状态为单通异常。需要说明的是,若该第二处理器返回的数据内容为空,则也可表明该第一处理器的高速互联接口的通信连接状态为单通异常。
图5为处理器环回异常的结构示意图,如图5所示,环回异常是指处理器接收到的数据内容与自身发送的数据内容一致,导致环回异常的原因可能是由于物理连接时,自身的收方向与发方向连接,也可能是高速互联接口的软件层出现故障。在这种情况下,高速互联接口的物理连接状态也可能会被检测为正常,并且第一处理器可接收到第二处理器返回的第二故障检测数据包。因此,为了检测出处理器是否出现环回异常,SMU可根据该第二故障检测数据包中的第二数据包内容及该第一故障检测数据包中的第一数据包内容,检测该第一处理器的高速互联接口的通信连接状态。
首先,SMU获取该第一故障检测数据包中的第一数据包内容,再接收该第二处理器基于该第一故障检测数据包返回的第二故障检测数据包,并获取该第二故障检测数据包中的第二数据包内容。当该第一数据包内容与第二数据包内容满足第一指定条件时,检测该第一处理器的高速互联接口的通信连接状态为环回异常。其中,该第一指定条件可根据预设规则设置,例如,预设规则为对第一数据包内容的对应的数值进行加一处理,那么,第二处理器接收到该第一故障检测数据包后,按照预设规则对该第一故障检测数据包进行处理,即将第一故障检测数据包中的第一数据包内容的数值加一,得到第二数据包内容。因此,该第一指定条件为该第二数据包内容的数值与该第一数据包内容的数值相减的结果不为1。
基于图1所示的链路故障检测的方法,由于两个相连的处理器之间的高速互联接口不仅物理连接状态可能会异常,而且通信连接状态也有可能异常,因此,本方法先判断第一处理器的高速互联接口的物理连接状态是否正常,在该高速互联接口的物理连接状态正常时,再根据该第一处理器的第一故障检测数据包及第二处理器基于第一故障检测数据包的响应,判断高速互联接口的通信连接状态是否正常,以当两个相连的处理器的通信协议不相同时,检测两个相连处理器之间的链路是否出现故障。也就是说,本方法并不限制处理器使用的通信协议类型。
在本说明书一个或多个实施例中,第一处理器及第二处理器通过总线与主机连接,当该第一处理器的高速互联接口的物理连接状态和/或通信连接状态异常时,生成高速互连接口异常报告,将该高速互连接口异常报告发送至主机,以使主机展示该高速互连接口异常报告,以便用户尽快解决该链路故障问题。
针对步骤S104,由于第一处理器及第二处理器为不同的处理器,因此第一处理器及第二处理器分别发送的第一故障检测数据包及第二故障检测数据包中的收发信息并不相同,那么,SMU还可通过故障检测数据包中的收发信息,检测该第一处理器的高速互联接口的通信连接状态。
具体的,SMU先获取该第一故障检测数据包中的第一收发信息,其中,该第一收发信息包括第一源信息及第一目标信息,该第一源信息包括第一源端口信息及第一源处理器信息,该第一目标信息包括第一目标端口信息及第一目标处理器信息。同样地,第二故障检测数据包中包含第二收发信息,其中,该第二收发信息包括第二源信息及第二目标信息,该第二源信息包括第二源端口信息及第二源处理器信息,该第二目标信息包括第二目标端口信息及第二目标处理器信息。也就是说,在第一故障检测数据包中的源处理器信息可称为第一源处理器信息,该第一源处理器信息是指第一处理器的标识,在第一故障检测数据包中的目标处理器信息可称为第一目标处理器信息,该第一目标处理器信息是指第二处理器的标识,第一源端口信息是指第一处理器的端口号,第一目标端口信息是指第二处理器的端口号。
在第二故障检测数据包中的源处理器信息可称为第二源处理器信息,该第二源处理器信息是指第二处理器的标识,在第二故障检测数据包中的目标处理器信息可称为第二目标处理器信息,该第二目标处理器信息是指第一处理器的标识,第二源端口信息是指第二处理器的端口号,第二目标端口信息是指第一处理器的端口号。
然后,接收该第二处理器基于该第一故障检测数据包返回的第二故障检测数据包,并获取该第二故障检测数据包中的第二收发信息,当该第一收发信息与该第二收发信息不满足第二指定条件时,检测该第一处理器的高速互联接口的通信连接状态为环回异常。其中,第二指定条件是指该第一源信息与第二目标信息匹配,且该第一目标信息与第二源信息匹配。也就是说,若该第一源信息与第二目标信息匹配,且该第一目标信息与第二源信息匹配,则该第一收发信息与该第二收发信息满足第二指定条件,检测该第一处理器的高速互联接口的通信连接状态为正常。若第一源信息与第二目标信息不匹配,或该第一目标信息与第二源信息不匹配,该第一收发信息与该第二收发信息不满足第二指定条件,检测该第一处理器的高速互联接口的通信连接状态为环回异常。其中,匹配是指信息一致。
表1
表2
例如,如表1所示,第一故障检测数据包中源处理器信息、源端口信息、目标处理器信息、目标端口信息分别为3、4、1、2,数据包内容为1,数据包类型为7表示该数据表为故障检测数据包。如表2所示,第二故障检测数据包中源处理器信息、源端口信息、目标处理器信息、目标端口信息分别为1、2、3、4,数据包内容为4,那么,第一源信息与第二目标信息一致,且该第一目标信息与第二源信息一致,因此,该第一收发信息与该第二收发信息满足第二指定条件,那么,第一处理器的高速互联接口的通信连接状态正常。
基于图1所示的链路故障检测的方法的流程示意图,本说明书还提供一种由第二处理器的SMU执行的链路故障检测的方法,第一处理器通过高速互联接口与第二处理器通信,图6为本说明书提供的一种链路故障检测的方法的流程示意图,具体包括以下步骤:
S200:所述第二处理器通过所述高速互联接口接收所述第一处理器发送的第一故障检测数据包。
需要说明的是,该第一故障检测数据包为当该第一处理器的高速互联接口的物理连接状态正常时发送的。
S202:根据所述第一故障检测数据包响应所述第一处理器。
具体的,SMU获取该第一故障检测数据包中的第一数据包内容,根据预设规则对该第一数据包内容进行处理,得到第二数据包内容。其中,预设规则需要与步骤S104中第一指定条件的对应。例如,第一数据包内容的数值为6,第一指定条件为该第二数据包内容的数值与该第一数据包内容的数值相减的结果为1,那么,根据预设规则对该第一数据包内容进行处理后得到的第二数据包内容的数值不能为7或5。需要说明的是,预设规则可根据不同处理器进行更改,当两个相连的处理器之间的链路不存在故障时,第一数据包内容及第二数据包内容不满足第一指定条件即可。
然后,根据该第二数据包内容及预设的故障检测数据生成格式,生成第二故障检测数据包。即根据该第二处理器的信息,确定第二收发信息的第二源信息,该第二源信息包括该第二处理器的第二源端口信息及第二处理器的标识,根据该第一处理器的信息,确定第二收发信息中的第二目标信息,第二目标信息包括该第一处理器的第二目标端口信息及第一处理器的标识,得到第二收发信息后,即得到第二故障检测数据包。该第二故障检测数据包中还可包括数据包内容,那么,SMU可根据该第一数据包内容,确定待返回的第二数据包内容,根据该第二数据包内容,生成第二故障检测数据包。
最后,将该第二故障检测数据包发送至该第一处理器,以使该第一处理器根据该第二故障检测数据包及该第一故障检测数据包,检测该第一处理器的高速互联接口的通信连接状态。即以使该第一处理器根据该第一故障检测数据包及该第二处理器基于该第一故障检测数据包的响应,检测该第一处理器的高速互联接口的通信连接状态。
需要说明的是,当一个处理器与多个处理器相连时,检测该处理器与其他任意一个处理器之间的链路连接状态,均可使用上述链路故障检测方法。例如,在一种可能的实现方式中,第一处理器同时与第二处理器及第三处理器连接,第一处理器可同时生成两个故障检测数据包,包括第一故障检测数据包及第三故障检测数据包,将该第一故障检测数据包发送至第二处理器,将该第三故障检测数据包发送至第三处理器,以分别检测第一处理器与第二处理器链路连接状态及第一处理器与第三处理器链路连接状态。在另一种可能的实现方式中,可以对多个处理器按照以上的方法进行两两检测。
本说明书公开提供的检测方法应用于至少两个GPU芯片互联时的通信链路检测,第一处理器可以是链路中的一个GPU芯片,称为chip 0,存在多个芯片时,可以通过对chip标识依次命名,第二处理器可以是链路中的另一GPU芯片,称为chip 1,或chip n等,其中的第一处理器可以直接通过高速互联接口与第二处理器互联,也可以通过高速互连接口与其它chip互联后再与第二处理器互联。
在第一处理器通过高速互联接口直接于第二处理器互联的情况下,可以通过说明书中的以上方法进行链路检测。在第一处理器通过高速互连接口与其它chip互联后再与第二处理器互联的情况下,在确定第一处理器与第二处理器之间的链路通信正常且高速互联通信接口通信正常时,可以在第一处理器通过SMU生成第一故障检测数据包后,通过高速互连接口及其他chip,发送到第二处理器。在检测第一数据包内容与第二数据包内容是否满足第一指定条件时,该第一指定条件,可以是对第一数据包内容的对应的数值进行加M处理,M为第一处理器与第二处理器之间间隔芯片数量加一。也可以是其他对应的数据内容的变化情况,比如这一变化情况可以是更改第二处理器对应位置的chip芯片标识,或在原第一数据包内容的基础上增加与第二处理器排序位置关联的其他指定数值,或者编码内容等。
以上为本说明书的一个或多个实施例提供的链路故障检测的方法,基于同样的思路,本说明书还提供了相应的链路故障检测的装置,如图6所示。
图7本说明书提供的一种链路故障检测的装置示意图,第一处理器通过高速互联接口与第二处理器通信;所述装置包括:
第一故障检测数据包生成模块700,用于根据预设的故障检测数据生成格式生成用于检测链路故障的第一故障检测数据包;
第一故障检测数据包发送模块702,用于通过所述高速互联接口将所述第一故障检测数据包发送至所述第二处理器;
通信连接状态检测模块704,用于根据所述第一故障检测数据包及所述第二处理器基于所述第一故障检测数据包的响应,检测所述第一处理器的高速互联接口的通信连接状态。
可选地,所述装置还包括:
物理连接状态检测模块706,用于检测所述第一处理器的高速互联接口的物理连接状态;当所述第一处理器的高速互联接口的物理连接状态正常时,根据所述第一故障检测数据包及所述第二处理器基于所述第一故障检测数据包的响应,检测所述第一处理器的高速互联接口的通信连接状态。
可选地,所述第一故障检测数据包生成模块700具体用于,根据所述第一处理器的信息,确定第一收发信息中的第一源信息,所述第一源信息包括所述第一处理器的第一源端口信息及所述第一处理器的标识;根据所述第二处理器的信息,确定第一收发信息中的第一目标信息,所述第一目标信息包括所述第二处理器的第一目标端口信息及第二处理器的标识;根据所述第一收发信息,得到用于检测链路故障的第一故障检测数据包。
可选地,所述通信连接状态检测模块704具体用于,当所述第一处理器不在预设时长内接收所述第二处理器针对所述第一故障检测数据包发送的第二故障检测数据包时,检测所述第一处理器的高速互联接口的通信连接状态为单通异常。
可选地,所述第一故障检测数据包生成模块700具体用于,确定待发送内容;并根据所述待发送内容,确定第一数据包内容;根据所述第一数据包内容,生成第一故障检测数据包;
所述通信连接状态检测模块704具体用于,获取所述第一故障检测数据包中的第一数据包内容;接收所述第二处理器基于所述第一故障检测数据包返回的第二故障检测数据包;并获取所述第二故障检测数据包中的第二数据包内容;当所述第一数据包内容与所述第二数据包内容满足第一指定条件时,检测所述第一处理器的高速互联接口的通信连接状态为环回异常。
可选地,所述通信连接状态检测模块704具体用于,获取所述第一故障检测数据包中的所述第一收发信息;接收所述第二处理器基于所述第一故障检测数据包返回的第二故障检测数据包;并获取所述第二故障检测数据包中的第二收发信息;当所述第一收发信息与所述第二收发信息不满足第二指定条件时,检测所述第一处理器的高速互联接口的通信连接状态为环回异常。
可选地,所述通信连接状态检测模块704具体用于,若所述第一源信息与第二目标信息匹配,且所述第一目标信息与第二源信息匹配,则所述第一收发信息与所述第二收发信息满足第二指定条件,检测所述第一处理器的高速互联接口的通信连接状态为正常;若所述第一源信息与第二目标信息不匹配,或所述第一目标信息与第二源信息不匹配,所述第一收发信息与所述第二收发信息不满足第二指定条件,检测所述第一处理器的高速互联接口的通信连接状态为环回异常。
可选地,所述高速互联接口包括发送缓冲区、接收缓冲区、链路控制器、链路物理层。
本说明书提供了一种链路故障检测的装置,第一处理器通过高速互联接口与第二处理器通信;所述装置包括:
第一故障检测数据包接收模块,用于所述第二处理器通过所述高速互联接口接收所述第一处理器发送的第一故障检测数据包,其中,所述第一故障检测数据包为当所述第一处理器的高速互联接口的物理连接状态正常时发送的;
响应模块,用于根据所述第一故障检测数据包响应所述第一处理器,以使所述第一处理器根据所述第一故障检测数据包及所述第二处理器基于所述第一故障检测数据包的响应,检测所述第一处理器的高速互联接口的通信连接状态。
可选地,所述响应模块具体用于,获取所述第一故障检测数据包中的第一数据包内容;根据预设规则对所述第一数据包内容进行处理,得到第二数据包内容;根据所述第二数据包内容及预设的故障检测数据生成格式,生成第二故障检测数据包;将所述第二故障检测数据包发送至所述第一处理器,以使所述第一处理器根据所述第二故障检测数据包及所述第一故障检测数据包,检测所述第一处理器的高速互联接口的通信连接状态。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1提供的链路故障检测的方法。
本说明书还提供了图8所示的电子设备的结构示意图。如图8所示,在硬件层面,该无人驾驶设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的链路故障检测的方法。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device, PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、***或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (12)

1.一种链路故障检测的方法,其特征在于,第一处理器通过高速互联接口与第二处理器通信;所述方法包括:
根据预设的故障检测数据生成格式生成用于检测链路故障的第一故障检测数据包;
通过所述高速互联接口将所述第一故障检测数据包发送至所述第二处理器;
根据所述第一故障检测数据包及所述第二处理器基于所述第一故障检测数据包的响应,检测所述第一处理器的高速互联接口的通信连接状态。
2.如权利要求1所述的方法,其特征在于,根据所述第一故障检测数据包及所述第二处理器基于所述第一故障检测数据包的响应,检测所述第一处理器的高速互联接口的通信连接状态之前,所述方法还包括:
检测所述第一处理器的高速互联接口的物理连接状态;
当所述第一处理器的高速互联接口的物理连接状态正常时,根据所述第一故障检测数据包及所述第二处理器基于所述第一故障检测数据包的响应,检测所述第一处理器的高速互联接口的通信连接状态。
3.如权利要求1所述的方法,其特征在于,根据预设的故障检测数据生成格式生成用于检测链路故障的第一故障检测数据包,具体包括:
根据所述第一处理器的信息,确定第一收发信息中的第一源信息,所述第一源信息包括所述第一处理器的第一源端口信息及所述第一处理器的标识;
根据所述第二处理器的信息,确定第一收发信息中的第一目标信息,所述第一目标信息包括所述第二处理器的第一目标端口信息及第二处理器的标识;
根据所述第一收发信息,得到用于检测链路故障的第一故障检测数据包。
4.如权利要求1所述的方法,其特征在于,根据所述第一故障检测数据包及所述第二处理器基于所述第一故障检测数据包的响应,检测所述第一处理器的高速互联接口的通信连接状态,具体包括:
当所述第一处理器不在预设时长内接收所述第二处理器针对所述第一故障检测数据包发送的第二故障检测数据包时,检测所述第一处理器的高速互联接口的通信连接状态为单通异常。
5.如权利要求1所述的方法,其特征在于,根据预设的故障检测数据生成格式生成用于检测链路故障的第一故障检测数据包,具体包括:
确定待发送内容;并根据所述待发送内容,确定第一数据包内容;
根据所述第一数据包内容,生成第一故障检测数据包;
根据所述第一故障检测数据包及所述第二处理器基于所述第一故障检测数据包的响应,检测所述第一处理器的高速互联接口的通信连接状态,具体包括:
获取所述第一故障检测数据包中的第一数据包内容;
接收所述第二处理器基于所述第一故障检测数据包返回的第二故障检测数据包;并获取所述第二故障检测数据包中的第二数据包内容;
当所述第一数据包内容与所述第二数据包内容满足第一指定条件时,检测所述第一处理器的高速互联接口的通信连接状态为环回异常。
6.如权利要求3所述的方法,其特征在于,根据所述第一故障检测数据包及所述第二处理器基于所述第一故障检测数据包的响应,检测所述第一处理器的高速互联接口的通信连接状态,具体包括:
获取所述第一故障检测数据包中的所述第一收发信息;
接收所述第二处理器基于所述第一故障检测数据包返回的第二故障检测数据包;并获取所述第二故障检测数据包中的第二收发信息;
当所述第一收发信息与所述第二收发信息不满足第二指定条件时,检测所述第一处理器的高速互联接口的通信连接状态为环回异常。
7.如权利要求6所述的方法,其特征在于,检测所述第一处理器的高速互联接口的通信连接状态,具体包括:
若所述第一源信息与第二目标信息匹配,且所述第一目标信息与第二源信息匹配,则所述第一收发信息与所述第二收发信息满足第二指定条件,检测所述第一处理器的高速互联接口的通信连接状态为正常;
若所述第一源信息与第二目标信息不匹配,或所述第一目标信息与第二源信息不匹配,所述第一收发信息与所述第二收发信息不满足第二指定条件,检测所述第一处理器的高速互联接口的通信连接状态为环回异常。
8.如权利要求1所述的方法,其特征在于,所述高速互联接口包括发送缓冲区、接收缓冲区、链路控制器、链路物理层。
9.一种链路故障检测的方法,其特征在于,第一处理器通过高速互联接口与第二处理器通信;所述方法包括:
所述第二处理器通过所述高速互联接口接收所述第一处理器发送的第一故障检测数据包,其中,所述第一故障检测数据包为当所述第一处理器的高速互联接口的物理连接状态正常时发送的;
根据所述第一故障检测数据包响应所述第一处理器,以使所述第一处理器根据所述第一故障检测数据包及所述第二处理器基于所述第一故障检测数据包的响应,检测所述第一处理器的高速互联接口的通信连接状态。
10.如权利要求9所述的方法,其特征在于,根据所述第一故障检测数据包响应所述第一处理器,具体包括:
获取所述第一故障检测数据包中的第一数据包内容;
根据预设规则对所述第一数据包内容进行处理,得到第二数据包内容;
根据所述第二数据包内容及预设的故障检测数据生成格式,生成第二故障检测数据包;
将所述第二故障检测数据包发送至所述第一处理器,以使所述第一处理器根据所述第二故障检测数据包及所述第一故障检测数据包,检测所述第一处理器的高速互联接口的通信连接状态。
11.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~10任一项所述的方法。
12.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求1~10任一项所述的方法。
CN202311865723.3A 2023-12-29 2023-12-29 一种链路故障检测的方法、装置、存储介质及电子设备 Active CN117527637B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311865723.3A CN117527637B (zh) 2023-12-29 2023-12-29 一种链路故障检测的方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311865723.3A CN117527637B (zh) 2023-12-29 2023-12-29 一种链路故障检测的方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN117527637A true CN117527637A (zh) 2024-02-06
CN117527637B CN117527637B (zh) 2024-04-02

Family

ID=89753397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311865723.3A Active CN117527637B (zh) 2023-12-29 2023-12-29 一种链路故障检测的方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN117527637B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1855850A (zh) * 2005-04-19 2006-11-01 华为技术有限公司 一种环回的实现方法
CN101035028A (zh) * 2007-01-18 2007-09-12 华为技术有限公司 接错检测的方法和网络设备
CN108616418A (zh) * 2018-03-30 2018-10-02 新华三技术有限公司 检测故障的方法及装置
WO2021018122A1 (zh) * 2019-07-30 2021-02-04 北京大学 一种开放无线信道中的资源分配与接入方法
CN114896110A (zh) * 2022-05-20 2022-08-12 龙芯中科技术股份有限公司 链路检测方法、装置、设备和存储介质
CN115549775A (zh) * 2022-12-05 2022-12-30 北京百度网讯科技有限公司 光信号传输异常的处理方法、光传输设备及***
CN116647476A (zh) * 2023-04-27 2023-08-25 天津中科曙光存储科技有限公司 网络管理方法、装置、计算机设备、存储介质和程序产品

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1855850A (zh) * 2005-04-19 2006-11-01 华为技术有限公司 一种环回的实现方法
CN101035028A (zh) * 2007-01-18 2007-09-12 华为技术有限公司 接错检测的方法和网络设备
CN108616418A (zh) * 2018-03-30 2018-10-02 新华三技术有限公司 检测故障的方法及装置
WO2021018122A1 (zh) * 2019-07-30 2021-02-04 北京大学 一种开放无线信道中的资源分配与接入方法
CN114896110A (zh) * 2022-05-20 2022-08-12 龙芯中科技术股份有限公司 链路检测方法、装置、设备和存储介质
CN115549775A (zh) * 2022-12-05 2022-12-30 北京百度网讯科技有限公司 光信号传输异常的处理方法、光传输设备及***
CN116647476A (zh) * 2023-04-27 2023-08-25 天津中科曙光存储科技有限公司 网络管理方法、装置、计算机设备、存储介质和程序产品

Also Published As

Publication number Publication date
CN117527637B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN109688058B (zh) 报文处理方法、装置及网络设备
CN104699576B (zh) 串行通信测试装置、包括该装置的***及其方法
US11314418B2 (en) Extensible storage system and method
CN106878164A (zh) 一种报文传输方法和装置
CN112134772A (zh) 一种基于单线的传输数据方法及设备
US9208008B2 (en) Method and apparatus for multi-chip reduced pin cross triggering to enhance debug experience
CN114143140A (zh) 一种数据传输***、方法、存储介质及电子设备
EP3285173A1 (en) Cpu interconnecting apparatus, system and control method, control apparatus therefor
WO2014203036A1 (en) Method and apparatus for offloading functional data from an interconnect component
CN117527637B (zh) 一种链路故障检测的方法、装置、存储介质及电子设备
KR101637998B1 (ko) 에스피아이 통신 장치 및 방법
CN116069792A (zh) 一种数据库容灾***、方法、装置、存储介质及电子设备
CN115955432B (zh) 一种确定物理链路的方法、装置及电子设备
CN116743550B (zh) 一种分布式存储集群的故障存储节点的处理方法
CN112765915B (zh) 通信端口的连接方法、终端及存储介质
CN108241117B (zh) 用于测试半导体组件之***及方法
CN115208854B (zh) 基于dhcp的mlag动态双主检测方法、装置、设备及介质
US7483427B2 (en) Data driven type information processing apparatus and method of increasing transfer speed of data packet
CN116846517B (zh) 一种网络数据的传输方法、装置、存储介质及电子设备
CN113568863B (zh) 数据传输方法、路由节点、众核***、计算机可读介质
CN116127148B (zh) 一种数据可信存储方法、装置、存储介质及电子设备
US20230016684A1 (en) Communications Method and Related Apparatus
EP3631640A1 (en) Communication between field programmable gate arrays
US9081743B2 (en) Communication system and communicaton method
WO2024092944A1 (zh) 一种数据处理方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant