WO2021128977A1

WO2021128977A1 - 一种故障诊断方法及装置

Info

Publication number: WO2021128977A1
Application number: PCT/CN2020/116002
Authority: WO
Inventors: 徐海兵; 郭久明
Original assignee: 迈普通信技术股份有限公司
Priority date: 2019-12-24
Filing date: 2020-09-17
Publication date: 2021-07-01
Also published as: CN111030873A

Abstract

本公开涉及数据通信技术领域，提供一种故障诊断方法及装置。其中，故障诊断方法包括：中心服务器向探针客户端发送第一探测信息，第一探测信息包括业务服务器上运行的网络业务的地址；探针客户端根据第一探测信息对网络业务进行探测，获得业务度量信息；探针客户端向中心服务器发送业务度量信息；中心服务器根据业务度量信息以及预设规则确定故障发生位置。上述方法可一次性定位网络中发生故障的位置，无需对网络进行分段排查，从而能够快速完成故障诊断，尽可能降低故障对网络业务的影响。

Description

一种故障诊断方法及装置

相关申请的交叉引用

本公开要求于2019年12月24日提交中国专利局的申请号为CN201911346437.X、名称为“一种故障诊断方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本公开涉及数据通信技术领域，具体而言，涉及一种故障诊断方法及装置。

背景技术

随着网络设备的大幅增加以及网络服务的爆发性增长，网络故障的发生变为一种常态。网络故障一旦发生，其后果轻则导致节点或链路异常，重则导致网络服务完全瘫痪，因此，及时的定位故障并采取相应措施变得尤为重要。在现有方法中，排查网络故障往往采取由网络管理员分段排查网络的方式，其执行效率低下，导致网络业务受到比较严重的影响。

发明内容

有鉴于此，本公开实施例提供一种故障诊断方法及装置，以改善上述技术问题。

为实现上述目的，本公开提供如下技术方案：

第一方面，本公开实施例提供一种故障诊断方法，应用于中心服务器，所述方法包括：向探针客户端发送第一探测信息，所述第一探测信息包括业务服务器上运行的网络业务的地址；接收所述探针客户端发送的业务度量信息，所述业务度量信息由所述探针客户端在对所述网络业务进行探测后生成；根据所述业务度量信息以及预设规则确定故障发生位置。

上述方法在网络中部署探针客户端，中心服务器在故障发生后通过发送第一探测信息指示探针客户端进行故障探测，然后根据探针客户端返回的业务度量信息执行后续操作，即可一次性定位网络中发生故障的位置，无需对网络进行分段排查，从而能够快速完成故障诊断，尽可能降低故障对网络业务的影响。

在第一方面的一种实现方式中，所述故障发生位置包括：所述业务服务器、网络设备或网络链路。

上述三种故障发生位置基本涵盖了网络故障可能的发生地点，因此本公开提供的方法能够对网络故障进行较为全面的诊断。

在第一方面的一种实现方式中，所述根据所述业务度量信息以及预设规则确定故障发生位置，包括：若所述业务度量信息满足第一预设规则，则确定所述故障发生位置为所述业务服务器，否则确定所述故障发生位置为所述网络设备或所述网络链路；或者，若所述业务度量信息满足第一预设规则，则确定所述故障发生位置为所述业务服务器，否则若所述业务度量信息满足第二预设规则，则确定所述故障发生位置为所述网络设备或所述网络链路。

上述实现方式包含了两种故障定位方式，第一种方式是一种简单的二分法，即业务度量信息满足第一预设规则就认为是业务服务器故障，否则认为是网络设备或网络链路故障；第二种方式则设置两个条件(这两个条件最好设置为互斥的)，若业务度量信息满足第一预设规则就认为是业务服务器故障，若业务度量信息满足第二预设规则就认为是网络设备或网络链路故障。具体采用何种故障定位方式可以根据实际需求确定，对于网络设备或网络链路故障的，还可以进一步执行后续步骤，确定到底是网络设备故障还是网络链路故障。

在第一方面的一种实现方式中，所述业务度量信息包括所述探针客户端与所述业务服务器之间的网络时延以及所述业务服务器针对所述网络业务的处理时间；所述第一预设规则为：所述网络时延小于第一阈值且所述处理时间大于第二阈值；所述第二预设规则为：所述网络时延大于第三阈值。

若网络时延较短(小于第一阈值)，而处理时间较长(大于第二阈值)，则表明业务处理出现了问题，从而可以推定业务服务器故障；若网络时延较长(大于第三阈值)，则表明数据的网络传输出现了问题，从而可以推定网络设备或网络链路故障。以上规则设置简单，同时判断准确率高。

在第一方面的一种实现方式中，所述方法还包括：若所述故障发生位置为所述业务服务器，则向所述业务服务器收集第一故障信息，并根据所述第一故障信息以及第三预设规则确定所述业务服务器的故障原因。

在定位到业务服务器故障后，还可以进一步从发生故障的业务服务器收集第一故障信息，进而分析故障原因，以便网络管理人员及时掌握故障状况，快速解决故障。

在第一方面的一种实现方式中，所述第一预设规则、所述第二预设规则以及所述第三预设规则保存在所述中心服务器的知识库中。

知识库可以视为若干与网络故障相关的规则的集合，便于对这些规则进行统一管理。中心服务器的知识库泛指中心服务器可以访问的知识库，即知识库可以部署在中心服务器本地，但也不排除将其部署在中心服务器能够访问的其他设备上。知识库中规则的表示方式不限定，例如可以采用产生式、框架或语义网络等知识表示方法。

在第一方面的一种实现方式中，所述根据所述业务度量信息以及预设规则确定故障发生位置，还包括：若所述故障发生位置为所述网络设备或所述网络链路，则向所述探针客户端发送第二探测信息，所述第二探测信息包括所述业务服务器的地址；接收所述探针客户端发送的故障位置信息，所述故障位置信息由所述探针客户端在对自身与所述业务服务器之间的网络进行探测后生成，所述故障位置信息包括疑似故障的网络设备的地址以及该网络设备的下一跳的地址；根据所述故障位置信息向所述疑似故障的网络设备以及该网络设备的下一跳收集第二故障信息，并根据所述第二故障信息以及第四预设规则确定所述故障发生位置为所述疑似故障的网络设备、该网络设备的下一跳或二者之间的网络链路。

若在之前的步骤中判断出故障发生位置为网络设备或网络链路，还可以进一步具体判断是哪个网络设备或哪段网络链路发生了故障，在精确定位故障时仍然可以利用探针客户端，即探针客户端至少包含两类探测功能，一类是探测业务，一类是探测网络，前一项功能在前文已经提到，后一项功能本实现方式中利用到的功能。

探针客户端探测网络后向中心服务器返回的故障位置信息，中心服务器向故障位置信息中指示的网络设备收集第二故障信息后，即可根据第二故障信息与第四预设规则的匹配关系对故障进行精确定位(定位到某个网络设备或某段网络链路)，另外，由于第二故障信息中也可能包含了故障原因的描述，因此中心服务器在利用第二故障信息定位故障的同时还有可能同时分析出故障原因。

第二方面，本公开实施例提供一种故障诊断方法，应用于探针客户端，所述方法包括：接收中心服务器发送的第一探测信息，所述第一探测信息包括业务服务器上运行的网络业务的地址；根据所述第一探测信息对所述网络业务进行探测，获得业务度量信息；向所述中心服务器发送所述业务度量信息。

在第二方面的一种实现方式中，所述方法还包括：接收所述中心服务器发送的第二探测信息，所述第二探测信息包括所述业务服务器的地址；根据所述第二探测信息对所述探针客户端与所述业务服务器之间的网络进行探测，获得故障位置信息，所述故障位置信息包括疑似故障的网络设备的地址以及该网络设备的下一跳的地址；向所述中心服务器发送所述故障位置信息。

在第二方面的一种实现方式中，所述探针客户端部署在网络中靠近用户侧的网络设备上。

理论上探针客户端可以部署在网络中的任何位置，但多数情况下，网络故障由用户直接感知(例如，用户访问某个网站发现速度很慢或者完全无法访问)，因此，将探针客户端部署在网络中靠近用户侧的网络设备上能够更好地模拟用户终端对业务服务器的访问，其探测得到的信息也更具实用价值，有利于故障定位及故障原因分析。例如，探针客户端可以部署在边缘网络设备或者汇聚网络设备上。

第三方面，本公开实施例提供一种故障诊断装置，配置于中心服务器，所述装置包括：第一信息发送模块，用于向探针客户端发送第一探测信息，所述第一探测信息包括业务服务器上运行的网络业务的地址；第一信息接收模块，用于接收所述探针客户端发送的业务度量信息，所述业务度量信息由所述探针客户端在对所述网络业务进行探测后生成；故障诊断模块，用于根据所述业务度量信息以及预设规则确定故障发生位置。

第四方面，本公开实施例提供一种故障诊断装置，配置于探针客户端，所述装置包括：第二信息接收模块，用于接收中心服务器发送的第一探测信息，所述第一探测信息包括业务服务器上运行的网络业务的地址；探测模块，用于根据所述第一探测信息对所述网络业务进行探测，获得业务度量信息；第二信息发送模块，用于向所述中心服务器发送所述业务度量信息。

第五方面，本公开实施例提供一种电子设备，包括存储器以及处理器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器读取并运行时，执行第一方面、第二方面或以上两方面的任意一种可能的实现方式提供的方法。

第六方面，本公开实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行第一方面、第二方面或以上两方面的任意一种可能的实现方式提供的方法。

为使本公开的上述目的、技术方案和有益效果能更明显易懂，下文特举实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了一种可应用本公开实施例提供故障诊断方法的网络的拓扑结构图；

图2示出了本公开实施例提供的一种故障诊断方法的流程图；

图3示出了本公开实施例提供的一种故障诊断装置的功能模块图；

图4示出了本公开实施例提供的另一种故障诊断装置的功能模块图；

图5示出了本公开实施例提供的一种电子设备的结构图。

具体实施方式

随着网络环境的日益复杂，网络故障的发生频率也越来越高。在对照实施例中，网络管理人员通过对网络进行分段排查的方式定位网络故障并分析故障原因。发明人经长期研究发现，此种方式在进行大量尝试后虽然也能定位故障点，但排查故障过程效率太低，使得因网络故障而受到影响的网络业务迟迟不能恢复。

对照实施例中存在的上述缺陷，是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开实施例针对上述问题所提出的解决方案，都应该是发明人在发明过程中对本发明做出的贡献。

下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚且完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。

需要指出，在本公开的描述中，术语“第一”和“第二”等仅用于将一个实体或者操作与另一个实体或操作区分开来，而不能理解为指示或暗示相对重要性，也不能理解为要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

图1示出了一种可应用本公开实施例提供故障诊断方法的网络的拓扑结构图。参照图1，该网络中包括本公开方法所涉及的几种实体：中心服务器110、探针客户端120、网络设备130(图1中示出了两台，分别是网络设备A和网络设备B)、网络链路140以及业务服务器150。带箭头的连接线表示这些实体之间可能存在的数据交互关系。可以理解的，这些实体的数量以及相互之间的拓扑关系并不限于图1所示，图1仅仅是一个简单的示例而已。

其中，故障诊断(包括故障定位和故障原因分析等)的主要步骤在中心服务器110上进行。探针客户端120用于根据中心服务器110的指示进行探测并将探测结果返回给中心服务器，辅助中心服务器110完成故障诊断。业务服务器150用于运行网络业务，例如网页服务等。用户可以使用终端设备访问业务服务器150上的网络业务，例如进行网页浏览等。用户终端在访问网络业务的过程中，报文可能会经过网络中的网络设备130以及网络链路140，这里的网络设备130可能是路由器或交换机等。

中心服务器110以及探针客户端120可以独立部署，当然也可以部署在某台网络设备130上。特别地，虽然理论上探针客户端120可以部署在网络中的任何位置，但多数情况下，网络故障由用户直接感知(例如，用户访问某个网站发现速度很慢或者完全无法访问)，因此，若将探针客户端120部署在网络中靠近用户侧的网络设备130上，可以认为探针客户端120和用户终端处于或基本处于同一网络环境中，从而探针客户端120的探测行为能够更好地模拟用户终端对业务服务器150的实际访问行为，其探测得到的信息也更具实用价值，有利于故障定位及故障原因分析。

例如，对于传统的三层网络架构(接入层、汇聚层和核心层)，探针客户端120可以部署在边缘网络设备(位于接入层)或者汇聚网络设备(位于汇聚层)上。当然，目前也有一些网络并未采用传统的三层架构，这时将探针客户端120部署在靠近用户侧的网络设备130上就可以了。此外，上面也提到，探针客户端120也可以独立部署，例如部署在一台独立的服务器上，该服务器和用户终端接入同一网络设备。

关于探针客户端120部署的时机不作限定：例如，可以预先部署好，但在需要进行故障诊断时才使用探针客户端120；又例如，也可以在发现故障后才部署探针客户端120用于故障诊断。

图2示出了本公开实施例提供的一种故障诊断方法的流程图。参照图2，该方法包括：

步骤S210：中心服务器向探针客户端发送第一探测信息。

步骤S210可以开始于发现网络故障的现象(例如，用户发现网络业务无法使用或者响应速度很慢)之后。第一探测信息用于指示探测客户端如何探测网络业务，第一探测信息中至少包括业务服务器上运行的网络业务的地址，还可以包括探测频率、探测模式等内容。

其中，网络业务的地址可以是一个网址，例如一个http开头或https开头对应的网址(分别对应一项http业务和一项https业务)，网络业务的地址也可以是SFTP或RSTP等协议地址，但在后文阐述时为简单起见仍然以网址为例；探测频率是指探针客户端每次进行探测的时间间隔；探测模式是指探针客户端进行探测的方式，例如，永久持续探测、在一段时间内持续探测或者单次探测等。第一探测信息的内容可以根据用户的诊断需求确定，当然也可以采用默认的取值。

步骤S220：探针客户端根据第一探测信息对网络业务进行探测，获得业务度量信息。

探针客户端接收到第一探测信息后，根据第一探测信息中指定的网络业务的地址、探测频率或探测模式等进行业务探测，获得业务度量信息。业务度量信息可以用于表征用户体验到的网络业务的品质：例如，业务度量信息可以包括探针客户端与业务服务器之间的网络时延(比如，TCP连接建立时间或SSL三次握手时间)、探针客户端与业务服务器之间针对被探测业务的传输时延(比如，页面传输时间)或者业务服务器针对被探测业务的处理时间(业务服务器对业务请求的处理时间)等。

步骤S230：探针客户端向中心服务器发送业务度量信息。

步骤S240：中心服务器根据业务度量信息以及预设规则确定故障发生位置。

中心服务器接收到业务度量信息后，利用业务度量信息的内容以及预设规则，便可以确定网络中发生故障的位置。故障发生位置至少包括业务服务器、网络设备或网络链路三种可能的位置，这三种位置基本涵盖了网络故障可能的发生地点，因此本公开提供的方法能够对网络故障进行全面定位。

其中，预设规则可以包括后文所说的第一预设规则、第二预设规则、第三预设规则或第四预设规则等。在一种实现方式中，这些和网络故障相关的预设规则保存在中心服务器的知识库中。知识库可以视为大量规则的集合，从而便于对这些规则进行统一管理。所谓中心服务器的知识库，泛指中心服务器可以访问的知识库，即知识库可以部署在中心服务器本地，但也不排除将其部署在中心服务器能够访问的其他设备上。知识库中规则的表示方式不限定，例如可以采用产生式、框架或语义网络等知识表示方法。还需要指出，可以所有的规则都保存在一个知识库中，也可以形成多个知识库，例如第三预设规则中的多条规则可以形成一个独立的知识库。当然，预设规则也可以使用知识库之外的形式保存。

对于故障发生位置的确定，可能只需要将业务度量信息与某个预设规则进行匹配即可完成(如业务服务器故障，具体见后文)，但根据故障类型的不同，也可能涉及更复杂后续的操作(如网络设备或网络链路故障，具体见后文)，当然这些后续操作也是由中心服务器所接收到的业务度量信息所触发，也会利用某些预设规则进行判断，因此步骤S240可以理解为对故障定位的一个总体概括，其具体实现则可能比较复杂，例如下面的步骤S241a至步骤S246给出了步骤S240的一种可能的实现方式。需要指出，虽然这些步骤中有的并不是中心服务器的行为(上文中步骤S240由中心服务器执行)，但应当理解的是，这些步骤都是在中心服务器的驱动之下执行的，最终的诊断结果(包括故障发生位置在内)也在中心服务器上产生，因此在图2中将其表示为步骤S240的子步骤也是合理的。

在一些实现方式中，中心服务器在利用业务度量信息进行故障诊断之前，可能还需要先对业务度量信息进行预处理，预处理可能包含解密、解码、格式转换或消除冗余(冗余信息指和故障诊断无关的信息)等操作中的一项或几项。

步骤S241a：中心服务器确定故障发生位置为业务服务器。

步骤S241b：中心服务器确定故障发生位置为网络设备或网络链路。

对以上两个步骤合并阐述。之前已经提到，故障发生位置至少包括业务服务器、网络设备或网络链路三种可能，在步骤S241a中可以将故障定位到业务服务器，而在步骤S241b中则可以将故障定位到网络设备或网络链路，但具体是网络设备还是网络链路则需要在后续步骤中进一步确定。以上两个步骤至少有以下两种实现方式：

方式一：若业务度量信息满足第一预设规则，则确定故障发生位置为业务服务器，否则确定故障发生位置为网络设备或网络链路。

方式一是一种简单的二分法，判断故障发生位置的条件只有第一预设规则这一单一条件。作为一种可选的方案，第一预设规则可以是：探针客户端与业务服务器之间的网络时延小于第一阈值且业务服务器针对被探测业务的处理时间大于第二阈值。该规则的内在逻辑是：若网络时延较短(小于第一阈值)，而处理时间较长(大于第二阈值)，则表明业务处理出现了问题，从而可以推定业务服务器故障，否则不是业务处理导致了故障，故障应发生在网络设备或者网络链路上。

例如，对于http业务而言，网络时延可以是探针客户端与业务服务器之间的TCP连接建立时间。又例如，对于https业务而言，网络时延可以是探针客户端与业务服务器之间的TCP连接建立时间或者SSL三次握手时间，当然也可以同时采用这两个时间，例如，若TCP连接建立时间小于某个预设值，并且，SSL三次握手时间也小于某个预设值，并且，处理时间大于第二阈值才认为是业务服务器故障。

方式二：若业务度量信息满足第一预设规则，则确定故障发生位置为业务服务器，否则若业务度量信息满足第二预设规则，则确定故障发生位置为网络设备或网络链路。

方式二在判断故障发生位置时使用两个条件，分别是第一预设规则和第二预设规则，这两个条件最好设置成互斥的以避免在两个条件下的故障定位结果出现冲突。第一预设规则可以是：探针客户端与业务服务器之间的网络时延小于第一阈值且业务服务器针对被探测业务的处理时间大于第二阈值；第二预设规则可以是：探针客户端与业务服务器之间的网络时延大于第三阈值。这两项规则的内在逻辑是：若网络时延较短(小于第一阈值)，而处理时间较长(大于第二阈值)，则表明业务处理出现了问题，从而可以推定业务服务器故障；否则，若网络时延较长(大于第三阈值)，则表明数据的网络传输出现了问题，从而可以推定网络设备或网络链路故障。为满足上面所说的条件互斥，第二预设规则中的第三阈值可以取不小于第一阈值的某个值。关于网络时延的具体实现，在介绍方式一时已经说明，不再重复。

无论是方式一还是方式二，其规则设置都比较简单，可以快速完成对业务服务器故障的准确定位，对于网络设备或网络链路的故障定位，则可以在后续步骤中进行。当然，也不排在某些应用场景中，只需要确定业务服务器是否出现故障，对于其他位置的故障则不关心，此时就不需要定位网络设备或网络链路的故障了。在图1中，业务服务器的故障标记为X1。

步骤S242：中心服务器向业务服务器收集第一故障信息，并根据第一故障信息以及第三预设规则确定业务服务器的故障原因。

在步骤S141a中将故障定位到业务服务器后，中心服务器还可以进一步分析得到业务服务器发生故障的原因。严格来说分析故障原因的步骤S242并不属于定位故障的步骤S240的一部分，但为简单起见也一并阐述。

中心服务器可以向发生故障的业务服务器发送请求，指示业务服务器收集第一故障信息，并将第一故障信息返回给中心服务器。第一故障信息可以包括，但不限于业务服务器的处理器信息、内存信息、日志信息、网络接口流量信息或进程信息等。中心服务器获得第一故障信息后，可以将其与第三预设规则进行匹配，若匹配上某条第三预设规则，就可以对应得到故障原因。例如，第三预设规则中的一条规则为：若处理器占用情况在长时间内处于较高水平，则确认业务服务器的故障原因为服务器性能瓶颈问题，若中心服务器收到的第一故障信息中的处理器信息能够匹配上这条规则，中心服务器便可以确认故障原因为业务服务器性能瓶颈。分析出故障原因后，网络管理人员可以及时掌握故障状况，从而采取合理的对策快速排除故障。

步骤S243：中心服务器向探针客户端发送第二探测信息。

在步骤S141b中将故障定位到网络设备或网络链路后，中心服务器可以向探针客户端发送第二探测信息，并执行后续步骤，以便对网络故障进行精确定位。第二探测信息用于指示探测客户端如何探测网络状况，第二探测信息中包括业务服务器的地址，还可以包括探测频率或探测模式等内容。

其中，业务服务器的地址可以是IP地址，在阐述步骤S210时提到，中心服务器可以向探针客户端发送业务网址，探针客户端在探测业务前会首先利用DNS解析得到业务服务器的IP地址，在探针客户端向中心服务器返回业务度量信息时，也可以将该IP地址一并返回，从而中心服务器可以在步骤S243中使用该IP地址。当然，也不排除中心服务器自己利用DNS解析得到业务服务器的IP地址的实现方式。关于探测频率和探测模式，前文已经阐述，不再重复。

步骤S244：探针客户端根据第二探测信息对探针客户端与业务服务器之间的网络进行探测，获得故障位置信息。

探针客户端接收到第二探测信息后，根据第二探测信息中指定的业务服务器的地址、探测频率或探测模式等进行网络探测，获得故障位置信息。故障位置信息用于描述故障发生的大***置(但还不是最终位置)。在一种实现方式中，故障位置信息可以包括疑似故障的网络设备的地址以及该网络设备的下一跳的地址(如果没有下一跳则无需包含此项)，即故障可能发生于该疑似故障的网络设备上，或者该疑似故障的网络设备的下一跳上，或者两者之间的网络链路上。其中，疑似故障的网络设备是指表现出某些故障特征的设备，但有时表现出故障的特征，并不一定是设备本身故障，也有可能是设备周边的网络环境造成的，所以在故障位置信息中将下一跳网络设备的地址也包含在其中，有利于定位到真实的故障源。

以图1为例，探针客户端探测自身与业务服务器之间的网络，可以调用traceroute或ping等现有工具，若探测到网络设备A疑似发生故障，则在向中心服务器发送的故障位置信息中既要包含网络设备A的IP地址，也要包含其下一跳即网络设备B的IP地址。

对比步骤S244和步骤S220不难发现，探针客户端至少包含两类探测功能，一类是探测业务(步骤S220)，一类是探测网络(步骤S244)。

步骤S245：探针客户端向中心服务器发送故障位置信息。

步骤S246：中心服务器根据故障位置信息向疑似故障的网络设备以及该网络设备的下一跳收集第二故障信息，并根据第二故障信息以及第四预设规则确定故障发生位置。

在一些实现方式中，中心服务器在利用故障位置信息进行故障诊断之前，可能还需要先对故障位置信息进行预处理，可能的预处理方式在步骤S240处已经介绍，不再重复。

中心服务器可以向疑似故障的网络设备以及该网络设备的下一跳分别发送请求，指示这两台设备收集第二故障信息，并将第二故障信息返回给中心服务器。第二故障信息可以包括，但不限于网络设备的路由表信息、设备配置信息或操作***信息等。需要注意，两台网络设备并不一定要返回种类相同的信息，例如，网络设备A可以返回路由表信息以及设备配置信息，网络设备B可以返回操作***信息，总之，返回的第二故障信息可以根据需求进行组合。

中心服务器获得第二故障信息后，可以将其与第四预设规则进行匹配，若匹配上某条第四预设规则，就可以对应得到故障位置。在第四预设规则中也可以指定一些用于确定故障位置的操作，在规则匹配的过程中这些操作被执行。可能的故障位置如前所述，包括疑似故障的网络设备以及疑似故障的网络设备的下一跳或者两者之间的网络链路。

例如，第四预设规则中的一条规则为：查询疑似故障的网络设备的路由表，判断该网络设备到业务服务器的目的路由是否存在，若目的路由不存在，则确认该疑似故障的网络设备是故障发生位置；若目的路由存在，则触发该疑似故障的网络设备与其下一跳之间进行单向环回检测，若检测结果为失败，则确认该疑似故障的网络设备和其下一跳之间的网络链路是故障发生位置。

中心服务器收到第二故障信息后，可以查询其中的疑似故障的网络设备的路由表，然后将查询结果与上述规则进行匹配，若匹配上目的路由不存在的规则，则确认疑似故障的网络设备为故障发生位置，同时还可以确认故障原因是路由表项缺失；若匹配上目的路由存在的规则，则进行单项环回检测，然后再将检测结果与上述规则进行进一步匹配，若匹配上检测结果失败的规则，则表明检测源(疑似故障的网络设备)与检测目的(下一跳设备)之间的网络链路不通，从而确认该疑似故障的网络设备和其下一跳之间的网络链路为故障发生位置，当然故障原因就是链路不通。

通过上面的阐述可知，由于第二故障信息中可能包含了某些对故障原因的描述信息，因此中心服务器在利用第二故障信息定位故障的同时还有可能同时分析出故障原因，不必再如同业务服务器故障时单独进行故障原因分析。当然，上面得到的故障原因可能只是初步的原因，例如，对于路由表项缺失，中心服务器还可以根据第二故障信息进一步分析是什么原因导致了路由表项缺失，分析方法也可以采用规则匹配的方法，不再具体说明。

在图1中，若网络设备A的路由表中到业务服务器的表项缺失，则故障发生位置为网络设备A，标记为X2；若表项未缺失，但网络设备A和B之间的单向环回检测失败，则故障发生位置为网络设备A和B之间的链路，标记为X3。

综上所述，本公开实施例提供的故障诊断方法在网络中部署探针客户端，故障发生后，中心服务器通过发送第一探测信息指示探针客户端进行故障探测，然后根据探针客户端返回的业务度量信息执行后续操作，即可一次性定位网络中发生故障的位置，无需对网络进行分段排查，从而能够快速完成故障诊断，尽可能降低故障对网络业务的影响。在该方法的某些实现方式中，中心服务器还可以通过分析进一步确定故障发生原因，从而有利于故障的尽快排除。

图3示出了本公开实施例提供的一种故障诊断装置300的功能模块图。该装置配置于中心服务器，包括：

第一信息发送模块310，用于向探针客户端发送第一探测信息，所述第一探测信息包括业务服务器上运行的网络业务的地址；

第一信息接收模块320，用于接收所述探针客户端发送的业务度量信息，所述业务度量信息由所述探针客户端在对所述网络业务进行探测后生成；

故障诊断模块330，用于根据所述业务度量信息以及预设规则确定故障发生位置。

在故障诊断装置300的一种实现方式中，所述故障发生位置包括：所述业务服务器、网络设备或网络链路。

在故障诊断装置300的一种实现方式中，故障诊断模块330根据所述业务度量信息以及预设规则确定故障发生位置，包括：若所述业务度量信息满足第一预设规则，则确定所述故障发生位置为所述业务服务器，否则确定所述故障发生位置为所述网络设备或所述网络链路；或者，若所述业务度量信息满足第一预设规则，则确定所述故障发生位置为所述业务服务器，否则若所述业务度量信息满足第二预设规则，则确定所述故障发生位置为所述网络设备或所述网络链路。

在故障诊断装置300的一种实现方式中，所述业务度量信息包括所述探针客户端与所述业务服务器之间的网络时延以及所述业务服务器针对所述网络业务的处理时间；所述第一预设规则为：所述网络时延小于第一阈值且所述处理时间大于第二阈值；所述第二预设规则为：所述网络时延大于第三阈值。

在故障诊断装置300的一种实现方式中，故障诊断模块330还用于：若所述故障发生位置为所述业务服务器，则向所述业务服务器收集第一故障信息，并根据所述第一故障信息以及第三预设规则确定所述业务服务器的故障原因。

在故障诊断装置300的一种实现方式中，所述第一预设规则、所述第二预设规则以及所述第三预设规则保存在所述中心服务器的知识库中。

在故障诊断装置300的一种实现方式中，故障诊断模块330根据所述业务度量信息以及预设规则确定故障发生位置，还包括：若所述故障发生位置为所述网络设备或所述网络链路，则向所述探针客户端发送第二探测信息，所述第二探测信息包括所述业务服务器的地址；接收所述探针客户端发送的故障位置信息，所述故障位置信息由所述探针客户端在对自身与所述业务服务器之间的网络进行探测后生成，所述故障位置信息包括疑似故障的网络设备的地址以及该网络设备的下一跳的地址；根据所述故障位置信息向所述疑似故障的网络设备以及该网络设备的下一跳收集第二故障信息，并根据所述第二故障信息以及第四预设规则确定所述故障发生位置为所述疑似故障的网络设备、该网络设备的下一跳或二者之间的网络链路。

本公开实施例提供的故障诊断装置300，其实现原理及产生的技术效果在前述方法实施例中已经介绍，为简要描述，装置实施例部分未提及之处，可参考前述方法施例中相应内容。

图4示出了本公开实施例提供的一种故障诊断装置400的功能模块图。该装置配置于探针客户端，包括：

第二信息接收模块410，用于接收中心服务器发送的第一探测信息，所述第一探测信息包括业务服务器上运行的网络业务的地址；

探测模块420，用于根据所述第一探测信息对所述网络业务进行探测，获得业务度量信息；

第二信息发送模块430，用于向所述中心服务器发送所述业务度量信息。

在故障诊断装置400的一种实现方式中，第二信息接收模块410还用于：接收所述中心服务器发送的第二探测信息，所述第二探测信息包括所述业务服务器的地址；

探测模块420还用于：根据所述第二探测信息对所述探针客户端与所述业务服务器之间的网络进行探测，获得故障位置信息，所述故障位置信息包括疑似故障的网络设备的地址以及该网络设备的下一跳的地址；

第二信息发送模块430还用于：向所述中心服务器发送所述故障位置信息。

在故障诊断装置400的一种实现方式中，所述探针客户端部署在网络中靠近用户侧的网络设备上。

图5示出了本公开实施例提供的电子设备500的一种可能的结构。参照图5，电子设备500包括：处理器510、存储器520以及通信接口530，这些组件通过通信总线540和/或其他形式的连接机构(未示出)互连并相互通讯。

存储器520中存储有计算机程序指令，这些计算机程序指令被处理器510读取并运行时，执行本公开实施例提供的故障诊断方法及其他期望的功能。通信接口530则用于电子设备500与其他设备进行通信。

可以理解，图5所示的结构仅为示意，电子设备500还可以包括比图5中所示更多或者更少的组件，或者具有与图5所示不同的配置。图5中所示的各组件可以采用硬件、软件或其组合实现。例如，图1中的中心服务器110以及部署探针客户端120的设备都可以采用电子设备500实现。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令，计算机程序指令被处理器读取并运行时，执行本公开实施例提供的故障诊断方法的步骤。例如，该计算机可读存储介质可以是，但不限于图5中电子设备500的存储器520。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

一种故障诊断方法，其特征在于，应用于中心服务器，所述方法包括：

向探针客户端发送第一探测信息，所述第一探测信息包括业务服务器上运行的网络业务的地址；

接收所述探针客户端发送的业务度量信息，所述业务度量信息由所述探针客户端在对所述网络业务进行探测后生成；

根据所述业务度量信息以及预设规则确定故障发生位置。
根据权利要求1所述的故障诊断方法，其特征在于，所述故障发生位置包括：所述业务服务器、网络设备或网络链路。
根据权利要求2所述的故障诊断方法，其特征在于，所述根据所述业务度量信息以及预设规则确定故障发生位置，包括：

若所述业务度量信息满足第一预设规则，则确定所述故障发生位置为所述业务服务器，否则确定所述故障发生位置为所述网络设备或所述网络链路；

或者，

若所述业务度量信息满足第一预设规则，则确定所述故障发生位置为所述业务服务器，否则若所述业务度量信息满足第二预设规则，则确定所述故障发生位置为所述网络设备或所述网络链路。
根据权利要求3所述的故障诊断方法，其特征在于，所述业务度量信息包括所述探针客户端与所述业务服务器之间的网络时延以及所述业务服务器针对所述网络业务的处理时间；

所述第一预设规则为：所述网络时延小于第一阈值且所述处理时间大于第二阈值；

所述第二预设规则为：所述网络时延大于第三阈值。
根据权利要求3所述的故障诊断方法，其特征在于，所述方法还包括：

若所述故障发生位置为所述业务服务器，则向所述业务服务器收集第一故障信息，并根据所述第一故障信息以及第三预设规则确定所述业务服务器的故障原因。
根据权利要求5所述的故障诊断方法，其特征在于，所述第一预设规则、所述第二预设规则以及所述第三预设规则保存在所述中心服务器的知识库中。
根据权利要求3所述的故障诊断方法，其特征在于，所述根据所述业务度量信息以及预设规则确定故障发生位置，还包括：

若所述故障发生位置为所述网络设备或所述网络链路，则向所述探针客户端发送第二探测信息，所述第二探测信息包括所述业务服务器的地址；

接收所述探针客户端发送的故障位置信息，所述故障位置信息由所述探针客户端在对自身与所述业务服务器之间的网络进行探测后生成，所述故障位置信息包括疑似故障的网络设备的地址以及该网络设备的下一跳的地址；

根据所述故障位置信息向所述疑似故障的网络设备以及该网络设备的下一跳收集第二故障信息，并根据所述第二故障信息以及第四预设规则确定所述故障发生位置为所述疑似故障的网络设备、该网络设备的下一跳或二者之间的网络链路。
一种故障诊断方法，其特征在于，应用于探针客户端，所述方法包括：

接收中心服务器发送的第一探测信息，所述第一探测信息包括业务服务器上运行的网络业务的地址；

根据所述第一探测信息对所述网络业务进行探测，获得业务度量信息；

向所述中心服务器发送所述业务度量信息。
根据权利要求8所述的故障诊断方法，其特征在于，所述方法还包括：

接收所述中心服务器发送的第二探测信息，所述第二探测信息包括所述业务服务器的地址；

根据所述第二探测信息对所述探针客户端与所述业务服务器之间的网络进行探测，获得故障位置信息，所述故障位置信息包括疑似故障的网络设备的地址以及该网络设备的下一跳的地址；

向所述中心服务器发送所述故障位置信息。
根据权利要求8或9所述的故障诊断方法，其特征在于，所述探针客户端部署在网络中靠近用户侧的网络设备上。
一种故障诊断装置，其特征在于，配置于中心服务器，所述装置包括：

第一信息发送模块，用于向探针客户端发送第一探测信息，所述第一探测信息包括业务服务器上运行的网络业务的地址；

第一信息接收模块，用于接收所述探针客户端发送的业务度量信息，所述业务度量信息由所述探针客户端在对所述网络业务进行探测后生成；

故障诊断模块，用于根据所述业务度量信息以及预设规则确定故障发生位置。
一种故障诊断装置，其特征在于，配置于探针客户端，所述装置包括：

第二信息接收模块，用于接收中心服务器发送的第一探测信息，所述第一探测信息包括业务服务器上运行的网络业务的地址；

探测模块，用于根据所述第一探测信息对所述网络业务进行探测，获得业务度量信息；

第二信息发送模块，用于向所述中心服务器发送所述业务度量信息。