CN114172796B - 通信网络的故障定位方法及相关装置 - Google Patents

通信网络的故障定位方法及相关装置 Download PDF

Info

Publication number
CN114172796B
CN114172796B CN202111603641.2A CN202111603641A CN114172796B CN 114172796 B CN114172796 B CN 114172796B CN 202111603641 A CN202111603641 A CN 202111603641A CN 114172796 B CN114172796 B CN 114172796B
Authority
CN
China
Prior art keywords
network
switches
flow
switch
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111603641.2A
Other languages
English (en)
Other versions
CN114172796A (zh
Inventor
霍江游
张勇
李骢
许广洋
徐晨灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202111603641.2A priority Critical patent/CN114172796B/zh
Publication of CN114172796A publication Critical patent/CN114172796A/zh
Application granted granted Critical
Publication of CN114172796B publication Critical patent/CN114172796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/55Prevention, detection or correction of errors
    • H04L49/555Error detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了的一种通信网络的故障定位方法及相关装置可用于信息安全技术领域或其他领域。本申请提供的技术方案中,通信网络包括第一端侧设备、第二端侧设备和N个交换机,第一端侧设备和第二端侧设备通过N个交换机进行数据流的传输,N为正整数,获取数据流流经N个交换机中S个交换机中的每个交换机时的网络流量,S为小于或等于N的正整数;根据数据流流经S个交换机中每个交换机时的网络流量确定数据流的网络流量出现异常的P个交换机,P为小于或等于S的正整数;再根据P个交换机中每个交换机在通信网络中的位置和数据流在P个交换机中每个交换机的网络流量信息,对通信网络中的网络故障进行定位。

Description

通信网络的故障定位方法及相关装置
技术领域
本申请涉及信息安全技术领域,尤其涉及一种通信网络的故障定位方法及相关装置。
背景技术
网络的本质是通信,提供一条通道来保证信息从源端准确无误地发送到目的端。网络由若干节点和连接这些节点的链路组成,网络中的节点可以是计算机、交换机、路由器或移动终端等。在网络运行过程中,各级节点可以自动切换路径,建立数据交换的通道,但在此过程中,可能会出现丢包或延迟等网络故障。为了保证网络的正常运行,需要及时处理网络中出现的各种故障,而解决网络故障的首要任务就是对网络故障进行定位。
因此,如何对通信网络的故障进行定位成为了亟待解决的问题。
发明内容
本申请提供了一种通信网络的故障定位方法及相关装置,实现了对网络故障的实时定位。
第一方面,本申请提供了一种通信网络的故障定位方法,所述通信网络包括第一端侧设备、第二端侧设备和N个交换机,所述第一端侧设备和所述第二端侧设备通过所述N个交换机进行数据流的传输,N为正整数,所述方法包括:获取所述数据流流经所述N个交换机中S个交换机中的每个交换机时的网络流量,S为小于或等于N的正整数;根据所述数据流流经所述S个交换机中每个交换机时的网络流量确定所述数据流的网络流量出现异常的P个交换机,P为小于或等于S的正整数;根据所述P个交换机中所述每个交换机在所述通信网络中的位置和所述数据流在所述P个交换机中每个交换机的网络流量信息,对所述通信网络中的网络故障进行定位,所述网络流量信息包括至少一个通信指标中每个指标的值。
本方法中,通信网络中的第一端侧设备和第二端侧设备之间通过N个交换机进行数据流的传输,根据获取的数据流流经N个交换机中S个交换机中的每个交换机时的网络流量确定该数据流的网络流量出现异常的P个交换机,再根据该P个交换机中每个交换机在该通信网络中的位置和该数据流在P个交换机中每个交换机的流量信息,对通信网络中的网络故障进行定位,其中,N、S和P均为正整数,且N≥S≥P,解决了通信网络中网络故障的定位问题。另外,当根据获取的数据流流经每个交换机时的网络流量确定该数据流流经的交换机中存在异常交换机时,立即触发网络故障定位流程,提高了通信网络的故障定位的效率和实时性。
在一种可能的实现方式中,所述获取所述数据流流经所述N个交换机中的S个交换机中每个交换机时的网络流量,包括:获取S个流量探针中每个流量探针采集的网络流量,得到所述数据流流经所述S个交换机中每个交换机时的网络流量,所述S个流量探针与所述S个交换机一一对应,所述S个流量探针中每个流量探针用于采集流经所述S个交换机中对应交换机的网络流量。
该实现方式中,通过S个流量探针采集数据流流经S个交换机中每个交换机时的网络流量,S个流量探针与S个交换机一一对应,提高了获取数据流流经每个交换机时的网络流量的效率。
在一种可能的实现方式中,所述根据所述数据流流经所述S个交换机中每个交换机时的网络流量确定所述数据流的网络流量出现异常的P个交换机,以及所述数据流在所述P个交换机中每个交换机的网络流量信息,包括:对所述数据流流经所述S个交换机中每个交换机时的网络流量进行检测,得到所述数据流流经所述S个交换机中每个交换机时的网络流量信息;基于预设的网络流量评价标准对所述数据流流经所述S个交换机中每个交换机时的网络流量信息进行判断,得到所述S个交换机中所述数据流的网络流量出现异常的P个交换机以及所述数据流在所述P个交换机中每个交换机的网络流量信息,所述网络流量评价标准指示所述至少一个通信指标中每个指标的健康值。
该实现方式中,对获取的数据流流经每个交换机时的网络流量进行检测,得到数据流流经每个交换机时的网络流量信息,并基于预设的网络流量评价标准对得到的网络流量信息进行判断,得到该数据流的网络流量出现异常的P个交换机以及数据流在P个交换机中每个交换机的网络流量信息,其中,网络流量评价标准指示至少一个通信指标中每个指标的健康值,提高了判断数据流的网络流量出现异常的交换机的准确度。
在一种可能的实现方式中,所述根据所述P个交换机中所述每个交换机在所述通信网络中的位置和所述数据流在所述P个交换机中每个交换机的网络流量信息,对所述通信网络中的网络故障进行定位,包括:P大于2的情况下,若所述P个交换机中第一交换机对应的第一网络流量信息中的第一指标的第一值不等于第二交换机对应的第二网络流量信息中的所述第一指标的第二值,且所述第一指标为出现异常的指标,则确定所述第一交换机与所述第二交换机之间的传输路径上发生所述第一指标对应的网络故障。
该实现方式中,在数据流的网络流量出现异常的交换机的个数大于2的情况下,若数据流的网络流量出现异常的交换机中的第一交换机对应的第一网络流量信息中的第一指标的第一值不等于第二交换机对应的第二网络流量信息中的第一指标的第二值,且第一指标为出现异常的指标,则确定第一交换机与第二交换机之间的传输路径上发生第一指标对应的网络故障,提高了通信网络中故障定位的准确度。
在一种可能的实现方式中,所述根据所述P个交换机中所述每个交换机在所述通信网络中的位置和所述数据流在所述P个交换机中每个交换机的网络流量信息,对所述通信网络中的网络故障进行定位,包括:若所述P个交换机中第三交换机为所述S个交换机中距离所述第一端侧设备最近的交换机,则确定所述第三交换机之前的传输路径上发生第二指标对应的网络故障,所述第二指标为所述第三交换机对应的网络流量信息中出现异常的指标。
该实现方式中,若数据流的网络流量出现异常的交换机中的第三交换机为数据流流经的交换机中所有获取网络流量的交换机中距离第一端侧设备最近的交换机,则确定第三交换机之前的传输路径上发生第二指标对应的网络故障,第二指标为第三交换机对应的网络流量信息中出现异常的指标,提高了通信网络中故障定位的准确度。
在一种可能的实现方式中,所述数据流为所述通信网络中的多个网络流中的一个,相应地,所述方法还包括:若所述多个网络流中所有数据流对应的发生故障的传输路径中包含相同的通信设备,则确定所述相同的通信设备发生故障。
该实现方式中,若数据流为通信网络中的多个网络流中的一个,且多个网络流中所有数据流对应的发生故障的传输路径中包含相同的通信设备,则确定该相同的通信设备发生故障,提高了通信网络中故障定位的准确度。
在一种可能的实现方式中,所述至少一个通信指标包括以下指标中的一种或多种:流量、并发连接数、建立链接比例、连接无应答率、连接失败率、终止链接比例、重传率、丢包率、时延、响应时间、响应率或服务0窗口次数。
第二方面,本申请提供一种通信网络的故障定位装置,所述通信网络包括第一端侧设备、第二端侧设备和N个交换机,所述第一端侧设备和所述第二端侧设备通过所述N个交换机进行数据流的传输,N为正整数,所述装置包括:获取模块,用于获取所述数据流流经所述N个交换机中S个交换机中的每个交换机时的网络流量,S为小于或等于N的正整数;确定模块,用于根据所述数据流流经所述S个交换机中每个交换机时的网络流量确定所述数据流的网络流量出现异常的P个交换机,P为小于或等于S的正整数;定位模块,用于根据所述P个交换机中所述每个交换机在所述通信网络中的位置和所述数据流在所述P个交换机中每个交换机的网络流量信息,对所述通信网络中的网络故障进行定位,所述网络流量信息包括至少一个通信指标中每个指标的值。
在一种可能的实现方式中,所述获取模块具体用于:获取S个流量探针中每个流量探针采集的网络流量,得到所述数据流流经所述S个交换机中每个交换机时的网络流量,所述S个流量探针与所述S个交换机一一对应,所述S个流量探针中每个流量探针用于采集流经所述S个交换机中对应交换机的网络流量。
在一种可能的实现方式中,所述确定模块具体用于:对所述数据流流经所述S个交换机中每个交换机时的网络流量进行检测,得到所述数据流流经所述S个交换机中每个交换机时的网络流量信息;基于预设的网络流量评价标准对所述数据流流经所述S个交换机中每个交换机时的网络流量信息进行判断,得到所述S个交换机中所述数据流的网络流量出现异常的P个交换机以及所述数据流在所述P个交换机中每个交换机的网络流量信息,所述网络流量评价标准指示所述至少一个通信指标中每个指标的健康值。
在一种可能的实现方式中,所述定位模块具体用于:P大于2的情况下,若所述P个交换机中第一交换机对应的第一网络流量信息中的第一指标的第一值不等于第二交换机对应的第二网络流量信息中的所述第一指标的第二值,且所述第一指标为出现异常的指标,则确定所述第一交换机与所述第二交换机之间的传输路径上发生所述第一指标对应的网络故障。
在一种可能的实现方式中,所述定位模块具体用于:若所述P个交换机中第三交换机为所述S个交换机中距离所述第一端侧设备最近的交换机,则确定所述第三交换机之前的传输路径上发生第二指标对应的网络故障,所述第二指标为所述第三交换机对应的网络流量信息中出现异常的指标。
在一种可能的实现方式中,所述数据流为所述通信网络中的多个网络流中的一个,相应地,所述定位模块还用于:若所述多个网络流中所有数据流对应的发生故障的传输路径中包含相同的通信设备,则确定该相同的通信设备发生故障。
在一种可能的实现方式中,所述至少一个通信指标包括以下指标中的一种或多种:流量、并发连接数、建立链接比例、连接无应答率、连接失败率、终止链接比例、重传率、丢包率、时延、响应时间、响应率或服务0窗口次数。
第二方面及第二方面的各种可能的实现方式中的有益效果可参见第一方面及第一方面的各种可能的实现方式中的有益效果,此处不再赘述。
第三方面,本申请提供一种通信网络的故障定位装置。该装置可以包括与存储器耦合的处理器。其中,该存储器用于存储程序代码,该处理器用于执行该存储器中的程序代码,以实现第一方面或其中任意一种实现方式中的方法。
可选地,该装置还可以包括该存储器。
第四方面,本申请提供一种芯片,包括至少一个处理器和通信接口,所述通信接口和所述至少一个处理器通过线路互联,所述至少一个处理器用于运行计算机程序或指令,以执行如第一方面或其中任意一种可能的实现方式所述的方法。
第五方面,本申请提供一种计算机可读介质,该计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行如第一方面或其中任意一种可能的实现方式所述的方法。
第六方面,本申请提供一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行如第一方面或其中任意一种可能的实现方式所述的方法。
第七方面,本申请提供一种计算设备,包括至少一个处理器和通信接口,所述通信接口和所述至少一个处理器通过线路互联,所述通信接口与目标***通信,所述至少一个处理器用于运行计算机程序或指令,以执行如第一方面或其中任意一种可能的实现方式所述的方法。
第八方面,本申请提供一种计算***,包括至少一个处理器和通信接口,所述通信接口和所述至少一个处理器通过线路互联,所述通信接口与目标***通信,所述至少一个处理器用于运行计算机程序或指令,以执行如第一方面或其中任意一种可能的实现方式所述的方法。
附图说明
图1为本申请的实施例的一种***架构的示意图;
图2为本申请的实施例的一种通信网络的故障定位方法的流程示意图;
图3为本申请一个实施例的一种通信网络的故障定位方法的流程示意图;
图4为本申请一个实施例的通信网络的故障定位装置的示意性结构图;
图5为本申请一个实施例提供的通信网络的故障定位装置的结构示意图。
具体实施方式
下面将结合本申请的实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请公开的通信网络的故障定位方法及相关装置可用于信息安全技术领域,也可用于除信息安全技术领域以外的任意领域,本申请对应用领域不作限定。
图1为本申请的实施例的一种***架构的示意图。如图1所示,网络故障定位***100包括通信网络110和网络故障定位服务器120。
通信网络110可以包括第一端侧设备111、第二端侧设备112、交换机1、交换机2…交换机N。第一端侧设备111和第二端侧设备112之间通过交换机进行数据通信,交换机的数目可以为一个或多个,本申请不作限定。
通信网络110可以包括更多的端侧设备,第一端侧设备111和第二端侧设备112仅是通信网络110中的多个端侧设备中的任意两个端侧设备。其中,端侧设备可以为客户端和服务器。通常情况下,第一端侧设备为客户端,第二端侧设备为服务器。
网络故障定位服务器120是用于提供通信网络中网络故障定位的设备。网络故障定位服务器120可以是刀片服务器、机架式服务器等,网络故障定位服务器120也可以部署在云端的服务器集群,本申请不作限定。
可以理解的是,图1所示的***架构仅是本申请提供的网络故障定位***的一种示例,在本申请另一些实施例中,网络故障定位***100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。
图2为本申请的实施例的一种通信网络的故障定位方法的流程示意图,如图2所示,该方法至少包括S201至S203。
S201,获取数据流流经N个交换机中S个交换机中的每个交换机时的网络流量,S为小于或等于N的正整数。
其中,通信网络包括第一端侧设备、第二端侧设备和X个交换机,第一端侧设备和第二端侧设备通过通信网络中的X个交换机中的N个交换机进行数据流的传输,N为正整数,X为大于或等于N的正整数。
通信网络中可以包括更多的端侧设备,第一端侧设备和第二端侧设备仅是通信网络中的多个端侧设备中的任意两个端侧设备。端侧设备包括客户端和服务器。
获取数据流流经N个交换机中的S个交换机中的每个交换机时的网络流量,当S等于N时,表示该数据流经过每个交换机时的通信流量都获取;当S小于N时,表示仅获取数据流流经的部分交换机时的通信流量。
获取数据流流经N个交换机中S个交换机中的每个交换机时的网络流量有以下几种可能的实现方式:
在一种可能的实现方式中,通信网络中的设置有S个流量探针,S个流量探针与S个交换机一一对应,S个流量探针中每个流量探针用于采集流经S个交换机中对应交换机的网络流量,通过S个流量探针中每个流量探针采集的网络流量,可以得到数据流流经S个交换机中每个交换机时的网络流量。
示例性的,流量探针可以为嗅探器(sniffer)探针。
在另一种可能的实现方式中,通过通信网络中S个交换机的遥测(telemetry)功能采集数据流流经S个交换机中每个交换机时的网络流量。
示例性的,开启通信网络中S个交换机中每个交换机的遥测功能,使用该遥测功能协同采集服务器间的互访流量。
在又一种可能的实现方式中,通过服务器传输控制协议(transmission controlprotocol,TCP)采集脚本采集服务器间和服务器内的通信流量。
示例性的,服务器根据预设周期执行TCP采集脚本,并在时间窗内通过超文本传输协议(hyper text transfer protocol,HTTP)随机上报数据流的网络流量至S个交换机中每个交换机对应的采集器中。
S202,根据数据流流经S个交换机中每个交换机时的网络流量确定数据流的网络流量出现异常的P个交换机,P为小于或等于S的正整数。
数据流的网络流量出现异常的交换机是指获取的网络流量中出现丢包、延时等网络故障的网络流量对应的交换机。
在一种可能的实现方式中,对数据流流经S个交换机中每个交换机时的网络流量进行检测,得到数据流流经S个交换机中每个交换机时的网络流量信息,再基于预设的网络流量评价标准对数据流流经S个交换机中每个交换机时的网络流量信息进行判断,得到S个交换机中数据流的网络流量出现异常的P个交换机以及数据流在P个交换机中每个交换机的网络流量信息,网络流量评价标准指示至少一个通信指标中每个指标的健康值。
作为一种示例,网络流量信息包括至少一个通信指标中每个指标的值,网络流量评价标准指示至少一个通信指标中每个指标的健康值。通信指标可以包括流量、并发连接数、建立链接比例、连接无应答率、连接失败率、终止链接比例、重传率、丢包率、时延、响应时间、响应率和服务0窗口次数等。
作为一种示例,针对采集方式的多源性和网络故障的原理,筛选出业务趋势、建链/拆链、传输性能和载荷交互4个维度的12项指标,用于建立流量健康指标体系,各采集方式的数据按照健康指标体系进行抽象和转化,以屏蔽不同数据的差异,解耦数据采集与上层分析功能实现。
示例性的,建立的流量健康指标体系中的业务趋势维度包括流量和并发连接两个指标,建链/拆链维度包括建立链接比例、连接无应答率、连接失败率和终止链接比例四个指标,传输性能维度包括重传率、丢包率和时延三个指标,载荷交互维度包括响应时间、响应率和服务0窗口次数三个指标。
构建好特征指标体系后,可以使用智能算法对网络流情况进行分析,智能算法通过学习大量监控数据形成对网络流量健康状况的评价标准,配合专家规则,能以高准确率识别出网络流量的异常;同时它可以对全量网络流量进行实时检测,发现异常并输出提示信息,帮助故障排查。
示例性的,使用智能算法对大量监控的网络流量数据进行分析,得到网络流量评价标准,网络流量评价标准指示流量健康指标体系中至少一个指标中每个指标的健康值。
作为一种示例,基于预设的网络流量评价标准对数据流流经S个交换机中每个交换机时的网络流量信息进行判断,得到S个交换机中数据流的网络流量出现异常的P个交换机包括:将数据流流经S个交换机中每个交换机时的网络流量信息中每个通信指标对应的实际值与预设的网络流量评价标准中的相应通信指标对应的健康值进行比较,将通信指标对应的实际值小于预设的网络流量评价标准中的该通信指标对应的健康值的网络流量信息对应的交换机记为数据流的网络流量出现异常的交换机。
S203,根据P个交换机中每个交换机在通信网络中的位置和数据流在P个交换机中每个交换机的网络流量信息,对通信网络中的网络故障进行定位,网络流量信息包括至少一个通信指标中每个指标的值。
在一种可能的实现方式中,当P大于2时,即当第一端侧设备和第二端侧设备之间的数据流流经的交换机中出现网络流量信息异常的交换机的个数大于2时,若P个交换机中第一交换机对应的第一网络流量信息中的第一指标的第一值不等于第二交换机对应的第二网络流量信息中的第一指标的第二值,且第一指标为出现异常的指标,则确定第一交换机与第二交换机之间的传输路径上发生第一指标对应的网络故障。
其中,第一交换机与第二交换机之间的传输路径上发生第一指标对应的网络故障表示传输路径上的一个或多个通信设备或链路发生第一指标对应的网络故障,该传输路径包括第一交换机和第二交换机。
在另一种可能的实现方式中,若P个交换机中第三交换机为S个交换机中距离第一端侧设备最近的交换机,则确定第三交换机之前的传输路径上发生第二指标对应的网络故障,第二指标为第三交换机对应的网络流量信息中出现异常的指标。
其中,距离第一端侧设备最近的交换机表示在数据流的传输路径上距离第一端侧设备最近的交换机,而不是表示物理距离上离第一端侧设备最近的交换机。
作为一种示例,数据流流经的通信设备依次为第一端侧设备、第一交换机、第二交换机、第二端侧设备,在第一指标为丢包的情况下,当第一交换机对应的第一网络流量信息中的第一指标的第一值为0,且第二交换机对应的第二网络流量信息中的第一指标的第二值为1时,表示数据流在第一交换机流向第二交换机时产生丢包;当第一交换机对应的第一网络流量信息中的第一指标的第一值与第二交换机对应的第二网络流量信息中的第一指标的第二值均为1时,表示数据流由第一端侧设备流向第一交换机时产生丢包;当第一交换机对应的第一网络流量信息中的第一指标的第一值与第二交换机对应的第二网络流量信息中的第一指标的第二值都为0,且第二端侧设备反馈出现丢包情况时,则表示数据流在由第二交换机流向第二端侧设备时发生丢包。
作为另一种示例,数据流流经的通信设备依次为第一端侧设备、第一交换机、第二交换机、第二端侧设备,在第一指标为延迟的情况下,网络流量信息中包括建链延迟和服务器响应延迟两个指标,当第一交换机对应的第一网络流量信息中建链延迟和服务器响应延迟的值均为0,且第二交换机对应的第二网络流量信息中建链延迟和服务器响应延迟的值均为1时,表示数据流在第一交换机流向第二交换机时产生延迟;当第一交换机对应的第一网络流量信息中建链延迟和服务器响应延迟的值均为1,且第二交换机对应的第二网络流量信息中建链延迟和服务器响应延迟的值均为1时,表示数据流由第一端侧设备流向第一交换机时产生延迟;当第一交换机对应的第一网络流量信息中建链延迟和服务器响应延迟的值均为0,第二交换机对应的第二网络流量信息中建链延迟和服务器响应延迟的值均为0,则表示延迟发生在第二端侧设备。
作为又一种示例,数据流从第一端侧设备经由多个交换机流入第二端侧设备,但只采集了多个交换机中第三交换机的第三网络流量信息,在第二指标为丢包的情况下,当第三网络流量信息中的客户端丢包的值为1,则表示数据流由第一端侧设备流向第三交换机时产生丢包;当第三网络流量信息中的服务器丢包的值为1,表示在回包时,数据流由第二端侧设备流向第三交换机时产生丢包。
作为又一种示例,数据流从第一端侧设备经由多个交换机流入第二端侧设备,但只采集了多个交换机中第三交换机的第三网络流量信息,在第二指标为延迟的情况下,当第三网络流量信息中的服务器响应延迟的值为1且建链延迟的值为0时,表示延迟发生在第一端侧设备侧;当第三网络流量信息中的服务器响应延迟的值和建链延迟的值均为1时,表示延迟发生在第二端侧设备侧。
在又一种可能的实现方式中,数据流为通信网络中的多个网络流中的一个,且若多个网络流中所有数据流对应的发生故障的传输路径中包含相同的通信设备,则确定该相同的通信设备发生故障。
作为一种示例,当通信网络中发生丢包的网络流的数量超过时间窗口内预设的阈值时,表示有大量数据流在短时间内出现集中丢包,若多个网络流中所有数据流对应的发生丢包的传输路径中包含相同的通信设备,则确定该相同的通信设备发生丢包,其中,通信设备可以包括接入交换机、汇聚交换机或服务器等。
本申请提供的技术方案中,根据通信网络中数据流流经的交换机中出现网络流量信息异常的交换机的位置和该出现网络流量信息异常的交换机中每个交换机的网络流量信息对通信网络中的网络故障进行定位,实现了对通信网络中的异常网络故障的的实时自动排查,提高了网络故障定位的效率,节省了时间,节约了人力资源。
图3为本申请一个实施例的一种通信网络的故障定位方法的流程示意图。如图3所示,该方法至少包括S301至S304。
S301,获取数据流流经N个交换机中S个交换机中的每个交换机时的网络流量,S为小于或等于N的正整数。
需要说明的是,S301可以参考S201,此处不再进行赘述。
S302,对数据流流经S个交换机中每个交换机时的网络流量进行检测,得到数据流流经S个交换机中每个交换机时的网络流量信息。
作为一种示例,网络流量信息包括至少一个通信指标中每个指标的值,通信指标可以包括流量、并发连接数、建立链接比例、连接无应答率、连接失败率、终止链接比例、重传率、丢包率、时延、响应时间、响应率和服务0窗口次数等。
需要说明的是,对数据流流经交换机的网络流量进行检测,得到数据流流经交换机的网络流量信息的方法可以参考现有的根据网络流量得到的网络流量信息的方法,此处不再进行赘述。
S303,基于预设的网络流量评价标准对数据流流经S个交换机中每个交换机时的网络流量信息进行判断,得到S个交换机中数据流的网络流量出现异常的P个交换机以及数据流在P个交换机中每个交换机的网络流量信息,P为小于或等于S的正整数。
数据流的网络流量出现异常的交换机是指获取的网络流量中出现丢包、延时等网络故障的网络流量对应的交换机。网络流量评价标准指示至少一个通信指标中每个指标的健康值。
在一种可能的实现方式中,针对采集方式的多源性和网络故障的原理,筛选出业务趋势、建链/拆链、传输性能和载荷交互4个维度的12项指标,用于建立流量健康指标体系,各采集方式的数据按照健康指标体系进行抽象和转化,以屏蔽不同数据的差异,解耦数据采集与上层分析功能实现。
示例性的,建立的流量健康指标体系中的业务趋势维度包括流量和并发连接两个指标,建链/拆链维度包括建立链接比例、连接无应答率、连接失败率和终止链接比例四个指标,传输性能维度包括重传率、丢包率和时延三个指标,载荷交互维度包括响应时间、响应率和服务0窗口次数三个指标。
构建好特征指标体系后,可以使用智能算法对网络流情况进行分析,智能算法通过学习大量监控数据形成对网络流量健康状况的评价标准,配合专家规则,能以高准确率识别出网络流量的异常;同时它可以对全量网络流量进行实时检测,发现异常并输出提示信息,帮助故障排查。
示例性的,使用智能算法对大量监控的网络流量数据进行分析,得到网络流量评价标准,网络流量评价标准指示流量健康指标体系中至少一个指标中每个指标的健康值。
作为一种示例,基于预设的网络流量评价标准对数据流流经S个交换机中每个交换机时的网络流量信息进行判断,得到S个交换机中数据流的网络流量出现异常的P个交换机包括:将数据流流经S个交换机中每个交换机时的网络流量信息中每个通信指标对应的实际值与预设的网络流量评价标准中的相应通信指标对应的健康值进行比较,将通信指标对应的实际值小于预设的网络流量评价标准中的该通信指标对应的健康值的网络流量信息对应的交换机记为数据流的网络流量出现异常的交换机。
S304,根据P个交换机中每个交换机在通信网络中的位置和数据流在P个交换机中每个交换机的网络流量信息,对通信网络中的网络故障进行定位。
需要说明的是,S304可以参考S203,此处不再进行赘述。
本申请提供的技术方案中,通过合理设置指标体系,分析网络通信质量,将访问不通、访问慢等传统问题细化为会话建链异常、传输时延异常、传输丢包异常等多个粒度,满足不同流量模型、不同技术栈对网络监控的要求,提升了故障感知能力,同时进一步提高了通信网络的故障定位的准确度。
图4为本申请一个实施例的通信网络的故障定位装置的示意性结构图。如图4所示,装置400可以包括获取模块401、确定模块402和定位模块403。
本申请实施例中的获取模块、确定模块和定位模块中任意模块可以全部或部分通过软件和/硬件方式实现。其中,通过软件实现的部分可以在处理器上运行以实现相应的功能,通过硬件方式实现的部分可以是处理器的构成部分。
装置400可以用于实现图2或图3所示的方法。
图5为本申请一个实施例提供的通信网络的故障定位装置的结构示意图。图5所示的装置500可以用于执行前述任意一个实施例所述的方法。
如图5所示,本实施例的装置500包括:存储器501、处理器502、通信接口503以及总线504。其中,存储器501、处理器502、通信接口503通过总线504实现彼此之间的通信连接。
存储器501可以是只读存储器(read only memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory,RAM)。存储器501可以存储程序,当存储器501中存储的程序被处理器502执行时,处理器502可以用于执行图2或图3所示的方法的各个步骤。
处理器502可以采用通用的中央处理器(central processing unit,CPU),微处理器,应用专用集成电路(application specific integrated circuit,ASIC),或者一个或多个集成电路,用于执行相关程序,以实现本申请方法实施例的通信网络的故障定位方法。
处理器502还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请各个实施例的方法的各个步骤可以通过处理器502中的硬件的集成逻辑电路或者软件形式的指令完成。
上述处理器502还可以是通用处理器、数字信号处理器(digital signalprocessing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gatearray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器501,处理器502读取存储器501中的信息,结合其硬件完成本申请实施例中各个方法所需执行的功能,例如,可以执行图2或图3所示实施例的各个步骤/功能。
通信接口503可以使用但不限于收发器一类的收发装置,来实现装置500与其他设备或通信网络之间的通信。
总线504可以包括在装置500各个部件(例如,存储器501、处理器502、通信接口503)之间传送信息的通路。
应理解,本申请实施例所示的装置500可以是电子设备,或者,也可以是配置于电子设备中的芯片。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (9)

1.一种通信网络的故障定位方法,其特征在于,所述通信网络包括第一端侧设备、第二端侧设备和N个交换机,所述第一端侧设备和所述第二端侧设备通过所述N个交换机进行数据流的传输,N为正整数,所述方法包括:
获取所述数据流流经所述N个交换机中S个交换机中的每个交换机时的网络流量,S为小于或等于N的正整数;
根据所述数据流流经所述S个交换机中每个交换机时的网络流量确定所述数据流的网络流量出现异常的P个交换机,P为小于或等于S的正整数;
根据所述P个交换机中所述每个交换机在所述通信网络中的位置和所述数据流在所述P个交换机中每个交换机的网络流量信息,对所述通信网络中的网络故障进行定位,所述网络流量信息包括至少一个通信指标中每个指标的值;
所述获取所述数据流流经所述N个交换机中的S个交换机中每个交换机时的网络流量,包括:
获取S个流量探针中每个流量探针采集的网络流量,得到所述数据流流经所述S个交换机中每个交换机时的网络流量,所述S个流量探针与所述S个交换机一一对应,所述S个流量探针中每个流量探针用于采集流经所述S个交换机中对应交换机的网络流量;
所述根据所述数据流流经所述S个交换机中每个交换机时的网络流量确定所述数据流的网络流量出现异常的P个交换机,以及所述数据流在所述P个交换机中每个交换机的网络流量信息,包括:
对所述数据流流经所述S个交换机中每个交换机时的网络流量进行检测,得到所述数据流流经所述S个交换机中每个交换机时的网络流量信息;
基于预设的网络流量评价标准对所述数据流流经所述S个交换机中每个交换机时的网络流量信息进行判断,得到所述S个交换机中所述数据流的网络流量出现异常的P个交换机以及所述数据流在所述P个交换机中每个交换机的网络流量信息,所述网络流量评价标准指示所述至少一个通信指标中每个指标的健康值。
2.根据权利要求1所述的方法,其特征在于,所述根据所述P个交换机中所述每个交换机在所述通信网络中的位置和所述数据流在所述P个交换机中每个交换机的网络流量信息,对所述通信网络中的网络故障进行定位,包括:
P大于2的情况下,若所述P个交换机中第一交换机对应的第一网络流量信息中的第一指标的第一值不等于第二交换机对应的第二网络流量信息中的所述第一指标的第二值,且所述第一指标为出现异常的指标,则确定所述第一交换机与所述第二交换机之间的传输路径上发生所述第一指标对应的网络故障。
3.根据权利要求1所述的方法,其特征在于,所述根据所述P个交换机中所述每个交换机在所述通信网络中的位置和所述数据流在所述P个交换机中每个交换机的网络流量信息,对所述通信网络中的网络故障进行定位,包括:
若所述P个交换机中第三交换机为所述S个交换机中距离所述第一端侧设备最近的交换机,则确定所述第三交换机之前的传输路径上发生第二指标对应的网络故障,所述第二指标为所述第三交换机对应的网络流量信息中出现异常的指标。
4.根据权利要求1所述的方法,其特征在于,所述数据流为所述通信网络中的多个网络流中的一个,相应地,所述方法还包括:
若所述多个网络流中所有数据流对应的发生故障的传输路径中包含相同的通信设备,则确定所述相同的通信设备发生故障。
5.根据权利要求1所述的方法,其特征在于,所述至少一个通信指标包括以下指标中的一种或多种:流量、并发连接数、建立链接比例、连接无应答率、连接失败率、终止链接比例、重传率、丢包率、时延、响应时间、响应率或服务0窗口次数。
6.一种通信网络的故障定位装置,其特征在于,所述通信网络包括第一端侧设备、第二端侧设备和N个交换机,所述第一端侧设备和所述第二端侧设备通过所述N个交换机进行数据流的传输,N为正整数,所述装置包括:
获取模块,用于获取所述数据流流经所述N个交换机中S个交换机中的每个交换机时的网络流量,S为小于或等于N的正整数;
确定模块,用于根据所述数据流流经所述S个交换机中每个交换机时的网络流量确定所述数据流的网络流量出现异常的P个交换机,P为小于或等于S的正整数;
定位模块,用于根据所述P个交换机中所述每个交换机在所述通信网络中的位置和所述数据流在所述P个交换机中每个交换机的网络流量信息,对所述通信网络中的网络故障进行定位,所述网络流量信息包括至少一个通信指标中每个指标的值;
所述获取模块,具体用于获取S个流量探针中每个流量探针采集的网络流量,得到所述数据流流经所述S个交换机中每个交换机时的网络流量,所述S个流量探针与所述S个交换机一一对应,所述S个流量探针中每个流量探针用于采集流经所述S个交换机中对应交换机的网络流量;
所述定位模块,具体用于对所述数据流流经所述S个交换机中每个交换机时的网络流量进行检测,得到所述数据流流经所述S个交换机中每个交换机时的网络流量信息;基于预设的网络流量评价标准对所述数据流流经所述S个交换机中每个交换机时的网络流量信息进行判断,得到所述S个交换机中所述数据流的网络流量出现异常的P个交换机以及所述数据流在所述P个交换机中每个交换机的网络流量信息,所述网络流量评价标准指示所述至少一个通信指标中每个指标的健康值。
7.一种通信网络的故障定位装置,其特征在于,包括:存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用所述存储器中的程序指令执行如权利要求1至5中任一项所述的方法。
8.一种芯片,其特征在于,包括至少一个处理器和通信接口,所述通信接口和所述至少一个处理器通过线路互联,所述至少一个处理器用于运行计算机程序或指令,以执行如权利要求1至5中任一项所述的方法。
9.一种计算机可读介质,其特征在于,所述计算机可读介质存储用于计算机执行的程序代码,该程序代码包括用于执行如权利要求1至5中任一项所述的方法。
CN202111603641.2A 2021-12-24 2021-12-24 通信网络的故障定位方法及相关装置 Active CN114172796B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111603641.2A CN114172796B (zh) 2021-12-24 2021-12-24 通信网络的故障定位方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111603641.2A CN114172796B (zh) 2021-12-24 2021-12-24 通信网络的故障定位方法及相关装置

Publications (2)

Publication Number Publication Date
CN114172796A CN114172796A (zh) 2022-03-11
CN114172796B true CN114172796B (zh) 2024-01-30

Family

ID=80488121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111603641.2A Active CN114172796B (zh) 2021-12-24 2021-12-24 通信网络的故障定位方法及相关装置

Country Status (1)

Country Link
CN (1) CN114172796B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117193272B (zh) * 2023-11-07 2024-01-26 常州华纳电气有限公司 一种基于大数据的电控测试数据管理***及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9438471B1 (en) * 2012-02-20 2016-09-06 F5 Networks, Inc. Multi-blade network traffic management apparatus with improved failure handling and methods thereof
CN107835098A (zh) * 2017-11-28 2018-03-23 车智互联(北京)科技有限公司 一种网络故障检测方法及***
CN110380907A (zh) * 2019-07-26 2019-10-25 京信通信***(中国)有限公司 一种网络故障诊断方法、装置、网络设备及存储介质
CN113162800A (zh) * 2021-03-12 2021-07-23 电子科技大学 一种基于强化学习的网络链路性能指标异常定位方法
WO2021244415A1 (zh) * 2020-06-03 2021-12-09 华为技术有限公司 检测网络故障的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9438471B1 (en) * 2012-02-20 2016-09-06 F5 Networks, Inc. Multi-blade network traffic management apparatus with improved failure handling and methods thereof
CN107835098A (zh) * 2017-11-28 2018-03-23 车智互联(北京)科技有限公司 一种网络故障检测方法及***
CN110380907A (zh) * 2019-07-26 2019-10-25 京信通信***(中国)有限公司 一种网络故障诊断方法、装置、网络设备及存储介质
WO2021244415A1 (zh) * 2020-06-03 2021-12-09 华为技术有限公司 检测网络故障的方法和装置
CN113162800A (zh) * 2021-03-12 2021-07-23 电子科技大学 一种基于强化学习的网络链路性能指标异常定位方法

Also Published As

Publication number Publication date
CN114172796A (zh) 2022-03-11

Similar Documents

Publication Publication Date Title
US8443074B2 (en) Constructing an inference graph for a network
US7385931B2 (en) Detection of network misconfigurations
CN108989136B (zh) 业务端到端性能监控方法及装置
CN108092854B (zh) 基于iec61375协议的列车级以太网设备的测试方法及装置
US11038587B2 (en) Method and apparatus for locating fault cause, and storage medium
CN108900319B (zh) 故障检测方法和装置
CN111327471A (zh) 网络质量分析方法、装置、计算机设备及存储介质
CN114172796B (zh) 通信网络的故障定位方法及相关装置
CN115001829B (zh) 协议漏洞挖掘方法、装置、设备及存储介质
CN111200544B (zh) 一种网络端口流量测试方法和装置
JP2019102974A (ja) データ収集システム、制御装置、制御プログラム、ゲートウェイ装置およびゲートウェイプログラム
CN101252477B (zh) 一种网络故障根源的确定方法及分析装置
CN108512675B (zh) 一种网络诊断的方法、装置、控制节点和网络节点
CN112507265A (zh) 基于树结构进行异常侦测的方法、装置及相关产品
CN109831335B (zh) 一种数据监控方法、监控终端、存储介质及数据监控***
CN110896544B (zh) 故障定界方法及装置
CN111654405A (zh) 通信链路的故障节点方法、装置、设备及存储介质
CN116506340A (zh) 流量链路的测试方法、装置、电子设备及存储介质
CN115242610A (zh) 链路质量监测方法、装置、电子设备和计算机可读存储介质
CN107222332A (zh) 测试方法、装置、***及机器可读存储介质
CN113810332B (zh) 一种加密数据报文判定方法、装置及计算机设备
CN107426044B (zh) 一种串线检测方法、装置及操作维护服务器
CN113009246A (zh) Pse设备检测装置及pse设备检测方法
CN117201292B (zh) 能准确定位微服务间请求调用异常的方法
CN110868321B (zh) 一种基于边缘计算算法验证的故障定位方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant