CN113454950A - 基于流量统计的网络设备及链路实时故障检测方法和*** - Google Patents

基于流量统计的网络设备及链路实时故障检测方法和*** Download PDF

Info

Publication number
CN113454950A
CN113454950A CN201980092647.2A CN201980092647A CN113454950A CN 113454950 A CN113454950 A CN 113454950A CN 201980092647 A CN201980092647 A CN 201980092647A CN 113454950 A CN113454950 A CN 113454950A
Authority
CN
China
Prior art keywords
baseline data
traffic
network
data set
link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980092647.2A
Other languages
English (en)
Inventor
赵石
林跃华
许辉
佘敦成
王淼
刘辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of CN113454950A publication Critical patent/CN113454950A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/12Network monitoring probes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

提供了基于流量统计的网络设备或网络链路实时故障检测***和方法。在设备故障检测方面,根据基线数据集构建了一种网络流量的统计经验模型,所述基线数据集中的每一基线数据对应于每一区间累计的网络流量。在链路故障检测方面,根据基线数据集构建了一种链接流量分布的统计经验模型,所述基线数据集中的每一基线数据对应于每一区间的链接流量分布。在两种情况下,在初始构建后,使用合格的、选择的新数据动态更新所述模型。根据更新后的模型评估每一新基线数据,以判断所述新基线数据是否为异常值。连续的异常值可触发故障告警。

Description

基于流量统计的网络设备及链路实时故障检测方法和***
技术领域
本公开实施例涉及通信网络领域,尤其涉及网络故障检测机制领域。
背景技术
通信网络由按一定的拓扑结构排列的链接和节点组成,用于传输因特网流量。所述节点包括通过链接相互连接的网络设备,例如服务器、交换机和路由器。现有的商业网络故障检测通常依赖于基于测量指标的用户定义的告警及规则冲突,这需要了解网络基础架构中的硬件特性及性能和软件要素的细节知识。对于单一设备或者简单网络,故障检测很好理解并易于实现。
然而,近几年中,由于网络设备及链接的数量呈指数级增长、众多设备制造商、运行于网络设备的各种各样的软件版本以及在架构中采用的多层级交换,网络架构越来越复杂。因此,几乎不可能设置快速响应中能包含全部可能故障的故障检测规则。网络的复杂性进一步来自于设备之间一些不可观测的交互。例如,两设备未直接连接,但是有间接路径将其连接。结果是,这对于定义能带来快速可靠的故障检测的有效规则是极大挑战。另外,随着新设备或新软件版本的推出,用于故障检测的静态用户定义规则会很快过时。
发明内容
本公开实施例针对实时网络故障检测的***和方法,所述***和方法中,通过使用流量数据的动态统计,发现网络部件的流量异常,而不需要识别被监控部件的细节特性及业务操作。
在一个方面,本公开实施例提供一种单个交换设备的异常检测机制,根据动态更新的统计数据周期性评估一个设备的网络流量,网络流量对应于一个设备的入口流量和出口流量之间的差异。
尤其是,对于网络设备,可根据机器学***均值及标准差的函数。初始模型构建之后,对应每一区间,确定网络流量的一个新基线数据是否合格且被选择用于更新所述模型。如果是,所述新基线数据替换所述基线数据集中最早的基线数据,并重新计算所述模型。无论所述新基线数据是否用于更新所述模型,根据更新后的模型评估所述新基线数据,以判断其是否为异常值。响应于检测到预先设定数量的连续的异常值,生成告警,所述告警可触发进一步自动或手动诊断、故障排查及修复措施。
一般而言,链路包括一组并行链接共同分担链路两侧之间的流量负荷,每侧包括一个或多个设备。所述链接功能等同,并且没有故障时所述两侧之间的总流量能以稳定占比分布于所述链接。如果其一链接发生故障,其他链接能自动接管该发生故障的链接所不能完成的流量负荷,因此,在所述链接之间的流量分布(本文中为link trafficdistribution,链接流量分布)发生了改变。在本公开的另一方面,实施例提供一种链路异常检测机制,周期性地将所述链路中的实时链接流量分布与动态更新的统计经验模型进行比较。在一些实施例中,所述模型包括预期链接流量分布。
预期链接流量分布可通过对复数个区间内如连续区间采集到的链接流量分布数据的基线数据集取平均值获得。例如,所述基线数据集的每一基线数据对应于一组流量占比,该组流量占比为一个区间内所述链接各自分担的流量占比。所述模型初始构建之后,对于每一区间,确定链接流量分布的一个新基线数据是否合格且被选择用于更新所述基线数据集。如果是,所述新基线数据替换所述基线数据集的最早的基线数据,以更新所述预期链接流量分布。无论所述新基线数据是否用于更新所述模型,根据所述预期分布评估所述新基线数据,以判断该新基线数据是否为异常值。响应于检测到预先设定数量的连续的异常值,生成告警,所述告警可进一步触发自动或手动诊断、故障排查以及修复措施。
根据本公开实施例,由于网络流量或链接流量分布被持续监控及使用简单统计处理实时评估,不管网络架构的复杂性,设备或链路的网络异常可在快速响应中被方便地捕获。由于被监控的统计数据可简单地从流量数据中获得,故障检测可通过使用设备或链路的现成的数据而方便地实现,并且,经验模型不要求了解细节特性及业务操作的综合知识。
另外,因为随着采集新数据而频繁更新,统计模型能反映最新的数据概率分布,这方便地增强了故障检测的效果及准确性。进一步,由于设备或链路的模型能使用被监控设备或被监控链路本身的真实经验数据构建及更新,所述模型是根据所述设备或链路的特性及业务操作制定的。这进一步有助于故障检测的精确度。
上述是概要,这不可避免地会简化、概括化以及遗漏细节;因此,所属领域的技术人员可以理解所述概要仅仅是示例性的,不以任何方式作为限制。其他方面,本公开的发明特性及有益效果,如权利要求中严格定义的,将在下述非限制性的具体实施方式中明确体现。
附图说明
结合附图对下述具体实施方式阅读,可以更好的理解本公开实施例,附图中相似字符表示相似元素。
图1示出了根据本公开其一实施例的示例性的具有故障检测设备的通信网络,所述故障检测设备能基于流量数据的统计值实时检测设备故障和链路故障。
图2是根据本公开其一实施例的基于流量统计数据的实时设备故障检测的示例性计算机实现过程的流程图。
图3是根据本公开其一实施例的用于设备的统计模型构建及相应的故障检测的示例性计算机实现过程的流程图。
图4示出了其一链接故障后示例性链路的链接流量分布的变化。
图5是根据本公开其一实施例的基于流量统计的实时链路故障检测的示例性计算机实现过程的流程图。
图6是根据本公开其一实施例的用于链路的统计模型构建及相应的故障检测的示例性计算机实现过程的流程图。
图7是根据本公开其一实施例的基于流量统计的实时设备故障检测及链接检测的示例性计算***的框图。
具体实施方式
详细参考本公开优选实施例,这些例子在附图中进行了阐明。本发明将结合所述优选实施例进行描述,可以理解的是,它们并不意图将本发明限定于这些实施例。相反,本发明意图涵盖如所附权利要求定义的发明范围及精神内包括的替换、修改以及等同方案。进一步,下述本发明实施例的详细描述中,为了提供对本发明的透彻理解,给出了多个特定细节。然而,可以被本领域普通技术人员理解的是,没有这些特定细节本发明可被实践。在其他例子中,公知的方法、过程、部件以及链路未被详细描述,以免不必要地模糊本发明实施例的方面。尽管为清晰起见一种方法能被描述为一系列的步骤,步骤编号并不必然意味着步骤的顺序。应该被理解的是,一些步骤可以被跳过、并行执行或不要求保持严格顺序而执行。表现本发明实施例的附图为半图式且并非按比例绘制,尤其是一些维度是为了描述的清晰度,并在图中进行了夸张显示。同样地,尽管为了描述的简便附图中的视图一般显示相同方向,附图中的这个描述极大程度上是任意的。一般地,本发明可在任意方向被执行。
符号和术语
然而应该铭记的是,所有这些以及相似术语与合适的物理量关联,仅仅是用于这些量的方便标签。除非另外从下述讨论中特别明显指明,否则,应该理解,贯穿本发明中使用术语如“采集(collecting)”、“构建(constructing)”、“处理(processing)”或“计算(calculating)”或“执行(executing)”或“存储(storing)”或类似用语意指:计算机***或类似电子计算设备的动作及处理过程,计算机***或类似电子计算设备对计算机***的寄存器及存储器内以及其他计算机可读媒介内表示物理(电子)量的数据,操作并转换为计算机***的存储器或寄存器内或其他如信息存储设备、传输设备或显示设备内的其他类似表示物理量的数据。当一个部件出现在几个实施例中,使用相同引用数字表示该部件与初始实施例中所示的部件相同。
基于流量统计的网络设备及链路实时故障检测
本公开实施例提供基于实时流量数据及其统计值检测网络设备或链路故障的机制。对于网络设备而言,经验统计模型能通过使用复数个区间内采集到的基线数据集构建,所述模型代表每一区间所述设备的网络流量的概率分布。所述模型可包括一组统计指标或相关函数,例如,所述指标为平均值和标准差。初始模型构建之后,根据所述模型评估每一区间的网络流量的一个新基线数据,以判断该区间的所述基线数据是否为异常值。异常值连续出现能触发故障告警。如果合格,所述新基线数据能被随机选择用于更新所述基线模型。在该实施方式中,所述模型用最新的正常数据更新,因此能准确地反映所述设备的当前特性及业务操作。
对于链路而言,经验统计模型通过使用复数个区间内采集到的基线数据集构建,所述模型代表所述链路内每一区间的链接流量分布的概率分布。所述模型可对应于预期链接流量分布。初始模型构建之后,对于每一区间,根据所述模型对包括一组链接流量或链接流量分布的一个新基线数据进行评估,以判断所述区间的基线数据是否为异常值。异常值连续出现可触发故障告警。如果合格,所述基线数据能被随机选择用于更新所述基线模型。在该实施方式中,所述模型用最新的正常数据更新,因此能准确地反映所述设备的当前特性及业务操作。
图1示出了根据本公开实施例的具有能基于流量数据统计实时检测设备故障及链路故障的故障检测设备121和122的示例性的通信网络100。在一种简化形式中,所述网络100包括复数个相互连接并按多层排列的网络交换设备(如路由器),每一交换设备被配置为转发网络流量。所述交换设备属于被因特网服务提供商110控制的网络架构。终端(如131)被联结至所述交换设备,可以为服务端设备或客户端设备。可以理解的是,本公开不被限定于任何特定类型的网络拓扑结构或交换设备。
每一交换设备科被配置为采集各种形式的流量数据,例如,符合简单网络管理协议(SNMP)。根据本公开,所述实时流量数据能用于构建动态更新的用于设备和链路实时故障检测的统计模型。在示例性的实施例中,所述模型构建和故障检测功能可在独立的监控设备(如设备141或142)中实施,该监控设备被联结至所述被监控者(如交换设备121或122)。然而,在一些其他实施例中,所述故障检测功能可集成于交换设备中。
如图所示,在业务运行过程中,交换设备122周期性采集其入口及出口流量,用于提供给监控设备142。假设在很短时间内网络流量的显著变化能表示交换设备异常或故障,其中,网络流量对应于总入口流量和总出口流量之间的差异。所述监控设备142根据所述交换设备122提供的基线数据集构建网络流量统计经验模型。所述模型表示每一区间网络流量的概率分布,根据所述模型定义正常区域和异常区域。在一些实施例中,所述模型简单到包括所述基线数据集的平均值和标准差。然而,本公开不被限定于任何特定的与所述统计模型中使用的网络流量相关的统计指标、函数、算法或公式。对于每一区间,根据所述模型评估所述网络流量的新基线数据,以确定其是否落入异常区域。另外,一个合格的新基线数据可被选择用于更新模型。如果检测到连续异常值,生成告警以触发随后的手动或自动故障诊断措施。
进一步,假设在链路中,在很短时间内链接流量分布的显著变化可表示链接异常或故障。如图所示,交换设备121和123以及之间的几个链接151被配置为一个链路。在所述交换设备121和123之间的流量,按一组特定比率的占比分布于所述链接151。所述交换设备123周期性采集每一链接的总入口流量或总出口流量,提供给监控设备141。所述监控设备141根据所述交换设备123提供的基线数据集构建统计经验模型。所述模型表示所述链路的预期链接流量分布。根据所述模型定义正常区域和异常区域。本公开不被限定于任何特定的与所述统计模型中使用的链接流量相关的统计指标、函数、算法或公式。对于每一区间,一个新基线数据包括一组链接流量或当前链接流量分布,根据所述预期分布评估所述新基线数据,以确定所述新基线数据是否落入异常区域。另外,一个合格的新基线数据可被选择用于更新模型。如果检测到连续异常值,生成告警以触发随后的手动或自动故障诊断措施。
根据本公开实施例,由于网络流量或链接流量分布被持续监控并使用简单统计处理实时评估,即使网络架构复杂,设备或链路的网络异常能在快速响应中被方便地捕获。既然被监控的统计指标能从流量中获得,故障检测能通过使用设备或链路的现成的数据和经验模型方便地实现,并不要求了解其复杂的细节特性、性能以及业务运行的综合知识。
另外,因为频繁使用采集到的新数据进行更新,所述模型反映了最新的数据概率分布,能显著增强故障检测的有效性和准确性。进一步,由于使用从特定设备或链路采集到的经验数据构建及更新模型,所述模型还是根据所述被监控设备或被监控链路制定的。这进一步有助于故障检测的准确性。
图2是根据本公开其一实施例的基于流量统计数据的实时设备故障检测的示例性计算机实现过程200的流程图。实现过程200可由监控设备或监控模块执行,所述监控设备交互地联结至被监控的交换设备,所述监控模块集成于被监控的交换设备。在201,根据初始化基线数据集生成每一区间网络流量的统计经验模型。例如,所述基线数据集包括N个连续区间的网络流量数据,例如,每一区间为1分钟,N为2000。本文中特定数字仅为示例性的,本公开不被限定于此。区间跨度和样本容量可根据考虑因素选择,考虑因素如各种工程限制导致的数据采集噪声、流量分布的统计属性以及概率分布的充分代表性。
所述基线数据集中每一基线数据是每一区间网络流量,所述每一区间网络流量对应于一个区间内累计的总入口流量和总出口流量之间的差异。入口总流量和出口总流量可以分别为经过所述设备的全部入端口和出端口的各自流量之和。入口及出口流量数据可在被监控设备实时采集,并提供给用于故障检测目的的监控设备或监控模块。
根据N个区间内网络流量数据的概率分布,定义一个正常区域和一个或多个异常区域。在一个例子中,现实的网络流量数据可遵循一个正常概率分布;然而,本公开不限定于此。在一些实施例中,所述统计模型涉及所述基线数据集的平均值和标准差,所述异常区域和所述正常区域能根据所述平均值和所述标准差的函数定义,正如下述关于图3的更加详细的描述。
在202,所述设备的网络流量数据,以与201生成基线数据集的相同方式周期性生成,例如,每分钟。在203,采用新网络流量数据实时更新所述统计模型,同时保持所述基线数据集的数据量。在204,根据更新后的统计模型评估每一新网络流量基线数据,以确定其是否位于所述异常区域之中。在205,如果连续出现M个异常值,生成告警,所述告警可触发各种进一步操作,例如故障核查、诊断操作等。例如,M预先定义为3。
图3是根据本公开其一实施例的用于设备的统计模型构建及相应的故障检测的示例性计算机实现过程300的流程图。在301,区间索引“i”被设为1。在302,区间Ti的网络流量基线数据Di,根据实时检测到的所述区间累计的实时入口流量和出口流量确定。在303,确定Di是否合格的,可作为用于所述统计经验模型的一个基线数据。在一些实施例中,一个基线数据如果满足下述条件则是合格的:(1)所述区间内总入口流量和总出口流量均大于一个特定值,例如1Mbit/s(BPS,兆比特每秒);并且,(2)前一基线数据(i-1),是一个正常值,如以下所述。然而,可采用各种其他资格条件,并不脱离本公开的范围。如果该基线数据并非合格的基线数据,则索引i在311递增以评估下一基线数据。
对于一个合格的基线数据,确定是否将其增加至所述统计模型的基线数据集。尤其是,在304,确定当前基线数据集是否少于2000个数据。如果是,在305,新基线数据Di被增加至用于所述统计模型的初始构建的基线数据集,例如,获得所述基线数据集的平均值和标准差。在一些实施例中,所述平均值(m)计算方式如下:
mean=average(log(D1),…,log(Di),…,log(DN)),
其中,N=2000;标准差(sd)计算方式如下:
sd=sd(log(D1),…,log(Di),…,log(DN))。
可以理解的是,平均值或标准差的各种其他形式或等式,或其他统计指标可以被采用,而并不脱离本公开的范围。一旦在305使用Di更新所述模型,则索引i在311递增以评估下一基线数据。
如果当前基线数据集已经达到2000(如304中所确定的),Di就直接地,进一步在306判断Di是否异常值。例如,如果(Di-mean)/ad>3,则定义Di为异常值。如果Di非异常值,Di被合并至所述基线数据集,并在307更新所述基线数据集中最早的基线数据;在305网络流量的平均值和标准差进行相应更新。一旦在305使用Di更新所述模型,则索引i在311递增以评估下一基线数据。
如果当前基线数据集未达到2000,并且Di为异常值(如在306所确定的),在308将其记录下来。在309,进一步确定Di是否连续检测到的第三个异常值。如果是,意味着已经连续有3个异常值,在310生成故障告警。在310,索引i被递增。对每一区间重复上述302-312的处理。
在一些实施例中,Di可根据规定的几率随机选择,例如50%。如果Di被选中,所述基线数据集中最早的基线数据用Di替换,从而所述统计模型被更新。例如,Di在重新计算所述平均值及标准差中被合并。如果当前基线数据集已达到2000个,Di被增加至所述基线数据集并不替换任何基线数据,而用于重新计算平均值及标准差。
在基本形态中,链路包括一个第一侧A和一个第二侧B,以及几个功能等同且共同分担A和B之间的流量负荷的并行链接。每一侧有入口流量和出口流量。根据本公开,A端入(A_in)、A端出(A_out)、B端入(B_in)、B端出(B_out)中任何流量可用于对所述链路进行针对故障检测目的的特征化表征。本文中详细描述的例子可适用于侧和方向的任何连接的流量。
当其一链接故障,该链接的链接流量很可能明显下降,A和B之间的总流量自动重新分布于各个链接。因此,链路流量分布的显著变化表示链接故障。图4示出了其一链接故障后示例性链路的链接流量分布的变化。如图所示,在正常运行情况下,4个链接401-404各自分担总流量的20%、30%、40%以及10%,例如流入A侧的流量。当链接401故障时,其占比下降至0%,而其余的变为40%、40%以及20%。
图5是根据本公开其一实施例的基于流量统计的实时链路故障检测的示例性计算机实现过程500的流程图。实现过程500可由监控设备或被监控链路内的监控模块执行,所述监控设备以交互方式联结至被监控链路的交换设备。在501,根据初始的基线数据集生成链路流量分布的具有代表性的统计经验模型。例如,所述基线数据集包括N个区间的链接流量分布数据,比如每一区间为1分钟,N为100。特定数字仅仅是示例性的,本公开不被限定于此。区间跨度及样本容量可据以下考虑因素选择,如:各种工程限制导致的数据采集噪声、流量分布的统计属性以及概率分布的充分代表性。
所述基线数据集内的每一基线数据对应于所述链路的一侧的特定方向(入口或出口)的全部链接各自分担的流量占比。每一链接的流量数据可在每一区间内采集,并提供给用于故障检测目的的监控设备或监控模块。所述模型可以对应于包括一组预期链接流量占比的预期链接流量分布。在一些实施例中,一链接的预期占比可通过对所述基线数据集中该链路的流量占比取平均值而获得。一个正常区域和一个或多个异常区域可定义为预期链接流量分布的函数。
在502,采集所述链接的流量数据并周期性生成链接流量分布数据,例如每分钟,与501中生成基线数据集方式相同。在503,使用新链接流量分布数据实时更新所述统计模型,同时保持所述基线数据集内的数据量不变。在504,根据更新后的统计模型评估每一新链接流量分布基线数据,以确定其是否在异常区域之中。在505,如果连续出现M个异常值,则生成告警,所述告警触发各种进一步操作,比如故障核查、诊断操作等。例如,M预定义为3。
图6是根据本公开其一实施例的用于链路的统计模型构建及相应的故障检测的示例性计算机实现过程600的流程图。在601,区间索引“i”设为1。在602,区间Ti的链接流量分布基线数据Ai,是根据检测到的所述区间内累计的实时流量确定的。例如,Ai包括一个区间内全部链接的A侧入口流量,Ai=(V1_i,V2_i,V3_i,V4_i)。在一些实施例中,Ai可以包括从所述链接流量得出的入口链接流量占比或任何其他适于代表链接流量分布的链接流量变量。
在603,确定Ai是否为一个合格的基线数据,例如,能提供有效流量数据的功能性链接的数量在最近3个连续区间是否已发生变化。如果是,在604生成故障告警。
对于一个合格的基线数据而言,然后确定是否将其增加至所述统计模型的基线数据集。尤其是,在605,确定当前基线数据集是否少于100个基线数据。如果是,将新基线数据Ai增加至用于所述统计模型的初始构建的基线数据集,例如,根据所述基线数据集获取所述预期链接流量分布。在614,索引i进行递增。
在一些实施例中,所述预期分布对应于所述基线数据集的平均分布。可以理解的是,平均值的各种其他形式或其他统计指标可被采用,而并不脱离本公开的范围。
如果所述基线数据集已达到100个,在607评估当前连接流量分布与预期链接流量分布之间的距离,该结果然后在608用于判断Ai是否为异常值。例如,如果下述表达式成立,则Ai定义为异常值:
Figure BDA0003221360720000111
其中,Vj_i是链接j在区间i的入口流量;Vall为经过全部链接的总入口流量;
Figure BDA0003221360720000112
为根据所述模型的每一区间内链接j流量的预期占比;X为预先设定的阈值。
如果Ai为异常值,在610进行记录。在611,进一步确定Ai是否为连续检测到的第三个异常值。如果是,意味着已经连续有3个异常值,在612生成告警。在614,索引i进行递增。如果Ai非异常值,使用Ai替换所述基线数据集中的最早基线数据,从而在606更新所述统计模型。例如,Ai在重新计算所述预期链接流量分布中被合并。在614,索引i进行递增。在每一区间重复上述处理602-614。
在一些实施例中,在606中Ai按照预定几率随机选择,例如,10%。如果Ai被选中,使用Ai替换所述基线数据集中最早的基线数据,从而更新所述统计模型。
图7是根据本公开其一实施例的基于流量统计的实时设备故障检测及链接检测的示例性计算***700的框图。所述计算***包括:主处理器(CPU)701,***存储器702,图形处理单元(GPU)703,I/O接口704以及网络链路705,操作***706以及包括实时故障检测模块720和730并存储于存储器702的应用软件710。所述***700通过网络接口以交互方式联结至交换设备。
当合并来源于交换设备750的流量数据,并被CPU 701执行时,设备故障检测模块720能根据如图1-3中详细描述的流量统计实时检测设备故障。所述设备故障检测模块720包括:网络流量数据生成模块721,基线数据集模块722,统计模型模块722和设备故障处理模块724。
所述网络流量数据生成模块721被配置为计算每一区间交换设备750的入口与出口流量之间的差异。所述基线数据集模块722通过选择性接受合格新数据并删除最早的数据,保持基线数据集的固定数据量。所述统计模型模块723能计算所述基线数据集的平均值及标准差,每次所述基线数据集用新基线数据进行更新时,更新这些统计指标。所述设备故障处理模块724可根据所述模型判断一个新基线数据是否异常值,响应于检测到连续出现异常值,生成告警,并执行故障检测、核查及诊断的各种其他操作。
当合并来自于所述交换设备750(或链路中其他任何类型设备)的流量数据,并被CPU 701执行时,链接故障检测模块720可根据如图4-6中详细描述的流量统计,实时检测链接故障。所述链接故障检测模块730包括:链接流量分布生成模块731,基线数据集模块732,统计模型模块733以及链接故障处理模块724。
所述链接流量分布生成模块731被配置为计算每一区间所述链路中链接流量占比。所述基线数据集模块732通过选择性接受合格新数据并删除最早的数据,保持基线数据集的固定数据量。所述统计模型模块733能计算预期链接流量分布,并且,当使用一个新基线数据更新所述基线数据集时更新所述预期分布。所述链接故障处理模块734能根据所述模型判断一个新基线数据是否为异常值,响应于检测到连续出现异常值,产生告警,以及故障检测、核查及诊断的各种其他操作。
本领域普通技术人员可以理解的是,所述故障检测模块720和730能以本领域内技术人员所熟知的任何一种或多种合适的编程语言实现。在一些实施例中,一个***仅包括故障检测模块720和730两者之一。
尽管本文中已经公开特定的优选实施例和方法,但是,从上述公开对这些实施例和方法做出变型及修改而不脱离本发明的精神及范围,对本领域技术人员将是显而易见的。意图是本发明仅限于所附权利要求以及适用法律的规则和原则所要求的范围。

Claims (19)

1.一种用于网络交换设备的实时故障检测方法,所述方法包括:
为复数个区间的每一区间确定一个网络流量基线数据;
根据所述网络流量基线数据,为所述交换设备动态更新与每一区间网络流量相关联的网络流量统计数据集合;
根据所述网络流量统计数据集合和预先设定的阈值,判断所述网络流量基线数据为异常值;并且,
响应于预先设定数量的网络流量基线数据被确定为异常值,生成故障告警。
2.如权利要求1所述的方法,其特征在于,入口流量对应于经过所述交换设备的全部入端口的入口流量之和;出口流量对应于经过所述交换设备的全部出端口的出口流量之和。
3.如权利要求1所述的方法,其特征在于,所述网络流量统计数据集合包括:基线数据集上的网络流量数据的平均值和标准差;
所述根据所述网络流量统计数据集合和预先设定的阈值,判断所述网络流量基线数据为异常值,包括:
根据所述网络流量基线数据和所述平均值之间的距离,以及进一步根据所述距离相对于所述标准差之间的比率,确定所述网络流量基线数据为异常值。
4.如权利要求1所述的方法,其特征在于,还包括:
确定基线数据集的网络流量统计数据集合;其中,所述基线数据集包括第一复数个连续区间的网络流量数据。
5.如权利要求4所述的方法,其特征在于,所述根据所述网络流量基线数据,为所述交换设备动态更新与每一区间网络流量相关联的网络流量统计数据集合,包括:
通过将所述区间的网络流量基线数据增加至所述基线数据集,并从所述基线数据集删除最早的网络流量基线数据,更新所述基线数据集;并且,
根据更新后的基线数据集,重新计算所述网络流量统计数据集合。
6.如权利要求5所述的方法,其特征在于,所述更新所述基线数据集,包括:
根据下述条件确定所述网络流量基线数据是用于所述更新处理的合格基线数据:
前一网络流量基线数据未被判断为异常值;并且,入口流量和出口流量大于预先设定的阈值。
7.一种用于网络链路群的实时故障检测方法,所述方法包括:
采集复数个区间的每一区间内所述网络链路群的实时流量;其中,所述网络链路群包括:第一端、第二端以及复数个功能等同的链接;其中,所述区间的实时流量包括:
由所述第一端至所述第二端的复数个链接的各自的链接流量;以及,
由所述第一端至所述第二端的网络链路群的链路流量;
根据所述区间的实时流量,为所述网络链路群动态更新预期链接流量分布;
根据所述预期链接流量分布,评估所述区间的实时链接流量;
根据偏差判断所述区间的实时流量为异常值;并且,
响应于预先设定数量的区间的实时流量被判断为异常值,生成故障告警。
8.如权利要求7所述的方法,还包括:
确定所述复数个链接的实时链接流量分布,所述实时链接流量分布对应于所述区间的各个链接流量相对于所述链路流量的比例;
其中,所述根据所述预期链接流量分布,评估所述区间的实时链接流量,包括:
根据所述预期链接流量分布,评估所述实时链接流量分布。
9.如权利要求7所述的方法,其特征在于,所述根据所述预期链接流量分布,评估所述区间的实时链接流量,包括:
评估每一链接的流量占比与所述链接的预期流量占比之间的距离。
10.如权利要求7所述的方法,其特征在于,还包括:
根据基线数据集确定所述预期链接流量分布,其中,所述根据所述区间的实时流量,为所述网络链路群动态更新预期链接流量分布,包括:
通过将所述区间的实时流量增加至所述基线数据集,并从所述基线数据集删除最早实时流量,更新所述基线数据集;并且,
根据更新后的基线数据集重新计算所述预期链接流量分布。
11.如权利要求10所述的方法,其特征在于,所述更新所述基线数据集,包括:
确定所述区间的实时流量为用于更新所述基线数据集的合格基线数据;并且,
根据选择概率随机选择用于更新所述基线数据集的所述区间的实时流量。
12.如权利要求10所述的方法,其特征在于,所述更新所述基线数据集,包括:
根据下述条件确定所述区间的实时流量为用于更新所述基线数据集的合格基线数据:
提供有效实时流量的所述复数个链接的链接数量相对于前一区间保持不变。
13.一种***,包括:
处理器;以及存储器;所述存储器联结至所述处理器,并存储有指令,其中,所述指令被所述处理器执行时,实现一种用于交换设备的故障检测方法,其中,所述方法包括:
为复数个区间的每一区间确定一个网络流量基线数据;
根据所述网络流量基线数据,为所述交换设备动态更新与每一区间网络流量相关联的网络流量统计数据集合;
根据所述网络流量统计数据集合和预先设定的阈值,判断所述网络流量基线数据为异常值;并且,
响应于预先设定数量的网络流量基线数据被判断为异常值,生成故障告警。
14.如权利要求13所述的***,其特征在于,入口流量对应于经过所述交换设备的全部入端口的入口流量之和;出口流量对应于经过所述交换设备的全部出端口的出口流量之和。
15.如权利要求13所述的***,其特征在于,所述网络流量统计数据集合包括:基线数据集上的网络流量数据的平均值和标准差;
所述根据所述网络流量统计数据集合和预先设定的阈值,判断所述网络流量基线数据为异常值,包括:
根据所述网络流量基线数据和所述平均值之间的距离,以及进一步根据所述距离相对于所述标准差之间的比率,判断所述网络流量基线数据为异常值。
16.如权利要求13所述的***,其特征在于,所述方法还包括:
确定基线数据集的网络流量统计数据集合;其中,所述基线数据集包括第一复数个连续区间的网络流量数据。
17.如权利要求16所述的***,其特征在于,所述根据所述网络流量基线数据,为所述交换设备动态更新每一区间与网络流量相关联的网络流量统计数据集合,包括:
通过将所述区间的网络流量基线数据增加至所述基线数据集,并从所述基线数据集删除最早的网络流量基线数据,更新所述基线数据集;并且,
根据更新后的基线数据集,重新计算所述网络流量统计数据集合。
18.如权利要求17所述的***,其特征在于,所述更新所述基线数据集,包括:
确定所述网络流量基线数据是合格基线数据;并且,
根据选择概率随机选择用于更新所述基线数据集的网络流量基线数据。
19.如权利要求17所述的***,其特征在于,所述更新所述基线数据集,包括:
根据下述条件确定所述网络流量基线数据是合格基线数据:前一网络流量基线数据未被判断为异常值;并且,入口流量和出口流量都大于预先设定的阈值。
CN201980092647.2A 2019-05-15 2019-05-15 基于流量统计的网络设备及链路实时故障检测方法和*** Pending CN113454950A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/087086 WO2020227985A1 (en) 2019-05-15 2019-05-15 Real-time fault detection on network devices and circuits based on traffic volume statistics

Publications (1)

Publication Number Publication Date
CN113454950A true CN113454950A (zh) 2021-09-28

Family

ID=73289095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980092647.2A Pending CN113454950A (zh) 2019-05-15 2019-05-15 基于流量统计的网络设备及链路实时故障检测方法和***

Country Status (2)

Country Link
CN (1) CN113454950A (zh)
WO (1) WO2020227985A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112887123A (zh) * 2021-01-06 2021-06-01 新浪网技术(中国)有限公司 一种基于调用链的业务报警方法、***及装置
CN116938684B (zh) * 2023-09-19 2023-12-26 北京锐服信科技有限公司 一种网络故障诊断方法与***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130329571A1 (en) * 2011-03-03 2013-12-12 Hitachi, Ltd. Failure analysis device, and system and method for same
US20140269339A1 (en) * 2013-03-13 2014-09-18 Telekom Malaysia Berhad System for analysing network traffic and a method thereof
CN104717106A (zh) * 2015-03-04 2015-06-17 贵州电网公司信息通信分公司 一种基于多变量序贯分析的分布式网络流量异常检测方法
CN104954192A (zh) * 2014-03-27 2015-09-30 东华软件股份公司 一种网络流量监测方法和设备
CN107276808A (zh) * 2017-06-21 2017-10-20 北京华创网安科技股份有限公司 一种流量异常监测的优化方法
CN107733921A (zh) * 2017-11-14 2018-02-23 深圳中兴网信科技有限公司 网络流量异常检测方法、装置、计算机设备和存储介质
CN107888441A (zh) * 2016-09-30 2018-04-06 全球能源互联网研究院 一种网络流量基线自学习自适应方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1256638C (zh) * 2001-02-02 2006-05-17 辽宁般若网络科技有限公司 容错阵列服务器
US7734778B2 (en) * 2002-04-05 2010-06-08 Sheng (Ted) Tai Tsao Distributed intelligent virtual server
CN105718715B (zh) * 2015-12-23 2018-10-30 华为技术有限公司 异常检测方法和设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130329571A1 (en) * 2011-03-03 2013-12-12 Hitachi, Ltd. Failure analysis device, and system and method for same
US20140269339A1 (en) * 2013-03-13 2014-09-18 Telekom Malaysia Berhad System for analysing network traffic and a method thereof
CN104954192A (zh) * 2014-03-27 2015-09-30 东华软件股份公司 一种网络流量监测方法和设备
CN104717106A (zh) * 2015-03-04 2015-06-17 贵州电网公司信息通信分公司 一种基于多变量序贯分析的分布式网络流量异常检测方法
CN107888441A (zh) * 2016-09-30 2018-04-06 全球能源互联网研究院 一种网络流量基线自学习自适应方法
CN107276808A (zh) * 2017-06-21 2017-10-20 北京华创网安科技股份有限公司 一种流量异常监测的优化方法
CN107733921A (zh) * 2017-11-14 2018-02-23 深圳中兴网信科技有限公司 网络流量异常检测方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张敏;: "试论网络流量异常分析现状及问题", 电脑编程技巧与维护, no. 08, 18 April 2010 (2010-04-18) *

Also Published As

Publication number Publication date
WO2020227985A1 (en) 2020-11-19

Similar Documents

Publication Publication Date Title
US8156377B2 (en) Method and apparatus for determining ranked causal paths for faults in a complex multi-host system with probabilistic inference in a time series
JP6706321B2 (ja) サービス呼び出し情報処理の方法及びデバイス
US8230262B2 (en) Method and apparatus for dealing with accumulative behavior of some system observations in a time series for Bayesian inference with a static Bayesian network model
US8291263B2 (en) Methods and apparatus for cross-host diagnosis of complex multi-host systems in a time series with probabilistic inference
US8069370B1 (en) Fault identification of multi-host complex systems with timesliding window analysis in a time series
US7693982B2 (en) Automated diagnosis and forecasting of service level objective states
US7113988B2 (en) Proactive on-line diagnostics in a manageable network
US7711987B2 (en) System and method for problem determination using dependency graphs and run-time behavior models
US7509234B2 (en) Root cause diagnostics using temporal data mining
US8352789B2 (en) Operation management apparatus and method thereof
US20140258187A1 (en) Generating database cluster health alerts using machine learning
US20110276836A1 (en) Performance analysis of applications
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
US9704382B2 (en) Method for calculating error rate of alarm
CN111611146B (zh) 一种微服务故障预测方法和装置
CN101783749B (zh) 一种网络故障定位方法和装置
EP3163519A1 (en) Methods for detecting one or more aircraft anomalies and devices thereof
CN111796956A (zh) 分布式***故障诊断方法、装置、设备及存储介质
CN115118621B (zh) 一种基于依赖关系图的微服务性能诊断方法及***
CN113454950A (zh) 基于流量统计的网络设备及链路实时故障检测方法和***
CN110300008A (zh) 一种确定网络设备的状态的方法及装置
KR102234054B1 (ko) 리스크 평가 장치, 리스크 평가 시스템, 리스크 평가 방법, 리스크 평가 프로그램 및 데이터 구조
Strasser et al. Diagnostic alarm sequence maturation in timed failure propagation graphs
US8972789B2 (en) Diagnostic systems for distributed network
CN116541728A (zh) 一种基于密度聚类的故障诊断方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination