CN106452811A - 一种故障排查方法和*** - Google Patents

一种故障排查方法和*** Download PDF

Info

Publication number
CN106452811A
CN106452811A CN201510484578.3A CN201510484578A CN106452811A CN 106452811 A CN106452811 A CN 106452811A CN 201510484578 A CN201510484578 A CN 201510484578A CN 106452811 A CN106452811 A CN 106452811A
Authority
CN
China
Prior art keywords
message
functional module
information
node
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510484578.3A
Other languages
English (en)
Other versions
CN106452811B (zh
Inventor
朱志伟
刘立杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING LEADSEC TECHNOLOGY CO LTD
Venustech Group Inc
Original Assignee
BEIJING LEADSEC TECHNOLOGY CO LTD
Venustech Group Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING LEADSEC TECHNOLOGY CO LTD, Venustech Group Inc filed Critical BEIJING LEADSEC TECHNOLOGY CO LTD
Priority to CN201510484578.3A priority Critical patent/CN106452811B/zh
Publication of CN106452811A publication Critical patent/CN106452811A/zh
Application granted granted Critical
Publication of CN106452811B publication Critical patent/CN106452811B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • H04L41/0661Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities by reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • H04L43/106Active monitoring, e.g. heartbeat, ping or trace-route using time related information in packets, e.g. by adding timestamps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种故障排查方法和***,包括:监控流经网络故障节点中各个功能模块的报文的处理流程;其中,该报文是根据网络故障节点的节点信息预先构造的,或者是从网络流量中预先抓取的。指示处理流程出现以下至少一种预定问题的功能模块进行自检;该预定问题包括:报文被丢弃,处理报文的延时大于或等于预设的延时阈值。根据自检结果确定故障原因,并确定故障原因对应的修复方法。通过本发明的方案,能够通过简单的配置来排查故障,给出详细的故障原因,并提供与之对应的修复方案,使故障的排查与修复更加简单可靠。

Description

一种故障排查方法和***
技术领域
本发明涉及网络安全领域,具体涉及一种故障排查方法和***。
背景技术
当前随着网络环境越来越复杂,要求网络安全设备的适应性越来越强,与之应对的是网络安全设备的功能集合越来越庞大,配置管理逻辑越来越复杂,随之而来在设备上线与维护过程中由于各种原因出现了大量的网络故障,如何快速的排查并修复故障成为网络管理人员的首要事情。
在网络故障中经常需要处理的是某个网络节点的用户无法访问另一个节点的某个业务,这可以通过网络故障诊断设备来定位故障设备,但这只能定位到该设备存在故障,并无法知晓该设备具体是哪一个功能模块引起的问题,因此还需要通过设备自身的方法与***来进一步排查问题。当前防火墙与安全网关设备提供的排查方法有两种:
一种是在通过设备的日志***来查找关于指定网络节点的日志,分析日志定位故障原因,但是正常情况下日志量非常庞大,分析耗时长并且容易遗漏。
一种是通过打开设备的调试***,收集调试信息来定位故障原因,但这种手段太专业难度大,不容易掌握。
发明内容
为了解决上述问题,本发明提出了一种故障排查方法和***,能够通过简单的配置来排查故障,给出详细的故障原因,并提供与之对应的修复方案,使故障的排查与修复更加简单可靠。
为了达到上述目的,本发明提出了一种故障排查方法,该方法包括:
监控流经网络故障节点中各个功能模块的报文的处理流程;其中,该报文是根据网络故障节点的节点信息预先构造的,或者是从网络流量中预先抓取的。
指示处理流程出现以下至少一种预定问题的功能模块进行自检;该预定问题包括:报文被丢弃,处理报文的延时大于或等于预设的延时阈值。
根据自检结果确定故障原因,并确定故障原因对应的修复方法。
优选地,报文的报文信息包括:源IP地址、目的IP地址、节点入接口、节点出接口、协议和服务。
优选地,监控流经网络故障节点中各个功能模块的报文的处理流程包括:
在网络故障节点的各个功能模块的报文处理总入口处设置入口监控点;并按照各功能模块处理报文的顺序,分别在各个功能模块和下一个功能模块之间设置一个监控点,在最后一个功能模块后设置最后一个监控点。
将流经入口监控点的报文的报文信息与预先设置的匹配信息进行匹配,如果报文信息与匹配信息不匹配,则忽略该报文;如果报文信息与匹配信息相匹配,则标记该报文需要监控,记录被标记的报文的报文信息并将该报文信息显示出来;其中,匹配信息是预先根据网络故障节点的节点信息生成的,包括以下信息的一种或多种:源IP地址、目的IP地址、节点入接口、节点出接口、协议和服务。
分别检查流经每个功能模块后面的监控点的报文是否有需要被监控的标记,如果该报文没有需要被监控的标记,则忽略该报文;如果该报文有需要被监控的标记,则记录该报文的报文信息和标记该报文在该功能模块中的处理时间长度的时间戳,并对该报文信息和时间戳进行显示;并检查该报文是否被该报文所流经的功能模块设置为丢弃,或者将该报文的时间戳与上一个报文的时间戳进行比较,检查该报文的延时是否大于或等于预设的延时阈值。
优选地,指示处理流程出现以下至少一种预定问题的功能模块进行自检包括:
指示处理流程出现以下至少一种预定问题的功能模块进行如下操作:
以相同的方式对用户配置参数和功能模块的运行配置参数进行设置。
分别计算用户配置参数的信息摘要算法MD5值与运行配置参数的MD5值。
将计算出的两个MD5值进行比较,当比较结果为两个MD5值不一致时,判定用户配置参数与运行配置参数不同步。
备份用户配置参数并清除当前的用户配置参数。
添加预设的一个或多个测试用例,基于运行配置参数检查功能模块的运行状态是否正常。
基于检测结果生成功能模块的自检结果。
优选地,根据自检结果确定故障原因,并确定故障原因对应的修复方法包括:
根据自检结果获取功能模块的故障原因,根据该故障原因和预设的映射表获得与该故障原因相对应的修复方法。
其中,映射表包括预先收集的网络故障节点的各个功能模块的各种故障原因和与各种故障原因一一对应的修复方法;各种故障原因中包括预定义并预保存的各种故障原因的编号以及文字描述;修复方法中包括预定义并预保存的修复方法的文字描述、步骤设置以及步骤参数配置。
为了达到上述目的,本发明还提出了一种故障排查***,该***包括:监控模块、指示模块和确定模块。
监控模块,用于监控流经网络故障节点中各个功能模块的报文的处理流程;其中,该报文是根据网络故障节点的节点信息预先构造的,或者是从网络流量中预先抓取的。
指示模块,用于指示处理流程出现以下至少一种预定问题的功能模块进行自检;该预定问题包括:报文被丢弃,处理该报文的延时大于或等于预设的延时阈值。
确定模块,用于根据自检结果确定故障原因,并确定故障原因的修复方法。
优选地,
该报文的报文信息包括:源IP地址、目的IP地址、节点入接口、节点出接口、协议和服务。
优选地,监控模块监控流经网络故障节点中各个功能模块的报文的处理流程是指:
在网络故障节点的各个功能模块的报文处理总入口处设置入口监控点;并按照各功能模块处理该报文的顺序,分别在各个功能模块和下一个功能模块之间设置一个监控点,在最后一个功能模块后设置最后一个监控点。
将流经入口监控点的报文的报文信息与预先设置的匹配信息进行匹配,如果报文信息与匹配信息不匹配,则忽略该报文;如果报文信息与配置信息相匹配,则标记该报文需要监控,记录被标记的报文的报文信息并将该报文信息显示出来;其中,该匹配信息是预先根据网络故障节点的节点信息生成的,包括以下信息的一种或多种:源IP地址、目的IP地址、节点入接口、节点出接口、协议和服务。
分别检查流经每个功能模块后面的监控点的报文是否有需要被监控的标记,如果该报文没有需要被监控的标记,则忽略该报文;如果该报文有需要被监控的标记,则记录该报文的报文信息和标记该报文在该功能模块中的处理时间长度的时间戳,并对该报文信息和时间戳进行显示;并检查该报文是否被该报文所流经的功能模块设置为丢弃,或者将该报文的时间戳与上一个报文的时间戳进行比较,检查该报文的延时是否大于或等于预设的延时阈值。
优选地,指示模块指示处理流程出现以下至少一种预定问题的功能模块进行自检是指:
指示处理流程出现以下至少一种预定问题的功能模块进行如下操作:
以相同的方式对用户配置参数和功能模块的运行配置参数进行设置。
分别计算用户配置参数的信息摘要算法MD5值与运行配置参数的MD5值。
将计算出的两个MD5值进行比较,当比较结果为两个MD5值不一致时,判定用户配置参数与运行配置参数不同步。
备份用户配置参数并清除当前的用户配置参数。
添加预设的一个或多个测试用例,基于运行配置参数检查功能模块的运行状态是否正常。
基于检测结果生成功能模块的自检结果。
优选地,确定模块根据自检结果确定故障原因,并确定该故障原因对应的修复方法是指:
根据自检结果获取功能模块的故障原因,根据故障原因和预设的映射表获得与故障原因相对应的修复方法。
其中,映射表包括预先收集的网络故障节点的各个功能模块的各种故障原因和与各种故障原因一一对应的修复方法;各种故障原因中包括预定义并预保存的各种故障原因的编号以及文字描述;修复方法中包括预定义并预保存的修复方法的文字描述、步骤设置以及步骤参数配置。
与现有技术相比,本发明包括:监控流经网络故障节点中各个功能模块的报文的处理流程;其中,该报文是根据网络故障节点的节点信息预先构造的,或者是从网络流量中预先抓取的。指示处理流程出现以下至少一种预定问题的功能模块进行自检;该预定问题包括:报文被丢弃,处理报文的延时大于或等于预设的延时阈值。根据自检结果确定故障原因,并确定故障原因对应的修复方法。通过本发明的方案,能够通过简单的配置来排查故障,给出详细的故障原因,并提供与之对应的修复方案,使故障的排查与修复更加简单可靠。
附图说明
下面对本发明实施例中的附图进行说明,实施例中的附图是用于对本发明的进一步理解,与说明书一起用于解释本发明,并不构成对本发明保护范围的限制。
图1为本发明的故障排查方法流程图;
图2为本发明实施例的监控点设置示意图;
图3为本发明实施例的报文信息和时间戳显示示意图;
图4为本发明实施例的报文信息、故障原因和修复方法显示示意图;
图5为本发明的故障排查***组成框图。
具体实施方式
为了便于本领域技术人员的理解,下面结合附图对本发明作进一步的描述,并不能用来限制本发明的保护范围。
为了达到上述目的,本发明提出了一种故障排查方法,如图1所示,该方法包括:
S101、监控流经网络故障节点中各个功能模块的报文的处理流程;其中,该报文是根据网络故障节点的节点信息预先构造的,或者是从网络流量中预先抓取的。
优选地,报文的报文信息包括:源IP地址、目的IP地址、节点入接口、节点出接口、协议和服务。
在本发明实施例中,用户可以预先根据网络故障节点的节点信息,配置源IP地址、目的IP地址、节点入接口、节点出接口及服务等,构造出不同的报文,使该报文流经该网络故障节点,查看该报文在网络故障节点的哪一部分出现问题,从而明确故障现象。我们还可以根据网络故障节点的实际环境参数,不限于上述的网络故障节点的节点信息,生成报文,用来明确网络故障节点的故障现象。另外,针对上线之前需要经过网络测试的网络项目,我们可以从需测试的网络流量中抓取部分报文,使其流经网络故障节点,确认该部分报文会在网络故障节点的哪一部分出现问题,这样避免了该网络项目上线之后在网络故障节点中出现故障后再进行拯救而带来的损失。
优选地,监控流经网络故障节点中各个功能模块的报文的处理流程包括:
S1011、在网络故障节点的各个功能模块的报文处理总入口处设置入口监控点;并按照各功能模块处理报文的顺序,分别在各个功能模块和下一个功能模块之间设置一个监控点,在最后一个功能模块后设置最后一个监控点。
在本发明实施例中,一个网络故障节点会包括一个或多个顺序执行的功能模块,为了明确具体是哪个功能模块出现问题,我们需要在每个功能模块后面添加一个测试监控点,在第一个功能模块后面添加第一个监控点,第二个功能模块后面添加第二个监控点,第三个功能模块后面添加第三个监控点,以此类推,将报文监控具体到每一个功能模块。例如,假设防火墙与安全网关设备存在n个功能模块,其中包括会话处理功能模块、地址转换功能模块、安全策略功能模块、入侵防御功能模块等,首先,我们在报文处理总入口设置监测点J0,在会话处理功能模块后面设置监控点J1,在地址转换功能模块后面设置监控点J2,在安全策略功能模块后面设置监控点J3,在入侵防御功能模块后面设置监控点J4。具体如图2所示。
S1012、将流经入口监控点的报文的报文信息与预先设置的匹配信息进行匹配,如果报文信息与匹配信息不匹配,则忽略该报文;如果报文信息与匹配信息相匹配,则标记该报文需要监控,记录被标记的报文的报文信息并将该报文信息显示出来;其中,匹配信息是预先根据网络故障节点的节点信息生成的,包括以下信息的一种或多种:源IP地址、目的IP地址、节点入接口、节点出接口、协议和服务。
在本发明实施例中,会在入口监控点中预先根据网络故障节点的节点信息生成一组匹配信息,该匹配信息形成流经该网络故障节点的报文的过滤器,报文流经该过滤器时,如果报文的报文信息与预先设置的匹配信息均不匹配,则说明可以忽略该报文,该报文将会顺利通过该网络故障节点的各个模块,如果报文的报文信息与预先设置的匹配信息相匹配,则说明该报文需要留意或需要监控,并对该报文进行标记,并且报该报文的报文信息以直观的形式显示出来,以便管理者可以随时了解该报文的信息,并对其追踪监测。
S1013、分别检查流经每个功能模块后面的监控点的报文是否有需要被监控的标记,如果该报文没有需要被监控的标记,则忽略该报文;如果该报文有需要被监控的标记,则记录该报文的报文信息和标记该报文在该功能模块中的处理时间长度的时间戳,并对该报文信息和时间戳进行显示(具体如图3所示);并检查该报文是否被该报文所流经的功能模块设置为丢弃,或者将该报文的时间戳与上一个报文的时间戳进行比较,检查该报文的延时是否大于或等于预设的延时阈值。
在本发明实施例中,基于上述步骤中在入口监控点对每个报文进行过滤后,当该报文流经每个功能模块的监控点时,这些监测点首先检查报文是否有需要监控的标志,如果需要监控,则在当前功能模块中检测报文是否被功能模块设置为丢弃,或者通过与上一个报文的时间戳对比检查延时是否过大。
S102、指示处理流程出现以下至少一种预定问题的功能模块进行自检;该预定问题包括:报文被丢弃,处理报文的延时大于或等于预设的延时阈值。
在本发明实施例中,如果当前功能模块检测出该报文在流经该功能模块时出现报文被丢弃和处理该报文的延时大于或等于预设的延时阈值(该延时阈值可以根据具体环境进行预定义)中的任意一种情况,则说明该功能模块存在故障,该功能模块自动进入自检程序。下面将详细介绍该功能模块如何完成自检程序。
优选地,指示处理流程出现以下至少一种预定问题的功能模块进行自检包括:
指示处理流程出现以下至少一种预定问题的功能模块进行如下操作:
S1021、以相同的方式对用户配置参数和功能模块的运行配置参数进行设置。
S1022、分别计算用户配置参数的信息摘要算法MD5值与运行配置参数的MD5值。
S1023、将计算出的两个MD5值进行比较,当比较结果为两个MD5值不一致时,判定用户配置参数与运行配置参数不同步。
S1024、备份用户配置参数并清除当前的用户配置参数。
S1025、添加预设的一个或多个测试用例,基于运行配置参数检查功能模块的运行状态是否正常。
S1026、基于检测结果生成功能模块的自检结果。
在本发明实施例中,通过上述步骤可以确定该功能模块的故障时由于用户配置参数与运行配置参数不匹配造成的故障,还是由于运行配置参数设置不合理出现的故障等,在这里,我们会预先根据该功能模块的运行情况设置多个不同的测试用例,每一个测试用例可以测试该功能模块不同的运行性能,当通过某一个测试用例进行运行测试时出现问题,则说明该功能模块负责该项性能的部分出现故障,从而可以明确功能模块的具体故障原因。
S103、根据自检结果确定故障原因,并确定故障原因对应的修复方法。
在上述步骤中,通过功能模块的自检可以明确确定功能模块的哪一部分出现了故障,找到了功能模块的故障原因,并可以根据该故障原因确定预期相应的修复方法。进一步地,可以将该报文的报文信息,功能模块的故障原因以及相应的修复方法显示出来,具体如图4所示。
优选地,根据自检结果确定故障原因,并确定故障原因对应的修复方法包括:
根据自检结果获取功能模块的故障原因,根据该故障原因和预设的映射表获得与该故障原因相对应的修复方法。
其中,映射表包括预先收集的网络故障节点的各个功能模块的各种故障原因和与各种故障原因一一对应的修复方法;各种故障原因中包括预定义并预保存的各种故障原因的编号以及文字描述;修复方法中包括预定义并预保存的修复方法的文字描述、步骤设置以及步骤参数配置。
这里,预设的故障原因和修复方法的映射表的设置方法可以通过以下步骤完成:
S1031、预先收集所述网络故障节点的各个功能模块的各种故障原因。
S1032、预定义并保存各种所述故障原因的编号以及文字描述。
S1033、预定义并保存与各种所述故障原因相对应的所述修复方法的文字描述、步骤设置以及步骤参数配置。
S1034、将预定义的各种所述故障原因的编号和文字描述与各种所述故障原因相对应的所述修复方法的文字描述、步骤设置以及步骤参数配置分别一一对应起来,构成所述故障原因和所述修复方法的映射表。
在本发明实施例中,在找到了故障的修复方法后,我们可以通过手动或自动的方式来对该功能模块的故障进行修复。
具体地,根据修复方法对功能模块的故障进行修复可以通过以下步骤实现:
根据故障原因和映射表获取修复方法后,依据网络故障节点的节点信息为修复方法提供步骤参数配置需要的配置参数。
在每条修复步骤的步骤参数配置完成之后,依据修复方法的步骤设置逐条执行修复步骤。
为了达到上述目的,本发明还提出了一种故障排查***01,如图5所示,该***包括:监控模块02、指示模块03和确定模块04。
监控模块02,用于监控流经网络故障节点中各个功能模块的报文的处理流程;其中,该报文是根据网络故障节点的节点信息预先构造的,或者是从网络流量中预先抓取的。
指示模块03,用于指示处理流程出现以下至少一种预定问题的功能模块进行自检;该预定问题包括:报文被丢弃,处理该报文的延时大于或等于预设的延时阈值。
确定模块04,用于根据自检结果确定故障原因,并确定故障原因的修复方法。
优选地,
该报文的报文信息包括:源IP地址、目的IP地址、节点入接口、节点出接口、协议和服务。
优选地,监控模块02监控流经网络故障节点中各个功能模块的报文的处理流程是指:
在网络故障节点的各个功能模块的报文处理总入口处设置入口监控点;并按照各功能模块处理该报文的顺序,分别在各个功能模块和下一个功能模块之间设置一个监控点,在最后一个功能模块后设置最后一个监控点。
将流经入口监控点的报文的报文信息与预先设置的匹配信息进行匹配,如果报文信息与匹配信息不匹配,则忽略该报文;如果报文信息与配置信息相匹配,则标记该报文需要监控,记录被标记的报文的报文信息并将该报文信息显示出来;其中,该匹配信息是预先根据网络故障节点的节点信息生成的,包括以下信息的一种或多种:源IP地址、目的IP地址、节点入接口、节点出接口、协议和服务。
分别检查流经每个功能模块后面的监控点的报文是否有需要被监控的标记,如果该报文没有需要被监控的标记,则忽略该报文;如果该报文有需要被监控的标记,则记录该报文的报文信息和标记该报文在该功能模块中的处理时间长度的时间戳,并对该报文信息和时间戳进行显示;并检查该报文是否被该报文所流经的功能模块设置为丢弃,或者将该报文的时间戳与上一个报文的时间戳进行比较,检查该报文的延时是否大于或等于预设的延时阈值。
优选地,指示模块03指示处理流程出现以下至少一种预定问题的功能模块进行自检是指:
指示处理流程出现以下至少一种预定问题的功能模块进行如下操作:
以相同的方式对用户配置参数和功能模块的运行配置参数进行设置。
分别计算用户配置参数的信息摘要算法MD5值与运行配置参数的MD5值。
将计算出的两个MD5值进行比较,当比较结果为两个MD5值不一致时,判定用户配置参数与运行配置参数不同步。
备份用户配置参数并清除当前的用户配置参数。
添加预设的一个或多个测试用例,基于运行配置参数检查功能模块的运行状态是否正常。
基于检测结果生成功能模块的自检结果。
优选地,确定模块04根据自检结果确定故障原因,并确定该故障原因对应的修复方法是指:
根据自检结果获取功能模块的故障原因,根据故障原因和预设的映射表获得与故障原因相对应的修复方法。
其中,映射表包括预先收集的网络故障节点的各个功能模块的各种故障原因和与各种故障原因一一对应的修复方法;各种故障原因中包括预定义并预保存的各种故障原因的编号以及文字描述;修复方法中包括预定义并预保存的修复方法的文字描述、步骤设置以及步骤参数配置。
优选地,该***还包括:修复模块05。
修复模块05,用于根据修复方法对功能模块的故障进行修复。
优选地,修复模块根据修复方法对功能模块的故障进行修复是指:
根据故障原因和映射表获取所述修复方法后,依据网络故障节点的节点信息为修复方法提供步骤参数配置需要的配置参数。
在每条修复步骤的步骤参数配置完场之后,依据修复方法的步骤设置逐条执行修复步骤。
与现有技术相比,本发明包括:监控流经网络故障节点中各个功能模块的报文的处理流程;其中,该报文是根据网络故障节点的节点信息预先构造的,或者是从网络流量中预先抓取的。指示处理流程出现以下至少一种预定问题的功能模块进行自检;该预定问题包括:报文被丢弃,处理报文的延时大于或等于预设的延时阈值。根据自检结果确定故障原因,并确定故障原因对应的修复方法。通过本发明的方案,能够通过简单的配置来排查故障,给出详细的故障原因,并提供与之对应的修复方案,使故障的排查与修复更加简单可靠。
需要说明的是,以上所述的实施例仅是为了便于本领域的技术人员理解而已,并不用于限制本发明的保护范围,在不脱离本发明的发明构思的前提下,本领域技术人员对本发明所做出的任何显而易见的替换和改进等均在本发明的保护范围之内。

Claims (10)

1.一种故障排查方法,其特征在于,所述方法包括:
监控流经网络故障节点中各个功能模块的报文的处理流程;其中,所述报文是根据所述网络故障节点的节点信息预先构造的,或者是从网络流量中预先抓取的;
指示所述处理流程出现以下至少一种预定问题的功能模块进行自检;所述预定问题包括:所述报文被丢弃,处理所述报文的延时大于或等于预设的延时阈值;
根据自检结果确定故障原因,并确定所述故障原因对应的修复方法。
2.如权利要求1所述的方法,其特征在于,所述报文的报文信息包括:源IP地址、目的IP地址、节点入接口、节点出接口、协议和服务。
3.如权利要求1所述的方法,其特征在于,所述监控流经网络故障节点中各个功能模块的报文的处理流程包括:
在所述网络故障节点的各个功能模块的报文处理总入口处设置入口监控点;并按照各所述功能模块处理所述报文的顺序,分别在各个所述功能模块和下一个功能模块之间设置一个监控点,在最后一个功能模块后设置最后一个监控点;
将流经所述入口监控点的所述报文的报文信息与预先设置的匹配信息进行匹配,如果所述报文信息与所述匹配信息不匹配,则忽略所述报文;如果所述报文信息与所述匹配信息相匹配,则标记所述报文需要监控,记录被标记的所述报文的报文信息并将所述报文信息显示出来;其中,所述匹配信息是预先根据所述网络故障节点的节点信息生成的,包括以下信息的一种或多种:源IP地址、目的IP地址、节点入接口、节点出接口、协议和服务;
分别检查流经每个所述功能模块后面的所述监控点的所述报文是否有需要被监控的标记,如果所述报文没有需要被监控的标记,则忽略所述报文;如果所述报文有需要被监控的标记,则记录所述报文的报文信息和标记所述报文在该功能模块中的处理时间长度的时间戳,并对所述报文信息和时间戳进行显示;并检查所述报文是否被该报文所流经的所述功能模块设置为丢弃,或者将所述报文的时间戳与上一个报文的时间戳进行比较,检查所述报文的延时是否大于或等于预设的延时阈值。
4.如权利要求1所述的方法,其特征在于,所述指示处理流程出现以下至少一种预定问题的功能模块进行自检包括:
指示处理流程出现以下至少一种预定问题的功能模块进行如下操作:
以相同的方式对用户配置参数和所述功能模块的运行配置参数进行设置;
分别计算所述用户配置参数的信息摘要算法MD5值与所述运行配置参数的所述MD5值;
将计算出的两个所述MD5值进行比较,当比较结果为两个所述MD5值不一致时,判定所述用户配置参数与所述运行配置参数不同步;
备份所述用户配置参数并清除当前的所述用户配置参数;
添加预设的一个或多个测试用例,基于所述运行配置参数检查所述功能模块的运行状态是否正常;
基于所述检测结果生成所述功能模块的自检结果。
5.如权利要求1所述的方法,其特征在于,所述根据自检结果确定故障原因,并确定所述故障原因对应的修复方法包括:
根据所述自检结果获取所述功能模块的故障原因,根据所述故障原因和预设的映射表获得与所述故障原因相对应的所述修复方法;
其中,所述映射表包括预先收集的所述网络故障节点的各个功能模块的各种故障原因和与所述各种故障原因一一对应的修复方法;所述各种故障原因中包括预定义并预保存的各种故障原因的编号以及文字描述;所述修复方法中包括预定义并预保存的所述修复方法的文字描述、步骤设置以及步骤参数配置。
6.一种故障排查***,其特征在于,所述***包括:监控模块、指示模块和确定模块;
所述监控模块,用于监控流经网络故障节点中各个功能模块的报文的处理流程;其中,所述报文是根据所述网络故障节点的节点信息预先构造的,或者是从网络流量中预先抓取的;
所述指示模块,用于指示所述处理流程出现以下至少一种预定问题的功能模块进行自检;所述预定问题包括:所述报文被丢弃,处理所述报文的延时大于或等于预设的延时阈值;
所述确定模块,用于根据自检结果确定故障原因,并确定所述故障原因的修复方法。
7.如权利要求6所述的***,其特征在于,
所述报文的报文信息包括:源IP地址、目的IP地址、节点入接口、节点出接口、协议和服务。
8.如权利要求6所述的***,其特征在于,所述监控模块监控流经网络故障节点中各个功能模块的报文的处理流程是指:
在所述网络故障节点的各个功能模块的报文处理总入口处设置入口监控点;并按照各所述功能模块处理所述报文的顺序,分别在各个所述功能模块和下一个功能模块之间设置一个监控点,在最后一个功能模块后设置最后一个监控点;
将流经所述入口监控点的所述报文的报文信息与预先设置的匹配信息进行匹配,如果所述报文信息与所述匹配信息不匹配,则忽略所述报文;如果所述报文信息与所述配置信息相匹配,则标记所述报文需要监控,记录被标记的所述报文的报文信息并将所述报文信息显示出来;其中,所述匹配信息是预先根据所述网络故障节点的节点信息生成的,包括以下信息的一种或多种:源IP地址、目的IP地址、节点入接口、节点出接口、协议和服务;
分别检查流经每个所述功能模块后面的所述监控点的所述报文是否有需要被监控的标记,如果所述报文没有需要被监控的标记,则忽略所述报文;如果所述报文有需要被监控的标记,则记录所述报文的报文信息和标记所述报文在该功能模块中的处理时间长度的时间戳,并对所述报文信息和时间戳进行显示;并检查所述报文是否被该报文所流经的所述功能模块设置为丢弃,或者将所述报文的时间戳与上一个报文的时间戳进行比较,检查所述报文的延时是否大于或等于预设的延时阈值。
9.如权利要求6所述的***,其特征在于,所述指示模块指示处理流程出现以下至少一种预定问题的功能模块进行自检是指:
指示处理流程出现以下至少一种预定问题的的功能模块进行如下操作:
以相同的方式对用户配置参数和所述功能模块的运行配置参数进行设置;
分别计算所述用户配置参数的信息摘要算法MD5值与所述运行配置参数的所述MD5值;
将计算出的两个所述MD5值进行比较,当比较结果为两个所述MD5值不一致时,判定所述用户配置参数与所述运行配置参数不同步;
备份所述用户配置参数并清除当前的所述用户配置参数;
添加预设的一个或多个测试用例,基于所述运行配置参数检查所述功能模块的运行状态是否正常;
基于所述检测结果生成所述功能模块的自检结果。
10.如权利要求6所述的***,其特征在于,所述确定模块根据自检结果确定故障原因,并确定所述故障原因对应的修复方法是指:
根据所述自检结果获取所述功能模块的故障原因,根据所述故障原因和预设的映射表获得与所述故障原因相对应的所述修复方法;
其中,所述映射表包括预先收集的所述网络故障节点的各个功能模块的各种故障原因和与所述各种故障原因一一对应的修复方法;所述各种故障原因中包括预定义并预保存的各种故障原因的编号以及文字描述;所述修复方法中包括预定义并预保存的所述修复方法的文字描述、步骤设置以及步骤参数配置。
CN201510484578.3A 2015-08-07 2015-08-07 一种故障排查方法和*** Active CN106452811B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510484578.3A CN106452811B (zh) 2015-08-07 2015-08-07 一种故障排查方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510484578.3A CN106452811B (zh) 2015-08-07 2015-08-07 一种故障排查方法和***

Publications (2)

Publication Number Publication Date
CN106452811A true CN106452811A (zh) 2017-02-22
CN106452811B CN106452811B (zh) 2019-09-13

Family

ID=58092530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510484578.3A Active CN106452811B (zh) 2015-08-07 2015-08-07 一种故障排查方法和***

Country Status (1)

Country Link
CN (1) CN106452811B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107067328A (zh) * 2017-04-11 2017-08-18 武汉华创欣网科技有限公司 一种手机拍摄并上传取证照片或视频的车险理赔集成***
CN107589732A (zh) * 2016-07-06 2018-01-16 深圳市祈飞科技有限公司 一种终端控制机的故障检测方法及***
CN110536243A (zh) * 2019-08-27 2019-12-03 全图通位置网络有限公司 一种超宽带定位通信一体化终端
CN111010299A (zh) * 2019-12-17 2020-04-14 杭州迪普科技股份有限公司 记录报文转发流程的方法及装置
CN113890819A (zh) * 2021-09-29 2022-01-04 杭州迪普科技股份有限公司 故障处理方法、装置及***
CN115484142A (zh) * 2021-06-15 2022-12-16 浙江宇视科技有限公司 一种网络故障的诊断方法、装置、介质及网络设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102611568A (zh) * 2011-12-21 2012-07-25 华为技术有限公司 一种故障业务路径诊断方法及装置
CN102917389A (zh) * 2012-10-22 2013-02-06 大唐移动通信设备有限公司 一种lte***中基站传输自检的方法及装置
CN103634832A (zh) * 2012-08-27 2014-03-12 沈阳师范大学 低能耗高效的无线传感器网络节点故障自检测***
WO2014180801A1 (en) * 2013-05-06 2014-11-13 Nokia Solutions And Networks Oy Processing customer experience events from a plurality of source systems
CN104301169A (zh) * 2013-08-07 2015-01-21 长春轨道客车股份有限公司 面向中心节点设备的库检装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102611568A (zh) * 2011-12-21 2012-07-25 华为技术有限公司 一种故障业务路径诊断方法及装置
CN103634832A (zh) * 2012-08-27 2014-03-12 沈阳师范大学 低能耗高效的无线传感器网络节点故障自检测***
CN102917389A (zh) * 2012-10-22 2013-02-06 大唐移动通信设备有限公司 一种lte***中基站传输自检的方法及装置
WO2014180801A1 (en) * 2013-05-06 2014-11-13 Nokia Solutions And Networks Oy Processing customer experience events from a plurality of source systems
CN104301169A (zh) * 2013-08-07 2015-01-21 长春轨道客车股份有限公司 面向中心节点设备的库检装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107589732A (zh) * 2016-07-06 2018-01-16 深圳市祈飞科技有限公司 一种终端控制机的故障检测方法及***
CN107067328A (zh) * 2017-04-11 2017-08-18 武汉华创欣网科技有限公司 一种手机拍摄并上传取证照片或视频的车险理赔集成***
CN110536243A (zh) * 2019-08-27 2019-12-03 全图通位置网络有限公司 一种超宽带定位通信一体化终端
CN111010299A (zh) * 2019-12-17 2020-04-14 杭州迪普科技股份有限公司 记录报文转发流程的方法及装置
CN115484142A (zh) * 2021-06-15 2022-12-16 浙江宇视科技有限公司 一种网络故障的诊断方法、装置、介质及网络设备
CN113890819A (zh) * 2021-09-29 2022-01-04 杭州迪普科技股份有限公司 故障处理方法、装置及***

Also Published As

Publication number Publication date
CN106452811B (zh) 2019-09-13

Similar Documents

Publication Publication Date Title
CN106452811A (zh) 一种故障排查方法和***
CN105337765B (zh) 一种分布式hadoop集群故障自动诊断修复***
WO2017185945A1 (zh) 一种故障处理方法及装置
CN107807877B (zh) 一种代码性能测试的方法和装置
CN106656627A (zh) 一种基于业务的性能监控和故障定位的方法
CN106789323A (zh) 一种通信网络管理方法及其装置
US20080183406A1 (en) Online IED Fault Diagnosis Device and Method for Substation Automation System Based on IEC61850
CN113055375B (zh) 一种面向电站工控***实物网络的攻击过程可视化方法
CN103378982A (zh) 互联网业务运行监测方法和***
CN103581951B (zh) 一种基站检测方法及装置
CN108776625A (zh) 一种服务故障的修复方法、装置和存储介质
CN108337108A (zh) 一种基于关联分析的云平台故障自动化定位方法
CN103425116A (zh) 一种电力调度自动化***故障排除方法
CN102281103B (zh) 基于模糊集合解算的光网络多故障恢复方法
CN106789158A (zh) 一种云服务保险定损方法和***
CN104217291A (zh) 一种基于远程诊断环境下的事件管理方法
Rafique et al. TSDN-enabled network assurance: A cognitive fault detection architecture
CN108156019B (zh) 一种基于sdn的网络衍生告警过滤***及方法
CN107957928B (zh) 一种软件同步运行检测分析及故障排除方法
CN107682173B (zh) 基于交易模型的自动故障定位方法和***
CN105929816B (zh) 基于布尔算法的工控***故障诊断的方法
CN105098984A (zh) 一种调度故障录波管理***通信异常的排查方法
CN105007278A (zh) 网络安全日志的自动化实时采集***及其采集方法
CN109086893A (zh) 设备管理快速响应***
CN106713072A (zh) 一种mms报文遥信数据提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant