JP2007300249A - Network management system and method - Google Patents

Network management system and method Download PDF

Info

Publication number
JP2007300249A
JP2007300249A JP2006124612A JP2006124612A JP2007300249A JP 2007300249 A JP2007300249 A JP 2007300249A JP 2006124612 A JP2006124612 A JP 2006124612A JP 2006124612 A JP2006124612 A JP 2006124612A JP 2007300249 A JP2007300249 A JP 2007300249A
Authority
JP
Japan
Prior art keywords
wide area
area network
diagnostic
user
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006124612A
Other languages
Japanese (ja)
Other versions
JP4668117B2 (en
Inventor
Atsushi Terauchi
敦 寺内
Osamu Akashi
修 明石
Mitsuru Maruyama
充 丸山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006124612A priority Critical patent/JP4668117B2/en
Publication of JP2007300249A publication Critical patent/JP2007300249A/en
Application granted granted Critical
Publication of JP4668117B2 publication Critical patent/JP4668117B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a technology capable of customizing the diagnosis applied to known problems and executing proper diagnosis even to unknown faults for which no diagnostic information is prepared. <P>SOLUTION: In a network management system, a plurality of agents are arranged on a wide area network wherein a plurality of autonomous systems are interconnected to automatically detect and analyze faults. Each agent includes: an inter-agent communication module 301 for collecting information about a state of the wide area network through the other agents from multipoints; and a fault analysis/deduction engine 303 that deduces phenomena caused on the wide area network and judges the right/wrong of deduced contents by investigating diagnostic items. The fault analysis/deduction engine 303 includes: an interactive means for revising kinds and execution orders of the diagnostic items utilized for introduction of the judgement through an interactive processing with a user; and a re-execution means for re-executing the judgement processing on the basis of the diagnostic items and the execution orders revised by the user using the interactive means. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は単一組織等が管理する自律システム(Autonomous System、AS)が複数相互接続された広域網(例えばインターネット)において、広域網で発生した障害の検知と解析を自動的に行うことにより広域網の安定運用を可能とするネットワーク管理システムおよび方法に関するものである。   The present invention automatically detects and analyzes a failure occurring in a wide area network in a wide area network (for example, the Internet) in which a plurality of autonomous systems (AS) managed by a single organization or the like are interconnected. The present invention relates to a network management system and method that enable stable network operation.

インターネットは複数のルータ、LAN、より広域では複数のAS(Autonomous System)から成る広がりを持つ分散システムとして考えられる。このように中央集権的な管理機構を持たないインターネットにおいては、その管理、制御は個々のネットワークを管理する組織の管理者によって行われている。しかし、AS間の経路障害などの広範囲に渡る問題への対処や管理制御においては単一の箇所からの観測のみでは原因およびその発生箇所を特定するのが非常に難しく複数のネットワークの管理者同士の協調が不可欠である。このような人間同士の協調は電話などのlegacyなメディアで行われることも多いため、時間とコストがかかり、結果として問題の解決を難しくしていた。   The Internet can be considered as a distributed system having a spread of a plurality of routers, LANs, and a plurality of ASs (Autonomous Systems) in a wider area. In the Internet that does not have a centralized management mechanism, management and control are performed by an administrator of an organization that manages individual networks. However, in dealing with a wide range of problems such as path failures between ASs and management control, it is very difficult to specify the cause and the location where it occurs only by observation from a single location. Cooperation is essential. Such cooperation between human beings is often performed on a legacy medium such as a telephone, so it takes time and cost, and as a result, it is difficult to solve the problem.

このような問題に対処するためにネットワーク上に配置された複数のコンピュータプログラム(以下、エージェント)の協調によりAS間経路障害の診断、検知を迅速に行う診断システム(以下、ENCORE(Inter-AS Diagnostic Ensemble System using Cooperative Reflector Agents))が提案されている(本出願人による特許文献1参照)。ENCORE中のエージェント(以下、ENCOREエージェント)は障害診断の手順などに関する診断知識を持ち、各ENCOREエージェントはその知識に基づき必要な情報の観測、他のENCOREエージェントとの協調などの動作を随時選択しながら、従来は人間同士の協調により行っていたAS間経路障害の診断を行う。   In order to deal with such problems, a diagnosis system (hereinafter referred to as ENCORE (Inter-AS Diagnostic) that rapidly diagnoses and detects an AS path failure by cooperation of a plurality of computer programs (hereinafter referred to as agents) arranged on the network. Ensemble System using Cooperative Reflector Agents)) has been proposed (see Patent Document 1 by the present applicant). Agents in ENCORE (hereinafter referred to as “ENCORE agents”) have diagnostic knowledge regarding fault diagnosis procedures, etc. Each ENCORE agent selects operations such as observation of necessary information and cooperation with other ENCORE agents at any time based on that knowledge. However, the diagnosis of the inter-AS path failure that has been conventionally performed by cooperation between humans is performed.

以下、前記ENCOREを例にして従来のエージェントを用いたネットワーク管理システムの動作の概略を説明する。   Hereinafter, an outline of the operation of the network management system using the conventional agent will be described by taking the ENCORE as an example.

1.ネットワークの複数の地点にエージェントを配置する。ここで、実際のエージェントの配置はエージェントにより検出・診断すべき問題の種類やネットワークの構成によって異なる。例えばENCOREはインターネットの構成単位であるAS(Autonomous System)間での経路障害の診断を主な目的としているので各AS毎に少なくとも1つのエージェントを配置することを前提としている。そのため、ここでもAS毎にエージェントが配置されているものとして説明を行う。   1. Place agents at multiple points in the network. Here, the actual arrangement of agents differs depending on the type of problem to be detected and diagnosed by the agent and the network configuration. For example, ENCORE is mainly intended to diagnose path failures between ASs (autonomous systems), which are constituent units of the Internet, and therefore assumes that at least one agent is arranged for each AS. Therefore, the description will be given here also assuming that an agent is arranged for each AS.

2.各エージェントはネットワーク内のルータなどのネットワーク機器と適切に通信を行いネットワークの情報を定期的に収集する。例えば、AS間経路障害の診断のためには、AS間で経路情報の交換を実際に行っているルータと通信を行いAS間で伝搬されている経路情報の監視を行う。具体的にどの情報をどこから集めるかといった具体的な手順に関してはすべて診断知識あるいはエージェントの設定情報に含まれているものとする。   2. Each agent communicates appropriately with network devices such as routers in the network and periodically collects network information. For example, in order to diagnose a path failure between ASs, communication is performed with a router that actually exchanges path information between ASs, and path information propagated between ASs is monitored. It is assumed that all specific procedures, such as which information is collected from where, are included in diagnostic knowledge or agent setting information.

3.各エージェントは他のASに配置されているエージェントとネットワーク情報の交換を行うことがある。これは、分散システムであるインターネットにおいては、ある地点(AS)から観測できるネットワーク情報は部分的なものに限られる特性があるからである。例えばあるASから広報された経路情報は複数のASによって適宜修正をされながらインターネット全体に伝搬されていくが、このときどのASを通って伝搬されているか、別のASによって経路情報にどのような修正が施されているかは当該ASからは観測できないため、他ASのエージェントの観測結果を利用するほかない。前ステップと同様にどの情報をどのエージェントと交換するといった具体的な手順は診断知識あるいはエージェントの設定情報に含まれているものとする。   3. Each agent may exchange network information with agents located in other ASs. This is because, in the Internet, which is a distributed system, network information that can be observed from a certain point (AS) has a characteristic that is limited to a part. For example, route information advertised from a certain AS is propagated to the entire Internet while being appropriately modified by a plurality of ASs. At this time, which AS is propagated through, what kind of route information is transmitted by another AS. Whether the correction has been made cannot be observed from the relevant AS, so the observation result of the agent of another AS must be used. It is assumed that a specific procedure for exchanging which information with which agent as in the previous step is included in diagnostic knowledge or agent setting information.

4.各エージェントは自分自身で収集したネットワーク情報の解析結果と診断知識に基づきネットワークにおいて何らかの障害が発生していないかを監視する。エージェントが障害や異常が発生していないと判定した場合はステップ2に戻りネットワーク情報の収集および解析を繰り返す。   4). Each agent monitors whether any failure has occurred in the network based on the analysis result of network information collected by itself and the diagnostic knowledge. If the agent determines that no failure or abnormality has occurred, the process returns to step 2 to repeat network information collection and analysis.

5.ステップ4での解析の結果、ENCORE中のあるエージェントが何らかの障害の可能性があると判定した場合、当該エージェントは診断知識を用いてどのような異常・不具合が起きているか、原因は何か、ネットワーク上のどの場所で異常が発生しているかなど障害の詳細を推測することを試みる。この推論の手順の概略を以下に示す。   5. As a result of the analysis in step 4, when it is determined that an agent in ENCORE has a possibility of some kind of failure, what kind of abnormality or failure has occurred in the agent using diagnostic knowledge, what is the cause, Try to guess the details of the failure, such as where on the network the anomaly is occurring. The outline of this inference procedure is shown below.

(a)障害の可能性を検知したエージェントは収集したネットワーク情報の解析結果と診断知識中の障害判定用知識を利用して、可能性のある障害を抽出し、診断のための「仮説」を立てる。例えば、「特定のサーバに一定時間接続不能であればサーバに障害が起きている可能性がある」などが「仮説」の例である。
(b)前ステップにおいて設定した「仮説」を検証する。ENCOREにおける診断知識中には個々の「仮説」が成立するために検証すべき診断項目の集合およびそれらの実行順序があらかじめ規定されている。ただし、実際に実行される項目およびその順序は各診断項目の結果に依存して変化するため、診断の状況によって動的に変化する。また、「仮説」と診断項目との間にも依存関係が存在し、特定の診断項目の正否によって新たな検証すべき「仮説」が成立するということもある。
(c)すべての「仮説」を検証した結果がエージェントによる推論結果となる。
(A) An agent that detects the possibility of a failure uses the analysis result of the collected network information and the failure determination knowledge in the diagnostic knowledge to extract a possible failure, and creates a “hypothesis” for diagnosis. Stand up. For example, “a hypothesis” is “a server may have failed if it cannot connect to a specific server for a certain period of time”.
(B) The “hypothesis” set in the previous step is verified. In the diagnostic knowledge in ENCORE, a set of diagnostic items to be verified and their execution order are defined in advance in order to establish each “hypothesis”. However, since the items actually executed and the order thereof change depending on the result of each diagnostic item, they change dynamically depending on the situation of diagnosis. In addition, there is a dependency relationship between the “hypothesis” and the diagnostic item, and a new “hypothesis” to be verified may be established depending on whether the specific diagnostic item is correct or not.
(C) The result of verifying all “hypotheses” is the inference result by the agent.

6.以上の手順によりエージェントが得た推論の結果はメールなどの手段を通じてネットワーク管理者に通知される。   6). The inference result obtained by the agent by the above procedure is notified to the network administrator through means such as e-mail.

図1にENCOREにおける各エージェントの診断手順のフローチャートを示す。図1に示すように、エージェントはネットワーク機器、他のエージェントから情報を収集し(101)、現在の状態は障害の可能性があるかどうかを判断し(102)、障害の可能性がない場合は、ステップ101に戻る。障害の可能性がある場合は、診断知識を用いて、診断「仮説」を作成し(103)、診断項目の抽出を行い(104)、診断項目を実行する(105)。実行すべき診断項目がある場合はステップ105に戻る。実行すべき診断項目がなければ、未検証の「仮説」があるかどうか判断し(107)、ある場合はステップ104に戻る。未検証の「仮説」がない場合は、全「仮説」の検証結果をユーザ(ネットワーク管理者)に通知する(108)。   FIG. 1 shows a flowchart of the diagnostic procedure for each agent in ENCORE. As shown in FIG. 1, the agent collects information from network devices and other agents (101), determines whether the current state has a possibility of failure (102), and there is no possibility of failure. Returns to step 101. If there is a possibility of failure, a diagnostic “hypothesis” is created using diagnostic knowledge (103), diagnostic items are extracted (104), and diagnostic items are executed (105). If there is a diagnostic item to be executed, the process returns to step 105. If there is no diagnostic item to be executed, it is determined whether there is an unverified “hypothesis” (107). If there is no unverified “hypothesis”, the verification result of all “hypotheses” is notified to the user (network administrator) (108).

ENCOREシステムを用いてエージェントの協調によりAS間での経路障害の原因が診断される例を図2を用いて示す。   An example in which the cause of a path failure between ASs is diagnosed by cooperation of agents using the ENCORE system will be described with reference to FIG.

図中において、ASselfから広報された経路情報はAS、ASあるいはASを経由してASに伝搬されるものとする。ここで、ASとASとの間でASselfに関するフィルタの設定に誤りが発生して、ASselfに関する経路情報がASに流れなくなった状況を想定する。この状況では診断知識より「AS、AS間の物理的接続の障害が発生した」あるいは「ASの経路フィルタの設定誤りにより経路情報が破棄されている」という仮説が成立するものとする。これらの仮説を検証するためにASself中のエージェントRselfはAS、ASのエージェントR、Rと通信し、それぞれのASにおいて観測された経路情報を送り返してもらう。その結果、ASでは自分が広報した経路情報が存在するのに対し、ASではASの経路情報はあっても自分の経路情報が含まれていないことを認識する。以上より、2つめの仮説が成立することが分かりASselfではASとAS間でASselfの経路情報に関するフィルタの設定に誤りがあるということが推論できる。 In the figure, it is assumed that route information advertised from AS self is propagated to AS 4 via AS 1 , AS 2, or AS 3 . Here, a situation is assumed in which an error occurs in the filter setting related to AS self between AS 1 and AS 2, and path information related to AS self no longer flows to AS 2 . In this situation, it is assumed that the hypothesis that “the failure of the physical connection between AS 1 and AS 2 has occurred” or “the route information has been discarded due to an AS 2 route filter setting error” is established based on the diagnostic knowledge. . Agent R self in AS self in order to verify these hypotheses communicates with agents R 1, R 2 of AS 1, AS 2, get send back route information observed in each AS. As a result, the AS 1 recognizes that the route information advertised by itself exists, while the AS 2 recognizes that the route information of the AS 1 is included but the route information is not included. From the above, it can be deduced that there is an error in the setting of the filter for route information of AS self between AS 1 in AS self found that second hypothesis is true and AS 2.

特許第3485789号公報Japanese Patent No. 3485789

ENCOREは診断知識の種類や内容をユーザが拡充することにより経路情報の伝搬障害以外の障害への対応が容易に行える高い拡張性を有している。しかし、現行のENCOREではENCOREエージェント内に保存する診断知識はネットワーク管理者の持つ過去の経験や知識に基づいてあらかじめ作成されエージェントの動作以前にエージェント中に組み込む必要がある。しかし、ネットワークにおいて発生する障害はその原因や障害内容が多岐に渡るため、すべての障害に対応できるようにあらかじめ診断知識を作っておくことは不可能である。そのため、現実的にはENCOREは限られた障害に対する診断知識しか持ち得ず、ENCOREの運用中に診断知識が対象としていない未知の障害が発生した場合は十分な診断ができない可能性がある。   ENCORE has high extensibility that allows the user to easily cope with a failure other than the propagation failure of the route information by expanding the types and contents of the diagnostic knowledge. However, in the current ENCORE, the diagnostic knowledge stored in the ENCORE agent is created in advance based on the past experience and knowledge possessed by the network manager, and must be incorporated into the agent before the operation of the agent. However, there are a variety of causes and contents of failures that occur in the network, so it is impossible to create diagnostic knowledge in advance so that all failures can be handled. Therefore, in reality, ENCORE can have only diagnostic knowledge for limited faults, and if an unknown fault that is not targeted by diagnostic knowledge occurs during operation of ENCORE, there is a possibility that sufficient diagnosis cannot be made.

本発明の目的は、既知の問題に対する診断のカスタマイズができ、診断知識が用意されていない未知の障害に対しても適切な診断を実行することができる技術を提供することにある。   An object of the present invention is to provide a technique capable of customizing diagnosis for a known problem and executing appropriate diagnosis even for an unknown failure for which diagnostic knowledge is not prepared.

本明細書において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。   Of the inventions disclosed in this specification, the outline of typical ones will be briefly described as follows.

第1の発明は、自律システムが複数相互接続された広域網上に複数のエージェントを配置し、前記広域網で発生した障害の検知と解析を自動的に行うネットワーク管理システムであって、前記各エージェントは、前記広域網上に配置された複数の他のエージェントとの協調動作を通じて広域網の状態に関する情報を多地点から収集するエージェント間通信モジュールと、前記エージェント間通信モジュールが取得した広域網の情報と自エージェント中に含まれる診断知識を用いて広域網上で発生している現象の原因を含む推測を行い、推測した内容の正否を複数の診断項目を調査することにより判定する障害解析・推論エンジンと、を有し、前記障害解析・推論エンジンは、判定の導出に利用する診断項目の種類および実行順序をユーザとの対話的処理を通じて変更する対話手段と、前記対話手段によりユーザが変更した診断項目および実行順序に基づき判定処理を再実行する再実行手段と、を有することを特徴とする。   A first aspect of the present invention is a network management system in which a plurality of agents are arranged on a wide area network in which a plurality of autonomous systems are interconnected to automatically detect and analyze a failure occurring in the wide area network. The agent includes an inter-agent communication module that collects information on the state of the wide-area network from multiple points through a cooperative operation with a plurality of other agents arranged on the wide-area network, and an inter-agent network acquired by the inter-agent communication module. Failure analysis using information and diagnostic knowledge contained in the local agent to make a guess including the cause of the phenomenon occurring on the wide area network, and determining the correctness of the guessed content by investigating multiple diagnostic items An inference engine, and the failure analysis / inference engine determines a type and execution order of diagnostic items used for derivation of a decision with a user. And interacting means for changing through interactively process, and having a re-executing means for re-executing the determination process based on the diagnostic items and the execution order user changes, the by the interacting means.

第2の発明は、前記第1の発明において、前記障害解析・推論エンジンは、診断項目中にユーザとの対話処理が規定されている場合、ユーザに対して入力を求める画面を表示し、ユーザにより入力された値に基づき診断を行う手段を有することを特徴とする。   In a second aspect based on the first aspect, the failure analysis / inference engine displays a screen for prompting the user for input when a dialogue process with the user is defined in the diagnostic item, It has the means to make a diagnosis based on the value input by (5).

第3の発明は、前記第1または第2の発明において、前記各エージェントは、経路情報の観測結果を一定期間保管している履歴DBと、前記障害解析・推論エンジンから指示があった場合、前記履歴DBを参照しながら一定期間保管されている経路情報を解析し、経路情報の安定性を前記障害解析・推論エンジンに返答するネットワーク品質解析モジュールと、を有することを特徴とする。   According to a third aspect of the present invention, in the first or second aspect of the invention, each of the agents receives an instruction from the history DB storing the route information observation results for a certain period of time and the failure analysis / inference engine. A network quality analysis module that analyzes route information stored for a certain period of time with reference to the history DB and returns the stability of the route information to the failure analysis / inference engine.

第4の発明は、自律システムが複数相互接続された広域網上に複数のエージェントを配置し、前記広域網で発生した障害の検知と解析を自動的に行うネットワーク管理方法であって、前記各エージェントはエージェント間通信モジュールと障害解析・推論エンジンとを有し、前記エージェント間通信モジュールが、前記広域網上に配置された複数の他のエージェントとの協調動作を通じて広域網の状態に関する情報を多地点から収集するエージェント間通信ステップと、障害解析・推論エンジンが、前記エージェント間通信ステップで取得した広域網の情報と自エージェント中に含まれる診断知識を用いて広域網上で発生している現象の原因を含む推測を行い、推測した内容の正否を複数の診断項目を調査することにより判定する障害解析・推論ステップと、を有し、前記障害解析・推論ステップは、判定の導出に利用する診断項目の種類および実行順序をユーザとの対話的処理を通じて変更する対話ステップと、前記対話ステップによりユーザが変更した診断項目および実行順序に基づき判定処理を再実行する再実行ステップと、を有することを特徴とする。   A fourth aspect of the present invention is a network management method in which a plurality of agents are arranged on a wide area network in which a plurality of autonomous systems are interconnected, and a fault occurring in the wide area network is automatically detected and analyzed. The agent has an inter-agent communication module and a failure analysis / inference engine, and the inter-agent communication module provides a lot of information on the state of the wide area network through cooperative operation with a plurality of other agents arranged on the wide area network. Inter-agent communication step collected from a point, and the phenomenon that the failure analysis / inference engine uses on the wide-area network information acquired in the inter-agent communication step and diagnostic knowledge contained in the local agent Failure analysis that determines the correctness of the estimated content by investigating multiple diagnostic items And the failure analysis / inference step includes an interaction step for changing the type and execution order of diagnostic items used for derivation of the determination through interactive processing with the user, and the user changes the interaction step. And a re-execution step for re-execution of the determination process based on the diagnosis items and the execution order.

本発明により、診断項目の種類および実行順序を容易に変更でき、また定性的な判断が必要な診断項目を実行する場合等にユーザが判定結果を手動で投入することができるので、既知の問題に対する診断のカスタマイズができ、また診断知識が用意されていない未知の障害に対しても適切な診断を実行することができる。また、経路情報のフラッピングやバーストのような経路情報の安定性(品質)を診断することでトラヒック障害の原因を推定することが可能である。   According to the present invention, the type and execution order of diagnostic items can be easily changed, and the user can manually input the determination result when executing a diagnostic item that requires qualitative determination. The diagnosis can be customized, and an appropriate diagnosis can be executed for an unknown failure for which diagnostic knowledge is not prepared. Further, it is possible to estimate the cause of the traffic failure by diagnosing the stability (quality) of route information such as flapping or bursting of route information.

本発明の実施形態のネットワーク管理システムは、ネットワークの複数の地点に配置されたエージェントの集合によって構成される。実際にネットワーク上にどのようにエージェントを配置するかは検出・診断すべき問題の種類やネットワークの構成によって異なる。個々のエージェントは以下のモジュールから構成される。   The network management system according to the embodiment of the present invention is configured by a set of agents arranged at a plurality of points on the network. How an agent is actually arranged on the network depends on the type of problem to be detected and diagnosed and the network configuration. Each agent consists of the following modules:

図3にエージェントの構成図を示す。301はインターネット上に配置された複数の他のエージェントとの協調動作を通じてインターネットの状態に関する情報を多地点から収集するエージェント間通信モジュールであり、302はネットワーク機器との間の通信を行うネットワーク機器間通信モジュールであり、303はエージェント間通信モジュールが取得したインターネットの情報と自エージェント中に含まれる診断知識を用いて広域網上で発生している現象の原因を含む推測を行い、推測した内容の正否を複数の診断項目を調査することにより判定する障害解析・推論エンジンであり、304は障害解析・推論エンジン303が使用する診断知識DBであり、305はネットワークの品質を解析するネットワーク品質解析モジュールであり、306は経路情報の観測結果を一定期間保管している履歴DBであり、307はオペレータ(ネットワーク管理者)と障害解析・推論エンジン303との対話インタフェースであるオペレータ対話インタフェースである。   FIG. 3 shows a configuration diagram of the agent. Reference numeral 301 denotes an inter-agent communication module that collects information on the Internet state from multiple points through a cooperative operation with a plurality of other agents arranged on the Internet. 302 is an inter-network device that performs communication with network devices. 303 is a communication module, which uses the Internet information acquired by the inter-agent communication module and the diagnostic knowledge contained in its own agent to make a guess including the cause of the phenomenon occurring on the wide area network. It is a failure analysis / inference engine that determines correctness by examining a plurality of diagnosis items, 304 is a diagnosis knowledge DB used by the failure analysis / inference engine 303, and 305 is a network quality analysis module that analyzes the quality of the network. 306 is the observation result of the route information A period of time a history DB that stores, 307 is an operator interactive interface is an interactive interface with the operator (network manager) and fault analysis and inference engine 303.

上記のうち、エージェント間通信モジュール301、ネットワーク機器間通信モジュール302、診断知識DB304については既存の技術(例えば特許文献1記載の技術)を利用することで実現できる。また、障害解析・推論エンジン303についても、従来技術と共通する障害診断・推論技術に関しては、既存の技術(例えば特許文献1記載の技術)を利用することで実現できる。   Among the above, the inter-agent communication module 301, the inter-network device communication module 302, and the diagnostic knowledge DB 304 can be realized by using an existing technique (for example, the technique described in Patent Document 1). Also, the failure analysis / inference engine 303 can be realized by using an existing technology (for example, the technology described in Patent Document 1) as a failure diagnosis / inference technology common to the prior art.

本実施形態の障害解析・推論エンジン303は、従来の障害解析・推論エンジンと共通する障害診断・推論を行う手段のほかに、判定の導出に利用する診断項目の種類および実行順序をユーザとの対話的処理を通じて変更する対話手段(図示していない)と、対話手段によりユーザが変更した診断項目および実行順序に基づき判定処理を再実行する再実行手段(図示していない)と、を有している。障害解析・推論エンジン303は、これらの手段により、オペレータ対話インタフェース307を通じてユーザ(ネットワーク管理者)と対話処理を行い、それにより変更された診断項目および実行順序に基づき判定処理を再実行する。また、障害解析・推論エンジン303は、診断項目中にユーザとの対話処理が規定されている場合、オペレータ対話インタフェース307を通じて、ユーザに対して入力を求める画面を表示し、ユーザにより入力された値(例えば「ネットワークの接続速度が十分に速い」といった入力データ)に基づき診断を行う手段(図示していない)を有する。これらにより、診断項目の種類および実行順序を容易に変更でき、また定性的な判断が必要な診断項目を実行する場合等にユーザが判定結果を手動で投入することができるので、既知の問題に対する診断のカスタマイズができ、また診断知識が用意されていない未知の障害に対しても適切な診断を実行することができる。   The failure analysis / inference engine 303 according to the present embodiment, in addition to the means for performing failure diagnosis / inference common to the conventional failure analysis / inference engine, determines the types and execution order of diagnosis items used for derivation of determination with the user. Interactive means for changing through interactive processing (not shown), and re-execution means (not shown) for re-execution of determination processing based on diagnostic items and execution order changed by the user through the interactive means ing. The failure analysis / inference engine 303 performs a dialog process with the user (network administrator) through the operator dialog interface 307 by using these means, and re-executes the determination process based on the changed diagnostic items and execution order. The failure analysis / inference engine 303 displays a screen asking the user for input through the operator interaction interface 307 when the dialogue processing with the user is defined in the diagnosis item, and the value input by the user Means (not shown) for making a diagnosis based on (for example, input data such as “the connection speed of the network is sufficiently high”). As a result, the type and execution order of diagnostic items can be easily changed, and the user can manually input the determination results when executing diagnostic items that require qualitative judgment. Diagnosis can be customized, and appropriate diagnosis can be executed for an unknown failure for which diagnostic knowledge is not prepared.

ネットワーク品質解析モジュール305は、障害解析・推論エンジン303から指示があった場合、経路情報の観測結果を一定期間(例えば、10分、1時間、1日等)保管している履歴DB306を参照しながら一定期間保管されている経路情報を解析し、経路情報の安定性(品質)を障害解析・推論エンジン303に返答する手段を有する。これにより、経路情報のフラッピングやバーストのような経路情報の安定性(品質)を診断することでトラヒック障害の原因を推定することが可能である。   When instructed by the failure analysis / inference engine 303, the network quality analysis module 305 refers to the history DB 306 that stores the observation results of the route information for a certain period (for example, 10 minutes, 1 hour, 1 day, etc.). However, it has means for analyzing the route information stored for a certain period and returning the stability (quality) of the route information to the failure analysis / inference engine 303. Accordingly, it is possible to estimate the cause of the traffic failure by diagnosing the stability (quality) of route information such as flapping or bursting of route information.

自ASからインターネット上の特定のサーバへの接続が不安定(接続できる状態と接続できない状態が頻繁に変化している)場合を例に取り、本発明による診断手順の実施例を説明する。   An example of the diagnosis procedure according to the present invention will be described by taking as an example a case where the connection from the own AS to a specific server on the Internet is unstable (a state where connection is possible and a state where connection is not possible is frequently changed).

1.本発明においても事前の情報収集および障害に対する仮説の設定は従来技術と同様の方法で行う。この部分の処理内容については背景技術の項に記載した1ステップから4ステップまでを参照のこと。   1. Also in the present invention, prior information collection and setting of a hypothesis for a failure are performed in the same manner as in the prior art. For the processing contents of this part, refer to steps 1 to 4 described in the background section.

2.エージェント中の障害解析・推論エンジン303は診断知識DB304中の障害判定用知識と観測した情報を照らし合わせることでサーバの接続性が不安定になっていることを検知したとし、同じく診断知識を元に「サーバ自身か経路情報の安定性に異常がある」という仮説を立てたものとする。   2. The failure analysis / inference engine 303 in the agent detects that the connectivity of the server has become unstable by comparing the failure determination knowledge in the diagnostic knowledge DB 304 with the observed information. The hypothesis is that “the server itself or the stability of the route information is abnormal”.

3.次に、当該エージェント中の障害解析・推論エンジン303はこの仮説を検証するために実行すべき診断項目の集合および実行順序を導出する。この集合は各「仮説」に関する知識として診断知識DB304にあらかじめ組み込まれている。この診断項目の定義例(一部)を以下に示す。なお、この知識はLisp言語で記述されている。最初の4行について、←の後に各行についての説明を記載した。
;; 診断項目: BGP 経路が広報されているか ←コメント
(def-rule BGP-advertised () ←ルールの定義
(acquire (check-bgp-as-path)) ←記載された関数を実行
(eval (BGP-advertised acq-result))) ←関数の実行結果を評価し、本項目の結果とする
;; 診断項目: BGP経路が10分前に広報されていたか
(def-rule BGP-advertised-10min-ago ()
(acquire (check-bgp-as-path-10min-ago))
(eval (BGP-advertised acq-result)))
;; 診断項目: HTTP GET の返答が時間内にあったか
(def-rule HTTP-GET-in-time ()
(acquire (HTTP-GET-check))
(eval (HTTP-GET-in-time acq-result)))
;; 診断項目: HTTP GET の戻り値が200 であったか
(def-rule HTTP-GET-status-200 ()
(acquire (HTTP-GET-check))
(eval (HTTP-GET-status-200 acq-result)))
その他考えられる診断項目の例を図4の表1に示す。
3. Next, the failure analysis / inference engine 303 in the agent derives a set of diagnostic items to be executed and an execution order in order to verify this hypothesis. This set is incorporated in advance in the diagnostic knowledge DB 304 as knowledge about each “hypothesis”. A definition example (partial) of this diagnostic item is shown below. This knowledge is described in the Lisp language. For the first four lines, the explanation for each line is described after ←.
;; Diagnostic item: Is BGP route publicized? ← Comment
(def-rule BGP-advertised () ← Rule definition
(acquire (check-bgp-as-path)) ← Execute the described function
(eval (BGP-advertised acq-result))) ← Evaluate the execution result of the function and use it as the result of this item
;; Diagnostic item: Was BGP route publicized 10 minutes ago?
(def-rule BGP-advertised-10min-ago ()
(acquire (check-bgp-as-path-10min-ago))
(eval (BGP-advertised acq-result)))
;; Diagnosis item: Was HTTP GET response in time?
(def-rule HTTP-GET-in-time ()
(acquire (HTTP-GET-check))
(eval (HTTP-GET-in-time acq-result)))
;; Diagnosis item: Was HTTP GET return value 200?
(def-rule HTTP-GET-status-200 ()
(acquire (HTTP-GET-check))
(eval (HTTP-GET-status-200 acq-result)))
Examples of other possible diagnostic items are shown in Table 1 in FIG.

4.障害解析・推論エンジン303は3で導出した診断項目を規定された順番に実行する。この例ではサーバとの接続性が失われた場合は、まずインターネットプロトコルの下位レイヤでの接続性から始めて上位レイヤでの接続性を順番に検証するのが通常行われる作業手順であるので、この例ではAS間で経路情報が正しく伝搬されているかを他エージェントとの協調によって診断する処理が最初に選択されるように知識に記述されていたものとする。そして再び診断知識の記述に従い、個々の項目の診断結果によって次に行うべき診断項目を導出して順番に実行する。   4). The failure analysis / inference engine 303 executes the diagnosis items derived in 3 in the prescribed order. In this example, if connectivity with the server is lost, it is usually a work procedure to start with connectivity at the lower layer of the Internet protocol and then verify connectivity at the upper layer in order. In the example, it is assumed that the knowledge is described so that the process of diagnosing whether the path information is correctly propagated between the ASs by cooperation with other agents is selected first. Then, according to the description of the diagnostic knowledge, the diagnostic items to be performed next are derived from the diagnostic results of the individual items and executed in order.

5.この例では、前ステップ、つまりBGPにおける経路情報の到達性には問題がなかったとし、次の診断項目を実行する。このとき、最初の診断項目であるAS間の経路情報の到達性で問題が発見されれば上位レイヤにおける診断を行う必要はないので経路伝搬障害という診断結果をオペレータに提示して診断を終了する。   5. In this example, it is assumed that there is no problem in reachability of the route information in the previous step, that is, BGP, and the next diagnostic item is executed. At this time, if a problem is found in the reachability of the path information between the ASs, which is the first diagnosis item, there is no need to perform a diagnosis in the upper layer, so the diagnosis result of path propagation failure is presented to the operator and the diagnosis is terminated. .

6.診断項目を実行する過程では任意の時点でユーザの対話処理を行うことが可能である。この対話処理はオペレータ対話インタフェース307を通じて実行される。オペレータ対話インタフェース307ではあらかじめ知識に記述された時点で必要な画面表示やユーザからの入力を受信する処理を行う。これにより例えば「ネットワークの接続速度が十分に速いか」といった定性的な判断が必要な診断項目を実行する場合にユーザ自身が判定結果を手動で投入することができる。   6). In the process of executing the diagnostic item, it is possible to perform user interaction processing at an arbitrary time. This dialogue process is executed through the operator dialogue interface 307. The operator interaction interface 307 performs a process of receiving a necessary screen display and input from the user at the time described in knowledge beforehand. As a result, for example, when executing a diagnosis item that requires qualitative determination, such as “whether the network connection speed is sufficiently high”, the user can manually input the determination result.

7.指定された診断項目を実行した後、検証結果を障害解析・推論エンジン303からユーザ(ネットワーク管理者)に提示する。この例では残りの診断項目の調査結果もすべて正常であったものとする。そのためエージェントは接続性に異常がない旨および判定に利用したすべての診断項目および調査結果をユーザに提示する。   7). After executing the designated diagnostic item, the verification result is presented from the failure analysis / inference engine 303 to the user (network administrator). In this example, it is assumed that the investigation results of the remaining diagnostic items are all normal. Therefore, the agent presents to the user that there is no abnormality in connectivity and all the diagnostic items and investigation results used for the determination.

8.しかし、ユーザは接続が安定していないことを認識しているため、診断を再実行するためにオペレータ対話インタフェース307を通じて診断の再実行処理を開始する。ここでの対話処理では実行された診断項目を任意に選択してその時点からの再実行や知識により選択された診断項目とは別の診断項目を選択して実行したりすることができる。この例では、ユーザが経路情報の到達性の診断を最初からやり直すと共に安定性診断を追加して行うことを指示したとする。   8). However, since the user recognizes that the connection is not stable, the diagnosis re-execution process is started through the operator interaction interface 307 in order to re-execute the diagnosis. In the dialog processing, it is possible to arbitrarily select a diagnosis item that has been executed, re-execute from that point, or select and execute a diagnosis item that is different from the diagnosis item selected by knowledge. In this example, it is assumed that the user has instructed to perform the diagnosis of reachability of the route information from the beginning and add the stability diagnosis.

9.エージェントはユーザからの指示に従い経路情報の到達性を検証して再度問題がないことを確認するが、ユーザの指示により経路情報の安定性の検証が要求されているので安定性を診断する診断項目を実行する。この安定性の検証はネットワーク品質解析モジュール305および履歴DB306により行われる。この例では、ネットワーク上で経路のフラッピングという障害が発生しており、エージェントは安定性の検証によりこの現象が生じていることを検知できたものとする。具体的なフラッピングの検出手順を以下に示す。   9. The agent verifies the reachability of the route information according to the instruction from the user and confirms that there is no problem again. However, since the verification of the stability of the route information is requested by the user's instruction, the diagnostic item for diagnosing the stability Execute. This stability verification is performed by the network quality analysis module 305 and the history DB 306. In this example, it is assumed that a failure called path flapping has occurred on the network, and the agent has been able to detect the occurrence of this phenomenon through verification of stability. A specific flapping detection procedure is shown below.

(a)経路情報のフラッピングとは、短期間において同一の経路に対する変更が頻繁に起こる現象のことを言う。経路情報の変更はルータの負荷を増大させるため、変更が頻繁に起こるとルータが過負荷になり結果としてインターネット全体の接続不良等の障害を引き起こす。 (A) Route information flapping refers to a phenomenon in which changes to the same route frequently occur in a short period of time. Since the change of the route information increases the load on the router, if the change occurs frequently, the router is overloaded, resulting in a failure such as poor connection of the entire Internet.

(b)フラッピングはその定義より明らかなとおり、ある程度の期間継続して経路情報を観測してその変更の頻度などを観測しないと判定できない。そのため、単一の測定を繰り返すだけではフラッピングを検出することは難しい。そのため、本実施例では経路情報の観測結果を履歴DB306に格納して一定期間保管する。 (B) As is clear from the definition, flapping cannot be determined unless the route information is continuously observed for a certain period and the frequency of the change is observed. Therefore, it is difficult to detect flapping only by repeating a single measurement. Therefore, in this embodiment, the observation result of the route information is stored in the history DB 306 and stored for a certain period.

(c)診断の過程においてフラッピングの有無を検証するよう障害解析・推論エンジン303からネットワーク品質解析モジュール305に指示があった場合、ネットワーク品質解析モジュール305は履歴DB306を参照しながら経路情報の変更の頻度を解析する。 (C) When the failure analysis / inference engine 303 instructs the network quality analysis module 305 to verify the presence or absence of flapping in the diagnosis process, the network quality analysis module 305 refers to the history DB 306 to change the route information. Analyzing the frequency of

(d)この変更の頻度があらかじめ定義された閾値より上回っている場合はネットワーク品質解析モジュール305はフラッピングが発生しているものとみなし、その旨障害解析・推論エンジン303に返答を行う。 (D) If the frequency of this change exceeds a predefined threshold, the network quality analysis module 305 considers that flapping has occurred, and sends a response to that effect to the failure analysis / inference engine 303.

10.エージェントはフラッピングの発生、すなわち経路伝搬における安定性に異常があったのでユーザにその旨を通知する。   10. The agent notifies the user of the occurrence of flapping, that is, abnormality in the stability of the path propagation.

11.以上により、ユーザ(ネットワーク管理者)は生じている接続の不安定性が経路情報のフラッピングによるものと認識できる。   11. From the above, the user (network administrator) can recognize that the instability of the connection that has occurred is due to the flapping of the route information.

図5に本実施例の各エージェントの診断手順のフローチャートを示す。診断項目の抽出401より前の処理については図1の101〜103と同じである。すなわち、図1に示すように、エージェントはネットワーク機器、他のエージェントから情報を収集し(101)、現在の状態は障害の可能性があるかどうかを判断し、障害の可能性がない場合は、ステップ101に戻り(102)、障害の可能性がある場合は、診断知識を用いて、診断「仮説」を作成する(103)。次に、図5に示すように、診断項目を抽出し(401)、診断項目を実行する(402)。診断項目中にユーザ(ネットワーク管理者)との対話処理が規定されているかどうかを判断し(403)、規定されていない場合はそのままステップ405に進む。診断項目中にユーザとの対話処理が規定されている場合は、ユーザに対して入力を求める画面を表示し、ユーザにより入力された値(例えば「ネットワークの接続速度が十分に速い」といった入力データ)に基づき診断を行い(404)、ステップ405に進む。ステップ405では、実行すべき診断項目があるかどうかを判断し、ある場合はステップ402に戻る。ステップ405で、実行すべき診断項目がない場合は、「仮説」の診断結果およびプロセスをユーザに提示する(406)。ステップ409では、ユーザから診断の再実行の指示があったかどうかを判断する。再実行の指示があった場合は、「仮説」の検証結果中の、指定された診断項目から「仮説」検証を再実行し(407)、ステップ405に戻る。再実行の指示がない場合は、未検証の「仮説」があるかどうかを判断し(410)、ある場合はステップ401に戻り、ない場合は、全「仮説」の検証結果をユーザに通知する。   FIG. 5 shows a flowchart of the diagnostic procedure for each agent of this embodiment. The processing before the diagnostic item extraction 401 is the same as 101 to 103 in FIG. That is, as shown in FIG. 1, the agent collects information from network devices and other agents (101), determines whether the current state has a possibility of failure, and if there is no possibility of failure, Returning to step 101 (102), if there is a possibility of failure, a diagnostic "hypothesis" is created using the diagnostic knowledge (103). Next, as shown in FIG. 5, diagnostic items are extracted (401), and the diagnostic items are executed (402). It is determined whether or not an interactive process with the user (network administrator) is defined in the diagnosis item (403), and if it is not defined, the process proceeds to step 405 as it is. When dialog processing with the user is defined in the diagnostic item, a screen for prompting the user to input is displayed, and input data such as a value input by the user (for example, “the network connection speed is sufficiently high”) ) Based on (), the process proceeds to step 405. In step 405, it is determined whether there is a diagnostic item to be executed. If there is no diagnosis item to be executed in step 405, the diagnosis result and process of “hypothesis” are presented to the user (406). In step 409, it is determined whether or not there is an instruction to re-execute diagnosis from the user. If there is an instruction for re-execution, “hypothesis” verification is re-executed from the designated diagnostic item in the “hypothesis” verification result (407), and the process returns to step 405. If there is no re-execution instruction, it is determined whether there is an unverified “hypothesis” (410). If there is, the process returns to step 401. If not, the verification result of all “hypotheses” is notified to the user. .

以上、本発明者によってなされた発明を、前記実施例に基づき具体的に説明したが、本発明は、前記実施例に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは勿論である。   As mentioned above, the invention made by the present inventor has been specifically described based on the above embodiments. However, the present invention is not limited to the above embodiments, and various modifications can be made without departing from the scope of the invention. Of course.

従来技術におけるエージェントの診断手順のフローチャートである。It is a flowchart of the diagnostic procedure of the agent in a prior art. 従来技術におけるエージェントの協調による診断事例を示す図である。It is a figure which shows the example of a diagnosis by cooperation of the agent in a prior art. 本発明の実施形態のエージェントの構成図を示す図である。It is a figure which shows the block diagram of the agent of embodiment of this invention. 表1:診断項目例を示す図である。Table 1: It is a figure which shows the example of a diagnostic item. 本発明の実施例の診断手順のフローチャートである。It is a flowchart of the diagnostic procedure of the Example of this invention.

符号の説明Explanation of symbols

301…エージェント間通信モジュール、302…ネットワーク機器間通信モジュール、303…障害解析・推論エンジン、304…診断知識DB、305…ネットワーク品質解析モジュール、306…履歴DB、307…オペレータ対話インタフェース 301: Communication module between agents 302: Communication module between network devices 303: Failure analysis / inference engine 304: Diagnosis knowledge DB 305: Network quality analysis module 306 ... History DB 307: Operator interaction interface

Claims (4)

自律システムが複数相互接続された広域網上に複数のエージェントを配置し、前記広域網で発生した障害の検知と解析を自動的に行うネットワーク管理システムであって、
前記各エージェントは、
前記広域網上に配置された複数の他のエージェントとの協調動作を通じて広域網の状態に関する情報を多地点から収集するエージェント間通信モジュールと、
前記エージェント間通信モジュールが取得した広域網の情報と自エージェント中に含まれる診断知識を用いて広域網上で発生している現象の原因を含む推測を行い、推測した内容の正否を複数の診断項目を調査することにより判定する障害解析・推論エンジンと、
を有し、
前記障害解析・推論エンジンは、
判定の導出に利用する診断項目の種類および実行順序をユーザとの対話的処理を通じて変更する対話手段と、
前記対話手段によりユーザが変更した診断項目および実行順序に基づき判定処理を再実行する再実行手段と、
を有することを特徴とするネットワーク管理システム。
A network management system in which a plurality of agents are arranged on a wide area network in which a plurality of autonomous systems are interconnected to automatically detect and analyze a failure occurring in the wide area network,
Each of the agents
An inter-agent communication module that collects information about the state of the wide area network from multiple points through cooperative operation with a plurality of other agents arranged on the wide area network;
Using the information on the wide area network acquired by the inter-agent communication module and the diagnostic knowledge included in the own agent, the estimation including the cause of the phenomenon occurring on the wide area network is performed, and a plurality of diagnoses of the correctness of the estimated contents are performed. A failure analysis / inference engine that judges by examining items,
Have
The failure analysis / inference engine is
An interactive means for changing the type and execution order of diagnostic items used for derivation of judgment through interactive processing with the user;
Re-execution means for re-execution of the determination process based on the diagnostic item changed by the user by the interactive means and the execution order;
A network management system comprising:
請求項1に記載のネットワーク管理システムであって、
前記障害解析・推論エンジンは、診断項目中にユーザとの対話処理が規定されている場合、ユーザに対して入力を求める画面を表示し、ユーザにより入力された値に基づき診断を行う手段を有することを特徴とするネットワーク管理システム。
The network management system according to claim 1,
The failure analysis / inference engine includes means for displaying a screen for requesting input to the user and performing diagnosis based on a value input by the user when a dialogue process with the user is defined in the diagnosis item. A network management system characterized by that.
請求項1または2に記載のネットワーク管理システムであって、
前記各エージェントは、
経路情報の観測結果を一定期間保管している履歴DBと、
前記障害解析・推論エンジンから指示があった場合、前記履歴DBを参照しながら一定期間保管されている経路情報を解析し、経路情報の安定性を前記障害解析・推論エンジンに返答するネットワーク品質解析モジュールと、
を有することを特徴とするネットワーク管理システム。
The network management system according to claim 1 or 2,
Each of the agents
A history DB that stores observation results of route information for a certain period,
When there is an instruction from the failure analysis / inference engine, network quality analysis that analyzes route information stored for a certain period while referring to the history DB and returns the stability of the route information to the failure analysis / inference engine Module,
A network management system comprising:
自律システムが複数相互接続された広域網上に複数のエージェントを配置し、前記広域網で発生した障害の検知と解析を自動的に行うネットワーク管理方法であって、
前記各エージェントはエージェント間通信モジュールと障害解析・推論エンジンとを有し、
前記エージェント間通信モジュールが、前記広域網上に配置された複数の他のエージェントとの協調動作を通じて広域網の状態に関する情報を多地点から収集するエージェント間通信ステップと、
障害解析・推論エンジンが、前記エージェント間通信ステップで取得した広域網の情報と自エージェント中に含まれる診断知識を用いて広域網上で発生している現象の原因を含む推測を行い、推測した内容の正否を複数の診断項目を調査することにより判定する障害解析・推論ステップと、
を有し、
前記障害解析・推論ステップは、
判定の導出に利用する診断項目の種類および実行順序をユーザとの対話的処理を通じて変更する対話ステップと、
前記対話ステップによりユーザが変更した診断項目および実行順序に基づき判定処理を再実行する再実行ステップと、
を有することを特徴とするネットワーク管理方法。
A network management method in which a plurality of agents are arranged on a wide area network in which a plurality of autonomous systems are interconnected, and a failure occurring in the wide area network is automatically detected and analyzed,
Each agent has an inter-agent communication module and a failure analysis / inference engine,
The inter-agent communication module collects information on the state of the wide area network from multiple points through cooperative operation with a plurality of other agents arranged on the wide area network; and
The failure analysis / inference engine makes a guess including the cause of the phenomenon occurring on the wide area network using the wide area network information acquired in the inter-agent communication step and the diagnostic knowledge contained in the local agent. Failure analysis / inference step to determine whether the contents are correct by investigating multiple diagnostic items,
Have
The failure analysis / inference step includes
An interactive step for changing the type and execution order of diagnostic items used for deriving the judgment through interactive processing with the user;
A re-execution step of re-execution of the determination process based on the diagnosis item changed by the user and the execution order in the dialog step;
A network management method characterized by comprising:
JP2006124612A 2006-04-28 2006-04-28 Network management system and method Expired - Fee Related JP4668117B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006124612A JP4668117B2 (en) 2006-04-28 2006-04-28 Network management system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006124612A JP4668117B2 (en) 2006-04-28 2006-04-28 Network management system and method

Publications (2)

Publication Number Publication Date
JP2007300249A true JP2007300249A (en) 2007-11-15
JP4668117B2 JP4668117B2 (en) 2011-04-13

Family

ID=38769396

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006124612A Expired - Fee Related JP4668117B2 (en) 2006-04-28 2006-04-28 Network management system and method

Country Status (1)

Country Link
JP (1) JP4668117B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011082943A (en) * 2009-09-08 2011-04-21 Kddi Corp Method, node device and program for real-time detection of failed link based upon route control protocol
JP2020536475A (en) * 2017-10-06 2020-12-10 サウザンドアイズ・インコーポレーテッドThousandEyes, Inc. Traffic failure detection on the Internet

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7212245B2 (en) * 2018-09-10 2023-01-25 日本電信電話株式会社 diagnostic equipment

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0583257A (en) * 1991-03-12 1993-04-02 Hewlett Packard Co <Hp> Land-mark-data extracting paradigm for diagnosing data communication network
JPH11243422A (en) * 1998-02-25 1999-09-07 Nippon Telegr & Teleph Corp <Ntt> Autonomous inter-organization diagnostic system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0583257A (en) * 1991-03-12 1993-04-02 Hewlett Packard Co <Hp> Land-mark-data extracting paradigm for diagnosing data communication network
JPH11243422A (en) * 1998-02-25 1999-09-07 Nippon Telegr & Teleph Corp <Ntt> Autonomous inter-organization diagnostic system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011082943A (en) * 2009-09-08 2011-04-21 Kddi Corp Method, node device and program for real-time detection of failed link based upon route control protocol
JP2020536475A (en) * 2017-10-06 2020-12-10 サウザンドアイズ・インコーポレーテッドThousandEyes, Inc. Traffic failure detection on the Internet
JP7096342B2 (en) 2017-10-06 2022-07-05 サウザンドアイズ・インコーポレーテッド Traffic failure detection on the Internet

Also Published As

Publication number Publication date
JP4668117B2 (en) 2011-04-13

Similar Documents

Publication Publication Date Title
US11442803B2 (en) Detecting and analyzing performance anomalies of client-server based applications
US20070177523A1 (en) System and method for network monitoring
US9319284B2 (en) Operation delay monitoring method, operation management apparatus, and operation management program
CN108306747B (en) Cloud security detection method and device and electronic equipment
US11181890B2 (en) Control system, information processing device, and anomaly factor estimation program
US20080086295A1 (en) Monitoring simulating device, method, and program
US20140143768A1 (en) Monitoring updates on multiple computing platforms
JP5147216B2 (en) Method, system and computer program for measuring autonomic capability of a computing system
SE502852C2 (en) Ways and systems for distributed hardware monitoring
JP4668117B2 (en) Network management system and method
CN105812170A (en) Data center-based fault analysis method and device
CN110708715A (en) Service fault finding method and device for 5G base station
JPH11259331A (en) Method and device for detecting fault position on network and storage medium for storing network fault position detecting program
JP4558662B2 (en) IP network path diagnosis device and IP network path diagnosis system
JPH09205429A (en) Network fault diagnostic device, fault prediction device, and its diagnostic and prediction method
CN110474821A (en) Node failure detection method and device
JP2007068090A (en) Network device monitor system and monitoring method, and program therefor
JP4485344B2 (en) Server apparatus, failure path diagnosis method, and failure path diagnosis program
US9798608B2 (en) Recovery program using diagnostic results
JP2000358029A (en) Automatic fault diagnostic network system, and automatic fault diagnostic method for network
JP2008053913A (en) Network unit management system, method and program
JP6378653B2 (en) Service impact cause estimation apparatus, service impact cause estimation program, and service impact cause estimation method
CN111200506B (en) Fault sensing method and device and controller
US9490995B1 (en) Simulation system for network devices in a network
JP2013258630A (en) Failure diagnostic device, method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080801

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100803

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110111

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110112

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140121

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees