JP2004228828A - Network failure analysis support system - Google Patents

Network failure analysis support system Download PDF

Info

Publication number
JP2004228828A
JP2004228828A JP2003012984A JP2003012984A JP2004228828A JP 2004228828 A JP2004228828 A JP 2004228828A JP 2003012984 A JP2003012984 A JP 2003012984A JP 2003012984 A JP2003012984 A JP 2003012984A JP 2004228828 A JP2004228828 A JP 2004228828A
Authority
JP
Japan
Prior art keywords
response time
network
route
information
deterioration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003012984A
Other languages
Japanese (ja)
Inventor
Yukio Ogawa
祐紀雄 小川
Eiji Ohira
栄二 大平
Satoshi Hasegawa
聡 長谷川
Naoteru Ishii
直輝 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2003012984A priority Critical patent/JP2004228828A/en
Publication of JP2004228828A publication Critical patent/JP2004228828A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a method of measuring a network response time and a network transport factor so as to locate a degradation causing spot in a network system failure analysis support method. <P>SOLUTION: In a network of connecting a plurality of clients and a plurality of servers, a response time and/or a transport factor in a path from a branch line to a counter branch line is measured, a spot which causes degradation in the response time/transport factor is automatically obtained by the comparison of a plurality of pieces of path information, operation information is collected from a network instrument located at the degradation causing spot, it is determined on the basis of the operation information whether degradation in the response time/transport factor is induced by a lack of the performance of the network instrument or a line bandwidth, the interface of the network instrument on a degraded path is blocked, and communication is detoured to another path where no degradation is detected. <P>COPYRIGHT: (C)2004,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、ネットワークシステム運用管理方法に関し、さらに詳しくは、ネットワークの通信経路における応答時間および/または到達率を監視することによりネットワークシステムの性能監視や障害分析を行う方法に関する。
【0002】
【従来の技術】
ネットワークにおいて応答時間の劣化などの性能障害が発生した場合、その原因部位を特定するために、ICMP(Internet Control Message Protocol)エコーの要求/応答時間(pingコマンド)を利用しサーバとクライアントやその他ネットワーク機器間でのIPパケットの応答時間や到達度を調査する方法が広く用いられている。また、プローブを利用してパケットを解析し応答時間を算出する方法も利用されている。
【0003】
特許文献1には、ネットワーク上の様様な位置に設置したプローブを利用してパケットを解析し機器間の応答時間を調査することにより遅延の原因部位を分離する方法が開示されている。
【0004】
また、特許文献2には、クライアントからサーバまでの遅延時間を測定し、遅延時間が閾値を超えた場合にクライアントからサーバに至るまでに経由する各ルータまでの遅延時間を調査することにより遅延の原因部位を分離する方法が開示されている。
【0005】
【特許文献1】
特開平11−346238号公報
【特許文献2】
特開2002−152203号公報
【0006】
【発明が解決しようとする課題】
特許文献1では、遅延の原因部位を分離するために、クライアントとサーバといった二つ機器を接続する経路において、両端だけでなく様様な位置にプローブを設置する必要がある。
【0007】
また、特許文献2では、遅延の原因部位を分離するために、クライアントとサーバといった二つの機器を接続する通信経路において、両端間で遅延測定を定常的に行い、かつ、遅延発生時に新たに経路上の各機器への遅延測定を行うというように二段階の遅延測定を行う必要がある。
【0008】
これら従来方法では、ネットワークの定期的な性能測定のためには各通信経路の両端の機器間での応答時間を測定し、応答時間の劣化時における原因部位の分離のためには各通信経路で経由する機器における応答時間を測定するというように目的別に応答時間測定を実施していた。これらの方法は、数千台以上の機器からなる大規模なネットワークシステムにおいて全体をカバーする応答時間の測定を行い、かつ、応答時間の劣化時に原因部位を求めるためには効率的な方法ではない。
【0009】
【課題を解決するための手段】
本発明では、ネットワークの定期的な性能測定のために、各通信経路の両端の機器間での応答時間を測定しつつ、かつ、その情報を利用することにより応答時間および/または到達率の劣化時における原因部位の分離を効率的に行うことができるネットワーク障害分析支援システムを提供する。また、本発明は、原因部位の分離を行った上で、応答時間および/または到達率の劣化の原因が、機器の性能不足や回線帯域の不足にあるか否かを判断することができるネットワーク障害分析支援システムを提供する。また、本発明は、原因部位の分離を行った上で、通信経路を、原因部位を経由しない経路に迂回させることができるネットワーク障害分析支援システムを提供する。
【0010】
具体的には、本発明は、ネットワークにおいて支線部の機器に組み込まれた応答時間測定エージェントを用いて支線部から対向の支線部に至る経路におけるIPパケットの応答時間および/または到達率を網羅的に測定する応答時間測定手段と、応答時間および/または到達率の劣化を検知する応答時間劣化検知手段と、各経路にて経由するネットワーク機器のIPアドレス情報から経路情報を作成する経路情報作成手段と、複数の経路情報の比較により応答時間および/または到達率の劣化原因部位の部分IPアドレスを特定することにより劣化発生の原因部位を求める劣化原因部位絞込み手段を設けている。
【0011】
また、本発明は、検出された応答時間および/または到達率の劣化の原因部位に位置するネットワーク機器に対して稼動情報を収集するための設定ファイルを作成する稼動情報収集設定ファイル作成手段と、作成した設定ファイルをもとに前記ネットワーク機器から稼動情報を収集する稼動情報収集手段と、収集した稼動情報をもとに機器性能や回線帯域の不足のために劣化が発生したか否かを判断する劣化原因判定手段を設けている。
【0012】
さらに、本発明は、クライアントからサーバに対し複数の経路が設定されており、かつ、その中のひとつの経路において応答時間および/または到達率の劣化が検知された場合に、当該経路上のネットワーク機器のインターフェースを閉塞させ劣化が検知されていない経路に迂回させる劣化経路迂回設定手段を設けている。
【0013】
本発明は以上の構成を備えているので、ネットワークの定期的な性能測定のために各通信経路の両端の機器間での応答時間を測定しつつ、かつ、その情報を利用することにより応答時間および/または到達率の劣化時における原因部位の分離を効率的に行うことができる。また、応答時間および/または到達率の劣化の原因が、機器の性能不足や回線帯域の不足にあるか否かを判断することができる。また、通信経路を、原因部位を経由しない経路に迂回させることができる。
【0014】
【発明の実施の形態】
以下、図を参照して本発明の実施形態を説明する。
【0015】
図1は、本発明の一実施形態にかかるネットワーク障害分析支援システムの機能構成例である。図1を参照しながら、ネットワーク障害分析支援システムのハードウェア構成および機能構成を説明する。
【0016】
ネットワーク機器100、および、ネットワーク機器107は、ルータ、ATM交換機、スイッチングハブ、インテリジェントハブなどの機器である。ネットワーク機器100は、通信経路の両端に位置する機器である。ネットワーク機器107は通信経路が経由する機器であり、ネットワーク機器100と同一の機器であってもよい。
【0017】
応答時間測定処理部101は、ネットワーク機器100内にあり、IPパケットの応答時間および/または到達率測定処理を行い、応答時間/到達率情報103を出力する。IPパケットの応答時間および/または到達率の測定は、ICMP(Internet Control Message Protocol)エコー要求/応答機能(pingコマンド)により実装されている。応答時間測定処理部101を応答時間測定エージェントとする。
【0018】
経路情報収集処理部102は、ネットワーク機器100内にあり、IPパケットが宛先アドレスに到達するまでに経由するルータのIPアドレスを収集し、片方向経路情報104として出力する。宛先アドレスに到達するまでに経由する経路上のIPアドレスの収集は、tracerouteコマンドにより実装されている。経路情報収集処理部102を経路情報収集エージェントとする。
【0019】
稼動情報測定処理部105は、ネットワーク機器107内にあり、稼動情報測定のためのSNMP(Simple Network Management Protocol )エージェントであり、CPU利用率やトラフィック量、パケット廃棄数などの稼動情報を出力する。
【0020】
サーバやクライアントについても、応答時間測定エージェント機能およびSNMPエージェント機能を備えている場合は、ネットワーク機器に含める。
【0021】
ネットワーク監視装置110は、一般的なパーソナルコンピュータにより構成することができる。
【0022】
応答時間測定処理起動処理部111は、ネットワーク監視装置110内にあり、ネットワーク機器100内の応答時間測定処理部101を起動して応答時間/到達率情報103を測定させ、測定結果を自身に入力する。
【0023】
応答時間/到達率情報格納処理部113は、ネットワーク監視装置110内にあり、応答時間測定処理部102により測定された応答時間/到達率情報103をハードディスクなどの記憶装置に格納、蓄積する。
【0024】
応答時間表示処理部114は、ネットワーク監視装置110内にあり、応答時間/到達率情報115を、ネットワーク情報表示装置140を通じて表示する。
【0025】
応答時間劣化検知処理部112は、ネットワーク監視装置110内にあり、応答時間/到達率の監視経路において測定した応答時間/到達率情報103が、各経路毎に設定した閾値以上であるか判定する。
【0026】
経路情報収集処理起動処理部116は、ネットワーク監視装置110内にあり、ネットワーク機器100内の経路情報収集処理部102を起動して片方向経路情報104を収集させ、収集結果を入力する。
【0027】
経路情報作成処理部117は、ネットワーク監視装置110内にあり、入力された片方向経路情報104から両方向の経路情報118を作成する。経路情報118の作成方法の詳細については後述する。
【0028】
劣化原因部位絞込み処理部119は、ネットワーク監視装置110内にあり、応答時間/到達率の監視経路において閾値以上の応答時間/到達率が観測された場合に、経路情報118を利用して応答時間および/または到達率の劣化の原因となるネットワーク部位を自動的に求める。絞り込み方法の詳細については後述する。
【0029】
稼動情報収集設定ファイル作成処理部120は、ネットワーク監視装置110内にあり、自動的に求めた劣化原因部位に位置するネットワーク機器107を稼動情報収集対象機器とし、収集する稼動情報の種別、収集周期、収集期間を決定して稼動情報収集のための設定ファイルを作成する。
【0030】
稼動情報収集処理起動処理部121は、ネットワーク監視装置110内にあり、稼動情報収集処理部126を起動する。
【0031】
稼動情報収集処理部126は、ネットワーク監視装置110内にあり、稼動情報収集設定ファイル作成処理部120が作成した稼動情報収集設定ファイルに従って、ネットワーク機器107が稼動情報測定処理部105により測定したネットワーク稼動情報106を収集し、収集結果を自身に入力する。
【0032】
稼動情報格納処理部127は、ネットワーク監視装置110内にあり、稼動情報収集処理部126により収集、入力された稼動情報106をハードディスクなどの記憶装置に格納、蓄積する。
【0033】
稼動情報表示処理部128は、ネットワーク監視装置110内にあり、稼動情報129を、ネットワーク情報表示装置140を通じて表示する。
【0034】
劣化原因判定処理部122は、ネットワーク監視装置110内にあり、稼動情報収集処理部126により収集、入力された稼動情報106をもとに応答時間および/または到達率の劣化の原因が機器の性能不足や回線帯域の不足にあるか否かを判定する。判定方法の詳細については後述する。
【0035】
劣化経路迂回設定処理部123は、ネットワーク監視装置110内にあり、応答時間および/または到達率の劣化原因部位を経由しない経路に通信経路を迂回させる。迂回設定方法の詳細については後述する。
【0036】
障害分析支援処理表示処理部124は、ネットワーク監視装置110内にあり、障害分析支援処理情報125を、ネットワーク情報表示装置140を通じて表示する。障害分析支援処理情報125とは、劣化原因部位絞込み処理部119が求めた応答時間および/または到達率の劣化の原因となるネットワーク部位の情報、稼動情報収集処理起動処理部121が稼動情報収集処理部126を起動したという情報、劣化原因判定処理部122が判定した応答時間および/または到達率の劣化原因の情報、および、劣化経路迂回設定処理部123が通信経路を迂回させたという情報および迂回経路の情報である。
【0037】
ネットワーク情報表示装置140も、ネットワーク監視装置110と同じく一般的なパーソナルコンピュータにより構成することができる。
【0038】
表示処理呼び出し処理部141は、ネットワーク情報表示装置140内にあり、ネットワーク監視装置110内にある応答時間表示処理部114を呼び出すことにより応答時間/到達率情報115をグラフ等により表示する。また、ネットワーク監視装置110にある稼動情報表示処理部128を呼び出すことによりネットワーク稼動情報129をグラフ等により表示する。さらに、ネットワーク監視装置110内にある障害分析支援処理表示処理部124を呼び出すことにより障害分析支援処理情報125を表示する。
【0039】
上記各装置の各処理部は、上記各装置内のCPU(Central Processing Unit )がプログラムを実行することにより具現化される。プログラムは、予め各装置内の記憶装置に格納されていても良いし、着脱可能な記憶媒体または通信媒体を介して他の装置から導入されても良い。
【0040】
図2は、本発明の一実施形態において監視対象となるネットワークシステムの論理構成の例である。数千台以上のネットワーク機器からなるような大規模なネットワークシステムでは、ネットワークの拡張性や回線コストの観点から、データセンタ200と各支店204〜207の間にネットワークのハブとなる中継拠点201、202を設置し、回線を集約するトポロジーとすることが多いが、中継拠点を設置せずデータセンタ200と各支店204〜207を物理回線あるいは論理回線でメッシュ状に接続するネットワークトポロジーであってもかまわない。また、信頼性の観点から、クライアント212〜215からサーバ210、211へ至る通信経路を複数設置することが多い。
【0041】
サーバ210、211、クライアント212〜215、ルータ220〜237は、図1におけるネットワーク機器100に相当し、応答時間測定処理部101、経路情報収集処理部102、稼動情報測定処理部105の各処理部を有する。
【0042】
監視センタ203に設置された監視装置216は、図1におけるネットワーク監視装置110に相当し、応答時間測定処理起動処理部111、応答時間/到達率情報格納処理部113、応答時間表示処理部114、応答時間劣化検知処理部112、経路情報収集処理起動処理部116、経路情報作成処理部117、劣化原因部位絞込み処理部119、稼動情報収集設定ファイル作成処理部120、稼動情報収集処理起動処理部121、稼動情報収集処理部126、稼動情報格納処理部127、稼動情報表示処理部128、劣化原因判定処理部122、劣化経路迂回設定処理部123、障害分析支援処理表示処理部124の各処理部を有する。監視対象数が多いために1台の監視装置216で全監視対象機器をカバーできない場合は、複数台の監視装置216で分担することも可能である。
【0043】
次に、図1の機能構成を持つネットワーク監視装置110による、図2の構成を持つネットワークシステムを対象とした障害分析支援処理で利用する経路情報の作成処理の例を、図3のフローチャートに従い、図4を用いて説明する。
【0044】
(step 300)応答時間/到達率測定を実施している各通信経路について、経由するネットワーク機器のIPアドレス情報を経路情報として定期的に作成、更新する。更新周期は、ネットワークのトポロジーチェンジの頻度に従うこととし一日に数回というように設定する。経路情報の取得のために各通信経路の両端のネットワーク機器から双方向にtracerouteコマンドを実行する。tracerouteコマンドは、経路上で経由する各機器毎に一アドレスを出力する。経由する各機器の入力インターフェースと出力インターフェースの両方のアドレスを取得するために、経路上で双方向にコマンドを実行し出力結果を足し合わせる。以下、図2の経路A(240)について経路情報を作成する場合を例として説明する。
【0045】
(step 301)ネットワーク監視装置216内の経路情報収集処理起動処理部116は、定期的に経路A(240)の両端に位置するルータ230およびルータ220にリモートログインして経路情報収集処理部102を起動する。ここでは、経路情報収集エージェントとしてルータ230およびルータ220内の経路情報収集処理部102を利用するが、クライアント212およびサーバ210内の経路情報収集処理部102を利用してもよい。
【0046】
ルータ230内の経路情報収集処理部102は、サーバ210のアドレスj1(271)をターゲットとしてtracerouteコマンドを実行し、経路A(240)についてのクラインアント212からサーバ210への片方向経路情報400を出力する。ネットワーク監視装置216内の経路情報収集処理起動処理部116は、片方向経路情報400を経路情報作成処理部117に入力する。
【0047】
同様に、ルータ220内の経路情報収集処理部102は、クライアント212のアドレスa1(250)をターゲットとしてtracerouteコマンドを実行し、経路A(240)についてのサーバ210からクラインアント212への片方向経路情報401を出力する。ネットワーク監視装置216内の経路情報収集処理起動処理部116は、片方向経路情報401を経路情報作成処理部117に入力する。
【0048】
なお、経路情報収集に利用するtarcerouteコマンドは、ルータなどのネットワーク機器には、通常、実装されており、特別なソフトウェアやハードウェアを組み込む必要はない。
【0049】
(step 302)ネットワーク監視装置216内の経路情報作成処理部117は、経路A(240)についてのクラインアント212からサーバ210への片方向経路情報400とサーバ210からクラインアント212への片方向経路情報401を図4に示すように相互に組み合わせて、経路A(240)についての経路情報402を作成する。
【0050】
次に、図1の機能構成を持つネットワーク監視装置110による、図2の構成を持つネットワークシステムを対象としたネットワーク性能測定、障害分析支援処理の例を、図5のフローチャートに従い、図6を用いて説明する。
【0051】
(step 500)監視対象経路として設定している各通信経路について、定期的に応答時間/到達率測定を実施し、通信品質の劣化が検知された場合に、障害分析支援処理を実施する。測定周期は、10分毎や5分毎というように数分毎に設定する。監視経路は、データセンタにおけるブロードキャストドメインとしてのネットワークセグメントと、各支店におけるブロードキャストドメインとしてのネットワークセグメントをメッシュ状に接続した通信経路とする。図2の例では、各クライアント212〜215と各サーバ210、211をそれぞれ接続する通信経路を監視経路とする。監視トラフィック量の回線帯域に占める割合が大きく通常の業務トラフィックの妨げになる恐れがある場合は、応答時間要件がある業務サーバが設置されたネットワークセグメントと代表的な支店のネットワークセグメントを接続する通信経路というように監視経路を選び出すこととする。以下、図2の経路A(240)について応答時間/到達率を測定する場合を例として説明する。
【0052】
(step 501)ネットワーク監視装置216内の応答時間測定処理起動処理部111は、定期的に監視経路の支店側(クライアント側)に位置するルータ230にリモートログインして応答時間測定処理部101を起動する。ここでは、応答時間測定エージェントとしてルータ230内の応答時間測定処理部101を利用するが、クライアント212内の応答時間測定処理部102を利用してもよい。また、クライアント側でなくサーバ側に位置するルータ220やサーバ210にリモートログインし、それぞれの応答時間測定処理部102を利用することも可能である。
【0053】
ルータ230内の応答時間測定処理部101は、サーバ210のアドレスj1(271)をターゲットとしてpingコマンドを実行し、経路A(240)についてのクラインアント212からサーバ210への往復の応答時間およびサーバ210への到達率(パケットロス情報)を出力する。ネットワーク監視装置216内の応答時間測定処理起動処理部111は、応答時間/到達率情報を応答時間劣化検知処理部112に入力する。
【0054】
なお、応答時間/到達率測定に利用するpingコマンドは、ルータなどのネットワーク機器には、通常、実装されており、特別なソフトウェアやハードウェアを組み込む必要はない。
【0055】
(step 502)ネットワーク監視装置216内の応答時間劣化検知処理部112は、各監視経路における応答時間およびIPパケット到達率が、それぞれの監視経路に対して設定した閾値を設定した一定期間以上超えているかどうか判定する。閾値の設定基準は、以下の通りである。
【0056】
・ネットワークの各経路における応答時間/到達率の設計値
・過去の測定結果における同一の時間帯の平均値に同時間帯の標準偏差値をn倍して加えた値
・過去の測定結果における同一の曜日、時間帯の平均値に同時間帯の標準偏差値をn倍して加えた値
・過去の測定結果における同一の週、曜日、時間帯の平均値に同時間帯の標準偏差値をn倍して加えた値
・過去の測定結果における同一の日付、時間帯の平均値に同時間帯の標準偏差値をn倍して加えた値
ここでnは2から3ぐらいの値とし、過去の観測結果よりより適切な値を定める。監視経路において、観測された応答時間および/または到達率が閾値を超えている場合は、通信品質の劣化が発生していると判断する。
【0057】
(step 503)ネットワーク監視装置216内の劣化原因部位絞込み処理部119は、少なくとも一つの監視経路において応答時間/到達率がそれぞれの経路に対して設定された閾値を超えている場合には、通信品質劣化の原因部位を自動的に求める。以下、ルータ226のインターフェース(IPアドレスd1)262が原因で、通信品質の劣化が起こった場合を例にとり説明する。この場合、監視経路A(240)、監視経路E(244)、監視経路B(241)において品質劣化が検知されている。図6を利用して絞り込み方法を説明する。
【0058】
(step 6−1):劣化が検知された監視経路についての経路情報(経路A(240)の経路情報(600)、経路E(244)の経路情報(601)、経路B(241)の経路情報(602))、および、それらと一部でも重なっている正常状態の経路についての経路情報(経路C(242)の経路情報(603)、経路D(243)の経路情報(604))を全て検索する。
【0059】
(step 6−2):劣化が検知された経路の経路情報(経路A(240)の経路情報(600)、経路E(244)の経路情報(601)、経路B(241)の経路情報(602))の積集合(共通部分)605を検索する。
【0060】
(step 6−3):(step 6−2)で得られた集合605と、各正常経路の経路情報(経路C(242)の経路情報(603)、経路D(243)の経路情報(604))の積集合606、606を検索する。
【0061】
(step 6−4):(step 6−3)で得られたそれぞれの集合の和集合608を検索する。
【0062】
(step 6−5):(step 6−2)で得られた集合605と(step 6−4)で得られた集合608の差集合((step 6−4)で得られた集合608の(step 6−2)で得られた集合605に対する補集合)を検索する。図6の場合、ルータ226のインターフェース(IPアドレスd1)262が品質劣化の原因部位である判断する。
【0063】
最終的な集合608を算出する過程での演算方法は、集合演算の法則に従って入れ替えても差し支えない。
【0064】
監視経路が少ない場合は、絞り込み結果がより広範囲になる。例えば、図6の例で経路B(602)を監視していない場合、最終的に求まる原因部位はc1およびd1となる。ただし、監視経路数に応じて絞込み範囲は変化するが、アルゴリズムは監視経路数に関係なく適用可能である。
【0065】
(step 504)ネットワーク監視装置216内の稼動情報収集設定ファイル作成処理部120は、(step 503)にて絞り込まれたアドレスを持つネットワーク機器に対して稼動情報収集を行うために、収集情報項目、収集周期、収集期間を決定し、稼動情報収集処理部126の設定ファイルを作成する。ネットワーク稼動情報の収集情報項目は、ルータやレイヤー3スイッチなどのネットワーク機器に対しては、CPU利用率、空きメモリ量などとする。ネットワーク機器のインターフェースに対しては、入出力トラフィック量、入出力パケット数、入出力パケット廃棄数、入出力エラーバケット数、コリジョン数などとする。ネットワーク稼動情報の収集周期は、1分や30秒というように予め設定した値を利用するか、通常の定期的な稼動情報収集の周期の10分の1というように設定する。ネットワーク稼動情報の収集周期は、1時間や3時間というように予め設定した値を利用するか、応答時間/到達率が閾値を超えていた監視経路において、その後の応答時間/到達率測定結果が閾値以下になるまでとする。
【0066】
(step 505)ネットワーク監視装置216内の稼動情報収集処理起動処理部121は、稼動情報収集処理部126を起動する。稼動情報収集処理部115は、(step 504)にて作成した設定ファイルに従い、劣化原因部位に位置するネットワーク機器から稼動情報を収集し、稼動情報を劣化原因判定処理部122に入力する。
【0067】
(step 506)ネットワーク監視装置216内の劣化原因判定処理部122は、入力された稼動情報をもとに通信品質の劣化原因を推定する。稼動情報がそれぞれに対して設定された閾値を超えている状態が持続している場合、例えば、
・CPU利用率が閾値を超えている状態が持続している。
【0068】
・回線利用率が閾値を超えている状態が持続している。
【0069】
・パケット廃棄量が閾値を超えている状態が持続している。
【0070】
・コリジョン数が閾値を超えている状態が持続している。
といった場合は、それらの状態を示している当該ネットワーク機器や回線の性能不足に起因して通信品質の劣化が発生したと判断する。閾値の決定方法は、(step 502)での応答時間/到達率での閾値決定方法と同じとする。劣化原因部位のネットワーク機器の稼動情報が閾値以下であり、稼動状態が正常であると判断された場合は、劣化原因部位のネットワーク機器のソフトウェアやハードウェアの不具合に起因している、或いは、劣化原因部位のネットワーク機器に隣接しているATM交換機やスイッチングハブ等の経路情報としてのIPアドレスを持っていない機器の性能不足や不具合に起因していると判断する。
【0071】
(step 507)ネットワーク監視装置216内の劣化経路迂回設定理部123は、監視経路において応答時間およびIPパケット到達率が閾値を超えている状態が一定期間以上持続しており、かつ、劣化が検知されている経路に対する迂回経路では劣化が検知されていない場合、劣化が検知されている経路上のネットワーク機器のインターフェースを閉塞させ、ダイナミックルーティングプロトコルの作用により劣化経路から正常経路へと経路を迂回させる。図2を用いてこの動作を説明する。クライアント212からサーバ210への経路A(240)で劣化が検知され続けており、かつ、その迂回経路E(244)は正常状態である場合、ネットワーク監視装置216内の劣化経路迂回設定理部123はルータ230にリモートログインし、ルータ230のインターフェース(IPアドレスC1)258を閉塞させることにより、経路A(240)から、経路E(244)への迂回を実行する。閉塞させるインターフェースは、劣化経路上に在り、かつ、自身の閉塞により正常経路への迂回を導くことが可能であれば、いずれのインターフェースでもよい。
【0072】
本実施例は、以上の構成を備え、以上のstepをネットワーク監視装置において実施することにより、ネットワークの定期的な性能測定のために各通信経路の両端の機器間での応答時間を測定しつつ、かつ、その情報を利用することにより応答時間および/または到達率の劣化時における原因部位の分離を効率的に行うことが可能である。また、応答時間および/または到達率の劣化の原因が、機器の性能不足や回線帯域の不足にあるか否かを判断することが可能である。また、通信経路を、原因部位を経由しない経路に迂回させることが可能である。
【0073】
【発明の効果】
本発明によれば、ネットワークシステムにおいて、応答時間/到達率の測定や劣化原因部位の絞込み、劣化原因の推定、劣化経路の回避を効率的に行うことが可能になる。
【図面の簡単な説明】
【図1】本実施形態のシステム構成図である。
【図2】本実施形態のネットワーク論理構成図および応答時間監視経路の例である。
【図3】本実施形態の経路情報作成処理の流れである。
【図4】本実施形態の経路情報の作成方法である。
【図5】本実施形態の障害分析支援処理の流れである。
【図6】本実施形態の劣化原因部位の絞込み方法である。
【符号の説明】
100……ネットワーク機器、101……応答時間測定処理部、102……経路情報収集処理部、103……応答時間/到達率情報、104……片方向経路情報、105……稼動情報測定処理部、106……稼動情報、107……ネットワーク機器、110……ネットワーク監視装置、111……応答時間測定処理起動処理部、112……応答時間劣化検知処理部、113……応答時間/到達率情報格納処理部、114……応答時間表示処理部、115……応答時間/到達率情報、116……経路情報収集処理起動処理部、117……経路情報作成処理部、118……経路情報、119……劣化原因部位絞込み処理部、120……稼動情報収集設定ファイル作成処理部、121……稼動情報収集処理起動処理部、122……劣化原因判定処理部、123……劣化経路迂回設定処理部、124……障害分析支援処理表示処理部、125……障害分析支援処理情報、126……稼動情報収集処理部、127……稼動情報格納処理部、128……稼動情報表示処理部、129……稼動情報、140……ネットワーク情報表示装置、141……表示処理呼び出し処理部
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a network system operation management method, and more particularly, to a method of monitoring performance of a network system and analyzing a failure by monitoring response time and / or arrival rate in a communication path of a network.
[0002]
[Prior art]
When a performance failure such as deterioration of response time occurs in a network, a server / client or other network is used by using a request / response time (ping command) of an ICMP (Internet Control Message Protocol) echo in order to specify a cause of the performance failure. A method of examining the response time and reach of an IP packet between devices has been widely used. A method of analyzing a packet using a probe and calculating a response time is also used.
[0003]
Patent Literature 1 discloses a method of analyzing a packet using a probe installed at a position on a network and investigating a response time between devices to isolate a cause of delay.
[0004]
Japanese Patent Application Laid-Open No. H11-163,199 discloses measuring the delay time from a client to a server and, when the delay time exceeds a threshold value, investigating the delay time from a client to a server to each router. A method for isolating a causative site is disclosed.
[0005]
[Patent Document 1]
JP-A-11-346238
[Patent Document 2]
JP-A-2002-152203
[0006]
[Problems to be solved by the invention]
In Patent Literature 1, it is necessary to install a probe not only at both ends but also at various positions in a path connecting two devices such as a client and a server in order to isolate a part causing a delay.
[0007]
Further, in Patent Document 2, in order to separate the cause of the delay, in a communication path connecting two devices such as a client and a server, delay measurement is constantly performed between both ends, and a new path is generated when a delay occurs. It is necessary to perform two-stage delay measurement, such as performing delay measurement for each of the above devices.
[0008]
In these conventional methods, the response time between the devices at both ends of each communication path is measured for periodic performance measurement of the network, and each communication path is used for separation of the cause part when the response time deteriorates. The response time was measured for each purpose, such as measuring the response time of a device passing through. These methods are not efficient methods for measuring the response time that covers the entirety of a large-scale network system composed of thousands of devices or more, and for finding a cause part when the response time deteriorates. .
[0009]
[Means for Solving the Problems]
According to the present invention, for periodic performance measurement of a network, the response time between devices at both ends of each communication path is measured, and the response time and / or the arrival rate are degraded by using the information. Provided is a network failure analysis support system that can efficiently separate a cause part at the time. Further, according to the present invention, it is possible to determine whether or not the cause of the deterioration of the response time and / or the arrival rate is due to insufficient performance of the device or insufficient line bandwidth after separating the cause part. Provide a failure analysis support system. In addition, the present invention provides a network failure analysis support system capable of separating a cause part and then diverting a communication path to a path not passing through the cause part.
[0010]
More specifically, the present invention provides a comprehensive response time and / or arrival rate of IP packets in a path from a branch to an opposite branch using a response time measurement agent incorporated in a branch device in a network. Response time measuring means for measuring the response time and / or response time deterioration detecting means for detecting the deterioration of the response rate and route information creating means for creating the route information from the IP address information of the network device passing through each route And a deterioration cause part narrowing-down means for finding a cause part of the deterioration occurrence by specifying a partial IP address of the deterioration cause part of the response time and / or the arrival rate by comparing a plurality of pieces of route information.
[0011]
The present invention also provides an operation information collection setting file creating means for creating a setting file for collecting operation information for a network device located at a site where the detected response time and / or arrival rate deteriorates. An operation information collection unit that collects operation information from the network device based on the created setting file; and determines whether deterioration has occurred due to a shortage of device performance or a line band based on the collected operation information. Deterioration determination means is provided.
[0012]
Furthermore, the present invention provides a method for controlling a network on a path when a plurality of paths are set from a client to a server, and when a deterioration in response time and / or arrival rate is detected in one of the paths. There is provided a degraded route detour setting unit that closes the interface of the device and detours to a route where deterioration has not been detected.
[0013]
Since the present invention has the above configuration, the response time between the devices at both ends of each communication path is measured for the periodic performance measurement of the network, and the response time is measured by using the information. And / or the cause site can be efficiently separated at the time of deterioration of the arrival rate. In addition, it is possible to determine whether the deterioration of the response time and / or the arrival rate is due to a lack of performance of the device or a lack of the line band. Further, the communication route can be bypassed to a route that does not pass through the cause part.
[0014]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0015]
FIG. 1 is a functional configuration example of a network failure analysis support system according to an embodiment of the present invention. The hardware configuration and functional configuration of the network failure analysis support system will be described with reference to FIG.
[0016]
The network device 100 and the network device 107 are devices such as a router, an ATM switch, a switching hub, and an intelligent hub. The network devices 100 are devices located at both ends of a communication path. The network device 107 is a device via a communication path, and may be the same device as the network device 100.
[0017]
The response time measurement processing unit 101 is located in the network device 100, performs a response time and / or arrival rate measurement process of an IP packet, and outputs response time / arrival rate information 103. The measurement of the response time and / or the arrival rate of the IP packet is implemented by an ICMP (Internet Control Message Protocol) echo request / response function (ping command). The response time measurement processing unit 101 is a response time measurement agent.
[0018]
The route information collection processing unit 102 collects the IP address of the router that is located in the network device 100 and passes through before the IP packet reaches the destination address, and outputs it as one-way route information 104. The collection of IP addresses on the route through which the destination address is reached is implemented by a traceroute command. The path information collection processing unit 102 is a path information collection agent.
[0019]
The operation information measurement processing unit 105 is an SNMP (Simple Network Management Protocol) agent for measuring operation information, and outputs operation information such as a CPU utilization rate, a traffic amount, and a packet discard number.
[0020]
If the server and the client also have the response time measurement agent function and the SNMP agent function, they are included in the network device.
[0021]
The network monitoring device 110 can be configured by a general personal computer.
[0022]
The response time measurement processing activation processing unit 111 is located in the network monitoring device 110, activates the response time measurement processing unit 101 in the network device 100, measures the response time / arrival rate information 103, and inputs the measurement result to itself. I do.
[0023]
The response time / arrival ratio information storage processing unit 113 is provided in the network monitoring device 110, and stores and accumulates the response time / arrival ratio information 103 measured by the response time measurement processor 102 in a storage device such as a hard disk.
[0024]
The response time display processing unit 114 is provided in the network monitoring device 110 and displays the response time / arrival rate information 115 through the network information display device 140.
[0025]
The response time degradation detection processing unit 112 is located in the network monitoring device 110, and determines whether the response time / arrival rate information 103 measured in the response time / arrival rate monitoring path is equal to or greater than a threshold set for each path. .
[0026]
The route information collection processing activation processing unit 116 is located in the network monitoring device 110, activates the route information collection processing unit 102 in the network device 100 to collect the one-way route information 104, and inputs the collection result.
[0027]
The route information creation processing unit 117 is located in the network monitoring device 110 and creates route information 118 in both directions from the input one-way route information 104. Details of a method of creating the route information 118 will be described later.
[0028]
The deterioration cause part narrowing down processing unit 119 is provided in the network monitoring apparatus 110, and when a response time / arrival ratio equal to or greater than a threshold value is observed in the response time / arrival ratio monitoring route, the response time using the route information 118. And / or automatically determine the network part that causes the deterioration of the arrival rate. Details of the narrowing method will be described later.
[0029]
The operation information collection setting file creation processing unit 120 sets the network device 107 in the network monitoring apparatus 110, which is located at the automatically determined deterioration cause part, as the operation information collection target device, the type of operation information to be collected, and the collection period. Then, a collection period is determined and a setting file for collecting operation information is created.
[0030]
The operation information collection processing start processing unit 121 is located in the network monitoring device 110 and starts the operation information collection processing unit 126.
[0031]
The operation information collection processing unit 126 is located in the network monitoring apparatus 110, and operates according to the operation information collection setting file created by the operation information collection setting file creation processing unit 120. The information 106 is collected, and the result of the collection is input to itself.
[0032]
The operation information storage processing unit 127 is provided in the network monitoring apparatus 110, and stores and accumulates the operation information 106 collected and input by the operation information collection processing unit 126 in a storage device such as a hard disk.
[0033]
The operation information display processing unit 128 is located in the network monitoring device 110 and displays the operation information 129 through the network information display device 140.
[0034]
The deterioration cause determination processing unit 122 is provided in the network monitoring apparatus 110. Based on the operation information 106 collected and input by the operation information collection processing unit 126, the cause of the deterioration of the response time and / or the arrival rate is determined by the performance of the device. It is determined whether there is a shortage or a line bandwidth shortage. Details of the determination method will be described later.
[0035]
The degraded route detour setting processing unit 123 is located in the network monitoring device 110, and diverts the communication route to a route that does not pass through a part that causes a deterioration in response time and / or arrival rate. Details of the detour setting method will be described later.
[0036]
The failure analysis support processing display processing unit 124 is located in the network monitoring device 110 and displays the failure analysis support processing information 125 through the network information display device 140. The failure analysis support processing information 125 is the information on the network part that causes the deterioration of the response time and / or the arrival rate obtained by the deterioration cause part narrowing down processing unit 119, and the operation information collection processing activation processing unit 121 performs the operation information collection processing Information that the unit 126 has been activated, information about the cause of deterioration in the response time and / or the arrival rate determined by the deterioration cause determination processing unit 122, and information that the deteriorated route detour setting processing unit 123 has detoured the communication route and the detour. This is route information.
[0037]
The network information display device 140 can also be configured by a general personal computer, like the network monitoring device 110.
[0038]
The display processing call processing unit 141 is located in the network information display device 140, and displays the response time / arrival rate information 115 in a graph or the like by calling the response time display processing unit 114 in the network monitoring device 110. Also, by calling the operation information display processing unit 128 in the network monitoring device 110, the network operation information 129 is displayed as a graph or the like. Furthermore, the fault analysis support processing display information 124 is displayed by calling the fault analysis support processing display processing unit 124 in the network monitoring apparatus 110.
[0039]
Each processing unit of each of the above devices is embodied by a central processing unit (CPU) in each of the above devices executing a program. The program may be stored in advance in a storage device in each device, or may be introduced from another device via a removable storage medium or a communication medium.
[0040]
FIG. 2 is an example of a logical configuration of a network system to be monitored in one embodiment of the present invention. In a large-scale network system including thousands or more network devices, from the viewpoint of network expandability and line cost, a relay hub 201 serving as a network hub between the data center 200 and each of the branch offices 204 to 207, In many cases, the network topology is a topology in which the circuit 202 is installed and the lines are aggregated. However, a network topology in which the data center 200 and each of the branches 204 to 207 are connected in a mesh form by a physical line or a logical line without a relay base is often used. I don't care. In addition, from the viewpoint of reliability, a plurality of communication paths from the clients 212 to 215 to the servers 210 and 211 are often provided.
[0041]
The servers 210 and 211, the clients 212 to 215, and the routers 220 to 237 correspond to the network device 100 in FIG. 1, and each processing unit of the response time measurement processing unit 101, the path information collection processing unit 102, and the operation information measurement processing unit 105 Having.
[0042]
The monitoring device 216 installed in the monitoring center 203 corresponds to the network monitoring device 110 in FIG. 1, and includes a response time measurement processing activation processing unit 111, a response time / arrival ratio information storage processing unit 113, a response time display processing unit 114, Response time deterioration detection processing section 112, path information collection processing start processing section 116, path information creation processing section 117, deterioration cause part narrowing down processing section 119, operation information collection setting file creation processing section 120, operation information collection processing start processing section 121 , An operation information collection processing unit 126, an operation information storage processing unit 127, an operation information display processing unit 128, a deterioration cause determination processing unit 122, a deterioration route detour setting processing unit 123, and a failure analysis support processing display processing unit 124. Have. When one monitoring device 216 cannot cover all the monitoring target devices due to a large number of monitoring targets, the plurality of monitoring devices 216 can share the monitoring target devices.
[0043]
Next, an example of a process of creating route information used in the failure analysis support process for the network system having the configuration of FIG. 2 by the network monitoring device 110 having the functional configuration of FIG. 1 will be described with reference to the flowchart of FIG. This will be described with reference to FIG.
[0044]
(Step 300) For each communication path for which the response time / arrival ratio measurement is being performed, the IP address information of the passing network device is periodically created and updated as the path information. The update cycle is set to be several times a day according to the frequency of the topology change of the network. A traceroute command is bidirectionally executed from the network devices at both ends of each communication path to obtain the path information. The traceroute command outputs one address for each device passing on the route. In order to obtain the addresses of both the input interface and the output interface of each device that passes through, a command is executed bidirectionally on the path and the output results are added. Hereinafter, a case where the route information is created for the route A (240) in FIG. 2 will be described as an example.
[0045]
(Step 301) The path information collection processing activation processing unit 116 in the network monitoring device 216 periodically logs in remotely to the routers 230 and 220 located at both ends of the path A (240) to execute the path information collection processing unit 102. to start. Here, the route information collection processing unit 102 in the router 230 and the router 220 is used as the route information collection agent, but the route information collection processing unit 102 in the client 212 and the server 210 may be used.
[0046]
The route information collection processing unit 102 in the router 230 executes a traceroute command with the address j1 (271) of the server 210 as a target, and obtains the one-way route information 400 from the client 212 to the server 210 for the route A (240). Output. The route information collection process activation processing unit 116 in the network monitoring device 216 inputs the one-way route information 400 to the route information creation processing unit 117.
[0047]
Similarly, the route information collection processing unit 102 in the router 220 executes the traceroute command targeting the address a1 (250) of the client 212, and the one-way route from the server 210 to the client 212 for the route A (240). The information 401 is output. The route information collection process activation processing unit 116 in the network monitoring device 216 inputs the one-way route information 401 to the route information creation processing unit 117.
[0048]
Note that the route command used for collecting the route information is usually implemented in a network device such as a router, and it is not necessary to incorporate special software or hardware.
[0049]
(Step 302) The route information creation processing unit 117 in the network monitoring device 216 includes a one-way route information 400 for the route A (240) from the client 212 to the server 210 and a one-way route information from the server 210 to the client 212. The information 401 is combined with each other as shown in FIG. 4 to create the route information 402 for the route A (240).
[0050]
Next, an example of network performance measurement and fault analysis support processing for a network system having the configuration of FIG. 2 by the network monitoring device 110 having the functional configuration of FIG. 1 will be described with reference to FIG. Will be explained.
[0051]
(Step 500) The response time / arrival rate is periodically measured for each communication path set as the monitoring target path, and when deterioration in communication quality is detected, a failure analysis support process is performed. The measurement cycle is set every few minutes, such as every 10 minutes or every 5 minutes. The monitoring path is a communication path in which a network segment as a broadcast domain in a data center and a network segment as a broadcast domain in each branch are connected in a mesh. In the example of FIG. 2, a communication path connecting each of the clients 212 to 215 and each of the servers 210 and 211 is defined as a monitoring path. If the amount of monitoring traffic occupies a large part of the line bandwidth and might interfere with normal business traffic, communication between the network segment where business servers with response time requirements are installed and the network segment of a representative branch A monitoring route is selected as a route. Hereinafter, a case where the response time / arrival rate is measured for the route A (240) in FIG. 2 will be described as an example.
[0052]
(Step 501) The response time measurement processing activation processing unit 111 in the network monitoring apparatus 216 periodically remotely logs in to the router 230 located on the branch side (client side) of the monitoring path to activate the response time measurement processing unit 101. I do. Here, the response time measurement processing unit 101 in the router 230 is used as the response time measurement agent, but the response time measurement processing unit 102 in the client 212 may be used. It is also possible to remotely log in to the router 220 or the server 210 located on the server side instead of the client side and use the respective response time measurement processing units 102.
[0053]
The response time measurement processing unit 101 in the router 230 executes the ping command with the address j1 (271) of the server 210 as a target, and the response time of the round trip from the client 212 to the server 210 on the route A (240) and the server. The arrival rate to 210 (packet loss information) is output. The response time measurement processing activation processing unit 111 in the network monitoring device 216 inputs the response time / arrival rate information to the response time deterioration detection processing unit 112.
[0054]
The ping command used for measuring the response time / arrival ratio is usually implemented in a network device such as a router, and does not need to incorporate special software or hardware.
[0055]
(Step 502) The response time degradation detection processing unit 112 in the network monitoring device 216 determines that the response time and the IP packet arrival rate of each monitoring path exceed a threshold set for each monitoring path for a certain period or more. It is determined whether or not. The criteria for setting the threshold are as follows.
[0056]
・ Design value of response time / arrival ratio for each route of the network
・ A value obtained by multiplying the average value of the same time zone in the past measurement results by n times the standard deviation value of the same time zone
・ A value obtained by multiplying the standard deviation value of the same time zone by n times to the average value of the same day and time zone in the past measurement results
・ A value obtained by multiplying the average value of the same week, day, and time zone in the past measurement results by n times the standard deviation value of the same time zone
・ A value obtained by multiplying the average value of the same date and time zone in the past measurement result by n times the standard deviation of the same time zone
Here, n is a value of about 2 to 3, and a more appropriate value is determined based on past observation results. If the observed response time and / or arrival rate exceeds the threshold value on the monitoring path, it is determined that the communication quality has deteriorated.
[0057]
(Step 503) If the response time / arrival rate exceeds the threshold set for each of the at least one monitoring path, the deterioration cause part narrowing down processing unit 119 in the network monitoring apparatus 216 performs communication. Automatically find the cause of quality deterioration. Hereinafter, a case where the communication quality is deteriorated due to the interface (IP address d1) 262 of the router 226 will be described as an example. In this case, quality deterioration is detected in the monitoring route A (240), the monitoring route E (244), and the monitoring route B (241). A narrowing-down method will be described with reference to FIG.
[0058]
(Step 6-1): route information (route information (600) of route A (240), route information (601) of route E (244), route of route B (241)) of the monitoring route in which the deterioration is detected. Information (602)) and the route information (route information (603) of route C (242) and route information (604) of route D (243)) of the route in a normal state that partially overlaps with them. Search all.
[0059]
(Step 6-2): route information of the route in which the deterioration is detected (route information (600) of route A (240), route information (601) of route E (244), route information of route B (241) ( 602)) is searched for the intersection (intersection) 605.
[0060]
(Step 6-3): The set 605 obtained in (step 6-2), the path information of each normal path (the path information (603) of the path C (242), and the path information (604) of the path D (243)) )) Are searched.
[0061]
(Step 6-4): Search the union 608 of the respective sets obtained in (Step 6-3).
[0062]
(Step 6-5): The difference set of the set 605 obtained in (step 6-2) and the set 608 obtained in (step 6-4) ((of the set 608 obtained in (step 6-4) The complement set to the set 605 obtained in step 6-2) is searched. In the case of FIG. 6, it is determined that the interface (IP address d1) 262 of the router 226 is the cause of the quality degradation.
[0063]
The operation method in the process of calculating the final set 608 may be changed according to the set operation rule.
[0064]
When the number of monitoring paths is small, the narrowing result is wider. For example, when the route B (602) is not monitored in the example of FIG. 6, the cause parts finally determined are c1 and d1. However, although the narrowing range changes according to the number of monitoring paths, the algorithm can be applied regardless of the number of monitoring paths.
[0065]
(Step 504) The operation information collection setting file creation processing unit 120 in the network monitoring device 216 collects the operation information for the network device having the address narrowed down in (Step 503). A collection cycle and a collection period are determined, and a setting file for the operation information collection processing unit 126 is created. The collected information items of the network operation information are, for network devices such as routers and layer 3 switches, CPU utilization, available memory, and the like. For the interface of the network device, the input / output traffic amount, the input / output packet number, the input / output packet discard number, the input / output error bucket number, the collision number, and the like are set. The collection period of the network operation information is set using a preset value such as 1 minute or 30 seconds, or set to 1/10 of the period of the normal periodic operation information collection. The collection period of the network operation information may use a preset value such as 1 hour or 3 hours, or the subsequent response time / arrival ratio measurement result may be used for a monitoring route whose response time / arrival ratio exceeds the threshold. It will be until it becomes below the threshold.
[0066]
(Step 505) The operation information collection processing activation processing unit 121 in the network monitoring device 216 activates the operation information collection processing unit 126. The operation information collection processing unit 115 collects operation information from the network device located at the deterioration cause part according to the setting file created in (step 504), and inputs the operation information to the deterioration cause determination processing unit 122.
[0067]
(Step 506) The deterioration cause determination processing unit 122 in the network monitoring device 216 estimates the deterioration cause of the communication quality based on the input operation information. When the state in which the operation information exceeds the threshold set for each of them continues, for example,
-The state where the CPU utilization exceeds the threshold value continues.
[0068]
-The state where the line utilization rate has exceeded the threshold value has been maintained.
[0069]
-The state where the amount of discarded packets exceeds the threshold continues.
[0070]
-The state where the number of collisions exceeds the threshold continues.
In such a case, it is determined that the communication quality has deteriorated due to insufficient performance of the network device or line indicating the state. The method for determining the threshold is the same as the method for determining the threshold based on the response time / arrival rate in (step 502). If the operation information of the network device at the cause of deterioration is equal to or less than the threshold value and the operation status is determined to be normal, it is due to a software or hardware defect of the network device at the cause of deterioration, or It is determined that the problem is caused by insufficient performance or malfunction of a device that does not have an IP address as route information, such as an ATM switch or a switching hub adjacent to the network device of the cause part.
[0071]
(Step 507) The degraded route detour setting processing unit 123 in the network monitoring device 216 detects that the response time and the IP packet arrival rate in the monitored route have exceeded the threshold for a certain period or more, and that the degradation has been detected. If no deterioration is detected in the detour route for the route that has been detected, the interface of the network device on the route in which the deterioration is detected is closed, and the route is detoured from the degraded route to the normal route by the action of the dynamic routing protocol. . This operation will be described with reference to FIG. When the deterioration is continuously detected in the route A (240) from the client 212 to the server 210 and the detour route E (244) is in a normal state, the degraded route detour setting processing unit 123 in the network monitoring device 216. Performs a detour from the route A (240) to the route E (244) by remotely logging in to the router 230 and closing the interface (IP address C1) 258 of the router 230. The interface to be closed may be any interface as long as it is on the degraded route and can detour to the normal route by its own blocking.
[0072]
In the present embodiment, the above configuration is provided, and the above steps are performed in the network monitoring device, so that the response time between the devices at both ends of each communication path is measured for the periodic performance measurement of the network. In addition, by using the information, it is possible to efficiently separate the cause site when the response time and / or the arrival rate is deteriorated. In addition, it is possible to determine whether the deterioration of the response time and / or the arrival rate is due to insufficient performance of the device or insufficient line bandwidth. Further, it is possible to detour the communication route to a route that does not pass through the cause part.
[0073]
【The invention's effect】
ADVANTAGE OF THE INVENTION According to this invention, in a network system, it becomes possible to measure a response time / arrival rate, narrow down a deterioration cause part, estimate a deterioration cause, and avoid a deterioration route efficiently.
[Brief description of the drawings]
FIG. 1 is a system configuration diagram of the present embodiment.
FIG. 2 is an example of a network logical configuration diagram and a response time monitoring path according to the present embodiment.
FIG. 3 is a flowchart of a route information creation process according to the embodiment;
FIG. 4 is a diagram illustrating a method of generating route information according to the embodiment;
FIG. 5 is a flowchart of a failure analysis support process according to the embodiment;
FIG. 6 is a method of narrowing down a deterioration cause portion according to the embodiment.
[Explanation of symbols]
100 network device 101 response time measurement processing unit 102 path information collection processing unit 103 response time / arrival rate information 104 one-way path information 105 operating information measurement processing unit .., 106 operation information, 107 network device, 110 network monitoring device, 111 response time measurement processing start processing unit, 112 response time degradation detection processing unit, 113 response time / arrival rate information Storage processing unit, 114: Response time display processing unit, 115: Response time / arrival rate information, 116: Route information collection processing activation processing unit, 117: Route information creation processing unit, 118: Route information, 119 ... Deterioration cause part narrowing down processing section, 120... Operation information collection setting file creation processing section, 121... Operation information collection processing start processing section, 122. .., 123... Degraded route detour setting processing section, 124... Failure analysis support processing display processing section, 125... Failure analysis support processing information, 126... Operation information collection processing section, 127. ... Operation information display processing unit, 129 ... Operation information, 140 ... Network information display device, 141 ... Display processing call processing unit

Claims (4)

複数のクライアントと複数のサーバとが複数のネットワーク機器を経由して接続するネットワークにおいて、
支線部の機器に組み込まれた応答時間測定エージェントを用いて支線部から対向の支線部に至る経路におけるIPパケットの応答時間および/または到達率を測定し、
前記各経路において応答時間および/または到達率の劣化が検知された場合に、前記各経路にて経由するネットワーク機器のIPアドレス情報を経路情報として、複数の経路情報の比較により応答時間および/または到達率の劣化原因部位を求めることを特徴とするネットワーク障害分析支援方法。
In a network in which a plurality of clients and a plurality of servers are connected via a plurality of network devices,
Measuring the response time and / or the arrival rate of the IP packets in the path from the branch to the opposite branch using the response time measurement agent incorporated in the branch unit;
When the deterioration of the response time and / or the arrival rate is detected in each of the routes, the response time and / or / and / or the IP address information of the network device passing through each of the routes is compared by using a plurality of pieces of route information. A network failure analysis support method, wherein a cause of deterioration of the arrival rate is obtained.
複数のクライアントと複数のサーバが複数のネットワーク機器を経由して接続するネットワークにおいて、
支線部の機器に組み込まれた応答時間測定エージェントを用いて支線部から対向の支線部に至る経路におけるIPパケットの応答時間および/または到達率を測定する応答時間測定手段と、
応答時間および/または到達率の劣化を検知する応答時間劣化検知手段と、
各経路にて経由するネットワーク機器のIPアドレス情報から経路情報を作成する経路情報作成手段と、
複数の経路情報の比較により応答時間および/または到達率の劣化原因部位の部分IPアドレスを特定することにより、劣化発生の原因部位を求める劣化原因部位絞込み手段とを備える
ことを特徴とするネットワーク障害分析支援システム。
In a network where multiple clients and multiple servers are connected via multiple network devices,
Response time measuring means for measuring the response time and / or arrival rate of an IP packet in a path from a branch to an opposite branch using a response time measurement agent incorporated in a device of the branch;
Response time deterioration detecting means for detecting deterioration of response time and / or arrival rate;
Route information creating means for creating route information from IP address information of network devices passing through each route;
A network fault characterized by comprising a degradation cause location narrowing means for determining a degradation cause location by specifying a partial IP address of a degradation cause location of a response time and / or an arrival rate by comparing a plurality of pieces of route information. Analysis support system.
請求項2に記載のネットワーク障害分析支援システムにおいて、さらに、
検出された応答時間および/または到達率の劣化の原因部位に位置するネットワーク機器に対して稼動情報を収集するための設定ファイルを作成する稼動情報収集設定ファイル作成手段と、
作成した設定ファイルをもとに前記ネットワーク機器から稼動情報を収集する稼動情報収集手段と、
収集した稼動情報をもとに機器性能や回線帯域の不足のために劣化が発生したか否かを判断する劣化原因判定手段を備える
ことを特徴とするネットワーク障害分析支援システム。
The network failure analysis support system according to claim 2, further comprising:
Operating information collection setting file creating means for creating a setting file for collecting operating information for a network device located at a site where the detected response time and / or arrival rate deteriorates;
Operating information collecting means for collecting operating information from the network device based on the created setting file;
A network failure analysis support system comprising: a deterioration cause determining unit that determines whether deterioration has occurred due to a shortage of device performance or a line band based on collected operation information.
請求項2に記載のネットワーク障害分析支援システムにおいて、さらに、
クライアントからサーバに対し複数の経路が設定されており、かつ、その中のひとつの経路において応答時間および/または到達率の劣化が検知された場合に、当該経路上のネットワーク機器のインターフェースを閉塞させ劣化が検知されていない経路に迂回させる劣化経路迂回設定手段を備える
ことを特徴とするネットワーク障害分析支援システム。
The network failure analysis support system according to claim 2, further comprising:
When a plurality of routes are set from the client to the server, and if the response time and / or the arrival rate is deteriorated in one of the routes, the interface of the network device on the route is blocked. A network failure analysis support system, comprising: a degraded route detour setting unit for detouring to a route for which degradation has not been detected.
JP2003012984A 2003-01-22 2003-01-22 Network failure analysis support system Pending JP2004228828A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003012984A JP2004228828A (en) 2003-01-22 2003-01-22 Network failure analysis support system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003012984A JP2004228828A (en) 2003-01-22 2003-01-22 Network failure analysis support system

Publications (1)

Publication Number Publication Date
JP2004228828A true JP2004228828A (en) 2004-08-12

Family

ID=32901431

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003012984A Pending JP2004228828A (en) 2003-01-22 2003-01-22 Network failure analysis support system

Country Status (1)

Country Link
JP (1) JP2004228828A (en)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007228382A (en) * 2006-02-24 2007-09-06 Fujitsu Ltd Topology information collection program, apparatus, and method
JP2007318740A (en) * 2006-04-24 2007-12-06 Fujitsu Ltd Management support method, management support system, management support apparatus and computer program
JP2008109321A (en) * 2006-10-25 2008-05-08 Nec Corp Mobile communication system, management server apparatus, and apparatus management method used therefor
JP2009049708A (en) * 2007-08-20 2009-03-05 Fujitsu Ltd Apparatus for gathering network fault information, system, method and program
WO2010106651A1 (en) * 2009-03-18 2010-09-23 富士通株式会社 Pathway analyzer
JP2011044841A (en) * 2009-08-20 2011-03-03 Yokogawa Electric Corp Network communication quality measuring apparatus
JP2011049835A (en) * 2009-08-27 2011-03-10 Fujitsu Ltd Network trouble detection device and network trouble detection program
JP2011244164A (en) * 2010-05-18 2011-12-01 Fujitsu Ltd Server abnormality determination program, server abnormality determination device and server abnormality determination method
WO2012114436A1 (en) * 2011-02-21 2012-08-30 三菱電機株式会社 Communication device and communication method
JP2012249010A (en) * 2011-05-26 2012-12-13 Fujitsu Ltd Network failure detection device and method
JP2013507833A (en) * 2009-10-09 2013-03-04 マイクロソフト コーポレーション Flyway in the data center
JP5477501B1 (en) * 2013-07-26 2014-04-23 富士ゼロックス株式会社 Information processing system and information processing program
US8966060B2 (en) 2010-08-10 2015-02-24 Fujitsu Limited Determination apparatus and determination method to analyze traffic between a client device and a server group
US9391716B2 (en) 2010-04-05 2016-07-12 Microsoft Technology Licensing, Llc Data center using wireless communication
US9497039B2 (en) 2009-05-28 2016-11-15 Microsoft Technology Licensing, Llc Agile data center network architecture
WO2017052564A1 (en) * 2015-09-24 2017-03-30 Assia, Inc Method and apparatus for detecting internet connection problems
US9954751B2 (en) 2015-05-29 2018-04-24 Microsoft Technology Licensing, Llc Measuring performance of a network using mirrored probe packets
JP2020010261A (en) * 2018-07-11 2020-01-16 Phcホールディングス株式会社 Network monitoring device, network monitoring method, and network monitoring program
JPWO2020179704A1 (en) * 2019-03-01 2020-09-10
WO2022127422A1 (en) * 2020-12-17 2022-06-23 中兴通讯股份有限公司 Network quality evaluation method and apparatus, and electronic device and storage medium

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4681472B2 (en) * 2006-02-24 2011-05-11 富士通株式会社 Topology information collection program, topology information collection device, and topology information collection method
JP2007228382A (en) * 2006-02-24 2007-09-06 Fujitsu Ltd Topology information collection program, apparatus, and method
JP2007318740A (en) * 2006-04-24 2007-12-06 Fujitsu Ltd Management support method, management support system, management support apparatus and computer program
JP2008109321A (en) * 2006-10-25 2008-05-08 Nec Corp Mobile communication system, management server apparatus, and apparatus management method used therefor
JP2009049708A (en) * 2007-08-20 2009-03-05 Fujitsu Ltd Apparatus for gathering network fault information, system, method and program
JP4985872B2 (en) * 2009-03-18 2012-07-25 富士通株式会社 Route analyzer
WO2010106651A1 (en) * 2009-03-18 2010-09-23 富士通株式会社 Pathway analyzer
US9497039B2 (en) 2009-05-28 2016-11-15 Microsoft Technology Licensing, Llc Agile data center network architecture
JP2011044841A (en) * 2009-08-20 2011-03-03 Yokogawa Electric Corp Network communication quality measuring apparatus
JP2011049835A (en) * 2009-08-27 2011-03-10 Fujitsu Ltd Network trouble detection device and network trouble detection program
US8972601B2 (en) 2009-10-09 2015-03-03 Microsoft Technology Licensing, Llc Flyways in data centers
JP2013507833A (en) * 2009-10-09 2013-03-04 マイクロソフト コーポレーション Flyway in the data center
US10110504B2 (en) 2010-04-05 2018-10-23 Microsoft Technology Licensing, Llc Computing units using directional wireless communication
US9391716B2 (en) 2010-04-05 2016-07-12 Microsoft Technology Licensing, Llc Data center using wireless communication
JP2011244164A (en) * 2010-05-18 2011-12-01 Fujitsu Ltd Server abnormality determination program, server abnormality determination device and server abnormality determination method
US8966060B2 (en) 2010-08-10 2015-02-24 Fujitsu Limited Determination apparatus and determination method to analyze traffic between a client device and a server group
TWI500309B (en) * 2011-02-21 2015-09-11 Mitsubishi Electric Corp Communication apparatus and communication method
US9385826B2 (en) 2011-02-21 2016-07-05 Mitsubishi Electric Corporation Communication apparatus and communication method
WO2012114436A1 (en) * 2011-02-21 2012-08-30 三菱電機株式会社 Communication device and communication method
JP2012249010A (en) * 2011-05-26 2012-12-13 Fujitsu Ltd Network failure detection device and method
JP5477501B1 (en) * 2013-07-26 2014-04-23 富士ゼロックス株式会社 Information processing system and information processing program
US9954751B2 (en) 2015-05-29 2018-04-24 Microsoft Technology Licensing, Llc Measuring performance of a network using mirrored probe packets
WO2017052564A1 (en) * 2015-09-24 2017-03-30 Assia, Inc Method and apparatus for detecting internet connection problems
CN109196822A (en) * 2015-09-24 2019-01-11 阿西亚Spe有限责任公司 Method and apparatus for detecting internet connectivity problem
CN109196822B (en) * 2015-09-24 2022-04-08 阿西亚Spe有限责任公司 Method and medium for determining problem of data packet transmission speed
US11706118B2 (en) 2015-09-24 2023-07-18 Assia Spe, Llc Methods and apparatus for detecting internet connection problems
JP2020010261A (en) * 2018-07-11 2020-01-16 Phcホールディングス株式会社 Network monitoring device, network monitoring method, and network monitoring program
JP7085429B2 (en) 2018-07-11 2022-06-16 Phcホールディングス株式会社 Network monitoring equipment, network monitoring methods, and network monitoring programs
JPWO2020179704A1 (en) * 2019-03-01 2020-09-10
WO2020179704A1 (en) * 2019-03-01 2020-09-10 日本電気株式会社 Network management method, network system, intensive analysis device, terminal device, and program
WO2022127422A1 (en) * 2020-12-17 2022-06-23 中兴通讯股份有限公司 Network quality evaluation method and apparatus, and electronic device and storage medium

Similar Documents

Publication Publication Date Title
JP2004228828A (en) Network failure analysis support system
US20070177523A1 (en) System and method for network monitoring
EP3326330B1 (en) Methods, systems, and apparatus to generate information transmission performance alerts
Wu et al. Finding a needle in a haystack: Pinpointing significant BGP routing changes in an IP network
CA2649608C (en) Network latency analysis packet and method
US8631115B2 (en) Connectivity outage detection: network/IP SLA probes reporting business impact information
JP4973734B2 (en) Network monitoring system, route extraction method, program, and computer-readable recording medium recording the program
KR20170049509A (en) Collecting and analyzing selected network traffic
Herodotou et al. Scalable near real-time failure localization of data center networks
JP2007525047A (en) Method and system for monitoring network routing
JP4412031B2 (en) Network monitoring system and method, and program
US20190109757A1 (en) Traffic outage detection in the internet
US20080298229A1 (en) Network wide time based correlation of internet protocol (ip) service level agreement (sla) faults
US11469983B1 (en) Correlating and measuring the effect of adverse network events on specific traffic flows
US7898973B2 (en) Convergence measurement in computer network
Bouillard et al. Hidden anomaly detection in telecommunication networks
JP2009010438A (en) Network management device and network management method, and program
JP4464256B2 (en) Network host monitoring device
Evang et al. Crosslayer network outage classification using machine learning
JP2004104540A (en) Support system for analyzing network performance fault
US11888680B1 (en) Early detection of telemetry data streaming interruptions
JP2014053658A (en) Failure site estimation system and failure site estimation program
JPWO2013150691A1 (en) Management server and flow processing method
US7995491B1 (en) MPLS VPN connectivity alarm storm reduction
Senthilkumaran et al. Memory and load-aware traffic rerouting (mltr) in openflow-based sdn