JP5767617B2 - Network failure detection system and network failure detection device - Google Patents
Network failure detection system and network failure detection device Download PDFInfo
- Publication number
- JP5767617B2 JP5767617B2 JP2012213349A JP2012213349A JP5767617B2 JP 5767617 B2 JP5767617 B2 JP 5767617B2 JP 2012213349 A JP2012213349 A JP 2012213349A JP 2012213349 A JP2012213349 A JP 2012213349A JP 5767617 B2 JP5767617 B2 JP 5767617B2
- Authority
- JP
- Japan
- Prior art keywords
- threshold
- monitoring target
- group
- rtt
- monitoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
- Telephonic Communication Services (AREA)
Description
本発明は、ネットワークに発生する障害を検出する、ネットワーク障害検出システムおよびネットワーク障害検出装置に関する。 The present invention relates to a network failure detection system and a network failure detection apparatus that detect a failure that occurs in a network.
ネットワークの監視において、監視拠点(監視端末)から監視対象装置に監視用メッセージを送り、その応答の有無や応答内容、応答に要する時間(RTT:Round Trip Time)等から、装置の正常、異常を判定する手法が一般的に用いられている(非特許文献1、非特許文献2参照)。
In network monitoring, a monitoring message is sent from the monitoring base (monitoring terminal) to the monitoring target device, and the normality / abnormality of the device is determined from the presence / absence of the response, the response content, the time required for the response (RTT: Round Trip Time) A determination method is generally used (see Non-Patent
また、この応答に要する時間(RTT)は、システムの状態評価の一般的な指標として用いられている。例えば、システム負荷が増大等している場合は、外部から送信されたメッセージへの応答処理が遅延し応答時間が増大する。そこで、平常時の応答時間を記憶しておき、現時点の応答時間と平常時の応答時間の乖離度を監視することにより、システムの負荷増大が検知可能となる。乖離度の監視については、所定の閾値を予め設定しておき、この閾値の超過を検出する方法が用いられる場合が多い(例えば、非特許文献3参照)。 The time required for this response (RTT) is used as a general index for evaluating the state of the system. For example, when the system load is increased, response processing to a message transmitted from the outside is delayed and response time is increased. Therefore, it is possible to detect an increase in system load by storing the normal response time and monitoring the degree of deviation between the current response time and the normal response time. For monitoring the deviation degree, a method is often used in which a predetermined threshold value is set in advance and an excess of this threshold value is detected (see, for example, Non-Patent Document 3).
図7は、従来のRTTを用いた、監視対象装置200の正常、異常を判定する手法の例を示す図である。
図7(a)に示すように、正常時において、監視端末10は、送信した監視用メッセージ(例えば、ping等)に対する応答を、監視対象装置200から所定の閾値以下の時間(RTT値)で受信する。一方、図7(b)に示すように、監視対象装置200が負荷増大等により応答に時間を要すると、監視端末10が受信する応答のRTT値が増大し、所定の閾値を超過する。これにより、監視端末10は、監視対象装置200に異常が発生したと判定する。
FIG. 7 is a diagram illustrating an example of a method for determining whether the
As shown in FIG. 7A, in a normal state, the monitoring terminal 10 sends a response to the transmitted monitoring message (for example, ping or the like) from the
監視用メッセージにおけるRTTは、監視対象装置のメッセージ処理時間と、監視拠点・監視対象装置間の伝搬遅延との合計値に相当する。1監視拠点から広範囲のネットワークを監視する場合は、監視拠点・監視対象装置間の伝搬遅延が監視対象装置によって、大幅に異なる場合がある。このとき、RTTの閾値をネットワーク全体で1つのみとすると、監視拠点に近い装置は負荷が大きく増大してメッセージ処理時間が大幅に伸びても閾値を超過しない一方で、監視拠点から遠い装置は、少しの負荷増大でも閾値を超過するなど、監視対象によって異なる事象が検出される問題が起こる。 The RTT in the monitoring message corresponds to the total value of the message processing time of the monitoring target device and the propagation delay between the monitoring base and the monitoring target device. When monitoring a wide area network from one monitoring base, the propagation delay between the monitoring base and the monitoring target device may vary greatly depending on the monitoring target device. At this time, if only one RTT threshold is set for the entire network, the device close to the monitoring base does not exceed the threshold even if the load increases greatly and the message processing time greatly increases. There is a problem in that different events are detected depending on the monitoring target, such as exceeding the threshold even with a slight increase in load.
図8に示すように、監視端末10が、至近地の監視対象装置200(210)と、遠隔地の監視対象装置200(220)の正常、異常の判定を行う場合において、RTTの閾値が1つであり、至近地の監視対象装置200(210)と、遠隔地の監視対象装置200(220)とが、同じCPU(Central Processing Unit)やメモリ等の性能を持ち、同じプログラムで同一の処理を実行していたとする。この場合において、至近地の監視対象装置200(210)では、正常であるときのRTT値が小さくなるため、閾値に対してマージンが大きく、重大異常が発生してもRTT値が閾値を超過せず、異常を検出しない場合がある。一方、遠隔地の監視対象装置200(220)では、正常であるときのRTT値が大きくなり、閾値に対してマージンが小さいため、軽微な異常でもRTT値が閾値を超過し、異常と判定してしまう場合がある。よって、至近地の監視対象装置200(210)と遠隔地の監視対象装置200(220)とで、たとえ、同じ異常が発生していたとしても、正常、異常の判定において異なる結果となることが起こり得る。 As shown in FIG. 8, when the monitoring terminal 10 determines normality / abnormality of the monitoring target device 200 (210) in the vicinity and the monitoring target device 200 (220) at the remote location, the threshold value of RTT is 1. The nearby monitoring target device 200 (210) and the remote monitoring target device 200 (220) have the same CPU (Central Processing Unit) and memory performance, and the same processing with the same program. Is executed. In this case, in the monitoring target device 200 (210) in the immediate vicinity, since the RTT value when normal is small, the margin is large with respect to the threshold value, and even if a serious abnormality occurs, the RTT value exceeds the threshold value. In some cases, no abnormality is detected. On the other hand, in the remote monitoring target apparatus 200 (220), since the RTT value when normal is large and the margin is small with respect to the threshold, the RTT value exceeds the threshold even if a minor abnormality occurs, and it is determined as abnormal. May end up. Therefore, even if the same abnormality occurs between the monitoring target device 200 (210) in the vicinity and the monitoring target device 200 (220) at the remote location, different results may be obtained in the determination of normality or abnormality. Can happen.
また、RTTの増大については、監視対象装置の負荷増大のほか、ネットワークの経路変更等の異常(以下、「ネットワーク異常」という。)が原因となることがある。このネットワーク異常は、例えば、ネットワーク内の装置の故障・点検等に伴う経路変更や、中継装置等の処理負荷の増大に伴う遅延等がある。しかしながら、従来のRTTによる監視手法では、RTT値の増大が、監視対象装置の負荷増大等に起因するものか、ネットワーク異常に起因するものか、を区別することができない。 Further, the increase in RTT may be caused by an increase in the load of the monitoring target apparatus or an abnormality such as a network path change (hereinafter referred to as “network abnormality”). This network abnormality includes, for example, a route change associated with a failure / inspection of a device in the network, a delay associated with an increase in processing load on the relay device, and the like. However, in the conventional monitoring method using RTT, it cannot be distinguished whether the increase in the RTT value is caused by an increase in the load on the monitoring target apparatus or the like, or due to a network abnormality.
図9(a)は、監視対象装置200の負荷増大等に起因し、応答処理に時間がかかったため、RTT値が所定の閾値を超えた例を示している。一方、図9(b)は、ネットワーク異常に起因し、監視用メッセージが監視端末10と監視対象装置200との間での送信に正常時に比べ遅延が発生したため、RTT値が所定の閾値を超えた例を示している。ここでは、両者ともRTT値が所定の閾値を超えており、異常が発生していることは判定できるが、このような監視端末10から1つの監視対象装置200毎にRTTを監視する手法では、その異常の原因について、監視対象装置200の負荷増大等に起因するものか、ネットワーク異常に起因するものなのかを区別することはできなかった。
FIG. 9A shows an example in which the RTT value exceeds a predetermined threshold because the response process takes time due to an increase in the load of the
このような背景に鑑みて本発明がなされたのであり、本発明は、伝搬遅延を考慮した適切なRTTの閾値を設定することができる、ネットワーク障害検出システムおよびネットワーク障害検出装置を提供することを課題とする。 The present invention has been made in view of such a background, and the present invention provides a network failure detection system and a network failure detection device capable of setting an appropriate RTT threshold value considering propagation delay. Let it be an issue.
前記した課題を解決するため、請求項1に記載の発明は、ネットワークを構成する複数の監視対象装置と、前記複数の監視対象装置に対し監視用メッセージを送信し、前記監視対象装置それぞれから受信した応答メッセージに基づくRTT(Round Trip Time)を用いて、前記ネットワークの障害を検出するネットワーク障害検出装置と、を備えるネットワーク障害検出システムであって、前記ネットワーク障害検出装置が、前記監視対象装置のRTTのばらつきを解析するために使用する分布を示す分布情報と、前記分布におけるばらつき度合の所定値に対応するRTTの値を、前記監視対象装置を異常と判定する閾値として決定する閾値決定ロジックと、正常時において前記複数の監視対象装置それぞれから受信した前記応答メッセージに基づく監視結果として、前記監視対象装置の識別情報および当該監視対象装置の前記RTTを示す試験結果情報と、を記憶する記憶部と、前記複数の監視対象装置それぞれの前記正常時の試験結果情報を取得し、所定のグルーピング手法を用いて、前記RTTが類似する監視対象装置をグルーピングし、グルーピングにより生成された複数のグループ毎に、当該グループに属する各監視対象装置のRTTの分布を前記分布情報に示される分布により生成するグルーピング処理部と、前記グループ毎に生成された分布それぞれにおいて、前記閾値決定ロジックに基づき前記分布におけるばらつき度合の所定値に対応するRTTの値を、前記グループ毎の閾値に決定する閾値決定部と、を備えることを特徴とするネットワーク障害検出システムとした。
In order to solve the above-described problem, the invention according to
また、請求項5に記載の発明は、ネットワークを構成する複数の監視対象装置と、前記複数の監視対象装置に対し監視用メッセージを送信し、前記監視対象装置それぞれから受信した応答メッセージに基づくRTT(Round Trip Time)を用いて、前記ネットワークの障害を検出するネットワーク障害検出装置と、を備えるネットワーク障害検出システムの前記ネットワーク障害検知装置であって、前記監視対象装置のRTTのばらつきを解析するために使用する分布を示す分布情報と、前記分布におけるばらつき度合の所定値に対応するRTTの値を、前記監視対象装置を異常と判定する閾値として決定する閾値決定ロジックと、正常時において前記複数の監視対象装置それぞれから受信した前記応答メッセージに基づく監視結果として、前記監視対象装置の識別情報および当該監視対象装置の前記RTTを示す試験結果情報と、を記憶する記憶部と、前記複数の監視対象装置それぞれの前記正常時の試験結果情報を取得し、所定のグルーピング手法を用いて、前記RTTが類似する監視対象装置をグルーピングし、グルーピングにより生成された複数のグループ毎に、当該グループに属する各監視対象装置のRTTの分布を前記分布情報に示される分布により生成するグルーピング処理部と、前記グループ毎に生成された分布それぞれにおいて、前記閾値決定ロジックに基づき前記分布におけるばらつき度合の所定値に対応するRTTの値を、前記グループ毎の閾値に決定する閾値決定部と、を備えることを特徴とするネットワーク障害検出装置とした。 According to a fifth aspect of the present invention, a plurality of monitoring target devices configuring a network, a monitoring message is transmitted to the plurality of monitoring target devices, and an RTT based on a response message received from each of the monitoring target devices A network failure detection device including a network failure detection device that detects a failure of the network using (Round Trip Time), and for analyzing variation in RTT of the monitoring target device Distribution information indicating a distribution to be used for the distribution, a threshold value determination logic for determining a value of RTT corresponding to a predetermined value of the degree of variation in the distribution as a threshold value for determining that the monitoring target device is abnormal, and the plurality of the normal times As a monitoring result based on the response message received from each monitoring target device, the monitoring is performed. A storage unit for storing identification information of the target device and test result information indicating the RTT of the monitoring target device, and obtaining normal test result information of each of the plurality of monitoring target devices, and a predetermined grouping method Are used to group the monitoring target devices having similar RTTs, and for each of a plurality of groups generated by the grouping, the RTT distribution of each monitoring target device belonging to the group is generated according to the distribution indicated in the distribution information. A grouping processing unit, and a threshold value determination unit that determines an RTT value corresponding to a predetermined value of the degree of variation in the distribution as a threshold value for each group based on the threshold value determination logic in each of the distributions generated for each group. The network failure detection device is characterized by comprising:
このようにすることで、ネットワーク障害検出装置を備えるネットワーク障害検出システムは、正常時において類似したRTTをもつ監視対象装置をグルーピングし、グループ毎に閾値を決定することができる。よって、ネットワークにおける伝搬遅延を考慮した適切なRTTの閾値を設定することができる。 By doing in this way, the network failure detection system provided with the network failure detection device can group the monitoring target devices having similar RTTs in the normal state and determine the threshold value for each group. Therefore, an appropriate RTT threshold can be set in consideration of propagation delay in the network.
請求項2に記載の発明は、前記ネットワーク障害検出装置の前記記憶部には、前記グルーピング処理部が生成した複数のグループそれぞれに対応付けて、前記閾値決定部が決定した当該グループの閾値を格納したグループ閾値情報と、前記複数の監視対象装置それぞれに対する監視実行時の前記試験結果情報と、がさらに記憶されており、前記ネットワーク障害検出装置が、前記複数の監視対象装置それぞれの前記監視実行時の試験結果情報を取得し、前記監視実行時の試験結果情報に含まれる前記監視対象装置の識別情報を用いて、前記グループ閾値情報を参照し、当該監視対象装置の属する前記グループの閾値を抽出し、前記抽出した前記グループの閾値を、前記監視実行時の試験結果情報に含まれる当該監視対象装置のRTTが超えるか否かを判定し、判定結果を閾値判定結果情報として出力する閾値判定部を、さらに備えることを特徴とする請求項1に記載のネットワーク障害検出システムとした。
The invention according to claim 2 stores the threshold value of the group determined by the threshold value determination unit in association with each of the plurality of groups generated by the grouping processing unit in the storage unit of the network failure detection apparatus. Group threshold information and the test result information at the time of monitoring execution for each of the plurality of monitoring target devices are further stored, and the network failure detection device is at the time of monitoring execution of each of the plurality of monitoring target devices. The test result information is acquired, and the group threshold information is referred to using the identification information of the monitoring target device included in the test result information at the time of monitoring execution, and the threshold value of the group to which the monitoring target device belongs is extracted. The RTT of the monitoring target device included in the test result information at the time of monitoring exceeds the threshold value of the extracted group It determines whether the threshold determination section for outputting a determination result as the threshold determination result information, and the network failure detection system according to
また、請求項6に記載の発明は、前記記憶部には、前記グルーピング処理部が生成した複数のグループそれぞれに対応付けて、前記閾値決定部が決定した当該グループの閾値を格納したグループ閾値情報と、前記複数の監視対象装置それぞれに対する監視実行時の前記試験結果情報と、がさらに記憶されており、前記複数の監視対象装置それぞれの前記監視実行時の試験結果情報を取得し、前記監視実行時の試験結果情報に含まれる前記監視対象装置の識別情報を用いて、前記グループ閾値情報を参照し、当該監視対象装置の属する前記グループの閾値を抽出し、前記抽出した前記グループの閾値を、前記監視実行時の試験結果情報に含まれる当該監視対象装置のRTTが超えるか否かを判定し、判定結果を閾値判定結果情報として出力する閾値判定部を、さらに備えることを特徴とする請求項5に記載のネットワーク障害検出装置とした。 In the invention according to claim 6, group threshold information in which the threshold value of the group determined by the threshold value determination unit is stored in the storage unit in association with each of the plurality of groups generated by the grouping processing unit. And the test result information at the time of monitoring execution for each of the plurality of monitoring target devices, and acquiring the test result information at the time of monitoring execution of each of the plurality of monitoring target devices, and executing the monitoring Using the identification information of the monitoring target device included in the test result information at the time, referring to the group threshold information, extracting the threshold value of the group to which the monitoring target device belongs, and extracting the threshold value of the group, It is determined whether or not the RTT of the monitoring target device included in the test result information at the time of monitoring is exceeded, and the determination result is output as threshold determination result information A value judgment unit, and a network failure detection apparatus according to claim 5, further comprising.
このようにすることで、ネットワーク障害検出装置は、監視実行時における監視対象装置が正常か異常かの判定を、当該監視対象装置が属するグループに設定された閾値を用いて実行することができる。よって、ネットワークにおける伝搬遅延を考慮した適切な監視対象装置の正常、異常の判定をすることができる。 By doing in this way, the network failure detection apparatus can perform determination of whether the monitoring target apparatus is normal or abnormal at the time of monitoring execution using the threshold set for the group to which the monitoring target apparatus belongs. Therefore, it is possible to determine whether the monitoring target apparatus is normal or abnormal in consideration of the propagation delay in the network.
請求項3に記載の発明は、前記ネットワーク障害検出装置が、前記閾値判定結果情報を参照し、前記グループ毎に前記判定結果を抽出し、当該グループの閾値を超えたRTTをもつ監視対象装置の数を計算し、当該グループに属する監視対象装置の全体数に対する当該数の割合を計算し、前記グループ毎の前記計算した割合を示す閾値超過原因情報を出力する閾値超過原因判別部を、さらに備えることを特徴とする請求項2に記載のネットワーク障害検出システムとした。 According to a third aspect of the present invention, the network failure detection apparatus refers to the threshold determination result information, extracts the determination result for each group, and includes a monitoring target apparatus having an RTT exceeding the threshold of the group. A threshold excess cause determining unit that calculates a number, calculates a ratio of the number to the total number of monitoring target devices belonging to the group, and outputs threshold excess cause information indicating the calculated ratio for each group; The network failure detection system according to claim 2 is provided.
また、請求項7に記載の発明は、前記閾値判定結果情報を参照し、前記グループ毎に前記判定結果を抽出し、当該グループの閾値を超えたRTTをもつ監視対象装置の数を計算し、当該グループに属する監視対象装置の全体数に対する当該数の割合を計算し、前記グループ毎の前記計算した割合を示す閾値超過原因情報を出力する閾値超過原因判別部を、さらに備えることを特徴とする請求項6に記載のネットワーク障害検出装置とした。 The invention according to claim 7 refers to the threshold determination result information, extracts the determination result for each group, calculates the number of monitoring target devices having an RTT exceeding the threshold of the group, It further comprises a threshold excess cause determining unit that calculates a ratio of the number to the total number of monitoring target devices belonging to the group and outputs threshold excess cause information indicating the calculated ratio for each group. The network failure detection device according to claim 6 is provided.
このように、ネットワーク障害検出装置は、グループ毎に、そのグループの閾値を超えたRTTをもつ監視対象装置の数を計算し、当該グループに属する監視対象装置の全体数に対する割合を計算し、閾値超過原因情報として出力することができる。 As described above, the network failure detection apparatus calculates, for each group, the number of monitoring target devices having an RTT exceeding the threshold of the group, calculates a ratio to the total number of monitoring target devices belonging to the group, Can be output as excess cause information.
請求項4に記載の発明は、前記閾値超過原因判別部が、前記計算した割合が所定の割合を超えるか否かを前記グループ毎に判別し、前記所定の割合を超える場合に、ネットワーク異常を示す警告情報を出力することを特徴とする請求項3に記載のネットワーク障害検出システムとした。 According to a fourth aspect of the present invention, the threshold excess cause determining unit determines, for each group, whether the calculated ratio exceeds a predetermined ratio, and if the calculated ratio exceeds the predetermined ratio, a network abnormality is detected. The network failure detection system according to claim 3, wherein warning information is output.
また、請求項8に記載の発明は、前記閾値超過原因判別部が、前記計算した割合が所定の割合を超えるか否かを前記グループ毎に判別し、前記所定の割合を超える場合に、ネットワーク異常を示す警告情報を出力することを特徴とする請求項7に記載のネットワーク障害検出装置とした。 In the invention according to claim 8, the threshold excess cause determining unit determines whether the calculated ratio exceeds a predetermined ratio for each group, and if the calculated ratio exceeds the predetermined ratio, 8. The network failure detection apparatus according to claim 7, wherein warning information indicating an abnormality is output.
このように、ネットワーク障害検出装置は、そのグループの閾値を超えたRTTをもつ監視対象装置の割合が、所定の割合を超える場合に、ネットワーク異常を示す警告情報を、閾値超過原因情報に付して出力することができる。 In this way, the network failure detection device adds warning information indicating a network error to the threshold excess cause information when the proportion of monitored devices having RTT exceeding the threshold of the group exceeds a predetermined rate. Can be output.
本発明によれば、伝搬遅延を考慮した適切なRTTの閾値を設定する、ネットワーク障害検出システムおよびネットワーク障害検出装置を提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the network failure detection system and network failure detection apparatus which set the threshold value of the appropriate RTT which considered the propagation delay can be provided.
次に、本発明を実施するための形態(以下、「本実施形態」という。)におけるネットワーク障害検出システム1等について説明する。
Next, the network
<概要>
まず、本実施形態に係るネットワーク障害検出システム1が実行する処理の概要について説明する。
<Overview>
First, an overview of processing executed by the network
図1は、本実施形態に係るネットワーク障害検出システム1による、RTTの閾値決定処理の概要を説明するための図である。
図1に示すように、本実施形態に係るネットワーク障害検出システム1は、ネットワーク障害検出装置100と、そのネットワーク障害検出装置100にネットワークを介して接続される複数の監視対象装置200とを含んで構成される。なお、図1においては、一例として、監視対象装置200が、ネットワーク障害検出装置100の至近地に設置されている監視対象装置200(211,212,213)と、ネットワーク障害検出装置100の遠隔地に設置されている監視対象装置200(221,222,223)とを含んで構成されるものとする。そして、ネットワーク障害検出装置100が、各監視対象装置200に対し、監視用メッセージを送信してその応答メッセージを受信し、RTTの所定の閾値を超過するか否かにより、各監視対象装置200の正常、異常を判定する。
FIG. 1 is a diagram for explaining an outline of RTT threshold determination processing by the network
As shown in FIG. 1, the network
まず、ネットワーク障害検出装置100は、平常時(正常時)において取得した、各監視対象装置200のRTT値に基づき、類似したRTT値となる監視対象装置200をグルーピングする(ステップS1)。これにより、例えば、図1に示すように、至近地に設置されている監視対象装置200(211,212,213)のグループや、遠隔地に設置されている監視対象装置200(221,222,223)のグループのように、各監視対象装置200について、類似したRTT値をとるようにグルーピングしておく。
First, the network failure detection device 100 groups the
次に、ネットワーク障害検出装置100は、グループ毎にRTT値の分布を生成する(ステップS2)。そして、ネットワーク障害検出装置100は、生成したRTT値の分布から、所定の確率ラインとなる値をそのグループの閾値として設定する(ステップS3)。この確率ラインは、例えば、RTT値の分布(正規分布)において、ばらつき度合の所定値としての3σ(99.7%)(σ:標準偏差)に対応するRTT値を、所定の閾値として設定する。
図1においては、至近地に設置されている監視対象装置200(211,212,213)のグループの閾値として「a」が設定される。また、遠隔地に設置されている監視対象装置200(221,222,223)のRTTの閾値として、閾値「a」よりも長い時間のRTT値である閾値「b」が設定される。
Next, the network failure detection apparatus 100 generates a distribution of RTT values for each group (step S2). Then, the network failure detection apparatus 100 sets a value that becomes a predetermined probability line from the generated distribution of RTT values as a threshold value of the group (step S3). In this probability line, for example, in a distribution of RTT values (normal distribution), an RTT value corresponding to 3σ (99.7%) (σ: standard deviation) as a predetermined value of the variation degree is set as a predetermined threshold value. .
In FIG. 1, “a” is set as the threshold value of the group of the monitoring target devices 200 (211, 212, 213) installed in the immediate vicinity. In addition, a threshold “b” that is an RTT value of a longer time than the threshold “a” is set as the RTT threshold of the monitoring target device 200 (221, 222, 223) installed in a remote place.
このように、平常時(正常時)において類似するRTT値をもつ監視対象装置200のグループ毎にRTTの閾値を設定し、監視対象装置200のRTT値が、その監視対象装置200が属するグループの閾値を超えるか否かを判定することにより、各監視対象装置200の異常を適切に検出することができる。
In this way, an RTT threshold is set for each group of
図2は、本実施形態に係るネットワーク障害検出システム1による、RTT値増大の異常原因判別処理を説明するための図である。
図2においては、ある同一グループ内の監視対象装置200(201,202,203,204)が、ネットワーク障害検出装置100により、監視されているものとする。
FIG. 2 is a diagram for explaining an abnormality cause determination process for an increase in the RTT value by the network
In FIG. 2, it is assumed that the monitoring target devices 200 (201, 202, 203, and 204) in a certain group are monitored by the network failure detection device 100.
平常時(正常時)のRTT値が類似する同一グループに属する各監視対象装置200(201,202,203,204)において、そのグループに設定した閾値を超えるRTT値の監視対象装置200がある場合、その閾値超過の原因がその監視対象装置200自体にあるときは、当該監視対象装置200のみが閾値を超過する一方で、閾値超過の原因がネットワーク異常(経路変更等)の場合は、グルーピングした監視対象装置200において多くの装置で閾値を超過することとなる。これは、監視用メッセージに対する応答メッセージ(応答パケット)が、ネットワークの異常個所を通過する各監視対象装置200において、同様に遅延が発生するためである。このように、閾値を超過する監視対象装置200が少ないか多いかの相違を判定することで、RTT値増大の原因が、監視対象装置200自体の負荷増大等に起因するものか、ネットワーク異常に起因するものなのかを判別する。
When each monitoring target device 200 (201, 202, 203, 204) belonging to the same group having a similar normal (normal) RTT value has a
具体的には、ネットワーク障害検出システム1は、グループ毎にそのグループに属する各監視対象装置200を抽出し、そのグループに設定された閾値を超えるRTT値をもつ監視対象装置200の数を計算し、そのグループの全体数に占める割合を計算する。そして、図2(a)に示すように、例えば、1つの監視対象装置200(204)のみがそのグループに設定された閾値を超過する場合、グループ内で所定の割合を超える数の監視対象装置200がRTTの閾値を超えていることに該当せず、ネットワーク障害検出装置100は、異常がその監視対象装置200側に起因すると判別する。一方、図2(b)に示すように、ネットワーク障害検出装置100は、グループ内で所定の割合を超える数の監視対象装置200がRTTの閾値を超えている場合には、異常がネットワーク側に起因すると判別する。
Specifically, the network
このようにすることにより、ネットワーク障害検出装置100は、RTTの閾値を超える異常が発生した原因が、監視対象装置200の負荷増大等に起因するものか、ネットワーク異常に起因するものなのか判別することができる。
By doing so, the network failure detection apparatus 100 determines whether the cause of the abnormality exceeding the RTT threshold is due to an increase in the load on the
<ネットワーク障害検出装置>
図3は、本実施形態に係るネットワーク障害検出装置100の構成例を示す機能ブロック図である。
ネットワーク障害検出装置100は、各監視対象装置200から受信した監視用メッセージに対する応答メッセージのRTT値に基づき、ネットワークやそのネットワーク内の監視対象装置200の障害を検出する装置であり、入出力部110と、制御部120と、記憶部130とを備える。
<Network failure detection device>
FIG. 3 is a functional block diagram illustrating a configuration example of the network failure detection apparatus 100 according to the present embodiment.
The network failure detection device 100 is a device that detects a failure of the network or the
入出力部110(出力部)は、各監視対象装置200や不図示のネットワーク管理装置等との間の情報の入出力を行う。また、この入出力部110は、通信回線を介して情報の送受信を行う通信インタフェースと、不図示のキーボード等の入力手段やモニタ等の出力手段等との間で入出力を行う入出力インタフェースとから構成される。
The input / output unit 110 (output unit) inputs / outputs information to / from each
制御部120は、ネットワーク障害検出装置100全体の制御を司り、入力処理部121と、監視処理部122と、グルーピング処理部123と、閾値決定部124と、閾値判定部125と、閾値超過原因判別部126と、出力処理部127とを含んで構成される。
The control unit 120 controls the network failure detection apparatus 100 as a whole, and includes an
入力処理部121は、入出力部110を介して、各監視対象装置200やネットワーク管理装置(不図示)等から、情報の入力を受け付ける。
具体的には、入力処理部121は、後記するグルーピング処理に必要となる、使用する分布の情報(以下、「分布情報」という。)や、閾値決定ロジック等を取得し、パラメータ情報131として記憶部130に記憶する。
ここで、分布情報とは、グルーピング処理部123が、各監視対象装置200のRTT値のばらつきを解析しグルーピングするために使用する、正規分布や、対数正規分布、ガンマ分布等の分布を示す情報(確率密度関数)である。なお、ここでは、分布情報として正規分布を用いる例として説明する。また、閾値決定ロジックとは、分布におけるばらつき度合の所定値に対応するRTT値を、閾値に設定する情報を意味する。例えば、正規分布において、ばらつき度合の所定値としての3σ(99.7%)に対応するRTT値を、閾値に設定することを意味する。
さらに、入力処理部121は、不図示のネットワーク管理装置等から、入出力部110を介して、各監視対象装置200の情報(各監視対象装置200に固有な識別情報とそのアドレス情報等)を監視対象装置情報132として取得し、記憶部130に記憶する。
また、入力処理部121は、各監視対象装置200から、入出力部110を介して、監視用メッセージに対する応答メッセージを受信し、監視処理部122に引き渡す。
The
Specifically, the
Here, the distribution information is information indicating a distribution such as a normal distribution, a log normal distribution, a gamma distribution, or the like, which is used by the
Further, the
Further, the
監視処理部122は、記憶部130に記憶された監視対象装置情報132を参照して、各監視対象装置200に対し、監視用メッセージを送信し、その応答メッセージを受信することにより、RTTを検出する試験を実行する。そして、監視処理部122は、監視対象装置200の識別情報とそのRTT値とのペアを試験結果として取得し、試験結果情報133として記憶部130に記憶する。
The
グルーピング処理部123は、平常時(正常時)において、監視処理部122が各監視対象装置200に対し試験を実行した結果である試験結果情報133を取得し、任意のグルーピング手法に基づき、RTT値が類似する監視対象装置200をグルーピングし、監視対象装置200群が属する複数のグループで構成されるグループ情報を生成する。このグループ情報は、本ネットワーク障害検出システム1においてグループ毎に固有な識別情報(グループID)と、当該グループに属する監視対象装置200それぞれの識別情報(監視対象装置ID)とで構成される。
このグルーピング処理部123が実行するグルーピング手法には、例えば、階層型クラスタリング(最短距離法、群平均化法)や、分割最適化クラスタリング(K-means法)等を適用することができる。
The
As the grouping method executed by the
閾値決定部124は、パラメータ情報131として記憶部130に記憶した、分布情報および閾値決定ロジックと、グルーピング処理部123が生成したグループ情報とを取得する。そして、閾値決定部124は、グループ情報に示されるグループ毎にRTT値の分布を生成し、閾値決定ロジックに基づき、そのグループの閾値を決定する。例えば、閾値決定部124は、グループ情報に示されるグループ毎にRTT値の正規分布を生成し、正規分布において、ばらつき度合の所定値としての3σ(99.7%)に対応するRTT値をそのグループの閾値として決定する。
そして、閾値決定部124は、グループ情報にそのグループの閾値を対応付けたグループ閾値情報134を生成し、記憶部130に記憶する。
The threshold
Then, the
図4は、本実施形態に係るグループ閾値情報134のデータ構成例を示す図である。
図4に示すように、グループ閾値情報134は、グループIDに対応づけて、そのグループに属する各監視対象装置200の監視対象装置ID、および、閾値決定部124が決定したそのグループのRTTの閾値(グループ閾値)が記憶される。
例えば、図4の1行目のグループIDが「G001」のグループは、監視対象装置IDが「211」「212」「213」…等の監視対象装置200で構成され、このグループのRTTの閾値(グループ閾値)が「a」であることを示している。
FIG. 4 is a diagram illustrating a data configuration example of the
As shown in FIG. 4, the
For example, the group with the group ID “G001” in the first row in FIG. 4 is configured by the
図3に戻り、閾値判定部125は、監視処理部122が試験を実行した結果である試験結果情報133を取得する。この試験結果情報133は、前記したように、監視対象装置200の識別情報とそのRTT値とを含む情報である。なお、閾値判定部125による以下に説明する処理は、グルーピング処理部123および閾値決定部124の処理の結果、記憶部130にグループ閾値情報134が記憶された後(監視実行時)に実行される。
閾値判定部125は、試験結果情報133を取得すると、グループ閾値情報134を参照して、その監視対象装置200が属するグループに設定された閾値(グループ閾値)に基づき、その監視対象装置200のRTT値が閾値を超過するか否かを判定する。そして、閾値判定部125は、各監視対象装置200のRTT値の閾値の判定結果を、閾値判定結果情報135として記憶部130に記憶するとともに、その閾値を超過した監視対象装置200の情報を、出力処理部127を介して、ネットワーク管理装置(不図示)等に出力する。
Returning to FIG. 3, the
Upon obtaining the test result
閾値超過原因判別部126は、閾値判定結果情報135を参照して、グループ毎にそのグループに属する各監視対象装置200を抽出し、そのグループに設定された閾値(グループ閾値)を超えるRTT値をもつ監視対象装置200の数を計算し、そのグループの全体数に占める割合を計算する。そして、閾値超過原因判別部126は、その各グループの計算結果を、閾値超過原因情報136として記憶部130に記憶するとともに、出力処理部127を介して、ネットワーク管理装置(不図示)等に出力する。
このとき、閾値超過原因判別部126は、所定の割合を超えるグループについて、ネットワーク異常の発生を示す警告を付して、ネットワーク管理装置等に出力するようにしてもよい。
この所定の割合は、例えば、グループに属する監視対象装置200の総数のうちのN割(例えば、3割)にように設定する。なお、この所定の割合の設定値は、予め、パラメータ情報131に含め記憶部130に記憶しておく。
The threshold excess
At this time, the threshold excess
For example, the predetermined ratio is set to N (for example, 30%) of the total number of the
出力処理部127は、入出力部110を介して、各監視対象装置200やネットワーク管理装置(不図示)等に対し、情報を出力する。
例えば、出力処理部127は、監視処理部122の処理により、監視用メッセージを各監視対象装置200に送信する。また、出力処理部127は、閾値判定部125が生成した閾値判定結果情報135や、閾値超過原因判別部126が生成した閾値超過原因情報136を、ネットワーク管理装置等に出力する。
The
For example, the
記憶部130は、RAM(Random Access Memory)や、HDD(Hard Dick Drive)、フラッシュメモリ等の記憶媒体から構成され、前記した、パラメータ情報131、監視対象装置情報132、試験結果情報133、グループ閾値情報134、閾値判定結果情報135および閾値超過原因情報136が記憶される。
The storage unit 130 includes a storage medium such as a RAM (Random Access Memory), an HDD (Hard Dick Drive), and a flash memory, and includes the
なお、このネットワーク障害検出装置100をプログラム実行処理により実現する場合、記憶部130には、ネットワーク障害検出装置100の制御部120の機能を実現するためのプログラムが格納される。そして、制御部120は、記憶部130に記憶されたプログラムを、不図示のCPUが、RAM等に展開し実行することで実現される。 When the network failure detection apparatus 100 is realized by program execution processing, the storage unit 130 stores a program for realizing the function of the control unit 120 of the network failure detection apparatus 100. And the control part 120 is implement | achieved when CPU not shown expand | deploys the program memorize | stored in the memory | storage part 130 to RAM etc., and is performed.
また、このネットワーク障害検出装置100は、監視処理機能を備えた従来の監視端末10(図7〜図9参照)に接続される別装置として実現してもよい。その場合、ネットワーク障害検出装置100は、監視処理部122(図3参照)を備えず、その替わりに、監視端末10が各監視対象装置200に対して実行した監視処理の結果である試験結果情報133を、監視端末10から受信してネットワーク障害検出装置100の記憶部130に記憶するようにすればよい。
Further, the network failure detection device 100 may be realized as a separate device connected to the conventional monitoring terminal 10 (see FIGS. 7 to 9) having a monitoring processing function. In that case, the network failure detection apparatus 100 does not include the monitoring processing unit 122 (see FIG. 3), but instead, test result information that is a result of the monitoring process executed by the monitoring terminal 10 on each
<処理の流れ>
次に、本実施形態に係るネットワーク障害検出システム1の処理の流れについて説明する。本実施形態に係るネットワーク障害検出システム1(ネットワーク障害検出装置100)は、(1)平常時(正常時)において、監視対象装置200のグルーピングを実行し、そのグループ毎のRTTの閾値を決定する処理(以下、「グルーピング閾値決定処理」という。)と、(2)グループ毎のRTTの閾値を用いて、監視対象装置200の正常、異常を判定する処理(以下、「閾値判定処理」という。)とを実行する。具体的には、ネットワーク障害検出装置100が、平常時(正常時)において、グルーピング閾値決定処理を実行しておき、その後、各監視対象装置200に関して、例えば、所定の時間間隔毎の監視実行時に閾値判定処理を実行することにより、ネットワークの障害を検出する。
さらに、ネットワーク障害検出システム1(ネットワーク障害検出装置100)は、各グループ内において、RTTの閾値を超過する監視対象装置200の割合を計算することにより、RTT値増大の異常原因判別処理を実行する。
<Process flow>
Next, a processing flow of the network
Furthermore, the network failure detection system 1 (network failure detection device 100) executes an abnormality cause determination process for increasing the RTT value by calculating the ratio of the
≪グルーピング閾値決定処理≫
図5は、本実施形態に係るネットワーク障害検出装置100による、グルーピング閾値決定処理の流れを示すフローチャートである。
なお、ここでは、ネットワーク障害検出装置100の入力処理部121により、分布情報として正規分布を用いること、および、閾値決定ロジックとして正規分布におけるばらつき度合の所定値である3σ(99.7%)に対応するRTT値を閾値に設定すること、がパラメータ情報131として既に記憶部130に記憶されるとともに、各監視対象装置200に関する監視対象装置情報132が記憶部130に記憶されているものとする。また、監視処理部122により、平常時(正常時)において、各監視対象装置200に対し試験が実行され、平常時(正常時)における試験結果情報133が記憶部130に記憶されているものする。
<< Grouping threshold determination process >>
FIG. 5 is a flowchart showing a flow of grouping threshold value determination processing by the network failure detection apparatus 100 according to the present embodiment.
Here, the normal processing is used as the distribution information by the
まず、ネットワーク障害検出装置100のグルーピング処理部123は、平常時(正常時)における試験結果情報133を、記憶部130から取得する(ステップS10)。この試験結果情報133には、監視対象装置200の識別情報とそのRTT値のペアが、監視を実行する各監視対象装置200に関して記憶されている。
First, the
次に、グルーピング処理部123は、平常時における試験結果情報133に記憶された各監視対象装置200のRTT値を参照し、所定のグルーピング手法を用いて、RTT値が類似する監視対象装置200をグルーピングし(ステップS11)、監視対象装置200群が属するグループが複数で構成されるグループ情報を生成する。
Next, the
続いて、ネットワーク障害検出装置100の閾値決定部124は、閾値計算の対象となるi番目のグループ(以下、「グループi」とする。)のグループ番号i=1(初期化)を設定する(ステップS12)。
Subsequently, the threshold
そして、閾値決定部124は、グループiに属する監視対象装置200のRTT値の分布(正規分布)を生成する(ステップS13)。
Then, the threshold
続いて、閾値決定部124は、パラメータ情報131として設定された閾値決定ロジック(正規分布におけるばらつき度合の所定値である3σ(99.7%)に対応するRTT値を閾値に設定)に基づき、そのグループiの閾値を決定する(ステップS14)。
Subsequently, the threshold
次に、閾値決定部124は、ステップS11で生成したグループ情報の該当グループに、決定した閾値(グループ閾値)を対応付けてグループ閾値情報134(図4参照)として記憶部130に記憶する(ステップS15)。
Next, the threshold
そして、閾値決定部124は、ステップS11で生成したすべてのグループについて処理を終えたか否かを判定する(ステップS16)。ここで、まだ、すべてのグループについて処理を終えていない場合は(ステップS16→No)、「i」に「1」を加えて(ステップS17)、ステップS13に戻る。
一方、閾値決定部124は、すべてのグループの処理を終えている場合は(ステップS16→Yes)、グルーピング閾値決定処理を終了する。
Then, the threshold
On the other hand, when all the groups have been processed (step S16 → Yes), the
このようにすることで、ネットワーク障害検出装置100は、類似したRTT値をもつ監視対象装置200のグループ毎に、閾値(グループ閾値)を決定することができる。
By doing in this way, the network failure detection apparatus 100 can determine a threshold value (group threshold value) for each group of monitoring
≪閾値判定処理およびRTT値増大の異常原因判別処理≫
図6は、本実施形態に係るネットワーク障害検出装置100による、閾値判定処理およびRTT値増大の異常原因判別処理の流れを示すフローチャートである。
なお、ここでは、監視処理部122により、図5に示したグルーピング閾値決定処理の後、各監視対象装置200に対し試験が実行され、監視実行時の試験結果として、監視対象装置200の識別情報とそのRTT値のペアとで構成される試験結果情報133が記憶部130に記憶されているものする。
<< Threshold determination process and RTT value increase abnormality cause determination process >>
FIG. 6 is a flowchart showing the flow of threshold determination processing and RTT value increase abnormality cause determination processing by the network failure detection apparatus 100 according to the present embodiment.
Here, after the grouping threshold value determination process shown in FIG. 5 is performed by the
まず、ネットワーク障害検出装置100の閾値判定部125は、記憶部130に記憶された監視実行時の試験結果情報133を取得する(ステップS20)。
First, the
次に、閾値判定部125は、記憶部130に記憶されたグループ閾値情報134を取得する(ステップS21)。
Next, the
続いて、閾値判定部125は、ステップS20で取得した試験結果情報133において、閾値判定を実行するj番目の監視対象装置200について、初期化(j=1)する(ステップS22)。
Subsequently, the
そして、閾値判定部125は、j番目の監視対象装置200について、グループ閾値情報134(図4参照)に基づき、その監視対象装置200が属するグループの閾値(グループ閾値)を抽出し、試験結果であるその監視対象装置200のRTT値と比較する(ステップS23)。
Then, the
次に、閾値判定部125は、ステップS23の比較の結果、試験結果のRTT値がその監視対象装置200が属するグループの閾値(グループ閾値)を超過しているか否かを判定する(ステップS24)。
Next, the threshold
そして、閾値判定部125は、試験結果のRTT値が閾値(グループ閾値)を超えている場合に(ステップS24→Yes)、その判定結果を閾値判定結果情報135として記憶部130に記憶するとともに、出力処理部127を介して、ネットワーク管理装置(不図示)等に出力する(ステップS25)。そして、次のステップS27に進む。
一方、閾値判定部125は、試験結果のRTT値が閾値以下の場合に(ステップS24→No)、その判定結果を閾値判定結果情報135として記憶部130に記憶する(ステップS26)。そして、次のステップS27に進む。
Then, when the RTT value of the test result exceeds the threshold (group threshold) (step S24 → Yes), the
On the other hand, when the RTT value of the test result is equal to or less than the threshold (Step S24 → No), the
ステップS27において、閾値判定部125は、監視対象装置200の閾値判定処理をすべて終了したか否か判定する。ここで、まだ、閾値判定処理を実行していない監視対象装置200がある場合には(ステップS27→No)、「j」に「1」を加えて(ステップS28)、ステップS23に戻る。一方、閾値判定部125は、監視対象装置200の閾値判定処理をすべて終了している場合には(ステップS27→Yes)、次のステップS29に進む。
In step S <b> 27, the
なお、このステップS20〜S28が閾値判定処理であり、以下に説明するステップS29〜S33が、RTT値増大の異常原因判別処理である。 Note that steps S20 to S28 are threshold determination processing, and steps S29 to S33 described below are abnormality cause determination processing for increasing the RTT value.
ステップS29において、閾値超過原因判別部126は、閾値超過原因の判別対象となるi番目のグループ(グループi)のグループ番号i=1(初期化)を設定する。
In step S29, the threshold excess
そして、閾値超過原因判別部126は、そのグループiの閾値超過原因の判別処理を実行する(ステップS30)。具体的には、閾値超過原因判別部126は、そのグループiに属する監視対象装置200全体のうち、そのグループのRTTの閾値(グループ閾値)を超過した監視対象装置200の数を計算し、そのグループの全体数に対するRTTの閾値を超過した監視対象装置200の数の割合を計算する。
Then, the threshold excess
続いて、閾値超過原因判別部126は、ステップS30において計算した、そのグループにおけるRTTの閾値を超過した監視対象装置200の割合を示す閾値超過原因情報136を生成し、記憶部130に記憶するとともに、出力処理部127を介して、ネットワーク管理装置(不図示)等に出力する(ステップS31)。そして、次のステップS31に進む。
なお、閾値超過原因情報136を生成したとき、閾値超過原因判別部126は、計算した割合が所定の割合(N割)を超えているか否かを判定する。そして、閾値超過原因判別部126は、所定の割合(N割)を超えたグループについては、ネットワーク異常を示す警報情報を付して出力するようにしてもよい。また、閾値超過原因判別部126は、所定の割合(N割)以下のグループの判別結果については、ネットワーク管理装置等に出力せず、所定の割合(N割)を超えたグループについてのみ、判別結果を出力するようにしてもよい。
Subsequently, the threshold excess
When the threshold
ステップS32において、閾値超過原因判別部126は、すべてのグループについて処理を終えたか否かを判定する。ここで、まだ、すべてのグループについて処理を終えていない場合は(ステップS32→No)、「i」に「1」を加えて(ステップS33)、ステップS30に戻る。
一方、閾値超過原因判別部126は、すべてのグループについて処理を終えている場合は(ステップS32→Yes)、処理を終了する。
In step S32, the threshold excess
On the other hand, the threshold excess
このように、ネットワーク障害検出装置100は、閾値判定処理により、監視実行時における監視対象装置200が正常か異常かの判定を、当該監視対象装置200が属するグループに設定された閾値(グループ閾値)を用いて実行することができる。よって、ネットワークにおける伝搬遅延を考慮した適切な監視対象装置200の正常、異常の判定を行うことができる。
また、ネットワーク障害検出装置100は、RTT値増大の異常原因判別処理により、グループ毎に、そのグループの閾値を超えたRTTをもつ監視対象装置200の数を計算し、当該グループに属する監視対象装置200の全体数に対する割合を計算し、閾値超過原因情報136として出力することができる。この閾値超過原因情報136に基づき、閾値を超える異常が発生した原因が、監視対象装置200の負荷増大等に起因するものか、ネットワーク異常に起因するものなのかを判別することが可能となる。
As described above, the network failure detection device 100 determines whether the
Further, the network failure detection device 100 calculates the number of
以上説明したように、本実施形態に係る、ネットワーク障害検出システム1およびネットワーク障害検出装置100によれば、伝搬遅延を考慮した適切なRTTの閾値を設定することができる。そして、閾値を超える異常が発生した原因が、監視対象装置200の負荷増大等に起因するものか、ネットワーク異常に起因するものなのかを判別することが可能となる。
As described above, according to the network
なお、ネットワーク障害検出装置100は、類似したRTT値をもつ監視対象装置200のグループ毎に閾値を決定することにより、各監視対象装置200に対し個別に閾値を設定するよりも少ない稼動(処理負荷)で、適切なRTTの閾値の設定が可能となる。
また、ネットワーク障害検出装置100は、閾値決定のために使用する分布を示す分布情報と、当該分布におけるばらつき度合の所定値に対応するRTT値を閾値として決定する閾値決定ロジックとを、記憶部130に記憶しておく。これにより、ネットワーク障害検出装置100の閾値決定部124は、グルーピング処理部123が生成した複数のグループについて、自動的に各グループの閾値を決定することができる。よって、ネットワーク管理者が手動で各グループの閾値を設定する必要をなくすことができる。
Note that the network failure detection apparatus 100 determines a threshold value for each group of monitoring
Further, the network failure detection apparatus 100 stores the distribution information indicating the distribution used for threshold determination and the threshold determination logic for determining the RTT value corresponding to the predetermined value of the degree of variation in the distribution as the threshold. Remember it. Thereby, the threshold
1 ネットワーク障害検出システム
10 監視端末
100 ネットワーク障害検出装置
110 入出力部(出力部)
120 制御部
121 入力処理部
122 監視処理部
123 グルーピング処理部
124 閾値決定部
125 閾値判定部
126 閾値超過原因判別部
127 出力処理部
130 記憶部
131 パラメータ情報
132 監視対象装置情報
133 試験結果情報
134 グループ閾値情報
135 閾値判定結果情報
136 閾値超過原因情報
200 監視対象装置
DESCRIPTION OF
120
Claims (8)
前記ネットワーク障害検出装置は、
前記監視対象装置のRTTのばらつきを解析するために使用する分布を示す分布情報と、前記分布におけるばらつき度合の所定値に対応するRTTの値を、前記監視対象装置を異常と判定する閾値として決定する閾値決定ロジックと、正常時において前記複数の監視対象装置それぞれから受信した前記応答メッセージに基づく監視結果として、前記監視対象装置の識別情報および当該監視対象装置の前記RTTを示す試験結果情報と、を記憶する記憶部と、
前記複数の監視対象装置それぞれの前記正常時の試験結果情報を取得し、所定のグルーピング手法を用いて、前記RTTが類似する監視対象装置をグルーピングし、グルーピングにより生成された複数のグループ毎に、当該グループに属する各監視対象装置のRTTの分布を前記分布情報に示される分布により生成するグルーピング処理部と、
前記グループ毎に生成された分布それぞれにおいて、前記閾値決定ロジックに基づき前記分布におけるばらつき度合の所定値に対応するRTTの値を、前記グループ毎の閾値に決定する閾値決定部と、
を備えることを特徴とするネットワーク障害検出システム。 A plurality of monitoring target devices constituting a network, and a RTT (Round Trip Time) based on a response message transmitted from each of the monitoring target devices and transmitting a monitoring message to the plurality of monitoring target devices. A network failure detection system comprising a network failure detection device for detecting a failure of
The network failure detection device includes:
The distribution information indicating the distribution used to analyze the variation in the RTT of the monitored device and the RTT value corresponding to a predetermined value of the variation degree in the distribution are determined as threshold values for determining the monitored device as abnormal. Threshold value determination logic, and as a monitoring result based on the response message received from each of the plurality of monitoring target devices at the normal time, identification information of the monitoring target device and test result information indicating the RTT of the monitoring target device, A storage unit for storing
Obtaining the normal test result information of each of the plurality of monitoring target devices, grouping the monitoring target devices having similar RTTs using a predetermined grouping method, and for each of the plurality of groups generated by the grouping, A grouping processing unit that generates an RTT distribution of each monitoring target device belonging to the group based on the distribution indicated in the distribution information;
In each of the distributions generated for each group, a threshold value determination unit that determines an RTT value corresponding to a predetermined value of the degree of variation in the distribution based on the threshold value determination logic as a threshold value for each group;
A network failure detection system comprising:
前記ネットワーク障害検出装置は、
前記複数の監視対象装置それぞれの前記監視実行時の試験結果情報を取得し、前記監視実行時の試験結果情報に含まれる前記監視対象装置の識別情報を用いて、前記グループ閾値情報を参照し、当該監視対象装置の属する前記グループの閾値を抽出し、前記抽出した前記グループの閾値を、前記監視実行時の試験結果情報に含まれる当該監視対象装置のRTTが超えるか否かを判定し、判定結果を閾値判定結果情報として出力する閾値判定部を、さらに備えること
を特徴とする請求項1に記載のネットワーク障害検出システム。 In the storage unit of the network failure detection apparatus, group threshold information storing the threshold of the group determined by the threshold determination unit in association with each of the plurality of groups generated by the grouping processing unit, and the plurality of the plurality of groups The test result information at the time of monitoring execution for each monitored device is further stored,
The network failure detection device includes:
Obtaining test result information at the time of execution of monitoring for each of the plurality of monitoring target devices, using the identification information of the monitoring target device included in the test result information at the time of monitoring execution, referring to the group threshold information, The threshold value of the group to which the monitoring target device belongs is extracted, and it is determined whether or not the RTT of the monitoring target device included in the test result information at the time of monitoring exceeds the extracted threshold value of the group. The network failure detection system according to claim 1, further comprising a threshold determination unit that outputs a result as threshold determination result information.
前記閾値判定結果情報を参照し、前記グループ毎に前記判定結果を抽出し、当該グループの閾値を超えたRTTをもつ監視対象装置の数を計算し、当該グループに属する監視対象装置の全体数に対する当該数の割合を計算し、前記グループ毎の前記計算した割合を示す閾値超過原因情報を出力する閾値超過原因判別部を、さらに備えること
を特徴とする請求項2に記載のネットワーク障害検出システム。 The network failure detection device includes:
Referencing the threshold determination result information, extracting the determination result for each group, calculating the number of monitoring target devices having an RTT exceeding the threshold of the group, and for the total number of monitoring target devices belonging to the group The network failure detection system according to claim 2, further comprising: a threshold excess cause determining unit that calculates a ratio of the number and outputs threshold excess cause information indicating the calculated ratio for each group.
前記計算した割合が所定の割合を超えるか否かを前記グループ毎に判別し、前記所定の割合を超える場合に、ネットワーク異常を示す警告情報を出力すること
を特徴とする請求項3に記載のネットワーク障害検出システム。 The threshold excess cause determination unit
4. The system according to claim 3, wherein whether or not the calculated ratio exceeds a predetermined ratio is determined for each group, and warning information indicating a network abnormality is output when the ratio exceeds the predetermined ratio. Network failure detection system.
前記監視対象装置のRTTのばらつきを解析するために使用する分布を示す分布情報と、前記分布におけるばらつき度合の所定値に対応するRTTの値を、前記監視対象装置を異常と判定する閾値として決定する閾値決定ロジックと、正常時において前記複数の監視対象装置それぞれから受信した前記応答メッセージに基づく監視結果として、前記監視対象装置の識別情報および当該監視対象装置の前記RTTを示す試験結果情報と、を記憶する記憶部と、
前記複数の監視対象装置それぞれの前記正常時の試験結果情報を取得し、所定のグルーピング手法を用いて、前記RTTが類似する監視対象装置をグルーピングし、グルーピングにより生成された複数のグループ毎に、当該グループに属する各監視対象装置のRTTの分布を前記分布情報に示される分布により生成するグルーピング処理部と、
前記グループ毎に生成された分布それぞれにおいて、前記閾値決定ロジックに基づき前記分布におけるばらつき度合の所定値に対応するRTTの値を、前記グループ毎の閾値に決定する閾値決定部と、
を備えることを特徴とするネットワーク障害検出装置。 A plurality of monitoring target devices constituting a network, and a RTT (Round Trip Time) based on a response message transmitted from each of the monitoring target devices and transmitting a monitoring message to the plurality of monitoring target devices. A network failure detection device for detecting a failure of the network failure detection system, the network failure detection device comprising:
The distribution information indicating the distribution used to analyze the variation in the RTT of the monitored device and the RTT value corresponding to a predetermined value of the variation degree in the distribution are determined as threshold values for determining the monitored device as abnormal. Threshold value determination logic, and as a monitoring result based on the response message received from each of the plurality of monitoring target devices at the normal time, identification information of the monitoring target device and test result information indicating the RTT of the monitoring target device, A storage unit for storing
Obtaining the normal test result information of each of the plurality of monitoring target devices, grouping the monitoring target devices having similar RTTs using a predetermined grouping method, and for each of the plurality of groups generated by the grouping, A grouping processing unit that generates an RTT distribution of each monitoring target device belonging to the group based on the distribution indicated in the distribution information;
In each of the distributions generated for each group, a threshold value determination unit that determines an RTT value corresponding to a predetermined value of the degree of variation in the distribution based on the threshold value determination logic as a threshold value for each group;
A network failure detection apparatus comprising:
前記複数の監視対象装置それぞれの前記監視実行時の試験結果情報を取得し、前記監視実行時の試験結果情報に含まれる前記監視対象装置の識別情報を用いて、前記グループ閾値情報を参照し、当該監視対象装置の属する前記グループの閾値を抽出し、前記抽出した前記グループの閾値を、前記監視実行時の試験結果情報に含まれる当該監視対象装置のRTTが超えるか否かを判定し、判定結果を閾値判定結果情報として出力する閾値判定部を、さらに備えること
を特徴とする請求項5に記載のネットワーク障害検出装置。 In the storage unit, group threshold information storing the threshold value of the group determined by the threshold value determination unit in association with each of the plurality of groups generated by the grouping processing unit, and monitoring for each of the plurality of monitoring target devices The test result information at the time of execution is further stored,
Obtaining test result information at the time of execution of monitoring for each of the plurality of monitoring target devices, using the identification information of the monitoring target device included in the test result information at the time of monitoring execution, referring to the group threshold information, The threshold value of the group to which the monitoring target device belongs is extracted, and it is determined whether or not the RTT of the monitoring target device included in the test result information at the time of monitoring exceeds the extracted threshold value of the group. The network failure detection apparatus according to claim 5, further comprising a threshold determination unit that outputs a result as threshold determination result information.
を特徴とする請求項6に記載のネットワーク障害検出装置。 Referencing the threshold determination result information, extracting the determination result for each group, calculating the number of monitoring target devices having an RTT exceeding the threshold of the group, and for the total number of monitoring target devices belonging to the group The network failure detection apparatus according to claim 6, further comprising: a threshold excess cause determining unit that calculates a ratio of the number and outputs threshold excess cause information indicating the calculated ratio for each group.
前記計算した割合が所定の割合を超えるか否かを前記グループ毎に判別し、前記所定の割合を超える場合に、ネットワーク異常を示す警告情報を出力すること
を特徴とする請求項7に記載のネットワーク障害検出装置。 The threshold excess cause determination unit
8. The system according to claim 7, wherein whether or not the calculated ratio exceeds a predetermined ratio is determined for each group, and warning information indicating a network abnormality is output when the ratio exceeds the predetermined ratio. Network failure detection device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012213349A JP5767617B2 (en) | 2012-09-27 | 2012-09-27 | Network failure detection system and network failure detection device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012213349A JP5767617B2 (en) | 2012-09-27 | 2012-09-27 | Network failure detection system and network failure detection device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014068283A JP2014068283A (en) | 2014-04-17 |
JP5767617B2 true JP5767617B2 (en) | 2015-08-19 |
Family
ID=50744256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012213349A Active JP5767617B2 (en) | 2012-09-27 | 2012-09-27 | Network failure detection system and network failure detection device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5767617B2 (en) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8065161B2 (en) | 2003-11-13 | 2011-11-22 | Hospira, Inc. | System for maintaining drug information and communicating with medication delivery devices |
JP2010507176A (en) | 2006-10-16 | 2010-03-04 | ホスピラ・インコーポレイテツド | System and method for comparing and utilizing dynamic information and configuration information from multiple device management systems |
US8271106B2 (en) | 2009-04-17 | 2012-09-18 | Hospira, Inc. | System and method for configuring a rule set for medical event management and responses |
WO2013059615A1 (en) | 2011-10-21 | 2013-04-25 | Hospira, Inc. | Medical device update system |
ES2908320T3 (en) | 2013-03-06 | 2022-04-28 | Icu Medical Inc | Medical device communication method |
JP6621748B2 (en) | 2013-08-30 | 2019-12-18 | アイシーユー・メディカル・インコーポレーテッド | System and method for monitoring and managing a remote infusion regimen |
US10311972B2 (en) | 2013-11-11 | 2019-06-04 | Icu Medical, Inc. | Medical device system performance index |
TR201908852T4 (en) | 2013-11-19 | 2019-07-22 | Icu Medical Inc | Infusion pump automation system and method. |
WO2015168427A1 (en) | 2014-04-30 | 2015-11-05 | Hospira, Inc. | Patient care system with conditional alarm forwarding |
US9724470B2 (en) | 2014-06-16 | 2017-08-08 | Icu Medical, Inc. | System for monitoring and delivering medication to a patient and method of using the same to minimize the risks associated with automated therapy |
US9539383B2 (en) | 2014-09-15 | 2017-01-10 | Hospira, Inc. | System and method that matches delayed infusion auto-programs with manually entered infusion programs and analyzes differences therein |
EP3304370B1 (en) | 2015-05-26 | 2020-12-30 | ICU Medical, Inc. | Infusion pump system and method with multiple drug library editor source capability |
JP6513001B2 (en) * | 2015-09-16 | 2019-05-15 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | Failure detection device, failure detection method, and program |
EP3484541A4 (en) | 2016-07-14 | 2020-03-25 | ICU Medical, Inc. | Multi-communication path selection and security system for a medical device |
KR101941583B1 (en) * | 2016-08-26 | 2019-01-23 | 홍익대학교 산학협력단 | Peer manage method and peer manage device based on peer-to-peer network |
CA3106516C (en) | 2018-07-17 | 2023-07-25 | Icu Medical, Inc. | Updating infusion pump drug libraries and operational software in a networked environment |
AU2019306492A1 (en) | 2018-07-17 | 2021-02-11 | Icu Medical, Inc. | Systems and methods for facilitating clinical messaging in a network environment |
US11483402B2 (en) | 2018-07-17 | 2022-10-25 | Icu Medical, Inc. | Maintaining clinical messaging during an internet outage |
US10861592B2 (en) | 2018-07-17 | 2020-12-08 | Icu Medical, Inc. | Reducing infusion pump network congestion by staggering updates |
US10692595B2 (en) | 2018-07-26 | 2020-06-23 | Icu Medical, Inc. | Drug library dynamic version management |
WO2020023231A1 (en) | 2018-07-26 | 2020-01-30 | Icu Medical, Inc. | Drug library management system |
KR102078615B1 (en) * | 2018-11-22 | 2020-02-19 | (주)하몬소프트 | Self-healing network apparatus based on artificial intelligence |
WO2021005945A1 (en) * | 2019-07-10 | 2021-01-14 | パナソニックIpマネジメント株式会社 | Network management device, network management system and network management method |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000031985A (en) * | 1998-07-13 | 2000-01-28 | Nec Corp | Communication fault detection control system and communication fault detection control method |
JP4129216B2 (en) * | 2002-09-27 | 2008-08-06 | 松下電器産業株式会社 | Group judgment device |
JP4724761B2 (en) * | 2009-03-18 | 2011-07-13 | 株式会社エヌ・ティ・ティ ピー・シー コミュニケーションズ | Communication control device and program |
JP5201051B2 (en) * | 2009-03-27 | 2013-06-05 | 富士通株式会社 | Connection state estimation program, connection state estimation device, and connection state estimation method |
JP2011142390A (en) * | 2010-01-05 | 2011-07-21 | Hitachi Ltd | Monitoring system and fault communication device determination method |
-
2012
- 2012-09-27 JP JP2012213349A patent/JP5767617B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014068283A (en) | 2014-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5767617B2 (en) | Network failure detection system and network failure detection device | |
CN108418710B (en) | Distributed monitoring system, method and device | |
US10033592B2 (en) | Method and system for monitoring network link and storage medium therefor | |
CN108989135B (en) | Network equipment fault detection method and device | |
US20110270957A1 (en) | Method and system for logging trace events of a network device | |
WO2016017208A1 (en) | Monitoring system, monitoring device, and inspection device | |
JP4412031B2 (en) | Network monitoring system and method, and program | |
CN105049291A (en) | Method for detecting network traffic anomaly | |
JP6220625B2 (en) | Delay monitoring system and delay monitoring method | |
WO2017000536A1 (en) | Bfd method and apparatus | |
JP2018007179A (en) | Device, method and program for monitoring | |
US10404570B2 (en) | Automatically detecting an error in a communication and automatically determining a source of the error | |
JP5711675B2 (en) | Network abnormality detection apparatus and network abnormality detection method | |
CN108880838B (en) | Service fault monitoring method and device, computer equipment and readable medium | |
WO2015182629A1 (en) | Monitoring system, monitoring device, and monitoring program | |
JP6438875B2 (en) | Network monitoring apparatus and network monitoring method | |
JP2009199556A (en) | Communication monitoring device, communication monitoring method, computer program and system therefor | |
JP2017211806A (en) | Communication monitoring method, security management system, and program | |
US20210288899A1 (en) | Method and device for detecting network reliability | |
JP6513001B2 (en) | Failure detection device, failure detection method, and program | |
JP6378653B2 (en) | Service impact cause estimation apparatus, service impact cause estimation program, and service impact cause estimation method | |
CN113079059A (en) | Network state monitoring method and device, electronic equipment and readable storage medium | |
JP4836053B2 (en) | Failure determination method and program | |
US20200174868A1 (en) | Detection of event storms | |
JP6310405B2 (en) | Service impact cause estimation apparatus, service impact cause estimation program, and service impact cause estimation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20140502 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20140528 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140822 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150527 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150616 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150619 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5767617 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |