JP2016071480A - 障害監視システム、障害監視方法及び障害監視プログラム - Google Patents

障害監視システム、障害監視方法及び障害監視プログラム Download PDF

Info

Publication number
JP2016071480A
JP2016071480A JP2014197944A JP2014197944A JP2016071480A JP 2016071480 A JP2016071480 A JP 2016071480A JP 2014197944 A JP2014197944 A JP 2014197944A JP 2014197944 A JP2014197944 A JP 2014197944A JP 2016071480 A JP2016071480 A JP 2016071480A
Authority
JP
Japan
Prior art keywords
node
signal
monitoring
link
switch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014197944A
Other languages
English (en)
Inventor
弘 武内
Hiroshi Takeuchi
弘 武内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2014197944A priority Critical patent/JP2016071480A/ja
Publication of JP2016071480A publication Critical patent/JP2016071480A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】複数のノードで構成される通信ネットワークにおいて、確実に正常なノードを判定し、最小限のノードを交換することで障害を除去する。
【解決手段】第1のリンクL1で直列に接続された第1〜第3のノード13、11、15を含む。第1のリンクは第2のノード11と第3のノード15との間に第1のスイッチ手段SW1を有する。第1のノード13は、第1のリンクを介して第3のノード15に向けて監視信号を送信し、第3のノードは、監視信号を受信するとそれに対して返信信号を送信する。第1のノードは、第1のスイッチ手段の状態を、信号を通過させる通過状態、または折り返す折返状態との間で切り換え、返信信号、または折り返される監視信号の受信の有無に基づいて第1〜第3の各ノードが正常であるかを判定する。
【選択図】図2

Description

本発明は、障害監視システム、障害監視方法及び障害監視プログラムに関する。
近年、IP(Internet Protocol)ネットワーク等の通信ネットワークは高速かつ大容量なネットワークとなり、また、より安全性と経済性とを備えたネットワークに進化しており、多様なサービスが通信ネットワーク上に構築されている。
従って、通信ネットワークは、社会的インフラとして重要な役割を担っており、通信ネットワークの障害が利用者へ与える影響は計り知れない。そのため、通信ネットワークにおける死活監視は非常に重要な課題となっている。
このような死活監視システムとして、特許文献1には、複数のノード間を接続する物理リンクと管理計算機と複数のノードと双方向に接続する制御リンクとを含む通信ネットワークにおいて、各ノードから監視フレームが当該管理計算機に転送されるようになされている通信ネットワーク管理システムが開示されている。
特許第5429697号公報
しかしながら、特許文献1に開示されているシステムは、複数のノードに亘る物理リンクの経路上のノードにおいて障害が発生した場合に、正常な可能性のあるノードを含む複数のノードを取り替えて、復旧を行う必要があった。
本発明は、上記した点に鑑みてなされたものであり、例えば、IPネットワーク等の通信ネットワークにおいて、リンクによって直列に接続された複数のノードからなる経路上に障害が発生した際に、確実に正常なノードを判定可能であり、最小限のノードを交換することで障害を除去可能な障害監視システム、障害監視方法及び障害監視プログラムを提供することを目的とする。
本発明の障害監視システムは、第1のノード、第2のノード及び第3のノードを含む障害監視システムであって、当該第1、第2及び第3のノードは第1のリンクによってこの順に直列に接続され、当該第1のリンクは当該第2のノードと当該第3のノードとの間に第1のスイッチ手段を有し、当該第1のノードは、当該第1のリンクを介して当該第3のノードに向けて監視信号を送信する監視部と、当該第1のスイッチ手段と第2のリンクで接続されており当該第1のスイッチ手段に切換信号を送信するスイッチ制御部と、を有し、当該第3のノードは、当該監視信号を受信すると、当該第1のノードに向けて返信信号を送信する返信信号送信部を有し、当該スイッチ制御部は、当該切替信号を当該第1のスイッチ手段に送信することにより、当該第1のスイッチ手段の状態を、当該第1のリンクを介して送信される当該監視信号を通過させる通過状態、または折り返す折返状態との間で切り換え、当該監視部は、当該返信信号、または折り返される当該監視信号の受信の有無に基づいて当該第1乃至第3の各ノードが正常であるか否かを判定することを特徴とする。
また、本発明の障害監視方法は、第1のノード、第2のノード及び第3のノードを含み、当該第1、第2及び第3のノードは第1のリンクによってこの順に直列に接続され、当該第1のリンクは当該第2のノードと当該第3のノードとの間に第1のスイッチ手段を有し、当該第1のノードは当該第1のスイッチ手段と第2のリンクで接続され、切換信号を当該第1のスイッチ手段に送信することにより、当該第1のスイッチ手段の状態を、当該第1のリンクを介して送信される信号を通過させる通過状態、または信号を折り返す折返状態との間で切り換える障害監視システムにおける障害監視方法であって、当該第1のノードが当該第1のリンクを介して当該第3のノードに向けて監視信号を送信するステップと、当該第1のノードが当該監視信号に対する返信信号を受信したかを判定するステップと、当該第1のノードが当該監視信号に対する返信信号を受信しなかったと判定した場合に、当該第1のノードが当該第1のスイッチに切換信号を送信するステップと、当該切換信号の送信後に当該第1のノードが当該第3のノードに向けて再度当該監視信号を送信するステップと、当該第1のノードが当該監視信号に対する折返信号の受信の有無に基づいて当該第1乃至第3の各ノードが正常であるか否かを判定するステップと、を含むことを特徴とする。
また、本発明の障害監視プログラムは、第1のノード、第2のノード及び第3のノードを含み、当該第1、第2及び第3のノードは第1のリンクによってこの順に直列に接続され、当該第1のリンクは当該第2のノードと当該第3のノードとの間に第1のスイッチ手段を有し、当該第1のノードには当該第1のスイッチ手段と第2のリンクで接続され、切換信号を当該第1のスイッチ手段へ送信することにより、当該第1のスイッチ手段の状態を、当該第1のリンクを介して送信される信号を通過させる通過状態、または信号を折り返す折返状態との間で切り換える障害監視システムにおいて、コンピュータに障害監視処理を実行させる障害監視プログラムであって、当該第1のノードに当該第1のリンクを介して当該第3のノードに向けて監視信号を送信させる処理と、当該第1のノードに当該監視信号に対する返信信号を受信したかを判定させる処理と、当該第1のノードが当該監視信号に対する返信信号を受信しなかったと判定した場合に、当該第1のノードに当該第1のスイッチに切換信号を送信させる処理と、当該切換信号の送信後に当該第1のノードに当該第3のノードに向けて再度当該監視信号を送信させる処理と、当該第1のノードに当該監視信号に対する折返信号の受信の有無に基づいて当該第1乃至第3の各ノードが正常であるか否かを判定させる処理と、を実行させることを特徴とする。
また、本発明の障害監視システムは、第1のリンクによって直列に接続される3以上のn個のノードを有する直列ノード群を含む障害監視システムであって、当該第1のリンクは当該n個のノードの各々の間に1個ずつ配置されるn−1個のスイッチ手段を有し、当該直列ノード群の一端のノードは、当該第1のリンクを介して他端のノードに向けて監視信号を送信する監視部と、当該スイッチ手段の各々と第2のリンクで接続されており当該スイッチ手段の各々に切換信号を送信するスイッチ制御部と、を有し、当該直列ノード群の当該他端のノードは、当該監視信号を受信すると、当該一端のノードに向けて返信信号を送信する返信信号送信部を有し、当該スイッチ制御部は、当該切替信号を当該スイッチ手段の各々に送信することにより、当該スイッチ手段の各々の状態を、当該第1のリンクを介して送信される当該監視信号を通過させる通過状態、または折り返す折返状態との間で切り換え、当該監視部は、当該返信信号、または折り返される当該監視信号の受信の有無に基づいて当該直列ノード群内の各ノードが正常であるか否かを判定することを特徴とする。
また、本発明の障害監視方法は、第1のリンクによって直列に接続される3以上のn個のノードを有する直列ノード群を含み、当該第1のリンクは当該n個のノードの各々の間に1個ずつ配置され、かつ当該直列ノード群の一端のノードに第2のリンクで接続されるn−1個のスイッチ手段を有するシステムにおける障害監視方法であって、当該一端のノードが当該第1のリンクを介して当該直列ノード群の他端のノードに向けて監視信号を送信するステップと、当該一端のノードが当該監視信号に対する当該他端のノードからの返信信号を受信したかの判定を行うステップと、を含み、さらに、当該一端のノードが当該判定を行うステップにおいて、当該一端のノードが当該監視信号に対する当該返信信号を受信しなかったと判定した場合に、当該一端のノードが、当該一端のノードから当該第1のリンク上における(n−(当該判定をした回数))番目の当該スイッチ手段へ切替信号を送信し、当該スイッチ手段の状態を、当該第1のリンクを介して送信される当該監視信号を通過させる通過状態、または折り返す折返状態との間で切り換えるステップと、当該一端のノードが再度、当該監視信号を当該他端のノードに向けて送信するステップと、当該一端のノードが、折り返される当該監視信号の受信の有無に基づいて当該直列ノード群内の各ノードが正常であるか否かを判定するステップと、を繰り返し行うことを特徴とする。
また、本発明の障害監視プログラムは、第1のリンクによって直列に接続される3以上のn個のノードを有する直列ノード群を含み、当該第1のリンクは当該n個のノードの各々の間に1個ずつ配置され、かつ当該直列ノード群の一端のノードに第2のリンクで接続されるn−1個のスイッチ手段を有するシステムにおいて、コンピュータに障害監視処理を実行させる障害監視プログラムであって、当該一端のノードが当該第1のリンクを介して当該直列ノード群の他端のノードに向けて監視信号を送信する処理と、当該一端のノードが当該監視信号に対する当該他端のノードからの返信信号を受信したかの判定を行う処理と、を実行させ、さらに、当該一端のノードが当該判定を行う処理において、当該一端のノードが当該監視信号に対する当該返信信号を受信しなかったと判定した場合に、当該一端のノードが、当該一端のノードから当該第1のリンク上における(n−(当該判定をした回数))番目の当該スイッチ手段へ切替信号を送信し、当該スイッチ手段の状態を、当該第1のリンクを介して送信される当該監視信号を通過させる通過状態、または折り返す折返状態との間で切り換える処理と、当該一端のノードが再度、当該監視信号を当該他端のノードに向けて送信する処理と、当該一端のノードが、折り返される当該監視信号の受信の有無に基づいて当該直列ノード群内の各ノードが正常であるか否かを判定する処理と、を繰り返し実行させることを特徴とする。
図1は本発明の実施例1であるブレードサーバのブロック図である。 図2は図1のブレードサーバ内の直列ノード群のブロック図である。 図2の直列ノード群における監視信号の経路を示す図である。 図2の直列ノード群における監視信号の経路を示す図である。 図2の直列ノード群における監視信号の経路を示す図である。 図2のブレードサーバ内の直列ノード群において実行される障害監視ルーチンを示す図である。 変形例の直列ノード群のブロック図である。 変形例の直列ノード群において実行される障害監視ルーチンを示す図である。 他の実施例の直列ノード群のブロック図である。 図7の直列ノード群において実行される障害監視ルーチンを示す図である。
以下に、本発明の実施例1である障害監視システムについて、図1及び図2を参照して説明する。以下においては、PICMG3.0(ATCA:Advanced Telecom Computing Architecture)規格のブレードサーバを例に説明する。図1に示すように、本実施例のブレードサーバ10は、スイッチングハブとして機能する2つのスイッチングブレード(SWB:Switch Blade)11を有する。
2つのSWB11の各々には、2つのシングルボードコンピュータ(SBC:Single Board Computer)13及び4つのパケット処理ボード(PPB:Packet Processing Board)15がデータ通信リンクである第1のリンクL1(図中実線)(以下、単にリンクL1ともいう)を介してスター型にリンクされている。すなわち、2つのSBC13及び4つのPPB15は、各々が2つSWB11の両方に接続されており、2つのSWBを中心に二重のスター型のリンク(デュアルスター)が形成されている。
また、SWB11、SBC13及びPPB15は、例えばIPMB(Intelligent Platform Management Bus)等の第2のリンクL2(図中破線)(以下、単にリンクL2ともいう)によって並列に接続されている。また、2つのSWB11は、各々がShMC(Shelf Management Controller)等の管理コントローラ(図示せず)に接続されている。
図2に、第1のリンクL1を介してSBC13、SWB11及びPPB15がこの順に配されているブレードサーバ10内の第1のリンクL1を介した直列接続の一例である直列ノード群20を示す。上述のように、SBC13、SWB11及びPPB15は、第2のリンクL2によって並列に接続されているが、図2において、SWB11及びPPB15と第2のリンクL2との接続は省略している。
SBC13は、CPU(Central Processing Unit)、ROM(Read Only Memory)及びRAM(Random Access Memory)等からなる情報処理部21、SWB11との間の第1のリンクL1に接続されているネットワークインタフェースカード(NIC:Network Interface Card)等の通信インタフェース部23、スイッチ制御部25及びディスプレイやランプ等の表示部26を含んでいる。
情報処理部21は、通信インタフェース部23及び第1のリンクL1を介してパケット信号等の監視信号をPPB15に向けて送信して他のノードの状態を監視する監視部21A及びスイッチ制御部25にスイッチ切換指令を送信するスイッチ制御指令部21Bを含んでいる。
監視部21Aは、表示部26に接続されており、監視の結果を表示部26に表示させる。また、スイッチ制御部25は、スイッチ制御指令部からのスイッチ切換指令により、スイッチ切換信号を送信する。
SWB11は、レイヤ2スイッチ等の情報処理部27、SBC13との間の第1のリンクL1に接続されている第1の通信インタフェース部29、PPB15との間のリンクL1に接続されている第2の通信インタフェース部31を含んでいる。
PPB15は、CPU、ROM及びRAM等の情報処理部33、SWB11との間の第1のリンクL1に接続されているNIC等の通信インタフェース部35を含んでいる。情報処理部33は、通信インタフェース部35及びリンクL1を介して監視信号を送受信する返信信号送信部としての監視信号送受信部33Aを含んでいる。監視信号送受信部33Aは、リンクL1を介してSBC13等の他のノードから監視信号を受信した際に、監視信号をその送信元に返信する。すなわち、監視信号送受信部33Aは、受信した監視信号の送信元であるノードに返信信号を送信する。
直列ノード群20内のリンクL1には、SWB11とPPB15との間及びSWB11とSBC11との間に第1の切換スイッチSW1及び第2の切換スイッチSW2が設けられている。第1の切換スイッチSW1(以下、単にスイッチSW1またはSW1ともいう)及び第2の切換スイッチSW2(以下、単にスイッチSW2またはSW2ともいう)は、第2のリンクL2を介してスイッチ制御部25に接続されている。
第1の切換スイッチSW1及び第2の切換スイッチSW2は、例えばクロスポイントスイッチであり、リンクL1を介して送信された信号を通過させる通過状態、またはリンクL1を介して送信された信号を折り返す折返状態との間で切り換え可能である。この切換は、スイッチ制御指令部21Bからのスイッチ切換指令によってスイッチ制御部25から送信されるスイッチ切換信号によって行われる。
上記構成の直列ノード群20においては、スイッチSW1またはSW2の状態によって、監視部21Aから送信された監視信号の経路が変わる。以下に、図3乃至図5を参照して、スイッチの状態によるSBC13から監視信号の経路について説明する。図3乃至図5は、直列ノード群20における監視信号の経路を示す図であり、図において監視信号の経路を一点破線矢印で示す。
まず、SW1及びSW2が通過状態の場合、いずれのノードも正常ならば、図3に示すように、監視部21Aから送信された監視信号は、SWB11を通過し、PPB15の監視信号送受信部33Aに到達する。その後、監視信号送受信部33Aから監視部21Aに監視信号が返信されて監視部21Aに受信される。
すなわち、監視部21Aによる監視信号の受信があった場合には、いずれのノードも正常である。対して、監視部21Aによる監視信号の受信がなかった場合には、経路上にあるSBC13の一部(例えば、通信インタフェース部23)、SWB11及びPPB15のいずれかに異常が発生していることとなる。
次に、図4に示すように、SW1のみが折返状態とされた場合、SBC13及びSWB11が正常ならば、監視部21Aから送信された監視信号は、SWB11を通過した後にPPBに到達せずに、SW1で折り返されて、折返信号が監視部21Aに戻ってくる。
すなわち、監視部21Aによる折返信号の受信があった場合には、経路上にあるSBC13及びSWB11は正常である。対して、監視部21Aによる折返信号の受信がなかった場合には経路上にあるSBC13の一部及びSWB11のいずれかに異常が発生していることとなる。
そして、図5に示すように、SW2が折返状態とされた場合、SBC13が正常ならば、監視部21Aから送信された監視信号は、SW2で折り返されてSWB11及びPPB15に到達せずに、折返信号が監視部21Aに戻ってくる。
すなわち、監視部21Aによる折返信号の受信があった場合には、SBC13は正常である。対して、監視部21Aによる折返信号の受信がなかった場合には経路上にあるSBC13の一部に異常が発生していることとなる。
以下に、SBC13から監視信号を送信することによる状態判定について説明する。
1.全てのノードが正常である場合
SBC13が監視信号を送信した際に、スイッチSW1及びスイッチSW2を通過状態にした条件でPPB15からの返信の受信があった場合、図3について上述したように、信号はSBC13からSWB11を通過しPPB15に到達し、PPB15からの返信が行われたということになる。従って、この場合、全てのノードは正常であると判断できる。
2.PPB15に異常が発生している場合
スイッチSW1及びスイッチSW2を通過状態にした条件で監視信号に対する返信の受信がなかった場合、経路上にあるSBC13の一部、SWB11及びPPB15のうちの1または複数に異常が発生していることがわかる。この場合に、スイッチSW2を通過状態にし、かつスイッチSW1を折返状態にして、監視信号を再度送信する。
この監視信号に対する折返信号の受信があった場合、図4について上述したように、信号はSBC13からSWB11を通過し、SW1で折り返されてSBC13に戻ってきたことになり、少なくともSBC13及びSWB11が正常であると判断できる。
よって、スイッチSW1及びSW2を通過状態にした条件で監視信号に対する返信に係る信号が受信できず、かつスイッチSW1のみを折返状態にした条件で折返信号が受信できた場合、PPB15のみに確実に異常が発生していることを特定することができる。
従って、この場合、PPB15のみを交換すれば直列ノード群20の障害を取り除くことが可能である。
3.SWB11に異常が発生している場合
スイッチSW2を通過状態にしかつスイッチSW1を折返状態にした条件で、監視信号に対する折返信号の受信がなかった場合、経路上にあるSBC13の一部及びSWB11のいずれかに異常が発生していることがわかる。この場合にスイッチSW2を折返状態にして、監視信号を再度送信する。この監視信号に対する折返信号の受信があった場合、図5について上述したように、監視信号はSBC13から送出されスイッチSW2で折り返されて折返信号がSBC13に戻って来たことになり、少なくともSBC13のみは正常であると判断できる。
よって、スイッチSW2を通過状態にし、かつスイッチSW1を折返状態にした条件で折返信号が受信できず、かつスイッチSW2を折返状態にした条件で折返信号が受信できた場合、SWB11に確実に異常が発生していることを特定することができる。
従って、この場合、直列ノード群20の障害を取り除くために、SWB11をまず交換する。PPB15が正常であれば、SWB11の交換のみで直列ノード群20の障害を取り除くことができる。正常なSWB11に交換された後に、上述される状態判定を再度行いPPB15にも障害があると判断されれば、PPB15も交換することとなる。
4.SBCの一部に異常が発生している場合
スイッチSW2を折返状態にした条件で監視信号に対する折返信号の受信がなかった場合、経路上にあるSBC13の一部に異常が発生していることがわかる。従って、この場合、直列ノード群20の障害を取り除くために、SBC13をまず交換する。SWB11及びPPB15が正常であれば、SBC13の交換のみで直列ノード群20の障害を取り除くことができる。正常なSBC13に交換された後に、上述される状態判定を再度行いSWB11及び/またはPPB15にも障害があると判断されれば、SWB11及び/またはPPB15も交換することとなる。
このように、上述の構成によれば、システムにおいて直列接続の一端に配されたノードである、例えばブレードサーバのSBC13の監視部21Aから監視信号がPPB15の監視信号送受信部33Aに向けて送信された場合の監視信号に対する返信、または折返信号の受信の有無によって、確実に正常であるノード及び確実に異常が発生しているノードが特定できる。従って、必要最低限のノードを交換するのみで、ブレードサーバ等のシステム全体の障害を取り除くことが可能となる。
以下に、図6を参照して、SBC13が直列ノード群20を監視する監視ノードである場合の、SBC13の情報処理部21上で動作する監視ルーチンR1を説明する。なお、初期状態において、スイッチSW1及びSW2は通過状態となっている。
まず、ステップS11において、監視部21AがPPB15の監視信号送受信部33Aに向けてパケット信号等の監視信号を送信し、ステップS12に進む。ステップS12において、監視部21Aにて監視信号に対する監視信号送受信部33Aからの返信が受信されたか否かが判定される。
ステップS12において、監視信号に対する返信が受信されたと判定された場合には、ステップS13に進み、監視部21Aは全ノードが正常であると判断し、その旨を表示部26に表示し、その後ルーチンR1は終了する。なお、ステップS13においては、異常が発生していないので、表示部26による表示を行わないこととしてもよい。
ステップS12において、監視信号に対する返信が受信されなかったと判定された場合には、ステップS14に進む。ステップS14において、スイッチ制御指令手段21Bがスイッチ制御部25に指令し、スイッチ制御部25からスイッチSW1に切換信号が送信される。スイッチSW1はスイッチ制御部25からの切換信号を受信すると、通過状態から折返状態に切り換わる。
ステップS14が終了すると、ステップS15に進み、監視部21AがPPB15の監視信号送受信部33Aに向けて監視信号を再度送信し、ステップはステップS16に進む。ステップS16において、監視部21Aにて監視信号に対する折返信号が受信されたか否かが判定される。
ステップS16において、折返信号が受信されたと判定された場合には、ステップS17に進み、情報処理部21がSBC13及びSWB11が正常である、すなわちPPB15に障害が発生していると判断し、その旨を表示部26に表示し、その後ルーチンR1は終了する。ステップS17において、例えば、PPB15を交換すべき旨の表示を行うこととしてもよい。
ステップS16において、折返信号が受信されなかったと判定された場合には、ステップS18に進む。ステップS18において、スイッチ制御指令部21Bがスイッチ制御部25に指令し、スイッチ制御部25からスイッチSW2に切換信号が送信される。スイッチSW2はスイッチ制御部25からの切換信号を受信すると、通過状態から折返状態に切り換わる。
ステップS18が終了すると、ステップS19に進み、監視部21AがPPB15の監視信号送受信部33Aに向けてパケット信号等の監視信号を送信し、ステップS110に進む。ステップS110において、監視部21Aにて監視信号に対する折返信号が受信されたか否かが判定される。
ステップS110において、折返信号が受信されたと判定された場合には、ステップS111に進み、監視部21AがSBC13は正常であり、SWB11に確実に異常が発生していると判断し、その旨を表示部26に表示し、その後ルーチンR1は終了する。この場合、ステップS111において、例えば、確実に交換すべきSWB11をまず交換すべき旨の表示を行うこととしてもよい。
ステップS110において、監視信号に対する折返信号が受信されなかったと判定された場合には、ステップS112に進み、監視部21AがSBC13の一部に異常が発生しており、SWB11及びPPB15も正常であることが確認できないと判断し、その旨を表示部26に表示する。この場合、ステップS112において、例えば、確実に交換すべきSBC13をまず交換すべき旨の表示を行うこととしてもよい。ステップS112の後、ルーチンR1は終了する。
上述のように、本ルーチンR1では、SBC13が監視信号に対する返信を受信できなかった場合に、SBC13の接続において最も離れているスイッチSW1から順にスイッチを切り換えて、監視信号を再度送信し、その折返信号の受信の有無を判定することを繰り返すことで、健全なノード及び異常が確実に発生しているノードを判断する。
このように、上記ルーチンR1によれば、ブレードサーバ10等のシステムにおける直列ノード群において障害が発生した場合に、直列接続の一端に配されているノードによって、直列ノード群内の確実に交換すべきノードが特定される。これにより、最小限のノードの交換によって、ブレードサーバ10等のシステム内の障害を取り除くことが可能である。
なお、上記実施例において、図7に示すようにスイッチはSW1のみであってもよい。スイッチSW1のみの構成であっても、スイッチSW1が通過状態の際に監視信号に対する返信がSBC13によって受信できない場合、すなわち障害が発生している場合に、スイッチSW1を折返状態とした際の監視信号の受信の有無により、交換すべきノードを判定可能である。
この場合、例えば、スイッチSW1を折返状態として監視信号に対する折返信号が受信できれば、交換すべきノードはPPB15ということになる。また、スイッチSW1を折返状態としてもなお折返信号が受信できなければ、交換すべきノードはSBC13及びSWB11ということになる。
スイッチSW1のみの構成における監視ルーチンR2を図8に示す。図8に示すように、監視ルーチンR2は、監視ルーチンR1におけるステップS18乃至S112を行わず、ステップS16において、折返信号が受信されなかったと判定された場合には、ステップS113に進む。ステップS113において、SWB11またはSBC13のいずれかまたは両方に異常が発生していると判断され、その旨が表示される。
この際、SBC13が自システム内で自己の異常の有無を判定可能であるならば、自己に異常がある場合はSBC13が、自己に異常がない場合にはSWB11が最小限まず交換すべきノードとなることが判断可能である。
また、上記実施例において、SBC13に異常が発生していると判定された場合には、SBC13を再起動して、再度上記ルーチンを行うこととしてもよい。こうすることにより、SBC13において、再起動するのみで取り除くことが可能であり交換が不要な異常が発生した場合に、ノードの不要な交換を防止することが可能である。
また、上記実施例においては、SBC13が直列ノード群20の監視をすることとしたが、PPB15が直列ノード群20の監視をしてもよい。その場合、PPB15とSBC13との構成が入れ替わった構成とする。すなわち、PPB15が監視部21A及びスイッチ制御指令部21B、並びに第2のリンクL2に接続されておりかつスイッチSW1及びSW2に切換信号を送信してこれらを制御するスイッチ制御部25を有し、SBC13が監視信号送受信部33Aを有していることとしてもよい。
また、SBC13及びPPB15の両方が直列ノード群20の監視をしてもよい。その場合、PPB15がSBC13と同様の構成を有することにしてもよい。すなわち、SBC13及びPPB15の両方が監視手段21A及びスイッチ制御指令部21B、並びに第2のリンクL2に接続されておりかつスイッチSW1及びSW2に切換信号を送信してこれらを制御するスイッチ制御部21Bを有していることとしてもよい。
以下に、本発明の実施例2である直列ノード群90について、図9を参照して説明する。直列ノード群90は、図9に示すように、3以上のn個のノードが第1のリンクL1によって直列に接続されており、上記したスイッチSW1及びSW2と同様のn−1個のスイッチの各々がリンクL1上の各ノード間に配されている。
一端のノードND(1)は上記実施例1のSBC13と同様の構成を有しており、他端のノードND(n)は上記実施例のPPB15と同様の構成を有している。ノードND(2)は、実施例1のSWB11と同様の構成を有しているように図示しているが、直列ノード群90において、前後のノードを接続可能なノードであれば任意のノードとすることが可能である。
実施例1の直列ノード群20と同様に、ノードND(1)のスイッチ制御部25は、スイッチSW(1)乃至SW(n−1)の各々と第2のリンクL2で接続されている。
また、実施例1の直列ノード群20と同様に、スイッチSW(1)乃至SW(n−1)の各々は、スイッチ制御指令部21Bからの指令によりスイッチ制御部25から送信される切換信号によって、通過状態と折返状態との間で切り換え可能とする。実施例2の直列ノード群90においても、実施例1の直列ノード群20と同様に障害監視を行うことが可能である。
すなわち、監視信号に対する他端のノードND(n)の返信信号が受信できなかった場合に、当該一端のノードND(1)の接続において最も離れたスイッチSW(n−1)から順にスイッチを通過状態から折返状態に切り換えて監視信号を再度送信することを繰り返すことで、健全なノード及び異常が確実に発生しているノードを特定することが可能である。
n個のノードを含む直列ノード群90において、一端のノードND(1)を監視ノードとし、リンクL1においてND(1)に最も近いノードからND(2)、ND(3)・・・ND(n)とし、リンクL1においてND(1)に最も近いスイッチからSW(1)、SW(2)・・・SW(n−1)とした際に、ND(1)で実行される障害監視ルーチンR3を図10に示す。
まず、ステップS31において、ND(1)の監視部21AがND(n)の監視信号送受信部33Aに向けてパケット信号等の監視信号を送信し、ステップS32に進む。ステップS32において、監視部21Aによって監視信号に対する監視信号送受信部33Aからの返信が受信されたか否かが判定される。
ステップS32において、監視信号に対する返信が受信されたと判定された場合には、ステップS33に進み、監視部21Aは全ノードが正常であると判断し、その旨を表示部26に表示し、その後ルーチンR3は終了する。なお、ステップS33においては、異常が発生していないので、表示部26による表示を行わないこととしてもよい。
ステップS32において、監視信号に対する返信が受信されなかったと判定された場合には、ステップS34に進む。ステップS34において、スイッチ制御指令部21Bがスイッチ制御部25に指令し、スイッチ制御部25からスイッチSW(n−i)(iの初期値は1)に切換信号が送信される。スイッチSW(n−i)はスイッチ制御部25からの切換信号を受信すると、通過状態から折返状態に切り換わる。
ステップS34が終了すると、ステップS35に進み、監視部21AがND(n)の監視信号送受信部33Aに向けて監視信号を再度送信し、ステップS36に進む。ステップS36において、監視部21Aによって監視信号に対する折返信号が受信されたか否かが判定される。
ステップS36において、監視信号に対する折返信号が受信されたと判定された場合には、ステップS37に進み、情報処理部21がND(1)乃至ND(n−i)が正常である、すなわちND((n−i)+1)に異常が発生していると判断し、その旨を表示部26に表示し、その後ルーチンR3は終了する。ステップS37において、例えば、ND((n−i)+1)を交換すべき旨の表示を行うこととしてもよい。
ステップS36において、監視信号に対する折返信号が受信されなかったと判定された場合には、ステップS38に進む。ステップS38において、i=n−1か否か、すなわちND(1)に最も近いスイッチSW(1)が折返状態に切り換えられているか否かを判定する。
i=n−1では無い場合、すなわちND(1)に最も近いスイッチSW(1)が折返状態に切り換えられていない場合、ステップS39に進み、ステップS39においてiをインクリメントする。ステップS39が終了すると、ステップS34が再度実行される。すなわち、前回のステップS34で切り換えられたスイッチよりも1つND(1)に近いスイッチを切り換える。
i=n−1である場合、すなわちND(1)に最も近いスイッチSW1が既に折返状態に切り換えられている場合、ND(1)の一部に異常が発生していると判断し、その旨を表示部26に表示しその後ルーチンは終了する。
このように、上記実施例によれば、直列に接続された3以上のノードを含む直列ノード群90において障害が発生した場合に、一端に配されているノードによって、直列ノード群90の中の確実に交換すべきノードが特定される。それにより、まずそのノードを交換することで、最小限のノードの交換によって、直列ノード群内の障害を取り除くことが可能である。
なお、上記実施例においては、スイッチSWが各ノードの外に配されている様に示されているが、スイッチSWは各ノード内に配されていてもよい。
上述した実施例における種々の構成、ルーチン等は、例示に過ぎず、用途等に応じて、適宜変更可能である。
10 ブレードサーバ
20、90 直列ノード群
21 情報処理部
21A 監視部
21B スイッチ制御指令部
23 通信インタフェース部
25 スイッチ制御部
27 情報処理部
29 第1の通信インタフェース
31 第2の通信インタフェース
33 情報処理部
33A 監視信号送受信部
35 通信インタフェース
L1 第1のリンク
L2 第2のリンク
SW スイッチ

Claims (9)

  1. 第1のノード、第2のノード及び第3のノードを含む障害監視システムであって、
    前記第1、第2及び第3のノードは第1のリンクによってこの順に直列に接続され、
    前記第1のリンクは前記第2のノードと前記第3のノードとの間に第1のスイッチ手段を有し、
    前記第1のノードは、
    前記第1のリンクを介して前記第3のノードに向けて監視信号を送信する監視部と、
    前記第1のスイッチ手段と第2のリンクで接続されており前記第1のスイッチ手段に切換信号を送信するスイッチ制御部と、を有し、
    前記第3のノードは、前記監視信号を受信すると、前記第1のノードに向けて返信信号を送信する返信信号送信部を有し、
    前記スイッチ制御部は、前記切替信号を前記第1のスイッチ手段に送信することにより、前記第1のスイッチ手段の状態を、前記第1のリンクを介して送信される前記監視信号を通過させる通過状態、または折り返す折返状態との間で切り換え、
    前記監視部は、前記返信信号、または折り返される前記監視信号の受信の有無に基づいて前記第1乃至第3の各ノードが正常であるか否かを判定することを特徴とする障害監視システム。
  2. 前記スイッチ制御部は、前記監視部が前記監視信号を前記第3のノードに向けて送信した後に前記監視信号に対する返信信号を受信しない場合に、前記第1のスイッチ手段を前記折返状態に切り換え、
    前記監視部は、前記スイッチ制御部による前記第1のスイッチ手段の前記折返状態への切換の後に前記監視信号を前記第3のノードに向けて再度送信することを特徴とする請求項1に記載の障害監視システム。
  3. 前記第1のリンクは、前記第1のノードと前記第2のノードとの間に前記第2のリンクで接続される第2のスイッチ手段を有し、
    前記スイッチ制御部は、前記切換信号を当該第2のスイッチ手段に送信することにより、当該第2のスイッチ手段の状態を、前記第1のリンクを介して送信される前記監視信号を通過させる通過状態、または折り返す折返状態との間で切り換え、
    前記監視部は、前記返信信号、または折り返される監視信号の受信の有無に基づいて前記第1乃至第3のノードが正常であるか否かを判定することを特徴とする請求項2に記載の障害監視システム。
  4. 前記スイッチ制御部は、前記監視部が前記監視信号を前記第3のノードに向けて再度送信した後に、前記監視信号に対する折返信号を受信しない場合に、前記第2のスイッチ手段を前記折返状態に切り換え、
    前記監視部は、前記スイッチ制御部による前記第2のスイッチの前記折返状態への切換の後に、前記監視信号を前記第3のノードに向けて再々度送信することを特徴とする請求項3に記載の障害監視システム。
  5. 第1のノード、第2のノード及び第3のノードを含み、前記第1、第2及び第3のノードは第1のリンクによってこの順に直列に接続され、
    前記第1のリンクは前記第2のノードと前記第3のノードとの間に第1のスイッチ手段を有し、
    前記第1のノードは前記第1のスイッチ手段と第2のリンクで接続され、切換信号を前記第1のスイッチ手段に送信することにより、前記第1のスイッチ手段の状態を、前記第1のリンクを介して送信される信号を通過させる通過状態、または信号を折り返す折返状態との間で切り換える障害監視システムにおける障害監視方法であって、
    前記第1のノードが前記第1のリンクを介して前記第3のノードに向けて監視信号を送信するステップと、
    前記第1のノードが前記監視信号に対する返信信号を受信したかを判定するステップと、
    前記第1のノードが前記監視信号に対する返信信号を受信しなかったと判定した場合に、
    前記第1のノードが前記第1のスイッチに切換信号を送信するステップと、
    前記切換信号の送信後に前記第1のノードが前記第3のノードに向けて再度前記監視信号を送信するステップと、
    前記第1のノードが前記監視信号に対する折返信号の受信の有無に基づいて前記第1乃至第3の各ノードが正常であるか否かを判定するステップと、
    を含むことを特徴とする障害監視方法。
  6. 第1のノード、第2のノード及び第3のノードを含み、前記第1、第2及び第3のノードは第1のリンクによってこの順に直列に接続され、
    前記第1のリンクは前記第2のノードと前記第3のノードとの間に第1のスイッチ手段を有し、
    前記第1のノードには前記第1のスイッチ手段と第2のリンクで接続され、切換信号を前記第1のスイッチ手段へ送信することにより、前記第1のスイッチ手段の状態を、前記第1のリンクを介して送信される信号を通過させる通過状態、または信号を折り返す折返状態との間で切り換える障害監視システムにおいて、コンピュータに障害監視処理を実行させる障害監視プログラムであって、
    前記第1のノードに前記第1のリンクを介して前記第3のノードに向けて監視信号を送信させる処理と、
    前記第1のノードに前記監視信号に対する返信信号を受信したかを判定させる処理と、
    前記第1のノードが前記監視信号に対する返信信号を受信しなかったと判定した場合に、
    前記第1のノードに前記第1のスイッチに切換信号を送信させる処理と、
    前記切換信号の送信後に前記第1のノードに前記第3のノードに向けて再度前記監視信号を送信させる処理と、
    前記第1のノードに前記監視信号に対する折返信号の受信の有無に基づいて前記第1乃至第3の各ノードが正常であるか否かを判定させる処理と、
    を実行させることを特徴とする障害監視プログラム。
  7. 第1のリンクによって直列に接続される3以上のn個のノードを有する直列ノード群を含む障害監視システムであって、
    前記第1のリンクは前記n個のノードの各々の間に1個ずつ配置されるn−1個のスイッチ手段を有し、
    前記直列ノード群の一端のノードは、
    前記第1のリンクを介して他端のノードに向けて監視信号を送信する監視部と、
    前記スイッチ手段の各々と第2のリンクで接続されており前記スイッチ手段の各々に切換信号を送信するスイッチ制御部と、を有し、
    前記直列ノード群の前記他端のノードは、前記監視信号を受信すると、前記一端のノードに向けて返信信号を送信する返信信号送信部を有し、
    前記スイッチ制御部は、前記切替信号を前記スイッチ手段の各々に送信することにより、前記スイッチ手段の各々の状態を、前記第1のリンクを介して送信される前記監視信号を通過させる通過状態、または折り返す折返状態との間で切り換え、
    前記監視部は、前記返信信号、または折り返される前記監視信号の受信の有無に基づいて前記直列ノード群内の各ノードが正常であるか否かを判定することを特徴とする障害監視システム。
  8. 第1のリンクによって直列に接続される3以上のn個のノードを有する直列ノード群を含み、前記第1のリンクは前記n個のノードの各々の間に1個ずつ配置され、かつ前記直列ノード群の一端のノードに第2のリンクで接続されるn−1個のスイッチ手段を有するシステムにおける障害監視方法であって、
    前記一端のノードが前記第1のリンクを介して前記直列ノード群の他端のノードに向けて監視信号を送信するステップと、
    前記一端のノードが前記監視信号に対する前記他端のノードからの返信信号を受信したかの判定を行うステップと、
    を含み、
    さらに、
    前記一端のノードが前記判定を行うステップにおいて、前記一端のノードが前記監視信号に対する前記返信信号を受信しなかったと判定した場合に、
    前記一端のノードが、前記一端のノードから前記第1のリンク上における(n−(前記判定をした回数))番目の前記スイッチ手段へ切替信号を送信し、前記スイッチ手段の状態を、前記第1のリンクを介して送信される前記監視信号を通過させる通過状態、または折り返す折返状態との間で切り換えるステップと、
    前記一端のノードが再度、前記監視信号を前記他端のノードに向けて送信するステップと、
    前記一端のノードが、折り返される前記監視信号の受信の有無に基づいて前記直列ノード群内の各ノードが正常であるか否かを判定するステップと、
    を繰り返し行うことを特徴とする障害監視方法。
  9. 第1のリンクによって直列に接続される3以上のn個のノードを有する直列ノード群を含み、前記第1のリンクは前記n個のノードの各々の間に1個ずつ配置され、かつ前記直列ノード群の一端のノードに第2のリンクで接続されるn−1個のスイッチ手段を有するシステムにおいて、コンピュータに障害監視処理を実行させる障害監視プログラムであって、
    前記一端のノードが前記第1のリンクを介して前記直列ノード群の他端のノードに向けて監視信号を送信する処理と、
    前記一端のノードが前記監視信号に対する前記他端のノードからの返信信号を受信したかの判定を行う処理と、
    を実行させ、
    さらに、
    前記一端のノードが前記判定を行う処理において、前記一端のノードが前記監視信号に対する前記返信信号を受信しなかったと判定した場合に、
    前記一端のノードが、前記一端のノードから前記第1のリンク上における(n−(前記判定をした回数))番目の前記スイッチ手段へ切替信号を送信し、前記スイッチ手段の状態を、前記第1のリンクを介して送信される前記監視信号を通過させる通過状態、または折り返す折返状態との間で切り換える処理と、
    前記一端のノードが再度、前記監視信号を前記他端のノードに向けて送信する処理と、
    前記一端のノードが、折り返される前記監視信号の受信の有無に基づいて前記直列ノード群内の各ノードが正常であるか否かを判定する処理と、
    を繰り返し実行させることを特徴とする障害監視プログラム。
JP2014197944A 2014-09-29 2014-09-29 障害監視システム、障害監視方法及び障害監視プログラム Pending JP2016071480A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014197944A JP2016071480A (ja) 2014-09-29 2014-09-29 障害監視システム、障害監視方法及び障害監視プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014197944A JP2016071480A (ja) 2014-09-29 2014-09-29 障害監視システム、障害監視方法及び障害監視プログラム

Publications (1)

Publication Number Publication Date
JP2016071480A true JP2016071480A (ja) 2016-05-09

Family

ID=55866885

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014197944A Pending JP2016071480A (ja) 2014-09-29 2014-09-29 障害監視システム、障害監視方法及び障害監視プログラム

Country Status (1)

Country Link
JP (1) JP2016071480A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110021917A (zh) * 2019-02-11 2019-07-16 广州京善电子有限公司 故障隔离定位***
US10782760B2 (en) 2017-05-31 2020-09-22 Canon Kabushiki Kaisha Electronic device and method of controlling the same

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10782760B2 (en) 2017-05-31 2020-09-22 Canon Kabushiki Kaisha Electronic device and method of controlling the same
CN110021917A (zh) * 2019-02-11 2019-07-16 广州京善电子有限公司 故障隔离定位***

Similar Documents

Publication Publication Date Title
US10567224B2 (en) Methods and apparatus for detecting and handling split brain issues in a link aggregation group
US8018844B2 (en) Reliable message transfer over an unreliable network
CN105991325B (zh) 处理至少一个分布式集群中的故障的方法、设备和***
US8270306B2 (en) Fault management apparatus and method for identifying cause of fault in communication network
US11146457B2 (en) Train network node and CANopen-based train network node monitoring method
CN104272654B (zh) 用于链路聚合中自适应快速启动的方法和装置
EP2922248A1 (en) Communication system, control device, method for controlling same, and program
EP3348044B1 (en) Backup communications scheme in computer networks
US20130007252A1 (en) Operations, administrations and management proxy and a method for handling operations, administrations and management messages
US11784911B2 (en) Methods and apparatus for controlling and making link bundle advertisements to support routing decisions
CN107566036B (zh) 自动检测通信中的错误并且自动确定该错误的源
JP2016071480A (ja) 障害監視システム、障害監視方法及び障害監視プログラム
CN106487696B (zh) 链路故障检测方法及装置
CN101635671A (zh) 加快组播收敛的方法、***和设备
US8614958B2 (en) Systems and methods of snooping connectivity fault messages to configure maintenance end point for alarm suppression messages
CN110224872B (zh) 一种通信方法、装置及存储介质
EP3544235B1 (en) A method, a network device, and a computer program product for resetting a packet processing component to an operational state
US11212204B2 (en) Method, device and system for monitoring node survival state
AU2012390581B2 (en) Method for running a computer network
US10122588B2 (en) Ring network uplink designation
KR101628089B1 (ko) 네트워크 기기 및 그것의 장애 복구 보장 방법
WO2022254714A1 (ja) 通信装置、通信方法およびプログラム
CN112564931B (zh) 一种故障处理方法、装置和存储介质
CN116055382A (zh) 一种组网的网络收敛方法、装置、设备及介质
JP2016127298A (ja) 通信装置