JP2015106357A - サーバ監視方法およびサーバ監視システム - Google Patents

サーバ監視方法およびサーバ監視システム Download PDF

Info

Publication number
JP2015106357A
JP2015106357A JP2013249326A JP2013249326A JP2015106357A JP 2015106357 A JP2015106357 A JP 2015106357A JP 2013249326 A JP2013249326 A JP 2013249326A JP 2013249326 A JP2013249326 A JP 2013249326A JP 2015106357 A JP2015106357 A JP 2015106357A
Authority
JP
Japan
Prior art keywords
server
message
state
predetermined
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013249326A
Other languages
English (en)
Other versions
JP6073211B2 (ja
Inventor
裕介 桐栄
Yusuke Toei
裕介 桐栄
勲 大西
Isao Onishi
勲 大西
成剛 松崎
Naritake Matsuzaki
成剛 松崎
昌男 稗田
Masao Hieda
昌男 稗田
陽一郎 中川
Yoichiro Nakagawa
陽一郎 中川
正一 岡部
Shoichi Okabe
正一 岡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2013249326A priority Critical patent/JP6073211B2/ja
Publication of JP2015106357A publication Critical patent/JP2015106357A/ja
Application granted granted Critical
Publication of JP6073211B2 publication Critical patent/JP6073211B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】クラスタ構成のサーバシステムにおける無応答障害を的確に検知可能とする。
【解決手段】クラスタ構成のサーバシステム20が含む第1のサーバ100において、当該第1のサーバ100がアクセする第2のサーバ200に対し、所定応答を要求する電文を送信し、この電文の送信時点からの経過時間を計測する処理と、電文の送信に応じて第2のサーバ200から所定応答を受信するまでの経過時間が、第1の基準時間を越えた第1事象を電文の送信毎に監視し、当該第1事象の連続発生回数が所定基準回数を超えた場合に、第2のサーバ200がスローダウン状態にある旨を所定端末400に通知する処理と、電文の送信時点から、第1の基準時間以上の第2の基準時間内に、第2のサーバ200から所定応答を受信出来なかった第2事象を電文の送信毎に監視し、当該第2事象の発生を検知した場合に、第2のサーバ200がハングアップ状態にある旨を所定端末400に通知する処理を実行する。
【選択図】図1

Description

本発明は、サーバ監視方法およびサーバ監視システムに関するものであり、具体的には、クラスタ構成のサーバシステムにおける無応答障害を的確に検知可能とする技術に関する。
金融機関等の運営するコンピュータシステムは、その重要性から見て、安易なシステムダウンが許容されないミッションクリティカルなシステムであることが多い。従って、そうしたコンピュータシステムにおいては、優れた耐障害性や迅速かつ的確な障害時対応が高いレベルで要求されることになる。そこで、障害発生を監視して、その後の対応を早急に行う為の各種技術が従来から提案されている。
このような技術としては、例えば以下のようなものが提案されている。すなわち、ステータスデータベースと、被監視デバイスと第1の接続を確立し、前記被監視デバイスからステータス項目を受信し、前記ステータス項目を前記ステータスデータベースに保存するステータスコレクタと、リモートデバイスとの間のインタフェースと、前記被監視デバイスと第3の接続を確立し、コマンドを前記被監視デバイスに送信するコマンドディスパッチャとを含むシステム(特許文献1参照)などである。
特表2010−537563号公報
一方、上述のようなコンピュータシステムにおいて、HA(High Availability)クラスタ等により各種サーバ類の現用・待機構成を組むことで、無応答障害(ハングやスローダウン)を検知することができないケースが多く生じる。こうした状況下では、障害発生検知に伴う待機ノードへの切替え動作は実行されず、そのままサービス停止につながる場合が多い。ミッションクリティカルなコンピュータシステムにおける、少なくないサービス停止の懸念は大きな問題であり、システムでの無応答障害を的確に検知し、障害発生以降の復旧作業を迅速に実施出来る環境を整えておく必要がある。
そこで本発明の目的は、クラスタ構成のサーバシステムにおける無応答障害を的確に検知可能とする技術を提供することにある。
上記課題を解決する本発明のサーバ監視方法は、クラスタ構成のサーバシステムが含む第1のサーバにおいて、当該第1のサーバがアクセする第2のサーバに対し、所定応答を要求する電文を送信し、前記電文の送信時点からの経過時間を計測する処理と、前記電文の送信に応じて前記第2のサーバから所定応答を受信するまでの経過時間が、第1の基準時間を越えた第1事象を、前記電文の送信毎に監視し、当該第1事象の連続発生回数が所定基準回数を超えた場合に、前記第2のサーバがスローダウン状態にある旨を所定端末に通知する処理と、前記電文の送信時点から、前記第1の基準時間以上の第2の基準時間内に、前記第2のサーバから所定応答を受信出来なかった第2事象を、前記電文の送信毎に監視し、当該第2事象の発生を検知した場合に、前記第2のサーバがハングアップ状態にある旨を所定端末に通知する処理と、を実行することを特徴とする。
また、本発明のサーバ監視システムは、クラスタ構成のサーバシステムが含む第1のサーバにおいて、当該第1のサーバがアクセする第2のサーバに対し、所定応答を要求する電文を送信し、前記電文の送信時点からの経過時間を計測する処理と、前記電文の送信に応じて前記第2のサーバから所定応答を受信するまでの経過時間が、第1の基準時間を越えた第1事象を、前記電文の送信毎に監視し、当該第1事象の連続発生回数が所定基準回数を超えた場合に、前記第2のサーバがスローダウン状態にある旨を所定端末に通知する処理と、前記電文の送信時点から、前記第1の基準時間以上の第2の基準時間内に、前記第2のサーバから所定応答を受信出来なかった第2事象を、前記電文の送信毎に監視し、当該第2事象の発生を検知した場合に、前記第2のサーバがハングアップ状態にある旨を所定端末に通知する処理を実行する演算装置を備える構成とする、ことを特徴とする。
本発明によれば、クラスタ構成のサーバシステムにおける無応答障害を的確に検知することが可能となる。
本実施形態のサーバ監視システムを含むネットワーク構成図である。 本実施形態におけるAPサーバのハードウェア構成例を示す図である。 本実施形態におけるDBサーバのハードウェア構成例を示す図である。 本実施形態における監視コンソールのハードウェア構成例を示す図である。 本実施形態のヘルスチェック用テーブルの構成例を示す図である。 本実施形態におけるサーバ監視方法の処理手順例を示すフロー図である。 本実施形態における監視概念例を示す説明図である。
−−−システム構成−−−
以下に本発明の実施形態について図面を用いて詳細に説明する。図1は、本実施形態のサーバ監視システム10を含むネットワーク構成図である。図1に示すサーバ監視システム10は、クラスタ構成のサーバシステム20における無応答障害を的確に検知可能とするコンピュータシステムである。本実施形態において想定するクラスタ構成のサーバシステム20としては、一例として金融機関で運用されている基幹システムを想定する。従って、本実施形態のサーバ監視システム10は、金融機関における基幹システムにおける無応答障害の監視を行うシステムとなる。勿論、サーバ監視システム10における無応答障害の監視対象は金融機関におけるシステムに限定されず、他業界における各種のサーバシステム(クラスタ構成)に適用可能である。
図1に例示するサーバシステム20は、金融機関の顧客端末等と接続された外部ネットワーク120に、ファイヤウォール21を介して接続されている。また、サーバシステム20は、上述のファイヤウォール21を経て顧客端末から受けた処理要求を、負荷分散装置300にてAPサーバ100に向けて振り分け処理する。当該サーバシステム20におけるサーバ装置のクラスタ構成は、上述の負荷分散装置300による処理要求振り分け先となる2台のAPサーバ100A、100Bと、これらAPサーバ100A、100Bと対応付けされ、APサーバ100A、100Bらによるデータの取得や書込の対象となる1台のDBサーバ200とが、現用系と待機系の2系統備わっている構成となる。待機系のAPサーバ100として、参考のためにAPサーバ100C、100Dも図1にて示している。
なお、図1における2台のAPサーバ100A、100Bは本発明における第1のサーバに対応する。以降の説明において、これら2台のAPサーバ100A、100Bを区別せず、第1のサーバとして説明を行う場合にはAPサーバ100と示すものとする。また、DBサーバ200は本発明における第2のサーバに対応する。本実施形態では、1台のDBサーバ200に対し、2台のAPサーバ100A、100Bが対応付いた構成を例示したが、この構成に限定されず、1台のDBサーバ200に対し、3台以上のAPサーバ100A、100Bが対応付いた構成であっても、特段の変更無く本実施形態のサーバ監視方法を適用可能である。
また、各APサーバ100A、100Bには、金融機関のシステム担当者等が用いる監視コンソール400が接続され、本実施形態におけるサーバ監視方法の処理結果について、この監視コンソール400に出力されるものとする。
続いて、本実施形態のサーバ監視システム10を構成する各装置について、そのハードウェア構成の例について説明する。図2は本実施形態におけるAPサーバ100のハードウェア構成例を示す図である。上述したるAPサーバ100のハードウェア構成は以下の如くとなる。APサーバ100は、ハードディスクドライブなど適宜な不揮発性記憶装置で構成される記憶装置101、RAMなど揮発性記憶装置で構成されるメモリ103、記憶装置101に保持されるプログラム102をメモリ103に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUなどの演算装置104、内部ネットワーク130と接続し他装置(負荷分散装置300やDBサーバ200)との通信処理を担う通信装置105、を備える。
なお、記憶装置101内には、情報処理装置として当然備えるべきOS(図示せず。以下同様)の他、本実施形態のサーバ監視システム10におけるAPサーバ100として必要な機能を実装するプログラム102が少なくとも記憶されている。本実施形態においては、APサーバ100がこのプログラム102を実行することで、ヘルスチェックシェル110が実装される。ヘルスチェックシェル110は、各APサーバ100A、100Bに常駐し、本実施形態におけるサーバ監視システム10の主たる機能を実現するシェルである。このヘルスチェックシェル110は、常駐中のAPサーバ100に応じた単純な値のみ要求するごくシンプルなSQL文を発行し、それに応じてDBサーバ200から得た応答結果を、APサーバ100上の所定の監視アプリケーション150(SNMPによるネットワーク監視の情報を使ってアプリケーションやシステムの情報を総合的に収集する既存のもの)に提供し、この監視アプリケーション150を介して上述の監視コンソール400に、無応答障害に関する情報を提示させるものとなる。
次にDBサーバ200におけるハードウェア構成例について説明する。図3は本実施形態におけるDBサーバ200のハードウェア構成例を示す図である。DBサーバ200は、上述のAPサーバ100と同様に、一般的なサーバ装置としての構成を備えると共に、DBサーバ200間で共有のヘルスチェック用テーブル225を、その記憶装置201において保持している。このヘルスチェック用テーブル225は、APサーバ100について所定値を対応付けたテーブルとなる。ヘルスチェック用テーブル225の詳細については後述する。
次に、監視コンソール400のハードウェア構成例について説明する。図4は本実施形態における監視コンソール400のハードウェア構成例を示す図である。監視コンソール400は、上述のAPサーバ100やDBサーバ200等における一般的な情報処理装置としてのハードウェア構成の他に、金融機関におけるシステム担当者等、所定ユーザからのキー入力や音声入力を受け付ける入力装置405、APサーバ100のヘルスチェックシェル110からの通知を表示するディスプレイ等の出力装置406を備えている。
続いて、本実施形態のサーバ監視システム10が備える機能について説明する。上述したように、以下に説明する機能は、例えばサーバ監視システム10を成す適宜な情報処理装置が備えるプログラムを実行することで実装される機能と言える。本実施形態の場合、例えばAPサーバ100におけるヘルスチェックシェル110が主導し、DBサーバ200や監視コンソール400が協働する機能となる。サーバ監視システム10として、APサーバ100のみを想定する場合、ヘルスチェックシェル110での機能がサーバ監視システム10の機能となり、サーバ監視システム10として、APサーバ100に加えて、DBサーバ200や監視コンソール400も含めた構成を想定する場合、ヘルスチェックシェル110とDBサーバ200および監視コンソール400での機能がサーバ監視システム10の機能となる。
ここで、各APサーバ100に常駐しているヘルスチェックシェル110は、常駐先のAPサーバ100がアクセスするDBサーバ200(単に常駐先のAPサーバ100が通信できるDBサーバ200である)に対し、所定応答を要求する電文を例えば60秒間隔で送信し、各電文の送信時点からの経過時間を計測する機能を備えている。
また、上述の各ヘルスチェックシェル110は、上述の電文の送信に応じてDBサーバ200から所定応答を受信するまでの経過時間が、例えば2秒(第1の基準時間)を越えた第1事象を、上述の電文の送信毎に監視し、当該第1事象の連続発生回数が例えば2回(所定基準回数)を超えた場合に、該当DBサーバ200がスローダウン状態にある旨を、監視コンソール400に通知する機能を備えている。
また、各ヘルスチェックシェル110は、上述の電文の送信時点から、例えば35秒(第2の基準時間)以内に、DBサーバ200から所定応答を受信出来なかった第2事象を、上述の電文の送信毎に監視し、当該第2事象の発生を検知した場合に、該当DBサーバ200がハングアップ状態にある旨を監視コンソール400に通知する機能を備えている。
また、各ヘルスチェックシェル110は、上述のDBサーバ200に対して例えば60秒間隔で送信する電文として、当該ヘルスチェックシェル110が常駐するAPサーバ100に対応した所定値を応答すべく要求する電文を送信する機能を備えている。この電文は、サーバ間の通信プロトコルに応じたフォーマットにおいて、好適には該当APサーバ100のID(識別情報)のみ含んでいる。ここで応答を要求する所定値は、各APサーバ100A、100Bごとに予め決められている1桁の数値である。
この場合のDBサーバ200は、記憶装置201におけるヘルスチェック用テーブル225において、各APサーバ100A、100BのIDと、該当APサーバ100A、100Bを示す1桁の数値との対応関係を規定している(図5参照)。そのため、DBサーバ200は、ヘルスチェックシェル110から送信されてきた上述の電文を受信した場合、該当電文が示す該当APサーバ100A、100B(ヘルスチェックシェル110の常駐先)の識別情報を、ヘルスチェック用テーブル225に照合し、ヘルスチェックシェル110の常駐先であるAPサーバ100に対応した1桁の数値を特定して、これを応答として該当APサーバ100のヘルスチェックシェル110に返信する機能を備えている。
一方、APサーバ100のヘルスチェックシェル110から、上述のスローダウン状態やハングアップ状態に関する通知を受信する監視コンソール400は、各ヘルスチェックシェル110、すなわち各APサーバ100A、100Bからこうしたスローダウン状態ないしハングアップ状態に関する通知を受信した際、1台のDBサーバ200に関して該当DBサーバ200に対応付けされた全てのAPサーバ100A、100Bのヘルスチェックシェル110から、スローダウン状態にある旨ないしハングアップ状態にある旨の通知を受けた場合、該当DBサーバ200にスローダウン状態ないしハングアップ状態が生じている旨を出力装置406に表示する機能を備えている。
また、監視コンソール400は、1台のDBサーバ200に関して該当DBサーバ200に対応付けされた一部のAPサーバ100AまたはAPサーバ100Bからのみ、スローダウン状態にある旨ないしハングアップ状態にある旨の通知を受けた場合、この通知を送信してこなかったAPサーバ100にスローダウン状態ないしハングアップ状態が生じている旨を出力装置406に表示する機能を備えている。
また、監視コンソール400は、1台のDBサーバ200に関して該当DBサーバ200に対応付けされた全てのAPサーバ100から、スローダウン状態にある旨ないしハングアップ状態にある旨の通知を受けた場合、DBサーバ200にスローダウン状態ないしハングアップ状態が生じている旨と、DBサーバ200へのログイン処理を実行して状態確認を行うべく促すメッセージを出力装置406に表示する機能を備えている。
−−−処理手順例−−−
以下、本実施形態におけるサーバ監視方法の実際手順について図に基づき説明する。以下で説明するサーバ監視方法に対応する各種動作は、サーバ監視システム10が含む各APサーバ100A、100Bにおける各ヘルスチェックシェル110によって実現される。そして、このヘルスチェックシェル110は、以下に説明される各種の動作を行うためのコードから構成されている。
図6は、本実施形態におけるサーバ監視方法の処理手順例を示すフロー図であり、図7は本実施形態における監視概念例を示す説明図である。ここではまず、各APサーバ100に常駐しているヘルスチェックシェル110が、常駐先のAPサーバ100がアクセするDBサーバ200(単に常駐先のAPサーバ100が通信できるDBサーバ200である)に対し、所定応答を要求する電文を例えば60秒間隔で送信し、各電文の送信時点からの経過時間を計測する(s100)。上述の電文は、サーバ間の通信プロトコルに応じたフォーマットにおいて、該当ヘルスチェックシェル110の常駐先であるAPサーバ100のID(識別情報)のみ含んでおり、該当ヘルスチェックシェル110が常駐するAPサーバ100に対応した1桁の数値のみを応答すべく要求する電文である。
次に上述の各ヘルスチェックシェル110は、上述の電文の送信に応じてDBサーバ200から、常駐先のAPサーバ100に対応した1桁の数値(所定応答)を受信するまでの経過時間が、例えば2秒を越えた第1事象を、上述の電文の送信毎に監視し、その発生回数をカウントする(s101)。このカウントの結果、上述の第1事象の連続発生回数が、例えば2回を超えて3回に達した場合(s102:Y)、該当ヘルスチェックシェル110は、該当DBサーバ200がスローダウン状態にある旨を、監視コンソール400に通知する(s103)。なお、上述のカウントにより、第1事象を例えば連続2回までカウントしたが、次の電文送信では例えば2秒以内の応答がDBサーバ200からあった場合、ヘルスチェックシェル110は、それまでカウントしていた「2回」のカウント値(APサーバ100のメモリ103等で保持)をクリアし、再び連続回数が「0回」である時点から第1事象の連続発生回数をカウントし始める。
また、ヘルスチェックシェル110は、上述の電文の送信時点から、例えば35秒以内に、該当DBサーバ200から、上述した1桁の数値を受信出来なかった第2事象を、上述の電文の送信毎に監視し、当該第2事象の発生を検知した場合(s104:Y)、該当DBサーバ200がハングアップ状態にある旨を監視コンソール400に通知する(s105)。こうした本実施形態における監視概念は図7にて示す通りである。
一方、監視コンソール400は、APサーバ100のヘルスチェックシェル110から、上述のスローダウン状態やハングアップ状態に関する通知を受信し(s106)、受信した通知がスローダウン状態とハングアップ状態のいずれであるか判定する(s107)。受信した通知がスローダウン状態に関するものであった場合(s107:スローダウン)、監視コンソール400は、更に、1台のDBサーバ200に関して該当DBサーバ200に対応付けされた全てのAPサーバ100すなわちAPサーバ100A及びAPサーバ100Bの各ヘルスチェックシェル110から、スローダウン状態にある旨の通知を受けたか判定する(s108)。
監視コンソール400は、1台のDBサーバ200に対応付けされた全てのAPサーバ100すなわちAPサーバ100A及びAPサーバ100Bの各ヘルスチェックシェル110から、スローダウン状態にある旨の通知を受けたと判定した場合(s108:全部)、該当DBサーバ200にスローダウン状態が生じている旨を、出力装置406に表示する(s109)。
他方、1台のDBサーバ200に対応付けされたAPサーバ100のうち一部のもののみ、例えばAPサーバ100Aのヘルスチェックシェル110のみから、スローダウン状態にある旨の通知を受けたと判定した場合(s108:一部)、該当APサーバ100Aにスローダウン状態が生じている旨を、出力装置406に表示する(s110)。
また、上述のステップs107において、受信した通知がハングアップ状態に関するものであった場合(s107:ハングアップ)、監視コンソール400は、更に、1台のDBサーバ200に関して該当DBサーバ200に対応付けされた全てのAPサーバ100すなわちAPサーバ100A及びAPサーバ100Bの各ヘルスチェックシェル110から、ハングアップ状態にある旨の通知を受けたか判定する(s111)。
監視コンソール400は、1台のDBサーバ200に対応付けされたAPサーバ100のうち一部のもののみ、例えばAPサーバ100Aのヘルスチェックシェル110のみから、ハングアップ状態にある旨の通知を受けたと判定した場合(s111:一部)、該当APサーバ100Aにハングアップ状態が生じている旨を、出力装置406に表示する(s112)。
他方、1台のDBサーバ200に関して該当DBサーバ200に対応付けされた全てのAPサーバ100すなわちAPサーバ100A及びAPサーバ100Bの各ヘルスチェックシェル110から、ハングアップ状態にある旨の通知を受けたと判定した場合(s111:全部)、監視コンソール400は、該当DBサーバ200へのログイン処理を実行して状態確認を行うべく促すメッセージを出力装置406に表示し(s113)、処理を終了する。
こうした処理を監視コンソール400にて行えば、クラスタ構成のサーバシステム20において、いずれのサーバにおいて無応答障害が生じているのか、障害発生元を切り分けて、ユーザに提示することができる。このユーザは障害発生元と障害内容を確実に認識出来るため、それに引き続き行うべき障害対応を精度良く迅速に実行しやすくなる。また、DBサーバ200でのハングアップに際しては、基本的にはログイン処理の可否を確かめることで、該当サーバにおけるどのDBコントローラで障害が疑われるか判断することになるが、こうした対応をユーザに対して促すことが出来る。そのためユーザは、行うべき障害対応を具体的に認識し、迅速に実行しやすくなる。
以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。
こうした本実施形態によれば、クラスタ構成のサーバシステムにおける無応答障害を的確に検知することが可能となる。
本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態のサーバ監視システムの前記第1のサーバにおいて、前記第2のサーバに対する前記電文として、当該第1のサーバに対応した所定値を応答すべく要求する電文を送信し、前記第2のサーバにおいて、前記第1のサーバについて所定値を対応付けたテーブルを記憶装置にて保持しており、前記電文を前記第1のサーバから受信した場合、該当電文が示す前記第1のサーバの識別情報を前記テーブルに照合し、前記第1のサーバに対応した所定値を特定して、当該所定値を応答として前記第1のサーバに返信する処理を実行する、としてもよい。
これによれば、スローダウンやハングアップといった無応答障害を監視するにあたり、しばしばそうした障害の原因となる処理データ量過大の事態に加担することなく、固定的で単純なデータ構造のテーブルから単に値を1つ得て返すのみといった極めて低負荷の処理で、迅速かつ的確なサーバ監視を行うことが出来る。
また、前記クラスタ構成のサーバシステムにおいて、前記第2のサーバ1台当たりに、複数台の前記第1のサーバが対応付けされた構成となっているとする。この場合のサーバ監視システムにおける前記第1のサーバ各々は、当該第1のサーバ自身に対応付けされた前記第2のサーバに対し、前記電文を送信し、前記第2のサーバにおいて、前記第1のサーバ各々から前記電文を受信し、該当電文が示す該当第1のサーバの識別情報を前記テーブルに照合し、該当第1のサーバに対応した所定値を特定して、当該所定値を応答として該当第1のサーバに返信し、前記1のサーバ各々は、前記第1事象の連続発生回数が所定基準回数を超えた場合に、当該第1のサーバ自身に対応付けされた前記第2のサーバがスローダウン状態にある旨を所定端末に通知し、前記電文の送信時点から、前記第1の基準時間以上の第2の基準時間内に、当該第1のサーバ自身に対応付けされた前記第2のサーバから所定応答を受信出来なかった第2事象を、前記電文の送信毎に監視し、当該第2事象の発生を検知した場合に、当該第1のサーバ自身に対応付けされた前記第2のサーバがハングアップ状態にある旨を所定端末に通知し、前記所定端末において、前記第2のサーバに関して、前記スローダウン状態にある旨ないし前記ハングアップ状態にある旨の通知を前記第1のサーバから受信し、1台の前記第2のサーバに関して該当第2のサーバに対応付けされた全ての前記第1のサーバから、前記スローダウン状態にある旨ないし前記ハングアップ状態にある旨の通知を受けた場合、前記第2のサーバにスローダウン状態ないし前記ハングアップ状態が生じている旨を出力装置に表示し、1台の前記第2のサーバに関して該当第2のサーバに対応付けされた一部の前記第1のサーバからのみ、前記スローダウン状態にある旨ないし前記ハングアップ状態にある旨の通知を受けた場合、前記通知を送信してこなかった前記第1のサーバにスローダウン状態ないし前記ハングアップ状態が生じている旨を出力装置に表示する、としてもよい。
これによれば、クラスタ構成のサーバシステムにおいて、いずれのサーバにおいて無応答障害が生じているのか、障害発生元を切り分けて、ユーザ側(所定端末)に提示することができる。ユーザは障害発生元と障害内容を確実に認識出来るため、それに引き続き行うべき障害対応を精度良く迅速に実行しやすくなる。
また、上述の場合の前記所定端末において、1台の前記第2のサーバに関して該当第2のサーバに対応付けされた全ての前記第1のサーバから、前記ハングアップ状態にある旨の通知を受けた場合、前記第2のサーバに前記ハングアップ状態が生じている旨と、前記第2のサーバへのログイン処理を実行して状態確認を行うべく促すメッセージを出力装置に表示する、としてもよい。
DBサーバ(第2のサーバ)でのハングアップに際しては、基本的にはログイン処理の可否を確かめることで、該当サーバにおけるどのDBコントローラで障害が疑われるか判断することになるが、こうした対応をユーザに対して促すことが出来る。そのためユーザは、行うべき障害対応を具体的に認識し、迅速に実行しやすくなる。
10 サーバ監視システム
20 クラスタ構成のサーバシステム
100 APサーバ(第1のサーバ)
101 記憶装置
102 プログラム
103 メモリ
104 演算装置
105 通信装置
110 ヘルスチェックシェル
120 ネットワーク
200 DBサーバ(第2のサーバ)
225 ヘルスチェック用テーブル(テーブル)
300 負荷分散装置
400 監視コンソール(所定端末)

Claims (5)

  1. クラスタ構成のサーバシステムが含む第1のサーバにおいて、
    当該第1のサーバがアクセする第2のサーバに対し、所定応答を要求する電文を送信し、前記電文の送信時点からの経過時間を計測する処理と、
    前記電文の送信に応じて前記第2のサーバから所定応答を受信するまでの経過時間が、第1の基準時間を越えた第1事象を、前記電文の送信毎に監視し、当該第1事象の連続発生回数が所定基準回数を超えた場合に、前記第2のサーバがスローダウン状態にある旨を所定端末に通知する処理と、
    前記電文の送信時点から、前記第1の基準時間以上の第2の基準時間内に、前記第2のサーバから所定応答を受信出来なかった第2事象を、前記電文の送信毎に監視し、当該第2事象の発生を検知した場合に、前記第2のサーバがハングアップ状態にある旨を所定端末に通知する処理と、
    を実行することを特徴とするサーバ監視方法。
  2. 前記第1のサーバにおいて、
    前記第2のサーバに対する前記電文として、当該第1のサーバに対応した所定値を応答すべく要求する電文を送信し、
    前記第2のサーバにおいて、
    前記第1のサーバについて所定値を対応付けたテーブルを記憶装置にて保持しており、
    前記電文を前記第1のサーバから受信した場合、該当電文が示す前記第1のサーバの識別情報を前記テーブルに照合し、前記第1のサーバに対応した所定値を特定して、当該所定値を応答として前記第1のサーバに返信する処理を実行する、
    ことを特徴とする請求項1に記載のサーバ監視方法。
  3. 前記クラスタ構成のサーバシステムにおいて、前記第2のサーバ1台当たりに、複数台の前記第1のサーバが対応付けされた構成となっており、
    前記第1のサーバ各々は、
    当該第1のサーバ自身に対応付けされた前記第2のサーバに対し、前記電文を送信し、
    前記第2のサーバにおいて、
    前記第1のサーバ各々から前記電文を受信し、該当電文が示す該当第1のサーバの識別情報を前記テーブルに照合し、該当第1のサーバに対応した所定値を特定して、当該所定値を応答として該当第1のサーバに返信し、
    前記1のサーバ各々は、
    前記第1事象の連続発生回数が所定基準回数を超えた場合に、当該第1のサーバ自身に対応付けされた前記第2のサーバがスローダウン状態にある旨を所定端末に通知し、
    前記電文の送信時点から、前記第1の基準時間以上の第2の基準時間内に、当該第1のサーバ自身に対応付けされた前記第2のサーバから所定応答を受信出来なかった第2事象を、前記電文の送信毎に監視し、当該第2事象の発生を検知した場合に、当該第1のサーバ自身に対応付けされた前記第2のサーバがハングアップ状態にある旨を所定端末に通知し、
    前記所定端末において、
    前記第2のサーバに関して、前記スローダウン状態にある旨ないし前記ハングアップ状態にある旨の通知を前記第1のサーバから受信し、
    1台の前記第2のサーバに関して該当第2のサーバに対応付けされた全ての前記第1のサーバから、前記スローダウン状態にある旨ないし前記ハングアップ状態にある旨の通知を受けた場合、前記第2のサーバにスローダウン状態ないし前記ハングアップ状態が生じている旨を出力装置に表示し、
    1台の前記第2のサーバに関して該当第2のサーバに対応付けされた一部の前記第1のサーバからのみ、前記スローダウン状態にある旨ないし前記ハングアップ状態にある旨の通知を受けた場合、前記通知を送信してこなかった前記第1のサーバにスローダウン状態ないし前記ハングアップ状態が生じている旨を出力装置に表示する、
    ことを特徴とする請求項2に記載のサーバ監視方法。
  4. 前記所定端末において、
    1台の前記第2のサーバに関して該当第2のサーバに対応付けされた全ての前記第1のサーバから、前記ハングアップ状態にある旨の通知を受けた場合、前記第2のサーバに前記ハングアップ状態が生じている旨と、前記第2のサーバへのログイン処理を実行して状態確認を行うべく促すメッセージを出力装置に表示する、
    ことを特徴とする請求項3に記載のサーバ監視方法。
  5. クラスタ構成のサーバシステムが含む第1のサーバにおいて、
    当該第1のサーバがアクセする第2のサーバに対し、所定応答を要求する電文を送信し、前記電文の送信時点からの経過時間を計測する処理と、
    前記電文の送信に応じて前記第2のサーバから所定応答を受信するまでの経過時間が、第1の基準時間を越えた第1事象を、前記電文の送信毎に監視し、当該第1事象の連続発生回数が所定基準回数を超えた場合に、前記第2のサーバがスローダウン状態にある旨を所定端末に通知する処理と、
    前記電文の送信時点から、前記第1の基準時間以上の第2の基準時間内に、前記第2のサーバから所定応答を受信出来なかった第2事象を、前記電文の送信毎に監視し、当該第2事象の発生を検知した場合に、前記第2のサーバがハングアップ状態にある旨を所定端末に通知する処理を実行する演算装置を備える構成とする、
    ことを特徴とするサーバ監視システム。
JP2013249326A 2013-12-02 2013-12-02 サーバ監視方法およびサーバ監視システム Active JP6073211B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013249326A JP6073211B2 (ja) 2013-12-02 2013-12-02 サーバ監視方法およびサーバ監視システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013249326A JP6073211B2 (ja) 2013-12-02 2013-12-02 サーバ監視方法およびサーバ監視システム

Publications (2)

Publication Number Publication Date
JP2015106357A true JP2015106357A (ja) 2015-06-08
JP6073211B2 JP6073211B2 (ja) 2017-02-01

Family

ID=53436397

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013249326A Active JP6073211B2 (ja) 2013-12-02 2013-12-02 サーバ監視方法およびサーバ監視システム

Country Status (1)

Country Link
JP (1) JP6073211B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220014538A (ko) * 2020-07-29 2022-02-07 네이버 주식회사 어플리케이션 오작동 감지를 위한 방법과 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040268176A1 (en) * 2003-06-20 2004-12-30 International Business Machines Corporation System and method for testing servers and taking remedial action
JP2006195709A (ja) * 2005-01-13 2006-07-27 Hitachi Ltd Webサービスシステム
JP2007221207A (ja) * 2006-02-14 2007-08-30 Hitachi Ltd 管理装置及び通信システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040268176A1 (en) * 2003-06-20 2004-12-30 International Business Machines Corporation System and method for testing servers and taking remedial action
JP2006195709A (ja) * 2005-01-13 2006-07-27 Hitachi Ltd Webサービスシステム
JP2007221207A (ja) * 2006-02-14 2007-08-30 Hitachi Ltd 管理装置及び通信システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6016040024; 池田 一幸 他: '「企業間ビジネスメディアサービス"TWX-21"の安定運用への取組み」' 日立評論 平成12年9月 増刊号 , 20000901, 19頁〜22頁, 日立評論社 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220014538A (ko) * 2020-07-29 2022-02-07 네이버 주식회사 어플리케이션 오작동 감지를 위한 방법과 시스템
KR102365423B1 (ko) 2020-07-29 2022-02-21 네이버 주식회사 어플리케이션 오작동 감지를 위한 방법과 시스템

Also Published As

Publication number Publication date
JP6073211B2 (ja) 2017-02-01

Similar Documents

Publication Publication Date Title
CN107547589B (zh) 一种数据采集处理方法以及装置
CN112231075B (zh) 一种基于云服务的服务器集群负载均衡控制方法及***
US9319284B2 (en) Operation delay monitoring method, operation management apparatus, and operation management program
CN102932210A (zh) 一种PaaS云平台的节点监控方法和***
CN109218141A (zh) 一种故障节点检测方法及相关装置
US9015731B2 (en) Event handling system and method
CN108282355B (zh) 云桌面***中设备巡检装置
CN108111499B (zh) 业务处理性能优化方法、装置、电子设备及存储介质
CN103259684A (zh) 互联网业务监控方法和***
WO2016197737A1 (zh) 自检处理方法、装置及***
CN114024834A (zh) 故障定位方法、装置、电子设备及可读存储介质
CN111526038B (zh) 业务请求分发方法、装置、计算机设备及可读存储介质
JP6073211B2 (ja) サーバ監視方法およびサーバ監視システム
US10445139B2 (en) Control system in which communication between devices is controlled based on execution condition being satisfied, gateway device used in the control system, and control method for the control system
JP2009151456A (ja) 監視システム、ネットワーク監視装置及びサービス実行環境監視方法
US9264338B1 (en) Detecting upset conditions in application instances
JP2012208736A (ja) フィルタリング装置、フィルタリング方法、フィルタリングプログラム
CN102567470A (zh) ***级性能数据的处理方法及设备
US11271839B2 (en) Dynamic asynchronous communication management
CN116260747A (zh) 终端测试设备的监测方法、装置及电子设备
CN112711517A (zh) 一种服务器性能监控方法、装置、存储介质及终端
JP6380774B1 (ja) コンピュータシステム、サーバ装置、プログラム及び障害検出方法
JP4909830B2 (ja) サーバアプリケーション監視システム及び監視方法
CN113409048B (zh) 区块链对接平台的监测方法、区块链对接平台和电子装置
JP2014178832A (ja) サービス提供システム、サーバ装置、クライアント端末、障害検知方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161018

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170104

R150 Certificate of patent or registration of utility model

Ref document number: 6073211

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150