JP5379719B2 - コンピュータ、コンピュータの障害検知方法、及びプログラム - Google Patents
コンピュータ、コンピュータの障害検知方法、及びプログラム Download PDFInfo
- Publication number
- JP5379719B2 JP5379719B2 JP2010040591A JP2010040591A JP5379719B2 JP 5379719 B2 JP5379719 B2 JP 5379719B2 JP 2010040591 A JP2010040591 A JP 2010040591A JP 2010040591 A JP2010040591 A JP 2010040591A JP 5379719 B2 JP5379719 B2 JP 5379719B2
- Authority
- JP
- Japan
- Prior art keywords
- processor
- time
- use time
- reference value
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Description
さらに、今日多数のソフトウェアを組み合わせて実現されるオープンシステムでは、多数の人員と組織が開発に携わっており、それらの間で設計の基準が異なることもあり、ソフトウェア設計上の統一性と設計レベルを均一に保つことが難しい場合もある。
一般的なソフトウェア(特にサービス提供プログラム)の動作は、当該ソフトウェアを構成する多数のプロセスが、それらのプロセスを処理するプロセッサにおいてそれぞれ一定の状態遷移を繰り返しながら実行されることにより、そのサービスを提供している。プロセスが一定期間(例えば1秒間)スリープした期間(プロセッサ不使用時間)を「状態」と定義し、その状態が変化する期間(プロセッサ使用時間)を「遷移」と定義する。つまり、あるプロセスがスリープしてから走行開始するまでの間の待機期間を「状態」といい、走行開始してから再度スリープするまでの期間を「遷移」と定義している。なお、「プロセス」の用語は、本明細書中で、UNIXOSが適用される場合に限らず、一般的にOSによって実行されるプログラムの実行単位を示すものとする。
次に、本実施形態の障害検知方法を適用したコンピュータ1について説明する。図5は、本発明の一実施形態に係るコンピュータ1のハードウェア構成の全体図を示している。
次に、以上説明したシステム構成に基づいて、コンピュータ1における障害検知部133が実行する障害検知処理について、処理フロー例を参照しつつ説明する。
まず、障害検知部133の状態遷移監視部1331によって実行される状態遷移監視処理について説明する。図12は、状態遷移監視処理の処理フローの一例を示している。この状態遷移監視処理では、主に、状態遷移監視部1331により、プロセス管理テーブル700において監視対象として格納されている各プロセスについて、障害検知処理に使用すべき統計情報を採取する処理を行うのか、すでに取得されている統計情報を使用して実際に障害検知処理を実行するのかを判断する処理が行われる。
次に、障害検知部133の統計情報採取処理部1332によって実行される統計情報採取処理(状態遷移監視処理(図12)におけるS1204)について説明する。図13に、本実施形態における統計情報採取処理の処理フローの一例を示している。統計情報採取処理では、主に、統計情報採取処理部1332により、統計情報記憶部1333に統計情報を採取して格納する処理が実行される。
次に、統計情報比較処理について説明する。図14A、図14Bに、本実施形態における統計情報比較処理の処理フローの一例を示している。この統計情報比較処理では、主に、障害検知部133の統計情報比較処理部1334により、状態遷移監視部1331から得た情報を統計情報記憶部1334に格納されている情報と比較して障害検知処理が実行される。監視対象プロセスの状態遷移に関する時間は、図13に例示した統計情報採取処理の場合と同様に、OS131のプロセススケジューラ1311の状態を監視することにより計測する。
130 主記憶装置 131 OS 1311 プロセススケジューラ
132 プログラム 132A、132B プロセス
133 障害検知部 1331 状態遷移監視部
1332 統計情報採取処理部 1333 統計情報記憶部
1334 統計情報比較処理部 1335 障害通知部
140 補助記憶装置 150 入力装置 160 出力装置
170 通信制御部 180 内部バス
700 プロセス管理テーブル 701 監視対象プロセス
702 統計情報採取完了フラグ 703 統計情報テーブル
800 統計情報管理テーブル 801 監視項目
802 遷移時間 803 状態待機時間 900 仮記憶テーブル
901 監視項目 902 遷移時間 903 状態待機時間
Claims (12)
- プロセッサとメモリとを備え、前記プロセッサによって、前記メモリに記憶されている少なくとも一のソフトウェアプログラムを構成している複数のプロセスを処理して前記ソフトウェアプログラムを実行するコンピュータであって、
各前記プロセスについて、当該プロセスが前記プロセッサによって処理開始されてから処理終了するまでにわたって、前記プロセッサが前記プロセスを処理している時間であるプロセッサ使用時間と、前記プロセッサが前記プロセスの処理を停止している時間であるプロセッサ不使用時間とを順次複数回計測して取得し、所定の統計処理に従って、各前記プロセッサ使用時間の統計的基準値であるプロセッサ使用時間基準値と、各前記プロセッサ不使用時間の統計的基準値であるプロセッサ不使用時間基準値とを、各前記プロセスについて算出して記憶するプロセッサ処理基準値取得部と、
前記プロセッサにより前記ソフトウェアプログラムを構成する前記複数のプロセスのいずれかが処理されているときに、当該プロセスについて、前記プロセッサ使用時間及び前記プロセッサ不使用時間を計測して、逐次当該プロセスについて記憶されている前記プロセッサ使用時間基準値及び前記プロセッサ不使用時間基準値と比較し、当該比較結果が所定の判定基準を満たしていないと判定した場合に、当該プロセス処理中に障害が発生したと判定する基準値比較処理部と、を備え、
前記基準値比較処理部は、計測した前記プロセッサ不使用時間が所定の第一のプロセッサ不使用時間閾値より長く、かつその時の前記プロセッサ使用時間が所定のプロセッサ使用時間閾値より短いと判定した場合、当該プロセスにおいて遷移時間が前記所定のプロセッサ使用時間閾値より短くなる障害が発生したと判定する、
ことを特徴とするコンピュータ。 - 請求項1に記載のコンピュータであって、各前記プロセスに当該プロセッサを割り当てる処理を行うプロセス割当て部をさらに有し、前記プロセッサ処理基準値取得部及び基準値比較処理部は、前記プロセス割当て部の動作を監視することにより、前記プロセッサ使用時間及び前記プロセッサ不使用時間を計測する、ことを特徴とするコンピュータ。
- 請求項1に記載のコンピュータであって、前記基準値比較処理部が、前記プロセッサによる前記複数のプロセスのいずれかの処理中に、前記プロセッサ使用時間計測値と、対応する前記プロセッサ使用時間基準値とを比較し、前記プロセッサ使用時間計測値と、対応する前記プロセッサ使用時間基準値との差が所定値を越えていると判定した場合、当該プロセス処理中に障害が発生したと判定する、ことを特徴とするコンピュータ。
- 請求項1に記載のコンピュータであって、前記基準値比較処理部が、前記プロセッサによる前記複数のプロセスのいずれかの処理中に、前記プロセッサ不使用時間計測値と所定の第二のプロセッサ不使用時間閾値とを比較し、前記プロセッサ不使用時間計測値が前記所定の第二のプロセッサ不使用時間閾値を越えていると判定した場合、当該プロセス処理中に障害が発生したと判定する、ことを特徴とするコンピュータ。
- プロセッサとメモリとを備え、前記プロセッサによって、前記メモリに記憶されている少なくとも一のソフトウェアプログラムを構成している複数のプロセスを処理して前記ソフトウェアプログラムを実行するコンピュータの障害検知方法であって、前記プロセッサが、
各前記プロセスについて、当該プロセスが前記プロセッサによって処理開始されてから処理終了するまでにわたって、前記プロセッサが前記プロセスを処理している時間であるプロセッサ使用時間と、前記プロセッサが前記プロセスの処理を停止している時間であるプロセッサ不使用時間とを順次複数回計測して取得し、所定の統計処理に従って、各前記プロセッサ使用時間の統計的基準値であるプロセッサ使用時間基準値と、各前記プロセッサ不使用時間の統計的基準値であるプロセッサ不使用時間基準値とを、各前記プロセスについて算出して記憶し、
前記プロセッサにより前記ソフトウェアプログラムを構成する前記複数のプロセスのいずれかが処理されているときに、当該プロセスについて、前記プロセッサ使用時間及び前記プロセッサ不使用時間を計測して、逐次当該プロセスについて記憶されている前記プロセッサ使用時間基準値及び前記プロセッサ使用時間基準値と比較し、当該比較結果が所定の判定基準を満たしていないと判定した場合に、当該プロセス処理中に障害が発生したと判定し、
計測した前記プロセッサ不使用時間が所定の第一のプロセッサ不使用時間閾値より長く、かつその時の前記プロセッサ使用時間が所定のプロセッサ使用時間閾値より短いと判定した場合、当該プロセスにおいて遷移時間が前記所定のプロセッサ使用時間閾値より短くなる障害が発生したと判定する、ことを特徴とするコンピュータの障害検知方法。 - 請求項5に記載のコンピュータの障害検知方法であって、前記プロセッサが、各前記プロセスへの当該プロセッサの割り当て状況を監視することにより、前記プロセッサ使用時間及び前記プロセッサ不使用時間を計測する、ことを特徴とするコンピュータの障害検知方法。
- 請求項5に記載のコンピュータの障害検知方法であって、前記プロセッサが、当該プロセッサによる前記複数のプロセスのいずれかの処理中に、前記プロセッサ使用時間計測値と、対応する前記プロセッサ使用時間基準値とを比較し、前記プロセッサ使用時間計測値と、対応する前記プロセッサ使用時間基準値との差が所定値を越えていると判定した場合、当該プロセス処理中に障害が発生したと判定する、ことを特徴とするコンピュータの障害検知方法。
- 請求項5に記載のコンピュータの障害検知方法であって、前記プロセッサが、当該プロセッサによる前記複数のプロセスのいずれかの処理中に、前記プロセッサ不使用時間計測値と所定の第二のプロセッサ不使用時間閾値とを比較し、前記プロセッサ不使用時間計測値が前記所定の第二のプロセッサ不使用時間閾値を越えていると判定した場合、当該プロセス処理中に障害が発生したと判定する、ことを特徴とするコンピュータの障害検知方法。
- プロセッサとメモリとを備え、前記プロセッサによって、前記メモリに記憶されている少なくとも一のソフトウェアプログラムを構成している複数のプロセスを処理して前記ソフトウェアプログラムを実行するコンピュータにおいて、前記プロセッサに、
各前記プロセスについて、当該プロセスが前記プロセッサによって処理開始されてから処理終了するまでにわたって、前記プロセッサが前記プロセスを処理している時間であるプロセッサ使用時間と、前記プロセッサが前記プロセスの処理を停止している時間であるプロセッサ不使用時間とを順次複数回計測して取得し、所定の統計処理に従って、各前記プロセッサ使用時間の統計的基準値であるプロセッサ使用時間基準値と、各前記プロセッサ不使用時間の統計的基準値であるプロセッサ不使用時間基準値とを、各前記プロセスについて算出して記憶するステップと、
前記プロセッサにより前記ソフトウェアプログラムを構成する前記複数のプロセスのいずれかが処理されているときに、当該プロセスについて、前記プロセッサ使用時間及び前記プロセッサ不使用時間を計測して、逐次当該プロセスについて記憶されている前記プロセッサ使用時間基準値及び前記プロセッサ使用時間基準値と比較し、当該比較結果が所定の判定基準を満たしていないと判定した場合に、当該プロセス処理中に障害が発生したと判定するステップと、
計測した前記プロセッサ不使用時間が所定の第一のプロセッサ不使用時間閾値より長く、かつその時の前記プロセッサ使用時間が所定のプロセッサ使用時間閾値より短いと判定した場合、当該プロセスにおいて遷移時間が前記所定のプロセッサ使用時間閾値より短くなる障害が発生したと判定するステップと、を実行させる、
ことを特徴とするプログラム。 - 請求項9に記載のプログラムであって、前記プロセッサに、各前記プロセスへの当該プロセッサの割り当て状況を監視することにより、前記プロセッサ使用時間及び前記プロセッサ不使用時間を計測するステップを実行させる、ことを特徴とするプログラム。
- 請求項9に記載のプログラムであって、前記プロセッサに、当該プロセッサによる前記複数のプロセスのいずれかの処理中に、前記プロセッサ使用時間計測値と、対応する前記プロセッサ使用時間基準値とを比較し、前記プロセッサ使用時間計測値と、対応する前記プロセッサ使用時間基準値との差が所定値を越えていると判定した場合、当該プロセス処理中に障害が発生したと判定するステップを実行させる、ことを特徴とするプログラム。
- 請求項9に記載のプログラムであって、前記プロセッサに、当該プロセッサによる前記複数のプロセスのいずれかの処理中に、前記プロセッサ不使用時間計測値と所定の第二のプロセッサ不使用時間閾値とを比較し、前記プロセッサ不使用時間計測値が前記所定の第二のプロセッサ不使用時間閾値を越えていると判定した場合、当該プロセス処理中に障害が発生したと判定するステップを実行させる、ことを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010040591A JP5379719B2 (ja) | 2010-02-25 | 2010-02-25 | コンピュータ、コンピュータの障害検知方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010040591A JP5379719B2 (ja) | 2010-02-25 | 2010-02-25 | コンピュータ、コンピュータの障害検知方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011175570A JP2011175570A (ja) | 2011-09-08 |
JP5379719B2 true JP5379719B2 (ja) | 2013-12-25 |
Family
ID=44688351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010040591A Expired - Fee Related JP5379719B2 (ja) | 2010-02-25 | 2010-02-25 | コンピュータ、コンピュータの障害検知方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5379719B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11693701B2 (en) | 2017-09-30 | 2023-07-04 | Huawei Technologies Co., Ltd. | System service timeout processing method, and apparatus |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2786985B2 (ja) * | 1993-06-10 | 1998-08-13 | 株式会社日立情報システムズ | 実行中プログラムの監視方式 |
JP2003256243A (ja) * | 2002-02-27 | 2003-09-10 | Nec System Technologies Ltd | プロセスストール監視方法及び監視システム |
JP4562568B2 (ja) * | 2005-03-28 | 2010-10-13 | 富士通テン株式会社 | 異常検出プログラムおよび異常検出方法 |
JP2008134705A (ja) * | 2006-11-27 | 2008-06-12 | Hitachi Ltd | データ処理方法及びデータ分析装置 |
JP4757237B2 (ja) * | 2007-06-22 | 2011-08-24 | 日本電信電話株式会社 | 時間監視装置、方法、およびプログラム |
-
2010
- 2010-02-25 JP JP2010040591A patent/JP5379719B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011175570A (ja) | 2011-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9841986B2 (en) | Policy based application monitoring in virtualized environment | |
US10095598B2 (en) | Transaction server performance monitoring using component performance data | |
US10291471B1 (en) | Methods and apparatus for remediation execution | |
JP6033985B2 (ja) | 性能評価方法及び情報処理装置 | |
US8601493B2 (en) | Application controlling apparatus and storage medium which stores software for the apparatus | |
US8046632B2 (en) | Backup management method based on mode of failure | |
JP5477602B2 (ja) | サーバの信頼性可視化方法、計算機システム及び管理サーバ | |
WO2016188100A1 (zh) | 信息***故障场景信息收集方法及*** | |
US11157373B2 (en) | Prioritized transfer of failure event log data | |
WO2019214010A1 (zh) | 一种监控设备故障的方法和装置 | |
US20140317286A1 (en) | Monitoring computer and method | |
JP2005031771A (ja) | ジョブスケジューリング管理方法及びシステム並びにプログラム | |
US9389942B2 (en) | Determine when an error log was created | |
JP2007323193A (ja) | 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム | |
US20150095488A1 (en) | System and method for acquiring log information of related nodes in a computer network | |
WO2011077533A1 (ja) | 性能データ収集方法、性能データ収集装置及び性能データ管理システム | |
CN109302445A (zh) | 主机节点状态确定方法、装置、主机节点及存储介质 | |
JP5740338B2 (ja) | 仮想環境運用支援システム | |
US11706086B1 (en) | Method and system for monitoring switch on basis of BMC, and device and medium | |
CN109586989A (zh) | 一种状态检查方法、装置及集群*** | |
JP5379719B2 (ja) | コンピュータ、コンピュータの障害検知方法、及びプログラム | |
JP6428005B2 (ja) | 情報処理装置,情報処理方法及び情報処理プログラム | |
CN116414661A (zh) | 分布式存储的固态硬盘处理方法和装置 | |
US20140165058A1 (en) | System resource management method for virtual system | |
JP5365273B2 (ja) | 情報処理システム、監視方法及び監視プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120307 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130625 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130626 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130809 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130903 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130927 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5379719 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |