JP2009020545A - コンピュータの異常監視装置 - Google Patents

コンピュータの異常監視装置 Download PDF

Info

Publication number
JP2009020545A
JP2009020545A JP2007180414A JP2007180414A JP2009020545A JP 2009020545 A JP2009020545 A JP 2009020545A JP 2007180414 A JP2007180414 A JP 2007180414A JP 2007180414 A JP2007180414 A JP 2007180414A JP 2009020545 A JP2009020545 A JP 2009020545A
Authority
JP
Japan
Prior art keywords
application
monitoring
abnormality
information
operating system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007180414A
Other languages
English (en)
Inventor
Yasushi Yaginuma
康司 柳沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd filed Critical Meidensha Corp
Priority to JP2007180414A priority Critical patent/JP2009020545A/ja
Publication of JP2009020545A publication Critical patent/JP2009020545A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】OSやアプリケーションの異常動作を早期に検出でき、またシステムのCPU負担を下げながら、異常動作したアプリケーションを特定できる。
【解決手段】各アプリケーション1A〜1Cは、自アプリケーションを特定する情報と、アプリケーション別の監視タイムアウト時間を記載したアプリケーション情報を、ウオッチドッグ機能を有効にする要求として発行し、これをオペレーティングシステム2を通してFIFOメモリ4に順次記憶し、ローカルCPU5はアプリケーション情報を順次読み出し、アプリケーション別のタイムアウト時間についてウオッチドッグ監視を行う。
アプリケーション別の個々の動作確認により異常の有無を監視し、これら監視を監視エージェントとオペレーティングシステムを通したローカルCPUで行う。
【選択図】図1

Description

本発明は、複数のアプリケーションを搭載したコンピュータの異常監視装置に係り、特にアプリケーションやOSの異常動作を監視する装置に関する。
コンピュータの異常動作監視は、一般にはウオッチドッグ機能が使用される。このウオッチドッグ機能による監視方式を図3で説明する。コンピュータのアプリケーション1は、複数のものが搭載され、それらの機能は、オペレーティングシステム(OS)2を介して実行される。アプリケーション1を実行するコンピュータの監視機能として、ウオッチドッグ機能を一定周期で有効にする通知を発生し、この通知がデバイスドライバ2Aを通じてウオッチドッグ機能部3に通知される。ウオッチドッグ機能部3は、コンピュータシステムからの通知が一定時間内にないとき(タイムアウト)にコンピュータの異常動作として検出し、システムをリセットして再起動する。
このウオッチドッグ機能による監視方式は、システムの負荷増を防止するためには比較的長い時間(1秒から2秒程度)のタイマ時限に設定されるため、異常発生を迅速に検出できない。また、異常発生原因の特定まではできない。
異常発生を迅速に検出する監視方式として、コンピュータシステムのアドレスバス上のアドレスデータを直接に監視し、アドレスデータが割り当てられていないアドレス空間になるときに異常として検出し、CPUに割り込みをかけるものがある(例えば、特許文献1参照)。
特開平8−278902号公報
前記のように、ウオッチドッグ機能による監視方式は、異常発生を迅速に検出できない。また、ウオッチドッグ機能はタイムアウトとなった場合にCPUに割り込みをかけてシステムを再起動するが、単にアプリケーションからウオッチドッグ機能にタイマ更新の通知がないという場合しか異常検知できない。また、異常が発生したという情報も残すことが困難である。
この点、特許文献1の監視方式は、CPUの負荷増を招くことなく、異常発生を迅速に検出でき、また異常が発生したという情報も残すことができるが、アドレス空間の異常監視しかできない。このため、OSやアプリケーション自体の異常動作を監視できない場合があり、さらにいずれのアプリケーションが異常かの特定ができない。
本発明の目的は、OSやアプリケーションの異常動作を早期に検出でき、またシステムのCPU負担を下げながら、異常動作したアプリケーションを特定できるコンピュータの異常監視装置を提供することにある。
本発明は、前記の課題を解決するため、アプリケーション別に個々に定めた時間により異常の有無を監視し、またはアプリケーション別の個々の動作確認により異常の有無を監視し、これら監視をローカルCPUで行うようにしたもので、以下の構成を特徴とする。
(1)複数のアプリケーションを搭載したコンピュータシステムの異常動作を監視する異常監視装置であって、
各アプリケーションは、自アプリケーションを特定する情報と、アプリケーション別の監視タイムアウト時間を記載したアプリケーション情報を、ウオッチドッグ機能を有効にする要求として発行する手段を備え、
前記アプリケーション情報をオペレーティングシステムのデバイスドライバを通じて与えられ、これを順次記憶するFIFOメモリを備え、
前記FIFOメモリからアプリケーション情報を順次読み出し、アプリケーション別の前記時間についてウオッチドッグ監視を行い、この時間内に当該アプリケーションから次回の通知がないときに、当該アプリケーションの異常として検出するローカルCPUを備えたことを特徴とする。
(2)複数のアプリケーションを搭載したコンピュータシステムの異常動作を監視する異常監視装置であって、
各アプリケーションは、自アプリケーションを特定する情報を付した「監視機能を有効にする要求」を発行し、この後にアプリケーション別に定める一定周期で「動作中」通知を発行する手段を備え、
前記アプリケーションから発行された、「監視機能を有効にする要求」と「動作中」通知を受け、これら情報をオペレーティングシステム2を通してローカルCPUに通知する監視エージェントを備え、
前記ローカルCPUは、前記監視エージェントから「監視機能を有効にする要求」を受けたときに当該アプリケーションの異常監視に入り、前記「動作中」通知があるときにオペレーティングシステムおよび前記監視エージェントに「確認通知」を発行し、この「確認通知」に対して前記オペレーティングシステムおよび監視エージェントから「応答通知」が返されたときにオペレーティングシステムおよびアプリケーションおよび監視エージェントが正常に動作可能状態であると判断する手段を備えたことを特徴とする。
(3)前記ローカルCPUは、アプリケーションまたはオペレーティングシステムの異常を判断したときに、不揮発性メモリにその旨の情報を記憶しておく手段を備えたことを特徴とする。
以上のとおり、本発明によれば、アプリケーション別に個々に定めた時間により異常の有無を監視し、またはアプリケーション別の個々の動作確認により異常の有無を監視し、これら監視をローカルCPUで行うようにしたため、OSやアプリケーションの異常動作を早期に検出でき、またシステムのCPU負担を下げながら、異常動作したアプリケーションを特定できる。
(実施形態1)
図1は、本発明の実施形態を示す異常監視装置の要部構成図である。コンピュータシステムは複数のアプリケーション1A〜1Cと、オペレーティングシステム(OS)2によって構築されものとする。このコンピュータシステムの監視装置として、本実施形態では、FIFO(First in First out)メモリ4とローカルCPU5と不揮発性メモリ6により異常監視機能を実現する。
本実施形態による異常監視処理を以下に説明する。
(S1)アプリケーション1A〜1Cは、その実行時など適当な時点で、自アプリケーションを特定する情報(ここではIDとする)と、アプリケーション別に個々に定めた監視タイムアウト時間を記載したアプリケーション情報を付して、ウオッチドッグ機能を有効にする要求を発行する。
(S2)ウオッチドッグ機能を有効にする発行の通知(アプリケーション情報つき)は、オペレーティングシステム2がデバイスドライバ2Aを通じてFIFOメモリ4に書き込む。この通知は、アプリケーション1A〜1Cから要求が発行される度に、FIFOメモリ4に順次蓄積される。
(S3)ローカルCPU5は、FIFOメモリ4からアプリケーション情報を順次読み出し、ID別にアプリケーションに個々に定めた時間情報についてウオッチドッグ機能による監視を行う。この監視で、各IDについて個々に定めた時間内に当該アプリケーションから次回の通知がないときに、当該IDをもつアプリケーションの異常として検出し、不揮発性メモリ6にその旨の情報を書き込んで保存すると共に、オペレーティングシステム2へのNMI割り込みなどによって、システムの再起動などを要求する。
したがって、本実施形態によれば、ローカルCPU5は、アプリケーション別に定めた時間(ウオッチドッグタイマ)でかつアプリケーションを特定して個々に異常監視ができ、いずれのアプリケーションに異常発生したかを検出、記憶することができる。この詳細な異常状態の記憶により、異常状態の解析も可能となる。
また、頻繁に起動されるアプリケーションでは、それに定めるウオッチドッグタイマ時間を短くすることで、迅速な異常検出とシステム保護ができる。また、さらに、ローカルCPUによる異常監視により、オペレーティングシステム側のメインCPUの負担を軽減することができる。
また、各アプリケーションからの通知は、オペレーティングシステム2を通して与えられることから、オペレーティングシステム2の異常動作も含めた監視ができる。
(実施形態2)
図2は、本発明の実施形態を示す異常監視装置の構成図である。コンピュータシステムは複数のアプリケーション1A、1Bと、オペレーティングシステム(OS)2によって構築されるものとする。このコンピュータシステムの監視装置として、本実施形態では、監視エージェント(プログラム)7とローカルCPU8と不揮発性メモリ9により異常監視機能を実現する。
本実施形態による異常監視処理を以下に説明する。
(S11)アプリケーション1A,1Bは、その実行時など適当な時点で、自アプリケーションを特定する情報(ここではIDとする)と、監視機能を有効にする要求を監視エージェント7に発行する。
(S12)監視機能を有効にする要求(アプリケーションID情報つき)を通知された監視エージェント7は、オペレーティングシステム2とデバイスドライバ2Aを通じて、ローカルCPU8に通知する。
(S13)ローカルCPU8は、監視機能を有効にする要求の通知を、アプリケーションのIDで記憶しておく。
(S14)アプリケーションは、監視機能を有効にする要求を発行した後、一定周期(アプリケーション別に定めた時間)でID情報と共に監視エージェント7に動作中であることの「動作中」通知を発行する。
(S15)ローカルCPU8は、アプリケーションの「動作中」通知を監視エージェントからオペレーティングシステム2を介して受けたとき、一定周期でオペレーティングシステム2に「確認通知」を発行する。
(S16)オペレーティングシステム2は、直ちに「確認通知」の「受領通知」をローカルCPU8に通知する。この通知をもって、ローカルCPU8はオペレーティングシステム2が正常に稼動していると判断する。オペレーティングシステム2が稼動状態で無い場合、ローカルCPU8は不揮発性メモリ9にその旨の情報を書き込む。
(S17)ローカルCPU8からの「確認通知」は、オペレーティングシステム2から監視エージェント7に通知する。
(S18)監視エージェント7は、オペレーティングシステム2を介してローカルCPU8からの「確認通知」を受けたとき、アプリケーションID毎の稼動情報とともに「応答通知」をオペレーティングシステム2を通してローカルCPU8側に返す。
(S19)ローカルCPU8は、「応答通知」があることでオペレーティングシステム2およびアプリケーションおよび監視エージェント7が正常に動作可能状態であると判断する。
アプリケーションまたは監視エージェント7が正常な稼動状態で無い場合、ローカルCPU8は、不揮発性メモリ9にその旨の情報を記憶する。また、アプリケーション毎の稼動状態をチェックし、該当アプリケーションが稼動状態で無い場合は不揮発性メモリ9にその旨の情報を記憶する。
(S20)ローカルCPU8は、監視した状態、情報を何らかの通信経路で他のCPUへ通知する。
したがって、本実施形態によれば、アプリケーションとオペレーティングシステム2およびローカルCPUとの間で、「応答通知」と「確認通知」のやり取りにより異常監視を行うため、OSレベルの稼動状態の検出、記録、アプリケーションレベル(監視エージェント)の稼動状態の検出、記録、また、個々のアプリケーションプロゲラムの稼動状態の検出、記録をすることができる。また、詳細な情報が得られることにより異常状態の解析も可能となる。
また、実施形態1と同様に、頻繁に起動されるアプリケーションでは、それに定める一定周期の通知時間を短くすることで、迅速な異常検出とシステム保護ができる。また、さらに、ローカルCPUによる異常監視により、オペレーティングシステム側のメインCPUの負担を軽減することができる。
本発明の実施形態1を示す異常監視装置の要部構成図。 本発明の実施形態2を示す異常監視装置の要部構成図。 ウオッチドッグ機能による監視方式。
符号の説明
1A〜1C アプリケーション
2 オペレーティングシステム
2A デバイスドライバ
4 FIFOメモリ
5 ローカルCPU
6 不揮発性メモリ
7 監視エージェント
8 ローカルCPU

Claims (3)

  1. 複数のアプリケーションを搭載したコンピュータシステムの異常動作を監視する異常監視装置であって、
    各アプリケーションは、自アプリケーションを特定する情報と、アプリケーション別の監視タイムアウト時間を記載したアプリケーション情報を、ウオッチドッグ機能を有効にする要求として発行する手段を備え、
    前記アプリケーション情報をオペレーティングシステムのデバイスドライバを通じて与えられ、これを順次記憶するFIFOメモリを備え、
    前記FIFOメモリからアプリケーション情報を順次読み出し、アプリケーション別の前記時間についてウオッチドッグ監視を行い、この時間内に当該アプリケーションから次回の通知がないときに、当該アプリケーションの異常として検出するローカルCPUを備えたことを特徴とするコンピュータの異常監視装置。
  2. 複数のアプリケーションを搭載したコンピュータシステムの異常動作を監視する異常監視装置であって、
    各アプリケーションは、自アプリケーションを特定する情報を付した「監視機能を有効にする要求」を発行し、この後にアプリケーション別に定める一定周期で「動作中」通知を発行する手段を備え、
    前記アプリケーションから発行された、「監視機能を有効にする要求」と「動作中」通知を受け、これら情報をオペレーティングシステム2を通してローカルCPUに通知する監視エージェントを備え、
    前記ローカルCPUは、前記監視エージェントから「監視機能を有効にする要求」を受けたときに当該アプリケーションの異常監視に入り、前記「動作中」通知があるときにオペレーティングシステムおよび前記監視エージェントに「確認通知」を発行し、この「確認通知」に対して前記オペレーティングシステムおよび監視エージェントから「応答通知」が返されたときにオペレーティングシステムおよびアプリケーションおよび監視エージェントが正常に動作可能状態であると判断する手段を備えたことを特徴とするコンピュータの異常監視装置。
  3. 前記ローカルCPUは、アプリケーションまたはオペレーティングシステムの異常を判断したときに、不揮発性メモリにその旨の情報を記憶しておく手段を備えたことを特徴とする請求項1または2に記載のコンピュータの異常監視装置。
JP2007180414A 2007-07-10 2007-07-10 コンピュータの異常監視装置 Pending JP2009020545A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007180414A JP2009020545A (ja) 2007-07-10 2007-07-10 コンピュータの異常監視装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007180414A JP2009020545A (ja) 2007-07-10 2007-07-10 コンピュータの異常監視装置

Publications (1)

Publication Number Publication Date
JP2009020545A true JP2009020545A (ja) 2009-01-29

Family

ID=40360161

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007180414A Pending JP2009020545A (ja) 2007-07-10 2007-07-10 コンピュータの異常監視装置

Country Status (1)

Country Link
JP (1) JP2009020545A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11650823B2 (en) 2019-09-27 2023-05-16 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium storing information processing program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11650823B2 (en) 2019-09-27 2023-05-16 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium storing information processing program

Similar Documents

Publication Publication Date Title
TW476877B (en) Method for monitoring fault of operating system and application program
US7716520B2 (en) Multi-CPU computer and method of restarting system
JP2007109238A (ja) 回復可能なエラーのロギングのためのシステム及び方法
EP3025233B1 (en) Robust hardware/software error recovery system
US20170149925A1 (en) Processing cache data
JP5183542B2 (ja) 計算機システム及び設定管理方法
JP4462238B2 (ja) 携帯端末
US20170147422A1 (en) External software fault detection system for distributed multi-cpu architecture
JP6130520B2 (ja) 多重系システムおよび多重系システム管理方法
JP4886558B2 (ja) 情報処理装置
JP5141381B2 (ja) 情報処理装置、エラー通知プログラム、エラー通知方法
JP4836732B2 (ja) 情報処理装置
JP2006338445A (ja) 異常情報格納装置
US20050033952A1 (en) Dynamic scheduling of diagnostic tests to be performed during a system boot process
JP2008003945A (ja) 監視制御システムとそのコンピュータ管理方法およびプログラム
JP6504610B2 (ja) 処理装置、方法及びプログラム
JP2009020545A (ja) コンピュータの異常監視装置
WO2014112039A1 (ja) 情報処理装置、情報処理装置制御方法及び情報処理装置制御プログラム
JP2009151440A (ja) プログラムハング検出方法及びそれを適用したコンピュータ装置
JP2012108848A (ja) 動作ログ収集システム及びプログラム
JP6787658B2 (ja) 処理装置、交通信号装置及び情報表示装置
JP7001236B2 (ja) 情報処理装置、障害監視方法及び障害監視用コンピュータプログラム
JP4633553B2 (ja) デバッグシステム、デバッグ方法およびプログラム
WO2007077604A1 (ja) 情報処理装置及びハングアップ監視方法
CN108415788B (zh) 用于对无响应处理电路作出响应的数据处理设备和方法