JPH10269110A

JPH10269110A - 計算機システムのハングアップ回避方法並びにこの方法を用いた計算機システム。

Info

Publication number: JPH10269110A
Application number: JP9073484A
Authority: JP
Inventors: Katsumi Fukuwaki; 克己福脇
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-03-26
Filing date: 1997-03-26
Publication date: 1998-10-09

Abstract

(57)【要約】【課題】信頼性の高い計算機システムのハングアップ
回避方法を提供すること。【解決手段】ＣＰＵの動作情報を定期的に収集する仮
想デバイスドライバ３より情報を受け取って、暴走プロ
セス５の検出を行ない、暴走しているプロセスを検出し
た場合には、該プロセスに対してシグナルの送信を行な
って、動作を制御することを特徴としている【効果】本発明により計算機のハングアップ回避方法
の操作性を向上させることができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、計算機のプロセス
スケジューリングおよびその動作を監視し制御する計算
機システムのハングアップ回避方法並びにこの方法を用
いた計算機システムに関する。

【０００２】

【従来の技術】従来の計算機システムは、ウォッチドッ
グタイマ（プログラム停止監視時限装置）と称される機
能によって中央計算機（ＣＰＵ）の暴走を検出し、暴走
を検出した場合にはハードウェアリセット（機械的再起
動）を行って再起動する方式がとられる場合が多い。

【０００３】また、プロセスの動作を監視し制御を行お
うとした場合には、既存のオペレーティング・システム
（ＯＳ）処理に対して改造を加える必要が高く、ソース
コードを持たないと実現は不可能である。

【０００４】計算機が複数のＣＰＵを持つマルチプロセ
ッサ構成をとった場合、一つのＣＰＵ上でプロセスが暴
走した場合には、他のＣＰＵによってシステム全体の処
理が行われるようにしている。このため動作の継続性と
いう点では問題ないが、パフォーマンス（実行効率性）
という点では劣化を起こし、この状態を検出する方法が
なかった。

【０００５】

【発明が解決しようとする課題】従来の計算機システム
における非ＴＳＳポリシーのスケジューリング（時分割
利用をしない動作スケジュールの設定）では、一つのプ
ロセスが連続してＣＰＵを使用して動作する場合、より
高い優先度を持つプロセスが動作しようとするまで、低
い優先度をもつプロセスや計算機システムに同時に存在
するＴＳＳプロセスは動作できない。

【０００６】また、ＣＰＵを占有して動作しているプロ
セスが、プログラムのバグ等によつて、ＣＰＵを離さな
くなった揚合、ほとんどの場合は操作不能となって、シ
ステムを止めるほか手段がない。さらにシステムの停止
処理も、複数のＴＳＳプロセスが動作する必要もあり、
上記のような状況下においては、システムの停止すらお
ぼつかない。そして、このような状況はプログラマが未
熟な場合などによく発生する。

【０００７】従来より使われているウォッチドッグタイ
マによる監視は、ＣＰＵがハードウエア的に暴走した場
合をエラーとして検出するように実装されている場合が
多い。従ってたとえば、ＵＮＩＸ（Ｘ／ＯＰＥＮカンパ
ニー・リミテッドの登録商標）等の多重優先度スケジュ
ーリングを行うような計算機システムにおいては、高優
先度プロセスの暴走はＣＰＵのハードウエア暴走ではな
いために検出することはできない（ＣＰＵとしても、Ｏ
Ｓとしても異常ではない）という問題がある。

【０００８】またウォッチドッグ機能では、エラーと判
定した後にシステムのリセットを行うが、最近のＯＳの
ようにメモリ上にファイルキャッシュをおいてＩ／Ｏ
（入出力）を高速化する等といつた高度なファイル管理
を行っているシステムに対しては、強制的なリセットは
ファイルシステムの破壊を引き起こす可能性が高く、行
うべきではない。

【０００９】一方で、計算機システムがマルチプロセッ
サ構成の場合、各ＣＰＵ毎にプロセスの暴走を監視、検
出、排除することによって、一つのＣＰＵ上において暴
走が発生してハングアップ（停止）した場合でも、それ
を回避し、システムのパフオーマンス劣化を防止する必
要がある。

【００１０】本発明は次の項目を可能とする計算機シス
テムのハングアップ回避方法を提供することを目的とし
ている。

【００１１】（１）高優先度プロセスがＣＰＵを占有
して動作しているる状況を検出し、該当プロセスを強制
停止もしくは一時停止させることによって、システムの
健全な動作を得る。

【００１２】（２）計算機システムがマルチプロセッ
サ構成の場合にも、高優先度プロセスがＣＰＵを占有し
て動作している状況を検出できるようにする。

【００１３】（３）上記機構を、ＯＳを改変すること
なく実現できるようにする。

【００１４】

【課題を解決するための手段】請求項１に記載した計算
機システムのハングアップ回避方法は、非ＴＳＳスケジ
ューリングポリシーを持つ計算機システムにおいて、Ｃ
ＰＵの動作情報をもとに、一定時間以上連続して動作す
るプロセスを検出する機構を備え、計算機システムのハ
ングアップを回避することを特徴としている。

【００１５】請求項２に記載した計算機システムのハン
グアップ回避方法は、非ＴＳＳスケジューリングポリシ
ーを持つ計算機システムにおいて、マルチプロセッサ構
成をとる場合に、各プロセッサ毎に一定時間以上連続し
て動作するプロセスを検出する機構を備え、計算機シス
テムのハングアップを回避することを特徴としている。
請求項３に記載した計算機システムのハングアップ回
避方法は、非ＴＳＳスケジューリングポリシーを持つ計
算機システムにおいて、一定時間以上連続して動作する
プロセスを検出した場合に、プロセスを強制終了もしく
は一時停止することによって操作不能状態を回避して、
計算機システムのハングアップを回避することを特徴と
している。

【００１６】請求項４に記載した計算機システムのハン
グアップ回避方法は、非ＴＳＳスケジューリングポリシ
ーを持つ計算機システムにおいて、操作不能状態回避機
構をＯＳの改変によって行なうのではなく、外づけの機
構によって実現する構成として計算機システムのハング
アップを回避することを特徴としている。

【００１７】請求項５に記載した計算機システムのハン
グアップ回避方法は、非ＴＳＳスケジューリングポリシ
ーを持つ計算機システムにおいて、ＣＰＵの動作情報の
取得可否をもとに、ＯＳのサービスを利用せずにＣＰＵ
のオンライン／オフラインを検出できる検出して、計算
機システムのハングアップを回避することを特徴として
いる。

【００１８】請求項６に記載した計算機システムは非Ｔ
ＳＳスケジューリングポリシーを持つ計算機システムに
おいて、ＣＰＵの動作情報を定期的に収集する仮想ディ
バイスドライバと、このディバイスドライバからのＣＰ
Ｕ動作情報を受け取って暴走プロセスの検知を行なう暴
走プロセス検知手段と、この暴走プロセス検知手段から
の信号により暴走プロセスを強制終了または一時停止さ
せる監視手段とを備えたことを特徴としている。

【００１９】すなわち、ＯＳと同じ特権レベルで動作
し、ＯＳの管理するＣＰＵ動作情報を一定周期で参照し
て各ＣＰＵ上で動作しているプロセスに関する情報を保
持する仮想デバイスドライバと、アプリケーションと同
じ特権レベルにて、システムで一番高い優先度動作し、
仮想デバイスドライバから各ＣＰＵ毎の動作プロセスに
関する情報を受け取る監視プロセスとから構成する。

【００２０】そして、この監視プロセスは一定時間間隔
で動作する。すなわち、プロセス情報を受け取り、各Ｃ
ＰＵ毎にプロセスのスイッチング（切り替え）回数を前
回の動作時の状態と比較する。スイッチング回数が自分
にスイッチされた回数よりも２以上大きければ、自分の
他に２つのプロセスがディスパッチされたことになるの
で正常に動作していることになる。

【００２１】スイッチング回数が自分のみである場合に
も、他に動作しているプロセスがないことになり問題が
ない。自分の他に１つのプロセスがディスパッチされた
状態が、一つのプロセスが動作している状態である。こ
の状態が一定時間以上継続した場合、動作しているプロ
セスは暴走していると判定する。

【００２２】この判定結果によりＯＳは、暴走している
プロセスを検出した場合、暴走理由に応じて該当プロセ
スに対し適宜シグナルの送信を行い、送信するシグナル
の種類によって、該当プロセスを強制終了させたり、一
時停止させたりすることが可能である。

【００２３】上記手段によって、特定のプロセスによる
バグ等による意図しないＣＰＵ占有状態が防止でき、一
般のプロセスの動作が可能となる。また、上記構成はＯ
Ｓに何の改変を加えることなく実現できる。

【００２４】

【発明の実施の形態】次に本発明による計算機システム
のハングアップ回避方法の実施の形態を説明する。図１
において、ＣＰＵ動作情報２はＯＳが管理しているＣＰ
Ｕ動作情報であり、マルチプロセッサ構成の場合には各
ＣＰＵ毎に存在している。

【００２５】仮想デバイスドライバ３はＯＳと同じ特権
レベルで動作するデバイスドライバであり、計算機１に
あってＣＰＵ動作情報２を定期的に収集し、実際に制御
するハードウェアを持たないデバイスドライバである。

【００２６】監視プロセス４は仮想デバイスドライバ３
に接続され、仮想デバイスドライバ３より情報を受け取
り、アプリケーションプロセスと同じ特権レベルで動作
し、暴走プロセス５の検出を行ない、暴走しているプロ
セスを検出した場合には、該プロセスに対してシグナル
の送信を行ない、動作を制御するプロセスである。

【００２７】監視プロセス相当の処理をＯＳと同じ特権
レベルで実行すると、負荷が高くなってシステムのパフ
ォーマンスに影響するためアプリケーション動作空間で
動作させる。アプリケーション動作空間は、通常のＯＳ
であればＯＳの動作する空間とは特権レベルが異なるた
め、ＯＳが管理する情報を直接参照することはできな
い。このために仮想デバイスドライバ３を設ける。ま
た、動作情報を参照できる場合であっても、参照を行う
という動作によって、動作しているプロセスが自分自身
になってしまい、有用な情報を得ることができない。そ
のため、プロセスのコンテキストを持たないドライバで
情報を参照する必要がある。

【００２８】すなわち仮想デバイスドライバ３は、ＯＳ
の管理するＣＰＵ動作情報２を外部参照し、必要なデー
タを自分自身のローカル変数にコピーする。そして参照
の際には、参照途中の変数の変更が行われないように、
変数に対してロックをかけて排他処理を行う。

【００２９】なお、ＯＳの管理するＣＰＵ動作情報２に
は、プロセスのスイッチング回数、現在のＣＰＵ上での
動作プロセスなどの情報が含まれており、これらの情報
により、プロセスの暴走検出、動作プロセスの特定が可
能である。

【００３０】また、ＣＰＵ情報の参照により、ＣＰＵの
オンライン／オフライン状況を監視することができ、シ
ステムの予防保全の点からも有効である。

【００３１】以上のように本発明により、（１）高優
先度プロセスの予期せぬＣＰＵ占有を検出することがで
きる。

【００３２】（２）マルチプロセッサ構成であって
も、１つのプロセスの占有状況を検出することができ
る。

【００３３】（３）ＣＰＵ占有によるシステムのハン
グアップを検出した場合、該当プロセスを強制終了また
は一時停止等の方法によって状況を回復することができ
る。

【００３４】（４）ＣＰＵのオンライン／オフライン
状況を、アプリケーシヨンレベルでモニタリングするこ
とができる。

【００３５】

【発明の効果】本発明により、計算機システムのハング
アップ回避方法の信頼性を向上させることができる。

【図面の簡単な説明】

【図１】本発明の一実施例を示す計算機システムのハン
グアップ回避方法の説明図である。

【符号の説明】

１計算機２ＣＰＵ動作情報３仮想デバイスドライバ４監視プロセス５暴走プロセス

Claims

【特許請求の範囲】

【請求項１】非ＴＳＳスケジューリングポリシーを持
つ計算機システムにおいて、ＣＰＵの動作情報をもと
に、一定時間以上連続して動作するプロセスを検出する
機構を具備し、計算機システムのハングアップを回避す
る計算機システムのハングアップ回避方法。
【請求項２】非ＴＳＳスケジューリングポリシーを持
つ計算機システムにおいて、マルチプロセッサ構成をと
る場合に、各プロセッサ毎に一定時間以上連続して動作
するプロセスを検出する機構を具備し、計算機システム
のハングアップを回避する計算機システムのハングアッ
プ回避方法。
【請求項３】非ＴＳＳスケジューリングポリシーを持
つ計算機システムにおいて、一定時間以上連続して動作
するプロセスを検出した場合に、前記プロセスを強制終
了もしくは一時停止することによって操作不能状態を回
避して、計算機システムのハングアップを回避する計算
機システムのハングアップ回避方法。
【請求項４】非ＴＳＳスケジューリングポリシーを持
つ計算機システムにおいて、前記操作不能状態回避機構
をＯＳの改変によって行なうのではなく、外づけの機構
によって実現する構成としたことを特徴とする請求項３
に記載した計算機システムのハングアップ回避方法。
【請求項５】非ＴＳＳスケジューリングポリシーを持
つ計算機システムにおいて、ＣＰＵの動作情報の取得可
否をもとに、ＯＳのサービスを利用せずにＣＰＵのオン
ライン／オフラインを検出し、計算機システムのハング
アップを回避する計算機システムのハングアップ回避方
法。
【請求項６】非ＴＳＳスケジューリングポリシーを持
つ計算機システムにおいて、ＣＰＵの動作情報を定期的
に収集する仮想ディバイスドライバと、このディバイス
ドライバからの前記ＣＰＵ動作情報を受け取って暴走プ
ロセスの検知を行なう暴走プロセス検知手段と、この暴
走プロセス検知手段からの信号により前記暴走プロセス
を強制終了または一時停止させる監視手段とを備えたこ
とを特徴とする計算機システム。