JP3334174B2 - 障害処理検証装置 - Google Patents

障害処理検証装置

Info

Publication number
JP3334174B2
JP3334174B2 JP22766192A JP22766192A JP3334174B2 JP 3334174 B2 JP3334174 B2 JP 3334174B2 JP 22766192 A JP22766192 A JP 22766192A JP 22766192 A JP22766192 A JP 22766192A JP 3334174 B2 JP3334174 B2 JP 3334174B2
Authority
JP
Japan
Prior art keywords
fault
failure
processing
expected value
pseudo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP22766192A
Other languages
English (en)
Other versions
JPH0675807A (ja
Inventor
由美 高橋
真次 宮原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP22766192A priority Critical patent/JP3334174B2/ja
Publication of JPH0675807A publication Critical patent/JPH0675807A/ja
Application granted granted Critical
Publication of JP3334174B2 publication Critical patent/JP3334174B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Test And Diagnosis Of Digital Computers (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、多重処理システムにお
ける障害処理機能の検証装置に関し、特にオペレーティ
ングシステムを含むシステム全体の障害処理機能を検証
る装置に関する。
【0002】近年,計算機システムが社会のあらゆる分
野で使用され,その処理能力及び信頼性が益々,要求さ
れるようになった。処理能力を増強するため,中央処理
装置,メモリ等を多重化した多重処理システムが普及し
ている。これら多重処理システムの一部に故障が発生し
たとき,故障した装置を切り離してシステム性能を低下
させてでもシステムが稼働し続けることができるよう
に,耐故障性(faulttolerant)を重視した多重処理シ
ステムが広く使用されている。計算機システムを構成す
る各装置は各種のエラー,故障等の障害を検出する機能
を備えており,オペレーティングシステム(OS)は,
障害の箇所又は装置を特定し,その装置をシステムから
切り離すなどの処理を行うため,障害情報をロギングす
る機能を有する。従って,このような多重処理システム
において,OSを含めたシステム全体の,障害検出及び
障害情報収集機能を含む故障処理機能を的確に少ない人
手で短時間に検証することができる方式が要求されてい
る。
【0003】
【従来の技術】従来は,計算機システムの処理装置(C
PU)ごとに設けられた外部保守支援装置を用いてシス
テムの障害検出機能の検査を行った。外部保守支援装
置,例えば,サービスプロセッサ(SVP)は,CPU
とは別個の独立したプロセッサを内蔵し,システムを構
成する各装置内のレジスタ等のハードウェアを所定の状
態にセットし,またその状態を読み取る機能を備え,計
算機システム内のCPUを含む各装置に故意に故障状態
を設定し,その結果,装置が呈する状態情報を,OSの
動作とは無関係に,収集してダンプし,技術者は収集さ
れた情報を分析することによってシステム全体として故
障検出機能が正しく機能するか否かを検査していた。
【0004】
【発明が解決しようとする課題】上記のように従来方法
によると,外部保守支援装置を使用してシステム内の装
置に擬似障害を発生させ,障害情報を収集し,人手によ
って故障検出機能を確認したので,(1) 擬似故障を発生
させ,その情報を収集するための外部保守支援装置を必
要とし,システム価格が高価となる,(2) OSを含めた
システム全体としての故障検出機能を検証することがで
きないため,実際的でない,(3) 収集した障害情報を人
手で検査するため,人手と時間がかかるという問題点が
あった。
【0005】本発明は,多重処理システムにおける障害
処理機能を,実際に則した状態で,短時間に,かつ,低
コストで検査することができる障害処理検証装置を提供
することを目的とする。
【0006】
【課題を解決するための手段】図1は,本発明の原理ブ
ロック図を示す。図において,21は,装置の障害情報を
ロギングするオペレーティングシステム,3は,システ
ムを構成する装置群を1台の特定の処理装置1と残りの
他の装置2とに切り離す切り離し手段,4は,特定の擬
似障害41を他の装置2に発生させる擬似障害発生手段,
5は,特定の擬似障害41が他の装置2に発生したとき,
オペレーティングシステム21によってロギングされるべ
き障害情報の期待値を作成する期待値作成手段,6は,
擬似障害発生手段4によって該特定の擬似障害41が発生
された際にオペレーティングシステム21によってロギン
グされた障害情報と,期待値作成手段5によって作成さ
れた期待値とを照合する照合手段である。
【0007】
【作用】本発明によれば,装置の障害を検出し,その障
害情報をオペレーティングシステム21によってロギング
する機能を有する複数の処理装置と,複数の処理装置に
よって共有される共有装置とから構成される多重処理シ
ステムの障害処理検証方式おいて,切り離し手段3はシ
ステムを構成する装置群を1台の特定の処理装置1と残
りの他の装置2とに切り離し,擬似障害発生手段4は特
定の擬似障害41を他の装置2に発生させ,期待値作成手
段5は特定の擬似障害41が他の装置2に発生したときオ
ペレーティングシステム21によってロギングされるべき
障害情報の期待値を作成し,照合手段6は擬似障害発生
手段4によって該特定の擬似障害41が発生された際にオ
ペレーティングシステム21によってロギングされた障害
情報と,期待値作成手段5によって作成された期待値と
を照合するので,照合手段6による照合結果に基づい
て,多重処理システムの障害処理を検証することが可能
となる。
【0008】
【実施例】図2は本発明の実施例を示すシステム構成
図,図3はシステム構成定義テーブル,図4はアクセス
条件テーブル,図5は障害設定テーブル,図6はOSロ
ギングテーブルである。
【0009】全図を通して,同一符号は同一又は同様な
構成要素を示す。図2において,CPU1〜nは,それ
ぞれ,主メモリ,入出力制御装置等を備えたn台の処理
装置であって,共有メモリSSM0及びSSM02を共
有することによって相互の通信を行う。CPU1〜n
は,また,アダプタ装置ADで代表される複数の入出力
装置を共用する。CPU1〜nと共有メモリSSM01
及びSSM02とは二重化されたバス#0及び#1を介
して接続され,バスハンドラ装置BH10及びBH11は,
一方のバスが使用中または故障のときは他方のバスを使
用してCPU1〜nとSSM01,SSM02とを接続
して通信させるように制御する。同様に,CPU1〜n
とアダプタ装置ADとは二重化されたバス#0及び#1
を介して接続され,バスハンドラ装置BH20及びBH21
は,一方のバスが使用中または故障のときは他方のバス
を使用してCPU1〜nとアダプタ装置ADとを接続し
て通信させるように制御する。
【0010】CPU1〜nは,それぞれ,システム構成
定義テーブル(図3参照)を備えており,CPU1〜n
に対応してI(実装),NA(アクセス禁止),NI
(未実装)の何れかを設定してシステム資源として使用
の可否を指定することにより,物理的には接続されてい
ても,論理的には接続を切り離すことができ,CPU1
〜nごとに任意にシステム構成することができる。従っ
て,システム構成定義テーブルを図3に示すように設定
することによりCPU1を,他のCPU2〜nから論理
的に切り離すことができる。
【0011】また,CPU1〜nは,それぞれ,通常の
命令に加えて,予め組み込まれている診断機能を実行す
る診断命令を有する。例えば,他のCPU,共有メモリ
SSM01,SSM02,アダプタ装置AD等へ診断命
令を発行することによって,その機能または一部の機能
を停止させる。
【0012】このように構成したシステムにおいて,C
PU2〜nはOS配下で通常の動作を実行させ,CPU
1はテストプログラムを実行させる。テストプログラム
は,CPU2〜n,共有メモリSSM01,SSM0
2,アダプタ装置AD等の他の装置に対して順次,擬似
障害を発生させる診断命令を発行する。そして,診断命
令による擬似障害ごとに,OSが実際にロギングする障
害情報と,予め求めておいた期待値とを比較することに
よって,ハードウェアが正しく障害を検出し,OSが正
しく障害情報をロギングするか否かを検証する。
【0013】図7は,本発明の実施例のフローチャート
である。本発明の実施例の作用を,擬似障害を発生する
対象装置を共有メモリSSM01とした場合について,
図7に基づき,図2を参照して説明する。 (1) システム中の1台のCPU,例えば,CPU1を他
の装置(CPU2〜n)から切り離して,擬似的に障害
を発生させるためのテストプログラムを走行させる検証
システムとして立ち上げる。即ち,イニシャルプログラ
ムロード時に図3に示すように,CPU1が保持するシ
ステム構成定義テーブルにおいて,被検証システムのC
PU2〜CPUn(OS配下で動作する)に対してNA
(アクセス禁止)を設定することによって,CPU1に
よるCPU2〜CPUnへのアクセスを禁止する。従っ
て,CPU1とCPU2〜CPUnとは物理的には接続
されていても,論理的には切り離されて,OS下で動作
する被検証システムCPU2〜CPUnから検証システ
ムCPU1を切り離すことができる。
【0014】次に,OS配下で動作するCPU2〜CP
Unを検証システムであるCPU1から切り離すため,
これらCPUのシステム構成定義テーブルにおいて,図
3に示すように,検証システムであるCPU1に対して
NI(未実装)を設定することにより,CPU2〜CP
UnからCPU1へのアクセスは禁止する。従って,物
理的には接続されていても論理的には,被検証システム
のCPU2〜CPUnから,検証システムのCPU1は
未実装に見える。 (2) 検証システムのCPU1においてテストプログラム
を起動する。 (3) 被検証システムのCPU2〜CPUnにおいてOS
を起動する。 (4) 擬似障害を確実に発生させるために,オペレータ
は,このテーブルにOSが起動された時点から時系列
に,OSがアクセスする装置の名称,時間,アドレスを
含む情報を入力したアクセス条件テーブル(図4参照)
を作成しておく。 (5) テストプログラムは,前記(2) で作成したアクセス
条件テーブルに基づいて,テスト対象の共有メモリ装置
SSM01に対して診断命令を発行して,例えば,10
00番地に200msの間,動作停止を指示する擬似障
害(HALT)を設定する。 (6) 前記(5) で擬似障害を設定した装置名を示すSSM
01と,設定した障害内内容を示すHALTと,設定し
た時刻を示す23時59分59秒100ミリ秒を障害設
定テーブル(図5参照)の形式でディスク装置DKに格
納する。 (7) OSがテスト対象の共有メモリ装置であるSSM0
1をアクセスして, HALT(障害)状態が発生する。 (8) OSは障害情報(23時59分59秒120ミリ秒
にSSM01がHALT状態となった)をOSロギング
テーブルの形式(図6参照)でディスク装置DKに格納
する (9) 上記(6) でテストプログラムが設定し,ディスク装
置DKに格納した障害内容(23時59分59秒100
〜300ミリ秒の間にSSM01がHALTする)と,
上記(8) でOSがディスク装置DKにロギングした障害
情報(23時59分59秒120ミリ秒にSSM01が
HALT状態となった)とを照合する。照合結果が妥当
であれば,ハードウェアの障害検出機能とOSのロギン
グ機能の両方を検証することができる。
【0015】
【発明の効果】以上説明したように,本発明によると,
多重処理システムを構成する装置群を1台の特定の処理
装置(検証システム)と残りの他の装置(被検証システ
ム)に切り離し,被検証システムに擬似障害が発生した
ときオペレーティングシステムによってロギングされる
べき障害情報の期待値を作成し,検証システムは擬似障
害を被検証システムに発生させ,実際にオペレーティン
グシステムによってロギングされた障害情報と,作成し
た期待値の障害情報とを照合することによって多重処理
システムの障害処理を検証するので,従来使用した外部
保守支援装置の代わりに1台のCPUによって他の装置
の障害処理機能を検証するため,安価にシステムの故障
処理の検証を行うことができ,また,ハードウェアとO
Sとが共同して処理した障害情報を検査するため,実際
の運用に近い状態でシステムの障害処理機能を検証する
できるという効果がある。
【図面の簡単な説明】
【図1】 本発明の原理ブロック図
【図2】 本発明の実施例を示すシステム構成図
【図3】 システム構成定義テーブル
【図4】 アクセス条件テーブル
【図5】 障害設定テーブル
【図6】 OSロギングテーブル
【図7】 本発明の実施例のフローチャート
【符号の説明】
CPU1〜n 処理装置 SSM01,02 共有メモリ装置 BH10,11,20,21 バスハンドラ装置 AD アダプタ装置 DK ディスク装置
フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06F 11/22 - 11/26 JICSTファイル(JOIS)

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 装置の障害を検出し,その障害情報をオ
    ペレーティングシステムによってロギングする機能を有
    する複数の処理装置と,複数の処理装置によって共有さ
    れる共有装置とから構成される多重処理システムの障害
    処理検証装置において、 前記システムに,複数の処理装置の中の1台の特定の処
    理装置と残りの他の装置とに切り離す切り離し手段を設
    け, 特定の処理装置に,疑似障害を他の装置に発生させる疑
    似障害発生手段と,該疑 似障害が他の装置に発生したとき,オペレーティン
    グシステムによってロギングされるべき障害情報の期待
    値を作成する期待値作成手段と, 該疑似障害発生手段によって該疑似障害が発生された際
    にオペレーティングシステムによってロギングされた障
    害情報と,該期待値作成手段によって作成された期待値
    とを照合する照合手段とを設け, 該照合手段による照合結果に基づいて,多重処理システ
    ムの障害処理を検証することを特徴とする障害処理検証
    装置
  2. 【請求項2】 前記オペレーティングシステム及び期待
    値作成手段は,それぞれ,前記疑似障害の発生時刻を含
    む障害情報をロギングし及び障害情報の期待値を作成す
    ことを特徴とする請求項1の障害処理検証装置
JP22766192A 1992-08-27 1992-08-27 障害処理検証装置 Expired - Fee Related JP3334174B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22766192A JP3334174B2 (ja) 1992-08-27 1992-08-27 障害処理検証装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22766192A JP3334174B2 (ja) 1992-08-27 1992-08-27 障害処理検証装置

Publications (2)

Publication Number Publication Date
JPH0675807A JPH0675807A (ja) 1994-03-18
JP3334174B2 true JP3334174B2 (ja) 2002-10-15

Family

ID=16864361

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22766192A Expired - Fee Related JP3334174B2 (ja) 1992-08-27 1992-08-27 障害処理検証装置

Country Status (1)

Country Link
JP (1) JP3334174B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006117833A1 (ja) * 2005-04-25 2006-11-09 Fujitsu Limited 監視シミュレーション装置,方法およびそのプログラム

Also Published As

Publication number Publication date
JPH0675807A (ja) 1994-03-18

Similar Documents

Publication Publication Date Title
US7519866B2 (en) Computer boot operation utilizing targeted boot diagnostics
US6760868B2 (en) Diagnostic cage for testing redundant system controllers
US6502208B1 (en) Method and system for check stop error handling
Siewiorek Fault tolerance in commercial computers
US6119246A (en) Error collection coordination for software-readable and non-software readable fault isolation registers in a computer system
US20110035618A1 (en) Automated transition to a recovery kernel via firmware-assisted-dump flows providing automated operating system diagnosis and repair
JPH01154242A (ja) 二重ゾーンの耐欠陥コンピュータシステム
US9594670B2 (en) Managing software dependencies during software testing and debugging
JPH01152543A (ja) 欠陥分離及び修理機能を有する耐欠陥コンピュータシステム
JPS5851292B2 (ja) 診断/デバツク計算システム
JP3030658B2 (ja) 電源故障対策を備えたコンピュータシステム及びその動作方法
JPH0465411B2 (ja)
Lee et al. Measurement-based evaluation of operating system fault tolerance
US6732298B1 (en) Nonmaskable interrupt workaround for a single exception interrupt handler processor
JPH1011319A (ja) マルチプロセッサシステムの保守方法
JP3334174B2 (ja) 障害処理検証装置
Thakur et al. Analysis of failures in the Tandem NonStop-UX operating system
CN209343321U (zh) 一种计算机故障检测装置
JP5440673B1 (ja) プログラマブルロジックデバイス、情報処理装置、被疑箇所指摘方法およびプログラム
TW200307200A (en) Multiple fault location in a series of devices
JP3342039B2 (ja) ファイルを管理する処理装置
US7139954B1 (en) Method and apparatus for testing a computing device with memory using test program code
JP3326546B2 (ja) コンピュータシステムの故障検知方法
EP1649372A2 (en) Maintenance interface unit for servicing multiprocessor systems
US7065691B2 (en) Apparatus and method for saving precise system state following exceptions

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020702

LAPS Cancellation because of no payment of annual fees