JPS6061839A

JPS6061839A - 論理装置の故障診断処理方式

Info

Publication number: JPS6061839A
Application number: JP58168706A
Authority: JP
Inventors: Noritaka Umeno; 典隆梅野
Original assignee: NEC Corp; Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1983-09-13
Filing date: 1983-09-13
Publication date: 1985-04-09

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の属する技術分野〕本発明は論理装置Ｏ故障診断処理方式に関する。

〔従来技術〕

従来論理装置に故障が起きると、該装置を一旦運転中の
システムから切離し、予じめ作成されてしる診断データ
を用いて故障個所の指摘を行っている。診断データとし
ては、例えば、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓ　ｏ
ｎ　ＣＯＭＰ　ＵＴＥ几８　Ｃ−２０Ｎｕｍｂｅｒ７　
（１９７１年７月発行）第７９８頁−８０２頁に記載さ
れているマイクロ診断プログラムが挙げられるがここで
はその詳細については省略する。

一般に診断データは、データ処理装置の全ゆる故障に対
する振舞い全予見して作成する必要があるため膨大な作
成費用を必要とする。このような予じめ作成された診断
データ全使用して故障指摘を行う場合でも何らかの原因
で一時的に故障状態になる間欠故障に対しては有効でな
いという欠点がある。それは診断データを使用して故障
指摘７行おうとした時には正常状態に戻っていることが
あるからである。

又、最近のシステムでは前述の間欠故障対策として論理
装置に故障が発生しても、再度同じ動作を行わせるよう
な再試行等の障害処理全行いヱきる丈その装置の可用性
を高めるように工夫されている。しかし、この障害処理
と前述の故障個所の指摘処理とは別に行われているため
処理時間が２重に必要となる欠点がある。又、たとえ障
害処理の一環として故障個所の指摘の為の情報収集を行
うとしても従来方式では故障を検出した時点の情報しか
収集していない為、故障指摘に必ずしも充分な情報では
ないという欠点がある。

〔発明の目的］本発明の目的は、論理装置に故障が発生した時に起動さ
れる障害処理に故障診断機能を組込み。

障害処理の過程として故障診断を行うことにより、間欠
故障に対しても有効で、かつ、処理時間に対しても効率
のよい故障診断処理方式を提供することにある。又、本
発明は、障害処理の過程で故障個所指摘のための情報を
収集するため、故障指摘に充分な情報が得られ、かつ特
別の診断データを不要とする故障診断処理方式ｔ−提供
することにある。

〔発明の構成〕

本発明の方式は、メモリヲ共有する複数の論理装置よシ
なる情報処理システムにおいて、命令を実行中に発生し
た第１の論理装置の故障通知に応答して前記命令の実行
を停止させる命令実行停止手段と、前記命令実行停止に
応答して前記第１の論理装置の内部状態情報全収集する
第１の内部状態情報収集手段と、前記停止された命令の
再実行ができるか否かを表示する命令再実行可否表示手
段と、前記命令再実行可否表示手段の表示が再実行可能
である場合に前記故障通知に応答して前記第１の内部状
態情報収集手段により収集された内部状態情報に対応し
て前記第１の論理装置の前記命令の再実行を前記第１の
論理装置においてｌクロックステップづつ実行する第１
の命令再実行手段と、前記第１の命令再実行手段の１ク
ロツクステツプ毎に前記第１の論理装置の内部状態情報
全収集する第２の内部状態情報収集手段と、前記第１の
命令再実行手段による命令再実行を予め定めた回数行っ
ても故障が回復しないときに第２の論理装置に割込む割
込み手段と、前記割込みに応答して前記第１の内部状態
情報収集手段により収集された内部状態情報に対応して
前記第１の論理装置の前記命令の再実行を前記第２の論
理装置にお、いて１クロツクステツプづつ実行する第２
の命令再実行手段と、前記第２の命令再実行手段の１ク
ロツクステツプ毎に前記第２の論理装置の内部状態情報
を収集する第３の内部状態情報収集手段と金含んで構成
される。

〔実施例の説明〕

次に本発明について図面を参照し１詳細に説明する。

第１図は本発明の一実施例のブロック図である。

第１図の故障診断処理方式はデータ及びプログラムが格
納されてｂるメモリ４０全２台の論理装置（以下ＣＰＵ
と略す）１０．２０で共有するマルチプロ七ッテシステ
ムでエラー全検出したＣ　Ｐ　Ｕｌｏ、該ＣＰＵｌ０で
中断した処理全引継いで実行するＣＰＵ２０とエラーの
回復側（ｉｌ［−行う回復制御装置３０とによシ実現さ
れる。今ＣＰＵＩ　Ｏに障害が発生すると、エラー検出
回路群１３０のいづれかのエラー検出回路によシ検出さ
れる。どのエラー検出回路で検出されたかで、ある程度
の障害内容は分る。エラー検出回路群１３０にて検出さ
れると制御信号１２３でクロック発振回路１３１が停止
され、エラー検出時点のＣＰＵＩ　Ｏの内部状態が凍結
されるとともに、制御信号１２４及びインタフェース制
御回路１３３を介して回復制御装置３０にエラー検出報
告が行われる。回復制御装置３０は、退避用インクフェ
ース１２１を介してＣＰＵｌ０のプログラム操作可能レ
ジスタ群１１１〜１１９の内容を読込む。

ＣＰＵＩ　Ｏ内のプログラム操作可能レジスタ群１１１
〜１１９．その他の作業用レジスフ群１５１〜１５９の
読出し動作について説明する。データバス１３７は３２
ビット幅であシ、選択レジスタ１３６で指定されたレジ
スタの匝が設定される。

外部インタフェースは８ビツトであるため外部から読出
す場合、読出し指令を出す毎にデータバス１３７上のデ
ータが選択ゲート群１３８　ｖｉ″介して上位から８ビ
ツトづつ４回インタフェースに送出されて、選択レジス
タ１３６で指定されたレジスタの値、すなわちデータバ
ス１３７の値を読出すことができる。このレジスタ読出
し処理中はＣＰＵ１Ｏのクロック全停止させているため
、読出し動作によりＣＰＵｌ０の内部状態は変化しない
。

回復制御装置３０ではエラー検出時点でＣＰＵ１０にて
実行されていた命令が再試行可能か否か全命令再試行不
可インディケータ１３２の内容で判断する。再試行不可
インディケータ１３２は各命令実行開始時点でオフにリ
セットされ、命令実行中メモリ書変え、プログラム操作
可能レジスタの書変え等の条件によシ命令再試行不可と
なった場合にはオンにセットされる。従って、ＣＰＵｌ
０で工２−検出された時点の該命令再試行不可インディ
ケータ１３２がオフの場合、中断された命令の再試行可
能であるので、回復制御装置３０はＣＰＵｌ０の命令再
試行制御に入いる。

回復制御装置３０は、ＣＰＵ１０，２０に対し内部レジ
スタの読出し、プログラム操作可能レジスタの値設定、
クロック制御等の保守パネル制御の機Ｎ１Ｔｊ有してお
り、それ全駆使して第２図に示すフローを実行する。ま
ず、障害ＣＰＵＩ　Ｏの内部状態を読み出す（処理２０
１０）。次にＣＰＵ１０の再試行不可インディケータ１
３２　’にチェックし、オンであれば再試行不可能とし
てシステムダウンに、オフであれば再試行可能と判断し
て（処理２０２０）再試行の制御に入いる。そこでは現
在エラー状態になっているＣＰＵｌ０の状態全リセット
した（処理２０３０　）後処理２０１０で読み出してい
るＣＰＵＩ　Ｏ内部状態のうちプログラム操作可能レジ
スタの回復全行う（処理２０４０）。その後１クロツク
づつ再試行制御を行いながら処理２０６０〜２１００で
示されているように、再試行途中の内部状態をも読み出
す。ここでＣＰＵＩ　Ｏの内部状態の情報量が多いこと
が考えられるので、そのような場合には処理２０５０で
示すように、エラー検出回路の状態で読み出すべき内部
レジスタを絞っておく。例えば、エラー検出が命令制御
部のエラー検出回路からの報告であれば、命令制御部口
シのレジスタ金読出しの対象にする。クロックステップ
がエラー検出（処理２０９０）もなく該エラーを起した
命令の実行終了迄路れば（処理２１００でＹの判断）、
再試行成功となり、そのときの命令再試行は成功した旨
のマーク全読出し情報に付与しく処理２１１０）障害情
報の収集ｒ終えるとともにクロック全正規にスタートさ
せその後は回復制御装置３０の処理を介在しない正常運
転に復帰する。再試行制御中、即ち処理２０６０〜２１
００’に実行中に再びチェック回路によるエラー検出が
あれば（処理２０９０）％それが予じめ与えられている
再試行回数（Ｎ）以内であれば再び処理２０３０から再
試行をやり直す。もし、再試行回数だけ再試行を行った
結果まだエラーが検出される場合、他ＣＰＵでその続き
を行うことになる。

即ち、他に正常なＣＰＵがあれば、まず障害ＣＰＵの処
理の続き金行ってもらう旨の割込（処理２１８０）要求
を出す。その要求？受けたＣＰＵは現在続行中の処理の
区切シ（例えば、現在処理中のタスクをあるタイムスラ
イスにて処理全中断する場合と同じように、タスクの状
態を次に再開できるような形で退避し、実行待ち行列に
登録した後）で回復制御装置３０に該要求受付けを返す
（処理２１９０）。回復制御装置３０は、該正常ＣＰＵ
’Ｔｈ一旦リセットし前述処理２０３０での障害ＣＰＵ
と同じ状態にしておいてから（処理２２００）　。

［害ＣＰＵのエラ一時点のプログラム操作可能レジスタ
の値を正常ＣＰＵ上でセットし障害ＣＰＵでの再試行制
御処理２０４０〜２１００と同様の制御上行う（処理２
２１０〜２２４０　）。なお、マルチプロセッサ構成で
あ夛メモリ４０を共有しているのでメモリの内容金移す
必要はない。今度は正常ＣＰＵでの再試行であるので、
再試行中でのエラー検出は発生しない。再試行後は正規
にクロック全スタートさせ（処理２２５０）ＣＰＵＩＯ
での処理力＜　ＣＰ　Ｕ　２０で継続して行なわれる（
処理２２６０）。

以上説明はＣＰＵｌ０に障害が発生した場合について述
べたが、ＣＰＵｌ０と２０は全く同じ構成であり、ＣＰ
Ｕ２０に障害が発生したとしても同様である。

以上の処理中に行われる内部レジスタの読出しデータは
フロッピーディスクに順編成７アイル形式で順次格納さ
れる。このターンプ情報は次の形で利用できる。

１、障害ＣＰＵでの再試行失敗したが他ＣＰＵで処理続
行できた場合障害ＣＰＵでの内部レジスタダンプと同じ条件での正常
ＣＰＵの内部レジスメダンブと全比較することで、どの
時点でどの個所が異っている等の情報で故障診断を行う
。

２、障害ＣＰＵでの再試行でｎ回目（〉１）に成功した
場合再試行失敗の場合の内部レジスタダンプと再試行成功の
場合の内部レジスタダンプとを比較することにより上記
１と同様の解析にて故障診断全行う。

本実施例では、命令再実行の制御り全て回復制御装置３
０で行うとしているが、障害ＣＰＵ自身でリセットし、
プログラム操作可能レジスタの回復を行うとしても容易
に実現できる。

〔発明の効果〕

本発明には障害処理の過程に故障診ｗＲｖｉ−組み込み
、命令再試行全行うとき、及び他ＣＰＵで障害ＣＰＵの
処理全継続するときに内部レジスタダンプをとるように
構成することによシ、命令再試行又は他ＣＰＵでの処理
代行のようなエラー回復処理に並行して故障個所指摘の
ための情報が収集出来、かつ、エラーの場合と正常の場
合の情報が同時に出てくるために、それらを対比させる
ことによシ効率のよい故障診断処理ができるという効果
がある。

【図面の簡単な説明】

第１図は本発明の実施例を示すブロック図、第２図は本
発明の処理内容を示すフローチャートである。１０．２０・・・・・・＠＝＝＊ＣＰＵ、３０・−・・
・・回復制御装置、３１・・・−・・制御部、４０・・
・−・・メモ！Ｊ、１１１〜１１９，２１１〜２１９・
・・・・・プログラム操作可能レジスフ群、１２０．２
２Ｑ・・・・・・エラー報告用インタフェース、１２１
，２２１・・・・・・退避用インク７エース、１２２，
２２２・・・・・・回復用インク７エース、１２３．１
２４，１２５，２２３，２２４，２２５・・・・・・制
御線、１３０，２３０・・・・・・エラー検出回路群。１３１．２３１・・・・・・クロック発振回路、１３２
，２３２・・・・・・命令再試行不可インディケーｐ、
１３３，２３３・・・・・・インタフェース制ｆｌ１１
回ｍ、１３４，２３４・・・・・・インタフェース信号
、１３５，２３５・・・・・・書込みデータバス、１３
６，２３６・・・・・・選択レジスタ、１３７１２３７
・・・・・・読込みデータバス、１３８，２３８・・・
・・・選択制御ゲート群、１３９，２３９・・・・・・
データレジスタ、１４０，２４０・・−・・・選択制御
ゲート群、１５１〜１５９，２５１〜２５９　・・・・
・・プログラム操作小町内部レジスク群。

Claims

【特許請求の範囲】メモリ全共有する複数の論理装置よシなる情報処理シス
テムにおいて。命令全実行中に発生した第１の論理装置の故障通知に応
答して前記命令の実行全停止させる命令実行停止手段と
。前記命令実行停止に応答して前記第１の論理装置の内部
状態情報を収集する第１の内部状態情報収集手段と。前記停止された命令の再実行ができるか否か全表示する
命令再実行可否表示手段と。前記命令再実行可否表示手段の表示が再実行可能である
場合に前記故障通知に応答して前記第１の内部状態情報
収集手段によシ収集された内部状態情報に対応して前記
第１の論理装置の前記命令の再実行を前記第１の論理装
置において１クロツクステツプづつ実行する第１の命令
再実行手段と。前記第１の命令再実行手段の１クロツクステツプ毎に前
記第１の論理装置の内部状態情報を収集する第２の内部
状態情報収集手段と。前記第１の命令再実行手段による命令再実行金子め定め
た回数行っても故障が回復しないときに第２の論理装置
に割込む割込み手段と。前記割込みに応答して前記第１の内部状態情報収集手段
によシ収集された内部状態情報に対応して前記第１の論
理装置の前記命令の再実行全前記第２の論理装置におい
てｌクロックステップづつ実行する第２の命令再実行手
段と。前記第２の命令再実行手段の１クロツクステツプ毎に前
記第２の論理装置の内部状態情報全収集する第３の内部
状態情報収集手段とを含むこと全特徴とする論理装置の
故障診断処理方式。