JPS6061839A - 論理装置の故障診断処理方式 - Google Patents

論理装置の故障診断処理方式

Info

Publication number
JPS6061839A
JPS6061839A JP58168706A JP16870683A JPS6061839A JP S6061839 A JPS6061839 A JP S6061839A JP 58168706 A JP58168706 A JP 58168706A JP 16870683 A JP16870683 A JP 16870683A JP S6061839 A JPS6061839 A JP S6061839A
Authority
JP
Japan
Prior art keywords
instruction
fault
execution
internal state
state information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58168706A
Other languages
English (en)
Inventor
Noritaka Umeno
典隆 梅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, Nippon Electric Co Ltd filed Critical NEC Corp
Priority to JP58168706A priority Critical patent/JPS6061839A/ja
Publication of JPS6061839A publication Critical patent/JPS6061839A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の属する技術分野〕 本発明は論理装置O故障診断処理方式に関する。
〔従来技術〕
従来論理装置に故障が起きると、該装置を一旦運転中の
システムから切離し、予じめ作成されてしる診断データ
を用いて故障個所の指摘を行っている。診断データとし
ては、例えば、IEEETransactions o
n COMP UTE几8 C−20Number7 
(1971年7月発行)第798頁−802頁に記載さ
れているマイクロ診断プログラムが挙げられるがここで
はその詳細については省略する。
一般に診断データは、データ処理装置の全ゆる故障に対
する振舞い全予見して作成する必要があるため膨大な作
成費用を必要とする。このような予じめ作成された診断
データ全使用して故障指摘を行う場合でも何らかの原因
で一時的に故障状態になる間欠故障に対しては有効でな
いという欠点がある。それは診断データを使用して故障
指摘7行おうとした時には正常状態に戻っていることが
あるからである。
又、最近のシステムでは前述の間欠故障対策として論理
装置に故障が発生しても、再度同じ動作を行わせるよう
な再試行等の障害処理全行いヱきる丈その装置の可用性
を高めるように工夫されている。しかし、この障害処理
と前述の故障個所の指摘処理とは別に行われているため
処理時間が2重に必要となる欠点がある。又、たとえ障
害処理の一環として故障個所の指摘の為の情報収集を行
うとしても従来方式では故障を検出した時点の情報しか
収集していない為、故障指摘に必ずしも充分な情報では
ないという欠点がある。
〔発明の目的] 本発明の目的は、論理装置に故障が発生した時に起動さ
れる障害処理に故障診断機能を組込み。
障害処理の過程として故障診断を行うことにより、間欠
故障に対しても有効で、かつ、処理時間に対しても効率
のよい故障診断処理方式を提供することにある。又、本
発明は、障害処理の過程で故障個所指摘のための情報を
収集するため、故障指摘に充分な情報が得られ、かつ特
別の診断データを不要とする故障診断処理方式t−提供
することにある。
〔発明の構成〕
本発明の方式は、メモリヲ共有する複数の論理装置よシ
なる情報処理システムにおいて、命令を実行中に発生し
た第1の論理装置の故障通知に応答して前記命令の実行
を停止させる命令実行停止手段と、前記命令実行停止に
応答して前記第1の論理装置の内部状態情報全収集する
第1の内部状態情報収集手段と、前記停止された命令の
再実行ができるか否かを表示する命令再実行可否表示手
段と、前記命令再実行可否表示手段の表示が再実行可能
である場合に前記故障通知に応答して前記第1の内部状
態情報収集手段により収集された内部状態情報に対応し
て前記第1の論理装置の前記命令の再実行を前記第1の
論理装置においてlクロックステップづつ実行する第1
の命令再実行手段と、前記第1の命令再実行手段の1ク
ロツクステツプ毎に前記第1の論理装置の内部状態情報
全収集する第2の内部状態情報収集手段と、前記第1の
命令再実行手段による命令再実行を予め定めた回数行っ
ても故障が回復しないときに第2の論理装置に割込む割
込み手段と、前記割込みに応答して前記第1の内部状態
情報収集手段により収集された内部状態情報に対応して
前記第1の論理装置の前記命令の再実行を前記第2の論
理装置にお、いて1クロツクステツプづつ実行する第2
の命令再実行手段と、前記第2の命令再実行手段の1ク
ロツクステツプ毎に前記第2の論理装置の内部状態情報
を収集する第3の内部状態情報収集手段と金含んで構成
される。
〔実施例の説明〕
次に本発明について図面を参照し1詳細に説明する。
第1図は本発明の一実施例のブロック図である。
第1図の故障診断処理方式はデータ及びプログラムが格
納されてbるメモリ40全2台の論理装置(以下CPU
と略す)10.20で共有するマルチプロ七ッテシステ
ムでエラー全検出したC P Ulo、該CPUl0で
中断した処理全引継いで実行するCPU20とエラーの
回復側(il[−行う回復制御装置30とによシ実現さ
れる。今CPUI Oに障害が発生すると、エラー検出
回路群130のいづれかのエラー検出回路によシ検出さ
れる。どのエラー検出回路で検出されたかで、ある程度
の障害内容は分る。エラー検出回路群130にて検出さ
れると制御信号123でクロック発振回路131が停止
され、エラー検出時点のCPUI Oの内部状態が凍結
されるとともに、制御信号124及びインタフェース制
御回路133を介して回復制御装置30にエラー検出報
告が行われる。回復制御装置30は、退避用インクフェ
ース121を介してCPUl0のプログラム操作可能レ
ジスタ群111〜119の内容を読込む。
CPUI O内のプログラム操作可能レジスタ群111
〜119.その他の作業用レジスフ群151〜159の
読出し動作について説明する。データバス137は32
ビット幅であシ、選択レジスタ136で指定されたレジ
スタの匝が設定される。
外部インタフェースは8ビツトであるため外部から読出
す場合、読出し指令を出す毎にデータバス137上のデ
ータが選択ゲート群138 vi″介して上位から8ビ
ツトづつ4回インタフェースに送出されて、選択レジス
タ136で指定されたレジスタの値、すなわちデータバ
ス137の値を読出すことができる。このレジスタ読出
し処理中はCPU1Oのクロック全停止させているため
、読出し動作によりCPUl0の内部状態は変化しない
回復制御装置30ではエラー検出時点でCPU10にて
実行されていた命令が再試行可能か否か全命令再試行不
可インディケータ132の内容で判断する。再試行不可
インディケータ132は各命令実行開始時点でオフにリ
セットされ、命令実行中メモリ書変え、プログラム操作
可能レジスタの書変え等の条件によシ命令再試行不可と
なった場合にはオンにセットされる。従って、CPUl
0で工2−検出された時点の該命令再試行不可インディ
ケータ132がオフの場合、中断された命令の再試行可
能であるので、回復制御装置30はCPUl0の命令再
試行制御に入いる。
回復制御装置30は、CPU10,20に対し内部レジ
スタの読出し、プログラム操作可能レジスタの値設定、
クロック制御等の保守パネル制御の機N1Tj有してお
り、それ全駆使して第2図に示すフローを実行する。ま
ず、障害CPUI Oの内部状態を読み出す(処理20
10)。次にCPU10の再試行不可インディケータ1
32 ’にチェックし、オンであれば再試行不可能とし
てシステムダウンに、オフであれば再試行可能と判断し
て(処理2020)再試行の制御に入いる。そこでは現
在エラー状態になっているCPUl0の状態全リセット
した(処理2030 )後処理2010で読み出してい
るCPUI O内部状態のうちプログラム操作可能レジ
スタの回復全行う(処理2040)。その後1クロツク
づつ再試行制御を行いながら処理2060〜2100で
示されているように、再試行途中の内部状態をも読み出
す。ここでCPUI Oの内部状態の情報量が多いこと
が考えられるので、そのような場合には処理2050で
示すように、エラー検出回路の状態で読み出すべき内部
レジスタを絞っておく。例えば、エラー検出が命令制御
部のエラー検出回路からの報告であれば、命令制御部口
シのレジスタ金読出しの対象にする。クロックステップ
がエラー検出(処理2090)もなく該エラーを起した
命令の実行終了迄路れば(処理2100でYの判断)、
再試行成功となり、そのときの命令再試行は成功した旨
のマーク全読出し情報に付与しく処理2110)障害情
報の収集r終えるとともにクロック全正規にスタートさ
せその後は回復制御装置30の処理を介在しない正常運
転に復帰する。再試行制御中、即ち処理2060〜21
00’に実行中に再びチェック回路によるエラー検出が
あれば(処理2090)%それが予じめ与えられている
再試行回数(N)以内であれば再び処理2030から再
試行をやり直す。もし、再試行回数だけ再試行を行った
結果まだエラーが検出される場合、他CPUでその続き
を行うことになる。
即ち、他に正常なCPUがあれば、まず障害CPUの処
理の続き金行ってもらう旨の割込(処理2180)要求
を出す。その要求?受けたCPUは現在続行中の処理の
区切シ(例えば、現在処理中のタスクをあるタイムスラ
イスにて処理全中断する場合と同じように、タスクの状
態を次に再開できるような形で退避し、実行待ち行列に
登録した後)で回復制御装置30に該要求受付けを返す
(処理2190)。回復制御装置30は、該正常CPU
’Th一旦リセットし前述処理2030での障害CPU
と同じ状態にしておいてから(処理2200) 。
[害CPUのエラ一時点のプログラム操作可能レジスタ
の値を正常CPU上でセットし障害CPUでの再試行制
御処理2040〜2100と同様の制御上行う(処理2
210〜2240 )。なお、マルチプロセッサ構成で
あ夛メモリ40を共有しているのでメモリの内容金移す
必要はない。今度は正常CPUでの再試行であるので、
再試行中でのエラー検出は発生しない。再試行後は正規
にクロック全スタートさせ(処理2250)CPUIO
での処理力< CP U 20で継続して行なわれる(
処理2260)。
以上説明はCPUl0に障害が発生した場合について述
べたが、CPUl0と20は全く同じ構成であり、CP
U20に障害が発生したとしても同様である。
以上の処理中に行われる内部レジスタの読出しデータは
フロッピーディスクに順編成7アイル形式で順次格納さ
れる。このターンプ情報は次の形で利用できる。
1、障害CPUでの再試行失敗したが他CPUで処理続
行できた場合 障害CPUでの内部レジスタダンプと同じ条件での正常
CPUの内部レジスメダンブと全比較することで、どの
時点でどの個所が異っている等の情報で故障診断を行う
2、障害CPUでの再試行でn回目(〉1)に成功した
場合 再試行失敗の場合の内部レジスタダンプと再試行成功の
場合の内部レジスタダンプとを比較することにより上記
1と同様の解析にて故障診断全行う。
本実施例では、命令再実行の制御り全て回復制御装置3
0で行うとしているが、障害CPU自身でリセットし、
プログラム操作可能レジスタの回復を行うとしても容易
に実現できる。
〔発明の効果〕
本発明には障害処理の過程に故障診wRvi−組み込み
、命令再試行全行うとき、及び他CPUで障害CPUの
処理全継続するときに内部レジスタダンプをとるように
構成することによシ、命令再試行又は他CPUでの処理
代行のようなエラー回復処理に並行して故障個所指摘の
ための情報が収集出来、かつ、エラーの場合と正常の場
合の情報が同時に出てくるために、それらを対比させる
ことによシ効率のよい故障診断処理ができるという効果
がある。
【図面の簡単な説明】
第1図は本発明の実施例を示すブロック図、第2図は本
発明の処理内容を示すフローチャートである。 10.20・・・・・・@==*CPU、30・−・・
・・回復制御装置、31・・・−・・制御部、40・・
・−・・メモ!J、111〜119,211〜219・
・・・・・プログラム操作可能レジスフ群、120.2
2Q・・・・・・エラー報告用インタフェース、121
,221・・・・・・退避用インク7エース、122,
222・・・・・・回復用インク7エース、123.1
24,125,223,224,225・・・・・・制
御線、130,230・・・・・・エラー検出回路群。 131.231・・・・・・クロック発振回路、132
,232・・・・・・命令再試行不可インディケーp、
133,233・・・・・・インタフェース制fl11
回m、134,234・・・・・・インタフェース信号
、135,235・・・・・・書込みデータバス、13
6,236・・・・・・選択レジスタ、1371237
・・・・・・読込みデータバス、138,238・・・
・・・選択制御ゲート群、139,239・・・・・・
データレジスタ、140,240・・−・・・選択制御
ゲート群、151〜159,251〜259 ・・・・
・・プログラム操作小町内部レジスク群。

Claims (1)

  1. 【特許請求の範囲】 メモリ全共有する複数の論理装置よシなる情報処理シス
    テムにおいて。 命令全実行中に発生した第1の論理装置の故障通知に応
    答して前記命令の実行全停止させる命令実行停止手段と
    。 前記命令実行停止に応答して前記第1の論理装置の内部
    状態情報を収集する第1の内部状態情報収集手段と。 前記停止された命令の再実行ができるか否か全表示する
    命令再実行可否表示手段と。 前記命令再実行可否表示手段の表示が再実行可能である
    場合に前記故障通知に応答して前記第1の内部状態情報
    収集手段によシ収集された内部状態情報に対応して前記
    第1の論理装置の前記命令の再実行を前記第1の論理装
    置において1クロツクステツプづつ実行する第1の命令
    再実行手段と。 前記第1の命令再実行手段の1クロツクステツプ毎に前
    記第1の論理装置の内部状態情報を収集する第2の内部
    状態情報収集手段と。 前記第1の命令再実行手段による命令再実行金子め定め
    た回数行っても故障が回復しないときに第2の論理装置
    に割込む割込み手段と。 前記割込みに応答して前記第1の内部状態情報収集手段
    によシ収集された内部状態情報に対応して前記第1の論
    理装置の前記命令の再実行全前記第2の論理装置におい
    てlクロックステップづつ実行する第2の命令再実行手
    段と。 前記第2の命令再実行手段の1クロツクステツプ毎に前
    記第2の論理装置の内部状態情報全収集する第3の内部
    状態情報収集手段とを含むこと全特徴とする論理装置の
    故障診断処理方式。
JP58168706A 1983-09-13 1983-09-13 論理装置の故障診断処理方式 Pending JPS6061839A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58168706A JPS6061839A (ja) 1983-09-13 1983-09-13 論理装置の故障診断処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58168706A JPS6061839A (ja) 1983-09-13 1983-09-13 論理装置の故障診断処理方式

Publications (1)

Publication Number Publication Date
JPS6061839A true JPS6061839A (ja) 1985-04-09

Family

ID=15872935

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58168706A Pending JPS6061839A (ja) 1983-09-13 1983-09-13 論理装置の故障診断処理方式

Country Status (1)

Country Link
JP (1) JPS6061839A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7061814B2 (en) 2001-12-28 2006-06-13 Kabushiki Kaisha Toshiba Semiconductor device realized by using partial SOI technology

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7061814B2 (en) 2001-12-28 2006-06-13 Kabushiki Kaisha Toshiba Semiconductor device realized by using partial SOI technology

Similar Documents

Publication Publication Date Title
US5948112A (en) Method and apparatus for recovering from software faults
EP0505706B1 (en) Alternate processor continuation of the task of a failed processor
US4740969A (en) Method and apparatus for recovering from hardware faults
JP3481737B2 (ja) ダンプ採取装置およびダンプ採取方法
US5056091A (en) Method for handling errors detected in a computer system
JPH09251443A (ja) 情報処理システムのプロセッサ障害回復処理方法
JPS6061839A (ja) 論理装置の故障診断処理方式
JPH1115661A (ja) Cpuの自己診断方法
JPS6113626B2 (ja)
JPS6229820B2 (ja)
JP3381756B2 (ja) 並列プロセッサシステム
JPS6061838A (ja) 論理装置の故障診断処理方式
KR19990057809A (ko) 오류 방지 시스템
JP2776815B2 (ja) 多重プロセッサシステムの障害回復方法
JP2922981B2 (ja) タスクの実行継続方法
JPS6128141B2 (ja)
JPH0255816B2 (ja)
JPS6156537B2 (ja)
JPS62113241A (ja) 障害回復装置
JPS6130296B2 (ja)
JPS6258344A (ja) 障害回復装置
JPH07230432A (ja) 計算装置
JPS6074052A (ja) ヒストリ・メモリ制御方式
JPS6130303B2 (ja)
JPS61160156A (ja) プロセツサの障害検出方式