JPH047645A

JPH047645A - フォールト・トレラント・コンピュータ

Info

Publication number: JPH047645A
Application number: JP2111240A
Authority: JP
Inventors: Katsuhiro Asano; 勝宏浅野; Takashi Naito; 貴志内藤; Shigenobu Okada; 岡田　重信
Original assignee: Toyota Central R&D Labs Inc
Current assignee: Toyota Central R&D Labs Inc
Priority date: 1990-04-25
Filing date: 1990-04-25
Publication date: 1992-01-13

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、マルチプロセッサ方式のフォールト・トレラ
ント・コンピュータに係り、特に−時的な障害によりシ
ステムから切り離されたユニットを復帰させる、または
固定的な障害によりシステムから切り離されたユニット
を修理した後復帰させるためのリスタート機能を有する
フォールト・トレラント・コンピュータに関する。

〔従来技術〕

第２図は、電子情報通信学会フォールト・トレラント・
システム研究会（Ｆ　Ｔ　Ｓ　８７−３１）にて発表さ
れている従来のマルチプロセッサ方式のフォールト・ト
レラント・コンピュータ（以下単にシステムという）の
概念図である。ここで、マルチプロセッサは、全く同じ
構成のコンピュータユニット（以下、ユニットという）
を独立に複数台設け（第２図では４台）、各ユニットＡ
−Ｄをコモンエリアを介して接続する構成になっている
。各ユニットは、それぞれ別のクロックにより非同期で
それぞれ異なったタスクを実行している。このマルチプ
ロセッサにおいて、フォールト・トレランスは、相互監
視、故障部分の切り離し、バックアップの３ステツプか
ら実現している。

まず、相互監視のステップでは、各ユニットか夫々個別
のタスクを実行中に、定期的に他のユニットの動作状態
を監視し、その監視結果をバックアップ処理回路に出力
する。このような監視は各ユニットの間で相互に行われ
る。

次のステップでは、バックアップ処理回路が、各ユニッ
トからの監視結果に基づいて正常なユニットと異常なユ
ニットを決定し、異常ユニットに対してはシステムから
切り離すための停止信号を出力する。また、正常ユニッ
トには、現在どのユニットが運転状態にあるかを示す動
作情報を出力する。

つづいて、正常ユニットは、バックアップ処理回路から
の動作情報に基づいて実行すべきタスクを決定し、その
タスクを実行する。その際、各ユニットのタスクが重複
することなく、かつ漏れることのないようにタスクか決
定される。なお、システムから切り離されたユニットが
ある場合には、そのタスクを正常ユニットがバックアッ
プする。

そのため正常ユニットは、状況に応じて複数のタスクを
実行する。

この従来装置において、一部のユニットに障害か発生し
た場合、その部分はシステムから切り離され、残りのユ
ニットでシステム全体のタスクが実行される。このよう
な再構成は残り一台になるまで繰り返される。その時、
正常ユニットの数か、システム全体のタスクの数に比べ
多ければ、そのうちの一部の正常ユニットはタスクを実
行せずに待機する。そして、正常ユニットの数が減少す
るに従い、待機中の正常ユニットが代わってタスクを実
行することになる。一方、正常ユニットの数が、システ
ム全体のタスクの数より少なくなった場合には、残りの
正常ユニットは、−台で複数のタスクを実行する。

〔従来技術の問題点〕

上述のように、従来技術においては正常ユニットの数が
、システム全体のタスクの数より少なくなった場合には
、残りの正常ユニットは、−台で複数のタスクを実行す
ることが必要になるのて、システム全体のタスクを実行
するための演算時間が長くなる。その結果、システムか
外部装置としての制御対象を制御する場合、制御性能の
低下を招く。そして、初期の制御性能まで復元するには
、電源を落として障害部分を修理点検し再稼働する必要
かある。

ところで、障害か一時的なものであった場合には、修理
は必要ではなく、また障害か回避された段階では本来の
制御性能を落とさなくても運転できるはずである。にも
かかわらず、この従来技術では一時的な障害により制御
性能は低下したままであり、また制御性能を回復するた
めには、電源を落とし運転を中断することが必要となり
、作業効率の面からも大きな問題である。

また、障害が固定的なものの場合にも、制御対象の運転
を中断することは、作業効率を著しく低下させるもので
あり、経済的に不利である。できることなら、運転中に
故障部分を修理し、再復帰させることが望まれる。

〔発明の目的〕

本発明は、上記従来技術の問題点を解消するためになさ
れたものである。従来技術においては、障害が一時的な
ものであっても、それらの障害の発生に伴って、制御性
能か低下していた。また、運転中に、故障部分を修理点
検することはできず、制御性能を回復するためには運転
を中断することが必要であった。

本発明は、バックアップ処理回路内に、システムから切
り離されたユニットへの停止信号を解除する機能と、シ
ステムから切り離されたユニットが正常に動作可能であ
るか点検する機能と、−度システムから切り離されたユ
ニットがシステムに復帰するための準備をする機能を簡
単な手段で構成することにより、障害の発生に伴う制御
性能の低下を極力防ぎ、かつ、運転の中断をしなくても
故障部分を修理することを可能にする低価格でコンパク
トなフォールト・トレラント・コンピュータを提供する
ことを目的とする。

また、本発明は、障害の種類に応じた適切な再復帰方法
を提供し、性能低下の期間か短くかつ安全に制御性能を
回復するフォールト・トレラント・コンピュータを実現
することを目的とする。

〔発明の説明〕

本発明のフォールト・トレラント・コンピュータは、第
１図に示すように、マルチプロセッサシステムからなる
負荷分散形のフォールト・トレラント・コンピュータに
おいて；前記マルチプロセッサシステム全体のタスクを
機能分担してなる個別の各タスクより、実行すべきタス
クを前記動作情報に基づいて選択的に決定、実行し、か
つ、定期的に相互監視を行って該監視結果を前記バック
アップ処理回路へ出力するとともに、システムから切り
離された状態から停止信号が解除になった場合には自己
点検と相互点検とからなる動作点検とリスタートのため
の制御情報の入力とを行い、前記動作点検および制御情
報の入力か一定期間内に終了した時にシステムに復帰す
るリスタート機能を有する複数のコンピュータユニット
と；前記各コンピュータユニットからの監視結果に基づ
いて正常／異常コンピュータユニットを決定し、異常コ
ンピュータユニットには前記停止信号を出力してシステ
ムから切り離し、正常コンピュータユニットには前記動
作情報を出力し、かつ、システムから切り離されている
コンピュータユニットには一時的な停止信号の解除を行
うバックアップ処理回路と；前記各コンピュータユニッ
トと外部装置との間でデータ転送を行う入出力手段と；
前記各コンピュータユニットからデータの書込みおよび
読出しを行うための共有メモリと：前記コンピュータユ
ニットと前記入出力手段と前記共有メモリと前記バック
アップ処理回路とを接続するコモンエリア上のバスと；
を具備することを特徴とする。

〔発明の作用および効果〕

本発明は、上記構成によりフォールト・トレランスを行
う際、バックアップ処理回路が障害によりシステムから
切り離されたコンピュータユニットに対しその停止信号
を一時的に解除する。一方、停止信号が解除されたコン
ピュータユニットは自己監視と相互監視とからなる動作
点検を行い、それらを一定期間内に処理した場合にシス
テムに復帰する。動作点検で誤りが発見された場合また
は一定期間内に処理できなかった場合には、バックアッ
プ処理回路からの停止信号により再びシステムから切り
離される。

このように、本発明では、障害によりシステムから切り
離されているコンピュータユニットに対し一時的に停止
信号か解除されるので、その時すでに障害の原因が取り
除かれているような一過性の障害に対しては、再びシス
テムに復帰できる。

ゆえに、一過性の障害の発生により制御性能か低下する
ことはない。

また、コンピュータユニットに固定的な障害が発生しそ
のコンピュータユニットかシステムから切り離された場
合にも、システムか運転されている状態で固定的な障害
部分を修理すれば、リスタート機能により切り離された
コンピュータユニットはシステムに復帰できる。ゆえに
、例えば、航空機、高速道路走行中の車両や原子炉、溶
鉱炉等々のような、運転を中断してはならないものをも
制御対象とすることができるという効果がある。

以上のように、本発明によれば、障害による制御性能の
低下が最小限であり、かつ修理のために電源を落とす必
要のないフォールト・トレラント・コンピュータが実現
する。そのため、作業効率の大幅な向上、安全性の向上
、品質の向上か可能になり、ひいては経済的な面でも有
利になる。

さらに、各コンピュータユニットとバックアップ処理回
路の構成上の特徴を活かして、上記リスタートの機能を
適切に分担しているので、実現するための回路が極めて
簡単になる。

〔他の発明の説明〕

本発明をさらに具体化した構成よりなる第２発明につい
て説明する。

本第２発明のフォールト・トレラント・コンピュータは
、前記バックアップ処理回路が、各コンピュータユニッ
トからコモンエリアを介して送られた監視結果を一時的
に記憶する監視結果記憶手段と、前記記憶された監視結
果と現在の動作情報とに基づいて正常／異常コンピュー
タユニットを決定する決定手段と、前記決定結果に基づ
く動作情報を新たな動作情報として出力する動作情報出
力手段と、前記動作情報出力手段より出力された動作情
報を一時的に記憶しコモンエリアを介して各コンピュー
タユニットへ送るとともに、前記バックアップ処理回路
へフィードバックする動作情報−時記憶手段と、前記決
定結果に基づき異常コンピュータユニットに停止信号を
出力してシステムから切り離す停止信号出力手段と、設
定されたタイミングで起動信号を発生する起動信号発生
手段と、前記起動信号に基づき異常コンピュータユニッ
トへの停止信号を一時的に解除する停止信号解除手段と
、を具備することを特徴とする。

本第２の発明では、上記構成により、フォールト・トレ
ランスを実現する際、システムから切り離されたコンピ
ュータユニットに対する停止信号の一時的な解除は、前
記起動信号発生手段と前記停止信号解除手段により行わ
れる。したがって、前記起動信号発生手段を、例えば自
励発振回路により構成することにより、システムから切
り離されたコンピュータユニットに対しては、自動的に
一時的な停止信号の解除が行われ、このような操作はシ
ステムから切り離されたコンピュータユニットかシステ
ムに復帰するまで繰り返される。

この場合、−時的な障害によりシステムから切り離され
たコンピュータユニットは、自動的に停止信号が解除さ
れ、それと同時にシステムに復帰することができる。し
たがって、−時的な障害により制御性能が低下する期間
はほとんどない。また、作業者の操作を必要としない点
でも有利である。

特に、本第２発明は、システムから切り離されたコンピ
ュータユニットに対する一時的な停止信号の解除によっ
て発生する影響か小さく、かつ−時的な障害により起こ
る制御性能の低下か大きいようなシステムに対して適し
ている。

また、前記本発明における、作業効率の大幅な向上、安
全性の向上、品質の向上、ならびに経済的な面での優位
さは、決して損なわれるものではない。さらに、これら
を実現するための回路が極めて簡単になるというメリッ
トも同様に得られる。

なお、前記起動信号発生手段をマニュアル式のスイッチ
で構成することも可能である。この場合、システムから
切り離されたコンピュータユニットは、人為的な操作が
加わらない限りそのままの状態を維持する。したかって
、システムに悪影響を与えるような障害に陥っているコ
ンピュータユニットをむやみにリスタートさせることを
防ぐことかでき、信頼性か増す。また、運転状態、故障
の状況に応じて、作業者かその対策を選へるので都合が
よい。

また、前記本発明における、作業効率の大幅な向上、安
全性の向上、品質の向上、ならびに経済的な面での優位
さは、決して損なわれるものではない。

さらに、これらを実現するための回路か極めて簡単にな
るというメリットも同様に得られる。

〔実施例〕

以下、本発明の実施例を図面を用いて詳細に説明する。

第１実施例第３図は、本発明の第１実施例のフォールト・トレラン
ト・コンピュータ（以下、システムという）の全体構成
を示したものである。

コンピュータユニット１０（以下、ユニットという）は
、プロセッサ１１、ローカルメモリ１２、アドレスデコ
ーダ１３およびバススイッチ１４により構成されており
、それらはアドレスバスＡＢ】、データバスＤＢＩ、コ
ントロールバスＣＢＩを介して接続されている。ここで
、プロセッサ１１は、ローカルメモリ１２に書かれてい
るプログラムに基づいて所定の処理を行う。このプロセ
ッサ１１は、バックアップ処理回路の管理下にあり、停
止信号か発せられた場合には直ちに実行を中断しシステ
ムから離脱する。

アドレスデコーダ１３は、プロセッサ１１が出力してい
るアドレスをデコードし、ローカルエリアにおいてはロ
ーカルメモリ１２に対してチップセレクト信号を出力し
、コモンエリアにおいてはバススイッチ処理回路（バス
アビタ）ｌにコモンエリアに対するアクセス要求信号を
出力する。

ローカルメモリ１２は、プロセッサ１１からの要求に応
じてプログラムやデータの出力、並びにデータの記憶を
行う。

バススイッチ処理回路ｌは、各ユニット１０〜ＮＯから
のアクセス要求に応じて、コモンエリアが使用されてい
なければアクセス許可信号を出力し、使用中の場合には
使用が終了するまで待機させる。また、同時に複数のユ
ニットがアクセスを要求した場合には、優先順位の高い
ユニットから順にアクセスを許可する。

バススイッチ１４はアクセス許可信号に基づいて、ユニ
ットＩＯ内のアドレスバスＡＢＩ、データバスＤＢ　１
．コントロールバスＣＢＩと、コモンエリア内のアドレ
スバスＡＢ、データバスＤＢ。

コントロールバスＣＢとの接続または切り離しをする。

なお、ユニット２０からユニットＮＯについても全く同
様な構成であるので、説明を省略する。

コモンエリア上のアドレスデコーダ２は、コモンエリア
上のアドレス信号とコントロール信号とに基づいてコモ
ンエリアのアドレスをデコードし、コモンエリアに配置
された共有メモリ３、出力ポート４、入力ポート５のい
ずれかに対しチップセレクト信号を出力する。

共有メモリ３は、要求に応じて、各ユニット１０〜ＮＯ
からのデータを記憶したり、または各ユニットに記憶さ
れているデータを出力する。なお、どのユニットからも
アクセス可能であるので、共有メモリ３を介したユニッ
ト間のデータ転送が可能である。各ユニット間の相互監
視はこの共有メモリ３を介して行われる。

出力ポート４は、各ユニット１Ｏ−Ｎｏから出力された
指令信号などを外部に配置されたアクチエーター６に出
力する。

入力ポート５は、外部のセンサ７から検出信号を入力し
各ユニット１０〜ＮＯに転送する。

バックアップ処理回路１００は、出力ポート１０１、入
力ポート１０２、正常／異常コンピュータ決定回路１０
３から構成されており、これらはコモンエリア上に配置
されている。ここで、各ユニット間でお互いに相互監視
した結果は、コモンエリアを介してコモンエリア上の出
力ポート１０１に出力され、一方、出力ポートｌＯ１は
、各ユニット間でお互いに相互監視した結果を入力し、
正常／異常コンピュータ決定回路１０３に出力する。

正常／異常コンピュータ決定回路１０３は各ユニットか
らの監視結果とその時の動作情報に基づいて正常なユニ
ットと異常なユニットを決定する。

そして、異常ユニットに対してはマニュアル・リスター
ト・スイッチ１０４を介して停止信号を出力する。一方
、正常ユニットに対しては、現在どのユニットタが正常
に運転しているかを知らせるために、新たな動作情報を
入力ポート１０２に出力し、また同時に正常／異常コン
ピュータ決定回路１０３自身にその動作情報をフィード
バックする。

入力ポート１０２は、ラッチした動作情報をコモンエリ
アを介して正常ユニットに送る。正常なユニットは、そ
の動作情報に基づいてその時点で実行すべきタスクを選
択実行する。その際、各ユニットの実行するタスクが重
複することなく、かつ漏れることのないように、あらか
じめ各ローカルメモリにはすべての動作状態を想定した
プログラムが書かれている。

上記構成において、各ユニット間の相互監視は、共有メ
モリ３内に設けられた第４図のような水槽モデルに基づ
いて次のように行われる。

ステップ１：被監視コンピュータユニットは、自分自身の水槽をＦｕ
ｌｌまで給水する。

ステップ２：監視コンピュータユニットは、被監視コンピュータユニ
ットの水槽から一定量ずつ排水する。

ステップ３：排水した結果、水槽がＥｍｐ　ｔｙの場合、その被監視
コンピュータユニットを異常とする。水が残っていれば
正常とする。

実際には、給水は共有メモリ３にある値をセ・ノドする
ことてあり、排水はコモンエリアの値から一定値をデク
リメントすることに相当する。これらの相互監視は、お
互いにクロスして行われる。

このようなソフトウェアによる相互監視を各ユニットが
定期的に行いその監視結果を出力ポートｌＯ１に出力す
る。

バックアップ処理回路１００は、各ユニットｌＯ〜ＮＯ
から出力された監視結果を入力し、その内現在の動作情
報により正常と判定されているユニットの監視結果だけ
に基づいて正常ユニットと異常ユニットを決定する。そ
の決定の際の基本側は、次のようである。

（１）過半数以上のユニットにより正常と判定されたユ
ニットは異常と決定する。

（２）半数未満のユニットにより異常と判定された場合
、判定された側も判定した側も正常と決定する。

（３）半数のユニットが残り半数のユニットを異常と判
定した場合、残り半数のユニットを異常と決定する。

次に、異常と決定されたユニットに対しては、マニュア
ル・リスタート・スイッチ１０４を介して停止信号を出
力し、システムから切り離す。

方、正常ユニットに対しては、現在どのユニットが正常
に運転しているかを知らせるために、新たな動作情報を
入力ポート１０２を介して転送する。

その時、正常ユニットは、その動作情報に基づいて、各
ユニットの実行するタスクか重複することなく、かつ漏
れることのないように、タスクを実行する。この時の各
ユニットの動作は、第５図のようになる。まず、他のユ
ニットの動作状態をそれぞれ相互監視し、その結果をバ
ックアップ処理回路に出力する。続いて、バックアップ
処理回路から現在の動作情報を入力し、その情報に基づ
いて実行すべきタスクを決定する。なお、故障ユニット
が存在する場合には、残された正常ユニットですべての
タスクを実行する必要かあるので、１台のユニットで複
数のタスクを実行する必要が生じる。そこで、１種類の
タスクを実行した後、それ以外のタスクを実行する必要
かあるか判断し、必要がある場合には再度別のタスクを
実行する。

実行すべきタスクを−通り実行した後、初めの相互監視
に戻る。なお、すべての動作状態に対して、実行すべき
タスクを、あらかじめローカルメモリに書いて置く。タ
スクは割り振りは、各タスクの優先順位と各ユニットの
優先順位に基づいて次のように決定している。

（１）動作しているユニットの内、優先順位の高いもの
から順に、高速演算の必要性か高いタスクを実行させる
。

（２）複数のタスクを１台のユニットで直列処理させる
必要か生じた場合、高速演算の必要性が低いタスクから
順に直列接続し、優先順位の低いユニットに直列処理さ
せる。

この場合、一部のユニットに障害が発生すると、その部
分はシステムから切り離され、残りのユニットでシステ
ム全体のタスクが実行される。このような再構成は残り
一台になるまで繰り返される。

その時、正常なユニットの数が、システム全体のタスク
の数に比へ多ければ、一部のユニットはタスクを実行せ
ずに待機する。そして、正常なユニットの数か減少する
に従い、待機中のユニットか代わってタスクを実行する
ことになる。一方、正常ユニットの数が、システム全体
のタスクの数より少なくなった場合には、残りのユニッ
トは、台で複数のタスクを実行することが必要になり、
タスクを実行するための制御周期が長くなる。そのため
、このままでは制御性能の低下を招くことになる。

そこで、本第１実施例では、この状態で作業者が故障部
分の点検、修理を行い、修理完了後そのコンピュータユ
ニットを第６図のような手順で再度復帰させる。

まず、作業者か修理完了後、マニュアル・リスタート・
スイッチ１０４を押す。その時、これまでシステムから
切り離されていたユニットは、停止信号が解除され、動
作情報に基づいて特別なリスタート・オペレーションを
実行する。まず、ローカルメモリのチエツクを行う。メ
モリチエツクをパスすると、続いて、共有メモリ３から
現在の制御情報を入手し、各タスクを実行するために必
要な定数または変数に変換する。なお、それらの値が妥
当であるかをチエツクし、適切でない場合には再度制御
情報を入手する。これらの自己監視をパスすると、続い
て、相互監視を行う。これらをすべて、作業者かマニュ
アル・リスタート・スイッチ１０４を押している期間中
にパスすると、正常ユニットから正常であると判定され
、バックアップ処理回路１０３からのリセット信号が解
除される。その結果、このユニットは、システムに復帰
することが可能になり、タスクを分担して実行すること
になる。

上記のように、本第１実施例によれば、フォールト・ト
レランスを行う際、バックアップ処理回路１０３内で障
害によりシステムから切り離されているユニットに対し
その停止信号を一時的に解除することが可能である。停
止信号が解除されると、そのユニットは自己監視と相互
監視とからなる動作点検を行い、それらを一定期間内に
処理した場合にシステムに復帰できる。動作点検で誤り
が発見された場合または一定期間内に処理できなかった
場合には、バックアップ処理回路１０３からの停止信号
により再びシステムから切り離される。

このように、本第１実施例では、障害によりシステムか
ら切り離されているユニットに対し一時的に停止信号を
解除できるので、その時すでに障害の原因が取り除かれ
ているような一過性の障害に対しては、再びシステムに
復帰できる。ゆえに、一過性の障害の発生により制御性
能が低下することはない。

また、固定的な障害が発生しそのユニットかシステムか
ら切り離された場合にも、システムが運転されている状
態で固定的な障害部分を修理すれば、システムに復帰で
きる。ゆえに、運転を中断する必要はまったくない。

このように、本第１実施例によれば、障害による制御性
能の低下が最小限であり、かつ修理のために電源を落と
す必要のないフォールト・トレラント・コンピュータが
実現する。その結果として、作業効率の大幅な向上、安
全性の向上、品質の向上か可能になり、ひいては経済的
な面でも有利になる。

さらに、ユニットとバックアップ処理回路の構成上の特
徴を活かして、上記リスタートの機能を適切に分担して
いるので、実現するための回路か極めて簡単になる。

また本第１実施例では、フォールト・トレランスを実現
する際、システムから切り離されたユニットに対する停
止信号の一時的な解除は、マニュアル・リスタート・ス
イッチ１０４により行われる。したがって、システムか
ら切り離されたユニットは、人為的な操作が加わらない
限りそのままの状態を維持する。

この場合、システムに悪影響を与えるような障害に陥っ
ているユニットをむやみにリスタートさせることを防ぐ
ことができ、信頼性が増す。また、運転状態、故障の状
況に応じて、作業者がその対策を選べるので都合がよい
。

第２実施例第７図は、本発明の第２実施例のフォールト・トレラン
ト・コンピュータを示すものである。以下に、第２実施
例について説明するが、第１実施例と全く同一の構成の
部分については、同一の符号を付して説明する。

ユニットｌＯは、プロセッサ１１．ローカルメモリ１２
、アドレスデコーダ１３およびバススイッチ１４により
構成されており、それらはアドレスバスＡＢ１、データ
バスＤＢ　１、コントロールバスＣＢＩを介してそれぞ
れ接続されている。ユニット２０からユニットＮＯにつ
いても全く同様に、プロセッサ、ローカルメモリ、アド
レスデコーダ、バススイッチにより構成されている。

これらのユニット１０〜ＮＯは、コモンエリアを介して
それぞれ接続されている。コモンエリア上には、アドレ
スデコーダ２、共有メモリ３、出力ポート４、入力ポー
ト５か配置されており、ユニット間のデータの転送なら
びに外部とのデータの入出力を行っている。また、共有
メモリ３を介して、各ユニットでそれぞれ相互監視を行
っている。以上の構成ならびに動作は第１実施例と全く
同様であり、その詳細は省略する。

コモンエリア上には、上記以外にバックアップ処理回路
１００が配置されている。バックアップ処理回路１００
は、出力ポート１０１、入力ポート１０２、正常／異常
コンピュータ決定回路１０３、マニュアル・リスタート
・スイッチ１０４、オート・リスタート・スイッチ１０
５、リスタート・パルス発生回路１０６から構成されて
いる。

ここで、出力ポート１０１は、各コンピュータユニット
間でお互いに相互監視した結果を入力し、正常／異常コ
ンピュータ決定回路１０３に出力する。正常／異常コン
ピュータ決定回路１０３は各ユニットからの監視結果と
その時の動作情報に基づいて正常なユニットと異常なユ
ニットを決定する。そして、異常ユニットに対してはマ
ニュアル・リスタート・スイッチ１０４を介して停止信
号を出力する。一方、正常ユニットに対しては、現在ど
のユニットが正常に運転しているかを知らせるために、
新たな動作情報を入力ポート１０２に出力し、また同時
に正常／異常コンピュータ決定回路１０３自身にその動
作情報をフィードバックする。入力ポート１０２は、ラ
ッチした動作情報をコモンエリアを介して正常なユニッ
トに送る。

正常ユニットは、その動作情報に基づいてその時点で実
行すべきタスクを選択実行する。その際、各ユニットの
実行するタスクが重複することなく、かつ漏れることの
ないように、あらかじめ各ローカルメモリにはすべての
動作状態を想定したプログラムが書かれている。

上記構成において、各ユニット間の相互監視は、第１実
施例と全く同様に共有メモリ３内に設けられた第４図に
示すような水槽モデルに基づいて行われる。この相互監
視は、お互いにクロスして定期的に行われ、その監視結
果は出力ポート１０１に出力される。なお、相互監視の
詳細については第１実施例と同様であるのでここでは省
略する。

バックアップ処理回路１０３は、各ユニットから出力さ
れた監視結果を入力し、その内現在の動作情報により正
常と判定されているユニットの監視結果だけに基づいて
正常ユニットと異常ユニットを決定する。正常／異常を
決定するための基本側も、第１実施例と同しであるので
その詳細は省略する。

方、正常なユニットに対しては、現在とのユニットか正
常に運転しているかを知らせるために、新たな動作情報
を入力ポート１０２を介して転送する。その時、正常ユ
ニットは、その動作情報に基づいて、各ユニットの実行
するタスクか重複することなく、かつ漏れることのない
ように、タスクを実行する。この時の各ユニットの動作
は、第１実施例の場合と同様に第５図に示すような方法
で行われる。すなわち、まず、他のユニットの動作状態
をそれぞれ相互監視しその結果をバックアップ処理回路
１０３に出力する。続いて、パックアツブ処理回路１０
３から現在の動作情報を入力し、その情報に基づいて実
行すべきタスクを決定する。

なお、故障ユニットが存在する場合には、残された正常
ユニットですべてのタスクを実行する必要があるので、
１台のユニットで複数のタスクを実行する必要が生じる
。そこで、１種類のタスクを実行した後、それ以外のタ
スクを実行する必要かあるか判断し、必要がある場合に
は再度別のタスクを実行する。実行すべきタスクを−通
り実行した後、初めの相互監視に戻る。なお、すべての
動作状態に対して、実行すべきタスクを、あらかじめロ
ーカルメモリに書いて置く。タスクは割り振りは、各タ
スクの優先順位と各ユニットの優先順位に基づいて第１
実施例と同様な方法で決定している。

本システムの場合、一部のユニットに障害が発生すると
、その部分はシステムから切り離され、残りの正常ユニ
ットでシステム全体のタスクが実行される。このような
再構成は残り一台になるまで繰り返される。その時、正
常ユニットの数が、システム全体のタスクの数に比べ多
ければ、一部のユニットはタスクを実行せずに待機する
。そして、正常ユニットの数が減少するに従い、待機中
のユニットが代わってタスクを実行することになる。一
方、正常ユニットの数が、システム全体のタスクの数よ
り少なくなった場合には、残りのユニットは、−台で複
数のタスクを実行することが必要になり、タスクを実行
するための制御周期か長くなる。そのため、このままで
は制御性能の低下を招くことになる。

そこで、この状態で作業者が故障部分の点検、修理を行
い、修理完了後そのユニットを第８図に示すマニュアル
・リスタートの手順で再度復帰させる。

まず、作業者が修理完了後、マニュアル・リスタート・
スイッチ１０４を押すことにより停止信号を解除する。

その時、これまでシステムから切り離されていたユニッ
トは動作情報に基づいて特別なリスタート・オペレーシ
ョンを実行する。まず、ローカルメモリのチエツクを行
う。メモリチエツクをパスすると、共有メモリ３から現
在の制御情報を入手する。続いて、相互監視を行いこれ
らを、作業者がマニュアル・リスタート・スイッチ１０
４を押している期間中にすべてパスすると、正常ユニッ
トから正常であると判定され、バックアップ処理回路１
０３からのリセット信号か解除される。したかってシス
テムに復帰することか可能になりタスクを分担して実行
することになる。

以上は、作業者による手動式のリスタート手段である。

これに対し、本第２実施例では以下で説明する自動式の
リスタート手段も兼ね備えている。

第７図に示すリスタート・パルス発生回路２０６は、オ
ート・リスタートを行うためのパルスを定期的に発生し
、オート・リスタート・スイッチ２０５を介して正常／
異常コンピュータ決定回路１０３に出力している。オー
ト・リスタート・スイッチ２０５は、正常／異常コンピ
ュータ決定回路１０３へのリスタート・パルスをオン、
オフしている。ここで、オート・リスタート・スイッチ
２０５かオフしている状態の場合には、本第２実施例は
第１実施例と全く同じ機能である。一方、オート・リス
タート・スイッチ２０５がオン状態の場合には、正常／
異常コンピュータ決定回路１０３にリスタートパルスか
入力される。この場合、正常／異常コンピュータ決定回
路１０３は、リスタートパルスかオフの時には、その時
点の相互監視結果、動作情報に基づいて停止信号を決定
し出力する。リスタートパルスかオンの時には、その時
点の相互監視結果、動作情報にかかわらず停止信号を無
条件に解除する。これを実現するために、正常／異常コ
ンピュータ決定回路１０３には、ＲＯＭテーブルにより
、リスタートパルスかオンの時、停止信号が解除になる
ようなデータがあらかじめ書かれている。

上記構成において、オート・リスタート・スイッチ２０
５が接続されていると、システムから切り離されている
ユニットは、第８図のオートリスタートの手順で復帰す
る。

まず、リスタートパルスがオンになると、停止信号は解
除される。その時、これまでシステムから切り離されて
いたユニットは動作情鞭に基づいて特別なリスタート・
オペレーションを実行する。

まず、ローカルメモリのチエツクを行う。メモリチエツ
クをパスすると、共有メモリ３から現在の制御情報を入
手する。続いて、相互監視を行いこれらをリスタートパ
ルスがオンの期間中にすべてバスすると、正常のユニッ
トから正常であると判定され、バックアップ処理回路１
０３からのリセット信号が解除される。したがってシス
テムに復帰することが可能になりタスクを分担して実行
することになる。

上記のように、本第２実施例によれば、フォールト・ト
レランスを行う際、バックアップ処理回路１０３内で障
害によりシステムから切り離されているユニットに対し
その停止信号を一時的に解除することが可能である。停
止信号が解除されると、そのユニットは自己監視と相互
監視からなる点検を行い、それらを一定期間内に処理し
た場合にシステムに復帰できる。点検で誤りが発見され
た場合、または一定期間内に処理できなかった場合には
、バックアップ処理回路１０３からの停止信号により再
びシステムから切り離される。

このように、本発明では、障害によりシステムから切り
離されているユニットに対し一時的に停止信号を解除で
きるので、その時すでに障害の原因が取り除かれている
ような一過性の障害に対しては、再びシステムに復帰で
きる。ゆえに、一過性の障害の発生により制御性能が低
下することはない。

また、固定的な障害が発生しそのユニットがシステムか
ら切り離された場合にも、システムが運転されている状
態で固定的な障害部分を修理すれば、システムに復帰で
きるので、運転を中断する必要はまったくない。

このように、本第２実施例によれば、障害による制御性
能の低下が最小限であり、かつ修理のために電源を落と
す必要のないフォールト・トレラント・コンピュータが
実現する。その結果として、作業効率の大幅な向上、安
全性の向上、品質の向上が可能になり、ひいては経済的
な面でも有利になる。

さらに、コンピュータユニットとバックアップ処理回路
の構成上の特徴を活かして、上記リスタートの機能を適
切に分担しているので、実現するための回路が極めて簡
単になる。

また本第２実施例では、フォールト・トレランスを実現
する際、システムから切り離されたコンピュータユニッ
トに対する停止信号の一時的な解除を、マニュアル・リ
スタート・スイッチにより行うことかできる。したがっ
て、システムから切り離されたコンピュータユニットは
、人為的な操作が加わらない限りそのままの状態を維持
する。

この場合、システムに悪影響を与えるような障害に陥っ
ているコンピュータユニットをむやみにリスタートさせ
ることを防ぐことができ、信頼性が増す。また、運転状
態、故障の状況に応じて、作業者がその対策を選べるの
で都合がよい。

さらに、本第２実施例では、フォールト・トレランスを
実現する際、システムから切り離されたコンピュータユ
ニットに対する停止信号の一時的な解除を、オート・リ
スタートにより行うこともできる。したがって、システ
ムから切り離されたコンピュータユニットに対しては、
自動的に一時的な停止信号の解除が行われ、このような
操作はシステムから切り離されたコンピュータユニット
がシステムに復帰するまで繰り返される。

この場合、−時的な障害によりシステムから切り離され
たコンピュータユニットは、自動的に停止信号が解除さ
れ、それと同時にシステムに復帰することができる。し
たかって、−時的な障害により制御性能が低下する期間
はほとんどない。また、作業者の操作を必要としない点
でも有利である。

特に、システムから切り離されたコンピュータユニット
に対する一時的な停止信号の解除によって発生する影響
が小さく、かつ−時的な障害により起こる制御性能の低
下か大きいようなシステムに対して適している。

なお、上記第１および第２実施例では、相互監視を水槽
モデルにより行っているが、これは本発明の本質ではな
いので、これだけに限るものではない。また、正常コン
ピュータユニットと異常コンピュータユニットの決定方
法ならびにタスクの割り振り方についても上記実施例に
よる方法に限るものではない。

また、上記各実施例では、第１および第２発明の組み合
わせを示しているが、実施例以外の組合せで構成するこ
とも可能である。

【図面の簡単な説明】

第１図は本発明のフォールト・トレラント・コンピュー
タの全体構成図、第２図は従来のフォールト・トレラン
ト・コンピュータの概念図、第３図は第１実施例の構成
図、第４図は相互監視方法の説明図、第５図はバックア
ップ処理のフローチャート、第６図゛は第１実施例にお
けるリスタート・オペレーションのフローチャート、第
７図は第２実施例の構成図、第８図は第２実施例におけ
るリスタート・オペレーションのフローチャートである
。第２図監視コンピュータ被監視コンピュータ第４図

Claims

【特許請求の範囲】マルチプロセッサシステムからなる負荷分散形のフォー
ルト・トレラント・コンピュータにおいて、前記マルチプロセッサシステム全体のタスクを機能分担
してなる個別の各タスクより、実行すべきタスクを前記
動作情報に基づいて選択的に決定、実行し、かつ、定期
的に相互監視を行って該監視結果を前記バックアップ処
理回路へ出力するとともに、システムから切り離された
状態から停止信号が解除になった場合には自己点検と相
互点検とからなる動作点検とリスタートのための制御情
報の入力とを行い、前記動作点検および制御情報の入力
が一定期間内に終了した時にシステムに復帰するリスタ
ート機能を有する複数のコンピュータタユニットと、前記各コンピュータユニットからの監視結果に基づいて
正常／異常コンピュータユニットを決定し、異常コンピ
ュータユニットには前記停止信号を出力してシステムか
ら切り離し、正常コンピュータユニットには前記動作情
報を出力し、かつ、システムから切り離されているコン
ピュータユニットには一時的な停止信号の解除を行うバ
ックアップ処理回路と、前記各コンピュータユニットと外部装置との間でデータ
転送を行う入出力手段と、前記各コンピュータユニットからデータの書込みおよび
読出しを行うための共有メモリと、前記コンピュータユ
ニットと前記入出力手段と前記共有メモリと前記バック
アップ処理回路とを接続するコモンエリア上のバスと、を具備することを特徴とするフォールト・トレラント・
コンピュータ。