JP2752764B2 - 障害処理方式 - Google Patents

障害処理方式

Info

Publication number
JP2752764B2
JP2752764B2 JP2058619A JP5861990A JP2752764B2 JP 2752764 B2 JP2752764 B2 JP 2752764B2 JP 2058619 A JP2058619 A JP 2058619A JP 5861990 A JP5861990 A JP 5861990A JP 2752764 B2 JP2752764 B2 JP 2752764B2
Authority
JP
Japan
Prior art keywords
failure
processor
speed
main memory
connection configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2058619A
Other languages
English (en)
Other versions
JPH03259349A (ja
Inventor
昭 実宝
昭彦 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
NEC Computertechno Ltd
Original Assignee
NEC Computertechno Ltd
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Computertechno Ltd, Nippon Electric Co Ltd filed Critical NEC Computertechno Ltd
Priority to JP2058619A priority Critical patent/JP2752764B2/ja
Priority to DE69120104T priority patent/DE69120104T2/de
Priority to CA002037776A priority patent/CA2037776C/en
Priority to EP91103469A priority patent/EP0445799B1/en
Priority to US07/665,955 priority patent/US5280606A/en
Publication of JPH03259349A publication Critical patent/JPH03259349A/ja
Application granted granted Critical
Publication of JP2752764B2 publication Critical patent/JP2752764B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1417Boot up procedures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0763Error or fault detection not based on redundancy by bit configuration check, e.g. of formats or tags
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)
  • Processing Or Creating Images (AREA)
  • Complex Calculations (AREA)
  • Image Processing (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は情報処理システムの障害処理方式に関し、特
に高速演算プロセッサの障害処理方式に関する。
〔従来の技術〕
スーパーコンピュータは汎用計算機と比べ桁違いに高
速な演算処理能力を持っており、特に科学・技術の領域
でさまざまな研究や技術開発のために利用されている。
このようなスーパーコンピュータにおいて、高速演算を
実現するハードウェア上の工夫として基本的に2つの方
法が採用されている。第1の方法は、速度=処理量/時
間であることから、処理量一定としてその処理量をこな
す処理時間を短縮することである。このことはコンピュ
ータの基本の処理単位であるクロックを可能な限り短縮
することである。スーパーコンピュータのクロックは年
々短縮化され、汎用機と比べ1桁以上速い2.9n秒(光が
約3.6m進む時間)に16個の64ビット浮動小数点演算可能
なスーパコンピュータも商用化されている。
第二の方法は、主記憶に対するデータアクセスを極力
減らす工夫である。スーパコンピュータでは特に大量の
データを1度に扱うので、主記憶に対してアクセスが頻
発すると高性能を実現することができない。したがっ
て、主記憶アクセスに比べアクセス化が短かくてすむレ
ジスタアクセスを有効に利用できるように、ソフソウェ
アビジブルなレジスタを大量に準備することによって主
記憶アクセクを大幅にへらす工夫をしている。
上記のように、スーパコンピュータはマシーンクロッ
クが短かく大量にソフトビジブルレジスタを備えている
ので、障害発生に汎用機のようにソフトウェアビジブル
レジスタを保持しておき命令リトライやプロセッサリリ
ーフのような障害処理をすることは困難である。すなわ
ち、マシーンクロックが短いということは、障害を検出
してからクロックが停止するまでのクロック数が多くな
ることを意味しており、クロック数で比較した場合に汎
用機と比べすべりが大きくなり、命令リトライやプロセ
ッサリリーフのためのソフトウェアビジブルな情報の保
留が困難である。また、ソフトウェアビジブルなレジス
タが汎用機と比べ大量にあるということはやはり命令リ
トライやプロセッサリリーフのためのソフトウェアビジ
ブルな情報をホールドすることを難しくしている。
〔発明が解決しようとする課題〕
上述したように性能を最重視するスーパーコンピュー
タシステムにおいては、障害発生時に命令リトライやプ
ロセッサリリーフのための情報の保持が困難であり、障
害の原因が間欠障害や縮退運転可能な固定障害でも直ち
にシステムダウンにしてしまい、ユーザーに対する影響
が大きいという欠点があった。また実行中のジョブをア
ボートされるだけでなく以後のユーザージョブが全てア
ボートされるという欠点もあった。
〔課題を解決するための手段〕
本発明の障害処理方式は、情報処理システム全体を制
御する制御プロセッサと,周辺機器を制御する入出力プ
ロセッサと,前記制御プロセッサが実行するプログラム
を格納する第一の主メモリとを接続した第一のシステム
制御装置と、直列に接続した複数の高速演算プロセッサ
と,前期高速演算プロセッサが実行するプログラムおよ
びデータを格納する第二の主メモリと,前記第一のシス
テム制御装置とを接続した第二のシステム制御装置とを
含む情報処理システムにおいて、前記第一および第二の
システム制御装置を接続した保守診断装置と、前記情報
処理システムの各プロセッサ単位および各装置単位に障
害を検出して前記保守診断装置に通知する障害検出報告
手段と、前記の各プロセッサおよび装置の有効/無効の
程度を示し上位の高速演算プロセッサが無効の場合には
下位の高速演算プロセッサを全て無効にする接続構成制
御手段と、システム運用中に障害の発生の通知をうけた
とき有効な高速演算プロセッサが存在するかどうかを判
定し,有効な高速演算プロサッサが存在しない場合には
高速演算プロセッサのテストプログラムを実行し,前記
テストプログラムの実行結果が正常であれば従前の接続
構成でシステム運用を再開し,前記テストプログラムの
実行結果が異常であれば障害の原因に応じて前記第二の
主メモリおよび高速演算プロセッサを部分的に無効にし
て縮退した接続構成で再び前記テストプログラムを実行
し,前記テストプログラムの実行結果が正常であれば前
記縮退した接続構成でシステム運用を再開する障害処理
制御手段とを具備するよるにして構成される。
また、本発明の障害処理方式は、前記1回目のテスト
プログラムを起動するか否かをあらかじめ定められた情
報に従って判定し制御する。
さらに、前記テストプログラムの実行結果が正常のと
き高速演算プロセッサの運用を再開するか否かをあらじ
め定められた情報に従って判定し制御する。
また、本発明の障害処理方式において、前記高速演算
プロセッサは複合演算パイプラインを含んだ複数のベク
トル演算パイプラインを備え、前記接続構成制御手段は
前記複数のベクトル演算パイプラインの一部を無効にす
ること含む。
さらに、前記接続構成制御手段は前記第二の主メモリ
の一部を無効にすること含む。
さらに、前記接続構成制御手段は前記高速演算プロセ
ッサ内に含まれるキャッシュの一部を無効にすること含
む。
また、本発明の障害処理方式は、前記第二の主メモリ
および高速演算プロセッサを部分的に無効にするか否か
を障害の原因に従ってあらかじめ定められた情報に従っ
て判定し制御する。
さらに、本発明の障害処理方式は、前記第二のシステ
ム制御装置および第二の主メモリが原因で障害になった
場合は前記システムの全体障害とみなして前記高速演算
プロセッサと同様に障害処理をする。
〔実施例〕
次に、本発明について図面を参照して説明する。
第1図は本発明の一実施例を示す構成図である。同図
において障害処理方式は、情報処理システム全体を制御
する制御プロセッサ3と,周辺機器を制御する入出力プ
ロセッサ4と,前記制御プロセッサ3が実行するプログ
ラムを格納する第一の主メモリ9とを接続した第一のシ
ステム制御装置1と、直列に接続した複数の高速演算プ
ロセッサ5〜8と,前記高速プロセッサ5〜8が実行す
るプログラムおよびデータを格納する第二の主メモリ10
と,前記第一のシステム制御装置1とを接続した第二の
システム制御装置2とを含む情報処理システムにおい
て、前記第一および第二のシステム制御装置を接続した
保守診断装置13と、前記情報処理システムの各プロセッ
サ単位および各装置単位に障害を検出して前記保守診断
装置13に通知する障害検出報告手段20〜29と、前記の各
プロセッサおよび装置の有効/無効の程度を示し高速演
算プロセッサが無効の場合には下位の高速演算プロセッ
サを全て無効にする接続構成制御手段11とを有してい
る。さらに、システム運用中に障害の発生の通知をうけ
たとき、有効な高速演算プロセッサが存在するかどうか
を判定し、有効な高速演算プロセッサが存在しない場合
には高速演算プロセッサのテストプログラムを実行し、
前記テストプログラムの実行結果が正常であれば従前の
接続構成でシステム運用を再開し、前記テストプログラ
ムの実行結果が異常であれば障害の原因に応じて前記第
二の主メモリおよび高速演算プロセッサを部分的に無効
にして縮退した接続構成で再び前記テストプログラムを
実行し、前記テストプログラムの実行結果が正常あれば
前記の縮退した接続構成でシステム運用を再開する障害
処理制御手段12を具備する。
制御プロセッサ3はスーパーバイザー機能を持ち、ユ
ーザープログラムのコンパイル,リンクを実現してい
る。第一の主メモリ9は制御プロセッサを制御する制御
プログラムや制御用データを格納している。さらに第二
の主メモリ20はユーザプログラムのロードモジュールや
演算用データを格納し、高速演算プロセッサ5〜8はユ
ーザープログラムを高速に実行する。そして、入出力プ
ロセッサ,制御プロセッサ及び高速演算プロセッサは各
々に独立に動作することができ、システムのスループッ
トを高めている。
保守診断装置13は、システムの初期設定機能,立ちあ
げ機能,構成制御機能,障害処理機能を備えている。
第2図は高速演算プロセッサを示す説明図である。高
速演算プロセッサは機能的に、スカラユニット30とベク
トルユニット40とにわかれる。スカラユニット30は、主
記憶装置からとり出した命令を解読する。解読した命令
がスカラ命令であればスカラユニットで実行し、ベクト
ル命令であれば、ベルトルユニットで実行する。
スカラユニット30はスカラ演算用レジスタとして128
個の汎用レジスタ(スカラレジスタ)32を用意して、レ
ジスタ主体のアーキテクチャによって高速化している。
また、主記憶装置へのアクセス時間を実効的に短縮する
手段として64Kバイトの容量の2レベルのキャッシュメ
モリ31があり、主記憶アクセスに対して高速に応答す
る。さらに、スカラ演算は8バイトデータ演算を基本と
し、スカラの加減算,論理演算,シフト,乗除算の各演
算器から構成されたパイプライン化されたスカラ演算パ
イプライン33で実行される。
ベクトルユニット40は大容量のベクトルレジスタ41を
中心に16本のベクトル演算パイプライン(セット0〜
3),ベクトルマスクレジスタ42,マスク演算ユニット4
3から成る。ベクトル演算パイプラインは加算/シフト
演算器2種および乗除/論理演算器2種を1セットとし
て4セット合計の16本のベクトル演算パイプライン(セ
ット0〜3)の並列動作を実現し、ベクトル演算の高速
化を計っている。また、ベクトルマスクレジスタ41(1b
it×256語)を8個備えている。
第3図はベクトルパイプラインセット0〜3の有効/
無効の取り得る組合せを示す説明図である。ベクトルパ
イプラインセット0〜3の取り得る組合せは7通りであ
る。
第4図は2レベルよりなるキャッシュメモリ31の各々
のレベルの有効/無効の取り得る組合せを示す説明図で
ある。2レベルが両方とも無効になったケースでは、キ
ャッシュメモリをバイパスして動作する。
第5図は第二の主メモリ10の有効/無効と取り得る組
合せを示す説明図である。第二の主メモリ10は各々独立
にアクセス可能な8つのユニットから構成されている。
第6図は高速演算プロセッサ5〜8の有効/無効の取
り得る組合せを示す説明図である。上位の高速演算プロ
セッサ5または7が無効の場合には下位の高速演算プロ
セッサ6または8が全て無効になるように制御される。
第7図はシステム運用中に高速演算プロセッサ5〜8
その他で障害が発生したとき、障害の通知を受けた保守
診断装置13の障害制御手段12の動作を示す流れ図であ
る。以下、高速演算プロセッサ5〜8をAP(APi,i=0,
1,2,3),第二の主メモリ10をAM,第二のシステム制御装
置2をIU,制御プロセッサ3をCP,テストプログラムをFT
とよぶ。
第7図において、障害処理がデバックやユーザの運用
環境に応じて変換可能なように設定可能となっているSG
パラメータは規定値とする。
全体障害発生時、保守診断装置はCPに障害発生を通知
し、以後組み込み可/不可の通知があるまではAPへのユ
ーザジョブのスケジューリングを保留する(ステップ5
1)。次に、AP,IU,AMの障害状態をエラーログとして採
取する(ステップ52)。そして、FTを実行し、障害の間
欠/固定の切りわけを行なう(ステップ53,54)。
FTが正常終了なら間欠障害とみなしCPに組込み可を通
知する。CPは障害発生前の構成のままAPを再立ちあげ
し、保留されていたジョブのシステム運用を再開する
(ステップ55)。
APのFTの実行結果が異常なら固定障害とみなして再び
障害時のエラーログを採取し(ステップ56)、ベクトル
パイプライン,キュッシュメモリ,AMに関する縮退運転
可能な障害かどうかを判定し、その結果に従って構成接
続情報を更新する(ステッツ57)。さらに、AP台数の縮
退も含んで縮退運転可能かどうかを判定し(ステップ5
8)、縮退運転可能な障害であれば縮退した状態でFTを
実行し(ステップ59)、FTが正常であれば縮退した構成
でAPを再立ちあげし保留されていたジョブの運用を再開
する(ステップ60,55)。
縮退運転可能な障害でないケースや縮退した構成でFT
の実行が異常終了したケースは、システムの継続運用は
できないとみなしてシステムダウンさせる(ステップ6
1,62)。
次に、下記の条件を設けて障害処理制御手段の動作を
さらに詳細に説明する。
FTを実行した全APの実行結果が正常でなくとも、実行
結果が正常なAP(該APの上位APは全て実行結果が正常で
なければならない。)が存在すれば、その正常なAPを組
込む。
AP台数よりもベクトル本数の多いことを優先する。す
なわち、組込むAPのベクトルディグレイド状態はIUに接
続されたAPのベクトルディグレイド状態と同じにする。
第8図(a),(b),(c),(d)は障害処理制
御手段の詳細な動作を示す流れ図である。同図におい
て、AP,IU,又はAMにおいて障害を検出したとき、保守診
断装置に障害発生が通知される。障害の報告を受けた保
守診断装置は障害の発生した装置の状態をログデータと
して採取する。
障害の発生原因がIU又はAMのケースは全体障害とみな
す。障害の発生原因がAPのケースでは、該障害のAP及び
該障害APの全てを含んで無効にした場合、その結果シス
テムに有効なAPが存在するかどうかを判定し、有効なAP
が存在しない場合は、全体障害とみなすが、有効なAPが
存在するケースでは部分障害とみなし、該障害のAP(及
び下位のAP全てを含む)を無効にするのみでシステム運
用はそのまま継続する(ステップ71,72)。
全体障害のケースでは、あらかじめ設定されたSGに従
って間欠/固定の切分けのためのAPのFTを実行するかど
うかを判定する(ステップ73)。SGによりFT実行モード
になっている場合は、次に回数のチェックを行なう(ス
テップ74)。SGでは8H以内に何回までAPのFTを実行する
かという指定がされており、通常8回までは、間欠/固
定の切りわけのためのAPのFTを実行する。APのFTの実行
範囲は障害発生前のAP,AM,IUのシステム構成で実行する
(ステップ75)。また全体/部分障害の判定結果はCPに
通知される。
CPは部分障害の通知を受けた場合は、該AP及び下位の
APの切り離し制御を行ない、残りのAPを用いてシステム
運用を継続する。この時障害となったAP及び該APの下位
のAPで実行中のユーザージョブがあればアボートされ
る。CPが全体障害の通知を受けた場合は、その時APで実
行中のユーザージョブは全てアボートされ、以後はAPへ
のユーザージョブの実行を保留させる。この状態では、
APは使用不可状態にあるが、以降ユーザーから投入され
るジョブはCPにより実行を保留されるので、ユーザーに
対してはAPの障害による影響は与えない。
次に、SGで指示されれディグレイドにするかどうかの
判断を参照してAM又はベクトルパイプラインに関し、縮
退制御を行なうかどうかをチェックし(ステップ76)、
行なわない場合は、FTを実行した全APの実行結果が正常
であれば間欠障害とみなし、全APが正常でなければ固定
障害とみなし、実行結果が正常なAPが存在する場合は、
その正常なAPを組込むように制御する。SG指定において
AMはベクトルパイプラインに関し縮退制御を行なうケー
スでは、全APの実行結果をチェックし、全APのFT実行経
過が正常であれば間欠障害とみなし、全APを組み込み可
として制御する(ステップ77,78)。組み込み可/不可
の通知は必ずCPに保守診断プロセッサから通知され、本
通知を受けたCPは組み込み可ならばAPの再立ちあげを行
ない、保留してあるAPのユーザージョブを再開させる。
又、組み込み不可ならばAPを切り離す。
SG指定において、AM又はベクトルパイプラインに関し
縮退制御を行なうケースで、全APのFTの実行結果が正常
でない場合は、まずSG指定においてベクトルパイプライ
ンをディグレイドするかどうかの指定をチェックする
(ステップ79)。その結果ベクトルパイプラインの縮退
運転がSGで許可されている場合はベクトルパイプライン
のディグレイド障害のAPがあるかどうかをチェックし
(ステップ80)、ベクトルパイプラインのディグレイド
障害のAPがある場合は、AP台数よりもベクトルパイプラ
インの本数が多いことを優先させ、ベクトルパイプライ
ンをディグレイドするかどうかを決定する。すなわち、
ベクトルパイプラインのディグレイド障害AP及びその下
位に接続されるAPを切り離りした時に残るAPがあるケー
スは、ベクトルパイプのディグレイド障害のAP及びその
配下のAPを切り離して、AP台数よりもAPのベクトルパイ
プ数を優先させるよう制御する。ベクトルパイプライン
の縮退制御は第3図のベクトルパイプラインの有効/無
効の組み合わせに従って制御する(ステップ81,82,8
3)。
ベクトルパイプの縮退運転がSGで許可されていないケ
ースやベクトルディグレイド障害のAPがないケースは、
SG指定においてキャッシュディグレイドするかどうかを
チェックする(ステップ84)。その結果、キャッシュデ
ィグレイドして縮退運転することがSGで許可されている
場合は、ログデータを解析してキャッシュディグレイド
障害のAPがあるかどうかをチェックし、該当するキュッ
シュをディグレイド指定する。キュッシュの縮退制御
は、第4図のキャッシュメモリの有効/無効の組み合わ
せに従って制御する(ステップ85)。
キャッシュメモリの縮退運転のチェック終了後は、AM
の縮退運転の可能性のチェックを実施する。まずSG指定
においてAMをディグレイドするかどうかをチェックす
る。この結果、AMをディグレイドして縮退運転すること
がSGで許可されている場合は、ログデータを解析してAM
ディグレイド障害かどうかをチェックする。AMディクレ
イド障害である場合は第5図の第2の主記憶装置におけ
る有効/無効の組み合わせに従って制御する(ステップ
86)。
ベクトルパイプライン,キャッシュメモリ,AMに関し
て縮退制御を行なう時は、もともとのシステム構成の1/
2までを原則とする。すなわち、もともとのシステムで
4本のベクトルパイプラインセットでAPが構成されてい
るケースでは、ベクトルパイプラインとして2本までの
縮退、またもともとキャッシュメモリが2レベルで構成
されているケースではどちらかの1レベルまでの縮退、
もともとAMが8構成単位で構成されている場合は、AMと
して4構成単位までの縮退をそれぞれ原則として可能と
し、それ以上の縮退は不可とする。ただし、上記はもと
もとのシステム構成によって異なること及び原則であ
り、ユーザー環境に応じてフレクシブルに変更すること
は可能である。
以上のように、ベクトルパイプライン,キャッシュメ
モリ,AMに関し、縮退運転の可能性を判断した後は、ベ
クトルパイプライン,キャッシュメモリ,AMのAP台数の
いずれか1つで縮退運転可能であったかどうかを判定す
る。
縮退運転が不可能である場合は、全APを組み込み不可
としてCPに通知する(ステップ87,90)。
ベクトルパイプライン,キャッシュメモリ,AM,AP台数
に関して、いずれかでの縮退運転が可能である場合は、
SGにおいて自動再立ちあげを許可されているかどうかを
判定し、もし許可されていない場合や許可されていても
8時間以内に8回までという再立ちあげ回数制限(本回
数もSG指定で変更可能)をオーバーした場合は、全APを
組み込み不可としてCPに通知する(ステップ88,89,9
0)。
ベクトルパイプライン,キャッシュメモリ,AM,AP台数
に関し、いずれかでの縮退運転が可能で、SGにおいて自
動再立ちあげが許可されており、かつ8時間以内に8回
までという自動再立ちあげの回数制限をオーバーしてい
ない場合は、縮退した構成において全APのFTを実行する
(ステップ91)。その結果、FTの実行結果が正常であれ
ばCPにAPの組み込み可を通知し、FTの実行結果が異常で
あるばCPにAPの組み込み不可を通知する(ステップ92,9
3)。組み込み可の通知を受けたCPはAPの再立ちあげを
行ない、保留してあるAPのユーザージョブを再開させ
る。
以上説明したように、IU,AM,APの全体障害時のそのま
まの構成接続状態でFTを実行してその結果を正常/異常
により間欠/固定の障害により要因を切りわけ、また固
定障害であれば縮退運転可能かどうかをAP台数,キャッ
シュメモリ,ベクトルパイプライン,AMに関して判定
し、縮退運転可能であれば縮退した構成でFTを実行し正
常ならば縮退運転可能とみなし、間欠障害または縮退運
転可能にあれば自動再立ちあげを原則として行なうよう
障害処理を制御する。SGとしては、規定値は以上のよう
に障害処理が制御されるよう指定されているものとす
る。
また、障害発生時に直ちにCPに通知することによりAP
上のユーザーショブのアボートを最小限におさえると共
に、前記障害処理実行中はCPの制御において、APのユー
ザーショブのスケジューリングを保留し、自動再立ちあ
げにより再び再開可能なように制御することより、ユー
ザーに対するインパクトをできるだけ少なくすることが
可能である。
第9図は障害処理の例を示す説明図である。SGは規定
値に設定されているものとする。第9図においてユーザ
ー運用状態(A)では、AP4台のうちAP0,AP2はシステム
から切り離された状態であり、AP1,AP3で運用されてい
る。このような運用状態でAP1とAP3の障害が検出され保
守診断装置に報告されるものとする。
保守診断装置では、まず全体障害か部分障害かを判別
する。本ケースはAP1とAP3の障害なので、障害のAP1とA
P3を無効にした場合、その結果システムに有効なAPが存
在しなくなるので全体障害である。したがって、自動的
に障害時の構成のままFTが実行される(診断状態
(B))。もし、FTの実行の結果AP1,AP3共に正常にFT
が終了した時には、間欠障害だとみなして再度AP1,AP3
を接続したままの状態で自動的に再立ちあげし、システ
ム運用を継続する。(C−3)のケースがこの状態を示
している。
もし、FTの実行の結果、AP1のみ正常でAP3が異常にな
るケース(本ケースはベクトル/キャッシュのディグレ
イド障害ではないとする)は、AP1のみを有効にし、AP3
は無効にして再度FTを実行しFTが正常ならば再立ちあげ
を行ない、システム運用を継続する。(C−4)のケー
スがこの状態を示している。
もし、FTの実行の結果AP1のみを正常でAP3が異常にな
るケースでAP3がベクトルパイプラインのディグレイド
障害のケースは、ベクトルパイプラインの本数の方を優
先させ、AP3のベクトルパイプラインの縮退は行なわず
無効にして、AP1のみ有効にし、再度FTを実行しFTが正
常ならば再立ちあげを行ない、システム運用を継続す
る。(C−2)のケースがこの状態を示している。
もし、FTの実行の結果AP1が異常で固定障害を示し、
かつベクトルパイルラインのディグレイド障害時は、ベ
クトルパイプラインの縮退を実施しないとAP1,AP3共に
使用できなくなるため、すなわち有効AP台数が0になる
ため、AP1とAP3を同様にベクトルパイプラインの縮退を
行ないFTを実行し、FTの結果がAP1,AP3共に正常であれ
ば再立ち上げを行ない、システム運用を継続する。(C
−1)のケースがこの状態である。
もし、FTの実行の結果AP1,AP3とも異常であれば固定
障害とみなし、システム運用は継続されない(C−
5)。
第10図は設定可能はSGの組み合わせの障害処理の概要
を示す説明図である。第10図(a)は設定可能なSGの組
み合わせの例としてCASE1からCASE6までの6ケースを一
覧にして示している。第10図(b)〜(g)はCASE1か
らCASE6までの各々の障害処理の概略を示す流れ図であ
る。
CASE1はSGパラメータとして規定値を指定した場合の
例を示す。
CASE2及びCASE3は縮退運転可能な場合でも縮退した後
のシステムの再立ちあげは許可しないモードを示す。そ
してCASE2は一応ディグレイド障害時には接続構成情報
の更新を実施するが、CASE3は更新しないケースを示
す。
CASE4は間欠/固定の切り分けのFTを実行しないモー
ドを示す。
CASE5は間欠/固定の切り分けのFTは実行せず自動再
立ちあげも実行しないが、ディグレイド障害時の接続構
成情報の更新は行なうケースを示す。
CASE6は障害発生時に直ちにシステム運用を中止する
モードである。
以上のようなSGパラメータの組み合わせはデバック時
やユーザーのシステム運用環境に応じてフレキシブルに
変更できる。
〔発明の効果〕
以上説明したように本発明は、スーパーコンピュータ
システムにおける高速演算プロセッサで障害発生時に自
動的に診断プログラムを起動し、間欠/固定の障害の切
り分けを実行させ、間欠障害だと自動的に再立ちあげを
行ない、固定障害であれば縮退運転可能な障害かどうか
を判定し、縮退運転可能であれば、縮退させた構成で自
動的に診断プログラムを起動し、正常であれば縮退運転
させるように障害処理プログラムを実行させる。障害処
理プログラム実行中は高速演算プロセッサに対するユー
ザーJOBの実行を保留させ、自動再立ち上げ後再び再開
するように制御する。したがって障害の原因が間欠障害
や縮退運転可能な固定障害の時には極力ユーザージョブ
のアボートを少なくし、また直ちに自動再立ちあげする
ことにより、ユーザーに対する障害の影響を極力少なく
できるという効果がある。
【図面の簡単な説明】
第1図は本発明の一実施例を示す構成図、第2図は高速
演算プロセッサの説明図、第3図はベクトルパイプライ
ンセットの接続構成の組合せを示す説明図、第4図はキ
ャッシュメモリの接続の組合せを示す説明図、第5図は
第二の主メモリの接続の組合せを示す説明図、第6図は
高速演算プロセッサの接続構成の組合せを示す説明図、
第7図は障害処理制御手段の動作を示す流れ図、第8図
(a)〜(d)は障害処理制御手段の詳細を示す流れ
図、第9図は障害処理の例を示す説明図、第10図(a)
〜(g)は設定可能なSGの組み合せの例と障害処理の概
要を示す説明図である。 1,2……システム制御装置、3……制御プロセッサ、4
……入出力プロセッサ、5,6,7,8……高速演算プロセッ
サ、9,10……主メモリ、11……接続構成制御手段、12…
…障害処理制御手段、13……保守診断装置、20,21,22,2
3,24,25,26,27,28,29……障害検出手段、30……スカラ
ユニット、31……キャッシュメモリ、32……スカラレジ
スタ、33……スカラ演算パイプライン、40……ベクトル
ユニット、41……ベクトルレジスタ、セット1〜3……
ベクトル演算パイプライン。

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】情報処理システム全体を制御する制御プロ
    セッサと,周辺機器を制御する入出力プロセッサと,前
    記制御プロセッサが実行するプログラムを格納する第一
    の主メモリとを接続した第一のシステム制御装置と、直
    列に接続した複数の高速演算プロセッサと,前期高速演
    算プロセッサが実行するプログラムおよびデータを格納
    する第二の主メモリと,前記第一のシステム制御装置と
    を接続した第二のシステム制御装置とを含む情報処理シ
    ステムにおいて、前記第一および第二のシステム制御装
    置を接続した保守診断装置と、前記情報処理システムの
    各プロセッサ単位および各装置単位に障害を検出して前
    記保守診断装置に通知する障害検出報告手段と、前記の
    各プロセッサおよび装置の有効/無効の程度を示し上位
    の高速演算プロセッサが無効の場合には下位の高速演算
    プロセッサを全て無効にする接続構成制御手段と、シス
    テム運用中に障害の発生の通知をうけたとき有効な高速
    演算プロセッサが存在するかどうかを判定し,有効な高
    速演算プロサッサが存在しない場合には高速演算プロセ
    ッサのテストプログラムを実行し,前記テストプログラ
    ムの実行結果が正常であれば従前の接続構成でシステム
    運用を再開し,前記テストプログラムの実行結果が異常
    であれば障害の原因に応じて前記第二の主メモリおよび
    高速演算プロセッサを部分的に無効にして縮退した接続
    構成で再び前記テストプログラムを実行し,前記テスト
    プログラムの実行結果が正常であれば前記縮退した接続
    構成でシステム運用を再開する障害処理制御手段とを具
    備することを特徴とする障害処理方式。
  2. 【請求項2】前記1回目のテストプログラムを起動する
    か否かをあらかじめ定められた情報に従って判定し制御
    することを特徴とする請求項1記載の障害処理方式。
  3. 【請求項3】前記テストプログラムの実行結果が正常の
    とき高速演算プロセッサの運用を再開するか否かをあら
    かじめ定められた情報に従って判定し制御することを特
    徴とする請求項1または2記載の障害処理方式。
  4. 【請求項4】前記高速演算プロセッサは複合演算パイプ
    ラインを含んだ複数のベクトル演算パイプラインを備
    え、前記接続構成制御手段は前記複数のベクトル演算パ
    イプラインの一部を無効にすること含むことを特徴とす
    る請求項1または2または3記載の障害処理方式。
  5. 【請求項5】前記接続構成制御手段は前記第二の主メモ
    リの一部を無効にすること含むことを特徴とする請求項
    1または2または3または4記載の障害処理方式。
  6. 【請求項6】前記接続構成制御手段は前記高速演算プロ
    セッサ内に含まれるキャッシュの一部を無効にすること
    含むことを特徴とする請求項1または2または3または
    4または5記載の障害処理方式。
  7. 【請求項7】前記第二の主メモリおよび高速演算プロセ
    ッサを部分的に無効にするか否かを障害の原因に従って
    あらかじめ定められた情報に従って判定し制御すること
    を特徴とする請求項1または2または3または4または
    5または6記載の障害処理方式。
  8. 【請求項8】前記第二のシステム制御装置および第二の
    主メモリが原因で障害になった場合は前記システムの全
    体障害とみなして前記高速演算プロセッサと同様に障害
    処理をすることを特徴とする請求項1または2または3
    または4または5または6または7記載の障害処理方
    式。
JP2058619A 1990-03-08 1990-03-08 障害処理方式 Expired - Lifetime JP2752764B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2058619A JP2752764B2 (ja) 1990-03-08 1990-03-08 障害処理方式
DE69120104T DE69120104T2 (de) 1990-03-08 1991-03-07 Fehlerbeseitigung für Superrechner
CA002037776A CA2037776C (en) 1990-03-08 1991-03-07 Fault recovery processing for supercomputer
EP91103469A EP0445799B1 (en) 1990-03-08 1991-03-07 Fault recovery processing for supercomputer
US07/665,955 US5280606A (en) 1990-03-08 1991-03-08 Fault recovery processing for supercomputer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2058619A JP2752764B2 (ja) 1990-03-08 1990-03-08 障害処理方式

Publications (2)

Publication Number Publication Date
JPH03259349A JPH03259349A (ja) 1991-11-19
JP2752764B2 true JP2752764B2 (ja) 1998-05-18

Family

ID=13089581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2058619A Expired - Lifetime JP2752764B2 (ja) 1990-03-08 1990-03-08 障害処理方式

Country Status (5)

Country Link
US (1) US5280606A (ja)
EP (1) EP0445799B1 (ja)
JP (1) JP2752764B2 (ja)
CA (1) CA2037776C (ja)
DE (1) DE69120104T2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2106280C (en) * 1992-09-30 2000-01-18 Yennun Huang Apparatus and methods for fault-tolerant computing employing a daemon monitoring process and fault-tolerant library to provide varying degrees of fault tolerance
JP2829241B2 (ja) * 1994-07-26 1998-11-25 三菱電機株式会社 プラント支援装置
US5653060A (en) * 1994-08-31 1997-08-05 Ykk Architectural Products Inc. Sliding window structure
US5991895A (en) * 1995-05-05 1999-11-23 Silicon Graphics, Inc. System and method for multiprocessor partitioning to support high availability
US7117397B1 (en) 1999-12-15 2006-10-03 Fujitsu Limited Apparatus and method for preventing an erroneous operation at the time of detection of a system failure
US6912670B2 (en) * 2002-01-22 2005-06-28 International Business Machines Corporation Processor internal error handling in an SMP server
US9501448B2 (en) * 2008-05-27 2016-11-22 Stillwater Supercomputing, Inc. Execution engine for executing single assignment programs with affine dependencies
US8560924B2 (en) * 2010-01-05 2013-10-15 International Business Machines Corporation Register file soft error recovery

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3374465A (en) * 1965-03-19 1968-03-19 Hughes Aircraft Co Multiprocessor system having floating executive control
US4839895A (en) * 1987-01-07 1989-06-13 Nec Corporation Early failure detection system for multiprocessor system
US4970640A (en) * 1987-08-28 1990-11-13 International Business Machines Corporation Device initiated partial system quiescing
US4903264A (en) * 1988-04-18 1990-02-20 Motorola, Inc. Method and apparatus for handling out of order exceptions in a pipelined data unit
JPH0719211B2 (ja) * 1988-10-08 1995-03-06 日本電気株式会社 クロック制御方式
US5020059A (en) * 1989-03-31 1991-05-28 At&T Bell Laboratories Reconfigurable signal processor

Also Published As

Publication number Publication date
DE69120104D1 (de) 1996-07-18
EP0445799A3 (en) 1992-08-05
EP0445799A2 (en) 1991-09-11
EP0445799B1 (en) 1996-06-12
CA2037776C (en) 1995-10-24
JPH03259349A (ja) 1991-11-19
CA2037776A1 (en) 1991-09-09
DE69120104T2 (de) 1997-02-06
US5280606A (en) 1994-01-18

Similar Documents

Publication Publication Date Title
US6675324B2 (en) Rendezvous of processors with OS coordination
US5815651A (en) Method and apparatus for CPU failure recovery in symmetric multi-processing systems
US5386565A (en) Method and system for controlling/monitoring computer system having plural operating systems to run thereon
EP0505706B1 (en) Alternate processor continuation of the task of a failed processor
US20070239917A1 (en) Interrupt routing within multiple-processor system
JPS62298839A (ja) 障害時に計算機システムを再始動する方法
JPS61502223A (ja) 再構成可能なデュアル・プロセッサ・システム
EP0167540A1 (en) CENTRAL UNIT TOLERATING LOSS OF ACCESS TO AN AUXILIARY MEMORY.
WO2001050262A1 (en) Cooperative error handling system
US20050015672A1 (en) Identifying affected program threads and enabling error containment and recovery
JP2752764B2 (ja) 障害処理方式
JP5212357B2 (ja) マルチcpu異常検出復旧システム、方法及びプログラム
US5363502A (en) Hot stand-by method and computer system for implementing hot stand-by method
JP3301992B2 (ja) 電源故障対策を備えたコンピュータシステム及びその動作方法
JP2770913B2 (ja) パリティの置換装置及び方法
CA1212478A (en) Data processor with interrupt facility
US5615370A (en) Computer system with automatic degradation/initialization function
JP2005529406A (ja) システム起動処理のための良好な状態のプロセッサグループ及び関連するファームフェアを決定するシステム及び方法
JPH02294739A (ja) 障害検出方式
JP2823230B2 (ja) 処理の継続実行方法
EP0113982B1 (en) A data processing system
JP3317361B2 (ja) メモリのバッテリバックアップ制御方式
JPS6376028A (ja) 仮想計算機システムにおける命令ステツプ実行制御方式
Comfort A fault-tolerant system architecture for navy applications
JPH06242973A (ja) 仮想計算機システムにおけるvmへのvpマシンチェックの通知方法