JP2752764B2

JP2752764B2 - 障害処理方式

Info

Publication number: JP2752764B2
Application number: JP2058619A
Authority: JP
Inventors: 昭実宝; 昭彦中村
Original assignee: NEC Computertechno Ltd; Nippon Electric Co Ltd
Current assignee: NEC Corp; NEC Computertechno Ltd
Priority date: 1990-03-08
Filing date: 1990-03-08
Publication date: 1998-05-18
Anticipated expiration: 2013-05-18
Also published as: DE69120104D1; EP0445799A3; EP0445799A2; EP0445799B1; CA2037776C; JPH03259349A; CA2037776A1; DE69120104T2; US5280606A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は情報処理システムの障害処理方式に関し、特
に高速演算プロセッサの障害処理方式に関する。

〔従来の技術〕

スーパーコンピュータは汎用計算機と比べ桁違いに高
速な演算処理能力を持っており、特に科学・技術の領域
でさまざまな研究や技術開発のために利用されている。
このようなスーパーコンピュータにおいて、高速演算を
実現するハードウェア上の工夫として基本的に２つの方
法が採用されている。第１の方法は、速度＝処理量／時
間であることから、処理量一定としてその処理量をこな
す処理時間を短縮することである。このことはコンピュ
ータの基本の処理単位であるクロックを可能な限り短縮
することである。スーパーコンピュータのクロックは年
々短縮化され、汎用機と比べ１桁以上速い2.9n秒（光が
約3.6m進む時間）に16個の64ビット浮動小数点演算可能
なスーパコンピュータも商用化されている。

第二の方法は、主記憶に対するデータアクセスを極力
減らす工夫である。スーパコンピュータでは特に大量の
データを１度に扱うので、主記憶に対してアクセスが頻
発すると高性能を実現することができない。したがっ
て、主記憶アクセスに比べアクセス化が短かくてすむレ
ジスタアクセスを有効に利用できるように、ソフソウェ
アビジブルなレジスタを大量に準備することによって主
記憶アクセクを大幅にへらす工夫をしている。

上記のように、スーパコンピュータはマシーンクロッ
クが短かく大量にソフトビジブルレジスタを備えている
ので、障害発生に汎用機のようにソフトウェアビジブル
レジスタを保持しておき命令リトライやプロセッサリリ
ーフのような障害処理をすることは困難である。すなわ
ち、マシーンクロックが短いということは、障害を検出
してからクロックが停止するまでのクロック数が多くな
ることを意味しており、クロック数で比較した場合に汎
用機と比べすべりが大きくなり、命令リトライやプロセ
ッサリリーフのためのソフトウェアビジブルな情報の保
留が困難である。また、ソフトウェアビジブルなレジス
タが汎用機と比べ大量にあるということはやはり命令リ
トライやプロセッサリリーフのためのソフトウェアビジ
ブルな情報をホールドすることを難しくしている。

〔発明が解決しようとする課題〕

上述したように性能を最重視するスーパーコンピュー
タシステムにおいては、障害発生時に命令リトライやプ
ロセッサリリーフのための情報の保持が困難であり、障
害の原因が間欠障害や縮退運転可能な固定障害でも直ち
にシステムダウンにしてしまい、ユーザーに対する影響
が大きいという欠点があった。また実行中のジョブをア
ボートされるだけでなく以後のユーザージョブが全てア
ボートされるという欠点もあった。

〔課題を解決するための手段〕

本発明の障害処理方式は、情報処理システム全体を制
御する制御プロセッサと，周辺機器を制御する入出力プ
ロセッサと，前記制御プロセッサが実行するプログラム
を格納する第一の主メモリとを接続した第一のシステム
制御装置と、直列に接続した複数の高速演算プロセッサ
と，前期高速演算プロセッサが実行するプログラムおよ
びデータを格納する第二の主メモリと，前記第一のシス
テム制御装置とを接続した第二のシステム制御装置とを
含む情報処理システムにおいて、前記第一および第二の
システム制御装置を接続した保守診断装置と、前記情報
処理システムの各プロセッサ単位および各装置単位に障
害を検出して前記保守診断装置に通知する障害検出報告
手段と、前記の各プロセッサおよび装置の有効／無効の
程度を示し上位の高速演算プロセッサが無効の場合には
下位の高速演算プロセッサを全て無効にする接続構成制
御手段と、システム運用中に障害の発生の通知をうけた
とき有効な高速演算プロセッサが存在するかどうかを判
定し，有効な高速演算プロサッサが存在しない場合には
高速演算プロセッサのテストプログラムを実行し，前記
テストプログラムの実行結果が正常であれば従前の接続
構成でシステム運用を再開し，前記テストプログラムの
実行結果が異常であれば障害の原因に応じて前記第二の
主メモリおよび高速演算プロセッサを部分的に無効にし
て縮退した接続構成で再び前記テストプログラムを実行
し，前記テストプログラムの実行結果が正常であれば前
記縮退した接続構成でシステム運用を再開する障害処理
制御手段とを具備するよるにして構成される。

また、本発明の障害処理方式は、前記１回目のテスト
プログラムを起動するか否かをあらかじめ定められた情
報に従って判定し制御する。

さらに、前記テストプログラムの実行結果が正常のと
き高速演算プロセッサの運用を再開するか否かをあらじ
め定められた情報に従って判定し制御する。

また、本発明の障害処理方式において、前記高速演算
プロセッサは複合演算パイプラインを含んだ複数のベク
トル演算パイプラインを備え、前記接続構成制御手段は
前記複数のベクトル演算パイプラインの一部を無効にす
ること含む。

さらに、前記接続構成制御手段は前記第二の主メモリ
の一部を無効にすること含む。

さらに、前記接続構成制御手段は前記高速演算プロセ
ッサ内に含まれるキャッシュの一部を無効にすること含
む。

また、本発明の障害処理方式は、前記第二の主メモリ
および高速演算プロセッサを部分的に無効にするか否か
を障害の原因に従ってあらかじめ定められた情報に従っ
て判定し制御する。

さらに、本発明の障害処理方式は、前記第二のシステ
ム制御装置および第二の主メモリが原因で障害になった
場合は前記システムの全体障害とみなして前記高速演算
プロセッサと同様に障害処理をする。

〔実施例〕

次に、本発明について図面を参照して説明する。

第１図は本発明の一実施例を示す構成図である。同図
において障害処理方式は、情報処理システム全体を制御
する制御プロセッサ３と，周辺機器を制御する入出力プ
ロセッサ４と，前記制御プロセッサ３が実行するプログ
ラムを格納する第一の主メモリ９とを接続した第一のシ
ステム制御装置１と、直列に接続した複数の高速演算プ
ロセッサ５〜８と，前記高速プロセッサ５〜８が実行す
るプログラムおよびデータを格納する第二の主メモリ10
と，前記第一のシステム制御装置１とを接続した第二の
システム制御装置２とを含む情報処理システムにおい
て、前記第一および第二のシステム制御装置を接続した
保守診断装置13と、前記情報処理システムの各プロセッ
サ単位および各装置単位に障害を検出して前記保守診断
装置13に通知する障害検出報告手段20〜29と、前記の各
プロセッサおよび装置の有効／無効の程度を示し高速演
算プロセッサが無効の場合には下位の高速演算プロセッ
サを全て無効にする接続構成制御手段11とを有してい
る。さらに、システム運用中に障害の発生の通知をうけ
たとき、有効な高速演算プロセッサが存在するかどうか
を判定し、有効な高速演算プロセッサが存在しない場合
には高速演算プロセッサのテストプログラムを実行し、
前記テストプログラムの実行結果が正常であれば従前の
接続構成でシステム運用を再開し、前記テストプログラ
ムの実行結果が異常であれば障害の原因に応じて前記第
二の主メモリおよび高速演算プロセッサを部分的に無効
にして縮退した接続構成で再び前記テストプログラムを
実行し、前記テストプログラムの実行結果が正常あれば
前記の縮退した接続構成でシステム運用を再開する障害
処理制御手段12を具備する。

制御プロセッサ３はスーパーバイザー機能を持ち、ユ
ーザープログラムのコンパイル，リンクを実現してい
る。第一の主メモリ９は制御プロセッサを制御する制御
プログラムや制御用データを格納している。さらに第二
の主メモリ20はユーザプログラムのロードモジュールや
演算用データを格納し、高速演算プロセッサ５〜８はユ
ーザープログラムを高速に実行する。そして、入出力プ
ロセッサ，制御プロセッサ及び高速演算プロセッサは各
々に独立に動作することができ、システムのスループッ
トを高めている。

保守診断装置13は、システムの初期設定機能，立ちあ
げ機能，構成制御機能，障害処理機能を備えている。

第２図は高速演算プロセッサを示す説明図である。高
速演算プロセッサは機能的に、スカラユニット30とベク
トルユニット40とにわかれる。スカラユニット30は、主
記憶装置からとり出した命令を解読する。解読した命令
がスカラ命令であればスカラユニットで実行し、ベクト
ル命令であれば、ベルトルユニットで実行する。

スカラユニット30はスカラ演算用レジスタとして128
個の汎用レジスタ（スカラレジスタ）32を用意して、レ
ジスタ主体のアーキテクチャによって高速化している。
また、主記憶装置へのアクセス時間を実効的に短縮する
手段として64Kバイトの容量の２レベルのキャッシュメ
モリ31があり、主記憶アクセスに対して高速に応答す
る。さらに、スカラ演算は８バイトデータ演算を基本と
し、スカラの加減算，論理演算，シフト，乗除算の各演
算器から構成されたパイプライン化されたスカラ演算パ
イプライン33で実行される。

ベクトルユニット40は大容量のベクトルレジスタ41を
中心に16本のベクトル演算パイプライン（セット０〜
３），ベクトルマスクレジスタ42,マスク演算ユニット4
3から成る。ベクトル演算パイプラインは加算／シフト
演算器２種および乗除／論理演算器２種を１セットとし
て４セット合計の16本のベクトル演算パイプライン（セ
ット０〜３）の並列動作を実現し、ベクトル演算の高速
化を計っている。また、ベクトルマスクレジスタ41（1b
it×256語）を８個備えている。

第３図はベクトルパイプラインセット０〜３の有効／
無効の取り得る組合せを示す説明図である。ベクトルパ
イプラインセット０〜３の取り得る組合せは７通りであ
る。

第４図は２レベルよりなるキャッシュメモリ31の各々
のレベルの有効／無効の取り得る組合せを示す説明図で
ある。２レベルが両方とも無効になったケースでは、キ
ャッシュメモリをバイパスして動作する。

第５図は第二の主メモリ10の有効／無効と取り得る組
合せを示す説明図である。第二の主メモリ10は各々独立
にアクセス可能な８つのユニットから構成されている。

第６図は高速演算プロセッサ５〜８の有効／無効の取
り得る組合せを示す説明図である。上位の高速演算プロ
セッサ５または７が無効の場合には下位の高速演算プロ
セッサ６または８が全て無効になるように制御される。

第７図はシステム運用中に高速演算プロセッサ５〜８
その他で障害が発生したとき、障害の通知を受けた保守
診断装置13の障害制御手段12の動作を示す流れ図であ
る。以下、高速演算プロセッサ５〜８をAP（APi,i＝0,
1,2,3），第二の主メモリ10をAM,第二のシステム制御装
置２をIU,制御プロセッサ３をCP,テストプログラムをFT
とよぶ。

第７図において、障害処理がデバックやユーザの運用
環境に応じて変換可能なように設定可能となっているSG
パラメータは規定値とする。

全体障害発生時、保守診断装置はCPに障害発生を通知
し、以後組み込み可／不可の通知があるまではAPへのユ
ーザジョブのスケジューリングを保留する（ステップ5
1）。次に、AP,IU,AMの障害状態をエラーログとして採
取する（ステップ52）。そして、FTを実行し、障害の間
欠／固定の切りわけを行なう（ステップ53,54）。

FTが正常終了なら間欠障害とみなしCPに組込み可を通
知する。CPは障害発生前の構成のままAPを再立ちあげ
し、保留されていたジョブのシステム運用を再開する
（ステップ55）。

APのFTの実行結果が異常なら固定障害とみなして再び
障害時のエラーログを採取し（ステップ56）、ベクトル
パイプライン，キュッシュメモリ,AMに関する縮退運転
可能な障害かどうかを判定し、その結果に従って構成接
続情報を更新する（ステッツ57）。さらに、AP台数の縮
退も含んで縮退運転可能かどうかを判定し（ステップ5
8）、縮退運転可能な障害であれば縮退した状態でFTを
実行し（ステップ59）、FTが正常であれば縮退した構成
でAPを再立ちあげし保留されていたジョブの運用を再開
する（ステップ60,55）。

縮退運転可能な障害でないケースや縮退した構成でFT
の実行が異常終了したケースは、システムの継続運用は
できないとみなしてシステムダウンさせる（ステップ6
1,62）。

次に、下記の条件を設けて障害処理制御手段の動作を
さらに詳細に説明する。

FTを実行した全APの実行結果が正常でなくとも、実行
結果が正常なAP（該APの上位APは全て実行結果が正常で
なければならない。）が存在すれば、その正常なAPを組
込む。

AP台数よりもベクトル本数の多いことを優先する。す
なわち、組込むAPのベクトルディグレイド状態はIUに接
続されたAPのベクトルディグレイド状態と同じにする。

第８図（ａ），（ｂ），（ｃ），（ｄ）は障害処理制
御手段の詳細な動作を示す流れ図である。同図におい
て、AP,IU,又はAMにおいて障害を検出したとき、保守診
断装置に障害発生が通知される。障害の報告を受けた保
守診断装置は障害の発生した装置の状態をログデータと
して採取する。

障害の発生原因がIU又はAMのケースは全体障害とみな
す。障害の発生原因がAPのケースでは、該障害のAP及び
該障害APの全てを含んで無効にした場合、その結果シス
テムに有効なAPが存在するかどうかを判定し、有効なAP
が存在しない場合は、全体障害とみなすが、有効なAPが
存在するケースでは部分障害とみなし、該障害のAP（及
び下位のAP全てを含む）を無効にするのみでシステム運
用はそのまま継続する（ステップ71,72）。

全体障害のケースでは、あらかじめ設定されたSGに従
って間欠／固定の切分けのためのAPのFTを実行するかど
うかを判定する（ステップ73）。SGによりFT実行モード
になっている場合は、次に回数のチェックを行なう（ス
テップ74）。SGでは8H以内に何回までAPのFTを実行する
かという指定がされており、通常８回までは、間欠／固
定の切りわけのためのAPのFTを実行する。APのFTの実行
範囲は障害発生前のAP,AM,IUのシステム構成で実行する
（ステップ75）。また全体／部分障害の判定結果はCPに
通知される。

CPは部分障害の通知を受けた場合は、該AP及び下位の
APの切り離し制御を行ない、残りのAPを用いてシステム
運用を継続する。この時障害となったAP及び該APの下位
のAPで実行中のユーザージョブがあればアボートされ
る。CPが全体障害の通知を受けた場合は、その時APで実
行中のユーザージョブは全てアボートされ、以後はAPへ
のユーザージョブの実行を保留させる。この状態では、
APは使用不可状態にあるが、以降ユーザーから投入され
るジョブはCPにより実行を保留されるので、ユーザーに
対してはAPの障害による影響は与えない。

次に、SGで指示されれディグレイドにするかどうかの
判断を参照してAM又はベクトルパイプラインに関し、縮
退制御を行なうかどうかをチェックし（ステップ76）、
行なわない場合は、FTを実行した全APの実行結果が正常
であれば間欠障害とみなし、全APが正常でなければ固定
障害とみなし、実行結果が正常なAPが存在する場合は、
その正常なAPを組込むように制御する。SG指定において
AMはベクトルパイプラインに関し縮退制御を行なうケー
スでは、全APの実行結果をチェックし、全APのFT実行経
過が正常であれば間欠障害とみなし、全APを組み込み可
として制御する（ステップ77,78）。組み込み可／不可
の通知は必ずCPに保守診断プロセッサから通知され、本
通知を受けたCPは組み込み可ならばAPの再立ちあげを行
ない、保留してあるAPのユーザージョブを再開させる。
又、組み込み不可ならばAPを切り離す。

SG指定において、AM又はベクトルパイプラインに関し
縮退制御を行なうケースで、全APのFTの実行結果が正常
でない場合は、まずSG指定においてベクトルパイプライ
ンをディグレイドするかどうかの指定をチェックする
（ステップ79）。その結果ベクトルパイプラインの縮退
運転がSGで許可されている場合はベクトルパイプライン
のディグレイド障害のAPがあるかどうかをチェックし
（ステップ80）、ベクトルパイプラインのディグレイド
障害のAPがある場合は、AP台数よりもベクトルパイプラ
インの本数が多いことを優先させ、ベクトルパイプライ
ンをディグレイドするかどうかを決定する。すなわち、
ベクトルパイプラインのディグレイド障害AP及びその下
位に接続されるAPを切り離りした時に残るAPがあるケー
スは、ベクトルパイプのディグレイド障害のAP及びその
配下のAPを切り離して、AP台数よりもAPのベクトルパイ
プ数を優先させるよう制御する。ベクトルパイプライン
の縮退制御は第３図のベクトルパイプラインの有効／無
効の組み合わせに従って制御する（ステップ81,82,8
3）。

ベクトルパイプの縮退運転がSGで許可されていないケ
ースやベクトルディグレイド障害のAPがないケースは、
SG指定においてキャッシュディグレイドするかどうかを
チェックする（ステップ84）。その結果、キャッシュデ
ィグレイドして縮退運転することがSGで許可されている
場合は、ログデータを解析してキャッシュディグレイド
障害のAPがあるかどうかをチェックし、該当するキュッ
シュをディグレイド指定する。キュッシュの縮退制御
は、第４図のキャッシュメモリの有効／無効の組み合わ
せに従って制御する（ステップ85）。

キャッシュメモリの縮退運転のチェック終了後は、AM
の縮退運転の可能性のチェックを実施する。まずSG指定
においてAMをディグレイドするかどうかをチェックす
る。この結果、AMをディグレイドして縮退運転すること
がSGで許可されている場合は、ログデータを解析してAM
ディグレイド障害かどうかをチェックする。AMディクレ
イド障害である場合は第５図の第２の主記憶装置におけ
る有効／無効の組み合わせに従って制御する（ステップ
86）。

ベクトルパイプライン，キャッシュメモリ,AMに関し
て縮退制御を行なう時は、もともとのシステム構成の1/
2までを原則とする。すなわち、もともとのシステムで
４本のベクトルパイプラインセットでAPが構成されてい
るケースでは、ベクトルパイプラインとして２本までの
縮退、またもともとキャッシュメモリが２レベルで構成
されているケースではどちらかの１レベルまでの縮退、
もともとAMが８構成単位で構成されている場合は、AMと
して４構成単位までの縮退をそれぞれ原則として可能と
し、それ以上の縮退は不可とする。ただし、上記はもと
もとのシステム構成によって異なること及び原則であ
り、ユーザー環境に応じてフレクシブルに変更すること
は可能である。

以上のように、ベクトルパイプライン，キャッシュメ
モリ,AMに関し、縮退運転の可能性を判断した後は、ベ
クトルパイプライン，キャッシュメモリ,AMのAP台数の
いずれか１つで縮退運転可能であったかどうかを判定す
る。

縮退運転が不可能である場合は、全APを組み込み不可
としてCPに通知する（ステップ87,90）。

ベクトルパイプライン，キャッシュメモリ,AM,AP台数
に関して、いずれかでの縮退運転が可能である場合は、
SGにおいて自動再立ちあげを許可されているかどうかを
判定し、もし許可されていない場合や許可されていても
８時間以内に８回までという再立ちあげ回数制限（本回
数もSG指定で変更可能）をオーバーした場合は、全APを
組み込み不可としてCPに通知する（ステップ88,89,9
0）。

ベクトルパイプライン，キャッシュメモリ,AM,AP台数
に関し、いずれかでの縮退運転が可能で、SGにおいて自
動再立ちあげが許可されており、かつ８時間以内に８回
までという自動再立ちあげの回数制限をオーバーしてい
ない場合は、縮退した構成において全APのFTを実行する
（ステップ91）。その結果、FTの実行結果が正常であれ
ばCPにAPの組み込み可を通知し、FTの実行結果が異常で
あるばCPにAPの組み込み不可を通知する（ステップ92,9
3）。組み込み可の通知を受けたCPはAPの再立ちあげを
行ない、保留してあるAPのユーザージョブを再開させ
る。

以上説明したように、IU,AM,APの全体障害時のそのま
まの構成接続状態でFTを実行してその結果を正常／異常
により間欠／固定の障害により要因を切りわけ、また固
定障害であれば縮退運転可能かどうかをAP台数，キャッ
シュメモリ，ベクトルパイプライン,AMに関して判定
し、縮退運転可能であれば縮退した構成でFTを実行し正
常ならば縮退運転可能とみなし、間欠障害または縮退運
転可能にあれば自動再立ちあげを原則として行なうよう
障害処理を制御する。SGとしては、規定値は以上のよう
に障害処理が制御されるよう指定されているものとす
る。

また、障害発生時に直ちにCPに通知することによりAP
上のユーザーショブのアボートを最小限におさえると共
に、前記障害処理実行中はCPの制御において、APのユー
ザーショブのスケジューリングを保留し、自動再立ちあ
げにより再び再開可能なように制御することより、ユー
ザーに対するインパクトをできるだけ少なくすることが
可能である。

第９図は障害処理の例を示す説明図である。SGは規定
値に設定されているものとする。第９図においてユーザ
ー運用状態（Ａ）では、AP4台のうちAP0,AP2はシステム
から切り離された状態であり、AP1,AP3で運用されてい
る。このような運用状態でAP1とAP3の障害が検出され保
守診断装置に報告されるものとする。

保守診断装置では、まず全体障害か部分障害かを判別
する。本ケースはAP1とAP3の障害なので、障害のAP1とA
P3を無効にした場合、その結果システムに有効なAPが存
在しなくなるので全体障害である。したがって、自動的
に障害時の構成のままFTが実行される（診断状態
（Ｂ））。もし、FTの実行の結果AP1,AP3共に正常にFT
が終了した時には、間欠障害だとみなして再度AP1,AP3
を接続したままの状態で自動的に再立ちあげし、システ
ム運用を継続する。（Ｃ−３）のケースがこの状態を示
している。

もし、FTの実行の結果、AP1のみ正常でAP3が異常にな
るケース（本ケースはベクトル／キャッシュのディグレ
イド障害ではないとする）は、AP1のみを有効にし、AP3
は無効にして再度FTを実行しFTが正常ならば再立ちあげ
を行ない、システム運用を継続する。（Ｃ−４）のケー
スがこの状態を示している。

もし、FTの実行の結果AP1のみを正常でAP3が異常にな
るケースでAP3がベクトルパイプラインのディグレイド
障害のケースは、ベクトルパイプラインの本数の方を優
先させ、AP3のベクトルパイプラインの縮退は行なわず
無効にして、AP1のみ有効にし、再度FTを実行しFTが正
常ならば再立ちあげを行ない、システム運用を継続す
る。（Ｃ−２）のケースがこの状態を示している。

もし、FTの実行の結果AP1が異常で固定障害を示し、
かつベクトルパイルラインのディグレイド障害時は、ベ
クトルパイプラインの縮退を実施しないとAP1,AP3共に
使用できなくなるため、すなわち有効AP台数が０になる
ため、AP1とAP3を同様にベクトルパイプラインの縮退を
行ないFTを実行し、FTの結果がAP1,AP3共に正常であれ
ば再立ち上げを行ない、システム運用を継続する。（Ｃ
−１）のケースがこの状態である。

もし、FTの実行の結果AP1,AP3とも異常であれば固定
障害とみなし、システム運用は継続されない（Ｃ−
５）。

第10図は設定可能はSGの組み合わせの障害処理の概要
を示す説明図である。第10図（ａ）は設定可能なSGの組
み合わせの例としてCASE1からCASE6までの６ケースを一
覧にして示している。第10図（ｂ）〜（ｇ）はCASE1か
らCASE6までの各々の障害処理の概略を示す流れ図であ
る。

CASE1はSGパラメータとして規定値を指定した場合の
例を示す。

CASE2及びCASE3は縮退運転可能な場合でも縮退した後
のシステムの再立ちあげは許可しないモードを示す。そ
してCASE2は一応ディグレイド障害時には接続構成情報
の更新を実施するが、CASE3は更新しないケースを示
す。

CASE4は間欠／固定の切り分けのFTを実行しないモー
ドを示す。

CASE5は間欠／固定の切り分けのFTは実行せず自動再
立ちあげも実行しないが、ディグレイド障害時の接続構
成情報の更新は行なうケースを示す。

CASE6は障害発生時に直ちにシステム運用を中止する
モードである。

以上のようなSGパラメータの組み合わせはデバック時
やユーザーのシステム運用環境に応じてフレキシブルに
変更できる。

〔発明の効果〕

以上説明したように本発明は、スーパーコンピュータ
システムにおける高速演算プロセッサで障害発生時に自
動的に診断プログラムを起動し、間欠／固定の障害の切
り分けを実行させ、間欠障害だと自動的に再立ちあげを
行ない、固定障害であれば縮退運転可能な障害かどうか
を判定し、縮退運転可能であれば、縮退させた構成で自
動的に診断プログラムを起動し、正常であれば縮退運転
させるように障害処理プログラムを実行させる。障害処
理プログラム実行中は高速演算プロセッサに対するユー
ザーJOBの実行を保留させ、自動再立ち上げ後再び再開
するように制御する。したがって障害の原因が間欠障害
や縮退運転可能な固定障害の時には極力ユーザージョブ
のアボートを少なくし、また直ちに自動再立ちあげする
ことにより、ユーザーに対する障害の影響を極力少なく
できるという効果がある。

【図面の簡単な説明】

第１図は本発明の一実施例を示す構成図、第２図は高速
演算プロセッサの説明図、第３図はベクトルパイプライ
ンセットの接続構成の組合せを示す説明図、第４図はキ
ャッシュメモリの接続の組合せを示す説明図、第５図は
第二の主メモリの接続の組合せを示す説明図、第６図は
高速演算プロセッサの接続構成の組合せを示す説明図、
第７図は障害処理制御手段の動作を示す流れ図、第８図
（ａ）〜（ｄ）は障害処理制御手段の詳細を示す流れ
図、第９図は障害処理の例を示す説明図、第10図（ａ）
〜（ｇ）は設定可能なSGの組み合せの例と障害処理の概
要を示す説明図である。 1,2……システム制御装置、３……制御プロセッサ、４
……入出力プロセッサ、5,6,7,8……高速演算プロセッ
サ、9,10……主メモリ、11……接続構成制御手段、12…
…障害処理制御手段、13……保守診断装置、20,21,22,2
3,24,25,26,27,28,29……障害検出手段、30……スカラ
ユニット、31……キャッシュメモリ、32……スカラレジ
スタ、33……スカラ演算パイプライン、40……ベクトル
ユニット、41……ベクトルレジスタ、セット１〜３……
ベクトル演算パイプライン。

Claims

(57)【特許請求の範囲】

【請求項１】情報処理システム全体を制御する制御プロ
セッサと，周辺機器を制御する入出力プロセッサと，前
記制御プロセッサが実行するプログラムを格納する第一
の主メモリとを接続した第一のシステム制御装置と、直
列に接続した複数の高速演算プロセッサと，前期高速演
算プロセッサが実行するプログラムおよびデータを格納
する第二の主メモリと，前記第一のシステム制御装置と
を接続した第二のシステム制御装置とを含む情報処理シ
ステムにおいて、前記第一および第二のシステム制御装
置を接続した保守診断装置と、前記情報処理システムの
各プロセッサ単位および各装置単位に障害を検出して前
記保守診断装置に通知する障害検出報告手段と、前記の
各プロセッサおよび装置の有効／無効の程度を示し上位
の高速演算プロセッサが無効の場合には下位の高速演算
プロセッサを全て無効にする接続構成制御手段と、シス
テム運用中に障害の発生の通知をうけたとき有効な高速
演算プロセッサが存在するかどうかを判定し，有効な高
速演算プロサッサが存在しない場合には高速演算プロセ
ッサのテストプログラムを実行し，前記テストプログラ
ムの実行結果が正常であれば従前の接続構成でシステム
運用を再開し，前記テストプログラムの実行結果が異常
であれば障害の原因に応じて前記第二の主メモリおよび
高速演算プロセッサを部分的に無効にして縮退した接続
構成で再び前記テストプログラムを実行し，前記テスト
プログラムの実行結果が正常であれば前記縮退した接続
構成でシステム運用を再開する障害処理制御手段とを具
備することを特徴とする障害処理方式。
【請求項２】前記１回目のテストプログラムを起動する
か否かをあらかじめ定められた情報に従って判定し制御
することを特徴とする請求項１記載の障害処理方式。
【請求項３】前記テストプログラムの実行結果が正常の
とき高速演算プロセッサの運用を再開するか否かをあら
かじめ定められた情報に従って判定し制御することを特
徴とする請求項１または２記載の障害処理方式。
【請求項４】前記高速演算プロセッサは複合演算パイプ
ラインを含んだ複数のベクトル演算パイプラインを備
え、前記接続構成制御手段は前記複数のベクトル演算パ
イプラインの一部を無効にすること含むことを特徴とす
る請求項１または２または３記載の障害処理方式。
【請求項５】前記接続構成制御手段は前記第二の主メモ
リの一部を無効にすること含むことを特徴とする請求項
１または２または３または４記載の障害処理方式。
【請求項６】前記接続構成制御手段は前記高速演算プロ
セッサ内に含まれるキャッシュの一部を無効にすること
含むことを特徴とする請求項１または２または３または
４または５記載の障害処理方式。
【請求項７】前記第二の主メモリおよび高速演算プロセ
ッサを部分的に無効にするか否かを障害の原因に従って
あらかじめ定められた情報に従って判定し制御すること
を特徴とする請求項１または２または３または４または
５または６記載の障害処理方式。
【請求項８】前記第二のシステム制御装置および第二の
主メモリが原因で障害になった場合は前記システムの全
体障害とみなして前記高速演算プロセッサと同様に障害
処理をすることを特徴とする請求項１または２または３
または４または５または６または７記載の障害処理方
式。