JP3746957B2 - 論理分割システムの制御方法 - Google Patents

論理分割システムの制御方法 Download PDF

Info

Publication number
JP3746957B2
JP3746957B2 JP2001027757A JP2001027757A JP3746957B2 JP 3746957 B2 JP3746957 B2 JP 3746957B2 JP 2001027757 A JP2001027757 A JP 2001027757A JP 2001027757 A JP2001027757 A JP 2001027757A JP 3746957 B2 JP3746957 B2 JP 3746957B2
Authority
JP
Japan
Prior art keywords
processor
failure
partition
stop
bus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001027757A
Other languages
English (en)
Other versions
JP2002229811A (ja
Inventor
毅 小池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Engineering Ltd
Original Assignee
NEC Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Engineering Ltd filed Critical NEC Engineering Ltd
Priority to JP2001027757A priority Critical patent/JP3746957B2/ja
Publication of JP2002229811A publication Critical patent/JP2002229811A/ja
Application granted granted Critical
Publication of JP3746957B2 publication Critical patent/JP3746957B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、情報処理装置の障害処理に関し、特に密結合接続における論理分割システムの制御方法に関する。
【0002】
【従来の技術】
情報処理装置が障害となった場合、障害の程度によってシステム運用を停止させる必要が発生する。システム運用を停止する要因は大別すると2つあり、1つはソフトウェア的な要因によるもので、多くの場合特定のプロセスやジョブで異常を検出し、このプロセスまたはジョブがシステムコアとなる処理であった場合にシステム停止を要するものである。このような障害はハードウェア故障によるものではないので、障害要因をソフトウェア的な観点から見直し、システムの再立ち上げを実行することによって救済される。
【0003】
もう1つの障害はハードウェア的な要因によるもので、システムコアとなるプロセッサ等の故障によって発生し、故障発生装置の修理を行うか、障害部位の縮退を行った後にシステムの再立ち上げを実施する。
【0004】
汎用コンピュータのような大規模情報処理装置では、障害発生から障害内容の解析、被疑部品の特定を容易に行うために、上述のソフトウェア/ハードウェア障害の対策としてログ機能を具備している。ハードウェア障害対策のログ機能にはレジスタのダンプ機能や実行トレース機能等が存在する。
【0005】
このようなハードウェアログ採取は障害発生時点からなるべく早急に行われる方が望ましい。その理由は前記レジスタダンプ情報やトレース情報の内容が障害発生時点から時間が経過すればするほど状態の変化が進行し、ログとしての確度が失われるためである。最も簡単かつ効果的に情報処理装置を障害・停止状態に遷移させるための方法は、ログ採取対象とするプロセッサ間をハードウェア・ワイヤードの障害・停止用信号線で結線し、何れかのプロセッサで異常を検出した際に本信号線を活性化させる事によって、情報処理装置全体を障害・停止状態に移行させるものである。
【0006】
近年のマルチプロセッサ技術の発展により、密結合装置においても主記憶に対して数十台〜数百台のプロセッサを接続してシステム運用を行う情報処理装置が登場するに至った。この種の情報処理装置では、業務の処理量に応じて必要な数ごとにプロセッサ群を分割し、このプロセッサ群ごとに1つのオペレーティングシステムを稼働させる論理分割システムが採用されている。論理分割はIBM(インターナショナル・ビジネス・マシン)社の商標であるPR/SMが著名である。
【0007】
論理分割システムにおいて、単一の障害・停止用信号線でプロセッサ間を結線した場合、障害の程度によっては本来閉塞する必要のない、健全運用されている論理区画まで閉塞してしまう。そのため、通常論理分割システムで耐故障性能を向上させる場合には、複数の情報処理装置をホットスタンバイ構成とするように構成し、運用系全体に障害が波及した場合でも待機系でシステム運用を継続する様にしている。
しかし情報技術の普及と共にコンピュータで扱う業務も多様化し、単一情報処理装置で構成した小規模システムにおいても複数のオペレーティングシステムを稼働させたいというニーズは増加している。またその一方で24時間運転を初めとする基幹業務サーバとしてのコンピュータの信頼性向上も急務であり、こうした意味でも単にホットスタンバイ構成にしただけの信頼性向上ではなく、情報処理装置単体としての信頼性向上技術が重要視されている。
図7は、従来技術によるバス制御部の詳細構成を表したブロック図である。
アドレスデータレジスタ202は、プロセッサ間バス100中のアドレスデータバス101と接続され、他プロセッサ群および主記憶装置400との間でデータの交換を行う。コマンドレジスタ203は、プロセッサ間バス100中のアドレスデータバス101と接続され、他プロセッサおよび主記憶装置400との間でデータの交換を行う際の主記憶トランザクションの属性を格納する。コマンドデコーダ204は、コマンドレジスタ203およびアドレスデータレジスタ202の一部のビットフィールドと接続され、主記憶トランザクションをデコードし、リード命令/ライト命令やその他の制御命令によるバス制御装置の各種動作を指示する。ロード/ストア制御回路206は、演算や入出力を行うプロセッサの他の機能部とプロセッサアドレスデータ信号線208で接続され、プロセッサが使用する命令やデータのプリフェッチ制御、読み出し/書き込みの順序制御、キャッシュ制御等を行う。割り込み制御回路205は、プロセッサ間バス100中の障害・停止信号線102を介して他プロセッサおよび主記憶装置400と接続され、自プロセッサが障害を検出した時には障害・停止信号線102を活性化する。また他プロセッサで障害が発生した時には、障害・停止信号線102の活性化を検出することにより、自プロセッサを障害・停止状態に移行させる機能を備える。バス制御部およびプロセッサの他の機能部は、停止指示信号線207が割り込み制御回路205によって活性化されることにより機能を停止する。
【0008】
【発明が解決しようとする課題】
上述の通り、論理分割下では各論理区画の障害はなるべく他区画に波及しない方が望ましい。しかしながら、障害・停止用信号線で結線する方法を論理分割システムに適用すると、最大区画数分の障害・停止用信号線が必要となる。近年LSIの高集積化により、LSI内に取り込めるゲート量は加速度的に増大してはいる。しかしながらLSIと基板間、あるいはプロセッサとプロセッサを結ぶ信号線数は、物理的な実装制約からLSIの論理増加に付いていけないのが実状である。この点からも障害・停止用信号線の様な通常論理に関係のない信号線数は削減する必要がある。
【0009】
本発明の目的は、主記憶装置に対して複数のプロセッサを密結合で接続し、このプロセッサ群を予め複数の論理区画に分割し、前記の論理区画ごとにオペレーティングシステムを割り付けて運用する論理分割システムにおいて、障害発生時に特定の論理区画のみを選択的に障害・停止状態に遷移させるための制御を、専用の信号線を使用することなく実現することにある。
【0010】
【課題を解決するための手段】
本発明の論理分割システムの制御方法は、主記憶装置に対して複数のプロセッサを密結合で接続し、このプロセッサ群をあらかじめ複数の論理区画に分割し、前記論理区画ごとにオペレーティングシステムを割り付けて運用する論理分割システムにおいて、前記主記憶装置のトランザクションを受信するステップと、該トランザクションの1つとして定義される障害停止命令中に設けた停止対象区画番号とプロセッサごとにあらかじめ設定された自らが所属する区画番号とを比較するステップと、前記主記憶装置のトランザクションが異区画で正常動作しているプロセッサに影響を与えないよう、該主記憶装置のトランザクションを複数のステージに分割し、同一のハードウェア資源を共用可能なもの同士を一つのバスサイクルとして結合して繰り返すステップと、前記比較結果が一致した場合に前記一つのバスサイクルを実行中であればこれを全うしてから前記区画番号により示されるプロセッサを障害・停止状態に遷移させるステップとからなることを特徴としている。
【0011】
さらに本発明の論理分割システムの制御方法は、前記障害停止命令中に設けた停止対象とすべき区画番号に全区画指定に対応する同報区画番号を定義するステップと、前記同報区画番号が設定された障害停止命令を受信した場合に、前記複数のプロセッサはその時点のバスサイクルに依らず、即座に各々を障害停止状態に遷移させるステップからなることを特徴としている。
【0012】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して詳細に説明する。
【0013】
図1に示すように本発明は、演算プロセッサ200〜240および入出力プロセッサ300〜320が、プロセッサ間バス100を介して主記憶装置400と密結合で相互に接続されている。
【0014】
演算プロセッサ200、210、220および入出力プロセッサ300は区画1という一つのプロセッサ群を構成し、これに対して1つのオペレーティングシステムを運用する。また、演算プロセッサ230と入出力プロセッサ310で1つのプロセッサ群を構成し、これを区画2として区画1とは別のオペレーティングシステムを運用する。同様に、演算プロセッサ240と入出力プロセッサ320で1つのプロセッサ群を構成し、この区画3にも別のオペレーティングシステムを運用する。主記憶装置400は情報処理装置内の全ての演算プロセッサ及び入出力プロセッサから参照される区画共有装置である。
【0015】
次に図2を用いて、演算プロセッサ200〜240や入出力プロセッサ300〜320に内蔵されるバス制御部の詳細構成を説明する。なお、従来技術と同様の処理を行う部分については説明を省略する。
【0016】
区画番号格納レジスタ201は、演算プロセッサ200〜240および入出力プロセッサ300〜320が所属する区画番号を保持するレジスタである。コマンドデコーダ204はコマンドレジスタ203およびアドレスデータレジスタ202の一部のビットフィールドと接続され、主記憶トランザクションをデコードしリード命令/ライト命令やその他の制御命令によるバス制御装置の各種動作を指示する。
ロード/ストア制御回路206は演算や入出力を行うプロセッサの他の機能部とプロセッサアドレスデータ信号線208で接続され、プロセッサが使用する命令やデータのプリフェッチ制御、読み出し/書き込みの順序制御、キャッシュ制御等を行う。割り込み制御回路205はコマンドデコーダ204からの指示で、自プロセッサを障害・停止状態に移行させるための制御を行う。
【0017】
以下演算プロセッサ210で障害を検出し、他の演算プロセッサ200および220〜240と入出力プロセッサ300〜320と主記憶装置400を障害・停止状態とする場合の動作を例に挙げて説明する。
【0018】
論理分割方式を使用しない情報処理装置の場合、最も簡単な方法で情報処理装置全体を障害・停止状態に移行させるためには障害・停止信号線102を使用する。
【0019】
従来技術においては、障害を検出した演算プロセッサ210の割り込み制御回路205が障害・停止信号線102を使用して情報処理装置の緊急停止を指示し、他のプロセッサおよび主記憶装置の割り込み制御回路205が前記の信号を受信し、停止指示信号線207を使用してプロセッサ機能を停止させるというのが基本的動作であった。
【0020】
しかし論理分割方式でこのよう制御を行った場合、例えば図1の演算プロセッサ200〜220と入出力プロセッサ300で構成する区画1において演算プロセッサ210の障害波及範囲が区画1内に閉じている場合は、本来停止させる必要のない区画2の演算プロセッサ230および入出力プロセッサ310、区画3の演算プロセッサ240および入出力プロセッサ320までも停止させてしまうことになる。
【0021】
そこで本発明では、障害・停止信号線102に替わって区画番号格納レジスタ201を設けている。プロセッサ210で障害が発生し、システムとして区画1上で動作しているオペレーティングシステムを閉塞する必要が発生した場合に、プロセッサ210はプロセッサ間バス100を介して、自プロセッサが所属する区画1の障害・停止命令を発行する。
障害・停止命令はメモリリード命令やメモリライト命令等の主記憶トランザクションの1つとして定義され、アドレスデータバス101を介して転送される。障害・停止命令は引数として区画番号をアドレス/データ部のビットフィールドの一部に持つ。区画1を閉塞する必要があるプロセッサ210は、コマンドレジスタ203に障害・停止命令に対応するコマンドコードを、アドレスデータレジスタ202に区画1に対応する区画番号をそれぞれ設定し、アドレスデータバス101にデータを送出することによって区画1配下の全プロセッサに障害・停止命令を通知する。プロセッサ間バス100に送出されたデータは情報処理装置内の全てのプロセッサと主記憶装置400にも伝搬する。
【0022】
同一区画1に所属する演算プロセッサ200では、バス制御部に内蔵するコマンドレジスタ203によってデータを取り込みコマンドデコーダ204に転送する。コマンドデコーダ204はデコードした主記憶トランザクションが障害・停止命令であった場合は、アドレスデータレジスタ202に取り込まれているアドレスデータバス101の一部のビットフィールドデータと、区画番号格納レジスタ201に予め保持されている、自プロセッサの所属する区画番号とを比較し、一致する場合には割り込み制御回路205に指示して、停止指示信号線207によってプロセッサの機能を停止させる。
【0023】
この時注目すべきは、演算プロセッサ200のバス制御部以外の機能が障害・停止状態となり動作を停止しても、バス制御部自身はすぐには機能停止しない点である。演算プロセッサ200のバス制御部は、システム上で正常に運用されている他の区画2および区画3に影響を与えない様に、プロセッサ間バス100へのアクセスをバス動作が正常な状態で終了するまで動作させた後、初めて障害・停止状態となる。具体的には、ロード/ストア制御回路206が他区画にも影響のある書き込み動作を完了していなかった場合には書き込み動作を継続させる動作や、プロセッサに内蔵するキャッシュがストアイン方式(ライトバック方式とも言う)である様な場合には、主記憶のデータの写しをキャッシュ内に保持している可能性があるので、キャッシュ内容の主記憶への掃き出し動作を行う動作等がこれに該当する。
【0024】
一方、演算プロセッサ210から発行された障害・停止命令は、プロセッサ間バス100を介して区画2や区画3に属するプロセッサにも通知される。しかしこれらのプロセッサでは、区画番号格納レジスタ201に設定されている区画番号と、コマンドデコーダ204がデコードした障害・停止命令で示されるアドレスデータレジスタ202中の区画番号が不一致となるので、本障害・停止命令に対しては何も機能せずに以後の動作を継続する。
【0025】
以上に示す動作によって、区画1に属する演算プロセッサ200、210、220と入出力プロセッサ300は、区画2に属する演算プロセッサ230と入出力プロセッサ310、および区画3に属する演算プロセッサ240と入出力プロセッサ320の動作に擾乱を与えることなく、選択的に区画1のみを障害・停止状態とすることが可能となる。
【0026】
また本発明は、情報処理装置内の全てのプロセッサを包括して障害・停止状態とするための同報通信機能を備えている。
【0027】
これは前記の障害・停止命令中の引数で指定されるアドレス/データ部の論理区画番号を表すビットフィールドの値として全区画に対応する同報区画番号を定義し、各プロセッサが同報区画番号を設定された障害・停止命令を受信した場合に、プロセッサ間バス100の動作状態に関係なく自プロセッサを即座に障害・停止状態にすべく緊急停止させることを特徴とする。
【0028】
前記の一区画に限定した障害・停止状態への遷移手段との違いは、各プロセッサに内蔵するバス制御部のコマンドデコーダ204で障害・停止命令をデコードし、アドレスデータレジスタ202に取り込んだアドレスデータバス101のデータが全区画に対応する同報区画番号であった場合は、論理区画番号格納レジスタ201の値の如何に拘わらす、割り込み制御回路205に指示して停止指示信号線207によってプロセッサの停止を指示した後、バス制御部自身も以後のバス制御動作を停止する点にある。具体的には、ロード/ストア制御回路206の動作をその時点で停止し、読み込み途中あるいは書き込み途中のデータがロード/ストア制御回路206内に残った状態でも強制停止するという動作がこれに当たる。
【0029】
同報区画番号を定義しバス制御部自身も緊急停止させるのは、障害が情報処理装置全体に関わる問題の場合、バス制御部自身にも障害が存在する可能性があるためである。
【0030】
図2中のバス制御部は、主記憶トランザクションとして図3に示す4つのコマンドコードを使用するものとする。即ちメモリリード命令(コマンドコード0)、メモリライト命令(コマンドコード1)、ロック命令(コマンドコード2)、障害・停止命令(コマンドコード3)である。メモリライト命令は、演算プロセッサ200〜240および入出力プロセッサ300〜320が主記憶装置400に対してデータを書き込む場合に使用する命令である。メモリリード命令は、演算プロセッサ200〜240および入出力プロセッサ300〜320に対して主記憶装置400からデータを読み込む場合に使用する命令である。ロック命令は、演算プロセッサ200〜240間で排他制御が必要な場合に使用する命令である。障害・停止命令は、本発明に関わる命令で演算プロセッサ200〜240および入出力プロセッサ300〜320が自プロセッサの所属する区画または情報処理装置全体を障害・停止状態とする場合に使用する命令である。
【0031】
コマンドコードは4ビットで構成されており、アドレスデータバス101の内4本の信号線を使用する。コマンドコードはコマンドレジスタ203でアドレスデータバス101から取り出される。
【0032】
図3において、主記憶トランザクションは、コマンドが要求される際にコマンドコードに対応する引数として、アドレスデータバス101の内32本の信号線を使用する。この引数は、アドレスデータレジスタ202によってアドレスデータバス101から取り出される。引数に使用される32本の信号線はメモリリード命令およびメモリライト命令ではアドレスの送出やデータの送受信にも兼用される。
【0033】
全ての命令は、アドレスデータレジスタ202で示される引数のビット0〜7に命令の送信元プロセッサの識別番号が格納される。また、命令がロック命令の場合は引数のビット8〜15はロック種別を表し、障害・停止命令の場合には引数のビット8〜15は障害・停止状態とすべき区画番号が設定される。
【0034】
障害・停止命令で使用される前記引数の区画番号設定フィールド(ビット8〜15)に停止させるべき区画の区画番号が設定される。図1の構成の場合、その手順は、演算プロセッサ200〜220と入出力プロセッサ300のバス制御部に内蔵する区画番号格納レジスタ201には事前に区画1を表す01(16進数、以下H)が設定されている。同様に、区画2に属する演算プロセッサ230と入出力プロセッサ310の区画番号格納レジスタ201には、02(H)が、区画3に属する演算プロセッサ240と入出力プロセッサ320の区画番号格納レジスタ201には03(H)が設定されている。
【0035】
何れかの区画で当該区画に所属するプロセッサが障害となり、同一区画に所属する他のプロセッサを障害・停止状態とする時には、コマンドレジスタ203に障害・停止命令のコマンドコードである3(H)を設定すると共に、アドレスデータレジスタ202のビット0〜7に自プロセッサ固有の識別番号を、ビット8〜15に、区画番号格納レジスタ201に予め設定してある自己の所属する区画の値を設定した後、アドレスデータバス101に主記憶トランザクションを送信する。また各プロセッサはアドレスデータバス101を流れる主記憶トランザクションをコマンドレジスタ203で受信し、コマンドデコーダ204で命令をデコードした際に、障害・停止命令のコマンドコードである3(H)であった場合は、アドレスデータレジスタ202のビット8〜15で与えられる停止対象とする区画番号と自プロセッサの区画番号設定レジスタ201の値を比較する。この両者が一致した場合に、障害・停止命令を受信したプロセッサは自分自身を障害・停止状態に移行させる。
【0036】
一方、各区画から共通に使用される主記憶装置400は、メモリリード命令とメモリライト命令のみをデコードする。したがって主記憶装置400のバス制御部で障害・停止命令を受信しても、区画共有装置である主記憶装置400は障害・停止状態とはならない。
【0037】
次に本発明の障害・停止状態への移行処理について説明する。図4は本発明を説明するに当たって使用する一バスプロトコルのタイミング図である。
本バスプロトコルでは1つの主記憶トランザクションは8つのステージ(段階)で構成されている。即ちバスの獲得要求ステージREQ(request)、バスの調停ステージARB(arbitration)、バスの同期ステージSYN(syncronize)アドレス送出ステージADR(address)、トランザクションの取消ステージCAN(cancel)、データの前半1/2の送出ステージDT0(data0)、データの後半1/2の送出ステージDT1(data1)、パリティエラー等の検出報告ステージCHK(check)、の8つである。
【0038】
これらのステージ同士は場合によって同一のハードウェア資源を共用しても動作上問題とならないので、1つの主記憶トランザクションの途中から次のトランザクションを実行することが可能である(パイプライン構造)。例えばステージ1のバスの獲得要求REQでは図2のアドレスデータレジスタ202に引数が格納されるが、ステージ4のアドレス送出ADRではアドレスデータレジスタ202に主記憶アクセスのためのアドレス情報が格納される。また前記のアドレス情報に対して主記憶装置400が書き込みまたは読み込みデータを準備するまでの間に時間差があるため、2ステージ後のステージ6データ送出DT0で書き込み/読み込みデータの前半1/2が、続くステージ7データ送出DT1で書き込み/読み込みデータの後半1/2がアドレスデータレジスタ202に格納される。
【0039】
この時ステージ1〜4とステージ5〜8を重ね合わせて実行しても、アドレスデータレジスタ202に格納されるステージ1の引数、ステージ4のアドレス、ステージ6、7のデータは同一のタイミングでアドレスデータレジスタ202を使用することがないので、ステージ1〜4が終了した時点で次の主記憶トランザクションを実行し始めても支障はない。この様に重ね合わせが可能なステージをステート(状態)と呼び、ステートの繰り返しの単位をサイクルと呼ぶ。
【0040】
図4に示すバスプロトコルの場合、ステートAはステージ1のREQとステージ5のCANで、ステートBはステージ2のARBとステージ6のDT0で、ステートCはステージ3のSYNとステージ7のDT1で、ステートDはステージ4のADRとステージ8のCHKで構成されており、ステートA〜Dの4ステートで1バスサイクルを形成している。
【0041】
図5は区画1に所属する演算プロセッサ210で障害を検出し、同じ区画1に所属する演算プロセッサ200が障害・停止状態へ移行するまでのバス動作を表したタイミング図である。
【0042】
演算プロセッサ200はトランザクション1に従って主記憶装置400へのメモリライト命令を実行中であり。この時ステージ1〜4の間に演算プロセッサ210が障害を検出し、区画1を障害・停止状態に移行させる必要が生じたものとする。演算プロセッサ210はステージ5から始まるトランザクション2で障害・停止命令を実行する。
【0043】
演算プロセッサ210はステージ5でバスの獲得要求を行う際に、アドレスデータバス101に対して障害・停止命令のコマンドコードと停止させるべき区画番号を送出する。同一区画に所属する演算プロセッサ200では、プロセッサバスに送出された命令が障害・停止命令であることを認識し、自己の区画番号と比較した結果同一であるので、ステージ5のタイミングでプロセッサのバス制御部以外の部位を機能停止させる。この時、演算プロセッサ200のバス制御部は、先行する主記憶トランザクション1のメモリライト命令を実行中であるので、トランザクションの実行途中でバス動作の停止を行うと続くステージ6、7の書き込みデータが不定となり主記憶のデータ化けが発生する。
【0044】
本発明の第一実施例では、演算プロセッサ200のバス動作を他の区画に影響のないところまで実行した後、障害・停止状態に移行する様に作用する。したがって、演算プロセッサ200は主記憶トランザクション1をステージ8のSYNまで実行し、初めてバス制御部を障害停止状態に移行させる。これにより主記憶装置400内のデータはデータ化けを起こすことなく、正常な状態で保持される。
【0045】
一方、区画2に所属する演算プロセッサ230は、ステージ9から始まる主記憶トランザクション3でメモリリード命令を実行しようとしている。演算プロセッサ230においてもステージ5の演算プロセッサ210が要求した障害・停止命令をデコードするが、こちらはアドレスデータレジスタ202に障害・停止命令の引数として格納された区画番号と、演算プロセッサ230の論理区画番号格納レジスタ201の値が不一致となるので、障害・停止状態とはならず、ステージ9から正常にメモリリード命令を実行する。
【0046】
また、仮に演算プロセッサ200がトランザクション1によって書き込みを行った主記憶アドレスから、演算プロセッサ230がデータを読み出したとしても、トランザクション1は正常に終了しているので、演算プロセッサ230の読み出しデータはデータ化けを起こすことなく、正常な状態で区画2の運用が継続される。
【0047】
本発明の第二の実施形態では、障害・停止命令の引数として使用されるアドレスデータレジスタ202の区画番号設定フィールドに設定する区画番号として、情報処理装置内の全プロセッサを停止させることを目的とした同報区画番号を定義している。図3に示す例では、アドレスデータバスで受け渡される障害・停止命令の引数の内、ビット8〜15にFF(H)を設定した場合がこれに当たる。
【0048】
障害・停止状態に至る動作を詳細に説明すると、何れかのプロセッサが障害となりその障害が情報処理装置全体に影響するものであった場合には、障害となったプロセッサはコマンドレジスタ203に障害・停止命令のコマンドコードである3(H)を設定すると共に、アドレスデータレジスタ202のビット0〜7に自プロセッサ固有の識別番号を、ビット8〜15に同報通知を表す区画番号であるFF(H)を設定した後、アドレスデータバス101に主記憶トランザクションを送信する。
【0049】
一方、主記憶トランザクションを受信するプロセッサでは、アドレスデータバス101を流れる主記憶トランザクションをコマンドレジスタ203で受信し、コマンドデコーダ204で命令をデコードした際に障害・停止命令のコマンドコードである3(H)であった場合は、アドレスデータレジスタ202のビット8〜15で与えられる対象区画番号を参照する。この時演算プロセッサ200〜240と入出力プロセッサ300〜320に内蔵する区画番号格納レジスタ201には、自己の所属する区画番号が事前にが設定されているが、アドレスデータレジスタ202で与えられた対象区画番号が同報通知を表すFF(H)であった場合は、区画番号設定レジスタ201の値との比較を実施することなく自プロセッサを障害・停止状態に遷移させる。
【0050】
次に本発明の第二の実施形態について、動作を詳細に説明する。
【0051】
図6は区画1に所属する演算プロセッサ210で障害を検出し、障害状態を波及させる範囲が情報処理装置全体に及ぶと判断した場合の、障害・停止状態へ移行するまでのバス動作を表したタイミングチャートである。
【0052】
演算プロセッサ200はトランザクション1に従って主記憶装置400へのメモリライト命令を実行中であるとする。この時ステージ1〜4の間に演算プロセッサ210が障害を検出し、情報処理装置全体を障害・停止状態に移行させる必要が生じたとする。演算プロセッサ210はステージ5から始まるトランザクション2で障害・停止命令を実行する。
【0053】
演算プロセッサ210はステージ5でバスの獲得要求を行う際に、アドレスデータバス101に対して障害・停止命令のコマンドコードと全区画を表す同報区画番号を送出する。一方、演算プロセッサ200では、アドレスデータバス101に送出された命令をステージ5でコマンドレジスタ203に取り込み、コマンドデコーダ204で命令をデコードすることによって障害・停止命令であることを認識する。この時、演算プロセッサ200がアドレスデータレジスタ202から取り出した停止対象とすべき区画番号に同報区画番号が設定されている場合は、バス制御部を含めたプロセッサ全体を早急に障害・停止状態とすべく動作する。
【0054】
図6を参照すると、演算プロセッサ200はステージ5においてトランザクションの取消処理CANを実行中であるが、同報区画番号による障害・停止命令を受信したので、続くステージ6データの前半1/2の送出処理DT0、ステージ7データの後半1/2の送出処理DT1、ステージ8パリティエラー等の検出報告処理CHKの3つを実行することなく、演算プロセッサ200のバス制御を含めた機能を停止させる。
【0055】
また、区画2に所属する演算プロセッサ230も、ステージ9から始まる主記憶トランザクション3においてメモリリード命令を実行しようとしているが、こちらもステージ5において演算プロセッサ200と同様に障害・停止命令をデコードし、障害・停止命令の引数として与えられた区画番号が同報区画番号であるので、ステージ9からのメモリリード命令を実行することなく、演算プロセッサ230の機能を停止する。
【0056】
本発明の第二の形態では、第一の形態より更に3ステージ早いタイミングで、バス制御部の状態情報が保持できることになる。
【0057】
【発明の効果】
本発明の第1の効果は、論理分割方式の情報処理装置において、特定の論理区画のみを選択的に障害・停止状態に移行させるための機構を、専用の信号線を使用することなく少ないハードウェア信号線で実現できることにある。これは、障害・停止指示用の信号線に替わって主記憶トランザクションの1つとしてプロセッサの障害・停止命令を定義することによって、プロセッサが通常有するアドレスデータバスを使用して障害・停止状態を通知し、障害・停止指示用の信号線を削減が可能になることによる。
【0058】
第2の効果は、情報処理装置全体に関わる障害が発生した場合に、障害発生時点からより早い時期に障害・停止状態へ移行可能とすることで、障害解析のために有用なレジスタ情報やトレース情報の破壊が進行することを防ぐことができることにある。これは、障害・停止命令の引数として特定の区画を障害・停止とさせるための区画番号と、全区画を障害・停止とさせるための同報区画番号を使い分けることによって、バス制御動作を停止させるタイミングを選択していることによる。
【図面の簡単な説明】
【図1】本発明の実施の形態を表す構成図である。
【図2】本発明の実施例を表すバス制御部の詳細ブロック図である。
【図3】本発明の実施例を表す主記憶トランザクションの命令体系図である。
【図4】本発明の実施例を表すバスプロトコルのタイミング図である。
【図5】本発明の第一実施形態のバス動作を表すタイミング図である。
【図6】本発明の第二実施形態のバス動作を表すタイミング図である。
【図7】従来技術の実施例を表すバス制御部の詳細ブロック図である。
【符号の説明】
100 プロセッサ間バス
200、210、220、230、240 演算プロセッサ
300、310、320 入出力プロセッサ
400 主記憶装置
101 アドレスデータバス
102 障害・停止信号線
201 論理区画番号格納レジスタ
202 アドレスデータレジスタ
203 コマンドレジスタ
204 コマンドデコーダ
205 割り込み制御回路
206 ロード/ストア制御回路
207 プロセッサ停止指示信号線
208 プロセッサアドレスデータ信号線

Claims (2)

  1. 主記憶装置に対して複数のプロセッサを密結合で接続し、このプロセッサ群をあらかじめ複数の論理区画に分割し、前記論理区画ごとにオペレーティングシステムを割り付けて運用する論理分割システムにおいて、前記主記憶装置のトランザクションを受信するステップと、該トランザクションの1つとして定義される障害停止命令中に設けた停止対象区画番号とプロセッサごとにあらかじめ設定された自らが所属する区画番号とを比較するステップと、前記主記憶装置のトランザクションが異区画で正常動作しているプロセッサに影響を与えないように、該主記憶装置のトランザクションを複数のステージに分割し、同一のハードウェア資源を共用可能なもの同士を一つのバスサイクルとして結合して繰り返すステップと、前記比較結果が一致した場合に前記一つのバスサイクルを実行中であればこれを全うしてから前記区画番号により示されるプロセッサを障害・停止状態に遷移させるステップとによりなることを特徴とする論理分割システムの制御方法。
  2. 前記障害停止命令中に設けた停止対象とすべき区画番号に全区画指定に対応する同報区画番号を定義するステップと、前記同報区画番号が設定された障害停止命令を受信した場合に、前記複数のプロセッサはその時点のバスサイクルに依らず、即座に各々を障害停止状態に遷移させるステップからなることを特徴とする、請求項1記載の論理分割システムの制御方法。
JP2001027757A 2001-02-05 2001-02-05 論理分割システムの制御方法 Expired - Fee Related JP3746957B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001027757A JP3746957B2 (ja) 2001-02-05 2001-02-05 論理分割システムの制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001027757A JP3746957B2 (ja) 2001-02-05 2001-02-05 論理分割システムの制御方法

Publications (2)

Publication Number Publication Date
JP2002229811A JP2002229811A (ja) 2002-08-16
JP3746957B2 true JP3746957B2 (ja) 2006-02-22

Family

ID=18892362

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001027757A Expired - Fee Related JP3746957B2 (ja) 2001-02-05 2001-02-05 論理分割システムの制御方法

Country Status (1)

Country Link
JP (1) JP3746957B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4529767B2 (ja) * 2005-04-04 2010-08-25 株式会社日立製作所 クラスタ構成コンピュータシステム及びその系リセット方法
WO2007096999A1 (ja) * 2006-02-24 2007-08-30 Fujitsu Limited 切り離し装置および切り離し方法
JP4653838B2 (ja) * 2006-02-28 2011-03-16 富士通株式会社 演算処理装置、演算処理装置の制御方法及び制御プログラム
JP4495248B2 (ja) 2007-03-29 2010-06-30 富士通株式会社 情報処理装置、障害処理方法
EP2302524B1 (en) 2008-06-02 2019-01-23 Fujitsu Limited Data processing system, data processing method, and data processing program

Also Published As

Publication number Publication date
JP2002229811A (ja) 2002-08-16

Similar Documents

Publication Publication Date Title
US5193181A (en) Recovery method and apparatus for a pipelined processing unit of a multiprocessor system
JP4532561B2 (ja) マルチプロセッサシステムにおける同期化のための方法および装置
EP1760559B1 (en) Method and apparatus for synchronizing an industrial controller with a redundant controller
US5621885A (en) System and method for providing a fault tolerant computer program runtime support environment
US5640508A (en) Fault detecting apparatus for a microprocessor system
JPH01152543A (ja) 欠陥分離及び修理機能を有する耐欠陥コンピュータシステム
EP0372751B1 (en) Pipelined data-processing apparatus
WO2020239060A1 (zh) 错误恢复的方法和装置
US20040216003A1 (en) Mechanism for FRU fault isolation in distributed nodal environment
US7966536B2 (en) Method and apparatus for automatic scan completion in the event of a system checkstop
CN100511167C (zh) 监控多处理器***中的存储单元的方法和设备
JP3746957B2 (ja) 論理分割システムの制御方法
JP3526031B2 (ja) データ転送装置
JP3434735B2 (ja) 情報処理システム及びそれに用いる障害処理方式
US7243257B2 (en) Computer system for preventing inter-node fault propagation
JP3317776B2 (ja) 情報処理装置
JPS6113626B2 (ja)
WO2023030013A1 (zh) 一种数据处理方法及装置
US5182754A (en) Microprocessor having improved functional redundancy monitor mode arrangement
JPH0498326A (ja) マイクロプロセッサ
JP2002215471A (ja) メモリポート、記憶装置、情報処理システム
JPH03209523A (ja) 命令データエラー検出方式
JPH03228189A (ja) マイクロプロセッサ
JPS6146535A (ja) 擬似エラ−設定制御方式
JPH10214207A (ja) 情報処理システム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050222

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050307

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051125

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3746957

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081202

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081202

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091202

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091202

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101202

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111202

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111202

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121202

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121202

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131202

Year of fee payment: 8

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees