JPH05210529A - マルチプロセッサシステム - Google Patents

マルチプロセッサシステム

Info

Publication number
JPH05210529A
JPH05210529A JP4017049A JP1704992A JPH05210529A JP H05210529 A JPH05210529 A JP H05210529A JP 4017049 A JP4017049 A JP 4017049A JP 1704992 A JP1704992 A JP 1704992A JP H05210529 A JPH05210529 A JP H05210529A
Authority
JP
Japan
Prior art keywords
processor
individual function
reset
function processor
system control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4017049A
Other languages
English (en)
Inventor
Ritsu Suzuki
立 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP4017049A priority Critical patent/JPH05210529A/ja
Publication of JPH05210529A publication Critical patent/JPH05210529A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Retry When Errors Occur (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 【目的】 それぞれの機能の独立度が高い複数のプロセ
ッサにより構成されるマルチプロセッサシステムにおい
て異常が発生したときのプロセッサの縮退方式に関し、
その異常要因が復旧不可能の場合のみプロセッサの縮退
を行わせることを目的とする。 【構成】 システム制御プロセッサが、各個別機能プロ
セッサの動作状態を定期的に検査していずれかの個別機
能プロセッサの動作状態が異常であった場合には該個別
機能プロセッサをリセットし、該個別機能プロセッサの
所定立ち上がり時間後に動作指令を与えて該個別機能プ
ロセッサの動作を開始させるように構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はマルチプロセッサシステ
ムに関し、特にそれぞれの機能の独立度が高い複数のプ
ロセッサにより構成されるマルチプロセッサシステムに
おいて異常が発生したときのプロセッサの縮退方式に関
するものである。
【0002】近年、コンピュータシステムの性能向上の
要求に伴い、複数のプロセッサによってマルチプロセッ
サシステムが構成されることが多くなって来ており、こ
の種のシステムにおいて異常が発生したとき、プロセッ
サをシステムから切り離す縮退動作をできるだけ効率良
く行い、システム運用の信頼性を向上させる必要があ
る。
【0003】
【従来の技術と課題】マルチプロセッサシステムにおけ
るプロセッサの中には、システム全体の制御を行うプロ
セッサ(以下、システム制御プロセッサと称することが
ある)と、システム全体への影響が少ない個別の機能を
有する複数のプロセッサ(以下、個別機能プロセッサと
称することがある)とが含まれており、前者のシステム
制御プロセッサに異常が発生したときには、システム全
体を停止させることは止むを得ないが、後者の個別機能
プロセッサに異常が発生したときには、その異常の要因
には一過性であり該個別機能プロセッサをリセットすれ
ば取り除かれるものも存在する。
【0004】このため、その個別機能プロセッサをリセ
ットしても復旧することが不可能である異常が発生した
場合にのみ、該個別機能プロセッサをシステムから切り
離す必要がある。
【0005】しかしながら、従来の多くのマルチプロセ
ッサシステムにおいては、システム全体への影響が少な
い個別機能プロセッサだけに異常が発生した場合でもシ
ステム全体を停止させてしまい、該異常の個別機能プロ
セッサとは関係なく動作することが可能な個別機能プロ
セッサの機能まで失われてしまっていた。
【0006】これに対して、個別機能プロセッサだけに
異常が発生した場合には該プロセッサだけを縮退させる
機能を持ったマルチプロセッサシステムも存在している
が、この場合には、異常要因が一過性であり復旧可能で
あるにも関わらず該プロセッサを無条件に縮退させてお
り、効率的な運転を妨げていた。
【0007】そこで本発明は、システム全体の制御を行
うプロセッサと個別の機能を有する複数のプロセッサと
で構成されたマルチプロセッサシステムにおいて、個別
機能プロセッサが異常状態に陥った場合、その異常要因
が復旧不可能の場合のみプロセッサの縮退を行わせるこ
とを目的とする。
【0008】
【課題を解決するための手段】上記の目的を達成するた
め、本発明に係るマルチプロセッサシステムでは、図1
に原理的に示すように、システム制御プロセッサ1が、
該個別機能プロセッサ2−1〜2−nの動作状態を定期
的に検査していずれかの個別機能プロセッサの動作状態
が異常であった場合には該個別機能プロセッサをリセッ
トし、該個別機能プロセッサの所定立ち上がり時間後に
動作指令を与えて該個別機能プロセッサの動作を開始さ
せると共に再度動作状態を検査して同一要因の異常が検
出されたときには該個別機能プロセッサを再度リセット
する。
【0009】また本発明では、システム制御プロセッサ
1が、同一異常要因によるリセットを一定回数だけ繰り
返しても該個別機能プロセッサの異常状態が復旧しない
場合、該個別機能プロセッサをもう一度リセットすると
共に該動作指令は出さず該個別機能プロセッサを縮退さ
せることができる。
【0010】更に本発明では、システム制御プロセッサ
1と各個別機能プロセッサ2−1〜2−nとの間に点線
で示すように共有メモリ3を設けて前記の諸動作を実行
することができる。
【0011】
【作用】以上の本発明の作用を図1を参照してより分か
り易く説明すると、まず、システム制御プロセッサ1
が、各個別機能プロセッサ2−1〜2−nの動作状態を
定期的に検査する()。この結果、システム制御プロ
セッサ1は各個別機能プロセッサ2−1〜2−nより順
次正常/異常の応答()を受けるが、この応答()
がいずれかの個別機能プロセッサ、例えば図示の例では
個別機能プロセッサ2−1の動作状態が異常であった場
合には個別機能プロセッサ2−1をリセットする
()。
【0012】そして、システム制御プロセッサ1は、異
常障害に係る個別機能プロセッサ2−1の予め決まって
いるリセット後の立ち上がり時間経過後に動作指令
()を与えて個別機能プロセッサ2−1の動作を開始
させる。
【0013】このようにすれば、システム内の或る個別
機能プロセッサ2−1に異常が発生した場合に、該個別
機能プロセッサ2−1を即座に縮退させること無く、リ
セットにより一旦動作復旧させることができる。
【0014】また本発明では、システム制御プロセッサ
1は再度異常プロセッサ2−1の動作状態を検査()
し、その結果()、同一要因の異常が検出されたとき
には該個別機能プロセッサ2−1を再度リセット()
する。
【0015】そして、このように行ったリセット()
の異常要因が同一であるとき、このリセット動作が一定
回数を越えたときには、個別機能プロセッサの異常状態
が復旧しない場合と判断し、該当する個別機能プロセッ
サをもう一度リセット()するが動作指令は出さず、
従って該個別機能プロセッサを縮退させる。
【0016】従って、システム制御プロセッサ1はリセ
ットにより復旧が可能であるかを判断し、復旧不可能な
場合にのみ当該個別機能プロセッサを縮退させようとす
るものである。
【0017】
【実施例】図2は本発明に係るマルチプロセッサシステ
ムの実施例を示したもので、図中、1はシステム全体を
制御するためのプロセッサとしてのCPU、2−1〜2
−nはシステム制御CPU1によって監視され独立した
機能を有する個別機能CPU、そして、3は全CPUが
アクセス可能な共有メモリであり、このメモリ3の中に
はシステム全体の動作状態を格納するためのシステム状
態領域31とシステム制御CPU−個別機能CPU間で
通信を行うための領域32とが設定されている。
【0018】また、個別機能CPU2−1〜2−nは、
リセットされた時には自動的に立ち上がり、その後はシ
ステム制御CPU1から動作して良いという指令(オン
ライン指令)を待機し(オフラインモード)、該オンラ
イン指令を受けて始めて動作可能(オンラインモード)
となるものである。
【0019】このような実施例の動作を図3に示したフ
ローチャートを参照して以下に説明する。
【0020】まず、システム制御CPU1は、個別機能
CPU2−1〜2−nの内の最初の個別機能CPU2−
1の動作状態を検査するためにCPU間通信領域32を
用いて周期的にテストメールを送信し(ステップS
1)、個別機能CPU2−1はテストメールを受信す
る(ステップT1)。
【0021】テストメールを受けた最初の個別機能C
PU2−1は、自CPUの動作状態をCPU間通信領域
32を用いてシステム制御CPU1に異常/正常に関す
るテストメール応答として返し(ステップT2)、シ
ステム制御CPU1はこの応答を受信する(ステップ
S2)。
【0022】システム制御CPU1は更にテストメール
応答を解析して(ステップS3)、個別機能CPU2
−1が正常であったときには次の例えば個別機能CPU
2−2に対して動作状態検査(ステップS1)を行う
が、個別機能CPU2−1の動作状態が無応答であった
り異常であった場合にはシステム状態領域31にその旨
の書込(ステップS4)を行うと共にその個別機能C
PU2−1に対してリセットを行う(ステップS
5)。
【0023】リセットされた個別機能CPU2−1は自
動的に立ち上がるが、リセットしてから立ち上がるまで
に必要な所定時間が経過した頃に、システム制御CPU
1はオンライン指令を送り(ステップS5)、該個別
機能CPU2−1はこれを受けてオンラインモードとな
る(ステップT3)。
【0024】その後、システム制御CPU1はこの異常
状態のCPU2−1にテストメールを再び送り(ステ
ップS6,T4)、このテストメールの応答が有る
と(ステップT5,S7)、その応答結果から該CPU
2−1が正常であればステップS3の場合と同様にステ
ップS1に戻るが、該CPU2−1から無応答であった
り異常があったことが判明した場合(ステップS8)に
は、リセット以前と同一の要因の異常かどうかをシステ
ム状態領域31に対して読出を行って参照すると共に
同一の要因と考えられる場合であれば規定のリセット回
数に達していなければ、再び該CPU2−1をリセット
し上記のステップS5〜S9を繰り返す。
【0025】そして、リセットを規定回数だけ繰り返
しても異常が復旧しないことがステップS9で判明した
ときには、システム制御CPU1は該異常CPU2−1
をもう一度リセットするが今度はオンライン指令は出さ
ない(ステップS10)
【0026】これにより該異常CPU2−1はオフライ
ンモードの状態にとどまり、縮退動作となる(ステップ
T6)。
【0027】その後は、システム制御CPU1は該異常
のCPU2−1を無視して、動作を継続する。
【0028】
【発明の効果】以上説明した様に、本発明によれば、シ
ステム制御プロセッサが、各個別機能プロセッサの動作
状態を定期的に検査していずれかの個別機能プロセッサ
の動作状態が異常であった場合には該個別機能プロセッ
サをリセットし、該個別機能プロセッサの所定立ち上が
り時間後に動作指令を与えて該個別機能プロセッサの動
作を開始させるように構成したので、或る個別機能プロ
セッサに異常が発生した場合に、リセットにより一旦動
作復旧させることができ、該個別機能プロセッサを即座
に縮退させることが無くなる。
【0029】また更に、システム制御プロセッサが、再
度、該異常状態の個別機能プロセッサの動作状態を検査
して同一要因の異常が検出されたときには該個別機能プ
ロセッサを再度リセットすると共に同一異常要因による
リセットを一定回数だけ繰り返しても該個別機能プロセ
ッサの異常状態が復旧しない場合、該個別機能プロセッ
サをもう一度リセットすると共に該動作指令は出さず該
個別機能プロセッサを縮退させるように構成すれば、異
常が発生したプロセッサを所定回数リセットすることに
よっても復旧が不可能な場合だけ該プロセッサを確実に
縮退し、以て異常が発生した場合にシステム全体として
失われる機能を最小限に抑えることができ、マルチプロ
セッサシステムの信頼性の向上に寄与するところが大き
い。
【図面の簡単な説明】
【図1】本発明に係るマルチプロセッサシステムを原理
的に示したブロック図である。
【図2】本発明に係るマルチプロセッサシステムの実施
例を示したブロック図である。
【図3】本発明の実施例の動作を説明するためのフロー
チャート図である。
【符号の説明】
1 システム制御プロセッサ(CPU) 2−1〜2−n 個別機能プロセッサ(CPU) 3 共有メモリ 図中、同一符号は同一又は相当部分を示す。
フロントページの続き (51)Int.Cl.5 識別記号 庁内整理番号 FI 技術表示箇所 G06F 15/16 470 R 9190−5L H 9190−5L

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 システム全体の制御を行うプロセッサ
    (1) と個別の機能を有する複数のプロセッサ(2-1〜2-n)
    とで構成されたマルチプロセッサシステムにおいて、 該システム制御プロセッサ(1) が、各個別機能プロセッ
    サ(2-1〜2-n)の動作状態を定期的に検査していずれかの
    個別機能プロセッサの動作状態が異常であった場合には
    該個別機能プロセッサをリセットし、該個別機能プロセ
    ッサの所定立ち上がり時間後に動作指令を与えて該個別
    機能プロセッサの動作を開始させることを特徴としたマ
    ルチプロセッサシステム。
  2. 【請求項2】 該システム制御プロセッサ(1) が、再
    度、該異常状態の個別機能プロセッサの動作状態を検査
    して同一要因の異常が検出されたときには該個別機能プ
    ロセッサを再度リセットすると共に同一異常要因による
    リセットを一定回数だけ繰り返しても該個別機能プロセ
    ッサの異常状態が復旧しない場合、該個別機能プロセッ
    サをもう一度リセットすると共に該動作指令は出さず該
    個別機能プロセッサを縮退させることを特徴とした請求
    項1に記載のマルチプロセッサシステム。
  3. 【請求項3】 該システム制御プロセッサ(1) と各個別
    機能プロセッサ(2-1〜2-n)との間に共有メモリ(3) を設
    けて前記の諸動作を実行することを特徴とした請求項1
    又は2に記載のマルチプロセッサシステム。
JP4017049A 1992-01-31 1992-01-31 マルチプロセッサシステム Pending JPH05210529A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4017049A JPH05210529A (ja) 1992-01-31 1992-01-31 マルチプロセッサシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4017049A JPH05210529A (ja) 1992-01-31 1992-01-31 マルチプロセッサシステム

Publications (1)

Publication Number Publication Date
JPH05210529A true JPH05210529A (ja) 1993-08-20

Family

ID=11933139

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4017049A Pending JPH05210529A (ja) 1992-01-31 1992-01-31 マルチプロセッサシステム

Country Status (1)

Country Link
JP (1) JPH05210529A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2407414A (en) * 2003-10-22 2005-04-27 Hewlett Packard Development Co Fault-tolerant multi-core microprocesing
WO2007049162A2 (en) * 2005-10-25 2007-05-03 Nxp B.V. Data processing arrangement comprising a reset facility.
WO2008015730A1 (fr) * 2006-07-31 2008-02-07 Fujitsu Limited Procédé et programme pour éviter un échec d'exécution d'une tâche dans un système de calcul de grille et système de calcul de grille
WO2008107934A1 (ja) * 2007-03-07 2008-09-12 Fujitsu Limited マルチプロセッサシステム
JP2008234117A (ja) * 2007-03-19 2008-10-02 Fujitsu Ltd マルチプロセッサシステムおよびマルチプロセッサシステムにおける復旧方法
JP2015109071A (ja) * 2013-10-25 2015-06-11 トヨタ自動車株式会社 制御装置
US9507611B2 (en) 2015-02-04 2016-11-29 Fuji Xerox Co., Ltd. Electronic apparatus, control device, control method, and computer readable medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH044444A (ja) * 1990-04-20 1992-01-08 Omron Corp 通信制御システム
JPH0424838A (ja) * 1990-05-21 1992-01-28 Fuji Xerox Co Ltd マルチプロセッサの障害管理方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH044444A (ja) * 1990-04-20 1992-01-08 Omron Corp 通信制御システム
JPH0424838A (ja) * 1990-05-21 1992-01-28 Fuji Xerox Co Ltd マルチプロセッサの障害管理方式

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2407414A (en) * 2003-10-22 2005-04-27 Hewlett Packard Development Co Fault-tolerant multi-core microprocesing
GB2407414B (en) * 2003-10-22 2006-10-04 Hewlett Packard Development Co Fault-tolerant multi-core microprocessing
US7206966B2 (en) 2003-10-22 2007-04-17 Hewlett-Packard Development Company, L.P. Fault-tolerant multi-core microprocessing
WO2007049162A2 (en) * 2005-10-25 2007-05-03 Nxp B.V. Data processing arrangement comprising a reset facility.
WO2007049162A3 (en) * 2005-10-25 2007-07-26 Nxp Bv Data processing arrangement comprising a reset facility.
US8176302B2 (en) 2005-10-25 2012-05-08 Nxp B.V. Data processing arrangement comprising a reset facility
WO2008015730A1 (fr) * 2006-07-31 2008-02-07 Fujitsu Limited Procédé et programme pour éviter un échec d'exécution d'une tâche dans un système de calcul de grille et système de calcul de grille
WO2008107934A1 (ja) * 2007-03-07 2008-09-12 Fujitsu Limited マルチプロセッサシステム
JP2008234117A (ja) * 2007-03-19 2008-10-02 Fujitsu Ltd マルチプロセッサシステムおよびマルチプロセッサシステムにおける復旧方法
JP2015109071A (ja) * 2013-10-25 2015-06-11 トヨタ自動車株式会社 制御装置
US9507611B2 (en) 2015-02-04 2016-11-29 Fuji Xerox Co., Ltd. Electronic apparatus, control device, control method, and computer readable medium

Similar Documents

Publication Publication Date Title
CN111124728B (zh) 业务自动恢复方法、***、可读存储介质及服务器
CN112732477A (zh) 一种带外自检故障隔离的方法
JPH05210529A (ja) マルチプロセッサシステム
US20030177224A1 (en) Clustered/fail-over remote hardware management system
JPH10214208A (ja) ソフトウェアの異常監視方式
CN116719657A (zh) 一种固件故障日志生成方法、装置、服务器及可读介质
JP2001331330A (ja) プロセス異常検知及び復旧システム
US20050210329A1 (en) Facilitating system diagnostic functionality through selective quiescing of system component sensor devices
JPH05314085A (ja) 複数計算機間の相互稼動待機方式
CN101158920A (zh) 一种检测操作***故障的方法和装置
JPH08287030A (ja) 多重系計算機システムの自動再起動装置および方法
JP2785992B2 (ja) サーバプログラムの管理処理方式
CN114978891B (zh) 网络设备bios配置的处理方法、设备及存储介质
JPH11120154A (ja) コンピュータシステムにおけるアクセス制御装置および方法
JP2004013723A (ja) 共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法
JPH04223534A (ja) 情報処理システム
JPH05216855A (ja) マルチcpu制御方式
JP2001175545A (ja) サーバシステムおよび障害診断方法ならびに記録媒体
JP2017151511A (ja) 情報処理装置、動作ログ取得方法および動作ログ取得プログラム
JPH06266685A (ja) 分散形制御システム
KR0154705B1 (ko) 시스템 고장 진단 및 복구장치와 그 방법
JP2007026038A (ja) パス監視システム,パス監視方法,およびパス監視プログラム
JP2954040B2 (ja) 割込監視装置
Scherrer et al. How does resource utilization affect fault tolerance?
JPH03111962A (ja) マルチプロセッサ・システム

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19970826