JP2000222232A - 電子計算機及び電子計算機のメモリ障害回避方法 - Google Patents

電子計算機及び電子計算機のメモリ障害回避方法

Info

Publication number
JP2000222232A
JP2000222232A JP11019466A JP1946699A JP2000222232A JP 2000222232 A JP2000222232 A JP 2000222232A JP 11019466 A JP11019466 A JP 11019466A JP 1946699 A JP1946699 A JP 1946699A JP 2000222232 A JP2000222232 A JP 2000222232A
Authority
JP
Japan
Prior art keywords
data
storage device
main storage
address
checkpoint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11019466A
Other languages
English (en)
Inventor
Satoshi Mizuno
聡 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP11019466A priority Critical patent/JP2000222232A/ja
Publication of JP2000222232A publication Critical patent/JP2000222232A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Techniques For Improving Reliability Of Storages (AREA)
  • Retry When Errors Occur (AREA)

Abstract

(57)【要約】 【課題】 メモリの二重化を行うことなく、マルチビッ
トエラーを回避することができる電子計算機及び電子計
算機のメモリ障害回避方法を提供する。 【解決手段】 チェックポイントのタイミングで、主記
憶装置1のECCエラー検出機構2を参照し、シングル
ビットエラーが検出されていれば、そのエラー発生アド
レス及び対応するデータを主記憶装置1上の特定領域1
Aに保存し、その後ECCエラー検出機構2が再度エラ
ー検出できるように再設定する。以後チェックポイント
毎に上記アドレスに対するデータを主記憶装置1から読
み出して特定領域1Aに保存する。そして、マルチビッ
トエラーが発生した場合には、エラーが発生したアドレ
スに基づき特定領域1Aに元のデータが保存されている
か否かを調べ、保存されていた場合にはロールバック後
にそのデータを主記憶装置1のエラー発生したアドレス
に書き戻す。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、電子計算機及び電
子計算機のメモリ障害回避方法に関する。
【0002】
【従来の技術】従来の電子計算機のメモリ障害回避手段
として、ブート時にBIOS、あるいはOSがメモリを
チェックし、エラーを発見すると、そのエラーを含むペ
ージをOSがそれ以降使用しないようにするものや、シ
ングルビットエラーを発見した場合に、そのエラーを発
生したアドレスのデータを読み出し、その後、再び同じ
アドレスにそのデータを書き込むことでエラーを除去す
るものがある。
【0003】
【発明が解決しようとする課題】ところで、上述したブ
ート時にメモリエラーを発見した場合にそのエラーを含
むページをOSがそれ以降使用しないようにするメモリ
障害回避手段にあっては、チェック時に発生しなかった
エラーには対処できないという問題点がある。また、シ
ングルビットエラーを発見した場合にそのエラーを発生
したアドレスのデータを読み出して、再び同じアドレス
に書き込むことでエラーを除去するメモリ障害回避手段
にあっては、シングルビットエラーについては当然なが
ら除去できるが、ダブルビットエラーにまで進んでしま
った場合にはデータを回復させることができないという
問題点がある。なお、これらの問題点は、メモリを二重
化して、一方にエラーが発生した場合に他方を使用する
方法で解決が可能である。しかしながら、二重化するこ
とでコスト高になり、低コスト化に逆行する形になる。
【0004】そこで本発明は、コストを最小限に抑えな
がらも、チェック時に発生しなかったエラーにも対処で
き、またダブルビットエラーにまで進んでもデータを回
復させることができる電子計算機及び電子計算機のメモ
リ障害回避方法を提供することを目的としている。
【0005】
【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の発明による電子計算機のメモリ障害
回避方法は、一定時間間隔で設定されたチェックポイン
ト毎にCPUのキャッシュやレジスタの状態を保存し、
またチェックポイント間で主記憶装置にデータの書き込
みが行われた場合に書き込み前のデータとそのアドレス
をバックアップ保存し、前記主記憶装置のマルチビット
エラーが発生した場合には、前記CPUのキャッシュや
レジスタの内容及び前記主記憶装置の内容を前回のチェ
ックポイント時の状態にロールバックするチェックポイ
ント/ロールバック方式の電子計算機のメモリ障害回避
方法であって、前記主記憶装置においてシングルビット
エラーが検出された場合、そのアドレスを記憶し、前記
チェックポイント毎に前記アドレスに基づき前記シング
ルビットエラーを発生したアドレスのデータを保存し、
前記記憶したアドレスでマルチビットエラーが発生した
場合には、前記保存しておいたデータを用いてロールバ
ックした後に前記主記憶装置の前記アドレスに書き込む
ことを特徴とする。
【0006】この発明によれば、シングルビットエラー
が発生した時のアドレスのデータをチェックポイント毎
に保存することにより、そのアドレスのマルチビットエ
ラーによる障害発生時に、ロールバック後の主記憶装置
上のデータの修復が可能となる。この結果、今までシン
グルビットエラーのみ修復可能であったものが、間欠的
に発生するマルチビットエラーについても修復可能とな
り、主記憶装置に関する信頼性が一層向上する。また、
ソフトウェアによって処理するので、メモリの二重化と
比べるとコストアップを最小限に抑えることができる。
【0007】請求項2記載の発明による電子計算機のメ
モリ障害回避方法は、一定時間間隔で設定されたチェッ
クポイント毎にCPUのキャッシュやレジスタの状態を
保存し、またチェックポイント間で主記憶装置にデータ
の書き込みが行われた場合に書き込み前のデータとその
アドレスをバックアップ保存し、前記主記憶装置のマル
チビットエラーが発生した場合には、前記CPUのキャ
ッシュやレジスタの内容及び前記主記憶装置の内容を前
回のチェックポイント時の状態にロールバックするチェ
ックポイント/ロールバック方式の電子計算機のメモリ
障害回避方法であって、前記主記憶装置においてマルチ
ビットエラーが検出された場合、そのエラー発生アドレ
スを不揮発性メモリに記憶した後にリブートを行い、以
降、前記チェックポイント毎に前記不揮発性メモリに記
憶したアドレスのデータを保存し、前記アドレスでマル
チビットエラーが発生した場合には、前記保存しておい
たデータを用いて前記ロールバックした後に前記主記憶
装置の該当アドレスに書き込むことを特徴とする。
【0008】この発明によれば、主記憶装置の故障の内
容によっては特定のアドレスにエラーが頻発するが、そ
のような特定のメモリアドレスに発生するマルチビット
エラーのメモリ障害が生じた場合でもロールバック後の
主記憶装置内のデータの修復が可能になり、結果的にマ
ルチビットエラーを回避することが可能になる。また、
ソフトウェアによって処理するので、メモリの二重化と
比べるとコストアップを最小限に抑えることができる。
【0009】請求項3記載の発明による電子計算機のメ
モリ障害回避方法は、一定時間間隔で設定されたチェッ
クポイント毎にCPUのキャッシュやレジスタの状態を
保存し、またチェックポイント間で主記憶装置にデータ
の書き込みが行われた場合に書き込み前のデータとその
アドレスをバックアップ保存し、前記主記憶装置のマル
チビットエラーが発生した場合には、前記CPUのキャ
ッシュやレジスタの内容及び前記主記憶装置の内容を前
回のチェックポイント時の状態にロールバックするチェ
ックポイント/ロールバック方式の電子計算機のメモリ
障害回避方法であって、チェックポイント時に前記バッ
クアップ保存されたアドレスを参照して、前回のチェッ
クポイント以降変更した前記主記憶装置上のデータを順
次読み出し、その読み出しデータをエラーチェックして
マルチビットエラーを検出した際には、前記ロールバッ
クのために保存していたデータによりロールバックする
ことを特徴とする。
【0010】この発明によれば、チェックポイント毎
に、バックアップデータを参照して、前回のチェックポ
イント以降で変更のあった主記憶装置上のアドレスに対
してデータの読み出しを行うので、データ書き込み時の
マルチビットエラーを早期に検出することができる。ま
た、ソフトウェアによって処理するので、メモリの二重
化と比べるとコストアップを最小限に抑えることができ
る。
【0011】請求項4記載の発明による電子計算機のメ
モリ障害回避方法は、前記マルチビットエラーが発生し
処理が進められない場合には、前記エラー発生したメモ
リページの代替ページを前記主記憶装置に設定し、元の
ページのエラー発生していない部分のデータ及び前記ロ
ールバックのために保存していたデータより、前記代替
ページに元のページの全てのデータを設定して、以降、
前記代替ページを使用して処理を実行することを特徴と
する。
【0012】この発明によれば、マルチビットエラーが
再発して処理が進められない場合に、エラー発生したメ
モリページの代替ページを設定し、元のページのエラー
発生していない部分のデータを代替ページに復元すると
ともに、エラーを発生していた部分のデータについて
は、予め保存しておいたものを代替ページに復元して、
代替ページに元のページの全てのデータを設定し、それ
以降は代替ページを使用するので、主記憶装置に固定的
な障害があっても、その障害を回避することができる。
また、ソフトウェアによって処理するので、メモリの二
重化と比べるとコストアップを最小限に抑えることがで
きる。
【0013】請求項5記載の発明による電子計算機は、
CPUと、主記憶装置と、一定時間間隔で設定されたチ
ェックポイント間に前記CPUによって前記主記憶装置
にデータの書き込みが行われる際に、書き込み先のデー
タとそのアドレスをバックアップ保存するデータバック
アップ装置と、前記チェックポイント毎に前記CPUの
キャッシュやレジスタの状態を保存し、前記主記憶装置
のマルチビットエラーを検出した場合には、前記保存さ
れた前記CPUのキャッシュやレジスタの内容及び前記
データバックアップ装置に保存した前記主記憶装置の内
容を用いて前回のチェックポイント時の状態にロールバ
ックするチェックポイント実行手段と、前記主記憶装置
においてシングルビットエラーが検出された場合、その
エラー発生アドレスを記憶する手段と、前記チェックポ
イント毎に記憶手段に記憶されたアドレスを用いて前記
主記憶装置からデータを読み出し、そのデータを前記主
記憶装置又は前記データバックアップ装置の特定領域に
保存する手段とを有し、前記記憶手段に記憶したアドレ
スでマルチビットエラーが発生した場合には、前記チェ
ックポイント実行手段によって前記ロールバックした後
に前記特定領域に保存したデータを前記主記憶装置の当
該アドレスに書き込むことを特徴とする。
【0014】この発明によれば、シングルビットエラー
が発生した時のアドレスのデータをチェックポイント毎
に保存することにより、そのアドレスのマルチビットエ
ラーによる障害発生時に、ロールバック後の主記憶装置
上のデータの修復が可能となる。この結果、今までシン
グルビットエラーのみ修復可能であったものが、間欠的
に発生するマルチビットエラーについても修復可能とな
り、主記憶装置に関する信頼性が一層向上する。また、
ソフトウェアによって処理するので、メモリの二重化と
比べるとコストアップを最小限に抑えることができる。
【0015】請求項6記載の発明による電子計算機は、
CPUと、主記憶装置と、一定時間間隔で設定されたチ
ェックポイント間に前記CPUによって前記主記憶装置
にデータの書き込みが行われる際に、書き込み先のデー
タとそのアドレスをバックアップ保存するデータバック
アップ装置と、前記チェックポイント毎に前記CPUの
キャッシュやレジスタの状態を保存し、前記主記憶装置
のマルチビットエラーを検出した場合には、前記保存さ
れた前記CPUのキャッシュやレジスタの内容及び前記
データバックアップ装置に保存した前記主記憶装置の内
容を用いて前回のチェックポイント時の状態にロールバ
ックするチェックポイント実行手段と、前記主記憶装置
のマルチビットエラーが検出された時に、そのエラー発
生アドレスを記憶する不揮発性メモリと、前記マルチビ
ットエラーに伴ってシステムがリブートされた以降、前
記チェックポイント毎に前記不揮発性メモリに記憶され
たアドレスを用いて前記主記憶装置から読出したデータ
を前記主記憶装置又は前記データバックアップ装置の特
定領域に保存する手段を有し、前記アドレスでマルチビ
ットエラーが発生した場合には、前記チェックポイント
実行手段によって前記ロールバックした後に前記特定領
域に保存したデータを前記主記憶装置の当該アドレスに
書き込むことを特徴とする。
【0016】この発明によれば、主記憶装置の故障の内
容によっては特定のアドレスにエラーが頻発するが、そ
のような特定のメモリアドレスに発生するマルチビット
エラーのメモリ障害が生じた場合でもロールバック後の
主記憶装置内のデータの修復が可能になり、結果的にマ
ルチビットエラーを回避することが可能になる。また、
ソフトウェアによって処理するので、メモリの二重化と
比べるとコストアップを最小限に抑えることができる。
【0017】請求項7記載の発明による電子計算機は、
CPUと、主記憶装置と、一定時間間隔で設定されたチ
ェックポイント間に前記CPUによって前記主記憶装置
にデータの書き込みが行われる際に、書き込み先のデー
タとそのアドレスをバックアップ保存するデータバック
アップ装置と、前記チェックポイント毎に前記CPUの
キャッシュやレジスタの状態を保存し、前記主記憶装置
のマルチビットエラーを検出した場合には、前記保存さ
れた前記CPUのキャッシュやレジスタの内容及び前記
データバックアップ装置に保存した前記主記憶装置の内
容を用いて前回のチェックポイント時の状態にロールバ
ックするチェックポイント実行手段と、チェックポイン
ト時に前記バックアップ装置に記憶したアドレスを参照
して、前記のチェックポイント以降変更した前記主記憶
装置上のデータを全て読出し、エラーチェックを実行す
る手段とを具備し、前記エラーチェック手段により前記
主記憶装置からマルチビットエラーが検出される場合、
前記チェックポイント実行手段によって前記ロールバッ
クすることを特徴とする。
【0018】この発明によれば、チェックポイント毎
に、データバッアップ装置の内容を参照して、前回のチ
ェックポイント以降で変更のあった主記憶装置上のアド
レスに対してデータの読み出しを行うので、データ書き
込み時のマルチビットエラーを早期に検出することがで
きる。また、ソフトウェアによって処理するので、メモ
リの二重化と比べるとコストアップを最小限に抑えるこ
とができる。
【0019】請求項8記載の発明による電子計算機は、
前記チェックポイント実行手段は、前記マルチビットエ
ラーが発生し処理が進められない場合には、エラー発生
したメモリページの代替ページを前記主記憶装置に設定
し、エラー発生した前記メモリページのエー発生してい
ない部分のデータ及び前記ロールバックのために保存し
ていたデータより、前記代替ページに前記エラー発生し
たメモリページの全てのデータを設定し、システムはそ
れ以降、前記代替ページを使用して処理を実行すること
を特徴とする。
【0020】この発明によれば、マルチビットエラーが
再発して処理が進められない場合に、マルチビットエラ
ー発生したメモリページの代替ページを設定し、元のペ
ージのエラー発生していない部分のデータを代替ページ
に復元するとともに、エラーを発生していた部分のデー
タについては、予め保存しておいたものを代替ページに
復元して、代替ページに元のページの全てのデータを設
定し、それ以降は代替ページを使用するので、主記憶装
置に固定的な障害があっても、その障害を回避すること
ができる。また、ソフトウェアによって処理するので、
メモリの二重化と比べるとコストアップを最小限に抑え
ることができる。
【0021】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態について説明する。 (I )第1の実施形態 図1は本発明の第1の実施形態の電子計算機の概略構成
を示すブロック図である。この第1の実施形態の電子計
算機は、BIB(Before Image Buffer;例えば特開平1
0−154134号公報参照)装置(データバッアップ
装置)を使用したチェックポイント/ロールバック方式
の電子計算機であり、主記憶装置1にはECC(Error
Checking&Correction )エラー検出機構2が設けられて
いる。このECCエラー検出機構2は、メモリエラーと
して「シングルビットエラー」の検出と訂正、「マルチ
ビットエラー」の検出を行うとともに、シングルビット
エラーおよびマルチビットエラー毎にエラー発生した主
記憶装置1のアドレスを記憶する。この場合、マルチビ
ットエラーの検出結果は、割り込み(NMIのような強
力な割り込み)の形式でCPU3に直ちに通知される。
エラーの検出後は、再度エラーを検出できるようにCP
U3によって再設定される。なお、図1では、シングル
ビットエラーが生じていることを示している。すなわ
ち、シングルビットエラー又はマルチビットエラーを検
出するとフラグが「1」に設定され、エラー発生アドレ
スがECCエラー検出機構2に記憶される。
【0022】チェックポイント/ロールバック処理は、
OS(オペレーティングシステム)の一部のソフトウェ
アとして組込まれたチェックポイントモジュールによっ
て実行される。このチェックポイントモジュールは、図
2に示すように、定期的にチェックポイント処理を行う
とともに、システムに障害が発生した時には、前回のチ
ェックポイント(この図2に示す例ではCP2 )に処理
を戻し、主記憶装置1の特定領域1AやBIB装置4に
記憶されたデータを用いて主記憶装置1のデータを回復
させる障害回復処理を行う。
【0023】即ち、チェックポイントモジュールは、チ
ェックポイントのタイミングで、主記憶装置1のECC
エラー検出機構2を参照し、シングルビットエラーが検
出されているか否かを調べ、シングルビットエラーが検
出されていれば、そのときのアドレスをECCエラー検
出機構2から読み出し、それを主記憶装置1上の特定の
領域1A又はBIB装置4の保存領域4A(これらの容
量は512Kバイト程度あれば十分である)のいずれか
一方に保存する。また同時にそのアドレスのデータを主
記憶装置1から読み出して上記特定領域1A又は保存領
域4Aのいずれか一方に保存する(以後、特定領域1A
を使用することにする)。シングルビットエラーが生じ
たアドレスとそのデータを主記憶装置1の特定領域1A
に保存した後、ECCエラー検出機構2が再度エラー検
出できるように再設定する。以降、チェックポイント毎
にシングルビットエラーが発生したアドレスのデータを
特定領域に保存する。この場合、同一アドレスについて
は当然ながら上書きされることになる。また、マルチビ
ットエラー等のメモリ障害が生じた場合に、前回のチェ
ックポイントまで戻れるように、CPU3のキャッシュ
と各種レジスタの各値を保存する。なお、CPU3のキ
ャッシュ内容の保存は、主記憶装置1に書き戻す(キャ
ッシュライトバック)処理を行い、各種レジスタの内容
は上記特定領域1Aでも良いが、従来通りに主記憶装置
1の予め決めた領域に保存しても良い。
【0024】一方、ECCエラー検出機構2でマルチビ
ットエラーが検出された場合には、その割込み発生に応
答してチェックポイントモジュールは、マルチビットエ
ラーが発生したアドレスをECCエラー検出機構2から
読出し、さらにそのアドレスのデータが主記憶装置1上
の特定領域1Aに保存されているか否かを調べる。特定
領域1Aに保存されていれば、ロールバックの際に上記
アドレスに書き戻す。マルチビットエラーが発生したア
ドレスのデータが主記憶装置1上の特定領域1Aに保存
されていなければ、エラーとして処理を終了する。
【0025】BIB装置4は、常にシステムバス5を監
視し、チェックポイントモジュールによるチェックポイ
ント処理後、CPU3が主記憶装置1にデータを書き込
む際に、その書き込みアドレスの主記憶装置1の更新前
データを取り込んで、そのアドレスとともに自己の記憶
領域に書き込む。すなわち、CPU3が主記憶装置1に
データを書き込む際に、更新前データを取り込んでアド
レスとともに保存する(即ちチェックポイントまでロー
ルバックできるようにバックアップする)。この保存
は、チェックポイント毎に時系列的に実行され保存され
る。チェックポイントモジュールはマルチビットエラー
等の障害が発生した際に、このBIB装置4からデータ
を新しいものから古い順に読み出して主記憶装置1に戻
し、さらに特定領域1Aに保存しているデータをエラー
発生したアドレスに書き戻す。このようにBIB装置4
を使うことで、障害発生の時点から前回のチェックポイ
ントまでのデータを主記憶装置1に戻すことができる。
【0026】図3は第1の実施形態のチェックポイント
モジュールの動作を示すフローチャートである。まず、
チェックポイント時の処理を説明すると、ステップS1
0で、前回のチェックポイントまでにシングルビットエ
ラーが発生したアドレスが特定領域1Aに保存されてい
るか否かを判定する。この判定は、シングルビットエラ
ーが発生したアドレスはマルチビットエラーを発生する
可能性があるので、当該アドレスのデータを保存して障
害回復に備えることが望ましいからである。
【0027】前回のチェックポイントまでにシングルビ
ットエラーが発生したアドレスが特定領域1Aに保存さ
れていると判断すると、ステップS12で、そのアドレ
スに対する主記憶装置1上のデータを読み出して同装置
の特定領域1Aに保存する。この処理を行った後はステ
ップS14でECCエラー検出機構2を参照して、新た
にシングルビットエラーが発生していないかチェックす
る。これに対して、前回のチェックポイントまでに一度
もシングルビットエラーが発生していないと判断する
と、ステップS14に進む。ステップS14でECCエ
ラー検出機構2を参照して、ステップS16に進み、E
CCエラー検出機構2の参照結果からシングルビットエ
ラーが発生したか否かを判定する。この判定において、
シングルビットエラーが発生したと判断すると、ステッ
プS18に進み、シングルビットエラーを発生したアド
レスをECCエラー検出機構2から読み出し、主記憶装
置1の特定領域1Aに保存する。次いで、ステップS2
0でそのアドレスのデータを主記憶装置1から読み出し
て同装置1の特定領域1Aに保存する。
【0028】シングルビットエラーを発生したアドレス
とそのアドレスのデータを主記憶装置1の特定領域1A
に保存した後、ステップS22でECCエラー検出機構
2を再設定してエラーを検出できるようにする。一方、
上記ステップS16の判定において、シングルビットエ
ラーが発生していないと判断すると、ステップS24の
処理を行う。ステップS24では、現在のチェックポイ
ントでのCPU3の内部のキャッシュを主記憶装置1に
書き戻し、各種レジスタの値を主記憶装置1の他の領域
に保存する。そしてステップS26でBIB装置4の内
容をクリアする。BIB装置4の内容は、上述したよう
に、前回と今回のチェックポイント間で主記憶装置1に
書き込まれる前のデータであるが、今回のチェックポイ
ント処理まで処理が終わり、前回のチェックポイントま
で戻る必要がなくなったので、BIB装置4の内容をク
リアする。これで今回のチェックポイントでの処理が終
了する。
【0029】図4はマルチビットエラー検出時の障害回
復処理のフローチャートを示す。次のチェックポイント
までの間でマルチビットエラーが発生したとすると、そ
れはNMI(割り込み)によりCPU3に通知され、図
4の処理が実行される。ステップS30では、マルチビ
ットエラーを発生したアドレスをECCエラー検出機構
2から読み出す。そして、ステップS32で、マルチビ
ットエラーを発生したアドレスに対して元のデータが主
記憶装置1の特定領域1Aに保存されているか否かを判
定する。
【0030】即ち、マルチビットエラーが発生したこと
は、通常は、その発生以前にシングルビットエラーが発
生している可能性があり、その場合はエラー発生前のデ
ータがシングルビットエラー検出時に特定領域1Aに保
存されている。そして、ステップS34でECCエラー
検出機構2を再設定してエラー検出ができるようにした
後にステップS36、S38でロールバックを行う。こ
のロールバック処理として、マルチビットエラーが発生
した時点までのBIB装置4上に保存されたデータを主
記憶装置1に戻す。そして、このロールバックを終えた
後、ステップS40でマルチビットエラーを発生したア
ドレスに対して特定領域1Aに保存された元のデータを
書き込む。これにより、前回のチェックポイントまで戻
り、そのチェックポイントから再び処理を開始する。な
お、上記ステップS32の判定において、マルチビット
エラーを発生したアドレスに対して元のデータが特定領
域1Aに保存されていなければ、何等かの原因でエラー
が発生したものとして、ステップS42でエラー表示等
を行って処理を終える。
【0031】このように、この第1の実施形態よれば、
チェックポイントのタイミングで、主記憶装置1のEC
Cエラー検出機構2を参照し、シングルビットエラーが
検出されているか否かを調べる。シングルビットエラー
が検出されていれば、そのエラー発生アドレスをECC
エラー検出機構2から読み出して主記憶装置1上の特定
の領域1Aに保存する。また同時にそのアドレスのデー
タを主記憶装置1から読み出して特定領域1Aに保存す
る。その後、ECCエラー検出機構2が再度エラー検出
できるように再設定する。以後、チェックポイント毎に
上記アドレスに対するデータを主記憶装置1から読み出
して主記憶装置1の特定領域1Aに保存する。そして、
マルチビットエラーが発生した場合には、エラーが発生
したアドレスを調べ、さらに特定領域1Aに元のデータ
が保存されているか否かを調べ、保存されていた場合に
はロールバック後にそのデータをエラー発生したアドレ
スに書き戻す。その後、通常の処理を再開する。
【0032】したがって、シングルビットエラーが発生
したアドレスのデータをチェックポイント毎に保存する
ことにより、当該アドレスでマルチビットエラーが発生
した場合、特定領域1Aに保存された元のデータを読み
出すことによって、ロールバック後の主記憶装置1上の
データの修復が可能となる。この結果、今までECCに
よりシングルビットエラーのみ修復可能であったもの
が、間欠的に発生するマルチビットエラーについても修
復可能となり、主記憶装置に関する信頼性が一層向上す
る。また、ソフトウェアによって処理するので、メモリ
の二重化と比べるとコストアップを最小限に抑えること
ができる。
【0033】(II)第2の実施形態 図5は本発明の第2の実施の形態の電子計算機の概略構
成を示すブロック図である。この第2の実施形態の電子
計算機は、主記憶装置1の特定のアドレスにマルチビッ
トエラーのメモリ障害が発生した場合でも、ロールバッ
ク後のメモリ内データの修復を可能にしたものである。
この為に、この実施形態ではシステムバス5に不揮発性
メモリ6を接続した構成としている。そして、この第2
の実施形態の電子計算機のチェックポイントモジュール
は、マルチビットエラーを検出すると、そのアドレスを
不揮発性メモリ6に保存し、次回以降のシステムのブー
ト時には、先ず不揮発性メモリ6の内容を参照して以前
にマルチビットエラーが発生したか否かを調べ、その確
認ができたら、そのアドレスのデータをチェックポイン
ト毎に主記憶装置1の特定領域1Aに保存する。その後
にマルチビットエラーが発生した場合、チェックポイン
トモジュールは、マルチビットエラーが発生したアドレ
スを調べ、そのアドレスに対する元のデータが主記憶装
置1の特定領域1Aに保存されているか否かを調べ、保
存されていれば、ECCエラー検出機構2を再びエラー
検出できるように再設定した後、ロールバックを行い、
その後に特定領域1Aに保存されていたデータをマルチ
ビットエラーが発生したアドレスに書き戻す。その後、
通常の処理を再開する。
【0034】図6は第2の実施形態のチェックポイント
モジュールの動作を示すフローチャートを示すもので、
マルチビットエラー検出時の障害回復処理の実行手順を
示す。マルチビットエラーが発生した場合、割込みによ
るエラー通知がCPU3に行われる。これにより、チェ
ックポイントモジュールは、ステップS50でマルチビ
ットエラーが発生したアドレスを調べる。これはECC
エラー検出機構2のエラー発生アドレスを読み出すこと
により実行される。そして、ステップS52の判断で今
回のマルチビットエラーに対し、そのアドレスに対して
元のデータが特定領域1Aに保存されていれば、ステッ
プS56で、ECCエラー検出機構2を再びエラー検出
できるように再設定する。そして、ステップS58、6
0でBIB装置4に保存したデータを主記憶装置1に書
き戻してロールバックを行い、その後、ステップS62
で特定領域1Aに保存されているデータをマルチビット
エラーを発生したアドレスに書き戻す。その後、通常の
処理を再開する。なお、ステップS52で元のデータが
特定領域1Aに保存されていなければ、ステップS54
に進み、そのマルチビットエラーを発生したアドレスを
不揮発性メモリ6に保存して処理を終了する。
【0035】このように、この第2の実施形態よれば、
不揮発性メモリ6に記憶したマルチビットエラーが発生
したアドレスに対し、チェックポイント毎にそのアドレ
スに対応するデータを特定領域1Aに保存することによ
り、主記憶装置1の故障の内容によっては特定のアドレ
スにエラーが頻発するが、そのような特定のメモリアド
レスに発生するマルチビットエラーのメモリ障害が生じ
た場合でもロールバック後の主記憶装置1内のデータの
修復が可能になり、結果的にマルチビットエラーを回避
することが可能になる。また、ソフトウェアによって処
理するので、メモリの二重化と比べるとコストアップを
最小限に抑えることができる。なお、この第2の実施形
態では、マルチビットエラーを発生したアドレスをシス
テム内の不揮発性メモリ6に保存するようにしたが、電
源を切ってもデータが消去されないもの例えばハードデ
ィスク装置のような外部記憶装置に保存するようにして
も良い。
【0036】(III )第3の実施形態 図7は本発明の第3の実施形態の電子計算機の概略構成
を示すブロック図である。ECCエラー検出機構2の実
現方式によっては、主記憶装置1へのデータの書き込み
時にはエラー検出が行われず、リード時にのみエラー検
出が行われる場合がある。このような場合には、データ
書き込み時にデータが壊れたとしても、その検出はその
アドレスのデータを読み込んだときまで遅れることにな
る。この第3の実施形態の電子計算機は、チェックポイ
ント毎にデータの書き込みを行った領域からデータを読
み出すことで、書き込み時のマルチビットエラーを検出
できるようにしたものである。
【0037】即ち、この第3の実施形態の電子計算機の
チェックポイントモジュールは、チェックポイント処理
時にBIB装置4に保存した書き込みアドレスを参照し
て、前回のチェックポイント以降で書き込みを行った主
記憶装置1上のアドレスに対してデータの読み出しを行
う。この読み出しの結果、マルチビットエラーが発生し
た場合には、チェックポイント処理を中止し、ECCエ
ラー検出機構2を再びエラー検出できるように再設定し
た後、同様にBIB装置4の内容を参照して主記憶装置
1を前回のチェックポイントにロールバックする。マル
チビットエラーを発生したアドレスのデータはBIB装
置4に保存されているので、ロールバックに伴いBIB
装置4から正しいデータをそのアドレスに書き戻す。そ
の後、前回のチェックポイントから通常の処理を再開す
る。図7に示すD1 〜D4 は、前回のチェックポイント
からCPU3が変更したデータである。BIB装置4に
は、データD1 〜D4 のアドレスが記録されているの
で、それらのアドレスからCPU3がデータD1 〜D4
を読み出し、マルチビットエラーの発生をチェックする
ものである。
【0038】図8は第3の実施形態のチェックポイント
モジュールの動作を示すフローチャートである。チェッ
クポイントの処理では、ステップS70でBIB装置4
に保存したアドレスを参照する。そして、ステップS7
2で、前回のチェックポイント以降で変更のあった主記
憶装置1上のアドレスに対してデータの読み出しを行
う。そして、この読み出しにおいて、マルチビットエラ
ーが発生した場合には、ステップS74からステップS
76に進み、ECCエラー検出機構2を再びエラー検出
できるように再設定する。そして、ステップS78、8
0で前回のチェックポイントまでロールバック処理を行
う。この処理が終了すると、戻ったチェックポイントか
ら通常の処理を行う。一方、ステップS74の判定にお
いて、マルチビットエラーが発生しなかったと判断した
場合には、ステップS82に進み、シングルビットエラ
ーの発生の有無の判定及び発生した場合の処理について
は上記第1の実施形態と同様であるので、その説明は省
略する。この場合、この図において、ステップS82か
らステップS98までの処理は、図3のステップS10
からステップS28までの処理に対応する。
【0039】このように、この第3の実施形態によれ
ば、チェックポイント毎に、BIB装置4の内容を参照
して、前回のチェックポイント以降で変更のあった主記
憶装置1上のアドレスに対してデータの読み出しを行う
ので、データ書き込み時のマルチビットエラーを早期に
検出することができる。また、ソフトウェアによって処
理するので、メモリの二重化と比べるとコストアップを
最小限に抑えることができる。
【0040】(IV)第4の実施形態 図9は本発明の第4の実施形態の電子計算機の概略構成
を示すブロック図である。上記第1〜第3の実施形態の
電子計算機では、主記憶装置1の間欠的なマルチビット
エラーを回避することはできるが、固定的な故障で、正
しい値のデータを書き込んでもマルチビットエラーが再
発する場合には、そのメモリアドレス領域は使用できな
くなる。この第4の実施形態の電子計算機は、代替ペー
ジを用意することで、固定的な障害を回避するようにし
たものである。
【0041】ロールバック後に再び同じアドレスでマル
チビットエラーが発生した場合、まず、チェックポイン
ト時点のシステム状態にロールバックする。次いで、E
CCエラー検出機構2を再びエラー検出できるように再
設定する。その後、主記憶装置1内の空きメモリページ
を「代替ページ」として一つ確保する。次いで、その代
替ページに、元のページ上のエラーを発生していない部
分のデータを代替ページに復元し、また元のページ上の
エラーを発生していた部分のデータについては、第1、
第2の実施形態では主記憶装置1の特定領域1Aに保存
したデータ、第3の実施形態ではBIB装置4がバック
アップしたデータを代替ページに復元する。その後、通
常の処理を再開する。エラーを発生した元のページは、
それ以降使用しないようにOSに通知する。
【0042】このように、この第4の実施形態によれ
ば、マルチビットエラーが再発して処理が進められない
場合に、マルチビットエラー発生したメモリページの代
替ページを設定し、元のページのエラー発生していない
部分のデータを代替ページに復元するとともに、エラー
を発生していた部分のデータについては、予め保存して
おいたものを代替ページに復元して、代替ページに元の
ページの全てのデータを設定し、それ以降は代替ページ
を使用するので、主記憶装置1に固定的な障害があって
も、その障害を回避することができる。また、ソフトウ
ェアによって処理するので、メモリの二重化と比べると
コストアップを最小限に抑えることができる。
【0043】
【発明の効果】この発明によれば、シングルビットエラ
ーが発生した時のアドレスのデータをチェックポイント
毎に保存することにより、そのアドレスのマルチビット
エラーによる障害発生時に、ロールバック後の主記憶装
置上のデータの修復が可能となる。この結果、今までシ
ングルビットエラーのみ修復可能であったものが、間欠
的に発生するマルチビットエラーについても修復可能と
なり、主記憶装置に関する信頼性が一層向上する。ま
た、ソフトウェアによって処理するので、メモリの二重
化と比べるとコストアップを最小限に抑えることができ
る。
【0044】また、この発明によれば、主記憶装置の故
障の内容によっては特定のアドレスにエラーが頻発する
が、そのような特定のメモリアドレスに発生するマルチ
ビットエラーのメモリ障害が生じた場合でもロールバッ
ク後の主記憶装置内のデータの修復が可能になり、結果
的にマルチビットエラーを回避することが可能になる。
また、ソフトウェアによって処理するので、メモリの二
重化と比べるとコストアップを最小限に抑えることがで
きる。
【0045】また、この発明によれば、マルチビットエ
ラーが再発して処理が進められない場合に、マルチビッ
トエラー発生したメモリページの代替ページを設定し、
元のページのエラー発生していない部分のデータを代替
ページに復元するとともに、エラーを発生していた部分
のデータについては、予め保存しておいたものを代替ペ
ージに復元して、代替ページに元のページの全てのデー
タを設定し、それ以降は代替ページを使用するので、主
記憶装置に固定的な障害があっても、その障害を回避す
ることができる。また、ソフトウェアによって処理する
ので、メモリの二重化と比べるとコストアップを最小限
に抑えることができる。
【0046】また、この発明によれば、チェックポイン
ト毎にバックアップデータを参照して、前回のチェック
ポイント以降で変更のあった主記憶装置上のアドレスに
対してデータの読み出しを行うので、データ書き込み時
のマルチビットエラーを早期に検出することができる。
また、ソフトウェアによって処理するので、メモリの二
重化と比べるとコストアップを最小限に抑えることがで
きる。
【図面の簡単な説明】
【図1】本発明に係る電子計算機の第1の実施形態の要
部の構成を示すブロック図である。
【図2】第1の実施形態の電子計算機の動作を説明する
ための図である。
【図3】第1の実施形態の電子計算機の動作を示すフロ
ーチャートである。
【図4】第1の実施形態におけるマルチビットエラー検
出時の障害回復処理を示すフローチャートである。
【図5】本発明に係る電子計算機の第2の実施形態の要
部の構成を示すブロック図である。
【図6】第2の実施形態におけるマルチビットエラー検
出時の障害回復処理を示すフローチャートである。
【図7】本発明に係る電子計算機の第3の実施形態の要
部の構成を示すブロック図である。
【図8】第3の実施形態の電子計算機の動作を示すフロ
ーチャートである。
【図9】本発明に係る電子計算機の第4の実施形態の要
部の構成を示すブロック図である。
【符号の説明】
1 主記憶装置 1A 特定領域 2 ECCエラー検出機構 3 CPU 4 BIB装置 4A 保存領域 5 システムバス 6 不揮発性メモリ

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 一定時間間隔で設定されたチェックポイ
    ント毎にCPUのキャッシュやレジスタの状態を保存
    し、またチェックポイント間で主記憶装置にデータの書
    き込みが行われた場合に書き込み前のデータとそのアド
    レスをバックアップ保存し、前記主記憶装置のマルチビ
    ットエラーが発生した場合には、前記CPUのキャッシ
    ュやレジスタの内容及び前記主記憶装置の内容を前回の
    チェックポイント時の状態にロールバックするチェック
    ポイント/ロールバック方式の電子計算機のメモリ障害
    回避方法であって、 前記主記憶装置においてシングルビットエラーが検出さ
    れた場合、そのアドレスを記憶し、前記チェックポイン
    ト毎に前記アドレスに基づき前記シングルビットエラー
    を発生したアドレスのデータを保存し、前記記憶したア
    ドレスでマルチビットエラーが発生した場合には、前記
    保存しておいたデータを用いてロールバックした後に前
    記主記憶装置の前記アドレスに書き込むことを特徴とす
    る電子計算機のメモリ障害回避方法。
  2. 【請求項2】 一定時間間隔で設定されたチェックポイ
    ント毎にCPUのキャッシュやレジスタの状態を保存
    し、またチェックポイント間で主記憶装置にデータの書
    き込みが行われた場合に書き込み前のデータとそのアド
    レスをバックアップ保存し、前記主記憶装置のマルチビ
    ットエラーが発生した場合には、前記CPUのキャッシ
    ュやレジスタの内容及び前記主記憶装置の内容を前回の
    チェックポイント時の状態にロールバックするチェック
    ポイント/ロールバック方式の電子計算機のメモリ障害
    回避方法であって、 前記主記憶装置においてマルチビットエラーが検出され
    た場合、そのエラー発生アドレスを不揮発性メモリに記
    憶した後にリブートを行い、以降、前記チェックポイン
    ト毎に前記不揮発性メモリに記憶したアドレスのデータ
    を保存し、前記アドレスでマルチビットエラーが発生し
    た場合には、前記保存しておいたデータを用いて前記ロ
    ールバックした後に前記主記憶装置の該当アドレスに書
    き込むことを特徴とする電子計算機のメモリ障害回避方
    法。
  3. 【請求項3】 一定時間間隔で設定されたチェックポイ
    ント毎にCPUのキャッシュやレジスタの状態を保存
    し、またチェックポイント間で主記憶装置にデータの書
    き込みが行われた場合に書き込み前のデータとそのアド
    レスをバックアップ保存し、前記主記憶装置のマルチビ
    ットエラーが発生した場合には、前記CPUのキャッシ
    ュやレジスタの内容及び前記主記憶装置の内容を前回の
    チェックポイント時の状態にロールバックするチェック
    ポイント/ロールバック方式の電子計算機のメモリ障害
    回避方法であって、 チェックポイント時に前記バックアップ保存されたアド
    レスを参照して、前回のチェックポイント以降変更した
    前記主記憶装置上のデータを順次読み出し、その読み出
    しデータをエラーチェックしてマルチビットエラーを検
    出した際には、前記ロールバックのために保存していた
    データによりロールバックすることを特徴とする電子計
    算機のメモリ障害回避方法。
  4. 【請求項4】 前記マルチビットエラーが発生し処理が
    進められない場合には、前記エラー発生したメモリペー
    ジの代替ページを前記主記憶装置に設定し、元のページ
    のエラー発生していない部分のデータ及び前記ロールバ
    ックのために保存していたデータより、前記代替ページ
    に元のページの全てのデータを設定して、以降、前記代
    替ページを使用して処理を実行することを特徴とする請
    求項1又は2又は3記載の電子計算機のメモリ障害回避
    方法。
  5. 【請求項5】 CPUと、 主記憶装置と、 一定時間間隔で設定されたチェックポイント間に前記C
    PUによって前記主記憶装置にデータの書き込みが行わ
    れる際に、書き込み先のデータとそのアドレスをバック
    アップ保存するデータバックアップ装置と、 前記チェックポイント毎に前記CPUのキャッシュやレ
    ジスタの状態を保存し、前記主記憶装置のマルチビット
    エラーを検出した場合には、前記保存された前記CPU
    のキャッシュやレジスタの内容及び前記データバックア
    ップ装置に保存した前記主記憶装置の内容を用いて前回
    のチェックポイント時の状態にロールバックするチェッ
    クポイント実行手段と、 前記主記憶装置においてシングルビットエラーが検出さ
    れた場合、そのエラー発生アドレスを記憶する手段と、 前記チェックポイント毎に記憶手段に記憶されたアドレ
    スを用いて前記主記憶装置からデータを読み出し、その
    データを前記主記憶装置又は前記データバックアップ装
    置の特定領域に保存する手段とを有し、 前記記憶手段に記憶したアドレスでマルチビットエラー
    が発生した場合には、前記チェックポイント実行手段に
    よって前記ロールバックした後に前記特定領域に保存し
    たデータを前記主記憶装置の当該アドレスに書き込むこ
    とを特徴とする電子計算機。
  6. 【請求項6】 CPUと、 主記憶装置と、 一定時間間隔で設定されたチェックポイント間に前記C
    PUによって前記主記憶装置にデータの書き込みが行わ
    れる際に、書き込み先のデータとそのアドレスをバック
    アップ保存するデータバックアップ装置と、 前記チェックポイント毎に前記CPUのキャッシュやレ
    ジスタの状態を保存し、前記主記憶装置のマルチビット
    エラーを検出した場合には、前記保存された前記CPU
    のキャッシュやレジスタの内容及び前記データバックア
    ップ装置に保存した前記主記憶装置の内容を用いて前回
    のチェックポイント時の状態にロールバックするチェッ
    クポイント実行手段と、 前記主記憶装置のマルチビットエラーが検出された時
    に、そのエラー発生アドレスを記憶する不揮発性メモリ
    と、 前記マルチビットエラーに伴ってシステムがリブートさ
    れた以降、前記チェックポイント毎に前記不揮発性メモ
    リに記憶されたアドレスを用いて前記主記憶装置から読
    出したデータを前記主記憶装置又は前記データバックア
    ップ装置の特定領域に保存する手段を有し、 前記アドレスでマルチビットエラーが発生した場合に
    は、前記チェックポイント実行手段によって前記ロール
    バックした後に前記特定領域に保存したデータを前記主
    記憶装置の当該アドレスに書き込むことを特徴とする電
    子計算機。
  7. 【請求項7】 CPUと、 主記憶装置と、 一定時間間隔で設定されたチェックポイント間に前記C
    PUによって前記主記憶装置にデータの書き込みが行わ
    れる際に、書き込み先のデータとそのアドレスをバック
    アップ保存するデータバックアップ装置と、 前記チェックポイント毎に前記CPUのキャッシュやレ
    ジスタの状態を保存し、前記主記憶装置のマルチビット
    エラーを検出した場合には、前記保存された前記CPU
    のキャッシュやレジスタの内容及び前記データバックア
    ップ装置に保存した前記主記憶装置の内容を用いて前回
    のチェックポイント時の状態にロールバックするチェッ
    クポイント実行手段と、 チェックポイント時に前記バックアップ装置に記憶した
    アドレスを参照して、前記のチェックポイント以降変更
    した前記主記憶装置上のデータを全て読出し、エラーチ
    ェックを実行する手段とを具備し、 前記エラーチェック手段により前記主記憶装置からマル
    チビットエラーが検出される場合、前記チェックポイン
    ト実行手段によって前記ロールバックすることを特徴と
    する電子計算機。
  8. 【請求項8】 前記チェックポイント実行手段は、前記
    マルチビットエラーが発生し処理が進められない場合に
    は、エラー発生したメモリページの代替ページを前記主
    記憶装置に設定し、エラー発生した前記メモリページの
    エラー発生していない部分のデータ及び前記ロールバッ
    クのために保存していたデータより、前記代替ページに
    前記エラー発生したメモリページの全てのデータを設定
    し、システムはそれ以降、前記代替ページを使用して処
    理を実行することを特徴とする請求項5又は6又は7記
    載の電子計算機。
JP11019466A 1999-01-28 1999-01-28 電子計算機及び電子計算機のメモリ障害回避方法 Withdrawn JP2000222232A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11019466A JP2000222232A (ja) 1999-01-28 1999-01-28 電子計算機及び電子計算機のメモリ障害回避方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11019466A JP2000222232A (ja) 1999-01-28 1999-01-28 電子計算機及び電子計算機のメモリ障害回避方法

Publications (1)

Publication Number Publication Date
JP2000222232A true JP2000222232A (ja) 2000-08-11

Family

ID=12000109

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11019466A Withdrawn JP2000222232A (ja) 1999-01-28 1999-01-28 電子計算機及び電子計算機のメモリ障害回避方法

Country Status (1)

Country Link
JP (1) JP2000222232A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100894809B1 (ko) 2006-09-22 2009-04-24 삼성전자주식회사 메모리 시스템 및 그것의 프로그램 방법
JP2009520290A (ja) * 2005-12-22 2009-05-21 ローベルト ボッシュ ゲゼルシャフト ミット ベシュレンクテル ハフツング 耐故障性があるプロセッサシステム
JP2009157756A (ja) * 2007-12-27 2009-07-16 Toshiba Corp 情報処理装置およびデータ復旧方法
JP2009169747A (ja) * 2008-01-17 2009-07-30 Toshiba Corp 情報処理装置およびデータ復旧方法
WO2013058107A1 (ja) * 2011-10-17 2013-04-25 日立オートモティブシステムズ株式会社 電子制御装置
CN108491878A (zh) * 2018-03-06 2018-09-04 宁波大学 一种基于多个误差生成模型的故障分类诊断方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009520290A (ja) * 2005-12-22 2009-05-21 ローベルト ボッシュ ゲゼルシャフト ミット ベシュレンクテル ハフツング 耐故障性があるプロセッサシステム
KR100894809B1 (ko) 2006-09-22 2009-04-24 삼성전자주식회사 메모리 시스템 및 그것의 프로그램 방법
JP2009157756A (ja) * 2007-12-27 2009-07-16 Toshiba Corp 情報処理装置およびデータ復旧方法
JP2009169747A (ja) * 2008-01-17 2009-07-30 Toshiba Corp 情報処理装置およびデータ復旧方法
WO2013058107A1 (ja) * 2011-10-17 2013-04-25 日立オートモティブシステムズ株式会社 電子制御装置
JP2013088978A (ja) * 2011-10-17 2013-05-13 Hitachi Automotive Systems Ltd 電子制御装置
CN103890739A (zh) * 2011-10-17 2014-06-25 日立汽车***株式会社 电子控制装置
CN103890739B (zh) * 2011-10-17 2016-05-25 日立汽车***株式会社 电子控制装置
CN108491878A (zh) * 2018-03-06 2018-09-04 宁波大学 一种基于多个误差生成模型的故障分类诊断方法
CN108491878B (zh) * 2018-03-06 2022-02-11 宁波大学 一种基于多个误差生成模型的故障分类诊断方法

Similar Documents

Publication Publication Date Title
EP0788052B1 (en) I/O control apparatus having check recovery function
US7849350B2 (en) Responding to a storage processor failure with continued write caching
US7941700B2 (en) Operating system-based application recovery
US7840768B2 (en) Memory-controller-embedded apparatus and procedure for achieving system-directed checkpointing without operating-system kernel support
JP4603185B2 (ja) 計算機及びその誤り回復方法
JPH05346866A (ja) 冗長アレーデータ記憶システムにおける書込データ保全を確立するためのシステム及び方法
US8341390B2 (en) Computer system and method for backing up BIOS settings
US20090164743A1 (en) Information processing apparatus and data recovering method
US5421003A (en) Disk storage system with fault tolerant media maintenance
US20160062821A1 (en) Invoking an error handler to handle an uncorrectable error
US20070220306A1 (en) Method and system for identifying and recovering a file damaged by a hard drive failure
JP2000222232A (ja) 電子計算機及び電子計算機のメモリ障害回避方法
JP3068009B2 (ja) 冗長化メモリのエラー訂正機構
US6810489B1 (en) Checkpoint computer system utilizing a FIFO buffer to re-synchronize and recover the system on the detection of an error
JP3070453B2 (ja) 計算機システムのメモリ障害回復方法および回復システム
JP2010536112A (ja) 中断された書込みの回復のためのデータ記憶方法、機器およびシステム
US20120210067A1 (en) Mirroring device and mirroring recovery method
JP2004252525A (ja) エミュレータおよびプログラム
JP3788822B2 (ja) コンピュータシステムおよびそのシステムにおける障害回復方法
JP3450132B2 (ja) キャッシュ制御回路
USRE45632E1 (en) Memory-controller-embedded apparatus and procedure for achieving system-directed checkpointing without operating-system kernel support
JP2000132462A (ja) プログラム自己修復方式
JP2010061258A (ja) デュプレックスプロセッサシステム及びプロセッサ二重化方法
JP2009169515A (ja) コンピュータシステム及びシステム回復装置
JPH0667989A (ja) 記憶装置のパトロール回路

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060404