JP2000222232A

JP2000222232A - 電子計算機及び電子計算機のメモリ障害回避方法

Info

Publication number: JP2000222232A
Application number: JP11019466A
Authority: JP
Inventors: Satoshi Mizuno; 聡水野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1999-01-28
Filing date: 1999-01-28
Publication date: 2000-08-11

Abstract

(57)【要約】【課題】メモリの二重化を行うことなく、マルチビッ
トエラーを回避することができる電子計算機及び電子計
算機のメモリ障害回避方法を提供する。【解決手段】チェックポイントのタイミングで、主記
憶装置１のＥＣＣエラー検出機構２を参照し、シングル
ビットエラーが検出されていれば、そのエラー発生アド
レス及び対応するデータを主記憶装置１上の特定領域１
Ａに保存し、その後ＥＣＣエラー検出機構２が再度エラ
ー検出できるように再設定する。以後チェックポイント
毎に上記アドレスに対するデータを主記憶装置１から読
み出して特定領域１Ａに保存する。そして、マルチビッ
トエラーが発生した場合には、エラーが発生したアドレ
スに基づき特定領域１Ａに元のデータが保存されている
か否かを調べ、保存されていた場合にはロールバック後
にそのデータを主記憶装置１のエラー発生したアドレス
に書き戻す。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、電子計算機及び電
子計算機のメモリ障害回避方法に関する。

【０００２】

【従来の技術】従来の電子計算機のメモリ障害回避手段
として、ブート時にＢＩＯＳ、あるいはＯＳがメモリを
チェックし、エラーを発見すると、そのエラーを含むペ
ージをＯＳがそれ以降使用しないようにするものや、シ
ングルビットエラーを発見した場合に、そのエラーを発
生したアドレスのデータを読み出し、その後、再び同じ
アドレスにそのデータを書き込むことでエラーを除去す
るものがある。

【０００３】

【発明が解決しようとする課題】ところで、上述したブ
ート時にメモリエラーを発見した場合にそのエラーを含
むページをＯＳがそれ以降使用しないようにするメモリ
障害回避手段にあっては、チェック時に発生しなかった
エラーには対処できないという問題点がある。また、シ
ングルビットエラーを発見した場合にそのエラーを発生
したアドレスのデータを読み出して、再び同じアドレス
に書き込むことでエラーを除去するメモリ障害回避手段
にあっては、シングルビットエラーについては当然なが
ら除去できるが、ダブルビットエラーにまで進んでしま
った場合にはデータを回復させることができないという
問題点がある。なお、これらの問題点は、メモリを二重
化して、一方にエラーが発生した場合に他方を使用する
方法で解決が可能である。しかしながら、二重化するこ
とでコスト高になり、低コスト化に逆行する形になる。

【０００４】そこで本発明は、コストを最小限に抑えな
がらも、チェック時に発生しなかったエラーにも対処で
き、またダブルビットエラーにまで進んでもデータを回
復させることができる電子計算機及び電子計算機のメモ
リ障害回避方法を提供することを目的としている。

【０００５】

【課題を解決するための手段】上記目的を達成するた
め、請求項１記載の発明による電子計算機のメモリ障害
回避方法は、一定時間間隔で設定されたチェックポイン
ト毎にＣＰＵのキャッシュやレジスタの状態を保存し、
またチェックポイント間で主記憶装置にデータの書き込
みが行われた場合に書き込み前のデータとそのアドレス
をバックアップ保存し、前記主記憶装置のマルチビット
エラーが発生した場合には、前記ＣＰＵのキャッシュや
レジスタの内容及び前記主記憶装置の内容を前回のチェ
ックポイント時の状態にロールバックするチェックポイ
ント／ロールバック方式の電子計算機のメモリ障害回避
方法であって、前記主記憶装置においてシングルビット
エラーが検出された場合、そのアドレスを記憶し、前記
チェックポイント毎に前記アドレスに基づき前記シング
ルビットエラーを発生したアドレスのデータを保存し、
前記記憶したアドレスでマルチビットエラーが発生した
場合には、前記保存しておいたデータを用いてロールバ
ックした後に前記主記憶装置の前記アドレスに書き込む
ことを特徴とする。

【０００６】この発明によれば、シングルビットエラー
が発生した時のアドレスのデータをチェックポイント毎
に保存することにより、そのアドレスのマルチビットエ
ラーによる障害発生時に、ロールバック後の主記憶装置
上のデータの修復が可能となる。この結果、今までシン
グルビットエラーのみ修復可能であったものが、間欠的
に発生するマルチビットエラーについても修復可能とな
り、主記憶装置に関する信頼性が一層向上する。また、
ソフトウェアによって処理するので、メモリの二重化と
比べるとコストアップを最小限に抑えることができる。

【０００７】請求項２記載の発明による電子計算機のメ
モリ障害回避方法は、一定時間間隔で設定されたチェッ
クポイント毎にＣＰＵのキャッシュやレジスタの状態を
保存し、またチェックポイント間で主記憶装置にデータ
の書き込みが行われた場合に書き込み前のデータとその
アドレスをバックアップ保存し、前記主記憶装置のマル
チビットエラーが発生した場合には、前記ＣＰＵのキャ
ッシュやレジスタの内容及び前記主記憶装置の内容を前
回のチェックポイント時の状態にロールバックするチェ
ックポイント／ロールバック方式の電子計算機のメモリ
障害回避方法であって、前記主記憶装置においてマルチ
ビットエラーが検出された場合、そのエラー発生アドレ
スを不揮発性メモリに記憶した後にリブートを行い、以
降、前記チェックポイント毎に前記不揮発性メモリに記
憶したアドレスのデータを保存し、前記アドレスでマル
チビットエラーが発生した場合には、前記保存しておい
たデータを用いて前記ロールバックした後に前記主記憶
装置の該当アドレスに書き込むことを特徴とする。

【０００８】この発明によれば、主記憶装置の故障の内
容によっては特定のアドレスにエラーが頻発するが、そ
のような特定のメモリアドレスに発生するマルチビット
エラーのメモリ障害が生じた場合でもロールバック後の
主記憶装置内のデータの修復が可能になり、結果的にマ
ルチビットエラーを回避することが可能になる。また、
ソフトウェアによって処理するので、メモリの二重化と
比べるとコストアップを最小限に抑えることができる。

【０００９】請求項３記載の発明による電子計算機のメ
モリ障害回避方法は、一定時間間隔で設定されたチェッ
クポイント毎にＣＰＵのキャッシュやレジスタの状態を
保存し、またチェックポイント間で主記憶装置にデータ
の書き込みが行われた場合に書き込み前のデータとその
アドレスをバックアップ保存し、前記主記憶装置のマル
チビットエラーが発生した場合には、前記ＣＰＵのキャ
ッシュやレジスタの内容及び前記主記憶装置の内容を前
回のチェックポイント時の状態にロールバックするチェ
ックポイント／ロールバック方式の電子計算機のメモリ
障害回避方法であって、チェックポイント時に前記バッ
クアップ保存されたアドレスを参照して、前回のチェッ
クポイント以降変更した前記主記憶装置上のデータを順
次読み出し、その読み出しデータをエラーチェックして
マルチビットエラーを検出した際には、前記ロールバッ
クのために保存していたデータによりロールバックする
ことを特徴とする。

【００１０】この発明によれば、チェックポイント毎
に、バックアップデータを参照して、前回のチェックポ
イント以降で変更のあった主記憶装置上のアドレスに対
してデータの読み出しを行うので、データ書き込み時の
マルチビットエラーを早期に検出することができる。ま
た、ソフトウェアによって処理するので、メモリの二重
化と比べるとコストアップを最小限に抑えることができ
る。

【００１１】請求項４記載の発明による電子計算機のメ
モリ障害回避方法は、前記マルチビットエラーが発生し
処理が進められない場合には、前記エラー発生したメモ
リページの代替ページを前記主記憶装置に設定し、元の
ページのエラー発生していない部分のデータ及び前記ロ
ールバックのために保存していたデータより、前記代替
ページに元のページの全てのデータを設定して、以降、
前記代替ページを使用して処理を実行することを特徴と
する。

【００１２】この発明によれば、マルチビットエラーが
再発して処理が進められない場合に、エラー発生したメ
モリページの代替ページを設定し、元のページのエラー
発生していない部分のデータを代替ページに復元すると
ともに、エラーを発生していた部分のデータについて
は、予め保存しておいたものを代替ページに復元して、
代替ページに元のページの全てのデータを設定し、それ
以降は代替ページを使用するので、主記憶装置に固定的
な障害があっても、その障害を回避することができる。
また、ソフトウェアによって処理するので、メモリの二
重化と比べるとコストアップを最小限に抑えることがで
きる。

【００１３】請求項５記載の発明による電子計算機は、
ＣＰＵと、主記憶装置と、一定時間間隔で設定されたチ
ェックポイント間に前記ＣＰＵによって前記主記憶装置
にデータの書き込みが行われる際に、書き込み先のデー
タとそのアドレスをバックアップ保存するデータバック
アップ装置と、前記チェックポイント毎に前記ＣＰＵの
キャッシュやレジスタの状態を保存し、前記主記憶装置
のマルチビットエラーを検出した場合には、前記保存さ
れた前記ＣＰＵのキャッシュやレジスタの内容及び前記
データバックアップ装置に保存した前記主記憶装置の内
容を用いて前回のチェックポイント時の状態にロールバ
ックするチェックポイント実行手段と、前記主記憶装置
においてシングルビットエラーが検出された場合、その
エラー発生アドレスを記憶する手段と、前記チェックポ
イント毎に記憶手段に記憶されたアドレスを用いて前記
主記憶装置からデータを読み出し、そのデータを前記主
記憶装置又は前記データバックアップ装置の特定領域に
保存する手段とを有し、前記記憶手段に記憶したアドレ
スでマルチビットエラーが発生した場合には、前記チェ
ックポイント実行手段によって前記ロールバックした後
に前記特定領域に保存したデータを前記主記憶装置の当
該アドレスに書き込むことを特徴とする。

【００１４】この発明によれば、シングルビットエラー
が発生した時のアドレスのデータをチェックポイント毎
に保存することにより、そのアドレスのマルチビットエ
ラーによる障害発生時に、ロールバック後の主記憶装置
上のデータの修復が可能となる。この結果、今までシン
グルビットエラーのみ修復可能であったものが、間欠的
に発生するマルチビットエラーについても修復可能とな
り、主記憶装置に関する信頼性が一層向上する。また、
ソフトウェアによって処理するので、メモリの二重化と
比べるとコストアップを最小限に抑えることができる。

【００１５】請求項６記載の発明による電子計算機は、
ＣＰＵと、主記憶装置と、一定時間間隔で設定されたチ
ェックポイント間に前記ＣＰＵによって前記主記憶装置
にデータの書き込みが行われる際に、書き込み先のデー
タとそのアドレスをバックアップ保存するデータバック
アップ装置と、前記チェックポイント毎に前記ＣＰＵの
キャッシュやレジスタの状態を保存し、前記主記憶装置
のマルチビットエラーを検出した場合には、前記保存さ
れた前記ＣＰＵのキャッシュやレジスタの内容及び前記
データバックアップ装置に保存した前記主記憶装置の内
容を用いて前回のチェックポイント時の状態にロールバ
ックするチェックポイント実行手段と、前記主記憶装置
のマルチビットエラーが検出された時に、そのエラー発
生アドレスを記憶する不揮発性メモリと、前記マルチビ
ットエラーに伴ってシステムがリブートされた以降、前
記チェックポイント毎に前記不揮発性メモリに記憶され
たアドレスを用いて前記主記憶装置から読出したデータ
を前記主記憶装置又は前記データバックアップ装置の特
定領域に保存する手段を有し、前記アドレスでマルチビ
ットエラーが発生した場合には、前記チェックポイント
実行手段によって前記ロールバックした後に前記特定領
域に保存したデータを前記主記憶装置の当該アドレスに
書き込むことを特徴とする。

【００１６】この発明によれば、主記憶装置の故障の内
容によっては特定のアドレスにエラーが頻発するが、そ
のような特定のメモリアドレスに発生するマルチビット
エラーのメモリ障害が生じた場合でもロールバック後の
主記憶装置内のデータの修復が可能になり、結果的にマ
ルチビットエラーを回避することが可能になる。また、
ソフトウェアによって処理するので、メモリの二重化と
比べるとコストアップを最小限に抑えることができる。

【００１７】請求項７記載の発明による電子計算機は、
ＣＰＵと、主記憶装置と、一定時間間隔で設定されたチ
ェックポイント間に前記ＣＰＵによって前記主記憶装置
にデータの書き込みが行われる際に、書き込み先のデー
タとそのアドレスをバックアップ保存するデータバック
アップ装置と、前記チェックポイント毎に前記ＣＰＵの
キャッシュやレジスタの状態を保存し、前記主記憶装置
のマルチビットエラーを検出した場合には、前記保存さ
れた前記ＣＰＵのキャッシュやレジスタの内容及び前記
データバックアップ装置に保存した前記主記憶装置の内
容を用いて前回のチェックポイント時の状態にロールバ
ックするチェックポイント実行手段と、チェックポイン
ト時に前記バックアップ装置に記憶したアドレスを参照
して、前記のチェックポイント以降変更した前記主記憶
装置上のデータを全て読出し、エラーチェックを実行す
る手段とを具備し、前記エラーチェック手段により前記
主記憶装置からマルチビットエラーが検出される場合、
前記チェックポイント実行手段によって前記ロールバッ
クすることを特徴とする。

【００１８】この発明によれば、チェックポイント毎
に、データバッアップ装置の内容を参照して、前回のチ
ェックポイント以降で変更のあった主記憶装置上のアド
レスに対してデータの読み出しを行うので、データ書き
込み時のマルチビットエラーを早期に検出することがで
きる。また、ソフトウェアによって処理するので、メモ
リの二重化と比べるとコストアップを最小限に抑えるこ
とができる。

【００１９】請求項８記載の発明による電子計算機は、
前記チェックポイント実行手段は、前記マルチビットエ
ラーが発生し処理が進められない場合には、エラー発生
したメモリページの代替ページを前記主記憶装置に設定
し、エラー発生した前記メモリページのエー発生してい
ない部分のデータ及び前記ロールバックのために保存し
ていたデータより、前記代替ページに前記エラー発生し
たメモリページの全てのデータを設定し、システムはそ
れ以降、前記代替ページを使用して処理を実行すること
を特徴とする。

【００２０】この発明によれば、マルチビットエラーが
再発して処理が進められない場合に、マルチビットエラ
ー発生したメモリページの代替ページを設定し、元のペ
ージのエラー発生していない部分のデータを代替ページ
に復元するとともに、エラーを発生していた部分のデー
タについては、予め保存しておいたものを代替ページに
復元して、代替ページに元のページの全てのデータを設
定し、それ以降は代替ページを使用するので、主記憶装
置に固定的な障害があっても、その障害を回避すること
ができる。また、ソフトウェアによって処理するので、
メモリの二重化と比べるとコストアップを最小限に抑え
ることができる。

【００２１】

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態について説明する。（I ）第１の実施形態図１は本発明の第１の実施形態の電子計算機の概略構成
を示すブロック図である。この第１の実施形態の電子計
算機は、ＢＩＢ（Before Image Buffer;例えば特開平１
０−１５４１３４号公報参照）装置（データバッアップ
装置）を使用したチェックポイント／ロールバック方式
の電子計算機であり、主記憶装置１にはＥＣＣ（Error
Checking&Correction ）エラー検出機構２が設けられて
いる。このＥＣＣエラー検出機構２は、メモリエラーと
して「シングルビットエラー」の検出と訂正、「マルチ
ビットエラー」の検出を行うとともに、シングルビット
エラーおよびマルチビットエラー毎にエラー発生した主
記憶装置１のアドレスを記憶する。この場合、マルチビ
ットエラーの検出結果は、割り込み（ＮＭＩのような強
力な割り込み）の形式でＣＰＵ３に直ちに通知される。
エラーの検出後は、再度エラーを検出できるようにＣＰ
Ｕ３によって再設定される。なお、図１では、シングル
ビットエラーが生じていることを示している。すなわ
ち、シングルビットエラー又はマルチビットエラーを検
出するとフラグが「１」に設定され、エラー発生アドレ
スがＥＣＣエラー検出機構２に記憶される。

【００２２】チェックポイント／ロールバック処理は、
ＯＳ（オペレーティングシステム）の一部のソフトウェ
アとして組込まれたチェックポイントモジュールによっ
て実行される。このチェックポイントモジュールは、図
２に示すように、定期的にチェックポイント処理を行う
とともに、システムに障害が発生した時には、前回のチ
ェックポイント（この図２に示す例ではＣＰ2 ）に処理
を戻し、主記憶装置１の特定領域１ＡやＢＩＢ装置４に
記憶されたデータを用いて主記憶装置１のデータを回復
させる障害回復処理を行う。

【００２３】即ち、チェックポイントモジュールは、チ
ェックポイントのタイミングで、主記憶装置１のＥＣＣ
エラー検出機構２を参照し、シングルビットエラーが検
出されているか否かを調べ、シングルビットエラーが検
出されていれば、そのときのアドレスをＥＣＣエラー検
出機構２から読み出し、それを主記憶装置１上の特定の
領域１Ａ又はＢＩＢ装置４の保存領域４Ａ（これらの容
量は５１２Ｋバイト程度あれば十分である）のいずれか
一方に保存する。また同時にそのアドレスのデータを主
記憶装置１から読み出して上記特定領域１Ａ又は保存領
域４Ａのいずれか一方に保存する（以後、特定領域１Ａ
を使用することにする）。シングルビットエラーが生じ
たアドレスとそのデータを主記憶装置１の特定領域１Ａ
に保存した後、ＥＣＣエラー検出機構２が再度エラー検
出できるように再設定する。以降、チェックポイント毎
にシングルビットエラーが発生したアドレスのデータを
特定領域に保存する。この場合、同一アドレスについて
は当然ながら上書きされることになる。また、マルチビ
ットエラー等のメモリ障害が生じた場合に、前回のチェ
ックポイントまで戻れるように、ＣＰＵ３のキャッシュ
と各種レジスタの各値を保存する。なお、ＣＰＵ３のキ
ャッシュ内容の保存は、主記憶装置１に書き戻す（キャ
ッシュライトバック）処理を行い、各種レジスタの内容
は上記特定領域１Ａでも良いが、従来通りに主記憶装置
１の予め決めた領域に保存しても良い。

【００２４】一方、ＥＣＣエラー検出機構２でマルチビ
ットエラーが検出された場合には、その割込み発生に応
答してチェックポイントモジュールは、マルチビットエ
ラーが発生したアドレスをＥＣＣエラー検出機構２から
読出し、さらにそのアドレスのデータが主記憶装置１上
の特定領域１Ａに保存されているか否かを調べる。特定
領域１Ａに保存されていれば、ロールバックの際に上記
アドレスに書き戻す。マルチビットエラーが発生したア
ドレスのデータが主記憶装置１上の特定領域１Ａに保存
されていなければ、エラーとして処理を終了する。

【００２５】ＢＩＢ装置４は、常にシステムバス５を監
視し、チェックポイントモジュールによるチェックポイ
ント処理後、ＣＰＵ３が主記憶装置１にデータを書き込
む際に、その書き込みアドレスの主記憶装置１の更新前
データを取り込んで、そのアドレスとともに自己の記憶
領域に書き込む。すなわち、ＣＰＵ３が主記憶装置１に
データを書き込む際に、更新前データを取り込んでアド
レスとともに保存する（即ちチェックポイントまでロー
ルバックできるようにバックアップする）。この保存
は、チェックポイント毎に時系列的に実行され保存され
る。チェックポイントモジュールはマルチビットエラー
等の障害が発生した際に、このＢＩＢ装置４からデータ
を新しいものから古い順に読み出して主記憶装置１に戻
し、さらに特定領域１Ａに保存しているデータをエラー
発生したアドレスに書き戻す。このようにＢＩＢ装置４
を使うことで、障害発生の時点から前回のチェックポイ
ントまでのデータを主記憶装置１に戻すことができる。

【００２６】図３は第１の実施形態のチェックポイント
モジュールの動作を示すフローチャートである。まず、
チェックポイント時の処理を説明すると、ステップＳ１
０で、前回のチェックポイントまでにシングルビットエ
ラーが発生したアドレスが特定領域１Ａに保存されてい
るか否かを判定する。この判定は、シングルビットエラ
ーが発生したアドレスはマルチビットエラーを発生する
可能性があるので、当該アドレスのデータを保存して障
害回復に備えることが望ましいからである。

【００２７】前回のチェックポイントまでにシングルビ
ットエラーが発生したアドレスが特定領域１Ａに保存さ
れていると判断すると、ステップＳ１２で、そのアドレ
スに対する主記憶装置１上のデータを読み出して同装置
の特定領域１Ａに保存する。この処理を行った後はステ
ップＳ１４でＥＣＣエラー検出機構２を参照して、新た
にシングルビットエラーが発生していないかチェックす
る。これに対して、前回のチェックポイントまでに一度
もシングルビットエラーが発生していないと判断する
と、ステップＳ１４に進む。ステップＳ１４でＥＣＣエ
ラー検出機構２を参照して、ステップＳ１６に進み、Ｅ
ＣＣエラー検出機構２の参照結果からシングルビットエ
ラーが発生したか否かを判定する。この判定において、
シングルビットエラーが発生したと判断すると、ステッ
プＳ１８に進み、シングルビットエラーを発生したアド
レスをＥＣＣエラー検出機構２から読み出し、主記憶装
置１の特定領域１Ａに保存する。次いで、ステップＳ２
０でそのアドレスのデータを主記憶装置１から読み出し
て同装置１の特定領域１Ａに保存する。

【００２８】シングルビットエラーを発生したアドレス
とそのアドレスのデータを主記憶装置１の特定領域１Ａ
に保存した後、ステップＳ２２でＥＣＣエラー検出機構
２を再設定してエラーを検出できるようにする。一方、
上記ステップＳ１６の判定において、シングルビットエ
ラーが発生していないと判断すると、ステップＳ２４の
処理を行う。ステップＳ２４では、現在のチェックポイ
ントでのＣＰＵ３の内部のキャッシュを主記憶装置１に
書き戻し、各種レジスタの値を主記憶装置１の他の領域
に保存する。そしてステップＳ２６でＢＩＢ装置４の内
容をクリアする。ＢＩＢ装置４の内容は、上述したよう
に、前回と今回のチェックポイント間で主記憶装置１に
書き込まれる前のデータであるが、今回のチェックポイ
ント処理まで処理が終わり、前回のチェックポイントま
で戻る必要がなくなったので、ＢＩＢ装置４の内容をク
リアする。これで今回のチェックポイントでの処理が終
了する。

【００２９】図４はマルチビットエラー検出時の障害回
復処理のフローチャートを示す。次のチェックポイント
までの間でマルチビットエラーが発生したとすると、そ
れはＮＭＩ（割り込み）によりＣＰＵ３に通知され、図
４の処理が実行される。ステップＳ３０では、マルチビ
ットエラーを発生したアドレスをＥＣＣエラー検出機構
２から読み出す。そして、ステップＳ３２で、マルチビ
ットエラーを発生したアドレスに対して元のデータが主
記憶装置１の特定領域１Ａに保存されているか否かを判
定する。

【００３０】即ち、マルチビットエラーが発生したこと
は、通常は、その発生以前にシングルビットエラーが発
生している可能性があり、その場合はエラー発生前のデ
ータがシングルビットエラー検出時に特定領域１Ａに保
存されている。そして、ステップＳ３４でＥＣＣエラー
検出機構２を再設定してエラー検出ができるようにした
後にステップＳ３６、Ｓ３８でロールバックを行う。こ
のロールバック処理として、マルチビットエラーが発生
した時点までのＢＩＢ装置４上に保存されたデータを主
記憶装置１に戻す。そして、このロールバックを終えた
後、ステップＳ４０でマルチビットエラーを発生したア
ドレスに対して特定領域１Ａに保存された元のデータを
書き込む。これにより、前回のチェックポイントまで戻
り、そのチェックポイントから再び処理を開始する。な
お、上記ステップＳ３２の判定において、マルチビット
エラーを発生したアドレスに対して元のデータが特定領
域１Ａに保存されていなければ、何等かの原因でエラー
が発生したものとして、ステップＳ４２でエラー表示等
を行って処理を終える。

【００３１】このように、この第１の実施形態よれば、
チェックポイントのタイミングで、主記憶装置１のＥＣ
Ｃエラー検出機構２を参照し、シングルビットエラーが
検出されているか否かを調べる。シングルビットエラー
が検出されていれば、そのエラー発生アドレスをＥＣＣ
エラー検出機構２から読み出して主記憶装置１上の特定
の領域１Ａに保存する。また同時にそのアドレスのデー
タを主記憶装置１から読み出して特定領域１Ａに保存す
る。その後、ＥＣＣエラー検出機構２が再度エラー検出
できるように再設定する。以後、チェックポイント毎に
上記アドレスに対するデータを主記憶装置１から読み出
して主記憶装置１の特定領域１Ａに保存する。そして、
マルチビットエラーが発生した場合には、エラーが発生
したアドレスを調べ、さらに特定領域１Ａに元のデータ
が保存されているか否かを調べ、保存されていた場合に
はロールバック後にそのデータをエラー発生したアドレ
スに書き戻す。その後、通常の処理を再開する。

【００３２】したがって、シングルビットエラーが発生
したアドレスのデータをチェックポイント毎に保存する
ことにより、当該アドレスでマルチビットエラーが発生
した場合、特定領域１Ａに保存された元のデータを読み
出すことによって、ロールバック後の主記憶装置１上の
データの修復が可能となる。この結果、今までＥＣＣに
よりシングルビットエラーのみ修復可能であったもの
が、間欠的に発生するマルチビットエラーについても修
復可能となり、主記憶装置に関する信頼性が一層向上す
る。また、ソフトウェアによって処理するので、メモリ
の二重化と比べるとコストアップを最小限に抑えること
ができる。

【００３３】（II）第２の実施形態図５は本発明の第２の実施の形態の電子計算機の概略構
成を示すブロック図である。この第２の実施形態の電子
計算機は、主記憶装置１の特定のアドレスにマルチビッ
トエラーのメモリ障害が発生した場合でも、ロールバッ
ク後のメモリ内データの修復を可能にしたものである。
この為に、この実施形態ではシステムバス５に不揮発性
メモリ６を接続した構成としている。そして、この第２
の実施形態の電子計算機のチェックポイントモジュール
は、マルチビットエラーを検出すると、そのアドレスを
不揮発性メモリ６に保存し、次回以降のシステムのブー
ト時には、先ず不揮発性メモリ６の内容を参照して以前
にマルチビットエラーが発生したか否かを調べ、その確
認ができたら、そのアドレスのデータをチェックポイン
ト毎に主記憶装置１の特定領域１Ａに保存する。その後
にマルチビットエラーが発生した場合、チェックポイン
トモジュールは、マルチビットエラーが発生したアドレ
スを調べ、そのアドレスに対する元のデータが主記憶装
置１の特定領域１Ａに保存されているか否かを調べ、保
存されていれば、ＥＣＣエラー検出機構２を再びエラー
検出できるように再設定した後、ロールバックを行い、
その後に特定領域１Ａに保存されていたデータをマルチ
ビットエラーが発生したアドレスに書き戻す。その後、
通常の処理を再開する。

【００３４】図６は第２の実施形態のチェックポイント
モジュールの動作を示すフローチャートを示すもので、
マルチビットエラー検出時の障害回復処理の実行手順を
示す。マルチビットエラーが発生した場合、割込みによ
るエラー通知がＣＰＵ３に行われる。これにより、チェ
ックポイントモジュールは、ステップＳ５０でマルチビ
ットエラーが発生したアドレスを調べる。これはＥＣＣ
エラー検出機構２のエラー発生アドレスを読み出すこと
により実行される。そして、ステップＳ５２の判断で今
回のマルチビットエラーに対し、そのアドレスに対して
元のデータが特定領域１Ａに保存されていれば、ステッ
プＳ５６で、ＥＣＣエラー検出機構２を再びエラー検出
できるように再設定する。そして、ステップＳ５８、６
０でＢＩＢ装置４に保存したデータを主記憶装置１に書
き戻してロールバックを行い、その後、ステップＳ６２
で特定領域１Ａに保存されているデータをマルチビット
エラーを発生したアドレスに書き戻す。その後、通常の
処理を再開する。なお、ステップＳ５２で元のデータが
特定領域１Ａに保存されていなければ、ステップＳ５４
に進み、そのマルチビットエラーを発生したアドレスを
不揮発性メモリ６に保存して処理を終了する。

【００３５】このように、この第２の実施形態よれば、
不揮発性メモリ６に記憶したマルチビットエラーが発生
したアドレスに対し、チェックポイント毎にそのアドレ
スに対応するデータを特定領域１Ａに保存することによ
り、主記憶装置１の故障の内容によっては特定のアドレ
スにエラーが頻発するが、そのような特定のメモリアド
レスに発生するマルチビットエラーのメモリ障害が生じ
た場合でもロールバック後の主記憶装置１内のデータの
修復が可能になり、結果的にマルチビットエラーを回避
することが可能になる。また、ソフトウェアによって処
理するので、メモリの二重化と比べるとコストアップを
最小限に抑えることができる。なお、この第２の実施形
態では、マルチビットエラーを発生したアドレスをシス
テム内の不揮発性メモリ６に保存するようにしたが、電
源を切ってもデータが消去されないもの例えばハードデ
ィスク装置のような外部記憶装置に保存するようにして
も良い。

【００３６】（III ）第３の実施形態図７は本発明の第３の実施形態の電子計算機の概略構成
を示すブロック図である。ＥＣＣエラー検出機構２の実
現方式によっては、主記憶装置１へのデータの書き込み
時にはエラー検出が行われず、リード時にのみエラー検
出が行われる場合がある。このような場合には、データ
書き込み時にデータが壊れたとしても、その検出はその
アドレスのデータを読み込んだときまで遅れることにな
る。この第３の実施形態の電子計算機は、チェックポイ
ント毎にデータの書き込みを行った領域からデータを読
み出すことで、書き込み時のマルチビットエラーを検出
できるようにしたものである。

【００３７】即ち、この第３の実施形態の電子計算機の
チェックポイントモジュールは、チェックポイント処理
時にＢＩＢ装置４に保存した書き込みアドレスを参照し
て、前回のチェックポイント以降で書き込みを行った主
記憶装置１上のアドレスに対してデータの読み出しを行
う。この読み出しの結果、マルチビットエラーが発生し
た場合には、チェックポイント処理を中止し、ＥＣＣエ
ラー検出機構２を再びエラー検出できるように再設定し
た後、同様にＢＩＢ装置４の内容を参照して主記憶装置
１を前回のチェックポイントにロールバックする。マル
チビットエラーを発生したアドレスのデータはＢＩＢ装
置４に保存されているので、ロールバックに伴いＢＩＢ
装置４から正しいデータをそのアドレスに書き戻す。そ
の後、前回のチェックポイントから通常の処理を再開す
る。図７に示すＤ₁〜Ｄ₄は、前回のチェックポイント
からＣＰＵ３が変更したデータである。ＢＩＢ装置４に
は、データＤ₁〜Ｄ₄のアドレスが記録されているの
で、それらのアドレスからＣＰＵ３がデータＤ₁〜Ｄ₄
を読み出し、マルチビットエラーの発生をチェックする
ものである。

【００３８】図８は第３の実施形態のチェックポイント
モジュールの動作を示すフローチャートである。チェッ
クポイントの処理では、ステップＳ７０でＢＩＢ装置４
に保存したアドレスを参照する。そして、ステップＳ７
２で、前回のチェックポイント以降で変更のあった主記
憶装置１上のアドレスに対してデータの読み出しを行
う。そして、この読み出しにおいて、マルチビットエラ
ーが発生した場合には、ステップＳ７４からステップＳ
７６に進み、ＥＣＣエラー検出機構２を再びエラー検出
できるように再設定する。そして、ステップＳ７８、８
０で前回のチェックポイントまでロールバック処理を行
う。この処理が終了すると、戻ったチェックポイントか
ら通常の処理を行う。一方、ステップＳ７４の判定にお
いて、マルチビットエラーが発生しなかったと判断した
場合には、ステップＳ８２に進み、シングルビットエラ
ーの発生の有無の判定及び発生した場合の処理について
は上記第１の実施形態と同様であるので、その説明は省
略する。この場合、この図において、ステップＳ８２か
らステップＳ９８までの処理は、図３のステップＳ１０
からステップＳ２８までの処理に対応する。

【００３９】このように、この第３の実施形態によれ
ば、チェックポイント毎に、ＢＩＢ装置４の内容を参照
して、前回のチェックポイント以降で変更のあった主記
憶装置１上のアドレスに対してデータの読み出しを行う
ので、データ書き込み時のマルチビットエラーを早期に
検出することができる。また、ソフトウェアによって処
理するので、メモリの二重化と比べるとコストアップを
最小限に抑えることができる。

【００４０】（IV）第４の実施形態図９は本発明の第４の実施形態の電子計算機の概略構成
を示すブロック図である。上記第１〜第３の実施形態の
電子計算機では、主記憶装置１の間欠的なマルチビット
エラーを回避することはできるが、固定的な故障で、正
しい値のデータを書き込んでもマルチビットエラーが再
発する場合には、そのメモリアドレス領域は使用できな
くなる。この第４の実施形態の電子計算機は、代替ペー
ジを用意することで、固定的な障害を回避するようにし
たものである。

【００４１】ロールバック後に再び同じアドレスでマル
チビットエラーが発生した場合、まず、チェックポイン
ト時点のシステム状態にロールバックする。次いで、Ｅ
ＣＣエラー検出機構２を再びエラー検出できるように再
設定する。その後、主記憶装置１内の空きメモリページ
を「代替ページ」として一つ確保する。次いで、その代
替ページに、元のページ上のエラーを発生していない部
分のデータを代替ページに復元し、また元のページ上の
エラーを発生していた部分のデータについては、第１、
第２の実施形態では主記憶装置１の特定領域１Ａに保存
したデータ、第３の実施形態ではＢＩＢ装置４がバック
アップしたデータを代替ページに復元する。その後、通
常の処理を再開する。エラーを発生した元のページは、
それ以降使用しないようにＯＳに通知する。

【００４２】このように、この第４の実施形態によれ
ば、マルチビットエラーが再発して処理が進められない
場合に、マルチビットエラー発生したメモリページの代
替ページを設定し、元のページのエラー発生していない
部分のデータを代替ページに復元するとともに、エラー
を発生していた部分のデータについては、予め保存して
おいたものを代替ページに復元して、代替ページに元の
ページの全てのデータを設定し、それ以降は代替ページ
を使用するので、主記憶装置１に固定的な障害があって
も、その障害を回避することができる。また、ソフトウ
ェアによって処理するので、メモリの二重化と比べると
コストアップを最小限に抑えることができる。

【００４３】

【発明の効果】この発明によれば、シングルビットエラ
ーが発生した時のアドレスのデータをチェックポイント
毎に保存することにより、そのアドレスのマルチビット
エラーによる障害発生時に、ロールバック後の主記憶装
置上のデータの修復が可能となる。この結果、今までシ
ングルビットエラーのみ修復可能であったものが、間欠
的に発生するマルチビットエラーについても修復可能と
なり、主記憶装置に関する信頼性が一層向上する。ま
た、ソフトウェアによって処理するので、メモリの二重
化と比べるとコストアップを最小限に抑えることができ
る。

【００４４】また、この発明によれば、主記憶装置の故
障の内容によっては特定のアドレスにエラーが頻発する
が、そのような特定のメモリアドレスに発生するマルチ
ビットエラーのメモリ障害が生じた場合でもロールバッ
ク後の主記憶装置内のデータの修復が可能になり、結果
的にマルチビットエラーを回避することが可能になる。
また、ソフトウェアによって処理するので、メモリの二
重化と比べるとコストアップを最小限に抑えることがで
きる。

【００４５】また、この発明によれば、マルチビットエ
ラーが再発して処理が進められない場合に、マルチビッ
トエラー発生したメモリページの代替ページを設定し、
元のページのエラー発生していない部分のデータを代替
ページに復元するとともに、エラーを発生していた部分
のデータについては、予め保存しておいたものを代替ペ
ージに復元して、代替ページに元のページの全てのデー
タを設定し、それ以降は代替ページを使用するので、主
記憶装置に固定的な障害があっても、その障害を回避す
ることができる。また、ソフトウェアによって処理する
ので、メモリの二重化と比べるとコストアップを最小限
に抑えることができる。

【００４６】また、この発明によれば、チェックポイン
ト毎にバックアップデータを参照して、前回のチェック
ポイント以降で変更のあった主記憶装置上のアドレスに
対してデータの読み出しを行うので、データ書き込み時
のマルチビットエラーを早期に検出することができる。
また、ソフトウェアによって処理するので、メモリの二
重化と比べるとコストアップを最小限に抑えることがで
きる。

【図面の簡単な説明】

【図１】本発明に係る電子計算機の第１の実施形態の要
部の構成を示すブロック図である。

【図２】第１の実施形態の電子計算機の動作を説明する
ための図である。

【図３】第１の実施形態の電子計算機の動作を示すフロ
ーチャートである。

【図４】第１の実施形態におけるマルチビットエラー検
出時の障害回復処理を示すフローチャートである。

【図５】本発明に係る電子計算機の第２の実施形態の要
部の構成を示すブロック図である。

【図６】第２の実施形態におけるマルチビットエラー検
出時の障害回復処理を示すフローチャートである。

【図７】本発明に係る電子計算機の第３の実施形態の要
部の構成を示すブロック図である。

【図８】第３の実施形態の電子計算機の動作を示すフロ
ーチャートである。

【図９】本発明に係る電子計算機の第４の実施形態の要
部の構成を示すブロック図である。

【符号の説明】

１主記憶装置１Ａ特定領域２ＥＣＣエラー検出機構３ＣＰＵ４ＢＩＢ装置４Ａ保存領域５システムバス６不揮発性メモリ

Claims

【特許請求の範囲】

【請求項１】一定時間間隔で設定されたチェックポイ
ント毎にＣＰＵのキャッシュやレジスタの状態を保存
し、またチェックポイント間で主記憶装置にデータの書
き込みが行われた場合に書き込み前のデータとそのアド
レスをバックアップ保存し、前記主記憶装置のマルチビ
ットエラーが発生した場合には、前記ＣＰＵのキャッシ
ュやレジスタの内容及び前記主記憶装置の内容を前回の
チェックポイント時の状態にロールバックするチェック
ポイント／ロールバック方式の電子計算機のメモリ障害
回避方法であって、前記主記憶装置においてシングルビットエラーが検出さ
れた場合、そのアドレスを記憶し、前記チェックポイン
ト毎に前記アドレスに基づき前記シングルビットエラー
を発生したアドレスのデータを保存し、前記記憶したア
ドレスでマルチビットエラーが発生した場合には、前記
保存しておいたデータを用いてロールバックした後に前
記主記憶装置の前記アドレスに書き込むことを特徴とす
る電子計算機のメモリ障害回避方法。
【請求項２】一定時間間隔で設定されたチェックポイ
ント毎にＣＰＵのキャッシュやレジスタの状態を保存
し、またチェックポイント間で主記憶装置にデータの書
き込みが行われた場合に書き込み前のデータとそのアド
レスをバックアップ保存し、前記主記憶装置のマルチビ
ットエラーが発生した場合には、前記ＣＰＵのキャッシ
ュやレジスタの内容及び前記主記憶装置の内容を前回の
チェックポイント時の状態にロールバックするチェック
ポイント／ロールバック方式の電子計算機のメモリ障害
回避方法であって、前記主記憶装置においてマルチビットエラーが検出され
た場合、そのエラー発生アドレスを不揮発性メモリに記
憶した後にリブートを行い、以降、前記チェックポイン
ト毎に前記不揮発性メモリに記憶したアドレスのデータ
を保存し、前記アドレスでマルチビットエラーが発生し
た場合には、前記保存しておいたデータを用いて前記ロ
ールバックした後に前記主記憶装置の該当アドレスに書
き込むことを特徴とする電子計算機のメモリ障害回避方
法。
【請求項３】一定時間間隔で設定されたチェックポイ
ント毎にＣＰＵのキャッシュやレジスタの状態を保存
し、またチェックポイント間で主記憶装置にデータの書
き込みが行われた場合に書き込み前のデータとそのアド
レスをバックアップ保存し、前記主記憶装置のマルチビ
ットエラーが発生した場合には、前記ＣＰＵのキャッシ
ュやレジスタの内容及び前記主記憶装置の内容を前回の
チェックポイント時の状態にロールバックするチェック
ポイント／ロールバック方式の電子計算機のメモリ障害
回避方法であって、チェックポイント時に前記バックアップ保存されたアド
レスを参照して、前回のチェックポイント以降変更した
前記主記憶装置上のデータを順次読み出し、その読み出
しデータをエラーチェックしてマルチビットエラーを検
出した際には、前記ロールバックのために保存していた
データによりロールバックすることを特徴とする電子計
算機のメモリ障害回避方法。
【請求項４】前記マルチビットエラーが発生し処理が
進められない場合には、前記エラー発生したメモリペー
ジの代替ページを前記主記憶装置に設定し、元のページ
のエラー発生していない部分のデータ及び前記ロールバ
ックのために保存していたデータより、前記代替ページ
に元のページの全てのデータを設定して、以降、前記代
替ページを使用して処理を実行することを特徴とする請
求項１又は２又は３記載の電子計算機のメモリ障害回避
方法。
【請求項５】ＣＰＵと、主記憶装置と、一定時間間隔で設定されたチェックポイント間に前記Ｃ
ＰＵによって前記主記憶装置にデータの書き込みが行わ
れる際に、書き込み先のデータとそのアドレスをバック
アップ保存するデータバックアップ装置と、前記チェックポイント毎に前記ＣＰＵのキャッシュやレ
ジスタの状態を保存し、前記主記憶装置のマルチビット
エラーを検出した場合には、前記保存された前記ＣＰＵ
のキャッシュやレジスタの内容及び前記データバックア
ップ装置に保存した前記主記憶装置の内容を用いて前回
のチェックポイント時の状態にロールバックするチェッ
クポイント実行手段と、前記主記憶装置においてシングルビットエラーが検出さ
れた場合、そのエラー発生アドレスを記憶する手段と、前記チェックポイント毎に記憶手段に記憶されたアドレ
スを用いて前記主記憶装置からデータを読み出し、その
データを前記主記憶装置又は前記データバックアップ装
置の特定領域に保存する手段とを有し、前記記憶手段に記憶したアドレスでマルチビットエラー
が発生した場合には、前記チェックポイント実行手段に
よって前記ロールバックした後に前記特定領域に保存し
たデータを前記主記憶装置の当該アドレスに書き込むこ
とを特徴とする電子計算機。
【請求項６】ＣＰＵと、主記憶装置と、一定時間間隔で設定されたチェックポイント間に前記Ｃ
ＰＵによって前記主記憶装置にデータの書き込みが行わ
れる際に、書き込み先のデータとそのアドレスをバック
アップ保存するデータバックアップ装置と、前記チェックポイント毎に前記ＣＰＵのキャッシュやレ
ジスタの状態を保存し、前記主記憶装置のマルチビット
エラーを検出した場合には、前記保存された前記ＣＰＵ
のキャッシュやレジスタの内容及び前記データバックア
ップ装置に保存した前記主記憶装置の内容を用いて前回
のチェックポイント時の状態にロールバックするチェッ
クポイント実行手段と、前記主記憶装置のマルチビットエラーが検出された時
に、そのエラー発生アドレスを記憶する不揮発性メモリ
と、前記マルチビットエラーに伴ってシステムがリブートさ
れた以降、前記チェックポイント毎に前記不揮発性メモ
リに記憶されたアドレスを用いて前記主記憶装置から読
出したデータを前記主記憶装置又は前記データバックア
ップ装置の特定領域に保存する手段を有し、前記アドレスでマルチビットエラーが発生した場合に
は、前記チェックポイント実行手段によって前記ロール
バックした後に前記特定領域に保存したデータを前記主
記憶装置の当該アドレスに書き込むことを特徴とする電
子計算機。
【請求項７】ＣＰＵと、主記憶装置と、一定時間間隔で設定されたチェックポイント間に前記Ｃ
ＰＵによって前記主記憶装置にデータの書き込みが行わ
れる際に、書き込み先のデータとそのアドレスをバック
アップ保存するデータバックアップ装置と、前記チェックポイント毎に前記ＣＰＵのキャッシュやレ
ジスタの状態を保存し、前記主記憶装置のマルチビット
エラーを検出した場合には、前記保存された前記ＣＰＵ
のキャッシュやレジスタの内容及び前記データバックア
ップ装置に保存した前記主記憶装置の内容を用いて前回
のチェックポイント時の状態にロールバックするチェッ
クポイント実行手段と、チェックポイント時に前記バックアップ装置に記憶した
アドレスを参照して、前記のチェックポイント以降変更
した前記主記憶装置上のデータを全て読出し、エラーチ
ェックを実行する手段とを具備し、前記エラーチェック手段により前記主記憶装置からマル
チビットエラーが検出される場合、前記チェックポイン
ト実行手段によって前記ロールバックすることを特徴と
する電子計算機。
【請求項８】前記チェックポイント実行手段は、前記
マルチビットエラーが発生し処理が進められない場合に
は、エラー発生したメモリページの代替ページを前記主
記憶装置に設定し、エラー発生した前記メモリページの
エラー発生していない部分のデータ及び前記ロールバッ
クのために保存していたデータより、前記代替ページに
前記エラー発生したメモリページの全てのデータを設定
し、システムはそれ以降、前記代替ページを使用して処
理を実行することを特徴とする請求項５又は６又は７記
載の電子計算機。