JP2008027284A - Fault processing system, fault processing method, and fault processing device and program - Google Patents
Fault processing system, fault processing method, and fault processing device and program Download PDFInfo
- Publication number
- JP2008027284A JP2008027284A JP2006200645A JP2006200645A JP2008027284A JP 2008027284 A JP2008027284 A JP 2008027284A JP 2006200645 A JP2006200645 A JP 2006200645A JP 2006200645 A JP2006200645 A JP 2006200645A JP 2008027284 A JP2008027284 A JP 2008027284A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- information communication
- communication system
- penalty
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は障害処理システム、障害処理方法、障害処理装置およびプログラムに関し、特に、訂正可能エラーと訂正不可能エラーとが発生する情報通信システムに対する障害処理システム、障害処理方法、障害処理装置およびプログラムに関する。 The present invention relates to a failure processing system, a failure processing method, a failure processing device, and a program, and more particularly, to a failure processing system, a failure processing method, a failure processing device, and a program for an information communication system in which correctable errors and uncorrectable errors occur. .
情報通信システムの維持管理を行うにあたって、障害の発生の考慮することは必須である。特にPFI(Private Finance Initiative:公共施設等の建設、維持管理、運営等を民間の資金、経営能力および技術的能力を活用して行う新しい手法)事業のように20年間、30年間と長期間にわたって情報通信システムを維持管理する必要がある場合には、障害が発生した場合の対処は非常に重要になる。 In maintaining and managing an information communication system, it is essential to consider the occurrence of a failure. In particular, PFI (Private Finance Initiative: a new method for constructing, maintaining, and managing public facilities, etc., utilizing private funds, management and technical skills) business over 20 years and 30 years When it is necessary to maintain and manage the information communication system, it is very important to deal with a failure.
<エラーのタイプについて>
情報通信システムにおける障害には、訂正可能エラーと訂正不可能エラーの2つのタイプがある。以下、訂正可能エラーをCE(Correctable Error)、訂正不可能エラーをUE(Uncorrectable Error)と略記することがある。
<About error types>
There are two types of failures in information communication systems: correctable errors and uncorrectable errors. Hereinafter, a correctable error may be abbreviated as CE (Correctable Error), and an uncorrectable error may be abbreviated as UE (Uncorrectable Error).
訂正可能エラーとは、情報通信システム内のECC(Error Checking and Collection)機能を有するエラー検出回路がエラーを検出した場合に、対象データの誤りを訂正することが可能となるエラーであり、そのため、情報通信システム内の処理は続行可能である。なお、ここではエラー発生時のファームウェア等による再実行で処理が正しく実行され、処理の続行が可能となるケースも訂正可能エラーの範疇と判断することとする。 A correctable error is an error that can correct an error in target data when an error detection circuit having an ECC (Error Checking and Collection) function in the information communication system detects an error. Processing in the information communication system can continue. Here, a case where processing is correctly executed by re-execution by firmware or the like when an error occurs and processing can be continued is also determined as a category of correctable errors.
訂正不可能エラーとは、情報通信システム内のECC機能を有するエラー検出回路がエラーを検出した場合に、対象データの誤りを訂正することができず、データは保証されないエラーであり、従って、情報通信システム内の処理は続行不可能である。その結果、情報通信システムは停止せざるを得ない状態になる。 An uncorrectable error is an error in which the error of the target data cannot be corrected when the error detection circuit having the ECC function in the information communication system detects an error, and the data is not guaranteed. Processing in the communication system cannot continue. As a result, the information communication system must be stopped.
<エラーの原因について>
障害が発生する原因をハードウェアに限定して検討してみると、以下の通りである。最も一般的なものとしてハードウェアの物理的または電気的破壊がある。このほかに電子回路や電子回路を収容するパッケージ等の製造ミス、設計ミス等がある。設計ミスとしては、論理回路の設計ミスのほかに、電気回路の設計ミスが考えられる。電気回路の設計ミスは、例えば、遅延時間の計算ミスや論理回路への電源供給回路の設計ミス等である。
<Cause of error>
When the cause of the failure is limited to hardware, it is as follows. The most common is the physical or electrical breakdown of hardware. In addition to this, there are manufacturing mistakes, design mistakes, etc. for electronic circuits and packages containing electronic circuits. As a design error, in addition to a logic circuit design error, an electrical circuit design error can be considered. The design error of the electric circuit is, for example, a calculation error of delay time or a design error of the power supply circuit to the logic circuit.
<エラー発生の状況>
ハードウェアが破壊された場合には一般に障害は固定的に発生するが、電気回路の設計ミスの場合には、障害が固定的に発生するとは限らず、不定期に発生することも多い。
<Status of error occurrence>
When hardware is destroyed, a failure generally occurs in a fixed manner. However, in the case of an electrical circuit design error, a failure does not always occur in a fixed manner and often occurs irregularly.
また、ハードウェアが破壊された場合、最初から訂正不可能エラーとなるケースと訂正可能エラーになるケースとがある。また、ハードウェアは常に一気に破壊されるとは限らず、最初は訂正可能エラーが何度か発生し、その後、障害が周辺回路に拡散したり固定化したりして、最終的に訂正不可能エラーに変わることが多い。 In addition, when the hardware is destroyed, there are cases where an error becomes uncorrectable from the beginning and cases where a correctable error occurs. Also, the hardware is not always destroyed at once, and at first, a correctable error occurs several times, and then the error diffuses to the peripheral circuit or is fixed, and finally the uncorrectable error It often changes to.
<エラーの再発>
ハードウェアに物理的または電気的破壊が生じた場合、破壊個所を修理すれば障害は発生しなくなるが、製造ミスや設計ミスによって障害が発生するケースでは、一般に該当ハードウェアを交換する等の処置を実施しても障害は再発する。
<Reoccurrence of errors>
If the hardware is physically or electrically damaged, the failure will not occur if the damaged part is repaired. However, if the failure occurs due to a manufacturing error or a design error, the appropriate hardware is generally replaced. The failure will recur even if
なお、論理回路の設計ミスの場合には、原則、固定障害となり、ハードウェアの該当個所を修理または交換しても障害は再発する。 In the case of a logic circuit design error, in principle, it becomes a fixed failure, and the failure reoccurs even if the relevant part of the hardware is repaired or replaced.
情報通信システムに論理回路の設計ミス以外の設計ミスや製造ミスが混入されているケースにおいては、ミスの内容によっては、一定期間は訂正可能エラーが発生し、その後、訂正不可能エラーになることは多いと想定される。プログラムの実行環境や情報通信システムの電源電圧変動の環境によっては、このようなことが多く発生することは推察される。よって、ハードウェアの修理処置(実際にはハードウェア破壊ではないため、修理できない。破壊したと思われる個所のハードウェアを交換しても原因は残っている)後に再実行した場合には、再度同じような環境でプログラムが実行されて、上記現象が再発することが推察される。即ち、一定回数の訂正可能エラーが発生した後に訂正不可能エラーとなる。 In cases where a design error or manufacturing error other than a logic circuit design error is mixed in the information communication system, a correctable error occurs for a certain period of time, depending on the content of the error, and then an uncorrectable error occurs. It is assumed that there are many. Depending on the program execution environment and the power supply voltage fluctuation environment of the information communication system, it is presumed that this often occurs. Therefore, if it is re-executed after a hardware repair procedure (in fact, it is not hardware destruction, it cannot be repaired. The cause remains even after replacing the hardware where it appears to have been destroyed). It is presumed that the above phenomenon recurs when the program is executed in the same environment. That is, an uncorrectable error occurs after a certain number of correctable errors have occurred.
訂正不可能エラーが発生する前に訂正可能エラーの発生状況を捉えて設計変更や代替処置等を実施できれば、重大障害を未然に防止することが可能である。 If it is possible to grasp the situation of the occurrence of the correctable error before the occurrence of the uncorrectable error and implement a design change or an alternative measure, a serious failure can be prevented in advance.
例えば、論理回路の論理ブロック(ANDやORやNAND等)を構成する半導体素子間を接続する配線の幅が設計値より狭く製造され、かつ製造テストをパスして情報通信システムに組み込まれた場合、実際にシステムとして稼動した時に、半導体素子や配線にたまたま過電流が流れると、まず1個所が破壊されて(エラー検出/訂正回路(ECC)がデータに1ビットエラーを検出したが、データを修正した)、訂正可能エラーが発生する。 For example, when the width of the wiring connecting the semiconductor elements constituting the logic block (AND, OR, NAND, etc.) of the logic circuit is manufactured to be narrower than the design value, and passes the manufacturing test and is incorporated into the information communication system When an overcurrent happens to flow in a semiconductor element or wiring when actually operating as a system, one location is destroyed first (the error detection / correction circuit (ECC) detected a 1-bit error in the data, A correctable error occurs.
この結果はログされて利用者に報告されるが、情報通信システムは停止する訳ではない。時間が経過して、前記1個所のハードウェア破壊が継続している状態では、訂正可能エラーが頻発することになる。 This result is logged and reported to the user, but the information communication system does not stop. In a state in which the hardware destruction at one place continues over time, correctable errors frequently occur.
半導体素子や配線が疲労すると、ハードウェア破壊が周辺に波及して、複数個所でハードウェア破壊が発生することになる。ある特定のエラー検出/訂正回路がデータの複数ビットエラーを検出すると、訂正不可能エラーが発生し、情報通信システムは停止することになる。(複数のエラー検出/訂正回路が、それぞれデータの1ビットエラーを検出してもシステムはダウンしない。)
しかし、訂正不可能エラーが発生する前に、即ち、ハードウェア破壊が拡散する前に、エラーログを参照して、該当ハードウェアを交換すれば、訂正不可能エラーは発生せず、情報通信システムは停止することはない。
When semiconductor elements and wiring are fatigued, hardware destruction spreads to the periphery, and hardware destruction occurs at a plurality of locations. When a specific error detection / correction circuit detects a multi-bit error in data, an uncorrectable error occurs and the information communication system stops. (The system does not go down even if a plurality of error detection / correction circuits each detect a 1-bit error in data.)
However, before the uncorrectable error occurs, that is, before the hardware destruction spreads, if the corresponding hardware is replaced with reference to the error log, the uncorrectable error does not occur, and the information communication system Will never stop.
次に、訂正不可能エラーが発生する前に該当ハードウェアを交換する場合を考慮する。訂正可能エラーが発生した場合、エラー情報がエラーログに登録され、端末を通じて利用者(保守者)にアラームが通知され、利用者はエラーログの内容を見て、該当するパッケージを保守用パッケージと交換することになる。ハードウェア交換は1個または複数個のLSIが実装されたパッケージの単位で行われる。 Next, consider the case where the corresponding hardware is replaced before an uncorrectable error occurs. When a correctable error occurs, error information is registered in the error log, an alarm is notified to the user (maintenance person) through the terminal, the user looks at the contents of the error log, and the corresponding package is designated as a maintenance package. Will be replaced. Hardware replacement is performed in units of packages in which one or a plurality of LSIs are mounted.
保守用パッケージは使用していたパッケージと同一製造ロットで製造されることは通常あり得ることであるので、保守用パッケージと使用していたパッケージとは同一の製造誤差で製造されていることが普通である。即ち、例えば、使用していたパッケージのLSI内配線幅が設計値より狭く製造されている場合には、保守用パッケージも同様の製造品質になっている。ただ、保守用パッケージは未使用であるので、未だハードウェア破壊は発生していない。訂正可能エラーがかなりの回数発生した後に、ハードウェア破壊が周辺へ拡散して、遂には訂正不可能エラーになる(製造テストをパスしているので、かなりの時間が経過し、訂正可能エラーがかなりの回数発生しないと、破壊は周辺に拡散しない)が、保守用パッケージと使用していたパッケージは未使用の状態では同様の製造品質であるため、保守用パッケージと使用していたパッケージの訂正不可能エラーが発生する前に発生する訂正可能エラーの回数は、同一になることは珍しくない。 Since maintenance packages are usually manufactured in the same production lot as the package used, the maintenance package and the package used are usually manufactured with the same manufacturing error. It is. That is, for example, when the in-LSI wiring width of the used package is manufactured to be narrower than the design value, the maintenance package has the same manufacturing quality. However, since the maintenance package is not used, hardware destruction has not yet occurred. After a significant number of correctable errors, hardware corruption spreads to the periphery and eventually becomes an uncorrectable error (because it has passed manufacturing test, a considerable amount of time has passed and the correctable error has If it does not occur a significant number of times, the destruction will not spread to the surroundings), but the maintenance package and the package used were of the same manufacturing quality when not used, so the maintenance package and the package used were corrected. It is not uncommon for the number of correctable errors that occur before an impossible error occurs to be the same.
<訂正可能エラーが多重に発生したとき>
次に訂正可能エラーが複数個所で発生した場合の情報通信システムの処理について述べる。
<When multiple correctable errors occur>
Next, processing of the information communication system when correctable errors occur at a plurality of locations will be described.
エラー検出回路は、情報通信システム内の主要な回路のデータをチェックするために、情報通信システム内の多数の個所に設定されている。一般に障害は情報通信システム内の1個所で発生し、複数個所で同時に発生することはまれである。訂正可能エラーが複数個所で同時に発生することも同様にまれである。また、訂正可能エラーが複数個所で同時に発生しても個々にエラーデータは訂正されるため、誤った処理を行うことはないが、障害が拡散して訂正不可能エラーに変わることもある。 The error detection circuit is set in many places in the information communication system in order to check the data of the main circuit in the information communication system. In general, a failure occurs at one place in the information communication system, and rarely occurs at a plurality of places at the same time. It is equally rare for correctable errors to occur simultaneously at multiple locations. Further, even if correctable errors occur simultaneously at a plurality of locations, the error data is individually corrected, so that erroneous processing is not performed, but the failure may be diffused to change to an uncorrectable error.
従来の障害処理システムの一例が特許文献1に記載されている。この従来の障害処理システムは、訂正可能エラーの発生回数が一定時間内に予め定められた設定回数になったときに障害処理を行う。この設定回数は、ユーザーが過去の経験から適切と判断する回数を定めて障害処理システムに入力しておく必要がある。
An example of a conventional failure handling system is described in
上述した従来の障害処理システムにおいては、障害処理を行うまでの訂正可能エラー発生許容回数を自動設定する手段がないため、ユーザーが定めて入力する手間を必要とするという問題点があった。 In the above-described conventional failure processing system, there is no means for automatically setting the allowable number of correctable error occurrences until failure processing is performed, and thus there is a problem in that it takes time and effort to determine and input by the user.
本発明の目的は、上述した従来の課題である、障害処理を行うまでの訂正可能エラー発生許容回数をユーザーが定めて入力する手間を必要とすることを解決する障害処理システム、障害処理方法、障害処理装置およびプログラムを提供することにある。 The object of the present invention is the above-described conventional problem, a failure processing system, a failure processing method that solves the need for the user to set and input a correctable error occurrence allowable number of times until failure processing is performed, To provide a failure processing apparatus and a program.
本発明の第1の障害処理システムは、情報通信システムと障害処理装置とを備え、
前記障害処理装置は、前記情報通信システムの特定個所で訂正不可能エラーが発生する前に発生する訂正可能エラー発生回数を計数する手段と、
計数値に基づいて閾値を設定する設定手段と、
前記特定個所を修復した後に、前記特定個所での訂正可能エラー発生回数が前記閾値と一致したときに前記情報通信システムに対して通知を行う通知手段とを有することを特徴とする。
The first failure handling system of the present invention comprises an information communication system and a failure handling device,
The failure processing apparatus is configured to count a correctable error occurrence number that occurs before an uncorrectable error occurs at a specific location in the information communication system;
Setting means for setting a threshold based on the count value;
And a notification means for notifying the information communication system when the number of correctable errors occurring at the specific location matches the threshold value after the specific location is repaired.
本発明の第2の障害処理システムは、第1の障害処理システムにおいて、前記設定手段は、前記閾値として前記計数値から1を減じた値とすることを特徴とする。 According to a second failure processing system of the present invention, in the first failure processing system, the setting means sets a value obtained by subtracting 1 from the count value as the threshold value.
本発明の第3の障害処理システムは、第1または2の障害処理システムにおいて、前記通知が前記情報通信システムに対するシステム停止指示であることを特徴とする。 The third failure processing system according to the present invention is characterized in that, in the first or second failure processing system, the notification is a system stop instruction to the information communication system.
本発明の第4の障害処理システムは、第1、2または3の障害処理システムにおいて、前記通知手段は、訂正可能エラーが前記情報通信システムの複数個所で発生した場合に前記情報通信システムにシステム停止警告を発行することを特徴とする。 According to a fourth failure processing system of the present invention, in the first, second, or third failure processing system, the notifying unit includes a system in the information communication system when a correctable error occurs at a plurality of locations in the information communication system. It is characterized by issuing a stop warning.
本発明の第5の障害処理システムは、第1、2、3または4の障害処理システムにおいて、前記障害処理装置は、障害報告生成手段とテーブル記憶手段と違約金生成手段とを有し、
障害報告生成手段は、前記情報通信システムで発生した障害を重要度に応じた障害レベルを付与して前記違約金生成手段に報告し、
前記テーブル記憶手段は、障害レベルと障害ポイントとの対応を規定する障害ポイント算出テーブルと障害ポイント合計と違約金額との対応を規定する違約金額算出テーブルとを格納し、
前記違約金生成手段は、前記障害報告生成手段から入手した障害報告と前記テーブル記憶手段から読み出した前記障害ポイント算出テーブルおよび前記違約金額算出テーブルとに基づいて発生障害に対応した違約金額を算出することを特徴とする。
According to a fifth failure processing system of the present invention, in the first, second, third, or fourth failure processing system, the failure processing apparatus includes a failure report generation unit, a table storage unit, and a penalty generation unit,
The failure report generation means gives a failure level according to the importance to the failure that occurred in the information communication system, and reports it to the penalty generation means,
The table storage means stores a failure point calculation table that defines the correspondence between the failure level and the failure point, and a penalty amount calculation table that defines the correspondence between the failure point total and the penalty amount,
The penalty generation means calculates a penalty amount corresponding to the fault that has occurred based on the failure report obtained from the failure report generation means, the failure point calculation table read from the table storage means, and the penalty amount calculation table. It is characterized by that.
本発明の第1の障害処理方法は、障害処理装置が、情報通信システムの特定個所で訂正不可能エラーが発生する前に発生する訂正可能エラー発生回数を計数するステップと、
前記障害処理装置が、計数値に基づいて閾値を設定するステップと、
前記障害処理装置が、前記特定個所を修復した後に、前記特定個所での訂正可能エラー発生回数が前記閾値と一致したときに前記情報通信システムに対して通知を行うステップとを有することを特徴とする。
The first failure processing method of the present invention is a step in which the failure processing apparatus counts the number of correctable errors that occur before an uncorrectable error occurs at a specific location in the information communication system;
The failure processing device sets a threshold based on a count value;
The failure processing apparatus comprises a step of notifying the information communication system when the number of correctable errors occurring at the specific location matches the threshold value after repairing the specific location. To do.
本発明の第2の障害処理方法は、第1の障害処理方法において、前記閾値として前記計数値から1を減じた値とすることを特徴とする。 A second failure processing method according to the present invention is characterized in that, in the first failure processing method, a value obtained by subtracting 1 from the count value is used as the threshold value.
本発明の第3の障害処理方法は、第1または2の障害処理方法において、前記通知が前記情報通信システムに対するシステム停止指示であることを特徴とする。 According to a third failure processing method of the present invention, in the first or second failure processing method, the notification is a system stop instruction to the information communication system.
本発明の第4の障害処理方法は、第1、2または3の障害処理方法において、前記障害処理装置が、訂正可能エラーが前記情報通信システムの複数個所で発生した場合に前記情報通信システムにシステム停止警告を発行するステップを有することを特徴とする。 According to a fourth failure processing method of the present invention, in the first, second, or third failure processing method, when the failure processing device causes a correctable error to occur in a plurality of locations of the information communication system, It has the step which issues a system stop warning.
本発明の第5の障害処理方法は、第1、2、3または4の障害処理方法において、前記障害処理装置が、前記情報通信システムで発生した障害を重要度に応じた障害レベルを付与して障害報告を生成するステップと、
前記障害処理装置が、障害レベルと障害ポイントとの対応を規定する障害ポイント算出テーブルと障害ポイント合計と違約金額との対応を規定する違約金額算出テーブルとをテーブル記憶手段に格納するステップと、
前記障害処理装置が、前記障害報告と前記テーブル記憶手段から読み出した前記障害ポイント算出テーブルおよび前記違約金額算出テーブルとに基づいて発生障害に対応した違約金額を算出するステップとを有することを特徴とする。
According to a fifth failure processing method of the present invention, in the first, second, third, or fourth failure processing method, the failure processing apparatus assigns a failure level corresponding to the importance to a failure that has occurred in the information communication system. Generating a trouble report with
The failure processing apparatus stores in a table storage means a failure point calculation table that defines a correspondence between a failure level and a failure point, and a penalty amount calculation table that defines a correspondence between a failure point total and a penalty amount;
The failure processing apparatus includes a step of calculating a penalty amount corresponding to a failure that has occurred based on the failure report and the failure point calculation table and the penalty amount calculation table read from the table storage unit. To do.
本発明の第1の障害処理装置は、情報通信システムに接続された障害処理装置であって、
前記情報通信システムの特定個所で訂正不可能エラーが発生する前に発生する訂正可能エラー発生回数を計数する手段と、
計数値に基づいて閾値を設定する設定手段と、
前記特定個所を修復した後に、前記特定個所での訂正可能エラー発生回数が前記閾値と一致したときに前記情報通信システムに対して通知を行う通知手段とを有することを特徴とする。
A first failure processing apparatus of the present invention is a failure processing apparatus connected to an information communication system,
Means for counting the number of correctable errors occurring before an uncorrectable error occurs at a specific location of the information communication system;
Setting means for setting a threshold based on the count value;
And a notification means for notifying the information communication system when the number of correctable errors occurring at the specific location matches the threshold value after the specific location is repaired.
本発明の第2の障害処理装置は、第1の障害処理装置において、前記設定手段は、前記閾値として前記計数値から1を減じた値とすることを特徴とする。 According to a second failure processing apparatus of the present invention, in the first failure processing apparatus, the setting means sets a value obtained by subtracting 1 from the count value as the threshold value.
本発明の第3の障害処理装置は、第1または2の障害処理装置において、前記通知が前記情報通信システムに対するシステム停止指示であることを特徴とする。 According to a third failure processing apparatus of the present invention, in the first or second failure processing apparatus, the notification is a system stop instruction for the information communication system.
本発明の第4の障害処理装置は、第1、2または3の障害処理装置において、前記通知手段は、訂正可能エラーが前記情報通信システムの複数個所で発生した場合に前記情報通信システムにシステム停止警告を発行することを特徴とする。 According to a fourth failure processing apparatus of the present invention, in the first, second, or third failure processing apparatus, the notifying unit includes a system in the information communication system when a correctable error occurs at a plurality of locations in the information communication system. It is characterized by issuing a stop warning.
本発明の第5の障害処理装置は、第1、2、3または4の障害処理装置において、障害報告生成手段とテーブル記憶手段と違約金生成手段とを有し、
障害報告生成手段は、前記情報通信システムで発生した障害を重要度に応じた障害レベルを付与して前記違約金生成手段に報告し、
前記テーブル記憶手段は、障害レベルと障害ポイントとの対応を規定する障害ポイント算出テーブルと障害ポイント合計と違約金額との対応を規定する違約金額算出テーブルとを格納し、
前記違約金生成手段は、前記障害報告生成手段から入手した障害報告と前記テーブル記憶手段から読み出した前記障害ポイント算出テーブルおよび前記違約金額算出テーブルとに基づいて発生障害に対応した違約金額を算出することを特徴とする。
According to a fifth failure processing apparatus of the present invention, in the first, second, third, or fourth failure processing apparatus, a failure report generation unit, a table storage unit, and a penalty generation unit are provided.
The failure report generation means gives a failure level according to the importance to the failure that occurred in the information communication system, and reports it to the penalty generation means,
The table storage means stores a failure point calculation table that defines the correspondence between the failure level and the failure point, and a penalty amount calculation table that defines the correspondence between the failure point total and the penalty amount,
The penalty generation means calculates a penalty amount corresponding to the fault that has occurred based on the failure report obtained from the failure report generation means, the failure point calculation table read from the table storage means, and the penalty amount calculation table. It is characterized by that.
本発明の第1のプログラムは、情報通信システムの特定個所で訂正不可能エラーが発生する前に発生する訂正可能エラー発生回数を計数する処理と、
計数値に基づいて閾値を設定する処理と、
前記特定個所を修復した後に、前記特定個所での訂正可能エラー発生回数が前記閾値と一致したときに前記情報通信システムに対して通知を行う処理とをコンピュータに実行させることを特徴とする。
The first program of the present invention is a process for counting the number of correctable errors occurring before an uncorrectable error occurs in a specific part of the information communication system,
Processing to set a threshold based on the count value;
After the specific location is repaired, the computer is caused to execute a process of notifying the information communication system when the number of correctable errors occurring at the specific location matches the threshold value.
本発明の第2のプログラムは、第1のプログラムにおいて、前記閾値として前記計数値から1を減じた値とすることを特徴とする。 The second program of the present invention is characterized in that, in the first program, the threshold value is a value obtained by subtracting 1 from the count value.
本発明の第3のプログラムは、第1または2のプログラムにおいて、前記通知が前記情報通信システムに対するシステム停止指示であることを特徴とする。 According to a third program of the present invention, in the first or second program, the notification is a system stop instruction to the information communication system.
本発明の第4のプログラムは、第1、2または3のプログラムにおいて、訂正可能エラーが前記情報通信システムの複数個所で発生した場合に前記情報通信システムにシステム停止警告を発行する処理をコンピュータに実行させることを特徴とする。 According to a fourth program of the present invention, in the first, second, or third program, a process for issuing a system stop warning to the information communication system when a correctable error occurs in a plurality of locations of the information communication system It is made to perform.
本発明の第5のプログラムは、第1、2、3または4のプログラムにおいて、前記情報通信システムで発生した障害を重要度に応じた障害レベルを付与して障害報告を生成する処理と、
障害レベルと障害ポイントとの対応を規定する障害ポイント算出テーブルと障害ポイント合計と違約金額との対応を規定する違約金額算出テーブルとをテーブル記憶手段に格納する処理と、
前記障害報告と前記テーブル記憶手段から読み出した前記障害ポイント算出テーブルおよび前記違約金額算出テーブルとに基づいて発生障害に対応した違約金額を算出する処理とをコンピュータに実行させることを特徴とする。
According to a fifth program of the present invention, in the first, second, third, or fourth program, a process of generating a fault report by assigning a fault level corresponding to the importance to a fault that has occurred in the information communication system;
Processing for storing in the table storage means a failure point calculation table that defines the correspondence between the failure level and the failure point, and a penalty amount calculation table that defines the correspondence between the failure point total and the penalty amount;
A computer is caused to execute processing for calculating a penalty amount corresponding to a fault that has occurred based on the failure report and the failure point calculation table and the penalty amount calculation table read from the table storage means.
本発明は、訂正不可能エラーが発生するまでに発生した訂正可能エラーの回数から一定数を引き算した値を、次の訂正可能エラー発生許容回数閾値として記憶することにより、訂正可能エラー発生許容回数をユーザーが定めて入力する手間を不要とする効果がある。 The present invention stores a value obtained by subtracting a certain number from the number of correctable errors that have occurred before an uncorrectable error has occurred, and stores the value as the next correctable error generation allowable threshold, thereby allowing the correctable error generation allowable number of times. This eliminates the need for the user to enter and enter
本発明を実施するための最良の形態について図面を参照して詳細に説明する。図1は本発明の第1の実施の形態の全体構成を示すブロック図である。図1を参照すると、第1の実施の形態は、対象システム10、情報通信ネットワーク20、障害処理装置30を含む。
The best mode for carrying out the present invention will be described in detail with reference to the drawings. FIG. 1 is a block diagram showing the overall configuration of the first embodiment of the present invention. Referring to FIG. 1, the first embodiment includes a
対象システム10は、障害処理の対象となるコンピュータシステムであり、情報通信システム11、情報通信システム12を含む。情報通信システム11、情報通信システム12はそれぞれエラー検出回路110、120を含む。エラー検出回路110、120は、障害を検出した個所と、障害の種類(訂正可能エラー、訂正不可能エラー)とを通知する。対象システム10が含む情報通信システムの数は、図1では2であるが、2に限定されず、3以上でも1でもよい。
The
情報通信ネットワーク20は、対象システム10と障害処理装置30を接続する通信回線である。
The
障害処理装置30は、情報通信システム11、12から報告される障害情報を受信して、受信した障害情報に対応した処理を行う装置であって、記憶手段310、システム停止通知手段360、障害報告生成手段370を含む。障害処理装置30はさらに、書込読出制御手段321などを含むが、図2に詳細を記載し、図1では省略している。
The
記憶手段310は、対象システムである情報通信システム11、12から報告される障害情報を記憶。記憶手段310としては、たとえば、SRAM(Static Random Access Memory)等、電源断、再起動しても記憶内容が消えないものを使用する。
The
システム停止通知手段360は、記憶手段310から読み出された障害情報を解析し、対象システムである情報通信システム11、12へ、システム停止の警告またはシステム停止の指示を送信する。
The system
障害報告生成手段370は、記憶手段310から読み出された内容に基づいて、障害の重要度等を解析し、重要度に応じた障害レベルを決定する。
The failure
図2は、障害処理装置30の詳細構成図である。図2を参照すると、障害処理装置30は、記憶手段310、書込読出制御手段321、アドレス選択手段322、AND回路325、カウント回路331、332、334、335、選択手段341、342、343、344、345、非ゼロ検出手段351、比較手段352、反転回路353、検出手段354、355、システム停止通知手段360、障害報告生成手段370を含む。
FIG. 2 is a detailed configuration diagram of the
記憶手段310は、複数のワード(語)で構成され、かつ、5つのセグメントに分けられ、情報通信システム11、12から送信された障害情報を記憶する。ここでは記憶される障害情報は、訂正可能エラーと訂正不可能エラーとしている。また、各ワードは、情報通信システム11、12の障害発生個所(エラー検出回路110、120が障害を検出した個所)に対応しており、所定のワードに所定の数値が格納された場合、障害が発生した個所が判別できることになる。記憶手段310の5つのセグメントとは、CE発生回数部311、CE閾値部312、CE閾値有効ビット313、CE発生回数累計部314、および、UE発生回数累計部315であり、それぞれ、訂正可能エラーの発生回数、訂正可能エラーの発生の許容値を示す閾値、前記閾値の値が有効であることを示すビット、訂正可能エラーの発生回数の累計値、訂正不可能エラーの発生回数の累計値を記憶している。
CE発生回数部311は、訂正可能エラーの発生回数を訂正不可能エラーが発生する迄記憶する。訂正不可能エラーが発生すると、前記CE発生回数部311の内容は、CE閾値部312に記憶された後に、0にクリアされる。
The storage means 310 is composed of a plurality of words (words), is divided into five segments, and stores failure information transmitted from the
The CE occurrence count section 311 stores the number of correctable error occurrences until an uncorrectable error occurs. When an uncorrectable error occurs, the contents of the CE occurrence number part 311 are cleared to 0 after being stored in the CE
なお、記憶手段310の5つの各セグメントは、上記の記憶のほかに、訂正可能エラーの発生時刻、訂正不可能エラーの発生時刻を記憶する構成としても良い。
Each of the five segments of the
書込読出制御手段321は、記憶手段310の各セグメントへの書込み読出しを制御する。書込みの指示は次の通りである。訂正可能エラーが報告された場合に、CE発生回数部311およびCE発生回数累計部314に対する書込み指示を行う。訂正不可能エラーが報告された時にCE発生回数部311の値が0で、かつ、CE閾値有効ビット313が0の場合に、CE閾値部312およびCE閾値有効ビット313に対する書込み指示を行う。訂正不可能エラーが報告された場合に、UE発生回数累計部315に対する書込み指示を行う。比較手段352の出力が所定の値の場合に、CE発生回数部311およびCE閾値有効ビット313に対する書込み指示を行う(0にクリア)。初期設定時に、CE発生回数部311、CE閾値有効ビット313、CE発生回数累計部314、および、UE発生回数累計部315に対する書込み指示を行う(0にクリア)。
The writing /
アドレス選択手段322は、障害報告時に情報通信システム11、12から送信される障害個所情報に従って、記憶手段310のワードを選択する機能を有する。障害個所情報の値は、そのまま記憶手段310のワードを指定する。即ち、情報通信システム11、12内の障害発生個所と記憶手段310のワードは、1対1に対応する。更に、アドレス選択手段322は、記憶手段310の全ワードをスキャンする時に、全ワードを選択する機能も有する。
The
カウント回路331は、CE発生回数部311に記憶された値に1を加算する機能を有する。カウント回路332は、CE発生回数部311に記憶された値から1を引き算する機能を有する。カウント回路334は、CE発生回数累計部314に記憶された値に1を加算する機能を有する。カウント回路335は、UE発生回数累計部315に記憶された値に1を加算する機能を有する。
The
選択手段341は、カウント回路331または0を選択する。選択手段342は、カウント回路332または1を選択する。選択手段343は、AND回路325または0を選択する。選択手段344は、カウント回路334または0を選択する。
The
選択手段345は、カウント回路335または0を選択する。
The
比較手段352は、CE発生回数部311に記憶された値とCE閾値部312に記憶された値を比較し、比較結果を障害報告生成手段370に報告し、前記両値が一致した場合は、システム停止通知手段360経由でシステム停止指示信号を情報通信システム11、12に対して発行する。
The
検出手段354は、CE発生回数累計部314の各ワードを読み出して、1以上の値を含むワードが複数あるかを検出し、結果を障害報告生成手段370に報告し、1以上の値を含むワードが複数ある場合に、システム停止通知手段360経由でシステム停止警告信号を情報通信システム11、12に対して発行する。
The detecting
検出手段355は、UE発生回数累計部315の各ワードを読み出して、1以上の値を含むワードが複数あるかを検出し、結果を障害報告生成手段370に報告する。
The detecting
検出手段356はCE閾値有効ビット313のワードの値を検出する。
The detecting means 356 detects the value of the word of the CE threshold
障害報告生成手段370は、比較手段352、検出手段354および355の出力から障害の重要度を判別し、障害のレベルを付与する。
障害報告(レベル1)は、対象システムの情報通信システム11または12で、訂正可能エラーが1個所で発生したことを示す。
障害報告(レベル2)は、対象システムの情報通信システム11または12で、訂正可能エラーが複数個所で発生したことを示す。
障害報告(レベル3)は、対象システムの情報通信システム11または12における訂正可能エラーの発生回数がCE閾値部312に記憶された値(閾値)と一致したことを示す。
障害報告(レベル4)は、対象システムの情報通信システム11または12で、訂正不可能エラーが1個所で発生したことを示す。
障害報告(レベル5)は、対象システムの情報通信システム11または12で、訂正不可能エラーが複数個所で発生したことを示す。
The failure
The failure report (level 1) indicates that a correctable error has occurred in one place in the
The failure report (level 2) indicates that a plurality of correctable errors have occurred in the
The failure report (level 3) indicates that the number of occurrences of correctable errors in the
The failure report (level 4) indicates that an uncorrectable error has occurred in one place in the
The failure report (level 5) indicates that uncorrectable errors have occurred in a plurality of places in the
なお、本発明の実施の形態の障害処理装置30の動作はコンピュータ・プログラム制御により行わせることが可能である。すなわち、記録媒体に記録したプログラムを障害処理装置30に読み込ませるか、あるいは、ネットワークからプログラムを障害処理装置30に読み込ませて、以下に説明する動作を実行する。
The operation of the
次に、第1の実施の形態の動作について説明する。図3は第1の実施の形態の動作を示すフローチャートである。 Next, the operation of the first embodiment will be described. FIG. 3 is a flowchart showing the operation of the first embodiment.
まず、処理に先立って、書込読出制御手段321およびアドレス選択手段322が、記憶手段310の全ワード、全セグメントに0を書き込む。
First, prior to processing, the write /
書込読出制御手段321は、情報通信システム11、12からのエラー報告で訂正可能エラーが報告されたかを判定し(ステップS1)、訂正可能エラーが報告されていない場合には、次に情報通信システム11、12からのエラー報告で訂正不可能エラーが報告されたか判定し(ステップS2)、訂正不可能エラーが報告されていない場合には、何の処理も行わずに終了する。
The write / read control means 321 determines whether or not a correctable error has been reported in the error report from the
情報通信システム11、12からのエラー報告で訂正不可能エラーが報告されている場合(ステップS2のYes)は、書込読出制御手段321は、記憶手段310のUE発生回数累計部315のアドレス選択手段322が指示するワードを読み出し、カウント回路335により1を加算して、選択手段345を経由してこのワードに書き込む(ステップS3)。
When an uncorrectable error is reported in the error report from the
続いて、書込読出制御手段321は、AND回路325にて、情報通信システム11、12からのエラー報告で訂正不可能エラーが報告されていること、かつ、記憶手段310のCE発生回数部311から読み出された値が0ではないこと、即ち、非ゼロ検出手段351の出力値が1であること、かつ、記憶手段310のCE閾値有効ビット313から読み出された値が0であること、即ち、反転回路353の出力の値が1であることを判定する(ステップS4)。ステップS4でAND回路325の出力が1の場合、書込読出制御手段321は、記憶手段310のCE閾値有効ビット313のアドレス選択手段322が指示するワードに1をセットし(ステップS5)、カウント回路332にて記憶手段310のCE発生回数部311のアドレス選択手段322が指示するワードから読み出された値から1を引き算して、選択手段342を経由して記憶手段310のCE閾値部312のアドレス選択手段322が指示するワードに書き込む(ステップS6)。
Subsequently, the write / read control means 321 indicates that the AND
次に、書込読出制御手段321は、アドレス選択手段322の指示によって、記憶手段310のUE発生回数累計部315の全ワードを読み出して、検出手段355に供給する。検出手段355は、UE発生回数累計部315から読み出された全ワードの中に1以上の値を含むワードがあるかを判定する(ステップS7)。検出手段355で1以上の値を含むワードが1語であることが検出された場合には、障害報告生成手段370は、レベル4の障害報告を生成する(ステップS8)。ステップS7で検出手段355で1以上の値を含むワードが複数あることが検出された場合には、障害報告生成手段370は、レベル5の障害報告を生成する(ステップS9)。
Next, the write /
書込読出制御手段321は、情報通信システム11、12からのエラー報告で訂正可能エラーが報告されたかを判定して、訂正可能エラーが報告されている場合には(ステップS1のYes)、書込読出制御手段321は、記憶手段310のCE発生回数部311のアドレス選択手段322が指示するワードを読み出して、カウント回路331により1を加算して、選択手段341を経由してこのワードに書き込む(ステップS11)。さらに、書込読出制御手段321は、記憶手段310のCE発生回数累計部314のアドレス選択手段322が指示するワードを読み出して、カウント回路334により1を加算して、選択手段344を経由してこのワードに書き込む(ステップS12)。
The write / read control means 321 determines whether a correctable error has been reported in the error report from the
次に、書込読出制御手段321は、記憶手段310のCE閾値有効ビット313のアドレス選択手段322が指示するワードの値を検出手段356にて判定し(ステップS13)、CE閾値有効ビット313のアドレス選択手段322が指示するワードの値が1の場合は、書込読出制御手段321は、記憶手段310のCE発生回数部311のアドレス選択手段322が指示するワード内の値と、記憶手段310のCE閾値部312のアドレス選択手段322が指示するワード内の値を、比較手段352により比較し(ステップS14)、両者が一致するか否かを判定する(ステップS15)。ステップS13でワードの値が1ということは、そのワードが示す個所を交換、修理等により修復していることを表している。
Next, the write / read control means 321 determines the value of the word indicated by the address selection means 322 of the CE threshold
記憶手段310のCE閾値有効ビット313のアドレス選択手段322が指示するワードの値が0の場合(ステップS13のNo)、および、記憶手段310のCE発生回数部311のアドレス選択手段322が指示するワード内の値と、記憶手段310のCE閾値部312のアドレス選択手段322が指示するワード内の値が一致しなかった場合(ステップS15のNo)、書込読出制御手段321は、アドレス選択手段322の指示によって、記憶手段310のCE発生回数累計部314の全ワードを読み出して、検出手段354に供給する。検出手段354は、1以上の値を含むワードが複数あるかを判定し(ステップS16)、検出手段354で1以上の値を含むワードが1語であることが検出された場合には、障害報告生成手段370は、レベル1の障害報告を生成する(ステップS17)。検出手段354で1以上の値を含むワードが複数あることが検出された場合には、検出手段354は、システム停止通知手段360に対して、システム停止警告信号を通知し、システム停止通知手段360は、情報通信システム11、12に対して、システム停止警告信号を発行し(ステップS18)、障害報告生成手段370は、レベル2の障害報告を生成する(ステップS19)。
When the value of the word indicated by the address selection means 322 of the CE threshold
記憶手段310のCE発生回数部311のアドレス選択手段322が指示するワード内の値と、記憶手段310のCE閾値部312のアドレス選択手段322が指示するワード内の値が一致した場合(ステップS15のYes)、書込読出制御手段321は、記憶手段310のCE閾値有効ビット313のアドレス選択手段322が指示するワードを0にクリアし(ステップS20)、記憶手段310のCE発生回数部311のアドレス選択手段322が指示するワードを0にクリアする(ステップS21)。
When the value in the word instructed by the address selection means 322 of the CE occurrence count section 311 of the storage means 310 matches the value in the word instructed by the address selection means 322 of the CE
続いて、比較手段352は、システム停止通知手段360に対して、システム停止指示信号を通知し、システム停止通知手段360は、情報通信システム11、12に対して、システム停止指示信号を発行し(ステップS22)、障害報告生成手段370は、レベル3の障害報告を生成する(ステップ23)。
Subsequently, the
ここで、情報通信システム11、12に対して発行するシステム停止警告信号とシステム停止指示信号について説明する。システム停止通知手段360は、訂正可能エラーが複数個所で同時に発生した場合には、システム停止警告信号を発行し、訂正可能エラーの発生回数が閾値を超えようとする場合には、その直前にシステム停止指示信号を発行する。システム停止警告信号よりシステム停止指示信号の方が、より重大な障害が発生したことを表示するものである。ただし、この2つの信号をどう取り扱うかは、対象システム10である情報通信システム11、12の判断による。
Here, a system stop warning signal and a system stop instruction signal issued to the
上記説明では、閾値として、訂正不可能エラーが発生する前に発生した訂正可能エラー発生回数から1を減じた値としている。従って、訂正不可能エラーが発生する前に発生する訂正可能エラー発生回数が同じ値になる状況であれば、システム停止指示信号発行時には訂正可能エラーがあと1回発生してもよいだけの余裕があることになる。ここで減じる値は1の他に0または1以上の値を適宜設定することができる。 In the above description, the threshold is a value obtained by subtracting 1 from the number of correctable errors that occurred before the occurrence of an uncorrectable error. Therefore, if the number of correctable errors that occur before an uncorrectable error occurs has the same value, there is room for another correctable error to occur when the system stop instruction signal is issued. There will be. The value to be reduced here can be set to 0 or 1 or more as appropriate in addition to 1.
また、上記説明では、1回の計数値で閾値を決定するようにしているが、複数回の計数値に基づいて閾値を決定するようにしてもよい。 In the above description, the threshold value is determined based on a single count value. However, the threshold value may be determined based on a plurality of count values.
第1の実施の形態によれば、訂正不可能エラーが発生するまでに発生した訂正可能エラーの回数から一定数を引き算した値を、次の訂正可能エラー発生許容回数閾値として記憶することにより、訂正可能エラー発生許容回数をユーザーが定めて入力する手間を不要とする効果がある。 According to the first embodiment, by storing a value obtained by subtracting a certain number from the number of correctable errors that have occurred until an uncorrectable error occurs, as the next correctable error occurrence allowable threshold value, This has the effect of eliminating the need for the user to enter and input the allowable number of correctable error occurrences.
また、訂正可能エラーが複数個所で同時に発生した場合、システム停止警告信号を対象システムに対して発行することにより、訂正不可能エラーが発生する前に、障害を除去できる効果がある。 In addition, when correctable errors occur simultaneously at a plurality of locations, a failure can be eliminated before an uncorrectable error occurs by issuing a system stop warning signal to the target system.
次に本発明の第2の実施の形態について説明する。情報通信システムを業者がユーザーに納入した場合、一般に何らかの形でシステムの維持管理業務および運営支援業務を行う。前述したように、例えば、PFI事業で情報通信システムを納入した場合には、ユーザーからの委託を受けて最長30年間にわたり、維持管理および運営支援を行うことになっている。 Next, a second embodiment of the present invention will be described. When an information communication system is delivered to a user by a supplier, the system is generally maintained and managed in some form. As described above, for example, when an information communication system is delivered in a PFI business, maintenance and operation support is performed for up to 30 years upon entrustment from a user.
納入業者とユーザー間で締結される委託契約書においては、維持管理業務および運営支援業務の内容、この業務遂行に対する納入業者への支払い金額、委託期間、そして、この業務を規定通りに実施できなかった場合のペナルティ、即ち、違約金の算出方法および額等が決められている。 In the consignment contract concluded between the supplier and the user, the contents of the maintenance and operation support operations, the payment amount to the supplier for the execution of this operation, the consignment period, and this operation cannot be performed as prescribed. In other words, the penalty, that is, the penalty calculation method and amount, etc. are determined.
違約金の算出方法に着目すると、ユーザーはモニタリング(契約書に従い適正かつ確実なサービスの提供の確保がなされているかどうかを確認する手段)を実施して、適正な対価を支払うか、違約金の支払いを求めるかを決定する。モニタリングでは、ユーザーによって、情報通信システムの稼働に関する性能、操作性、障害発生状況、書類の整備状況等が確認されるが、業者から正確な情報が提供されない限り、正確なモニタリングが実施できない項目がある。例えば、障害の報告に関して言えば、過去に障害の予兆があり、障害が発生する前に処置すれば救済できるが、業者が処置を怠り障害が発生しシステムが停止すれば、ユーザーに大きな損失を与えることになる。この状況は納入業者が報告しない限り、ユーザー自身で判断することは非常に困難であり、従来の欠点であった。第2の実施の形態は、上記欠点を解決するための一方式である。 Focusing on the penalty calculation method, the user conducts monitoring (means to confirm whether the provision of appropriate and reliable services is made in accordance with the contract) and pays the appropriate price, Decide whether to ask for payment. In monitoring, the performance, operability, failure occurrence status, document maintenance status, etc. related to the operation of the information communication system are checked by the user, but there are items that cannot be accurately monitored unless accurate information is provided by the contractor. is there. For example, when reporting a failure, there is a sign of a failure in the past, and it can be remedied by taking action before the failure occurs. Will give. Unless the supplier reports this situation, it is very difficult for the user to judge it, which is a conventional drawback. The second embodiment is a method for solving the above-described drawbacks.
図4は、第2の実施の形態の全体構成を示すブロック図である。図4を参照すると、第2の実施の形態は、第1の実施の形態の構成(図1)に加えて、違約金生成手段380、テーブル記憶手段390を含む。テーブル記憶手段390は、障害ポイント算出テーブル391、違約金額算出テーブル392を格納する。
FIG. 4 is a block diagram showing the overall configuration of the second embodiment. Referring to FIG. 4, the second embodiment includes a
図5は、違約金処理を実施するブロック図で、障害報告生成手段370と違約金生成手段380の接続関係を示している。第1の実施の形態で図2を参照して説明したように、障害報告生成手段370は、比較手段352、検出手段354および355の出力から障害の重要度を判別し、障害のレベルを付与する機能を有する。
障害報告(レベル1)は、対象システムの情報通信システム11または12で、訂正可能エラーが1個所で発生したことを示す。
障害報告(レベル2)は、対象システムの情報通信システム11または12で、訂正可能エラーが複数個所で発生したことを示す。
障害報告(レベル3)は、対象システムの情報通信システム11または12における訂正可能エラーの発生回数とCE閾値部312に記憶された値(閾値)と一致したことを示す。
障害報告(レベル4)は、対象システムの情報通信システム11または12で、訂正不可能エラーが1個所で発生したことを示す。
障害報告(レベル5)は、対象システムの情報通信システム11または12で、訂正不可能エラーが複数個所で発生したことを示す。
FIG. 5 is a block diagram for executing penalty processing, and shows a connection relationship between the failure
The failure report (level 1) indicates that a correctable error has occurred in one place in the
The failure report (level 2) indicates that a plurality of correctable errors have occurred in the
The failure report (level 3) indicates that the number of occurrences of correctable errors in the
The failure report (level 4) indicates that an uncorrectable error has occurred in one place in the
The failure report (level 5) indicates that uncorrectable errors have occurred in a plurality of places in the
違約金生成手段380は、障害報告生成手段370から障害報告レベルを受信し、テーブル記憶手段390から読み出したテーブルを参照して違約金の額を生成する機能を有する。
The
図6は、違約金額算出の動作を示すフローチャートである。違約金生成手段380は、障害報告生成手段370から受信した障害報告レベルとテーブル記憶手段390から読み出した障害ポイント算出テーブル391とに基づいて障害ポイント合計を算出する(ステップA1)。図7は、障害ポイント算出テーブル391、違約金額算出テーブル392の内容とこの2つのテーブルの関係とを示す図である。障害ポイント算出テーブル391は、障害報告内容から障害ポイントの合計を算出するためのテーブルで、障害報告内容に対応して1回当たりのポイント(障害が1回発生する場合のポイント)が予め決定されている。例えば、1回当たりのポイントは、障害報告(レベル1)の場合は0、障害報告(レベル3)の場合は5、障害報告(レベル4)の場合は10と決められている。障害発生回数欄の値nは、障害報告生成手段370から送信される値であるが、実際には図2の記憶手段310のCE発生回数累計部314、および、UE発生回数累計部315に記憶されていた値である。即ち、それぞれ、訂正可能エラーの発生回数の累計値、および、訂正不可能エラーの発生回数の累計値である。違約金生成手段380は、1回当たりのポイント欄の値に障害発生回数欄の値nを乗じて、障害ポイント小計欄の値を決定し、障害ポイント小計欄のすべての欄の合計を算出して、障害ポイント合計に書き込む。
FIG. 6 is a flowchart showing an operation for calculating the penalty amount. The
違約金生成手段380は、算出した障害ポイント合計とテーブル記憶手段390から読み出した違約金額算出テーブル392とに基づいて違約金額を算出する(ステップA2)。仮に障害報告の内容を設定して、図7を参照して違約金算出を説明する。
障害報告(レベル3)が1回発生した場合、障害ポイント合計の値は5となり、違約金額は0円となる。
障害報告(レベル3)が2回発生した場合、障害ポイント合計の値は10となり、違約金額は100万円となる。
障害報告(レベル2)が2回、および、障害報告(レベル5)が1回発生した場合、障害報告(レベル2)の障害ポイント小計の値は6、障害報告(レベル5)の障害ポイント小計の値は15になり、障害ポイント合計の値は21となるため、違約金額は500万円となる。
The penalty generation means 380 calculates a penalty amount based on the calculated failure point total and the penalty amount calculation table 392 read from the table storage unit 390 (step A2). The content of the trouble report is set, and penalty calculation will be described with reference to FIG.
When a failure report (level 3) occurs once, the total failure point value is 5 and the penalty amount is 0 yen.
When a failure report (level 3) occurs twice, the total failure point value is 10, and the penalty amount is 1 million yen.
When a failure report (level 2) occurs twice and a failure report (level 5) occurs once, the failure point subtotal value of the failure report (level 2) is 6, and the failure point subtotal of the failure report (level 5) The value of 15 is 15, and the total value of failure points is 21, so the penalty amount is 5 million yen.
第2の実施の形態では、障害報告のレベルと回数とに基づいて違約金額を算出する手段を有しているため、ユーザー側で違約金額を適正かつ容易に算出できるという効果がある。 In the second embodiment, since there is means for calculating the penalty amount based on the level and number of failure reports, there is an effect that the user can calculate the penalty amount appropriately and easily.
10 対象システム
11、12 情報通信システム
20 情報通信ネットワーク
30 障害処理装置
310 記憶手段
311 CE発生回数部
312 CE閾値部
313 CE閾値有効ビット
314 CE発生回数累計部
315 UE発生回数累計部
321 書込読出制御手段
322 アドレス選択手段
325 AND回路
331、332、334、335 カウント回路
341、342、343、344、345 選択手段
351 非ゼロ検出手段
352 比較手段
353 反転回路
354、355、356 検出手段
360 システム停止通知手段
370 障害報告生成手段
380 違約金生成手段
390 テーブル記憶手段
391 障害ポイント算出テーブル
392 違約金額算出テーブル
DESCRIPTION OF
Claims (20)
前記障害処理装置は、前記情報通信システムの特定個所で訂正不可能エラーが発生する前に発生する訂正可能エラー発生回数を計数する手段と、
計数値に基づいて閾値を設定する設定手段と、
前記特定個所を修復した後に、前記特定個所での訂正可能エラー発生回数が前記閾値と一致したときに前記情報通信システムに対して通知を行う通知手段とを有することを特徴とする障害処理システム。 An information communication system and a failure processing device;
The failure processing apparatus is configured to count a correctable error occurrence number that occurs before an uncorrectable error occurs at a specific location in the information communication system;
Setting means for setting a threshold based on the count value;
A failure processing system comprising: notification means for notifying the information communication system when the number of correctable errors occurring at the specific location matches the threshold value after repairing the specific location.
障害報告生成手段は、前記情報通信システムで発生した障害を重要度に応じた障害レベルを付与して前記違約金生成手段に報告し、
前記テーブル記憶手段は、障害レベルと障害ポイントとの対応を規定する障害ポイント算出テーブルと障害ポイント合計と違約金額との対応を規定する違約金額算出テーブルとを格納し、
前記違約金生成手段は、前記障害報告生成手段から入手した障害報告と前記テーブル記憶手段から読み出した前記障害ポイント算出テーブルおよび前記違約金額算出テーブルとに基づいて発生障害に対応した違約金額を算出することを特徴とする請求項1、2、3または4記載の障害処理システム。 The failure processing apparatus includes a failure report generation unit, a table storage unit, and a penalty generation unit,
The failure report generation means gives a failure level according to the importance to the failure that occurred in the information communication system, and reports it to the penalty generation means,
The table storage means stores a failure point calculation table that defines the correspondence between the failure level and the failure point, and a penalty amount calculation table that defines the correspondence between the failure point total and the penalty amount,
The penalty generation means calculates a penalty amount corresponding to the fault that has occurred based on the failure report obtained from the failure report generation means, the failure point calculation table read from the table storage means, and the penalty amount calculation table. 5. The fault handling system according to claim 1, 2, 3 or 4.
前記障害処理装置が、計数値に基づいて閾値を設定するステップと、
前記障害処理装置が、前記特定個所を修復した後に、前記特定個所での訂正可能エラー発生回数が前記閾値と一致したときに前記情報通信システムに対して通知を行うステップとを有することを特徴とする障害処理方法。 A step in which the failure processing apparatus counts the number of correctable errors that occur before an uncorrectable error occurs at a specific location in the information communication system;
The failure processing device sets a threshold based on a count value;
The failure processing apparatus comprises a step of notifying the information communication system when the number of correctable errors occurring at the specific location matches the threshold value after repairing the specific location. Failure handling method.
前記障害処理装置が、障害レベルと障害ポイントとの対応を規定する障害ポイント算出テーブルと障害ポイント合計と違約金額との対応を規定する違約金額算出テーブルとをテーブル記憶手段に格納するステップと、
前記障害処理装置が、前記障害報告と前記テーブル記憶手段から読み出した前記障害ポイント算出テーブルおよび前記違約金額算出テーブルとに基づいて発生障害に対応した違約金額を算出するステップとを有することを特徴とする請求項6、7、8または9記載の障害処理方法。 The failure processing device generates a failure report by assigning a failure level according to importance to a failure that has occurred in the information communication system;
The failure processing apparatus stores in a table storage means a failure point calculation table that defines a correspondence between a failure level and a failure point, and a penalty amount calculation table that defines a correspondence between a failure point total and a penalty amount;
The failure processing apparatus includes a step of calculating a penalty amount corresponding to a failure that has occurred based on the failure report and the failure point calculation table and the penalty amount calculation table read from the table storage unit. The failure processing method according to claim 6, 7, 8, or 9.
前記情報通信システムの特定個所で訂正不可能エラーが発生する前に発生する訂正可能エラー発生回数を計数する手段と、
計数値に基づいて閾値を設定する設定手段と、
前記特定個所を修復した後に、前記特定個所での訂正可能エラー発生回数が前記閾値と一致したときに前記情報通信システムに対して通知を行う通知手段とを有することを特徴とする障害処理装置。 A failure processing apparatus connected to an information communication system,
Means for counting the number of correctable errors occurring before an uncorrectable error occurs at a specific location of the information communication system;
Setting means for setting a threshold based on the count value;
A failure processing apparatus comprising: a notification unit configured to notify the information communication system when the number of correctable errors occurring at the specific location matches the threshold value after repairing the specific location.
障害報告生成手段は、前記情報通信システムで発生した障害を重要度に応じた障害レベルを付与して前記違約金生成手段に報告し、
前記テーブル記憶手段は、障害レベルと障害ポイントとの対応を規定する障害ポイント算出テーブルと障害ポイント合計と違約金額との対応を規定する違約金額算出テーブルとを格納し、
前記違約金生成手段は、前記障害報告生成手段から入手した障害報告と前記テーブル記憶手段から読み出した前記障害ポイント算出テーブルおよび前記違約金額算出テーブルとに基づいて発生障害に対応した違約金額を算出することを特徴とする請求項11、12、13または14記載の障害処理装置。 A failure report generation means, a table storage means, and a penalty generation means;
The failure report generation means gives a failure level according to the importance to the failure that occurred in the information communication system, and reports it to the penalty generation means,
The table storage means stores a failure point calculation table that defines the correspondence between the failure level and the failure point, and a penalty amount calculation table that defines the correspondence between the failure point total and the penalty amount,
The penalty generation means calculates a penalty amount corresponding to the fault that has occurred based on the failure report obtained from the failure report generation means, the failure point calculation table read from the table storage means, and the penalty amount calculation table. 15. The failure processing apparatus according to claim 11, 12, 13 or 14.
計数値に基づいて閾値を設定する処理と、
前記特定個所を修復した後に、前記特定個所での訂正可能エラー発生回数が前記閾値と一致したときに前記情報通信システムに対して通知を行う処理とをコンピュータに実行させることを特徴とするプログラム。 A process of counting the number of correctable errors occurring before an uncorrectable error occurs at a specific location in the information communication system;
Processing to set a threshold based on the count value;
A program for causing a computer to execute a process of notifying the information communication system when the number of correctable errors occurring at the specific location matches the threshold value after repairing the specific location.
障害レベルと障害ポイントとの対応を規定する障害ポイント算出テーブルと障害ポイント合計と違約金額との対応を規定する違約金額算出テーブルとをテーブル記憶手段に格納する処理と、
前記障害報告と前記テーブル記憶手段から読み出した前記障害ポイント算出テーブルおよび前記違約金額算出テーブルとに基づいて発生障害に対応した違約金額を算出する処理とをコンピュータに実行させることを特徴とする請求項16、17、18または19記載のプログラム。
A process for generating a failure report by assigning a failure level corresponding to the importance to a failure that has occurred in the information communication system;
Processing for storing in the table storage means a failure point calculation table that defines the correspondence between the failure level and the failure point, and a penalty amount calculation table that defines the correspondence between the failure point total and the penalty amount;
The computer is configured to cause the computer to execute processing for calculating a penalty amount corresponding to the failure that has occurred based on the failure report and the failure point calculation table and the penalty amount calculation table read from the table storage unit. The program according to 16, 17, 18 or 19.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006200645A JP2008027284A (en) | 2006-07-24 | 2006-07-24 | Fault processing system, fault processing method, and fault processing device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006200645A JP2008027284A (en) | 2006-07-24 | 2006-07-24 | Fault processing system, fault processing method, and fault processing device and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008027284A true JP2008027284A (en) | 2008-02-07 |
Family
ID=39117844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006200645A Withdrawn JP2008027284A (en) | 2006-07-24 | 2006-07-24 | Fault processing system, fault processing method, and fault processing device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008027284A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016152011A (en) * | 2015-02-19 | 2016-08-22 | ファナック株式会社 | Failure prediction system of control device |
JP2019160130A (en) * | 2018-03-16 | 2019-09-19 | 富士通株式会社 | Usage fee determining program, usage fee determining method, and information processing device |
JP2020160688A (en) * | 2019-03-26 | 2020-10-01 | 株式会社富士通エフサス | Information processing device, determination method and determination program |
CN114356984A (en) * | 2021-12-24 | 2022-04-15 | 海光信息技术股份有限公司 | Method, device, equipment and storage medium for marking risk state of storage |
WO2024066589A1 (en) * | 2022-09-28 | 2024-04-04 | 超聚变数字技术有限公司 | Processing method for hardware error reporting, and related device |
-
2006
- 2006-07-24 JP JP2006200645A patent/JP2008027284A/en not_active Withdrawn
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016152011A (en) * | 2015-02-19 | 2016-08-22 | ファナック株式会社 | Failure prediction system of control device |
US9891975B2 (en) | 2015-02-19 | 2018-02-13 | Fanuc Corporation | Failure prediction system of controller |
JP2019160130A (en) * | 2018-03-16 | 2019-09-19 | 富士通株式会社 | Usage fee determining program, usage fee determining method, and information processing device |
JP7006408B2 (en) | 2018-03-16 | 2022-01-24 | 富士通株式会社 | Usage fee determination program, usage fee determination method, and information processing equipment |
JP2020160688A (en) * | 2019-03-26 | 2020-10-01 | 株式会社富士通エフサス | Information processing device, determination method and determination program |
JP7319067B2 (en) | 2019-03-26 | 2023-08-01 | 株式会社富士通エフサス | Information processing device, determination method and determination program |
CN114356984A (en) * | 2021-12-24 | 2022-04-15 | 海光信息技术股份有限公司 | Method, device, equipment and storage medium for marking risk state of storage |
CN114356984B (en) * | 2021-12-24 | 2024-01-23 | 海光信息技术股份有限公司 | Method, device, equipment and storage medium for marking risk state of memory |
WO2024066589A1 (en) * | 2022-09-28 | 2024-04-04 | 超聚变数字技术有限公司 | Processing method for hardware error reporting, and related device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7461303B2 (en) | Monitoring VRM-induced memory errors | |
US8468422B2 (en) | Prediction and prevention of uncorrectable memory errors | |
CN101063948B (en) | Soft error location and sensitivity detection for programmable devices | |
CN105843699B (en) | Dynamic random access memory device and method for error monitoring and correction | |
WO2021253708A1 (en) | Memory fault handling method and apparatus, device and storage medium | |
CN205881469U (en) | Fault detection equipment of electronic equipment and memory that is used for having a plurality of memory locations of standing transient fault and permanent fault | |
KR101983651B1 (en) | Mram field disturb detection and recovery | |
US8572444B2 (en) | Memory apparatus and testing method thereof | |
US20030236998A1 (en) | Method and system for configuring a computer system using field replaceable unit identification information | |
US7100004B2 (en) | Method for scrubbing regions in central storage | |
EP2770507B1 (en) | Memory circuits, method for accessing a memory and method for repairing a memory | |
US9189330B2 (en) | Stale data detection in marked channel for scrub | |
JP2008027284A (en) | Fault processing system, fault processing method, and fault processing device and program | |
US9965346B2 (en) | Handling repaired memory array elements in a memory of a computer system | |
WO2024082844A1 (en) | Fault detection apparatus and detection method for random access memory | |
Bauer et al. | Practical system reliability | |
CN111221775A (en) | Processor, cache processing method and electronic equipment | |
CN114860487A (en) | Memory fault identification method and memory fault isolation method | |
CN109710443B (en) | Data processing method, device, equipment and storage medium | |
CN114461436A (en) | Memory fault processing method and device and computer readable storage medium | |
CN117076186B (en) | Memory fault detection method, system, device, medium and server | |
CN101271419B (en) | Random storage failure detecting and processing method, device and system | |
CN115686909A (en) | Memory fault prediction method and device, storage medium and electronic device | |
CN115509786A (en) | Method, device, equipment and medium for reporting fault | |
Mielke et al. | Accelerated testing of radiation-induced soft errors in solid-state drives |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20080616 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20090512 |
|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20091006 |