JP4174497B2 - Information system reliability evaluation system, reliability evaluation method, reliability evaluation program - Google Patents
Information system reliability evaluation system, reliability evaluation method, reliability evaluation program Download PDFInfo
- Publication number
- JP4174497B2 JP4174497B2 JP2005194191A JP2005194191A JP4174497B2 JP 4174497 B2 JP4174497 B2 JP 4174497B2 JP 2005194191 A JP2005194191 A JP 2005194191A JP 2005194191 A JP2005194191 A JP 2005194191A JP 4174497 B2 JP4174497 B2 JP 4174497B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- failure
- component
- unit
- cost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
Abstract
Description
本発明は、オンライン取引システム等のコンピュータネットワークで構成される情報システムの信頼性評価システム、信頼性評価方法、信頼性評価プログラムに関する。 The present invention relates to a reliability evaluation system, a reliability evaluation method, and a reliability evaluation program for an information system including a computer network such as an online transaction system.
オンライン取引システム等のコンピュータネットワークで構成される情報システムの運用段階又は情報システムの設計段階において、情報システムの信頼性評価が行われる。この信頼性評価では、システムの稼働率の評価が行われる。このシステムの稼働率の評価においては、フォルトツリー分析がよく用いられる(例えば、非特許文献1、特許文献1、特許文献2を参照)。例えば、原子力発電プラントを用いたシステムの稼働率の評価では、プラントの安全性を確保することを目的に、以下のことが行われる。システムの評価を行う者(以下、評価者)は、トラブルの事象を想定し、これに至る確率を算出する。そして、評価者は、該当のトラブルの発生確率がほとんど起こり得ないことを定量的に解析する。その時に利用される主な解析手法が、フォルトツリー分析と呼ばれるものである。このフォルトツリー分析は、信頼性工学及び関連分野において活用されているものであり、情報システムにおいても用いられる(例えば、非特許文献1参照)。
The reliability evaluation of the information system is performed at the operation stage of the information system constituted by a computer network such as an online transaction system or the design stage of the information system. In this reliability evaluation, the operation rate of the system is evaluated. In the evaluation of the operating rate of this system, fault tree analysis is often used (see, for example, Non-Patent
フォルトツリー分析で稼働率を評価する手法は、以下の通りである。評価者は、まずシステムにおいて想定される頂上事象を選定する。その後、評価者は、その頂上事象に至る1次要因を探り、頂上事象と1次要因との間の論理的関係(AND、OR)を導く。評価者は、上記論理的関係を、ツリー構造に表現する。このツリー構造においては、頂上事象が記載され、この頂上事象の下には、論理記号が記載され、この論理記号の下には、一次要因が記載される。そして、ツリー構造においては、同様にして、個々の一次要因の下には、論理記号が記載され、この論理記号の下には、二次要因が記載され、三次要因、四次要因についても同様の記載が繰り返される。このようにして、ツリー構造においては、実験等から、稼働率の分布を参照できるレベルまで細分化が行われる。 The following methods are used to evaluate the availability with fault tree analysis. The evaluator first selects the top event assumed in the system. The evaluator then explores the primary factors that lead to the top event and derives a logical relationship (AND, OR) between the top event and the primary factor. The evaluator expresses the logical relationship in a tree structure. In this tree structure, a top event is described, a logic symbol is described below the top event, and a primary factor is described below the logic symbol. Similarly, in the tree structure, a logical symbol is described under each primary factor, a secondary factor is described under this logical symbol, and the same applies to the tertiary factor and the quaternary factor. Is repeated. In this way, the tree structure is subdivided to a level at which the availability distribution can be referenced from experiments and the like.
ブール代数を用いることにより、頂上事象は、ツリー構造の最下層の事象(基本事象)の組み合わせで発生することが示される。この組み合わせ(即ち、論理的な関係を示すツリー構造)により、基本事象に対応する不稼働率(=1−稼働率)を用いて、頂上事象に対応する不稼働率(=1−稼働率)を導き出すことが可能となるので、頂上事象に対応する稼働率を導き出すことが可能となる。 By using Boolean algebra, it is shown that the top event occurs in a combination of the bottom layer events (basic events) of the tree structure. With this combination (that is, a tree structure indicating a logical relationship), the unavailability corresponding to the top event (= 1−operation rate) is used using the unavailability corresponding to the basic event (= 1−operation rate). Therefore, it is possible to derive the operation rate corresponding to the top event.
例えば、従来の情報システムの信頼性評価としては、工場システムの設備構成からフォルトツリーを生成し、設備を構成する各機器類の故障率などに基づいて、工場システムの信頼性の度合い(システムの稼働率など)を算出する信頼性解析があった。この信頼性解析によれば、生産量、設備の構成などに基づいて、変更可能な要素をパラメータとして変更させた場合におけるフォルトツリーを生成するとともに、工場システムの信頼性の度合い(システムの稼働率)が算出される。そして、算出された信頼性の度合いを比較し、最も信頼性の度合いが高い(システム稼働率の高い)設備構成を抽出し、この抽出された設備構成に基づいて、工場システムの稼働が行われていたり、工場システムの補修計画が選択されていた(例えば、特許文献1、2参照)。これにより、システムの稼働率の基準値を十分満たすように、工場システムの設計を行うことや、システムの稼働率が高い状態で工場システムを運用しながら補修を行うことが可能となる。
しかしながら、上述の従来の信頼性評価では、以下のような問題があった。即ち、情報システムを構成する構成要素として、ハードウェアの構成要素とともに、ハードウェアの動作に関連するソフトウェアの構成要素がある。このソフトウェアの構成要素による故障も存在し、ソフトウェアの構成要素に関する故障事象も考慮して、情報システムの信頼性評価が行われる必要がある。 However, the conventional reliability evaluation described above has the following problems. In other words, as components constituting the information system, there are hardware components as well as software components related to hardware operations. There is a failure due to this software component, and it is necessary to evaluate the reliability of the information system in consideration of a failure event related to the software component.
しかし、従来の信頼性評価では、情報システムを構成する構成要素として、ハードウェアの構成要素のみ考慮し、ソフトウェアの構成要素まで含めてシステム稼働率を評価していなかった。このため、例えば、最もシステム稼働率が高くなるような情報システムの設計を行っても、実際に情報システムを運用させたときにおけるシステム稼働率が、基準値を下回ってしまうことがあったり、情報システムの運用段階で、上述の信頼性評価に基づいてシステム稼働率を高くするように情報システムを変更しても、システム稼働率が基準値を下回ってしまうことがあった。 However, in the conventional reliability evaluation, only the hardware component is considered as the component constituting the information system, and the system operation rate is not evaluated including the software component. For this reason, for example, even if an information system is designed so that the system availability is the highest, the system availability when the information system is actually operated may be below the reference value, Even if the information system is changed so as to increase the system operation rate based on the above-described reliability evaluation in the system operation stage, the system operation rate may fall below the reference value.
この結果、情報システムの設計のやり直しが多くなり、情報システムの設計者の負担が非常に大きくなるという問題があった。 As a result, there has been a problem that the design of the information system has to be redone and the burden on the information system designer becomes very large.
本発明は上述した課題を解決するためになされたものであり、システム稼働率を良好にするとともに、情報システムの設計を行う設計者の負担の軽減を可能にする情報システムの信頼性評価システム、信頼性評価方法、信頼性評価プログラムを提供することを目的とする。 The present invention has been made in order to solve the above-described problems. The reliability evaluation system for an information system that makes it possible to reduce the burden on a designer who designs an information system while improving the system operation rate, An object is to provide a reliability evaluation method and a reliability evaluation program.
以上の問題点を解決するために、機器を含む情報システムの信頼性評価に必要な情報として、前記機器の機能を実行させるためのソフトウェアと前記機器を構成するハードウェアとの各々を示す構成要素、又は、前記構成要素により構成される構成要素群の故障モードに対応する故障に関する情報と、前記機器と前記構成要素又は前記構成要素群とを用いた前記情報システムの構成に関する情報を示すシステム構成情報と、前記情報システム全体の稼働率を示すシステム稼働率の基準値と、を少なくとも含む情報を入力する情報入力を行い、前記構成要素又は前記構成要素群における故障モードの故障に関する情報の分析を前記故障モードごとに行うことにより分析情報を得る情報分析を行い、前記システム構成情報に基づいて、前記情報システムの故障モードを示す頂上事象から、前記構成要素又は前記構成要素群の故障モードを示す基本事象への階層的な論理関係を示すフォルトツリーを作成するフォルトツリー作成を行い、前記分析情報に基づいて、前記構成要素又は前記構成要素群の故障モードに対応する、前記構成要素又は前記構成要素群の不稼働率を算出する不稼働率算出を行い、算出された不稼働率を、前記構成要素又は前記構成要素群の故障モードに相当する基本事象に対応する不稼働率とした場合、前記基本事象に対応する不稼働率と、前記フォルトツリーとに基づいて、前記頂上事象に対応する稼働率をシステム稼働率として算出するシステム稼働率算出を行い、算出されたシステム稼働率が前記システム稼働率の基準値に達しているか否かを判定する稼働率判定を行い、算出されたシステム稼働率が前記基準値に達していないと判定された場合、基本事象に対応する不稼働率の変動と頂上事象に対応する不稼動率の変動との関係から、システム稼働率の上昇に関係する基本事象を抽出する基本事象抽出を行い、抽出された基本事象に対応する不稼働率の低下が可能な場合には、抽出された基本事象に対応する新たな分析情報を再設定し、抽出された基本事象に対応する不稼働率の低下が可能でない場合には、新たなシステム構成情報及び新たな故障モードに対応する故障に関する情報を再設定する第1再設定を行い、前記抽出された基本事象に対応する新たな分析情報が再設定された場合には、前記不稼働率算出以降の処理を行い、前記抽出された基本事象に対応する故障モードの新たな故障に関する情報が再設定された場合と前記新たなシステム構成情報及び新たな故障モードに対応する故障に関する情報が再設定された場合には、前記情報分析以降の処理を行うことを特徴とするものである。 In order to solve the above problems, as information necessary for the reliability evaluation of an information system including a device, components indicating each of software for executing the function of the device and hardware configuring the device Or a system configuration indicating information related to a failure corresponding to a failure mode of a component group configured by the component and information related to a configuration of the information system using the device and the component or the component group Input information including at least information and a system operating rate reference value indicating the operating rate of the entire information system, and analyze information on failure in the failure mode of the component or the component group Information analysis is performed for each failure mode to obtain analysis information, and the information system is based on the system configuration information. A fault tree that creates a fault tree indicating a hierarchical logical relationship from a top event that indicates a failure mode of a system to a basic event that indicates a failure mode of the component or group of components, and based on the analysis information The non-operation rate calculation for calculating the non-operation rate of the component element or the component group corresponding to the failure mode of the component element or the component group is performed, and the calculated non-operation rate is calculated as the component element. Or, when the non-operation rate corresponding to the basic event corresponding to the failure mode of the component group is set, the operation rate corresponding to the top event based on the non-operation rate corresponding to the basic event and the fault tree The system operation rate is calculated as the system operation rate, and it is determined whether the calculated system operation rate has reached the reference value of the system operation rate. When it is determined that the calculated system availability does not reach the reference value, from the relationship between the fluctuation in the downtime corresponding to the basic event and the fluctuation in the downtime corresponding to the top event, Perform basic event extraction to extract basic events related to the increase in system availability, and if the downtime corresponding to the extracted basic events can be reduced, a new analysis corresponding to the extracted basic events First resetting that resets information and resets new system configuration information and information on a failure corresponding to a new failure mode when the downtime corresponding to the extracted basic event cannot be reduced When new analysis information corresponding to the extracted basic event is reset, the processing after the unavailability calculation is performed, and a new failure mode corresponding to the extracted basic event is performed. Regarding trouble And when the information related to the failure corresponding to the new system configuration information and the new failure mode is reset, the processing after the information analysis is performed. is there.
本発明によれば、情報システムの信頼性評価の対象の構成要素には、ハードウェアだけでなく、ソフトウェアも含まれるので、入力される信頼性評価に必要な情報(例えば、システム機能構成情報10など)は、ハードウェアだけでなく、ソフトウェアも考慮した情報となっている。そして、入力された上記情報に基づいて、上記情報分析から上記稼働率判定までの処理が行われる。そして、算出されたシステム稼働率がシステム稼働率の基準値に達していないと判定された場合には、第1再設定処理が行われ、再設定された情報に基づいて、稼働率判定の処理が行われ、算出されたシステム稼働率がシステム稼働率の基準値に達するまで、上述の処理の繰り返しが可能となる。
According to the present invention, the components that are subject to the reliability evaluation of the information system include not only hardware but also software. Therefore, information required for input reliability evaluation (for example, system
また、従来と異なりハードウェアの故障事象だけでなくソフトウェアの故障事象も考慮してシステム稼働率の評価を行っているので、評価されたシステム稼働率に対応するシステム構成情報(例えば、システム機能構成情報10など)に従って、情報システムの構成を変更して運用させたときに、システム稼働率が、システム稼働率の基準値を下回ってしまう事態が回避される。この結果、情報システムの設計のやり直しが多くなる事態が回避され、情報システムの設計者の負担が軽減される。従って、本発明によれば、システム稼働率を良好にするとともに、情報システムの設計を行う設計者の負担の軽減が可能にすることができる。
In addition, since the system operation rate is evaluated in consideration of not only hardware failure events but also software failure events unlike conventional systems, system configuration information corresponding to the evaluated system operation rates (for example, system function configuration) When the information system configuration is changed and operated according to the
以上説明したように、本発明によれば、システム稼働率を良好にするとともに、情報システムの設計を行う設計者の負担の軽減を可能にすることができる。 As described above, according to the present invention, the system operation rate can be improved and the burden on the designer who designs the information system can be reduced.
以下、本発明の一実施形態を、図面を参照して説明する。 Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
(情報システムの信頼性評価システムの構成)
本実施形態における情報システムは、複数の機器(例えば、サーバなど)を備えている。各機器には、機器の機能を実行させるためのソフトウェアと、機器を構成するハードウェアとが内蔵されている。本実施形態の情報システムの信頼性評価システムは、このような情報システムのシステム稼働率の評価、コスト評価を行うものである。
(Configuration of information system reliability evaluation system)
The information system in this embodiment includes a plurality of devices (for example, servers). Each device includes software for executing the function of the device and hardware constituting the device. The reliability evaluation system for an information system according to this embodiment performs evaluation of system availability and cost evaluation of such an information system.
図1は、本実施形態の情報システムの信頼性評価システム(以下、信頼性評価システムという)のブロック構成を示す図である。本実施形態の信頼性評価システムは、システム管理データベース6と、ユーザ端末7との間で、情報をやり取りするシステム評価部1を有する。
FIG. 1 is a diagram showing a block configuration of a reliability evaluation system (hereinafter referred to as a reliability evaluation system) of an information system according to the present embodiment. The reliability evaluation system of this embodiment includes a
システム評価部1は、システム管理データベース6との間で、情報システムの信頼性評価に必要な情報などの各種の情報のやり取りを行う。システム管理データベース6には、システム機能構成情報10、信頼性関連情報11、コスト関連情報13、システム基準情報12などを含む各種の情報が格納されている。これらの情報は、必要に応じて、情報処理・演算部3に入力される。
The
システム評価部1は、システム機能構成情報10、信頼性関連情報11、システム基準情報12などの情報をシステム管理データベース6から抽出して入力する情報抽出・入力部2と、入力された情報に基づいて、所定の処理・演算を行う情報処理・演算部3と、上記所定の処理・演算が行われた結果をユーザ端末7に出力する情報出力部5とを有する。
The
システム評価部1には、ユーザ端末7が接続されている。ユーザ端末7は、システム評価部1に各種の指示情報(例えば、所定の情報システムの信頼性評価を行うことを指示する情報)を出力したり、各種の情報を出力したり、各種の情報を表示するものである。
A user terminal 7 is connected to the
情報抽出・入力部2は、機器(例えば、サーバ)を含む情報システムの信頼性評価に必要な情報として、上記機器の機能を実行させるためのソフトウェアと上記機器を構成するハードウェアとの各々を示す構成要素(後述のソフトウェア構成要素、ハードウェア構成要素)の故障モードに対応する故障に関する情報(例えば、後述の信頼性関連情報11)と、上記機器と上記構成要素とを用いた情報システムの構成に関する情報を示すシステム構成情報(例えば、後述のシステム機能構成情報10、システム基準情報12に含まれるシステム構成)と、情報システム全体の稼働率を示すシステム稼働率の基準値(例えば、後述のシステム基準情報12に含まれるシステム稼働率の基準値)と、を少なくとも含む情報が入力される情報入力部である。
The information extraction /
また、情報抽出・入力部2には、ハードウェア構成要素、ソフトウェア構成要素のために必要なコストを示す設備費と、情報システムのために必要なコストの許容範囲を示すコスト許容値と、情報システムが単位期間停止したことによる営業上の損害額を示すシステム停止損害額と、情報システムの運用期間とが入力される。
In addition, the information extraction /
図2は、情報抽出・入力部2に入力される情報を示す図である。この入力される情報とは、システム機能構成情報10、信頼性関連情報11、コスト関連情報13、システム基準情報12である。これらの情報は、情報システムに対応づけられている。
FIG. 2 is a diagram illustrating information input to the information extraction /
システム機能構成情報10には、情報システムに含まれるハードウェアとソフトウェアとを含む構成要素情報が含まれる。この構成要素情報には、ハードウェアの構成要素(以下、ハードウェア構成要素)、ソフトウェアの構成要素(以下、ソフトウェア構成要素)が含まれる。ハードウェア構成要素とは、機器(例えば、サーバ)を構成するもの(例えば、部品や回路など)である。ソフトウェア構成要素とは、機器の機能を実行させるためのもの(例えば、各機能を実行させるための命令や手順などをプログラムコードなどにより記述されたもの)である。例えば、情報システムを構成する機器としては、例えば、WEBブラウザを用いてユーザにコンテンツを提供するためのWEBサーバ群に属するWEBサーバ1、2...などがある。言い換えると、WEBサーバ群は、情報システムを構成する各WEBサーバ1、2...の集合を示すものである。この場合、WEBサーバ1に対応するソフトウェア構成要素としては、例えば、WEBサーバ1の機能を実行させるためのWEBサーバ1ソフトウェアがある。WEBサーバ1に対応するハードウェア構成要素としては、例えば、WEBサーバ1を構成するハードディスク、CPU、メモリなどがある。
The system
また、システム機能構成情報10には、情報システムに含まれるハードウェアとソフトウェアとを含む構成要素の機能別分類が含まれる。ハードウェアとソフトウェアとを含む構成要素の機能別分類には、ハードウェア構成要素の機能別分類と、ソフトウェア構成要素の機能別分類とが含まれる。ハードウェア構成要素の機能別分類とは、各ハードウェア構成要素が、機器の機能に従って分類された情報を示すものである。ソフトウェア構成要素の機能別分類とは、各ソフトウェア構成要素が、機器の機能に従って分類された情報を示すものである。例えば、ソフトウェア構成要素の機能別分類においては、WEBサーバ1の機能には、WEBプログラム1、WEBプログラム2...が対応づけられるように分類され、APサーバ1の機能には、APプログラム1、APプログラム2...が対応づけられるように分類されている。APサーバとは、ユーザからの要求を受け付けデータベースなどを用いた業務システムの処理を実行するためのAPサーバ群に属するサーバのことである。言い換えると、APサーバ群は、情報システムを構成する各APサーバ1、
2...の集合を示すものである。
Further, the system
2. . . Is a set.
また、システム機能構成情報10には、情報システムに含まれるハードウェアとソフトウェアとを含む構成要素の繋がりが含まれる。ハードウェアとソフトウェアとを含む構成要素間の繋がりには、ハードウェア構成要素間の繋がり、ソフトウェア構成要素間の繋がり、ハードウェア構成要素とソフトウェア構成要素との間の繋がりが含まれる。ハードウェア構成要素間の繋がりとは、例えば、各機器におけるハードウェア構成要素同士の電気的な接続関係である。また、ソフトウェア構成要素間の繋がりとは、例えば、各機器におけるソフトウェア構成要素の機能を示す機能ブロック同士の関係を示すフローチャートなどである。また、ハードウェア構成要素とソフトウェア構成要素との間の繋がりとは、例えば、各機器におけるソフトウェア構成要素の機能ごとに、上記ソフトウェア構成要素の機能に関係するハードウェア構成要素が対応づけられている情報のことである。
Further, the system
また、システム機能構成情報10には、情報システムに含まれるハードウェアとソフトウェアとを含む構成要素の処理内容(ハードウェア構成要素の処理内容、ソフトウェア構成要素の処理内容)が含まれる。
Further, the system
信頼性関連情報11には、情報システムに含まれるハードウェアとソフトウェアとを含む構成要素の故障モードの故障間隔(ハードウェア構成要素の故障モードの故障間隔、ソフトウェア構成要素の故障モードの故障間隔)、ハードウェアとソフトウェアとを含む構成要素の故障モードの修復時間(ハードウェア構成要素の故障モードの修復時間、ソフトウェア構成要素の故障モードの修復時間)が含まれる。例えば、ハードウェア構成要素の故障モードの故障間隔としては、APサーバ1のハードディスクのディスク不良(故障モード)の故障間隔txがあり、ソフトウェア構成要素の故障モードの故障間隔としては、APサーバ1のAPソフトウェアのOSの障害(故障モード)の故障間隔tyがある。
The reliability related
コスト関連情報13には、情報システムに含まれるハードウェアとソフトウェアとを含む構成要素の設備費(ハードウェア構成要素のために必要なコストを示す設備費、ソフトウェア構成要素のために設備費)が含まれている。また、コスト関連情報13には、単位期間(例えば、1ヶ月など)情報システムが停止したことによる営業上の損害額(実測値、予測値でもよい)を示すシステム停止損害額が含まれる。この設備費とは、ハードウェア構成要素やソフトウェア構成要素の原料費、上記構成要素を情報システムに組み込むために必要な費用など、構成要素のためにかかる費用のことである。
The cost related
システム基準情報12には、情報システムのシステム構成が含まれる。このシステム構成とは、情報システムに含まれる各機器間の繋がりを示すものである。また、システム基準情報12には、情報システム全体の稼働率を示すシステム稼働率の基準値(以下、システム稼働率基準値という)、運用期間、情報システムのために費やされるコストとして許される範囲を示すコスト許容値が含まれる。情報抽出・入力部2により入力された情報は、情報処理・演算部3に送られる。
The
図3は、情報処理・演算部3の詳細な構成を示す図である。情報処理・演算部3は、フィールドデータ分析部31、フォルトツリー作成部32、フォルトツリー−ロジック変換部33、稼働率算出部34、システム稼働率判定部35、重要度分析部36、変更可能性判定部37、システム構成再設定部38、故障情報再設定部39、コスト算出部40、コスト判定部41、コスト情報再設定部42を有する。
FIG. 3 is a diagram showing a detailed configuration of the information processing / arithmetic unit 3. The information processing / arithmetic unit 3 includes a field
フィールドデータ分析部31は、ハードウェア構成要素、ソフトウェア構成要素における故障モードの故障に関する情報の分析を故障モードごとに行うことにより、分析結果として分析情報を得る情報分析部である。例えば、フィールドデータ分析部31は、情報抽出・入力部2により入力された情報のうち、故障モードに対応する故障に関する情報を、情報システムに含まれる各機器(例えば、APサーバ1、APサーバ2など)が処理機能別に分類された機器の集合を示す機器群(例えば、APサーバ群、WEBサーバ群など)及び故障モードごとに分類し分類結果に基づいて、上述の分析を行う。具体的な説明は以下の通りである。
The field
例えば、各故障モード(例えば、APサーバ1のハードディスクのディスク不良)の障害情報(故障に関する情報)として、上記構成要素(例えば、APサーバ1のハードディスク)の使用開始日時、故障(例えば、ディスク不良)発生日時、故障間隔、故障復旧日時、修復時間がある。フィールドデータ分析部31は、入力された各種の情報のうち、故障モードに対応する故障に関する情報(例えば、APサーバ1のハードディスクのディスク不良に対応する使用開始日時、故障発生日時、故障間隔、故障復旧日時、修復時間)を、機器群及び故障モード(例えば、APサーバ群、ディスク不良)に対応づけることにより分類する。このようにして、フィールドデータ分析部31は、ハードウェア構成要素、ソフトウェア構成要素の故障モードに対応する障害情報が、機器群及び故障モードに対応づけられることにより分類された分類テーブルを生成する。図4は、ハードウェア構成要素の故障モードに対応する障害情報が、機器群及び故障モードに対応づけられることにより分類された分類テーブル(以下、ハードウェア分類テーブルという)を示す図であり、機器群と機器と構成要素と故障モード(例えば、ディスク不良など)ごとに、障害情報が対応づけられている。図5は、ソフトウェア構成要素の故障モードに対応する障害情報が、機器群及び故障モードに対応づけられることにより分類された分類テーブル(以下、ソフトウェア分類テーブルという)を示す図であり、機器群と機器と構成要素と故障モード(例えば、OSの障害、アプリケーションの障害、ミドルウェアの障害、ユーザの入力ミスなど)ごとに、障害情報が対応づけられている。なお、DBサーバとは、情報システムに含まれるデータベースを管理するDBサーバ群に属するサーバのことである。言い換えると、DBサーバ群は、情報システムを構成する各DBサーバ1、2...の集合を示すものである。
For example, as failure information (information related to failure) of each failure mode (for example, hard disk failure of the AP server 1), the use start date and time of the above component (for example, hard disk of the AP server 1), failure (for example, disk failure) ) There are occurrence date, failure interval, failure recovery date and time, and repair time. The field
フィールドデータ分析部31は、上述の図4に示すハードウェア分類テーブル(又は図5に示すソフトウェア分類テーブル)を用いて、ハードウェア構成要素(又はソフトウェア構成要素)の故障モードごとに、故障モードの故障確率を算出し、算出した故障確率を分析情報として得る。例えば、フィールドデータ分析部31は、情報抽出・入力部2に入力されたハードウェア構成要素(又はソフトウェア構成要素)の故障モードの故障間隔(上述のハードウェア分類テーブル(又はソフトウェア分類テーブル)に記録された各故障モードの故障間隔)と、故障間隔に対する故障確率の分布を示すワイブル分布とに基づいて、ハードウェア構成要素(又はソフトウェア構成要素)の故障モードの故障確率を算出する。
The field
具体的な説明は、以下の通りである。フィールドデータ分析部31は、例えば、ハードウェア分類テーブルに記録されたAPサーバ1のハードディスクのディスク不良(又は、ソフトウェア分類テーブルに記録されたAPサーバ1のソフトウェアのOS障害)に対応する故障間隔t1、t2、t3....を、ワイブル分布式にあてはめることにより、ワイブル分布式を用いた故障確率を算出する。例えば、故障間隔tを用いた故障確率の分布関数F(t)は、以下の数1式で示される。
ここで、βは形状パラメータ、θは尺度パラメータである。フィールドデータ分析部31は、数1式で示される分布に、上述の故障間隔t1、t2、t3....をあてはめることにより、βとθを決定(推定)することができる。これにより、フィールドデータ分析部31は、ハードウェア構成要素、ソフトウェア構成要素の故障モードの故障確率F(t)を算出することができる。
Here, β is a shape parameter, and θ is a scale parameter. The field
なお、故障のパターンは、故障率が時間経過に従って減少する初期故障パターン、故障率が時間経過に関わらず一定である偶発故障パターン、故障率が時間経過に従って増大する老朽故障パターンのいずれかに分類される。ここで、β<1の場合は、初期故障パターンに対応し、β=1の場合は、偶発故障パターンに対応し、β>1の場合は、老朽故障パターンに対応している。このため、上述のようにして算出された故障確率は、全ての故障パターンのうち、いずれかの故障パターンに対応するものである。 The failure pattern is classified into an initial failure pattern in which the failure rate decreases with the passage of time, an accidental failure pattern in which the failure rate is constant regardless of the passage of time, or an aging failure pattern in which the failure rate increases with the passage of time. Is done. Here, β <1 corresponds to an initial failure pattern, β = 1 corresponds to an accidental failure pattern, and β> 1 corresponds to an aging failure pattern. For this reason, the failure probability calculated as described above corresponds to any failure pattern among all failure patterns.
また、フィールドデータ分析部31は、上述のハードウェア分類テーブル(又はソフトウェア分類テーブル)を用いて、ハードウェア構成要素(又はソフトウェア構成要素)の故障モードごとに、故障モードの修復時間の平均値である平均修復時間を算出し、算出した平均修復時間を分析情報として得る。
In addition, the field
なお、フィールドデータ分析部31は、使用開始日時、故障発生日時から、故障間隔を算出し、算出した故障間隔を用いて、故障確率を算出するようにしてもよい。また、フィールドデータ分析部31は、故障発生日時、故障復旧日時から、修復時間を算出し、算出した修復時間を用いて、平均修復時間を算出するようにしてもよい。フィールドデータ分析部31により分析された情報は、分析情報として稼働率算出部34に送られる。
The field
フォルトツリー作成部32は、情報抽出・入力部2からのシステム構成情報(例えば、システム機能構成情報10、システム基準情報12に含まれるシステム構成)に基づいて、情報システムの故障モードを示す頂上事象から、ハードウェア構成要素、ソフトウェア構成要素の故障モードを示す基本事象への階層的な論理関係を示すフォルトツリーを作成する。このフォルトツリーにおいては、情報システム全体の機能喪失、又は、運用、動作上の好ましくない事象を頂上事象とし、要因をそれ以上求めることができないハードウェア構成要素の故障モード、ソフトウェア構成要素の故障モードを基本事象とした場合に、頂上事象から基本事象への階層的な論理関係が示されている。即ち、フォルトツリーにおいては、事象と要因との関係として展開された各事象が論理記号(例えば、OR記号、AND記号など)で結合されている。
The fault
具体的には、フォルトツリー作成部32は、以下のようにして、フォルトツリーを作成する。情報抽出・入力部2により入力されたハードウェアとソフトウェアとを含む構成要素情報、ハードウェアとソフトウェアとを含む構成要素の機能別分類、ハードウェアとソフトウェアとを含む構成要素の繋がりと、ハードウェアとソフトウェアとを含む構成要素の処理内容、システム構成がフォルトツリー作成部32に入力される。フォルトツリー作成部32は、入力された情報に基づいて、フォルトツリーを作成する。
Specifically, the fault
なお、ハードウェア構成要素の機能別分類、ハードウェア構成要素間の繋がりと、ハードウェア構成要素の処理内容、システム構成に基づいて、フォルトツリーを作成することは、よく知られた技術である。本実施形態の場合も、この良く知られた技術と同様にして、フォルトツリーの作成が行えるので、フォルトツリーの作成の詳細な説明は、ここでは省略する。 It is a well-known technique to create a fault tree based on classification of hardware components by function, connection between hardware components, processing contents of hardware components, and system configuration. In the case of the present embodiment as well, since a fault tree can be created in the same manner as this well-known technique, a detailed description of creating a fault tree is omitted here.
図6〜図12は、フォルトツリー作成部32により作成されたフォルトツリーの一例を示す図である。ここでは、評価対象の情報システムは、上述したWebサーバ群、APサーバ群、DBサーバ群から構成されるとする。各サーバ群は、2つのサーバにより構成されるとする。各サーバは、複数のハードウェア構成要素(ハードディスク、CPU、メモリなど)で構成されているとする。また、各サーバの機能を実行させるためのソフトウェア構成要素は、Webサーバ1ソフトウェア、Webサーバ2ソフトウェア、APサーバ1ソフトウェア...としている。ソフトウェア構成要素の故障モードとしては、OSの故障、アプリケーションの故障、ミドルウェアの故障、ユーザの入力ミスとしている。なお、図6〜図12では、各サーバのハードウェアの故障事象(例えば、Webサーバ1ハードウェアの機能喪失、Webサーバ2ハードウェアの機能喪失など)より下位の故障事象(例えば、Webサーバ1のハードディスクのディスク不良など)は省略しているが、各サーバのハードウェアの故障事象より下位にも、故障事象がAND記号又はOR記号により、論理的に接続されている場合もある。
6 to 12 are diagrams illustrating an example of the fault tree created by the fault
図6においては、頂上事象(情報システム全体の故障を示す事象、例えば、システムの機能喪失など)と第1階層の事象(頂上事象より階層的に1つ下の事象、例えば、WEBサーバ群の機能喪失など)とがAND記号、OR記号などの論理記号により接続されている。また、図6においては、第1階層の事象と、第2階層の事象(頂上事象より階層的に2つ下の事象、例えば、WEBサーバ1の機能喪失など)とが上記論理記号により接続されている。また、図6においては、第2階層の事象と、第3階層の事象(頂上事象より階層的に3つ下の事象、例えば、WEBサーバ1ハードウェアの機能喪失、WEBサーバ1ソフトウェアの機能喪失など)とが上記論理記号により接続されている。ここで、第3階層の事象の内、各サーバのハードウェアの故障事象(例えば、WEBサーバ1ハードウェアの機能喪失など)は、ハードウェアの故障に関する基本事象となっている。また、第3階層の事象の内、各サーバのソフトウェアの故障事象(例えば、WEBサーバ1ソフトウェアの機能喪失など)には、さらに、図7〜図12のように、第4階層の事象(例えば、WEBサーバ1ソフトウェアのOSの故障、アプリケーションの故障、ミドルウェアの故障、ユーザの入力ミスなど)が論理記号により接続されている。ここで、図7〜図12に示された第4階層の事象は、ソフトウェアの故障に関する基本事象となっている。
In FIG. 6, a top event (an event indicating a failure of the entire information system, for example, loss of system function) and a first level event (an event hierarchically lower than the top event, for example, a WEB server group) Loss of function, etc.) are connected by logical symbols such as AND symbols and OR symbols. In FIG. 6, the event of the first layer and the event of the second layer (the event two layers lower than the top event, for example, the loss of the function of the WEB server 1) are connected by the above logical symbols. ing. Further, in FIG. 6, the event of the second layer and the event of the third layer (the event three layers lower than the top event, for example, the loss of the function of the
このようなフォルトツリーにおいては、頂上事象から基本事象への階層的な論理関係が示される際に、各事象(第1階層の事象、第2階層の事象、第3階層の事象、基本事象)には、ハードウェアに関する故障事象だけでなく、ソフトウェアに関する故障事象が存在している。作成されたフォルトツリーは、フォルトツリー−ロジック変換部33に送られる。
In such a fault tree, when a hierarchical logical relationship from the top event to the basic event is shown, each event (the event of the first layer, the event of the second layer, the event of the third layer, the basic event) In addition to hardware failure events, there are software failure events. The created fault tree is sent to the fault tree-
フォルトツリー−ロジック変換部33は、フォルトツリーのデータをブール代数を用いて、後述の所定の関係式に変換する。具体的な説明は以下の通りである。
The fault tree-
図6〜図12において、所定の事象(例えば、WEBサーバ1ソフトウェアの機能喪失)と、複数の下位の事象(WEBサーバ1ソフトウェアのOSの故障、アプリケーションの故障、ミドルウェアの故障、WEBサーバ1ソフトウェアに関するユーザの入力ミス)とがOR記号で接続されている場合、上記複数の下位の事象のうちいずれかが発生する(例えば、OSの故障)と上記所定の事象も発生する。このため、所定の事象とこの所定の事象の下位の事象とがOR記号で接続されているとき、所定の事象に対応する不稼働率(=1−稼働率)をqとし、上記所定の事象の下位の事象に対応する不稼働率をqjとした場合、ブール代数を用いて、所定の事象の不稼働率qは、以下の数2式によって算出される。
ここで、Nは下位の事象の総数である。 Here, N is the total number of lower events.
また、図6〜図12において、所定の事象(例えば、WEBサーバ群の機能喪失)と、複数の下位の事象(WEBサーバ1の機能喪失、WEBサーバ2の機能喪失)とがAND記号で接続されている場合、上記複数の下位の事象の全てが発生する(例えば、WEBサーバ1の機能喪失、WEBサーバ2の機能喪失)と、上記所定の事象が発生する。このため、所定の事象と、複数の下位の事象とがAND記号で接続されているとき、所定の事象に対応する不稼働率(=1−稼働率)をqとし、上記所定の事象の下位の事象に対応する不稼働率をqjとした場合、ブール代数を用いて、所定の事象の不稼働率qは、以下の数3式によって算出される。
ここで、Nは下位の事象の総数である。 Here, N is the total number of lower events.
フォルトツリー−ロジック変換部33では、図6〜図12のフォルトツリーと、数2式と数3式を用いて、フォルトツリーのデータを、頂上事象の不稼働率qに関する所定の関係式に変換する。この所定の関係式においては、頂上事象に対応する不稼働率qは、例えば、qj(qjは、基本事象の不稼働率、j=1〜N、Nは基本事象の数)を用いた所定の式で表される。上記所定の関係式は、稼働率算出部34に送られる。
The fault tree-
稼働率算出部34は、フィールドデータ分析部31による分析結果としての分析情報(算出された各故障モードの故障確率、平均修復時間)に基づいて、ハードウェア構成要素、ソフトウェア構成要素の故障モードに対応する不稼働率を算出する不稼働率算出機能と、算出された不稼働率を、ハードウェア構成要素、ソフトウェア構成要素の故障モードに相当する基本事象に対応する不稼働率とした場合、基本事象に対応する不稼働率(例えば、ディスク不良によるハードディスクの不稼働率)と、頂上事象の不稼働率qに関する所定の関係式とに基づいて、頂上事象に対応する稼働率をシステム稼働率として算出するシステム稼働率算出機能とを有する。すなわち、稼働率算出部34は、不稼働率算出部及びシステム稼働率算出部として機能する。具体的な説明は以下の通りである。
Based on the analysis information (the calculated failure probability of each failure mode, average repair time) as an analysis result by the field
稼働率算出部34は、先ず、フォルトツリーに含まれる各基本事象に対応する稼働率を、モンテカルロシミュレーションを用いた評価によって算出する。基本事象に対応する稼働率は、例えば、1−(基本事象に対応する不稼働率)により算出される。なお、フィールドデータ分析部31は、算出した各故障モードの故障確率F(t)を稼働率算出部34に出力している。故障確率F(t)は、時間tまでの間に故障が発生する確率を示すものである。また、故障率p(t)は、各故障モードが修復された時間0から時間tまでの間に正常状態であり、時間tにおいて単位時間当たりに故障が発生する確率(p(t)=(dF(t)/dt)/(1−F(t)))としている。稼働率算出部34は、各基本事象に対応する稼働率を以下のようにして算出する。
First, the operating
(1)稼働率算出部34は、シミュレーション評価開始時刻(以下、評価開始時刻)をt0とし、シミュレーション評価終了時刻(以下、評価終了時刻)をteとした場合に、評価開始時刻t0では、基本事象に対応する故障が発生せず、基本事象に対応するハードウェア構成要素又はソフトウェア構成要素は正常状態であると認識する。即ち、稼働率算出部34は、基本事象に対応する故障が発生する確率F(t0)、故障率p(t0)は、ともに0と認識する。
(1) operating
(2)シミュレーション評価時刻(以下、評価時刻)t0から評価時刻t0+dt(=t1)までの間に、基本事象に対応する故障が発生する確率(基本事象に対応するハードウェア構成要素又はソフトウェア構成要素が故障する確率)をp(t0+dt/2)dtとする。稼働率算出部34は、上述の確率p(t0+dt/2)dtと、0から1の範囲で発生した乱数r1とを比較し、p(t0+dt/2)dt≧r1の場合には、ハードウェア構成要素又はソフトウェア構成要素(以下、単に構成要素という)が基本事象に対応する故障状態に遷移したと認識する。稼働率算出部34は、上述の遷移したと認識したときから、基本事象に対応する故障が修復し、構成要素が正常状態に戻るまでの時間を、基本事象に対応する累積稼働時間に加算しない。基本事象に対応する累積稼動時間とは、評価開始時刻から評価終了時刻までの間に、基本事象に対応する構成要素が稼動している時間を示すものである。稼働率算出部34は、基本事象に対応する故障時間0にdtを加算する。基本事象に対応する故障時間とは、基本事象に対応する構成要素が故障している時間を示すものであり、いったん、構成要素が正常状態に戻ると、0にクリアされる。
(2) Probability that a failure corresponding to the basic event will occur between the simulation evaluation time (hereinafter referred to as evaluation time) t 0 and the evaluation time t 0 + dt (= t 1 ) (hardware component corresponding to the basic event) Or, the probability that the software component will fail) is p (t 0 + dt / 2) dt. The operating
稼働率算出部34は、上述の基本事象に対応する故障が発生する確率と、0から1の範囲で発生した乱数r1とを比較し、p(t0+dt/2)dt<r1の場合には、構成要素が正常状態のままであると認識する。この場合、稼働率算出部34は、基本事象に対応する累積稼働時間0に時間dtを加算する。
The
(3)次に、稼働率算出部34は、評価時刻t1から評価時刻t1+dt(=t2)までの間における基本事象に対応する構成要素の状態遷移について評価する。
(3) Next, the operation
評価時刻t1で基本事象に対応する構成要素が正常状態である場合には、稼働率算出部34は、上と同様の処理を行う。具体的には以下の通りである。上述と同様にして、評価時刻t1から評価時刻t1+dtまでの間では、基本事象に対応する構成要素が故障する確率はp(t1+dt/2)dtとなる。
If the components in evaluation time t 1 corresponding to the basic event is normal state, operating
稼働率算出部34は、確率p(t1+dt/2)dtと、0から1の範囲で発生した乱数r2とを比較し、p(t1+dt/2)dt≧r2の場合には、構成要素が故障状態に遷移したと認識する。稼働率算出部34は、上述の遷移したと認識したときから、基本事象に対応する故障が修復し、構成要素が正常状態に戻るまでの時間を、基本事象に対応する累積稼働時間に加算しない。稼働率算出部34は、基本事象に対応する故障時間にdtを加算する。
The operation
稼働率算出部34は、上述の確率p(t1+dt/2)dtと、0から1の範囲で発生した乱数r2とを比較し、p(t1+dt/2)dt<r2の場合には、構成要素が正常状態のままであると認識する。この場合、稼働率算出部34は、基本事象に対応する累積稼働時間に時間dtを加算する。
The operation
さらに、評価時刻t1をt2(=t1+dt)、t3(=t2+dt)、t4(=t3+dt)、...、tn(=tn−1+dt)、...と、dtずつ増加させて、上述の(3)の処理を繰り返す。
Additionally, the evaluation time t 1 t 2 (= t 1 + dt), t 3 (=
なお、稼働率算出部34は、上述の処理と並行して、基本事象に対応する故障時間と、基本事象に対応する故障モードの平均修復時間とを比較し、基本事象に対応する故障時間が、上記平均修復時間に到達したか否かを判定する。稼働率算出部34は、基本事象に対応する故障時間が、上記平均修復時間に到達した場合には、基本事象に対応する構成要素は正常状態に戻ったと認識する。この場合、稼働率算出部34は、基本事象に対応する故障時間を0にリセットし、故障率及び故障確率も0にリセットする。そして、故障率等がリセットされた時刻をtmとした場合、稼働率算出部34は、(4)の処理を行う。
In addition, in parallel with the above-described processing, the operation
(4)評価時刻tmから評価時刻tm+dt(=tm+1)までの間に、基本事象に対応する故障が発生する時間間隔当たりの故障発生確率をp(tm−tm+dt/2)dtとする。稼働率算出部34は、上述の確率p(tm−tm+dt/2)dtと、0から1の範囲で発生した乱数r3とを比較し、p(tm−tm+dt/2)dt≧r3の場合には、構成要素が基本事象に対応する故障状態に遷移したと認識する。稼働率算出部34は、上述の遷移したと認識したときから、基本事象に対応する故障が修復し、構成要素が正常状態に戻るまでの時間を、基本事象に対応する累積稼働時間に加算しない。稼働率算出部34は、基本事象に対応する故障時間0にdtを加算する。基本事象に対応する故障時間とは、基本事象に対応する構成要素が故障している時間を示すものであり、いったん、構成要素が正常状態に戻ると、0にクリアされる。
(4) evaluation time t m from evaluation time t m + dt (= t m + 1) until the failure probability per time interval a failure corresponding to the basic event occurs p (t m -t m + dt / 2 ) Dt. The operating
稼働率算出部34は、上述の基本事象に対応する故障が発生する確率と、0から1の範囲で発生した乱数r3を比較し、p(tm−tm+dt/2)dt<r3の場合には、構成要素が正常状態のままであると認識する。この場合、稼働率算出部34は、基本事象に対応する累積稼働時間に時間dtを加算する。
The operation
次に、稼働率算出部34は、評価時刻tm+1から評価時刻tm+1+dt(=tm+2)までの間における基本事象に対応する構成要素の状態遷移について評価する。
Next, the operation
評価時刻tm+1で基本事象に対応する構成要素が正常状態である場合には、稼働率算出部34は、上述と同様の処理を行う。具体的には以下の通りである。上述と同様にして、評価時刻tm+1から評価時刻tm+1+dtまでの間では、基本事象に対応する構成要素の故障が発生する時間間隔当たりの故障発生確率をp(tm+1−tm+dt/2)dtとする。
When the component corresponding to the basic event is in a normal state at the evaluation time t m + 1 , the operation
稼働率算出部34は、確率p(tm+1−tm+dt/2)dtと、0から1の範囲で発生した乱数r4とを比較し、p(tm+1−tm+dt/2)dt≧r4の場合には、構成要素が故障状態に遷移したと認識する。稼働率算出部34は、上述の遷移したと認識したときから、基本事象に対応する故障が修復し、構成要素が正常状態に戻るまでの時間を、基本事象に対応する累積稼働時間に加算しない。稼働率算出部34は、基本事象に対応する故障時間にdtを加算する。
The
稼働率算出部34は、上述の確率p(tm+1−tm+dt/2)dtと、0から1の範囲で発生した乱数r4とを比較し、p(tm+1−tm+dt/2)dt<r4の場合には、構成要素が正常状態のままであると認識する。この場合、稼働率算出部34は、基本事象に対応する累積稼働時間に時間dtを加算する。
The operation
さらに、評価時刻をtm+3(=tm+2+dt)、tm+4(=tm+3+dt)、...、tn(=tn−1+dt)、...と、dtずつ増加させて、上述の処理を繰り返す。 Further, the evaluation times are t m + 3 (= t m + 2 + dt), t m + 4 (= t m + 3 + dt),. . . , T n (= t n−1 + dt),. . . And incrementing by dt and repeating the above process.
なお、稼働率算出部34は、上述の処理と並行して、基本事象に対応する故障時間と、基本事象に対応する故障モードの平均修復時間とを比較し、基本事象に対応する故障時間が、上記平均修復時間に到達したか否かを判定する。稼働率算出部34は、基本事象に対応する故障時間が、上記平均修復時間に到達した場合には、基本事象に対応する構成要素は正常状態に戻ったと認識する。この場合、稼働率算出部34は、基本事象に対応する故障時間を0にリセットし、故障率及び故障確率も0にリセットする。そして、故障率等がリセットされた時刻をtkとした場合、稼働率算出部34は、上述の(4)の処理でtmをtkで置き換えた処理を行う。
In addition, in parallel with the above-described processing, the operation
(5)稼働率算出部34は、上述の(2)と(3)と(4)の処理を、評価時刻がteとなるまで繰り返す。
(5) operating
なお、平均修復時間の代わりに、稼働率算出部34に予め設定された各故障モードの修復時間が用いられても良い。
Instead of the average repair time, the repair time for each failure mode preset in the operation
評価時刻がteに達した場合、稼働率算出部34は、基本事象に対応する累積稼動時間を評価時間(te−t0)で割った値を、基本事象に対応する稼働率として算出する。そして、稼働率算出部34は、同様にして、フォルトツリーに含まれる全ての基本事象について、上述のシミュレーション評価を行い、基本事象に対応する稼働率を算出する。
If the evaluation time has reached a t e, operating
なお、上述の説明は、基本事象に対応する構成要素が正常状態又は故障状態間で遷移する時間的な挙動をモンテカルロ法を用いたシミュレーションにより、基本事象に対応する稼働率を算出する手順を示したものである。上記の一連の手順から得られる状態遷移挙動(モンテカルロシミュレーションの分野ではこれをヒストリーと呼ぶ)は、確率的に予想されるあらゆるヒストリーの一つである。従って、この一つのヒストリーから算出される稼働率の値は、稼働率の統計的なばらつきの中の1点である。このため、稼働率の統計的な平均値を評価するためには、稼働率算出部34は、上記の一連の手順において、異なる乱数の発生を多数回繰り返して行い、多数のヒストリーを得た上で、稼働率の統計的な平均値を算出する必要がある。稼働率の統計的な平均値は、ヒストリー数を増すに従って特定の値に収束していく。上述の稼働率の算出のためのシミュレーション評価においては、予め評価すべき稼働率の評価誤差幅が設定され、上記手順の繰り返しが、稼働率の統計的な平均値の収束幅(変動幅)が上記評価誤差幅以下になるまで、行われるのが好ましい。
The above explanation shows the procedure for calculating the operating rate corresponding to the basic event by simulation using the Monte Carlo method of the temporal behavior in which the component corresponding to the basic event transitions between the normal state or the failure state. It is a thing. The state transition behavior obtained from the above sequence of procedures (called a history in the field of Monte Carlo simulation) is one of all the histories stochastically expected. Therefore, the value of the operating rate calculated from this one history is one point in the statistical variation of the operating rate. For this reason, in order to evaluate the statistical average value of the operation rate, the operation
次に、上述のシミュレーション評価で算出された基本事象に対応する稼働率から不稼働率(=1−稼働率)が分かるので、稼働率算出部34は、上記フォルトツリー−ロジック変換部33から送られた基本事象に対応する不稼働率q1、q2、...、qnと、頂上事象の不稼働率qに関する所定の関係式とに基づいて、頂上事象に対応する不稼働率をシステム不稼働率として算出し、それからシステム稼働率(=1−システム不稼働率)を算出する。
Next, since the non-operating rate (= 1-operating rate) is known from the operating rate corresponding to the basic event calculated by the above-described simulation evaluation, the operating
システム稼働率判定部35は、稼働率算出部34により算出されたシステム稼働率が、情報抽出・入力部2からのシステム稼働率基準値以上であるか否かを判定する。稼働率算出部34は、算出したシステム稼働率がシステム稼働率基準値より小さい場合には、その旨を示す情報を重要度分析部36に出力する。また、稼働率算出部34は、算出したシステム稼働率がシステム稼働率基準値以上の場合には、その旨を示す情報をコスト算出部40に出力する。
The system operation
重要度分析部36は、算出されたシステム稼働率がシステム稼働率基準値に達していないと判定された場合、基本事象に対応する不稼働率の変動と頂上事象に対応する不稼動率の変動との関係から、システム稼働率の上昇に関係する基本事象を抽出する基本事象抽出部である。具体的な説明は以下の通りである。
When it is determined that the calculated system operation rate has not reached the system operation rate reference value, the
重要度分析部36は、入力された上記その旨を示す情報に基づいて、稼働率算出部34により算出されたシステム不稼働率(=1−システム稼働率)に対して、各基本事象(ハードウェア構成要素の故障モード、ソフトウェア構成要素の故障モード)がどの程度影響を与えるかを解析する。例えば、重要度分析部36は、各基本事象の不稼働率(=1−稼働率)を変動させることにより、頂上事象のシステム不稼働率(=1−システム稼働率)の変動の寄与度を算出する。そして、重要度分析部36は、算出された寄与度に基づいて、システム不稼働率の減少、即ち、システム稼働率の上昇(改善)に重要な基本事象を抽出し、上記基本事象に対応する構成要素を抽出する。例えば、重要度分析部36は、各基本事象に対応する不稼働率の増減が、どの程度頂上事象に対応する不稼働率の増減に寄与するかを示す尺度である確率重要度を、基本事象ごとに算出する。
The
そして、重要度分析部36は、最も頂上事象に対応する稼働率の増加に寄与する基本事象(例えば、APサーバ2のAPサーバ2ソフトウェアにおけるOSの障害など)を抽出する。そして、重要度分析部36は、上記基本事象に対応する構成要素(例えば、APサーバ2ソフトウェア)を抽出する。重要度分析部36により抽出された情報は、変更可能性判定部37に送られる。
Then, the
変更可能性判定部37は、重要度分析部36で抽出された基本事象及び構成要素に基づいて、上記基本事象に対応する稼働率の上昇(基本事象に対応する不稼働率の低下)が可能であるか否かを判定する。具体的な説明は以下の通りである。
The change
システム管理データベース6には、各構成要素の故障モードに対応する故障確率の一覧データ(以下、故障確率一覧データ)が格納されている。また、システム管理データベース6には、各構成要素の故障モードに対応する平均修復時間の一覧データ(以下、平均修復時間一覧データ)が格納されている。故障確率一覧データに、所定の構成要素の故障モードに対応する故障確率が記録されている場合、上記故障確率で機動する構成要素が存在するとする。また、平均修復時間一覧データに、所定の構成要素の故障モードに対応する平均修復時間が記録されている場合、上記修復時間で故障が復旧することが可能であるとする。
The
変更可能性判定部37は、情報抽出・入力部2を介して送られてきた上記故障確率一覧データを参照して、抽出された基本事象に対応する故障確率(例えば、APサーバ1ソフトウェアX1のOSの障害に対応する故障確率A1)と、故障確率一覧データに記録されている、上記基本事象に相当する構成要素の故障モードに対応する故障確率(例えば、APサーバ1ソフトウェアX2のOSの障害に対応する故障確率B1、APサーバ1ソフトウェアX3のOSの障害に対応する故障確率C1、、、)とを比較する。なお、APサーバ1ソフトウェアX1、X2、X3は、機能は同じであるが、例えば、製造元が異なっている(機能を実現する性能などが異なる)。
The change
変更可能性判定部37は、故障確率一覧データに含まれる上記基本事象に相当する構成要素の故障モードに対応する故障確率のうち、上記基本事象に対応する現在の故障確率より小さいものがあるか否かを判定する。変更可能性判定部37は、上記基本事象に対応する現在の故障確率より小さいものがある場合には、上記基本事象に対応する稼働率の上昇(上記基本事象に対応する不稼働率の低下)が可能であると判定し、故障情報再設定部39に、稼働率の上昇(不稼働率の低下)に関係する上記基本事象に相当する構成要素の故障モードに対応する故障確率を出力する。
Whether the change
一方、変更可能性判定部37は、上記基本事象に対応する現在の故障確率より小さいものがない場合には、以下の処理を行う。
On the other hand, if there is no change
変更可能性判定部37は、情報抽出・入力部2を介して送られてきた上記平均修復時間一覧データを参照して、抽出された基本事象に相当する故障モードの平均修復時間と、一覧データに記録されている、上記基本事象に相当する構成要素の故障モードに対応する平均修復時間とを比較し、一覧データに含まれる上記基本事象に相当する構成要素の故障モードに対応する平均修復時間のうち、上記平均修復時間より小さいものがあるか否かを判定する。変更可能性判定部37は、小さいものがある場合には、上記基本事象に対応する稼働率の上昇(上記基本事象に対応する不稼働率の低下)が可能であると判定し、故障情報再設定部39に、稼働率の上昇(不稼働率の低下)に関係する上記基本事象に相当する故障モードの平均修復時間を出力する。
The change
一方、変更可能性判定部37は、故障確率一覧データのなかに、上記基本事象に対応する現在の稼働率より大きいものがなく、平均修復時間一覧データのなかに、上記基本事象に対応する故障モードの平均修復時間より小さいものがない場合には、抽出された基本事象に対応する不稼働率の低下が可能でないことを示す情報をシステム構成再設定部38に出力する。
On the other hand, the change
故障情報再設定部39は、抽出された基本事象に対応する不稼働率の低下が可能な場合に、抽出された基本事象に対応する新たな分析情報として、抽出された基本事象に対応する新たな故障確率を稼働率算出部34に再設定する。システム構成再設定部38は、抽出された基本事象に対応する不稼働率の低下が可能でない場合には、新たなシステム構成情報及び新たな故障モードに対応する故障に関する情報を情報抽出・入力部2に再設定する。なお、故障情報再設定部39及びシステム構成再設定部38は、第1再設定部を構成する。具体的な説明は以下の通りである。
When the failure rate corresponding to the extracted basic event can be reduced, the failure
故障情報再設定部39は、基本事象に相当する構成要素の故障モードに対応する故障確率が変更可能性判定部37から入力された場合、上記故障確率を、稼働率算出部34に再設定する。この場合、稼働率算出部34は、各基本事象に対応する故障確率を保持しており、故障情報再設定部39により上記基本事象に対応する故障確率が再設定された場合、再設定された基本事象に対応する故障確率と、上記基本事象以外の基本事象の故障確率とに基づいて、システム稼働率の算出を行う。その後、上述したようなシステム稼働率の算出が行われた後の処理が再度行われる。
The failure
また、故障情報再設定部39は、基本事象に相当する構成要素の故障モードに対応する平均修復時間が変更可能性判定部37から入力された場合、上記平均修復時間を、稼働率算出部34に再設定する。この場合、稼働率算出部34は、各基本事象に対応する平均修復時間を保持しており、故障情報再設定部39により上記基本事象に対応する平均修復時間が再設定された場合、再設定された基本事象に対応する平均修復時間と、上記基本事象以外の基本事象の平均修復時間とに基づいて、システム稼働率の算出を行う。その後、上述したようなシステム稼働率の算出が行われた後の処理が再度行われる。
Further, the failure
システム構成再設定部38は、システムの評価者により入力された新たなシステム構成、新たなシステム機能構成情報10、新たなシステム基準情報12、新たな信頼性関連情報11、新たなコスト関連情報13を、情報抽出・入力部2に再設定する。その後、上述したように、フィールドデータ分析部31による処理以降の処理が行われる。
The system
コスト算出部40は、システム稼働率判定部35により、算出されたシステム稼働率がシステム稼働率基準値に達していると判定された場合、情報システムに含まれる構成要素の設備費の総和を算出するとともに、稼働率算出部34により算出されたシステム稼働率と、システム停止損害額と、運用期間とに基づいて、営業損害額期待値を算出し、上記総和と営業損害額期待値との和を、コスト費として算出する。具体的な説明は以下の通りである。
The
コスト算出部40は、情報抽出・入力部2から送られたコスト関連情報13とシステム稼働率基準値とに基づいて、以下の処理を行う。コスト算出部40は、先ず、コスト関連情報13に含まれる各構成要素の設備費の総和を算出する。次に、コスト算出部40は、算出されたシステム稼働率と、システム停止損害額と、運用期間とに基づいて、情報システムを所定期間運用させる場合にシステム停止による営業上の損害額の期待値を示す営業損害額期待値を算出する。営業損害額期待値は、例えば、以下の数4式で表される。
The
〔数4〕
営業損害額期待値=(1−算出されたシステム稼働率)×システム停止損害額×運用期間
コスト算出部40は、算出したコスト費をコスト判定部41に出力する。
[Equation 4]
Expected operating loss amount = (1−calculated system operation rate) × system stoppage loss × operation period The
コスト判定部41は、算出されたコスト費と、情報抽出・入力部2から送られたコスト許容値とを比較し、コスト費がコスト許容値より小さい場合には、システム稼働率基準値及びコスト許容値を満たすシステム構成などの情報を、情報出力部5に出力する。これにより、情報出力部5から出力されたシステム構成などの情報は、ユーザ端末7にて表示される。コスト判定部41は、コスト費がコスト許容値より大きい場合には、その旨を示す情報をコスト情報再設定部42に出力する。
The
コスト情報再設定部42は、計算されたコスト費が、コスト許容値を超えていると判定された場合には、新たなコスト許容値と、新たなシステム稼働率基準値と、新たなシステム構成情報(例えば、新たなシステム機能構成情報10、システム基準情報12のうち新たなシステム構成、新たなコスト関連情報13)及び新たな故障モードに対応する故障に関する情報(例えば、新たな信頼性関連情報11)のうち、いずれか1以上の情報を情報抽出・入力部2に再設定する第2再設定部である。具体的には、以下の通りである。
When it is determined that the calculated cost cost exceeds the allowable cost value, the cost
コスト情報再設定部42は、例えば、情報出力部5に、新たなコスト許容値、システム稼働率基準値、新たなシステムに関する情報のうち、いずれかの情報を入力するように指示する情報を、出力させる。ユーザがユーザ端末7により、いずれかの情報を入力すると、コスト情報再設定部42に出力される。
The cost
コスト情報再設定部42は、新たなコスト許容値が入力された場合には、新たなコスト許容値を情報抽出・入力部2に再設定する。これにより、新たなコスト許容値は、コスト判定部41に送られ、新たなコスト許容値に基づいて、コスト判定部41による処理が再度行われる。
The cost
コスト情報再設定部42は、新たなシステム稼働率基準値が入力された場合には、上記新たなシステム稼働率基準値を情報抽出・入力部2に再設定する。これにより、新たなシステム稼働率基準値は、システム稼働率判定部35に送られ、新たなシステム稼働率基準値に基づいて、システム稼働率判定部35による処理以降の処理が行われる。
The cost
コスト情報再設定部42は、新たなシステムに関する情報が入力された場合、この情報を情報抽出・入力部2に再設定する。そして、上述したように、フィールドデータ分析部31による処理以降の処理が行われる。
The cost
(信頼性評価方法)
次に、上述した構成を有する信頼性評価システムを用いた信頼性評価方法を以下に説明する。この信頼性評価は、情報システムの運用中行われる。なお、信頼性評価方法の説明において、上述の信頼性評価システムにおける説明と同じ説明は、省略する。
(Reliability evaluation method)
Next, a reliability evaluation method using the reliability evaluation system having the above-described configuration will be described below. This reliability evaluation is performed during operation of the information system. In the description of the reliability evaluation method, the same description as that in the above-described reliability evaluation system is omitted.
先ず、情報システムの信頼性の評価を行う者(評価者)は、定期的に、ユーザ端末7を用いて、ハードウェア構成要素、ソフトウェア構成要素の故障モードの故障間隔、修復時間の実測値を入力する。 First, the person (evaluator) who evaluates the reliability of the information system periodically uses the user terminal 7 to obtain the measured values of the failure interval of the hardware component, the failure mode of the software component, and the repair time. input.
情報処理・演算部3は、故障モードの故障間隔、修復時間の実測値を、信頼性関連情報11として、システム管理データベース6に格納する。
The information processing / arithmetic unit 3 stores the failure mode failure interval and the actually measured repair time as reliability-related
上述の処理と並行して、以下の信頼性評価が行われる。図13は、上述した構成を有する信頼性評価システムを用いた信頼性評価方法を説明するためのフローチャート図である。 In parallel with the above-described processing, the following reliability evaluation is performed. FIG. 13 is a flowchart for explaining a reliability evaluation method using the reliability evaluation system having the above-described configuration.
図13に示すように、ステップS10では、評価者は、ユーザ端末7を用いて、情報システムの信頼性評価の指示を入力する。この際、情報システムを特定する情報も入力される。 As shown in FIG. 13, in step S <b> 10, the evaluator inputs an instruction for reliability evaluation of the information system using the user terminal 7. At this time, information specifying the information system is also input.
ステップ15では、情報抽出・入力部2は、情報システムの信頼性評価の指示に基づいて、システム管理データベース6から、上記情報システムを特定する情報に対応するシステム機能構成情報10、信頼性関連情報11、コスト関連情報13、システム基準情報12を抽出する。これにより、システム機能構成情報10などの情報が、情報抽出・入力部2に入力される。
In step 15, the information extraction /
ステップ20では、フィールドデータ分析部31は、入力された情報に基づいて、ハードウェア構成要素、ソフトウェア構成要素における故障モードの障害情報の分析として、故障モードの故障確率、平均修復時間を算出し、算出した故障確率、平均修復時間を分析情報として取得する。なお、フィールドデータ分析部31は、情報抽出・入力部2から入力された情報を保持するとともに、算出した故障確率、平均修復時間を保持する。
In
ステップ25では、フォルトツリー作成部32は、システム機能構成情報10、システム基準情報12に含まれるシステム構成に基づいて、上述したフォルトツリーを作成する。
In step 25, the fault
ステップ30では、フォルトツリー−ロジック変換部33では、作成されたフォルトツリーと、数2式と数3式を用いて、フォルトツリーのデータを、頂上事象の不稼働率qに関する所定の関係式に変換する。
In step 30, the fault tree-
ステップ35では、稼働率算出部34は、フィールドデータ分析部31により得られた分析情報、即ち、算出された各故障モードの故障確率、平均修復時間に基づいて、ハードウェア構成要素、ソフトウェア構成要素の故障モードに対応する不稼働率を算出する。そして、稼働率算出部34は、算出された基本事象に対応する不稼働率と、頂上事象の不稼働率qに関する所定の関係式とに基づいて、頂上事象に対応するシステム稼働率を算出する。ここで、稼働率算出部34は、算出した各基本事象に対応する不稼働率及びシステム稼働率、各基本事象に対応する故障確率及び平均修復時間を保持する。
In
ステップ40では、システム稼働率判定部35は、算出されたシステム稼働率がシステム稼働率基準値以上であるか否かを判定する。算出したシステム稼働率がシステム稼働率基準値より小さいと判定された場合には、ステップ45の処理が行なわれ、算出したシステム稼働率がシステム稼働率基準値以上と判定された場合には、ステップ70の処理が行われる。
In
ステップ45では、重要度分析部36は、システム稼働率の上昇に関係する基本事象を抽出し、この基本事象に対応する構成要素も抽出する。
In step 45, the
ステップ50では、変更可能性判定部37は、抽出された基本事象及び構成要素に基づいて、上記基本事象に対応する稼働率の上昇(基本事象に対応する不稼働率の低下)が可能であるか否かを判定する。上記稼働率の上昇が可能であると判定された場合には、ステップ55の処理が行われ、上記稼働率の上昇が可能でないと判定された場合には、ステップ60の処理が行われる。
In step 50, the change
ステップ55では、故障情報再設定部39は、抽出された基本事象に対応する新たな分析情報として、抽出された基本事象に対応する新たな故障確率又は平均修復時間を稼働率算出部34に再設定する。抽出された基本事象に対応する新たな故障確率が稼働率算出部34に再設定された場合には、稼働率算出部34は、保持している各基本事象に対応する故障確率のうち、抽出された基本事象に対応する故障確率を、新たな故障確率に書き換える。そして、稼働率算出部34は、抽出された基本事象に対応する新たな故障確率と、抽出された基本事象以外の基本事象の故障確率(保持していた情報)とに基づいて、再度ステップ35におけるシステム稼働率の算出処理を行う。その後、ステップ40以降の処理が行われる。
In
抽出された基本事象に対応する故障モードの新たな平均修復時間が稼働率算出部34に再設定された場合には、稼働率算出部34は、保持している各基本事象に対応する平均修復時間のうち、抽出された基本事象に対応する平均修復時間を、新たな平均修復時間に書き換える。そして、稼働率算出部34は、抽出された基本事象に対応する新たな平均修復時間と、抽出された基本事象以外の基本事象の平均修復時間(保持していた情報)とに基づいて、再度ステップ35におけるシステム稼働率の算出処理を行う。その後、ステップ40以降の処理が行われる。
When the new average repair time of the failure mode corresponding to the extracted basic event is reset in the operating
ステップ60では、システム構成再設定部38は、評価者により入力された新たなシステム構成、新たなシステム機能構成情報10、新たなシステム基準情報12、新たな信頼性関連情報11、新たなコスト関連情報13を、情報抽出・入力部2に再設定する。具体的には、システム構成再設定部38は、ユーザ端末7に、新たなシステム構成等の情報を入力するように指示する情報を表示させる。評価者が、ユーザ端末7を用いて、新たなシステム構成等の情報を入力すると、システム構成再設定部38に出力される。
In
新たなシステム構成等の情報が情報抽出・入力部2に再設定された場合、情報抽出・入力部2は、再設定された情報(新たなシステム構成、新たなシステム機能構成情報10、新たなシステム基準情報12、新たな信頼性関連情報11、新たなコスト関連情報13)をフィールドデータ分析部31に出力する。そして、ステップ20以降の処理が再度行われる。
When information such as a new system configuration is reset in the information extraction /
ステップ70では、コスト算出部40は、上述したコスト費を算出する。コスト算出部40による算出処理の詳細なフローチャート図を図14に示す。図14に示すように、ステップ71では、コスト算出部40は、コスト関連情報13に含まれる各構成要素の設備費の総和を算出する。ステップ72では、コスト算出部40は、営業損害額期待値を算出する。ステップ73では、コスト算出部40は、各構成要素の設備費の総和と、営業損害額期待値との和をコスト費として算出する。
In step 70, the
ステップ75では、コスト判定部41は、算出されたコスト費がコスト許容値を超えているか否かを判定し、算出されたコスト費がコスト許容値を超えていない場合には、ステップ90の処理が行われ、算出されたコスト費がコスト許容値を超えている場合には、ステップ80の処理が行われる。
In
ステップ80では、コスト情報再設定部42は、評価者により入力された新たなコスト許容値、システム稼働率基準値、新たなシステムに関する情報(新たなシステム構成及び新たなシステム機能構成情報10、新たなシステム基準情報12、新たな信頼性関連情報11、新たなコスト関連情報13)のうち、いずれかの情報を情報抽出・入力部2に再設定する。
In step 80, the cost
新たなコスト許容範囲が情報抽出・入力部2に再設定された場合には、情報抽出・入力部2は、新たなコスト許容範囲を、コスト判定部41に出力する。コスト判定部41は、算出されたコスト費と、新たなコスト許容範囲とを用いた判定処理を再度行う。
When a new cost allowable range is reset in the information extraction /
新たなシステム稼働率基準値が情報抽出・入力部2に再設定された場合には、情報抽出・入力部2は、上記新たなシステム稼働率基準値をシステム稼働率判定部35に出力する。システム稼働率判定部35は、算出されたシステム稼働率と、上記新たなシステム稼働率基準値とを用いた判定処理を再度行う。その後、ステップ45以降の処理又はステップ70以降の処理が行われる。
When a new system operation rate reference value is reset in the information extraction /
新たなシステムに関する情報が入力された場合、この情報は、情報抽出・入力部2に再設定される。そして、上述したように、再設定された情報に基づいて、ステップ20以降の処理が行われる。
When information on a new system is input, this information is reset in the information extraction /
ステップ90では、情報出力部5は、ユーザ端末7に、システム機能構成情報10、システム基準情報12などの情報を出力する。これにより、ユーザ端末7には、システム機能構成情報10、システム基準情報12などの情報(システム稼働率基準値及びコスト許容値を満たす情報システムの構成に関する情報)が表示される。
In step 90, the
(作用効果)
本発明によれば、情報システムの信頼性評価の対象の構成要素には、ハードウェアだけでなく、ソフトウェアも含まれるので、情報抽出・入力部2に入力される信頼性評価に必要な情報(例えば、システム機能構成情報10など)は、ハードウェアだけでなく、ソフトウェアも考慮した情報となっている。そして、情報抽出・入力部2に入力された情報に基づいて、フィールドデータ分析部31からシステム稼働率判定部35までの処理が行われる。そして、システム稼働率判定部35により、算出されたシステム稼働率がシステム稼働率基準値に達していないと判定された場合には、重要度分析部36から変更可能性判定部37までの処理の後、システム構成再設定部38又は故障情報再設定部39による処理が行われ、再設定された情報に基づいて、システム稼働率判定部35の処理が行われ、算出されたシステム稼働率がシステム稼働率基準値に達するまで、上述の処理の繰り返しが可能となる。
(Function and effect)
According to the present invention, since not only hardware but also software is included in the components of the reliability evaluation target of the information system, information necessary for reliability evaluation input to the information extraction / input unit 2 ( For example, the system function configuration information 10) is information that considers not only hardware but also software. Based on the information input to the information extraction /
また、従来と異なりハードウェアの故障事象だけでなくソフトウェアの故障事象も考慮してシステム稼働率の評価を行っているので、評価されたシステム稼働率に対応するシステム機能構成情報10やシステム基準情報12に従って、情報システムの構成を変更して運用させたときに、システム稼働率が、システム稼働率基準値を下回ってしまう事態が回避される。この結果、情報システムの設計のやり直しが多くなる事態が回避され、情報システムの設計者の負担が軽減される。従って、本実施形態によれば、システム稼働率を良好にするとともに、情報システムの設計を行う設計者の負担の軽減が可能にすることができる。
Also, since the system operation rate is evaluated in consideration of not only the hardware failure event but also the software failure event unlike the conventional case, the system
また、システム信頼性の評価を行う者は、情報システムの運用に関連するソフトウェアを構成するプログラム内容が理解できれば、プログラム内容と情報システムの故障との関係を知ることができ、この関係により、システム稼働率の評価を行うことができたが、実際には、ソフトウェアのプログラム内容を理解できる場合は少ない。このため、従来では、ソフトウェアを考慮して、システム稼働率の評価が行われておらず、ソフトウェアの故障事象も考慮してシステム稼働率の評価を行う場合には、システム信頼性の評価を行う者は、ソフトウェアのプログラム内容を理解する必要があり、上記評価を行う者の負担を増加させてしまうことになってしまった。 Also, if the person who evaluates the system reliability understands the program contents that make up the software related to the operation of the information system, it can know the relationship between the program contents and the failure of the information system. Although we were able to evaluate the operating rate, there are actually few cases where the contents of the software program can be understood. For this reason, in the past, evaluation of system availability was not performed in consideration of software, and system reliability was evaluated when evaluation of system availability was also considered in consideration of software failure events. The person needs to understand the contents of the software program, which increases the burden on the person who performs the evaluation.
本実施形態では、ソフトウェアを構成するプログラム内容がわからなくとも、ハードウェアの故障事象だけでなくソフトウェアの故障事象も考慮してシステム稼働率の評価を行えるので、システム信頼性の評価を行う者の負担を軽減できる。 In this embodiment, the system operation rate can be evaluated in consideration of not only hardware failure events but also software failure events without knowing the program contents constituting the software. The burden can be reduced.
また、本実施形態によれば、フィールドデータ分析部31は、情報抽出・入力部2により入力された情報のうち、故障モードに対応する故障に関する情報(障害情報)を、機器群及び故障モードごとに分類し、分類結果に基づいて、上記分析を行うので、故障モードごとに分析処理を行う際に、分析処理と関係ない情報に関する処理を行わずにすみ、分析処理を速やかに行うことが可能となる。
In addition, according to the present embodiment, the field
また、本実施形態によれば、フィールドデータ分析部31は、ワイブル分布を用いて、故障モードの故障確率を算出するので、故障モードの故障確率を算出する処理が速やかに行われ、この結果、構成要素の不稼働率も速やかに算出されることが可能となる。また、構成要素として、ソフトウェア、ハードウェアとを区別することなく、故障モードの故障確率の算出が可能となるので、ソフトウェア、ハードウェアとを区別して、故障モードの故障確率の算出を行う場合に比べて、フィールドデータ分析部31の負荷が軽減される。
In addition, according to the present embodiment, the field
また、本実施形態によれば、システム稼働率判定部35により、算出されたシステム稼働率がシステム稼働率基準値に達していると判定された場合、コスト算出部40は、情報システムに含まれる構成要素の設備費の総和と、営業損害額期待値とを算出し、算出した営業損害額期待値と情報システムに含まれる構成要素の設備費の総和との和を、コスト費として算出し、コスト判定部41は、算出されたコスト費がコスト許容値を超えている否かを判定し、算出されたコスト費が、コスト許容値を超えていると判定された場合には、コスト情報再設定部42は、新たなコスト許容値と、新たなシステム稼働率の基準値と、新たなシステム構成情報及び新たな故障モードに対応する故障に関する情報とのうち、いずれかの情報を情報抽出・入力部2に再設定する。そして、再設定された情報に基づいて、システム稼働率判定部35の処理、コスト判定部41による処理が行われ、算出されたシステム稼働率がシステム稼働率基準値に達するとともに、算出されたコスト費が、コスト許容値内に抑えられるまで、上述の処理の繰り返しが可能となる。このため、システム稼働率を良好にするとともに、システムの実現や運用に必要なコストを抑えるようなシステムの提供が可能となる。なお、本実施形態では、情報システムの実現や運用に必要なコストとして、営業損害額まで考慮したコストを抑えるような情報システムの提供が可能となる。
Further, according to the present embodiment, when the system operation
(変更例)
(1)なお、フィールドデータ分析部31は、故障モードの故障確率の算出を以下のように行ってもよい。システム管理データベース6には、各故障モードごとに、故障モードの故障間隔(t1、t2、..)と、この故障間隔に対応づけられた故障確率(f(t1)、f(t2)..)の実測値データ(但し、シミュレーションなどにより算出されたデータでもよい)が格納されている。フィールドデータ分析部31は、情報抽出・入力部2により入力された故障モードの故障間隔(t1、t2、..)と、この故障間隔に対応づけられた故障確率(f(t1)、f(t2)..)の実測値データに基づいて、故障モードの故障確率分布を推定し、故障モードの故障確率(F(t))を算出するようにしてもよい。
(Example of change)
(1) The field
本変更例によれば、フィールドデータ分析部31は、故障モードの故障間隔と故障確率との関係を示すデータ(例えば、実測値データなど)を用いて、故障モードの故障確率を算出するので、故障モードの故障確率がより正確に算出され、この結果、構成要素の不稼働率もより正確に算出されることが可能となる。
According to the present modification example, the field
(2)また、上述の情報システムの信頼性評価システムは、情報システムの運用中に、動作されたが、これに限定されず、情報システムの設計段階に動作されてもよい。この場合、システム基準情報12のうち、システム構成は、システム構成案であり、システム稼働率基準値は、システム稼働率の設計基準値である。また、信頼性関連情報11は、情報システムの運用中に取得された実測値ではなく、予め設定された仕様値やシミュレーションなどで得られた予測値である。
(2) The above-described information system reliability evaluation system is operated during the operation of the information system, but is not limited thereto, and may be operated in the information system design stage. In this case, in the
(3)また、情報抽出・入力部2が、システム管理データベース6から、信頼性評価に必要な情報を抽出するようにしていたが、これに限定されず、情報抽出・入力部2には、ユーザ端末7により入力された信頼性評価に必要な情報が、入力されるようにしてもよい。また、図4及び図5に示す分類テーブルに含まれる障害情報には、故障モードの保守に関する情報が含まれていてもよい。そして、この保守に関する情報に基づいて、上述の平均修復時間が算出されてもよい。
(3) Further, the information extraction /
(4)また、上述の実施形態において、変更可能性判定部37は、以下のような処理を行うようにしてもよい。変更可能性判定部37は、抽出された基本事象の構成要素に対応する現在の故障確率より低い故障確率の構成要素が存在するか否かを問い合わせる情報をユーザ端末7に表示させる。
(4) Moreover, in the above-mentioned embodiment, the change
ユーザ端末7には、上記現在の故障確率より低い故障確率の構成要素が存在する場合には、その旨、構成要素及び故障確率が入力される。ユーザ端末7には、上記現在の故障確率より低い故障確率の構成要素が存在しない場合には、その旨が入力される。ユーザ端末7に入力された情報に基づいて、変更可能性判定部37は、抽出された基本事象に対応する構成要素に対応する現在の故障確率より低い故障確率の構成要素が存在するか否かを判定するようにしてもよい。
If there is a component having a failure probability lower than the current failure probability, the user terminal 7 is input with the component and the failure probability. If there is no component having a failure probability lower than the current failure probability, the user terminal 7 is input to that effect. Based on the information input to the user terminal 7, the change
同じく、変更可能性判定部37は、抽出された基本事象に対応する構成要素の故障モードに対応する現在の平均修復時間より短い平均修復時間の構成要素が存在するか否かを問い合わせる情報をユーザ端末7に表示させ、上述と同様にして、ユーザ端末7に入力された情報に基づいて、変更可能性判定部37は、抽出された基本事象に対応する構成要素の故障モードに対応する現在の平均修復時間より短い平均修復時間の構成要素が存在するか否かを判定するようにしてもよい。
Similarly, the change
(5)上述の実施形態では、ハードウェア構成要素、ソフトウェア構成要素に関する各種の情報(システム機能構成情報10、構成要素の故障モードに関する情報、コスト関連情報13)を用いて、上述の信頼性評価が行われたが、これに限定されず、ハードウェア構成要素により構成される構成要素群、ソフトウェア構成要素により構成される構成要素群に関する各種の情報を用いて、上述の信頼性評価が行われてもよい。例えば、ハードウェア構成要素がAPサーバ1のCPU、メモリ、ハードディスクの場合には、ハードウェア構成要素により構成される構成要素群とは、APサーバ1やAPサーバ群のことである。例えば、ソフトウェア構成要素がAPサーバ1ソフトウェアを構成するAPサーバ1ソフトウェア1、APサーバ1ソフトウェア2..の場合には、ソフトウェア構成要素により構成される構成要素群とは、APサーバ1ソフトウェアのことである。また、構成要素に関する各種の情報(システム機能構成情報10、構成要素の故障モードに関する情報、コスト関連情報13など)と、構成要素群に関する各種の情報(システム機能構成情報10、構成要素群の故障モードに関する情報、コスト関連情報13など)とに基づいて、上述の信頼性評価が行われてもよい。
(5) In the above-described embodiment, the above-described reliability evaluation is performed using various pieces of information related to hardware components and software components (system
これにより、構成要素単位の故障に関するデータがない場合でも、構成要素群単位の故障に関するデータがあれば、上述の信頼性評価が可能となるので、信頼性評価のための故障に関する詳細な情報がない場合に信頼性評価ができないといった事態が回避される。 As a result, even if there is no data related to the failure of the component unit, if there is data related to the failure of the component group unit, the above-described reliability evaluation becomes possible, so detailed information about the failure for reliability evaluation can be obtained. The situation where reliability evaluation cannot be performed when there is not is avoided.
(6)上述の実施形態では、コスト算出部40は、コスト費として、各構成要素の設備費の総和と、営業損害額期待値との和を算出していたが、これに限定されず、コスト費として、各構成要素の設備費の総和だけを算出してもよい。そして、コスト情報再設定部42は、新たなコスト許容範囲、新たなシステムに関する情報(新たなシステム構成及び新たなシステム機能構成情報10、新たなシステム基準情報12、新たな信頼性関連情報11、新たなコスト関連情報13)のうち、いずれか1以上の情報を情報抽出・入力部2に再設定するようにしてもよい。
(6) In the above-described embodiment, the
(信頼性評価プログラム)
なお、コンピュータは、本実施形態、変更例の情報抽出・入力部2、情報処理・演算部3、情報出力部5の機能を実行させるためのプログラム(情報システムの信頼性評価プログラム)を実行することにより、実施形態、変更例の情報システムの信頼性評価システムにおける処理を行うことができる。このようなプログラムによれば、実施形態、変更例で示した作用効果を奏する信頼性評価システムを、一般的な汎用コンピュータで容易に実現できる。
(Reliability evaluation program)
The computer executes a program (information system reliability evaluation program) for executing the functions of the information extraction /
また、プログラムは、コンピュータ読み取り可能な記録媒体に記録することができる。この記録媒体としては、図15に示すように、例えば、ハードディスク1100、フレキシブルディスク1200、コンパクトディスク1300、ICチップ1400、カセットテープ1500がある。このようなプログラムを記録した記録媒体によれば、プログラムの保存、運搬、販売などを容易に行うことができる。
The program can be recorded on a computer-readable recording medium. As this recording medium, there are, for example, a
以上、本発明の実施形態、その変更例の一例を説明したが、具体例を例示したに過ぎず、特に本発明を限定するものではなく、各部の具体的構成等は、適宜変更可能である。また、実施形態やその変更例に記載された作用及び効果は、本発明から生じる最も好適な作用及び効果を列挙したに過ぎず、本発明による作用及び効果は、本発明の実施形態やその変更例に記載されたものに限定されるものではない。 As mentioned above, although an example of the embodiment of the present invention and the example of the change has been described, the specific example is merely illustrated, the present invention is not particularly limited, and the specific configuration of each part can be appropriately changed. . Further, the actions and effects described in the embodiment and its modified examples are merely a list of the most preferable actions and effects resulting from the present invention, and the actions and effects according to the present invention are not limited to the embodiments of the present invention and modifications thereof. It is not limited to those described in the examples.
1…システム評価部、2…情報抽出・入力部、3…情報処理・演算部、5…情報出力部、6…システム管理データベース、7…ユーザ端末、10…システム機能構成情報、11…信頼性関連情報、12…システム基準情報、13…コスト関連情報、31…フィールドデータ分析部、32…フォルトツリー作成部、33…フォルトツリー−ロジック変換部、34…稼働率算出部、35…システム稼働率判定部、36…重要度分析部、37…変更可能性判定部、38…システム構成再設定部、39…故障情報再設定部、40…コスト算出部、41…コスト判定部、42…コスト情報再設定部、1100…ハードディスク、1200…フレキシブルディスク、1300…コンパクトディスク、1400…ICチップ、1500…カセットテープ。
DESCRIPTION OF
Claims (15)
前記構成要素又は前記構成要素群における故障モードの故障に関する情報の分析を前記故障モードごとに行うことにより分析情報を得る情報分析部と、
前記システム構成情報に基づいて、前記情報システムの故障モードを示す頂上事象から、前記構成要素又は前記構成要素群の故障モードを示す基本事象への階層的な論理関係を示すフォルトツリーを作成するフォルトツリー作成部と、
前記分析情報に基づいて、前記構成要素又は前記構成要素群の故障モードに対応する、前記構成要素又は前記構成要素群の不稼働率を算出する不稼働率算出部と、
算出された不稼働率を、前記構成要素又は前記構成要素群の故障モードに相当する基本事象に対応する不稼働率とした場合、前記基本事象に対応する不稼働率と、前記フォルトツリーとに基づいて、前記頂上事象に対応する稼働率をシステム稼働率として算出するシステム稼働率算出部と、
算出されたシステム稼働率が前記システム稼働率の基準値に達しているか否かを判定する稼働率判定部と、
算出されたシステム稼働率が前記基準値に達していないと判定された場合、基本事象に対応する不稼働率の変動と頂上事象に対応する不稼動率の変動との関係から、システム稼働率の上昇に関係する基本事象を抽出する基本事象抽出部と、
抽出された基本事象に対応する不稼働率の低下が可能な場合には、抽出された基本事象に対応する新たな分析情報を前記不稼働率算出部に再設定し、抽出された基本事象に対応する不稼働率の低下が可能でない場合には、新たなシステム構成情報及び新たな故障モードに対応する故障に関する情報を前記情報入力部に再設定する第1再設定部と、
を有することを特徴とする情報システムの信頼性評価システム。 As information necessary for reliability evaluation of an information system including a device, each component includes software that executes the function of the device and hardware that configures the device, or the component. Information on a failure corresponding to a failure mode of a component group, system configuration information indicating information on a configuration of the information system using the device and the component or the component group, and an operating rate of the entire information system An information input unit for inputting information including at least a system operating rate reference value,
An information analysis unit that obtains analysis information by performing analysis of information on failure of the failure mode in the component or the component group for each failure mode;
A fault that creates a fault tree indicating a hierarchical logical relationship from a top event indicating a failure mode of the information system to a basic event indicating a failure mode of the component or the group of components based on the system configuration information A tree creation section;
Based on the analysis information, the malfunction rate calculation unit that calculates the malfunction rate of the component or the component group corresponding to the failure mode of the component or the component group,
When the calculated unavailability is the unavailability corresponding to the basic event corresponding to the failure mode of the component or the component group, the unavailability corresponding to the basic event and the fault tree Based on the system operation rate calculation unit that calculates the operation rate corresponding to the top event as a system operation rate,
An operation rate determination unit that determines whether the calculated system operation rate has reached a reference value of the system operation rate;
When it is determined that the calculated system availability does not reach the reference value, the system availability is calculated based on the relationship between the change in the unavailable rate corresponding to the basic event and the change in the unavailable rate corresponding to the top event. A basic event extraction unit for extracting basic events related to ascent;
If the unavailability corresponding to the extracted basic event can be reduced, new analysis information corresponding to the extracted basic event is reset in the unavailability calculating section, and the extracted basic event A first resetting unit for resetting information related to a failure corresponding to a new system configuration information and a new failure mode in the information input unit, when a corresponding decrease in the unavailability is not possible;
An information system reliability evaluation system characterized by comprising:
前記情報分析部は、前記分析として、前記情報入力部に入力された前記構成要素又は前記構成要素群の故障モードの故障間隔と、故障間隔に対する故障確率の分布を示すワイブル分布とに基づいて、前記構成要素又は前記構成要素群の故障モードの故障確率を算出し、算出した故障確率を前記分析情報として得ることを特徴とする請求項1又は2に記載の情報システムの信頼性評価システム。 The information on the failure input to the information input unit includes a failure interval of a failure mode of the component or the component group,
The information analysis unit, as the analysis, based on the failure interval of the failure mode of the component or the component group input to the information input unit, and a Weibull distribution indicating a failure probability distribution with respect to the failure interval, The reliability evaluation system for an information system according to claim 1 or 2, wherein a failure probability of a failure mode of the component or the component group is calculated, and the calculated failure probability is obtained as the analysis information.
前記情報分析部は、前記分析として、前記情報入力部に入力された構成要素又は前記構成要素群の故障モードの故障間隔と、前記故障間隔に対応する故障確率とに基づいて、故障間隔に対する故障確率の分布を算出し、前記分布に基づいて、前記構成要素又は前記構成要素群の故障モードの故障確率を算出し、算出した故障確率を前記分析情報として得ることを特徴とする請求項1又は2に記載の情報システムの信頼性評価システム。 The information on the failure input to the information input unit includes a failure interval of the failure mode of the component or the component group, and a failure probability corresponding to the failure interval,
The information analysis unit, as the analysis, based on the failure interval of the failure mode of the component or the component group input to the information input unit and the failure probability corresponding to the failure interval, a failure with respect to the failure interval A probability distribution is calculated, a failure probability of a failure mode of the component or the component group is calculated based on the distribution, and the calculated failure probability is obtained as the analysis information. 2. An information system reliability evaluation system according to 2.
前記情報分析部は、前記分析として、前記情報入力部に入力された前記構成要素又は前記構成要素群の故障モードの修復時間に基づいて、前記構成要素又は前記構成要素群の故障モードの平均修復時間を算出し、算出した平均修復時間を前記分析情報として得ることを特徴とする請求項1又は2に記載の情報システムの信頼性評価システム。 The information related to the failure input to the information input unit includes a repair time of the failure mode of the component or the component group,
The information analysis unit, as the analysis, based on the repair time of the failure mode of the component or the component group input to the information input unit, the average repair of the failure mode of the component or the component group 3. The reliability evaluation system for an information system according to claim 1, wherein a time is calculated, and the calculated average repair time is obtained as the analysis information.
前記稼働率判定部により、算出されたシステム稼働率が前記基準値に達していると判定された場合、前記情報システムに含まれる構成要素又は構成要素群の設備費の総和を、コスト費として算出するコスト算出部と、
算出されたコスト費が前記コスト許容値を超えている否かを判定するコスト判定部と、
算出されたコスト費が、前記コスト許容値を超えていると判定された場合には、新たなコスト許容値と、新たなシステム構成情報及び新たな故障モードに対応する故障に関する情報とのうち、いずれか1以上の情報を前記情報入力部に再設定する第2再設定部と、
を有することを特徴とする請求項1乃至5のうちいずれ1つの請求項に記載の情報システムの信頼性評価システム。 In the information input unit, a facility cost indicating a cost required for the component or the component group, and a cost allowable value indicating an allowable range of a cost required for the information system are input,
When it is determined by the operating rate determination unit that the calculated system operating rate has reached the reference value, the total of the equipment costs of the components or component groups included in the information system is calculated as the cost cost A cost calculator to
A cost determination unit that determines whether or not the calculated cost cost exceeds the allowable cost value;
When it is determined that the calculated cost cost exceeds the cost allowance value, among the new cost allowance value, new system configuration information, and information related to the failure corresponding to the new failure mode, A second resetting unit for resetting any one or more pieces of information in the information input unit;
The reliability evaluation system for an information system according to any one of claims 1 to 5, characterized by comprising:
前記コスト算出部は、前記算出されたシステム稼働率と前記営業損害額と前記運用期間とに基づいて営業損害額期待値を算出し、算出した営業損害額期待値と前記設備費の総和との和を、前記コスト費として算出し、
前記第2再設定部は、算出されたコスト費が、前記コスト許容値を超えていると判定された場合には、新たなコスト許容値と、新たなシステム稼働率の基準値と、新たなシステム構成情報及び新たな故障モードに対応する故障に関する情報とのうち、いずれか1以上の情報を前記情報入力部に再設定することを特徴とする請求項6に記載の情報システムの信頼性評価システム。 In the information input unit, an operating loss amount indicating an operating loss amount due to the information system being stopped for a unit period, and an operation period of the information system are input.
The cost calculation unit calculates an expected operating loss amount based on the calculated system operation rate, the operating loss amount, and the operation period, and calculates the calculated operating loss expected value and the sum of the facility costs. Calculate the sum as the cost cost,
When it is determined that the calculated cost cost exceeds the allowable cost value, the second resetting unit determines a new allowable cost value, a new reference value for the system operation rate, and a new 7. The reliability evaluation of the information system according to claim 6, wherein any one or more of system configuration information and information related to a failure corresponding to a new failure mode is reset in the information input unit. system.
前記情報入力部は、機器を含む情報システムの信頼性評価に必要な情報として、前記機器の機能を実行させるためのソフトウェアと前記機器を構成するハードウェアとの各々を示す構成要素、又は、前記構成要素により構成される構成要素群の故障モードに対応する故障に関する情報と、前記機器と前記構成要素又は前記構成要素群とを用いた前記情報システムの構成に関する情報を示すシステム構成情報と、前記情報システム全体の稼働率を示すシステム稼働率の基準値と、を少なくとも含む情報を入力し、
前記情報分析部は、前記構成要素又は前記構成要素群における故障モードの故障に関する情報を前記故障モードごとに分析して分析情報を求め、
前記フォルトツリー作成部は、前記システム構成情報に基づいて、前記情報システムの故障モードを示す頂上事象から、前記構成要素又は前記構成要素群の故障モードを示す基本事象への階層的な論理関係を示すフォルトツリーを作成し、
前記不稼働率算出部は、前記分析情報に基づいて、前記構成要素又は前記構成要素群の故障モードに対応する、前記構成要素又は前記構成要素群の不稼働率を算出し、
前記システム稼働率算出部は、前記算出された不稼働率を、前記構成要素又は前記構成要素群の故障モードに相当する基本事象に対応する不稼働率とした場合、前記基本事象に対応する不稼働率と、前記フォルトツリーとに基づいて、前記頂上事象に対応する稼働率をシステム稼働率として算出し、
前記稼働率判定部は、前記算出されたシステム稼働率が前記システム稼働率の基準値に達しているか否かを判定し、
前記基本事象抽出部は、前記算出されたシステム稼働率が前記基準値に達していないと判定された場合、基本事象に対応する不稼働率の変動と頂上事象に対応する不稼動率の変動との関係から、システム稼働率の上昇に関係する基本事象を抽出し、
前記第1再設定部は、前記抽出された基本事象に対応する不稼働率の低下が可能な場合には、抽出された基本事象に対応する新たな分析情報を再設定し、抽出された基本事象に対応する不稼働率の低下が可能でない場合には、新たなシステム構成情報及び新たな故障モードに対応する故障に関する情報を再設定することを特徴とする情報システムの信頼性評価方法。 An information input unit, an information analysis unit, a fault tree creation unit, an inoperability calculation unit, a system operation rate calculation unit, an operation rate determination unit, a basic event extraction unit, and a first resetting unit An information system reliability evaluation method in an information system reliability evaluation system,
The information input unit, as information necessary for the reliability evaluation of an information system including a device, a component indicating each of software for executing the function of the device and hardware configuring the device, or Information on a failure corresponding to a failure mode of a component group constituted by components, system configuration information indicating information on a configuration of the information system using the device and the component or the component group, and a reference value for the system uptime indicating the operation of the entire information system, the type information including at least,
The information analysis unit obtains the analysis information information about the failure of the failure modes in the component or the component groups were analyzed for each of the failure mode,
The fault tree creation unit has a hierarchical logical relationship from a top event indicating a failure mode of the information system to a basic event indicating a failure mode of the component or the group of components based on the system configuration information. create a fault tree shown,
The unavailability calculation unit, based on the analysis information, corresponding to the failure mode of the component or the component groups, calculates the unavailability of said component or said component group,
The system operating rate calculation unit, when the calculated operating rate is the operating rate corresponding to the basic event corresponding to the failure mode of the component or the component group, and operating rate, based on said fault tree to calculate the operation rate corresponding to the top event as system availability,
The operating rate determination unit determines whether the calculated system availability has reached a reference value of the system availability,
The basic event extraction unit, when it is determined that the calculated system operating rate has not reached the reference value, the fluctuation of the non-operating rate corresponding to the basic event and the fluctuation of the non-operating rate corresponding to the top event from relationship to extract the basic event related to an increase in system availability,
The first resetting unit resets the new analysis information corresponding to the extracted basic event when the downtime corresponding to the extracted basic event can be reduced, and extracts the extracted basic event. If reduction of unavailability corresponding to the event is not possible, the reliability of the information system characterized and Turkey to reset the information on the failure corresponding to the new system configuration information and the new failure mode evaluation method .
前記情報分析部は、前記分析として、前記情報入力部により入力された前記構成要素又は前記構成要素群の故障モードの故障間隔と、故障間隔に対する故障確率の分布を示すワイブル分布とに基づいて、前記構成要素又は前記構成要素群の故障モードの故障確率を算出し、算出した故障確率を前記分析情報として求めることを特徴とする請求項8又は9に記載の情報システムの信頼性評価方法。 The information on the failure input by the information input unit includes a failure interval of a failure mode of the component or the component group,
The information analysis unit , as the analysis, based on the failure interval of the failure mode of the component or the component group input by the information input unit, and a Weibull distribution indicating a failure probability distribution with respect to the failure interval, said component or said calculating a failure probability of the failure mode of the component groups, the reliability evaluation method of an information system according to claim 8 or 9 and the calculated failure probabilities, characterized in Rukoto determined as the analysis information.
前記情報分析部は、前記分析として、前記情報入力部により入力された構成要素又は前記構成要素群の故障モードの故障間隔と、前記故障間隔に対応する故障確率とに基づいて、故障間隔に対する故障確率の分布を算出し、前記分布に基づいて、前記構成要素又は前記構成要素群の故障モードの故障確率を算出し、算出した故障確率を前記分析情報として求めることを特徴とする請求項8又は9に記載の情報システムの信頼性評価方法。 Wherein the failure information about the inputted by the information input unit, the time between failures of the failure mode of the component or the component groups, are included and failure probability corresponding to the time between failures,
The information analysis unit , as the analysis, based on the failure interval of the failure mode of the component or the component group input by the information input unit and the failure probability corresponding to the failure interval, calculating a distribution of a probability, based on the distribution, according to claim 8, wherein the components or to calculate the failure probability of failure mode of the component groups, obtains a calculated failure probabilities as said analysis information and said Rukoto Or the reliability evaluation method of the information system of 9.
前記情報分析部は、前記分析として、前記情報入力部により入力された前記構成要素又は前記構成要素群の故障モードの修復時間に基づいて、前記構成要素又は前記構成要素群の故障モードの平均修復時間を算出し、算出した平均修復時間を前記分析情報として求めることを特徴とする請求項8又は9に記載の情報システムの信頼性評価方法。 The information related to the failure input by the information input unit includes a repair time of the failure mode of the component or the component group,
The information analysis unit, as the analysis, on the basis of the information the component is more input to the input unit or repair time of the failure mode of the component groups, the average failure mode of the component or the component group calculating the repair time, method for evaluating reliability information system according to claim 8 or 9 the calculated mean time to repair and wherein Rukoto determined as the analysis information.
前記情報入力部は、前記構成要素又は前記構成要素群のために必要なコストを示す設備費と前記情報システムのために必要なコストの許容範囲を示すコスト許容値とを入力し、
前記第2再設定部は、前記稼働率判定部により算出されたシステム稼働率が前記基準値に達している場合、前記情報システムに含まれる構成要素又は構成要素群の設備費の総和をコスト費として算出し、この算出されたコスト費が前記コスト許容値を超える場合には、新たなコスト許容値と、新たなシステム構成情報及び新たな故障モードに対応する故障に関する情報とのうち、いずれか1以上の情報を再設定し、
新たなコスト許容値が再設定された場合には、前記コスト算出以降の処理を行い、新たなシステム構成情報及び新たな故障モードに対応する故障に関する情報が再設定された場合には、前記情報分析以降の処理を行うことを特徴とする請求項8乃至12のうちいずれ1つの請求項に記載の情報システムの信頼性評価方法。 The reliability evaluation system for the information system further includes a second resetting unit,
The information input unit inputs the cost tolerance value indicating the allowable range of the cost required for equipment costs and before Symbol Information system according to a cost required for the component or the component group,
The second resetting unit, said operating rate determination unit in the I Risan out system uptime If that has reached the reference value, component or set of components facility costs included in the information system calculated sum as the cost expenses, when the calculated cost expense exceeds the cost allowable value information and a new cost tolerance, failure-related corresponding to the new system configuration information and new failure modes of the, reconfigure any one or more of the information,
When the new cost tolerance is reset, the processing after the cost calculation is performed. When the new system configuration information and the information related to the failure corresponding to the new failure mode are reset, the information The information system reliability evaluation method according to any one of claims 8 to 12, wherein processing after analysis is performed.
前記第2再設定部は、前記算出されたシステム稼働率と前記営業損害額と前記運用期間とに基づいて営業損害額期待値を算出し、この算出した営業損害額期待値と前記設備費の総和との和をコスト費として算出し、この算出されたコスト費が、前記コスト許容値を超えている場合には、新たなコスト許容値と、新たなシステム稼働率の基準値と、新たなシステム構成情報及び新たな故障モードに対応する故障に関する情報とのうち、いずれか1以上の情報を再設定し、
新たなシステム稼働率の基準値が再設定された場合には、前記稼働率判定以降の処理を行うことを特徴とする請求項13に記載の情報システムの信頼性評価方法。 The information input unit inputs the operating loss amount indicating the amount of damage on the sales due to the information system stops the unit period, and operation period of the information system,
The second re-setting unit, said the calculated system capacity utilization on the basis of operating losses and said operation period to calculate the operating loss amount expected value, of the equipment costs and operating losses expected value calculated as described above the sum of the total sum calculated as cost expenses, the calculated cost expense, wherein the case that exceeds the cost tolerance, and a new cost tolerance, the reference value of the new system uptime, Reset any one or more of the new system configuration information and the information related to the failure corresponding to the new failure mode,
The information system reliability evaluation method according to claim 13, wherein when a new reference value of the system operation rate is reset, the processing after the operation rate determination is performed.
機器を含む情報システムの信頼性評価に必要な情報として、前記機器の機能を実行させるためのソフトウェアと前記機器を構成するハードウェアとの各々を示す構成要素、又は、前記構成要素により構成される構成要素群の故障モードに対応する故障に関する情報と、前記機器と前記構成要素又は前記構成要素群とを用いた前記情報システムの構成に関する情報を示すシステム構成情報と、前記情報システム全体の稼働率を示すシステム稼働率の基準値と、を少なくとも含む情報を入力するための情報入力部、
前記構成要素又は前記構成要素群における故障モードの故障に関する情報を前記故障モードごとに分析して分析情報を得るための情報分析部、
前記システム構成情報に基づいて、前記情報システムの故障モードを示す頂上事象から、前記構成要素又は前記構成要素群の故障モードを示す基本事象への階層的な論理関係を示すフォルトツリーを作成するためのフォルトツリー作成部、
前記分析情報に基づいて、前記構成要素又は前記構成要素群の故障モードに対応する、前記構成要素又は前記構成要素群の不稼働率を算出するための不稼働率算出部、
前記算出された不稼働率を、前記構成要素又は前記構成要素群の故障モードに相当する基本事象に対応する不稼働率とした場合、前記基本事象に対応する不稼働率と、前記フォルトツリーとに基づいて、前記頂上事象に対応する稼働率をシステム稼働率として算出するためのシステム稼働率算出部、
前記算出されたシステム稼働率が前記システム稼働率の基準値に達しているか否かを判定するための稼働率判定部、
前記算出されたシステム稼働率が前記基準値に達していないと判定された場合、基本事象に対応する不稼働率の変動と頂上事象に対応する不稼動率の変動との関係から、システム稼働率の上昇に関係する基本事象を抽出するための基本事象抽出部、
前記抽出された基本事象に対応する不稼働率の低下が可能な場合には、抽出された基本事象に対応する新たな分析情報を再設定し、抽出された基本事象に対応する不稼働率の低下が可能でない場合には、新たなシステム構成情報及び新たな故障モードに対応する故障に関する情報を再設定するための第1再設定部、
として機能させるための情報システムの信頼性評価プログラム。 Computer
As information necessary for reliability evaluation of an information system including a device, each component includes software that executes the function of the device and hardware that configures the device, or the component. Information on a failure corresponding to a failure mode of a component group, system configuration information indicating information on a configuration of the information system using the device and the component or the component group, and an operating rate of the entire information system An information input unit for inputting information including at least a system operation rate reference value indicating
Information analysis unit for obtaining an analysis information by analyzing information about the failure of the failure modes in the component or the component group for each of the failure mode,
Based on the system configuration information, a top event that indicates the failure mode of the information system, to create a fault tree showing the hierarchical logical relationship to the basic events indicating a failure mode of the component or the component group fault tree creation unit of,
Based on the analysis information, the component or the corresponding failure mode component group, unavailability calculator for calculating the unavailability of said component or said component group,
When the calculated unavailability is an unavailability corresponding to the basic event corresponding to the failure mode of the component or the component group, the unavailability corresponding to the basic event, the fault tree, Based on the system operating rate calculating unit for calculating the operating rate corresponding to the top event as a system operating rate,
Operating rate determination unit for determining whether or not the calculated system availability has reached a reference value of the system availability,
When it is determined that the calculated system operating rate has not reached the reference value, the system operating rate is calculated based on the relationship between the fluctuation in the inoperating rate corresponding to the basic event and the fluctuation in the operating rate corresponding to the top event. A basic event extraction unit for extracting basic events related to the rise of
If the downtime corresponding to the extracted basic event can be reduced, new analysis information corresponding to the extracted basic event is reset, and the downtime rate corresponding to the extracted basic event is set. If reduction is not possible, the first resetting unit for resetting the information about the fault that corresponds to the new system configuration information and a new failure mode,
Information system reliability evaluation program to function as
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005194191A JP4174497B2 (en) | 2004-09-30 | 2005-07-01 | Information system reliability evaluation system, reliability evaluation method, reliability evaluation program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004289238 | 2004-09-30 | ||
JP2005194191A JP4174497B2 (en) | 2004-09-30 | 2005-07-01 | Information system reliability evaluation system, reliability evaluation method, reliability evaluation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006127464A JP2006127464A (en) | 2006-05-18 |
JP4174497B2 true JP4174497B2 (en) | 2008-10-29 |
Family
ID=36722113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005194191A Expired - Fee Related JP4174497B2 (en) | 2004-09-30 | 2005-07-01 | Information system reliability evaluation system, reliability evaluation method, reliability evaluation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4174497B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10558513B2 (en) | 2015-01-30 | 2020-02-11 | Hitachi Power Solutions Co., Ltd. | System management apparatus and system management method |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5022590B2 (en) * | 2005-10-31 | 2012-09-12 | 株式会社東芝 | Information system reliability evaluation system, reliability evaluation method, and reliability evaluation program |
US20080010513A1 (en) * | 2006-06-27 | 2008-01-10 | International Business Machines Corporation | Controlling computer storage systems |
JP4823315B2 (en) * | 2006-08-14 | 2011-11-24 | 富士通株式会社 | Program analysis method and apparatus |
JP2008158624A (en) * | 2006-12-21 | 2008-07-10 | Chubu Electric Power Co Inc | Method for diagnosing earthquake risk |
KR100923232B1 (en) | 2007-09-11 | 2009-10-27 | 한국원자력연구원 | An apparatus and method to analyze causality graphs |
US7975165B2 (en) * | 2009-06-25 | 2011-07-05 | Vmware, Inc. | Management of information technology risk using virtual infrastructures |
WO2011132730A1 (en) * | 2010-04-22 | 2011-10-27 | 日本電気株式会社 | Runtime system fault tree analysis method, system and program |
US9235423B2 (en) | 2010-11-26 | 2016-01-12 | Nec Corporation | Availability evaluation device and availability evaluation method |
US8798982B2 (en) | 2011-08-30 | 2014-08-05 | Nec Corporation | Information processing device, information processing method, and program |
JP2013196146A (en) * | 2012-03-16 | 2013-09-30 | Jatco Ltd | Ft diagram data management system, client and server used in ft diagram data management system, and ft diagram data management method |
JP6044142B2 (en) * | 2012-07-09 | 2016-12-14 | 富士通株式会社 | Calculation device, calculation method, and program |
JPWO2014097598A1 (en) | 2012-12-17 | 2017-01-12 | 日本電気株式会社 | Information processing apparatus for performing risk analysis and risk analysis method |
EP3059676B1 (en) * | 2015-02-20 | 2019-09-11 | Siemens Aktiengesellschaft | A method and apparatus for analyzing the availability of a system, in particular of a safety critical system |
US10439915B2 (en) * | 2017-04-14 | 2019-10-08 | Solarwinds Worldwide, Llc | Network status evaluation |
-
2005
- 2005-07-01 JP JP2005194191A patent/JP4174497B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10558513B2 (en) | 2015-01-30 | 2020-02-11 | Hitachi Power Solutions Co., Ltd. | System management apparatus and system management method |
Also Published As
Publication number | Publication date |
---|---|
JP2006127464A (en) | 2006-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4174497B2 (en) | Information system reliability evaluation system, reliability evaluation method, reliability evaluation program | |
WO2006035931A1 (en) | Information system reliability evaluation system, reliability evaluation method, and reliability evaluation program | |
JP6354755B2 (en) | System analysis apparatus, system analysis method, and system analysis program | |
CN110825578A (en) | Method for automatically managing hardware error events occurring in a data center system | |
JP5267736B2 (en) | Fault detection apparatus, fault detection method, and program recording medium | |
Authen et al. | Reliability analysis of digital systems in a probabilistic risk analysis for nuclear power plants | |
CN110023967B (en) | Fault risk indicator estimation device and fault risk indicator estimation method | |
Huang et al. | Analysis of software reliability modeling considering testing compression factor and failure-to-fault relationship | |
Bauer et al. | Practical system reliability | |
JP5022590B2 (en) | Information system reliability evaluation system, reliability evaluation method, and reliability evaluation program | |
Levitin et al. | Reliability of non-coherent warm standby systems with reworking | |
Ahmadi | A new approach to maintenance optimisation of repairable parallel systems subject to hidden failures | |
Bülbül et al. | Exact and heuristic approaches for joint maintenance and spare parts planning | |
George-Williams et al. | Efficient availability assessment of reconfigurable multi-state systems with interdependencies | |
Barrett et al. | A risk-based framework for power system modeling to improve resilience to extreme events | |
KR20200009081A (en) | Risk Assessment Apparatus, Risk Assessment System, Risk Assessment Method, Risk Assessment Program and Data Structure | |
Khalil Ur et al. | Sensitivity study on availability of I&C components using bayesian network | |
JP5439296B2 (en) | Change impact prediction method and change impact prediction apparatus | |
US20200391885A1 (en) | Methods and systems for identifying aircraft faults | |
Chinnaiyan et al. | Monte Carlo simulation for reliability assessment of component based software systems | |
Smidts | Software reliability | |
JP5299433B2 (en) | Monitoring suppression error message selection method and program | |
Chaudhary et al. | A review on software realibility growth modelling | |
Tokuno et al. | Relationship between software availability measurement and the number of restorations with imperfect debugging | |
Jacob et al. | Analysis of complex repairable systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080509 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080708 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080805 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080818 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4174497 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110822 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120822 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120822 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130822 Year of fee payment: 5 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |