JP4174497B2 - Information system reliability evaluation system, reliability evaluation method, reliability evaluation program - Google Patents

Information system reliability evaluation system, reliability evaluation method, reliability evaluation program Download PDF

Info

Publication number
JP4174497B2
JP4174497B2 JP2005194191A JP2005194191A JP4174497B2 JP 4174497 B2 JP4174497 B2 JP 4174497B2 JP 2005194191 A JP2005194191 A JP 2005194191A JP 2005194191 A JP2005194191 A JP 2005194191A JP 4174497 B2 JP4174497 B2 JP 4174497B2
Authority
JP
Japan
Prior art keywords
information
failure
component
unit
cost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005194191A
Other languages
Japanese (ja)
Other versions
JP2006127464A (en
Inventor
伸久 竹澤
克彦 中原
雄二 植之原
正行 高山
裕明 奥田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2005194191A priority Critical patent/JP4174497B2/en
Publication of JP2006127464A publication Critical patent/JP2006127464A/en
Application granted granted Critical
Publication of JP4174497B2 publication Critical patent/JP4174497B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To make system utilization successful and to relieve a burden of a designer who designs an information system. <P>SOLUTION: An information system reliability evaluation system includes: an input unit 2 for inputting failure information corresponding to a failure mode of a constituent element indicating software and hardware, system configuration information and a system utilization reference value; a creation unit 32 for creating a fault tree according to the system configuration information; a calculation unit 34 for calculating non-utilization corresponding to the failure mode based on the analysis result of the failure information and calculating the system utilization according to the calculated non-utilization and the fault tree; a decision unit 35 for determining whether the system utilization reaches the reference value; an extraction unit 36 for extracting a basic event relating to the increase of the system utilization when the system utilization does not reach the reference value and resetting units 38, 39 for resetting a new non-utilization and the like according to the state whether the non-utilization of the basic event extracted can be lowered. <P>COPYRIGHT: (C)2006,JPO&amp;NCIPI

Description

本発明は、オンライン取引システム等のコンピュータネットワークで構成される情報システムの信頼性評価システム、信頼性評価方法、信頼性評価プログラムに関する。   The present invention relates to a reliability evaluation system, a reliability evaluation method, and a reliability evaluation program for an information system including a computer network such as an online transaction system.

オンライン取引システム等のコンピュータネットワークで構成される情報システムの運用段階又は情報システムの設計段階において、情報システムの信頼性評価が行われる。この信頼性評価では、システムの稼働率の評価が行われる。このシステムの稼働率の評価においては、フォルトツリー分析がよく用いられる(例えば、非特許文献1、特許文献1、特許文献2を参照)。例えば、原子力発電プラントを用いたシステムの稼働率の評価では、プラントの安全性を確保することを目的に、以下のことが行われる。システムの評価を行う者(以下、評価者)は、トラブルの事象を想定し、これに至る確率を算出する。そして、評価者は、該当のトラブルの発生確率がほとんど起こり得ないことを定量的に解析する。その時に利用される主な解析手法が、フォルトツリー分析と呼ばれるものである。このフォルトツリー分析は、信頼性工学及び関連分野において活用されているものであり、情報システムにおいても用いられる(例えば、非特許文献1参照)。   The reliability evaluation of the information system is performed at the operation stage of the information system constituted by a computer network such as an online transaction system or the design stage of the information system. In this reliability evaluation, the operation rate of the system is evaluated. In the evaluation of the operating rate of this system, fault tree analysis is often used (see, for example, Non-Patent Document 1, Patent Document 1, and Patent Document 2). For example, in the evaluation of the operating rate of a system using a nuclear power plant, the following is performed for the purpose of ensuring the safety of the plant. A person who evaluates the system (hereinafter referred to as an evaluator) assumes a trouble event and calculates the probability of reaching it. Then, the evaluator quantitatively analyzes that the occurrence probability of the corresponding trouble hardly occurs. The main analysis method used at that time is called fault tree analysis. This fault tree analysis is used in reliability engineering and related fields, and is also used in information systems (for example, see Non-Patent Document 1).

フォルトツリー分析で稼働率を評価する手法は、以下の通りである。評価者は、まずシステムにおいて想定される頂上事象を選定する。その後、評価者は、その頂上事象に至る1次要因を探り、頂上事象と1次要因との間の論理的関係(AND、OR)を導く。評価者は、上記論理的関係を、ツリー構造に表現する。このツリー構造においては、頂上事象が記載され、この頂上事象の下には、論理記号が記載され、この論理記号の下には、一次要因が記載される。そして、ツリー構造においては、同様にして、個々の一次要因の下には、論理記号が記載され、この論理記号の下には、二次要因が記載され、三次要因、四次要因についても同様の記載が繰り返される。このようにして、ツリー構造においては、実験等から、稼働率の分布を参照できるレベルまで細分化が行われる。   The following methods are used to evaluate the availability with fault tree analysis. The evaluator first selects the top event assumed in the system. The evaluator then explores the primary factors that lead to the top event and derives a logical relationship (AND, OR) between the top event and the primary factor. The evaluator expresses the logical relationship in a tree structure. In this tree structure, a top event is described, a logic symbol is described below the top event, and a primary factor is described below the logic symbol. Similarly, in the tree structure, a logical symbol is described under each primary factor, a secondary factor is described under this logical symbol, and the same applies to the tertiary factor and the quaternary factor. Is repeated. In this way, the tree structure is subdivided to a level at which the availability distribution can be referenced from experiments and the like.

ブール代数を用いることにより、頂上事象は、ツリー構造の最下層の事象(基本事象)の組み合わせで発生することが示される。この組み合わせ(即ち、論理的な関係を示すツリー構造)により、基本事象に対応する不稼働率(=1−稼働率)を用いて、頂上事象に対応する不稼働率(=1−稼働率)を導き出すことが可能となるので、頂上事象に対応する稼働率を導き出すことが可能となる。   By using Boolean algebra, it is shown that the top event occurs in a combination of the bottom layer events (basic events) of the tree structure. With this combination (that is, a tree structure indicating a logical relationship), the unavailability corresponding to the top event (= 1−operation rate) is used using the unavailability corresponding to the basic event (= 1−operation rate). Therefore, it is possible to derive the operation rate corresponding to the top event.

例えば、従来の情報システムの信頼性評価としては、工場システムの設備構成からフォルトツリーを生成し、設備を構成する各機器類の故障率などに基づいて、工場システムの信頼性の度合い(システムの稼働率など)を算出する信頼性解析があった。この信頼性解析によれば、生産量、設備の構成などに基づいて、変更可能な要素をパラメータとして変更させた場合におけるフォルトツリーを生成するとともに、工場システムの信頼性の度合い(システムの稼働率)が算出される。そして、算出された信頼性の度合いを比較し、最も信頼性の度合いが高い(システム稼働率の高い)設備構成を抽出し、この抽出された設備構成に基づいて、工場システムの稼働が行われていたり、工場システムの補修計画が選択されていた(例えば、特許文献1、2参照)。これにより、システムの稼働率の基準値を十分満たすように、工場システムの設計を行うことや、システムの稼働率が高い状態で工場システムを運用しながら補修を行うことが可能となる。
特開平9−234652号公報 特開平9−237102号公報 北川 賢司著 「最新設計審査技術」テクノシステム 1987年12月4日(第2版)
For example, in the reliability evaluation of a conventional information system, a fault tree is generated from the equipment configuration of the factory system, and the degree of reliability of the factory system (system reliability) is determined based on the failure rate of each device constituting the equipment. There was a reliability analysis to calculate the operating rate. According to this reliability analysis, a fault tree is generated when elements that can be changed are changed as parameters based on production volume, equipment configuration, etc., and the degree of reliability of the factory system (system availability) ) Is calculated. Then, compare the calculated degrees of reliability, extract the equipment configuration with the highest degree of reliability (high system availability), and operate the factory system based on this extracted equipment configuration. Or a repair plan for the factory system was selected (see, for example, Patent Documents 1 and 2). As a result, the factory system can be designed so as to sufficiently satisfy the standard value of the system operation rate, and repairs can be performed while operating the factory system in a state where the system operation rate is high.
Japanese Patent Laid-Open No. 9-234652 Japanese Patent Laid-Open No. 9-237102 Kenji Kitagawa “Latest Design Examination Technology” Techno System December 4, 1987 (2nd edition)

しかしながら、上述の従来の信頼性評価では、以下のような問題があった。即ち、情報システムを構成する構成要素として、ハードウェアの構成要素とともに、ハードウェアの動作に関連するソフトウェアの構成要素がある。このソフトウェアの構成要素による故障も存在し、ソフトウェアの構成要素に関する故障事象も考慮して、情報システムの信頼性評価が行われる必要がある。   However, the conventional reliability evaluation described above has the following problems. In other words, as components constituting the information system, there are hardware components as well as software components related to hardware operations. There is a failure due to this software component, and it is necessary to evaluate the reliability of the information system in consideration of a failure event related to the software component.

しかし、従来の信頼性評価では、情報システムを構成する構成要素として、ハードウェアの構成要素のみ考慮し、ソフトウェアの構成要素まで含めてシステム稼働率を評価していなかった。このため、例えば、最もシステム稼働率が高くなるような情報システムの設計を行っても、実際に情報システムを運用させたときにおけるシステム稼働率が、基準値を下回ってしまうことがあったり、情報システムの運用段階で、上述の信頼性評価に基づいてシステム稼働率を高くするように情報システムを変更しても、システム稼働率が基準値を下回ってしまうことがあった。   However, in the conventional reliability evaluation, only the hardware component is considered as the component constituting the information system, and the system operation rate is not evaluated including the software component. For this reason, for example, even if an information system is designed so that the system availability is the highest, the system availability when the information system is actually operated may be below the reference value, Even if the information system is changed so as to increase the system operation rate based on the above-described reliability evaluation in the system operation stage, the system operation rate may fall below the reference value.

この結果、情報システムの設計のやり直しが多くなり、情報システムの設計者の負担が非常に大きくなるという問題があった。   As a result, there has been a problem that the design of the information system has to be redone and the burden on the information system designer becomes very large.

本発明は上述した課題を解決するためになされたものであり、システム稼働率を良好にするとともに、情報システムの設計を行う設計者の負担の軽減を可能にする情報システムの信頼性評価システム、信頼性評価方法、信頼性評価プログラムを提供することを目的とする。   The present invention has been made in order to solve the above-described problems. The reliability evaluation system for an information system that makes it possible to reduce the burden on a designer who designs an information system while improving the system operation rate, An object is to provide a reliability evaluation method and a reliability evaluation program.

以上の問題点を解決するために、機器を含む情報システムの信頼性評価に必要な情報として、前記機器の機能を実行させるためのソフトウェアと前記機器を構成するハードウェアとの各々を示す構成要素、又は、前記構成要素により構成される構成要素群の故障モードに対応する故障に関する情報と、前記機器と前記構成要素又は前記構成要素群とを用いた前記情報システムの構成に関する情報を示すシステム構成情報と、前記情報システム全体の稼働率を示すシステム稼働率の基準値と、を少なくとも含む情報を入力する情報入力を行い、前記構成要素又は前記構成要素群における故障モードの故障に関する情報の分析を前記故障モードごとに行うことにより分析情報を得る情報分析を行い、前記システム構成情報に基づいて、前記情報システムの故障モードを示す頂上事象から、前記構成要素又は前記構成要素群の故障モードを示す基本事象への階層的な論理関係を示すフォルトツリーを作成するフォルトツリー作成を行い、前記分析情報に基づいて、前記構成要素又は前記構成要素群の故障モードに対応する、前記構成要素又は前記構成要素群の不稼働率を算出する不稼働率算出を行い、算出された不稼働率を、前記構成要素又は前記構成要素群の故障モードに相当する基本事象に対応する不稼働率とした場合、前記基本事象に対応する不稼働率と、前記フォルトツリーとに基づいて、前記頂上事象に対応する稼働率をシステム稼働率として算出するシステム稼働率算出を行い、算出されたシステム稼働率が前記システム稼働率の基準値に達しているか否かを判定する稼働率判定を行い、算出されたシステム稼働率が前記基準値に達していないと判定された場合、基本事象に対応する不稼働率の変動と頂上事象に対応する不稼動率の変動との関係から、システム稼働率の上昇に関係する基本事象を抽出する基本事象抽出を行い、抽出された基本事象に対応する不稼働率の低下が可能な場合には、抽出された基本事象に対応する新たな分析情報を再設定し、抽出された基本事象に対応する不稼働率の低下が可能でない場合には、新たなシステム構成情報及び新たな故障モードに対応する故障に関する情報を再設定する第1再設定を行い、前記抽出された基本事象に対応する新たな分析情報が再設定された場合には、前記不稼働率算出以降の処理を行い、前記抽出された基本事象に対応する故障モードの新たな故障に関する情報が再設定された場合と前記新たなシステム構成情報及び新たな故障モードに対応する故障に関する情報が再設定された場合には、前記情報分析以降の処理を行うことを特徴とするものである。   In order to solve the above problems, as information necessary for the reliability evaluation of an information system including a device, components indicating each of software for executing the function of the device and hardware configuring the device Or a system configuration indicating information related to a failure corresponding to a failure mode of a component group configured by the component and information related to a configuration of the information system using the device and the component or the component group Input information including at least information and a system operating rate reference value indicating the operating rate of the entire information system, and analyze information on failure in the failure mode of the component or the component group Information analysis is performed for each failure mode to obtain analysis information, and the information system is based on the system configuration information. A fault tree that creates a fault tree indicating a hierarchical logical relationship from a top event that indicates a failure mode of a system to a basic event that indicates a failure mode of the component or group of components, and based on the analysis information The non-operation rate calculation for calculating the non-operation rate of the component element or the component group corresponding to the failure mode of the component element or the component group is performed, and the calculated non-operation rate is calculated as the component element. Or, when the non-operation rate corresponding to the basic event corresponding to the failure mode of the component group is set, the operation rate corresponding to the top event based on the non-operation rate corresponding to the basic event and the fault tree The system operation rate is calculated as the system operation rate, and it is determined whether the calculated system operation rate has reached the reference value of the system operation rate. When it is determined that the calculated system availability does not reach the reference value, from the relationship between the fluctuation in the downtime corresponding to the basic event and the fluctuation in the downtime corresponding to the top event, Perform basic event extraction to extract basic events related to the increase in system availability, and if the downtime corresponding to the extracted basic events can be reduced, a new analysis corresponding to the extracted basic events First resetting that resets information and resets new system configuration information and information on a failure corresponding to a new failure mode when the downtime corresponding to the extracted basic event cannot be reduced When new analysis information corresponding to the extracted basic event is reset, the processing after the unavailability calculation is performed, and a new failure mode corresponding to the extracted basic event is performed. Regarding trouble And when the information related to the failure corresponding to the new system configuration information and the new failure mode is reset, the processing after the information analysis is performed. is there.

本発明によれば、情報システムの信頼性評価の対象の構成要素には、ハードウェアだけでなく、ソフトウェアも含まれるので、入力される信頼性評価に必要な情報(例えば、システム機能構成情報10など)は、ハードウェアだけでなく、ソフトウェアも考慮した情報となっている。そして、入力された上記情報に基づいて、上記情報分析から上記稼働率判定までの処理が行われる。そして、算出されたシステム稼働率がシステム稼働率の基準値に達していないと判定された場合には、第1再設定処理が行われ、再設定された情報に基づいて、稼働率判定の処理が行われ、算出されたシステム稼働率がシステム稼働率の基準値に達するまで、上述の処理の繰り返しが可能となる。   According to the present invention, the components that are subject to the reliability evaluation of the information system include not only hardware but also software. Therefore, information required for input reliability evaluation (for example, system function configuration information 10 Etc.) is information that considers not only hardware but also software. And based on the inputted information, processing from the information analysis to the operation rate determination is performed. When it is determined that the calculated system operating rate has not reached the system operating rate reference value, the first resetting process is performed, and the operating rate determining process is performed based on the reset information. Until the calculated system operating rate reaches the reference value of the system operating rate.

また、従来と異なりハードウェアの故障事象だけでなくソフトウェアの故障事象も考慮してシステム稼働率の評価を行っているので、評価されたシステム稼働率に対応するシステム構成情報(例えば、システム機能構成情報10など)に従って、情報システムの構成を変更して運用させたときに、システム稼働率が、システム稼働率の基準値を下回ってしまう事態が回避される。この結果、情報システムの設計のやり直しが多くなる事態が回避され、情報システムの設計者の負担が軽減される。従って、本発明によれば、システム稼働率を良好にするとともに、情報システムの設計を行う設計者の負担の軽減が可能にすることができる。   In addition, since the system operation rate is evaluated in consideration of not only hardware failure events but also software failure events unlike conventional systems, system configuration information corresponding to the evaluated system operation rates (for example, system function configuration) When the information system configuration is changed and operated according to the information 10 or the like, a situation in which the system operation rate falls below the reference value of the system operation rate is avoided. As a result, the situation where the number of redesigns of the information system is increased is avoided, and the burden on the information system designer is reduced. Therefore, according to the present invention, it is possible to improve the system operation rate and reduce the burden on the designer who designs the information system.

以上説明したように、本発明によれば、システム稼働率を良好にするとともに、情報システムの設計を行う設計者の負担の軽減を可能にすることができる。   As described above, according to the present invention, the system operation rate can be improved and the burden on the designer who designs the information system can be reduced.

以下、本発明の一実施形態を、図面を参照して説明する。   Hereinafter, an embodiment of the present invention will be described with reference to the drawings.

(情報システムの信頼性評価システムの構成)
本実施形態における情報システムは、複数の機器(例えば、サーバなど)を備えている。各機器には、機器の機能を実行させるためのソフトウェアと、機器を構成するハードウェアとが内蔵されている。本実施形態の情報システムの信頼性評価システムは、このような情報システムのシステム稼働率の評価、コスト評価を行うものである。
(Configuration of information system reliability evaluation system)
The information system in this embodiment includes a plurality of devices (for example, servers). Each device includes software for executing the function of the device and hardware constituting the device. The reliability evaluation system for an information system according to this embodiment performs evaluation of system availability and cost evaluation of such an information system.

図1は、本実施形態の情報システムの信頼性評価システム(以下、信頼性評価システムという)のブロック構成を示す図である。本実施形態の信頼性評価システムは、システム管理データベース6と、ユーザ端末7との間で、情報をやり取りするシステム評価部1を有する。   FIG. 1 is a diagram showing a block configuration of a reliability evaluation system (hereinafter referred to as a reliability evaluation system) of an information system according to the present embodiment. The reliability evaluation system of this embodiment includes a system evaluation unit 1 that exchanges information between a system management database 6 and a user terminal 7.

システム評価部1は、システム管理データベース6との間で、情報システムの信頼性評価に必要な情報などの各種の情報のやり取りを行う。システム管理データベース6には、システム機能構成情報10、信頼性関連情報11、コスト関連情報13、システム基準情報12などを含む各種の情報が格納されている。これらの情報は、必要に応じて、情報処理・演算部3に入力される。   The system evaluation unit 1 exchanges various information such as information necessary for reliability evaluation of the information system with the system management database 6. The system management database 6 stores various types of information including system function configuration information 10, reliability related information 11, cost related information 13, system reference information 12, and the like. These pieces of information are input to the information processing / arithmetic unit 3 as necessary.

システム評価部1は、システム機能構成情報10、信頼性関連情報11、システム基準情報12などの情報をシステム管理データベース6から抽出して入力する情報抽出・入力部2と、入力された情報に基づいて、所定の処理・演算を行う情報処理・演算部3と、上記所定の処理・演算が行われた結果をユーザ端末7に出力する情報出力部5とを有する。   The system evaluation unit 1 extracts information such as system function configuration information 10, reliability related information 11, and system reference information 12 from the system management database 6 and inputs the information, and based on the input information. The information processing / arithmetic unit 3 that performs predetermined processing / calculation and the information output unit 5 that outputs the result of the predetermined processing / calculation to the user terminal 7.

システム評価部1には、ユーザ端末7が接続されている。ユーザ端末7は、システム評価部1に各種の指示情報(例えば、所定の情報システムの信頼性評価を行うことを指示する情報)を出力したり、各種の情報を出力したり、各種の情報を表示するものである。   A user terminal 7 is connected to the system evaluation unit 1. The user terminal 7 outputs various instruction information (for example, information instructing to perform reliability evaluation of a predetermined information system) to the system evaluation unit 1, outputs various information, and displays various information. To display.

情報抽出・入力部2は、機器(例えば、サーバ)を含む情報システムの信頼性評価に必要な情報として、上記機器の機能を実行させるためのソフトウェアと上記機器を構成するハードウェアとの各々を示す構成要素(後述のソフトウェア構成要素、ハードウェア構成要素)の故障モードに対応する故障に関する情報(例えば、後述の信頼性関連情報11)と、上記機器と上記構成要素とを用いた情報システムの構成に関する情報を示すシステム構成情報(例えば、後述のシステム機能構成情報10、システム基準情報12に含まれるシステム構成)と、情報システム全体の稼働率を示すシステム稼働率の基準値(例えば、後述のシステム基準情報12に含まれるシステム稼働率の基準値)と、を少なくとも含む情報が入力される情報入力部である。   The information extraction / input unit 2 includes, as information necessary for reliability evaluation of an information system including a device (for example, a server), software for executing the function of the device and hardware constituting the device. Of an information system using information (for example, reliability-related information 11 described below) corresponding to a failure mode corresponding to a failure mode of a component to be shown (software component and hardware component described later), the device, and the component System configuration information indicating information related to the configuration (for example, system configuration included in system function configuration information 10 and system reference information 12 described later) and a system operating rate reference value indicating the operating rate of the entire information system (for example, described later System reference rate of system availability included in the system reference information 12), and an information input unit for inputting information including at least That.

また、情報抽出・入力部2には、ハードウェア構成要素、ソフトウェア構成要素のために必要なコストを示す設備費と、情報システムのために必要なコストの許容範囲を示すコスト許容値と、情報システムが単位期間停止したことによる営業上の損害額を示すシステム停止損害額と、情報システムの運用期間とが入力される。   In addition, the information extraction / input unit 2 includes a facility cost indicating the cost required for the hardware component and the software component, a cost allowable value indicating the allowable range of the cost required for the information system, and information A system stoppage loss amount indicating the amount of business damage due to the system being stopped for a unit period and an operation period of the information system are input.

図2は、情報抽出・入力部2に入力される情報を示す図である。この入力される情報とは、システム機能構成情報10、信頼性関連情報11、コスト関連情報13、システム基準情報12である。これらの情報は、情報システムに対応づけられている。   FIG. 2 is a diagram illustrating information input to the information extraction / input unit 2. The input information includes system function configuration information 10, reliability related information 11, cost related information 13, and system reference information 12. These pieces of information are associated with information systems.

システム機能構成情報10には、情報システムに含まれるハードウェアとソフトウェアとを含む構成要素情報が含まれる。この構成要素情報には、ハードウェアの構成要素(以下、ハードウェア構成要素)、ソフトウェアの構成要素(以下、ソフトウェア構成要素)が含まれる。ハードウェア構成要素とは、機器(例えば、サーバ)を構成するもの(例えば、部品や回路など)である。ソフトウェア構成要素とは、機器の機能を実行させるためのもの(例えば、各機能を実行させるための命令や手順などをプログラムコードなどにより記述されたもの)である。例えば、情報システムを構成する機器としては、例えば、WEBブラウザを用いてユーザにコンテンツを提供するためのWEBサーバ群に属するWEBサーバ1、2...などがある。言い換えると、WEBサーバ群は、情報システムを構成する各WEBサーバ1、2...の集合を示すものである。この場合、WEBサーバ1に対応するソフトウェア構成要素としては、例えば、WEBサーバ1の機能を実行させるためのWEBサーバ1ソフトウェアがある。WEBサーバ1に対応するハードウェア構成要素としては、例えば、WEBサーバ1を構成するハードディスク、CPU、メモリなどがある。   The system function configuration information 10 includes component information including hardware and software included in the information system. This component information includes hardware components (hereinafter, hardware components) and software components (hereinafter, software components). A hardware component is a component (for example, a component or a circuit) that constitutes a device (for example, a server). A software component is a component for executing a function of a device (for example, a command or a procedure for executing each function described by a program code or the like). For example, as an apparatus constituting the information system, for example, WEB servers 1, 2,... Belonging to a WEB server group for providing content to a user using a WEB browser. . . and so on. In other words, the WEB server group includes each WEB server 1, 2,. . . Is a set. In this case, as a software component corresponding to the WEB server 1, for example, there is WEB server 1 software for causing the function of the WEB server 1 to be executed. Examples of hardware components corresponding to the WEB server 1 include a hard disk, a CPU, and a memory that constitute the WEB server 1.

また、システム機能構成情報10には、情報システムに含まれるハードウェアとソフトウェアとを含む構成要素の機能別分類が含まれる。ハードウェアとソフトウェアとを含む構成要素の機能別分類には、ハードウェア構成要素の機能別分類と、ソフトウェア構成要素の機能別分類とが含まれる。ハードウェア構成要素の機能別分類とは、各ハードウェア構成要素が、機器の機能に従って分類された情報を示すものである。ソフトウェア構成要素の機能別分類とは、各ソフトウェア構成要素が、機器の機能に従って分類された情報を示すものである。例えば、ソフトウェア構成要素の機能別分類においては、WEBサーバ1の機能には、WEBプログラム1、WEBプログラム2...が対応づけられるように分類され、APサーバ1の機能には、APプログラム1、APプログラム2...が対応づけられるように分類されている。APサーバとは、ユーザからの要求を受け付けデータベースなどを用いた業務システムの処理を実行するためのAPサーバ群に属するサーバのことである。言い換えると、APサーバ群は、情報システムを構成する各APサーバ1、
2...の集合を示すものである。
Further, the system function configuration information 10 includes a functional classification of components including hardware and software included in the information system. The functional classification of components including hardware and software includes a functional classification of hardware components and a functional classification of software components. The function-based classification of the hardware components indicates information in which each hardware component is classified according to the function of the device. The software component classification by function indicates information in which each software component is classified according to the function of the device. For example, in the function classification of software components, the functions of the WEB server 1 include the WEB program 1, the WEB program 2. . . Are associated with each other, and the functions of the AP server 1 include AP program 1, AP program 2. . . Are associated with each other. The AP server is a server that belongs to an AP server group for receiving a request from a user and executing a business system process using a database or the like. In other words, the AP server group includes each AP server 1 constituting the information system,
2. . . Is a set.

また、システム機能構成情報10には、情報システムに含まれるハードウェアとソフトウェアとを含む構成要素の繋がりが含まれる。ハードウェアとソフトウェアとを含む構成要素間の繋がりには、ハードウェア構成要素間の繋がり、ソフトウェア構成要素間の繋がり、ハードウェア構成要素とソフトウェア構成要素との間の繋がりが含まれる。ハードウェア構成要素間の繋がりとは、例えば、各機器におけるハードウェア構成要素同士の電気的な接続関係である。また、ソフトウェア構成要素間の繋がりとは、例えば、各機器におけるソフトウェア構成要素の機能を示す機能ブロック同士の関係を示すフローチャートなどである。また、ハードウェア構成要素とソフトウェア構成要素との間の繋がりとは、例えば、各機器におけるソフトウェア構成要素の機能ごとに、上記ソフトウェア構成要素の機能に関係するハードウェア構成要素が対応づけられている情報のことである。   Further, the system function configuration information 10 includes a connection of components including hardware and software included in the information system. The connection between components including hardware and software includes a connection between hardware components, a connection between software components, and a connection between hardware components and software components. The connection between hardware components is, for example, an electrical connection relationship between hardware components in each device. The connection between software components is, for example, a flowchart showing a relationship between functional blocks indicating functions of software components in each device. The connection between the hardware component and the software component is, for example, the hardware component related to the function of the software component corresponding to the function of the software component in each device. It is information.

また、システム機能構成情報10には、情報システムに含まれるハードウェアとソフトウェアとを含む構成要素の処理内容(ハードウェア構成要素の処理内容、ソフトウェア構成要素の処理内容)が含まれる。   Further, the system function configuration information 10 includes the processing contents of the components including the hardware and software included in the information system (the processing contents of the hardware components and the processing contents of the software components).

信頼性関連情報11には、情報システムに含まれるハードウェアとソフトウェアとを含む構成要素の故障モードの故障間隔(ハードウェア構成要素の故障モードの故障間隔、ソフトウェア構成要素の故障モードの故障間隔)、ハードウェアとソフトウェアとを含む構成要素の故障モードの修復時間(ハードウェア構成要素の故障モードの修復時間、ソフトウェア構成要素の故障モードの修復時間)が含まれる。例えば、ハードウェア構成要素の故障モードの故障間隔としては、APサーバ1のハードディスクのディスク不良(故障モード)の故障間隔txがあり、ソフトウェア構成要素の故障モードの故障間隔としては、APサーバ1のAPソフトウェアのOSの障害(故障モード)の故障間隔tyがある。   The reliability related information 11 includes failure intervals of failure modes of components including hardware and software included in the information system (failure intervals of failure modes of hardware components, failure intervals of failure modes of software components) , The repair time of the failure mode of the component including hardware and software (the repair time of the failure mode of the hardware component, the repair time of the failure mode of the software component) is included. For example, the failure interval of the hardware component failure mode includes the failure interval tx of the hard disk failure (failure mode) of the AP server 1, and the failure interval of the failure mode of the software component includes the AP server 1 failure interval. There is a failure interval ty for a failure (failure mode) of the OS of the AP software.

コスト関連情報13には、情報システムに含まれるハードウェアとソフトウェアとを含む構成要素の設備費(ハードウェア構成要素のために必要なコストを示す設備費、ソフトウェア構成要素のために設備費)が含まれている。また、コスト関連情報13には、単位期間(例えば、1ヶ月など)情報システムが停止したことによる営業上の損害額(実測値、予測値でもよい)を示すシステム停止損害額が含まれる。この設備費とは、ハードウェア構成要素やソフトウェア構成要素の原料費、上記構成要素を情報システムに組み込むために必要な費用など、構成要素のためにかかる費用のことである。   The cost related information 13 includes equipment costs of components including hardware and software included in the information system (equipment costs indicating costs necessary for hardware components, equipment costs for software components). include. Further, the cost related information 13 includes a system stoppage loss amount indicating a loss amount in business (may be an actual measurement value or a predicted value) due to the information system being stopped for a unit period (for example, one month). The equipment cost is a cost for the component, such as a raw material cost of the hardware component or the software component, a cost necessary for incorporating the component into the information system.

システム基準情報12には、情報システムのシステム構成が含まれる。このシステム構成とは、情報システムに含まれる各機器間の繋がりを示すものである。また、システム基準情報12には、情報システム全体の稼働率を示すシステム稼働率の基準値(以下、システム稼働率基準値という)、運用期間、情報システムのために費やされるコストとして許される範囲を示すコスト許容値が含まれる。情報抽出・入力部2により入力された情報は、情報処理・演算部3に送られる。   The system reference information 12 includes the system configuration of the information system. This system configuration indicates a connection between devices included in the information system. The system standard information 12 includes a system operating rate reference value (hereinafter referred to as a system operating rate reference value) indicating an operating rate of the entire information system, an operation period, and a range allowed as a cost spent for the information system. The indicated cost tolerance is included. Information input by the information extraction / input unit 2 is sent to the information processing / calculation unit 3.

図3は、情報処理・演算部3の詳細な構成を示す図である。情報処理・演算部3は、フィールドデータ分析部31、フォルトツリー作成部32、フォルトツリー−ロジック変換部33、稼働率算出部34、システム稼働率判定部35、重要度分析部36、変更可能性判定部37、システム構成再設定部38、故障情報再設定部39、コスト算出部40、コスト判定部41、コスト情報再設定部42を有する。   FIG. 3 is a diagram showing a detailed configuration of the information processing / arithmetic unit 3. The information processing / arithmetic unit 3 includes a field data analysis unit 31, a fault tree creation unit 32, a fault tree-logic conversion unit 33, an operation rate calculation unit 34, a system operation rate determination unit 35, an importance analysis unit 36, and a change possibility. It has a determination unit 37, a system configuration resetting unit 38, a failure information resetting unit 39, a cost calculation unit 40, a cost determination unit 41, and a cost information resetting unit 42.

フィールドデータ分析部31は、ハードウェア構成要素、ソフトウェア構成要素における故障モードの故障に関する情報の分析を故障モードごとに行うことにより、分析結果として分析情報を得る情報分析部である。例えば、フィールドデータ分析部31は、情報抽出・入力部2により入力された情報のうち、故障モードに対応する故障に関する情報を、情報システムに含まれる各機器(例えば、APサーバ1、APサーバ2など)が処理機能別に分類された機器の集合を示す機器群(例えば、APサーバ群、WEBサーバ群など)及び故障モードごとに分類し分類結果に基づいて、上述の分析を行う。具体的な説明は以下の通りである。   The field data analysis unit 31 is an information analysis unit that obtains analysis information as an analysis result by analyzing information on failures in failure modes in hardware components and software components for each failure mode. For example, the field data analysis unit 31 stores information related to the failure corresponding to the failure mode among the information input by the information extraction / input unit 2 (for example, the AP server 1 and the AP server 2). Etc.) are classified for each device group (for example, AP server group, WEB server group, etc.) indicating a set of devices classified by processing function and failure mode, and the above analysis is performed based on the classification result. The specific explanation is as follows.

例えば、各故障モード(例えば、APサーバ1のハードディスクのディスク不良)の障害情報(故障に関する情報)として、上記構成要素(例えば、APサーバ1のハードディスク)の使用開始日時、故障(例えば、ディスク不良)発生日時、故障間隔、故障復旧日時、修復時間がある。フィールドデータ分析部31は、入力された各種の情報のうち、故障モードに対応する故障に関する情報(例えば、APサーバ1のハードディスクのディスク不良に対応する使用開始日時、故障発生日時、故障間隔、故障復旧日時、修復時間)を、機器群及び故障モード(例えば、APサーバ群、ディスク不良)に対応づけることにより分類する。このようにして、フィールドデータ分析部31は、ハードウェア構成要素、ソフトウェア構成要素の故障モードに対応する障害情報が、機器群及び故障モードに対応づけられることにより分類された分類テーブルを生成する。図4は、ハードウェア構成要素の故障モードに対応する障害情報が、機器群及び故障モードに対応づけられることにより分類された分類テーブル(以下、ハードウェア分類テーブルという)を示す図であり、機器群と機器と構成要素と故障モード(例えば、ディスク不良など)ごとに、障害情報が対応づけられている。図5は、ソフトウェア構成要素の故障モードに対応する障害情報が、機器群及び故障モードに対応づけられることにより分類された分類テーブル(以下、ソフトウェア分類テーブルという)を示す図であり、機器群と機器と構成要素と故障モード(例えば、OSの障害、アプリケーションの障害、ミドルウェアの障害、ユーザの入力ミスなど)ごとに、障害情報が対応づけられている。なお、DBサーバとは、情報システムに含まれるデータベースを管理するDBサーバ群に属するサーバのことである。言い換えると、DBサーバ群は、情報システムを構成する各DBサーバ1、2...の集合を示すものである。   For example, as failure information (information related to failure) of each failure mode (for example, hard disk failure of the AP server 1), the use start date and time of the above component (for example, hard disk of the AP server 1), failure (for example, disk failure) ) There are occurrence date, failure interval, failure recovery date and time, and repair time. The field data analysis unit 31 includes information related to the failure corresponding to the failure mode (for example, use start date / time, failure occurrence date / time, failure interval, failure corresponding to the disk failure of the hard disk of the AP server 1) among the various pieces of input information. The recovery date and time and the recovery time are classified by associating them with device groups and failure modes (for example, AP server group, disk failure). In this manner, the field data analysis unit 31 generates a classification table in which the failure information corresponding to the hardware component and software component failure modes is associated with the device group and failure mode. FIG. 4 is a diagram illustrating a classification table (hereinafter, referred to as a hardware classification table) in which failure information corresponding to a failure mode of a hardware component is classified by being associated with a device group and a failure mode. Fault information is associated with each group, device, component, and failure mode (for example, disk failure). FIG. 5 is a diagram showing a classification table (hereinafter referred to as software classification table) in which failure information corresponding to a failure mode of a software component is classified by being associated with a device group and a failure mode. Failure information is associated with each device, component, and failure mode (for example, OS failure, application failure, middleware failure, user input error, etc.). The DB server is a server belonging to a DB server group that manages databases included in the information system. In other words, the DB server group includes each DB server 1, 2,. . . Is a set.

フィールドデータ分析部31は、上述の図4に示すハードウェア分類テーブル(又は図5に示すソフトウェア分類テーブル)を用いて、ハードウェア構成要素(又はソフトウェア構成要素)の故障モードごとに、故障モードの故障確率を算出し、算出した故障確率を分析情報として得る。例えば、フィールドデータ分析部31は、情報抽出・入力部2に入力されたハードウェア構成要素(又はソフトウェア構成要素)の故障モードの故障間隔(上述のハードウェア分類テーブル(又はソフトウェア分類テーブル)に記録された各故障モードの故障間隔)と、故障間隔に対する故障確率の分布を示すワイブル分布とに基づいて、ハードウェア構成要素(又はソフトウェア構成要素)の故障モードの故障確率を算出する。   The field data analysis unit 31 uses the hardware classification table shown in FIG. 4 (or the software classification table shown in FIG. 5) to determine the failure mode for each failure mode of the hardware component (or software component). A failure probability is calculated, and the calculated failure probability is obtained as analysis information. For example, the field data analysis unit 31 records the failure interval of the failure mode of the hardware component (or software component) input to the information extraction / input unit 2 (the above-described hardware classification table (or software classification table)). The failure probability of the failure mode of the hardware component (or software component) is calculated based on the failure interval of each failure mode) and the Weibull distribution indicating the distribution of failure probability with respect to the failure interval.

具体的な説明は、以下の通りである。フィールドデータ分析部31は、例えば、ハードウェア分類テーブルに記録されたAPサーバ1のハードディスクのディスク不良(又は、ソフトウェア分類テーブルに記録されたAPサーバ1のソフトウェアのOS障害)に対応する故障間隔t1、t2、t3....を、ワイブル分布式にあてはめることにより、ワイブル分布式を用いた故障確率を算出する。例えば、故障間隔tを用いた故障確率の分布関数F(t)は、以下の数1式で示される。

Figure 0004174497
A specific description is as follows. For example, the field data analysis unit 31 has a failure interval t1 corresponding to a disk failure of the hard disk of the AP server 1 recorded in the hardware classification table (or an OS failure of the software of the AP server 1 recorded in the software classification table). , T2, t3. . . . Is applied to the Weibull distribution equation to calculate the failure probability using the Weibull distribution equation. For example, a failure probability distribution function F (t) using the failure interval t is expressed by the following equation (1).
Figure 0004174497

ここで、βは形状パラメータ、θは尺度パラメータである。フィールドデータ分析部31は、数1式で示される分布に、上述の故障間隔t1、t2、t3....をあてはめることにより、βとθを決定(推定)することができる。これにより、フィールドデータ分析部31は、ハードウェア構成要素、ソフトウェア構成要素の故障モードの故障確率F(t)を算出することができる。   Here, β is a shape parameter, and θ is a scale parameter. The field data analysis unit 31 adds the above-described failure intervals t1, t2, t3. . . . Can be determined (estimated). Thereby, the field data analysis unit 31 can calculate the failure probability F (t) of the failure mode of the hardware component and the software component.

なお、故障のパターンは、故障率が時間経過に従って減少する初期故障パターン、故障率が時間経過に関わらず一定である偶発故障パターン、故障率が時間経過に従って増大する老朽故障パターンのいずれかに分類される。ここで、β<1の場合は、初期故障パターンに対応し、β=1の場合は、偶発故障パターンに対応し、β>1の場合は、老朽故障パターンに対応している。このため、上述のようにして算出された故障確率は、全ての故障パターンのうち、いずれかの故障パターンに対応するものである。   The failure pattern is classified into an initial failure pattern in which the failure rate decreases with the passage of time, an accidental failure pattern in which the failure rate is constant regardless of the passage of time, or an aging failure pattern in which the failure rate increases with the passage of time. Is done. Here, β <1 corresponds to an initial failure pattern, β = 1 corresponds to an accidental failure pattern, and β> 1 corresponds to an aging failure pattern. For this reason, the failure probability calculated as described above corresponds to any failure pattern among all failure patterns.

また、フィールドデータ分析部31は、上述のハードウェア分類テーブル(又はソフトウェア分類テーブル)を用いて、ハードウェア構成要素(又はソフトウェア構成要素)の故障モードごとに、故障モードの修復時間の平均値である平均修復時間を算出し、算出した平均修復時間を分析情報として得る。   In addition, the field data analysis unit 31 uses the above-described hardware classification table (or software classification table) to calculate the average repair time for each failure mode for each hardware component (or software component) failure mode. A certain average repair time is calculated, and the calculated average repair time is obtained as analysis information.

なお、フィールドデータ分析部31は、使用開始日時、故障発生日時から、故障間隔を算出し、算出した故障間隔を用いて、故障確率を算出するようにしてもよい。また、フィールドデータ分析部31は、故障発生日時、故障復旧日時から、修復時間を算出し、算出した修復時間を用いて、平均修復時間を算出するようにしてもよい。フィールドデータ分析部31により分析された情報は、分析情報として稼働率算出部34に送られる。   The field data analysis unit 31 may calculate a failure interval from the use start date / time and the failure occurrence date / time, and calculate the failure probability using the calculated failure interval. The field data analysis unit 31 may calculate the repair time from the failure occurrence date and time and the failure recovery date and time, and may calculate the average repair time using the calculated repair time. Information analyzed by the field data analysis unit 31 is sent to the operation rate calculation unit 34 as analysis information.

フォルトツリー作成部32は、情報抽出・入力部2からのシステム構成情報(例えば、システム機能構成情報10、システム基準情報12に含まれるシステム構成)に基づいて、情報システムの故障モードを示す頂上事象から、ハードウェア構成要素、ソフトウェア構成要素の故障モードを示す基本事象への階層的な論理関係を示すフォルトツリーを作成する。このフォルトツリーにおいては、情報システム全体の機能喪失、又は、運用、動作上の好ましくない事象を頂上事象とし、要因をそれ以上求めることができないハードウェア構成要素の故障モード、ソフトウェア構成要素の故障モードを基本事象とした場合に、頂上事象から基本事象への階層的な論理関係が示されている。即ち、フォルトツリーにおいては、事象と要因との関係として展開された各事象が論理記号(例えば、OR記号、AND記号など)で結合されている。   The fault tree creation unit 32 is a top event indicating a failure mode of the information system based on the system configuration information (for example, the system configuration included in the system function configuration information 10 and the system reference information 12) from the information extraction / input unit 2. From the above, a fault tree indicating a hierarchical logical relationship to basic events indicating failure modes of hardware components and software components is created. In this fault tree, the failure mode of the hardware component and the failure mode of the software component that cannot be determined any more because the top event is a loss of function of the entire information system, or an undesirable event in operation or operation A hierarchical logical relationship from the top event to the basic event is shown. That is, in the fault tree, each event developed as a relationship between an event and a factor is connected by a logical symbol (for example, an OR symbol, an AND symbol, etc.).

具体的には、フォルトツリー作成部32は、以下のようにして、フォルトツリーを作成する。情報抽出・入力部2により入力されたハードウェアとソフトウェアとを含む構成要素情報、ハードウェアとソフトウェアとを含む構成要素の機能別分類、ハードウェアとソフトウェアとを含む構成要素の繋がりと、ハードウェアとソフトウェアとを含む構成要素の処理内容、システム構成がフォルトツリー作成部32に入力される。フォルトツリー作成部32は、入力された情報に基づいて、フォルトツリーを作成する。   Specifically, the fault tree creation unit 32 creates a fault tree as follows. Component information including hardware and software input by the information extraction / input unit 2, classification by function of components including hardware and software, connection of components including hardware and software, and hardware The processing contents of the components including the software and the system configuration are input to the fault tree creation unit 32. The fault tree creation unit 32 creates a fault tree based on the input information.

なお、ハードウェア構成要素の機能別分類、ハードウェア構成要素間の繋がりと、ハードウェア構成要素の処理内容、システム構成に基づいて、フォルトツリーを作成することは、よく知られた技術である。本実施形態の場合も、この良く知られた技術と同様にして、フォルトツリーの作成が行えるので、フォルトツリーの作成の詳細な説明は、ここでは省略する。   It is a well-known technique to create a fault tree based on classification of hardware components by function, connection between hardware components, processing contents of hardware components, and system configuration. In the case of the present embodiment as well, since a fault tree can be created in the same manner as this well-known technique, a detailed description of creating a fault tree is omitted here.

図6〜図12は、フォルトツリー作成部32により作成されたフォルトツリーの一例を示す図である。ここでは、評価対象の情報システムは、上述したWebサーバ群、APサーバ群、DBサーバ群から構成されるとする。各サーバ群は、2つのサーバにより構成されるとする。各サーバは、複数のハードウェア構成要素(ハードディスク、CPU、メモリなど)で構成されているとする。また、各サーバの機能を実行させるためのソフトウェア構成要素は、Webサーバ1ソフトウェア、Webサーバ2ソフトウェア、APサーバ1ソフトウェア...としている。ソフトウェア構成要素の故障モードとしては、OSの故障、アプリケーションの故障、ミドルウェアの故障、ユーザの入力ミスとしている。なお、図6〜図12では、各サーバのハードウェアの故障事象(例えば、Webサーバ1ハードウェアの機能喪失、Webサーバ2ハードウェアの機能喪失など)より下位の故障事象(例えば、Webサーバ1のハードディスクのディスク不良など)は省略しているが、各サーバのハードウェアの故障事象より下位にも、故障事象がAND記号又はOR記号により、論理的に接続されている場合もある。   6 to 12 are diagrams illustrating an example of the fault tree created by the fault tree creating unit 32. FIG. Here, it is assumed that the information system to be evaluated includes the above-described Web server group, AP server group, and DB server group. Each server group is assumed to be composed of two servers. Each server is assumed to be composed of a plurality of hardware components (hard disk, CPU, memory, etc.). The software components for executing the functions of each server include Web server 1 software, Web server 2 software, AP server 1 software. . . It is said. Software component failure modes are OS failure, application failure, middleware failure, and user input error. 6 to 12, a failure event (for example, Web server 1) lower than a hardware failure event (for example, Web server 1 hardware loss, Web server 2 hardware loss, etc.) of each server. However, the failure event may be logically connected by AND symbol or OR symbol below the hardware failure event of each server.

図6においては、頂上事象(情報システム全体の故障を示す事象、例えば、システムの機能喪失など)と第1階層の事象(頂上事象より階層的に1つ下の事象、例えば、WEBサーバ群の機能喪失など)とがAND記号、OR記号などの論理記号により接続されている。また、図6においては、第1階層の事象と、第2階層の事象(頂上事象より階層的に2つ下の事象、例えば、WEBサーバ1の機能喪失など)とが上記論理記号により接続されている。また、図6においては、第2階層の事象と、第3階層の事象(頂上事象より階層的に3つ下の事象、例えば、WEBサーバ1ハードウェアの機能喪失、WEBサーバ1ソフトウェアの機能喪失など)とが上記論理記号により接続されている。ここで、第3階層の事象の内、各サーバのハードウェアの故障事象(例えば、WEBサーバ1ハードウェアの機能喪失など)は、ハードウェアの故障に関する基本事象となっている。また、第3階層の事象の内、各サーバのソフトウェアの故障事象(例えば、WEBサーバ1ソフトウェアの機能喪失など)には、さらに、図7〜図12のように、第4階層の事象(例えば、WEBサーバ1ソフトウェアのOSの故障、アプリケーションの故障、ミドルウェアの故障、ユーザの入力ミスなど)が論理記号により接続されている。ここで、図7〜図12に示された第4階層の事象は、ソフトウェアの故障に関する基本事象となっている。   In FIG. 6, a top event (an event indicating a failure of the entire information system, for example, loss of system function) and a first level event (an event hierarchically lower than the top event, for example, a WEB server group) Loss of function, etc.) are connected by logical symbols such as AND symbols and OR symbols. In FIG. 6, the event of the first layer and the event of the second layer (the event two layers lower than the top event, for example, the loss of the function of the WEB server 1) are connected by the above logical symbols. ing. Further, in FIG. 6, the event of the second layer and the event of the third layer (the event three layers lower than the top event, for example, the loss of the function of the WEB server 1 hardware, the loss of the function of the WEB server 1 software) Etc.) are connected by the above logic symbols. Here, among the events of the third hierarchy, a hardware failure event of each server (for example, loss of function of the WEB server 1 hardware) is a basic event related to a hardware failure. In addition, among the events of the third layer, the failure event of the software of each server (for example, the loss of the function of the WEB server 1 software) further includes an event of the fourth layer (for example, as shown in FIGS. 7 to 12). , WEB server 1 software OS failure, application failure, middleware failure, user input error, etc.) are connected by logical symbols. Here, the events of the fourth hierarchy shown in FIGS. 7 to 12 are basic events related to software failures.

このようなフォルトツリーにおいては、頂上事象から基本事象への階層的な論理関係が示される際に、各事象(第1階層の事象、第2階層の事象、第3階層の事象、基本事象)には、ハードウェアに関する故障事象だけでなく、ソフトウェアに関する故障事象が存在している。作成されたフォルトツリーは、フォルトツリー−ロジック変換部33に送られる。   In such a fault tree, when a hierarchical logical relationship from the top event to the basic event is shown, each event (the event of the first layer, the event of the second layer, the event of the third layer, the basic event) In addition to hardware failure events, there are software failure events. The created fault tree is sent to the fault tree-logic conversion unit 33.

フォルトツリー−ロジック変換部33は、フォルトツリーのデータをブール代数を用いて、後述の所定の関係式に変換する。具体的な説明は以下の通りである。   The fault tree-logic conversion unit 33 converts the data of the fault tree into a predetermined relational expression described later using a Boolean algebra. The specific explanation is as follows.

図6〜図12において、所定の事象(例えば、WEBサーバ1ソフトウェアの機能喪失)と、複数の下位の事象(WEBサーバ1ソフトウェアのOSの故障、アプリケーションの故障、ミドルウェアの故障、WEBサーバ1ソフトウェアに関するユーザの入力ミス)とがOR記号で接続されている場合、上記複数の下位の事象のうちいずれかが発生する(例えば、OSの故障)と上記所定の事象も発生する。このため、所定の事象とこの所定の事象の下位の事象とがOR記号で接続されているとき、所定の事象に対応する不稼働率(=1−稼働率)をqとし、上記所定の事象の下位の事象に対応する不稼働率をqjとした場合、ブール代数を用いて、所定の事象の不稼働率qは、以下の数2式によって算出される。

Figure 0004174497
6 to 12, a predetermined event (for example, WEB server 1 software loss of function) and a plurality of lower events (WEB server 1 software OS failure, application failure, middleware failure, WEB server 1 software) Are connected with an OR symbol, if any one of the plurality of lower events (for example, OS failure) occurs, the predetermined event also occurs. Therefore, when a predetermined event and a lower event of the predetermined event are connected by an OR symbol, the non-operation rate (= 1−operation rate) corresponding to the predetermined event is defined as q, and the predetermined event Assuming that the inoperative rate corresponding to the lower-order event is qj, the inoperative rate q of the predetermined event is calculated by the following formula 2 using a Boolean algebra.
Figure 0004174497

ここで、Nは下位の事象の総数である。   Here, N is the total number of lower events.

また、図6〜図12において、所定の事象(例えば、WEBサーバ群の機能喪失)と、複数の下位の事象(WEBサーバ1の機能喪失、WEBサーバ2の機能喪失)とがAND記号で接続されている場合、上記複数の下位の事象の全てが発生する(例えば、WEBサーバ1の機能喪失、WEBサーバ2の機能喪失)と、上記所定の事象が発生する。このため、所定の事象と、複数の下位の事象とがAND記号で接続されているとき、所定の事象に対応する不稼働率(=1−稼働率)をqとし、上記所定の事象の下位の事象に対応する不稼働率をqjとした場合、ブール代数を用いて、所定の事象の不稼働率qは、以下の数3式によって算出される。

Figure 0004174497
In addition, in FIGS. 6 to 12, a predetermined event (for example, loss of function of the WEB server group) and a plurality of lower-level events (loss of function of the WEB server 1, loss of function of the WEB server 2) are connected by AND symbols. If all of the plurality of lower events occur (for example, loss of function of the WEB server 1, loss of function of the WEB server 2), the predetermined event occurs. For this reason, when a predetermined event and a plurality of lower events are connected with an AND symbol, the non-operation rate (= 1−operation rate) corresponding to the predetermined event is set to q, and the lower order of the predetermined event When the unavailability corresponding to the event is qj, the unavailability q of the predetermined event is calculated by the following equation (3) using a Boolean algebra.
Figure 0004174497

ここで、Nは下位の事象の総数である。   Here, N is the total number of lower events.

フォルトツリー−ロジック変換部33では、図6〜図12のフォルトツリーと、数2式と数3式を用いて、フォルトツリーのデータを、頂上事象の不稼働率qに関する所定の関係式に変換する。この所定の関係式においては、頂上事象に対応する不稼働率qは、例えば、qj(qjは、基本事象の不稼働率、j=1〜N、Nは基本事象の数)を用いた所定の式で表される。上記所定の関係式は、稼働率算出部34に送られる。   The fault tree-logic conversion unit 33 converts the fault tree data into a predetermined relational expression related to the unusable rate q of the top event, using the fault tree of FIGS. To do. In this predetermined relational expression, the non-working rate q corresponding to the top event is, for example, a predetermined value using qj (qj is the non-working rate of basic events, j = 1 to N, N is the number of basic events). It is expressed by the following formula. The predetermined relational expression is sent to the operation rate calculation unit 34.

稼働率算出部34は、フィールドデータ分析部31による分析結果としての分析情報(算出された各故障モードの故障確率、平均修復時間)に基づいて、ハードウェア構成要素、ソフトウェア構成要素の故障モードに対応する不稼働率を算出する不稼働率算出機能と、算出された不稼働率を、ハードウェア構成要素、ソフトウェア構成要素の故障モードに相当する基本事象に対応する不稼働率とした場合、基本事象に対応する不稼働率(例えば、ディスク不良によるハードディスクの不稼働率)と、頂上事象の不稼働率qに関する所定の関係式とに基づいて、頂上事象に対応する稼働率をシステム稼働率として算出するシステム稼働率算出機能とを有する。すなわち、稼働率算出部34は、不稼働率算出部及びシステム稼働率算出部として機能する。具体的な説明は以下の通りである。   Based on the analysis information (the calculated failure probability of each failure mode, average repair time) as an analysis result by the field data analysis unit 31, the operation rate calculation unit 34 sets the failure mode of the hardware component and software component. When the unavailability calculation function that calculates the corresponding unavailability and the calculated unavailability as the unavailability corresponding to the basic event corresponding to the failure mode of the hardware component or software component are basic Based on the unavailability corresponding to the event (for example, the unavailability of the hard disk due to a disk failure) and the predetermined relational expression regarding the unavailability q of the top event, the operation rate corresponding to the top event is defined as the system operation rate. And a system operation rate calculation function for calculating. That is, the operation rate calculation unit 34 functions as a non-operation rate calculation unit and a system operation rate calculation unit. The specific explanation is as follows.

稼働率算出部34は、先ず、フォルトツリーに含まれる各基本事象に対応する稼働率を、モンテカルロシミュレーションを用いた評価によって算出する。基本事象に対応する稼働率は、例えば、1−(基本事象に対応する不稼働率)により算出される。なお、フィールドデータ分析部31は、算出した各故障モードの故障確率F(t)を稼働率算出部34に出力している。故障確率F(t)は、時間tまでの間に故障が発生する確率を示すものである。また、故障率p(t)は、各故障モードが修復された時間0から時間tまでの間に正常状態であり、時間tにおいて単位時間当たりに故障が発生する確率(p(t)=(dF(t)/dt)/(1−F(t)))としている。稼働率算出部34は、各基本事象に対応する稼働率を以下のようにして算出する。   First, the operating rate calculation unit 34 calculates the operating rate corresponding to each basic event included in the fault tree by evaluation using a Monte Carlo simulation. The operating rate corresponding to the basic event is calculated by 1- (non-operating rate corresponding to the basic event), for example. The field data analysis unit 31 outputs the calculated failure probability F (t) of each failure mode to the operation rate calculation unit 34. The failure probability F (t) indicates the probability that a failure will occur before time t. The failure rate p (t) is a normal state from time 0 to time t when each failure mode is repaired, and the probability that a failure will occur per unit time at time t (p (t) = ( dF (t) / dt) / (1-F (t))). The operating rate calculation unit 34 calculates the operating rate corresponding to each basic event as follows.

(1)稼働率算出部34は、シミュレーション評価開始時刻(以下、評価開始時刻)をtとし、シミュレーション評価終了時刻(以下、評価終了時刻)をtとした場合に、評価開始時刻tでは、基本事象に対応する故障が発生せず、基本事象に対応するハードウェア構成要素又はソフトウェア構成要素は正常状態であると認識する。即ち、稼働率算出部34は、基本事象に対応する故障が発生する確率F(t)、故障率p(t)は、ともに0と認識する。 (1) operating rate calculating unit 34, a simulation evaluation start time (hereinafter, evaluation start time) as the t 0, the simulation evaluation ending time (hereinafter, evaluation ending time) to the case of a t e, evaluation starting time t 0 Then, the failure corresponding to the basic event does not occur, and the hardware component or software component corresponding to the basic event is recognized as being in a normal state. That is, the operating rate calculation unit 34 recognizes that the probability F (t 0 ) and the failure rate p (t 0 ) that a failure corresponding to the basic event occurs are 0.

(2)シミュレーション評価時刻(以下、評価時刻)tから評価時刻t+dt(=t)までの間に、基本事象に対応する故障が発生する確率(基本事象に対応するハードウェア構成要素又はソフトウェア構成要素が故障する確率)をp(t+dt/2)dtとする。稼働率算出部34は、上述の確率p(t+dt/2)dtと、0から1の範囲で発生した乱数r1とを比較し、p(t+dt/2)dt≧r1の場合には、ハードウェア構成要素又はソフトウェア構成要素(以下、単に構成要素という)が基本事象に対応する故障状態に遷移したと認識する。稼働率算出部34は、上述の遷移したと認識したときから、基本事象に対応する故障が修復し、構成要素が正常状態に戻るまでの時間を、基本事象に対応する累積稼働時間に加算しない。基本事象に対応する累積稼動時間とは、評価開始時刻から評価終了時刻までの間に、基本事象に対応する構成要素が稼動している時間を示すものである。稼働率算出部34は、基本事象に対応する故障時間0にdtを加算する。基本事象に対応する故障時間とは、基本事象に対応する構成要素が故障している時間を示すものであり、いったん、構成要素が正常状態に戻ると、0にクリアされる。 (2) Probability that a failure corresponding to the basic event will occur between the simulation evaluation time (hereinafter referred to as evaluation time) t 0 and the evaluation time t 0 + dt (= t 1 ) (hardware component corresponding to the basic event) Or, the probability that the software component will fail) is p (t 0 + dt / 2) dt. The operating rate calculation unit 34 compares the above-described probability p (t 0 + dt / 2) dt with a random number r1 generated in the range of 0 to 1, and when p (t 0 + dt / 2) dt ≧ r1 Recognizes that a hardware component or software component (hereinafter simply referred to as a component) has transitioned to a fault state corresponding to a basic event. The operating rate calculation unit 34 does not add the time until the failure corresponding to the basic event is repaired and the component returns to the normal state to the accumulated operating time corresponding to the basic event after the above-described transition is recognized. . The cumulative operation time corresponding to the basic event indicates the time during which the component corresponding to the basic event is operating between the evaluation start time and the evaluation end time. The operating rate calculation unit 34 adds dt to the failure time 0 corresponding to the basic event. The failure time corresponding to the basic event indicates the time during which the component corresponding to the basic event has failed, and is cleared to 0 once the component returns to the normal state.

稼働率算出部34は、上述の基本事象に対応する故障が発生する確率と、0から1の範囲で発生した乱数r1とを比較し、p(t+dt/2)dt<r1の場合には、構成要素が正常状態のままであると認識する。この場合、稼働率算出部34は、基本事象に対応する累積稼働時間0に時間dtを加算する。 The availability calculating unit 34 compares the probability that a failure corresponding to the basic event described above will occur with the random number r1 generated in the range of 0 to 1, and if p (t 0 + dt / 2) dt <r1. Recognizes that the component remains in a normal state. In this case, the operation rate calculation unit 34 adds the time dt to the accumulated operation time 0 corresponding to the basic event.

(3)次に、稼働率算出部34は、評価時刻tから評価時刻t+dt(=t)までの間における基本事象に対応する構成要素の状態遷移について評価する。 (3) Next, the operation rate calculation unit 34 evaluates the state transition of the component corresponding to the basic event from the evaluation time t 1 to the evaluation time t 1 + dt (= t 2 ).

評価時刻tで基本事象に対応する構成要素が正常状態である場合には、稼働率算出部34は、上と同様の処理を行う。具体的には以下の通りである。上述と同様にして、評価時刻tから評価時刻t+dtまでの間では、基本事象に対応する構成要素が故障する確率はp(t+dt/2)dtとなる。 If the components in evaluation time t 1 corresponding to the basic event is normal state, operating rate calculating unit 34 performs the same processing as above. Specifically, it is as follows. Similarly to the above, between the evaluation time t 1 and the evaluation time t 1 + dt, the probability that the component corresponding to the basic event will fail is p (t 1 + dt / 2) dt.

稼働率算出部34は、確率p(t+dt/2)dtと、0から1の範囲で発生した乱数r2とを比較し、p(t+dt/2)dt≧r2の場合には、構成要素が故障状態に遷移したと認識する。稼働率算出部34は、上述の遷移したと認識したときから、基本事象に対応する故障が修復し、構成要素が正常状態に戻るまでの時間を、基本事象に対応する累積稼働時間に加算しない。稼働率算出部34は、基本事象に対応する故障時間にdtを加算する。 The operation rate calculation unit 34 compares the probability p (t 1 + dt / 2) dt with the random number r2 generated in the range of 0 to 1, and when p (t 1 + dt / 2) dt ≧ r2, Recognize that the component has transitioned to a fault state. The operating rate calculation unit 34 does not add the time until the failure corresponding to the basic event is repaired and the component returns to the normal state to the accumulated operating time corresponding to the basic event after the above-described transition is recognized. . The operating rate calculation unit 34 adds dt to the failure time corresponding to the basic event.

稼働率算出部34は、上述の確率p(t+dt/2)dtと、0から1の範囲で発生した乱数r2とを比較し、p(t+dt/2)dt<r2の場合には、構成要素が正常状態のままであると認識する。この場合、稼働率算出部34は、基本事象に対応する累積稼働時間に時間dtを加算する。 The operation rate calculation unit 34 compares the above-described probability p (t 1 + dt / 2) dt with a random number r2 generated in the range of 0 to 1, and when p (t 1 + dt / 2) dt <r2 Recognizes that the component remains in a normal state. In this case, the operation rate calculation unit 34 adds the time dt to the accumulated operation time corresponding to the basic event.

さらに、評価時刻tをt(=t+dt)、t(=t+dt)、t(=t+dt)、...、t(=tn−1+dt)、...と、dtずつ増加させて、上述の(3)の処理を繰り返す。 Additionally, the evaluation time t 1 t 2 (= t 1 + dt), t 3 (= t 2 + dt), t 4 (= t 3 + dt) ,. . . , T n (= t n−1 + dt),. . . And incrementing by dt and repeating the process (3) described above.

なお、稼働率算出部34は、上述の処理と並行して、基本事象に対応する故障時間と、基本事象に対応する故障モードの平均修復時間とを比較し、基本事象に対応する故障時間が、上記平均修復時間に到達したか否かを判定する。稼働率算出部34は、基本事象に対応する故障時間が、上記平均修復時間に到達した場合には、基本事象に対応する構成要素は正常状態に戻ったと認識する。この場合、稼働率算出部34は、基本事象に対応する故障時間を0にリセットし、故障率及び故障確率も0にリセットする。そして、故障率等がリセットされた時刻をtとした場合、稼働率算出部34は、(4)の処理を行う。 In addition, in parallel with the above-described processing, the operation rate calculation unit 34 compares the failure time corresponding to the basic event with the average repair time of the failure mode corresponding to the basic event, and the failure time corresponding to the basic event. Then, it is determined whether or not the average repair time has been reached. When the failure time corresponding to the basic event reaches the average repair time, the operating rate calculation unit 34 recognizes that the component corresponding to the basic event has returned to the normal state. In this case, the operation rate calculation unit 34 resets the failure time corresponding to the basic event to 0, and also resets the failure rate and failure probability to 0. Then, when the time when the failure rate or the like is reset is t m , the operating rate calculation unit 34 performs the process (4).

(4)評価時刻tから評価時刻t+dt(=tm+1)までの間に、基本事象に対応する故障が発生する時間間隔当たりの故障発生確率をp(t−t+dt/2)dtとする。稼働率算出部34は、上述の確率p(t−t+dt/2)dtと、0から1の範囲で発生した乱数r3とを比較し、p(t−t+dt/2)dt≧r3の場合には、構成要素が基本事象に対応する故障状態に遷移したと認識する。稼働率算出部34は、上述の遷移したと認識したときから、基本事象に対応する故障が修復し、構成要素が正常状態に戻るまでの時間を、基本事象に対応する累積稼働時間に加算しない。稼働率算出部34は、基本事象に対応する故障時間0にdtを加算する。基本事象に対応する故障時間とは、基本事象に対応する構成要素が故障している時間を示すものであり、いったん、構成要素が正常状態に戻ると、0にクリアされる。 (4) evaluation time t m from evaluation time t m + dt (= t m + 1) until the failure probability per time interval a failure corresponding to the basic event occurs p (t m -t m + dt / 2 ) Dt. The operating rate calculation unit 34 compares the above-described probability p (t m −t m + dt / 2) dt with a random number r3 generated in the range of 0 to 1, and p (t m −t m + dt / 2). When dt ≧ r3, it is recognized that the component has transitioned to the failure state corresponding to the basic event. The operating rate calculation unit 34 does not add the time until the failure corresponding to the basic event is repaired and the component returns to the normal state to the accumulated operating time corresponding to the basic event after the above-described transition is recognized. . The operating rate calculation unit 34 adds dt to the failure time 0 corresponding to the basic event. The failure time corresponding to the basic event indicates the time during which the component corresponding to the basic event has failed, and is cleared to 0 once the component returns to the normal state.

稼働率算出部34は、上述の基本事象に対応する故障が発生する確率と、0から1の範囲で発生した乱数r3を比較し、p(t−t+dt/2)dt<r3の場合には、構成要素が正常状態のままであると認識する。この場合、稼働率算出部34は、基本事象に対応する累積稼働時間に時間dtを加算する。 The operation rate calculation unit 34 compares the probability that a failure corresponding to the above-described basic event will occur with a random number r3 generated in the range of 0 to 1, and p (t m −t m + dt / 2) dt <r3. In this case, the component is recognized as being in a normal state. In this case, the operation rate calculation unit 34 adds the time dt to the accumulated operation time corresponding to the basic event.

次に、稼働率算出部34は、評価時刻tm+1から評価時刻tm+1+dt(=tm+2)までの間における基本事象に対応する構成要素の状態遷移について評価する。 Next, the operation rate calculation unit 34 evaluates the state transition of the component corresponding to the basic event between the evaluation time t m + 1 and the evaluation time t m + 1 + dt (= t m + 2 ).

評価時刻tm+1で基本事象に対応する構成要素が正常状態である場合には、稼働率算出部34は、上述と同様の処理を行う。具体的には以下の通りである。上述と同様にして、評価時刻tm+1から評価時刻tm+1+dtまでの間では、基本事象に対応する構成要素の故障が発生する時間間隔当たりの故障発生確率をp(tm+1−t+dt/2)dtとする。 When the component corresponding to the basic event is in a normal state at the evaluation time t m + 1 , the operation rate calculation unit 34 performs the same process as described above. Specifically, it is as follows. In the same manner as described above, evaluation time t in the period from m + 1 to evaluation time t m + 1 + dt, the failure probability per time interval component failures corresponding to the basic event occurs p (t m + 1 -t m + dt / 2) Set to dt.

稼働率算出部34は、確率p(tm+1−t+dt/2)dtと、0から1の範囲で発生した乱数r4とを比較し、p(tm+1−t+dt/2)dt≧r4の場合には、構成要素が故障状態に遷移したと認識する。稼働率算出部34は、上述の遷移したと認識したときから、基本事象に対応する故障が修復し、構成要素が正常状態に戻るまでの時間を、基本事象に対応する累積稼働時間に加算しない。稼働率算出部34は、基本事象に対応する故障時間にdtを加算する。 The availability calculating unit 34 compares the probability p (t m + 1 −t m + dt / 2) dt with the random number r4 generated in the range of 0 to 1, and p (t m + 1 −t m + dt / 2) dt ≧ In the case of r4, it is recognized that the component has transitioned to the failure state. The operating rate calculation unit 34 does not add the time until the failure corresponding to the basic event is repaired and the component returns to the normal state to the accumulated operating time corresponding to the basic event after the above-described transition is recognized. . The operating rate calculation unit 34 adds dt to the failure time corresponding to the basic event.

稼働率算出部34は、上述の確率p(tm+1−t+dt/2)dtと、0から1の範囲で発生した乱数r4とを比較し、p(tm+1−t+dt/2)dt<r4の場合には、構成要素が正常状態のままであると認識する。この場合、稼働率算出部34は、基本事象に対応する累積稼働時間に時間dtを加算する。 The operation rate calculation unit 34 compares the above-described probability p (t m + 1 −t m + dt / 2) dt with a random number r4 generated in the range of 0 to 1, and p (t m + 1 −t m + dt / 2). If dt <r4, it is recognized that the component remains in the normal state. In this case, the operation rate calculation unit 34 adds the time dt to the accumulated operation time corresponding to the basic event.

さらに、評価時刻をtm+3(=tm+2+dt)、tm+4(=tm+3+dt)、...、t(=tn−1+dt)、...と、dtずつ増加させて、上述の処理を繰り返す。 Further, the evaluation times are t m + 3 (= t m + 2 + dt), t m + 4 (= t m + 3 + dt),. . . , T n (= t n−1 + dt),. . . And incrementing by dt and repeating the above process.

なお、稼働率算出部34は、上述の処理と並行して、基本事象に対応する故障時間と、基本事象に対応する故障モードの平均修復時間とを比較し、基本事象に対応する故障時間が、上記平均修復時間に到達したか否かを判定する。稼働率算出部34は、基本事象に対応する故障時間が、上記平均修復時間に到達した場合には、基本事象に対応する構成要素は正常状態に戻ったと認識する。この場合、稼働率算出部34は、基本事象に対応する故障時間を0にリセットし、故障率及び故障確率も0にリセットする。そして、故障率等がリセットされた時刻をtとした場合、稼働率算出部34は、上述の(4)の処理でtをtで置き換えた処理を行う。 In addition, in parallel with the above-described processing, the operation rate calculation unit 34 compares the failure time corresponding to the basic event with the average repair time of the failure mode corresponding to the basic event, and the failure time corresponding to the basic event. Then, it is determined whether or not the average repair time has been reached. When the failure time corresponding to the basic event reaches the average repair time, the operating rate calculation unit 34 recognizes that the component corresponding to the basic event has returned to the normal state. In this case, the operation rate calculation unit 34 resets the failure time corresponding to the basic event to 0, and also resets the failure rate and failure probability to 0. When the time to failure rate and the like are reset and the t k, operating rate calculating unit 34 performs processing for the t m in the above-described processing of (4) was replaced by t k.

(5)稼働率算出部34は、上述の(2)と(3)と(4)の処理を、評価時刻がtとなるまで繰り返す。 (5) operating rate calculating unit 34, the above-mentioned (2) and (3) the process of (4) are repeated until the evaluation time becomes t e.

なお、平均修復時間の代わりに、稼働率算出部34に予め設定された各故障モードの修復時間が用いられても良い。   Instead of the average repair time, the repair time for each failure mode preset in the operation rate calculation unit 34 may be used.

評価時刻がtに達した場合、稼働率算出部34は、基本事象に対応する累積稼動時間を評価時間(t−t)で割った値を、基本事象に対応する稼働率として算出する。そして、稼働率算出部34は、同様にして、フォルトツリーに含まれる全ての基本事象について、上述のシミュレーション評価を行い、基本事象に対応する稼働率を算出する。 If the evaluation time has reached a t e, operating rate calculating section 34, calculates a value obtained by dividing the cumulative operating time corresponding to the basic event evaluation time (t e -t 0), as operating rate corresponding to the basic event To do. Similarly, the operation rate calculation unit 34 performs the above-described simulation evaluation for all basic events included in the fault tree, and calculates an operation rate corresponding to the basic event.

なお、上述の説明は、基本事象に対応する構成要素が正常状態又は故障状態間で遷移する時間的な挙動をモンテカルロ法を用いたシミュレーションにより、基本事象に対応する稼働率を算出する手順を示したものである。上記の一連の手順から得られる状態遷移挙動(モンテカルロシミュレーションの分野ではこれをヒストリーと呼ぶ)は、確率的に予想されるあらゆるヒストリーの一つである。従って、この一つのヒストリーから算出される稼働率の値は、稼働率の統計的なばらつきの中の1点である。このため、稼働率の統計的な平均値を評価するためには、稼働率算出部34は、上記の一連の手順において、異なる乱数の発生を多数回繰り返して行い、多数のヒストリーを得た上で、稼働率の統計的な平均値を算出する必要がある。稼働率の統計的な平均値は、ヒストリー数を増すに従って特定の値に収束していく。上述の稼働率の算出のためのシミュレーション評価においては、予め評価すべき稼働率の評価誤差幅が設定され、上記手順の繰り返しが、稼働率の統計的な平均値の収束幅(変動幅)が上記評価誤差幅以下になるまで、行われるのが好ましい。   The above explanation shows the procedure for calculating the operating rate corresponding to the basic event by simulation using the Monte Carlo method of the temporal behavior in which the component corresponding to the basic event transitions between the normal state or the failure state. It is a thing. The state transition behavior obtained from the above sequence of procedures (called a history in the field of Monte Carlo simulation) is one of all the histories stochastically expected. Therefore, the value of the operating rate calculated from this one history is one point in the statistical variation of the operating rate. For this reason, in order to evaluate the statistical average value of the operation rate, the operation rate calculation unit 34 repeatedly generates different random numbers many times in the above series of procedures, and obtains a large number of histories. Therefore, it is necessary to calculate the statistical average value of the operation rate. The statistical average value of the utilization rate converges to a specific value as the number of histories increases. In the simulation evaluation for calculating the operating rate described above, an evaluation error width of the operating rate to be evaluated is set in advance, and the repetition of the above procedure results in the convergence width (variation range) of the statistical average value of the operating rate. This is preferably performed until the evaluation error width is equal to or less.

次に、上述のシミュレーション評価で算出された基本事象に対応する稼働率から不稼働率(=1−稼働率)が分かるので、稼働率算出部34は、上記フォルトツリー−ロジック変換部33から送られた基本事象に対応する不稼働率q1、q2、...、qnと、頂上事象の不稼働率qに関する所定の関係式とに基づいて、頂上事象に対応する不稼働率をシステム不稼働率として算出し、それからシステム稼働率(=1−システム不稼働率)を算出する。   Next, since the non-operating rate (= 1-operating rate) is known from the operating rate corresponding to the basic event calculated by the above-described simulation evaluation, the operating rate calculating unit 34 sends the fault tree-logic converting unit 33 Occupancy rates q1, q2,. . . , Qn and a predetermined relational expression regarding the peak event non-operation rate q, the non-operation rate corresponding to the top event is calculated as the system non-operation rate, and then the system operation rate (= 1-system non-operation rate) ) Is calculated.

システム稼働率判定部35は、稼働率算出部34により算出されたシステム稼働率が、情報抽出・入力部2からのシステム稼働率基準値以上であるか否かを判定する。稼働率算出部34は、算出したシステム稼働率がシステム稼働率基準値より小さい場合には、その旨を示す情報を重要度分析部36に出力する。また、稼働率算出部34は、算出したシステム稼働率がシステム稼働率基準値以上の場合には、その旨を示す情報をコスト算出部40に出力する。   The system operation rate determination unit 35 determines whether or not the system operation rate calculated by the operation rate calculation unit 34 is greater than or equal to the system operation rate reference value from the information extraction / input unit 2. When the calculated system operating rate is smaller than the system operating rate reference value, the operating rate calculating unit 34 outputs information indicating the fact to the importance analyzing unit 36. Further, when the calculated system operating rate is equal to or greater than the system operating rate reference value, the operating rate calculating unit 34 outputs information indicating the fact to the cost calculating unit 40.

重要度分析部36は、算出されたシステム稼働率がシステム稼働率基準値に達していないと判定された場合、基本事象に対応する不稼働率の変動と頂上事象に対応する不稼動率の変動との関係から、システム稼働率の上昇に関係する基本事象を抽出する基本事象抽出部である。具体的な説明は以下の通りである。   When it is determined that the calculated system operation rate has not reached the system operation rate reference value, the importance analysis unit 36 changes the non-operation rate corresponding to the basic event and the change in the non-operation rate corresponding to the top event. Therefore, the basic event extracting unit extracts basic events related to the increase in system availability. The specific explanation is as follows.

重要度分析部36は、入力された上記その旨を示す情報に基づいて、稼働率算出部34により算出されたシステム不稼働率(=1−システム稼働率)に対して、各基本事象(ハードウェア構成要素の故障モード、ソフトウェア構成要素の故障モード)がどの程度影響を与えるかを解析する。例えば、重要度分析部36は、各基本事象の不稼働率(=1−稼働率)を変動させることにより、頂上事象のシステム不稼働率(=1−システム稼働率)の変動の寄与度を算出する。そして、重要度分析部36は、算出された寄与度に基づいて、システム不稼働率の減少、即ち、システム稼働率の上昇(改善)に重要な基本事象を抽出し、上記基本事象に対応する構成要素を抽出する。例えば、重要度分析部36は、各基本事象に対応する不稼働率の増減が、どの程度頂上事象に対応する不稼働率の増減に寄与するかを示す尺度である確率重要度を、基本事象ごとに算出する。   The importance analysis unit 36 performs each basic event (hardware) on the system non-operation rate (= 1−system operation rate) calculated by the operation rate calculation unit 34 based on the input information indicating the above. The extent to which the failure mode of the hardware component and the failure mode of the software component have an influence is analyzed. For example, the importance analysis unit 36 varies the non-operation rate (= 1-operation rate) of each basic event, thereby changing the contribution degree of the change in the system non-operation rate (= 1-system operation rate) of the top event. calculate. Based on the calculated contribution, the importance analysis unit 36 extracts a basic event that is important for a decrease in the system non-operation rate, that is, an increase (improvement) in the system operation rate, and responds to the basic event. Extract components. For example, the importance analysis unit 36 calculates the probability importance that is a measure indicating how much the increase or decrease in the non-operating rate corresponding to each basic event contributes to the increase or decrease in the non-operating rate corresponding to the top event. Calculate for each.

そして、重要度分析部36は、最も頂上事象に対応する稼働率の増加に寄与する基本事象(例えば、APサーバ2のAPサーバ2ソフトウェアにおけるOSの障害など)を抽出する。そして、重要度分析部36は、上記基本事象に対応する構成要素(例えば、APサーバ2ソフトウェア)を抽出する。重要度分析部36により抽出された情報は、変更可能性判定部37に送られる。   Then, the importance analysis unit 36 extracts a basic event (for example, an OS failure in the AP server 2 software of the AP server 2) that contributes to an increase in the operating rate corresponding to the highest event. Then, the importance analysis unit 36 extracts a component (for example, AP server 2 software) corresponding to the basic event. The information extracted by the importance level analysis unit 36 is sent to the change possibility determination unit 37.

変更可能性判定部37は、重要度分析部36で抽出された基本事象及び構成要素に基づいて、上記基本事象に対応する稼働率の上昇(基本事象に対応する不稼働率の低下)が可能であるか否かを判定する。具体的な説明は以下の通りである。   The change possibility determination unit 37 can increase the operating rate corresponding to the basic event (decreasing the inoperability rate corresponding to the basic event) based on the basic event and components extracted by the importance analysis unit 36. It is determined whether or not. The specific explanation is as follows.

システム管理データベース6には、各構成要素の故障モードに対応する故障確率の一覧データ(以下、故障確率一覧データ)が格納されている。また、システム管理データベース6には、各構成要素の故障モードに対応する平均修復時間の一覧データ(以下、平均修復時間一覧データ)が格納されている。故障確率一覧データに、所定の構成要素の故障モードに対応する故障確率が記録されている場合、上記故障確率で機動する構成要素が存在するとする。また、平均修復時間一覧データに、所定の構成要素の故障モードに対応する平均修復時間が記録されている場合、上記修復時間で故障が復旧することが可能であるとする。   The system management database 6 stores failure probability list data (hereinafter, failure probability list data) corresponding to the failure mode of each component. The system management database 6 stores average repair time list data (hereinafter, average repair time list data) corresponding to the failure mode of each component. When the failure probability corresponding to the failure mode of a predetermined component is recorded in the failure probability list data, it is assumed that there is a component that operates with the failure probability. In addition, when the average repair time corresponding to the failure mode of a predetermined component is recorded in the average repair time list data, it is assumed that the failure can be recovered within the repair time.

変更可能性判定部37は、情報抽出・入力部2を介して送られてきた上記故障確率一覧データを参照して、抽出された基本事象に対応する故障確率(例えば、APサーバ1ソフトウェアX1のOSの障害に対応する故障確率A1)と、故障確率一覧データに記録されている、上記基本事象に相当する構成要素の故障モードに対応する故障確率(例えば、APサーバ1ソフトウェアX2のOSの障害に対応する故障確率B1、APサーバ1ソフトウェアX3のOSの障害に対応する故障確率C1、、、)とを比較する。なお、APサーバ1ソフトウェアX1、X2、X3は、機能は同じであるが、例えば、製造元が異なっている(機能を実現する性能などが異なる)。   The change possibility determination unit 37 refers to the failure probability list data sent via the information extraction / input unit 2, and refers to the failure probability corresponding to the extracted basic event (for example, the AP server 1 software X1 Failure probability corresponding to the failure of the OS A1) and failure probability corresponding to the failure mode of the component corresponding to the basic event recorded in the failure probability list data (for example, the failure of the OS of the AP server 1 software X2) Are compared with the failure probability B1 corresponding to the failure of the OS of the AP server 1 software X3. The AP server 1 software X1, X2, and X3 have the same function, but have different manufacturers (for example, different performance for realizing the function).

変更可能性判定部37は、故障確率一覧データに含まれる上記基本事象に相当する構成要素の故障モードに対応する故障確率のうち、上記基本事象に対応する現在の故障確率より小さいものがあるか否かを判定する。変更可能性判定部37は、上記基本事象に対応する現在の故障確率より小さいものがある場合には、上記基本事象に対応する稼働率の上昇(上記基本事象に対応する不稼働率の低下)が可能であると判定し、故障情報再設定部39に、稼働率の上昇(不稼働率の低下)に関係する上記基本事象に相当する構成要素の故障モードに対応する故障確率を出力する。   Whether the change possibility determination unit 37 has a failure probability smaller than the current failure probability corresponding to the basic event among the failure probabilities corresponding to the failure modes of the constituent elements corresponding to the basic event included in the failure probability list data Determine whether or not. If there is a change possibility determination unit 37 that is smaller than the current failure probability corresponding to the basic event, the change in the operating rate corresponding to the basic event (decreasing the non-operating rate corresponding to the basic event) The failure probability corresponding to the failure mode of the component corresponding to the basic event related to the increase in the operation rate (decrease in the non-operation rate) is output to the failure information resetting unit 39.

一方、変更可能性判定部37は、上記基本事象に対応する現在の故障確率より小さいものがない場合には、以下の処理を行う。   On the other hand, if there is no change possibility determination unit 37 that is smaller than the current failure probability corresponding to the basic event, the change possibility determination unit 37 performs the following processing.

変更可能性判定部37は、情報抽出・入力部2を介して送られてきた上記平均修復時間一覧データを参照して、抽出された基本事象に相当する故障モードの平均修復時間と、一覧データに記録されている、上記基本事象に相当する構成要素の故障モードに対応する平均修復時間とを比較し、一覧データに含まれる上記基本事象に相当する構成要素の故障モードに対応する平均修復時間のうち、上記平均修復時間より小さいものがあるか否かを判定する。変更可能性判定部37は、小さいものがある場合には、上記基本事象に対応する稼働率の上昇(上記基本事象に対応する不稼働率の低下)が可能であると判定し、故障情報再設定部39に、稼働率の上昇(不稼働率の低下)に関係する上記基本事象に相当する故障モードの平均修復時間を出力する。   The change possibility determination unit 37 refers to the average repair time list data sent via the information extraction / input unit 2, refers to the average repair time of the failure mode corresponding to the extracted basic event, and the list data Is compared with the average repair time corresponding to the failure mode of the component corresponding to the basic event, and the average repair time corresponding to the failure mode of the component corresponding to the basic event included in the list data. Of these, it is determined whether or not there is one smaller than the average repair time. If there is a small change, the change possibility determination unit 37 determines that the operating rate corresponding to the basic event can be increased (decrease in the non-operating rate corresponding to the basic event), and the failure information is reset. The setting unit 39 outputs the average repair time of the failure mode corresponding to the basic event related to the increase in the operation rate (decrease in the non-operation rate).

一方、変更可能性判定部37は、故障確率一覧データのなかに、上記基本事象に対応する現在の稼働率より大きいものがなく、平均修復時間一覧データのなかに、上記基本事象に対応する故障モードの平均修復時間より小さいものがない場合には、抽出された基本事象に対応する不稼働率の低下が可能でないことを示す情報をシステム構成再設定部38に出力する。   On the other hand, the change possibility determination unit 37 has no failure probability list data that is larger than the current operating rate corresponding to the basic event, and the failure corresponding to the basic event in the average repair time list data. If there is nothing less than the average repair time of the mode, information indicating that the downtime corresponding to the extracted basic event cannot be reduced is output to the system configuration resetting unit 38.

故障情報再設定部39は、抽出された基本事象に対応する不稼働率の低下が可能な場合に、抽出された基本事象に対応する新たな分析情報として、抽出された基本事象に対応する新たな故障確率を稼働率算出部34に再設定する。システム構成再設定部38は、抽出された基本事象に対応する不稼働率の低下が可能でない場合には、新たなシステム構成情報及び新たな故障モードに対応する故障に関する情報を情報抽出・入力部2に再設定する。なお、故障情報再設定部39及びシステム構成再設定部38は、第1再設定部を構成する。具体的な説明は以下の通りである。   When the failure rate corresponding to the extracted basic event can be reduced, the failure information resetting unit 39 sets the new information corresponding to the extracted basic event as new analysis information corresponding to the extracted basic event. The failure probability is reset in the operation rate calculation unit 34. If the downtime corresponding to the extracted basic event cannot be reduced, the system configuration resetting unit 38 extracts information about the new system configuration information and the failure corresponding to the new failure mode as an information extraction / input unit. Reset to 2. The failure information resetting unit 39 and the system configuration resetting unit 38 constitute a first resetting unit. The specific explanation is as follows.

故障情報再設定部39は、基本事象に相当する構成要素の故障モードに対応する故障確率が変更可能性判定部37から入力された場合、上記故障確率を、稼働率算出部34に再設定する。この場合、稼働率算出部34は、各基本事象に対応する故障確率を保持しており、故障情報再設定部39により上記基本事象に対応する故障確率が再設定された場合、再設定された基本事象に対応する故障確率と、上記基本事象以外の基本事象の故障確率とに基づいて、システム稼働率の算出を行う。その後、上述したようなシステム稼働率の算出が行われた後の処理が再度行われる。   The failure information resetting unit 39 resets the failure probability in the operation rate calculating unit 34 when the failure probability corresponding to the failure mode of the component corresponding to the basic event is input from the change possibility determination unit 37. . In this case, the operation rate calculation unit 34 holds the failure probability corresponding to each basic event, and is reset when the failure probability corresponding to the basic event is reset by the failure information resetting unit 39. Based on the failure probability corresponding to the basic event and the failure probability of the basic event other than the basic event, the system operation rate is calculated. Thereafter, the processing after the calculation of the system operation rate as described above is performed again.

また、故障情報再設定部39は、基本事象に相当する構成要素の故障モードに対応する平均修復時間が変更可能性判定部37から入力された場合、上記平均修復時間を、稼働率算出部34に再設定する。この場合、稼働率算出部34は、各基本事象に対応する平均修復時間を保持しており、故障情報再設定部39により上記基本事象に対応する平均修復時間が再設定された場合、再設定された基本事象に対応する平均修復時間と、上記基本事象以外の基本事象の平均修復時間とに基づいて、システム稼働率の算出を行う。その後、上述したようなシステム稼働率の算出が行われた後の処理が再度行われる。   Further, the failure information resetting unit 39, when the average repair time corresponding to the failure mode of the component corresponding to the basic event is input from the change possibility determination unit 37, the average repair time is used as the operation rate calculating unit 34. Reset to. In this case, the operation rate calculation unit 34 holds an average repair time corresponding to each basic event, and resets when the average repair time corresponding to the basic event is reset by the failure information resetting unit 39 The system operation rate is calculated based on the average repair time corresponding to the basic event and the average repair time of basic events other than the basic event. Thereafter, the processing after the calculation of the system operation rate as described above is performed again.

システム構成再設定部38は、システムの評価者により入力された新たなシステム構成、新たなシステム機能構成情報10、新たなシステム基準情報12、新たな信頼性関連情報11、新たなコスト関連情報13を、情報抽出・入力部2に再設定する。その後、上述したように、フィールドデータ分析部31による処理以降の処理が行われる。   The system configuration resetting unit 38 includes a new system configuration, new system function configuration information 10, new system reference information 12, new reliability related information 11, and new cost related information 13 input by the system evaluator. Is reset in the information extraction / input unit 2. Thereafter, as described above, the processing after the processing by the field data analysis unit 31 is performed.

コスト算出部40は、システム稼働率判定部35により、算出されたシステム稼働率がシステム稼働率基準値に達していると判定された場合、情報システムに含まれる構成要素の設備費の総和を算出するとともに、稼働率算出部34により算出されたシステム稼働率と、システム停止損害額と、運用期間とに基づいて、営業損害額期待値を算出し、上記総和と営業損害額期待値との和を、コスト費として算出する。具体的な説明は以下の通りである。   The cost calculation unit 40 calculates the sum of the equipment costs of the components included in the information system when the system operation rate determination unit 35 determines that the calculated system operation rate has reached the system operation rate reference value. In addition, the expected operating loss is calculated based on the system operating rate calculated by the operating rate calculating unit 34, the system stoppage loss, and the operation period, and the sum of the above sum and the operating loss expected value is calculated. Is calculated as a cost cost. The specific explanation is as follows.

コスト算出部40は、情報抽出・入力部2から送られたコスト関連情報13とシステム稼働率基準値とに基づいて、以下の処理を行う。コスト算出部40は、先ず、コスト関連情報13に含まれる各構成要素の設備費の総和を算出する。次に、コスト算出部40は、算出されたシステム稼働率と、システム停止損害額と、運用期間とに基づいて、情報システムを所定期間運用させる場合にシステム停止による営業上の損害額の期待値を示す営業損害額期待値を算出する。営業損害額期待値は、例えば、以下の数4式で表される。   The cost calculation unit 40 performs the following processing based on the cost related information 13 and the system operation rate reference value sent from the information extraction / input unit 2. The cost calculation unit 40 first calculates the sum of the equipment costs of each component included in the cost related information 13. Next, the cost calculation unit 40, based on the calculated system operation rate, the system stoppage loss amount, and the operation period, the expected value of the operating loss amount due to the system stop when the information system is operated for a predetermined period. Calculate the expected value of operating loss. The expected value of operating loss is expressed, for example, by the following equation (4).

〔数4〕
営業損害額期待値=(1−算出されたシステム稼働率)×システム停止損害額×運用期間
コスト算出部40は、算出したコスト費をコスト判定部41に出力する。
[Equation 4]
Expected operating loss amount = (1−calculated system operation rate) × system stoppage loss × operation period The cost calculation unit 40 outputs the calculated cost cost to the cost determination unit 41.

コスト判定部41は、算出されたコスト費と、情報抽出・入力部2から送られたコスト許容値とを比較し、コスト費がコスト許容値より小さい場合には、システム稼働率基準値及びコスト許容値を満たすシステム構成などの情報を、情報出力部5に出力する。これにより、情報出力部5から出力されたシステム構成などの情報は、ユーザ端末7にて表示される。コスト判定部41は、コスト費がコスト許容値より大きい場合には、その旨を示す情報をコスト情報再設定部42に出力する。   The cost determination unit 41 compares the calculated cost cost with the cost allowable value sent from the information extraction / input unit 2, and if the cost cost is smaller than the cost allowable value, the system operation rate reference value and the cost Information such as a system configuration that satisfies the allowable value is output to the information output unit 5. Thereby, information such as the system configuration output from the information output unit 5 is displayed on the user terminal 7. When the cost cost is larger than the cost allowable value, the cost determination unit 41 outputs information indicating that to the cost information resetting unit 42.

コスト情報再設定部42は、計算されたコスト費が、コスト許容値を超えていると判定された場合には、新たなコスト許容値と、新たなシステム稼働率基準値と、新たなシステム構成情報(例えば、新たなシステム機能構成情報10、システム基準情報12のうち新たなシステム構成、新たなコスト関連情報13)及び新たな故障モードに対応する故障に関する情報(例えば、新たな信頼性関連情報11)のうち、いずれか1以上の情報を情報抽出・入力部2に再設定する第2再設定部である。具体的には、以下の通りである。   When it is determined that the calculated cost cost exceeds the allowable cost value, the cost information resetting unit 42 sets a new allowable cost value, a new system availability reference value, and a new system configuration. Information (for example, new system function configuration information 10, new system configuration out of system reference information 12, new cost related information 13) and information related to a failure corresponding to a new failure mode (for example, new reliability related information) 11), a second resetting unit that resets one or more pieces of information in the information extraction / input unit 2. Specifically, it is as follows.

コスト情報再設定部42は、例えば、情報出力部5に、新たなコスト許容値、システム稼働率基準値、新たなシステムに関する情報のうち、いずれかの情報を入力するように指示する情報を、出力させる。ユーザがユーザ端末7により、いずれかの情報を入力すると、コスト情報再設定部42に出力される。   The cost information resetting unit 42, for example, provides information that instructs the information output unit 5 to input any one of the new cost allowable value, the system operation rate reference value, and the information related to the new system. Output. When the user inputs any information through the user terminal 7, the information is output to the cost information resetting unit 42.

コスト情報再設定部42は、新たなコスト許容値が入力された場合には、新たなコスト許容値を情報抽出・入力部2に再設定する。これにより、新たなコスト許容値は、コスト判定部41に送られ、新たなコスト許容値に基づいて、コスト判定部41による処理が再度行われる。   The cost information resetting unit 42 resets the new cost allowable value in the information extraction / input unit 2 when a new cost allowable value is input. As a result, the new allowable cost value is sent to the cost determining unit 41, and the process by the cost determining unit 41 is performed again based on the new allowable cost value.

コスト情報再設定部42は、新たなシステム稼働率基準値が入力された場合には、上記新たなシステム稼働率基準値を情報抽出・入力部2に再設定する。これにより、新たなシステム稼働率基準値は、システム稼働率判定部35に送られ、新たなシステム稼働率基準値に基づいて、システム稼働率判定部35による処理以降の処理が行われる。   The cost information resetting unit 42 resets the new system operating rate reference value in the information extraction / input unit 2 when a new system operating rate reference value is input. As a result, the new system operation rate reference value is sent to the system operation rate determination unit 35, and processing subsequent to the processing by the system operation rate determination unit 35 is performed based on the new system operation rate reference value.

コスト情報再設定部42は、新たなシステムに関する情報が入力された場合、この情報を情報抽出・入力部2に再設定する。そして、上述したように、フィールドデータ分析部31による処理以降の処理が行われる。   The cost information resetting unit 42 resets this information in the information extraction / input unit 2 when information about a new system is input. Then, as described above, the processing after the processing by the field data analysis unit 31 is performed.

(信頼性評価方法)
次に、上述した構成を有する信頼性評価システムを用いた信頼性評価方法を以下に説明する。この信頼性評価は、情報システムの運用中行われる。なお、信頼性評価方法の説明において、上述の信頼性評価システムにおける説明と同じ説明は、省略する。
(Reliability evaluation method)
Next, a reliability evaluation method using the reliability evaluation system having the above-described configuration will be described below. This reliability evaluation is performed during operation of the information system. In the description of the reliability evaluation method, the same description as that in the above-described reliability evaluation system is omitted.

先ず、情報システムの信頼性の評価を行う者(評価者)は、定期的に、ユーザ端末7を用いて、ハードウェア構成要素、ソフトウェア構成要素の故障モードの故障間隔、修復時間の実測値を入力する。   First, the person (evaluator) who evaluates the reliability of the information system periodically uses the user terminal 7 to obtain the measured values of the failure interval of the hardware component, the failure mode of the software component, and the repair time. input.

情報処理・演算部3は、故障モードの故障間隔、修復時間の実測値を、信頼性関連情報11として、システム管理データベース6に格納する。   The information processing / arithmetic unit 3 stores the failure mode failure interval and the actually measured repair time as reliability-related information 11 in the system management database 6.

上述の処理と並行して、以下の信頼性評価が行われる。図13は、上述した構成を有する信頼性評価システムを用いた信頼性評価方法を説明するためのフローチャート図である。   In parallel with the above-described processing, the following reliability evaluation is performed. FIG. 13 is a flowchart for explaining a reliability evaluation method using the reliability evaluation system having the above-described configuration.

図13に示すように、ステップS10では、評価者は、ユーザ端末7を用いて、情報システムの信頼性評価の指示を入力する。この際、情報システムを特定する情報も入力される。   As shown in FIG. 13, in step S <b> 10, the evaluator inputs an instruction for reliability evaluation of the information system using the user terminal 7. At this time, information specifying the information system is also input.

ステップ15では、情報抽出・入力部2は、情報システムの信頼性評価の指示に基づいて、システム管理データベース6から、上記情報システムを特定する情報に対応するシステム機能構成情報10、信頼性関連情報11、コスト関連情報13、システム基準情報12を抽出する。これにより、システム機能構成情報10などの情報が、情報抽出・入力部2に入力される。   In step 15, the information extraction / input unit 2 receives from the system management database 6 the system function configuration information 10 corresponding to the information for identifying the information system, the reliability related information, based on the information system reliability evaluation instruction 11. Extract cost related information 13 and system reference information 12. As a result, information such as the system function configuration information 10 is input to the information extraction / input unit 2.

ステップ20では、フィールドデータ分析部31は、入力された情報に基づいて、ハードウェア構成要素、ソフトウェア構成要素における故障モードの障害情報の分析として、故障モードの故障確率、平均修復時間を算出し、算出した故障確率、平均修復時間を分析情報として取得する。なお、フィールドデータ分析部31は、情報抽出・入力部2から入力された情報を保持するとともに、算出した故障確率、平均修復時間を保持する。   In step 20, the field data analysis unit 31 calculates the failure probability of the failure mode and the average repair time as analysis of failure information of the failure mode in the hardware component and software component based on the input information, The calculated failure probability and average repair time are acquired as analysis information. The field data analysis unit 31 holds information input from the information extraction / input unit 2 and holds the calculated failure probability and average repair time.

ステップ25では、フォルトツリー作成部32は、システム機能構成情報10、システム基準情報12に含まれるシステム構成に基づいて、上述したフォルトツリーを作成する。   In step 25, the fault tree creation unit 32 creates the above-described fault tree based on the system configuration included in the system function configuration information 10 and the system reference information 12.

ステップ30では、フォルトツリー−ロジック変換部33では、作成されたフォルトツリーと、数2式と数3式を用いて、フォルトツリーのデータを、頂上事象の不稼働率qに関する所定の関係式に変換する。   In step 30, the fault tree-logic conversion unit 33 converts the fault tree data into a predetermined relational expression related to the unusable rate q of the top event by using the generated fault tree and Formulas 2 and 3. Convert.

ステップ35では、稼働率算出部34は、フィールドデータ分析部31により得られた分析情報、即ち、算出された各故障モードの故障確率、平均修復時間に基づいて、ハードウェア構成要素、ソフトウェア構成要素の故障モードに対応する不稼働率を算出する。そして、稼働率算出部34は、算出された基本事象に対応する不稼働率と、頂上事象の不稼働率qに関する所定の関係式とに基づいて、頂上事象に対応するシステム稼働率を算出する。ここで、稼働率算出部34は、算出した各基本事象に対応する不稼働率及びシステム稼働率、各基本事象に対応する故障確率及び平均修復時間を保持する。   In step 35, the operation rate calculation unit 34 calculates the hardware component and software component based on the analysis information obtained by the field data analysis unit 31, that is, based on the calculated failure probability and average repair time of each failure mode. The unavailability corresponding to the failure mode is calculated. Then, the operation rate calculation unit 34 calculates a system operation rate corresponding to the top event based on the inactivity rate corresponding to the calculated basic event and a predetermined relational expression regarding the inactivity rate q of the top event. . Here, the operating rate calculation unit 34 holds the calculated inoperability rate and system operating rate corresponding to each basic event, failure probability and average repair time corresponding to each basic event.

ステップ40では、システム稼働率判定部35は、算出されたシステム稼働率がシステム稼働率基準値以上であるか否かを判定する。算出したシステム稼働率がシステム稼働率基準値より小さいと判定された場合には、ステップ45の処理が行なわれ、算出したシステム稼働率がシステム稼働率基準値以上と判定された場合には、ステップ70の処理が行われる。   In step 40, the system operating rate determination unit 35 determines whether or not the calculated system operating rate is equal to or greater than the system operating rate reference value. If it is determined that the calculated system operating rate is smaller than the system operating rate reference value, the process of step 45 is performed. If it is determined that the calculated system operating rate is greater than or equal to the system operating rate reference value, step is performed. 70 is performed.

ステップ45では、重要度分析部36は、システム稼働率の上昇に関係する基本事象を抽出し、この基本事象に対応する構成要素も抽出する。   In step 45, the importance analysis unit 36 extracts a basic event related to an increase in the system operation rate, and also extracts components corresponding to the basic event.

ステップ50では、変更可能性判定部37は、抽出された基本事象及び構成要素に基づいて、上記基本事象に対応する稼働率の上昇(基本事象に対応する不稼働率の低下)が可能であるか否かを判定する。上記稼働率の上昇が可能であると判定された場合には、ステップ55の処理が行われ、上記稼働率の上昇が可能でないと判定された場合には、ステップ60の処理が行われる。   In step 50, the change possibility determination unit 37 can increase the operating rate corresponding to the basic event (decreasing the non-operating rate corresponding to the basic event) based on the extracted basic event and components. It is determined whether or not. If it is determined that the operating rate can be increased, the process of step 55 is performed. If it is determined that the operating rate cannot be increased, the process of step 60 is performed.

ステップ55では、故障情報再設定部39は、抽出された基本事象に対応する新たな分析情報として、抽出された基本事象に対応する新たな故障確率又は平均修復時間を稼働率算出部34に再設定する。抽出された基本事象に対応する新たな故障確率が稼働率算出部34に再設定された場合には、稼働率算出部34は、保持している各基本事象に対応する故障確率のうち、抽出された基本事象に対応する故障確率を、新たな故障確率に書き換える。そして、稼働率算出部34は、抽出された基本事象に対応する新たな故障確率と、抽出された基本事象以外の基本事象の故障確率(保持していた情報)とに基づいて、再度ステップ35におけるシステム稼働率の算出処理を行う。その後、ステップ40以降の処理が行われる。   In step 55, the failure information resetting unit 39 re-establishes the new failure probability or average repair time corresponding to the extracted basic event to the operation rate calculating unit 34 as new analysis information corresponding to the extracted basic event. Set. When a new failure probability corresponding to the extracted basic event is reset in the availability calculating unit 34, the availability calculating unit 34 extracts the failure probability corresponding to each held basic event. The failure probability corresponding to the basic event is rewritten with a new failure probability. Then, based on the new failure probability corresponding to the extracted basic event and the failure probability (information held) of the basic event other than the extracted basic event, the operation rate calculating unit 34 again performs step 35. The system operation rate calculation process is performed. Thereafter, the processing after step 40 is performed.

抽出された基本事象に対応する故障モードの新たな平均修復時間が稼働率算出部34に再設定された場合には、稼働率算出部34は、保持している各基本事象に対応する平均修復時間のうち、抽出された基本事象に対応する平均修復時間を、新たな平均修復時間に書き換える。そして、稼働率算出部34は、抽出された基本事象に対応する新たな平均修復時間と、抽出された基本事象以外の基本事象の平均修復時間(保持していた情報)とに基づいて、再度ステップ35におけるシステム稼働率の算出処理を行う。その後、ステップ40以降の処理が行われる。   When the new average repair time of the failure mode corresponding to the extracted basic event is reset in the operating rate calculating unit 34, the operating rate calculating unit 34 stores the average repair corresponding to each held basic event. Of the time, the average repair time corresponding to the extracted basic event is rewritten to a new average repair time. Based on the new average repair time corresponding to the extracted basic event and the average repair time (information held) of the basic events other than the extracted basic event, the operation rate calculating unit 34 again In step 35, the system operation rate is calculated. Thereafter, the processing after step 40 is performed.

ステップ60では、システム構成再設定部38は、評価者により入力された新たなシステム構成、新たなシステム機能構成情報10、新たなシステム基準情報12、新たな信頼性関連情報11、新たなコスト関連情報13を、情報抽出・入力部2に再設定する。具体的には、システム構成再設定部38は、ユーザ端末7に、新たなシステム構成等の情報を入力するように指示する情報を表示させる。評価者が、ユーザ端末7を用いて、新たなシステム構成等の情報を入力すると、システム構成再設定部38に出力される。   In step 60, the system configuration resetting unit 38 sets the new system configuration, the new system function configuration information 10, the new system reference information 12, the new reliability related information 11, and the new cost related information input by the evaluator. The information 13 is reset in the information extraction / input unit 2. Specifically, the system configuration resetting unit 38 displays information instructing the user terminal 7 to input information such as a new system configuration. When the evaluator inputs information such as a new system configuration using the user terminal 7, the information is output to the system configuration resetting unit 38.

新たなシステム構成等の情報が情報抽出・入力部2に再設定された場合、情報抽出・入力部2は、再設定された情報(新たなシステム構成、新たなシステム機能構成情報10、新たなシステム基準情報12、新たな信頼性関連情報11、新たなコスト関連情報13)をフィールドデータ分析部31に出力する。そして、ステップ20以降の処理が再度行われる。   When information such as a new system configuration is reset in the information extraction / input unit 2, the information extraction / input unit 2 displays the reset information (new system configuration, new system function configuration information 10, new The system reference information 12, the new reliability related information 11, and the new cost related information 13) are output to the field data analysis unit 31. And the process after step 20 is performed again.

ステップ70では、コスト算出部40は、上述したコスト費を算出する。コスト算出部40による算出処理の詳細なフローチャート図を図14に示す。図14に示すように、ステップ71では、コスト算出部40は、コスト関連情報13に含まれる各構成要素の設備費の総和を算出する。ステップ72では、コスト算出部40は、営業損害額期待値を算出する。ステップ73では、コスト算出部40は、各構成要素の設備費の総和と、営業損害額期待値との和をコスト費として算出する。   In step 70, the cost calculation part 40 calculates the cost cost mentioned above. A detailed flowchart of the calculation process by the cost calculation unit 40 is shown in FIG. As shown in FIG. 14, in step 71, the cost calculation unit 40 calculates the sum of the facility costs of each component included in the cost related information 13. In step 72, the cost calculation unit 40 calculates an expected value of the operating loss. In step 73, the cost calculation part 40 calculates the sum of the sum total of the installation cost of each component, and an operating loss expected value as a cost cost.

ステップ75では、コスト判定部41は、算出されたコスト費がコスト許容値を超えているか否かを判定し、算出されたコスト費がコスト許容値を超えていない場合には、ステップ90の処理が行われ、算出されたコスト費がコスト許容値を超えている場合には、ステップ80の処理が行われる。   In step 75, the cost determination unit 41 determines whether or not the calculated cost cost exceeds the allowable cost value, and if the calculated cost cost does not exceed the allowable cost value, the process of step 90 is performed. If the calculated cost cost exceeds the allowable cost value, the process of step 80 is performed.

ステップ80では、コスト情報再設定部42は、評価者により入力された新たなコスト許容値、システム稼働率基準値、新たなシステムに関する情報(新たなシステム構成及び新たなシステム機能構成情報10、新たなシステム基準情報12、新たな信頼性関連情報11、新たなコスト関連情報13)のうち、いずれかの情報を情報抽出・入力部2に再設定する。   In step 80, the cost information resetting unit 42 sets the new cost tolerance, the system operation rate reference value, and the information on the new system (new system configuration and new system function configuration information 10, new Any one of the system reference information 12, the new reliability related information 11 and the new cost related information 13) is reset in the information extraction / input unit 2.

新たなコスト許容範囲が情報抽出・入力部2に再設定された場合には、情報抽出・入力部2は、新たなコスト許容範囲を、コスト判定部41に出力する。コスト判定部41は、算出されたコスト費と、新たなコスト許容範囲とを用いた判定処理を再度行う。   When a new cost allowable range is reset in the information extraction / input unit 2, the information extraction / input unit 2 outputs the new cost allowable range to the cost determination unit 41. The cost determination unit 41 performs the determination process using the calculated cost cost and the new cost allowable range again.

新たなシステム稼働率基準値が情報抽出・入力部2に再設定された場合には、情報抽出・入力部2は、上記新たなシステム稼働率基準値をシステム稼働率判定部35に出力する。システム稼働率判定部35は、算出されたシステム稼働率と、上記新たなシステム稼働率基準値とを用いた判定処理を再度行う。その後、ステップ45以降の処理又はステップ70以降の処理が行われる。   When a new system operation rate reference value is reset in the information extraction / input unit 2, the information extraction / input unit 2 outputs the new system operation rate reference value to the system operation rate determination unit 35. The system operation rate determination unit 35 performs the determination process again using the calculated system operation rate and the new system operation rate reference value. Thereafter, the processing after step 45 or the processing after step 70 is performed.

新たなシステムに関する情報が入力された場合、この情報は、情報抽出・入力部2に再設定される。そして、上述したように、再設定された情報に基づいて、ステップ20以降の処理が行われる。   When information on a new system is input, this information is reset in the information extraction / input unit 2. Then, as described above, the processing after step 20 is performed based on the reset information.

ステップ90では、情報出力部5は、ユーザ端末7に、システム機能構成情報10、システム基準情報12などの情報を出力する。これにより、ユーザ端末7には、システム機能構成情報10、システム基準情報12などの情報(システム稼働率基準値及びコスト許容値を満たす情報システムの構成に関する情報)が表示される。   In step 90, the information output unit 5 outputs information such as system function configuration information 10 and system reference information 12 to the user terminal 7. As a result, information such as system function configuration information 10 and system reference information 12 (information regarding the configuration of the information system that satisfies the system operation rate reference value and the cost tolerance) is displayed on the user terminal 7.

(作用効果)
本発明によれば、情報システムの信頼性評価の対象の構成要素には、ハードウェアだけでなく、ソフトウェアも含まれるので、情報抽出・入力部2に入力される信頼性評価に必要な情報(例えば、システム機能構成情報10など)は、ハードウェアだけでなく、ソフトウェアも考慮した情報となっている。そして、情報抽出・入力部2に入力された情報に基づいて、フィールドデータ分析部31からシステム稼働率判定部35までの処理が行われる。そして、システム稼働率判定部35により、算出されたシステム稼働率がシステム稼働率基準値に達していないと判定された場合には、重要度分析部36から変更可能性判定部37までの処理の後、システム構成再設定部38又は故障情報再設定部39による処理が行われ、再設定された情報に基づいて、システム稼働率判定部35の処理が行われ、算出されたシステム稼働率がシステム稼働率基準値に達するまで、上述の処理の繰り返しが可能となる。
(Function and effect)
According to the present invention, since not only hardware but also software is included in the components of the reliability evaluation target of the information system, information necessary for reliability evaluation input to the information extraction / input unit 2 ( For example, the system function configuration information 10) is information that considers not only hardware but also software. Based on the information input to the information extraction / input unit 2, processing from the field data analysis unit 31 to the system operation rate determination unit 35 is performed. Then, when the system operation rate determination unit 35 determines that the calculated system operation rate has not reached the system operation rate reference value, the processing from the importance analysis unit 36 to the change possibility determination unit 37 is performed. Thereafter, processing by the system configuration resetting unit 38 or the failure information resetting unit 39 is performed, and based on the reset information, processing of the system operating rate determination unit 35 is performed, and the calculated system operating rate is determined by the system. The above process can be repeated until the operating rate reference value is reached.

また、従来と異なりハードウェアの故障事象だけでなくソフトウェアの故障事象も考慮してシステム稼働率の評価を行っているので、評価されたシステム稼働率に対応するシステム機能構成情報10やシステム基準情報12に従って、情報システムの構成を変更して運用させたときに、システム稼働率が、システム稼働率基準値を下回ってしまう事態が回避される。この結果、情報システムの設計のやり直しが多くなる事態が回避され、情報システムの設計者の負担が軽減される。従って、本実施形態によれば、システム稼働率を良好にするとともに、情報システムの設計を行う設計者の負担の軽減が可能にすることができる。   Also, since the system operation rate is evaluated in consideration of not only the hardware failure event but also the software failure event unlike the conventional case, the system function configuration information 10 and the system reference information corresponding to the evaluated system operation rate are evaluated. When the information system configuration is changed and operated according to 12, the situation where the system operation rate falls below the system operation rate reference value is avoided. As a result, the situation where the number of redesigns of the information system is increased is avoided, and the burden on the information system designer is reduced. Therefore, according to the present embodiment, it is possible to improve the system operation rate and reduce the burden on the designer who designs the information system.

また、システム信頼性の評価を行う者は、情報システムの運用に関連するソフトウェアを構成するプログラム内容が理解できれば、プログラム内容と情報システムの故障との関係を知ることができ、この関係により、システム稼働率の評価を行うことができたが、実際には、ソフトウェアのプログラム内容を理解できる場合は少ない。このため、従来では、ソフトウェアを考慮して、システム稼働率の評価が行われておらず、ソフトウェアの故障事象も考慮してシステム稼働率の評価を行う場合には、システム信頼性の評価を行う者は、ソフトウェアのプログラム内容を理解する必要があり、上記評価を行う者の負担を増加させてしまうことになってしまった。   Also, if the person who evaluates the system reliability understands the program contents that make up the software related to the operation of the information system, it can know the relationship between the program contents and the failure of the information system. Although we were able to evaluate the operating rate, there are actually few cases where the contents of the software program can be understood. For this reason, in the past, evaluation of system availability was not performed in consideration of software, and system reliability was evaluated when evaluation of system availability was also considered in consideration of software failure events. The person needs to understand the contents of the software program, which increases the burden on the person who performs the evaluation.

本実施形態では、ソフトウェアを構成するプログラム内容がわからなくとも、ハードウェアの故障事象だけでなくソフトウェアの故障事象も考慮してシステム稼働率の評価を行えるので、システム信頼性の評価を行う者の負担を軽減できる。   In this embodiment, the system operation rate can be evaluated in consideration of not only hardware failure events but also software failure events without knowing the program contents constituting the software. The burden can be reduced.

また、本実施形態によれば、フィールドデータ分析部31は、情報抽出・入力部2により入力された情報のうち、故障モードに対応する故障に関する情報(障害情報)を、機器群及び故障モードごとに分類し、分類結果に基づいて、上記分析を行うので、故障モードごとに分析処理を行う際に、分析処理と関係ない情報に関する処理を行わずにすみ、分析処理を速やかに行うことが可能となる。   In addition, according to the present embodiment, the field data analysis unit 31 extracts information (failure information) related to the failure corresponding to the failure mode among the information input by the information extraction / input unit 2 for each device group and failure mode. Since the above analysis is performed based on the classification result, it is possible to quickly perform the analysis process without performing the process related to the information unrelated to the analysis process when performing the analysis process for each failure mode. It becomes.

また、本実施形態によれば、フィールドデータ分析部31は、ワイブル分布を用いて、故障モードの故障確率を算出するので、故障モードの故障確率を算出する処理が速やかに行われ、この結果、構成要素の不稼働率も速やかに算出されることが可能となる。また、構成要素として、ソフトウェア、ハードウェアとを区別することなく、故障モードの故障確率の算出が可能となるので、ソフトウェア、ハードウェアとを区別して、故障モードの故障確率の算出を行う場合に比べて、フィールドデータ分析部31の負荷が軽減される。   In addition, according to the present embodiment, the field data analysis unit 31 calculates the failure probability of the failure mode using the Weibull distribution, so that the process of calculating the failure probability of the failure mode is quickly performed. The unavailability of the component can be calculated quickly. In addition, since it is possible to calculate failure probability of failure mode without distinguishing software and hardware as components, when calculating failure probability of failure mode by distinguishing software and hardware In comparison, the load on the field data analysis unit 31 is reduced.

また、本実施形態によれば、システム稼働率判定部35により、算出されたシステム稼働率がシステム稼働率基準値に達していると判定された場合、コスト算出部40は、情報システムに含まれる構成要素の設備費の総和と、営業損害額期待値とを算出し、算出した営業損害額期待値と情報システムに含まれる構成要素の設備費の総和との和を、コスト費として算出し、コスト判定部41は、算出されたコスト費がコスト許容値を超えている否かを判定し、算出されたコスト費が、コスト許容値を超えていると判定された場合には、コスト情報再設定部42は、新たなコスト許容値と、新たなシステム稼働率の基準値と、新たなシステム構成情報及び新たな故障モードに対応する故障に関する情報とのうち、いずれかの情報を情報抽出・入力部2に再設定する。そして、再設定された情報に基づいて、システム稼働率判定部35の処理、コスト判定部41による処理が行われ、算出されたシステム稼働率がシステム稼働率基準値に達するとともに、算出されたコスト費が、コスト許容値内に抑えられるまで、上述の処理の繰り返しが可能となる。このため、システム稼働率を良好にするとともに、システムの実現や運用に必要なコストを抑えるようなシステムの提供が可能となる。なお、本実施形態では、情報システムの実現や運用に必要なコストとして、営業損害額まで考慮したコストを抑えるような情報システムの提供が可能となる。   Further, according to the present embodiment, when the system operation rate determination unit 35 determines that the calculated system operation rate has reached the system operation rate reference value, the cost calculation unit 40 is included in the information system. Calculate the sum of the component equipment costs and the expected operating loss amount, and calculate the sum of the calculated operating loss expected value and the sum of the component equipment costs included in the information system as cost costs. The cost determination unit 41 determines whether or not the calculated cost cost exceeds the allowable cost value, and when it is determined that the calculated cost cost exceeds the allowable cost value, the cost information is re-established. The setting unit 42 extracts any information from the new cost tolerance, the new reference value of the system availability, and the new system configuration information and the information related to the failure corresponding to the new failure mode. input 2 re-set to be. Then, based on the reset information, the processing of the system availability determination unit 35 and the processing of the cost determination unit 41 are performed, and the calculated system availability reaches the system availability reference value and the calculated cost. The above process can be repeated until the cost is kept within the cost tolerance. For this reason, it is possible to provide a system that improves the system operation rate and suppresses the cost required for realizing and operating the system. In the present embodiment, it is possible to provide an information system that suppresses the cost in consideration of the amount of business loss as the cost required for the realization and operation of the information system.

(変更例)
(1)なお、フィールドデータ分析部31は、故障モードの故障確率の算出を以下のように行ってもよい。システム管理データベース6には、各故障モードごとに、故障モードの故障間隔(t1、t2、..)と、この故障間隔に対応づけられた故障確率(f(t1)、f(t2)..)の実測値データ(但し、シミュレーションなどにより算出されたデータでもよい)が格納されている。フィールドデータ分析部31は、情報抽出・入力部2により入力された故障モードの故障間隔(t1、t2、..)と、この故障間隔に対応づけられた故障確率(f(t1)、f(t2)..)の実測値データに基づいて、故障モードの故障確率分布を推定し、故障モードの故障確率(F(t))を算出するようにしてもよい。
(Example of change)
(1) The field data analysis unit 31 may calculate the failure probability of the failure mode as follows. For each failure mode, the system management database 6 includes failure intervals (t1, t2,...) Of failure modes and failure probabilities (f (t1), f (t2). ) Measured value data (however, data calculated by simulation or the like may be stored). The field data analysis unit 31 includes failure intervals (t1, t2,...) Of failure modes input by the information extraction / input unit 2 and failure probabilities (f (t1), f () associated with the failure intervals. The failure probability distribution in the failure mode may be estimated based on the actual measurement value data of t2) ...), and the failure probability (F (t)) in the failure mode may be calculated.

本変更例によれば、フィールドデータ分析部31は、故障モードの故障間隔と故障確率との関係を示すデータ(例えば、実測値データなど)を用いて、故障モードの故障確率を算出するので、故障モードの故障確率がより正確に算出され、この結果、構成要素の不稼働率もより正確に算出されることが可能となる。   According to the present modification example, the field data analysis unit 31 calculates the failure probability of the failure mode using data indicating the relationship between the failure interval of the failure mode and the failure probability (for example, actual measurement data). The failure probability of the failure mode is calculated more accurately, and as a result, the unavailability of the component can be calculated more accurately.

(2)また、上述の情報システムの信頼性評価システムは、情報システムの運用中に、動作されたが、これに限定されず、情報システムの設計段階に動作されてもよい。この場合、システム基準情報12のうち、システム構成は、システム構成案であり、システム稼働率基準値は、システム稼働率の設計基準値である。また、信頼性関連情報11は、情報システムの運用中に取得された実測値ではなく、予め設定された仕様値やシミュレーションなどで得られた予測値である。 (2) The above-described information system reliability evaluation system is operated during the operation of the information system, but is not limited thereto, and may be operated in the information system design stage. In this case, in the system reference information 12, the system configuration is a system configuration proposal, and the system operation rate reference value is a design reference value of the system operation rate. Further, the reliability related information 11 is not a measured value acquired during operation of the information system but a predicted value obtained by a preset specification value or simulation.

(3)また、情報抽出・入力部2が、システム管理データベース6から、信頼性評価に必要な情報を抽出するようにしていたが、これに限定されず、情報抽出・入力部2には、ユーザ端末7により入力された信頼性評価に必要な情報が、入力されるようにしてもよい。また、図4及び図5に示す分類テーブルに含まれる障害情報には、故障モードの保守に関する情報が含まれていてもよい。そして、この保守に関する情報に基づいて、上述の平均修復時間が算出されてもよい。 (3) Further, the information extraction / input unit 2 extracts information necessary for reliability evaluation from the system management database 6, but the information extraction / input unit 2 is not limited to this. Information necessary for reliability evaluation input by the user terminal 7 may be input. Further, the failure information included in the classification tables shown in FIGS. 4 and 5 may include information related to the maintenance of the failure mode. And based on the information regarding this maintenance, the above-mentioned average repair time may be calculated.

(4)また、上述の実施形態において、変更可能性判定部37は、以下のような処理を行うようにしてもよい。変更可能性判定部37は、抽出された基本事象の構成要素に対応する現在の故障確率より低い故障確率の構成要素が存在するか否かを問い合わせる情報をユーザ端末7に表示させる。 (4) Moreover, in the above-mentioned embodiment, the change possibility determination part 37 may be made to perform the following processes. The change possibility determination unit 37 causes the user terminal 7 to display information inquiring whether there is a component having a failure probability lower than the current failure probability corresponding to the extracted basic event component.

ユーザ端末7には、上記現在の故障確率より低い故障確率の構成要素が存在する場合には、その旨、構成要素及び故障確率が入力される。ユーザ端末7には、上記現在の故障確率より低い故障確率の構成要素が存在しない場合には、その旨が入力される。ユーザ端末7に入力された情報に基づいて、変更可能性判定部37は、抽出された基本事象に対応する構成要素に対応する現在の故障確率より低い故障確率の構成要素が存在するか否かを判定するようにしてもよい。   If there is a component having a failure probability lower than the current failure probability, the user terminal 7 is input with the component and the failure probability. If there is no component having a failure probability lower than the current failure probability, the user terminal 7 is input to that effect. Based on the information input to the user terminal 7, the change possibility determination unit 37 determines whether there is a component having a failure probability lower than the current failure probability corresponding to the component corresponding to the extracted basic event. May be determined.

同じく、変更可能性判定部37は、抽出された基本事象に対応する構成要素の故障モードに対応する現在の平均修復時間より短い平均修復時間の構成要素が存在するか否かを問い合わせる情報をユーザ端末7に表示させ、上述と同様にして、ユーザ端末7に入力された情報に基づいて、変更可能性判定部37は、抽出された基本事象に対応する構成要素の故障モードに対応する現在の平均修復時間より短い平均修復時間の構成要素が存在するか否かを判定するようにしてもよい。   Similarly, the change possibility determination unit 37 receives information asking whether there is a component having an average repair time shorter than the current average repair time corresponding to the failure mode of the component corresponding to the extracted basic event. Based on the information displayed on the terminal 7 and input to the user terminal 7 in the same manner as described above, the change possibility determination unit 37 determines the current failure mode of the component corresponding to the extracted basic event. It may be determined whether there is a component having an average repair time shorter than the average repair time.

(5)上述の実施形態では、ハードウェア構成要素、ソフトウェア構成要素に関する各種の情報(システム機能構成情報10、構成要素の故障モードに関する情報、コスト関連情報13)を用いて、上述の信頼性評価が行われたが、これに限定されず、ハードウェア構成要素により構成される構成要素群、ソフトウェア構成要素により構成される構成要素群に関する各種の情報を用いて、上述の信頼性評価が行われてもよい。例えば、ハードウェア構成要素がAPサーバ1のCPU、メモリ、ハードディスクの場合には、ハードウェア構成要素により構成される構成要素群とは、APサーバ1やAPサーバ群のことである。例えば、ソフトウェア構成要素がAPサーバ1ソフトウェアを構成するAPサーバ1ソフトウェア1、APサーバ1ソフトウェア2..の場合には、ソフトウェア構成要素により構成される構成要素群とは、APサーバ1ソフトウェアのことである。また、構成要素に関する各種の情報(システム機能構成情報10、構成要素の故障モードに関する情報、コスト関連情報13など)と、構成要素群に関する各種の情報(システム機能構成情報10、構成要素群の故障モードに関する情報、コスト関連情報13など)とに基づいて、上述の信頼性評価が行われてもよい。 (5) In the above-described embodiment, the above-described reliability evaluation is performed using various pieces of information related to hardware components and software components (system function configuration information 10, information related to component failure modes, and cost-related information 13). However, the present invention is not limited to this, and the above-described reliability evaluation is performed using various types of information related to the component group configured by hardware components and the component group configured by software components. May be. For example, when the hardware components are the CPU, memory, and hard disk of the AP server 1, the component groups configured by the hardware components are the AP server 1 and the AP server group. For example, the AP server 1 software 1, the AP server 1 software 2. . In this case, the component group configured by software components is the AP server 1 software. In addition, various information related to the component (system function configuration information 10, information related to the failure mode of the component, cost related information 13, etc.) and various information related to the component group (system function configuration information 10, failure of the component group) The above-described reliability evaluation may be performed based on the information on the mode, the cost related information 13 and the like.

これにより、構成要素単位の故障に関するデータがない場合でも、構成要素群単位の故障に関するデータがあれば、上述の信頼性評価が可能となるので、信頼性評価のための故障に関する詳細な情報がない場合に信頼性評価ができないといった事態が回避される。   As a result, even if there is no data related to the failure of the component unit, if there is data related to the failure of the component group unit, the above-described reliability evaluation becomes possible, so detailed information about the failure for reliability evaluation can be obtained. The situation where reliability evaluation cannot be performed when there is not is avoided.

(6)上述の実施形態では、コスト算出部40は、コスト費として、各構成要素の設備費の総和と、営業損害額期待値との和を算出していたが、これに限定されず、コスト費として、各構成要素の設備費の総和だけを算出してもよい。そして、コスト情報再設定部42は、新たなコスト許容範囲、新たなシステムに関する情報(新たなシステム構成及び新たなシステム機能構成情報10、新たなシステム基準情報12、新たな信頼性関連情報11、新たなコスト関連情報13)のうち、いずれか1以上の情報を情報抽出・入力部2に再設定するようにしてもよい。 (6) In the above-described embodiment, the cost calculation unit 40 calculates the sum of the total equipment cost of each component and the operating loss expected value as the cost cost, but is not limited thereto. As the cost cost, only the sum of the equipment costs of each component may be calculated. Then, the cost information resetting unit 42 includes a new cost tolerance, information on a new system (new system configuration and new system function configuration information 10, new system reference information 12, new reliability related information 11, Any one or more pieces of information among the new cost-related information 13) may be reset in the information extraction / input unit 2.

(信頼性評価プログラム)
なお、コンピュータは、本実施形態、変更例の情報抽出・入力部2、情報処理・演算部3、情報出力部5の機能を実行させるためのプログラム(情報システムの信頼性評価プログラム)を実行することにより、実施形態、変更例の情報システムの信頼性評価システムにおける処理を行うことができる。このようなプログラムによれば、実施形態、変更例で示した作用効果を奏する信頼性評価システムを、一般的な汎用コンピュータで容易に実現できる。
(Reliability evaluation program)
The computer executes a program (information system reliability evaluation program) for executing the functions of the information extraction / input unit 2, the information processing / arithmetic unit 3, and the information output unit 5 of the present embodiment, the modified example. Thereby, the process in the reliability evaluation system of the information system of an embodiment and a modification can be performed. According to such a program, it is possible to easily realize a reliability evaluation system that achieves the operational effects shown in the embodiments and the modified examples with a general general-purpose computer.

また、プログラムは、コンピュータ読み取り可能な記録媒体に記録することができる。この記録媒体としては、図15に示すように、例えば、ハードディスク1100、フレキシブルディスク1200、コンパクトディスク1300、ICチップ1400、カセットテープ1500がある。このようなプログラムを記録した記録媒体によれば、プログラムの保存、運搬、販売などを容易に行うことができる。   The program can be recorded on a computer-readable recording medium. As this recording medium, there are, for example, a hard disk 1100, a flexible disk 1200, a compact disk 1300, an IC chip 1400, and a cassette tape 1500 as shown in FIG. According to the recording medium on which such a program is recorded, the program can be easily stored, transported, sold, and the like.

以上、本発明の実施形態、その変更例の一例を説明したが、具体例を例示したに過ぎず、特に本発明を限定するものではなく、各部の具体的構成等は、適宜変更可能である。また、実施形態やその変更例に記載された作用及び効果は、本発明から生じる最も好適な作用及び効果を列挙したに過ぎず、本発明による作用及び効果は、本発明の実施形態やその変更例に記載されたものに限定されるものではない。   As mentioned above, although an example of the embodiment of the present invention and the example of the change has been described, the specific example is merely illustrated, the present invention is not particularly limited, and the specific configuration of each part can be appropriately changed. . Further, the actions and effects described in the embodiment and its modified examples are merely a list of the most preferable actions and effects resulting from the present invention, and the actions and effects according to the present invention are not limited to the embodiments of the present invention and modifications thereof. It is not limited to those described in the examples.

本実施形態の信頼性評価システムの機能構成を示すブロック図である。It is a block diagram which shows the function structure of the reliability evaluation system of this embodiment. 本実施形態の情報抽出・入力部に入力される情報を示す図である。It is a figure which shows the information input into the information extraction and input part of this embodiment. 本実施形態の情報処理・演算部の処理機能構成を示すブロック図である。It is a block diagram which shows the processing function structure of the information processing and calculating part of this embodiment. 本実施形態のハードウェア構成要素の故障モードに対応する障害情報が、サーバ群及び故障モードに対応づけられることにより分類された分類テーブルを示す図である。It is a figure which shows the classification table by which the failure information corresponding to the failure mode of the hardware component of this embodiment was classified by matching with a server group and failure mode. 本実施形態のソフトウェア構成要素の故障モードに対応する障害情報が、サーバ群及び故障モードに対応づけられることにより分類された分類テーブルを示す図である。It is a figure which shows the classification table by which the failure information corresponding to the failure mode of the software component of this embodiment was classified by matching with a server group and failure mode. 本実施形態のフォルトツリー作成部により作成されたフォルトツリーの一例を示す図である。It is a figure which shows an example of the fault tree created by the fault tree creation part of this embodiment. 同じく、本実施形態のフォルトツリー作成部により作成されたフォルトツリーの一例を示す図である。Similarly, it is a figure which shows an example of the fault tree created by the fault tree creation part of this embodiment. 同じく、本実施形態のフォルトツリー作成部により作成されたフォルトツリーの一例を示す図である。Similarly, it is a figure which shows an example of the fault tree created by the fault tree creation part of this embodiment. 同じく、本実施形態のフォルトツリー作成部により作成されたフォルトツリーの一例を示す図である。Similarly, it is a figure which shows an example of the fault tree created by the fault tree creation part of this embodiment. 同じく、本実施形態のフォルトツリー作成部により作成されたフォルトツリーの一例を示す図である。Similarly, it is a figure which shows an example of the fault tree created by the fault tree creation part of this embodiment. 同じく、本実施形態のフォルトツリー作成部により作成されたフォルトツリーの一例を示す図である。Similarly, it is a figure which shows an example of the fault tree created by the fault tree creation part of this embodiment. 同じく、本実施形態のフォルトツリー作成部により作成されたフォルトツリーの一例を示す図である。Similarly, it is a figure which shows an example of the fault tree created by the fault tree creation part of this embodiment. 本実施形態の信頼性評価方法を説明するためのフローチャート図である。It is a flowchart figure for demonstrating the reliability evaluation method of this embodiment. 本実施形態のコスト費の算出処理を説明するためのフローチャート図である。It is a flowchart for demonstrating the calculation process of the cost cost of this embodiment. 本実施形態、変更例のプログラムを格納する記録媒体を示す図である。It is a figure which shows the recording medium which stores the program of this embodiment and a modification.

符号の説明Explanation of symbols

1…システム評価部、2…情報抽出・入力部、3…情報処理・演算部、5…情報出力部、6…システム管理データベース、7…ユーザ端末、10…システム機能構成情報、11…信頼性関連情報、12…システム基準情報、13…コスト関連情報、31…フィールドデータ分析部、32…フォルトツリー作成部、33…フォルトツリー−ロジック変換部、34…稼働率算出部、35…システム稼働率判定部、36…重要度分析部、37…変更可能性判定部、38…システム構成再設定部、39…故障情報再設定部、40…コスト算出部、41…コスト判定部、42…コスト情報再設定部、1100…ハードディスク、1200…フレキシブルディスク、1300…コンパクトディスク、1400…ICチップ、1500…カセットテープ。

DESCRIPTION OF SYMBOLS 1 ... System evaluation part, 2 ... Information extraction / input part, 3 ... Information processing / calculation part, 5 ... Information output part, 6 ... System management database, 7 ... User terminal, 10 ... System function structure information, 11 ... Reliability Related information, 12: System reference information, 13: Cost related information, 31: Field data analysis unit, 32 ... Fault tree creation unit, 33 ... Fault tree-logic conversion unit, 34 ... Operation rate calculation unit, 35 ... System operation rate Determining unit 36 ... Importance analyzing unit 37 ... Changeability determining unit 38 ... System configuration resetting unit 39 ... Failure information resetting unit 40 ... Cost calculating unit 41 ... Cost determining unit 42 ... Cost information Resetting unit, 1100... Hard disk, 1200... Flexible disk, 1300... Compact disk, 1400.

Claims (15)

機器を含む情報システムの信頼性評価に必要な情報として、前記機器の機能を実行させるためのソフトウェアと前記機器を構成するハードウェアとの各々を示す構成要素、又は、前記構成要素により構成される構成要素群の故障モードに対応する故障に関する情報と、前記機器と前記構成要素又は前記構成要素群とを用いた前記情報システムの構成に関する情報を示すシステム構成情報と、前記情報システム全体の稼働率を示すシステム稼働率の基準値と、を少なくとも含む情報が入力される情報入力部と、
前記構成要素又は前記構成要素群における故障モードの故障に関する情報の分析を前記故障モードごとに行うことにより分析情報を得る情報分析部と、
前記システム構成情報に基づいて、前記情報システムの故障モードを示す頂上事象から、前記構成要素又は前記構成要素群の故障モードを示す基本事象への階層的な論理関係を示すフォルトツリーを作成するフォルトツリー作成部と、
前記分析情報に基づいて、前記構成要素又は前記構成要素群の故障モードに対応する、前記構成要素又は前記構成要素群の不稼働率を算出する不稼働率算出部と、
算出された不稼働率を、前記構成要素又は前記構成要素群の故障モードに相当する基本事象に対応する不稼働率とした場合、前記基本事象に対応する不稼働率と、前記フォルトツリーとに基づいて、前記頂上事象に対応する稼働率をシステム稼働率として算出するシステム稼働率算出部と、
算出されたシステム稼働率が前記システム稼働率の基準値に達しているか否かを判定する稼働率判定部と、
算出されたシステム稼働率が前記基準値に達していないと判定された場合、基本事象に対応する不稼働率の変動と頂上事象に対応する不稼動率の変動との関係から、システム稼働率の上昇に関係する基本事象を抽出する基本事象抽出部と、
抽出された基本事象に対応する不稼働率の低下が可能な場合には、抽出された基本事象に対応する新たな分析情報を前記不稼働率算出部に再設定し、抽出された基本事象に対応する不稼働率の低下が可能でない場合には、新たなシステム構成情報及び新たな故障モードに対応する故障に関する情報を前記情報入力部に再設定する第1再設定部と、
を有することを特徴とする情報システムの信頼性評価システム。
As information necessary for reliability evaluation of an information system including a device, each component includes software that executes the function of the device and hardware that configures the device, or the component. Information on a failure corresponding to a failure mode of a component group, system configuration information indicating information on a configuration of the information system using the device and the component or the component group, and an operating rate of the entire information system An information input unit for inputting information including at least a system operating rate reference value,
An information analysis unit that obtains analysis information by performing analysis of information on failure of the failure mode in the component or the component group for each failure mode;
A fault that creates a fault tree indicating a hierarchical logical relationship from a top event indicating a failure mode of the information system to a basic event indicating a failure mode of the component or the group of components based on the system configuration information A tree creation section;
Based on the analysis information, the malfunction rate calculation unit that calculates the malfunction rate of the component or the component group corresponding to the failure mode of the component or the component group,
When the calculated unavailability is the unavailability corresponding to the basic event corresponding to the failure mode of the component or the component group, the unavailability corresponding to the basic event and the fault tree Based on the system operation rate calculation unit that calculates the operation rate corresponding to the top event as a system operation rate,
An operation rate determination unit that determines whether the calculated system operation rate has reached a reference value of the system operation rate;
When it is determined that the calculated system availability does not reach the reference value, the system availability is calculated based on the relationship between the change in the unavailable rate corresponding to the basic event and the change in the unavailable rate corresponding to the top event. A basic event extraction unit for extracting basic events related to ascent;
If the unavailability corresponding to the extracted basic event can be reduced, new analysis information corresponding to the extracted basic event is reset in the unavailability calculating section, and the extracted basic event A first resetting unit for resetting information related to a failure corresponding to a new system configuration information and a new failure mode in the information input unit, when a corresponding decrease in the unavailability is not possible;
An information system reliability evaluation system characterized by comprising:
前記情報分析部は、前記情報入力部により入力された情報のうち、前記故障モードに対応する故障に関する情報を、前記情報システムに含まれる各機器が処理機能別に分類された機器の集合を示す機器群及び前記故障モードごとに分類し、分類結果に基づいて、前記分析を行うことを特徴とする請求項1に記載の情報システムの信頼性評価システム。   The information analysis unit is a device that indicates a set of devices in which each device included in the information system is classified according to processing function, with respect to information related to the failure corresponding to the failure mode among the information input by the information input unit 2. The information system reliability evaluation system according to claim 1, wherein classification is performed for each group and each failure mode, and the analysis is performed based on a classification result. 前記情報入力部に入力される前記故障に関する情報には、前記構成要素又は前記構成要素群の故障モードの故障間隔が含まれており、
前記情報分析部は、前記分析として、前記情報入力部に入力された前記構成要素又は前記構成要素群の故障モードの故障間隔と、故障間隔に対する故障確率の分布を示すワイブル分布とに基づいて、前記構成要素又は前記構成要素群の故障モードの故障確率を算出し、算出した故障確率を前記分析情報として得ることを特徴とする請求項1又は2に記載の情報システムの信頼性評価システム。
The information on the failure input to the information input unit includes a failure interval of a failure mode of the component or the component group,
The information analysis unit, as the analysis, based on the failure interval of the failure mode of the component or the component group input to the information input unit, and a Weibull distribution indicating a failure probability distribution with respect to the failure interval, The reliability evaluation system for an information system according to claim 1 or 2, wherein a failure probability of a failure mode of the component or the component group is calculated, and the calculated failure probability is obtained as the analysis information.
前記情報入力部に入力される前記故障に関する情報には、前記構成要素又は前記構成要素群の故障モードの故障間隔と、前記故障間隔に対応する故障確率とが含まれており、
前記情報分析部は、前記分析として、前記情報入力部に入力された構成要素又は前記構成要素群の故障モードの故障間隔と、前記故障間隔に対応する故障確率とに基づいて、故障間隔に対する故障確率の分布を算出し、前記分布に基づいて、前記構成要素又は前記構成要素群の故障モードの故障確率を算出し、算出した故障確率を前記分析情報として得ることを特徴とする請求項1又は2に記載の情報システムの信頼性評価システム。
The information on the failure input to the information input unit includes a failure interval of the failure mode of the component or the component group, and a failure probability corresponding to the failure interval,
The information analysis unit, as the analysis, based on the failure interval of the failure mode of the component or the component group input to the information input unit and the failure probability corresponding to the failure interval, a failure with respect to the failure interval A probability distribution is calculated, a failure probability of a failure mode of the component or the component group is calculated based on the distribution, and the calculated failure probability is obtained as the analysis information. 2. An information system reliability evaluation system according to 2.
前記情報入力部に入力される前記故障に関する情報には、前記構成要素又は前記構成要素群の故障モードの修復時間が含まれており、
前記情報分析部は、前記分析として、前記情報入力部に入力された前記構成要素又は前記構成要素群の故障モードの修復時間に基づいて、前記構成要素又は前記構成要素群の故障モードの平均修復時間を算出し、算出した平均修復時間を前記分析情報として得ることを特徴とする請求項1又は2に記載の情報システムの信頼性評価システム。
The information related to the failure input to the information input unit includes a repair time of the failure mode of the component or the component group,
The information analysis unit, as the analysis, based on the repair time of the failure mode of the component or the component group input to the information input unit, the average repair of the failure mode of the component or the component group 3. The reliability evaluation system for an information system according to claim 1, wherein a time is calculated, and the calculated average repair time is obtained as the analysis information.
前記情報入力部には、前記構成要素又は前記構成要素群のために必要なコストを示す設備費と、前記情報システムのために必要なコストの許容範囲を示すコスト許容値とが入力され、
前記稼働率判定部により、算出されたシステム稼働率が前記基準値に達していると判定された場合、前記情報システムに含まれる構成要素又は構成要素群の設備費の総和を、コスト費として算出するコスト算出部と、
算出されたコスト費が前記コスト許容値を超えている否かを判定するコスト判定部と、
算出されたコスト費が、前記コスト許容値を超えていると判定された場合には、新たなコスト許容値と、新たなシステム構成情報及び新たな故障モードに対応する故障に関する情報とのうち、いずれか1以上の情報を前記情報入力部に再設定する第2再設定部と、
を有することを特徴とする請求項1乃至5のうちいずれ1つの請求項に記載の情報システムの信頼性評価システム。
In the information input unit, a facility cost indicating a cost required for the component or the component group, and a cost allowable value indicating an allowable range of a cost required for the information system are input,
When it is determined by the operating rate determination unit that the calculated system operating rate has reached the reference value, the total of the equipment costs of the components or component groups included in the information system is calculated as the cost cost A cost calculator to
A cost determination unit that determines whether or not the calculated cost cost exceeds the allowable cost value;
When it is determined that the calculated cost cost exceeds the cost allowance value, among the new cost allowance value, new system configuration information, and information related to the failure corresponding to the new failure mode, A second resetting unit for resetting any one or more pieces of information in the information input unit;
The reliability evaluation system for an information system according to any one of claims 1 to 5, characterized by comprising:
前記情報入力部には、前記情報システムが単位期間停止したことによる営業上の損害額を示す営業損害額と、前記情報システムの運用期間とが入力され、
前記コスト算出部は、前記算出されたシステム稼働率と前記営業損害額と前記運用期間とに基づいて営業損害額期待値を算出し、算出した営業損害額期待値と前記設備費の総和との和を、前記コスト費として算出し、
前記第2再設定部は、算出されたコスト費が、前記コスト許容値を超えていると判定された場合には、新たなコスト許容値と、新たなシステム稼働率の基準値と、新たなシステム構成情報及び新たな故障モードに対応する故障に関する情報とのうち、いずれか1以上の情報を前記情報入力部に再設定することを特徴とする請求項6に記載の情報システムの信頼性評価システム。
In the information input unit, an operating loss amount indicating an operating loss amount due to the information system being stopped for a unit period, and an operation period of the information system are input.
The cost calculation unit calculates an expected operating loss amount based on the calculated system operation rate, the operating loss amount, and the operation period, and calculates the calculated operating loss expected value and the sum of the facility costs. Calculate the sum as the cost cost,
When it is determined that the calculated cost cost exceeds the allowable cost value, the second resetting unit determines a new allowable cost value, a new reference value for the system operation rate, and a new 7. The reliability evaluation of the information system according to claim 6, wherein any one or more of system configuration information and information related to a failure corresponding to a new failure mode is reset in the information input unit. system.
情報入力部と、情報分析部と、フォルトツリー作成部と、不稼働率算出部と、システム稼働率算出部と、稼働率判定部と、基本事象抽出部と、第1再設定部とを持つ情報システムの信頼性評価システムにおける情報システムの信頼性評価方法であって、
前記情報入力部は、機器を含む情報システムの信頼性評価に必要な情報として、前記機器の機能を実行させるためのソフトウェアと前記機器を構成するハードウェアとの各々を示す構成要素、又は、前記構成要素により構成される構成要素群の故障モードに対応する故障に関する情報と、前記機器と前記構成要素又は前記構成要素群とを用いた前記情報システムの構成に関する情報を示すシステム構成情報と、前記情報システム全体の稼働率を示すシステム稼働率の基準値と、を少なくとも含む情報を入力
前記情報分析部は、前記構成要素又は前記構成要素群における故障モードの故障に関する情報を前記故障モードごとに分析して分析情報を求め
前記フォルトツリー作成部は、前記システム構成情報に基づいて、前記情報システムの故障モードを示す頂上事象から、前記構成要素又は前記構成要素群の故障モードを示す基本事象への階層的な論理関係を示すフォルトツリーを作成
前記不稼働率算出部は、前記分析情報に基づいて、前記構成要素又は前記構成要素群の故障モードに対応する、前記構成要素又は前記構成要素群の不稼働率を算出
前記システム稼働率算出部は、前記算出された不稼働率を、前記構成要素又は前記構成要素群の故障モードに相当する基本事象に対応する不稼働率とした場合、前記基本事象に対応する不稼働率と、前記フォルトツリーとに基づいて、前記頂上事象に対応する稼働率をシステム稼働率として算出
前記稼働率判定部は、前記算出されたシステム稼働率が前記システム稼働率の基準値に達しているか否かを判定
前記基本事象抽出部は、前記算出されたシステム稼働率が前記基準値に達していないと判定された場合、基本事象に対応する不稼働率の変動と頂上事象に対応する不稼動率の変動との関係から、システム稼働率の上昇に関係する基本事象を抽出
前記第1再設定部は、前記抽出された基本事象に対応する不稼働率の低下が可能な場合には、抽出された基本事象に対応する新たな分析情報を再設定し、抽出された基本事象に対応する不稼働率の低下が可能でない場合には、新たなシステム構成情報及び新たな故障モードに対応する故障に関する情報を再設定することを特徴とする情報システムの信頼性評価方法。
An information input unit, an information analysis unit, a fault tree creation unit, an inoperability calculation unit, a system operation rate calculation unit, an operation rate determination unit, a basic event extraction unit, and a first resetting unit An information system reliability evaluation method in an information system reliability evaluation system,
The information input unit, as information necessary for the reliability evaluation of an information system including a device, a component indicating each of software for executing the function of the device and hardware configuring the device, or Information on a failure corresponding to a failure mode of a component group constituted by components, system configuration information indicating information on a configuration of the information system using the device and the component or the component group, and a reference value for the system uptime indicating the operation of the entire information system, the type information including at least,
The information analysis unit obtains the analysis information information about the failure of the failure modes in the component or the component groups were analyzed for each of the failure mode,
The fault tree creation unit has a hierarchical logical relationship from a top event indicating a failure mode of the information system to a basic event indicating a failure mode of the component or the group of components based on the system configuration information. create a fault tree shown,
The unavailability calculation unit, based on the analysis information, corresponding to the failure mode of the component or the component groups, calculates the unavailability of said component or said component group,
The system operating rate calculation unit, when the calculated operating rate is the operating rate corresponding to the basic event corresponding to the failure mode of the component or the component group, and operating rate, based on said fault tree to calculate the operation rate corresponding to the top event as system availability,
The operating rate determination unit determines whether the calculated system availability has reached a reference value of the system availability,
The basic event extraction unit, when it is determined that the calculated system operating rate has not reached the reference value, the fluctuation of the non-operating rate corresponding to the basic event and the fluctuation of the non-operating rate corresponding to the top event from relationship to extract the basic event related to an increase in system availability,
The first resetting unit resets the new analysis information corresponding to the extracted basic event when the downtime corresponding to the extracted basic event can be reduced, and extracts the extracted basic event. If reduction of unavailability corresponding to the event is not possible, the reliability of the information system characterized and Turkey to reset the information on the failure corresponding to the new system configuration information and the new failure mode evaluation method .
前記情報分析は、前記情報入力により入力された情報のうち、前記故障モードに対応する故障に関する情報を、前記情報システムに含まれる各機器が処理機能別に分類された機器の集合を示す機器群及び前記故障モードごとに分類し、分類結果に基づいて、前記分析を行うことを特徴とする請求項8に記載の情報システムの信頼性評価方法。 The information analysis unit is a device indicating a set of devices in which each device included in the information system is classified according to a processing function with respect to a failure corresponding to the failure mode among the information input by the information input unit. 9. The information system reliability evaluation method according to claim 8, wherein classification is performed for each group and each failure mode, and the analysis is performed based on a classification result. 前記情報入力により入力される前記故障に関する情報には、前記構成要素又は前記構成要素群の故障モードの故障間隔が含まれており、
前記情報分析は、前記分析として、前記情報入力により入力された前記構成要素又は前記構成要素群の故障モードの故障間隔と、故障間隔に対する故障確率の分布を示すワイブル分布とに基づいて、前記構成要素又は前記構成要素群の故障モードの故障確率を算出し、算出した故障確率を前記分析情報として求めることを特徴とする請求項8又は9に記載の情報システムの信頼性評価方法。
The information on the failure input by the information input unit includes a failure interval of a failure mode of the component or the component group,
The information analysis unit , as the analysis, based on the failure interval of the failure mode of the component or the component group input by the information input unit, and a Weibull distribution indicating a failure probability distribution with respect to the failure interval, said component or said calculating a failure probability of the failure mode of the component groups, the reliability evaluation method of an information system according to claim 8 or 9 and the calculated failure probabilities, characterized in Rukoto determined as the analysis information.
前記情報入力により入力される前記故障に関する情報には、前記構成要素又は前記構成要素群の故障モードの故障間隔と、前記故障間隔に対応する故障確率とが含まれており、
前記情報分析は、前記分析として、前記情報入力により入力された構成要素又は前記構成要素群の故障モードの故障間隔と、前記故障間隔に対応する故障確率とに基づいて、故障間隔に対する故障確率の分布を算出し、前記分布に基づいて、前記構成要素又は前記構成要素群の故障モードの故障確率を算出し、算出した故障確率を前記分析情報として求めることを特徴とする請求項8又は9に記載の情報システムの信頼性評価方法。
Wherein the failure information about the inputted by the information input unit, the time between failures of the failure mode of the component or the component groups, are included and failure probability corresponding to the time between failures,
The information analysis unit , as the analysis, based on the failure interval of the failure mode of the component or the component group input by the information input unit and the failure probability corresponding to the failure interval, calculating a distribution of a probability, based on the distribution, according to claim 8, wherein the components or to calculate the failure probability of failure mode of the component groups, obtains a calculated failure probabilities as said analysis information and said Rukoto Or the reliability evaluation method of the information system of 9.
前記情報入力により入力される前記故障に関する情報には、前記構成要素又は前記構成要素群の故障モードの修復時間が含まれており、
前記情報分析は、前記分析として、前記情報入力部により入力された前記構成要素又は前記構成要素群の故障モードの修復時間に基づいて、前記構成要素又は前記構成要素群の故障モードの平均修復時間を算出し、算出した平均修復時間を前記分析情報として求めることを特徴とする請求項8又は9に記載の情報システムの信頼性評価方法。
The information related to the failure input by the information input unit includes a repair time of the failure mode of the component or the component group,
The information analysis unit, as the analysis, on the basis of the information the component is more input to the input unit or repair time of the failure mode of the component groups, the average failure mode of the component or the component group calculating the repair time, method for evaluating reliability information system according to claim 8 or 9 the calculated mean time to repair and wherein Rukoto determined as the analysis information.
前記情報システムの信頼性評価システムは、更に第2再設定部を持ち、
前記情報入力は、前記構成要素又は前記構成要素群のために必要なコストを示す設備費と前記情報システムのために必要なコストの許容範囲を示すコスト許容値と入力
前記第2再設定部は、前記稼働率判定により算出されたシステム稼働率が前記基準値に達している場合、前記情報システムに含まれる構成要素又は構成要素群の設備費の総和をコスト費として算出この算出されたコスト費が前記コスト許容値を超え場合には、新たなコスト許容値と、新たなシステム構成情報及び新たな故障モードに対応する故障に関する情報とのうち、いずれか1以上の情報を再設定
新たなコスト許容値が再設定された場合には、前記コスト算出以降の処理を行い、新たなシステム構成情報及び新たな故障モードに対応する故障に関する情報が再設定された場合には、前記情報分析以降の処理を行うことを特徴とする請求項8乃至12のうちいずれ1つの請求項に記載の情報システムの信頼性評価方法。
The reliability evaluation system for the information system further includes a second resetting unit,
The information input unit inputs the cost tolerance value indicating the allowable range of the cost required for equipment costs and before Symbol Information system according to a cost required for the component or the component group,
The second resetting unit, said operating rate determination unit in the I Risan out system uptime If that has reached the reference value, component or set of components facility costs included in the information system calculated sum as the cost expenses, when the calculated cost expense exceeds the cost allowable value information and a new cost tolerance, failure-related corresponding to the new system configuration information and new failure modes of the, reconfigure any one or more of the information,
When the new cost tolerance is reset, the processing after the cost calculation is performed. When the new system configuration information and the information related to the failure corresponding to the new failure mode are reset, the information The information system reliability evaluation method according to any one of claims 8 to 12, wherein processing after analysis is performed.
前記情報入力は、前記情報システムが単位期間停止したことによる営業上の損害額を示す営業損害額と、前記情報システムの運用期間と入力
前記第2再設定部は、前記算出されたシステム稼働率と前記営業損害額と前記運用期間とに基づいて営業損害額期待値を算出し、この算出した営業損害額期待値と前記設備費の総和との和をコスト費として算出し、この算出されたコスト費が、前記コスト許容値を超えている場合には、新たなコスト許容値と、新たなシステム稼働率の基準値と、新たなシステム構成情報及び新たな故障モードに対応する故障に関する情報とのうち、いずれか1以上の情報を再設定し、
新たなシステム稼働率の基準値が再設定された場合には、前記稼働率判定以降の処理を行うことを特徴とする請求項13に記載の情報システムの信頼性評価方法。
The information input unit inputs the operating loss amount indicating the amount of damage on the sales due to the information system stops the unit period, and operation period of the information system,
The second re-setting unit, said the calculated system capacity utilization on the basis of operating losses and said operation period to calculate the operating loss amount expected value, of the equipment costs and operating losses expected value calculated as described above the sum of the total sum calculated as cost expenses, the calculated cost expense, wherein the case that exceeds the cost tolerance, and a new cost tolerance, the reference value of the new system uptime, Reset any one or more of the new system configuration information and the information related to the failure corresponding to the new failure mode,
The information system reliability evaluation method according to claim 13, wherein when a new reference value of the system operation rate is reset, the processing after the operation rate determination is performed.
コンピュータを、
機器を含む情報システムの信頼性評価に必要な情報として、前記機器の機能を実行させるためのソフトウェアと前記機器を構成するハードウェアとの各々を示す構成要素、又は、前記構成要素により構成される構成要素群の故障モードに対応する故障に関する情報と、前記機器と前記構成要素又は前記構成要素群とを用いた前記情報システムの構成に関する情報を示すシステム構成情報と、前記情報システム全体の稼働率を示すシステム稼働率の基準値と、を少なくとも含む情報を入力するための情報入力
前記構成要素又は前記構成要素群における故障モードの故障に関する情報を前記故障モードごとに分析して分析情報を得るための情報分析
前記システム構成情報に基づいて、前記情報システムの故障モードを示す頂上事象から、前記構成要素又は前記構成要素群の故障モードを示す基本事象への階層的な論理関係を示すフォルトツリーを作成するためのフォルトツリー作成
前記分析情報に基づいて、前記構成要素又は前記構成要素群の故障モードに対応する、前記構成要素又は前記構成要素群の不稼働率を算出するための不稼働率算出
前記算出された不稼働率を、前記構成要素又は前記構成要素群の故障モードに相当する基本事象に対応する不稼働率とした場合、前記基本事象に対応する不稼働率と、前記フォルトツリーとに基づいて、前記頂上事象に対応する稼働率をシステム稼働率として算出するためのシステム稼働率算出
前記算出されたシステム稼働率が前記システム稼働率の基準値に達しているか否かを判定するための稼働率判定
前記算出されたシステム稼働率が前記基準値に達していないと判定された場合、基本事象に対応する不稼働率の変動と頂上事象に対応する不稼動率の変動との関係から、システム稼働率の上昇に関係する基本事象を抽出するための基本事象抽出
前記抽出された基本事象に対応する不稼働率の低下が可能な場合には、抽出された基本事象に対応する新たな分析情報を再設定し、抽出された基本事象に対応する不稼働率の低下が可能でない場合には、新たなシステム構成情報及び新たな故障モードに対応する故障に関する情報を再設定するための第1再設定
として機能させるための情報システムの信頼性評価プログラム。
Computer
As information necessary for reliability evaluation of an information system including a device, each component includes software that executes the function of the device and hardware that configures the device, or the component. Information on a failure corresponding to a failure mode of a component group, system configuration information indicating information on a configuration of the information system using the device and the component or the component group, and an operating rate of the entire information system An information input unit for inputting information including at least a system operation rate reference value indicating
Information analysis unit for obtaining an analysis information by analyzing information about the failure of the failure modes in the component or the component group for each of the failure mode,
Based on the system configuration information, a top event that indicates the failure mode of the information system, to create a fault tree showing the hierarchical logical relationship to the basic events indicating a failure mode of the component or the component group fault tree creation unit of,
Based on the analysis information, the component or the corresponding failure mode component group, unavailability calculator for calculating the unavailability of said component or said component group,
When the calculated unavailability is an unavailability corresponding to the basic event corresponding to the failure mode of the component or the component group, the unavailability corresponding to the basic event, the fault tree, Based on the system operating rate calculating unit for calculating the operating rate corresponding to the top event as a system operating rate,
Operating rate determination unit for determining whether or not the calculated system availability has reached a reference value of the system availability,
When it is determined that the calculated system operating rate has not reached the reference value, the system operating rate is calculated based on the relationship between the fluctuation in the inoperating rate corresponding to the basic event and the fluctuation in the operating rate corresponding to the top event. A basic event extraction unit for extracting basic events related to the rise of
If the downtime corresponding to the extracted basic event can be reduced, new analysis information corresponding to the extracted basic event is reset, and the downtime rate corresponding to the extracted basic event is set. If reduction is not possible, the first resetting unit for resetting the information about the fault that corresponds to the new system configuration information and a new failure mode,
Information system reliability evaluation program to function as
JP2005194191A 2004-09-30 2005-07-01 Information system reliability evaluation system, reliability evaluation method, reliability evaluation program Expired - Fee Related JP4174497B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005194191A JP4174497B2 (en) 2004-09-30 2005-07-01 Information system reliability evaluation system, reliability evaluation method, reliability evaluation program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004289238 2004-09-30
JP2005194191A JP4174497B2 (en) 2004-09-30 2005-07-01 Information system reliability evaluation system, reliability evaluation method, reliability evaluation program

Publications (2)

Publication Number Publication Date
JP2006127464A JP2006127464A (en) 2006-05-18
JP4174497B2 true JP4174497B2 (en) 2008-10-29

Family

ID=36722113

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005194191A Expired - Fee Related JP4174497B2 (en) 2004-09-30 2005-07-01 Information system reliability evaluation system, reliability evaluation method, reliability evaluation program

Country Status (1)

Country Link
JP (1) JP4174497B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10558513B2 (en) 2015-01-30 2020-02-11 Hitachi Power Solutions Co., Ltd. System management apparatus and system management method

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5022590B2 (en) * 2005-10-31 2012-09-12 株式会社東芝 Information system reliability evaluation system, reliability evaluation method, and reliability evaluation program
US20080010513A1 (en) * 2006-06-27 2008-01-10 International Business Machines Corporation Controlling computer storage systems
JP4823315B2 (en) * 2006-08-14 2011-11-24 富士通株式会社 Program analysis method and apparatus
JP2008158624A (en) * 2006-12-21 2008-07-10 Chubu Electric Power Co Inc Method for diagnosing earthquake risk
KR100923232B1 (en) 2007-09-11 2009-10-27 한국원자력연구원 An apparatus and method to analyze causality graphs
US7975165B2 (en) * 2009-06-25 2011-07-05 Vmware, Inc. Management of information technology risk using virtual infrastructures
WO2011132730A1 (en) * 2010-04-22 2011-10-27 日本電気株式会社 Runtime system fault tree analysis method, system and program
US9235423B2 (en) 2010-11-26 2016-01-12 Nec Corporation Availability evaluation device and availability evaluation method
US8798982B2 (en) 2011-08-30 2014-08-05 Nec Corporation Information processing device, information processing method, and program
JP2013196146A (en) * 2012-03-16 2013-09-30 Jatco Ltd Ft diagram data management system, client and server used in ft diagram data management system, and ft diagram data management method
JP6044142B2 (en) * 2012-07-09 2016-12-14 富士通株式会社 Calculation device, calculation method, and program
JPWO2014097598A1 (en) 2012-12-17 2017-01-12 日本電気株式会社 Information processing apparatus for performing risk analysis and risk analysis method
EP3059676B1 (en) * 2015-02-20 2019-09-11 Siemens Aktiengesellschaft A method and apparatus for analyzing the availability of a system, in particular of a safety critical system
US10439915B2 (en) * 2017-04-14 2019-10-08 Solarwinds Worldwide, Llc Network status evaluation

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10558513B2 (en) 2015-01-30 2020-02-11 Hitachi Power Solutions Co., Ltd. System management apparatus and system management method

Also Published As

Publication number Publication date
JP2006127464A (en) 2006-05-18

Similar Documents

Publication Publication Date Title
JP4174497B2 (en) Information system reliability evaluation system, reliability evaluation method, reliability evaluation program
WO2006035931A1 (en) Information system reliability evaluation system, reliability evaluation method, and reliability evaluation program
JP6354755B2 (en) System analysis apparatus, system analysis method, and system analysis program
CN110825578A (en) Method for automatically managing hardware error events occurring in a data center system
JP5267736B2 (en) Fault detection apparatus, fault detection method, and program recording medium
Authen et al. Reliability analysis of digital systems in a probabilistic risk analysis for nuclear power plants
CN110023967B (en) Fault risk indicator estimation device and fault risk indicator estimation method
Huang et al. Analysis of software reliability modeling considering testing compression factor and failure-to-fault relationship
Bauer et al. Practical system reliability
JP5022590B2 (en) Information system reliability evaluation system, reliability evaluation method, and reliability evaluation program
Levitin et al. Reliability of non-coherent warm standby systems with reworking
Ahmadi A new approach to maintenance optimisation of repairable parallel systems subject to hidden failures
Bülbül et al. Exact and heuristic approaches for joint maintenance and spare parts planning
George-Williams et al. Efficient availability assessment of reconfigurable multi-state systems with interdependencies
Barrett et al. A risk-based framework for power system modeling to improve resilience to extreme events
KR20200009081A (en) Risk Assessment Apparatus, Risk Assessment System, Risk Assessment Method, Risk Assessment Program and Data Structure
Khalil Ur et al. Sensitivity study on availability of I&C components using bayesian network
JP5439296B2 (en) Change impact prediction method and change impact prediction apparatus
US20200391885A1 (en) Methods and systems for identifying aircraft faults
Chinnaiyan et al. Monte Carlo simulation for reliability assessment of component based software systems
Smidts Software reliability
JP5299433B2 (en) Monitoring suppression error message selection method and program
Chaudhary et al. A review on software realibility growth modelling
Tokuno et al. Relationship between software availability measurement and the number of restorations with imperfect debugging
Jacob et al. Analysis of complex repairable systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080509

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080805

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080818

R150 Certificate of patent or registration of utility model

Ref document number: 4174497

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110822

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120822

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120822

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130822

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees