JP2016035610A - 情報処理システム、情報処理装置、冗長化方法およびプログラム - Google Patents

情報処理システム、情報処理装置、冗長化方法およびプログラム Download PDF

Info

Publication number
JP2016035610A
JP2016035610A JP2014157267A JP2014157267A JP2016035610A JP 2016035610 A JP2016035610 A JP 2016035610A JP 2014157267 A JP2014157267 A JP 2014157267A JP 2014157267 A JP2014157267 A JP 2014157267A JP 2016035610 A JP2016035610 A JP 2016035610A
Authority
JP
Japan
Prior art keywords
card
failure
sign
information processing
correctable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014157267A
Other languages
English (en)
Inventor
大介 上石
Daisuke Kamiishi
大介 上石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2014157267A priority Critical patent/JP2016035610A/ja
Priority to US14/794,840 priority patent/US20160034365A1/en
Publication of JP2016035610A publication Critical patent/JP2016035610A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2017Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where memory access, memory control or I/O control functionality is redundant
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/805Real-time

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】冗長化されたI/Oカードにより、情報処理装置の可用性を高めたフェールオーバを実現する情報処理システム、情報処理装置、冗長化方法およびプログラムを提供する。
【解決手段】情報処理システム1は、第1のI/Oカード2と、第2のI/Oカード3と、BIOS10と、予兆監視手段30と、OS20と、を有する。BIOSは、第1のI/Oカードの訂正可能障害を検出し、予兆監視手段は、訂正可能障害の検出結果に基づいて第1のI/Oカードのハードウエア障害を予兆検知し、OS20は、予兆検知に基づいて第1のI/Oカードを切り離し第2のI/Oカードに切り替える。
【選択図】図1

Description

本発明は、情報処理装置のI/Oを冗長化して可用性を高める技術に関する。
サーバなどの情報処理装置において、I/O(Input/Output)を冗長化することで可用性を向上させる技術として、NIC(Network Interface Card)Teaming(もしくはBonding)が知られている。NIC Teamingは、Link Down等の通信障害を検出した際に、現用系から待機系にフェールオーバを行うことで可用性を高める技術である。
NIC Teamingは、SW(software)で検出できる通信障害だけを対象としており、NICのHW(hardware)障害を監視していない。そのため、NICがHW的に故障し最終的に訂正不可能障害に至ると、サーバそのものがダウンしてしまう。よって、NIC Teamingでは、I/Oを冗長化していても、HW障害が起きるとサーバがダウンしてしまうという点において可用性が不十分であった。
特許文献1には、周辺装置と情報処理装置の間の入出力を制御する入出力処理モジュールにおいて、入出力処理モジュールで障害の予兆が検出されたとき、障害が発生する前に、予備入出力処理モジュールに切り替える技術が開示されている。入出力処理モジュールはI/Oカードを制御し情報のやり取りを行うものである。
特開2010−244396号公報
しかしながら、特許文献1では、I/OカードのHW障害に関連しての対策については開示されていない。また、I/Oカードは冗長化されていない場合もあり、その場合は動作中のI/Oカードがシステムで唯一のI/Oカードとなる。そのため、仮に、I/OカードのHW故障の予兆を検知してI/Oカードを切り離してしまうと、唯一のI/Oカードが使えなくなってしまう。よって、HW故障と判断する閾値を高めに設定する、もしくは、切り離しを行わないというI/Oカード特有の考慮を行わなければならない。
本発明は、上記の課題に鑑みてなされたものであり、その目的は、冗長化されたI/Oカードにより、情報処理装置の可用性を高めたフェールオーバを実現することにある。
本発明による情報処理システムは、第1のI/Oカードと、第2のI/Oカードと、前記第1のI/Oカードの訂正可能障害を検出するBIOSと、前記訂正可能障害の検出結果に基づいて前記第1のI/Oカードのハードウエア障害を予兆検知する予兆監視手段と、前記予兆検知に基づいて前記第1のI/Oカードを切り離し前記第2のI/Oカードに切り替えるOSと、を有する。
本発明による情報処理装置は、第1のI/Oカードと、第2のI/Oカードと、前記第1のI/Oカードの訂正可能障害を検出するBIOSと、前記訂正可能障害の検出結果に基づいて前記第1のI/Oカードのハードウエア障害を予兆検知する予兆監視手段と、前記予兆検知に基づいて前記第1のI/Oカードを切り離し前記第2のI/Oカードに切り替えるOSと、を有する。
本発明による冗長化方法は、第1のI/Oカードの訂正可能障害を検出し、前記訂正可能障害の検出結果に基づいて前記第1のI/Oカードのハードウエア障害を予兆検知し、前記予兆検知に基づいて前記第1のI/Oカードを切り離し第2のI/Oカードに切り替える。
本発明による冗長化プログラムは、第1のI/Oカードの訂正可能障害を検出する処理と、前記訂正可能障害の検出結果に基づいて前記第1のI/Oカードのハードウエア障害を予兆検知する処理と、前記予兆検知に基づいて前記第1のI/Oカードを切り離し第2のI/Oカードに切り替える処理と、を実行させる。
本発明によれば、冗長化されたI/Oカードにより、情報処理装置の可用性を高めたフェールオーバが実現する。
本発明の実施形態の情報処理システムの構成を示すブロック図である。 本発明の実施形態の情報処理システムの構成を示すブロック図である。 本発明の実施形態の情報処理システムのハードウエア構成を示すブロック図である。 本発明の実施形態の情報処理システムの動作を示すフローチャートである。
以下、図を参照しながら、本発明の実施形態を詳細に説明する。但し、以下に述べる実施形態には、本発明を実施するために技術的に好ましい限定がされているが、発明の範囲を以下に限定するものではない。
図1は、本発明の実施形態の情報処理システムの構成を示すブロック図である。本実施形態の情報処理システム1は、第1のI/Oカード2と、第2のI/Oカード3と、前記第1のI/Oカード2の訂正可能障害を検出するBIOS10とを有する。さらに、前記訂正可能障害の検出結果に基づいて前記第1のI/Oカード2のハードウエア障害を予兆検知する予兆監視手段30と、前記予兆検知に基づいて前記第1のI/Oカード2を切り離し前記第2のI/Oカード3に切り替えるOS20とを有する。
以下に、さらに具体的に本実施形態の情報処理システムの構成を説明する。図2は、本実施形態の情報処理システムの構成を示すブロック図である。本実施形態の情報処理システム1は、BIOS(Basic Input Output System)10とOS(Operating System)20と、第1のI/Oカード2と第2のI/Oカード3とを有する。第1のI/Oカード2を現用系、第2のI/Oカード3を冗長系とすることができる。このI/Oカードが冗長化されたシステムにおいて、BIOS10とOS20との両者が共有する予兆監視手段30を有する。
BIOS10は、I/Oカードなどのハードウエアの障害を検出する障害処理手段11を有する。OS20は、NIC Teaming機能を有するI/O冗長化手段21と、PCI(Peripheral Component Interconnect) Hot−Remove機能を有するI/Oカード切り離し手段22とを有する。
予兆監視手段30は、BIOS10においては、障害処理手段11とインターフェースを有する予兆監視BIOS部31を有する。予兆監視手段30は、OS20においては、I/O冗長化手段21とI/Oカード切り離し手段22とインターフェースを有する、予兆監視OS部32を有する。さらに、情報処理システム1は、予兆監視BIOS部31と予兆監視OS部32とが互いに情報を共有するための共有メモリ40を有する。
図3は、図2の情報処理システム1の機能構成を実現するハードウエア構成を示すブロック図である。情報処理システム1は、CPU4(Central Processing Unit)、メモリ5、第1のI/Oカード2、第2のI/Oカード3を有し、これらがバス6により接続しているサーバなどの情報機器である。I/Oカードを介して外部機器7が接続される。CPU4の有する演算資源とメモリ5の有する記憶資源とにより、CPU4でプログラムを動作させ、さらに、メモリ5を割り当てることによって、図2に示す情報処理システム1の構成を実現することができる。
次に、本実施形態の情報処理システムの動作をステップごとに説明する。図4は、図2の情報処理システム1の動作を示すフローチャートである。以下に、Stepごとの動作を説明する。なお、各動作の詳細は後述する。
(Step1) BIOS10の障害処理手段11が第1のI/Oカード2の訂正可能障害を検出し、予兆監視手段30の予兆監視BIOS部31に通知する。
(Step2) 予兆監視BIOS部31は、障害処理手段11から第1のI/Oカード2の訂正可能障害検出の通知を受けると、前記障害発生履歴を共有メモリ40に記憶する。
(Step3) 予兆監視BIOS部31は、訂正可能障害発生履歴に基づいて、第1のI/Oカード2に故障の予兆があるか否かを判断する。
(Step4) 予兆監視BIOS部31は、故障の予兆がある場合(YES)、Step5に進む。故障の予兆がない場合(NO)、終了する。
(Step5) 予兆監視BIOS部31は、第1のI/Oカード2の故障の予兆を検出したことを予兆監視OS部32に通知する。
(Step6) 予兆監視OS部32は、故障の予兆通知を受けると、I/O冗長化手段21にI/Oカードの冗長性を問合せる。
(Step7) I/O冗長化手段21は問合せを受けると、予兆監視OS部32に冗長性の状態を応答する。この場合、冗長化により第2のI/Oカード3を有することを応答する。
(Step8) 予兆監視OS部32は、冗長化されている場合(YES)、I/Oカード切り離し手段22に第1のI/Oカード2の切り離しを指示する。冗長化されていない場合(NO)、終了する。
(Step9) I/Oカード切り離し手段22は、切り離しの指示を受けると、第1のI/Oカード2を切り離し、I/O冗長化手段21に第1のI/Oカード2から第2のI/Oカード3へのフェールオーバを指示する。
(Step10) I/O冗長化手段21はフェールオーバの指示を受けると、第1のI/Oカード2から第2のI/Oカード3へフェールオーバし、終了する。
次に、前記の各ステップの動作の詳細を以下に説明する。
第1のI/Oカード2が備える障害検出機能により、第1のI/Oカード2が障害検出した場合の挙動に関しては、PCI Standard Specに規定されている方法を用いることができる。この場合は、ERR_*Messageとして報告される。ERR_*Messageが発生した場合の割り込みに関しては、BIOS10とOS20の何れでも設定可能である。すなわち、BIOS10にシステム管理割り込みであるSMI(System management interrupts)を挙げる方法と、OS20にMSI(Message Signaled Interrupt)割り込みを挙げる方法の何れかが選択できる。本実施形態ではSMIを挙げる方式を採用する。
Step1においては、第1のI/Oカード2が障害検出すると、SMIがBIOS10に挙がり障害処理手段11が動作する。障害処理手段11は、第1のI/Oカード2が備えるエラー検出機能を利用して検出した障害が、訂正可能障害なのか、訂正不可能障害なのかを判断する。
訂正可能障害か訂正不可能障害かの判断は、PCI Standard Specに規定されている方法で行うことができる。具体的には、PCIのAdvanced Error Repotingを使用する。障害処理手段11は、PCI Spec Advanced Error Reportingで規定されるI/Oカードが持つレジスタを参照し、第1のI/Oカード2が備えるエラー検出機能を利用して検出した障害が、訂正可能障害なのか、訂正不可能障害なのかを判断することができる。
障害処理手段11は、第1のI/Oカード2に訂正可能障害が発生したと判断すると、予兆監視BIOS部31へ訂正可能障害の発生を通知する。一方、訂正不可能障害の場合は、NMI(Non−Maskable Interrupt)を起こし、crash dumpを採取して再起動する。
Step2においては、予兆監視BIOS部31が障害発生履歴を共有メモリ40に記録する。これにより、一定時間内に訂正可能障害が何回発生したかが記録される。
Step3において、予兆監視BIOS部31は、Step2での記録から、一定時間ごとの障害発生回数が基準値を超えた場合、第1のI/Oカード2の故障の予兆と判断する。Step4はYESとなり、Step5に進む。
Step5において、予兆監視BIOS部31が予兆監視OS部32に対して、故障の予兆を検出したことを通知する手段としては、割り込み方式とポーリング形式の二つの方法が可能である。どちらの方法でも、予兆監視BIOS部31と予兆監視OS部32とが互いに情報を共有するために、情報処理システム1を起動しOS20を立ち上げる前に、共有メモリ40領域が固定メモリアドレスとなるようBIOS10が共有メモリ40を予約しておく。この共有メモリ40に障害発生履歴を記録することで、予兆監視BIOS部31と予兆監視OS部32の間での情報の授受が可能となる。
Step5において、割り込み方式を選択した場合、予兆監視OS部32は、立ち上げ時の初期化処理において、OS20に対してIRQ(Interrupt Request)による割り込みを要求し、専用の割り込みを確保する。そして、予兆監視OS部32は、確保したIRQ番号を共有メモリ40に格納する。予兆監視BIOS部31は、共有メモリ40を参照してIRQ番号を取得し、専用のIRQの割り込みをOS20へ挙げることで、予兆監視OS部32へ故障を予兆検出したことを通知する。
Step5において、ポーリング方式を選択した場合、予兆監視OS部32は、定期的に共有メモリ40を参照して、予兆監視BIOS部31が故障を予兆検知したか否かを確認する。予兆監視BIOS部32は、故障を予兆検出すると、共有メモリ40にその旨を格納する。
Step6において、予兆監視OS部32は、I/O冗長化手段21に現用系である第1のI/Oカード2の冗長性を問い合わせる。具体的には、I/O冗長化手段21が提供しているコマンドやAPI(Application Programming Interface)などを利用して問い合わせる。
Step7およびStep8において、故障を予兆検知した第1のI/Oカード2が冗長化されていることが判った場合、予兆監視OS部32は、OS20のI/Oカード切り離し手段22へ第1のI/Oカード2の切り離しを指示する。第1のI/Oカード2の切り離しの指示には、OS20が提供するPCI Hot−Remove機能を利用する。PCI Hot−Removeを指示する方法には、直接OS20が提供するコマンドを実行する方法と、ACPI(Advanced Configuration and Power Interface)からEJECT Notify(取り出し通知)を発行する方法の2つがある。予兆監視OS部32は、これらの内のどちらの方法を使っても良い。
Step9において、I/Oカード切り離し手段22は、切り離しの指示を受けると、第1のI/Oカード2を切り離し、I/O冗長化手段21に第1のI/Oカード2から冗長系である第2のI/Oカード3へのフェールオーバを指示する。
Step10において、I/O冗長化手段21はフェールオーバの指示を受けると、第1のI/Oカード2から第2のI/Oカード3へフェールオーバし、終了する。
本実施形態の情報処理システムによれば、I/OカードとそのPCIeバス(Peripheral Component Interconnect Express)上で発生した訂正可能障害の発生履歴から、ハードウエア故障を予兆検知する。そして、I/Oカードが冗長化されている場合に、現用系である第1のI/Oカードの切り離しを行い、冗長系である第2のI/Oカードにフェールオーバさせることができる。
本実施形態の情報処理装置は、本実施形態の情報処理システム1を組み込んだサーバなどの情報処理装置である。本実施形態の冗長化方法は、本実施形態の情報処理システム1の動作を行う冗長化方法である。本実施形態の冗長化プログラムは、本実施形態の情報処理システム1の動作を実行させる冗長化プログラムである。
本実施形態によれば、冗長化されたI/Oカードにより、情報処理装置の可用性を高めたフェールオーバが実現する。
本発明は上記実施形態に限定されることなく、特許請求の範囲に記載した発明の範囲内で種々の変形が可能であり、それらも本発明の範囲内に含まれるものである。
また、上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
付記
(付記1)
第1のI/Oカードと、第2のI/Oカードと、
前記第1のI/Oカードの訂正可能障害を検出するBIOSと、
前記訂正可能障害の検出結果に基づいて前記第1のI/Oカードのハードウエア障害を予兆検知する予兆監視手段と、
前記予兆検知に基づいて前記第1のI/Oカードを切り離し前記第2のI/Oカードに切り替えるOSと、を有する、情報処理システム。
(付記2)
前記予兆監視手段は、前記BIOSから前記訂正可能障害の発生通知を受ける予兆監視BIOS部と、前記OSに前記予兆検知を通知する予兆監視OS部とを有する、付記1記載の情報処理システム。
(付記3)
前記予兆監視BIOS部と前記予兆監視OS部とが共有する共有メモリを有し、前記共有メモリは前記訂正可能障害の検出結果を記録する、付記2記載の情報処理システム。
(付記4)
前記予兆監視BIOS部は、前記訂正可能障害の検出結果に基づいて前記ハードウエア障害を予兆検知し、前記予兆検知の結果を前記共有メモリに記録する、付記3記載の情報処理システム。
(付記5)
前記予兆監視OS部は、前記予兆検知の結果を前記共有メモリから得る、付記4記載の情報処理システム。
(付記6)
前記予兆監視手段は、前記訂正可能障害の発生履歴から前記ハードウエア障害を予兆検知する、付記1から5の内の1項記載の情報処理システム。
(付記7)
前記第1のI/Oカードは現用系であり、前記第2のI/Oカードは冗長系である、付記1から6の内の1項記載の情報処理システム。
(付記8)
第1のI/Oカードと、第2のI/Oカードと、
前記第1のI/Oカードの訂正可能障害を検出するBIOSと、
前記訂正可能障害の検出結果に基づいて前記第1のI/Oカードのハードウエア障害を予兆検知する予兆監視手段と、
前記予兆検知に基づいて前記第1のI/Oカードを切り離し前記第2のI/Oカードに切り替えるOSと、を有する、情報処理装置。
(付記9)
前記予兆監視手段は、前記BIOSから前記訂正可能障害の発生通知を受ける予兆監視BIOS部と、前記OSに前記予兆検知を通知する予兆監視OS部とを有する、付記8記載の情報処理装置。
(付記10)
前記予兆監視BIOS部と前記予兆監視OS部とが共有する共有メモリを有し、前記共有メモリは前記訂正可能障害の検出結果を記録する、付記9記載の情報処理装置。
(付記11)
前記予兆監視BIOS部は、前記訂正可能障害の検出結果に基づいて前記ハードウエア障害を予兆検知し、前記予兆検知の結果を前記共有メモリに記録する、付記10記載の情報処理装置。
(付記12)
前記予兆監視OS部は、前記予兆検知の結果を前記共有メモリから得る、付記11記載の情報処理装置。
(付記13)
前記予兆監視手段は、前記訂正可能障害の発生履歴から前記ハードウエア障害を予兆検知する、付記8から12の内の1項記載の情報処理装置。
(付記14)
前記第1のI/Oカードは現用系であり、前記第2のI/Oカードは冗長系である、付記8から13の内の1項記載の情報処理装置。
(付記15)
第1のI/Oカードの訂正可能障害を検出し、
前記訂正可能障害の検出結果に基づいて前記第1のI/Oカードのハードウエア障害を予兆検知し、
前記予兆検知に基づいて前記第1のI/Oカードを切り離し第2のI/Oカードに切り替える、冗長化方法。
(付記16)
前記第1のI/Oカードの前記訂正可能障害をBIOSで検出する、付記15記載の冗長化方法。
(付記17)
前記予兆検知に基づいて前記第1のI/Oカードを切り離し前記第2のI/Oカードに切り替える動作をOSで行う、付記15または16記載の冗長化方法。
(付記18)
前記訂正可能障害の検出結果をメモリに記録する、付記15から17の内の1項記載の冗長化方法。
(付記19)
前記予兆検知の結果を前記メモリに記録する、付記18記載の冗長化方法。
(付記20)
前記予兆検知の結果を前記メモリから得て、前記予兆検知に基づいて前記第1のI/Oカードを切り離し前記第2のI/Oカードに切り替える、付記19記載の冗長化方法。
(付記21)
前記訂正可能障害の発生履歴から前記ハードウエア障害を予兆検知する、付記15から20の内の1項記載の冗長化方法。
(付記22)
第1のI/Oカードの訂正可能障害を検出する処理と、
前記訂正可能障害の検出結果に基づいて前記第1のI/Oカードのハードウエア障害を予兆検知する処理と、
前記予兆検知に基づいて前記第1のI/Oカードを切り離し第2のI/Oカードに切り替える処理と、を実行させる冗長化プログラム。
(付記23)
前記第1のI/Oカードの前記訂正可能障害をBIOSで検出する処理を実行させる、付記22記載の冗長化プログラム。
(付記24)
前記予兆検知に基づいて前記第1のI/Oカードを切り離し前記第2のI/Oカードに切り替える動作をOSで行う処理を実行させる、付記22または23記載の冗長化プログラム。
(付記25)
前記訂正可能障害の検出結果をメモリに記録する処理を実行させる、付記22から24の内の1項記載の冗長化プログラム。
(付記26)
前記予兆検知の結果を前記メモリに記録する処理を実行させる、付記25記載の冗長化プログラム。
(付記27)
前記予兆検知の結果を前記メモリから得て、前記予兆検知に基づいて前記第1のI/Oカードを切り離し前記第2のI/Oカードに切り替える処理を実行させる、付記26記載の冗長化プログラム。
(付記28)
前記訂正可能障害の発生履歴から前記ハードウエア障害を予兆検知する、付記22から27の内の1項記載の冗長化プログラム。
1 情報処理システム
2 第1のI/Oカード
3 第2のI/Oカード
4 CPU
5 メモリ
6 バス
7 外部機器
10 BIOS
11 障害処理手段
20 OS
21 I/O冗長化手段
22 I/Oカード切り離し手段
30 予兆監視手段
31 予兆監視BIOS部
32 予兆監視OS部
40 共有メモリ

Claims (10)

  1. 第1のI/Oカードと、第2のI/Oカードと、
    前記第1のI/Oカードの訂正可能障害を検出するBIOSと、
    前記訂正可能障害の検出結果に基づいて前記第1のI/Oカードのハードウエア障害を予兆検知する予兆監視手段と、
    前記予兆検知に基づいて前記第1のI/Oカードを切り離し前記第2のI/Oカードに切り替えるOSと、を有する、情報処理システム。
  2. 前記予兆監視手段は、前記BIOSから前記訂正可能障害の発生通知を受ける予兆監視BIOS部と、前記OSに前記予兆検知を通知する予兆監視OS部とを有する、請求項1記載の情報処理システム。
  3. 前記予兆監視BIOS部と前記予兆監視OS部とが共有する共有メモリを有し、前記共有メモリは前記訂正可能障害の検出結果を記録する、請求項2記載の情報処理システム。
  4. 前記予兆監視BIOS部は、前記訂正可能障害の検出結果に基づいて前記ハードウエア障害を予兆検知し、前記予兆検知の結果を前記共有メモリに記録する、請求項3記載の情報処理システム。
  5. 前記予兆監視OS部は、前記予兆検知の結果を前記共有メモリから得る、請求項4記載の情報処理システム。
  6. 前記予兆監視手段は、前記訂正可能障害の発生履歴から前記ハードウエア障害を予兆検知する、請求項1から5の内の1項記載の情報処理システム。
  7. 前記第1のI/Oカードは現用系であり、前記第2のI/Oカードは冗長系である、請求項1から6の内の1項記載の情報処理システム。
  8. 第1のI/Oカードと、第2のI/Oカードと、
    前記第1のI/Oカードの訂正可能障害を検出するBIOSと、
    前記訂正可能障害の検出結果に基づいて前記第1のI/Oカードのハードウエア障害を予兆検知する予兆監視手段と、
    前記予兆検知に基づいて前記第1のI/Oカードを切り離し前記第2のI/Oカードに切り替えるOSと、を有する、情報処理装置。
  9. 第1のI/Oカードの訂正可能障害を検出し、
    前記訂正可能障害の検出結果に基づいて前記第1のI/Oカードのハードウエア障害を予兆検知し、
    前記予兆検知に基づいて前記第1のI/Oカードを切り離し第2のI/Oカードに切り替える、冗長化方法。
  10. 第1のI/Oカードの訂正可能障害を検出する処理と、
    前記訂正可能障害の検出結果に基づいて前記第1のI/Oカードのハードウエア障害を予兆検知する処理と、
    前記予兆検知に基づいて前記第1のI/Oカードを切り離し第2のI/Oカードに切り替える処理と、を実行させる冗長化プログラム。
JP2014157267A 2014-08-01 2014-08-01 情報処理システム、情報処理装置、冗長化方法およびプログラム Pending JP2016035610A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014157267A JP2016035610A (ja) 2014-08-01 2014-08-01 情報処理システム、情報処理装置、冗長化方法およびプログラム
US14/794,840 US20160034365A1 (en) 2014-08-01 2015-07-09 Information processing system, information processing apparatus, redundancy providing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014157267A JP2016035610A (ja) 2014-08-01 2014-08-01 情報処理システム、情報処理装置、冗長化方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2016035610A true JP2016035610A (ja) 2016-03-17

Family

ID=55180156

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014157267A Pending JP2016035610A (ja) 2014-08-01 2014-08-01 情報処理システム、情報処理装置、冗長化方法およびプログラム

Country Status (2)

Country Link
US (1) US20160034365A1 (ja)
JP (1) JP2016035610A (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006302287A (ja) * 2005-04-19 2006-11-02 Hewlett-Packard Development Co Lp 冗長i/oインターフェース管理
JP2010244396A (ja) * 2009-04-08 2010-10-28 Nec Corp 情報処理装置、及び入出力処理モジュールの切替方法
JP2013205857A (ja) * 2012-03-27 2013-10-07 Nec Corp 障害処理方法、情報処理装置および障害処理プログラム
JP2014021577A (ja) * 2012-07-13 2014-02-03 Nec Computertechno Ltd 故障予測装置、故障予測システム、故障予測方法、及び、故障予測プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4304001A (en) * 1980-01-24 1981-12-01 Forney Engineering Company Industrial control system with interconnected remotely located computer control units
US4596012A (en) * 1983-05-25 1986-06-17 Reed Lockwood W Master controller succession system for bus control access for data-communications local area networks
US4847837A (en) * 1986-11-07 1989-07-11 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Local area network with fault-checking, priorities and redundant backup
JPS6460026A (en) * 1987-08-31 1989-03-07 Fujitsu Ltd Transmission line switching device for communication equipment
US5016244A (en) * 1989-09-08 1991-05-14 Honeywell Inc. Method for controlling failover between redundant network interface modules
US20110161538A1 (en) * 2009-12-31 2011-06-30 Schneider Electric USA, Inc. Method and System for Implementing Redundant Network Interface Modules in a Distributed I/O System

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006302287A (ja) * 2005-04-19 2006-11-02 Hewlett-Packard Development Co Lp 冗長i/oインターフェース管理
JP2010244396A (ja) * 2009-04-08 2010-10-28 Nec Corp 情報処理装置、及び入出力処理モジュールの切替方法
JP2013205857A (ja) * 2012-03-27 2013-10-07 Nec Corp 障害処理方法、情報処理装置および障害処理プログラム
JP2014021577A (ja) * 2012-07-13 2014-02-03 Nec Computertechno Ltd 故障予測装置、故障予測システム、故障予測方法、及び、故障予測プログラム

Also Published As

Publication number Publication date
US20160034365A1 (en) 2016-02-04

Similar Documents

Publication Publication Date Title
EP3893114B1 (en) Fault processing method, related device, and computer storage medium
US9582373B2 (en) Methods and systems to hot-swap a virtual machine
US7865782B2 (en) I/O device fault processing method for use in virtual computer system
US11144416B2 (en) Device fault processing method, apparatus, and system
JP2007109238A (ja) 回復可能なエラーのロギングのためのシステム及び方法
JP2017517060A (ja) 障害処理方法、関連装置、およびコンピュータ
US8677177B2 (en) Apparatus, a recovery method and a program thereof
CN107943603B (zh) 一种运行状态检测方法、检测电路及电子设备
EP2637102B1 (en) Cluster system with network node failover
US20130227333A1 (en) Fault monitoring device, fault monitoring method, and non-transitory computer-readable recording medium
JP4655718B2 (ja) コンピュータシステム及びその制御方法
WO2015135100A1 (zh) 一种实现处理器切换的方法、计算机和切换装置
JP2014191401A (ja) 処理装置、制御プログラム、及び制御法
WO2017041671A1 (zh) 故障恢复的方法和装置
JP6828558B2 (ja) 管理装置、管理方法及び管理プログラム
JP2016035610A (ja) 情報処理システム、情報処理装置、冗長化方法およびプログラム
CN111767242B (zh) Pcie设备控制方法、装置、计算机设备和存储介质
US11954509B2 (en) Service continuation system and service continuation method between active and standby virtual servers
JP4495248B2 (ja) 情報処理装置、障害処理方法
JP6256087B2 (ja) ダンプシステムおよびダンプ処理方法
JP2018147510A (ja) サーバ装置およびサーバシステム
KR101883251B1 (ko) 가상 시스템에서 장애 조치를 판단하는 장치 및 그 방법
JPWO2015004785A1 (ja) 管理装置、管理方法及びプログラム
CN117112317A (zh) 故障处理***、方法、电子设备及存储介质
JP2001175545A (ja) サーバシステムおよび障害診断方法ならびに記録媒体

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160315