JP6449671B2 - Core I / O failover control system and core I / O failover control method - Google Patents
Core I / O failover control system and core I / O failover control method Download PDFInfo
- Publication number
- JP6449671B2 JP6449671B2 JP2015029226A JP2015029226A JP6449671B2 JP 6449671 B2 JP6449671 B2 JP 6449671B2 JP 2015029226 A JP2015029226 A JP 2015029226A JP 2015029226 A JP2015029226 A JP 2015029226A JP 6449671 B2 JP6449671 B2 JP 6449671B2
- Authority
- JP
- Japan
- Prior art keywords
- core
- unit
- driver
- bmc
- control unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Hardware Redundancy (AREA)
Description
本発明は、コアI/O(Input/Output)フェールオーバー制御システムおよびコアI/Oフェールオーバー制御方法に関し、特にコアI/Oの信頼性向上のためにコアI/Oを二重化しているコンピュータサーバにおけるコアI/Oフェールオーバー制御システムおよびコアI/Oフェールオーバー制御方法に関する。 The present invention relates to a core I / O (Input / Output) failover control system and a core I / O failover control method, and more particularly to a computer in which core I / O is duplicated in order to improve the reliability of the core I / O. The present invention relates to a core I / O failover control system and a core I / O failover control method in a server.
コアI/Oを2つ搭載することで、コアI/Oの信頼性を向上させているコンピュータサーバ(以降、コアI/O二重化サーバと称す)がある。このうち、運用系コアI/Oにて軽障害が起きた際は、コンピュータサーバの運用を継続したまま、待機系コアI/Oを運用系に切り替える制御方法を採用している。現在のほとんどのコンピュータサーバは、コアI/Oを1つだけ具備しており(以降、コアI/O単一サーバと称す)、コアI/O二重化サーバは数少ない。そのため、ほとんどのOS(Operating System)は、コアI/O二重化サーバを想定していない。このようなOS対応状況下において、コアI/O二重化サーバでのコアI/Oフェールオーバーを実現するためには、サーバに非常に複雑かつ大規模なハードウェアを具備する必要があった。或いはアプリケーション性能を犠牲にしてシステムファームウェア層で実現しなければならない場合があった。なお、本明細書内で言う“フェールオーバー”とは、稼働中のシステムに障害が発生した場合、障害発生した箇所の機能を代替機能に引き継がせて処理を続行させることである。 There is a computer server (hereinafter referred to as a core I / O duplex server) that improves the reliability of the core I / O by mounting two core I / Os. Among these, when a light failure occurs in the active core I / O, a control method is adopted that switches the standby core I / O to the active system while continuing the operation of the computer server. Most current computer servers have only one core I / O (hereinafter referred to as a core I / O single server), and there are few core I / O duplex servers. For this reason, most OSs (Operating Systems) do not assume a core I / O duplex server. In order to realize core I / O failover in a core I / O duplex server under such an OS compatible situation, it is necessary to provide the server with very complicated and large-scale hardware. Or there was a case where it had to be realized in the system firmware layer at the expense of application performance. Note that “failover” in the present specification means that when a failure occurs in an operating system, the function at the location where the failure has occurred is taken over by an alternative function and processing is continued.
コアI/O二重化サーバの関連技術として、例えば、特許文献1には、パーティションを再起動することなく使用するコアI/Oデバイスを切り替えるため、各プロセッサノードにおけるメモリ空間に、使用中コアI/O用空間と、予備コアI/O用空間とをマップするマップ部を備えているものがある。また、それは、使用コアI/Oデバイス変更指示に応じて、複数のプロセッサノードによる新規トランザクションの発行を抑止する抑止部と、抑止された後に、使用中コアI/Oデバイスに含まれるコピー元レジスタに格納されたデータを、予備コアI/Oデバイスに含まれるコピー先レジスタにコピーするコピー部とを備えている。そして、コピー完了後に、使用中コアI/Oデバイスに対するトランザクションが予備コアI/Oデバイスに転送されるようにルーティング設定を変更するルーティング設定変更部と、変更後に新規トランザクションの発行の抑止を解除する、解除部とを備える技術が開示されている。 As a related technology of the core I / O duplex server, for example, in Patent Document 1, in order to switch the core I / O device to be used without restarting the partition, the in-use core I / O is included in the memory space in each processor node. Some include a map unit that maps the O space and the spare core I / O space. It also includes a deterrence unit that deters issuance of a new transaction by a plurality of processor nodes in response to a use core I / O device change instruction, and a copy source register included in the in-use core I / O device after the deterrence And a copy unit that copies the data stored in the copy destination register included in the spare core I / O device. Then, after the copying is completed, the routing setting changing unit that changes the routing setting so that the transaction for the in-use core I / O device is transferred to the standby core I / O device, and the suppression of the issuance of a new transaction after the change are released. A technique including a release unit is disclosed.
また、特許文献2には、ハードウェア・レベルでI/Oデバイスの二重化を実現すると共に、マスターデバイスの動的縮退を可能とするため、トランザクションルーティングコントローラが、トランザクションを受信し、ルーティングし、送出する。そして、ルーティングテーブルは、I/Oデバイスの二重化が有効であることを示す有効情報とマスターデバイス識別情報とスレーブデバイス識別情報とを有し、サービスプロセッサは、トランザクションルーティングコントローラとルーティングテーブルとを制御する技術が開示されている。 In Patent Document 2, a transaction routing controller receives, routes, and sends out a transaction in order to realize duplication of I / O devices at the hardware level and to enable dynamic degeneration of the master device. . The routing table has valid information indicating that duplication of the I / O device is valid, master device identification information, and slave device identification information, and the service processor controls the transaction routing controller and the routing table. Is disclosed.
特許文献1に記載の技術では、システムファームウェアがコアI/Oデバイス切り替えの制御を司るので、コンピュータサーバ内の全てのプロセッサを一時停止させなければならないという課題があった。また、コアI/Oデバイス切り替え期間中、コンピュータサーバ上の全てのアプリケーションが一時停止してしまうという課題があった。また、使用コアI/Oデバイス内情報を予備コアI/Oデバイス内にコピーするために、予備コアI/Oアクセス制御回路というハードウェアが必要であるという課題があった。 The technique described in Patent Document 1 has a problem that all the processors in the computer server must be temporarily stopped because the system firmware controls core I / O device switching. Further, there is a problem that all applications on the computer server are temporarily stopped during the core I / O device switching period. In addition, in order to copy the information in the used core I / O device into the spare core I / O device, there is a problem that hardware called a spare core I / O access control circuit is necessary.
特許文献2に記載の技術では、二重化されているI/Oデバイス内情報を常に同一にしておくために、メモリコントローラ内のトランザクションルーティングコントローラ及びルーティングテーブルが非常に複雑かつ大規模になってしまうという課題があった。 According to the technique described in Patent Document 2, in order to always keep duplicated I / O device information the same, the transaction routing controller and routing table in the memory controller become very complicated and large-scale. There was a problem.
本発明の目的は、上述した課題を解決し、コンピュータサーバ内に複雑かつ大規模なハードウェアを具備することなく、コアI/O機能を利用していないアプリケーションを一時停止させることなくコアI/O機能のフェールオーバーを実現することである。 The object of the present invention is to solve the above-described problems, without providing complicated and large-scale hardware in a computer server, and without temporarily stopping an application that does not use the core I / O function. This is to realize failover of the O function.
本発明は、上記課題を解決するために、複数のコアI/O部を有するシステム制御部とBMC(Base Management Controller)とを有するコンピュータのコアI/Oフェールオーバー制御システムにおいて、前記システム制御部は、前記コアI/O部を切り替えるコアI/O切替回路と、前記コアI/O部の内容を一時的に記憶するメモリとを有し、前記BMCは、前記コアI/O部が障害を検出した場合に障害情報を収集する障害検知部と、前記障害情報を基に前記コアI/O切替回路を制御するコアI/O制御部と、を有し、前記システム制御部は、前記コアI/O部を切り替える際に前記コアI/O部の内容を一時的に前記メモリに退避させるコアI/O切替ドライバを有する。 In order to solve the above problems, the present invention provides a system I / O failover control system for a computer having a system control unit having a plurality of core I / O units and a BMC (Base Management Controller). Has a core I / O switching circuit for switching the core I / O unit and a memory for temporarily storing the contents of the core I / O unit, and the BMC has a fault in the core I / O unit. A fault detection unit that collects fault information when the fault is detected, and a core I / O control unit that controls the core I / O switching circuit based on the fault information, and the system control unit includes: A core I / O switching driver that temporarily saves the contents of the core I / O unit in the memory when the core I / O unit is switched ;
本発明は、上記課題を解決するために、複数のコアI/O部を有するシステム制御部とBMC(Base Management Controller)とを有するコンピュータのコアI/Oフェールオーバー制御方法において、前記BMCは、前記コアI/O部が検出した障害を検知するステップと、前記システム制御部は、障害が発生したコアI/O部の内容を一時的にメモリへ待避させるステップと、前記BMCは、前記障害が発生したコアI/O部から正常なコアI/O部に切り替えるステップと、前記システム制御部は、前記メモリへ一時的に待避したコアI/O部の内容を切り替えた前記正常なコアI/O部に復元させるステップと、を有する。
In order to solve the above problems, the present invention provides a core I / O failover control method for a computer having a system control unit having a plurality of core I / O units and a BMC ( Base Management Controller ). a step of detecting a failure in which the core I / O unit detects, wherein the system controller comprises the steps of temporarily retracted to the memory contents of the core I / O unit failure, the BMC, the fault a step but switching to normal core I / O unit from the core I / O unit that occurred, the system control unit, the normal core of switching the contents of the core I / O unit which is temporarily retracted to the memory I Restoring to the / O section.
本発明によれば、コンピュータサーバ内に複雑かつ大規模なハードウェアを具備することなく、また、コアI/O機能を利用していないアプリケーションを一時停止させることなくコアI/O機能のフェールオーバーを実現することができる。 According to the present invention, the failover of the core I / O function can be performed without temporarily suspending an application that does not use the core I / O function without providing complicated and large-scale hardware in the computer server. Can be realized.
以下、本発明の実施形態について図面を参照して詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
(実施形態)
図1は、本発明の実施形態におけるコアI/Oフェールオーバー制御システムの構成を示すブロック図である。図1を用いて、本実施形態におけるコアI/Oフェールオーバー制御システムの構成について説明する。
(Embodiment)
FIG. 1 is a block diagram showing a configuration of a core I / O failover control system according to an embodiment of the present invention. The configuration of the core I / O failover control system in this embodiment will be described with reference to FIG.
図1において、コンピュータサーバ100は、システム制御部101とBMC102を有している。
In FIG. 1, the
システム制御部101は、コンピュータサーバとして動作するために必要なハードウェア部品群であり、CPU、メモリ、I/Oデバイス等を含んでいる。
The
BMC(Base Management Controller)102は、システム制御部101を管理・制御するコントローラであり、システム制御部101と3つのインターフェースBMI150、BCI151及びBHI152を介して接続されている。
A BMC (Base Management Controller) 102 is a controller that manages and controls the
OS103は、システム制御部101上で動作するオペレーティングシステムであり、各種ドライバを起動或いは停止させる機能を有する。コアI/O切替ドライバ104とコアI/Oドライバ105は、OS103上で動作する。
The OS 103 is an operating system that operates on the
コアI/O切替ドライバ104は、システム制御部101からの割り込みを契機にシステム制御部101上で動きだし、OS103を介してコアI/Oドライバ105を停止または起動させる。また、システム制御部101内の運用系コアI/Oの情報を待機系コアI/O内にコピーする。
The core I /
図2は、本発明の実施形態におけるシステム制御部101の構成を示すブロック図である。図2を用いて、システム制御部101の構成について説明する。
FIG. 2 is a block diagram showing a configuration of the
ホストブリッジ206は、CPU200〜202、メモリ205、I/Oデバイスを接続するI/Oブリッジ210及びコアI/O切替回路209とインターフェース250〜252、255、260、259を持ち、これら部品間のデータ転送を司るものである。また、BMC102とのインターフェースであるBHI152を有する。このBHI152は、例えば、『PCI Express Base Specification Revision 3.0』にて規定されているPCI Expressインターフェースである。
The
コアI/O部A207及びコアI/O部B208は、コンピュータサーバのコアI/O機能を有する部品であり、双方とも全く同じ機能を提供する。コアI/O機能とは、コンピュータサーバとして稼働するために必須なI/O機能を有するものであり、コアI/O機能に含まれる機能の一例としては、CMOS/NvRAM(Non volatile
Random Access Memory)等のメモリ、シリアルコントローラ、タイマ、USB(Universal Serial Bus)コントローラ、割り込みコントローラ等がある。
The core I / O unit A207 and the core I / O unit B208 are components having the core I / O function of the computer server, and both provide the same function. The core I / O function has an I / O function essential for operating as a computer server. As an example of a function included in the core I / O function, a CMOS / NvRAM (Non volatile
There are memories such as Random Access Memory, serial controllers, timers, USB (Universal Serial Bus) controllers, interrupt controllers and the like.
また、コアI/O部A207及びコアI/O部B208は、BMC102とのインターフェースであるBMI150を有する。BMC102は、当該BMI150を介して、コアI/O部A207及びコアI/O部B208の障害を監視する。
The core I /
コアI/O切替回路209は、BMC102とのインターフェースであるBCI151を有し、BCI151によりコアI/O部A207とコアI/O部B208を切り替える部品である。コアI/O切替回路209は、インターフェース257、258を経由してコアI/O部A207とコアI/O部B208に接続されている。コアI/O切替回路209にて選択された一方のコアI/O部A207或いはB208が運用系となり、他方のコアI/O部B208或いはA207が待機系となる。
The core I /
図3は、本実施形態に係るBMC102の構成を示すブロック図であり、図4は、本実施形態に係るコアI/O制御部300の構成を示すブロック図である。図3、図4を用いて、BMC102の詳細な構成について説明する。
FIG. 3 is a block diagram illustrating a configuration of the BMC 102 according to the present embodiment, and FIG. 4 is a block diagram illustrating a configuration of the core I /
図3において、BMC102は、コアI/O制御部300を有し、障害予兆検知部301を有している。コアI/O制御部300は、コアI/O切り替えに伴う各種割り込みを挙げる機能を有する。また、BHI152とホストブリッジ206を通して、BMC102とコアI/O切替ドライバ104とが通信できる機能を有している。当該コアI/O制御部300の例としては、『PCI Express Base Specification Revision 3.0』にて規定されているPCI Express Endpointに準拠した構成が考えられる。
In FIG. 3, the
障害予兆検知部301は、コアI/O部A207及びコアI/O部B208の障害を監視・検知する機構である。ここで、コアI/O部A207或いはコアI/O部B208は、自身の障害を検知すると、BMI150を介してBMC102の障害予兆検知部301に障害検知を通知する。また、コアI/O部A207或いはコアI/O部B208は、自身の障害を検知すると、自身が持つステータスフラグをセットする。そのためBMC102の障害予兆検知部301は、BMI150を介して定期的にそのセットされたステータスフラグを読みこめば、障害有無を検知することができる。
The failure sign detection unit 301 is a mechanism for monitoring and detecting failures in the core I / O unit A207 and the core I / O unit B208. Here, when the core I /
コアI/O制御部300と障害予兆検知部301は、共にBMC102内のコントローラ(図示せず)で制御されるため、BMC102の内部に設置されているが、制御が可能であれば、他の場所にあってもよい。
Since the core I /
図4は、本実施形態のコアI/O制御部300の構成である。ドライバ停止指示フラグレジスタ401、ドライバ起動指示フラグレジスタ402、ドライバ停止完了フラグレジスタ403及びドライバ起動完了フラグレジスタ404は、BMC102及びBHI152の両方からアクセス可能である。
FIG. 4 shows the configuration of the core I /
割り込み制御部400は、ドライバ停止指示フラグレジスタ401のフラグがセットされると、ドライバ停止割り込みをBHI152に送信する。また、ドライバ起動指示フラグレジスタ402のフラグがセットされると、ドライバ起動割り込みをBHI152に送信する。当該割り込み制御部400の例としては、『PCI Express Base
Specification Revision 3.0』にて規定されているMSI
and MSI−X Capability Structuresに準拠した構成が考えられる。
When the flag of the driver stop
MSI defined in Specification Revision 3.0
and a configuration conforming to MSI-X Capability Structures is conceivable.
図1、図2、図3、図4及び図5を用いて、本実施形態におけるコアI/Oフェールオーバー制御システムの動作について説明する。 The operation of the core I / O failover control system according to this embodiment will be described with reference to FIGS. 1, 2, 3, 4 and 5.
図5は、本実施形態におけるコアI/Oフェールオーバー制御システムの動作を説明するためのフローチャートである。 FIG. 5 is a flowchart for explaining the operation of the core I / O failover control system in this embodiment.
図5において、まず、BMC102が、運用系コアI/O機能の軽障害を検知する(S101)。すなわち、コアI/O部A207を運用系として稼働しているコンピュータサーバ100において、BMC102内の障害予兆検知部301は、BMI150を介して運用系コアI/O部A207の軽障害を検知する。本実施形態では、システム運用の継続が可能でかつ復旧が可能な障害を軽障害としている。軽障害の例としては、訂正可能障害の頻発がある。
In FIG. 5, first, the
次に、BMC102は、コアI/Oドライバ停止指示を行う(S102)。BMC102は、障害予兆検知部301を介して運用系コアI/O部A207の軽障害を認知すると、コアI/O制御部300内のドライバ停止指示フラグレジスタ401のフラグをセットする。コアI/O制御部300では、ドライバ停止指示フラグレジスタ401のフラグがセットされると、割り込み制御部400に伝えられ、割り込み制御部400からドライバ停止割り込みがBHI152に送信される。BHI152に送信されたドライバ停止割り込みは、システム制御部101内のホストブリッジ206を介して、CPUx200、CPUy201或いはCPUz202に送られる。ここでは、CPUx200にドライバ停止割り込みが送られたとする。ドライバ停止割り込みを受信したCPUx200上では、OS103がドライバ停止割り込みを認知し、当該割り込みに対応付けされているコアI/O切替ドライバ104を起動する。
Next, the
次に、コアI/O切替ドライバ104が、コアI/Oドライバ105を停止させる(S103)。OS103により起動されたコアI/O切替ドライバ104は、割り込み要因を認知するために、システム制御部101内のホストブリッジ206を介して、BMC102内に在るコアI/O制御部300内のドライバ停止指示フラグレジスタ401及びドライバ起動指示フラグレジスタ402を読む。このタイミングでは、ドライバ停止指示フラグレジスタ401のフラグがセットされているので、コアI/O切替ドライバ104は、まず、ドライバ停止指示フラグレジスタ401のフラグをクリアする。そして、OS103を介してコアI/Oドライバ105を停止させる。これにより、運用系コアI/O部A207へのアクセスが停止する。
Next, the core I /
そして、コアI/O切替ドライバ104は、コアI/O機能内情報を退避させる(S104)。すなわち、コアI/O切替ドライバ104は、システム制御部101内のホストブリッジ206を介して、運用系コアI/O部A207内の情報をメモリ205に一時退避させる。その後、コアI/O切替ドライバ104は、ドライバ停止完了フラグレジスタ403のフラグをセットする。
Then, the core I /
次に、BMCが、運用系コアI/O機能を切り替える(S105)。BMC102は、コアI/O制御部300内のドライバ停止完了フラグレジスタ403のフラグがセットされたことを検知すると、まず、ドライバ停止完了フラグレジスタ403のフラグをクリアする。そして、BCI151を介してコアI/O切替回路209に対し、コアI/O部B208を選択するように指示する。これにより、コアI/O部B208が運用系に切り替わる。
Next, the BMC switches the active core I / O function (S105). When the
そして、BMC102は、コアI/Oドライバ105に対して再起動の指示を行う(S106)。すなわち、BMC102は、コアI/O部B208を運用系に切り替えた後、コアI/O制御部300内のドライバ起動指示フラグレジスタ402のフラグをセットする。コアI/O制御部300では、ドライバ起動指示フラグレジスタ402のフラグがセットされると、割り込み制御部400に伝えられ、割り込み制御部400からドライバ起動割り込みがBHI152に送信される。BHI152に送信されたドライバ起動割り込みは、システム制御部101内のホストブリッジ206を介して、CPUx200、CPUy201或いはCPUz202に送られる。ここでは、CPUx200にドライバ起動割り込みが送られたとする。ドライバ起動割り込みを受信したCPUx200上では、OS103がドライバ起動割り込みを認知し、当該割り込みに対応付けされているコアI/O切替ドライバ104を起動する。
Then, the
コアI/O切替ドライバ104は、コアI/O機能内情報を復元する(S107)。OS103により起動されたコアI/O切替ドライバ104は、割り込み要因を認知するために、システム制御部101内のホストブリッジ206を介して、BMC102内に在るコアI/O制御部300内のドライバ停止指示フラグレジスタ401及びドライバ起動指示フラグレジスタ402のフラグを読む。このタイミングでは、ドライバ起動指示フラグレジスタ402のフラグがセットされているので、コアI/O切替ドライバ104は、まず、ドライバ起動指示フラグレジスタ402のフラグをクリアする。そして、システム制御部101内のホストブリッジ206を介して、上記(S104)にて、メモリ205に一時退避しておいたコアI/O機能内情報を新たな運用系コアI/O部B208に書き込む。これにより、I/O機能フェールオーバー前後のI/O機能内情報は同一になる。
The core I /
そして、コアI/O切替ドライバ104が、コアI/Oドライバ105を再起動させる(S108)。コアI/O切替ドライバ104は、OS103を介してコアI/Oドライバ105を再起動させる。これにより、新たな運用系コアI/O部B208へのアクセスが開始される。その後、コアI/O切替ドライバ104は、ドライバ起動完了フラグレジスタ404のフラグをセットする。
Then, the core I /
最後に、BMC102は、コアI/Oドライバ105の再起動を確認する(S109)。BMC102は、コアI/O制御部300内のドライバ起動完了フラグレジスタ404のフラグがセットされたことを検知すると、ドライバ起動完了フラグレジスタ404のフラグをクリアし、一連のコアI/O機能フェールオーバー処理を終了する。
Finally, the
本発明の実施形態によれば、BMC102が中心となって、予兆障害発生を契機に、コアI/O切替ドライバ104がコアI/Oドライバ105の停止・再起動を制御する。コアI/Oドライバ105が停止すれば、コアI/O機能へのアクセスは無くなるので、コアI/O機能を利用していないアプリケーションは、フェールオーバーの影響を受けることはない。また、CPU等のハードウェアが、コアI/O機能へのアクセスを一時停止させてコアI/O機能のフェールオーバーを行おうとすると、CPUを使用している他のソフトウェアも停止してしまう。しかし本実施形態によれば、CPUを使用している他のソフトウェアへの影響はなくなる。
According to the embodiment of the present invention, the core I /
以上、述べてきたように、本実施形態によれば、コンピュータサーバ内に複雑かつ大規模なハードウェアを具備することなく、システム制御部内にコアI/O切替回路とBMC内にコアI/O制御部を追加すればいいだけで、これらは簡単な回路で規模も小さいので、コアI/O機能を利用していないアプリケーションを一時停止させることなくコアI/O機能のフェールオーバーを実現することが可能である。 As described above, according to the present embodiment, the core I / O switching circuit in the system control unit and the core I / O in the BMC can be provided without providing complicated and large-scale hardware in the computer server. Simply add a control unit, and these are simple circuits and small in scale, so that failover of the core I / O function can be realized without temporarily stopping an application that does not use the core I / O function. Is possible.
尚、本願発明は、上述の実施形態に限定されるものではなく、本願発明の要旨を逸脱しない範囲で種々変更、変形して実施することが出来る。 In addition, this invention is not limited to the above-mentioned embodiment, It can implement in various changes and deformation | transformation in the range which does not deviate from the summary of this invention.
本発明は、コアI/Oの信頼性向上のためにコアI/Oを二重化している情報機器に利用可能である。 The present invention can be used for information equipment in which the core I / O is duplicated in order to improve the reliability of the core I / O.
100 コンピュータサーバ
101 システム制御部
102 BMC
103 OS
104 コアI/O切替ドライバ
105 コアI/Oドライバ
150 BMI
151 BCI
152 BHI
200 CPUx
201 CPUy
202 CPUz
205 メモリ
206 ホストブリッジ
207 コアI/O部A
208 コアI/O部B
209 コアI/O切替回路
210 I/Oブリッジ
250 インターフェース
251 インターフェース
252 インターフェース
255 インターフェース
257〜260 インターフェース
300 コアI/O制御部
301 障害予兆検知部
400 割り込み制御部
401 ドライバ停止指示フラグレジスタ
402 ドライバ起動指示フラグレジスタ
403 ドライバ停止完了フラグレジスタ
404 ドライバ起動完了フラグレジスタ
100
103 OS
104 Core I /
151 BCI
152 BHI
200 CPUx
201 CPUy
202 CPUz
205
208 Core I / O part B
209 Core I / O switching circuit 210 I /
Claims (2)
前記システム制御部は、前記コアI/O部を切り替えるコアI/O切替回路と、
前記コアI/O部の内容を一時的に記憶するメモリとを有し、
前記BMCは、前記コアI/O部が障害を検出した場合に障害情報を収集する障害検知部と、前記障害情報を基に前記コアI/O切替回路を制御するコアI/O制御部と、を有し、
前記システム制御部は、前記コアI/O部を切り替える際に前記コアI/O部の内容を一時的に前記メモリに退避させるコアI/O切替ドライバを有することを特徴とするコアI/Oフェールオーバー制御システム。 In a core I / O failover control system for a computer having a system control unit having a plurality of core I / O units and a BMC (Base Management Controller),
The system control unit includes a core I / O switching circuit that switches the core I / O unit;
A memory for temporarily storing the contents of the core I / O unit;
The BMC includes a failure detection unit that collects failure information when the core I / O unit detects a failure, and a core I / O control unit that controls the core I / O switching circuit based on the failure information. Have
The system control unit includes a core I / O switching driver that temporarily saves the contents of the core I / O unit in the memory when the core I / O unit is switched. Failover control system.
前記BMCは、前記コアI/O部が検出した障害を検知するステップと、
前記システム制御部は、障害が発生したコアI/O部の内容を一時的にメモリへ待避させるステップと、
前記BMCは、前記障害が発生したコアI/O部から正常なコアI/O部に切り替えるステップと、
前記システム制御部は、前記メモリへ一時的に待避したコアI/O部の内容を、切り替えた前記正常なコアI/O部に復元させるステップと、
を有することを特徴とするコアI/Oフェールオーバー制御方法。 In a core I / O failover control method for a computer having a system control unit having a plurality of core I / O units and a BMC (Base Management Controller) ,
The BMC comprising the steps of the core I / O unit detects the failure detected,
The system control unit temporarily saves the contents of the core I / O unit in which a failure has occurred in a memory ;
The BMC switches from the failed core I / O unit to a normal core I / O unit;
The system controller includes a step of restoring the contents of the core I / O unit which is temporarily retracted to the memory, the normal core I / O unit after switching,
A core I / O failover control method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015029226A JP6449671B2 (en) | 2015-02-18 | 2015-02-18 | Core I / O failover control system and core I / O failover control method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015029226A JP6449671B2 (en) | 2015-02-18 | 2015-02-18 | Core I / O failover control system and core I / O failover control method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016151907A JP2016151907A (en) | 2016-08-22 |
JP6449671B2 true JP6449671B2 (en) | 2019-01-09 |
Family
ID=56695360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015029226A Active JP6449671B2 (en) | 2015-02-18 | 2015-02-18 | Core I / O failover control system and core I / O failover control method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6449671B2 (en) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4165423B2 (en) * | 2004-03-16 | 2008-10-15 | 日本電気株式会社 | System board with core I / O card |
JP5931462B2 (en) * | 2012-01-20 | 2016-06-08 | 三菱電機株式会社 | I / O control system |
JP5970846B2 (en) * | 2012-02-16 | 2016-08-17 | 日本電気株式会社 | Computer system and computer system control method |
-
2015
- 2015-02-18 JP JP2015029226A patent/JP6449671B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016151907A (en) | 2016-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3173937B1 (en) | Pcie network system with fail-over capability and operation method thereof | |
JP5347414B2 (en) | Synchronization control device, information processing device, and synchronization management method | |
JP6098778B2 (en) | Redundant system, redundancy method, redundancy system availability improving method, and program | |
CN1300397A (en) | Multiconfiguration backplane | |
US10379931B2 (en) | Computer system | |
JP4182948B2 (en) | Fault tolerant computer system and interrupt control method therefor | |
US10360115B2 (en) | Monitoring device, fault-tolerant system, and control method | |
JP5287974B2 (en) | Arithmetic processing system, resynchronization method, and farm program | |
JP2006172243A (en) | Fault-tolerant computer device and synchronization method for the same | |
JP4218538B2 (en) | Computer system, bus controller, and bus fault processing method used therefor | |
JP2004046507A (en) | Information processor | |
JP6449671B2 (en) | Core I / O failover control system and core I / O failover control method | |
JP4630023B2 (en) | System control apparatus, system control method, and system control program | |
JP5733384B2 (en) | Information processing device | |
JP4165499B2 (en) | Computer system, fault tolerant system using the same, and operation control method thereof | |
JP2006172316A (en) | Context maintenance method, information processor and interruption generator | |
JP5970846B2 (en) | Computer system and computer system control method | |
JP4973755B2 (en) | Stall monitoring device, stall monitoring method and program | |
WO2014068774A1 (en) | Information processing device, arithmetic processing device, and counter synchronization method | |
JP2001175545A (en) | Server system, fault diagnosing method, and recording medium | |
JP2001147861A (en) | Information processor having memory copy function | |
JP2003330737A (en) | Computer system | |
JP2008033598A (en) | Dynamic substitution system, dynamic substitution method and program | |
JP2000194677A (en) | Information processor equipped with alternative processor | |
JP2006309362A (en) | Bus arbitration switching system, its method, processor device to be used for the same and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180925 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181206 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6449671 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |