JP6962243B2 - Computer system - Google Patents

Computer system Download PDF

Info

Publication number
JP6962243B2
JP6962243B2 JP2018041431A JP2018041431A JP6962243B2 JP 6962243 B2 JP6962243 B2 JP 6962243B2 JP 2018041431 A JP2018041431 A JP 2018041431A JP 2018041431 A JP2018041431 A JP 2018041431A JP 6962243 B2 JP6962243 B2 JP 6962243B2
Authority
JP
Japan
Prior art keywords
failure
main unit
management unit
interface
pcie
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018041431A
Other languages
Japanese (ja)
Other versions
JP2019159439A (en
Inventor
潤一 松下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2018041431A priority Critical patent/JP6962243B2/en
Publication of JP2019159439A publication Critical patent/JP2019159439A/en
Application granted granted Critical
Publication of JP6962243B2 publication Critical patent/JP6962243B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Bus Control (AREA)
  • Computer And Data Communications (AREA)

Description

本発明は、コンピュータシステム、デバイス、プログラム、および障害処理方法に関する。 The present invention relates to computer systems, devices, programs, and fault handling methods.

コンピュータの内部でCPU(Central Processing Unit)などのメインユニットとI/O(Input/Output)デバイスを接続するバス或いは内部インターフェースの規格として、PCIe(Peripheral Component Interconnect Express)(登録商標)が知られている。PCIeは、ルートコンプレックスを頂点とし、I/Oデバイスを終点とするツリー構造を有する。PCIeに準拠するI/Oデバイスは、PCIeデバイスあるいはPCIeアダプタと呼ばれる。PCIeデバイスの例として、NIC(Network Interface Card)やHBA(Host Bus Adapter)などが挙げられる。 PCIe (Peripheral Component Interconnect Express) (registered trademark) is known as a standard for a bus or internal interface that connects a main unit such as a CPU (Central Processing Unit) and an I / O (Input / Output) device inside a computer. There is. PCIe has a tree structure with the root complex as the apex and the I / O device as the end point. A PCIe-compliant I / O device is called a PCIe device or PCIe adapter. Examples of PCIe devices include NIC (Network Interface Card) and HBA (Host Bus Adapter).

このようなPCIeデバイスに障害が発生した場合、システム全体の動作停止を招くことなく障害が発生した部位を停止させる技術が、特許文献1に記載されている。特許文献1に記載される技術(以下、関連技術と称す)では、障害が発生した部位を停止させる前に、その部位が停止することによって発生するリンク切れのエラーメッセージをOS(オペレーティングシステム)が稼働するメインユニットへ転送するのを抑止する措置を講じ、且つメインユニットへ障害発生を通知するようにしている。 Patent Document 1 describes a technique for stopping a failed portion without causing an operation stop of the entire system when a failure occurs in such a PCIe device. In the technique described in Patent Document 1 (hereinafter referred to as related technique), the OS (operating system) sends an error message of broken link generated by stopping the site before stopping the failed site. Measures are taken to prevent transfer to the operating main unit, and the main unit is notified of the occurrence of a failure.

特開2015−225522号公報Japanese Unexamined Patent Publication No. 2015-225522

しかしながら、上記関連技術は、PCIeデバイス中の障害の発生した部位を停止させているけれども、それ以外の残りのPCIeデバイスの部位は動作可能な状態のままである。また当該PCIeデバイスは依然としてOSに組み込まれたままである。そのため、障害の発生したPCIeデバイスの予期しない動作によって、システム全体の動作停止が発生する危険性があった。このような課題は、PCIeデバイスに限定されず、メインユニットに内部インターフェースを通じて接続されたデバイス全般に生じ得る。 However, while the related technology shuts down the failed portion of the PCIe device, the rest of the PCIe device remains operational. Also, the PCIe device is still embedded in the OS. Therefore, there is a risk that the operation of the entire system may be stopped due to the unexpected operation of the failed PCIe device. Such problems are not limited to PCIe devices, but may occur in all devices connected to the main unit through an internal interface.

本発明の目的は、上述した課題、すなわち、障害の発生したデバイスがOSに組み込まれたままではシステム全体の動作停止を招く危険性がある、という課題を解決するコンピュータシステムを提供することにある。 An object of the present invention is to provide a computer system that solves the above-mentioned problem, that is, there is a risk that the operation of the entire system may be stopped if a failed device is incorporated in the OS. ..

上記課題を解決する本発明の一形態に係るコンピュータシステムは、
メインユニットと、前記メインユニットに内部インターフェースを通じて接続されたデバイスとを備え、
前記デバイスは、前記デバイスを構成するリソースの障害を検出すると、前記リソースの障害を復旧する処理を開始する前に、前記デバイスをオペレーティングシステムから切り離す要求を、前記内部インターフェースを通じて前記メインユニットへ送信する障害管理部を備える。
また本発明の他の形態に係るデバイスは、
メインユニットに内部インターフェースを通じて接続されたデバイスであって、
前記デバイスを構成するリソースの障害を検出すると、前記リソースの障害を復旧する処理を開始する前に、前記デバイスをオペレーティングシステムから切り離す要求を、前記内部インターフェースを通じて前記メインユニットへ送信する障害管理部を備える。
また本発明の他の形態に係るプログラムは、
メインユニットに内部インターフェースを通じて接続されたデバイスを構成するコンピュータを、
前記デバイスを構成するリソースの障害を検出すると、前記リソースの障害を復旧する処理を開始する前に、前記デバイスをオペレーティングシステムから切り離す要求を、前記内部インターフェースを通じて前記メインユニットへ送信する障害管理部として機能させる。
また、本発明の他の形態に係る障害処理方法は、
メインユニットに内部インターフェースを通じて接続されたデバイスが実施する障害処理方法であって、
前記デバイスを構成するリソースの障害を検出すると、前記リソースの障害を復旧する処理を開始する前に、前記デバイスをオペレーティングシステムから切り離す要求を、前記内部インターフェースを通じて前記メインユニットへ送信する。
A computer system according to an embodiment of the present invention that solves the above problems
It includes a main unit and a device connected to the main unit through an internal interface.
When the device detects a failure of a resource constituting the device, it sends a request to disconnect the device from the operating system to the main unit through the internal interface before starting the process of recovering from the failure of the resource. Equipped with a failure management department.
Further, the device according to another embodiment of the present invention is
A device connected to the main unit through an internal interface
When a failure of a resource constituting the device is detected, a failure management unit that sends a request for disconnecting the device from the operating system to the main unit through the internal interface before starting the process of recovering the failure of the resource. Be prepared.
Further, the program according to another embodiment of the present invention is
Computers that make up the device connected to the main unit through the internal interface,
When a failure of a resource constituting the device is detected, as a failure management unit that sends a request for disconnecting the device from the operating system to the main unit through the internal interface before starting the process of recovering the failure of the resource. Make it work.
Further, the fault handling method according to another embodiment of the present invention is
A failure handling method implemented by a device connected to the main unit through an internal interface.
When a failure of a resource constituting the device is detected, a request for disconnecting the device from the operating system is transmitted to the main unit through the internal interface before starting the process of recovering from the failure of the resource.

本発明は上述した構成を有することにより、障害の発生したデバイスの予期しない動作によって、システム全体の動作停止が発生するのを防止することができる。 By having the above-described configuration, the present invention can prevent the entire system from being stopped due to unexpected operation of the failed device.

本発明の第1の実施形態に係るコンピュータシステムのブロック図である。It is a block diagram of the computer system which concerns on 1st Embodiment of this invention. 本発明の第1の実施形態におけるPCIeデバイスの障害管理部およびデバイス管理部の動作の一例を示すフローチャートである。It is a flowchart which shows an example of the operation of the trouble management part and the device management part of a PCIe device in the 1st Embodiment of this invention. 本発明の第1の実施形態におけるメインユニットの管理部の動作の一例を示すフローチャートである。It is a flowchart which shows an example of the operation of the management part of the main unit in 1st Embodiment of this invention. 本発明の第1の実施形態に係るコンピュータシステムの動作説明図である。It is operation explanatory drawing of the computer system which concerns on 1st Embodiment of this invention. 本発明の第2の実施形態に係るコンピュータシステムのブロック図である。It is a block diagram of the computer system which concerns on 2nd Embodiment of this invention.

次に本発明の実施の形態について図面を参照して詳細に説明する。
[第1の実施形態]
図1は、本発明の第1の実施形態に係るコンピュータシステム100のブロック図である。図1を参照すると、コンピュータシステム100は、メインユニット110とPCIeデバイス120とを備え、メインユニット110とPCIeデバイス120とは信号線130、140で互いに接続されている。図1では、PCIeデバイス120は1個であるが、2個以上のPCIeデバイスがメインユニット110に接続されていてもよい。
Next, an embodiment of the present invention will be described in detail with reference to the drawings.
[First Embodiment]
FIG. 1 is a block diagram of a computer system 100 according to a first embodiment of the present invention. Referring to FIG. 1, the computer system 100 includes a main unit 110 and a PCIe device 120, and the main unit 110 and the PCIe device 120 are connected to each other by signal lines 130 and 140. In FIG. 1, there is one PCIe device 120, but two or more PCIe devices may be connected to the main unit 110.

メインユニット110は、コンピュータシステム100の主たる制御を司るユニットであり、管理部111と、信号線130に接続されたPCIeインターフェース112と、信号線140に接続されたLANインターフェース113とを有する。 The main unit 110 is a unit that controls the main control of the computer system 100, and has a management unit 111, a PCIe interface 112 connected to the signal line 130, and a LAN interface 113 connected to the signal line 140.

管理部111は、PCIeインターフェース112を通じてPCIeデバイス120と通信することができると共に、LANインターフェース113を通じてPCIeデバイス120と通信することができる。本実施形態では、外部インターフェースとしてLANインターフェースを使用したが、外部インターフェースはLANインターフェースに限定されない。外部インターフェースは、USB、RS−232Cなどであってもよい。 The management unit 111 can communicate with the PCIe device 120 through the PCIe interface 112 and can communicate with the PCIe device 120 through the LAN interface 113. In the present embodiment, the LAN interface is used as the external interface, but the external interface is not limited to the LAN interface. The external interface may be USB, RS-232C, or the like.

また管理部111は、PCIeインターフェース112を通じてPCIeデバイス120から切り離し要求メッセージを受信すると、メインユニット110で動作するオペレーティングシステム(OS)からPCIeデバイス120を切り離すように構成されている。また管理部111は、上記切り離しを完了すると、切り離し完了メッセージを、LANインターフェース113を通じてPCIeデバイス120へ送信するように構成されている。管理部111は、例えば、オペレーティングシステム上で稼働しているアプリケーションプログラム、或いはサーバ本体装置(管理サーバ)で実現することができる。 Further, the management unit 111 is configured to disconnect the PCIe device 120 from the operating system (OS) operating in the main unit 110 when the disconnection request message is received from the PCIe device 120 through the PCIe interface 112. Further, the management unit 111 is configured to transmit a disconnection completion message to the PCIe device 120 through the LAN interface 113 when the disconnection is completed. The management unit 111 can be realized by, for example, an application program running on the operating system or a server main unit (management server).

なお、PCIe技術として、PCI SIGにおいてPCIeデバイスの動的な切り離し/接続についての仕様定義が行われている。定義された仕様では、専用のHotPlug機構をPCIeデバイスが接続されるサーバ本体装置に有することが必要となっている。これに対して安価で一般的なサーバ本体装置では、専用のHotPlug機構を備えているものが少ない。本実施形態は、後者のような専用のHotPlug機構を備えていないサーバ本体装置を前提とする。即ち、メインユニット110とPCIeデバイス120とは、HotPlug機構によって接続されていない。 As a PCIe technology, specifications for dynamic disconnection / connection of PCIe devices are defined in PCI SIG. The defined specifications require that the server body device to which the PCIe device is connected have a dedicated HotPlug mechanism. On the other hand, few inexpensive and general server main devices are provided with a dedicated HotPlug mechanism. This embodiment is premised on a server main unit that does not have a dedicated HotPlug mechanism such as the latter. That is, the main unit 110 and the PCIe device 120 are not connected by the HotPlug mechanism.

PCIeデバイス120は、メインユニット110に対して着脱自在に接続されたデバイスであり、障害管理部121とデバイス管理部122とPCIeインターフェース123とLANインターフェース124とを有する。 The PCIe device 120 is a device that is detachably connected to the main unit 110, and has a fault management unit 121, a device management unit 122, a PCIe interface 123, and a LAN interface 124.

障害管理部121は、PCIeデバイス120を構成するリソースの障害を検出するように構成されている。PCIeデバイス120を構成するリソースとしては、例えば、PCIeに含まれるCPU、メモリ、ネットワークインターフェースカード、通信ポートなどがある。また障害管理部121は、障害を検出すると、障害検出メッセージをデバイス管理部122に送信するように構成されている。また障害管理部121は、PCIeデバイス120のOSからの切り離しが完了した旨のメッセージを、LANインターフェース124を通じてメインユニット110から受信すると、リソースの障害を復旧する処理を開始するように構成されている。例えば、障害管理部121は、リソースの障害を復旧する処理として、リソースつまりPCIeデバイス120の再初期化を実施するように構成されている。また障害管理部121は、リソースの障害を復旧する処理を完了すると、PCIeデバイス120をOSに組み込むように要求するメッセージを、LANインターフェース124を通じてメインユニット110へ送信するように構成されている。 The fault management unit 121 is configured to detect faults in the resources that make up the PCIe device 120. Resources that constitute the PCIe device 120 include, for example, a CPU, a memory, a network interface card, a communication port, and the like included in the PCIe. Further, the failure management unit 121 is configured to transmit a failure detection message to the device management unit 122 when a failure is detected. Further, the failure management unit 121 is configured to start a process of recovering a resource failure when receiving a message from the main unit 110 through the LAN interface 124 that the disconnection of the PCIe device 120 from the OS is completed. .. For example, the fault management unit 121 is configured to reinitialize the resource, that is, the PCIe device 120, as a process for recovering from a resource fault. Further, the failure management unit 121 is configured to send a message requesting that the PCIe device 120 be incorporated into the OS to the main unit 110 through the LAN interface 124 when the process of recovering the resource failure is completed.

デバイス管理部122は、障害管理部121から障害を検出した旨のメッセージを受信すると、PCIeデバイス120をOSから切り離すように要求するメッセージを、PCIeインターフェース123を通じてメインユニット110へ送信するように構成されている。 When the device management unit 122 receives a message from the failure management unit 121 to the effect that a failure has been detected, the device management unit 122 is configured to send a message requesting that the PCIe device 120 be disconnected from the OS to the main unit 110 through the PCIe interface 123. ing.

上述した障害管理部121、デバイス管理部122、PCIeインターフェース123、およびLANインターフェース124は、例えば、PCIeデバイス120を構成するCPUとプログラムとで実現することができる。プログラムは、磁気ディスク等のコンピュータ可読記録媒体に記録されて提供され、PCIeデバイスの立ち上げ時などにCPUに読み取られ、CPUの動作を制御することにより、CPU上に障害管理部121、デバイス管理部122、PCIeインターフェース123、およびLANインターフェース124を実現する。 The above-mentioned fault management unit 121, device management unit 122, PCIe interface 123, and LAN interface 124 can be realized by, for example, a CPU and a program constituting the PCIe device 120. The program is recorded and provided on a computer-readable recording medium such as a magnetic disk, and is read by the CPU when the PCIe device is started up. By controlling the operation of the CPU, the failure management unit 121 and device management are performed on the CPU. The unit 122, the PCIe interface 123, and the LAN interface 124 are realized.

図2は、PCIeデバイス120の障害管理部121およびデバイス管理部122の動作の一例を示すフローチャートである。また、図3は、メインユニット110の管理部111の動作の一例を示すフローチャートである。また、図4は、コンピュータシステム100の動作説明図である。以下、図1乃至図4を参照して、コンピュータシステム100の動作を説明する。 FIG. 2 is a flowchart showing an example of the operation of the failure management unit 121 and the device management unit 122 of the PCIe device 120. Further, FIG. 3 is a flowchart showing an example of the operation of the management unit 111 of the main unit 110. Further, FIG. 4 is an operation explanatory diagram of the computer system 100. Hereinafter, the operation of the computer system 100 will be described with reference to FIGS. 1 to 4.

メインユニット110とPCIeデバイス120とが信号線130、140により接続され、コンピュータシステム100が正常に動作している状態では、メインユニット110の管理部111とPCIeデバイス120のデバイス管理部122とは、PCIeインターフェース112、信号線130、およびPCIeインターフェース123を通じて相互に通信可能になっている。また、メインユニット110の管理部111とPCIeデバイス120の障害管理部121とは、LANインターフェース113、信号線140、LANインターフェース124を通じて相互に通信可能になっている。 When the main unit 110 and the PCIe device 120 are connected by signal lines 130 and 140 and the computer system 100 is operating normally, the management unit 111 of the main unit 110 and the device management unit 122 of the PCIe device 120 are connected. It is possible to communicate with each other through the PCIe interface 112, the signal line 130, and the PCIe interface 123. Further, the management unit 111 of the main unit 110 and the failure management unit 121 of the PCIe device 120 can communicate with each other through the LAN interface 113, the signal line 140, and the LAN interface 124.

コンピュータシステム100の稼働中、PCIeデバイス120の障害管理部121は、図2に示すように、PCIeデバイス120を構成するリソースに障害が発生していないか否かを常時監視する(ステップS1)。そして、障害管理部121は、リソースの障害を検出すると、図4に示すように、障害を検出した旨の通知aをデバイス管理部122に送信する。そして、障害管理部121は、LANインターフェース124を通じてメインユニット110から、PCIeデバイス120のOSからの削除完了通知を待ち合わせる(ステップS3)。 While the computer system 100 is in operation, the failure management unit 121 of the PCIe device 120 constantly monitors whether or not a failure has occurred in the resources constituting the PCIe device 120 (step S1). Then, when the failure management unit 121 detects a resource failure, as shown in FIG. 4, the failure management unit 121 transmits a notification a to the effect that the failure has been detected to the device management unit 122. Then, the failure management unit 121 waits for the deletion completion notification of the PCIe device 120 from the OS from the main unit 110 through the LAN interface 124 (step S3).

障害管理部121からの通知aを受けたデバイス管理部122は、図4に示すように、PCIeインターフェース123を介してメインユニット110の管理部111に対して、PCIeデバイス120をOSから削除(切り離し)するように要求する通知bを行う(ステップS2)。 Upon receiving the notification a from the failure management unit 121, the device management unit 122 deletes (disconnects) the PCIe device 120 from the OS with respect to the management unit 111 of the main unit 110 via the PCIe interface 123, as shown in FIG. ) Is performed (step S2).

コンピュータシステム100の稼働中、メインユニット110の管理部111は、図3に示すように、PCIeインターフェース112を通じてPCIeデバイス120から削除を要求する通知を受信したか否か、LANインターフェース113を通じてPCIeデバイス120から復旧通知を受信したか否かを、それぞれ監視している(ステップS11、S12)。そして、管理部111は、OSからの削除を要求する通知bをPCIeインターフェース112経由でPCIeデバイス120から受信すると、OSの機能を利用してPCIeデバイス120をOSから削除、すなわち切り離す(ステップS13)。次に、管理部111は、図4に示すように、削除の完了時、LANインターフェース113経由でPCIeデバイス120の障害管理部121へ、削除完了の通知cを出す(ステップS14)。 While the computer system 100 is in operation, the management unit 111 of the main unit 110 determines whether or not a notification requesting deletion is received from the PCIe device 120 through the PCIe interface 112, as shown in FIG. 3, the PCIe device 120 through the LAN interface 113. Whether or not a recovery notification has been received from the computer is monitored (steps S11 and S12). Then, when the management unit 111 receives the notification b requesting deletion from the OS from the PCIe device 120 via the PCIe interface 112, the management unit 111 deletes the PCIe device 120 from the OS by using the function of the OS, that is, disconnects it (step S13). .. Next, as shown in FIG. 4, the management unit 111 issues a deletion completion notification c to the failure management unit 121 of the PCIe device 120 via the LAN interface 113 when the deletion is completed (step S14).

障害管理部121は、上記通知cをLANインターフェース124経由でメインユニット110から受信すると、PCIeデバイス120の障害にかかるリソースの障害復旧処理を行う(ステップS4)。具体的には、障害管理部121は、障害にかかるリソースの再初期化を行う。一般にPCIeデバイスに致命的な障害が発生した場合、PCIeデバイスの再初期化を行うことにより、高い確率で致命的な障害を復旧することができる。但し、PCIeデバイスの再初期化が行われる際、PCIeは一旦リンクダウンすることが考えられる。そのため、PCIeデバイスがOSに組み込まれている状態でリンクダウンが発生すると、サプライズリンクダウンに繋がり、OSパニック等の問題が生じる。しかし、本実施形態では、PCIeデバイス120の再初期化を行う前に、PCIeデバイス120をOSから切り離している。そのため、サプライズリンクダウンによるOSパニック等が発生することはない。 When the failure management unit 121 receives the notification c from the main unit 110 via the LAN interface 124, the failure management unit 121 performs a failure recovery process for the resource related to the failure of the PCIe device 120 (step S4). Specifically, the failure management unit 121 reinitializes the resource related to the failure. Generally, when a fatal failure occurs in a PCIe device, the fatal failure can be recovered with a high probability by reinitializing the PCIe device. However, when the PCIe device is reinitialized, it is conceivable that the PCIe will be linked down once. Therefore, if a link down occurs while the PCIe device is embedded in the OS, it leads to a surprise link down and causes a problem such as an OS panic. However, in this embodiment, the PCIe device 120 is disconnected from the OS before the PCIe device 120 is reinitialized. Therefore, an OS panic or the like due to a surprise link down does not occur.

次に、障害管理部121は、障害復旧処理を完了すると、図4に示すように、LANインターフェース124経由でメインユニット110へ、PCIeデバイス120をOSに再接続(再組み込み)するように要求する通知dを出す(ステップS5)。 Next, when the failure management unit 121 completes the failure recovery process, as shown in FIG. 4, the failure management unit 121 requests the main unit 110 to reconnect (re-embed) the PCIe device 120 to the OS via the LAN interface 124. Notification d is issued (step S5).

メインユニット110の管理部111は、上記通知dをLANインターフェース113経由で障害管理部121から受信すると、OSの機能を利用して、PCIeデバイス120をOSに再接続(再組み込み)する(ステップS15)。これにより、コンピュータシステム100は、元の正常な状態に復帰する。 When the management unit 111 of the main unit 110 receives the notification d from the failure management unit 121 via the LAN interface 113, the management unit 111 reconnects (re-embedss) the PCIe device 120 to the OS by using the function of the OS (step S15). ). As a result, the computer system 100 returns to the original normal state.

このように本実施形態によれば、障害の発生したPCIeデバイス120の予期しない動作によって、コンピュータシステム100全体の動作停止が発生するのを防止することができる。その理由は、障害の発生したPCIeデバイス120を、その障害復旧処理を行う前にOSから切り離すようにしているためである。 As described above, according to the present embodiment, it is possible to prevent the operation of the entire computer system 100 from being stopped due to the unexpected operation of the failed PCIe device 120. The reason is that the PCIe device 120 in which the failure has occurred is disconnected from the OS before the failure recovery process is performed.

[第2の実施形態]
図5は、本発明の第2の実施形態に係るコンピュータシステム200のブロック図である。図5を参照すると、コンピュータシステム200は、メインユニット210とデバイス220とを備え、メインユニット210とデバイス220とは内部インターフェース230を通じて接続されている。内部インターフェース230は、例えばPCIeである。但し、内部インターフェース230は、PCIeに限定されない。内部インターフェースは、PCIやシリアルATAなどであってもよい。
[Second Embodiment]
FIG. 5 is a block diagram of the computer system 200 according to the second embodiment of the present invention. Referring to FIG. 5, the computer system 200 includes a main unit 210 and a device 220, and the main unit 210 and the device 220 are connected through an internal interface 230. The internal interface 230 is, for example, PCIe. However, the internal interface 230 is not limited to PCIe. The internal interface may be PCI, Serial ATA, or the like.

デバイス220は、1以上のリソース221と、障害管理部222とを有する。リソース221は、デバイス220を構成するハードウェア資源あるいはソフトウェア資源である。ハードウェア資源は、例えばCPUやメモリなどである。また、ソフトウェア資源は、例えばプログラムなどである。障害管理部222は、リソース221の障害を検出するように構成されている。また障害管理部222は、リソース221の障害を検出すると、その障害復旧処理を開始する前に、デバイス220をオペレーティングシステム(OS)から切り離す要求を、内部インターフェース230を通じてメインユニット210へ送信するように構成されている。 The device 220 has one or more resources 221 and a fault management unit 222. The resource 221 is a hardware resource or a software resource that constitutes the device 220. Hardware resources include, for example, a CPU and memory. The software resource is, for example, a program. The fault management unit 222 is configured to detect a fault of the resource 221. Further, when the failure management unit 222 detects a failure of the resource 221 and starts the failure recovery process, the failure management unit 222 sends a request for disconnecting the device 220 from the operating system (OS) to the main unit 210 through the internal interface 230. It is configured.

このように構成されたコンピュータシステム200は、以下のように機能する。すなわち、デバイス220の障害管理部222は、コンピュータシステム200の稼働中に、デバイス220を構成するリソース221の障害を検出すると、リソース221の障害を復旧する処理を開始する前に、デバイス220をオペレーティングシステムから切り離す要求を、内部インターフェース230を通じてメインユニット210へ送信する。 The computer system 200 configured in this way functions as follows. That is, when the failure management unit 222 of the device 220 detects a failure of the resource 221 constituting the device 220 during the operation of the computer system 200, the failure management unit 222 operates the device 220 before starting the process of recovering the failure of the resource 221. A request to disconnect from the system is sent to the main unit 210 through the internal interface 230.

このように本実施形態に係るデバイス220は、リソース221の障害を復旧する処理を開始する前に、デバイス220をOSから切り離す要求を、内部インターフェース230を通じてメインユニット210へ送信する。そのため、デバイス220におけるリソース221の障害を復旧する処理は、デバイス220がOSから切り離された状態で行われる。その結果、障害の発生したデバイス220の予期しない動作によって、コンピュータシステム200全体の動作停止が発生するのを防止することができる。 As described above, the device 220 according to the present embodiment transmits a request for disconnecting the device 220 from the OS to the main unit 210 through the internal interface 230 before starting the process of recovering the failure of the resource 221. Therefore, the process of recovering from the failure of the resource 221 in the device 220 is performed in a state where the device 220 is disconnected from the OS. As a result, it is possible to prevent the entire computer system 200 from being stopped due to unexpected operation of the failed device 220.

以上、上記各実施形態を参照して本発明を説明したが、本発明は、上述した実施形態に限定されるものではない。本発明の構成や詳細には、本発明の範囲内で当業者が理解しうる様々な変更をすることができる。 Although the present invention has been described above with reference to each of the above embodiments, the present invention is not limited to the above-described embodiments. Various changes that can be understood by those skilled in the art can be made to the structure and details of the present invention within the scope of the present invention.

例えば、本発明の第1の実施形態では、PCIeデバイスとメインユニットの管理部との通信をPCIeおよびLANインターフェースを介して行う方法について説明したが、通信手段を制限するものではない。また、PCIeデバイスにLED等の表示器を実装し、目視による確認をしてもよい。例えば、障害管理部121は、LANインターフェース124を通じてメインユニット110から、PCIeデバイス120のOSからの削除完了通知を受信したときに、表示器の点灯状態を切り換えて、PCIeデバイス120がOSから切り離されている旨をオペレータに提示するように構成されていてよい。 For example, in the first embodiment of the present invention, a method of communicating between the PCIe device and the management unit of the main unit via the PCIe and LAN interface has been described, but the communication means is not limited. Further, a display such as an LED may be mounted on the PCIe device for visual confirmation. For example, when the failure management unit 121 receives the deletion completion notification from the OS of the PCIe device 120 from the main unit 110 through the LAN interface 124, the failure management unit 121 switches the lighting state of the display and disconnects the PCIe device 120 from the OS. It may be configured to indicate to the operator that this is the case.

100…コンピュータシステム
110…メインユニット
111…管理部
112…PCIeインターフェース
113…LANインターフェース
120…PCIeデバイス
121…障害管理部
122…デバイス管理部
123…PCIeインターフェース
124…LANインターフェース
130…信号線
140…信号線
200…コンピュータシステム
210…メインユニット
220…デバイス
221…リソース
222…障害管理部
100 ... Computer system 110 ... Main unit 111 ... Management unit 112 ... PCIe interface 113 ... LAN interface 120 ... PCIe device 121 ... Failure management unit 122 ... Device management unit 123 ... PCIe interface 124 ... LAN interface 130 ... Signal line 140 ... Signal line 200 ... Computer system 210 ... Main unit 220 ... Device 221 ... Resource 222 ... Failure management unit

Claims (8)

メインユニットと、前記メインユニットに内部インターフェースを通じて接続されたデバイスとを備え、
前記デバイスは、前記デバイスを構成するリソースの障害を検出すると、前記リソースの障害を復旧する処理を開始する前に、前記デバイスをオペレーティングシステムから切り離す要求を、前記内部インターフェースを通じて前記メインユニットへ送信する障害管理部を備え
前記メインユニットと前記障害管理部との間でデータの授受を行うための外部インターフェースを、さらに備え、
前記メインユニットは、前記オペレーティングシステムから前記デバイスを切り離す処理を実施した後、完了通知を、前記外部インターフェースを通じて前記障害管理部に送信するように構成されてい
コンピュータシステム。
It includes a main unit and a device connected to the main unit through an internal interface.
When the device detects a failure of a resource constituting the device, it sends a request to disconnect the device from the operating system to the main unit through the internal interface before starting the process of recovering from the failure of the resource. Equipped with a fault management department
Further provided with an external interface for exchanging data between the main unit and the fault management unit.
Said main unit, said after performing the process of disconnecting said device from the operating system, the computer system of the completion notification, that is configured to transmit to said fault management unit through the external interface.
前記障害管理部は、前記完了通知を受信すると、前記障害を復旧する処理を実施した後、前記デバイスを前記オペレーティングシステムに接続する要求を、前記外部インターフェースを通じて前記メインユニットへ送信するように構成されている
請求項に記載のコンピュータシステム。
Upon receiving the completion notification, the failure management unit is configured to perform a process of recovering from the failure and then transmit a request for connecting the device to the operating system to the main unit through the external interface. The computer system according to claim 1.
前記外部インターフェースは、LANインターフェースである
請求項またはに記載のコンピュータシステム。
The computer system according to claim 1 or 2 , wherein the external interface is a LAN interface.
前記内部インターフェースは、PCI Expressである
請求項1乃至の何れかに記載のコンピュータシステム。
The computer system according to any one of claims 1 to 3 , wherein the internal interface is PCI Express.
メインユニットに内部インターフェースを通じて接続されたデバイスであって、
前記デバイスを構成するリソースの障害を検出すると、前記リソースの障害を復旧する処理を開始する前に、前記デバイスをオペレーティングシステムから切り離す要求を、前記内部インターフェースを通じて前記メインユニットへ送信する障害管理部を備え
前記メインユニットと前記障害管理部との間でデータの授受を行うための外部インターフェースを、さらに備え、
前記障害管理部は、前記オペレーティングシステムからの前記デバイスの切り離しを完了した旨の完了通知を、前記外部インターフェースを通じて前記メインユニットから受信するように構成されてい
デバイス。
A device connected to the main unit through an internal interface
When a failure of a resource constituting the device is detected, a failure management unit that sends a request for disconnecting the device from the operating system to the main unit through the internal interface before starting the process of recovering the failure of the resource. Prepare ,
Further provided with an external interface for exchanging data between the main unit and the fault management unit.
The fault management unit, a completion notification indicating the completion of the disengagement of the device from the operating system, that is configured to receive from the main unit through the external interface device.
前記障害管理部は、前記完了通知を受信すると、前記障害を復旧する処理を実施した後、前記デバイスを前記オペレーティングシステムに接続する要求を、前記外部インターフェースを通じて前記メインユニットへ送信するように構成されている
請求項に記載のデバイス。
Upon receiving the completion notification, the failure management unit is configured to perform a process of recovering from the failure and then transmit a request for connecting the device to the operating system to the main unit through the external interface. The device according to claim 5.
メインユニットに内部インターフェースを通じて接続されたデバイスを構成するコンピュータを、
前記デバイスを構成するリソースの障害を検出すると、前記リソースの障害を復旧する処理を開始する前に、前記デバイスをオペレーティングシステムから切り離す要求を、前記内部インターフェースを通じて前記メインユニットへ送信する障害管理部と
前記メインユニットと前記障害管理部との間でデータの授受を行うための外部インターフェースとして機能させ
前記障害管理部は、前記オペレーティングシステムからの前記デバイスの切り離しを完了した旨の完了通知を、前記外部インターフェースを通じて前記メインユニットから受信するように構成されているプログラム。
Computers that make up the device connected to the main unit through the internal interface,
When a failure of a resource constituting the device is detected, a failure management unit that sends a request for disconnecting the device from the operating system to the main unit through the internal interface before starting the process of recovering the failure of the resource. ,
The external interface and to thereby function for exchanging data between the main unit and the fault management unit,
The fault management unit, the completion notification indicating that the completed disconnection device from the operating system, the constructed have that programmed to receive via the external interface from the main unit.
メインユニットに内部インターフェースを通じて接続されたデバイスが実施する障害処理方法であって、
前記デバイスを構成するリソースの障害を検出すると、前記リソースの障害を復旧する処理を開始する前に、前記デバイスをオペレーティングシステムから切り離す要求を、前記内部インターフェースを通じて前記メインユニットへ送信し、
前記オペレーティングシステムからの前記デバイスの切り離しを完了した旨の完了通知を、前記メインユニットと前記デバイスとの間でデータの授受を行うための外部インターフェースを通じて前記メインユニットから受信する
障害処理方法。
A failure handling method implemented by a device connected to the main unit through an internal interface.
When a failure of a resource constituting the device is detected, a request for disconnecting the device from the operating system is sent to the main unit through the internal interface before starting the process of recovering from the failure of the resource.
A failure handling method in which a completion notification indicating that the device has been disconnected from the operating system is received from the main unit through an external interface for exchanging data between the main unit and the device.
JP2018041431A 2018-03-08 2018-03-08 Computer system Active JP6962243B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018041431A JP6962243B2 (en) 2018-03-08 2018-03-08 Computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018041431A JP6962243B2 (en) 2018-03-08 2018-03-08 Computer system

Publications (2)

Publication Number Publication Date
JP2019159439A JP2019159439A (en) 2019-09-19
JP6962243B2 true JP6962243B2 (en) 2021-11-05

Family

ID=67992585

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018041431A Active JP6962243B2 (en) 2018-03-08 2018-03-08 Computer system

Country Status (1)

Country Link
JP (1) JP6962243B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7435035B2 (en) 2020-03-03 2024-02-21 日本電気株式会社 PCIe devices, failure recovery methods, programs

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2790204B2 (en) * 1991-05-17 1998-08-27 三菱電機株式会社 Multiprocessor system
JP3298989B2 (en) * 1993-06-11 2002-07-08 日本電気株式会社 Failure detection / automatic embedded device
JPH07182253A (en) * 1993-12-24 1995-07-21 Mitsubishi Electric Corp Bus adaptor and bus multiplexing system
JP2007072929A (en) * 2005-09-09 2007-03-22 Hitachi Kokusai Electric Inc Method for processing of peripheral module
JP4915113B2 (en) * 2006-03-15 2012-04-11 日本電気株式会社 Bus system, reset initialize circuit, and fault recovery method in bus system
JP4513852B2 (en) * 2007-11-07 2010-07-28 日本電気株式会社 PCI bus failure recovery method and program
JP5281942B2 (en) * 2009-03-26 2013-09-04 株式会社日立製作所 Computer and its fault handling method

Also Published As

Publication number Publication date
JP2019159439A (en) 2019-09-19

Similar Documents

Publication Publication Date Title
US7519856B2 (en) Fault tolerant system and controller, operation method, and operation program used in the fault tolerant system
US5758157A (en) Method and system for providing service processor capability in a data processing by transmitting service processor requests between processing complexes
US6983397B2 (en) Method, system, and program for error handling in a dual adaptor system where one adaptor is a master
US8432793B2 (en) Managing recovery of a link via loss of link
TWI530778B (en) Rack having automatic recovery function and automatic recovery method for the same
JPH086910A (en) Cluster type computer system
US20090077275A1 (en) Multiple I/O interfacing system for a storage device and communicating method for the same
JP6962243B2 (en) Computer system
US20160285673A1 (en) Client side host machine backup system and its implementing method
WO2019227836A1 (en) Bmc-based file transmission method, apparatus and device, and medium
JP7435035B2 (en) PCIe devices, failure recovery methods, programs
JP6357879B2 (en) System and fault handling method
CN114296995B (en) Method, system, equipment and storage medium for server to autonomously repair BMC
WO2019227839A1 (en) Bmc-based file transmission method, device and equipment, and medium
JP6134720B2 (en) Connection method
US6957361B2 (en) Method, system, and program for error handling in a dual adaptor system
EP2851801B1 (en) Computer system, control method for computer system and coupling module
JP5794748B2 (en) Switch, transmission method, program, recording medium
US20070050666A1 (en) Computer Network System and Related Method for Monitoring a Server
JP2015056843A (en) Communication connection system, communication connection program, communication connection method and lan connection device
JP3465637B2 (en) Server and control method thereof
WO2020103102A1 (en) Data processing device
JP2017054347A (en) Computer system, computer, network connection restoration method, and program
WO2020103097A1 (en) Data processing device
JP6580913B2 (en) Electronic device, management device, information processing device, control system, power supply control method, and computer program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210608

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210709

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210914

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210927

R150 Certificate of patent or registration of utility model

Ref document number: 6962243

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150