JP5685993B2 - Multi-node system including failure processing circuit and failure processing method - Google Patents

Multi-node system including failure processing circuit and failure processing method Download PDF

Info

Publication number
JP5685993B2
JP5685993B2 JP2011047806A JP2011047806A JP5685993B2 JP 5685993 B2 JP5685993 B2 JP 5685993B2 JP 2011047806 A JP2011047806 A JP 2011047806A JP 2011047806 A JP2011047806 A JP 2011047806A JP 5685993 B2 JP5685993 B2 JP 5685993B2
Authority
JP
Japan
Prior art keywords
node
crossbar
ports
failure
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011047806A
Other languages
Japanese (ja)
Other versions
JP2012185640A (en
Inventor
康弘 春日
康弘 春日
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011047806A priority Critical patent/JP5685993B2/en
Publication of JP2012185640A publication Critical patent/JP2012185640A/en
Application granted granted Critical
Publication of JP5685993B2 publication Critical patent/JP5685993B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Multi Processors (AREA)

Description

本発明は、複数のノードがノード間クロスバスイッチを介して接続されたマルチノードシステム(あるいはマルチノードコンピュータシステム)における障害発生時の処理方式に関する。   The present invention relates to a processing method when a failure occurs in a multi-node system (or multi-node computer system) in which a plurality of nodes are connected via an inter-node crossbar switch.

(参考例)
マルチノードシステムにおける障害処理装置及び処理方法の参考例を図12乃至図14を参照して説明する。
(Reference example)
A reference example of a failure processing apparatus and processing method in a multi-node system will be described with reference to FIGS.

図12乃至14はマルチノードシステムの一例を示すものである。図12において、ノードは1つ以上のCPU(Central Processing Unit)とメインメモリユニット(Main Memory Unit,以下、「MMU」という。)を備えた単独でも機能するコンピュータシステムであり、リモートコントロールユニット(Remote Control Unit,以下、「RCU」という。)を介してノード間接続装置(Internal X-bar Switch,以下、「IXS」という。)と接続することにより、複数ノードが接続されたマルチノードシステムとして動作する。同図では一例として2ノード構成を示している。この構成では、RCUがCPUの中に取り込まれた構成となっているが、RCUがCPUと別チップで存在する構成とすることも可能である。   12 to 14 show an example of a multi-node system. In FIG. 12, a node is a computer system that functions independently even with one or more CPUs (Central Processing Units) and a main memory unit (hereinafter referred to as “MMU”). Operates as a multi-node system in which multiple nodes are connected by connecting to an inter-node connection device (Internal X-bar Switch, hereinafter referred to as “IXS”) via a Control Unit (hereinafter referred to as “RCU”) To do. In the figure, a two-node configuration is shown as an example. In this configuration, the RCU is incorporated in the CPU. However, the RCU may be configured as a separate chip from the CPU.

また、図13のように、1ノードを1つのCPUのみとして、MMUもCPUの中に取り込んで、メモリチップを接続した構成とすることも可能である。なお、通常、MMUはDIMM(Dual Inline Memory Module)などで構成される。これらの構成を基本として、ノード数の非常に多い大規模なコンピュータシステムを構築する場合、ノードと接続するためのIXSのポート数が不足するためにIXSを構成するクロスバチップを多段に接続して、IXSに接続できるポート数を増やしている。   Further, as shown in FIG. 13, it is also possible to adopt a configuration in which one node is only one CPU, the MMU is taken into the CPU, and memory chips are connected. Normally, the MMU is configured by a DIMM (Dual Inline Memory Module) or the like. Based on these configurations, when constructing a large-scale computer system with a very large number of nodes, the number of IXS ports for connecting to the nodes is insufficient, so the crossbar chips constituting the IXS are connected in multiple stages. The number of ports that can be connected to IXS has been increased.

図14は2段構成からなるIXSの例を示しており、IXSを構成するクロスバチップが32ポートを有していて、ファットツリー構成にてIXSを実現した場合は、図のように最大512ノードまでのマルチノードシステムを構築することが可能である。   FIG. 14 shows an example of IXS having a two-stage configuration. When the crossbar chip configuring IXS has 32 ports and IXS is realized in a fat tree configuration, a maximum of 512 nodes as shown in the figure. It is possible to construct a multi-node system up to

上述のようなマルチノードシステムの例が、例えば、特許4131263号公報(特許文献1)に記載されている。   An example of the multi-node system as described above is described in, for example, Japanese Patent No. 413263 (Patent Document 1).

特許4131263号公報Japanese Patent No. 413263

上記のようなマルチノードシステムにおいて、IXSにて障害が発生した場合、ノード間のデータ転送経路が遮断されるため、全ノードにおいて障害を検出して実行中の全ての命令を一旦破棄することになる。この障害検出および通知手段については、例えば、上記特許第4131263号に記載されているような障害通知手段を用いることによって、ノードとIXSの間でやりとりを行っている。図14に示すような大規模なマルチノードシステムにおいても、IXS内の上位側のチップで障害が発生すると、やはりノード間の転送経路が遮断されるために、全ノードにおいて障害が検出されることになる。   In the multi-node system as described above, when a failure occurs in IXS, the data transfer path between the nodes is interrupted. Therefore, the failure is detected in all the nodes and all the instructions being executed are temporarily discarded. Become. As for the failure detection and notification means, for example, the failure notification means as described in the above-mentioned Japanese Patent No. 413263 is used to exchange between the node and the IXS. Even in a large-scale multi-node system as shown in FIG. 14, when a failure occurs in a higher-order chip in IXS, the failure is detected in all nodes because the transfer path between nodes is also blocked. become.

しかしながら、参考例の方法では、IXSにて発生した障害が全ノードに通知されるため全ノードで障害を検出することとなり、システム内で実行中の全ての命令が異常終了してしまう。例えば、IXS内の一部のチップの障害が全ノードに波及する。特に、ノード数が多い大規模構成のマルチノードシステムでは、なるべく障害の波及を狭い範囲に抑え、全ノードへの障害波及をできるだけ避けることが望ましい。   However, in the method of the reference example, since a failure that occurred in IXS is notified to all the nodes, the failure is detected in all the nodes, and all the instructions being executed in the system end abnormally. For example, the failure of some chips in IXS will spread to all nodes. Particularly, in a multi-node system having a large-scale configuration with a large number of nodes, it is desirable to suppress the propagation of failures to a narrow range as much as possible and to avoid the propagation of failures to all nodes as much as possible.

よって、本発明の目的は、IXSで障害が発生した場合にその障害の影響が全ノードに及ぶことを回避可能としたマルチノードシステム(装置)と処理方法を提供することである。   Therefore, an object of the present invention is to provide a multi-node system (apparatus) and a processing method capable of avoiding the influence of the failure on all nodes when a failure occurs in IXS.

本発明の態様の一つのマルチノードシステムは、複数のノード相互間を接続するノード間接続装置を備えるマルチノードシステムであって、
上記ノード間接続装置は複数のクロスバ装置を含み、上記クロスバ装置は、複数のポートと、上記複数のポート相互間を接続するクロスバスイッチ部と、上記複数のポートのいずれかへの外部障害信号の到来を検出する障害検出手段と、到来した上記外部障害信号を上記複数のポートのいずれかに出力可能な診断部と、を備え、
上記診断部は、上記ノード間接続装置における上記複数のクロスバ装置の接続構成と当該接続構成における自己の接続位置を予め記憶する構成設定レジスタと、上記外部障害信号を上記複数のポートに選択的に導出する選択手段と、を備え、上記構成設定レジスタの値に基づいて前記外部障害信号を導出するポートを決定する。
One multi-node system according to an aspect of the present invention is a multi-node system including an inter-node connection device that connects a plurality of nodes.
The inter-node connection device includes a plurality of crossbar devices, and the crossbar device includes a plurality of ports, a crossbar switch unit that connects between the plurality of ports, and an external fault signal to any of the plurality of ports. A failure detecting means for detecting arrival; and a diagnostic unit capable of outputting the incoming external failure signal to any of the plurality of ports;
The diagnostic unit selectively selects a configuration setting register for storing in advance the connection configuration of the plurality of crossbar devices in the inter-node connection device and its connection position in the connection configuration, and the external fault signal to the plurality of ports. Selection means for deriving, and determining a port from which the external fault signal is derived based on the value of the configuration setting register.

かかる構成とすることによって、ノード間接続装置にて障害が発生した場合に、その障害を全ノードに通知するのではなく、障害が影響するノードにのみ障害を通知し、障害が影響しないノードへは障害を通知せずに運用を継続できるようにしてノード間接続装置の障害が影響するノードの範囲を最小限に抑える。   By adopting such a configuration, when a failure occurs in the inter-node connection device, the failure is not notified to all nodes, but only to the node affected by the failure, the failure is not affected. Minimizes the range of nodes affected by the failure of the inter-node connection device so that the operation can be continued without notifying the failure.

好ましくは、上記診断部は上記外部障害信号に加えて内部で発生した内部障害信号を上記複数のポートに出力可能であり、上記外部障害信号を上記複数のポートに選択的に導出すると共に上記内部障害信号を上記複数のポートに出力することを特徴とする。それにより、他のクロスバ装置の障害信号(外部障害信号)に加えて自己のクロスバ装置内部で発生した障害信号(内部障害信号)の処理を行うことが可能となる。   Preferably, the diagnostic unit is capable of outputting an internal fault signal generated internally in addition to the external fault signal to the plurality of ports, selectively deriving the external fault signal to the plurality of ports, and the internal fault signal. A failure signal is output to the plurality of ports. As a result, in addition to the fault signal (external fault signal) of another crossbar device, it is possible to process a fault signal (internal fault signal) generated within the own crossbar device.

好ましくは、上記複数のクロスバ装置の接続構成がファットツリー状であり、構成設定レジスタの設定がファットツリー上の発行元ノードから宛先ノードまでの接続経路に対応して定められる。それにより、複数の接続経路を選択することができる。   Preferably, the connection configuration of the plurality of crossbar devices is a fat tree, and the configuration setting register is set corresponding to the connection path from the issuer node to the destination node on the fat tree. Thereby, a plurality of connection paths can be selected.

好ましくは、上記発行元ノードと宛先ノードとが決まれば上記接続経路が一位に決まる固定経路方式である。それにより、ノード間の接続を特定の接続経路に決定することができる。   Preferably, the fixed route method is such that the connection route is determined first when the issuer node and the destination node are determined. Thereby, the connection between nodes can be determined as a specific connection path.

上記構成設定レジスタは、上記ノード間接続装置を構成するクロスバ装置が単段か多段かを示す多段・単段フラグレジスタ、多段の場合に下段か上段か示す段数フラグレジスタ、ノード数がいくつあるかを示すノード数フラグレジスタ、を含む。それにより、クロスバ装置の接続構成などを判別可能とする。   The above configuration setting register is a multi-stage / single-stage flag register that indicates whether the crossbar device constituting the inter-node connection apparatus is a single stage or a multi-stage. A node number flag register indicating. This makes it possible to determine the connection configuration of the crossbar device.

また、本発明の一態様の障害処理方法は、複数のノード相互間を接続するノード間接続装置を備えるマルチノードシステムにおける障害処理方法であって、上記ノード間接続装置を複数のクロスバ装置で構成し、各クロスバ装置に上記複数のクロスバ装置の接続構成と当該接続構成における自己の接続位置を予め記憶する構成設定レジスタを設け、上記構成設定レジスタに記憶されたクロスバ装置の接続構成に従って障害信号を送信するポートを選択する、ことを特徴とする。   The failure processing method according to an aspect of the present invention is a failure processing method in a multi-node system including an inter-node connection device that connects a plurality of nodes, and the inter-node connection device includes a plurality of crossbar devices. In addition, each crossbar device is provided with a configuration setting register that stores in advance the connection configuration of the plurality of crossbar devices and its own connection position in the connection configuration, and a fault signal is transmitted according to the connection configuration of the crossbar device stored in the configuration setting register. A port to be transmitted is selected.

かかる構成とすることによって、ノード間接続装置にて障害が発生した場合に、その障害を全ノードに通知するのではなく、障害が影響するノードにのみ障害を通知し、障害が影響しないノードへは障害を通知せずに運用を継続できるようにしてノード間接続装置の障害が影響するノードの範囲を最小限に抑える。   By adopting such a configuration, when a failure occurs in the inter-node connection device, the failure is not notified to all nodes, but only to the node affected by the failure, the failure is not affected. Minimizes the range of nodes affected by the failure of the inter-node connection device so that the operation can be continued without notifying the failure.

また、本発明の一態様のクロスバ装置(クロスバスイッチ)は、複数のポートと、上記複数のポート相互間を接続するクロスバスイッチ部と、上記複数のポートのいずれかへの外部障害信号の到来を検出する障害検出手段と、到来した上記外部障害信号を上記複数のポートのいずれかに出力可能な診断部と、を備え、上記診断部は、複数のクロスバ装置でノード間接続装置を構成する場合の接続構成と当該接続構成における自己の接続位置を予め記憶する構成設定レジスタと、障害信号を上記複数のポートに選択的に導出する選択手段と、を備え、上記構成設定レジスタの値に基づいて前記障害信号を導出するポートを決定する。   The crossbar device (crossbar switch) according to one embodiment of the present invention is configured to detect arrival of an external failure signal to any of the plurality of ports, the crossbar switch unit connecting the plurality of ports, and the plurality of ports. A failure detecting means for detecting, and a diagnostic unit capable of outputting the incoming external fault signal to any of the plurality of ports, wherein the diagnostic unit constitutes an inter-node connection device by a plurality of crossbar devices Based on the value of the configuration setting register, and a configuration setting register for preliminarily storing the connection configuration of the connection configuration and the connection position of the connection configuration, and a selection unit that selectively derives a failure signal to the plurality of ports. A port from which the failure signal is derived is determined.

かかる構成とすることによって、複数のクロスバ装置を組み合わせてノード間接続装置を構成したときに、全ノードに障害信号を導出するのではなく、特定のノードに障害信号を導出して障害が影響するノードの範囲を最小限に抑える。   By adopting such a configuration, when a connection device between nodes is configured by combining a plurality of crossbar devices, a failure signal is not derived to all nodes but a failure signal is derived to a specific node and the failure affects. Minimize the range of nodes.

本発明では、ノード間接続装置(IXS)にて障害が発生した場合に、その障害発生箇所とシステム構成に応じて、その障害の影響を受けるノードのみに障害を通知し、影響を受けないノードには障害を通知しないことによって、障害の影響する範囲を限定することが可能となる。   In the present invention, when a failure occurs in the inter-node connection device (IXS), only the node affected by the failure is notified of the failure according to the location of the failure and the system configuration, and the node is not affected. By not notifying the failure, it is possible to limit the range affected by the failure.

本発明が適用されるマルチノードシステムの例を説明する説明図である。It is explanatory drawing explaining the example of the multi-node system to which this invention is applied. マルチノードシステムのIXS(ノード間接続装置)の構成例を説明する説明図である。It is explanatory drawing explaining the structural example of IXS (internode connection apparatus) of a multinode system. クロスバチップの構成例を説明する説明図である。It is explanatory drawing explaining the structural example of a crossbar chip. 診断回路の構成例(0〜15ポート相当部分)を説明する説明図である。It is explanatory drawing explaining the structural example (0-15 port equivalent part) of a diagnostic circuit. 診断回路の構成例(16〜31ポート相当部分)を説明する説明図である。It is explanatory drawing explaining the structural example (16-31 port equivalent part) of a diagnostic circuit. IXS(512ノード)の動作例を説明する説明図である。It is explanatory drawing explaining the operation example of IXS (512 nodes). IXS(256ノード)の動作例を説明する説明図である。It is explanatory drawing explaining the operation example of IXS (256 nodes). 障害が発生したときの上段のクロスバチップの診断回路(0〜15ポート相当部分)の動作を説明する説明図である。It is explanatory drawing explaining operation | movement of the diagnostic circuit (0-15 port equivalent part) of the upper stage crossbar chip when a failure generate | occur | produces. 障害が発生したときの上段のクロスバチップの診断回路(16〜31ポート相当部分)の動作を説明する説明図である。It is explanatory drawing explaining operation | movement of the diagnostic circuit (16-31 port equivalent part) of the upper stage crossbar chip when a failure generate | occur | produces. 障害が発生したときの下段クロスバチップの診断回路(0〜15ポート相当部分)の動作を説明する説明図である。It is explanatory drawing explaining operation | movement of the diagnostic circuit (0-15 port equivalent part) of a lower stage crossbar chip when a failure generate | occur | produces. 障害が発生したときの下段クロスバチップの診断回路(16〜31ポート相当部分)の動作を説明する説明図である。It is explanatory drawing explaining operation | movement of the diagnostic circuit (16-31 port equivalent part) of a lower stage crossbar chip when a failure generate | occur | produces. 参考例のマルチノードシステムの例を説明する説明図である。It is explanatory drawing explaining the example of the multi-node system of a reference example. 参考例のマルチノードシステムの例を説明する説明図である。It is explanatory drawing explaining the example of the multi-node system of a reference example. 参考例のIXSの例を説明する説明図である。It is explanatory drawing explaining the example of IXS of a reference example.

以下、図面を参照しつつ、発明の実施形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また、実施形態の中で説明されている特徴の組み合わせのすべてが発明の解決手段に必須であるとは限らない。   Hereinafter, the present invention will be described through embodiments of the invention with reference to the drawings. However, the following embodiments do not limit the invention according to the claims, and are described in the embodiments. Not all combinations of features are essential to the solution of the invention.

(実施例の構成)
図1は、本発明の一実施例としてのマルチノードシステムの概略を示している。同図において、ノードは1つ以上のCPUとMMUを含んで構成される単独で動作可能なコンピュータシステムであり、CPUに含まれるRCUを介して複数のノードがIXSに接続されてマルチノードシステムを構成している。
(Configuration of Example)
FIG. 1 shows an outline of a multi-node system as an embodiment of the present invention. In the figure, a node is a computer system that can be operated independently including one or more CPUs and an MMU, and a plurality of nodes are connected to IXS via an RCU included in the CPU to form a multi-node system. It is composed.

図2は、図1に示すIXSの構成が示されている。同図において、IXSは1つ以上のクロスバチップを含んで構成されており、IXSに接続されるノード数が、クロスバチップが装備しているポート数を上回る場合にはクロスバチップを多段構成にして、IXSに接続できるノード数を増やしている。図2に示す例では、IXSは2段のファットツリー構成となっていて、ノードに直接接続されているクロスバチップを下段のクロスバチップ、下段のクロスバチップ同士を接続しているクロスバチップを上段のクロスバチップと称する。   FIG. 2 shows the configuration of the IXS shown in FIG. In the figure, IXS is configured to include one or more crossbar chips. When the number of nodes connected to IXS exceeds the number of ports equipped with the crossbar chip, the crossbar chip is configured in multiple stages. The number of nodes that can be connected to IXS is increased. In the example shown in FIG. 2, IXS has a two-stage fat tree configuration. A crossbar chip directly connected to a node is a lower crossbar chip, and a crossbar chip connecting lower crossbar chips is an upper stage. This is called a crossbar chip.

図3は、図2に示す各ロスバチップの構成例を示している。同図において、入力バッファはノードからの命令および命令に対する応答を格納するためのもので、各ポートごとに個別に用意されている。クロスバスイッチは各ノードからの命令および応答を目的のノードへと振り分けるためのスイッチである。出力バッファはクロスバスイッチを抜けた命令および応答を格納するためのもので、入力バッファ同様に各ポートごとに個別に用意されている。   FIG. 3 shows a configuration example of each loss bar chip shown in FIG. In the figure, an input buffer is for storing an instruction from a node and a response to the instruction, and is individually prepared for each port. The crossbar switch is a switch for distributing a command and a response from each node to a target node. The output buffer is for storing a command and response that has passed through the crossbar switch, and is prepared individually for each port, like the input buffer.

各入力ポートには障害コード検出回路が接続されている。障害コード検出回路はノードあるいは接続されたクロスバチップで障害が発生した際にノードあるいはクロスバチップから送信される障害通知コード(チップ内部検出障害)を検出する回路である。各出力ポートには障害コード送信回路が接続されている。障害コード送信回路はノードあるいは接続されたクロスバスイッチに対して障害を通知するための障害通知コードを送信する回路である。この障害通知コードとは、ノード間でやりとりされる通常の命令および命令に対する応答とは異なるデータパターンを使用して、命令および応答とは明確に区別されるコードとして定義されている。   A fault code detection circuit is connected to each input port. The fault code detection circuit is a circuit that detects a fault notification code (chip internal detection fault) transmitted from a node or a crossbar chip when a fault occurs in a node or a connected crossbar chip. A failure code transmission circuit is connected to each output port. The failure code transmission circuit is a circuit that transmits a failure notification code for notifying a node or a connected crossbar switch of a failure. The failure notification code is defined as a code that is clearly distinguished from an instruction and a response by using a data pattern different from a normal instruction and a response to the instruction exchanged between nodes.

診断回路はクロスバチップ内で検出した障害の収集を行い、および障害コード検出回路からの障害通知を受け取り、障害コード送信回路に対して障害通知コードの送信を指示する。図3に示す例では簡略化のためにポート数を絞って記述しているが、入力バッファ、出力バッファ、障害コード検出回路、障害コード送信回路は、クロスバチップが装備するポート数分存在する。   The diagnostic circuit collects faults detected in the crossbar chip, receives a fault notification from the fault code detection circuit, and instructs the fault code transmission circuit to transmit a fault notification code. In the example shown in FIG. 3, the number of ports is reduced for simplification, but there are as many input buffers, output buffers, failure code detection circuits, and failure code transmission circuits as there are ports equipped in the crossbar chip.

図4及び図5は、図3に示す診断回路の構成を2つの図に分けて示している。図3の例では一部のポートだけを示して全体のポートは省略しているが、図4及び図5に示す例では32ポートのクロスバチップの例を前提として示している。多段(2段)構成の下段のクロスバチップの場合は、ポート0〜ポート15の16ポートがノードに接続されるポート、ポート16〜ポート31の16ポートが上段のクロスバチップに接続されるポートとなる。単段構成のクロスバチップの場合は全32ポートがノードに接続され、多段(2段)構成の上段のクロスバチップの場合は全32ポートが下段のクロスバチップに接続される。
繰り返せば、図4は、診断回路のポート0〜ポート15の障害コード送信回路への出力を生成する部分を示しており、図5は同診断回路のポート16〜ポート31の同出力を生成する部分を示している。
4 and 5 separately show the configuration of the diagnostic circuit shown in FIG. 3 in two diagrams. In the example of FIG. 3, only some ports are shown and the entire ports are omitted, but the examples shown in FIGS. 4 and 5 are based on an example of a 32-port crossbar chip. In the case of a lower crossbar chip having a multi-stage (two-stage) configuration, 16 ports from port 0 to port 15 are connected to the node, and 16 ports from port 16 to port 31 are connected to the upper crossbar chip. Become. In the case of a single-stage crossbar chip, all 32 ports are connected to the node, and in the case of a multi-stage (two-stage) upper crossbar chip, all 32 ports are connected to the lower crossbar chip.
To repeat, FIG. 4 shows the part that generates the output to the fault code transmission circuit of ports 0 to 15 of the diagnostic circuit, and FIG. 5 generates the same output of port 16 to port 31 of the diagnostic circuit. Shows the part.

図4において、構成レジスタはマルチノードシステムの構成を設定するためのもので、IXSを構成するクロスバチップが単段(1段)か多段(2段)かを示す1ビットの単段・多段フラグ100、多段(2段)の場合は下段のクロスバチップか上段のクロスバチップかを示す1ビットの段数フラグ101、さらにはノード数がいくつかを示すノード数フラグ102を含んでいる。   In FIG. 4, the configuration register is for setting the configuration of the multi-node system, and a 1-bit single-stage / multi-stage flag indicating whether the crossbar chip constituting the IXS is a single stage (one stage) or a multistage (two stages). In the case of 100 and multi-stage (two stages), a 1-bit stage number flag 101 indicating whether the lower crossbar chip or the upper crossbar chip is included, and a node number flag 102 indicating the number of nodes is included.

クロスバチップの装備するポート数が32ポートの場合には、32ノードまでが単段構成のIXSとなり、33ノード以上512ノードまでは多段(2段)構成のIXSとなる。ノード数の設定は2のべき乗単位であればよいため、例えばノード数フラグとしては2ビットのレジスタを用意して、64ノードは"00"、128ノードは“01”、256ノードは“10”、512ノードは“11”のように表すことができる。   When the number of ports equipped in the crossbar chip is 32 ports, up to 32 nodes are IXS having a single stage configuration, and from 33 nodes to 512 nodes are IXS having a multistage configuration (two stages). Since the number of nodes need only be set to a power of 2, for example, a 2-bit register is prepared as a node number flag, “00” for 64 nodes, “01” for 128 nodes, and “10” for 256 nodes. The 512 node can be expressed as “11”.

OR回路(ORゲート)10は障害コード検出回路からの入力の内、ポート16とポート24の論理ORを、OR回路11は同ポート20とポート28の論理ORを、OR回路12は同ポート18とポート26の論理ORを、OR回路13は同ポート22とポート30の論理ORを、OR回路14は同ポート17とポート25の論理ORを、OR回路15は同ポート21とポート29の論理ORを、OR回路16は同ポート19とポート27の論理ORを、OR回路17は同ポート23とポート31の論理ORをそれぞれとる。   Of the inputs from the fault code detection circuit, the OR circuit (OR gate) 10 performs a logical OR of the ports 16 and 24, the OR circuit 11 performs a logical OR of the ports 20 and 28, and the OR circuit 12 performs the same port 18. OR circuit 13 is the logical OR of port 22 and port 30, OR circuit 14 is the logical OR of port 17 and port 25, and OR circuit 15 is the logical OR of port 21 and port 29. The OR circuit 16 takes the logical OR of the port 19 and the port 27, and the OR circuit 17 takes the logical OR of the port 23 and the port 31.

OR回路20はOR回路10と11の論理ORを、OR回路21はOR回路12と13の論理ORを、OR回路22はOR回路14と15の論理ORを、OR回路23はOR回路16と17の論理ORをそれぞれとる。
OR回路30はOR回路20と21の論理ORを、OR回路31はOR回路22と23の論理ORをそれぞれとる。AND回路(ANDゲート)110は構成レジスタ内の単段・多段フラグ100と段数フラグ101の論理ANDをとるもので、多段(2段)構成でかつ上段クロスバチップであるという条件を表している。
The OR circuit 20 is the logical OR of the OR circuits 10 and 11, the OR circuit 21 is the logical OR of the OR circuits 12 and 13, the OR circuit 22 is the logical OR of the OR circuits 14 and 15, and the OR circuit 23 is the OR circuit 16. Each of the 17 logical ORs is taken.
The OR circuit 30 takes a logical OR of the OR circuits 20 and 21, and the OR circuit 31 takes a logical OR of the OR circuits 22 and 23, respectively. The AND circuit (AND gate) 110 takes a logical AND of the single-stage / multi-stage flag 100 and the stage number flag 101 in the configuration register, and represents a condition that it is a multi-stage (two-stage) configuration and an upper-stage crossbar chip.

セレクタ40は構成レジスタ内のノード数フラグ102の値によって入力を選択し、ノード数フラグの値が“00”であればOR回路30の出力を、“01”であればOR回路20の出力を、“10”であればOR回路10の出力を、“11”であれば障害コード検出回路からの入力の内のポート16をそれぞれ選択する。セレクタ41〜54も図示の如くに同様であり、セレクタ55であれば、ノード数フラグが“00”ならばOR回路31の出力を、“01”であればOR回路23の出力を、“10”であればOR回路17の出力を、“11”であれば障害コード検出回路からの入力の内のポート31をそれぞれ選択する。   The selector 40 selects an input according to the value of the node number flag 102 in the configuration register. If the value of the node number flag is “00”, the output of the OR circuit 30 is selected. If the value of the node number is “01”, the output of the OR circuit 20 is selected. If “10”, the output of the OR circuit 10 is selected, and if “11”, the port 16 among the inputs from the fault code detection circuit is selected. The selectors 41 to 54 are the same as shown in the figure. In the case of the selector 55, the output of the OR circuit 31 is output when the node number flag is “00”, the output of the OR circuit 23 is output when “01”, and “10”. "" Selects the output of the OR circuit 17, and "11" selects the port 31 of the inputs from the fault code detection circuit.

AND回路60はAND回路110の出力とセレクタ40の出力の論理積(AND)をとり、多段(2段)構成でかつ上段クロスバチップであるという条件が有効である場合にセレクタ40の出力を有効にする。AND回路61〜75についても同様である。   The AND circuit 60 takes the logical product (AND) of the output of the AND circuit 110 and the output of the selector 40, and validates the output of the selector 40 when the condition that it is a multi-stage (two-stage) configuration and an upper crossbar chip is valid. To. The same applies to the AND circuits 61 to 75.

OR回路80は、チップ内部検出障害入力と、障害コード検出回路からの入力のうちのポート0と、AND回路60の論理和(OR)をとり、障害コード送信回路への出力の内のポート0を生成する。OR回路81〜95についても同様である。   The OR circuit 80 takes the logical sum (OR) of the chip internal detection failure input, the port 0 of the input from the failure code detection circuit, and the AND circuit 60, and outputs the port 0 of the output to the failure code transmission circuit. Is generated. The same applies to the OR circuits 81-95.

続いて図5において、OR回路120はチップ内部検出障害入力と、障害コード検出回路からの入力の内のポート16の論理ORをとり、障害コード送信回路への出力の内のポート16を生成する。OR回路121〜135についても同様である。   Subsequently, in FIG. 5, the OR circuit 120 performs a logical OR of the port 16 in the chip internal detection failure input and the input from the failure code detection circuit, and generates the port 16 in the output to the failure code transmission circuit. . The same applies to the OR circuits 121 to 135.

(実施例の動作の説明)
次に、図6を参照して、ノード間でやりとりされる命令および命令に対する応答の通過経路について説明する。
(Description of operation of the embodiment)
Next, with reference to FIG. 6, a description will be given of a command exchanged between nodes and a passage route of a response to the command.

多段(2段)構成のIXSを使用する場合、ノード間で命令および応答をやりとりするために複数の経路を定義することができる。ファットツリー構成の場合、上段のクロスバチップが複数存在するので、どの上段のクロスバチップを通過するかによって経路が変わってくる。命令および応答ごとに毎回異なった経路を選択することも可能であるが、ここでは命令および応答を送信するノード(以下、「発行元ノード」という。)と、命令および応答を受信するノード(以下、「宛先ノード」という。)が決まればその通信経路が一意に決まる固定経路方式を採用することとする。   When an IXS having a multi-stage (two-stage) configuration is used, a plurality of paths can be defined for exchanging commands and responses between nodes. In the case of a fat tree configuration, since there are a plurality of upper crossbar chips, the path changes depending on which upper crossbar chip passes through. Although it is possible to select a different route for each command and response, here, a node that transmits the command and response (hereinafter referred to as “issuer node”) and a node that receives the command and response (hereinafter referred to as “issuer node”). The fixed route method is adopted in which the communication route is uniquely determined once the “destination node” is determined.

この固定経路方式においてもどの上段のクロスバチップを通過するかを選択することができるが、図6に示す例では宛先ノードのノード番号に従って経路を決定している。ここでクロスバチップは32ポートを装備しており、IXSは512ノードを接続している。1つの下段のクロスバチップは32ポートの内の16ポートを使用して16ノードを接続するため、IXS内には下段のクロスバチップは32個存在する。下段のクロスバチップの残り16ポートは上段のクロスバチップと接続され、上段のクロスバチップは16個存在する。   In this fixed route method, it is possible to select which upper crossbar chip to pass, but in the example shown in FIG. 6, the route is determined according to the node number of the destination node. Here, the crossbar chip has 32 ports, and IXS connects 512 nodes. Since one lower crossbar chip connects 16 nodes using 16 of the 32 ports, there are 32 lower crossbar chips in IXS. The remaining 16 ports of the lower crossbar chip are connected to the upper crossbar chip, and there are 16 upper crossbar chips.

下段のクロスバチップ0に接続されたノード0から、下段のクロスバチップ31に接続されたノード511へ命令を送信する場合を考える。ノード511は下段のクロスバチップ31の中で(0オリジンで)15番目のノード(16×31+15)なので、下段のクロスバチップ0はノード0から受信した命令を、上段のクロスバチップ15に対して命令を送信する。そして上段のクロスバチップ15は(0オリジンで)31番目のポートに接続されている下段のクロスバチップ31に対して命令を送信する。さらに下段のクロスバチップ31は(0オリジンで)15番目のポートに接続されているノード511へ命令を送信する。以上のようなルールでノード間の命令および応答の通過経路が決定される。   Consider a case where an instruction is transmitted from a node 0 connected to the lower crossbar chip 0 to a node 511 connected to the lower crossbar chip 31. Since the node 511 is the 15th node (16 × 31 + 15) in the lower crossbar chip 31 (at 0 origin), the lower crossbar chip 0 sends an instruction received from the node 0 to the upper crossbar chip 15. Send. Then, the upper crossbar chip 15 transmits a command to the lower crossbar chip 31 connected to the 31st port (with 0 origin). Further, the lower crossbar chip 31 transmits a command to the node 511 connected to the 15th port (with 0 origin). With the rules as described above, the path of command and response between nodes is determined.

また、図7は、256ノード構成のIXSの例について説明している。256ノード構成では下段のクロスバチップが16個と、上段のクロスバチップが8個存在し、1つの下段のクロスバチップが1つの上段のクロスバチップと2ポートで接続されている。そのため、ノード0からノード247への命令と、ノード0からノード255への命令はどちらも、下段のクロスバチップ0から上段のクロスバチップ7を経由して下段のクロスバチップ15へと送信されて宛先ノードへと送られる。ただし、この通過経路は下段のクロスバチップと上段のクロスバチップの接続方法(どのポートとどのポートが接続されるか)によって決まるため、あくまで一例に過ぎない。   FIG. 7 illustrates an example of IXS having a 256-node configuration. In the 256 node configuration, there are 16 lower crossbar chips and 8 upper crossbar chips, and one lower crossbar chip is connected to one upper crossbar chip through two ports. Therefore, both the instruction from the node 0 to the node 247 and the instruction from the node 0 to the node 255 are transmitted from the lower crossbar chip 0 to the lower crossbar chip 15 via the upper crossbar chip 7 and sent to the destination. Sent to the node. However, this passage is only an example because it is determined by the connection method (which port is connected to which port) between the lower crossbar chip and the upper crossbar chip.

次に、図6に示す構成で上段のクロスバチップ15にて障害が発生した場合の動作を図8と図9を参照して説明する。図8は図4の診断回路の構成図に信号の流れを付け加えたものである。   Next, the operation when a failure occurs in the upper crossbar chip 15 in the configuration shown in FIG. 6 will be described with reference to FIGS. FIG. 8 is a diagram in which a signal flow is added to the configuration diagram of the diagnostic circuit of FIG.

まず、図8は上段のクロスバチップ15の診断回路のポート0〜ポート15の部分の動作を説明したものである。チップ内部障害検出入力(1)がアサートされる(有効な状態になる)と、OR回路80〜95の出力(2)が全て有効になり、ポート0〜ポート15の16ポートの障害コード送出回路へ障害通知コードの送出指示が行われる。   First, FIG. 8 illustrates the operation of the ports 0 to 15 of the diagnostic circuit of the upper crossbar chip 15. When the chip internal failure detection input (1) is asserted (becomes valid), all the outputs (2) of the OR circuits 80 to 95 are validated, and a 16-port failure code transmission circuit of ports 0 to 15 is provided. An instruction to send out a failure notification code is issued.

図9は、上段のクロスバチップ15の診断回路のポート16〜ポート31の部分の動作を説明したものである。同様にチップ内部障害検出入力(1)がアサートされると、OR回路120〜135の出力(3)が全て有効になり、ポート16〜ポート31の16ポートの障害コード送出回路へ障害通知コードの送出指示が行われる。   FIG. 9 illustrates the operation of the ports 16 to 31 of the diagnostic circuit of the upper crossbar chip 15. Similarly, when the chip internal fault detection input (1) is asserted, the outputs (3) of the OR circuits 120 to 135 are all valid, and the fault notification code is sent to the 16-port fault code transmission circuit of the ports 16 to 31. Sending instruction is performed.

図10は、下段のクロスバチップ0の診断回路のポート0〜ポート15の部分の動作を説明したものである。上段のクロスバチップ15から送出された障害通知コードは、下段のクロスバチップ0のポート31に入力されるため、診断回路のポート31の障害コード検出(4)がアサートされる。ここで、構成レジスタの単段・多段フラグ100は“1"(多段)、段数フラグ101は"1"(上段)、また、図5の例は512ノード構成であるためノード数フラグ102は“11"(512ノード)となっている。ポート31の障害コード検出(4)がアサートされると、ポート15のセレクタ55の出力(5)が構成レジスタのノード数フラグ102が“11”であるため有効となり、さらにポート15のAND回路75の出力(6)が構成レジスタの単段・多段フラグ100が“1”かつ段数フラグ101が“1”であるため有効となり、よってポート15のOR回路95の出力(7)が有効になり、ポート15の障害コード送出回路へ障害通知コードの送出指示が行われる。ポート0〜ポート14へはセレクタ40〜54の入力がアサートされないため、障害通知コードの送出指示は行われない。下段のクロスバチップ0の診断回路のポート16〜ポート31の部分については変化がないので省略する。   FIG. 10 illustrates the operation of the port 0 to port 15 portions of the diagnostic circuit of the lower crossbar chip 0. Since the failure notification code sent from the upper crossbar chip 15 is input to the port 31 of the lower crossbar chip 0, the failure code detection (4) of the port 31 of the diagnostic circuit is asserted. Here, the single-stage / multi-stage flag 100 of the configuration register is “1” (multistage), the stage number flag 101 is “1” (upper stage), and the example of FIG. 11 "(512 nodes). When the fault code detection (4) of the port 31 is asserted, the output (5) of the selector 55 of the port 15 becomes valid because the node number flag 102 of the configuration register is “11”, and the AND circuit 75 of the port 15 further. Output (6) is valid because the single-stage / multi-stage flag 100 of the configuration register is “1” and the stage number flag 101 is “1”, and therefore the output (7) of the OR circuit 95 of the port 15 is valid. A failure notification code transmission instruction is issued to the failure code transmission circuit of the port 15. Since the inputs of the selectors 40 to 54 are not asserted to the ports 0 to 14, no instruction for sending the failure notification code is issued. Since there is no change in the ports 16 to 31 of the diagnostic circuit of the lower crossbar chip 0, a description thereof will be omitted.

同様に、図7の構成で上段クロスバチップ7にて障害が発生した場合の動作を図11を参照して説明する。図11も図8と同様に図4に示す診断回路の構成図に信号の流れを付け加えたものである。なお、上段のクロスバチップ7の診断回路の動作に関しては、ポート0〜ポート15の部分は図8、ポート16〜ポート31の部分は図9と同じ動作となるので省略する。   Similarly, the operation when a failure occurs in the upper crossbar chip 7 with the configuration of FIG. 7 will be described with reference to FIG. FIG. 11 also shows the configuration of the diagnostic circuit shown in FIG. The operation of the diagnostic circuit of the upper crossbar chip 7 is omitted because the port 0 to port 15 portions are the same as in FIG. 8, and the port 16 to port 31 portions are the same as in FIG.

図11は、下段のクロスバチップ0の診断回路のポート0〜ポート15の部分の動作を説明したものである。上段のクロスバチップ7から送出された障害通知コードは、下段のクロスバチップ0のポート23とポート31に入力されるため、診断回路のポート23とポート31の障害コード検出(11)と(12)がアサートされる。ここで、構成レジスタの単段・多段フラグ100は“1”(多段)、段数フラグ101は“1”(上段)、また、図7は256ノード構成であるためノード数フラグ102は“10”(256ノード)となっている。ポート23とポート31の障害コード検出(11)および(12)がアサートされると、ポート7のセレクタ47の出力(13)とポート15のセレクタ55の出力(14)が構成レジスタのノード数フラグ102が“10”であるため有効となり、さらにポート7のAND回路67の出力(15)とポート15のAND回路75の出力(16)が構成レジスタの単段・多段フラグ100が“1”かつ段数フラグ101が“1”であるため有効となり、よってポート7のOR回路87の出力(17)とポート15のOR回路95の出力(18)が有効になり、ポート7とポート15の障害コード送出回路へ障害通知コードの送出指示が行われる。ポート0〜ポート6とポート8〜ポート14へはセレクタ40〜46と48〜54の入力がアサートされないため、障害通知コードの送出指示は行われない。同様に下段のクロスバチップ0の診断回路のポート16〜ポート31の部分については変化がないので省略する。   FIG. 11 illustrates the operation of the ports 0 to 15 of the diagnostic circuit of the lower crossbar chip 0. Since the fault notification code sent from the upper crossbar chip 7 is input to the port 23 and port 31 of the lower crossbar chip 0, the fault code detection (11) and (12) of the port 23 and port 31 of the diagnostic circuit is performed. Is asserted. Here, the single-stage / multi-stage flag 100 of the configuration register is “1” (multi-stage), the stage number flag 101 is “1” (upper stage), and since FIG. 7 has a 256-node configuration, the node number flag 102 is “10”. (256 nodes). When the fault code detection (11) and (12) of the port 23 and the port 31 is asserted, the output (13) of the selector 47 of the port 7 and the output (14) of the selector 55 of the port 15 are set as the number of nodes flag of the configuration register. 102 is “10”, which is valid, and the output (15) of the AND circuit 67 of the port 7 and the output (16) of the AND circuit 75 of the port 15 are “1” when the single-stage / multistage flag 100 of the configuration register is “1”. Since the stage number flag 101 is “1”, it becomes valid. Therefore, the output (17) of the OR circuit 87 of the port 7 and the output (18) of the OR circuit 95 of the port 15 become valid, and the fault codes of the ports 7 and 15 are valid. An instruction for sending a fault notification code is sent to the sending circuit. Since the inputs of the selectors 40 to 46 and 48 to 54 are not asserted to the ports 0 to 6 and the ports 8 to 14, no instruction for sending the failure notification code is issued. Similarly, portions of port 16 to port 31 of the diagnostic circuit of the lower crossbar chip 0 are omitted because they are not changed.

ここで、説明していない128ノードや64ノード構成でも図4及び図5の診断回路の構成図に従って動作させることによってそれぞれ結果を得ることができる。また、2のべき乗ではないノード数構成の場合も、それを超える2のべき乗(例えば160ノードならば256ノード)に置き換えることによって同様に考えることができる。   Here, a 128 node or 64 node configuration that is not described can be obtained by operating according to the configuration diagram of the diagnostic circuit of FIGS. Further, in the case of the number of nodes that is not a power of 2, it can be similarly considered by replacing it with a power of 2 exceeding that (for example, 256 nodes if 160 nodes).

上述したように、実施例の構成レジスタはマルチノードシステムの構成を設定するために、IXSを構成するクロスバチップが単段(1段)か多段(2段)かを示す1ビットの単段・多段フラグ、多段(2段)の場合は下段のクロスバチップか上段のクロスバチップかを示す1ビットの段数フラグ、さらにはノード数がいくつかを示すノード数フラグを含んでいる。セレクタはノード数フラグに設定された値によって入力の選択を行う。障害が発生した際に、全てのポートに障害通知コードの送信を指示するのではなく、構成レジスタに設定されたIXSの構成に従って障害通知コードの送信を指示するポートを選択する。このようにして、本発明の実施例では、その障害発生箇所とシステム構成に応じて障害通知を送信するノードを限定しているので、障害発生時にその障害が影響するノードの範囲を最小限におさえることができる。   As described above, in order to set the configuration of the multi-node system, the configuration register of the embodiment is a 1-bit single-stage indicating whether the crossbar chip constituting the IXS is a single stage (one stage) or a multistage (two stages). In the case of a multi-stage flag and multi-stage (two stages), a 1-bit stage number flag indicating whether the lower crossbar chip or the upper crossbar chip is included, and a node number flag indicating the number of nodes is included. The selector selects an input according to the value set in the node number flag. When a failure occurs, not all the ports are instructed to transmit a failure notification code, but a port that is instructed to transmit the failure notification code is selected according to the IXS configuration set in the configuration register. In this way, in the embodiment of the present invention, the nodes that transmit the failure notification are limited according to the location of the failure and the system configuration, so that the range of nodes affected by the failure when the failure occurs is minimized. Can be suppressed.

なお、上記発明の実施の形態を通じて説明された実施例や応用例は、用途に応じて適宜に組み合わせて、又は変更若しくは改良を加えて用いることができ、本発明は上述した実施形態の記載に限定されるものではない。そのような組み合わせ又は変更若しくは改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。   It should be noted that the examples and application examples described through the above-described embodiments of the present invention can be used in combination as appropriate according to the application, or can be used with modifications or improvements. The present invention is described in the description of the above-described embodiments. It is not limited. It is apparent from the description of the scope of claims that the embodiments added with such combinations or changes or improvements can be included in the technical scope of the present invention.

(付記)クロスバ装置
複数のポートと、
前記複数のポート相互間を接続するクロスバスイッチ部と、
前記複数のポートのいずれかへの外部障害信号の到来を検出する障害検出手段と、
到来した前記外部障害信号を前記複数のポートのいずれかに出力可能な診断部と、を備え、
前記診断部は、複数のクロスバ装置でノード間接続装置を構成する場合の接続構成と当該接続構成における自己の接続位置を予め記憶する構成設定レジスタと、前記外部障害信号を前記複数のポートに選択的に導出する選択手段と、を備え、前記構成設定レジスタの値に基づいて前記外部障害信号を導出するポートを決定する、クロスバ装置。
(Appendix) Crossbar device Multiple ports,
A crossbar switch unit for connecting the plurality of ports;
Fault detection means for detecting arrival of an external fault signal at any of the plurality of ports;
A diagnostic unit capable of outputting the incoming external fault signal to any of the plurality of ports;
The diagnostic unit selects a plurality of ports as a configuration setting register that pre-stores a connection configuration in a case where an inter-node connection device is configured with a plurality of crossbar devices, and a connection position of the connection unit in the connection configuration. A crossbar device for determining a port from which the external fault signal is derived based on a value of the configuration setting register.

(実施例の効果の説明)
以上説明したように、本発明の実施例においては、以下に記載するような効果を奏する。
本発明の構成では、多段(2段)構成のIXSの上段のクロスバチップで障害が発生した場合に、IXSに接続されている全ノードに障害通知コードを送信するのではなく、特定のノードのみに障害通知コードを送信しているので、IXSで発生した障害の波及範囲が限定される。これは先に説明したように、ノード間の通信経路を固定経路にして、送信元ノードと宛先ノードが決まればその通信経路が一意に決まるので、障害が発生した上段のクロスバチップを経由せずに通信が実施できるノード同士は、その障害の影響を受けずにノード間の通信を継続できる。
(Explanation of effect of embodiment)
As described above, the embodiment of the present invention has the following effects.
In the configuration of the present invention, when a failure occurs in the upper crossbar chip of IXS having a multi-stage (two-stage) configuration, a failure notification code is not transmitted to all the nodes connected to IXS but only a specific node is transmitted. Since the failure notification code is transmitted to the network, the spread range of the failure occurring in IXS is limited. As described above, the communication path between nodes is fixed, and if the source node and destination node are determined, the communication path is uniquely determined, so it does not go through the upper crossbar chip where the failure occurred. Nodes that can communicate with each other can continue communication between nodes without being affected by the failure.

10〜17,20〜23,30,31,80〜95,120〜135 ORゲート、40〜55 セレクタ、60〜75 ANDゲート、100 単段・多段フラグレジスタ、101 段数フラグレジスタ、102 ノード数フラグレジスタ 10 to 17, 20 to 23, 30, 31, 80 to 95, 120 to 135 OR gate, 40 to 55 selector, 60 to 75 AND gate, 100 single stage / multistage flag register, 101 stage number flag register, 102 node number flag register

Claims (6)

複数のノード相互間を接続するノード間接続装置を備えるマルチノードシステムであって、
前記ノード間接続装置は複数のクロスバ装置を含み、
前記クロスバ装置は、複数のポートと、前記複数のポート相互間を接続するクロスバスイッチ部と、前記複数のポートのいずれかへの外部障害信号の到来を検出する障害検出手段と、到来した前記外部障害信号を前記複数のポートのいずれかに出力可能な診断部と、
を備え、
前記診断部は、前記ノード間接続装置における前記複数のクロスバ装置の接続構成と当該接続構成における自己の接続位置を予め記憶する構成設定レジスタと、前記外部障害信号を前記複数のポートに選択的に導出する選択手段と、を備え、前記構成設定レジスタの値に基づいて前記外部障害信号を導出するポートを決定する、
マルチノードシステム。
A multi-node system comprising an inter-node connection device for connecting a plurality of nodes,
The inter-node connection device includes a plurality of crossbar devices,
The crossbar device includes: a plurality of ports; a crossbar switch unit that connects the plurality of ports; a failure detection unit that detects arrival of an external failure signal to any of the plurality of ports; A diagnostic unit capable of outputting a failure signal to any of the plurality of ports;
With
The diagnostic unit is configured to selectively store a connection configuration of the plurality of crossbar devices in the inter-node connection device, a configuration setting register that pre-stores its own connection position in the connection configuration, and the external fault signal to the plurality of ports. Deriving selection means, and determining a port from which the external fault signal is derived based on a value of the configuration setting register;
Multi-node system.
前記診断部は前記外部障害信号に加えて内部で発生した内部障害信号を前記複数のポートに出力可能であり、前記外部障害信号を前記複数のポートに選択的に導出すると共に前記内部障害信号を前記複数のポートに出力する、ことを特徴とする請求項1に記載のマルチノードシステム。   The diagnostic unit can output an internal fault signal generated internally in addition to the external fault signal to the plurality of ports, and selectively derive the external fault signal to the plurality of ports and output the internal fault signal. The multi-node system according to claim 1, wherein the multi-node system outputs to the plurality of ports. 前記複数のクロスバ装置の接続構成がファットツリー状であ、請求項1又は2に記載のマルチノードシステム。 Wherein the connection configuration of a plurality of crossbar devices Ru fat tree shape der, multi-node system according to claim 1 or 2. 発行元ノードと宛先ノードが決まれば、発行元ノードからノード間接続装置を経て宛先ノードに至る通信を行う際の、ノード間接続装置内での通信経路が一意に決まる固定経路方式を用いるものである、請求項3に記載のマルチノードシステム。 If the issuer node and the destination node are determined, a fixed route method is used in which the communication route in the internode connection device is uniquely determined when communication from the issuer node to the destination node via the internode connection device is performed. there, a multi-node system according to claim 3. 前記構成設定レジスタは、前記ノード間接続装置を構成するクロスバ装置が単段か多段かを示す多段・単段フラグレジスタと、多段の場合に下段か上段か示す段数フラグレジスタと、前記マルチノードシステムに含まれるノードの数を示すノード数フラグレジスタ、を含む請求項1乃至4のいずれかに記載のマルチノードシステム。 The configuration setting register includes a multi-stage / single-stage flag register indicating whether the crossbar device constituting the inter-node connection apparatus is a single stage or a multi-stage, a stage number flag register indicating whether the multi-stage system is a lower stage or an upper stage, and the multi-node system. The multi-node system according to claim 1, further comprising a node number flag register indicating a number of nodes included in the node . ルチノードシステムにおける障害処理方法であって、
前記マルチノードシステムは、複数のノード相互間を接続するノード間接続装置を備え、
前記ノード間接続装置は、複数のクロスバ装置により構成され
各クロスバ装置は、複数のポートを備え、
前記障害処理方法は、
各クロスバ装置に設けられた構成設定レジスタに、前記複数のクロスバ装置の接続構成と当該接続構成における自己の接続位置を予め記憶し、
前記構成設定レジスタに記憶されたクロスバ装置の接続構成に従って障害信号を送信するポートを選択する、
ことを特徴とする障害処理方法。
A failure processing method in Ma Ruchino de system,
The multi-node system includes an inter-node connection device that connects a plurality of nodes,
The inter-node connection device is composed of a plurality of crossbar devices,
Each crossbar device has multiple ports,
The failure handling method is:
In the configuration setting register provided in each crossbar device, the connection configuration of the plurality of crossbar devices and its own connection position in the connection configuration are stored in advance .
Selecting a port for transmitting a failure signal according to the connection configuration of the crossbar device stored in the configuration setting register;
A failure processing method characterized by the above.
JP2011047806A 2011-03-04 2011-03-04 Multi-node system including failure processing circuit and failure processing method Expired - Fee Related JP5685993B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011047806A JP5685993B2 (en) 2011-03-04 2011-03-04 Multi-node system including failure processing circuit and failure processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011047806A JP5685993B2 (en) 2011-03-04 2011-03-04 Multi-node system including failure processing circuit and failure processing method

Publications (2)

Publication Number Publication Date
JP2012185640A JP2012185640A (en) 2012-09-27
JP5685993B2 true JP5685993B2 (en) 2015-03-18

Family

ID=47015688

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011047806A Expired - Fee Related JP5685993B2 (en) 2011-03-04 2011-03-04 Multi-node system including failure processing circuit and failure processing method

Country Status (1)

Country Link
JP (1) JP5685993B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118209833A (en) * 2022-12-16 2024-06-18 华为技术有限公司 Chip fault analysis method and device

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3679813B2 (en) * 1991-07-22 2005-08-03 株式会社日立製作所 Parallel computer
KR0150070B1 (en) * 1995-11-09 1998-10-15 양승택 A hierarchical crossbar interconnection network for the cluster-based parallel processing computer
JPH09231187A (en) * 1996-02-22 1997-09-05 Hitachi Ltd Data transfer method of parallel computer
JP2000330952A (en) * 1999-05-20 2000-11-30 Nec Corp Unit and method for flow control over multistage connection switch system
JP3961517B2 (en) * 2004-07-14 2007-08-22 エヌイーシーコンピュータテクノ株式会社 System, crossbar device, and fault notification method used therefor
JP3988146B2 (en) * 2004-07-27 2007-10-10 日本電気株式会社 Multi-node system, inter-node crossbar switch, node, switch program and node program
JP4131263B2 (en) * 2004-12-22 2008-08-13 日本電気株式会社 Multi-node system, node device, inter-node crossbar switch, and failure processing method
JP5470884B2 (en) * 2009-02-12 2014-04-16 日本電気株式会社 Multi-node system, abnormality processing method, switch, node, and program

Also Published As

Publication number Publication date
JP2012185640A (en) 2012-09-27

Similar Documents

Publication Publication Date Title
US10176063B2 (en) Faulty core recovery mechanisms for a three-dimensional network on a processor array
US8001306B2 (en) Interface unit and communication system having a master/slave structure
JP4782823B2 (en) User terminal, master unit, communication system and operation method thereof
JP4776374B2 (en) Redundant supervisory control system and redundant switching method for the same system
US8755287B2 (en) Network managing device and network managing method
US9876739B2 (en) System and method for failure detection in rings
KR101463342B1 (en) Relay device, connection management method, and information communication system
JP3988146B2 (en) Multi-node system, inter-node crossbar switch, node, switch program and node program
CN101126994B (en) Data processing management apparatus, mode management apparatus and mode management method
US20150098317A1 (en) Linear protection switching method and apparatus for protecting network segmented into multi-domain
JP5685993B2 (en) Multi-node system including failure processing circuit and failure processing method
JP2012104967A (en) Duplexed computer network system, network connection device, and failure detection and coping method
JP5168499B2 (en) Communication network system and high-reliability method of path
JP4024607B2 (en) Optical cross-connect device
JP4131263B2 (en) Multi-node system, node device, inter-node crossbar switch, and failure processing method
US9001646B2 (en) Information transmission device, information transmission system and information transmission method
JPWO2013168258A1 (en) Standby redundant unit
JP2005159546A (en) Network system
JP6394727B1 (en) Control device, control method, and fault tolerant device
JP6272264B2 (en) Information processing apparatus and network system
JP2005157653A (en) Data processor and data processing method
JP5459117B2 (en) Data transmission apparatus and data transmission method
JP2006074371A (en) Failure restoration method, redundant configuration method, and packet processor
JP4863095B2 (en) Multi-node computer system and inter-node connection device
JP4788469B2 (en) Redundant CPU system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150106

R150 Certificate of patent or registration of utility model

Ref document number: 5685993

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees