JP3479842B2 - Clock switching system and method for computer system - Google Patents

Clock switching system and method for computer system

Info

Publication number
JP3479842B2
JP3479842B2 JP2001014789A JP2001014789A JP3479842B2 JP 3479842 B2 JP3479842 B2 JP 3479842B2 JP 2001014789 A JP2001014789 A JP 2001014789A JP 2001014789 A JP2001014789 A JP 2001014789A JP 3479842 B2 JP3479842 B2 JP 3479842B2
Authority
JP
Japan
Prior art keywords
clock
card
failure
information
cards
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001014789A
Other languages
Japanese (ja)
Other versions
JP2002215261A (en
Inventor
孝人 松橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001014789A priority Critical patent/JP3479842B2/en
Publication of JP2002215261A publication Critical patent/JP2002215261A/en
Application granted granted Critical
Publication of JP3479842B2 publication Critical patent/JP3479842B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、計算機システムの
クロック切替方式および方法に関し、特に、複数のカー
ドから構成される計算機システムでのカード内の障害発
生時における計算機システムのクロック切替方式および
方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a clock switching method and method for a computer system, and more particularly to a clock switching method and method for a computer system when a failure occurs in the card in the computer system including a plurality of cards. .

【0002】[0002]

【従来の技術】今日の企業情報システムにおいては、イ
ンターネットの普及に伴い、より高度なミッションクリ
ティカル性が要求されている。この様な企業情報システ
ムの中核をなす計算機システムへの可用性の要求は、非
常に高くなっている。また、企業情報システムで使用さ
れる計算機システムは、従来のメインフレーム主体のシ
ステムから、UNIX(登録商標)に代表されるような
オープンシステムに移行しつつあり、より安価なシステ
ムで高可用性システムの構築が求められている。
2. Description of the Related Art Today's enterprise information systems are required to have higher mission-criticality as the Internet spreads. The demand for availability of the computer system, which is the core of such an enterprise information system, is extremely high. Further, the computer system used in the corporate information system is shifting from a conventional mainframe-based system to an open system represented by UNIX (registered trademark), and is a cheaper system and a high availability system. It is required to be built.

【0003】このように、より安いコストでミッション
クリティカル性を実現するために、1つの解決策とし
て、システムのクロックカードとして、通常運用のため
の現用クロックカードと故障したときの予備のための待
機クロックカードとを有し、現用クロックカードが故障
した場合に予備クロックカードに切り替えるような制御
を行う計算機システムが必要となる。
Thus, in order to realize the mission-criticality at a lower cost, one solution is as a system clock card, an active clock card for normal operation, and a standby for standby when a failure occurs. A computer system having a clock card and performing control to switch to the spare clock card when the current clock card fails is required.

【0004】ところが、通常、上記の様な構成だけの計
算機システムでは、システムのクロック障害が発生した
場合、システム全体が共通に、このクロックを使用して
いるので、クロック障害の影響がシステム全体に波及
し、例えば、CPUカードや、メモリカード、IOカー
ドなどに影響が及び、上記の複数のカードでの障害が検
出される場合が多い。
However, in a computer system having only the above configuration, when a system clock failure occurs, the entire system commonly uses this clock, so that the effect of the clock failure affects the entire system. In many cases, the influence spreads to a CPU card, a memory card, an IO card, and the like, and failures in the above-mentioned plurality of cards are detected.

【0005】計算機システム内で障害が発生した場合
は、サービスプロセッサなどが上記カードが保持してい
る障害情報を収集して、被疑箇所を特定するが、クロッ
ク障害の多くの場合では、計算機システム内の複数のカ
ードが、自分が障害を検出したという障害情報を保持し
ているために、真の障害のあるカードを検出することが
できないため、保守員が、各カードが保持している障害
情報を基に、これらのカードを順番に交換し、直らない
場合に、最終的に保守員の判断でクロック障害だと推定
し、クロックカードを交換するという方法をとってい
る。
When a failure occurs in the computer system, the service processor or the like collects the failure information held by the card to identify the suspected portion, but in many cases of the clock failure, the failure occurs in the computer system. The maintenance personnel cannot detect the true faulty card because multiple cards in the card have fault information that they have detected faults. Based on the above, these cards are replaced in order, and if the problem is not resolved, it is estimated that the maintenance engineer finally determined that there is a clock failure, and the clock card is replaced.

【0006】[0006]

【発明が解決しようとする課題】しかしながら、上記の
ような従来技術では、クロックカード以外のカードが障
害であると判断されることが多く、被疑箇所がクロック
であると特定することが難しいという問題点がある。確
かに、クロックカードそのものが、自分が障害を検出し
たという情報をもつケースもあるが、実際はクロック自
身で検出が出来ないような障害が大部分であり、この障
害のケースが特に問題である。
However, in the above-described conventional techniques, it is often determined that a card other than the clock card has a failure, and it is difficult to identify the suspected part as the clock. There is a point. Certainly, there are cases in which the clock card itself has the information that it has detected a failure, but in reality, most of the failures cannot be detected by the clock itself, and this failure case is a particular problem.

【0007】また、上記のような従来技術では、クロッ
ク障害が発生してシステムが停止した場合には、クロッ
クカードの交換までに長時間を要し、また人手による判
断が入るために、システムが回復するまでに長時間を要
し、その間のシステム停止により、ユーザ業務の運用に
大きな影響を及ぼすという問題点がある。
Further, in the prior art as described above, when the system is stopped due to a clock failure, it takes a long time to replace the clock card and human judgment is required. It takes a long time to recover, and there is a problem that the system operation during that time has a great influence on the operation of user business.

【0008】本発明の目的は、上記問題点を鑑み、クロ
ック障害が発生した場合に、人手の介入なしで、被疑の
クロックカードを検出し、クロックの供給元を現用のク
ロックカードから待機のクロックカードに切り替えるこ
とにある。
In view of the above problems, an object of the present invention is to detect a suspected clock card without a human intervention when a clock failure occurs, and to supply a clock from a current clock card to a standby clock. It's about switching to cards.

【0009】[0009]

【課題を解決するための手段】上記の目的を達成するた
めに、本発明の計算機システムのクロック切替方式は、
現用のクロック供給元である現用のクロックカードと、
前記クロック供給元の待機として使用する待機のクロッ
クカードと、前記クロック供給元からクロックを受ける
複数のカードとを備える計算機システムのクロック切替
方式において、計算機システムの障害を検出する障害検
出手段と、検出した障害の被疑箇所を指摘する被疑箇所
指摘手段と、前記被疑箇所指摘手段が被疑箇所として複
数のカードを指摘したときに前記クロックカードを含む
カードから収集した障害情報を基にクロック障害かどう
かを判定するクロック障害判定手段と、前記クロック障
害判定手段の判定に基づいて前記クロック供給元を前記
現用のクロックカードから前記待機のクロックカードに
切り替えるクロック切替手段とを有することを特徴とし
ている。
In order to achieve the above object, the clock switching system of the computer system of the present invention comprises:
An active clock card that is the active clock supplier,
In a clock switching system of a computer system including a standby clock card used as a standby of the clock supply source and a plurality of cards for receiving a clock from the clock supply source, a failure detection unit for detecting a failure of the computer system, The suspicious point indicating means for pointing out the suspicious point of the fault, and when the suspicious point indicating means points out a plurality of cards as the suspicious points, it is determined whether or not there is a clock failure based on the failure information collected from the card including the clock card. It is characterized by having a clock failure determination means for determining and a clock switching means for switching the clock supply source from the current clock card to the standby clock card based on the determination of the clock failure determination means.

【0010】更に、前記被疑個所指摘手段は、前記クロ
ックカードを含むカードの障害発生時の交換履歴を記録
した履歴テーブルに同一カードでの同一の障害によるカ
ード交換後に未交換の履歴情報があるかどうかを検索す
る手段を有し、前記履歴情報を検出した場合に、前記ク
ロック障害判定手段は、前記現用のクロックカードをク
ロック障害による被疑個所として指摘する手段を有する
ことを特徴としている。
Further, the suspicious point indicating means has a history table in which a replacement history at the time of occurrence of a failure of the card including the clock card has history information which has not been replaced after the card replacement due to the same failure of the same card. If the history information is detected, the clock failure determination means has means for pointing out the working clock card as a suspected place due to a clock failure.

【0011】更に、前記被疑箇所指摘手段が被疑箇所と
して複数のカードを指摘したときに、前記クロック障害
判定手段は、収集する障害情報に該当する伝播カードの
障害情報一覧を予め登録した障害伝播情報テーブルに対
して前記各カードから収集した障害情報を基に検索する
手段を有することを特徴としている。
Further, when the suspected-point indicating means points out a plurality of cards as suspected points, the clock failure judging means preliminarily registers a failure information list of the propagation cards corresponding to the collected failure information. It is characterized in that it has means for searching the table based on the failure information collected from the respective cards.

【0012】また、本発明の第1の計算機システムのク
ロック切替方法は、現用のクロック供給元である現用の
クロックカードと、前記クロック供給元の待機として使
用する待機のクロックカードと、前記クロック供給元か
らクロックを受ける複数のカードとを備える計算機シス
テムのクロック切替方法であって、前記カードの障害を
管理するサービスプロセッサを準備し、前記サービスプ
ロセッサは、前記クロックカードを含むカードの障害発
生時の交換履歴を記録した履歴テーブルを記憶部に準備
し、前記クロックカードを含むカードに障害が発生する
と、前記各カードから障害種別コードを含む障害情報を
収集し、前記障害情報を基に同一カードでの同一の障害
によるカード交換後に未交換の履歴情報があるかどうか
を履歴テーブルから検索し、前記同一カードでの同一の
障害によるカード交換後に未交換の履歴情報を検出した
場合には、前記現用のクロックカードをクロック障害に
よる被疑カードとして検出し、前記クロック供給元を前
記現用のクロックカードから前記待機のクロックカード
に切り替えることを特徴としている。
A first computer system clock switching method according to the present invention is a current clock card that is a current clock supply source, a standby clock card that is used as a standby of the clock supply source, and the clock supply. A clock switching method for a computer system comprising a plurality of cards that originally receive a clock, wherein a service processor that manages a failure of the card is prepared, and the service processor is provided when a failure occurs in a card including the clock card. A history table that records exchange history is prepared in the storage unit, and when a failure occurs in a card including the clock card, failure information including a failure classification code is collected from each card, and the same card is used based on the failure information. Whether there is history information that has not been exchanged after card exchange due to the same failure of When the history information that has not been exchanged is detected after the card is exchanged due to the same fault in the same card, the working clock card is detected as a suspect card due to a clock fault, and the clock source is the working card. It is characterized in that the clock card is switched to the standby clock card.

【0013】また、本発明の第2の計算機システムのク
ロック切替方法は、現用のクロック供給元である現用の
クロックカードと、前記クロック供給元の待機として使
用する待機のクロックカードと、前記クロック供給元か
らクロックを受ける複数のカードとを備える計算機シス
テムのクロック切替方法であって、前記カードの障害を
管理するサービスプロセッサを準備し、前記サービスプ
ロセッサは、障害種別コードに該当する伝播カードの障
害情報一覧を予め登録した障害伝播情報テーブルを記憶
部に準備し、前記クロックカードを含むカードに障害が
発生すると、前記各カードから障害種別コードを含む障
害情報を収集し、前記収集した障害情報から被疑箇所と
して複数のカードを検出する場合には、障害伝播情報テ
ーブルに対して前記収集した障害情報を基に該当する障
害情報が登録されているかどうかを検索し、前記該当す
る障害情報が登録されていない場合には、前記現用のク
ロックカードをクロック障害による被疑カードとして検
出し、前記クロック供給元を前記現用のクロックカード
から前記待機のクロックカードに切り替えることを特徴
としている。
A second computer system clock switching method according to the present invention is a working clock card that is a working clock supply source, a standby clock card that is used as a standby of the clock supply source, and the clock supply. A clock switching method for a computer system comprising a plurality of cards which originally receive a clock, wherein a service processor for managing a fault of the card is prepared, and the service processor has fault information of a propagation card corresponding to a fault type code. A failure propagation information table in which a list is registered in advance is prepared in the storage unit, and when a failure occurs in a card including the clock card, failure information including a failure classification code is collected from each of the cards and suspected from the collected failure information. If you want to detect multiple cards as locations, Search whether the corresponding failure information is registered based on the collected failure information, if the corresponding failure information is not registered, detect the working clock card as a suspect card due to clock failure, It is characterized in that the clock supply source is switched from the active clock card to the standby clock card.

【0014】更に、上記の第1または第2の計算機シス
テムのクロック切替方法において、前記サービスプロセ
ッサは、前記現用のクロックカードをクロック障害によ
る被疑カードとして検出した場合には、表示部にクロッ
クカードを切り替えたことと被疑個所を示す前記クロッ
クカードとを表示することを特徴としている。
Further, in the above clock switching method for the first or second computer system, when the service processor detects the working clock card as a suspect card due to a clock failure, the clock card is displayed on the display unit. It is characterized in that the switching and the clock card indicating the suspected place are displayed.

【0015】[0015]

【発明の実施の形態】次に、本発明の第1の実施の形態
について、図面を参照して説明する。図1を参照する
と、本実施の形態における計算機システム10は、現用
のクロックカード100と、待機のクロックカード11
0と、CPUカード120,130と、I/Oカード1
40,150と、メモリカード160,170と、シス
テムバス180と、クロック供給パス190,195
と、サービスプロセッサ196と、クロック切替部19
8と、診断用パス197とから構成される。
BEST MODE FOR CARRYING OUT THE INVENTION Next, a first embodiment of the present invention will be described with reference to the drawings. Referring to FIG. 1, a computer system 10 according to the present embodiment includes an active clock card 100 and a standby clock card 11.
0, CPU cards 120 and 130, and I / O card 1
40, 150, memory cards 160, 170, system bus 180, clock supply paths 190, 195
A service processor 196 and a clock switching unit 19
8 and a diagnostic path 197.

【0016】クロックカード100は、クロック供給パ
ス190を用いて、CPUカード120、CPUカード
130、I/Oカード140、I/Oカード150、メ
モリカード160、およびメモリカード170にクロッ
クを供給している。
The clock card 100 supplies a clock to the CPU card 120, the CPU card 130, the I / O card 140, the I / O card 150, the memory card 160, and the memory card 170 using the clock supply path 190. There is.

【0017】クロックカード110は、クロック供給パ
ス195を用いて、CPUカード120、CPUカード
130、I/Oカード140、I/Oカード150、メ
モリカード160、およびメモリカード170にクロッ
クを供給している。
The clock card 110 supplies a clock to the CPU card 120, the CPU card 130, the I / O card 140, the I / O card 150, the memory card 160, and the memory card 170 using the clock supply path 195. There is.

【0018】CPUカード120、CPUカード13
0、I/Oカード140、I/Oカード150、メモリ
カード160、およびメモリカード170は、システム
バス180に接続され、お互いにコマンドやデータの送
受信を行っている。
CPU card 120 and CPU card 13
0, I / O card 140, I / O card 150, memory card 160, and memory card 170 are connected to the system bus 180 and exchange commands and data with each other.

【0019】また、計算機システム10には、サービス
プロセッサ196が、診断用パス197を介して、クロ
ックカード100、クロックカード110、CPUカー
ド120、CPUカード130、I/Oカード140、
I/Oカード150、メモリカード160、およびメモ
リカード170に接続されている。なお、診断用パス1
97にはサービスプロセッサ196内部のクロックが入
っており、診断プロセッサ196は各カードに障害情報
の保持のためにクロックを供給している。
Further, in the computer system 10, the service processor 196 is connected to the clock card 100, the clock card 110, the CPU card 120, the CPU card 130, the I / O card 140, via the diagnostic path 197.
It is connected to the I / O card 150, the memory card 160, and the memory card 170. In addition, diagnostic path 1
97 includes a clock inside the service processor 196, and the diagnostic processor 196 supplies a clock to each card for holding failure information.

【0020】図1には、カード100〜170は、図示
していない障害情報格納レジスタをそれぞれ有してお
り、サービスプロセッサ196は、診断パス197経由
で、この各カードの障害情報格納レジスタにアクセス
し、各カードの障害情報の収集を行う。この場合の各カ
ードの障害情報格納レジスタ(障害が発生していない場
合はオール0)は、診断用パスから供給されるクロック
で各カード内で発生するハードウェアによる障害情報を
格納する。
In FIG. 1, each of the cards 100 to 170 has a failure information storage register (not shown), and the service processor 196 accesses the failure information storage register of each card via a diagnostic path 197. Then, the failure information of each card is collected. In this case, the fault information storage register of each card (all 0s when no fault has occurred) stores the fault information by the hardware generated in each card at the clock supplied from the diagnostic path.

【0021】この場合、障害情報が障害情報格納レジス
タに格納されると、カード内の障害検出信号が発生し、
診断用パス197上の障害検出信号に出力される。診断
用パス197上の障害検出信号には、各カード内の障害
検出信号がオープンコレクタ回路を介して出力されるよ
うになっており、カード内の障害検出信号は各カードか
ら発生する障害検出信号とORされた状態で出力される
ことになる。すなわち、いずれかのカード内の障害情報
格納レジスタに障害情報が格納されると、診断用パス1
97上の障害検出信号がオンになり、サービスプロセッ
サ196に障害を検出したことを通知することになる。
In this case, when the fault information is stored in the fault information storage register, a fault detection signal in the card is generated,
It is output to the fault detection signal on the diagnostic path 197. As the fault detection signal on the diagnostic path 197, the fault detection signal in each card is output via the open collector circuit, and the fault detection signal in the card is the fault detection signal generated from each card. Will be output in an ORed state. That is, when the failure information is stored in the failure information storage register in any of the cards, the diagnostic path 1
The fault detection signal on 97 will turn on, notifying the service processor 196 that a fault has been detected.

【0022】サービスプロセッサ196は、クロック切
替装置198に接続され、現用クロックカード100と
待機クロックカード110との切替制御を行う。更に、
サービスプロセッサ196は、図示していない記憶部
に、障害発生時における装置交換の履歴を示す装置交換
履歴テーブルのエリアを、障害発生時における障害種別
コード(障害情報格納レジスタの内容)によるメッセー
ジへの変換および伝播カードの障害情報を示す障害情報
伝播テーブルのエリアを、それぞれ割り付けている。装
置交換履歴テーブルは、保守者が障害発生によるカード
の交換または交換しないで障害情報を無視したときに、
履歴として追加される。障害情報伝播テーブルは、予
め、シミュレーションにより作成されたものであり、シ
ステム構築時に予め設定されている。
The service processor 196 is connected to the clock switching device 198 and controls the switching between the active clock card 100 and the standby clock card 110. Furthermore,
The service processor 196 stores the area of the device replacement history table showing the history of device replacement at the time of failure in a storage unit (not shown) into a message according to the failure type code (content of the failure information storage register) at the time of failure. Areas of a failure information propagation table showing failure information of the conversion and propagation cards are respectively allocated. The device replacement history table is used when the maintenance engineer replaces the card due to a failure or does not replace the card and ignores the failure information.
It is added as a history. The failure information propagation table is created in advance by simulation and is set in advance when the system is constructed.

【0023】通常運用時には、CPUカード120、C
PUカード130、I/Oカード140、I/Oカード
150、メモリカード160、およびメモリカード17
0の各カードは、現用のクロックカード100からのク
ロックをクロック供給パス190を介して使用してい
る。この場合、待機のクロックカード110は、クロッ
クをクロック供給パス195に発生していない。なお、
カード120〜170内において、現用のクロックおよ
び待機のクロックの各カード内部への供給回路は、クロ
ック供給パス190からのクロックとクロック供給パス
195からのクロックのOR回路となっている。
During normal operation, the CPU card 120, C
PU card 130, I / O card 140, I / O card 150, memory card 160, and memory card 17
Each card of 0 uses the clock from the current clock card 100 via the clock supply path 190. In this case, the standby clock card 110 has not generated a clock on the clock supply path 195. In addition,
In the cards 120 to 170, the circuits for supplying the current clock and the standby clock to the inside of each card are OR circuits of the clock from the clock supply path 190 and the clock from the clock supply path 195.

【0024】次に、図1〜図4を参照して、本発明の第
1の実施の形態の動作、すなわち、クロック切替の処理
について説明する。障害が発生すると、計算機システム
10は、動作を停止し、計算機システム10内の現用の
クロックカード100、待機のクロックカード110、
CPUカード120、CPUカード130、I/Oカー
ド140、I/Oカード150、メモリカード160、
およびメモリカード170は、その時点の各カードの状
態を障害情報格納レジスタに格納する。この時、各障害
情報格納レジスタには、そのカード自身が障害を検出し
た(ハードウェア障害の検出)ならば、サービスプロセ
ッサ196からの供給クロックにより自分が障害を検出
したという情報が保持される(図2のステップS1〜S
3)。
Next, the operation of the first embodiment of the present invention, that is, the clock switching process will be described with reference to FIGS. When a failure occurs, the computer system 10 stops operating, and the current clock card 100, the standby clock card 110 in the computer system 10,
CPU card 120, CPU card 130, I / O card 140, I / O card 150, memory card 160,
The memory card 170 stores the state of each card at that point in the failure information storage register. At this time, if the card itself detects a failure (detection of a hardware failure), each failure information storage register holds information that the failure is detected by the clock supplied from the service processor 196 ( Steps S1 to S of FIG.
3).

【0025】すると、診断用パス197上の障害検出信
号がオンになり、サービスプロセッサ196に対して障
害検出したことを通知する。
Then, the fault detection signal on the diagnostic path 197 is turned on to notify the service processor 196 that a fault has been detected.

【0026】障害検出信号がオンになることによりサー
ビスプロセッサ196は、診断パス197を介して、各
カードが保持している障害情報格納レジスタから障害情
報(アクセスしたときのカード名と障害情報格納レジス
タの内容を含む)を収集し、解析を開始する(図2のス
テップS11)。この場合、サービスプロセッサ196
は、収集した情報のうち障害情報格納レジスタに障害が
発生した情報が入っていない場合(例えば、障害コード
がオール0)は無視する。また、サービスプロセッサ
は、収集する毎に障害情報コードが有効(障害コードが
オール0になっていない)な場合には、そのアクセスし
たカードが障害の被疑カードであることを検出する。
When the fault detection signal is turned on, the service processor 196 receives fault information from the fault information storage register held by each card via the diagnostic path 197 (card name and fault information storage register when accessed). (Including the contents of the above) is collected and the analysis is started (step S11 in FIG. 2). In this case, the service processor 196
Ignores the failure information in the failure information storage register out of the collected information (for example, failure code is all 0). In addition, the service processor detects that the accessed card is a suspected card of failure when the failure information code is valid (the failure code is not all 0) each time it is collected.

【0027】被疑カードの絞込みを行うために、サービ
スプロセッサ196が収集した障害情報を分析する際
に、装置交換履歴テーブルの検索および解析を行うこと
になるが、この装置交換履歴テーブルを用いてもクロッ
ク障害の可能性ありと判断しない場合には、更に、障害
情報の解析を行う。ただ一つだけのカード、例えばCP
Uカード120のみが、自分が障害を検出したという障
害情報を有している場合には、サービスプロセッサ19
6は、CPUカード120の障害であると判断し、現用
のクロックカード100の障害とは判断しない。一方、
サービスプロセッサ196が収集した障害情報を分析す
る際に、複数枚のカードが、自分が障害を検出したとい
う障害情報を有している場合には、現用クロックカード
100が障害である可能性が考えられるので、サービス
プロセッサ196は、障害情報伝播テーブルを用いて検
索を開始する。
In order to narrow down the suspected cards, the device replacement history table is searched and analyzed when analyzing the failure information collected by the service processor 196. Even if this device replacement history table is used. When it is not determined that there is a possibility of a clock failure, the failure information is further analyzed. Only one card, for example CP
If only the U card 120 has the fault information that it has detected the fault, the service processor 19
No. 6 judges that it is a failure of the CPU card 120 and does not judge that it is a failure of the current clock card 100. on the other hand,
When analyzing the failure information collected by the service processor 196, if a plurality of cards have failure information indicating that they have detected a failure, it is possible that the working clock card 100 has a failure. Therefore, the service processor 196 starts the search using the failure information propagation table.

【0028】すなわち、このステップS11以降の詳細
な分析ステップにおいては、サービスプロセッサ196
が、直前に同様な障害が発生したかという情報や、自分
が障害を検出したという情報を保持しているカードの組
み合わせを分析して、現用のクロックカード100が障
害である可能性があるかどうかを判断することになる。
That is, in the detailed analysis step after this step S11, the service processor 196
However, it is possible that the current clock card 100 has a failure by analyzing the combination of cards that hold information indicating whether a similar failure has occurred immediately before or information that the failure has been detected. You will have to make a decision.

【0029】ステップS11で収集した障害情報の解析
におけるサービスプロセッサ196の判断について、更
に、図3および図4を中心に参照して詳細に説明する。
サービスプロセッサ196は、クロックカード障害の可
能性があるかどうかを判断するために、サービスプロセ
ッサ196内の記憶部に装置交換履歴テーブル、障害伝
搬情報テーブルの領域を確保している。
The determination of the service processor 196 in the analysis of the fault information collected in step S11 will be described in detail with reference to FIGS. 3 and 4.
The service processor 196 secures areas for a device replacement history table and a failure propagation information table in a storage unit in the service processor 196 to determine whether there is a possibility of a clock card failure.

【0030】装置交換履歴テーブルの一例を図3に、障
害伝搬情報テーブルの一例を図4に、それぞれ示す。以
下にクロック障害の可能性があるどうか判断する際に、
サービスプロセッサ196がどのように各テーブルを使
用するかを説明する。
An example of the device replacement history table is shown in FIG. 3, and an example of the fault propagation information table is shown in FIG. When deciding whether there is a possibility of clock failure,
Describes how the service processor 196 uses each table.

【0031】図3を参照すると、サービスプロセッサ1
96が記憶部に保持している障害発生時の装置交換履歴
テーブルである。図3の場合、シリアル番号0005の
障害が2000年10月25日の11時15分21秒に
発生し、シリアル番号0006の障害が、2000年1
0月25日の11時25分30秒に発生していることが
記録されている。また、シリアル番号0005の障害で
は被疑カードがCPU1だったので、CPU1のカード
を交換したことも記録されている。しかし、シリアル番
号0006の障害(カードを交換したときと同じ障害種
別コード)では、シリアル番号0005の障害で交換し
たばかりのCPU1のカードが再度被疑となっているこ
とが記録されている。サービスプロセッサ196は、シ
リアル番号0005と、シリアル番号0006の情報と
から、シリアル番号0005の障害での交換後の運用で
再度同様の障害すなわちシリアル番号0006の障害が
発生したのは、CPU1の障害ではなく、現用クロック
100の障害の可能性があると判断する。すなわち、サ
ービスプロセッサ196は、被疑カードおよび障害識別
コードを基に装置交換履歴テーブルを古い順に検索し、
交換したもの(交換カード欄にカード名が表示)で一致
するものがあれば、更に検索を進める。更に、一致する
ものがあって、交換カード欄が未交換になっていれば、
サービスプロセッサ196は、クロック障害の可能性あ
りと判断する(図2のステップS12〜S13)。
Referring to FIG. 3, the service processor 1
96 is a device replacement history table stored in the storage unit when a failure occurs. In the case of FIG. 3, the failure of serial number 0005 occurs at 11:15:21 on October 25, 2000, and the failure of serial number 0006 occurs in 2000
It is recorded that it occurred at 11:25:30 on 25th of October. Further, since the suspected card was the CPU1 in the failure of the serial number 0005, it is also recorded that the card of the CPU1 was replaced. However, with the failure of the serial number 0006 (the same failure type code as when the card was replaced), it is recorded that the card of the CPU 1 just replaced due to the failure of the serial number 0005 is again suspected. Based on the information of serial number 0005 and information of serial number 0006, the service processor 196 causes the same failure again, that is, the failure of serial number 0006 in the operation after the replacement due to the failure of serial number 0005. No, it is determined that there is a possibility of a failure of the working clock 100. That is, the service processor 196 searches the device replacement history table in the oldest order based on the suspected card and the failure identification code,
If there is a matching one in the exchanged one (the card name is displayed in the exchanged card column), the search is further advanced. Furthermore, if there is a match and the exchange card column is not exchanged,
The service processor 196 determines that there is a possibility of a clock failure (steps S12 to S13 in FIG. 2).

【0032】ステップS13において、クロック障害の
可能性ありと判断すると、サービスプロセッサ196
は、クロック切替部198に対して、クロックカード1
00からのクロック供給をクロックカード110からの
クロック供給に切り替える指示を出す。すると、クロッ
クカード100は、クロックの発生を中止し、クロック
カード110は、クロック供給パス195を介してクロ
ックを各カードに発生する。更に、サービスプロセッサ
196は、図示していない表示部にクロックカードを切
り替えたことと被疑個所を示すクロックカード100と
を表示する。更に、サービスプロセッサ196は、装置
交換履歴テーブルにシリアル番号、日付、時刻、被疑カ
ード、障害種別コード、交換カード(未交換と表示)を
情報とする1アイテムを追加する(図2のステップS1
7)。従って、保守者は、メッセージが表示されること
により、「クロック障害の発生によるクロックカードの
交換が必要である」と判断することができる。
If it is determined in step S13 that there is a possibility of a clock failure, the service processor 196
The clock switching unit 198 to the clock card 1
A command to switch the clock supply from 00 to the clock supply from the clock card 110 is issued. Then, the clock card 100 stops generating the clock, and the clock card 110 generates the clock to each card through the clock supply path 195. Further, the service processor 196 displays on the display unit (not shown) that the clock card has been switched and the clock card 100 indicating the suspected place. Further, the service processor 196 adds one item having the serial number, date, time, suspect card, failure type code, and exchange card (displayed as non-exchange) to the device exchange history table (step S1 in FIG. 2).
7). Therefore, by displaying the message, the maintenance person can determine that "the clock card needs to be replaced due to the occurrence of a clock failure".

【0033】サービスプロセッサ196は、クロックカ
ードの切替および被疑クロックカードの指摘を行った
後、システムを再立上げ、運用を再開する。この場合、
切り替わったクロックカード110が現用系となる(図
2のステップS18)。
The service processor 196 restarts the system and restarts the operation after switching the clock card and pointing out the suspected clock card. in this case,
The switched clock card 110 becomes the active system (step S18 in FIG. 2).

【0034】一方、ステップS13において、サービス
プロセッサ196がクロック障害の可能性がないと判断
した場合には、複数のカードで障害が発生しているかを
各カードから収集した障害情報から判断する。複数のカ
ードで障害が発生していると判断した場合には、サービ
スプロセッサ196は、記憶部に保持している障害伝搬
情報テーブルを検索し、解析を行う。図4を参照する
と、簡単のためにMEM、I/O、CPUの各装置の障
害が他の装置に伝搬する障害について例示している。図
4の番号1の例では、MEM装置のアドレスデコード部
の障害の場合、CPUカード、I/Oカードに障害が伝
搬し、それぞれのカードでタイムアウトを検出する事を
示している。図4の番号2の例は、I/O装置のDMA
処理部の障害の場合、MEMカードに障害が伝搬し、タ
イムアウトを検出する事を示している。図4の3の例は
CPU装置のシステムバスインターフェースエラー障害
の場合、MEMカード、I/Oカードに障害が伝搬し、
インターフェースエラーを検出する事を示している。サ
ービスプロセッサ196は、複数のカードが自分が障害
を検出したという情報を保持していた場合には、障害情
報伝搬テーブルを検索し、収集した全ての障害情報のパ
ターン(障害識別コード)が障害情報伝搬テーブル内の
障害識別コード欄の情報と一致するものがあるかを調べ
る。一致するパターンが1つでも無い場合には、サービ
スプロセッサ196は、現用のクロックカード100の
障害の可能性があると判断する。複数のカードで障害が
発生していると判断した場合でも、障害識別コード欄の
情報と一致するものがあれば、サービスプロセッサ19
6は、一致により検出した識別コードが障害情報伝播テ
ーブル内の伝播カードでの障害識別コード欄の情報と一
致するものがないかをチェックする。伝播カードでの障
害識別コード欄の情報と一致するものがあり、そのとき
に該当する障害伝播情報テーブル内の障害識別コード
が、先程検出した障害識別コードと一致するものがあれ
ば、そのときの障害伝播情報テーブル内の装置欄に対応
するカードが被疑カードとなる。複数のカードで障害が
発生していると判断した場合でも、このような手順で、
サービスプロセッサ196は、先程検出した障害識別コ
ードを全て調べ、一致するものがあれば、ステップS1
9にジャンプする(図2のステップS14〜S16)。
On the other hand, when the service processor 196 determines in step S13 that there is no possibility of a clock failure, it determines from the failure information collected from each card whether a failure has occurred in a plurality of cards. When it is determined that a failure has occurred in a plurality of cards, the service processor 196 searches the failure propagation information table held in the storage unit and analyzes it. Referring to FIG. 4, for simplification, the failure of each device of MEM, I / O, and CPU is propagated to another device. The example of number 1 in FIG. 4 indicates that in the case of a failure of the address decoding unit of the MEM device, the failure propagates to the CPU card and the I / O card, and a timeout is detected in each card. The example of number 2 in FIG. 4 is the DMA of the I / O device.
In the case of a failure of the processing unit, the failure propagates to the MEM card and a timeout is detected. In the case of the system bus interface error failure of the CPU device, the example of 3 in FIG. 4 propagates to the MEM card and I / O card,
It indicates that an interface error is detected. When the plurality of cards hold the information that they have detected a failure, the service processor 196 searches the failure information propagation table and finds all the collected failure information patterns (failure identification codes) as failure information. Check if there is a match with the information in the failure identification code column in the propagation table. If there is no matching pattern, the service processor 196 determines that there is a possibility of failure of the current clock card 100. Even if it is determined that a failure has occurred in a plurality of cards, if there is a match with the information in the failure identification code column, the service processor 19
6 checks whether or not the identification code detected by the matching matches the information in the failure identification code column in the propagation card in the failure information propagation table. If there is something that matches the information in the failure identification code column on the propagation card, and the failure identification code in the corresponding failure propagation information table at that time matches the failure identification code that was detected earlier, The card corresponding to the device column in the failure propagation information table is the suspect card. Even if you decide that multiple cards are faulty, you can use these steps to
The service processor 196 examines all the fault identification codes detected earlier, and if there is a match, then the step S1
It jumps to 9 (steps S14-S16 of FIG. 2).

【0035】従って、複数のカードでの障害が発生した
場合に、予めシミュレーションで作成した障害伝播情報
テーブルを使用してカードの絞込みを行っているため、
クロック系以外の障害については被疑カードを当てる可
能性は非常に高い。また、クロック系に関する障害コー
ドは、予期しない現象が起こるため、シミュレーション
で起こりえない予期しない障害コードのパターンが複数
となって発生することが多く、障害伝播情報テーブルを
使用することは、クロックカード(クロック系の障害)
の障害が起こったときに、障害伝播情報テーブルに障害
コードが載っていないどうかを検索することで、クロッ
クカードの障害として検出することができる。
Therefore, when a failure occurs in a plurality of cards, the failure propagation information table created by simulation is used to narrow down the cards.
It is very likely that you will hit the suspect card for any failure other than the clock system. In addition, failure codes related to the clock system often cause multiple unexpected failure code patterns that cannot occur in simulation because unexpected phenomena occur. (Clock system failure)
When a failure occurs in (1), it can be detected as a failure of the clock card by searching the failure propagation information table for a failure code.

【0036】このように、図2のステップS16におい
て、現用のクロックカード100の障害の可能性がある
と判断した場合には、サービスプロセッサ196は、ク
ロック切替部198を介してシステムクロックの供給元
を現用のクロックカード100から待機のクロックカー
ド110に切替え、システムの再立ち上げを行い、運用
を再開する(ステップS17,S18)。
As described above, when it is determined in step S16 of FIG. 2 that the current clock card 100 may have a failure, the service processor 196 causes the system clock supply source via the clock switching unit 198. Is switched from the current clock card 100 to the standby clock card 110, the system is restarted, and the operation is restarted (steps S17 and S18).

【0037】一方、ステップS14またはS16におい
て、詳細な分析の結果、現用のクロックカード100の
障害の可能性が無いと判断した場合には、検出した障害
カードと障害種別コードに対応したメッセージを表示部
に表示する。保守者は、表示部に表示されたメッセージ
にしたがって、カード等の交換を行い、再立上げが必要
であれば、再起動を行うと、サービスプロセッサ196
は、システムの再立ち上げを行う(ステップS15,S
16,S19,S20、S18)。
On the other hand, if it is determined in step S14 or S16 that there is no possibility of failure of the current clock card 100 as a result of detailed analysis, a message corresponding to the detected failure card and failure type code is displayed. To be displayed on the department. The maintenance person replaces the card or the like according to the message displayed on the display unit, and if restarting is necessary, restarts the service processor 196.
Restarts the system (steps S15, S
16, S19, S20, S18).

【0038】なお、ステップS19において、保守者
が、カードの交換を行って、図示していない入力部(例
えば、キーボード)から交換したカードを入力すると、
サービスプロセッサ196は、装置交換履歴テーブルに
シリアル番号、日付、時刻、被疑カード、障害種別コー
ド、交換カード(入力したカード名)を情報とする1ア
イテムを追加する。保守者がカード交換を行わないで再
立上げ等の処理を行った場合には、サービスプロセッサ
196は、装置交換履歴テーブルにシリアル番号、日
付、時刻、被疑カード、障害種別コード、交換カード
(未交換と表示)を情報とする1アイテムを追加する。
In step S19, when the maintenance person exchanges the card and inputs the exchanged card from an input section (for example, a keyboard) not shown,
The service processor 196 adds one item having the serial number, date, time, suspect card, failure type code, and exchange card (input card name) as information to the device exchange history table. If the maintenance person performs a process such as restarting without replacing the card, the service processor 196 displays the serial number, date, time, suspect card, failure type code, replacement card (not yet replaced) in the device replacement history table. Add one item with information (exchange and display).

【0039】また、ステップS17またはステップS1
9で指摘されたカードを後で交換した場合でも、入力部
から装置交換履歴テーブルに追加することができる。こ
の場合のサービスプロセッサ196は、特定のコマンド
(例えば、カード交換ログ入力コマンド)を入力する
と、障害発生時の日時、未交換の被疑カード、障害種別
コード一覧が表示され、選択することにより、交換カー
ドを入力すると、入力した日時に変わると共に、装置交
換履歴テーブルの該当するシリアル番号にある日付、時
刻、交換カードを情報とする内容を変更する。
Further, step S17 or step S1
Even if the card pointed out in 9 is replaced later, it can be added to the device replacement history table from the input unit. In this case, when the service processor 196 inputs a specific command (for example, a card exchange log input command), the date and time at the time of failure occurrence, a suspected card that has not been replaced, and a list of failure type codes are displayed, and the service processor 196 selects a replacement When a card is input, the input date and time is changed, and the date, time, and contents of the exchange card in the corresponding serial number of the device exchange history table are changed.

【0040】なお、上記の説明において、障害種別コー
ドにカード識別コードを含めないで検索するようにした
が障害コードに含めても良い。この場合、障害識別コー
ドは、例えば、障害識別コードの上位をカード識別コー
ド(カードの実装位置に対応)にし、残りを障害発生に
よるパターンに振当てる。
In the above description, the failure type code is searched without including the card identification code, but it may be included in the failure code. In this case, for the fault identification code, for example, the higher order of the fault identification code is a card identification code (corresponding to the mounting position of the card), and the rest is assigned to a pattern caused by the fault.

【0041】次に、本発明の第2の実施の形態につい
て、図面を参照して説明する。図5を参照すると、本実
施の形態における計算機システム20は、現用のクロッ
クカード200と、待機のクロックカード210と、C
PUカード220,230と、I/Oカード240,2
50と、メモリカード260,270と、システムバス
180と、クロック供給パス290と、サービスプロセ
ッサ196と、クロック切替部298と、診断用パス1
97とから構成される。
Next, a second embodiment of the present invention will be described with reference to the drawings. Referring to FIG. 5, the computer system 20 according to the present embodiment includes a current clock card 200, a standby clock card 210, and a C clock.
PU cards 220 and 230 and I / O cards 240 and 2
50, memory cards 260 and 270, system bus 180, clock supply path 290, service processor 196, clock switching unit 298, diagnostic path 1
And 97.

【0042】第2の実施の形態における計算機システム
20は、クロックの供給方法が第1の実施の形態と相違
する。そのため、第2の実施の形態におけるCPUカー
ド220,230、I/Oカード240,250、メモ
リカード260,270は、クロック供給パス290か
ら受けるだけであるため、第1の実施の形態のカードの
ようにクロック信号のOR回路を持たない点で相違す
る。また、クロックカード200およびクロックカード
210からクロック切替部298を介してクロックをク
ロック供給パスに載せている点で第1の実施の形態と相
違している。この場合、サービスプロセッサ196が、
例えば、クロックカード200からクロックカード21
0への切替を行う場合は、クロック切替部298にクロ
ック切替指示を出すことにより、クロックカード210
から発生されるクロックがクロック供給パス290に出
力することになる。
The computer system 20 in the second embodiment differs from the first embodiment in the clock supply method. Therefore, the CPU cards 220 and 230, I / O cards 240 and 250, and memory cards 260 and 270 in the second embodiment only receive from the clock supply path 290. The difference is that it does not have an OR circuit for clock signals. Further, it differs from the first embodiment in that a clock is placed on the clock supply path from the clock card 200 and the clock card 210 via the clock switching unit 298. In this case, the service processor 196
For example, the clock card 200 to the clock card 21
When switching to 0, by issuing a clock switching instruction to the clock switching unit 298, the clock card 210
Will be output to the clock supply path 290.

【0043】次に、図2〜図5を参照して、本発明の第
2の実施の形態の動作について説明する。この場合の動
作は、クロック切替部298へのクロックの切替方法を
除き、本発明の第1の実施の形態で説明した動作と、実
質的には同じなので説明を省略する。
Next, the operation of the second embodiment of the present invention will be described with reference to FIGS. The operation in this case is substantially the same as the operation described in the first embodiment of the present invention except for the method of switching the clock to the clock switching unit 298, and therefore the description thereof is omitted.

【0044】[0044]

【発明の効果】上記に説明したように、本発明は、障害
が発生した場合に計算機システム内のカードが保持して
いる障害情報をサービスプロセッサが収集し、複数のカ
ードが自分自身が障害であるという障害情報を保持して
いる場合には、クロックカードの障害の可能性があるか
どうかを各カードから収集した障害情報を基に判定し、
クロック障害の可能性があると予測される場合には、そ
のクロックカードを正常なクロックカードに切り替える
ことによりシステムの停止時間を短縮することができる
という効果がある。
As described above, according to the present invention, when a failure occurs, the service processor collects the failure information held by the card in the computer system, and the plurality of cards are identified as the failure by themselves. If you have the failure information that there is, determine whether there is a possibility of failure of the clock card based on the failure information collected from each card,
When it is predicted that there is a possibility of a clock failure, the system downtime can be shortened by switching the clock card to a normal clock card.

【0045】また、本発明は、クロック障害が発生した
場合に計算機システム内のカードが保持している障害情
報をサービスプロセッサが収集し、同一カードでの同一
障害によるカード交換後に未交換の履歴情報があるかど
うかを履歴テーブルから検索することでクロック障害の
判定を行って、正常なクロックカードに切り替えるよう
にしているため、クロックカードの疑いが非常に高くな
り、更に、システムの停止時間を短縮することができる
という効果がある。
Further, according to the present invention, when a clock failure occurs, the service processor collects the failure information held by the card in the computer system, and the history information which is not exchanged after the card exchange due to the same failure in the same card. The history table is used to determine if there is a clock failure and to switch to a normal clock card, so the suspicion of a clock card is extremely high, and system downtime is shortened. There is an effect that can be done.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の第1の実施の形態の構成を示すシステ
ムのブロック図である。
FIG. 1 is a block diagram of a system showing a configuration of a first exemplary embodiment of the present invention.

【図2】図1または図5のカード内で障害を検出した場
合における各カードおよびサービスプロセッサの動作を
示すフローチャートである。
FIG. 2 is a flowchart showing the operation of each card and the service processor when a failure is detected in the card of FIG. 1 or FIG.

【図3】図1または図5のサービスプロセッサが保持し
ている装置交換履歴テーブルのフォーマットを示す構成
図である。
FIG. 3 is a configuration diagram showing a format of a device replacement history table held by the service processor of FIG. 1 or FIG.

【図4】図1または図5のサービスプロセッサが保持し
ている障害伝播情報テーブルのフォーマットを示す構成
図である。
4 is a configuration diagram showing a format of a fault propagation information table held by the service processor of FIG. 1 or FIG.

【図5】本発明の第2の実施の形態の構成を示すシステ
ムのブロック図である。
FIG. 5 is a block diagram of a system showing a configuration of a second exemplary embodiment of the present invention.

【符号の説明】[Explanation of symbols]

10,20 計算機システム 100,110,200,210 クロックカード 120,130,220,230 CPUカード 140,150,240,250 I/Oカード 160,170,260,270 メモリカード 180 システムバス 190,195,290 クロック供給パス 196 サービスプロセッサ 197 診断用パス 198,298 クロック切替部 10,20 Computer system 100,110,200,210 clock card 120, 130, 220, 230 CPU card 140,150,240,250 I / O cards 160, 170, 260, 270 memory card 180 system bus 190,195,290 Clock supply path 196 Service Processor 197 diagnostic path 198, 298 Clock switching unit

Claims (6)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 現用のクロック供給元である現用のクロ
ックカードと、前記クロック供給元の待機として使用す
る待機のクロックカードと、前記クロック供給元からク
ロックを受ける複数のカードとを備える計算機システム
のクロック切替方式において、計算機システムの障害を
検出する障害検出手段と、検出した障害の被疑箇所を指
摘する被疑箇所指摘手段と、前記被疑箇所指摘手段が被
疑箇所として複数のカードを指摘したときに前記クロッ
クカードを含むカードから収集した障害情報を基にクロ
ック障害かどうかを判定するクロック障害判定手段と、
前記クロック障害判定手段の判定に基づいて前記クロッ
ク供給元を前記現用のクロックカードから前記待機のク
ロックカードに切り替えるクロック切替手段とを有する
ことを特徴とする計算機システムのクロック切替方式。
1. A computer system comprising: a current clock card that is a current clock supply source; a standby clock card that is used as a standby for the clock supply source; and a plurality of cards that receive a clock from the clock supply source. In the clock switching method, failure detection means for detecting a failure of the computer system, suspected location indicating means for pointing out the suspected location of the detected failure, and the suspected location pointing means when the plurality of cards are pointed out as suspected locations A clock failure determination means for determining whether there is a clock failure based on failure information collected from a card including a clock card,
A clock switching system for a computer system, comprising: a clock switching unit that switches the clock supply source from the current clock card to the standby clock card based on the determination by the clock failure determination unit.
【請求項2】 前記被疑個所指摘手段は、前記クロック
カードを含むカードの障害発生時の交換履歴を記録した
履歴テーブルに同一カードでの同一の障害によるカード
交換後に未交換の履歴情報があるかどうかを検索する手
段を有し、前記履歴情報を検出した場合に、前記クロッ
ク障害判定手段は、前記現用のクロックカードをクロッ
ク障害による被疑個所として指摘する手段を有すること
を特徴とする請求項1記載の計算機システムのクロック
切替方式。
2. The suspicious point indicating means, in the history table recording the replacement history at the time of occurrence of a failure of the card including the clock card, is there any history information not exchanged after the card replacement due to the same failure of the same card? 2. The method according to claim 1, further comprising means for searching whether or not the history information is detected, and the clock failure determination means has means for pointing out the current clock card as a suspected place due to a clock failure. Clock switching method for the described computer system.
【請求項3】 前記被疑箇所指摘手段が被疑箇所として
複数のカードを指摘したときに、前記クロック障害判定
手段は、収集する障害情報に該当する伝播カードの障害
情報一覧を予め登録した障害伝播情報テーブルに対して
前記各カードから収集した障害情報を基に検索する手段
を有することを特徴とする請求項1記載の計算機システ
ムのクロック切替方式。
3. The fault propagation information in which the clock fault determination unit registers in advance a fault information list of the propagation cards corresponding to the fault information to be collected when the suspected place pointing unit points out a plurality of cards as suspected places. 2. The clock switching system for a computer system according to claim 1, further comprising means for searching the table based on the failure information collected from each card.
【請求項4】 現用のクロック供給元である現用のクロ
ックカードと、前記クロック供給元の待機として使用す
る待機のクロックカードと、前記クロック供給元からク
ロックを受ける複数のカードとを備える計算機システム
のクロック切替方法であって、前記カードの障害を管理
するサービスプロセッサを準備し、前記サービスプロセ
ッサは、前記クロックカードを含むカードの障害発生時
の交換履歴を記録した履歴テーブルを記憶部に準備し、
前記クロックカードを含むカードに障害が発生すると、
前記各カードから障害種別コードを含む障害情報を収集
し、前記障害情報を基に同一カードでの同一の障害によ
るカード交換後に未交換の履歴情報があるかどうかを履
歴テーブルから検索し、前記同一カードでの同一の障害
によるカード交換後に未交換の履歴情報を検出した場合
には、前記現用のクロックカードをクロック障害による
被疑カードとして検出し、前記クロック供給元を前記現
用のクロックカードから前記待機のクロックカードに切
り替えることを特徴とする計算機システムのクロック切
替方法。
4. A computer system comprising: an active clock card that is an active clock supply source; a standby clock card that is used as a standby for the clock supply source; and a plurality of cards that receive clocks from the clock supply source. A clock switching method, which prepares a service processor for managing a failure of the card, wherein the service processor prepares a history table recording a replacement history when a failure occurs in a card including the clock card in a storage unit,
When a card including the clock card fails,
The fault information including the fault type code is collected from each of the cards, and based on the fault information, the history table is searched for whether or not there is history information that has not been exchanged after card exchange due to the same fault in the same card. If unreplaced history information is detected after card replacement due to the same failure in the card, the working clock card is detected as a suspect card due to a clock failure, and the clock supply source is waited from the working clock card. A clock switching method for a computer system, which is characterized by switching to another clock card.
【請求項5】 現用のクロック供給元である現用のクロ
ックカードと、前記クロック供給元の待機として使用す
る待機のクロックカードと、前記クロック供給元からク
ロックを受ける複数のカードとを備える計算機システム
のクロック切替方法であって、前記カードの障害を管理
するサービスプロセッサを準備し、前記サービスプロセ
ッサは、障害種別コードに該当する伝播カードの障害情
報一覧を予め登録した障害伝播情報テーブルを記憶部に
準備し、前記クロックカードを含むカードに障害が発生
すると、前記各カードから障害種別コードを含む障害情
報を収集し、前記収集した障害情報から被疑箇所として
複数のカードを検出する場合には、障害伝播情報テーブ
ルに対して前記収集した障害情報を基に該当する障害情
報が登録されているかどうかを検索し、前記該当する障
害情報が登録されていない場合には、前記現用のクロッ
クカードをクロック障害による被疑カードとして検出
し、前記クロック供給元を前記現用のクロックカードか
ら前記待機のクロックカードに切り替えることを特徴と
する計算機システムのクロック切替方法。
5. A computer system comprising: a current clock card that is a current clock supply source; a standby clock card that is used as a standby for the clock supply source; and a plurality of cards that receive a clock from the clock supply source. A clock switching method, which prepares a service processor for managing a failure of the card, and the service processor prepares a failure propagation information table in which a failure information list of propagation cards corresponding to a failure type code is registered in advance in a storage unit. However, when a failure occurs in a card including the clock card, failure information including a failure classification code is collected from each of the cards, and failure detection is performed when multiple cards are detected as suspected points from the collected failure information. Corresponding fault information is registered in the information table based on the collected fault information. If the corresponding failure information is not registered, the current clock card is detected as a suspect card due to a clock failure, and the clock source is the standby clock from the current clock card. A computer system clock switching method characterized by switching to a card.
【請求項6】 前記サービスプロセッサは、前記現用の
クロックカードをクロック障害による被疑カードとして
検出した場合には、表示部にクロックカードを切り替え
たことと被疑個所を示す前記クロックカードとを表示す
ることを特徴とする請求項4または5記載の計算機シス
テムのクロック切替方法。
6. The service processor, when detecting the working clock card as a suspected card due to a clock failure, displays the switching of the clock cards and the clock card indicating the suspected place on the display unit. 6. A clock switching method for a computer system according to claim 4 or 5.
JP2001014789A 2001-01-23 2001-01-23 Clock switching system and method for computer system Expired - Fee Related JP3479842B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001014789A JP3479842B2 (en) 2001-01-23 2001-01-23 Clock switching system and method for computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001014789A JP3479842B2 (en) 2001-01-23 2001-01-23 Clock switching system and method for computer system

Publications (2)

Publication Number Publication Date
JP2002215261A JP2002215261A (en) 2002-07-31
JP3479842B2 true JP3479842B2 (en) 2003-12-15

Family

ID=18881434

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001014789A Expired - Fee Related JP3479842B2 (en) 2001-01-23 2001-01-23 Clock switching system and method for computer system

Country Status (1)

Country Link
JP (1) JP3479842B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006127217A (en) * 2004-10-29 2006-05-18 Hitachi Ltd Computer system and method for controlling the same
JP2008152552A (en) * 2006-12-18 2008-07-03 Hitachi Ltd Computer system and failure information management method
JP4716197B2 (en) * 2007-12-19 2011-07-06 エヌイーシーコンピュータテクノ株式会社 Fault handling method and fault handling method

Also Published As

Publication number Publication date
JP2002215261A (en) 2002-07-31

Similar Documents

Publication Publication Date Title
US6574748B1 (en) Fast relief swapping of processors in a data processing system
US7370238B2 (en) System, method and software for isolating dual-channel memory during diagnostics
US20070234123A1 (en) Method for detecting switching failure
EP1119809B1 (en) Process monitoring in a computer system
JP2005235176A (en) Computer configuration display method
JPH0644242B2 (en) How to solve problems in computer systems
JP2005208707A (en) Abnormality monitoring device, abnormality search support method, abnormality search support program
US20210240466A1 (en) Self-service terminal
CN107783844A (en) A kind of computer program operation exception detection method, device and medium
CN100545814C (en) Messaging device and opertaing device thereof, control method
JP3479842B2 (en) Clock switching system and method for computer system
CN112506693A (en) Method and device for recording abnormal information, storage medium and electronic equipment
JP2001022599A (en) Fault tolerant system, fault tolerant processing method and recording medium for fault tolerant control program
JP2001143367A (en) Disk drive monitor system
CN115344327B (en) Application module switching method and device, electronic equipment and readable storage medium
JPH11188584A (en) Operation management device, operation management method, and recording medium
US20110321177A1 (en) Information processing apparatus and operation method of the same
JP2003208333A (en) Trace information searching device and method therefor
JPH09204205A (en) Program control system
JP2001175545A (en) Server system, fault diagnosing method, and recording medium
CN117539571A (en) Micro front-end application control method, device, equipment and storage medium
CN112631878A (en) Method and equipment for dynamically generating SDR information
JP4109447B2 (en) Suspicious probability generation method, suspected probability generation program, and service processor
JP2003029998A (en) Information processor provided with console displaying operation state of redundant or duplexed logic part
JPH0553852A (en) Testing device

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030902

LAPS Cancellation because of no payment of annual fees