JP2004185318A - Trouble monitoring device for cpu system - Google Patents
Trouble monitoring device for cpu system Download PDFInfo
- Publication number
- JP2004185318A JP2004185318A JP2002351570A JP2002351570A JP2004185318A JP 2004185318 A JP2004185318 A JP 2004185318A JP 2002351570 A JP2002351570 A JP 2002351570A JP 2002351570 A JP2002351570 A JP 2002351570A JP 2004185318 A JP2004185318 A JP 2004185318A
- Authority
- JP
- Japan
- Prior art keywords
- cpu
- predetermined
- signal
- bus
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明はCPUシステムの障害監視装置に関し、更に詳しくは、CPUと所定の機能を実現するための1又は2以上の機能デバイスを含む周辺回路とがCPUの共通バスを介して相互に接続するCPUシステムの障害監視装置に関するものである。
【0002】
今日、多く装置はこの種のCPUシステムによって実現されているが、特に複雑かつ高度な通信サービスを提供する伝送装置等では、CPUの配下で多数の機能デバイスが協動するために、システム障害発生時の原因特定が非常に困難になりつつある。
【0003】
【従来の技術】
従来は、CPUシステム内の障害処理をCPUの割込処理ファームで行っていた。しかし、CPUのハードウェアは正常であるにも関わらず、該ハードウェア以外の状態、即ち、CPUファームウェアのバグ、周辺回路の障害、多数の障害が重なったことによるCPU処理の過負荷状態、又はノイズ等の原因によってCPUが暴走し又は停止する場合も少なくなく、係る場合には、迅速な対処のみならず、再発防止のための原因特定が不可欠である。
【0004】
係る状況の下、従来は、ウォッチドッグタイマによりCPUの暴走を検出し、暴走を検出すると、該CPUをリセット状態にすると共に、この区間のCPUバスの制御をメモリから読み出した所定の制御用データで行い、これによって周辺機器を安全な状態で停止させた後、CPUのリセット状態を開放するものが知られている(例えば特許文献1)。
【0005】
【特許文献1】
特開平5−165657号公報(「要約」,「0013」、図1)。
【0006】
【発明が解決しようとする課題】
しかし、上記従来方式ではCPUシステムの異常時における迅速かつ安全な対処は可能であるが、再発防止のための有用な情報は得られない。
【0007】
本発明は上記従来技術の問題点に鑑みなされたもので、その目的とする所は、CPUが暴走又は停止しても、原因特定のための有用な情報を効率よく蓄積可能なCPUシステムの障害監視装置を提供することにある。
【0008】
【課題を解決するための手段】
上記の課題は例えば図1の構成により解決される。即ち、本発明(1)のCPUシステムの障害監視装置5は、CPU1と所定の機能を実現するための1又は2以上の機能デバイス2a〜2bを含む周辺回路2とがCPU1の共通バス3を介して相互に接続するCPUシステム4の障害監視装置において、外部よりCPU1の動作状態を推定可能な所定の信号に基づきCPU1の処理に支障を来たすであろう所定の状態を検出する検出手段6と、前記所定の状態の検出によりCPU1が周辺回路2との間でやり取りする所定の信号を取得して不揮発性メモリ8に記録するログ情報記録手段7とを備えるものである。
【0009】
本発明(1)によれば、CPU1の処理に支障を来たすであろう所定の状態を検出したことにより,該CPU1が周辺回路2との間でやり取りする所定の信号を取得して不揮発性メモリ8に記録するため、その後にCPU1が暴走又は停止しても、原因特定のための有用な情報を効率よく蓄積可能となる。
【0010】
本発明(2)では、上記本発明(1)において、検出手段は、CPUにより定期的にリセットされるべきウォッチドッグタイマの値が所定閾値を超えたこと、又は機能デバイスからのバスアサートに対する応答時間が所定閾値を超えたこと、又は機能デバイスからの割込要求に関して所定の高負荷状態を検出したことにより、CPUの処理に支障を来たすであろう所定の状態を検出するものである。
【0011】
なお、上記機能デバイスからの割込要求に関する所定の高負荷状態とは、例えば緊急に割込処理すべき割込要求が略同時に多発した状態、又は過去にCPUが暴走又は停止状態に到ったことがある場合と同一又は類似のパターンの割込要求が略同時に又はシーケンシャルに発生した状態等を意味する。従って、本発明(2)によれば、外部よりCPU1の動作状態を推定可能な所定の信号に基づきCPUの処理に支障を来たすであろうシステムの状態を的確に検出できる。
【0012】
本発明(3)では、上記本発明(1)において、CPUが周辺回路との間でやり取りする所定の信号は、共通バスのバスアクセスに関する信号、機能デバイスからCPUへの割込要求に関する信号、又はCPUにより起動されるDMAアクセスに関する信号である。従って、これらの信号を記録に残すことで、CPUが処理障害に到った際のシステム環境を詳細に分析できる。
【0013】
【発明の実施の形態】
以下、添付図面に従って本発明に好適なる実施の形態を詳細に説明する。なお、全図を通して同一符号は同一又は相当部分を示すものとする。
【0014】
図2は実施の形態による障害監視方式の構成を示す図で、データ伝送装置への適用例を示している。図において、10は例えば2回線分の伝送路を収容可能な通信制御部、11は通信制御部10の主制御を行うプロセッサ部、12はそのCPU、13はCPU12が使用する主メモリ(MM)、14はCPU12が上位モジュール20との間でやり取りするデータをDMA転送するためのDMA制御部(DMA)、15はCPU12のプロセッサバス(PRB)、18a,18bは各入出力回線を終端する機能デバイス(回線終端部)、17は各機能デバイス18a,18bを収容するローカルバス(LOB)、16はプロセッサバス15とローカルバス17との間を接続する(プロトコル整合させる)ためのバスインタフェース部(BIF)、19は各機能デバイス18a,18b等からの割込要求INTを収容する割込バス(INTB)、そして、20は複数のこのような通信制御部10に関する上位の管理・処理を行う上位モジュール、21はDMA14と上位モジュール20との間を接続するDMAバス(DMAB)である。
【0015】
更に、30は通信制御部(CPUシステム)10の障害監視を行う障害監視部、31はDMAバス21のアクセス信号を監視・取得するDMA監視部、32はPRB15のアクセス信号を監視・取得するPBA監視部、33はプロセッサバス15の所定のバスアクセス信号に基づきCPU12の高負荷状態を検出する高負荷判定部、34は割込バス19上の割込要求に係る信号INT0〜INTnを監視・取得する割込監視部、35は割込要求INT0〜INTnに対するCPU12の処理が高負荷状態になるであろう所定の状態を検出する高負荷判定部、36は所定のクロック信号でカウントアップすると共にCPU12により定期的にリセット(RS)されるべきウォッチドッグタイマ(WDT)、37はWDT36の計数値tが所定閾値TH2を超えたことによりCPU12の高負荷状態を検出してその判定出力(即ち、メモリ書込イネーブル信号)WE1を出力する高負荷判定部、39はフラッシュメモリやEEPROM等からなる不揮発性メモリ、38は、高負荷状態の各判定出力WE1〜WE3により起動され、DMAバス21,プロセッサバス15及び又は割込バス19から取得された各所定の信号を不揮発性メモリ39に書き込むためのメモリ制御部、40は上記各部の間を接続するメモリバス(MB)、41は機能デバイス18等からの割込要求に相当する信号INT0’〜INTn’を擬似的に発生する擬似割込発生部、そして、50は不揮発性メモリ39に記録された内容をメモリ制御部38を介して外部に読み出し、障害状況を解析するための保守端末である。
【0016】
一例の高負荷判定部33は、PBA監視部32から抽出された、ある機能デバイス18からのバスアサートとCPU12からのバスアックに関する各タイミング信号に基づき、前記バスアサートからバスアックに到るまでの時間を計数するためのカウンタCTRと、該カウンタCTRのカウント出力Qと所定閾値TH1とを比較する比較器CMPとを備え、該CMPは、ある機能デバイス18からのバスアサートに対するCPU12の応答時間Qが所定閾値TH1を超えたことにより、CPU12が高負荷状態にあることを示す判定出力(即ち、メモリ書込イネーブル信号)WE2を出力する。
【0017】
また一例の高負荷判定部35は、予め割込要求信号INT0〜INTnに関する所定の発生パターンPを設定・保持するレジスタREGと、該REGの出力パターンPと、割込監視部34により割込バス19から抽出された割込要求信号INT0〜INTnとを比較する比較器CMPとを備え、該CMPは、割込バス19から抽出された割込要求信号INT0〜INTnが所定のパターンPであることにより、CPU12が高負荷状態である、又は高負荷状態になるであろうことを示す判定出力(即ち、メモリ書込イネーブル信号)WE3を出力する。なお、上記割込要求信号INT0〜INTnに関する所定の発生パターンPとは、例えばCPU12が緊急に割込処理すべき割込要求が略同時に多発したパターン、又は過去にCPU12が暴走又は停止状態に到ったことがある場合と同一又は類似のパターンであって、各割込要求が略同時に又はシーケンシャルに発生した場合のパターン等を意味する。
【0018】
擬似割込発生部41は、周辺回路部(各機能デバイス18を含む)における各種障害に対応する各擬似割込要求INT0’〜INTn’を発生可能である。従来、この種の障害に対するCPUの割込処理については、周辺回路部の各対応部位(例えばCPUに対する動作プロトコル違反等)をその都度実際に生成(回路を改造)しないと起こせなかったが、本実施の形態によれば、各種障害に基づく擬似割込要求を1箇所に集約して能率よく発生可能である。これにより、CPU12への疑似負荷状態や、CPU12への応答違反も疑似可能であり、実運用状態で起こりうる様々な状態を再現可能となる。従って、ハードウェア障害又はファームウェアのバグに対する処理能力や処理信頼性の大幅な改善が図れる。
【0019】
このような障害監視装置30は、好ましくは,専用LSI又は改版可能なFPGA等により実現され、プロセッサ部11及び各機能デバイス18a,18bと共に、同一の基盤(ボード)上に配置される。
【0020】
図3に実施の形態による不揮発性メモリの記憶フォーマットを示す。一例の不揮発性メモリ39は、CPU12と上位モジュール20との間で行われるDMAのアクセス発生回数を記憶するエリア39aと、配下の機能デバイス18a,18bを含む周辺回路部についての各種障害情報を記憶するエリア39bと、周辺回路部からの割込要求信号INT0〜INT31を記憶するエリア39cとを備える。
【0021】
上記エリア39bの障害情報には、本システム上で検出される各種のアラーム信号ALM、プロセッサバス15上で検出されるデータパリティエラー信号DATPER、アドレスパリティーエラー信号ADDPER、CPU12における演算オーバフローOVFを知らせるための各種ステータス信号等が含まれる。また、機能ブロック18で発生する各種障害については、一次的には割込要求信号INT0〜INT31によって代表され、エリア39cに記憶されるが、該割込要求の原因となった障害の詳細情報(ハードウェアの個別障害、ローカルバスのパリティ障害、外部インタフェース上のプロトコルエラー、電源系障害、クロックの同期障害等)については、割込要求信号INT0〜INT31と共にエリア39cに記憶してもよいし、又はエリア39bに記憶してもよい。
【0022】
以上述べた構成により、次に障害監視の動作を説明する。図2に戻り、CPU12は、内部に割込マスク(不図示)を備えており、適宜に必要な割込要求のみを受付け、処理可能である。一方、不揮発性メモリ39にはCPU12によって処理を受付けられた割込要求のみならず、未処理(即ち,処理待ち又は処理をマスクされた)の割込要求も記録可能である。従って、CPU12の割込処理負担が必要最小限のものに軽減されると共に、CPU高負荷検出時の未処理の割込要求も失われずに不揮発性メモリ39に記録される。
【0023】
図4は実施の形態による割込情報取得のタイミングチャートであり、図において、WTDはウォッチドッグタイマ、WE1はメモリ39への書込イネーブル信号、SPは割込要求信号のサンプリングパルス、MWCはメモリ39の書込タイミングを生成するためのカウント信号、MADはメモリ39の書込アドレス信号、MCSはメモリ39のチップセレクト信号、MOEはメモリ39のデータ読出イネーブル信号、MWEはメモリ39のデータ書込イネーブル信号、MDATはメモリ39に書き込まれるデータ信号である。
【0024】
ウォッチドッグタイマ36はCPU12からの前回のリセットパルスRSによりリセットされて後、クロック信号CLKAによりカウントアップしている。高負荷判定部37は、ウォッチドッグタイマ36のカウント値tが所定の閾値TH2を超えると、書込イネーブル信号WE1=1にすると共に、割込要求信号のサンプリングパルスSPを発生する。これを受けたメモリ制御部39では、該サンプリングパルスSPによりメモリバス40上の割込要求信号INT0〜INTnをサンプリングすると共に、これを所定のタイミングで不揮発性メモリ39に書き込む。
【0025】
更に、この高負荷判定部37は、上記書込イネーブル信号WE1=1にした後は、例えばTms毎の定期的に第2,第3のサンプリングパルスSPを発生し,これを受けたメモリ制御部39では該パルスSPに同期して各時点の割込要求信号INT0〜INTnをサンプリングすると共に、これらを不揮発性メモリ39の次アドレスに順次蓄積する。こうして、もし、ウォッチドッグタイマ36のカウント値が所定の上限値Mになる前に、ウォッチドッグタイマ36がCPU12によりリセットされた場合には、それ以上の割込要求信号INT0〜INTnのサンプリング及びメモリ39への書込は停止される。しかし、CPU12の暴走又は停止によって、ウォッチドッグタイマ36がリセットされずに、やがてそのカウント値が上限値Mを超えた場合には、その直前までにどのような割込要求がどのようなパターンで発生していたかのログ情報が不揮発性メモリ29に記憶されている。
【0026】
なお、上記割込要求信号INT0〜INTnのサンプリング及びメモリ39への書込は、ウォッチドッグタイマ36のカウント値が上限値Mを超えた後も適当な時間だけ継続してもよい。こうすれば、CPU12の障害前のみならず,障害後のシステム状況も有効に記録される。
【0027】
図5は実施の形態によるCPUバスアクセス情報取得のタイミングチャートであり、図において、AD/DATはアドレス/データ信号、CMDはリード/ライト等のコマンド信号、Frameはバスアクセスの開始信号、Irdyは入力レディ信号、Devselはデバイス選択信号、Trdyは転送レディ信号、Ac−cntはバスアクセス区間を監視するためのタイミング信号、Ac−endはバスアクセスの終了信号、WE2はメモリ39への書込イネーブル信号で得ある。
【0028】
図の左側に正常時のバスアクセスを示す。一例のデータ転送シーケンスはAc−cnt=「A」までに終了している。これは、CPU12が高負荷状態にないことを表しており,よって書込イネーブル信号WE2はセットされない。一方,図の右側は正常時ではないバスアクセスを示している。この場合のデータ転送シーケンスはAc−cnt=「A」を経過しても終了しておらず、これはCPU12が高負荷状態(又は異常)であることを表している。これによって書込イネーブル信号WE2はセットされ、その後は、図示しないが,バスアクセス信号が適宜にサンプリングされると共に、メモリ39に順次記憶される。
【0029】
なお、上記バスアクセス信号の監視は、単にアクセス時間の上限を監視するのみではなく、各途中のタイミングで発生すべき各信号レベルの発生パターンを監視するようにしてもよい。こうすれば、バスアクセスの異常状態(又はCPU12の高負荷状態)をより早期に発見でき、よってCPU12が暴走又は停止にいたる前のより多くのバスアクセス信号をサンプリングし、メモリ39に記憶できる。
【0030】
図6は実施の形態によるDMA転送回数情報取得のタイミングチャートであり、図において、WDTはウォッチドッグタイマ、WE1はメモリ39への書込イネーブル信号、AWRはアドレス開始ビット、ADEはビットシリアルからなるコマンド/アドレスデータ信号、WDATはビットシリアルからなる書込データ、Aendは1DMAアクセスの終了を表すアクセス終了ビット、DMAcntはDMAアクセスの発生回数である。
【0031】
CPU12の高負荷状態が検出(即ち、WE1=1)されると、DMAアクセス回数のカウント及びカウント値のメモリ39への書込制御が行われる。即ち、DMAcntはアドレス開始ビットAWR毎にカウントアップされ、やがてウォッチドッグタイマWDTが最大値Mを超えると、その時点における計数値nがメモリ39に記憶される。本実施の形態におけるDMAアクセスは、上位モジュール20へのデータ転送(即ち,障害報告等)が頻発している場合に多く発生するため、障害時のシステム状況を解析する上で有用な記録情報となり得る。
【0032】
なお、この例ではWE1=1により、DMAアクセス回数の監視・記録を開始したが、WE2=1又はWE3=1によりDMAアクセス回数の監視・記録を開始してもよい。他の割込要求情報、バスアクセス情報の監視・記録についても同様である。この場合は、メモリバス40ヘのデータ書込アクセスが競合しないようにバスアクセスの調停部が設けられる。こうして、システム障害の解析に必要な最小限のログ情報を効率よく取得・記録できる。
【0033】
そして、保守端末50では、メモリ39に記録された情報を適宜に読み出し、これを統計的に分析することで、CPU12の障害がシステムのどの部分での障害によるかを容易に分析できる。 逆に、特定の部分での障害が発生した際に、ハードウェアがどのようにリアクションし、それがCPU12のアプリケ―ションソフトにどう伝わり、かつハードウェア及びアプリケーションソフトが正常に対処動作出来るかどうかを検証することも出来、問題があれば再発防止の変更を折り込む処置を取るサイクルを繰り返すなど、さらなる品質向上を目指す事が可能となる。
【0034】
なお、図示しないが、CPU12が高負荷状態にあることを示す各信号WE1〜WE3でランプを点灯し、外部に警告してもよい。これにより、システムダウンの可能性がある事を事前に保守者に示唆することが可能となる。また、この警告情報WE1〜WE3は、一装置内のみならず通信対向する相手側装置への警告情報としても活用でき、こうすれば通信システム全体としての運用の信頼性向上にも極めて有効となる。
【0035】
また、上記本発明に好適なる実施の形態を述べたが、本発明思想を逸脱しない範囲内で各部の構成、制御、処理及びこれらの組み合わせの様々な変更が行えることは言うまでも無い。
【0036】
(付記1) CPUと所定の機能を実現するための1又は2以上の機能デバイスを含む周辺回路とがCPUの共通バスを介して相互に接続するCPUシステムの障害監視装置において、外部よりCPUの動作状態を推定可能な所定の信号に基づきCPUの処理に支障を来たすであろう所定の状態を検出する検出手段と、前記所定の状態の検出によりCPUが周辺回路との間でやり取りする所定の信号を取得して不揮発性メモリに記録するログ情報記録手段とを備えることを特徴とするCPUシステムの障害監視装置。
【0037】
(付記2) 検出手段は、CPUにより定期的にリセットされるべきウォッチドッグタイマの値が所定閾値を超えたこと、又は機能デバイスからのバスアサートに対する応答時間が所定閾値を超えたこと、又は機能デバイスからの割込要求に関して所定の高負荷状態を検出したことにより、CPUの処理に支障を来たすであろう所定の状態を検出することを特徴とする付記1記載のCPUシステムの障害監視装置。
【0038】
(付記3) CPUが周辺回路との間でやり取りする所定の信号は、共通バスのバスアクセスに関する信号、機能デバイスからCPUへの割込要求に関する信号、又はCPUにより起動されるDMAアクセスに関する信号であることを特徴とする付記1記載のCPUシステムの障害監視装置。
【0039】
(付記4) 不揮発性メモリの内容を外部接続の装置に読み出すためのインタフェース手段を備えることを特徴とする付記1記載のCPUシステムの障害監視装置。
【0040】
(付記5) 機能デバイスからの割込要求に相当する信号を擬似的に発生してCPUに対する割込要求とする擬似割込発生手段を備えることを特徴とする付記1記載のCPUシステムの障害監視装置。
【0041】
【発明の効果】
以上述べた如く本発明によれば、稼働中のCPUが暴走又は停止しても、その前後のシステム稼働状況の情報を自律で記録可能となるため、障害分析に有用な情報が得られると共に、再発防止に活用できる。従って、この種のCPUシステムの信頼性向上に寄与するところが極めて大きい。
【図面の簡単な説明】
【図1】本発明の原理を説明する図である。
【図2】実施の形態による障害監視方式の構成を示す図である。
【図3】実施の形態による不揮発性メモリの記憶フォーマットを説明する図である。
【図4】実施の形態による割込情報取得のタイミングチャートである。
【図5】実施の形態によるCPUバスアクセス情報取得のタイミングチャートである。
【図6】実施の形態によるDMA転送回数情報取得のタイミングチャートである。
【符号の説明】
10 通信制御部
11 プロセッサ部
12 主メモリ(MM)
14 DMA制御部(DMA)
15 プロセッサバス(PRB)
16 バスインタフェース部(BIF)
17 ローカルバス(LOB)
18a,18b 機能デバイス(回線終端部等)
19 割込バス(INTB)
20 上位モジュール
21 DMAバス(DMAB)
30 障害監視部
31 DMA監視部
32 PBA監視部
33,35,37 高負荷判定部
34 割込監視部
36 ウォッチドッグタイマ(WDT)
38 メモリ制御部
39 不揮発性メモリ
41 擬似割込発生部
50 保守端末[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a fault monitoring device for a CPU system, and more particularly, to a CPU in which a CPU and a peripheral circuit including one or more functional devices for realizing a predetermined function are mutually connected via a common bus of the CPU. The present invention relates to a system fault monitoring device.
[0002]
Today, many devices are realized by this type of CPU system. However, especially in a transmission device or the like that provides a complicated and advanced communication service, a system failure occurs because many functional devices cooperate under the CPU. It is becoming very difficult to identify the cause of the time.
[0003]
[Prior art]
Conventionally, failure processing in the CPU system has been performed by an interrupt processing firmware of the CPU. However, although the hardware of the CPU is normal, a state other than the hardware, that is, a bug in the CPU firmware, a failure in a peripheral circuit, an overload state of the CPU processing due to a number of overlapping failures, or In many cases, the CPU runs away or stops due to noise or the like. In such a case, not only prompt measures but also identification of the cause for preventing recurrence is indispensable.
[0004]
Under such circumstances, conventionally, the runaway of the CPU is detected by a watchdog timer, and when the runaway is detected, the CPU is reset and the control of the CPU bus in this section is read from a predetermined control data. In this method, after the peripheral device is stopped in a safe state, the reset state of the CPU is released (for example, Patent Document 1).
[0005]
[Patent Document 1]
JP-A-5-165657 ("Summary", "0013", FIG. 1).
[0006]
[Problems to be solved by the invention]
However, in the above-mentioned conventional method, quick and safe measures can be taken when the CPU system is abnormal, but useful information for preventing recurrence cannot be obtained.
[0007]
SUMMARY OF THE INVENTION The present invention has been made in view of the above-described problems of the related art, and has as its object to solve the problem of a CPU system that can efficiently accumulate useful information for identifying the cause even if the CPU runs away or stops. A monitoring device is provided.
[0008]
[Means for Solving the Problems]
The above problem is solved by, for example, the configuration of FIG. That is, in the
[0009]
According to the present invention (1), by detecting a predetermined state that would interfere with the processing of the
[0010]
According to the present invention (2), in the above-mentioned present invention (1), the detecting means may be configured such that the value of the watchdog timer to be periodically reset by the CPU exceeds a predetermined threshold value, or a response to a bus assertion from a functional device. When the time exceeds a predetermined threshold value or when a predetermined high-load state is detected in response to an interrupt request from a functional device, a predetermined state that may hinder the processing of the CPU is detected.
[0011]
Note that the predetermined high-load state related to the interrupt request from the functional device is, for example, a state in which interrupt requests to be subjected to an urgent interrupt process occur frequently at substantially the same time, or a CPU has runaway or stopped in the past. This means a state in which interrupt requests of the same or similar pattern as in some cases occur almost simultaneously or sequentially. Therefore, according to the present invention (2), it is possible to accurately detect the state of the system that would interfere with the processing of the CPU based on a predetermined signal that can externally estimate the operating state of the
[0012]
In the present invention (3), in the above-mentioned present invention (1), the predetermined signal exchanged between the CPU and the peripheral circuit is a signal relating to a bus access of a common bus, a signal relating to an interrupt request from a functional device to the CPU, Alternatively, it is a signal related to DMA access activated by the CPU. Therefore, by leaving these signals in a record, it is possible to analyze in detail the system environment when the CPU encounters a processing failure.
[0013]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. Note that the same reference numerals indicate the same or corresponding parts throughout the drawings.
[0014]
FIG. 2 is a diagram showing a configuration of the fault monitoring system according to the embodiment, showing an example of application to a data transmission device. In the figure, reference numeral 10 denotes a communication control unit capable of accommodating, for example, two transmission lines, 11 denotes a processor unit for performing main control of the
[0015]
Further,
[0016]
The high-
[0017]
Further, the high-load determining unit 35 of the example includes a register REG that sets and holds a predetermined generation pattern P relating to the interrupt request signals INT0 to INTn in advance, an output pattern P of the REG, and an interrupt
[0018]
The pseudo interrupt
[0019]
Such a
[0020]
FIG. 3 shows a storage format of the nonvolatile memory according to the embodiment. The
[0021]
The fault information in the area 39b includes various alarm signals ALM detected on the present system, a data parity error signal DATPER detected on the
[0022]
Next, the operation of the fault monitoring with the above-described configuration will be described. Returning to FIG. 2, the
[0023]
FIG. 4 is a timing chart of interrupt information acquisition according to the embodiment. In the figure, WTD is a watchdog timer, WE1 is a write enable signal to the
[0024]
After being reset by the previous reset pulse RS from the
[0025]
Further, after setting the write enable signal WE1 = 1, the high
[0026]
The sampling of the interrupt request signals INT0 to INTn and the writing to the
[0027]
FIG. 5 is a timing chart for acquiring CPU bus access information according to the embodiment. In the figure, AD / DAT is an address / data signal, CMD is a command signal such as read / write, Frame is a bus access start signal, and Irdy is a bus access start signal. An input ready signal, Devsel is a device selection signal, Trdy is a transfer ready signal, Ac-cnt is a timing signal for monitoring a bus access section, Ac-end is a bus access end signal, and WE2 is a write enable to the
[0028]
The normal bus access is shown on the left side of the figure. The example data transfer sequence has been completed by Ac-cnt = “A”. This indicates that the
[0029]
The bus access signal may be monitored not only by monitoring the upper limit of the access time but also by monitoring the occurrence pattern of each signal level to be generated at each intermediate timing. In this way, an abnormal state of the bus access (or a high load state of the CPU 12) can be detected earlier, so that more bus access signals before the
[0030]
FIG. 6 is a timing chart of DMA transfer count information acquisition according to the embodiment. In the figure, WDT is a watchdog timer, WE1 is a write enable signal to the
[0031]
When the high load state of the
[0032]
In this example, monitoring and recording of the number of DMA accesses are started when WE1 = 1, but monitoring and recording of the number of DMA accesses may be started when WE2 = 1 or WE3 = 1. The same applies to monitoring and recording of other interrupt request information and bus access information. In this case, a bus access arbitration unit is provided so that data write access to memory bus 40 does not conflict. In this way, the minimum log information required for analyzing the system failure can be efficiently acquired and recorded.
[0033]
Then, the
[0034]
Although not shown, the lamp may be turned on by each of the signals WE1 to WE3 indicating that the
[0035]
Although the preferred embodiments of the present invention have been described, it goes without saying that various changes in the configuration, control, processing, and combinations thereof can be made without departing from the spirit of the present invention.
[0036]
(Supplementary Note 1) In a fault monitoring device of a CPU system in which a CPU and a peripheral circuit including one or more functional devices for realizing a predetermined function are interconnected via a common bus of the CPU, an external CPU Detecting means for detecting a predetermined state that will interfere with the processing of the CPU based on a predetermined signal capable of estimating an operation state; and a predetermined means for the CPU to exchange with peripheral circuits by detecting the predetermined state. And a log information recording means for acquiring a signal and recording the signal in a nonvolatile memory.
[0037]
(Supplementary Note 2) The detecting means determines that the value of the watchdog timer to be periodically reset by the CPU exceeds a predetermined threshold, or that the response time to a bus assertion from a functional device exceeds the predetermined threshold, The fault monitoring device for a CPU system according to
[0038]
(Supplementary Note 3) The predetermined signal exchanged between the CPU and the peripheral circuit is a signal related to a bus access of a common bus, a signal related to an interrupt request from a functional device to the CPU, or a signal related to a DMA access activated by the CPU. 3. The fault monitoring device for a CPU system according to
[0039]
(Supplementary Note 4) The failure monitoring device of the CPU system according to
[0040]
(Supplementary note 5) The CPU system according to
[0041]
【The invention's effect】
As described above, according to the present invention, even if the CPU in operation runs away or stops, information on the system operation status before and after the CPU can be autonomously recorded, so that useful information for failure analysis can be obtained. Can be used to prevent recurrence. Therefore, it greatly contributes to improving the reliability of this type of CPU system.
[Brief description of the drawings]
FIG. 1 is a diagram illustrating the principle of the present invention.
FIG. 2 is a diagram illustrating a configuration of a failure monitoring method according to an embodiment.
FIG. 3 is a diagram illustrating a storage format of a nonvolatile memory according to the embodiment.
FIG. 4 is a timing chart of interrupt information acquisition according to the embodiment.
FIG. 5 is a timing chart for acquiring CPU bus access information according to the embodiment;
FIG. 6 is a timing chart for acquiring DMA transfer count information according to the embodiment;
[Explanation of symbols]
10
14 DMA control unit (DMA)
15 Processor bus (PRB)
16 Bus interface (BIF)
17 Local bus (LOB)
18a, 18b Functional device (line termination unit, etc.)
19 Interrupt bus (INTB)
20
38
Claims (3)
外部よりCPUの動作状態を推定可能な所定の信号に基づきCPUの処理に支障を来たすであろう所定の状態を検出する検出手段と、
前記所定の状態の検出によりCPUが周辺回路との間でやり取りする所定の信号を取得して不揮発性メモリに記録するログ情報記録手段とを備えることを特徴とするCPUシステムの障害監視装置。In a fault monitoring apparatus for a CPU system, a CPU and a peripheral circuit including one or more functional devices for realizing a predetermined function are interconnected via a common bus of the CPU.
Detecting means for detecting a predetermined state that would interfere with the processing of the CPU based on a predetermined signal from which an operation state of the CPU can be estimated from outside;
A failure monitoring device for a CPU system, comprising: a log information recording unit that acquires a predetermined signal exchanged between the CPU and a peripheral circuit by detecting the predetermined state and records the signal in a nonvolatile memory.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002351570A JP2004185318A (en) | 2002-12-03 | 2002-12-03 | Trouble monitoring device for cpu system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002351570A JP2004185318A (en) | 2002-12-03 | 2002-12-03 | Trouble monitoring device for cpu system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004185318A true JP2004185318A (en) | 2004-07-02 |
Family
ID=32753444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002351570A Pending JP2004185318A (en) | 2002-12-03 | 2002-12-03 | Trouble monitoring device for cpu system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004185318A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008015893A (en) * | 2006-07-07 | 2008-01-24 | Fuji Electric Holdings Co Ltd | Automatic fault recovering device and automatic fault recovering method |
EP2367112A1 (en) | 2010-03-18 | 2011-09-21 | Ricoh Company, Ltd. | Information processing apparatus, image forming apparatus, and information processing program |
-
2002
- 2002-12-03 JP JP2002351570A patent/JP2004185318A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008015893A (en) * | 2006-07-07 | 2008-01-24 | Fuji Electric Holdings Co Ltd | Automatic fault recovering device and automatic fault recovering method |
EP2367112A1 (en) | 2010-03-18 | 2011-09-21 | Ricoh Company, Ltd. | Information processing apparatus, image forming apparatus, and information processing program |
US8874959B2 (en) | 2010-03-18 | 2014-10-28 | Ricoh Company, Limited | Information processing apparatus, image forming apparatus, and information processing program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6944796B2 (en) | Method and system to implement a system event log for system manageability | |
JP6333410B2 (en) | Fault processing method, related apparatus, and computer | |
US6615374B1 (en) | First and next error identification for integrated circuit devices | |
US20080082866A1 (en) | Method and apparatus for isolating bus failure | |
CN101126995A (en) | Method and apparatus for processing serious hardware error | |
JP2006309760A (en) | Monitoring logic and monitoring method for detecting abnormal operation of data processor | |
CN105183575A (en) | Processor fault diagnosis method, device and system | |
CN111078492A (en) | System and method for monitoring state of SoC internal bus | |
CN112395122A (en) | Flash memory controller and method thereof | |
JP2010205194A (en) | Control circuit, information processing apparatus, and method for controlling information processing apparatus | |
CN112256507A (en) | Chip fault diagnosis method and device, readable storage medium and electronic equipment | |
US20080288828A1 (en) | structures for interrupt management in a processing environment | |
CN101639816B (en) | Real-time tracking system of bus and corresponding tracking and debugging method | |
CN114564334B (en) | MRPC data processing method, system and related components | |
JP2004185318A (en) | Trouble monitoring device for cpu system | |
JP4299634B2 (en) | Information processing apparatus and clock abnormality detection program for information processing apparatus | |
CN114138600A (en) | Storage method, device, equipment and storage medium for firmware key information | |
CN113742113A (en) | Embedded system health management method, equipment and storage medium | |
CN117076183B (en) | Error reporting method, system on chip, computer equipment and storage medium | |
TW200846901A (en) | Method for diagnosing system abnormality | |
CN116991651B (en) | Error injection method, system on chip, computer equipment and storage medium | |
CN117076182B (en) | Error reporting method, system on chip, computer equipment and storage medium | |
JPH06187256A (en) | Bus trace mechanism | |
KR100854823B1 (en) | Method and apparatus for detecting error of an image display device | |
CN108415788B (en) | Data processing apparatus and method for responding to non-responsive processing circuitry |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080814 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080826 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090120 |