JP5768964B2 - Failure investigation support device, method and program - Google Patents

Failure investigation support device, method and program Download PDF

Info

Publication number
JP5768964B2
JP5768964B2 JP2011077134A JP2011077134A JP5768964B2 JP 5768964 B2 JP5768964 B2 JP 5768964B2 JP 2011077134 A JP2011077134 A JP 2011077134A JP 2011077134 A JP2011077134 A JP 2011077134A JP 5768964 B2 JP5768964 B2 JP 5768964B2
Authority
JP
Japan
Prior art keywords
phenomenon
information
error
failure
occurs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011077134A
Other languages
Japanese (ja)
Other versions
JP2012212283A (en
Inventor
大 塚田
大 塚田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011077134A priority Critical patent/JP5768964B2/en
Publication of JP2012212283A publication Critical patent/JP2012212283A/en
Application granted granted Critical
Publication of JP5768964B2 publication Critical patent/JP5768964B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、障害発生時の事象(現象)の再現確認を容易とする障害調査支援装置、方法およびプログラムに関する。   The present invention relates to a failure investigation support apparatus, method, and program for facilitating reproduction confirmation of an event (phenomenon) when a failure occurs.

障害発生時の調査方法として、一般的には各装置が出力するログの内容を確認することにより、どのような事象(現象)が発生していたのかを確認する方法がある。この際、調査担当者が持つ環境で同様の事象(現象)を再現させることにより、その環境を利用して様々な角度からの調査を行える。そのため、事象(現象)を再現させることは、障害調査上重要な事項である。   As an investigation method when a failure occurs, there is generally a method of confirming what event (phenomenon) has occurred by confirming the contents of a log output by each device. At this time, by reproducing the same event (phenomenon) in the environment of the investigator, it is possible to investigate from various angles using the environment. Therefore, reproducing an event (phenomenon) is an important matter for failure investigation.

事象(現象)を再現させるためには、障害発生時に利用者がどのような操作を行っていたのかが重要となる。ここで、利用者が行った操作を逐一ログに出力していれば、現象発生時の利用者の操作を追うことができる。   In order to reproduce the event (phenomenon), it is important what operation the user was performing when the failure occurred. Here, if the operation performed by the user is output to the log one by one, the user's operation when the phenomenon occurs can be followed.

しかしながら、現実には、そのような頻度でログ出力を行うと、装置の性能に大きく影響する。そのため、利用者の操作レベルの情報はログに出力しないことが多い。その結果、障害発生に至るまでの利用者の操作が分からないため、事象(現象)の再現に時間を要していたり、事象(現象)を再現させられないことも発生していた。   However, in reality, log output at such a frequency greatly affects the performance of the apparatus. For this reason, information on the operation level of the user is often not output to the log. As a result, since the user's operation until the failure occurs is not known, it takes time to reproduce the event (phenomenon) or the event (phenomenon) cannot be reproduced.

本発明に関連する先行技術文献が従来から種々知られている。   Various prior art documents related to the present invention are conventionally known.

例えば、特許文献1は、エラーコードとエラー発生回数により、障害の発生を検出する「障害情報管理方式」を開示している。   For example, Patent Document 1 discloses a “failure information management method” that detects the occurrence of a failure based on an error code and the number of times an error has occurred.

また、特許文献2は、エラーログを管理し、製品にフィードバックさせるためのログ採取、収集、編集、転送する「エラーログ情報管理方法」を開示している。   Patent Document 2 discloses an “error log information management method” for managing error logs and collecting, collecting, editing, and transferring logs for feedback to products.

さらに、特許文献3は、システム負荷が小さく、かつ、採取した操作手順情報を再利用しやすい形で保存する「障害解析支援装置」を開示している。この特許文献3に開示された障害解析支援装置は、客先側システムと開発側システムとを備える。客先側システムは、監視対象となるアプリケーションの起動、終了を監視するアプリケーション起動監視プログラムと、アプリケーションに組み込まれてアプリケーションでの操作手順を即時情報として記号化し記録する手順監視プログラムと、操作手順であるログファイルを一時的に格納するメモリと、ディスプレイとを有する。開発側システムは、操作手順を記録したログファイルから操作手順を再現しやすいように、固定的なキーワードを持つ手順スクリプトファイルと、操作手順を再現できる手順再現プログラムと、監視対象のアプリケーションと、ディスプレイとを有し、客先側システムで発生した障害を解析する。   Furthermore, Patent Document 3 discloses a “failure analysis support device” that stores system operation information that has a small system load and is easy to reuse. The failure analysis support apparatus disclosed in Patent Document 3 includes a customer side system and a development side system. The customer side system consists of an application startup monitoring program that monitors the start and end of the application to be monitored, a procedure monitoring program that is embedded in the application and instantly encodes and records the operation procedure in the application, and an operation procedure. A memory for temporarily storing a log file and a display are included. The development side system has a procedure script file with fixed keywords, a procedure reproduction program that can reproduce the operation procedure, a monitored application, and a display so that the operation procedure can be easily reproduced from the log file that records the operation procedure. And analyze the failure that occurred in the customer side system.

特開平7−262054号公報Japanese Patent Laid-Open No. 7-262054 特開平7−21059号公報Japanese Patent Laid-Open No. 7-21059 特開2000−10829号公報Japanese Patent Laid-Open No. 2000-10829

上述したように、利用者の操作を逐一記録していない装置の場合、その装置で障害が発生した場合に、現象(事象)を再現させるための手順が不明な状態となる。そのため、現象(事象)を再現させるためには、ログから推測される操作を解析したり、対応者の知識に頼ることとなる。その結果、対応者によって現象(事象)を再現させるまでに時間を要したり、現象(事象)の再現自体が行えないことがあった。これにより、障害対応に時間がかかったり、原因不明となってしまう問題点があった。   As described above, in the case of a device that does not record user operations one by one, when a failure occurs in that device, the procedure for reproducing the phenomenon (event) becomes unknown. Therefore, in order to reproduce the phenomenon (event), the operation estimated from the log is analyzed, or the knowledge of the responder is relied upon. As a result, it may take time for the responder to reproduce the phenomenon (event), or the phenomenon (event) itself may not be reproduced. As a result, there is a problem that it takes time to deal with the failure or the cause is unknown.

一方、上記特許文献1〜3に開示された方法では、それぞれ、以下に述べるような問題がある。   On the other hand, the methods disclosed in Patent Documents 1 to 3 have problems as described below.

特許文献1に開示された方法は、単に、エラーコードとエラー発生回数とを管理する技術思想を開示しているに過ぎず、操作手順とエラーとの対応関係については何ら開示も示唆もしていない。   The method disclosed in Patent Document 1 merely discloses a technical idea for managing an error code and the number of error occurrences, and does not disclose or suggest a correspondence relationship between an operation procedure and an error. .

特許文献2に開示された方法も、エラーログを管理して、それを製品にフィードバックさせる技術思想を開示しているに過ぎず、操作手順とエラーとの対応関係については何ら開示も示唆もしていない。   The method disclosed in Patent Document 2 only discloses a technical idea of managing an error log and feeding it back to a product, and also discloses and suggests a correspondence relationship between an operation procedure and an error. Absent.

特許文献3に開示された方法は、操作手順を採取することを開示するのみで、その採取した操作手順とエラーとの対応関係について何ら開示も示唆もしていない。   The method disclosed in Patent Document 3 only discloses collecting an operation procedure, and does not disclose or suggest any correspondence between the collected operation procedure and an error.

本発明の目的は、障害発生時の事象(現象)の再現確認を容易に行える障害調査支援装置、方法およびプログラムを提供することにある。   An object of the present invention is to provide a failure investigation support apparatus, method, and program capable of easily confirming the reproduction of an event (phenomenon) when a failure occurs.

本発明に係る障害調査支援装置は、障害調査業務を支援する障害調査支援装置であって、想定される操作と、当該操作により発生するエラーの現象との間の関係を関連付けた、操作・現象関連情報を蓄積する蓄積手段と、障害発生時にログファイルからエラーメッセージを抽出する抽出手段と、この抽出したエラーメッセージに基づいて、蓄積手段に蓄積された操作・現象関連情報を検索し、検索された一連の操作を、エラーを発生させた現象を再現させる手順として出力する検索手段と、を備え、操作・現象関連情報は、操作の内容を示す操作情報と、エラーが発生した場合に当該現象が発生するまでの一連の操作を纏めたケース情報と、発生したエラーの内容を示す個別現象情報と、ケース情報と個別現象情報とを関連付けた現象情報と、を含むThe trouble investigation support apparatus according to the present invention is a trouble investigation support apparatus that supports trouble investigation work, and relates to an operation / phenomenon in which a relationship between an assumed operation and an error phenomenon caused by the operation is associated. Storage means for storing related information, extraction means for extracting an error message from a log file when a failure occurs, and searching for operation / phenomenon related information stored in the storage means based on the extracted error message a series of operations, e Bei search means for outputting as a procedure for reproducing the phenomenon that caused the error, and the operation and behavior-related information, and operation information indicating the content of operation, the if an error occurs Case information that summarizes a series of operations until the phenomenon occurs, individual phenomenon information indicating the content of the error that has occurred, and phenomenon information that associates case information with individual phenomenon information Including the.

また、本発明に係る障害調査支援方法は、障害調査業務を支援する障害調査支援方法であって、想定される操作と、当該操作により発生するエラーの現象との間の関係を関連付けた、操作・現象関連情報を記憶装置に蓄積するステップと、障害発生時にログファイルからエラーメッセージを抽出するステップと、この抽出したエラーメッセージに基づいて、記憶装置に蓄積された操作・現象関連情報を検索し、検索された一連の操作を、エラーを発生させた現象を再現させる手順として出力するステップと、を含み、操作・現象関連情報は、操作の内容を示す操作情報と、エラーが発生した場合に当該現象が発生するまでの一連の操作を纏めたケース情報と、発生したエラーの内容を示す個別現象情報と、ケース情報と個別現象情報とを関連付けた現象情報と、を含む。
Further, the failure investigation support method according to the present invention is a failure investigation support method for supporting failure investigation work, wherein an operation that associates a relationship between an assumed operation and an error phenomenon caused by the operation. The step of accumulating phenomenon related information in the storage device, the step of extracting an error message from the log file when a failure occurs, and the operation / phenomenon related information accumulated in the storage device are searched based on the extracted error message. , seen including a series of operations that are retrieved, and outputting as a procedure for reproducing the phenomenon that caused the error, the operation-phenomenon related information, the operation information indicating the content of operation, if an error occurs Case information that summarizes a series of operations until the phenomenon occurs, individual phenomenon information indicating the content of the error that occurred, and case information and individual phenomenon information And the only phenomenon information, the including.

本発明に係る障害調査支援装置は、障害発生時の事象(現象)の再現確認を容易に行うことができる。   The failure investigation support apparatus according to the present invention can easily perform reproduction confirmation of an event (phenomenon) at the time of occurrence of a failure.

本発明の第1の実施例に係る障害調査支援装置の構成を示すブロック図である。It is a block diagram which shows the structure of the failure investigation assistance apparatus which concerns on 1st Example of this invention. 図1に示した障害調査支援装置のエラー情報蓄積装置に蓄積される格納情報を示す図である。It is a figure which shows the storage information accumulate | stored in the error information storage apparatus of the failure investigation assistance apparatus shown in FIG. 図1に示した障害調査支援装置の動作を説明するためのタイムチャートである。It is a time chart for demonstrating operation | movement of the failure investigation assistance apparatus shown in FIG.

以下、本発明の実施の形態について、説明する。
先ず、本発明の特徴について説明する。
Hereinafter, embodiments of the present invention will be described.
First, features of the present invention will be described.

本発明は、障害調査を含む保守対応業務において、障害発生時の各装置が出力するログの内容から、現象発生時の想定される操作情報を蓄積データより抽出し、障害発生までの再現確認方法を提示することにより、障害対応者に再現確認を容易にさせ、障害調査を支援する装置である。   The present invention extracts the operation information assumed at the time of occurrence of the phenomenon from the stored data from the contents of the log output by each device at the time of the failure in the maintenance work including the failure investigation, and the reproduction confirmation method until the failure occurs Is a device that makes it easier for a person with a disability to confirm reproduction and supports trouble investigation.

あらかじめ操作とそれによって引き起こされるエラー内容との対応付けを行っておくことにより、エラーの内容からその発生に至るまでの操作を検索することができる。   By associating the operation with the error content caused by the operation in advance, it is possible to search for the operation from the error content to its occurrence.

換言すれば、本発明では、あらかじめ利用者の操作情報とその際に発生するエラーの現象情報との間の関係を関連付けて蓄積した、操作・現象関連情報を用いることにより、発生した障害(エラー)の内容から利用者の操作を検索する。これにより、利用者が行ったと想定される操作が分かるため、その操作を元に再現確認を行うことができる。   In other words, the present invention uses the operation / phenomenon related information stored in association with the relationship between the user's operation information and the error phenomenon information that occurs at that time, thereby causing a failure (error ) To search for user operations. Thereby, since the operation assumed to be performed by the user can be understood, reproduction confirmation can be performed based on the operation.

各製品に対し、どのような操作を行った場合にどのようなエラーが発生するのか、あらかじめ想定されうる多数の操作を行い、発生する現象情報を蓄積する。これにより、利用者の操作や状況と発生する現象が関連付けられる。その関連付けられた蓄積情報(操作・現象関連情報)を用いることにより、障害発生時の現象の内容から現象発生に至るまでの利用者の操作やその際の状況を把握することができる。これにより、今まで時間を要していた現象(事象)の再現確認の方法の確立が容易となる。   For each product, a number of operations that can be assumed in advance as to what kind of error will occur when the operation is performed are stored, and the phenomenon information that occurs is accumulated. Thereby, the operation and situation of the user are associated with the phenomenon that occurs. By using the associated accumulated information (operation / phenomenon related information), it is possible to grasp the user's operation from the content of the phenomenon at the time of failure occurrence to the occurrence of the phenomenon and the situation at that time. This facilitates the establishment of a method for confirming the reproduction of a phenomenon (event) that has taken time.

図1を参照して、本発明の第1の実施例に係る障害調査支援装置100について説明する。図示の障害調査支援装置100は、障害調査業務を支援する装置であって、自動実行装置10と、エラー情報蓄積装置(記憶装置)20と、ログ解析装置30と、ケース検索装置40とから構成されている。   With reference to FIG. 1, a failure investigation support apparatus 100 according to a first embodiment of the present invention will be described. The illustrated failure investigation support device 100 is a device that supports failure investigation work, and includes an automatic execution device 10, an error information storage device (storage device) 20, a log analysis device 30, and a case search device 40. Has been.

自動実行装置10は、ユーザが行える操作を製品(保守対象装置)に対して自動的に実行する。エラー情報蓄積装置20は、利用者の操作の内容や状況とエラーを関連付けて保存する。ログ解析装置30は、障害発生時のログを解析することでエラーメッセージを抽出する。ケース検索装置40は、エラーの内容から操作内容や状況の検索をエラー情報蓄積装置20に対して行う。   The automatic execution device 10 automatically performs operations that can be performed by the user on the product (maintenance target device). The error information storage device 20 saves the user's operation content and situation in association with the error. The log analysis device 30 extracts an error message by analyzing a log when a failure occurs. The case search device 40 searches the error information storage device 20 for the operation content and situation from the error content.

自動実行装置10では、本発明の実施例の実現に必要な利用者が行う操作と、その操作の際に発生するエラーの情報を蓄積するために、利用者が行うことができるあらゆる操作を保守対象装置(図示せず)に対して行う。その際に、保守対象装置がエラーログを出力した場合、自動実行装置10は、その行った操作情報とそれを一連の流れで纏めたケース情報、およびエラーの発生した現象情報をセットにして、後述するエラー情報蓄積装置(記憶装置)20に格納する。   The automatic execution apparatus 10 maintains all operations that can be performed by the user in order to accumulate information on the operations necessary for realizing the embodiment of the present invention and errors that occur during the operations. This is performed for the target device (not shown). At that time, if the maintenance target device outputs an error log, the automatic execution device 10 sets the operation information that has been performed, case information that summarizes the operation information in a series of flows, and the phenomenon information that the error has occurred, as a set. The data is stored in an error information storage device (storage device) 20 described later.

エラー情報蓄積装置(記憶装置)20では、保守対象装置に対して行った操作情報、それを一連の流れで纏めたケース情報、エラーの発生した個別現象情報、および個別現象情報を纏めた現象情報を、関連付けて保存する。   In the error information storage device (storage device) 20, operation information performed on the maintenance target device, case information that summarizes the operation information in a series of flows, individual phenomenon information in which an error has occurred, and phenomenon information that summarizes the individual phenomenon information And save it as an association.

すなわち、自動実行装置10とエラー情報蓄積装置20との組合せは、想定される操作と、当該操作により発生するエラーの現象との間の関係を関連付けた、操作・現象関連情報を蓄積する蓄積手段(10,20)として働く。   That is, the combination of the automatic execution device 10 and the error information storage device 20 is a storage means for storing operation / phenomenon related information in which the relationship between an assumed operation and an error phenomenon caused by the operation is related. Works as (10, 20).

エラー情報蓄積装置20に格納される操作・現象関連情報については、図2のようになっている。操作情報ごとに1つの番号(操作ID)が割り当てられ、それら操作情報の一連の流れを纏めたケース情報に対してもそれぞれ番号(ケースID)が割り当てられる。また、エラーが発生した個別現象情報についてもそれぞれ一意の番号(個別現象ID)が割り当てられ、それらを纏めた現象情報に対しても番号(現象ID)が割り当てられる。これらの情報は、ケースIDと現象IDの関連情報とともに、操作・現象関連情報として、エラー情報蓄積装置20に格納される。   The operation / phenomenon related information stored in the error information storage device 20 is as shown in FIG. One number (operation ID) is assigned to each piece of operation information, and numbers (case IDs) are also assigned to case information that summarizes a series of flow of the operation information. In addition, a unique number (individual phenomenon ID) is assigned to each individual phenomenon information in which an error has occurred, and a number (phenomenon ID) is also assigned to the phenomenon information obtained by collecting them. These pieces of information are stored in the error information storage device 20 as operation / phenomenon related information together with related information of the case ID and the phenomenon ID.

すなわち、操作・現象関連情報は、図2に示すように、操作の内容を示す操作情報と、エラーが発生した場合に当該現象が発生するまでの一連の操作を纏めたケース情報と、発生したエラーの内容を示す個別現象情報と、ケース情報と個別現象情報とを関連付けた現象情報と、を含む。   That is, the operation / phenomenon related information is generated as shown in FIG. 2, operation information indicating the contents of the operation, case information summarizing a series of operations until the phenomenon occurs when an error occurs. It includes individual phenomenon information indicating the content of the error, and phenomenon information in which case information and individual phenomenon information are associated with each other.

ログ解析装置30では、障害発生時のログを解析し、エラーメッセージをログから抽出する。すなわち、ログ解析装置30は、障害発生時にログファイルからエラーメッセージを抽出する抽出手段(30)として働く。   The log analysis device 30 analyzes a log when a failure occurs and extracts an error message from the log. That is, the log analysis device 30 functions as extraction means (30) that extracts an error message from the log file when a failure occurs.

ケース検索装置40では、渡されたエラーメッセージから、エラー情報蓄積装置20に蓄積されている操作・現象関連情報を検索し、エラーメッセージを発生させる一連の操作を返す。したがって、ケース検索装置40は、抽出したエラーメッセージに基づいて、蓄積手段(10,20)で蓄積された操作・現象関連情報を検索し、検索された一連の操作を、エラーを発生させた現象を再現させる手順として出力する検索手段(40)として動作する。   The case search device 40 searches for the operation / phenomenon related information stored in the error information storage device 20 from the passed error message, and returns a series of operations for generating an error message. Therefore, the case search device 40 searches the operation / phenomenon related information stored in the storage means (10, 20) based on the extracted error message, and causes a series of the searched operations to generate an error. It operates as a search means (40) for outputting as a procedure for reproducing.

このような自動実行装置10、エラー情報蓄積装置(記憶装置)20、ログ解析装置30、およびケース検索装置40から成る障害調査支援装置100は、コンピュータによって実現され得る。そして、コンピュータに、障害調査支援プログラムをインストールすることによって、障害調査支援装置100として動作させ得る。   The failure investigation support device 100 including the automatic execution device 10, the error information storage device (storage device) 20, the log analysis device 30, and the case search device 40 can be realized by a computer. Then, the failure investigation support apparatus 100 can be operated by installing the failure investigation support program in the computer.

図示の障害調査支援装置100において、あらかじめ保守対象装置に対して、利用者が行うことができる操作を、自動実行装置10を利用して実行しておく。この自動実行装置10では、画面上に表示されているボタンのクリックなどユーザが操作可能なものについて、操作を実行する。これらの操作については「どの製品に対し、どのオブジェクトを、どのように操作したか」という内容ごとに、一意の番号(以降、「操作ID」と呼ぶ)が割り当てられている。   In the illustrated failure investigation support apparatus 100, operations that can be performed by the user on the maintenance target apparatus are executed in advance using the automatic execution apparatus 10. In this automatic execution device 10, an operation is performed on a device that can be operated by the user, such as a click on a button displayed on the screen. For these operations, a unique number (hereinafter referred to as “operation ID”) is assigned for each content “how to operate which object for which product”.

例えば、「ポータルシステムに対し、ログインボタンを、ダブルクリックする」といった内容(操作情報)に対し、操作IDが割り当てられている。各操作を製品に対して行った際にエラーが発生した場合、自動実行装置10は、当該エラーが発生した場合の当該現象が発生するまでの一連の操作について纏めたもの(これを「ケース情報」と呼ぶ)に対して一意の番号(以降、「ケースID」と呼ぶ)を割り当てる。また、自動実行装置10は、発生したエラーの内容(個別現象情報)についても同様に「どの製品に対し、どのような内容が出力されたか」という内容(個別現象情報)ごとに、一意の番号(以降、「個別現象ID」と呼ぶ)を割り当てる。そして、自動実行装置10は、これらの個別現象のうち操作により発生した1つ以上を纏めたもの(現象情報)に対しても一意の番号(以降、「現象ID」と呼ぶ)を割り当て、ケースIDと現象IDとを関連付けて、エラー情報蓄積装置20に格納する。   For example, an operation ID is assigned to the content (operation information) such as “double-click the login button for the portal system”. When an error occurs when each operation is performed on the product, the automatic execution device 10 summarizes a series of operations until the phenomenon occurs when the error occurs (this is referred to as “case information”). A unique number (hereinafter referred to as “Case ID”) is assigned. Similarly, the automatic execution apparatus 10 also provides a unique number for each content (individual phenomenon information) that indicates “what content has been output for which product” in the same manner as the content of the error that has occurred (individual phenomenon information). (Hereinafter referred to as “individual phenomenon ID”). Then, the automatic execution device 10 assigns a unique number (hereinafter referred to as “phenomenon ID”) to a group of one or more of these individual phenomena (phenomenon information) generated by the operation. The ID and the phenomenon ID are associated with each other and stored in the error information storage device 20.

例えば「システムAにログインし、左上のアイコンをダブルクリックすると、ログイン後の情報取得に失敗した旨が2つの製品のログに出力される」という現象が発生したとする。この場合、以下のような情報が、エラー情報蓄積装置20に操作・現象関連情報として格納される。   For example, it is assumed that a phenomenon occurs that “when logging in to the system A and double-clicking the icon on the upper left, a failure to acquire information after login is output to the logs of two products”. In this case, the following information is stored in the error information storage device 20 as operation / phenomenon related information.

1) 次のような操作情報が、エラー情報蓄積装置20に記録される。
「システムAに対し、ID入力欄に、IDを入力する」(操作ID:1001)
「システムAに対し、ログインボタンを、クリックする」 (操作ID:1002)
「システムAに対し、左上のアイコンを、ダブルクリックする」 (操作ID:1003)
2) これらを纏めた以下のケース情報が、エラー情報蓄積装置20に記録される。
ケースID:2001 { 操作ID:1001,1002,1003}
3) 次のような個別現象情報が、エラー情報蓄積装置20に記録される。
「システムAのログに、『ログイン後の情報取得に失敗しました。』と出力される」 (個別現象ID:3001)
「システムBのログに、『ログイン後の情報取得に失敗しました。』と出力される」 (個別現象ID:3002)
4) 次のような現象情報が、エラー情報蓄積装置20に記録される。
現象ID:4001 { 個別現象ID:3001,3002}
5) ケースID:2001と現象ID:4001とが関連付けられて、エラー情報蓄積装置20に格納される。
1) The following operation information is recorded in the error information storage device 20.
“Enter an ID in the ID input field for system A” (operation ID: 1001)
"Click the login button for System A" (Operation ID: 1002)
“Double-click the icon on the upper left for System A” (Operation ID: 1003)
2) The following case information that summarizes these is recorded in the error information storage device 20.
Case ID: 2001 {Operation ID: 1001, 1002, 1003}
3) The following individual phenomenon information is recorded in the error information storage device 20.
“System A log outputs“ Failed to get information after login. ”” (Individual phenomenon ID: 3001)
“System B log outputs“ Failed to get information after login. ”” (Individual phenomenon ID: 3002)
4) The following phenomenon information is recorded in the error information storage device 20.
Phenomenon ID: 4001 {Individual phenomenon ID: 3001,3002}
5) Case ID: 2001 and phenomenon ID: 4001 are associated with each other and stored in the error information storage device 20.

このようにして、操作とそれによって引き起こされるエラーの内容を関連付けた、操作・現象関連情報をエラー情報蓄積装置20に格納しておく。   In this way, the operation / phenomenon related information in which the operation and the content of the error caused by the operation are associated is stored in the error information storage device 20.

次に、障害(エラー)が発生した際には、対応者は、発生した装置のログをログ解析装置30に入力する。ログ解析装置30では、障害(エラー)の発生時間帯などをもとに、ログファイルからエラーメッセージを抽出する。   Next, when a failure (error) occurs, the responder inputs a log of the generated device to the log analysis device 30. The log analysis device 30 extracts an error message from the log file based on a failure (error) occurrence time zone.

障害(エラー)の調査を行うために、この現象を再現させる必要があるが、そのために抽出したログの内容をケース検索装置40に入力する。ケース検索装置40では、ログのエラーメッセージに基づいて、エラー情報蓄積装置20から合致する個別現象を検索する。合致する個別現象が存在する場合、ケース検索装置40は、その個別現象が含まれている現象、およびその現象に関連付けられているケースを検索する。   In order to investigate a failure (error), it is necessary to reproduce this phenomenon. The content of the extracted log is input to the case search device 40 for this purpose. The case search device 40 searches for a matching individual phenomenon from the error information storage device 20 based on the error message in the log. When there is a matching individual phenomenon, the case search device 40 searches for a phenomenon including the individual phenomenon and a case associated with the phenomenon.

この検索により、ログに記録されていたエラーを発生させるケース、つまり一連の操作が検索されるため、対応者は、エラー現象を発生させる一連の操作を確認でき、それを元に再現確認を行うことが可能となる。   By this search, a case that causes an error recorded in the log, that is, a series of operations is searched, so the responder can check the series of operations that cause the error phenomenon, and perform a reproduction check based on that It becomes possible.

例えば「システムAに『ログイン後の情報取得に失敗しました』と出力される」現象が抽出されたとする。この場合、ケース検索装置40では、まずこのエラー出力内容にてエラー情報蓄積装置20に対して検索をかける。この場合、個別現象ID:3001が検索される。   For example, it is assumed that a phenomenon that “output of information after login failed” is output to the system A is extracted. In this case, the case search device 40 first searches the error information storage device 20 with this error output content. In this case, the individual phenomenon ID: 3001 is searched.

次に、ケース検索装置40は、この個別現象を含む現象を検索すると、現象ID:4001だとわかる。さらに、ケース検索装置40は、現象ID:4001と関連付けられているケースを検索すると、ケースID:2001だと分かり、そのケースに含まれる操作が操作ID:1001、操作ID:1002、操作ID:1003であると分かる。   Next, when the case search device 40 searches for a phenomenon including the individual phenomenon, the case search apparatus 40 can recognize that the phenomenon ID is 4001. Furthermore, when the case search apparatus 40 searches for a case associated with the phenomenon ID: 4001, it is known that the case ID is 2001, and the operations included in the case are the operation ID: 1001, the operation ID: 1002, and the operation ID: 1003 is understood.

対応者は、操作ID:1001、1002、1003の操作を順に行えば、今回のエラーメッセージの内容の現象が発生すると判断でき、それを元に現象(事象)の再現確認を行うことができる。   The responder can determine that a phenomenon corresponding to the content of the current error message occurs by sequentially performing the operations of operation IDs: 1001, 1002, and 1003, and can confirm the reproduction of the phenomenon (event) based on the phenomenon.

次に、図3のタイムチャートを参照して、図1に示した障害調査支援装置100の動作について説明する。   Next, the operation of the failure investigation support apparatus 100 shown in FIG. 1 will be described with reference to the time chart of FIG.

まず、保守対象装置に対して、自動実行装置10を利用して、想定されうる利用者の操作を行う。例えば、自動実行装置10は、『システムAに対し、ログインIDにIDを入力し、ログインボタンをクリックし、その後の画面でアイコンをダブルクリックする』などの操作を、保守対象装置に対して行う。その際に、保守対象装置がエラーメッセージをログに出力した場合、自動実行装置10は、エラー情報蓄積装置20に対し、行った一連の操作と発生したエラーメッセージを格納する。   First, a user operation that can be assumed is performed on the maintenance target device by using the automatic execution device 10. For example, the automatic execution apparatus 10 performs an operation such as “input an ID to the system A as a login ID, click a login button, and double-click an icon on the subsequent screen” on the maintenance target apparatus. . At this time, when the maintenance target device outputs an error message to the log, the automatic execution device 10 stores a series of operations performed and the error message that has occurred in the error information storage device 20.

例えば、「『システムAのログインID入力欄にログインIDを入力する』『システムAのログインボタンをクリックする』『表示されたアイコンをダブルクリックする』という操作に対し、『システムAのエラーログにログイン情報の取得に失敗しましたというエラーメッセージが出力される』」といった内容を、自動実行装置10は、エラー情報蓄積装置20に送信する(図3のステップ(1))。   For example, in response to operations such as “input a login ID in the login ID input field of system A”, “click the login button of system A”, and “double-click the displayed icon”, “in the error log of system A The automatic execution device 10 transmits a content such as “an error message indicating failure in obtaining login information” to the error information storage device 20 (step (1) in FIG. 3).

エラー情報蓄積装置20では、各操作に対し自身の格納している操作情報と比較して、すでに番号づけられているものであればその番号を用い、されていなければ新たに採番し、操作情報を格納するという動作を行う。同様に、個別現象情報に対しても格納されていない場合、エラー情報蓄積装置20は、採番し、個別現象情報を格納する。さらに、エラー情報蓄積装置20は、操作をまとめたケース情報を採番し、同様に個別現象情報を纏めた現象情報を採番し、ケースと現象の関連情報を作成して格納する(図3のステップ(2))。   In the error information storage device 20, each operation is compared with the operation information stored therein, and if it is already numbered, the number is used, and if not, a new number is assigned. The operation of storing information is performed. Similarly, if the individual phenomenon information is not stored, the error information storage device 20 assigns a number and stores the individual phenomenon information. Further, the error information storage device 20 numbers case information that summarizes operations, similarly numbers phenomenon information that summarizes individual phenomenon information, and creates and stores information related to cases and phenomena (FIG. 3). Step (2)).

障害(エラー)が発生した際に、障害調査の対応者(以降、単に「対応者」と呼ぶ)は、障害発生時に保守対象装置が出力したログファイルを、ログ解析装置30に入力する。ログ解析装置30ではログの解析を行い、現象発生時間帯に出力されているエラーメッセージを出力する(図3のステップ(3))。   When a failure (error) occurs, the responder of the failure investigation (hereinafter simply referred to as “responder”) inputs the log file output by the maintenance target device to the log analysis device 30 when the failure occurs. The log analysis device 30 analyzes the log and outputs an error message output during the phenomenon occurrence time zone (step (3) in FIG. 3).

例えば、「ログイン情報の取得に失敗しました」というエラーメッセージが該当時間帯に出力されていた場合、ログ解析装置30は、このメッセージを抽出する。そして、ログ解析装置30は、エラーメッセージを出力した製品情報と、そのエラーメッセージの内容をケース検索装置40に入力する(図3のステップ(4))。   For example, when an error message “Login information acquisition failed” is output in the corresponding time zone, the log analysis device 30 extracts this message. Then, the log analysis device 30 inputs the product information that has output the error message and the content of the error message to the case search device 40 (step (4) in FIG. 3).

ケース検索装置40では、入力された製品情報とエラーメッセージの内容とに基づいて、エラー情報蓄積装置20が格納している操作・現象関連情報から該当するものを検索する(図3のステップ(5))。   The case search device 40 searches the operation / phenomenon related information stored in the error information storage device 20 based on the input product information and the content of the error message (step (5 in FIG. 3). )).

ケース検索装置10は、製品のマッチングとメッセージの文字列マッチングにより、該当する個別現象情報を検索する。それにより、ケース検索装置10は、その個別現象情報を含む現象情報を判断することができる。さらに、ケース検索装置40は、現象情報と関連付けられているケース情報を検索するため、該当ケース情報が参照している各操作情報を検索することができる。このようにして、ケース検索装置40は、エラー情報蓄積装置20の格納データ(操作・現象関連情報)より、エラーメッセージを発生させる一連の操作を取得する(図3のステップ(6))。   The case retrieval apparatus 10 retrieves corresponding individual phenomenon information by product matching and message character string matching. Thereby, the case search device 10 can determine the phenomenon information including the individual phenomenon information. Furthermore, since the case search device 40 searches for case information associated with the phenomenon information, it can search for each piece of operation information referred to by the corresponding case information. In this way, the case search device 40 acquires a series of operations for generating an error message from the stored data (operation / phenomenon related information) of the error information storage device 20 (step (6) in FIG. 3).

次に、本第1の実施例の効果について説明する。   Next, effects of the first embodiment will be described.

本発明の第1の実施例は、エラーメッセージの内容から障害(エラー)の再現を行うことが難しい場合でも、エラーを発生させた現象を再現させる再現手順を確立することができる。   The first embodiment of the present invention can establish a reproduction procedure for reproducing a phenomenon that caused an error even when it is difficult to reproduce a failure (error) from the content of an error message.

以上、実施例を参照して本発明を説明したが、本発明は上記実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。   While the present invention has been described with reference to the embodiments, the present invention is not limited to the above embodiments. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.

例えば、検索に際し、1つのログメッセージだけではなく、複数のエラーメッセージや、複数の装置のエラーメッセージから検索を行ってもよい。それらのエラーメッセージの全てが個別現象情報として含まれている現象情報を検索することにより、より精度の高い検索を行うことが可能である。また、すべて含まなくても、発生しているメッセージのうち多くの個別現象情報を含む現象情報であれば、同一現象の可能性が高い、とみなすことも可能である。   For example, when searching, not only one log message but also a plurality of error messages or a plurality of device error messages may be used for the search. By searching for phenomenon information that includes all of these error messages as individual phenomenon information, a more accurate search can be performed. Even if not all of them are included, it is possible to consider that there is a high possibility of the same phenomenon as long as the phenomenon information includes a lot of individual phenomenon information among the generated messages.

また、ケースと現象の関連について、1対1ではなく、多対多の状態となってもよい。つまり、あるケースによって発生する現象は複数あり、逆にある現象を発生させるケースは複数ある、としてもよい。本発明のデータ格納方式では、ケースと現象の関連について、多対多にも対応できるようになっている。   Further, the relationship between cases and phenomena may be in a many-to-many state instead of one-to-one. That is, there may be a plurality of phenomena that occur due to a certain case, and there may be a plurality of cases that cause a certain phenomenon. The data storage system of the present invention can deal with many-to-many relationships between cases and phenomena.

1種類のログの内容では手順が絞れない(エラーメッセージを発生させるために複数の操作が存在する)場合、エラー蓄積情報を用いて、他に必要なログを確認することができる。例えば、『操作Aと操作Bを行うと、装置AでメッセージAが、装置BでメッセージBが出力される』という情報と『操作Cと操作Dを行うと、装置AでメッセージAが、装置BでメッセージCが出力される』という情報があったとする。この場合、装置Aのエラーメッセージだけでは上記2つが検索されてしまい、正しい再現手順が不明となる。ここで、この2つの事例を確認することにより、装置Bのログ情報が分かれば、現象を再現させるための操作を1つに絞ることができる。これにより現象の切り分けの支援を行うことができる。   When the procedure cannot be narrowed down with the contents of one type of log (a plurality of operations exist to generate an error message), other necessary logs can be confirmed using the error accumulation information. For example, when “operation A and operation B are performed, message A is output from device A and message B is output from device B” and “when operation C and operation D are performed, message A is transmitted from device A to device A. It is assumed that there is information that “message C is output at B”. In this case, only the error message of apparatus A searches for the above two, and the correct reproduction procedure is unknown. Here, by confirming these two cases, if the log information of the device B is known, the operation for reproducing the phenomenon can be limited to one. Thereby, it is possible to support the separation of the phenomenon.

10 ・・・ 自動実行装置
20 ・・・ エラー情報蓄積装置(記憶装置)
30 ・・・ ログ解析装置
40 ・・・ ケース検索装置
100 ・・・ 障害調査支援装置
10: Automatic execution device 20: Error information storage device (storage device)
30: Log analysis device 40: Case search device 100: Failure investigation support device

Claims (3)

障害調査業務を支援する障害調査支援装置であって、
想定される操作と、当該操作により発生するエラーの現象との間の関係を関連付けた、操作・現象関連情報を蓄積する蓄積手段と、
障害発生時にログファイルからエラーメッセージを抽出する抽出手段と、
該抽出したエラーメッセージに基づいて、前記蓄積手段に蓄積された前記操作・現象関連情報を検索し、検索された一連の操作を、前記エラーを発生させた現象を再現させる手順として出力する検索手段と、
を備え、
前記操作・現象関連情報は、
前記操作の内容を示す操作情報と、
前記エラーが発生した場合に当該現象が発生するまでの一連の操作を纏めたケース情報と、
発生したエラーの内容を示す個別現象情報と、
前記ケース情報と前記個別現象情報とを関連付けた現象情報と、
を含む、障害調査支援装置。
A trouble investigation support device that supports trouble investigation work,
Storage means for storing operation / phenomenon related information that correlates a relationship between an expected operation and an error phenomenon caused by the operation;
An extraction means for extracting an error message from a log file when a failure occurs;
Retrieval means for retrieving the operation / phenomenon related information accumulated in the accumulation means based on the extracted error message, and outputting the retrieved series of operations as a procedure for reproducing the phenomenon that caused the error When,
Bei to give a,
The operation / phenomenon related information is
Operation information indicating the content of the operation;
Case information that summarizes a series of operations until the phenomenon occurs when the error occurs,
Individual phenomenon information indicating the details of the error that occurred,
Phenomenon information that associates the case information with the individual phenomenon information;
Including failure investigation support device.
障害調査業務を支援する障害調査支援方法であって、
想定される操作と、当該操作により発生するエラーの現象との間の関係を関連付けた、操作・現象関連情報を記憶装置に蓄積するステップと、
障害発生時にログファイルからエラーメッセージを抽出するステップと、
該抽出したエラーメッセージに基づいて、前記記憶装置に蓄積された前記操作・現象関連情報を検索し、検索された一連の操作を、前記エラーを発生させた現象を再現させる手順として出力するステップと、
を含み、
前記操作・現象関連情報は、
前記操作の内容を示す操作情報と、
前記エラーが発生した場合に当該現象が発生するまでの一連の操作を纏めたケース情報と、
発生したエラーの内容を示す個別現象情報と、
前記ケース情報と前記個別現象情報とを関連付けた現象情報と、
を含む、障害調査支援方法。
A failure investigation support method for supporting failure investigation work,
Storing operation / phenomenon related information in a storage device in association with a relationship between an assumed operation and an error phenomenon caused by the operation;
Extracting an error message from the log file when a failure occurs;
Retrieving the operation / phenomenon related information stored in the storage device based on the extracted error message, and outputting the retrieved series of operations as a procedure for reproducing the phenomenon causing the error; ,
Only including,
The operation / phenomenon related information is
Operation information indicating the content of the operation;
Case information that summarizes a series of operations until the phenomenon occurs when the error occurs,
Individual phenomenon information indicating the details of the error that occurred,
Phenomenon information that associates the case information with the individual phenomenon information;
Including failure investigation support methods.
コンピュータに障害調査業務を支援させる障害調査支援プログラムであって、
前記コンピュータに、
想定される操作と、当該操作により発生するエラーの現象との間の関係を関連付けた、操作・現象関連情報を記憶装置に蓄積する手順と、
障害発生時にログファイルからエラーメッセージを抽出する手順と、
該抽出したエラーメッセージに基づいて、前記記憶装置に蓄積された前記操作・現象関連情報を検索し、検索された一連の操作を、前記エラーを発生させた現象を再現させる手順として出力する手順と、
を実行させるための障害調査支援プログラムであり、
前記操作・現象関連情報は、
前記操作の内容を示す操作情報と、
前記エラーが発生した場合に当該現象が発生するまでの一連の操作を纏めたケース情報と、
発生したエラーの内容を示す個別現象情報と、
前記ケース情報と前記個別現象情報とを関連付けた現象情報と、
を含む、障害調査支援プログラム。
A failure investigation support program that causes a computer to support failure investigation work,
In the computer,
A procedure for storing operation / phenomenon related information in a storage device in association with a relationship between an assumed operation and an error phenomenon caused by the operation;
A procedure to extract error messages from log files when a failure occurs,
A procedure for searching for the operation / phenomenon related information stored in the storage device based on the extracted error message, and outputting the searched series of operations as a procedure for reproducing the phenomenon causing the error; ,
Is a disorder research support program for the execution,
The operation / phenomenon related information is
Operation information indicating the content of the operation;
Case information that summarizes a series of operations until the phenomenon occurs when the error occurs,
Individual phenomenon information indicating the details of the error that occurred,
Phenomenon information that associates the case information with the individual phenomenon information;
Disability investigation support program including
JP2011077134A 2011-03-31 2011-03-31 Failure investigation support device, method and program Expired - Fee Related JP5768964B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011077134A JP5768964B2 (en) 2011-03-31 2011-03-31 Failure investigation support device, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011077134A JP5768964B2 (en) 2011-03-31 2011-03-31 Failure investigation support device, method and program

Publications (2)

Publication Number Publication Date
JP2012212283A JP2012212283A (en) 2012-11-01
JP5768964B2 true JP5768964B2 (en) 2015-08-26

Family

ID=47266185

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011077134A Expired - Fee Related JP5768964B2 (en) 2011-03-31 2011-03-31 Failure investigation support device, method and program

Country Status (1)

Country Link
JP (1) JP5768964B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111190792B (en) * 2019-12-20 2023-10-27 中移(杭州)信息技术有限公司 Log storage method and device, electronic equipment and readable storage medium

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161205A (en) * 1994-12-02 1996-06-21 Toshiba Corp Computer system and fault history management method therefor
JP4220847B2 (en) * 2003-07-08 2009-02-04 富士フイルム株式会社 Electronic camera
JP2006107221A (en) * 2004-10-07 2006-04-20 Hitachi Ltd System for providing handling method for error in computer program

Also Published As

Publication number Publication date
JP2012212283A (en) 2012-11-01

Similar Documents

Publication Publication Date Title
JP6669156B2 (en) Application automatic control system, application automatic control method and program
JP4458493B2 (en) Log notification condition definition support apparatus, log monitoring system, program, and log notification condition definition support method
US9189135B2 (en) Three-dimensional GUI object stores in automation test tools
WO2014049804A1 (en) System operation trace method in distributed system
JP2008310582A (en) Maintenance work support apparatus and system, and maintenance work support method
JP2014067369A (en) Information processor, program, and information processing method
US10567557B2 (en) Automatically adjusting timestamps from remote systems based on time zone differences
JP2003141075A (en) Log information management device and log information management program
JP2013191188A (en) Log management device, log storage method, log retrieval method, importance determination method and program
US20200125544A1 (en) Method and Apparatus of Collecting and Reporting Database Application Incompatibilities
JP2011108157A (en) Man-machine device for plant monitoring
JP2006190138A (en) Alarm management device, alarm management method and program
CN105183648A (en) Visualized automatic dial testing method and system
JP5768964B2 (en) Failure investigation support device, method and program
JPWO2009150737A1 (en) Maintenance work support program, maintenance work support method, and maintenance work support apparatus
JP2007193504A (en) Test case preparation method, test case preparation system and test case preparation program
JP4911074B2 (en) Failure cause analysis support apparatus and method
JP2018081403A (en) Incident management system, incident management method and computer program
CN114021756B (en) Fault analysis method and device and electronic equipment
JP2006099249A (en) Fault management device and fault management method
JPH11296480A (en) Remote fault monitoring system
JP5444071B2 (en) Fault information collection system, method and program
JP2008198123A (en) Fault detection system and fault detection program
JP2007200047A (en) Access log-displaying system and method
JP5901962B2 (en) Command processing system and method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141020

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150527

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150609

R150 Certificate of patent or registration of utility model

Ref document number: 5768964

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees