JP4398907B2 - Feature sequence pattern finding device and method of operating feature sequence pattern finding device - Google Patents

Feature sequence pattern finding device and method of operating feature sequence pattern finding device Download PDF

Info

Publication number
JP4398907B2
JP4398907B2 JP2005188453A JP2005188453A JP4398907B2 JP 4398907 B2 JP4398907 B2 JP 4398907B2 JP 2005188453 A JP2005188453 A JP 2005188453A JP 2005188453 A JP2005188453 A JP 2005188453A JP 4398907 B2 JP4398907 B2 JP 4398907B2
Authority
JP
Japan
Prior art keywords
sequence pattern
pattern
sequence
candidate
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005188453A
Other languages
Japanese (ja)
Other versions
JP2007011488A (en
Inventor
茂明 櫻井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2005188453A priority Critical patent/JP4398907B2/en
Publication of JP2007011488A publication Critical patent/JP2007011488A/en
Application granted granted Critical
Publication of JP4398907B2 publication Critical patent/JP4398907B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、コンピュータ上に時間を追って蓄積される系列データ、例えば、小売り分野における日々の売上げデータ及び業務報告を記載した日報、健康管理分野における日々の血圧・脈拍等の生体データ及び個人の行動を記録した行動記録、金融分野における日々の株価データ及び新聞等に記載されているニュース等といった系列データに内在する特徴的な系列パターンを発見し、利用者の意思決定を支援するための装置及びその作動方法に関するものである。   The present invention relates to serial data accumulated over time on a computer, for example, daily reports describing daily sales data and business reports in the retail field, biological data such as daily blood pressure and pulse in the health management field, and individual behavior. For detecting characteristic sequence patterns inherent in the sequence data such as action records recorded, daily stock price data in the financial field, news etc. described in newspapers, etc., and for supporting decision making by users, and It relates to its operating method.

GSP(Generalized Sequential Patterns)アルゴリズムでは、多数の要素から構成される系列データを入力とし、その系列データ集合の中において頻出する系列パターンを発見することができる。しかしながら、本手法において発見される頻出系列パターンは、分析者にとっては既知の系列パターンである場合が多く、必ずしも分析者に新たな知見を与えることができない。また、少ない頻度を指定して頻出系列パターンを発見する場合には、多数の頻出系列パターンを発見することになるため、すべての頻出系列パターンを発見するのに多くの時間が必要となるばかりか、新たな知見を与える特徴的な系列パターンが多数の頻出系列パターンの中に埋もれてしまう危険性がある。   In the GSP (Generalized Sequential Patterns) algorithm, sequence data composed of a large number of elements is input, and sequence patterns that frequently appear in the sequence data set can be found. However, the frequent sequence pattern discovered by this method is often a sequence pattern known to the analyst, and new knowledge cannot always be given to the analyst. In addition, when frequent sequences are found by specifying a low frequency, a large number of frequent sequences are discovered, so that not only frequent time is required to discover all frequent sequences. There is a risk that a characteristic sequence pattern giving new knowledge is buried in a large number of frequent sequence patterns.

下記特許文献1に記載の「意外性に基づく状態列パターンの評価装置」では、系列パターンに対して意外性を定義することにより、系列パターンの中から特徴的な系列パターンを発見することができる。しかしながら、本装置においては、意外性の有無の判定のための候補系列パターンが発見されていることを前提としており、意外性のある系列パターンを発見するには上記GSPなどの手法を利用して予め候補となる系列パターンを発見しなければならない。また、候補となる系列パターンの頻度の増減と意外性の値の増減との間には単調な関係が存在しないことから、低頻度の系列パターンをも候補として発見しなければ、すべての意外性のある系列パターンを発見することができない。このため、候補となる系列パターンを発見するのに多くの時間が必要である。   In the “apparatus for evaluating state sequence pattern based on unexpectedness” described in Patent Document 1 described below, a characteristic sequence pattern can be found from the sequence pattern by defining the unexpectedness for the sequence pattern. . However, in this apparatus, it is premised that a candidate sequence pattern for determining the presence or absence of an unexpectedness has been discovered, and in order to discover an unexpected sequence pattern, a technique such as GSP is used. A candidate sequence pattern must be found in advance. In addition, since there is no monotonous relationship between the increase / decrease in the frequency of candidate series patterns and the increase / decrease in the value of unexpectedness, all unexpectedness must be found unless low-frequency series patterns are also detected as candidates. A certain series pattern cannot be found. For this reason, it takes a lot of time to find candidate sequence patterns.

下記特許文献2に記載の「イベントデータに関する情報管理装置」では、対象となる問題領域において、時系列的に発生するイベントを利用することにより、問題領域における事例の重要度を更新し、現在の時間に合った重要度の高い事例を抽出することができる。しかしながら、本装置においては、問題領域に対応する事例の抽出の際に、時間を勘案して事例を抽出しているだけであり、時系列的なパターンを発見することはできない。
特開2004−178515号公報 特開2002−207755号公報
In the “information management apparatus related to event data” described in Patent Document 2 below, the importance of the case in the problem area is updated by using the events that occur in time series in the target problem area. Cases with high importance that match the time can be extracted. However, in this apparatus, when extracting the case corresponding to the problem area, only the case is extracted in consideration of time, and a time-series pattern cannot be found.
JP 2004-178515 A JP 2002-207755 A

近年、時間情報及び属性情報が付随したイベントを簡便に収集・蓄積できる環境が整備されており、これらのイベントデータを分析し、人間の意思決定に役立てたいとのニーズが高まっている。   In recent years, an environment in which events accompanied by time information and attribute information can be easily collected and accumulated has been established, and there is an increasing need to analyze these event data and use them for human decision making.

イベントデータを分析する従来の手法では、まず、個々のイベントに付随する時間情報や属性情報に基づいてイベントをグループ化し、系列データを生成する。次に、この系列データの集合から、系列データ集合中に頻繁に現れる部分系列を頻出系列パターンとして抽出する。この頻出系列パターンは、与えられた系列データ集合を代表するパターンになっているものの、分析者にとっては、ありふれたパターンである場合が多い。このため、分析者に新たな知見を与える特徴的な系列パターンを発見するには、発見された頻出系列パターンの中から、他の基準(例えば信頼度)に基づいて特徴的な系列パターンを発見する必要がある。   In the conventional method of analyzing event data, first, events are grouped based on time information and attribute information associated with each event to generate series data. Next, a partial series that frequently appears in the series data set is extracted as a frequent series pattern from the series data set. Although this frequent series pattern is a pattern representative of a given series data set, it is often a common pattern for analysts. For this reason, in order to discover a characteristic sequence pattern that gives the analyst new knowledge, a characteristic sequence pattern is found based on other criteria (for example, reliability) from the frequent sequence patterns that have been discovered. There is a need to.

ここで、「頻出」と判定する基準を高くすることにより最初に発見される頻出系列パターンの数を少なくし過ぎると、特徴的な系列パターンが見落とされる可能性があり、一方、「頻出」と判定する基準を低くし過ぎると、多数の頻出系列パターンの中に特徴的な系列パターンが埋もれてしまう可能性があるという問題点がある。したがって、このようなトレードオフの問題点を解決し、特徴的な系列パターンを効率よく発見するための新たな手法の確立が望まれている。   Here, if the number of frequent sequence patterns first discovered by increasing the criterion for determining “frequent” is too small, characteristic sequence patterns may be overlooked, while “frequent” If the criterion for determination is too low, there is a problem that a characteristic sequence pattern may be buried in a large number of frequent sequence patterns. Therefore, it is desired to establish a new method for solving such a trade-off problem and efficiently discovering a characteristic sequence pattern.

本発明は、かかる事情を考慮してなされたものであり、コンピュータ上に時間を追って蓄積される系列データの中から、出現頻度がそれ程多くないとしても、利用者にとって興味が高いと考えられるような特徴的な系列パターンを発見できる装置及びその作動方法を提供することを目的とする。   The present invention has been made in view of such circumstances, and seems to be of high interest to the user even if the appearance frequency is not so high from the series data accumulated over time on the computer. An object of the present invention is to provide an apparatus capable of finding a unique characteristic sequence pattern and a method of operating the same.

本発明の一観点に係る特徴系列パターン発見装置は、複数のイベントからなる系列データを格納する系列データ格納部と、既に発見された特徴系列パターンを格納する特徴系列パターン格納部と、前記特徴系列パターン格納部に格納されている特徴系列パターンの組において一致するイベント又はイベント集合に対し、前記系列データ格納部から取り出したイベント又はイベント集合を加えることにより候補系列パターンを生成する候補系列パターン生成部と、前記系列データ格納部に格納された系列データのうち前記候補系列パターンを包含する系列データの個数に相当する、前記候補系列パターンの頻度を計算する系列パターン頻度計算部と、前記特徴系列パターンにおける部分系列パターンの頻度を格納する部分系列パターン頻度格納部と、前記系列パターン頻度計算部により計算された候補系列パターンの頻度及び前記部分系列パターン頻度格納部に格納されている部分系列パターンの頻度から、より多くのイベントを含む候補系列パターンに対して単調に減少する評価値を与える評価式に従い、前記候補系列パターンの評価値を計算する候補系列パターン評価部と、前記評価値が閾値を超えるか否かを判定する候補系列パターン判定部と、を具備し、前記閾値を超える候補系列パターンを新たな特徴系列パターンとして前記特徴系列パターン格納部に格納することを具備する特徴系列パターン発見装置である。   A feature sequence pattern finding apparatus according to an aspect of the present invention includes a sequence data storage unit that stores sequence data including a plurality of events, a feature sequence pattern storage unit that stores feature sequence patterns that have already been discovered, and the feature sequence. A candidate sequence pattern generation unit that generates a candidate sequence pattern by adding an event or event set extracted from the sequence data storage unit to an event or event set that matches in a set of feature sequence patterns stored in the pattern storage unit A sequence pattern frequency calculation unit for calculating the frequency of the candidate sequence pattern corresponding to the number of sequence data including the candidate sequence pattern among the sequence data stored in the sequence data storage unit, and the feature sequence pattern Subsequence pattern frequency storage for storing the frequency of subsequence patterns in And the frequency of the candidate sequence pattern calculated by the sequence pattern frequency calculation unit and the frequency of the partial sequence pattern stored in the partial sequence pattern frequency storage unit are monotonous with respect to the candidate sequence pattern including more events. A candidate sequence pattern evaluation unit that calculates an evaluation value of the candidate sequence pattern according to an evaluation formula that gives an evaluation value that decreases, and a candidate sequence pattern determination unit that determines whether or not the evaluation value exceeds a threshold value And a feature sequence pattern finding device comprising storing a candidate sequence pattern exceeding the threshold as a new feature sequence pattern in the feature sequence pattern storage unit.

本発明によれば、コンピュータ上に時間を追って蓄積される系列データの中から、出現頻度がそれ程多くないとしても、利用者にとって興味が高いと考えられるような特徴的な系列パターンを効率的に発見できる装置及びその作動方法を提供することができる。   According to the present invention, it is possible to efficiently generate a characteristic sequence pattern that is considered to be of high interest to the user even if the appearance frequency is not so high among sequence data accumulated over time on a computer. A device that can be discovered and a method of operating the same can be provided.

以下、図面を参照しながら本発明の実施形態を説明する。図1は、本発明の一実施形態に係る特徴系列パターン発見装置を示すブロック図である。本装置は、コンピュータ上に時間を追って蓄積される系列データ、例えば、小売り分野における日々の売上げデータ及び業務報告を記載した日報、健康管理分野における日々の血圧・脈拍等の生体データ及び個人の行動を記録した行動記録、金融分野における日々の株価データ及び新聞等に記載されているニュース等といった系列データに内在する特徴的な系列パターンを発見し、利用者の意思決定を支援するための装置に関する。同図に示されるように、本装置は系列データ格納部B1と、候補系列パターン生成部B2と、系列パターン頻度計算部B3と、部分系列パターン頻度格納部B4と、候補系列パターン評価部B5と、候補系列パターン判定部B6と、特徴系列パターン格納部B7とにより構成されている。本発明は、コンピュータをこのような構成の特徴系列パターン発見装置として機能させるプログラムとして実施することができる。この場合、本発明に係るプログラムは、コンピュータ内のプログラム記憶装置に格納される。プログラム記憶装置は、例えば不揮発性半導体記憶装置や磁気ディスク装置等からなる。上記プログラムが図示しないCPUからの制御でランダムアクセスメモリ(RAM)に読み込まれ、同CPUにより実行されることにより、コンピュータを本発明に係る特徴系列パターン発見装置として機能させることができる。なお、このコンピュータには、各種コンピュータ資源を管理し、グラフィカルユーザインタフェース(GUI)等を提供するオペレーティングシステムも導入されている。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a feature sequence pattern finding apparatus according to an embodiment of the present invention. This device is a series of data that is accumulated on a computer over time, for example, daily reports describing daily sales data and business reports in the retail field, biological data such as daily blood pressure and pulse in the health management field, and individual behavior. The present invention relates to a device for supporting a user's decision making by discovering characteristic sequence patterns inherent in the sequence data such as action records that record data, daily stock price data in the financial field and news described in newspapers, etc. . As shown in the figure, this apparatus includes a sequence data storage unit B1, a candidate sequence pattern generation unit B2, a sequence pattern frequency calculation unit B3, a partial sequence pattern frequency storage unit B4, and a candidate sequence pattern evaluation unit B5. The candidate sequence pattern determination unit B6 and the feature sequence pattern storage unit B7. The present invention can be implemented as a program that causes a computer to function as a feature sequence pattern finding apparatus having such a configuration. In this case, the program according to the present invention is stored in a program storage device in the computer. The program storage device is composed of, for example, a nonvolatile semiconductor storage device or a magnetic disk device. The above program is read into a random access memory (RAM) under the control of a CPU (not shown) and executed by the CPU, whereby the computer can function as a feature sequence pattern finding device according to the present invention. Note that an operating system that manages various computer resources and provides a graphical user interface (GUI) or the like is also installed in this computer.

以下、図2、図3、図4に示すフローチャートに沿って、本実施形態に係る特徴系列パターン発見装置の処理の流れを説明する。   Hereinafter, the flow of processing of the feature sequence pattern finding apparatus according to the present embodiment will be described with reference to the flowcharts shown in FIGS.

本実施形態に係る特徴系列パターン発見装置の系列データ格納部B1には、例えば図5に示すような系列データが格納されているものとする。ここでいう「系列データ」とは、複数のイベントからなるデータをいい、より具体的には、同一の時間帯に起こるイベントをまとめたイベント集合が時間順に並べられたデータのことである。図5に示す系列データにおいて、系列データの各行を構成するイベントID a〜eは図6に示すイベント名に対応している。また、系列データID D2の例の場合、a、(be)、d、bの4つの要素から1つの系列データ(セグメント)が構成されており、2番目の系列データの要素は、同一の時間帯に発生するふたつのイベントb、eから構成されている。すなわち、IDにより識別される1つの系列データ(セグメント)は1つまたは複数の要素からなり、該要素は1つまたは複数のイベントからなる。   It is assumed that the sequence data storage unit B1 of the feature sequence pattern finding apparatus according to the present embodiment stores sequence data as shown in FIG. “Sequence data” here refers to data composed of a plurality of events, and more specifically, data in which event sets in which events occurring in the same time zone are arranged in time order. In the series data shown in FIG. 5, event IDs a to e constituting each row of the series data correspond to the event names shown in FIG. In the case of the series data ID D2, one series data (segment) is composed of four elements a, (be), d, and b, and the elements of the second series data are the same time. It consists of two events b and e that occur in the band. That is, one series data (segment) identified by the ID is composed of one or a plurality of elements, and the elements are composed of one or a plurality of events.

図2乃至図4に沿って本装置の処理の流れを説明するのに先立って、「系列データ」以外の他の用語についても定義しておく。   Prior to explaining the processing flow of the present apparatus along FIGS. 2 to 4, terms other than “series data” are also defined.

・「系列パターン」とはイベント集合が時間順に並んだものをいい、系列データの中から抽出されるものとする。 -“Sequence pattern” means a set of events arranged in time order, and is extracted from the series data.

・「系列データが系列パターンを包含する」とは、次の条件が成り立つことをいう。すなわち、系列データをed1,ed2,…,edmとし、系列パターンをep1,ep2,…,epnとした場合、epk⊆edik,(k=1,2,…,n),0<i1<i2<…<inとなる整数列{i1,i2,…,in}が存在するという条件である。ただし、edi及びepjはイベント集合を表すものとする。 “The series data includes the series pattern” means that the following condition is satisfied. That is, when the sequence data is ed1, ed2,..., Edm and the sequence pattern is ep1, ep2,..., Epn, epk⊆edik, (k = 1, 2,..., N), 0 <i1 <i2 < ... the condition that there is an integer sequence {i1, i2, ..., in} that becomes <in. However, edi and epj represent event sets.

・系列パターンp1が系列パターンp2を包含する場合、系列パターンp2を系列パターンp1の「部分系列パターン」という。 When the sequence pattern p1 includes the sequence pattern p2, the sequence pattern p2 is referred to as a “partial sequence pattern” of the sequence pattern p1.

・「系列パターンの頻度」とは系列パターンを包含する系列データの個数をいう。 “Frequency of sequence pattern” means the number of sequence data including the sequence pattern.

先ず図2に示すようにステップS1では、系列データ格納部B1に格納されている系列データの中から、候補系列パターン生成部B2が順にひとつの系列データを読み込む。   First, as shown in FIG. 2, in step S1, the candidate sequence pattern generation unit B2 sequentially reads one sequence data from the sequence data stored in the sequence data storage unit B1.

ステップS2では、系列データ格納部から読み出す系列データが存在するかどうかを候補系列パターン生成部B2で判定し、存在しない場合にはステップS4に進む。一方、存在する場合にはステップS3に進む。図5の系列データの場合、6個の系列データが存在しているので、6回目まではステップS3に進み、7回目にステップS4に進むことになる。   In step S2, the candidate sequence pattern generation unit B2 determines whether or not there is sequence data to be read from the sequence data storage unit. If there is no sequence data, the process proceeds to step S4. On the other hand, if it exists, the process proceeds to step S3. In the case of the series data in FIG. 5, since there are six series data, the process proceeds to step S3 until the sixth time, and proceeds to step S4 for the seventh time.

ステップS3では、候補系列パターン生成部B2が読み込んだひとつの系列データをイベントに分解し、重複するイベントを取り除いてバッファ等に記憶しておく。図5の例の場合には、当該ステップの6回の実行により、図6に示す5つのイベントが抽出される。   In step S3, one series data read by the candidate series pattern generation unit B2 is decomposed into events, and duplicate events are removed and stored in a buffer or the like. In the case of the example of FIG. 5, five events shown in FIG. 6 are extracted by executing the step six times.

ステップS4では、候補系列パターン生成部B2が上記バッファからイベントを順に取り出す。ここで、取り出すことのできるイベントがあるかどうかを候補系列パターン生成部B2が判定し、取り出すイベントがない場合にはステップS8に進む。一方、取り出すイベントがある場合には、ステップS5に進む。図6の場合、5つのイベントが存在するので、5回目まではステップS5に進み、6回目にステップS8に進むことになる。   In step S4, the candidate sequence pattern generation unit B2 sequentially extracts events from the buffer. Here, the candidate sequence pattern generation unit B2 determines whether there is an event that can be extracted, and if there is no event to be extracted, the process proceeds to step S8. On the other hand, if there is an event to be extracted, the process proceeds to step S5. In the case of FIG. 6, since five events exist, the process proceeds to step S5 up to the fifth time, and proceeds to step S8 for the sixth time.

ステップS5では、まず、取り出されたイベントの頻度を系列パターン頻度計算部B3が計算する。図5の系列データの場合、イベントIDがaとなるイベントは、すべての系列データに包含されているので、イベントID aの頻度は6と計算される。同様な計算を各回において実施することにより、イベントID b,c,d,eに対応した頻度は、5,3,4,3と計算される。   In step S5, first, the sequence pattern frequency calculation unit B3 calculates the frequency of the extracted event. In the case of the series data in FIG. 5, the event with the event ID “a” is included in all the series data, so the frequency of the event ID “a” is calculated as 6. By performing the same calculation at each time, the frequencies corresponding to the event IDs b, c, d, and e are calculated as 5, 3, 4, and 3, respectively.

次に、候補系列パターン評価部B5は次の式(1)に基づいてイベントの興味度(評価値)を計算する。

Figure 0004398907
Next, the candidate series pattern evaluation unit B5 calculates the interest level (evaluation value) of the event based on the following equation (1).
Figure 0004398907

ただし、sを系列パターン、spを系列パターンsの部分系列パターン、fs()を系列パターン又は部分系列パターンの頻度、Nを系列データの個数とする。また、イベントは系列パターンに含まれるイベントの個数が1となる場合であり、s=spとなる。一方、式(1)のように系列パターンの評価値を計算することにより、系列パターンの興味度をそのすべての部分系列パターンの興味度以下にすることができる。   Here, s is a series pattern, sp is a partial series pattern of the series pattern s, fs () is the frequency of the series pattern or partial series pattern, and N is the number of series data. An event is a case where the number of events included in the sequence pattern is 1, and s = sp. On the other hand, by calculating the evaluation value of the sequence pattern as in Expression (1), the interest level of the sequence pattern can be made lower than the interest level of all the partial sequence patterns.

図5の系列データに対して、イベントID aに対応する興味度を計算した場合、その値は次のようになる。

Figure 0004398907
When the degree of interest corresponding to the event ID a is calculated for the series data in FIG. 5, the value is as follows.
Figure 0004398907

また、イベントID bに対応する興味度の値は次のとおり計算される。

Figure 0004398907
Further, the value of the degree of interest corresponding to the event ID b is calculated as follows.
Figure 0004398907

同様に、イベントID c,d,eの興味度は図7に示すように計算することができる。   Similarly, the degree of interest of the event IDs c, d, e can be calculated as shown in FIG.

ステップS6では、候補系列パターン判定部B6がイベントの興味度の値と予め設定されている最小興味度(Th1;閾値)の値とを比較し、最小興味度以上であればステップS8に進む。一方、最小興味度未満である場合にはステップS4に戻る。図5の系列データに対する最小興味度を0.2と設定した場合、すべてのイベントの興味度は0.2以上となるので、すべてのイベントについてステップS8に進むことになる。   In step S6, the candidate sequence pattern determination unit B6 compares the event interest level value with a preset minimum interest level (Th1; threshold) value, and if it is equal to or greater than the minimum interest level, the process proceeds to step S8. On the other hand, if it is less than the minimum interest level, the process returns to step S4. When the minimum degree of interest for the series data in FIG. 5 is set to 0.2, the degree of interest for all events is 0.2 or more, and therefore, the process proceeds to step S8 for all events.

ステップS7において、候補系列パターン判定部B6は、最小興味度以上となったイベント及びその頻度を、1次特徴イベント集合及びその最大頻度として特徴系列パターン格納部B7及び部分系列パターン頻度格納部B4に格納する。図5の系列データに対する最小興味度を0.2と設定した場合、図7のイベントの列及び最大頻度の列は、1次系列パターン及び最大頻度として特徴系列パターン格納部B7及び部分系列パターン頻度格納部B4に格納される。   In step S7, the candidate sequence pattern determination unit B6 assigns the event having the minimum interest level or higher and its frequency to the feature sequence pattern storage unit B7 and the partial sequence pattern frequency storage unit B4 as the primary feature event set and its maximum frequency. Store. When the minimum degree of interest for the sequence data in FIG. 5 is set to 0.2, the event sequence and the maximum frequency column in FIG. 7 are the primary sequence pattern and the maximum frequency as the feature sequence pattern storage unit B7 and the partial sequence pattern frequency. Stored in the storage unit B4.

次に図3に示すように、ステップS8では、特徴系列パターン格納部B7に格納されている(L−1)次特徴イベント集合の中から、イベント集合の前方(L−2)個のイベントが一致しているふたつのイベント集合を候補系列パターン生成部B2が抽出する。だだし、イベント集合は指定された順序(例えば、イベントIDの辞書順)で並んでいるものとする。(L−1)次特徴イベント集合とは(L−1)個のイベントによって構成された特徴的なイベントの集合のことである。次に、候補系列パターン生成部B2は抽出したふたつの(L−1)次特徴イベント集合を組み合わせることにより、L次イベント集合を生成する。   Next, as shown in FIG. 3, in step S8, the (L-2) next feature event set stored in the feature sequence pattern storage unit B7 includes (L-2) events ahead of the event set. Candidate sequence pattern generation unit B2 extracts two matching event sets. However, it is assumed that the event sets are arranged in a specified order (for example, an event ID dictionary order). The (L-1) next feature event set is a set of characteristic events constituted by (L-1) events. Next, the candidate sequence pattern generation unit B2 generates an L-th order event set by combining the two extracted (L-1) -order feature event sets.

すなわち、共通する(L−2)個のイベントに、(L−1)次特徴イベント集合に残った各1個のイベントを加えることにより、L次イベント集合が生成される。このとき、L次イベント集合は指定された順序によって並べ替えておくことにする。この生成されたL次イベント集合を「L次特徴イベント集合候補」という。   That is, the L-th event set is generated by adding each one event remaining in the (L-1) next-feature event set to the common (L-2) events. At this time, the L-order event set is rearranged in the specified order. This generated L-th order event set is referred to as “L-th feature event set candidate”.

例えば、1次特徴イベント集合から2次特徴イベント集合候補を生成する場合を考えてみる。このとき、候補系列パターン生成部B2は1次特徴イベント集合として、a,bを初めに選択する。ただし、L=2の場合においては、イベント集合の前方に(L−2)個のイベントが存在していないので、本条件は考慮せずにイベント集合を抽出する。次に、このふたつのイベント集合から2次のイベント集合(ab)を生成する。ただし、イベント集合はイベントIDのアルファベット順に並べられることとする。   For example, consider a case where a secondary feature event set candidate is generated from a primary feature event set. At this time, the candidate sequence pattern generation unit B2 first selects a and b as the primary feature event set. However, in the case of L = 2, since (L-2) events do not exist ahead of the event set, the event set is extracted without considering this condition. Next, a secondary event set (ab) is generated from the two event sets. However, event sets are arranged in alphabetical order of event IDs.

同様に、2次特徴イベント集合から3次特徴イベント集合候補を生成する場合を考えてみる。詳細については後述するが、図5の例の場合、(bc)、(be)が2次特徴イベント集合となる。当該2次特徴イベント集合の場合、前方に存在する1個のイベント集合がbと共通しているため、当該イベント集合から3次特徴イベント集合候補を生成することができる。すなわち、(bce)といったイベント集合が3次特徴イベント集合候補として生成される。   Similarly, consider a case where a tertiary feature event set candidate is generated from a secondary feature event set. Although details will be described later, in the example of FIG. 5, (bc) and (be) are secondary feature event sets. In the case of the secondary feature event set, since one event set existing ahead is common with b, a tertiary feature event set candidate can be generated from the event set. That is, an event set such as (bce) is generated as a tertiary feature event set candidate.

ステップS9では、候補系列パターン生成部B2が生成するL次特徴イベント集合が存在するかどうかを判断し、存在しない場合にはステップS13に進む。一方、存在する場合には、ステップS10に進む。図5の例における2次特徴イベント集合候補の生成の場合、2次特徴イベント集合候補は図8の2次イベント集合の列に示す10個存在するので、10回目まではステップS10に進み。11回目にステップS13に進むことになる。   In step S9, it is determined whether or not an L-th feature event set generated by the candidate sequence pattern generation unit B2 exists. If not, the process proceeds to step S13. On the other hand, when it exists, it progresses to step S10. In the case of generating the secondary feature event set candidate in the example of FIG. 5, since there are ten secondary feature event set candidates shown in the column of the secondary event set of FIG. 8, the process proceeds to step S10 up to the tenth time. The process proceeds to step S13 for the eleventh time.

ステップS10では、生成されたL次特徴イベント集合候補の頻度を系列パターン頻度計算部B3が計算する。図5の例における2次特徴イベント集合候補の生成の場合、各イベント集合の頻度は図8の頻度の列のように与えられる。また、図5の例における3次特徴イベント集合候補の生成の場合、各イベント集合の頻度は図9の頻度の列のように与えられる。   In step S10, the sequence pattern frequency calculation unit B3 calculates the frequency of the generated L-th order feature event set candidate. In the case of generating secondary feature event set candidates in the example of FIG. 5, the frequency of each event set is given as in the frequency column of FIG. Further, in the case of generating the third feature event set candidate in the example of FIG. 5, the frequency of each event set is given as in the frequency column of FIG.

次に、候補系列パターン評価部B5は、系列パターン頻度計算部B3で計算された頻度及び特徴系列パターン格納部B7に格納されている(L−1)次特徴イベント集合の最大頻度を式(1)に適用することにより、生成されたL次特徴イベント集合候補についての興味度を計算する。例として、2次特徴イベント集合(bc)の興味度を計算することを考えてみる。このとき、b,cの最大頻度が5,3と与えられており、(bc)の頻度が3と与えられるので、興味度は次のように与えられる。

Figure 0004398907
Next, the candidate sequence pattern evaluation unit B5 calculates the frequency calculated by the sequence pattern frequency calculation unit B3 and the maximum frequency of the next feature event set stored in the feature sequence pattern storage unit B7 (1). ) To calculate the degree of interest for the generated L-th order feature event set candidate. As an example, consider calculating the degree of interest of a secondary feature event set (bc). At this time, since the maximum frequency of b and c is given as 5 and 3, and the frequency of (bc) is given as 3, the degree of interest is given as follows.
Figure 0004398907

同様に、3次特徴イベント集合(bce)の興味度を計算することを考えてみる。このとき、後のステップS12において説明する最大頻度の計算方法によれば、(bc)、(be)の最大頻度は5,5と与えられるので、興味度は

Figure 0004398907
Similarly, consider calculating the degree of interest of a tertiary feature event set (bce). At this time, according to the maximum frequency calculation method described in step S12 later, the maximum frequencies of (bc) and (be) are given as 5 and 5, so the degree of interest is
Figure 0004398907

と与えられる。上記の計算例において、2次の場合における(bc)、3次の場合におけるb,c,e,(ce),(bce)に対応する部分系列パターンの頻度を評価していないことに注意する必要がある。このような評価が可能であるのは、系列パターンに対応する最大頻度の設定方法に関連した性質を利用しているためであり、ステップS12において最大頻度を設定する際に理由を説明する。 And given. Note that in the above calculation example, the frequency of the partial sequence pattern corresponding to (bc) in the second-order case and b, c, e, (ce), (bce) in the third-order case is not evaluated. There is a need. Such evaluation is possible because the property related to the setting method of the maximum frequency corresponding to the sequence pattern is used, and the reason will be described when setting the maximum frequency in step S12.

ステップS11では、候補系列パターン判定部B6がL次特徴イベント集合に対応する興味度が最小興味度以上であるかを判定し、最小興味度以上である場合にステップS12に進む。一方、最小興味度未満の場合にはステップS8に戻る。2次特徴イベント集合候補の判定の場合、(bc),(be)の場合に最小興味度0.2以上となるので、ステップS12に進み、(ab),(ac),(ad),(bd),(cd),(ce),(de)の場合にステップS8に戻ることになる。   In step S11, the candidate series pattern determination unit B6 determines whether the degree of interest corresponding to the L-th order feature event set is equal to or greater than the minimum degree of interest. If the degree of interest is equal to or greater than the minimum degree of interest, the process proceeds to step S12. On the other hand, if the degree of interest is less than the minimum interest level, the process returns to step S8. In the case of the determination of the secondary feature event set candidate, since the minimum interest degree is 0.2 or more in the case of (bc) and (be), the process proceeds to step S12, and (ab), (ac), (ad), ( In the case of bd), (cd), (ce), (de), the process returns to step S8.

ステップS12では、興味度が最小興味度以上となるL次特徴イベント集合候補を、候補系列パターン判定部B6がL次特徴イベント集合として特徴系列パターン格納部B7に格納する。また、対応する最大頻度として、L次特徴イベント集合を生成する元になったふたつの(L−1)次特徴イベント集合の最大頻度の値を当該L次特徴イベント集合の最大頻度として部分系列パターン頻度格納部B4に格納する。系列パターンの頻度は、その部分系列パターンの頻度以下になるといった性質が存在する。このため、部分系列パターンの頻度の逆数を考えた場合には、より短い部分系列パターンに対応した逆数の中に最小値が存在する。したがって、最も短い部分系列パターンであるイベントに対応した逆数の中に最小値が存在する。このため、系列パターンを構成するイベントの頻度の最大値(最大頻度)を部分系列パターンの頻度として部分系列パターン頻度格納部B4に記憶しておくことにより、候補系列パターン評価部B5は、L次特徴イベント集合を構成するのに利用した(L−1)次イベント集合のふたつの最大頻度だけを評価して、興味度を計算することができる。   In step S12, the candidate sequence pattern determination unit B6 stores the L-th feature event set candidate having an interest level equal to or greater than the minimum interest level in the feature sequence pattern storage unit B7 as the L-th feature event set. In addition, as the corresponding maximum frequency, the partial sequence pattern is obtained by setting the value of the maximum frequency of the two (L-1) -th feature event sets from which the L-th feature event set is generated as the maximum frequency of the L-th feature event set. Store in the frequency storage unit B4. There is a property that the frequency of the sequence pattern is equal to or less than the frequency of the partial sequence pattern. For this reason, when the reciprocal of the frequency of the partial sequence pattern is considered, the minimum value exists in the reciprocal corresponding to the shorter partial sequence pattern. Therefore, there is a minimum value in the reciprocal corresponding to the event that is the shortest partial sequence pattern. For this reason, by storing the maximum value (maximum frequency) of the events constituting the sequence pattern in the partial sequence pattern frequency storage unit B4 as the frequency of the partial sequence pattern, the candidate sequence pattern evaluation unit B5 can perform the Lth order. The degree of interest can be calculated by evaluating only the two maximum frequencies of the (L-1) next event set used to construct the feature event set.

このステップS12において、候補系列パターン生成部B2は、特徴系列パターン格納部B7に格納されている特徴イベント集合をすべて併合することにより1次特徴系列パターンを生成する。図5の例の場合、図7に記述されている5個の1次特徴イベント集合及び図8に最大頻度が与えられて記述されている2個の2次イベント集合が1次特徴系列パターンとなる。   In step S12, the candidate sequence pattern generation unit B2 generates a primary feature sequence pattern by merging all feature event sets stored in the feature sequence pattern storage unit B7. In the case of the example in FIG. 5, the five primary feature event sets described in FIG. 7 and the two secondary event sets described in FIG. Become.

次に図4に示すように、ステップS14では、候補系列パターン生成部B2が系列の前方の(L−2)個のイベント集合が一致するふたつの(L−1)次系列パターンを抽出する。また、その取り出した順序を考慮して、抽出した系列パターンからL次特徴系列パターン候補を生成する。例として、1次系列パターンa,(be)が順次取り出されて、このふたつのパターンから2次特徴系列パターン候補を生成する場合を考えてみる。ただし、2次特徴系列パターン候補の生成の場合には、前方の(L−2)個のイベント集合は存在しないので当該条件は適用されていない。このとき、当該1次特徴系列パターンからa(be)といった2次特徴系列パターンを生成することができる。また、前方の1個のイベント集合が共通している2次系列パターンa(be),abが順次取り出されて、このふたつのパターンから3次特徴系列パターン候補を生成する場合を考えてみる。ここで、当該のふたつの特徴系列パターンにおいては、前方の1個のイベント集合aが共通しているため、a(be)bといった3次の特徴系列パターン候補を生成することができる。   Next, as shown in FIG. 4, in step S14, the candidate sequence pattern generation unit B2 extracts two (L-1) next sequence patterns that match the (L-2) event sets ahead of the sequence. Further, in consideration of the extracted order, an L-th feature sequence pattern candidate is generated from the extracted sequence pattern. As an example, consider a case where primary sequence patterns a and (be) are sequentially extracted and secondary feature sequence pattern candidates are generated from the two patterns. However, in the case of generating a secondary feature series pattern candidate, there is no forward (L-2) event set, so the condition is not applied. At this time, a secondary feature sequence pattern such as a (be) can be generated from the primary feature sequence pattern. Also, consider a case where secondary sequence patterns a (be) and ab having a common one event set are sequentially extracted and a tertiary feature sequence pattern candidate is generated from the two patterns. Here, in the two feature series patterns, since one forward event set a is common, a tertiary feature series pattern candidate such as a (be) b can be generated.

ステップ15では、候補系列パターン生成部B2がL次特徴系列パターン候補が生成できたかどうかを判定し、生成できなかった場合にステップS19に進む。一方、生成できた場合にステップS16に進む。   In step 15, the candidate sequence pattern generation unit B <b> 2 determines whether or not an L-th feature sequence pattern candidate has been generated. On the other hand, if it can be generated, the process proceeds to step S16.

ステップS16では、系列パターン頻度計算部B3が当該特徴系列パターン候補の頻度を計算する。図5の例の場合、2次、3次、4次の各系列パターン候補に対して図10、図11、図12の頻度の列に示す値が頻度として計算される。   In step S16, the sequence pattern frequency calculation unit B3 calculates the frequency of the feature sequence pattern candidate. In the case of the example in FIG. 5, the values shown in the frequency columns of FIGS. 10, 11, and 12 are calculated as frequencies for the second, third, and fourth series pattern candidates.

ただし、各図においては、後に計算する興味度が最小興味度以上の興味度をもつ系列パターン候補に対してのみ、頻度を計算した結果を示している。   However, in each figure, the result of calculating the frequency is shown only for the sequence pattern candidates whose interest degree to be calculated later is greater than or equal to the minimum interest degree.

また、候補系列パターン評価部B5は、系列パターン頻度計算部B3により計算されたL次特徴系列パターン候補及び特徴系列パターン格納部B7に格納されている、対応する最大頻度を式(1)に適用することにより興味度を計算する。例として、2次特徴系列パターン候補a(be)の興味度を計算してみると、興味度は、

Figure 0004398907
Further, the candidate sequence pattern evaluation unit B5 applies the corresponding maximum frequency stored in the L-order feature sequence pattern candidate and the feature sequence pattern storage unit B7 calculated by the sequence pattern frequency calculation unit B3 to Equation (1). To calculate the degree of interest. As an example, when calculating the degree of interest of the secondary feature series pattern candidate a (be), the degree of interest is
Figure 0004398907

と与えられる。 And given.

また、3次特徴系列パターン候補a(be)bの興味度は、

Figure 0004398907
Also, the degree of interest of the tertiary feature series pattern candidate a (be) b is
Figure 0004398907

と計算される。同様に、2次、3次、4次の各系列パターン候補に対して図10、図11、図12に示すように興味度の値が計算される。ただし、興味度が最小興味度以上になる特徴系列パターン候補に対してのみ結果を示している。上記の計算において、L次特徴系列パターン候補の生成の際に利用した最大頻度に基づいて興味度を計算できる理由は、ステップS12で説明したことと同様の理由による。 Is calculated. Similarly, an interest value is calculated for each of the second, third, and fourth series pattern candidates as shown in FIGS. However, the results are shown only for feature series pattern candidates whose interest level is equal to or greater than the minimum interest level. In the above calculation, the reason why the degree of interest can be calculated based on the maximum frequency used in generating the L-th feature sequence pattern candidate is the same as described in step S12.

ステップS17では、候補系列パターン判定部B6がL次特徴系列パターン候補の興味度が最小興味度以上であるかどうかを判定し、最小興味度以上の場合にステップS18に進む。一方、最小興味度未満の場合には、ステップS14に戻る。例えば、3次特徴系列パターン候補abbの場合には、最小興味度以上となるためステップS18に進み、図12に示す4次特徴系列パターン候補abbbの場合には最小興味度未満となるためステップS14に戻る。   In step S17, the candidate sequence pattern determination unit B6 determines whether the interest degree of the L-th feature sequence pattern candidate is equal to or greater than the minimum interest level, and proceeds to step S18 if it is equal to or greater than the minimum interest level. On the other hand, if the degree of interest is less than the minimum interest level, the process returns to step S14. For example, in the case of a tertiary feature series pattern candidate abb, the interest level is equal to or higher than the minimum interest level, so the process proceeds to step S18. In the case of the quaternary feature series pattern candidate abbb shown in FIG. Return to.

ステップS18では、候補系列パターン判定部B6が興味度以上となるL次特徴系列パターン候補を、L次特徴系列パターンとして特徴系列パターン格納部B7に格納する。また、当該特徴系列パターンを生成する際に利用したふたつの(L−1)次特徴系列パターンの最大頻度の最大値を当該パターンに対する最大頻度として、部分系列パターン頻度格納部B4に格納する。図5の例の場合、図10、図11の最大頻度の列に記載されている値が、対応する最大頻度として格納される。   In step S18, the candidate sequence pattern determination unit B6 stores the L-th feature sequence pattern candidate having an interest level or higher as the L-order feature sequence pattern in the feature sequence pattern storage unit B7. Further, the maximum value of the maximum frequency of the two (L-1) next feature sequence patterns used when generating the feature sequence pattern is stored in the partial sequence pattern frequency storage unit B4 as the maximum frequency for the pattern. In the case of the example of FIG. 5, the values described in the maximum frequency column of FIGS. 10 and 11 are stored as the corresponding maximum frequency.

ステップS15では、特徴系列パターン格納部B7にひとつ以上のL次特徴系列パターン候補が格納されているかどうかを候補系列パターン生成部B2が判定する。このとき、L次特徴系列パターン候補がひとつ以上格納されている場合には、ステップS14に進み、ひとつも格納されていない場合には本フローの処理を終了する。図5の例の場合、4次特徴系列パターン候補を生成した段階でひとつも4次特徴系列パターンを発見することができないので、本フローの処理を終了する。   In step S15, the candidate sequence pattern generation unit B2 determines whether one or more L-th feature sequence pattern candidates are stored in the feature sequence pattern storage unit B7. At this time, if one or more L-th feature sequence pattern candidates are stored, the process proceeds to step S14, and if none is stored, the process of this flow is terminated. In the case of the example of FIG. 5, since no quaternary feature series pattern can be found at the stage where the quaternary feature series pattern candidates are generated, the processing of this flow is terminated.

ステップS19では、系列を延伸可能であれば、候補系列パターン生成部B2が系列のサイズを1増やして、ステップS14に戻る。   In step S19, if the sequence can be extended, the candidate sequence pattern generation unit B2 increases the size of the sequence by 1 and returns to step S14.

最終的には、図7に示される全てのイベント、図8に示される(bc)と(be)、図10および図11に示される全てのパターンが、特徴系列パターンとして抽出される。   Finally, all events shown in FIG. 7, (bc) and (be) shown in FIG. 8, and all patterns shown in FIGS. 10 and 11 are extracted as feature series patterns.

以上説明したように、本実施形態によれば、分析者に新たな知見を与えるような有用で特徴的な系列パターンを取りこぼすことなく発見することができる。また、系列パターンの評価値を系列パターンに含まれるイベントに対して単調減少するように定義していることから、特徴系列パターンに含まれるすべての部分系列パターンの評価値は当該特徴系列パターンの評価値以上となり、すべての部分系列パターンが特徴系列パターンとなる。したがって、部分系列パターンが特徴系列パターンにならない系列パターンを候補系列パターンとして評価する必要がなくなり、効率的に特徴系列パターンを発見することができる。   As described above, according to the present embodiment, it is possible to discover a useful and characteristic sequence pattern that gives a new knowledge to the analyst without missing it. Since the evaluation value of the sequence pattern is defined so as to monotonously decrease with respect to the event included in the sequence pattern, the evaluation values of all the partial sequence patterns included in the feature sequence pattern are the evaluation values of the feature sequence pattern. All the partial series patterns become the characteristic series patterns. Therefore, it is not necessary to evaluate a sequence pattern whose partial sequence pattern does not become a feature sequence pattern as a candidate sequence pattern, and a feature sequence pattern can be efficiently found.

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。   Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. In addition, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined.

例えば、特徴系列パターンの格納において、系列サイズごとに抽出されたすべての特徴系列パターンを系列パターン格納部B7に格納することにしているが、より長い系列サイズに含まれる特徴系列パターンは特徴系列パターン格納部B7から削除することにしてもよい。   For example, in storing feature sequence patterns, all feature sequence patterns extracted for each sequence size are stored in the sequence pattern storage unit B7, but feature sequence patterns included in longer sequence sizes are feature sequence patterns. You may delete from storage part B7.

また、L次特徴系列パターンの頻度を計算するにあたって、その元になった(L−1)次特徴系列パターンが含まれる系列データを記憶しておき、系列データの部分集合にアクセスすることによりL次特徴系列パターン候補の頻度を計算してもよい。   Further, when calculating the frequency of the L-order feature sequence pattern, the sequence data including the (L-1) -order feature sequence pattern that is the basis thereof is stored, and a subset of the sequence data is accessed to store L The frequency of the next feature series pattern candidate may be calculated.

また、分析者が興味のある部分系列パターンを指定し、当該部分系列パターンを含む特徴系列パターンだけを最終的に抽出するようにしてもよい。   Alternatively, the partial sequence pattern in which the analyst is interested may be designated, and only the feature sequence pattern including the partial sequence pattern may be finally extracted.

さらに、上記した式(1)は、下記の式(2)のように変形することができる。この場合、系列パターンの頻度が比較的高く(式(2)の第2項に相当)、系列パターンに含まれる特定のイベントとその系列パターンの間に高い関連性(式(2)の第1項に相当)がある系列パターンを特徴的な系列パターンとして発見することができる。

Figure 0004398907
Furthermore, the above-described equation (1) can be modified as the following equation (2). In this case, the frequency of the sequence pattern is relatively high (corresponding to the second term of the equation (2)), and a high degree of association between the specific event included in the sequence pattern and the sequence pattern (the first of the equation (2)) It is possible to find a certain series pattern as a characteristic series pattern.
Figure 0004398907

本発明の一実施形態に係る特徴系列パターン発見装置を示すブロック図The block diagram which shows the feature series pattern discovery apparatus which concerns on one Embodiment of this invention. 上記特徴系列パターン発見装置が実行する頻出イベント抽出手順を示すフローチャートThe flowchart which shows the frequent event extraction procedure which the said characteristic series pattern discovery apparatus performs 上記特徴系列パターン発見装置が実行する特徴イベント集合抽出手順を示すフローチャートThe flowchart which shows the feature event set extraction procedure which the said feature series pattern discovery apparatus performs 上記特徴系列パターン発見装置が実行する特徴イベントパターン抽出手順を示すフローチャートThe flowchart which shows the feature event pattern extraction procedure which the said feature series pattern discovery apparatus performs 系列データ集合の一例を示す図Diagram showing an example of a series data set イベント名とイベントIDとの対応を示す図Diagram showing correspondence between event name and event ID 図5の系列データから取り出される1次特徴イベント集合候補と、その頻度、興味度、および最大頻度との関係を示す図The figure which shows the relationship between the primary characteristic event set candidate taken out from the series data of FIG. 5, its frequency, an interest degree, and the maximum frequency. 図5の系列データから取り出される2次特徴イベント集合候補と、その頻度、興味度、および最大頻度との関係を示す図The figure which shows the relationship between the secondary feature event set candidate taken out from the series data of FIG. 5, its frequency, an interest degree, and the maximum frequency. 図5の系列データから取り出される興味度が0.2以上となる2次特徴イベント集合から生成された、3次特徴イベント集合候補と、その頻度、興味度、および最大頻度との関係を示す図The figure which shows the relationship between the tertiary feature event set candidate produced | generated from the secondary feature event set from which the interest degree taken out from the series data of FIG. 5 becomes 0.2 or more, its frequency, interest degree, and maximum frequency 図5の系列データから取り出される興味度が0.2以上となる2次系列パターンと、その頻度、興味度、および最大頻度との関係を示す図The figure which shows the relationship between the secondary series pattern from which the interest degree taken out from the series data of FIG. 5 becomes 0.2 or more, its frequency, an interest degree, and the maximum frequency 図5の系列データから取り出される興味度が0.2以上となる3次系列パターンと、その頻度、興味度、および最大頻度との関係を示す図The figure which shows the relationship between the tertiary series pattern from which the degree of interest taken out from the series data of FIG. 5 becomes 0.2 or more, the frequency, the degree of interest, and the maximum frequency 図5の系列データから取り出される興味度が0.2以上となる3次系列パターンから生成された、4次系列パターン候補と、その頻度、興味度、および最大頻度との関係を示す図The figure which shows the relationship between the quaternary series pattern candidate produced | generated from the tertiary series pattern from which the interest degree taken out from the series data of FIG. 5 becomes 0.2 or more, its frequency, interest degree, and maximum frequency

符号の説明Explanation of symbols

B1…系列データ格納部;
B2…候補系列パターン生成部;
B3…系列パターン頻度計算部;
B4…部分系列パターン頻度格納部;
B5…候補系列パターン評価部;
B6…候補系列パターン判定部;
B7…特徴系列パターン格納部
B1 ... series data storage unit;
B2 ... Candidate sequence pattern generation unit;
B3: Sequence pattern frequency calculation unit;
B4 ... Partial sequence pattern frequency storage unit;
B5 ... Candidate sequence pattern evaluation unit;
B6 ... Candidate sequence pattern determination unit;
B7: Feature sequence pattern storage unit

Claims (5)

複数のイベントからなる系列データを格納する系列データ格納部と、
既に発見された特徴系列パターンを格納する特徴系列パターン格納部と、
前記特徴系列パターン格納部に格納されている特徴系列パターンの組において一致するイベント又はイベント集合に対し、前記系列データ格納部から取り出したイベント又はイベント集合を加えることにより候補系列パターンを生成する候補系列パターン生成部と、
前記系列データ格納部に格納された系列データのうち前記候補系列パターンを包含する系列データの個数前記候補系列パターンの頻度として計算する系列パターン頻度計算部と、
前記特徴系列パターンにおける部分系列パターンの最大頻度を格納する部分系列パターン頻度格納部と、
前記系列パターン頻度計算部により計算された候補系列パターンの頻度及び前記部分系列パターン頻度格納部に格納されている部分系列パターンの最大頻度に基づいて計算される評価値であって、より多くのイベントを含む候補系列パターンに対して単調に減少する評価値を与える評価式に従い、前記候補系列パターンの評価値を計算する候補系列パターン評価部と、
前記評価値が閾値を超えるか否かを判定し、前記閾値を超える候補系列パターンの頻度を前記部分系列パターンの最大頻度として前記部分系列パターン頻度格納部に格納する候補系列パターン判定部と、を具備し、
前記候補系列パターン評価部は、sを系列パターン、spを系列パターンsの部分系列パターン、fs()を系列パターンの頻度、Nを系列データの個数とするとき、前記評価値に相当する興味度を次式(1)すなわち
Figure 0004398907
に従って算出し、
前記閾値を超える候補系列パターンを新たな特徴系列パターンとして前記特徴系列パターン格納部に格納することを具備する特徴系列パターン発見装置。
A series data storage unit for storing series data consisting of a plurality of events;
A feature sequence pattern storage unit for storing already discovered feature sequence patterns;
A candidate sequence for generating a candidate sequence pattern by adding an event or event set extracted from the sequence data storage unit to an event or event set that matches in a set of feature sequence patterns stored in the feature sequence pattern storage unit A pattern generator,
A sequence pattern frequency calculating unit that calculates the number of sequence data including the candidate sequence pattern among the sequence data stored in the sequence data storage unit as the frequency of the candidate sequence pattern;
A partial sequence pattern frequency storage unit for storing the maximum frequency of the partial sequence pattern in the feature sequence pattern;
An evaluation value calculated based on the frequency of the candidate sequence pattern calculated by the sequence pattern frequency calculation unit and the maximum frequency of the partial sequence pattern stored in the partial sequence pattern frequency storage unit, and more events A candidate series pattern evaluation unit that calculates an evaluation value of the candidate series pattern according to an evaluation formula that gives a monotonously decreasing evaluation value for a candidate series pattern including:
Determining whether or not the evaluation value exceeds a threshold, and storing the frequency of the candidate sequence pattern exceeding the threshold in the partial sequence pattern frequency storage unit as the maximum frequency of the partial sequence pattern ; and Equipped,
The candidate sequence pattern evaluation unit, when s is a sequence pattern, sp is a partial sequence pattern of the sequence pattern s, fs () is a sequence pattern frequency, and N is the number of sequence data, the degree of interest corresponding to the evaluation value Is expressed by the following equation (1),
Figure 0004398907
According to
A feature sequence pattern finding apparatus comprising: storing a candidate sequence pattern exceeding the threshold as a new feature sequence pattern in the feature sequence pattern storage unit.
複数のイベントからなる系列データを格納する系列データ格納部と、
既に発見された特徴系列パターンを格納する特徴系列パターン格納部と、
前記特徴系列パターン格納部に格納されている特徴系列パターンの組において一致するイベント又はイベント集合に対し、前記系列データ格納部から取り出したイベント又はイベント集合を加えることにより候補系列パターンを生成する候補系列パターン生成部と、
前記系列データ格納部に格納された系列データのうち前記候補系列パターンを包含する系列データの個数を前記候補系列パターンの頻度として計算する系列パターン頻度計算部と、
前記特徴系列パターンにおける部分系列パターンの最大頻度を格納する部分系列パターン頻度格納部と、
前記系列パターン頻度計算部により計算された候補系列パターンの頻度及び前記部分系列パターン頻度格納部に格納されている部分系列パターンの最大頻度に基づいて計算される評価値であって、より多くのイベントを含む候補系列パターンに対して単調に減少する評価値を与える評価式に従い、前記候補系列パターンの評価値を計算する候補系列パターン評価部と、
前記評価値が閾値を超えるか否かを判定し、前記閾値を超える候補系列パターンの頻度を前記部分系列パターンの最大頻度として前記部分系列パターン頻度格納部に格納する候補系列パターン判定部と、を具備し、
前記候補系列パターン評価部は、sを系列パターン、spを系列パターンsの部分系列パターン、fs()を系列パターンの頻度、Nを系列データの個数とするとき、前記評価値に相当する興味度を次式(2)すなわち
Figure 0004398907
に従って算出し、
前記閾値を超える候補系列パターンを新たな特徴系列パターンとして前記特徴系列パターン格納部に格納することを具備する特徴系列パターン発見装置。
A series data storage unit for storing series data consisting of a plurality of events;
A feature sequence pattern storage unit for storing already discovered feature sequence patterns;
A candidate sequence for generating a candidate sequence pattern by adding an event or event set extracted from the sequence data storage unit to an event or event set that matches in a set of feature sequence patterns stored in the feature sequence pattern storage unit A pattern generator,
A sequence pattern frequency calculating unit that calculates the number of sequence data including the candidate sequence pattern among the sequence data stored in the sequence data storage unit as the frequency of the candidate sequence pattern;
A partial sequence pattern frequency storage unit for storing the maximum frequency of the partial sequence pattern in the feature sequence pattern;
An evaluation value calculated based on the frequency of the candidate sequence pattern calculated by the sequence pattern frequency calculation unit and the maximum frequency of the partial sequence pattern stored in the partial sequence pattern frequency storage unit, and more events A candidate series pattern evaluation unit that calculates an evaluation value of the candidate series pattern according to an evaluation formula that gives a monotonously decreasing evaluation value for a candidate series pattern including:
Determining whether or not the evaluation value exceeds a threshold, and storing the frequency of the candidate sequence pattern exceeding the threshold in the partial sequence pattern frequency storage unit as the maximum frequency of the partial sequence pattern; and Equipped,
The candidate sequence pattern evaluation unit has a degree of interest corresponding to the evaluation value when s is a sequence pattern, sp is a partial sequence pattern of the sequence pattern s, fs () is the frequency of the sequence pattern, and N is the number of sequence data. With the following equation (2)
Figure 0004398907
According to
A feature sequence pattern finding apparatus comprising: storing a candidate sequence pattern exceeding the threshold as a new feature sequence pattern in the feature sequence pattern storage unit.
前記特徴系列パターンは、前記系列データから抽出され、時間順に並んだイベント集合からなる請求項1又は2に記載の特徴系列パターン発見装置。 The feature sequence pattern, the extracted from the time series data, temporal feature sequence pattern mining apparatus according to claim 1 or 2 consisting of an event set are arranged in this order. 系列データ格納部に格納された複数のイベントからなる系列データと特徴系列パターン格納部に格納され、既に発見された特徴系列パターンとから新たな特徴系列パターンを発見する特徴系列パターン発見装置の作動方法であって、
候補系列パターン生成部が、前記特徴系列パターン格納部に格納されている特徴系列パターンの組において一致するイベント又はイベント集合に対し、前記系列データ格納部から取り出したイベント又はイベント集合を加えることにより候補系列パターンを生成するステップと、
前記系列データ格納部に格納された系列データのうち前記候補系列パターンを包含する系列データの個数前記候補系列パターンの頻度として系列パターン頻度計算部が計算するステップと、
前記特徴系列パターンにおける部分系列パターンの最大頻度を部分系列パターン頻度格納部が格納するステップと、
前記系列パターン頻度計算部により計算された候補系列パターンの頻度及び前記部分系列パターン頻度格納部に格納されている部分系列パターンの最大頻度に基づいて計算される評価値であって、より多くのイベントを含む候補系列パターンに対して単調に減少する評価値を与える評価式に従い、候補系列パターン評価部が前記候補系列パターンの評価値を計算するステップと、
前記評価値が閾値を超えるか否かを候補系列パターン判定部が判定し、前記閾値を超える候補系列パターンの頻度を前記部分系列パターンの最大頻度として前記部分系列パターン頻度格納部に格納するステップとを具備し、
前記候補系列パターン評価部は、sを系列パターン、spを系列パターンsの部分系列パターン、fs()を系列パターンの頻度、Nを系列データの個数とするとき、前記評価値に相当する興味度を次式(3)すなわち
Figure 0004398907
に従って算出し、
前記閾値を超える候補系列パターンが前記新たな特徴系列パターンとして前記特徴系列パターン格納部に格納されることを特徴とする特徴系列パターン発見装置の作動方法。
Method of operating a feature sequence pattern finding apparatus for discovering a new feature sequence pattern from sequence data consisting of a plurality of events stored in a sequence data storage unit and a feature sequence pattern stored in a feature sequence pattern storage unit Because
The candidate sequence pattern generation unit adds the event or event set extracted from the sequence data storage unit to the matching event or event set in the feature sequence pattern set stored in the feature sequence pattern storage unit. Generating a sequence pattern;
A sequence pattern frequency calculating unit that calculates the number of sequence data including the candidate sequence pattern among the sequence data stored in the sequence data storage unit as the frequency of the candidate sequence pattern;
The partial sequence pattern frequency storage unit stores the maximum frequency of the partial sequence pattern in the feature sequence pattern;
An evaluation value calculated based on the frequency of the candidate sequence pattern calculated by the sequence pattern frequency calculation unit and the maximum frequency of the partial sequence pattern stored in the partial sequence pattern frequency storage unit, and more events A candidate series pattern evaluation unit calculates an evaluation value of the candidate series pattern according to an evaluation formula that gives a monotonically decreasing evaluation value for a candidate series pattern including:
A candidate series pattern determining unit determining whether or not the evaluation value exceeds a threshold, and storing the frequency of the candidate series pattern exceeding the threshold as the maximum frequency of the partial series pattern in the partial series pattern frequency storage unit ; Comprising
The candidate sequence pattern evaluation unit, when s is a sequence pattern, sp is a partial sequence pattern of the sequence pattern s, fs () is a sequence pattern frequency, and N is the number of sequence data, the degree of interest corresponding to the evaluation value With the following equation (3),
Figure 0004398907
According to
A method of operating a feature sequence pattern finding apparatus, wherein a candidate sequence pattern exceeding the threshold value is stored in the feature sequence pattern storage unit as the new feature sequence pattern.
系列データ格納部に格納された複数のイベントからなる系列データと特徴系列パターン格納部に格納され、既に発見された特徴系列パターンとから新たな特徴系列パターンを発見する特徴系列パターン発見装置の作動方法であって、Method of operating a feature sequence pattern finding apparatus for discovering a new feature sequence pattern from sequence data consisting of a plurality of events stored in a sequence data storage unit and a feature sequence pattern stored in a feature sequence pattern storage unit Because
候補系列パターン生成部が、前記特徴系列パターン格納部に格納されている特徴系列パターンの組において一致するイベント又はイベント集合に対し、前記系列データ格納部から取り出したイベント又はイベント集合を加えることにより候補系列パターンを生成するステップと、The candidate sequence pattern generation unit adds the event or event set extracted from the sequence data storage unit to the matching event or event set in the feature sequence pattern set stored in the feature sequence pattern storage unit. Generating a sequence pattern;
前記系列データ格納部に格納された系列データのうち前記候補系列パターンを包含する系列データの個数に相当する、を前記候補系列パターンの頻度をとして系列パターン頻度計算部が計算するステップと、A sequence pattern frequency calculating unit calculating the frequency of the candidate sequence pattern as a frequency of the candidate sequence pattern, which corresponds to the number of sequence data including the candidate sequence pattern among the sequence data stored in the sequence data storage unit;
前記特徴系列パターンにおける部分系列パターンの最大頻度を部分系列パターン頻度格納部が格納するステップと、The partial sequence pattern frequency storage unit stores the maximum frequency of the partial sequence pattern in the feature sequence pattern;
前記系列パターン頻度計算部により計算された候補系列パターンの頻度及び前記部分系列パターン頻度格納部に格納されている部分系列パターンの最大頻度からに基づいて計算される評価値であって、より多くのイベントを含む候補系列パターンに対して単調に減少する評価値を与える評価式に従い、候補系列パターン評価部が前記候補系列パターンの評価値を計算するステップと、An evaluation value calculated based on the frequency of the candidate sequence pattern calculated by the sequence pattern frequency calculation unit and the maximum frequency of the partial sequence pattern stored in the partial sequence pattern frequency storage unit, and more In accordance with an evaluation formula that gives a monotonously decreasing evaluation value for a candidate series pattern including an event, the candidate series pattern evaluation unit calculates the evaluation value of the candidate series pattern;
前記評価値が閾値を超えるか否かを候補系列パターン判定部が判定し、前記閾値を超える候補系列パターンの頻度を前記部分系列パターンの最大頻度として前記部分系列パターン頻度格納部に格納するステップとを具備し、A candidate series pattern determining unit determining whether or not the evaluation value exceeds a threshold, and storing the frequency of the candidate series pattern exceeding the threshold as the maximum frequency of the partial series pattern in the partial series pattern frequency storage unit; Comprising
前記候補系列パターン評価部は、sを系列パターン、spを系列パターンsの部分系列パターン、fs()を系列パターンの頻度、Nを系列データの個数とするとき、前記評価値に相当する興味度を次式(4)すなわちThe candidate sequence pattern evaluation unit, when s is a sequence pattern, sp is a partial sequence pattern of the sequence pattern s, fs () is a sequence pattern frequency, and N is the number of sequence data, the degree of interest corresponding to the evaluation value With the following equation (4)
Figure 0004398907
Figure 0004398907
に従って算出し、According to
前記閾値を超える候補系列パターンが前記新たな特徴系列パターンとして前記特徴系列パターン格納部に格納されることを特徴とする特徴系列パターン発見装置の作動方法。A method of operating a feature sequence pattern finding apparatus, wherein a candidate sequence pattern exceeding the threshold value is stored in the feature sequence pattern storage unit as the new feature sequence pattern.
JP2005188453A 2005-06-28 2005-06-28 Feature sequence pattern finding device and method of operating feature sequence pattern finding device Active JP4398907B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005188453A JP4398907B2 (en) 2005-06-28 2005-06-28 Feature sequence pattern finding device and method of operating feature sequence pattern finding device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005188453A JP4398907B2 (en) 2005-06-28 2005-06-28 Feature sequence pattern finding device and method of operating feature sequence pattern finding device

Publications (2)

Publication Number Publication Date
JP2007011488A JP2007011488A (en) 2007-01-18
JP4398907B2 true JP4398907B2 (en) 2010-01-13

Family

ID=37749941

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005188453A Active JP4398907B2 (en) 2005-06-28 2005-06-28 Feature sequence pattern finding device and method of operating feature sequence pattern finding device

Country Status (1)

Country Link
JP (1) JP4398907B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015011565A (en) * 2013-06-28 2015-01-19 株式会社東芝 Monitoring control system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015011565A (en) * 2013-06-28 2015-01-19 株式会社東芝 Monitoring control system

Also Published As

Publication number Publication date
JP2007011488A (en) 2007-01-18

Similar Documents

Publication Publication Date Title
US9792388B2 (en) Pattern extraction apparatus and control method therefor
US6892208B2 (en) Method and system for database management for data mining
US20080201340A1 (en) Decision tree construction via frequent predictive itemsets and best attribute splits
Masseglia et al. Efficient mining of sequential patterns with time constraints: Reducing the combinations
JP6316844B2 (en) User interface for predictive model generation
JP7375861B2 (en) Related score calculation systems, methods and programs
JP4398907B2 (en) Feature sequence pattern finding device and method of operating feature sequence pattern finding device
JP2006155344A (en) Data analyzer, data analysis program, and data analysis method
JP2009093309A (en) Variance cause filtering system
Batal et al. A concise representation of association rules using minimal predictive rules
Islam et al. Discovering probabilistically weighted sequential patterns in uncertain databases
US20130318104A1 (en) Method and system for analyzing data in artifacts and creating a modifiable data network
Peng et al. Application of classification methods to individual disability income insurance fraud detection
KR102590325B1 (en) Data analysis method based on pattern mining and time-series window weights
JP5003004B2 (en) Variance root cause analysis support system
JP2022072149A (en) Machine learning program, device, and method
JP2008299486A (en) Data deletion device, and method and program for data deletion
JP2008234482A (en) Document classifying device, document classifying method, program and recording medium
JP7412164B2 (en) Information processing device, information processing method, and information processing program
Battula et al. Prediction of Hospital Re-admission Using Firefly Based Multi-layer Perceptron.
JP4177997B2 (en) Database search apparatus, database search method, computer program, and computer-readable recording medium
Rajput et al. Impact of data mining in drought monitoring
JP7243837B2 (en) Information processing device, information processing system, information processing method, and program
CN113626090B (en) Method, device, equipment and readable medium for configuring server firmware
JP4992430B2 (en) Variance occurrence cause analysis support system and variance occurrence cause analysis method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090721

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090929

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091023

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121030

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4398907

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131030

Year of fee payment: 4