WO2007066414A1

WO2007066414A1 - プログラム、データ抽出装置、及び方法

Info

Publication number: WO2007066414A1
Application number: PCT/JP2005/022699
Authority: WO
Inventors: Masataka Matsuura; Hiroya Hayashi; Masahiko Nagata; Kiyohide Omiya
Original assignee: Fujitsu Limited
Priority date: 2005-12-09
Filing date: 2005-12-09
Publication date: 2007-06-14
Also published as: US20080319985A1; JP5238105B2; JPWO2007066414A1

Abstract

　抽出するデータを指定するための抽出条件を１つ以上、入力可能として、１つ以上の抽出条件が入力された場合に、該抽出条件毎にデータの抽出を行い、抽出したデータはそれが満たす抽出条件に応じた出力先に出力する。

Description

明細書

プログラム、データ抽出装置、及び方法

技術分野

[0001] 本発明は、取得可能なデータのな力から指定された抽出条件を満たすデータを抽出するための技術に関する。

背景技術

[0002] 取得可能なデータのなかから任意のデータを抽出することができるデータ抽出装置は、現在、様々な用途に広く用いられている。インターネットで公開されている情報の検索では、検索エンジンとして用いられている。ユーザはそのデータ抽出装置を用いることにより、大量のデータのな力から所望のデータを迅速に得ることができる。

[0003] データ抽出装置は、予め定められた単位でデータを抽出する。その単位となるのは、例えばファイル、或いはレコードである。文書、及びインターネット上の Webページはファイルに相当する。顧客の利用実績 POS (Point Of Sales)データや HHT (Hand Held Terminal)データなどはレコード単位で管理されるのが普通である。

[0004] 図 1は、従来のデータ抽出方法を説明する図である。ここで、図 1を参照して、そのデータ抽出方法について具体的に説明する。

図 1に示す従来のデータ抽出方法は、例えばクレジットカード会社で行われる場合のものである。表記した「JOURNAL」は、ファクトデータをレコード単位で格納したジヤーナルファイルを表している。「MASTER」は、クレジットカードの所有者である顧客のデータをレコード単位で格納したマスタファイルを表している。それにより、図 1に示すデータ抽出方法は、 SQL (Structured Query Language)を用いて、共に複数、存在するジャーナルファイル、及びマスタファイルのな力から所望のものを連結 (JOI N)させ、その連結結果力も所望のレコードを抽出する場合の例を表して！/、る。

[0005] 連結させるジャーナルファイル、マスタファイルのそれぞれの条件は、 FROM句内の WHERE句に記述されている。そこに記述された条件により、マスタファイルは現在のものが選択され、ジャーナルファイルは 2004年のものが選択される。その FRO M句内の FROM句には、ファイル間におけるレコードの対応関係はクレジットカードナンバーにより特定することが記述されている。連結結果力抽出されるレコードに格納されるデータの項目は、 SERECT句に記述されている。そこに記述された項目は、顧客の指名 (V. NAME)、その年齢 (V. AGE)、利用回数 (V. SALES— NUM )、売上額 (V. SALES)である。連結結果力も抽出するレコードの条件は、 WHERE 句に記述されている。そこに記述された条件は、カードの種類がコールドカード、というものである。このようなことから、 2004年に利用し、現在もゴールドカードを持つ顧客のレコードが検索結果として抽出される。

[0006] 連結結果力抽出されるレコードを異ならせるには、 WHERE句に記述する抽出条件を変更すれば良い。シルバーカードを持つ顧客のレコードを抽出させるのであれば、例えば図 2に示すように、「GOLD」の記述を「SILVER」に変更すれば良い。それにより、 2004年に利用し、現在もシルバーカードを持つ顧客のレコードが検索結果として抽出される。

[0007] このように、従来のデータ抽出方法では、所望のデータを得るための抽出条件を決定し、その抽出条件毎に検索を行わせるようになつていた。このため、データを抽出する目的の数、つまり検索に使用する抽出条件の数が多くなるほど、全ての抽出結果を得るまでに要する時間が長くなり、効率的な作業が行えなくなるという問題点がめつに。

[0008] 現在、デジタルデータで扱う情報の種類、及びその量は非常に増大しつつある。そのため、今後は従来のデータ抽出方法では対応するのが非常に困難となるのが予想される。このこともあって、膨大なデータのな力からでも必要な種類のデータを全てより迅速に得られるようにすることが重要であると考えられる。

特許文献 1 :特開 2002— 222194号公報

特許文献 2：特開 2005 - 70911号公報

特許文献 3：特開平 6 - 319906号公報

発明の開示

[0009] 本発明は、膨大なデータのな力からでも必要な種類のデータを全てより迅速に得られるようにする技術を提供することを目的とする。

本発明の第 1、及び第 2の態様のプログラムは共に、取得可能なデータのなかから指定された抽出条件を満たすデータを抽出できるデータ抽出装置を実現させるためにコンピュータに実行させることを前提とし、それぞれ以下の機能を実現させる。

[0010] 第 1の態様のプログラムは、データを取得する機能と、抽出条件を入力する機能と、入力する機能により一つ以上、入力された抽出条件を用いて、該抽出条件毎にデータを抽出する機能と、抽出する機能により抽出条件毎に抽出されたデータをそれぞれ異なる出力先に出力する機能と、を実現させる。

[0011] 第 2の態様のプログラムは、データを取得する機能と、抽出条件を入力する機能と、入力する機能により入力された抽出条件を構成する条件式を複数の部分条件式に分割し、該分割によって得られる部分条件式の組み合わせで表現する形式に該抽出条件を変換して、該部分条件式単位で該部分条件式を満たすか否か確認することにより、取得する機能により取得したデータのなかで該抽出条件を満たすデータを抽出する機能と、を実現させる。

[0012] 本発明のデータ抽出方法は、取得可能なデータのな力から指定された抽出条件を満たすデータを抽出するために適用されることが前提であり、対象となるデータが異なる抽出条件を複数、入力可能とさせ、抽出条件が 1つ以上、入力された場合に、該抽出条件毎にデータの抽出を行い、該抽出によって得たデータを、該データが満たす抽出条件に応じた出力先に出力する。

[0013] 本発明では、対象となるデータが異なる抽出条件を複数、入力可能とさせ、抽出条件が 1つ以上、入力された場合に、抽出条件毎にデータの抽出を行い、それによつて得たデータを、そのデータが満たす抽出条件に応じた出力先にそれぞれ出力する。このため、ユーザは、複数の抽出条件を定義して入力することにより、 1度に複数の抽出結果を得ることができる。それにより、必要な全ての抽出結果をより迅速に得ることができる。この結果、高い作業効率も容易に実現させることができる。

[0014] 本発明では、入力された抽出条件は、それを構成する条件式を複数の部分条件式に分割し、その分割によって得られる部分条件式の組み合わせで表現する形式に変換して、部分条件式単位でその部分条件式を満たすか否力確認することにより、データのなかで抽出条件を満たすデータを抽出する。部分条件式の組み合わせで表現する形式に抽出条件を変換することにより、異なる条件式に同じ部分条件式が存在して!/ヽても、条件式毎に部分条件式をデータが満たすか否かの確認を行う必要性を回避できるようになる。このため、より小さい負荷でデータ抽出を行えることとなる。図面の簡単な説明

圆 1]従来のデータ抽出方法を説明する図である。

[図 2]従来のデータ抽出方法で異なる種類のデータを抽出させるための抽出条件の相違を説明する図である。

圆 3]本実施の形態によるデータ抽出装置の昨日構成を説明する図である。

圆 4]本実施の形態によるデータ抽出装置 100が可能なデータ抽出を説明する図である。

圆 5]本実施の形態によるデータ集計装置を実現できるコンピュータのハードウェア構成の一例を示す図である。

[図 6]XMLデータの構成例を説明する図である。

[図 7]CSVデータの構成例を説明する図である。

圆 8]抽出条件群の内容例を説明する図である。

[図 9]タグ DFA例を説明する図である。

圆 10]階層照合 NFA例を説明する図である。

[図 11]CSV解析 DFA例を説明する図である。

[図 12]キーワード DF A例を説明する図である。

圆 13]論理テーブル例を説明する図である。

圆 14]出力バッファの管理方法を説明する図である。

[図 15]抽出条件入力部 110が実行する処理のフローチャートである。

[図 16]データ入力構造検索部 120が実行する処理のフローチャートである。

[図 17]抽出条件判定部 130が実行する処理のフローチャートである。

[図 18]データ判定部 140が実行する処理のフローチャートである。

圆 19]本実施の形態によるデータ抽出装置の適用例を説明する図である (その 1)。圆 20]本実施の形態によるデータ抽出装置の適用例を説明する図である (その 2)。圆 21]本実施の形態によるデータ抽出装置の適用例を説明する図である (その 3)。圆 22]本実施の形態によるデータ抽出装置の適用例を説明する図である (その 4)。 [図 23]本実施の形態によるデータ抽出装置の適用例を説明する図である (その 5)。

[図 24]本実施の形態によるデータ抽出装置の適用例を説明する図である (その 6)。発明を実施するための最良の形態

[0016] 以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。

図 3は、本実施の形態によるデータ抽出装置の機能構成を説明する図である。そのデータ抽出装置 100は、入力装置 210からデータ 211としてテキストデータを入力し、そのデータ 211を指定された抽出条件群 220により振り分けて出力するものとして実現されている。そのために、抽出条件入力部 110、データ入力構造検索部 1 20、抽出条件判定部 130、データ判定部 140、外部出力用の出力バッファ 150、及びデータ出力部 160を備えている。ここでは便宜的に、入力装置 210から入力するデータ 211として、図 6に示すような XML (extensible Markup Language )データ、及び図 7に示すような CSV (Comma Separated Values)データのみを想定する。それらのデータは共にテキストデータである。

[0017] 抽出条件入力部 110によって入力される抽出条件群 220は、例えば図 8に示すような内容のものである。その図 8では、（1)〜（3)に分けてそれぞれ抽出条件、及び出力条件を示している。そのように分けて示す抽出条件は全て、ユーザが所望のデータ 211を抽出するためのものである。抽出条件と併せて示す出力条件は、その抽出条件によって抽出されるデータ 211の出力先、及びそのファイル名を指定するものである。それに

より、抽出条件群 220は、所望のデータ 211別に、そのデータ 211が満たすべき抽出条件、及びその出力先ファイル名を指定するものとなっている。そのようにデータ 211 の出力先を任意に指定できるようにしたのは、データ 211をより迅速に所望の形で利用するのを可能とさせるためである。以降、（1)に記述された抽出条件は「抽出条件 1 」と表記する。これは他でも同様である。

[0018] 図 4は、本実施の形態によるデータ抽出装置 100が可能なデータ抽出を説明する図である。ここで図 4を参照して、そのデータ抽出について具体的に説明する。

図 8に示す抽出条件群 220は、データ 211として XMLデータを想定したものである。図 4では、 CSVデータを想定した抽出条件群 220を示している。「Query」は抽出条件に相当し、「OutFile」は出力条件に相当する。 Query (抽出条件）として表記した「 $ X」は、項目名「X」を表し、「 $―」は任意の項目名を表して!/、る。それにより、例ぇば<3116 1で表記した「$ = =， 1， OR $ X= =，Xa，」は、項目名「X」のデータが XIまたは Xaであるデータ 211が抽出の対象であることを示している。その表記が「 $ _= = 'Xa' jとなっている Queryでは、任意の項目のデータとして Xaが存在して!/、るデータ 211が抽出の対象であることを示して!/、る。そのデータ 211は X MLデータ、及び CSVデータの何れであっても、ファイルとしてまとめて入力させても良いが、一つずつ順次、入力させても良い。一つずつ入力させる場合、 XMLデータでは図 6に示すようなものとなり、 CSVデータでは、図 7において、先頭に「000001」〜「000007」を表記した行のようなものとなる。ここでは便宜的に、それらのデータのまとまりをレコードと呼ぶことにする。また、 2つの「'」の間に記述された文字列については「キーワード」と呼ぶことにする。そのキーワードは、図 8に示す抽出条件群 220 では 2つの」の間に記述された文字列が相当する。

[0019] 本実施の形態では、文字列照合方式を用いて、抽出条件群 220で指定された抽出条件の何れかを満たすデータ 211を抽出し、満たす抽出条件に対応付けられた出力条件で指定された出力先ファイル名のファイルに出力する。それにより、 Query 1を満たすデータ 211はファイル名「resultl. csv」のファイル 231として、 Query2を満たすデータ 211はファイル名「result2. csv」のファイル 232として、 Query3を満たすデータ 211はファイル名「result3. csv」のファイル 233として、それぞれ出力される。入力されたデータ 211とファイル 231〜3の何れかに出力されるデータ 211の対応関係は、図中に表記の（1)〜（6)により示して、る。

[0020] 各抽出条件はそれぞれ単独で考慮されるため、抽出条件は全て任意に定義することができる。このため、 XMLデータや CSVデータなどのデータ 211の種類毎に 1つ以上の抽出条件を定義することもでき、また、その構造別に 1つ以上の抽出条件を定義することもできるようになつている。従って、対象とするデータ 211間でスキーマがどのように相違して、ても、その相違の影響は確実に回避させることができる。

[0021] 上述したようなことから、抽出条件間は排他関係としなくとも良い。それにより、 Quer ylと Query2では条件式 (論理式）「 $ X= = 'Xa'」を満たすデータ 211をそれぞれ抽出する内容となっている。同様に Query2と Query3では条件式「 $ X= =，Xb'」を満たすデータをそれぞれ抽出する内容となっている。この結果、ファイル 231、 232 には共に（4)を表記したデータ 211が出力され、ファイル 232、 233には共に（5)を表記したデータ 211が出力されている。

[0022] このように、抽出条件群 220により複数の抽出条件が指定されると、抽出条件毎にそれを満たすデータ 211を振り分けて指定の出力先に出力するようになっている。このた

め、ユーザは、抽出条件群 220として複数の抽出条件、及び出力条件を定義するだけで 1度に複数の抽出結果を得ることができる。それにより、必要な全ての抽出結果はより迅速に得ることができる。この結果、高い作業効率も容易に実現させることができる。

[0023] 上述したように、本実施の形態では文字列照合方式を採用している。その文字列照合方式は、抽出条件で指定した文字列と対象のデータ 211との照合を、そのデータ 211の先頭より後方に向力つて逐次、行っていくことにより、その文字列がデータ 2 11中に存在する力否かを調べるものである。その文字列照合方式では、先頭より後方に向力つた走査を 1回、行うだけで、抽出条件群 220で定義された抽出条件の何れをデータ 211が満たしている力確認することができる。そのため、定義された抽出条件の数に係わらず、常に迅速に抽出すべきデータ 211を抽出することができる。その参考文献としては、例えば特許文献 1、及び 2が挙げられる。

[0024] 図 3の説明に戻る。

抽出条件入力部 110は、上述したような抽出条件群 220を入力し、抽出条件毎に、その抽出条件を解析して対応のオートマトンを生成する。それにより、抽出条件が X MLデータ用のものであればタグ DFA (Deterministic Finite state Automaton) 170、階層照合 NFA(Non- deterministic Finite state Automaton) 171、及びキーワード D FA180が生成される。抽出条件が CSVデータ用のものであれば CSV解析 DFA17 2、及びキーワード DFA180が生成される。論理テーブル 190は、キーワード DFA1 72と同様に、抽出条件が想定するデータ 211の種類に係わらず生成される。

[0025] 抽出条件群 220の作成は基本的に、ユーザによるデータ入力によって行われる。本実施の形態によるデータ抽出装置 100と接続された端末装置で抽出条件群 220 を作成する場合、例えばユーザは抽出条件群 220作成用の画面を表示させ、その画面上に所望の内容の抽出条件群 220を入力する。その入力後、データ抽出を指示すると、作成された抽出条件群 220がデータ抽出装置 100に出力される。

[0026] 上記論理テーブル 190としては、抽出条件群 220が図 8に示す内容であった場合、抽出条件入力部 110によって図 13に示すようなものが生成される。図 13に示すように、その！^理テープノレ 190 ίま、 Af^理テープノレ 190a、及び Zf^理テープノレ 19 Ob力ら構成されている。

[0027] A論理テーブル 190aは、抽出条件を構成する条件式 (論理式)を関係演算子（図 8 中では「=」及び「<」が相当）で分解して、その条件式が表現する論理により細分ィ匕し（図 8では抽出条件 2を構成する条件式「ZrootZCompanyZcode <

99」は「ZrootZCompanyZcode」「く 99」に分解される）、細分化した条件式（部分条件式)毎に固有の論理番号を付した構成のものである。 Z論理テーブル 190b は、条件式、或いは抽出条件を部分条件式、或いは条件式に付した論理番号の組み合わせで表現し、表現した組み合わせ毎に固有の論理番号を付した構成のものである。組み合わせる論理番号は A論理テーブル 190a、及び Z論理テーブル 190b の何れのものであっても良い。その論理番号を用いて条件式、或いは抽出条件を表現することにより、 A論理テーブル 190a、或いは Z論理テーブル 190bで参照すべきレコード (行)を特定できるようにさせている。特には図示していないが、その Z論理テ一ブル 190bには、論理番号の組み合わせ毎に、その組み合わせで表現される条件式、或、は抽出条件が成立して、るか否かを示す符号を格納できるようになって!/、る。以降テーブル 190a、及び 190bでそれぞれ割り当てる論理番号を区別するために、 A論理テーブル 190aの論理番号には「A」、 Z論理テーブル 190bの論理には「Z」をそれぞれ先頭に付して表記する。

[0028] Z論理テーブル 190bで論理番号 Z1が割り当てられた組み合わせは「A1 XA2」である。その組み合わせ「A1 XA2」は、論理番号 A1の部分条件式（ZrootZorigin) が成立し、且つ論理番号 A2の部分条件式 ("atcg")が成立するデータ 211が抽出対象であることを表す形式の論理式となっている。それにより、組み合わせ (論理式）「八1 八2」中の「」は、論理番号 Al、及び A2の部分条件式の論理積を行うことを示す論理演算子となっている。その論理式は、抽出条件 1の内容を表している。同様に、論理番号 Z4、及び Z5の各論理式はそれぞれ抽出条件 3、及び 2の内容を表している。抽出条件 2は Z5=Z2 X Z3になっている。ここで 190bのテーブル内で、 Z2 =A3 X A4により A3 = ZrootZCompanyZcodeゝ A4 = < 99に対応する。

[0029] また、 Z3=A1 X A5により、 Al = ZrootZ〇rigin、 A5 = "gtac，，に対応する。したがって、抽出条件 2は、 Z論理番号 Z5と介して、 A論理番号 A3、 A4、 Al、 A5に対応し、図 8で示す抽出条件 2の論理積 (AND)は、図 13で示す論理テーブルとその要素間のリンク状態で示される。図 8の抽出条件 3は図 13の抽出条件 3、 Z論理番号 4、 A論理番号 Al、 A6の論理テーブルとその要素間のリンクで示される。すなわち、抽出条件 3は Z4=A1 XA6 (Al = /root/origin, A6 = "aacg")として A論理番号に対応している。すなわち、このような論理番号によって各抽出条件で形成される論理テーブルを使って抽出条件毎のデータ判別が可能となる。

[0030] 図 13に示す検索結果判定情報 195は、抽出条件毎に、その抽出条件を表現する論理番号の組み合わせに対して付された論理番号、その抽出条件を満たすデータ 2 11を格納すべき出力バッファ 150を示す番号（図中「出力バッファ No.」と表記）、及びファイルディスクリプタ（対応付けられた出力条件）がまとめられたものである。それにより、何れかの抽出条件を満たすデータ 211は、検索結果判定情報 195を参照して出力すべき出力バッファ 150に出力された後、出力すべきファイルに出力される。

[0031] 上記オートマトン（タグ DFA170、階層照合 NFA171、キーワード DFA180、 CSV 解析 DFA172)は検索条件中の文字列をデータ 211と照合するための状態遷移テ一ブルである。状態間は遷移の方向を示す矢印で結んで表現される。先頭を初期状態とし、この初期状態力データ 211中の文字列に応じて順次、状態を遷移させる。遷移させる状態には、検索条件中の文字列の最後に位置する文字に相当する受理状態が 1つ以上、含まれている。それによりオートマトンは、データ 211中に検出すベき文字列が存在していれば、何れかの受理状態に遷移するように生成される。受理状態に遷移した場合、その受理状態に応じたヒット情報を出力するようになっている。そのヒット情報は、遷移した受理状態に応じた特有のものであり、オートマトンの生成時に併せて生成される。

[0032] 上記タグ DFA170は、キーワードと照合すべき文字列（要素内容）が存在する要素までの検索パスを検出するためのものである。抽出条件群 220が図 8に示す内容であった場合、抽出条件入力部 110によって図 9に示すようなタグ DFA170が最終的に生成される。図 8に示す抽出条件群 220では、検索パスとして「ZrootZorigin」及び「ZrootZCompanyZcode」が存在することから、それぞれがタグ名である文字列「root」「origin」「Company」及び「code」をそれぞれ検出できるように生成されている。それらの文字列の最後に位置する文字「t」「n」「y」及び「e」の何れかに相当する受理状態まで遷移することで、その文字に対応する文字列が検出されたことを示すヒット情報 170a〜dの何れかが出力される。

[0033] 階層照合 NFA171は、現在、対象とする検索パスを管理するためのものである。抽出条件群 220が図 8に示す内容であった場合、抽出条件入力部 110によって図 10 に示すような階層照合 NFA171が最終的に生成される。その NFA171は、図 10に示すように、何れかの検索パスに記述されたタグ名を単位とした状態遷移が行われるように生成されている。このため、その状態遷移は開始タグ、及び終了タグによって発生する。ここでは、「4」、及び「2」を表記した状態が受理状態に相当する。

[0034] 「4」を表記した受理状態に遷移したことは、検索パス「ZrootZCompanyZcode 」が検出されたことを意味する。それにより、その検索パスで指定されたノードでは、その値が 99未満か否か、つまり論理番号 A4の部分条件式 (論理)が成立するか否かの照合を行うためのヒット情報 171aが出力される。そのヒット情報 171aは、照合の対象となる部分条件式を示す論理番号 (ここでは A4)、検索ノスの階層の深さを示す階層情報、及びその部分条件式で関係を確認すべき内容を示す比較情報 (ここではく 99)を含むものである。同様に「2」を表記した受理状態に遷移したことは、検索パス「ZrootZorigin」が検出されたことを意味するから、その検索パスで指定されたノード、つまりタグ名「origin」のタグでは、その文字列が「atcg」「gtac」或いは「aacg」の何れと一致する力否かの照合を行うためのヒット情報 171b— dが出力される。それらのヒット情報 171b- dで比較情報を示して、な、のは、それらに表記した論理番号に対応する部分条件式の照合はキーワード DFA180により行うためである。 [0035] 階層照合 NFA171における状態遷移は、図 9に示すタグ DFA170を用いて行われる。例えばタグ名である文字列「root」をタグ DFA170により検出すると、つまりタグ DFA170によりヒット情報 170aを出力すると、 NFA171では「0」を表記した初期状態から「1」を表記した状態に遷移する。次にタグ DFA170により文字列「origin」を検出すると、 NFA171では「1」を表記した状態から「2」を表記した状態に遷移する。このとき、タグ DFA170により文字列「Company」を検出すると、 NFA171では「1」を表記した状態から「3」を表記した状態に遷移する。それらの何れの文字列もタグ D FA170により検出できなければ、 NFA171では「1」を表記した状態から「0」を表記した初期状態に遷移する。そのように遷移させることにより、階層照合 NFA171を用いて検索パスに沿った階層の移動の有無を把握し、対象とする検索パスを管理する

[0036] CSV解析 DFA172は、キーワードと照合すべき文字列（要素内容）が存在する要素までの検索パスを検出するためのものである。その要素が 2つのダブルコーテーシヨン間に存在する CSVデータ（図 7)では、抽出条件入力部 110によって図 11に示すような CSV解析 DFA172が生成される。図 11中に表記した「Ox」はそれに続くシンボルが 16進数表現であることを表している。

[0037] キーワード DFA180は、抽出条件により指定されたキーワードと一致する文字列をデータ 211中力も検出するためのものである。抽出条件群 220が図 8に示す内容であった場合、抽出条件入力部 110によって図 12に示すようなキーワード DFA180が最終的に生成される。それに登録された何れかのキーワードの最後に位置する文字に相当する受理状態まで遷移した場合、つまり文字列「aacg」「acgt」及び「gtac」の何れかを検出できた場合、検出された文字列に応じてヒット情報 180a〜cの何れかが出力される。

[0038] データ入力構造検索部 120は、入力装置 210から所定量ずつ連続的にデータ 21 1を入力し、そのデータ 211の種類に応じて、照合に用いるオートマトンを決定する。それ〖こより、データ 211が XMLデータであれば、タグ DFA170、及び階層照合 NF A 171を用、て抽出条件の何れかに記述された検索パスの検出を行う。データ 211 力 S CSVデータであれば、 CSV解析 DFA172を用いて抽出条件の何れかに記述された項目名の検出を行う。検索パス、或いは項目名を検出すると、その検索パスによつて指定されたノード、或いはその項目名のセルが開始する位置を示すデータ位置情報、及び検出された文字列を示すノード'セル情報を抽出条件判定部 130に通知する。それらの情報は例えばヒット情報として生成するもの力、或いはそれを含むものである。それらの情報の通知は、データ 211の終端を検出するまで、検索パス、或いは項目名を検出する度に行う。その終端の検出は、 XMLデータではルートタグと組になる終了タグの検出に相当し、 CSVデータでは所定個数のセルの検出に相当する。データ入力構造検索部 120による検索パス、或いは項目名の検出は、 A論理テープル 190aに格納された部分条件式が成立することの確認に相当する。

[0039] 抽出条件判定部 130は、データ入力構造検索部 120から通知されたデータ位置情報が示すデータ位置より、キーワード DFA180を用いた照合を行う。その照合の結果、そのデータ位置力何れかのキーワードと一致する文字列、或いは関係演算子が示す関係を満たす値 (図 8に示す抽出条件群 220では 99未満の値)が存在することを確認すると、 Z論理テーブル 190bの該当論理番号の箇所にそのことを示す符号 (以降「真符号」と表記し、それと異なる符号を「偽符号」と表記する)を格納する。その確認ができる前にデータ 211の終端を検出した場合には、その終端の位置を示すデータ位置情報をデータ入力構造検索部 120に通知する。それにより、構造検索部 120は、データ 211の終端を自身が検出した力否かに係わらず、その終端まで走査が終了したことをデータ判定部 140に通知する。

[0040] 抽出条件判定部 130は、上記通知を行うか、或いは構造検索部 120が終端を検出するまで、構造検索部 120から情報が通知される度にキーワード DFA180を用いた照合を行う。この結果、データ 211が抽出条件 2を満たしている場合には、論理番号 Z2、及び Z3の符号として真符号が順次、格納され、最後に論理番号 Z5の符号として真符号が格納されることになる。そのようにして、対象とするデータ 211が論理式を満たす論理番号の箇所にのみ真符号が格納されることから、 Z論理テーブル 190bを参照することにより、データ 211が満たす抽出条件を確認できるようになつている。

[0041] このようにして本実施の形態では、抽出条件を構成する条件式をそれが表現する論理により細分ィ匕し、その細分化によって得られた部分条件式 (細分化論理)単位での照合を行うようにしている。それにより、一致する文字列、或いは検索パスの検出、関係演算子で表す関係の確認、及びそのようなことを行うべき箇所の特定、などをそれぞれ個別に実施している。そのようにすると、より柔軟に対応することが可能となり、データ 211の種類やその構造などの情報がたとえ不足していたとしても、ユーザは得られている情報から所望のデータ 211が満たす内容を抽出条件としてより容易に定義できるようになる。このため、ユーザにとっての高い利便性が実現される。

[0042] 部分条件式 (細分化論理）は、同じ、或いは他の抽出条件で別に存在する場合がある。図 8に示す例では、部分条件式「ZrootZorigin」は抽出条件 1〜3の何れにも記述されている。しかし、そのような複数の同じ記述は、条件式を細分化することにより、一つの部分条件式として残せば済むようになる。それにより、抽出条件の数や内容に係わらず、成立するか否か確認すべき部分条件式は必要最小限に抑えることができる。条件式、或いは抽出条件は複数の部分条件式の組み合わせで表現される。このため、それらが成立するか否かはより迅速に行えることとなる。

[0043] データ判定部 140は、 Z論理テーブル 190bを参照して、データ 211が満たす抽出条件を確認する。その確認により、何れかの抽出条件を満たしていることが判明すると、検索結果判定情報 195 (図 13)を参照して、出力すべき出力バッファ 150にデータ 211を出力して格納する。

[0044] 図 14は、出力バッファの管理方法を説明する図である。

データ 211を対応する出力バッファ 150への出力は、出力バッファ情報 151、及びノッファ情報 152により管理している。出力バッファ情報 151は、抽出条件群 220により確保した出力バッファ 150の数を示す取得バッファ数情報、及びバッファ情報 15 2にアクセスするためのポインタ情報を備えている。そのノッファ情報 152は、取得バッファ数情報が示す数のレコードを備えたものであり、各レコードには、対応する出力バッファ 150 (ここでは出力バッファ 150a〜cのうちの一つ）に関する複数の情報を有する個別バッファ情報 153 (ここでは個別バッファ情報 153a〜cのうちの一つ）がそれぞれ格納されている。それら出力バッファ情報 151、及びバッファ情報 152を格納するエリアは出カノッファ 150と共に、データ抽出装置 100に搭載、或いは接続された記憶装置 1401上に確保されている。タグ DFA170、階層照合 NFA171、 CSV解析 DFA172、キーワード DFA180、及び論理テーブル 190も例えばその記憶装置 1 401〖こ格糸内される。

[0045] その個別バッファ情報 153は、対応する出力バッファ 150にアクセスするためのポィンタ情報、そのデータ 211を格納可能な全サイズを表す全バッファサイズ、そのサイズのなかでデータ 211を格納可能な残りのサイズを表す残バッファサイズ、確保した出力バッファ 150自体のサイズを表す出力バッファサイズ、を有している。各レコードに付した番号の大小関係は抽出条件の番号のそれと同じとさせている。つまり、レコード番号 0のレコードは抽出条件 1に対応している。それにより、データ 211が満たす抽出条件に対応するレコードを特定できるようにさせている。

[0046] 上述したようなことから、データ判定部 140は、 Z論理テーブル 190bを参照してデータ 211が満たす抽出条件が存在していることを確認すると、検索結果判定情報 19 5を参照してその抽出条件を確認し、出カノッファ情報 151、及びバッファ情報 152 を参照する。それにより、確認した抽出条件に対応するレコードをバッファ情報 152 力も取り出し、そのレコードに格納された個別バッファ情報 153により指定される出力バッファ 150にデータ 211を出力する。残バッファサイズは、出力するデータ 211のサイズにより更新する。

[0047] データ出力部 160は、各出力バッファ 150の例えば残バッファサイズを監視し、そのサイズが所定値以下になる力、或いは入力装置 210から入力して処理するデータ 211が無くなった場合に、検索結果判定情報 195を参照して、出力バッファ 150に格納されているデータ 211を対応するファイルに出力する。それにより、出力条件で指定された出力先ファイル名のファイルに、これまでに抽出したデータ 211を保存する。ここでは、 3つのファイル 231〜233は共に同じ出力装置 230上に保存させている。

[0048] 図 5は、データ抽出装置 100を実現できるコンピュータのハードウェア構成の一例を示す図である。抽出装置 100は複数のコンピュータ (データ処理装置）により実現させても良いが、ここでは図 5に構成を示す 1台のコンピュータによって実現されていることを前提として説明することとする。

[0049] 図 5に示すコンピュータは、 CPU51、メモリ 52、入力装置 53、出力装置 54、外部記憶装置 55、媒体駆動装置 56、及びネットワーク接続装置 57を有し、これらがバス 58によって互いに接続された構成となっている。同図に示す構成は一例であり、これに限定されるものではない。

[0050] メモリ 52は、データを一時的に格納する RAM等のメモリである。外部記憶装置 55 、若しくは媒体駆動装置 56がアクセスする可搬記録媒体 MDに記憶されて、るプログラム、あるいはデータが一時的に格納される。 CPU51は、プログラムをメモリ 52に読み出して実行することにより、全体の制御を行う。そのプログラムは、ネットワーク接続装置 57によりネットワークを介して取得したものであっても良い。

[0051] 入力装置 53は、例えば、キーボード、マウス等の入力機器と接続されている力、或いはそれらを有するものである。そのような入力機器に対するユーザの操作を検出し、その検出結果を CPU51に通知する。

[0052] 出力装置 54は、例えばディスプレイと接続されている力、或いはそれを有するものである。 CPU51の制御によって送られてくるデータをディスプレイ上に出力させる。ネットワーク接続装置 57は、例えばイントラネットやインターネット等のネットワークを介して、他の装置と通信を行うためのものである。外部記憶装置 55は、例えばハードディスク装置である。主に各種データやプログラムの保存に用いられる。

[0053] 記憶媒体駆動装置 56は、フレキシブル 'ディスク、光ディスク（ここでは CD— ROM 、 CD-R,及び DVD等を含む）、或いは光磁気ディスク等の可搬型の記録媒体 MD にアクセスするものである。

[0054] 図 3に示す出力装置 230は、図 5に示す構成では外部記憶装置 55、記録媒体 MD が装着された媒体駆動装置 56、或いはネットワーク接続装置 57によりアクセス可能な外部装置に相当する。入力装置 210は、記録媒体 MDが装着された媒体駆動装置 56、或いはネットワーク接続装置 57によりアクセス可能な外部装置に相当する。抽出条件群 220の入力は、入力装置 53、記録媒体 MDが装着された媒体駆動装置 5 6、或いはネットワーク接続装置 57により行うことができる。図 14に示す記憶装置 140 1は、例えば外部記憶装置 55、及びメモリ 52の少なくとも一方に相当する。

[0055] 検索条件入力部 110は、例えば出力装置 54を除く各部 51〜53、及び 55〜58によって実現される。データ入力構造検索部 120、及びデータ出力部 160は共に、例えば入力装置 53、及び出力装置 54を除く各部 51、 52、及び 55〜57によって実現される。抽出条件判定部 130、及びデータ判定部 140は共に、例えば入力装置 53、出力装置 54、及びネットワーク接続装置 57を除く各部 51、 52、 55、 56、及び 58〖こよって実現される。

[0056] 次に、上述した各部 110、 120、 130、及び 140の動作について、図 15〜図 18に示す各処理のフローチャートを参照して詳細に説明する。それらの処理は何れも、例えば CPU51が、外部記憶装置 55、若しくは媒体駆動装置 56に装着された可搬記録媒体 MDに記憶されて、るプログラムをメモリ 52に読み出して実行することにより実現される。

[0057] 図 15は、抽出条件入力部 110が実行する処理のフローチャートである。始めに図 1 5を参照して、その処理について詳細に説明する。その処理は、例えば抽出条件群 2 20の入力をユーザが入力装置 53、或いはネットワークを介して指示することで起動される。その場合、抽出条件群 220は入力装置 53、或いはネットワーク接続装置 57 を介して入力される。

[0058] 先ず、ステップ 11では、抽出条件群 220を入力し、例えばメモリ 52に保存する。続くステップ 12では、保存した抽出条件群 220のなかから 1抽出条件を選択して読み出し、それを解析して対応するオートマトンの種類を特定する。その次に移行するステツプ 13では、特定した種類のオートマトンを生成、或いは更新する。その生成、或いは更

新により、抽出条件に記述された文字列が必要に応じてタグ DFA170、階層照合 N FA171、或いはキーワード DFA180に登録される。

[0059] ステップ 13に続くステップ 14では、抽出条件群 220のなかに選択していない他の抽出条件が有るか否か判定する。そのような抽出条件が残っていた場合、判定は YE Sとなって上記ステップ 12に戻り、他の選択条件を選択する。そうでない場合には、判定は NOとなり、ステップ 15で論理テーブル 190の生成と併せて検索結果判定情報 195 (図 13)、出力バッファ情報 151、及びバッファ情報 152の生成を行い、抽出条件数に応じた出力バッファ 150 (図 14)の確保を行った後、一連の処理を終了する。このようにして、抽出条件群 220の入力により、必要なオートマトンの生成に併せて、データ 211を出力すべき出力先に出力するための準備が行われる。

[0060] 図 16は、データ入力構造検索部 120が実行する処理のフローチャートである。次に図 16を参照して、その処理について詳細に説明する。その処理は、例えばデータ 211の入力装置 210からの取り込みが指示されている間、実行される。

[0061] 先ず、ステップ 21では、入力装置 210から入力すべきデータ 211が有るか否か判定する。そのようなデータ 211が無力つた場合、判定は NOとなり、再度、その判定を行う。それにより、そのデータ 211が生じるのを待つ。一方、そうでない場合には、判定は YESとなってステップ 22に移行する。

[0062] ステップ 22では、入力装置 210から所定量のデータ 211を入力する。続くステップ 23では、入力したデータ 211から一つを選択し、抽出条件入力部 110によって決定したオートマトンを用いて、それに登録された文字列の何れかと一致する文字列の検索を行う。

[0063] その検索は 1文字単位で行い、その検索が終了するとステップ 24に移行して、対象となる文字列 (検索パス、項目名、など)を検出できた力否力判定する。そのような文字列を検出できな力つた場合、判定は NOとなってステップ 27に移行する。そうでない場合には、判定は YESとなってステップ 25に移行する。

[0064] ステップ 25では、データ位置情報等を抽出条件判定部 130に通知する。その通知により、抽出条件判定部 13はキーワード DFA180を用いた照合を行い、その照合によってデータ 211の終端を検出すると、そのデータ位置情報を通知する。このことから、次のステップ 26では、その通知が有ったか否か判定する。その通知が有った場合、判定は YESとなってステップ 28に移行する。そうでない場合には、判定は NOとなって上記ステップ 23に戻り、検索を続行する。

[0065] 上記ステップ 24の判定が NOとなって移行するステップ 27では、検索によってデータ 211の終端を検出したか否カゝ判定する。その終端を検出した場合、判定は YESとなってステップ 28に移行する。そうでない場合には、判定は NOとなって上記ステツプ 23に戻り、検索を続行する。

[0066] ステップ 28では、データ 211の終端が検出されたことをデータ判定部 140に通知する。続くステップ 29では、入力したデータ 211のなかで未選択のデータ 211が有るか否か判定する。未選択のデータ 211が存在する場合、判定は YESとなって上記ステツプ 23に戻り、未選択のデータ 211を選択して検索を開始する。そうでない場合には、判定は NOとなって上記ステップ 21に戻る。それにより、入力装置 210に入力すべきデータ 211が有るか否かの確認を行う。

[0067] 図 17は、抽出条件判定部 130が実行する処理のフローチャートである。次に図 17 を参照して、その処理について詳細に説明する。

先ず、ステップ 41では、レコードの終了通知が通知されるのを待つ。その通知を受け取ると、判定が NOとなってステップ 42に移行し、通知されたデータ位置情報、及びキーワード DFA180を用いた照合を行う。その次に移行するステップ 43では、キ一ワード DFA180に登録されたキーワードの何れ力と一致する文字列をデータ 211 力検出できた力否か判定する。そのような文字列を検出できた場合、判定は YESとなり、ステップ 44で論理テーブル 190 (Z論理テーブル 190b)の該当論理番号の箇所に真符号を設定した後、上記ステップ 41に戻り、通知待ちの状態に移行する。そうでな、場合には、判定は NOとなってステップ 45に移行する。

[0068] ステップ 45では、データ 211の終端を検出したか否力判定する。照合によってその終端を検出した場合、判定は YESとなり、そのことを通知するためにデータ位置情報をデータ入力構造検索部 120にステップ 46で通知した後、上記ステップ 41に戻る。そうでない場合には、判定は NOとなって上記ステップ 42に戻り、照合を続行する。

[0069] 上述したようにして、データ入力構造検索部 120と抽出条件判定部 130の間では必要な情報のやりとりが随時、行われ、その情報によってそれぞれ処理を進行させる。それにより、 1データ 211毎に、それが成立する抽出条件を確認し、その確認結果に応じた処理を行うようになって!/、る。

[0070] 図 18は、データ判定部 140が実行する処理のフローチャートである。最後に図 18 を参照して、その処理について詳細に説明する。

先ず、ステップ 51では、データ入力構造検索部 120からデータ 211の終端が通知されるのを待つ。その通知を受け取ると、判定が NOとなってステップ 52に移行し、論理テーブル 190を参照して、現在、対象としているデータ 211が満たす抽出条件を判定する。その後はステップ 53に移行する。 [0071] ステップ 53では、データ 211が満たす抽出条件が有るか否か判定する。そのような抽出条件が存在した場合、判定は YESとなってステップ 54に移行し、検索結果判定情報 195 (図 13)、出力バッファ情報 151、及びバッファ情報 152 (図 14)を参照してデータ 211を出力すべき出力バッファ 150に出力し、対応する個別バッファ情報 153 を更新した後、上記ステップ 51に戻る。それにより、通知待ちの状態に移行する。一方、そうでない場合には、判定は NOとなってそのステップ 51に戻る。

[0072] 図 19〜図 24は、上記データ抽出装置の適用例を説明する図である。以降は、図 1 9〜図 24を参照して、その適用可能な利用法について具体的に説明する。図 19〜図 24にお、て、データ抽出装置は「抽出器」と表記して!/、る。

[0073] 図 19は、複数のデータ抽出装置 100を多段階で使用する場合の例を示している。

データ 1903を入力するデータ抽出装置 100は、そのデータ 1903を 2つの連結器 1 910に振り分けている。その二つの連結器 1910の一方は、マスタファイル 1901のデータをデータ 1903と連結させて別のデータ抽出装置 100に出力し、そのデータ抽出装置 100は連結結果を 2つの集計器 1920に振り分けている。その 2つの集計器 192 0はそれぞれ異なるデータ抽出装置 100に集計結果を出力し、その集計結果を入力するデータ抽出装置 100はそのデータをそれぞれ 3つのファイルに振り分けて出力している。これらは、二つの連結器 1910の他方側でも同様である。

[0074] 図 20は、入力データの振り分けにデータ抽出装置 100を使用する場合の例を示している。その入力データは、ジャーナルファイル 2000に格納された各レコードのデータ

である。データ抽出装置 100は、抽出条件を満たすデータをジャーナルファイル 200 1〜3のうちの何れかに振り分けて出力するために用いられて、る。そのように振り分けるのは、例えばマスタ X〜Zとの連結条件がそれぞれ異なることに対応するためである。そのように振り分けると、データを 3系統で並行して処理することが可能となることから、処理の高速ィ匕を実現できる。

[0075] 図 21は、連結結果のデータの振り分けにデータ抽出装置 100を使用する場合の例を示している。その連結結果は、マスタとジャーナルのデータを連結させたものである。データ抽出装置 100は、抽出条件 1〜3の何れかを満たすデータを、その抽出条件に応じてファイル 2101〜3のうちの何れかに出力するために用いられている。

[0076] 図 22は、集計結果のデータの振り分けにデータ抽出装置 100を使用する場合の例を示している。その集計結果は、マスタとジャーナルのデータの連結結果に対して集計操作を行ったものである。データ抽出装置 100は、抽出条件 1〜3の何れかを満たす集計結果のデータを、その抽出条件に応じてファイル 2201〜3のうちの何れかに出力するために用いられて、る。

[0077] 図 23は、新聞社等で実施されるクリッピングサービスの提供用にデータ抽出装置 1 00を使用する場合の例を示している。その場合、データ抽出装置 100にはサービス登録者毎に、その登録者に送るべき記事データが満たす抽出条件を定義する。その抽出装置 100には随時、記事データが入力され、その記事データが満たす抽出条件に応じて対応するファイルに出力される。そのファイルに出力された記事データは、定期的にサービス登録者に配信される。サービス登録者の追加、削除、或いは要求の変更などは、抽出条件の追加、削除、或いは内容の変更によって対応することができる。

[0078] 図 24は、ハイウェイ利用調査システムにデータ抽出装置 100を使用する場合の例を示している。その場合、ハイウェイのモニタシステムから随時、データがデータ抽出装置 100に入力される。その抽出装置 100には、必要なデータのみを抽出するための抽出条件を定義する。それにより、抽出装置 100は、抽出条件に従ってデータを選別する（フィルタリングする)。選別されたデータは、連結器によりマスタデータと照合され、より詳細なデータに展開される。例では、自動車の番号が「k 2104」のデータに対して会社名「〇〇通運」が付加されている。マスタデータと照合されたデータは集計器により、例えば会社毎に集計されて出力される。

[0079] なお、本実施の形態では、抽出条件によって出力先を振り分けるデータそのものを外部から入力している力そのデータは実際に振り分けるデータの生成用、或いは特定用のものであっても良い。つまり符号ィ匕された圧縮データのようなものであっても良い。そのようなデータの入力は、記録媒体 MDに記録して行うようにしても良い。

Claims

請求の範囲

[1] 取得可能なデータのな力から指定された抽出条件を満たすデータを抽出できるデータ抽出装置を実現させるためにコンピュータに実行させるプログラムであって、前記データを取得する機能と、

前記抽出条件を入力する機能と、

前記入力する機能により一つ以上、入力された抽出条件を用いて、該抽出条件毎にデータを抽出する機能と、

前記抽出する機能により前記抽出条件毎に抽出されたデータをそれぞれ異なる出力先に出力する機能と、

を実現させるためのプログラム。

[2] 請求項 1記載のプログラムであって、

前記抽出する機能は、前記データに対する 1度の走査により、入力された抽出条件のなかで該データが満たす抽出条件を特定して抽出する。

[3] 請求項 1記載のプログラムであって、

前記抽出する機能は、前記抽出条件を構成する条件式を複数の部分条件式に分割し、該分割によって得られる部分条件式の組み合わせで表現する形式に各抽出条件を変更することにより、該部分条件式単位で該部分条件式をデータが満たすか否かの確認を行う。

[4] 請求項 3記載のプログラムであって、

前記抽出する機能は、前記抽出条件中に検出すべき文字列が存在していればいずれかの受理状態に遷移するように生成されることを少なくとも含むオートマトンと、該抽出条件の入力を受けて前記オートマトンの出力に基づいて形成される論理テーブルと、を生成し、該論理テーブルに基づいて抽出条件の入力に対応した出力条件を判定する。

[5] 請求項 4記載のプログラムであって、

前記オートマトンとして、前記抽出条件と一致する前記文字列を検出するタグ DFA と、該抽出条件で指定の階層を検出する階層照合 DFAと、該抽出条件中のキーヮードを検出するキーワード DFAと、を含み、前記論理テーブルは、該抽出条件を前記部分条件式毎に分類した第一の論理番号テーブルと、該抽出条件毎に分類した検索結果判定テーブルと、前記第一論理番号テーブルと前記検索結果判定テープルとを対応させる第二の論理番号テーブルと、を含む。

[6] 請求項 4記載のプログラムであって、

前記オートマトンとして、前記抽出条件入力の文字列を検出する CSV解析 DFAと、抽出条件入力のキーワードを検出するキーワード DFAと、を含む。

[7] 請求項 1記載のプログラムであって、

前記条件入力手段は、前記抽出条件と併せて、該抽出条件と対応付けたデータの出力先に関する出力条件を入力することができ、

前記データ出力手段は、前記出力条件に従って、該出力条件と対応付けられた抽出条件を満たすデータを出力する。

[8] 取得可能なデータのな力から指定された抽出条件を満たすデータを抽出できるデータ抽

出装置を実現させるためにコンピュータに実行させるプログラムであって、前記データを取得する機能と、

前記抽出条件を入力する機能と、

前記入力する機能により入力された前記抽出条件を構成する条件式を複数の部分条件式に分割し、該分割によって得られる部分条件式の組み合わせで表現する形式に該抽出条件を変換して、該部分条件式単位で該部分条件式を満たすか否か確認することにより、前記取得する機能により取得したデータのなかで該抽出条件を満たすデータを抽出する機能と、

を実現させるためのプログラム。

[9] 請求項 8記載のプログラムであって、

前記入力する機能は、一つ以上の前記抽出条件を入力することができ、前記抽出する機能により前記抽出条件毎に抽出したデータはそれぞれ異なる出力先に出力できる。

[10] 取得可能なデータのな力から指定された抽出条件を満たすデータを抽出するためのデータ抽出方法において、前記抽出条件を構成する条件式論理を指定対象となるデータが異なる前記抽出条件を複数、入力可能とさせ、

前記抽出条件が 1つ以上、入力された場合に、該抽出条件毎にデータの抽出を行い、

該抽出によって得たデータを、該データが満たす抽出条件に応じた出力先にそれぞれ出力する、

ことを特徴とするデータ抽出方法。

[11] 取得可能なデータのな力から指定された抽出条件を満たすデータを抽出できるデータ抽出装置において、

前記データを取得するデータ取得手段と、

前記抽出条件を入力する条件入力手段と、

前記条件入力手段により一つ以上、入力された抽出条件を用いて、該抽出条件毎にデータを抽出するデータ抽出手段と、

前記データ抽出手段が前記抽出条件毎に抽出したデータをそれぞれ異なる出力先に出力するデータ出力手段と、

を具備することを特徴とするデータ抽出装置。

[12] 取得可能なデータのな力から指定された抽出条件を満たすデータを抽出できるデータ抽出装置において、

前記データを取得するデータ取得手段と、

前記抽出条件を入力する条件入力手段と、

前記条件入力手段により入力された前記抽出条件を構成する条件式を複数の部分条件式に分割し、該分割によって得られる部分条件式の組み合わせで表現する形式に該抽出条件を変換して、該部分条件式単位で該部分条件式を満たすか否か確認することにより、前記データ取得手段が取得したデータのなかで該抽出条件を満たすデータを抽出するデータ抽出手段と、

を具備することを特徴とするデータ抽出装置。