JP5370159B2

JP5370159B2 - 情報抽出装置及び情報抽出システム

Info

Publication number: JP5370159B2
Application number: JP2009548917A
Authority: JP
Inventors: 剛巨河合; 真一安藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-01-07
Filing date: 2009-01-06
Publication date: 2013-12-18
Anticipated expiration: 2029-01-06
Also published as: US20110202545A1; JPWO2009087996A1; WO2009087996A1

Description

本発明は、情報抽出装置及び情報抽出システムに関し、更に詳しくは、抽出対象とするテキストデータから特定の情報を抽出する際に適用される情報抽出規則の生成に用いられる事例の選出を行う情報抽出装置及び情報抽出システムに関する。本発明は、更に、そのような装置及びシステムで用いられる情報抽出方法及び情報抽出プログラムに関する。

情報抽出装置は、抽出対象とする大量のテキストデータから特定の情報を抽出する際に用いられる。情報抽出装置では、例えば、予め用意した事例に基づいて、テキストデータ中のパターンや各種の統計的基準等を用いた情報抽出規則を生成し、この情報抽出規則をテキストデータに適用することにより、そのテキストデータから特定の情報を抽出している。

一般に、情報抽出装置では、テキストデータから所望の特定の情報を必ずしも抽出できるわけではなく、例えば、抽出漏れや誤抽出が生じることがある。そのため、精度の高い情報抽出規則を生成するために、上記情報抽出規則をテキストデータに適用しても抽出できていない「正解となる事例」を多く用意する必要がある。なお、以下では、便宜上、「正解となる事例」を正例と呼び、「不正解となる事例」を負例と呼ぶ。ここで、正例とは、ユーザ等から与えられた例えばキーワード等から、その内容が抽出される情報として相応しい事例をいい、同様に、負例とは、抽出される情報として相応しくない事例をいう。但し、この正例と負例は、あくまで与えられたキーワード等に対応付けて区別されたものであり、キーワード等の内容によっては、その対応付けは変更される。

正例を用意するためには、テキストデータに情報抽出規則を適用しても抽出できていない情報そのものを確認して探す必要がある。この確認作業を人手によって行えば、作業者に負担を強いることになる上に、コストも高くなる。

特許文献１には、格納手段、学習手段、問い合せ手段及び制御手段を備えた情報抽出装置が記載されている。格納手段は、少数の正例がタグ付けされたテキストデータの集合に関する情報を格納する。学習手段は、格納手段に格納された情報を参照しながら情報抽出規則を生成し、その情報抽出規則に従って、タグ付けされていないテキストデータの特徴からタグのカテゴリを確信度付きで推論する。問い合せ手段は、学習手段の推論結果が正しいか否かをユーザに問い合せ、そのユーザから回答を受け取る。制御手段は、回答に基づいて上記タグ付けされていないテキストデータに対するタグのカテゴリを決定し、決定されたカテゴリを含むタグ付けされていないテキストデータの情報を、上記正例がタグ付けされたテキストデータの集合に関する情報に追加する。

特許文献１に記載の情報抽出装置では、少数の正例を含むテキストデータからカテゴリを判定するための統計的基準を情報抽出規則として生成し、新たなテキストデータに対して情報抽出規則を適用することで新たな結果を抽出する。情報抽出装置は、次いで、各々の抽出結果の正否をユーザに問い合せ、回答結果に応じて個々の抽出結果を新たな事例として蓄積し、これら処理を繰り返す。その際、抽出結果に確信度が付与できる場合には、確信度が高い事例についてはユーザの確認なしに正例として採用し、確信度が低いもののみを抽出してユーザに問い合せることで新たな事例として採用するかどうかを決定する。

特許文献２には、データベース、パターン抽出部及び用語抽出部を備えた情報抽出装置が記載されている。データベースは、特定の用語である正例とテキストデータとを格納する。パターン抽出部は、正例をデータベースで全文検索し、検索結果である複数の事例の周辺に出現したパターンを抽出する。用語抽出部は、パターン抽出部で抽出したパターンでデータベースを全文検索し、そのパターンによって抽出される表現を抽出すると同時に、各表現に対するスコアを算出し、スコアの大きい順に各表現をソートする。このとき、用語抽出部は、パターンによって抽出される表現での入力正例の割合と、パターンが抽出した入力正例の個数を入力正例の個数で割った値とを掛けた値を用いて、各表現に対するスコアを算出している。

特許文献２には、情報抽出装置が、入力正例とテキストデータとから、テキストデータのパターンを情報抽出規則として抽出し、各情報抽出規則が抽出した抽出結果にスコア付けを行うこと、また、この抽出結果を用いてブートストラップの手法により正例を増やすことが記載されている。

特開２００２−２２２０８３号公報特開２００５−３２２１２０号公報

しかし、特許文献１，２に記載の情報抽出装置には、以下のような問題点があった。第１の問題点は、精度の高い情報抽出規則を生成するために、既知の事例にない新規事例（未知事例ともいう）の候補を適切に選出できないことである。その理由は、上記情報抽出装置では、既知の事例を抽出できるように、既知の事例に基づいて生成された情報抽出規則によって抽出を行うことにある。つまり、上記情報抽出装置では、新たな抽出対象に対する十分な考慮がなされていない。

特許文献１に記載の情報抽出装置では、正例がタグ付けされたテキストデータの集合から学習することで統計的な基準等を情報抽出規則として生成している。つまり、この情報抽出規則は、与えられた事例に基づいた機械学習による学習結果を用いて生成されている。このため、情報抽出装置では、未知事例に対して上記情報抽出規則を適用しても、推論が必ずしも常に正しいとは限らず、有効な推論ができない場合がある。

特許文献２に記載の情報抽出装置では、上記したスコアを用いて抽出結果を選定したとしても、悪い事例（負例）となる抽出結果を完全には取り除くことができない。このため、この情報抽出装置では、ブートストラップのステップを経る毎に負例が蓄積されてしまう可能性がある。さらに、スコアは、あくまでも情報抽出規則毎に算出されるものであり、個々の情報抽出規則によって得られた新規事例について優劣を適切に判定することができない。

第２の問題点は、精度の高い情報抽出規則を生成するために、新規事例の候補を判定する際のコスト（確認コスト）が大きいことである。例えば、新規事例の候補が大量にある場合には、その新規事例の候補についての確認コストが大きくなる。

特許文献１に記載の情報抽出装置では、抽出結果に確信度を出力できる機械学習手法を用いても、学習できなかったために確信度が低く判定される事例は大量にある。このため、当該事例をユーザに確認させる必要が生じる。さらに、この情報抽出装置では、有効な推論結果が得られない場合には、ユーザに問い合せるデータに不要なデータが大量に含まれることになる。その結果、この情報抽出装置では、新しい正例を選別するためにユーザの確認負担が増加し、確認コストが大きくなる。

特許文献２に記載の情報抽出装置では、スコアに従ってユーザに確認させる方法を用いることができるが、同一の情報抽出規則によってのみ得られた新規事例は全て同一のスコアとなる。このため、この情報抽出装置では、新規事例毎の有意差を十分に見分けることができず、特許文献１に記載の情報抽出装置と同様に、ユーザに大量の不要なデータを問い合せることになり、ユーザの確認負担が増加し、確認コストが大きくなる。

本発明は、精度の高い情報抽出規則を生成するために、既知の事例にない新規事例の候補を適切に選出できる情報抽出装置、情報抽出方法及び情報抽出プログラムを提供することを目的とする。

また、本発明は、精度の高い情報抽出規則を生成するために、既知の事例にない新規事例の候補を判定する確認コストを低減できる情報抽出システムを提供することを目的とする。

本発明は、情報抽出規則を用いて特定の情報を抽出する情報抽出装置であって、抽出対象のテキストデータから得られた抽出結果を基に、前記情報抽出規則では抽出できない新たな特定の情報の候補を新規事例候補として抽出する事例候補抽出手段と、前記新規事例候補に基づいて、抽出規則候補を複数生成する規則候補生成手段と、前記新規事例候補と前記抽出規則候補との間の派生関係、及び、複数の前記抽出規則候補間の重複関係を分析して、関係分析結果を生成する関係分析手段と、
前記関係分析結果と、予め用意された事例情報とに基づいて、前記新規事例候補の優先度を算出し、該優先度に従い前記新規事例候補を選別する事例候補選別手段と、を備えることを特徴とする情報抽出装置を提供する。

また、本発明は、通信回線を介してユーザ端末と接続され、情報抽出規則を用いて特定の情報を抽出する情報抽出装置を備える情報抽出システムであって、前記情報抽出装置は、抽出対象のテキストデータから得られた抽出結果を基に、前記情報抽出規則では抽出できない新たな特定の情報の候補を新規事例候補として抽出する事例候補抽出手段と、前記新規事例候補に基づいて、抽出規則候補を複数生成する規則候補生成手段と、前記新規事例候補と前記抽出規則候補との間の派生関係、及び、複数の前記抽出規則候補間の重複関係を分析して、関係分析結果を生成する関係分析手段と、
前記関係分析結果と、予め用意された事例情報とに基づいて、前記新規事例候補の優先度を算出し、該優先度に従い前記新規事例候補を選別する事例候補選別手段と、前記事例候補選別手段により選別された新規事例候補の正否の判定を前記ユーザ端末に問い合せ、前記ユーザ端末からの判定結果を前記事例候補選別手段に受け渡す事例候補問い合せ手段とを備え、前記事例候補選別手段は、前記事例候補問い合せ手段から受け渡された前記判定結果に基づいて、前記選別された新規事例候補の正否を決定することを特徴とする情報抽出システムを提供する。

さらに、本発明は、情報抽出規則を用いて特定の情報を抽出する情報抽出方法であって、抽出対象のテキストデータから得られた抽出結果を基に、前記情報抽出規則では抽出できない新たな特定の情報の候補を新規事例候補として抽出するステップと、前記新規事例候補に基づいて、抽出規則候補を複数生成するステップと、前記新規事例候補と前記抽出規則候補との間の派生関係、及び、複数の前記抽出規則候補間の重複関係を分析して、関係分析結果を生成するステップと、前記関係分析結果と、予め用意された事例情報とに基づいて、前記新規事例候補の優先度を算出し、該優先度に従い前記新規事例候補を選別するステップと、を備えることを特徴とする情報抽出方法を提供する。

本発明は、コンピュータを備え、情報抽出規則を用いて特定の情報を抽出する情報抽出装置のための情報抽出プログラムであって、前記コンピュータに、抽出対象のテキストデータから得られた抽出結果を基に、前記情報抽出規則では抽出できない新たな特定の情報の候補を新規事例候補として抽出する処理と、前記新規事例候補に基づいて、抽出規則候補を複数生成する処理と、
前記新規事例候補と前記抽出規則候補との間の派生関係、及び、複数の前記抽出規則候補間の重複関係を分析して、関係分析結果を生成する処理と、前記関係分析結果と、予め用意された事例情報とに基づいて、前記新規事例候補の優先度を算出し、該優先度に従い前記新規事例候補を選別する処理と、を実行させることを特徴とする情報抽出プログラムを提供する。

本発明の情報抽出装置、情報抽出方法及び情報抽出プログラムによると、情報抽出規則及びテキストデータから新規事例候補を抽出し、新規事例候補から情報抽出規則候補を複数生成して、新規事例候補と情報抽出規則候補との間の派生関係、及び、情報抽出規則候補間の重複関係を分析して得た関係分析結果と、事例情報とを用いて、新規事例候補毎の優先度を算出し、この優先度に従い新規事例候補の選別しているので、既知の事例にない新規事例の候補を適切に選出することができる。

本発明の情報抽出システムによると、事例候補問い合せ手段がユーザ端末に問い合せる新規事例候補は、既知の事例にない新規事例候補として抽出された上で、事例候補選別手段が、関係分析結果と事例情報とに基づいて各々の新規事例候補毎に算出した優先度に従い選別されたものである。このため、ユーザ端末には、適切に選出された新規事例候補のみが提示されることになり、ユーザ端末での正否の判定に要する確認コストを低減できる。

本発明の上記及び他の目的、特徴及び利益は、図面を参照する以下の説明により明らかになる。

本発明の第１の実施形態に係る情報抽出装置を示すブロック図。図１に示す情報抽出装置の動作を示すフローチャート。事例情報の一例を示す表。新規事例候補の一例を示す表。新規事例候補と生成された情報抽出規則候補との関連付けを示す表。情報抽出規則候補と抽出結果との対応関係を示す表。抽出結果の一例を示す線図。関係ネットワークを示す線図。図８に示す関係ネットワークの一部を示す表。新規事例候補と優先度との関係を示す表。本発明の第２の実施形態に係る情報抽出装置を含む情報抽出システムを示すブロック図。図１１に示す情報抽出システムの動作を示すフローチャート。問い合せ情報の一例を示す表。新規事例候補判定画面の内容の一例。

以下、図面を参照して本発明の実施形態について説明する。図面では、全図を通して同様な要素は同様な符号をつける。
（第１の実施形態）
図１は、本発明の第１の実施形態に係る情報抽出装置を示すブロック図である。情報抽出装置１０は、データ入力手段（ｕｎｉｔ）１１と、事例候補抽出手段１２と、情報抽出手段１３と、規則候補生成手段１４と、関係分析手段１５と、事例候補選別手段１６とを備える。情報抽出装置１０は、本構成により、抽出対象となる大量のテキストデータから特定の情報を抽出する際に適用される情報抽出規則の生成に用いられる事例の選出を行う。

情報抽出装置１０は、例えば、上記各手段１１〜１６として機能する図示しない中央演算処理装置（ＣＰＵ）を有するコンピュータを用いて構成されている。また、情報抽出装置１０は、各手段１１〜１６としての処理を中央演算処理装置に実行させるプログラムを任意の記録媒体に記憶しておき、このプログラムをコンピュータの主記憶等に読み込ませ、読み込まれたプログラムを中央演算処理装置が実行することで実現される。さらに、入力するデータや出力する各種情報は、主記憶に記憶されるが、別途磁気ディスク記憶装置等に格納しておき、読み込むように構成してもよい。なお、上記各手段１１〜１６は、専用のハードウェアで構成してもよい。

以下、説明の便宜上、各手段１１〜１６の機能を概略的に説明する。データ入力手段１１は、情報抽出規則、事例情報及びテキストデータを入力として受け付ける。なお、入力されるデータのデータ量が多い場合には、適宜の記憶装置に格納しておき、データ入力手段１１が、必要なときに読み出して参照するようにしてもよい。事例候補抽出手段１２は、データ入力手段１１から入力された情報抽出規則及びテキストデータを情報抽出手段１３に渡し、情報抽出手段１３がテキストデータに対して情報抽出規則を適用して得た抽出結果を受け取る。事例候補抽出手段１２は、この抽出結果の情報に基づいて、当該抽出結果とは異なる新規事例候補をテキストデータから複数抽出する。

規則候補生成手段１４は、事例候補抽出手段１２で抽出した新規事例候補から、複数の情報抽出規則候補を生成する。関係分析手段１５は、新規事例候補と情報抽出規則候補との間の派生関係、及び、個々の情報抽出規則候補の抽出結果間での重複（包含）関係を分析する。事例候補選別手段１６は、関係分析手段１５による関係の分析結果と事例情報とに基づいて、新規事例候補について優先度を算出し、新規事例候補の選別を行い、その結果を出力する。なお、ここでは、事例情報はデータベース２０Ａに格納されており、また、情報抽出規則はデータベース４０Ａに格納されている。データベース４０Ａは、例えば、テキストデータがデータ入力手段１１に入力されると、事例候補抽出手段１２からアクセスされ、格納されている情報抽出規則が参照される。また、データベース２０Ａは、例えば、優先度を算出する際に、事例候補選別手段１６からアクセスされ、格納されている事例情報が参照される。

次に、図２に示すフローチャートを参照して、情報抽出装置１０の動作を説明する。データ入力手段１１は、情報抽出規則、事例情報及びテキストデータを入力として受け付け、これらの入力データを事例候補抽出手段１２に与える（ステップＡ１）。

次いで、ステップＡ２では、まず、事例候補抽出手段１２は、データ入力手段１１が受け付けた情報抽出規則及びテキストデータを情報抽出手段１３に渡し、情報抽出手段１３がテキストデータに対して情報抽出規則を適用して得た抽出結果を、情報抽出手段１３から受け取る。次に、事例候補抽出手段１２は、受け取った抽出結果に基づいて抽出条件を生成する。続いて、事例候補抽出手段１２は、抽出条件が該当する箇所をテキストデータから抽出し、受け取った抽出結果とは異なる情報を新規事例候補として複数抽出する。

次に、事例候補抽出手段１２は新規事例候補が抽出できたか否かを判定する。抽出できない場合にはプロセスを終了し（ステップＡ３，Ｎ）、抽出できた場合にはステップＡ４に進む（ステップＡ３，Ｙ）。規則候補生成手段１４は、事例候補抽出手段１２より抽出した新規事例候補から、複数の情報抽出規則候補を生成する（ステップＡ４）。

ステップＡ５では、まず、規則候補生成手段１４は、生成した情報抽出規則候補を情報抽出手段１３に渡す。情報抽出手段１３は、規則候補生成手段１４で生成した情報抽出規則候補をテキストデータに適用して抽出結果を得て、関係分析手段１５に渡す。

次にステップＡ６について説明する。まず、関係分析手段１５は、新規事例候補と情報抽出規則候補との間の派生関係、及び、個々の情報抽出規則候補の抽出結果間での重複関係を分析し、新規事例候補と情報抽出規則候補とをノードとし、それらの間の関係をリンクとして結んだ関係ネットワークを生成する。次に、関係分析手段１５は、情報抽出規則候補の各ノードに、その情報抽出規則候補が抽出した抽出結果や事例情報を関連付けて、関係ネットワーク情報とし、それを事例候補選別手段１６に渡す（ステップＡ６）。ここで、関係分析手段１５は、ステップＡ５で得られた個々の情報抽出規則候補の抽出結果間に重複関係がある場合に、当該情報抽出規則候補間は「関係あり」と判定し、リンク付けする。

次に、事例候補選別手段１６は、関係分析手段１５による関係分析結果の関係ネットワーク情報と、事例情報とを用いて、新規事例候補の優先度を算出する（ステップＡ７）。続いて、事例候補選別手段１６は、優先度に基づいて、選出すべき事例か否かを判定して、新規事例候補の選別を行い、その結果を出力する（ステップＡ８）。

上記優先度は、新規事例候補から派生した情報抽出規則候補の集合から、事例情報を用いて不要と判定される情報抽出規則候補を除いた集合に対して、関係ネットワークのリンクを辿り、到達可能な所定範囲の情報抽出規則候補の数、情報抽出規則候補が抽出した正例の抽出数、最長リンク経由数等を基準として算出する。なお、関係ネットワークのリンクを辿って到達可能な所定範囲としては、事例情報の負例を含まない抽出結果を得た情報抽出規則候補まで辿れる範囲、情報抽出規則候補が抽出した抽出結果のうち負例の割合が一定以下の情報抽出規則候補が存在する範囲、及び、一定のパス数の範囲等を用いればよい。

以下、図３〜図１０を参照して、情報抽出装置１０の動作をより具体的に説明する。データ入力手段１１は、入力された情報抽出規則、事例情報（図３参照）、及びテキストデータを受け取り、事例候補抽出手段１２に渡す（ステップＡ１）。テキストデータは、抽出対象となるデータであって、例えば、各種文書やＷｅｂから取得したＨＴＭＬデータ、電子メール等のテキストデータを含むデータであればよく、また、必要に応じて不要な記号等を削除、文単位に整形する等の処理を行った後のデータを用いてもよい。

情報抽出規則は、抽出対象となるテキストデータから特定の情報を抽出する際に適応される既存の抽出規則であって、例えば、文字列や文字種、形態素情報、係り受け関係情報等のパターン条件と、情報の種類を示す形式とが規則として示されている。さらに、情報抽出規則は、これに限定されず、例えば、ある形態素の後置に「株式会社」という文字列があれば、その形態素を「企業名」とするような規則を「ＩＦ（パターン条件）ＴＨＥＮ（挙動）」のような形式で、パターン条件と挙動とを示して記述する等、種々の形式を採ることが可能である。また、上記した情報抽出手段１３は、これらの各種形式を解釈し、適用できるように構成されている。

図３は、事例情報の一例を示す表である。事例情報２０は、ユーザ等から与えられるキーワード等に対応して予め用意されており、図示のように、個々の事例を示す事例ＩＤ２１毎に関連付けられた、種類２２、事例内容２３及び正否を示す正否情報２４を含む。正否情報２４は、キーワード等に対応して、その事例内容２３が抽出される情報として相応しいか否かを示す情報であって、「○」であればその事例情報２０が正例であることを示し、「×」であれば負例であることを示している。ここで、事例情報２０に負例が含まれているのは、あるキーワードに対して負例を選ばない、という判定を行えば、結果的に正例が選ばれる可能性が高くなるからである。

次に、ステップＡ２の処理について説明する。事例候補抽出手段１２は、データ入力手段１１で受け付けられた情報抽出規則及びテキストデータを情報抽出手段１３に渡し、情報抽出手段１３がテキストデータに対して情報抽出規則を適用して得た抽出結果を、情報抽出手段１３より受け取る。事例候補抽出手段１２は、受け取った抽出結果に基づいて、テキストデータから新規事例候補を見つける（検索する）ための抽出条件を生成する。

抽出条件は、例えば、受け取った抽出結果の内容を用いて生成される。つまり、あるテキストデータ中の特定箇所の文字列であり、かつ、事例情報２０の事例内容２３の文字列とは異なる情報を抽出条件とすればよい。一例としては、抽出対象とするテキストデータが「ＡＡ電気が新製品を発表した」であり、このテキストデータに、ある情報抽出規則を適用して、先頭から「ＡＡ電気」という文字列が抽出結果として得られた場合、当該文字列が事例情報２０に含まれていなければ、この文字列が抽出条件となる。図３に対応させると、事例内容２３には、複数の文字列「ＢＢ電気、ＣＣ会社、ＤＤＤ、ＥＥＥ」が示されているが、上記文字列「ＡＡ電気」は含まれていないので、この文字列が抽出条件となる。

但し、これに限定されず、テキストデータに対する形態素解析結果を用いて、当該文字列が該当する１つ又は複数の形態素が持つ品詞や読み、原型文字列、シソーラス情報等の属性値の組み合わせを抽出条件としてもよい。例えば、上記「ＡＡ電気」という文字列が１つの形態素として解析されたときに、当該形態素の品詞が「固有名詞」や「組織」を示すものであれば、その品詞の属性値を抽出条件として用いればよい。また、その他任意の属性値の組み合わせを抽出条件として用いてもよく、さらに、抽出結果を構文解析した結果と関連付けておき、抽出結果内容の文字列が該当する構文解析結果の要素が持つ属性値やそれら属性値の組み合わせを抽出条件としてもよい。

次に、事例候補抽出手段１２は、抽出条件が該当する箇所を大量のテキストデータから抽出し、新規事例候補（図４参照）を複数抽出する。ここで、事例候補抽出手段１２では、テキストデータに対して、厳密に抽出条件が該当する箇所を抽出するのではなく、抽出条件と類似する情報をテキストデータより抽出して、見つかった箇所を新規事例候補としてもよい。一例として、抽出条件をある文字列としたときに、抽出条件の文字列とテキストデータ中の文字列との編集距離が近い、又は一定距離以下の文字列を新規事例候補とすればよい。なお、編集距離は、既存の方法で算出可能であり、説明を省略する。

ここで、事例候補抽出手段１２は、抽出結果とは異なる情報、つまり、既に入力された既存の情報抽出規則を適用しても抽出できない情報を新規事例候補とすることが望ましい。この理由は、抽出結果と同じ情報を新規事例候補としても、情報抽出規則の精度を高めることにはならないためである。また、事例候補抽出手段１２は、抽出条件や抽出条件と類似する情報が該当する箇所であっても、予め相応しくないと分かっている情報、即ち負例と一致する該当箇所を新規事例候補から除外することが望ましい。この理由は、新規事例候補に負例を含めてしまうと、情報抽出規則の精度を高めることにはならないからである。なお、事例候補抽出手段１２が、形態素解析結果の一部や構文解析結果に基づいて抽出条件を生成した場合には、テキストデータと形態素解析結果や構文解析結果とを関連付けることにより、テキストデータ中の抽出条件が該当する箇所を抽出できる。

図４は、新規事例候補の情報の一例を示す表である。新規事例候補３０は、図示のように、新規事例候補３０の識別子である新規事例候補ＩＤ３１に関連付けられた、新規事例候補の種類３２、内容３３、テキストデータ中のどの位置かを示す位置情報３４、及びテキストデータ３５を含む。ここで、新規事例候補３０の内容３３としては、文字列「ＸＸエレクトロニクス、ＡＡ電気、ＥＥＥ」が示されており、抽出条件に該当する文字列「ＡＡ電気」が含まれている。ここで、新規事例候補３０の内容３３を含むテキストデータ３５は、情報抽出規則候補を生成する際に用いられるので、新規事例候補ＩＤ３１に関連付けられている。次に、事例候補抽出手段１２は、これらの新規事例候補３０の情報を、規則候補生成手段１４に渡す。なお、上記ステップＡ２では、新規事例候補３０が抽出されたので（ステップＡ３，Ｙ）、プロセスはステップＡ４に進む。

次に、ステップＡ４の処理について説明する。規則候補生成手段１４は、事例候補抽出手段１２より抽出した新規事例候補から、複数の情報抽出規則候補を生成する。規則候補生成手段１４は、例えば、テキストデータを既存の言語解析技術によって、新規事例候補の対応するテキストデータに対して、形態素解析、構文解析、意味解析等の解析処理を行い、解析処理の結果から得られる様々なパターンの組み合わせを用いて、既存の各種形式で複数の情報抽出規則候補を生成する。この際、新規事例候補と生成された情報抽出規則候補とは、図５に示すように関連付けられる。

図５は、新規事例候補と生成された情報抽出規則候補とを関連付けた例を示す表である。ここでは、情報抽出規則候補４０の情報として、特定の情報抽出規則候補４０を示す識別子である情報抽出規則候補ＩＤ４１に関連付けられた、抽出規則内容４２、特定の情報抽出規則候補４０が生成される際に用いられた新規事例候補３０の新規事例候補ＩＤ３１及び種類３２（図４参照）がテーブル形式で示されている。但し、これに限定されず、他の形式で示しても構わない。

上記のように、新規事例候補ＩＤ３１が示す新規事例候補３０と、情報抽出規則候補ＩＤ４１とが関連付けられているので、規則候補生成手段１４が、情報抽出規則候補４０を生成する際に用いた新規事例候補３０が明らかになる。一例として、新規事例候補ＩＤ３１が「Ｎ２１」である新規事例候補３０には、情報抽出規則候補ＩＤ４１が「Ｒ２１」，「Ｒ２４」である複数の情報抽出規則候補４０が関連付けられている。つまり、この関連付けによって、情報抽出規則候補４０が何れの新規事例候補３０から生成されたかを示す派生関係が示されることになる。なお、この派生関係は、関係分析手段１５が関係ネットワーク情報（図９参照）を生成するとき、新規事例候補３０と情報抽出規則候補４０との間をリンク付けするために用いられる。

次に、ステップＡ５の処理について説明する。規則候補生成手段１４は、生成した情報抽出規則候補を情報抽出手段１３に渡す。情報抽出手段１３は、情報抽出規則候補をテキストデータに適用して、個々の情報抽出規則候補毎に抽出結果を得る。

図６は、情報抽出規則候補と抽出結果との対応関係を示す表である。ここでは、対応関係を示す情報５０として、情報抽出規則候補ＩＤ４１に関連付けられた、抽出した個々の抽出結果を識別する抽出結果ＩＤ５１、及び抽出結果の種類５２が示されている。なお、情報抽出規則候補４０は、例えば、情報抽出規則候補ＩＤ４１が大きい値のもの程、条件が一般的なものとなり、抽出結果の数が多くなり、また、情報抽出規則候補ＩＤ４１が小さい値のもの程、条件が特殊なものとなり、抽出結果の数が少なくなる。一例として、情報抽出規則候補ＩＤ４１が「Ｒ１１」である情報抽出規則候補４０をテキストデータに適用して得られた抽出結果は、抽出結果ＩＤ５１に示す「ＥＸ１１」のみである。これに対して、情報抽出規則候補ＩＤ４１が「Ｒ１５」である情報抽出規則候補を適用して得られた抽出結果は、「ＥＸ１１，・・・，ＥＸ１３，・・・」となり、複数となった。また、これらの抽出結果の種類５２は「企業名」であることが理解できる。

さらに、情報抽出規則候補ＩＤ４１と抽出結果ＩＤ５１とを関連付けることによって、一方の情報抽出規則候補４０による抽出結果が、他方の情報抽出規則候補４０による抽出結果に含まれたかを示す、複数の情報抽出規則候補間の包含関係や、一方の抽出結果と他方の抽出結果とが重複しているかを示す重複関係が示されることになる。なお、この重複関係は、関係分析手段１５が関係ネットワーク情報（図９参照）を生成するとき、複数の情報抽出規則候補間をリンク付けするために用いられる。

図７は、図６に示した抽出結果ＩＤに対応する抽出結果の内容と位置情報との関連付けを示す表である。ここでは、これらの関連付けを示す情報５５として、抽出結果ＩＤ５１に関連付けられた、抽出結果内容５３及び位置情報５４が示されている。なお、位置情報５４は、どのテキストデータのどの位置から抽出されたかを示す情報であって、テキストデータを文書単位で管理する場合には、例えば、どの文書かを示す文書ＩＤとある文書ＩＤ内の位置を先頭からのオフセット値等で示すようにすればよい。また、別の例として、ある文書内を文単位に管理し、文書ＩＤで示される文書内のどの文かを示す文ＩＤと文ＩＤ内のオフセット値で示すようにしてもよい。さらに、この他にも、抽出結果内容と位置情報の代わりとして、テキストデータ中にテキストデータと抽出結果とを識別可能なタグを挿入して、抽出結果ＩＤ５１や種類５２の情報と関連付けるようにしてもよい。

次に、ステップＡ６の処理について説明する。関係分析手段１５は、図５に示される新規事例候補３０と情報抽出規則候補４０との間の派生関係を分析し、さらに、図６に示される個々の情報抽出規則候補４０の抽出結果間での重複関係を分析する。続いて、関係分析手段１５は、新規事例候補３０と情報抽出規則候補４０をそれぞれノードとし、それらの間の派生関係及び重複関係に基づいてリンク付けして得られる、図８に示す関係ネットワーク６０を生成し、関係ネットワーク情報として事例候補選別手段１６に渡す。

図８は、関係ネットワークの一例を示す線図である。図中丸で囲まれたノードが、不図示の新規事例候補から派生して生成された情報抽出規則候補４０であり、ここでは情報抽出規則候補ＩＤ４１が示されている。さらに、情報抽出規則候補４０のノード間は、両者の抽出結果に重複関係がある場合に「関係あり」として有向リンク（以下、単にリンクという）が張られている。

但し、個々の情報抽出規則候補４０間の抽出結果の関係としては重複関係ではなく包含関係のみを用いてもよい。一例として、図６の情報抽出規則候補ＩＤ４１が「Ｒ１１」の情報抽出規則候補４０による抽出結果と、情報抽出規則候補ＩＤ４１が「Ｒ１２」の情報抽出規則候補４０による抽出結果とを比較する。この場合、「Ｒ１１」では抽出結果ＩＤ５１が「ＥＸ１１」の抽出結果を得ており、「Ｒ１２」では抽出結果ＩＤ５１が「ＥＸ１１，ＥＸ１２」の抽出結果を得ている。このため、「Ｒ１２」の情報抽出規則候補４０による抽出結果が、「Ｒ１１」の情報抽出規則候補４０による抽出結果を包含していることになる。そこで、関係分析手段１５は、この包含関係に基づいて、この情報抽出規則候補４０間にリンクを生成する。但し、これに限定されず、情報抽出規則候補４０間の重複度合いが低いものは関係性が低いので、リンクを張らず、一定以上の重複度合いを有する場合にのみリンクを張るようにしてもよい。なお、関係ネットワーク情報は、このようなノードとリンクを示す情報として適宜生成すればよい。

次に、ステップＡ７及びＡ８の処理について説明する。事例候補選別手段１６は、関係分析手段１５での関係分析結果により得られた関係ネットワーク情報と事例情報２０とを用いて新規事例候補について優先度を算出する。ここでは、前提として、企業名の抽出を行う場合に、図８に示した関係ネットワーク６０が得られた場合を想定する。この際、事例候補選別手段１６は、図６及び図７で示す抽出結果に関する情報５０，５５と、図３で示す事例情報２０とを比較して、ある情報抽出規則候補４０の抽出結果の内容５３が不適切な種類の抽出結果（例えば、「企業名」ではない内容５３）を含む場合や、負例を抽出結果（正否情報２４が「×」）に含む場合には、この情報抽出規則候補４０を不要と判定する。但し、事例候補選別手段１６は、優先度を算出する際に用いられる情報抽出規則候補４０の数を減らさないために、ある情報抽出規則候補４０が、負例となる抽出結果を全く含まない場合に限らず、例えば、全ての抽出結果に対する、負例となる抽出結果の割合が一定以下である場合も、不要と判定しないことも可能である。

図９は、図８に示す関係ネットワークの一部を示す線図である。ここでは、一例として、新規事例候補ＩＤ「Ｎ２０」と「Ｎ２１」で示される新規事例候補３０から派生した複数の情報抽出規則候補４０からなる第１の集合としての関係ネットワーク６１を示している。図９において実線で示されるリンクが、重複関係がある場合に「関係あり」として生成された有向リンクである。また、図９において破線で示されるリンクが、新規事例候補３０と情報抽出規則候補４０との間の派生関係がある場合に生成されたリンクである。例えば、図５に示される新規事例候補３０と情報抽出規則候補４０との間の関係から、新規事例候補ＩＤ３１「Ｎ２０」から情報抽出規則候補ＩＤ４１「Ｒ１１」が生成され派生関係にあることが分かり、図９において、新規事例候補ＩＤ３１「Ｎ２０」から情報抽出規則候補ＩＤ４１「Ｒ１１」が破線で示されるリンクで結ばれている。ここでは、関係ネットワーク６１に含まれている情報抽出規則候補ＩＤ４１が「Ｒ１５」の情報抽出規則候補４０をテキストデータに適用して得られる抽出結果は、抽出結果ＩＤ５１が「ＥＸ１３」を含んでいる。この「ＥＸ１３」の抽出結果内容５３は、図７に示すように「ＤＤＤ」であり、これは、図３に示す事例ＩＤ２１が「Ｓ１３」であり、正否情報２４によって負例とされた事例内容２３と一致している。即ち、情報抽出規則候補ＩＤ４１が「Ｒ１５」である情報抽出規則候補４０は、不要と判定されることになる。さらに前提として、情報抽出規則候補ＩＤ４１が「Ｒ１６」、「Ｒ２２」である情報抽出規則候補４０も、抽出結果に負例とされた事例内容２３を含んでいると仮定している。

この場合には、新規事例候補ＩＤ３１が「Ｎ２０」の新規事例候補３０は、情報抽出規則候補ＩＤ４１が「Ｒ１１」及び「Ｒ１２」、「Ｒ１３」、「Ｒ１４」の情報抽出規則候補４０を派生して展開できる。しかし、新規事例候補ＩＤ３１が「Ｎ２１」の新規事例候補３０は、情報抽出規則候補ＩＤ４１が「Ｒ２１」と「Ｒ２３」の情報抽出規則候補４０以外は派生して展開しないことになる。即ち、事例候補選別手段１６は、関係ネットワーク６１を辿って、抽出結果に負例とされた事例内容２３を含んでいる情報抽出規則候補４０を見つけたら、それ以降のリンクを辿らないことになる。なお、辿る必要のないリンクには、図中、×印を付している。

上記のようにして、事例候補選別手段１６は、第１の集合としての関係ネットワーク６１に含まれる複数の情報抽出規則候補４０から、事例情報２０の正否情報２４により負例を含み、不要と判定される情報抽出規則候補４０を除外した第２の集合６２を生成し、この第２の集合６２を用いて、優先度を算出する。

優先度は、例えば、第２の集合６２に含まれる派生の情報抽出規則候補４０の数、ある新規事例候補３０から派生した不要以外の情報抽出規則候補４０が抽出するユニークな抽出結果の合計数、情報抽出規則候補４０全てが抽出するユニークな抽出結果の数、新規事例候補３０のノードから情報抽出規則候補４０の最長のリンク経由数から算出される。優先度は、例えば、これらの数にそれぞれ重み付けして乗算した数等を用いて算出することができる。なお、ユニークな抽出結果とは、ある情報抽出規則候補と他の情報抽出規則候補とからそれぞれ抽出された抽出結果を比較して、ある情報抽出規則候補からのみ抽出される抽出結果をいう。

以下、優先度を具体的に説明する。第２の集合６２に含まれる情報抽出規則候補４０の数を優先度として用いる場合には、図９に示すように、新規事例候補ＩＤ「Ｎ２０」の新規事例候補が優先度「４」、新規事例候補ＩＤ「Ｎ２１」の新規事例候補が優先度「２」と算出される。また、ある新規事例候補３０から派生した不要以外の情報抽出規則候補４０が抽出するユニークな抽出結果の合計数を優先度として用いることが出来る。この場合には、図９に示すように、包含関係を示すリンクを辿ることで、情報抽出規則候補ＩＤ「Ｒ１４」の情報抽出規則候補の抽出結果数が、「Ｒ１１」、「Ｒ１２」、「Ｒ１３」の抽出結果を含んでいることが分かる。このため、「Ｒ１４」の抽出結果数を新規事例候補ＩＤ「Ｎ２０」の優先度とし、同様に、「Ｒ２３」の抽出結果数を新規事例候補ＩＤ「Ｎ２１」の優先度として算出できる。

さらに、新規事例候補３０のノードから情報抽出規則候補４０の最長のリンク経由数を優先度として用いると仮定する。この場合には、図９に示すように、関係ネットワークのノード間のリンクを辿ることで、新規事例候補ＩＤ「Ｎ２０」のノードから情報抽出規則候補ＩＤ「Ｒ１４」のノードまでのリンク経由数「３」を新規事例候補ＩＤ「Ｎ２０」の優先度として算出する。また、新規事例候補ＩＤ「Ｎ２１」のノードから情報抽出規則候補ＩＤ「Ｒ２３」のノードまでのリンク経由数「２」を新規事例候補ＩＤ「Ｎ２１」の優先度として算出できる。なお、上記各優先度は、最大値等の値で割って正規化する等、基準を揃えた後の値として構わない。図１０は、新規事例候補と優先度との対応関係を示している。ここでは、これらの対応関係を示す情報７０として、新規事例候補ＩＤ３１毎に、０から１の間で正規化した優先度を示す値７１が示されている。

本実施形態の情報抽出装置１０によれば、データ入力手段１１に入力された情報抽出規則、事例情報２０及びテキストデータから、情報抽出規則が抽出せず入力された事例情報に含まれない新規事例候補３０を抽出した上で、新規事例候補３０から情報抽出規則候補４０を生成する。次いで、新規事例候補３０及び情報抽出規則候補４０の相互の関係を分析して関係ネットワーク６０を生成し、関係ネットワーク情報と事例情報２０とから新規事例候補３０の優先度を算出する。更に、この優先度に従って新規事例候補３０の選別を行う。このようにして、新規事例候補を適切に選出することができる。

（第２の実施形態）
図１１は、本発明の第２の実施形態に係る情報抽出装置を含む情報抽出システムの一例を示すブロック図である。以下では、第１の実施形態の情報抽出装置１０と同様な機能を有し、説明が重複する部分については適宜省略する。情報抽出システム１００は、ユーザ端末９０と、通信回線を介してユーザ端末９０と接続される情報抽出装置１０Ａとを備える。情報抽出装置１０Ａは、第１の実施形態の情報抽出装置１０と比べると、事例候補問い合せ手段１７が追加された点が主に異なる。ここでは、コンピュータの中央演算処理装置が事例候補問い合せ手段１７としても機能している。

事例候補問い合せ手段１７は、事例候補選別手段１６Ａによって判定された新規事例候補の優先度に従い、問い合せすべき新規事例候補を抽出し、抽出した新規事例候補を含む問い合せ情報を生成し、生成した問い合せ情報をユーザ端末９０に送信する。ユーザ端末９０は、適宜の表示手段及び入力手段を含む装置であって、例えば、問い合せ情報から抽出された新規事例候補を提示し、ユーザによる正否の判定結果の入力を受けて、その判定結果を事例候補問い合せ手段１７に送信する。正否の判定結果の入力を受信した事例候補問い合せ手段１７は、判定結果を事例候補選別手段１６Ａに送る。事例候補選別手段１６Ａは、抽出した新規事例候補の判定結果と上記関係ネットワーク情報とを用いて、更に他の新規事例候補について判定可能であれば、正否の推定を行い、最終結果を出力する。

次に、図１２に示すフローチャートを参照して、情報抽出装置１０Ａを含む情報抽出システム１００の動作について説明する。但し、図中、ステップＢ１〜Ｂ７で示される各処理は、図２に示したステップＡ１〜Ａ７と同一であるので、以下、ステップＢ１〜Ｂ７の説明を省略しステップＢ８〜Ｂ１０について説明する。第１の実施形態の情報抽出装置１０では、事例候補選別手段１６が関係ネットワーク情報と事例情報とを用いて、新規事例候補について優先度を算出していた。これに対して、本実施形態の情報抽出装置１０Ａでは、ステップＢ７で各新規事例候補の優先度を算出した後、さらに、事例候補問い合せ手段１７が優先度に基づいてユーザに問い合せるべき新規事例候補を選出し、問い合せを行う（ステップＢ８）。

事例候補問い合せ手段１７は、選出した新規事例候補について問い合せ情報を生成して、ユーザ端末９０で提示し、その正否についての判定結果をユーザ端末９０から受け取って、事例候補選別手段１６Ａに渡す。事例候補選別手段１６Ａは、受け取った判定結果と関係ネットワーク情報とに基づいて、更に他の新規事例候補が判定できれば推定を行い、選別する（ステップＢ９）。ステップＢ９の後、未判定の新規事例候補が残っている等の終了条件を満たしているか否かを判定し（ステップＢ１０）、満たしている場合に終了とし（ステップＢ１０，Ｙ）、未判定の新規事例候補が残されている場合には（ステップＢ１０，Ｎ）、再びステップＢ８に戻り、上記処理を繰返す。

以下、図１３及び図１４を参照して、情報抽出装置１０Ａを含む情報抽出システム１００の動作をより具体的に説明する。ステップＢ８では、事例候補問い合せ手段１７は、事例候補選別手段１６Ａによって判定された新規事例候補の優先度を用いて、問い合せすべき新規事例候補を抽出し、抽出した新規事例候補を含む問い合せ情報を生成し、生成した問い合せ情報をユーザ端末９０に送信する。ここで、問い合せすべき新規事例候補を抽出するには、例えば、優先度が低い新規事例候補を除外するために、優先度が所定の値よりも高い新規事例候補を抽出すればよいが、これに限定されず、優先度が高い順に所定の数や所定の割合の数の新規事例候補を抽出してもよい。更に、優先度が高い場合には採用される可能性が高く、優先度が低い場合には棄却される可能性が高いことを考慮して、自動的に新規事例として採用するのが困難なものを優先する場合には、例えば、優先度が所定の値の範囲内にある新規事例候補を抽出するようにしてもよい。

ユーザ端末９０に送信する問い合せ情報は、少なくとも１つ以上の新規事例候補を含めばよい。また、ユーザ端末９０での提示回数を減らすために、問い合せ情報は、まとめて複数の新規事例候補を含むようにしてもよい。さらに、問い合せ情報には、確認を支援する補足情報として、各新規事例候補毎に算出した優先度や、新規事例候補が抽出される元となったテキストデータとその位置情報や、どのような種類の情報であるかを示す種類等の情報を含めるようにしてもよい。図１３は、問い合せ情報の一例を示す表である。ここで、問い合せ情報１１０は、新規事例候補ＩＤ１１１に関連付けられた、優先度１１２、種類１１３、新規事例候補内容１１４、テキストデータ１１６及びその位置情報１１５を含む。

ユーザ端末９０は、キーボードやマウス等の入力手段とディスプレイ等の出力手段とを少なくとも備えているのであれば、パーソナルコンピュータ等であっても構わない。ユーザ端末９０は、事例候補問い合せ手段１７より受け取った問い合せ情報１１０から新規事例候補を提示し、正否の判定結果の入力を受け付ける。

図１４は、新規事例候補の提示の一例を示す画面上の表示を示している。ユーザ端末９０には、図示のように、新規事例候補判定画面１２０が表示される。新規事例候補判定画面１２０は、新規事例候補ＩＤ１１１毎に関連付けられた、正否の判定結果を入力可能なチェックボックス１２１、新規事例候補の情報１２２、補足情報である優先度１１２及び種類１１３等が表示されている。また、新規事例候補判定画面１２０には、ユーザに正否の判定を促すためのメッセージ文１２３が表示されている。なお、新規事例候補の情報１２２には、斜字や下線等で示されている新規事例候補内容１１４が抽出される元となったテキストデータを示している。

ユーザ端末９０は、図１４に示すように、新規事例候補ＩＤ１１１毎に正否の判定結果をチェックボックス１２１での選択により受け付け、判定完了ボタン１２４で入力を受け付けると、新規事例候補ＩＤ１１１と対応する正否の判定結果を、事例候補問い合せ手段１７に送信する。

次に、ステップＢ９，Ｂ１０の処理について説明する。事例候補問い合せ手段１７は、新規事例候補ＩＤ１１１と対応する正否の判定結果を受信すると、この正否の判定結果を事例候補選別手段１６Ａに受け渡す。事例候補選別手段１６Ａは、受け渡された新規事例候補ＩＤ１１１と対応する正否の判定結果と、関係ネットワーク情報とを用いて、更に他の新規事例候補について判定可能であれば、正否の推定を行って、最終結果を出力する。

本実施形態の情報抽出装置１０Ａを含む情報抽出システム１００によれば、関係ネットワークに基づいて算出した優先度を用いて、ユーザに問い合せるべき新規事例候補が選出されているので、適切に選出された新規事例候補のみがユーザ端末９０に提示される。その結果、ユーザは、全ての新規事例候補を確認する必要がなく、確認コストを低減できる。

上記各実施形態の情報抽出装置１０，１０Ａでは、事例候補選別手段１６，１６Ａが適切な新規事例候補を選別した後、即ちステップＡ８，Ｂ９以降の処理で、選別された新規事例候補を例えば所定の閾値で更に判定し、最適又は上位とされる新規事例候補をステップＡ１，Ｂ１での事例情報としてデータ入力手段１１に入力してもよい。これと共に、または、これに代えて、選別された上記新規事例候補に対して既存の言語解析技術を適用して新たな情報抽出規則を生成し、この生成された新たな情報抽出規則をステップＡ１，Ｂ１でデータ入力手段１１に入力してもよい。このようにステップＡ８，Ｂ９以降の処理で得た結果を、ステップＡ１，Ｂ１の処理に反映させることで、情報抽出装置１０，１０Ａから選出される新規事例候補の精度をより高めることができる。

上記各実施形態の情報抽出装置１０，１０Ａ及び情報抽出システム１００は、抽出対象となるテキストデータから特定の情報を抽出するための情報抽出規則の生成に用いられる事例の選出を行う装置に限定されない。例えば、抽出した新規事例を用いて新たな情報抽出規則を低コストで生成する情報抽出規則作成装置、上記情報抽出装置を用いて構成される情報推薦装置、特定の情報を見つけるための情報検索装置等、他の用途にも適用可能である。

本発明の情報抽出装置では、以下の態様の採用が可能である。
事例候補抽出手段は、抽出結果に基づいて、テキストデータから新規事例候補を抽出するための抽出条件を生成する。この場合には、抽出条件を、例えば、テキストデータから抽出される情報であって、予め用意された事例情報には含まれていない情報として生成することもできる。

抽出条件は、抽出結果として得られた文字列が該当する１つ又は複数の形態素が持つ属性値、又はその属性値の組み合わせである。この場合には、単にテキストデータの文字列だけでなく、その文字列に対して形態素解析を行うことで得られる、品詞、読み、原型文字列、シソーラス情報等も抽出条件として用いることができる。

事例情報は、その内容が抽出される情報として相応しいか否かを示す正否情報を含み、事例候補抽出手段は、テキストデータの該当箇所が、正否情報が否である事例情報と一致するとき、該当箇所を、新規事例候補から除外する。このようにすれば、抽出条件で抽出されたとしても、いわゆる負例と一致する該当箇所を、新規事例候補から除外するので、規則候補生成手段で生成される抽出規則候補の精度を高めることができる。

規則候補生成手段は、生成された抽出規則候補毎に、新規事例候補を関連付けて、派生関係を生成する。この場合には、抽出規則候補が何れの新規事例候補から生成されたかを示すことができる。

重複関係は、一方の抽出規則候補による抽出結果の少なくとも一部が他方の抽出規則候補による抽出結果を含むか否かを示す関係である。規則候補生成手段から受け渡された抽出規則候補に従ってテキストデータから抽出した抽出結果を、抽出規則候補毎に関連付けて、重複関係を生成する情報抽出手段を更に備える。この場合には、一方の抽出規則候補による抽出結果が他方の抽出規則候補による抽出結果に含まれたか否かを示す包含関係も重複関係の一つとして示すことができる。

関係分析手段は、派生関係を満たす新規事例候補と抽出規則候補との間、及び、重複関係を満たす抽出規則候補の間をリンクさせた関係ネットワーク情報を生成する。これにより、関係ネットワーク情報には、派生関係、包含関係や重複関係が反映されることになる。

関係ネットワーク情報は、派生関係及び重複関係を満たす複数の抽出規則候補からなる第１の集合を含む。事例候補選別手段は、第１の集合に含まれる複数の抽出規則候補から、情報抽出手段で抽出された抽出結果が、正否情報が否である事例情報となる抽出規則候補を除外した第２の集合を生成し、第２の集合を用いて優先度を算出する。この場合には、第１の集合に含まれる複数の抽出規則候補から、抽出結果が負例となる抽出規則候補を除外して得られる第２の集合を生成することで、信頼性の高い抽出規則候補に基づいて優先度を算出できる。

事例候補選別手段は、第２の集合に含まれる、抽出規則候補の数、又は、抽出規則候補に従いテキストデータから抽出される抽出結果の数を用いて優先度を算出するようにしてもよい。例えば、抽出規則候補や抽出結果の数が大きい程、優先度が高くなるように算出してもよい。

事例候補選別手段は、第２の集合での、リンクの数、又は、最長リンク経由数を用いて優先度を算出するようにしてもよい。例えば、リンクや最長リンク経由数が大きい程、優先度が高くなるように算出してもよい。

本発明を特別に示し且つ例示的な実施形態を参照して説明したが、本発明は、その実施形態及びその変形に限定されるものではない。当業者に明らかなように、本発明は、添付のクレームに規定される本発明の精神及び範囲を逸脱することなく、種々の変更が可能である。

本出願は、２００８年１月７日出願に係る日本特許出願２００８−０００６８５号を基礎とし且つその優先権を主張するものであり、引用によってその開示の内容の全てを本出願の明細書中に加入する。

Claims

情報抽出規則を用いて特定の情報を抽出する情報抽出装置であって、
抽出対象のテキストデータから得られた抽出結果を基に、前記情報抽出規則では抽出できない新たな特定の情報の候補を新規事例候補として抽出する事例候補抽出手段と、
前記新規事例候補に基づいて、抽出規則候補を複数生成する規則候補生成手段と、
前記新規事例候補と前記抽出規則候補との間の派生関係、及び、複数の前記抽出規則候補間の重複関係を分析して、関係分析結果を生成する関係分析手段と、
前記関係分析結果と、予め用意された事例情報とに基づいて、前記新規事例候補の優先度を算出し、該優先度に従い前記新規事例候補を選別する事例候補選別手段と、を備えることを特徴とする情報抽出装置。
前記事例候補抽出手段は、前記抽出結果に基づいて、前記テキストデータから前記新規事例候補を抽出するための抽出条件を生成する、請求項１に記載の情報抽出装置。
前記抽出条件は、前記抽出結果として得られた文字列が該当する１つ又は複数の形態素が持つ属性値、又は該属性値の組み合わせである、請求項２に記載の情報抽出装置。
前記事例情報は、該事例情報の内容が抽出される情報として相応しいか否かを示す正否情報を含み、
前記事例候補抽出手段は、前記テキストデータの該当箇所が、前記正否情報が否である事例情報と一致するとき、前記該当箇所を、前記新規事例候補から除外する、請求項３に記載の情報抽出装置。
前記規則候補生成手段は、前記生成された抽出規則候補毎に、前記新規事例候補を関連付けて、前記派生関係を生成する、請求項１〜４の何れか一に記載の情報抽出装置。
前記重複関係は、一方の抽出規則候補による抽出結果の少なくとも一部が他方の抽出規則候補による抽出結果を含むか否かを示す関係であって、
前記規則候補生成手段から受け渡された前記抽出規則候補に従って前記テキストデータから抽出した抽出結果を、前記抽出規則候補毎に関連付けて、前記重複関係を生成する情報抽出手段を更に備える、請求項１〜５の何れか一に記載の情報抽出装置。
前記関係分析手段は、前記派生関係を満たす前記新規事例候補と前記抽出規則候補との間、及び、前記重複関係を満たす前記抽出規則候補の間をリンクさせた関係ネットワーク情報を生成する、請求項１〜６の何れか一に記載の情報抽出装置。
前記関係分析手段は、前記派生関係を満たす前記新規事例候補と前記抽出規則候補との間、及び、前記重複関係を満たす前記抽出規則候補の間をリンクさせた関係ネットワーク情報を生成し、
前記関係ネットワーク情報は、前記派生関係及び前記重複関係を満たす複数の抽出規則候補からなる第１の集合を含み、
前記事例候補選別手段は、前記第１の集合に含まれる複数の抽出規則候補から、前記正否情報が否である事例情報を抽出結果として含む抽出規則候補を除外した第２の集合を生成し、前記第２の集合を用いて前記優先度を算出する、請求項４に記載の情報抽出装置。
前記事例候補選別手段は、前記第２の集合に含まれる、前記抽出規則候補の数、又は、前記抽出規則候補に従い前記テキストデータから抽出される抽出結果の数を用いて前記優先度を算出する、請求項８に記載の情報抽出装置。
前記事例候補選別手段は、前記第２の集合での、リンクの数、又は、最長リンク経由数を用いて前記優先度を算出する、請求項８に記載の情報抽出装置。
通信回線を介してユーザ端末と接続され、情報抽出規則を用いて特定の情報を抽出する情報抽出装置を備える情報抽出システムであって、
前記情報抽出装置は、
抽出対象のテキストデータから得られた抽出結果を基に、前記情報抽出規則では抽出できない新たな特定の情報の候補を新規事例候補として抽出する事例候補抽出手段と、
前記新規事例候補に基づいて、抽出規則候補を複数生成する規則候補生成手段と、
前記新規事例候補と前記抽出規則候補との間の派生関係、及び、複数の前記抽出規則候補間の重複関係を分析して、関係分析結果を生成する関係分析手段と、
前記関係分析結果と、予め用意された事例情報とに基づいて、前記新規事例候補の優先度を算出し、該優先度に従い前記新規事例候補を選別する事例候補選別手段と、
前記事例候補選別手段により選別された新規事例候補の正否の判定を前記ユーザ端末に問い合せ、前記ユーザ端末からの判定結果を前記事例候補選別手段に受け渡す事例候補問い合せ手段とを備え、
前記事例候補選別手段は、前記事例候補問い合せ手段から受け渡された前記判定結果に基づいて、前記選別された新規事例候補の正否を決定することを特徴とする情報抽出システム。
情報抽出規則を用いて特定の情報を抽出する情報抽出方法であって、
抽出対象のテキストデータから得られた抽出結果を基に、前記情報抽出規則では抽出できない新たな特定の情報の候補を新規事例候補として抽出するステップと、
前記新規事例候補に基づいて、抽出規則候補を複数生成するステップと、
前記新規事例候補と前記抽出規則候補との間の派生関係、及び、複数の前記抽出規則候補間の重複関係を分析して、関係分析結果を生成するステップと、
前記関係分析結果と、予め用意された事例情報とに基づいて、前記新規事例候補の優先度を算出し、該優先度に従い前記新規事例候補を選別するステップと、を備えることを特徴とする情報抽出方法。
前記事例情報は、該事例情報の内容が抽出される情報として相応しいか否かを示す正否情報を含み、
前記抽出するステップでは、前記テキストデータの該当箇所が、前記正否情報が否である事例情報と一致するとき、前記該当箇所を、前記新規事例候補から除外する、請求項１２に記載の情報抽出方法。
前記関係分析結果を生成するステップでは、前記派生関係を満たす前記新規事例候補と前記抽出規則候補との間、及び、前記重複関係を満たす前記抽出規則候補の間をリンクさせた関係ネットワーク情報を生成し、
前記関係ネットワーク情報は、前記派生関係及び前記重複関係を満たす複数の抽出規則候補からなる第１の集合を含み、
前記新規事例候補を選別するステップでは、前記第１の集合に含まれる複数の抽出規則候補から、前記正否情報が否である事例情報を抽出結果として含む抽出規則候補を除外した第２の集合を生成し、前記第２の集合を用いて前記優先度を算出する、請求項１３に記載の情報抽出方法。
前記選別された新規事例候補の正否の判定をユーザ端末に問い合せるステップと、
前記ユーザ端末からの前記正否の判定を示す判定結果を受けて、前記判定結果に基づいて、前記選別された新規事例候補の正否を決定するステップと、を更に備える請求項１２〜１４の何れか一に記載の情報抽出方法。
コンピュータを備え、情報抽出規則を用いて特定の情報を抽出する情報抽出装置のための情報抽出プログラムであって、前記コンピュータに、
抽出対象のテキストデータから得られた抽出結果を基に、前記情報抽出規則では抽出できない新たな特定の情報の候補を新規事例候補として抽出する処理と、
前記新規事例候補に基づいて、抽出規則候補を複数生成する処理と、
前記新規事例候補と前記抽出規則候補との間の派生関係、及び、複数の前記抽出規則候補間の重複関係を分析して、関係分析結果を生成する処理と、
前記関係分析結果と、予め用意された事例情報とに基づいて、前記新規事例候補の優先度を算出し、該優先度に従い前記新規事例候補を選別する処理と、を実行させることを特徴とする情報抽出プログラム。
前記事例情報は、該事例情報の内容が抽出される情報として相応しいか否かを示す正否情報を含み、
前記抽出する処理では、前記テキストデータの該当箇所が、前記正否情報が否である事例情報と一致するとき、前記該当箇所を、前記新規事例候補から除外する、請求項１６に記載の情報抽出プログラム。
前記関係分析結果を生成する処理では、前記派生関係を満たす前記新規事例候補と前記抽出規則候補との間、及び、前記重複関係を満たす前記抽出規則候補の間をリンクさせた関係ネットワーク情報を生成し、
前記関係ネットワーク情報は、前記派生関係及び前記重複関係を満たす複数の抽出規則候補からなる第１の集合を含み、
前記新規事例候補を選別する処理では、前記第１の集合に含まれる複数の抽出規則候補から、前記正否情報が否である事例情報を抽出結果として含む抽出規則候補を除外した第２の集合を生成し、前記第２の集合を用いて前記優先度を算出する、請求項１７に記載の情報抽出プログラム。
前記コンピュータに、
前記選別された新規事例候補の正否の判定をユーザ端末に問い合せる処理と、
前記ユーザ端末からの前記正否の判定を示す判定結果を受けて、前記判定結果に基づいて、前記選別された新規事例候補の正否を決定する処理と、を更に実行させる請求項１６〜１８の何れか一に記載の情報抽出プログラム。