JP5370159B2 - 情報抽出装置及び情報抽出システム - Google Patents

情報抽出装置及び情報抽出システム Download PDF

Info

Publication number
JP5370159B2
JP5370159B2 JP2009548917A JP2009548917A JP5370159B2 JP 5370159 B2 JP5370159 B2 JP 5370159B2 JP 2009548917 A JP2009548917 A JP 2009548917A JP 2009548917 A JP2009548917 A JP 2009548917A JP 5370159 B2 JP5370159 B2 JP 5370159B2
Authority
JP
Japan
Prior art keywords
information
extraction
candidate
case
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009548917A
Other languages
English (en)
Other versions
JPWO2009087996A1 (ja
Inventor
剛巨 河合
真一 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009548917A priority Critical patent/JP5370159B2/ja
Publication of JPWO2009087996A1 publication Critical patent/JPWO2009087996A1/ja
Application granted granted Critical
Publication of JP5370159B2 publication Critical patent/JP5370159B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、情報抽出装置及び情報抽出システムに関し、更に詳しくは、抽出対象とするテキストデータから特定の情報を抽出する際に適用される情報抽出規則の生成に用いられる事例の選出を行う情報抽出装置及び情報抽出システムに関する。本発明は、更に、そのような装置及びシステムで用いられる情報抽出方法及び情報抽出プログラムに関する。
情報抽出装置は、抽出対象とする大量のテキストデータから特定の情報を抽出する際に用いられる。情報抽出装置では、例えば、予め用意した事例に基づいて、テキストデータ中のパターンや各種の統計的基準等を用いた情報抽出規則を生成し、この情報抽出規則をテキストデータに適用することにより、そのテキストデータから特定の情報を抽出している。
一般に、情報抽出装置では、テキストデータから所望の特定の情報を必ずしも抽出できるわけではなく、例えば、抽出漏れや誤抽出が生じることがある。そのため、精度の高い情報抽出規則を生成するために、上記情報抽出規則をテキストデータに適用しても抽出できていない「正解となる事例」を多く用意する必要がある。なお、以下では、便宜上、「正解となる事例」を正例と呼び、「不正解となる事例」を負例と呼ぶ。ここで、正例とは、ユーザ等から与えられた例えばキーワード等から、その内容が抽出される情報として相応しい事例をいい、同様に、負例とは、抽出される情報として相応しくない事例をいう。但し、この正例と負例は、あくまで与えられたキーワード等に対応付けて区別されたものであり、キーワード等の内容によっては、その対応付けは変更される。
正例を用意するためには、テキストデータに情報抽出規則を適用しても抽出できていない情報そのものを確認して探す必要がある。この確認作業を人手によって行えば、作業者に負担を強いることになる上に、コストも高くなる。
特許文献1には、格納手段、学習手段、問い合せ手段及び制御手段を備えた情報抽出装置が記載されている。格納手段は、少数の正例がタグ付けされたテキストデータの集合に関する情報を格納する。学習手段は、格納手段に格納された情報を参照しながら情報抽出規則を生成し、その情報抽出規則に従って、タグ付けされていないテキストデータの特徴からタグのカテゴリを確信度付きで推論する。問い合せ手段は、学習手段の推論結果が正しいか否かをユーザに問い合せ、そのユーザから回答を受け取る。制御手段は、回答に基づいて上記タグ付けされていないテキストデータに対するタグのカテゴリを決定し、決定されたカテゴリを含むタグ付けされていないテキストデータの情報を、上記正例がタグ付けされたテキストデータの集合に関する情報に追加する。
特許文献1に記載の情報抽出装置では、少数の正例を含むテキストデータからカテゴリを判定するための統計的基準を情報抽出規則として生成し、新たなテキストデータに対して情報抽出規則を適用することで新たな結果を抽出する。情報抽出装置は、次いで、各々の抽出結果の正否をユーザに問い合せ、回答結果に応じて個々の抽出結果を新たな事例として蓄積し、これら処理を繰り返す。その際、抽出結果に確信度が付与できる場合には、確信度が高い事例についてはユーザの確認なしに正例として採用し、確信度が低いもののみを抽出してユーザに問い合せることで新たな事例として採用するかどうかを決定する。
特許文献2には、データベース、パターン抽出部及び用語抽出部を備えた情報抽出装置が記載されている。データベースは、特定の用語である正例とテキストデータとを格納する。パターン抽出部は、正例をデータベースで全文検索し、検索結果である複数の事例の周辺に出現したパターンを抽出する。用語抽出部は、パターン抽出部で抽出したパターンでデータベースを全文検索し、そのパターンによって抽出される表現を抽出すると同時に、各表現に対するスコアを算出し、スコアの大きい順に各表現をソートする。このとき、用語抽出部は、パターンによって抽出される表現での入力正例の割合と、パターンが抽出した入力正例の個数を入力正例の個数で割った値とを掛けた値を用いて、各表現に対するスコアを算出している。
特許文献2には、情報抽出装置が、入力正例とテキストデータとから、テキストデータのパターンを情報抽出規則として抽出し、各情報抽出規則が抽出した抽出結果にスコア付けを行うこと、また、この抽出結果を用いてブートストラップの手法により正例を増やすことが記載されている。
特開2002−222083号公報 特開2005−322120号公報
しかし、特許文献1,2に記載の情報抽出装置には、以下のような問題点があった。第1の問題点は、精度の高い情報抽出規則を生成するために、既知の事例にない新規事例(未知事例ともいう)の候補を適切に選出できないことである。その理由は、上記情報抽出装置では、既知の事例を抽出できるように、既知の事例に基づいて生成された情報抽出規則によって抽出を行うことにある。つまり、上記情報抽出装置では、新たな抽出対象に対する十分な考慮がなされていない。
特許文献1に記載の情報抽出装置では、正例がタグ付けされたテキストデータの集合から学習することで統計的な基準等を情報抽出規則として生成している。つまり、この情報抽出規則は、与えられた事例に基づいた機械学習による学習結果を用いて生成されている。このため、情報抽出装置では、未知事例に対して上記情報抽出規則を適用しても、推論が必ずしも常に正しいとは限らず、有効な推論ができない場合がある。
特許文献2に記載の情報抽出装置では、上記したスコアを用いて抽出結果を選定したとしても、悪い事例(負例)となる抽出結果を完全には取り除くことができない。このため、この情報抽出装置では、ブートストラップのステップを経る毎に負例が蓄積されてしまう可能性がある。さらに、スコアは、あくまでも情報抽出規則毎に算出されるものであり、個々の情報抽出規則によって得られた新規事例について優劣を適切に判定することができない。
第2の問題点は、精度の高い情報抽出規則を生成するために、新規事例の候補を判定する際のコスト(確認コスト)が大きいことである。例えば、新規事例の候補が大量にある場合には、その新規事例の候補についての確認コストが大きくなる。
特許文献1に記載の情報抽出装置では、抽出結果に確信度を出力できる機械学習手法を用いても、学習できなかったために確信度が低く判定される事例は大量にある。このため、当該事例をユーザに確認させる必要が生じる。さらに、この情報抽出装置では、有効な推論結果が得られない場合には、ユーザに問い合せるデータに不要なデータが大量に含まれることになる。その結果、この情報抽出装置では、新しい正例を選別するためにユーザの確認負担が増加し、確認コストが大きくなる。
特許文献2に記載の情報抽出装置では、スコアに従ってユーザに確認させる方法を用いることができるが、同一の情報抽出規則によってのみ得られた新規事例は全て同一のスコアとなる。このため、この情報抽出装置では、新規事例毎の有意差を十分に見分けることができず、特許文献1に記載の情報抽出装置と同様に、ユーザに大量の不要なデータを問い合せることになり、ユーザの確認負担が増加し、確認コストが大きくなる。
本発明は、精度の高い情報抽出規則を生成するために、既知の事例にない新規事例の候補を適切に選出できる情報抽出装置、情報抽出方法及び情報抽出プログラムを提供することを目的とする。
また、本発明は、精度の高い情報抽出規則を生成するために、既知の事例にない新規事例の候補を判定する確認コストを低減できる情報抽出システムを提供することを目的とする。
本発明は、情報抽出規則を用いて特定の情報を抽出する情報抽出装置であって、抽出対象のテキストデータから得られた抽出結果を基に、前記情報抽出規則では抽出できない新たな特定の情報の候補を新規事例候補として抽出する事例候補抽出手段と、前記新規事例候補に基づいて、抽出規則候補を複数生成する規則候補生成手段と、前記新規事例候補と前記抽出規則候補との間の派生関係、及び、複数の前記抽出規則候補間の重複関係を分析して、関係分析結果を生成する関係分析手段と、
前記関係分析結果と、予め用意された事例情報とに基づいて、前記新規事例候補の優先度を算出し、該優先度に従い前記新規事例候補を選別する事例候補選別手段と、を備えることを特徴とする情報抽出装置を提供する。
また、本発明は、通信回線を介してユーザ端末と接続され、情報抽出規則を用いて特定の情報を抽出する情報抽出装置を備える情報抽出システムであって、前記情報抽出装置は、抽出対象のテキストデータから得られた抽出結果を基に、前記情報抽出規則では抽出できない新たな特定の情報の候補を新規事例候補として抽出する事例候補抽出手段と、前記新規事例候補に基づいて、抽出規則候補を複数生成する規則候補生成手段と、前記新規事例候補と前記抽出規則候補との間の派生関係、及び、複数の前記抽出規則候補間の重複関係を分析して、関係分析結果を生成する関係分析手段と、
前記関係分析結果と、予め用意された事例情報とに基づいて、前記新規事例候補の優先度を算出し、該優先度に従い前記新規事例候補を選別する事例候補選別手段と、前記事例候補選別手段により選別された新規事例候補の正否の判定を前記ユーザ端末に問い合せ、前記ユーザ端末からの判定結果を前記事例候補選別手段に受け渡す事例候補問い合せ手段とを備え、前記事例候補選別手段は、前記事例候補問い合せ手段から受け渡された前記判定結果に基づいて、前記選別された新規事例候補の正否を決定することを特徴とする情報抽出システムを提供する。
さらに、本発明は、情報抽出規則を用いて特定の情報を抽出する情報抽出方法であって、抽出対象のテキストデータから得られた抽出結果を基に、前記情報抽出規則では抽出できない新たな特定の情報の候補を新規事例候補として抽出するステップと、前記新規事例候補に基づいて、抽出規則候補を複数生成するステップと、前記新規事例候補と前記抽出規則候補との間の派生関係、及び、複数の前記抽出規則候補間の重複関係を分析して、関係分析結果を生成するステップと、前記関係分析結果と、予め用意された事例情報とに基づいて、前記新規事例候補の優先度を算出し、該優先度に従い前記新規事例候補を選別するステップと、を備えることを特徴とする情報抽出方法を提供する。
本発明は、コンピュータを備え、情報抽出規則を用いて特定の情報を抽出する情報抽出装置のための情報抽出プログラムであって、前記コンピュータに、抽出対象のテキストデータから得られた抽出結果を基に、前記情報抽出規則では抽出できない新たな特定の情報の候補を新規事例候補として抽出する処理と、前記新規事例候補に基づいて、抽出規則候補を複数生成する処理と、
前記新規事例候補と前記抽出規則候補との間の派生関係、及び、複数の前記抽出規則候補間の重複関係を分析して、関係分析結果を生成する処理と、前記関係分析結果と、予め用意された事例情報とに基づいて、前記新規事例候補の優先度を算出し、該優先度に従い前記新規事例候補を選別する処理と、を実行させることを特徴とする情報抽出プログラムを提供する。
本発明の情報抽出装置、情報抽出方法及び情報抽出プログラムによると、情報抽出規則及びテキストデータから新規事例候補を抽出し、新規事例候補から情報抽出規則候補を複数生成して、新規事例候補と情報抽出規則候補との間の派生関係、及び、情報抽出規則候補間の重複関係を分析して得た関係分析結果と、事例情報とを用いて、新規事例候補毎の優先度を算出し、この優先度に従い新規事例候補の選別しているので、既知の事例にない新規事例の候補を適切に選出することができる。
本発明の情報抽出システムによると、事例候補問い合せ手段がユーザ端末に問い合せる新規事例候補は、既知の事例にない新規事例候補として抽出された上で、事例候補選別手段が、関係分析結果と事例情報とに基づいて各々の新規事例候補毎に算出した優先度に従い選別されたものである。このため、ユーザ端末には、適切に選出された新規事例候補のみが提示されることになり、ユーザ端末での正否の判定に要する確認コストを低減できる。
本発明の上記及び他の目的、特徴及び利益は、図面を参照する以下の説明により明らかになる。
本発明の第1の実施形態に係る情報抽出装置を示すブロック図。 図1に示す情報抽出装置の動作を示すフローチャート。 事例情報の一例を示す表。 新規事例候補の一例を示す表。 新規事例候補と生成された情報抽出規則候補との関連付けを示す表。 情報抽出規則候補と抽出結果との対応関係を示す表。 抽出結果の一例を示す線図。 関係ネットワークを示す線図。 図8に示す関係ネットワークの一部を示す表。 新規事例候補と優先度との関係を示す表。 本発明の第2の実施形態に係る情報抽出装置を含む情報抽出システムを示すブロック図。 図11に示す情報抽出システムの動作を示すフローチャート。 問い合せ情報の一例を示す表。 新規事例候補判定画面の内容の一例。
以下、図面を参照して本発明の実施形態について説明する。図面では、全図を通して同様な要素は同様な符号をつける。
(第1の実施形態)
図1は、本発明の第1の実施形態に係る情報抽出装置を示すブロック図である。情報抽出装置10は、データ入力手段(unit)11と、事例候補抽出手段12と、情報抽出手段13と、規則候補生成手段14と、関係分析手段15と、事例候補選別手段16とを備える。情報抽出装置10は、本構成により、抽出対象となる大量のテキストデータから特定の情報を抽出する際に適用される情報抽出規則の生成に用いられる事例の選出を行う。
情報抽出装置10は、例えば、上記各手段11〜16として機能する図示しない中央演算処理装置(CPU)を有するコンピュータを用いて構成されている。また、情報抽出装置10は、各手段11〜16としての処理を中央演算処理装置に実行させるプログラムを任意の記録媒体に記憶しておき、このプログラムをコンピュータの主記憶等に読み込ませ、読み込まれたプログラムを中央演算処理装置が実行することで実現される。さらに、入力するデータや出力する各種情報は、主記憶に記憶されるが、別途磁気ディスク記憶装置等に格納しておき、読み込むように構成してもよい。なお、上記各手段11〜16は、専用のハードウェアで構成してもよい。
以下、説明の便宜上、各手段11〜16の機能を概略的に説明する。データ入力手段11は、情報抽出規則、事例情報及びテキストデータを入力として受け付ける。なお、入力されるデータのデータ量が多い場合には、適宜の記憶装置に格納しておき、データ入力手段11が、必要なときに読み出して参照するようにしてもよい。事例候補抽出手段12は、データ入力手段11から入力された情報抽出規則及びテキストデータを情報抽出手段13に渡し、情報抽出手段13がテキストデータに対して情報抽出規則を適用して得た抽出結果を受け取る。事例候補抽出手段12は、この抽出結果の情報に基づいて、当該抽出結果とは異なる新規事例候補をテキストデータから複数抽出する。
規則候補生成手段14は、事例候補抽出手段12で抽出した新規事例候補から、複数の情報抽出規則候補を生成する。関係分析手段15は、新規事例候補と情報抽出規則候補との間の派生関係、及び、個々の情報抽出規則候補の抽出結果間での重複(包含)関係を分析する。事例候補選別手段16は、関係分析手段15による関係の分析結果と事例情報とに基づいて、新規事例候補について優先度を算出し、新規事例候補の選別を行い、その結果を出力する。なお、ここでは、事例情報はデータベース20Aに格納されており、また、情報抽出規則はデータベース40Aに格納されている。データベース40Aは、例えば、テキストデータがデータ入力手段11に入力されると、事例候補抽出手段12からアクセスされ、格納されている情報抽出規則が参照される。また、データベース20Aは、例えば、優先度を算出する際に、事例候補選別手段16からアクセスされ、格納されている事例情報が参照される。
次に、図2に示すフローチャートを参照して、情報抽出装置10の動作を説明する。データ入力手段11は、情報抽出規則、事例情報及びテキストデータを入力として受け付け、これらの入力データを事例候補抽出手段12に与える(ステップA1)。
次いで、ステップA2では、まず、事例候補抽出手段12は、データ入力手段11が受け付けた情報抽出規則及びテキストデータを情報抽出手段13に渡し、情報抽出手段13がテキストデータに対して情報抽出規則を適用して得た抽出結果を、情報抽出手段13から受け取る。次に、事例候補抽出手段12は、受け取った抽出結果に基づいて抽出条件を生成する。続いて、事例候補抽出手段12は、抽出条件が該当する箇所をテキストデータから抽出し、受け取った抽出結果とは異なる情報を新規事例候補として複数抽出する。
次に、事例候補抽出手段12は新規事例候補が抽出できたか否かを判定する。抽出できない場合にはプロセスを終了し(ステップA3,N)、抽出できた場合にはステップA4に進む(ステップA3,Y)。規則候補生成手段14は、事例候補抽出手段12より抽出した新規事例候補から、複数の情報抽出規則候補を生成する(ステップA4)。
ステップA5では、まず、規則候補生成手段14は、生成した情報抽出規則候補を情報抽出手段13に渡す。情報抽出手段13は、規則候補生成手段14で生成した情報抽出規則候補をテキストデータに適用して抽出結果を得て、関係分析手段15に渡す。
次にステップA6について説明する。まず、関係分析手段15は、新規事例候補と情報抽出規則候補との間の派生関係、及び、個々の情報抽出規則候補の抽出結果間での重複関係を分析し、新規事例候補と情報抽出規則候補とをノードとし、それらの間の関係をリンクとして結んだ関係ネットワークを生成する。次に、関係分析手段15は、情報抽出規則候補の各ノードに、その情報抽出規則候補が抽出した抽出結果や事例情報を関連付けて、関係ネットワーク情報とし、それを事例候補選別手段16に渡す(ステップA6)。ここで、関係分析手段15は、ステップA5で得られた個々の情報抽出規則候補の抽出結果間に重複関係がある場合に、当該情報抽出規則候補間は「関係あり」と判定し、リンク付けする。
次に、事例候補選別手段16は、関係分析手段15による関係分析結果の関係ネットワーク情報と、事例情報とを用いて、新規事例候補の優先度を算出する(ステップA7)。続いて、事例候補選別手段16は、優先度に基づいて、選出すべき事例か否かを判定して、新規事例候補の選別を行い、その結果を出力する(ステップA8)。
上記優先度は、新規事例候補から派生した情報抽出規則候補の集合から、事例情報を用いて不要と判定される情報抽出規則候補を除いた集合に対して、関係ネットワークのリンクを辿り、到達可能な所定範囲の情報抽出規則候補の数、情報抽出規則候補が抽出した正例の抽出数、最長リンク経由数等を基準として算出する。なお、関係ネットワークのリンクを辿って到達可能な所定範囲としては、事例情報の負例を含まない抽出結果を得た情報抽出規則候補まで辿れる範囲、情報抽出規則候補が抽出した抽出結果のうち負例の割合が一定以下の情報抽出規則候補が存在する範囲、及び、一定のパス数の範囲等を用いればよい。
以下、図3〜図10を参照して、情報抽出装置10の動作をより具体的に説明する。データ入力手段11は、入力された情報抽出規則、事例情報(図3参照)、及びテキストデータを受け取り、事例候補抽出手段12に渡す(ステップA1)。テキストデータは、抽出対象となるデータであって、例えば、各種文書やWebから取得したHTMLデータ、電子メール等のテキストデータを含むデータであればよく、また、必要に応じて不要な記号等を削除、文単位に整形する等の処理を行った後のデータを用いてもよい。
情報抽出規則は、抽出対象となるテキストデータから特定の情報を抽出する際に適応される既存の抽出規則であって、例えば、文字列や文字種、形態素情報、係り受け関係情報等のパターン条件と、情報の種類を示す形式とが規則として示されている。さらに、情報抽出規則は、これに限定されず、例えば、ある形態素の後置に「株式会社」という文字列があれば、その形態素を「企業名」とするような規則を「IF(パターン条件)THEN(挙動)」のような形式で、パターン条件と挙動とを示して記述する等、種々の形式を採ることが可能である。また、上記した情報抽出手段13は、これらの各種形式を解釈し、適用できるように構成されている。
図3は、事例情報の一例を示す表である。事例情報20は、ユーザ等から与えられるキーワード等に対応して予め用意されており、図示のように、個々の事例を示す事例ID21毎に関連付けられた、種類22、事例内容23及び正否を示す正否情報24を含む。正否情報24は、キーワード等に対応して、その事例内容23が抽出される情報として相応しいか否かを示す情報であって、「○」であればその事例情報20が正例であることを示し、「×」であれば負例であることを示している。ここで、事例情報20に負例が含まれているのは、あるキーワードに対して負例を選ばない、という判定を行えば、結果的に正例が選ばれる可能性が高くなるからである。
次に、ステップA2の処理について説明する。事例候補抽出手段12は、データ入力手段11で受け付けられた情報抽出規則及びテキストデータを情報抽出手段13に渡し、情報抽出手段13がテキストデータに対して情報抽出規則を適用して得た抽出結果を、情報抽出手段13より受け取る。事例候補抽出手段12は、受け取った抽出結果に基づいて、テキストデータから新規事例候補を見つける(検索する)ための抽出条件を生成する。
抽出条件は、例えば、受け取った抽出結果の内容を用いて生成される。つまり、あるテキストデータ中の特定箇所の文字列であり、かつ、事例情報20の事例内容23の文字列とは異なる情報を抽出条件とすればよい。一例としては、抽出対象とするテキストデータが「AA電気が新製品を発表した」であり、このテキストデータに、ある情報抽出規則を適用して、先頭から「AA電気」という文字列が抽出結果として得られた場合、当該文字列が事例情報20に含まれていなければ、この文字列が抽出条件となる。図3に対応させると、事例内容23には、複数の文字列「BB電気、CC会社、DDD、EEE」が示されているが、上記文字列「AA電気」は含まれていないので、この文字列が抽出条件となる。
但し、これに限定されず、テキストデータに対する形態素解析結果を用いて、当該文字列が該当する1つ又は複数の形態素が持つ品詞や読み、原型文字列、シソーラス情報等の属性値の組み合わせを抽出条件としてもよい。例えば、上記「AA電気」という文字列が1つの形態素として解析されたときに、当該形態素の品詞が「固有名詞」や「組織」を示すものであれば、その品詞の属性値を抽出条件として用いればよい。また、その他任意の属性値の組み合わせを抽出条件として用いてもよく、さらに、抽出結果を構文解析した結果と関連付けておき、抽出結果内容の文字列が該当する構文解析結果の要素が持つ属性値やそれら属性値の組み合わせを抽出条件としてもよい。
次に、事例候補抽出手段12は、抽出条件が該当する箇所を大量のテキストデータから抽出し、新規事例候補(図4参照)を複数抽出する。ここで、事例候補抽出手段12では、テキストデータに対して、厳密に抽出条件が該当する箇所を抽出するのではなく、抽出条件と類似する情報をテキストデータより抽出して、見つかった箇所を新規事例候補としてもよい。一例として、抽出条件をある文字列としたときに、抽出条件の文字列とテキストデータ中の文字列との編集距離が近い、又は一定距離以下の文字列を新規事例候補とすればよい。なお、編集距離は、既存の方法で算出可能であり、説明を省略する。
ここで、事例候補抽出手段12は、抽出結果とは異なる情報、つまり、既に入力された既存の情報抽出規則を適用しても抽出できない情報を新規事例候補とすることが望ましい。この理由は、抽出結果と同じ情報を新規事例候補としても、情報抽出規則の精度を高めることにはならないためである。また、事例候補抽出手段12は、抽出条件や抽出条件と類似する情報が該当する箇所であっても、予め相応しくないと分かっている情報、即ち負例と一致する該当箇所を新規事例候補から除外することが望ましい。この理由は、新規事例候補に負例を含めてしまうと、情報抽出規則の精度を高めることにはならないからである。なお、事例候補抽出手段12が、形態素解析結果の一部や構文解析結果に基づいて抽出条件を生成した場合には、テキストデータと形態素解析結果や構文解析結果とを関連付けることにより、テキストデータ中の抽出条件が該当する箇所を抽出できる。
図4は、新規事例候補の情報の一例を示す表である。新規事例候補30は、図示のように、新規事例候補30の識別子である新規事例候補ID31に関連付けられた、新規事例候補の種類32、内容33、テキストデータ中のどの位置かを示す位置情報34、及びテキストデータ35を含む。ここで、新規事例候補30の内容33としては、文字列「XXエレクトロニクス、AA電気、EEE」が示されており、抽出条件に該当する文字列「AA電気」が含まれている。ここで、新規事例候補30の内容33を含むテキストデータ35は、情報抽出規則候補を生成する際に用いられるので、新規事例候補ID31に関連付けられている。次に、事例候補抽出手段12は、これらの新規事例候補30の情報を、規則候補生成手段14に渡す。なお、上記ステップA2では、新規事例候補30が抽出されたので(ステップA3,Y)、プロセスはステップA4に進む。
次に、ステップA4の処理について説明する。規則候補生成手段14は、事例候補抽出手段12より抽出した新規事例候補から、複数の情報抽出規則候補を生成する。規則候補生成手段14は、例えば、テキストデータを既存の言語解析技術によって、新規事例候補の対応するテキストデータに対して、形態素解析、構文解析、意味解析等の解析処理を行い、解析処理の結果から得られる様々なパターンの組み合わせを用いて、既存の各種形式で複数の情報抽出規則候補を生成する。この際、新規事例候補と生成された情報抽出規則候補とは、図5に示すように関連付けられる。
図5は、新規事例候補と生成された情報抽出規則候補とを関連付けた例を示す表である。ここでは、情報抽出規則候補40の情報として、特定の情報抽出規則候補40を示す識別子である情報抽出規則候補ID41に関連付けられた、抽出規則内容42、特定の情報抽出規則候補40が生成される際に用いられた新規事例候補30の新規事例候補ID31及び種類32(図4参照)がテーブル形式で示されている。但し、これに限定されず、他の形式で示しても構わない。
上記のように、新規事例候補ID31が示す新規事例候補30と、情報抽出規則候補ID41とが関連付けられているので、規則候補生成手段14が、情報抽出規則候補40を生成する際に用いた新規事例候補30が明らかになる。一例として、新規事例候補ID31が「N21」である新規事例候補30には、情報抽出規則候補ID41が「R21」,「R24」である複数の情報抽出規則候補40が関連付けられている。つまり、この関連付けによって、情報抽出規則候補40が何れの新規事例候補30から生成されたかを示す派生関係が示されることになる。なお、この派生関係は、関係分析手段15が関係ネットワーク情報(図9参照)を生成するとき、新規事例候補30と情報抽出規則候補40との間をリンク付けするために用いられる。
次に、ステップA5の処理について説明する。規則候補生成手段14は、生成した情報抽出規則候補を情報抽出手段13に渡す。情報抽出手段13は、情報抽出規則候補をテキストデータに適用して、個々の情報抽出規則候補毎に抽出結果を得る。
図6は、情報抽出規則候補と抽出結果との対応関係を示す表である。ここでは、対応関係を示す情報50として、情報抽出規則候補ID41に関連付けられた、抽出した個々の抽出結果を識別する抽出結果ID51、及び抽出結果の種類52が示されている。なお、情報抽出規則候補40は、例えば、情報抽出規則候補ID41が大きい値のもの程、条件が一般的なものとなり、抽出結果の数が多くなり、また、情報抽出規則候補ID41が小さい値のもの程、条件が特殊なものとなり、抽出結果の数が少なくなる。一例として、情報抽出規則候補ID41が「R11」である情報抽出規則候補40をテキストデータに適用して得られた抽出結果は、抽出結果ID51に示す「EX11」のみである。これに対して、情報抽出規則候補ID41が「R15」である情報抽出規則候補を適用して得られた抽出結果は、「EX11,・・・,EX13,・・・」となり、複数となった。また、これらの抽出結果の種類52は「企業名」であることが理解できる。
さらに、情報抽出規則候補ID41と抽出結果ID51とを関連付けることによって、一方の情報抽出規則候補40による抽出結果が、他方の情報抽出規則候補40による抽出結果に含まれたかを示す、複数の情報抽出規則候補間の包含関係や、一方の抽出結果と他方の抽出結果とが重複しているかを示す重複関係が示されることになる。なお、この重複関係は、関係分析手段15が関係ネットワーク情報(図9参照)を生成するとき、複数の情報抽出規則候補間をリンク付けするために用いられる。
図7は、図6に示した抽出結果IDに対応する抽出結果の内容と位置情報との関連付けを示す表である。ここでは、これらの関連付けを示す情報55として、抽出結果ID51に関連付けられた、抽出結果内容53及び位置情報54が示されている。なお、位置情報54は、どのテキストデータのどの位置から抽出されたかを示す情報であって、テキストデータを文書単位で管理する場合には、例えば、どの文書かを示す文書IDとある文書ID内の位置を先頭からのオフセット値等で示すようにすればよい。また、別の例として、ある文書内を文単位に管理し、文書IDで示される文書内のどの文かを示す文IDと文ID内のオフセット値で示すようにしてもよい。さらに、この他にも、抽出結果内容と位置情報の代わりとして、テキストデータ中にテキストデータと抽出結果とを識別可能なタグを挿入して、抽出結果ID51や種類52の情報と関連付けるようにしてもよい。
次に、ステップA6の処理について説明する。関係分析手段15は、図5に示される新規事例候補30と情報抽出規則候補40との間の派生関係を分析し、さらに、図6に示される個々の情報抽出規則候補40の抽出結果間での重複関係を分析する。続いて、関係分析手段15は、新規事例候補30と情報抽出規則候補40をそれぞれノードとし、それらの間の派生関係及び重複関係に基づいてリンク付けして得られる、図8に示す関係ネットワーク60を生成し、関係ネットワーク情報として事例候補選別手段16に渡す。
図8は、関係ネットワークの一例を示す線図である。図中丸で囲まれたノードが、不図示の新規事例候補から派生して生成された情報抽出規則候補40であり、ここでは情報抽出規則候補ID41が示されている。さらに、情報抽出規則候補40のノード間は、両者の抽出結果に重複関係がある場合に「関係あり」として有向リンク(以下、単にリンクという)が張られている。
但し、個々の情報抽出規則候補40間の抽出結果の関係としては重複関係ではなく包含関係のみを用いてもよい。一例として、図6の情報抽出規則候補ID41が「R11」の情報抽出規則候補40による抽出結果と、情報抽出規則候補ID41が「R12」の情報抽出規則候補40による抽出結果とを比較する。この場合、「R11」では抽出結果ID51が「EX11」の抽出結果を得ており、「R12」では抽出結果ID51が「EX11,EX12」の抽出結果を得ている。このため、「R12」の情報抽出規則候補40による抽出結果が、「R11」の情報抽出規則候補40による抽出結果を包含していることになる。そこで、関係分析手段15は、この包含関係に基づいて、この情報抽出規則候補40間にリンクを生成する。但し、これに限定されず、情報抽出規則候補40間の重複度合いが低いものは関係性が低いので、リンクを張らず、一定以上の重複度合いを有する場合にのみリンクを張るようにしてもよい。なお、関係ネットワーク情報は、このようなノードとリンクを示す情報として適宜生成すればよい。
次に、ステップA7及びA8の処理について説明する。事例候補選別手段16は、関係分析手段15での関係分析結果により得られた関係ネットワーク情報と事例情報20とを用いて新規事例候補について優先度を算出する。ここでは、前提として、企業名の抽出を行う場合に、図8に示した関係ネットワーク60が得られた場合を想定する。この際、事例候補選別手段16は、図6及び図7で示す抽出結果に関する情報50,55と、図3で示す事例情報20とを比較して、ある情報抽出規則候補40の抽出結果の内容53が不適切な種類の抽出結果(例えば、「企業名」ではない内容53)を含む場合や、負例を抽出結果(正否情報24が「×」)に含む場合には、この情報抽出規則候補40を不要と判定する。但し、事例候補選別手段16は、優先度を算出する際に用いられる情報抽出規則候補40の数を減らさないために、ある情報抽出規則候補40が、負例となる抽出結果を全く含まない場合に限らず、例えば、全ての抽出結果に対する、負例となる抽出結果の割合が一定以下である場合も、不要と判定しないことも可能である。
図9は、図8に示す関係ネットワークの一部を示す線図である。ここでは、一例として、新規事例候補ID「N20」と「N21」で示される新規事例候補30から派生した複数の情報抽出規則候補40からなる第1の集合としての関係ネットワーク61を示している。図9において実線で示されるリンクが、重複関係がある場合に「関係あり」として生成された有向リンクである。また、図9において破線で示されるリンクが、新規事例候補30と情報抽出規則候補40との間の派生関係がある場合に生成されたリンクである。例えば、図5に示される新規事例候補30と情報抽出規則候補40との間の関係から、新規事例候補ID31「N20」から情報抽出規則候補ID41「R11」が生成され派生関係にあることが分かり、図9において、新規事例候補ID31「N20」から情報抽出規則候補ID41「R11」が破線で示されるリンクで結ばれている。ここでは、関係ネットワーク61に含まれている情報抽出規則候補ID41が「R15」の情報抽出規則候補40をテキストデータに適用して得られる抽出結果は、抽出結果ID51が「EX13」を含んでいる。この「EX13」の抽出結果内容53は、図7に示すように「DDD」であり、これは、図3に示す事例ID21が「S13」であり、正否情報24によって負例とされた事例内容23と一致している。即ち、情報抽出規則候補ID41が「R15」である情報抽出規則候補40は、不要と判定されることになる。さらに前提として、情報抽出規則候補ID41が「R16」、「R22」である情報抽出規則候補40も、抽出結果に負例とされた事例内容23を含んでいると仮定している。
この場合には、新規事例候補ID31が「N20」の新規事例候補30は、情報抽出規則候補ID41が「R11」及び「R12」、「R13」、「R14」の情報抽出規則候補40を派生して展開できる。しかし、新規事例候補ID31が「N21」の新規事例候補30は、情報抽出規則候補ID41が「R21」と「R23」の情報抽出規則候補40以外は派生して展開しないことになる。即ち、事例候補選別手段16は、関係ネットワーク61を辿って、抽出結果に負例とされた事例内容23を含んでいる情報抽出規則候補40を見つけたら、それ以降のリンクを辿らないことになる。なお、辿る必要のないリンクには、図中、×印を付している。
上記のようにして、事例候補選別手段16は、第1の集合としての関係ネットワーク61に含まれる複数の情報抽出規則候補40から、事例情報20の正否情報24により負例を含み、不要と判定される情報抽出規則候補40を除外した第2の集合62を生成し、この第2の集合62を用いて、優先度を算出する。
優先度は、例えば、第2の集合62に含まれる派生の情報抽出規則候補40の数、ある新規事例候補30から派生した不要以外の情報抽出規則候補40が抽出するユニークな抽出結果の合計数、情報抽出規則候補40全てが抽出するユニークな抽出結果の数、新規事例候補30のノードから情報抽出規則候補40の最長のリンク経由数から算出される。優先度は、例えば、これらの数にそれぞれ重み付けして乗算した数等を用いて算出することができる。なお、ユニークな抽出結果とは、ある情報抽出規則候補と他の情報抽出規則候補とからそれぞれ抽出された抽出結果を比較して、ある情報抽出規則候補からのみ抽出される抽出結果をいう。
以下、優先度を具体的に説明する。第2の集合62に含まれる情報抽出規則候補40の数を優先度として用いる場合には、図9に示すように、新規事例候補ID「N20」の新規事例候補が優先度「4」、新規事例候補ID「N21」の新規事例候補が優先度「2」と算出される。また、ある新規事例候補30から派生した不要以外の情報抽出規則候補40が抽出するユニークな抽出結果の合計数を優先度として用いることが出来る。この場合には、図9に示すように、包含関係を示すリンクを辿ることで、情報抽出規則候補ID「R14」の情報抽出規則候補の抽出結果数が、「R11」、「R12」、「R13」の抽出結果を含んでいることが分かる。このため、「R14」の抽出結果数を新規事例候補ID「N20」の優先度とし、同様に、「R23」の抽出結果数を新規事例候補ID「N21」の優先度として算出できる。
さらに、新規事例候補30のノードから情報抽出規則候補40の最長のリンク経由数を優先度として用いると仮定する。この場合には、図9に示すように、関係ネットワークのノード間のリンクを辿ることで、新規事例候補ID「N20」のノードから情報抽出規則候補ID「R14」のノードまでのリンク経由数「3」を新規事例候補ID「N20」の優先度として算出する。また、新規事例候補ID「N21」のノードから情報抽出規則候補ID「R23」のノードまでのリンク経由数「2」を新規事例候補ID「N21」の優先度として算出できる。なお、上記各優先度は、最大値等の値で割って正規化する等、基準を揃えた後の値として構わない。図10は、新規事例候補と優先度との対応関係を示している。ここでは、これらの対応関係を示す情報70として、新規事例候補ID31毎に、0から1の間で正規化した優先度を示す値71が示されている。
本実施形態の情報抽出装置10によれば、データ入力手段11に入力された情報抽出規則、事例情報20及びテキストデータから、情報抽出規則が抽出せず入力された事例情報に含まれない新規事例候補30を抽出した上で、新規事例候補30から情報抽出規則候補40を生成する。次いで、新規事例候補30及び情報抽出規則候補40の相互の関係を分析して関係ネットワーク60を生成し、関係ネットワーク情報と事例情報20とから新規事例候補30の優先度を算出する。更に、この優先度に従って新規事例候補30の選別を行う。このようにして、新規事例候補を適切に選出することができる。
(第2の実施形態)
図11は、本発明の第2の実施形態に係る情報抽出装置を含む情報抽出システムの一例を示すブロック図である。以下では、第1の実施形態の情報抽出装置10と同様な機能を有し、説明が重複する部分については適宜省略する。情報抽出システム100は、ユーザ端末90と、通信回線を介してユーザ端末90と接続される情報抽出装置10Aとを備える。情報抽出装置10Aは、第1の実施形態の情報抽出装置10と比べると、事例候補問い合せ手段17が追加された点が主に異なる。ここでは、コンピュータの中央演算処理装置が事例候補問い合せ手段17としても機能している。
事例候補問い合せ手段17は、事例候補選別手段16Aによって判定された新規事例候補の優先度に従い、問い合せすべき新規事例候補を抽出し、抽出した新規事例候補を含む問い合せ情報を生成し、生成した問い合せ情報をユーザ端末90に送信する。ユーザ端末90は、適宜の表示手段及び入力手段を含む装置であって、例えば、問い合せ情報から抽出された新規事例候補を提示し、ユーザによる正否の判定結果の入力を受けて、その判定結果を事例候補問い合せ手段17に送信する。正否の判定結果の入力を受信した事例候補問い合せ手段17は、判定結果を事例候補選別手段16Aに送る。事例候補選別手段16Aは、抽出した新規事例候補の判定結果と上記関係ネットワーク情報とを用いて、更に他の新規事例候補について判定可能であれば、正否の推定を行い、最終結果を出力する。
次に、図12に示すフローチャートを参照して、情報抽出装置10Aを含む情報抽出システム100の動作について説明する。但し、図中、ステップB1〜B7で示される各処理は、図2に示したステップA1〜A7と同一であるので、以下、ステップB1〜B7の説明を省略しステップB8〜B10について説明する。第1の実施形態の情報抽出装置10では、事例候補選別手段16が関係ネットワーク情報と事例情報とを用いて、新規事例候補について優先度を算出していた。これに対して、本実施形態の情報抽出装置10Aでは、ステップB7で各新規事例候補の優先度を算出した後、さらに、事例候補問い合せ手段17が優先度に基づいてユーザに問い合せるべき新規事例候補を選出し、問い合せを行う(ステップB8)。
事例候補問い合せ手段17は、選出した新規事例候補について問い合せ情報を生成して、ユーザ端末90で提示し、その正否についての判定結果をユーザ端末90から受け取って、事例候補選別手段16Aに渡す。事例候補選別手段16Aは、受け取った判定結果と関係ネットワーク情報とに基づいて、更に他の新規事例候補が判定できれば推定を行い、選別する(ステップB9)。ステップB9の後、未判定の新規事例候補が残っている等の終了条件を満たしているか否かを判定し(ステップB10)、満たしている場合に終了とし(ステップB10,Y)、未判定の新規事例候補が残されている場合には(ステップB10,N)、再びステップB8に戻り、上記処理を繰返す。
以下、図13及び図14を参照して、情報抽出装置10Aを含む情報抽出システム100の動作をより具体的に説明する。ステップB8では、事例候補問い合せ手段17は、事例候補選別手段16Aによって判定された新規事例候補の優先度を用いて、問い合せすべき新規事例候補を抽出し、抽出した新規事例候補を含む問い合せ情報を生成し、生成した問い合せ情報をユーザ端末90に送信する。ここで、問い合せすべき新規事例候補を抽出するには、例えば、優先度が低い新規事例候補を除外するために、優先度が所定の値よりも高い新規事例候補を抽出すればよいが、これに限定されず、優先度が高い順に所定の数や所定の割合の数の新規事例候補を抽出してもよい。更に、優先度が高い場合には採用される可能性が高く、優先度が低い場合には棄却される可能性が高いことを考慮して、自動的に新規事例として採用するのが困難なものを優先する場合には、例えば、優先度が所定の値の範囲内にある新規事例候補を抽出するようにしてもよい。
ユーザ端末90に送信する問い合せ情報は、少なくとも1つ以上の新規事例候補を含めばよい。また、ユーザ端末90での提示回数を減らすために、問い合せ情報は、まとめて複数の新規事例候補を含むようにしてもよい。さらに、問い合せ情報には、確認を支援する補足情報として、各新規事例候補毎に算出した優先度や、新規事例候補が抽出される元となったテキストデータとその位置情報や、どのような種類の情報であるかを示す種類等の情報を含めるようにしてもよい。図13は、問い合せ情報の一例を示す表である。ここで、問い合せ情報110は、新規事例候補ID111に関連付けられた、優先度112、種類113、新規事例候補内容114、テキストデータ116及びその位置情報115を含む。
ユーザ端末90は、キーボードやマウス等の入力手段とディスプレイ等の出力手段とを少なくとも備えているのであれば、パーソナルコンピュータ等であっても構わない。ユーザ端末90は、事例候補問い合せ手段17より受け取った問い合せ情報110から新規事例候補を提示し、正否の判定結果の入力を受け付ける。
図14は、新規事例候補の提示の一例を示す画面上の表示を示している。ユーザ端末90には、図示のように、新規事例候補判定画面120が表示される。新規事例候補判定画面120は、新規事例候補ID111毎に関連付けられた、正否の判定結果を入力可能なチェックボックス121、新規事例候補の情報122、補足情報である優先度112及び種類113等が表示されている。また、新規事例候補判定画面120には、ユーザに正否の判定を促すためのメッセージ文123が表示されている。なお、新規事例候補の情報122には、斜字や下線等で示されている新規事例候補内容114が抽出される元となったテキストデータを示している。
ユーザ端末90は、図14に示すように、新規事例候補ID111毎に正否の判定結果をチェックボックス121での選択により受け付け、判定完了ボタン124で入力を受け付けると、新規事例候補ID111と対応する正否の判定結果を、事例候補問い合せ手段17に送信する。
次に、ステップB9,B10の処理について説明する。事例候補問い合せ手段17は、新規事例候補ID111と対応する正否の判定結果を受信すると、この正否の判定結果を事例候補選別手段16Aに受け渡す。事例候補選別手段16Aは、受け渡された新規事例候補ID111と対応する正否の判定結果と、関係ネットワーク情報とを用いて、更に他の新規事例候補について判定可能であれば、正否の推定を行って、最終結果を出力する。
本実施形態の情報抽出装置10Aを含む情報抽出システム100によれば、関係ネットワークに基づいて算出した優先度を用いて、ユーザに問い合せるべき新規事例候補が選出されているので、適切に選出された新規事例候補のみがユーザ端末90に提示される。その結果、ユーザは、全ての新規事例候補を確認する必要がなく、確認コストを低減できる。
上記各実施形態の情報抽出装置10,10Aでは、事例候補選別手段16,16Aが適切な新規事例候補を選別した後、即ちステップA8,B9以降の処理で、選別された新規事例候補を例えば所定の閾値で更に判定し、最適又は上位とされる新規事例候補をステップA1,B1での事例情報としてデータ入力手段11に入力してもよい。これと共に、または、これに代えて、選別された上記新規事例候補に対して既存の言語解析技術を適用して新たな情報抽出規則を生成し、この生成された新たな情報抽出規則をステップA1,B1でデータ入力手段11に入力してもよい。このようにステップA8,B9以降の処理で得た結果を、ステップA1,B1の処理に反映させることで、情報抽出装置10,10Aから選出される新規事例候補の精度をより高めることができる。
上記各実施形態の情報抽出装置10,10A及び情報抽出システム100は、抽出対象となるテキストデータから特定の情報を抽出するための情報抽出規則の生成に用いられる事例の選出を行う装置に限定されない。例えば、抽出した新規事例を用いて新たな情報抽出規則を低コストで生成する情報抽出規則作成装置、上記情報抽出装置を用いて構成される情報推薦装置、特定の情報を見つけるための情報検索装置等、他の用途にも適用可能である。
本発明の情報抽出装置では、以下の態様の採用が可能である。
事例候補抽出手段は、抽出結果に基づいて、テキストデータから新規事例候補を抽出するための抽出条件を生成する。この場合には、抽出条件を、例えば、テキストデータから抽出される情報であって、予め用意された事例情報には含まれていない情報として生成することもできる。
抽出条件は、抽出結果として得られた文字列が該当する1つ又は複数の形態素が持つ属性値、又はその属性値の組み合わせである。この場合には、単にテキストデータの文字列だけでなく、その文字列に対して形態素解析を行うことで得られる、品詞、読み、原型文字列、シソーラス情報等も抽出条件として用いることができる。
事例情報は、その内容が抽出される情報として相応しいか否かを示す正否情報を含み、事例候補抽出手段は、テキストデータの該当箇所が、正否情報が否である事例情報と一致するとき、該当箇所を、新規事例候補から除外する。このようにすれば、抽出条件で抽出されたとしても、いわゆる負例と一致する該当箇所を、新規事例候補から除外するので、規則候補生成手段で生成される抽出規則候補の精度を高めることができる。
規則候補生成手段は、生成された抽出規則候補毎に、新規事例候補を関連付けて、派生関係を生成する。この場合には、抽出規則候補が何れの新規事例候補から生成されたかを示すことができる。
重複関係は、一方の抽出規則候補による抽出結果の少なくとも一部が他方の抽出規則候補による抽出結果を含むか否かを示す関係である。規則候補生成手段から受け渡された抽出規則候補に従ってテキストデータから抽出した抽出結果を、抽出規則候補毎に関連付けて、重複関係を生成する情報抽出手段を更に備える。この場合には、一方の抽出規則候補による抽出結果が他方の抽出規則候補による抽出結果に含まれたか否かを示す包含関係も重複関係の一つとして示すことができる。
関係分析手段は、派生関係を満たす新規事例候補と抽出規則候補との間、及び、重複関係を満たす抽出規則候補の間をリンクさせた関係ネットワーク情報を生成する。これにより、関係ネットワーク情報には、派生関係、包含関係や重複関係が反映されることになる。
関係ネットワーク情報は、派生関係及び重複関係を満たす複数の抽出規則候補からなる第1の集合を含む。事例候補選別手段は、第1の集合に含まれる複数の抽出規則候補から、情報抽出手段で抽出された抽出結果が、正否情報が否である事例情報となる抽出規則候補を除外した第2の集合を生成し、第2の集合を用いて優先度を算出する。この場合には、第1の集合に含まれる複数の抽出規則候補から、抽出結果が負例となる抽出規則候補を除外して得られる第2の集合を生成することで、信頼性の高い抽出規則候補に基づいて優先度を算出できる。
事例候補選別手段は、第2の集合に含まれる、抽出規則候補の数、又は、抽出規則候補に従いテキストデータから抽出される抽出結果の数を用いて優先度を算出するようにしてもよい。例えば、抽出規則候補や抽出結果の数が大きい程、優先度が高くなるように算出してもよい。
事例候補選別手段は、第2の集合での、リンクの数、又は、最長リンク経由数を用いて優先度を算出するようにしてもよい。例えば、リンクや最長リンク経由数が大きい程、優先度が高くなるように算出してもよい。
本発明を特別に示し且つ例示的な実施形態を参照して説明したが、本発明は、その実施形態及びその変形に限定されるものではない。当業者に明らかなように、本発明は、添付のクレームに規定される本発明の精神及び範囲を逸脱することなく、種々の変更が可能である。
本出願は、2008年1月7日出願に係る日本特許出願2008−000685号を基礎とし且つその優先権を主張するものであり、引用によってその開示の内容の全てを本出願の明細書中に加入する。

Claims (19)

  1. 情報抽出規則を用いて特定の情報を抽出する情報抽出装置であって、
    抽出対象のテキストデータから得られた抽出結果を基に、前記情報抽出規則では抽出できない新たな特定の情報の候補を新規事例候補として抽出する事例候補抽出手段と、
    前記新規事例候補に基づいて、抽出規則候補を複数生成する規則候補生成手段と、
    前記新規事例候補と前記抽出規則候補との間の派生関係、及び、複数の前記抽出規則候補間の重複関係を分析して、関係分析結果を生成する関係分析手段と、
    前記関係分析結果と、予め用意された事例情報とに基づいて、前記新規事例候補の優先度を算出し、該優先度に従い前記新規事例候補を選別する事例候補選別手段と、を備えることを特徴とする情報抽出装置。
  2. 前記事例候補抽出手段は、前記抽出結果に基づいて、前記テキストデータから前記新規事例候補を抽出するための抽出条件を生成する、請求項1に記載の情報抽出装置。
  3. 前記抽出条件は、前記抽出結果として得られた文字列が該当する1つ又は複数の形態素が持つ属性値、又は該属性値の組み合わせである、請求項2に記載の情報抽出装置。
  4. 前記事例情報は、該事例情報の内容が抽出される情報として相応しいか否かを示す正否情報を含み、
    前記事例候補抽出手段は、前記テキストデータの該当箇所が、前記正否情報が否である事例情報と一致するとき、前記該当箇所を、前記新規事例候補から除外する、請求項3に記載の情報抽出装置。
  5. 前記規則候補生成手段は、前記生成された抽出規則候補毎に、前記新規事例候補を関連付けて、前記派生関係を生成する、請求項1〜4の何れか一に記載の情報抽出装置。
  6. 前記重複関係は、一方の抽出規則候補による抽出結果の少なくとも一部が他方の抽出規則候補による抽出結果を含むか否かを示す関係であって、
    前記規則候補生成手段から受け渡された前記抽出規則候補に従って前記テキストデータから抽出した抽出結果を、前記抽出規則候補毎に関連付けて、前記重複関係を生成する情報抽出手段を更に備える、請求項1〜5の何れか一に記載の情報抽出装置。
  7. 前記関係分析手段は、前記派生関係を満たす前記新規事例候補と前記抽出規則候補との間、及び、前記重複関係を満たす前記抽出規則候補の間をリンクさせた関係ネットワーク情報を生成する、請求項1〜6の何れか一に記載の情報抽出装置。
  8. 前記関係分析手段は、前記派生関係を満たす前記新規事例候補と前記抽出規則候補との間、及び、前記重複関係を満たす前記抽出規則候補の間をリンクさせた関係ネットワーク情報を生成し、
    前記関係ネットワーク情報は、前記派生関係及び前記重複関係を満たす複数の抽出規則候補からなる第1の集合を含み、
    前記事例候補選別手段は、前記第1の集合に含まれる複数の抽出規則候補から前記正否情報が否である事例情報を抽出結果として含む抽出規則候補を除外した第2の集合を生成し、前記第2の集合を用いて前記優先度を算出する、請求項に記載の情報抽出装置。
  9. 前記事例候補選別手段は、前記第2の集合に含まれる、前記抽出規則候補の数、又は、前記抽出規則候補に従い前記テキストデータから抽出される抽出結果の数を用いて前記優先度を算出する、請求項8に記載の情報抽出装置。
  10. 前記事例候補選別手段は、前記第2の集合での、リンクの数、又は、最長リンク経由数を用いて前記優先度を算出する、請求項8に記載の情報抽出装置。
  11. 通信回線を介してユーザ端末と接続され、情報抽出規則を用いて特定の情報を抽出する情報抽出装置を備える情報抽出システムであって、
    前記情報抽出装置は、
    抽出対象のテキストデータから得られた抽出結果を基に、前記情報抽出規則では抽出できない新たな特定の情報の候補を新規事例候補として抽出する事例候補抽出手段と、
    前記新規事例候補に基づいて、抽出規則候補を複数生成する規則候補生成手段と、
    前記新規事例候補と前記抽出規則候補との間の派生関係、及び、複数の前記抽出規則候補間の重複関係を分析して、関係分析結果を生成する関係分析手段と、
    前記関係分析結果と、予め用意された事例情報とに基づいて、前記新規事例候補の優先度を算出し、該優先度に従い前記新規事例候補を選別する事例候補選別手段と、
    前記事例候補選別手段により選別された新規事例候補の正否の判定を前記ユーザ端末に問い合せ、前記ユーザ端末からの判定結果を前記事例候補選別手段に受け渡す事例候補問い合せ手段とを備え、
    前記事例候補選別手段は、前記事例候補問い合せ手段から受け渡された前記判定結果に基づいて、前記選別された新規事例候補の正否を決定することを特徴とする情報抽出システム。
  12. 情報抽出規則を用いて特定の情報を抽出する情報抽出方法であって、
    抽出対象のテキストデータから得られた抽出結果を基に、前記情報抽出規則では抽出できない新たな特定の情報の候補を新規事例候補として抽出するステップと、
    前記新規事例候補に基づいて、抽出規則候補を複数生成するステップと、
    前記新規事例候補と前記抽出規則候補との間の派生関係、及び、複数の前記抽出規則候補間の重複関係を分析して、関係分析結果を生成するステップと、
    前記関係分析結果と、予め用意された事例情報とに基づいて、前記新規事例候補の優先度を算出し、該優先度に従い前記新規事例候補を選別するステップと、を備えることを特徴とする情報抽出方法。
  13. 前記事例情報は、該事例情報の内容が抽出される情報として相応しいか否かを示す正否情報を含み、
    前記抽出するステップでは、前記テキストデータの該当箇所が、前記正否情報が否である事例情報と一致するとき、前記該当箇所を、前記新規事例候補から除外する、請求項12に記載の情報抽出方法。
  14. 前記関係分析結果を生成するステップでは、前記派生関係を満たす前記新規事例候補と前記抽出規則候補との間、及び、前記重複関係を満たす前記抽出規則候補の間をリンクさせた関係ネットワーク情報を生成し、
    前記関係ネットワーク情報は、前記派生関係及び前記重複関係を満たす複数の抽出規則候補からなる第1の集合を含み、
    前記新規事例候補を選別するステップでは、前記第1の集合に含まれる複数の抽出規則候補から、前記正否情報が否である事例情報を抽出結果として含む抽出規則候補を除外した第2の集合を生成し、前記第2の集合を用いて前記優先度を算出する、請求項13に記載の情報抽出方法。
  15. 前記選別された新規事例候補の正否の判定をユーザ端末に問い合せるステップと、
    前記ユーザ端末からの前記正否の判定を示す判定結果を受けて、前記判定結果に基づいて、前記選別された新規事例候補の正否を決定するステップと、を更に備える請求項12〜14の何れか一に記載の情報抽出方法。
  16. コンピュータを備え、情報抽出規則を用いて特定の情報を抽出する情報抽出装置のための情報抽出プログラムであって、前記コンピュータに、
    抽出対象のテキストデータから得られた抽出結果を基に、前記情報抽出規則では抽出できない新たな特定の情報の候補を新規事例候補として抽出する処理と、
    前記新規事例候補に基づいて、抽出規則候補を複数生成する処理と、
    前記新規事例候補と前記抽出規則候補との間の派生関係、及び、複数の前記抽出規則候補間の重複関係を分析して、関係分析結果を生成する処理と、
    前記関係分析結果と、予め用意された事例情報とに基づいて、前記新規事例候補の優先度を算出し、該優先度に従い前記新規事例候補を選別する処理と、を実行させることを特徴とする情報抽出プログラム。
  17. 前記事例情報は、該事例情報の内容が抽出される情報として相応しいか否かを示す正否情報を含み、
    前記抽出する処理では、前記テキストデータの該当箇所が、前記正否情報が否である事例情報と一致するとき、前記該当箇所を、前記新規事例候補から除外する、請求項16に記載の情報抽出プログラム。
  18. 前記関係分析結果を生成する処理では、前記派生関係を満たす前記新規事例候補と前記抽出規則候補との間、及び、前記重複関係を満たす前記抽出規則候補の間をリンクさせた関係ネットワーク情報を生成し、
    前記関係ネットワーク情報は、前記派生関係及び前記重複関係を満たす複数の抽出規則候補からなる第1の集合を含み、
    前記新規事例候補を選別する処理では、前記第1の集合に含まれる複数の抽出規則候補から、前記正否情報が否である事例情報を抽出結果として含む抽出規則候補を除外した第2の集合を生成し、前記第2の集合を用いて前記優先度を算出する、請求項17に記載の情報抽出プログラム。
  19. 前記コンピュータに、
    前記選別された新規事例候補の正否の判定をユーザ端末に問い合せる処理と、
    前記ユーザ端末からの前記正否の判定を示す判定結果を受けて、前記判定結果に基づいて、前記選別された新規事例候補の正否を決定する処理と、を更に実行させる請求項16〜18の何れか一に記載の情報抽出プログラム。
JP2009548917A 2008-01-07 2009-01-06 情報抽出装置及び情報抽出システム Expired - Fee Related JP5370159B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009548917A JP5370159B2 (ja) 2008-01-07 2009-01-06 情報抽出装置及び情報抽出システム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008000685 2008-01-07
JP2008000685 2008-01-07
JP2009548917A JP5370159B2 (ja) 2008-01-07 2009-01-06 情報抽出装置及び情報抽出システム
PCT/JP2009/050039 WO2009087996A1 (ja) 2008-01-07 2009-01-06 情報抽出装置及び情報抽出システム

Publications (2)

Publication Number Publication Date
JPWO2009087996A1 JPWO2009087996A1 (ja) 2011-05-26
JP5370159B2 true JP5370159B2 (ja) 2013-12-18

Family

ID=40853109

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009548917A Expired - Fee Related JP5370159B2 (ja) 2008-01-07 2009-01-06 情報抽出装置及び情報抽出システム

Country Status (3)

Country Link
US (1) US20110202545A1 (ja)
JP (1) JP5370159B2 (ja)
WO (1) WO2009087996A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5317922B2 (ja) * 2009-10-16 2013-10-16 株式会社野村総合研究所 情報抽出ルール作成支援システム
US20130110818A1 (en) * 2011-10-28 2013-05-02 Eamonn O'Brien-Strain Profile driven extraction
CN103514213B (zh) * 2012-06-28 2016-12-21 华为技术有限公司 词语提取方法及装置
CN103885972B (zh) * 2012-12-20 2017-02-08 北大方正集团有限公司 一种文档内容结构化的方法及装置
US9336203B2 (en) * 2013-07-19 2016-05-10 Tibco Software Inc. Semantics-oriented analysis of log message content
JP6091455B2 (ja) * 2014-03-04 2017-03-08 三菱電機株式会社 機器グループ関係分析装置および機器グループ関係分析プログラム
CN105354224B (zh) * 2015-09-30 2019-07-23 百度在线网络技术(北京)有限公司 知识数据的处理方法和装置
US11763077B1 (en) * 2017-11-03 2023-09-19 EMC IP Holding Company LLC Uniform parsing of configuration files for multiple product types
CN109582933B (zh) * 2018-11-13 2021-09-03 北京合享智慧科技有限公司 一种确定文本新颖度的方法及相关装置
JP7173315B2 (ja) * 2019-05-21 2022-11-16 日本電信電話株式会社 分析装置、分析システム、分析方法及びプログラム
JP2020201822A (ja) * 2019-06-12 2020-12-17 キヤノン株式会社 画像処理装置、その制御方法、及びプログラム
CN116471344B (zh) * 2023-04-27 2023-11-21 无锡沐创集成电路设计有限公司 一种数据报文的关键字提取方法、装置及介质
CN116664335B (zh) * 2023-07-24 2023-10-03 创域智能(常熟)网联科技有限公司 基于智能监控的半导体生产***运行分析方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006004399A (ja) * 2004-05-20 2006-01-05 Fujitsu Ltd 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
JP2006023968A (ja) * 2004-07-08 2006-01-26 Hitachi Ltd 固有表現抽出方法および装置並びにそれらに用いるプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0776969B2 (ja) * 1986-04-18 1995-08-16 株式会社東芝 文書処理装置
US5629846A (en) * 1994-09-28 1997-05-13 General Electric Company Method and system for document translation and extraction
US20060053174A1 (en) * 2004-09-03 2006-03-09 Bio Wisdom Limited System and method for data extraction and management in multi-relational ontology creation
GB0521544D0 (en) * 2005-10-22 2005-11-30 Ibm A system for modifying a rule base for use in processing data
US20090119095A1 (en) * 2007-11-05 2009-05-07 Enhanced Medical Decisions. Inc. Machine Learning Systems and Methods for Improved Natural Language Processing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006004399A (ja) * 2004-05-20 2006-01-05 Fujitsu Ltd 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
JP2006023968A (ja) * 2004-07-08 2006-01-26 Hitachi Ltd 固有表現抽出方法および装置並びにそれらに用いるプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6009010908; 河合剛巨, 安藤真一: 'ルールの自動生成と対話的選択に基づく情報抽出ルール作成支援の提案' 言語処理学会第13回年次大会発表論文集 , 200703, 566-569頁 *

Also Published As

Publication number Publication date
US20110202545A1 (en) 2011-08-18
JPWO2009087996A1 (ja) 2011-05-26
WO2009087996A1 (ja) 2009-07-16

Similar Documents

Publication Publication Date Title
JP5370159B2 (ja) 情報抽出装置及び情報抽出システム
US10956464B2 (en) Natural language question answering method and apparatus
US11520800B2 (en) Extensible data transformations
US9275115B2 (en) Correlating corpus/corpora value from answered questions
RU2610241C2 (ru) Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов
US11809442B2 (en) Facilitating data transformations
CN111417940B (zh) 用于生成问题答案的方法、***和介质
CN109325201A (zh) 实体关系数据的生成方法、装置、设备及存储介质
US11809223B2 (en) Collecting and annotating transformation tools for use in generating transformation programs
JP2010501096A (ja) ラッパー生成およびテンプレート検出の協同最適化
JP5315368B2 (ja) 文書処理装置
KR101933953B1 (ko) 페이지랭크와 토픽 모델링을 이용한 소프트웨어 도메인 토픽 추출 시스템
CN111079043A (zh) 一种关键内容定位方法
JP2012079161A (ja) 自然言語文生成装置及びコンピュータプログラム
CN108762743A (zh) 一种数据表操作代码生成方法及装置
WO2023278052A1 (en) Automated troubleshooter
JP2020067971A (ja) 情報処理システムおよび情報処理方法
CN111158973B (zh) 一种web应用动态演化监测方法
US20160085760A1 (en) Method for in-loop human validation of disambiguated features
KR20120070713A (ko) 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
US20220067555A1 (en) Creation Assisting Device, Creation Assisting Method, And Recording Medium
JPWO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Thamviset et al. Structured web information extraction using repetitive subject pattern
JP2020021455A (ja) 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130611

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130820

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130902

R150 Certificate of patent or registration of utility model

Ref document number: 5370159

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees