JP5370159B2 - 情報抽出装置及び情報抽出システム - Google Patents
情報抽出装置及び情報抽出システム Download PDFInfo
- Publication number
- JP5370159B2 JP5370159B2 JP2009548917A JP2009548917A JP5370159B2 JP 5370159 B2 JP5370159 B2 JP 5370159B2 JP 2009548917 A JP2009548917 A JP 2009548917A JP 2009548917 A JP2009548917 A JP 2009548917A JP 5370159 B2 JP5370159 B2 JP 5370159B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- extraction
- candidate
- case
- candidates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 543
- 238000004458 analytical method Methods 0.000 claims abstract description 59
- 238000000034 method Methods 0.000 claims description 31
- 238000009795 derivation Methods 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 26
- 239000000284 extract Substances 0.000 claims description 17
- 238000004891 communication Methods 0.000 claims description 3
- 238000004587 chromatography analysis Methods 0.000 claims 2
- 238000004519 manufacturing process Methods 0.000 claims 1
- 238000012790 confirmation Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 5
- 230000000877 morphologic effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
前記関係分析結果と、予め用意された事例情報とに基づいて、前記新規事例候補の優先度を算出し、該優先度に従い前記新規事例候補を選別する事例候補選別手段と、を備えることを特徴とする情報抽出装置を提供する。
前記関係分析結果と、予め用意された事例情報とに基づいて、前記新規事例候補の優先度を算出し、該優先度に従い前記新規事例候補を選別する事例候補選別手段と、前記事例候補選別手段により選別された新規事例候補の正否の判定を前記ユーザ端末に問い合せ、前記ユーザ端末からの判定結果を前記事例候補選別手段に受け渡す事例候補問い合せ手段とを備え、前記事例候補選別手段は、前記事例候補問い合せ手段から受け渡された前記判定結果に基づいて、前記選別された新規事例候補の正否を決定することを特徴とする情報抽出システムを提供する。
前記新規事例候補と前記抽出規則候補との間の派生関係、及び、複数の前記抽出規則候補間の重複関係を分析して、関係分析結果を生成する処理と、前記関係分析結果と、予め用意された事例情報とに基づいて、前記新規事例候補の優先度を算出し、該優先度に従い前記新規事例候補を選別する処理と、を実行させることを特徴とする情報抽出プログラムを提供する。
(第1の実施形態)
図1は、本発明の第1の実施形態に係る情報抽出装置を示すブロック図である。情報抽出装置10は、データ入力手段(unit)11と、事例候補抽出手段12と、情報抽出手段13と、規則候補生成手段14と、関係分析手段15と、事例候補選別手段16とを備える。情報抽出装置10は、本構成により、抽出対象となる大量のテキストデータから特定の情報を抽出する際に適用される情報抽出規則の生成に用いられる事例の選出を行う。
図11は、本発明の第2の実施形態に係る情報抽出装置を含む情報抽出システムの一例を示すブロック図である。以下では、第1の実施形態の情報抽出装置10と同様な機能を有し、説明が重複する部分については適宜省略する。情報抽出システム100は、ユーザ端末90と、通信回線を介してユーザ端末90と接続される情報抽出装置10Aとを備える。情報抽出装置10Aは、第1の実施形態の情報抽出装置10と比べると、事例候補問い合せ手段17が追加された点が主に異なる。ここでは、コンピュータの中央演算処理装置が事例候補問い合せ手段17としても機能している。
事例候補抽出手段は、抽出結果に基づいて、テキストデータから新規事例候補を抽出するための抽出条件を生成する。この場合には、抽出条件を、例えば、テキストデータから抽出される情報であって、予め用意された事例情報には含まれていない情報として生成することもできる。
Claims (19)
- 情報抽出規則を用いて特定の情報を抽出する情報抽出装置であって、
抽出対象のテキストデータから得られた抽出結果を基に、前記情報抽出規則では抽出できない新たな特定の情報の候補を新規事例候補として抽出する事例候補抽出手段と、
前記新規事例候補に基づいて、抽出規則候補を複数生成する規則候補生成手段と、
前記新規事例候補と前記抽出規則候補との間の派生関係、及び、複数の前記抽出規則候補間の重複関係を分析して、関係分析結果を生成する関係分析手段と、
前記関係分析結果と、予め用意された事例情報とに基づいて、前記新規事例候補の優先度を算出し、該優先度に従い前記新規事例候補を選別する事例候補選別手段と、を備えることを特徴とする情報抽出装置。 - 前記事例候補抽出手段は、前記抽出結果に基づいて、前記テキストデータから前記新規事例候補を抽出するための抽出条件を生成する、請求項1に記載の情報抽出装置。
- 前記抽出条件は、前記抽出結果として得られた文字列が該当する1つ又は複数の形態素が持つ属性値、又は該属性値の組み合わせである、請求項2に記載の情報抽出装置。
- 前記事例情報は、該事例情報の内容が抽出される情報として相応しいか否かを示す正否情報を含み、
前記事例候補抽出手段は、前記テキストデータの該当箇所が、前記正否情報が否である事例情報と一致するとき、前記該当箇所を、前記新規事例候補から除外する、請求項3に記載の情報抽出装置。 - 前記規則候補生成手段は、前記生成された抽出規則候補毎に、前記新規事例候補を関連付けて、前記派生関係を生成する、請求項1〜4の何れか一に記載の情報抽出装置。
- 前記重複関係は、一方の抽出規則候補による抽出結果の少なくとも一部が他方の抽出規則候補による抽出結果を含むか否かを示す関係であって、
前記規則候補生成手段から受け渡された前記抽出規則候補に従って前記テキストデータから抽出した抽出結果を、前記抽出規則候補毎に関連付けて、前記重複関係を生成する情報抽出手段を更に備える、請求項1〜5の何れか一に記載の情報抽出装置。 - 前記関係分析手段は、前記派生関係を満たす前記新規事例候補と前記抽出規則候補との間、及び、前記重複関係を満たす前記抽出規則候補の間をリンクさせた関係ネットワーク情報を生成する、請求項1〜6の何れか一に記載の情報抽出装置。
- 前記関係分析手段は、前記派生関係を満たす前記新規事例候補と前記抽出規則候補との間、及び、前記重複関係を満たす前記抽出規則候補の間をリンクさせた関係ネットワーク情報を生成し、
前記関係ネットワーク情報は、前記派生関係及び前記重複関係を満たす複数の抽出規則候補からなる第1の集合を含み、
前記事例候補選別手段は、前記第1の集合に含まれる複数の抽出規則候補から、前記正否情報が否である事例情報を抽出結果として含む抽出規則候補を除外した第2の集合を生成し、前記第2の集合を用いて前記優先度を算出する、請求項4に記載の情報抽出装置。 - 前記事例候補選別手段は、前記第2の集合に含まれる、前記抽出規則候補の数、又は、前記抽出規則候補に従い前記テキストデータから抽出される抽出結果の数を用いて前記優先度を算出する、請求項8に記載の情報抽出装置。
- 前記事例候補選別手段は、前記第2の集合での、リンクの数、又は、最長リンク経由数を用いて前記優先度を算出する、請求項8に記載の情報抽出装置。
- 通信回線を介してユーザ端末と接続され、情報抽出規則を用いて特定の情報を抽出する情報抽出装置を備える情報抽出システムであって、
前記情報抽出装置は、
抽出対象のテキストデータから得られた抽出結果を基に、前記情報抽出規則では抽出できない新たな特定の情報の候補を新規事例候補として抽出する事例候補抽出手段と、
前記新規事例候補に基づいて、抽出規則候補を複数生成する規則候補生成手段と、
前記新規事例候補と前記抽出規則候補との間の派生関係、及び、複数の前記抽出規則候補間の重複関係を分析して、関係分析結果を生成する関係分析手段と、
前記関係分析結果と、予め用意された事例情報とに基づいて、前記新規事例候補の優先度を算出し、該優先度に従い前記新規事例候補を選別する事例候補選別手段と、
前記事例候補選別手段により選別された新規事例候補の正否の判定を前記ユーザ端末に問い合せ、前記ユーザ端末からの判定結果を前記事例候補選別手段に受け渡す事例候補問い合せ手段とを備え、
前記事例候補選別手段は、前記事例候補問い合せ手段から受け渡された前記判定結果に基づいて、前記選別された新規事例候補の正否を決定することを特徴とする情報抽出システム。 - 情報抽出規則を用いて特定の情報を抽出する情報抽出方法であって、
抽出対象のテキストデータから得られた抽出結果を基に、前記情報抽出規則では抽出できない新たな特定の情報の候補を新規事例候補として抽出するステップと、
前記新規事例候補に基づいて、抽出規則候補を複数生成するステップと、
前記新規事例候補と前記抽出規則候補との間の派生関係、及び、複数の前記抽出規則候補間の重複関係を分析して、関係分析結果を生成するステップと、
前記関係分析結果と、予め用意された事例情報とに基づいて、前記新規事例候補の優先度を算出し、該優先度に従い前記新規事例候補を選別するステップと、を備えることを特徴とする情報抽出方法。 - 前記事例情報は、該事例情報の内容が抽出される情報として相応しいか否かを示す正否情報を含み、
前記抽出するステップでは、前記テキストデータの該当箇所が、前記正否情報が否である事例情報と一致するとき、前記該当箇所を、前記新規事例候補から除外する、請求項12に記載の情報抽出方法。 - 前記関係分析結果を生成するステップでは、前記派生関係を満たす前記新規事例候補と前記抽出規則候補との間、及び、前記重複関係を満たす前記抽出規則候補の間をリンクさせた関係ネットワーク情報を生成し、
前記関係ネットワーク情報は、前記派生関係及び前記重複関係を満たす複数の抽出規則候補からなる第1の集合を含み、
前記新規事例候補を選別するステップでは、前記第1の集合に含まれる複数の抽出規則候補から、前記正否情報が否である事例情報を抽出結果として含む抽出規則候補を除外した第2の集合を生成し、前記第2の集合を用いて前記優先度を算出する、請求項13に記載の情報抽出方法。 - 前記選別された新規事例候補の正否の判定をユーザ端末に問い合せるステップと、
前記ユーザ端末からの前記正否の判定を示す判定結果を受けて、前記判定結果に基づいて、前記選別された新規事例候補の正否を決定するステップと、を更に備える請求項12〜14の何れか一に記載の情報抽出方法。 - コンピュータを備え、情報抽出規則を用いて特定の情報を抽出する情報抽出装置のための情報抽出プログラムであって、前記コンピュータに、
抽出対象のテキストデータから得られた抽出結果を基に、前記情報抽出規則では抽出できない新たな特定の情報の候補を新規事例候補として抽出する処理と、
前記新規事例候補に基づいて、抽出規則候補を複数生成する処理と、
前記新規事例候補と前記抽出規則候補との間の派生関係、及び、複数の前記抽出規則候補間の重複関係を分析して、関係分析結果を生成する処理と、
前記関係分析結果と、予め用意された事例情報とに基づいて、前記新規事例候補の優先度を算出し、該優先度に従い前記新規事例候補を選別する処理と、を実行させることを特徴とする情報抽出プログラム。 - 前記事例情報は、該事例情報の内容が抽出される情報として相応しいか否かを示す正否情報を含み、
前記抽出する処理では、前記テキストデータの該当箇所が、前記正否情報が否である事例情報と一致するとき、前記該当箇所を、前記新規事例候補から除外する、請求項16に記載の情報抽出プログラム。 - 前記関係分析結果を生成する処理では、前記派生関係を満たす前記新規事例候補と前記抽出規則候補との間、及び、前記重複関係を満たす前記抽出規則候補の間をリンクさせた関係ネットワーク情報を生成し、
前記関係ネットワーク情報は、前記派生関係及び前記重複関係を満たす複数の抽出規則候補からなる第1の集合を含み、
前記新規事例候補を選別する処理では、前記第1の集合に含まれる複数の抽出規則候補から、前記正否情報が否である事例情報を抽出結果として含む抽出規則候補を除外した第2の集合を生成し、前記第2の集合を用いて前記優先度を算出する、請求項17に記載の情報抽出プログラム。 - 前記コンピュータに、
前記選別された新規事例候補の正否の判定をユーザ端末に問い合せる処理と、
前記ユーザ端末からの前記正否の判定を示す判定結果を受けて、前記判定結果に基づいて、前記選別された新規事例候補の正否を決定する処理と、を更に実行させる請求項16〜18の何れか一に記載の情報抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009548917A JP5370159B2 (ja) | 2008-01-07 | 2009-01-06 | 情報抽出装置及び情報抽出システム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008000685 | 2008-01-07 | ||
JP2008000685 | 2008-01-07 | ||
JP2009548917A JP5370159B2 (ja) | 2008-01-07 | 2009-01-06 | 情報抽出装置及び情報抽出システム |
PCT/JP2009/050039 WO2009087996A1 (ja) | 2008-01-07 | 2009-01-06 | 情報抽出装置及び情報抽出システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2009087996A1 JPWO2009087996A1 (ja) | 2011-05-26 |
JP5370159B2 true JP5370159B2 (ja) | 2013-12-18 |
Family
ID=40853109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009548917A Expired - Fee Related JP5370159B2 (ja) | 2008-01-07 | 2009-01-06 | 情報抽出装置及び情報抽出システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20110202545A1 (ja) |
JP (1) | JP5370159B2 (ja) |
WO (1) | WO2009087996A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5317922B2 (ja) * | 2009-10-16 | 2013-10-16 | 株式会社野村総合研究所 | 情報抽出ルール作成支援システム |
US20130110818A1 (en) * | 2011-10-28 | 2013-05-02 | Eamonn O'Brien-Strain | Profile driven extraction |
CN103514213B (zh) * | 2012-06-28 | 2016-12-21 | 华为技术有限公司 | 词语提取方法及装置 |
CN103885972B (zh) * | 2012-12-20 | 2017-02-08 | 北大方正集团有限公司 | 一种文档内容结构化的方法及装置 |
US9336203B2 (en) * | 2013-07-19 | 2016-05-10 | Tibco Software Inc. | Semantics-oriented analysis of log message content |
JP6091455B2 (ja) * | 2014-03-04 | 2017-03-08 | 三菱電機株式会社 | 機器グループ関係分析装置および機器グループ関係分析プログラム |
CN105354224B (zh) * | 2015-09-30 | 2019-07-23 | 百度在线网络技术(北京)有限公司 | 知识数据的处理方法和装置 |
US11763077B1 (en) * | 2017-11-03 | 2023-09-19 | EMC IP Holding Company LLC | Uniform parsing of configuration files for multiple product types |
CN109582933B (zh) * | 2018-11-13 | 2021-09-03 | 北京合享智慧科技有限公司 | 一种确定文本新颖度的方法及相关装置 |
JP7173315B2 (ja) * | 2019-05-21 | 2022-11-16 | 日本電信電話株式会社 | 分析装置、分析システム、分析方法及びプログラム |
JP2020201822A (ja) * | 2019-06-12 | 2020-12-17 | キヤノン株式会社 | 画像処理装置、その制御方法、及びプログラム |
CN116471344B (zh) * | 2023-04-27 | 2023-11-21 | 无锡沐创集成电路设计有限公司 | 一种数据报文的关键字提取方法、装置及介质 |
CN116664335B (zh) * | 2023-07-24 | 2023-10-03 | 创域智能(常熟)网联科技有限公司 | 基于智能监控的半导体生产***运行分析方法及*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006004399A (ja) * | 2004-05-20 | 2006-01-05 | Fujitsu Ltd | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 |
JP2006023968A (ja) * | 2004-07-08 | 2006-01-26 | Hitachi Ltd | 固有表現抽出方法および装置並びにそれらに用いるプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0776969B2 (ja) * | 1986-04-18 | 1995-08-16 | 株式会社東芝 | 文書処理装置 |
US5629846A (en) * | 1994-09-28 | 1997-05-13 | General Electric Company | Method and system for document translation and extraction |
US20060053174A1 (en) * | 2004-09-03 | 2006-03-09 | Bio Wisdom Limited | System and method for data extraction and management in multi-relational ontology creation |
GB0521544D0 (en) * | 2005-10-22 | 2005-11-30 | Ibm | A system for modifying a rule base for use in processing data |
US20090119095A1 (en) * | 2007-11-05 | 2009-05-07 | Enhanced Medical Decisions. Inc. | Machine Learning Systems and Methods for Improved Natural Language Processing |
-
2009
- 2009-01-06 WO PCT/JP2009/050039 patent/WO2009087996A1/ja active Application Filing
- 2009-01-06 US US12/811,861 patent/US20110202545A1/en not_active Abandoned
- 2009-01-06 JP JP2009548917A patent/JP5370159B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006004399A (ja) * | 2004-05-20 | 2006-01-05 | Fujitsu Ltd | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 |
JP2006023968A (ja) * | 2004-07-08 | 2006-01-26 | Hitachi Ltd | 固有表現抽出方法および装置並びにそれらに用いるプログラム |
Non-Patent Citations (1)
Title |
---|
JPN6009010908; 河合剛巨, 安藤真一: 'ルールの自動生成と対話的選択に基づく情報抽出ルール作成支援の提案' 言語処理学会第13回年次大会発表論文集 , 200703, 566-569頁 * |
Also Published As
Publication number | Publication date |
---|---|
US20110202545A1 (en) | 2011-08-18 |
JPWO2009087996A1 (ja) | 2011-05-26 |
WO2009087996A1 (ja) | 2009-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5370159B2 (ja) | 情報抽出装置及び情報抽出システム | |
US10956464B2 (en) | Natural language question answering method and apparatus | |
US11520800B2 (en) | Extensible data transformations | |
US9275115B2 (en) | Correlating corpus/corpora value from answered questions | |
RU2610241C2 (ru) | Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов | |
US11809442B2 (en) | Facilitating data transformations | |
CN111417940B (zh) | 用于生成问题答案的方法、***和介质 | |
CN109325201A (zh) | 实体关系数据的生成方法、装置、设备及存储介质 | |
US11809223B2 (en) | Collecting and annotating transformation tools for use in generating transformation programs | |
JP2010501096A (ja) | ラッパー生成およびテンプレート検出の協同最適化 | |
JP5315368B2 (ja) | 文書処理装置 | |
KR101933953B1 (ko) | 페이지랭크와 토픽 모델링을 이용한 소프트웨어 도메인 토픽 추출 시스템 | |
CN111079043A (zh) | 一种关键内容定位方法 | |
JP2012079161A (ja) | 自然言語文生成装置及びコンピュータプログラム | |
CN108762743A (zh) | 一种数据表操作代码生成方法及装置 | |
WO2023278052A1 (en) | Automated troubleshooter | |
JP2020067971A (ja) | 情報処理システムおよび情報処理方法 | |
CN111158973B (zh) | 一种web应用动态演化监测方法 | |
US20160085760A1 (en) | Method for in-loop human validation of disambiguated features | |
KR20120070713A (ko) | 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 | |
US20220067555A1 (en) | Creation Assisting Device, Creation Assisting Method, And Recording Medium | |
JPWO2009113289A1 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
Thamviset et al. | Structured web information extraction using repetitive subject pattern | |
JP2020021455A (ja) | 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110902 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130611 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130725 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130820 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130902 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5370159 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |