JP2005190141A - 情報区分装置、情報区分方法及び情報区分プログラム - Google Patents

情報区分装置、情報区分方法及び情報区分プログラム Download PDF

Info

Publication number
JP2005190141A
JP2005190141A JP2003430185A JP2003430185A JP2005190141A JP 2005190141 A JP2005190141 A JP 2005190141A JP 2003430185 A JP2003430185 A JP 2003430185A JP 2003430185 A JP2003430185 A JP 2003430185A JP 2005190141 A JP2005190141 A JP 2005190141A
Authority
JP
Japan
Prior art keywords
document
reference source
source document
label
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003430185A
Other languages
English (en)
Other versions
JP4196824B2 (ja
Inventor
Keiji Ikada
恵志 伊加田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2003430185A priority Critical patent/JP4196824B2/ja
Priority to US11/016,844 priority patent/US20050154703A1/en
Publication of JP2005190141A publication Critical patent/JP2005190141A/ja
Application granted granted Critical
Publication of JP4196824B2 publication Critical patent/JP4196824B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 明確な構造情報を持っていない電子文書をも適切に各情報(部分文書)に分割する情報区分装置、方法及びプログラムを提供する。
【解決手段】 本発明では、処理対象の複数の電子文書に共通するであろう表層的特徴のみを電子文書として記述している参照元文書を用意しておく。そして、区分処理対象の入力電子文書と参照元文書とを比較し、参照元文書に対して、挿入されている入力電子文書の部分と、参照元文書に対して、変更されている入力電子文書の部分とを部分文書として区分する。
【選択図】 図1

Description

本発明は、複数の情報が記載されている電子文書を区分する情報区分装置、情報区分方法及び情報区分プログラムに関し、例えば、電子文書化されている特許公報や判決文やニュースメールなどの情報を分割して分類する場合に適用し得るものである。
近年、インターネットなどのネットワーク技術の普及により、大量の電子文書へのアクセスが可能となり、大量の文書情報を分類するなどの作業を自動的に行う必要性が高まっている。電子文書として、例えば、特許公報があげられる。特許公報は、名称、請求項、効果など1つの文書内に複数の情報が記載された文書とみなすことができる。その情報を分類するためには文書内の各情報を適切に分割する必要がある。
文書を分割して分類する装置として、特許文献1に記載されたものがある。この装置では、文書データの構造化情報(HTMLのタグや文字のフォント情報)に基づき、文書データを分割する手段を設けることにより、情報の分類の一助としている例が示されている。
また、電子メールで配信されるニュースメールのように、複数の内容の異なる記事が記載された文書から、利用者が予め登録したキーワードを含む記事部分を取り出し、キーワード単位で分類する装置として、特許文献2に記載されたものがある。
特開2000−285140号公報 特開2001−109772号公報
しかしながら、特許文献1に記載の装置では、「特許公報」のような明確な構造情報を持っていない文書には適用できないという問題がある。
また、特許文献2の記載装置では、明確な構造情報を持っていないニュースメールのような文書から、単位記事として、文書の一部分を抜き出すことが可能である。しかしながら、ニュースメールには、記事と記事広告が混在しているものや、記事においても、分野毎に、例えば、政治、経済、スポーツといった単位で区別してまとめられているようなものがあり、また、特許公報のように、名称や請求項、実施例などの項目に分かれているような文書もあるが、このような文書に対して、特許文献2の記載装置では、単位記事を記事、記事広告で分類したり、また、単位記事を分野別、項目別といった単位で分類したりすることはできない。
さらに、複数の情報を記載した電子文書としては、上述した特許公報やニュースメールだけでなく、多種多様な文書が存在している。しかし、これらの多種多様な文書のそれぞれに対して、それに併せて適切に分割する手段やプログラムを1つ1つ人手で作成するのは煩雑である。
そのため、明確な構造情報を持っていない電子文書をも、適切に各情報に分割できる情報区分装置、情報区分方法及び情報区分プログラムが望まれている。
かかる課題を解決するため、第1の本発明は、入力された電子文書を区分する情報区分装置において、処理対象の複数の電子文書に共通するであろう表層的特徴のみを電子文書として記述している参照元文書を格納する参照元文書格納手段と、入力電子文書と、上記参照元文書格納手段に格納されている上記参照元文書とを比較し、上記参照元文書に対して、挿入されている上記入力電子文書の部分と、上記参照元文書に対して、変更されている上記入力電子文書の部分とを部分文書として区分する文書比較手段とを有することを特徴とする。
また、第2の本発明は、入力された電子文書を区分する情報区分方法において、処理対象の複数の電子文書に共通するであろう表層的特徴のみを電子文書として記述している参照元文書を用意しておき、入力電子文書と、上記参照元文書とを比較し、上記参照元文書に対して、挿入されている上記入力電子文書の部分と、上記参照元文書に対して、変更されている上記入力電子文書の部分とを部分文書として区分する文書比較工程を含むことを特徴とする。
さらに、第3の本発明の情報区分プログラムは、第2の本発明の情報区分方法の工程及び用意しておくデータをコンピュータが処理し得るコードで記述したことを特徴とする。
本発明によれば、参照元文書を用意しておき、この参照元文書と入力電子文書とを比較することにより、入力電子文書を区分するので、明確な構造情報を持っていない電子文書をも、適切に各情報(部分文書)に分割することができる。
(A)第1の実施形態
以下、本発明による情報区分装置、方法及びプログラムの第1の実施形態を図面を参照しながら詳述する。
(A−1)第1の実施形態の構成
図1は、第1の実施形態の情報区分装置の機能的構成を示すブロック図である。例えば、第1の実施形態の情報区分装置は、通信機能を有するパソコン等の情報処理装置に対し、CD−ROMやフレキシブルディスク等の記録媒体に記録されている情報区分プログラム(データファイルや、データを格納するテーブル等を含む)をインストールしたり、情報区分プログラムをネットワークからダウンロードしてインストールすることで実現されるが、機能的には、図1で表すことができる。
図1において、第1の実施形態の情報区分装置100は、文書比較部101、比較結果記憶部102、ラベリング部103、参照元文書データ104、参照元文書/ラベル対応データ105及びラベリング結果記憶部106を有する。
文書比較部101は、入力文書と後述する参照元文書とを比較するものであり、参照元文書と入力文書との間のデータの増減あるいは変更というような編集状態と、その領域(参照元文書と入力文書の両方)を検出するものである。文書比較部101として、例えば、参考文献『E.Myers,“An O(ND) Difference Algorithm and Its Variations”, Algorithmica 1,2(1986),pp.251−266』の方法を利用したものを適用し得る。
編集状態とは、上述のように、文書比較部101の比較結果の分類であり、「一致」、「変更」、「挿入」及び「削除」の4つがある。「一致」は、参照元文書のある位置iと人力文書のある位置jが等しい表現であると、文書比較部101によって検出されたことを表している。「変更」は、参照元文書のある領域(ある位置iから他の位置i+n(n≧0)まで)が、入力文書のある領域(ある位置jから他の位置j+m(m≧0)まで)に置き換わったと、文書比較部101によって検出されたことを表している。「挿入」は、入力文書において、参照元文書のある位置iと位置i+1の間に、文字列が挿入されたと、文書比較部101によって検出されたことを表している。「削除」は、参照元文書のある領域(ある位置iから他の位置i+n(n≧0)まで)が、入力文書ではなくなったと、文書比較部101によって検出されたことを表している。
比較結果記憶部102は、文書比較部101による比較結果を記憶するものである。比較結果記憶部102は、例えば、図2に示すように、検出された編集状態毎に、参照元文書編集開始位置、入力文書編集開始位置、入力文書編集終了位置のデータを記憶する。
ラベリング部103は、比較結果記憶部102に格納されたデータと、後述する参照元文書/ラベル対応データ105に納められているデータとを用いて、入力文書の各領域に分類のためのラベルを付与するものである。
ラベリング結果記憶部106は、ラベリング部103が行った処理結果(ラベリング結果)を記録しておくものである。ラベリング結果記憶部106に記録されるラベリング結果データは、例えば、図3に示すような、入力文書開始位置、入力文書終了位置及びラベルでなるものを入力文書とは別個に格納しておくものであっても良く、また例えば、後述する図9に示すようなそのまま出力できる形態のデータであっても良い。
参照元文書データ104は、文書比較部101に入力される参照元文書(参照元文書データ)である。なお、本明細書において、「参照元文書データ」の用語は、データそのものを意味する場合もあれば、その格納部を意味する場合もある。参照元文書は、入力文書から分類すべき部分(以下、部分文書と呼ぶ)を抽出するための文書であり、例えば、部分文書間の切れ目などになる行の文字列を、行の並びを維持したまま、行単位に羅列したものである。図4は、参照元文書の一例であり、入力文書が特許明細書の場合を意図した参照元文書である。
参照元文書/ラベル対応データ105は、例えば、図5に示すように、参照元文書における位置と、比較結果の編集状態と、ラベルを記録したデータである。なお、本明細書において、「参照元文書/ラベル対応データ」の用語は、データそのものを意味する場合もあれば、その格納部を意味する場合もある。
(A−2)第1の実施形態の動作
次に、上述した構成を有する第1の実施形態の情報区分装置100の動作(情報区分方法)を説明する。なお、以下の説明では、上述した図4に示す参照元文書(データ)と、上述した図5に示す参照元文書/ラベル対応データとが格納されている場合において、図6に示すような文書(データ)が入力されたとして、適宜、具体的に説明する。
なお、図示しない文書入力部による文書の入力方法は問われない。例えば、ネットワークを介して、文書データの無償、有償の提供元からダウンロードさせて入力するようにしても良い。また、フレキシブルディスクやCD−ROM等の記録媒体から、文書データを読み出して入力するようにしても良い。さらに、キーボードから入力したり、OCRを利用し、紙文書を電子文書に変換して入力するようにしても良い。さらにまた、電子メールを直接、あるいはメールサーバから取り込んで入力するようにしても良く、この場合に、本文部分だけを切り出した後に入力するようにしても良い。
文書入力部によって文書が入力されると、文字列データとして文書比較部101に渡される。文書比較部101においては、参照元文書と入力文書との比較が実行され、2つの文書間の差異が検出される。文書比較部101が、例えば、上述した参考文献の文書比較方法を適用している場合には、詳細は省略するが、参照元文書と入力文書の1行ずつを上から順番に取り出し、同じ文字列かどうかを比較していき、異なる行の数が最も少なくなるように一致している行を探すことで文書間の差異を検出する。
図7は、図4に示す参照元文書REFと図6に示す入力文書INとの比較結果の説明図である。
図7において、図の左端の数字は説明のために付与した位置を示す番号である。なお、参照元文書REFや入力文書INの位置(行位置)を特定するための情報は付与されて処理される。すなわち、入力文書がそのような情報を含まないものであれば、文書比較部101は、まず、位置情報の付与処理を行うことになる。
参照元文書REFの位置2の行と入力文書INの位置3’の行、参照元文書REFの位置3の行と入力文書INの位置10’の行、参照元文書REFの位置4の行と入力文書INの位置11’の行の組み合わせが、異なる行の数が最も少ない場合の一致している行として検出される。なお、第1行直前の参照元文書REFの位置0の行と入力文書INの位置0’の行の組み合わせ(実際上は存在しないが仮定している)や、最終行直後の参照元文書REFの位置5の行と入力文書INの位置14’の行の組み合わせ(実際上は存在しないが仮定している)は、一致行と見なされている。
文書比較部101は、以上のようにして、参照元文書REFと入力文書INとの一致行を見付けた後、比較結果記憶部102に格納する比較結果(のデータ)を生成する。上述した図2は、図6のような参照元文書REFと入力文書INとの対応の場合における、比較結果記憶部102に格納された比較結果データを示している。
なお、比較結果記憶部102に対し、「一致」、「変更」、「挿入」及び「削除」の全種類の編集状態の結果データを格納するようにしても良く、「変更」、「挿入」及び「削除」の3つの編集状態の結果データを格納するようにしても良く、「変更」及び「挿入」の2つの編集状態の結果データを格納するようにしても良い。すなわち、部分文書を分類、抽出するためには、少なくとも「変更」及び「挿入」の状態を認識していれば良いが、比較結果記憶部102の構成によっては、「一致」、「変更」、「挿入」及び「削除」や、「変更」、「挿入」及び「削除」が出力され、その出力をふるいをかけずに格納した方が処理が速い場合もある。図2は、「変更」及び「挿入」の2つの編集状態の結果データだけを格納する場合を示している。
参照元文書REFにおける一致する相前後する2行、すなわち、位置0の行と位置2の行の間には位置1の行があり、一致するそれに対応する入力文書INの位置0’及び3’の間には2行があってそれら2行は一致していないので、比較結果データの最初のレコードとして、編集状態が「変更」、参照元文書編集開始位置が「1」、入力文書編集開始位置が「1’」、入力文書編集終了位置が「2’」が記憶される。
また、参照元文書REFにおける一致する相前後する次の2行、すなわち、位置2の行と位置3の行の間には他の行が存在せず、それに対応する入力文書INの一致する位置3’及び10’には6行があるので、比較結果データの次のレコードとして、編集状態が「挿入」、参照元文書編集開始位置が「2」、入力文書編集開始位置が「4’」、入力文書編集終了位置が「9’」が記憶される。
さら、参照元文書REFにおける一致する相前後する次の2行、すなわち、位置3の行と位置4の行の間には他の行が存在せず、それに対応する入力文書INの一致する位置10’及び11’にも他の行が存在しないので、編集状態が「挿入」にも「変更」にも該当せず、そのため、この比較結果に係るデータは、比較結果記憶部102に記憶されない。
図2の3番目のレコードは、図2の2番目のレコードと同様な考え方により、形成されて記憶されたものである。
次に、ラベリング部103は、参照元文書/ラベル対応データ105と比較結果記憶部102のデータとを用いてラベルの付与を行う。ラベリング部103によるラベル付与動作は、図8のフローチャートで表すことができる。
ラベリング部103は、比較結果記憶部102の結果データを1つ(1レコード)取り出し(S701)、その取り出した結果データの編集状態が「変更」か「挿入」かを判別する(S702、S703)。
取り出した結果データの編集状態が「変更」でも「挿入」でもなければ(言い換えると、「削除」や「一致」)、ラベリング部103は、未処理の結果データが残っているかを確認し(S710)、残っていればステップS701に戻って結果データの取り出しを行い、一方、未処理の結果データが残っていなければ、図8に示す一連の処理を終了する。なお、比較結果記憶部102に、「変更」又は「挿入」のデータだけで記憶するようにした場合には、編集状態が「変更」か「挿入」かが判別されることになる。
編集状態が「挿入」又は「変更」の場合には、同じ結果データから、参照元文書開始位置を取得する(S704)。そして、編集状態と参照元文書開始位置との組み合わせをキーとして、参照元文書/ラベル対応データ105を検索し、該当するレコードを見付ける(S705、S706)。すなわち、参照元文書/ラベル対応データ105から、位置が取得した参照元文書開始位置と等しく、かつ、編集状態が取得したものと等しいレコードを見付ける。
検索に成功すれば、結果データにおける入力文書編集開始位置及び入力文書編集終了位置に基づいて、入力文書から、該当する文字列領域(部分文書)を抽出し(S707)、参照元文書/ラベル対応データ105の検索レコードのラベル欄に格納されている値(ラベル)を取得し(S708)、抽出した文字列領域(部分文書)に取得したラベルを付与してラベリング結果記憶部106に格納する(S709)。ラベリング結果記憶部106に格納するデータ形式は、図3に示すような、出力要求時に、入力文書から出力文書(図9参照)を形成することができるデータであっても良く、また、図9に示すような、出力要求時に、直ちに出力し得るデータであっても良い。なお、前者の場合、ステップS707の処理は、結果データにおける入力文書編集開始位置及び入力文書編集終了位置を取り出す処理となる。
以上の処理(S701〜S709)を、未処理の比較結果データがなくなるまで繰り返し(S710)、未処理の比較結果データがなくなれば、図8に示す一連の処理を終了する。
例えば、図2の1番目の比較結果データがステップS701で取り出された場合には、その編集状態が「変更」で、参照元の文書開始位置が「1」であるので、図5に示す参照元文書/ラベル対応データ105の1番目のレコードが検索で合致すると判断され、そのレコードにあるラベル「名称」が取得され、入力文書の位置1’から位置2’の範囲の部分(部分文書)に対し、ラベル「名称」が付与される。
この時点では、他の結果データが未処理で残っているので、図2の2番目の結果データが取得される。この結果データの編集状態は「挿入」であり、参照元文書開始位置は「2」である。その結果、図5に示す参照元文書/ラベル対応データ105の2番目のレコードが検索で合致すると判断され、そのレコードにあるラベル「請求項」が取得され、入力文書の位置4’から位置9’の部分(部分文書)に対し、ラベル「請求項」が付与される。
この時点でも、他の結果データが未処理で残っているので、図2の3番目の結果データが取得される。この結果データの編集状態は「挿入」であり、参照元文書開始位置は「4」である。その結果、図5に示す参照元文書/ラベル対応データ105の3番目のレコードが検索で合致すると判断され、そのレコードにあるラベル「技術分野」が取得され、入力文書の位置12’から位置13’の部分(部分文書)に対し、ラベル「技術分野」が付与される。
図3に示すデータ形式でラベリング結果記憶部106にデータを格納している場合において、その格納データと入力文書とから、図9に示す出力データを形成するのは、以下のように実行すれば良い。
例えば、図3の1番目のデータに基づいて、入力文書の1’行目から2’行目までの文字列データ、すなわち、「[発明の名称]情報処理装置」(図面での黒墨括弧を[]に置き換えて記述している)を部分文書として抽出し、その抽出部分文書に、図3の1番目のデータでのラベル「名称」を付与する。図3の2番目や3番目のデータに対しても同様な処理を行う。
図9に示すようなラベル付与済み部分文書群は、図示しない文書出力部によって適宜出力される。例えば、文書出力部が、ラベル付与済み部分文書群を表示出力しても良く、印刷出力しても良く、記録媒体に記録出力しても良く、他の装置へ転送出力するようにしても良い。
なお、得られた全ての部分文書を出力するだけでなく、利用者の指定操作に応じて、指定されたラベルの部分文書だけを出力できるようにしても良く、出力方法は問われない。
(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、分類対象文書中によく現れる表層的な特徴(項目を表記した文字列や罫線、項の境界位置に存在する文字列や罫線など)を記述した参照元文書を用意するだけで、XMLやHTMLやSGMLで記述されたような明確な構造をもつ文書ではなくても、処理対象文書から、所望する情報に係る文字列領域(部分文書)を認識できたり、抽出できたりするという効果を奏する。
さらに、参照元文書に対応したラベル付けのデータを用意することにより、認識又は抽出された文字列領域(部分文書)に対し、ラベルを付与できたり分類できたりするという効果をも奏する。
(B)第2の実施形態
次に、本発明による情報区分装置、方法及びプログラムの第2の実施形態を図面を参照しながら詳述する。
(B−1)第2の実施形態の構成
図10は、第2の実施形態の情報区分装置10Aの機能的構成を示すブロック図であり、上述した第1の実施形態に係る図1との同一、対応部分には同一符号を付して示している。
第2の実施形態の情報区分装置10Aは、第1の実施形態の情報区分装置10の構成に加え、参照元文書データ生成部107及び参照元文書/ラベル対応データ生成部108を有しており、これら以外の部分は、第1の実施形態と同じ機能を担っているので、その説明は省略する。
参照元文書データ生成部107は、入力された2つの文書(文書データ)から、参照元文書104を生成し、その格納部に格納するものである。参照元文書104の生成方法においては、後述する動作の項で明らかにする。
参照元文書/ラベル対応データ生成部108は、ラベリング部103で参照元文書/ラベル対応データ105を生成し、その格納部に格納するものである。参照元文書/ラベル対応データ105の生成方法においては、後述する動作の項で明らかにする。
(B−2)第2の実施形態の動作
第1の実施形態の情報区分装置と動作が異なるのは、参照元文書データ生成部107の動作及び参照元文書/ラベル対応データ生成部108の動作だけなので、以下では、参照元文書データ生成部107及び参照元文書/ラベル対応データ生成部108の動作を説明する。
表層的特徴の類似した異なる2つの文書(文書データ)をデータ生成用文書入力部(符号省略)から参照元文書データ生成部107に入力する。例えば、上述した図4に示す文書と、図11に示す文書を入力する。
参照元文書データ生成部107においては、まず、入力された2つの文書同士を比較する。文書比較方法は、第1の実施形態で説明した文書比較手段101が採用している方法と同様で良い。文書比較の実行部を、ソフトウェアを中心として構成した場合には、その処理ルーチンを、文書比較手段101と参照元文書データ生成部107とで併用するようにしても良い。
図12は、2つの文書IN1、IN2の比較結果で一致したと判定された行を示す説明図である。参照元文書データ生成部107は、図12に示すような一致したと判定された行のみをその出現順に残したものを参照元文書104として出力して、その格納部に蓄積(登録)させる。図13は、図12に示す比較結果から生成された参照元文書を示している。なお、参照元文書データ生成部107は、2つの文書IN1、IN2における文字(文字データ)が存在しない空白行については、一致判定の際に判定対象から除外するようにしている。
参照元文書データ生成部107の処理が終了すると、次に、参照元文書/ラベル対応データ生成部108が処理を行う。参照元文書/ラベル対応データ生成部108は、利用者との共同作業により、参照元文書/ラベル対応データを生成する。
参照元文書/ラベル対応データ生成部108はまず、参照元文書データ生成部107によって生成された参照元文書と、参照元文書/ラベル対応データの生成に用いる文書(参照元文書の生成に用いた文書と同一であることが好ましい)とを対応付ける。すなわち、参照元文書の各行に対応する生成用文書の行を認識する。
図14は、図13に示した参照元文書REFと、参照元文書の生成に用いた一方の文書IN1との対応を示したものである。なお、図14に示した行の対応に加え、参照元文書/ラベル対応データ生成部108は、参照元文書REFの位置1の前の位置0と、文書IN1の位置1’の前の位置0’とが対応していると見なし、また、参照元文書REFの最終位置4の次の位置5と、文書IN1の最終位置13’の次の位置14’とが対応していると見なしている。
参照元文書/ラベル対応データ生成部108は、次に、これら対応関係を行の一致関係と見た場合において編集状態が「挿入」又は「変更」と判断できる部分を認識し(文書比較手段101の処理と同様な処理による)、参照元文書/ラベル対応データにおける「参照元文書での開始位置」と「編集状態」との値を確定する。この段階では、図15におけるラベルの値が空白のデータが形成される。
参照元文書/ラベル対応データ生成部108は、図15における1番目のレコードのラベルの値(ラベル名)を確定させるべく、文書IN1におけるその「挿入」の領域(位置1’及び2’の2行)をディスプレイに表示させると共に、この領域に付与するラベル名を入力することを求めるメッセージを表示させ、それに応じて、利用者が入力したラベルの値(ラベル名)を取り込む。図15における2番目や3番目のレコードのラベルの値(ラベル名)についても、同様にして、利用者に入力させる。
以上のようにして、参照元文書/ラベル対応データ生成部108は、参照元文書/ラベル対応データが完成すると、参照元文書/ラベル対応データ105として出力して、その格納部に蓄積(登録)させる。
図15は、生成が完了した完成した参照元文書/ラベル対応データ105を示している。図15におけるラベルの値「名称」、「請求項」、「技術分野」は、利用者が付与して入力したものである。
(B−3)第2の実施形態の効果
第2の実施形態によれば、上述した第1の実施形態の効果に加え、自動的に参照元文書を生成することができるという効果を奏することができる。参照元文書と参照元文書/ラベル対応データは一度だけ作成すれば良く、作成後に入力された文書は、これらのデータを用いて分類することができる。
(C)他の実施形態
上記各実施形態では、文書比較部101や参照元文書生成部107による2つの文書の比較を1行単位で行うものを示したが、これを、文字単位や、あるいは、形態素解析処理などを行った後の単語単位で行っても良く、また、それらを組み合わせて行っても良い。
また、上記各実施形態では、入力文書を部分文書に区分した後、ラベルを付与するものを示したが、入力文書を部分文書に区分するまでの装置として構成しても良い。
さらに、上記各実施形態では、参照元文書が1つのものを示したが、例えば、特許明細書用の参照元文書や、特許願書用の参照元文書や、ニュースメール用の参照元文書や、判決文用の参照元文書など、参照元文書を複数備えるものであっても良く、この場合には、対応する参照元文書/ラベル対応データも複数備える。例えば、分類対象の文書を入力する前に、利用者が装置に対して、参照元文書を指定操作しても良く、また、全ての参照元文書と入力文書との比較処理を行い、一致行が最も多い参照元文書を有効なものとして以降の処理を行うようにしても良く、さらに、それぞれの文書(特許明細書、ニュースメール、判決文)中に固有に現れる文字列や文字列パターン(例えば、ニュースメールならばそのタイトル)が含まれるか否かを調べることで、参照元文書を自動的に選択するようにしても良い。
第2の実施形態においては、参照元文書生成部107への入力文書は2つとしていたが、3つ以上の異なる文書を入力するようにしても良く、その場合、全ての文書で一致する行を参照元文書に含めるようにしても良く、また、所定割合を越えた文書(例えば過半数以上の文書)で一致する行を参照元文書に含めるようにしても良い。
また、第2の実施形態においては、参照元文書/ラベル対応データにおける「位置」及び「編集状態」を装置が自動的に決定し、「ラベル」を利用者が入力するものを示したが、他の方法によって、参照元文書/ラベル対応データを生成させるようにしても良い。例えば、「位置」、「編集状態」及び「ラベル」共に利用者が入力するようにしても良く、「位置」、「編集状態」及び「ラベル」共に装置が自動的に決定するようにしても良い。ラベルの値は、例えば、生成用文書のその編集状態に係る部分の第1行の文字列全体にしたり、第1行における括弧で挟まれた文字列にしたりする。
第1の実施形態の情報区分装置の機能的構成を示すブロック図である。 第1の実施形態の比較結果記憶部の格納データ例を示す説明図である。 第1の実施形態のラベリング結果データ例を示す説明図である。 第1の実施形態の参照元文書例を示す説明図である。 第1の実施形態の参照元文書/ラベル対応データ例を示す説明図である。 第1の実施形態の入力文書例を示す説明図である。 図4の参照元文書と図6の入力文書の一致行を示す説明図である。 第1の実施形態のラベリング付与処理を示すフローチャートである。 第1の実施形態のラベル付与済み部分文書群の例を示す説明図である。 第2の実施形態の情報区分装置の機能的構成を示すブロック図である。 第2の実施形態の参照元文書の生成に利用される文書例を示す説明図である。 第2の実施形態の参照元文書の生成に利用される2つの文書の一致行を示す説明図である。 第2の実施形態で生成された参照元文書例を示す説明図である。 第2の実施形態の参照元文書/ラベル対応データの生成のために実行された参照元文書と生成よう文書との対応付けの結果例を示す説明図である。 第2の実施形態で生成された参照元文書/ラベル対応データ例を示す説明図である。
符号の説明
100、100A…情報区分装置、101…文書比較部、102…比較結果記憶部、103…ラベリング部、104…参照元文書データ、105…参照元文書/ラベル対応データ、106…ラベリング結果記憶部、107…参照元文書生成部、108…参照元文書/ラベル対応データ生成部。

Claims (9)

  1. 入力された電子文書を区分する情報区分装置において、
    処理対象の複数の電子文書に共通するであろう表層的特徴のみを電子文書として記述している参照元文書を格納する参照元文書格納手段と、
    入力電子文書と、上記参照元文書格納手段に格納されている上記参照元文書とを比較し、上記参照元文書に対して、挿入されている上記入力電子文書の部分と、上記参照元文書に対して、変更されている上記入力電子文書の部分とを部分文書として区分する文書比較手段と
    を有することを特徴とする情報区分装置。
  2. 上記参照元文書における位置と、挿入や変更などの編集状態と、ラベルとの組を複数格納している参照元文書/ラベル対応データ格納手段と、
    上記文書比較手段が検出した各部分文書に対し、部分文書の編集状態とその部分文書に対応する参照元文書の位置とをキーとして、上記参照元文書/ラベル対応データ格納手段を検索してラベルを付与するラベリング手段と
    をさらに備えることを特徴とする請求項1に記載の情報区分装置。
  3. 複数の異なる電子文書を比較し、複数の電子文書に共通する表層的特徴を抽出して上記参照元文書を生成する参照元文書生成手段をさらに備えることを特徴とする請求項1又は2に記載の情報区分装置。
  4. 上記参照元文書生成手段が生成した参照元文書と生成に用いた電子文書の対応から、生成した参照元文書に対応する参照元文書/ラベル対応データを作成する参照元文書/ラベル対応データ生成手段をさらに備えることを特徴とする請求項3に記載の情報区分装置。
  5. 入力された電子文書を区分する情報区分方法において、
    処理対象の複数の電子文書に共通するであろう表層的特徴のみを電子文書として記述している参照元文書を用意しておき、
    入力電子文書と、上記参照元文書とを比較し、上記参照元文書に対して、挿入されている上記入力電子文書の部分と、上記参照元文書に対して、変更されている上記入力電子文書の部分とを部分文書として区分する文書比較工程
    を含むことを特徴とする情報区分方法。
  6. 上記参照元文書における位置と、挿入や変更などの編集状態と、ラベルとの組でなる参照元文書/ラベル対応データを複数用意しておき、
    上記文書比較工程で検出された各部分文書に対し、部分文書の編集状態とその部分文書に対応する参照元文書の位置とに合致する、上記参照元文書/ラベル対応データを検索してラベルを付与するラベリング工程
    をさらに含むことを特徴とする請求項5に記載の情報区分方法。
  7. 複数の異なる電子文書を比較し、複数の電子文書に共通する表層的特徴を抽出して上記参照元文書を生成する参照元文書生成工程をさらに含むことを特徴とする請求項5又は6に記載の情報区分方法。
  8. 上記参照元文書生成工程で生成された参照元文書と生成に用いられた電子文書の対応から、生成した参照元文書に対応する参照元文書/ラベル対応データを作成する参照元文書/ラベル対応データ生成工程をさらに含むことを特徴とする請求項7に記載の情報区分方法。
  9. 請求項5〜7のいずれかに記載の情報区分方法の工程及び用意しておくデータをコンピュータが処理し得るコードで記述したことを特徴とする情報区分プログラム。
JP2003430185A 2003-12-25 2003-12-25 情報区分装置、情報区分方法及び情報区分プログラム Expired - Fee Related JP4196824B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003430185A JP4196824B2 (ja) 2003-12-25 2003-12-25 情報区分装置、情報区分方法及び情報区分プログラム
US11/016,844 US20050154703A1 (en) 2003-12-25 2004-12-21 Information partitioning apparatus, information partitioning method and information partitioning program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003430185A JP4196824B2 (ja) 2003-12-25 2003-12-25 情報区分装置、情報区分方法及び情報区分プログラム

Publications (2)

Publication Number Publication Date
JP2005190141A true JP2005190141A (ja) 2005-07-14
JP4196824B2 JP4196824B2 (ja) 2008-12-17

Family

ID=34736328

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003430185A Expired - Fee Related JP4196824B2 (ja) 2003-12-25 2003-12-25 情報区分装置、情報区分方法及び情報区分プログラム

Country Status (2)

Country Link
US (1) US20050154703A1 (ja)
JP (1) JP4196824B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8131752B2 (en) * 2006-11-15 2012-03-06 Ebay Inc. Breaking documents
US8589426B1 (en) * 2008-10-29 2013-11-19 Sprint Communications Company L.P. Simultaneous file editor
JP5499970B2 (ja) * 2010-07-16 2014-05-21 富士ゼロックス株式会社 文書処理装置及びプログラム
US20120246565A1 (en) * 2011-03-24 2012-09-27 Konica Minolta Laboratory U.S.A., Inc. Graphical user interface for displaying thumbnail images with filtering and editing functions
US9436660B2 (en) * 2012-11-16 2016-09-06 International Business Machines Corporation Building and maintaining information extraction rules
US20150356174A1 (en) * 2014-06-06 2015-12-10 Wipro Limited System and methods for capturing and analyzing documents to identify ideas in the documents
CN109684437B (zh) * 2018-11-16 2020-10-30 东软集团股份有限公司 用于文件比较的内容对齐方法、装置、存储介质和设备
JP6587245B1 (ja) * 2019-06-26 2019-10-09 アガサ株式会社 申請書判定装置および申請書判定プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9460414B2 (en) * 2001-08-28 2016-10-04 Eugene M. Lee Computer assisted and/or implemented process and system for annotating and/or linking documents and data, optionally in an intellectual property management system
US7519607B2 (en) * 2002-08-14 2009-04-14 Anderson Iv Robert Computer-based system and method for generating, classifying, searching, and analyzing standardized text templates and deviations from standardized text templates
US20040261016A1 (en) * 2003-06-20 2004-12-23 Miavia, Inc. System and method for associating structured and manually selected annotations with electronic document contents

Also Published As

Publication number Publication date
JP4196824B2 (ja) 2008-12-17
US20050154703A1 (en) 2005-07-14

Similar Documents

Publication Publication Date Title
JP4637181B2 (ja) 文書構造に基づいた検索結果の表示
US7444325B2 (en) Method and system for information extraction
US8452132B2 (en) Automatic file name generation in OCR systems
US20130054595A1 (en) Automated File Name Generation
JP2008511075A5 (ja)
US20100198827A1 (en) Method for finding text reading order in a document
KR20070094944A (ko) 명백한 지리적 언급의 분류
US7046847B2 (en) Document processing method, system and medium
WO2004034282A1 (ja) コンテンツ再利用管理装置およびコンテンツ再利用支援装置
JP4196824B2 (ja) 情報区分装置、情報区分方法及び情報区分プログラム
Leonandya et al. A semi-supervised algorithm for Indonesian named entity recognition
JPH11184894A (ja) 論理要素抽出方法および記録媒体
JP4524640B2 (ja) 情報処理装置および方法、並びにプログラム
JP5446877B2 (ja) 目次構造特定装置
JP2010061176A (ja) テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム
JP4866603B2 (ja) 住所文字列取得方法および住所文字列取得システム
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
CN112949287B (zh) 热词挖掘方法、***、计算机设备和存储介质
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JPH06309365A (ja) 文書処理装置
JP4895988B2 (ja) 文書分類装置の余分構造減退方法
JP2004086846A (ja) 情報区分装置、方法及びプログラム、並びに、情報区分プログラムを記録した記録媒体
EP2713285A1 (en) Information processing apparatus, information processing method, and program
JP3287307B2 (ja) 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体
JP2012022443A (ja) 文書検索装置、文書検索方法及び文書検索プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060131

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080415

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080611

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080813

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080909

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080922

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111010

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111010

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111010

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111010

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121010

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121010

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131010

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees