JP3598711B2 - 文書ファイリング装置 - Google Patents

文書ファイリング装置 Download PDF

Info

Publication number
JP3598711B2
JP3598711B2 JP3786997A JP3786997A JP3598711B2 JP 3598711 B2 JP3598711 B2 JP 3598711B2 JP 3786997 A JP3786997 A JP 3786997A JP 3786997 A JP3786997 A JP 3786997A JP 3598711 B2 JP3598711 B2 JP 3598711B2
Authority
JP
Japan
Prior art keywords
document
layout
item
file
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3786997A
Other languages
English (en)
Other versions
JPH10240901A (ja
Inventor
康裕 岡田
文夫 依田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP3786997A priority Critical patent/JP3598711B2/ja
Publication of JPH10240901A publication Critical patent/JPH10240901A/ja
Application granted granted Critical
Publication of JP3598711B2 publication Critical patent/JP3598711B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、文書内の文字を認識して得られる文字認識結果あるいは文書のイメージをファイリングする際、文書を構成する項目を自動的に分類しファイリングする文書ファイリング装置及びその方法に関するものである。
【0002】
【従来の技術】
従来の項目自動分類を行う文書ファイリング装置は、文書構造のレイアウト情報を用いて文書項目の分類を行っていた。以下、特開平8−87528号公報に示された文書ファイリング装置を例にとり動作を説明する。
【0003】
図44に示すとおり従来の文書ファイリング装置は、イメージファイル1に格納された文書画像から画像処理手段390により文字列等のパターン成分を抽出した後、この文字列等のパターン成分を文書レイアウトに関する規則を格納した文書レイアウト知識ファイル8と照合する。照合結果をもとに文書を構成する各項目に対応付けて文字認識結果を蓄積手段5に保持し、検索手段6により文書項目ごとの検索を可能にし、出力手段7で出力している。
【0004】
従来の文書ファイリング装置の一動作例を図面を用いて説明する。従来の文書ファイリング装置において、図4(b)に示す文書のレイアウト情報を文書レイアウト知識ファイル8に保持し、図4(a)に示す文書画像に対して項目分類を試みる場合、文書レイアウト知識ファイル8には図9に示すように項目ごとの座標情報が格納されている。ここで、図9の座標情報70に格納された座標及びサイズの値は文書の幅と高さそれぞれを100とした時の百分比で格納されている。
【0005】
文書画像の項目分類においては、まず画像処理手段390で文字列等のパターン成分を抽出し、文書レイアウト知識ファイル8と照合できるレイアウト情報を抽出する。具体的には文書画像に対して文字列切り出し及び文字切り出しを行い、文字列の座標情報を得る。図4(a)に示す文書画像の文字列切り出し及び文字切り出し結果を図10に示す。図10で黒正方形は文字切り出し結果80,破線矩形は文字列切り出し結果を示す。
【0006】
次に図10の各文字列に対して、座標・サイズを抽出する。抽出した結果を図11に示す。図11においてブロックは各文字列に対応して連番をふり、各ブロックの左上点座標と幅,高さを抽出する。
【0007】
最後に、図9に示した文書レイアウト知識ファイルの内容と、図11のレイアウト情報との照合をとる。照合は下記(1)式に従って、各ブロックと項目との照合度pijを算出することにより実現する。例えば、図9の座標情報70からタイトルの項目に対応する領域の面積は60(幅)×5(高さ)=300,図11の第3ブロック104に対応する領域の面積は50(幅)×5(高さ)=250,両者の重なりあう領域の面積は250であるので、第3ブロック104に対するタイトルとの照合度Pは100×250×2/(300+250)=91となる。すべてのブロックに対して上記の照合度の算出を行い、図12に示す照合度を得る。各項目で照合度が最大となるブロックを、対応付け結果として出力する。図12の場合、項目「論文番号」100に対しては第2ブロック103,項目「タイトル」101に対しては第3ブロック104,項目「著者」102に対しては第4ブロック105が対応付けられ、正しい結果が得られる。
【0008】
pij=100×(項目iとブロックjの重なり領域の面積)×2/(項目iの面積+ブロックjの面積)・・・(1)
【0009】
上記に示した手段により、項目に対応する記入量が大きく変動して項目の位置ずれが発生する等の理由で文書レイアウト変動が大きい、図5(a)乃至図5(b)に示すような文書に対して項目分類を行った場合の例を次に示す。上記と同様の動作により、図5(a)に示す文書画像に対する各文書項目の座標情報を抽出し、図13に示す文書レイアウト知識ファイルを得る。
【0010】
文書画像の項目分類においては上記の例と同様に、文字列の座標情報を得る。図5(b)に示す文書画像の各文字列に対して座標・サイズを抽出する。ここで、文書レイアウト知識ファイルを作成した図5(a)に示す文書画像では、複数の連続する文字列で構成される項目も存在するため、文書レイアウト知識ファイルと照合するレイアウト情報も、図14に示すように複数文字列を対象として座標・サイズを抽出する。図14においては、開始ブロックから終了ブロックまでの連続する複数文字列に対する座標・サイズ情報を示した。
【0011】
次に、図13に示した文書レイアウト知識ファイルの内容と、図14のレイアウト情報との照合をとる。照合は上記の例と同様に、(1)式を用いて行う。図15に照合度の算出結果を示す。この結果、会議名称に対しては第2ブロックと第3ブロック,開催場所に対しては第4ブロック,開催日時に対しては第5ブロック,出席者に対しては第6ブロックと第7ブロックが対応付き、図5(b)の項目分類結果30が照合結果として得られ、誤った結果が出力される。
【0012】
また、表の論理構造が固定した表形式文書に対する項目分類は、文書レイアウト知識ファイル8に表の構造を記述した情報を保持して、文書画像から抽出した表の構造とを照合することにより、従来の文書ファイリング装置でも実現できる。しかし、図6(a)及び図6(b)に示すような表の論理構造が変動する表形式文書に対して文書項目の分類を行う場合、文書画像から抽出した表の構造と、文書レイアウト知識ファイル8に格納された表の構造が大きく異なり、誤った項目分類が行なわれる。
【0013】
また、従来の文書ファイリング装置では、図7(a)及び図7(b)に示すように文書項目の境界がレイアウトの情報のみで分割できないような文書に対しては誤った項目分類が行なわれる。例えば、図7(a)に示す文書画像を元に文書レイアウト知識ファイル8を作成し、図7(b)に示す文書画像の項目分類を行った場合、図7(b)の項目分類結果B50の誤った結果が出力される。
【0014】
さらに、図8(a)及び図8(b)に示すように文書項目の一部が省略された文書に対しては、省略された文書項目を同定することができず、誤った項目分類が行なわれる。例えば、図8(a)に示す文書画像を元にタイトル61,著者62,英字著者63,著者所属64の4項目に対して文書レイアウト知識ファイルを作成しておき、英文著者が省略された図8(b)の文書画像に対して項目分類を行った場合、図8(b)の項目分類結果C60が各項目に対して抽出され、誤った結果として出力される。
【0015】
【発明が解決しようとする課題】
上記のように従来の文書ファイリング装置は、文書のレイアウト情報のみを用いて文書項目の分類を行っているため、レイアウト変動の大きい文書に対して、正しく文書項目ごとの分類を行うことが困難である。
【0016】
また、表形式の文書に対しては表の論理構造が変動するような文書画像に対して正しく文書項目を分類することができない。
【0017】
さらに、文書項目の境界がレイアウトの情報のみで分割できない文書画像,文書項目の一部が省略された文書画像に対して正しく文書項目を分類することができない。
【0018】
この発明は上記の課題を解決し、レイアウト変動が大きく,項目の省略が発生しても正しく文書の項目を自動分類する文書ファイリング装置及びその方法を提供することを目的とする。
【0019】
【課題を解決するための手段】
請求項1の発明は上記の課題を解決するため、文書の画像を蓄積するイメージファイルと、文書の種類ごとに文書構造のレイアウト規則を記憶する文書レイアウト知識ファイルと、文書の種類および文書項目ごとの記述内容の規則を記憶する文書コンテンツ知識ファイルと、文書レイアウト知識ファイルに記述された知識に従い、文書を構成する罫線を抽出する罫線抽出手段と文書項目に隣接する罫線の共有関係を抽出する共有罫線抽出手段とで構成することによって、文書画像のレイアウトを解析するレイアウト解析手段と、文書画像から切り出された文字パターンを認識する文字認識手段と、レイアウト解析手段と文字認識手段で得られる文書レイアウト情報および文字認識結果と文書レイアウト知識ファイルおよび文書コンテンツ知識ファイルの内容を照合することにより文書を構成する項目ごとに文字認識結果を分類する文書項目分類手段と、文書項目分類手段により得た文書項目ごとに分類された文字認識結果を蓄積する蓄積手段と、検索要求を受けて蓄積手段に対して検索を行い検索要求を満たす文書を同定する検索手段と、検索手段により同定された文書の文書画像あるいは文字認識結果をイメージファイルあるいは文字認識結果ファイルから出力する出力手段を有することを特徴とする。
【0020】
請求項2の発明は上記の課題を解決するため、文書の画像を蓄積するイメージファイルと、文書の種類ごとに文書構造のレイアウト規則を記憶する文書レイアウト知識ファイルと、文書の種類および文書項目ごとの記述内容を記憶する文書コンテンツ知識ファイルと、上記文書レイアウト知識ファイルに記述された知識に従い上記イメージファイルに蓄積された文書画像のレイアウトを解析するレイアウト解析手段と、このレイアウト解析手段により文書画像から切り出された文字パターンを認識する文字認識手段と、上記レイアウト解析手段で得られる文書レイアウト情報と上記文書レイアウト知識ファイルの内容および上記文字認識手段で得られる文字認識結果と上記文書コンテンツ知識ファイルに格納された文書項目を構成する字種情報とを照合することにより文書を構成する項目ごとに文字認識結果を分類する文書項目分類手段と、この文書項目分類手段によって得た文書項目ごとに分類された文字認識結果を格納する文字認識結果ファイルとを有することを特徴とする。
【0025】
【発明の実施の形態】
実施の形態1
以下、この発明を実施の形態に基づいて説明する。
図1は、請求項1の発明の文書ファイリング装置の構成図である。イメージファイル1にはスキャナー等によって読み出された(図2の読取りステップS1)文書画像が保持され(図2の画像蓄積ステップS2)、イメージファイル1に格納された文書画像はレイアウト解析手段2に入力される。レイアウト解析手段2では、予め作成した読取対象文書のレイアウト知識を格納した文書レイアウト知識ファイル8を参考にして、文字列,文字の座標情報等の文書レイアウトに関する情報を文書画像から抽出する文書レイアウト解析をする(図2のレイアウト解析ステップS3)。次に文字認識手段3でレイアウト解析手段2によるレイアウト解析の結果、1文字ごとに切り出された文字画像を文字コードに変換する(図2の文字認識ステップS4)。文書項目分類手段4では、レイアウト解析の結果得られた文書レイアウト情報と文書レイアウト知識ファイル8とを比較すると共に、文字認識手段3によって得られた文字コードと文書の記述内容に関する知識を格納した文書コンテンツ知識ファイル9とを比較して文書項目ごとに文字認識結果を自動的に分類する(図2の文書項目分類ステップS5)。蓄積手段5では、文書項目分類手段4によって得られる文書項目ごとの文字認識結果を文字認識結果ファイル10に格納する(図2の文字認識結果記憶ステップS6)。検索手段6は、入力された検索要求(図3の要求入力ステップS11)を受けて上記文字認識結果ファイル10に対して検索を行い、検索要求を満たす文書を同定する(図3の検索ステップS12)。出力手段7は、検索手段6によって同定された文字認識結果を文字認識結果ファイル10から抽出、あるいは文字認識結果ファイル10から抽出された文字認識結果に対応する文書画像をイメージファイル1から抽出し(図3の抽出ステップS13)、この抽出された文字認識結果、及び/又は文書画像を出力する(図3の出力ステップS14)。
【0026】
以下、図5,図13〜図20を用いて、図1に示す構成の発明の動作を詳細に説明する。
【0027】
図5は、イメージファイルに格納された文書画像の一例を示す説明図である。図13は、文書レイアウト知識ファイル8の内容の一例を示す説明図であり、図において、110は開催日時の項目の座標情報を示す。図14は、レイアウト解析手段2の出力内容の一例を示す説明図であり、120は開始ブロック,121は終了ブロック,122は各開始ブロックおよび終了ブロックの座標情報,123は‘開始ブロック5’と‘開始ブロック6’の領域に対応する座標情報を示す。
【0028】
図15は、文書項目分類手段4の文書レイアウトに関する動作を説明する説明図であり、図において、130は‘開始ブロック5’と‘開始ブロック6’の領域と開催日時の項目との照合度を示す。
【0029】
図16は、文書コンテンツ知識ファイル9の内容の一例を示す説明図であり、図において、140は開催場所の項目に対応するキーワード情報,141はキーワード‘開催場所’,142はキーワード‘場所’,143はキーワード‘会議室’,144はキーワード‘ルーム’,145はキーワード‘ミーティング’,146は禁止キーワード‘会議名称’,147は禁止キーワード‘開催日時’を示す。
【0030】
図17は、文字認識手段3の出力結果の一例を示す説明図であり、150は開始ブロック2’と‘開始ブロック3’の領域に対応する文字認識結果Aを示す。
【0031】
図18は、文書項目分類手段4の文書コンテンツに関する動作を説明する説明図であり、図において、160は‘開始ブロック2’と‘開始ブロック3’の領域と開催場所の項目との照合度を示す。
【0032】
図19は、文書項目分類手段4の文書レイアウトと文書コンテンツに関する照合結果の統合動作を説明する説明図であり、図において、170は‘ブロック1’の領域と会議名称の項目との照合度,171は‘開始ブロック2’と‘開始ブロック3’の領域と開催場所の項目との照合度,172は‘開始ブロック4’と‘開始ブロック5’の領域と開催日時の項目との照合度,173は‘開始ブロック6’と‘開始ブロック7’の領域と出席者の項目との照合度を示す。
【0033】
図20は、文書項目分類手段4の文書項目と文字列の対応動作を説明する説明図であり、図において、180は会議名称,開催場所,開催日時,出席者とブロックとの対応関係,181は照合度,182は最大の照合度を与えるブロックの組合せを示す。
【0034】
まずイメージファイルから図5(b)に示す文書画像を読み出し、レイアウト解析手段2によって文書レイアウトを解析する。レイアウト解析は、文書レイアウト知識ファイル8に記載された内容を利用して、文書画像内の文字列,文字の切り出しを行う。例えば、図13に記載された文書レイアウト知識の幅,高さの比から、‘会議名称’111,‘開催場所’112,‘開催日時’113,‘出席者’114ともに横書きで記載されていると判定し、文書が横書きで記載されていることを前提に文字列切り出しを行い、その後文字切り出しを実施する。
【0035】
上記で得た文字列切り出し結果から、複数の連続した文字列を組み合わせた矩形領域を形成し、それぞれの領域に対する座標とサイズ情報を抽出し、図14に示すレイアウト情報を作成する。図14において、開始ブロック120はブロックを形成する先頭の文字列の順番を示し、終了ブロック121はブロックを形成する終端の文字列の順番を示す。領域座標情報122は、開始ブロックから終了ブロックまでの矩形領域の座標・サイズ情報を示す。
【0036】
文字認識手段3では、レイアウト解析手段2により得られた文字列切り出し,文字切り出し結果をもとに文字画像を文字コードに変換し、図17に示す文字認識結果を得る。
【0037】
次に、文書項目分類手段4では、文書レイアウトと文書コンテンツ双方の情報を用いて文書の項目を分類する。
【0038】
文書レイアウト情報を用いた分類は、図14に示す文書レイアウト情報と図13に示す文書レイアウト知識とを照合することにより実現する。照合は、図14に示した開始ブロックから終了ブロックまでの矩形領域の座標情報と、図13に示した文書レイアウト知識の各項目の座標情報とを用い、上記(1)式に従って照合度を各項目に対して算出する。
【0039】
例えば、図14における開始ブロックが‘5’で終了ブロックが‘6’の領域に対する座標情報123で形成される領域の面積は90(幅)×10(高さ)=900、図13における開催日時に対する座標情報110で形成される領域の面積は90(幅)×3(高さ)=270、双方の領域が重畳する領域の面積は270なので、照合度は、100×270×2/(900+270)=46となり、図14における開始ブロックが‘5’で、終了ブロックが‘6’の領域に対する座標情報123と開催日時との照合度として図15に示す‘46’130が得られる。上記の方法で、すべての領域および文書項目に対して文書レイアウト情報による照合度を算出する。
【0040】
文書コンテンツを用いた分類は、図17に示す文字認識結果Aと図16に示す文書コンテンツ知識とを照合することにより実現する。例えば照合は、図17に示した文字認識結果Aの連続する文字で構成される文字群と図16に示す文書コンテンツ知識とを照合して、キーワードとして登録された文字列が合致した場合は下記(2)式による照合度pcを加算し、存在してはならないキーワードが合致した場合は下記(3)式による負の照合度peを加算して、照合度pc、peから総合的な照合度paを下記(4)式に従って算出する。
【0041】
pc = 20×(合致したキーワードの文字数) ・・・(2)
【0042】
pe = −50×(合致したキーワードの個数) ・・・(3)
【0043】
Pa = pc + pe ・・・(4)
【0044】
ここで具体的に、図19における開始ブロックが‘2’で終了ブロックが‘3’の領域と開催場所との照合度を求める場合について説明する。開始ブロックが‘2’で終了ブロックが‘3’の領域に対応する図17の認識結果150と図16の開催場所に対するキーワード情報140とを照合する。
【0045】
まず、開催場所の先頭に位置するキーワード‘開催場所’141及び‘場所’142と認識結果150との照合をとる。開催場所の先頭に位置するキーワードは、領域の先頭から始まる文字列のみを対象にして照合を行う。この場合、認識結果150の先頭の文字列は、キーワード‘開催場所’141,‘場所’142のいずれとも一致しないので、照合度の加算は行わない。
【0046】
次に、開催場所の末尾に位置するキーワード‘会議室’143及び‘ルーム’144と認識結果150との照合をとる。開催場所の末尾に位置するキーワードは、領域の末尾で終了する文字列のみを対象にして照合を行う。この場合、認識結果150の末尾の文字列はキーワード‘会議室’143と一致するので、上記(2)式に従って20×3(文字数)=60を照合度に加算する。
【0047】
位置が任意のキーワード‘ミーティング’145と認識結果150との照合は、全認識結果を対象にして照合を行う。この場合、認識結果150にキーワード‘ミーティング’145は一度も現れないので、照合度の加算は行わない。
【0048】
禁止キーワード‘会議名称’146及び‘開催日時’147との照合は、全認識結果を対象にして照合を行う。照合が成立した場合は、入ってはならないキーワードが存在したとして照合度を減算する。この場合、認識結果150の先頭の文字列がキーワード‘会議名称’143と一致するので、上記(3)式に従って照合度を50だけ減算する。
【0049】
算出した加算分と減算分を足しあわせ、開始ブロックが‘2’で終了ブロックが‘3’の領域と開催場所との最終的な照合度‘10’160を得る。
【0050】
上記の方法で、すべての領域および文書項目に対して文書コンテンツ情報による照合度を算出する。
【0051】
次に文書レイアウト,文書コンテンツ双方の情報に対する照合度を上記により求めた後、双方の照合度を加算し、図19に示す連続する文字列領域と文書項目との総合的な照合度を算出する。
【0052】
連続する文字列領域と文書項目との総合的な照合度を算出した後、図13に示した文書レイアウト知識の項目の座標値から、読取対象文書が上から順に‘会議名称’,‘開催場所’,‘開催日時’,‘出席者’の順番で配列されていることを求める。これをもとに、文書の各項目に対応する可能性を持つ連続文字列領域の組合せを抽出する。図5(b)に示した文書の場合、7行の文字列から4領域を抽出し、各領域に対して必ず1行以上の文字列を割当て、上から‘会議名称’,‘開催場所’,‘開催日時’,‘出席者’の順に配列する組合せを抽出する。その結果、図20に示す組合せが抽出できる。
【0053】
次に、それぞれの領域と文書項目の組合せを行った場合の、文書全体としてみた場合の照合度を求める。図20に示す領域組合せ例180の場合、それぞれの項目に対する照合度を図19により求める。会議名称は開始ブロック‘1’,終了ブロック‘1’の領域が対応しており、図19から照合度は‘−50’170となる。開催場所は開始ブロック‘2’,終了ブロック‘3’の領域が対応しており、図19から照合度は‘10’171となる。開催日時は開始ブロック‘4’,終了ブロック‘5’の領域が対応しており、図19から照合度は‘136’172となる。開催場所は開始ブロック‘6’,終了ブロック‘7’の領域が対応しており、図19から照合度は‘38’173となる。これらの照合度を加算して、領域組合せ例180に対する照合度‘134’181を得る。
【0054】
上記の方法により、文書の各項目に対応する可能性を持つ連続文字列領域の組合せのすべてに対して、照合度を算出する。照合度算出の後、照合度が最も大きくなる組合せを項目分類結果とする。図20の場合、会議名称に対して2行目の文字列,開催場所に対して3行目の文字列,開催日時に対して4行目の文字列,出席者に対して5行目の文字列を対応付けた時、最大の照合度を示す。その結果、正しい項目分類結果が得られる。
【0055】
蓄積手段5では、上記の結果得られた文書項目ごとに分類された文字認識結果を文字認識結果ファイル10に蓄積する。
【0056】
実施の形態2
以下、図面に基づいてこの発明の実施の形態2について説明する。図40は、請求項2の発明の文書ファイリング装置の構成図である。イメージファイル1には表形式の文書画像が保持され、イメージファイル1に格納された表形式の文書画像はレイアウト解析手段2に入力される。レイアウト解析手段2では、罫線抽出手段410により文書画像内に存在する罫線を抽出し、候補領域抽出手段411により上下左右の罫線の組合せで構成される項目領域の候補を抽出した後、表の内部に記載された文字列と文字の切り出しを行う。レイアウト解析に際しては、予め作成した読取対象文書のレイアウト知識を格納した文書レイアウト知識ファイル8を参考にして文書レイアウトを解析する。次に文字認識手段3では表領域内の文字画像を文字コードに変換する。文書項目分類手段4では、レイアウト解析の結果得られた文書レイアウト情報と文書レイアウト知識ファイル8とを比較すると共に、文字認識手段3によって得られた文字コードと文書の記述内容に関する知識を格納した文書コンテンツ知識ファイル9とを比較して文書項目ごとに文字認識結果を自動的に分類する。蓄積手段5,検索手段6,出力手段7に関しては、上記実施の形態1と同様な動作を行う。
【0057】
以下、図6,図34〜図39を用いて、図40に示す構成の動作を詳細に説明する。
【0058】
図6は、イメージファイルに格納された表形式の文書画像の一例を示す説明図である。
図39は、罫線抽出手段410の出力結果及び項目に対応する領域を説明する説明図であり、図において、370,371,372,373,374は罫線抽出において抽出された縦罫線,375,376,377,378,379は罫線抽出において抽出された横罫線,3701は会議名称に対応する領域,3702は開催場所に対応する領域,3703は開催日時に対応する領域,3704は出席者に対応する領域を示す。
【0059】
図34は、文書レイアウト知識ファイル8の内容を作成するための罫線情報の一例を示す説明図である。図35は、文書レイアウト知識ファイル8の内容の一例を示す説明図である。
【0060】
図36は、罫線抽出手段410の出力の一例を示す説明図であり、図において、340,341,342,343は縦罫線,344,345,346,347,348,349は横罫線,3400,3401,3402,3403,3404,3405,3406,3407,3408は縦罫線と横罫線で囲まれた領域を示す。
【0061】
図37は、候補領域抽出手段411の出力の一例を示す説明図である。図38は、文書項目分類手段4の文書レイアウトに関する動作を説明する説明図である。
【0062】
表形式の文書レイアウト知識ファイル8は、表の罫線情報を保持する。例えば、図6(a)に示す文書画像で文書レイアウト知識ファイル8を作成する場合、図6(a)の画像に対して罫線抽出処理を行い、図39に示す罫線情報を得る。次に項目領域を設定する手段(図示せず)により、会議名称,開催場所,開催日時,出席者の各項目に対応する領域を指定する。会議名称に対しては第1の領域3701,開催場所に対しては第2の領域3702,開催日時に対しては第3の領域3703,出席者に対しては第4の領域3704を指定した後、各項目領域の上下左右に隣接する罫線情報を抽出して、図34に示した罫線情報を得る。図34で、‘タテ罫線1’は罫線370,‘タテ罫線5’は罫線374,‘ヨコ罫線1’は罫線375,‘ヨコ罫線3’は罫線376,‘ヨコ罫線4’は罫線377,‘ヨコ罫線5’は罫線378,‘ヨコ罫線7’は罫線379を示す。
【0063】
次に、図34内で同一罫線を領域間で共有しているものを抽出し、図35に示した罫線共有関係を作成した上で、文書レイアウト知識ファイル8とする。
【0064】
一方、文書画像に対する項目分類は、まずイメージファイルから図6(b)に示す文書画像を読み出し、罫線抽出手段410によって文書内の罫線情報のみを抽出する。文書画像に対する罫線抽出処理は、例えば特開平4−343190号公報に記載された方法により実現できる。図36に、図6(b)の画像に対して罫線抽出を行った結果を示す。
【0065】
罫線抽出を行った後、候補領域抽出手段411において上下左右の罫線の組合せで構成される項目領域の候補を抽出する。候補領域抽出の際には、文書レイアウト知識ファイル8に記載された内容を利用して、候補領域の抽出を行う。例えば、文書レイアウト知識の内容(図示せず)から各項目の領域がすべて矩形で指定されている場合、領域候補は、縦横の罫線で構成される矩形領域を抽出する。この場合、候補領域抽出手段411は、図36に示した罫線で構成される矩形領域を領域候補として抽出する。その結果、候補領域抽出手段411の出力として、図37に示した領域と領域の上下左右の罫線との情報を得る。
【0066】
文字認識手段3には、図6(b)の文書画像から図36で得られた罫線情報の内部に記述された文字画像を抜き出して入力する。
【0067】
文書項目分類手段4における、文書レイアウトに関する文書項目分類は、項目の上下左右の罫線の共有関係が、文書レイアウト知識に合致するものを抽出する。具体的には、図37に示した出力結果と、図35に示した文書レイアウト知識ファイルとの照合を行う。例えば、図35で会議名称,開催場所,開催日時,出席者の各項目は、左側の縦罫線と右側の縦罫線とが共通している。さらに、会議名称の下側の横罫線と開催場所の上側の横罫線,開催場所の下側の横罫線と開催日時の上側の横罫線,開催日時の下側の横罫線と出席者の上側の横罫線がそれぞれ共通している。この条件に合致する組合せを図37から抽出する。これから、図38に示す対応付けを抽出する。
【0068】
上記の文書レイアウトに関する項目分類候補に対して、上記実施の形態1に示した文書コンテンツに関する項目分類を実施することにより、図38の‘連番6’の結果が選択されるのは明らかであり、これにより正しい項目分類結果が得られる。
【0069】
実施の形態3
以下、図面に基づいてこの発明の実施の形態3について説明する。図41は、請求項3の発明の文書ファイリング装置の構成図である。使用字種判定手段420が文書項目分類手段4に付加されている以外は上記実施の形態1と同一の構成であり同一動作を行うので、同一部分の動作説明は省略する。使用字種判定手段420は、文字認識手段3によって出力される文字認識結果に対して記入文字種の判定を行い、文字認識結果と文書コンテンツ知識ファイル9に格納された項目毎の記入文字種に関する情報を照合することにより、文書コンテンツを利用した項目分類を実現する。
【0070】
以下、図7,図21,図23〜図29を用いて、図41に示す構成の動作を詳細に説明する。
【0071】
図7は、イメージファイルに格納された文書画像の一例を示す説明図である。図21は、文書コンテンツ知識ファイル9の内容の一例を示す説明図である。図23は、図7(b)に対する文字認識結果の一例を示す説明図である。図24は、文書項目分類手段4のキーワードを用いた文書コンテンツに関する照合度の一例を示す説明図である。図25は、文書項目分類手段4の使用文字種を用いた文書コンテンツに関する照合度の一例を示す説明図である。
【0072】
図26は、文書項目分類手段4の文書レイアウトに関する照合度の一例を示す説明図である。図27は、文書項目分類手段4の文書レイアウトに関するペナルティ算出の一例を示す説明図である。図28は、文書項目分類手段4の文書レイアウトと文書コンテンツに関する照合結果の統合動作を説明する説明図である。図29は、文書項目分類手段4の文書項目と文字列の対応動作を説明する説明図であり、図において、270は最大の照合度Aを示す。
【0073】
文書項目分類手段4においては、文書レイアウトに関して2種類の照合度,文書コンテンツに関して2種類の照合度を算出する。
【0074】
文書レイアウトに関しては、まず上記実施の形態1で説明した項目領域の重畳関係を用いた照合度算出を行う。図7(a)の文書画像を用いて文書レイアウト知識ファイル8を作成し、図7(b)の文書画像に対して照合を行う。照合は上記実施の形態1に示した方法で行う。その結果、図26に示した照合度を得る。
【0075】
さらに文書レイアウトに関する第2の照合度は、文書構成の一般ルールとして文字列に対する字下げ情報を用いる。第2の照合度ppijは、例えば下記(5)式を用いて算出する。例えば、図7(b)の第2行目と第3行目の文字列で構成される領域に対して、(5)式を適用すると第3行目の文字列の末尾は右端まで伸びており、領域内最小の右側字下げ量=0,領域内の第1行目すなわち図7(b)の第2行目の右側字下げ量は40である。これを下記(5)式に代入すると、 ppij =−80となる。つまり、文書項目を羅列して文書を記入する場合、同一項目の先頭行が他の行に比べて文字列の右側が凹んでいることはまれであり、これに対して80点のペナルティを付与することに相当する。
【0076】
ppij = 20×(領域内最小の右側字下げ量 − 領域内第1行目の右側字下げ量)・・・(5)
【0077】
上記のペナルティを文字列の組合せについてすべて算出し、図27に示した照合度を作成する。
【0078】
文書コンテンツに関しては、まず上記実施の形態1で説明した項目に含まれるキーワードをもとにした照合度を算出する。図7の文書画像の読取を行う場合は、文書の記述内容に従い図21に示した文書コンテンツ知識ファイル9を用いて、図23に示した認識結果に対して照合度算出を行う。照合は上記実施の形態1に示した方法で行う。その結果、図24に示した照合結果を得る。
【0079】
さらに文書コンテンツに関する第2の照合度は、項目毎に使用される字種の情報を用いて照合度を算出する。
【0080】
文書項目毎に使用される文字種の情報は、文書コンテンツ知識ファイル9に予め格納される。図7の示した文書画像の場合、図21に示すようにタイトル,著者,著者所属の項目に対しては全字種,英字著者の項目に対しては、英字の指定を行う。
【0081】
一方、使用字種判定手段420では、文書コンテンツ知識ファイル9に格納された字種情報を用いて、図23に示した文字認識結果に対して記入文字種の判定を行う。字種の限定が行なわれている項目に対して、下記(6)式を用いて使用文字種に関する照合度を求める。例えば、図23の1行目の認識結果の英字著者に対する照合度は、字種指定に合致する英字は1文字,字種指定に合致しない文字は18文字であり、領域内の全文字数は19文字である。よって、puij =100×(1−18)/19 = −89となる。つまり、領域内に含まれる文字種が字種指定と合致する場合は照合度を加算し、領域内に含まれる文字種が字種指定と合致しない場合は照合度を減算する。これにより、項目の分類を行う。
【0082】
puij = 100×(領域内で字種指定に合致する文字の数 − 領域内で字種指定に合致しない文字の数)/(領域内の全文字数)・・・(6)
【0083】
上記の方法ですべての文字列の組合せについて照合度を算出し、図25に示した照合度を作成する。
【0084】
文書項目分類手段4では、上記で求めた4種類の照合度をすべて加算し、図28に示した総合的な照合度を算出する。
【0085】
さらに上記実施の形態1と同様の動作に従い、文書の各項目に対応する可能性を持つ連続文字列領域の組合せのすべてに対して、照合度を算出する。照合度算出の後、照合度が最も大きくなる組合せを項目分類結果とする。図29の場合、タイトルに対して1行目と2行目の文字列,著者に対して3行目の文字列,英字著者に対して4行目と5行目の文字列,著者所属に対して6行目の文字列を対応付けた時、最大の照合度A270を与える。その結果、正しい項目分類結果が得られる。
【0086】
実施の形態4
以下、図面に基づいてこの発明の他の実施の形態について説明する。図42は、この発明の実施の形態4の文書ファイリング装置の構成図である。省略可能性指示手段430が付加されている以外は上記実施の形態1と同一の構成であり、同一部分の動作説明は省略する。省略可能性指示手段430は予め設定した条件に従って、文書項目が省略される可能性があるかに否かの指示を行う。文書項目分類手段4は省略可能性指示手段430の指示に従って、省略可能性のある項目については該当する項目を省略した場合の組合せを追加して文書項目分類を行う。
【0087】
以下、図8,図30〜図33を用いて、図42に示す構成の動作を詳細に説明する。
【0088】
図8は、イメージファイルに格納された文書画像の一例を示す説明図である。図30は、文書項目分類手段4の文書レイアウトに関する照合度の一例を示す説明図であり、図において、280は空領域Aを示す。図31は、文書項目分類手段4の文書レイアウトに関するペナルティ算出の一例を示す説明図であり、図において、290は空領域Bを示す。図32は、文書項目分類手段4の文書コンテンツに関する照合度の一例を示す説明図であり、図において、300は空領域Cを示す。図33は、文書項目分類手段4の文書項目と文字列の対応動作を説明する説明図であり、図において、310は空領域D,311は最大の照合度Bを示す。
【0089】
文書項目分類手段4では図8(b)の文書画像に対して、実施の形態3で示した文書レイアウト知識ファイル9を用いて2種類の文書レイアウトに関する照合度を算出する。項目領域の重畳関係を用いた照合度を図30に、文書レイアウトの一般ルールによるペナルティを図31に示す。図30および図31の照合度を算出する際に、文書項目分類手段4は、省略可能性指示手段430によって予め指定された「英字著者の項目は省略される可能性があるという情報」(図示せず)を受けて、空領域A280および空領域B290を英字著者の項目に対して対応付ける。対応付けの照合度は0を設定する。
【0090】
文書コンテンツに関しては、実施の形態3で示したキーワードを用いた文書コンテンツに関する照合度を算出する。照合度の算出においては実施の形態3と同様の動作を行い、図21に示した文書コンテンツ知識ファイル9と照合を行う。照合の結果、図32に示した照合度を得る。この時上記と同様に、空領域C300を英字著者の項目に対して対応付ける。対応付けの照合度は0を設定する。
【0091】
図30〜図32に示した照合度を加算し、総合的な照合度(図示せず)を求めた後、実施の形態3と同様の動作に従い、文書の各項目に対応する可能性を持つ連続文字列領域の組合せのすべてに対して、照合度を算出する。この時、省略可能性のある英字著者の項目に関しては、空領域D310の対応関係も考慮して組合せを構成する。例えば、図33の項目対応関係312の場合、タイトルに対して1行目、著者に対して2〜3行目、著者所属に対して4行目が割り当てられ、英字著者を省略した組み合わせとなる。
【0092】
照合度算出の後、照合度が最も大きくなる組合せを項目分類結果とする。図33の場合、タイトルに対して1行目と2行目の文字列,著者に対して3行目の文字列,英字著者に対して空領域D310,著者所属に対して4行目の文字列を対応付けた時、最大の照合度B311を与える。その結果、項目の省略された文書画像に対しても正しい項目分類結果が得られる。
【0093】
実施の形態5
以下、図面に基づいてこの発明の実施の形態5について説明する。図43は、この発明の実施の形態5の文書ファイリング装置の構成図である。文書項目分類手段4が弛緩整合文書項目分類手段400で構成されている以外は上記実施の形態1と同一の構成であり、同一部分の動作説明は省略する。弛緩整合文書項目分類手段400は、文書レイアウトと文書コンテンツの分布内容から初期候補を抽出して対応付けの初期確率を設定し、文書項目の相対的な位置関係を用いて対応付け確率を変更することにより、項目分類を実現する。
【0094】
以下、図22を用いて、図43に示す構成の動作を詳細に説明する。
図22は、弛緩整合文書項目分類手段400の動作を説明する説明図であり、図において、201は弛緩整合法の初期値を示す。
【0095】
上記実施の形態1の説明で用いた図5の文書画像に対して、弛緩整合文書項目分類手段400を適用した場合について説明する。文書レイアウトと文書コンテンツに対する照合度を求め、図15と図18に示した照合度を求め、双方を加算して図19に示した総合的な照合度を求めるまでは、上記実施の形態1と同一の動作を行う。
【0096】
次に、上記実施の形態1では文書の各項目に対応する可能性を持つ連続文字列領域の組合せを抽出して、すべての組合せに対して照合度を求め最終的な結果を抽出していた。このような対応付けの問題に対しては、「弛緩整合法による手書き教育漢字認識」電子通信学会論文誌■82/9 Vol.J65−D No.9に示されるような弛緩整合法を適用することにより、高速に対応付けを行うことができる。
【0097】
弛緩整合法を文書項目の対応付けに適用する場合は、図22に示すように、まず各項目に対応する候補ブロックの絞り込みを行う。具体的には図19に示した照合度で50以上の数値を有するものを抽出する。その結果、会議名称,開催場所に対しては2種類のブロック組合せ,開催日時,出席者に対しては3種類のブロック組合せが抽出される。
【0098】
抽出した対応付けの確率は、各項目について加算すると100になるように正規化を行う初期値201とする。この初期値に対して弛緩整合法のアルゴリズムを適用して繰り返し動作を行うことにより、最適な組合せを得る。図22の場合、‘繰り返し4’において、会議名称は‘ブロック2’,開催場所は‘ブロック3’,開催日時は‘ブロック4’,出席者は‘開始ブロック5’に対応付けられ、正解が得られる。
【0099】
上記実施の形態1乃至実施の形態5において、文字認識結果として第1位の文字認識結果のみが得られた場合の例を示したが、任意の個数の認識候補文字を文字認識結果とすることも可能である。
【0100】
【発明の効果】
以上説明したように請求項1、文書レイアウトと文書コンテンツの双方の知識を利用して、文書を構成する罫線を抽出した後、罫線で囲まれる領域を抽出し、罫線の共有関係をもとに項目に対応する領域を抽出し、文書を構成する項目ごとに文字認識結果を分類することで、論理構造が異なる表形式文書に対して正しく項目を分類することができ、レイアウト変動の大きい文書に対して文書項目を自動的に分類することができる。
【0102】
また、請求項の発明は、文書コンテンツに関する情報として文書項目を構成する字種情報を知識として用い、文書レイアウトに関する知識と併用することで、レイアウト情報だけでは分割できない文書に対して正しく項目分類することができる。
【図面の簡単な説明】
【図1】この発明の実施の形態1の文書ファイリング装置の構成図。
【図2】図1に示す実施の形態1の文書ファイル作成のフローチャート。
【図3】図1に示す実施の形態1の文書検索のフローチャート。
【図4】文書画像の例を示す説明図。
【図5】文書画像の例を示す説明図。
【図6】文書画像の例を示す説明図。
【図7】文書画像の例を示す説明図。
【図8】文書画像の例を示す説明図。
【図9】文書レイアウトに関する知識情報を説明する説明図。
【図10】文書レイアウト解析結果の例を示す説明図。
【図11】文書レイアウト解析結果の例を示す説明図。
【図12】項目分類結果の例を示す説明図。
【図13】文書レイアウトに関する知識情報を説明する説明図。
【図14】文書レイアウト解析結果の例を示す説明図。
【図15】文書レイアウトに関する文書項目分類の動作を説明する説明図。
【図16】文書コンテンツに関する知識情報を説明する説明図。
【図17】文字認識結果の例を示す説明図。
【図18】文書コンテンツに関する文書項目分類の動作を説明する説明図。
【図19】文書のレイアウトとコンテンツ双方の情報を用いた文書項目分類の動作を説明する説明図。
【図20】文書項目と領域の対応動作を説明する説明図。
【図21】文書コンテンツに関する知識情報を説明する説明図。
【図22】弛緩整合法の動作を説明する説明図。
【図23】文字認識結果の例を示す説明図。
【図24】文書コンテンツに関する文書項目分類の動作を説明する説明図。
【図25】文書コンテンツに関する文書項目分類の動作を説明する説明図。
【図26】文書レイアウトに関する文書項目分類の動作を説明する説明図。
【図27】文書レイアウトに関する文書項目分類の動作を説明する説明図
【図28】文書のレイアウトとコンテンツ双方の情報を用いた文書項目分類の動作を説明する説明図。
【図29】文書項目と領域の対応動作を説明する説明図。
【図30】文書レイアウトに関する文書項目分類の動作を説明する説明図。
【図31】文書レイアウトに関する文書項目分類の動作を説明する説明図。
【図32】文書コンテンツに関する文書項目分類の動作を説明する説明図。
【図33】文書項目と領域の対応動作を説明する説明図。
【図34】文書レイアウトに関する知識情報を説明する説明図。
【図35】文書レイアウトに関する知識情報を説明する説明図。
【図36】文書画像の罫線抽出を説明する説明図。
【図37】文書レイアウト解析結果の例を示す説明図。
【図38】文書レイアウトに関する文書項目分類の動作を説明する説明図。
【図39】文書レイアウトに関する知識情報を説明する説明図。
【図40】この発明の実施の形態2の文書ファイリング装置の構成図。
【図41】この発明の実施の形態3の文書ファイリング装置の構成図。
【図42】この発明の実施の形態4の文書ファイリング装置の構成図。
【図43】この発明の実施の形態5の文書ファイリング装置の構成図。
【図44】従来の文書ファイリング装置の構成図。
【符号の説明】
1:イメージファイル、 2:レイアウト解析手段、 3:文字認識手段、
4:文書項目分類手段、 5:蓄積手段、 6:検索手段、 7:出力手段、
8:文書レイアウト知識ファイル、 9:文書コンテンツ知識ファイル、
10:文字認識結果ファイル、 30:項目分類結果A、
50:項目分類結果B、 60:項目分類結果C、 61:タイトル、
62:著者、 63:英字著者、 64:著者所属、
70:タイトルに対応した座標情報、 80:文字切り出し結果、
100:論文番号、 101:タイトル、 102:著者、
103:第2ブロック、 104:第3ブロック、 105:第4ブロック、
110:開始日時に対応した座標情報、 111:会議名称、
112:開催場所、 113:開催日時、 114:出席者、
120:開始ブロック、 121:終了ブロック、
122:開始ブロックおよび終了ブロックに対応した座標情報、
123:‘開始ブロック5’‘終了ブロック6’に対応した座標情報、
130:‘開始ブロック5’‘終了ブロック6’と開催日時の照合度、
140:開催場所の項目に対応したキーワード、
141:キーワード‘開催場所’、 142:キーワード‘場所’、
143:キーワード‘会議室’、 144:キーワード‘ルーム’、
145:キーワード‘ミーティング’、146:禁止キーワード‘会議名称’、
147:禁止キーワード‘開催日時’、 150:文字認識結果A、
160:‘開始ブロック2’と‘開始ブロック3’の領域と開催場所の項目との照合度、
170:‘ブロック1’の領域と会議名称の項目との照合度、
171:‘開始ブロック2’と‘開始ブロック3’の領域と開催場所の項目との照合度、
172:‘開始ブロック4’と‘開始ブロック5’の領域と開催日時の項目との照合度、
173:‘開始ブロック6’と‘開始ブロック7’の領域と出席者の項目との照合度、
180:会議名称,開催場所,開催日時,出席者とブロックとの対応関係、
181:照合度、 182:最大の照合度を与えるブロックの組合せ、
201:弛緩整合法の初期値、 270:最大の照合度A、
280:空領域A、 290:空領域B、 300:空領域C、
310:空領域D、 311:最大の照合度B、
340:罫線抽出において抽出された縦罫線A、
341:罫線抽出において抽出された縦罫線B、
342:罫線抽出において抽出された縦罫線C
343:罫線抽出において抽出された縦罫線D、
344:罫線抽出において抽出された横罫線A、
345:罫線抽出において抽出された横罫線B、
346:罫線抽出において抽出された横罫線C、
347:罫線抽出において抽出された横罫線D、
348:罫線抽出において抽出された横罫線E、
349:罫線抽出において抽出された横罫線F、
370:罫線抽出において抽出された縦罫線E、
371:罫線抽出において抽出された縦罫線F、
372:罫線抽出において抽出された縦罫線G、
373:罫線抽出において抽出された縦罫線H、
374:罫線抽出において抽出された縦罫線I、
375:罫線抽出において抽出された横罫線F、
376:罫線抽出において抽出された横罫線G、
377:罫線抽出において抽出された横罫線H、
378:罫線抽出において抽出された横罫線I、
379:罫線抽出において抽出された横罫線J、
390:画像処理手段、 391:文書認識手段、 410:罫線抽出手段、
411:候補領域抽出手段、 420:使用字種判定手段、
430:省略可能性指示手段、 3400:縦罫線と横罫線に囲まれる領域A、
3401:縦罫線と横罫線に囲まれる領域B、
3402:縦罫線と横罫線に囲まれる領域C、
3403:縦罫線と横罫線に囲まれる領域D、
3404:縦罫線と横罫線に囲まれる領域E、
3405:縦罫線と横罫線に囲まれる領域F、
3406:縦罫線と横罫線に囲まれる領域G、
3407:縦罫線と横罫線に囲まれる領域H、
3408:縦罫線と横罫線に囲まれる領域I、
3701:会議名称に対応する領域、
3702:開催場所に対応する領域、
3703:開催日時に対応する領域、
3704:出席者に対応する領域。

Claims (2)

  1. 文書の画像を蓄積するイメージファイルと、文書の種類ごとに文書構造のレイアウト規則を記憶する文書レイアウト知識ファイルと、文書の種類および文書項目ごとの記述内容を記憶する文書コンテンツ知識ファイルと、上記文書レイアウト知識ファイルに記述された知識に従い、文書を構成する罫線を抽出する罫線抽出手段と文書項目に隣接する罫線の共有関係を抽出する共有罫線抽出手段とで構成することによって、上記イメージファイルに蓄積された文書画像のレイアウトを解析するレイアウト解析手段と、このレイアウト解析手段により文書画像から切り出された文字パターンを認識する文字認識手段と、上記レイアウト解析手段で得られる文書レイアウト情報と上記文書レイアウト知識ファイルの内容および上記文字認識手段で得られる文字認識結果と上記文書コンテンツ知識ファイルの内容を照合することにより文書を構成する項目ごとに文字認識結果を分類する文書項目分類手段と、この文書項目分類手段によって得た文書項目ごとに分類された文字認識結果を格納する文字認識結果ファイルとを有することを特徴とする文書ファイリング装置。
  2. 文書の画像を蓄積するイメージファイルと、文書の種類ごとに文書構造のレイアウト規則を記憶する文書レイアウト知識ファイルと、文書の種類および文書項目ごとの記述内容を記憶する文書コンテンツ知識ファイルと、上記文書レイアウト知識ファイルに記述された知識に従い上記イメージファイルに蓄積された文書画像のレイアウトを解析するレイアウト解析手段と、このレイアウト解析手段により文書画像から切り出された文字パターンを認識する文字認識手段と、上記レイアウト解析手段で得られる文書レイアウト情報と上記文書レイアウト知識ファイルの内容および上記文字認識手段で得られる文字認識結果と上記文書コンテンツ知識ファイルに格納された文書項目を構成する字種情報とを照合することにより文書を構成する項目ごとに文字認識結果を分類する文書項目分類手段と、この文書項目分類手段によって得た文書項目ごとに分類された文字認識結果を格納する文字認識結果ファイルとを有することを特徴とする文書ファイリング装置。
JP3786997A 1997-02-21 1997-02-21 文書ファイリング装置 Expired - Fee Related JP3598711B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3786997A JP3598711B2 (ja) 1997-02-21 1997-02-21 文書ファイリング装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3786997A JP3598711B2 (ja) 1997-02-21 1997-02-21 文書ファイリング装置

Publications (2)

Publication Number Publication Date
JPH10240901A JPH10240901A (ja) 1998-09-11
JP3598711B2 true JP3598711B2 (ja) 2004-12-08

Family

ID=12509553

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3786997A Expired - Fee Related JP3598711B2 (ja) 1997-02-21 1997-02-21 文書ファイリング装置

Country Status (1)

Country Link
JP (1) JP3598711B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104751148A (zh) * 2015-04-16 2015-07-01 同方知网数字出版技术股份有限公司 一种版式文件中识别科学公式的方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137728A (ja) * 1998-11-02 2000-05-16 Fujitsu Ltd 文書解析装置及びプログラム記録媒体
JP3608965B2 (ja) * 1998-12-18 2005-01-12 シャープ株式会社 自動オーサリング装置および記録媒体
JP5339657B2 (ja) * 2001-09-11 2013-11-13 キヤノン株式会社 文書登録システム、方法、プログラム及び記憶媒体
EP1589474A4 (en) 2003-01-28 2008-03-05 Fujitsu Ltd METHOD FOR FACILITATING DATA COUPLING BETWEEN APPLICATIONS
JP4998237B2 (ja) * 2007-12-06 2012-08-15 富士通株式会社 論理構造モデル作成支援プログラム、論理構造モデル作成支援装置および論理構造モデル作成支援方法
JP5271667B2 (ja) * 2008-10-27 2013-08-21 株式会社日立ソリューションズ メタデータ抽出装置およびその方法
JP5263825B2 (ja) * 2008-11-04 2013-08-14 シャープ株式会社 情報クリッピング装置、情報クリッピング方法、および、情報クリッピングプログラム
US8805074B2 (en) 2010-09-27 2014-08-12 Sharp Laboratories Of America, Inc. Methods and systems for automatic extraction and retrieval of auxiliary document content
JP5791115B2 (ja) * 2012-07-04 2015-10-07 日本電信電話株式会社 画像領域分割装置、その方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104751148A (zh) * 2015-04-16 2015-07-01 同方知网数字出版技术股份有限公司 一种版式文件中识别科学公式的方法
CN104751148B (zh) * 2015-04-16 2018-09-07 同方知网数字出版技术股份有限公司 一种版式文件中识别科学公式的方法

Also Published As

Publication number Publication date
JPH10240901A (ja) 1998-09-11

Similar Documents

Publication Publication Date Title
US5721940A (en) Form identification and processing system using hierarchical form profiles
JP3647518B2 (ja) コード化したワードトークンを使用して文書画像をハイライトで強調する装置
US8005300B2 (en) Image search system, image search method, and storage medium
KR100339446B1 (ko) 주소 인식 장치 및 주소 인식 방법
US20140307959A1 (en) Method and system of pre-analysis and automated classification of documents
US20110188759A1 (en) Method and System of Pre-Analysis and Automated Classification of Documents
US20110043869A1 (en) Information processing system, its method and program
US20100150453A1 (en) Determining near duplicate "noisy" data objects
JPS61267177A (ja) 文書画像追加情報の蓄積方法
JP2012063883A (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP2007172077A (ja) 画像検索システム及び方法及びプログラム
JP3598711B2 (ja) 文書ファイリング装置
US7046847B2 (en) Document processing method, system and medium
US6728403B1 (en) Method for analyzing structure of a treatise type of document image
JP2000285190A (ja) 帳票識別方法および帳票識別装置および記憶媒体
JP2006309347A (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
US20140177951A1 (en) Method, apparatus, and storage medium having computer executable instructions for processing of an electronic document
Chang et al. Chinese document layout analysis using an adaptive regrouping strategy
WO2000036530A1 (fr) Methode de recherche et dispositif correspondant, support enregistre
JPH08221510A (ja) 帳票文書処理装置および帳票文書処理方法
JPH0689365A (ja) 文書画像処理装置
JPH11232439A (ja) 文書画像構造解析方法
Yamashita et al. A document recognition system and its applications
JP2003030654A (ja) パターン識別装置、パターン識別方法及びパターン識別用プログラム
JP3620299B2 (ja) 文書ファイリング装置及び文書ファイリング方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040624

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20040716

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040824

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040906

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080924

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080924

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090924

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090924

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100924

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110924

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees