JPH08287189A - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JPH08287189A
JPH08287189A JP7092065A JP9206595A JPH08287189A JP H08287189 A JPH08287189 A JP H08287189A JP 7092065 A JP7092065 A JP 7092065A JP 9206595 A JP9206595 A JP 9206595A JP H08287189 A JPH08287189 A JP H08287189A
Authority
JP
Japan
Prior art keywords
area
logical structure
document
bibliographical
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7092065A
Other languages
English (en)
Other versions
JP3487523B2 (ja
Inventor
Shiyou Imasato
詔 今郷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP09206595A priority Critical patent/JP3487523B2/ja
Publication of JPH08287189A publication Critical patent/JPH08287189A/ja
Application granted granted Critical
Publication of JP3487523B2 publication Critical patent/JP3487523B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)
  • Processing Or Creating Images (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 文書の画像を入力し、そのタイトルや著者名
などの書誌事項からなる論理構造を認識する場合に、論
理構造を簡易な処理で的確に認識する。 【構成】 文書画像8を画像分割手段3により複数の要
素に分割し、領域検出手段5により特定の要素を書誌事
項が位置する書誌領域として検出し、構造認識手段6に
より書誌領域から書誌事項を抽出して論理構造を認識す
る。文書画像8の書誌領域のみを論理構造の認識対象と
することで、論理構造を簡易な処理で的確に認識する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書画像の論理構造を
検出する文書処理装置に関する。
【0002】
【従来の技術】電子ファイルシステムなどの文書処理装
置は、文書画像をスキャナにより読取入力してデータベ
ースに保存することができる。このように文書画像をデ
ータベースに保存する場合、文字を絵柄として単純に読
取入力しても、これを表示出力すれば人間は認識できる
ので有用である。
【0003】上述のようにデータベースに保存した文書
画像は、自在に検索できないと有効に利用されない。デ
ータベースに保存した文書画像を自在に検索するために
は、文書画像に検索用のキーワードを設定しておく必要
がある。しかし、データベースに保存する文書画像にキ
ーワードを設定するためには、作業者が文書画像から適
当な用語を読み取ってキーボードにより入力操作する必
要がある。
【0004】このような課題を解決するため、特開平5-
159101号公報に開示された装置では、スキャナにより読
取入力した文書画像の論理構造が検出され、この論理構
造に従って文書画像の記載内容が認識される。より詳細
には、複数の構造モデルが予め設定されており、この構
造モデルに、文書画像のレイアウト構造と論理構造との
関係が定義されている。スキャナにより読取入力した文
書画像を複数の要素に分割し、この分割された複数の要
素の相互関係にマッチングする構造モデルを検出する。
この構造モデルの検出により文書画像の論理構造が認識
されるので、複数の要素の各々をタイトルや著者名や本
文などとして識別することができ、キーワードに最適な
用語を抽出することもできる。
【0005】
【発明が解決しようとする課題】上述のように文書画像
を入力して保存する場合、キーワードを抽出するために
論理構造を認識することが望ましい。
【0006】しかし、上記した特開平5-159101号公報の
装置では、ページにおける要素の位置や複数の要素の相
対位置などを仮定し、これに基づいて論理構造を認識し
ている。このため、学術論文などのようにフォーマット
が固定的な文書画像の論理構造は良好に認識できるが、
オフィスの通達文書などのようにレイアウトが様々な文
書画像から論理構造を認識することは困難である。
【0007】具体的には、オフィスの通達文書の場合、
タイトルや日付や発信元などの書誌情報は特定の位置に
記載されるが、例えば、日付の記載が省略される場合も
ある。本文のフォーマットも千差万別であるので、これ
を構造モデルにマッチングさせることは困難である。フ
ァクシミリ送信やコピーが繰り返されて画像品質が低下
している場合もあり、この場合は文字認識が困難なので
論理構造も良好に認識できない。手書メモや検印が付加
されている場合もあり、この場合は要素分割や文字認識
の精度が低下する。
【0008】また、データベースに保存した文書画像を
利用する場合には、文書画像をデータベースから読み出
してディスプレイに表示出力させ、その記載内容を確認
して必要な文書画像のみをプリンタにより印刷出力する
ことが多い。このような場合、スキャナにより読取入力
されてデータベースに保存された文書画像はイメージデ
ータであるので、ディスプレイが低解像度であると記載
内容を確認することが困難である。
【0009】このような場合、文書画像のタイトルや著
者名などがコード化されていれば、これは低解像度のデ
ィスプレイでも良好に表示されるので、文書画像の記載
内容を確認することができる。このような情報には文書
のタイトルや著者名などの書誌情報が相当し、これは検
索用のキーワードにも最適である。つまり、文書画像を
スキャナにより読取入力してデータベースに保存する場
合、文書画像の論理構造を認識して書誌情報を抽出し、
これをキーワードとして設定することが有用である。
【0010】
【課題を解決するための手段】請求項1記載の発明は、
文書画像を入力する画像入力手段を設け、入力された文
書画像を予め設定された条件に従って複数の要素に分割
する画像分割手段を設け、分割された複数の要素の各々
から文字を認識する文字認識手段を設け、特定の要素を
書誌領域として検出する領域検出手段を設け、検出され
た書誌領域の論理構造を認識する構造認識手段を設け、
認識された論理構造を出力する構造出力手段を設けた。
【0011】なお、本発明で云う書誌領域は、タイトル
や著者名などの書誌情報が位置する領域であり、具体的
には、第一ページの上縁部の中央に位置するタイトルの
記載領域、その右下に位置する著者名の記載領域、など
である。また、論理構造は、文書を良好に特定できる情
報の集合であり、具体的には、文書から選択的に抽出し
て記載内容まで認識した書誌事項の集合である。
【0012】請求項2記載の発明では、請求項1記載の
発明において、領域検出手段は、文書画像の有効領域に
横幅が一致する要素を検出し、この要素より上方に位置
する要素を書誌領域として検出する。
【0013】請求項3記載の発明では、請求項1記載の
発明において、領域検出手段は、行数が予め設定された
基準値より多数の要素を検出し、この要素より上方に位
置する要素を書誌領域として検出する。
【0014】請求項4記載の発明では、請求項1記載の
発明において、領域検出手段は、字数が予め設定された
基準値より多数の要素を検出し、この要素より上方に位
置する要素を書誌領域として検出する。
【0015】請求項5記載の発明では、請求項1記載の
発明において、構造出力手段は、書誌領域でない要素の
イメージデータも論理構造の一部として出力する。
【0016】請求項6記載の発明では、請求項1記載の
発明において、構造認識手段は、予め設定された複数の
文字列パターンとのマッチングにより書誌領域の文字列
を論理構造と認識する。
【0017】請求項7記載の発明では、請求項6記載の
発明において、構造認識手段は、予め規定された文字列
パターンの優先順位に対応して論理構造の認識を規制す
る。
【0018】請求項8記載の発明では、請求項6又は7
記載の発明において、構造認識手段は、文字列パターン
とマッチングした書誌領域の文字列を予め設定された変
換条件により変換してから論理構造と認識する。
【0019】
【作用】請求項1記載の発明は、文書画像が画像入力手
段により入力されると、この入力された文書画像が画像
分割手段により予め設定された条件に従って複数の要素
に分割され、この分割された複数の要素の各々から文字
認識手段により文字が認識される。領域検出手段により
特定の要素が書誌領域として検出されると、この検出さ
れた書誌領域の論理構造が構造認識手段により認識され
るので、構造出力手段により文書画像の論理構造が出力
される。
【0020】請求項2記載の発明では、領域検出手段
は、文書画像の有効領域に横幅が一致する要素を検出す
るので、横幅により本文と予測される要素が高精度に検
出され、この要素より上方に位置する要素を書誌領域と
して検出するので、本文の上方に位置すると予測される
書誌情報が高精度に検出される。
【0021】請求項3記載の発明では、領域検出手段
は、行数が予め設定された基準値より多数の要素を検出
するので、行数により本文と予測される要素が高精度に
検出され、この要素より上方に位置する要素を書誌領域
として検出するので、本文の上方に位置すると予測され
る書誌領域が高精度に検出される。
【0022】請求項4記載の発明では、領域検出手段
は、字数が予め設定された基準値より多数の要素を検出
するので、字数により本文と予測される要素が高精度に
検出され、この要素より上方に位置する要素を書誌領域
として検出するので、本文の上方に位置すると予測され
る書誌領域が高精度に検出される。
【0023】請求項5記載の発明では、構造出力手段
は、書誌領域でない要素のイメージデータも論理構造の
一部として出力するので、書誌情報を有しない本文など
は煩雑な処理が行なわれることなく正確に保存される。
【0024】請求項6記載の発明では、構造認識手段
は、予め設定された複数の文字列パターンとマッチング
した書誌領域の文字列を論理構造と認識するので、文書
画像の入力精度が良好でない場合でも論理構造が的確に
認識される。
【0025】請求項7記載の発明では、構造認識手段
は、予め規定された文字列パターンの優先順位に対応し
て論理構造の認識を規制するので、論理構造の複数の候
補を適切に選択するようなことができる。
【0026】請求項8記載の発明では、構造認識手段
は、文字列パターンとマッチングした書誌領域の文字列
を予め設定された変換条件により変換してから論理構造
と認識するので、誤認識が予測される文字列を適切に修
正してから論理構造を認識することができる。
【0027】
【実施例】本発明の一実施例を図面に基づいて以下に説
明する。まず、本実施例の文書処理装置1は、図1に示
すように、画像入力手段2、画像分割手段3、文字認識
手段4、領域検出手段5、構造認識手段6、構造出力手
段7、を有している。
【0028】前記画像入力手段2は、イメージスキャナ
(図示せず)により原稿を読取走査することにより、原
稿に記載された文書の画像である文書画像8を、ドット
マトリクスのイメージデータとして入力する。前記画像
分割手段3は、入力された文書画像8を予め設定された
条件に従って複数の要素に分割し、前記文字認識手段4
は、分割された複数の要素の各々から文字を認識する。
このような要素の分割や文字の認識は公知技術により実
現され、例えば、このような技術は特開平5-159101号公
報に開示されている。
【0029】なお、入力される文書画像8が複数ページ
からなることもあるが、ここで問題とする書誌情報は第
一ページに位置すると予測されるので、要素の分割から
以下の処理は第一ページのみに実行される。
【0030】前記領域検出手段5は、上述のように分割
された複数の要素に対し、特定の要素を書誌領域として
検出する。より詳細には、“その上端がページの上方に
位置する”“その左端がページの左方に位置する”なる
二つの条件が予め設定されており、複数の要素を上記条
件に対応させてソートする。このようにソートされた複
数の要素から、横幅が文書画像8の有効領域に一致する
要素を検出し、この要素より上方に位置する要素を書誌
領域として検出する。
【0031】つまり、タイトルや著者名などの書誌情報
は本文より上方に位置すると想定し、本文は横幅が文書
画像8の有効領域に一致すると予測している。そこで、
より上方かつ左方に位置して幅広の要素を本文の上部と
して検出し、これより上方の要素を書誌領域として検出
している。
【0032】前記構造認識手段6は、上述のように検出
された書誌領域の論理構造を認識する。より詳細には、
書誌領域にはタイトルや著者名などの書誌事項が記載さ
れているので、これらの書誌事項を個々に抽出すること
により書誌領域の論理構造を認識する。このため、図2
に示すように、書誌事項の抽出ルールが各種別毎に予め
設定されており、この抽出ルールにより書誌領域から各
種の書誌事項が抽出される。
【0033】なお、図2の第一フィールド9は書誌事項
の種別、第二フィールド10は抽出処理の内容、第三フ
ィールド11は文字列パターン、第四フィールド12は
優先順位、第五フィールド13は変換処理の内容、を示
す。例えば、タイトルはセンタリングにより抽出され、
その優先順位は“1”で変換処理は設定されていない。
日付は文字列パターンとのパターンマッチングにより抽
出されるが、二つの文字列パターンに優先順位が設定さ
れている。優先順位が“2”の文字列パターンは、文字
の誤認識に対応したもので、先頭がアルファベットの
“l(エル)”であり、これに対応した変換処理は“l
(エル)→1(イチ)”である。
【0034】前記構造出力手段7は、上述のように認識
された文書画像8の論理構造を出力する。この論理構造
の出力形式は、図3に示すように、ISO(Internation
al Organization for Standardization)標準のSGML
(Standard Generalized Markup Language)形式として設
定されている。なお、このSGML形式の各項目の意味
は、 frontm … 書誌事項の集合 title … 文書のタイトル date … 文書の日付 y … 年 m … 月 d … 日 key …その他の書誌事項 body … 本文 である。この場合、“frontm〜key”は書誌領域から抽
出される書誌事項であり、そのイメージデータは文字コ
ードに変換されてから出力されるが、“body”は書誌領
域でない本文領域であり、そのイメージデータは文字コ
ードに変換されることなく出力される。
【0035】このような構成において、本実施例の文書
処理装置1は、文書画像8が画像入力手段2に入力され
ると、この文書画像8の論理構造を構造出力手段7から
出力する。このような文書処理装置1の処理動作を、図
4のフローチャートに基づいて説明する。
【0036】まず、画像入力手段2により文書画像8を
イメージデータとして入力し(ステップS1)、この入
力された文書画像8を画像分割手段3により複数の要素
に分割し(ステップS2)、この分割された複数の要素
の各々の文字を文字認識手段4により認識する(ステッ
プS3)。つぎに、領域検出手段5により、複数の要素
を前述した条件に対応させてソートしてから、文書画像
8の有効領域に横幅が一致する要素を本文領域として検
出し(ステップS4)、この本文領域の要素より上方に
位置する要素を書誌領域として検出する(ステップS
5)。
【0037】このように検出された書誌領域には、“タ
イトル、発信日付、発信元、送信先”などの書誌事項が
存在するので、これらの書誌事項が論理構造として構造
認識手段6により認識される(ステップS6)。この
時、文字列のパターンが予測される日付などの書誌事項
は、複数の文字列パターンとのマッチングにより書誌領
域から抽出される。
【0038】このように抽出される文字列は文字列パタ
ーンの優先順位に従って取捨選択されるので、抽出され
た文字列が多数の場合、優先順位の高い文字列のみ採用
され、ノイズの増加が防止される。さらに、上述のよう
に抽出された文字列が変換条件に一致する場合は、文字
列は変換処理されてから論理構造に認識される。より具
体的には、書誌事項である日付には“1(イチ)”なる
数字が多用されるが、これは文字認識においてアルファ
ベットの“l(エル)”に誤認識されることが多い。こ
の小文字の“l(エル)”が書誌事項の先頭の文字に使
用される可能性は低いので、これが書誌事項の先頭に位
置した場合は“1(イチ)”に変換処理する。
【0039】上述のようにして文書画像8の論理構造が
認識されると、構造出力手段7は、図3に示すように、
文書画像8の論理構造をSGML形式で出力する(ステ
ップS7,S8)。この時、書誌領域から抽出された書
誌事項は文字コードに変換されて出力されるが、本文領
域はイメージデータのまま出力される。
【0040】上述のように、本実施例の文書処理装置1
では、文書画像8が画像入力手段2に入力されると、こ
の文書画像8の論理構造を構造出力手段7から出力する
ので、この文書画像8をデータベースに格納する場合で
も、論理構造によりキーワードを良好に設定することが
できる。この時、文書画像8から書誌事項が位置する書
誌領域を検出し、この書誌領域のみを論理構造の認識対
象とし、文書画像8の全体を解析する必要がないので、
簡易な処理動作で的確に論理構造が認識される。
【0041】さらに、論理構造により判別された書誌情
報は文字認識手段4によりコード化されているので、デ
ータベースから読み出した文書画像8を表示するディス
プレイが低解像度で本文の文字などが読み取れない場合
でも、コード化された論理構造は明確に読み取ることが
できるので、文書画像8の記載内容を確認することがで
きる。しかも、書誌領域でない本文領域は文字コードに
変換されないので、処理動作の負担が軽減されて時間が
短縮され、文書画像8の本文が正確に保存される。
【0042】また、本実施例の文書処理装置1では、本
文領域の要素は、文書画像8の有効領域に横幅が一致す
る要素として検出されるので、簡易な処理動作で高精度
に検出される。さらに、書誌領域の要素は、本文領域の
要素より上方に位置する要素として検出されるので、簡
易な処理動作で高精度に検出される。しかし、本発明は
上記実施例に限定されるものではなく、本文領域の要素
を、行数が予め設定された基準値より多数の要素として
検出することや、字数が予め設定された基準値より多数
の要素として検出することも可能である。つまり、一般
的に本文は書誌事項に比較して行数や字数が多大なの
で、これを利用することでも本文領域と書誌領域とを簡
易な処理動作で高精度に検出することができる。なお、
この場合の処理動作は、文書画像8から分割された複数
の要素の各々の行数や字数をカウントし、これを基準値
と比較することにより容易に実現される。
【0043】また、本実施例の文書処理装置1では、予
め設定された複数の文字列パターンとマッチングした書
誌領域の文字列を論理構造と認識するので、各種の論理
構造を的確に認識することができる。しかも、この論理
構造の認識は文字列パターンの優先順位に従って実行さ
れるので、抽出される書誌事項が多数の場合に個数を限
定したり、誤認識が発生しやすい文字列を予測して排除
するようなことができる。しかし、本発明は上記実施例
に限定されるものでもなく、文字列パターンとマッチン
グした全部の書誌事項を論理構造として認識することに
より、文書画像8の検索の許容範囲を拡大することも可
能である。
【0044】さらに、本実施例の文書処理装置1では、
文字列パターンとマッチングした書誌領域の文字列を予
め設定された変換条件により変換するので、前述のよう
にアルファベットの“l(エル)”に誤認識されやすい
日付の“1(イチ)”を修正するようなことができ、文
書画像8の入力精度が低く文字認識に誤動作が発生して
いる場合でも、文書画像8の論理構造を正確に認識する
ことができる。
【0045】
【発明の効果】請求項1記載の発明は、文書画像を入力
する画像入力手段を設け、入力された文書画像を予め設
定された条件に従って複数の要素に分割する画像分割手
段を設け、分割された複数の要素の各々から文字を認識
する文字認識手段を設け、特定の要素を書誌領域として
検出する領域検出手段を設け、検出された書誌領域の論
理構造を認識する構造認識手段を設け、認識された論理
構造を出力する構造出力手段を設けたことにより、論理
構造が文書画像の全体でなく書誌領域のみから認識され
るので、処理範囲が減縮されて論理構造の認識処理の負
担が軽減され、書誌領域には文書画像を良好に特定でき
る書誌事項が存在するので、文書画像の論理構造が的確
に認識される。
【0046】請求項2記載の発明では、領域検出手段
は、文書画像の有効領域に横幅が一致する要素を検出
し、この要素より上方に位置する要素を書誌領域として
検出することにより、本文と予測される要素を横幅に基
づいて高精度に検出することができ、このように検出さ
れる本文の上方に位置すると予測される書誌情報を高精
度に検出することができる。
【0047】請求項3記載の発明では、領域検出手段
は、行数が予め設定された基準値より多数の要素を検出
し、この要素より上方に位置する要素を書誌領域として
検出することにより、本文と予測される要素を行数に基
づいて高精度に検出することができ、このように検出さ
れる本文の上方に位置すると予測される書誌情報を高精
度に検出することができる。
【0048】請求項4記載の発明では、領域検出手段
は、字数が予め設定された基準値より多数の要素を検出
し、この要素より上方に位置する要素を書誌領域として
検出することにより、本文と予測される要素を字数に基
づいて高精度に検出することができ、このように検出さ
れる本文の上方に位置すると予測される書誌情報を高精
度に検出することができる。
【0049】請求項5記載の発明では、構造出力手段
は、書誌領域でない要素のイメージデータも論理構造の
一部として出力することにより、論理構造の抽出対象と
ならない本文はコード化する必要がないので、この煩雑
な処理を行なわないことにより、処理動作の負担や時間
を軽減することができ、本文などを正確に保存すること
ができる。
【0050】請求項6記載の発明では、構造認識手段
は、予め設定された複数の文字列パターンとのマッチン
グにより書誌領域の文字列を論理構造と認識することに
より、各種の論理構造を簡易な処理動作で的確に認識す
ることができる。
【0051】請求項7記載の発明では、構造認識手段
は、予め規定された文字列パターンの優先順位に対応し
て論理構造の認識を規制することにより、認識される論
理構造が多数の場合に、これを優先順位により取捨選択
したり重み付けるようなことができる。
【0052】請求項8記載の発明では、構造認識手段
は、文字列パターンとマッチングした書誌領域の文字列
を予め設定された変換条件により変換してから論理構造
と認識することにより、文字認識において誤認識されや
すい文字列を予測して修正することができるので、文書
画像の入力精度が低い場合でも論理構造を良好に認識す
ることができる。
【図面の簡単な説明】
【図1】本発明の一実施例の文書処理装置を示すブロッ
ク図である。
【図2】書誌情報の抽出ルールを示す模式図である。
【図3】論理構造の出力形式を示す模式図である。
【図4】文書処理装置の処理動作を示すフローチャート
である。
【符号の説明】
1 文書処理装置 2 画像入力手段 3 画像分割手段 4 文字認識手段 5 領域検出手段 6 構造認識手段 7 構造出力手段 8 文書画像

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 文書画像を入力する画像入力手段と、入
    力された文書画像を予め設定された条件に従って複数の
    要素に分割する画像分割手段と、分割された複数の要素
    の各々から文字を認識する文字認識手段と、特定の要素
    を書誌領域として検出する領域検出手段と、検出された
    書誌領域の論理構造を認識する構造認識手段と、認識さ
    れた論理構造を出力する構造出力手段と、を有すること
    を特徴とする文書処理装置。
  2. 【請求項2】 領域検出手段は、文書画像の有効領域に
    横幅が一致する要素を検出し、この要素より上方に位置
    する要素を書誌領域として検出することを特徴とする請
    求項1記載の文書処理装置。
  3. 【請求項3】 領域検出手段は、行数が予め設定された
    基準値より多数の要素を検出し、この要素より上方に位
    置する要素を書誌領域として検出することを特徴とする
    請求項1記載の文書処理装置。
  4. 【請求項4】 領域検出手段は、字数が予め設定された
    基準値より多数の要素を検出し、この要素より上方に位
    置する要素を書誌領域として検出することを特徴とする
    請求項1記載の文書処理装置。
  5. 【請求項5】 構造出力手段は、書誌領域でない要素の
    イメージデータも論理構造の一部として出力することを
    特徴とする請求項1記載の文書処理装置。
  6. 【請求項6】 構造認識手段は、予め設定された複数の
    文字列パターンとのマッチングにより書誌領域の文字列
    を論理構造と認識することを特徴とする請求項1記載の
    文書処理装置。
  7. 【請求項7】 構造認識手段は、予め規定された文字列
    パターンの優先順位に対応して論理構造の認識を規制す
    ることを特徴とする請求項6記載の文書処理装置。
  8. 【請求項8】 構造認識手段は、文字列パターンとマッ
    チングした書誌領域の文字列を予め設定された変換条件
    により変換してから論理構造と認識することを特徴とす
    る請求項6又は7記載の文書処理装置。
JP09206595A 1995-04-18 1995-04-18 文書処理装置 Expired - Fee Related JP3487523B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP09206595A JP3487523B2 (ja) 1995-04-18 1995-04-18 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09206595A JP3487523B2 (ja) 1995-04-18 1995-04-18 文書処理装置

Publications (2)

Publication Number Publication Date
JPH08287189A true JPH08287189A (ja) 1996-11-01
JP3487523B2 JP3487523B2 (ja) 2004-01-19

Family

ID=14044081

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09206595A Expired - Fee Related JP3487523B2 (ja) 1995-04-18 1995-04-18 文書処理装置

Country Status (1)

Country Link
JP (1) JP3487523B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10214309A (ja) * 1997-01-29 1998-08-11 Ricoh Co Ltd 文書画像領域抽出方法
US6456738B1 (en) 1998-07-16 2002-09-24 Ricoh Company, Ltd. Method of and system for extracting predetermined elements from input document based upon model which is adaptively modified according to variable amount in the input document
JP2010117941A (ja) * 2008-11-13 2010-05-27 Nippon Telegr & Teleph Corp <Ntt> Web文書主要コンテンツ抽出装置及びプログラム
US8824798B2 (en) 2009-08-20 2014-09-02 Fuji Xerox Co., Ltd. Information processing device, computer readable medium storing information processing program, and information processing method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10214309A (ja) * 1997-01-29 1998-08-11 Ricoh Co Ltd 文書画像領域抽出方法
US6456738B1 (en) 1998-07-16 2002-09-24 Ricoh Company, Ltd. Method of and system for extracting predetermined elements from input document based upon model which is adaptively modified according to variable amount in the input document
JP2010117941A (ja) * 2008-11-13 2010-05-27 Nippon Telegr & Teleph Corp <Ntt> Web文書主要コンテンツ抽出装置及びプログラム
US8824798B2 (en) 2009-08-20 2014-09-02 Fuji Xerox Co., Ltd. Information processing device, computer readable medium storing information processing program, and information processing method

Also Published As

Publication number Publication date
JP3487523B2 (ja) 2004-01-19

Similar Documents

Publication Publication Date Title
JP3427692B2 (ja) 文字認識方法および文字認識装置
CA2116600C (en) Methods and apparatus for inferring orientation of lines of text
US5265242A (en) Document retrieval system for displaying document image data with inputted bibliographic items and character string selected from multiple character candidates
US5164899A (en) Method and apparatus for computer understanding and manipulation of minimally formatted text documents
US5325444A (en) Method and apparatus for determining the frequency of words in a document without document image decoding
US5748805A (en) Method and apparatus for supplementing significant portions of a document selected without document image decoding with retrieved information
US9135249B2 (en) Number sequences detection systems and methods
US7668372B2 (en) Method and system for collecting data from a plurality of machine readable documents
JP3375766B2 (ja) 文字認識装置
US8340425B2 (en) Optical character recognition with two-pass zoning
JP3294995B2 (ja) 帳票読取装置
JPH04175966A (ja) 文書論理構造生成方法
JP3487523B2 (ja) 文書処理装置
Slavin et al. Models and methods flexible documents matching based on the recognized words
JP2008257543A (ja) 画像処理システム及びプログラム
Tanner Deciding whether optical character recognition is feasible
US11475686B2 (en) Extracting data from tables detected in electronic documents
JPH08263587A (ja) 文書入力方法および文書入力装置
Emon et al. A review of optical character recognition (ocr) techniques on bengali scripts
Mariner Optical Character Recognition (OCR)
JPH1011443A (ja) 文書符号検査システム
JP3841318B2 (ja) アイコン生成方法、ドキュメント検索方法及びドキュメント・サーバー
JP3190603B2 (ja) 文字読み取り装置、その読み取り方法および記録媒体
JP3928739B2 (ja) 文書ファイリングシステム
JP4044158B2 (ja) 符号照合装置及び符合照合方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071031

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081031

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081031

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091031

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101031

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111031

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees