JPH10247237A - 文書画像処理装置および文書画像処理方法および情報記録媒体 - Google Patents

文書画像処理装置および文書画像処理方法および情報記録媒体

Info

Publication number
JPH10247237A
JPH10247237A JP9368219A JP36821997A JPH10247237A JP H10247237 A JPH10247237 A JP H10247237A JP 9368219 A JP9368219 A JP 9368219A JP 36821997 A JP36821997 A JP 36821997A JP H10247237 A JPH10247237 A JP H10247237A
Authority
JP
Japan
Prior art keywords
document
image
article
document image
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9368219A
Other languages
English (en)
Inventor
Tei Abe
悌 阿部
Shiori Ooaku
志緒理 大阿久
Takashi Saito
高志 齋藤
Tsukasa Kouchi
司 幸地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP9368219A priority Critical patent/JPH10247237A/ja
Publication of JPH10247237A publication Critical patent/JPH10247237A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書画像の入力,保存,分類,検索,閲覧や
転送などの各種の文書画像処理を操作性良く、また、効
率良く行なうことが可能である。 【解決手段】 文書を読取って文書画像とする画像入力
部1と、画像入力部1によって入力された文書画像に対
し認識処理を行ない、少なくとも、入力された文書画像
をテキストに変換する認識処理部5と、保存部10とを
有し、前記保存部10は、画像入力手段で得られた文書
画像のうち、所望の文書を画像そのままの形で、および
/または認識処理されたテキストの形で保存する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書画像処理を行
なう文書画像処理装置および文書画像処理方法および情
報記録媒体に関する。
【0002】
【従来の技術】従来、電子図書館に代表されるように文
書画像を電子化し、分類・検索する需要は非常に大き
い。従来、文書画像データを記録保存し、再利用する電
子ファイリングシステムの検索方法として、特開平6−
168276号に示されているような技術が知られてい
る。
【0003】この従来の電子ファイリングシステムは、
1頁あるいは複数頁から成る文書画像データを入力する
画像入力手段と、前記画像入力手段で入力された画像デ
ータを記憶装置に保存する画像保存手段と、前記画像保
存手段で保存された画像データを縮小して縮小画像デー
タを作成する画像縮小手段と、前記画像縮小手段で縮小
された縮小画像データの複数ファイルを表示装置に同時
に表示させる表示手段と、表示された各縮小画像データ
ごと独立に任意の頁を表示させる第1の頁めくり手段
と、表示された複数の縮小画像データの頁を同時に切り
換える第2の頁めくり手段と、各縮小画像データの同一
のファイル内の複数頁を同時に表示装置に表示させる複
数頁表示手段を備えており、縮小画像を複数表示する検
索手法において、検索画像を各画像の1頁目に限ること
なく、任意の頁を用いた検索を可能とすることを意図し
ている。
【0004】
【発明が解決しようとする課題】しかしながら、上述し
た従来のシステムでは、情報を画像のまま扱っているた
めに情報量が多く、保存や検索,閲覧,転送などを行な
う場合に非常に負荷となるという問題があった。
【0005】また、上述したような従来のシステムで
は、画像入力手段には通常のスキャナが用いられていた
ため、複数ページの本や雑誌などの文書画像を入力する
際には、人手によって1ページずつめくってスキャナに
読み込ませており、文書画像の入力に相当な手間がかか
るという問題があった。
【0006】すなわち、従来のシステムでは、文書画像
の入力,保存,分類,検索,閲覧や転送などの処理を操
作性良く、また、効率良く行なうことができないという
問題があった。
【0007】本発明は、文書画像の入力,保存,分類,
検索,閲覧や転送などの各種の文書画像処理を操作性良
く、また、効率良く行なうことの可能な文書画像処理装
置および文書画像処理方法および情報記録媒体を提供す
ることを目的としている。
【0008】
【課題を解決するための手段】上記目的を達成するため
に、請求項1記載の発明は、文書を読取って文書画像と
する画像入力手段と、画像入力手段によって入力された
文書画像に対し認識処理を行ない、少なくとも、入力さ
れた文書画像をテキストに変換する認識処理手段と、保
存手段とを有し、前記保存手段は、画像入力手段で得ら
れた文書画像のうち、所望の文書を画像そのままの形
で、および/または認識処理されたテキストの形で保存
することを特徴としている。
【0009】また、請求項2記載の発明は、自動ページ
めくり機構を有し、文書が複数ページの文書からなる場
合、各ページを自動めくりしながら、各ページの文書を
読取って文書画像とする画像入力手段と、画像入力手段
によって入力された文書画像に対し認識処理を行ない、
少なくとも、入力された文書画像をテキストに変換する
認識処理手段と、保存手段とを有し、前記保存手段は、
画像入力手段で得られた文書画像のうち、所望の文書を
画像そのままの形で、および/または認識処理されたテ
キストの形で保存することを特徴としている。
【0010】また、請求項3記載の発明は、文書を読取
って文書画像とする画像入力手段と、画像入力手段によ
って入力された文書画像に対し認識処理を行ない、少な
くとも、入力された文書画像をテキストに変換する認識
処理手段と、保存手段と、キーワードを入力するキーワ
ード入力手段とを有し、前記保存手段は、前記入力され
た文書の文書画像に対し認識処理を行なって得られたテ
キスト中に、キーワード手段から入力されたキーワード
と一致している文字列が存在するか否かを判断し、存在
する場合には、該文書をキーワードを付加して保存する
ことを特徴としている。
【0011】また、請求項4記載の発明は、請求項1乃
至請求項3のいずれか一項に記載の文書画像処理装置に
おいて、前記認識処理手段は、文書画像の文字画像に対
して認識処理を行ない、コード化された文字列としての
テキストに変換するとともに、文書画像のレイアウトを
も認識することを特徴としている。
【0012】また、請求項5記載の発明は、請求項1記
載の文書画像処理装置において、前記認識処理手段は、
文書画像の文字画像に対して認識処理を行ない、コード
化された文字列としてのテキストに変換するとともに、
文字画像のフォントタイプをも認識することを特徴とし
ている。
【0013】また、請求項6記載の発明は、請求項1記
載の文書画像処理装置において、前記認識処理手段は、
文書画像の文字画像に対して認識処理を行ない、コード
化された文字列としてのテキストに変換するとともに、
文字画像のフォントサイズをも認識することを特徴とし
ている。
【0014】また、請求項7記載の発明は、文書が複数
ページの文書からなる場合、各ページを自動めくりしな
がら、各ページの文書を読取って入力された文書画像に
対し認識処理を行ない、少なくとも、入力された文書画
像をテキストに変換し、入力された文書画像のうち、所
望の文書を画像そのままの形で、および/または認識処
理されたテキストの形で保存することを特徴としてい
る。
【0015】また、請求項8記載の発明は、文書を読取
って文書画像とする画像入力手段と、文書画像の中から
記事を抽出する記事抽出手段と、記事抽出手段によって
抽出された記事の画像に対し認識処理を行ない、記事の
画像をテキストに変換する認識処理手段と、抽出した記
事を保存する保存手段とを有し、前記保存手段は、記事
を保存する際、記事から代表語を抽出し、抽出した代表
語を記事に付加して保存することを特徴としている。
【0016】また、請求項9記載の発明は、前記画像入
力手段は、自動ページめくり機構を有し、文書が複数ペ
ージの文書からなる場合、各ページを自動めくりしなが
ら、各ページの文書を読取り、前記記事抽出手段は、入
力されたページ画像から記事を抽出することを特徴とし
ている。
【0017】また、請求項10記載の発明は、前記保存
手段は、前記記事抽出手段によって抽出された記事の全
ページの画像の認識結果であるテキストを所定の検索語
で検索し、全ページの記事のうちから、検索語と一致す
る記事のページを選択して保存することを特徴としてい
る。
【0018】また、請求項11記載の発明は、前記保存
手段は、前記記事抽出手段によって抽出された記事の全
ページの画像の認識結果であるテキストを所定の検索分
野に関する検索語で検索し、全ページの記事のうちか
ら、所定の検索分野に関する検索語と一致する記事を選
択して保存することを特徴としている。
【0019】また、請求項12記載の発明は、前記記事
抽出手段は、文書中に抽出したい記事が連続的におよび
ページ単位に存在する場合に、文書画像に対してタイト
ルの抽出処理を行ない、タイトルを含むページから次の
タイトルを含むページまでの部分を記事として抽出する
ことを特徴としている。
【0020】また、請求項13記載の発明は、前記記事
抽出手段は、文書中に抽出したい記事がページ単位に存
在する場合に、記事中に対象外のページが挿入されてい
るときには、対象外のページについては記事として抽出
しないことを特徴としている。
【0021】また、請求項14記載の発明は、前記記事
抽出手段は、文書中に抽出したい記事がページ単位では
なく領域単位に存在する場合に、入力された文書画像に
対してレイアウト解析処理を行ない、ページ内の各領域
を識別し、領域単位に存在する記事を抽出することを特
徴としている。
【0022】また、請求項15記載の発明は、文書が複
数ページの文書からなる場合、各ページを自動めくりし
ながら、各ページの文書を読取って入力された文書画像
に対し認識処理を行ない、少なくとも、入力された文書
画像をテキストに変換し、入力された文書画像のうち、
所望の文書を画像そのままの形で、および/または認識
処理されたテキストの形で保存する機能を実現するため
のプログラムが記録されていることを特徴としている。
【0023】
【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図1は本発明に係る文書画像処理装
置の構成例を示す図である。図1を参照すると、この文
書画像処理装置は、文書を例えば2値画像として読み込
む画像入力部1と、画像入力部1で読み込まれた文書画
像を記憶する画像ファイル2と、文書画像を見出し,本
文,写真,表などの領域に分割し、領域を識別する領域
識別部3と、領域識別部3で識別された領域の識別結果
に基づき、文書画像から文字画像(文字画像の領域)のみ
を抽出する文字切り出し処理部4と、文字切り出し処理
部4により切り出された各文字画像に対し所定の認識処
理を行なう認識処理部5と、認識処理結果としてのテキ
スト(コード化された文字列)を記憶するテキストファイ
ル6と、キーワードを入力するキーワード入力部7と、
第1の検索部8と、表示部9と、保存部10と、第2の
検索部11と、全体の制御を行なう制御部12とを有し
ている。
【0024】ここで、画像入力部1は、例えば、自動ペ
ージめくり機構を有するスキャナとして構成されてい
る。
【0025】また、文字切り出し処理部4は、文書画像
から例えば図2に示すように1つの文字画像を切り出す
ようになっている。すなわち、図2の例では、1つの文
字画像(図2の例では、文字「永」)は、文字の外接矩形
領域ARとして切り出される。
【0026】また、認識処理部5は、例えば図3のよう
に構成されている。図3の例では、認識処理部5は、対
象文書画像中の文字画像を文字認識し、該文字画像の文
字コードを求める(テキストに変換する)文字認識部41
と、文書画像のレイアウトを認識するレイアウト認識部
42と、文字画像のフォントタイプを認識するフォント
タイプ認識部43と、文字画像のフォントサイズを認識
するフォントサイズ認識部44とを有している。
【0027】また、キーワード入力部7は、例えば、キ
ーボードなどの入力装置やかな漢字変換部などにより構
成され、キーボードなどから入力されたキーワードをコ
ード化された文字列の形で保持(登録)するようになって
いる。
【0028】また、第1の検索部8は、画像入力部1で
読み込まれた文書画像のうち、必要とされる文書(保存
されるべき文書)をキーワードによって抽出するために
設けられている。すなわち、第1の検索部8は、認識処
理部5の文字認識部41によって文書画像の各文字画像
がテキスト(コード化された文字列)に変換されたとき
に、この文書のテキスト中に、キーワード入力部7から
入力されたキーワード(コード化された文字列)と一致す
る文字列(コード化された文字列)があるか否かを検索
し、キーワード入力部7から入力されたキーワード(コ
ード化された文字列)と一致する文字列(コード化された
文字列)があるときに、この文書を保存すべき文書とし
て抽出するようになっている。
【0029】また、表示部9は、例えば図4のように構
成されている。図4の例では、表示部9は、文書を文書
画像の状態で表示する画像表示部45と、文書を文字認
識した結果のコード化文字列,すなわちテキストの状態
で表示するテキスト表示部46とを有している。
【0030】また、保存部10は、例えば図5のように
構成されている。図5の例では、保存部10は、第1の
検索部8によって抽出された文書(キーワードと一致す
る文字列を含む文書)を、文書画像そのままの形で、上
記キーワードを付与して保存する画像保存部47と、第
1の検索部8によって抽出された文書(キーワードと一
致する文字列を含む文書)を、コード化文字列(テキス
ト)の形で、上記キーワードを付与して保存するテキス
ト保存部48とを有している。
【0031】すなわち、画像保存部47は、予め登録さ
れたキーワード(キーワード入力部7から入力され、例
えば、コード化文字列の形で予め登録されているキーワ
ード)と一致する文字列が対象文書画像中(テキスト中)
に存在する場合に、このキーワードを含む文書にこのキ
ーワードを自動的に付与し、この文書を、文書画像その
ままの形で、すなわち、画像そのものを保存するように
なっている。
【0032】また、テキスト保存部48は、予め登録さ
れたキーワード(キーワード入力部7から入力され、例
えば、コード化文字列の形で予め登録されているキーワ
ード)と一致する文字列が対象文書画像中(テキスト中)
に存在する場合に、このキーワードを含む文書にこのキ
ーワードを自動的に付与し、対象文書画像の各文字画像
に対し文字認識を行なった結果のテキスト(コード化文
字列)の形で、すなわち、文字コードに変換されたテキ
ストの形で、文書を保存するようになっている。
【0033】また、第2の検索部11は、保存部10に
保存された文書をキーワードによって検索するために設
けられている。図6は第2の検索部11の構成例を示す
図であり、図6の例では、第2の検索部11は、画像保
存部47に保存されている文書画像のうちから所望の文
書画像をキーワードにより検索する画像検索部50と、
テキスト保存部48に保存されている文書テキストのう
ちから所望のテキストをキーワードにより検索するテキ
スト検索部51とを有している。
【0034】図7,図8は図1の文書画像処理装置の処
理動作例を説明するためのフローチャートである。な
お、図7,図8では、文書画像を入力し、これを保存す
るまでの処理が示されている。また、図7,図8の処理
を行なうに先立って、キーワード入力部7から所定の文
字列(例えばコード化された所定の文字列)がオペレータ
によりキーワードとして予め入力され、この文書画像処
理装置内の所定のメモリに予め登録されているものとす
る。ここで、この場合のキーワードは、オペレータにと
って必要な保存すべき文書を抽出するために入力され、
登録されるものである。
【0035】図7,図8を参照すると、先ず、ステップ
S101では、画像入力部1により、処理対象である文
書(例えば原稿)を読込み、これを文書画像として画像フ
ァイル2内に取り込む。次いで、ステップS102で
は、取り込んだ文書画像に対して、領域識別部3によっ
て、文書画像を見出し,本文,写真,表などの領域に分
割し、分割されたそれぞれの領域を見出し,本文,写
真,表などに分類する。
【0036】次いで、ステップS103では、文字切り
出し処理部4は、ステップS102で見出し及び本文と
分類された領域の部分を文字画像の部分と判断し、文書
画像から文字画像の部分のみを抽出し、その外接矩形の
座標を求める文字矩形抽出処理を行なう。
【0037】しかる後、ステップS104では、ステッ
プS103で抽出された各文字画像に対して文字認識を
行ない、各文字画像の文字コードを求める。これによ
り、文書画像の各文字画像に対応したコード化文字列
(テキスト)が求まる。なお、文字認識によって求められ
たテキストは、テキストファイル6に取り込まれる。
【0038】次いで、ステップS105では、予め登録
されているキーワードとステップS104で求められた
文字列(テキスト)とを比較し、ステップS104で求め
られたテキストがキーワードと一致する部分を含んでい
るか否かを判断する。この結果、キーワードと一致する
部分を含んでいる場合にはステップS106へ進み、一
致する部分を含んでいない場合にはステップS115へ
進む。
【0039】ステップS106では、この文書がキーワ
ードと一致した部分を含んでいる場合、この文書を文書
画像そのままの形で保存するか否かを例えばオペレータ
に判断させ、例えばオペレータが文書を文書画像そのま
まの形で保存する(保存したい)と判断したならば、ステ
ップS107,S108へ進み、文書画像そのままの形
で保存しない(例えばテキストの形で保存したい)と判断
したならば、ステップS109へ進む。
【0040】すなわち、ステップS106で文書を文書
画像そのままの形で保存すると判断された場合には、ス
テップS107で、保存対象となる文書に、予め登録さ
れているキーワードを付与した後、ステップS108で
この文書を文書画像の形で画像保存部47に保存する。
【0041】また、ステップS109では、入力画像中
のキーワードと一致した部分を含む文書をテキストの形
で(文書画像中の文書画像に対して文字認識処理を施し
た結果のコード化された文字列の形で(テキストの形
で))保存するか否かを例えばオペレータに判断させ、例
えばオペレータが文書をテキストの形で保存する(保存
したい)と判断したならばステップS110〜S114
へ進み、また、この文書を保存しないと判断したなら
ば、ステップS115へ進む。
【0042】ステップS109で文書をテキストの形で
保存すると判断された場合、ステップS110では、対
象となる文書画像のレイアウト識別処理を行ない、見出
し,本文,図,表等に識別し、この識別結果とこれらの
位置情報を、文字認識結果としてのテキストとともに保
存することができる。また、ステップS111では、対
象となる文書画像の各文字画像についてフォントタイプ
の識別を行ない、また、ステップS112では、対象と
なる文書画像の各文字画像についてフォントサイズの識
別を行なって、これらの識別結果をも、文字認識結果と
してのテキストとともに保存することができる。
【0043】そして、ステップS113で保存対象とな
る文書に、予め登録されているキーワードを付与した
後、ステップS114でこの文書をテキストの形でテキ
スト保存部48に保存する。このとき、ステップS11
0で求められた文書のレイアウト識別結果や、ステップ
S111,S112で求められた各文字のフォントタイ
プ識別結果,フォントサイズの識別結果をも、テキスト
とともに保存することができる。
【0044】ステップS115では、次ページがあるか
否か判定し、次ページがあればステップS116へ進
み、次ページがなければ処理を終える。
【0045】ステップS116では、自動ページめくり
機構によりページをめくらせ、次ページを出し、再びス
テップS101に戻る。
【0046】なお、上述の例えばステップS106の処
理において、キーワードと一致した部分を含む文書を、
文書画像そのままの形で、あるいは、テキストの形で、
保存させるかをオペレータに判断させるとき、この文書
の文書画像そのものを表示部9の画像表示部45に表示
させ、この文書テキストを表示部9のテキスト表示部4
6に表示させて、オペレータに提示させることができ
る。また、このような表示を、ステップS106の処理
のみならず、上述の各処理の所望の段階で行なわせるこ
ともできる。
【0047】また、図7,図8の処理動作例では、保存
対象となる文書を、画像そのままの形で保存するか、あ
るいは、テキストの形で保存するかを選択させるように
しているが、これらに加えて、さらに、文書を画像その
ままの形とテキストの形との両方の形を保存させるよう
に選択させることも可能である。
【0048】このように、本発明においては、自動ペー
ジめくり機構を有する画像入力手段を用いて複数ページ
を有する本や雑誌などから自動的に文書画像を入力し、
また、文書画像に対して文字認識処理を施してコード化
文字列(テキスト)に変換し、変換されたコード化文字列
(テキスト)を予め登録したキーワードと比較することに
よって、いま入力した文書が所望する文書か否か(保存
対象となる文書か否か)を自動的に判定し、所望する文
書と判定されたときには、この文書を画像そのままの形
で保存するか、テキストの形で保存するか、さらには、
画像とテキストとの両方の形で保存するかを選択するこ
とができ、この文書をいずれかの形で保存するとき、こ
の文書に、上記のキーワードを付与して保存することが
できる。これにより、文書画像データベースの作成,分
類,検索などに関して非常に有用性が高い。
【0049】特に、本発明は、文書画像を文字認識処理
によってテキストに変換して扱うために、文書の内容の
全てに対して検索(キーワードとの一致を調べること)が
可能であり、所望の文書を極めて容易に抽出し、これを
保存することができる。また、本発明は、自動ページめ
くり機構を有する画像入力手段を用いることで、複数ペ
ージを有する本や雑誌などから非常に効率よく文書画像
の入力を行なうことができる。また、認識処理において
は、文書画像に対し、レイアウト認識,フォントタイプ
識別,フォントサイズ識別をも行ない、その識別結果を
も保存するため、これを検索して、元の文書画像を再生
するような場合、元の文書画像を忠実に再現することが
可能となる。
【0050】このようにして、複数ページを有する本や
雑誌などから順次に入力された文書のうち保存の必要な
文書がキーワードを付与されて画像あるいはテキストの
形で保存された後、ユーザは、保存部10に保存されて
いる文書のうち、所望の文書をキーワードによって検索
することができる。すなわち、ユーザが所望の文書に付
与されているキーワードをキーワード入力部7から入力
すると、第2の検索部11は、入力されたキーワードに
一致するキーワードが付与された文書が保存部10に保
存されているか否かを調べる。
【0051】より詳細には、第2の検索部11の画像検
索部50は、保存部10の画像保存部47から、入力さ
れたキーワードに一致するキーワードが付与された文書
が保存されているか否かを調べ、また、第2の検索部1
1のテキスト検索部51は、保存部10のテキスト保存
部48から、入力されたキーワードに一致するキーワー
ドが付与された文書が保存されているか否かを調べる。
【0052】この結果、入力されたキーワードに一致す
るキーワードが付与された文書が保存部10の画像保存
部47に保存されているときには、第2の検索部11の
画像検索部50は、保存部10の画像保存部47から、
入力されたキーワードに一致するキーワードが付与され
た文書を保存部10の画像保存部47から読み出して、
例えば表示部9の画像表示部45に表示させ、および/
または、所定の印刷装置に出力させる。また、入力され
たキーワードに一致するキーワードが付与された文書が
保存部10のテキスト保存部48に保存されているとき
には、第2の検索部11のテキスト検索部51は、保存
部10のテキスト保存部48から、入力されたキーワー
ドに一致するキーワードが付与された文書を保存部10
のテキスト保存部48から読み出して、例えば表示部9
のテキスト表示部46に表示させ、および/または、所
定の印刷装置に出力させる。
【0053】なお、この際、入力されたキーワードに一
致するキーワードが付与された文書が保存部10の画像
保存部47と保存部10のテキスト保存部48との両方
に保存されているときには、第2の検索部11の画像検
索部50は、保存部10の画像保存部47から、入力さ
れたキーワードに一致するキーワードが付与された文書
の画像を読み出して、例えば表示部9の画像表示部45
に表示させ、および/または、所定の印刷装置に出力さ
せることができ、また、第2の検索部11のテキスト検
索部51は、保存部10のテキスト保存部48から、入
力されたキーワードに一致するキーワードが付与された
文書のテキストを読み出して、例えば表示部9のテキス
ト表示部46に表示させ、および/または、所定の印刷
装置に出力させることができる。
【0054】このように、本発明によれば、複数ページ
を有する本や雑誌などからキーワードを用いて、保存す
べき文書を自動的に抽出することが可能となり(特に、
入力された文書画像の全ての内容(文字認識処理された
コード化された文字列)とキーワードとの一致を調べる
ことで、非常に高精度に、必要とする文書画像の抽出を
行なうことができ)、また、保存すべき文書を文書画像
の形で、あるいはテキストの形で、あるいはこれらの両
方の形で保存することが可能となり、また、保存された
文書にはキーワードが付与されるので、文書が保存され
た後、これを容易に検索することが可能となる。
【0055】図9は本発明に係る文書画像処理装置の他
の構成例を示す図である。なお、図9において、図1と
同様の箇所には同じ符号を付して詳細な説明を省略す
る。図9を参照すると、この文書画像処理装置は、文書
を例えば2値画像として読み込む画像入力部61と、画
像入力部61で読み込まれた文書画像などを記憶するメ
モリ62と、文書画像の中から記事を抽出する記事抽出
部63と、記事抽出部63で抽出された記事の文書画像
から文字画像(文字画像の領域)のみを抽出する文字切り
出し処理部4と、文字切り出し処理部4により切り出さ
れた各文字画像に対し所定の認識処理を行なう認識処理
部5と、認識処理結果としてのテキスト(コード化され
た文字列)を記憶するテキストファイル6と、検索語お
よび/または検索分野を入力する検索語/検索分野入力
部67と、入力された検索語および/または検索分野を
用いて記事の全ページの画像の認識結果であるテキスト
を検索する文字列検索部68と、表示部9と、保存部7
0と、記事から代表語を抽出する代表語抽出部71と、
全体の制御を行なう制御部72とを有している。
【0056】ここで、記事とは、雑誌の独立したコラム
や記事、また、本の章や節などの一まとまりの文章の単
位を指している。また、代表語とは、記事を代表する単
語であり、検索語とは、記事を検索するための単語を指
している。
【0057】また、画像入力部61は、例えば、自動ペ
ージめくり機構を有するスキャナとして構成されてい
る。また、メモリ62には、画像データの他に、テキス
トデータ,領域データなども蓄積されるようになってい
る。また、記事抽出部63は、単数ページもしくは複数
ページの文書画像を見出し,本文,写真,表などの領域
に分割し、領域を識別して1まとまりの文書画像を記事
として抽出するようになっている。また、認識処理部5
は、例えば図3で示したと同様に構成されており、文字
コード,フォントタイプ,フォントスタイル,レイアウ
トを確認するようになっている。また、文字列検索部6
8は、検索語/検索分野入力部67から所定の検索語が
入力されたときには、記事抽出部63によって抽出され
た記事の全ページの画像の認識結果であるテキストを所
定の検索語で検索し、全ページの記事のうちから、検索
語と一致する記事のページを選択するようになってい
る。また、文字列検索部68は、検索語/検索分野入力
部67から所定の検索分野が入力されたときには、記事
抽出部63によって抽出された記事の全ページの画像の
認識結果であるテキストを所定の検索分野に関する検索
語で検索し、全ページの記事のうちから、所定の検索分
野に関する検索語と一致する記事を選択するようになっ
ている。
【0058】また、表示部9は、例えば図4で示したと
同様に構成されており、画像,テキストを表示できるよ
うになっている。
【0059】また、保存部70は、例えば図10のよう
に構成されている。図10の例では、保存部70は、文
字列検索部68によって抽出された文書を、文書画像そ
のままの形で、代表語を付与して保存する画像保存部4
7と、文字列検索部68によって抽出された文書を、コ
ード化文字列(テキスト)の形で、代表語を付与して保存
するテキスト保存部48と、レイアウトを保存するレイ
アウト保存部49とを有している。
【0060】すなわち、画像保存部47は、記事抽出部
63で抽出された記事の文書を、文書画像そのままの形
で、すなわち、記事の画像そのものを保存するようにな
っている。
【0061】また、テキスト保存部48は、記事抽出部
63で抽出された記事の文書画像の各文字画像に対し文
字認識を行なった結果のテキスト(コード化文字列)の形
で、すなわち、文字コードに変換されたテキストの形
で、記事の文書を保存するようになっている。
【0062】図11は図9の文書画像処理装置の処理動
作例を説明するためのフローチャートである。
【0063】図11を参照すると、先ず、ステップS2
01では、画像入力部61により、処理対象である文書
(例えば原稿)の注目ページの画像をメモリ62内に取り
込む。次いで、ステップS202では、メモリ62内に
取り込まれた注目ページの文書画像に対して領域を分割
し、分割したそれぞれの領域を、見出し、本文、写真、
表などに分類する。また一つの記事としてのまとまりを
識別する。次いで、ステップS203では、記事の全ペ
ージの画像が入力されたか否かを判定し、未入力のペー
ジがあると判定された場合には、ステップS204へ進
む。ステップS204では、自動ページめくり機構を用
いてページをめくり、ステップS201乃至S203の
処理を繰り返す。
【0064】このようにして、ステップS203で、記
事の全ページの画像が入力されたと判断されると、ステ
ップS205に進み、ステップS205では、文書画像
から文字矩形の抽出を行なう。そして、ステップS20
6では文字認識を行ない、ステップS207ではフォン
トタイプ、フォントスタイル、フォントサイズの識別を
行なう。次いで、ステップS208では対象文書の画像
データを保存し、ステップS209では対象文書のテキ
ストデータを保存する。このテキストデータには、文字
コード、フォントタイプ、フォントスタイル、フォント
サイズなどの情報を含む。また、ステップS210では
対象文書のレイアウト情報を保存する。
【0065】次いで、ステップS211では対象記事の
代表語を抽出する。この代表語は、文書のテキストデー
タを単語単位に分けた場合に、出現頻度の多い単語や、
フォント情報などから強調されている単語や、これらの
組合せとして抽出される。なお、フォント情報において
強調されている単語とは、例えば相対的にサイズの大き
い単語や、多くが明朝体で書かれている中のゴシック体
の単語などを指す。
【0066】次いで、ステップS212では、ステップ
S211で抽出した代表語を対象記事に付与して、記事
を保存する。次いで、ステップS213では全てのペー
ジの処理を終えたか否か判定し、未処理のページがあれ
ばステップS204へ進み、全てのページの処理を終え
ていれば全処理を終了する。
【0067】このように、図11の処理動作例では、保
存部70は、記事抽出部63によって抽出された記事の
全ページの画像の認識結果であるテキストを全て保存し
たが、これのかわりに、保存部70は、記事抽出部63
によって抽出された記事の全ページの画像の認識結果で
あるテキストを文字列検索部68によって所定の検索語
で検索し、全ページの記事のうちから、検索語と一致す
る記事のページを選択して保存しても良い。
【0068】図12,図13は図9の文書画像処理装置
の他の処理動作例を説明するためのフローチャートであ
る。図12,図13の処理動作例では、保存部70は、
記事抽出部63によって抽出された記事の全ページの画
像の認識結果であるテキストを文字列検索部68によっ
て所定の検索語で検索し、全ページの記事のうちから、
検索語と一致する記事のページを選択して保存するよう
になっており、このため、先ず、ステップS301では
記事を選択的に保存するための検索語(欲する記事のキ
ーワード)を所定の文字列(例えばコード化された所定の
文字列)で利用者に入力させる。
【0069】次いで、ステップS302では、画像入力
部61により、処理対象である文書(例えば原稿)の注目
ページの画像をメモリ62内に取り込む。次いで、ステ
ップS303では、メモリ62内に取り込まれた注目ペ
ージの文書画像に対して領域を分割し、分割したそれぞ
れの領域を、見出し、本文、写真、表などに分類する。
また一つの記事としてのまとまりを識別する。次いで、
ステップS304では、記事の全ページの画像が入力さ
れたか否かを判定し、未入力のページがあると判定され
た場合には、ステップS305へ進む。ステップS30
5では、自動ページめくり機構を用いてページをめく
り、ステップS302乃至S304の処理を繰り返す。
【0070】このようにして、ステップS304で、記
事の全ページの画像が入力されたと判断されると、ステ
ップS306に進み、ステップS306では、文書画像
から文字矩形の抽出を行なう。そして、ステップS30
7では文字認識を行なう。
【0071】次いで、ステップS308では、記事を検
索する際に、入力された検索語のみを用いて検索する
か、または検索語とその関連語を用いて検索するのかを
判定する。この結果、検索語のみを用いて検索する場合
には、ステップS309へ進み、検索語のみを用いて全
文検索する。これに対し、検索語とその関連語を用いて
検索する場合にはステップS310へ進み、検索語とそ
の関連語を用いて全文検索する。ステップS311で
は、ステップS309またはS310における検索の結
果、記事中に検索語(またはその関連語も含む)と一致す
る文字列があるか否かを判定する。この結果、一致する
文字列がない場合にはステップS305へ進む。
【0072】これに対し、ステップS311で一致する
文字列がある場合には、ステップS312へ進む。ステ
ップS312ではフォントタイプ、フォントスタイル、
フォントサイズの識別を行なう。そして、ステップS3
13では対象文書の画像データを保存し、ステップS3
14では対象文書のテキストデータを保存する。このテ
キストデータには、文字コード、フォントタイプ、フォ
ントスタイル、フォントサイズなどの情報を含む。ま
た、ステップS315では対象文書のレイアウト情報を
保存する。
【0073】次いで、ステップS316では対象記事の
代表語を抽出する。この代表語は、検索の際に用いた検
索語、その関連語、文書のテキストデータを単語単位に
分けた場合に出現頻度の多い単語や、フォント情報など
から強調されている単語や、これらの組合せとして抽出
される。フォント情報において強調されている単語と
は、例えば相対的にサイズの大きい単語や、多くが明朝
体で書かれている中のゴシック体の単語などを指す。
【0074】次いで、ステップS317では、ステップ
S316で抽出した代表語を対象記事に付与し、保存す
る。次いで、ステップS318では全てのページの処理
を終えたか否か判定し、未処理のページがあればステッ
プS305へ進み、全てのページの処理を終えていれば
全処理を終了する。
【0075】このように、図12,図13の処理動作例
では、保存部70は、記事抽出部63によって抽出され
た記事の全ページの画像の認識結果であるテキストを所
定の検索語で検索し、全ページの記事のうちから、検索
語と一致する記事のページを選択して保存することがで
きる。なお、図12,図13の処理例では、検索語とそ
の関連語を用いて検索することも可能になっており、検
索語とその関連語を用いて検索する場合には、関連語辞
書がさらに必要である。
【0076】図12,図13の処理動作例では、文字列
検索部68は、記事抽出部63によって抽出された記事
の全ページの画像の認識結果であるテキストを所定の検
索語で検索したが、これのかわりに、文字列検索部68
は、記事抽出部63によって抽出された記事の全ページ
の画像の認識結果であるテキストを所定の検索分野に関
する検索語で検索し、保存部70は、全ページの記事の
うちから、所定の検索分野に関する検索語と一致する記
事を選択して保存しても良い。
【0077】図14,図15は図9の文書画像処理装置
の他の処理動作例を説明するためのフローチャートであ
る。図14,図15の処理動作例では、保存部70は、
記事抽出部63によって抽出された記事の全ページの画
像の認識結果であるテキストを文字列検索部68によっ
て所定の検索分野に関する検索語で検索し、全ページの
記事のうちから、所定の検索分野に関する検索語と一致
する記事を選択して保存するようになっており、このた
め、先ず、ステップS401では記事を選択的に保存す
るための対象分野(欲する記事の分野)を所定の文字列
(例えばコード化された所定の文字列)で入力する。
【0078】次いで、ステップS402では、画像入力
部61により、処理対象である文書(例えば原稿)の注目
ページの画像をメモリ62内に取り込む。次いで、ステ
ップS403では、メモリ62内に取り込まれた注目ペ
ージの文書画像に対して領域を分割し、分割したそれぞ
れの領域を、見出し、本文、写真、表などに分類する。
また一つの記事としてのまとまりを識別する。次いで、
ステップS404では、記事の全ページの画像が入力さ
れたか否かを判定し、未入力のページがあると判定され
た場合には、ステップS405へ進む。ステップS40
5では、自動ページめくり機構を用いてページをめく
り、ステップS402乃至S404の処理を繰り返す。
【0079】このようにして、ステップS404で、記
事の全ページの画像が入力されたと判断されると、ステ
ップS406に進み、ステップS406では、文書画像
から文字矩形の抽出を行なう。そして、ステップS40
7では文字認識を行なう。
【0080】次いで、ステップS408では、入力され
た分野に対応する検索語を用いて対象記事の全文検索を
行なう。そして、ステップS409では、検索の結果、
記事中に検索語(またはその関連語も含む)と一致する文
字列があるか否かを判定する。この結果、一致する文字
列がない場合には、ステップS405へ進む。
【0081】これに対し、ステップS409で一致する
文字列がある場合には、ステップS410へ進み、ステ
ップS410ではフォントタイプ、フォントスタイル、
フォントサイズの識別を行なう。次いで、ステップS4
11では対象文書の画像データを保存し、ステップS4
12では対象文書のテキストデータを保存する。このテ
キストデータには、文字コード、フォントタイプ、フォ
ントスタイル、フォントサイズなどの情報を含む。ま
た、ステップS413では対象文書のレイアウト情報を
保存する。
【0082】次いで、ステップS414では対象記事の
代表語を抽出する。この代表語は、検索の際に用いた検
索語、その関連語、文書のテキストデータを単語単位に
分けた場合に出現頻度の多い単語や、フォント情報など
から強調されている単語や、これらの組合せとして抽出
される。フォント情報において強調されている単語と
は、例えば相対的にサイズの大きい単語や、多くが明朝
体で書かれている中のゴシック体の単語などを指す。
【0083】次いで、ステップS415では、ステップ
S414で抽出した代表語を対象記事に付与し、保存す
る。また、ステップS416では、検索に用いた分野を
保存する。次いで、ステップS417では全てのページ
の処理を終えたか否か判定し、未処理のページがあれば
ステップS405へ進み、全てのページの処理を終えて
いれば全処理を終了する。
【0084】このように、図14,図15の処理例で
は、保存部70は、記事抽出部63によって抽出された
記事の全ページの画像の認識結果であるテキストを文字
列検索部68によって所定の検索分野に関する検索語で
検索し、全ページの記事のうちから、所定の検索分野に
関する検索語と一致する記事を選択して保存することが
できる。なお、分野に関する検索語で全文検索する場
合、分野毎に検索語を用意する必要がある。
【0085】また、上述の各例において、記事抽出部6
3は、より具体的には、次のような仕方で記事を抽出す
ることができる。
【0086】第1の抽出の仕方として、記事抽出部63
は、文書中に抽出したい記事が連続的におよびページ単
位に存在する場合に、文書画像に対してタイトルの抽出
処理を行ない、タイトルを含むページから次のタイトル
を含むページまでの部分を記事として抽出することがで
きる。図16は第1の抽出の仕方を説明するための図で
あり、図17は記事抽出部63によって第1の抽出の仕
方で記事を抽出する処理例を示すフローチャートであ
る。
【0087】なお、図17の例では、対象原稿中に抽出
したい記事が連続的に及びページ単位に存在する場合を
対象としている。図17を参照すると、ステップS50
1では、画像入力部61により、処理対象である原稿の
注目ページを画像情報としてメモリ62に取り込む。ス
テップS502では、ステップS501で入力された文
書画像に対してタイトルの抽出処理を行ない、注目ペー
ジがタイトルを含むページか否か判定する。この結果、
タイトルを含まないページと判定されれば再びステップ
S501へ戻り、タイトルを含むページと判定されれ
ば、ステップS503へ進む。ステップS503では、
注目ページの番号に“1”を初期設定し、ステップS5
04では自動ページめくり機構によってページをめく
る。そして、ステップS505では、注目ページを画像
情報としてメモリ62に取り込み、ステップS506で
はページ番号を“1”だけインクリメントする。次い
で、ステップS507では、注目ページ(ページ番号を
nとする)がタイトルを含むページか否かを判定する。
この結果、注目ページ(ページ番号をnとする)がタイト
ルを含むページと判定されれば、ステップS508へ進
み、ステップS508ではページ番号が1からn−1の
ページを1つの記事として抽出する。次いで、ステップ
S509では原稿の全てのページの処理を終えたか否か
判定し、全てのページの処理を終えていれば処理を終了
し、未処理のページが残っていれば処理ステップS50
3へ進む。
【0088】これに対し、ステップS507において、
注目ページ(ページ番号をnとする)がタイトルを含まな
いページと判定されれば処理ステップS510へ進み、
ステップS510では注目ページ(ページ番号はn)が対
象原稿の最終ページであるか否かを判定し、最終ページ
であると判定されれば処理ステップS511へ進み、最
終ページではないと判定されれば処理ステップS504
へ進む。ステップS511ではページ番号が1からnの
ページを1つの記事として抽出し、全ての処理を終え
る。
【0089】このように、図17の処理例では、記事抽
出部63は、図16に示すように、文書中に抽出したい
記事が連続的におよびページ単位に存在する場合に、文
書画像に対してタイトルの抽出処理を行ない、タイトル
を含むページから次のタイトルを含むページまでの部分
を記事として抽出することができる。
【0090】第1の抽出の仕方では、対象原稿中に抽出
したい記事が連続的に及びページ単位に存在する場合を
対象としているが、第2の抽出の仕方として、対象原稿
中に抽出したい記事がページ単位に存在し、記事中に対
象外のページ(他の記事や広告など)が挿入されていても
良い。但し、この場合には、記事抽出部63は、対象外
のページについては記事として抽出しないようになって
いる。図18は第2の抽出の仕方を説明するための図で
あり、図19,図20は記事抽出部63によって第2の
抽出の仕方で記事を抽出する処理例を示すフローチャー
トである。
【0091】なお、図19,図20の例では、対象原稿
中に抽出したい記事がページ単位に存在し、記事中に対
象外のページ(他の記事や広告など)が挿入されている
(挿入されていなくても構わない)場合を対象としてい
る。また、図19,図20の処理では、対象外のページ
の直前のページの末尾などにジャンプする先のページが
指示されている場合と、これが指示されていない場合と
の両方を想定している。
【0092】図19,図20を参照すると、ステップS
601では、画像入力部61により、処理対象である原
稿の注目ページを画像情報としてメモリ62に取り込
む。ステップS602では、ステップS601で入力さ
れた文書画像に対してタイトルの抽出処理を行ない、注
目ページがタイトルを含むページか否か判定する。この
結果、タイトルを含まないページと判定されれば再びス
テップS601へ戻り、タイトルを含むページと判定さ
れれば、ステップS603へ進む。ステップS603で
は、注目ページの番号に“1”を初期設定し、ステップ
S604では注目ページに特定のページへ読み順をジャ
ンプする指示があるか否かを判定する。ジャンプする指
示があればステップS605へ進み、ステップS605
では、ステップS604で指示されたページまでページ
をめくり、ステップS610に進む。
【0093】これに対し、ステップS604でジャンプ
する指示がなければステップS606へ進み、ステップ
S606では注目ページが他の記事や広告など対象とし
ている記事であるか否かを判定し、対象としている記事
ではないと判定されればステップS607へ進み、注目
ページをメモリ62から破棄し、ステップS608では
ページ番号を“1”だけデクリメントして、ステップS
609へ進む。これに対し、ステップS606で対象と
している記事であると判定されれば、すぐにステップS
609へ進む。ステップS609では自動ページめくり
機構によってページをめくり、ステップS610へ進
む。
【0094】ステップS610では画像入力部61によ
り、処理対象である原稿の注目ページを読取り、これを
画像情報としてメモリ62に取り込む。
【0095】ステップS611ではページ番号を“1”
だけインクリメントする。次いで、ステップS612で
は、注目ページ(ページ番号をnとする)がタイトルを含
むページか否かを判定する。この結果、注目ページ(ペ
ージ番号をnとする)がタイトルを含むページと判定さ
れれば、ステップS613へ進み、ステップS613で
はページ番号が1からn−1のページを1つの記事とし
て抽出する。次いで、ステップS614では原稿の全て
のページの処理を終えたか否か判定し、全てのページの
処理を終えていれば処理を終了し、未処理のページが残
っていれば処理ステップS604へ進む。
【0096】これに対し、ステップS612において、
注目ページ(ページ番号をnとする)がタイトルを含まな
いページと判定されればステップS615へ進み、ステ
ップS615では注目ページ(ページ番号はn)が対象原
稿の最終ページであるか否かを判定し、最終ページであ
ると判定されればステップS616へ進み、最終ページ
ではないと判定されればステップS603へ進む。ステ
ップS616ではページ番号が1からnのページを1つ
の記事として抽出し、全ての処理を終える。
【0097】このように、図19,図20の処理例で
は、記事抽出部63は、図18に示すように、対象原稿
中に抽出したい記事がページ単位に存在し、記事中に対
象外のページ(他の記事や広告など)が挿入されている場
合に、対象外のページについては記事として抽出しない
ようになっている。
【0098】第1,第2の抽出の仕方では、対象原稿中
に抽出したい記事がページ単位に存在する場合を対象と
しているが、第3の抽出の仕方として、対象原稿中に抽
出したい記事がページ単位ではなく領域単位に存在して
いても良い。但し、この場合には、記事抽出部63は、
入力された文書画像に対してレイアウト解析処理を行な
い、ページ内の各領域を識別し、領域単位に存在する記
事を抽出するようになっている。図21(a),(b)は第
3の抽出の仕方を説明するための図であり、図22は記
事抽出部63によって第3の抽出の仕方で記事を抽出す
る処理例を示すフローチャートである。
【0099】なお、図22の例では、図21(a)のよう
に記事が1ページ内に独立して存在する場合と、図21
(b)のようにページ境界をまたいで存在する場合との両
方を想定している。
【0100】図22を参照すると、ステップS701で
は、画像入力部61により、処理対象である原稿の注目
ページを画像情報としてメモリ62に取り込む。ステッ
プS702では処理ステップS701で入力された文書
画像に対してレイアウト解析処理を行ない、ページ内の
各領域を識別する。ステップS703では、ステップS
702の結果から注目ページ内に記事の始まり(記事の
タイトル,セパレータなど)が存在するか否か判定し、
存在しないと判定されればステップS701へ進む。こ
れに対し、ステップS703で、注目ページ内に記事の
始まり(記事のタイトル,セパレータなど)が存在すると
判定されればステップS704へ進む。ステップS70
4では注目ページ内に注目記事の終わりかまたは次の記
事の始まりが存在するか否かを判定し、存在すると判定
されればステップS705へ進み、存在しないと判定さ
れればステップS708へ進む。
【0101】ステップS705では、注目記事を抽出
し、ステップS706では、原稿の全てのページ内の処
理を終えたか否かを判定し、全てのページの処理を終え
ていれば全ての処理を終了し、未処理のページが残って
いればステップS707へ進む。ステップS707では
注目ページ内に次の記事の始まりが存在するか否かを判
定し、存在すると判定されればステップS704へ進
み、存在しないと判定されればステップS701へ進
む。
【0102】一方、ステップS708では、自動ページ
めくり機構によってページをめくる。ステップS709
では、画像入力部61により、処理対象である原稿の注
目ページを読取り、これを画像情報としてメモリ62に
取り込む。ステップS710ではステップS709で入
力された文書画像に対してレイアウト解析処理を行な
い、ページ内の各領域を識別する。
【0103】このように、図22の処理例では、記事抽
出部63は、文書中に抽出したい記事がページ単位では
なく領域単位に存在する場合に、入力された文書画像に
対してレイアウト解析処理を行ない、ページ内の各領域
を識別し、領域単位に存在する記事を抽出することがで
きる。
【0104】なお、本発明において(上述の各構成例に
おいて)、「複数ページの文書」とは、「複数ページの
ばらばらの状態の文書」であっても良いし、「本や雑誌
などの製本された体裁(状態)の文書」であっても良い。
すなわち、本発明は、複数ページの文書として、「複数
ページのばらばらの状態の文書」を対象にすることもで
きるし、「本や雑誌などの製本された体裁(状態)の文
書」をも対象にすることができ、特に本発明は、「本や
雑誌などの製本された体裁(状態)の文書」を読み取って
処理するのに好適(有用)である。
【0105】図23は図1あるいは図9の文書画像処理
装置のハードウェア構成例を示す図である。図23を参
照すると、この文書画像処理装置は、例えばパーソナル
コンピュータ等で実現され、全体を制御するCPU21
と、CPU21の制御プログラム等が記憶されているR
OM22と、CPU21のワークエリア等として使用さ
れるRAM23と、自動ページめくり機構を有し、文書
を文書画像として読込むスキャナ1と、スキャナ1で読
込まれた文書画像が例えばページ単位で記憶される画像
ファイル2と、文書画像に対し文字認識等を行なった結
果のテキストが例えばページ単位で記憶されるテキスト
ファイル6と、キーワード等が入力される入力装置7
と、保存されるべき文書が画像および/またはテキスト
の形で保存される保存ファイル10と、ディスプレイ9
と、印刷装置24とを有している。
【0106】ここで、CPU21は、図1あるいは図9
の制御部12,72,領域識別部3,文字切り出し処理
部4,認識処理部5,第1の検索部8,第2の検索部1
1,記事抽出部63,文字列検索部68,代表語抽出部
71などの機能を有している。
【0107】なお、CPU21におけるこのような制御
部12,72,領域識別部3,文字切り出し処理部4,
認識処理部5,第1の検索部8,第2の検索部11,記
事抽出部63,文字列検索部68,代表語抽出部71等
としての機能は、例えばソフトウェアパッケージ(具体
的には、CD−ROM等の情報記録媒体)の形で提供す
ることができ、このため、図23の例では、情報記録媒
体30がセットさせるとき、これを駆動する媒体駆動装
置31が設けられている。
【0108】換言すれば、本発明の文書画像処理装置
は、イメージスキャナ,ディスプレイ等を備えた汎用の
計算機システムにCD−ROM等の情報記録媒体に記録
されたプログラムを読み込ませて、この汎用計算機シス
テムのマイクロプロセッサに文書画像処理を実行させる
装置構成においても実施することが可能である。この場
合、本発明の文書画像処理を実行するためのプログラム
(すなわち、ハードウェアシステムで用いられるプログ
ラム)は、媒体に記録された状態で提供される。プログ
ラムなどが記録される情報記録媒体としては、CD−R
OMに限られるものではなく、ROM,RAM,フレキ
シブルディスク,メモリカード等が用いられても良い。
媒体に記録されたプログラムは、ハードウェアシステム
に組み込まれている記憶装置、例えばハードディスク装
置にインストールされることにより、このプログラムを
実行して、上述した本発明の文書画像処理機能を実現す
る文書画像処理装置の構築に寄与する。
【0109】また、本発明の文書画像処理機能を実現す
るためのプログラムは、媒体の形で提供されるのみなら
ず、通信によって(例えばサーバによって)提供されるも
のであっても良い。
【0110】
【発明の効果】以上に説明したように、請求項1,請求
項6,請求項7,請求項15記載の発明によれば、文書
を読取って入力された文書画像に対し認識処理を行な
い、少なくとも、入力された文書画像をテキストに変換
し、入力された文書画像のうち、所望の文書を画像その
ままの形で、および/または認識処理されたテキストの
形で保存するようになっているので、文書を、画像その
ままの形で保存することもできるし、テキストの形で保
存することもでき、テキストの形で保存する場合、情報
量を低減でき、保存や検索,閲覧,転送などの処理負担
を著しく軽減できる。
【0111】また、請求項2,請求項6,請求項7記載
の発明によれば、画像入力手段が自動ページめくり機構
を有することによって、複数ページを有する本や雑誌中
から、人がページをめくることなしに全ページから所望
の文書を自動的に入力し、保存することができる。
【0112】また、請求項3記載の発明によれば、文書
を読取って文書画像とする画像入力手段と、画像入力手
段によって入力された文書画像に対し認識処理を行な
い、少なくとも、入力された文書画像をテキストに変換
する認識処理手段と、保存手段と、キーワードを入力す
るキーワード入力手段とを有し、前記保存手段は、前記
入力された文書の文書画像に対し認識処理を行なって得
られたテキスト中に、キーワード手段から入力されたキ
ーワードと一致している文字列が存在するか否かを判断
し、存在する場合には、該文書をキーワードを付加して
保存するので、保存対象となる文書に効率的にキーワー
ドを付与することができ、また、付与されたキーワード
によって検索の効率を著しく高めることができる。
【0113】また、請求項4記載の発明によれば、認識
処理手段は、文書画像の文字画像に対して認識処理を行
ない、コード化された文字列としてのテキストに変換す
るとともに、文書画像のレイアウトをも認識するように
しており、対象文書画像中の文字コードを求めるのみで
はなく、文書画像のレイアウトをも認識し、これを保存
することによって、文書画像の再現性を著しく向上させ
ることができる。
【0114】また、請求項5記載の発明によれば、認識
処理手段は、文書画像の文字画像に対して認識処理を行
ない、コード化された文字列としてのテキストに変換す
るとともに、文字画像のフォントタイプをも認識するよ
うにしており、対象文書画像中の文字コードを求めるの
みではなく、文字画像のフォントタイプをも認識し、こ
れを保存することによって、文書画像の再現性を著しく
向上させることができる。
【0115】また、請求項6記載の発明によれば、認識
処理手段は、文書画像の文字画像に対して認識処理を行
ない、コード化された文字列としてのテキストに変換す
るとともに、文字画像のフォントサイズをも認識するよ
うにしており、対象文書画像中の文字コードを求めるの
みではなく、文字画像のフォントサイズをも認識し、こ
れを保存することによって、文書画像の再現性を著しく
向上させることができる。
【0116】また、請求項8乃至請求項14記載の発明
によれば、文書を読取って文書画像とする画像入力手段
と、文書画像の中から記事を抽出する記事抽出手段と、
記事抽出手段によって抽出された記事の画像に対し認識
処理を行ない、記事の画像をテキストに変換する認識処
理手段と、抽出した記事を保存する保存手段とを有し、
前記保存手段は、記事を保存する際、記事から代表語を
抽出し、抽出した代表語を記事に付加して保存するの
で、所望の記事のみを蓄積することができ、また、この
際、記事に代表語が保存されることによって、記事の再
利用性を高めることができる。
【図面の簡単な説明】
【図1】本発明に係る文書画像処理装置の構成例を示す
図である。
【図2】1つの文字画像の一例を示す図である。
【図3】図1の認識処理部の構成例を示す図である。
【図4】図1の表示部の構成例を示す図である。
【図5】図1の保存部の構成例を示す図である。
【図6】図1の第2の検索部の構成例を示す図である。
【図7】図1の文書画像処理装置の処理動作例を説明す
るためのフローチャートである。
【図8】図1の文書画像処理装置の処理動作例を説明す
るためのフローチャートである。
【図9】本発明に係る文書画像処理装置の他の構成例を
示す図である。
【図10】図9の保存部の構成例を示す図である。
【図11】図9の文書画像処理装置の第1の処理動作例
を説明するためのフローチャートである。
【図12】図9の文書画像処理装置の第2の処理動作例
を説明するためのフローチャートである。
【図13】図9の文書画像処理装置の第2の処理動作例
を説明するためのフローチャートである。
【図14】図9の文書画像処理装置の第3の処理動作例
を説明するためのフローチャートである。
【図15】図9の文書画像処理装置の第3の処理動作例
を説明するためのフローチャートである。
【図16】記事を抽出する第1の抽出の仕方を説明する
ための図である。
【図17】第1の抽出の仕方で記事を抽出する処理例を
示すフローチャートである。
【図18】記事を抽出する第2の抽出の仕方を説明する
ための図である。
【図19】第2の抽出の仕方で記事を抽出する処理例を
示すフローチャートである。
【図20】第2の抽出の仕方で記事を抽出する処理例を
示すフローチャートである。
【図21】記事を抽出する第3の抽出の仕方を説明する
ための図である。
【図22】第3の抽出の仕方で記事を抽出する処理例を
示すフローチャートである。
【図23】図1,図9の文書画像処理装置のハードウェ
ア構成例を示す図である。
【符号の説明】
1 画像入力部(スキャナ) 2 画像ファイル 3 領域識別部 4 文字切り出し処理部 5 認識処理部 6 テキストファイル 7 キーワード入力部(入力装置) 8 第1の検索部 9 表示部(ディスプレイ) 10 保存部 11 第2の検索部 12 制御部 21 CPU 22 ROM 23 RAM 24 印刷装置 30 情報記憶媒体 31 媒体駆動装置 41 文字認識部 42 レイアウト認識部 43 フォントタイプ認識部 44 フォントサイズ認識部 45 画像表示部 46 テキスト表示部 47 画像保存部 48 テキスト保存部 50 画像検索部 51 テキスト検索部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI G06F 15/40 370B 15/401 310C (72)発明者 幸地 司 東京都大田区中馬込1丁目3番6号 株式 会社リコー内

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 文書を読取って文書画像とする画像入力
    手段と、画像入力手段によって入力された文書画像に対
    し認識処理を行ない、少なくとも、入力された文書画像
    をテキストに変換する認識処理手段と、保存手段とを有
    し、前記保存手段は、画像入力手段で得られた文書画像
    のうち、所望の文書を画像そのままの形で、および/ま
    たは認識処理されたテキストの形で保存することを特徴
    とする文書画像処理装置。
  2. 【請求項2】 自動ページめくり機構を有し、文書が複
    数ページの文書からなる場合、各ページを自動めくりし
    ながら、各ページの文書を読取って文書画像とする画像
    入力手段と、画像入力手段によって入力された文書画像
    に対し認識処理を行ない、少なくとも、入力された文書
    画像をテキストに変換する認識処理手段と、保存手段と
    を有し、前記保存手段は、画像入力手段で得られた文書
    画像のうち、所望の文書を画像そのままの形で、および
    /または認識処理されたテキストの形で保存することを
    特徴とする文書画像処理装置。
  3. 【請求項3】 文書を読取って文書画像とする画像入力
    手段と、画像入力手段によって入力された文書画像に対
    し認識処理を行ない、少なくとも、入力された文書画像
    をテキストに変換する認識処理手段と、保存手段と、キ
    ーワードを入力するキーワード入力手段とを有し、前記
    保存手段は、前記入力された文書の文書画像に対し認識
    処理を行なって得られたテキスト中に、キーワード手段
    から入力されたキーワードと一致している文字列が存在
    するか否かを判断し、存在する場合には、該文書をキー
    ワードを付加して保存することを特徴とする文書画像処
    理装置。
  4. 【請求項4】 請求項1乃至請求項3のいずれか一項に
    記載の文書画像処理装置において、前記認識処理手段
    は、文書画像の文字画像に対して認識処理を行ない、コ
    ード化された文字列としてのテキストに変換するととも
    に、文書画像のレイアウトをも認識することを特徴とす
    る文書画像処理装置。
  5. 【請求項5】 請求項1記載の文書画像処理装置におい
    て、前記認識処理手段は、文書画像の文字画像に対して
    認識処理を行ない、コード化された文字列としてのテキ
    ストに変換するとともに、文字画像のフォントタイプを
    も認識することを特徴とする文書画像処理装置。
  6. 【請求項6】 請求項1記載の文書画像処理装置におい
    て、前記認識処理手段は、文書画像の文字画像に対して
    認識処理を行ない、コード化された文字列としてのテキ
    ストに変換するとともに、文字画像のフォントサイズを
    も認識することを特徴とする文書画像処理装置。
  7. 【請求項7】 文書が複数ページの文書からなる場合、
    各ページを自動めくりしながら、各ページの文書を読取
    って入力された文書画像に対し認識処理を行ない、少な
    くとも、入力された文書画像をテキストに変換し、入力
    された文書画像のうち、所望の文書を画像そのままの形
    で、および/または認識処理されたテキストの形で保存
    することを特徴とする文書画像処理方法。
  8. 【請求項8】 文書を読取って文書画像とする画像入力
    手段と、文書画像の中から記事を抽出する記事抽出手段
    と、記事抽出手段によって抽出された記事の画像に対し
    認識処理を行ない、記事の画像をテキストに変換する認
    識処理手段と、抽出した記事を保存する保存手段とを有
    し、前記保存手段は、記事を保存する際、記事から代表
    語を抽出し、抽出した代表語を記事に付加して保存する
    ことを特徴とする文書画像処理装置。
  9. 【請求項9】 請求項8記載の文書画像処理装置におい
    て、前記画像入力手段は、自動ページめくり機構を有
    し、文書が複数ページの文書からなる場合、各ページを
    自動めくりしながら、各ページの文書を読取り、前記記
    事抽出手段は、入力されたページ画像から記事を抽出す
    ることを特徴とする文書画像処理装置。
  10. 【請求項10】 請求項8記載の文書画像処理装置にお
    いて、前記保存手段は、前記記事抽出手段によって抽出
    された記事の全ページの画像の認識結果であるテキスト
    を所定の検索語で検索し、全ページの記事のうちから、
    検索語と一致する記事のページを選択して保存すること
    を特徴とする文書画像処理装置。
  11. 【請求項11】 請求項8記載の文書画像処理装置にお
    いて、前記保存手段は、前記記事抽出手段によって抽出
    された記事の全ページの画像の認識結果であるテキスト
    を所定の検索分野に関する検索語で検索し、全ページの
    記事のうちから、所定の検索分野に関する検索語と一致
    する記事を選択して保存することを特徴とする文書画像
    処理装置。
  12. 【請求項12】 請求項8記載の文書画像処理装置にお
    いて、前記記事抽出手段は、文書中に抽出したい記事が
    連続的におよびページ単位に存在する場合に、文書画像
    に対してタイトルの抽出処理を行ない、タイトルを含む
    ページから次のタイトルを含むページまでの部分を記事
    として抽出することを特徴とする文書画像処理装置。
  13. 【請求項13】 請求項8記載の文書画像処理装置にお
    いて、前記記事抽出手段は、文書中に抽出したい記事が
    ページ単位に存在する場合に、記事中に対象外のページ
    が挿入されているときには、対象外のページについては
    記事として抽出しないことを特徴とする文書画像処理装
    置。
  14. 【請求項14】 請求項8記載の文書画像処理装置にお
    いて、前記記事抽出手段は、文書中に抽出したい記事が
    ページ単位ではなく領域単位に存在する場合に、入力さ
    れた文書画像に対してレイアウト解析処理を行ない、ペ
    ージ内の各領域を識別し、領域単位に存在する記事を抽
    出することを特徴とする文書画像処理装置。
  15. 【請求項15】 文書が複数ページの文書からなる場
    合、各ページを自動めくりしながら、各ページの文書を
    読取って入力された文書画像に対し認識処理を行ない、
    少なくとも、入力された文書画像をテキストに変換し、
    入力された文書画像のうち、所望の文書を画像そのまま
    の形で、および/または認識処理されたテキストの形で
    保存する機能を実現するためのプログラムが記録されて
    いることを特徴とする情報記録媒体。
JP9368219A 1996-12-30 1997-12-26 文書画像処理装置および文書画像処理方法および情報記録媒体 Pending JPH10247237A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9368219A JPH10247237A (ja) 1996-12-30 1997-12-26 文書画像処理装置および文書画像処理方法および情報記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP35883596 1996-12-30
JP8-358835 1996-12-30
JP9368219A JPH10247237A (ja) 1996-12-30 1997-12-26 文書画像処理装置および文書画像処理方法および情報記録媒体

Publications (1)

Publication Number Publication Date
JPH10247237A true JPH10247237A (ja) 1998-09-14

Family

ID=26580850

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9368219A Pending JPH10247237A (ja) 1996-12-30 1997-12-26 文書画像処理装置および文書画像処理方法および情報記録媒体

Country Status (1)

Country Link
JP (1) JPH10247237A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010113661A (ja) * 2008-11-10 2010-05-20 Seiko Epson Corp 電子ファイル生成装置、電子ファイル生成システム、電子ファイル生成方法、及びコンピュータプログラム
JP2011145904A (ja) * 2010-01-15 2011-07-28 Fuji Xerox Co Ltd 情報表示装置及びプログラム
US8244035B2 (en) 2007-07-10 2012-08-14 Canon Kabushiki Kaisha Image processing apparatus and control method thereof

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57199066A (en) * 1981-06-02 1982-12-06 Toshiyuki Sakai File forming system for cutting of newspaper and magazine
JPH04349581A (ja) * 1991-05-27 1992-12-04 Dainippon Printing Co Ltd テキストデータファイル作成システム
JPH05298368A (ja) * 1992-04-23 1993-11-12 Matsushita Electric Ind Co Ltd 電子ファイリングシステムの検索語入力方法
JPH05313565A (ja) * 1992-05-06 1993-11-26 Sharp Corp 音声読書機
JPH05342326A (ja) * 1992-06-09 1993-12-24 Fuji Xerox Co Ltd 文書処理装置
JPH07129738A (ja) * 1993-11-08 1995-05-19 Matsushita Electric Ind Co Ltd ファイリング装置
JPH08212331A (ja) * 1995-01-31 1996-08-20 Canon Inc 電子ファイリング方法及び電子ファイリング装置
JPH09204511A (ja) * 1996-01-24 1997-08-05 Sharp Corp ファイリング装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57199066A (en) * 1981-06-02 1982-12-06 Toshiyuki Sakai File forming system for cutting of newspaper and magazine
JPH04349581A (ja) * 1991-05-27 1992-12-04 Dainippon Printing Co Ltd テキストデータファイル作成システム
JPH05298368A (ja) * 1992-04-23 1993-11-12 Matsushita Electric Ind Co Ltd 電子ファイリングシステムの検索語入力方法
JPH05313565A (ja) * 1992-05-06 1993-11-26 Sharp Corp 音声読書機
JPH05342326A (ja) * 1992-06-09 1993-12-24 Fuji Xerox Co Ltd 文書処理装置
JPH07129738A (ja) * 1993-11-08 1995-05-19 Matsushita Electric Ind Co Ltd ファイリング装置
JPH08212331A (ja) * 1995-01-31 1996-08-20 Canon Inc 電子ファイリング方法及び電子ファイリング装置
JPH09204511A (ja) * 1996-01-24 1997-08-05 Sharp Corp ファイリング装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8244035B2 (en) 2007-07-10 2012-08-14 Canon Kabushiki Kaisha Image processing apparatus and control method thereof
JP2010113661A (ja) * 2008-11-10 2010-05-20 Seiko Epson Corp 電子ファイル生成装置、電子ファイル生成システム、電子ファイル生成方法、及びコンピュータプログラム
JP2011145904A (ja) * 2010-01-15 2011-07-28 Fuji Xerox Co Ltd 情報表示装置及びプログラム

Similar Documents

Publication Publication Date Title
US6353840B2 (en) User-defined search template for extracting information from documents
US20060047732A1 (en) Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
US20050097080A1 (en) System and method for automatically locating searched text in an image file
JPH087033A (ja) 情報処理方法及び装置
JP3623998B2 (ja) 画像処理方法および画像処理装置
JPH113343A (ja) 情報検索装置
JPH10247237A (ja) 文書画像処理装置および文書画像処理方法および情報記録媒体
JP2005107931A (ja) 画像検索装置
JPH08314966A (ja) 文書検索装置のインデックス作成方法及び文書検索装置
JPH08180068A (ja) 電子ファイリング装置
JP2000020549A (ja) 文書データベースシステムへの入力支援装置
JP2005267057A (ja) テキストデータ抽出方法、検索用インデックス作成方法、電子ファイリングシステムおよびプログラム
JP2005115457A (ja) 文書ファイル検索方法
JPH08153110A (ja) 文書ファイリング装置及び方法
JPS61248160A (ja) 文書情報登録方式
JP3666066B2 (ja) 多言語文書登録検索装置
JP3264252B2 (ja) 文書処理装置及び処理方法並びに制御プログラムを記録した記録媒体
JPH06162107A (ja) 電子ファイリングシステム
JPH0452509B2 (ja)
JP2967995B2 (ja) 文書処理装置および文書処理方法
JP2001092831A (ja) 文書検索装置及び文書検索方法
JPH08161350A (ja) 電子ファイリング方法および装置
JPH09259132A (ja) 情報登録検索装置及びその方法
JP2006092226A (ja) 文書属性取得方法および装置並びにプログラムを記録した記録媒体
JP2904849B2 (ja) 文字認識装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050621

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050819

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060117