JP2005071014A - 文書画像処理装置、方法、プログラムおよび記憶媒体 - Google Patents

文書画像処理装置、方法、プログラムおよび記憶媒体 Download PDF

Info

Publication number
JP2005071014A
JP2005071014A JP2003298566A JP2003298566A JP2005071014A JP 2005071014 A JP2005071014 A JP 2005071014A JP 2003298566 A JP2003298566 A JP 2003298566A JP 2003298566 A JP2003298566 A JP 2003298566A JP 2005071014 A JP2005071014 A JP 2005071014A
Authority
JP
Japan
Prior art keywords
document image
keyword
image processing
group
processing method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003298566A
Other languages
English (en)
Inventor
Hiroaki Ikeda
裕章 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2003298566A priority Critical patent/JP2005071014A/ja
Publication of JP2005071014A publication Critical patent/JP2005071014A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 文書画像を高速かつ高精度に分類する。
【解決手段】 領域分割および属性付加後の文書画像について、キーワードを検索する領域を選択する。例えば、「タイトル」、「見出し」および「キャプション」をキーワードの検索対象とする。
選択された領域について、文字認識を実行し、さらにキーワードを検索する。キーワード検索はキーワード管理テーブルにおいて、キーワードとマッチングしたキーワードを抽出する。キーワードが検出された場合、そのキーワードに関連付けられたグループについて、入力文書画像へのリンク情報を追加する。
【選択図】 図3

Description

本発明は、文書画像を検索可能な体系で保存する文書画像処理装置、文書画像処理方法、プログラムおよび記憶媒体に関し、特に登録時に、文字認識を用いて自動分類を行う文書画像処理装置、文書画像処理方法、プログラムおよび記憶媒体に関する。
電子文書管理システム等の文書画像処理装置は、文字情報を含む電子文書を保存しておき、該電子文書をキーワードを用いて検索できるように構成される。
保存すべき原稿は、イメージスキャナなどによって文書画像データとして入力され、該文書画像データをフォルダ等に登録(ファイリング)する。
このような電子文書管理システムには、文書画像をファイリングする際に、キャビネットやフォルダ等を用いて、階層的なグループ分けが可能なものがあり、検索範囲指定が容易になるなど、より操作性に優れたファイリング機能が実現される。
しかし、一般に文書画像登録の階層はオペレータの判断に委ねられており、オペレータは登録すべき文書画像を判断するために、ファイリング体系を把握しておかなければならない。また、このような判断をともなう登録作業自体煩雑である。
そこで、入力された文書画像を分類するための階層をキーワードに対応付けて登録する電子文書管理システムが提案されている。この電子文書管理システムでは、入力された文書画像を文字認識し、文字認識結果のテキストデータについてキーワードを検索し、最も多く検出されたキーワードに基づいて、文書画像を対応する階層に分類する。(特許文献1参照)
また、帳票のレイアウトとそのタイトル位置をレイアウト辞書に格納する電子文書管理システムが提案されている。この電子文書管理システムでは、入力された帳票とレイアウト辞書とのマッチング処理を行い、一致とみなされたレイアウトにおいて、タイトル位置に記入されている文字等を読み取り、帳票を特定する。(特許文献2参照)
特開平09−282328号公報 特開平10−240958号公報
しかしながら、特許文献1の電子文書管理システムでは、文書画像に含まれる全ての文字を認識するため、登録処理に長時間を要し、また検出キーワードの個数により分類の優先順位を決定するため、登録すべき階層のキーワードと異なる単語が多数出現した場合、誤分類の可能性が高まる。
特許文献2の電子文書管理システムでは、特定されたレイアウトにおいてタイトル位置の文字を読み取るため、キーワードを抽出できるレイアウトの帳票でなければ登録処理することができず、用途が限定される。さらに帳票をあらかじめレイアウト辞書に格納するという煩雑な作業が不可欠であり、また分類登録については考慮されていない。
本発明は、このような従来の問題点を解消すべく創案されたもので、文書画像を高速かつ高精度に分類することを目的とする。
本発明に係る文書画像処理装置は、文書画像を複数のグループに分類するためのキーワードと分類先のグループとを関連付けて管理するキーワード管理手段と、前記文書画像における所定属性の領域の画像からテキスト情報を取得する文字認識手段と、前記取得したテキスト情報内に前記キーワードが含まれるか否か検索するキーワード検索手段と、前記キーワード検索手段による検索結果に基づいて、前記文書画像を少なくともいずれかのグループに分類する分類手段と、を備える。
本発明に係る文書画像処理方法は、文書画像を複数のグループに分類するためのキーワードと分類先のグループとを関連付けておき、文書画像を該キーワードに基づいてグループに分類する文書画像処理方法であって、文書画像における所定属性の領域の画像からテキスト情報を取得する文字認識ステップと、前記取得したテキスト情報内に前記キーワードが含まれるか否か検索するキーワード検索ステップと、前記キーワード検索ステップによる検索結果に基づいて、前記文書画像を少なくともいずれかのグループに分類する分類ステップと、を備える。
本発明によれば、文書画像を高速かつ高精度に分類し得る。
次に、本発明に係る文書画像処理装置および文書画像処理方法の実施例1を図面に基づいて説明する。
図1は、本発明に係る文書画像処理装置の実施例1を示すブロック図、図2は、図1の文書画像処理装置で実行される、文書画像処理方法の実施例1における新規グループを作成する処理を示すフローチャート、図3は、文書画像処理方法の実施例1における文書画像入力の処理を示すフローチャート、図4は、図3における領域分割、属性付加の処理を示すフローチャート、図5は、文書画像処理方法の実施例1において生成されるキーワード管理テ−ブルを示す表、図6は、文書画像処理方法の実施例1で生成されたグループおよび階層の体系の例を示す図、図7は、文書画像処理方法の実施例1において新規グループを生成するための画面を示す図、図8は、図4のステップS404、405における領域分類の第1の処理ルールを示す図、図9は、図4のステップS404、405における領域分類の第2の処理ルールを示す図、図10は、図4のステップS404、405における領域分類の第3の処理ルールを示す図、図11は、図4のステップS404、405における領域分類の第4の処理ルールを示す図、図12は、図4のステップS404、405における領域分類の第5の処理ルールを示す図、図13は、図4のステップS404、405における領域分類の第6の処理ルールを示す図、図14は、文書画像処理装置の実施例1で読みだし可能な各種データ処理プログラムを格納する記憶媒体のメモリマップを説明する図、図15は、文書画像処理方法の変形例において管理されるリンク数の表を示す表である。
図1において、本実施例の文書画像処理装置は、磁気ディスク等の外部記憶装置104およびイメージスキャナ108を備え、文書画像データを外部記憶装置104から読み込み、あるいは文書画像の原稿を直接イメージスキャナ108で読み取る。文書画像処理装置は全体制御のためのCPU101を備え、CPU101の制御プログラムはROM102に格納されている。イメージスキャナ108から入力された文書画像はRAM103に保持され、ROM102内の制御プログラムにより、分類、登録のための処理を実行する。分類、登録のためのキーワード管理テーブル等は制御プログラムとともにROM102に格納され、あるいは必要なキーワード管理テーブルごとに、外部記憶装置104からRAM103に読み込まれる。
なお必要に応じ、文書画像処理に先立って入力された文書画像のノイズ除去等の前処理を実行するようにしてもよい。
図1において、105はディスプレイ、106はキーボード、107はマウス等のポインティングデバイスである。また、109はネットワークインターフェースであり、図示しない遠隔地に存在する装置と通信し、プログラム、認識辞書、データ等を送受信し得る。
また、イメージスキャナ108やディスプレイ105は、文書画像処理装置に内蔵されるものに限らず、外部装置として外部インターフェースを介して文書画像処理装置に接続されることにより、本実施例を構成するようにしても構わない。
本発明は汎用的なコンピュータでも実施可能であり、その場合、媒体等で提供される制御プログラムを外部記憶装置104に記憶し、オペレータの指示等によりCPU101で実行するように構成されてもよい。
次に図1の文書画像処理装置によって実行される文書画像処理方法を説明する。
図6は文書画像処理方法によって分類される文書画像のグループ、階層の体系の例を示す。
図6では、「報告書」という最上位のグループの下に、システム部の報告書を登録する「システム部報告」のグループ、開発部の報告書を登録する「開発部」のグループが設けられている。「開発部」のグループには課ごとに、「開発課報告」と「評価課報告」のグループが設けられている。
図6のグループ、階層の体系は、オペレータのキーボード、ポインティングデバイスの操作によって、ディスプレイ105上に表示し得る。
新たなグループを生成する際には、図6の表示においてグループの属する階層を指定し、図7に示す入力ボックスによってグループのフォルダ名とキーワードを指定する。キーワードはグループの分類に使用される。
例えば図6の「報告書」のグループの下に、「管理課報告」のグループを新たに生成する場合、図6上で登録する階層を指定するとともに、図7の入力ボックスでフォルダ名「管理課報告」およびキーワード「管理課」を入力し、登録する。
図2は、新規グループ生成の処理を示すフローチャートである。
まずステップS201で、オペレータがグループの階層を指定するとともに、キーボード106やマウス107を用いてグループ作成を指示し、グループ名や分類のためのキーワードを入力する。
次にステップS202に進み、図5に示すキーワード管理テーブルを修正する。
キーワード管理テーブルには、フォルダ名、キーワード、関連するグループ一覧、リンクが生成された文書画像、が登録される。
例えば図6のグループ、階層体系に図7の新たなグループを追加した状態でのキーワード管理テーブルは、図5のように「管理課報告」のフォルダが作成されて追加されることになる。
すなわち、報告書のグループは、フォルダ名が「報告書」、キーワードが「報告書」、関連グループが「システム部報告」、「開発部」、「管理課報告」である。システム部報告のグループは、フォルダ名が「システム部報告」、キーワードが「システム部」、関連グループが「報告書」である。開発部のグループは、フォルダ名が「開発部」、キーワードが「開発部」、関連グループが「報告書」、「開発部報告」、「評価課報告」である。管理課報告のグループは、フォルダ名が「管理課報告」、キーワードが「管理課」、関連グループが「報告書」である。開発課報告のグループは、フォルダ名が「開発課報告」、キーワードが「開発課」、関連グループが「開発部」である。評価課報告のグループは、フォルダ名が「評価課報告」、キーワードが「評価課」、関連グループが「開発部」である。さらに各グループについて、リンクが生成された文書画像の一覧が登録される。
例えば、システム部報告書のグループにはシステム部報告書1〜jに対するリンクが生成され、開発課報告書のグループには開発課告書1〜kに対するリンクが生成され、評価課報告書のグループには評価課報告書1〜mに対するリンクが生成される。
図3は、文書画像を入力する際の処理を示すフローチャートである。
まずステップS301において、イメージスキャナ108等により文書画像を読み取り、保存し、ステップS302で入力画像を領域分割し、分割されたそれぞれの領域に属性を付加する。ステップS302の処理は図4で詳述する。
なお領域分割を行う前に、分割精度を高めるための画像処理を行ってもよい。
領域分割および属性付加後の文書画像について、ステップS303においてキーワードを検索する領域を選択する。例えば、「タイトル」、「見出し」および「キャプション」などの属性が付与された領域内の文字をキーワードの検索対象とする。この選択条件はあらかじめ決めておくが、オペレータの操作で条件を変更する方法も採用し得る。これによって、キーワードが存在する可能性が高い領域を特定でき、検索処理速度を高めることができる。
選択された領域について、ステップS304において文字認識を実行し、さらにステップS305によって該文字認識結果にキーワードが含まれるか検索する。なお、文字認識を行う際は、選択された領域に対応する元画像を用いて文字認識してもよいし、文字認識に適した解像度の画像に変換してから行っても構わない。また、本実施例のキーワード検索では、該文字認識結果がキーワードと部分一致するかどうか検索するものとするが、部分一致の代わりに完全一致としても構わない。
そして、該検索結果に基づいて、図5のキーワード管理テーブルにおいて、検索されたキーワードと一致したグループが識別されることになる。
ステップS306において、検索されたキーワードに関連付けられたグループに対して、保存されている入力文書画像へのリンク情報を追加する。
なお文字認識結果がキーワード管理テーブル内の複数のキーワードとマッチングした場合、各キーワードに対応する全てのグループについて、リンク情報を追加してもよい。この場合、同一の文書画像を、複数のグループから参照し得る。なお、図15に示すように、1個の文書画像が関連付けられたグループの個数をリンク数として登録しておくことにより、文書画像削除時の管理が容易になる。
文字認識結果とキーワードとのマッチングに関しては、文字認識の誤認識による分類漏れを防ぐため、キーワードが完全に一致しなくても、リンクを追加する方法も採用してもよい。例えば、「職業病」というキーワードに対し、認識結果が「識業病」となっていてもキーワードとマッチングしたと判断する。これによって文字認識の冗長度を高めることができる。
さらには、文字認識処理の過程において抽出された候補文字の組み合わせを作成し、これら候補文字の組み合わせから、キーワードとマッチングするものを抽出してもよい。これによって文字認識の冗長度をさらに高めることができる。
グループの分類方法として、1個のグループに複数のキーワードを対応させることも可能であり、この場合、複数のキーワードを「かつ」、「または」等の論理演算子で演算した結果によって指定してもよい。
ステップS302の処理は、図4のフローチャートによって実行される。
まずステップS401において、入力文書画像を間引く(縮小する)ために、所定のM×N画素単位の領域(M,Nは予め設定された整数。例えば、16画素×16画素単位の領域)に分割する。
ステップS402に進み、分割された各領域(例えば8×8画素なら、64画素中)において黒画素が全く存在しない領域を0(白)、黒画素が1画素でも存在すれば1(黒)として、間引き画像を作成する。
例えば入力文書画像を8×8=64画素単位の領域に分割する。64画素の中に1画素でも黒画素があればその領域を黒とすることで、入力文書画像の1/64の画素数の間引き画像を生成する。
これによって、処理対象の領域が減少し、処理速度を高めることができる。
次にステップS403、S404、405において、所定のルールに基づいて同一属性の領域を連結して、小矩形を生成する。
例えば、まず、間引き画像における連結画素を抽出して小矩形を生成すると、間引き画像を用いているため、近接するいくつかの文字は1つの小矩形として抽出される。さらに、所定ルールの第1として、小矩形群において、各小矩形の縦横比が大きく、隣接する矩形短辺相互が近接している場合、小矩形群(CL1〜CL3)を結合して新たな小矩形を生成し、文字行に分類(図8参照)。
所定ルールの第2として、文字行に分類された小矩形群において、各小矩形の短辺長さがほぼ同じで、小矩形がほぼ等間隔に並んでいる場合、小矩形群を「本文」(SN1)の属性を与える(図9参照)。
所定ルールの第3として、グラフの上もしくは下に隣接した小矩形群(CAP)は「キャプション」の属性を与える(図10参照)。
所定ルールの第4として、本文属性ではない文字行のうち、文書画像(DOC)の上部に存在し、かつ文字サイズが大きい小矩形群(T1)は「タイトル」の属性を与える(図11参照)。
所定ルールの第5として、本文部ではない文字行のうち、本文部(SN1、SN2)に挟まれた位置に存在する小矩形群(T2)は「見出し」の属性を与える(図12参照)。
所定ルールの第6として、文字行と判断されなかった領域について、領域の大きさが小さければ「ノイズ」(N)と判断する(図13参照)。
文字行以外の領域については、「グラフ」や「イメージ」を分類するルールが設定されている。例えば、所定ルールの第7として、ハーフトーンの写真領域や、不定形の図面領域は「イメージ」の属性を与え、所定ルールの第8として、主に表、図形等を含む線画領域を「グラフ」の属性を与える。
なお領域分類の方法は以上に限定されるものではなく、その他の領域分類手法を用いてもよい。
ステップS403においては、第1のルールに基づいて、各領域を文字行の領域とその他の領域に分類する。
ステップS404においては、第2〜第5のルールに基づいて、「本文」、「キャプション」、「タイトル」、「見出し」の小矩形群を生成し、これらに分類されなかった領域をその他に分類する。
ステップS405において、文字行と判断されなかった領域については、第6のルールに基づいて「ノイズ」を抽出し、また第7、第8のルールに基づいて「グラフ」および「イメージ」を分類する。
以上の分類結果に基づき、小矩形に、ステップS406で「本文」、「タイトル」、「キャプション」、「見出し」、「その他の文字行」、「グラフ」、「イメージ」の属性を付加する。「ノイズ」についてはステップS407で削除する。
このようにして分割した領域に属性が付与されるので、先に説明したようにステップS303において属性に基づき選択した領域に基づき、所望の属性を有する領域を文字認識してキーワードを得ることができるようになる。
以上説明したように、実施例1によれば、所望の属性を有する領域の文字認識結果に基づいて複数のグループに分類が可能であり、オペレータの期待と異なるグループへ分類される可能性が減少する効果がある。また、文字認識で誤認識が生じても、キーワードとのマッチングが行われ、漏れずに分類される効果がある。
図14は、本発明に係る文書画像処理装置で実行可能な各種データ処理プログラムを格納する記憶媒体のメモリマップを示す図である。
メモリマップにおいて、「ディレクトリ情報」には各プログラム、データのディレクトリの情報が格納され、「第1のデータ処理プログラム」には図2のフローチャートの処理プログラムが格納され、「第1のデータ処理プログラム」には図3、図4のフローチャートの処理プログラムが格納さている。
なお、特に図示しないが、各種プログラムに従属するデータ、例えば認識辞書なども上記ディレクトリにおいて管理され、また、各種プログラムをコンピュータにインストールするためのプログラム等が記憶される場合もある。
次に、本発明に係る文書画像処理装置および文書処理方法の実施例2を図面に基づいて説明する。
図16は、文書画像処理方法の実施例2において生成されるキーワード管理テ−ブルを示す表、図17は、文書画像処理方法の実施例2における文書画像入力の処理を示すフローチャート、図18は、文書画像処理方法の実施例2における文書画像削除の処理を示すフローチャートである。
実施例2では、複数のオペレータそれぞれが独立に文書画像を分類するキーワードやグループを設定することができる。
実施例2の文書画像処理装置は、実施例1と同様、図1のブロック図で表現される。
図16において、実施例2で生成されるキーワード管理テーブルは、各キーワードに対応するオペレータ、グループ(フォルダ名)を管理する。
図16のキーワード管理テーブルにおいて、オペレータ1が2つのグループ「フォルダ11」と「フォルダ12」を作成し、「フォルダ11」にキーワード「A」を関連付け、「フォルダ12」にキーワード「C」を関連付け、一方、オペレータ2が3つのグループ「フォルダ21」、「フォルダ22」、「フォルダ23」を作成し、「フォルダ21」、「フォルダ22」、「フォルダ23」にキーワード「B」、「C」、「D」をそれぞれ関連付けている。
すなわちオペレータを1つの属性としてキーワード管理テーブルを管理するので、実施例1よりも多様な検索、登録態様を採用し得る。
図17のフローチャートにおいて、文書画像の入力処理は以下の処理により実行される。
図17のフローチャートにおけるステップS401〜S404は、実施例1のステップ301〜S304(図3)と同様であり、説明を省略する。
ステップS405においては、文字認識結果に対する検索キーワードを、キーワード管理テーブル全体とせずに、キーワード範囲を限定することが可能である。つまり、分類先のグループを限定できることになる。
すなわち、入力された文書画像の分類範囲を、例えばオペレータ2に限定し得る。これによって、オペレータ2が設定したキーワードのみが検索対象となり、オペレータ2個人で管理したい帳票の管理等に有効である。また、全てのオペレータで共有すべき文書画像を管理する場合、全てのキーワードを検索範囲とする。また、オペレータの数人で共有すべき文書画像を管理する場合、その数人のオペレータそれぞれのキーワードを検索範囲とする。
次に、ステップS406において、ステップS405で設定された検索範囲に基づいてキーワードを検索し、ステップS407において、マッチングしたキーワードに関連付けられたグループすべてにリンク情報を付加するとともに、実施例1の図15同様、文書画像にリンク数の情報を記憶しておく。
例えば、キーワード「C」が検索されたとき、「フォルダ12」と「フォルダ22」にリンク情報が追加され、リンク数を「2」増やす。
図18のフローチャートにおいて、オペレータが文書画像を削除する場合、以下の処理が実行される。
例えば、「フォルダ12」および「フォルダ22」にリンクされた前記文書画像(図16)はリンク数が「2」であるが、ステップS501において、オペレータがその文書画像のリンクを「フォルダ22」から削除したとき、ステップS502において、文書画像処理装置はその文書画像のリンク数が「1」であるか否か判断する。
ここでは、リンク数「2」であるので、ステップS503に進み、文書画像処理装置は「フォルダ22」における文書画像に対するリンク情報を消すとともに、文書画像のリンク数を「1」だけ減らして「1」とする。
一方、文書画像のリンク数が「1」であったときは、ステップS501のグループからの削除によりリンク数が「0」となるので、ステップS502からステップS504に進み、リンク情報とともに文書画像そのものも削除する。
実施例2では、複数のオペレータが個別にキーワードを設定でき、それぞれのグループに文書画像を分類することができる。
また、複数グループへのリンクをリンク数によって管理するので、各グループのための文書画像コピーを生成する必要がなく、記憶領域を節約し得る。
なお、実施例2では、複数のオペレータ(利用者)それぞれに対してキーワードとフォルダを設定するものとしたが、例えば、前記オペレータの代わりに所属部署(所属グループ)それぞれに対して設定されるものとしても構わない。
本発明に係る文書画像処理装置、文書画像処理方法は、登録時にオペレータの煩雑な操作を要することなく、領域分割を実行するとともに、必要な属性のみを文字認識することで、処理時間を短縮する。また、分類に有効な文字列が含まれる部分のみを処理対象とするので、高精度に文書画像を分類し得る。
本発明に係る文書画像処理装置の実施例1を示すブロック図である。(実施例1) 図1の文書画像処理装置で実行される、文書画像処理方法の実施例1における新規グループを作成する処理を示すフローチャートである。(実施例1) 文書画像処理方法の実施例1における文書画像入力の処理を示すフローチャートである。(実施例1) 図3における領域分割、属性付加の処理を示すフローチャートである。(実施例1) 文書画像処理方法の実施例1において生成されるキーワード管理テ−ブルを示す表である。(実施例1) 文書画像処理方法の実施例1で生成されたグループよよび階層の体系の例を示す図である。(実施例1) 文書画像処理方法の実施例1において新規グループを生成するための画面を示す図である。(実施例1) 図4のステップS404、405における領域分類の第1の処理ルールを示す図である。(実施例1) 図4のステップS404、405における領域分類の第2の処理ルールを示す図である。(実施例1) 図4のステップS404、405における領域分類の第3の処理ルールを示す図である。(実施例1) 図4のステップS404、405における領域分類の第4の処理ルールを示す図である。(実施例1) 図4のステップS404、405における領域分類の第5の処理ルールを示す図である。(実施例1) 図4のステップS404、405における領域分類の第6の処理ルールを示す図である。(実施例1) 文書画像処理装置の実施例1で読みだし可能な各種データ処理プログラムを格納する記憶媒体のメモリマップを説明する図である。(実施例1) 文書画像処理方法の変形例において管理されるリンク数の表を示す表である。(実施例1) 文書画像処理方法の実施例2において生成されるキーワード管理テ−ブルを示す表である。(実施例2) 文書画像処理方法の実施例2における文書画像入力の処理を示すフローチャートである。(実施例2) 文書画像処理方法の実施例2における文書画像削除の処理を示すフローチャートである。
符号の説明
101 CPU
102 ROM
103 RAM
104 外部記憶装置
105 ディスプレイ
106 キーボード
107 ポインティングデバイス
108 スキャナ部
109 ネットワークインターフェース

Claims (20)

  1. 文書画像を複数のグループに分類するためのキーワードと分類先のグループとを関連付けて管理するキーワード管理手段と、
    前記文書画像における所定属性の領域の画像からテキスト情報を取得する文字認識手段と、
    前記取得したテキスト情報内に前記キーワードが含まれるか否か検索するキーワード検索手段と、
    前記キーワード検索手段による検索結果に基づいて、前記文書画像を少なくともいずれかのグループに分類する分類手段と、
    を備えた文書画像処理装置。
  2. 前記キーワード検索手段は、前記分類先のグループを限定して、前記キーワード管理手段で管理されたキーワードを検索する、
    ことを特徴とする請求項1記載の文書画像処理装置。
  3. 前記キーワード管理手段は、オペレータを前記キーワードと前記グループとに関連付けて管理し、
    前記キーワード検索手段は、対象となるオペレータを指定することにより、前記分類先のグループを限定して、前記キーワードを検索することを特徴とする請求項2に記載の文書画像処理装置。
  4. 前記文字認識手段は、文字認識の対象となる前記所定属性を変更し得ることを特徴とする請求項1乃至3のいずれかに記載の文書画像処理装置。
  5. 前記キーワード検索手段は、前記テキスト情報において、前記キーワードが部分一致するかどうか検索することを特徴とする請求項1乃至4のいずれかに記載の文書画像処理装置。
  6. 前記キーワード検索手段は、前記テキスト情報において、前記キーワードが完全一致するかどうか検索することを特徴とする請求項1乃至4のいずれかに記載の文書画像処理装置。
  7. 前記キーワード検索手段は、前記文字認識手段によって得られる候補文字の組み合わせの全部または一部を用いて、前記キーワードが含まれるか検索することを特徴とする請求項1乃至6のいずれかに記載の文書画像処理装置。
  8. 前記分類手段は、前記グループと前記文書画像とを関連付けるリンク情報を生成することにより前記文書画像を分類することを特徴とする請求項1乃至7のいずれかに記載の文書画像処理装置。
  9. 前記分類手段は、前記文書画像に、該文書画像が属するグループ数を示すリンク数を関連付け、
    該文書画像をいずれかのグループから削除すべきときに、該グループにおける該文書画像のリンク情報を削除するとともに、該文書画像の該リンク数を減じ、該リンク数が「0」となったときに該文書画像を削除する削除手段を、
    さらに備えることを特徴とする請求項1乃至8のいずれかに記載の文書画像処理装置。
  10. 文書画像を複数のグループに分類するためのキーワードと分類先のグループとを関連付けておき、文書画像を該キーワードに基づいてグループに分類する文書画像処理方法であって、
    文書画像における所定属性の領域の画像からテキスト情報を取得する文字認識ステップと、
    前記取得したテキスト情報内に前記キーワードが含まれるか否か検索するキーワード検索ステップと、
    前記キーワード検索ステップによる検索結果に基づいて、前記文書画像を少なくともいずれかのグループに分類する分類ステップと、
    を備えた文書画像処理方法。
  11. 前記キーワード検索ステップは、前記分類先のグループを限定して、前記キーワード管理ステップで管理されたキーワードを検索する、
    ことを特徴とする請求項10記載の文書画像処理方法。
  12. 前記文書画像処理方法は、オペレータを前記キーワードと前記グループとに関連付けて管理しておき、
    前記キーワード検索ステップは、対象となるオペレータを指定することにより、前記分類先のグループを限定して、前記キーワードを検索することを特徴とする請求項11に記載の文書画像処理方法。
  13. 前記文字認識ステップは、文字認識の対象となる前記所定属性を変更し得ることを特徴とする請求項10乃至12のいずれかに記載の文書画像処理方法。
  14. 前記キーワード検索ステップは、前記テキスト情報において、前記キーワードが部分一致するかどうか検索することを特徴とする請求項10乃至13のいずれかに記載の文書画像処理方法。
  15. 前記キーワード検索ステップは、前記テキスト情報において、前記キーワードが完全一致するかどうか検索することを特徴とする請求項10乃至13のいずれかに記載の文書画像処理方法。
  16. 前記キーワード検索ステップは、前記文字認識ステップによって得られる候補文字の組み合わせの全部または一部を用いて、前記キーワードが含まれるか検索することを特徴とする請求項10乃至15のいずれかに記載の文書画像処理方法。
  17. 前記分類ステップは、前記グループと前記文書画像とを関連付けるリンク情報を生成することにより前記文書画像を分類することを特徴とする請求項10乃至16のいずれかに記載の文書画像処理方法。
  18. 前記分類ステップは、前記文書画像に、該文書画像が属するグループ数を示すリンク数を関連付け、
    該文書画像をいずれかのグループから削除すべきときに、該グループにおける該文書画像のリンク情報を削除するとともに、該文書画像の該リンク数を減じ、該リンク数が「0」となったときに該文書画像を削除する削除ステップを、
    さらに備えることを特徴とする請求項10乃至17のいずれかに記載の文書画像処理方法。
  19. 請求項10〜18のいずれかに記載の文書画像処理方法の各ステップを汎用コンピュータに実行させるためのプログラムコードを含むコンピュータ実行可能なプログラム。
  20. 請求項19記載のコンピュータ実行可能なプログラムが格納されたコンピュータ読み取り可能な記憶媒体。
JP2003298566A 2003-08-22 2003-08-22 文書画像処理装置、方法、プログラムおよび記憶媒体 Withdrawn JP2005071014A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003298566A JP2005071014A (ja) 2003-08-22 2003-08-22 文書画像処理装置、方法、プログラムおよび記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003298566A JP2005071014A (ja) 2003-08-22 2003-08-22 文書画像処理装置、方法、プログラムおよび記憶媒体

Publications (1)

Publication Number Publication Date
JP2005071014A true JP2005071014A (ja) 2005-03-17

Family

ID=34404031

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003298566A Withdrawn JP2005071014A (ja) 2003-08-22 2003-08-22 文書画像処理装置、方法、プログラムおよび記憶媒体

Country Status (1)

Country Link
JP (1) JP2005071014A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1702949A1 (en) 2005-03-14 2006-09-20 Seiko Epson Corporation Ink cartridge and method for producing the same
JP2008176625A (ja) * 2007-01-19 2008-07-31 Seiko Epson Corp 文字認識結果の管理装置およびその方法並びにコンピュータプログラム
JP2008181506A (ja) * 2006-12-28 2008-08-07 Canon Marketing Japan Inc 情報処理装置、その制御方法、情報処理システム、プログラム及びコンピュータ読み取り可能な記録媒体
US7860316B2 (en) 2005-11-18 2010-12-28 Samsung Electronics Co., Ltd. Image forming apparatus that automatically creates an index and a method thereof
CN113815332A (zh) * 2021-10-28 2021-12-21 李贝贝 一种基于大数据的信息处理方法
CN115297215A (zh) * 2021-08-05 2022-11-04 京瓷办公信息***株式会社 图像处理装置以及图像形成装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1702949A1 (en) 2005-03-14 2006-09-20 Seiko Epson Corporation Ink cartridge and method for producing the same
US7860316B2 (en) 2005-11-18 2010-12-28 Samsung Electronics Co., Ltd. Image forming apparatus that automatically creates an index and a method thereof
US8369623B2 (en) 2005-11-18 2013-02-05 Samsung Electronics Co., Ltd. Image forming apparatus that automatically creates an index and a method thereof
JP2008181506A (ja) * 2006-12-28 2008-08-07 Canon Marketing Japan Inc 情報処理装置、その制御方法、情報処理システム、プログラム及びコンピュータ読み取り可能な記録媒体
JP2009134755A (ja) * 2006-12-28 2009-06-18 Canon Marketing Japan Inc 情報処理装置、その制御方法、情報処理システム、プログラム及びコンピュータ読み取り可能な記録媒体
JP2008176625A (ja) * 2007-01-19 2008-07-31 Seiko Epson Corp 文字認識結果の管理装置およびその方法並びにコンピュータプログラム
CN115297215A (zh) * 2021-08-05 2022-11-04 京瓷办公信息***株式会社 图像处理装置以及图像形成装置
CN115297215B (zh) * 2021-08-05 2024-05-14 京瓷办公信息***株式会社 图像处理装置以及图像形成装置
CN113815332A (zh) * 2021-10-28 2021-12-21 李贝贝 一种基于大数据的信息处理方法

Similar Documents

Publication Publication Date Title
JP4920928B2 (ja) 画像処理装置及びその制御方法、プログラム
JP5059545B2 (ja) 画像処理装置及び画像処理方法
JP2816241B2 (ja) 画像情報検索装置
JP4859025B2 (ja) 類似画像検索装置、類似画像検索処理方法、プログラム及び情報記録媒体
US20080263036A1 (en) Document search apparatus, document search method, program, and storage medium
US9710524B2 (en) Image processing apparatus, image processing method, and computer-readable storage medium
JP5665125B2 (ja) 画像処理方法、及び、画像処理システム
US20090183115A1 (en) Document searching apparatus, document searching method, and computer-readable recording medium
JPH10162150A (ja) ページ解析システム
JP4785655B2 (ja) 文書処理装置及び文書処理方法
JP2006120125A (ja) ドキュメント画像情報管理装置及びドキュメント画像情報管理プログラム
US20060008113A1 (en) Image processing system and image processing method
JP2007317034A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP2009193356A (ja) 画像処理装置、画像処理方法、プログラム、及び記憶媒体
JP4261988B2 (ja) 画像処理装置及び方法
US8023735B2 (en) Image processing apparatus for extracting representative characteristic from image data and storing image data to be associated with representative characteristic
US8181108B2 (en) Device for editing metadata of divided object
JP2005071014A (ja) 文書画像処理装置、方法、プログラムおよび記憶媒体
JP2601111B2 (ja) 文書要素の検索装置
JP2009211554A (ja) 画像処理装置、画像処理方法、コンピュータプログラム、および記憶媒体
EP2166467B1 (en) Information processing apparatus, control method thereof, computer program, and storage medium
JP2017072941A (ja) 文書振り分けシステム、情報処理方法及びプログラム
JP2008257537A (ja) 情報登録装置、情報検索装置、情報検索システム、情報登録プログラム、および情報検索プログラム
JP2004334340A (ja) 画像処理方法及び装置
JP6012700B2 (ja) 情報処理装置、情報処理方法、情報処理システム、コンピュータプログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060606

A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20061107