JP4823049B2 - 文書画像検索装置及びプログラム - Google Patents
文書画像検索装置及びプログラム Download PDFInfo
- Publication number
- JP4823049B2 JP4823049B2 JP2006339357A JP2006339357A JP4823049B2 JP 4823049 B2 JP4823049 B2 JP 4823049B2 JP 2006339357 A JP2006339357 A JP 2006339357A JP 2006339357 A JP2006339357 A JP 2006339357A JP 4823049 B2 JP4823049 B2 JP 4823049B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- document image
- document
- characters
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P20/00—Technologies relating to chemical industry
- Y02P20/50—Improvements relating to the production of bulk chemicals
- Y02P20/52—Improvements relating to the production of bulk chemicals using catalysts, e.g. selective catalysts
Landscapes
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
このような文書画像検索装置において、従来では、例えばスキャナから読み込んだ文書画像データを検索対象として登録する際に、文書画像データから文字認識により抽出したテキストをインデックスとして作成して登録している。そして登録した文書画像データを検索する際に、まずインデックスを参照して、検索文書データと同一のテキストがあるかどうかを検索していた。
特許文献1の全文検索装置は、高速かつ高精度な全文検索を実現するため、インデックスを参照してキーワードと一致する認識候補文字の文書を検索する一方、文字画像の形状とキーワードを構成する文字の形状特徴を照合して、検索条件に合致する文書を検索するようにしている。
さらに本発明によれば、検索対象の文書画像データから抽出したテキスト領域で検索することにより、効率良く文書画像データの検索を行うことができるようになる。
さらに本発明によれば、計測された検索文書の文字数の配列に少なくとも部分的に一致する文字数の配列を持つインデックスを検索することにより、バージョンアップ等により文書の一部の追加や削除が行われていても効率よく検索することができる。
さらに本発明によれば、句点や読点、改行などの夫々に重み付けをすることにより、検索精度を高めることができる。
本実施形態の文書検索装置は、画像データをファイルして文書画像検索を行うサーバとして機能する画像ファイリングサーバ10により実現される。画像ファイリングサーバ10にはスキャナ20が接続される。
スキャナ20は、文書画像を読み取るスキャン部21と、スキャナ各部を制御する制御部22と、画像ファイリングサーバ10と通信を行うための通信I/F23とを備えている。そしてスキャン部21で読み取った文書画像データを通信I/F23から画像ファイリングサーバ10に送信する。
インデックス作成処理11bでは、まずスキャナ20から送信された文書画像データのテキスト領域を抽出する。ここでは、文書画像データに含まれるテキスト領域を判別し、その領域を切り出して抽出する。テキスト領域は、頁単位または一頁内に含まれる領域単位からなる。
そして分割した単位ごとに文書の文字数を計測し、計測した文字数をインデックスとして記憶部12に登録する。ここで記憶部12には、文書画像データとインデックスとを対応付けて登録する。
この場合、画像ファイリングサーバ10では、検索元の検索画像データをスキャナ20や図示しないPC等の外部機器もしくは記録媒体などから受け取ると、その検索画像データの句読点間の文字数を計測し(11c)、計測した文字数に対応するインデックスを検出し(11d)、検出したインデックスに対応する文書画像データを記憶部12から抽出する(11e)。抽出した文書画像データの情報は、表示制御機能11aによって表示部・入力部13に表示される。
またこのときに、抽出した文書画像データが複数あれば、これらの全てを抽出して、その情報を表示・入力部13に表示し、さらにユーザ操作指示やデフォルトの条件設定に従って、抽出した文書画像データにOCR処理を行ってテキストデータによる詳細な検索を行なう。
本例では、スキャナ20は、複写機能を持った複合機30に組み込まれているものとする。複合機30はネットワークに接続することにより、ネットワーク上の画像ファイリングサーバ10にアクセスすることができる。
画像ファイリングサーバ10では、外部のスキャナ(もしくはスキャナが組み込まれた複写機や複合機など)20から、画像ファイリングサーバ10に登録すべき文書画像データが送信された際に、送信された文書画像データを自身の記憶部12に登録して記憶保持するともに、登録する文書画像データのテキスト処理を行う。
そして抽出したテキスト領域の文書を、句読点間の単位に分割する(図3(B))。上記のように、ここでは文書の行の最終位置ではない場所で句読点がなく改行されている部分があった場合、その改行点も句読点とみなすように設定してもよい。
そして蓄積された文書画像データを実際に利用者が検索する場合、利用者は、スキャナや外部PCなどを用いて、検索元となる検索文書データを画像ファイリングサーバ10に入力する。検索文書データは、スキャナ20などから読み込んだ画像データを用いることができるが、ワードプロセッサなどにより作成されたテキストデータやアプリケーション対応のバイナリデータなどであってもよい。
画像ファイリングサーバ10では、入力された検索文書データに対して、上記の登録する文書画像データと同様のテキスト処理を実行する。
また検索には、上記文字数の配列に加えて、文字サイズ、縦書き/横書きなどの文章方向、複数のテキスト領域に分かれた文章を考慮した文章ブロック、句読点や改行を重み付けした情報などが適宜使用される。
このような文章画像データ100に対して上記のようなテキスト処理を行って、テキスト領域の抽出を行うことにより、図4(B)に示すような複数(ここでは6つ)のテキスト領域R1〜R6が抽出されたものとする。
また本例においても、上記の例と同様に、各テキスト領域R1〜R6に対して、上記文字数の配列に加えて、文字サイズ、縦書き/横書きなどの文章方向、複数のテキスト領域に分かれた文章を考慮した文章ブロック、句読点や改行を重み付けした情報などが適宜計測される。
図5は、各テキスト領域の位置情報を示す図で、頁内の各テキスト領域R1〜R6の4つの頂点の座標情報により位置情報を表している。座標情報は、例えばビットマップの画素位置を示す情報であってもよく、あるいは任意に定めた座標系の位置情報であってもよい。
検索元の検索文書データを用いて、検索対象の文書画像データを検索する際に、検索条件として上記のようにテキスト領域内の計測文字数を用いて検索を行うが、これに加えて、テキスト領域内の文書の文字サイズを用いることができる。
そしてこの場合に、画像ファイリングサーバ10がテキスト領域Rに対してテキスト処理を行う際に、句読点間の計測文字数に加えて、文字サイズを関連付けてインデックスにして記憶しておく(図6(B))。文字サイズは、所定のパラメータに応じて生成されたサイズ情報である。
また例えば、文書情報データを検索する際に、文字サイズを用いて検索対象を絞り込み、さらに計測文字数を用いて検索することで検索効率を向上させることができる。例えば、文字サイズが1.5以上である見出し文章という条件で検索を行って、該当する文書画像データが複数あればさらに計測文字数による検索を行う、などの方法で検索することができる。見出し文章は、例えば、文章の初頭にあって文字サイズが他の文字よりも大きい文字列、あるいは文字が太字である文字列などの条件により判別することができる。
検索元の検索文書データを用いて、検索対象の文書画像データを検索する際に、検索条件としてテキスト領域内の計測文字数に加えて、テキスト領域内の文章方向(縦書き/横書きなど)を用いることができる。
ここで画像ファイリングサーバがテキスト処理を行う際に、句読点間の計測文字数に加えて、文章方向(縦書き/横書きなど)を関連付けてインデックスにして記憶しておく(図7(B))。
例えば、文書画像データを検索する際に、文章方向を用いて検索対象を絞り込み、さらに計測文字数を用いて検索することで検索効率を向上させることができる。
検索元の検索文書データを用いて、検索対象の文書画像データを検索する際に、検索条件としてテキスト領域内の計測文字数に加えて、テキスト領域として認識する検索単位(文章ブロック)を用いるようにしてもよい。
例えば、テキスト領域R1の最終位置を確認し、最終位置に句読点がなければ、テキスト領域R1の文章が次のテキスト領域R2に続いているものと判断する。そしてこれらのテキスト領域R1,R2を統合したものを文章ブロックとみなす処理を行う。文章ブロックが一つの検索単位となる。
図9の例では、テキスト処理により切り出した通常のテキスト領域を示す検索単位として、“文書”を設定し、複数のテキスト領域を統合して文章ブロックとした検索単位を“文章ブロック”として設定している。
なお上記の例では二つのテキスト領域を統合して文章ブロックとしているが、文章ブロックは、三つ以上のテキスト領域を統合したものであってもよい。
ここでは例えば図10(A)に示すようなテキスト領域Rを含む文書画像データがあるものとする。この文書画像データに対してテキスト処理を行って、抽出したテキスト領域Rの文字数を計測した結果は、図10(B)のようになる。
図11(A)の文字数情報波形は、計測した句読点間の計測文字数を単にプロットしたもので、ここでは、テキスト領域Rに含まれる句点、読点、改行を全て同等に扱ったものと解される。
つまり本例では、検索対象として登録する文書画像データに対してテキスト処理を行う際に、テキスト領域の抽出と、テキスト領域ごとの文字数計測とを行ない、このときに句点の文字数を0として重み付けし、その情報を計測文字数とともにインデックスにして登録しておく。
ここでは図11の例と同様に、検索対象の文書画像データのテキスト処理により、図13(A)に示すような文字数情報波形が得られたものとする。
ここでは図13(B)に示すように、全く改変されていない検索文書データで検索を行なう場合には、検索を行なう際に文字数情報波形の一部(例えば点線内のブロックD)の計測文字数を用いるだけでよい。改変が行なわれていないため、検索文書データと、検索対象の文書画像データとは必ず一致するからである。
このときに、ブロックGの計測文字数の配列だけは、対象の文章画像データの計測文字数の配列と一致しないが、少なくとも一部分の計測文字数(ここではブロックE,F)の配列が一致していれば、全体が類似しているものと判断し、検索対象の文書画像データとして抽出する。
まず文書検索装置では、スキャナから文書画像データを受信する(ステップS1)。そしてスキャナから受信した文書画像データのテキスト領域を抽出する(ステップS2)。ここでは、例えば文書画像データの一頁を一つのテキスト領域とし、もしくは一頁内に複数のテキスト領域があれば、その複数の領域毎に切り出して抽出する。
ここでは、また文字数計測処理の実施形態に応じて、句読点間の文字数とともに、文字サイズ、縦書き/横書きなどの文章方向、複数のテキスト領域に分かれた文章を考慮した文章ブロック、句読点や改行を重み付けした情報などを計測し、計測文字数に加えて登録する。
そして選択したテキスト領域の文字計測処理が終了すると、さらに計測してない他のテキスト領域があるかどうかを判別し(ステップS8)、計測していないテキスト領域があれば、そのテキスト領域を次のテキスト領域として選択し(ステップS10)、ステップS7の文字数計測処理に進む。
まず、対象のテキスト領域の文書が縦書きになっているか横書きになっているかを判定する(ステップS11)。ここでは、上述のように文書画像のパターンから縦書きか横書きかを判定してもよく、あるいは文書画像データの一部をOCR処理した後形態素解析を行って、縦書きか横書きかを判定するようにしてもよい。
さらにテキスト領域内において、文書の文字サイズが一定かどうかを判別する(ステップS14)。文字サイズが一定であれば、文字数計測処理を終了し、文字サイズが一定でなければ、分割単位毎に文字サイズを計測して(ステップS15)、処理を終了する。
なお本例では、文字サイズを計測する例を示しているが、上述のように文字サイズを計測しない処理であってもよい。
まずテキスト領域の文書画像データに対して、判定した文章の方向(縦書き/横書き)に従って句読点単位に分割する処理を開始する(ステップS21)。そしてテキスト領域の文書の最終位置が句点であるかどうかを判別する(ステップS22)。
文書画像データを検索する際に、まず検索元となる検索文書データを入力する(ステップS31)。文書検索装置では、入力された検索文書データのテキスト領域を抽出する処理を行う(ステップS32)。そして抽出したテキスト領域が複数あるかどうかを判別し(ステップS33)、テキスト領域が複数なければ、そのテキスト領域の検索文章データの文字数計測処理を行う(ステップS34)。
文字数計測処理は、前述のように句読点間の文字数を計測する処理であり、さらに実施形態に応じて文字サイズ、縦書き/横書きなどの文章方向、複数のテキスト領域に分かれた文章を考慮した文章ブロック、句読点や改行を重み付けした情報などの計測処理が行われる。
検索の結果、抽出された文書画像データが複数あるかどうかを判別し(ステップS36)、抽出された文書画像データが一つであれは、その抽出された文章画像データを検索結果として表示する(ステップS42)。また抽出された文書画像データが複数あれば、抽出された全ての文書画像データをOCR処理し、検索文書データに対応する文書画像データを選択して検索結果として表示する(ステップS37)。
なおここでは検索文書データにおける複数のテキスト領域のうち、一つのテキスト領域のみで文字数計測処理を行って、その結果を用いてインデックス検索を行うようにしてもよい。
インデックスからの検索処理においては、まず同一の文書を検索するように指定されているかどうかを判別する(ステップS51)。ここでは例えば、編集などにより一部改変された文章画像データを検索対象とすることなく、完全に同一の文章画像データのみを検索して抽出するモードと、テキスト領域内の一部が同一で類似している文章画像データを抽出するモードとが選択可能である場合に、いずれかのモードが指定されているかどうかを判断する。類似している文書画像データを検索するモードでは、元の文書にバージョンアップを加えたり編集を施して改変した文書画像データを検索することができる。
Claims (9)
- 検索対象として保持するための文書画像データ、及び該文書画像データを検索する検索元となる検索文書データを入力する入力部と、
該入力部が入力した前記文書画像データ、または前記検索文書データから句読点を認識し、句読点間の文字数を計測する文字数計測部と、
該文字数計測部によって計測された前記文書画像データの文字数をインデックスとして登録する登録部と、
前記文字数計測部によって計測された前記検索文書データの各句読点間の文字数と同一の文字数を持つインデックスを検索する検索部と、を備えることを特徴とする文書画像検索装置。 - 前記文字数計測部は、句読点間の文字数の他に文字サイズを計測し、前記登録部は、前記文字数に加えて前記文字サイズを含めて前記インデックスとして登録することを特徴とする請求項1に記載の文書画像検索装置。
- 前記文字数計測部は、前記検索文書データにおいて、文書の行の最終位置ではない場所で句読点がなく改行されている部分があった場合、該改行点も句読点とみなして前記文字数の計測を行うことを特徴とする請求項1または2に記載の文書画像検索装置。
- 前記文書画像データ及び前記検索文書データの文書から、頁単位または一頁内に含まれる複数の領域単位からなるテキスト領域を抽出する領域抽出部を備え、
前記文字数計測部は、前記領域抽出部により抽出されたテキスト領域毎に前記句読点間の文字数を計測し、
前記登録部は、前記テキスト領域の位置情報と対応付けて前記文書画像の文字数をインデックスとして登録することを特徴とする請求項1ないし3のいずれか1に記載の文書画像検索装置。 - 前記文字数計測部は、連続する一つの文章が複数のテキスト領域に分かれている場合には、該連続した一つの文章を含む複数のテキスト領域を統合し、統合したテキスト領域を一つの検索単位として文字数計測を行なうことを特徴とする請求項4に記載の文書画像検索装置。
- 前記検索部は、前記文字数計測部によって計測された前記検索文書データの文字数の配列のうち、少なくとも部分的に一致する文字数の配列を持つインデックスを検索することを特徴とする請求項1ないし5のいずれか1に記載の文書画像検索装置。
- 前記登録部は、前記文字数をインデックスとして登録する際に、前記文書画像の文書に含まれる句点及び/または読点に重み付けをして登録し、
前記検索部は、検索文書から抽出された前記句読点間の文字数に加えて、前記句点及び/または読点の重み付けを用いて検索を行うことを特徴とする請求項1ないし6のいずれか1に記載の文書画像検索装置。 - 前記登録部は、前記文書の行の最終位置ではない場所で改行されている部分があった場合、該改行されている点を改行点として重み付けして登録し、
前記検索部は、前記句点、読点の重み付けに加えて、前記改行点の重み付けを用いて検索を行うことを特徴とする請求項7に記載の文書画像検索装置。 - 請求項1ないし8のいずれか1に記載の文書画像検索装置の機能を実現する文書画像検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006339357A JP4823049B2 (ja) | 2006-12-18 | 2006-12-18 | 文書画像検索装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006339357A JP4823049B2 (ja) | 2006-12-18 | 2006-12-18 | 文書画像検索装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008152502A JP2008152502A (ja) | 2008-07-03 |
JP4823049B2 true JP4823049B2 (ja) | 2011-11-24 |
Family
ID=39654617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006339357A Active JP4823049B2 (ja) | 2006-12-18 | 2006-12-18 | 文書画像検索装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4823049B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101944091A (zh) * | 2009-07-07 | 2011-01-12 | 夏普株式会社 | 图像检索装置 |
CN104331421A (zh) * | 2014-10-14 | 2015-02-04 | 安徽四创电子股份有限公司 | 一种大数据的高效处理方法及*** |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02158865A (ja) * | 1988-12-12 | 1990-06-19 | Canon Inc | 文書評価システム |
JPH11143907A (ja) * | 1997-11-14 | 1999-05-28 | Ricoh Co Ltd | ファイルシステムおよび該システムに使用するプログラムを記録した記録媒体 |
JP2006155439A (ja) * | 2004-12-01 | 2006-06-15 | Hitachi Ltd | 文書管理装置及びその方法 |
JP4641414B2 (ja) * | 2004-12-07 | 2011-03-02 | キヤノン株式会社 | 文書画像検索装置、文書画像検索方法、プログラム、記憶媒体 |
-
2006
- 2006-12-18 JP JP2006339357A patent/JP4823049B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2008152502A (ja) | 2008-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4926004B2 (ja) | 文書処理装置、文書処理方法及び文書処理プログラム | |
JP2004334334A (ja) | 文書検索装置、文書検索方法及び記憶媒体 | |
JP4261988B2 (ja) | 画像処理装置及び方法 | |
US20140078545A1 (en) | Image processing apparatus and program | |
JP2007041709A (ja) | 文書処理システム、文書処理システムの制御方法、文書処理装置、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体 | |
US11146705B2 (en) | Character recognition device, method of generating document file, and storage medium | |
US20210295033A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP4823049B2 (ja) | 文書画像検索装置及びプログラム | |
JP2008136021A (ja) | 画像処理機器,記事画像選択方法,プログラム,および記録媒体 | |
US10638001B2 (en) | Information processing apparatus for performing optical character recognition (OCR) processing on image data and converting image data to document data | |
JP2000322417A (ja) | 画像ファイリング装置及び方法及び記憶媒体 | |
JP6888410B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2004334341A (ja) | 文書検索装置、文書検索方法及び記録媒体 | |
JP4747828B2 (ja) | 履歴管理装置 | |
JP4518212B2 (ja) | 画像処理装置及びプログラム | |
JPH0934903A (ja) | ファイル検索装置 | |
JP2021140831A (ja) | 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム | |
JP4517822B2 (ja) | 画像処理装置及びプログラム | |
JP2007048061A (ja) | 文字処理装置、文字処理方法及び記録媒体 | |
JP2004334340A (ja) | 画像処理方法及び装置 | |
JP6303742B2 (ja) | 画像処理装置、画像処理方法、および画像処理プログラム | |
JP7404943B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP7364998B2 (ja) | 文書分類システムおよび文書分類プログラム | |
US20230102476A1 (en) | Information processing apparatus, non-transitory computer readable medium storing program, and information processing method | |
JP2007034923A (ja) | 画像処理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090218 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110831 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110906 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110906 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4823049 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140916 Year of fee payment: 3 |