JP4823049B2 - 文書画像検索装置及びプログラム - Google Patents

文書画像検索装置及びプログラム Download PDF

Info

Publication number
JP4823049B2
JP4823049B2 JP2006339357A JP2006339357A JP4823049B2 JP 4823049 B2 JP4823049 B2 JP 4823049B2 JP 2006339357 A JP2006339357 A JP 2006339357A JP 2006339357 A JP2006339357 A JP 2006339357A JP 4823049 B2 JP4823049 B2 JP 4823049B2
Authority
JP
Japan
Prior art keywords
search
document image
document
characters
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006339357A
Other languages
English (en)
Other versions
JP2008152502A (ja
Inventor
正寛 和田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2006339357A priority Critical patent/JP4823049B2/ja
Publication of JP2008152502A publication Critical patent/JP2008152502A/ja
Application granted granted Critical
Publication of JP4823049B2 publication Critical patent/JP4823049B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P20/00Technologies relating to chemical industry
    • Y02P20/50Improvements relating to the production of bulk chemicals
    • Y02P20/52Improvements relating to the production of bulk chemicals using catalysts, e.g. selective catalysts

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書画像検索装置及びプログラムに関し、より詳細には、予め登録されている文書画像データから、検索文書データに該当する文書画像データを検索する文書画像検索装置と、該装置の機能を実現するプログラムとに関する。
予め登録されている検索対象の文書画像データから、検索元となる検索文書データに該当する文書画像データを検索する文書画像検索装置が知られている。
このような文書画像検索装置において、従来では、例えばスキャナから読み込んだ文書画像データを検索対象として登録する際に、文書画像データから文字認識により抽出したテキストをインデックスとして作成して登録している。そして登録した文書画像データを検索する際に、まずインデックスを参照して、検索文書データと同一のテキストがあるかどうかを検索していた。
このように検索対象の文書画像データのインデックスを生成して登録しておく技術として、例えば特許文献1の全文検索装置がある。
特許文献1の全文検索装置は、高速かつ高精度な全文検索を実現するため、インデックスを参照してキーワードと一致する認識候補文字の文書を検索する一方、文字画像の形状とキーワードを構成する文字の形状特徴を照合して、検索条件に合致する文書を検索するようにしている。
特開2001−175661号公報
しかしながら、上記特許文献1の検索装置では、文字認識による検索を行っているため、文字認識の処理負荷が大きい。すなわち、文書画像をOCR(Optical Character Recognition)により文字認識して検索用のインデックスとして登録する処理を行っているために、インデックス生成に時間がかかり、検索処理負担が大きくなるという問題が生じる。
本発明は、上述のごとき実情に鑑みてなされたもので、文書画像検索用のインデックス生成時間を短縮し、検索処理負担を大きく削減することができるようにした文書画像検索装置及び該装置の機能を実現するプログラムを提供することを目的とするものである。
上記課題を解決するために、本発明の第1の技術手段は、検索対象として保持するための文書画像データ、及び文書画像データを検索する検索元となる検索文書データを入力する入力部と、入力部が入力した文書画像データ、または検索文書データから句読点を認識し、句読点間の文字数を計測する文字数計測部と、文字数計測部によって計測された文書画像データの文字数をインデックスとして登録する登録部と、文字数計測部によって計測された検索文書データの各句読点間の文字数と同一の文字数を持つインデックスを検索する検索部と、を備えることを特徴としたものである。
第2の技術手段は、第1の技術手段において、文字数計測部が、句読点間の文字数の他に文字サイズを計測し、登録部は、文字数に加えて文字サイズを含めてインデックスとして登録することを特徴としたものである。
第3の技術手段は、第1または第2の技術手段において、文字数計測部が、検索文書データにおいて、文書の行の最終位置ではない場所で句読点がなく改行されている部分があった場合、改行点も句読点とみなして文字数の計測を行うことを特徴としたものである。
第4の技術手段は、第1ないし第3のいずれかの技術手段において、文書画像データ及び検索文書データの文書から、頁単位または一頁内に含まれる複数の領域単位からなるテキスト領域を抽出する領域抽出部を備え、文字数計測部は、領域抽出部により抽出されたテキスト領域毎に句読点間の文字数を計測し、登録部は、テキスト領域の位置情報と対応付けて文書画像の文字数をインデックスとして登録することを特徴としたものである。
第5の技術手段は、第4の技術手段において、文字数計測部が、連続する一つの文章が複数のテキスト領域に分かれている場合には、連続した一つの文章を含む複数のテキスト領域を統合し、統合したテキスト領域を一つの検索単位として文字数計測を行なうことを特徴としたものである。
第6の技術手段は、第1ないし第5のいずれかの技術手段において、検索部が、文字数計測部によって計測された検索文書データの文字数の配列のうち、少なくとも部分的に一致する文字数の配列を持つインデックスを検索することを特徴としたものである。
第7の技術手段は、第1ないし第6のいずれかの技術手段において、登録部が、文字数をインデックスとして登録する際に、文書画像の文書に含まれる句点及び/または読点に重み付けをして登録し、検索部は、検索文書から抽出された句読点間の文字数に加えて、句点及び/または読点の重み付けを用いて検索を行うことを特徴としたものである。
第8の技術手段は、第7の技術手段において、登録部が、文書の行の最終位置ではない場所で改行されている部分があった場合、改行されている点を改行点として重み付けして登録し、検索部は、句点、読点の重み付けに加えて、改行点の重み付けを用いて検索を行うことを特徴としたものである。
第9の技術手段は、第1ないし第8のいずれかの技術手段である文書画像検索装置の機能を実現する文書画像検索プログラムである。
本発明によれば、句読点間の文字数を計測してインデックスとして登録し、検索文書データと同一の文字数を持つインデックスを検索することにより、文字認識処理を行うよりもインデックスの生成時間を短縮し、検索処理負担を大きく削減することができるようになる。
すなわち本発明によれば、句読点間の文字数を計測してインデックスとして登録するため、OCRによる文字認識処理よりも短時間にインデックスを生成することができ、検索元の検索文書データと同一の文字数を持つインデックスを検索することにより、検索時間が短縮され、結果的に検索処理負担を大きく削減することができる。
また本発明によれば、句読点間の文字数に加えて文字サイズも検索条件に含めることにより、文字数のみの検索よりも精度の高い検索を行なうことができるようになる。
さらに本発明によれば、検索対象の文書画像データから抽出したテキスト領域で検索することにより、効率良く文書画像データの検索を行うことができるようになる。
さらに本発明によれば、連続する一つの文章が複数のテキスト領域に分かれている場合には、その連続した一つの文章を含む複数のテキスト領域を統合し、同一の計測対象領域として文字数計測を行なうことにより、例えば改変された文書を元に検索を行うような場合や、電子化された文書を元に検索を行うような場合に精度よく検索することができる。
さらに本発明によれば、計測された検索文書の文字数の配列に少なくとも部分的に一致する文字数の配列を持つインデックスを検索することにより、バージョンアップ等により文書の一部の追加や削除が行われていても効率よく検索することができる。
さらに本発明によれば、句点や読点、改行などの夫々に重み付けをすることにより、検索精度を高めることができる。
図1は、本発明による文書画像検索装置の位置実施形態を説明するためのブロック図である。
本実施形態の文書検索装置は、画像データをファイルして文書画像検索を行うサーバとして機能する画像ファイリングサーバ10により実現される。画像ファイリングサーバ10にはスキャナ20が接続される。
スキャナ20は、文書画像を読み取るスキャン部21と、スキャナ各部を制御する制御部22と、画像ファイリングサーバ10と通信を行うための通信I/F23とを備えている。そしてスキャン部21で読み取った文書画像データを通信I/F23から画像ファイリングサーバ10に送信する。
画像ファイリングサーバ10は、スキャナ20と通信するための通信I/F14と、スキャナ20で読み取られた文書画像データや、文書画像データの検索に使用するインデックスを記憶する記憶部12と、検索結果などの各種情報を表示するとともに、タッチパネルなどによりユーザの操作入力を可能とした表示・入力部13と、画像ファイリングサーバ10の各要素全体を制御する制御部11とを備えている。また通信I/F14は、図示しないPCなどの外部機器との通信も可能に構成される。そして制御部11は、スキャナ20で読み取られた文書画像データを通信I/F14から受信すると、その文書画像データを記憶部12に登録する。
制御部11は、本発明の機能を実現するプログラムを図示しないROMやHDDなどのメモリから読み出し、RAMなどのワーキングエリアを使用してそのプログラムを実行する。これにより、本発明に関わる文字数計測部、領域抽出部、検索部などの機能が実現される。また制御部11の制御によって、文章画像データやインデックスを記憶部12に記憶させることにより本発明の登録部の機能が実現される。
そしてこれらの機能によって制御部11では、受信した文章画像データについてインデックス作成を行うインデックス作成処理11bを実行可能である。
インデックス作成処理11bでは、まずスキャナ20から送信された文書画像データのテキスト領域を抽出する。ここでは、文書画像データに含まれるテキスト領域を判別し、その領域を切り出して抽出する。テキスト領域は、頁単位または一頁内に含まれる領域単位からなる。
そして抽出したテキスト領域を、文書の句読点単位に分割する。ここでは、テキスト領域に含まれる文書データから句読点を判別し、句読点と句読点との間の単位に分割する処理を行う。この場合、文書の各行の最終位置ではない場所で句読点がなく改行されている場合にも、その改行位置に句読点があるものとみなすようにしてもよい。
そして分割した単位ごとに文書の文字数を計測し、計測した文字数をインデックスとして記憶部12に登録する。ここで記憶部12には、文書画像データとインデックスとを対応付けて登録する。
上記のテキスト領域を抽出する場合、テキスト領域の位置をユーザが手動で設定してもよく、また制御部11で自動抽出を行うようにしてもよい。自動抽出の場合、行列方向の特定の画像パターンからテキストが記載されている領域であることを判別することができる。あるいは、階調表現されている領域を写真やグラフィックの描画領域であると判別してテキスト領域から除く処理を行なったり、また線分や曲線などを画像から認識することで図形描画領域であると判別してテキスト領域から除く処理を行ったりしてもよい。
そして文書画像データの検索に際しては、検索元となる検索画像データに該当する文書画像データを記憶部12から検索する処理を行う。
この場合、画像ファイリングサーバ10では、検索元の検索画像データをスキャナ20や図示しないPC等の外部機器もしくは記録媒体などから受け取ると、その検索画像データの句読点間の文字数を計測し(11c)、計測した文字数に対応するインデックスを検出し(11d)、検出したインデックスに対応する文書画像データを記憶部12から抽出する(11e)。抽出した文書画像データの情報は、表示制御機能11aによって表示部・入力部13に表示される。
またこのときに、抽出した文書画像データが複数あれば、これらの全てを抽出して、その情報を表示・入力部13に表示し、さらにユーザ操作指示やデフォルトの条件設定に従って、抽出した文書画像データにOCR処理を行ってテキストデータによる詳細な検索を行なう。
図2は、本発明の実施形態である画像ファイリングサーバに対して、利用者が文書画像データを登録するときのイメージを示す図である。
本例では、スキャナ20は、複写機能を持った複合機30に組み込まれているものとする。複合機30はネットワークに接続することにより、ネットワーク上の画像ファイリングサーバ10にアクセスすることができる。
利用者は、複合機30のスキャナ機能を利用して、画像ファイリングサーバ10に登録しておきたい文書を読み込ませる。複合機30は、スキャナ機能により読み込んだ文書画像データをネットワークを介して画像ファイリングサーバ10に送信し、画像ファイリングサーバ10に登録する。また利用者は、ネットワーク上に接続されたネットワークスキャナ装置や、PCなどの情報処理装置から文書画像データを画像ファイリングサーバ10送信することができる。この場合必要に応じて利用者の認証処理などを行う。そして画像ファイリングサーバ10では利用者から送信された文書画像データを蓄積し、記憶保持しておく。
図3は、本発明における文書画像データのテキスト処理について説明するための図である。
画像ファイリングサーバ10では、外部のスキャナ(もしくはスキャナが組み込まれた複写機や複合機など)20から、画像ファイリングサーバ10に登録すべき文書画像データが送信された際に、送信された文書画像データを自身の記憶部12に登録して記憶保持するともに、登録する文書画像データのテキスト処理を行う。
テキスト処理において、画像ファイリングサーバ10の制御部11は、まず文書画像データ内のテキスト領域を切り出して抽出する。図3(A)は、文書画像データのテキスト領域の一例を示す図である。
そして抽出したテキスト領域の文書を、句読点間の単位に分割する(図3(B))。上記のように、ここでは文書の行の最終位置ではない場所で句読点がなく改行されている部分があった場合、その改行点も句読点とみなすように設定してもよい。
そして分割単位ごとにテキストの文字数を計測する。図3(C)は計測した文字数を示す図で、句点、読点、及び改行点(行の最終位置でなく句読点のない改行点)の間の文字数が計測されている。そして図3(D)に示すように、画像ファイリングサーバ10の記憶部12には、計測した文字数をインデックスにして、文書画像データに対応付けて登録する。
上記のテキスト処理においては、分割単位内の文字数計測のみならず、本発明の実施形態に応じて、文字サイズ、縦書き/横書きなどの文章方向、複数のテキスト領域に分かれた文章を考慮した文章ブロック、句読点や改行を重み付けした情報などが計測され、文字数情報に加えて登録される。
上記のようなテキスト処理により、文書画像データと、その文書画像データに対応付けられたインデックスとが画像ファイリングサーバ10に蓄積される。
そして蓄積された文書画像データを実際に利用者が検索する場合、利用者は、スキャナや外部PCなどを用いて、検索元となる検索文書データを画像ファイリングサーバ10に入力する。検索文書データは、スキャナ20などから読み込んだ画像データを用いることができるが、ワードプロセッサなどにより作成されたテキストデータやアプリケーション対応のバイナリデータなどであってもよい。
画像ファイリングサーバ10では、入力された検索文書データに対して、上記の登録する文書画像データと同様のテキスト処理を実行する。
そしてそのテキスト処理により得られた分割単位ごとの文字数の配列に対して、同じ配列を持つ文書画像データを検索する。また同一の文字数の配列の他、部分的に一致する配列をもつ文書画像データを、類似する文書画像データとして検索できるようにしてもよい。
また検索には、上記文字数の配列に加えて、文字サイズ、縦書き/横書きなどの文章方向、複数のテキスト領域に分かれた文章を考慮した文章ブロック、句読点や改行を重み付けした情報などが適宜使用される。
そして検索した結果、上記のような所定の検索条件に該当する文書画像データが抽出できたならば、その文書画像データを表示し、検索に失敗した場合にはその旨を表示する。また複数の文章画像データが抽出された場合、さらにOCR処理などを行って検索対象を確定することができる。
図4及び図5は、一頁内に複数のテキスト領域がある文書画像データの例を示す図である。ここでは、例えば図4(A)に示すような文書画像データ100を登録する場合を考える。
このような文章画像データ100に対して上記のようなテキスト処理を行って、テキスト領域の抽出を行うことにより、図4(B)に示すような複数(ここでは6つ)のテキスト領域R1〜R6が抽出されたものとする。
そしてテキスト処理においては、抽出された各テキスト領域R1〜R6に対して、上記の文字数計測等を実施する。図4(B)は、各テキスト領域R1〜R6の文字数の計測結果を示している。
また本例においても、上記の例と同様に、各テキスト領域R1〜R6に対して、上記文字数の配列に加えて、文字サイズ、縦書き/横書きなどの文章方向、複数のテキスト領域に分かれた文章を考慮した文章ブロック、句読点や改行を重み付けした情報などが適宜計測される。
テキスト処理において計測された計測情報は、画像ファイリングサーバ10の記憶部12にインデックスとして記憶されるが、このときに計測情報は、テキスト領域R1〜R6の頁内の位置情報と紐付けした状態で記憶される。
図5は、各テキスト領域の位置情報を示す図で、頁内の各テキスト領域R1〜R6の4つの頂点の座標情報により位置情報を表している。座標情報は、例えばビットマップの画素位置を示す情報であってもよく、あるいは任意に定めた座標系の位置情報であってもよい。
そして利用者が文書画像データを検索する際に、上記と同様に検索元の検索画像データをテキスト処理させることにより、検索画像データのテキスト領域とその位置情報を取得する。ここでは、検索画像データのテキスト領域と同じ位置にある文書画像データのテキスト領域について、計測文字数の配列を比較し、計測文字数の配列が一致する文書画像データを抽出して表示する。この場合、複数のテキスト領域のうち、一つの領域について計測文字数の配列を比較して判断してもよく、あるいは全てまたは複数のテキスト領域の計測文字数を用いてその配列を比較するようにしてもよい。
図6は、文書画像データの検索処理例を説明するための図で、テキスト領域の計測文字数及び文字サイズを用いてインデックスを検索するときの処理について示すものである。
検索元の検索文書データを用いて、検索対象の文書画像データを検索する際に、検索条件として上記のようにテキスト領域内の計測文字数を用いて検索を行うが、これに加えて、テキスト領域内の文書の文字サイズを用いることができる。
例えば図6(A)に示すように、一つのテキスト領域R内において文字サイズが異なる文書が混在しているものとする。
そしてこの場合に、画像ファイリングサーバ10がテキスト領域Rに対してテキスト処理を行う際に、句読点間の計測文字数に加えて、文字サイズを関連付けてインデックスにして記憶しておく(図6(B))。文字サイズは、所定のパラメータに応じて生成されたサイズ情報である。
記憶した文書画像データの検索を行う際には、テキスト領域Rの計測文字数とともに、文字サイズも比較することにより、検索精度を向上させることができる。
また例えば、文書情報データを検索する際に、文字サイズを用いて検索対象を絞り込み、さらに計測文字数を用いて検索することで検索効率を向上させることができる。例えば、文字サイズが1.5以上である見出し文章という条件で検索を行って、該当する文書画像データが複数あればさらに計測文字数による検索を行う、などの方法で検索することができる。見出し文章は、例えば、文章の初頭にあって文字サイズが他の文字よりも大きい文字列、あるいは文字が太字である文字列などの条件により判別することができる。
図7は、文書画像の検索処理の他の例を説明するための図で、テキスト領域の計測文字数及び文章方向情報を用いてインデックスを検索するときの処理について示すものである。
検索元の検索文書データを用いて、検索対象の文書画像データを検索する際に、検索条件としてテキスト領域内の計測文字数に加えて、テキスト領域内の文章方向(縦書き/横書きなど)を用いることができる。
例えば図7(A)に示すように、文書画像データ100において、文章方向が異なる文書が記載されたテキスト領域R1、R2が混在しているものとする。
ここで画像ファイリングサーバがテキスト処理を行う際に、句読点間の計測文字数に加えて、文章方向(縦書き/横書きなど)を関連付けてインデックスにして記憶しておく(図7(B))。
文章方向(縦書き/横書き)は、縦書きと横書きとによって異なる画像データのパターンから判別することができる。あるいは、文書の一部分にOCRを施し、得られた文字データに対して形態素解析を行って、意味のある文字列が抽出できた方向を文章方向として決定するようにしてもよい。
そして記憶した文書画像データの検索を行う際には、テキスト領域の計測文字数とともに、文章方向も比較することにより、検索精度を向上させることができる。
例えば、文書画像データを検索する際に、文章方向を用いて検索対象を絞り込み、さらに計測文字数を用いて検索することで検索効率を向上させることができる。
図8及び図9は、文書画像データの検索処理のさらに他の例を説明するための図で、テキスト領域の計測文字数及び検索単位情報を用いてインデックスを検索するときの処理を示すものである。
検索元の検索文書データを用いて、検索対象の文書画像データを検索する際に、検索条件としてテキスト領域内の計測文字数に加えて、テキスト領域として認識する検索単位(文章ブロック)を用いるようにしてもよい。
例えば図8に示すように、一つの文章が二つのテキスト領域R1,R2に分かれて記載されているものとする。ここでは、最初の頁の最後部から次の頁の最初に文章が続いている。この場合、上記のテキスト処理においては頁毎にテキスト領域が抽出されるため、一つの文章が異なるテキスト領域R1,R2に分かれてしまう。
本実施形態では、画像ファイリングサーバ10の制御部11は、抽出したテキスト領域R1,R2ごとに、そのテキストの最終位置に句読点があるかどうかを判別する。
例えば、テキスト領域R1の最終位置を確認し、最終位置に句読点がなければ、テキスト領域R1の文章が次のテキスト領域R2に続いているものと判断する。そしてこれらのテキスト領域R1,R2を統合したものを文章ブロックとみなす処理を行う。文章ブロックが一つの検索単位となる。
そしてこのような場合、画像ファイリングサーバがテキスト処理を行う際に、句読点間の文字数情報に加えて、検索単位となる文章ブロックの情報を関連付けてインデックスにして記憶しておく(図9)。
図9の例では、テキスト処理により切り出した通常のテキスト領域を示す検索単位として、“文書”を設定し、複数のテキスト領域を統合して文章ブロックとした検索単位を“文章ブロック”として設定している。
文書画像データの検索を行う際に、例えば文書画像データに対して全く文書が改変されていない検索文書データを用いる場合には、上記のような頁単位のテキスト領域で検索が可能であるが、改変された検索文書データで検索を行うような場合には、ブロック単位を用いた検索が有効となる。あるいは電子化されたテキストデータなどの検索文書データで検索を行うような場合には、テキスト領域の抽出ができないため、ブロック単位にて検索することで対応することができる。
また、文書画像データの計測文字数をインデックスにして登録しておく際に、検索単位を“文書”単位のみで登録しておき、実際に文書検索を行う際に検索対象のテキスト領域の最終位置に句読点がない場合、次のテキスト領域とによるブロック化処理を行うことで、検索対象を文章ブロックにして検索を行うようにすることもできる。
なお上記の例では二つのテキスト領域を統合して文章ブロックとしているが、文章ブロックは、三つ以上のテキスト領域を統合したものであってもよい。
図10〜図12は、文書画像データの検索処理のさらに他の例を説明するための図で、句読点や改行に対して重み付けして文書画像データを登録し、これらの重み付けを用いて検索できるようにした処理例を示すものである。
ここでは例えば図10(A)に示すようなテキスト領域Rを含む文書画像データがあるものとする。この文書画像データに対してテキスト処理を行って、抽出したテキスト領域Rの文字数を計測した結果は、図10(B)のようになる。
図11は、テキスト領域の計測文字数をグラフにして表した図で、図11(A)は、上記図10に示すような文書画像データから計測した句読点間の文字数を順にプロットしたグラフである。このプロット波形を文字数情報波形と呼ぶものとする。
図11(A)の文字数情報波形は、計測した句読点間の計測文字数を単にプロットしたもので、ここでは、テキスト領域Rに含まれる句点、読点、改行を全て同等に扱ったものと解される。
これに対して図11(B)では、文単位の情報を持たせるために、句点の文字数を“0”とみなして重み付けをした文字数波形情報を示している。句点は文章の特徴となるため、重み付けをして検索用情報として登録しておくことにより、検索の精度を高めることができる。
つまり本例では、検索対象として登録する文書画像データに対してテキスト処理を行う際に、テキスト領域の抽出と、テキスト領域ごとの文字数計測とを行ない、このときに句点の文字数を0として重み付けし、その情報を計測文字数とともにインデックスにして登録しておく。
そして文書画像データを検索する際に、検索元となる検索文書データに対して同様にテキスト処理を行って、テキスト領域ごとの文字数を計測し、同様に句点に重み付けを行なう。そしてこれら計測文字数と句点の重み付け情報とを用いて、検索対象の文書画像データの検索を実行する。
図12は、上記の句点の重み付けに加えて、節単位の情報を持たせるため、改行がある場所については、改行の文字数を“0”が2つ続くものとして重み付けし、その情報を計測文字数とともに登録する。ここでは、句点の後に改行がある場合には、句点の重み付けを省いて単に“0”が2つ続くように重み付けをする。このとき行の最後の位置でない部分でテキストが終了し、次の行に改行されているときに“改行”であるものと判断する。
この場合には、改行と句点とを重み付けしているため、検索精度をさらに高めることができる。またさらには、上記の句点の重み付けに加えて、もしくは句点と改行点の重み付けに加えて、読点に対して重み付けを行って検索できるようにしてもよい。
ただし、検索元の検索文書データとして、電子化されたテキストデータなどの文書データを用いた場合や、検索対象の文書画像データのレイアウト変更や編集などにより文書が改変されている場合などでは、逆に句点や改行点に重み付けを付与することなく同等に扱った方が検索精度が高い場合ある。従って検索するときに任意に検索方法を切り替えることができるようにするとよい。
図13及び図14は、検索文書データに類似する文書画像データを検索する処理例を説明するための図である。
ここでは図11の例と同様に、検索対象の文書画像データのテキスト処理により、図13(A)に示すような文字数情報波形が得られたものとする。
このような文字数情報波形を持つ文書画像データを検索対象とする場合、検索元となる検索文書データが、検索対象の文書画像データから全く改変されていなければ、文字数情報波形は同じ形になる。従って検索時には、文字数情報波形の一部に該当する短い計測文字数だけで、検索を行なうことができる。
ここでは図13(B)に示すように、全く改変されていない検索文書データで検索を行なう場合には、検索を行なう際に文字数情報波形の一部(例えば点線内のブロックD)の計測文字数を用いるだけでよい。改変が行なわれていないため、検索文書データと、検索対象の文書画像データとは必ず一致するからである。
しかしながら、検索元となる検索文書データが、検索対象の文書画像データから改変されている場合、これらの間で文字数が変化している可能性が高い。その場合、計測文字数の部分的な違いにとらわれることなく、文書全体の類似性を比較する必要がある。従ってこの場合には、比較的長い計測文字数の配列情報を使用して検索する必要がある。
例えば図14に示すように、テキスト領域全体の文字数情報波形のうち、ブロックE,Fは改変されていない部分で、ブロックGが改変されている部分であるものとする。このような場合、検索を行なう計測文字数としては、ブロックE〜G〜Fにいたる領域の波形に該当する計測文字数の配列を用いる。
このときに、ブロックGの計測文字数の配列だけは、対象の文章画像データの計測文字数の配列と一致しないが、少なくとも一部分の計測文字数(ここではブロックE,F)の配列が一致していれば、全体が類似しているものと判断し、検索対象の文書画像データとして抽出する。
図15は、本発明による文書画像検索装置におけるインデックスの作成処理の一例を説明するためのフローチャートである。
まず文書検索装置では、スキャナから文書画像データを受信する(ステップS1)。そしてスキャナから受信した文書画像データのテキスト領域を抽出する(ステップS2)。ここでは、例えば文書画像データの一頁を一つのテキスト領域とし、もしくは一頁内に複数のテキスト領域があれば、その複数の領域毎に切り出して抽出する。
そして抽出したテキスト領域が複数あるかどうかを判別し(ステップS3)、複数のテキスト領域がなければ、そのテキスト領域の文字数計測を行う(ステップS4)。文字数計測では、対象のテキスト領域の文書の句読点間の文字数を計測する処理を行う。そして計測した句読点間の文字数をインデックスとして登録する(ステップS5)。
ここでは、また文字数計測処理の実施形態に応じて、句読点間の文字数とともに、文字サイズ、縦書き/横書きなどの文章方向、複数のテキスト領域に分かれた文章を考慮した文章ブロック、句読点や改行を重み付けした情報などを計測し、計測文字数に加えて登録する。
また上記ステップS3で、テキスト領域が複数あると判別された場合には、最初のテキスト領域を選択し(ステップS6)、選択したテキスト領域の文字数計測処理を行う(ステップS7)。この処理は上記ステップS4の計測処理と同様である。
そして選択したテキスト領域の文字計測処理が終了すると、さらに計測してない他のテキスト領域があるかどうかを判別し(ステップS8)、計測していないテキスト領域があれば、そのテキスト領域を次のテキスト領域として選択し(ステップS10)、ステップS7の文字数計測処理に進む。
またステップS8で計測していない他のテキスト領域がなければ、全てのテキスト領域の文字数計測処理が終了しているため、各テキスト領域の位置情報と、各テキスト領域の句読点間の文字数をインデックスとして登録する(ステップS9)。この場合にもステップS5と同様に、実施形態に応じて文字サイズ、縦書き/横書きなどの文章方向(文章の文字列の進行方向)、複数のテキスト領域に別れた文章を考慮した文章ブロック、句読点や改行を重み付けした情報などを計測文字数に加えて登録する。
図16は、テキスト領域の文字数計測処理の一例を説明するためのフローチャートである。本例では、テキスト領域の文書の縦書き/横書きの判定と、句読点間の分割単位の文字数計測及び文字のサイズ計測処理を含む処理例を説明する。
まず、対象のテキスト領域の文書が縦書きになっているか横書きになっているかを判定する(ステップS11)。ここでは、上述のように文書画像のパターンから縦書きか横書きかを判定してもよく、あるいは文書画像データの一部をOCR処理した後形態素解析を行って、縦書きか横書きかを判定するようにしてもよい。
そしてテキスト領域内の文書を句読点単位に分割し(ステップS12)、句読点間の分割単位の文字数を計測する(ステップS13)。この場合にも改行点を分割点に含めて処理してもよい。
さらにテキスト領域内において、文書の文字サイズが一定かどうかを判別する(ステップS14)。文字サイズが一定であれば、文字数計測処理を終了し、文字サイズが一定でなければ、分割単位毎に文字サイズを計測して(ステップS15)、処理を終了する。
なお本例では、文字サイズを計測する例を示しているが、上述のように文字サイズを計測しない処理であってもよい。
図17は、一つの文章が複数のテキスト領域に別れて記載されているときの分割処理例を説明するためのフローチャートである。
まずテキスト領域の文書画像データに対して、判定した文章の方向(縦書き/横書き)に従って句読点単位に分割する処理を開始する(ステップS21)。そしてテキスト領域の文書の最終位置が句点であるかどうかを判別する(ステップS22)。
最終位置が句点でなければ、さらに同一頁内に文字数計測処理を行っていないテキスト領域があるかどうかを判別する(ステップS23)。そして同一頁内に文字数計測処理を行っていないテキスト領域があれば、上記の最終位置が句読点ではないテキスト領域と、次のテキスト領域とを同一のテキスト領域に統合して文章ブロックとし、この文章ブロックの文書画像データを句読点単位に分割する(ステップS24)。
一方上記ステップS22で、テキスト領域の最終位置が句読点である場合は本分割処理を終了する。またステップS23で同一頁内に文字数計測処理を行っていないテキスト領域がなければ、上記の最終位置が句読点ではないテキスト領域と、次の頁の文書画像データのテキスト領域とを同一のテキスト領域に統合して文章ブロックとし、この文章ブロックの文書画像データを句読点単位に分割する(ステップS25)。この場合、次の頁に複数のテキスト領域があれば、最初のテキスト領域を使用して文章ブロックを設定する。
図18は、本発明による文書検索装置における文書検索処理の一例を説明するためのフローチャートである。
文書画像データを検索する際に、まず検索元となる検索文書データを入力する(ステップS31)。文書検索装置では、入力された検索文書データのテキスト領域を抽出する処理を行う(ステップS32)。そして抽出したテキスト領域が複数あるかどうかを判別し(ステップS33)、テキスト領域が複数なければ、そのテキスト領域の検索文章データの文字数計測処理を行う(ステップS34)。
文字数計測処理は、前述のように句読点間の文字数を計測する処理であり、さらに実施形態に応じて文字サイズ、縦書き/横書きなどの文章方向、複数のテキスト領域に分かれた文章を考慮した文章ブロック、句読点や改行を重み付けした情報などの計測処理が行われる。
そして文字数計測処理による計測結果を用いて、予め登録してあるインデックスから検索する処理を行う(ステップS35)。
検索の結果、抽出された文書画像データが複数あるかどうかを判別し(ステップS36)、抽出された文書画像データが一つであれは、その抽出された文章画像データを検索結果として表示する(ステップS42)。また抽出された文書画像データが複数あれば、抽出された全ての文書画像データをOCR処理し、検索文書データに対応する文書画像データを選択して検索結果として表示する(ステップS37)。
一方、上記ステップS33において、切り出したテキスト領域が複数あれば、まず最初のテキスト領域を選択し(ステップS38)、その選択したテキスト領域の文字数計測処理を行う(ステップS39)。この場合もステップS34の文字数計測処理と同様の処理を行う。
そして選択したテキスト領域に対する文字数計測処理が終了すると、さらに他の計測していないテキスト領域があるかどうかを判別する(ステップS40)。ここで計測していない他のテキスト領域があれば、計測していない次のテキスト領域を選択し(ステップS41)、選択したテキスト領域について文字数計測処理を実行する(ステップS39)。
一方ステップS40で、計測してない他のテキスト領域がなければ、全てのテキスト領域の文字数計測処理が終了しているため、文字数計測処理による計測結果を用いて、予め登録してあるインデックスから検索する処理を行う(ステップS35)。
なおここでは検索文書データにおける複数のテキスト領域のうち、一つのテキスト領域のみで文字数計測処理を行って、その結果を用いてインデックス検索を行うようにしてもよい。
図19は、検索処理におけるインデックスからの検索処理例をさらに説明するためのフローチャートである。
インデックスからの検索処理においては、まず同一の文書を検索するように指定されているかどうかを判別する(ステップS51)。ここでは例えば、編集などにより一部改変された文章画像データを検索対象とすることなく、完全に同一の文章画像データのみを検索して抽出するモードと、テキスト領域内の一部が同一で類似している文章画像データを抽出するモードとが選択可能である場合に、いずれかのモードが指定されているかどうかを判断する。類似している文書画像データを検索するモードでは、元の文書にバージョンアップを加えたり編集を施して改変した文書画像データを検索することができる。
そして同一の文書画像データを抽出するように指定されている場合、検索文書データのテキスト領域の計測文字数を持つインデックスを検索する(ステップS52)。また同一の文書画像データではなく、類似する文書画像データを抽出するように指定されている場合には、検索文書データに類似する計測文字数を持つインデックスを検索する(ステップS54)。ここでは、句読点間の計測文字数の配列が、テキスト領域の少なくとも一部分で一致する場合に、類似しているものと判断することができる。
また上記ステップS52のインデックス検索処理では、計測文字数による検索のみならず、実施形態に応じて、文字サイズ、縦書き/横書きなどの文章方向(文章の文字列の進行方向)、複数のテキスト領域に別れた文章を考慮した文章ブロック、句読点や改行を重み付けした情報などを用いることができる。
そして、ステップS52またはステップS54でインデックスが検出されたならば、検出されたインデックスに対応して登録されている文書画像データを抽出する(ステップS53)。
本発明によるプログラムは、上記文書画像検索装置の機能を実現するためのプログラムである。プログラムは、文書画像検索装置が備えるROMやHDDなどのメモリに記憶され、CPUなどの制御手段がプログラムを読み出して実行することにより、上記各実施形態で説明した文書画像検索装置の各機能を実現することができる。またメモリに記録したプログラムを実行することにより上述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、オペレーティングシステムあるいは他のアプリケーションプログラム等と共同して処理することにより、本発明の機能が実現される場合もある。
プログラムは記録媒体に記録して流通させることができる。記録媒体としては、半導体媒体(例えば、ROM、不揮発性メモリカード等)、光記録媒体(例えば、DVD,MO,MD,CD,BD等)、磁気記録媒体(例えば、磁気テープ,フレキシブルディスク等)等が適用できる。また市場に流通させる場合には、インターネット等のネットワークを介して接続されたサーバコンピュータに保持し、これを文書画像検索装置に転送させることができる。
本発明による文書画像検索装置の位置実施形態を説明するためのブロック図である。 本発明の実施形態である画像ファイリングサーバに対して、利用者が文書画像データを登録するときのイメージを示す図である。 本発明における文書画像データのテキスト処理について説明するための図である。 一頁内に複数のテキスト領域がある文書画像データの例を示す図である。 一頁内に複数のテキスト領域がある文書画像データの例を示す他の図である。 文書画像データの検索処理例を説明するための図である。 文書画像の検索処理の他の例を説明するための図である。 文書画像データの検索処理のさらに他の例を説明するための図である。 文書画像データの検索処理のさらに他の例を説明するための他の図である。 文書画像データの検索処理のさらに他の例を説明するための図である。 文書画像データの検索処理のさらに他の例を説明するための他の図である。 文書画像データの検索処理のさらに他の例を説明するための他の図である。 検索文書データに類似する文書画像データを検索する処理例を説明するための図である。 検索文書データに類似する文書画像データを検索する処理例を説明するための他の図である。 本発明による文書画像検索装置におけるインデックスの作成処理の一例を説明するためのフローチャートである。 テキスト領域の文字数計測処理の一例を説明するためのフローチャートである。 一つの文章が複数のテキスト領域に別れて記載されているときの分割処理例を説明するためのフローチャートである。 本発明による文書検索装置における文書検索処理の一例を説明するためのフローチャートである。 検索処理におけるインデックスからの検索処理例をさらに説明するためのフローチャートである。
符号の説明
R1〜R6…テキスト領域、10…画像ファイリングサーバ、11…制御部、12…記憶部、13…表示・入力部、14,23…通信I/F、20…スキャナ、21…スキャン部、22…制御部、30…複合機、100…文章画像データ。

Claims (9)

  1. 検索対象として保持するための文書画像データ、及び該文書画像データを検索する検索元となる検索文書データを入力する入力部と、
    該入力部が入力した前記文書画像データ、または前記検索文書データから句読点を認識し、句読点間の文字数を計測する文字数計測部と、
    該文字数計測部によって計測された前記文書画像データの文字数をインデックスとして登録する登録部と、
    前記文字数計測部によって計測された前記検索文書データの各句読点間の文字数と同一の文字数を持つインデックスを検索する検索部と、を備えることを特徴とする文書画像検索装置。
  2. 前記文字数計測部は、句読点間の文字数の他に文字サイズを計測し、前記登録部は、前記文字数に加えて前記文字サイズを含めて前記インデックスとして登録することを特徴とする請求項1に記載の文書画像検索装置。
  3. 前記文字数計測部は、前記検索文書データにおいて、文書の行の最終位置ではない場所で句読点がなく改行されている部分があった場合、該改行点も句読点とみなして前記文字数の計測を行うことを特徴とする請求項1または2に記載の文書画像検索装置。
  4. 前記文書画像データ及び前記検索文書データの文書から、頁単位または一頁内に含まれる複数の領域単位からなるテキスト領域を抽出する領域抽出部を備え、
    前記文字数計測部は、前記領域抽出部により抽出されたテキスト領域毎に前記句読点間の文字数を計測し、
    前記登録部は、前記テキスト領域の位置情報と対応付けて前記文書画像の文字数をインデックスとして登録することを特徴とする請求項1ないし3のいずれか1に記載の文書画像検索装置。
  5. 前記文字数計測部は、連続する一つの文章が複数のテキスト領域に分かれている場合には、該連続した一つの文章を含む複数のテキスト領域を統合し、統合したテキスト領域を一つの検索単位として文字数計測を行なうことを特徴とする請求項4に記載の文書画像検索装置。
  6. 前記検索部は、前記文字数計測部によって計測された前記検索文書データの文字数の配列のうち、少なくとも部分的に一致する文字数の配列を持つインデックスを検索することを特徴とする請求項1ないし5のいずれか1に記載の文書画像検索装置。
  7. 前記登録部は、前記文字数をインデックスとして登録する際に、前記文書画像の文書に含まれる句点及び/または読点に重み付けをして登録し、
    前記検索部は、検索文書から抽出された前記句読点間の文字数に加えて、前記句点及び/または読点の重み付けを用いて検索を行うことを特徴とする請求項1ないし6のいずれか1に記載の文書画像検索装置。
  8. 前記登録部は、前記文書の行の最終位置ではない場所で改行されている部分があった場合、該改行されている点を改行点として重み付けして登録し、
    前記検索部は、前記句点、読点の重み付けに加えて、前記改行点の重み付けを用いて検索を行うことを特徴とする請求項7に記載の文書画像検索装置。
  9. 請求項1ないし8のいずれか1に記載の文書画像検索装置の機能を実現する文書画像検索プログラム。
JP2006339357A 2006-12-18 2006-12-18 文書画像検索装置及びプログラム Active JP4823049B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006339357A JP4823049B2 (ja) 2006-12-18 2006-12-18 文書画像検索装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006339357A JP4823049B2 (ja) 2006-12-18 2006-12-18 文書画像検索装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2008152502A JP2008152502A (ja) 2008-07-03
JP4823049B2 true JP4823049B2 (ja) 2011-11-24

Family

ID=39654617

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006339357A Active JP4823049B2 (ja) 2006-12-18 2006-12-18 文書画像検索装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4823049B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944091A (zh) * 2009-07-07 2011-01-12 夏普株式会社 图像检索装置
CN104331421A (zh) * 2014-10-14 2015-02-04 安徽四创电子股份有限公司 一种大数据的高效处理方法及***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02158865A (ja) * 1988-12-12 1990-06-19 Canon Inc 文書評価システム
JPH11143907A (ja) * 1997-11-14 1999-05-28 Ricoh Co Ltd ファイルシステムおよび該システムに使用するプログラムを記録した記録媒体
JP2006155439A (ja) * 2004-12-01 2006-06-15 Hitachi Ltd 文書管理装置及びその方法
JP4641414B2 (ja) * 2004-12-07 2011-03-02 キヤノン株式会社 文書画像検索装置、文書画像検索方法、プログラム、記憶媒体

Also Published As

Publication number Publication date
JP2008152502A (ja) 2008-07-03

Similar Documents

Publication Publication Date Title
JP4926004B2 (ja) 文書処理装置、文書処理方法及び文書処理プログラム
JP2004334334A (ja) 文書検索装置、文書検索方法及び記憶媒体
JP4261988B2 (ja) 画像処理装置及び方法
US20140078545A1 (en) Image processing apparatus and program
JP2007041709A (ja) 文書処理システム、文書処理システムの制御方法、文書処理装置、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体
US11146705B2 (en) Character recognition device, method of generating document file, and storage medium
US20210295033A1 (en) Information processing apparatus and non-transitory computer readable medium
JP4823049B2 (ja) 文書画像検索装置及びプログラム
JP2008136021A (ja) 画像処理機器,記事画像選択方法,プログラム,および記録媒体
US10638001B2 (en) Information processing apparatus for performing optical character recognition (OCR) processing on image data and converting image data to document data
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JP6888410B2 (ja) 情報処理装置及び情報処理プログラム
JP2004334341A (ja) 文書検索装置、文書検索方法及び記録媒体
JP4747828B2 (ja) 履歴管理装置
JP4518212B2 (ja) 画像処理装置及びプログラム
JPH0934903A (ja) ファイル検索装置
JP2021140831A (ja) 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム
JP4517822B2 (ja) 画像処理装置及びプログラム
JP2007048061A (ja) 文字処理装置、文字処理方法及び記録媒体
JP2004334340A (ja) 画像処理方法及び装置
JP6303742B2 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
JP7404943B2 (ja) 情報処理装置及び情報処理プログラム
JP7364998B2 (ja) 文書分類システムおよび文書分類プログラム
US20230102476A1 (en) Information processing apparatus, non-transitory computer readable medium storing program, and information processing method
JP2007034923A (ja) 画像処理システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110906

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110906

R150 Certificate of patent or registration of utility model

Ref document number: 4823049

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140916

Year of fee payment: 3