JP4469873B2 - 画像文書の検索装置、プログラム、及び記録媒体 - Google Patents

画像文書の検索装置、プログラム、及び記録媒体 Download PDF

Info

Publication number
JP4469873B2
JP4469873B2 JP2007137163A JP2007137163A JP4469873B2 JP 4469873 B2 JP4469873 B2 JP 4469873B2 JP 2007137163 A JP2007137163 A JP 2007137163A JP 2007137163 A JP2007137163 A JP 2007137163A JP 4469873 B2 JP4469873 B2 JP 4469873B2
Authority
JP
Japan
Prior art keywords
feature
image document
image
unit
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007137163A
Other languages
English (en)
Other versions
JP2008257670A (ja
Inventor
マン チェン
ボウ ウ
ヤドン ウ
チェン シュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of JP2008257670A publication Critical patent/JP2008257670A/ja
Application granted granted Critical
Publication of JP4469873B2 publication Critical patent/JP4469873B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文字と図表を主な内容とする画像である画像文書を、画像の特徴を用いて検索する画像文書の検索装置及び検索方法に関するものである。
文書をイメージスキャナ等の画像入力装置で画像に変換して電子的に蓄積し、後から検索することを可能とする画像ファイリングシステムが実用化されている。文書を画像として読み取った画像の検索には、画像の検索技術を用いることができる。
従来、画像の検索技術としては、画像に付与されたテキストに基づく検索と、画像の視覚的内容に基づく検索とがある。
このうち、画像に付与されたテキストに基づく検索とは、画像に付属する情報として、画像を説明するテキスト情報を作成し、そのテキスト情報をキーワードとして画像を検索するものであり、先行技術としては、例えば特許文献1、2がある。
しかしながら、コンピュータ視覚や人工知能技術は、日々発展を遂げているものの、現在のところ、これらによって、画像に対して自動的にテキストを付与することはできない。そのため、テキストに基づく検索では、人の手によってテキストを付与する必要があり、煩わしい作業が必要になる。
しかも、人の手によるため、人の主観が入る余地があり、付与されるテキストに意味的な相違が生じることがある。また、画像へのテキストの付け方に対してルールも定められていないため、キーワードの解釈にもある程度の差が生じる。これらの結果、検索にて得られた画像が、必ずしもユーザの目的とする画像であるとは限らず、検索の正確率に影響が出る。
さらに、テキストに基づく画像の検索技術では、画像の視覚的特徴(例えば、カラー或いは模様)は一切使用しないので、画像の情報を十分に表すことができているとはいえない。
これに対し、画像の視覚的内容に基づく検索は、画像の特徴に基づいて画像を検索するもので、画像にて画像を検索するので、人手に頼るテキストの入力が必要なく、煩わしい作業は必要なく、人の主観が入る余地もない。
画像の特徴としては、通常、カラー特徴、模様特徴、及び形状特徴の三つの特徴が用いられる。
カラー特徴は、画像の全体属性であり、画像のカラー情報を利用し、画像の表面的性質を現すものであり、先行技術としては、例えば特許文献3、4がある。
模様特徴は、画像の局所構造の特徴を反映し、画像の表面的性質を現すもので、複数の画素点を含んだ区域以内で局部統計計算をする必要がある。先行技術としては、例えば特許文献5、6がある。
形状特徴は、画像の特定区域に対して、まず、画像の分割、区域の識別を行い、それから形状の特徴について抽出するものである。先行技術としては、例えば特許文献7、8がある。
中国特許出願公開第1851713号明細書 「複数の画像文書の画像検索及び表示方法」 中国特許出願公開第1402853号明細書 「画像検索システム及び画像検索方法」 中国特許出願公開第1365067号明細書 「カラーと画像との特徴の組み合せによる画像の検索方法」 中国特許出願公開第1426002号明細書 「照明の変化による影響を受けない画像の検索方法と装置」 中国特許出願公開第1570972号明細書 「画像の模様の特徴に基づく画像の検索方法」 中国特許出願公開第1342300号明細書 「周波数領域中のGaborフィルタによる模様の説明方法と模様に基づく画像の検索方法」 中国特許出願公開第1570969号明細書 「顕著的な興味点に基づく画像の検索方法」 中国特許出願公開第1570973号明細書 「顕著的なエッジによる画像の検索方法」
しかしながら、上記した従来の画像の視覚的内容に基づく検索においては、以下のような問題がある。
画像は、常にノイズを受けており、その影響にて変形や歪みが発生する。模様とカラーを画像の特徴とする検索方法では、変形や歪みが発生すると、理想的な検索効果が得られなくなる。
また、カラーは画像区域の方向やサイズの変化に対して敏感ではないため、カラーの特徴によって局部特徴をうまく捉えることができない。
特に、特許文献4は、照明が画像形成時のカラー情報に与える影響を考慮しており、画像に対して低輝度と自らの輝度を取り除いて、残った画素を標準輝度空間下のカラーに変換するようになっている。しかしながら、低輝度値の確定標準及び確定方法、かつ、自らの輝度の限界値の選択は、画像に対する後段の処理に直接影響を及ぼすので、検索結果に与える影響が大きい。
また、単純に、模様の特徴を利用する検索方法では、高いレベルの画像内容を獲得することができない。しかも、画像の解像度が変化すると、それによって計算して獲得した模様にも大きな偏差が生じることがある。その上、画像が光の照射や反射状況の影響を受けると、偽りの模様が形成され、誤った方向に導くこともある。
一方、画像の形状の特徴に基づいた検索は、輪郭がはっきりしていない画像に対してはあまり効果がない。通常、抽出された形状の特徴が反映する目標形状の情報は、人の直観とは完全に一致していないし、完全な数学モデルを作りにくいので、特徴に対する計算が難しく、多くの計算時間とメモリを要する。また、画像に形状の変化が起こると、正確さも大きく低下する。
特に、特許文献8は、エッジがはっきりした画像に適用されるもので、本願発明が対象としている、文字と図表を主な内容とする画像文書においては、画像の中のエッジを捉えやすい。しかしながら、全画像を現すようなエッジの確定は、困難である。
本発明の目的は、画像文書の検索精度の向上を図り得る画像文書の検索装置及び検索方法を提供することにある。
本発明の画像文書の検索装置は、上記目的を達成するために、文字と図表を主な内容とする画像文書の検索装置であって、頁画像文書の特徴ベクトルを生成する特徴ベクトル生成部と、前記特徴ベクトル生成部を用いて生成された、識別対象の頁画像文書の特徴ベクトルと検索対象に蓄積されている頁画像文書の特徴ベクトルとを比較し、検索対象より識別対象の頁画像文書に対応する頁画像文書を抽出する画像文書識別部とを備え、前記特徴ベクトル生成部は、頁画像文書における文字部分を連結して矩形画像を抽出する矩形画像抽出部と、前記矩形画像抽出部にて抽出された矩形画像の情報を基に、頁の幾何構造を分析して前記頁画像文書を複数のブロックに分割するブロック分割部と、前記ブロック分割部にて分割された複数のブロックの中から、当該頁画像文書の特徴を現す特徴ブロックを選択する特徴ブロック選択部と、前記特徴ブロック選択部にて選択された複数の特徴ブロックの情報を、当該頁画像文書の特徴として算出する特徴算出部とを有し、前記特徴算出部の算出結果を、当該頁画像文書の特徴ベクトルの要素に含めることを特徴としている。なお、ここで、頁画像文書とは、頁単位で読み取られた1頁よりなる画像文書のことである。
上記構成によれば、矩形画像抽出部やブロック分割部等において、カラーの特徴(黒画素か白画素か)、空間関係の特徴(隣り合う黒画素間の距離)、及び対象の特徴が総合的に利用される。したがって、複数種類の画像の特徴情報を利用することとなり、単一の特徴の利用により、画像情報を失うことを避けることができる。また、画像の内容を十分に表すことによって、画像検索の精度を有効に向上させることができる。
また、ブロック分割部は、頁の幾何構造の分析によって、画像文書の特徴を表す特徴ブロックを確定する方法を使い、画像文書の行間隔が相対的に均一である幾何ブロックに区分する。これにより、カラー濃度や解像度が違ったり、複数の言語が混合したりしている画像文書の検索に対しても、検索精度を高く保つことができる。
さらに、ブロック分割部にて分割された全てのブロックを使用するのではなく、特徴ブロック選択部にて頁画像文書の特徴を現す特徴ブロックを選択して用いて頁画像文書の特徴を現しているので、内容の少ないブロック等、検索の正確さに影響を及ぼす要素を取り除くことができ、正確さを高めることができる。
特徴算出部は、このようにして選択された複数の特徴ブロックの情報を当該頁画像文書の特徴として算出し、これを、当該頁画像文書の特徴ベクトルの要素に含めているので、画像文書の特徴ベクトルには、画像の主要な特徴が統合されており、より全面的な画像文書の内容を表すことができる。これによって、画像文書の検索の精度が更に向上する。また、各特徴ブロックの情報を統合してできた特徴ベクトルは、従来の特徴抽出方法に比べて、より簡潔で直観的になり、計算量を減らすこともできる。
また、複数の特徴ブロックの情報を頁画像文書の特徴ベクトルに含めているので、画像文書識別部が、識別画像と検索対象の頁画像文書との整合性を見るべく特徴ベクトル同士を比較する過程で、各特徴ブロック同士が比較されるので、画像の局部の情報偏差による整合不可という検索エラーを回避でき、検索誤差を低減させることができる。
本発明の画像文書の検索装置においては、さらに、前記特徴ブロック選択部は、非直線的で、かつ面積の大きいブロックを特徴ブロックとして選択する構成とすることもできる。非直線的で、かつ、面積の大きいブロックは、視覚強度が大きく、人間の主観的判断と比較的に合致しており、画像の特徴を現す特徴ブロックとして適している。
また、本発明の画像文書の検索装置においては、さらに、前記特徴ブロック選択部は、n(nは3以上の整数)個の特徴ブロックを選択し、前記特徴算出部は、当該頁画像文書の特徴として、n個の特徴ブロックの情報に加えて、n個の特徴ブロックの中心を頂点としたn角形(nは3以上の整数)の情報を算出し、前記画像文書識別部は、特徴ベクトルに含まれる頁画像文書の特徴のうちの、n角形が相似する特徴ベクトルに対してのみ、n個の特徴ブロックの情報についての比較を行う構成とすることもできる。
n個の特徴ブロックの中心を頂点としたn角形は、n個の特徴ブロックの配置を現している。したがって、このような情報を、画像の特徴の一つに含めることで、画像文書識別部は、n個の特徴ブロックの情報についての比較を行う前に、n角形が相似するかどうかで、検索対象に蓄積されている画像文書を精度よく篩いにかけることができ、特徴ベクトル同士を比較して適合性を判断する処理の計算量を少なくできる。
また、この場合、前記特徴算出部が、算出するn個の特徴ブロックの情報として、各特徴ブロックにおける、ブロックの高さ、ブロックの幅、ブロックの周長をブロックの面積、及びブロックに含まれる黒画素の数/面積で除した値、4つの特性を算出する構成とすることもできる。このような4つの特性にて各特徴ブロックを特徴付けて相似度を計算することで、目標画像を精度よく抽出できることを確認している。
また、本発明の画像文書の検索装置においては、さらに、前記ブロック分割部は、矩形画像の情報を基に、1ブロック内において、矩形画像間の背景領域の水平方向の寸法が相対的に均一であると共に、矩形画像間の背景領域の垂直方向の寸法が相対的に均一であるように、前記頁画像文書を分割することを特徴とすることもできる。
これにより、画像文書の行間隔が相対的に均一である幾何ブロックに区分することができる。
また、本発明の画像文書の検索装置においては、さらに、前記ブロック分割部は、矩形画像の情報を基に、垂直方向に投影し、矩形画像間の背景領域の水平方向の寸法が他の背景領域の同方向の寸法と相似しない箇所に垂直に分割線を引く操作と、水平方向に投影し、矩形画像間の背景領域の垂直方向の寸法が他の背景領域の同方向の寸法と相似しない箇所に水平に分割線を引く操作とを、分割線にて区分された領域それぞれにおける矩形画像間の背景領域の水平方向及び垂直方向の寸法が均一となるまで交互に繰り返すことを特徴とすることもできる。
これによれば、画像文書の行間隔が相対的に均一である幾何ブロックに容易に区分することができる。
また、本発明の画像文書の検索装置においては、さらに、前記特徴ベクトル生成部の前段に、前記画像文書より外周部の影を除去するエッジ除去部が設けられている構成とすることが好ましい。
コピーにて形成されたコピー画像が主であるが、画像の外周部に影が形成されることがある。このような影が画像の特徴に含まれると、画像の特徴を用いて検索するにおいて精度よく検索することはできない。特に、本発明の検索装置が、複合機やコピー機等に搭載された場合、このような影が含まれていると、精度のよい検索は望めない。
このように、エッジ除去部にて頁画像文書より影を取り除くことで、処理範囲を拡大させ、本発明の検索装置を複合機や複写機等に適用することが可能となる。
また、本発明の画像文書の検索装置においては、さらに、頁画像文書を蓄積させていく画像文書蓄積部と、前記特徴ベクトル生成部を用いて、前記画像文書蓄積部に蓄積される頁画像文書の特徴ベクトルを生成し、前記画像文書蓄積部に対応付けて蓄積させていく特徴ベクトル蓄積部とを備え、前記画像文書識別部は、識別対象の頁画像文書の特徴ベクトルと、前記特徴ベクトル蓄積部に蓄積されている特徴ベクトルとを比較し、前記画像文書蓄積部より識別対象の頁画像文書に対応する頁画像文書を抽出することを特徴とすることもできる。
これにより、画像文書識別部は、特徴ベクトル蓄積部に蓄積されている特徴ベクトルを用いて、画像文書蓄積部に蓄積されていく頁画像文書に対して検索をかけることができ、画像文書の検索に適した、画像ファイリングシステムを構成することができる。
本発明の画像文書の検索方法は、文字と図表を主な内容とする画像文書の検索方法であって、頁画像文書の特徴ベクトルを生成する特徴ベクトル生成ステップと、前記特徴ベクトル生成ステップを用いて生成された、識別対象の頁画像文書の特徴ベクトルと検索対象に蓄積されている頁画像文書の特徴ベクトルとを比較し、検索対象より識別対象の頁画像文書に対応する頁画像文書を抽出する画像文書識別ステップとを備え、前記特徴ベクトル生成ステップは、頁画像文書から文字部分を連結して矩形画像を抽出する矩形画像抽出ステップと、前記矩形画像抽出ステップにて抽出された頁矩形画像の情報を基に、頁の幾何構造を分析して頁画像文書を複数のブロックに分割するブロック分割ステップと、前記ブロック分割ステップにて分割された複数のブロックの中から、予め定められた条件に基づいて複数の特徴ブロックを選択する特徴ブロック選択ステップと、前記特徴ブロック選択部にて選択された複数の特徴ブロックの情報を、当該頁画像文書の特徴として算出する特徴算出ステップとを有し、前記特徴算出ステップの算出結果を、当該頁画像文書の特徴ベクトルの要素に含めることを特徴としている。
ところで、上記画像文書の検索装置は、ハードウェアで実現してもよいし、プログラムをコンピュータに実行させることによって実現してもよい。具体的には、本発明に係るプログラムは、上記特徴ベクトル生成部、画像文書識別部、矩形画像抽出部、ブロック分割部、特徴ブロック選択部、特徴計算部、画像文書蓄積部、及び特徴ベクトル蓄積部としてコンピュータを動作させるプログラムであり、本発明に係る記録媒体には、当該プログラムが記録されている。
これらのプログラムがコンピュータによって実行されると、当該コンピュータは、上記画像文書の検索装置として動作する。したがって、上記画像文書の検索装置と同様の作用を奏することができる。
本発明の画像文書の検索装置は、以上のように、文字と図表を主な内容とする画像文書の検索装置であって、頁画像文書の特徴ベクトルを生成する特徴ベクトル生成部と、前記特徴ベクトル生成部を用いて生成された、識別対象の頁画像文書の特徴ベクトルと検索対象に蓄積されている頁画像文書の特徴ベクトルとを比較し、検索対象より識別対象の頁画像文書に対応する頁画像文書を抽出する画像文書識別部とを備え、前記特徴ベクトル生成部は、頁画像文書における文字部分を連結して矩形画像を抽出する矩形画像抽出部と、前記矩形画像抽出部にて抽出された矩形画像の情報を基に、頁の幾何構造を分析して前記頁画像文書を複数のブロックに分割するブロック分割部と、前記ブロック分割部にて分割された複数のブロックの中から、当該頁画像文書の特徴を現す特徴ブロックを選択する特徴ブロック選択部と、前記特徴ブロック選択部にて選択された複数の特徴ブロックの情報を、当該頁画像文書の特徴として算出する特徴算出部とを有し、前記特徴算出部の算出結果を、当該頁画像文書の特徴ベクトルの要素に含めることを特徴としている。
本発明の画像文書の検索方法は、以上のように、文字と図表を主な内容とする画像文書の検索方法であって、頁画像文書の特徴ベクトルを生成する特徴ベクトル生成ステップと、前記特徴ベクトル生成ステップを用いて生成された、識別対象の頁画像文書の特徴ベクトルと検索対象に蓄積されている頁画像文書の特徴ベクトルとを比較し、検索対象より識別対象の頁画像文書に対応する頁画像文書を抽出する画像文書識別ステップとを備え、前記特徴ベクトル生成ステップは、頁画像文書から文字部分を連結して矩形画像を抽出する矩形画像抽出ステップと、前記矩形画像抽出ステップにて抽出された頁矩形画像の情報を基に、頁の幾何構造を分析して頁画像文書を複数のブロックに分割するブロック分割ステップと、前記ブロック分割ステップにて分割された複数のブロックの中から、予め定められた条件に基づいて複数の特徴ブロックを選択する特徴ブロック選択ステップと、前記特徴ブロック選択部にて選択された複数の特徴ブロックの情報を、当該頁画像文書の特徴として算出する特徴算出ステップとを有し、前記特徴算出ステップの算出結果を、当該頁画像文書の特徴ベクトルの要素に含めることを特徴としている。
これにより、画像文書の検索精度の向上を図り得る画像文書の検索装置及び検索方法を提供することができるという効果を奏する。
本発明は、文字と図表を主な内容とする画像である画像文書を、画像の特徴を用いて検索するものである。本発明は、従来の画像検索方法と異なり、画像内部の文字や絵や表などの情報が相対的に集中しているサブ区域が画像文書の特徴を十分に現すことができるとの考えにたち、画像に対して特徴を表す特徴ブロックを定め、該特徴ブロックを用いて検索を行う。
より詳細にいうと、画像に対して2値化処理を含む画像前処理を施したのち、1頁の画像に対して幾何構造を分析してサブ区域に区分し、その中から画像の特徴を示す特徴ブロックを設定し、該特徴ブロックにて画像のブロックの特徴を計算して、当該画像の特徴ベクトルを生成し、これを用いて画像文書の検索を行うものである。なお、以下においては、文字と図表を主な内容とする画像であることを明確にすることが好ましい場合には、画像文書と表現するが、それ以外は単に画像と称する。
そして、本発明は、例えば、画像文書の検索システムとして独立に使用することが可能であり、ネットワーク情報の安全や、知的所有権の保護などの分野に応用できる。また、複合機や画像形成装置、プリンタに組み込んで、目標画像の検索を行うことも可能である。
以下、本発明にかかる実施の一形態を、図1〜図12に基づいて説明する。本実施の形態では、複合機等に搭載されて画像ファイリングシステムとして機能することを想定している。したがって、ファイリング対象の画像を蓄積してデータベース化する機能を備え、画像の蓄積と同時に、画像の特徴ベクトルも併せて蓄積してデータベース化する機能を備えた構成を例示する。但し、本発明はこれに限定されるものではない。
図1は、本発明の実施の一形態を示すものであり、画像文書検索装置の機能を示す機能ブロック図である。
図1に示すように、本実施の形態の画像文書検索装置は、画像入力部1、画像前処理部2、特徴ベクトル生成部7、特徴ベクトルデータベース12、画像識別部13、検索結果表示部14、及び画像データベース15を含んでいる。
画像入力部1は、画像を取得するものであり、例えば、イメージスキャナである。但し、画像の取得は、イメージスキャナに限られるものではなく、ネットワーク等を介して画像を取得する通信インターフェースであってもよい。また、デジタルカメラ等のデジタル式撮影装置にて撮影されたものを入力させるインターフェースなどであってもよい。
ファイリング対象(蓄積対象)の画像(以下、ファイリング画像と称する)も、目標画像を検索するためのキー画像となる識別対象の画像(以下、識別画像)も、画像入力部1より入力される。
画像入力部1より入力された、ファイリング画像及び識別画像は、画像前処理部2に送られる。また、ファイリング画像については、画像データベース15(画像蓄積部)にも送られる。画像データベース15は、このようにして画像入力部1より送られてくる画像を蓄積していくものである。画像データベース15にて、本発明の画像文書蓄積部が構成されている。
画像前処理部2は、画像入力部1より送られてくる、ファイリング画像及び識別画像に対して前処理を施すものである。画像前処理部2は、画像を白黒の2値画像とする2値化処理部3と、画像データに含まれるノイズを除去するノイズ除去部4と、画像の傾きを補正する傾き補正部5と、画像より読取り時の影を除去するエッジ除去部6とを備えている。
図2に、上記エッジ除去部6におけるエッジ除去処理の手順を示す。また、図3(a)〜(e)に、図2の各ステップによる効果を示す。
コピーに形成されたコピー画像の場合が主であるが、画像の外周部に影が形成されることがある。エッジ除去部6は、この影を除去するものである。まずは、画像にある太線を取り除く(S1)。これにより、図3(a)に示す原図の太枠が、図3(b)に示すように除去される。次に、細いエッジ(縁)の影を取り除く(S2)。これにより、図3(b)に示す細い縁の影が、図3(c)に示すように除去される。次に、画像内部にある筋状の影を取り除く(S3)。これにより、図3(c)に示す画像内部にある筋状の影が、図3(d)に示すように除去される。最後に、残余の点状の影を取り除く(S4)。これにより、図3(d)に示す点状の影が、図3(e)に示すように除去される。
画像の外周部に影が形成されており、このような影が画像の特徴に含まれると、画像の特徴を用いて検索するにおいて精度よく検索することはできないが、このように、エッジ除去部にて頁画像文書より影を取り除くことで、処理範囲を拡大させ、複合機や複写機等に適用することが可能となる。
このようにして画像前処理部2にて前処理が施されたファイリング画像及び識別画像は、特徴ベクトル生成部7に送られる。
特徴ベクトル生成部7は、画像の特徴ベクトルを生成するものであり、矩形画像抽出部8と、ブロック分割部9と、特徴ブロック選択部10と、特徴算出部11とを備えている。
特徴ベクトル生成部7へ送られたファイリング画像及び識別画像は、まず、矩形画像抽出部8に入力される。矩形画像抽出部8は、カラーの特徴及び空間関係の特徴とを用いて、画像のテキスト領域を連結する処理を行って矩形画像を抽出するものである。上記カラーの特徴とは、黒画素か白画素かのことであり、空間関係の特徴とは、隣り合う2つの黒画素の距離である。
このように、複数種類の画像の特徴情報を利用することとなり、単一の特徴の利用により、画像情報を失うことを避けることができる。また、画像の内容を十分に表すことによって、画像検索の精度を有効に向上させることができる。
矩形画像抽出部8は、2つの隣り合う黒画素の距離が、予め設定されている閾値距離よりも小さい場合は、2つの隣り合う画素間にある全ての画素、つまり画素間にある全ての白画素を黒画素とする。このような処理を繰り返すことで、図4に示すように、画像中の文字領域は近いもの同士連結されて、矩形画像Pとなる。図4の例は、横書きの例であり、このような場合、行に応じた複数の矩形画像P‥が形成される。なお、縦書きの場合は、列に応じた矩形画像が形成されることとなる。
このようにして矩形画像抽出部8にて矩形画像Pよりなる画像に変換されたファイリング画像及び識別画像は、ブロック分割部9に送られる。
ブロック分割部9は、このように矩形画像Pよりなるファイリング画像及び識別画像に対して、矩形画像Pの情報を基に、1頁の画像(頁画像文書)全体の幾何構造を分析して、画像を複数のブロックに分割するものである。
上記矩形画像Pの情報とは、矩形画像Pの位置座標、及び矩形画像Pの高さと幅である。ここで、高さは垂直方向の距離であり、幅は水平方向の距離である。矩形画像Pのこのような情報に基づき、矩形画像P間に形成されている白画素の集まりである背景リボン(背景領域)Wの幅VWWと高さHWHを算出することができる。背景リボンWの幅VWWとは、水平方向に隣り合う背景リボンW・W間の水平方向の距離であり、背景リボンWの高さHWHとは、垂直方向に隣り合う背景リボンW・W間の垂直方向の距離である。
ブロック分割部9は、このような背景リボンWの幅VWWと高さHWHを用いて、1つのブロック内で、背景リボンWの幅VWWが均一であり、また、高さHWHが均一となるように、1頁の画像を複数のブロックに分割する。
図5(a)(b)に、ブロック分割部6のブロック分割処理に用いられる、縦の方向(垂直方向)及び横の方向(水平方向)に画像を区分する各フローを示す。このうち、図5(a)が、縦の方向の区分に用いるフローであり、図5(b)が横の方向の区分に用いるフローである。
まず、図5(a)に示す縦の方向の区分のフローについて説明する。矩形画像Pよりなる画像を基に、垂直方向での投影を行う(S11)。次に、M個の背景リボンWの幅VWWのシリーズを記録する(S12)。次に、垂直方向の限界値を計算する(S13)。限界値の計算は、シリーズに含まれる背景リボンWの異なる幅VWWの数をまず算出し、最も多くの背景リボンWの有する幅VWWを限界値とする。
次に、シリーズに含まれる背景リボンWの幅VWWと限界値とを比較し(S14)、限界値に類似する場合は、S17に進んで次の背景リボンWを処理し、S14に戻る。S14にて限界値と異なる値であれば、垂直に分割線を引き(S15)、形成されたサブ区域の位置座標を記録した後(S16)、S17に進んで次の背景リボンWを処理し、S14に戻る。
シリーズに含まれるM個の全ての背景リボンWに対してS14〜S17の処理を繰り返したのち、S16で記録した各サブ区域に対してそれぞれ、図5(b)に示す横の方向の区分のフローを使用する(S18)。
次に、図5(b)を用いて横の方向の区分のフローについて説明する。矩形画像Pよりなる画像を基に、水平方向での投影を行う(S21)。次に、N個の背景リボンWの高さHWHのシリーズを記録する(S22)。次に、水平方向の限界値を計算する(S23)。限界値の計算は、シリーズに含まれる背景リボンWの異なる高さHWHの数をまず算出し、最も多くの背景リボンWの有する高さHWHを限界値とする。
次に、シリーズに含まれる背景リボンWの高さHWHと限界値とを比較し(S24)、限界値に類似する場合は、S27に進んで次の背景リボンWを処理し、S24に戻る。S24にて限界値と異なる値であれば、水平に分割線を引き(S25)、形成されたサブ区域の位置座標を記録した後(S26)、S27に進んで次の背景リボンWを処理し、S24に戻る。
シリーズに含まれるN個の全ての背景リボンWに対してS24〜S27の処理を繰り返したのち、各サブ区域に対してそれぞれ、図5(a)に示す、縦の方向の区分を使用する(S28)。
このような区分の仕方を利用して、ブロック分割部6は、まずは全画像を選択し、図5(a)に示す縦の区分を処理し、次に、処理された各区分に対して、画像の区分が均一になるまで、図5(b)に示す横の区分と上記した縦の区分とを循環的に行う。背景リボンWの幅VWWが均一である場合、縦方向に区分する処理を終了し、背景リボンWの高さHWHが均一である場合、横方向に区分する処理を終了する。
図6に、ブロック分割後の画像を示す。1頁の画像は、画像の区分が均一なB1〜B8の8個のブロックに分割されている。
また、図7に、図6の分割例における、ブロックB4の詳細を示す。ブロックB4は、垂直の分割線V1にて区分された右側の領域にある。図において、参照符号100は、ブロックB4の拡大図、参照符号101は、ブロックB4を水平方向に投影した結果である。投影した結果101において、2つの背景リボンW1、W2の高さHWHは、他の背景リボンWのものよりも大きい。したがって、背景リボンW1、W2には、水平の分割線H1、H2がひかれている。そして、ブロックB4においては、背景リボンW1、W2以外の背景リボンWの高さHWHは均一である。このような状態となると、ブロック分割部6は、横方向の区分を終了する。
なお、ブロック分割の手法は、図5(a)(b)に手順を示したものに限らず、背景リボンの幅VWW及び背景リボンWの高さHWHが、それぞれ均一なサブ区域に区分できる手法であればよい。
画像文書の行間隔が相対的に均一である幾何ブロックに区分することにより、カラー濃度や解像度が違ったり、複数の言語が混合したりしている画像文書の検索に対しても、検索精度を高く保つことができる。
このようにしてブロック分割部9にてブロック分割されたファイリング画像及び識別画像は、特徴ブロック選択部10へと送られる。
特徴ブロック選択部10は、このように複数のブロックに分割されたファイリング画像、識別画像を基に、これら画像の特徴を表す特徴ブロックを、一定の規則に基づいて所定数選択するものである。
特徴ブロックとしては、画像的に視覚強度がより大きく、面積がより大きいブロックが選択される。このような特徴ブロックの選択は、人間の主観的判断に比較的合致していると考えられる。
そして、ブロック分割部にて分割された全てのブロックを使用するのではなく、特徴ブロック選択部10にて頁画像文書の特徴を現す特徴ブロックを選択することで、内容の少ないブロック等、検索の正確さに影響を及ぼす要素を取り除くことができ、正確さを高めることができる。
具体的には、特徴ブロック選択部10は、頁内の全ブロックの中より、非直線的であって、かつ、面積のより大きいブロックを選択する。特徴ブロックの選択数が増えるほど、目標の画像文書を検出する精度は上がるが、相似度の算出に時間を要する。本実施の形態では、特徴ブロック選択部10は、4つ特徴ブロックを選択するようになっている。選択する特徴ブロックの数は、任意に設定できるようにすることも可能である。
図8に、図6例におけるブロックB1〜B8の8ブロックより、非直線的であって、かつ、面積のより大きいブロックを選択条件として、4つのブロックが選択された結果を示す。ここでは、ブロックB2、B3、B5、B6の4つのブロックが特徴ブロックとして選択されている。そして、選択された各特徴ブロックには、その大きさ順に従い、1番から4番までの順位が付される。この例では、最も大きいブロックB6が第1特徴ブロック、2番目に大きいブロックB5が第2特徴ブロック、3番目に大きいブロックB3が第3特徴ブロック、4番目に大きいブロックB2が第4特徴ブロックとなる。
なお、ここではブロックの大きさ順にて特徴ブロックに番号を付したが、ブロックの位置情報等によって、番号を割り振ることもできる。
このようにして特徴ブロック選択部10にて特徴ブロックが選択されたファイリング画像及び識別画像は、特徴算出部11へと送られる。
特徴算出部11は、このように特徴ブロックが選択されたファイリング画像及び識別画像を基に、特徴ブロックの情報を、これら各画像の特徴として算出するものである。
特徴算出部11は、各特徴ブロックに対し、ブロック中心の位置座標、ブロックの高さ(垂直方向の距離)、ブロックの幅(水平方向の距離)、ブロックの緊密度(Tightness)、及びブロックの密度(Density)の5つの値を求める。
ブロックの緊密度(Tightness)は、ブロックの周長をブロックの面積で除した値である。また、密度(Density)は、ブロックに含まれる黒画素の数をブロックの面積で除した値である。ここで、黒画素の数は、矩形画像Pに変換された入力画像ではなく、画像前処理2による処理後の画像について求められる。これにより、矩形画像Pにおいては、黒画素の数が相似する場合も、実際の画像が異なる場合は、相似度を小さくすることができる。
そして、特徴算出部11は、4つの特徴ブロックそれぞれについて求めた5つの値より、画像の特徴を5項目算出する。
5項目の画像の特徴のうち、4つは、4つの特徴ブロックそれぞれの「ブロックの高さ、ブロックの幅、ブロックの周長をブロックの面積で除した値、及びブロックに含まれる黒画素の数をブロックの面積で除した値の4つの要素」よりなる。
つまり、上記4要素よりなる第1特徴ブロックの情報、上記4要素よりなる第2特徴ブロックの情報、上記4要素よりなる第3特徴ブロックの情報、及び上記4要素よりなる第4特徴ブロックの情報である。
そして、5つ目の画像の特徴は、各特徴ブロックのブロック中心の位置座標にて決まる四角形の情報である。
特徴ベクトル生成部7は、特徴算出部11にて算出された5つの画像の特徴を、ファイリング画像及び識別画像の各特徴ベクトルに含める。もちろん、特徴ベクトルの要素が、これら5項目のみからなる構成であってもよい。
このように生成された特徴ベクトルには、画像の主要な特徴が統合されており、より全面的な画像文書の内容を表すことができ、画像文書の検索の精度が更に向上する。また、各特徴ブロックの情報を統合してできた特徴ベクトルは、従来の特徴抽出方法に比べて、より簡潔で直観的になり、計算量を減らすこともできる。
そして、特徴ベクトル生成部7は、ファイリング画像について生成した特徴ベクトルについては、特徴ベクトルデータベース12に送り、識別画像について生成した特徴ベクトルについては、画像識別部13に送る。
特徴ベクトルデータベース12は、送られてくるファイリング画像の特徴ベクトルを、画像データベース15に蓄積されるファイリング画像に対応つけて蓄積させていくものである。特徴ベクトル生成部7と、特徴ベクトルデータベース12とで、ファイリング画像の特徴ベクトルを生成し、画像データベース15に対応付けて蓄積していく特徴ベクトル蓄積部16が構成されている。
また、画像識別部13は、識別画像の特徴ベクトルを取得すると、特徴ベクトルデータベース12を参照して格納されている特徴ベクトルと識別対象の特徴ベクトルとの比較を行い、適合度の高い特徴ベクトルの画像を目標画像の候補であると識別して画像データベース15より抽出して、表示装置等からなる検索結果表示部14に出力するものである。
本実施の形態においては、画像識別部13は、適合度の高い順に画像を抽出し、相似する画像の集合を検索結果表示部14に送るようになっている。特徴ベクトル生成部7と、画像識別部13とで、識別画像の特徴ベクトルを生成し、画像データベース15より目標画像を検出する検索部17が構成される。
ここで、画像識別部13は、識別画像と画像データベース15内の蓄積されているファイリング画像に対して、特徴ブロックの対応関係を作る。具体的には、識別画像の各特徴ブロックを選択し、特徴ベクトルデータベース12内の4つの特徴ブロックから、相似度が一番高い特徴ブロックをさがし、特徴ブロックの行列ペアを作る。最終的には、2つの画像の4つの特徴ブロックの行列ペアを作り、2つの画像の距離を計算する。
図9に、画像識別部13にて行われる目標画像を識別する手順を示す。まず、特徴ベクトルデータベース12より、特徴ベクトルを1つ取得する(S31)。そして、図10に示すように、まずは、識別画像102と画像データベース15に格納されているファイリング画像103との間で、特徴ベクトルに含まれる5項目の画像の特徴のうちの四角形の情報を使用して、四角形104と四角形105とを比較し(S32)、相似するかどうかを判断する(S33)。ここで、相似しない場合は、S37に移行する。
一方、四角形104と四角形105とが相似する場合は、S34に進んで、特徴ベクトルに含まれる残りの4つ項目の画像の特徴を使用して、識別画像と画像データベース15に格納されている画像との間で、4つの特徴ブロックそれぞれに対してブロック間の距離を求める。
残り4つのブロックの特徴とは、4つの特徴ブロックそれぞれにおける「ブロックの高さ(垂直方向の距離)、ブロックの幅(水平方向の距離)、ブロックの緊密度(Tightness)、及びブロックの密度(Density)」である。これら各要素について、特徴ブロック間の距離が算出される。ここで、ブロック間の距離を算出式は、下記の式にて表される。
Figure 0004469873
式中、「i」は、第i番目の特徴ブロック、つまり第i特徴ブロックであることを示している。この特徴ブロック間の距離が、相似度となる。
第i特徴ブロック間のブロック間距離の算出式を、より具体的に記載すると、以下のようになる。
Figure 0004469873
式中、(i,input)は、識別対象の入力画像の第i特徴ブロックの値を示し、(i,database)は、蓄積されている画像データベース15に格納されている画像の第i特徴ブロックの値を示す。
上記式を用いて、第1特徴ブロックから第4特徴ブロックまでの4つの特徴ブロックそれぞれについて、相似度であるブロック間の距離が算出される。
このように、画像識別部13においては、識別画像と検索対象の画像文書との整合性を見るべく特徴ベクトル同士を比較する過程で、各特徴ブロック同士が比較されるので、画像の局部の情報偏差による整合不可という検索エラーを回避でき、検索誤差を低減させることができる。
また、画像の特徴の5つ目の項目として、4つの特徴ブロックの中心を結んだ四角形の情報を含め、4個の特徴ブロックの情報についての比較を行う前に、S32、S33の処理により、四角形が相似するかどうかで、特徴ベクトルデータベース12に蓄積されている特徴ベクトルを(つまりが画像データベースに格納されている画像)を精度よく篩いにかけている。したがって、特徴ベクトル同士を比較して適合性を判断する処理の計算量を少なくできる。このような中心を結んだ形を利用した比較は、3つ以上の特徴ブロックを選択することで可能になる。なお、画像の特徴を、各特徴ブロックの情報にて現す上記した5項目は、好ましい一例であり、これに限られるものではない。
図11に、以上のような構成を有する本実施の形態の画像文書検索装置における、ファイリング画像の特徴ベクトルを生成して特徴ベクトルデータベース12に蓄積していく特徴ベクトル蓄積処理のフローを示す。
上述したように、入力されたファイリング画像に対し、まずは、図1に示す画像前処理部2が前処理を施す。前処理では、2値化処理部3が、画像をまず2値化し(S41)、続いて、ノイズ除去部4がノイズを除去し(S42)、傾き補正部5が傾きを補正する(S43)。その後、エッジ除去部6が、上述したように、図2のフローに従い、図3(a)〜(e)に示すように、画像のエッジを除去する(S44)。
このような前処理が終了すると、図1に示す特徴ベクトル生成部3が、特徴ベクトルを生成する。まずは、矩形画像抽出部8が、テキスト領域の繋ぎ処理を行い、図4に示すような矩形画像Pよりなる画像とする(S45)。続いて、ブロック分割部9が、1頁の幾何構造の分析を行い、図5(a)(b)のフローを使用して、図6に示すように、1頁の画像を複数のブロックに分割する(S46)。
次に、特徴ブロック選択部10が、特徴ブロックの選択規則に従い、図8に示すように、4つの特徴ブロックを選択する(S47)。このように特徴ブロックが選択されると、特徴算出部11が、上述した5項目の画像の特徴を算出する(S48)。
S48にて算出された5項目の画像の特徴により、当該1頁のファイリング画像の特徴ベクトルが生成され、生成された特徴ベクトルは、特徴ベクトルデータベース12に格納される(S49)。
図12に、以上のような構成を有する本実施の形態の画像文書検索装置における、識別画像の特徴ベクトルを生成して、特徴ベクトルデータベース12を参照して蓄積されている特徴ベクトルと比較して目標画像を検索する検索処理のフローを示す。
画像入力部1より入力された識別画像に対し、図12と同じS41〜48までの処理を施して、当該1頁の画像の特徴ベクトルが生成される。
検索処理では、生成された特徴ベクトルを用いて、図1に示す画像識別部13が、上述したように、図9のフローに従い、特徴ベクトルデータベース12を参照して、画像の識別を行い、目標画像候補を抽出する(S50)。
検索結果表示部14は、S50にて抽出された目標画像候補を、相似度の高い順に表示する(S51)。
最後に、画像文書検索装置の各ブロック、特に画像前処理部2、特徴ベクトル生成部7、画像識別部13は、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
すなわち、画像文書検索装置は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである画像文書検索装置の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記画像文書検索装置に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
また、画像文書検索装置を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
本発明は上述した実施形態(及び実施例)に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
また、発明の詳細な説明の項においてなされた具体的な実施態様または実施例は、あくまでも、本発明の技術内容を明らかにするものであって、そのような具体例にのみ限定して狭義に解釈されるべきものではなく、本発明の精神と次に記載する特許請求事項との範囲内で、種々変更して実施することができるものである。
文字と図表を主な内容とする画像である画像文書の検索に関するものであり、例えば、文書をイメージスキャナ等の画像入力装置で画像に変換して電子的に蓄積し、後から検索することを可能とする画像ファイリングシステム等の用途に利用できる。また、画像文書の検索システムとして独立に使用することで、ネットワーク情報の安全や、知的所有権の保護などの分野に応用できる。さらに、複合機や画像形成装置、プリンタに組み込んで、目標画像の検索を行うことなども可能である。
本発明の実施の一形態を示すものであり、画像文書検索装置の要部構成を示すブロック図である。 上記画像文書検索装置におけるエッジ除去部の処理を示すフローチャートである。 (a)〜(e)共に、上記画像文書検索装置におけるエッジ除去部による効果を示す説明図である。 上記画像文書検索装置における矩形画像抽出部の処理を示す説明図である。 (a)(b)共に、上記画像文書検索装置におけるブロック分割部の処理を示すフローチャートである。 上記画像文書検索装置におけるブロック分割部の分割結果を示す説明図である。 図6の分割結果におけるあるブロックの詳細を示す説明図である。 上記画像文書検索装置における特徴ブロック選択部の、図6の分割結果に対する選択結果を示す説明図である。 上記画像文書検索装置における画像識別部の処理を示すフローチャートである。 図9のフローチャートにおけるS32の処理を示す説明図である。 ファイリング画像の特徴ベクトルを生成して特徴ベクトルデータベースに蓄積していく特徴ベクトル蓄積処理のフローチャートである。 識別画像の特徴ベクトルを生成して、特徴ベクトルデータベースを参照して蓄積されている特徴ベクトルと比較して目標画像を検索する検索処理のフローチャートである。
符号の説明
1 画像入力部
2 画像前処理部
3 2値化処理部
4 ノイズ除去部
5 傾き補正部
6 エッジ除去部
7 特徴ベクトル生成部
8 矩形画像抽出部
9 ブロック分割部
10 特徴ブロック選択部
11 特徴算出部
12 特徴ベクトルデータベース(特徴ベクトル蓄積部)
13 画像識別部)(画像文書識別部)
14 検索結果表示部
15 画像データベース(画像文書蓄積部)
16 特徴ベクトル蓄積部
17 検索部

Claims (8)

  1. 文字と図表を主な内容とする画像文書の検索装置であって、
    頁画像文書の特徴ベクトルを生成する特徴ベクトル生成部と、
    前記特徴ベクトル生成部を用いて生成された、識別対象の頁画像文書の特徴ベクトルと検索対象に蓄積されている頁画像文書の特徴ベクトルとを比較し、検索対象より識別対象の頁画像文書に対応する頁画像文書を抽出する画像文書識別部とを備え、
    前記特徴ベクトル生成部は、
    頁画像文書における文字部分を連結して矩形画像を抽出する矩形画像抽出部と、
    前記矩形画像抽出部にて抽出された矩形画像の情報を基に、頁の幾何構造を分析して前記頁画像文書を複数のブロックに分割するブロック分割部と、
    前記ブロック分割部にて分割された複数のブロックの中から、当該頁画像文書の特徴を現す特徴ブロックを選択する特徴ブロック選択部と、
    前記特徴ブロック選択部にて選択された複数の特徴ブロックの情報を、当該頁画像文書の特徴として算出する特徴算出部とを有し、
    前記特徴算出部の算出結果を、当該頁画像文書の特徴ベクトルの要素に含めるようになっており、さらに、
    前記ブロック分割部は、矩形画像の情報を基に、垂直方向に投影し、矩形画像間の背景領域の水平方向の寸法が他の背景領域の同方向の寸法と類似しない箇所に垂直に分割線を引く操作と、水平方向に投影し、矩形画像間の背景領域の垂直方向の寸法が他の背景領域の同方向の寸法と類似しない箇所に水平に分割線を引く操作とを、分割線にて区分されたそれぞれの領域において、領域内における矩形画像間の各背景領域の水平方向の寸法が互いに類似すると共に、矩形画像間の各背景領域の垂直方向の寸法が互いに類似するまで交互に繰り返すことを特徴とする画像文書の検索装置。
  2. 文字と図表を主な内容とする画像文書の検索装置であって、
    頁画像文書の特徴ベクトルを生成する特徴ベクトル生成部と、
    前記特徴ベクトル生成部を用いて生成された、識別対象の頁画像文書の特徴ベクトルと検索対象に蓄積されている頁画像文書の特徴ベクトルとを比較し、検索対象より識別対象の頁画像文書に対応する頁画像文書を抽出する画像文書識別部とを備え、
    前記特徴ベクトル生成部は、
    頁画像文書における文字部分を連結して矩形画像を抽出する矩形画像抽出部と、
    前記矩形画像抽出部にて抽出された矩形画像の情報を基に、頁の幾何構造を分析して前記頁画像文書を複数のブロックに分割するブロック分割部と、
    前記ブロック分割部にて分割された複数のブロックの中から、当該頁画像文書の特徴を現す特徴ブロックを選択する特徴ブロック選択部と、
    前記特徴ブロック選択部にて選択された複数の特徴ブロックの情報を、当該頁画像文書の特徴として算出する特徴算出部とを有し、
    前記特徴算出部の算出結果を、当該頁画像文書の特徴ベクトルの要素に含めるようになっており、さらに、
    前記特徴ブロック選択部は、n(nは3以上の整数)個の特徴ブロックを選択し、
    前記特徴算出部は、当該頁画像文書の特徴として、n個の特徴ブロックの情報に加えて、n個の特徴ブロックの中心を頂点としたn角形(nは3以上の整数)の情報を算出し、
    前記画像文書識別部は、識別対象の頁画像文書の特徴ベクトルと検索対象に蓄積されている頁画像文書の特徴ベクトルとを比較するに際し、特徴ベクトルに含まれる頁画像文書の特徴のうちのn角形の情報を使用して、識別対象の頁画像文書のn角形と検索対象に蓄積されている頁画像文書のn角形とが相似するかどうかを判断し、相似する場合のみ、n個の特徴ブロックの情報についての比較を行い、
    前記ブロック分割部は、矩形画像の情報を基に、垂直方向に投影し、矩形画像間の背景領域の水平方向の寸法が他の背景領域の同方向の寸法と類似しない箇所に垂直に分割線を引く操作と、水平方向に投影し、矩形画像間の背景領域の垂直方向の寸法が他の背景領域の同方向の寸法と類似しない箇所に水平に分割線を引く操作とを、分割線にて区分されたそれぞれの領域において、領域内における矩形画像間の各背景領域の水平方向の寸法が互いに類似すると共に、矩形画像間の各背景領域の垂直方向の寸法が互いに類似するまで交互に繰り返すことを特徴とする画像文書の検索装置。
  3. 文字と図表を主な内容とする画像文書の検索装置であって、
    頁画像文書の特徴ベクトルを生成する特徴ベクトル生成部と、
    前記特徴ベクトル生成部を用いて生成された、識別対象の頁画像文書の特徴ベクトルと検索対象に蓄積されている頁画像文書の特徴ベクトルとを比較し、検索対象より識別対象の頁画像文書に対応する頁画像文書を抽出する画像文書識別部とを備え、
    前記特徴ベクトル生成部は、
    頁画像文書における文字部分を連結して矩形画像を抽出する矩形画像抽出部と、
    前記矩形画像抽出部にて抽出された矩形画像の情報を基に、頁の幾何構造を分析して前記頁画像文書を複数のブロックに分割するブロック分割部と、
    前記ブロック分割部にて分割された複数のブロックの中から、当該頁画像文書の特徴を現す特徴ブロックを選択する特徴ブロック選択部と、
    前記特徴ブロック選択部にて選択された複数の特徴ブロックの情報を、当該頁画像文書の特徴として算出する特徴算出部とを有し、
    前記特徴算出部の算出結果を、当該頁画像文書の特徴ベクトルの要素に含めるようになっており、さらに、
    前記特徴ブロック選択部は、n(nは3以上の整数)個の特徴ブロックを選択し、
    前記特徴算出部は、当該頁画像文書の特徴として、n個の特徴ブロックの情報に加えて、n個の特徴ブロックの中心を頂点としたn角形(nは3以上の整数)の情報を算出し、
    前記画像文書識別部は、識別対象の頁画像文書の特徴ベクトルと検索対象に蓄積されている頁画像文書の特徴ベクトルとを比較するに際し、特徴ベクトルに含まれる頁画像文書の特徴のうちのn角形の情報を使用して、識別対象の頁画像文書のn角形と検索対象に蓄積されている頁画像文書のn角形とが相似するかどうかを判断し、相似する場合のみ、n個の特徴ブロックの情報についての比較を行うことを特徴とする画像文書の検索装置。
  4. 前記特徴算出部は、n個の特徴ブロックの情報として、各特徴ブロックにおける、ブロックの高さ、ブロックの幅、ブロックの周長をブロックの面積で除した値、及びブロックに含まれる黒画素の数をブロックの面積で除した値の、4つの特性を算出することを特徴とする請求項3に記載の画像文書の検索装置。
  5. 前記特徴ベクトル生成部の前段に、前記頁画像文書より外周部の影を除去するエッジ除去部が設けられていることを特徴とする請求項1〜4の何れか1項に記載の画像文書の検索装置。
  6. 頁画像文書を蓄積させていく画像文書蓄積部と、
    前記特徴ベクトル生成部を用いて、前記画像文書蓄積部に蓄積される頁画像文書の特徴ベクトルを生成し、前記画像文書蓄積部に対応付けて蓄積させていく特徴ベクトル蓄積部とを備え、
    前記画像文書識別部は、識別対象の頁画像文書の特徴ベクトルと、前記特徴ベクトル蓄積部に蓄積されている特徴ベクトルとを比較し、前記画像文書蓄積部より識別対象の頁画像文書に対応する頁画像文書を抽出することを特徴とする請求項1〜5の何れか1項に記載の画像文書の検索装置。
  7. 請求項1〜6の何れか1項に記載の検索装置の各部としてコンピュータを機能させるためのプログラム。
  8. 請求項7に記載のプログラムが記録されたコンピュータ読み取り可能な記録媒体。
JP2007137163A 2007-03-30 2007-05-23 画像文書の検索装置、プログラム、及び記録媒体 Active JP4469873B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007100906707A CN101276363B (zh) 2007-03-30 2007-03-30 文档图像的检索装置及文档图像的检索方法

Publications (2)

Publication Number Publication Date
JP2008257670A JP2008257670A (ja) 2008-10-23
JP4469873B2 true JP4469873B2 (ja) 2010-06-02

Family

ID=39794508

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007137163A Active JP4469873B2 (ja) 2007-03-30 2007-05-23 画像文書の検索装置、プログラム、及び記録媒体

Country Status (3)

Country Link
US (1) US8027550B2 (ja)
JP (1) JP4469873B2 (ja)
CN (1) CN101276363B (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5004082B2 (ja) * 2007-07-27 2012-08-22 公立大学法人大阪府立大学 文書画像検索方法、文書画像登録方法、そのプログラムおよび装置
US8738647B2 (en) * 2009-02-18 2014-05-27 A9.Com, Inc. Method and system for image matching
JP5430243B2 (ja) * 2009-06-17 2014-02-26 キヤノン株式会社 画像検索装置及びその制御方法並びにプログラム
CN102890826B (zh) * 2011-08-12 2015-09-09 北京多看科技有限公司 一种扫描版文档重排版的方法
US8687886B2 (en) 2011-12-29 2014-04-01 Konica Minolta Laboratory U.S.A., Inc. Method and apparatus for document image indexing and retrieval using multi-level document image structure and local features
JP6021557B2 (ja) * 2012-09-28 2016-11-09 株式会社Pfu 画像処理装置、画像処理システム、画像処理方法、及び画像処理プログラム
US9147275B1 (en) 2012-11-19 2015-09-29 A9.Com, Inc. Approaches to text editing
US9043349B1 (en) 2012-11-29 2015-05-26 A9.Com, Inc. Image-based character recognition
US9201958B2 (en) * 2013-10-24 2015-12-01 TCL Research America Inc. Video object retrieval system and method
US9342930B1 (en) 2013-01-25 2016-05-17 A9.Com, Inc. Information aggregation for recognized locations
US9424598B1 (en) 2013-12-02 2016-08-23 A9.Com, Inc. Visual search in a controlled shopping environment
US9536161B1 (en) 2014-06-17 2017-01-03 Amazon Technologies, Inc. Visual and audio recognition for scene change events
CN104036272A (zh) * 2014-06-24 2014-09-10 联想(北京)有限公司 一种文本检测方法及电子设备
JP6372696B2 (ja) 2014-10-14 2018-08-15 ソニー株式会社 情報処理装置、情報処理方法、並びにプログラム
CN104766082B (zh) * 2015-03-20 2018-08-14 福建天晴数码有限公司 基于安卓***的图像识别方法和装置
US10102206B2 (en) * 2016-03-31 2018-10-16 Dropbox, Inc. Intelligently identifying and presenting digital documents
US11290617B2 (en) * 2017-04-20 2022-03-29 Hewlett-Packard Development Company, L.P. Document security
CN110019898A (zh) * 2017-08-08 2019-07-16 航天信息股份有限公司 一种动漫图像处理***
JP7167615B2 (ja) * 2018-10-05 2022-11-09 コニカミノルタ株式会社 画像検査装置、画像検査方法及び画像検査プログラム
CN109492644A (zh) * 2018-10-16 2019-03-19 深圳壹账通智能科技有限公司 一种习题图像的匹配识别方法及终端设备
US11803581B2 (en) * 2021-05-24 2023-10-31 Infrrd Inc System for identifying and linking entity relationships in documents

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5680479A (en) 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
JPH05342325A (ja) 1992-06-04 1993-12-24 Fuji Xerox Co Ltd 文書処理装置およびその装置のためのフォーム登録装置
JP2576350B2 (ja) 1993-02-25 1997-01-29 日本電気株式会社 文字列抽出装置
JPH07168910A (ja) 1993-10-19 1995-07-04 N T T Data Tsushin Kk 文書レイアウト解析装置及び文書フォ−マット識別装置
JP3738631B2 (ja) 1999-09-27 2006-01-25 三菱電機株式会社 画像検索システムおよび画像検索方法
KR100355404B1 (ko) 1999-12-03 2002-10-11 삼성전자 주식회사 주파수 공간상에서의 가보 필터를 이용한 질감표현방법 및질감기반 영상 검색방법
KR100788643B1 (ko) 2001-01-09 2007-12-26 삼성전자주식회사 색과 질감의 조합을 기반으로 하는 영상 검색 방법
KR100499130B1 (ko) 2001-11-27 2005-07-04 삼성전자주식회사 조명 변화에 강건한 영상 검색 방법 및 장치
US7466856B2 (en) 2002-09-26 2008-12-16 Samsung Electronics Co., Ltd. Image retrieval method and apparatus independent of illumination change
CN1290061C (zh) 2003-07-23 2006-12-13 西北工业大学 一种利用显著边缘进行图像检索的方法
CN100353379C (zh) 2003-07-23 2007-12-05 西北工业大学 一种基于图像纹理特征的图像检索方法
CN1286064C (zh) 2003-07-23 2006-11-22 西北工业大学 一种基于显著兴趣点的图像检索方法
US7475061B2 (en) * 2004-01-15 2009-01-06 Microsoft Corporation Image-based document indexing and retrieval
US7386789B2 (en) * 2004-02-27 2008-06-10 Hewlett-Packard Development Company, L.P. Method for determining logical components of a document
CN1687969A (zh) * 2005-05-12 2005-10-26 北京航空航天大学 基于文档图像内容分析与特征提取的文档图像压缩方法
JP4920928B2 (ja) 2005-08-08 2012-04-18 キヤノン株式会社 画像処理装置及びその制御方法、プログラム
JP2007048057A (ja) 2005-08-10 2007-02-22 Canon Inc 画像処理装置
JP4856925B2 (ja) * 2005-10-07 2012-01-18 株式会社リコー 画像処理装置、画像処理方法及び画像処理プログラム
CN100511230C (zh) 2006-05-29 2009-07-08 北京万网志成科技有限公司 基于网页页面文本的图像检索及显示方法

Also Published As

Publication number Publication date
CN101276363B (zh) 2011-02-16
JP2008257670A (ja) 2008-10-23
US8027550B2 (en) 2011-09-27
CN101276363A (zh) 2008-10-01
US20080240618A1 (en) 2008-10-02

Similar Documents

Publication Publication Date Title
JP4469873B2 (ja) 画像文書の検索装置、プログラム、及び記録媒体
US6993185B2 (en) Method of texture-based color document segmentation
Zhang et al. Detecting image seam carving with low scaling ratio using multi-scale spatial and spectral entropies
Gllavata et al. A robust algorithm for text detection in images
US8050499B2 (en) Image-processing apparatus, image-processing method, and computer program used therewith
US8200012B2 (en) Image determination apparatus, image search apparatus and computer readable recording medium storing an image search program
JP5050075B2 (ja) 画像判別方法
US7889947B2 (en) Image completion
US9965871B1 (en) Multi-binarization image processing
Cohen et al. Robust text and drawing segmentation algorithm for historical documents
US8385651B2 (en) Character recognition device, image-reading device, computer readable medium, and character recognition method
JP4522468B2 (ja) 画像判別装置、画像検索装置、画像検索プログラムおよび記録媒体
JP2002190957A (ja) 文書処理装置及び方法
KR20110139113A (ko) 주석이 달린 문서 이미지들로부터 클린 문서를 복원하기 위한 시스템 및 방법
US11915465B2 (en) Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks
JP6671613B2 (ja) 文字認識方法及びコンピュータプログラム
CN112884074B (zh) 基于决策树的图像设计方法、设备、存储介质及装置
JP5222776B2 (ja) 画像処理装置及び方法
KR20050051029A (ko) 코드이미지 검출 방법 및 장치
Konya et al. Adaptive methods for robust document image understanding
JP4890351B2 (ja) 画像処理装置、画像処理プログラムおよび該画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに画像処理方法
Montero et al. Watermark detection and clearance in video using simple signal and image processing techniques
Bawa et al. A review on binarization algorithms for camera based natural scene images
Xu Content Understanding for Imaging Systems: Page Classification, Fading Detection, Emotion Recognition, and Saliency Based Image Quality Assessment and Cropping
JP4409678B2 (ja) 罫線抽出方式

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100301

R150 Certificate of patent or registration of utility model

Ref document number: 4469873

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140305

Year of fee payment: 4