JP4920928B2 - 画像処理装置及びその制御方法、プログラム - Google Patents

画像処理装置及びその制御方法、プログラム Download PDF

Info

Publication number
JP4920928B2
JP4920928B2 JP2005230088A JP2005230088A JP4920928B2 JP 4920928 B2 JP4920928 B2 JP 4920928B2 JP 2005230088 A JP2005230088 A JP 2005230088A JP 2005230088 A JP2005230088 A JP 2005230088A JP 4920928 B2 JP4920928 B2 JP 4920928B2
Authority
JP
Japan
Prior art keywords
image
comparison
block
source image
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005230088A
Other languages
English (en)
Other versions
JP2007047943A (ja
JP2007047943A5 (ja
Inventor
洋 東條
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005230088A priority Critical patent/JP4920928B2/ja
Priority to US11/459,995 priority patent/US7876471B2/en
Publication of JP2007047943A publication Critical patent/JP2007047943A/ja
Publication of JP2007047943A5 publication Critical patent/JP2007047943A5/ja
Application granted granted Critical
Publication of JP4920928B2 publication Critical patent/JP4920928B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、複写機などの画像入力装置で、読み取った紙文書から対応するオリジナルの電子データを検索し、オリジナルの電子データを印刷、配信、蓄積、編集などに活用することを可能とする画像処理装置及びその制御方法、プログラムに関するものである。
近年、デジタル化が進み、文書を電子ファイルとしてデータベースに格納されるようになっている。データベース上の電子ファイルを印刷された文書のスキャン画像から手軽に検索する要望が高まっている。これを実現する方法として、文書画像に含まれるテキスト領域や画像領域の位置関係を示すレイアウトを解析し、レイアウト同士を比較する方法が提案されている。特許文献1では、文書画像を領域分割し、その領域の数を絞込条件として領域数の一致する文書の特徴を比較する方法が開示されている。
特開平11−328417号公報
しかしながら、印刷物には、印刷マージンが存在することが一般的であり、電子ファイル上の1ページの文書領域と比べると、印刷物では、文書領域の周りにマージン分の余白が生じている。また、電子ファイル作成時に設定した印刷用紙サイズと異なる用紙サイズに印刷した場合も、電子ファイルの文書領域全体を変形させることなく印刷するためには、縮小を行う必要があり、この場合も文書領域の周りに余白ができてしまう。
このことについて、図7を用いてより詳細に説明する。
701はワープロソフト等で作成された電子ファイル文書をラスタライズしたオリジナル画像である。オリジナル画像には、画像または文字領域702、703が含まれている。
これに対し、706は、電子ファイル文書のオリジナル画像701を印刷し、スキャナで読み込んだスキャン画像である。スキャン画像706では、印刷マージン等による余白(715、716)が存在するために、文書領域707がオリジナル画像701に対して少し縮小されてしまう。
これに伴って、オリジナル画像701中に含まれる画像または文字領域702、703は、スキャン画像706ではそれぞれ領域708、709に対応しているが、少し縮小される。なおかつ、それぞれの位置は、スキャン画像706の重心714方向にずれてしまう。
704は画像または文字領域702の重心である。705は画像または文字領域703の重心である。それぞれの重心と同じ位置をスキャン画像706中にプロットすると、これは位置712、713となる。これに対し、画像または文字領域708の重心710、画像または文字領域709の重心711は、重心714の方向にずれている。
このように、オリジナル画像701とスキャン画像706のレイアウトにはずれが生じているために、これらの両者でレイアウト比較を実行しても、高い類似度が得られなくなる。もし、これを許容するように、条件を緩めて曖昧に比較すると、オリジナルでない画像も、候補としてヒットするようになってしまう。
特許文献1によれば、上述のような拡大縮小等の影響をさけるために、画像全体の大きさを用いて、各領域の正規化を行っている。
しかしながら、前述のようにスキャン画像では文書領域のまわりに、オリジナル画像にはない印刷マージン等による余白領域があるために、画像全体の大きさを用いて正規化を行っても、各領域の位置のずれは吸収できない。よって、このような場合に、レイアウト比較を実行しても、やはり高い精度は得られない。
本発明は上記の課題に鑑みてなされたものであり、比較対象画像に印刷マージン等による余白領域が存在する場合でも、高精度なレイアウト比較を可能とする画像処理装置及びその制御方法、プログラムを提供することを目的とする。
上記の目的を達成するための本発明による画像処理装置は以下の構成を備える。即ち、
画像の類似比較処理を実行する画像処理装置であって、
比較先画像を記憶する記憶手段と、
印刷物を電子的に読み取り、その印刷物の電子データを比較元画像として入力する入力手段と、
前記比較元画像から、複数の部分領域を抽出する抽出手段と、
前記比較元画像の重心と前記抽出手段により前記比較元画像から抽出した第1の部分領域の重心を結ぶ第1の直線の長さと、前記比較元画像の重心と前記抽出手段により前記比較元画像から抽出した第2の部分領域の重心とを結ぶ第2の直線の長さとの比に基づいて前記記憶手段から前記比較元画像に対応する比較先画像を検索する検索手段と
を備える。
また、好ましくは、前記検索手段が、さらに、前記第1の直線と前記第2の直線それぞれと、基準線とがなす角である第1の角度と第2の角度に基づいて前記比較元画像に対応する前記比較先画像を検索する。
また、好ましくは、前記抽出手段により前記比較元画像から抽出される部分領域が1つである場合には、前記検索手段が、さらに、前記比較元画像の重心と前記部分領域の重心とを結ぶ直線の長さに基づいて前記比較元画像に対応する前記比較先画像を検索する。
上記の目的を達成するための本発明による画像処理装置の制御方法は以下の構成を備える。即ち、
比較先画像を記憶する記憶手段と、入力手段と、抽出手段と、検索手段とを備える画像処理装置に類似比較処理を実行させる制御方法であって、
前記入力手段が、印刷物を電子的に読み取り、その印刷物の電子データを比較元画像として入力する入力工程と、
前記抽出手段が、前記比較元画像から、複数の部分領域を抽出する抽出工程と、
前記検索手段が、前記比較元画像の重心と前記抽出工程により前記比較元画像から抽出した第1の部分領域の重心を結ぶ第1の直線の長さと、前記比較元画像の重心と前記抽出工程により前記比較元画像から抽出した第2の部分領域の重心とを結ぶ第2の直線の長さとの比に基づいて前記記憶手段から前記比較元画像に対応する比較先画像を検索する検索工程と
を備える。
上記の目的を達成するための本発明によるプログラムは以下の構成を備える。即ち、
コンピュータに、
印刷物を電子的に読み取り、その印刷物の電子データを比較元画像として入力する入力工程と、
前記比較元画像から、複数の部分領域を抽出する抽出工程と、
前記比較元画像の重心と前記抽出工程により前記比較元画像から抽出した第1の部分領域の重心を結ぶ第1の直線の長さと、前記比較元画像の重心と前記抽出工程により前記比較元画像から抽出した第2の部分領域の重心とを結ぶ第2の直線の長さとの比に基づいて比較先画像を記憶する記憶手段から前記比較元画像に対応する比較先画像を検索する検索工程と
をコンピュータに実行させることを特徴とする。
以上説明したように、本発明によれば、比較対象画像に印刷マージン等による余白領域が存在する場合でも、高精度なレイアウト比較を可能とする画像処理装置及びその制御方法、プログラムを提供できる。
以下、本発明の実施の形態について図面を用いて詳細に説明する。
図1は本発明の実施形態の画像処理システムの構成を示すブロック図である。
この画像処理システムは、オフィス10とオフィス20とをインターネット等のネットワーク104で接続された環境で実現する。
オフィス10内に構築されたLAN107には、複数種類の機能を実現する複合機であるMFP(Multi Function Peripheral)100が接続されている。また、このLAN107には、MFP100を制御するマネージメントPC101、クライアントPC102、文書管理サーバ106及びそのデータベース105、及びプロキシサーバ103が接続されている。
オフィス10内のLAN107及びオフィス20内のLAN108は、双方のオフィスのプロキシサーバ103を介してネットワーク104に接続されている。
MFP100は、特に、紙文書を電子的に読み取る画像読取部と、画像読取部から得られる画像信号に対する画像処理を実行する画像処理部を有し、この画像信号はLAN109を介してマネージメントPC101に送信することができる。
マネージメントPC101は、通常のPCであり、内部に画像記憶部、画像処理部、表示部、入力部等の各種構成要素を有するが、その構成要素の一部はMFP100に一体化して構成されている。
尚、ネットワーク104は、典型的にはインターネットやLANやWANや電話回線、専用デジタル回線、ATMやフレームリレー回線、通信衛星回線、ケーブルテレビ回線、データ放送用無線回線等のいずれかである。または、ネットワーク104は、これらの組み合わせにより実現されるいわゆる通信ネットワークであり、データの送受信が可能であれば良い。
また、マネージメントPC101、クライアントPC102、文書管理サーバ等の各種端末はそれぞれ、汎用コンピュータに搭載される標準的な構成要素を有している。この標準的な構成要素には、例えば、CPU、RAM、ROM、ハードディスク、外部記憶装置、ネットワークインタフェース、ディスプレイ、キーボード、マウス等がある。
次に、MFP100の詳細構成について、図2を用いて説明する。
図2は本発明の実施形態のMFPの詳細構成を示すブロック図である。
図2において、原稿台とオートドキュメントフィーダ(ADF)を含む画像読取部110は、束状のあるいは1枚の原稿画像を光源(不図示)で照射し、原稿反射像をレンズで固体撮像素子上に結像する。これにより、画像読取部110は、その固体撮像素子からラスタ状の画像読取信号を所定密度(例えば、600DPI)のラスタ画像として得る。
また、MFP100は、画像読取信号に対応する画像を印刷部112で記録媒体に印刷する複写機能を有する。特に、原稿画像を1つ複写する場合には、この画像読取信号をデータ処理部115で画像処理して記録信号を生成し、これを印刷部112によって記録媒体上に印刷させる。一方、原稿画像を複数複写する場合には、記憶部111に一旦一つ分の記録信号を記憶保持させた後、これを印刷部112に順次出力して記録媒体上に印刷させる。
一方、クライアントPC102から出力される記録信号は、LAN107及びネットワークI/F114を介してデータ処理部115が受信し、データ処理部115は、その記録信号を印刷部112で記録可能なラスターデータに変換する。その後、印刷部112によってそのラスターデータを記録媒体上に印刷させる。
MFP100への操作者の指示は、MFP100に装備されたキー操作部とマネージメントPC101に接続されたキーボード及びマウスからなる入力部113から行われ、これら一連の動作はデータ処理部115内の制御部(不図示)で制御される。また、操作入力の状態表示及び処理中の画像データの表示は、表示部116で行われる。
記憶部111は、マネージメントPC101からも制御され、MFP100とマネージメントPC101とのデータの送受信及び制御は、ネットワークI/F117及びLAN109を介して行われる。
尚、MFP100では、後述する各種処理を実行するための各種操作・表示をユーザに提供するユーザインタフェースを、表示部116及び入力部113によって実現している。
本発明による画像処理システムで実行する処理としては、大きく分けて画像データを登録する登録処理と、所望の画像データを検索する検索処理の2つがある。
尚、実施形態では、画像処理システム全体の処理効率を向上するために、以下に説明する各種処理を、画像処理システムを構成する各種端末に分散させて実行するようにしているが、1つの端末(例えば、MFP100)上で実行するようにしても構わない。
まず、登録処理について説明する。
[登録処理の概要]
登録対象の画像データの登録方法としては、紙文書をスキャン入力して生成した画像データを登録する場合と、文書作成アプリケーション等で作成された電子文書をラスタ画像に展開した画像データを登録する場合がある。
そこで、オリジナル文書を登録する登録処理の概要について、図3Aを用いて説明する。
図3Aは本発明の実施形態の登録処理を示すフローチャートである。
尚、この処理は、画像読取部110のADFに、登録対象の紙文書がセットされ、入力部113の登録ボタンが操作された時点で開始される。また、登録対象の紙文書は、1枚でも複数枚でも可能であるが、複数枚の場合は、その紙文書から得られる画像データ群(ページ画像群)を1つのファイルとして管理することになる。
まず、ステップS3010で、登録対象のオリジナル文書を入力する。また、この入力に伴って、オリジナル文書を管理するための各種情報を生成して記憶部111に記憶する。
尚、オリジナル文書を登録する際のオリジナル文書の入力方法には、2種類存在する。
オリジナル文書が電子データである場合は、クライアントPC102内のハードディスク内、あるいはオフィス10や20内の文書管理サーバ106内のデータベース105内、あるいはMFP100の記憶部111のいずれかに格納されている。そして、これらの記憶元から登録対象のオリジナル文書の電子データを読み出してネットワークI/F114を介してデータ処理部115に入力し、データ処理部115でその電子データをラスタ画像に変換する。
一方、オリジナル文書が紙文書である場合は、MFP100の画像読取部110で、その紙文書をラスタ状に走査しラスタ画像を得る。
このように、実施形態では、登録対象のオリジナル文書に、電子データあるいは紙文書のどちらも扱うことが可能である。その後、ラスタ画像をデータ処理部115で前処理を施し記憶部111に保存する(尚、これ以降、紙文書のときはラスタ画像がオリジナル文書の電子データとなる)。このとき、登録対象のオリジナル文書毎に固有の文書IDを発行し、オリジナル文書の電子データのアドレスと対応付けて記憶部111にアドレス情報として保存する。
ここで、アドレスとは、URLや、サーバ名とディレクトリ、ファイル名からなる電子データの格納先を示すフルパス情報である。また、アドレス情報の一例を示すと、図4のようになる。また、アドレス情報の格納先は、データベース105や記憶部111等が挙げられる。
尚、オリジナル文書が紙文書である場合の電子データのファイル形式は、例えば、BMP形式とするが、これに限定されるものではなく、色情報を保存しておくことが可能なファイル形式(例えば、GIF、JPEG)であればどのようなものでも良い。
一方、オリジナル文書が電子データである場合のその電子データのファイル形式は、その電子データを作成したアプリケーションで作成されたファイル形式となる。このファイル形式には、例えば、米マイクロソフト社のMS−Word(*.doc)や、米アドビシステム社のアクロバット(*.pdf)等)がある。
次に、ステップS3020で、ブロックセレクション(BS)処理を行う。この処理は、マネージメントPC101の制御によって実行する。
具体的には、マネージメントPC101のCPUは、記憶部111に格納された処理対象のオリジナル文書のラスタ画像を、まず、文字/線画部分とハーフトーン画像部分とに領域分割する。次に、文字/線画部分は更に段落で塊として纏まっているブロック毎に、あるいは線で構成された表、図形毎に分割する。
一方、ハーフトーン画像部分は、矩形に分離されたブロックの画像部分、背景部分等のブロックに分割する。
そして、処理対象のページのページ番号、そのページ中の各ブロックを特定するブロックIDを発行する。これを、各ブロックの属性(画像、文字等)、サイズやオリジナル文書内の位置(ページ内の座標)と各ブロックを関連付けて記憶部111に、レイアウト情報、ブロック情報として記憶する。このレイアウト情報及びブロック情報の一例を示すと、図5及び図6のようになる。これらの詳細については後述する。
次に、ステップS3030で、データ処理部115において、各ブロックの種別に応じて、各ブロックの特徴量情報を抽出する特徴量情報抽出処理を行う。
特に、文字ブロックについては、OCR処理を施して文字コードを抽出し、これを文字特徴量とする。また、画像ブロックについては、輝度や色に関する画像特徴量を抽出する。このとき、それぞれのブロックに対応する特徴量をオリジナル文書単位にまとめ、文書ID、ページ番号、ブロックIDに関連付けて記憶部111に特徴量情報として記憶する。
[検索処理の概要]
オリジナル文書の電子データを検索する検索処理の概要について、図3Bを用いて説明する。
図3Bは本発明の実施形態の検索処理を示すフローチャートである。
まず、ステップS3110で、検索条件となる紙文書の入力を行う。この処理は、ステップS3010の処理と同様であるので説明は省略する。但し、この処理によって生成するラスタ画像は一時保存するだけであり、その紙文書に対するアドレス情報を記憶部111に保存しておく必要はない。
次に、ステップS3120で、ラスタ画像中の画像領域に対して、ブロックセレクション(BS)処理を行う。
尚、このブロックセレクション処理自体は、ステップS3020のブロックセレクション処理と同様であるので説明は省略する。但し、このブロックセレクション処理によって生成する各ブロックの属性、サイズ、位置は一時保存するだけであり、その紙文書に対するブロック情報は記憶部111に保存しておく必要はない。
次に、ステップS3130で、各ブロックの特徴量情報を抽出する特徴量情報抽出処理を行う。この処理は、ステップS3030の処理と同様であるので説明は省略する。但し、この処理によって生成する各ブロックの特徴量は一時保存するだけであり、その紙文書に対する特徴量情報を記憶部111に保存しておく必要はない。
次に、ステップS3135で、入力した紙文書中の画像(比較元画像)と、電子データ(比較先画像)間で、対応するレイアウト情報及びブロック情報に基づくレイアウト比較処理を実行する。そして、このレイアウト比較処理結果から、検索結果とするオリジナル文書候補の絞込みを行う。
次に、ステップS3140で、入力した紙文書中の画像(比較元画像)と、電子データ(比較先画像)間で、対応する特徴量情報を比較して、その類似度を算出し、その類似度に基づいて、検索結果とするオリジナル文書候補を決定する。この電子データは、クライアントPC102内のハードディスク内、あるいはオフィス10や20内の文書管理サーバ106内のデータベース105内、あるいはMFP100の記憶部111のいずれかに格納されている。
次に、ステップS3150で、ユーザ確認モードであるか否かを判定する。
尚、ユーザ確認モードとは、比較処理によって得られたオリジナル文書候補の中から、ユーザが所望するオリジナル文書が検索されたか否かを確認するモードである。具体的には、オリジナル文書候補群を含むユーザインタフェースを表示部116・入力部113で実現する。そして、このユーザインタフェースによって、オリジナル文書候補群の内容をユーザが確認することができるモードである。また、このユーザインタフェースの構成の詳細については後述する。
ステップS3150において、ユーザ確認モードでない場合(ステップS3150でNO)、比較処理で最も類似していると判断された文書を自動的に選択して、ステップS3170に進む。一方、ユーザ確認モードである場合(ステップS3150でYES)、ステップS3160に進み、オリジナル文書候補の表示/選択を行う。特に、この選択は、オリジナル文書候補のサムネイル画像を表示部116に表示し、複数のオリジナル文書候補の中からユーザが所望のオリジナル文書候補のサムネイル画像を選択させることで実現する。
次に、ステップS3170で、選択されたオリジナル文書に対し、表示部106・入力部114で実現されるユーザインタフェースを介するユーザからの操作に基いて、そのオリジナル文書の印刷、配信、蓄積、編集のいずれかの処理を実行する。
以上説明したように、処理対象の文書に、ブロックセレクション処理、特徴量情報抽出処理、レイアウト比較処理を行い、これらの処理結果を用いて、各ページ毎に順に類似画像検索を実行する。これにより、その文書に対応する電子データを検索し、活用することができる。
[各処理の詳細]
以下、各処理の詳細について説明する。
まず、ステップS3020及びステップS3120のブロックセレクション処理の詳細について説明する。
ブロックセレクション処理とは、例えば、図9(a)のラスタ画像を、図9(b)のように、意味のあるブロック毎の塊として認識する。そして、そのブロック各々の属性(文字(TEXT)/図画(PICTURE)/写真(PHOTO)/線(LINE)/表(TABLE)等)を判定し、異なる属性を持つブロックに分割する処理である。
ブロックセレクション処理の実施形態を以下に説明する。
まず、入力画像を白黒に二値化し、輪郭線追跡を行って黒画素輪郭で囲まれる画素の塊を抽出する。面積の大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡を行って白画素の塊を抽出、さらに一定面積以上の白画素の塊の内部からは再帰的に黒画素の塊を抽出する。
このようにして得られた黒画素の塊を、大きさ及び形状で分類し、異なる属性を持つブロックへ分類していく。例えば、縦横比が1に近く、大きさが一定の範囲のブロックは文字相当の画素塊とし、さらに近接する文字が整列良くグループ化可能な部分を文字ブロック、扁平な画素塊を線ブロックとする。また、一定大きさ以上でかつ矩形の白画素塊を整列よく内包する黒画素塊の占める範囲を表ブロック、不定形の画素塊が散在している領域を写真ブロック、それ以外の任意形状の画素塊を図画ブロックとする。
そして、ブロックセレクション処理で分割した文字領域(文字ブロック)と画像領域(写真ブロック、図画ブロック等)のページ内の構成を示す情報を、レイアウト情報として記憶する。レイアウト情報は、位置を表す座標系や、データのまとめ方などによって、複数の記述形式が複数存在する。
望ましい記述形式は、図3BのステップS3135のレイアウト比較処理と密接に関係がある。そこで、まず、本実施形態のレイアウト比較処理の要点を説明する。
図7を用いて「発明が解決しようとする課題」で説明したように、印刷マージン等により、余白が存在する印刷物のスキャン画像である場合は、文書中のブロック(画像または文字領域)が、そのオリジナル画像に対して重心方向にずれる。
これに対し、ブロック同士の位置関係は変わらないので、重心方向以外の方向(特に、重心方向に対して垂直な方向)には、全くずれが生じない。このことを利用して、ブロックの配置の比較をする際には、重心方向の位置ずれに対してのみ緩い条件でレイアウト比較を実行すればよい。
また、位置ずれ量に比例してブロックが、縮小されているので、この条件を用いることで、より精度の高い比較を行うことができる。
以上の点を考慮して、本実施形態では、図8に示すように、文書中のブロックの位置を表現する。
図8に示す座標系は、極座標である。801は文書領域であり、802及び803はブロックである。ブロック802及び803の重心が、それぞれ804及び805である。そして、ブロック802及び803の位置はそれぞれ、重心804及び805と原点(文書領域801の重心)811を結ぶ直線の角度806及び807と、距離809及び810で表現する。
本座標系において、文書領域801の重心方向の位置ずれに対してのみ緩い条件でレイアウト比較を実行するとは、以下のようになる。
まず、重心方向以外の方向に対してずれがない条件については、比較元画像と比較先画像中のブロックの重心の角度(ブロック角度)が同じであれば、原点(文書領域の重心)から2つのブロックの重心が同一直線上にあることになる。そのため、このような場合は、この条件を満足することができる。
一方、文書領域の重心方向に対するずれについての緩い条件については、比較元画像と比較先画像に含まれる全てのブロックの原点からの距離(以下、ブロック距離)の差を、所定値の範囲内でみることで、この条件を満足することができる。
ここで、通常は、文書中には複数のブロックが含まれるので、文書領域中のブロックの重心方向に対するずれについての緩い条件については、次のような条件であってもよい。
即ち、各ブロック距離の比(以下、ブロック距離比)という相対値を使用すれば、位置関係は保持しつつ、絶対値に依存しないので、距離の差の所定値という条件は必要なくなる。
例えば、比較元画像中にブロックが2つ存在し、ブロック距離がそれぞれ50、100であるときに、比較先画像中の2つのブロックのブロック距離がそれぞれ60、120であるときは、どちらもブロック距離比が1:2となる。このような場合、比較元画像と比較先画像中のブロックは類似しているものとして取り扱う。但し、ブロック距離比をとる順序が、比較元画像と比較先画像で異なっていてはいけないので、基準線に最も近いブロックから左回りに、というように規定を設けておくようにする。
尚、文書中にブロックがひとつしか含まれないような特殊なケースの場合は、ブロック距離比を取ることができないので、原点から距離そのものを比較し、差が所定値の範囲内であるか否かを判定する。そして、その判定結果に基づいて、類似しているか否かを判定する。
また、ブロックの重心と原点が一致する場合は、ブロックの位置ずれは起こり得ないので、対象外となる。
以上のことを利用して、予め文書を登録する際に、文書中の画像または文字領域の数、ブロック角度、ブロック距離比が一致する文書毎に、それに関する各種情報をレイアウト情報としてひとまとめにして記憶部111に記憶しておく。比較の際には、このレイアウト情報を参照して、比較元画像中の、画像または文字領域の数、ブロック角度、ブロック距離比が一致する文書のみを読み出す。そして、その読み出した文書を比較対象とすることができるようになるので、記憶部111の使用効率や、比較速度を向上することができる。
ここで、図5で示したレイアウト情報の詳細について説明する。
図5に示すレイアウト情報では、画像または文字領域(ブロック)の数、ブロック角度、ブロック距離比が一致する文書毎にまとめて管理される。そのため、これらの情報を、比較時のキーとする。即ち、1文書(1ページ)中に含まれるブロック数、各ブロックのブロック角度、ブロック距離比をキーとし、これらが全て一致する文書ID、ページ番号をひとまとめ(文書ID,ページ番号)に記述する。
尚、文書中にブロックがひとつしか存在しないような例外的な場合は、ブロック距離比は記述できないので、ブロック距離そのものを記述しておく。また、ブロックの重心と原点が一致する場合は、ブロック角度、ブロック距離比はともに存在しなくなるので、このような特殊なブロックは、アスペクト比と大きさ、及び、種別だけが手がかりとなる。このような場合は、ブロック角度、ブロック距離比をともに0と記述しておき、比較するときに、これらの値に対応するブロックのみ特別な扱いをする。尚、この扱いの詳細については、後述する。
次に、図6で示したブロック情報の詳細について説明する。
図6に示すブロック情報において、文書IDは、各文書を区別するために付与したIDである。ページ番号は、各文書中の何ページ目かを示す番号である。ブロックIDは、それぞれのブロックを区別するためのもので、1ページ毎に付与される。ブロック単位距離は、ブロック距離比が1のときの実サイズである。アスペクト比は、ブロックの(領域が任意形状の場合はその外接矩形の)アスペクト比である。大きさは、ブロックの大きさであるが、アスペクト比がわかっているので、面積である必要はなく、縦か横のどちらか固定の方向の長さを記述すればよい。種別は、文字/図画/写真/線/表等の属性の種別である。特徴量は、種別に応じた特徴量(文字特徴量(例えば、文字コード)、画像特徴量(例えば、色))が格納される。尚、この詳細については後述する。
次に、ステップS3030及びステップS3130の特徴量情報抽出処理の詳細について説明する。
尚、特徴量情報抽出処理は、画像ブロック及び文字ブロックで処理方法が異なるので、それぞれ別に説明する。
ここで、画像ブロックは、図9(b)の例の場合、写真ブロックと図画ブロックとするが、用途や目的に応じて、画像ブロックを写真ブロック及び図画ブロックの少なくとも一方にすることも可能である。
まず、画像ブロックに対する特徴量情報抽出処理について説明する。
尚、1文書に複数の画像ブロックが存在する場合は、その総数分、以下の処理を繰り返す。
実施形態では、一例として、画像の色に関する色特徴量を抽出する色特徴量情報抽出処理を行う。
この色特徴量情報抽出処理の詳細について、図10を用いて説明する。
図10は本発明の実施形態の色特徴量情報抽出処理の詳細を示すフローチャートである。
尚、この処理では、処理対象画像を複数のメッシュブロックに分割した各メッシュブロックの色ヒストグラム中の最頻色を有する色と各メッシュブロックの位置情報を対応づけた情報を色特徴情報として抽出する。
まず、ステップS1020で、画像を複数のメッシュブロックに分割する。実施形態では、図11に示すように、画像を縦横をそれぞれ9メッシュブロックに分割する。特に、実施形態では、表記の都合上9×9=81メッシュブロックに分割している例を示しているが、実際には、15×15=225メッシュブロック程度であることが好ましい。
次に、ステップS1030で、処理対象となる着目メッシュブロックを左上端のブロックに設定する。尚、この着目メッシュブロックの設定は、例えば、図12(尚、3×3の例で示してある)に示すように、予め処理順序が決定された順序決定テーブルを参照して行う。
ステップS1040で、未処理の着目メッシュブロックの有無を判定する。未処理の着目メッシュブロックがない場合(ステップS1040でNO)、処理を終了する。一方、未処理の着目メッシュブロックがある場合(ステップS1040でYES)、ステップS1050に進む。
ステップS1050で、着目メッシュブロックの全画素の各濃度値を、図13の色空間を分割して作った部分空間である色ビンへ射影し、色ビンに対する色ヒストグラムを生成する。
尚、実施形態では、図13に示すように、RGB色空間を3×3×3=27に分割した色ビンへ着目メッシュブロックの全画素の濃度値を射影する場合を示しているが、これに限定されない。実際には、RGB色空間を6×6×6=216に分割した色ビンへ着目メッシュブロックの全画素の濃度値を射影するほうが好ましい。
ステップS1060で、色ヒストグラムの最頻色ビンの色ビンIDをその着目メッシュブロックの代表色と決定し、その着目メッシュブロックとその位置に対応づけて記憶部111に記憶する。
ステップS1070で、図12の順序決定テーブルを参照して、次の処理対象となる着目メッシュブロックを設定する。その後、ステップS1040に戻り、未処理の着目メッシュブロックがなくなるまで、ステップS1040〜ステップS1070の処理を再帰的に繰り返す。
以上の処理によって、処理対象画像(画像ブロック)のメッシュブロック毎の代表色と各メッシュブロックの位置情報が対応付けられた情報を色特徴量情報として抽出することができる。
次に、文字ブロックに対する特徴量情報抽出処理について説明する。
尚、1文書に複数の文字ブロックが存在する場合は、その総数分、以下の処理を繰り返す。
文字ブロックに対する文字特徴量情報は、その文字ブロックにOCR(文字認識)処理を施して得られる文字コードとする。
OCR(文字認識)処理は、文字ブロックから文字単位で切り出された文字画像に対し、パターンマッチングの一手法を用いて文字認識を行い、対応する文字コードを取得する。
この文字認識処理は、文字画像から得られる特徴を数十次元の数値列に変換した観測特徴ベクトルと、あらかじめ字種毎に求められている辞書特徴ベクトルとを比較し、最も距離の近い字種を認識結果とするものである。
特徴ベクトルの抽出には種々の公知手法があり、例えば、文字をメッシュ状に分割し、各メッシュブロック内の文字線を方向別に線素としてカウントしたメッシュ数次元ベクトルを特徴とする方法がある。
ブロックセレクション処理(ステップS3020あるいはステップS3120)で抽出された文字ブロックに対して文字認識を行う場合は、まず、該当文字ブロックに対し横書き/縦書きの判定を行う。その後、各々対応する方向に文字列を切り出し、その後、文字列から文字を切り出して文字画像を取得する。
横書き/縦書きの判定は、該当文字ブロック内で画素値に対する水平/垂直の射影を取り、水平射影の分散が大きい場合は横書き、垂直射影の分散が大きい場合は縦書きと判定する。文字列及び文字への分解は、横書きの文字ブロックである場合には、その水平方向の射影を利用して行を切り出し、さらに切り出された行に対する垂直方向の射影から、文字を切り出すことで行う。一方、縦書きの文字ブロックに対しては、水平と垂直を逆にすれば良い。
次に、ステップS3135のレイアウト比較処理の詳細について説明する。
図14は本発明の実施形態のレイアウト比較処理の詳細を示すフローチャートである。
尚、このレイアウト比較処理は、大きく分けて次の2段階の処理からなる。まず、ブロックの文書上の配置が一致するか否かを判定した後、個々のブロックが同じ属性(アスペクト比、大きさ、種別等)を有するか否かを判定する。
ステップS1501からステップS1504において、ブロックの文書上の配置が一致するか否かを判定する。
まず、ステップS1501で、クエリとするスキャン画像のブロック数が1であるか否かを判定する。ブロック数が2以上である場合(ステップS1501でNO)、ステップS1502へ進み、クエリのブロック数、ブロック角度、ブロック距離比を、レイアウト情報群の中のレイアウト情報のものと比較する。
尚、レイアウト情報は検索開始時には、記憶部111上に全て読み込んでおく。そして、上述したように、このレイアウト情報を用いて、ブロック数、ブロック角度、ブロック距離比を比較すれば、ブロックの重心方向の位置ずれのみを許容した比較ができる。
一方、ステップS1501において、ブロック数が1である場合(ステップS1501でYES)、ステップS1503に進み、レイアウト情報群の中のレイアウト情報のブロック数が1であるものと、ブロック角度とブロック距離を比較する。
上述のように、文書中のブロック数が1つのときは、ブロック距離比を取ることはできない。そのため、この場合は、ブロック比にはブロック距離が記述されており、このブロック距離を用いて直接比較する。但し、重心方向のずれを許容するために、所定閾値以内の差であれば、一致するとみなす。
次に、ステップS1504で、一致するレイアウト情報の有無を判定する。一致するレイアウト情報がある場合(ステップS1504でYES)、ブロックの配置がクエリと同じであるので、次に、ブロック同士の属性が一致するか否かを、ステップS1506からステップS1512において判定する。一方、ステップS1504において、一致するレイアウト情報がない場合(ステップS1504でNO)、ステップS1505に進み、候補なしと出力して、本処理を終了する。
ステップS1506で、クエリと一致するレイアウト情報の文書ID、ページ番号群を参照して、対応するブロック情報を全て記憶部111からメモリ上に読み出す。次に、ステップS1507において、アスペクト比、種別が一致するか否かを判定する。アスペクト比、種別が一致しない場合(ステップS1507でNO)、ステップS1508からステップS1511までの処理はスキップして、ステップS1512に進む。
一方、アスペクト比、種別が一致する場合(ステップS1507でYES)、ステップS1508に進み、縮小率の推定を実行する。これは、ブロック情報中のブロック単位距離を参照して、クエリのブロック単位距離と比較し、差分から縮小率を推定するものである。縮小されるとブロック距離は小さくなり、逆に拡大されると大きくなる。その度合いは、クエリのブロック距離との差分に比例する。そこで、ブロック距離の差分と縮小率との関係を統計的に算出しておき、得られるブロック距離との差分から縮小率を推定することができる。
次に、ステップS1509で、ステップS1508で算出した縮小率を考慮して大きさが一致するか否かを判定する。大きさが一致しない場合(ステップS1509でNO)、ステップS1510からステップS1511までの処理はスキップして、ステップS1512にする。
一方、大きさが一致する場合(ステップS1509でYES)、ステップS1510に進み、同じ文書ID、ページIDに含まれる全てのブロックについて、ステップS1507からステップS1509までの処理を実行したか否かを判定する。未処理ブロックが存在する場合(ステップS1510でNO)、ステップS1507からステップS1509までの処理を繰り返す。
一方、全てのブロックについて処理を実行している場合(ステップS1510でYES)、ステップS1511に進む。ステップS1511に処理が進むときは、全てのブロックについてアスペクト比、種別、大きさが一致したということになるので、文書ID、ページIDを候補としてメモリ上に一時記憶する。
次に、ステップS1512で、読み込んだ全ての文書ID、ページ番号のブロックについて、ステップS1507からステップS1511までの処理を実行したか否かを判定する。未処理の文書/ページがある場合(ステップS1512でNO)、ステップS1507からステップS1511までの処理を繰り返す。一方、全ての文書/ページについて処理を実行している場合(ステップS1512でYES)、レイアウト比較処理を終了する。
尚、文書の真中にブロックがある場合(ブロックの重心と原点(文書領域の重心)が一致する場合)は、次のように例外的に処理される。この場合、上述のように、ブロック角度、ブロック距離が存在しないので、ブロックの文書上の配置の比較(ステップS1501からステップS1504)では、対象外として扱う。個々のブロックの属性の比較では、大きさは、縮小率を算定できないので、アスペクト比、種別のみで判定(ステップS1507)することになる。
次に、ステップS3140の特徴量情報比較処理の詳細について、図15を用いて説明する。
図15は本発明の実施形態の特徴量情報比較処理の詳細を示すフローチャートである。
尚、この特徴量情報比較処理は、レイアウト比較処理(図14)によって絞り込んだ(検索された)検索候補の文書ID、ページ番号の全てについて行うまで処理を繰り返す。
まず、ステップS1610で、ブロック情報を参照し、処理対象となる文書ID、ページ番号に対応する電子データ中で、未比較のブロックの有無を判定する。未比較のブロックがない場合(ステップS1610でNO)、ステップS1670に進む。一方、未比較のブロックがある場合(ステップS1610でYES)、ステップS1620に進む。
次に、ステップS1620で、比較対象のブロックの属性を判定する。属性が画像ブロックである場合、ステップS1640へ進む。一方、属性が文字ブロックである場合、ステップS1660へ進む。
属性が画像ブロックである場合、ステップS1640で、色に関する特徴量情報で比較先ブロックとの類似比較である色特徴量情報比較処理を行う。この処理の詳細については後述する。これによって得られる類似度は、比較先の文書ID、ページ番号、ブロックIDに対応させて記憶部111に一時記憶する。
一方、属性が文字ブロックである場合、ステップS1660で、文字の特徴量情報での比較元ブロックと比較先ブロックとの類似比較である文字特徴量情報比較処理を行う。この処理の詳細については後述する。また、これによって得られる類似度は、比較先の文書ID、ページ番号、ブロックIDに対応させて記憶部111に一時記憶する。
次に、ステップS1610において、全てのブロックとの比較が終了した場合(ステップS1610でNO)、ステップS1670に進む。
ステップS1670で、検索条件である紙文書とオリジナル文書中のページとの類似度を算出する統合処理を行う。これは、ステップS1640及びステップS1660の処理によって記憶部111に記憶されている、比較先文書(電子データ)のページに含まれる全てのブロックの類似度を統合するものである。この処理の詳細については後述する。
次に、ステップS1640の色特徴量情報比較処理の詳細について、図16を用いて説明する。
図16は本発明の実施形態の色特徴量情報比較処理の詳細を示すフローチャートである。
まず、ステップS1710で、比較元画像ブロックと比較先画像ブロックの色特徴量を色特徴量情報から読み出す。
次に、ステップS1720で、処理対象とする画像ブロック中の着目メッシュブロックを先頭に設定する。ステップS1730で、比較元画像ブロックの色特徴量と、比較対象の色特徴量の類似度を示す類似距離を0にリセットする。
ステップS1740で、未比較の着目メッシュブロックの有無を判定する。未比較の着目メッシュブロックがない場合(ステップS1740でNO)、ステップS1780に進む。一方、未比較の着目メッシュブロックがある場合(ステップS1740でYES)、ステップS1750に進む。
ステップS1750で、比較元画像と比較先画像のそれぞれの色特徴量から、それぞれの着目メッシュブロックの色ビンIDを取得する。
ステップS1760で、図17の色ビンペナルティマトリックスを参照して、取得した色ビンID間に対応する着目メッシュブロックの局所的類似距離を取得し、これを直前の処理で取得している類似距離に累積加算する。そして、この類似距離は記憶部111に記憶する。
ここで、色ビンペナルティマトリックスについて、図17を用いて説明する。
図17は本発明の実施形態の色ビンペナルティマトリックスの構成を示す図である。
色ビンペナルティマトリックスは、色ビンID同士の局所的類似距離を管理するマトリックスである。図17によれば、色ビンペナルティマトリックスは、同一色ビンIDではその類似距離は0となり、色ビンID同士の差が大きくなるほど、つまり、類似度が低くなるほど、その類似距離は大きくなるように構成されている。また、同一色ビンIDの対角位置は全て、その類似距離は0で、それを境に対象性を持っている。
このように、実施形態では、色ビンペナルティマトリックスを参照するだけで、色ビンID同士の類似距離を取得することができるので、処理の高速化を図ることができる。
そして、ステップS1770で、図12の順序決定テーブルを参照して、次の処理対象となる着目メッシュブロックを設定する。その後、ステップS1740に戻る。
そして、ステップS1740で、未比較の着目メッシュブロックがない場合(ステップS1740でNO)、ステップS1780に進み、記憶部111に記憶されている類似距離を類似度に変換し、ブロックIDと対にして出力する。
尚、類似度への変換は、例えば、類似距離が最小値のときを類似度100%、類似距離が最大値のときを類似度0%として、その範囲内の類似距離に対する類似度は、最小値あるいは最大値に対する差に基づいて算出するようにすれば良い。
次に、ステップS1660の文字特徴量情報比較処理の詳細について説明する。
この処理では、比較元画像と比較先画像中のそれぞれの文字ブロック内の各文字コード同士の比較を行い、その一致度から類似度を算出する。
尚、検索条件とする紙文書とオリジナル文書との比較である場合、類似度は100%となるのが理想的である。しかしながら、実際には、検索条件となる紙文書中の文字ブロックに対するOCR処理では誤認識が発生する場合があるので、オリジナル文書との比較であっても、類似度は100%にならないことはあるが、かなり100%に近い値となる。
次に、ステップS1670の統合処理の詳細について説明する。
この統合処理では、比較先画像であるオリジナル文書内で占めている割合の大きいブロックの類似度が、オリジナル文書全体の類似度としてより大きく反映されるような、算出されたブロック毎の類似度の統合を行う。
例えば、オリジナル文書中のブロックB1〜B6に対し、ブロック毎の類似率がn1〜n6と算出されたとする。このときオリジナル文書全体の総合類似率Nは、以下の式で表現される。
N=w1*n1+w2*n2+w3*n3+ ・・・ +w6*n6 (1)
ここで、w1〜W6は、各ブロックの類似率を評価する重み係数である。重み係数w1〜w6は、ブロックのオリジナル文書内の占有率により算出する。例えば、ブロック1〜6のサイズをS1〜S6とすると、ブロック1の占有率w1は、
w1=S1/(S1+S2+・・・+S6) (2)
として算出することができる。
このような占有率を用いた重み付け処理により、オリジナル文書内で大きな領域を占めるブロックの類似度がより、オリジナル文書全体の類似度に反映することができる。
次に、ステップS3150及びステップS3160に示す確認モード時の処理の詳細について説明する。
確認モードは、ユーザが予めユーザインタフェースから指定してもよいし、確認モードにするべきか否かを自動で判定しても良い。自動判定の方法としては、次の方法がある。例えば、検索されたオリジナル文書候補が1つの場合は、「非確認モード」としてステップS3170に進む。または、1位のオリジナル文書候補と2位以降のオリジナル文書候補のそれぞれ類似度の差が所定値以上で、1位のオリジナル文書候補が所望とするオリジナル文書である可能性が高い場合は、「非確認モード」としてステップS3170に進みむ。一方、そうでない場合は、「確認モード」とする。
「確認モード」の際は、MFP100の表示部110と入力部113で実現されるユーザインタフェースに、オリジナル文書候補群を類似度の高い順に表示して、その中から所望のオリジナル文書の選択をユーザに行ってもらう。
このように、確認モードの実行の有無を自動判定する場合は、ユーザによるオリジナル文書の選択操作が不要となるので、操作工数を低減することができる。
ここで、確認モード時のユーザインタフェースの一例について、図18を用いて説明する。
図18は本発明の実施形態のユーザインタフェースの一例を示す図である。
2311は表示・操作パネルである。2312〜2315は各種機能ボタンであり、それぞれの機能ボタン2312〜2315は、処理対象の画像の印刷指示、配信指示、蓄積指示及び編集指示を行うためのものである。
2316はスタートボタンであり、押下することで、機能ボタンで選択した機能を実行させることができる。
2317は表示領域であり、タッチパネルで構成され、ユーザが直接画面に触れることで選択指示が可能である。2318はモード表示領域であり、図18では、確認モードであることを示している。通常は自動判定されたモードを表示する。また、これに触れることで、「確認モード」と「非確認モード」をユーザがサイクリックに指定することができる。
2319〜2328は、検索結果として出力するオリジナル文書候補のサムネイル画像群である。このサムネイル画像の表示は、2319から番号順に類似度の高い順で表示されている。
この例では、最大10のサムネイル画像が表示され、オリジナル文書候補が10以上である場合には、上位10までのサムネイル画像が表示される。そして、このサムネイル画像群2319〜2328から、所望するサムネイル画像を選択することで、所望のオリジナル文書を選択することが可能であり、その選択したオリジナル文書に対する各種処理を実行することが可能となる。
以上説明したように、本実施形態によれば、スキャン画像とオリジナル画像間で生じる余白領域や画像または文字領域の位置ずれを考慮して、両者のレイアウト比較を実行する。これにより、印刷マージン等による余白が存在するスキャン画像から、それに対応するオリジナルの電子データを高精度に検索することができる。
<その他の実施形態>
上述のように、本発明のレイアウト比較処理の要点は、ブロックの配置の比較をする際には、重心方向の位置ずれに対してのみ緩い条件で比較をする点にある。この主旨に沿ったレイアウト比較方法であれば、上記実施形態で説明した方法でなくとも、もちろん構わない。例えば、以下の方法がある。
比較先画像(例えば、オリジナル画像)と比較元画像(例えば、スキャン画像)中のブロックにおいて、ブロック同士の重なり具合を面積で判定することで、レイアウト比較処理を実現する方法について説明する。
図19はこの処理の概要を説明するための図である。
1901はオリジナル(電子データ)画像中のブロック、1902はクエリ(スキャン画像)中のブロックであり、オリジナル画像とスキャン画像を合わせて重ねた場合に、両者のブロックを重ね合わせた場合を描画している。1903の横線の領域は2つのブロック1901及び1902が重なっている重複領域である。この重複領域1903の面積が、ブロック1901及びブロック1902の両方の面積に対して、100%で一致していれば、ブロックの位置、アスペクト比、大きさの全てが一致していることになる。
上述のように、クエリとなるスキャン画像中に印刷マージン等による空白が存在する場合は、オリジナル画像中のブロック1901より、スキャン画像中のブロック1902は、文書領域の重心(1904)方向にずれている。これに加えて、スキャン画像中のブロック1902は、オリジナル画像中のブロック1901に対して縮小されるため、面積が小さくなっている。
これらのことを考慮するために、まず、オリジナル画像中のブロック1901の重心1905と、スキャン画像中のブロック1902の重心1906と、文書領域の重心1904が同一直線上であるか否かを判定する。この判定の結果、これらの重心が同一直線上である場合には、重心1905と重心1906の距離から、上述の実施形態と同様に縮小率を推定し、この縮小率でブロック1901を縮小した後、ブロック1902と重なるように、移動させる。
そして、重複領域1903の面積が、ブロック1901、ブロック1902の両方の面積に対して、100%で一致するか否かを判定する。そして、その判定の結果、一致している場合には、ブロックの種別が一致しているか否かを判定する。そして、この判定の結果に基づいて、ブロックが完全に一致しているか否かを判定することができる。
文書内の全てのブロックに対して、以上の処理を行えば、レイアウトが一致しているか否かを判定することができる。本方法の長所は、ブロックの配置と同時に、ブロックのアスペクト比、大きさが一致しているか否かも同時に判定できる点にある。
尚、以上の処理において、ブロックの位置を表現する座標として、上述の実施形態と同様に、座標系を極座標で表現していれば、同一直線上であるか否かは、角度が同じであるか否かを判定することで実現できるので、最も容易である。しかしながら、座標系は、これに限定されるものでなく、例えば、画像の左上を原点とするXY座標系であっても、他の座標系であっても、本方法で必要な判定が行える座標系であれば、どのようなものでも構わない。
本実施形態では、ブロックの重心を極座標で表現したが、他の座標系で表現されていても構わない。この場合、その他の座標系から極座標系に変換してから、レイアウト比較処理を実行する。
本実施形態では、重心方向の位置ずれのみ許容するようにしているが、重心方向以外の方向よりも重心方向をより広く許容する点が本発明の主旨である。換言すれば、レイアウト比較において、画像の重心方向の位置をずらして比較する場合の位置ずれ量を他の方向の位置ずれ量よりも大きくして比較する点が本発明の主旨である。従って、例えば、印刷時の微小な位置ずれなどに対処するために、重心方向以外の方向の微小な位置ずれも許容するようにしてもよい。例えば、本実施形態の極座標であれば、ブロック角度が1度未満のような微小な角度の違いは許容するようにすればよい。
本実施形態のレイアウト比較処理は、特徴量情報比較処理に用いる検索候補を絞り込むためのプリサーチとして使用しているが、このプリサーチはより高速に、検索候補(本サーチの検索対象)を絞り込むことが要求される。そこで、十分な候補の絞込みが行えるならば、レイアウト比較を部分的に使用する方法もある。例えば、ブロックの文書上の配置の判定までをプリサーチとして利用し、ブロックの属性比較と特徴量比較を同時に本サーチとして行うようにしても構わない。
以上、実施形態例を詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム(実施形態では図に示すフローチャートに対応したプログラム)を、システムあるいは装置に直接あるいは遠隔から供給する。そして、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。
プログラムを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスクがある。また、更に、記録媒体としては、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続する。そして、その接続先のホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせる。そして、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。また、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。その後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。
本発明の実施形態の画像処理システムの構成を示すブロック図である。 本発明の実施形態のMFPの詳細構成を示すブロック図である。 本発明の実施形態の登録処理を示すフローチャートである。 本発明の実施形態の検索処理を示すフローチャートである。 本発明の実施形態のアドレス情報の一例を示す図である。 本発明の実施形態のレイアウト情報の一例を示す図である。 本発明の実施形態のブロック情報の一例を示す図である。 従来技術における課題を説明するための図である。 本発明の実施形態の座標系を説明するための図である。 本発明の実施形態の画像ブロック抽出の一例を示す図である。 本発明の実施形態の色特徴量情報抽出処理の詳細を示すフローチャートである。 本発明の実施形態の画像メッシュブロック分割の一例を示す図である。 本発明の実施形態の順序決定テーブルの一例を示す図である。 本発明の実施形態の色空間上の色ビンの構成の一例を示す図である。 本発明の実施形態のレイアウト比較処理の詳細を示すフローチャートである。 本発明の実施形態の特徴量情報比較処理の詳細を示すフローチャートである。 本発明の実施形態の色特徴量情報比較処理の詳細を示すフローチャートである。 本発明の実施形態の色ビンペナルティマトリックスの構成の一例を示す図である。 本発明の実施形態のユーザインタフェースの一例を示す図である。 本発明の実施形態の他のレイアウト比較方法を説明するための図である。
符号の説明
100 MFP
101 マネージメントPC
102 クライアントPC
103 プロキシサーバ
104 ネットワーク
105 データベース
106 文書管理サーバ
107 LAN
110 画像読取部
111 記憶部
112 印刷部
113 入力部
114、117 ネットワークI/F
115 データ処理部
116 表示部

Claims (5)

  1. 画像の類似比較処理を実行する画像処理装置であって、
    比較先画像を記憶する記憶手段と、
    印刷物を電子的に読み取り、その印刷物の電子データを比較元画像として入力する入力手段と、
    前記比較元画像から、複数の部分領域を抽出する抽出手段と、
    前記比較元画像の重心と前記抽出手段により前記比較元画像から抽出した第1の部分領域の重心を結ぶ第1の直線の長さと、前記比較元画像の重心と前記抽出手段により前記比較元画像から抽出した第2の部分領域の重心とを結ぶ第2の直線の長さとの比に基づいて前記記憶手段から前記比較元画像に対応する比較先画像を検索する検索手段と
    を備えることを特徴とする画像処理装置。
  2. 前記検索手段が、さらに、前記第1の直線と前記第2の直線それぞれと、基準線とがなす角である第1の角度と第2の角度に基づいて前記比較元画像に対応する前記比較先画像を検索する
    ことを特徴とする請求項1に記載の画像処理装置。
  3. 前記抽出手段により前記比較元画像から抽出される部分領域が1つである場合には、前記検索手段が、さらに、前記比較元画像の重心と前記部分領域の重心とを結ぶ直線の長さに基づいて前記比較元画像に対応する前記比較先画像を検索する
    ことを特徴とする請求項1又は2に記載の画像処理装置。
  4. 比較先画像を記憶する記憶手段と、入力手段と、抽出手段と、検索手段とを備える画像処理装置に類似比較処理を実行させる制御方法であって、
    前記入力手段が、印刷物を電子的に読み取り、その印刷物の電子データを比較元画像として入力する入力工程と、
    前記抽出手段が、前記比較元画像から、複数の部分領域を抽出する抽出工程と、
    前記検索手段が、前記比較元画像の重心と前記抽出工程により前記比較元画像から抽出した第1の部分領域の重心を結ぶ第1の直線の長さと、前記比較元画像の重心と前記抽出工程により前記比較元画像から抽出した第2の部分領域の重心とを結ぶ第2の直線の長さとの比に基づいて前記記憶手段から前記比較元画像に対応する比較先画像を検索する検索工程と
    を備えることを特徴とする画像処理装置の制御方法。
  5. コンピュータに、
    印刷物を電子的に読み取り、その印刷物の電子データを比較元画像として入力する入力工程と、
    前記比較元画像から、複数の部分領域を抽出する抽出工程と、
    前記比較元画像の重心と前記抽出工程により前記比較元画像から抽出した第1の部分領域の重心を結ぶ第1の直線の長さと、前記比較元画像の重心と前記抽出工程により前記比較元画像から抽出した第2の部分領域の重心とを結ぶ第2の直線の長さとの比に基づいて比較先画像を記憶する記憶手段から前記比較元画像に対応する比較先画像を検索する検索工程と
    を実行させることを特徴とするプログラム。
JP2005230088A 2005-08-08 2005-08-08 画像処理装置及びその制御方法、プログラム Expired - Fee Related JP4920928B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005230088A JP4920928B2 (ja) 2005-08-08 2005-08-08 画像処理装置及びその制御方法、プログラム
US11/459,995 US7876471B2 (en) 2005-08-08 2006-07-26 Image processing apparatus, control method and program thereof which searches for corresponding original electronic data based on a paper document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005230088A JP4920928B2 (ja) 2005-08-08 2005-08-08 画像処理装置及びその制御方法、プログラム

Publications (3)

Publication Number Publication Date
JP2007047943A JP2007047943A (ja) 2007-02-22
JP2007047943A5 JP2007047943A5 (ja) 2008-09-11
JP4920928B2 true JP4920928B2 (ja) 2012-04-18

Family

ID=37717356

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005230088A Expired - Fee Related JP4920928B2 (ja) 2005-08-08 2005-08-08 画像処理装置及びその制御方法、プログラム

Country Status (2)

Country Link
US (1) US7876471B2 (ja)
JP (1) JP4920928B2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4920928B2 (ja) * 2005-08-08 2012-04-18 キヤノン株式会社 画像処理装置及びその制御方法、プログラム
JP4921202B2 (ja) * 2006-03-15 2012-04-25 キヤノン株式会社 ジョブ履歴管理システム、その制御方法、プログラム及び記憶媒体
CN101276363B (zh) 2007-03-30 2011-02-16 夏普株式会社 文档图像的检索装置及文档图像的检索方法
CN101419661B (zh) * 2007-10-26 2011-08-24 国际商业机器公司 基于图像中的文本进行图像显示的方法和***
JP2009169536A (ja) * 2008-01-11 2009-07-30 Ricoh Co Ltd 情報処理装置、画像形成装置、ドキュメント生成方法、ドキュメント生成プログラム
CN104537127B (zh) 2009-01-23 2018-04-10 日本电气株式会社 视频描述符生成装置
US8000528B2 (en) * 2009-12-29 2011-08-16 Konica Minolta Systems Laboratory, Inc. Method and apparatus for authenticating printed documents using multi-level image comparison based on document characteristics
JP5057186B2 (ja) * 2010-06-29 2012-10-24 ブラザー工業株式会社 画像読取装置、スキャナドライバ、及び画像格納方法
US8331670B2 (en) * 2011-03-22 2012-12-11 Konica Minolta Laboratory U.S.A., Inc. Method of detection document alteration by comparing characters using shape features of characters
SE536299C2 (sv) * 2011-06-08 2013-08-13 Imtt Svenska Ab Förfarande för att jämföra och identifiera likhetsgrad mellan bilder
US9524445B2 (en) * 2015-02-27 2016-12-20 Sharp Laboratories Of America, Inc. Methods and systems for suppressing non-document-boundary contours in an image
JP6105179B1 (ja) * 2016-06-30 2017-03-29 楽天株式会社 画像処理装置、画像処理方法、および、画像処理プログラム
JP6798348B2 (ja) * 2017-02-23 2020-12-09 コニカミノルタ株式会社 画像形成装置及び画像形成制御プログラム
US10579707B2 (en) * 2017-12-29 2020-03-03 Konica Minolta Laboratory U.S.A., Inc. Method for inferring blocks of text in electronic documents
JP6587245B1 (ja) * 2019-06-26 2019-10-09 アガサ株式会社 申請書判定装置および申請書判定プログラム
US11436852B2 (en) * 2020-07-28 2022-09-06 Intuit Inc. Document information extraction for computer manipulation
JP2022085554A (ja) * 2020-11-27 2022-06-08 セイコーエプソン株式会社 印刷装置および印刷方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05135174A (ja) * 1991-11-11 1993-06-01 Matsushita Electric Ind Co Ltd 画像特徴抽出装置、画像照合装置および画像検索装置
US6104833A (en) * 1996-01-09 2000-08-15 Fujitsu Limited Pattern recognizing apparatus and method
JPH11328417A (ja) 1998-05-20 1999-11-30 Toshiba Corp 画像処理装置、画像処理方法及び画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001229187A (ja) * 2000-02-15 2001-08-24 Masaaki Nagakura 植物名検索システム
JP3813798B2 (ja) * 2000-07-13 2006-08-23 株式会社日立製作所 電子顕微鏡
JP2004062350A (ja) * 2002-07-26 2004-02-26 Fujitsu Ltd 文書情報入力プログラム、文書情報入力装置、および文書情報入力方法
JP4758594B2 (ja) * 2002-09-24 2011-08-31 セイコーエプソン株式会社 入力装置、情報装置及び制御情報生成方法
JP4405831B2 (ja) * 2003-05-20 2010-01-27 キヤノン株式会社 画像処理装置及びその制御方法、プログラム
JP2005149323A (ja) * 2003-11-18 2005-06-09 Canon Inc 画像処理システム及び画像処理装置並びに画像処理方法
JP4371965B2 (ja) * 2004-09-14 2009-11-25 キヤノン株式会社 画像処理装置、画像処理方法
JP4920928B2 (ja) * 2005-08-08 2012-04-18 キヤノン株式会社 画像処理装置及びその制御方法、プログラム

Also Published As

Publication number Publication date
JP2007047943A (ja) 2007-02-22
US20070030519A1 (en) 2007-02-08
US7876471B2 (en) 2011-01-25

Similar Documents

Publication Publication Date Title
JP4920928B2 (ja) 画像処理装置及びその制御方法、プログラム
JP4405831B2 (ja) 画像処理装置及びその制御方法、プログラム
JP4266695B2 (ja) 画像処理装置及び画像処理方法
JP4181892B2 (ja) 画像処理方法
JP4533273B2 (ja) 画像処理装置及び画像処理方法、プログラム
JP4371965B2 (ja) 画像処理装置、画像処理方法
US7593961B2 (en) Information processing apparatus for retrieving image data similar to an entered image
US7610274B2 (en) Method, apparatus, and program for retrieving data
JP4785655B2 (ja) 文書処理装置及び文書処理方法
US8144988B2 (en) Document-image-data providing system, document-image-data providing device, information processing device, document-image-data providing method, information processing method, document-image-data providing program, and information processing program
JP4338189B2 (ja) 画像処理システム及び画像処理方法
JP2006023944A (ja) 画像処理システム及び画像処理方法
US8194982B2 (en) Document-image-data providing system, document-image-data providing device, information processing device, document-image-data providing method, information processing method, document-image-data providing program, and information processing program
JP2006333248A (ja) 画像処理装置、画像処理方法、プログラム及び記憶媒体
JP2004348467A (ja) 画像検索装置及びその制御方法、プログラム
JP4047222B2 (ja) 画像処理装置及びその制御方法、プログラム
JP2005149323A (ja) 画像処理システム及び画像処理装置並びに画像処理方法
JP2004334340A (ja) 画像処理方法及び装置
JP2005149210A (ja) 画像処理装置及びその制御方法、プログラム
JP2008107901A (ja) 画像処理装置及びその制御方法、プログラム
JP2006023946A (ja) 画像処理装置及びその制御方法、プログラム
JP2007048057A (ja) 画像処理装置
JP2005208872A (ja) 画像処理システム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080729

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110117

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110204

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120202

R151 Written notification of patent or utility model registration

Ref document number: 4920928

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150210

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees