JP2018107593A

JP2018107593A - 画像処理装置、画像処理方法およびプログラム

Info

Publication number: JP2018107593A
Application number: JP2016251300A
Authority: JP
Inventors: 金津　知俊; Tomotoshi Kanatsu; 知俊金津
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-12-26
Filing date: 2016-12-26
Publication date: 2018-07-05
Anticipated expiration: 2036-12-26
Also published as: US20180184012A1; US10455163B2; JP6755787B2

Abstract

【課題】対象文書を斜め方向から撮影した複数の画像から合成画像を得る場合において、焦点位置の変更を伴う撮影回数を極力抑えつつ、十分な画質の合成画像を得る。
【解決手段】文書の全体に合焦した合成画像を焦点位置の異なる複数の画像から生成する画像処理装置であって、前記文書を撮影するカメラと、前記文書を仮撮影して得られた画像から、1以上の特定領域を抽出する第１の抽出手段と、前記特定領域毎のボケ量に基づき、各特定領域の相対的焦点距離を推定する推定手段と、前記相対的焦点距離に基づいて、前記各特定領域をレベル分けする分類手段と、レベル毎の焦点位置を、各レベルに属する特定領域の位置に基づき決定する決定手段と、決定されたレベル毎の焦点位置で前記文書の本撮影を行って前記複数の画像を取得する取得手段と、を備え、前記相対的焦点距離は、ある特定領域に合焦している状態から他の特定領域に合焦するために必要な焦点距離の変更量を意味する、ことを特徴とする。
【選択図】図３

Description

本発明は、文書を斜め方向から撮影して得られた画像から文書の全体に合焦した正対画像を合成する際の画像処理に関する。

近年、帳票等の文書に含まれる文字等の情報を取得する際に、専用のスキャナ等で読み取るのではなく、スマートフォンやタブレットといった携帯型のデバイス（以下、「スマートデバイス」と呼ぶ。）に付属するカメラ機能で撮影することが多くなっている。このとき、障害物や照明の影になる等の理由で対象文書を正対位置から撮影することが困難で、斜めから撮影せざるを得ない場合が少なくない。また、手ぶれ防止の観点では、スマートデバイスを手持ちで撮影するよりも固定して撮影することが望ましい。しかし、机上に置かれた文書に正対してスマートデバイスを固定する場合は大掛かりな専用器具が必要となることから、斜めに支えるスタンド等を利用することが簡易な固定法として採用されやすい。このスマートデバイスの固定法による制約も、対象文書を斜めから撮影せざるをえない理由の１つである。

このような斜めからの文書撮影では、カメラからの距離の近い部分と遠い部分との差がレンズの被写界深度を越え、一回の撮影で紙面全体に合焦した画像を得られないという問題がある。特に、撮影画像から文字情報を読み取ることを目的とする場合は、文字認識処理（OCR処理）の対象となる文字領域の画像解像度を上げるために接写が必要になるため、上記問題がさらに生じやすい。

この点、例えば特許文献１には、焦点位置を変更して撮影した複数の画像から、合焦度の高い領域を集めて一枚の画像を合成することで、対象文書の全体に合焦した画像を得る方法が開示されている。

特開２０１５−１９７８９６号公報

上述の通り、斜めから文書を撮影して、当該文書の全体に合焦した合成画像を得るには、焦点位置を変えて複数回の撮影を行う必要がある。得られた合成画像に対してOCR処理を行うことを前提とする場合には、一定以上の文字認識率を担保するために結果的に過剰な回数の撮影を行ってしまうことも考えられる。撮影回数が多くてもそれを短時間に行えるのであれば問題は少ないが、スマートデバイスに付属するカメラでの撮影の場合、焦点位置の変更の度にレンズ制御の時間を要して、撮影完了までに長時間が掛かりかねない。このような付属カメラは、オートフォーカス用の測距センサーを備えていないことが多く、実際にレンズを動かした際の撮像素子の信号変化から適切な焦点距離を検出するためである。一方で、撮影回数（焦点位置の変更回数）が不十分である場合は、合成画像内に合焦不足の箇所が発生し、その後のOCR処理等での利用に不適な画質の合成画像しか得られないおそれがある。

本発明に係る画像処理装置は、文書の全体に合焦した合成画像を焦点位置の異なる複数の画像から生成する画像処理装置であって、前記文書を撮影するカメラと、前記文書を仮撮影して得られた画像から、1以上の特定領域を抽出する第１の抽出手段と、前記特定領域毎のボケ量に基づき、各特定領域の相対的焦点距離を推定する推定手段と、前記相対的焦点距離に基づいて、前記各特定領域をレベル分けする分類手段と、レベル毎の焦点位置を、各レベルに属する特定領域の位置に基づき決定する決定手段と、決定されたレベル毎の焦点位置で前記文書の本撮影を行って前記複数の画像を取得する取得手段と、を備え、前記相対的焦点距離は、ある特定領域に合焦している状態から他の特定領域に合焦するために必要な焦点距離の変更量を意味することを特徴とする。

本発明によれば、対象文書を斜め方向から撮影した複数の画像から合成画像を得る場合において、焦点位置の変更を伴う撮影回数を極力抑えつつ、十分な画質の合成画像を得ることができる。

スマートデバイスを用いて文書を撮影する様子を示す図である。タブレット端末の内部構成を示す機能ブロック図である。撮影制御の流れを示すフローチャートである。（ａ）は仮撮影画像の一例、（ｂ）は仮撮影画像に対して台形補正を行った結果の一例である。 LUTの特性をグラフ化した図である。レベル毎の焦点位置を示す図である。（ａ）〜（ｄ）は本撮影によって得られた本撮影画像の一例、（ｅ）は合成画像の一例である。本撮影時のガイド表示の一例である。

以下、添付図面を参照して、本発明を好適な実施例に従って詳細に説明する。なお、以下の実施例において示す構成は一例にすぎず、本発明は図示された構成に限定されるものではない。

図１は、スマートデバイスを用いて文書を撮影する様子を示す図である。ここでは、スマートデバイスとして、カメラ１０１とディスプレイ１０２を備えるタブレット端末１００を用いるが、カメラ機能を備える携帯型装置であればスマートフォンやノートPC等であってもよい。いま、机等の水平面１１０上に、撮影対象となる文書１１１が置かれている。タブレット端末１００は、文書１１１がカメラ１０１の画角に収まるようにスタンド１０３によって斜めに固定されている。このときスタンド１０３がタブレット端末１００を支える角度は、文書１１１の位置や大きさにあわせて調節可能であってもよい。

図２は、タブレット端末１００の内部構成を示す機能ブロック図である。タブレット端末１００は、制御部２０１、記憶部２０２、UI部２０３、撮影部２０４、通信部２０５で構成される。制御部２０１はCPUやGPU等であり、RAMやROM等の記憶部２０２に保存された、画像処理を含む様々なプログラムを実行する。プログラムの実行結果は、UI部２０３を構成するディスプレイ１０２に表示される。また、ディスプレイ１０２はタッチパネル機能を有し、入力されたユーザ指示がUI部２０３を介して制御部２０１に送られる。撮影部２０４は、制御部２０１の指示を受けてカメラ１０１を制御して撮影を行う。撮影によって得られた画像データは記憶部２０２へ送られ格納される。通信部２０５は、撮影された画像データ等を、無線LAN等で外部装置、例えばOCR処理を行うPC（不図示）へと送信する。もちろん、タブレット端末１００自体がOCR処理を行う画像処理部をさらに備えていてもよい。

続いて、タブレット端末１００を用いて帳票等の文書を斜め方向から撮影して、当該文書の全体に合焦した正対画像（合成画像）を得る際の制御について説明する。図３は、撮影制御の流れを示すフローチャートである。以下に示す一連の処理は、制御部２０１内のCPUが記憶部２０２内の所定のプログラムを実行することにより実現される。

ステップ３０１では、撮影対象となる文書１１１について、合成処理に実際に使用する画像の撮影（本撮影）をどの焦点位置で何回行うのかを決めるための仮の撮影（仮撮影）が実行される。この仮撮影に先立って、タブレット端末１００の位置やスタンド１０３の角度が、カメラ１０１の画角に文書１１１の全体が収まり、かつ、文書１１１以外の余白が少なくなるように予め調整されるものとする。また、その調整をユーザが容易に行えるよう、カメラ１０１によるリアルタイムなプレビュー画像をディスプレイ１０２上に表示してもよい。なお、ここでは仮撮影画像として、焦点位置を画角中心とした一枚の静止画を得るものとする。取得した仮撮影画像は、記憶部２０２に記憶される。

ステップ３０２では、ステップ３０１で得た仮撮影画像に対し、特定の性質・属性を持つ画素塊を抽出する処理がなされる。例えば、最終的に得られる合成画像に対してOCR処理が予定されている場合であれば、文書１１１内の文字を構成する画素の集合（文字画素塊）が特定画素塊として抽出される。仮撮影画像から文字画素塊を抽出する場合には、例えば、仮撮影画像の各画素を文字色に相当する画素とそれ以外の画素に分割する二値化手法を用いる。その中でも仮撮影画像のコントラストが一様ではないことを前提に局所的・適応的に閾値を決定する例えばSauvolaの手法を用いるのが望ましい。そして、二値化で文字色に相当すると判断された画素の近傍（周囲8画素又は上下左右4画素）を連結して得た連結画素群を、文字らしいサイズや縦横比でフィルタすることで文字画素塊を得ることができる。このフィルタ処理には機械学習的な方法を用いてもよい。なお、二値化手法は一例であり、例えばMSER等の方法により似た色や輝度の画素を連結して文字画素塊を求めてもよい。さらに、文字画素塊を抽出する際に仮撮影画像内の文書範囲を特定し、特定された範囲を対象として文字画素塊の抽出を行うようにしてもよい。文書範囲を特定する際には、文書１１１の4辺となる境界線を公知のエッジ検出手法により推定すればよい。また、本ステップ及び後続のステップ３０３の処理を簡単にするために、エッジ検出で推定された4辺がなす台形を長方形に変換する画像補正を行い、補正後の画像を同ステップの処理対象としてもよい。

ステップ３０３では、ステップ３０２で抽出した特定画素塊のうち一定距離内にあるもの同士がグループ化される（特定領域の生成）。特定画素塊が文字画素塊である場合は、本ステップにより複数の文字画素塊からなる1以上の文字領域が生成されることになる。この場合のグループ化において、一定距離内かどうかを決定する文字画素塊間距離の閾値は、例えば文字画素塊の大きさから相対的に決めればよい。或いは抽出した全文字画素塊で最近傍文字画素塊までの画素塊間距離のヒストグラムを作成し、そのヒストグラムから閾値を推定してもよい。また、撮影対象となる帳票等のフォーマットから文字の方向が事前に判明している場合には、横書きであれば水平方向、縦書きであれば垂直方向の画素塊間距離ヒストグラムを用いてもよい。

ステップ３０４では、ステップ３０３で生成した特定領域毎に、ボケ量が導出される。特定領域が文字領域の場合のボケ量の導出は、具体的には次のように行われる。まず、処理対象の文字領域に属する文字画素塊の外縁部画素（エッジ画素）を特定する。これは文字を構成する線における、背景との境界に位置する画素である。次に、二値化を行う前の多値の仮撮影画像において、特定された外縁部画素における画素勾配を求め、その平均等から代表値Sを決定する。この代表値Sは、文字を構成する線の境界部分の先鋭度に相当し、合焦状態では高い値となり撮影ボケの程度により低下する。よって、代表値Sの逆数に基づく「α／S」、あるいは定数からSを減算した「1−βS」などを用いて、文字領域毎のボケ量を求める。ここでα、βはいずれも実験的に定められる定数とする。

ステップ３０５では、ステップ３０４で導出された各特定領域のボケ量に基づき、各特定領域についての相対的な焦点距離が推定される。ここで、相対的な焦点距離とは、ある特定領域に合焦している状態から別の特定領域に合焦するために必要な焦点距離の変更量を意味する。この推定には、ボケ量と相対的焦点距離との関係を表す近似式、或いは変換テーブル（LUT）を用いればよい。近似式のパラメータや変換テーブルの値は、タブレット端末１００のカメラ１０１に固有のものとして事前に測定して得られているものとする。

ステップ３０６では、ステップ３０５で推定された相対的焦点距離に基づいて、各特定領域がN段階のレベル（N≧1）に分類される。この際、同一のレベル内に属する複数の特定領域の間では、いずれかの特定領域に合焦したときに、他の特定領域のボケ量が、許容され得る所定のボケ量（以下、許容ボケ量）を越えることがないように分類される。

ここで、特定領域の分類（レベル分け）について、文字領域の場合を例に説明する。この場合、合成画像生成後のOCR処理で一定以上の文字認識率を見込むことができるボケ量が、上述の許容ボケ量となる。OCR処理としては、文字画像から文字を構成する線の輪郭に基づく特徴を抽出して識別を行う一般的なものを想定する。このようなOCR処理では、ボケ量が大きすぎる画像では輪郭の特徴が変質し認識精度が低下する。一方、紙に印刷された文字をスキャナやカメラで画像化する際に、ボケを完全に排することは不可能である。そのため、OCR処理における識別においては、ボケの存在する画像も学習するなどして、ある程度はボケに対する許容度がある。そこで、ボケの程度の異なる同一文字画像をOCR処理に入力し、文字認識率が実用上十分とみなされるボケ量の最大値Bcを求め、当該Bcの値を許容ボケ量として決定し、記憶部２０２に保持しておく。こうして予め用意した許容ボケ量を用いて、推定された相対的焦点距離が昇順（あるいは降順）になるよう文字領域を並べる。そして、隣り合う文字領域の間で各々のボケ量を比較し、その差が閾値Bc以下である文字領域同士が同一レベルに属するよう分類する。ここで、ボケ量の差が閾値Bc以下かどうかの判定において、どちらかの文字領域のボケ量が“0”に近い場合は、もう一方の文字領域のボケ量が閾値Bc以下かどうかを判定すればよい。両方のボケ量の絶対値が大きい場合は、どちらか一方の文字領域へ焦点位置を変更して相対的焦点距離を“0”とした場合に、もう一方の文字領域に発生するボケ量を推定して、閾値Bc以下かどうかを判定すればよい。この焦点位置変更後のボケ量は、両文字領域間の相対的焦点距離差を、ステップ３０５で用いたボケ量と相対的焦点距離との関係に当て嵌めることで推定できる。

ステップ３０７では、ステップ３０６で分類されたレベルLn（n＝1〜N）のそれぞれに対する焦点位置Pnが決定される。例えば、レベルLnに分類された全文字領域の重心をPnとする。或いは、そのレベル内で最も面積の大きい文字領域の重心を焦点位置Pnとしてもよい。なお、ステップ３０２で仮撮影画像の台形補正を行った場合は、ここで求めた焦点位置Pnの座標を台形補正前の仮撮影画像の座標系へ逆変換する必要がある。また、この時点で仮撮影画像は不要となるが、後述の変形例３の場合には記憶部２０２内にそのデータが保持され続けることになる。

ステップ３０８では、ステップ３０７で分類されたレベルLnの中から注目するレベルが決定される。続くステップ３０９では、注目レベルに対応する焦点位置で合焦するようにカメラ１０１が制御される。そして、ステップ３１０では、注目レベルに対応する焦点位置に合焦した状態のカメラ１０１によって本撮影が実行される。これにより本撮影画像In（n＝1〜N）が取得され、記憶部２０２に記憶される。

ステップ３１１では、取得された本撮影画像から、注目レベルに分類された特定領域の画像（特定領域画像）が抽出される。抽出された特定領域画像をGn（n＝1〜N）とする。なお、ステップ３０２で仮撮影画像の台形補正を行った場合は、本撮影画像Inにも同じ台形補正を施し、補正後の座標系で注目レベルに対応する特定領域画像Gnを抽出する。

ステップ３１２では、分類されたレベルLnのすべてのレベルについて本撮影を行ったかどうかが判定される。未処理のレベルがあればステップ３０８に戻って処理が続行される。一方、すべてのレベルについて本撮影が済んでいればステップ３１３に進む。
ステップ３１３では、各レベルから抽出された特定領域画像Gnを用いた合成処理が実行される。これにより、許容ボケ量に基づき分類されたレベル毎に合焦している、対象文書の全体に合焦した1枚の合成画像が得られる。合成処理において、特定領域画像同士に重複する部分が無ければ、単純に各特定領域画像Gnの和として合成画像を生成すればよい。また、合成結果の用途がOCR処理であれば、特定領域画像としての文字領域画像のコレクションをそのまま合成画像としてもよい。そして、OCR処理にはそれぞれ適切な文字領域画像を入力すればよい。

以上が、文書を斜め方向から撮影して合成画像を得る際の制御の内容である。ここで、OCR処理を前提とした合成画像を得る場合の具体例を、図４〜図７を参照して説明する。

図４（ａ）は、対象文書４００を仮撮影して得られた仮撮影画像４０１を示しており、対象文書４００には横並びのアルファベット「abcdefg」の文字列が5つ含まれている。斜めから撮影されているため、仮撮影画像４０１内の対象文書４００に相当する領域は台形状に歪んでいる。図４（ｂ）は、仮撮影画像４０１に対して台形補正を行って得られた補正後仮撮影画像４１０を示している。そして、補正後仮撮影画像４１０内の破線の矩形４１１〜４１５は、特定画素塊としての文字画素塊の抽出（ステップ３０２）及びグループ化（ステップ３０３）を経て得られた文字領域をそれぞれ示している。その後、文字領域４１１〜４１５のそれぞれに対し、ボケ量Bの導出処理がなされる（ステップ３０４）。ここでは、各文字領域４１１〜４１５について、それぞれB₄₁₁＝3.4、B₄₁₂＝1.3、B₄₁₃＝0.05、B₄₁₄＝0.5、B₄₁₅＝0.9がボケ量として導出されたものとする。そして、導出されたボケ量に基づいて、各文字領域の相対的焦点距離Fdが推定される（ステップ３０５）。ここでは、各文字領域４１１〜４１５について、それぞれFd₄₁₁＝4、Fd₄₁₂＝2、Fd₄₁₃＝0、Fd₄₁₄＝−2、Fd₄₁₅＝−3が相対的焦点距離として推定されたものとする。この場合の推定には、例えば予め実測して得たボケ量Bと相対的焦点距離Fdとをプロットし、さらに実測点間を線形補完することで得たLUTが用いられる。図５は、こうして得たLUTにおけるボケ量Bを横軸、相対的焦点距離Fdを縦軸としてその特性をグラフ化したものである。また、対象文書４００を正対ではなく斜めから撮影しているため台形状の仮撮影画像４０１の上部がカメラ１０１に対し遠方、下部が近方であることが推定できる。また、仮撮影画像４０１は画角中央に合焦して撮影していることから、図５のグラフにおけるFd値の正負範囲を解釈して相対的焦点距離が推定される。

そして、推定された相対的焦点距離に基づいて文字領域４１１〜４１５が1以上のレベルに分類される（ステップ３０６）。ここで、OCR処理で要求される文字認識率に基づき予め決定された許容ボケ量Bcの値が0.6であったとする。この場合、同一レベル内のどの文字領域に合焦しても、同一レベル内の他の文字領域のボケ量が0.6を越えないようにレベル分けがなされる。具体的には、以下のとおりである。まず、文字領域４１１〜４１５を推定された相対的焦点距離により降順にソートする。いま、Fd₄₁₁＝4、Fd₄₁₂＝2、Fd₄₁₃＝0、Fd₄₁₄＝−2、Fd₄₁₅＝−3なので、文字領域４１１、４１２、４１３、４１４、４１５の順になる。続いて、相対的焦点距離が“0”の文字領域４１３を基準に、まず文字領域４１２のボケ量B₄₁₂＝1.3を許容ボケ量Bc＝0.6と比較する。いま、B₄₁₂＞Bcであるため、文字領域４１２と４１３とは異なるレベルに分類される。次に、同様に文字領域４１３を基準に、文字領域４１４のボケ量B₄₁₄＝0.5を許容ボケ量Bc＝0.6と比較する。この場合、B₄₁₄＜Bcであるため、文字領域４１３と４１４は同一レベルに分類される。一方、文字領域４１５については、隣接する文字領域４１４が既に基準の文字領域４１３と同一レベルと判定されている。ゆえに文字領域４１３を基準にしたボケ量B₄₁₅＝0.9で判断する。いまB₄₁₅＞Bcなので、文字領域４１５は、文字領域４１３及び４１４とは異なるレベルに分類される。残りの文字領域４１１は、文字領域４１２に焦点位置を移動して判断する。ここで、両領域の相対的焦点距離の差は“4−2＝2”であるので、当該差の分だけ図５の特性を示す曲線をシフトさせると、焦点位置移動後の文字領域４１１のボケ量B₄₁₁’＝1.3と推定される。よって、B₄₁₁’＞Bcとなるため、文字領域４１１は文字領域４１２とは異なるレベルに分類される。以上の結果、図４（ｂ）に示す文字領域４１１〜４１５は、4段階のレベルに分類される。各レベルLnに属す文字領域は、L1∋｛411｝、L2∋｛412｝、L3∋｛413，414｝、L1∋｛415｝となる。

レベル分けが終わると、各レベルLnについての焦点位置が決定される（ステップ３０７）。図６は、各レベルLnに対し決定された焦点位置Pnを示した図である。図６において、仮撮影画像４０１上に示された4つの×印６０１〜６０４が、4段階のレベルL1〜L4のそれぞれに対応する焦点位置P1〜P4を表している。なお、焦点位置P1、P2、及びP4は各レベルに属する文字領域４１１、４１２、４１５の重心位置であり、焦点位置P3はL3に属する2つの文字領域４１３及び４１４の重心位置の平均を取った位置である。各レベルにおける焦点位置が決まると、それぞれの焦点位置で本撮影が順に実行され、各レベルにおける文字領域画像が抽出される（ステップ３０８〜ステップ３１２）。図７（ａ）〜（ｄ）は、各レベルL1〜L4に応じた4回の本撮影によって得られた本撮影画像であり、（ａ）がレベルL1、（ｂ）がレベルL2、（ｃ）がレベルL3、（ｄ）がレベルL4にそれぞれ対応している。そして、図７（ａ）の本撮影画像からは文字領域画像G1、同（ｂ）の本撮影画像からは文字領域画像G2、同（ｃ）の本撮影画像からは文字領域画像G3、同（ｄ）の本撮影画像からは文字領域画像G4がそれぞれ抽出される。最後に、各レベルに属する文字領域画像Gn（ここではn＝1,2,3,4）が合成処理され、合成画像が生成される。図７（ｅ）は、すべての文字領域画像G1〜G4を合成して得られた合成画像を示している。こうして対象文書４００内の5つの文字列のすべてに合焦した合成画像が得られる。

以上説明したように、本実施例の文書撮影制御では、文書を斜めから撮影するため一回の撮影では文書の全体に合焦できない場合に、仮撮影を行ってどの焦点位置で何回撮影を行えばよいかを決定する。このとき、仮撮影画像から抽出された特定画素塊をグループ化し、特定領域毎にボケ量と相対的焦点距離を求める。そして、各特定領域を相対的焦点距離に基づきレベル分けして、本撮影における焦点位置の変更回数（撮影回数）を決定する。そして、各レベルにおける焦点位置をそのレベルに属する特定領域の配置に基づいて決定している。そして、決定された撮影回数と焦点位置に従って本撮影を行い、得られた複数の画像を合成して文書の全体に合焦した合成画像を生成する。

＜変形例１＞
仮撮影或いは本撮影を行う際に、例えばディスプレイ１０２上に画角内での対象文書の上下端を示すラインをガイド表示してもよい（図８（ａ）を参照）。さらに、対象文書のフォーマット（サイズ）が予め分かっている場合であれば、当該対象文書の形状に応じた枠を表示してもよい（図８（ｂ）を参照）。このように対象文書の画角内の配置をガイド表示することによりユーザは、タブレット端末１００と対象文書を設置する際に、表示されたラインや枠と対象文書とが合うように位置決めを行うことができる。さらに、上述の例では、焦点位置の変更回数及び各焦点位置を決定するために用いた仮撮影画像は1枚であったが、複数の仮撮影画像を用いてもよい。このように複数の仮撮影画像を取得するにあたってガイド表示は有用である。具体的には、上記ラインや枠を基準にした複数の位置（例えば、位置(x,y0)と位置(x,y1)）に各々合焦した2枚の仮撮影画像を取得する。ここで、xは画角中央のx座標、y0はy座標で上端に近い位置でありy1は下端に近い位置である。タブレット端末１００のカメラ１０１がステレオ撮影可能な複眼カメラであれば、2枚の仮撮影画像を一度に得るように構成してもよい。そして、対象文書の中心より上は位置(x,y0)に合焦して撮影した第1の仮撮影画像、中心より下は位置(x,y1)に合焦して撮影した第2の仮撮影画像をそれぞれ用いて、前述の図３のフローを適用すればよい。その際、ステップ３０５における特定領域毎の相対的焦点距離の推定には、遠方に合焦した第1の仮撮影画像の場合と近方に合焦した第2の仮撮影画像の場合とで、それぞれ別個に用意した異なる特性のLUTや近似式を用いる。もちろん、仮撮影画像の枚数は3枚以上であってもよい。これにより実測との誤差を減らす効果が得られる。

＜変形例２＞
撮影対象となる文書には、文字等の特定画素塊が密集して存在するものもあれば逆に疎なものもあり、１つの文書内においてそれらが混在することもある。例えば文字が密集する場合には、1つの文字領域で文字毎のボケ量の差が大きくなってしまうことがあるため、文字単位のボケ量に基づいて文字領域を2つ以上に分割してもよい。また、文字等が疎な場合には、特定領域をレベル分けする際、特定領域間の仮撮影画像上での位置関係を考慮し、許容ボケ量の範囲内であっても一定以上距離の離れた特定領域同士が異なるレベルに分類されるようにしてもよい。あるいは、文字等の密度や文字サイズにより、特定画素塊のグループ化の閾値を変更して文字領域を生成するようにしてもよい。このように、対象文書における文字等の分布を考慮することで、より高画質の合成画像を得ることができる。

＜変形例３＞
ユーザがタブレット端末１００を固定したまま、同一フォーマットの複数の帳票を取り替えて順次撮影を行う場合がある。このようなユースケースでは、ステップ３０７の処理終了後も仮撮影画像のデータを破棄せずに次の帳票撮影に備えて保持しておくようにすればよい。そして、新たな帳票撮影のために取得した仮撮影画像と、保持しておいた前回の仮撮影画像とを比較し、文字配置に関して双方のフォーマットが同じであると判断されれば、前回の撮影時と同じ焦点位置と撮影回数で本撮影を行うようにしてもよい。例えば、特定画素塊のグループ化（ステップ３０３）まで処理を行ったところで、今回得られた特定領域の座標と前回得られた特定領域の座標とを比較し、同一座標であればフォーマットが同じと判断する。もしくは公知の画像特徴抽出技術を用いて画像の同一性を判定してもよい。このようにすることで、同一フォーマットの帳票等の文書を連続で撮影処理する場合に撮影時間を更に短縮することができる。

＜変形例４＞
上述の例では、仮撮影に基づき本撮影の条件が決まると、直ちに本撮影を開始した。例えば、レベル毎の焦点位置の決定（ステップ３０７）までが終了した段階で、どのような本撮影を行うのかが理解可能な情報をディスプレイ１０２に表示するようにしてもよい。表示する情報としては、各レベルでの焦点位置や、同一レベル内で文字画像抽出の対象となる文字領域の範囲を仮撮影画像に重畳した画像などが考えられる。さらに、ユーザが表示された情報を見た上で、例えば焦点位置を追加したり、或いは削除したりできるような構成としてもよい。これにより、本撮影を行う焦点位置と撮影回数を調整することができる。具体的には、焦点位置と撮影回数を増やして局所的なボケがより少ない合成画像を得たり、或いは文字認識の必要のない部分を焦点位置から削除して不要な撮影を減らすことが可能になる。この結果、プログラムに従った自動判断に基づく焦点位置と撮影回数を、ユーザ判断で最適化することができる。

以上のとおり、本実施例によれば、対象文書を斜め方向から撮影した複数の画像から合成画像を得る場合において、焦点位置の変更を伴う撮影回数を極力抑えつつ、十分な画質の合成画像を得ることができる。

＜その他の実施例＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

Claims

文書の全体に合焦した合成画像を焦点位置の異なる複数の画像から生成する画像処理装置であって、
前記文書を撮影するカメラと、
前記文書を仮撮影して得られた画像から、1以上の特定領域を抽出する第１の抽出手段と、
前記特定領域毎のボケ量に基づき、各特定領域の相対的焦点距離を推定する推定手段と、
前記相対的焦点距離に基づいて、前記各特定領域をレベル分けする分類手段と、
レベル毎の焦点位置を、各レベルに属する特定領域の位置に基づき決定する決定手段と、
決定されたレベル毎の焦点位置で前記文書の本撮影を行って前記複数の画像を取得する取得手段と、
を備え、
前記相対的焦点距離は、ある特定領域に合焦している状態から他の特定領域に合焦するために必要な焦点距離の変更量を意味する
ことを特徴とする画像処理装置。
前記分類手段は、同一のレベルに属する複数の特定領域の間においていずれかの特定領域に合焦したときに他の特定領域が所定のボケ量を越えないように、前記各特定領域を1以上のレベルに分類することを特徴とする請求項１に記載の画像処理装置。
前記決定手段は、同一のレベルに属するすべての特定領域に基づく重心の位置を、当該レベルにおける焦点位置として決定することを特徴とする請求項１又は２に記載の画像処理装置。
前記推定手段は、ボケ量と相対的焦点距離との関係を表す近似式又は変換テーブルを用いて前記推定を行うことを特徴とする請求項１乃至３のいずれか１項に記載の画像処理装置。
前記抽出手段は、前記仮撮影によって得られた画像内の文字を構成する画素の集合である文字画素塊をグループ化して前記特定領域として抽出し、
前記分類手段は、前記合成画像に適用する文字認識処理において許容されるボケ量を前記所定のボケ量として、前記分類を行う
ことを特徴とする、請求項２に記載の画像処理装置。
前記抽出手段は、前記文字画素塊間の距離に基づいて前記グループ化を行うことを特徴とする請求項５に記載の画像処理装置。
前記抽出手段は、前記グループ化によって得られた特定領域を、文字単位のボケ量に基づいて複数に分割することを特徴とする請求項６に記載の画像処理装置。
前記分類手段は、前記所定のボケ量を超えない場合であっても、一定以上距離の離れた特定領域同士が異なるレベルとなるように前記分類を行うことを特徴とする請求項５に記載の画像処理装置。
前記決定手段で決定した前記レベル毎の焦点位置を表示する手段と、
表示された前記レベル毎の焦点位置の変更を受け付ける手段と、
を更に備えることを特徴とする請求項１乃至８のいずれか１項に記載の画像処理装置。
前記文書に対し前記レベル毎の焦点位置で本撮影を行って得られた複数の画像のそれぞれから、各レベルに属する特定領域に対応する画像を抽出する第２の抽出手段と、
抽出された前記特定領域に対応する画像を用いて、前記合成画像を生成する生成手段と
を備えることを特徴とする請求項１乃至８のいずれか１項に記載の画像処理装置。
前記カメラの画角内における前記文書の配置を示すガイド表示を行う手段をさらに備えたことを特徴とする請求項９に記載の画像処理装置。
前記第１の抽出手段は、前記ガイド表示で示された前記文書の配置を基準とする複数の焦点位置に各々合焦させた仮撮影によって得られた複数の画像を用いて、前記特定領域を抽出することを特徴とする請求項１０に記載の画像処理装置。
複数の文書のそれぞれについて前記合成画像を生成する場合において、仮撮影によって得られた前記1以上の特定領域の抽出を終えた画像を保持する記憶手段と、
新たな仮撮影によって得られた画像と前記保持した画像とを比較し、新たな文書のフォーマットが既に撮影された文書のフォーマットと同一であるかどうかを判定する判定手段と、
をさらに備え、
前記決定手段は、前記判定手段で双方のフォーマットが同一であると判定された場合、前記新たな仮撮影によって得られた画像に基づく前記本撮影のためのレベル毎の焦点位置を、前記保持した画像に基づいて決定されたレベル毎の焦点位置に決定する
ことを特徴とする請求項１０に記載の画像処理装置。
文書の全体に合焦した合成画像を焦点位置の異なる複数の画像から生成する、カメラを備えた画像処理装置の制御方法であって、
前記文書を仮撮影して得られた画像から、1以上の特定領域を抽出するステップと、
前記特定領域毎のボケ量に基づき、各特定領域の相対的焦点距離を推定するステップと、
前記相対的焦点距離に基づいて、前記各特定領域をレベル分けするステップと、
レベル毎の焦点位置を、各レベルに属する特定領域の位置に基づき決定するステップと、
決定されたレベル毎の焦点位置で前記文書の本撮影を行って前記複数の画像を取得するステップと、
を含み、
前記相対的焦点距離は、ある特定領域に合焦している状態から他の特定領域に合焦するために必要な焦点距離の変更量を意味する
ことを特徴とする画像処理装置の制御方法。
コンピュータを、請求項１乃至１３のいずれか１項に記載の画像処理装置として機能させるためのプログラム。