JP2018107593A - 画像処理装置、画像処理方法およびプログラム - Google Patents

画像処理装置、画像処理方法およびプログラム Download PDF

Info

Publication number
JP2018107593A
JP2018107593A JP2016251300A JP2016251300A JP2018107593A JP 2018107593 A JP2018107593 A JP 2018107593A JP 2016251300 A JP2016251300 A JP 2016251300A JP 2016251300 A JP2016251300 A JP 2016251300A JP 2018107593 A JP2018107593 A JP 2018107593A
Authority
JP
Japan
Prior art keywords
image
level
document
image processing
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016251300A
Other languages
English (en)
Other versions
JP6755787B2 (ja
JP2018107593A5 (ja
Inventor
金津 知俊
Tomotoshi Kanatsu
知俊 金津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2016251300A priority Critical patent/JP6755787B2/ja
Priority to US15/837,436 priority patent/US10455163B2/en
Publication of JP2018107593A publication Critical patent/JP2018107593A/ja
Publication of JP2018107593A5 publication Critical patent/JP2018107593A5/ja
Application granted granted Critical
Publication of JP6755787B2 publication Critical patent/JP6755787B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/67Focus control based on electronic image sensor signals
    • H04N23/673Focus control based on electronic image sensor signals based on contrast or high frequency components of image signals, e.g. hill climbing method
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/67Focus control based on electronic image sensor signals
    • H04N23/676Bracketing for image capture at varying focusing conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Studio Devices (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)

Abstract

【課題】対象文書を斜め方向から撮影した複数の画像から合成画像を得る場合において、焦点位置の変更を伴う撮影回数を極力抑えつつ、十分な画質の合成画像を得る。
【解決手段】文書の全体に合焦した合成画像を焦点位置の異なる複数の画像から生成する画像処理装置であって、前記文書を撮影するカメラと、前記文書を仮撮影して得られた画像から、1以上の特定領域を抽出する第1の抽出手段と、前記特定領域毎のボケ量に基づき、各特定領域の相対的焦点距離を推定する推定手段と、前記相対的焦点距離に基づいて、前記各特定領域をレベル分けする分類手段と、レベル毎の焦点位置を、各レベルに属する特定領域の位置に基づき決定する決定手段と、決定されたレベル毎の焦点位置で前記文書の本撮影を行って前記複数の画像を取得する取得手段と、を備え、前記相対的焦点距離は、ある特定領域に合焦している状態から他の特定領域に合焦するために必要な焦点距離の変更量を意味する、ことを特徴とする。
【選択図】図3

Description

本発明は、文書を斜め方向から撮影して得られた画像から文書の全体に合焦した正対画像を合成する際の画像処理に関する。
近年、帳票等の文書に含まれる文字等の情報を取得する際に、専用のスキャナ等で読み取るのではなく、スマートフォンやタブレットといった携帯型のデバイス(以下、「スマートデバイス」と呼ぶ。)に付属するカメラ機能で撮影することが多くなっている。このとき、障害物や照明の影になる等の理由で対象文書を正対位置から撮影することが困難で、斜めから撮影せざるを得ない場合が少なくない。また、手ぶれ防止の観点では、スマートデバイスを手持ちで撮影するよりも固定して撮影することが望ましい。しかし、机上に置かれた文書に正対してスマートデバイスを固定する場合は大掛かりな専用器具が必要となることから、斜めに支えるスタンド等を利用することが簡易な固定法として採用されやすい。このスマートデバイスの固定法による制約も、対象文書を斜めから撮影せざるをえない理由の1つである。
このような斜めからの文書撮影では、カメラからの距離の近い部分と遠い部分との差がレンズの被写界深度を越え、一回の撮影で紙面全体に合焦した画像を得られないという問題がある。特に、撮影画像から文字情報を読み取ることを目的とする場合は、文字認識処理(OCR処理)の対象となる文字領域の画像解像度を上げるために接写が必要になるため、上記問題がさらに生じやすい。
この点、例えば特許文献1には、焦点位置を変更して撮影した複数の画像から、合焦度の高い領域を集めて一枚の画像を合成することで、対象文書の全体に合焦した画像を得る方法が開示されている。
特開2015−197896号公報
上述の通り、斜めから文書を撮影して、当該文書の全体に合焦した合成画像を得るには、焦点位置を変えて複数回の撮影を行う必要がある。得られた合成画像に対してOCR処理を行うことを前提とする場合には、一定以上の文字認識率を担保するために結果的に過剰な回数の撮影を行ってしまうことも考えられる。撮影回数が多くてもそれを短時間に行えるのであれば問題は少ないが、スマートデバイスに付属するカメラでの撮影の場合、焦点位置の変更の度にレンズ制御の時間を要して、撮影完了までに長時間が掛かりかねない。このような付属カメラは、オートフォーカス用の測距センサーを備えていないことが多く、実際にレンズを動かした際の撮像素子の信号変化から適切な焦点距離を検出するためである。一方で、撮影回数(焦点位置の変更回数)が不十分である場合は、合成画像内に合焦不足の箇所が発生し、その後のOCR処理等での利用に不適な画質の合成画像しか得られないおそれがある。
本発明に係る画像処理装置は、文書の全体に合焦した合成画像を焦点位置の異なる複数の画像から生成する画像処理装置であって、前記文書を撮影するカメラと、前記文書を仮撮影して得られた画像から、1以上の特定領域を抽出する第1の抽出手段と、前記特定領域毎のボケ量に基づき、各特定領域の相対的焦点距離を推定する推定手段と、前記相対的焦点距離に基づいて、前記各特定領域をレベル分けする分類手段と、レベル毎の焦点位置を、各レベルに属する特定領域の位置に基づき決定する決定手段と、決定されたレベル毎の焦点位置で前記文書の本撮影を行って前記複数の画像を取得する取得手段と、を備え、前記相対的焦点距離は、ある特定領域に合焦している状態から他の特定領域に合焦するために必要な焦点距離の変更量を意味することを特徴とする。
本発明によれば、対象文書を斜め方向から撮影した複数の画像から合成画像を得る場合において、焦点位置の変更を伴う撮影回数を極力抑えつつ、十分な画質の合成画像を得ることができる。
スマートデバイスを用いて文書を撮影する様子を示す図である。 タブレット端末の内部構成を示す機能ブロック図である。 撮影制御の流れを示すフローチャートである。 (a)は仮撮影画像の一例、(b)は仮撮影画像に対して台形補正を行った結果の一例である。 LUTの特性をグラフ化した図である。 レベル毎の焦点位置を示す図である。 (a)〜(d)は本撮影によって得られた本撮影画像の一例、(e)は合成画像の一例である。 本撮影時のガイド表示の一例である。
以下、添付図面を参照して、本発明を好適な実施例に従って詳細に説明する。なお、以下の実施例において示す構成は一例にすぎず、本発明は図示された構成に限定されるものではない。
図1は、スマートデバイスを用いて文書を撮影する様子を示す図である。ここでは、スマートデバイスとして、カメラ101とディスプレイ102を備えるタブレット端末100を用いるが、カメラ機能を備える携帯型装置であればスマートフォンやノートPC等であってもよい。いま、机等の水平面110上に、撮影対象となる文書111が置かれている。タブレット端末100は、文書111がカメラ101の画角に収まるようにスタンド103によって斜めに固定されている。このときスタンド103がタブレット端末100を支える角度は、文書111の位置や大きさにあわせて調節可能であってもよい。
図2は、タブレット端末100の内部構成を示す機能ブロック図である。タブレット端末100は、制御部201、記憶部202、UI部203、撮影部204、通信部205で構成される。制御部201はCPUやGPU等であり、RAMやROM等の記憶部202に保存された、画像処理を含む様々なプログラムを実行する。プログラムの実行結果は、UI部203を構成するディスプレイ102に表示される。また、ディスプレイ102はタッチパネル機能を有し、入力されたユーザ指示がUI部203を介して制御部201に送られる。撮影部204は、制御部201の指示を受けてカメラ101を制御して撮影を行う。撮影によって得られた画像データは記憶部202へ送られ格納される。通信部205は、撮影された画像データ等を、無線LAN等で外部装置、例えばOCR処理を行うPC(不図示)へと送信する。もちろん、タブレット端末100自体がOCR処理を行う画像処理部をさらに備えていてもよい。
続いて、タブレット端末100を用いて帳票等の文書を斜め方向から撮影して、当該文書の全体に合焦した正対画像(合成画像)を得る際の制御について説明する。図3は、撮影制御の流れを示すフローチャートである。以下に示す一連の処理は、制御部201内のCPUが記憶部202内の所定のプログラムを実行することにより実現される。
ステップ301では、撮影対象となる文書111について、合成処理に実際に使用する画像の撮影(本撮影)をどの焦点位置で何回行うのかを決めるための仮の撮影(仮撮影)が実行される。この仮撮影に先立って、タブレット端末100の位置やスタンド103の角度が、カメラ101の画角に文書111の全体が収まり、かつ、文書111以外の余白が少なくなるように予め調整されるものとする。また、その調整をユーザが容易に行えるよう、カメラ101によるリアルタイムなプレビュー画像をディスプレイ102上に表示してもよい。なお、ここでは仮撮影画像として、焦点位置を画角中心とした一枚の静止画を得るものとする。取得した仮撮影画像は、記憶部202に記憶される。
ステップ302では、ステップ301で得た仮撮影画像に対し、特定の性質・属性を持つ画素塊を抽出する処理がなされる。例えば、最終的に得られる合成画像に対してOCR処理が予定されている場合であれば、文書111内の文字を構成する画素の集合(文字画素塊)が特定画素塊として抽出される。仮撮影画像から文字画素塊を抽出する場合には、例えば、仮撮影画像の各画素を文字色に相当する画素とそれ以外の画素に分割する二値化手法を用いる。その中でも仮撮影画像のコントラストが一様ではないことを前提に局所的・適応的に閾値を決定する例えばSauvolaの手法を用いるのが望ましい。そして、二値化で文字色に相当すると判断された画素の近傍(周囲8画素又は上下左右4画素)を連結して得た連結画素群を、文字らしいサイズや縦横比でフィルタすることで文字画素塊を得ることができる。このフィルタ処理には機械学習的な方法を用いてもよい。なお、二値化手法は一例であり、例えばMSER等の方法により似た色や輝度の画素を連結して文字画素塊を求めてもよい。さらに、文字画素塊を抽出する際に仮撮影画像内の文書範囲を特定し、特定された範囲を対象として文字画素塊の抽出を行うようにしてもよい。文書範囲を特定する際には、文書111の4辺となる境界線を公知のエッジ検出手法により推定すればよい。また、本ステップ及び後続のステップ303の処理を簡単にするために、エッジ検出で推定された4辺がなす台形を長方形に変換する画像補正を行い、補正後の画像を同ステップの処理対象としてもよい。
ステップ303では、ステップ302で抽出した特定画素塊のうち一定距離内にあるもの同士がグループ化される(特定領域の生成)。特定画素塊が文字画素塊である場合は、本ステップにより複数の文字画素塊からなる1以上の文字領域が生成されることになる。この場合のグループ化において、一定距離内かどうかを決定する文字画素塊間距離の閾値は、例えば文字画素塊の大きさから相対的に決めればよい。或いは抽出した全文字画素塊で最近傍文字画素塊までの画素塊間距離のヒストグラムを作成し、そのヒストグラムから閾値を推定してもよい。また、撮影対象となる帳票等のフォーマットから文字の方向が事前に判明している場合には、横書きであれば水平方向、縦書きであれば垂直方向の画素塊間距離ヒストグラムを用いてもよい。
ステップ304では、ステップ303で生成した特定領域毎に、ボケ量が導出される。特定領域が文字領域の場合のボケ量の導出は、具体的には次のように行われる。まず、処理対象の文字領域に属する文字画素塊の外縁部画素(エッジ画素)を特定する。これは文字を構成する線における、背景との境界に位置する画素である。次に、二値化を行う前の多値の仮撮影画像において、特定された外縁部画素における画素勾配を求め、その平均等から代表値Sを決定する。この代表値Sは、文字を構成する線の境界部分の先鋭度に相当し、合焦状態では高い値となり撮影ボケの程度により低下する。よって、代表値Sの逆数に基づく「α/S」、あるいは定数からSを減算した「1−βS」などを用いて、文字領域毎のボケ量を求める。ここでα、βはいずれも実験的に定められる定数とする。
ステップ305では、ステップ304で導出された各特定領域のボケ量に基づき、各特定領域についての相対的な焦点距離が推定される。ここで、相対的な焦点距離とは、ある特定領域に合焦している状態から別の特定領域に合焦するために必要な焦点距離の変更量を意味する。この推定には、ボケ量と相対的焦点距離との関係を表す近似式、或いは変換テーブル(LUT)を用いればよい。近似式のパラメータや変換テーブルの値は、タブレット端末100のカメラ101に固有のものとして事前に測定して得られているものとする。
ステップ306では、ステップ305で推定された相対的焦点距離に基づいて、各特定領域がN段階のレベル(N≧1)に分類される。この際、同一のレベル内に属する複数の特定領域の間では、いずれかの特定領域に合焦したときに、他の特定領域のボケ量が、許容され得る所定のボケ量(以下、許容ボケ量)を越えることがないように分類される。
ここで、特定領域の分類(レベル分け)について、文字領域の場合を例に説明する。この場合、合成画像生成後のOCR処理で一定以上の文字認識率を見込むことができるボケ量が、上述の許容ボケ量となる。OCR処理としては、文字画像から文字を構成する線の輪郭に基づく特徴を抽出して識別を行う一般的なものを想定する。このようなOCR処理では、ボケ量が大きすぎる画像では輪郭の特徴が変質し認識精度が低下する。一方、紙に印刷された文字をスキャナやカメラで画像化する際に、ボケを完全に排することは不可能である。そのため、OCR処理における識別においては、ボケの存在する画像も学習するなどして、ある程度はボケに対する許容度がある。そこで、ボケの程度の異なる同一文字画像をOCR処理に入力し、文字認識率が実用上十分とみなされるボケ量の最大値Bcを求め、当該Bcの値を許容ボケ量として決定し、記憶部202に保持しておく。こうして予め用意した許容ボケ量を用いて、推定された相対的焦点距離が昇順(あるいは降順)になるよう文字領域を並べる。そして、隣り合う文字領域の間で各々のボケ量を比較し、その差が閾値Bc以下である文字領域同士が同一レベルに属するよう分類する。ここで、ボケ量の差が閾値Bc以下かどうかの判定において、どちらかの文字領域のボケ量が“0”に近い場合は、もう一方の文字領域のボケ量が閾値Bc以下かどうかを判定すればよい。両方のボケ量の絶対値が大きい場合は、どちらか一方の文字領域へ焦点位置を変更して相対的焦点距離を“0”とした場合に、もう一方の文字領域に発生するボケ量を推定して、閾値Bc以下かどうかを判定すればよい。この焦点位置変更後のボケ量は、両文字領域間の相対的焦点距離差を、ステップ305で用いたボケ量と相対的焦点距離との関係に当て嵌めることで推定できる。
ステップ307では、ステップ306で分類されたレベルLn(n=1〜N)のそれぞれに対する焦点位置Pnが決定される。例えば、レベルLnに分類された全文字領域の重心をPnとする。或いは、そのレベル内で最も面積の大きい文字領域の重心を焦点位置Pnとしてもよい。なお、ステップ302で仮撮影画像の台形補正を行った場合は、ここで求めた焦点位置Pnの座標を台形補正前の仮撮影画像の座標系へ逆変換する必要がある。また、この時点で仮撮影画像は不要となるが、後述の変形例3の場合には記憶部202内にそのデータが保持され続けることになる。
ステップ308では、ステップ307で分類されたレベルLnの中から注目するレベルが決定される。続くステップ309では、注目レベルに対応する焦点位置で合焦するようにカメラ101が制御される。そして、ステップ310では、注目レベルに対応する焦点位置に合焦した状態のカメラ101によって本撮影が実行される。これにより本撮影画像In(n=1〜N)が取得され、記憶部202に記憶される。
ステップ311では、取得された本撮影画像から、注目レベルに分類された特定領域の画像(特定領域画像)が抽出される。抽出された特定領域画像をGn(n=1〜N)とする。なお、ステップ302で仮撮影画像の台形補正を行った場合は、本撮影画像Inにも同じ台形補正を施し、補正後の座標系で注目レベルに対応する特定領域画像Gnを抽出する。
ステップ312では、分類されたレベルLnのすべてのレベルについて本撮影を行ったかどうかが判定される。未処理のレベルがあればステップ308に戻って処理が続行される。一方、すべてのレベルについて本撮影が済んでいればステップ313に進む。
ステップ313では、各レベルから抽出された特定領域画像Gnを用いた合成処理が実行される。これにより、許容ボケ量に基づき分類されたレベル毎に合焦している、対象文書の全体に合焦した1枚の合成画像が得られる。合成処理において、特定領域画像同士に重複する部分が無ければ、単純に各特定領域画像Gnの和として合成画像を生成すればよい。また、合成結果の用途がOCR処理であれば、特定領域画像としての文字領域画像のコレクションをそのまま合成画像としてもよい。そして、OCR処理にはそれぞれ適切な文字領域画像を入力すればよい。
以上が、文書を斜め方向から撮影して合成画像を得る際の制御の内容である。ここで、OCR処理を前提とした合成画像を得る場合の具体例を、図4〜図7を参照して説明する。
図4(a)は、対象文書400を仮撮影して得られた仮撮影画像401を示しており、対象文書400には横並びのアルファベット「abcdefg」の文字列が5つ含まれている。斜めから撮影されているため、仮撮影画像401内の対象文書400に相当する領域は台形状に歪んでいる。図4(b)は、仮撮影画像401に対して台形補正を行って得られた補正後仮撮影画像410を示している。そして、補正後仮撮影画像410内の破線の矩形411〜415は、特定画素塊としての文字画素塊の抽出(ステップ302)及びグループ化(ステップ303)を経て得られた文字領域をそれぞれ示している。その後、文字領域411〜415のそれぞれに対し、ボケ量Bの導出処理がなされる(ステップ304)。ここでは、各文字領域411〜415について、それぞれB411=3.4、B412=1.3、B413=0.05、B414=0.5、B415=0.9がボケ量として導出されたものとする。そして、導出されたボケ量に基づいて、各文字領域の相対的焦点距離Fdが推定される(ステップ305)。ここでは、各文字領域411〜415について、それぞれFd411=4、Fd412=2、Fd413=0、Fd414=−2、Fd415=−3が相対的焦点距離として推定されたものとする。この場合の推定には、例えば予め実測して得たボケ量Bと相対的焦点距離Fdとをプロットし、さらに実測点間を線形補完することで得たLUTが用いられる。図5は、こうして得たLUTにおけるボケ量Bを横軸、相対的焦点距離Fdを縦軸としてその特性をグラフ化したものである。また、対象文書400を正対ではなく斜めから撮影しているため台形状の仮撮影画像401の上部がカメラ101に対し遠方、下部が近方であることが推定できる。また、仮撮影画像401は画角中央に合焦して撮影していることから、図5のグラフにおけるFd値の正負範囲を解釈して相対的焦点距離が推定される。
そして、推定された相対的焦点距離に基づいて文字領域411〜415が1以上のレベルに分類される(ステップ306)。ここで、OCR処理で要求される文字認識率に基づき予め決定された許容ボケ量Bcの値が0.6であったとする。この場合、同一レベル内のどの文字領域に合焦しても、同一レベル内の他の文字領域のボケ量が0.6を越えないようにレベル分けがなされる。具体的には、以下のとおりである。まず、文字領域411〜415を推定された相対的焦点距離により降順にソートする。いま、Fd411=4、Fd412=2、Fd413=0、Fd414=−2、Fd415=−3なので、文字領域411、412、413、414、415の順になる。続いて、相対的焦点距離が“0”の文字領域413を基準に、まず文字領域412のボケ量B412=1.3を許容ボケ量Bc=0.6と比較する。いま、B412>Bcであるため、文字領域412と413とは異なるレベルに分類される。次に、同様に文字領域413を基準に、文字領域414のボケ量B414=0.5を許容ボケ量Bc=0.6と比較する。この場合、B414<Bcであるため、文字領域413と414は同一レベルに分類される。一方、文字領域415については、隣接する文字領域414が既に基準の文字領域413と同一レベルと判定されている。ゆえに文字領域413を基準にしたボケ量B415=0.9で判断する。いまB415>Bcなので、文字領域415は、文字領域413及び414とは異なるレベルに分類される。残りの文字領域411は、文字領域412に焦点位置を移動して判断する。ここで、両領域の相対的焦点距離の差は“4−2=2”であるので、当該差の分だけ図5の特性を示す曲線をシフトさせると、焦点位置移動後の文字領域411のボケ量B411’=1.3と推定される。よって、B411’>Bcとなるため、文字領域411は文字領域412とは異なるレベルに分類される。以上の結果、図4(b)に示す文字領域411〜415は、4段階のレベルに分類される。各レベルLnに属す文字領域は、L1∋{411}、L2∋{412}、L3∋{413,414}、L1∋{415}となる。
レベル分けが終わると、各レベルLnについての焦点位置が決定される(ステップ307)。図6は、各レベルLnに対し決定された焦点位置Pnを示した図である。図6において、仮撮影画像401上に示された4つの×印601〜604が、4段階のレベルL1〜L4のそれぞれに対応する焦点位置P1〜P4を表している。なお、焦点位置P1、P2、及びP4は各レベルに属する文字領域411、412、415の重心位置であり、焦点位置P3はL3に属する2つの文字領域413及び414の重心位置の平均を取った位置である。各レベルにおける焦点位置が決まると、それぞれの焦点位置で本撮影が順に実行され、各レベルにおける文字領域画像が抽出される(ステップ308〜ステップ312)。図7(a)〜(d)は、各レベルL1〜L4に応じた4回の本撮影によって得られた本撮影画像であり、(a)がレベルL1、(b)がレベルL2、(c)がレベルL3、(d)がレベルL4にそれぞれ対応している。そして、図7(a)の本撮影画像からは文字領域画像G1、同(b)の本撮影画像からは文字領域画像G2、同(c)の本撮影画像からは文字領域画像G3、同(d)の本撮影画像からは文字領域画像G4がそれぞれ抽出される。最後に、各レベルに属する文字領域画像Gn(ここではn=1,2,3,4)が合成処理され、合成画像が生成される。図7(e)は、すべての文字領域画像G1〜G4を合成して得られた合成画像を示している。こうして対象文書400内の5つの文字列のすべてに合焦した合成画像が得られる。
以上説明したように、本実施例の文書撮影制御では、文書を斜めから撮影するため一回の撮影では文書の全体に合焦できない場合に、仮撮影を行ってどの焦点位置で何回撮影を行えばよいかを決定する。このとき、仮撮影画像から抽出された特定画素塊をグループ化し、特定領域毎にボケ量と相対的焦点距離を求める。そして、各特定領域を相対的焦点距離に基づきレベル分けして、本撮影における焦点位置の変更回数(撮影回数)を決定する。そして、各レベルにおける焦点位置をそのレベルに属する特定領域の配置に基づいて決定している。そして、決定された撮影回数と焦点位置に従って本撮影を行い、得られた複数の画像を合成して文書の全体に合焦した合成画像を生成する。
<変形例1>
仮撮影或いは本撮影を行う際に、例えばディスプレイ102上に画角内での対象文書の上下端を示すラインをガイド表示してもよい(図8(a)を参照)。さらに、対象文書のフォーマット(サイズ)が予め分かっている場合であれば、当該対象文書の形状に応じた枠を表示してもよい(図8(b)を参照)。このように対象文書の画角内の配置をガイド表示することによりユーザは、タブレット端末100と対象文書を設置する際に、表示されたラインや枠と対象文書とが合うように位置決めを行うことができる。さらに、上述の例では、焦点位置の変更回数及び各焦点位置を決定するために用いた仮撮影画像は1枚であったが、複数の仮撮影画像を用いてもよい。このように複数の仮撮影画像を取得するにあたってガイド表示は有用である。具体的には、上記ラインや枠を基準にした複数の位置(例えば、位置(x,y0)と位置(x,y1))に各々合焦した2枚の仮撮影画像を取得する。ここで、xは画角中央のx座標、y0はy座標で上端に近い位置でありy1は下端に近い位置である。タブレット端末100のカメラ101がステレオ撮影可能な複眼カメラであれば、2枚の仮撮影画像を一度に得るように構成してもよい。そして、対象文書の中心より上は位置(x,y0)に合焦して撮影した第1の仮撮影画像、中心より下は位置(x,y1)に合焦して撮影した第2の仮撮影画像をそれぞれ用いて、前述の図3のフローを適用すればよい。その際、ステップ305における特定領域毎の相対的焦点距離の推定には、遠方に合焦した第1の仮撮影画像の場合と近方に合焦した第2の仮撮影画像の場合とで、それぞれ別個に用意した異なる特性のLUTや近似式を用いる。もちろん、仮撮影画像の枚数は3枚以上であってもよい。これにより実測との誤差を減らす効果が得られる。
<変形例2>
撮影対象となる文書には、文字等の特定画素塊が密集して存在するものもあれば逆に疎なものもあり、1つの文書内においてそれらが混在することもある。例えば文字が密集する場合には、1つの文字領域で文字毎のボケ量の差が大きくなってしまうことがあるため、文字単位のボケ量に基づいて文字領域を2つ以上に分割してもよい。また、文字等が疎な場合には、特定領域をレベル分けする際、特定領域間の仮撮影画像上での位置関係を考慮し、許容ボケ量の範囲内であっても一定以上距離の離れた特定領域同士が異なるレベルに分類されるようにしてもよい。あるいは、文字等の密度や文字サイズにより、特定画素塊のグループ化の閾値を変更して文字領域を生成するようにしてもよい。このように、対象文書における文字等の分布を考慮することで、より高画質の合成画像を得ることができる。
<変形例3>
ユーザがタブレット端末100を固定したまま、同一フォーマットの複数の帳票を取り替えて順次撮影を行う場合がある。このようなユースケースでは、ステップ307の処理終了後も仮撮影画像のデータを破棄せずに次の帳票撮影に備えて保持しておくようにすればよい。そして、新たな帳票撮影のために取得した仮撮影画像と、保持しておいた前回の仮撮影画像とを比較し、文字配置に関して双方のフォーマットが同じであると判断されれば、前回の撮影時と同じ焦点位置と撮影回数で本撮影を行うようにしてもよい。例えば、特定画素塊のグループ化(ステップ303)まで処理を行ったところで、今回得られた特定領域の座標と前回得られた特定領域の座標とを比較し、同一座標であればフォーマットが同じと判断する。もしくは公知の画像特徴抽出技術を用いて画像の同一性を判定してもよい。このようにすることで、同一フォーマットの帳票等の文書を連続で撮影処理する場合に撮影時間を更に短縮することができる。
<変形例4>
上述の例では、仮撮影に基づき本撮影の条件が決まると、直ちに本撮影を開始した。例えば、レベル毎の焦点位置の決定(ステップ307)までが終了した段階で、どのような本撮影を行うのかが理解可能な情報をディスプレイ102に表示するようにしてもよい。表示する情報としては、各レベルでの焦点位置や、同一レベル内で文字画像抽出の対象となる文字領域の範囲を仮撮影画像に重畳した画像などが考えられる。さらに、ユーザが表示された情報を見た上で、例えば焦点位置を追加したり、或いは削除したりできるような構成としてもよい。これにより、本撮影を行う焦点位置と撮影回数を調整することができる。具体的には、焦点位置と撮影回数を増やして局所的なボケがより少ない合成画像を得たり、或いは文字認識の必要のない部分を焦点位置から削除して不要な撮影を減らすことが可能になる。この結果、プログラムに従った自動判断に基づく焦点位置と撮影回数を、ユーザ判断で最適化することができる。
以上のとおり、本実施例によれば、対象文書を斜め方向から撮影した複数の画像から合成画像を得る場合において、焦点位置の変更を伴う撮影回数を極力抑えつつ、十分な画質の合成画像を得ることができる。
<その他の実施例>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。

Claims (15)

  1. 文書の全体に合焦した合成画像を焦点位置の異なる複数の画像から生成する画像処理装置であって、
    前記文書を撮影するカメラと、
    前記文書を仮撮影して得られた画像から、1以上の特定領域を抽出する第1の抽出手段と、
    前記特定領域毎のボケ量に基づき、各特定領域の相対的焦点距離を推定する推定手段と、
    前記相対的焦点距離に基づいて、前記各特定領域をレベル分けする分類手段と、
    レベル毎の焦点位置を、各レベルに属する特定領域の位置に基づき決定する決定手段と、
    決定されたレベル毎の焦点位置で前記文書の本撮影を行って前記複数の画像を取得する取得手段と、
    を備え、
    前記相対的焦点距離は、ある特定領域に合焦している状態から他の特定領域に合焦するために必要な焦点距離の変更量を意味する
    ことを特徴とする画像処理装置。
  2. 前記分類手段は、同一のレベルに属する複数の特定領域の間においていずれかの特定領域に合焦したときに他の特定領域が所定のボケ量を越えないように、前記各特定領域を1以上のレベルに分類することを特徴とする請求項1に記載の画像処理装置。
  3. 前記決定手段は、同一のレベルに属するすべての特定領域に基づく重心の位置を、当該レベルにおける焦点位置として決定することを特徴とする請求項1又は2に記載の画像処理装置。
  4. 前記推定手段は、ボケ量と相対的焦点距離との関係を表す近似式又は変換テーブルを用いて前記推定を行うことを特徴とする請求項1乃至3のいずれか1項に記載の画像処理装置。
  5. 前記抽出手段は、前記仮撮影によって得られた画像内の文字を構成する画素の集合である文字画素塊をグループ化して前記特定領域として抽出し、
    前記分類手段は、前記合成画像に適用する文字認識処理において許容されるボケ量を前記所定のボケ量として、前記分類を行う
    ことを特徴とする、請求項2に記載の画像処理装置。
  6. 前記抽出手段は、前記文字画素塊間の距離に基づいて前記グループ化を行うことを特徴とする請求項5に記載の画像処理装置。
  7. 前記抽出手段は、前記グループ化によって得られた特定領域を、文字単位のボケ量に基づいて複数に分割することを特徴とする請求項6に記載の画像処理装置。
  8. 前記分類手段は、前記所定のボケ量を超えない場合であっても、一定以上距離の離れた特定領域同士が異なるレベルとなるように前記分類を行うことを特徴とする請求項5に記載の画像処理装置。
  9. 前記決定手段で決定した前記レベル毎の焦点位置を表示する手段と、
    表示された前記レベル毎の焦点位置の変更を受け付ける手段と、
    を更に備えることを特徴とする請求項1乃至8のいずれか1項に記載の画像処理装置。
  10. 前記文書に対し前記レベル毎の焦点位置で本撮影を行って得られた複数の画像のそれぞれから、各レベルに属する特定領域に対応する画像を抽出する第2の抽出手段と、
    抽出された前記特定領域に対応する画像を用いて、前記合成画像を生成する生成手段と
    を備えることを特徴とする請求項1乃至8のいずれか1項に記載の画像処理装置。
  11. 前記カメラの画角内における前記文書の配置を示すガイド表示を行う手段をさらに備えたことを特徴とする請求項9に記載の画像処理装置。
  12. 前記第1の抽出手段は、前記ガイド表示で示された前記文書の配置を基準とする複数の焦点位置に各々合焦させた仮撮影によって得られた複数の画像を用いて、前記特定領域を抽出することを特徴とする請求項10に記載の画像処理装置。
  13. 複数の文書のそれぞれについて前記合成画像を生成する場合において、仮撮影によって得られた前記1以上の特定領域の抽出を終えた画像を保持する記憶手段と、
    新たな仮撮影によって得られた画像と前記保持した画像とを比較し、新たな文書のフォーマットが既に撮影された文書のフォーマットと同一であるかどうかを判定する判定手段と、
    をさらに備え、
    前記決定手段は、前記判定手段で双方のフォーマットが同一であると判定された場合、前記新たな仮撮影によって得られた画像に基づく前記本撮影のためのレベル毎の焦点位置を、前記保持した画像に基づいて決定されたレベル毎の焦点位置に決定する
    ことを特徴とする請求項10に記載の画像処理装置。
  14. 文書の全体に合焦した合成画像を焦点位置の異なる複数の画像から生成する、カメラを備えた画像処理装置の制御方法であって、
    前記文書を仮撮影して得られた画像から、1以上の特定領域を抽出するステップと、
    前記特定領域毎のボケ量に基づき、各特定領域の相対的焦点距離を推定するステップと、
    前記相対的焦点距離に基づいて、前記各特定領域をレベル分けするステップと、
    レベル毎の焦点位置を、各レベルに属する特定領域の位置に基づき決定するステップと、
    決定されたレベル毎の焦点位置で前記文書の本撮影を行って前記複数の画像を取得するステップと、
    を含み、
    前記相対的焦点距離は、ある特定領域に合焦している状態から他の特定領域に合焦するために必要な焦点距離の変更量を意味する
    ことを特徴とする画像処理装置の制御方法。
  15. コンピュータを、請求項1乃至13のいずれか1項に記載の画像処理装置として機能させるためのプログラム。
JP2016251300A 2016-12-26 2016-12-26 画像処理装置、画像処理方法およびプログラム Expired - Fee Related JP6755787B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016251300A JP6755787B2 (ja) 2016-12-26 2016-12-26 画像処理装置、画像処理方法およびプログラム
US15/837,436 US10455163B2 (en) 2016-12-26 2017-12-11 Image processing apparatus that generates a combined image, control method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016251300A JP6755787B2 (ja) 2016-12-26 2016-12-26 画像処理装置、画像処理方法およびプログラム

Publications (3)

Publication Number Publication Date
JP2018107593A true JP2018107593A (ja) 2018-07-05
JP2018107593A5 JP2018107593A5 (ja) 2020-02-06
JP6755787B2 JP6755787B2 (ja) 2020-09-16

Family

ID=62625672

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016251300A Expired - Fee Related JP6755787B2 (ja) 2016-12-26 2016-12-26 画像処理装置、画像処理方法およびプログラム

Country Status (2)

Country Link
US (1) US10455163B2 (ja)
JP (1) JP6755787B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10917571B2 (en) 2018-11-05 2021-02-09 Sony Corporation Image capture device control based on determination of blur value of objects in images
WO2021251631A1 (ko) * 2020-06-12 2021-12-16 삼성전자 주식회사 초점 조절 기능을 포함하는 전자 장치 및 방법

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3506167B1 (en) * 2016-09-12 2022-06-22 Huawei Technologies Co., Ltd. Processing method and mobile device
CN109360455B (zh) * 2018-10-26 2021-04-02 北京世相科技文化有限公司 智能读书装置
US10970848B2 (en) * 2018-11-29 2021-04-06 Sap Se Font family and size aware character segmentation
US11495036B1 (en) * 2021-01-29 2022-11-08 Scandit Ag Segmenting images for optical character recognition

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020075389A1 (en) * 2000-12-18 2002-06-20 Xerox Corporation Apparatus and method for capturing a digital image
JP2004072533A (ja) * 2002-08-07 2004-03-04 Ricoh Co Ltd 画像入力装置及び画像入力方法
JP2010124406A (ja) * 2008-11-21 2010-06-03 Konica Minolta Opto Inc 撮像装置及び電子機器
JP2011045078A (ja) * 2009-08-21 2011-03-03 Konica Minolta Systems Lab Inc カメラベースの文書画像処理のための適応的ボケ除去
JP2015197896A (ja) * 2014-04-03 2015-11-09 シャープ株式会社 画像処理装置
JP2016015567A (ja) * 2014-07-01 2016-01-28 株式会社東芝 電子機器、処理方法およびプログラム
JP2016046562A (ja) * 2014-08-20 2016-04-04 株式会社東芝 電子機器、方法及びプログラム
JP2016177430A (ja) * 2015-03-19 2016-10-06 カシオ計算機株式会社 画像補正装置、及び画像補正方法、プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020075389A1 (en) * 2000-12-18 2002-06-20 Xerox Corporation Apparatus and method for capturing a digital image
JP2004072533A (ja) * 2002-08-07 2004-03-04 Ricoh Co Ltd 画像入力装置及び画像入力方法
JP2010124406A (ja) * 2008-11-21 2010-06-03 Konica Minolta Opto Inc 撮像装置及び電子機器
JP2011045078A (ja) * 2009-08-21 2011-03-03 Konica Minolta Systems Lab Inc カメラベースの文書画像処理のための適応的ボケ除去
JP2015197896A (ja) * 2014-04-03 2015-11-09 シャープ株式会社 画像処理装置
JP2016015567A (ja) * 2014-07-01 2016-01-28 株式会社東芝 電子機器、処理方法およびプログラム
JP2016046562A (ja) * 2014-08-20 2016-04-04 株式会社東芝 電子機器、方法及びプログラム
JP2016177430A (ja) * 2015-03-19 2016-10-06 カシオ計算機株式会社 画像補正装置、及び画像補正方法、プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10917571B2 (en) 2018-11-05 2021-02-09 Sony Corporation Image capture device control based on determination of blur value of objects in images
WO2021251631A1 (ko) * 2020-06-12 2021-12-16 삼성전자 주식회사 초점 조절 기능을 포함하는 전자 장치 및 방법

Also Published As

Publication number Publication date
US20180184012A1 (en) 2018-06-28
US10455163B2 (en) 2019-10-22
JP6755787B2 (ja) 2020-09-16

Similar Documents

Publication Publication Date Title
JP6755787B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP6011470B2 (ja) 予備画像を分析する装置、方法及びプログラム
JP5547243B2 (ja) 画像処理装置、プログラムおよび記録媒体
JP5886265B2 (ja) 携帯端末装置、プログラム、及び記録媒体
JP4556813B2 (ja) 画像処理装置、及びプログラム
JP2010045613A (ja) 画像識別方法および撮像装置
JP2005309559A (ja) 画像処理方法および装置並びにプログラム
JP2007074578A (ja) 画像処理装置、撮影装置、及びプログラム
JP2005309560A (ja) 画像処理方法および装置並びにプログラム
US10992837B2 (en) Information processing apparatus, control method thereof, and storage medium
KR102311367B1 (ko) 화상 처리 장치, 화상 처리 방법, 및 프로그램
JP2014123881A (ja) 情報処理装置、情報処理方法、コンピュータプログラム
JP6669390B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2005275447A (ja) 画像処理装置、画像処理方法及びプログラム
US10846863B2 (en) Pixel binarization apparatus, method, and storage medium
CN112997217A (zh) 从视频图像进行文档检测
JP2006113658A (ja) 画像処理装置及び方法、及びプログラムを記録した記憶媒体
US20210400207A1 (en) Imaging apparatus, method of controlling imaging apparatus and computer-readable medium
JP6598402B1 (ja) レシート等帳票画像自動取得・読取方法、プログラム、及び携帯端末装置
JP4271648B2 (ja) 画像合成装置、撮像手段、およびプログラム
JP2010273218A (ja) 画像出力装置、撮像画像処理システム、画像出力方法、プログラムおよび記録媒体
JP2015191481A (ja) 画像処理装置および画像処理プログラム
US9521270B1 (en) Changing in real-time the perspective of objects captured in images
JP4657787B2 (ja) 画像処理方法および装置並びにプログラム
JP2012119994A (ja) 画像処理装置及びその制御方法、及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191218

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200728

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200722

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200826

R151 Written notification of patent or utility model registration

Ref document number: 6755787

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees