JP2018060392A - 画像合成装置、画像合成方法、及び画像合成システム - Google Patents
画像合成装置、画像合成方法、及び画像合成システム Download PDFInfo
- Publication number
- JP2018060392A JP2018060392A JP2016197994A JP2016197994A JP2018060392A JP 2018060392 A JP2018060392 A JP 2018060392A JP 2016197994 A JP2016197994 A JP 2016197994A JP 2016197994 A JP2016197994 A JP 2016197994A JP 2018060392 A JP2018060392 A JP 2018060392A
- Authority
- JP
- Japan
- Prior art keywords
- shooting
- character
- image
- character area
- range
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Input (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
【課題】必要な領域を拡大撮影することで精度良く文字認識することができる画像を作成する。【解決手段】文字領域サイズ算出部305が、所定の撮影範囲を撮影することにより取得した撮影画像に含まれる文字領域毎に文字領域サイズを算出する。拡大撮影要否判定部307が、算出された文字領域毎の文字領域サイズに基づいて、所定の撮影範囲内の拡大撮影の要否を判定する。撮影範囲決定部308が、拡大撮影要否判定部307によって拡大撮影が必要である判定された場合に、算出された文字領域毎の文字領域サイズと文字領域毎の位置に基づいて、拡大撮影範囲を決定する。画像合成部309が、拡大撮影範囲を拡大撮影することにより取得した拡大撮影画像と、撮影画像とを合成して合成画像を作成する。【選択図】図3
Description
本発明は、画像合成装置、画像合成方法、及び画像合成システムに関する。
原稿台105に載置された原稿や書籍や立体物等の対象物を、原稿台105上方に位置するカメラで撮影し、pdfファイルやjpegファイルなどの画像データとして出力するドキュメントカメラ装置が知られている。
ドキュメントカメラ装置は、カメラを用いて広範囲に対象物を撮影しており、一定範囲内に存在する対象物を一括で画像データとして取得することが可能である。そのため、ドキュメントカメラ装置の別の利用形態としてドキュメントカメラ装置を投影装置と接続し、撮影して得られた画像データを連続的に順次スクリーンに投影することでリアルタイムな映像を投影することが可能になる。
上述したようにドキュメントカメラ装置は、広範囲に対象物を撮影するため、カメラの位置と対象物の位置とはある程度離れていることが前提となる。そのため、例えば原稿上の小さな文字がはっきりと読める程度に撮影するには解像度が高い高価なカメラを備えている必要があり、全体の高コスト化の問題があった。
さらに、近年では撮影して得られた画像データに対して文字認識を行ってテキストデータに変換するOCRが利用されるケースが増加している。文字認識をする際は撮影される文字の大きさによって認識率が変化するため、低い解像度のカメラで小さな文字を撮影すると文字認識の精度が低下してしまう問題があった。そのため、ユーザはカメラの倍率を手動で調整する必要があった。
そこで、特開2006−094082号公報(特許文献1)には、撮影対象の文字の大きさと認識可能な文字サイズを比較して、拡大倍率や解像度を自動調整して複数回撮影し、撮影した結果を合成して十分な精度で文字認識できる画像を出力する技術が開示されている。
しかし、特許文献1は撮影対象領域全体を同じ拡大倍率で撮影するため、ズームを使用しないで撮影したときに一部の領域の文字だけが認識可能なサイズより小さくなるような場合であっても、その文字が認識可能となるように撮影対象領域全体を拡大撮影する必要があった。
そのため、ズームを使用せずに文字を認識可能な領域であっても、拡大撮影することで撮影回数の無駄が生じてしまうという問題があった。
本発明は、上記に鑑みてなされたもので、その目的は、必要な領域を拡大撮影することで精度の良い文字認識を可能にすることにある。
そのため、ズームを使用せずに文字を認識可能な領域であっても、拡大撮影することで撮影回数の無駄が生じてしまうという問題があった。
本発明は、上記に鑑みてなされたもので、その目的は、必要な領域を拡大撮影することで精度の良い文字認識を可能にすることにある。
請求項1記載の発明は、上記課題を解決するため、所定の撮影範囲を撮影することにより取得した撮影画像に含まれる文字領域毎に文字領域サイズを算出する文字領域サイズ算出部と、前記算出された前記文字領域毎の文字領域サイズに基づいて、前記所定の撮影範囲内の拡大撮影の要否を判定する拡大撮影要否判定部と、前記拡大撮影要否判定部によって拡大撮影が必要である判定された場合に、前記算出された前記文字領域毎の文字領域サイズと前記文字領域毎の位置に基づいて、拡大撮影範囲を決定する撮影範囲決定部と、前記拡大撮影範囲を拡大撮影することにより取得した拡大撮影画像と、前記撮影画像とを合成して合成画像を作成する画像合成部と、を備える。
本発明によれば、必要な領域を拡大撮影することで精度の良い文字認識が可能になる。
以下、図面を参照して、本発明の実施形態に係るドキュメントカメラ装置における撮影手法の具体的な実施形態について説明する。
<第一の実施形態>
本実施形態は、撮影して得られた画像データ内の小さい文字列が含まれる一部領域を、拡大撮影して得られた拡大画像データに置き換えることで、後段における文字認識の精度を高めることを可能にする。
本実施形態は、撮影して得られた画像データ内の小さい文字列が含まれる一部領域を、拡大撮影して得られた拡大画像データに置き換えることで、後段における文字認識の精度を高めることを可能にする。
<ドキュメントカメラ装置>
図1は、第一の本実施形態に係るドキュメントカメラ装置100の全体構成について説明する図である。図1に示すように、本実施形態に係るドキュメントカメラ装置100は、撮影装置101、照明102、撮影対象物を載置するための台である原稿台105、撮影装置101及び照明102を支持する支持部材103、入力I/F104を備えている。
図1は、第一の本実施形態に係るドキュメントカメラ装置100の全体構成について説明する図である。図1に示すように、本実施形態に係るドキュメントカメラ装置100は、撮影装置101、照明102、撮影対象物を載置するための台である原稿台105、撮影装置101及び照明102を支持する支持部材103、入力I/F104を備えている。
撮影装置101は、原稿台105に載置された対象物を撮影するための装置である。撮影装置101は撮像機構であるCCDセンサやCMOSセンサ等の撮像素子、レンズ機構であるズームレンズやミラー、対象物を撮影して得られた画像を一時記憶するメモリを有している。撮影装置101は、半球面状に自在に回転可能である。
照明102は、LEDランプであり、支持部材に複数個備えられている。入力I/F104は、キーボードやタッチパネルなどによりユーザからの入力を受け付けるインターフェースである。
図2は、第一の実施形態に係るドキュメントカメラ装置100のハードウェア構成について説明する図である。本実施形態に係るドキュメントカメラ装置100は、撮影装置101、照明102、入力I/F104、CPU201、RAM202、ROM203、記憶装置204、外部I/F205がそれぞれバスを介して接続されている。
CPU201は、ドキュメントカメラ装置100における演算処理装置であり、制御プログラムに従ってドキュメントカメラ装置100全体の動作を制御するとともに、撮影装置101から受け取った画像データに対しての文字認識、画像データに対する画像処理、画像データのフォーマット変換などの処理を行う。本実施形態ではCPU201にて文字認識、画像処理を行うが、その内の一部の処理をASICのようにハードウェアを利用して行うものであっても良いし、外部I/F205を介して外部装置で行うものであっても良い。
RAM202は、情報を高速で読み書きするための揮発性の記憶媒体であり、CPU201が制御プログラムを実行する際のワークエリアとして機能する。ROM203は制御プログラムが記憶されている読み出し専用の不揮発性の記憶媒体である。
記憶装置204は、例えばHDD(Hard Disk Drive)であって、情報の読み書きが可能な大容量の不揮発性の記憶媒体であり、制御プログラムやアプリケーション等が記憶されている他、各種デバイスから出力される画像データを記憶する。記憶装置204は、SSD(Solid State Drive)などの他の形式の記憶媒体であっても良い。
外部I/F205は、LANなどのネットワークに接続するための通信インターフェースであり、PCやスマートフォンなどの外部端末に接続される。外部I/F205は受信機能、送信機能を有しており、外部端末から送られてくる情報を受信する他、記憶装置204に記憶された画像データを送信する。
CPU201は、入力I/F104を介してユーザによって入力された情報を基に、対応する制御プログラムをROM203から読み出して対象となるデバイスを制御する。CPU201は、PCやスマートフォンのような外部端末からの情報を外部I/F205を通して受け取り、対応する制御プログラムをROM203から読み出して対象となるデバイスを制御することも可能である。
撮影装置101は、回転可能に装着されており、CPU201からの指示に沿った条件で対象物を撮影する。CPU201から撮影装置101に送られる情報については後に詳しく説明する。撮影された画像データは撮影装置101内のメモリに一時的に記憶され、その後バスを通してRAM202に出力される。照明102はCPU201からの指示に従って点灯・消灯の切り替えが行われる。
図3は、第一の実施形態に係るドキュメントカメラ装置100の機能構成について説明する図である。図に示す破線で囲まれている処理部はハードウェアであり、図に示す実線で囲まれているそれぞれの処理部はCPU201とROM203とRAM202により実行される処理を機能的に示している。
仲介部301は、入力I/F104や外部I/F205を介して入力される開始指示に沿って撮影条件テーブルを作成し、撮影装置101に出力する。この開始指示は撮影の開始や終了の指示である。その他、仲介部301は入力I/F104や外部I/F205からの終了指示に沿って撮影を終了する終了フラグを撮影装置101に出力する。
撮影装置101は、仲介部301又は後段で説明する撮影条件決定部308から受け取った撮影条件テーブルを参照して原稿台105に載置された印刷物を撮影し、撮影して得られたデータを所定のデバイスに出力する。
<撮影条件テーブル>
図4は撮影条件テーブルについて説明する図である。
動作モードは一連の処理内容を示している。「文字認識モード」とは、文字が含まれる対象物を撮影して得られた画像データの一部或いは全部をテキストファイルに再構成する一連の処理を示しており、本実施形態において説明する処理である。動作モードには「文字認識モード」の他、撮影して得られた画像データをそのまま記憶装置204に保存する「通常モード」、撮影した動画を外部I/F205を介して投影装置に接続し、リアルタイムで投影する「投影モード」などがある。撮影装置101は該当のモードで撮影を行う。拡大倍率は拡大撮影するときの拡大倍率を示しており、撮影範囲は撮影する領域を示している。
図4は撮影条件テーブルについて説明する図である。
動作モードは一連の処理内容を示している。「文字認識モード」とは、文字が含まれる対象物を撮影して得られた画像データの一部或いは全部をテキストファイルに再構成する一連の処理を示しており、本実施形態において説明する処理である。動作モードには「文字認識モード」の他、撮影して得られた画像データをそのまま記憶装置204に保存する「通常モード」、撮影した動画を外部I/F205を介して投影装置に接続し、リアルタイムで投影する「投影モード」などがある。撮影装置101は該当のモードで撮影を行う。拡大倍率は拡大撮影するときの拡大倍率を示しており、撮影範囲は撮影する領域を示している。
撮影条件テーブルに入力されている動作モードが「通常モード」である場合、撮影された画像データは記憶装置204に出力される。撮影条件テーブルに入力されている動作モードが「投影モード」である場合、撮影された動画データは順次外部I/F205を介して外部の投影装置に送信される。
撮影条件テーブルに入力されている動作モードが「文字認識モード」であり、入力されている拡大倍率が1倍(ズームを使用しない)である場合、撮影して得られた画像データはプレ画像データとして一時記憶部302に出力される。撮影条件テーブルに入力されている動作モードが「文字認識モード」であり、入力されている拡大倍率が1倍より大きいとき、拡大撮影された画像データは拡大画像データとして一時記憶部302に出力される。
<撮影領域>
図5は、撮影領域について詳しく説明するための図である。
図中の実線枠はズーム無しで撮影したときの撮影領域を示している。図中の点線は拡大倍率2倍で撮影するときに撮影領域の縦横を2分割した状態を示している。このとき、(x1,y1)、(x2,y1)、(x1,y2)、(x2,y2)は拡大撮影するときの撮影範囲を示す領域情報に該当する。領域情報は左から右に位置するにつれて、xn(nは1以上の自然数)のnの値が増加し、上から下に位置するにつれて、yn(nは1以上の自然数)のnの値が増加する。領域情報におけるnの最大数=拡大倍率となる。
図5は、撮影領域について詳しく説明するための図である。
図中の実線枠はズーム無しで撮影したときの撮影領域を示している。図中の点線は拡大倍率2倍で撮影するときに撮影領域の縦横を2分割した状態を示している。このとき、(x1,y1)、(x2,y1)、(x1,y2)、(x2,y2)は拡大撮影するときの撮影範囲を示す領域情報に該当する。領域情報は左から右に位置するにつれて、xn(nは1以上の自然数)のnの値が増加し、上から下に位置するにつれて、yn(nは1以上の自然数)のnの値が増加する。領域情報におけるnの最大数=拡大倍率となる。
撮影装置101には拡大倍率と領域情報に応じた撮影箇所が予め記憶されており、撮影装置101は自身の方向を回転させて領域情報に示された箇所を撮影し、撮影したデータを所定のデバイスに出力する。
一時記憶部302は、撮影装置101から送られてくるデータを一時的に記憶する。一時記憶部302は書き換えを高速で行うことが可能な記憶媒体であり、本実施形態ではRAM202に相当する。
文字領域判定部304は、一時記憶部302に記憶されているプレ画像データを参照し、例えば特許文献2に記載されている方法を用いて文字領域を抽出する。文字領域とは文字列の外側を囲う領域であり、例えば図6に示すように文字列ABCの外側を囲う四角形に囲まれた領域である。
文字領域サイズ算出部305は、検出された文字領域の大きさを対象となる文字領域毎に画素数情報として算出する。
文字領域サイズ算出部305は、検出された文字領域の大きさを対象となる文字領域毎に画素数情報として算出する。
<画素数情報の算出方法>
図6は、文字領域サイズ算出部305による画素数情報の算出方法について説明する図である。図中の四角形で囲まれている領域Xは、文字領域判定部304によって判定された文字領域である。文字領域サイズ算出部305は、文字領域を形成する四角形の辺に用いられている画素数を比較し、画素数が少ない方の辺の画素数を領域Xの文字領域サイズとして算出する。図では文字領域サイズ算出部305は、a辺(12dot)とb辺(36dot)に用いられている画素数を比較し、a辺に用いられている画素数の方が少ないため、a辺に用いられている画素数12dotを領域Xの文字領域サイズとして算出し、算出した文字領域サイズを領域Xに付与する。プレ画像データに含まれるすべての文字領域に対して文字領域サイズを付与し終えたら、文字領域サイズ算出部305は文字領域サイズが付与されたプレ画像データを拡大撮影要否判定部307へ出力する。
図6は、文字領域サイズ算出部305による画素数情報の算出方法について説明する図である。図中の四角形で囲まれている領域Xは、文字領域判定部304によって判定された文字領域である。文字領域サイズ算出部305は、文字領域を形成する四角形の辺に用いられている画素数を比較し、画素数が少ない方の辺の画素数を領域Xの文字領域サイズとして算出する。図では文字領域サイズ算出部305は、a辺(12dot)とb辺(36dot)に用いられている画素数を比較し、a辺に用いられている画素数の方が少ないため、a辺に用いられている画素数12dotを領域Xの文字領域サイズとして算出し、算出した文字領域サイズを領域Xに付与する。プレ画像データに含まれるすべての文字領域に対して文字領域サイズを付与し終えたら、文字領域サイズ算出部305は文字領域サイズが付与されたプレ画像データを拡大撮影要否判定部307へ出力する。
サイズ情報記憶部306には画素数毎に適した拡大倍率が倍率テーブルとして記憶されている。画素数毎に適した拡大倍率とは、プレ画像データ上の文字領域に含まれている文字を後段で認識処理する際に、十分な精度を得るのに必要な撮影時の拡大倍率である。文字認識の精度は認識対象となる文字を構成する縦横の画素数に依存しており、拡大倍率を上げるほど撮影領域は狭くなるが、認識対象となる文字を構成する縦横の画素数は多くなる。プレ画像データを撮影するときはズームを使用しておらず、小さな文字を撮影するときは十分な画素数を得られないため、後段で認識処理する際に十分な精度を得られない。そのような小さな文字によって構成される文字領域は、拡大倍率を上げて撮影することで1つの文字に対して十分な画素数を確保することが可能になる。
<倍率テーブル>
図7は倍率テーブルの一例を示す図である。本実施形態では解像度が200dpiに相当する撮影装置101を想定する。図の横の行は撮影時の拡大倍率と、その拡大倍率で撮影したときに後の工程で十分な精度で文字認識可能な最小の文字領域サイズを示している。ここでの最小の文字領域サイズは、ズームを使用しないで撮影した場合の文字領域サイズである。
本実施形態においては後段の処理において十分な精度で認識可能な最小の文字領域サイズは30dot以上と仮定し、29dot以下の文字領域サイズに含まれる文字を認識するときは十分な精度が得られないものと仮定する。拡大倍率が高くなるほど、最小の文字領域サイズが小さくなっているのは、倍率を上げて撮影することで撮影領域が狭くなり、認識対象となる文字の縦横の画素数が多くなるためである。
例えば、ズームを使用しないで撮影したときの文字領域サイズが6dotであった文字領域を、拡大倍率5倍で撮影したときには文字領域サイズは30dotとなり、十分な精度で認識可能な最小の文字領域サイズの下限値を上回っていることがわかる。
図7は倍率テーブルの一例を示す図である。本実施形態では解像度が200dpiに相当する撮影装置101を想定する。図の横の行は撮影時の拡大倍率と、その拡大倍率で撮影したときに後の工程で十分な精度で文字認識可能な最小の文字領域サイズを示している。ここでの最小の文字領域サイズは、ズームを使用しないで撮影した場合の文字領域サイズである。
本実施形態においては後段の処理において十分な精度で認識可能な最小の文字領域サイズは30dot以上と仮定し、29dot以下の文字領域サイズに含まれる文字を認識するときは十分な精度が得られないものと仮定する。拡大倍率が高くなるほど、最小の文字領域サイズが小さくなっているのは、倍率を上げて撮影することで撮影領域が狭くなり、認識対象となる文字の縦横の画素数が多くなるためである。
例えば、ズームを使用しないで撮影したときの文字領域サイズが6dotであった文字領域を、拡大倍率5倍で撮影したときには文字領域サイズは30dotとなり、十分な精度で認識可能な最小の文字領域サイズの下限値を上回っていることがわかる。
拡大撮影要否判定部307は、倍率テーブルを参照して、プレ画像データの対象となる文字領域に対し拡大撮影が必要かどうかの判定を行う。
<拡大撮影要否判定部の動作>
図8は、拡大撮影要否判定部307の機能を示すブロック図である。
比較部307aは、倍率テーブルを参照して、プレ画像データ内の全ての文字領域に対し必要に応じて拡大倍率を示す倍率情報を付与する。倍率情報を付与するか否かの判断方法と、付与する倍率情報の決定方法について具体的に説明する。
比較部307aは、対象となる文字領域の文字領域サイズと十分な精度で認識可能な最小の文字領域サイズ(30dot)とを比較し、対象となる文字領域の文字領域サイズの方が小さい場合は、対象となる文字領域に倍率情報を付与する。比較部307aは、対象となる文字領域の文字領域サイズ以下であり、且つ拡大倍率が最小となる拡大倍率を倍率情報として付与する。
例えば、対象となる文字領域の文字領域サイズが8dotであった場合、比較部307aは十分な精度で認識可能な最小の文字領域サイズが8dot以下であり、且つ拡大倍率が最小となる4倍を倍率情報として付与する。
<拡大撮影要否判定部の動作>
図8は、拡大撮影要否判定部307の機能を示すブロック図である。
比較部307aは、倍率テーブルを参照して、プレ画像データ内の全ての文字領域に対し必要に応じて拡大倍率を示す倍率情報を付与する。倍率情報を付与するか否かの判断方法と、付与する倍率情報の決定方法について具体的に説明する。
比較部307aは、対象となる文字領域の文字領域サイズと十分な精度で認識可能な最小の文字領域サイズ(30dot)とを比較し、対象となる文字領域の文字領域サイズの方が小さい場合は、対象となる文字領域に倍率情報を付与する。比較部307aは、対象となる文字領域の文字領域サイズ以下であり、且つ拡大倍率が最小となる拡大倍率を倍率情報として付与する。
例えば、対象となる文字領域の文字領域サイズが8dotであった場合、比較部307aは十分な精度で認識可能な最小の文字領域サイズが8dot以下であり、且つ拡大倍率が最小となる4倍を倍率情報として付与する。
判定部307bは、プレ画像データ内の倍率情報の有無に基づいて、拡大撮影の要否を判定する。具体的には、拡大撮影要否判定部307は、プレ画像データ内の文字領域に倍率情報を有する領域が存在しない場合、拡大撮影が不要と判定し、一方、プレ画像データ内の文字領域に倍率情報を有する領域が存在する場合、拡大撮影が必要と判定する。
図3に戻り、撮影条件決定部308は、拡大撮影要否判定部307において拡大撮影が必要と判定された場合、倍率情報に基づいて拡大倍率と拡大撮影する撮影領域が入力された撮影条件テーブルを作成し、撮影装置101に出力する。
<撮影条件決定部>
図9は撮影条件決定部308の機能を示すブロック図である。
領域分割部308aは、プレ画像データに付与された倍率情報の内、最も高い拡大倍率に基づく分割数で、ズームを使用しないで撮影したときの撮影領域を分割する。次に撮影範囲決定部308bは、分割した領域の中に倍率情報が付与された文字領域を含む画素が存在する場合、該当の領域を拡大撮影が必要な領域と判定する。次に作成部308cは、撮影範囲決定部308bによって拡大撮影が必要な領域と判定された領域に対して拡大撮影が実行されるように、撮影条件テーブルを作成する。
図9は撮影条件決定部308の機能を示すブロック図である。
領域分割部308aは、プレ画像データに付与された倍率情報の内、最も高い拡大倍率に基づく分割数で、ズームを使用しないで撮影したときの撮影領域を分割する。次に撮影範囲決定部308bは、分割した領域の中に倍率情報が付与された文字領域を含む画素が存在する場合、該当の領域を拡大撮影が必要な領域と判定する。次に作成部308cは、撮影範囲決定部308bによって拡大撮影が必要な領域と判定された領域に対して拡大撮影が実行されるように、撮影条件テーブルを作成する。
<撮影範囲の決定方法>
図10は撮影範囲の決定方法について説明する図である。
網点領域は文字領域を示す。倍率情報が付与された文字領域には付与された倍率情報が記載されているが、倍率情報が付与されていない文字領域については何も記載されていない。図の倍率情報で最も高い拡大倍率を示している文字領域の拡大倍率は3倍であり、3倍の拡大倍率で撮影した場合に撮影領域はズームを使用しない場合に比べて縦が1/3、横が1/3になるため、分割数を9とし、領域分割部308aはズームを使用しないで撮影した撮影領域を、点線で区切られた9つの領域に分割する。
図では(x3,y1)、(x3,y2)、(x1,y3)、(x2,y3)、(x3,y3)が領域中に文字領域を有しており、撮影範囲決定部308bはそれらの領域を拡大撮影が必要な領域と判定する。作成部308cは倍率情報と撮影範囲を示す(x3,y1)、(x3,y2)、(x1,y3)、(x2,y3)、(x3,y3)を撮影条件テーブルに入力し、動作モードには「文字認識モード」を入力する。図11はこのとき撮影装置101に出力される情報を示す撮影条件テーブルを示している。
図10は撮影範囲の決定方法について説明する図である。
網点領域は文字領域を示す。倍率情報が付与された文字領域には付与された倍率情報が記載されているが、倍率情報が付与されていない文字領域については何も記載されていない。図の倍率情報で最も高い拡大倍率を示している文字領域の拡大倍率は3倍であり、3倍の拡大倍率で撮影した場合に撮影領域はズームを使用しない場合に比べて縦が1/3、横が1/3になるため、分割数を9とし、領域分割部308aはズームを使用しないで撮影した撮影領域を、点線で区切られた9つの領域に分割する。
図では(x3,y1)、(x3,y2)、(x1,y3)、(x2,y3)、(x3,y3)が領域中に文字領域を有しており、撮影範囲決定部308bはそれらの領域を拡大撮影が必要な領域と判定する。作成部308cは倍率情報と撮影範囲を示す(x3,y1)、(x3,y2)、(x1,y3)、(x2,y3)、(x3,y3)を撮影条件テーブルに入力し、動作モードには「文字認識モード」を入力する。図11はこのとき撮影装置101に出力される情報を示す撮影条件テーブルを示している。
図3に戻り、画像合成部309は、拡大撮影要否判定部307によって拡大撮影が必要と判定された場合、一時記憶部302に記憶されたプレ画像データを拡大する。次に、拡大されたプレ画像データの一部の領域を、撮影装置101から一時記憶部302に記憶される拡大画像データ又は拡大画像データの一部の領域に置き換え、プレ画像データと拡大画像データとを合成した合成画像データを作成する。したがって、拡大画像データの領域は元のプレ画像データの領域と比較して高解像度な画像が得られる。
文字認識部310は、拡大撮影要否判定部307によって拡大撮影が必要と判定された場合、合成画像データに対して文字認識処理を行い、テキストデータを作成する。拡大撮影要否判定部307によって拡大撮影が不要と判定された場合、文字認識部310はプレ画像データに対して文字認識処理を行い、テキストデータを作成する。文字認識処理は例えばOCR(Optical Character Reader)によって行われる。文字認識部310は合成画像データ又はプレ画像データのすべての画素に対して文字認識処理を行っても良いが、文字領域判定部304によって判定された文字領域に対してのみ文字認識処理を行うことで処理速度を向上させることが可能である。
画像変換部311は、文字認識部310で文字認識が行われた合成画像データ又はプレ画像データの一方と、文字認識部310により作成されたテキストデータとを合成した後に、所定のファイルフォーマットに変換して記憶装置204に記憶する。データの合成は合成画像データ又はプレ画像データの一部を、テキストデータを参照して置き換えることにより行われる。変換先のファイルフォーマットはユーザによって指定可能であり、pdfファイルやjpegファイル等である。
<ドキュメントカメラ装置の動作>
図12は、本実施形態に係るドキュメントカメラ装置100の処理のフローチャートである。
S101で入力I/F104または外部I/F205を介して撮影開始の指示が入力されると、S102で、仲介部301は指示に基づいて撮影条件テーブルを作成して撮影装置101に出力する。撮影装置101は、S102で作成された撮影条件テーブルを参照して原稿台105に置かれた対象物を撮影する。
次に、仲介部301は、撮影開始時の動作モードを判定する(S103)。
S103で撮影が開始されると、撮影されて得られた画像データ又は映像データは撮影条件テーブル内の動作モードによって異なる場所に送信される。
受け取った撮影条件テーブル内の動作モードが「通常モード」のとき(S103、通常モード)はS113へ進み、S113では撮影された画像データを記憶装置204に記憶して処理を終了する。受け取った撮影条件テーブル内の動作モードが「投影モード」のとき(S103、投影モード)はS114へ進み、S114では撮影している動画データを外部I/F205を介してリアルタイムで送信する。S115で撮影装置101が仲介部301から終了フラグを受け取ると、投影装置は撮影を終了し、処理を終了する。S115で撮影装置101が仲介部301から終了フラグを受け取っていない場合、映像データの送信を続行する。
図12は、本実施形態に係るドキュメントカメラ装置100の処理のフローチャートである。
S101で入力I/F104または外部I/F205を介して撮影開始の指示が入力されると、S102で、仲介部301は指示に基づいて撮影条件テーブルを作成して撮影装置101に出力する。撮影装置101は、S102で作成された撮影条件テーブルを参照して原稿台105に置かれた対象物を撮影する。
次に、仲介部301は、撮影開始時の動作モードを判定する(S103)。
S103で撮影が開始されると、撮影されて得られた画像データ又は映像データは撮影条件テーブル内の動作モードによって異なる場所に送信される。
受け取った撮影条件テーブル内の動作モードが「通常モード」のとき(S103、通常モード)はS113へ進み、S113では撮影された画像データを記憶装置204に記憶して処理を終了する。受け取った撮影条件テーブル内の動作モードが「投影モード」のとき(S103、投影モード)はS114へ進み、S114では撮影している動画データを外部I/F205を介してリアルタイムで送信する。S115で撮影装置101が仲介部301から終了フラグを受け取ると、投影装置は撮影を終了し、処理を終了する。S115で撮影装置101が仲介部301から終了フラグを受け取っていない場合、映像データの送信を続行する。
動作モードが「文字認識モード」である場合(S103、文字認識モード)は、撮影された画像データをプレ画像データとして一時記憶部302に出力してS105へ進む。S105では文字領域判定部304が一時記憶部302に記憶されているプレ画像データを参照し、プレ画像データ内の文字領域を判定する。
S106で、文字領域サイズ算出部305は、S105で判定されたプレ画像データ内の全ての文字領域に対して画素数情報を付与し、S107に進む。S107で、拡大撮影要否判定部307は、倍率テーブルとプレ画像データに付与された全ての画素数情報を比較し、後段で精度良く文字認識をするための拡大撮影が必要か否かを判定する。S107で拡大撮影が必要でないと判定された場合(S107、No)はS111へ進む。S107で拡大撮影が必要であると判定された場合(S107、Yes)はS108へ進む。
S108で、撮影条件決定部308は、拡大撮影する際の撮影条件テーブルを作成し、撮影装置101に出力する。S109で、撮影装置101は、S108で受け取った撮影条件テーブルを参照して拡大撮影を行い、得られた拡大画像データを一時記憶部302に出力する。
S110で、画像合成部309は、プレ画像データと拡大画像データとを合成して合成画像データを作成する。S111で、文字認識部310は、合成画像データ又はプレ画像データに対して文字認識を行い、テキストデータを作成する。S112で、画像変換部311は、S111で文字認識処理の対象となった合成画像データ又はプレ画像データとS111で作成されたテキストデータとを合成し、指定されたファイルフォーマットに変換して変換データを作成する。
S108で、撮影条件決定部308は、拡大撮影する際の撮影条件テーブルを作成し、撮影装置101に出力する。S109で、撮影装置101は、S108で受け取った撮影条件テーブルを参照して拡大撮影を行い、得られた拡大画像データを一時記憶部302に出力する。
S110で、画像合成部309は、プレ画像データと拡大画像データとを合成して合成画像データを作成する。S111で、文字認識部310は、合成画像データ又はプレ画像データに対して文字認識を行い、テキストデータを作成する。S112で、画像変換部311は、S111で文字認識処理の対象となった合成画像データ又はプレ画像データとS111で作成されたテキストデータとを合成し、指定されたファイルフォーマットに変換して変換データを作成する。
<拡大撮影要否判定部の動作>
図13は、拡大撮影要否判定部307によるS107のフローをより具体的に説明するフローチャートである。
S201で、比較部307aは倍率テーブルを参照する。S202で、比較部307aは対象となる文字領域の文字領域サイズと十分な精度で認識可能な最小の文字領域サイズとを比較し、最小の文字領域サイズ以上であった場合(S202、Yes)はS205へ進み、最小の文字領域サイズ未満であった場合(S202、No)はS203へ進む。
S203で、比較部307aは対象となる文字領域の文字領域サイズ以下且つ拡大倍率が最小となる拡大倍率を対象となる文字領域の倍率情報として付与し、S204へ進む。
S204で、プレ画像データ内のすべての文字領域に対してS202の処理を終えたか判断し、すべての文字領域に対して処理を終えている場合(S204、Yes)はS205へ進み、まだ処理を終えていない文字領域が存在する場合(S204、No)はS202に戻る。
S205で、判定部307bは倍率情報が付与された文字領域が存在するかどうかを判定する。プレ画像データ内の文字領域に倍率情報を有する領域が存在しない場合(S205、No)はS206へ進み、判定部307bは拡大撮影が不要と判定し処理を終了する。プレ画像データ内の文字領域に倍率情報を有する領域が存在する場合(S205、Yes)はS207へ進み、判定部307bは拡大撮影が必要と判定し処理を終了する。
図13は、拡大撮影要否判定部307によるS107のフローをより具体的に説明するフローチャートである。
S201で、比較部307aは倍率テーブルを参照する。S202で、比較部307aは対象となる文字領域の文字領域サイズと十分な精度で認識可能な最小の文字領域サイズとを比較し、最小の文字領域サイズ以上であった場合(S202、Yes)はS205へ進み、最小の文字領域サイズ未満であった場合(S202、No)はS203へ進む。
S203で、比較部307aは対象となる文字領域の文字領域サイズ以下且つ拡大倍率が最小となる拡大倍率を対象となる文字領域の倍率情報として付与し、S204へ進む。
S204で、プレ画像データ内のすべての文字領域に対してS202の処理を終えたか判断し、すべての文字領域に対して処理を終えている場合(S204、Yes)はS205へ進み、まだ処理を終えていない文字領域が存在する場合(S204、No)はS202に戻る。
S205で、判定部307bは倍率情報が付与された文字領域が存在するかどうかを判定する。プレ画像データ内の文字領域に倍率情報を有する領域が存在しない場合(S205、No)はS206へ進み、判定部307bは拡大撮影が不要と判定し処理を終了する。プレ画像データ内の文字領域に倍率情報を有する領域が存在する場合(S205、Yes)はS207へ進み、判定部307bは拡大撮影が必要と判定し処理を終了する。
<撮影条件決定部の動作>
図14は撮影条件決定部308によるS108のフローをより具体的に説明するフローチャートである。
S301では、領域分割部308aはプレ画像データに付与された倍率情報の内、最大の拡大倍率に基づく分割数で撮影領域を分割する。
S302では、撮影範囲決定部308bは分割した領域の中に倍率情報が付与された文字領域を含む画素が存在する場合、該当の領域を拡大撮影が必要な領域と決定する。
S303では、作成部308cは撮影条件テーブルの動作モードには「文字認識モード」、拡大倍率にはS301で判定された最大の拡大倍率、撮影範囲にはS302で決定された拡大撮影が必要な領域情報を入力し、撮影装置101に撮影条件テーブルを出力して処理を終了する。
図14は撮影条件決定部308によるS108のフローをより具体的に説明するフローチャートである。
S301では、領域分割部308aはプレ画像データに付与された倍率情報の内、最大の拡大倍率に基づく分割数で撮影領域を分割する。
S302では、撮影範囲決定部308bは分割した領域の中に倍率情報が付与された文字領域を含む画素が存在する場合、該当の領域を拡大撮影が必要な領域と決定する。
S303では、作成部308cは撮影条件テーブルの動作モードには「文字認識モード」、拡大倍率にはS301で判定された最大の拡大倍率、撮影範囲にはS302で決定された拡大撮影が必要な領域情報を入力し、撮影装置101に撮影条件テーブルを出力して処理を終了する。
以上のように、本実施形態に係るドキュメントカメラ装置100によれば、ズームを使用しないで撮影したプレ画像データから拡大撮影が必要な領域を判断し、該当の領域を拡大撮影した拡大画像データを画像データと合成することで、精度良く文字認識することができる合成画像を作成することが可能になる。
<第2の実施形態>
第1の実施形態に係るドキュメントカメラ装置100では動作モードが「文字認識モード」である場合、必要に応じて一定の拡大倍率で予め定められた領域の内、指定された領域を拡大撮影して得られた拡大画像データを後段の文字認識処理に用いることで精度良く文字認識を行っていた。
これに対して、本実施形態に係るドキュメントカメラ装置100では1種類以上の拡大倍率で指定された領域を拡大撮影して得られた拡大画像データを後段の文字認識処理に用いる形態について説明する。尚、以下には第1の実施形態と異なる事項について説明を行う。
第1の実施形態に係るドキュメントカメラ装置100では動作モードが「文字認識モード」である場合、必要に応じて一定の拡大倍率で予め定められた領域の内、指定された領域を拡大撮影して得られた拡大画像データを後段の文字認識処理に用いることで精度良く文字認識を行っていた。
これに対して、本実施形態に係るドキュメントカメラ装置100では1種類以上の拡大倍率で指定された領域を拡大撮影して得られた拡大画像データを後段の文字認識処理に用いる形態について説明する。尚、以下には第1の実施形態と異なる事項について説明を行う。
<撮影条件決定部>
図15は、本実施形態に係る撮影条件決定部308の機能構成を示す図である。
領域抽出部308dは、プレ画像データに付与された倍率情報の内、最も高い拡大倍率を示す倍率情報が付与された文字領域を抽出する。ここで抽出される文字領域は1つであり、最も高い拡大倍率が付与された文字領域が複数ある場合は原点座標に近い方の文字領域を抽出する。
撮影範囲決定部308eは、抽出された文字領域の構成画素が最も多く含まれ、且つ可能であれば撮影領域内に倍率情報が付与された他の文字領域の構成画素が多く含まれる撮影範囲の中心の位置座標を決定する。このときの撮影範囲は抽出された文字領域に付与された拡大倍率で撮影した場合の範囲である。抽出された文字領域が撮影範囲に全て収まらない場合、撮影範囲が連続するように複数の位置座標を決定する。
図15は、本実施形態に係る撮影条件決定部308の機能構成を示す図である。
領域抽出部308dは、プレ画像データに付与された倍率情報の内、最も高い拡大倍率を示す倍率情報が付与された文字領域を抽出する。ここで抽出される文字領域は1つであり、最も高い拡大倍率が付与された文字領域が複数ある場合は原点座標に近い方の文字領域を抽出する。
撮影範囲決定部308eは、抽出された文字領域の構成画素が最も多く含まれ、且つ可能であれば撮影領域内に倍率情報が付与された他の文字領域の構成画素が多く含まれる撮影範囲の中心の位置座標を決定する。このときの撮影範囲は抽出された文字領域に付与された拡大倍率で撮影した場合の範囲である。抽出された文字領域が撮影範囲に全て収まらない場合、撮影範囲が連続するように複数の位置座標を決定する。
さらに領域抽出部308dは、プレ画像データから既に撮影範囲と判定された領域を除いた領域に構成画素を有する文字領域の内、最も高い拡大倍率を示す倍率情報が付与された文字領域を識別する。
以後、領域識別部308dと撮影範囲決定部308eは倍率情報が付与された文字領域の構成画素が全て撮影範囲に収まるまで同様の処理フローを繰り返し行う。
以後、領域識別部308dと撮影範囲決定部308eは倍率情報が付与された文字領域の構成画素が全て撮影範囲に収まるまで同様の処理フローを繰り返し行う。
<撮影範囲決定部>
図16は、撮影範囲決定部308eによる撮影範囲の中心の位置座標の決定方法について説明する図である。
図16では、プレ画像データに付与された倍率情報の内、最も高い拡大倍率を示す倍率情報が付与された文字領域は文字領域2と文字領域3の2箇所あり、領域抽出部308dはその内の1つである文字領域2を抽出する。文字領域2の周囲には倍率情報が付与され且つ撮影範囲に含まれていない文字領域が存在しないため、撮影範囲決定部308eは文字領域2のみを含む拡大倍率3倍の撮影範囲であるA領域の中心座標を撮影範囲の中心の位置座標として決定する。
ここで、文字領域2の周囲とは文字領域2を含む領域の集合であり、例えば文字領域2の左上の座標にA領域の左上の座標を合わせたときのA領域と、文字領域2の右上の座標にA領域の右上の座標を合わせたときのA領域と、文字領域2の左下の座標にA領域の左下の座標を合わせたときのA領域と、文字領域2の右下の座標にA領域の右下の座標を合わせたときのA領域との集合によって表される領域などである。
図16は、撮影範囲決定部308eによる撮影範囲の中心の位置座標の決定方法について説明する図である。
図16では、プレ画像データに付与された倍率情報の内、最も高い拡大倍率を示す倍率情報が付与された文字領域は文字領域2と文字領域3の2箇所あり、領域抽出部308dはその内の1つである文字領域2を抽出する。文字領域2の周囲には倍率情報が付与され且つ撮影範囲に含まれていない文字領域が存在しないため、撮影範囲決定部308eは文字領域2のみを含む拡大倍率3倍の撮影範囲であるA領域の中心座標を撮影範囲の中心の位置座標として決定する。
ここで、文字領域2の周囲とは文字領域2を含む領域の集合であり、例えば文字領域2の左上の座標にA領域の左上の座標を合わせたときのA領域と、文字領域2の右上の座標にA領域の右上の座標を合わせたときのA領域と、文字領域2の左下の座標にA領域の左下の座標を合わせたときのA領域と、文字領域2の右下の座標にA領域の右下の座標を合わせたときのA領域との集合によって表される領域などである。
次に、領域抽出部308dはA領域を除いた領域の中で最も高い拡大倍率を示す文字領域3を抽出する。文字領域3の周囲には倍率情報が付与されており、且つ既に決定された撮影範囲に含まれていない文字領域である文字領域4が存在するため、領域抽出部308dは文字領域3と文字領域4を含む拡大倍率3倍の撮影範囲であるB領域の中心座標を撮影範囲の中心の位置座標として決定する。文字領域2と文字領域3に付与されている倍率情報は同倍率であるため、抽出の順番はどちらが先であっても構わない。このように、撮影範囲決定部308eは複数の文字領域同士の位置関係に基づいて撮影範囲を決定する。
次に、A領域とB領域を除いた領域の中で最も高い拡大倍率を示す文字領域5を抽出する。文字領域5の周囲には倍率情報が付与され且つ既に決定された撮影範囲に含まれていない文字領域が存在しないため、撮影範囲決定部308eは文字領域5のみを含む拡大倍率2倍の撮影範囲であるC領域の中心座標を撮影範囲の中心の位置座標として決定する。
このように、領域抽出部308dは既に撮影範囲として決定された領域を除いた領域の中で最大の倍率情報が付与されている文字領域を抽出し、次に抽出された文字領域を含む周囲に倍率情報が付与され且つ既に決定された撮影範囲に含まれていない文字領域が存在するかどうかを判断し、存在する場合はその文字領域を含むように撮影範囲を決定する。領域抽出部308dは、倍率情報が付与された全ての文字領域が撮影範囲に含まれるまで、一連の処理を繰り返し行う。尚、本実施形態において対象となる文字領域の一部のみが撮影範囲に含まれている場合、対象となる文字領域の残りの部分は撮影範囲に含まれていないものとみなす。
その他、領域抽出部308dにおける撮影範囲の決定方法として、最大の倍率情報が付与されている文字領域を中心として周辺探索を行い、既に決定された撮影範囲に含まれていない倍率情報を含む文字領域の含有率が最大となる状態を撮影範囲として決定しても良い。
作成部308fは、A領域の中心座標である(200,100)と、B領域の中心座標である(500,100)と、C領域の中心座標である(550,300)と、それぞれの領域の撮影倍率を示す倍率情報を撮影条件テーブルに入力し、動作モードには「文字認識モード」を入力する。
<撮影条件テーブル>
図17は、このとき撮影装置101に出力される情報を示す撮影条件テーブルである。
撮影装置101は、撮影条件テーブルを参照し、入力されている座標が中心点となるようレンズを回転させ、入力されている倍率で撮影範囲を拡大撮影する。
<撮影条件テーブル>
図17は、このとき撮影装置101に出力される情報を示す撮影条件テーブルである。
撮影装置101は、撮影条件テーブルを参照し、入力されている座標が中心点となるようレンズを回転させ、入力されている倍率で撮影範囲を拡大撮影する。
<撮影条件決定部の処理>
図18は、本実施形態に係る撮影条件決定部308の処理フローを説明するフローチャートである。図18は、図13に示すS108における処理に該当する。
S401で、領域抽出部308dは最大の拡大倍率が付与されている文字領域を抽出する。S402で、撮影範囲決定部308eは抽出された文字領域を含み、且つ可能であれば撮影範囲内に倍率情報が付与された他の文字領域の構成画素が多く含まれる撮影範囲の中心の位置座標を決定する。
S403で、領域抽出部308dは倍率情報が付与されている全ての文字領域を構成する画素が撮影範囲に含まれているか確認する。S403で撮影範囲外に倍率情報が付与されている文字領域の構成画素が存在する場合(S403、No)、S404へ進む。
S404で、領域抽出部308dは撮影範囲として決定した領域以外で最大の拡大倍率が付与されている文字領域を抽出する。S404で抽出を終えたらS402に戻る。
S403で、撮影範囲外に倍率情報が付与されている文字領域の構成画素が存在しない場合(S403、Yes)、S405へ進み、作成部308fは撮影条件テーブルを作成し、撮影装置101に撮影条件テーブルを出力して処理を終了する。
図18は、本実施形態に係る撮影条件決定部308の処理フローを説明するフローチャートである。図18は、図13に示すS108における処理に該当する。
S401で、領域抽出部308dは最大の拡大倍率が付与されている文字領域を抽出する。S402で、撮影範囲決定部308eは抽出された文字領域を含み、且つ可能であれば撮影範囲内に倍率情報が付与された他の文字領域の構成画素が多く含まれる撮影範囲の中心の位置座標を決定する。
S403で、領域抽出部308dは倍率情報が付与されている全ての文字領域を構成する画素が撮影範囲に含まれているか確認する。S403で撮影範囲外に倍率情報が付与されている文字領域の構成画素が存在する場合(S403、No)、S404へ進む。
S404で、領域抽出部308dは撮影範囲として決定した領域以外で最大の拡大倍率が付与されている文字領域を抽出する。S404で抽出を終えたらS402に戻る。
S403で、撮影範囲外に倍率情報が付与されている文字領域の構成画素が存在しない場合(S403、Yes)、S405へ進み、作成部308fは撮影条件テーブルを作成し、撮影装置101に撮影条件テーブルを出力して処理を終了する。
以上のように、本実施形態に係るドキュメントカメラ装置100によれば、ズームを使用しないで撮影したプレ画像データから拡大撮影が必要な領域を判断し、該当の領域を拡大撮影した拡大画像データを画像データと合成することで、精度良く文字認識することができる合成画像を作成することが可能になる。
また、第1の実施形態と比較して、条件に応じた複数の拡大倍率で撮影することで、より効率良く少ない撮影回数でプレ画像データよりも精度良く文字認識することができる合成画像を作成することが可能になる。
また、第1の実施形態と比較して、倍率情報が付与された文字領域が複数含まれるように撮影範囲を決定するため、より効率良く少ない撮影回数でプレ画像データよりも精度良く文字認識することができる合成画像を得ることが可能になる。
<第3の実施形態>
第1の実施形態及び第2の実施形態に係るドキュメントカメラ装置100では、撮影装置101を回転させることで指定の箇所を拡大撮影していた。
これに対して、本実施形態に係るドキュメントカメラ装置900では平面方向に自由に移動可能な可動式原稿台106を用いることで、指定の箇所を拡大撮影する形態について説明する。尚、以下には第1の実施形態及び第2の実施形態と異なる事項について説明を行う。
第1の実施形態及び第2の実施形態に係るドキュメントカメラ装置100では、撮影装置101を回転させることで指定の箇所を拡大撮影していた。
これに対して、本実施形態に係るドキュメントカメラ装置900では平面方向に自由に移動可能な可動式原稿台106を用いることで、指定の箇所を拡大撮影する形態について説明する。尚、以下には第1の実施形態及び第2の実施形態と異なる事項について説明を行う。
図19は、図1における固定式の原稿台105の代わりに、平面方向に自由に移動可能な可動式原稿台106を用いて指定の箇所を拡大撮影する第3の実施形態の全体構成について説明する図である。
本実施形態では、CPU201が撮影条件テーブルに入力されている撮影範囲を参照し、入力されている撮影範囲の中心が撮影装置101の真下に位置するように可動式原稿台106を可動制御し、撮影装置101は撮影条件テーブルに入力されている拡大倍率で撮影する。
本実施形態では、CPU201が撮影条件テーブルに入力されている撮影範囲を参照し、入力されている撮影範囲の中心が撮影装置101の真下に位置するように可動式原稿台106を可動制御し、撮影装置101は撮影条件テーブルに入力されている拡大倍率で撮影する。
以上のように、本実施形態に係るドキュメントカメラ装置900によれば、ズームを使用しないで撮影したプレ画像データから拡大撮影が必要な領域を判断し、該当の領域を拡大撮影した拡大画像データを画像データと合成することで、精度良く文字認識することができる合成画像を作成することが可能になる。
また、第1の実施形態及び第2の実施形態と比較して、指定の箇所が撮影装置101の真下に位置するように可動式原稿台106を可動制御することで、より歪みの少ない拡大画像を取得することができ、文字認識の精度が向上する。
以上、本発明の具体的な実施形態について説明したが、上述した実施形態は本発明の一例を示したものである。本発明は、上述した実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で様々な変形や変更を加えて具体化することができる。
<本発明の実施態様例の構成、作用、効果>
<第1態様>
本態様のドキュメントカメラ装置100(画像合成装置)は、所定の撮影範囲を撮影することにより取得した撮影画像に含まれる文字領域毎に文字領域サイズを算出する文字領域サイズ算出部305と、算出された文字領域毎の文字領域サイズに基づいて、所定の撮影範囲内の拡大撮影の要否を判定する拡大撮影要否判定部307と、拡大撮影要否判定部307によって拡大撮影が必要である判定された場合に、算出された文字領域毎の文字領域サイズと文字領域毎の位置に基づいて、拡大撮影範囲を決定する撮影範囲決定部308bと、拡大撮影範囲を拡大撮影することにより取得した拡大撮影画像と、撮影画像とを合成して合成画像を作成する画像合成部309と、を備える。
本態様によれば、文字領域サイズ算出部305が、所定の撮影範囲を撮影することにより取得した撮影画像に含まれる文字領域毎に文字領域サイズを算出する。拡大撮影要否判定部307が、算出された文字領域毎の文字領域サイズに基づいて、所定の撮影範囲内の拡大撮影の要否を判定する。撮影範囲決定部308bが、拡大撮影要否判定部307によって拡大撮影が必要である判定された場合に、算出された文字領域毎の文字領域サイズと文字領域毎の位置に基づいて、拡大撮影範囲を決定する。画像合成部309が、拡大撮影範囲を拡大撮影することにより取得した拡大撮影画像と、撮影画像とを合成して合成画像を作成する。
これにより、必要な領域を拡大撮影することで精度の良い文字認識が可能になる。
<第1態様>
本態様のドキュメントカメラ装置100(画像合成装置)は、所定の撮影範囲を撮影することにより取得した撮影画像に含まれる文字領域毎に文字領域サイズを算出する文字領域サイズ算出部305と、算出された文字領域毎の文字領域サイズに基づいて、所定の撮影範囲内の拡大撮影の要否を判定する拡大撮影要否判定部307と、拡大撮影要否判定部307によって拡大撮影が必要である判定された場合に、算出された文字領域毎の文字領域サイズと文字領域毎の位置に基づいて、拡大撮影範囲を決定する撮影範囲決定部308bと、拡大撮影範囲を拡大撮影することにより取得した拡大撮影画像と、撮影画像とを合成して合成画像を作成する画像合成部309と、を備える。
本態様によれば、文字領域サイズ算出部305が、所定の撮影範囲を撮影することにより取得した撮影画像に含まれる文字領域毎に文字領域サイズを算出する。拡大撮影要否判定部307が、算出された文字領域毎の文字領域サイズに基づいて、所定の撮影範囲内の拡大撮影の要否を判定する。撮影範囲決定部308bが、拡大撮影要否判定部307によって拡大撮影が必要である判定された場合に、算出された文字領域毎の文字領域サイズと文字領域毎の位置に基づいて、拡大撮影範囲を決定する。画像合成部309が、拡大撮影範囲を拡大撮影することにより取得した拡大撮影画像と、撮影画像とを合成して合成画像を作成する。
これにより、必要な領域を拡大撮影することで精度の良い文字認識が可能になる。
<第2態様>
本態様の拡大撮影要否判定部307は、算出された最小の文字領域サイズが所定値より小さい場合に、拡大撮影が必要であると判定する。
本態様によれば、拡大撮影要否判定部307が、算出された最小の文字領域サイズが所定値より小さい場合に、拡大撮影が必要であると判定するので、必要な領域を拡大撮影することができ、精度の良い文字認識が可能になる。
本態様の拡大撮影要否判定部307は、算出された最小の文字領域サイズが所定値より小さい場合に、拡大撮影が必要であると判定する。
本態様によれば、拡大撮影要否判定部307が、算出された最小の文字領域サイズが所定値より小さい場合に、拡大撮影が必要であると判定するので、必要な領域を拡大撮影することができ、精度の良い文字認識が可能になる。
<第3態様>
本態様の撮影範囲決定部308bは、所定の撮影範囲を分割した領域に所定値より小さい文字領域サイズの文字領域が含まれる場合に、分割した領域を拡大撮影範囲として決定する。
本態様によれば、撮影範囲決定部308bが、所定の撮影範囲を分割した領域に所定値より小さい文字領域サイズの文字領域が含まれる場合に、分割した領域を拡大撮影範囲として決定するので、必要な領域を拡大撮影することができ、精度の良い文字認識が可能になる。
本態様の撮影範囲決定部308bは、所定の撮影範囲を分割した領域に所定値より小さい文字領域サイズの文字領域が含まれる場合に、分割した領域を拡大撮影範囲として決定する。
本態様によれば、撮影範囲決定部308bが、所定の撮影範囲を分割した領域に所定値より小さい文字領域サイズの文字領域が含まれる場合に、分割した領域を拡大撮影範囲として決定するので、必要な領域を拡大撮影することができ、精度の良い文字認識が可能になる。
<第4態様>
本態様の撮影条件決定部308は、文字領域サイズ算出部305により算出された最小の文字領域サイズに基づいて、所定の撮影範囲の分割数を決定する。
本態様によれば、撮影条件決定部308が、文字領域サイズ算出部305により算出された最小の文字領域サイズに基づいて、所定の撮影範囲の分割数を決定するので、決定された分割数に応じて分割した領域を拡大撮影範囲として決定するので、必要な領域を拡大撮影することができ、精度の良い文字認識が可能になる。
本態様の撮影条件決定部308は、文字領域サイズ算出部305により算出された最小の文字領域サイズに基づいて、所定の撮影範囲の分割数を決定する。
本態様によれば、撮影条件決定部308が、文字領域サイズ算出部305により算出された最小の文字領域サイズに基づいて、所定の撮影範囲の分割数を決定するので、決定された分割数に応じて分割した領域を拡大撮影範囲として決定するので、必要な領域を拡大撮影することができ、精度の良い文字認識が可能になる。
<第5態様>
本態様の撮影範囲決定部308eは、複数の文字領域同士の位置関係に基づいて拡大撮影範囲を決定することを特徴とする。
本態様によれば、撮影範囲決定部308eは、複数の文字領域同士の位置関係に基づいて拡大撮影範囲を決定するので、決定された拡大撮影範囲に応じて必要な領域を拡大撮影することができ、精度の良い文字認識が可能になる。
本態様の撮影範囲決定部308eは、複数の文字領域同士の位置関係に基づいて拡大撮影範囲を決定することを特徴とする。
本態様によれば、撮影範囲決定部308eは、複数の文字領域同士の位置関係に基づいて拡大撮影範囲を決定するので、決定された拡大撮影範囲に応じて必要な領域を拡大撮影することができ、精度の良い文字認識が可能になる。
<第6態様>
本態様の画像合成部309は、撮影画像の一部の領域を、該撮影画像の一部の領域に対応する拡大撮影画像又は該拡大撮影画像の一部の領域の解像度を保持したまま置き換えて合成画像を作成する。
本態様によれば、画像合成部309が、撮影画像の一部の領域を、該撮影画像の一部の領域に対応する拡大撮影画像又は該拡大撮影画像の一部の領域の解像度を保持したまま置き換えて合成画像を作成するので、拡大画像データの領域は元のプレ画像データの領域と比較して高解像度な画像が得られる。
本態様の画像合成部309は、撮影画像の一部の領域を、該撮影画像の一部の領域に対応する拡大撮影画像又は該拡大撮影画像の一部の領域の解像度を保持したまま置き換えて合成画像を作成する。
本態様によれば、画像合成部309が、撮影画像の一部の領域を、該撮影画像の一部の領域に対応する拡大撮影画像又は該拡大撮影画像の一部の領域の解像度を保持したまま置き換えて合成画像を作成するので、拡大画像データの領域は元のプレ画像データの領域と比較して高解像度な画像が得られる。
<第7態様>
本態様のドキュメントカメラ装置100(画像合成装置)は、合成画像に対して文字認識処理を施す文字認識部310をさらに備える。
本態様によれば、文字認識部310が、合成画像に対して文字認識処理を施すので、文字認識の精度が向上する。
本態様のドキュメントカメラ装置100(画像合成装置)は、合成画像に対して文字認識処理を施す文字認識部310をさらに備える。
本態様によれば、文字認識部310が、合成画像に対して文字認識処理を施すので、文字認識の精度が向上する。
<第8態様>
本態様の画像合成方法は、所定の撮影範囲を撮影することにより取得した撮影画像に含まれる文字領域毎に文字領域サイズを算出する文字領域サイズ算出ステップ(S106)と、算出された文字領域毎の文字領域サイズに基づいて、所定の撮影範囲内の拡大撮影の要否を判定する拡大撮影要否判定ステップ(S107)と、拡大撮影要否判定ステップ(S107)によって拡大撮影が必要である判定された場合に、算出された文字領域毎の文字領域サイズと文字領域毎の位置に基づいて、拡大撮影範囲を決定する撮影範囲決定ステップ(S302)と、拡大撮影範囲を拡大撮影することにより取得した拡大撮影画像と、撮影画像とを合成して合成画像を作成する画像合成ステップ(S110)と、を実行する。
本態様によれば、文字領域サイズ算出ステップ(S106)にて、所定の撮影範囲を撮影することにより取得した撮影画像に含まれる文字領域毎に文字領域サイズを算出する。拡大撮影要否判定ステップ(S107)にて、算出された文字領域毎の文字領域サイズに基づいて、所定の撮影範囲内の拡大撮影の要否を判定する。撮影範囲決定ステップ(S302)にて、拡大撮影要否判定ステップ(S107)によって拡大撮影が必要である判定された場合に、算出された文字領域毎の文字領域サイズと文字領域毎の位置に基づいて、拡大撮影範囲を決定する。画像合成ステップ(S110)にて、拡大撮影範囲を拡大撮影することにより取得した拡大撮影画像と、撮影画像とを合成して合成画像を作成する。
これにより、必要な領域を拡大撮影することで精度の良い文字認識が可能になる。
本態様の画像合成方法は、所定の撮影範囲を撮影することにより取得した撮影画像に含まれる文字領域毎に文字領域サイズを算出する文字領域サイズ算出ステップ(S106)と、算出された文字領域毎の文字領域サイズに基づいて、所定の撮影範囲内の拡大撮影の要否を判定する拡大撮影要否判定ステップ(S107)と、拡大撮影要否判定ステップ(S107)によって拡大撮影が必要である判定された場合に、算出された文字領域毎の文字領域サイズと文字領域毎の位置に基づいて、拡大撮影範囲を決定する撮影範囲決定ステップ(S302)と、拡大撮影範囲を拡大撮影することにより取得した拡大撮影画像と、撮影画像とを合成して合成画像を作成する画像合成ステップ(S110)と、を実行する。
本態様によれば、文字領域サイズ算出ステップ(S106)にて、所定の撮影範囲を撮影することにより取得した撮影画像に含まれる文字領域毎に文字領域サイズを算出する。拡大撮影要否判定ステップ(S107)にて、算出された文字領域毎の文字領域サイズに基づいて、所定の撮影範囲内の拡大撮影の要否を判定する。撮影範囲決定ステップ(S302)にて、拡大撮影要否判定ステップ(S107)によって拡大撮影が必要である判定された場合に、算出された文字領域毎の文字領域サイズと文字領域毎の位置に基づいて、拡大撮影範囲を決定する。画像合成ステップ(S110)にて、拡大撮影範囲を拡大撮影することにより取得した拡大撮影画像と、撮影画像とを合成して合成画像を作成する。
これにより、必要な領域を拡大撮影することで精度の良い文字認識が可能になる。
<第9態様>
本態様のドキュメントカメラ装置100(画像合成システム)は、所定の撮影範囲を撮影した撮影画像又は所定の撮影範囲を拡大撮影した拡大撮影画像を取得する撮影装置101(撮影部)と、
撮影画像に含まれる文字領域毎に文字領域サイズを算出する文字領域サイズ算出部305と、
算出された文字領域毎の文字領域サイズに基づいて、所定の撮影範囲内の拡大撮影の要否を判定する拡大撮影要否判定部307と、拡大撮影要否判定部307によって拡大撮影が必要である判定された場合に、算出された文字領域毎の文字領域サイズと文字領域毎の位置に基づいて、拡大撮影範囲を決定する撮影範囲決定部308bと、拡大撮影範囲を拡大撮影することにより取得した拡大撮影画像と、撮影画像とを合成して合成画像を作成する画像合成部309と、を備える。
本態様によれば、撮影装置101(撮影部)が、所定の撮影範囲を撮影した撮影画像又は所定の撮影範囲を拡大撮影した拡大撮影画像を取得する。文字領域サイズ算出部305が、撮影画像に含まれる文字領域毎に文字領域サイズを算出する。拡大撮影要否判定部307が、算出された文字領域毎の文字領域サイズに基づいて、所定の撮影範囲内の拡大撮影の要否を判定する。撮影範囲決定部308bが、拡大撮影要否判定部307によって拡大撮影が必要である判定された場合に、算出された文字領域毎の文字領域サイズと文字領域毎の位置に基づいて、拡大撮影範囲を決定する。画像合成部309が、拡大撮影範囲を拡大撮影することにより取得した拡大撮影画像と、撮影画像とを合成して合成画像を作成する。
これにより、必要な領域を拡大撮影することで精度の良い文字認識が可能になる。
本態様のドキュメントカメラ装置100(画像合成システム)は、所定の撮影範囲を撮影した撮影画像又は所定の撮影範囲を拡大撮影した拡大撮影画像を取得する撮影装置101(撮影部)と、
撮影画像に含まれる文字領域毎に文字領域サイズを算出する文字領域サイズ算出部305と、
算出された文字領域毎の文字領域サイズに基づいて、所定の撮影範囲内の拡大撮影の要否を判定する拡大撮影要否判定部307と、拡大撮影要否判定部307によって拡大撮影が必要である判定された場合に、算出された文字領域毎の文字領域サイズと文字領域毎の位置に基づいて、拡大撮影範囲を決定する撮影範囲決定部308bと、拡大撮影範囲を拡大撮影することにより取得した拡大撮影画像と、撮影画像とを合成して合成画像を作成する画像合成部309と、を備える。
本態様によれば、撮影装置101(撮影部)が、所定の撮影範囲を撮影した撮影画像又は所定の撮影範囲を拡大撮影した拡大撮影画像を取得する。文字領域サイズ算出部305が、撮影画像に含まれる文字領域毎に文字領域サイズを算出する。拡大撮影要否判定部307が、算出された文字領域毎の文字領域サイズに基づいて、所定の撮影範囲内の拡大撮影の要否を判定する。撮影範囲決定部308bが、拡大撮影要否判定部307によって拡大撮影が必要である判定された場合に、算出された文字領域毎の文字領域サイズと文字領域毎の位置に基づいて、拡大撮影範囲を決定する。画像合成部309が、拡大撮影範囲を拡大撮影することにより取得した拡大撮影画像と、撮影画像とを合成して合成画像を作成する。
これにより、必要な領域を拡大撮影することで精度の良い文字認識が可能になる。
100、900…ドキュメントカメラ装置、101…撮影装置、102…照明、103…支持部材、104…入力I/F、105…原稿台、106…可動式原稿台、201…CPU、202…RAM、203…ROM、204…記憶装置、205…外部I/F、301…仲介部、302…一時記憶部、304…文字領域判定部、305…文字領域サイズ算出部、306…サイズ情報記憶部、307…拡大撮影要否判定部、308…撮影条件決定部、309…画像合成部、310…文字認識部、311…画像変換部
Claims (9)
- 所定の撮影範囲を撮影することにより取得した撮影画像に含まれる文字領域毎に文字領域サイズを算出する文字領域サイズ算出部と、
前記算出された前記文字領域毎の文字領域サイズに基づいて、前記所定の撮影範囲内の拡大撮影の要否を判定する拡大撮影要否判定部と、
前記拡大撮影要否判定部によって拡大撮影が必要である判定された場合に、前記算出された前記文字領域毎の文字領域サイズと前記文字領域毎の位置に基づいて、拡大撮影範囲を決定する撮影範囲決定部と、
前記拡大撮影範囲を拡大撮影することにより取得した拡大撮影画像と、前記撮影画像とを合成して合成画像を作成する画像合成部と、
を備える画像合成装置。 - 前記拡大撮影要否判定部は、前記算出された最小の文字領域サイズが所定値より小さい場合に、拡大撮影が必要であると判定する請求項1に記載の画像合成装置。
- 前記撮影範囲決定部は、前記所定の撮影範囲を分割した領域に所定値より小さい文字領域サイズの文字領域が含まれる場合に、前記分割した領域を前記拡大撮影範囲として決定する請求項1に記載の画像合成装置。
- 前記文字領域サイズ算出部により算出された最小の文字領域サイズに基づいて、前記所定の撮影範囲の分割数を決定する撮影条件決定部を備える請求項3に記載の画像合成装置。
- 前記撮影範囲決定部は、複数の文字領域同士の位置関係に基づいて前記拡大撮影範囲を決定することを特徴とする請求項1又は2に記載の画像合成装置。
- 前記画像合成部は、前記撮影画像の一部の領域を、該撮影画像の一部の領域に対応する前記拡大撮影画像又は該拡大撮影画像の一部の領域の解像度を保持したまま置き換えて合成画像を作成する請求項1乃至5の何れか一項に記載の画像合成装置。
- 前記合成画像に対して文字認識処理を施す文字認識部をさらに備える請求項1乃至6の何れか一項に記載の画像合成装置。
- 所定の撮影範囲を撮影することにより取得した撮影画像に含まれる文字領域毎に文字領域サイズを算出する文字領域サイズ算出ステップと、
前記算出された前記文字領域毎の文字領域サイズに基づいて、前記所定の撮影範囲内の拡大撮影の要否を判定する拡大撮影要否判定ステップと、
前記拡大撮影要否判定ステップによって拡大撮影が必要である判定された場合に、前記算出された前記文字領域毎の文字領域サイズと前記文字領域毎の位置に基づいて、拡大撮影範囲を決定する撮影範囲決定ステップと、
前記拡大撮影範囲を拡大撮影することにより取得した拡大撮影画像と、前記撮影画像とを合成して合成画像を作成する画像合成ステップと、
を実行する画像合成方法。 - 所定の撮影範囲を撮影した撮影画像又は前記所定の撮影範囲を拡大撮影した拡大撮影画像を取得する撮影部と、
前記撮影画像に含まれる文字領域毎に文字領域サイズを算出する文字領域サイズ算出部と、
前記算出された前記文字領域毎の文字領域サイズに基づいて、前記所定の撮影範囲内の拡大撮影の要否を判定する拡大撮影要否判定部と、
前記拡大撮影要否判定部によって拡大撮影が必要である判定された場合に、前記算出された前記文字領域毎の文字領域サイズと前記文字領域毎の位置に基づいて、拡大撮影範囲を決定する撮影範囲決定部と、
前記拡大撮影範囲を拡大撮影することにより取得した拡大撮影画像と、前記撮影画像とを合成して合成画像を作成する画像合成部と、
を備える画像合成システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016197994A JP2018060392A (ja) | 2016-10-06 | 2016-10-06 | 画像合成装置、画像合成方法、及び画像合成システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016197994A JP2018060392A (ja) | 2016-10-06 | 2016-10-06 | 画像合成装置、画像合成方法、及び画像合成システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018060392A true JP2018060392A (ja) | 2018-04-12 |
Family
ID=61910031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016197994A Pending JP2018060392A (ja) | 2016-10-06 | 2016-10-06 | 画像合成装置、画像合成方法、及び画像合成システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018060392A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11012585B2 (en) | 2018-08-10 | 2021-05-18 | Ricoh Company, Ltd. | Image processing apparatus, image processing system, image processing method, and non-transitory computer-readable storage medium |
-
2016
- 2016-10-06 JP JP2016197994A patent/JP2018060392A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11012585B2 (en) | 2018-08-10 | 2021-05-18 | Ricoh Company, Ltd. | Image processing apparatus, image processing system, image processing method, and non-transitory computer-readable storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230094025A1 (en) | Image processing method and mobile terminal | |
JP4341629B2 (ja) | 撮像装置、画像処理方法及びプログラム | |
JP4556813B2 (ja) | 画像処理装置、及びプログラム | |
US20100225785A1 (en) | Image processor and recording medium | |
CN112367459B (zh) | 图像处理方法、电子装置及非易失性计算机可读存储介质 | |
JP5378135B2 (ja) | 画像レイアウト決定方法ならびにそのプログラムおよび情報処理装置 | |
JP2011147109A (ja) | 撮像装置及び画像処理装置 | |
JP2012249070A (ja) | 撮像装置及び撮像方法 | |
WO2022161260A1 (zh) | 对焦方法、装置、电子设备及介质 | |
JP2007266667A (ja) | カメラ付き携帯機器、その制御方法及びその撮影支援方法 | |
JP6584237B2 (ja) | 制御装置、制御方法、およびプログラム | |
JP2017143354A (ja) | 画像処理装置及び画像処理方法 | |
CN108810326B (zh) | 一种拍照方法、装置及移动终端 | |
JP2005275447A (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP2018060392A (ja) | 画像合成装置、画像合成方法、及び画像合成システム | |
JP4934992B2 (ja) | 画像処理装置、電子カメラおよび画像処理プログラム | |
JP2010200360A (ja) | 撮像装置、ストロボ画像生成方法、および、プログラム | |
JP6213470B2 (ja) | 画像処理装置、撮像装置およびプログラム | |
JP2019036876A (ja) | 画像読取装置、画像形成装置、画像読取方法及び画像読取プログラム | |
JP2006287365A (ja) | デジタルカメラ | |
JP4363153B2 (ja) | 撮影装置、その画像処理方法及びプログラム | |
JP6545229B2 (ja) | 画像処理装置、撮像装置、画像処理装置の制御方法およびプログラム | |
JP5098917B2 (ja) | 構図判定装置、構図判定方法、プログラム | |
RU2792413C1 (ru) | Способ обработки изображений и мобильный терминал | |
JP4591343B2 (ja) | 画像処理装置、撮像装置、画像処理方法及びプログラム |