JP6598402B1

JP6598402B1 - レシート等帳票画像自動取得・読取方法、プログラム、及び携帯端末装置

Info

Publication number: JP6598402B1
Application number: JP2018159216A
Authority: JP
Inventors: 敏郎松村; 敬宇蓑和
Original assignee: 株式会社アイエスピー
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2019-10-30
Anticipated expiration: 2038-08-28
Also published as: JP2020035051A

Abstract

【課題】文字読取処理に適するように、レシート等帳票画像を容易に取得するための方法、プログラム、及び携帯端末装置を提供する。【解決手段】撮影手段を有する携帯端末装置を用いて、帳票を撮影した帳票画像を文字読取に適するように取得する方法であって、撮影手段によるプレビュー画像の撮影中に、複数のプレビュー画像のそれぞれから帳票を画成するエッジを決定するステップと、それぞれ決定されたエッジを比較し、エッジが安定しているか否かを判定するステップと、エッジが安定したと判定されたときに、エッジの内側の所定の領域に関してピントが合っているか否かを判定するステップと、ピントが合っていると判定されたときに文字読取のための帳票画像を取得するステップと、を含む。【選択図】図１３

Description

本発明は、携帯端末装置の撮影手段を用いて帳票画像を文字読取のために取得する方法に関する。特に、サイズが不定形なレシートの読取処理に適するように、レシート画像を容易に取得するための方法、プログラム、及び携帯端末装置に関する。

スマートフォン等携帯端末装置を用いてレシートを撮影し、レシート画像から文字読取した結果を利用する各種アプリケーションが知られている。

アプリケーションのユーザによるレシートの撮影は、例えば、レシートをテーブルに載せるなどして固定し、携帯端末装置のカメラを起動しファインダ内にレシートが収まるように構え、手振れやピンボケがないようにシャッタボタンを押下して行われる。撮影されたレシート画像のＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ：光学文字認識）処理結果はさまざまな用途に使用され得る。

ＯＣＲ処理では画像に含まれる一文字を構成する画素数が一定以上（例えば、２４×２４ドット以上）であることが好ましい。一文字を構成する画素数が少ないと文字読取できないことがある。

レシート全体をスマートフォン等のファインダに収めて撮影する場合、例えば、レシートの縦横比がスマートフォンの画面に対応すれば画面を広く使って撮影できるので、一文字を構成する画素数は多くなる。レシートは概して、購入商品が増えるほど縦に長くなり、細長いレシートを画面に収めようとすると一文字当たりの画素数は減少する。このため、小さな画像サイズ（例えば、２ＭＰ、３ＭＰ等）では、長尺のレシートは実質的に文字認識が困難だった。

本発明の発明者により、レシートに印字された行数と、画像サイズと、ＯＣＲの誤読率との関連が調査された。印字された行数がおよそ５０行未満（短いレシート）では、画像サイズが３ＭＰ（メガピクセル）、８ＭＰ、１２ＭＰのいずれでも誤読率は０パーセントから１０〜２０パーセント前後と低かった。レシートの行数がおよそ５０行以上（長いレシート）になると、３ＭＰでは誤読率が３０パーセント前後と高くなり、およそ６０行以上で５０パーセントを超えた。これに対し、８ＭＰ、１２ＭＰでは、レシートの行数がおよそ５０行以上でも誤読率は概ね１０パーセント前後と低く、誤読率が３０パーセントを超えやすくなるのは、８ＭＰでおよそ８０行以上、１２ＭＰでおよそ９０行以上であった。近年、スマートフォン等の携帯端末装置はいわゆる４Ｋ（３８４０×２１６０、８ＭＰ）動画等に対応する傾向にあり、従って長尺のレシートを成功裏に文字読取しやすくなってきたと言える。

しかしながら、概して、シャッタボタンを押下する動作は手振れを起こしやすく、画像がピンボケであるとＯＣＲで文字読取できないことがある。手振れしないように一方の手で端末を保持し、他方の手でシャッタボタンを押下すると、両手がふさがる。そうなると、例えば、レシートが照明の真下で影にならないように空いた手で適宜位置を調整したり、長いレシートがカールしないように押さえたり、空中に持ち上げたり壁で支えたりして撮影することはできない。ＯＣＲ処理に適するように撮影できなければ、結局アプリケーションはエラーを返し、ユーザは再び撮影を要求される。そのようなエラーは繰り返されやすく、エラーが続くことにより、ユーザは撮影をあきらめてアプリケーションから離脱するという問題がある。

従来、認識対象物（被写体）やカメラがぶれやすい状態で撮影される画像から所望の情報を高精度に認識することができる画像処理装置として、カメラで撮影された画像内に存在する認識対象物を検出する認識対象検出部と、認識対象物の画像領域が認識可能な状態か否かを判定する認識対象状態判定部等を備える画像処理装置が提案された（特開２０１０−２１８０６１号公報：特許文献１）。

多機能携帯端末の利用者が各種のキャンペーンに円滑かつ迅速に応募することができるように、長尺のレシートの撮影時に、長尺のレシートの長さ方向への分割撮影を指示することや、レシートの撮影時にレシートに対して多機能携帯端末の焦点が合わない場合、多機能携帯端末のシャッタを切ることを不能にすることが提案された（特開２０１６−５７６７６号公報：特許文献２）。

撮影サイズやピントの調整が必要なカメラを使いＯＣＲを行う場合の、何度も撮影をやり直す手間を解消する情報処理装置、プログラム及び制御方法として、連続撮影の中でリアルタイムにキーワード部分を判定し、さらにその近傍の候補を選択可能な形式で提示することで、ユーザが容易に必要なテキストのみを選択して取り込みし、静止画撮影時に発生していた撮影を繰り返す手間を解消することが提案された（特開２０１７−１１７０２７号公報：特許文献３）。

紙面を撮影して得られる紙面画像から画像の部分を自動的にスクラップする方法として、紙面画像に関する複数の仕切りエッジのうち、水平方向に伸長する上下の水平エッジ及び垂直方向に伸長する左右の垂直エッジから成るエッジのセットに基づいて紙面画像の区分を検出し、それぞれの区分に対応するエッジのセットに基づいてマップ領域を決定し、該マップ領域を構成する複数の画素がマップ番号に関連付けられるマップ画像を生成し、紙面画像を、スクラップする領域とスクラップしない領域とに区分して表示させることが提案された（特開２０１８−９７５５１号公報：特許文献４）。

特開２０１０−２１８０６１号公報特開２０１６−５７６７６号公報特開２０１７−１１７０２７号公報特開２０１８−９７５５１号公報

従来技術は、撮影対象の帳票のためのガイド枠等を用いて、フォーカスの状態や認識可能か否かを判定していた。このため、レシートのように、全体サイズが不定形のものをファインダに収めて撮影する場合、ガイドを予め設定することができず、認識可能かどうか判定できなかった。長尺のレシートを分割して撮影することは煩雑で実用性に乏しかった。また、連続撮影中にキーワードのＯＣＲ処理を行うことを要し、時間のかかるＯＣＲを行う前にＯＣＲに適するかどうかを予め判定することはできなかった。

上記に鑑みて本発明は、ＯＣＲ等文字読取処理を行う前に、文字読取処理に適するように帳票画像を取得する方法等を提供することを目的とする。特に、サイズが不定形のレシートを分割せずに撮影する際に、ユーザがシャッタボタンを押下したり、ピント状態を判定することを要さず自動的に適切な画像を取得する方法、プログラム、及び装置を提供することを目的とする。また、操作性を向上させるように、レシート等帳票にスマートフォン等携帯端末装置のカメラをかざすだけで自動的に文字認識を行うことができる方法、プログラム、及び装置を提供することを目的とする。

上記課題を解決するための本発明の一つの態様は、撮影手段を有する携帯端末装置を用いて、帳票を撮影した帳票画像を文字読取に適するように取得する方法であって、撮影手段によるプレビュー画像の撮影中に、複数のプレビュー画像のそれぞれから帳票に関するエッジを決定するステップと、それぞれ決定されたエッジを比較し、エッジが安定しているか否かを判定するステップと、エッジが安定したと判定されたときに、エッジの内側の所定の領域に関してピントが合っているか否かを判定するステップと、ピントが合っていると判定されたときに文字読取のための帳票画像を取得するステップと、を含む。

単に、エッジが安定したときに画像を取得するとピントが合っていない場合があり、単に、ピントが合っているときに画像を取得すると、例えば、手振れ防止やスポーツ撮影機能を有し、動いている対象物にピントを合わせる携帯端末装置では、対象のレシートが写っていない場合などがある。本発明によれば、エッジの安定を判定し、且つ、エッジの内側のピントを判定して画像を取得するため、文字認識に適した画像が自動的に取得され得る。

帳票はレシートを含む。本発明によれば、レシートのように不定形な帳票であっても、エッジを決定し、ピントを判定して文字読取に適した帳票画像を取得することができる。

帳票のエッジは上下のエッジ及び左右のエッジから成り、上下のエッジ及び左右のエッジが、プレビュー画像を解析するための解析画像を水平方向及び垂直方向にブロック化し、最多で８つの白地部分を検出することにより決定される。このようにすることで、レシート等帳票の背景が様々であってもエッジを決定し得る。

ピントが合っているか否かは、プレビュー画像のグレースケール画像をエンボス加工し、所定の領域の輝度値毎の画素数（ヒストグラム）を求めることにより判定される。このようにすることで、ＣＰＵに負荷をかけることなく、容易にピント状態を判定することができる。

本発明に係る帳票画像取得方法は、さらに、撮影手段の起動時、エッジが決定されないとき、及び／又はピントが合わないと判定されたときに、撮影手段のオートフォーカス（ＡＦ）動作を要求するステップを含む。本発明では、文字読取に適した画像を取得するために、フォーカスのタイミングがコントロールされることが好ましい。適切にワンショットのＡＦが実行されることで、文字読取に適した画像をより取得しやすくなると考えられる。

エッジが決定されたときに、該決定されたエッジをガイドとして携帯端末装置の画面に表示させることが好ましい。このようにすることでユーザがカメラをかざす目安となり、エッジがより安定しやすくなると考えられる。

本発明に係る帳票画像取得方法は、さらに、取得された帳票画像において文字読取の対象とする領域をエッジ及び／又は白地部分に基づいてクリッピングし文字を読取するステップと、を含む。このようにすることで、予め画像における文字読取の範囲を設定しなくても、文字読取の対象でない背景を除去することで、高精度に文字読取することができる。画像の取得から文字読取まで自動的に行われ、操作性の高いアプリケーションを実現することができる。

本発明の他の態様は、上記のいずれかに記載された方法を携帯端末装置のコンピュータに実行させるプログラムである。

本発明のもう一つの態様は、帳票にかざして帳票画像を取得するための携帯端末装置であって、帳票を撮影するための撮影手段と、撮影手段によるプレビュー画像の撮影中に、複数のプレビュー画像のそれぞれから帳票に関するエッジを決定するエッジ決定手段と、それぞれ決定されたエッジを比較し、エッジが安定しているか否かを判定するエッジ安定判定手段と、エッジが安定したと判定されたときに、エッジの内側の所定の領域に関してピントが合っているか否かを判定するピント判定手段と、ピントが合っていると判定されたときに帳票画像を取得する画像取得手段と、を備える。

本発明によれば、４Ｋや８Ｋ等のプレビュー画像から、文字読取に適したプレビュー画像を、ユーザがシャッタボタンを押下したりピントの状態を確認したりすることを要さず、自動的に取得することができる。ユーザは、レシートの長さに関わらず、単純に画面に収まるようにスマートフォン等のカメラを片手でかざすだけでＯＣＲ等文字読取に適した画像を取得することができ、アプリケーションの操作性を向上させることができる。ユーザがアプリケーションから離脱することがなく、種々様々なアプリケーションで文字読取結果を利用することができる。

図１は本発明に係る携帯端末装置の機能ブロック図である。図２は画像のブロック化を模式的に示す。図３はレシートを撮影したプレビュー画像を模式的に示す。図４は本発明に係る水平ブロック化による垂直ブランクの検出を模式的に示す。図５は本発明に係る垂直ブロック化による水平ブランクの検出を模式的に示す。図６は本発明に係る第１のエッジの決定と文字読取対象範囲の決定を模式的に示す。図７は本発明の一つの実施形態のブロック、ブランク、及びレクタングルの関係を模式的に示す。図８はレシートを撮影したプレビュー画像を模式的に示す。図９は本発明に係る水平ブロック化による水平スペースの検出を模式的に示す。図１０は本発明に係る垂直ブロック化による垂直スペースの検出を模式的に示す。図１１は本発明に係る第２のエッジの決定と文字読取対象範囲の決定を模式的に示す。図１２は本発明の一つの実施形態に係るフォーカスヒストグラムである。図１３は本発明の一つの実施形態に係る帳票画像自動取得・読取処理のフロー図である。

以下、図面を参照しながら、本発明のさまざまな特徴が、本発明の限定を意図するものではない好適な実施例とともに説明される。図面は説明の目的で単純化、概略化されている。

図１に、本発明に係る帳票自動読取アプリケーションプログラムを備えた携帯端末装置１００の構成が概略的に示されている。携帯端末装置１００は、例えば、カメラを内蔵したスマートフォン、携帯情報端末（ＰＤＡ)、タブレットＰＣ等の小型コンピュータ装置であってよい。公知の携帯端末装置１００は、ＣＰＵ、ＲＡＭ、ＲＯＭ、ハードディスクなどを実装し、適切なオペレーティングシステム（ＯＳ）の制御の下でプログラミング言語を実行し、様々な処理を実行することができる。

本発明に従って、携帯端末装置１００は、撮影手段１、入出力手段２、制御手段３、記憶手段４、エッジ決定手段５、エッジ安定判定手段６、ピント判定手段７、画像取得手段８、読取手段９を備える。

撮影手段１は、携帯端末装置１００に搭載されるデジタルカメラから構成され、撮影対象物であるレシート等帳票を撮影してデジタル画像データに変換することができる。撮影手段１は起動されると、概して、秒間１０〜３０フレームのプレビュー画像の撮影を連続して行うことができる。撮影手段１０はオートフォーカス（ＡＦ）動作を実行することができる。帳票のプレビュー画像は概してカラー画像であり、様々なサイズを有し得る。

入出力手段２は、公知のタッチパネル等から構成される。例えば、タッチパネルに表示された画面上で本発明に係るアプリケーションプログラムの処理動作開始指令を行うことができる。例えば、画面上のアイコンをタップするとカメラが起動され、ユーザが携帯端末装置をレシートにかざす間に画像の取得から文字の読取まで行われ、適宜「確認」、「保存」、「やり直し」ボタン等がユーザ入力を受け付けるために表示され得る。また入出力手段２は、所定の解像度でプレビュー画像を連続して表示することができ、後述のように検出された帳票エッジがプレビュー画像に重畳して表示され得る。

制御手段３は、本発明に係る帳票画像自動取得・読取処理を実行するように、各手段を制御するための電子機器、電子回路及び／又はプログラムから成る。制御手段３は、撮影手段１を起動させ、適切なタイミングで撮影手段１がワンショットのＡＦ動作を実行するように制御することができる。撮影手段１により連続して撮影される画像を適切なタイミングでエッジ検出等の解析のための画像として受付するよう制御することができる。適切なタイミングとして、例えば、ワンショットのフォーカス動作が終わるまでプレビュー画像をスキップし、フォーカス動作が終わったときにプレビュー画像を解析のために受け付ける。また、解析結果等を入出力手段２において適宜表示させるように制御することができる。

記憶手段４は、フラッシュメモリ、ハードディスク（ＨＤＤ）、ＲＡＭ及びＲＯＭ等のメモリから主として構成される。記憶手段４は、本発明に係る帳票画像自動取得・読取処理に係るアプリケーションプログラムを記憶し、処理中の画像や解析結果、最終的な文字読取結果等を記憶することができる。

エッジ決定手段５は、受付されたプレビュー画像に含まれるレシートのエッジを検出し、決定するための電子機器、電子回路及び／又はプログラムから成る。

本発明におけるエッジの検出・決定は以下のような利点を有する。一般的なＯＣＲエンジンは、帳票画像のどことどこを読むのか、フォーマットごとにその範囲を設定するツールを提供する。しかしながら、不定形なレシートを撮影したレシート画像を取得して文字読取を行う場合、予めＯＣＲ処理の対象となる画像中の範囲を設定することができない。帳票画像全体をＯＣＲで処理しようとすると、レシートの形状によっては画像中の背景の割合が大きくなり、ＯＣＲで背景を文字として処理するなどして解読可能な文字数を超え、エラーを起こす場合がある。本発明のようにエッジ検出・決定を行うことで、不定形なレシートを撮影した画像において不要な背景を除去することができ、予め読取の対象範囲を設定しなくても成功裏に読取することができる。エッジの内側部分、すなわちレシートが写っている部分のピントを判定することができるので、予めレシートのＯＣＲ処理に適する画像を取得することができる。

また、ユーザがレシートを撮影するとき、レシートの背景は様々であることが考えられ、模様（テーブルの木目等）があったり、レシートと同じく白かったりする場合がある。本発明に係るエッジ検出によれば、さまざまな背景に対応してレシートのエッジを検出することができる。以下、帳票はレシートとして説明される場合があるが、レシートに限定することを意図するものではない。本発明は、白地に黒字、周囲に余白がある帳票、例えば、白黒で印字された名刺、カード、チケット、領収書、病院の診療票、学校のプリント等さまざまな印字物に適用することができる。

図２〜図１１を参照して、本発明に係る一つの実施形態のエッジの決定が説明される。

初めに、エッジ決定手段５は、プレビュー画像を適宜スケーリングし、トリミングし、二値化し、及び／又はフィルタを実行して、エッジの検出のための解析画像Ｉ_Ａを生成することができる。エッジを検出するために、解析画像Ｉ_Ａはブロック化される。図２（ａ）は、解析画像Ｉ_Ａの水平（幅Ｗ）方向のブロック化を表し、図２（ｂ）は、解析画像Ｉ_Ａの垂直（高さＨ）方向のブロック化を示す。それぞれのブロックサイズはΔｗ、Δｈで表される。Δｗ、Δｈは好適に、１画素よりも大きい整数の画素数である。例示的なΔｗ（Δｈ）は、２、４、６、８、１０、１５（画素）等であり、これらに限定されない。

水平方向のブロック化において、例えば、Δｗ＝１０画素であるとき、ブロック内の水平方向の１０画素すべてが白画素であるときに白画素となり、ブロック内の水平方向の１０画素のうち一つ以上が黒画素であるときは、ブロック内の全ての画素が黒画素とされる。同様に、垂直方向のブロック化においては、例えば、Δｈ＝１０画素であるとき、ブロック内の垂直方向の１０画素すべてが白画素であるときに白画素となり、ブロック内の垂直方向の１０画素のうち一つ以上が黒画素であるときは、ブロック内の全ての画素が黒画素となる。このようにすることで、水平方向や垂直方向に伸長する白地を検出しやすくなる。本明細書においては、同一ブロック内の連続する白画素の領域をブランク又はレクタングルといい、異なるブロック間で連結する一連のブランク又はレクタングルをスペースということがある。

一つの実施形態にかかる、レシート２００の第１のエッジの検出が図３〜図６を参照して説明される。図３は、白い背景とともにレシート２００を撮影したプレビュー画像Ｉを模式的に示す。

図４は、プレビュー画像Ｉの解析画像Ｉ_Ａにおけるブランクの検出を模式的に示す。解析画像Ｉ_Ａでは適当なフィルタにより、レシート中の黒い印字部分等は、周囲の白地と区別しやすいように、実際の印字部分よりも拡張される場合がある（図示せず）。解析画像Ｉ_Ａにおいてレシート２００_Ａに関する領域が検出される。解析画像Ｉ_Ａの水平方向のブロック化により（図４（ａ））、垂直方向のブランクが検出され、検出されたブランクのうち一定以上の長さ（例えば、画像の高さの半分以上）を有するブランクＢ１〜Ｂ１１が垂直方向のエッジ候補として検出され得る（図４（ｂ））。

同様に図５を参照して、解析画像Ｉ_Ａの垂直方向のブロック化により（図５（ａ））、水平方向のブランクが検出され、検出されたブランクのうち一定以上の長さ（例えば、画像の幅の半分以上）を有するブランクＢ１２〜Ｂ２２が水平方向のエッジ候補として検出され得る（図５（ｂ））。

図６を参照し、エッジの決定及びＯＣＲ等文字読取処理の対象範囲の決定が模式的に示される。初めに、解析画像Ｉ_Ａにおいてレシート部分（２００_Ａ）が画像の中心Ｃを含むと仮定し、中心Ｃの位置に関して、上側、下側、左側、右側のいずれかにブランクを振り分ける。画像の上から、下から、左から、右からそれぞれ順に振り分けられたブランクを調べ、画像中心Ｃに最も近い四つのブランク（図中破線で示されるＢ５、Ｂ６、Ｂ１８、及びＢ１９）がエッジを表すブランクとして検出される（図６（ａ））。これらブランクにより画成される長方形の四辺ｅ１、ｅ２、ｅ３、及びｅ４が検出され得る。

図６（ｂ）を参照し、四辺ｅ１、ｅ２、ｅ３、及びｅ４を、元のプレビュー画像Ｉの座標系に対応させて、レシート２００（破線で示される）に関するエッジＥ１、Ｅ２、Ｅ３、及びＥ４が決定される。画像の左上端を原点（０，０）として、エッジＥ１、Ｅ２、Ｅ３、及びＥ４により画成される長方形の四つの頂点のＸ座標、Ｙ座標それぞれがエッジの頂点座標として記憶され、後続のエッジ安定の判断に用いられる。また、ＯＣＲの読取対象範囲として、領域Ｒが決定される。例示的な領域Ｒは、エッジＥ１、Ｅ２、Ｅ３、及びＥ４により画成される長方形の内側部分である。領域Ｒはレシート２００の文字領域に対応する。プレビュー画像Ｉが文字読取用の画像として取得される場合、領域Ｒの外側をＯＣＲの処理対象にならないように、例えば、黒で塗りつぶした（図６（ｂ）中、グレーの色塗り部分）画像が生成され得る（クリッピング）。このようにすることで、予めＯＣＲの読取範囲としてレシート２００の範囲が設定されなくても必要な範囲をＯＣＲの処理対象とすることができ、精度よく文字認識することができる。

続いて、第２のエッジの検出が説明される。

初めに、図７は、ブロックサイズΔｗ（＝６画素）で水平ブロック化された一つのブロックにおけるブランクとレクタングルの関係を模式的に示す。ここではブランクはΔｗ×１画素（垂直方向のブロック化では１×Δｈ画素）のサイズを持ち、レクタングルは、ブロック内で連続するブランクをまとめて成る。図示の例では、レクタングルｒ１は８つのブランク（６×８画素）から成り、レクタングルｒ２は４つのブランク（６×４画素）から成る。これらの白地レクタングルは、それぞれ右上及び左下の座標（ラスタデータ）を記憶手段４に記憶されてよい。これらのレクタングルの異なるブロック間での連結を調べることでスペースが検出される。例示的なスペースの検出が特許文献４に記載されているが、これは本発明におけるエッジの検出が公知であることを述べるものではない。

図８は、模様のある（白くない）背景とともにレシート２００を撮影したプレビュー画像Ｉを模式的に示す。

図９は、プレビュー画像Ｉの解析画像Ｉ_Ａにおけるスペースの検出を模式的に示す。解析画像Ｉ_Ａにおいては、二値化や適当なフィルタにより、背景の黒い部分、及びレシート中の黒い印字部分は、レシートの周縁の白地と区別しやすいように、予め拡張され得る（図示せず）。水平方向のブロック化（図９（ａ））によりブロック毎の白地レクタングルが検出される。一定範囲の大きさを有するレクタングルの隣り合うブロック間の連結を調べることにより、水平方向に一定以上の長さを有する一連のレクタングルが検出される（図９（ｂ）中、実線で表される複数の矩形）。検出された一連のレクタングルに基づいてスペースが決定される。図示の例では、一連のレクタングルがそのままスペースＳ１、Ｓ２に決定される（同、グレーの色塗り部分）。概して一連のレクタングルは、帳票が画像の縦横に関して傾いていたり（スキュー）、様々な印字パターンによって、多くの場合、ブロック間でレクタングルの位置やサイズが一定しない。従ってスペースは、レシートの周縁の余白の検出に適するように、一連のレクタングルのそれぞれの位置やサイズが調整された、略長方形状や略平行四辺形状の領域に決定されてよい。

同様に図１０は、垂直方向のブロック化（図１０（ａ））による垂直方向のスペースの検出を模式的に示す。ブロック毎に一定範囲の大きさを有するレクタングルが検出され、隣り合うブロックのレクタングルの垂直方向の連結を調べることにより、垂直方向に一定以上の長さを有する一連のレクタングルが検出される（図１０（ｂ）中、実線で表される複数の矩形）。図示のように、一連のレクタングルのそれぞれのサイズはブロック間でまちまちであり、レクタングルの中心位置等も必ずしも一定しない。図示の例では、一連のレクタングル間で位置や大きさが共通する範囲が、スペースＳ３、Ｓ４に決定され得る（同、グレーの色塗り部分）。なお、スペースは、一連のレクタングルの共通部分として決定されなくてもよく、レシート周縁の余白を検出するという目的に適合するように、一連のレクタングルに関する領域として決定されてよい。

図１１は、検出されたスペースに基づくレシートエッジの決定を模式的に示す。図１１（ａ）を参照して、レシートの上下のエッジは水平方向のブロック化により検出されたスペース（図中、点線で表される）の画像の中心Ｃからの位置関係等に基づき検出される。画像中心より上側にあり最も中心Ｃに近いスペースがレシートの上側エッジを表し、画像中心Ｃより下側にあり、最も中心Ｃに近いスペースがレシートの下側エッジを表す。同様に、レシートの左右のエッジは垂直方向のブロック化により検出されたスペース（図中、点線で表される）の画像中心Ｃからの位置関係に基づき検出される。すなわち、画像中心Ｃより左側にあり最も中心Ｃに近いスペースがレシートの左側エッジを表し、画像中心Ｃより右側にあり、最も中心に近いスペースがレシートの右側エッジを表す。このようにすることで、背景によっては多数検出され得るスペースから、適切なスペースを選択することができる。検出された最大四つのスペースのそれぞれについて、長方形の四辺となり得るｅ５、ｅ６、ｅ７、及びｅ８が決定される。ｅ５、ｅ６、ｅ７、及びｅ８は、それぞれのスペースの面積を等分する水平方向の直線、及び垂直方向の直線であり得る。ｅ５、ｅ６、ｅ７、及びｅ８の決定はこれに限定されず、スペースの最も中心Ｃに近い／遠い直線であってもよい。また、ｅ５、ｅ６、ｅ７、及びｅ８は、スペースに基づいて任意に決定される水平方向の直線、及び垂直方向の直線であってよい。

図１１（ｂ）を参照し、スペースに基づいて決定される直線ｅ５、ｅ６、ｅ７、及びｅ８を、長方形を画成するようにを元の画像Ｉに対応させることによりレシート２００に関するエッジＥ５、Ｅ６、Ｅ７、及びＥ８が決定される。エッジＥ５、Ｅ６、Ｅ７、及びＥ８を四辺とする長方形の四つの頂点座標がエッジの頂点座標として記憶手段４に記憶される。クリッピングは、スペースに基づいて行うことができる。スペース（あるいはスペースを構成する各レクタングル）の外側に対応する部分や画像の四隅をＯＣＲの処理対象とならないように塗りつぶすことで（図１１（ｂ）中、グレーの色塗り部分）、文字読取の対象領域Ｒ’を画成することができる。このようにすることで、画像Ｉ全体をＯＣＲ処理しても読取可能文字数を超えることがなく、レシート２００に関連する部分、すなわちレシート２００の文字領域に対応する部分のみを成功裏に文字読取処理することができる。

ユーザがレシートを撮影する際、背景はさまざまであることに鑑みて、本発明では好適に、第１の検出と、第２の検出とが組み合わされる。すなわち、第１の検出によりエッジを表す最大四つのブランクが検出され、第２の検出によりエッジを表す最大四つのスペースが検出され、これらに基づいてレシートのエッジが決定される。例えば、上側ブランクと上側スペースが検出された場合、中心Ｃにより近い一方、より長い一方、又は任意の一方を選択したり、両方を組み合わせて四本のエッジを決定することができる。背景によっては、エッジを表すブランク又はスペースの一方しか検出されないため、両方を検出するようにすることで、どのような背景でもエッジを適切に決定することができる。第１、第２の検出ともにエッジが検出されない場合は、画像の周縁をエッジに決定することができる。

エッジ安定判定手段６（図１）は、上記のように決定されたエッジが安定したかどうかを判定するための電子機器、電子回路及び／又はプログラムから成る。

エッジ安定判定手段６は、例えば、第１のプレビュー画像の解析により決定されたエッジの四つの頂点座標と、第２のプレビュー画像の解析により決定されたエッジの四つの頂点座標とを比較することにより、エッジが安定したかどうかを判定する。例えば、第１の四つの頂点座標と第２の四つの頂点座標のそれぞれの最小のＸ座標の値同士、最大のＸ座標の値同士、最小のＹ座標の値同士、最大のＹ座標の値同士を比較し、それぞれの差が一定以下である場合にエッジが安定したと判定することができる。このようにエッジの安定を検出することで、対象レシートがファインダ内で定まり、手振れが少ない状態を検出することができる。

エッジ安定判定部６は、時刻（ｔ−１）に撮影された第１のプレビュー画像と、時刻ｔに撮影された第２のプレビュー画像とから検出された２回分のエッジを比較してよい。エッジ安定判定部６は、任意のＮ（≧２）回分のエッジを比較して、エッジが安定したかどうか判定してよい。安定と判定されたとき、Ｎ回分の最新（例えば、時刻ｔ）のプレビュー画像が後続のピント判定処理に用いられる。

上記のとおり、レシートエッジは白地の検出に基づいて決定される。カメラのピントが合っていなくても、エッジは検出、決定される。単にエッジが検出されても、ピントが合っていない場合があり、そのような画像を対象としてＯＣＲ処理を行っても、成功裏に文字読取することができない場合がある。

ピント判定手段７（図１）は、エッジが安定したと判定されたときに、エッジが安定したプレビュー画像の読取対象範囲について、ピントが合っているかどうかを判定するための電子機器、電子回路及び／又はプログラムから成る。

ピント判定手段７は、プレビュー画像のグレースケール画像をエンボス加工したエンボス画像を生成する。エンボス加工では画素（ｐ）と左上の画素（ｓ）を用いて、「ｐ＝−ｓ＋ｐ＋１２８」が計算される。画素（ｐ）と（ｓ）に明度の差が少なければ「１２８」に近づき、明度の差が大きければその大きさ（ｎ）に応じて、「１２８±ｎ」となる。すなわちエンボス加工は、明度の差を浮き上がらせる効果と、同じ明度を中間色にする効果とを有する。本発明の発明者は、レシート画像において、ピントが合っていなければ「１２８」に近い画素が多く、ピントがあっていれば「１２８±ｎ」の画素が増えること、及び輝度の数なら画像の大きさ(画素の数)に影響されない事に着目し、これを用いて容易にピント判定を行うように構成した。

図１２は、フォーカスヒストグラムであり、縦軸は画素数（０〜３００）、横軸は輝度（０〜２５５）を表す。ピント判定手段７は、例えば、検出されたエッジ（長方形）の内側で、エッジの長方形の大きさの一定の割合の長方形（例えば、３００〜４００×３００〜４００画素）に対して、エンボス画像のヒストグラムを調べることによってピントが合っているか否か、ピントが合っていない場合はどのくらい合っていないか（ピントレベル）を決定することができる。帳票の特徴に応じて一定の割合の長方形の位置、形状、大きさは変更されてよい。

例示的に、図１２のピントレベルＦ１（点線で示される）では、エンボス画像において輝度が１２８に集中している。例えば、１２８よりも大きい方向、小さい方向のそれぞれの輝度を持つ画素が一定数以上である輝度の範囲（差）が６０未満のときに「輝度が１２８に集中している」、すなわち、「ピントがまったく合っていない」と判定することができる。ピントレベルＦ２（二点鎖線で示される）では、依然１２８前後に集中しており、「ピントが合っていない」と判定され得る。ピントレベルＦ３（一点鎖線で示される）はやや明度の差があり、「ピントが少し合っている／やや手振れ」と判定され得る。ピントレベルＦ４（破線で示される）は「ピントがあまい／動きがある」と判定され得る。ピントレベルＦ５（実線で示される）は、輝度が十分に分散し、明度に大きな差があることが分かる。例えば、輝度１２８よりも大きい方向、小さい方向のそれぞれの輝度を持つ画素が一定数以上である輝度の範囲（差）が１８０以上であるときに「輝度が十分に分散している」、すなわち、「ピントが合っている」と判定され得る。

画像取得手段８（図１）は、エッジが安定したと判定されたプレビュー画像であって、さらにピントが合っていると判定されたプレビュー画像を文字読取用の画像として取得するための電子機器、電子回路及び／又はプログラムから成る。

代替的に、画像取得手段８は、携帯端末装置１００のプレビュー画像の画像サイズが十分でない場合、エッジが安定したと判定され、且つピントが合っていると判定されたときに自動的にシャッタ動作を行って撮影された画像を文字読取用の画像として取得することができる。画像取得手段８は、取得された画像について、上記のクリッピング処理を行うことができる。

読取手段９（図１）は、文字読取用画像として取得された画像について文字読取に関する処理を行うための電子機器、電子回路及び／又はプログラムから成る。読取手段９は公知のＯＣＲ処理を行うものであってよく、例えば、取得された画像の明るさ、ハイライトを調整して白黒二値化し、レイアウト解析し、罫線を除去し、文字を切り出し、パターン辞書、フォント辞書等を用いて文字読取することができる。読取結果は記憶手段４に記憶されてよい。

図１３を参照し、本発明の一つの実施形態に係るレシート等帳票画像自動取得・読取フローが説明される。携帯端末装置１００で本発明に係る所定のアプリケーションが開始されると（ＳＴＡＲＴ）、カメラ（撮影手段１）が起動され、ワンショットのオートフォーカス（ＡＦ）動作が実行される（Ｓ３０１）。本発明では好適に、カメラのフォーカスをコントロールし適切なタイミングで画像を取り込むために、コンティニアス（継続フォーカス）モードではなく、ワンショットのオートフォーカスが実行される。

オートフォーカス動作が終了すると連続して撮影されるプレビュー画像が受付され、解析される（Ｓ３０３）。レシートが写っていなかったり手振れがひどいなどしてエッジが決定されない場合、後続のプレビュー画像が解析される。エッジが決定されると記憶手段４に記憶される（Ｓ３０５）。決定されたエッジは、プレビュー画像に重畳して表示されてよい。このようにすることで、ユーザがエッジを意識するので、エッジが安定しやすくなる。

エッジの安定がＮ回のエッジの検出に基づいて行われるとき、比較対象となる前回（（Ｎ−１）回）分のエッジが決定されているかどうかが調べられ、決定されていなかった場合はさらにプレビュー画像の解析を行ってエッジを決定する。例えば、二回分のエッジを比較する場合、最新のエッジと前回のエッジの位置の変化が小さいかどうかチェックされ、エッジが安定したかどうか判定される（Ｓ３０７）。エッジが安定していない場合は、最初からプレビュー画像の解析を繰り返してよい。

エッジが安定していると判定されたとき、エッジが安定したプレビュー画像のエッジの内側の所定範囲について、ピントが合っているかどうかが判定される（Ｓ３０９）。

ピントが合っていない場合、ピントレベル（Ｆ１〜Ｆ４）に応じて、カメラにワンショットのフォーカス動作を要求する（Ｓ３１１）。例えば、エッジは安定したがピントレベルがＦ１又はＦ２であるとき、起動後にユーザがカメラでレシートを探している途中だったり、レシートを画面に収めるためにカメラを上下していると考えられるので、準備が終わったことを想定してワンショットのＡＦをカメラに要求しプレビュー画像解析以降の処理を繰り返す。エッジが安定しピントレベルがＦ３又はＦ４であるときは、ユーザが微調整しているか、カメラが少し揺れている状態が多いと考えられるため、そのままプレビュー画像解析以降の処理を繰り返す。Ｆ３やＦ４の状態が数回繰り返される場合はユーザが意識していないと考えられるため、カメラにＡＦを要求するようにしてよい。

エッジが安定し、さらにピントが合っていると判定された画像は、文字読取に適した画像として取得され、記憶手段に記憶される（Ｓ３１３）。このとき、プレビュー画像の解像度が小さい場合（２ＭＰや３ＭＰ等）、そのまま取り込んでも長尺のレシート画像では読取ができないため、自動でシャッタ動作を行うようにしてよい。このようにすることで、プレビュー画像の画像サイズが十分でない携帯端末装置の機種であっても、レシートが定まり、ピントが合っている状態で自動的に撮影して、文字読取に適した画像を取得することができる。

取得された画像について適宜背景を除去して文字読取処理を行い（Ｓ３１５）、例えば、ユーザに読取結果の確認用の画面を表示し、「保存」ボタンの押下を受けて読取結果が保存されてよい（Ｓ３１７）。このように、ユーザがレシートにカメラをかざすだけで、画像の取得から文字読取まで自動で行われる。文字認識結果は通信手段（図示せず）を介してサーバへ送信され、サーバ側でさらに処理されてよい。あるいは、取得された画像（又はクリッピング画像）が通信手段（図示せず）によりサーバへ送信され、サーバ側で文字認識処理を行ってよく、このようにすることで、サーバからユーザに返されるエラーが低減される。文字読取結果がユーザの意図等と異なる場合、「やり直し」ボタンの押下に応じて、プレビュー画像解析以降の一連の処理が行われてよい。

本発明によれば、不定形なレシートや長いレシートであっても、ユーザは携帯端末装置のカメラをプレビュー画面に収めるように片手でかざすだけで、ピントの確認やシャッタボタンの押下を要することなく、自動的に文字読取結果を得ることができる。容易なピント判定で、ＯＣＲ処理を行うことなくＯＣＲ処理に適した画像を取得することができ、ＣＰＵに負荷をかけることなく成功裏に文字読取することができる。本発明によれば、文字読取結果を利用する各種アプリケーションの操作性が向上し、ユーザ満足度を向上させることができる。

本発明の思想及び態様から離れることなく多くのさまざまな修正が可能であることは当業者の知るところである。したがって、言うまでもなく、本発明の態様は例示に過ぎず、本発明の範囲を限定するものではない。

１００携帯端末装置
１撮影手段
２入出力手段
３制御手段
４記憶手段
５エッジ決定手段
６エッジ安定判定手段
７ピント判定手段
８画像取得手段
９読取手段

Claims

撮影手段を有する携帯端末装置を用いて、帳票を撮影した帳票画像を文字読取に適するように取得する方法であって、
前記撮影手段によるプレビュー画像の撮影中に、複数のプレビュー画像のそれぞれから前記帳票に関するエッジを決定するステップと、
前記それぞれ決定されたエッジを比較し、エッジが安定しているか否かを判定するステップと、
前記エッジが安定したと判定されたときに、前記エッジの内側の所定の領域に関してピントが合っているか否かを判定するステップと、
前記ピントが合っていると判定されたときに文字読取のための帳票画像を取得するステップと、を含む帳票画像取得方法。
前記帳票がレシートであることを特徴とする請求項１に記載された帳票画像取得方法。
前記エッジが上下のエッジ及び左右のエッジから成り、
前記上下のエッジ及び左右のエッジが、前記プレビュー画像を解析するための解析画像を水平方向及び垂直方向にブロック化し、最多で８つの白地部分を検出することにより決定されることを特徴とする請求項１に記載された帳票画像取得方法。
前記ピントが合っているか否かが、前記プレビュー画像のグレースケール画像をエンボス加工し、前記所定の領域の輝度値毎の画素数を求めることにより判定されることを特徴とする請求項１に記載された帳票画像取得方法。
さらに、前記撮影手段の起動時、前記エッジが決定されないとき、及び／又は前記ピントが合わないと判定されたときに、前記撮影手段のオートフォーカス動作を要求するステップを含む、請求項１に記載された帳票画像取得方法。
前記エッジが決定されたときに、該決定されたエッジをガイドとして前記携帯端末装置の画面に表示させることを特徴とする請求項１に記載された帳票画像取得方法。
さらに、前記取得された帳票画像において文字読取の対象とする領域を前記エッジ及び／又は白地部分に基づいてクリッピングし文字を読取するステップと、を含む、請求項３に記載された帳票画像取得方法。
請求項１乃至７のいずれかに記載された方法を前記携帯端末装置のコンピュータに実行させるプログラム。
帳票にかざして帳票画像を取得するための携帯端末装置であって、
前記帳票を撮影するための撮影手段と、
前記撮影手段によるプレビュー画像の撮影中に、複数のプレビュー画像のそれぞれから前記帳票に関するエッジを決定するエッジ決定手段と、
前記それぞれ決定されたエッジを比較し、エッジが安定しているか否かを判定するエッジ安定判定手段と、
前記エッジが安定したと判定されたときに、前記エッジの内側の所定の領域に関してピントが合っているか否かを判定するピント判定手段と、
前記ピントが合っていると判定されたときに帳票画像を取得する画像取得手段と、を備えた携帯端末装置。