JP2017033454A

JP2017033454A - 情報入力装置、情報入力装置の制御方法及びプログラム

Info

Publication number: JP2017033454A
Application number: JP2015155303A
Authority: JP
Inventors: 秀和世渡; Hidekazu Seto
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-08-05
Filing date: 2015-08-05
Publication date: 2017-02-09

Abstract

【課題】属性の異なる記入欄が複数ある帳票を載置して、ユーザが特定の物体を操作することに適応して、特定の物体を用いて記入すべき記入欄を明示する情報入力装置を提供する。【解決手段】読み取られる帳票の画像の解析から抽出される特徴点と、登録された帳票の特徴点とを照合して載置された帳票と、帳票に印刷された複数の記入欄を認識する。これに並行して、取得する距離画像を解析してユーザが操作する物体と、物体の種別とを認識する。その際、認識するユーザが操作する物体の種別が変化することに応じて、認識された複数の記入欄のうち、ユーザが使用すべき物体の種別に対応づけられた帳票の記入欄に対して、特定の画像を投影する。【選択図】図８

Description

本発明は、情報入力装置、情報入力装置の制御方法及びプログラムに関するものである。

従来、銀行や保険といった金融業の営業窓口や、行政サービスの窓口などでは、顧客に伝票や申込書、届出書などの文書（紙媒体）への記入を促し、窓口の担当者がその記入状態をチェックして処理するといったことが一般に行われている。このような窓口において、顧客は、前記の文書への記入を初めてするか、暫く振りといったケースが多く、記入すべき箇所が分からないために記入漏れが度々発生する。
このような記入漏れがある場合は、窓口で担当者が記入漏れの箇所を顧客に指摘し、顧客は改めて文書へ記入した上で、担当者が再び記入漏れをチェックするといった作業が発生する。この作業は、窓口の業務を滞らせてしまうため、窓口の業務効率を著しく下げてしまう。
また、窓口が滞ってしまうために、顧客を待たせてしまう時間も長くなってしまう。前述のような問題を解決する技術として、特許文献１では、カメラで文書を認識し、その位置情報にもとづいて、文書の記入すべき領域をプロジェクタでハイライトして強調表示（投射）する方法が開示されている。
これによって顧客は、文書の記入すべき領域がハイライト表示されるので、記入すべき領域がどこにあるのか迷うことなく効率的に記入を行うことができる。また、記入すべき領域がハイライト表示されるため、記入漏れをしてしまうリスクが減る。以下、装置を使用する顧客のことをユーザと呼ぶこととする。

特開２０１３−２５４４３７号公報

特許文献１の方法によると、文書の記入すべき領域がハイライト表示されるので、記入すべき領域に効率的に記入を行うことができる。しかしながら、特許文献１ではユーザがどの領域に対して入力しようとしているかを判断できないため、ハイライト表示すべき領域を多めに設定する必要がある。そのため、入力の効率と確実性が十分に高くない。

本発明は、上記の課題を解決するためになされたもので、本発明の目的は、属性の異なる記入欄が複数ある帳票を載置して、ユーザが特定の物体を操作することに適応して、当該特定の物体を用いて記入すべき記入欄を明示できる仕組みを提供することである。

上記目的を達成する本発明の情報入力装置は以下に示す構成を備える。
情報入力装置であって、複数の記入欄が設定される帳票の特徴点と、それぞれの記入欄にユーザが使用すべき物体の種別とを対応づけて帳票情報を登録する登録手段と、特定の画像を投影する投影手段と、載置される帳票を読み取る読取手段と、ユーザの操作に対応する距離画像を取得する取得手段と、読み取られる帳票の画像の解析から抽出される特徴点と、登録された帳票の特徴点とを照合して載置された帳票と、当該帳票に印刷された複数の記入欄を認識する第１の認識手段と、前記取得手段が取得する距離画像を解析してユーザが操作する物体と、当該物体の種別とを認識する第２の認識手段と、前記第２の認識手段で認識するユーザが操作する物体の種別が変化することに応じて、前記第１の認識手段で認識された前記複数の記入欄のうち、ユーザが使用すべき物体の種別に対応づけられた前記帳票の記入欄に対して、前記特定の画像を投影するように前記投影手段を制御する制御手段と、を備えることを特徴とする。

本発明によれば、属性の異なる記入欄が複数ある帳票を載置して、ユーザが特定の物体を操作することに適応して、当該特定の物体を用いて記入すべき記入欄を明示できる。

情報入力支援システムの構成を説明する図である。入力支援装置の構成例を示す図である。コントローラ部のハードウェア構成例を示す図である。入力支援装置の制御用プログラムの構成を説明する図である。文書入力処理を説明する図である。文書データベースの一例を示す図である。情報入力装置の制御方法を示すフローチャートである。情報入力装置の制御方法を示すフローチャートである。文書入力支援処理状態を説明する遷移図である。物体検知部による物体検知状況の例を示す図である。

以下、本発明を実施するための最良の形態について図面を参照して説明する。本実施形態では、プロジェクタを内蔵するカメラスキャナを用いて、伝票や申込書、届出書などへの入力をユーザの入力状況に応じて効果的に支援する方法について説明する。以後、プロジェクタを内蔵するカメラスキャナを入力支援装置１０１と呼ぶこととする。また、ユーザを支援するプロジェクタ表示の元となるデータのことを、入力支援情報と呼ぶこととする。

〔第１実施形態〕
＜システム構成の説明＞
図１は、本実施形態を示す情報入力支援システムの構成を説明する図である。本例に示すシステムは、情報入力装置の一例である入力支援装置１０１と、ホストコンピュータ１０２とプリンタ１０３とが含まれる。
図１において、入力支援装置１０１はイーサネット（登録商標）等のネットワーク１０４にてホストコンピュータ１０２およびプリンタ１０３に接続されている。入力支援装置１０１は、帳票などへの入力支援情報を表示することができるが、ネットワーク１０４を介して、ホストコンピュータ１０２からの指示により、入力支援装置１０１から画像を読み取るスキャン機能や、スキャンデータをプリンタ１０３により出力するプリント機能の実行も可能である。また、ホストコンピュータ１０２を介さず、入力支援装置１０１への直接の指示により、スキャン機能、プリント機能の実行も可能である。

＜入力支援装置の構成＞
図２は、図１に示した入力支援装置１０１の構成例を示す図である。
図２の（ａ）に示すように、入力支援装置１０１は、コントローラ部２０１、カメラ部２０２、腕部２０３、短焦点プロジェクタ２０７、距離画像センサ部２０８を含む。入力支援装置１０１の本体であるコントローラ部２０１と、撮像を行うためのカメラ部２０２、短焦点プロジェクタ２０７および距離画像センサ部２０８は、腕部２０３により連結されている。腕部２０３は関節を用いて曲げ伸ばしが可能である。

図２の（ａ）には、入力支援装置１０１が設置されている書画台２０４も示している。カメラ部２０２および距離画像センサ部２０８のレンズは書画台２０４方向に向けられており、破線で囲まれた読み取り領域２０５内の画像を読み取り可能である。図２の（ａ）の例では、文書２０６は読み取り領域２０５内に置かれているので、入力支援装置１０１に読み取り可能となっている。
カメラ部２０２は単一解像度で画像を撮像するものとしてもよいが、高解像度画像撮像と低解像度画像撮像が可能なものとすることが好ましい。なお、図２に示されていないが、入力支援装置１０１は、ＬＣＤタッチパネル３３０およびスピーカ３４０をさらに含むこともできる。

図２の（ｂ）は、入力支援装置１０１における座標系について表している。
図２の（ｂ）において、入力支援装置１０１では各ハードウェアデバイスに対して、カメラ座標系、距離画像座標系、プロジェクタ座標系という座標系が定義される。これらはカメラ部２０２および距離画像センサ部２０８のＲＧＢカメラ３６３が撮像する画像平面、あるいはプロジェクタ２０７が投影する画像平面をＸＹ平面とし、画像平面に直交した方向をＺ方向として定義したものである。さらに、これらの独立した座標系の３次元データを統一的に扱えるようにするために、書画台２０４を含む平面をＸＹ平面とし、このＸＹ平面から上方に垂直な向きをＺ軸とする直交座標系を定義する。

座標系を変換する場合の例として、図２（ｃ）に直交座標系と、カメラ部２０２を中心としたカメラ座標系を用いて表現された空間と、カメラ部２０２が撮像する画像平面との関係を示す。直交座標系における３次元点Ｐ［Ｘ，Ｙ，Ｚ］は、（１）式によって、カメラ座標系における３次元点Ｐｃ［Ｘｃ，Ｙｃ，Ｚｃ］へ変換できる。

ここで、Ｒｃおよびｔｃは、直交座標系に対するカメラの姿勢（回転）と位置（並進）によって求まる外部パラメータによって構成され、Ｒｃを３×３の回転行列、ｔｃを並進ベクトルと呼ぶ。逆に、カメラ座標系で定義された３次元点は（２）式によって、直交座標系への変換することができる

さらに、カメラ部２０２で撮影される２次元のカメラ画像平面は、カメラ部２０２によって３次元空間中の３次元情報が２次元情報に変換されたものである。すなわち、カメラ座標系上での３次元点Ｐｃ［Ｘｃ，Ｙｃ，Ｚｃ］を、（３）式によってカメラ画像平面での２次元座標ｐｃ［ｘｐ，ｙｐ］に透視投影変換することによって変換することが出来る。

ここで、Ａは、カメラの内部パラメータと呼ばれ、焦点距離と画像中心などで表現される３×３の行列である。

以上のように、上記（１）式と（３）式を用いることで、直交座標系で表された３次元点群を、カメラ座標系での３次元点群座標やカメラ画像平面に変換することが出来る。なお、各ハードウェアデバイスの内部パラメータおよび直交座標系に対する位置姿勢（外部パラメータ）は、公知のキャリブレーション手法によりあらかじめキャリブレーションされているものとする。以後、特に断りがなく３次元点群と表記した場合は、直交座標系における３次元データを表しているものとする。

＜入力支援装置のコントローラのハードウェア構成＞
図３は、図１に示した入力支援装置１０１の本体であるコントローラ部２０１のハードウェア構成例を示す図である。
図３において、コントローラ部２０１は、システムバス３０１に接続されたＣＰＵ３０２、ＲＡＭ３０３、ＲＯＭ３０４、ＨＤＤ３０５、ネットワークＩ／Ｆ３０６、画像処理プロセッサ３０７、カメラＩ／Ｆ３０８、ディスプレイコントローラ３０９、シリアルＩ／Ｆ３１０、オーディオコントローラ３１１およびＵＳＢコントローラ３１２を含む。

ＣＰＵ３０２はコントローラ部２０１全体の動作を制御する中央演算装置である。ＲＡＭ３０３は揮発性メモリである。ＲＯＭ３０４は不揮発性メモリであり、ＣＰＵ３０２の起動用プログラムが格納されている。ＨＤＤ３０５はＲＡＭ３０３と比較して大容量なハードディスクドライブ（ＨＤＤ）である。ＨＤＤ３０５にはコントローラ部２０１の実行する、入力支援装置１０１の制御用プログラムが格納されている。尚、ＨＤＤ３０５はソリッドステートドライブ（ＳＤ）などに置き換えてもよく、ＨＤＤ３０５と同等の機能を有する他の記憶装置に置き換えてもよい。

ＣＰＵ３０２は電源ＯＮ等の起動時、ＲＯＭ３０４に格納されている起動用プログラムを実行する。この起動用プログラムは、ＨＤＤ３０５に格納されている制御用プログラムを読み出し、ＲＡＭ３０３上に展開するためのものである。ＣＰＵ３０２は起動用プログラムを実行すると、続けてＲＡＭ３０３上に展開した制御用プログラムを実行し、制御を行う。また、ＣＰＵ３０２は制御用プログラムによる動作に用いるデータもＲＡＭ３０３上に格納して読み書きを行う。ＨＤＤ３０５上にはさらに、制御用プログラムによる動作に必要な各種設定や、カメラ入力によって生成した画像データを格納することができ、ＣＰＵ３０２によって読み書きされる。ＣＰＵ３０２はネットワークＩ／Ｆ３０６を介してネットワーク１０４上の他の機器との通信を行う。

画像処理プロセッサ３０７はＲＡＭ３０３に格納された画像データを読み出して処理し、またＲＡＭ３０３へ書き戻す。なお、画像処理プロセッサ３０７が実行する画像処理は、回転、変倍、色変換等である。

カメラＩ／Ｆ３０８はカメラ部２０２および距離画像センサ部２０８と接続され、ＣＰＵ３０２からの指示に応じてカメラ部２０２から画像データを、距離画像センサ部２０８から距離画像データを取得してＲＡＭ３０３へ書き込む。また、ＣＰＵ３０２からの制御コマンドをカメラ部２０２および距離画像センサ部２０８へ送信し、カメラ部２０２および距離画像センサ部２０８の設定を行う。尚、距離画像センサ部２０８は赤外線によるパターン投射方式の距離画像センサである。赤外線パターン投射部３６１は対象物に、人の目には不可視である赤外線によって３次元測定パターンを投射する。赤外線カメラ３６２は対象物に投射した３次元測定パターンを読みとるカメラである。
ＲＧＢカメラ３６３は人の目に見える可視光をＲＧＢ信号で撮影するカメラである。ＲＧＢカメラ３６３は、書画代２０４に載置された帳票の画像を読取る。本実施形態では、距離画像センサ部２０８として赤外線パターン投射方式を採用しているが、他の方式の距離画像センサを用いることも可能である。例えば、２つのＲＧＢカメラでステレオ立体視を行うステレオ方式や、レーザー光の飛行時間を検出することで距離を測定するＴＯＦ（ＴｉｍｅｏｆＦｌｉｇｈｔ）方式を用いても良い。

コントローラ部２０１は、ディスプレイコントローラ３０９、シリアルＩ／Ｆ３１０、オーディオコントローラ３１１およびＵＳＢコントローラ３１２のうち少なくとも１つをさらに含むことができる。

ディスプレイコントローラ３０９はＣＰＵ３０２の指示に応じてディスプレイへの画像データの表示を制御する。ここでは、ディスプレイコントローラ３０９は短焦点プロジェクタ２０７およびＬＣＤタッチパネル３３０に接続されている。

シリアルＩ／Ｆ３１０はシリアル信号の入出力を行う。シリアルＩ／Ｆ３１０はＬＣＤタッチパネル３３０に接続され、ＣＰＵ３０２はＬＣＤタッチパネル３３０が押下されたときに、シリアルＩ／Ｆ３１０を介して押下された座標を取得する。
オーディオコントローラ３１１はスピーカ３４０に接続され、ＣＰＵ３０２の指示に応じて音声データをアナログ音声信号に変換し、スピーカ３４０を通じて音声を出力する。

ＵＳＢコントローラ３１２はＣＰＵ３０２の指示に応じて外付けのＵＳＢデバイスの制御を行う。ここでは、ＵＳＢコントローラ３１２はＵＳＢメモリやＳＤカードなどの外部メモリ３５０に接続され、外部メモリ３５０へのデータの読み書きを行う。

＜入力支援装置の制御用プログラムの機能構成＞
図４は、図１に示した入力支援装置１０１の制御用プログラムの構成を説明する図である。特に、図４の（ａ）は、ＣＰＵ３０２が実行する入力支援装置１０１の制御用プログラムの機能構成４０１を示し、図４（ｂ）は、機能構成４０１の各モジュールユーザインタフェース部４０３、メイン制御部４０２等の関係をシーケンスで示したものである。物体検知部４１０、入力支援部４１８、画像読取部４１６、ジェスチャ認識部４０９については、図４の（ｂ）に示す手順に従うものとする。なお、詳細な説明は、省略する。
図５は、本実施形態を示す文書入力処理を説明する図である。特に、図５の（ａ）は、入力すべき文書５０１で、文字とユーザが記入すべき領域を特定する罫線で構成されている。図５の（ｂ）は、書画台２０４に載置された文書５０１の例である。
図６は、本実施形態を示す情報入力装置が管理する文書データベースの一例を示す図である。本例は、文書の入力領域を特定するデータベース例である。
なお、入力支援装置１０１の制御用プログラムは前述のようにＨＤＤ３０５に格納され、ＣＰＵ３０２が起動時にＲＡＭ３０３上に展開して実行する。なお、認識可能な帳票は、複数の記入欄が設定される帳票の特徴点と、それぞれの記入欄にユーザが使用すべき物体の種別とを対応づけて帳票情報としてデータベースに登録されている。

メイン制御部４０２は制御の中心であり、機能構成４０１内の他の各モジュールを図４の（ｂ）に示すように制御する。以下、メイン制御部４０２を除く図４の（ａ）、（ｂ）の各モジュールについて、図５、図６を交えて説明する。なお、メイン制御部４０２については、図７で後述する。
画像取得部４１６は、画像入力処理を行うモジュールであり、カメラ画像取得部４０７、距離画像取得部４０８から構成される。カメラ画像取得部４０７はカメラＩ／Ｆ３０８を介してカメラ部２０２が出力する画像データを取得し、ＲＡＭ３０３へ格納する。

距離画像取得部４０８はカメラＩ／Ｆ３０８を介して距離画像センサ部２０８が出力する距離画像データを取得し、ＲＡＭ３０３へ格納する。距離画像データは、赤外線パターン投射部３６１からの３次元形状パターンの投射、ＲＧＢカメラ３６３によるＲＧＢカメラ画像、及び、赤外線カメラ３６２によって投射された３次元形状パターンを撮影した赤外線カメラ画像にもとづいて３次元点群を生成することができる。距離画像データ生成の詳細については、公知の技術（特願２０１４−０９５５４１号公報）であるため、ここでの詳細な説明は割愛する。

認識処理部４１７は、カメラ画像取得部４０７、及び、距離画像取得部４０８が取得する画像データから書画台２０４上の文書やユーザの手などの物体を検知・認識するモジュールであり、ジェスチャ認識部４０９、物体検知部４１０から構成される。

ジェスチャ認識部４０９は、画像取得部４１６から書画台２０４上の画像を継続的に取得し続け、得られた３次元点群、及び、手の肌色領域からの外形検出にもとづいて、書画台２０４上の手の位置、及び、タッチなどのジェスチャを検知する。ジェスチャ認識部４０９は、手の位置、及び、ジェスチャを検知すると、メイン制御部４０２へジェスチャ検知を通知する。尚、ジェスチャ認識の詳細については、公知の技術（特願２０１４−０９５５４１号公報）であるため、これ以上の詳細な説明を割愛する。

物体検知部４１０は、画像取得部４１６から書画台２０４上の画像を継続的に取得し続け、書画台２０４上に物体が置かれて静止するタイミング及び物体が除去されるタイミングを検知する。物体が置かれて静止するタイミング及び除去されるタイミングは、書画台２０４の背景画像と連続する所定フレーム数のカメラフレーム画像との差分値にもとづいて検知する。
物体検知部４１０は所定時間前のフレームと現在のフレームの差分値が所定値１より大きく、かつ直前の所定数のフレーム間で差分値総和が所定値２より小さい画素が全体に対して所定以上の割合に達した場合、そこに物体が置かれたと判定する。以後、そのような画素を全て内包する領域を物体検知領域とする。尚、物体が除去されるタイミングとは、物体が物体検知領域から完全に除去され、当該物体検知領域に物体が何も置かれていない状態になったタイミングのことである。静止された物体が置かれていると判定された場合は、静止した時点でのカメラフレーム画像を保存する。
また、距離画像データにもとづき、物体が所定の厚み以下の文書ではなく、所定の厚み以上を有する立体物であると判定される場合は、カメラフレーム画像に加えて、距離画像を３次元点群に変換して保存する。物体が文書か立体物であるかの判定に用いる厚みの閾値は設定によって変更することができる。また、物体検知部４１０は、検知された物体が、文書であるか、文書以外の立体物であるかを識別する簡易物体識別情報を同時に生成する。簡易物体識別情報は、距離画像にもとづき、物体の厚みが所定の厚み以下かそうでないかの判定によって、それぞれ文書であるか立体物であるかを識別する情報を含む。ここでは、物体の識別を物体の厚みのみで判定しているが、前述のカメラフレーム画像の差分値が所定値以上ある領域が矩形であるか否かを判定条件に加えてもよい。
物体検知部４１０は、前述の物体載置の静止タイミング及び除去タイミングを検知すると、簡易物体識別情報ごとに、現在置かれているか否かを表す検知状況と、最後に置かれていたときの物体検知領域座標とを物体検知状況として記録する。物体検知領域座標とは、物体検知領域の左上の座標、および右下の座標である。物体検知状況は、後述するデータ管理部４０５、又はネットワークを介して接続されたサーバ等に保存され、任意のタイミングで取得できる。
図１０は、図４に示した物体検知部４１による物体検知状況の例を示す図である。尚、物体検知の方法は上記の方法に限らず、別の方法でもよい。
ユーザインタフェース部４０３は、メイン制御部４０２からの要求を受け、メッセージやボタン等のＧＵＩ部品を生成する。そして、表示部４０６へ生成したＧＵＩ部品の表示を要求する。表示部４０６はディスプレイコントローラ３０９を介して、単焦点プロジェクタ２０７もしくはＬＣＤタッチパネル３３０へ要求されたＧＵＩ部品の表示を行う。
単焦点プロジェクタ２０７は書画台２０４に向けて設置されているため、書画台２０４上にＧＵＩ部品を投射することが可能となっている。また、ユーザインタフェース部４０３は、ジェスチャ認識部４０９が認識したタッチ等のジェスチャ操作、あるいはシリアルＩ／Ｆ３１０を介したＬＣＤタッチパネル３３０からの入力操作、そしてさらにそれらの座標を受信する。そして、ユーザインタフェース部４０３は描画中の操作画面の内容と操作座標を対応させて操作内容（押下されたボタン等）を判定する。この操作内容をメイン制御部４０２へ通知することにより、操作者の操作を受け付ける。
ネットワーク通信部４０４は、ネットワークＩ／Ｆ３０６を介して、ネットワーク１０４上の他の機器とＴＣＰ／ＩＰによる通信を行う。

データ管理部４０５は、機能構成４０１で示すプログラムの実行において生成した作業データなど様々なデータをＨＤＤ３０５上の所定の領域へ保存し、管理する。例えば、画像取得部４１６で撮像されたカメラフレーム画像データなどが保存、管理される。

入力支援部４１８は、ユーザによる文書への入力作業に関わる入力支援処理を実行するモジュールである。入力支援部４１８は、文書認識部４１１、入力領域取得部４１２、文書位置検出部４１３、物体認識部４１４、及び、レイアウト生成部４１５から構成される。入力支援部４１８は、メイン制御部４０２を介して、カメラ画像取得部４０７や距離画像取得部４０８で取得した画像データ、ジェスチャ認識部４０９で取得したジェスチャ情報など、前記したモジュールの出力データを取得する。

文書認識部４１１は、書画台２０４上の文書を認識する。文書認識部４１１は、カメラ画像取得部４０７によって取得された画像の特徴点・特徴量を抽出し、データベース上に予め登録しておいた各文書画像の特徴点・特徴量との類似度を比較する。これにより、書画台２０４上の文書が、データベース上のどの文書と一致するか、またどの向きに置かれているかを判定することができる。文書認識部４１１によるカメラ画像の特徴点・特徴量の抽出範囲は、カメラ部２０２によって撮像される読み取り領域２０５である。
但し、カメラ画像と背景画像との差分を検出することで、カメラ画像中の文書領域を特定し、文書領域の特徴点・特徴量のみを抽出するようにしてもよい。特徴点検出にはＤｏＧ、各特徴点の特徴量抽出はＳＩＦＴやＳＵＲＦと呼ばれる技術が一般的に用いられる。特徴点・特徴量による画像比較については公知の技術であるため、ここでのより詳細な説明は割愛する。
各文書の特徴点・特徴量を関連付けているデータベースは、入力支援装置１０１のＨＤＤ３０５上にあってもよいし、ネットワーク上のサーバ（不図示）などにあって、ネットワーク１０４を介して参照するようにしてもよい。また、文書の認識は、前述の特徴点・特徴量による方法ではなく、予め文書に埋め込まれたバーコード（不図示）などを認識する方法でもよく、特徴点・特徴量による方法に限るものではない。

入力領域取得部４１２は、文書認識部４１１で認識された文書の情報にもとづいて、ユーザがボールペンや印鑑などの筆記具によって文書に入力すべき領域を取得する。入力すべき領域（以後、入力領域と呼ぶ）とは、図５（ａ）に示す文書５０１のような申込書において、ユーザ（顧客）がボールペンなどで実際に手入力を必要とする領域のことである。
本実施形態では、図５の（ａ）のグレー色の領域が文書５０１の入力領域となる。入力領域は、図５の（ａ）の５０２〜５１０のように、枠線などで囲まれた矩形領域毎に予め設定することができる。また各入力領域には、その領域に関連する物体を設定することができる。たとえば、押印欄には関連する物体として印鑑を設定できる。図５の（ａ）の５０３及び５１１は押印欄であり、関連する物体として印鑑が設定されている。
また、その他の入力領域には関連する物体としてボールペンが設定されている。入力領域の設定は、入力支援装置１０１の管理者が、ＰＣの専用アプリケーションなどを用いて行うことができる。ただし、入力領域の設定は、入力支援装置１０１の専用アプリケーションで行ってもよく、ＰＣに限るものではない。また、入力領域を設定する方法に関しては、一般的な技術を用いて行えるため、ここでの詳細な説明は割愛する。設定された各文書の入力領域は、ＨＤＤ３０５上のデータベースで管理される。
本実施形態では、図５の（ａ）の５０２〜５１１の入力領域が、図６のデータベース上の６０１〜６１０それぞれ関連付けられる。尚、６１０は文書ＩＤが６０１〜６１０とは異なるため、本実施形態には登場しない別の文書の入力領域を示すことになる。また、データベースはＨＤＤ３０５上ではなくネットワーク上のサーバなどにあって、ネットワーク１０４を介して参照するようにしてもよい。

ここで、図６について説明する。図６の文書ＩＤは、文書毎に固有に割り当てられるＩＤであり、本実施形態の文書５０１には文書ＩＤ：１が割り当てられる。ページは、文書中の入力領域が存在するページ番号を示す。入力領域座標は、各文書の文書座標系（Ｘｄ、Ｙｄ、Ｚｄ）における、矩形の対角の頂点座標を示し、これによって入力領域の範囲を矩形の範囲として指定することができる。関連物体列は、入力領域に関連する物体を表す。本実施形態において、入力領域取得部４１２は、文書５０１と入力領域を関連付ける図６のデータベースを参照することで、文書５０１の入力領域を取得することができる。

文書位置検出部４１３は、カメラ画像取得部４０７によって取得されたカメラ画像中の文書画像にもとづいて、書画台２０４上の文書の位置を検出する。例えば、文書の位置は、図５の（ｂ）の直交座標系における文書の左上頂点座標（Ｘｄ_０、Ｙｄ_０、０）として表すことができる。プロジェクタ座標系やカメラ座標系における文書の入力領域座標は、文書の左上頂点座標（Ｘｄ_０、Ｙｄ_０、０）から直交座標系に変換し、更に前述の変換式を用いることで得ることができる。座標の変換方法については前述したため、ここでの詳細な説明を割愛する。なお、本実施形態では簡単のため文書の厚みを０とし、文書座標系におけるＺｄ成分を考慮していない。
しかし、距離画像取得部４０８によって距離画像データを取得することで、文書の厚みや歪みを考慮して、プロジェクタ座標系及びカメラ座標系への座標変換をすることも可能である。文書の厚みを考慮した変換方法については公知の技術（特願２０１４−０９５５４１号公報）であるため、ここでの詳細な説明は割愛する。

物体認識部４１４は、置かれた物体の種類を認識する（物体認識）。本実施形態における物体認識とは、入力された画像に対し、そこに写っている物体が一般的な名称のどのクラス（ボールペン、印鑑等）に属するかを判断する一般物体認識である。

一般物体認識を行うためには、事前にどのクラスに属しているかが既知である物体を撮影した画像を学習する事が一般的である。事前に物体を撮影する方法としては、書画台２０４上に載置された物体の画像データをカメラ画像取得部４０７、距離画像取得部４０８で取得する。この作業を物体の置き位置や置き方をそれぞれ変化させ、事前に複数パターン撮影する。そして、それらの画像から特徴を抽出する。

画像の特徴を記述する手法としては、画素値の統計や固有値を記述するものから、局所的な特徴を記述するものまで多種にわたる。本例では、特徴抽出のために局所特徴の一種であるＳＩＦＴ特徴を用いる。

また、本実施形態では特徴ベクトルの抽出をＢａｇｏｆＫｅｙｐｏｉｎｔｓの手法で行う。ＢａｇｏｆＫｅｙｐｏｉｎｔｓモデルとは、画像を局所特徴の集合と捉えた手法である。局所特徴をベクトル量子化し、ＶｉｓｕａｌＷｏｒｄｓと呼ばれる特徴ベクトルを生成する。それらをまとめたコードブックの生成を行い、それを記述子として画像全体の特徴ベクトルを生成する。
これにより、画像をＶｉｓｕａｌＷｏｒｄｓの集合（ｂａｇ）として表現することができる。コードブックは、ＳＩＦＴ特徴の代表ベクトルを指定されたクラスタ数だけ記述したデータである。各画像に対応するＳＩＦＴ特徴のそれぞれについて、コードブックから「距離が最も近い」ベクトルを探し、そのベクトルに対して投票することによってヒストグラムを作成する。上記ベクトルの距離を計測する尺度として、本例ではユークリッド距離を用いる。
次に、上記ヒストグラムを学習データとして、識別を行う上での識別器を作成する。本実施形態では、この識別器の作成に関し、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）を用いる。

ＳＶＭは、ニューロンのモデルとして最も単純な線形しきい素子を用いて、２クラスのパターン識別器を構成する手法である。この２クラス分類機を組み合わせる事により、多クラスの分類も可能になる事が知られている。本実施形態では、ケースに応じてＳＶＭを用いた２クラス分類と多クラス分類を使い分けて機能を実現する。

以上は識別器を作成する方法である。一方で、実際に物体の識別を行うためには、以下のようにして行う。認識対象画像が入力されると識別処理を行なうプログラムの動作が開始される。前記１枚の識別画像に対して前述の特徴抽出及び局所特徴ベクトル抽出を行い、抽出された特徴ベクトルを事前に生成したコードブック中で「距離が最も近い」ベクトルを探し、そのベクトルに対して投票することによってヒストグラムを作成する。このようにして、コードブックに関するヒストグラムを得ることになる。

次に、前記ヒストグラムを正規化する。典型的な例では、各ヒストグラムは要素の合計が１となるように正規化されることによって、識別対象画像を表すｂａｇ−ｏｆ−ｋｅｙｐｏｉｎｔｓベクトルが得られる。
次に、得られたｂａｇ−ｏｆ−ｋｅｙｐｏｉｎｔｓベクトルを識別器に入力し、識別対象画像に対する識別結果を得る。
物体認識部４１４は以上のようにして入力された画像に含まれる物体の種類を認識する。なお、物体認識手法は上記に限らず他の手法を用いてもよい。

レイアウト生成部４１５は、入力領域取得部４１２、文書位置検出部４１３、及び、物体認識部４１４による物体情報、文書位置情報、データベースの情報にもとづき、単焦点プロジェクタ２０７によって文書に投射するレイアウト画像を生成する。レイアウト生成部４１５によるレイアウト画像は、図５の（ａ）の文書５０１の入力領域を、例えば赤色などでハイライト表示するよう生成される。生成されたレイアウト画像は表示部４０６によって単焦点プロジェクタ２０７で投射する。これによって、ユーザは対象となる入力領域がどこなのかを一目で判断することができる。
該当する入力領域のハイライト表示位置の算出は、文書位置情報をもとに入力領域の座標をプロジェクタ座標系に変換することで行われる。座標系の変換については、前述しているため、ここでの詳細な説明を割愛する。尚、入力領域の色については、赤色や緑色に限らず黄色や青色などのどのような色を使ってもよい。また、入力領域全体を塗りつぶして表示するのではなく、入力領域を枠線で囲ってハイライト表示するようにしてもよい。また、入力領域を、色を使ってハイライト表示するのではなく、入力領域の周囲に"入力が必要な箇所です"などの文字情報を表示して入力領域を強調するようにしてもよい。あるいは、入力領域を矢印マークなどの記号で指し示して強調表示するようなレイアウト画像を生成してもよい。

＜メイン制御部の説明＞
図７は、本実施形態を示す情報入力装置の制御方法を示すフローチャートである。本例は、図４に示したメイン制御部４０２の処理例である。図９は、文書５０１を書画台２０４に置いた時の単焦点プロジェクタ２０７によるハイライト表示の例である。
図９は、本実施形態を示す情報入力装置における文書入力支援処理状態を説明する遷移図である。本例、図７のメイン制御部４０２及び図８の入力支援部４１８のフローチャートに沿って、書画台２０４上の文書５０１のハイライト表示のイメージを示したものである。
図９の（ａ）は、書画台２０４上に何も置かれていない状態を示す。このとき、メッセージ９０２を表示することで、ユーザに文書の載置を促す。図９の（ｂ）は、ユーザによって、書画台２０４上に文書５０１が置かれたときの状態を示す。図９の（ｃ）は、立体物が置かれていない時に入力支援部４１８によって、文書５０１に対してハイライト表示をしている状態を示す。
図９（ｃ）の網掛け範囲９０７は、単焦点プロジェクタ２０７によるハイライトの投影表示を示している。尚、網掛け範囲９０７は黄色を用い、単焦点プロジェクタ２０７で入力領域を塗りつぶすように投射したものである。図９の（ｄ）は、立体物として印鑑が置かれている時に入力支援部４１８によって、文書５０１に対してハイライト表示をしている状態を示す。
図９の（ｅ）は、立体物として印鑑を持った手が置かれている時に入力支援部４１８によって、文書５０１に対してハイライト表示をしている状態を示す。図９の（ｆ）は、ハイライトすべき入力領域が一つもない状態を示す。以下、図７、図９を用いてメイン制御部４０２が実行するアプリケーション処理について説明する。

メイン制御部４０２が処理を開始すると、Ｓ７０１で入力支援装置１０１の初期化処理を行う。初期化処理では、各ハードモジュールの起動確認、カメラ画像取得部４０７及び距離画像取得部４０８の色味調整・距離センサ値の補正、書画台２０４に何も載置されていない状態での背景画像取得などを行う。

Ｓ７０２では、ユーザインタフェース部４０３を介して、書画台２０４に図９の（ａ）の画面を単焦点プロジェクタ２０７で投射する。図９の（ａ）の画面では、書画台２０４上にスキャン対象物を置くことをユーザに促すメッセージ９０２を投射する。また、終了アイコン９０１を単焦点プロジェクタ２０７で投射する。ユーザが書画台２０４上の終了アイコン９０１にタッチすることで、ジェスチャ認識部４０９は終了アイコン９０１へのタッチ操作を認識し、メイン制御部４０２の処理を終了することができる。

Ｓ７０３では物体検知部４１０による物体検知状況に変更があったか否かを判定する。物体検知状況に変更があった場合はＳ７０６へ進み、そうでなければＳ７１１へ進む。Ｓ７０６では、ユーザインタフェース部４０３を介して、書画台２０４に投射するメッセージを"解析中です。"に更新して単焦点プロジェクタ２０７で投射する。
Ｓ７０７では、入力支援部４１８によって入力支援処理を行う。入力支援処理の詳細については、後述する図８のフローチャートで説明するため、ここでの説明を割愛する。Ｓ７１１では、ユーザによって書画台２０４上の終了アイコン９０１がタッチ押下されたか否かを判定する。終了アイコン９０１がタッチ押下された場合は、メイン制御部４０２を終了し、そうでなければＳ７０３へ戻る。

＜入力支援部のフローチャートの説明＞
図８は、本実施形態を示す情報入力装置の制御方法を説明するフローチャートである。本例は、入力支援部４１８によるＳ７０７の入力支援処理の詳細例である。

以下、図８、図９、図１０を用いて入力支援部４１８が実行する入力支援処理について説明する。
Ｓ８０１では、カメラ画像取得部４０７によってカメラフレーム画像を取得する。例えば、図９の（ｂ）のときに、以後の処理を行うためのカメラフレーム画像が取得される。
Ｓ８０２では、文書認識部４１１によって、Ｓ８０１で取得されたカメラフレーム画像にもとづき、書画台２０４上の文書５０１に印刷された罫線情報をデータベースに登録された帳票情報と照合することで認識する。文書認識部４１１の認識処理については前述したため、ここでの説明を割愛する。

Ｓ８０３では、文書認識部４１１によって、書画台２０４上の文書５０１とデータベース上の登録文書の類似度を判定し、文書５０１が入力支援対象となる文書であるか否かを判定する。文書５０１が入力支援対象であればＳ８０４へ進み、そうでなければＳ８０７へ進む。

Ｓ８０４では、立体物検知状況１００１を参照することで、現在立体物が置かれているか否かを判定する。立体物が置かれている場合Ｓ８０６へ進み、そうでなければＳ８０５へ進む。

Ｓ８０５では、入力領域取得部４１２によって、文書５０５の入力領域を全て取得し、ハイライト対象入力領域とする。例えば、図９の（ｂ）の５０２〜５１１の領域がハイライト対象入力領域となる。入力領域取得部４１２の処理については前述したため、ここでの詳細な説明を割愛する。

Ｓ８０６では、物体認識部４１４に、Ｓ８０１で取得されたカメラフレーム画像のうち、立体物が置かれている物体検知領域９０４を切り出した画像を入力することで、立体物の種類を認識する。

Ｓ８０７では、Ｓ８０６の立体物認識結果に基づいて、入力領域取得部４１２によって、文書５０５のうち立体物の種類が関連物体として設定されている入力領域を全て取得し、ハイライト対象入力領域とする。例えば、立体物認識結果が印鑑だった場合、関連物体として印鑑が設定されている５０３及び５１１の領域がハイライト対象入力領域となる。

Ｓ８０８では、Ｓ８０７によって一つ以上のハイライト対象入力領域が得られたかを調べ、一つ以上存在した場合Ｓ８０９に進む。そうでない場合、Ｓ８１１に進む。

Ｓ８０９では、文書位置検出部４１３によって、Ｓ８０１で取得されたカメラフレーム画像にもとづき、書画台２０４上の文書位置を検出する。文書位置検出部４１３の処理については前述したため、ここでの詳細な説明を割愛する。

Ｓ８１０では、レイアウト生成部４１５によって、Ｓ８０５の文書位置及びＳ８０５またはＳ８０６で得られたハイライト対象入力領域にもとづいて、ハイライト表示用のレイアウト画像を生成する。Ｓ８０４の分岐後Ｓ８０５へ進んだ場合は、図９の（ｃ）のように全ての入力領域がハイライトされた表示になるハイライト画像が生成される。Ｓ８０４の分岐後、Ｓ８０６へ進み、さらにＳ８０８の分岐後Ｓ８０９へ進んだ場合には、図９の（ｄ）のように、立体物が関係する入力領域のみがハイライトされた表示になる画像が生成される。なお図９の（ｄ）は立体物の種類が印鑑だった場合の例である。

なお、立体物は必ずしも単体で置かれてある必要はなく、立体物の種類が識別できればどのような置かれ方がされてもよい。例えば図９の（ｅ）のように、ユーザが手に持った印鑑を持った状態で置かれてもよい。このような状況はユーザがどこに押印したらいいか悩んで手を止めているような状況に発生する。

Ｓ８１２では、Ｓ８１０で生成されたレイアウト画像を、ユーザインタフェース部４０３を介して、単焦点プロジェクタ２０７によって書画台２０４へ投射する。また、同時にＵＩ画面のメッセージを更新表示する。メッセージは、ユーザに文書５０１への入力を促すため、メッセージ９０６に更新される。

Ｓ８１１では、ユーザインタフェース部４０３を介して、書画台２０４上に置かれた立体物に対応する入力領域が無いことをユーザに伝えるメッセージ９０８を投射する。図９の（ｆ）はこのような表示の例を示す図であり、押印欄のない申込書９１０に対して印鑑を置いた場合の状況を示している。
本実施形態によれば、文書５０１へのユーザによる入力状況に合わせてプロジェクタの投射を行うので、ユーザが入力すべき箇所を適切に把握することができる。
また、文書以外に存在する物体の種類の判別を行い、その判別結果に応じて、物体が関連している入力領域にのみハイライトを行ため、ユーザはよりわかりやすく目的の入力領域を識別することができる。

従って、例えば、帳票が置かれているときユーザが印鑑を置いた場合を想定すると、従来は帳票以外に何が置かれていようと、全ての入力領域がハイライトされていた。
これに対して、本実施形態では、ユーザが印鑑を置いたことを認識して押印欄のみをハイライトするので、ユーザは帳票のどの記入欄に押印すればいいか即座にかつ正確に判断できる。

なお、領収書の貼り付けが必要な文書に対して、ユーザが領収書を置いたとする。本発明ではユーザが領収書を置いたことを認識して、領収書の貼り付け欄のみをハイライトするように制御してもよい。これによって、ユーザはどの欄に領収書を貼り付ければいいか即座にかつ正確に判断できる。

〔第２実施形態〕
第１実施形態では、書画台に任意の場所に置かれた立体物に対して、その立体物の種類に応じたハイライト対象入力領域を特定し、それらの入力領域をハイライト表示する例を説明した。この場合原稿台に置かれたあらゆる立体物を検知することになる。

第２実施形態では、原稿の位置に応じて立体物の検知領域を設定し、その検知領域に内包される立体物だけをハイライト対象入力領域の特定に利用する。これは予期しない物体が写り込んで、ユーザが意図しない結果になるのを避けるためのものである。たとえば、ユーザとは逆側に別の人物がいるように、対面で入力支援装置を利用する場合、文書に対して入力しようとしているユーザ以外の人物の道具や、体の一部が写り込んでしまう可能性がある。第２実施形態の構成によって、これに起因する誤作動を抑制することができる。
第２実施形態において、図８のフローチャートのＳ８０４以外は第１実施形態と同じため割愛する。

第２実施形態において、Ｓ８０４では、まず、立体物の位置と、文書の向きを考慮して、立体物が置かれているか否かを判定する。具体的にはまず、立体物検知状況１００１を参照することで、物体検知領域の左上のｙ座標（ｙｃｂ１）を取得する。次に文書位置検出部４１３によって得られる文書位置のｙ座標を取得する。そして、文書の向きから文書位置の右下の座標を特定する（ｙｃｄ２とする）。そして、ｙｃｄ２＞ｙｃｂ１の場合（すなわち物体検知領域の上端が、文書の下端より下にある場合）は、さらに実施形態１のＳ８０４の判定を行い、そうでなければＳ８０５に進む。なお具体的な位置の条件は上記ではｙｃｂ２＞ｙｃｄ１としたが、これに限るものではない。例えば、物体検知領域の右下のｙ座標が、文書の中心より下に存在する場合としてもよい。
以上説明したように、本実施形態によれば、文書に入力を行おうとしているユーザの対面にいる人物により置かれた物体やその人物の体の一部を検出による誤作動を抑制することができる。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステムまたは装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えばＡＳＩＣ）によっても実現可能である。

１００画像処理装置

Claims

情報入力装置であって、
複数の記入欄が設定される帳票の特徴点と、それぞれの記入欄にユーザが使用すべき物体の種別とを対応づけて帳票情報を登録する登録手段と、
特定の画像を投影する投影手段と、
載置される帳票を読み取る読取手段と、
ユーザの操作に対応する距離画像を取得する取得手段と、
読み取られる帳票の画像の解析から抽出される特徴点と、登録された帳票の特徴点とを照合して載置された帳票と、当該帳票に印刷された複数の記入欄を認識する第１の認識手段と、
前記取得手段が取得する距離画像を解析してユーザが操作する物体と、当該物体の種別とを認識する第２の認識手段と、
前記第２の認識手段で認識するユーザが操作する物体の種別が変化することに応じて、前記第１の認識手段で認識された前記複数の記入欄のうち、ユーザが使用すべき物体の種別に対応づけられた前記帳票の記入欄に対して、前記特定の画像を投影するように前記投影手段を制御する制御手段と、
を備えることを特徴とする情報入力装置。
前記帳票は、平面に載置されることを特徴とする請求項１に記載の情報入力装置。
前記特定の画像は、ハイライト画像であることを特徴とする請求項１に記載の情報入力装置。
前記取得手段は、前記帳票が載置される領域に対して設定された領域から、前記距離画像を取得することを特徴とする請求項１に記載の情報入力装置。
情報入力装置の制御方法であって、
複数の記入欄が設定される帳票の特徴点と、それぞれの記入欄にユーザが使用すべき物体の種別とを対応づけて帳票情報を登録する登録工程と、
投影手段で特定の画像を投影する投影工程と、
読取手段で載置される帳票を読み取る読取工程と、
取得手段でユーザの操作に対応する距離画像を取得する取得工程と、
読み取られる帳票の画像の解析から抽出される特徴点と、登録された帳票の特徴点とを照合して載置された帳票と、当該帳票に印刷された複数の記入欄を認識する第１の認識工程と、
前記取得手段が取得する距離画像を解析してユーザが操作する物体と、当該物体の種別とを認識する第２の認識工程と、
前記第２の認識工程で認識するユーザが操作する物体の種別が変化することに応じて、前記第１の認識工程で認識された前記複数の記入欄のうち、ユーザが使用すべき物体の種別に対応づけられた前記帳票の記入欄に対して、前記特定の画像を投影するように前記投影手段を制御する制御工程と、
を備えることを特徴とする情報入力装置の制御方法。
請求項５に記載の情報入力装置の制御方法をコンピュータに実行させることを特徴とするプログラム。