JP2017033454A - 情報入力装置、情報入力装置の制御方法及びプログラム - Google Patents

情報入力装置、情報入力装置の制御方法及びプログラム Download PDF

Info

Publication number
JP2017033454A
JP2017033454A JP2015155303A JP2015155303A JP2017033454A JP 2017033454 A JP2017033454 A JP 2017033454A JP 2015155303 A JP2015155303 A JP 2015155303A JP 2015155303 A JP2015155303 A JP 2015155303A JP 2017033454 A JP2017033454 A JP 2017033454A
Authority
JP
Japan
Prior art keywords
document
user
image
information input
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015155303A
Other languages
English (en)
Inventor
秀和 世渡
Hidekazu Seto
秀和 世渡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2015155303A priority Critical patent/JP2017033454A/ja
Publication of JP2017033454A publication Critical patent/JP2017033454A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Position Input By Displaying (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】属性の異なる記入欄が複数ある帳票を載置して、ユーザが特定の物体を操作することに適応して、特定の物体を用いて記入すべき記入欄を明示する情報入力装置を提供する。【解決手段】読み取られる帳票の画像の解析から抽出される特徴点と、登録された帳票の特徴点とを照合して載置された帳票と、帳票に印刷された複数の記入欄を認識する。これに並行して、取得する距離画像を解析してユーザが操作する物体と、物体の種別とを認識する。その際、認識するユーザが操作する物体の種別が変化することに応じて、認識された複数の記入欄のうち、ユーザが使用すべき物体の種別に対応づけられた帳票の記入欄に対して、特定の画像を投影する。【選択図】図8

Description

本発明は、情報入力装置、情報入力装置の制御方法及びプログラムに関するものである。
従来、銀行や保険といった金融業の営業窓口や、行政サービスの窓口などでは、顧客に伝票や申込書、届出書などの文書(紙媒体)への記入を促し、窓口の担当者がその記入状態をチェックして処理するといったことが一般に行われている。このような窓口において、顧客は、前記の文書への記入を初めてするか、暫く振りといったケースが多く、記入すべき箇所が分からないために記入漏れが度々発生する。
このような記入漏れがある場合は、窓口で担当者が記入漏れの箇所を顧客に指摘し、顧客は改めて文書へ記入した上で、担当者が再び記入漏れをチェックするといった作業が発生する。この作業は、窓口の業務を滞らせてしまうため、窓口の業務効率を著しく下げてしまう。
また、窓口が滞ってしまうために、顧客を待たせてしまう時間も長くなってしまう。前述のような問題を解決する技術として、特許文献1では、カメラで文書を認識し、その位置情報にもとづいて、文書の記入すべき領域をプロジェクタでハイライトして強調表示(投射)する方法が開示されている。
これによって顧客は、文書の記入すべき領域がハイライト表示されるので、記入すべき領域がどこにあるのか迷うことなく効率的に記入を行うことができる。また、記入すべき領域がハイライト表示されるため、記入漏れをしてしまうリスクが減る。以下、装置を使用する顧客のことをユーザと呼ぶこととする。
特開2013−254437号公報
特許文献1の方法によると、文書の記入すべき領域がハイライト表示されるので、記入すべき領域に効率的に記入を行うことができる。しかしながら、特許文献1ではユーザがどの領域に対して入力しようとしているかを判断できないため、ハイライト表示すべき領域を多めに設定する必要がある。そのため、入力の効率と確実性が十分に高くない。
本発明は、上記の課題を解決するためになされたもので、本発明の目的は、属性の異なる記入欄が複数ある帳票を載置して、ユーザが特定の物体を操作することに適応して、当該特定の物体を用いて記入すべき記入欄を明示できる仕組みを提供することである。
上記目的を達成する本発明の情報入力装置は以下に示す構成を備える。
情報入力装置であって、複数の記入欄が設定される帳票の特徴点と、それぞれの記入欄にユーザが使用すべき物体の種別とを対応づけて帳票情報を登録する登録手段と、特定の画像を投影する投影手段と、載置される帳票を読み取る読取手段と、ユーザの操作に対応する距離画像を取得する取得手段と、読み取られる帳票の画像の解析から抽出される特徴点と、登録された帳票の特徴点とを照合して載置された帳票と、当該帳票に印刷された複数の記入欄を認識する第1の認識手段と、前記取得手段が取得する距離画像を解析してユーザが操作する物体と、当該物体の種別とを認識する第2の認識手段と、前記第2の認識手段で認識するユーザが操作する物体の種別が変化することに応じて、前記第1の認識手段で認識された前記複数の記入欄のうち、ユーザが使用すべき物体の種別に対応づけられた前記帳票の記入欄に対して、前記特定の画像を投影するように前記投影手段を制御する制御手段と、を備えることを特徴とする。
本発明によれば、属性の異なる記入欄が複数ある帳票を載置して、ユーザが特定の物体を操作することに適応して、当該特定の物体を用いて記入すべき記入欄を明示できる。
情報入力支援システムの構成を説明する図である。 入力支援装置の構成例を示す図である。 コントローラ部のハードウェア構成例を示す図である。 入力支援装置の制御用プログラムの構成を説明する図である。 文書入力処理を説明する図である。 文書データベースの一例を示す図である。 情報入力装置の制御方法を示すフローチャートである。 情報入力装置の制御方法を示すフローチャートである。 文書入力支援処理状態を説明する遷移図である。 物体検知部による物体検知状況の例を示す図である。
以下、本発明を実施するための最良の形態について図面を参照して説明する。本実施形態では、プロジェクタを内蔵するカメラスキャナを用いて、伝票や申込書、届出書などへの入力をユーザの入力状況に応じて効果的に支援する方法について説明する。以後、プロジェクタを内蔵するカメラスキャナを入力支援装置101と呼ぶこととする。また、ユーザを支援するプロジェクタ表示の元となるデータのことを、入力支援情報と呼ぶこととする。
〔第1実施形態〕
<システム構成の説明>
図1は、本実施形態を示す情報入力支援システムの構成を説明する図である。本例に示すシステムは、情報入力装置の一例である入力支援装置101と、ホストコンピュータ102とプリンタ103とが含まれる。
図1において、入力支援装置101はイーサネット(登録商標)等のネットワーク104にてホストコンピュータ102およびプリンタ103に接続されている。入力支援装置101は、帳票などへの入力支援情報を表示することができるが、ネットワーク104を介して、ホストコンピュータ102からの指示により、入力支援装置101から画像を読み取るスキャン機能や、スキャンデータをプリンタ103により出力するプリント機能の実行も可能である。また、ホストコンピュータ102を介さず、入力支援装置101への直接の指示により、スキャン機能、プリント機能の実行も可能である。
<入力支援装置の構成>
図2は、図1に示した入力支援装置101の構成例を示す図である。
図2の(a)に示すように、入力支援装置101は、コントローラ部201、カメラ部202、腕部203、短焦点プロジェクタ207、距離画像センサ部208を含む。入力支援装置101の本体であるコントローラ部201と、撮像を行うためのカメラ部202、短焦点プロジェクタ207および距離画像センサ部208は、腕部203により連結されている。腕部203は関節を用いて曲げ伸ばしが可能である。
図2の(a)には、入力支援装置101が設置されている書画台204も示している。カメラ部202および距離画像センサ部208のレンズは書画台204方向に向けられており、破線で囲まれた読み取り領域205内の画像を読み取り可能である。図2の(a)の例では、文書206は読み取り領域205内に置かれているので、入力支援装置101に読み取り可能となっている。
カメラ部202は単一解像度で画像を撮像するものとしてもよいが、高解像度画像撮像と低解像度画像撮像が可能なものとすることが好ましい。なお、図2に示されていないが、入力支援装置101は、LCDタッチパネル330およびスピーカ340をさらに含むこともできる。
図2の(b)は、入力支援装置101における座標系について表している。
図2の(b)において、入力支援装置101では各ハードウェアデバイスに対して、カメラ座標系、距離画像座標系、プロジェクタ座標系という座標系が定義される。これらはカメラ部202および距離画像センサ部208のRGBカメラ363が撮像する画像平面、あるいはプロジェクタ207が投影する画像平面をXY平面とし、画像平面に直交した方向をZ方向として定義したものである。さらに、これらの独立した座標系の3次元データを統一的に扱えるようにするために、書画台204を含む平面をXY平面とし、このXY平面から上方に垂直な向きをZ軸とする直交座標系を定義する。
座標系を変換する場合の例として、図2(c)に直交座標系と、カメラ部202を中心としたカメラ座標系を用いて表現された空間と、カメラ部202が撮像する画像平面との関係を示す。直交座標系における3次元点P[X,Y,Z]は、(1)式によって、カメラ座標系における3次元点Pc[Xc,Yc,Zc]へ変換できる。
Figure 2017033454
ここで、Rcおよびtcは、直交座標系に対するカメラの姿勢(回転)と位置(並進)によって求まる外部パラメータによって構成され、Rcを3×3の回転行列、tcを並進ベクトルと呼ぶ。逆に、カメラ座標系で定義された3次元点は(2)式によって、直交座標系への変換することができる
Figure 2017033454
さらに、カメラ部202で撮影される2次元のカメラ画像平面は、カメラ部202によって3次元空間中の3次元情報が2次元情報に変換されたものである。すなわち、カメラ座標系上での3次元点Pc[Xc,Yc,Zc]を、(3)式によってカメラ画像平面での2次元座標pc[xp,yp]に透視投影変換することによって変換することが出来る。
Figure 2017033454

ここで、Aは、カメラの内部パラメータと呼ばれ、焦点距離と画像中心などで表現される3×3の行列である。
以上のように、上記(1)式と(3)式を用いることで、直交座標系で表された3次元点群を、カメラ座標系での3次元点群座標やカメラ画像平面に変換することが出来る。なお、各ハードウェアデバイスの内部パラメータおよび直交座標系に対する位置姿勢(外部パラメータ)は、公知のキャリブレーション手法によりあらかじめキャリブレーションされているものとする。以後、特に断りがなく3次元点群と表記した場合は、直交座標系における3次元データを表しているものとする。
<入力支援装置のコントローラのハードウェア構成>
図3は、図1に示した入力支援装置101の本体であるコントローラ部201のハードウェア構成例を示す図である。
図3において、コントローラ部201は、システムバス301に接続されたCPU302、RAM303、ROM304、HDD305、ネットワークI/F306、画像処理プロセッサ307、カメラI/F308、ディスプレイコントローラ309、シリアルI/F310、オーディオコントローラ311およびUSBコントローラ312を含む。
CPU302はコントローラ部201全体の動作を制御する中央演算装置である。RAM303は揮発性メモリである。ROM304は不揮発性メモリであり、CPU302の起動用プログラムが格納されている。HDD305はRAM303と比較して大容量なハードディスクドライブ(HDD)である。HDD305にはコントローラ部201の実行する、入力支援装置101の制御用プログラムが格納されている。尚、HDD305はソリッドステートドライブ(SD)などに置き換えてもよく、HDD305と同等の機能を有する他の記憶装置に置き換えてもよい。
CPU302は電源ON等の起動時、ROM304に格納されている起動用プログラムを実行する。この起動用プログラムは、HDD305に格納されている制御用プログラムを読み出し、RAM303上に展開するためのものである。CPU302は起動用プログラムを実行すると、続けてRAM303上に展開した制御用プログラムを実行し、制御を行う。また、CPU302は制御用プログラムによる動作に用いるデータもRAM303上に格納して読み書きを行う。HDD305上にはさらに、制御用プログラムによる動作に必要な各種設定や、カメラ入力によって生成した画像データを格納することができ、CPU302によって読み書きされる。CPU302はネットワークI/F306を介してネットワーク104上の他の機器との通信を行う。
画像処理プロセッサ307はRAM303に格納された画像データを読み出して処理し、またRAM303へ書き戻す。なお、画像処理プロセッサ307が実行する画像処理は、回転、変倍、色変換等である。
カメラI/F308はカメラ部202および距離画像センサ部208と接続され、CPU302からの指示に応じてカメラ部202から画像データを、距離画像センサ部208から距離画像データを取得してRAM303へ書き込む。また、CPU302からの制御コマンドをカメラ部202および距離画像センサ部208へ送信し、カメラ部202および距離画像センサ部208の設定を行う。尚、距離画像センサ部208は赤外線によるパターン投射方式の距離画像センサである。赤外線パターン投射部361は対象物に、人の目には不可視である赤外線によって3次元測定パターンを投射する。赤外線カメラ362は対象物に投射した3次元測定パターンを読みとるカメラである。
RGBカメラ363は人の目に見える可視光をRGB信号で撮影するカメラである。RGBカメラ363は、書画代204に載置された帳票の画像を読取る。本実施形態では、距離画像センサ部208として赤外線パターン投射方式を採用しているが、他の方式の距離画像センサを用いることも可能である。例えば、2つのRGBカメラでステレオ立体視を行うステレオ方式や、レーザー光の飛行時間を検出することで距離を測定するTOF(Time of Flight)方式を用いても良い。
コントローラ部201は、ディスプレイコントローラ309、シリアルI/F310、オーディオコントローラ311およびUSBコントローラ312のうち少なくとも1つをさらに含むことができる。
ディスプレイコントローラ309はCPU302の指示に応じてディスプレイへの画像データの表示を制御する。ここでは、ディスプレイコントローラ309は短焦点プロジェクタ207およびLCDタッチパネル330に接続されている。
シリアルI/F310はシリアル信号の入出力を行う。シリアルI/F310はLCDタッチパネル330に接続され、CPU302はLCDタッチパネル330が押下されたときに、シリアルI/F310を介して押下された座標を取得する。
オーディオコントローラ311はスピーカ340に接続され、CPU302の指示に応じて音声データをアナログ音声信号に変換し、スピーカ340を通じて音声を出力する。
USBコントローラ312はCPU302の指示に応じて外付けのUSBデバイスの制御を行う。ここでは、USBコントローラ312はUSBメモリやSDカードなどの外部メモリ350に接続され、外部メモリ350へのデータの読み書きを行う。
<入力支援装置の制御用プログラムの機能構成>
図4は、図1に示した入力支援装置101の制御用プログラムの構成を説明する図である。特に、図4の(a)は、CPU302が実行する入力支援装置101の制御用プログラムの機能構成401を示し、図4(b)は、機能構成401の各モジュールユーザインタフェース部403、メイン制御部402等の関係をシーケンスで示したものである。物体検知部410、入力支援部418、画像読取部416、ジェスチャ認識部409については、図4の(b)に示す手順に従うものとする。なお、詳細な説明は、省略する。
図5は、本実施形態を示す文書入力処理を説明する図である。特に、図5の(a)は、入力すべき文書501で、文字とユーザが記入すべき領域を特定する罫線で構成されている。図5の(b)は、書画台204に載置された文書501の例である。
図6は、本実施形態を示す情報入力装置が管理する文書データベースの一例を示す図である。本例は、文書の入力領域を特定するデータベース例である。
なお、入力支援装置101の制御用プログラムは前述のようにHDD305に格納され、CPU302が起動時にRAM303上に展開して実行する。なお、認識可能な帳票は、複数の記入欄が設定される帳票の特徴点と、それぞれの記入欄にユーザが使用すべき物体の種別とを対応づけて帳票情報としてデータベースに登録されている。
メイン制御部402は制御の中心であり、機能構成401内の他の各モジュールを図4の(b)に示すように制御する。以下、メイン制御部402を除く図4の(a)、(b)の各モジュールについて、図5、図6を交えて説明する。なお、メイン制御部402については、図7で後述する。
画像取得部416は、画像入力処理を行うモジュールであり、カメラ画像取得部407、距離画像取得部408から構成される。カメラ画像取得部407はカメラI/F308を介してカメラ部202が出力する画像データを取得し、RAM303へ格納する。
距離画像取得部408はカメラI/F308を介して距離画像センサ部208が出力する距離画像データを取得し、RAM303へ格納する。距離画像データは、赤外線パターン投射部361からの3次元形状パターンの投射、RGBカメラ363によるRGBカメラ画像、及び、赤外線カメラ362によって投射された3次元形状パターンを撮影した赤外線カメラ画像にもとづいて3次元点群を生成することができる。距離画像データ生成の詳細については、公知の技術(特願2014−095541号公報)であるため、ここでの詳細な説明は割愛する。
認識処理部417は、カメラ画像取得部407、及び、距離画像取得部408が取得する画像データから書画台204上の文書やユーザの手などの物体を検知・認識するモジュールであり、ジェスチャ認識部409、物体検知部410から構成される。
ジェスチャ認識部409は、画像取得部416から書画台204上の画像を継続的に取得し続け、得られた3次元点群、及び、手の肌色領域からの外形検出にもとづいて、書画台204上の手の位置、及び、タッチなどのジェスチャを検知する。ジェスチャ認識部409は、手の位置、及び、ジェスチャを検知すると、メイン制御部402へジェスチャ検知を通知する。尚、ジェスチャ認識の詳細については、公知の技術(特願2014−095541号公報)であるため、これ以上の詳細な説明を割愛する。
物体検知部410は、画像取得部416から書画台204上の画像を継続的に取得し続け、書画台204上に物体が置かれて静止するタイミング及び物体が除去されるタイミングを検知する。物体が置かれて静止するタイミング及び除去されるタイミングは、書画台204の背景画像と連続する所定フレーム数のカメラフレーム画像との差分値にもとづいて検知する。
物体検知部410は所定時間前のフレームと現在のフレームの差分値が所定値1より大きく、かつ直前の所定数のフレーム間で差分値総和が所定値2より小さい画素が全体に対して所定以上の割合に達した場合、そこに物体が置かれたと判定する。以後、そのような画素を全て内包する領域を物体検知領域とする。尚、物体が除去されるタイミングとは、物体が物体検知領域から完全に除去され、当該物体検知領域に物体が何も置かれていない状態になったタイミングのことである。静止された物体が置かれていると判定された場合は、静止した時点でのカメラフレーム画像を保存する。
また、距離画像データにもとづき、物体が所定の厚み以下の文書ではなく、所定の厚み以上を有する立体物であると判定される場合は、カメラフレーム画像に加えて、距離画像を3次元点群に変換して保存する。物体が文書か立体物であるかの判定に用いる厚みの閾値は設定によって変更することができる。また、物体検知部410は、検知された物体が、文書であるか、文書以外の立体物であるかを識別する簡易物体識別情報を同時に生成する。簡易物体識別情報は、距離画像にもとづき、物体の厚みが所定の厚み以下かそうでないかの判定によって、それぞれ文書であるか立体物であるかを識別する情報を含む。ここでは、物体の識別を物体の厚みのみで判定しているが、前述のカメラフレーム画像の差分値が所定値以上ある領域が矩形であるか否かを判定条件に加えてもよい。
物体検知部410は、前述の物体載置の静止タイミング及び除去タイミングを検知すると、簡易物体識別情報ごとに、現在置かれているか否かを表す検知状況と、最後に置かれていたときの物体検知領域座標とを物体検知状況として記録する。物体検知領域座標とは、物体検知領域の左上の座標、および右下の座標である。物体検知状況は、後述するデータ管理部405、又はネットワークを介して接続されたサーバ等に保存され、任意のタイミングで取得できる。
図10は、図4に示した物体検知部41による物体検知状況の例を示す図である。尚、物体検知の方法は上記の方法に限らず、別の方法でもよい。
ユーザインタフェース部403は、メイン制御部402からの要求を受け、メッセージやボタン等のGUI部品を生成する。そして、表示部406へ生成したGUI部品の表示を要求する。表示部406はディスプレイコントローラ309を介して、単焦点プロジェクタ207もしくはLCDタッチパネル330へ要求されたGUI部品の表示を行う。
単焦点プロジェクタ207は書画台204に向けて設置されているため、書画台204上にGUI部品を投射することが可能となっている。また、ユーザインタフェース部403は、ジェスチャ認識部409が認識したタッチ等のジェスチャ操作、あるいはシリアルI/F310を介したLCDタッチパネル330からの入力操作、そしてさらにそれらの座標を受信する。そして、ユーザインタフェース部403は描画中の操作画面の内容と操作座標を対応させて操作内容(押下されたボタン等)を判定する。この操作内容をメイン制御部402へ通知することにより、操作者の操作を受け付ける。
ネットワーク通信部404は、ネットワークI/F306を介して、ネットワーク104上の他の機器とTCP/IPによる通信を行う。
データ管理部405は、機能構成401で示すプログラムの実行において生成した作業データなど様々なデータをHDD305上の所定の領域へ保存し、管理する。例えば、画像取得部416で撮像されたカメラフレーム画像データなどが保存、管理される。
入力支援部418は、ユーザによる文書への入力作業に関わる入力支援処理を実行するモジュールである。入力支援部418は、文書認識部411、入力領域取得部412、文書位置検出部413、物体認識部414、及び、レイアウト生成部415から構成される。入力支援部418は、メイン制御部402を介して、カメラ画像取得部407や距離画像取得部408で取得した画像データ、ジェスチャ認識部409で取得したジェスチャ情報など、前記したモジュールの出力データを取得する。
文書認識部411は、書画台204上の文書を認識する。文書認識部411は、カメラ画像取得部407によって取得された画像の特徴点・特徴量を抽出し、データベース上に予め登録しておいた各文書画像の特徴点・特徴量との類似度を比較する。これにより、書画台204上の文書が、データベース上のどの文書と一致するか、またどの向きに置かれているかを判定することができる。文書認識部411によるカメラ画像の特徴点・特徴量の抽出範囲は、カメラ部202によって撮像される読み取り領域205である。
但し、カメラ画像と背景画像との差分を検出することで、カメラ画像中の文書領域を特定し、文書領域の特徴点・特徴量のみを抽出するようにしてもよい。特徴点検出にはDoG、各特徴点の特徴量抽出はSIFTやSURFと呼ばれる技術が一般的に用いられる。特徴点・特徴量による画像比較については公知の技術であるため、ここでのより詳細な説明は割愛する。
各文書の特徴点・特徴量を関連付けているデータベースは、入力支援装置101のHDD305上にあってもよいし、ネットワーク上のサーバ(不図示)などにあって、ネットワーク104を介して参照するようにしてもよい。また、文書の認識は、前述の特徴点・特徴量による方法ではなく、予め文書に埋め込まれたバーコード(不図示)などを認識する方法でもよく、特徴点・特徴量による方法に限るものではない。
入力領域取得部412は、文書認識部411で認識された文書の情報にもとづいて、ユーザがボールペンや印鑑などの筆記具によって文書に入力すべき領域を取得する。入力すべき領域(以後、入力領域と呼ぶ)とは、図5(a)に示す文書501のような申込書において、ユーザ(顧客)がボールペンなどで実際に手入力を必要とする領域のことである。
本実施形態では、図5の(a)のグレー色の領域が文書501の入力領域となる。入力領域は、図5の(a)の502〜510のように、枠線などで囲まれた矩形領域毎に予め設定することができる。また各入力領域には、その領域に関連する物体を設定することができる。たとえば、押印欄には関連する物体として印鑑を設定できる。図5の(a)の503及び511は押印欄であり、関連する物体として印鑑が設定されている。
また、その他の入力領域には関連する物体としてボールペンが設定されている。入力領域の設定は、入力支援装置101の管理者が、PCの専用アプリケーションなどを用いて行うことができる。ただし、入力領域の設定は、入力支援装置101の専用アプリケーションで行ってもよく、PCに限るものではない。また、入力領域を設定する方法に関しては、一般的な技術を用いて行えるため、ここでの詳細な説明は割愛する。設定された各文書の入力領域は、HDD305上のデータベースで管理される。
本実施形態では、図5の(a)の502〜511の入力領域が、図6のデータベース上の601〜610それぞれ関連付けられる。尚、610は文書IDが601〜610とは異なるため、本実施形態には登場しない別の文書の入力領域を示すことになる。また、データベースはHDD305上ではなくネットワーク上のサーバなどにあって、ネットワーク104を介して参照するようにしてもよい。
ここで、図6について説明する。図6の文書IDは、文書毎に固有に割り当てられるIDであり、本実施形態の文書501には文書ID:1が割り当てられる。ページは、文書中の入力領域が存在するページ番号を示す。入力領域座標は、各文書の文書座標系(Xd、Yd、Zd)における、矩形の対角の頂点座標を示し、これによって入力領域の範囲を矩形の範囲として指定することができる。関連物体列は、入力領域に関連する物体を表す。本実施形態において、入力領域取得部412は、文書501と入力領域を関連付ける図6のデータベースを参照することで、文書501の入力領域を取得することができる。
文書位置検出部413は、カメラ画像取得部407によって取得されたカメラ画像中の文書画像にもとづいて、書画台204上の文書の位置を検出する。例えば、文書の位置は、図5の(b)の直交座標系における文書の左上頂点座標(Xd、Yd、0)として表すことができる。プロジェクタ座標系やカメラ座標系における文書の入力領域座標は、文書の左上頂点座標(Xd、Yd、0)から直交座標系に変換し、更に前述の変換式を用いることで得ることができる。座標の変換方法については前述したため、ここでの詳細な説明を割愛する。なお、本実施形態では簡単のため文書の厚みを0とし、文書座標系におけるZd成分を考慮していない。
しかし、距離画像取得部408によって距離画像データを取得することで、文書の厚みや歪みを考慮して、プロジェクタ座標系及びカメラ座標系への座標変換をすることも可能である。文書の厚みを考慮した変換方法については公知の技術(特願2014−095541号公報)であるため、ここでの詳細な説明は割愛する。
物体認識部414は、置かれた物体の種類を認識する(物体認識)。本実施形態における物体認識とは、入力された画像に対し、そこに写っている物体が一般的な名称のどのクラス(ボールペン、印鑑等)に属するかを判断する一般物体認識である。
一般物体認識を行うためには、事前にどのクラスに属しているかが既知である物体を撮影した画像を学習する事が一般的である。事前に物体を撮影する方法としては、書画台204上に載置された物体の画像データをカメラ画像取得部407、距離画像取得部408で取得する。この作業を物体の置き位置や置き方をそれぞれ変化させ、事前に複数パターン撮影する。そして、それらの画像から特徴を抽出する。
画像の特徴を記述する手法としては、画素値の統計や固有値を記述するものから、局所的な特徴を記述するものまで多種にわたる。本例では、特徴抽出のために局所特徴の一種であるSIFT特徴を用いる。
また、本実施形態では特徴ベクトルの抽出をBag of Keypointsの手法で行う。Bag of Keypointsモデルとは、画像を局所特徴の集合と捉えた手法である。局所特徴をベクトル量子化し、Visual Wordsと呼ばれる特徴ベクトルを生成する。それらをまとめたコードブックの生成を行い、それを記述子として画像全体の特徴ベクトルを生成する。
これにより、画像をVisual Wordsの集合(bag)として表現することができる。コードブックは、SIFT特徴の代表ベクトルを指定されたクラスタ数だけ記述したデータである。各画像に対応するSIFT特徴のそれぞれについて、コードブックから「距離が最も近い」ベクトルを探し、そのベクトルに対して投票することによってヒストグラムを作成する。上記ベクトルの距離を計測する尺度として、本例ではユークリッド距離を用いる。
次に、上記ヒストグラムを学習データとして、識別を行う上での識別器を作成する。本実施形態では、この識別器の作成に関し、SVM(Support Vector Machine)を用いる。
SVMは、ニューロンのモデルとして最も単純な線形しきい素子を用いて、2クラスのパターン識別器を構成する手法である。この2クラス分類機を組み合わせる事により、多クラスの分類も可能になる事が知られている。本実施形態では、ケースに応じてSVMを用いた2クラス分類と多クラス分類を使い分けて機能を実現する。
以上は識別器を作成する方法である。一方で、実際に物体の識別を行うためには、以下のようにして行う。認識対象画像が入力されると識別処理を行なうプログラムの動作が開始される。前記1枚の識別画像に対して前述の特徴抽出及び局所特徴ベクトル抽出を行い、抽出された特徴ベクトルを事前に生成したコードブック中で「距離が最も近い」ベクトルを探し、そのベクトルに対して投票することによってヒストグラムを作成する。このようにして、コードブックに関するヒストグラムを得ることになる。
次に、前記ヒストグラムを正規化する。典型的な例では、各ヒストグラムは要素の合計が1となるように正規化されることによって、識別対象画像を表すbag−of−keypointsベクトルが得られる。
次に、得られたbag−of−keypointsベクトルを識別器に入力し、識別対象画像に対する識別結果を得る。
物体認識部414は以上のようにして入力された画像に含まれる物体の種類を認識する。なお、物体認識手法は上記に限らず他の手法を用いてもよい。
レイアウト生成部415は、入力領域取得部412、文書位置検出部413、及び、物体認識部414による物体情報、文書位置情報、データベースの情報にもとづき、単焦点プロジェクタ207によって文書に投射するレイアウト画像を生成する。レイアウト生成部415によるレイアウト画像は、図5の(a)の文書501の入力領域を、例えば赤色などでハイライト表示するよう生成される。生成されたレイアウト画像は表示部406によって単焦点プロジェクタ207で投射する。これによって、ユーザは対象となる入力領域がどこなのかを一目で判断することができる。
該当する入力領域のハイライト表示位置の算出は、文書位置情報をもとに入力領域の座標をプロジェクタ座標系に変換することで行われる。座標系の変換については、前述しているため、ここでの詳細な説明を割愛する。尚、入力領域の色については、赤色や緑色に限らず黄色や青色などのどのような色を使ってもよい。また、入力領域全体を塗りつぶして表示するのではなく、入力領域を枠線で囲ってハイライト表示するようにしてもよい。また、入力領域を、色を使ってハイライト表示するのではなく、入力領域の周囲に"入力が必要な箇所です"などの文字情報を表示して入力領域を強調するようにしてもよい。あるいは、入力領域を矢印マークなどの記号で指し示して強調表示するようなレイアウト画像を生成してもよい。
<メイン制御部の説明>
図7は、本実施形態を示す情報入力装置の制御方法を示すフローチャートである。本例は、図4に示したメイン制御部402の処理例である。図9は、文書501を書画台204に置いた時の単焦点プロジェクタ207によるハイライト表示の例である。
図9は、本実施形態を示す情報入力装置における文書入力支援処理状態を説明する遷移図である。本例、図7のメイン制御部402及び図8の入力支援部418のフローチャートに沿って、書画台204上の文書501のハイライト表示のイメージを示したものである。
図9の(a)は、書画台204上に何も置かれていない状態を示す。このとき、メッセージ902を表示することで、ユーザに文書の載置を促す。図9の(b)は、ユーザによって、書画台204上に文書501が置かれたときの状態を示す。図9の(c)は、立体物が置かれていない時に入力支援部418によって、文書501に対してハイライト表示をしている状態を示す。
図9(c)の網掛け範囲907は、単焦点プロジェクタ207によるハイライトの投影表示を示している。尚、網掛け範囲907は黄色を用い、単焦点プロジェクタ207で入力領域を塗りつぶすように投射したものである。図9の(d)は、立体物として印鑑が置かれている時に入力支援部418によって、文書501に対してハイライト表示をしている状態を示す。
図9の(e)は、立体物として印鑑を持った手が置かれている時に入力支援部418によって、文書501に対してハイライト表示をしている状態を示す。図9の(f)は、ハイライトすべき入力領域が一つもない状態を示す。以下、図7、図9を用いてメイン制御部402が実行するアプリケーション処理について説明する。
メイン制御部402が処理を開始すると、S701で入力支援装置101の初期化処理を行う。初期化処理では、各ハードモジュールの起動確認、カメラ画像取得部407及び距離画像取得部408の色味調整・距離センサ値の補正、書画台204に何も載置されていない状態での背景画像取得などを行う。
S702では、ユーザインタフェース部403を介して、書画台204に図9の(a)の画面を単焦点プロジェクタ207で投射する。図9の(a)の画面では、書画台204上にスキャン対象物を置くことをユーザに促すメッセージ902を投射する。また、終了アイコン901を単焦点プロジェクタ207で投射する。ユーザが書画台204上の終了アイコン901にタッチすることで、ジェスチャ認識部409は終了アイコン901へのタッチ操作を認識し、メイン制御部402の処理を終了することができる。
S703では物体検知部410による物体検知状況に変更があったか否かを判定する。物体検知状況に変更があった場合はS706へ進み、そうでなければS711へ進む。S706では、ユーザインタフェース部403を介して、書画台204に投射するメッセージを"解析中です。"に更新して単焦点プロジェクタ207で投射する。
S707では、入力支援部418によって入力支援処理を行う。入力支援処理の詳細については、後述する図8のフローチャートで説明するため、ここでの説明を割愛する。S711では、ユーザによって書画台204上の終了アイコン901がタッチ押下されたか否かを判定する。終了アイコン901がタッチ押下された場合は、メイン制御部402を終了し、そうでなければS703へ戻る。
<入力支援部のフローチャートの説明>
図8は、本実施形態を示す情報入力装置の制御方法を説明するフローチャートである。本例は、入力支援部418によるS707の入力支援処理の詳細例である。
以下、図8、図9、図10を用いて入力支援部418が実行する入力支援処理について説明する。
S801では、カメラ画像取得部407によってカメラフレーム画像を取得する。例えば、図9の(b)のときに、以後の処理を行うためのカメラフレーム画像が取得される。
S802では、文書認識部411によって、S801で取得されたカメラフレーム画像にもとづき、書画台204上の文書501に印刷された罫線情報をデータベースに登録された帳票情報と照合することで認識する。文書認識部411の認識処理については前述したため、ここでの説明を割愛する。
S803では、文書認識部411によって、書画台204上の文書501とデータベース上の登録文書の類似度を判定し、文書501が入力支援対象となる文書であるか否かを判定する。文書501が入力支援対象であればS804へ進み、そうでなければS807へ進む。
S804では、立体物検知状況1001を参照することで、現在立体物が置かれているか否かを判定する。立体物が置かれている場合S806へ進み、そうでなければS805へ進む。
S805では、入力領域取得部412によって、文書505の入力領域を全て取得し、ハイライト対象入力領域とする。例えば、図9の(b)の502〜511の領域がハイライト対象入力領域となる。入力領域取得部412の処理については前述したため、ここでの詳細な説明を割愛する。
S806では、物体認識部414に、S801で取得されたカメラフレーム画像のうち、立体物が置かれている物体検知領域904を切り出した画像を入力することで、立体物の種類を認識する。
S807では、S806の立体物認識結果に基づいて、入力領域取得部412によって、文書505のうち立体物の種類が関連物体として設定されている入力領域を全て取得し、ハイライト対象入力領域とする。例えば、立体物認識結果が印鑑だった場合、関連物体として印鑑が設定されている503及び511の領域がハイライト対象入力領域となる。
S808では、S807によって一つ以上のハイライト対象入力領域が得られたかを調べ、一つ以上存在した場合S809に進む。そうでない場合、S811に進む。
S809では、文書位置検出部413によって、S801で取得されたカメラフレーム画像にもとづき、書画台204上の文書位置を検出する。文書位置検出部413の処理については前述したため、ここでの詳細な説明を割愛する。
S810では、レイアウト生成部415によって、S805の文書位置及びS805またはS806で得られたハイライト対象入力領域にもとづいて、ハイライト表示用のレイアウト画像を生成する。S804の分岐後S805へ進んだ場合は、図9の(c)のように全ての入力領域がハイライトされた表示になるハイライト画像が生成される。S804の分岐後、S806へ進み、さらにS808の分岐後S809へ進んだ場合には、図9の(d)のように、立体物が関係する入力領域のみがハイライトされた表示になる画像が生成される。なお図9の(d)は立体物の種類が印鑑だった場合の例である。
なお、立体物は必ずしも単体で置かれてある必要はなく、立体物の種類が識別できればどのような置かれ方がされてもよい。例えば図9の(e)のように、ユーザが手に持った印鑑を持った状態で置かれてもよい。このような状況はユーザがどこに押印したらいいか悩んで手を止めているような状況に発生する。
S812では、S810で生成されたレイアウト画像を、ユーザインタフェース部403を介して、単焦点プロジェクタ207によって書画台204へ投射する。また、同時にUI画面のメッセージを更新表示する。メッセージは、ユーザに文書501への入力を促すため、メッセージ906に更新される。
S811では、ユーザインタフェース部403を介して、書画台204上に置かれた立体物に対応する入力領域が無いことをユーザに伝えるメッセージ908を投射する。図9の(f)はこのような表示の例を示す図であり、押印欄のない申込書910に対して印鑑を置いた場合の状況を示している。
本実施形態によれば、文書501へのユーザによる入力状況に合わせてプロジェクタの投射を行うので、ユーザが入力すべき箇所を適切に把握することができる。
また、文書以外に存在する物体の種類の判別を行い、その判別結果に応じて、物体が関連している入力領域にのみハイライトを行ため、ユーザはよりわかりやすく目的の入力領域を識別することができる。
従って、例えば、帳票が置かれているときユーザが印鑑を置いた場合を想定すると、従来は帳票以外に何が置かれていようと、全ての入力領域がハイライトされていた。
これに対して、本実施形態では、ユーザが印鑑を置いたことを認識して押印欄のみをハイライトするので、ユーザは帳票のどの記入欄に押印すればいいか即座にかつ正確に判断できる。
なお、領収書の貼り付けが必要な文書に対して、ユーザが領収書を置いたとする。本発明ではユーザが領収書を置いたことを認識して、領収書の貼り付け欄のみをハイライトするように制御してもよい。これによって、ユーザはどの欄に領収書を貼り付ければいいか即座にかつ正確に判断できる。
〔第2実施形態〕
第1実施形態では、書画台に任意の場所に置かれた立体物に対して、その立体物の種類に応じたハイライト対象入力領域を特定し、それらの入力領域をハイライト表示する例を説明した。この場合原稿台に置かれたあらゆる立体物を検知することになる。
第2実施形態では、原稿の位置に応じて立体物の検知領域を設定し、その検知領域に内包される立体物だけをハイライト対象入力領域の特定に利用する。これは予期しない物体が写り込んで、ユーザが意図しない結果になるのを避けるためのものである。たとえば、ユーザとは逆側に別の人物がいるように、対面で入力支援装置を利用する場合、文書に対して入力しようとしているユーザ以外の人物の道具や、体の一部が写り込んでしまう可能性がある。第2実施形態の構成によって、これに起因する誤作動を抑制することができる。
第2実施形態において、図8のフローチャートのS804以外は第1実施形態と同じため割愛する。
第2実施形態において、S804では、まず、立体物の位置と、文書の向きを考慮して、立体物が置かれているか否かを判定する。具体的にはまず、立体物検知状況1001を参照することで、物体検知領域の左上のy座標(ycb1)を取得する。次に文書位置検出部413によって得られる文書位置のy座標を取得する。そして、文書の向きから文書位置の右下の座標を特定する(ycd2とする)。そして、ycd2 > ycb1の場合(すなわち物体検知領域の上端が、文書の下端より下にある場合)は、さらに実施形態1のS804の判定を行い、そうでなければS805に進む。なお具体的な位置の条件は上記ではycb2>ycd1としたが、これに限るものではない。例えば、物体検知領域の右下のy座標が、文書の中心より下に存在する場合としてもよい。
以上説明したように、本実施形態によれば、文書に入力を行おうとしているユーザの対面にいる人物により置かれた物体やその人物の体の一部を検出による誤作動を抑制することができる。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステムまたは装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えばASIC)によっても実現可能である。
100 画像処理装置

Claims (6)

  1. 情報入力装置であって、
    複数の記入欄が設定される帳票の特徴点と、それぞれの記入欄にユーザが使用すべき物体の種別とを対応づけて帳票情報を登録する登録手段と、
    特定の画像を投影する投影手段と、
    載置される帳票を読み取る読取手段と、
    ユーザの操作に対応する距離画像を取得する取得手段と、
    読み取られる帳票の画像の解析から抽出される特徴点と、登録された帳票の特徴点とを照合して載置された帳票と、当該帳票に印刷された複数の記入欄を認識する第1の認識手段と、
    前記取得手段が取得する距離画像を解析してユーザが操作する物体と、当該物体の種別とを認識する第2の認識手段と、
    前記第2の認識手段で認識するユーザが操作する物体の種別が変化することに応じて、前記第1の認識手段で認識された前記複数の記入欄のうち、ユーザが使用すべき物体の種別に対応づけられた前記帳票の記入欄に対して、前記特定の画像を投影するように前記投影手段を制御する制御手段と、
    を備えることを特徴とする情報入力装置。
  2. 前記帳票は、平面に載置されることを特徴とする請求項1に記載の情報入力装置。
  3. 前記特定の画像は、ハイライト画像であることを特徴とする請求項1に記載の情報入力装置。
  4. 前記取得手段は、前記帳票が載置される領域に対して設定された領域から、前記距離画像を取得することを特徴とする請求項1に記載の情報入力装置。
  5. 情報入力装置の制御方法であって、
    複数の記入欄が設定される帳票の特徴点と、それぞれの記入欄にユーザが使用すべき物体の種別とを対応づけて帳票情報を登録する登録工程と、
    投影手段で特定の画像を投影する投影工程と、
    読取手段で載置される帳票を読み取る読取工程と、
    取得手段でユーザの操作に対応する距離画像を取得する取得工程と、
    読み取られる帳票の画像の解析から抽出される特徴点と、登録された帳票の特徴点とを照合して載置された帳票と、当該帳票に印刷された複数の記入欄を認識する第1の認識工程と、
    前記取得手段が取得する距離画像を解析してユーザが操作する物体と、当該物体の種別とを認識する第2の認識工程と、
    前記第2の認識工程で認識するユーザが操作する物体の種別が変化することに応じて、前記第1の認識工程で認識された前記複数の記入欄のうち、ユーザが使用すべき物体の種別に対応づけられた前記帳票の記入欄に対して、前記特定の画像を投影するように前記投影手段を制御する制御工程と、
    を備えることを特徴とする情報入力装置の制御方法。
  6. 請求項5に記載の情報入力装置の制御方法をコンピュータに実行させることを特徴とするプログラム。
JP2015155303A 2015-08-05 2015-08-05 情報入力装置、情報入力装置の制御方法及びプログラム Pending JP2017033454A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015155303A JP2017033454A (ja) 2015-08-05 2015-08-05 情報入力装置、情報入力装置の制御方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015155303A JP2017033454A (ja) 2015-08-05 2015-08-05 情報入力装置、情報入力装置の制御方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2017033454A true JP2017033454A (ja) 2017-02-09

Family

ID=57988279

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015155303A Pending JP2017033454A (ja) 2015-08-05 2015-08-05 情報入力装置、情報入力装置の制御方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2017033454A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2019107484A1 (ja) * 2017-12-01 2020-11-19 日本電気株式会社 情報処理装置、表示位置調整方法、およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2019107484A1 (ja) * 2017-12-01 2020-11-19 日本電気株式会社 情報処理装置、表示位置調整方法、およびプログラム
US11610334B2 (en) 2017-12-01 2023-03-21 Nec Corporation Image recognition apparatus using an object image data, image recognition method using an object image data, and program

Similar Documents

Publication Publication Date Title
JP6089722B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
CN110869944B (zh) 使用移动设备读取测试卡
TWI394093B (zh) 一種影像合成方法
CN110619252B (zh) 识别图片中表单数据的方法、装置、设备及存储介质
US10248652B1 (en) Visual writing aid tool for a mobile writing device
US10254893B2 (en) Operating apparatus, control method therefor, and storage medium storing program
JP6381361B2 (ja) データ処理装置、データ処理システム、データ処理装置の制御方法、並びにプログラム
JP2016103137A (ja) ユーザインタフェース装置、画像処理装置及び制御用プログラム
JP2016071746A (ja) 情報投影方法、情報投影プログラム、及び情報処理装置
JP2018067180A (ja) 作業支援装置および作業支援プログラム
US20210042516A1 (en) Method and system for extracting information from document images
EP3173899A1 (en) Display device and method of notifying the position of an authentification device in a display area
JP2018112894A (ja) システムおよび制御方法
JP2017126225A (ja) 画像処理装置、方法およびプログラム
US20190114477A1 (en) Terminal apparatus, information processing system, and method of processing information
JP6915611B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2017033454A (ja) 情報入力装置、情報入力装置の制御方法及びプログラム
JP2017199288A (ja) 画像処理装置、画像処理方法及びプログラム
CN205563854U (zh) 基于人脸检测与文字识别的自助服务一体机
CN108596127A (zh) 一种指纹识别方法、身份验证方法及装置和身份核验机
JP2017073039A (ja) 物体識別装置、物体識別方法及びプログラム
JP7398945B2 (ja) 拡張現実の文書編集方法、プログラム及びシステム
JP2018181243A (ja) 情報処理装置、情報処理装置の制御方法及びプログラム
US10270929B2 (en) Image processing apparatus, control method, and recording medium
JP2017228092A (ja) 審査業務支援装置および審査業務支援方法

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20180306