JP6169462B2

JP6169462B2 - 情報処理装置及び情報処理方法

Info

Publication number: JP6169462B2
Application number: JP2013204531A
Authority: JP
Inventors: 美木子中西; 堀越　力; 力堀越
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2013-09-30
Filing date: 2013-09-30
Publication date: 2017-07-26
Anticipated expiration: 2033-09-30
Also published as: JP2015069512A

Description

本発明は、ユーザによる入力操作に応じて処理を行う情報処理装置及び情報処理方法に関する。

近年、ＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ：拡張現実）技術を用いたサービスが開発・提供されている。ＡＲ技術に関連した技術として、例えば、特許文献１には、カメラにより撮像された画像から特定の対象物の特徴を認識し、これに基づいて対象物を追跡すると共に、対象物に対して関連する画像を重畳して表示する方法が示されている。

特表２００６−５０７７２２号公報

ところで、従来のノート型ＰＣや携帯端末に代わり、例えば、より軽量なメガネ型端末等のウェアラブル端末を用いて、現実空間の上に仮想空間の情報を重畳して表示する方法等が知られている。仮想空間の情報に対して操作を行うようにした場合、仮想空間が空中に浮かんでいて実際には存在しないため、仮想空間の位置している奥行きがわからない、操作をしても触覚フィードバックがない、といった問題がある。

これに対して、例えば、端末に対する入力動作をユーザが行う際に、ユーザの身の回りを撮像した現実空間画像に含まれる特定の物体の表面の画像に対して仮想空間の情報を重畳して表示すると共に、重畳して仮想空間の情報が表示された特定の物体の表面をタッチパネルのように使用することで、入力操作時のユーザ自身の操作感覚を向上させる方法が考えられる。

しかしながら、特許文献１記載の方法では、対象物の特徴を予め取得した上で、これに基づいて対象物の追跡を行うことは可能であるが、不特定多数の物体が撮像された画像から特定の対象物を取り出すことは困難である。したがって、特許文献１記載の方法を用いたとしても、依然としてユーザから端末に対して何らかの処理を指示する場合に、ユーザの身の回りにある物体を気軽に利用することは困難であり、ユーザ自身の操作感覚を向上させることは困難である。

本発明は上記を鑑みてなされたものであり、ユーザの身の回りにある物体を利用して、ユーザからの入力操作を行うことが可能な情報処理装置及び情報処理方法を提供することを目的とする。

上記目的を達成するため、本発明に係る情報処理装置は、現実空間画像を取得する画像取得手段と、ユーザによる入力操作を認識する入力操作認識手段と、前記入力操作認識手段が前記ユーザによる入力操作を認識することを契機として、前記画像取得手段により取得された前記現実空間画像において、予め保持された第１の領域特定情報に基づいて、コンテンツに係るユーザの入力操作を行う入力領域を推定する入力領域推定手段と、前記入力領域推定手段により推定された前記入力領域に対応する領域に前記コンテンツを描画する描画手段と、前記描画手段により描画された前記コンテンツを表示する表示手段と、を備えることを特徴とする。

また、本発明に係る情報処理方法は、画像取得手段により、現実空間画像を取得する画像取得ステップと、入力操作認識手段により、ユーザによる入力操作を認識する入力操作認識ステップと、前記入力操作認識ステップにおいて前記ユーザによる入力操作を認識することを契機として、入力領域推定手段により、前記画像取得手段により取得された前記現実空間画像において、予め保持された第１の領域特定情報に基づいて、コンテンツに係るユーザの入力操作を行う入力領域を推定する入力領域推定ステップと、描画手段により、前記入力領域推定ステップにおいて推定された前記入力領域に対応する領域に前記コンテンツを描画する描画ステップと、表示手段により、前記描画ステップにおいて描画された前記コンテンツを表示する表示ステップと、を有することを特徴とする。

上記の情報処理装置及び情報処理方法によれば、入力領域推定手段において、画像取得手段により取得された現実空間画像において、予め保持された第１の領域特定情報に基づいて、コンテンツに係るユーザの入力操作を行う入力領域を推定し、推定された入力領域に対して描画手段によりコンテンツが描画されて、表示される。この結果、例えば、第１の領域特定情報としてユーザの身の回りにある物体の中から入力操作に利用したい物体を特定する情報を設定して、現実空間画像においてその物体を撮像した領域を入力領域として推定することで、当該入力領域がユーザによる入力操作を行う領域として判断されることから、ユーザが身の回りにある物体を用いて入力操作を行うことが可能となる。

ここで、上記作用を効果的に奏する構成として第１の領域特定情報は、前記入力領域の形状を特定する情報とすることができる。ユーザが入力操作に用いたい物体の形状が特定されている場合には、これを特定する情報を第１の領域特定情報とすることで、現実空間画像の中から入力領域を推定する操作をより簡便且つ確実に行うことができる。

また、前記入力領域推定手段は、前記入力操作認識手段により認識された前記ユーザの入力操作に基づいて、前記画像取得手段により取得された前記現実空間画像から第２の領域特定情報を取得し、前記第１の領域特定情報と、前記第２の領域特定情報とに基づいて、前記現実空間画像における前記入力領域を推定する態様とすることができる。このように、第２の領域特定情報を利用することで、入力領域の推定をより確実に行うことができる。

ここで、前記第２の領域特定情報には、前記入力領域を特定する色情報が含まれることが好ましい。入力領域を特定する色情報を第２の領域特定情報として取得することで、入力領域の推定をより確実に行うことができる。

前記第１の領域特定情報は、前記入力領域の形状を特定する情報であって、前記入力領域推定手段は、前記第２の領域特定情報により特定される領域を多角形近似し、近似された多角形の頂点の一部及び該多角形を構成する複数の辺を伸長した直線同士の交点から形成された領域が前記第１の領域特定情報で特定される形状となる場合に、当該領域を入力領域と推定する態様とすることができる。このように、第２の領域特定情報により特定される領域を多角形近似した後に、近似された多角形に基づいて形成される領域が第１の領域特定情報で特定される形状となる場合に、入力領域と推定する構成を有することで、例えば、ユーザの手が重なる等によって第１の領域特定情報と合致しない形状をなす画像が取得された場合であっても、入力領域を推定することが可能となる。

また、前記入力操作認識手段は、前記入力領域のうち、前記第２の領域特定情報により特定される領域以外の領域の色情報に基づいて前記入力領域内で移動する物体を特定し、該物体の移動を、前記ユーザによる入力操作として認識する構成とすることが好ましい。このように第２の領域特定情報により特定される領域以外の領域の色情報に基づいて、ユーザによる入力操作を行う物体を特定する構成とすることで、ユーザによる入力操作をより確実に検出することができる。

また、前記入力操作認識手段は、画像取得手段により取得された連続する複数の現実空間画像において、前記入力領域推定手段により推定された前記入力領域内で移動する物体のうち最も移動量が大きい物体の端部の移動を、前記ユーザによる入力操作として認識する態様とすることができる。入力領域内で移動する物体が複数ある場合には、ユーザによる入力操作を行う物体を特定し、これを入力操作として認識することで、ユーザによる入力操作をより確実に検出することができる。

また、前記描画手段は、前記入力領域推定手段により推定された前記入力領域の面積に応じて描画するコンテンツを変更する態様とすることができる。これにより、ユーザの利便性を向上することができる。

本発明によれば、ユーザの身の回りにある物体を利用して、ユーザからの入力操作を行うことが可能な情報処理装置及び情報処理方法が提供される。

本実施形態の情報処理装置１００の外観図である。本実施形態に係る情報処理装置１００の機能を示すブロック図である。情報処理装置１００のハードウェア構成図である。情報処理装置１００の処理を示すフローチャートである。情報処理装置１００の入力データ解析部１０２における解析方法を説明する図である。情報処理装置１００における領域特定情報の取得について説明する図である。情報処理装置１００における入力領域の推定について説明する図である。情報処理装置１００における入力領域の推定について説明する図である。

以下、添付図面を参照して、本発明を実施するための形態を詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。

図１は、本実施形態の情報処理装置１００の外観図である。図１に示される通り、情報処理装置１００は、画像取得部１０３たるカメラが取り付けられたメガネ型端末１１０、指輪型端末１２０、及び制御端末１３０が有線接続されている。なお、有線接続の代わりに、ブルートゥース／Ｂｌｕｅｔｏｏｔｈ（登録商標）等の近距離無線通信により接続されてもよい。情報処理装置１００のユーザは、メガネ型端末１１０及び指輪型端末１２０を装着して使用する。メガネ型端末１１０は、例えば、ビデオシースルー式ＨＭＤ（ヘッドマウントディスプレイ）や、光学シースルー式ＨＭＤを用いることができるが、光学シースルー式ＨＭＤを用いることが好ましい。制御端末１３０は、例えば、情報処理装置１００のユーザが携帯する形状とすることができる。また、制御端末１３０を例えば無線通信網内のサーバとして実現し、無線通信網を利用して通信を行う構成としてもよい。

本実施形態に係る情報処理装置１００は、身の回りにある物体を利用してユーザが入力操作を行うことを可能とした装置である。具体的には、ユーザの身の回りにある例えばノートやファイル等の四角形の物体をタッチパネルに見立てて、カメラにより撮像された画像のうち、疑似タッチパネルとなる物体を撮像した領域に対して、情報処理装置１００から所望のコンテンツを重畳して表示をすることで、ユーザは疑似タッチパネルとなる物体を利用して当該コンテンツに対する入力操作を行うことを可能とする装置である。また、ユーザによる入力操作とは、情報処理装置１００による特定の処理を開始又は終了を指示する操作も含まれ、ユーザが身の回りにある物体を利用して入力操作を行うことで、情報処理装置１００は、自装置における特定の処理（例えば、特定のプログラムの起動）を開始又は終了する構成とすることもできる。

情報処理装置１００が重畳して表示をするコンテンツは特に限定されないが、疑似タッチパネルとなる物体を撮像した領域には、例えば次のコンテンツに進むか又は終了するかを選択する選択肢等ユーザが何らかの入力を行うことを必要とするコンテンツが表示される。

なお、疑似タッチパネルとなる物体形状は特に限定されないが、以下の実施形態では、疑似タッチパネルとなる物体が四角形状である場合を中心に説明する。

次に、この情報処理装置１００の機能構成を示す。図２は、本実施形態の情報処理装置１００の機能を示すブロック図である。図２に示される通り、入力部１０１（入力操作認識手段）、入力データ解析部１０２（入力操作認識手段）、画像取得部１０３（画像取得手段）、入力領域認識部１０５（入力領域推定手段）及び手領域認識部１０６（入力操作認識手段）を含んで構成される画像認識部１０４、コンテンツ蓄積部１０７、描画部１０８（描画手段）、表示部１０９（表示手段）を含んで構成されている。このうち、入力部１０１は指輪型端末１２０により実現され、画像取得部１０３及び表示部１０９はメガネ型端末１１０により実現される。本実施形態においては、他の機能部は制御端末１３０により実現されるが、上記の機能構成には限定されず、種々の変更を行うことができる。

図３は、情報処理装置１００のハードウェア構成図である。図２に示される情報処理装置１００は、物理的には、図３に示すように、１または複数のＣＰＵ１１、主記憶装置であるＲＡＭ１２及びＲＯＭ１３、入力デバイスであるキーボード及びマウス等の入力装置１４、ディスプレイ等の出力装置１５、ネットワークカード等のデータ送受信デバイスである通信モジュール１６、半導体メモリ等の補助記憶装置１７などを含むコンピュータシステムとして構成されている。図２における各機能は、図３に示すＣＰＵ１１、ＲＡＭ１２等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１１の制御のもとで入力装置１４、出力装置１５、通信モジュール１６を動作させるとともに、ＲＡＭ１２や補助記憶装置１７におけるデータの読み出し及び書き込みを行うことで実現される。

次に、図２に戻り、情報処理装置１００を構成する各機能ブロックについて説明する。

入力部１０１は、ユーザの動作を検知する機能を有する。ユーザの動作とは、例えば、身の回りの何らかの物体の表面をユーザが指で叩く（タップする）又はクリックする動作のことを言う。また、何らかの物体の表面を指でスライドする又はフリックする動作であってもよい。入力部１０１は、例えば加速度センサ、マイク、距離センサ、又はカメラ等により実現され、図１に示す指輪型端末１２０に取り付けられる。そして、指輪型端末１２０を取り付けた指で上記の動作を行うことで、入力部１０１はその動作を検知し、その情報を入力データ解析部１０２へ送る。

入力データ解析部１０２は、入力部１０１から送られたユーザの動作に係る情報から、ユーザが入力操作を行ったか否かを判断すると共に、具体的なユーザの動作に基づいて、入力操作の種類を判別する機能を備える。すなわち、入力部１０１及び入力データ解析部１０２によって、ユーザによる入力操作が認識される。入力データ解析部１０２によって認識されたユーザによる入力操作に係る情報は、後述の手領域認識部１０６により認識される指の位置に係る情報と組み合わせて処理される。

画像取得部１０３は、ユーザの周囲の画像である現実空間画像を取得する機能を有する。画像取得部１０３は、例えばカメラ等により実現され、画像取得部１０３により取得された現実空間画像は、画像認識部１０４へ送られる。

画像認識部１０４は、画像取得部１０３により取得された現実空間画像について種々の処理を施すことで、情報処理装置１００から提供するコンテンツに対してユーザの入力操作を行う入力領域を推定する機能を有する。また、ユーザの入力領域内で移動する指の位置を認識する機能を有する。画像認識部１０４は、入力領域認識部１０５と、手領域認識部１０６とを含んで構成される。

入力領域認識部１０５においては、入力領域を推定する機能を有する。入力領域の推定は、現実空間画像に含まれる種々の物体を撮像した領域について、情報処理装置１００において予め保持された第１の領域特定情報と、ユーザの入力操作によって取得される第２の領域特定情報とに基づいて入力領域か否かを判断することにより行われる。第１の領域特定情報とは、例えば、入力領域の形状が挙げられる。四角形状の物体を入力領域として認識することを予め決めている場合には、第１の領域特定情報とは「四角形状であること」となる。そして、現実空間画像によって撮像された種々の物体のうち、四角形状の物体を撮像したと思われる領域について、入力領域と推定される。また、第２の領域特定情報とは、ユーザの入力操作に基づいて画像取得部１０３により取得された現実空間画像から取り出される情報であり、例えば、入力領域の色情報が挙げられる。入力領域認識部１０５においては、これらの領域特定情報を用いて入力領域の推定を行う。具体的な処理については後述する。

手領域認識部１０６は、現実空間画像を参照し、入力領域認識部１０５において推定された入力領域内で移動する物体を手領域として認識する機能を有する。入力領域内で移動する物体とは、例えば、入力領域を構成する四角形状の物体（疑似タッチパネル）を支持する手、四角形状の物体の表面を移動することで入力操作を行うユーザの手、等が挙げられる。手領域置認識部１０６では、このように入力領域内で移動する物体を撮像した領域を手領域として認識した上で、ユーザの入力操作に該当するか否かを判断する機能を備える。

入力領域認識部１０５による入力領域の推定結果、及び、手領域認識部１０６による手領域の認識結果は、描画部１０８へ送られる。

コンテンツ蓄積部１０７は、ユーザに対して表示するコンテンツを格納する機能を有する。コンテンツ蓄積部１０７は、描画部１０８からの指示に応じて、ユーザに対して表示するコンテンツを描画部１０８に対して送信する。

描画部１０８は、画像認識部１０４から送られる入力領域の推定結果及び手領域の認識結果を示す情報に基づいて、コンテンツ蓄積部１０７からユーザに対して表示するコンテンツを取得すると共に、入力領域に対応する領域にコンテンツ蓄積部１０７から取得したコンテンツを描画する機能を有する。描画部１０８により描画されたコンテンツは、表示部１０９へ送られる。

表示部１０９は、描画部１０８において描画されたコンテンツ、すなわち入力領域に対応したコンテンツを表示する機能を有する。表示部１０９は、メガネ型端末１１０におけるディスプレイや、プロジェクタ等が挙げられる。メガネ型端末１１０が光学シースルー式ＨＭＤの場合は、画像取得部１０３により撮像された現実空間画像において入力領域と推定された領域に対して、描画部１０８において描画されたコンテンツを表示させることで、メガネ型端末１１０に対して入射する外部からの光により描かれるユーザの周囲の状況を示す情報（現実空間を示す情報）と、表示部１０９に表示されたコンテンツとが重畳された結果、ユーザに重畳画像として認識される。また、メガネ型端末１１０がビデオシースルー式ＨＭＤである場合には、描画部１０８において描画されたコンテンツを画像取得部１０３により撮像された現実空間画像に対して重畳して表示部１０９に表示することで、ユーザは、表示部１０９に表示された重畳画像を認識する。

上記の構成を有する情報処理装置１００による情報処理方法について、図４のフローチャートを参照しながらさらに詳細に説明する。図４は、情報処理装置１００による情報処理方法を説明するフローチャートである。また、図５〜８は、情報処理装置１００における情報処理について、説明する図である。なお、以下の説明では、情報処理装置１００において予め保持される第１の領域特定情報が「四角形状であること」であることを前提として説明する。

まず、メガネ型端末１１０及び指輪型端末１２０を含んで構成される情報処理装置１００をユーザが装着した後に、ユーザが指輪型端末１２０を装着した指で例えば身の回りの物体を利用して入力操作となる何らかの動作を行う。これに対して、入力部１０１がユーザの動作を検知すると、制御端末１３０の入力データ解析部１０２において、ユーザの動作が入力操作であるか否かを判断することで、ユーザの入力操作を認識する（Ｓ０１：入力操作認識ステップ）。そして、入力データ解析部１０２において、ユーザの入力操作を認識した場合には、これを契機として、情報処理装置１００における画像認識に係るシステムを起動させ、これにより画像取得部１０３はユーザの周囲の画像（現実空間画像）の取得を開始する（Ｓ０２：画像取得ステップ）。

ここで、入力部１０１がマイクであって、ユーザの入力操作をダブルクリックとした場合に、入力部１０１により取得されるデータの一例を図５に示す。図５に示すデータは、横軸を時間（秒）とし、マイクにより受信した音の振幅を縦軸に示す。ユーザによる入力操作が身の回りの物体のダブルクリックである場合、物体を指でクリックした（叩いた）場合にはマイクは何らかの音を受信するはずである。そこで、例えば予め閾値Ｔ０を設定しておき、マイクは、閾値Ｔ０を超える振幅の音を所定期間内に連続して受信した場合（例えばＴ１に示すようなデータが得られた場合）には、ユーザによる入力操作が行われたと判断する。なお、ユーザによる入力操作が複数種類ある場合には、入力操作の種類に応じて個別に認識するための基準（閾値等）を設定しておくことが好ましい。

なお、システム起動（Ｓ０２）のためにユーザが入力操作を行う（Ｓ０１）際には、後の段階において疑似タッチパネルとして利用したい物体が画像認識部１０４においてより確実に認識されるように、疑似タッチパネルとして利用したい物体を画像取得部１０３の前に配置した上で、入力操作を行うことが好ましい。これにより、システム起動（Ｓ０２）後に画像取得部１０３により取得される画像には、疑似タッチパネルとして利用物体が撮像されるため、より高い精度で入力領域を推定することができる。

図４に戻り、ユーザによる入力操作を情報処理装置１００側で認識すること契機として、情報処理装置１００における画像認識に係るシステムが起動されると、画像認識部１０４の入力領域認識部１０５により、入力領域の推定に用いる第２の領域特定情報を取得するための入力領域指標の表示が指示され、表示部１０９は、入力領域認識部１０５からの指示に基づいて、入力領域指標をユーザに対して表示する（Ｓ０２）。入力領域指標の例を図６に示す。図６（Ａ）はすなわち画像取得部１０３により取得される画像の例を示していて、図６（Ｂ）は、画像取得部１０３により取得される画像に対して表示部１０９によって表示される入力領域指標Ｐを表示させた例である。図６（Ａ）及び図６（Ｂ）では、それぞれ画像取得部１０３により取得される画像Ｓを示している。ここでは、疑似タッチパネルとして使用したい物体が、表面が同一色のファイルＦであり、ファイルＦが画像取得部１０３により撮像される画像の中央に配置されるようにした状態で、システムを起動（Ｓ０２）させた場合の例を示している。入力領域指標Ｐとは、図６（Ｂ）の画像Ｓの中央に示される四角形状の枠のことをいう。図６（Ｂ）の例では、四角形状の枠である入力領域指標ＰはファイルＦと重なって表示されているが、入力領域指標ＰがファイルＦとは重なっていない場合には、ファイルＦと入力領域指標Ｐとが重なるように画像取得部１０３を移動させる（メガネ型端末１１０の場合には、ユーザの視野を変更させる）。

その後、ユーザが再び入力操作を行うことで、入力データ解析部１０２においてユーザの入力操作を認識すると（Ｓ０３）、これを契機として、入力領域認識部１０５は、画像取得部１０３により取得されている画像から、入力領域指標Ｐにより囲われた領域の色情報を取得する（Ｓ０４）。これにより、入力領域認識部１０５は、入力領域指標Ｐに対して重なって表示されるファイルＦの色情報を取得する。これにより、ファイルＦの色情報が第２の領域特定情報として入力領域認識部１０５により取得される。

次に、これまでの処理によって得られた情報に基づいて入力領域を推定する（Ｓ０５：入力領域推定ステップ）。ここで、入力領域認識部１０５は、第１の領域特定情報（入力領域が四角形状であること）と、第２の領域特定情報（ファイルＦの色情報）とに基づいて、画像取得部１０３により取得された画像内の入力領域を推定する。

このとき、疑似タッチパネルとして利用したい物体の形状が四角形状であり、その物体の色が入力領域指標Ｐにより囲われた領域の色情報と一致する、と入力領域認識部１０５により認識された場合には、当該物体を撮像した領域が入力領域であると推定される。しかしながら、実際には、例えば図７の画像Ｓとして示すように、ユーザの手Ｈ１，Ｈ２が入力領域として認識したいファイルＦと重なっていることが多く、画像取得部１０３により取得された画像Ｓでは、目的の物体を撮像した領域の中から第１の領域特定情報及び第２の領域特定情報を満たす領域を特定し、これを入力領域と判断する方法では、入力領域とを区呈することが困難なことが多い。

そこで、入力領域認識部１０５においては、以下の処理を行うことで、入力領域の推定を行う。まず、画像Ｓから、入力領域指標Ｐにより囲われた領域の色情報と同じ色の領域を特定する。そしてその領域が四角形状の領域の一部を何らかの物体で覆った形状を成しているかを判断することで、入力領域に相当するかを判断する。例えば、図７で示すようにファイルＦをユーザの手により支持している場合、四角形状の物体の一部は手Ｈ１，Ｈ２により覆われる。しかし、ファイルＦの上辺（図７の上部側の辺）は、画像Ｓの中に撮像されている。このように四角形状の物体の一部がユーザの手の画像と重なっている場合であっても上辺が支持されていることは少ないと思われる。そこで、四角形状の物体を認識するために（１）四角形状の外形全体が画像Ｓに撮像されている、（２）外形のうち、上辺は隠れていない（画像Ｓにおいて四角形状の上辺は認識することができる）、という２つの前提を設け、これらに基づいて、四角形状をなすと推定される物体を撮像した領域を検出する。

四角形状をなすと推定される物体を撮像した領域を検出する方法について、図８を参照しながら説明する。まず画像Ｓにおいて、下方が隠れている四角形を認識するために、取得した色情報と同色の領域を多角形近似する。そこで、多角形を構成する頂点のうち，画面左上に近い点をＰ０とし，反時計回りにＰ０から順に番号をふっていく（図８でＰ０〜Ｐ５が割り振られている)。次に、Ｐ０〜Ｐ５で示される多角形に外接する矩形を求め、この外接矩形の底辺（図７では、Ｐ２−Ｐ３を含む辺）とＰ０−Ｐ１との交点（ＰＣ０）と、外接矩形の底辺とＰ５−Ｐ４との交点（ＰＣ１）と、算出する。これにより、Ｐ０−ＰＣ１−ＰＣ２−Ｐ５が、ファイルＦの外形であり、入力領域であると推定することができる。このように、入力領域を推定することで、ユーザの手Ｈ１，Ｈ２が重なっていてもファイルＦの外形、すなわち、入力領域を推定することができる。

なお、入力領域認識部１０５における入力領域の推定と並行して、手領域認識部１０６では手領域の認識が行われる。これは、入力領域として推定された領域に含まれる入力領域とは異なる色を呈している領域を手領域として判断するものであり、例えば図８では、Ｐ０−ＰＣ１−ＰＣ２−Ｐ５により囲われる領域のうち、入力領域認識部１０５で取得した色情報と異なる色情報を有する領域が手領域として認識される。さらに、手領域認識部１０６では、手領域として認識された領域の色情報を取得し、取得した手領域の色情報に基づき、画像取得部１０３により取得される画像に基づいて時間経過に対する手領域の移動を認識することで、ユーザの手の移動を確認することができる。ユーザによる入力操作は、入力領域内で行われるため、この手領域の移動を認識することで、ユーザの入力操作、すなわちユーザの指示内容を情報処理装置１００において認識することができる。

このようにして、入力領域が推定されると、当該入力領域を示す情報が描画部１０８に送られ、描画部１０８において、コンテンツ蓄積部１０７から取得されたコンテンツの描画に係る処理が行われる（Ｓ０６：描画ステップ）。このときに、入力領域の大きさや形状に応じて、コンテンツの形状を変化させる処理等が行われると共に、表示部１０９において、画像取得部１０３により取得された画像に対してコンテンツを重畳して表示する構成とされている場合には、重畳に係る処理も行われる。

描画部１０８では、疑似タッチパネルとして用いられる物体（ファイルＦ）の大きさに合わせて重畳するコンテンツを変更することもできる。この物体Ｆの大きさは、画像Ｓ内での物体を撮像した領域の大きさ（面積）で推定する。描画部１０８では、コンテンツの表示の大きさを変えるだけではなく、画面が大きいときには複数アイコンを表示し、操作はポインティングおよびクリック操作とし、画面が小さい時にはアイコンは１つだけ表示し、フリックとクリックだけで操作ができるようにするなど、四角形の物の大きさに合わせて適した表示形式に変更することができる。これにより、操作性を向上することができる。

メガネ型端末１１０として光学シースルー式ＨＭＤを用いる場合、視野角が比較的狭いと考えられる。そのため、現実空間画像に対して重畳する映像（コンテンツ）を表示する領域は、四角形の物体（画像Ｓ中の四角形の物体Ｆの領域）とＨＭＤにおける表示領域とが重なる部分となる。ユーザが光学シースルー式ＨＭＤを介して見る領域と、画像取得部１０３により取得される画像の領域（すなわち、カメラの視野）と、が一致するように利用前に調整しておくことが望ましい。

そして、描画部１０８により描画されたコンテンツは、表示部１０９に対して送られ、ユーザの動作による入力操作の認識を契機として（Ｓ０７）、表示部１０９に表示される（Ｓ０８：表示ステップ）。入力領域に対応して表示されるコンテンツは、ユーザの入力操作に応じて適宜変更される、すなわち、ユーザの入力操作の認識（Ｓ０７）に対して表示部１０９への表示（Ｓ０８）は繰り返され、また、必要に応じて描画・重畳の処理（Ｓ０６）についても繰り返し行われる。

上述のように、入力領域に対応する疑似タッチパネルでのユーザの入力操作は、なお、図８に示す画像の場合では、左右の両方の手Ｈ１，Ｈ２が認識領域内にある。したがって、ユーザの入力操作を行う手（図８では指輪型端末を装着した手Ｈ１）とファイルＦを持っている手（図８ではＨ２）とを区別できない可能性がある。そこで、それを回避するために、ファイルを持つ手Ｈ２はあまり動かず、入力操作を行なっている側の手Ｈ１の方が動作が大きくなると予想されるため、これに基づいて、検出位置の変動が大きい側の手（ここではＨ１）を入力操作している側の手領域と判断する。また、ユーザが入力操作（コンテンツの該当箇所を指すポインティング操作）を行う場合には、図８に示すように人差し指が一本だけ突出していて、その端部は一番移動量が大きいと考えられるので、手領域として認識した領域のうち最も移動量が大きい端部がポインティングを行っている位置と判断する。また、図８に示すように人差し指を立てていることが明らかな場合には、手領域の上端がポインティングを行っている位置として、ユーザの入力操作を認識する構成としてもよい。このように画像取得部１０３により取得された画像に基づいて、手領域の移動をトレースすることで、例えば、左右フリックおよび上下のスクロールを認識することが可能となる。

また、疑似タッチパネルとなるファイルＦを用いて入力操作を行なうためには、ユーザの指（ポインティングを行う部分）の位置の認識に加え，「ボタンを押した」など入力操作を行なったタイミングも検出する必要がある。そこで、入力データ解析部１０２では、ユーザが持っている疑似タッチパネルとなる物体（ファイルＦ）を叩いたタイミングを、入力を行ったタイミングとして認識する。ユーザがファイルＦを叩いたタイミングを画像取得部１０３により取得される画像のみから認識するのは困難であるから、入力部１０１及び入力データ解析部１０２により取得されたユーザの入力操作に係る情報に基づいて、ユーザのクリックのタイミングを認識することが好ましい。

以上のように、本実施形態に係る情報処理装置１００及び情報処理方法によれば、入力領域認識部１０５では、画像取得部１０３により取得された現実空間画像において、予め保持された第１の領域特定情報に基づいて、コンテンツに係るユーザの入力操作を行う入力領域を推定し、推定された入力領域に対して描画手段によりコンテンツが描画されて、表示される。この結果、例えば、第１の領域特定情報としてユーザの身の回りにある物体の中から入力操作に利用したい物体を特定する情報を設定して、現実空間画像においてその物体を撮像した領域を入力領域として推定することで、当該入力領域がユーザによる入力操作を行う領域として判断されることから、ユーザが身の回りにある物体を用いて入力操作を行うことが可能となる。

また、上記実施形態のように、ユーザが入力操作に用いたい物体の形状が特定されている場合には、これを特定する情報を第１の領域特定情報とすることで、現実空間画像の中から入力領域を推定する操作をより簡便且つ確実に行うことができる。

さらに、上記実施形態のように、入力領域認識部１０５は、第１の領域特定情報により特定される入力領域の形状を特定する情報と現実空間画像に含まれる特定の物体を撮像した領域の形状とに基づいて、前入力領域を推定する構成とすることができる。この場合、現実空間画像では、第１の領域特定情報により特定される入力領域の形状と一致する画像が得られない場合があるので、両者を比較して入力領域を推定する構成を採用することが好ましい。

また、入力領域認識部１０５は、入力データ解析部１０２により認識されたユーザの入力操作に基づいて、画像取得部１０３により取得された現実空間画像から第２の領域特定情報を取得し、第１の領域特定情報と、第２の領域特定情報とに基づいて、現実空間画像における入力領域を推定する態様とすることで、入力領域の推定をより確実に行うことができる。そして、第２の領域特定情報として、入力領域を特定する色情報を取得することで、疑似タッチパネルとして用いたい物体（例えばファイルＦ）の情報を確実に取得することができるため、入力領域の推定をより正確に行うことができる。なお、ファイルＦが例えば何色かの模様を有する物体である場合には、異なる色の領域は手領域認識部１０６により手領域として認識される可能性がある。

以上、本発明の好適な実施形態について説明してきたが、本発明は必ずしも上述した実施形態に限定されるものではなく、その要旨を逸脱しない範囲で様々な変更が可能である。例えば、入力領域の形状は特に限定されず、例えば、四角形状ではなく、円形状とすることも考えらえる。この場合には、第１の領域特定情報を変更すると共に、入力領域の推定のためのロジックを適宜変更すればよい。

１００…情報処理装置、１０１…入力部、１０２…入力データ解析部、１０３…画像取得部、１０４…画像認識部、１０７…コンテンツ蓄積部、１０８…描画部、１０９…表示部。

Claims

現実空間画像を取得する画像取得手段と、
ユーザによる入力操作を認識する入力操作認識手段と、
前記入力操作認識手段が前記ユーザによる入力操作を認識することを契機として、前記画像取得手段により取得された前記現実空間画像において、予め保持された第１の領域特定情報に基づいて、コンテンツに係るユーザの入力操作を行う入力領域を推定する入力領域推定手段と、
前記入力領域推定手段により推定された前記入力領域に対応する領域に前記コンテンツを描画する描画手段と、
前記描画手段により描画された前記コンテンツを表示する表示手段と、
を備え、
前記第１の領域特定情報は、前記入力領域の形状を特定する情報であって、
前記入力領域推定手段は、前記入力操作認識手段により認識された前記ユーザの入力操作に基づいて、前記画像取得手段により取得された前記現実空間画像から第２の領域特定情報を取得し、前記第２の領域特定情報により特定される領域を多角形近似し、近似された多角形の頂点の一部及び該多角形を構成する複数の辺を伸長した直線同士の交点から形成された領域が前記第１の領域特定情報で特定される形状となる場合に、前記第２の領域特定情報により特定される領域を前記現実空間画像における前記入力領域と推定する情報処理装置。
前記第２の領域特定情報には、前記入力領域を特定する色情報が含まれる請求項１に記載の情報処理装置。
前記入力操作認識手段は、前記入力領域のうち、前記第２の領域特定情報により特定される領域以外の領域の色情報に基づいて前記入力領域内で移動する物体を特定し、該物体の移動を、前記ユーザによる入力操作として認識する請求項１又は２に記載の情報処理装置。
前記入力操作認識手段は、画像取得手段により取得された連続する複数の現実空間画像において、前記入力領域推定手段により推定された前記入力領域内で移動する物体のうち最も移動量が大きい物体の端部の移動を、前記ユーザによる入力操作として認識する請求項１〜３のいずれか一項に記載の情報処理装置。
前記描画手段は、前記入力領域推定手段により推定された前記入力領域の面積に応じて描画するコンテンツを変更する請求項１〜４のいずれか一項に記載の情報処理装置。
画像取得手段により、現実空間画像を取得する画像取得ステップと、
入力操作認識手段により、ユーザによる入力操作を認識する入力操作認識ステップと、
前記入力操作認識ステップにおいて前記ユーザによる入力操作を認識することを契機として、入力領域推定手段により、前記画像取得手段により取得された前記現実空間画像において、予め保持された第１の領域特定情報に基づいて、コンテンツに係るユーザの入力操作を行う入力領域を推定する入力領域推定ステップと、
描画手段により、前記入力領域推定ステップにおいて推定された前記入力領域に対応する領域に前記コンテンツを描画する描画ステップと、
表示手段により、前記描画ステップにおいて描画された前記コンテンツを表示する表示ステップと、
を有し、
前記第１の領域特定情報は、前記入力領域の形状を特定する情報であって、
前記入力領域推定ステップにおいて、前記入力操作認識ステップにおいて認識された前記ユーザの入力操作に基づいて、前記画像取得ステップにおいて取得された前記現実空間画像から第２の領域特定情報を取得し、前記第２の領域特定情報により特定される領域を多角形近似し、近似された多角形の頂点の一部及び該多角形を構成する複数の辺を伸長した直線同士の交点から形成された領域が前記第１の領域特定情報で特定される形状となる場合に、前記第２の領域特定情報により特定される領域を前記現実空間画像における前記入力領域と推定する情報処理方法。