JP2016099638A

JP2016099638A - 画像処理装置、画像処理装置の制御方法、および、コンピュータープログラム

Info

Publication number: JP2016099638A
Application number: JP2014233263A
Authority: JP
Inventors: 青沼　正志; Masashi Aonuma; 正志青沼
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2014-11-18
Filing date: 2014-11-18
Publication date: 2016-05-30

Abstract

【課題】表示装置に表示される動画と現実の対象とを関連付けることで使用者の利便性を向上させた画像処理装置を提供する。
【解決手段】画像処理装置は、少なくとも１つの対象を撮像する外景センサーと；撮像された対象の内、動いている対象の少なくとも１つに対応する仮想の画像を生成する画像生成部と、を備える。
【選択図】図１

Description

本発明は、画像処理装置の技術に関する。

従来、特許文献１に記載されているように、ビデオ撮影された被写体の動作の内、一部の動作に対応させて生成した画像を、ビデオ撮影された被写体の動画に同期させて表示させる表示装置が知られている。

特開２００２−２３００８６号公報

しかし、特許文献１に記載された技術では、表示装置に表示される被写体の動画と生成された画像とは同期しているものの、表示装置に表示される動画等は、表示装置に表示されていない現実の対象となんら関係がない。そのため、表示装置に表示される動画と現実の対象とを関連付けることで使用者の利便性や使い勝手を向上させたいという課題があった。また、表示装置に表示される動画と現実の対象とを関連付けた動画等を容易に作成したいという課題があった。

本発明は、上述の課題の少なくとも一部を解決するためになされたものであり、以下の形態として実現することが可能である。

（１）本発明の一形態によれば、画像処理装置が提供される。この画像処理装置は、少なくとも１つの対象を撮像する外景センサーと；撮像された前記対象の内、動いている前記対象の少なくとも１つに対応する仮想の画像を生成する画像生成部と、を備える。この形態の画像処理装置によれば、動いている対象に対応する仮想の画像を画像生成部が生成するため、使用者は、例えば、作業支援等の仮想の画像を含む動画を簡単に作成でき、使用者の使い勝手が向上する。

（２）上記形態の画像処理装置において、前記画像生成部は、前記仮想の画像が生成される前記対象である画像生成対象の移動領域を、撮像された前記対象の内の前記画像生成対象を除く前記対象の少なくとも１つに対応付けて、前記画像生成対象の前記仮想の画像を生成してもよい。この形態の画像処理装置によれば、生成された仮想の画像を含む動画が再生された場合に、仮想の画像は、仮想の画像に対応付けられた現実に存在する対象の位置や大きさ等に対応付けられて表示される。例えば、動画が作業等の支援動画であった場合には、作業を行なう対象に仮想の画像を重畳させることで、使用者の作業性がより向上し、使用者の使い勝手が向上する。

（３）上記形態の画像処理装置において、前記画像生成部は、前記画像生成対象の前記移動領域に対応付けられる前記対象の大きさに、前記仮想の画像の大きさと前記移動領域との少なくとも一方を対応付けた前記仮想の画像を生成してもよい。この形態の画像処理装置によれば、生成された仮想の画像を含む動画が再生された場合に、仮想の画像は、仮想の画像に対応付けられた現実に存在する対象の位置や大きさ等により対応付けられて表示され、使用者の使い勝手がより向上する。

（４）上記形態の画像処理装置において、さらに；操作を受け付ける操作受付部を備えてもよい。ここで、前記画像生成部は、受け付けられた操作に基づいて、不要な部分を消去して前記仮想の画像を生成してもよい。この形態の画像処理装置によれば、仮想の画像として、生成される必要がない移動物体や生成される必要がある静止物体が選択され、使用者がより使いやすいＡＲシナリオや複合シナリオを作成でき、使用者の使い勝手が向上する。

（５）上記形態の画像処理装置において、前記画像生成部は、前記仮想の画像として、撮像された前記複数の対象の内、動いている前記対象が動いている間に対応する画像を自動的に生成してもよい。この形態の画像処理装置によれば、仮想の画像を生成する対象を選択する操作が行なわれなくても、自動的に移動物体の仮想の画像を生成する。よって、例えば、仮想の画像を含む動画が作業等の支援動画であり、作業において何らかの対象を移動させる必要がある場合に、移動させるべき物体である移動物体の仮想の画像が自動的に生成され、使用者の使い勝手が向上する。

（６）上記形態の画像処理装置において、さらに；対象選択部を備え；前記対象選択部は、前記少なくとも１つの対象として、人の体の形状と、人の体以外の形状とを識別し；前記画像生成部は、撮像された前記対象の内、人の体の形状に対応する前記仮想の画像を生成しなくてもよい。この形態の画像処理装置によれば、仮想の画像を含む動画が実行されている場合に、移動させるべき物体を動かすための手段である人の手などが仮想の画像として表示されないため、使用者は、手などの不要な仮想の画像を視認せずに済み、使用者の利便性が向上する。

（７）上記形態の画像処理装置において、さらに；外部の音声を取得する音声取得部を備え；前記画像生成部は、前記仮想の画像が生成される前記対象である画像生成対象と、前記画像生成対象が動いている間に取得された音声と、を対応付けて前記仮想の画像を生成してもよい。この形態の画像処理装置によれば、作成される仮想の画像を含む動画には、撮像画像を基に生成された仮想の画像のような視覚的な情報に加えて、音声といった聴覚的な情報にも対応付けられた仮想の画像が含まれるので、使用者の利便性が向上する。

（８）上記形態の画像処理装置において、前記画像生成部は、取得された音声を文字画像として、前記仮想の画像と対応付けて生成してもよい。この形態の画像処理装置によれば、音声を視覚的な情報として仮想の画像と並列して生成でき、使用者が情報を認識しやすく、使用者の利便性がより向上する。

（９）上記形態の画像処理装置において、さらに；前記対象までの距離を測定する距離測定部を備え；前記画像生成部は、測定された前記距離に基づいて前記仮想の画像を生成してもよい。この形態の画像処理装置によれば、生成された仮想の画像が、三次元モデルとして生成され得るから、使用者が仮想の画像をより認識しやすく、使用者の利便性がより向上する。

（１０）上記形態の画像処理装置において、前記画像生成部は、前記仮想の画像が時間に沿って変化する仮想の動画である場合に、前記仮想の動画の特定の時点に、特定の画像を挿入してもよい。この形態の画像処理装置によれば、特定の時点に行われていることを、特定の画像を介して、視覚的な情報として使用者に認識させることができ、使用者の使い勝手が向上する。

（１１）上記形態の画像処理装置において、さらに；外部の音声を取得する音声取得部を備え；前記画像生成部は、前記仮想の画像が時間に沿って変化する仮想の動画である場合に、前記仮想の動画の特定の時点と、取得された前記音声と、を対応付けて前記仮想の動画を生成してもよい。この形態の画像処理装置によれば、音声で使用者に特定の時点を認識させることができるため、特定の画像を表示する場合と比較して、特定の画像が仮想の画像に重複することがなく、特定の時点における使用者の使い勝手がより向上する。

上述した本発明の各形態の有する複数の構成要素はすべてが必須のものではなく、上述の課題の一部または全部を解決するため、あるいは、本明細書に記載された効果の一部または全部を達成するために、適宜、前記複数の構成要素の一部の構成要素について、その変更、削除、新たな他の構成要素との差し替え、限定内容の一部削除を行なうことが可能である。また、上述の課題の一部または全部を解決するため、あるいは、本明細書に記載された効果の一部または全部を達成するために、上述した本発明の一形態に含まれる技術的特徴の一部または全部を上述した本発明の他の形態に含まれる技術的特徴の一部または全部と組み合わせて、本発明の独立した一形態とすることも可能である。

例えば、本発明の一形態は、外景センサーと、画像生成部と、の２つの要素の内の一つまたは二つを備えた装置として実現可能である。すなわち、この装置は、外景センサーを有していてもよく、有していなくてもよい。また、装置は、画像生成部を有していてもよく、有していなくてもよい。外景センサーは、例えば、少なくとも１つの対象を撮像してもよい。画像生成部は、例えば、撮像された前記対象の内、動いている前記対象の少なくとも１つに対応する仮想の画像を生成してもよい。こうした装置は、例えば、画像処理装置として実現できるが、画像処理装置以外の他の装置としても実現可能である。このような形態によれば、装置の操作性の向上および簡易化、装置の一体化や、装置を使用する使用者の利便性の向上、等の種々の課題の少なくとも１つを解決することができる。前述した画像処理装置の各形態の技術的特徴の一部または全部は、いずれもこの装置に適用することが可能である。

本発明は、画像処理装置以外の種々の形態で実現することも可能である。例えば、画像処理装置の制御方法、画像処理装置を有するシステム、画像処理装置の制御方法およびシステムを実現するためのコンピュータープログラム、そのコンピュータープログラムを記録した記録媒体、および、そのコンピュータープログラムを含み搬送波内に具現化されたデータ信号等の形態で実現できる。

本発明の第１実施形態における画像処理装置の構成を機能的に示すブロック図である。ＲＧＢカメラおよび距離センサーによって被写体を含む外景を撮像する場合の説明図である。ＡＲシナリオ作成処理のフローチャートである。ＡＲシナリオ作成処理のフローチャートである。被写体がいない作業開始前に撮像された撮像画像を示す説明図である。トラッキングされた移動物体を含む外景の撮像画像を示す説明図である。ＡＲシナリオに含まれる特定の時点での撮像画像に付加情報が付加された画像を示す説明図である。撮像画像の中から不要な物体が消去された後の画像を示す説明図である。生成されたＡＲ画像とＡＲ画像に対応付けられた物体とを示す説明図である。複合シナリオ作成処理のフローチャートである。トリガーが設定されているときに表示される編集画像を示す説明図である。トリガーが検出された場合に分岐シナリオへ分岐したときに表示する画像を示す説明図である。頭部装着型表示装置（ＨＭＤ）の外観構成を示す説明図である。複合シナリオ実行処理のフローチャートである。実行される複合シナリオに設定された対応物体が検出された場合に使用者が視認する視野を示す説明図である。実行される分岐シナリオに設定されたトリガー対象が検出された場合に使用者が視認する視野を示す説明図である。第２実施形態における画像処理装置の構成を機能的に示すブロック図である。第２実施形態におけるＡＲシナリオ作成処理の一部のフローチャートである。第３実施形態における画像処理装置の構成を機能的に示すブロック図である。第３実施形態におけるＡＲシナリオ作成処理の一部のフローチャートである。

本明細書における用語「外景センサー」は、以下で説明するＲＧＢカメラ、距離センサーの少なくとも一つを包含する用語である。よって、ＲＧＢカメラ、距離センサー、またはこれらの組み合わせ、のいずれもが「外景センサー」の一例である。もちろん、「外景センサー」は、実施形態において説明されるＲＧＢカメラ、距離センサー、またはこれらの組み合わせに限定されず、外景または外景に含まれる対象（これらを実環境や実物体と呼ぶこともある）の２次元座標または３次元座標を推定するための情報を獲得し出力する装置をいう。

本明細書における用語「対象選択部」は、仮想の画像（ＡＲ画像）として表されることになる実物体を選択する機能、または選択するための基礎となる情報を提供する機能を有する構成をいう。実施形態では、物体トラッキング部１２ａ、１２ｂ、１２ｃのそれぞれが、「対象選択部」の一例である。

Ａ．第１実施形態：
Ａ−１．画像処理装置の構成：
図１は、本発明の第１実施形態における画像処理装置１００の構成を機能的に示すブロック図である。画像処理装置１００は、連続的に撮像した被写体の三次元モデルを生成して、生成した被写体の三次元モデルと受け付けた各種操作とに基づいて、ＡＲ（augmented reality）画像を生成する。なお、本実施形態でいうＡＲ画像は、画像認識などによって認識された現実の対象物と関連付けて表示させる画像のことをいう。

画像処理装置１００は、ＣＰＵ１０と、データ記憶部５０と、電源６０と、ＲＧＢカメラ３１と、距離センサー３２と、マイク３３と、操作部３４と、表示部３５と、ＲＯＭ４１と、ＲＡＭ４２と、を備えている。データ記憶部５０は、各種データを記憶し、ハードディスクドライブなどによって構成されている。電源６０は、画像処理装置１００の各部に電力を供給する。電源６０としては、例えば二次電池を用いることができる。

ＲＧＢカメラ３１は、被写体を含む所定の範囲の外景を撮像するカメラである。本実施形態では、ＲＧＢカメラ３１は、異なる位置に配置された３台の第１カメラ３１１と第２カメラ３１２と第３カメラ３１３とによって構成されている。ＲＧＢカメラ３１は、撮像した外景のＲＧＢデータを後述するＣＰＵ１０のセンサー制御部１５に送信する。距離センサー３２は、照射した無数の点を赤外線カメラによって撮影することにより、照射した対象までの距離を測定するデプスセンサーである。本実施形態では、距離センサー３２は、第１カメラ３１１と第２カメラ３１２と第３カメラ３１３とそれぞれに１対１で対応するように、それぞれのカメラの隣に配置されている。すなわち、距離センサー３２は、ＲＧＢカメラ３１と同じように、異なる位置に配置された３台のデプスセンサー（第１距離センサー３２１、第２距離センサー３２２、第３距離センサー３２３）によって構成されている。距離センサー３２は、赤外線カメラによって撮像し、物体の表面で反射した赤外線反射光の無数の点のデータをＣＰＵ１０のセンサー制御部１５に送信する。なお、他の実施形態では、距離センサー３２は、ＴＯＦ（Time-of-Flight）法を用いて、対象までの距離を測定してもよい。また、本実施形態では、ＲＧＢカメラ３１と距離センサー３２とのそれぞれは、３台のカメラ３１１，３１２，３１３とセンサー３２１，３２２，３２３とによって構成されたが、他の実施形態では、３台よりも少ない数のカメラやセンサーであってもよいし、３台よりも多い数のカメラやセンサーであってもよい。また、ＲＧＢカメラ３１の数と距離センサー３２の数とは、同じである必要はなく、１対１で対応させる必要はない。ＲＧＢカメラ３１、カメラ３１１，３１２，３１３は、請求項における外景センサーに相当する。ただし、ＲＧＢカメラ３１と距離センサー３２とが１対１で対応する場合には、距離センサー３２から実物体までの距離Ｄの計測も含めて、ＲＧＢカメラ３１および距離センサー３２によって外景または実物体を捕捉することを「撮像する」と表記することもある。このとき、撮像された画像はＲＧＢＤデータで表されることになる。ＲＧＢＤデータとは、例えば、画素ごとに、Ｒ，Ｇ，Ｂ、距離Ｄの値があるデータである。

図２は、ＲＧＢカメラ３１および距離センサー３２によって被写体ＯＢを含む外景ＳＣを撮像する場合の説明図である。図２に示すように、異なる位置に配置された３台のカメラ３３１，３３２，３３３は、被写体ＯＢを含む外景を撮像している。カメラ３３１の撮像画像は、第１カメラ３１１および第１距離センサー３２１の撮像画像に対応し、カメラ３３２の撮像画像は、第２カメラ３１２および第２距離センサー３２２の撮像画像に対応し、カメラ３３３の撮像画像は、第３カメラ３１３および第３距離センサー３２３の撮像画像に対応する。図２に示すように、被写体ＯＢとしての料理人の右手がうろこ取りＴＬを持って、被写体ＯＢの左手が魚ＦＳの頭を押さえ、料理人がうろこ取りＴＬによって魚ＦＳのうろこを取っている状態が撮像されている。異なる位置に配置されたカメラ３３１，３３２，３３３によって取得されたＲＧＢデータおよび距離データに基づいて、被写体ＯＢ、うろこ取りＴＬ、魚ＦＳなどといった外景ＳＣに含まれる対象の位置や色が特定される。

カメラやセンサーの位置を特定する方法としては、その他の態様も取り得る。また、実物体の外観ＳＣにおける三次元位置の求め方は、例えば、カメラ３３１，３３２，３３３の位置関係およびカメラパラメーターが既知であり、距離センサー３２の水平軸が地面と平行である場合に、カメラ３３１，３３２，３３３の共通の撮像範囲内に、光（たとえば赤外光）を間欠発光する光源を設置する。カメラ３３１，３３２，３３３のそれぞれが当該光源を撮像（画像は画素ごとにＲＧＢＤデータで表される。距離Ｄは距離センサー３２からの距離である）することで、カメラ３３１，３３２，３３３のそれぞれから見た光源の三次元位置（Ｘｉ，Ｙｉ，Ｚｉ）（ｉ＝０，１，２）が推定される。そして、例えば、カメラ３３２，３３３（ｉ＝１，２）のそれぞれから見た共通の光源の２つの座標を、カメラ３３１（ｉ＝０）から見た座標に変換する。その際に、カメラ３３２、３３３から見た座標を変換した座標をカメラ３３１から見た座標に一致させる変換行列を、カメラ３３２、３３３のそれぞれについて導出する。具体的には、カメラ３３１の座標と変換後の座標との差分が最も小さくなる変換行列を反復計算により算出する。このような設定をすることにより、カメラ３３１，３３２，３３３のそれぞれの視点から生成されたそれぞれの三次元モデルを融合し、カメラの視点に依存しない１つの三次元モデルを生成することができる。なお、設置された光源の位置を変更させて、カメラ３３１，３３２，３３３が撮像することで、精度を向上させてもよい。また、ＲＧＢカメラ３１と距離センサー３２のセットの数は、４セット以上でもよい。

マイク３３（図１）は、ＲＧＢカメラ３１および距離センサー３２が所定の範囲を撮像している間や、使用者からの操作を受け付ける場合に、外部の音声を取得する。マイク３３は、取得した音声に基づく音声信号を後述するＣＰＵ１０のＵＩ制御部１６に送信する。操作部３４は、使用者からの入力を受け付けるユーザーインターフェース（ＵＩ）である。操作部３４は、キーボードやマウスによって構成されている。操作部３４は、押下されたキーボードのキーに対応する制御信号や、マウスのポインターの位置の変化に基づく制御信号を、ＣＰＵ１０のＵＩ制御部１６に送信する。表示部３５は、ＵＩ制御部１６から送信された画像信号に基づいて、画像を表示する液晶パネルである。使用者は、表示部３５に表示される画像を見ながら、操作部３４やマイク３３を操作することで、画像処理装置１００を操作できる。操作部３４およびマイク３３は、請求項における操作受付部に相当し、また、マイク３３は、音声取得部に相当する。

ＣＰＵ１０は、ＲＯＭ４１に格納されたコンピュータープログラムを読み出し、ＲＡＭ４２に展開して実行することにより、画像処理装置１００を制御する。ＣＰＵ１０は、ＡＲシナリオ制御部１１と、物体トラッキング部１２と、物体認識部１３と、三次元モデル生成部１４（３Ｄモデル生成部１４）と、センサー制御部１５と、ユーザーインターフェース制御部１６（ＵＩ制御部１６）と、ＡＲシナリオ操作設定部１７と、付加情報取得部１８と、不要画像消去部１９と、ＡＲ画像抽出部２１と、を有している。

センサー制御部１５は、ＲＧＢカメラ３１から送信された外景のＲＧＢデータと、距離センサー３２から送信された赤外線カメラによって撮像された無数の点のデータと、を取得する。センサー制御部１５は、ＲＧＢカメラ３１および距離センサー３２から取得したデータを、物体トラッキング部１２と三次元モデル生成部１４とのそれぞれに送信する。また、ＵＩ制御部１６から送信された制御信号に基づいて、ＲＧＢカメラ３１および距離センサー３２を制御する。

３Ｄモデル生成部１４は、ＡＲシナリオ制御部１１から送信される制御信号に基づいて、センサー制御部１５から送信されたＲＧＢカメラ３１のＲＧＢデータと距離センサー３２の距離データと用いて、撮像した所定の範囲の中に存在する対象について、三次元モデル（３Ｄモデル）を作成する。三次元モデルの具体的な作成としては、３Ｄモデル生成部１４は、距離センサー３２によって取得された距離データに基づいて、撮像範囲の物体の形状を取得し、取得した距離のデータに基づいて、取得した物体の形状における同一の境界を検出して、三次元モデルを生成する。また、３Ｄモデル生成部１４は、ＲＧＢカメラ３１から送信されたＲＧＢデータに基づいて、生成した三次元モデルに対して着色する。３Ｄモデル生成部１４は、生成した着色済みの三次元モデルと、検出した同一の境界のデータと、を物体認識部１３へと送信する。

物体認識部１３は、ＡＲシナリオ制御部１１から送信される制御信号に基づいて、生成された三次元モデルと、検出された同一の境界のデータと、を用いて、連続している境界のデータを有する三次元モデルを１つの物体として認識する。換言すれば、物体認識部１３は、連続していない境界のデータに基づいて、三次元モデルを切り離して、１つ１つの物体として認識する。また、物体認識部１３は、ＡＲシナリオ制御部１１を介して、後述するデータ記憶部５０に記憶された人体のパーツ（例えば、手や足）とパターンマッチングや統計的識別法によって比較することにより、三次元モデルの中から人体を抽出する。なお、距離センサー３２およびセンサー３２１，３２２，３２３は、距離測定部に相当する。

物体トラッキング部１２は、ＡＲシナリオ制御部１１から送信される制御信号に基づいて、認識された物体の１つ１つの内、撮像している間に動いている物体の動きを特定する。物体トラッキング部１２は、動いている物体（移動物体）と動いていない物体（静止物体）とを特定する情報をＵＩ制御部１６およびＡＲシナリオ制御部１１へと送信する。

ＵＩ制御部１６は、マイク３３や操作部３４が受け付けた操作に基づいて、表示部３５やＣＰＵ１０に含まれる各部へと制御信号を送信する。例えば、ＵＩ制御部１６は、操作部３４が受け付けた操作に基づいて、ＲＧＢカメラ３１および距離センサー３２を制御する信号をセンサー制御部１５へと送信する。また、物体トラッキング部１２から送信された特定した物体について、物体のそれぞれを使用者が選択して操作できるように、物体のそれぞれを表示部３５に表示するための画像信号を送信する。また、ＵＩ制御部１６は、後述するＡＲシナリオ作成時において、マイク３３によって取得された音声を自動的に文字画像へと変換するテキスト変換部１６１を有している。テキスト変換部１６１は、取得された音声を音声認識して、対応する文字画像へと変換する。

ＡＲシナリオ操作設定部１７は、画像処理装置１００によって作成されたＡＲシナリオが操作する状況について設定する。なお、本実施形態では、ＡＲシナリオとは、少なくとも１つの移動物体に対応するＡＲ画像を含む動画のことをいい、ＡＲシナリオには、使用者によって挿入された音声や文字画像などが含まれる。ＡＲシナリオ操作設定部１７は、例えば、生成されたＡＲ画像に対応付けられた対象物が、画像認識などによって現実の対象として検出された場合などに、ＡＲシナリオが実行するように設定する。また、ＡＲシナリオ操作設定部１７は、現実において、予め設定された特定の物体が検出されることにより、複数のＡＲシナリオの分岐などを設定する。

付加情報取得部１８は、ＵＩ制御部１６から送信されるＵＩが受け付けた操作信号やＡＲシナリオ制御部１１から送信される制御信号に基づいて、ＡＲシナリオに付加する情報を取得する。ＡＲシナリオに付加される情報としては、例えば、操作部３４が受け付けた操作によって設定されるＡＲ画像の拡大または縮小して表示する表示方法の設定や、マイク３３が取得した音声が変換されたテキストの挿入などがある。

ＡＲシナリオ制御部１１は、ＡＲシナリオを作成するために、ＣＰＵ１０の各部を制御する。ＡＲシナリオ制御部１１は、物体トラッキング部１２によって特定された移動物体および静止物体と、ＵＩが受け付けた操作と、に基づいて、ＡＲ画像として生成される物体とＡＲ画像を生成されない物体と区別し、区別した結果を不要画像消去部１９およびＡＲ画像抽出部２１へと送信する。また、ＡＲシナリオ制御部１１は、データ記憶部５０との各種データを送受信することにより、以前に作成したＡＲシナリオを読み込んで編集したり、新規で作成したＡＲシナリオをデータ記憶部５０に記憶させたりする。

不要画像消去部１９は、ＡＲシナリオ制御部１１およびＡＲシナリオ操作設定部１７から送信された制御信号に基づいて、特定された物体の内、ＡＲ画像として生成されない物体の画像を消去する。換言すれば、不要画像消去部１９は、撮像画像の中から、ＡＲ画像として生成する物体を選択するともいえる。不要画像消去部１９は、不要な物体として消去した画像の画像信号をＡＲシナリオ制御部１１へと送信する。

ＡＲ画像抽出部２１は、ＡＲシナリオ制御部１１から送信された制御信号に基づいて、ＡＲ画像としてＡＲシナリオに表示させる物体を抽出して、画像を生成する。ＡＲ画像抽出部２１は、距離センサー３２によって取得された距離データに基づいて、ＡＲ画像を三次元の画像として生成する。また、ＡＲ画像抽出部２１は、ＲＧＢカメラ３１によって取得されたＲＧＢデータに基づいて、生成したＡＲ画像に着色を行なう。ＡＲ画像抽出部２１は、抽出したＡＲ画像として生成する物体を特定する信号をＡＲシナリオ制御部１１へと送信する。また、ＡＲ画像抽出部２１は、操作部３４を介して所定の操作を受け付けることにより、データ記憶部５０に記憶された特定の物体を、自動的にＡＲ画像として生成する物体として抽出できる。抽出される物体としては、例えば、ＣＡＤ（computer aided design）によって作成された図面によって特定される物体などがある。なお、ＡＲ画像抽出部２１は、請求項における画像生成部に相当する。

Ａ−２．ＡＲシナリオ作成処理：
図３および図４は、ＡＲシナリオ作成処理のフローチャートである。ＡＲシナリオ作成処理では、画像処理装置１００がＲＧＢカメラ３１および距離センサー３２によって撮像された外景画像に含まれる移動物体等のＡＲ画像を作成する処理である。

ＡＲシナリオ作成処理では、初めに、マイク３３または操作部３４がＡＲシナリオの作成を開始する操作の受付を待機する（ステップＳ１２）。マイク３３は、予め設定された所定の音声を受け付けることで、画像処理装置１００がＡＲシナリオ作成処理を開始する。また、操作部３４は、予め設定された所定のキーボードのボタン操作を受け付けることで、画像処理装置１００がＡＲシナリオ作成処理を開始する。ステップＳ１２の処理において、マイク３３または操作部３４は、ＡＲシナリオ作成処理を開始する操作を受け付けない場合には（ステップＳ１２：ＮＯ）、引き続き、ＡＲ作成処理を開始する操作の受付を待機する（ステップＳ１２）。

ＡＲシナリオ作成処理を開始する操作を受け付けた場合には（ステップＳ１２：ＹＥＳ）、ＡＲシナリオ制御部１１は、ＲＧＢカメラ３１および距離センサー３２が撮像する撮像範囲を設定する（ステップＳ１４）。ＡＲシナリオ制御部１１は、操作部３４が所定の操作を受け付けることで、撮像範囲の範囲や位置を設定する。なお、本実施形態では、ＲＧＢカメラ３１の撮像範囲と距離センサー３２の撮像範囲とは、同じ範囲として設定されるが、他の実施形態では、ＲＧＢカメラ３１の撮像範囲と距離センサー３２の撮像範囲とが別々に設定されてもよい。

ＲＧＢカメラ３１および距離センサー３２の撮像範囲が設定されると、ＲＧＢカメラ３１は、撮像範囲のＲＧＢデータを取得し、距離センサー３２は、距離センサー３２から撮像範囲内に存在する物体までの距離を測定する（ステップＳ１６）。ＲＧＢカメラ３１は、取得した撮像範囲のＲＧＢデータを、センサー制御部１５を介して、３Ｄモデル生成部１４および物体トラッキング部１２へと送信する。距離センサー３２は、測定した撮像範囲に存在する物体までの距離データを、センサー制御部１５を介して、３Ｄモデル生成部１４および物体トラッキング部１２へと送信する。

３Ｄモデル生成部１４は、ＲＧＢカメラ３１から送信されたＲＧＢデータと、距離センサー３２から送信された距離データと、に基づいて、三次元モデル（３Ｄモデル）を生成する（ステップＳ１８）。３Ｄモデル生成部１４は、距離データに基づいて、撮像範囲に含まれる物体の形状の三次元モデルを生成する。また、３Ｄモデル生成部１４は、ＲＧＢデータに基づいて、生成した三次元モデルを着色する。なお、本実施形態では、３Ｄモデル生成部１４が生成する三次元モデルは、カメラ３３１、３３２，３３３からのそれぞれの視点から生成されたそれぞれの三次元モデルが、１つに融合されたものである。物体認識部１３は、生成された三次元モデルに対して、検出された同一の境界データを用いることで、三次元モデルの中に含まれる個々の物体を認識する（ステップＳ２０）。

図５は、被写体ＯＢがいない作業開始前に撮像された撮像画像を示す説明図である。撮像範囲が設定されると、ＲＧＢカメラ３１および距離センサー３２は、外景ＳＣの撮像を開始する。撮像が開始された直後では、被写体ＯＢが撮像範囲にいないため、図５に示すように、撮像画像には、料理人である被写体ＯＢが含まれていない。本実施形態では、撮像が開始された直後では、被写体ＯＢがいない状態で、魚ＦＳとうろこ取りＴＬとのそれぞれの三次元モデルが作成される。詳細については後述するが、生成されたうろこ取りＴＬの三次元モデルは、物体トラッキング部１２によって特定されたうろこ取りＴＬの動きに関連付けられることで、ＡＲシナリオを構成する一部の画像として用いられる。

図３のステップＳ２０の処理が行なわれると、マイク３３または操作部３４が動画の撮像を始める前の初期設定が済んだことを示す操作の受付を待機する（ステップＳ２１）。初期操作が済んだことを示す操作が受け付けられない場合には、ＣＰＵ１０は、再度、ステップＳ１４以降の処理を実行する。ステップＳ２１の処理において、マイク３３または操作部３４が、初期操作が済んだことを示す操作を受け付けた場合には（ステップＳ２１：ＹＥＳ）、次に、移動物体の撮像を開始する操作の受付を待機する（ステップＳ２２）。マイク３３または操作部３４が、撮像を開始する操作を受け付けない場合には（ステップＳ２２：ＮＯ）、撮像を開始する操作の受付を待機する（ステップＳ２２）。ステップＳ２２の処理において、撮像を開始する操作を受け付けた場合には（ステップＳ２２：ＹＥＳ）、ＲＧＢカメラ３１および距離センサー３２は、設定された撮像範囲を、時間の経過に伴って動画として撮像する（ステップＳ２２）。物体トラッキング部１２は、撮像範囲に含まれると共に三次元モデルとして生成された物体の内、移動物体と静止物体とを区別して、移動物体をトラッキングする（ステップＳ２４）。物体トラッキング部１２は、区別した移動物体のＲＧＢデータの変化量と測定された距離の変化量とを計測し、移動物体の軌跡や姿勢などの位置の変化を特定する。

図６は、トラッキングされた移動物体を含む外景ＳＣの撮像画像を示す説明図である。図６では、図２の撮像範囲と同じ範囲を設定された場合に、ＲＧＢカメラ３１および距離センサー３２が撮像する外景ＳＣが示されている。図６の外景ＳＣでは、図２の外景ＳＣと比較して、料理人である被写体ＯＢが持っているうろこ取りＴＬの位置が、被写体ＯＢの左手が押さえている魚ＦＳの頭に近づいている点が異なる。そのため、物体トラッキング部１２は、うろこ取りＴＬとうろこ取りＴＬを持っている被写体ＯＢの右手とを移動物体としてトラッキングし、その他の被写体ＯＢの左手や魚ＦＳなどを静止物体として区別する。なお、図６では、カメラ３３１，３３２，３３３によって撮像される撮像画像を示しているため、カメラ３３１，３３２，３３３は、撮像画像の中には含まれない。本実施形態では、被写体ＯＢの右手とうろこ取りＴＬとが移動物体としてトラッキングされたが、他の実施形態では、うろこ取りＴＬの移動によって、魚ＦＳから剥ぎ取られたうろこが移動物体としてトラッキングされてもよい。

ＡＲシナリオ制御部１１は、トラッキングされた移動物体またはトラッキングされた移動物体が接触している静止物体の内の少なくとも１つを、作成されたＡＲシナリオが実行される場合に、ＡＲシナリオの実行を開始するためのトリガーとしてＡＲシナリオデータ内に設定する。ＡＲシナリオが実行されるためのトリガーが設定され、ＡＲ表示を実行できる頭部装着型表示装置（ヘッドマウントディスプレイ（Head Mounted Display）、ＨＭＤ）に備え付けられたカメラの撮像画像の中にトリガーが検出されると、自動的にトリガーが設定されているＡＲシナリオが実行される。なお、ＡＲシナリオ制御部１１は、ＡＲシナリオに対して、トリガーを設定してもよいし、設定しなくてもよい。

次に、付加情報取得部１８は、マイク３３または操作部３４が受け付けた操作に基づいて、作成するＡＲシナリオに付加する付加情報を取得する（ステップＳ２６）。付加情報としては、例えば、ＲＧＢカメラ３１および距離センサー３２が移動物体を含む撮像範囲を撮像している最中に、マイク３３によって取得された音声がテキスト変換部１６１によって変換された文字画像などがある。また、付加情報の他の例として、他の情報処理装置において作成したＡＲシナリオが使用されている場合に、検出されることが望ましい物体（推奨物体）であるうろこ取りＴＬに対して、検出されることが望ましくない物体（非推奨物体）として包丁が設定されてもよい。この場合、ＡＲシナリオが実行されているときに、非推奨物体である包丁が検出されると、ＡＲシナリオが停止されたり、別のＡＲシナリオに切り替わったりしてもよい。なお、ＡＲシナリオの実行の詳細については、後述する「Ａ−４．複合シナリオの実行」において説明する。

図７は、ＡＲシナリオに含まれる特定の時点での撮像画像に付加情報が付加された画像を示す説明図である。図７には、ＲＧＢカメラ３１および距離センサー３２によって撮像された図６の撮像画像に対して、マイク３３が取得した音声を付加情報のテキスト画像ＴＸ１として付加した画像が示されている。なお、操作部３４が使用者の操作を受け付けることで、テキスト画像ＴＸ１のフォントの大きさや色の変更や、撮像画像にテキスト画像ＴＸ１を付加する位置などが変更されてもよい。

付加情報が取得されると（図３のステップＳ２６）、ＡＲシナリオ制御部１１がいずれの物体のＡＲ画像を作成するかを決定するために、操作部３４は、ＡＲ画像を作成する対象とはならない物体の不要な画像を自動で消去するか否かを選択させる操作を受け付ける（ステップＳ２８）。ＡＲシナリオ制御部１１は、不要画像の消去を自動で行なうか、自動ではない手動で行うかを選択させる選択画面を表示部３５に表示させ、操作部３４が受け付けた操作によって、不要画像の消去の処理を決定する。ステップＳ２８の処理において、不要画像を自動で消去する選択の操作が受け付けられた場合には（ステップＳ２８：ＹＥＳ）、不要画像消去部１９は、静止物体と移動物体の内の人体とを、ＡＲ画像を生成する対象ではない不要な物体として消去する（ステップＳ３８）。換言すれば、不要画像消去部１９は、移動物体の内の人体を除いた物体を、ＡＲ画像を生成する対象として消去しない。また、不要画像消去部１９は、撮像画像の中から、物体認識部１３によって抽出された人体のパーツを消去する。撮像画像の中から消去された物体は、作成されるＡＲシナリオにおいて、ＡＲ画像として表示されない。なお、本実施形態では、同じ物体であっても、動いている間は移動物体と呼び、動いていない間は静止物体と呼ぶ。他の実施形態では、物体ごとに移動物体と静止物体とを定義付けてもよい。

図８は、撮像画像の中から不要な物体が消去された後の画像を示す説明図である。不要な物体として消去されない移動物体は、うろこ取りＴＬのみであるが、図８では、説明のために、不要な物体として消去された魚ＦＳ（破線）と被写体ＯＢ（一点鎖線）とについても示している。不要画像消去部１９は、撮像画像の中から、外景ＳＣに含まれる静止物体の魚ＦＳなどを消去し、かつ、静止しているか移動しているかに関わらず、人体と判断する料理人である被写体ＯＢについても消去する。なお、本実施形態では、魚ＦＳを静止している物体として説明したが、静止しているか移動しているかの判定は、移動量の大小で判定されてもよい。例えば、被写体ＯＢによって魚ＦＳの尾が持ち上げられるなどの場合があり、この場合には、移動量の大小や移動の速度などによって、魚ＦＳなどが移動している場合であっても、静止している物体として判定されてもよい。

不要な物体が映像から消去されると（図４のステップＳ３８）、ＡＲ画像抽出部２１は、不要画像消去部１９によってＡＲ画像を生成する対象として選択された不要な物体以外の物体を抽出して、抽出した物体（以下、「抽出物体」とも呼ぶ）と抽出した物体が接触している物体（以下、「接触物体」と呼ぶ）とを対応付けたＡＲ画像を生成する（ステップＳ３４）。抽出物体と接触物体との対応付けとしては、接触物体の大きさや向きおよび接触物体の移動領域に対して、抽出物体の移動領域や抽出物体の大きさを対応付ける例が挙げられる。ＡＲ画像を生成する対象の物体の移動領域や大きさなどと、当該対象の物体から所定の距離内に存在する物体の移動領域や大きさなどと、が対応付けられることで、作成されたＡＲシナリオが実行された場合に、ＡＲ画像に対応付けられた接触物体が検出されて、検出された接触物体の位置・形状・大きさに対応付けられて、抽出物体に基づいて生成されたＡＲ画像が表示される。また、ＡＲ画像抽出部２１は、ＡＲ画像が生成される移動物体が撮像中に移動している間に、マイク３３によって取得された音声を付加情報として、ＡＲ画像に対応付けてもよい。付加情報としての音声をＡＲ画像に対応付ける方法としては、例えば、移動物体のＡＲ画像が表示されている間のみ、移動物体に対応付けられた音声をテキスト画像として表示させるなどがある。なお、ＡＲ画像が生成される対象は、請求項における画像生成対象に相当する。

図９は、生成されたＡＲ画像とＡＲ画像に対応付けられた物体とを示す説明図である。図９には、ＡＲ画像として生成されたうろこ取りＴＬの画像ＡＲ１（実線）と、画像ＡＲ１に対応付けられている魚ＦＳ（破線）と、が示されている。画像ＡＲ１を含むＡＲシナリオが実行されている場合に、ＡＲシナリオを実行している装置が魚ＦＳを検出すると、検出された魚ＦＳの位置に対応付けてうろこ取りＴＬの画像ＡＲ１が表示される。なお、装置によってＡＲシナリオが実行されている場合における魚ＦＳの検出や画像ＡＲ１の表示の詳細については、「Ａ−４．複合シナリオの実行」で説明する。

ＡＲ画像が生成されると（図４のステップＳ３４）、ＡＲシナリオ制御部１１は、ＡＲ画像と付加情報とに基づいて、ＡＲシナリオとしての動画を作成し、作成したＡＲシナリオデータをデータ記憶部５０に保存し（ステップＳ３６）、画像処理装置１００は、ＡＲシナリオ作成処理を終了する。

ステップＳ２８の処理において、不要な画像を自動ではなく、手動で選択する操作が受け付けられた場合には（ステップＳ２８：ＮＯ）、ＡＲシナリオ制御部１１は、表示部３５に、撮像範囲に含まれる移動物体と静止物体のそれぞれを選択させるための選択画像を表示させる（ステップＳ３０）。不要画像消去部１９は、操作部３４が受け付けた操作に基づいて、ＲＧＢカメラ３１および距離センサー３２によって撮像画像の中から、消去すべき不要な物体として選択された移動物体や静止物体を消去する。撮像画像の中から手動で消去すべき物体が選択される場合には、撮像画像から自動で静止物体や人体のパーツが消去された場合と比較して、使用者は、任意にＡＲ画像を生成する対象を選択できる。例えば、うろこ取りＴＬのＡＲ画像に加えて、うろこ取りＴＬを持っている被写体ＯＢの右手のＡＲ画像や魚ＦＳのＡＲ画像などが生成されてもよい。なお、他の実施形態では、消去すべき物体ではなく、ＡＲ画像を生成する対象を選択する態様であってもよい。使用者の操作によって、不要な物体が消去されると（ステップＳ３２）、ＡＲ画像抽出部２１およびＡＲシナリオ制御部１１は、ステップＳ３４以降の処理を実行する。

Ａ−３．複合シナリオ作成処理：
図１０は、複合シナリオ作成処理のフローチャートである。複合シナリオ作成処理では、ＣＰＵ１０が複数のＡＲシナリオを組み合わせた複合シナリオを作成する処理である。ＣＰＵ１０のＡＲシナリオ操作設定部１７は、作成する複合シナリオとして、例えば、あるＡＲシナリオでトリガーを検出した場合には、別のＡＲシナリオへと分岐する複合シナリオを作成する。トリガーとしては、例えば、撮像範囲内における特定の物体の検出や、マイク３３や操作部３４が受け付けた操作などがある。

複合シナリオ作成処理では、初めに、マイク３３または操作部３４が複合シナリオの作成を開始する操作の受付を待機する（ステップＳ４２）。複合シナリオ作成処理を開始する操作が受け付けられない場合には（ステップＳ４２：ＮＯ）、ＡＲシナリオ操作設定部１７は、複合シナリオ作成処理を終了する（ステップＳ４２）。

ステップＳ４２の処理において、複合シナリオ作成処理を開始する操作を受け付けた場合には（ステップＳ４２：ＹＥＳ）、ＡＲシナリオ操作設定部１７は、複合シナリオの基となる１つのＡＲシナリオ（以下、「基本シナリオ」とも呼ぶ）を選択させる画面を選択する（ステップＳ４４）。ＡＲシナリオ操作設定部１７は、基本シナリオを使用者に選択させるために、データ記憶部５０に保存された複数のＡＲシナリオを表示部３５に表示させ、使用者に操作部３４を操作させることで、複数のＡＲシナリオから１つの基本シナリオを選択させる。なお、基本シナリオの選択の方法については、これに限られず、種々変形可能である。

次に、ＡＲシナリオ操作設定部１７は、基本シナリオに複合させた別のシナリオ（以下、「分岐シナリオ」とも呼ぶ）に分岐するためのトリガーを設定する（ステップＳ４６）。ＡＲシナリオ操作設定部１７は、マイク３３および操作部３４が受け付けた操作に基づいて、基本シナリオに対してトリガーを設定する。ＡＲ画像抽出部２１は、トリガーを設定するときに、トリガーを設定している基本シナリオの編集を行なっていることを使用者に視認させるために、予め設定された画像を表示部３５に表示させる。換言すれば、ＡＲ画像抽出部２１は、複合シナリオを編集する場合に、ＡＲシナリオの中に予め設定された画像を挿入する。なお、本実施形態における分岐シナリオは、基本シナリオが全て終了した後に実行される新しいＡＲシナリオも含む。

図１１は、トリガーが設定されているときに表示される編集画像ＫＣを示す説明図である。図１１には、基本シナリオが魚ＦＳのうろこを剥ぎ取ることを促すＡＲシナリオである場合に、分岐シナリオへと分岐する編集時に表示される編集画像ＫＣが示されている。基本シナリオにトリガーが設定されている場合には、基本シナリオが実行されているときと同じように検出された実物の魚ＦＳの位置に対応付けられて、うろこ取りＴＬのＡＲ画像である画像ＡＲ１と編集画像ＫＣとが表示される。編集画像ＫＣには、基本シナリオが「うろこ取り」のＡＲシナリオであることと、基本シナリオが開始してから「８分３７秒」が経過していることと、現時点で「分岐編集」状態であることと、を示す画像である。編集画像ＫＣは、操作部３４が受け付けた操作により、移動させたり、消去させたりすることができる。なお、編集時は、請求項における特定の時点に相当し、編集画像ＫＣは、請求項における特定の画像に相当する。

ＡＲシナリオ操作設定部１７は、トリガーを設定すると（図１０のステップＳ４６）、基本シナリオが実行されているときに設定したトリガーが検出された場合に、分岐する分岐シナリオを設定する（ステップＳ４８）。ＡＲシナリオ操作設定部１７は、分岐シナリオを設定するために、データ記憶部５０に保存された複数のＡＲシナリオを表示部３５に表示させ、使用者に操作部３４を操作させることで、複数のＡＲシナリオから１つの分岐シナリオを設定する。なお、分岐シナリオの選択の方法については、これに限られず、種々変形可能である。

図１２は、トリガーが検出された場合に分岐シナリオへ分岐したときに表示する画像を示す説明図である。図１２には、撮像画像の中からトリガーとして設定された包丁ＫＮが検出されて、分岐シナリオへ分岐したときに表示するテキスト画像ＴＸ２とＡＲ画像である画像ＡＲ２が示されている。テキスト画像ＴＸ２は、うろこ取りＴＬを用いて魚ＦＳのうろこを剥ぎ取ることを促すための文字画像であり、分岐シナリオに分岐された場合に表示するための付加された付加情報である。テキスト画像ＴＸ２は、ＡＲシナリオを実行している装置が画像を表示できる表示範囲と対応付けられて表示されるように設定されている。画像ＡＲ２は、トリガーとして検出されて包丁ＫＮが魚ＦＳのうろこを剥ぎ取ることとは関係がないことを示すための「×」を表すＡＲ画像である。画像ＡＲ２は、トリガーである包丁ＫＮが検出された場合に、分岐シナリオにおいて、表示するように設定された付加情報である。画像ＡＲ２は、検出された包丁ＫＮの位置に対応付けて表示されるように設定されている。

分岐シナリオが設定されると（図１０のステップＳ４８）、マイク３３または操作部３４は、選択された基本シナリオに対して、さらに、別の分岐シナリオを追加するか否かの操作を受け付ける（ステップＳ５０）。別の分岐シナリオを追加する操作を受け付けた場合には（ステップＳ５０：ＹＥＳ）、ＡＲシナリオ操作設定部１７は、ステップＳ４６以降の処理を実行する。

ステップＳ５０の処理において、別の分岐シナリオを追加する操作が受け付けられなかった場合には（ステップＳ５０：ＮＯ）、ＡＲシナリオ操作設定部１７は、選択された基本シナリオに設定した分岐シナリオを合わせて複合シナリオとして作成し、作成した複合シナリオをデータ記憶部５０に保存し、複合シナリオ作成処理を終了する。

Ａ−４．複合シナリオの実行：
画像処理装置１００によって作成された複合シナリオが実行される複合シナリオ実行処理について説明する。複合シナリオ実行処理では、外景の物体を検出でき、かつ、画像表示部にＡＲ画像を表示できる装置が、外景の中から検出された特定の物体に基づいて、特定の複合シナリオを実行する処理である。なお、複合シナリオを実行できる装置としては、例えば、外景の物体を検出するための撮像カメラが搭載されたＨＭＤなどがある。

図１３は、頭部装着型表示装置２００（ＨＭＤ２００）の外観構成を示す説明図である。ＨＭＤ２００は、使用者が虚像を視認すると同時に外景も直接視認可能な光学透過型の頭部装着型表示装置である。ＨＭＤ２００は、使用者の頭部に装着された状態において使用者に虚像を視認させる画像表示部８０と、画像表示部８０を制御する制御部７０（コントローラー７０）と、を備えている。

画像表示部８０は、使用者の頭部に装着される装着体であり、眼鏡形状を有している。画像表示部８０は、右表示駆動部８２と、左表示駆動部８４と、右光学像表示部８６と、左光学像表示部８８と、カメラ８９と、デプスセンサー９１と、９軸センサー８７と、を含んでいる。右光学像表示部８６および左光学像表示部８８は、それぞれ、使用者が画像表示部８０を装着した際に使用者の右および左の眼前に位置するように配置されている。右表示駆動部８２と左表示駆動部８４とは、使用者が画像表示部８０を装着した際の使用者の頭部に対向する側に配置されている。

表示駆動部８２，８４は、液晶ディスプレイで形成されている。光学部材としての光学像表示部８６，８８は、導光板と調光板とを含んでいる。導光板は、光透過性の樹脂材料等によって形成され、表示駆動部８２，８４から出力された画像光を使用者の眼に導く。調光板は、薄板状の光学素子であり、使用者の眼の側とは反対の側である画像表示部８０の表側を覆うように配置されている。

カメラ８９は、使用者が画像表示部８０を装着した際の使用者の眉間に対応する位置に配置されている。そのため、カメラ８９は、使用者が画像表示部２０を頭部に装着した状態において、使用者の視線方向の外部の景色である外景を撮像し、撮像した画像である撮像画像を取得する。デプスセンサー９１は、撮像範囲に含まれる対象物までの距離を測定する距離センサーである。

９軸センサー８７は、利用者の右側のこめかみに対応する位置に配置されている。９軸センサー８７は、加速度（３軸）、角速度（３軸）、地磁気（３軸）を検出するモーションセンサーである。９軸センサー８７は、画像表示部８０に設けられているため、画像表示部８０が利用者の頭部に装着されているときには、ヘッドマウントディスプレイ２００の利用者の頭部の動きを検出する動き検出部として機能する。ここで、頭部の動きとは、頭部の速度・加速度・角速度・向き・向きの変化を含む。

画像表示部８０は、さらに、画像表示部８０を制御部７０に接続するための接続部８５を有している。接続部８５の一部は、右イヤホン８１および左イヤホン８３に延伸している。接続部を構成するコードとしては、例えば、金属ケーブルや光ファイバーを採用できる。画像表示部８０と制御部７０とは、接続部８５を介して各種信号の伝送を行なう。

制御部７０は、ＨＭＤ２００を制御するための装置である。制御部７０は、複数のキーやトラックパッドなどによって構成される操作部である。制御部７０の複数のキーは、押下操作を検出して、画像表示部８０へと押下されたキーに対応する制御信号を送信する。制御部７０のトラックパッドは、トラックパッドの操作面上での使用者の指の操作を検出して、検出内容に応じた信号を出力する。

制御部７０は、画像表示部８０を制御するＣＰＵ７５（図示しない）を有している。ＣＰＵ７５は、無線通信などを介して受信したデータ記憶部５０に保存された複合シナリオを実行する。制御部７０が所定のキー操作受け付けると、ＣＰＵ７５は、カメラ８９が撮像した撮像画像の中から、複合シナリオの中の基本シナリオに含まれるＡＲ画像に対応付けられた物体（以下、「対応物体」とも呼ぶ）を検出する。ＣＰＵ７５は、検出した対応物体の位置に対応付けて、基本シナリオに含まれるＡＲ画像を画像表示部８０の光学像表示部８６，８８に表示させる。また、ＣＰＵ７５は、カメラ８９が撮像した撮像画像の中から、基本シナリオから分岐シナリオへと分岐するためのトリガーとしての対象（以下、「トリガー対象」とも呼ぶ）の画像を検出する。ＣＰＵ７５は、カメラ８９の撮像画像の中からトリガー対象の画像を検出すると、基本シナリオから分岐シナリオへと分岐し、分岐シナリオに基づくＡＲ画像を光学像表示部８６，８８に表示させる。

図１４は、複合シナリオ実行処理のフローチャートである。複合シナリオ実行処理では、初めに、使用者の頭部に装着されたＨＭＤ２００の制御部７０が複合シナリオ処理を実行する操作を受け付けたか否かを判定する（ステップＳ６１）。制御部７０が複合シナリオを実行する操作を受け付けなかった場合には（ステップＳ６１：ＮＯ）、ＨＭＤ２００は、複合シナリオ実行処理を終了する。

ステップＳ６１の処理において、制御部７０は、複合シナリオを実行する操作を受け付けた場合には（ステップＳ６１：ＹＥＳ）、実行する複合シナリオを使用者に選択させるための画像を画像表示部８０の光学像表示部８６，８８に表示させる（ステップＳ６３）。使用者は、光学像表示部８６，８８に表示された画像を視認し、制御部７０のキーを操作することで、実行する１つの複合シナリオを選択できる。複合シナリオが選択されると、制御部７０のＣＰＵ７５は、カメラ８９が撮像した撮像画像の中から、選択された複合シナリオの中の基本シナリオに含まれるＡＲ画像に対応付けられた対応物体を検出する（ステップＳ６５）。ＣＰＵ７５は、撮像画像の中から、パターンマッチングや統計的識別法を用いて、ＡＲ画像の対応物体を検出する。また、ＣＰＵ７５は、デプスセンサー９１が測定した対応物体までの距離を測定する。なお、本実施形態では、１つの複合シナリオが選択されたが、他の実施形態では、複数の複合シナリオが選択されて、検出された対応物体によって実行される複合シナリオが決定されてもよい。実行される複合シナリオの数や複合シナリオの選択の方法については、種々変形可能である。

ＣＰＵ７５は、撮像画像の中から対応物体を検出すると、撮像画像の中における対応物体の位置を特定し、特定した対応物体の位置に対応付けて、複合シナリオに含まれるＡＲ画像や付加情報を表示する（ステップＳ６７）。ＨＭＤ２００では、カメラ８９の撮像範囲と使用者が視認する光学像表示部８６，８８に表示される画素の位置とが整合するように予め設定されているため、ＣＰＵ７５が対応物体に対応付けてＡＲ画像を光学像表示部８６，８８に表示すると、使用者は、現実の対応物体の位置に対応付けられたＡＲ画像を視認できる。また、ＣＰＵ７５は、デプスセンサー９１によって測定された対応物体までの距離に対応させてＡＲ画像を立体視表示することもできる（ここでいう立体視表示とは、左右眼用の２つのＡＲ画像間に視差を付けて表示することである）。なお、ＣＰＵ７５は、対応物体を検出しない場合には、複合シナリオに含まれるＡＲ画像を表示しない。また、付加情報には、例えば、テキスト画像などの光学像表示部８６，８８に表示される画像だけでなく、イヤホン８１，８３を介して、出力される音声等も含まれる。

図１５は、実行される複合シナリオに設定された対応物体が検出された場合に使用者が視認する視野ＶＲを示す説明図である。図１５に示すように、使用者が視認する視野ＶＲには、頭部に装着した画像表示部８０の光学像表示部８６，８８を透過した外景ＳＣと、光学像表示部８６，８８に表示されたうろこ取りＴＬの画像ＡＲ１およびテキスト画像ＴＸ１と、が含まれている。外景ＳＣには、まな板の上に置かれている魚ＦＳが含まれる。うろこ取りＴＬの画像ＡＲ１およびテキスト画像ＴＸ１は、ＣＰＵ７５によって撮像画像の中から検出された魚ＦＳの位置に対応付けられて光学像表示部８６，８８に表示される。画像ＡＲ１は、静止画ではなく、魚ＦＳの頭から尻尾までを往復する動画である。

ＣＰＵ７５は、複合シナリオに含まれるＡＲ画像を光学像表示部８６，８８に表示すると（図１４のステップＳ６７）、カメラ８９の撮像画像の中から、分岐シナリオに分岐するためのトリガー対象の画像の検出を監視する（ステップＳ６９）。ＣＰＵ７５は、撮像画像の中からトリガー対象の画像を検出した場合には（ステップＳ６９：ＹＥＳ）、検出したトリガー対象に対応付けられた分岐シナリオに分岐して実行する（ステップＳ７３）。ＣＰＵ７５は、実行するＡＲシナリオを分岐シナリオに分岐させると、分岐シナリオに含まれるＡＲ画像に対応付けられた対応物体を検出する（ステップＳ６５）。ＣＰＵ７５は、検出した対応物体の位置を特定し、特定した対応物体の位置に対応付けて、分岐シナリオに含まれるＡＲ画像を表示させる（ステップＳ６７）。なお、分岐シナリオに含まれるＡＲ画像に対応付けられた対応物体とトリガー対象とは、同じ物体であってもよいし、異なる物体であってもよい。

図１６は、実行される分岐シナリオに設定されたトリガー対象が検出された場合に使用者が視認する視野ＶＲを示す説明図である。図１６に示すように、使用者が視認する視野ＶＲには、頭部に装着した画像表示部８０の光学像表示部８６，８８を透過した外景ＳＣと、光学像表示部８６，８８に表示された「×」を表す画像ＡＲ２およびテキスト画像ＴＸ２と、が含まれている。外景ＳＣには、まな板の上に置かれている魚ＦＳと、使用者が右手に持っている包丁ＫＮと、が含まれている。テキスト画像ＴＸ２は、ＣＰＵ７５によって撮像画像の中から検出された魚ＦＳの位置に対応付けられて光学像表示部８６，８８に表示される。画像ＡＲ２は、撮像画像の中から検出された包丁ＫＮの位置に対応付けられて光学像表示部８６，８８に表示される。

図１４のステップＳ６９の処理において、ＣＰＵ７５は、撮像画像の中からトリガー対象の画像を検出しなかった場合には（ステップＳ６９：ＮＯ）、複合シナリオの中の実行しているＡＲシナリオ（以下、「実行シナリオ」とも呼ぶ）を終了させるか否かを判定する（ステップＳ７１）。ＣＰＵ７５は、実行シナリオを終了させる操作を制御部７０が受け付けた場合や実行シナリオを表示する必要がないと判定した場合に、実行シナリオを終了させる。ＣＰＵ７５が実行シナリオを表示する必要がないと判断する例としては、魚ＦＳのうろこ取りを促すＡＲシナリオが実行されている場合に、カメラ８９の撮像範囲において、魚ＦＳの表面に魚ＦＳのうろこが存在しないと判定された場合などがある。

ステップＳ７１の処理において、ＣＰＵ７５は、実行シナリオの終了を終了させないと判定した場合には（ステップＳ７１：ＮＯ）、引き続き、実行シナリオに含まれるＡＲ画像および付加情報を光学像表示部８６，８８に表示させる。ステップＳ７１の処理において、実行シナリオを終了させると判定された場合には（ステップＳ７１：ＹＥＳ）、ＨＭＤ２００は、複合シナリオ実行処理を終了する。

以上説明したように、本実施形態の画像処理装置１００では、ＡＲ画像抽出部２１は、物体認識部１３および３Ｄモデル生成部１４によって認識された１つ１つの物体の内の移動物体のＡＲ画像を生成する。そのため、本実施形態の画像処理装置１００では、動いている物体を特定するだけで、特定した物体に対応するＡＲ画像が生成されるため、使用者は、例えば、作業支援等のＡＲシナリオを簡単に作成でき、使用者の使い勝手が向上する。

また、本実施形態の画像処理装置１００では、ＡＲ画像抽出部２１は、ＡＲ画像を生成する対象の移動領域を、不要画像消去部１９によって消去された物体に対応付けてＡＲ画像を生成する。そのため、本実施形態の画像処理装置１００では、生成されたＡＲ画像を含むＡＲシナリオが実行された場合に、ＡＲ画像は、ＡＲ画像に対応付けられた現実に存在する物体の位置や大きさ等に対応付けられて表示される。例えば、ＡＲシナリオが作業等の支援動画であった場合には、作業を行なう対象にＡＲ画像を重畳させることで、使用者の作業性がより向上し、使用者の使い勝手が向上する。

また、本実施形態の画像処理装置１００では、ＡＲ画像抽出部２１は、生成するＡＲ画像に対応付ける対象の大きさに、ＡＲ画像を生成する対象の大きさや移動領域を対応付けて、ＡＲ画像を生成する。そのため、本実施形態の画像処理装置１００では、生成されたＡＲ画像を含むＡＲシナリオが実行された場合に、ＡＲ画像は、ＡＲ画像に対応付けられた現実に存在する物体の位置や大きさ等により対応付けられて表示され、使用者の使い勝手がより向上する。

以上説明したように、本実施形態の画像処理装置１００では、距離センサー３２が撮像した対象の表面までの距離を測定し、物体認識部１３が３Ｄモデル生成部１４によって生成された三次元モデルを用いて、撮像画像の中に含まれる１つ１つの物体を認識する。ＡＲ画像抽出部２１は、不要画像消去部１９によって消去された静止物体以外の移動している移動物体のＡＲ画像を生成する。そのため、本実施形態の画像処理装置１００では、所定の範囲が撮像されるだけで、距離が測定された移動物体のＡＲ画像を含むＡＲシナリオを作成できるため、使用者が簡単にＡＲシナリオを作成でき、使用者の利便性が向上する。

また、本実施形態の画像処理装置１００では、不要画像消去部１９は、操作部３４が受け付けた操作に基づいて、撮像画像の中から選択された移動物体や静止物体を、ＡＲ画像を生成しない対象として消去する。すなわち、不要画像消去部１９は、生成されるＡＲ画像の対象を選択している。そのため、本実施形態の画像処理装置１００では、ＡＲ画像として、生成される必要がない移動物体や生成される必要がある静止物体が選択され、使用者がより使いやすいＡＲシナリオや複合シナリオを作成でき、使用者の使い勝手が向上する。

また、本実施形態の画像処理装置１００では、不要画像消去部１９は、撮像画像に含まれる移動物体以外の静止物体をＡＲ画像として生成されない対象として消去し、ＡＲ画像抽出部２１は、不要画像消去部１９によって消去されなかった撮像画像に含まれる移動物体のＡＲ画像を生成する。そのため、本実施形態の画像処理装置１００では、ＡＲ画像を生成する対象を選択する操作が行なわれなくても、自動的に移動物体のＡＲ画像を生成する。よって、例えば、ＡＲシナリオが作業等の支援動画であり、作業では何らかの対象を移動させる必要がある場合に、移動させるべき物体である移動物体のＡＲ画像が自動的に生成され、使用者の使い勝手が向上する。

また、本実施形態の画像処理装置１００では、不要画像消去部１９は、撮像画像の中から、物体認識部１３によって抽出された人体のパーツを消去し、ＡＲ画像抽出部２１は、撮像画像の中から消去された人体のパーツをＡＲ画像として生成しない。そのため、本実施形態の画像処理装置１００では、ＡＲシナリオが実行されている場合に、移動させるべき物体を動かすための手段である人の手などが表示されないため、使用者は、手などの不要なＡＲ画像を視認せずに済み、使用者の利便性が向上する。

また、本実施形態の画像処理装置１００では、ＡＲ画像抽出部２１は、撮像中の移動物体が移動している間に、マイク３３によって取得された音声を対応付けて、移動物体を対象とするＡＲ画像を生成する。そのため、本実施形態の画像処理装置１００では、作成されるＡＲシナリオには、撮像画像を基に生成されたＡＲ画像のような視覚的な情報に加えて、音声といった聴覚的な情報にも対応付けられたＡＲ画像が含まれるので、使用者の利便性が向上する。

また、本実施形態の画像処理装置１００では、マイク３３によって取得された音声をテキスト画像として、移動物体と対応付けてＡＲ画像を生成するため、音声を視覚的な情報としてＡＲ画像と並列して生成でき、使用者が情報を認識しやすく、使用者の利便性がより向上する。

また、本実施形態の画像処理装置１００では、ＡＲ画像抽出部２１は、ＲＧＢカメラ３１によって取得された撮像範囲のＲＧＢデータを用いて、生成したＡＲ画像に対して着色を行なう。そのため、本実施形態の画像処理装置１００では、生成されたＡＲ画像が、着色が行なわれていないＡＲ画像と比較して、撮像画像に含まれる対象により似ているため、使用者がＡＲ画像をより認識しやすく、使用者の利便性がより向上する。

また、本実施形態の画像処理装置１００では、分岐シナリオに分岐するためのトリガー設定などの複合シナリオの編集時において、ＡＲ画像抽出部２１は、編集状態であることを示す編集画像ＫＣをＡＲシナリオに挿入する。そのため、本実施形態の画像処理装置１００では、ＡＲシナリオに編集などがされている場合に、編集がされていることを視覚的な情報として使用者に認識させるための画像が編集されているＡＲシナリオに挿入されるため、使用者の使い勝手が向上する。

また、本実施形態の画像処理装置１００では、ＡＲ画像として、三次元モデルが３６０度のどの向きから見てもよいように生成されているため、ＡＲシナリオが実行された場合に、使用者は、どの向きからも三次元モデルを確認でき、使用者の利便性が向上する。

Ｂ．第２実施形態：
図１７は、第２実施形態における画像処理装置１００ａの構成を機能的に示すブロック図である。第２実施形態では、センサー制御部１５ａから送信されたＲＧＢＤデータがストリーミングデータとして出力されることで、３Ｄモデル生成部１４ａと物体認識部１３ａと物体トラッキング部１２ａとが撮像範囲に含まれる対象等の全ての三次元モデルを生成し、生成した三次元モデルをストリーミングデータとしてＡＲシナリオ制御部１１ａに送信する点が第１実施形態と異なる。

図１８は、第２実施形態におけるＡＲシナリオ作成処理の一部のフローチャートである。第２実施形態のＡＲシナリオ作成処理では、センサー制御部１５ａが外景を撮像して画素ごとのＲＧＢＤデータをストリーミングデータとして出力している間、所望の三次元モデルがストリーミングデータとして出力されるため、図１８のステップＳ２４ａの処理が第１実施形態のＡＲ作成シナリオ処理（図３）のステップＳ２４の処理と異なる。そのため、第２実施形態では、図１８のステップＳ２４ａについて説明し，その他の処理の説明を省略する。図１８のステップＳ２４ａの処理において、センサー制御部１５からの画素ごとのＲＧＢＤデータのストリーミングデータに基づいて、三次元モデル生成部１４が、撮像範囲内に存在する実物体・実環境の対象をすべて含んだ三次元モデル（以下、単に「全体三次元モデル」と呼ぶ）を生成する。本実施形態では、具体的には、三次元モデル生成部１４は、カメラ３３１、３３２，３３２からのそれぞれの視点からのそれぞれの三次元モデルを生成し、これらの三次元モデルを１つに融合し、カメラ３３１、３３２，３３３からの視点に依存しない全体三次元モデルを得る。本実施形態では、全体三次元モデルは、ポリゴンメッシュ（たとえばレンダリングされたテクスチャー・トライアングル・メッシュ）のデータで表されている。そして、３Ｄモデル生成部１４ａは、その全体三次元モデルのデータをストリーミングデータとして出力する。なお、以降では、ストリーミングデータとして出力することを、単にストリーミング出力するともいう。

次に、物体認識部１３ａは、センサー制御部１５ａから送信された画素ごとのＲＧＢＤデータのうち、ＲＧＢデータのストリーミングデータに基づいて、全ての三次元モデルに含まれる個々の要素である三次元モデル（以下、単に「要素三次元モデル」とも呼ぶ）を区別して認識する。第２実施形態では、三次元モデルを区別する方法として、例えば、物体認識部１３ａは、ＲＧＢデータ内でエッジ検出などにより、実物体を区別し、区別した実物体がＲＧＢデータで表される画像空間に占める領域を、全体三次元モデルの空間における領域に対応付ける。そうすると、全体三次元モデルのうち当該領域に含まれる部分（要素三次元モデル）が他の部分から区別される。物体認識部１３ａは、三次元モデルの区別の結果に応じて、全体三次元モデルに含まれる要素三次元モデルを修正する。

物体トラッキング部１２ａは、センサー制御部１５ａから送信されたＲＧＢデータのストリーミングデータに対して画像処理を行なうことで、移動している実物体（移動物体）と静止している実物体とを特定する。物体トラッキング部１２ａは、特定した移動物体をＲＧＢデータで表される画像空間内で追跡する。

ＡＲシナリオ制御部１１ａは、物体認識部１３ａが特定した全体三次元モデルの中の要素三次元モデルの内、物体トラッキング部１２ａが追跡する移動物体に対応する要素三次元モデルをストリーミング出力する。物体トラッキング部１２がストリーミング出力する要素三次元モデルには、三次元モデルの移動だけでなく、向きを含む姿勢の変化（例えば、回転など）も含まれる。なお、ストリーミング出力される要素三次元モデルは、本実施形態では、ポリゴンメッシュのデータで表されている。

ＡＲ画像抽出部２１は、ＡＲシナリオ制御部１１ａがストリーミング出力した要素三次元モデルに不要な部分が含まれる場合に、当該要素三次元モデルから不要な部分を消去する。ＡＲ画像抽出部２１によって判断される不要な部分は、複数の要素三次元モデルの内の１つの要素三次元モデルや、要素三次元モデルの一部、例えば、対象である実物体を覆っている人間の体の一部分（例えば、手）を表す要素三次元モデルの部分などがある。ＡＲ画像抽出部２１は、要素三次元モデルから不要な部分を削除した後に残った要素三次元モデルをストリーミング出力する。

データ記憶部５０は、ＡＲ画像抽出部２１によってストリーミング出力された要素三次元モデルを抽出三次元モデルとして記録する。その後、ＡＲシナリオ制御部１１ａは、記録された抽出三次元モデルを用いて、ＡＲシナリオを作成する。ＡＲシナリオに含まれるＡＲ画像は、抽出三次元モデルを表す画像であってもよいし、抽出三次元モデルの外観を修正した画像であってもよい。また、抽出三次元モデルは、ＡＲシナリオ作成処理の撮像開始時に撮像された三次元モデル（例えば、図５で示すようなうろこ取りＴＬの三次元モデル）であってもよいし、または、ＣＡＤデータによるものなどその他の三次元モデルに置き換えてもよい。この場合、要素三次元モデルから不要な部分を削除した後でも、例えば、手などで隠された部分が欠如しないないＡＲ画像が実現する。また、本実施形態のＡＲ画像は、三次元モデルのストリームデータ（例えば、ポリゴンメッシュのストリームデータ）によって表されている。このため、ストリームデータの始点と終点との間で規定される時間期間内の任意の時点で、ＡＲ画像に対して任意に視点を変え、表示されるＡＲ画像の向きを変えることができる。なお、カメラ３３１〜３３３のいずれか一つからの視点が、ＡＲシナリオ制御部１１ａによって、デフォルト視点情報としてＡＲシナリオに包含されてもよい。

作成されたＡＲシナリオは、ストリーミング出力された移動物体が実際に移動している間に撮像された連続的な動きを備えるＡＲ画像を含んでもよい。なお、ＡＲ画像が連続的に動く時間の長さは、ＡＲ画像の基となる撮像された移動物体が実際に移動している時間と同じであってもよいし、異なっていてもよい。また、ＡＲシナリオは、連続的な動きのＡＲ画像ではなく、離散的な動きのＡＲ画像によって構成されていてもよい。離散的な動きのＡＲ画像として、例えば、ＡＲシナリオにおいて、撮像された移動物体の動き出した時点の状態から移動を終了した時点の状態までの少なくとも一時点の状態がＡＲ画像として生成されてもよいし、動き出した時点と、終了した時点と、動き出した時点から終了した時点までの間の一時点と、を生成したＡＲ画像であってもよい。

Ｃ．第３実施形態：
図１９は、第３実施形態における画像処理装置１００ｂの構成を機能的に示すブロック図である。図２０は、第３実施形態におけるＡＲシナリオ作成処理の一部のフローチャートである。第３実施形態では、第２実施形態の構成と比較して、画像処理装置１００ａのＣＰＵ１０ａが物体認識部１３ａを有しない点が異なり、その他の構成については同じである。図１９に示すように、第３実施形態では、物体認識部１３ａがないため、ＡＲ作成処理のステップＳ２４ｂの処理が第２実施形態のＡＲ作成処理（図１８）のステップＳ２４ａの処理と異なる。第３実施形態では、第２実施形態と異なる点について説明し、同じである点についての説明を省略する。

図１９のステップＳ２４ｂの処理において、物体トラッキング部１２ｂは、３Ｄモデル生成部１４ｂがストリーミング出力した全体三次元モデルを受け取る。そして、物体トラッキング部１２ｂは、全体三次元モデルの中で、動いている三次元モデル（要素三次元モデル）と、動いていない三次元モデルと、を特定（区別）する。そして、物体トラッキング１２ｂは、特定（区別）した要素三次元モデルを、ストリーミング出力する。

Ｄ．変形例：
なお、この発明は上記実施形態に限られるものではなく、その要旨を逸脱しない範囲において種々の態様において実施することが可能であり、例えば、次のような変形も可能である。

Ｄ−１．変形例１：
上記第１実施形態では、魚ＦＳのうろこを取ることを促す基本シナリオと、基本シナリオから包丁ＫＮが検出された場合に分岐する分岐シナリオと、によって構成される複合シナリオについて説明したが、複合シナリオについては、これに限られず、種々変形可能である。例えば、２つのＡＲシナリオから構成された複合シナリオである必要はなく、１つのＡＲシナリオであってもよいし、３つ以上のＡＲシナリオが複合された複合シナリオであってもよい。また、基本シナリオと分岐シナリオとのように、ＡＲシナリオが上と下とで区別されておらず、並列に扱われた複数のＡＲシナリオによって複合シナリオが作成されてもよい。

上記実施形態では、ＲＧＢカメラ３１やマイク３３によって取得されたデータに基づいて、ＡＲ画像等の生成が行なわれたが、必ずしもこれらの装置は必須の構成ではなく、これらの装置については、種々変形可能である。例えば、画像処理装置１００は、ＲＧＢカメラ３１、マイク３３、操作部３４、表示部３５を備える必要はなく、自動的に撮像した撮像範囲の中の移動物体のＡＲ画像のみを作成して、ＡＲシナリオを作成してもよい。また、ＣＰＵ１０は、付加情報取得部１８を有する必要はなく、単に、撮像画像のみの画像データに基づいて、ＡＲシナリオを作成してもよい。

上記第１実施形態では、ＡＲシナリオ操作設定部１７は、基本シナリオと分岐シナリオとによって構成される複合シナリオを作成するときに、基本シナリオから分岐シナリオへと分岐する際のトリガーを設定する場合に、編集画像ＫＣのような画像を表示させたが、必ずしもこのような画像を表示させる必要はない。ＡＲシナリオ操作設定部１７は、編集時に、編集画像ＫＣの画像を表示させる代わりに、ＡＲ画像等の色を変更させて表示させることで、トリガーを設定していること使用者に認識させてもよい。また、ＡＲシナリオ操作設定部１７は、編集画像ＫＣの画像を表示させる代わりに、音声を出力させることで、使用者にトリガーを設定していることを使用者に認識させてもよい。この変形例では、音声で使用者に編集等の状態を認識させることができるため、編集画像ＫＣなどの画像を表示する場合と比較して、編集画像ＫＣがＡＲ画像に重複することがなく、編集時等の使用者の使い勝手がより向上する。

また、上記実施形態では、３台のカメラ３１１，３１２，３１３と、３台の距離センサー３２１、３２２、３２３によって撮像されたが、１台のカメラによって撮像されてもよいし、１対のカメラと距離センサーによって撮像されてもよい。例えば、ＨＭＤに搭載された１対のカメラ３１１および距離センサー３２１によって、外景ＳＣが撮像され、ＨＭＤの装着者が被写体ＯＢ（実演者）となって、被写体ＯＢの行動または作業がトラッキングされることで、ＡＲシナリオが作成されてもよい。この場合、被写体ＯＢの頭部の動きによって撮像範囲が変化しても、ＨＭＤに搭載された９軸センサー８７などによって、実空間と三次元モデルの空間との対応関係を補正できる。また、１台のカメラであっても、容易に二次元モデルまたは三次元モデルのＡＲ画像を含むＡＲシナリオを作成できる。この場合、ＡＲ画像またはＡＲシナリオを生成する画像処理装置１００は、ＨＭＤ上のプロセッサーおよび記憶装置によって実現されてもよいし、ＨＭＤとネットワーク（例えば、無線ＬＡＮ）経由で双方向に通信可能な外部のコンピューターに包含されたプロセッサーおよび記憶装置によって実現されてもよい。

そして、この場合において、手などに隠されることよってＡＲ画像に遮蔽部分が生じることを防ぐ方法の一つは、上記の方法に加えて、以下の方法がある。それはたとえば、ＡＲシナリオ作成時に、ＨＭＤを装着した実演者に対して、当該ＨＭＤが「あなたが持っている物を違う角度や向きで見せて」など視覚または聴覚に訴えるメッセージを提示し、当該物の異なる角度又は向きの画像をカメラ３１１・距離センサー３２１が取得した場合に、異なる角度又は向きからの画像を合成して１つの三次元モデルとすることも可能である。

また、上記実施形態では、不要画像消去部１９が不要な物体をＡＲ画像として生成しないように削除したが、不要な物体の処理については、種々変形可能である。例えば、不要な物体を、移動物体と同様にＡＲ画像として生成してもよいし、ＲＧＢデータを変化させることで、半透明のＡＲ画像や二次元の画像として生成してもよい。この変形例では、例えば、作成されたＡＲシナリオを実行している使用者がうろこ取りＴＬの持ち方などがわからない場合に、被写体ＯＢの手の部分の画像をうろこ取りＴＬのＡＲ画像と対応付けて表示させることで、使用者の利便性が向上する。

Ｄ−２．変形例２：
また、ＣＰＵ１０は、自動学習部を有していてもよい。自動学習部は、撮像画像に含まれる物体の画像についての姿勢や位置を学習することで、移動物体や規格が決まっていない不定形物も認識できる。また、自動学習部は、複数認識アルゴリズムによって、形状、色、模様といった最適な組み合わせを自動選択することで、環境変化（例えば、工程の変化や照明の変化）に対する順応性が高い学習型の認識を実現できる。

上記実施形態では、ＡＲ画像が生成される対象と、当該対象から所定の範囲内の検出される対応物体との位置関係が対応付けられたが、必ずしも、ＡＲ画像が生成される対象から近い距離の対応物体との位置関係に対応付けられてＡＲ画像が生成されなくてもよい。例えば、撮像画像の中から検出された対応物体の位置関わらず、対応物体が検出されると、予め設定された位置にＡＲ画像が表示されてもよい。また、対応物体とＡＲ画像との位置関係は、操作部３４が受け付けた操作によって、適宜、設定されてもよい。

また、上記実施形態では、不要画像消去部１９は、検出された対応物体の位置に対応付けてＡＲ画像を生成したが、必ずしも、検出された対応物体の位置に対応付けて、ＡＲ画像を生成する必要はない。例えば、ＡＲ画像は、マイク３３によって取得された使用者の音声に対応付けられて生成されてもよい。

第１実施形態および第２実施形態では、被写体ＯＢが行う行動または作業として、料理を作る作業を例示して実施形態を説明した。しかし、本発明の他の態様は、工場における機械部品の取付け、機械の点検、その他、機械的な実物体に対して行う作業の際に表示されるＡＲ画像を作成する実施形態に適用できる。また、本発明のさらに他の態様は、レゴ社のレゴ（登録商標）ブロックの組み立て方など、玩具を使った作業（レジャーやゲーム）の際に表示されるＡＲ画像を作成する実施形態にも適用できる。

本発明は、上記実施形態や変形例に限られるものではなく、その趣旨を逸脱しない範囲において種々の構成で実現することができる。例えば、発明の概要の欄に記載した各形態中の技術的特徴に対応する実施形態、変形例中の技術的特徴は、上述の課題の一部または全部を解決するために、あるいは、上述の効果の一部または全部を達成するために、適宜、差し替えや、組み合わせを行なうことが可能である。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜、削除することが可能である。

１０…ＣＰＵ
１１…ＡＲシナリオ制御部
１２…物体トラッキング部（対象選択部）
１３…物体認識部
１４…３Ｄモデル生成部
１５…センサー制御部
１６…ＵＩ制御部
１７…ＡＲシナリオ操作設定部
１８…付加情報取得部
１９…不要画像消去部
２０…画像表示部
２１…ＡＲ画像抽出部（画像生成部）
３１…ＲＧＢカメラ（撮像部）
３２…距離センサー（距離測定部）
３３…マイク（操作受付部、音声取得部）
３４…操作部（操作受付部）
３５…表示部
５０…データ記憶部
６０…電源
７０…制御部
７５…ＣＰＵ
８０…画像表示部
８１…右イヤホン
８２…右表示駆動部
８３…左イヤホン
８４…左表示駆動部
８５…接続部
８６…右光学像表示部
８７…９軸センサー
８８…左光学像表示部
８９…カメラ
９１…デプスセンサー
１００…画像処理装置
１６１…テキスト変換部
２００…ＨＭＤ
３１１…第１カメラ（撮像部）
３１２…第２カメラ（撮像部）
３１３…第３カメラ（撮像部）
３２１…第１距離センサー（距離測定部）
３２２…第２距離センサー（距離測定部）
３２３…第３距離センサー（距離測定部）
ＯＢ…被写体
ＳＣ…外景
ＫＣ…編集画像（特定の画像）
ＴＬ…うろこ取り
ＫＮ…包丁
ＶＲ…視野
ＦＳ…魚
ＡＲ１，ＡＲ２…画像
ＴＸ１、ＴＸ２…テキスト画像

Claims

画像処理装置であって、
少なくとも１つの対象を撮像する外景センサーと、
撮像された前記対象の内、動いている前記対象の少なくとも１つに対応する仮想の画像を生成する画像生成部と、を備える、画像処理装置。
請求項１に記載の画像処理装置であって、
前記画像生成部は、前記仮想の画像が生成される前記対象である画像生成対象の移動領域を、撮像された前記対象の内の前記画像生成対象を除く前記対象の少なくとも１つに対応付けて、前記画像生成対象の前記仮想の画像を生成する、画像処理装置。
請求項２に記載の画像処理装置であって、
前記画像生成部は、前記画像生成対象の前記移動領域に対応付けられる前記対象の大きさに、前記仮想の画像の大きさと前記移動領域との少なくとも一方を対応付けた前記仮想の画像を生成する、画像処理装置。
請求項１から請求項３までのいずれか一項に記載の画像処理装置であって、さらに、
操作を受け付ける操作受付部を備え、
前記画像生成部は、受け付けられた前記操作に基づいて、不要な部分を消去して前記仮想の画像を生成する、画像処理装置。
請求項１から請求項４までのいずれか一項に記載の画像処理装置であって、
前記画像生成部は、前記仮想の画像として、撮像された前記複数の対象の内、動いている前記対象が動いている間に対応する画像を自動的に生成する、画像処理装置。
請求項１から請求項５までのいずれか一項に記載の画像処理装置であって、さらに、
対象選択部を備え、
前記対象選択部は、前記少なくとも１つの対象として、人の体の形状と、人の体以外の形状とを識別し、
前記画像生成部は、撮像された前記対象の内、人の体の形状に対応する前記仮想の画像を生成しない、画像処理装置。
請求項１から請求項６までのいずれか一項に記載の画像処理装置であって、さらに、
外部の音声を取得する音声取得部を備え、
前記画像生成部は、前記仮想の画像が生成される前記対象である画像生成対象と、前記画像生成対象が動いている間に取得された音声と、を対応付けて前記仮想の画像を生成する、画像処理装置。
請求項７に記載の画像処理装置であって、
前記画像生成部は、取得された音声を文字画像として、前記仮想の画像と対応付けて生成する、画像処理装置。
請求項１から請求項８までのいずれか一項に記載の画像処理装置であって、さらに、
前記対象までの距離を測定する距離計測部を備え、
前記画像生成部は、測定された距離に基づいて前記仮想の画像を生成する、画像処理装置。
請求項１から請求項９までのいずれか一項に記載の画像処理装置であって、
前記画像生成部は、前記仮想の画像が時間に沿って変化する仮想の動画である場合に、前記仮想の動画の特定の時点に、特定の画像を挿入する、画像処理装置。
請求項１から請求項１０までのいずれか一項に記載の画像処理装置であって、さらに、
外部の音声を取得する音声取得部を備え、
前記画像生成部は、前記仮想の画像が時間に沿って変化する仮想の動画である場合に、前記仮想の動画の特定の時点と、取得された前記音声と、を対応付けて前記仮想の動画を生成する、画像処理装置。
画像処理装置の制御方法であって、
少なくとも１つの対象を撮像する工程と、
撮像された前記対象の内、動いている前記対象の少なくとも１つに対応する仮想の画像を生成する工程と、を備える、制御方法。
画像処理装置のためのコンピュータープログラムであって、
少なくとも１つの対象を撮像する対象撮像機能と、
撮像された前記対象の内、動いている前記対象の少なくとも１つに対応する仮想の画像を生成する画像生成機能と、をコンピューターに実現させる、コンピュータープログラム。