JP7441289B1

JP7441289B1 - コンピュータプログラム、情報処理端末、及びその制御方法

Info

Publication number: JP7441289B1
Application number: JP2022182029A
Authority: JP
Inventors: 良太片野; 剛山本; 光国 ▲高▼堀; 虎太郎尾嶋; 規悦青木; 裕司永野
Original assignee: Bandai Co Ltd
Current assignee: Bandai Co Ltd
Priority date: 2022-11-14
Filing date: 2022-11-14
Publication date: 2024-02-29
Anticipated expiration: 2042-11-14
Also published as: JP2024071199A; JP2024071379A; WO2024106328A1

Abstract

【課題】本発明は例えば、現実空間の撮像画像に好適にオブジェクトを合成して出力する仕組みを提供する。【解決手段】本情報処理端末は、所定の模型を含む周辺環境を撮像し、撮像された撮像画像の各画素について、カメラからの距離情報を取得する。また、本情報処理端末は、撮像画像に含まれる所定の模型の少なくとも１つのパーツの姿勢及びカメラからの距離に関する情報を認識し、認識した少なくとも１つのパーツを基準に、生成するオブジェクトの位置情報を決定する。さらに、本情報処理端末は、生成するオブジェクトの各画素のうち、それぞれの位置情報が撮像画像の対応する画素の距離情報よりもカメラに近いことを示す画素をオブジェクトとして描画し、オブジェクト画像を生成し、撮像画像にオブジェクト画像を重畳した合成画像を表示部に出力する。【選択図】図５

Description

本発明は、コンピュータプログラム、情報処理端末、及びその制御方法に関する。

従来より、現実空間に文字やＣＧなどの情報を重畳させてユーザに提示することで、拡張された現実空間を該ユーザに提示するＡＲ（Augmented Reality）などのＸＲ（Cross Reality）技術が様々な分野で利用されている。例えば、特許文献１には、フィギュアの台座に設けられたマークを携帯端末のカメラで認識して、マークに対応付けて用意された演出用の映像等を生成し、携帯端末の画面にフィギュアと映像とを重ね合わせて表示する拡張現実感システムが開示されている。

特許第５５５１２０５号公報

上記従来技術では、フィギュア画像と演出用の映像とを重ね合わせて表示しており、フィギュア画像と演出用の映像とが重複する位置ではフィギュア画像が隠れるようになっている。つまり、上記従来技術では、演出用の映像全てをフィギュア画像の前面に表示している。しかし、立体感や臨場感を出すには、演出用の映像など撮像画像に重ね合わせるオブジェクトは、当該フィギュアとの位置関係に応じてフィギュアの前面に露出したり、背面に隠れたりすることが望ましい。また、撮像した映像にリアルタイムでオブジェクトを付加するために、それらの処理負荷をできる限り低減させる必要がある。

本発明は例えば、現実空間の撮像画像に好適にオブジェクトを合成して出力する仕組みを提供する。

本発明は、例えば、コンピュータプログラムであって、情報処理端末のコンピュータを、所定の模型を含む周辺環境を撮像する撮像手段と、前記撮像手段によって撮像された撮像画像の各画素について、前記撮像手段からの距離情報を取得する取得手段と、前記撮像画像に含まれる前記所定の模型の少なくとも１つのパーツの姿勢及び前記撮像手段からの距離に関する情報を認識する認識手段と、前記認識手段によって認識した前記少なくとも１つのパーツを基準に、生成するオブジェクトの位置情報を決定する位置決定手段と、前記生成するオブジェクトの各画素のうち、それぞれの位置情報が前記撮像画像の対応する画素の距離情報よりも前記撮像手段に近いことを示す画素をオブジェクトとして描画し、オブジェクト画像を生成するオブジェクト生成手段と、前記撮像画像に前記オブジェクト画像を重畳した合成画像を表示部に出力する出力手段と、として機能させることを特徴とする。

また、本発明は、例えば、情報処理端末であって、所定の模型を含む周辺環境を撮像する撮像手段と、前記撮像手段によって撮像された撮像画像の各画素について、前記撮像手段からの距離情報を取得する取得手段と、前記撮像画像に含まれる前記所定の模型の少なくとも１つのパーツの姿勢及び前記撮像手段からの距離に関する情報を認識する認識手段と、前記認識手段によって認識した前記少なくとも１つのパーツを基準に、生成するオブジェクトの位置情報を決定する位置決定手段と、前記生成するオブジェクトの各画素のうち、それぞれの位置情報が前記撮像画像の対応する画素の距離情報よりも前記撮像手段に近いことを示す画素をオブジェクトとして描画し、オブジェクト画像を生成するオブジェクト生成手段と、前記撮像画像に前記オブジェクト画像を重畳した合成画像を表示部に出力する出力手段とを備えることを特徴とする。

また、本発明は、例えば、情報処理端末の制御方法であって、所定の模型を含む周辺環境を撮像手段によって撮像する撮像工程と、前記撮像工程で撮像された撮像画像の各画素について、前記撮像手段からの距離情報を取得する取得工程と、前記撮像画像に含まれる前記所定の模型の少なくとも１つのパーツの姿勢及び前記撮像手段からの距離に関する情報を認識する認識工程と、前記認識工程で認識した前記少なくとも１つのパーツを基準に、生成するオブジェクトの位置情報を決定する位置決定工程と、前記生成するオブジェクトの各画素のうち、それぞれの位置情報が前記撮像画像の対応する画素の距離情報よりも前記撮像手段に近いことを示す画素をオブジェクトとして描画し、オブジェクト画像を生成するオブジェクト生成工程と、前記撮像画像に前記オブジェクト画像を重畳した合成画像を表示部に出力する出力工程とを含むことを特徴とする。

本発明によれば例えば、現実空間の撮像画像に好適にオブジェクトを合成して出力することができる。

一実施形態に係るシステムの構成例を示す図。一実施形態に係る情報処理端末の構成例を示す図。一実施形態に係るシステムが提供するＸＲギミックの一例を示す図。一実施形態に係るＸＲギミックの画面遷移を示す図。一実施形態に係るエフェクト合成に関する機能構成を示す図。一実施形態に係るエフェクト合成の処理手順に応じた一連の画像例を示す図。一実施形態に係る基本制御の処理手順を示すフローチャート。一実施形態に係るエフェクト合成出力の処理手順を示すフローチャート。一実施形態に係る物体認識の処理手順を示すフローチャート。一実施形態に係るオブジェクト生成の処理手順を示すフローチャート。一実施形態に係るボーン構造の生成方法を示す図。一実施形態に係る物体認識の処理手順を示すフローチャート。一実施形態に係るフィギュアの変形例を示す図。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴うち二つ以上の特徴が任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。

＜第１の実施形態＞
＜システム構成＞
以下では本発明の第１の実施形態について説明する。まず図１を参照して、本実施形態に係るシステム構成について説明する。なお、ここでは必要最低限の簡易的な構成について説明するが、本発明を限定するものではない。例えば、各装置については複数の装置が含まれてもよいし、複数のサーバが一体化して設けられてもよい。

本システムは、情報処理端末１０１、アプリケーションサーバ１０２、機械学習サーバ１０３、及びデータベース１０４を含んで構成される。情報処理端末１０１及びアプリケーションサーバ１０２はネットワークを介して相互に通信可能に接続される。アプリケーションサーバ１０２は、ローカルエリアネットワーク（ＬＡＮ）を介して機械学習サーバ１０３に相互に通信可能に接続される。また、機械学習サーバ１０３はＬＡＮを介してデータベース１０４に接続される。

情報処理端末１０１は、例えば、スマートフォン、携帯電話機、タブレットＰＣ等の携帯型の情報処理端末である。カメラ等の撮像部と、撮像した画像を表示する表示部とを少なくとも有する情報処理端末であれば任意の装置であってよい。情報処理端末１０１は、ネットワーク１０５を介してアプリケーションサーバ１０２から、本発明を実施するためのアプリケーションをダウンロードしてインストールする。当該アプリケーションが情報処理端末１０１で実行されることによって、以下で説明する所定の模型を含む撮像画像に、エフェクトオブジェクトを合成した拡張現実を提供することができる。なお、撮像画像は、静止画像及び動画像（映像）の何れであってもよい。また、動画像にエフェクトを付加する場合には、エフェクトオブジェクトをアニメーションとして合成してもよい。

アプリケーションサーバ１０２は、機械学習サーバ１０３において機械学習された学習済みモデルを取得し、当該学習済みモデルを組み込んだアプリケーションを情報処理端末１０１等の外部端末に提供する。機械学習サーバ１０３は、例えば、深層学習の畳み込みニューラルネットワーク（ＣＮＮ）によって、画像情報に含まれるフィギュア（模型）の各パーツを認識する学習済みモデルを生成する。学習データとしては、例えば所定の模型のパーツごとに様々な姿勢や角度から撮影された撮像画像に教師データを付与したデータを用いる。このように所定の模型をパーツ毎に学習させることにより、例えば推定フェーズにおいて所定の模型の全体を認識するよりも、高速に且つ処理負荷を抑えた認識処理を実行することができる。学習データについては、機械学習サーバ１０３で生成してもよいし、外部で生成されたデータを受信してもよい。また、機械学習サーバ１０３は、模型ごとに生成した学習済みモデルをデータベース１０４に格納し、必要に応じてアプリケーションサーバ１０２へ提供する。また、機械学習サーバ１０３は、追加の学習データに基づいて再学習を行うために、データベース１０４から対応する学習済みモデルを読み出して再学習させ、再学習後のモデルをデータベース１０４へ再度格納する。

＜情報処理端末の構成＞
次に、図２を参照して、本実施形態に係る情報処理端末１０１の構成例について説明する。ここでは、本実施形態に係る情報処理端末１０１において本発明を説明する上で重要なデバイスについてのみ説明する。したがって、情報処理端末１０１は代替的に又は追加的に他のデバイスを含んで構成されてもよい。

情報処理端末１０１は、ＣＰＵ２０１、記憶部２０２、通信制御部２０３、表示部２０４、操作部２０５、カメラ２０６、及びスピーカ２０７を備える。各コンポーネントは、システムバス２１０を介して相互にデータを送受することができる。

ＣＰＵ２０１は、システムバス２１０を介して接続された各コンポーネントを全体的に制御する中央処理プロセッサである。ＣＰＵ２０１は、記憶部２０２に記憶されたコンピュータプログラムを実行することにより、後述する各処理を実行する。記憶部２０２は、ＣＰＵ２０１のワーク領域や一時領域として使用されるとともに、ＣＰＵ２０１によって実行される制御プログラムや各種データを記憶している。

通信制御部２０３は広帯域無線通信によりネットワーク１０５を介してアプリケーションサーバ１０２と双方向通信を行うことができる。なお、通信制御部２０３は、広帯域無線通信に加えて又は代えて、無線ＬＡＮ（ＷｉＦｉ）、Bluetooth（登録商標）通信、及び赤外線通信などの近距離無線通信の機能を有してもよい。通信制御部２０３は、例えば広帯域無線通信機能を有しておらず、WiFi通信機能を有している場合、近くのアクセスポイントを介してネットワーク１０５へ接続する。

表示部２０４はタッチパネル式の液晶ディスプレイであり、各種画面を表示するとともに、カメラ２０６によって撮像された静止画像や動画像を表示する。操作部２０５は、表示部２０４と一体化して設けられ、ユーザ操作を受け付ける操作入力部である。また、操作部２０５は、物理的に構成された押下式やスライド式のボタン等を含んでもよい。

カメラ２０６は、情報処理端末１０１の周辺環境を撮像する撮像部であり、例えば情報処理端末１０１において表示部２０４が設けられた裏側に位置することが望ましい。これにより、ユーザはカメラ２０６で撮影しながら、当該撮像画像を表示部２０４で確認することができる。なお、カメラ２０６は単眼カメラであっても、複眼カメラであってもよい。スピーカ２０７は例えば出力するエフェクトオブジェクトに合わせて音声を出力する。音声データについては、エフェクトごとに予め用意されている。

＜ＸＲギミック＞
次に、図３を参照して、本実施形態に係るシステムが提供するＸＲギミックの一例について説明する。ここでは、アプリケーションサーバ１０２から、機械学習サーバ１０３によって生成された学習済みモデルを組み込んだアプリケーションが情報処理端末１０１にダウンロードされ、インストールされていることを前提とする。当該アプリケーションは、情報処理端末１０１で実行されることによりＸＲギミックを提供する。

３０１は所定の模型の一例であり、人型のフィギュアである。本発明を限定する意図はなく、任意の物体等を模した模型であれば本発明に適用することができる。３０２はフィギュア３０１を載置した机を示す。ユーザは情報処理端末１０１上で上記アプリケーションを起動し、アプリケーション画面に表示された複数の項目から当該フィギュア３０１に対応する項目を選択する。ユーザが当該フィギュア３０１に対応する項目を選択すると、カメラ２０６が起動され、ユーザは机３０２に載置されたフィギュア３０１を撮影する。ユーザは撮影中において自由に情報処理端末１０１を動かして、矢印に示すように、フィギュア３０１を撮影する角度を変える変更することができる。撮像された映像は情報処理端末１０１の表示部２０４に表示される。ここで、後述する操作ボタン等を選択することにより、当該映像にエフェクトオブジェクトを合成して表示させることができる。このように、本システムは、フィギュア３０１を含む情報処理端末１０１の周辺環境を撮像した現実空間に、アニメーション等のエフェクトオブジェクトを重畳して出力することにより拡張した現実空間を提供する。

＜ＸＲギミックにおける画面遷移＞
次に、図４を参照して、本実施形態に係るＸＲギミックに係る画面遷移について説明する。図４（ａ）～図４（ｄ）は、ユーザがＸＲギミックを提供するアプリケーションを実行して、図３に示すように情報処理端末１０１を動かした場合の画面遷移について説明する。

図４（ａ）に示す画面４００は、本実施形態に係るＸＲギミックを提供するアプリケーションを起動すると表示部２０４に表示される画面である。ここでは、当該アプリケーションに登録されているフィギュアを選択するための選択ボタン４０１～４０５が表示される。ここでは、５つのフィギュアが登録されている例を示すが、さらに多くのフィギュアが登録される場合には、画面を下方向にスクロールすることで未表示の項目が表示され、選択可能となる。各項目には、それぞれ異なるフィギュアが登録されており、ユーザが撮影対象となるフィギュアを選択すると、図４（ｂ）に示す画面４１０に遷移する。

画面４１０では、カメラ２０６が起動され、カメラ２０６によって情報処理端末１０１の周辺環境が撮像され、当該映像が表示部２０４に表示されている様子を示す。当該周辺環境の撮像画像には、図３に示したように、机３０２に載置されたフィギュア３０１が含まれる。また、撮像された映像に加えて、各種ボタン４１１～４１３が選択可能に表示される。ボタン４１１は、撮影中の静止画像を撮像するためのボタンである。ボタン４１１が操作されると、操作されたタイミングで静止画像を取得し、記憶部２０２に保存される。ボタン４１２は、エフェクトを付与付加するためのボタンである。ボタン４１２が操作されると、当該フィギュアにおいて登録されている少なくとも１つのエフェクトが選択可能に表示され、さらにユーザは所望のエフェクトを選択することができる。ボタン４１３は、各種メニューを表示するボタンである。開始したＸＲギミックを終了させて画面４００へ遷移させたり、他の設定等を行ったりすることができる。なお、ここでは３つのボタンを含む例について説明したが、さらに多くの操作ボタンが含まれてもよい。

ボタン４１２を介して所定のエフェクトが選択されると、図４（ｃ）の画面４２０に示すように、エフェクトの合成出力が開始される。４２１は映像に合成されたエフェクトオブジェクトであり、フィギュア３０１を囲むように３つの輪が表示されている。これらの輪は、例えばフィギュア３０１の頭上から発生し、足下方向に向けてアニメーション表示されてもよい。なお、表示されているエフェクトオブジェクト４２１は、フィギュア３０１の前面に表示されている部分と、フィギュア３０１の背面に隠れて表示されていない部分があることが分かる。これらの表示制御の詳細については後述する。

図４（ｄ）に示すように、画面４３０は、エフェクトの出力中において、ユーザが図４（ｃ）の状態からフィギュア３０１の側面から撮影する状態まで情報処理端末１０１を動かした際の画面を示す。ここでは、フィギュア３０１の側面に回った場合においても、エフェクトオブジェクト４３１に示すように、情報処理端末１０１から見てフィギュア３０１の後側に回り込む部分は表示されていないことが分かる。このように、本実施形態に係るエフェクトの合成出力では、カメラ２０６によって撮影された映像に追従して、エフェクトオブジェクトもフィギュア３０１の位置関係に応じて表示が変化するものである。詳細な表示制御については後述する。

＜エフェクト合成の機能構成＞
次に、図５を参照して、本実施形態に係るエフェクト合成出力に係る機能構成について説明する。以下で説明する機能構成は、例えばＣＰＵ２０１が記憶部２０２に予め記憶された制御プログラムを実行することにより実現されるものである。本情報処理端末１０１は、エフェクト合成出力に係る機能構成として、画像取得部５０１、深度情報取得部５０２、物体認識部５０３、エフェクト位置決定部５０４、学習済みモデル５０５、エフェクト描画部５０６、合成部５０７、及び出力部５０８を含む。

画像取得部５０１は、カメラ２０６によって撮像された撮像画像（ＲＧＢ画像）を取得する。画像取得部５０１によって取得されたＲＧＢ画像は、深度情報取得部５０２、物体認識部５０３、及び合成部５０７へそれぞれ出力される。深度情報取得部５０２は、画像取得部５０１から受け取った撮像画像における各画素について、撮像時におけるカメラ２０６からの距離情報（深度情報）を取得する。深度情報取得部５０２は、取得した深度情報を示すグレースケール画像（深度マップ）を生成する。深度情報の取得方法としては、任意の既知の手法を用いてもよく、例えば、ステレオ視や時間差による運動視差を利用して取得する手法や、畳み込みニューラルネットワークを利用して二次元画像から対象物までの距離を推定するように学習させた機械学習済みのモデルによって取得する手法であってもよい。なお、本実施形態に係るＸＲギミックはリアルタイム性を要するものであるため、処理負荷が低い手法が望ましい。深度情報取得部５０２は、取得した深度情報（深度マップ）をエフェクト描画部５０６へ出力する。

物体認識部５０３は、学習済みモデル５０５を用いて、撮像画像に含まれるフィギュア３０１の少なくとも１つのパーツの姿勢と、カメラ２０６から当該パーツまでの距離とを認識する。姿勢情報には、当該パーツの形状及び角度の情報が含まれる。より詳細には、物体認識部５０３は、学習済みモデル５０５を用いて、認識対象となるパーツの前、後、上、下、左、右、ピッチ、ヨー、及びロールの各方向における角度を検出することができる。ここで、少なくとも１つのパーツとは、フィギュア３０１等の所定の模型における頭部、胸部、腹部、腰部、腕部、及び脚部の少なくとも１つであり、選択されたエフェクトに関連するパーツである。所定の模型をパーツごとに分割する粒度については任意である。例えば、可動フィギュアの場合には、関節を有するパーツごとに分割することが望ましい。これにより、可動するパーツごとに形状や姿勢等を認識することができ、可動が行われた場合であっても認識誤りを低減させることができる。

また、エフェクトに関連するパーツとは、生成するエフェクトオブジェクトの近傍に位置するパーツを示す。これは、撮像画像に合成するエフェクトオブジェクトがフィギュア３０１との位置関係を考慮して配置されるものであり、生成するエフェクトオブジェクトの位置を決定するためである。例えば、所定の模型において胸部の一部から光線を出力するエフェクトオブジェクトを生成する場合には、当該模型の胸部の姿勢及び撮像画像におけるカメラ２０６から当該模型の胸部までの距離を認識することで、エフェクトオブジェクトの発生位置や発生方向を決定することができる。

このように、本実施形態によれば、所定の模型全体の姿勢及び撮像画像におけるカメラ２０６から当該模型までの距離を認識するものではなく、生成するエフェクトオブジェクトに関連する少なくとも１つのパーツのみを認識する。これにより、所定の模型全体を認識する場合と比較して、高速に処理することができ、ＸＲギミックのリアルタイム性を保証することができる。なお、物体認識部５０３は、選択された模型の三次元形状モデルの情報を予め保持しているため、一部のパーツの姿勢及び距離を認識することにより、他のパーツの姿勢及び距離をある程度推定することも可能である。物体認識部５０３は、生成するエフェクトオブジェクトに関連する少なくとも１つのパーツの姿勢及び距離に関する情報を認識すると、当該情報をエフェクト位置決定部５０４へ出力する。

エフェクト位置決定部５０４は、取得した少なくとも１つのパーツの姿勢及びカメラ２０６からの距離に関する情報に基づいて、生成するエフェクトオブジェクトの位置情報を決定する。当該位置情報には、エフェクトオブジェクトについての少なくとも姿勢（角度）及びカメラ２０６からの距離に関する情報が含まれる。決定した位置情報はエフェクト描画部５０６に出力される。エフェクト描画部５０６では生成するエフェクトオブジェクトのモデル情報を予め保持しているため、ここでは当該エフェクトオブジェクトの基準位置をフィギュア３０１の所定位置と関連付けて定義した情報が出力されうる。つまり、生成するエフェクトオブジェクトの位置情報は、エフェクト描画部５０６がエフェクトオブジェクトを描画するために必要となる情報を含んでいればよく、例えば当該エフェクトオブジェクトの姿勢（角度）及びカメラ２０６からの距離に関する情報を示すものであればよい。

エフェクト描画部５０６は、深度情報取得部５０２から取得した深度情報と、エフェクト位置決定部５０４から取得したエフェクトオブジェクトの姿勢及び距離に関する情報とに基づいて、エフェクトオブジェクトを描画する。エフェクト描画部５０６は、上述したように、生成するエフェクトについての予め保持しているモデル情報に従って描画を行う。より詳細には、エフェクト描画部５０６は、撮像画像の各画素の深度情報（距離情報）に応じて、対応するエフェクトオブジェクトの描画画素のうち、撮像画像の対応する画素よりもカメラ２０６に近いことを示す画素について描画する。一方、エフェクト描画部５０６は、対応するエフェクトオブジェクトの描画画素のうち、撮像画像の対応する画素よりもカメラ２０６に近いことを示さない画素については描画しない。これにより、例えばフィギュア３０１の背面に隠れるエフェクトオブジェクトは描画されず、フィギュア３０１の前面に露出するエフェクトオブジェクトのみが描画されることになる。エフェクト描画部５０６は、描画したエフェクトオブジェクト画像を合成部５０７へ出力する。

合成部５０７は、画像取得部５０１から取得した撮像画像に対して、当該撮像画像に基づいて生成され、エフェクト描画部５０６から取得したエフェクトオブジェクト画像を重畳して現実空間にエフェクト画像を付加した合成画像を生成する。また、合成部５０７は、環境の輝度調整などを行うことにより、合成した画像の最終調整や品質調整を行ってもよい。例えば、選択されたエフェクトに合わせて、よりエフェクトを強調して表示する場合には、現実空間の画像を暗くするなどの調整を行うことができる。合成画像は出力部５０８に渡され、出力部５０８は、合成画像を表示部２０４に表示する。

各部はカメラ２０６によって継続的に取得される撮像画像に対して上述した一連の処理を周期的（例えば、30msec、60msec、90msecなどの周期）に実行してもよい。この場合、出力部５０８によって表示される画像は動画像となる。なお、付加されるエフェクトオブジェクトについても動的に変化するアニメーションとして表示されてもよい。この場合、生成するエフェクトごとに、周期的な処理に合わせてアニメーションを構成する連続的な複数の画像が予め保持されている。さらに、出力部５０８は、表示した合成画像（エフェクトのアニメーション）に合わせて、スピーカ２０７によって所定の音声を出力することも可能である。

＜エフェクト合成における処理画像＞
次に、図６を参照して、本実施形態に係るエフェクト合成の処理手順に応じた一連の処理画像について説明する。ここでは、図３に示すフィギュア３０１及び机３０２を含む情報処理端末１０１の周辺環境を撮像した撮像画像に対してエフェクトを合成する例について説明する。

６００はカメラ２０６によって撮像された撮像画像を示す。撮像画像６００には机３０２に載置されたフィギュア３０１が含まれている。６１０は深度情報取得部５０２によって撮像画像６００から得られた深度情報である、グレースケールの深度マップを示す。深度マップ６１０では、各画素において、白に近いほどカメラ２０６からの距離が近いことを示す。

６２０は、物体認識部５０３によって生成されるエフェクトオブジェクトに関連する少なくとも１つのパーツを学習済みモデル５０５を用いて認識している様子を示す。ここでは、例えばフィギュア３０１の頭部６２１及び胸部６２２の認識が行われている。このように、本実施形態によれば、撮像画像６００に含まれるフィギュア３０１の全体を認識するのではなく、生成するエフェクトオブジェクトに関連する一部のパーツのみが認識される。

６３０は、６２０で認識されたパーツに基づいて、位置情報が決定されたエフェクトオブジェクト６３１のモデルを示す。ここでは、生成するエフェクトオブジェクト６３１の全体の位置情報が決定される。なお、エフェクトオブジェクト６３１のモデル情報を予め保持しているため、当該オブジェクトを描画するための姿勢やカメラ２０６からの距離に関する情報が含まれればよい。

６４０は合成されるエフェクトオブジェクト画像を示す。エフェクトオブジェクト画像６４０では、エフェクト描画部５０６が深度マップ６１０とエフェクトオブジェクトのモデル６３０とを用いて、撮像画像に合成するエフェクトオブジェクト６４１を描画する。エフェクトオブジェクト６４１は、エフェクトオブジェクトの全体を示すエフェクトオブジェクト６３１と比較すると、描画されていない部分が含まれる。これは、深度マップ６１０から得られる距離情報と、モデル６３０から得られるエフェクトオブジェクト６３１の距離情報とを比較し、撮像画像の対応画素よりも前面に位置する（つまり、カメラ２０６に近い）エフェクトオブジェクトのみを描画したためである。

６５０は、撮像画像６００に対してエフェクトオブジェクト画像６４０を重畳した合成画像を示す。合成画像６５０は、エフェクトオブジェクト画像６４０が単に撮像画像６００に対して重ね合わせて生成された画像である。しかしながら、合成画像６５０では、エフェクトオブジェクト６３１のうち、フィギュア３０１の画像部分に重複し、かつフィギュア３０１の背面に隠れる部分は描画されていないことが分かる。このように、本実施形態によれば、より立体感や臨場感を有するＸＲギミックを提供することができる。なお、本実施形態では、対象物に隠れるエフェクトの部分を描画することなく、前面に露出する部分のみを描画する。従って、一度描画したエフェクトオブジェクトをのうち、フィギュアとの位置関係に応じて隠れる部分を消去する制御と比較して、より処理負荷を低減した処理を実現でき、高速に処理を行うことができる。

＜基本制御＞
次に、図７を参照して、本実施形態に係るＸＲギミックを提供するアプリケーションにおける基本制御の処理手順を説明する。以下で説明する処理は、例えばＣＰＵ２０１が記憶部２０２に予め記憶されている制御プログラム等を読み出して実行することにより実現される。

まずＳ１０１でＣＰＵ２０１は、本実施形態に係るＸＲギミックを提供するアプリケーションが起動されると、メニューを選択可能に表示する画面４００を表示部２０４に表示する。続いて、Ｓ１０２でＣＰＵ２０１は、画面４００や当該画面４００から遷移する設定画面（不図示）等を介して、ユーザ操作に応じて選択された情報を取得する。ここでの選択情報には、例えばカメラ２０６で撮像して表示する所定の模型に関する情報が含まれる。ＣＰＵ２０１は、選択された情報に応じてカメラ２０６による撮像を開始させる。撮像画像は、画面４１０に示すように、表示部２０４に表示される。

次に、Ｓ１０３でＣＰＵ２０１は、ボタン４１２を介してエフェクト出力が選択されたかどうかを判断する。選択された場合は処理をＳ１０６へ進め、そうでない場合は処理をＳ１０４へ進める。Ｓ１０４でＣＰＵ２０１は、カメラ２０６によって撮像された撮像画像を取得してＳ１０４で表示部２０４へ表示し、処理をＳ１０７へ進める。一方、Ｓ１０６でＣＰＵ２０１は、撮像画像にエフェクトを合成して出力し、処理をＳ１０７へ進める。Ｓ１０６の詳細な処理については図８を用いて後述する。Ｓ１０７でＣＰＵ２０１は、映像の出力を終了するか否かを判断し、終了しない場合は処理をＳ１０３に戻し、終了する場合は本フローチャートの処理を終了する。例えば、ボタン４１３を介して画面４００に戻る指示が行われた場合や、当該アプリケーションが終了された場合に、ＣＰＵ２０１は映像の出力を終了すると判断して、カメラ２０６の起動を停止する。

＜エフェクト合成出力制御＞
次に、図８を参照して、本実施形態に係るエフェクト合成出力（Ｓ１０６）の処理手順について説明する。以下で説明する処理は、例えばＣＰＵ２０１が記憶部２０２に予め記憶されている制御プログラム等を読み出して実行することにより実現される。

まずＳ２０１でＣＰＵ２０１は、ボタン４１２を介して選択されたエフェクト情報を取得する。エフェクト情報には、生成するエフェクトを識別するための識別情報や、当該エフェクトが関連する少なくとも１つのパーツの情報等を含む。これらの情報はアプリケーションサーバ１０２から受信して記憶部２０２に予め記憶されている情報である。続いて、Ｓ２０２でＣＰＵ２０１は、カメラ２０６によって撮像された処理対象の撮像画像を取得する。

次に、Ｓ２０３でＣＰＵ２０１は、深度情報取得部５０２によって、Ｓ２０１で取得した撮像画像の深度マップを取得する。また、Ｓ２０４でＣＰＵ２０１は、Ｓ２０１で取得した撮像画像を学習済みモデル５０５に入力し、撮像画像に含まれる模型（ここでは、フィギュア３０１）についてＳ２０１で取得したエフェクトに関連する少なくとも１つのパーツの物体認識を行う。物体認識の詳細な制御については図９を用いて後述する。物体認識が行われると、Ｓ２０５でＣＰＵ２０１は、Ｓ２０４で認識された少なくとも１つのパーツの姿勢及び距離に関する情報に基づいて、生成するエフェクトの位置情報を決定する。位置情報には、上述したように、エフェクト画像を生成するための情報として、生成するエフェクトの姿勢（角度）及びカメラ２０６からの距離に関する情報が含まれる。なお、Ｓ２０３と、Ｓ２０４及びＳ２０５との処理順序は説明を容易にするために順序付けて説明したが、深度マップを取得する処理と、エフェクトオブジェクトの位置決定を行う処理とは逆の順序で行われてもよく、並行して行われるものであってよい。

次に、Ｓ２０６でＣＰＵ２０１は、Ｓ２０３で取得された深度マップと、Ｓ２０５で決定されたエフェクトオブジェクトの位置情報とに基づいてエフェクトオブジェクトの画像を生成する。エフェクトオブジェクトの画像の生成制御については図１０を用いて後述する。続いて、Ｓ２０７でＣＰＵ２０１は、Ｓ２０２で取得した撮像画像に対して、Ｓ２０６で生成したエフェクトオブジェクト画像を重畳して合成する。その後、Ｓ２０８でＣＰＵ２０１は、合成画像を表示部２０４に表示するとともに、必要に応じてスピーカ２０７から音声を出力し、本フローチャートの処理を終了する。

＜物体認識制御＞
次に、図９を参照して、本実施形態に係る物体認識（Ｓ２０４）の処理手順について説明する。以下で説明する処理は、例えばＣＰＵ２０１が記憶部２０２に予め記憶されている制御プログラム等を読み出して実行することにより実現される。

まずＳ３０１でＣＰＵ２０１は、Ｓ２０１で取得したエフェクト情報に基づいて、生成するエフェクトに関連するパーツを特定する。例えば図４や図６で説明したＸＲギミックの例では、フィギュア３０１の頭部及び胸部をエフェクトに関連するパーツとして特定する。続いて、Ｓ３０２でＣＰＵ２０１は、Ｓ３０１で特定した少なくとも１つのパーツについて、学習済みモデル５０５を用いて撮像画像に含まれる当該パーツを認識する。

次に、Ｓ３０３でＣＰＵ２０１は、学習済みモデル５０５の出力結果から、認識したパーツの形状、角度、及び距離に関する情報を取得する。その後、Ｓ３０４でＣＰＵ２０１は、Ｓ３０１で特定されたパーツのうち、未解析のパーツがあるかどうかを判断する。未解析のパーツがあれば、処理をＳ３０２に戻し、未解析のパーツが無ければ本フローチャートの処理を終了する。

＜エフェクトオブジェクトの生成制御＞
次に、図１０を参照して、本実施形態に係るエフェクトオブジェクト生成（Ｓ２０６）の処理手順について説明する。以下で説明する処理は、例えばＣＰＵ２０１が記憶部２０２に予め記憶されている制御プログラム等を読み出して実行することにより実現される。

まずＳ４０１でＣＰＵ２０１は、Ｓ２０５で決定されたエフェクトオブジェクトの位置情報と、予め保持している生成するエフェクトオブジェクトのモデル情報とに基づいて、生成するエフェクトオブジェクトの画素位置ｘを初期化する。ここではエフェクトオブジェクトの全画素について後述する処理を実施するため、例えば初期値としてエフェクトオブジェクトの左上の画素位置を画素位置ｘとして設定する。

次にＳ４０２でＣＰＵ２０１は、エフェクトオブジェクトの処理対象の画素位置ｘと、対応する撮像画像の画素位置ｙとのそれぞれの距離情報を比較する。続いて、Ｓ４０３でＣＰＵ２０１は、比較の結果、エフェクトオブジェクトの方が前方に位置するかどうか（カメラ２０６に近いかどうか）を判断する。エフェクトオブジェクトが前方であればＳ４０４に進み、そうでなければＳ４０５へ進む。Ｓ４０４でＣＰＵ２０１は、対応画素のエフェクトオブジェクトを描画し、Ｓ４０５に進む。Ｓ４０５でＣＰＵ２０１は、エフェクトオブジェクトの全ての画素について、対応する撮像画像の画素と比較したかどうかを判断する。全ての画素について処理が終了すると、本フローチャートの処理を終了し、そうでない場合は処理を４０２へ戻す。

以上説明したように、本実施形態に係る情報処理端末は、所定の模型を含む周辺環境を撮像し、撮像された撮像画像の各画素について、カメラからの距離情報を取得する。また、本情報処理端末は、撮像画像に含まれる所定の模型の少なくとも１つのパーツの姿勢及びカメラからの距離に関する情報を認識し、認識した少なくとも１つのパーツを基準に、生成するオブジェクトの位置情報を決定する。さらに、本情報処理端末は、生成するオブジェクトの各画素のうち、それぞれの位置情報が撮像画像の対応する画素の距離情報よりもカメラに近いことを示す画素をオブジェクトとして描画し、オブジェクト画像を生成し、撮像画像にオブジェクト画像を重畳した合成画像を表示部に出力する。一方、本情報処理端末は、生成するオブジェクトの各画素のうち、それぞれの位置情報が撮像画像の対応する画素の距離情報よりもカメラに近いことを示さない画素については描画しない。つまり、本実施形態によれば、合成するエフェクトオブジェクトのうち、所定物よりも前方に位置する部分については描画し、所定物よりも後方に位置する部分については所定物に隠れるため描画しない。このように、本発明は現実空間の撮像画像に好適にオブジェクトを合成して出力することができる。

＜第２の実施形態＞
以下では本発明の第２の実施形態について説明する。上記第１の実施形態では物体認識（Ｓ２０４）において、エフェクトオブジェクトを生成するための基準位置を認識すべく、少なくとも１つのパーツを認識する制御について説明した。また、上記実施形態では、エフェクトオブジェクトの描画については撮像画像から生成したデプスマップを用いてエフェクトオブジェクトの位置と、撮像画像の各画素の位置とを比較して描画の有無を制御する例について説明した。

しかしながら、デプスマップの精度は、カメラの性能や光量等の撮像時の環境条件に応じて変動するものである。そこで、本実施形態では、物体認識（Ｓ２０４）において、上記少なくとも１つのパーツの認識に加えて、対象模型のボーン構造を構築して、デプスマップを補完する制御について説明する。また、構築したボーン構造を利用することにより、対象模型の姿勢を判定することができ、判定した姿勢に応じてエフェクトオブジェクトを動的に変化させることができる。詳細については後述する。

＜ボーン構造＞
まず図１１を参照して、本実施形態に係る模型のボーン構造について説明する。１１００は、撮像画像に含まれる所定の模型であるフィギュアのボーン構造を示す。１１００では撮像画像に含まれるフィギュア３０１及び机３０２は点線で示す。

図１１に示す１１０１などの黒丸は、フィギュア３０１の特徴点を示す。これらの特徴点はフィギュアの大まかなアウトラインを生成するための点であり、その数や位置を限定する意図はない。１１０２は各特徴点を連結したボーン構造を示す。図１１に示すボーン構造１１０２は、フィギュア３０１の基準ボーン構造を示す。基準ボーン構造とは、所定の模型の基準姿勢から得られるボーン構造であり、模型ごとに予め用意されているデータである。基準ボーン構造は、例えば対象模型の３次元データから、ポリゴン数を軽減した大まかなアウトラインからなる三次元データから得ることができる。

上記第１の実施形態では出力するエフェクトに関連のある少なくとも１つのパーツを認識したが、本実施形態では対象模型に含まれる各パーツの認識を行う。例えば、認識するパーツには顔、胸、腹、腰、両腕、及び両脚が含まれてもよい。また、本実施形態では、撮像画像から認識されるパーツの角度に従って、基準ボーン構造を更新する。従って、更新したボーン構造は、撮像画像に含まれる対象模型の姿勢を示すこととなる。さらに、更新したボーン構造を撮像画像にマッピングことにより、撮像画像中における対応するボーン構造の位置付近においては、対象模型が撮像されていることを示す領域として判定することができる。

＜物体認識（ボーン構築を含む）＞
次に、図１２を参照して、本実施形態に係る物体認識（Ｓ２０４）の処理手順について説明する。以下で説明する処理は、例えばＣＰＵ２０１が記憶部２０２に予め記憶されている制御プログラム等を読み出して実行することにより実現される。なお、ここでは、上記第１の実施形態で説明した図９のフローチャートと異なる処理について説明し、同様の処理手については同一のステップ番号を付し、説明を省略する。

まずＳ５０１でＣＰＵ２０１は、対象模型（ここではフィギュア３０１）の基準ボーン構造を含む三次元データを取得する。当該データは、アプリケーションをインストールした際に記憶部２０２に予め記憶される情報である。ここでは、例えばフィギュア３０１の基準ボーン構造１１０２を含む三次元データが記憶部２０２から読み出される。続いて、Ｓ５０２でＣＰＵ２０１は、対象模型であるフィギュア３０１の情報に基づいて、認識するパーツを特定する。ここでは、上記第１の実施形態におけるＳ３０１とは異なり、選択されたエフェクトに関連するパーツを特定するのではなく、ボーン構造を更新するために必要なパーツを特定する。なお、基本的には、フィギュア３０１に含まれる各パーツを特定する。

その後、Ｓ３０３及びＳ３０４で各パーツを認識すると、Ｓ５０３でＣＰＵ２０１は、認識したパーツ（姿勢及びカメラ２０６からの距離に関する情報）に従って、Ｓ５０１で取得した基準ボーン構造の対応する部分を更新する。具体的には、ＣＰＵ２０１は、認識したパーツと、基準ボーン構造を含む三次元データ上の対応する部分とを照合し、当該認識したパーツの角度に合わせるように特徴点の位置を調整して基準ボーン構造を更新する。その後、Ｓ３０４でＣＰＵ２０１は、Ｓ５０２で特定されたパーツのうち、未解析のパーツがあるかどうかを判断する。未解析のパーツがあれば、処理をＳ３０２に戻し、未解析のパーツが無ければＳ５０４に進む。

Ｓ５０４でＣＰＵ２０１は、更新された基準ボーン構造から対象模型の姿勢を判定し、本フローチャートの処理を終了する。対象模型の姿勢の判定は、例えば人体の姿勢を機械学習させた学習済みモデルを用いて、更新した基準ボーン構造の姿勢を推定することにより行ってもよい。

本実施形態によれば、推定した対象模型の姿勢に応じて出力するエフェクトを変化させることができる。例えば、対象模型の姿勢が所定の姿勢を示す場合にのみ特定のエフェクトを出力するようにしてもよい。一例として、推定した姿勢が当該フィギュアの変身ポーズを示す場合には、例えばベルトの部分を発光させ、回転させるようなエフェクトを出力してもよい。また、フィギュア全体の姿勢を認識しているため、腰から胴体、肩を通って上腕、下腕、拳という順序で各パーツに対して連続して点滅等を示すエフェクトを付与してもよい。

また、本実施形態によれば、更新したボーン構造を含む三次元データをデプスマップを補完するために利用してもよい。カメラの性能や撮像時の環境条件に応じて、デプスマップを用いたエフェクトオブジェクトの生成制御に加えて、上記三次元データを用いてデプスマップ（即ち、撮像画像）上の対象模型の位置を特定してもよい。デプスマップ上での対象模型の位置が特定できれば、対応する画素と重複するエフェクトオブジェクトの画素を描画するかどうか判定するのみでよく、デプスマップの精度が良くない場合に補完的に利用することができるとともに、対象模型と重複する画素のみについて上記Ｓ４０２の比較処理を行うだけでよく、処理負荷を低減することもできる。

以上説明したように、本実施形態に係る情報処理端末は、さらに、所定の模型に含まれる各パーツの姿勢及びカメラからの距離に関する情報を認識し、所定の模型の基準姿勢を示す基準ボーン構造を含む三次元データを、認識した各パーツに従って更新し、更新した三次元データに基づいて所定の模型の姿勢を認識する。このように、本実施形態によれば、撮像画像から各パーツを認識して予め用意した基準ボーン構造を更新して、撮像画像に含まれるフィギュアの姿勢を判定することができる。これにより、生成するオブジェクトを、認識した所定の模型の姿勢に合わせて変化させることができる。また、更新された三次元データから特定される、撮像画像における所定の模型の位置に基づいて、オブジェクト画像を生成することができる。よって、デプスマットの精度が低い場合において、エフェクトオブジェクトの生成を好適に補完することができる。

＜変形例＞
本発明は上記実施形態に制限されるものではなく、発明の要旨の範囲内で、種々の変形・変更が可能である。上記実施形態では、所定の模型であるフィギュア３０１に対して、当該フィギュアの体を囲むような３つの輪をエフェクトオブジェクトとして合成して出力する例について説明した。このように、フィギュア３０１には実際には含まれないオブジェクトを合成して出力する例について説明したが、本発明はこれに限定されない。例えば、フィギュアが物理的に有する部分に対してエフェクトを合成して出力するようにしてもよい。

図１３は、変形例となるフィギュア１１０１が机３０２に載置され、情報処理端末１０１で撮影している様子を示す。フィギュア１１０１は、フィギュア３０１と同様の本体部分に加えて、例えば炎を示す物理的なオブジェクト１１０２を備える。本発明によれば、このような物理的に存在する部分に対してエフェクトを合成して出力するようにしてもよい。例えば、図１３の例では、炎の揺らめきや火の粉などを付加して出力するようにしてもよい。また、本発明によれば、フィギュアの撮像した顔に対して、異なる表情、例えば笑顔や泣き顔などの表情を付加したり、視線をカメラ方向に向けるよう変更した画像を合成して出力してもよい。なお、本発明によれば、撮像画像からフィギュアの少なくとも１つパーツを認識して、当該認識したパーツを基準にして生成可能なエフェクトであれば任意のエフェクトを付加することができる。

また、本実施形態では、対象の模型として人型の模型を例に説明したが、本発明を限定する意図はない、例えば、人、動物、ロボット、昆虫、恐竜等、様々な形状の模型に適用することができる。いずれの場合においても、上記実施形態で説明したように、複数のパーツに分割して認識することにより、リアルタイム性を保証しつつ、拡張現実を提供することができる。

＜実施形態のまとめ＞
上記実施形態は以下のコンピュータプログラム、情報処理端末及びその制御方法を少なくとも開示する。

（１）情報処理端末のコンピュータを、
所定の模型を含む周辺環境を撮像する撮像手段と、
前記撮像手段によって撮像された撮像画像の各画素について、前記撮像手段からの距離情報を取得する取得手段と、
前記撮像画像に含まれる前記所定の模型の少なくとも１つのパーツの姿勢及び前記撮像手段からの距離に関する情報を認識する認識手段と、
前記認識手段によって認識した前記少なくとも１つのパーツを基準に、生成するオブジェクトの位置情報を決定する位置決定手段と、
前記生成するオブジェクトの各画素のうち、それぞれの位置情報が前記撮像画像の対応する画素の距離情報よりも前記撮像手段に近いことを示す画素をオブジェクトとして描画し、オブジェクト画像を生成するオブジェクト生成手段と、
前記撮像画像に前記オブジェクト画像を重畳した合成画像を表示部に出力する出力手段と、
として機能させることを特徴とするコンピュータプログラム。

（２）前記オブジェクト生成手段は、前記生成するオブジェクトの各画素のうち、それぞれの位置情報が前記撮像画像の対応する画素の距離情報よりも前記撮像手段に近いことを示さない画素については描画しないことを特徴とする（１）に記載のコンピュータプログラム。

（３）前記情報処理端末のコンピュータを、さらに、前記所定の模型を含む撮像画像に対して合成するエフェクトを選択する選択手段として機能させ、
前記認識手段は、前記選択されたエフェクトに関連するパーツを認識することを特徴とする（１）又は（２）に記載のコンピュータプログラム。

（４）前記認識手段は、撮像画像を入力とし、前記所定の模型のパーツごとに形状、角度、及び距離に関する情報を出力するように学習させた学習済みモデルを用いて、前記選択されたエフェクトに関連するパーツを認識することを特徴とする（３）に記載のコンピュータプログラム。

（５）前記オブジェクト生成手段は、前記選択手段によって選択されたエフェクトに対応する、予め記憶されているオブジェクトのモデル情報に基づいて、前記オブジェクト画像を生成することを特徴とする（２）又は（３）に記載のコンピュータプログラム。

（６）前記位置決定手段は、前記少なくとも１つのパーツの姿勢及び前記撮像手段からの距離に関する情報に基づいて、前記生成するオブジェクトの角度及び距離に関する情報を含む前記位置情報を決定することを特徴とする（１）乃至（５）の何れか１つに記載のコンピュータプログラム。

（７）前記所定の模型の前記少なくとも１つのパーツとは、頭部、胸部、腹部、腰部、腕部、及び脚部の少なくとも１つであることを特徴とする（３）乃至（５）の何れか１つに記載のコンピュータプログラム。

（８）前記選択されたエフェクトに関連するパーツとは、前記生成するオブジェクトの近傍に位置するパーツであることを特徴とする（７）に記載のコンピュータプログラム。

（９）前記取得手段は、前記撮像画像の各画素についての前記距離情報として、深度情報を示すグレースケールの深度マップを取得することを特徴とする（１）乃至（８）の何れか１つに記載のコンピュータプログラム。

（１０）前記認識手段は、さらに、前記所定の模型に含まれる各パーツの姿勢及び前記撮像手段からの距離に関する情報を認識し、前記所定の模型の基準姿勢を示す基準ボーン構造を含む三次元データを、認識した各パーツに従って更新し、更新した前記三次元データに基づいて前記所定の模型の姿勢を認識することを特徴とする（１）乃至（９）の何れか１つに記載のコンピュータプログラム。

（１１）前記オブジェクト生成手段によって生成されるオブジェクトは、認識された前記所定の模型の姿勢に合わせて変化することを特徴とする（１０）に記載のコンピュータプログラム。

（１２）前記オブジェクト生成手段は、前記更新された三次元データから特定される、前記撮像画像における前記所定の模型の位置に基づいて、前記オブジェクト画像を生成することを特徴とする（１０）又は（１１）に記載のコンピュータプログラム。

（１３）前記撮像手段は前記所定の模型を含む周辺環境を継続的に撮像し、
前記取得手段、前記認識手段、前記オブジェクト生成手段、及び前記出力手段は、前記撮像手段によって撮像された撮像画像に基づいて周期的に処理を実行し、
前記出力手段は、前記撮像手段によって継続的に撮像された映像に、動的に変化するアニメーションとして前記オブジェクトを合成して出力することを特徴とする（１）乃至（１２）の何れか１つに記載のコンピュータプログラム。

（１４）情報処理端末であって、
所定の模型を含む周辺環境を撮像する撮像手段と、
前記撮像手段によって撮像された撮像画像の各画素について、前記撮像手段からの距離情報を取得する取得手段と、
前記撮像画像に含まれる前記所定の模型の少なくとも１つのパーツの姿勢及び前記撮像手段からの距離に関する情報を認識する認識手段と、
前記認識手段によって認識した前記少なくとも１つのパーツを基準に、生成するオブジェクトの位置情報を決定する位置決定手段と、
前記生成するオブジェクトの各画素のうち、それぞれの位置情報が前記撮像画像の対応する画素の距離情報よりも前記撮像手段に近いことを示す画素をオブジェクトとして描画し、オブジェクト画像を生成するオブジェクト生成手段と、
前記撮像画像に前記オブジェクト画像を重畳した合成画像を表示部に出力する出力手段と
を備えることを特徴とする情報処理端末。

（１５）情報処理端末の制御方法であって、
所定の模型を含む周辺環境を撮像手段によって撮像する撮像工程と、
前記撮像工程で撮像された撮像画像の各画素について、前記撮像手段からの距離情報を取得する取得工程と、
前記撮像画像に含まれる前記所定の模型の少なくとも１つのパーツの姿勢及び前記撮像手段からの距離に関する情報を認識する認識工程と、
前記認識工程で認識した前記少なくとも１つのパーツを基準に、生成するオブジェクトの位置情報を決定する位置決定工程と、
前記生成するオブジェクトの各画素のうち、それぞれの位置情報が前記撮像画像の対応する画素の距離情報よりも前記撮像手段に近いことを示す画素をオブジェクトとして描画し、オブジェクト画像を生成するオブジェクト生成工程と、
前記撮像画像に前記オブジェクト画像を重畳した合成画像を表示部に出力する出力工程と
を含むことを特徴とする情報処理端末の制御方法。

１０１：情報処理端末、１０２：アプリケーションサーバ、１０３：機械学習サーバ、１０４：データベース、１０５：ネットワーク、２０１：ＣＰＵ、２０２：記憶部、２０３：通信制御部、２０４：表示部、２０５：操作部、２０６：カメラ、２０７：スピーカ、２１０：システムバス：３０１：フィギュア、３０２：机、５０１：画像取得部、５０２：深度情報取得部、５０３：物体認識部、５０４：エフェクト位置決定部、５０５：学習済みモデル、５０６：エフェクト描画部、５０７：合成部：５０８：出力部

Claims

情報処理端末のコンピュータを、
所定の模型を含む周辺環境を撮像する撮像手段と、
前記撮像手段によって撮像された撮像画像の各画素について、前記撮像手段からの距離情報を取得する取得手段と、
前記撮像画像に含まれる前記所定の模型の少なくとも１つのパーツの姿勢及び前記撮像手段からの距離に関する情報を認識する認識手段と、
前記認識手段によって認識した前記少なくとも１つのパーツを基準に、生成するオブジェクトの位置情報を決定する位置決定手段と、
前記生成するオブジェクトの各画素のうち、それぞれの位置情報が前記撮像画像の対応する画素の距離情報よりも前記撮像手段に近いことを示す画素をオブジェクトとして描画し、オブジェクト画像を生成するオブジェクト生成手段と、
前記撮像画像に前記オブジェクト画像を重畳した合成画像を表示部に出力する出力手段と、
として機能させることを特徴とするコンピュータプログラム。
前記オブジェクト生成手段は、前記生成するオブジェクトの各画素のうち、それぞれの位置情報が前記撮像画像の対応する画素の距離情報よりも前記撮像手段に近いことを示さない画素については描画しないことを特徴とする請求項１に記載のコンピュータプログラム。
前記情報処理端末のコンピュータを、さらに、前記所定の模型を含む撮像画像に対して合成するエフェクトを選択する選択手段として機能させ、
前記認識手段は、前記選択されたエフェクトに関連するパーツを認識することを特徴とする請求項２に記載のコンピュータプログラム。
前記認識手段は、撮像画像を入力とし、前記所定の模型のパーツごとに形状、角度、及び距離に関する情報を出力するように学習させた学習済みモデルを用いて、前記選択されたエフェクトに関連するパーツを認識することを特徴とする請求項３に記載のコンピュータプログラム。
前記オブジェクト生成手段は、前記選択手段によって選択されたエフェクトに対応する、予め記憶されているオブジェクトのモデル情報に基づいて、前記オブジェクト画像を生成することを特徴とする請求項３に記載のコンピュータプログラム。
前記位置決定手段は、前記少なくとも１つのパーツの姿勢及び前記撮像手段からの距離に関する情報に基づいて、前記生成するオブジェクトの角度及び距離に関する情報を含む前記位置情報を決定することを特徴とする請求項１に記載のコンピュータプログラム。
前記所定の模型の前記少なくとも１つのパーツとは、頭部、胸部、腹部、腰部、腕部、及び脚部の少なくとも１つであることを特徴とする請求項３に記載のコンピュータプログラム。
前記選択されたエフェクトに関連するパーツとは、前記生成するオブジェクトの近傍に位置するパーツであることを特徴とする請求項７に記載のコンピュータプログラム。
前記取得手段は、前記撮像画像の各画素についての前記距離情報として、深度情報を示すグレースケールの深度マップを取得することを特徴とする請求項１に記載のコンピュータプログラム。
前記認識手段は、さらに、前記所定の模型に含まれる各パーツの姿勢及び前記撮像手段からの距離に関する情報を認識し、前記所定の模型の基準姿勢を示す基準ボーン構造を含む三次元データを、認識した各パーツに従って更新し、更新した前記三次元データに基づいて前記所定の模型の姿勢を認識することを特徴とする請求項１に記載のコンピュータプログラム。
前記オブジェクト生成手段によって生成されるオブジェクトは、認識された前記所定の模型の姿勢に合わせて変化することを特徴とする請求項１０に記載のコンピュータプログラム。
前記オブジェクト生成手段は、前記更新された三次元データから特定される、前記撮像画像における前記所定の模型の位置に基づいて、前記オブジェクト画像を生成することを特徴とする請求項１０に記載のコンピュータプログラム。
前記撮像手段は前記所定の模型を含む周辺環境を継続的に撮像し、
前記取得手段、前記認識手段、前記オブジェクト生成手段、及び前記出力手段は、前記撮像手段によって撮像された撮像画像に基づいて周期的に処理を実行し、
前記出力手段は、前記撮像手段によって継続的に撮像された映像に、動的に変化するアニメーションとして前記オブジェクトを合成して出力することを特徴とする請求項１乃至１２の何れか１項に記載のコンピュータプログラム。
情報処理端末であって、
所定の模型を含む周辺環境を撮像する撮像手段と、
前記撮像手段によって撮像された撮像画像の各画素について、前記撮像手段からの距離情報を取得する取得手段と、
前記撮像画像に含まれる前記所定の模型の少なくとも１つのパーツの姿勢及び前記撮像手段からの距離に関する情報を認識する認識手段と、
前記認識手段によって認識した前記少なくとも１つのパーツを基準に、生成するオブジェクトの位置情報を決定する位置決定手段と、
前記生成するオブジェクトの各画素のうち、それぞれの位置情報が前記撮像画像の対応する画素の距離情報よりも前記撮像手段に近いことを示す画素をオブジェクトとして描画し、オブジェクト画像を生成するオブジェクト生成手段と、
前記撮像画像に前記オブジェクト画像を重畳した合成画像を表示部に出力する出力手段と
を備えることを特徴とする情報処理端末。
情報処理端末の制御方法であって、
所定の模型を含む周辺環境を撮像手段によって撮像する撮像工程と、
前記撮像工程で撮像された撮像画像の各画素について、前記撮像手段からの距離情報を取得する取得工程と、
前記撮像画像に含まれる前記所定の模型の少なくとも１つのパーツの姿勢及び前記撮像手段からの距離に関する情報を認識する認識工程と、
前記認識工程で認識した前記少なくとも１つのパーツを基準に、生成するオブジェクトの位置情報を決定する位置決定工程と、
前記生成するオブジェクトの各画素のうち、それぞれの位置情報が前記撮像画像の対応する画素の距離情報よりも前記撮像手段に近いことを示す画素をオブジェクトとして描画し、オブジェクト画像を生成するオブジェクト生成工程と、
前記撮像画像に前記オブジェクト画像を重畳した合成画像を表示部に出力する出力工程と
を含むことを特徴とする情報処理端末の制御方法。