JP6768933B2

JP6768933B2 - 情報処理装置、情報処理システム、および画像処理方法

Info

Publication number: JP6768933B2
Application number: JP2019512143A
Authority: JP
Inventors: 良徳大橋
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2017-04-14
Filing date: 2017-04-14
Publication date: 2020-10-14
Anticipated expiration: 2037-04-14
Also published as: US20200118258A1; US11030732B2; WO2018189880A1; JPWO2018189880A1

Description

本発明は、撮影画像を用いた処理を行う情報処理装置および当該装置でなされる画像処理方法に関する。

ユーザの頭部など体の一部をビデオカメラで撮影し、目、口、手などの所定の領域を抽出して、その領域を別の画像で置換してディスプレイに表示するゲームが知られている（例えば、特許文献１参照）。また、ビデオカメラで撮影された口や手の動きをアプリケーションの操作指示として受け取るユーザインタフェースシステムも知られている。このように、実世界を撮影しその動きに反応する仮想世界を表示させたり、何らかの情報処理を行ったりする技術は、小型の携帯端末からレジャー施設まで、その規模によらず幅広い分野で利用されている。

撮影画像を用いて実物体の状態に係る情報を特定する技術として、左右の異なる視点から同じ空間を撮影するステレオカメラを導入し、撮影されたステレオ画像における同じ被写体の像の視差に基づき、被写体までの距離を取得するステレオ画像法が知られている。この技術では、環境光の反射を検出した一般的なカラー画像を用いる場合のほか、被写空間に赤外線など特定の波長帯の光を照射し、その反射を検出した画像を用いる場合もある。

一方、近年では、テレビジョン放送や配信動画などの映像表示において画質を向上させるための様々な技術開発の結果、解像度や色域を向上させる技術に加え、輝度のレンジを拡大した信号を処理する技術が普及しつつある。例えばＨＤＲ（High Dynamic Range）は、従来のＳＤＲ（Standard Dynamic Range）と比較し輝度の許容範囲が１００倍程になるため、実世界で眩しいと感じるような対象をよりリアルに表現することができる。

欧州特許出願公開第０９９９５１８号明細書

撮影画像の輝度レンジは、被写体の位置、数、色、模様、光の状態など、被写空間の状況と、撮影条件や画像の補正パラメータなど撮像装置側の設定との組み合わせによって様々に変化し得る。このため、撮影画像を用いて被写体に係る情報を得たり表示画像を生成したりする場合、そのような不確定要素に起因して、必要な精度が得られなかったり、表示装置の性能を生かしきれなかったりすることが考えられる。

本発明はこうした課題に鑑みてなされたものであり、その目的は、撮影画像を用いた実物体の情報を安定した精度で取得する技術を提供することにある。本発明の別の目的は、撮影画像を用いて、好適な輝度レンジでの画像表現を実現できる技術を提供することにある。

本発明のある態様は情報処理装置に関する。この情報処理装置は、撮影される動画像のフレームの画像データを順次取得する画像データ取得部と、新たに取得した現フレームの画像の画素値に、それより前に取得した過去フレームの画像の画素値を、対応する位置で加算した加算画像を生成する画像加算部と、加算画像を用いて所定の処理を実施した結果を表すデータを出力する出力部と、を備えたことを特徴とする。

ここで「フレームの画像」は、１つのカメラで周期的に撮影された動画像を構成するフレームの画像でもよいし、複数のカメラで同時かつ周期的に撮影された動画像を構成するフレームの画像でもよい。また加算画像を用いて行われる「所定の処理」は、撮影画像を用いて何らかの出力を行うための一般的な処理のいずれでもよい。例えば撮影画像から特徴点を検出する処理を含む、位置および姿勢の取得、物体認識、動き検出、視覚追跡解析など各種画像解析、撮影画像を表示用の画像に整形する処理などが挙げられる。

本発明の別の態様は情報処理システムに関する。この情報処理システムは、ユーザの視線に対応する視野で動画像を撮影する撮像装置を備えたヘッドマウントディスプレイと、当該動画像に基づき、ヘッドマウントディスプレイに表示させる表示画像のデータを生成する情報処理装置と、を備え、情報処理装置は、撮影された動画像のフレームの画像データを順次取得する画像データ取得部と、新たに取得した現フレームの画像の画素値に、それより前に取得した過去フレームの画像の画素値を、対応する位置で加算した加算画像を生成する画像加算部と、加算画像を用いて所定の処理を実施した結果を表す表示画像のデータを出力する出力部と、を備えたことを特徴とする。

本発明のさらに別の態様は画像処理方法に関する。この画像処理方法は撮影される動画像のフレームの画像データを順次取得しメモリに格納するステップと、新たに取得した現フレームの画像の画素値に、メモリより読み出した、それより前に取得した過去フレームの画像の画素値を、対応する位置で加算した加算画像を生成するステップと、加算画像を用いて所定の処理を実施した結果を表すデータを出力するステップと、を含むことを特徴とする。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラム、コンピュータプログラムを記録した記録媒体などの間で変換したものもまた、本発明の態様として有効である。

本発明によると、撮影画像を用いた実物体の位置情報取得や画像表示において、好適な結果を安定的に得ることができる。

実施の形態１の情報処理システムの構成例を示す図である。実施の形態１の表示装置をヘッドマウントディスプレイとしたときの外観形状の例を示す図である。実施の形態１における情報処理装置の内部回路構成を示す図である。実施の形態１における情報処理装置の機能ブロックの構成を示す図である。実施の形態１において、赤外線をパターン照射し、その反射光の撮影画像を用いて被写体の距離を取得する手法を説明するための図である。実施の形態１においてフレームを加算することによる作用を説明するための図である。実施の形態１において複数のデプス画像を統合する様子を示す図である。実施の形態１において、情報処理装置が撮影画像を用いて位置情報を取得しデータ出力を行う処理手順を示すフローチャートである。実施の形態２における情報処理装置の機能ブロックの構成を示す図である。実施の形態２における画像加算部が、過去フレームの画像を補正したうえで現フレームの画像と加算する様子を模式的に示す図である。実施の形態２における情報処理装置が、撮影画像の輝度レンジを拡張して表示させる処理手順を示すフローチャートである。実施の形態２における加算部が、画素領域をずらして画像を加算する様子を模式的に示す図である。

実施の形態１
本実施の形態は、撮影画像から被写体の位置情報を取得する技術に関する。このような技術では多くの場合、撮影画像から特徴点を検出することがなされる。ところが被写空間の明るさや被写体の実際の位置など実空間での状況に応じて、画像上での特徴点の表れ方は様々に変化する。特に輝度が低い領域では特徴点が検出できず、位置情報が不定となったり誤差を多く含んだりすることが考えられる。

本実施の形態では、複数フレームの撮影画像を加算することにより輝度レンジを制御し、特徴点の検出精度を向上させる。なお以後の説明では、左右の視点から同じ空間を撮影したステレオ画像を用いて被写体の位置情報を取得する手法に主眼を置くが、本実施の形態は、撮影画像から特徴点を検出する処理を含めば同様に適用でき、その対象はステレオ画像に限らない。また特徴点を検出する目的は被写体の位置情報取得に限らず、顔検出、顔認識、物体検出、視覚追跡など各種画像解析のいずれでもよい。

図１は、本実施の形態の情報処理システムの構成例を示す。情報処理システム１は、実空間を撮影する撮像装置１２、撮影画像に基づき情報処理を行う情報処理装置１０、情報処理装置１０が出力した画像を表示する表示装置１６を含む。情報処理装置１０はインターネットなどのネットワーク１８と接続可能としてもよい。

情報処理装置１０と、撮像装置１２、表示装置１６、ネットワーク１８とは、有線ケーブルで接続されてよく、また無線ＬＡＮ（Local Area Network）などにより無線接続されてもよい。撮像装置１２、情報処理装置１０、表示装置１６のうちいずれか２つ、または全てが組み合わされて一体的に装備されてもよい。例えばそれらを装備した携帯端末やヘッドマウントディスプレイなどで情報処理システム１を実現してもよい。いずれにしろ撮像装置１２、情報処理装置１０、表示装置１６の外観形状は図示するものに限らない。また、情報処理の内容によって画像表示を必要としない場合は、表示装置１６はなくてもよい。

撮像装置１２は、既知の間隔を有する左右の位置から被写空間を所定のフレームレートで撮影する一対のカメラを含む。撮像装置１２が左右の視点から撮影した一対の画像、すなわちステレオ画像のデータは、情報処理装置１０へ順次送信される。情報処理装置１０は当該ステレオ画像を解析することにより、撮像面からの距離を含む３次元実空間における被写体の位置情報を取得する。ステレオ画像から被写体の位置情報を取得する技術は従来知られている。

すなわち一対の画像から同じ被写体の像を表す対応点を求め、その位置ずれを視差として、三角測量の原理によりカメラから被写体までの距離が求められる。画像平面における像の位置と当該距離とから、被写体の３次元空間での位置座標が得られる。情報処理装置１０は例えば、解析により求めた被写体までの距離を、画像平面における像の画素値として表したデプス画像を位置情報として生成する。

このような目的において、撮像装置１２が撮影する画像の種類は限定されない。例えば撮像装置１２は、ＣＭＯＳ（Complementary Metal Oxide Semiconductor）センサなど一般的な撮像素子を有するカメラにより、可視光のカラー画像を撮影してもよい。あるいは、赤外線など特定の波長帯の光を検出して当該光の強度分布を表す画像を撮影してもよい。

この場合、撮像装置１２には、検出対象の波長帯の光を被写空間に照射する機構を設けてよい。スポット状、スリット状、あるいはパターン状の光を照射し、その反射光を撮影することにより被写体の距離を得る手法は、アクティブステレオ法として知られている。アクティブステレオ法は、環境光のカラーステレオ画像から距離を得る、いわゆるパッシブステレオ法と比較し、特徴点の乏しい被写体でも、画像における対応点を抽出しやすい、という特性を有する。

なお位置情報を得るために不可視光を利用する場合、撮像装置１２には一般的なカラー画像を撮影するカメラを別途設け、表示画像の生成など別の目的に用いてもよい。以後、検出する光の波長帯によらず、撮像装置１２が検出した光の輝度の２次元データを「画像」と総称する。情報処理装置１０は、撮像装置１２から送信された画像のデータを用いて上述のとおり被写体の位置情報を所定のレートで取得し、それに基づき適宜情報処理を行い、出力データを生成する。

ここで出力データの内容は特に限定されず、ユーザがシステムに求める機能や起動させたアプリケーションの内容などによって様々でよい。例えば情報処理装置１０は、被写体の位置情報に基づき、撮影画像に何らかの加工を施したり電子ゲームを進捗させてゲーム画面を生成したりしてもよい。このような態様の代表的なものとして、仮想現実（VR:Virtual Reality）や拡張現実（AR:Augmented Reality）が挙げられる。

表示装置１６は、画像を出力する液晶、プラズマ、有機ＥＬなどのディスプレイと、音声を出力するスピーカーを備え、情報処理装置１０から供給された出力データを画像や音声として出力する。表示装置１６は、テレビ受像器、各種モニター、携帯端末の表示画面などでもよいし、ユーザの頭に装着してその眼前に画像を表示するヘッドマウントディスプレイでもよい。

図２は表示装置１６をヘッドマウントディスプレイとしたときの外観形状の例を示している。この例においてヘッドマウントディスプレイ１００は、出力機構部１０２および装着機構部１０４で構成される。装着機構部１０４は、ユーザが被ることにより頭部を一周し装置の固定を実現する装着バンド１０６を含む。

出力機構部１０２は、ヘッドマウントディスプレイ１００をユーザが装着した状態において左右の目を覆うような形状の筐体１０８を含み、内部には装着時に目に正対するように表示パネルを備える。筐体１０８内部にはさらに、ヘッドマウントディスプレイ１００の装着時に表示パネルとユーザの目との間に位置し、ユーザの視野角を拡大するレンズを備えてよい。またヘッドマウントディスプレイ１００はさらに、装着時にユーザの耳に対応する位置にスピーカーやイヤホンを備えてよい。さらにヘッドマウントディスプレイ１００には、ユーザの頭部の位置や姿勢を取得するため、加速度センサなどの各種モーションセンサを内蔵させてもよい。

この例でヘッドマウントディスプレイ１００は、撮像装置１２として、筐体１０８の前面にステレオカメラ１１０を備え、ユーザの視線に対応する視野で周囲の実空間を所定のフレームレートで撮影する。このようなヘッドマウントディスプレイ１００によれば、ユーザの視野にある実物体の見かけの形状や位置情報を取得できる。ＳＬＡＭ（Simultaneous Localization and Mapping）の技術を導入すれば、それらの情報に基づきユーザの頭部の位置や姿勢を取得することもできる。

このような情報を用いて仮想世界に対する視野を決定し、左眼視用、右眼視用の表示画像を生成して、ヘッドマウントディスプレイの左右の領域に表示させれば、あたかも眼前に仮想世界が広がっているような仮想現実を実現できる。また、左右の視点から撮影したカラー画像に、被写体である実物体とインタラクションする仮想オブジェクトを重畳描画し表示すれば、拡張現実を実現できる。表示にカラー画像を用い、被写体の情報を得るのに特定の波長帯の画像を用いる場合、ヘッドマントディスプレイ１００には、検出する波長帯ごとにステレオカメラ１１０を複数セット備えてもよい。

なお情報処理装置１０は、ヘッドマウントディスプレイ１００と通信を確立できる外部装置としてもよいし、ヘッドマウントディスプレイ１００に内蔵してもよい。このように本実施の形態の情報処理システム１は、様々な態様への適用が可能であるため、各装置の構成や外観形状もそれに応じて適宜決定してよい。このような態様において、被写体の位置や被写空間の状態が変化すると、撮影画像における像の表れ方も変化する。

例えば特徴点が多い表面形状の被写体であっても、照度が低い環境では、撮影画像において像が鮮明に得られない場合がある。また特定の波長帯の光を照射し、その反射光を観測する態様では、光の照射強度によっては遠くにある被写体からの反射光が十分な輝度で得られない場合がある。結果として、ステレオ画像における対応点の抽出に失敗し、位置情報が得られなかったり精度が低くなったりすることが考えられる。

それらの対策として、露光時間やゲイン値など撮影条件や画像補正パラメータを調整したり、照射光の強度を調整したりすることが考えられる。ところが被写体の位置や光の当たり具合は様々に変化し、また同じ被写空間でも最適条件は一つとは限らない。例えば光の照射強度を調整する場合、遠くの被写体に合わせて強度を高めることにより、近くの被写体では反射光が強すぎて像が不鮮明になることがあり得る。カラー画像においても同様に、露光時間を長くしたりゲイン値を増加させたりすることにより、元々高輝度であった領域全体が白っぽくなってしまう場合がある。そもそも撮影条件、補正パラメータ、照射強度などの組み合わせを、状況が変化する都度、最適化するのは困難である。

そこで本実施の形態ではそれらの条件を一定としたうえで、得られた撮影画像に、直前のフレームの画像を加算することで、画素値のレンジを増幅させる。すなわち撮像装置がΔｔの周期でフレームを動画撮影しているとすると、時刻ｔの現フレームの各画素値に、ｔ−Δｔ、ｔ−２Δｔ、・・・、ｔ−ＮΔｔの時刻のフレームの同じ位置の画素値を加算する。ここでＮは加算する過去フレームの数を表す自然数である。例えばＮ＝３とすると、現フレームを含め４フレームの画像を加算することになる。

このようにすると、加算後の画像の画素値は元の画像のおよそＮ＋１倍の値となる。これにより、照射光の反射位置や特徴点など、周囲の画素との差が大きく表れるべき部分で輝度が増幅され検出が容易になる。また別のフレームの画像を加算することにより、ノイズについては平均化されＳＮ比が高くなる。結果として被写体までの距離が遠かったり、光の強度が低かったりしても、解析に足る輝度の画像を得ることができ、被写体の位置情報を正確に取得できる。

このようにして反射光の強度が低い被写体でも像の輝度を保障できるため、露光時間やゲイン値を増加させたり、照射光の強度を高めたりする必要がなくなる。つまり撮影側で光の強度を上げずに高精度な解析が可能になる。一方、元々輝度が得られている被写体がある場合、当該被写体については過去フレームの加算は必要ない。そこで、過去フレームを加算して位置情報を取得する処理経路と、過去フレームを加算せずに現フレームのみで位置情報を取得する処理経路とを設けることにより、様々な被写体の状態を網羅しつつ各位置情報を正確に取得できる。また加算する過去フレームの数を２通り以上とすることで、輝度の増幅率を３段階以上としてもよい。

図３は情報処理装置１０の内部回路構成を示している。情報処理装置１０は、ＣＰＵ（Central Processing Unit）２３、ＧＰＵ（Graphics Processing Unit)２４、メインメモリ２６を含む。これらの各部は、バス３０を介して相互に接続されている。バス３０にはさらに入出力インターフェース２８が接続されている。入出力インターフェース２８には、ＵＳＢやＩＥＥＥ１３９４などの周辺機器インターフェースや、有線又は無線ＬＡＮのネットワークインターフェースからなる通信部３２、ハードディスクドライブや不揮発性メモリなどの記憶部３４、表示装置１６へデータを出力する出力部３６、撮像装置１２や図示しない入力装置からデータを入力する入力部３８、磁気ディスク、光ディスクまたは半導体メモリなどのリムーバブル記録媒体を駆動する記録媒体駆動部４０が接続される。

ＣＰＵ２３は、記憶部３４に記憶されているオペレーティングシステムを実行することにより情報処理装置１０の全体を制御する。ＣＰＵ２３はまた、リムーバブル記録媒体から読み出されてメインメモリ２６にロードされた、あるいは通信部３２を介してダウンロードされた各種プログラムを実行する。ＧＰＵ２４は、ジオメトリエンジンの機能とレンダリングプロセッサの機能とを有し、ＣＰＵ２３からの描画命令に従って描画処理を行い、出力部３６に出力する。メインメモリ２６はＲＡＭ（Random Access Memory）により構成され、処理に必要なプログラムやデータを記憶する。

図４は情報処理装置１０の機能ブロックの構成を示している。図４および後述する図９に示す装置の各機能ブロックは、ハードウェア的には、図３で示した各種回路によりで実現でき、ソフトウェア的には、記録媒体からメインメモリにロードした、画像解析機能、情報処理機能、画像描画機能、データ入出力機能などの諸機能を発揮するプログラムで実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。

情報処理装置１０は、撮像装置１２から画像のデータを取得する画像データ取得部５２、取得した画像のデータを格納する画像データ格納部５４、所定数の過去フレームの画像を足し合わせる画像加算部５６、画像を解析して被写体の位置情報を得る画像解析部５８、位置情報など解析結果を利用して情報処理を行う情報処理部６０、および、出力すべきデータを出力する出力部６２を含む。

画像データ取得部５２は、図３の入力部３８、ＣＰＵ２３、メインメモリ２６などで実現され、撮像装置１２が所定のフレームレートで撮影する画像のデータを順次取得する。当該データには、可視光のカラーステレオ画像、赤外線など特定の波長帯の光を照射した結果得られた反射光のステレオ画像など、特徴点検出の対象とする画像のデータが含まれる。画像データ取得部５２は、所定のフレームレートで送られる画像のデータを順次、画像データ格納部５４に格納する。画像データ格納部５４には少なくとも、現フレームおよび過去の所定数のフレームの画像データが格納される。

画像加算部５６は、図３のＣＰＵ２３、ＧＰＵ２４、メインメモリ２６などで実現され、画像データ格納部５４に格納された現フレームの画像データと、その直前に格納された、所定数の過去フレームの画像データを読み出す。そして同じ位置の画素同士で画素値を加算した加算画像を、ステレオ画像の左右の視点それぞれについて生成する。上述のとおり、加算するフレーム数を異ならせた複数の加算画像の対を生成してもよい。加算画像を生成する頻度は、位置情報に求められる時間分解能に基づき決定され、撮像装置１２が画像を撮影するフレームレートと同じでもよいし、それより小さくてもよい。

画像解析部５８は、図３のＣＰＵ２３、ＧＰＵ２４、メインメモリ２６などで実現され、画像加算部５６が加算画像のステレオ画像を生成する都度、それらから対応点を特定し、その視差に基づき三角測量の原理で被写体までの距離を取得する。画像解析部５８はそれと並行して、加算前の現フレームのステレオ画像から対応点を特定し、それに基づいても被写体の距離を取得する。そして画像解析部５８は両者の結果を統合し、被写体の状態によらず精度が均一な、最終的な位置情報を所定の頻度で生成する。

情報処理部６０は、図３のＣＰＵ２３、メインメモリ２６などで実現され、画像解析部５８が生成した位置情報を順次取得して、それを用いて所定の情報処理を実施する。上述のとおりここで実施する情報処理の内容は特に限定されない。情報処理部６０は当該情報処理の結果として、表示画像や音声などの出力データを所定の頻度で生成する。この際、必要に応じて画像データ格納部５４に格納された現フレームの画像データを読み出し、出力データの生成に用いる。出力部６２は、図３のＣＰＵ２３、出力部３６などで構成され、生成された出力データを順次、表示装置１６に適したタイミングで出力する。

図５は、本実施の形態の一例として、赤外線をパターン照射し、その反射光の撮影画像を用いて被写体の距離を取得する手法を説明するための図である。図５の（ａ）、（ｂ）はそれぞれ、左視点および右視点の撮影画像を模式的に示している。各撮影画像には被写体である２人の人物７０、７２が写っている。人物７０は人物７２より撮像装置１２に近い位置にいる。また（ａ）に示す左視点の画像は、（ｂ）に示す右視点の画像より、被写体の像が右に寄っている。

このような状況において、スポット状の赤外線を所定の分布で被写空間に照射すると、人物７０、７２の表面での反射光が撮影画像にスポット状に表れる（例えば像７４ａ、７４ｂ、７６ａ、７６ｂ）。照射した赤外線の分布パターンは既知のため、撮影画像における反射光の像の分布パターンに基づき、左右の視点の画像における対応点が求められる。例えば（ａ）の左視点の画像における像７４ａ、７６ａはそれぞれ、（ｂ）の右視点の画像における像７４ｂ、７６ｂに対応することがわかる。

ここで、人物７０での同じ反射を表す像７４ａ、７４ｂがそれぞれの画像の横方向の位置ｘ１＿Ｌ、ｘ１＿Ｒで検出されたとすると、視差はｘ１＿Ｌ−ｘ１＿Ｒである。同様に、人物７２での同じ反射を表す像７６ａ、７６ｂがそれぞれの画像の横方向の位置ｘ２＿Ｌ、ｘ２＿Ｒで検出されたとすると、視差はｘ２＿Ｌ−ｘ２＿Ｒである。定性的に被写体までの距離は視差に反比例するため、キャリブレーションにより反比例の定数を求めておけば、視差に基づき距離を導出できる。

図示する例では人物７０の方が近くにいるため、その視差ｘ１＿Ｌ−ｘ１＿Ｒは人物７２の視差ｘ２＿Ｌ−ｘ２＿Ｒより大きくなっている。このような系において、撮像装置１２の近くにいる人物７０における反射光の像、例えば像７４ａ、７４ｂの輝度が適切に得られるような強度で赤外線を照射した場合、人物７２における反射光の像、例えば像７６ａ、７６ｂの輝度が得られず、場合によってはノイズとの差がなくなってしまうことが考えられる。この場合、画像から像７６ａ、７６ｂを検出できず、人物７２の位置情報が得られなくなってしまう。

図６は、図５と同様の状況において、フレームを加算することによる作用を説明するための図である。図６の（ａ）は、現フレームのみを用いて位置情報を生成する処理経路、（ｂ）は加算画像を用いて位置情報を生成する処理経路を模式的に示している。ここで位置情報は、被写体までの距離を画素値とするデプス画像とし、距離が小さいほど高い輝度としている。ただし位置情報をこれに限る主旨ではない。（ａ）の処理経路では、現フレームのステレオ画像７８ａ、７８ｂのみを用いて対応点を検出し、その視差から被写体の距離を導出する。

ところが後方にいる人物７２で反射する光の強度が弱く、図示するように本来あるべき反射光の像が画像に明確に表れなかった場合、正確な視差が求められず距離の精度が低下する。その結果、位置情報取得部５８が生成するデプス画像８０において、前方の人物７０の距離値が正確に表される一方、後方の人物７２の距離値は不定となり表されなかったり、誤差を多く含む距離値が表されたりする。

（ｂ）の処理経路ではまず画像加算部５６が、現フレームのステレオ画像７８ａ、７８ｂのそれぞれに、直前の３フレームの画像８２ａ、８２ｂを加算し、加算ステレオ画像８４ａ、８４ｂを生成する。この加算ステレオ画像では、輝度値が元の画像のおよそ４倍となるため、加算前では明確でなかった人物７２での反射光の像（例えば像８６）が明確になる。一方、加算前の画像で適度な輝度が得られていた人物７０での反射光の像は、加算することにより演算に想定されている輝度の上限を超えてしまうことがあり得る。

同図では、そのような反射光の像（例えば像８８）を星形で示している。その結果、位置情報取得部５８が生成するデプス画像９０において、後方の人物７２の距離値が正確に表され、前方の人物７０の距離値は不定となり表されなかったり、誤差を多く含む距離値が表されたりする。このように加算の必要性や適切な加算フレーム数は、被写体の位置、被写体にあたる光の強度、撮影露光時間などの撮影条件、画像補正パラメータなどによって様々となる。

図示するように複数の処理経路を設け、独立して解析を行いそれぞれに対し位置情報を生成すれば、被写空間がどのような状態であっても、また照射強度、撮影条件、補正パラメータなどを調整せずとも、いずれかに精度の高い情報が含まれていることになる。そこで位置情報取得部５８は、各位置情報から精度が高いと見込まれる情報を抽出して合成し、最終的な位置情報を１つ生成する。

図７は、図６で示した２つのデプス画像８０、９０を統合する様子を示している。図示する例では、デプス画像によって距離値が表されている被写体が明確に分かれている。このような場合、双方のデプス画像を比較し、一方のみに距離値が表されている領域を抽出して、他方のデプス画像における対応する領域の画素値を置き換えればよい。

例えば基準となるデプス画像８０をラスタ順などで走査していき、距離値として有効な値が格納されていない画素を検出したら、他方のデプス画像９０の同じ画素を参照する。当該画素に有効な値が格納されていれば、その値で元のデプス画像８０の画素値を更新する。この処理をデプス画像８０の全ての画素で行うことにより、２つのデプス画像８０、９０を統合したデプス画像９２を生成できる。

なお元のデプス画像８０、９０を生成する際、距離値の信頼度を画素ごとに取得しておき、統合時には信頼度の高い方の距離値を採用するようにしてもよい。例えばステレオ画像の一方に定めた微小ブロックに対し、他方の微小ブロックを水平方向に移動させて最も高い類似度が得られる位置を対応点として求めるブロックマッチングの手法では、対応点を決定した際のブロックの類似度の大きさに基づき信頼度を決定できる。距離値の信頼度はこのほか、様々な基準で取得できることは当業者には理解されるところである。

図６、図７は、ステレオ画像から複数の処理経路でデプス画像を生成する例を示しているが、上述のとおり本実施の形態は特徴点を検出する処理を含めば出力する情報は限定されず同様の効果を得ることができる。すなわち輝度レンジが異なる複数の被写体のそれぞれについて、異なる処理経路で独立に解析結果を取得し、それらを統合すれば、被写体の状況に関わらず精度が保障された解析結果を出力できる。

次に、以上の構成によって実現される、本実施の形態における情報処理装置の動作を説明する。図８は、情報処理装置１０が撮影画像を用いて位置情報を取得しデータ出力を行う処理手順を示すフローチャートである。このフローチャートは、被写体の位置情報を必要とする電子コンテンツをユーザが選択し、撮像装置１２において撮影がなされている状態での情報処理装置１０の動作を示している。このとき表示装置１６には必要に応じて初期画像が表示されている。

まず情報処理装置１０の画像データ取得部５２は、撮像装置１２から現在時刻ｔのフレームのステレオ画像データを取得し、画像データ格納部５４に格納する（Ｓ１０）。上述のとおり、特定の波長帯を検出したステレオ画像から位置情報を取得する場合、さらにカラー画像のデータを取得してもよい。位置情報取得部５８は、当該時刻ｔのフレームのステレオ画像を画像データ格納部５４から読み出し、それらの対応点を検出して被写体の距離値を求めることにより、デプス画像を生成する（Ｓ１２）。

一方、画像加算部５６は、現フレームの直前に取得した所定数の過去フレームのステレオ画像のデータを画像データ格納部５４から読み出し、現フレームの画像とともに同じ位置の画素同士で画素値を足し合わせることにより、加算ステレオ画像のデータを生成する（Ｓ１４）。ただしこの処理は当然、過去フレームの画像が所定数、画像データ格納部５４に格納された時点から実施する。加算する過去フレームの数は、論理的あるいは実験などにより最適値を求めておく。例えば被写体の距離の想定範囲と、照射光の強度や環境光の照度の想定範囲との組み合わせから、ステレオ画像において得られる輝度の想定範囲が判明する。

その想定範囲のうち最低値近傍の輝度値が、対応点の検出に十分な値となり、かつ対応点取得処理に想定される上限値を十分下回るような倍率を計算することにより、適切な加算フレーム数を求めることができる。典型的には３つの過去フレームを加算することにより輝度レンジを４倍とし、輝度の階調を２ビット分、増加させる。加算数を２、４、８、・・・などと複数種類とし、Ｓ１４、Ｓ１６の処理をそれぞれの加算数で実施してもよい。

図６の加算ステレオ画像８４ａ、８４ｂで示したように、元から十分な輝度が得られている像は、加算することにより演算に想定される上限を超えることがあり得る。そのためあらかじめ輝度の上限値を設定しておき、加算結果が上限値を超える場合、画像加算部５６は得られた輝度を当該上限値に置き換える。これにより、対応点の検出に係る演算プログラムを変更することなく、本実施の形態を容易に導入できる。位置情報取得部５８は、過去フレームが加算されたステレオ画像を画像加算部５６から取得し、それらの対応点を検出して被写体の距離値を求めることにより、加算画像に基づくデプス画像を生成する（Ｓ１６）。

次に位置情報取得部５８は、Ｓ１２で生成した現フレームの画像に基づくデプス画像と、加算画像に基づくデプス画像とを統合し、被写体の様々な状態を網羅した１つのデプス画像を生成する（Ｓ１８）。情報処理部６０は、当該デプス画像を用いて所定の情報処理を実施する（Ｓ２０）。上述のとおり情報処理の内容は特に限定されず、ユーザが選択したアプリケーションなどによって異なってよい。情報処理部６０は情報処理の結果として表示画像や音声などの出力データを生成し、出力部６２がそれを表示装置１６などに出力することで、時刻ｔでの実空間の状況に対応した出力がなされる（Ｓ２２）。

ゲームの進捗やユーザ操作などにより処理を終了させる必要が生じない間は（Ｓ２４のＮ）、次の時刻ｔ＝ｔ＋Δｔのフレームの画像データを取得し（Ｓ２６、Ｓ１０）、Ｓ１２〜Ｓ２２の処理を繰り返す。処理を終了させる必要が生じたら、全ての処理を終了させる（Ｓ２４のＹ）。

以上述べた本実施の形態によれば、撮影画像を解析して特徴点を検出し、被写体の位置情報を取得する技術において、現フレームの直前に撮影された所定数の過去フレームの画像を加算したうえで解析を実施する。これにより、輝度が乏しく特徴点として検出が困難な画素の輝度レンジを増幅できるとともに、相対的にノイズのレベルを下げることができる。結果として反射光の像や特徴点の検出精度が向上し、ひいては位置情報を正確に求めることができる。

また、元から適切な輝度が得られている場合にも対応するように、過去フレームを加算せずに解析する処理経路を設ける。あるいは加算する過去フレームの数を異ならせてそれぞれについて画像解析する処理経路を設ける。これらの一方、あるいは組み合わせにより、元の撮影画像における反射光の像や特徴点の輝度レベルによらず、それらの検出精度を保証できる。結果として、光の照射強度や撮影条件を調整せずとも、幅広い距離範囲の被写体の位置を精度よく取得できる。

また、異なる処理経路で取得した複数の位置情報を統合し、１つのデプス画像を生成する。これにより同じ視野に距離や状態の大きく異なる被写体が混在していても、最終的に生成される位置情報の精度は均一となり、それを用いた情報処理において精度のばらつきを考慮する必要がなくなる。結果として、被写体の状況によらず情報処理の精度を容易に維持することができる。

実施の形態２
実施の形態１では、特徴点を抽出する対象として撮影画像を用い、抽出精度を向上させることを主な目的として過去フレームを加算した。本実施の形態では、撮影画像をそのまま表示させたり、撮影画像を加工して表示させたりする態様において、表示画像の輝度レンジを拡張させる目的で画像を加算する。

この際、撮像面の動きや被写体の動きを考慮して過去フレームの像を補正し、現フレームの時刻の像を生成したうえで加算することにより、加算画像の像が鮮明になるようにする。本実施の形態の情報処理システムの構成や情報処理装置の内部回路構成は、実施の形態１で説明したのと同様でよい。また撮像装置１２および表示装置１６を、図２で示したようなヘッドマウントディスプレイ１００で構成してもよい。

図９は本実施の形態における情報処理装置の機能ブロックの構成を示している。情報処理装置１５０は、撮像装置１２から画像のデータを取得する画像データ取得部１５２、取得した画像のデータを格納する画像データ格納部１５４、所定数の過去フレームの画像を足し合わせる画像加算部１５６、被写体の状態に係る情報を取得する状態情報取得部１５８、および、出力すべきデータを出力する出力部６２を含む。

画像データ取得部１５２は、実施の形態１の画像データ取得部５２と同様の機能を有する。ただし本実施の形態における画像データ取得部１５２は、少なくとも表示画像に用いるデータを取得すればよい。画像データ取得部１５２はさらに、撮像面と被写体との相対的な位置や姿勢の変化を得るためのデータを、撮影画像と対応づけて取得する。例えば図２で示したヘッドマウントディスプレイ１００を導入し、筐体１０８の前面に設けたカメラで撮影した画像を用いた表示を行う場合、ヘッドマウントディスプレイ１００に内蔵したジャイロセンサ、加速度センサなどのモーションセンサから計測値を取得することにより、ユーザ頭部の動きが求められる。

これにより撮影画像平面に対する被写体の相対的な動きを特定できるため、過去フレームの画像に写る被写体の像を、現フレームと同時刻における像に補正できる。なお撮影画像平面に対する被写体の相対的な動きを特定できれば、その根拠とするデータはモーションセンサの計測値に限らず、ひいては本実施の形態の撮像装置１２および表示装置１６をヘッドマウントディスプレイ１００に限る主旨ではない。

例えば被写体が既知の形状やサイズを有する場合、その実空間での位置や姿勢は、テンプレート画像やオブジェクトモデルとのマッチングにより、撮影画像を用いて求められる。その他、撮影画像を用いて被写体の実空間での位置や姿勢の変化を追跡したり推定したりする技術には様々なものが提案されており、そのいずれを適用してもよい。

画像データ取得部１５２は、所定のフレームレートで送られる画像のデータを順次、画像データ格納部１５４に格納する。画像データ格納部１５４には、現フレームおよび過去の所定数のフレームの画像データが格納される。ヘッドマウントディスプレイ１００からモーションセンサの計測値を取得する場合、画像データ取得部１５２は、当該データも各時刻の撮影画像と対応づけて画像データ格納部１５４に順次格納する。

状態情報取得部１５８は、図３のＣＰＵ２３、ＧＰＵ２４、メインメモリ２６などで実現され、画像データ格納部１５４に格納されたモーションセンサの計測値または撮影画像のデータを順次読み出し、上述のとおり３次元実空間での被写体の位置や姿勢を各時刻に対し取得する。取得した情報は、各時刻の撮影画像と対応づけて画像データ格納部１５４に順次格納する。画像加算部１５６は、図３のＣＰＵ２３、ＧＰＵ２４、メインメモリ２６などで実現され、補正部１６４および加算部１６６を含む。

補正部１６４は、状態情報取得部１５８が取得した、各フレームにおける被写体の位置や姿勢の情報に基づき、過去フレームから現フレームまでに生じた回転角や並進量を被写体ごとに取得する。そして３次元空間において仮想的に被写体の位置や姿勢を操作することで、過去フレームの画像における被写体を現フレームの時刻まで進ませたときの像を求める。

加算部１６６は、そのように補正した過去フレームの画像を、現フレームの画像に加算することにより、表示に用いる加算画像を生成する。加算するフレーム数は、元の撮影画像の輝度レンジと、表示装置１６が対応している輝度レンジあるいは画像表現に望まれる輝度レンジと、に基づき決定する。接続された表示装置１６に応じて、加算するフレーム数を適応的に決定してもよい。

出力部１６２は、図３のＣＰＵ２３、出力部３６などで構成され、画像加算部１５６が生成した加算画像のデータを順次、表示装置１６に適したタイミングで出力する。出力部１６２は、加算された画像上に仮想オブジェクトを描画するなど所定の加工を行ったうえでデータを出力してもよい。このような加工において、状態情報取得部１５８が取得した被写体の位置や姿勢に係る情報を利用してもよい。出力部１６２はさらに音声のデータも出力してよい。

図１０は、本実施の形態における画像加算部１５６が、過去フレームの画像を補正したうえで現フレームの画像と加算する様子を模式的に示している。同図上段は、各フレームの撮影周期をΔｔ、現フレームの撮影時刻をｔとしたときに、加算の対象となる４フレーム分の撮影時刻と各撮影画像の内容を例示している。同図の例では、時刻ｔ−３Δｔにおいて被写体である円板状の物の側面が見えている状態から、時刻ｔ−２Δｔ、ｔ−Δｔ、ｔ、と時間が経過するにつれ、徐々に円板上面が見えるように変化している。また当該被写体は、視野の左から右に移動している。

このとき状態情報取得部１５８は、各撮影画像の下に示すように、各時刻における被写体の３次元空間での位置および姿勢、またはそれらの変化量に係る情報を取得する。補正部１６４は、過去フレームと現フレームの位置および姿勢の差分、すなわち３軸での回転角と並進量に基づき、過去フレームにおける被写体の像を現フレームの時刻の状態に補正する。被写体の回転角をロールφ、ピッチθ、ヨーψとし、並進量を（Ｔ_ｘ，Ｔ_ｙ，T_ｚ）とすると、３次元空間において位置座標（ｘ，ｙ，ｚ）にあった被写体表面の点は、下式により、回転、並進後の位置座標（ｘ’，ｙ’，ｚ’）に移動する。

上式により求めた位置座標（ｘ’，ｙ’，ｚ’）を、透視変換により画像平面に射影すれば、元の撮影画像における画素の移動先が求められる。この補正処理を、被写体を構成する全ての画素について実施することにより、同図中段に示すように、時刻ｔ−３Δｔ、ｔ−２Δｔ、ｔ−Δｔの各フレームにおける被写体の像から、現フレームの時刻ｔの像を生成できる。加算部１６６は、時刻ｔ−３Δｔ、ｔ−２Δｔ、ｔ−Δｔの過去フレームの像を補正した画像と、時刻ｔの現フレームの撮影画像とを加算することにより、同図下段に示す加算後の画像を生成できる。この画像の色深度は、元の撮影画像から２ビット分、増加している。したがって、これに対応する表示装置１６を用いて表示すれば、よりダイナミックな画像表現が可能となる。

次に、以上の構成によって実現される、本実施の形態における情報処理装置の動作を説明する。図１１は、情報処理装置１５０が撮影画像の輝度レンジを拡張して表示させる処理手順を示すフローチャートである。このフローチャートは、撮影画像を用いた表示を伴う電子コンテンツをユーザが選択し、撮像装置１２において撮影がなされている状態での情報処理装置１５０の動作を示している。このとき表示装置１６には必要に応じて初期画像が表示されている。

まず情報処理装置１５０の画像データ取得部１５２は、撮像装置１２から現在時刻ｔのフレームの撮影画像のデータを取得し、画像データ格納部５４に格納する（Ｓ３０）。この際、態様によっては、撮像装置１２を兼ねるヘッドマウントディスプレイ１００のモーションセンサから、ユーザ頭部の位置や姿勢に係る計測値を取得し、撮影画像のデータに対応づけて画像データ格納部５４に格納する。

状態情報取得部１５８は、現在時刻ｔのフレームに写る被写体の位置および姿勢を取得する（Ｓ３２）。当該情報の取得目的は、図１０で示したような画像平面における像の補正にあるため、状態情報取得部１５８は、撮像面と被写体との相対的な位置や角度の関係を導出できる情報を取得する。その限りにおいて当該情報は、ワールド座標系における被写体およびスクリーンの位置および姿勢であっても、カメラ座標系における被写体の位置および姿勢であってもよい。

このような情報は上述のとおり、ヘッドマウントディスプレイ１００のモーションセンサによる計測値から取得してもよいし、撮影画像に写る被写体の像の形状やサイズに基づき取得してもよい。撮像装置１２からステレオ画像のデータを取得し、それに基づき被写体の３次元空間での位置を特定してもよい。この場合、実施の形態１で説明したように、過去フレームの撮影画像を加算した画像を用いて対応点を検出してもよい。モーションセンサに基づく情報と、撮影画像に基づく情報とを統合して、最終的な位置や姿勢の情報を求めてもよい。

取得した情報は、時刻ｔのフレームの撮影画像のデータと対応づけて画像データ格納部１５４に格納する。続いて画像加算部１５６の補正部１６４は、現フレームの直前に取得した所定数の過去フレームの撮影画像のデータ、およびそれらに対応づけられた、被写体の位置および姿勢の情報を画像データ格納部５４から読み出し、被写体の像を現時刻ｔの状態に補正した画像を生成する（Ｓ３４）。

具体的には過去フレームの撮影時刻ｔ−ｎΔｔ（１≦ｎ≦Ｎ、Ｎは加算する過去フレームの数）から現フレームの撮影時刻ｔまでに生じた被写体の回転角および並進量から、被写体を構成する各画素の移動先の位置座標を、上式および透視変換により求める。そして補正前の像の画素を移動させることにより、補正後の像を形成する。なお数フレーム分での物体の並進量に対し誤差の割合が大きいと考えられる場合、上式における並進量の成分（Ｔ_ｘ，Ｔ_ｙ，Ｔ_ｚ）は演算に含めなくてもよい。

また補正部１６４は、画質をより向上させるためにさらなる補正処理を行ってもよい。具体的には、過去フレームおよび現フレームの画像の画素を既存の手法により補間し、解像度を上げてもよい。またノイズ除去フィルタなど、各種補正フィルタを施してもよい。加算部１６６は、そのようにして補正された画像を、現フレームの画像とともに同じ位置の画素同士で加算することにより加算画像を生成する（Ｓ３６）。ここで後述するように、加算する画素の領域をサブピクセル単位でずらすことにより、加算画像の高精細高解像度化を実現してもよい。

なお実施の形態１と同様、加算することにより輝度値が所定の上限を超える画素が生じた場合、その画素値を当該上限値に置き換える。出力部１６２は、生成された加算画像のデータを表示装置１６などに出力する（Ｓ３８）。これにより時刻ｔの表示画像が高精細に表示される。出力部１６２は適宜音声データも出力してよい。また上述のように、出力部１６２は加算画像に所定の加工を施してもよい。

ゲームの進捗やユーザ操作などにより処理を終了させる必要が生じない間は（Ｓ４０のＮ）、次の時刻ｔ＝ｔ＋Δｔのフレームの撮影画像データを取得し（Ｓ４２、Ｓ３０）、Ｓ３２〜Ｓ３８の処理を繰り返す。処理を終了させる必要が生じたら、全ての処理を終了させる（Ｓ４０のＹ）。

図１２は、図１１のＳ３６において、加算部１６６が画素領域をずらして画像を加算する様子を模式的に示している。この例では２つの画像１７０、１７２を加算する際の、２行３列分の画素の位置ずれを例示しており、画像１７０の画素の境界線を実線、画像１７２の画素の境界線を破線で示している。例えば画像１７０における画素１７４が、画像１７２における画素１７６に対応する。図示するように画素の境界を縦横双方向に半画素分ずらすと、一方の画像の画素領域は、他方の画像の画素領域の境界によって４分割される。

例えば画素１７６は、「Ａ」、「Ｂ」、「Ｃ」、「Ｄ」の４つの領域に分割される。領域「Ａ」は他方の画像１７０の画素１７４の画素値と加算される。その他の領域はそれぞれ、画像１７０の、画素１７４に隣接する異なる画素の画素値と加算される。その結果、両者を加算した画像の解像度は、元の画像の４倍となる。この処理により、画素間を線形補間するのと比較し、より高い精度の高解像度画像を生成できる。

図示する例では縦方向と横方向のずらし量を同じとしているが、本実施の形態では被写体の回転角や並進量が得られているため、それに応じてずらし量に異方性を持たせてもよい。例えば補正前後の画素の移動量が大きい方向により大きくずらすようにしてもよい。また３フレーム以上の画像を加算する場合は特に、ずらし量は半画素分に限らず、それより小さい単位としてもよい。すなわち加算に際して各画像をずらす方向と量との組み合わせを、加算するフレーム数や被写体の位置および姿勢から導出できるように、あらかじめ規則を設定してもよい。

以上述べた本実施の形態によれば、撮影画像を用いて表示を行う技術において、現フレームの直前に撮影された所定数の過去フレームの画像を加算して表示画像を生成する。これにより、被写体の像の輝度を、ノイズを増幅させることなく制御できるため、表示装置が対応可能な輝度レンジに応じて、より表現力のある高精細な画像を表示できる。

また被写体の３次元空間での位置や姿勢を各時刻で取得しておき、加算前の過去フレームの画像における像を、現フレームの時刻に合わせて補正する。これにより、過去フレームからの時間経過によって撮像面や被写体が動いていても、当該微小な動きをも影響させずに鮮明な画像を表示できる。これにより表示画像への影響を最小限としつつ、加算する過去フレームの数を自由に設定でき、望ましい輝度レンジへの変換を容易に実現できる。

なお本実施の形態の補正部１６４の機能を、実施の形態１の画像加算部５６に設けてもよい。この場合、モーションセンサの計測値などに基づき被写体の３次元空間での回転角および並進量を取得する状態情報取得部１５８を、情報処理装置１０にさらに設けてもよいし、画像解析部５８が当該処理を実施し、その結果を画像加算部５６に供給するようにしてもよい。これにより、被写体の微小な動きをも加味して加算画像を生成でき、特徴点の検出、ひいては位置情報を高精度に取得できる。また加算する過去フレーム数に対する自由度が増えるため、より多様な状況にある被写体の特徴点を正確に取得できる。

以上、本発明を実施の形態をもとに説明した。上記実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

例えば実施の形態１において画像解析部５８は、撮影画像を加算しない処理経路と加算する処理経路でそれぞれ独立に位置情報の取得を実施し、それらの結果を統合した。一方画像解析部５８は、それ以外の観点でも処理経路を分離してそれぞれで位置情報を取得し、結果を統合してもよい。例えば環境光を撮影したカラーステレオ画像を用いて位置情報を取得する経路と、特定の波長帯の光を撮影したステレオ画像を用いて位置情報を取得する経路を設けてもよい。

そして各処理経路において、撮影画像の加算／非加算や加算数が異なる処理経路にさらに分岐させてもよい。処理経路が増加するほど、被写体の状況変化に対しより高い頑健性で特徴点検出や位置情報取得を行える。処理経路の設定は、取得する情報に求められる精度や時間分解能、情報処理装置の処理性能、許容される通信帯域などに応じて適宜決定する。

１情報処理システム、１０情報処理装置、１２撮像装置、１６表示装置、５２画像データ取得部、５４画像データ格納部、５６画像加算部、５８画像解析部、６０情報処理部、６２出力部、１５２画像データ取得部、１５４画像データ格納部、１５６画像加算部、１５８状態情報取得部、１６２出力部、１６４補正部、１６６加算部。

以上のように本発明は、ゲーム装置、画像処理装置、携帯端末、電子コンテンツ処理装置など各種情報処理装置と、それらを含む情報処理システムなどに利用可能である。

Claims

撮影される動画像のフレームの画像データを順次取得する画像データ取得部と、
３次元空間での被写体の位置および姿勢を各時刻に対し取得する状態情報取得部と、
過去フレームから現フレームまでの時間に生じた前記位置および姿勢の変化を取得することにより、当該過去フレームにおける被写体の像を前記現フレームの撮影時刻における像に補正したうえ、前記現フレームの画像の画素値に、補正後の前記過去フレームの画像の画素値を、対応する位置で加算した加算画像を生成する画像加算部と、
前記加算画像を用いて所定の処理を実施した結果を表すデータを出力する出力部と、
を備えることを特徴とする情報処理装置。
前記画像加算部は、前記被写体の３次元空間での位置および姿勢の変化を用いて導出した、前記現フレームの撮影時刻における位置および姿勢の被写体を画像平面に射影することにより、前記過去フレームの画像における被写体の像を補正することを特徴とする請求項１に記載の情報処理装置。
前記状態情報取得部は、前記動画像を撮影する撮像装置が備えるモーションセンサの計測値に基づく情報と、前記撮影される動画像に基づく情報と、を統合して、前記被写体の３次元空間での位置および姿勢を取得することを特徴とする請求項１または２に記載の情報処理装置。
前記画像データ取得部は、前記画像データとして、左右の視点から同じ空間を撮影したステレオ画像のデータを取得し、
前記加算画像のステレオ画像および前記現フレームのステレオ画像から抽出した特徴点に基づき、被写体までの距離を表すデプス画像をそれぞれ求めたうえ、両者を統合して異なる距離の被写体に係るデプス画像を生成する画像解析部をさらに備えたことを特徴とする請求項３に記載の情報処理装置。
前記出力部は、前記加算画像を含む表示画像のデータを出力することを特徴とする請求項１から４のいずれかに記載の情報処理装置。
前記画像加算部は、加算対象の複数のフレームを一画素の領域より小さい単位でずらして対応づけることにより、あるフレームの画素領域を他方のフレームの画素境界で分割してなる領域を生成し、当該分割してなる領域の単位で画素値を加算することを特徴とする請求項５に記載の情報処理装置。
前記画像加算部は、加算対象の複数のフレームをずらす方向を、被写体の３次元空間での位置および姿勢の変化に基づき決定することを特徴とする請求項６に記載の情報処理装置。
ユーザの視線に対応する視野で動画像を撮影する撮像装置を備えたヘッドマウントディスプレイと、
前記動画像に基づき、前記ヘッドマウントディスプレイに表示させる表示画像のデータを生成する情報処理装置と、
を備え、
前記情報処理装置は、
前記動画像のフレームの画像データを順次取得する画像データ取得部と、
３次元空間での被写体の位置および姿勢を各時刻に対し取得する状態情報取得部と、
過去フレームから現フレームまでに生じた前記位置および姿勢の変化を取得することにより、当該過去フレームにおける被写体の像を前記現フレームの撮影時刻における像に補正したうえ、前記現フレームの画像の画素値に、補正後の前記過去フレームの画像の画素値を、対応する位置で加算した加算画像を生成する画像加算部と、
前記加算画像を用いて前記表示画像のデータを生成し出力する出力部と、
を備えることを特徴とする情報処理システム。
撮影される動画像のフレームの画像データを順次取得しメモリに格納するステップと、
３次元空間での被写体の位置および姿勢を各時刻に対し取得するステップと、
過去フレームから現フレームまでの時間に生じた前記位置および姿勢の変化を取得することにより、前記メモリより読み出した、当該過去フレームにおける被写体の像を前記現フレームの撮影時刻における像に補正したうえ、前記現フレームの画像の画素値に、補正後の前記過去フレームの画像の画素値を、対応する位置で加算した加算画像を生成するステップと、
前記加算画像を用いて所定の処理を実施した結果を表すデータを出力するステップと、
を含むことを特徴とする、情報処理装置による画像処理方法。
撮影される動画像のフレームの画像データを順次取得する機能と、
３次元空間での被写体の位置および姿勢を各時刻に対し取得する機能と、
過去フレームから現フレームまでの時間に生じた前記位置および姿勢の変化を取得することにより、当該過去フレームにおける被写体の像を前記現フレームの撮影時刻における像に補正したうえ、前記現フレームの画像の画素値に、補正後の前記過去フレームの画像の画素値を、対応する位置で加算した加算画像を生成する機能と、
前記加算画像を用いて所定の処理を実施した結果を表すデータを出力する機能と、
をコンピュータに実現させることを特徴とするコンピュータプログラム。