JP2022019341A - 情報処理装置、情報処理方法、及びプログラム - Google Patents
情報処理装置、情報処理方法、及びプログラム Download PDFInfo
- Publication number
- JP2022019341A JP2022019341A JP2020123121A JP2020123121A JP2022019341A JP 2022019341 A JP2022019341 A JP 2022019341A JP 2020123121 A JP2020123121 A JP 2020123121A JP 2020123121 A JP2020123121 A JP 2020123121A JP 2022019341 A JP2022019341 A JP 2022019341A
- Authority
- JP
- Japan
- Prior art keywords
- posture
- time
- image
- information
- shape data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
Abstract
【課題】 オブジェクトを撮影することにより得られる撮影画像に基づいて、撮影時刻とは異なる時刻におけるオブジェクトの三次元形状データを生成する。【解決手段】 情報処理装置は、所定の撮影時刻において複数の撮影装置によりオブジェクトを異なる方向から撮影することで得られる複数の撮影画像に基づいて、当該撮影時刻におけるオブジェクトの三次元形状を表す形状データを生成する。また情報処理装置は、当該撮影時刻におけるオブジェクトの姿勢を表す第1姿勢情報と、当該撮影時刻とは異なる特定時刻におけるオブジェクトの姿勢を表す第2姿勢情報とを取得する。そして情報処理装置は、第1姿勢情報及び第2姿勢情報と、当該撮影時刻に対応する形状データとに基づいて、特定時刻におけるオブジェクトの三次元形状を表す形状データを生成する。【選択図】 図9
Description
本発明は、複数の撮影画像を用いてオブジェクトの3次元モデルを生成する技術に関する。
複数の撮影装置を異なる位置に設置して多視点で同期撮影し、当該撮影により得られた複数視点画像を用いて、任意の視点から見た光景を表す仮想視点画像を生成する技術がある。このような技術によれば、例えば、サッカーやバスケットボール等の試合のハイライトシーンやコンサート等を様々な角度から視聴することが可能となり、通常の画像と比較してユーザに高臨場感を与えることができる。
仮想視点画像の生成方法としては、複数の撮影装置により撮影された画像を用いて撮影領域内のオブジェクトの三次元形状データを生成し、その三次元形状データを用いたレンダリング処理を行って仮想視点画像を生成する方法がある。また、特許文献1には、予め設定された調整可能な三次元オブジェクトテンプレートモデルを、複数のカメラ画像から得られたオブジェクト三次元情報に基づいて調整し、調整されたモデルに射影変換を施すことで仮想視点画像を生成することが記載されている。
撮影装置は所定のフレームレートの撮影画像を生成するが、撮影画像のフレームに対応する時刻とは異なる時刻におけるオブジェクトの三次元形状データを生成することが求められる場合がある。例えば、撮影画像のフレームレートより高いフレームレートで画像を表示可能なデバイスで仮想視点画像を表示する場合に、高いフレームレートの仮想視点画像を用いると、滑らかな動画の再生が可能となる。また例えば、高いフレームレートの仮想視点画像をスロー再生することで、スロー動画を滑らかに再生することが可能となる。撮影画像のフレームレートより高いフレームレートの仮想視点画像を生成するためには、撮影画像のフレームに対応する時刻とは異なる時刻の三次元形状データを生成することが要求される。しかしながら、従来の方法では、撮影が行われていない時刻におけるオブジェクトの三次元形状データを取得することはできない。
本発明は上記の課題に鑑みてなされたものであり、オブジェクトを撮影することにより得られる撮影画像に基づいて、撮影時刻とは異なる時刻におけるオブジェクトの三次元形状データを生成することを目的とする。
上記の課題を解決するため、本発明に係る情報処理装置は、例えば以下の構成を有する。すなわち、所定の撮影時刻において複数の撮影装置によりオブジェクトを異なる方向から撮影することで得られる複数の撮影画像に基づいて、前記所定の撮影時刻における前記オブジェクトの三次元形状を表す形状データを生成する第1生成手段と、前記所定の撮影時刻における前記オブジェクトの姿勢を表す第1姿勢情報と、前記所定の撮影時刻とは異なる特定時刻における前記オブジェクトの姿勢を表す第2姿勢情報と、を取得する取得手段と、前記取得手段により取得された前記第1姿勢情報及び前記第2姿勢情報と、前記生成手段により生成された前記形状データとに基づいて、前記特定時刻における前記オブジェクトの三次元形状を表す形状データを生成する第2生成手段と、を有する。
本発明によれば、オブジェクトを撮影することにより得られる撮影画像に基づいて、撮影時刻とは異なる時刻におけるオブジェクトの三次元形状データを生成することができる。
[システム構成]
以下、本発明の実施形態について、図面を使用して詳細に説明する。図1は、画像生成システム100の構成例を示す。画像生成システム100は、複数の撮影装置による撮影に基づく複数の画像(複数視点画像)と、仮想的な視点位置及び視線方向とに基づいて、仮想視点からの見えを表す仮想視点画像を生成するシステムである。本実施形態における仮想視点画像は、自由視点映像とも呼ばれるものであるが、ユーザが自由に(任意に)指定した視点に対応する画像に限定されず、例えば複数の候補からユーザが選択した視点に対応する画像なども仮想視点画像に含まれる。また、本実施形態では仮想視点の指定がユーザ操作により行われる場合を中心に説明するが、仮想視点の指定が画像解析の結果等に基づいて自動で行われてもよい。画像生成システム100は、動画を構成するフレームの画像としての静止画の仮想視点画像を所定のフレーム更新間隔で更新することで再生される、仮想視点の動画を生成する。以降の説明に於いては、特に断りがない限り、画像という文言が動画と静止画の両方の概念を含むものとして説明する。
以下、本発明の実施形態について、図面を使用して詳細に説明する。図1は、画像生成システム100の構成例を示す。画像生成システム100は、複数の撮影装置による撮影に基づく複数の画像(複数視点画像)と、仮想的な視点位置及び視線方向とに基づいて、仮想視点からの見えを表す仮想視点画像を生成するシステムである。本実施形態における仮想視点画像は、自由視点映像とも呼ばれるものであるが、ユーザが自由に(任意に)指定した視点に対応する画像に限定されず、例えば複数の候補からユーザが選択した視点に対応する画像なども仮想視点画像に含まれる。また、本実施形態では仮想視点の指定がユーザ操作により行われる場合を中心に説明するが、仮想視点の指定が画像解析の結果等に基づいて自動で行われてもよい。画像生成システム100は、動画を構成するフレームの画像としての静止画の仮想視点画像を所定のフレーム更新間隔で更新することで再生される、仮想視点の動画を生成する。以降の説明に於いては、特に断りがない限り、画像という文言が動画と静止画の両方の概念を含むものとして説明する。
また、本実施形態では、画像生成システム100が仮想視点画像と仮想視点音声を含む仮想視点コンテンツを提供する例を中心に説明する。ただし、仮想視点コンテンツに音声が含まれていなくても良い。また、仮想視点コンテンツに含まれる音声が、仮想視点に最も近いマイクにより集音された音声であっても良い。また、本実施形態では、説明の簡略化のため、部分的に音声についての記載を省略しているが、基本的に画像と音声は共に処理されるものとする。
画像生成システム100は、センサシステム110a~センサシステム110z、画像生成装置122、コントローラ123、スイッチングハブ121、エンドユーザ端末126、及びタイムサーバ127を有する。
センサシステム110aはマイク111a、カメラ112a、雲台113a、外部センサ114a、及びカメラアダプタ120aを有する。なお、センサシステム110aはこの構成に限定されるものではなく、少なくとも1台のカメラ112aまたはマイク111aを有していれば良い。また例えば、センサシステム110aは1台のカメラアダプタ120aと複数のカメラ112aで構成されてもよいし、1台のカメラ112aと複数のカメラアダプタ120aで構成されてもよい。即ち、画像生成システム100内の複数のカメラ112と複数のカメラアダプタ120はN対M(NとMは共に1以上の整数)で対応する。また、センサシステム110aは、マイク111a、カメラ112a、雲台113a、及びカメラアダプタ120a以外の装置を含んでいてもよい。また、カメラ112aとカメラアダプタ120aが一体となって構成されていてもよい。
マイク111aにより集音された音声と、カメラ112aにより撮影された画像は、カメラアダプタ120aを介し、スイッチングハブ121へ伝送される。なお、本実施形態では、カメラ112aとカメラアダプタ120aが分離された構成である例を示しているが、これらが同一筺体に一体化されていてもよい。その場合、マイク111aは一体化されたカメラ112aに内蔵されてもよいし、カメラ112aの外部に接続されていてもよい。
本実施形態では、センサシステム110b~センサシステム110zは、センサシステム110aと同様の構成である。ただしこれに限らず、それぞれのセンサシステム110が異なる構成でもよい。本実施形態において、センサシステム110aからセンサシステム110zまでの26セットのシステムを特に区別しない場合には、センサシステム110と記載する。センサシステム110内の装置についても同様に、特に区別しない場合には、マイク111、カメラ112、雲台113、外部センサ114、及びカメラアダプタ120と記載する。なお、図1ではセンサシステムが26セットの例を示しているが、画像生成システム100に含まれるセンサシステム110の数はこれに限定されない。
複数のセンサシステム110は、それぞれ1台ずつのカメラ112を有する。即ち、画像生成システム100は、被写体を複数の方向から撮影するための複数の撮影装置としてのカメラ112を有する。複数のカメラ112により撮影される撮影領域は、例えばサッカーや空手などの競技が行われる競技場、もしくはコンサートや演技が行われる舞台などである。複数のカメラ112は、このような撮影領域を取り囲むようにそれぞれ異なる位置に設置され、同期して撮影を行う。なお、複数のカメラ112は撮影領域の全周にわたって設置されていなくてもよく、設置場所の制限等によっては撮影領域の周囲の一部にのみ設置されていてもよい。また、複数のカメラ112には、望遠カメラと広角カメラなど機能が異なる撮影装置が含まれていてもよい。
複数のセンサシステム110は、スイッチングハブ121に接続され、スイッチングハブ121を経由して複数のセンサシステム110間のデータ送受信を行う、スター型のネットワークを構成する。また、複数のセンサシステム110は、それぞれスイッチングハブ121を介して画像生成装置122に接続され、複数のカメラ112による撮影に基づく複数視点画像を画像生成装置122へ出力する。
タイムサーバ127は、時刻及び同期信号を配信する機能を有し、スイッチングハブ121を介して複数のセンサシステム110に時刻及び同期信号を配信する。時刻と同期信号を受信したカメラアダプタ120は、時刻と同期信号を基にカメラ112にGenlockをかけ画像フレーム同期を行う。即ち、タイムサーバ127は、複数のカメラ112の撮影タイミングを同期させる。これにより、画像生成システム100は同じタイミングで撮影された複数の撮影画像に基づいて仮想視点画像を生成できるため、撮影タイミングのずれによる仮想視点画像の品質低下を抑制できる。なお、本実施形態ではタイムサーバ127が複数のカメラ112の時刻同期を管理するものとするが、これに限らず、時刻同期のための処理をカメラ112又はカメラアダプタ120が独立して行ってもよい。
コントローラ123は、制御ステーション124と仮想カメラ操作UI125を有する。制御ステーション124は、画像生成システム100を構成するそれぞれの装置とネットワークを介して接続され、各装置の動作状態の管理及びパラメータ設定制御などを行う。ここで、ネットワークはEthernet(登録商標)であるIEEE標準準拠のGbE(ギガビットイーサーネット)や10GbEでもよいし、インターコネクトInfiniband、産業用イーサーネット等を組合せて構成されてもよい。また、これらに限定されず、他の種別のネットワークであってもよい。
具体的には、制御ステーション124は、画像生成システム100についての各種設定や制御を実行する。また、制御ステーション124は、撮影対象のスタジアム等の三次元モデルを画像生成装置122に送信する。さらに、制御ステーション124は、複数のカメラ112のキャリブレーションを実施する。カメラキャリブレーションでは、撮影対象のフィールド上にマーカーを設置して複数のカメラ112で撮影を行い、撮影画像からカメラ112それぞれの世界座標系における位置と向き、および焦点距離が算出される。算出されたカメラ112の位置、向き、及び焦点距離の情報は、画像生成装置122に送信される。送信された三次元モデルおよびカメラ112の情報は、画像生成装置122が仮想視点画像を生成する際に使用される。
仮想カメラ操作UI125は、生成すべき仮想視点画像に対応する仮想視点を指定するためのユーザ操作を受け付け、ユーザ操作に応じた視点情報を、仮想視点画像を生成する画像生成装置122に送信する。仮想視点画像の生成に用いられる視点情報は、仮想視点の位置及び向き(視線方向)を示す情報である。具体的には、視点情報は、仮想視点の三次元位置を表すパラメータと、パン、チルト、及びロール方向における仮想視点の向きを表すパラメータとを含む、パラメータセットを有する。また、視点情報は複数の時点にそれぞれ対応する複数のパラメータセットを有する。例えば、視点情報は、仮想視点画像の動画を構成する複数のフレームにそれぞれ対応する複数のパラメータセットを有し、連続する複数の時点それぞれにおける仮想視点の位置及び向きを示す。なお、視点情報の内容は上記に限定されない。例えば、視点情報としてのパラメータセットには、仮想視点の視野の大きさ(画角)を表すパラメータや、時刻を表すパラメータが含まれてもよい。
画像生成装置122は、複数のセンサシステム110から取得した複数視点画像と、仮想カメラ操作UI125から取得した視点情報とに基づいて、仮想視点画像を生成する。仮想視点画像は、例えば以下のような方法で生成される。まず、複数の撮像装置によりそれぞれ異なる方向から撮像することで得られた複数視点画像から、人物やボールなどの所定のオブジェクトに対応する前景領域を抽出した前景画像と、前景領域以外の背景領域を抽出した背景画像が取得される。また、所定のオブジェクトの三次元形状を表す前景モデルと前景モデルに色付けするためのテクスチャデータとが前景画像に基づいて生成され、競技場などの背景の三次元形状を表す背景モデルに色づけするためのテクスチャデータが背景画像に基づいて生成される。そして、前景モデルと背景モデルに対してテクスチャデータをマッピングし、視点情報が示す仮想視点に応じてレンダリングを行うことにより、仮想視点画像が生成される。ただし、仮想視点画像の生成方法はこれに限定されず、三次元モデルを用いずに撮像画像の射影変換により仮想視点画像を生成する方法など、種々の方法を用いることができる。
画像生成装置122によって生成された仮想視点画像は、エンドユーザ端末126に送信され、エンドユーザ端末126が有する表示画面に表示される。なお、エンドユーザ端末126は、仮想カメラ操作UI125と同様に、仮想視点を指定するためのユーザ操作に応じた視点情報を画像生成装置122に出力してもよい。これにより、エンドユーザ端末126を操作するユーザは、視点の指定に応じた画像閲覧及び音声視聴が出来る。
画像生成装置122は、仮想視点画像をH.264やHEVC等に代表される標準技術により圧縮符号化したうえで、MPEG-DASHプロトコルを使ってエンドユーザ端末126へデータを送信してもよい。また、仮想視点画像は、非圧縮でエンドユーザ端末126へ送信されてもよい。例えば、エンドユーザ端末126としてスマートフォンやタブレットが用いられる場合には圧縮符号化が行われ、エンドユーザ端末126が非圧縮画像を表示可能なディスプレイである場合には非圧縮画像が送信されてもよい。すなわち、エンドユーザ端末126の種別に応じて画像フォーマットが切り替え可能である。また、画像の送信プロトコルはMPEG-DASHに限らず、例えば、HLS(HTTP Live Streaming)やその他の送信方法が用いられても良い。
[ハードウェア構成]
画像生成システム100に含まれる情報処理装置の一例としての画像生成装置122のハードウェア構成について、図2(a)を用いて説明する。なお、図1に示した画像生成システム100に含まれる他の装置のハードウェア構成も、以下で説明する画像生成装置122の構成と同様であってよい。画像生成装置122は、CPU211、ROM212、RAM213、補助記憶装置214、表示部215、操作部216、通信I/F217、及びバス218を有する。
画像生成システム100に含まれる情報処理装置の一例としての画像生成装置122のハードウェア構成について、図2(a)を用いて説明する。なお、図1に示した画像生成システム100に含まれる他の装置のハードウェア構成も、以下で説明する画像生成装置122の構成と同様であってよい。画像生成装置122は、CPU211、ROM212、RAM213、補助記憶装置214、表示部215、操作部216、通信I/F217、及びバス218を有する。
CPU211は、ROM212やRAM213に格納されているコンピュータプログラムやデータを用いて画像生成装置122の全体を制御することで、図2(b)に示す画像生成装置122の各機能を実現する。なお、画像生成装置122がCPU211とは異なる1又は複数の専用のハードウェアを有し、CPU211による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ASIC(特定用途向け集積回路)、FPGA(フィールドプログラマブルゲートアレイ)、およびDSP(デジタルシグナルプロセッサ)などがある。ROM212は、変更を必要としないプログラムなどを格納する。RAM213は、補助記憶装置214から供給されるプログラムやデータ、及び通信I/F217を介して外部から供給されるデータなどを一時記憶する。補助記憶装置214は、例えばハードディスクドライブ等で構成され、画像データや音声データなどの種々のデータを記憶する。
表示部215は、例えば液晶ディスプレイやLED等で構成され、ユーザが画像生成装置122を操作するためのGUI(Graphical User Interface)などを表示する。操作部216は、例えばキーボードやマウス、ジョイスティック、タッチパネル等で構成され、ユーザによる操作を受けて各種の指示をCPU211に入力する。CPU211は、表示部215を制御する表示制御部、及び操作部216を制御する操作制御部として動作する。通信I/F217は、画像生成装置122の外部の装置との通信に用いられる。例えば、画像生成装置122が外部の装置と有線で接続される場合には、通信用のケーブルが通信I/F217に接続される。画像生成装置122が外部の装置と無線通信する機能を有する場合には、通信I/F217はアンテナを備える。バス218は画像生成装置122の各部をつないで情報を伝達する。
本実施形態では表示部215と操作部216が画像生成装置122の内部に存在するものとするが、表示部215と操作部216との少なくとも一方が画像生成装置122の外部に別の装置として存在していてもよい。
[機能構成]
図2(b)は、画像生成装置122の機能構成の例を示す図である。データ受信部201は、複数のカメラ112による撮影に基づく画像データを、スイッチングハブ121を介して受信する。ここで受信される画像データは、カメラ112により撮影された撮影画像であってもよいし、撮影画像から特定のオブジェクトに対応する領域を抽出することで得られる画像であってもよい。本実施形態では、データ受信部201が取得する画像データは、複数のフレームにより構成される動画の撮影画像であるものとする。すなわち、データ受信部201は、所定の撮影期間における複数の撮影装置による撮影に基づく複数の動画を取得する。
図2(b)は、画像生成装置122の機能構成の例を示す図である。データ受信部201は、複数のカメラ112による撮影に基づく画像データを、スイッチングハブ121を介して受信する。ここで受信される画像データは、カメラ112により撮影された撮影画像であってもよいし、撮影画像から特定のオブジェクトに対応する領域を抽出することで得られる画像であってもよい。本実施形態では、データ受信部201が取得する画像データは、複数のフレームにより構成される動画の撮影画像であるものとする。すなわち、データ受信部201は、所定の撮影期間における複数の撮影装置による撮影に基づく複数の動画を取得する。
モデル生成部202は、データ受信部201により取得された画像データを用いて、撮影画像のフレームに対応する撮影時刻毎に、撮影領域内のオブジェクトの三次元形状を表す三次元モデルを生成する。三次元モデルの生成方法には様々な手法が存在するが、本実施形態ではVisual Hull又は視体積交差法と呼ばれる、三次元空間内のボクセルのうち複数のカメラ112から観察される被写体領域を残すことによって三次元モデル取得する方法が利用される。ただし、モデル生成部202による三次元モデルの生成方法はこれに限定されない。また、三次元モデルの表現方法も各種存在するが、本実施例ではボクセル(点)の集合により表現される三次元モデルを扱うものとする。ただし、三次元モデルがポリゴン等により表現されてもよい。三次元モデルの詳細については後述する。
姿勢推定部203は、データ受信部201により取得された画像データを用いて、撮影画像のフレームに対応する撮影時刻毎に、撮影領域内のオブジェクトの姿勢を表す姿勢情報を生成する。姿勢情報の生成方法として、本実施形態では、深層学習を利用した姿勢推定を利用するものとする。また本実施形態では、姿勢情報は対象のオブジェクトの骨格(スケルトン)を表現するボーンモデルを表す情報であるものとする。但し、姿勢情報の内容及び生成方法はこれらに限定されない。姿勢情報の詳細については後述する。姿勢補間部204は、姿勢推定部203により生成された複数の時刻それぞれにおける姿勢情報を利用して、それらの時刻の中間の時刻における姿勢情報を補間により生成する。補間する時刻の情報は、制御部208により指示される。
動きベクトル算出部205は、姿勢推定部203により生成された姿勢情報が表すボーンモデルと、姿勢補間部204により補間して生成された姿勢情報が表すボーンモデルとの間の差異を示す動きベクトルを取得する。モデル補間部206は、モデル生成部202によって生成された三次元モデルと、動きベクトル算出部205により求められた動きベクトルを用いて、補間する時刻における三次元モデルを生成する。
レンダリング処理部207は、三次元モデルのデータとデータ受信部201により取得された画像データを基に、仮想視点画像を生成する処理を行う。制御部208は、画像生成装置122が行う各処理の順序等を制御する。
[三次元モデルと姿勢情報]
図3を用いて、三次元モデルと姿勢情報について説明をする。図3は、撮影領域内のオブジェクトの例である人物とその三次元モデル及びボーンモデルを示す模式図である。なお、三次元モデルは三次元空間におけるオブジェクトの位置及び形状を示すモデルであり、ボーンモデルは三次元空間におけるオブジェクトの姿勢を示すモデルあるが、説明の簡略化のために図3では二次元的に表現する。複数のカメラ112が撮影領域内のオブジェクト301を撮影することにより得られる画像データに基づいて、三次元モデル302を表す三次元形状データ及びボーンモデル303を表す姿勢情報が生成される。
図3を用いて、三次元モデルと姿勢情報について説明をする。図3は、撮影領域内のオブジェクトの例である人物とその三次元モデル及びボーンモデルを示す模式図である。なお、三次元モデルは三次元空間におけるオブジェクトの位置及び形状を示すモデルであり、ボーンモデルは三次元空間におけるオブジェクトの姿勢を示すモデルあるが、説明の簡略化のために図3では二次元的に表現する。複数のカメラ112が撮影領域内のオブジェクト301を撮影することにより得られる画像データに基づいて、三次元モデル302を表す三次元形状データ及びボーンモデル303を表す姿勢情報が生成される。
本実施形態における三次元モデル302は、ボクセルの集合である点群で表現される。点群は、三次元空間内の各ボクセルの三次元位置情報(x,y,z)と、1つのボクセルの大きさを示す情報により表される。ボクセルは立方体であり、ボクセルの大きさは例えば一辺の長さで表現される。ボクセルの集合によりオブジェクト301の三次元形状が表現されるため、三次元モデル302によって表現される三次元形状の精度はボクセルが細かいほど高くなる。一方、ボクセルが細かいと、三次元モデル302を構成するボクセルの数が多くなるため、三次元モデルの情報量(三次元形状データのデータサイズ)が大きくなる。
姿勢情報が表すボーンモデル303は、図3に示すように、オブジェクト301の構造上の主要な節点と、節点間を接続する線により構成される。三次元モデル302と比較するとボーンモデル303は情報量が少ないため、姿勢情報は三次元形状データよりも小さいデータサイズでオブジェクト301の大まかな動きや姿勢の状態を表現することが可能である。
図4を用いて、カメラ112により取得される撮影画像、モデル生成部202により生成される三次元モデル、及び姿勢推定部203により生成される姿勢情報の時間的な関係について説明を行う。本実施形態では、カメラ112の撮影フレームレート(撮影画像のフレームレート)が60fpsであるものとする。つまり、1/60秒毎にカメラ112により1フレームの撮影画像が取得される。三次元モデルと姿勢情報もそれぞれ、撮影画像に基づいて、撮影画像と同じ60fpsのフレームレートで生成される。このような60fpsのフレームレートの三次元モデルを用いて仮想視点画像を生成する場合、仮想視点画像のフレームレートも60fpsとなる。
一方、撮影画像のフレームレートより高いフレームレートの仮想視点画像を生成することが求められる場合がある。そこで、画像生成システム100は、撮影画像に対応する時刻とは異なる時刻における三次元モデルを補間により生成することで、120fpsの仮想視点画像を生成する。具体的には、姿勢補間部204が、2つの時間的に連続するフレームそれぞれに対応する姿勢情報から、それらのフレームに対応する撮影時刻の中間の時刻における姿勢情報を補間により生成する。そしてモデル補間部206が、姿勢補間部204により生成された姿勢情報に基づいて、補間により生成された姿勢情報と同時刻に対応する三次元モデルを生成する。
図9に、補間により生成された姿勢情報(以下では補間姿勢情報と表記する)と補間姿勢情報に基づいて生成された三次元モデル(以下では補間三次元モデルと表記する)の時間的な位置付けを示す。撮影画像は1/60秒ごとに1フレームが取得されるが、補間姿勢情報と補間三次元モデルが生成されることにより、1/120秒ごとの姿勢情報と三次元モデルが得られる。この三次元モデルを用いることで、撮影画像のフレームレートの2倍である120fpsの仮想視点画像を生成することが可能になる。
[動作フロー]
図10は、画像生成装置122の動作の例を示すフローチャートである。図10に示す処理は、画像生成装置122のCPU211がROM212に格納されたプログラムをRAM213に展開して実行することで実現される。なお、図10に示す処理の少なくとも一部を、CPU211とは異なる1又は複数の専用のハードウェアにより実現してもよい。図10に示す処理は、複数のカメラ112による撮影が行われ、仮想視点画像を生成するための指示が画像生成装置122に入力されたタイミングで開始される。ただし、図10に示す処理の開始タイミングはこれに限定されない。図10に示す処理は、複数のカメラ112による撮影中に実行されてもよいし、撮影が完了して撮影画像が記録された後に実行されてもよい。
図10は、画像生成装置122の動作の例を示すフローチャートである。図10に示す処理は、画像生成装置122のCPU211がROM212に格納されたプログラムをRAM213に展開して実行することで実現される。なお、図10に示す処理の少なくとも一部を、CPU211とは異なる1又は複数の専用のハードウェアにより実現してもよい。図10に示す処理は、複数のカメラ112による撮影が行われ、仮想視点画像を生成するための指示が画像生成装置122に入力されたタイミングで開始される。ただし、図10に示す処理の開始タイミングはこれに限定されない。図10に示す処理は、複数のカメラ112による撮影中に実行されてもよいし、撮影が完了して撮影画像が記録された後に実行されてもよい。
S1001において、データ受信部201は、複数のカメラ112による撮影に基づく撮影画像を取得する。S1002において、モデル生成部202は、撮影画像に基づいて、撮影画像の時刻と同時刻における三次元モデルを表す三次元形状データを生成する。この三次元モデルを以下では基準三次元モデルと表記する。S1003において、姿勢推定部203は、撮影画像に基づいて、撮影画像の時刻と同時刻における姿勢情報を生成する。この姿勢情報を以下では基準姿勢情報と表記する。
S1004において、姿勢補間部204、動きベクトル算出部205、及びモデル補間部206は、基準三次元モデルと基準姿勢情報に基づいて補間三次元モデルを表す三次元形状データを生成する。S1005において、レンダリング処理部207は、基準三次元モデルを用いて基準フレームの仮想視点画像のレンダリングを行う。仮想視点画像の基準フレームとは、撮影画像のフレームと同時刻に対応するフレームである。S1006において、レンダリング処理部207は、補間三次元モデルを用いて補間フレームの仮想視点画像のレンダリングを行う。仮想視点画像の補間フレームとは、撮影画像のフレームとは異なる時刻に対応するフレームであり、2つの連続する基準フレームの中間に挿入されるフレームである。
S1004及びS1005におけるレンダリング処理により、撮影画像のフレームレートより高いフレームレートの仮想視点画像が生成される。S1007において、レンダリング処理部207は、生成された仮想視点画像をエンドユーザ端末126へ出力する。出力された仮想視点画像は、エンドユーザ端末126の画面に表示される。このように、撮影画像のフレームレートより高いフレームレートの仮想視点画像を生成することで、例えば、撮影画像のフレームレートより高いフレームレートで画像を表示可能なデバイスで仮想視点画像を表示する場合に、滑らかな動画の再生が可能となる。また例えば、高いフレームレートの仮想視点画像をスロー再生することで、スロー動画を滑らかに再生することが可能となる。
次に、S1004における補間三次元モデルを生成する処理の詳細について、図5を用いて説明する。S501にて、制御部208は、補間により生成すべき補間フレームの時刻情報を取得する。本実施形態では、60fpsの撮影画像から120fpsの仮想視点画像が生成されるため、補間フレームの時刻情報は、複数の基準フレームのそれぞれに対応する時刻の中間の時刻を示す。補間フレームの時刻情報は、ユーザ操作に基づいて取得される。例えばユーザが「120fps」や「倍速」を指定する操作を行った場合に、120fpsの仮想視点画像を生成するための補間フレームの時刻情報が取得される。ただし、補間フレームの時刻情報の取得方法はこれに限定されず、制御部208は、撮影領域におけるオブジェクトの状況や撮影対象のイベント等に基づいて決められた時刻情報を取得してもよい。
S502において、姿勢補間部204は、補間フレームの前後の基準フレームに対応する基準姿勢情報から、補間フレームに対応する時刻の姿勢情報を補間により生成する。S502で実施される姿勢情報の補間方法について、図6を用いて説明する。ここでは、フレームNとフレームN+1という二つの連続する基準フレームの中間の時刻に対応する補間フレームの姿勢情報を生成する例について説明する。
ボーンモデル600は、フレームNの姿勢情報が表すボーンモデルであり、フレームNに対応する時刻におけるオブジェクトの姿勢を表す。また、ボーンモデル620は、フレームN+1の姿勢情報が表すボーンモデルであり、フレームN+1に対応する時刻におけるオブジェクトの姿勢を表す。ボーンモデル610は、補間フレームの姿勢情報が表すボーンモデルであり、補間フレームに対応する時刻におけるオブジェクトの姿勢を表す。
姿勢補間部204は、ボーンモデル600における節点601の位置とボーンモデル620における対応する節点602の位置から、補間フレームにおける対応する節点603の位置を線形補間により算出する。本実施形態では、2つの基準フレームの間の中央の特定時刻が補間フレームの時刻であるため、補間フレームにおける節点603の位置として、節点601の座標と節点602の座標の平均値が算出される。このようにして補間フレームにおける各節点の位置が算出され、算出された節点間を接続することで、補間フレームのボーンモデル610を表す姿勢情報が生成される。
S503において、動きベクトル算出部205及びモデル補間部206は、S502において生成された補間姿勢情報を用いて補間三次元モデルを生成する。S503における処理の詳細について、図7を用いて説明する。S701において、動きベクトル算出部205は、基準姿勢情報が表すボーンモデルと補間姿勢情報が表すボーンモデルとの間の動きベクトルを算出する。ここで使用される基準姿勢情報は、補間精度を向上させるために、補間フレームの時刻に近い時刻の基準姿勢情報であることが望ましい。例えば、2つの基準フレームの間の中央の特定時刻を補間フレームとする場合、補間フレームの前後の基準フレームのいずれかの基準姿勢情報が使用される。
S702において、モデル補間部206は、動きベクトルの大きさに応じて補間フレームのボーンモデルを領域分割する。図8(a)は、図6に示した補間フレームにおけるボーンモデル610を示す。図8(b)は、ボーンモデル610の部分800を拡大した様子を示す。図8(b)に示すように、基準フレームにおけるボーンモデル600と補間フレームにおけるボーンモデル610との間における領域811の動きは、動きベクトル801で表される。同様に、領域812の動きは動きベクトル802で表され、領域811の動きは動きベクトル801で表される。動きベクトルは単位時間あたりの動き方向と動き量を示すベクトルであり、例えば座標(vx,vy,vz)で表される。なお、本実施形態では動きベクトルの大きさによりボーンモデルを複数の領域に分割するものとするが、これに限らず、その他の基準によってボーンモデルが複数の領域に分割されたうえで、各領域の動きベクトルが算出されてもよい。
S703において、モデル補間部206は、基準三次元モデルを構成する各ボクセルの位置を、そのボクセルが属する領域に対応する動きベクトルに従って変更することで、補間三次元モデルを生成する。例えば図8(c)に示すように、フレームNの基準三次元モデルを構成するボクセル821を、ボクセル821が属する領域813に対応する動きベクトル803に従って動かすことで、補間三次元モデルを構成するボクセル822が得られる。基準三次元モデルにおけるボクセル821の座標を(x,y,z)とすると、補間三次元モデルにおける対応するボクセル822の座標(x’,y’,z’)は、以下の式で示すように求められる。
x’=x + vx × t
y’=y + vy × t
z’=z + vz × t
ここでtは基準フレームの時刻から補間フレームの時刻までの時間であり、本実施形態では1/120秒である。このようにして、補間三次元モデルを構成する各ボクセルの位置を算出することで、補間三次元モデルが生成される。
x’=x + vx × t
y’=y + vy × t
z’=z + vz × t
ここでtは基準フレームの時刻から補間フレームの時刻までの時間であり、本実施形態では1/120秒である。このようにして、補間三次元モデルを構成する各ボクセルの位置を算出することで、補間三次元モデルが生成される。
[変形例]
上述した実施形態では、撮影画像のフレームレート2倍のフレームレートの仮想視点画像を生成する場合について説明した。ただし、画像生成システム100により生成される仮想視点画像のフレームレートはこれに限定されず、上述した方法と同様の方法で画像生成システム100は任意のフレームレートの仮想視点画像を生成することができる。以下では、撮影画像のフレームレートの3倍のフレームレートの仮想視点画像を生成する場合の具体例を示す。
上述した実施形態では、撮影画像のフレームレート2倍のフレームレートの仮想視点画像を生成する場合について説明した。ただし、画像生成システム100により生成される仮想視点画像のフレームレートはこれに限定されず、上述した方法と同様の方法で画像生成システム100は任意のフレームレートの仮想視点画像を生成することができる。以下では、撮影画像のフレームレートの3倍のフレームレートの仮想視点画像を生成する場合の具体例を示す。
図11は、撮影画像、基準三次元モデル、基準姿勢情報、補間三次元モデル、及び補間姿勢情報の時間的な関係を示す。撮影画像のフレームN、フレームN+1、及びフレームN+2は連続するフレームであり、フレーム間の間隔は1/60秒である。そして、撮影画像のフレームレートの3倍のフレームレートの仮想視点画像を生成するために、連続する2つの基準フレームの間に2つの補間フレームが挿入され、各補間フレームに対応する補間姿勢情報および補間三次元モデルが生成される。本変形例では補間フレームを含めた複数フレーム間の時間間隔を等間隔にするため、フレーム間の時間間隔は1/180秒となる。
図12に、フレームNの姿勢情報が表すボーンモデル600と、フレームN+1の姿勢情報が表すボーンモデル620と、補間フレームの姿勢情報が表すボーンモデル1210を示す。この補間フレームは、フレームNに対応する時刻の1/180秒後の時刻に対応する。ボーンモデル1210は、ボーンモデル600とボーンモデル620を用いた補間処理により生成される。具体的には、姿勢補間部204が、ボーンモデル600における節点601の位置とボーンモデル620における対応する節点602の位置から、補間フレームにおける対応する節点1203の位置を線形補間により算出する。節点1203の座標(x,y,z)は、以下の式で求められる。
x=x1 + (x2 - x1) × t1/T
y=y1 + (y2 - y1) × t1/T
z=z1 + (z2 ― z1) × t1/T
ここで、(x1,y1,z1)がフレームNにおける節点601の座標であり、(x2,y2,z2)がフレームN+1における節点602の座標である。TはフレームNとフレームN+1との間の時間間隔であり、t1はフレームNとフレームNに連続する補間フレームとの間の時間間隔である。
x=x1 + (x2 - x1) × t1/T
y=y1 + (y2 - y1) × t1/T
z=z1 + (z2 ― z1) × t1/T
ここで、(x1,y1,z1)がフレームNにおける節点601の座標であり、(x2,y2,z2)がフレームN+1における節点602の座標である。TはフレームNとフレームN+1との間の時間間隔であり、t1はフレームNとフレームNに連続する補間フレームとの間の時間間隔である。
このようにして補間フレームにおける各節点の位置が算出され、算出された節点間を接続することで、補間フレームのボーンモデル1210を表す姿勢情報が生成される。なお、フレームNとフレームN+1との間に挿入されるもう一つの補間フレームに対応する時刻(フレームNの時刻から2/180秒後)におけるボーンモデルも、同様の方法で生成される。そして、生成された補間フレームのボーンモデルを表す補間姿勢情報に基づいて、上述した実施形態と同様に補間三次元モデルが生成される。これにより、180fpsの仮想視点画像の生成が可能となる。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC等)によっても実現可能である。また、そのプログラムをコンピュータにより読み取り可能な記録媒体に記録して提供してもよい。
100 画像生成システム
112 カメラ
122 画像生成装置
112 カメラ
122 画像生成装置
Claims (14)
- 所定の撮影時刻において複数の撮影装置によりオブジェクトを異なる方向から撮影することで得られる複数の画像に基づいて、前記所定の撮影時刻における前記オブジェクトの三次元形状を表す形状データを生成する第1生成手段と、
前記所定の撮影時刻における前記オブジェクトの姿勢を表す第1姿勢情報と、前記所定の撮影時刻とは異なる特定時刻における前記オブジェクトの姿勢を表す第2姿勢情報と、を取得する取得手段と、
前記取得手段により取得された前記第1姿勢情報及び前記第2姿勢情報と、前記第1生成手段により生成された形状データとに基づいて、前記特定時刻における前記オブジェクトの三次元形状を表す形状データを生成する第2生成手段と、を有することを特徴とする情報処理装置。 - 前記第1生成手段は、所定の撮影期間において前記複数の撮影装置により前記オブジェクトを異なる方向から撮影することで得られる複数の動画に基づいて、前記複数の動画に含まれる動画を構成する複数のフレームに対応する複数の時刻それぞれにおける前記オブジェクトの三次元形状を表す形状データを生成し、
前記所定の撮影時刻は前記複数のフレームに含まれるフレームに対応する時刻であり、
前記特定時刻は、前記所定の撮影期間に含まれる時刻であって、且つ、前記複数のフレームに対応する前記複数の時刻には含まれない時刻であることを特徴とする請求項1に記載の情報処理装置。 - 前記第1生成手段により生成された形状データと前記第2生成手段により生成された形状データとを用いたレンダリング処理により、仮想的な視点位置及び視線方向に応じた仮想視点画像であって前記動画のフレームレートより高いフレームレートの仮想視点画像を生成する画像生成手段を有することを特徴とする請求項2に記載の情報処理装置。
- 前記取得手段は、前記所定の撮影時刻において前記複数の撮影装置により撮影することで得られる複数の画像に基づいて前記第1姿勢情報を取得することを特徴とする請求項1乃至3の何れか1項に記載の情報処理装置。
- 前記取得手段は、
前記所定の撮影時刻とは異なる他の撮影時刻において前記複数の撮影装置により撮影することで得られる複数の画像に基づいて、前記他の撮影時刻における前記オブジェクトの姿勢を表す第3姿勢情報を取得し、
前記第1姿勢情報と前記第3姿勢情報とを用いた補間処理により前記第2姿勢情報を取得することを特徴とする請求項4に記載の情報処理装置。 - 前記第1姿勢情報及び前記第2姿勢情報は、前記オブジェクトの骨格のモデルを表現する情報であることを特徴とする請求項1乃至5の何れか1項に記載の情報処理装置。
- 前記第2生成手段は、前記第1生成手段により生成された形状データが表す三次元形状に、前記第1姿勢情報が表す姿勢と前記第2姿勢情報が表す姿勢との差異に基づく変更を加えることで、前記特定時刻における前記オブジェクトの三次元形状を表す形状データを生成することを特徴とする請求項1乃至6の何れか1項に記載の情報処理装置。
- 前記形状データは、前記オブジェクトの三次元形状をボクセルにより表現するデータであることを特徴とする請求項1乃至7の何れか1項に記載の情報処理装置。
- 前記形状データは、前記オブジェクトの三次元形状をポリゴンにより表現するデータであることを特徴とする請求項1乃至7の何れか1項に記載の情報処理装置。
- 前記第1生成手段は、視体積交差法を用いて前記形状データを生成することを特徴とする請求項1乃至9の何れか1項に記載の情報処理装置。
- 所定の撮影時刻において複数の撮影装置によりオブジェクトを異なる方向から撮影することで得られる複数の画像に基づいて、前記所定の撮影時刻における前記オブジェクトの三次元形状を表す形状データを生成する第1生成工程と、
前記所定の撮影時刻における前記オブジェクトの姿勢を表す第1姿勢情報と、前記所定の撮影時刻とは異なる特定時刻における前記オブジェクトの姿勢を表す第2姿勢情報と、を取得する取得工程と、
前記取得工程において取得された前記第1姿勢情報及び前記第2姿勢情報と、前記第1生成工程において生成された形状データとに基づいて、前記特定時刻における前記オブジェクトの三次元形状を表す形状データを生成する第2生成工程と、を有することを特徴とする情報処理方法。 - 前記第1生成工程においては、所定の撮影期間において前記複数の撮影装置により前記オブジェクトを異なる方向から撮影することで得られる複数の動画に基づいて、前記複数の動画に含まれる動画を構成する複数のフレームに対応する複数の時刻それぞれにおける前記オブジェクトの三次元形状を表す形状データが生成され、
前記所定の撮影時刻は前記複数のフレームに含まれるフレームに対応する時刻であり、
前記特定時刻は、前記所定の撮影期間に含まれ、且つ前記複数のフレームに対応する前記複数の時刻に含まれない時刻であることを特徴とする請求項11に記載の情報処理方法。 - 前記第1生成工程において生成された形状データと前記第2生成工程において生成された形状データとを用いたレンダリング処理により、仮想的な視点位置及び視線方向に応じた仮想視点画像であって前記動画のフレームレートより高いフレームレートの仮想視点画像を生成する画像生成工程を有することを特徴とする請求項12に記載の情報処理方法。
- コンピュータを、請求項1乃至10の何れか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020123121A JP2022019341A (ja) | 2020-07-17 | 2020-07-17 | 情報処理装置、情報処理方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020123121A JP2022019341A (ja) | 2020-07-17 | 2020-07-17 | 情報処理装置、情報処理方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022019341A true JP2022019341A (ja) | 2022-01-27 |
Family
ID=80203641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020123121A Pending JP2022019341A (ja) | 2020-07-17 | 2020-07-17 | 情報処理装置、情報処理方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022019341A (ja) |
-
2020
- 2020-07-17 JP JP2020123121A patent/JP2022019341A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6948171B2 (ja) | 画像処理装置および画像処理方法、プログラム | |
JP6918455B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP7072378B2 (ja) | 画像生成装置およびその制御方法、画像生成システム、プログラム | |
JP7179515B2 (ja) | 装置、制御方法、及びプログラム | |
EP3573026B1 (en) | Information processing apparatus, information processing method, and program | |
JP2020135222A (ja) | 画像生成装置および画像生成方法、プログラム | |
US10863210B2 (en) | Client-server communication for live filtering in a camera view | |
JP2019054488A (ja) | 提供装置および提供方法、プログラム | |
JP3623415B2 (ja) | 仮想空間通信システムにおけるアバタ表示装置、アバタ表示方法および記憶媒体 | |
WO2018100928A1 (ja) | 画像処理装置および方法 | |
US11461942B2 (en) | Generating and signaling transition between panoramic images | |
EP4152267A1 (en) | Information processing device, information processing method, and display device | |
GB2584282A (en) | Image acquisition system and method | |
JP7296735B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP2022019341A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
KR20160136160A (ko) | 가상현실 공연시스템 및 공연방법 | |
JP7190849B2 (ja) | 画像生成装置、画像生成装置の制御方法及びプログラム | |
JP7277184B2 (ja) | 情報処理装置、情報処理方法ならびにプログラム。 | |
JP2022119067A (ja) | 画像処理装置および方法、画像処理システム、プログラム | |
JP2021033347A (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP2021144522A (ja) | 画像処理装置、画像処理方法、プログラム、及び画像処理システム | |
JP7354186B2 (ja) | 表示制御装置、表示制御方法および表示制御プログラム | |
JP2023167486A (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP2019075740A (ja) | 画像処理システム、画像処理装置、画像伝送方法、及び、プログラム | |
WO2024014197A1 (ja) | 映像処理装置、映像処理方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20200731 |