JP2022019341A

JP2022019341A - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP2022019341A
Application number: JP2020123121A
Authority: JP
Inventors: 英人榊間; Hideto Sakakima
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2022-01-27

Abstract

【課題】オブジェクトを撮影することにより得られる撮影画像に基づいて、撮影時刻とは異なる時刻におけるオブジェクトの三次元形状データを生成する。【解決手段】情報処理装置は、所定の撮影時刻において複数の撮影装置によりオブジェクトを異なる方向から撮影することで得られる複数の撮影画像に基づいて、当該撮影時刻におけるオブジェクトの三次元形状を表す形状データを生成する。また情報処理装置は、当該撮影時刻におけるオブジェクトの姿勢を表す第１姿勢情報と、当該撮影時刻とは異なる特定時刻におけるオブジェクトの姿勢を表す第２姿勢情報とを取得する。そして情報処理装置は、第１姿勢情報及び第２姿勢情報と、当該撮影時刻に対応する形状データとに基づいて、特定時刻におけるオブジェクトの三次元形状を表す形状データを生成する。【選択図】図９

Description

本発明は、複数の撮影画像を用いてオブジェクトの３次元モデルを生成する技術に関する。

複数の撮影装置を異なる位置に設置して多視点で同期撮影し、当該撮影により得られた複数視点画像を用いて、任意の視点から見た光景を表す仮想視点画像を生成する技術がある。このような技術によれば、例えば、サッカーやバスケットボール等の試合のハイライトシーンやコンサート等を様々な角度から視聴することが可能となり、通常の画像と比較してユーザに高臨場感を与えることができる。

仮想視点画像の生成方法としては、複数の撮影装置により撮影された画像を用いて撮影領域内のオブジェクトの三次元形状データを生成し、その三次元形状データを用いたレンダリング処理を行って仮想視点画像を生成する方法がある。また、特許文献１には、予め設定された調整可能な三次元オブジェクトテンプレートモデルを、複数のカメラ画像から得られたオブジェクト三次元情報に基づいて調整し、調整されたモデルに射影変換を施すことで仮想視点画像を生成することが記載されている。

特開２０１６－１２６４２５号公報

撮影装置は所定のフレームレートの撮影画像を生成するが、撮影画像のフレームに対応する時刻とは異なる時刻におけるオブジェクトの三次元形状データを生成することが求められる場合がある。例えば、撮影画像のフレームレートより高いフレームレートで画像を表示可能なデバイスで仮想視点画像を表示する場合に、高いフレームレートの仮想視点画像を用いると、滑らかな動画の再生が可能となる。また例えば、高いフレームレートの仮想視点画像をスロー再生することで、スロー動画を滑らかに再生することが可能となる。撮影画像のフレームレートより高いフレームレートの仮想視点画像を生成するためには、撮影画像のフレームに対応する時刻とは異なる時刻の三次元形状データを生成することが要求される。しかしながら、従来の方法では、撮影が行われていない時刻におけるオブジェクトの三次元形状データを取得することはできない。

本発明は上記の課題に鑑みてなされたものであり、オブジェクトを撮影することにより得られる撮影画像に基づいて、撮影時刻とは異なる時刻におけるオブジェクトの三次元形状データを生成することを目的とする。

上記の課題を解決するため、本発明に係る情報処理装置は、例えば以下の構成を有する。すなわち、所定の撮影時刻において複数の撮影装置によりオブジェクトを異なる方向から撮影することで得られる複数の撮影画像に基づいて、前記所定の撮影時刻における前記オブジェクトの三次元形状を表す形状データを生成する第１生成手段と、前記所定の撮影時刻における前記オブジェクトの姿勢を表す第１姿勢情報と、前記所定の撮影時刻とは異なる特定時刻における前記オブジェクトの姿勢を表す第２姿勢情報と、を取得する取得手段と、前記取得手段により取得された前記第１姿勢情報及び前記第２姿勢情報と、前記生成手段により生成された前記形状データとに基づいて、前記特定時刻における前記オブジェクトの三次元形状を表す形状データを生成する第２生成手段と、を有する。

本発明によれば、オブジェクトを撮影することにより得られる撮影画像に基づいて、撮影時刻とは異なる時刻におけるオブジェクトの三次元形状データを生成することができる。

画像生成システムの構成例を示す図である。画像生成装置の構成例を示す図である。三次元モデル及び姿勢情報について説明するための図である。撮影画像、三次元モデル、及び姿勢情報の時刻関係を示す図である。画像生成装置による補間三次元モデルの生成処理を説明するためのフローチャートである。ボーンモデルの補間方法について説明するための図である。補間姿勢情報を用いて補間三次元モデルを生成する処理を説明するためのフローチャートである。三次元モデルの補間方法について説明するための図である。撮影画像と補間三次元モデルの時刻関係を示す図である。画像生成装置の動作について説明するためのフローチャートである。撮影画像と補間三次元モデルの時刻関係を示す図である。ボーンモデルの補間方法について説明するための図である。

［システム構成］
以下、本発明の実施形態について、図面を使用して詳細に説明する。図１は、画像生成システム１００の構成例を示す。画像生成システム１００は、複数の撮影装置による撮影に基づく複数の画像（複数視点画像）と、仮想的な視点位置及び視線方向とに基づいて、仮想視点からの見えを表す仮想視点画像を生成するシステムである。本実施形態における仮想視点画像は、自由視点映像とも呼ばれるものであるが、ユーザが自由に（任意に）指定した視点に対応する画像に限定されず、例えば複数の候補からユーザが選択した視点に対応する画像なども仮想視点画像に含まれる。また、本実施形態では仮想視点の指定がユーザ操作により行われる場合を中心に説明するが、仮想視点の指定が画像解析の結果等に基づいて自動で行われてもよい。画像生成システム１００は、動画を構成するフレームの画像としての静止画の仮想視点画像を所定のフレーム更新間隔で更新することで再生される、仮想視点の動画を生成する。以降の説明に於いては、特に断りがない限り、画像という文言が動画と静止画の両方の概念を含むものとして説明する。

また、本実施形態では、画像生成システム１００が仮想視点画像と仮想視点音声を含む仮想視点コンテンツを提供する例を中心に説明する。ただし、仮想視点コンテンツに音声が含まれていなくても良い。また、仮想視点コンテンツに含まれる音声が、仮想視点に最も近いマイクにより集音された音声であっても良い。また、本実施形態では、説明の簡略化のため、部分的に音声についての記載を省略しているが、基本的に画像と音声は共に処理されるものとする。

画像生成システム１００は、センサシステム１１０ａ～センサシステム１１０ｚ、画像生成装置１２２、コントローラ１２３、スイッチングハブ１２１、エンドユーザ端末１２６、及びタイムサーバ１２７を有する。

センサシステム１１０ａはマイク１１１ａ、カメラ１１２ａ、雲台１１３ａ、外部センサ１１４ａ、及びカメラアダプタ１２０ａを有する。なお、センサシステム１１０ａはこの構成に限定されるものではなく、少なくとも１台のカメラ１１２ａまたはマイク１１１ａを有していれば良い。また例えば、センサシステム１１０ａは１台のカメラアダプタ１２０ａと複数のカメラ１１２ａで構成されてもよいし、１台のカメラ１１２ａと複数のカメラアダプタ１２０ａで構成されてもよい。即ち、画像生成システム１００内の複数のカメラ１１２と複数のカメラアダプタ１２０はＮ対Ｍ（ＮとＭは共に１以上の整数）で対応する。また、センサシステム１１０ａは、マイク１１１ａ、カメラ１１２ａ、雲台１１３ａ、及びカメラアダプタ１２０ａ以外の装置を含んでいてもよい。また、カメラ１１２ａとカメラアダプタ１２０ａが一体となって構成されていてもよい。

マイク１１１ａにより集音された音声と、カメラ１１２ａにより撮影された画像は、カメラアダプタ１２０ａを介し、スイッチングハブ１２１へ伝送される。なお、本実施形態では、カメラ１１２ａとカメラアダプタ１２０ａが分離された構成である例を示しているが、これらが同一筺体に一体化されていてもよい。その場合、マイク１１１ａは一体化されたカメラ１１２ａに内蔵されてもよいし、カメラ１１２ａの外部に接続されていてもよい。

本実施形態では、センサシステム１１０ｂ～センサシステム１１０ｚは、センサシステム１１０ａと同様の構成である。ただしこれに限らず、それぞれのセンサシステム１１０が異なる構成でもよい。本実施形態において、センサシステム１１０ａからセンサシステム１１０ｚまでの２６セットのシステムを特に区別しない場合には、センサシステム１１０と記載する。センサシステム１１０内の装置についても同様に、特に区別しない場合には、マイク１１１、カメラ１１２、雲台１１３、外部センサ１１４、及びカメラアダプタ１２０と記載する。なお、図１ではセンサシステムが２６セットの例を示しているが、画像生成システム１００に含まれるセンサシステム１１０の数はこれに限定されない。

複数のセンサシステム１１０は、それぞれ１台ずつのカメラ１１２を有する。即ち、画像生成システム１００は、被写体を複数の方向から撮影するための複数の撮影装置としてのカメラ１１２を有する。複数のカメラ１１２により撮影される撮影領域は、例えばサッカーや空手などの競技が行われる競技場、もしくはコンサートや演技が行われる舞台などである。複数のカメラ１１２は、このような撮影領域を取り囲むようにそれぞれ異なる位置に設置され、同期して撮影を行う。なお、複数のカメラ１１２は撮影領域の全周にわたって設置されていなくてもよく、設置場所の制限等によっては撮影領域の周囲の一部にのみ設置されていてもよい。また、複数のカメラ１１２には、望遠カメラと広角カメラなど機能が異なる撮影装置が含まれていてもよい。

複数のセンサシステム１１０は、スイッチングハブ１２１に接続され、スイッチングハブ１２１を経由して複数のセンサシステム１１０間のデータ送受信を行う、スター型のネットワークを構成する。また、複数のセンサシステム１１０は、それぞれスイッチングハブ１２１を介して画像生成装置１２２に接続され、複数のカメラ１１２による撮影に基づく複数視点画像を画像生成装置１２２へ出力する。

タイムサーバ１２７は、時刻及び同期信号を配信する機能を有し、スイッチングハブ１２１を介して複数のセンサシステム１１０に時刻及び同期信号を配信する。時刻と同期信号を受信したカメラアダプタ１２０は、時刻と同期信号を基にカメラ１１２にＧｅｎｌｏｃｋをかけ画像フレーム同期を行う。即ち、タイムサーバ１２７は、複数のカメラ１１２の撮影タイミングを同期させる。これにより、画像生成システム１００は同じタイミングで撮影された複数の撮影画像に基づいて仮想視点画像を生成できるため、撮影タイミングのずれによる仮想視点画像の品質低下を抑制できる。なお、本実施形態ではタイムサーバ１２７が複数のカメラ１１２の時刻同期を管理するものとするが、これに限らず、時刻同期のための処理をカメラ１１２又はカメラアダプタ１２０が独立して行ってもよい。

コントローラ１２３は、制御ステーション１２４と仮想カメラ操作ＵＩ１２５を有する。制御ステーション１２４は、画像生成システム１００を構成するそれぞれの装置とネットワークを介して接続され、各装置の動作状態の管理及びパラメータ設定制御などを行う。ここで、ネットワークはＥｔｈｅｒｎｅｔ（登録商標）であるＩＥＥＥ標準準拠のＧｂＥ（ギガビットイーサーネット）や１０ＧｂＥでもよいし、インターコネクトＩｎｆｉｎｉｂａｎｄ、産業用イーサーネット等を組合せて構成されてもよい。また、これらに限定されず、他の種別のネットワークであってもよい。

具体的には、制御ステーション１２４は、画像生成システム１００についての各種設定や制御を実行する。また、制御ステーション１２４は、撮影対象のスタジアム等の三次元モデルを画像生成装置１２２に送信する。さらに、制御ステーション１２４は、複数のカメラ１１２のキャリブレーションを実施する。カメラキャリブレーションでは、撮影対象のフィールド上にマーカーを設置して複数のカメラ１１２で撮影を行い、撮影画像からカメラ１１２それぞれの世界座標系における位置と向き、および焦点距離が算出される。算出されたカメラ１１２の位置、向き、及び焦点距離の情報は、画像生成装置１２２に送信される。送信された三次元モデルおよびカメラ１１２の情報は、画像生成装置１２２が仮想視点画像を生成する際に使用される。

仮想カメラ操作ＵＩ１２５は、生成すべき仮想視点画像に対応する仮想視点を指定するためのユーザ操作を受け付け、ユーザ操作に応じた視点情報を、仮想視点画像を生成する画像生成装置１２２に送信する。仮想視点画像の生成に用いられる視点情報は、仮想視点の位置及び向き（視線方向）を示す情報である。具体的には、視点情報は、仮想視点の三次元位置を表すパラメータと、パン、チルト、及びロール方向における仮想視点の向きを表すパラメータとを含む、パラメータセットを有する。また、視点情報は複数の時点にそれぞれ対応する複数のパラメータセットを有する。例えば、視点情報は、仮想視点画像の動画を構成する複数のフレームにそれぞれ対応する複数のパラメータセットを有し、連続する複数の時点それぞれにおける仮想視点の位置及び向きを示す。なお、視点情報の内容は上記に限定されない。例えば、視点情報としてのパラメータセットには、仮想視点の視野の大きさ（画角）を表すパラメータや、時刻を表すパラメータが含まれてもよい。

画像生成装置１２２は、複数のセンサシステム１１０から取得した複数視点画像と、仮想カメラ操作ＵＩ１２５から取得した視点情報とに基づいて、仮想視点画像を生成する。仮想視点画像は、例えば以下のような方法で生成される。まず、複数の撮像装置によりそれぞれ異なる方向から撮像することで得られた複数視点画像から、人物やボールなどの所定のオブジェクトに対応する前景領域を抽出した前景画像と、前景領域以外の背景領域を抽出した背景画像が取得される。また、所定のオブジェクトの三次元形状を表す前景モデルと前景モデルに色付けするためのテクスチャデータとが前景画像に基づいて生成され、競技場などの背景の三次元形状を表す背景モデルに色づけするためのテクスチャデータが背景画像に基づいて生成される。そして、前景モデルと背景モデルに対してテクスチャデータをマッピングし、視点情報が示す仮想視点に応じてレンダリングを行うことにより、仮想視点画像が生成される。ただし、仮想視点画像の生成方法はこれに限定されず、三次元モデルを用いずに撮像画像の射影変換により仮想視点画像を生成する方法など、種々の方法を用いることができる。

画像生成装置１２２によって生成された仮想視点画像は、エンドユーザ端末１２６に送信され、エンドユーザ端末１２６が有する表示画面に表示される。なお、エンドユーザ端末１２６は、仮想カメラ操作ＵＩ１２５と同様に、仮想視点を指定するためのユーザ操作に応じた視点情報を画像生成装置１２２に出力してもよい。これにより、エンドユーザ端末１２６を操作するユーザは、視点の指定に応じた画像閲覧及び音声視聴が出来る。

画像生成装置１２２は、仮想視点画像をＨ．２６４やＨＥＶＣ等に代表される標準技術により圧縮符号化したうえで、ＭＰＥＧ－ＤＡＳＨプロトコルを使ってエンドユーザ端末１２６へデータを送信してもよい。また、仮想視点画像は、非圧縮でエンドユーザ端末１２６へ送信されてもよい。例えば、エンドユーザ端末１２６としてスマートフォンやタブレットが用いられる場合には圧縮符号化が行われ、エンドユーザ端末１２６が非圧縮画像を表示可能なディスプレイである場合には非圧縮画像が送信されてもよい。すなわち、エンドユーザ端末１２６の種別に応じて画像フォーマットが切り替え可能である。また、画像の送信プロトコルはＭＰＥＧ－ＤＡＳＨに限らず、例えば、ＨＬＳ（ＨＴＴＰＬｉｖｅＳｔｒｅａｍｉｎｇ）やその他の送信方法が用いられても良い。

［ハードウェア構成］
画像生成システム１００に含まれる情報処理装置の一例としての画像生成装置１２２のハードウェア構成について、図２（ａ）を用いて説明する。なお、図１に示した画像生成システム１００に含まれる他の装置のハードウェア構成も、以下で説明する画像生成装置１２２の構成と同様であってよい。画像生成装置１２２は、ＣＰＵ２１１、ＲＯＭ２１２、ＲＡＭ２１３、補助記憶装置２１４、表示部２１５、操作部２１６、通信Ｉ／Ｆ２１７、及びバス２１８を有する。

ＣＰＵ２１１は、ＲＯＭ２１２やＲＡＭ２１３に格納されているコンピュータプログラムやデータを用いて画像生成装置１２２の全体を制御することで、図２（ｂ）に示す画像生成装置１２２の各機能を実現する。なお、画像生成装置１２２がＣＰＵ２１１とは異なる１又は複数の専用のハードウェアを有し、ＣＰＵ２１１による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ＡＳＩＣ（特定用途向け集積回路）、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、およびＤＳＰ（デジタルシグナルプロセッサ）などがある。ＲＯＭ２１２は、変更を必要としないプログラムなどを格納する。ＲＡＭ２１３は、補助記憶装置２１４から供給されるプログラムやデータ、及び通信Ｉ／Ｆ２１７を介して外部から供給されるデータなどを一時記憶する。補助記憶装置２１４は、例えばハードディスクドライブ等で構成され、画像データや音声データなどの種々のデータを記憶する。

表示部２１５は、例えば液晶ディスプレイやＬＥＤ等で構成され、ユーザが画像生成装置１２２を操作するためのＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）などを表示する。操作部２１６は、例えばキーボードやマウス、ジョイスティック、タッチパネル等で構成され、ユーザによる操作を受けて各種の指示をＣＰＵ２１１に入力する。ＣＰＵ２１１は、表示部２１５を制御する表示制御部、及び操作部２１６を制御する操作制御部として動作する。通信Ｉ／Ｆ２１７は、画像生成装置１２２の外部の装置との通信に用いられる。例えば、画像生成装置１２２が外部の装置と有線で接続される場合には、通信用のケーブルが通信Ｉ／Ｆ２１７に接続される。画像生成装置１２２が外部の装置と無線通信する機能を有する場合には、通信Ｉ／Ｆ２１７はアンテナを備える。バス２１８は画像生成装置１２２の各部をつないで情報を伝達する。

本実施形態では表示部２１５と操作部２１６が画像生成装置１２２の内部に存在するものとするが、表示部２１５と操作部２１６との少なくとも一方が画像生成装置１２２の外部に別の装置として存在していてもよい。

［機能構成］
図２（ｂ）は、画像生成装置１２２の機能構成の例を示す図である。データ受信部２０１は、複数のカメラ１１２による撮影に基づく画像データを、スイッチングハブ１２１を介して受信する。ここで受信される画像データは、カメラ１１２により撮影された撮影画像であってもよいし、撮影画像から特定のオブジェクトに対応する領域を抽出することで得られる画像であってもよい。本実施形態では、データ受信部２０１が取得する画像データは、複数のフレームにより構成される動画の撮影画像であるものとする。すなわち、データ受信部２０１は、所定の撮影期間における複数の撮影装置による撮影に基づく複数の動画を取得する。

モデル生成部２０２は、データ受信部２０１により取得された画像データを用いて、撮影画像のフレームに対応する撮影時刻毎に、撮影領域内のオブジェクトの三次元形状を表す三次元モデルを生成する。三次元モデルの生成方法には様々な手法が存在するが、本実施形態ではＶｉｓｕａｌＨｕｌｌ又は視体積交差法と呼ばれる、三次元空間内のボクセルのうち複数のカメラ１１２から観察される被写体領域を残すことによって三次元モデル取得する方法が利用される。ただし、モデル生成部２０２による三次元モデルの生成方法はこれに限定されない。また、三次元モデルの表現方法も各種存在するが、本実施例ではボクセル（点）の集合により表現される三次元モデルを扱うものとする。ただし、三次元モデルがポリゴン等により表現されてもよい。三次元モデルの詳細については後述する。

姿勢推定部２０３は、データ受信部２０１により取得された画像データを用いて、撮影画像のフレームに対応する撮影時刻毎に、撮影領域内のオブジェクトの姿勢を表す姿勢情報を生成する。姿勢情報の生成方法として、本実施形態では、深層学習を利用した姿勢推定を利用するものとする。また本実施形態では、姿勢情報は対象のオブジェクトの骨格（スケルトン）を表現するボーンモデルを表す情報であるものとする。但し、姿勢情報の内容及び生成方法はこれらに限定されない。姿勢情報の詳細については後述する。姿勢補間部２０４は、姿勢推定部２０３により生成された複数の時刻それぞれにおける姿勢情報を利用して、それらの時刻の中間の時刻における姿勢情報を補間により生成する。補間する時刻の情報は、制御部２０８により指示される。

動きベクトル算出部２０５は、姿勢推定部２０３により生成された姿勢情報が表すボーンモデルと、姿勢補間部２０４により補間して生成された姿勢情報が表すボーンモデルとの間の差異を示す動きベクトルを取得する。モデル補間部２０６は、モデル生成部２０２によって生成された三次元モデルと、動きベクトル算出部２０５により求められた動きベクトルを用いて、補間する時刻における三次元モデルを生成する。

レンダリング処理部２０７は、三次元モデルのデータとデータ受信部２０１により取得された画像データを基に、仮想視点画像を生成する処理を行う。制御部２０８は、画像生成装置１２２が行う各処理の順序等を制御する。

［三次元モデルと姿勢情報］
図３を用いて、三次元モデルと姿勢情報について説明をする。図３は、撮影領域内のオブジェクトの例である人物とその三次元モデル及びボーンモデルを示す模式図である。なお、三次元モデルは三次元空間におけるオブジェクトの位置及び形状を示すモデルであり、ボーンモデルは三次元空間におけるオブジェクトの姿勢を示すモデルあるが、説明の簡略化のために図３では二次元的に表現する。複数のカメラ１１２が撮影領域内のオブジェクト３０１を撮影することにより得られる画像データに基づいて、三次元モデル３０２を表す三次元形状データ及びボーンモデル３０３を表す姿勢情報が生成される。

本実施形態における三次元モデル３０２は、ボクセルの集合である点群で表現される。点群は、三次元空間内の各ボクセルの三次元位置情報（ｘ，ｙ，ｚ）と、１つのボクセルの大きさを示す情報により表される。ボクセルは立方体であり、ボクセルの大きさは例えば一辺の長さで表現される。ボクセルの集合によりオブジェクト３０１の三次元形状が表現されるため、三次元モデル３０２によって表現される三次元形状の精度はボクセルが細かいほど高くなる。一方、ボクセルが細かいと、三次元モデル３０２を構成するボクセルの数が多くなるため、三次元モデルの情報量（三次元形状データのデータサイズ）が大きくなる。

姿勢情報が表すボーンモデル３０３は、図３に示すように、オブジェクト３０１の構造上の主要な節点と、節点間を接続する線により構成される。三次元モデル３０２と比較するとボーンモデル３０３は情報量が少ないため、姿勢情報は三次元形状データよりも小さいデータサイズでオブジェクト３０１の大まかな動きや姿勢の状態を表現することが可能である。

図４を用いて、カメラ１１２により取得される撮影画像、モデル生成部２０２により生成される三次元モデル、及び姿勢推定部２０３により生成される姿勢情報の時間的な関係について説明を行う。本実施形態では、カメラ１１２の撮影フレームレート（撮影画像のフレームレート）が６０ｆｐｓであるものとする。つまり、１／６０秒毎にカメラ１１２により１フレームの撮影画像が取得される。三次元モデルと姿勢情報もそれぞれ、撮影画像に基づいて、撮影画像と同じ６０ｆｐｓのフレームレートで生成される。このような６０ｆｐｓのフレームレートの三次元モデルを用いて仮想視点画像を生成する場合、仮想視点画像のフレームレートも６０ｆｐｓとなる。

一方、撮影画像のフレームレートより高いフレームレートの仮想視点画像を生成することが求められる場合がある。そこで、画像生成システム１００は、撮影画像に対応する時刻とは異なる時刻における三次元モデルを補間により生成することで、１２０ｆｐｓの仮想視点画像を生成する。具体的には、姿勢補間部２０４が、２つの時間的に連続するフレームそれぞれに対応する姿勢情報から、それらのフレームに対応する撮影時刻の中間の時刻における姿勢情報を補間により生成する。そしてモデル補間部２０６が、姿勢補間部２０４により生成された姿勢情報に基づいて、補間により生成された姿勢情報と同時刻に対応する三次元モデルを生成する。

図９に、補間により生成された姿勢情報（以下では補間姿勢情報と表記する）と補間姿勢情報に基づいて生成された三次元モデル（以下では補間三次元モデルと表記する）の時間的な位置付けを示す。撮影画像は１／６０秒ごとに１フレームが取得されるが、補間姿勢情報と補間三次元モデルが生成されることにより、１／１２０秒ごとの姿勢情報と三次元モデルが得られる。この三次元モデルを用いることで、撮影画像のフレームレートの２倍である１２０ｆｐｓの仮想視点画像を生成することが可能になる。

［動作フロー］
図１０は、画像生成装置１２２の動作の例を示すフローチャートである。図１０に示す処理は、画像生成装置１２２のＣＰＵ２１１がＲＯＭ２１２に格納されたプログラムをＲＡＭ２１３に展開して実行することで実現される。なお、図１０に示す処理の少なくとも一部を、ＣＰＵ２１１とは異なる１又は複数の専用のハードウェアにより実現してもよい。図１０に示す処理は、複数のカメラ１１２による撮影が行われ、仮想視点画像を生成するための指示が画像生成装置１２２に入力されたタイミングで開始される。ただし、図１０に示す処理の開始タイミングはこれに限定されない。図１０に示す処理は、複数のカメラ１１２による撮影中に実行されてもよいし、撮影が完了して撮影画像が記録された後に実行されてもよい。

Ｓ１００１において、データ受信部２０１は、複数のカメラ１１２による撮影に基づく撮影画像を取得する。Ｓ１００２において、モデル生成部２０２は、撮影画像に基づいて、撮影画像の時刻と同時刻における三次元モデルを表す三次元形状データを生成する。この三次元モデルを以下では基準三次元モデルと表記する。Ｓ１００３において、姿勢推定部２０３は、撮影画像に基づいて、撮影画像の時刻と同時刻における姿勢情報を生成する。この姿勢情報を以下では基準姿勢情報と表記する。

Ｓ１００４において、姿勢補間部２０４、動きベクトル算出部２０５、及びモデル補間部２０６は、基準三次元モデルと基準姿勢情報に基づいて補間三次元モデルを表す三次元形状データを生成する。Ｓ１００５において、レンダリング処理部２０７は、基準三次元モデルを用いて基準フレームの仮想視点画像のレンダリングを行う。仮想視点画像の基準フレームとは、撮影画像のフレームと同時刻に対応するフレームである。Ｓ１００６において、レンダリング処理部２０７は、補間三次元モデルを用いて補間フレームの仮想視点画像のレンダリングを行う。仮想視点画像の補間フレームとは、撮影画像のフレームとは異なる時刻に対応するフレームであり、２つの連続する基準フレームの中間に挿入されるフレームである。

Ｓ１００４及びＳ１００５におけるレンダリング処理により、撮影画像のフレームレートより高いフレームレートの仮想視点画像が生成される。Ｓ１００７において、レンダリング処理部２０７は、生成された仮想視点画像をエンドユーザ端末１２６へ出力する。出力された仮想視点画像は、エンドユーザ端末１２６の画面に表示される。このように、撮影画像のフレームレートより高いフレームレートの仮想視点画像を生成することで、例えば、撮影画像のフレームレートより高いフレームレートで画像を表示可能なデバイスで仮想視点画像を表示する場合に、滑らかな動画の再生が可能となる。また例えば、高いフレームレートの仮想視点画像をスロー再生することで、スロー動画を滑らかに再生することが可能となる。

次に、Ｓ１００４における補間三次元モデルを生成する処理の詳細について、図５を用いて説明する。Ｓ５０１にて、制御部２０８は、補間により生成すべき補間フレームの時刻情報を取得する。本実施形態では、６０ｆｐｓの撮影画像から１２０ｆｐｓの仮想視点画像が生成されるため、補間フレームの時刻情報は、複数の基準フレームのそれぞれに対応する時刻の中間の時刻を示す。補間フレームの時刻情報は、ユーザ操作に基づいて取得される。例えばユーザが「１２０ｆｐｓ」や「倍速」を指定する操作を行った場合に、１２０ｆｐｓの仮想視点画像を生成するための補間フレームの時刻情報が取得される。ただし、補間フレームの時刻情報の取得方法はこれに限定されず、制御部２０８は、撮影領域におけるオブジェクトの状況や撮影対象のイベント等に基づいて決められた時刻情報を取得してもよい。

Ｓ５０２において、姿勢補間部２０４は、補間フレームの前後の基準フレームに対応する基準姿勢情報から、補間フレームに対応する時刻の姿勢情報を補間により生成する。Ｓ５０２で実施される姿勢情報の補間方法について、図６を用いて説明する。ここでは、フレームＮとフレームＮ＋１という二つの連続する基準フレームの中間の時刻に対応する補間フレームの姿勢情報を生成する例について説明する。

ボーンモデル６００は、フレームＮの姿勢情報が表すボーンモデルであり、フレームＮに対応する時刻におけるオブジェクトの姿勢を表す。また、ボーンモデル６２０は、フレームＮ＋１の姿勢情報が表すボーンモデルであり、フレームＮ＋１に対応する時刻におけるオブジェクトの姿勢を表す。ボーンモデル６１０は、補間フレームの姿勢情報が表すボーンモデルであり、補間フレームに対応する時刻におけるオブジェクトの姿勢を表す。

姿勢補間部２０４は、ボーンモデル６００における節点６０１の位置とボーンモデル６２０における対応する節点６０２の位置から、補間フレームにおける対応する節点６０３の位置を線形補間により算出する。本実施形態では、２つの基準フレームの間の中央の特定時刻が補間フレームの時刻であるため、補間フレームにおける節点６０３の位置として、節点６０１の座標と節点６０２の座標の平均値が算出される。このようにして補間フレームにおける各節点の位置が算出され、算出された節点間を接続することで、補間フレームのボーンモデル６１０を表す姿勢情報が生成される。

Ｓ５０３において、動きベクトル算出部２０５及びモデル補間部２０６は、Ｓ５０２において生成された補間姿勢情報を用いて補間三次元モデルを生成する。Ｓ５０３における処理の詳細について、図７を用いて説明する。Ｓ７０１において、動きベクトル算出部２０５は、基準姿勢情報が表すボーンモデルと補間姿勢情報が表すボーンモデルとの間の動きベクトルを算出する。ここで使用される基準姿勢情報は、補間精度を向上させるために、補間フレームの時刻に近い時刻の基準姿勢情報であることが望ましい。例えば、２つの基準フレームの間の中央の特定時刻を補間フレームとする場合、補間フレームの前後の基準フレームのいずれかの基準姿勢情報が使用される。

Ｓ７０２において、モデル補間部２０６は、動きベクトルの大きさに応じて補間フレームのボーンモデルを領域分割する。図８（ａ）は、図６に示した補間フレームにおけるボーンモデル６１０を示す。図８（ｂ）は、ボーンモデル６１０の部分８００を拡大した様子を示す。図８（ｂ）に示すように、基準フレームにおけるボーンモデル６００と補間フレームにおけるボーンモデル６１０との間における領域８１１の動きは、動きベクトル８０１で表される。同様に、領域８１２の動きは動きベクトル８０２で表され、領域８１１の動きは動きベクトル８０１で表される。動きベクトルは単位時間あたりの動き方向と動き量を示すベクトルであり、例えば座標（ｖｘ，ｖｙ，ｖｚ）で表される。なお、本実施形態では動きベクトルの大きさによりボーンモデルを複数の領域に分割するものとするが、これに限らず、その他の基準によってボーンモデルが複数の領域に分割されたうえで、各領域の動きベクトルが算出されてもよい。

Ｓ７０３において、モデル補間部２０６は、基準三次元モデルを構成する各ボクセルの位置を、そのボクセルが属する領域に対応する動きベクトルに従って変更することで、補間三次元モデルを生成する。例えば図８（ｃ）に示すように、フレームＮの基準三次元モデルを構成するボクセル８２１を、ボクセル８２１が属する領域８１３に対応する動きベクトル８０３に従って動かすことで、補間三次元モデルを構成するボクセル８２２が得られる。基準三次元モデルにおけるボクセル８２１の座標を（ｘ，ｙ，ｚ）とすると、補間三次元モデルにおける対応するボクセル８２２の座標（ｘ’，ｙ’，ｚ’）は、以下の式で示すように求められる。
ｘ’＝ｘ＋ｖｘ × ｔ
ｙ’＝ｙ＋ｖｙ × ｔ
ｚ’＝ｚ＋ｖｚ × ｔ
ここでｔは基準フレームの時刻から補間フレームの時刻までの時間であり、本実施形態では１／１２０秒である。このようにして、補間三次元モデルを構成する各ボクセルの位置を算出することで、補間三次元モデルが生成される。

［変形例］
上述した実施形態では、撮影画像のフレームレート２倍のフレームレートの仮想視点画像を生成する場合について説明した。ただし、画像生成システム１００により生成される仮想視点画像のフレームレートはこれに限定されず、上述した方法と同様の方法で画像生成システム１００は任意のフレームレートの仮想視点画像を生成することができる。以下では、撮影画像のフレームレートの３倍のフレームレートの仮想視点画像を生成する場合の具体例を示す。

図１１は、撮影画像、基準三次元モデル、基準姿勢情報、補間三次元モデル、及び補間姿勢情報の時間的な関係を示す。撮影画像のフレームＮ、フレームＮ＋１、及びフレームＮ＋２は連続するフレームであり、フレーム間の間隔は１／６０秒である。そして、撮影画像のフレームレートの３倍のフレームレートの仮想視点画像を生成するために、連続する２つの基準フレームの間に２つの補間フレームが挿入され、各補間フレームに対応する補間姿勢情報および補間三次元モデルが生成される。本変形例では補間フレームを含めた複数フレーム間の時間間隔を等間隔にするため、フレーム間の時間間隔は１／１８０秒となる。

図１２に、フレームＮの姿勢情報が表すボーンモデル６００と、フレームＮ＋１の姿勢情報が表すボーンモデル６２０と、補間フレームの姿勢情報が表すボーンモデル１２１０を示す。この補間フレームは、フレームＮに対応する時刻の１／１８０秒後の時刻に対応する。ボーンモデル１２１０は、ボーンモデル６００とボーンモデル６２０を用いた補間処理により生成される。具体的には、姿勢補間部２０４が、ボーンモデル６００における節点６０１の位置とボーンモデル６２０における対応する節点６０２の位置から、補間フレームにおける対応する節点１２０３の位置を線形補間により算出する。節点１２０３の座標（ｘ，ｙ，ｚ）は、以下の式で求められる。
ｘ＝ｘ１＋（ｘ２－ｘ１） × ｔ１／Ｔ
ｙ＝ｙ１＋（ｙ２－ｙ１） × ｔ１／Ｔ
ｚ＝ｚ１＋（ｚ２ ― ｚ１） × ｔ１／Ｔ
ここで、（ｘ１，ｙ１，ｚ１）がフレームＮにおける節点６０１の座標であり、（ｘ２，ｙ２，ｚ２）がフレームＮ＋１における節点６０２の座標である。ＴはフレームＮとフレームＮ＋１との間の時間間隔であり、ｔ１はフレームＮとフレームＮに連続する補間フレームとの間の時間間隔である。

このようにして補間フレームにおける各節点の位置が算出され、算出された節点間を接続することで、補間フレームのボーンモデル１２１０を表す姿勢情報が生成される。なお、フレームＮとフレームＮ＋１との間に挿入されるもう一つの補間フレームに対応する時刻（フレームＮの時刻から２／１８０秒後）におけるボーンモデルも、同様の方法で生成される。そして、生成された補間フレームのボーンモデルを表す補間姿勢情報に基づいて、上述した実施形態と同様に補間三次元モデルが生成される。これにより、１８０ｆｐｓの仮想視点画像の生成が可能となる。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ等）によっても実現可能である。また、そのプログラムをコンピュータにより読み取り可能な記録媒体に記録して提供してもよい。

１００画像生成システム
１１２カメラ
１２２画像生成装置

Claims

所定の撮影時刻において複数の撮影装置によりオブジェクトを異なる方向から撮影することで得られる複数の画像に基づいて、前記所定の撮影時刻における前記オブジェクトの三次元形状を表す形状データを生成する第１生成手段と、
前記所定の撮影時刻における前記オブジェクトの姿勢を表す第１姿勢情報と、前記所定の撮影時刻とは異なる特定時刻における前記オブジェクトの姿勢を表す第２姿勢情報と、を取得する取得手段と、
前記取得手段により取得された前記第１姿勢情報及び前記第２姿勢情報と、前記第１生成手段により生成された形状データとに基づいて、前記特定時刻における前記オブジェクトの三次元形状を表す形状データを生成する第２生成手段と、を有することを特徴とする情報処理装置。
前記第１生成手段は、所定の撮影期間において前記複数の撮影装置により前記オブジェクトを異なる方向から撮影することで得られる複数の動画に基づいて、前記複数の動画に含まれる動画を構成する複数のフレームに対応する複数の時刻それぞれにおける前記オブジェクトの三次元形状を表す形状データを生成し、
前記所定の撮影時刻は前記複数のフレームに含まれるフレームに対応する時刻であり、
前記特定時刻は、前記所定の撮影期間に含まれる時刻であって、且つ、前記複数のフレームに対応する前記複数の時刻には含まれない時刻であることを特徴とする請求項１に記載の情報処理装置。
前記第１生成手段により生成された形状データと前記第２生成手段により生成された形状データとを用いたレンダリング処理により、仮想的な視点位置及び視線方向に応じた仮想視点画像であって前記動画のフレームレートより高いフレームレートの仮想視点画像を生成する画像生成手段を有することを特徴とする請求項２に記載の情報処理装置。
前記取得手段は、前記所定の撮影時刻において前記複数の撮影装置により撮影することで得られる複数の画像に基づいて前記第１姿勢情報を取得することを特徴とする請求項１乃至３の何れか１項に記載の情報処理装置。
前記取得手段は、
前記所定の撮影時刻とは異なる他の撮影時刻において前記複数の撮影装置により撮影することで得られる複数の画像に基づいて、前記他の撮影時刻における前記オブジェクトの姿勢を表す第３姿勢情報を取得し、
前記第１姿勢情報と前記第３姿勢情報とを用いた補間処理により前記第２姿勢情報を取得することを特徴とする請求項４に記載の情報処理装置。
前記第１姿勢情報及び前記第２姿勢情報は、前記オブジェクトの骨格のモデルを表現する情報であることを特徴とする請求項１乃至５の何れか１項に記載の情報処理装置。
前記第２生成手段は、前記第１生成手段により生成された形状データが表す三次元形状に、前記第１姿勢情報が表す姿勢と前記第２姿勢情報が表す姿勢との差異に基づく変更を加えることで、前記特定時刻における前記オブジェクトの三次元形状を表す形状データを生成することを特徴とする請求項１乃至６の何れか１項に記載の情報処理装置。
前記形状データは、前記オブジェクトの三次元形状をボクセルにより表現するデータであることを特徴とする請求項１乃至７の何れか１項に記載の情報処理装置。
前記形状データは、前記オブジェクトの三次元形状をポリゴンにより表現するデータであることを特徴とする請求項１乃至７の何れか１項に記載の情報処理装置。
前記第１生成手段は、視体積交差法を用いて前記形状データを生成することを特徴とする請求項１乃至９の何れか１項に記載の情報処理装置。
所定の撮影時刻において複数の撮影装置によりオブジェクトを異なる方向から撮影することで得られる複数の画像に基づいて、前記所定の撮影時刻における前記オブジェクトの三次元形状を表す形状データを生成する第１生成工程と、
前記所定の撮影時刻における前記オブジェクトの姿勢を表す第１姿勢情報と、前記所定の撮影時刻とは異なる特定時刻における前記オブジェクトの姿勢を表す第２姿勢情報と、を取得する取得工程と、
前記取得工程において取得された前記第１姿勢情報及び前記第２姿勢情報と、前記第１生成工程において生成された形状データとに基づいて、前記特定時刻における前記オブジェクトの三次元形状を表す形状データを生成する第２生成工程と、を有することを特徴とする情報処理方法。
前記第１生成工程においては、所定の撮影期間において前記複数の撮影装置により前記オブジェクトを異なる方向から撮影することで得られる複数の動画に基づいて、前記複数の動画に含まれる動画を構成する複数のフレームに対応する複数の時刻それぞれにおける前記オブジェクトの三次元形状を表す形状データが生成され、
前記所定の撮影時刻は前記複数のフレームに含まれるフレームに対応する時刻であり、
前記特定時刻は、前記所定の撮影期間に含まれ、且つ前記複数のフレームに対応する前記複数の時刻に含まれない時刻であることを特徴とする請求項１１に記載の情報処理方法。
前記第１生成工程において生成された形状データと前記第２生成工程において生成された形状データとを用いたレンダリング処理により、仮想的な視点位置及び視線方向に応じた仮想視点画像であって前記動画のフレームレートより高いフレームレートの仮想視点画像を生成する画像生成工程を有することを特徴とする請求項１２に記載の情報処理方法。
コンピュータを、請求項１乃至１０の何れか１項に記載の情報処理装置の各手段として機能させるためのプログラム。