JP2023073038A - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2023073038A
JP2023073038A JP2021185839A JP2021185839A JP2023073038A JP 2023073038 A JP2023073038 A JP 2023073038A JP 2021185839 A JP2021185839 A JP 2021185839A JP 2021185839 A JP2021185839 A JP 2021185839A JP 2023073038 A JP2023073038 A JP 2023073038A
Authority
JP
Japan
Prior art keywords
information processing
metadata
information
objects
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021185839A
Other languages
English (en)
Inventor
智一 佐藤
Tomokazu Sato
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2021185839A priority Critical patent/JP2023073038A/ja
Priority to US17/968,882 priority patent/US20230156177A1/en
Publication of JP2023073038A publication Critical patent/JP2023073038A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/349Multi-view displays for displaying three or more geometrical viewpoints without viewer tracking
    • H04N13/351Multi-view displays for displaying three or more geometrical viewpoints without viewer tracking for displaying simultaneously
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/30Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on the same track as the main recording
    • G11B27/3027Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on the same track as the main recording used signal is digitally coded
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Generation (AREA)

Abstract

【課題】特定のオブジェクトの選択的な描画を効率よく行うことが可能なボリュメトリックビデオのフォーマットを提供する。【解決手段】オブジェクトの形状データを含むフレームのシーケンスから成るボリュメトリックビデオデータ、および、前記形状データに対応するオブジェクトそれぞれのフレーム間における変化を示すトラッキング情報を取得する。そして、前記トラッキング情報に基づいて、前記オブジェクトそれぞれと各フレームにおける前記形状データとを関連付けるメタデータを生成し、前記メタデータを含む前記ボリュメトリックビデオデータを出力する。【選択図】図3

Description

本開示の技術は、ボリュメトリックビデオのファイルフォーマットに関する。
特許文献1は、スポーツのハイライトシーンの分析等を目的として、被写体(オブジェクト)の位置と時間を表すトラッキング情報を動画の各フレームにメタデータとして関連付ける方法を開示している。
特開2000‐106661号公報
近年、撮像空間全体を3Dデータ化することで、コンピュータの中に作り上げられたバーチャル空間内の様々なアングルからの映像を生成できるボリュメトリックビデオ技術が注目されている。このボリュメトリックビデオでは、視聴する際の視点(仮想的なカメラの位置や姿勢、画角など。以下、「仮想視点」と呼ぶ。)を視聴者自身が制御することができる。ここで、例えばスタジアムなど広い空間で行われるサッカーの試合を対象としたボリュメトリックビデオにおいて好適な視聴を実現するためには、仮想視点を見たいシーンに応じて随時制御する必要がある。具体的には、注目する選手の動きを追いかけたり、ボールを画角内に維持したりするための細かな制御が必要になる。また、ボリュメトリックビデオでは特定のオブジェクトだけを視聴する場合は、仮想視点の制御に加え、当該特定のオブジェクトだけを選択的に描画する処理が必要になる。
ボリュメトリックビデオのデータにおいては、一般的に1フレームの中に、オブジェクトの三次元形状を表す形状データがそこに映っているオブジェクトの数だけ含まれている。そして、入力された仮想視点に応じて特定のオブジェクトを選択的に描画する際にはどの形状データをどのように処理するかを決める必要があるところ、上記特許文献1の方法でトラッキング情報を各フレームに関連付けるだけでは対処できない。
本開示の目的は、特定のオブジェクトの選択的な描画を簡易に行うことを可能とすることである。
本開示に係る情報処理装置は、オブジェクトの形状データを含むフレームのシーケンスから成るボリュメトリックビデオデータを取得する取得手段と、前記形状データに対応するオブジェクトそれぞれのフレーム間における変化を示すトラッキング情報を取得する取得手段と、前記トラッキング情報に基づいて、前記オブジェクトそれぞれと各フレームにおける前記形状データとを関連付けるメタデータを生成する生成手段と、前記メタデータを含む前記ボリュメトリックビデオデータを出力する出力手段と、を有することを特徴とする。
本開示の技術によれば、特定のオブジェクトの選択的な描画を簡易に行うことが可能となる。
情報処理装置のハードウェア構成の一例を示す図 情報処理装置のソフトウェア構成を示すブロック図 ボリュメトリックビデオに対しメタデータを付す処理の流れを示すフローチャート (a)及び(b)は、オブジェクトトラッキングの様子を表す模式図 (a)はオブジェクトの一覧情報の一例を示す図、(b)はメタデータの一例を示す図 情報処理装置のソフトウェア構成を示すブロック図 ボリュメトリックビデオに対しメタデータを付す処理の流れを示すフローチャート チャプタオブジェクトの同定を説明する図 メタデータの一例を示す図 並べ替え処理の結果の一例を示す図 メタデータの一例を示す図 メタデータの一例を示す図 (a)及び(b)はオペレータが使用するUI画面の一例を示す図、 情報処理装置のソフトウェア構成を示すブロック図 オブジェクトを選択的に再生する処理の流れを示すフローチャート
以下、本発明を実施するための形態について図面を用いて説明する。なお、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。
実施形態の説明に入る前に、「ボリュメトリックビデオ」の概念について確認しておく。本明細書においてボリュメトリックビデオとは、従来の二次元の映像データに対して、オブジェクト(被写体)の三次元形状を表す形状データ(「3Dモデル」とも呼ばれる。)が付加されたものを指し、更に音声データが付加されていてもよい。3Dモデルは、オブジェクトの形状をボクセルで表現したボリュームデータ、点の集合で表現した点群データ、ポリゴンの集合で表現したメッシュデータなど様々なデータ形式がある。本実施形態では、メッシュデータを用いて説明するが、3Dモデルのデータ形式はこれに限定されるものではない。また、3Dモデルはさらに色の情報を持つこともある。例えばボリュームデータであれば各ボクセルが色と透明度の情報を持ち、点群データであれば各点が色の情報を持ち、メッシュモデルであれば各メッシュがテクスチャの情報を持つのが一般的である。
ボリュメトリックビデオでは、1つ以上のオブジェクトの三次元形状を表現した1つ以上の3Dモデルが各フレームに対応付けられる。そして、そのようなフレームを時系列に並べたフレームシーケンスによって、そこに映っているオブジェクトの形状に関わる情報を保持する。このようなボリュメトリックビデオとしては、例えばマイクロソフト(登録商標)の“High-quality Streamable free-viewpoint video”がある。これは、MPEG-DASHプロトコルの映像トラックにテクスチャ画像を動画として保存し、拡張されたNAL(Network AbStraction Layer)ユニットにメッシュ形式の3Dモデルを格納している。
[実施形態1]
<ハードウェア構成>
図1は、本実施形態に係る、情報処理装置100のハードウェア構成の一例を示す図である。図1において、CPU101は、RAM102をワークメモリとして、ROM103及びハードディスクドライブ(HDD)105に格納されたプログラムを実行し、システムバス112を介して後述する各ブロックの動作を制御する。HDDI/F104は、HDD105や光ディスクドライブなどの二次記憶装置を接続する、例えばシリアルATA(SATA)などのインタフェースである。CPU101は、HDDI/F104を介して、HDD105からのデータ読み出し及びHDD105へのデータ書き込みが可能である。さらにCPU101は、HDD105に格納されたデータをRAM102に展開することができ、逆に、RAM102に展開されたデータをHDD105に保存することもできる。そして、CPU101は、RAM102に展開したデータをプログラムとして実行することができる。入力I/F106は、キーボードやマウス、デジタルカメラ、スキャナなどの入力デバイス107を接続する、例えばUSBやIEEE1394などのシリアルバスインタフェースである。CPU101は、入力I/F106を介して入力デバイス107からデータを読み込むことができる。出力I/F108は、情報処理装置100と、出力デバイスであるディスプレイとを接続する、例えばDVIやHDMI(登録商標)などの映像出力インタフェースである。CPU101は、出力I/F108を介してディスプレイにデータを送り、ディスプレイに所定の映像を表示させることができる。ネットワークI/F110は、インターネットやLANといったネットワークと接続するインタフェースである。CPU101は、ネットワークI/F110を介して、LAN或いはインターネットに繋がる外部サーバ等との間で各種データをやり取りすることができる。
<機能構成と処理の流れ>
図2及び図6は、情報処理装置100のソフトウェア構成、より詳細にはボリュメトリックビデオに対し特定オブジェクトの選択的描画に好適なメタデータを付すための機能構成を示すブロック図である。図2及び図6に示す各種機能はCPU101が専用のプログラムを実行することにより実現され、図2と図6では生成されるメタデータのタイプが異なる。また、図3及び図7は、ボリュメトリックビデオに対し上記メタデータを付す処理の流れを示すフローチャートであり、図2と図6にそれぞれ対応している。
≪タイプ1≫
まず、図2のブロック図に示す機能構成によって実現される、特定オブジェクトの選択的描画に好適なメタデータを付す処理について、図3のフローチャートを参照して説明する。なお、以下の説明において記号「S」はステップを意味する。
S301では、映像読込部201が、処理対象となるボリュメトリックビデオのフレームシーケンスをHDD105などから読み込む。ここで読み込まれるフレームシーケンスを構成する各フレームには、特定時刻における2D画像のデータと当該2D画像に映っているオブジェクトの3Dモデルのデータとが含まれる。この場合において、2D画像内に複数のオブジェクトが映っている場合、各3Dモデルは原則としてオブジェクト単体の三次元形状を表す。ただし、複数のオブジェクトが接触等により近接している場合は当該複数のオブジェクトが合わさった三次元形状を表すことになる。
S302では、トラッキング情報取得部202が、S301にて読み込んだフレームシーケンスを構成する各フレームの2D画像に対し、オブジェクトの抽出及び各オブジェクトのトラッキングを行う。例えば、2D画像内に3人の選手とボールが映っている場合は、4つのオブジェクトが抽出し、各フレームの3Dモデルを解析して、4つのオブジェクトそれぞれについてフレーム間の対応関係を求める。この時、3Dモデルとオブジェクトとが1対1の関係にない場合もある。例えば選手がボールに触れている瞬間の3Dモデルは、当該選手とボールとが結合した1つの三次元形状を表すことになる。このように、1つの3Dモデルに対して複数のオブジェクトが割り当てられていることがあるため注意が必要である。図4の(a)及び(b)は、オブジェクトトラッキングの様子を表す模式図である。図4(a)は、3人の選手とボールが映っている撮像シーンにおける6フレーム分のメッシュ形式の3Dモデル(以下、「メッシュモデル」と表記。)を示している。また、図4(b)は、一人の選手(ヒト)とボールのトラッキング結果を、実線の矢印と破線の矢印でそれぞれ示している。ヒトについては、0番~5番の各フレームにおいて“00”、“00”、“00”、“01”、“00”、“02”の各モデルインデックスが各メッシュモデルに付与されている。また、ボールは、0番~5番の各フレームにおいて“02”、“01”、“00”、“03”、“01”、“03”の各モデルインデックスが各メッシュモデルに付与されている。ここで、2フレーム目では、ヒトとボールが1つのメッシュモデルで表現されていることに注意が必要である。こうして得られたオブジェクトトラッキングの結果は、各オブジェクトのフレーム間の推移を示すトラッキング情報としてメタデータ生成部203に供される。
S303では、トラッキング情報取得部202が、S302で得られたトラッキング情報に基づき、フレームシーケンスの2D画像に映っているオブジェクトの一覧情報を生成する。図5(a)にオブジェクトの一覧情報の一例を示す。図5(a)に示す一覧情報では、図4(a)に示す4つのオブジェクトそれぞれを識別するオブジェクトインデックス(ここでは“001”~“004”)が付与され、各オブジェクトインデックスと各フレームにおけるモデルインデックスとが対応付けられている。なお、オブジェクトインデックス“002”について、0番目のフレームのモデルインデックスが“-1”となっているが、これは0番目のフレームには該当する選手オブジェクトが存在しなかったことを表意味している。
S304では、S303にて生成された一覧情報がディスプレイ(出力デバイス109)に表示される。この際、各オブジェクトインデックスに対応する代表的なメッシュモデル(例えば表面積が最大のもの)も併せて表示される。
次のS305において、メタデータ生成部203は、一覧情報に記述された各オブジェクトに対して属性及びタグを設定して、フレームシーケンスに付加するメタデータを生成する。本実施形態では、オペレータが、ディスプレイに表示された一覧情報と代表的なメッシュモデルを参照し、「属性」として、“ヒト(人間)”か、ヒト以外の“モノ”かを、キーボード等を操作して入力する。また、「タグ」として、同じ属性を持つオブジェクト同士を区別するための識別情報を、キーボード等を操作して入力する。そして、入力結果に基づいて、「属性」と「タグ」の内容が、図5(b)に示すように、オブジェクトインデックスが表すオブジェクト毎に設定される。図5(b)の例では、オブジェクトインデックス“001”~“003”がそれぞれの選手に対応し、オブジェクトインデックス“004”がボールに対応している。この場合、オペレータは、“001”~“003”の各オブジェクトインデックスに対しては、その「属性」として“ヒト”を指定し、さらに「タグ」として当該ヒト(選手)の氏名、所属するチーム名、背番号といった選手固有の情報を付記する。さらに“004”のオブジェクトインデックスに対しては、その「属性」として“モノ”を指定し、さらに「タグ」としてそれが具体的に何であるかが分かる普通名詞(ここではボール)などの情報を付記する。これにより、「属性」や「タグ」の内容を指定するだけで該当するメッシュモデルを特定することが可能になる。こうして、オブジェクトインデックス毎に設定された「属性」と「タグ」の情報がメタデータとして得られる。なお、属性やタグの情報をオペレータが手動で入力するのに代えて、例えばフレーム内の2D画像やメッシュモデルを解析して自動で設定してもよい。具体的には、文字の検出、顔認識、メッシュモデルが表す形状の大きさや色の検出などを行って得られた結果に基づき「属性」や「タグ」の内容を自動設定する方法が考えられる。さらには、このような自動設定を行った結果をディスプレイに表示し、オペレータがそれを編集できるようにしてもよい。
S306では、映像出力部204が、S301にて読み込んだフレームシーケンスに対しS305にて得られたメタデータを付加して出力する。
以上のようにして、特定オブジェクトの選択的描画に好適なメタデータを付したボリュメトリックビデオを得ることができる。
≪タイプ2≫
次に、図6のブロック図に示す機能構成によって実現される、特定オブジェクトの選択的描画に好適なメタデータを付す処理について、図7のフローチャートを参照して説明する。なお、以下の説明において記号「S」はステップを意味する。
S701では、図3のフローにおけるS301と同様、映像読込部201が、処理対象となるボリュメトリックビデオのフレームシーケンスをHDD105などから読み込む。
次のS702では、チャプタ分割部601が、S701で読み込まれたフレームシーケンスを複数のチャプタに分割する。チャプタ分割部601は、入力されたフレームシーケンスに対しシーン解析を行う等して、例えばプレーの区切り毎といった時間的に連続する一まとまりのフレーム群をチャプタ区間として決定してチャプタに分割する。例えば、実施形態1で説明した前述の図4(a)に示す6つのフレームが1つのチャプタとなる。チャプタ区間の決定方法はこれに限られない。例えばオペレータが処理対象のフレームシーケンスを再生しながらチャプタ区間をマウス等で指定してもよいし、シーン解析によって自動生成されたチャプタ区間を人が修正してもよいし、予め定めた一定時間毎にシーケンスフレームを区切ってもよい。
S703では、トラッキング情報取得部202’が、分割後のチャプタそれぞれを対象として、オブジェクトの抽出及び抽出された各オブジェクトのトラッキングを行う。こうして特定のチャプタ内で抽出・トラッキングされて特定されたオブジェクトを「チャプタオブジェクト」と呼ぶこととする。本ステップで得られたチャプタオブジェクト毎のトラッキングの結果は、トラッキング情報としてメタデータ生成部203’及びソーティング部602に供される。
S704では、トラッキング情報取得部202’が、S703で得られたトラッキング情報に基づき、前後のチャプタ間でチャプタオブジェクトの同定を行い、同定されたチャプタオブジェクトの一覧情報を生成する。具体的には、隣り合う2つのチャプタにおいて、前チャプタの最終フレームにおける各チャプタオブジェクトの位置と後チャプタの先頭フレームにおける各チャプタオブジェクトの位置を解析し、位置が近いもの同士を同一のオブジェクトとしてまず同定する。図8はチャプタオブジェクトの同定を説明する図である。図8に示すように、4つのチャプタに分割された場合は、チャプタ1と2の組、チャプタ2と3の組、チャプタ3と4の組について同定を行うことになる。図8の例では、チャプタオブジェクト1A、チャプタオブジェクト2A、チャプタオブジェクト3B、チャプタオブジェクト4Cが、同一のオブジェクトとして同定されている。同様に、チャプタオブジェクト1B、チャプタオブジェクト2B、チャプタオブジェクト3A、チャプタオブジェクト4Bが、同一のオブジェクトとして同定されている。同様に、チャプタオブジェクト1C、チャプタオブジェクト2C、チャプタオブジェクト3C、チャプタオブジェクト4Aが、同一のオブジェクトとして同定されている。同様に、チャプタオブジェクト1D、チャプタオブジェクト2Dが、同一のオブジェクトとして同定されている。こうして、複数のチャプタに亘って同一のオブジェクトとして同定されたチャプタオブジェクトを「グローバルオブジェクト」と呼ぶこととする。なお、チャプタ間でオブジェクトを同定する手法は上述した手法に限られるものではなく、例えばメッシュモデルの大きさ(表面積やポリゴン数)などを用いてもよい。そして、上記のようにして同定されたグローバルオブジェクトについて、前述の図5(a)に準じた一覧情報が生成される。すなわち、同定されたグローバルオブジェクトそれぞれを識別するオブジェクトインデックスが付与され、各オブジェクトインデックスと各フレームにおけるモデルインデックスとが対応付けられる。
S705では、図3のフローにおけるS304と同様、S704にて生成されたグローバルオブジェクト一覧情報がディスプレイ(出力デバイス109)に表示される。この際、各オブジェクトインデックスが示す代表的なメッシュモデル(例えば表面積が最大のもの)も併せて表示される。
S706では、メタデータ生成部203’が、グローバルオブジェクト一覧情報に記述された各グローバルオブジェクトに対して属性及びタグを設定して、フレームシーケンスに付加するメタデータを生成する。図3のフローにおけるS305と同様、オペレータがディスプレイに表示された一覧情報と代表的なメッシュモデルを参照し、「属性」としてヒトかモノか、「タグ」として名称や所属先などその詳細を示す情報を、キーボード等を操作して入力する。そして、入力結果に基づいて、「属性」と「タグ」の内容が、図9に示すように、オブジェクトインデックスによって識別されるグローバルオブジェクト毎に設定される。図9の例では、オブジェクトインデックス“001”~“004”がそれぞれの選手に対応し、オブジェクトインデックス“005”がボールに対応している。この場合、オペレータは、“001”~“004”の各オブジェクトインデックスが示すグローバルオブジェクトに対しては、その「属性」として“ヒト”を指定する。さらに「タグ」として当該ヒト(選手)の氏名、所属するチーム名、背番号といった選手固有の情報を付記する。さらに“005”のオブジェクトインデックスに対しては、その「属性」として“モノ”を指定し、さらに「タグ」としてそのオブジェクトが具体的に何であるかが分かる普通名詞(ここではボール)などの情報を付記する。これにより、「属性」や「タグ」の内容を指定するだけで該当するメッシュモデルを特定することが可能になる。こうして、グローバルオブジェクトのオブジェクトインデックス毎に設定された「属性」と「タグ」の情報がメタデータとして得られる。
S707では、ソーティング部602が、S703で得られたトラッキング情報に基づいて、各チャプタにおいて3Dモデルの順序を並べ替える処理を行う。本実施形態の並べ替え処理では、各チャプタオブジェクトに対応するメッシュモデルの表面積を推定し、表面積が大きいものから順に並ぶようにチャプタ内での順序を変更し、合わせてモデルインデックスも変更する。図10は、前述の図4(a)に示す6つのフレームが1つのチャプタを形成すると仮定した場合において、並べ替え処理を行った結果を示している。ここで、複数のチャプタオブジェクトが互いに接触して1つのメッシュモデルで表現されている場合は、その表面積全体の中で最も割合が大きい方のチャプタオブジェクトに対応付ける。図10の例においても、選手とボールが統合されているメッシュモデル1001については、選手形状を表す部分の割合の方が大きいので、選手のチャプタオブジェクト側(モデルインデックス“00”)に対応付けられている。
S708では、チャプタメタデータ生成部603が、チャプタ単位での並べ替え処理が施された3Dモデルのメタデータを生成する。3Dモデルとしてメッシュモデルを採用する本実施形態の場合、以下のような処理を行う。まず、注目するチャプタを選択し、当該チャプタにおけるモデルインデックス毎に、ポリゴンの最大数、頂点の最大数、各フレームにおけるメッシュモデルの外接矩形を求め、各メッシュモデルに紐づくメタデータを生成する。図11に、各メッシュモデルのメタデータとして生成される「チャプタメッシュモデルテーブル」のデータ構造を示す。図11に示すチャプタメッシュモデルテーブルにおいて、“Bbox”はメッシュモデルの外接矩形(バウンディングボックス)を意味し、モデルインデックスと対応付けられている。このようなチャプタメッシュモデルテーブルによって、メッシュモデルを効率的に描画することが可能になる。例えば、最大頂点数やポリゴン数によって、メッシュ処理のためのバッファサイズを把握することができる。また、フレーム毎の外接矩形によって、レンダリング時のカリング(あるオブジェクトが他のオブジェクトによって隠れていて仮想視点からは視認できないときに当該オブジェクトのレンダリングを無効にする技術)を効率的に行うことができる。さらに、チャプタメタデータ生成部603は、チャプタオブジェクトに対応するグローバルオブジェクトのインデックス、フレーム毎の三次元位置情報及びモデルインデックスを、各チャプタオブジェクトに紐づくメタデータとして生成する。この際、メッシュモデルが複数のオブジェクトに対応している場合はオブジェクトの統合状態を解析し、統合関係にあるオブジェクト同士の情報もメタデータに含ませる。図12は、並べ替え処理後の注目チャプタ(前述の図10を参照)の各チャプタオブジェクトに対するメタデータとして生成される「チャプタオブジェクトテーブル」のデータ構造を示す。図12に示すように、チャプタオブジェクトからグローバルオブジェクトを把握するための付属情報“GO”や、統合関係になる場合における統合相手になる他のチャプタオブジェクトを把握するための付属情報“CONV”が付加される。この場合において、“GO”にはグローバルオブジェクトのインデックスが記述され、“Conv”には統合される他のチャプタオブジェクトのインデックスが記述される。
S709では、映像出力部204が、S707にて並べ替え処理が施された各チャプタから成るフレームシーケンスに対しS706及びS708にて得られたメタデータを付加して出力する。
以上が、タイプ2のメタデータ付きボリュメトリックビデオを生成するための各部の動作と時系列の処理の流れである。
タイプ2のフォーマットを持つボリュメトリックビデオでは、チャプタ単位での分割管理が可能となり、また、チャプタ間でのオブジェクトの入れ替わりにも対処可能に3Dモデルを効率的に管理できる。さらには、各オブジェクトのトラッキング結果に基づいてメッシュモデルを整理し、各メッシュモデルにメタデータを付与することで、より効率的なレンダリングが可能となる。
<オブジェクトの選択的再生>
続いて、上述のパターン2の場合を例に、ボリュメトリックビデオに付加されたメタデータを利用して任意のオブジェクトを選択的に再生する方法について説明する。
図13の(a)及び(b)はオペレータが使用するUI画面の一例を示す図、図14は情報処理装置100のソフトウェア構成(機能構成)を示すブロック図、図15は選択的再生処理の流れを示すフローチャートである。図14に示す各種機能はCPU101が専用のプログラムを実行することにより実現される。以下、ボリュメトリックビデオのメタデータを利用したオブジェクトの選択的再生について、図14のブロック図と図15のフローチャートを参照して説明する。なお、以下の説明において記号「S」はステップを意味する。
S1501では、再生対象のボリュメトリックビデオのデータがHDD105等から読み込まれ、オペレータの指示に基づき、注目するチャプタの注目するフレームを映したユーザインタフェース画面(UI画面)がディスプレイに表示される。図13(a)のUI画面においてオペレータが、ボリュメトリックビデオを構成するチャプタの中から観たいチャプタを指定すると、指定チャプタ内の代表フレーム(例えば先頭フレーム)がUI画面上に表示される。オペレータはマウス等を用いて、UI画面内に存在するオブジェクトの中から所望のオブジェクト(ここでは、属性が“ヒト”で、選手名が“後藤”、所属チームが“チームA”のオブジェクト1301)を選択する。
S1502では、入力デバイス107を介した任意のオブジェクトを選択するオペレータの操作情報が取得される。例えば、図13(a)のUI画面上に存在するオブジェクトの中から任意のオブジェクトに対しマウスオーバーした状態でクリック操作が行われることを検知すると、当該検知されたクリック操作の情報が取得される。
S1503では、選択モデル判定部1401が、S1502にて取得された操作情報に基づき、オペレータが選択したオブジェクトの3Dモデルを特定する。具体的には、操作情報が示す画素位置に対応するレイに衝突する最前面のメッシュモデルが、オペレータが選択したオブジェクトのメッシュモデルとして特定される。なお、予め選択条件を設定しておき、自動選択したオブジェクトのメッシュモデルを特定してもよい。
S1504では、描画モデル設定部1402が、S1503にて特定された3Dモデルのモデルインデックスに基づき、メインの描画対象となるグローバルオブジェクトを設定する。具体的には、メタデータとしての付属情報“GO”を参照して、S1503にて特定された3Dモデルのモデルインデックスのチャプタオブジェクトに対応するグローバルオブジェクトを、主たる描画対象のオブジェクトに設定する。
S1505では、描画モデル設定部1402が、注目チャプタ内の他のグローバルオブジェクトの中から、サブの描画対象となるグローバルオブジェクトを設定する。具体的には、メタデータとしての付属情報“Conv”を参照して、S1504にてメインの描画対象オブジェクトに設定されたグローバルオブジェクトと統合される関係にあるグローバルオブジェクトを、従たる描画対象のオブジェクトに設定する。
S1506では、カメラパス生成部1403が、オペレータが選択したオブジェクトを好適に視認可能な、注目チャプタ内での仮想視点の移動経路を示す情報(カメラパス)を生成する。カメラパスの生成においては、メインの描画対象に設定されたグローバルオブジェクトのメタデータ内の情報(オブジェクト位置、属性、メッシュモデルの外接矩形)を用いる。例えば、属性がヒトであれば、選択オブジェクトを正面から捉えたカメラパス、背後から捉えたカメラパス、当該ヒト(選手)の目線を再現するカメラパスなどをユーザ指示等に基づき選択して生成する。また、属性がボールであれば、例えば撮像空間の全体(例えばフィールド全面)を横から見るカメラパス、真上から見るカメラパス、ボールとゴールが常に画角内に収まるカメラパスなどをユーザ指示等に基づき生成する。或いは、不図示の仮想視点コントローラから仮想視点(仮想カメラ)の位置や姿勢を指定する操作情報をネットワークI/F110を介して受け取ってカメラパスを生成してもよい。
S1507では、描画部1404が、S1506にて生成されたカメラパスに従って、S1504及びS1505にて設定された描画対象のグローバルオブジェクトの3Dモデルを用いて描画処理を行う。図13(b)は、図13(a)のUI画面上で選手1301が選択された場合の描画結果の一例を示している。図13(b)の例では、注目チャプタにおいて相互に統合される瞬間が存在する選手のオブジェクト1301と1302及びボールのオブジェクト1303は描画・表示されている。しかしながら、他の選手やボールと統合される瞬間が存在しない選手のオブジェクト1304は、描画・表示されていない。ここでの統合とは、複数のオブジェクトが1つのメッシュモデルで表されることを意味している。そして、選択オブジェクトである選手のオブジェクト1301の属性とタグの情報がメタデータに基づき画面左上に表示されている。このように、注目チャプタにおいて、オペレータが選択したオブジェクトと統合される瞬間が存在する非選択オブジェクトについても描画・表示することで、違和感のある仮想視点画像となってしまうのを防ぐことができる。すなわち、選択オブジェクトとそれ以外のオブジェクトとが接触した瞬間のフレームだけ非選択オブジェクトが表示されると、その前のフレームでは存在しなかったオブジェクトが突然現れることになる。そのような映像は視聴者が大きな違和感を持つことから、これを防ぐため、上述のような描画・表示制御を行うことが望ましい。また、選択オブジェクトと統合される瞬間が存在する非選択オブジェクトについて、3Dモデルが統合されていない時間のフレームにおいては例えば半透明で描画・表示するなどして、選択オブジェクトが遮られないような工夫を行ってもよい。
以上が、パターン2のメタデータを付したボリュメトリックビデオを利用して任意のオブジェクトを選択的に再生する処理の流れである。
<変形例>
上述の実施形態では、メタデータ付きボリュメトリックビデオのデータが、オペレータのクライアント環境にあることを想定したシステム構成を説明したがこれに限定されない。例えば、データの実態がサーバ環境上にあり、オペレータの操作に応じてサーバ環境にて処理した結果を、オペレータ側のクライアントPCで受け取って視聴するようなシステム構成でもよい。また、任意のオブジェクトの選択的再生をクライアントPCで行うに当たってサーバからメッシュモデルを伝送する場合に、選択オブジェクトの3D形状データのみを伝送することで、通信負荷を低減することもできる。
以上のとおり本実施形態によれば、オブジェクトとメッシュモデルとを紐付けるメタデータを生成し、ボリュメトリックビデオのフレームシーケンスに付加して提供する。このようなフォーマットを持つボリュメトリックビデオデータでは、特定のオブジェクトの選択的な描画を仮想視点に応じて効率的に行うことができる。また、ある瞬間において複数のオブジェクトが1つの3Dモデルで表現されているようなケースにも柔軟に対応することが可能となる。
(その他の実施例)
本開示は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
100 情報処理装置
201 映像読込部
202 トラッキング情報取得部
203 メタデータ生成部
204 映像出力部

Claims (20)

  1. オブジェクトの形状データを含むフレームのシーケンスから成るボリュメトリックビデオデータを取得する取得手段と、
    前記形状データに対応するオブジェクトそれぞれのフレーム間における変化を示すトラッキング情報を取得する取得手段と、
    前記トラッキング情報に基づいて、前記オブジェクトそれぞれと各フレームにおける前記形状データとを関連付けるメタデータを生成する生成手段と、
    前記メタデータを含む前記ボリュメトリックビデオデータを出力する出力手段と、
    を有することを特徴とする情報処理装置。
  2. 前記メタデータは、各フレームにおける前記形状データそれぞれを識別する第1のインデックスと前記オブジェクトそれぞれを識別する第2のインデックスとを、フレーム毎に対応付ける情報である、ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記メタデータには、前記第2のインデックスで識別されるオブジェクトそれぞれの属性を示す情報がさらに含まれ、
    前記属性には、人物を表す属性と、人物以外の物体を表す属性とが含まれる、
    ことを特徴する請求項2に記載の情報処理装置。
  4. 前記メタデータには、前記属性が同じであるオブジェクト同士を区別するための情報がさらに含まれる、ことを特徴とする請求項3に記載の情報処理装置。
  5. 前記シーケンスを、複数のフレームで構成されるチャプタに分割する分割手段をさらに有し、
    前記取得手段は、各チャプタについて、前記チャプタを構成する前記複数のフレームを対象に前記トラッキング情報を取得し、
    前記生成手段は、各チャプタについて取得された前記トラッキング情報に基づいて、前記チャプタを構成する複数のフレームにおける前記オブジェクトそれぞれを識別する第3のインデックスと前記第1のインデックスとを、前記チャプタを構成する各フレームに対応付ける情報を、前記メタデータとして生成する、
    ことを特徴とする請求項2乃至4のいずれか一項に記載の情報処理装置。
  6. 前記生成手段は、
    前記チャプタ間で前記オブジェクトの同定を行い、
    前記チャプタ間で同定された前記オブジェクトそれぞれを識別する第4のインデックスと前記第3のインデックスとを紐付ける情報を、前記メタデータとして生成する、
    ことを特徴とする請求項5に記載の情報処理装置。
  7. 前記チャプタ間で同定された前記オブジェクトそれぞれに対応する前記形状データの前記チャプタ内での順序を並べ替えるソーティング手段をさらに有することを特徴とする請求項6に記載の情報処理装置。
  8. 前記ソーティング手段は、前記形状データが表す三次元形状の表面積の大きさの順に並べ替えることを特徴とする請求項7に記載の情報処理装置。
  9. 前記生成手段は、前記形状データが複数のオブジェクトが統合された状態の三次元形状を表している場合、統合関係にあるオブジェクト同士の情報を、前記メタデータとして生成することを特徴とする請求項6乃至8のいずれか一項に記載の情報処理装置。
  10. 前記形状データは、前記オブジェクトの三次元形状をポリゴンの集合で表現したメッシュデータであり、
    前記生成手段は、メッシュを構成する頂点の最大数又はポリゴンの最大数の少なくとも一方の情報を前記メタデータとして生成することを特徴とする請求項1乃至9のいずれか一項に記載の情報処理装置。
  11. 前記生成手段は、前記メッシュの各フレームにおける外接矩形の情報を前記メタデータとして生成することを特徴とする請求項10に記載の情報処理装置。
  12. 請求項1乃至11のいずれか一項に記載の情報処理装置から提供された前記ボリュメトリックビデオデータに基づき、特定のオブジェクトを選択する選択手段と、
    前記ボリュメトリックビデオデータに付された前記メタデータに基づき、選択された前記特定のオブジェクトを少なくとも含む1または複数のオブジェクトを、描画対象に設定する設定手段と、
    前記ボリュメトリックビデオデータに付された前記メタデータに基づき、前記描画対象に設定された前記1または複数のオブジェクトに紐付く前記形状データを用いて描画する描画手段と、
    を有することを特徴とする情報処理装置。
  13. 前記選択手段は、前記ボリュメトリックビデオデータを構成するフレームのシーケンスのうち任意のフレームの画像を表示したユーザインタフェース画面において、オペレータが指定した画素位置に対応するオブジェクトを選択する、ことを特徴とする請求項12に記載の情報処理装置。
  14. 前記設定手段は、前記選択手段が選択した前記特定のオブジェクトが他のオブジェクトと統合関係にあることを示す情報が前記メタデータに含まれている場合、前記特定のオブジェクト及び当該他のオブジェクトを前記描画対象に設定することを特徴とする請求項12又は13に記載の情報処理装置。
  15. 前記選択手段が選択した前記特定のオブジェクトを好適に視認可能な仮想視点の移動経路を示すカメラパスを生成するカメラパス生成手段をさらに有し、
    前記描画手段は、生成された前記カメラパスに基づき、前記描画を行う、
    ことを特徴とする請求項12乃至14のいずれか一項に記載の情報処理装置。
  16. 前記カメラパス生成手段は、前記選択手段が選択した前記特定のオブジェクトに関する前記メタデータに含まれる当該オブジェクトの三次元位置、属性、前記形状データが示す三次元形状の外接矩形の情報うち少なくとも1つの情報に基づき、前記カメラパスを生成することを特徴とする請求項15に記載の情報処理装置。
  17. 前記カメラパス生成手段は、前記属性がヒトである場合、前記選択手段が選択した前記特定のオブジェクトを正面から捉えたカメラパス、背後から捉えたカメラパス、当該ヒトの目線を再現するカメラパスのいずれかを生成することを特徴とする請求項16に記載の情報処理装置。
  18. 前記カメラパス生成手段は、前記属性がモノである場合、撮像空間の全体を横から見るカメラパス、真上から見るカメラパス、当該モノと他の特定のモノとが常に画角内に収まるカメラパスのいずれかを生成することを特徴とする請求項16に記載の情報処理装置。
  19. オブジェクトの形状データを含むフレームのシーケンスから成るボリュメトリックビデオデータを読み込む読込ステップと、
    前記形状データに対応するオブジェクトそれぞれのフレーム間の推移を示すトラッキング情報を取得する取得ステップと、
    前記トラッキング情報に基づいて、前記オブジェクトそれぞれと各フレームにおける前記形状データとを紐づけるメタデータを生成する生成ステップと、
    前記メタデータを付した前記ボリュメトリックビデオデータを出力する出力ステップと、
    を有することを特徴とする情報処理方法。
  20. コンピュータを、請求項1乃至18のいずれか一項に記載の情報処理装置として機能させるためのプログラム。
JP2021185839A 2021-11-15 2021-11-15 情報処理装置、情報処理方法及びプログラム Pending JP2023073038A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021185839A JP2023073038A (ja) 2021-11-15 2021-11-15 情報処理装置、情報処理方法及びプログラム
US17/968,882 US20230156177A1 (en) 2021-11-15 2022-10-19 Information processing apparatus, information processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021185839A JP2023073038A (ja) 2021-11-15 2021-11-15 情報処理装置、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2023073038A true JP2023073038A (ja) 2023-05-25

Family

ID=86323155

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021185839A Pending JP2023073038A (ja) 2021-11-15 2021-11-15 情報処理装置、情報処理方法及びプログラム

Country Status (2)

Country Link
US (1) US20230156177A1 (ja)
JP (1) JP2023073038A (ja)

Also Published As

Publication number Publication date
US20230156177A1 (en) 2023-05-18

Similar Documents

Publication Publication Date Title
Assa et al. Action synopsis: pose selection and illustration
DeCamp et al. An immersive system for browsing and visualizing surveillance video
US11196973B2 (en) Providing apparatus, providing method and computer readable storage medium for performing processing relating to a virtual viewpoint image
US11012679B2 (en) Generating apparatus, generating method, and storage medium
EP2629265A1 (en) Method and system for driving simulated virtual environments with real data
US9734637B2 (en) Semantic rigging of avatars
JP2000512410A (ja) 参照モデルを用いて画像情報を索引付けをする方法
KR20160097430A (ko) 애니메이션 생성 장치 및 방법
JP2008090498A (ja) 画像処理方法、画像処理装置
EP3864625A1 (en) A method based on unique metadata for making direct modifications to 2d, 3d digital image formats quickly and rendering the changes on ar/vr and mixed reality platforms in real-time
US20230394701A1 (en) Information processing apparatus, information processing method, and storage medium
US11200919B2 (en) Providing a user interface for video annotation tools
US20150002516A1 (en) Choreography of animated crowds
JP2023073038A (ja) 情報処理装置、情報処理方法及びプログラム
JP2010061221A (ja) 3次元動画像再生装置及び付加情報検索方法とプログラム
Agus et al. Interactive 3D Exploration of a Virtual Sculpture Collection: an Analysis of User Behavior in Museum Settings.
WO2023145571A1 (ja) 情報処理装置、情報処理方法、データ構造及びプログラム
US20240177405A1 (en) Image processing apparatus, image processing method, and storage medium
WO2021256319A1 (ja) 情報処理装置、情報処理方法および記録媒体
KR102685040B1 (ko) 사용자 움직임 기록 기반의 영상 제작 장치 및 방법
JP2009015774A (ja) 情報処理装置及び情報処理方法
JP4070057B2 (ja) 図書情報検索空間構築・検索装置および図書情報検索空間構築・検索プログラムを記録したコンピュータ読み取り可能な記録媒体
KR20070089503A (ko) 3차원 영상 제작을 위한 전이 동작 삽입 방법
KR20070098364A (ko) 3차원 영상 데이터를 코드화하여 저장하는 장치 및 방법
KR20240098501A (ko) 사용자 움직임 기록 기반의 영상 제작 장치 및 방법