JP2022533754A - ボリュメトリック映像の符号化および復号化のための方法、装置、およびコンピュータプログラム製品 - Google Patents

ボリュメトリック映像の符号化および復号化のための方法、装置、およびコンピュータプログラム製品 Download PDF

Info

Publication number
JP2022533754A
JP2022533754A JP2021569317A JP2021569317A JP2022533754A JP 2022533754 A JP2022533754 A JP 2022533754A JP 2021569317 A JP2021569317 A JP 2021569317A JP 2021569317 A JP2021569317 A JP 2021569317A JP 2022533754 A JP2022533754 A JP 2022533754A
Authority
JP
Japan
Prior art keywords
bitstream
depth
block
patch
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021569317A
Other languages
English (en)
Other versions
JP7344988B2 (ja
Inventor
セバスチャン シュヴァルツ
キンモ ロイメラ
ミカ ペソネン
Original Assignee
ノキア テクノロジーズ オサケユイチア
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノキア テクノロジーズ オサケユイチア filed Critical ノキア テクノロジーズ オサケユイチア
Publication of JP2022533754A publication Critical patent/JP2022533754A/ja
Application granted granted Critical
Publication of JP7344988B2 publication Critical patent/JP7344988B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/06Ray-tracing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/25Image signal generators using stereoscopic image cameras using two or more image sensors with different characteristics other than in their location or field of view, e.g. having different resolutions or colour pickup characteristics; using image signals from one sensor to control the characteristics of another sensor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/56Particle system, point based geometry or rendering

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Generation (AREA)

Abstract

復号化のための方法は、映像提示に関する圧縮ビットストリームを受信することと、受信されたビットストリームから、映像フレームの3次元ブロックに関するデータを復号化することと、映像フレームのブロックごとに、表面パラメータに関する情報を決定することと、表面パラメータに従って3次元ブロックのためのバウンディングボックスを生成することと、視点からピクセルの座標への3次元ブロックのピクセルごとの光線方向を算出することと、生成されたバウンディングボックスに対する光線の交差に従って少なくとも2つの点を決定することと、決定された少なくとも2つの点の間の点を、レイキャストを終えるための条件が満たされるまでレイキャストすることと、ブロックのための1つまたは複数の表面パラメータに関する情報に従ってジオメトリ画像およびテクスチャ画像から3次元データを再構成することと、再構成された3次元データに従って映像提示をレンダリングのために再構成することと、を含む。

Description

本解決策は、概して、ボリュメトリック映像符号化に関する。特に、本解決策は点群圧縮に関する。
写真撮影術および映画撮影術の始まり以来、最も一般的な種類の画像および映像コンテンツは、比較的狭い視野を有するカメラによって取り込まれ、平面ディスプレイ上の長方形シーンとして表示されてきた。カメラは主に指向性を有し、これにより、それらは限られた視野角(それらが向けられた視野)のみを取り込む。
より最近では、新たな画像および映像取り込みデバイスが利用可能になっている。これらのデバイスはそれらの周りの全方位にわたる視覚および音声コンテンツを取り込むことができる。すなわち、それらは、時として、360度視野と称される、全視野角を取り込むことができる。より正確には、それらは球面状の視野(すなわち、全ての空間方向において360度)を取り込むことができる。さらに、ヘッドマウンテッドディスプレイなどの、新たな種類の出力技術が発明され、生産されている。これらのデバイスは、人が自分の周りの全方位にわたる視覚コンテンツを見ることを可能にし、360度カメラによって取り込まれたシーン内に「溶け込んでいる(immersed)」感覚を与える。視野が球面状である、新たな取り込みおよび表示パラダイムは、一般的に、仮想現実感(virtual reality、VR)と称され、人々が将来においてメディアコンテンツを体験することになる一般的な仕方になると考えられている。
ボリュメトリック映像のためには、1つまたは複数の3D(3次元)カメラを用いてシーンが取り込まれ得る。カメラはシーン内の異なる位置および配向にある。考慮すべき課題は、2D(2次元)映像コンテンツと比べて、ボリュメトリック3D映像コンテンツははるかにより多くのデータを有し、これにより、それを観視することは(それを記憶場所から観視デバイスへ転送することを伴うか、伴わないかに関わらず)多量の帯域幅:ディスクI/O、ネットワークトラフィック、メモリ帯域幅、GPU(Graphics Processing Unit(グラフィック処理装置))アップロードを必要とすることである。ボリュメトリックコンテンツを取り込むことも、特に、並列に用いられる複数の取り込みデバイスが存在するときには、多量のデータを生み出す。
今般、ボリュメトリック映像符号化のための改善をもたらすために、改善された方法、および本方法を実施する技術的機器が発明された。様々な態様は、独立請求項において記載されるものによって特徴付けられる、方法、装置、および内部に記憶されたコンピュータプログラムを含むコンピュータ可読媒体を含む。様々な実施形態が従属請求項において開示される。
第1の態様によれば、符号化のための方法であって、映像提示フレーム(video presentation frame)を受信することであって、映像提示が3次元データを表現する、受信することと、映像提示フレームから1つまたは複数のパッチを生成することと、映像フレームのパッチを1つまたは複数のブロックに分割することと、パッチの該1つまたは複数のブロックに関する情報に従ってパッチごとの表面パラメータを決定することと、決定された表面パラメータをビットストリームに符号化することと、符号化されたビットストリームをレンダリング装置への伝送のために記憶することと、を含む、方法が提供される。
第2の態様によれば、復号化のための方法であって、映像提示に関する圧縮ビットストリームを受信することであって、ビットストリームが少なくともジオメトリ画像およびテクスチャ画像を含む、受信することと、受信されたビットストリームから、映像フレームの1つまたは複数の3次元ブロックに関するデータを復号化することと、映像フレームのブロックごとに、1つまたは複数の表面パラメータに関する情報を決定することと、1つまたは複数の表面パラメータに従って3次元ブロックのためのバウンディングボックスを生成することと、視点からピクセルの座標への3次元ブロックのピクセルごとの光線方向を算出することと、生成されたバウンディングボックスに対する光線の交差に従って少なくとも2つの点を決定することと、決定された少なくとも2つの点の間の点を、レイキャストを終えるための条件が満たされるまでレイキャストすることと、ブロックのための1つまたは複数の表面パラメータに関する情報に従ってジオメトリ画像およびテクスチャ画像から3次元データを再構成することと、再構成された3次元データに従って映像提示をレンダリングのために再構成することと、を含む、方法が提供される。
第3の態様によれば、ビットストリームを符号化するための装置であって、映像提示フレームを受信するための手段であって、映像提示が3次元データを表現する、手段と、映像提示フレームから1つまたは複数のパッチを生成するための手段と、映像フレームのパッチを1つまたは複数のブロックに分割するための手段と、パッチの該1つまたは複数のブロックに関する情報に従ってパッチごとの表面パラメータを決定するための手段と、決定された表面パラメータをビットストリームに符号化するための手段と、符号化されたビットストリームをレンダリング装置への伝送のために記憶するための手段と、を備える、装置が提供される。
第4の態様によれば、ビットストリームを復号化するための装置であって、映像提示に関する圧縮ビットストリームを受信するための手段であって、ビットストリームが少なくともジオメトリ画像およびテクスチャ画像を含む、手段と、受信されたビットストリームから、映像フレームの1つまたは複数の3次元ブロックに関するデータを復号化するための手段と、映像フレームのブロックごとに、1つまたは複数の表面パラメータに関する情報を決定するための手段と、1つまたは複数の表面パラメータに従って3次元ブロックのためのバウンディングボックスを生成するための手段と、視点からピクセルの座標への3次元ブロックのピクセルごとの光線方向を算出するための手段と、生成されたバウンディングボックスに対する光線の交差に従って少なくとも2つの点を決定するための手段と、決定された少なくとも2つの点の間の点を、レイキャストを終えるための条件が満たされるまでレイキャストするための手段と、ブロックのための1つまたは複数の表面パラメータに関する情報に従ってジオメトリ画像およびテクスチャ画像から3次元データを再構成するための手段と、再構成された3次元データに従って映像提示をレンダリングのために再構成するための手段と、を備える、装置が提供される。
第5の態様によれば、少なくとも1つのプロセッサと、コンピュータプログラムコードを含むメモリと、を備える装置であって、メモリおよびコンピュータプログラムコードが、少なくとも1つのプロセッサを用いて、装置に、少なくとも以下のこと:映像提示フレームを受信することであって、映像提示が3次元データを表現する、受信することと、映像提示フレームから1つまたは複数のパッチを生成することと、映像フレームのパッチを1つまたは複数のブロックに分割することと、パッチの該1つまたは複数のブロックに関する情報に従ってパッチごとの表面パラメータを決定することと、決定された表面パラメータをビットストリームに符号化することと、符号化されたビットストリームをレンダリング装置への伝送のために記憶することと、を遂行させるように構成されている、装置が提供される。
第6の態様によれば、少なくとも1つのプロセッサと、コンピュータプログラムコードを含むメモリと、を備える装置であって、メモリおよびコンピュータプログラムコードが、少なくとも1つのプロセッサを用いて、装置に、少なくとも以下のこと:映像提示に関する圧縮ビットストリームを受信することであって、ビットストリームが少なくともジオメトリ画像およびテクスチャ画像を含む、受信することと、受信されたビットストリームから、映像フレームの1つまたは複数の3次元ブロックに関するデータを復号化することと、映像フレームのブロックごとに、1つまたは複数の表面パラメータに関する情報を決定することと、1つまたは複数の表面パラメータに従って3次元ブロックのためのバウンディングボックスを生成することと、視点からピクセルの座標への3次元ブロックのピクセルごとの光線方向を算出することと、生成されたバウンディングボックスに対する光線の交差に従って少なくとも2つの点を決定することと、決定された少なくとも2つの点の間の点を、レイキャストを終えるための条件が満たされるまでレイキャストすることと、ブロックのための1つまたは複数の表面パラメータに関する情報に従ってジオメトリ画像およびテクスチャ画像から3次元データを再構成することと、再構成された3次元データに従って映像提示をレンダリングのために再構成することと、を遂行させるように構成されている、装置が提供される。
第7の態様によれば、コンピュータプログラムコードを含むコンピュータプログラム製品であって、コンピュータプログラムコードが、少なくとも1つのプロセッサ上で実行されたときに、装置またはシステムに、映像提示フレームを受信することであって、映像提示が3次元データを表現する、受信することと、映像提示フレームから1つまたは複数のパッチを生成することと、映像フレームのパッチを1つまたは複数のブロックに分割することと、パッチの該1つまたは複数のブロックに関する情報に従ってパッチごとの表面パラメータを決定することと、決定された表面パラメータをビットストリームに符号化することと、符号化されたビットストリームをレンダリング装置への伝送のために記憶することと、を行わせるように構成されている、コンピュータプログラム製品が提供される。
第8の態様によれば、コンピュータプログラムコードを含むコンピュータプログラム製品であって、コンピュータプログラムコードが、少なくとも1つのプロセッサ上で実行されたときに、装置またはシステムに、映像提示に関する圧縮ビットストリームを受信することであって、ビットストリームが少なくともジオメトリ画像およびテクスチャ画像を含む、受信することと、受信されたビットストリームから、映像フレームの1つまたは複数の3次元ブロックに関するデータを復号化することと、映像フレームのブロックごとに、1つまたは複数の表面パラメータに関する情報を決定することと、1つまたは複数の表面パラメータに従って3次元ブロックのためのバウンディングボックスを生成することと、視点からピクセルの座標への3次元ブロックのピクセルごとの光線方向を算出することと、生成されたバウンディングボックスに対する光線の交差に従って少なくとも2つの点を決定することと、決定された少なくとも2つの点の間の点を、レイキャストを終えるための条件が満たされるまでレイキャストすることと、ブロックのための1つまたは複数の表面パラメータに関する情報に従ってジオメトリ画像およびテクスチャ画像から3次元データを再構成することと、再構成された3次元データに従って映像提示をレンダリングのために再構成することと、を行わせるように構成されている、コンピュータプログラム製品が提供される。
一実施形態によれば、1つまたは複数の表面パラメータに関する情報はビットストリームから復号化される。
一実施形態によれば、1つまたは複数の表面パラメータに関する情報は様々な深度レイヤ(depth layer)のピクセルから決定される。
一実施形態によれば、レイキャストを終えるための条件は、ピクセルの位置上の両方の深度レイヤのための深度値を決定することによって、視光線からの深度値を算出することによって、および視光線からの深度値を、決定された深度値と比較することによって決定される。
一実施形態によれば、レイキャストを終えるための条件は、深度差値およびピクセル座標から形成された別のバウンディングボックスから決定される。
一実施形態によれば、表面パラメータはパッチの深度または深度差である。
一実施形態によれば、表面パラメータは、深度差から決定されたレンダリング厚さ(rendering thickness)パラメータである。
一実施形態によれば、少なくとも2つの点が光線方向に基づいて決定され、2次元座標における該2つの点の間のあらゆるピクセルをレイキャストする。
一実施形態によれば、上記の2つの点の間の2次元ピクセルごとに第1および第2の深度レイヤのための深度値が得られる。
一実施形態によれば、点群コンテンツ(point cloud content)と光線との間の交差が存在するかどうかが決定される。
一実施形態によれば、レンダリング厚さパラメータは補足強化情報(supplemental enhancement information、SEI)メッセージに符号化されるか、またはそれから復号化される。
一実施形態によれば、レンダリングパラメータはブロックごとに符号化/復号化される。
一実施形態によれば、レンダリングパラメータは占有マップ(occupancy map)に符号化されるか、またはそれから復号化される。
一実施形態によれば、深度レイヤの間の色補間がビットストリームに符号化されるか、またはそれから復号化される。
一実施形態によれば、コンピュータプログラム製品は非一時的コンピュータ可読媒体上に組み込まれている。
以下において、添付の図面を参照して様々な実施形態がより詳細に説明される。
圧縮プロセスの一例を示す図である。 レイヤ投影構造の一例を示す図である。 復元プロセスの一例を示す図である。 フレーム内のパッチの一例を示す図である。 3Dにおけるブロックの一例を示す図である。 2Dにおけるブロックの一例を示す図である。 可能性のあるレンダリング表面厚さ値を有する復号化された信号の一例を示す図である。 一実施形態に係る方法を示すフローチャートである。 別の実施形態に係る方法を示すフローチャートである。 一実施形態に係るシステムを示す図である。 一実施形態に係る符号化プロセスを示す図である。 一実施形態に係る復号化プロセスを示す図である。
以下において、いくつかの実施形態がデジタルボリュメトリック映像との関連で説明される。特に、いくつかの実施形態はデジタルボリュメトリック映像素材の符号化および復号化を可能にする。本実施形態は、例えば、MPEG映像ベースの点群符号化(Video-Based Point Cloud Coding、V-PCC)において適用可能である。
ボリュメトリック映像は、1つまたは複数の3次元(3D)カメラを用いて取り込まれ得る。複数のカメラが用いられているときには、取り込まれた映像場面は、カメラが同じ世界に対する異なる視点を提供するよう、同期される。伝統的な2次元/3次元(2D/3D)映像とは対照的に、ボリュメトリック映像は、観視者が自由に動いて世界の異なる部分を観察できる世界の3Dモデルを記述する。
ボリュメトリック映像は、観視者が6自由度(degree of freedom、DOF)で動くことを可能にする。ユーザが2~3自由度(ヨー、ピッチ、および場合によっては、ロール)を有する、一般的な360°映像とは対照的に、ボリュメトリック映像は、平坦な画像平面ではなく、形状の3Dボリュームを表現する。ボリュメトリック映像フレームは、それらが、単なる2D平面の代わりに、3Dボリュームのコンテンツをモデル化するため、大量のデータを包含する。しかし、ボリュームの比較的小さい部分のみが経時的に変化する。したがって、初期状態、およびフレーム間で生じ得る変化に関する情報のみを符号化することによって、総データ量を低減することが可能になり得る。ボリュメトリック映像は、例えば、合成3Dアニメーションからレンダリングするか、ストラクチャフロムモーション(structure from motion)などの3D再構成技法を用いて多視点映像から再構成するか、あるいはカメラ、およびLiDARなどの深度センサの組み合わせを用いて取り込むことができる。
ボリュメトリック映像データは3次元シーンまたはオブジェクトを表現し、拡張現実感(augmented reality、AR)、仮想現実感(VR)、および複合現実感(mixed reality、MR)適用物のための入力として用いることができる。このようなデータは、ジオメトリ(3D空間における形状、サイズ、位置)、およびそれぞれの属性(例えば、色、不透明度、反射率、…)を記述する。加えて、ボリュメトリック映像データは所与の時間インスタンス(2D映像におけるフレームなど)におけるジオメトリおよび属性の任意の可能な時間変化を規定することができる。ボリュメトリック映像は、3Dモデル、すなわち、コンピュータ生成イマジナリ(computer-generated imaginary、CGI)から生成するか、あるいは種々の取り込みソリューション、例えば、マルチカメラ、レーザ走査、映像および専用深度センサの組み合わせ、およびその他のものを用いて現実世界シーンから取り込むことができる。また、CGIおよび現実世界データの組み合わせも可能である。このようなボリュメトリックデータのための表現形式の例は、三角形メッシュ、点群、またはボクセルを含む。シーンに関する時間情報は、2D映像における個々の取り込みインスタンス、すなわち、「フレーム」、または他の手段、例えば、時間の関数としてのオブジェクトの位置の形で含まれ得る。
ボリュメトリック映像は3Dシーン(またはオブジェクト)を記述するため、このようなデータは任意の視点から観視することができる。したがって、ボリュメトリック映像は、特に、6DOF観視能力を提供するための、任意のAR、VR、またはMR適用物のための重要な形式である。
増大する計算リソース、および3Dデータ獲得デバイスにおける進歩は、自然のシーンの非常に詳細なボリュメトリック映像表現の再構成を可能にした。赤外線、レーザ、飛行時間および構造化光が、3D映像データを構築するために用いることができるデバイスの例である。3Dデータの表現は、3Dデータがどのように用いられるのかに依存する。ボリュメトリック医療データを表現するには、密ボクセル(Dense Voxel)アレイが用いられてきた。3Dグラフィックスでは、多角形メッシュが広範に用いられている。他方で、トポロジが必ずしも2D多様体であるとは限らない現実世界の3Dシーンの取り込みなどの適用物には、点群がよく適している。3Dデータを表現する別の仕方は、3Dデータを、多視点プラス深度(multi-view plus depth)の場合と同様に、テクスチャおよび深度マップのセットとして符号化することである。多視点プラス深度において用いられる技法に密接に関連しているのは、高度マップ、およびマルチレベル表面マップ(multi-level surface map)の使用である。
3D点群において、各3D表面の各点は、色、および/または面法線もしくは材料反射率などの他の属性情報を有する3D点として記述される。点群は、座標系における、例えば、X、Y、およびZ座標によって定義される3次元座標系におけるデータ点(すなわち、位置)のセットである。点は、スクリーン空間における、例えば、3D空間におけるオブジェクトの外面を表現し得る。点は属性のベクトルに関連付けられ得る。点群は、オブジェクトまたはシーンを点の合成物として再構成するために用いることができる。点群は、複数のカメラおよび深度センサを用いることによって取り込むことができる。動的点群は一連の静的点群であり、各静的点群はそれ自体で「点群フレーム」である。
密点群(dense point clouds)またはボクセルアレイ内において、再構成された3Dシーンは、数千万個、またはさらには、数億個の点を包含し得る。このような表現が記憶されるか、またはエンティティの間で交換されることになる場合には、このとき、効率的な圧縮が必要とされる。点群、メッシュ、ボクセルなどの、ボリュメトリック映像表現形式は十分な時間的圧縮性能を有しない。3D空間における動き補償のための対応関係を識別することは、ジオメトリおよびそれぞれの属性がどちらも変化し得るため、不良定義問題になる。例えば、時間的に連続した点群フレームが必ずしも同数のメッシュ、点、またはボクセルを有するとは限らない。したがって、動的3Dシーンの圧縮は非効率的である。2D映像に基づくボリュメトリックデータ、すなわち、多視点および深度を圧縮するためのアプローチは、より良好な圧縮効率を有するが、シーン全体を網羅することはまれである。したがって、それらは限定的な6DOF能力をもたらすのみである。
上述のアプローチの代わりに、メッシュ、点、および/またはボクセルとして表現された3Dシーンが1つまたは複数のジオメトリ上に投影され得る。これらのジオメトリを2D平面(1つのジオメトリ当たり2つの平面:1つはテクスチャのためのもの、1つは深度のためのもの)上に「広げる(unfolded)」ことができ、これが、次に、標準的な2D映像圧縮技術を用いて符号化され得る。関連投影ジオメトリ情報が、符号化された映像ファイルと一緒に復号器へ伝送され得る。復号器は映像を復号化し、逆投影を遂行し、3Dシーンを任意の所望の表現形式(必ずしも開始時の形式とは限らない)で再生成し得る。
ボリュメトリックモデルを2D平面上に投影することは、高効率の時間的圧縮を用いる標準的な2D映像符号化ツールを用いることを可能にする。それゆえ、符号化効率が大きく増大する。周知の2D映像ベースのアプローチ、すなわち、多視点および深度の代わりに、ジオメトリ投影を用いることは、シーン(またはオブジェクト)のより良好なカバレッジをもたらす。それゆえ、6DOF能力が改善される。個々のオブジェクトのためにいくつかのジオメトリを用いることはシーンのカバレッジをさらに改善する。さらに、標準的な映像符号化ハードウェアを投影面のリアルタイムの圧縮/復元のために利用することができる。投影および逆投影ステップは複雑性の低いものである。
圧縮プロセスの概要が次に簡単に説明される。このようなプロセスは、例えば、V-PCCにおいて適用され得る。符号化段階において、入力点群フレームは以下の仕方で処理される:まず、ボリュメトリック3Dデータが、異なる構成要素における3D投影のセットとして表現され得る。分離段階において、画像が、ジオメトリのための遠方および近方成分ならびに対応する属性成分に分解され、加えて、占有マップ2D画像が、用いられることになる画像の部分を指示するために作成され得る。2D投影は、入力点群フレームのジオメトリ特性に基づく独立したパッチで構成される。パッチが生成され、映像符号化のための2Dフレームが作成された後に、占有マップ、ジオメトリ情報、および補助情報が圧縮され得る。プロセスの最後に、別個のビットストリームが出力圧縮バイナリファイルに多重化される。
図1は符号化プロセスをより詳細な様態で示す。
プロセスは、パッチ生成102、ジオメトリ画像生成104、およびテクスチャ画像生成105のために提供される点群フレーム101を表現する入力フレームから開始する。各点群フレーム101は、固有の座標および属性を有する3Dボリュメトリック空間内の点のデータセットを表現する。
パッチ生成102のプロセスは、最良の圧縮をもたらす方略を用いて3Dサンプルを所与の投影平面上の2Dサンプルに変換することによって、点群フレーム101を分解する。一例によれば、パッチ生成102のプロセスは、点群フレーム101を、滑らかな境界を有する最小限の数のパッチに分解し、その一方で、再構成誤差も最小限に抑えることを目指す。
パッチ生成102の初期段階において、各点ごとの法線が推定される。接平面およびその対応する法線は、点ごとに、既定の探索距離以内の該点の最近傍点mに基づいて定義される。k次元木が、データを分離し、点piの付近の近傍を見いだすために用いられてもよく、点のそのセットの重心
Figure 2022533754000002
が、法線を定義するために用いられる。重心cは次式のように計算され得る:
Figure 2022533754000003
法線は、定義された点群のための固有分解から次式のように推定される:
Figure 2022533754000004
この情報に基づいて、各点は、点群バウンディングボックスの対応する平面に関連付けられる。各平面は、以下の値を有する対応する法線
Figure 2022533754000005
によって定義される:
- (1.0,0.0,0.0)、
- (0.0,1.0,0.0)、
- (0.0,0.0,1.0)、
- (-1.0,0.0,0.0)、
- (0.0,-1.0,0.0)、
- (0.0,0.0,-1.0)
より正確には、各点は、最も近い法線を有する(すなわち、点法線
Figure 2022533754000006
と面法線
Figure 2022533754000007
とのドット積を最大化する)平面に関連付けられ得る。
Figure 2022533754000008
法線の符号は、「中心」との関係で点の位置に依存して定義される。
初期クラスタ化は、その後、各点に関連付けられたクラスタインデックスを、その法線、およびその最近傍点のクラスタインデックスに基づいて反復的に更新することによって、洗練され得る。パッチ生成102の最終ステップは、連結成分抽出手順(connected component extraction procedure)を適用することによってパッチを抽出することを含み得る。
入力点群フレーム101のためにパッチ生成102において決定されたパッチ情報は、パッチパッキング(patch packing)103へ、ジオメトリ画像生成104へ、テクスチャ画像生成105へ、属性平滑化(3D)109へ、および補助パッチ情報圧縮113へ送られる。パッチパッキング103は、生成されたパッチを適切に考慮することによって、ならびに各パッチに対応するジオメトリおよびテクスチャデータをサイズWxHの2D格子上に効率的に配置することを試みることによって、ジオメトリおよびテクスチャマップを生成することを目指す。このような配置はまた、この2D格子上に配置されたときの別個のパッチの間の最小距離を指定する、ユーザ定義の最小サイズブロックTxT(例えば、16x16)も考慮する。パラメータTはビットストリーム内に符号化され、復号器へ送信され得る。
パッキングプロセス103は、パッチをWxH格子内に挿入することを反復的に試み得る。WおよびHは、符号化されることになるジオメトリ/テクスチャ画像の解像度に対応する、ユーザ定義パラメータである。パッチの場所は、ラスタ走査順序で遂行され得る全数探索を通じて決定され得る。最初に、パッチが、重なりのない挿入を保証するであろう仕方で2D格子上に配置される。(Tの倍数である値に丸められた)パッチに属するサンプルは、占有されたブロックとして考慮される。加えて、隣接したパッチ間のセーフガード(safeguard)が、Tの倍数である少なくとも1つのブロックの距離に強制される。パッチは、パッチインデックスリストに基づいて、順序に従って処理される。リストからの各パッチは格子上に反復的に配置される。格子解像度は元の点群サイズに依存し、その幅(W)および高さ(H)が復号器へ伝送される。次のパッチのために利用可能な空き空間が存在しない場合には、格子の高さ値が最初に2倍にされ、このパッチの挿入が再び評価される。全てのパッチの挿入が成功した場合には、このとき、高さは必要最小限の値に切り落とされる。しかし、この値は、符号器において元々指定された値よりも低く設定されることを許されない。WおよびHのための最終値は、適切な映像コーデックを用いてテクスチャおよびジオメトリ映像信号を符号化するために用いられるフレーム解像度に対応する。
ジオメトリ画像生成104およびテクスチャ画像生成105は、ジオメトリ画像およびテクスチャ画像を生成するように構成されている。画像生成プロセスは、点群のジオメトリおよびテクスチャを画像として記憶するためにパッキングプロセスの間に計算された3D-2Dマッピングを利用し得る。複数の点が同じピクセルに投影される場合をよりうまく扱うために、各パッチは、レイヤと称される、2つの画像上に投影され得る。例えば、H(u,y)を、同じピクセル(u,v)に投影された現在のパッチの点のセットとする。図2はレイヤ投影構造の一例を示す。近方レイヤ(near layer)とも呼ばれる、第1のレイヤは、最も低い深度D0を有するH(u,v)の点を記憶する。遠方レイヤ(far layer)と称される、第2のレイヤは、間隔[D0,D0+Δ]内の最も高い深度を有するH(u,v)の点を取り込む。ここで、Δは、表面厚さを記述するユーザ定義パラメータである。生成された映像は以下の特性を有し得る:
● ジオメトリ:WxH YUV420-8bit、
● テクスチャ:WxH YUV420-8bit、
ジオメトリ映像は単色であることに留意されたい。加えて、テクスチャ生成手順は、再サンプリングされた点に関連付けられるべき色を計算するために、再構成/平滑化されたジオメトリを利用する。
連結成分内の異なる表面の混合を防止するために、その連結成分内に複数の異なる表面のスタックが存在するときには、表面分離方法が適用される。表面を分離するための方法のうちの1つは、RGB色領域内の点のMSE値の差を用いることである:
次の場合には、パッチが分離される。
MSE(R1-R2,G1-G2,B1-B2)>閾値;
閾値=20
ここで、R1、G1、B1は、T0に属する属性値であり、R2、G2、B2は、T1に属する属性値である。
ジオメトリ画像およびテクスチャ画像は画像パディング(image padding)107に提供され得る。画像パディング107はまた、ジオメトリ画像およびテクスチャ画像と共に用いられるべき占有マップ(occupancy map、OM)106も入力として受信し得る。占有マップ106は、格子のセルごとに、それが空き空間に属するのか、それとも点群に属するのかを指示するバイナリマップを含み得る。換言すれば、占有マップ(OM)は、占有されたピクセルおよび占有されていないピクセルが区別され、それぞれ示される、バイナリ値のバイナリ画像であり得る。占有マップは、代替的に、追加の情報がそれに記憶されることを可能にする非バイナリ画像を含み得る。したがって、DOMの表現値はバイナリ値または他の値、例えば、整数値を含み得る。2D格子の1つのセルは画像生成プロセスの間にピクセルを生成し得ることに留意されたい。
パディングプロセス107は、映像圧縮に適した区分的に滑らかな画像を生成するために、パッチ間の空き空間を充填することを目指す。例えば、単純なパディング方略では、TxT(例えば、16x16)ピクセルの各ブロックが独立して圧縮される。ブロックが空いている(すなわち、占有されていない、すなわち、全てのそのピクセルが空き空間に属する)場合には、このとき、ブロックのピクセルは、ラスタ順序で以前のTxTブロックの最後の行または列のどちらかを複製することによって充填される。ブロックが満杯である(すなわち、占有されている、すなわち、空のピクセルがない)場合には、何も行われない。ブロックが、空のピクセルおよび充填されたピクセルの両方を有する場合には(すなわち、エッジブロック)、このとき、空のピクセルは、それらの空でない近傍点の平均値を反復的に充填される。
パディングされたジオメトリ画像およびパディングされたテクスチャ画像は映像圧縮108のために提供され得る。生成された画像/レイヤは映像フレームとして記憶され、例えば、高効率映像符号化(High Efficiency Video Coding、HEVC)テストモデル16(HM)映像コーデックを用いて、パラメータとして提供されたHM構成に従って圧縮され得る。映像圧縮108はまた、平滑化109のために提供されるべき再構成されたジオメトリ画像も生成し、平滑化されたジオメトリが、再構成されたジオメトリ画像、およびパッチ生成102からのパッチ情報に基づいて決定される。平滑化されたジオメトリは、テクスチャ画像を適応させるためにテクスチャ画像生成105に提供され得る。
パッチは、メタデータとしてパッチごとに符号化/復号化された補助情報に関連付けられ得る。補助情報は、投影平面のインデックス、2Dバウンディングボックス、深度δ0、接線シフト(tangential shift)s0、および複接線シフト(bitangential shift)r0を用いて表現されたパッチの3D位置を含み得る。
以下のメタデータがあらゆるパッチのために符号化/復号化され得る:
● 投影平面のインデックス
○ 平面(1.0,0.0,0.0)および(-1.0,0.0,0.0)のためのインデックス0
○ 平面(0.0,1.0,0.0)および(0.0,-1.0,0.0)のためのインデックス1
○ 平面(0.0,0.0,1.0)および(0.0,0.0,-1.0)のためのインデックス2。
● 2Dバウンディングボックス(u0,v0,u1,v1)
● 深度δ0、接線シフトs0、および複接線シフトr0を用いて表現されたパッチの3D位置(x0,y0,z0)。選定された投影平面に応じて、(δ0、s0、r0)は以下のように計算される:
○ インデックス0、δ0=x0、s0=z0、およびr0=y0
○ インデックス1、δ0=y0、s0=z0、およびr0=x0
○ インデックス2、δ0=z0、s0=x0、およびr0=y0
また、TxTブロックごとに、その関連パッチインデックスを提供するマッピング情報が以下のように符号化され得る:
● TxTブロックごとに、Lを、パッチのインデックスの順序付けられたリストとし、これにより、それらの2Dバウンディングボックスがそのブロックを包含するようにする。リスト内の順序は、2Dバウンディングボックスを符号化するために用いられる順序と同じである。Lは候補パッチのリストと呼ばれる。
● パッチ間の空き空間はパッチとして考慮され、全てのブロックの候補パッチリストに追加される、特別インデックス0を付与される。
● Iを、現在のTxTブロックが属するパッチのインデックスとし、Jを、L内のIの位置とする。インデックスIを明示的に符号化する代わりに、その位置Jが代わりに算術的に符号化され、これはより優れた圧縮効率をもたらす。
圧縮プロセスは以下の例示的な動作のうちの1つまたは複数を含み得る:
● バイナリ値が、同じTxTブロックに属するB0xB0サブブロックに関連付けられ得る。それが少なくとも、パディングされていないピクセルを包含する場合には、値1がサブブロックに関連付けられ、さもなければ、0が関連付けられる。サブブロックが1の値を有する場合には、それは、満杯であると言われ、さもなければ、それは空きサブブロックである。
● TxTブロックの全てのサブブロックが満杯である(すなわち、値1を有する)場合。ブロックは、満杯であると言われる。さもなければ、ブロックは、非満杯であると言われる。
● TxTブロックごとに、それが満杯であるか否かを指示するためのバイナリ情報が符号化され得る。
● ブロックが非満杯である場合には、満杯/空きサブブロックの場所を指示する追加情報が以下のように符号化され得る:
○ 異なる走査順序が、サブブロックのために、例えば、右上または左上の角部から出発して、水平に、鉛直に、または対角線的に定義され得る
○ 符号器が走査順序のうちの1つを選定し、そのインデックスをビットストリームに含めて明示的に信号で通知し得る。
○ サブブロックに関連付けられたバイナリ値が、ランレングス符号化方略を用いることによって符号化され得る。
・ 初期サブブロックのバイナリ値が符号化される。
・ 符号器によって選択された走査順序を追う間に、0および1の連続ラン(continuous run)が検出される。
・ 検出されたランの数が符号化される。
・ 最後のものを除く、各ランの長さも符号化される。
占有マップ符号化(非可逆条件)において、解像度(幅/B0)x(高さ/B1)の2次元バイナリ画像。ここで、幅および高さは、圧縮されることが意図されたジオメトリおよびテクスチャ画像の幅および高さである。1と等しいサンプルは、ジオメトリおよびテクスチャ画像内の対応する/共通の位置にあるサンプルまたは複数のサンプルが、復号化する際に点群の点として考慮されるべきであることを意味し、その一方で、0と等しいサンプルは無視されるべきである(一般的にパディング情報を含む)。占有マップの解像度はジオメトリおよびテクスチャ画像のものと同じでなくてもよく、代わりに、占有マップはB0xB1ブロックの精度で符号化され得るであろう。可逆符号化を達成するために、B0およびB1は、1と等しくなるように選択される。実際面では、B0=B1=2またはB0=B1=4が、占有マップを符号化するために必要とされるビット数を大幅に低減しつつ、視覚的に許容可能な結果をもたらすことができる。生成されたバイナリ画像は単一の色平面のみをカバーする。しかし、4:2:0コーデックの普及を前提とすると、「中間(neutral)」または固定値クロマ平面を用いて画像を拡張することが望ましくなり得る(例えば、8ビットコーデックの使用を仮定して、全てのサンプル値が0または128と等しいクロマ平面を追加する)。
得られた映像フレームは、可逆符号化ツールサポート(例えば、AVC、HEVC RExt、HEVC-SCC)を有する映像コーデックを用いることによって圧縮され得る。
占有マップは、占有マップ内の解像度TxTの空きおよび非空きブロックを検出することによって単純化されてもよく、非空きブロックのためにのみ、我々はそれらのパッチインデックスを以下のように符号化する:
○ TxTブロックごとに、そのブロックを包含する全てのパッチを考慮することによって、候補パッチのリストが作成される。
○ 候補のリストがパッチの逆順に並べ替えられる。
○ ブロックごとに、
1.候補のリストが1つのインデックスを有する場合には、このとき、何も符号化されない。
2.さもなければ、このリスト内のパッチのインデックスが算術的に符号化される。
点群ジオメトリ再構成プロセスは、ジオメトリ/テクスチャ画像/レイヤ内の非空きピクセルを検出するために、占有マップ情報を利用する。それらのピクセルに関連付けられた点の3D位置は、補助パッチ情報およびジオメトリ画像を活用するによって計算される。より正確には、Pを、ピクセル(u,v)に関連付けられた点とし、(δ0,s0,r0)を、それが属するパッチの3D位置とし、(u0,v0,u1,v1)をその2Dバウンディングボックスとする。Pは、深度δ(u,v)、接線シフトs(u,v)、および複接線シフトr(u,v)を用いて以下のように表すことができるであろう:
δ(u,v)=δ0+g(u,v)
s(u,v)=s0-u0+u
r(u,v)=r0-v0+v
ここで、g(u,v)はジオメトリ画像のルマ成分である。
属性平滑化手順109は、圧縮アーチファクトのゆえにパッチ境界において生じ得る潜在的な不連続を軽減することを目指す。本実施のアプローチは境界点をそれらの最近傍点の質量中心へ移動させる。
マルチプレクサ112が、映像圧縮108からの圧縮ジオメトリ映像および圧縮テクスチャ映像、ならびに任意選択的に、補助パッチ情報圧縮111からの圧縮補助パッチ情報を受信し得る。マルチプレクサ112は、受信されたデータを用いて圧縮ビットストリームを生成する。
図3はMPEG点群符号化(PCC)のための復元プロセスの概要を示す。デマルチプレクサ201が圧縮ビットストリームを受信し、多重分離後に、圧縮テクスチャ映像および圧縮ジオメトリ映像を映像復元202に提供する。加えて、デマルチプレクサ201は圧縮占有マップを占有マップ復元203へ伝送する。それはまた、圧縮補助パッチ情報を補助パッチ情報圧縮204へ伝送し得る。映像復元202からの復元ジオメトリ映像は、復元占有マップおよび復元補助パッチ情報と同様に、ジオメトリ再構成205へ送られる。点群ジオメトリ再構成205のプロセスは、ジオメトリ/テクスチャ画像/レイヤ内の非空きピクセルを検出するために、占有マップ情報を利用する。それらのピクセルに関連付けられた点の3D位置は、補助パッチ情報およびジオメトリ画像を活用することによって計算され得る。
再構成されたジオメトリ画像は、圧縮アーチファクトのゆえにパッチ境界において生じ得る潜在的な不連続を軽減することを目指す、平滑化206のために提供され得る。本実施のアプローチは境界点をそれらの最近傍点の質量中心へ移動させる。平滑化されたジオメトリは、映像復元202からの復元テクスチャ映像も受信する、テクスチャ再構成207へ伝送され得る。テクスチャ再構成のためのテクスチャ値はテクスチャ画像から直接読み取られる。テクスチャ再構成207は、再構成された点群を、再構成された点群をさらに提供する、色平滑化208のために出力する。
占有情報の符号化を、ジオメトリ画像を用いて遂行することができる。特定の深度値、例えば、0、または特定の深度値範囲が、ピクセルが修復され(inpainted)、原素材内に存在しないことを指示するために確保され得る。特定の深度値または特定の深度値範囲は、例えば、規格において、あらかじめ定められ得るか、あるいは特定の深度値または特定の深度値範囲はビットストリーム内に、もしくはそれと平行に符号化され得、および/またはビットストリームから、もしくはそれと平行に復号化され得る。占有情報を深度サンプルアレイ内に多重化するこの仕方はシャープエッジを画像内に生み出し、これは、追加のビットレート、およびシャープエッジの周りの圧縮アーチファクトを被り得る。
時間的に変化するボリュメトリックシーン/オブジェクトを圧縮する1つの仕方は、3D表面をいくらかの数の既定の2D平面上に投影することである。次に、通常の2D映像圧縮アルゴリズムを用いて、投影された表面の様々な態様を圧縮することができる。例えば、空間およびテクスチャ座標を有する時間的に変化する3D点群を、一連の、平面の少なくとも2つのセットに対応付けることができ、2つのセットのうちの一方はテクスチャデータを搬送し、他方は、投影平面からの、対応付けられた3D表面点の距離を搬送する。
受信側における正確な2D-3D再構成のために、復号器は、どの2D点が「有効(valid)」であるのか、およびどの点が補間/パディングに由来するのかを承知していなければならない。これは追加のデータの伝送を必要とする。追加のデータはジオメトリ画像内に既定の深度値(例えば、0)または既定の範囲の深度値としてカプセル化されてもよい。ジオメトリ画像はぼかされない/パディングされないため、これはテクスチャ画像上においてのみ符号化効率を増大させることになる。さらに、ジオメトリ画像のオブジェクト境界におけるアーチファクトを符号化することは、後処理を必要とし、隠蔽不可能になり得る、激しいアーチファクトを生み出し得る。
単純なV-PCC復号器の実装形態は、現在のところ、全ての復号化および再構成されたデータを点としてレンダリングするように構成されている。しかし、現在のところ、モバイルデバイスは、何百万個もの点をレンダリングするようには設計されていない。ゲームおよび同様のアプリケーションは三角形をレンダリングプリミティブとして用いるため、レンダリングプリミティブのような点はモバイルグラフィック処理装置(GPU)のための最適化ではない。点が近傍の点と重なり合う場合があるため、レンダリング密点群の品質が視覚アーチファクトを被る場合もある。これは、点群コンテンツが至近距離から見られたときに、不快な視覚品質をもたらし得る。最適には、各点を、より良好な視覚品質をもたらすであろう立方体を用いてレンダリングすることができるであろう。しかし、このような場合には、各立方体は12個の三角形から成ることになるであろう。これは、2つの三角形(クワッド)を有するレンダリング点よりも6倍複雑であり、したがって、電池の制約があるモバイルデバイス上では決して実用的でないことが認識される。
本実施形態は、高速で高品質のレンダリングパイプラインを導入することによる点群のレンダリング性能および視覚品質に狙いを定められている。本実施形態は、符号化のための方法、および対応する装置を用いたレンダリングのための方法を提供する。
一実施形態に係る、符号化のための方法では、ボリュメトリック映像フレームが入力として受信され、ボリュメトリック映像フレームは3Dサンプルのセットとして表現される。パッチ生成プロセス(図1;102)が各3Dサンプルを、異なる投影に関連するいくつかの2Dサンプルに変換する。パッチパッキング(図1;103)において、生成されたパッチに基づいてジオメトリおよびテクスチャ画像(図1;104、105)が生成される。各パッチは2つの画像、すなわち、2つのレイヤ上にさらに投影される。第1のレイヤは「近方レイヤ」、または深度0レイヤと呼ばれ、第2のレイヤは「遠方レイヤ」、または深度1レイヤと呼ばれる。第1のレイヤはパッチの点のセットの最も低い深度値を記憶し、第2のレイヤはパッチの点のセットの最も高い深度値を記憶する。それゆえ、フレームは、ジオメトリおよび対応する属性成分のための遠方および近方成分に分解される。加えて、占有マップ(図1;106)が、フレームの占有された部分および占有されていない部分を指示するために作成される。
符号器はパッチごとの表面パラメータを決定する。例えば、表面パラメータは、符号器によってパッチ深度差から算出される、「レンダリング厚さ」パラメータであることができる。符号器は深度フレームを符号化し、復号器によって用いられる復号化された深度値を見いだすためにそれらを復号化する。符号器は深度0および深度1レイヤからの元の最大深度値を用い、復号化された深度最小値を深度0および深度1レイヤから減算する。この値は元の深度値と復号化された深度値との最大深度差であり、レンダリング厚さパラメータは所与のパッチのための全てのピクセルについての最大差の値である。符号器は、所与のパッチのための全てのピクセルについての厚さ値の間に大きな分散が存在するかどうかを検出することができる。符号器は、厚さ値の間に大きな分散が存在するかどうかを検出することができ、高い分散を有するパッチについては、パッチをより小さいものに分割することができる。
上述のレンダリング厚さなどの、事前に算出された表面パラメータが符号化ビットストリーム内に記憶される。パラメータは、パッチごとに、レイヤごとに、または単一のレイヤのために提供された、レンダリング厚さパラメータによって信号で通知され得る。
レンダリング厚さパラメータ(8ビット)は、符号化ビットストリームに含めて、または追加のSEIメッセージを用いて信号で通知され得る。代わりに、レンダリング厚さパラメータは、より正確な厚さパラメータを与える、ブロック(例えば、16x16)レベルごとに信号で通知されてもよい。レンダリング厚さパラメータはまた、SEIメッセージに含めて信号で通知する代わりに、占有マップ内に記憶されてもよい。占有マップ値0は、ピクセルが占有されていないことを意味し、任意の他の値は厚さ値を直接レンダリングしている。代替的に、0は、占有されていないことを意味し、1は深度0と深度1との間の充填値を意味し、値2以上は実際のレンダリング厚さを与える。これは小さいレンダリング厚さ値を最適化し、より良好な圧縮を与えることになる。符号器はまた、隣接した厚さ値をフィルタリングすることもできる。例えば、厚さ値が3、2、3、3である場合には、符号器は、全ての値を3にすると決定することができる。
また、パッチのうちの一部はピクセルごとのレンダリング厚さ値を用い得、他のパッチはパッチごとの値を用い得ることも可能である。パッチごとの値またはピクセルごとの占有マップ値を用いるための、パッチごとに追加の1ビットの信号が存在することができる。なおさらなる代替例として、レンダリング厚さは、レイヤごとに、または単一のレイヤのためにのみ別個に信号で通知することができる。
別の実施形態によれば、レイヤ間の色補間を、同様に、または代わりに、ビットストリームに含めて信号で通知することができる。モード0はレイヤ0および1の間で色を補間しないが、モード1はレイヤの間で色を補間することができる。
別の実施形態によれば、元の深度0および復号化された深度0との差が算出され、差(デルタ)が占有マップに符号化される。符号化された深度0値は非可逆であり、占有マップに符号化されたデルタ値は可逆であるため、これは可逆の深度0座標を可能にする。
点群のレンダリングのための方法は以下のステップを含むことができる:
本方法は、以前の実施形態に従って符号化された、ビットストリームを受信することによって開始する。ビットストリームは少なくともジオメトリ画像およびテクスチャ画像を含む。本方法は、ビットストリームから、対応するパッチを復号化することを含む。図4は、パッチ420を含むフレーム410の一例を示す。復号化されたパッチ420は、例えば、16x16ピクセルのサイズを有するブロック425に分割される。ブロック425ごとに、深度最小および深度最大が決定される。第1の代替例によれば、深度最小および深度最大は深度レイヤ0および深度レイヤ1のピクセルからリアルタイムに算出される。第2の代替例によれば、深度最小および深度最大値は、それらが符号器によって記憶されたパッチメタデータから復号化され得る。
決定された深度最小および深度最大値は、パッチのコンテンツが投影される、ブロックのための、すなわち、ピクセルのブロック全体のための3Dバウンディングボックス(AABB)(「第1のバウンディングボックス」とも称される)を形成するために用いられることになる。任意選択的に、この局面において、形成されたバウンディングボックスを視錐台に対してチェックすることができ、可視でない場合には、カリングして除去することができる。ピクセルのブロックによって形成された点群データが可視である場合には、ブロックはフレームバッファに3次元立方体(12個の三角形)として描画され得る。図5は、3Dのブロック525を含む、フレーム510を示し、ブロック525は、レンダリングされたピクセル530を含む。
第2の局面において、3Dブロック525の各ピクセル530がフレームバッファにレンダリングされる。ピクセル530ごとに、ユーザの視点から3Dにおけるピクセルへの座標への光線の方向が算出され得る。視点は観視デバイスの頭部配向検出器(head-orientation detector)によって検出され得る。光線に基づいて、「入口点」および「出口点」が、ブロックの生成された3次元バウンディングボックス(AABB)に対する光線の交差に従って決定される。
図6は2Dにおけるパッチのブロック625を示す。ブロック625内で、光線は640を用いて指示される。図6において、入口点は641を用いて指示され、出口点は645を用いて指示される。これらの2つの点641、645は、どの3D座標において光線がバウンディングボックス(AABB)に入ることになるのか、および光線がバウンディングボックス(AABB)を出る3D座標の点を決定することになる。これらの2つの点641、645はブロック625内の2D座標に対応する。これらの2D座標の間において、「入口点」641と「出口点」645との間で光線によって交差されるあらゆるピクセル650が、「入口点」641から開始する順序で訪問されるよう、レイキャストが行われる。これらのピクセルは、650を用いて指示されとおりのパターン充填を用いて示される。レイキャスト(「レイマーチング」または「レイトレーシング」としても知られる)では、入口点641と出口点645との間の各ピクセルが、深度値を得るために評価される。
レイキャストは、点群に対する光線の交差または「出口点」に到達するまで、視光線に沿ってピクセルからピクセルへと継続される。交差を決定するために、深度レイヤ0および深度レイヤ1の両方のための深度値が2Dブロックピクセルごとに取り出される。レイキャストのステップごとに、光線からの深度値も算出される。ここで、光線からの深度値が深度レイヤ0と深度レイヤ1との間にある場合には、それは点群コンテンツと光線との交差として決定される。この交差はまた、深度差値(深度0-深度1)および処理されているピクセルの2D座標から別のバウンディングボックス(AABB)(「第2のバウンディングボックス」とも称される)を形成することによって、より正確に算出することもできる。第2のバウンディングボックスは、単一のピクセルによって表現される点位置のスパンのためのものである。第2のバウンディングボックスのサイズは、1x1x(深度1-深度0+厚さ)、すなわち、その1つのピクセル内に投影された表面の深度を有する単一のピクセルのサイズであり得る。深度差はレンダリング表面厚さパラメータによって拡大することができる。
交差が決定されない場合には、プロセスは次の2Dピクセルを用いて継続される。
交差に到達した後に、交差深度値はGPUによって、深度バッファ内に書き込まれた深度値と比較されることになる。交差が観視者に対して閉ざされている(closed)場合には、新たな深度値が深度バッファに書き込まれ、新たに算出された色値が書き込まれることになる。それゆえ、(どのレイヤが交差に最も近いのかに依存して)テクスチャレイヤ0またはテクスチャレイヤ1の色値が取り出される。代替的に、テクスチャレイヤ0とテクスチャレイヤ1との間の補間された色を用いることができる。
深度圧縮アーチファクトのゆえに、非可逆圧縮が用いられる場合には、穴を作り出すことができるよう、深度0および深度1の値を変更することができる。これは符号器において検出することができ、モデルが最終的にレンダリングされる際に穴を効果的に充填するために表面厚さ値をそれらの領域内で増大させることができる。図7は、深度値が圧縮によって変更される単純な1つの深度レイヤの事例を示す。図7は、元の表面710および復号化された単一のレイヤ720を示す。これらの穴は符号器によって評価され、および新たな表面レンダリング厚さ値が深度ピクセルごとに算出され、これにより、より多くの表面厚さが、穴を修復するために追加される。図7は、(0,0,2,1,0,0,0,1,2,0)730に算出された、可能なレンダリング表面厚さ値を有する復号化信号を示した。レンダリング表面厚さパラメータを用いた点群の再構成は、表面をより厚くするために新たな点が作成されるよう表面を拡張することを可能にする。レンダリング表面厚さパラメータによって生成された新たな点が、暗いピクセル725を用いて示されている。ピクセルごとの値からパッチごとの値まで様々あるレンダリング表面厚さパラメータを信号で通知する様々な仕方が存在する。点再構成が用いられる場合には、レンダリング厚さパラメータに基づいて新たな点を生成する必要があることに留意されたい。しかし、これは、上述されたレイトレーシングプロセスが用いられる場合には、バウンディングボックス(AABB)サイズをレンダリング表面厚さによって調整することができるため、当てはまらない。したがって、より多くの点が構築された場合には存在したようなボックスサイズを調整する追加の実行コストが存在しない。
可逆および非可逆符号化されたフレーム内には、XYZ座標を包含するだけの追加の特別パッチ(PCM、missed points patched(パッチされた欠失点))が存在することができる。点がランダムな位置にあるため、これらの種類のパッチをレイキャストすることは可能でない。しかし、欠失点の数が少ないため、立方体を用いて各点をレンダリングすることによってこれらの特別パッチをレンダリングすることが可能である。これは、それらの点がレイトレースされたのと同じ品質をもたらすことになる(点ごとに単一の立方体)。
図8は、一実施形態に係る符号化のための方法を示すフローチャートである。方法は、映像提示フレームを受信すること(810)であって、映像提示が3次元データを表現する、受信すること(810)と、映像提示フレームから1つまたは複数のパッチを生成すること(820)と、映像フレームのパッチを1つまたは複数のブロックに分割すること(830)と、パッチの該1つまたは複数のブロックに関する情報に従ってパッチごとの表面パラメータを決定すること(840)と、決定された表面パラメータをビットストリームに符号化すること(850)と、符号化されたビットストリームをレンダリング装置への伝送のために記憶すること(860)と、を含む。
図9は、別の実施形態に係る復号化のための方法を示すフローチャートである。方法は、映像提示に関する圧縮ビットストリームを受信すること(910)であって、ビットストリームが少なくともジオメトリ画像およびテクスチャ画像を含む、受信すること(910)と、受信されたビットストリームから、映像フレームの1つまたは複数の3次元ブロックに関するデータを復号化すること(920)と、映像フレームのブロックごとに、1つまたは複数の表面パラメータに関する情報を決定すること(930)と、1つまたは複数の表面パラメータに従って3次元ブロックのためのバウンディングボックスを生成すること(940)と、視点からピクセルの座標への3次元ブロックのピクセルごとの光線方向を算出すること(950)と、生成されたバウンディングボックスに対する光線の交差に従って少なくとも2つの点を決定すること(960)と、決定された少なくとも2つの点の間の点を、レイキャストを終えるための条件が満たされるまでレイキャストすること(970)と、ブロックのための1つまたは複数の表面パラメータに関する情報に従ってジオメトリ画像およびテクスチャ画像から3次元データを再構成すること(980)と、再構成された3次元データに従って映像提示をレンダリングのために再構成すること(990)と、を含む。
上述の例における3次元データは点群であることができる。
一実施形態に係る装置は、少なくとも、映像提示フレームを受信するための手段であって、映像提示が3次元データを表現する、手段と、映像提示フレームから1つまたは複数のパッチを生成するための手段と、映像フレームのパッチを1つまたは複数のブロックに分割するための手段と、パッチの該1つまたは複数のブロックに関する情報に従ってパッチごとの表面パラメータを決定するための手段と、決定された表面パラメータをビットストリームに符号化するための手段と、符号化されたビットストリームをレンダリング装置への伝送のために記憶するための手段と、を備える。
手段は、少なくとも1つのプロセッサと、コンピュータプログラムコードを含むメモリと、を備え、プロセッサはプロセッサ回路機構をさらに含み得る。メモリおよびコンピュータプログラムコードは、少なくとも1つのプロセッサを用いて、装置に、様々な実施形態に係る図8におけるフローチャートの方法を遂行させるように構成されている。
別の実施形態に係る装置は、少なくとも、映像提示に関する圧縮ビットストリームを受信するための手段であって、ビットストリームが少なくともジオメトリ画像およびテクスチャ画像を含む、手段と、受信されたビットストリームから、映像フレームの1つまたは複数の3次元ブロックに関するデータを復号化するための手段と、映像フレームのブロックごとに、1つまたは複数の表面パラメータに関する情報を決定するための手段と、1つまたは複数の表面パラメータに従って3次元ブロックのためのバウンディングボックスを生成するための手段と、視点からピクセルの座標への3次元ブロックのピクセルごとの光線方向を算出するための手段と、生成されたバウンディングボックスに対する光線の交差に従って少なくとも2つの点を決定するための手段と、決定された少なくとも2つの点の間の点を、レイキャストを終えるための条件が満たされるまでレイキャストするための手段と、ブロックのための1つまたは複数の表面パラメータに関する情報に従ってジオメトリ画像およびテクスチャ画像から3次元データを再構成するための手段と、再構成された3次元データに従って映像提示をレンダリングのために再構成するための手段と、を備える。
手段は、少なくとも1つのプロセッサと、コンピュータプログラムコードを含むメモリと、を備え、プロセッサはプロセッサ回路機構をさらに含み得る。メモリおよびコンピュータプログラムコードは、少なくとも1つのプロセッサを用いて、装置に、様々な実施形態に係る図9におけるフローチャートの方法を遂行させるように構成されている。
上述の例における3次元データは点群であることができる。
図10は、本実施形態に係るボリュメトリック映像を観視するためのシステムおよび装置を示す。システムのタスクは、特定の場所からの十分な視覚および聴覚情報を取り込み、これにより、異なる場所に物理的に位置する1人または複数人の観視者によって、および任意選択的に、将来における後の時点で、その場所にいることの体験、または存在の、説得力のある再現が達成され得るようにするというものである。このような再現は、観視者が自分の眼および自分の耳を使ってシーン内のオブジェクトの距離および位置を決定することができるよう、単一のカメラまたはマイクロフォンによって取り込まれ得る、より多くの情報を必要とする。視差を有する画像対を作成するために、2つのカメラソースが用いられる。同様の仕方で、人間の聴覚系が音の方向を感知することができるよう、少なくとも2つのマイクロフォンが用いられる(一般的に知られている立体音は、2つの音声チャネルを記録することによって作り出される)。人間の聴覚系は、音の方向を検出するための、例えば、音声信号のタイミングの差における、手がかりを検出することができる。
図10のシステムは、3つの部分:画像ソース1001、1003、サーバ1005、およびレンダリングデバイス1007を含み得る。画像ソースは、重なり合う視野を有する2つ以上のカメラを備える映像取り込みデバイス1001であることができ、これにより、映像取り込みデバイスの周りの風景の領域が少なくとも2つのカメラから取り込まれる。映像取り込みデバイス1001は、異なる方向からやって来る音声のタイミングおよび位相差を取り込むために、複数のマイクロフォン(図には示されていない)を備え得る。映像取り込みデバイス1001は、複数のカメラの配向(観視方向)を検出し、記録することができるよう、高解像度配向センサを備え得る。映像取り込みデバイス1001は、コンピュータプロセッサ、プロセッサ1、およびメモリ、メモリ1を備えるか、またはそれらに機能的に接続されており、メモリは、映像取り込みデバイス1001を制御するためのコンピュータプログラムコードを含む。映像取り込みデバイス1001によって取り込まれた画像ストリームは、別のデバイスにおける、例えば、ビューワにおける使用のためにメモリ、メモリ1および/または着脱式メモリ、メモリ9上に記憶され、ならびに/あるいは通信インターフェース通信1を用いてサーバ1005へ伝送され得る。
映像取り込みデバイス1001が、画像ストリーム、または複数のこうしたものを作成することの代替として、またはそれに加えて、合成画像の1つまたは複数の画像ソースデバイス1003がシステム内に存在してもよい。合成画像のこのような画像ソースデバイス1003は、仮想世界のコンピュータモデルを用いて、それが伝送する様々な画像ストリームを計算し得る。例えば、画像ソースデバイス1003は、仮想観視位置に配置されたN個の仮想カメラに対応するN個の映像ストリームを計算し得る。映像ストリームのこのような合成セットが観視のために用いられるときには、観視者は3次元仮想世界を見ることができる。画像ソースデバイス1003は、コンピュータプロセッサ、プロセッサ3、およびメモリ、メモリ3を備えるか、またはそれらに機能的に接続されており、メモリは、画像ソースデバイス1003を制御するためのコンピュータプログラムコードを含む。映像取り込みデバイス1001に加えて、記憶、処理、およびデータストリームサービングネットワークが存在し得る。例えば、映像取り込みデバイス1001または画像ソースデバイス1003からの出力を記憶するサーバ1005または複数のサーバが存在し得る。サーバ1005は、コンピュータプロセッサ、プロセッサ5、およびメモリ、メモリ5を備えるか、またはそれらに機能的に接続されており、メモリは、サーバ1005を制御するためのコンピュータプログラムコードを含む。サーバ1005は、通信インターフェース通信5を通じて、有線もしくは無線ネットワーク接続、またはその両方によって、ソース1001および/または1003、ならびにビューワデバイス1009に接続され得る。
取り込まれた、または作成された映像コンテンツを観視するために、1つまたは複数のビューワデバイス1009(再生デバイスとしても知られる)が存在し得る。これらのビューワデバイス1009は1つまたは複数のディスプレイを有し得、レンダリングモジュール1007を備えるか、またはそれに機能的に接続され得る。レンダリングモジュール1007は、コンピュータプロセッサ、プロセッサ7、およびメモリ、メモリ7を備え、メモリは、ビューワデバイス1009を制御するためのコンピュータプログラムコードを含む。ビューワデバイス1009は、サーバからの映像データストリームを受信するため、および映像データストリームを復号化するためのデータストリーム受信器を備え得る。データストリームは、通信インターフェースを介してネットワーク接続を通じて、またはメモリカードのようなメモリデバイス1011から受信され得る。ビューワデバイス1009は、観視に適した形式へのデータの処理のためのグラフィック処理装置を有し得る。ビューワデバイス1009は、レンダリングされた立体映像シーケンスを観視するための高解像度立体画像ヘッドマウンテッドディスプレイであることができる。ヘッドマウンテッドディスプレイは配向検出器1013および立体音声ヘッドフォンを有し得る。一実施形態によれば、ビューワデバイス1009は、(立体映像を表示するための)3D技術を可能にされたディスプレイであり、レンダリングデバイス1007は、それに接続された頭部配向検出器1015を有し得る。代替的に、ボリュメトリック映像レンダリングは、立体の眼の対の代わりに単一の眼からの視点をレンダリングすることによって、2Dで行うことができるため、ビューワデバイス1009は2Dディスプレイを備えてもよい。デバイス1001、1003、1005、1007、1009のうちの任意のものは、コンピュータまたはポータブルコンピューティングデバイスであるか、あるいはこのようなものに接続され得る。このようなデバイスは、本文書において説明された様々な例に係る方法を実施するためのコンピュータプログラムコードを有し得る。
上述されたように、ビューワデバイスはヘッドマウンテッドディスプレイ(head-mounted display、HMD)であることができる。ヘッドマウンテッドディスプレイは、左および右眼画像を表示するための2つのスクリーン区分または2つのスクリーンを含む。ディスプレイは眼の近くにあり、したがって、画像を容易に視認可能にするため、および眼の視野のできるだけ多くを占めるよう画像を広げるために、レンズが用いられる。デバイスは、たとえ、ユーザが自分の頭部を回しても、それが所定位置にとどまるよう、ユーザの頭部に取り付けられる。デバイスは、頭部の運動および頭部の方向を決定するための配向検出モジュールを有し得る。ヘッドマウンテッドディスプレイは、記録/ストリーミングされたコンテンツの3次元(3D)知覚をユーザに与える。
画像ソースのうちの任意のものによって取り込まれた、または生成された映像素材は、入力映像を記憶/伝送に適した圧縮表現に変換する符号器に提供され得る。圧縮映像は、圧縮映像表現を元の視認可能な形態に復元することができる復号器に提供される。符号器は、画像ソース内、またはサーバ内に配置され得る。復号器は、サーバ内、またはHMDなどの、ビューワ内に配置され得る。符号器は、映像をよりコンパクトな形態で(すなわち、より低いビットレートで)表現するために、元の映像シーケンス内のいくらかの情報を破棄してもよい。図11に、符号化プロセスの一例が示されている。図11は、符号化されるべき画像(In)、画像ブロックの予測された表現(P’n)、予測誤差信号(Dn)、再構成された予測誤差信号(D’n)、予備再構成画像(I’n)、最終再構成画像(R’n)、変換(T)および逆変換(T-1)、量子化(Q)および逆量子化(Q-1)、エントロピー符号化(E)、参照フレームメモリ(RFM)、インター予測(Pinter)、イントラ予測(Pintra)、モード選択(MS)、ならびにフィルタリング(F)を示す。図12に、復号化プロセスの一例が示されている。図12は、画像ブロックの予測された表現(P’n)、再構成された予測誤差信号(D’n)、予備再構成画像(I’n)、最終再構成画像(R’n)、逆変換(T-1)、逆量子化(Q-1)、エントロピー復号化(E-1)、参照フレームメモリ(RFM)、予測(インターまたはイントラのどちらか)(P)、ならびにフィルタリング(F)を示す。
様々な実施形態は利点をもたらし得る。例えば、本実施形態は、点レンダリングおよび自動穴埋めと比べて、優れた視覚品質をゼロコストでもたらす。加えて、レンダリングが点レンダリングよりも高速であるため、省エネルギーであるか、またはより複雑な点群のどちらかをレンダリングすることができる。加えて、様々な実施形態は、パッチごと、またはピクセルごとの柔軟な厚さの信号伝達を提供する。
様々な実施形態は、メモリ内に常駐し、関連装置に本方法を実施させるコンピュータプログラムコードの助けを受けて実施され得る。例えば、デバイスは、データを処理、受信および伝送するための回路機構および電子機器、メモリ内のコンピュータプログラムコード、ならびにコンピュータプログラムコードを実行させたときに、デバイスに一実施形態の特徴を実施させるプロセッサを備え得る。なおさらに、サーバのようなネットワークデバイスは、データを処理、受信および伝送するための回路機構および電子機器、メモリ内のコンピュータプログラムコード、ならびにコンピュータプログラムコードを実行させたときに、ネットワークデバイスに一実施形態の特徴を実施させるプロセッサを備え得る。コンピュータプログラムコードは1つまたは複数の動作特性を含む。上記動作特性は、上記コンピュータによって上記プロセッサの種類に基づいて構成を通じて定義されており、システムがバスによって上記プロセッサに接続可能であり、一実施形態に係るシステムのプログラム可能な動作特性が、少なくとも、図8または図9のフローチャートによって定義されるとおりのステップを含む。
所望の場合には、本明細書において説明される異なる機能は、異なる順序で、および/または他のものと同時に遂行され得る。さらに、所望の場合には、上述の機能および実施形態のうちの1つまたは複数は任意選択的なものであり得るか、または組み合わせられ得る。
実施形態の様々な態様が独立請求項において提示されているが、他の態様は、記載された実施形態および/または従属請求項からの特徴と独立請求項の特徴との他の組み合わせを含み、請求項において明示的に提示された組み合わせのみを含むものではない。
また、本明細書において、以上は例示的な実施形態を説明しているが、これらの説明は限定的な意味で捉えられるべきでないことにも留意されたい。むしろ、添付の請求項において定義されるとおりの本開示の範囲から逸脱することなく行われ得る、いくつかの変形および変更が存在する。

Claims (27)

  1. 符号化のための方法であって、
    - 映像提示フレームを受信することであって、前記映像提示が3次元データを表現する、受信することと、
    - 前記映像提示フレームから1つまたは複数のパッチを生成することと、
    - 映像フレームのパッチを1つまたは複数のブロックに分割することと、
    - パッチの前記1つまたは複数のブロックに関する情報に従ってパッチごとの表面パラメータを決定することと、
    - 前記決定された表面パラメータをビットストリームに符号化することと、
    - 前記符号化されたビットストリームをレンダリング装置への伝送のために記憶することと、
    を含む、方法。
  2. 復号化のための方法であって、
    - 映像提示に関する圧縮ビットストリームを受信することであって、前記ビットストリームが少なくともジオメトリ画像およびテクスチャ画像を含む、受信することと、
    - 前記受信されたビットストリームから、映像フレームの1つまたは複数の3次元ブロックに関するデータを復号化することと、
    - 前記映像フレームのブロックごとに、1つまたは複数の表面パラメータに関する情報を決定することと、
    - 前記1つまたは複数の表面パラメータに従って3次元ブロックのためのバウンディングボックスを生成することと、
    - 視点から前記ピクセルの座標への前記3次元ブロックのピクセルごとの光線方向を算出することと、
    - 前記生成されたバウンディングボックスに対する前記光線の交差に従って少なくとも2つの点を決定することと、
    - 前記決定された少なくとも2つの点の間の点を、レイキャストを終えるための条件が満たされるまでレイキャストすることと、
    - ブロックのための1つまたは複数の表面パラメータに関する前記情報に従って前記ジオメトリ画像および前記テクスチャ画像から3次元データを再構成することと、
    - 前記再構成された3次元データに従って映像提示をレンダリングのために再構成することと、
    を含む、方法。
  3. ビットストリームを符号化するための装置であって、
    - 映像提示フレームを受信するための手段であって、前記映像提示が3次元データを表現する、手段と、
    - 前記映像提示フレームから1つまたは複数のパッチを生成するための手段と、
    - 映像フレームのパッチを1つまたは複数のブロックに分割するための手段と、
    - パッチの前記1つまたは複数のブロックに関する情報に従ってパッチごとの表面パラメータを決定するための手段と、
    - 前記決定された表面パラメータをビットストリームに符号化するための手段と、
    - 前記符号化されたビットストリームをレンダリング装置への伝送のために記憶するための手段と、
    を備える、装置。
  4. 前記表面パラメータがパッチの深度または深度差である、請求項3に記載の装置。
  5. 前記表面パラメータが、深度差から決定されたレンダリング厚さパラメータである、請求項3に記載の装置。
  6. 前記レンダリング厚さパラメータを補足強化情報(SEI)メッセージに符号化するための手段をさらに備える、請求項3~5のいずれか1項に記載の装置。
  7. 前記レンダリングパラメータがブロックごとに決定される、請求項3~6のいずれか1項に記載の装置。
  8. 前記レンダリングパラメータが占有マップに符号化される、請求項3~7のいずれか1項に記載の装置。
  9. 深度レイヤの間の色補間を前記ビットストリームに符号化することをさらに含む、請求項3~8のいずれか1項に記載の装置。
  10. 少なくとも1つのプロセッサと、コンピュータプログラムコードを含むメモリと、を備える、請求項3~9のいずれか1項に記載の装置。
  11. ビットストリームを復号化するための装置であって、
    - 映像提示に関する圧縮ビットストリームを受信するための手段であって、前記ビットストリームが少なくともジオメトリ画像およびテクスチャ画像を含む、手段と、
    - 前記受信されたビットストリームから、映像フレームの1つまたは複数の3次元ブロックに関するデータを復号化するための手段と、
    - 前記映像フレームのブロックごとに、1つまたは複数の表面パラメータに関する情報を決定するための手段と、
    - 前記1つまたは複数の表面パラメータに従って3次元ブロックのためのバウンディングボックスを生成するための手段と、
    - 視点から前記ピクセルの座標への前記3次元ブロックのピクセルごとの光線方向を算出するための手段と、
    - 前記生成されたバウンディングボックスに対する前記光線の交差に従って少なくとも2つの点を決定するための手段と、
    - 前記決定された少なくとも2つの点の間の点を、レイキャストを終えるための条件が満たされるまでレイキャストするための手段と、
    - ブロックのための1つまたは複数の表面パラメータに関する前記情報に従って前記ジオメトリ画像および前記テクスチャ画像から3次元データを再構成するための手段と、
    - 前記再構成された3次元データに従って映像提示をレンダリングのために再構成するための手段と、
    を備える、装置。
  12. 1つまたは複数の表面パラメータに関する前記情報がビットストリームから復号化される、請求項11に記載の装置。
  13. 1つまたは複数の表面パラメータに関する前記情報が様々な深度レイヤのピクセルから決定される、請求項11に記載の装置。
  14. 前記レイキャストを終えるための前記条件が、ピクセルの位置上の両方の深度レイヤのための深度値を決定することによって、前記視光線からの深度値を算出することによって、および前記視光線からの前記深度値を、前記決定された深度値と比較することによって決定される、請求項11~13のいずれか1項に記載の装置。
  15. 前記レイキャストを終えるための前記条件が、深度差値およびピクセル座標から形成された別のバウンディングボックスから決定される、請求項11~14のいずれか1項に記載の装置。
  16. 前記表面パラメータがパッチの深度または深度差である、請求項11~15のいずれか1項に記載の装置。
  17. 前記表面パラメータが、深度差から決定されたレンダリング厚さパラメータである、請求項11~15のいずれか1項に記載の装置。
  18. 前記光線方向に基づいて少なくとも2つの点を決定し、2次元座標における前記2つの点の間のあらゆるピクセルをレイキャストすることをさらに含む、請求項11~17のいずれか1項に記載の装置。
  19. 前記2つの点の間の2次元ピクセルごとに第1および第2の深度レイヤのための深度値を得ることをさらに含む、請求項18に記載の装置。
  20. 点群コンテンツと前記光線との間の交差が存在するかどうかを決定することをさらに含む、請求項19に記載の装置。
  21. 前記レンダリング厚さパラメータを補足強化情報(SEI)メッセージから復号化するための手段をさらに備える、請求項11~20のいずれか1項に記載の装置。
  22. 前記レンダリングパラメータがブロックごとに復号化される、請求項11~21のいずれか1項に記載の装置。
  23. 前記レンダリングパラメータが占有マップから復号化される、請求項11~22のいずれか1項に記載の装置。
  24. 深度レイヤの間の色補間を前記ビットストリームから復号化することをさらに含む、請求項11~23のいずれか1項に記載の装置。
  25. 少なくとも1つのプロセッサと、コンピュータプログラムコードを含むメモリと、を備える、請求項11~24のいずれか1項に記載の装置。
  26. 少なくとも1つのプロセッサと、コンピュータプログラムコードを含むメモリと、を備える装置であって、前記メモリおよび前記コンピュータプログラムコードが、前記少なくとも1つのプロセッサを用いて、前記装置に、少なくとも以下のこと:
    - 映像提示フレームを受信することであって、前記映像提示が3次元データを表現する、受信することと、
    - 前記映像提示フレームから1つまたは複数のパッチを生成することと、
    - 映像フレームのパッチを1つまたは複数のブロックに分割することと、
    - パッチの前記1つまたは複数のブロックに関する情報に従ってパッチごとの表面パラメータを決定することと、
    - 前記決定された表面パラメータをビットストリームに符号化することと、
    - 前記符号化されたビットストリームをレンダリング装置への伝送のために記憶することと、
    を遂行させるように構成されている、装置。
  27. 少なくとも1つのプロセッサと、コンピュータプログラムコードを含むメモリと、を備える装置であって、前記メモリおよび前記コンピュータプログラムコードが、前記少なくとも1つのプロセッサを用いて、前記装置に、少なくとも以下のこと:
    - 映像提示に関する圧縮ビットストリームを受信することであって、前記ビットストリームが少なくともジオメトリ画像およびテクスチャ画像を含む、受信することと、
    - 前記受信されたビットストリームから、映像フレームの1つまたは複数の3次元ブロックに関するデータを復号化することと、
    - 前記映像フレームのブロックごとに、1つまたは複数の表面パラメータに関する情報を決定することと、
    - 前記1つまたは複数の表面パラメータに従って3次元ブロックのためのバウンディングボックスを生成することと、
    - 視点から前記ピクセルの座標への前記3次元ブロックのピクセルごとの光線方向を算出することと、
    - 前記生成されたバウンディングボックスに対する前記光線の交差に従って少なくとも2つの点を決定することと、
    - 前記決定された少なくとも2つの点の間の点を、レイキャストを終えるための条件が満たされるまでレイキャストすることと、
    - ブロックのための1つまたは複数の表面パラメータに関する前記情報に従って前記ジオメトリ画像および前記テクスチャ画像から3次元データを再構成することと、
    - 前記再構成された3次元データに従って映像提示をレンダリングのために再構成することと、
    を遂行させるように構成されている、装置。
JP2021569317A 2019-05-22 2020-04-15 ボリュメトリック映像の符号化および復号化のための方法、装置、およびコンピュータプログラム製品 Active JP7344988B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FI20195425 2019-05-22
FI20195425 2019-05-22
PCT/FI2020/050243 WO2020234509A1 (en) 2019-05-22 2020-04-15 A method, an apparatus and a computer program product for volumetric video encoding and decoding

Publications (2)

Publication Number Publication Date
JP2022533754A true JP2022533754A (ja) 2022-07-25
JP7344988B2 JP7344988B2 (ja) 2023-09-14

Family

ID=73459024

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021569317A Active JP7344988B2 (ja) 2019-05-22 2020-04-15 ボリュメトリック映像の符号化および復号化のための方法、装置、およびコンピュータプログラム製品

Country Status (6)

Country Link
US (1) US20220217400A1 (ja)
EP (1) EP3973710A4 (ja)
JP (1) JP7344988B2 (ja)
KR (1) KR20220011180A (ja)
CN (1) CN113853796A (ja)
WO (1) WO2020234509A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220135483A (ko) * 2021-03-30 2022-10-07 삼성전자주식회사 이동 통신 시스템에서 영상 대화 서비스를 제공하기 위한 방법 및 장치
CN113628286B (zh) * 2021-08-09 2024-03-22 咪咕视讯科技有限公司 视频色域检测方法、装置、计算设备及计算机存储介质
WO2023167430A1 (ko) * 2022-03-04 2023-09-07 엘지전자 주식회사 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019198523A1 (ja) * 2018-04-11 2019-10-17 ソニー株式会社 画像処理装置および方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9336624B2 (en) * 2008-10-07 2016-05-10 Mitsubishi Electric Research Laboratories, Inc. Method and system for rendering 3D distance fields
US9928640B2 (en) * 2015-12-18 2018-03-27 Intel Corporation Decompression and traversal of a bounding volume hierarchy
US10762668B2 (en) * 2018-12-28 2020-09-01 Intel Corporation Context-aware compression with quantization of hierarchical transform matrices
US10929948B2 (en) * 2018-12-28 2021-02-23 Intel Corporation Page cache system and method for multi-agent environments
US10909741B2 (en) * 2018-12-28 2021-02-02 Intel Corporation Speculative execution of hit and intersection shaders on programmable ray tracing architectures
US10930051B2 (en) * 2018-12-28 2021-02-23 Intel Corporation Apparatus and method for general ray tracing queries
US11127107B2 (en) * 2019-09-30 2021-09-21 Intel Corporation Apparatus and method for real time graphics processing using local and cloud-based graphics processing resources
US11210860B2 (en) * 2020-01-27 2021-12-28 Facebook Technologies, Llc. Systems, methods, and media for visualizing occluded physical objects reconstructed in artificial reality

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019198523A1 (ja) * 2018-04-11 2019-10-17 ソニー株式会社 画像処理装置および方法

Also Published As

Publication number Publication date
EP3973710A4 (en) 2023-05-03
JP7344988B2 (ja) 2023-09-14
KR20220011180A (ko) 2022-01-27
EP3973710A1 (en) 2022-03-30
CN113853796A (zh) 2021-12-28
WO2020234509A1 (en) 2020-11-26
US20220217400A1 (en) 2022-07-07

Similar Documents

Publication Publication Date Title
EP3751857A1 (en) A method, an apparatus and a computer program product for volumetric video encoding and decoding
US11509933B2 (en) Method, an apparatus and a computer program product for volumetric video
EP3669333B1 (en) Sequential encoding and decoding of volymetric video
US11599968B2 (en) Apparatus, a method and a computer program for volumetric video
US11202086B2 (en) Apparatus, a method and a computer program for volumetric video
US20230068178A1 (en) A method, an apparatus and a computer program product for volumetric video encoding and decoding
EP3104603B1 (en) Efficient image receiver for multiple views
JP7344988B2 (ja) ボリュメトリック映像の符号化および復号化のための方法、装置、およびコンピュータプログラム製品
WO2019138163A1 (en) A method and technical equipment for encoding and decoding volumetric video
WO2021260266A1 (en) A method, an apparatus and a computer program product for volumetric video coding
WO2019122504A1 (en) Method for encoding and decoding volumetric video data
WO2021205068A1 (en) A method, an apparatus and a computer program product for volumetric video coding
WO2019077199A1 (en) APPARATUS, METHOD, AND COMPUTER PROGRAM FOR VOLUMETRIC VIDEO
EP4032314A1 (en) A method, an apparatus and a computer program product for video encoding and video decoding
WO2019185983A1 (en) A method, an apparatus and a computer program product for encoding and decoding digital volumetric video
WO2022219230A1 (en) A method, an apparatus and a computer program product for video encoding and video decoding
WO2022074286A1 (en) A method, an apparatus and a computer program product for video encoding and video decoding
WO2019211519A1 (en) A method and an apparatus for volumetric video encoding and decoding
Colleu A floating polygon soup representation for 3D video

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221205

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230803

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230904

R150 Certificate of patent or registration of utility model

Ref document number: 7344988

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150