JP6986158B2

JP6986158B2 - 複数のビューポイントに関するメタデータを送受信する方法及び装置

Info

Publication number: JP6986158B2
Application number: JP2020531440A
Authority: JP
Inventors: ヒョンムクオ; セチンオ
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2018-06-01
Filing date: 2019-05-24
Publication date: 2021-12-22
Anticipated expiration: 2039-05-24
Also published as: KR102214085B1; KR20200058501A; CN111727605B; US20210176446A1; WO2019231269A1; WO2019231178A1; CN111727605A; EP3806458A4; JP2021506175A; EP3806458A1

Description

本発明は３６０°ビデオデータ(３６０−ｄｅｇｒｅｅｖｉｄｅｏｄａｔａ)に関するメタデータに関し、より詳しくは、複数のビューポイント(ｍｕｌｔｉｐｌｅ−ｖｉｅｗｐｏｉｎｔｓ)に関するメタデータを送受信する方法及び装置に関する。

ＶＲ(ＶｉｒｔｕａｌｌＲｅａｌｉｔｙ)システムは、ユーザに電子的に投影された環境内にいるような感覚を提供する。ＡＲ(ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ、ＡＲ)システムは、現実のイメージや背景に３次元の仮想イメージを重畳して、ユーザに仮想と現実が入り混じた環境内にいるような感覚を提供する。ＶＲ又はＡＲを提供するためのシステムは、より高画質のイメージと空間的な音響を提供するために改善が必要である。ＶＲ又はＡＲシステムはユーザがインタラクティブにＶＲ又はＡＲコンテンツを消費できるようにする。

ＶＲ又はＡＲコンテンツの需要が増加しつつあることから、ＶＲ又はＡＲコンテンツ内の複数のビューポイント(ｍｕｌｔｉｐｌｅ−ｖｉｅｗｐｏｉｎｔｓ)に関する情報をより具体的にシグナリングする方法を考える必要性も増加している。

本発明の技術的課題は、３６０°ビデオデータを処理する方法及び装置を提供することにある。

本発明の他の技術的課題は、３６０°ビデオデータに関するメタデータを送信又は受信する方法及び装置を提供することにある。

本発明のさらに他の技術的課題は、複数のビューポイントに関するメタデータを送信又は受信する方法及び装置を提供することにある。

本発明のさらに他の技術的課題は、ビューポイントグループに含まれた少なくとも一つのビューポイントが互いに近接しているか否かを示す非近接フラグ情報を送信又は受信する方法及び装置を提供することにある。

本発明のさらに他の技術的課題は、現在のビューポイントがアンカーポイント(ａｎｃｈｏｒｖｉｅｗｐｏｉｎｔ)であるか否かを示すアンカービューポイントフラグ情報を送信又は受信する方法及び装置を提供することにある。

本発明の一実施例によれば、３６０°ビデオ送信装置により行われる３６０°ビデオデータ処理方法が提供される。この方法は、少なくとも一つのイメージ獲得装置によりキャプチャーされた３６０°ビデオデータを得る段階、３６０°ビデオデータを処理して全方向イメージ(ｏｍｎｉｄｉｒｅｃｔｉｏｎａｌｉｍａｇｅ)を含む２次元(ｔｗｏ−ｄｉｍｅｎｓｉｏｎａｌ)ピクチャを導き出す段階、３６０°ビデオデータに関するメタデータを生成する段階、２次元ピクチャに関する情報を符号化する段階、及び２次元ピクチャに関する情報及びメタデータに基づいてカプセル化(ｅｎｃａｐｓｕｌａｔｉｏｎ)を行う段階を含み、メタデータは３６０°ビデオデータ内のビューポイントグループに含まれた少なくとも一つのビューポイントが互いに非近接(ｎｏｎ−ｃｏｎｔｉｇｕｏｕｓ)であるか否かを示す非近接フラグ情報を含むことを特徴とする。

本発明の他の実施例によれば、３６０°ビデオデータを処理する３６０°ビデオ送信装置が提供される。この３６０°ビデオ送信装置は、少なくとも一つのイメージ獲得装置によりキャプチャーされた３６０°ビデオデータを得るデータ入力部、３６０°ビデオデータを処理して全方向イメージを含む２次元ピクチャを導き出すプロジェクション処理部、３６０°ビデオデータに関するメタデータを生成するメタデータ処理部、２次元ピクチャに関する情報を符号化するデータ符号器、及び２次元ピクチャに関する情報及びメタデータに基づいてカプセル化を行うカプセル化処理部を含み、メタデータは３６０°ビデオデータ内のビューポイントグループに含まれた少なくとも一つのビューポイントが互いに非近接(ｎｏｎ−ｃｏｎｔｉｇｕｏｕｓ)であるか否かを示す非近接フラグ情報を含むことを特徴とする。

本発明のさらに他の実施例によれば、３６０°ビデオ受信装置により行われる３６０°ビデオデータ処理方法が提供される。この方法は、３６０°ビデオデータに関する情報を受信する段階、３６０°ビデオデータに関する情報から符号化されたピクチャに関する情報及びメタデータを得る段階、符号化されたピクチャに関する情報に基づいてピクチャを復号する段階、及びメタデータに基づいて復号されたピクチャをレンダリングする段階を含み、メタデータは３６０°ビデオデータ内のビューポイントグループに含まれた少なくとも一つのビューポイントが互いに非近接であるか否かを示す非近接フラグ情報を含むことを特徴とする。

本発明のさらに他の実施例によれば、３６０°ビデオデータを処理する３６０°ビデオ受信装置が提供される。この３６０°ビデオ受信装置は、３６０°ビデオデータに関する情報を受信し、３６０°ビデオデータに関する情報から符号化されたピクチャに関する情報及びメタデータを得る受信処理部、符号化されたピクチャに関する情報に基づいてピクチャを復号するデータ復号器(ｄｅｃｏｄｅｒ)、及びメタデータに基づいて復号されたピクチャをレンダリングするレンダラー(ｒｅｎｄｅｒｅｒ)を含み、メタデータは３６０°ビデオデータ内のビューポイントグループに含まれた少なくとも一つのビューポイントが互いに非近接であるか否かを示す非近接フラグ情報を含むことを特徴とする。

本発明によれば、地上波放送網とインターネット網を使用する次世代ハイブリッド放送を支援する環境において、ＶＲコンテンツ(３６０コンテンツ)を効率的に送信することができる。

本発明によれば、３６０コンテンツを消費するユーザにインタラクティブ経験(ｉｎｔｅｒａｃｔｉｖｅｅｘｐｅｒｉｅｎｃｅ)を提供することができる。

本発明によれば、送信キャパシティを増加させながら、ユーザに必要な３６０コンテンツ情報を効率的に伝達することができる。

本発明によれば、ＩＳＯＢＭＦＦ(ＩＳＯｂａｓｅｍｅｄｉａｆｉｌｅｆｏｒｍａｔ)などのＩＳＯ(ＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎ)基盤のメディアファイルフォーマットにより、３６０°ビデオデータに関するシグナリング情報を効率的に格納及び送信することができる。

本発明によれば、ＤＡＳＨ(ＤｙｎａｍｉｃＡｄａｐｔｉｖｅＳｔｒｅａｍｉｎｇｏｖｅｒＨＴＴＰ)などのＨＴＴＰ(ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ)基盤の適応型ストリーミングにより、３６０°ビデオデータに関するシグナリング情報を送信することができる。

本発明によれば、ＳＥＩ(Ｓｕｐｐｌｅｍｅｎｔａｌｅｎｈａｎｃｅｍｅｎｔｉｎｆｏｒｍａｔｉｏｎ)メッセージ或いはＶＵＩ(ＶｉｄｅｏＵｓａｂｉｌｉｔｙＩｎｆｏｒｍａｔｉｏｎ)により、３６０°ビデオデータに関するシグナリング情報を格納及び送信することができ、これにより全体的な送信効率を向上させることができる。

本発明によれば、ビューポイントグループに含まれた少なくとも一つのビューポイントが互いに近接しているか否かを示す非近接フラグ情報を効果的にシグナリングすることができる。

本発明によれば、現在のビューポイントがアンカーポイントであるか否かを示すアンカービューポイントフラグ情報を効果的にシグナリングすることができる。

本発明による３６０コンテンツ提供のための全体アーキテクチャを示す図である。一部の実施例によるメディアファイルの構造を示す図である。一部の実施例によるメディアファイルの構造を示す図である。ＤＡＳＨ基盤の適応型ストリーミングモデルの全般的な動作の一例を示す図である。一実施例による３６０ビデオ送信装置の構成を概略的に説明する図である。一実施例による３６０ビデオ受信装置の構成を概略的に説明する図である。一実施例による３Ｄ空間を説明するための飛行機主軸(ＡｉｒｃｒａｆｔＰｒｉｎｃｉｐａｌＡｘｅｓ)の概念を示す図である。３６０ビデオの処理過程及びプロジェクションフォーマットによるリージョンごとのパッキング過程が適用された２Ｄイメージを例示する図である。一部の実施例によるプロジェクションフォーマットを例示する図である。一部の実施例によるプロジェクションフォーマットを例示する図である。一部の実施例によるタイル(Ｔｉｌｅ)を示す図である。一部の実施例によるタイル(Ｔｉｌｅ)を示す図である。一実施例による３６０°ビデオ関連のメタデータの一例を示す図である。ビューポイント、視点(ｖｉｅｗｉｎｇｐｏｓｉｔｉｏｎ)、視聴方向(ｖｉｅｗｉｎｇｏｒｉｅｎｔａｔｉｏｎ)の概念を概略的に示す図である。一実施例による３ＤｏＦ＋ビデオ提供のためのアーキテクチャの例を概略的に示す図である。３ＤｏＦ＋ｅｎｄ−ｔｏ−ｅｎｄシステムのアーキテクチャの一例を示す図である。３ＤｏＦ＋ｅｎｄ−ｔｏ−ｅｎｄシステムのアーキテクチャの一例を示す図である。ＦＬＵＳアーキテクチャの一例を概略的に示す図である。３ＤｏＦ＋送信端の構成の一例を概略的に示す図である。３ＤｏＦ＋受信端の構成の一例を概略的に示す図である。複数の位置でＶＲコンテンツに関する情報をキャプチャーする一例を示す図である。３つのビューポイントをグローバル座標系(ｇｌｏｂａｌｃｏｏｒｄｉｎａｔｅ)を基準として示す図である。複数のビューポイントのビューポイントグループＩＤと非近接フラグ情報の一例を示す図である。複数のビューポイントの間が近接しているか否かによるディスプレイの一例を示す図である。複数のビューポイントの間が近接しているか否かによるディスプレイの一例を示す図である。複数のビューポイントの間が近接しているか否かによるディスプレイの他の例を示す図である。複数のビューポイントの間が近接しているか否かによるディスプレイの他の例を示す図である。複数のビューポイントのビューポイントグループＩＤ、非近接フラグ情報及びアンカービューポイントフラグ情報の一例を示す図である。複数のビューポイントの間が近接しているか否かによるディスプレイのさらに他の例を示す図である。複数のビューポイントの間が近接しているか否かによるディスプレイのさらに他の例を示す図である。複数のビューポイントの一例を示す図である。複数のビューポイントの一例を示す図である。一実施例による３６０°ビデオ送信装置の動作方法を示すフローチャートである。一実施例による３６０°ビデオ送信装置の構成を示すブロック図である。一実施例による３６０°ビデオ受信装置の動作方法を示すフローチャートである。一実施例による３６０°ビデオ受信装置の構成を示すブロック図である。

本発明の一実施例によれば、３６０°ビデオ送信装置により行われる３６０°ビデオデータ処理方法が提供される。この方法は、少なくとも一つのイメージ獲得装置によりキャプチャーされた３６０°ビデオデータを得る段階、３６０°ビデオデータを処理して全方向イメージ(ｏｍｎｉｄｉｒｅｃｔｉｏｎａｌｉｍａｇｅ)を含む２次元(ｔｗｏ−ｄｉｍｅｎｓｉｏｎａｌ)ピクチャを導き出す段階、３６０°ビデオデータに関するメタデータを生成する段階、２次元ピクチャに関する情報を符号化する段階、及び２次元ピクチャに関する情報及びメタデータに基づいてカプセル化(ｅｎｃａｐｓｕｌａｔｉｏｎ)を行う段階を含み、このメタデータは３６０°ビデオデータ内のビューポイントグループに含まれた少なくとも一つのビューポイントが互いに非近接(ｎｏｎ−ｃｏｎｔｉｇｕｏｕｓ)であるか否かを示す非近接フラグ情報を含むことを特徴とする。

以下の技術的特徴はＭＰＥＧ(ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ)標準化機構による標準規格などに適用でき、ビデオ、イメージ又はオーディオを扱う技術分野で利用することができる。例えば、以下に説明する方法又は実施例は、ＭＰＥＧ−Ｉ標準(ＩＳＯ／ＩＥＣ２３０９０)又はＭＰＥＧ−Ｉ標準(ＩＳＯ／ＩＥＣ２３０９０)以後の次世代標準の開示内容に関連する。

本発明は、多様な変更を加えることができ、様々な実施例を有することができ、特定の実施例を図面に例示して詳細に説明する。しかし、これは本発明を特定の実施形態に限定するものではない。本明細書で使用する用語は、単に特定の実施例を説明するために使われたものであり、本発明の技術的思想を限定するために使われるものではない。単数の表現は、文脈上明白に異なる意味ではない限り、複数の表現を含む。本明細書で「含む」又は「有する」などの用語は、明細書上に記載された特徴、数字、ステップ、動作、構成要素、部品又はこれらを組合せたものが存在することを指定するものであり、一つ又はそれ以上の他の特徴、数字、ステップ、動作、構成要素、部品又はこれらを組合せたものの存在又は付加の可能性を予め排除しないと理解しなければならない。

一方、本発明で説明される図面上の各構成は、互いに異なる特徴的な機能に関する説明の便宜のために独立的に図示したものであり、各構成が互いに別個のハードウェアや別個のソフトウェアで具現されるということを意味しない。例えば、各構成のうち、二つ以上の構成が統合されて一つの構成になることもでき、一つの構成が複数の構成に分けられることもできる。各構成が統合及び／又は分離された実施例も本発明の本質から外れない限り本発明の権利範囲に含まれる。

以下、添付図面を参照して、本発明の好ましい実施例についてより詳しく説明する。以下、図面上、同一の構成要素に対しては同一の参照符号を使用し、同一の構成要素に対して重複した説明は省略する。

図１は一実施例による３６０°コンテンツ提供のための全体アーキテクチャを示す図である。

この明細書において、“イメージ(ｉｍａｇｅ)”は停止映像及び時間の流れによる一連の停止映像の集合であるビデオを含む概念を意味する。また、“ビデオ(ｖｉｄｅｏ)”も必ず時間の流れによる一連の停止映像の集合のみを意味することではなく、場合によっては停止映像がビデオに含まれる概念として解釈することができる。

ユーザに仮想現実(ＶｉｒｔｕａｌＲｅａｌｉｔｙ、ＶＲ)を提供するために、３６０°コンテンツを提供する方案が考えられる。ここで、３６０°コンテンツは３ＤｏＦ(ｔｈｒｅｅＤｅｇｒｅｅｓｏｆＦｒｅｅｄｏｍ)コンテンツとも呼ばれ、ＶＲは実際又は仮想の環境を複製(ｒｅｐｌｉｃａｔｅｓ)するために技術とその環境を意味する。ＶＲは人工的にユーザに感覚的経験を提供し、これによりユーザは電子的にプロジェクションされた環境にいるような経験をすることができる。

３６０°コンテンツはＶＲを具現、提供するためのコンテンツ全般を意味し、３６０°ビデオ及び／又は３６０°オーディオを含む。３６０°ビデオ及び／又は３６０オーディオは、３次元ビデオ及び／又は３次元オーディオとも呼ばれる。３６０°ビデオはＶＲを提供するために必要な、全方向(３６０°)が同時にキャプチャー又は再生されるビデオ又はイメージコンテンツを意味する。以下、３６０°ビデオとは３６０°ビデオを意味する。３６０°ビデオは３Ｄモデルによって様々な形態の３Ｄ空間上に表されるビデオ又はイメージを意味し、例えば、３６０°ビデオは球形(Ｓｐｈｅｒｉｃａｌ)面上に表されることができる。３６０°オーディオもＶＲを提供するためのオーディオコンテンツであって、音響発生地が３次元の特定の空間上に位置すると認知できる、空間的(Ｓｐａｔｉａｌ)オーディオコンテンツを意味する。３６０オーディオは３次元オーディオとも呼ばれる。３６０°コンテンツは生成、処理されてユーザに送信され、ユーザは３６０°コンテンツを用いてＶＲ経験を消費する。３６０ビデオは全方向(ｏｍｎｉｄｉｒｅｃｔｉｏｎａｌ)ビデオとも呼ばれ、３６０イメージは全方向イメージとも呼ばれる。

３６０°ビデオを提供するために、まず１つ以上のカメラにより３６０°ビデオがキャプチャーされる。キャプチャーされた３６０°ビデオは一連の過程を経て送信され、受信側では受信されたデータを再び元来の３６０°ビデオに加工してレンダリングすることができる。これにより３６０°ビデオがユーザに提供される。

具体的には、３６０°ビデオ提供のための全過程はキャプチャー過程(ｐｒｏｃｅｓｓ)、準備過程、送信過程、プロセシング過程、レンダリング過程及び／又はフィードバック過程を含む。

キャプチャー過程は、１つ以上のカメラで複数のビューポイントの各々に対するイメージ又はビデオをキャプチャーする過程を意味する。キャプチャー過程により図示された図１の(１１０)のようなイメージ／ビデオデータが生成される。図示した図１の(１１０)の各平面は各ビューポイントに対するイメージ／ビデオを意味する。このキャプチャーされた複数のイメージ／ビデオをロー(ｒａｗ)データとも言える。キャプチャー過程ではキャプチャーに関連するメタデータが生成されることができる。

このキャプチャーのためには、ＶＲのための特殊カメラが使用される。実施例によってコンピューターで生成された仮想の空間に対する３６０°ビデオを提供しようとする場合、実際カメラによるキャプチャーではないことがある。この場合、単に関連データが生成される過程をもって該当キャプチャー過程に代えることができる。

準備過程は、キャプチャーされたイメージ／ビデオ及びキャプチャー過程で発生したメタデータを処理する過程である。キャプチャーされたイメージ／ビデオは、この準備過程において、スティチング(Ｓｔｉｔｃｈｉｎｇ)過程、プロジェクション(ｐｒｏｊｅｃｔｉｏｎ)過程、リージョンごとのパッキング過程(Ｒｅｇｉｏｎ−ｗｉｓｅＰａｃｋｉｎｇ)及び／又は符号化過程などを経る。

まず各々のイメージ／ビデオはスティチング(Ｓｔｉｔｃｈｉｎｇ)過程を経る。スティチング過程は、各々のキャプチャーされたイメージ／ビデオを連結して１つのパノラマイメージ／ビデオ又は球形のイメージ／ビデオを形成する過程である。

その後、スティチングされたイメージ／ビデオは、プロジェクション(Ｐｒｏｊｅｃｔｉｏｎ)過程を経る。プロジェクション過程において、スティチングされたイメージ／ビデオは２Ｄイメージ上にプロジェクションされる。この２Ｄイメージは、文脈により２Ｄイメージフレームとも呼ばれる。２Ｄイメージにプロジェクションすることは、２Ｄイメージにマッピングするとも表現できる。プロジェクションされたイメージ／ビデオデータは、図示した図１の(１２０)のような２Ｄイメージ形態になることもできる。

２Ｄイメージ上にプロジェクションされたビデオデータは、ビデオコーディング効率などを高めるために、リージョンごとのパッキング過程(Ｒｅｇｉｏｎ−ｗｉｓｅＰａｃｋｉｎｇ)を経る。リージョンごとのパッキングとは、２Ｄイメージ上にプロジェクションされたビデオデータをリージョン(Ｒｅｇｉｏｎ)ごとに分けて処理を加える過程を意味する。ここで、リージョン(Ｒｅｇｉｏｎ)とは、３６０°ビデオデータがプロジェクションされた２Ｄイメージが分かれた領域を意味する。このリージョンは、実施例によって、２Ｄイメージを均等に分けて区分するか、或いは任意に分かれて区分されることができる。また実施例によってリージョンはプロジェクションスキームにより区分されることもできる。リージョンごとのパッキング過程は選択的(ｏｐｔｉｏｎａｌ)過程であり、準備過程で省略することもできる。

実施例によって、この処理過程は、ビデオコーディングの効率を高めるために、各々のリージョンを回転したり２Ｄイメージ上に再配列したりする過程を含む。例えば、リージョンを回転してリージョンの特定の辺を互いに近接させることにより、コーディング時の効率を向上させることができる。

実施例によって、この処理過程は、３６０°ビデオ上の領域ごとに解像度(ｒｅｓｏｌｕｔｉｏｎ)を差等化するために、特定のリージョンに対する解像度を上げるか或いは下げる過程を含む。例えば、３６０°ビデオ上において相対的にもっと重要な領域に該当するリージョンは、他のリージョンより解像度を上げることができる。２Ｄイメージ上にプロジェクションされたビデオデータ又はリージョンごとのパッキングされたビデオデータは、ビデオコーデックを通じた符号化過程を経ることができる。

実施例によって、準備過程はさらにエディット(ｅｄｉｔｉｎｇ)過程などを含むことができる。このエディット過程においては、さらにプロジェクション前後のイメージ／ビデオデータに対する編集などが行われる。準備過程でも同様に、スティチング／プロジェクション／符号化／エディットなどに関するメタデータが生成されることができる。また、２Ｄイメージ上にプロジェクションされたビデオデータの初期ビューポイント、或いはＲＯＩ(ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ)などに関するメタデータが生成されることができる。

送信過程は、準備過程を経たイメージ／ビデオデータ及びメタデータを処理して送信する過程である。送信のために任意の送信プロトコルによる処理が行われる。送信のための処理が行われたデータは、放送網及び／又は広帯域を介して伝達される。このデータはオン・デマンド(ＯｎＤｅｍａｎｄ)方式で受信側に伝達されることもできる。受信側では様々な経路を通じて該当データを受信する。

プロセシング過程は、受信したデータを復号し、プロジェクションされているイメージ／ビデオデータを３Ｄモデル上にリプロジェクション(Ｒｅ−ｐｒｏｊｅｃｔｉｏｎ)する過程を意味する。この過程において、２Ｄイメージ上にプロジェクションされているイメージ／ビデオデータが３Ｄ空間上にリプロジェクションされることができる。この過程を文脈により、マッピング、プロジェクションとも呼ぶ。この時、マッピングされる３Ｄ空間は、３Ｄモデルによって異なる形態を有する。例えば、３Ｄモデルとしては、球形(Ｓｐｈｅｒｅ)、キューブ(Ｃｕｂｅ)、シリンダー(Ｃｙｌｉｎｄｅｒ)又はピラミッド(Ｐｙｒａｍｉｄ)などがある。

実施例によって、プロセシング過程は、さらにエディット(ｅｄｉｔｉｎｇ)過程、アップスケーリング(ｕｐｓｃａｌｉｎｇ)過程など含む。このエディット過程においては、さらにリプロジェクション前後のイメージ／ビデオデータに対する編集などが行われる。イメージ／ビデオデータが縮小されている場合は、アップスケーリング過程においてサンプルのアップスケーリングによりそのサイズを拡大することができる。必要な場合、ダウンスケーリングによりサイズを縮小する作業を行うこともできる。

レンダリング過程は、３Ｄ空間上にリプロジェクションされたイメージ／ビデオデータをレンダリングしてディスプレイする過程を意味する。リプロジェクションとレンダリングを合わせて、３Ｄモデル上にレンダリングするとも表現できる。３Ｄモデル上にリプロジェクションされた(又は３Ｄモデル上にレンダリングされた)イメージ／ビデオは、図示された図１の(１３０)のような形態を有することができる。図示された図１の(１３０)は球形(Ｓｐｈｅｒｅ)の３Ｄモデルにリプロジェクションされた場合である。ユーザはＶＲディスプレイなどによりレンダリングされたイメージ／ビデオの一部領域を見ることができる。この時、ユーザが見る領域は図示された図１(１４０)のような形態であることができる。

フィードバック過程は、ディスプレイ過程から得られる様々なフィードバック情報を送信側に伝達する過程を意味する。フィードバック過程により、３６０°ビデオの消費において双方向性(Ｉｎｔｅｒａｃｔｉｖｉｔｙ)が提供される。実施例によって、フィードバック過程でヘッド方向(ＨｅａｄＯｒｉｅｎｔａｔｉｏｎ)情報、ユーザが現在見ている領域を示すビューポート(Ｖｉｅｗｐｏｒｔ)情報などが送信側に伝達される。実施例によって、ユーザはＶＲ環境上に具現されたものと相互作用することもできるが、この場合、その相互作用に関連する情報がフィードバック過程で送信側或いはサービス供給者に伝達される。実施例によって、フィードバック過程は省略できる。

ヘッド方向情報はユーザのヘッド位置、角度、動きなどに関する情報を意味する。これらの情報に基づいてユーザが現在３６０°ビデオで見ている領域に関する情報、即ち、ビューポート情報を計算することができる。

ビューポート情報は、現在ユーザが３６０°ビデオで見ている領域に関する情報である。これによりゲイズ分析(ＧａｚｅＡｎａｌｙｓｉｓ)が行われ、ユーザがどのような方式で３６０°ビデオを消費するか、３６０°ビデオのどの領域をどのくらい凝視するかなどを確認できる。ゲイズ分析は、受信側で行われて送信側にフィードバックチャネルを介して伝達される。ＶＲディスプレイなどの装置は、ユーザのヘッド位置／方向、装置が支援する垂直(ｖｅｒｔｉｃａｌ)或いは水平(Ｈｏｒｉｚｏｎｔａｌ)ＦＯＶなどに基づいて、ビューポート領域を抽出することができる。

実施例によって、上述したフィードバック情報は送信側に伝達されるだけではなく、受信側で消費されることもできる。即ち、上述したフィードバック情報を用いて受信側の復号、リプロジェクション、レンダリング過程などが行われる。例えば、ヘッド方向情報及び／又はビューポート情報を用いて現在ユーザが見ている領域に対する３６０°ビデオのみを優先して復号及びレンダリングすることができる。

ここで、ビューポート(ｖｉｅｗｐｏｒｔ)又はビューポート領域は、ユーザが３６０°ビデオで見ている領域を意味する。ビューポイント(ｖｉｅｗｐｏｉｎｔ)はユーザが３６０°ビデオで見ているところであって、ビューポート領域の真ん中を意味する。即ち、ビューポートはビューポイントを中心とする領域であるが、その領域が占めるサイズ、形態などは後述するＦＯＶ(ＦｉｅｌｄＯｆＶｉｅｗ)により決定される。

上述した３６０°ビデオ提供のための全体アーキテクチャ内において、キャプチャー／プロジェクション／符号化／送信／復号／リプロジェクション／レンダリングの一連の過程を経るイメージ／ビデオデータを、３６０°ビデオデータと呼ぶ。また３６０°ビデオデータという用語は、かかるイメージ／ビデオデータに関連するメタデータ或いはシグナリング情報を含む概念としても使用される。

上記オーディオ又はビデオなどのメディアデータを格納して送信するために、定型化されたメディアファイルフォーマットを定義できる。実施例によってメディアファイルは、ＩＳＯＢＭＦＦ(ＩＳＯｂａｓｅｍｅｄｉａｆｉｌｅｆｏｒｍａｔ)に基づくファイルフォーマットを有することができる。

図２及び図３は一部の一実施例によるメディアファイルの構造を示す図である。

本発明によるメディアファイルは、少なくとも一つ以上のボックスを含む。ここで、ボックス(ｂｏｘ)は、メディアデータ又はメディアデータに関連するメタデータなどを含むデータブロック或いはオブジェクトである。複数のボックスは互いに階層的構造を有し、これによりデータが分類されてメディアファイルが大容量メディアデータの格納及び／又は送信に適合した形態になる。またメディアファイルは、ユーザがメディアコンテンツの特定の地点に移動するなど、メディア情報への接近に容易な構造を有する。

一実施例によるメディアファイルはｆｔｙｐボックス、ｍｏｏｖボックス及び／又はｍｄａｔボックスを含む。

ｆｔｙｐボックス(ファイルタイプボックス)は、該当メディアファイルに対するファイルタイプ又は互換性関連情報を提供する。ｆｔｙｐボックスは該当メディアファイルのメディアデータに対する構成バージョン情報を含む。復号器はｆｔｙｐボックスを参照して該当メディアファイルを区分することができる。

ｍｏｏｖボックス(ムービーボックス)は、該当メディアファイルのメディアデータに関するメタデータを含むボックスである。ｍｏｏｖボックスは全てのメタデータのためのコンテナの役割を果たす。ｍｏｏｖボックスはメタデータ関連ボックスのうち、最上位階層のボックスである。実施例によって、ｍｏｏｖボックスはメディアファイル内に一つのみ存在する。

ｍｄａｔボックス(メディアデータボックス)は、該当メディアファイルの実際メディアデータを入れるボックスである。メディアデータはオーディオサンプル及び／又はビデオサンプルを含むが、ｍｄａｔボックスはかかるメディアサンプルを入れるコンテナの役割を果たす。

実施例によっては、上述したｍｏｏｖボックスは、さらにｍｖｈｄボックス、ｔｒａｋボックス及び／又はｍｖｅｘボックスなどを下位ボックスとして含むことができる。

ｍｖｈｄボックス(ムービーヘッダーボックス)は、該当メディアファイルに含まれるメディアデータのメディアプレゼンテーション関連情報を含む。即ち、ｍｖｈｄボックスは該当メディアプレゼンテーションのメディア生成時間、変更時間、時間規格、期間などの情報を含む。

ｔｒａｋボックス(トラックボックス)は、該当メディアデータのトラックに関連する情報を提供する。ｔｒａｋボックスはオーディオトラック又はビデオトラックに対するストリーム関連情報、プレゼンテーション関連情報、アクセス関連情報などの情報を含む。Ｔｒａｋボックスはトラックの数によって複数個存在する。

ｔｒａｋボックスは、実施例によって、さらにｔｋｈｄボックス(トラックヘッダボックス)を下位ボックスとして含む。ｔｋｈｄボックスはｔｒａｋボックスが示す該当トラックに関する情報を含む。ｔｋｈｄボックスは該当トラックの生成時間、変更時間、トラック識別子などの情報を含む。

ｍｖｅｘボックス(ムービー延長(ｅｘｔｅｎｄ)ボックス)は、該当メディアファイルに後述するｍｏｏｆボックスがあり得ることを指示する。特定トラックの全てのメディアサンプルを知るために、ｍｏｏｆボックスをスキャンする必要がある。

一実施例によるメディアファイルは、実施例によって、複数のフラグメントに分かれることができる(２００)。これにより、メディアファイルが分割されて格納又は送信される。メディアファイルのメディアデータ(ｍｄａｔボックス)は複数のフラグメントに分かれ、各々のフラグメントはｍｏｏｆボックスと分かれたｍｄａｔボックスを含む。実施例によって、フラグメントを活用するためには、ｆｔｙｐボックス及び／又はｍｏｏｖボックスの情報が必要である。

ｍｏｏｆボックス(ムービーフラグメントボックス)は、該当フラグメントのメディアデータに関するメタデータを提供する。ｍｏｏｆボックスは該当フラグメントのメタデータ関連ボックスのうちの最上位階層のボックスである。

ｍｄａｔボックス(メディアデータボックス)は、上述したように、実際のメディアデータを含む。このｍｄａｔボックスは、各々の該当フラグメントに該当するメディアデータのメディアサンプルを含む。

実施例によって、上述したｍｏｏｆボックスは、さらにｍｆｈｄボックス及び／又はｔｒａｆボックスなどを下位ボックスとして含むことができる。

ｍｆｈｄボックス(ムービーフラグメントヘッダボックス)は、分割された複数のフラグメントの連関性に関連する情報を含む。ｍｆｈｄボックスはシーケンス番号(Ｓｅｑｕｅｎｃｅｎｕｍｂｅｒ)を含み、該当フラグメントのメディアデータが分割された何番目のデータであるかを示す。また、ｍｆｈｄボックスを用いて、分割されたデータのうち、漏れたものがあるか否かを確認することができる。

ｔｒａｆボックス(トラックフラグメントボックス)は、該当トラックフラグメントに関する情報を含む。ｔｒａｆボックスは該当フラグメントに含まれる分割されたトラックフラグメントに関するメタデータを提供する。ｔｒａｆボックスは該当トラックフラグメント内のメディアサンプルが復号化／再生されるようにメタデータを提供する。ｔｒａｆボックスはトラックフラグメントの数によって複数個が存在することができる。

実施例によって、上述したｔｒａｆボックスは、さらにｔｆｈｄボックス及び／又はｔｒｕｎボックスなどを下位ボックスとして含むことができる。

ｔｆｈｄボックス(トラックフラグメントヘッダーボックス)は、該当トラックフラグメントのヘッダー情報を含む。ｔｆｈｄボックスは上述したｔｒａｆボックスが示すトラックフラグメントのメディアサンプルに対して、基本的なサンプルサイズ、期間、オフセット、識別子などの情報を提供する。

ｔｒｕｎボックス(トラックフラグメントランボックス)は、該当トラックフラグメント関連情報を含む。ｔｒｕｎボックスはメディアサンプルごとの期間、サイズ、再生時点などのような情報を含む。

上述したメディアファイル或いはメディアファイルのフラグメントは、セグメントで処理されて送信されることができる。セグメントには初期化セグメント(ｉｎｉｔｉａｌｉｚａｔｉｏｎＳｅｇｍｅｎｔ)及び／又はメディアセグメント(ｍｅｄｉａＳｅｇｍｅｎｔ)がある。

図示された実施例(２１０)のファイルは、メディアデータを除いて、メディア復号器の初期化に関連する情報などを含むファイルである。このファイルは、例えば、上述した初期化セグメントに該当する。初期化セグメントは上述したｆｔｙｐボックス及び／又はｍｏｏｖボックスを含む。

図示された実施例(２２０)のファイルは、上述したフラグメントを含むファイルである。このファイルは、例えば、上述したメディアセグメントに該当する。メディアセグメントは上述したｍｏｏｆボックス及び／又はｍｄａｔボックスを含む。さらにメディアセグメントはｓｔｙｐボックス及び／又はｓｉｄｘボックスを含むことができる。

ｓｔｙｐボックス(セグメントタイプボックス)は、分割されたフラグメントのメディアデータを識別するための情報を提供する。ｓｔｙｐボックスは分割されたフラグメントに対して、上述したｆｔｙｐボックスのような役割を果たす。実施例によって、ｓｔｙｐボックスはｆｔｙｐボックスと同じフォーマットを有することができる。

ｓｉｄｘボックス(セグメントインデックスボックス)は、分割されたフラグメントに対するインデックスを示す情報を提供する。これにより、該当分割されたフラグメントが何番目のフラグメントであるかが指示される。

実施例によって(２３０)、さらにｓｓｉｘボックスを含むことができるが、ｓｓｉｘボックス(サブセグメントインデックスボックス)は、セグメントがサブセグメントにさらに分かれる場合において、そのサブセグメントのインデックスを示す情報を提供する。

メディアファイル内のボックスは、図示された実施例(２５０)のようなボックス或いはフルボックス(ＦｕｌｌＢｏｘ)の形態に基づいて、より拡張した情報を含むことができる。この実施例において、ｓｉｚｅフィールド、ｌａｒｇｅｓｉｚｅフィールドは該当ボックスの長さをバイト単位などで示す。ｖｅｒｓｉｏｎフィールドは該当ボックスフォーマットのバージョンを示す。ｔｙｐｅフィールドは該当ボックスのタイプ或いは識別子を示す。ｆｌａｇｓフィールドは該当ボックスに関連するフラッグなどを示す。

一方、一実施例による３６０°ビデオに対するフィールド(属性)は、ＤＡＳＨ基盤の適応型(Ａｄａｐｔｉｖｅ)ストリーミングモデルに含まれて伝達されることができる。

図４はＤＡＳＨ基盤の適応型ストリーミングモデルの全般的な動作の一例を示す図である。

示された実施例(４００)によるＤＡＳＨ基盤の適応型ストリーミングモデルは、ＨＴＴＰサーバーとＤＡＳＨクライアントの間の動作について記載している。ここで、ＤＡＳＨ(ＤｙｎａｍｉｃＡｄａｐｔｉｖｅＳｔｒｅａｍｉｎｇｏｖｅｒＨＴＴＰ)は、ＨＴＴＰ基盤の適応型ストリーミングを支援するためのプロトコルであって、ネットワーク状況によって動的にストリーミングを支援する。これにより、ＡＶコンテンツ再生を続けて提供することができる。

まずＤＡＳＨクライアントはＭＰＤを得ることができる。ＭＰＤはＨＴＴＰサーバーなどのサービス供給者から伝達される。ＤＡＳＨクライアントはＭＰＤに記載されたセグメントへの接近情報を用いてサーバーに該当セグメントを要請することができる。ここで、この要請はネットワーク状態を反映して行われる。

ＤＡＳＨクライアントは該当セグメントを得た後、これをメディアエンジンで処理して画面にディスプレイする。ＤＡＳＨクライアントは再生時間及び／又はネットワーク状況などを実時間に反映して、必要なセグメントを要請して得ることができる(ＡｄａｐｔｉｖｅＳｔｒｅａｍｉｎｇ)。これにより、コンテンツを続けて再生することができる。

ＭＰＤ(ＭｅｄｉａＰｒｅｓｅｎｔａｔｉｏｎＤｅｓｃｒｉｐｔｉｏｎ)は、ＤＡＳＨクライアントがセグメントを動的に獲得するための詳細情報を含むファイルであり、ＸＭＬ形態で表現できる。

ＤＡＳＨクライアントコントローラー(ＤＡＳＨＣｌｉｅｎｔＣｏｎｔｒｏｌｌｅｒ)は、ネットワーク状況を反映してＭＰＤ及び／又はセグメントを要請するコマンドを生成する。また、このコントローラーは得られた情報をメディアエンジンなどの内部ブロックで使用できるように制御する。

ＭＰＤパーサー(Ｐａｒｓｅｒ)は得られたＭＰＤを実時間にパーシングする。これにより、ＤＡＳＨクライアントコントローラーは必要なセグメントを得るコマンドを生成することができる。

セグメントパーサーは得られたセグメントを実時間にパーシングする。セグメントに含まれた情報によってメディアエンジンなどの内部ブロックは特定の動作を行うことができる。

ＨＴＴＰクライアントは必要なＭＰＤ及び／又はセグメントなどをＨＴＴＰサーバーに要請する。またＨＴＴＰクライアントはサーバーから獲得したＭＰＤ及び／又はセグメントをＭＰＤパーサー又はセグメントパーサーに伝達する。

メディアエンジン(ＭｅｄｉａＥｎｇｉｎｅ)はセグメントに含まれたメディアデータを用いてコンテンツを画面上に示す。この時、ＭＰＤの情報が活用される。

ＤＡＳＨデータモデルは階層的構造(４１０)を有することができる。メディアプレゼンテーションはＭＰＤにより記述される。ＭＰＤはメディアプレゼンテーションを形成する複数の区間(Ｐｅｒｉｏｄ)の時間的なシーケンスを記述する。ピリオドはメディアコンテンツの一区間を示す。

１つの区間において、データはアダプテーションセットに含まれることができる。アダプテーションセットは、互いに交換可能な複数のメディアコンテンツコンポーネントの集合である。アダプテーションはレプリゼンテーションの集合を含む。レプリゼンテーションはメディアコンテンツコンポーネントに該当する。１つのレプリゼンテーション内において、コンテンツは複数のセグメントに時間的に分かれる。これは適切な接近性と伝達(ｄｅｌｉｖｅｒｙ)のためである。各々のセグメントに接近するために、各セグメントのＵＲＬが提供される。

ＭＰＤはメディアプレゼンテーションに関連する情報を提供し、期間エレメント、アダプテーションセットエレメント、レプリゼンテーションエレメントは各々、該当期間、アダプテーションセット、レプリゼンテーションについて記述できる。レプリゼンテーションはサブ−レプリゼンテーションに分かれるが、サブ−レプリゼンテーションエレメントは該当サブ−レプリゼンテーションについて記述することができる。

ここで、共通(Ｃｏｍｍｏｎ)属性／エレメントが定義されるが、これらはアダプテーションセット、レプリゼンテーション、サブ−レプリゼンテーションなどに適用できる(含まれることができる)。共通属性／エレメントのうちには、エッセンシャルプロパティー(ＥｓｓｅｎｔｉａｌＰｒｏｐｅｒｔｙ)及び／又は補足プロパティー(ＳｕｐｐｌｅｍｅｎｔａｌＰｒｏｐｅｒｔｙ)があり得る。

エッセンシャルプロパティーは、該当メディアプレゼンテーション関連データを処理するにおいて、必須であると思われるエレメントを含む情報である。補足プロパティーは該当メディアプレゼンテーション関連データを処理するにおいて、使用可能なエレメントを含む情報である。実施例によって、後述するディスクリプタは、ＭＰＤを通じて伝達される場合、エッセンシャルプロパティー及び／又は補足プロパティー内に定義されて伝達される。

図５は一実施例による３６０ビデオ送信装置の構成を概略的に説明する図である。

一実施例による３６０°ビデオ送信装置は、上述した準備過程或いは送信過程に関連する動作を行う。３６０°ビデオ送信装置は、データ入力部、ステッチャー(Ｓｔｉｔｃｈｅｒ)、プロジェクション処理部、リージョンごとのパッキング処理部(図示せず)、メタデータ処理部、(送信側)フィードバック処理部、データ符号器、カプセル化処理部、送信処理部及び／又は送信部を内／外部エレメントとして含む。

データ入力部にはキャプチャーされた各ビューポイントに対するイメージ／ビデオが入力される。このビューポイントごとのイメージ／ビデオは、一つ以上のカメラによりキャプチャーされたイメージ／ビデオである。またデータ入力部にはキャプチャー過程で発生したメタデータが入力される。データ入力部は入力された視点ごとのイメージ／ビデオをステッチャーに伝達し、キャプチャー過程のメタデータをシグナリング処理部に伝達する。

ステッチャーはキャプチャーされた視点ごとのイメージ／ビデオに対するスティチング作業を行う。ステッチャーはスティチングされた３６０°ビデオデータをプロジェクション処理部に伝達する。必要な場合、ステッチャーはメタデータ処理部から必要なメタデータを受けてスティチング作業に使用する。ステッチャーはスティチング過程で発生したメタデータをメタデータ処理部に伝達する。スティチング過程のメタデータとしては、スティチングが行われたか否か、スティチングタイプなどの情報がある。

プロジェクション処理部はスティチングされた３６０°ビデオデータを２Ｄイメージ上にプロジェクションする。プロジェクション処理部は様々なスキーム(Ｓｃｈｅｍｅ)によってプロジェクションを行うが、これについては後述する。プロジェクション処理部は各視点ごとの３６０°ビデオデータの該当深さを考慮してマッピングを行う。必要な場合、プロジェクション処理部はメタデータ処理部からプロジェクションに必要なメタデータを受けてプロジェクション作業に使用する。プロジェクション処理部はプロジェクション過程で発生したメタデータをメタデータ処理部に伝達する。プロジェクション処理部のメタデータとしては、プロジェクションスキームの種類などがある。

リージョンごとのパッキング処理部(図示せず)は上述したリージョンごとのパッキング過程を行う。即ち、リージョンごとのパッキング処理部はプロジェクションされた３６０°ビデオデータをリージョンごとに分け、各リージョンを回転、再配列するか、或いは各リージョンの解像度(ｒｅｓｏｌｕｔｉｏｎ)を変更するなどの処理を行う。上述したように、リージョンごとのパッキング過程は選択的(ｏｐｔｉｏｎａｌ)な過程であり、リージョンごとのパッキングが行われない場合は、リージョンごとのパッキング処理部は省略できる。必要な場合、リージョンごとのパッキング処理部はメタデータ処理部からリージョンごとのパッキングに必要なメタデータを受けてリージョンごとのパッキング作業に使用することができる。リージョンごとのパッキング処理部はリージョンごとのパッキング過程で発生したメタデータをメタデータ処理部に伝達する。リージョンごとのパッキング処理部のメタデータとしては、各リージョンの回転程度、サイズなどがある。

上述したステッチャー、プロジェクション処理部及び／又はリージョンごとのパッキング処理部は、実施例によっては、一つのハードウェアコンポーネントで行われることもできる。

メタデータ処理部は、キャプチャー過程、スティチング過程、プロジェクション過程、リージョンごとのパッキング過程、符号化過程、カプセル化過程及び／又は送信のための処理過程で発生し得るメタデータを処理する。メタデータ処理部では、かかるメタデータを用いて３６０°ビデオ関連メタデータを生成する。実施例によって、メタデータ処理部は３６０°ビデオ関連メタデータをシグナリングテーブルの形態で生成することもできる。シグナリング文脈により、３６０°ビデオ関連メタデータは、メタデータ又は３６０°ビデオ関連シグナリング情報とも呼ばれる。また、メタデータ処理部は獲得又は生成したメタデータを必要によって３６０°ビデオ送信装置の内部エレメントに伝達する。メタデータ処理部は３６０°ビデオ関連メタデータが受信側に送信されるように、データ符号器、カプセル化処理部及び／又は送信処理部に伝達することができる。

データ符号器は、２Ｄイメージ上にプロジェクションされた３６０°ビデオデータ及び／又はリージョンごとのパッキングされた３６０°ビデオデータを符号化する。３６０°ビデオデータは様々なフォーマットに符号化できる。

カプセル化処理部は、符号化された３６０ビデオデータ及び／又は３６０ビデオ関連メタデータをファイルなどの形態でカプセル化することができる。ここで、３６０ビデオ関連メタデータは、上述したメタデータ処理部から伝達されたものである。カプセル化処理部は、該当データをＩＳＯＢＭＦＦ、ＣＦＦなどのファイルフォーマットにカプセル化したり、その他のＤＡＳＨセグメントなどの形態に処理したりすることができる。カプセル化処理部は、実施例によって３６０ビデオ関連メタデータをファイルフォーマットに含ませることができる。３６０関連メタデータは、例えば、ＩＳＯＢＭＦＦファイルフォーマット上の様々なレベルのボックスに含まれるか、或いはファイル内で所定のトラック内のデータに含まれる。実施例によって、カプセル化処理部は、３６０ビデオ関連メタデータ自体をファイルにカプセル化する。送信処理部は、ファイルフォーマットによってカプセル化された３６０ビデオデータに送信のための処理を行う。送信処理部は、任意の送信プロトコルによって３６０ビデオデータを処理する。送信のための処理は、放送網を介した伝達のための処理、広帯域を介した伝達のための処理を含む。実施例によって、送信処理部には、３６０ビデオデータだけではなく、メタデータ処理部から３６０ビデオ関連メタデータが伝達され、そこに送信のための処理を加えることもできる。

送信部は送信処理された３６０°ビデオデータ及び／又は３６０°ビデオ関連メタデータを放送網及び／又は広帯域を介して送信する。送信部は放送網を介した送信のためのエレメント及び／又は広帯域による送信のためのエレメントを含む。

３６０°ビデオの送信装置の一実施例によれば、さらに３６０°ビデオの送信装置は、データ格納部(図示せず)を内／外部エレメントとして含む。データ格納部は、符号化された３６０°ビデオデータ及び／又は３６０°ビデオ関連メタデータを送信処理部に伝達する前に格納する。このデータが格納される形態はＩＳＯＢＭＦＦなどのファイル形態である。実時間に３６０°ビデオを送信する場合にはデータ格納部が不要であるが、オン・デマンド、ＮＲＴ(ＮｏｎＲｅａｌＴｉｍｅ)、広帯域などを介して伝達する場合にはカプセル化された３６０データがデータ格納部に一定期間格納された後に送信されることができる。

３６０ビデオの送信装置の他の実施例によれば、さらに３６０ビデオの送信装置は、(送信側)フィードバック処理部及び／又はネットワークインターフェース(図示せず)を内／外部エレメントとして含む。ネットワークインターフェースには、本発明による３６０ビデオ受信装置からフィードバック情報が伝達され、これを送信側フィードバック処理部に伝達する。送信側フィードバック処理部は、フィードバック情報をステッチャー、プロジェクション処理部、リージョンごとのパッキング処理部、データ符号器、カプセル化処理部、メタデータ処理部及び／又は送信処理部に伝達する。実施例によって、フィードバック情報はメタデータ処理部に一旦伝達された後、再び各々の内部エレメントに伝達される。フィードバック情報が伝達された内部エレメントは、今後の３６０°ビデオデータ処理にフィードバック情報を反映することができる。

３６０ビデオの送信装置のさらに他の実施例によれば、リージョンごとのパッキング処理部は、各リージョンを回転して２Ｄイメージ上にマッピングする。この時、各リージョンは互いに異なる方向、互いに異なる角度に回転して２Ｄイメージ上にマッピングされる。リージョンの回転は、３６０°ビデオデータが球面上においてプロジェクション前に隣接した部分、スティチングされた部分などを考慮して行われる。リージョンの回転に関する情報、即ち、回転方向、角度などは、３６０ビデオ関連メタデータによりシグナリングされる。３６０ビデオの送信装置のさらに他の実施例によれば、データ符号器は各リージョンごとに異なるように符号化を行う。データ符号器は、特定のリージョンは高品質に、他のリージョンは低品質に符号化する。送信側のフィードバック処理部は、３６０ビデオの受信装置から伝達されたフィードバック情報をデータ符号器に伝達して、データ符号器がリージョンごとに差等化した符号化方法を使用するようにする。例えば、送信側のフィードバック処理部は受信側から伝達されたビューポート情報をデータ符号器に伝達する。データ符号器はビューポート情報が指示する領域を含むリージョンに対して、他のリージョンよりも高い品質(ＵＨＤなど)に符号化することができる。

３６０°ビデオ送信装置のさらに他の実施例によれば、送信処理部は各リージョンごとに異なるように送信のための処理を行う。送信処理部はリージョンごとに異なる送信パラメータ(モジュレーションオーダ、符号レートなど)を適用して、各リージョンごとに伝達されるデータの剛健性(ｒｏｂｕｓｔｅｎｓｓ)を変更することができる。

この時、送信側のフィードバック処理部は、３６０°ビデオ受信装置から伝達されたフィードバック情報を送信処理部に伝達して、送信処理部がリージョンごとに差等化した送信処理を行うようにする。例えば、送信側のフィードバック処理部は、受信側から伝達されたビューポート情報を送信処理部に伝達する。送信処理部は該当ビューポート情報が指示する領域を含むリージョンに対して、他のリージョンよりも高い剛健性を有するように送信処理を行う。

上述した３６０°ビデオ送信装置の内／外部エレメントは、ハードウェアで具現されるハードウェアエレメントである。実施例によって、内／外部エレメントは変更、省略されるか、或いは他のエレメントに代替、統合される。実施例によって、付加エレメントが３６０ビデオ送信装置に追加されることができる。

図６は一実施例による３６０ビデオ受信装置の構成を概略的に説明する図である。

一実施例による３６０ビデオ受信装置は、上述したプロセシング過程及び／又はレンダリング過程に関連する動作を行う。３６０ビデオ受信装置は、受信部、受信処理部、カプセル除去(ｄｅｃａｐｓｕｌａｔｉｏｎ)処理部、データ復号器、メタデータパーザ、(受信側)フィードバック処理部、リプロジェクション処理部及び／又はレンダラーを内／外部エレメントとして含む。なお、シグナリングパーザはメタデータパーザとも呼ばれる。

受信部は、一実施例による３６０ビデオ送信装置が送信した３６０ビデオデータを受信する。送信されるチャネルによって受信部は放送網により３６０ビデオデータを受信し、広帯域を介して３６０ビデオデータを受信することもできる。

受信処理部は、受信された３６０ビデオデータに対して送信プロトコルによる処理を行う。送信側で送信のための処理が行われたことに対応するように、受信処理部は上述した送信処理部の逆過程を行う。受信処理部は得られた３６０ビデオデータをカプセル除去処理部に伝達し、得られた３６０ビデオ関連メタデータはメタデータパーザに伝達する。受信処理部が得る３６０ビデオ関連メタデータはシグナリングテーブルの形態である。

カプセル除去処理部は受信処理部から伝達されたファイル形態の３６０ビデオデータをカプセル除去する。カプセル除去処理部はＩＳＯＢＭＦＦなどによるファイルをカプセル除去して、３６０ビデオデータ或いは３６０ビデオ関連メタデータを得ることができる。得られた３６０°ビデオデータはデータ復号器に、得られた３６０°ビデオ関連メタデータはメタデータパーザに伝達する。カプセル除去処理部が得る３６０°ビデオ関連メタデータはファイルフォーマット内のボックス或いはトラック形態である。必要な場合、カプセル除去処理部にはメタデータパーザからカプセル除去に必要なメタデータが伝達される。

データ復号器は３６０ビデオデータに対する復号を行う。データ復号器にはメタデータパーザから復号に必要なメタデータが伝達されることもできる。データ復号過程で得られた３６０°ビデオ関連メタデータはメタデータパーザに伝達されることもできる。

メタデータパーザは３６０ビデオ関連メタデータに対するパーシング／復号を行う。メタデータパーザは、得られたメタデータをデータカプセル除去処理部、データ復号器、リプロジェクション処理部及び／又はレンダラーに伝達することができる。

リプロジェクション処理部は復号された３６０ビデオデータに対してリプロジェクションを行う。リプロジェクション処理部は３６０ビデオデータを３Ｄ空間にリプロジェクションすることができる。３Ｄ空間は使用される３Ｄモデルによって異なる形態を有する。リプロジェクション処理部はメタデータパーザからリプロジェクションに必要なメタデータが伝達されることもできる。例えば、リプロジェクション処理部には使用される３Ｄモデルのタイプ及びその細部情報に関する情報がメタデータパーザから伝達される。実施例によってリプロジェクション処理部はリプロジェクションに必要なメタデータを用いて、３Ｄ空間上の特定の領域に該当する３６０°ビデオデータのみを３Ｄ空間にリプロジェクションすることもできる。

レンダラーはリプロジェクションされた３６０ビデオデータをレンダリングする。上述したように、３６０ビデオデータが３Ｄ空間上にレンダリングされると表現することもできるが、このように２つの過程が同時に起こる場合、リプロジェクション処理部とレンダラーが統合されて、レンダラーでこれらの全過程が進行されることができる。実施例によって、レンダラーはユーザの視点情報によってユーザが見ている部分のみをレンダリングすることもできる。

ユーザはＶＲディスプレイなどによりレンダリングされた３６０ビデオの一部領域を見ることができる。ＶＲディスプレイは３６０ビデオを再生する装置であって、３６０ビデオ受信装置に含まれるか(ｔｅｔｈｅｒｅｄ)、又は別途の装置として３６０ビデオ受信装置に連結される(ｕｎ−ｔｅｔｈｅｒｅｄ)。

３６０ビデオ受信装置の一実施例によれば、さらに３６０°ビデオ受信装置は、(受信側)フィードバック処理部及び／又はネットワークインターフェース(図示せず)を内外部エレメントとして含む。受信側のフィードバック処理部はレンダラー、リプロジェクション処理部、データ復号器、カプセル除去処理部及び／又はＶＲディスプレイからフィードバック情報を得て処理することができる。フィードバック情報はビューポート情報、ヘッド方向情報、ゲイズ(Ｇａｚｅ)情報などを含む。ネットワークインターフェースはフィードバック情報を受信側のフィードバック処理部から受けて、それを３６０ビデオ送信装置に送信する。

上述したように、フィードバック情報は送信側に伝達されるだけではなく、受信側で消費されることもできる。受信側のフィードバック処理部は得られたフィードバック情報を３６０ビデオ受信装置の内部エレメントに伝達して、レンダリングなどの過程に反映させることができる。受信側のフィードバック処理部はフィードバック情報をレンダラー、リプロジェクション処理部、データ復号器及び／又はカプセル除去処理部に伝達する。例えば、レンダラーはフィードバック情報を活用してユーザが見ている領域を優先してレンダリングする。また、カプセル除去処理部、データ復号器などは、ユーザが見ている領域或いは見る領域を優先してカプセル除去、復号することができる。

上述した本発明による３６０ビデオ受信装置の内／外部エレメントは、ハードウェアで具現されるハードウェアエレメントである。実施例によって、内／外部エレメントは変更、省略されるか、又は他のエレメントに代替、統合されることができる。実施例によって、付加エレメントが３６０ビデオ受信装置に追加されることもできる。

本発明のさらに他の観点は、上記一実施例による３６０ビデオ受信装置の動作方法は、３６０ビデオを送信する方法及び３６０ビデオを受信する方法に関連する。一実施例による３６０ビデオを送信／受信する方法は、各々上述した一実施例による３６０°ビデオ送信／受信装置又はその装置の実施例により行われる。

上述した一実施例による３６０ビデオ送信／受信装置、送信／受信方法の各々の実施例及びその内／外部エレメントの各々の実施例を互いに組み合わせることができる。例えば、プロジェクション処理部の実施例とデータ符号器の実施例とを組み合わせて、その場合の数だけの３６０°ビデオ送信装置の実施例を作ることができる。

図７は一実施例による３Ｄ空間を説明するための飛行機主軸(ＡｉｒｃｒａｆｔＰｒｉｎｃｉｐａｌＡｘｅｓ)の概念を示す図である。

本発明では３Ｄ空間における特定の地点、位置、方向、間隔、領域などを表現するために、飛行機主軸の概念が使用されている。即ち、本発明ではプロジェクション前又はリプロジェクション後の３Ｄ空間について記載しており、それに対するシグナリングを行うために飛行機主軸の概念を使用することができる。実施例によっては、Ｘ、Ｙ、Ｚ軸を用いる直交座標系又は球座標系を用いた方法が使用されることもできる。

飛行機は３次元に自由に回転できる。３次元をなす軸を各々、ピッチ(ｐｉｔｃｈ)軸、ヨー(ｙａｗ)軸及びロール(ｒｏｌｌ)軸と呼ぶ。本明細書では、これらを簡略にｐｉｔｃｈ、ｙａｗ、ｒｏｌｌ又はｐｉｔｃｈ方向、ｙａｗ方向、ｒｏｌｌ方向とも表現する。

一例として、ｒｏｌｌ軸は、直交座標系のＸ軸又はｂａｃｋ−ｔｏ−ｆｒｏｎｔ軸に対応する。又はｒｏｌｌ軸は、示された飛行機の主軸概念において、飛行機の先端から後端に続く軸であり、ｒｏｌｌ方向の回転とは、ｒｏｌｌ軸を基準とする回転を意味する。ｒｏｌｌ軸を基準として回転した角度を意味するｒｏｌｌ値の範囲は−１８０°から１８０°までであり、この時、境界値−１８０°及び１８０°はｒｏｌｌ値の範囲に含まれる。

他の例として、ｐｉｔｃｈ軸は、直交座標系のＹ軸又はＳｉｄｅ−ｔｏ−ｓｉｄｅ軸に対応する。又はＰｉｔｃｈ軸は、飛行機の先端が上／下に回転する方向の基準になる軸を意味する。示された飛行機の主軸概念において、ｐｉｔｃｈ軸は飛行機の翼から翼に続く軸を意味する。ｐｉｔｃｈ軸を基準として回転した角度を意味するｐｉｔｃｈ値の範囲は−９０°から９０°までであり、この時、境界値−９０°及び９０°はｐｉｔｃｈ値の範囲に含まれる。

さらに他の例として、ｙａｗ軸は、直交座標系のＺ軸又は垂直軸(ｖｅｒｔｉｃａｌａｘｉｓ)に対応する。又はｙａｗ軸は、飛行機の先端が左／右に回転する方向の基準になる軸を意味する。示された飛行機の主軸概念において、ｙａｗ軸は飛行機の上から下に続く軸を意味する。ｙａｗ軸を基準として回転した角度を意味するｙａｗ値の範囲は−１８０°から１８０°までであり、この時、境界値−１８０°及び１８０°はｙａｗ値の範囲に含まれる。

一実施例による３Ｄ空間において、ｙａｗ軸、ｐｉｔｃｈ軸及びｒｏｌｌ軸を決定する基準となる中央点(ｃｅｎｔｅｒｐｏｉｎｔ)は固定していない。

上述したように、ｐｉｔｃｈ、ｙａｗ及びｒｏｌｌの概念により、本発明での３Ｄ空間が記載される。

上述したように、２Ｄイメージ上にプロジェクションされたビデオデータは、ビデオのコーディング効率を高めるために、リージョンごとのパッキング過程(Ｒｅｇｉｏｎ−ｗｉｓｅＰａｃｋｉｎｇ)が行われる。リージョンごとのパッキング過程は、２Ｄイメージ上にプロジェクションされたビデオデータをリージョンごとに分けて処理する過程を意味する。リージョンは３６０ビデオデータがプロジェクションされた２Ｄイメージが分けられた領域を示し、２Ｄイメージが分けられたリージョンはプロジェクションスキームによって区分されることができる。ここで、２Ｄイメージはビデオフレーム又はフレームとも呼ばれる。

これに関連して、本発明では、プロジェクションスキームによるリージョンごとのパッキング過程に対するメタデータ及びメタデータのシグナリング方法を提案する。メタデータに基づいて、リージョンごとのパッキング過程がより効率的に行われることができる。

図８は３６０ビデオの処理過程及びプロジェクションフォーマットによるリージョンごとのパッキング過程が適用された２Ｄイメージを例示する図である。

図８の(ａ)は入力された３６０ビデオデータの処理過程を示す。図８の(ａ)を参照すると、入力された視点の３６０ビデオデータは様々なプロジェクションスキームによって３Ｄプロジェクション構造にスティチング及びプロジェクションされ、３Ｄプロジェクション構造にプロジェクションされた３６０ビデオデータは２Ｄイメージで示すことができる。即ち、３６０ビデオデータがスティチングされて、２Ｄイメージにプロジェクションされることができる。３６０ビデオデータがプロジェクションされた２Ｄイメージは、プロジェクションされたフレーム(ｐｒｏｊｅｃｔｅｄｆｒａｍｅ)とも表すことができる。プロジェクションされたフレームでは、上述したリージョンごとのパッキング過程が行われる。即ち、プロジェクションされたフレーム上のプロジェクションされた３６０ビデオデータを含む領域をリージョンに区分し、各リージョンを回転、再配列又は各リージョンの解像度を変更するなどの処理が行われる。即ち、リージョンごとのパッキング過程は、プロジェクションされたフレームを一つ以上のパッキングされたフレーム(ｐａｃｋｅｄｆｒａｍｅ)にマッピングする過程を示す。リージョンごとのパッキング過程は選択的(ｏｐｔｉｏｎａｌ)なものであり、リージョンごとのパッキング過程が適用されない場合は、パッキングされたフレームとプロジェクションされたフレームが同一であることができる。リージョンごとのパッキング過程が適用される場合には、プロジェクションされたフレームの各リージョンが、パッキングされたフレームのリージョンにマッピングされることができ、プロジェクションされたフレームの各リージョンがマッピングされるパッキングされたフレームのリージョンの位置、模様及びサイズを示すメタデータが導き出されることができる。

図８の(ｂ)及び(ｃ)はプロジェクションされたフレームの各リージョンがパッキングされたフレームのリージョンにマッピングされる例を示す。図８の(ｂ)を参照すると、３６０ビデオデータはパノラミック(ｐａｎｏｒａｍｉｃ)プロジェクションスキーム(ｐｒｏｊｅｃｔｉｏｎｓｃｈｅｍｅ)によって２Ｄイメージ(又はフレーム)にプロジェクションされることができる。プロジェクションされたフレームの上端面(ｔｏｐ)リージョン、中端面(ｍｉｄｄｌｅ)リージョン及び下端面(ｂｏｔｔｏｍ)リージョンは、リージョンごとのパッキング過程が適用されて右側図のように再配列されることができる。ここで、上端面リージョンは２Ｄイメージ上でパノラマの上端面を示すリージョンであり、中端面リージョンは２Ｄイメージ上でパノラマの中端面を示すリージョンであり、下端面リージョンは２Ｄイメージ上でパノラマの下端面を示すリージョンである。また、図８の(ｃ)を参照すると、３６０ビデオデータはキュービク(ｃｕｂｉｃ)プロジェクションスキームによって２Ｄイメージ(又はフレーム)にプロジェクションされることができる。プロジェクションされたフレームの前面(ｆｒｏｎｔ)リージョン、後面(ｂａｃｋ)リージョン、上面(ｔｏｐ)リージョン、底面(ｂｏｔｔｏｍ)リージョン、右側面(ｒｉｇｈｔ)リージョン及び左側面(ｌｅｆｔ)リージョンは、リージョンごとのパッキング過程が適用されて右側図のように再配列されることができる。ここで、前面リージョンは２Ｄイメージ上でキューブの前面を示すリージョンであり、後面リージョンは２Ｄイメージ上でキューブの後面を示すリージョンである。上面リージョンは２Ｄイメージ上でキューブの上面を示すリージョンであり、底面リージョンは２Ｄイメージ上でキューブの底面を示すリージョンである。また、右側面リージョンは２Ｄイメージ上でキューブの右側面を示すリージョンであり、左側面リージョンは２Ｄイメージ上でキューブの左側面を示すリージョンである。

図８の(ｄ)は３６０ビデオデータがプロジェクションされる様々な３Ｄプロジェクションフォーマットを示す。図８の(ｄ)を参照すると、３Ｄプロジェクションフォーマットは四面体(ｔｅｔｒａｈｅｄｒｏｎ)、キューブ(ｃｕｂｅ)、八面体(ｏｃｔａｈｅｄｒｏｎ)、十二面体(ｄｏｄｅｃａｈｅｄｒｏｎ)、二十面体(ｉｃｏｓａｈｅｄｒｏｎ)を含む。図８の(ｄ)に示された２Ｄプロジェクションは３Ｄプロジェクションフォーマットにプロジェクションされた３６０ビデオデータを２Ｄイメージで示したプロジェクションされたフレームを示す。

プロジェクションフォーマットの一例として、一実施例によれば、様々なプロジェクションフォーマット(又はプロジェクションスキーム)のうちの一部又は全部が使用される。３６０ビデオについてどのプロジェクションフォーマットが使用されたかは、例えば、メタデータのプロジェクションフォーマットフィールドにより指示されることができる。

図９ａ及び図９ｂは一部の実施例によるプロジェクションフォーマットを例示する図である。

図９ａの(ａ)は等正方形プロジェクションフォーマットを示す。等正方形プロジェクションフォーマットが使用される場合、球面上の(ｒ、θ０、０)、即ち、θ＝θ_０、φ＝０である点と２Ｄイメージの中央ピクチャがマッピングされることができる。また、前面カメラの主点(ｐｒｉｎｃｉｐａｌｐｏｉｎｔ)を球面の(ｒ、０、０)点と仮定することができる。また、φ_０＝０に固定することができる。従って、ＸＹ座標系に変換された値(ｘ、ｙ)は、以下の式によって２Ｄイメージ上に(Ｘ、Ｙ)ピクチャに変換されることができる。

また、２Ｄイメージの左上端ピクチャをＸＹ座標系の(０,０)に位置させる場合、ｘ軸に対するオフセット値及びｙ軸に対するオフセット値は以下の式のように示すことができる。

これを用いてＸＹ座標系への返還式を書き換えると、以下の通りである。

例えば、θ_０＝０である場合、即ち、２Ｄイメージの中央ピクチャが球面上のθ＝０であるデータを指す場合、球面は(０,０)を基準として２Ｄイメージ上で幅(ｗｉｄｔｈ)＝２Ｋ_xπrであり、高さ(ｈｅｉｇｈｔ)＝Ｋ_xπrの領域にマッピングされることができる。球面上でφ＝π／２であるデータは、２Ｄイメージ上の上側辺の全体にマッピングされることができる。また球面上で(r、π／２、０)であるデータは、２Ｄイメージ上の(３πＫ_xｒ／２、πＫ_xｒ／２)の点にマッピングされることができる。

受信側では、２Ｄイメージ上の３６０ビデオデータを球面上にリプロジェクション(ｒｅ−ｐｒｏｊｅｃｔｉｏｎ)することができる。これを返還式で書くと、以下の通りである。

例えば、２Ｄイメージ上でＸＹ座標値が(Ｋ_xπｒ，０)であるピクチャは、球面上のθ＝θ₀、φ＝π／２である点にリプロジェクションされることができる。

図９ａの(ｂ)はキュービクプロジェクションフォーマットを示す。例えば、スティチングされた３６０ビデオデータは球面上に示されることができる。プロジェクション処理部はかかる３６０ビデオデータをキューブ(Ｃｕｂｅ、立方体)形態に分けて２Ｄイメージ上にプロジェクションすることができる。球面上の３６０ビデオデータはキューブの各面に対応して、２Ｄイメージ上に図９ａの(ｂ)左側又は(ｂ)右側に示したようにプロジェクションされることができる。

図９ａの(ｃ)はシリンダー型のプロジェクションフォーマットを示す。スティチングされた３６０ビデオデータが球面上に示されると仮定する時、プロジェクション処理部はかかる３６０ビデオデータをシリンダー形態に分けて２Ｄイメージ上にプロジェクションすることができる。球面上の３６０ビデオデータはシリンダーの側面(ｓｉｄｅ)、上面(ｔｏｐ)、底面(ｂｏｔｔｏｍ)に各々対応し、２Ｄイメージ上に図８Ａの(ｃ)左側又は(ｃ)右側に示したようにプロジェクションされることができる。

図９ａの(ｄ)はタイル基盤のプロジェクションフォーマットを示す。タイル基盤(Ｔｉｌｅ−ｂａｓｅｄ)のプロジェクションスキームが使用される場合、上述したプロジェクション処理部は球面上の３６０ビデオデータを、図９ａの(ｄ)に示したように、一つ以上の細部領域に分けて２Ｄイメージ上にプロジェクションすることができる。この細部領域はタイルとも呼ばれる。

図９ｂの(ｅ)はピラミッドプロジェクションフォーマットを示す。スティチングされた３６０ビデオデータが球面上に示されると仮定する時、プロジェクション処理部はかかる３６０ビデオデータをピラミッド形態であるとして、各面を分けて２Ｄイメージ上にプロジェクションすることができる。球面上の３６０ビデオデータは、ピラミッドの底面(ｆｒｏｎｔ)、ピラミッドの４方向の側面(Ｌｅｆｔｔｏｐ、Ｌｅｆｔｂｏｔｔｏｍ、Ｒｉｇｈｔｔｏｐ、Ｒｉｇｈｔｂｏｔｔｏｍ)に各々対応し、２Ｄイメージ上に図８ｂの(ｅ)左側又は(ｅ)右側に示されたように、プロジェクションすることができる。ここで、底面は正面を見るカメラが得たデータを含む領域である。

図９ｂの(ｆ)はパノラミックプロジェクションフォーマットを示す。パノラミックプロジェクションフォーマットが使用される場合、上述したプロジェクション処理部は、図９ｂの(ｆ)に示したように、球面上の３６０ビデオデータのうち、側面のみを２Ｄイメージ上にプロジェクションすることができる。これはシリンダー型のプロジェクションスキームにおいて、上面(ｔｏｐ)と底面(ｂｏｔｔｏｍ)が存在しない場合と同様である。

一方、一実施例によれば、スティチング無しにプロジェクションが行われることができる。図９ｂの(ｇ)はスティチング無しにプロジェクションが行われる場合を示す。スティチング無しにプロジェクションされる場合、上述したプロジェクション処理部は、図９ｂの(ｇ)に示したように、３６０ビデオデータをそのまま２Ｄイメージ上にプロジェクションすることができる。この場合、スティチングは行われず、カメラで得た各々のイメージがそのまま２Ｄイメージ上にプロジェクションされることができる。

図９ｂの(ｇ)を参照すると、２つのイメージが２Ｄイメージ上にスティチング無しにプロジェクションされることができる。各々のイメージは球形カメラ(Ｓｐｈｅｒｉｃａｌｃａｍｅｒａ)(又は魚眼(ｆｉｓｈ−ｅｙｅ)カメラ)で各センサにより得た魚眼イメージである。上述したように、受信側でカメラセンサから得るイメージデータをスティチングすることができ、スティチングされたイメージデータを球面(Ｓｐｈｅｒｉｃａｌｓｕｒｆａｃｅ)上にマッピングして球形ビデオ(Ｓｐｈｅｒｉｃａｌｖｉｄｅｏ)、即ち、３６０ビデオをレンダリングすることができる。

図１０ａ及び１０ｂは一実施例によるタイル(Ｔｉｌｅ)を示す図である。

２Ｄイメージにプロジェクションされた３６０ビデオデータ又はリージョンごとのパッキングまで行われた３６０ビデオデータは一つ以上のタイルに区分できる。示された図１０ａは一つの２Ｄイメージが１６個のタイルに分かれた形態を示している。ここで、２Ｄイメージとは、上述したプロジェクトフレーム或いはパッキングされたフレーム(ｐａｃｋｅｄｆｒａｍｅ)である。本発明による３６０ビデオ送信装置のさらに他の実施例によれば、データ符号器は各々のタイルを独立して符号化することができる。

上述したリージョンごとのパッキングとタイリング(Ｔｉｌｉｎｇ)は区分される。上述したリージョンごとのパッキングは、コーディング効率を高めるために、又は解像度を調整するために、２Ｄイメージ上にプロジェクションされた３６０ビデオデータをリージョンで区分して処理することを意味する。タイリングは、データ符号器がプロジェクトフレーム乃至パッキングされたフレームをタイルという区画に分け、該当タイルごとに独立して符号化を行うことを意味する。３６０ビデオが提供される時、ユーザは３６０ビデオの全部分を同時に消費しない。タイリングは制限された帯域幅上でユーザが現在見ているビューポートなどの重要部分或いは一定部分に該当するタイルのみを受信側に送信或いは消費することを可能にする。タイリングにより制限された帯域幅をさらに効率的に活用することができ、受信側でも全ての３６０ビデオデータを一回に全部処理することに比べて演算負荷を減らすことができる。

リージョンとタイルは区分されるので、２つの領域が等しい必要はない。しかし、実施例によっては、リージョンとタイルは同じ領域を称することができる。実施例によって、タイルに合わせてリージョンごとのパッキングが行われてリージョンとタイルが等しいことができる。実施例によっては、プロジェクションスキームによる各面とリージョンが同一である場合、プロジェクションスキームによる各面、リージョン、タイルが同じ領域を称することもできる。文脈によって、リージョンをＶＲリージョン、タイルをタイルリージョンと呼ぶこともできる。

ＲＯＩ(ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ)は、３６０コンテンツ提供者が提案する、ユーザの関心領域を意味する。３６０コンテンツ提供者は３６０ビデオを製作する時、ある特定領域にユーザが関心を持つと判断して、それを考慮して３６０ビデオを製作する。実施例によってＲＯＩは３６０ビデオのコンテンツ上、重要な内容が再生される領域に該当する。

３６０ビデオ送信／受信装置のさらに他の実施例によれば、受信側フィードバック処理部はビューポート情報を抽出、収集して、それを送信側フィードバック処理部に伝達する。この過程において、ビューポート情報は両側のネットワークインターフェースを用いて伝達される。示された図１０ａの２Ｄイメージにビューポート１０００が表示されている。ここで、ビューポートは２Ｄイメージ上の９個のタイルにわたることができる。

この場合、さらに３６０ビデオ送信装置はタイリングシステムを含む。実施例によってタイリングシステムは、データ符号器の後に位置することもでき(図示した１０ｂ)、上述したデータ符号器或いは送信処理部内に含まれることもでき、別途の内／外部エレメントとして３６０ビデオ送信装置に含まれることもできる。

タイリングシステムでは送信側フィードバック処理部からビューポート情報が伝達される。タイリングシステムはビューポート領域が含まれるタイルのみを選別して送信することができる。図示した図１０ａの２Ｄイメージにおいて、総１６個のタイルのうち、ビューポート領域(１０００)を含む９個のタイルのみが送信されることができる。ここで、タイリングシステムは広帯域によるユニキャスト方式でタイルを送信する。ユーザによってビューポート領域が異なるためである。

この場合、送信側フィードバック処理部はビューポート情報をデータ符号器に伝達することができる。データ符号器はビューポート領域を含むタイルについて他のタイルより高い品質で符号化を行う。

またこの場合、送信側フィードバック処理部はビューポート情報をメタデータ処理部に伝達することができる。メタデータ処理部はビューポート領域に関連するメタデータを３６０ビデオ送信装置の各内部エレメントに伝達するか、又は３６０ビデオ関連メタデータに含むことができる。

かかるタイリング方式により、送信帯域幅を節約でき、タイルごとに差等化された処理を行って効率的なデータ処理／送信が可能になる。

上述したビューポート領域に関連する実施例は、ビューポート領域ではない他の特定の領域についても類似方式を適用することができる。例えば、上述したゲイズ分析によりユーザが主に関心を持つと判断された領域、ＲＯＩ領域、ユーザがＶＲディスプレイにより３６０ビデオに接する時、最初に再生される領域(初期視点、ＩｎｉｔｉａｌＶｉｅｗｐｏｉｎｔ)などについても、上述したビューポート領域のような方式の処理が行われる。

３６０ビデオ送信装置のさらに他の実施例によれば、送信処理部は各タイルごとに異なるように送信のための処理を行うことができる。送信処理部はタイルごとに異なる送信パラメータ(モジュレーションオーダ、符号レートなど)を適用して、各タイルごとに伝達されるデータの剛健性(ｒｏｂｕｓｔｅｎｓｓ)を変更することができる。

この時、送信側のフィードバック処理部は３６０°ビデオ受信装置から伝達されたフィードバック情報を送信処理部に伝達して、送信処理部がタイルごとの差等化した送信処理を行うようにする。例えば、送信側フィードバック処理部は、受信側から伝達されたビューポート情報を送信処理部に伝達する。送信処理部は該当ビューポート領域を含むタイルに対して、他のタイルよりも高い剛健性を有するように送信処理を行う。

図１１は一実施例による３６０°ビデオ関連のメタデータの一例を示す。

上述したように、３６０°ビデオ関連のメタデータは、３６０°ビデオに関する様々なメタデータを含む。文脈によって、３６０°ビデオ関連のメタデータは、３６０°ビデオ関連のシグナリング情報とも呼ばれる。３６０°ビデオ関連のメタデータは、別のシグナリングテーブルに含まれて送信され、ＤＡＳＨＭＰＤ内に含まれて送信されることもでき、ＩＳＯＢＭＦＦなどのファイルフォーマットにボックス形態で含まれて伝達されることもできる。３６０°ビデオ関連のメタデータがボックス形態で含まれる場合、ファイル、フラグメント、トラック、サンプルエントリー、サンプルなどの様々なレベルに含まれて該当するレベルのデータに関するメタデータを含むことができる。

実施例によって、後述するメタデータの一部は、シグナリングテーブルで構成されて伝達され、残りの一部はファイルフォーマット内にボックス或いはトラック形態で含まれることもできる。

３６０°ビデオ関連のメタデータの一実施例によれば、３６０°ビデオ関連のメタデータはプロジェクションスキームなどに関する基本メタデータ、立体(Ｓｔｅｒｅｏｓｃｏｐｉｃ)関連メタデータ、初期視点(ＩｎｉｔｉａｌＶｉｅｗ／ＩｎｉｔｉａｌＶｉｅｗｐｏｉｎｔ)関連メタデータ、ＲＯＩ関連メタデータ、ＦＯＶ(ＦｉｅｌｄＯｆＶｉｅｗ)関連メタデータ及び／又はクロップされた領域関連のメタデータを含む。実施例によっては３６０°ビデオ関連のメタデータは、上述したもの以外にも、更なるメタデータを含むことができる。

３６０°ビデオ関連のメタデータの実施例は、上述した基本メタデータ、立体関連メタデータ、初期視点関連メタデータ、ＲＯＩ関連メタデータ、ＦＯＶ関連メタデータ、クロップされた領域関連メタデータ及び／又は後に追加されるメタデータのうちのいずれか一つを含む形態である。本発明による３６０°ビデオ関連のメタデータの実施例は、各々含む細部メタデータの場合の数によって多様に構成されることができる。実施例によって、３６０°ビデオ関連のメタデータは、上述したもの以外にも、更なる情報を含むことができる。

ｓｔｅｒｅｏ_ｍｏｄｅフィールドは該当３６０°ビデオが支援する３Ｄレイアウトを指示する。このフィールドのみで該当３６０°ビデオが３Ｄを支援するか否かを指示することもできるが、この場合、上記ｉｓ_ｓｔｅｒｅｏｓｃｏｐｉｃフィールドは省略できる。このフィールド値が０である場合、該当３６０°ビデオはモノ(ｍｏｎｏ)モードである。即ち、プロジェクションされた２Ｄイメージは、一つのモノビュー(ｍｏｎｏｖｉｅｗ)のみを含む。この場合、該当３６０°ビデオは３Ｄを支援しない。

このフィールド値が１、２である場合、該当３６０°ビデオは各々左右レイアウト、上下レイアウトに従う。左右レイアウト、上下レイアウトは各々、ｓｉｄｅ−ｂｙ−ｓｉｄｅフォーマット、ｔｏｐ−ｂｏｔｔｏｍフォーマットとも呼ばれる。左右レイアウトの場合、左映像／右映像がプロジェクションされた２Ｄイメージは、イメージフレーム上で各々左／右に位置することができる。上下レイアウトの場合、左映像／右映像がプロジェクションされた２Ｄイメージはイメージフレーム上で各々上／下に位置することができる。該当フィールドが残りの値を有する場合には、今後の使用のために残っておくことができる(ＲｅｓｅｒｖｅｄｆｏｒＦｕｔｕｒｅＵｓｅ)。

初期視点関連のメタデータは、ユーザが３６０°ビデオを最初に再生した時に見る視点(初期視点)に関する情報を含む。初期視点関連のメタデータは、ｉｎｉｔｉａｌ_ｖｉｅｗ_ｙａｗ_ｄｅｇｒｅｅフィールド、ｉｎｉｔｉａｌ_ｖｉｅｗ_ｐｉｔｃｈ_ｄｅｇｒｅｅフィールド及び／又はｉｎｉｔｉａｌ_ｖｉｅｗ_ｒｏｌｌ_ｄｅｇｒｅｅフィールドを含む。実施例によって初期視点関連のメタデータは更なる情報を含むこともできる。

ｉｎｉｔｉａｌ_ｖｉｅｗ_ｙａｗ_ｄｅｇｒｅｅフィールド、ｉｎｉｔｉａｌ_ｖｉｅｗ_ｐｉｔｃｈ_ｄｅｇｒｅｅフィールド、ｉｎｉｔｉａｌ_ｖｉｅｗ_ｒｏｌｌ_ｄｅｇｒｅｅフィールドは、該当３６０°ビデオ再生時の初期視点を示す。即ち、再生時に最初に見られるビューポートの正中央点が、これらの３つのフィールドにより示される。より具体的には、ｉｎｉｔｉａｌ_ｖｉｅｗ_ｙａｗ_ｄｅｇｒｅｅフィールドは、初期視点に対するｙａｗ値を示す。即ち、ｉｎｉｔｉａｌ_ｖｉｅｗ_ｙａｗ_ｄｅｇｒｅｅフィールドは、正中央点の位置をｙａｗ軸を基準として回転した方向(符号)及びその程度(角度)で示すことができる。ｉｎｉｔｉａｌ_ｖｉｅｗ_ｐｉｔｃｈ_ｄｅｇｒｅｅフィールドは、初期視点に対するｐｉｔｃｈ値を示す。即ち、ｉｎｉｔｉａｌ_ｖｉｅｗ_ｐｉｔｃｈ_ｄｅｇｒｅｅフィールドは、正中央点の位置をｐｉｔｃｈ軸を基準として回転した方向(符号)及びその程度(角度)で示すことができる。また、ｉｎｉｔｉａｌ_ｖｉｅｗ_ｒｏｌｌ_ｄｅｇｒｅｅフィールドは、初期視点に対するｒｏｌｌ値を示す。即ち、ｉｎｉｔｉａｌ_ｖｉｅｗ_ｒｏｌｌ_ｄｅｇｒｅｅフィールドは、正中央点の位置をｒｏｌｌ軸を基準として回転した方向(符号)及びその程度(角度)で示すことができる。ｉｎｉｔｉａｌ_ｖｉｅｗ_ｙａｗ_ｄｅｇｒｅｅフィールド、ｉｎｉｔｉａｌ_ｖｉｅｗ_ｐｉｔｃｈ_ｄｅｇｒｅｅフィールド、ｉｎｉｔｉａｌ_ｖｉｅｗ_ｒｏｌｌ_ｄｅｇｒｅｅフィールドに基づいて、該当３６０°ビデオ再生時の初期視点、即ち、再生時に最初に見られるビューポートの正中央点を示し、これにより３６０°ビデオの特定の領域がユーザに初期視点にディスプレイされて提供されることができる。また、ＦＯＶ(ＦｉｅｌｄＯｆＶｉｅｗ)により、指示された初期視点を基準とした初期ビューポートの幅及び高さが決定される。即ち、これらの３つのフィールド及びＦＯＶ情報を用いて、３６０°ビデオ受信装置はユーザに３６０°ビデオの一定領域を初期ビューポートとして提供することができる。

実施例によって、初期視点関連のメタデータが指示する初期視点は、シーン(Ｓｃｅｎｅ)ごとに変更可能である。即ち、３６０コンテンツの時間的流れによって３６０°ビデオの場面が変更されるが、該当３６０°ビデオの場面ごとにユーザが最初に見る初期視点或いは初期ビューポートが変更されることができる。この場合、初期視点関連のメタデータは、各場面ごとの初期視点を指示することができる。このために、さらに初期視点関連のメタデータは、該当初期視点が適用される場面を識別するシーン識別子を含むことができる。３６０°ビデオの場面ごとにＦＯＶ(ＦｉｅｌｄＯｆＶｉｅｗ)が変更可能であるので、さらに初期視点関連のメタデータは、該当場面に該当するＦＯＶを示す場面ごとのＦＯＶ情報を含むことができる。

ＲＯＩ関連メタデータは上述したＲＯＩに関連する情報を含む。ＲＯＩ関連メタデータは、２ｄ_ｒｏｉ_ｒａｎｇｅ_ｆｌａｇフィールド及び／又は３ｄ_ｒｏｉ_ｒａｎｇｅ_ｆｌａｇフィールドを含む。２ｄ_ｒｏｉ_ｒａｎｇｅ_ｆｌａｇフィールドは、ＲＯＩ関連メタデータが２Ｄイメージを基準としてＲＯＩを表現するフィールドを含むか否かを指示し、３ｄ_ｒｏｉ_ｒａｎｇｅ_ｆｌａｇフィールドは、ＲＯＩ関連メタデータが３Ｄ空間を基準としてＲＯＩを表現するフィールドを含むか否かを指示することができる。実施例によってＲＯＩ関連メタデータは、ＲＯＩによる差等符号化情報、ＲＯＩによる差等送信処理情報などの更なる情報を含むこともできる。

ＲＯＩ関連メタデータが２Ｄイメージを基準としてＲＯＩを表現するフィールドを含む場合、ＲＯＩ関連メタデータは、ｍｉｎ_ｔｏｐ_ｌｅｆｔ_ｘフィールド、ｍａｘ_ｔｏｐ_ｌｅｆｔ_ｘフィールド、ｍｉｎ_ｔｏｐ_ｌｅｆｔ_ｙフィールド、ｍａｘ_ｔｏｐ_ｌｅｆｔ_ｙフィールド、ｍｉｎ_ｗｉｄｔｈフィールド、ｍａｘ_ｗｉｄｔｈフィールド、ｍｉｎ_ｈｅｉｇｈｔフィールド、ｍａｘ_ｈｅｉｇｈｔフィールド、ｍｉｎ_ｘフィールド、ｍａｘ_ｘフィールド、ｍｉｎ_ｙフィールド及び／又はｍａｘ_ｙフィールドを含む。

ｍｉｎ_ｔｏｐ_ｌｅｆｔ_ｘフィールド、ｍａｘ_ｔｏｐ_ｌｅｆｔ_ｘフィールド、ｍｉｎ_ｔｏｐ_ｌｅｆｔ_ｙフィールド、ｍａｘ_ｔｏｐ_ｌｅｆｔ_ｙフィールドは、ＲＯＩの左上端の座標の最小／最大値を示す。即ち、フィールドは順に左上端の最小ｘ座標、最大ｘ座標、最小ｙ座標、最大ｙ座標を示す。

ｍｉｎ_ｗｉｄｔｈフィールド、ｍａｘ_ｗｉｄｔｈフィールド、ｍｉｎ_ｈｅｉｇｈｔフィールド、ｍａｘ_ｈｅｉｇｈｔフィールドは、ＲＯＩの幅(ｗｉｄｔｈ)、高さ(ｈｅｉｇｈｔ)の最小／最大値を示す。即ち、フィールドは順に幅の最小値、幅の最大値、高さの最小値、高さの最大値を示す。

ｍｉｎ_ｘフィールド、ｍａｘ_ｘフィールド、ｍｉｎ_ｙフィールド、ｍａｘ_ｙフィールドは、ＲＯＩ内の座標の最小／最大値を示す。即ち、フィールドは順にＲＯＩ内座標の最小ｘ座標、最大ｘ座標、最小ｙ座標、最大ｙ座標を示す。これらのフィールドは省略可能である。

ＲＯＩ関連メタデータが３Ｄレンダリング空間上の座標を基準としてＲＯＩを表現するフィールドを含む場合、ＲＯＩ関連メタデータは、ｍｉｎ_ｙａｗフィールド、ｍａｘ_ｙａｗフィールド、ｍｉｎ_ｐｉｔｃｈフィールド、ｍａｘ_ｐｉｔｃｈフィールド、ｍｉｎ_ｒｏｌｌフィールド、ｍａｘ_ｒｏｌｌフィールド、ｍｉｎ_ｆｉｅｌｄ_ｏｆ_ｖｉｅｗフィールド及び／又はｍａｘ_ｆｉｅｌｄ_ｏｆ_ｖｉｅｗフィールドを含む。

ｍｉｎ_ｙａｗフィールド、ｍａｘ_ｙａｗフィールド、ｍｉｎ_ｐｉｔｃｈフィールド、ｍａｘ_ｐｉｔｃｈフィールド、ｍｉｎ_ｒｏｌｌフィールド、ｍａｘ_ｒｏｌｌフィールドは、ＲＯＩが３Ｄ空間上で占める領域をｙａｗ、ｐｉｔｃｈ、ｒｏｌｌの最小／最大値で示すことができる。即ち、フィールドは順にヨー軸基準の回転量の最小値、ヨー軸基準の回転量の最大値、ピッチ軸基準の回転量の最小値、ピッチ軸基準の回転量の最大値、ロール軸基準の回転量の最小値、ロール軸基準の回転量の最大値を示す。

ｍｉｎ_ｆｉｅｌｄ_ｏｆ_ｖｉｅｗフィールド、ｍａｘ_ｆｉｅｌｄ_ｏｆ_ｖｉｅｗフィールドは、該当３６０°ビデオデータのＦＯＶ(ＦｉｅｌｄＯｆＶｉｅｗ)の最小／最大値を示す。ＦＯＶは３６０°ビデオの再生時に一回にディスプレイされる視野範囲を意味する。ｍｉｎ_ｆｉｅｌｄ_ｏｆ_ｖｉｅｗフィールド、ｍａｘ_ｆｉｅｌｄ_ｏｆ_ｖｉｅｗフィールドは各々、ＦＯＶの最小値、最大値を示す。これらのフィールドは省略可能である。これらのフィールドは後述するＦＯＶ関連メタデータに含まれることもできる。

ＦＯＶ関連メタデータは、上述したＦＯＶに関連する情報を含む。ＦＯＶ関連メタデータはｃｏｎｔｅｎt_ｆｏｖ_ｆｌａｇフィールド及び／又はｃｏｎｔｅｎｔ_ｆｏｖフィールドを含む。実施例によっては、ＦＯＶ関連メタデータは、上述したＦＯＶの最小／最大値関連情報などの更なる情報を含むこともできる。

ｃｏｎｔｅｎｔ_ｆｏｖ_ｆｌａｇフィールドは、該当３６０°ビデオについて製作時に意図したＦＯＶに関する情報が存在するか否かを指示する。このフィールド値が１である場合、ｃｏｎｔｅｎｔ_ｆｏｖフィールドが存在することができる。

ｃｏｎｔｅｎｔ_ｆｏｖフィールドは、該当３６０°ビデオについて製作時に意図したＦＯＶに関する情報を示す。実施例によって、該当３６０°ビデオ受信装置の垂直(ｖｅｒｔｉｃａｌ)或いは水平(ｈｏｒｉｚｏｎｔａｌ)ＦＯＶによって、３６０映像のうち、ユーザに一回にディスプレイされる領域が決定される。或いは、実施例によって、このフィールドのＦＯＶ情報を反映してユーザに一回にディスプレイされる３６０°ビデオ領域が決定されることもできる。

クロップされた領域関連メタデータは、イメージフレーム上で実際の３６０°ビデオデータを含む領域に関する情報を含む。イメージフレームは実際の３６０°ビデオデータのプロジェクションされたアクティブビデオ領域(ＡｃｔｉｖｅＶｉｄｅｏＡｒｅａ)と、そうではない領域とを含む。この時、アクティブビデオ領域は、クロップされた領域又はデフォルトディスプレイ領域とも称される。このアクティブビデオ領域は、実際のＶＲディスプレイ上で３６０°ビデオとして見られる領域であり、３６０°ビデオ受信装置又はＶＲディスプレイは、アクティブビデオ領域のみを処理／ディスプレイすることができる。例えば、イメージフレームの縦横比(ａｓｐｅｃｔｒａｔｉｏ)が４:３である場合、イメージフレームの上側の一部と下側の一部を除いた領域のみが３６０°ビデオデータを含むことができるが、この部分をアクティブビデオ領域と言える。

クロップされた領域関連メタデータは、ｉｓ_ｃｒｏｐｐｅｄ_ｒｅｇｉｏｎフィールド、ｃｒ_ｒｅｇｉｏｎ_ｌｅｆｔ_ｔｏｐ_ｘフィールド、ｃｒ_ｒｅｇｉｏｎ_ｌｅｆｔ_ｔｏｐ_ｙフィールド、ｃｒ_ｒｅｇｉｏｎ_ｗｉｄｔｈフィールド及び／又はｃｒ_ｒｅｇｉｏｎ_ｈｅｉｇｈｔフィールドを含む。実施例によっては、クロップされた領域関連メタデータは更なる情報を含むこともできる。

ｉｓ＿ｃｒｏｐｐｅｄ＿ｒｅｇｉｏｎフィールドは、イメージフレームの全体領域が３６０°ビデオ受信装置或いはＶＲディスプレイにより使用されるか否かを示すフラグである。ここで、３６０°ビデオデータがマッピングされた領域或いはＶＲディスプレイ上で見られる領域は、アクティブビデオ領域(ＡｃｔｉｖｅＶｉｄｅｏＡｒｅａ)とも呼ばれる。ｉｓ＿ｃｒｏｐｐｅｄ＿ｒｅｇｉｏｎフィールドは、イメージフレーム全体がアクティブビデオ領域であるか否かを指示する。イメージフレームの一部のみがアクティブビデオ領域である場合は、さらに以下の４つのフィールドが追加される。

ｃｒ＿ｒｅｇｉｏｎ＿ｌｅｆｔ＿ｔｏｐ_ｘフィールド、ｃｒ＿ｒｅｇｉｏｎ＿ｌｅｆｔ＿ｔｏｐ＿ｙフィールド、ｃｒ＿ｒｅｇｉｏｎ_ｗｉｄｔｈフィールド、ｃｒ＿ｒｅｇｉｏｎ_ｈｅｉｇｈｔフィールドは、イメージフレーム上でアクティブビデオ領域を示す。これらのフィールドは各々、アクティブビデオ領域の左上端のｘ座標、アクティブビデオ領域の左上端のｙ座標、アクティブビデオ領域の幅(ｗｉｄｔｈ)、アクティブビデオ領域の高さ(ｈｅｉｇｈｔ)を示す。幅と高さはピクチャ単位で示される。

３６０ビデオ基盤のＶＲシステムは、上述した３６０ビデオ処理過程に基づいて３６０ビデオに対してユーザの位置を基準として互いに異なる視聴方向(ｖｉｅｗｉｎｇｏｒｉｅｎｔａｔｉｏｎ)に対する視覚的／聴覚的経験を提供する。３６０ビデオについて、ユーザの固定位置での互いに異なる視聴方向に対する視覚的／聴覚的経験を提供するＶＲシステムは、３ＤｏＦ(ｔｈｒｅｅｄｅｇｒｅｅｏｆｆｒｅｅｄｏｍ)基盤のＶＲシステムとも呼ばれる。なお、互いに異なるビューポイント、互いに異なる視点での互いに異なる視聴方向に対する拡張した視覚的／聴覚的経験を提供できるＶＲシステムは、３ＤｏＦ＋又は３ＤｏＦｐｌｕｓ基盤のＶＲシステムとも呼ばれる。

図１２はビューポイント、視点、視聴方向の概念を概略的に示す図である。

図１２を参照すると、(ａ)のような空間(ｅｘ.講演場)を仮定した時、表示された各サークルは互いに異なるビューポイントを示す。同じ空間内に位置する各ビューポイントで提供される映像／音声は、同じ時間帯で互いに連関することができる。この場合、特定のビューポイントでユーザの視線方向の変化又はヘッドの動き(ｅｘ.ｈｅａｄｍｏｔｉｏｎ)によって互いに異なる視覚的／聴覚的経験をユーザに提供することができる。即ち、特定のビューポイントについて、(ｂ)に示されたように、様々な視点の球(Ｓｐｈｅｒｅ)を仮定することができ、各視点の相対的な位置を反映して映像／音声／テキスト情報を提供することができる。

なお、図１２の(ｃ)に示したように、特定のビューポイントの特定の視点では、既存の３ＤｏＦのように様々な方向の視覚的／聴覚的情報を伝達することができる。この時、メインソース(ｅｘ.映像／音声／テキスト)だけではなく、更なる様々なソースを統合して提供することができ、この場合、ユーザの視聴方向に連携されるか、又は独立して情報を伝達することができる。

図１３は一実施例による３ＤｏＦ＋ビデオ提供のためのアーキテクチャの一例を概略的に示す図である。

図１３は３ＤｏＦ＋の映像獲得、前処理、送信、(後)処理、レンダリング及びフィードバック過程を含む３ＤｏＦ＋ｅｎｄｔｏｅｎｄシステムのフローチャートを示す。

図１３を参照すると、獲得(ａｃｑｕｉｓｉｔｉｏｎ)過程は、３６０ビデオのキャプチャー、合成又は生成過程などによる３６０ビデオを得る過程を意味する。この過程により、多数の位置に対して視線方向の変化(ｅｘ．ｈｅａｄｍｏｔｉｏｎ)による多数の映像／音声情報を得ることができる。この時、映像情報は視覚的情報(ｅｘ．ｔｅｘｔｕｒｅ)だけではなく、深さ情報(ｄｅｐｔｈ)を含む。この時、１３１０の映像情報の例示のように、互いに異なるビューポイントによる互いに異なる視点の複数の情報を各々得ることができる。

合成(ｃｏｍｐｏｓｉｔｉｏｎ)過程は、映像／音声入力装置により得た情報だけではなく、外部メディアによる映像(ビデオ／イメージなど)、音声(オーディオ／効果音響など)、テキスト(字幕など)をユーザ経験に含めるために合成するための手順及び方法を含む。

前処理(ｐｒｅ−ｐｒｏｃｅｓｉｎｇ)過程は、得られた３６０ビデオの送信／伝達のための準備(前処理)過程であり、上述したスティチング、プロジェクション、リージョンごとのパッキング過程及び／又は符号化過程などを含む。即ち、この過程は、映像／音声／テキスト情報を製作者の意図によってデータを変更／補完するための前処理過程及び符号化過程を含む。例えば、映像の前処理過程では、得られた視覚情報を３６０球面(Ｓｐｈｅｒｅ)上にマッピングする作業(Ｓｔｉｔｃｈｉｎｇ)、領域の境界をなくすか、色相／明るさの差を減らすか、映像の視覚的効果を与える補正作業(ｅｄｉｔｉｎｇ)、視点による映像を分離する過程(ｖｉｅｗｓｅｇｍｅｎｔａｔｉｏｎ)、３６０球面上の映像を２Ｄ映像にマッピングするプロジェクション過程(ｐｒｏｊｅｃｔｉｏｎ)、領域によって映像を再配置する過程(ｒｅｇｉｏｎ−ｗｉｓｅｐａｃｋｉｎｇ)、映像情報を圧縮する符号化過程が含まれる。１３２０のビデオ側面の例示のように、互いに異なるビューポイントによる互いに異なる視点の複数のプロジェクション映像が生成されることができる。

送信過程は、順位過程(前処理過程)を経た映像／音声データ及びメタデータを処理して送信する過程を意味する。互いに異なるビューポイントによる互いに異なる視点の複数の映像／音声データ及び関連メタデータを伝達する方法であって、上述したように、放送網、通信網を用いるか、又は単方向伝達などの方法を使用することができる。

後処理及び合成過程は、受信／格納されたビデオ／オーディオ／テキストデータを復号し、最終再生するための後処理過程を意味する。例えば、後処理過程は、上述したように、パッキングされた映像を開けるアンパッキング及び２Ｄプロジェクションされた映像を３Ｄ球形映像に復元するリプロジェクション過程などを含む。

レンダリング過程は、３Ｄ空間上にリプロジェクションされたイメージ／ビデオデータをレンダリングして、ディスプレイする過程を意味する。この過程において、映像／音声信号を最終的に出力するための形態で再構成することができる。ユーザの関心領域が存在する方向(ｖｉｅｗｉｎｇｏｒｉｅｎｔａｔｉｏｎ)、視点(ｖｉｅｗｉｎｇｐｏｓｉｔｉｏｎ／ｈｅａｄｐｏｓｉｔｉｏｎ)、位置(ｖｉｅｗｐｏｉｎｔ)を追跡することができ、これらの情報によって必要な映像／音声／テキスト情報のみを選択的に使用することができる。この時、映像信号の場合、ユーザの関心領域によって１３３０のように互いに異なる視点が選択されることができ、最終的に１３４０のように特定の位置での特定視点の特定方向の映像が出力されることができる。

図１４ａ及び１４ｂは３ＤｏＦ＋ｅｎｄｔｏｅｎｄシステムアーキテクチャの一例である。

図１４ａ及び１４ｂのアーキテクチャにより、上述したような３Ｄ０Ｆ＋３６０コンテンツが提供される。

図１４ａを参照すると、３６０ビデオ送信装置(送信端)は、大きく３６０ビデオ(イメージ)／オーディオデータが得られる部分(ａｃｑｕｉｓｉｔｉｏｎｕｎｉｔ)、得られたデータを処理する部分(ｖｉｄｅｏ／ａｕｄｉｏｐｒｅ−ｐｒｏｃｅｓｓｏｒ)、追加情報を合成するための部分(ｃｏｍｐｏｓｉｔｉｏｎｇｅｎｅｒａｔｉｏｎｕｎｉｔ)、テキスト、オーディオ及びプロジェクションされた３６０°ビデオを符号化する部分(ｅｎｃｏｄｉｎｇｕｎｉｔ)及び符号化されたデータをカプセル化する部分(ｅｎｃａｐｓｕｌａｔｉｏｎｕｎｉｔ)で構成される。上述したように、符号化されたデータはビットストリームの形態で出力され、符号化されたデータはＩＳＯＢＭＦＦ、ＣＦＦなどのファイルフォーマットにカプセル化されるか、又はその他のＤＡＳＨセグメントなどの形態で処理できる。符号化されたデータはデジタル格納媒体により３６０ビデオ受信装置に伝達され、又はたとえ明示的に示されてはいないが、上述したように送信処理部により送信のための処理を経た後、放送網又は広帯域などにより送信されることができる。

データ獲得部分では、センサの方向(Ｓｅｎｓｏｒｏｒｉｅｎｔａｔｉｏｎ、映像の場合は、ｖｉｅｗｉｎｇｏｒｉｅｎｔａｔｉｏｎ)、センサの情報獲得視点(Ｓｅｎｓｏｒｐｏｓｉｔｉｏｎ、映像の場合は、ｖｉｅｗｉｎｇｐｏｓｉｔｉｏｎ)、センサの情報獲得位置(映像の場合は、ｖｉｅｗｐｏｉｎｔ)によって、互いに異なる情報を同時に又は連続して得ることができ、この時、ビデオ、イメージ、オーディオ、位置情報などを得ることができる。

映像データの場合、テクスチャー(ｔｅｘｔｕｒｅ)及び深さ情報を各々得ることができ、各コンポーネントの特性によって互いに異なる前処理(ｖｉｄｅｏｐｒｅ−ｐｒｏｃｅｓｓｉｎｇ)が可能である。例えば、テクスチャー情報の場合、イメージセンサ位置情報を用いて同じ位置(ｖｉｅｗｐｏｉｎｔ)で得た同一視点(ｖｉｅｗｉｎｇｐｏｓｉｔｉｏｎ)の互いに異なる方向(ｖｉｅｗｉｎｇｏｒｉｅｎｔａｔｉｏｎ)の映像を用いて３６０全方位映像を構成することができ、このために、映像スティチング過程を行うことができる。また、映像を符号化するためのフォーマットに変更するためのプロジェクション及び／又はリージョンごとのパッキングを行うことができる。深さ映像の場合、一般的に深度カメラにより映像を得ることができ、この場合、テクスチャーのような形態で深さ映像を作ることができる。或いは、別途に測定されたデータに基づいて深さデータを生成することもできる。コンポーネントごとの映像が生成された後、効率的な圧縮のためのビデオフォーマットへの追加変換(ｐａｃｋｉｎｇ)を行うか、又は実際必要な部分に分けて再構成する過程(Ｓｕｂ−ｐｉｃｔｕｒｅｇｅｎｅｒａｔｉｏｎ)が行われる。Ｖｉｄｅｏｐｒｅ−ｐｒｏｃｅｓｓｉｎｇで使用された映像構成に関する情報はビデオメタデータで伝達される。

得られたデータ(或いは主にサービスするためのデータ)以外に、さらに与えられる映像／音声／テキスト情報を共にサービスする場合、これらの情報を最終再生時に合成するための情報を提供する必要がある。合成生成部(Ｃｏｍｐｏｓｉｔｉｏｎｇｅｎｅｒａｔｉｏｎ)では、製作者の意図に基づいて、外部で生成されたメディアデータ(映像の場合は、ビデオ／イメージ、音声の場合は、オーディオ／効果音響、テキストの場合は、字幕などに)を最終再生部で合成するための情報を生成し、この情報は合成メタデータ(ｃｏｍｐｏｓｉｔｉｏｎｍｅｔａｄａｔａ)で伝達される。

各々の処理が行われた映像／音声／テキスト情報は、各々の符号器を用いて圧縮され、アプリケーションによってファイル或いはセグメント単位でカプセル化される。この時、ビデオ、ファイル或いはセグメント構成方法によって必要な情報のみを抽出することができる。

各データを受信器で再構成するための情報がコーデック或いはファイルフォーマット／システムレベルで伝達されるが、ここではビデオ／オーディオ再構成のための情報(ｖｉｄｅｏ／ａｕｄｉｏｍｅｔａｄａｔａ)、オーバーレイのための合成情報(ｃｏｍｐｏｓｉｔｉｏｎｍｅｔａｄａｔａ)、ビデオ／オーディオ再生可能位置(ｖｉｅｗｐｏｉｎｔ)及び各位置による視点(ｖｉｅｗｉｎｇｐｏｓｉｔｉｏｎ)情報(ｖｉｅｗｉｎｇｐｏｓｉｔｉｏｎａｎｄｖｉｅｗｐｏｉｎｔｍｅｔａｄａｔａ)などが含まれる。このような情報の処理は、別途のメタデータ処理部による生成も可能である。

図１４ｂを参照すると、３６０ビデオ受信装置(受信端)は大きく、受信されたファイル或いはセグメントをカプセル除去する部分(ｆｉｌｅ／ｓｅｇｍｅｎｔｄｅｃａｐｓｕｌａｔｉｏｎｕｎｉｔ)、ビットストリームから映像／音声／テキスト情報を生成する部分(ｄｅｃｏｄｉｎｇｕｎｉｔ)、映像／音声／テキストを再生するための形態で再構成する部分(ｐｏｓｔ−ｐｒｏｃｅｓｓｏｒ)、ユーザの関心領域を追跡する部分(ｔｒａｃｋｉｎｇｕｎｉｔ)及び再生装置であるディスプレイで構成される。

カプセル除去により生成されたビットストリームは、データ種類によって映像／音声／テキストなどに分けて再生可能な形態に個々に復号される。

トラッキング部分では、センサ及びユーザの入力情報などに基づいてユーザの関心領域(Ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ)の位置(ｖｉｅｗｐｏｉｎｔ)、該当位置での視点(ｖｉｅｗｉｎｇｐｏｓｉｔｉｏｎ)、該当視点での方向(ｖｉｅｗｉｎｇｏｒｉｅｎｔａｔｉｏｎ)情報を生成し、これらの情報は３６０ビデオ受信装置の各モジュールで関心領域の選択或いは抽出などに使用されるか、関心領域の情報を強調するための後処理過程などに使用される。また、３６０ビデオ送信装置に伝達される場合、効率的な帯域幅使用のためのファイル選択(ｆｉｌｅｅｘｔｒａｃｔｏｒ)或いはサブピクチャ選択、関心領域に基づく様々な映像再構成方法(ｖｉｅｗｐｏｒｔ／ｖｉｅｗｉｎｇｐｏｓｉｔｉｏｎ／ｖｉｅｗｐｏｉｎｔｄｅｐｅｎｄｅｎｔｐｒｏｃｅｓｓｉｎｇ)などに使用されることができる。

復号された映像信号は映像構成方法によって様々な処理方法で処理される。３６０ビデオ送信装置で映像パッキングが行われた場合、メタデータで伝達された情報に基づいて映像を再構成する過程が必要である。この場合、３６０ビデオ送信装置で生成したビデオメタデータを用いることができる。また復号された映像内に複数の視聴位置(ｖｉｅｗｐｏｉｎｔ)、複数の視点(ｖｉｅｗｉｎｇｐｏｓｉｔｉｏｎ)、或いは様々な方向(ｖｉｅｗｉｎｇｏｒｉｅｎｔａｔｉｏｎ)の映像が含まれた場合は、トラッキングにより生成されたユーザの関心領域の位置、視点、方向情報とマッチングされる情報を選択して処理することができる。この時、送信端で生成した視点及びビューポイント関連のメタデータが使用される。また特定の位置、視点、方向について複数のコンポーネントが伝達されるか、オーバーレイのためのビデオ情報が別に伝達される場合、各々によるレンダリング過程が含まれる。別のレンダリング過程を経たビデオデータ(テクスチャー、深さ、オーバーレイ)は、合成過程(ｃｏｍｐｏｓｉｔｉｏｎ)を経るが、この時、送信端で生成した合成メタデータ(ｃｏｍｐｏｓｉｔｉｏｎｍｅｔａｄａｔａ)が使用される。最終的にユーザの関心領域によってビューポートに再生するための情報を生成することができる。

復号された音声信号はオーディオレンダラー及び／又は後処理過程により再生可能な音声信号を生成し、この時、ユーザの関心領域に関する情報及び３６０ビデオ受信装置に伝達されたメタデータに基づいてユーザの要求に合う情報を生成することができる。

復号されたテキスト信号はオーバーレイのレンダラーに伝達されてサブタイトルなどのテキスト基盤のオーバーレイ情報として処理される。必要な場合、別途のテキスト後処理過程が含まれる。

図１５はＦＬＵＳアーキテクチャの例示を概略的に示す図である。

図１５は無線通信システム(ｗｉｒｅｌｅｓｓｃｏｍｍｕｎｉｃａｔｉｏｎｓｙｓｔｅｍ)において、端末(ＵｓｅｒＥｑｕｉｐｍｅｎｔ、ＵＥ)と端末又はネットワークがＦＬＵＳ(ＦｒａｍｅｗｏｒｋｆｏｒＬｉｖｅＵｐｌｉｎｋＳｔｒｅａｍｉｎｇ)に基づいて通信を行う一例を示す。ＦＬＵＳソース(Ｓｏｕｒｃｅ)とＦＬＵＳシンク(Ｓｉｎｋ)は、Ｆレファレンスポイント(ｒｅｆｅｒｅｎｃｅｐｏｉｎｔ)を用いて互いにデータを送受信する。

この明細書において、“ＦＬＵＳソース”はＦＬＵＳに基づいてＦレファレンスポイントによりＦＬＵＳシンクにデータを送信する装置を意味する。但し、ＦＬＵＳソースが常にＦＬＵＳシンクへのデータ送信のみを行うことではなく、場合によっては、ＦＬＵＳソースはＦＬＵＳシンクからＦレファレンスポイントによりデータを受信することもできる。ＦＬＵＳソースは、この明細書の全般に記載されたイメージ送信装置又は３６０ビデオ送信装置と同一／類似する装置であるか、イメージ送信装置又は３６０ビデオ送信装置を含むか、又はイメージ送信装置又は３６０ビデオ送信装置に含まれるものと解釈できる。ＦＬＵＳソースは、例えば、端末(ＵＥ)、ネットワーク、サーバー、クラウドサーバー、セットトップボックス(ＳＴＢ)、基地局、ＰＣ、デスクトップ、ノートブック、カメラ、カムコーダー、ＴＶなどであり、これらの装置に含まれる構成又はモジュールであるか、或いは例示された装置と類似する装置もＦＬＵＳソースとして動作することができる。ＦＬＵＳソースの例示はこれらに限られない。

この明細書において、“ＦＬＵＳシンク”はＦＬＵＳに基づいてＦレファレンスポイントによりＦＬＵＳソースからデータを受信する装置を意味する。但し、ＦＬＵＳシンクが常にＦＬＵＳシンクからデータ受信のみを行うことではなく、場合によっては、ＦＬＵＳシンクはＦＬＵＳソースにＦレファレンスポイントによりデータを送信することもできる。ＦＬＵＳシンクは、この明細書の全般に記載されたイメージ受信装置又は３６０ビデオ受信装置と同一／類似する装置であるか、イメージ受信装置又は３６０ビデオ受信装置を含むか、又はイメージ受信装置又は３６０ビデオ受信装置に含まれるものと解釈できる。ＦＬＵＳシンクは、例えば、ネットワーク、サーバー、クラウドサーバー、セットトップボックス(ＳＴＢ)、基地局、ＰＣ、デスクトップ、ノートブック、カメラ、カムコーダー、ＴＶなどであり、例示された装置に含まれる構成又はモジュールであり、さらに例示された装置と類似する装置もＦＬＵＳソースとして動作することができる。ＦＬＵＳソースの例示はこれらに限られない。

図１５を参照すると、ＦＬＵＳソースとキャプチャー装置が一つの端末(ＵＥ)を構成することが示されているが、これに限られない。ＦＬＵＳソースはキャプチャー装置を含むことができ、キャプチャー装置を含むＦＬＵＳソース自体が端末になることができる。又はキャプチャー装置は端末に含まれず、端末でメディア情報を送信することもできる。キャプチャー装置の数は少なくとも一つ以上である。

図１５を参照すると、ＦＬＵＳシンクとレンダリング(Ｒｅｎｄｅｒｉｎｇ)モジュール(又は部)、処理(Ｐｒｏｃｅｓｓｉｎｇ)モジュール(又は部)及び分配(Ｄｉｓｔｒｉｂｕｔｉｏｎ)モジュール(又は部)が一つの端末又はネットワークを構成することが示されているが、これに限られない。ＦＬＵＳシンクは、レンダリングモジュール、処理モジュール及び分配モジュールのうちのいずれか一つを含み、レンダリングモジュール、処理モジュール及び分配モジュールのうちのいずれか一つを含むＦＬＵＳシンク自体が端末又はネットワークになることができる。又はレンダリングモジュール、処理モジュール及び分配モジュールのうちのいずれか一つが端末又はネットワークに含まれず、ＦＬＵＳシンクがレンダリングモジュール、処理モジュール及び分配モジュールのうちのいずれか一つでメディア情報を送信することもできる。レンダリングモジュール、処理モジュール及び分配モジュールの数は各々少なくとも一つ以上であり、場合によっては一部のモジュールは存在しないこともできる。

一例として、ＦＬＵＳシンクはＭＧＷ(ＭｅｄｉａＧａｔｅｗａｙＦｕｎｃｔｉｏｎ)及び／又はＡＦ(ＡｐｐｌｉｃａｔｉｏｎＦｕｎｃｔｉｏｎ)として動作する。

図１５において、ＦＬＵＳソースとＦＬＵＳシンクを連結するＦレファレンスポイントは、ＦＬＵＳソースが単一のＦＬＵＳセッションを生成及び制御するようにする。またＦレファレンスポイントはＦＬＵＳシンクがＦＬＵＳソースを認証(ａｕｔｈｅｎｔｉｃａｔｅ)及び権限付与(ａｕｔｈｏｒｉｚｅ)するようにする。またＦレファレンスポイントはＦＬＵＳ制御平面(ｃｏｎｔｒｏｌｐｌａｎｅ)Ｆ−Ｃ及びＦＬＵＳユーザ平面(ｕｓｅｒｐｌａｎｅ)Ｆ−Ｕの保安保護機能を支援する。

一実施例において、ＦＬＵＳソースとＦＬＵＳシンクは各々ＦＬＵＳｃｔｒｌモジュールを含み、ＦＬＵＳソースとＦＬＵＳシンクのＦＬＵＳｃｔｒｌモジュールはＦ−Ｃにより連結されることができる。ＦＬＵＳｃｔｒｌモジュールとＦ−ＣはＦＬＵＳシンクがアップロードされたメディアに対してダウンストリーム分配(ｄｏｗｎｓｔｒｅａｍｄｉｓｔｒｉｂｕｔｉｏｎ)を行うための機能を提供し、メディアインスタンス(ｉｎｓｔａｎｔｉａｔｉｏｎ)の選択を提供することができ、セッションの静的メタデータの構成を支援することができる。一例として、ＦＬＵＳシンクがレンダリングのみを行える場合は、Ｆ−Ｃが存在しないこともできる。

一実施例において、Ｆ−ＣはＦＬＵＳセッションの生成及び制御に用いられる。Ｆ−ＣはＦＬＵＳソースがＭＴＳＩのようなＦＬＵＳメディアインスタンスを選択するか、メディアセッション周辺の静的メタデータを提供するか、又は処理／分配機能を選択及び構成する時に利用される。

ＦＬＵＳメディアインスタンスは、ＦＬＵＳセッションの一部として定義できる。場合によって、Ｆ−Ｕはメディアストリームの生成手順を含み、一つのＦＬＵＳセッションについて複数のメディアストリームが生成されることができる。

メディアストリームは、オーディオ、ビデオ、テキストのような単一コンテンツタイプに対するメディアコンポーネントを含むか、オーディオ及びビデオのように複数の互いに異なるコンテンツタイプに対するメディアコンポーネントを含む。ＦＬＵＳセッションは同じ複数のコンテンツタイプで構成されることができる。例えば、ＦＬＵＳセッションはビデオに対する複数のメディアストリームで構成されることができる。

また一実施例において、ＦＬＵＳソースとＦＬＵＳシンクは各々ＦＬＵＳメディアモジュールを含み、ＦＬＵＳソースとＦＬＵＳシンクのＦＬＵＳメディアモジュールはＦ−Ｕにより連結されることができる。ＦＬＵＳメディアモジュールとＦ−Ｕは一つ以上のメディアセッションの生成とメディアストリームによるメディアデータ送信機能を提供する。場合によっては、メディアセッション生成プロトコル(例えば、ＭＴＳＩに基づくＦＬＵＳインスタンスのためのＩＭＳセッションセットアップ)が要求される。

図１６は３ＤｏＦ＋送信端の構成の一例を概略的に示す図である。

図１６を参照すると、送信端(３６０ビデオ送信装置)では、入力されたデータがカメラ出力映像である場合、球(Ｓｐｈｅｒｅ)映像構成のためのスティチングを位置／視点／コンポーネントごとに進行する。位置／視点／コンポーネントごとの球映像が構成されると、コーディングのために２Ｄ映像にプロジェクションを行う。アプリケーションによって複数の映像を統合映像にするためのパッキング或いは細部領域の映像に分けるサブピクチャで生成することができる。上述したように、リージョンごとのパッキング過程は、選択的(ｏｐｔｉｏｎａｌ)過程であり、行わないこともできる。この場合、パッキング処理部は省略できる。入力されたデータが映像／音声／テキスト追加情報である場合は、追加情報を中心映像に追加してディスプレイする方法を知らせることができ、追加データと共に送信することができる。生成された映像及び追加データを圧縮してビットストリームで生成する符号化過程を経て送信或いは格納のためのファイルフォーマットに変換するカプセル化過程を経ることができる。この時、アプリケーション或いはシステムの要求により、受信部で必要とするファイルを抽出する過程を処理することができる。生成されたビットストリームは、送信処理部により送信フォーマットに変換された後、送信される。この時、送信側のフィードバック処理部では、受信端で伝達された情報に基づいて位置／視点／方向情報と必要なメタデータを処理して、関連する送信部で処理するように伝達することができる。

図１７は３ＤｏＦ＋受信端の構成の一例を概略的に示す図である。

図１７を参照すると、受信端(３６０ビデオ受信装置)では、送信端で伝達したビットストリームを受信した後、必要なファイルを抽出する。生成されたファイルフォーマット内の映像ストリームをフィードバック処理部で伝達する位置／視点／方向情報及びビデオメタデータを用いて選別し、選別したビットストリームを復号器により映像情報に再構成することができる。パッキングされた映像の場合、メタデータにより伝達されたパッキング情報に基づいてアンパッキングを行うことができる。送信端でパッキング過程が省略された場合は、受信端のアンパッキングも省略される。また必要によって、フィードバック処理部で伝達された位置(ｖｉｅｗｐｏｉｎｔ)／視点(ｖｉｅｗｉｎｇｐｏｓｉｔｉｏｎ)／方向(ｖｉｅｗｉｎｇｏｒｉｅｎｔａｔｉｏｎ)に適合する映像及び必要なコンポーネントを選択する過程を行うことができる。映像のテクスチャー、深さ、オーバーレイ情報などの再生に適合するフォーマットに再構成するレンダリング過程を行うことができる。最終映像を生成する前に、互いに異なるレイヤの情報を統合する合成(ｃｏｍｐｏｓｉｔｉｏｎ)過程を経ることができ、ディスプレイビューポートに適合する映像を生成して再生することができる。

図１８は複数の位置でＶＲコンテンツに関する情報をキャプチャーする一例を示す図である。

一実施例において、ＶＲコンテンツ生成のための情報は、図１８のように、一つのシーン(ｓｃｅｎｅ)内の複数の位置でキャプチャーされることができる。二つのＶＲカメラは固定位置ＡとＢでＶＲコンテンツ生成のための情報をキャプチャーし、一つのＶＲカメラはレールで位置を変更しながらＶＲコンテンツ生成のための情報をキャプチャーする。

ユーザは複数の位置、即ち、複数のビューポイントの間でビューポイントスイッチングを行うことができる。ビューポイントが転換されると、転換されたビューポイントの位置に関する情報及び関連メディアトラックの情報が提供される。システムは、特定のビューポイントが他のビューポイントへの転換に関するヒントを含んでいる場合、ヒントに基づいて他のビューポイントに転換するように設計される。

図１９は３つのビューポイントをグローバル座標系(ｇｌｏｂａｌｃｏｏｒｄｉｎａｔｅ)を基準として示す図である。

図１９に示すように、一実施例によるグローバル座標系(ｇｌｏｂａｌｃｏｏｒｄｉｎａｔｅ)は、グローバル３次元直交座標系(ｇｌｏｂａｌｔｈｒｅｅ−ｄｉｍｅｎｓｉｏｎａｌＣａｒｔｅｓｉａｎｃｏｏｒｄｉｎａｔｅａｘｅｓ)により表現できる。

図１９において、ビューポイントＡの中心位置はグローバル座標系の原点であることができ、(０、０、０)値で表示することができる。グローバル座標系において、ビューポイント位置の絶対値はミリメートル単位で表現できる。

後述する内容は、ＭＰＥＧシステムのファイルフォーマットシンタックス要素及びセマンティクス(ｓｅｍａｎｔｉｃｓ)のフォーマットに焦点を当てている。しかし、ＳＥＩメッセージ、パラメータセット及び/又は未来或いは現在のビデオコーデック、システムレベル(例えば、ファイル形式、ＤＡＳＨ、ＭＭＴ及び３ＧＰＰ)又はデジタルインターフェース(例えば、ＨＤＭＩ、ＤｉｓｐｌａｙＰｏｒｔなど)などの他の形式のビデオレベル及びＶＥＳＡも、後述する内容を反映して動作することができる。

一実施例において、ＶｉｅｗｐｏｉｎｔＩｎｆｏＳｔｒｕｃｔ()は、ビューポイントの位置及びＸ，Ｙ，Ｚ軸を基準とするヨー(ｙａｗ)、ピッチ(ｐｉｔｃｈ)及びロール(ｒｏｌｌ)角度に関する情報を含むビューポイント情報を提供する。ここで、ヨー、ピッチ及びロール角度は、共通参照座標系に対するビューポイントのグローバル座標系の回転角度を示す。ＶｉｅｗｐｏｉｎｔＩｎｆｏＳｔｒｕｃｔ()の例示は以下の表１の通りである。

表１において、ｖｉｅｗｐｏｉｎｔ＿ｐｏｓ＿ｘ、ｖｉｅｗｐｏｉｎｔ＿ｐｏｓ＿ｙ及びｖｉｅｗｐｏｉｎｔ＿ｐｏｓ＿ｚは、３次元空間において(０、０、０)を共通参照座標系(ｃｏｍｍｏｎｒｅｆｅｒｅｎｃｅｃｏｏｒｄｉｎａｔｅｓｙｓｔｅｍ)の中心とする時、ビューポイントの位置をミリメートル単位で示す。ｖｉｅｗｐｏｉｎｔ＿ｇｃｓ＿ｙａｗ、ｖｉｅｗｐｏｉｎｔ＿ｇｃｓ＿ｐｉｔｃｈ及びｖｉｅｗｐｏｉｎｔ＿ｇｃｓ＿ｒｏｌｌは各々、共通参照座標系に対するビューポイントのグローバル座標系のＸ軸、Ｙ軸及びＺ軸のヨー、ピッチ及びロール角度を意味し、単位は２^−１６°である。ｖｉｅｗｐｏｉｎｔ＿ｇｃｓ＿ｙａｗは−１８０＊２^１６°以上１８０＊２^１６−１°以下の範囲に含まれ、ｖｉｅｗｐｏｉｎｔ＿ｇｃｓ＿ｐｉｔｃｈは−９０＊２^１６°以上１８０＊２^１６−１°以下の範囲に含まれ、ｖｉｅｗｐｏｉｎｔ＿ｇｃｓ＿ｒｏｌｌは−１８０＊２^１６°以上１８０＊２^１６−１°以下の範囲に含まれる。次に、ｔｒａｎｓｉｔｉｏｎ＿ｅｆｆｅｃｔ＿ｔｙｐｅは、ビューポイントスイッチングが行われる時の転移効果(ｔｒａｎｓｉｔｉｏｎｅｆｆｅｃｔ)のタイプを表す。ｔｒａｎｓｉｔｉｏｎ＿ｅｆｆｅｃｔ＿ｔｙｐｅの例示は以下の表２の通りである。

表２による一例において、ｔｒａｎｓｉｔｉｏｎ＿ｅｆｆｅｃｔ＿ｔｙｐｅの値が０である場合、特定のビューポイントにズームイン(ｚｏｏｍ−ｉｎ)される転移効果を示すズームイン効果が指示され、ｔｒａｎｓｉｔｉｏｎ＿ｅｆｆｅｃｔ＿ｔｙｐｅの値が１である場合は、特定のビューポイントに移動する転移効果を示すウォークスルー(ｗａｌｋｉｎｇ−ｔｈｒｏｕｇｈ)効果が指示される。

再度表１を参照すると、ｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｒｅｆｒｅｓｈ＿ｆｌａｇの値が１である場合、ＩｎｉｔｉａｌＶｉｅｗｉｎｇＯｒｉｅｎｔａｔｉｏｎＳａｍｐｌｅ()は示されず、現在のビューポイントにスイッチングされる前のビューポイントの視聴方向(ｖｉｅｗｉｎｇｏｒｉｅｎｔａｔｉｏｎ)を維持することが勧められる。ｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｒｅｆｒｅｓｈ＿ｆｌａｇの値が０である場合は、ＩｎｉｔｉａｌＶｉｅｗｉｎｇＯｒｉｅｎｔａｔｉｏｎＳａｍｐｌｅ()が示され、現在のビューポイントにスイッチングされる時にシグナリングされたＩｎｉｔｉａｌＶｉｅｗｉｎｇＯｒｉｅｎｔａｔｉｏｎＳａｍｐｌｅ()に含まれた視聴方向に従うことが勧められる。

ｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｙａｗ、ｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｐｉｔｃｈ及びｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｒｏｌｌは、現在のビューポイントに転換される時に勧められるグローバル座標系のＸ軸、Ｙ軸及びＺ軸のヨー、ピッチ及びロール回転角度を示し、単位は２^−１６°である。ｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｙａｗは−１８０＊２^１６°以上１８０＊２^１６−１°以下の範囲に含まれ、ｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｐｉｔｃｈは−９０＊２^１６°以上１８０＊２^１６−１°以下の範囲に含まれ、ｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｒｏｌｌは−１８０＊２^１６°以上１８０＊２^１６−１°以下の範囲に含まれる。

一実施例によるビューポイント情報ボックス(ｖｉｅｗｐｏｉｎｔｉｎｆｏｒｍａｔｉｏｎｂｏｘ)は以下の通りである。

表３に含まれた情報は、共通参照座標系に対するビューポイントのグローバル座標系の位置情報、Ｘ軸、Ｙ軸及びＺ軸のヨー、ピッチ及びロール回転角度を含むビューポイント情報を提供する。

一実施例によるビューポイント情報ボックスは、例えば、以下の表４のようなシンタックスにより表現できる。

表４において、ｖｉｅｗｐｏｉｎｔ＿ｉｄはビューポイントグループに含まれたビューポイントのＩＤを示し、ｎｕｍ＿ｖｉｅｗｐｏｉｎｔｓはサンプルフォーマット内のシグナリングされたビューポイントの数を示す。

一実施例において、動的ビューポイントの時限メタデータトラック(Ｄｙｎａｍｉｃｖｉｅｗｐｏｉｎｔｔｉｍｅｄｍｅｔａｄａｔａｔｒａｃｋ)は、時間によって動的に変化するビューポイントパラメータを指示する。一例において、ＯＭＡＦプレーヤーはビューポイント転換が行われた後、ビューポイントに対する再生を開始する時、以下のようなシグナリングされた情報を用いる。もし明らかにシグナリングされた推薦視聴方向が存在する場合、ＯＭＡＦプレーヤーは推薦視聴方向に関する情報をパーシングし、推薦視聴方向に従う。逆に、もし明らかにシグナリングされた推薦視聴方向が存在しない場合は、ＯＭＡＦプレーヤーはビューポイントスイッチングが発生する前のビューポイントの視聴方向をビューポイントスイッチングの後にも維持することができる。

一実施例において、トラックサンプルエントリータイプ(ｔｒａｃｋｓａｍｐｌｅｅｎｔｒｙｔｙｐｅ)‘ｄｙｖｐ’が用いられる、サンプルエントリータイプのサンプルエントリーは、以下の表５のように具体化することができる。

一実施例において、サンプルエントリータイプ(‘ｄｙｖｐ’)のサンプルシンタックスは、以下の表６のように具体化することができる。

表６において、ｖｉｅｗｐｏｉｎｔ＿ｉｄはビューポイントグループに含まれたビューポイントのＩＤ情報を示し、ｎｕｍ＿ｖｉｅｗｐｏｉｎｔｓはサンプルフォーマットでシグナリングされたビューポイントの数を指示する。

一実施例において、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅが‘ｖｐｇｒ’であるＴｒａｃｋＧｒｏｕｐＴｙｐｅＢｏｘに含まれたトラックは、３６０シーン内でスイッチングできることを示す。このグループにマッピングされたトラック、即ち、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅが‘ｖｐｇｒ’であるＴｒａｃｋＧｒｏｕｐＴｙｐｅＢｏｘ内のｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄの値が等しい視覚トラックは、３６０シーン内でスイッチングされるビューポイントを形成することができる。

複数のビューポイントのビデオトラックグルーピングとしては、以下の２つの実施例が提案される。第１の実施例において、ｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇはトラックグループの近接性(ｃｏｎｔｉｇｕｉｔｙｃｈａｒａｃｔｅｒｉｓｔｉｃ)を指示し、これによりｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが同一であると、ｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇの値が同一である。第２の実施例では、各々の近接ビューポイントのアンカービューポイント(ａｎｃｈｏｒｖｉｅｗｐｏｉｎｔ)を定義することができる。複数のビューポイントのビデトラックグルーピングに関する実施例は、上述した第１、第２の実施例に限られない。以下、図２０乃至図２２ｂは第１の実施例に関し、図２３乃至図２４ｂは第２の実施例に関する。

本発明の一実施例によれば、ユーザは３ＤｏＦ、３ＤｏＦ＋又は６ＤｏＦの環境で複数のビューポイントに基づいてビューポイント転換(ｖｉｅｗｐｏｉｎｔｓｗｉｔｃｈｉｎｇ)を行うことにより、様々な観点で３６０°ビデオを経験することができる。この時、ビューポイントの転換が行われるビューポイントは“ホットスポット(ｈｏｔｓｐｏｔ)”とも称される。ホットスポットは、ビューポイントのうち、ビューポイント転換が行われるビューポイントを示すので、ビューポイントの下位概念であると解釈できるが、場合によっては、ホットスポットはビューポイントと同一／類似する概念であることもできる。従って、この明細書の全般に記載された任意の“ビューポイント”はホットスポットに代替し、この明細書の全般に記載された任意の“ホットスポット”はビューポイントに代替することができる。例えば、“ホットスポットメタデータ”のようにホットスポットに関連する情報も“ビューポイントメタデータ”などに代替して解釈することができる。

この明細書に記載された“共通参照座標系(ｃｏｍｍｏｎｒｅｆｅｒｅｎｃｅｃｏｏｒｄｉｎａｔｅｓｙｓｔｅｍ)”は、ビューポイントグループの基準(又は中心)となる座標系を意味する。共通参照座標系は参照座標系(ｒｅｆｅｒｅｎｃｅｃｏｏｒｄｉｎａｔｅｓｙｓｔｅｍ)とも称することができる。

図２０は複数のビューポイントのビューポイントグループＩＤと非近接フラグ情報を示す一例である。

複数のビューポイントビデオトラックグルーピングに関するシンタックスは、例えば、以下の表７のように表現できる。

表７において、ｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇの値が０であると、グループ内の全てのビューポイントが３６０シーン内で近接することを意味し、ｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇの値が１であると、ビューポイントビデオトラックグループが３６０シーン内で少なくとも一つの非近接ビューポイントを含むことを意味する。一例において、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄの値が等しいトラックのｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇ値は同一であることができる。

一実施例において、ｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇの値が異なりながら、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄの値が異なるトラックが存在する場合は、ｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇの値が０であるｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄがｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇの値が１であるｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄより先行することができる。

他のタイプのビューポイントビデオトラックグループは、フラグを追加するか又はＶｉｅｗｐｏｉｎｔＴｒａｃｋＧｒｏｕｐＴｙｐｅを定義することで定義することができる。

一例において、表７のｖｉｅｗｐｏｉｎｔＴｒａｃｋＧｒｏｕｐＴｙｐｅ()のセマンティクスは、ｔｒａｎｓｉｔｉｏｎ＿ｅｆｆｅｃｔ＿ｔｙｐｅ、ｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｒｅｆｒｅｓｈ＿ｆｌａｇ、ｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｒｅｆｒｅｓｈ＿ｆｌａｇなどのフィールドを含む。ｔｒａｎｓｉｔｉｏｎ＿ｅｆｆｅｃｔ＿ｔｙｐｅはトラックグループ内でビューポイントスイッチングが行われる時の転移効果のタイプを指示することができる。ｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｒｅｆｒｅｓｈ＿ｆｌａｇの値が１である場合は、ＩｎｉｔｉａｌＶｉｅｗｉｎｇＯｒｉｅｎｔａｔｉｏｎＳａｍｐｌｅ()は示されず、現在のビューポイントにスイッチングされる前のビューポイントの視聴方向(ｖｉｅｗｉｎｇｏｒｉｅｎｔａｔｉｏｎ)を維持することが勧められる。ｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｒｅｆｒｅｓｈ＿ｆｌａｇの値が０である場合は、ＩｎｉｔｉａｌＶｉｅｗｉｎｇＯｒｉｅｎｔａｔｉｏｎＳａｍｐｌｅ()が示され、現在のビューポイントにスイッチングされる時にシグナリングされたＩｎｉｔｉａｌＶｉｅｗｉｎｇＯｒｉｅｎｔａｔｉｏｎＳａｍｐｌｅ()に含まれた視聴方向に従うことが勧められる。

図２０による例示を参照すると、ビューポイントがＶＰ＃１乃至ＶＰ＃５により表されている。ＶＰ＃１及びＶＰ＃２とＶＰ＃３、ＶＰ＃４及びＶＰ＃５とを区分する線は、ビューポイント間の近接有無を示す。ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが０であるグループ内のＶＰ＃１とＶＰ＃２は近接するので、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが０であるグループ内のビューポイントのｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇの値は０である。ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが１であるグループ内のＶＰ＃２はＶＰ＃４及びＶＰ＃５に近接していないので、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが１であるグループ内のビューポイントのｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇの値は１である。ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが２であるグループ内のＶＰ＃３、ＶＰ＃４及びＶＰ＃５は近接するので、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが２であるグループ内のビューポイントのｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇの値は０である。

図２１ａ及び図２１ｂは複数のビューポイントの間が近接しているか否かによるディスプレイの一例を示す図である。

図２１ａにおいて、ＶＰ＃１乃至ＶＰ＃４はスタジアムのシーンを示し、ＶＰ＃５及びＶＰ＃６はロッカールームを示し、ＶＰ＃７はスタジアム入口のシーンを示す。ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが０であるグループ内に含まれるＶＰ＃１乃至ＶＰ＃４は近接するので、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが０であるグループ内のビューポイントのｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇの値は０である。ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが１であるグループ内に含まれるＶＰ＃５及びＶＰ＃６は近接するので、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが１であるグループ内のビューポイントのｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇの値は０である。ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが２であるグループ内に含まれるＶＰ＃１乃至ＶＰ＃７は、全てが相互近接することではないので、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが２であるグループ内のビューポイントのｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇの値は１である。

一実施例において、近接するビューポイントの間でスイッチングが行われる時と、近接していないビューポイントの間でスイッチングが行われる時に適用される転移効果は互いに異なることができる。一例において、近接するビューポイントの間でスイッチングが行われる時に適用される転移効果はズームイン効果であり、近接していないビューポイントの間でスイッチングが行われる時に適用される転移効果はウォークスルー(ｗａｌｋｉｎｇｔｈｒｏｕｇｈ)効果又はｗａｌｋｔｈｒｏｕｇｈａｈａｌｌｗａｙである。

図２１ｂを参照すると、名前、静止画像、プレビュービデオ、実際のビデオ又は関連説明(ｄｅｓｃｒｉｐｔｉｏｎ)がオーバーレイを用いて伝達(ｄｅｌｉｖｅｒｅｄ)又はディスプレイされることができる。図２１ａにおいて、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄ＝０のＶＰ＃１、ＶＰ＃２、ＶＰ＃３及びＶＰ＃４は互いに近接することを確認できるので、図２１ｂのようにＶＰ＃１のシーン内でＶＰ＃２、ＶＰ＃３及びＶＰ＃４の位置を指示するアイコンがオーバーレイされることができる。

ＶＰ＃１に近接していないＶＰ＃５、ＶＰ＃６及びＶＰ＃７は、図２１ｂの左側図の右上端に示されたオーバーレイアイコンにより接続できる。即ち、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが１であるビューポイントと、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが２であり、かつｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが０ではないビューポイントは、ＶＰ＃１に近接していないので、ＶＰ＃５、ＶＰ＃６及びＶＰ＃７に対応するアイコンはＶＰ＃１のシーン内に直接ディスプレイされず、リンクアイコンに対する接続後にさらにディスプレイされることができる。但し、実施例はこれに限られず、ＶＰ＃１に近接していないＶＰ＃５、ＶＰ＃６及びＶＰ＃７に対応するアイコンは、例えば、更なるポップアップディスプレイによるか、ビューポート上のアドオンによるか、又は３６０シーンのカバレッジ限界によるブラック領域(ｂｌａｃｋａｒｅａ)によって示されることができる。

図２２ａ及び図２２ｂは複数のビューポイントの間が近接しているか否かによるディスプレイの他の例を示す図である。

一実施例において、図２２ａはＶＰ＃１に近接していないＶＰ＃５、ＶＰ＃６及びＶＰ＃７に対応するアイコンがポップアップ方式でディスプレイされることを示し、図２２ｂはＶＰ＃１に近接していないＶＰ＃５、ＶＰ＃６及びＶＰ＃７に対応するアイコンがビューポート上のアドオン方式でディスプレイされることを示す。

図２２ａを参照すると、ＶＰ＃５、ＶＰ＃６及びＶＰ＃７はＶＰ＃１に近接していないので、ＶＰ＃１のシーン内に直接ディスプレイすることはできないが、ＶＰ＃５、ＶＰ＃６及びＶＰ＃７を示す最適の間接位置(例えば、ＶＰ＃１シーン内で見たロッカールームの位置)にＶＰ＃５、ＶＰ＃６及びＶＰ＃７に対応するアイコンをディスプレイすることができる。また、各ビューポイントに関連するイメージ情報、説明情報などを図２２ａのようにポップアップ方式でディスプレイすることができる。

図２２ｂを参照すると、ＶＰ＃１に近接していないＶＰ＃５、ＶＰ＃６及びＶＰ＃７に対するアイコンをＶＰ＃１に対するシーンの左側にディスプレイすることができる。ＶＰ＃５、ＶＰ＃６及びＶＰ＃７に対するアイコンと共に、ＶＰ＃５、ＶＰ＃６及びＶＰ＃７と各々対応するイメージをディスプレイすることができる。

図２３は複数のビューポイントのビューポイントグループＩＤ、非近接フラグ情報及びアンカービューポイントフラグ情報を示す一例である。

複数のビューポイントビデオトラックグルーピングに関するシンタックスは、例えば、以下の表８のように表現できる。

アンカービューポイントは近接ビューポイントの基礎ビューポイントと定義できる。表８において、ａｎｃｈｏｒ＿ｖｉｅｗｐｏｉｎｔ＿ｆｌａｇの値が０である場合、(現在の)ビューポイントはトラックグループ(又はビューポイントグループ)内の近接するビューポイントのうち、アンカー(ａｎｃｈｏｒ)／マスター(ｍａｓｔｅｒ)／オリジン(ｏｒｉｇｉｎ)ではない。ａｎｃｈｏｒ＿ｖｉｅｗｐｏｉｎｔ＿ｆｌａｇの値が１である場合は、(現在の)ビューポイントはトラックグループ(又はビューポイントグループ)内の近接するビューポイントのうち、アンカー／マスター／オリジンである。ビューポイントトラックグループ(又はビューポイントグループ、トラックグループ)内の複数の近接ビューポイントが定義された場合、少なくとも一つのビューポイントに対するａｎｃｈｏｒ＿ｖｉｅｗｐｏｉｎｔ＿ｆｌａｇの値は１である。

一実施例において、アンカービューポイントは、２つの分離されたグループの間の連結ポイント(ｃｏｎｎｅｃｔｉｏｎｐｏｉｎｔ)として利用できる。例えば、一つのルームに複数のビューポイントが定義された場合、ルームのドアに位置するビューポイントがアンカービューポイントとして定義されることができる。この時、ルームのドアに位置するビューポイントは連結ポイントとして他のルームのドアに位置するビューポイントに連結されることができる。

表８において、ｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇの値が０であると、現在のビューポイントはアンカービューポイントと空間的に(ｓｐａｔｉａｌｌｌｙ)又は論理的に(ｌｏｇｉｃａｌｌｙ)近接することができる。ｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇの値が１であると、現在のビューポイントはアンカービューポイントと空間的又は論理的に近接しないことができる。即ち、ビューポイントトラックグループ内のビューポイントの近接性(ｃｏｎｔｉｇｕｉｔｙ)は、現在のビューポイントとアンカービューポイントとの間の空間的関係又は論理的関係により決定される。一例において、他のタイプのビューポイントビデオトラックグループはフラグを追加するか、又はＶｉｅｗｐｏｉｎｔＴｒａｃｋＧｒｏｕｐＴｙｐｅを定義することにより定義することができる。

一例において、ＶｉｅｗｐｏｉｎｔＴｒａｃｋＧｒｏｕｐＴｙｐｅは空間的近接性、論理的近接性などの互いに異なるタイプの近接性に関する指示情報を示す。

一実施例において、ＶｉｅｗｐｏｉｎｔＴｒａｎｓｉｔｉｏｎＥｆｆｅｃｔＳｔｒｕｃｔ()は、以下のようなｔｒａｎｓｉｔｉｏｎ＿ｅｆｆｅｃｔ＿ｔｙｐｅ及びｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｒｅｆｒｅｓｈ＿ｆｌａｇを含む。ｔｒａｎｓｉｔｉｏｎ＿ｅｆｆｅｃｔ＿ｔｙｐｅは、トラックグループ(又はビューポイントグループ)内のビューポイント間のスイッチングを行う時に適用される転移効果のタイプを指示する。ｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｒｅｆｒｅｓｈ＿ｆｌａｇの値が０であると、ＩｎｉｔｉａｌＶｉｅｗｉｎｇＯｒｉｅｎｔａｔｉｏｎＳａｍｐｌｅ()は示されず、同じトラックグループ(又はビューポイントグループ)内でスイッチングが行われる前の視聴方向を維持することが勧められる。ｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｒｅｆｒｅｓｈ＿ｆｌａｇの値が１であると、ＩｎｉｔｉａｌＶｉｅｗｉｎｇＯｒｉｅｎｔａｔｉｏｎＳａｍｐｌｅ()値が示され、同じトラックグループ内でスイッチングが行われる時にシグナリングされたＩｎｉｔｉａｌＶｉｅｗｉｎｇＯｒｉｅｎｔａｔｉｏｎＳａｍｐｌｅ()に含まれた視聴方向に従うことが勧められる。

図２３を参照すると、ビューポイントトラックグループのｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが０であるビューポイント(点線内のビューポイント)はＶＰ＃１乃至ＶＰ＃５であり、ビューポイントトラックグループのｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが１であるビューポイント(実線内のビューポイント)もＶＰ＃１乃至ＶＰ＃５であることを確認できる。図２３における中心ラインを基準として近接しているか否かが判断される。即ち、ＶＰ＃１とＶＰ＃２が近接し、ＶＰ＃３、ＶＰ＃４及びＶＰ＃５が近接する。図２３において、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが０であるビューポイント(トラック)グループのアンカービューポイントはＶＰ＃２であり、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが１であるビューポイント(トラック)グループのアンカービューポイントはＶＰ＃４である。

図２３を参照すると、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが０であるビューポイントグループにおいて、ＶＰ＃１はアンカービューポイントであるＶＰ＃２に近接するので、ＶＰ＃１のｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇの値は０であり、ＶＰ＃１はアンカービューポイントではないので、ａｎｃｈｏｒ＿ｖｉｅｗｐｏｉｎｔ＿ｆｌａｇの値は０であることを確認できる。ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが０であるビューポイントグループにおいて、ＶＰ＃３はアンカービューポイントであるＶＰ＃２に近接していないので、ＶＰ＃３のｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇの値は１であり、ＶＰ＃３はアンカービューポイントではないので、ａｎｃｈｏｒ＿ｖｉｅｗｐｏｉｎｔ＿ｆｌａｇの値は０であることを確認できる。また、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが１であるビューポイントグループにおいて、ＶＰ＃４はアンカービューポイントであるので、ｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇの値は０であり、ａｎｃｈｏｒ＿ｖｉｅｗｐｏｉｎｔ＿ｆｌａｇの値は１であることを確認できる。

図２４ａ及び図２４ｂは複数のビューポイントの間が近接しているか否かによるディスプレイのさらに他の例を示す図である。

図２４ａを参照すると、ビューポイントトラックグループのｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが０であるビューポイントはＶＰ＃１乃至ＶＰ＃７であり、アンカービューポイントはＶＰ＃１であり、アンカービューポイントであるＶＰ＃１に近接するビューポイントはＶＰ＃２乃至ＶＰ＃４である。従って、ＶＰ＃１のａｎｃｈｏｒ＿ｖｉｅｗｐｏｉｎｔ＿ｆｌａｇの値は１であり、ＶＰ＃２乃至ＶＰ＃７のａｎｃｈｏｒ＿ｖｉｅｗｐｏｉｎｔ＿ｆｌａｇの値は０であり、ＶＰ＃１乃至ＶＰ＃４のｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇの値は０であり、ＶＰ＃５乃至ＶＰ＃７のａｎｃｈｏｒ＿ｖｉｅｗｐｏｉｎｔ＿ｆｌａｇの値は１であることを確認できる。ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが１であるビューポイント(トラック)グループのアンカービューポイントはＶＰ＃５であり、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが２であるビューポイント(トラック)グループのアンカービューポイントはＶＰ＃７であり、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが１であるビューポイントグループ及び２であるビューポイントグループは、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが０であるビューポイントグループと同様に、アンカービューポイントを基準としてａｎｃｈｏｒ＿ｖｉｅｗｐｏｉｎｔ＿ｆｌａｇの値及びｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇの値が決定されることを確認できる。

図２４ｂを参照すると、名前、静止画像、プレビュービデオ、実際のビデオ又は関連説明がオーバーレイを用いて伝達又はディスプレイされることができる。図２４ａにおいて、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが０であるビューポイントグループにおいて、ＶＰ＃１、ＶＰ＃２、ＶＰ＃３及びＶＰ＃４が互いに近接することが確認できるので、図２４ｂのようにＶＰ＃１のシーン内でＶＰ＃２、ＶＰ＃３及びＶＰ＃４の位置を指示するアイコンがオーバーレイされることができる。

ＶＰ＃１に近接していないＶＰ＃５、ＶＰ＃６及びＶＰ＃７は、図２４ｂの左側図の右上端に示されたオーバーレイアイコンにより接続できる。即ち、ＶＰ＃５乃至ＶＰ＃７はＶＰ＃１に近接していないので、ＶＰ＃５、ＶＰ＃６及びＶＰ＃７に対応するアイコンはＶＰ＃１のシーン内に直接ディスプレイされず、リンクアイコンに対する接続後にさらにディスプレイされることができる。但し、実施例はこれに限られず、ＶＰ＃１に近接していないＶＰ＃５、ＶＰ＃６及びＶＰ＃７に対応するアイコンは、例えば、更なるポップアップディスプレイによるか、ビューポート上のアドオンによるか、実際の位置に関連するか又は関連しない３６０球面座標系によるか、又は３６０シーンのカバレッジ限界によるブラック領域によって示されることができる。

一実施例において、上記メタデータは以下の表９のＤＡＳＨデータのように示すことができる。

表９のｔｒａｎｓｉｔｉｏｎ＿ｅｆｆｅｃｔ＿ｔｙｐｅは表１のｔｒａｎｓｉｔｉｏｎ＿ｅｆｆｅｃｔ＿ｔｙｐｅ[ｉ]に対応し、表９のｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｒｅｆｒｅｓｈ＿ｆｌａｇは表１のｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｒｅｆｒｅｓｈ＿ｆｌａｇに対応し、表９のｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｙａｗ、ｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｐｉｔｃｈ及びｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｒｏｌｌは表１のｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｙａｗ、ｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｐｉｔｃｈ及びｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｒｏｌｌに対応し、表９のｎｕｍ＿ｖｉｅｗｐｏｉｎｔｓは表４のｎｕｍ＿ｖｉｅｗｐｏｉｎｔｓに対応し、表９のｖｉｅｗｐｏｉｎｔ＿ｉｄは表４のｖｉｅｗｐｏｉｎｔ＿ｉｄに対応し、表９のｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇは表７のｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇに対応し、表９のｖｉｅｗｐｏｉｎｔＴｒａｃｋＧｒｏｕｐＴｙｐｅは表７のｖｉｅｗｐｏｉｎｔＴｒａｃｋＧｒｏｕｐＴｙｐｅに対応することができる。

図２５ａ及び図２５ｂは複数のビューポイントの一例を示す図である。

複数のビューポイントは、ユーザが３６０シーンを探索する時に用いられる。ホットスポットは複数のビューポイント間のスイッチングを行う過程で用いられ、ユーザは３６０シーン内でスイッチング可能なビューポイントを示すホットスポットを選択してクリックすることにより、ビューポイントスイッチングを行うことができる。

複数のビューポイント機能を支援するために、以下の要求事項を考える必要がある。第一に、互いに異なるビューポイントに対応するコンテンツの間の空間的関係を記載する手段を定義する必要がある。第二に、互いに異なるビューポイントに対応するコンテンツを一時的に同期化する必要がある。第三に、互いに異なるビューポイントでコンテンツを転換することを支援する必要がある。第四に、コンテンツ提供者により互いに異なるビューポイント間の転換が行われる時、スムーズな移動(ｓｍｏｏｔｈｔｒａｎｓｉｔｉｏｎ)が提要されることができる。

ビューポイント間の転換を支援するために、更なるメタデータが考えられる必要がある。第一には、一つのビューポイントから他のビューポイントに転換される時に用いられることが勧められる転移効果に関するメタデータである。転移効果は、例えば、ウォークスルー効果又はズームイン効果を含む。転移効果に関するメタデータは、コンテンツ提供者により意図されたビーポイント間の転換が行われる時にスムーズな移動を提供することができる。

第二に、ユーザが加用ビューポイントのうちの一つを選択するようにするビューポイントのグルーピングに関するメタデータである。図２５ａはスポーツスタジアムの複数のビューポイントの例示を示し、スポーツスタジアムの複数のビューポイントと、ロッカールームの複数のビューポイント及びスタジアム入口のビューポイントのようなフィールド外部のビューポイントを示している。スポーツスタジアムの複数のビューポイントに関連するケースにおいて、ユーザがホットスポットを転換できるビューポイントは現在の３６０シーンに位置することができ、ビューポイントの位置は近接するビューポイントの間の実際の関係に基づいて決定される。ビューポイントの位置がシーンと整列されると、ユーザは直観的にビューポイントを選択することができる。

反面、フィールド外部のビューポイントに関連するケースにおいて、ビューポイント間の空間的関係がシーンと整列されないことができるので、受信器は非近接ビューポイントの可用性を他の方式で示す必要がある。図２５ｂを参照すると、ロッカールームとスタジアム入口は、実際の時点に一致しないホットスポットに連結されていることを確認できる。

上記イッシュを解決するために、一実施例では、受信器が意図された転移効果に関する情報を受信できるシグナリング方法が提供される。さらに、ビューポイントスイッチングに対するビデオトラックグループを指示する複数のビューポイントのための新しいトラックグルーピングが提案される。複数のビューポイントのスイッチングを支援するために、ＯＭＡＦでビューポイントメタデータを伝達する方法が提案される。ＯＭＡＦでビューポイントメタデータを伝達する方法において、ＶｉｅｗｐｏｉｎｔＩｎｆｏＳｔｒｕｃｔ()内に転移効果メタデータを含んで伝達することができ、近接又は非近接３６０シーン内でスイッチングされるビデオトラックグループを指示するために、ビューポイントに対する新しいトラックグルーピングが提案されることができる。

一実施例において、ＶｉｅｗｐｏｉｎｔＩｎｆｏＳｔｒｕｃｔ()は共通参照座標系に備えたグローバル座標系のビューポイント位置及びＸ軸、Ｙ軸及びＺ軸のヨー、ピッチ及びロール回転角度を含むビューポイント情報を提供する。一例において、ビューポイントグループ内の全てのビューポイントに対して共通に適用される共通参照座標系が定義される必要がある。ＶｉｅｗｐｏｉｎｔＩｎｆｏＳｔｒｕｃｔ()を含むシンタックスの一例は以下の表１０の通りである。

ｖｉｅｗｐｏｉｎｔ＿ｐｏｓ＿ｘ、ｖｉｅｗｐｏｉｎｔ＿ｐｏｓ＿ｙ及びｖｉｅｗｐｏｉｎｔ＿ｐｏｓ＿ｚは、(０、０、０)を共通参照座標系の中心とする３Ｄ空間でビューポイントの位置をミリメートル単位で示すことができる。

ｖｉｅｗｐｏｉｎｔ＿ｇｃｓ＿ｙａｗ、ｖｉｅｗｐｏｉｎｔ＿ｇｃｓ＿ｐｉｔｃｈ及びｖｉｅｗｐｏｉｎｔ＿ｇｃｓ＿ｒｏｌｌは各々、共通参照座標系に対するビューポイントのグローバル座標系のＸ軸、Ｙ軸及びＺ軸のヨー、ピッチ及びロール角度を意味し、単位は２^−１６°である。ｖｉｅｗｐｏｉｎｔ＿ｇｃｓ＿ｙａｗは−１８０＊２^１６°以上１８０＊２^１６−１°以下の範囲に含まれ、ｖｉｅｗｐｏｉｎｔ＿ｇｃｓ＿ｐｉｔｃｈは−９０＊２^１６°以上１８０＊２^１６−１°以下の範囲に含まれ、ｖｉｅｗｐｏｉｎｔ＿ｇｃｓ＿ｒｏｌｌは−１８０＊２^１６°以上１８０＊２^１６−１°以下の範囲に含まれる。次に、ｔｒａｎｓｉｔｉｏｎ＿ｅｆｆｅｃｔ＿ｔｙｐｅはビューポイントスイッチングが行われる時の転移効果のタイプを示す。ｔｒａｎｓｉｔｉｏｎ＿ｅｆｆｅｃｔ＿ｔｙｐｅの例示は以下の表１１の通りである。

再度表１０を参照すると、ｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｒｅｆｒｅｓｈ＿ｆｌａｇの値が１である場合、ＩｎｉｔｉａｌＶｉｅｗｉｎｇＯｒｉｅｎｔａｔｉｏｎＳａｍｐｌｅ()は示されず、現在のビューポイントにスイッチングされる前のビューポイントの視聴方向(ｖｉｅｗｉｎｇｏｒｉｅｎｔａｔｉｏｎ)を維持することが勧められる。ｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｒｅｆｒｅｓｈ＿ｆｌａｇの値が０である場合は、ＩｎｉｔｉａｌＶｉｅｗｉｎｇＯｒｉｅｎｔａｔｉｏｎＳａｍｐｌｅ()が示され、現在のビューポイントにスイッチングされる時にシグナリングされたＩｎｉｔｉａｌＶｉｅｗｉｎｇＯｒｉｅｎｔａｔｉｏｎＳａｍｐｌｅ()に含まれた視聴方向に従うことが勧められる。他の例示では、ｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｒｅｆｒｅｓｈ＿ｆｌａｇの値が０でありながら、関連するＩｎｉｔｉａｌＶｉｅｗｉｎｇＯｒｉｅｎｔａｔｉｏｎＳａｍｐｌｅ()が存在しない場合、ビューポイント座標系の(０、０、０)をビューポイントスイッチング時の視聴方向として決定することができる。

一方、表１０によるＶｉｅｗｐｏｉｎｔＩｎｆｏＳｔｒｕｃｔは一例に過ぎず、ＶｉｅｗｐｏｉｎｔＩｎｆｏＳｔｒｕｃｔを示すシンタックスが表１０に限られないことは、当該技術分野における通常の技術者が容易に理解することができる。

一実施例において、ｔｒａｃｋ＿ｇｒｏｕｐ＿ｔｙｐｅが‘ｖｐｇｒ’であるＴｒａｃｋＧｒｏｕｐＴｙｐｅＢｏｘは、該当トラックが３６０シーンでスイッチング可能なトラックであることを示す。該当グループにマッピングされたトラックは３６０シーン内でスイッチング可能なビューポイントを形成することができる。

一実施例において、ａｎｃｈｏｒ＿ｖｉｅｗｐｏｉｎｔ＿ｆｌａｇとｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇを含むシンタックスの一例は、以下の表１２の通りである。

表１２において、ａｎｃｈｏｒ＿ｖｉｅｗｐｏｉｎｔ＿ｆｌａｇの値が１である場合、(現在の)ビューポイントは、同じビューポイントのトラックグループ内のビューポイント近接性の決定に基盤となるアンカービューポイントに該当する。ｔｒａｃｋ＿ｇｒｏｕｐ＿ｉｄが同じ値を有する複数のトラックが存在する場合は、該当グループの少なくとも一つのトラック(又はビューポイント)のａｎｃｈｏｒ＿ｖｉｅｗｐｏｉｎｔ＿ｆｌａｇの値は１になる。

一例において、ＯＭＡＦプレーヤーは３６０シーンの変更のように、該当ビューポイントトラックグループのうち、特定のビューポイントを明示的に選択せず、ユーザがビューポイントトラックグループに参与する時、アンカービューポイントトラックを再生することができる。

表１２のｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇの値が０であると、アンカービューポイントに近接することができ、ｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇの値が１であると、アンカービューポイントに近接しないことができる。

図２６は一実施例による３６０°ビデオ送信装置の動作方法を示すフローチャートであり、図２７は一実施例による３６０°ビデオ送信装置の構成を示すブロック図である。

図２６に示された各段階は、図５に示された３６０ビデオ送信装置、図１４ａに示された３６０ビデオ送信装置、図１５に示されたＦＬＵＳソース、又は図２７に示された３６０°ビデオ送信装置により行われる。一例として、図２６のＳ２６００は図５に示された３６０ビデオ送信装置のデータ入力部により行われ、図２６のＳ２６１０は図５に示された３６０ビデオ送信装置のプロジェクション処理部により行われ、図２６のＳ２６２０は図５に示されたメタデータ処理部により行われ、図２６のＳ２６３０は図５に示された３６０ビデオ送信装置のデータ符号器により行われ、図２６のＳ２６４０は図５に示された３６０ビデオ送信装置のカプセル化処理部により行われる。従って、図２６の各段階を説明するにおいて、図５、図１４ａ及び図１５に示した内容と重複する具体的な内容は省略するか又は簡単に説明する。

図２７に示したように、一実施例による３６０°ビデオ送信装置は、データ入力部、プロジェクション処理部、メタデータ処理部、データ符号器及びカプセル化処理部を含む。しかし、場合によっては、図２７に示した全ての構成要素が３６０°ビデオ送信装置の必須構成要素ではないこともでき、３６０°ビデオ送信装置は図２７に示した構成要素より多いか又は少なく構成要素により具現されることもできる。

一実施例による３６０°ビデオ送信装置において、データ入力部、プロジェクション処理部、メタデータ処理部、データ符号器及びカプセル化処理部は各々、別途のチップで具現されるか、又は少なくとも２つ以上の構成要素が一つのチップにより具現される。

この明細書において、“３６０ビデオ”と“３６０°ビデオ”は多少名称が異なるが、同じ対象を指すものである。従って、図５に示した“３６０ビデオ送信装置”と図２７に示した“３６０°ビデオ送信装置”は名称が多少異なるだけであり、互いに同一／類似する動作を行うものであり、図６に示した“３６０ビデオ受信装置”と図２９に示した“３６０°ビデオ受信装置”も名称が多少異なるだけであり、互いに同一／類似する動作を行う。

一実施例による３６０°ビデオ送信装置は、少なくとも一つのイメージ獲得装置によりキャプチャーされた３６０°ビデオデータを得る(Ｓ２６００)。より具体的には、３６０°ビデオ送信装置のデータ入力部は、少なくとも一つのイメージ獲得装置によりキャプチャーされた３６０°ビデオデータを得ることができる。

一実施例において、イメージ獲得装置はカメラ、カムコーダー、スマートホン、ＰＣなどを含み、これらに限られない。

一実施例による３６０°ビデオ送信装置は３６０°ビデオデータを処理して全方向イメージを含む２次元ピクチャを導き出す(Ｓ２６１０)。より具体的には、３６０°ビデオ送信装置のプロジェクション処理部は、３６０°ビデオデータを処理して全方向イメージを含む２次元ピクチャを導き出すことができる。

一実施例による３６０°ビデオ送信装置は３６０°ビデオデータに関するメタデータを生成する(Ｓ２６２０)。より具体的には、３６０°ビデオ送信装置のメタデータ処理部は３６０°ビデオデータに対するメタデータを生成することができる。

一実施例において、メタデータは３６０°ビデオデータ内のビューポイントグループに含まれた少なくとも一つのビューポイントが互いに近接しているか否かを示す非近接フラグ情報を含む。一例において、非近接フラグ情報はｎｏｎ＿ｃｏｎｔｉｇｕｏｕｓ＿ｆｌａｇと称される。

一実施例において、ビューポイントグループに含まれた全てのビューポイントが互いに近接する場合、非近接フラグ情報の値は０であり、ビューポイントグループに含まれた少なくとも一つのビューポイントが互いに近接していない場合は、非近接フラグ情報の値は１である。

一実施例において、ビューポイントグループに含まれた少なくとも一つのビューポイントが互いに近接しているか否かについての判断は、空間的非近接性(ｓｐａｔｉａｌｎｏｎ−ｃｏｎｔｉｇｕｉｔｙ)及び論理的非近接性(ｌｏｇｉｃａｌｎｏｎ−ｃｏｎｔｉｇｕｉｔｙ)のうちのいずれかに基づく。一例において、ビューポイントグループに含まれた少なくとも一つのビューポイントが互いに近接しているか否かについての判断は、ＶｉｅｗｐｏｉｎｔＴｒａｃｋＧｒｏｕｐＴｙｐｅに基づいて行われる。

一実施例において、さらにメタデータは、ビューポイントグループに含まれた現在のビューポイントがアンカービューポイント(ａｎｃｈｏｒｖｉｅｗｐｏｉｎｔ)であるか否かを示すアンカービューポイントフラグ情報を含む。一例において、アンカービューポイントフラグ情報はａｎｃｈｏｒ＿ｖｉｅｗｐｏｉｎｔ＿ｆｌａｇと称される。

一実施例において、現在のビューポイントがアンカービューポイントである場合、現在のビューポイントに対するアンカービューポイントフラグ情報の値は１であり、現在のビューポイントがアンカービューポイントではない場合は、現在のビューポイントに対するアンカービューポイントフラグ情報の値は０である。

一実施例において、ビューポイントグループに含まれた現在のビューポイントがアンカービューポイントに近接する場合、現在のビューポイントに対する非近接フラグ情報の値は０であり、ビューポイントグループに含まれた現在のビューポイントがアンカービューポイントに近接していない場合は、現在のビューポイントに対する非近接フラグ情報の値は１である。

一実施例において、アンカービューポイントフラグ情報の値が１である場合、非近接フラグ情報の値は０である。

一実施例において、さらにメタデータは、ビューポイントに対して初期の視聴方向(ｉｎｉｔｉａｌｖｉｅｗｉｎｇｏｒｉｅｎｔａｔｉｏｎ)を適用するか否かに関する情報を含む。一例において、ビューポイントに対して初期の視聴方向を適用するか否かに関する情報はｖｉｅｗｉｎｇ＿ｏｒｉｅｎｔａｔｉｏｎ＿ｒｅｆｒｅｓｈ＿ｆｌａｇと称される。

一実施例において、初期の視聴方向を適用するか否かに関する情報に基づいてビューポイントに対して初期の視聴方向を適用すると決定した場合、メタデータはビューポイントに対する初期の視聴方向のヨー(ｙａｗ)角度、ピッチ(ｐｉｔｃｈ)角度及びロール(ｒｏｌｌ)角度に関する情報を含む。一例において、ビューポイントに対する初期の視聴方向のヨー角度、ピッチ角度及びロール角度に関する情報はＩｎｉｔｉａｌＶｉｅｗｉｎｇＯｒｉｅｎｔａｔｉｏｎＳａｍｐｌｅと称される。

一実施例において、さらにメタデータは、ビューポイントグループ内でビューポイントスイッチングが行われる時に適用される転移効果(ｔｒａｎｓｉｔｉｏｎｅｆｆｅｃｔ)のタイプに関する情報を含む。一例において、転移効果のタイプに関する情報はｔｒａｎｓｉｔｉｏｎ＿ｅｆｆｅｃｔ＿ｔｙｐｅと称される。

一実施例において、転移効果のタイプに関する情報は、ズームイン(ｚｏｏｍ−ｉｎ)効果に関する情報及びウォークスルー(ｗａｌｋｉｎｇｔｈｒｏｕｇｈ)効果に関する情報を含む。

一実施例による３６０°ビデオ送信装置は、２次元ピクチャに関する情報を符号化する(Ｓ２６３０)。より具体的には、３６０°ビデオ送信装置のデータ符号器は２次元ピクチャに関する情報を符号化する。

一実施例による３６０°ビデオ送信装置は、２次元ピクチャに関する情報及びメタデータに基づいてカプセル化を行う(Ｓ２６４０)。より具体的には、３６０°ビデオ送信装置のカプセル化処理部は２次元ピクチャに関する情報及びメタデータに基づいてカプセル化を行う。

図２６及び図２７に示された３６０°ビデオ送信装置及び３６０°ビデオ送信装置の動作方法によれば、一実施例による３６０°ビデオ送信装置は、少なくとも一つのカメラによりキャプチャーされた３６０°ビデオデータを得(Ｓ２６００)、３６０°ビデオデータを処理して全方向イメージを含む２次元ピクチャを導き出し(Ｓ２６１０)、３６０°ビデオデータに対するメタデータを生成し(Ｓ２６２０)、２次元ピクチャに関する情報を符号化し(Ｓ２６３０)、２次元ピクチャに関する情報及びメタデータに基づいてカプセル化を行い(Ｓ２６４０)、この時、メタデータは３６０°ビデオデータ内のビューポイントグループに含まれた少なくとも一つのビューポイントが互いに近接しているか否かを示す非近接フラグ情報を含むことを特徴とする。これにより、３６０°ビデオ内でビューポイントグループに含まれた少なくとも一つのビューポイントが互いに近接しているか否かを示す非近接フラグ情報を効果的にシグナリングすることができる。

図２８は一実施例による３６０°ビデオ受信装置の動作方法を示すフローチャートであり、図２９は一実施例による３６０°ビデオ受信装置の構成を示すブロック図である。

図２８及び図２９による３６０°ビデオ受信装置及びその動作方法は、上述した図２６及び図２７による３６０°ビデオ送信装置の動作方法と一部対応する。従って、互いに重複する動作については説明を簡単にするか又は省略する。

図２８に示された各段階は図６に示された３６０ビデオ受信装置、図１４ｂに示された３６０ビデオ受信装置、図１５に示されたＦＬＵＳシンク、又は図２９に示された３６０°ビデオ受信装置により行われる。一例として、図２８のＳ２８００及びＳ２８１０は図６に示された３６０ビデオ受信装置の受信処理部により行われ、図２８のＳ２８２０は図６に示された３６０ビデオ受信装置のデータ復号器により行われ、図２８のＳ２８３０は図６に示されたレンダラーにより行われる。従って、図２８の各段階を説明するにおいて、図６、図１４ｂ及び図１５に示した内容と重複する具体的な内容は説明を省略するか又は簡単に説明する。

図２９に示したように、一実施例による３６０°ビデオ受信装置は、受信処理部、データ復号器及びレンダラーを含む。しかし、場合によっては、図２９に示した全ての構成要素が３６０°ビデオ受信装置の必須構成要素ではないこともでき、３６０°ビデオ受信装置は図２９に示した構成要素より多いか又は少ない構成要素により具現されることもできる。

一実施例による３６０°ビデオ受信装置において、受信処理部、データ復号器及びレンダラーは各々別のチップで具現されるか、又は少なくとも２つ以上の構成要素が一つのチップで具現されることもできる。

一実施例による３６０°ビデオ受信装置は、３６０°ビデオデータに関する情報を受信する(Ｓ２８００)。より具体的には、３６０°ビデオ受信装置の受信処理部は３６０°ビデオデータに関する情報を受信することができる。

一実施例において、３６０°ビデオ受信装置は３６０°ビデオ送信装置から３６０°ビデオデータに関する情報を受信し、３６０°ビデオデータに関する情報は、例えば、３６０°送信装置で符号化されたピクチャに関する情報及び３６０°ビデオデータに関するメタデータに基づいてカプセル化(ｅｎｃａｐｓｕｌａｔｉｏｎ)して導き出されたファイルを含む。但し、これに限られない。

一実施例による３６０°デオ受信装置は、３６０°ビデオデータに関する情報から符号化されたピクチャに関する情報及びメタデータを得る(Ｓ２８１０)。より具体的には、３６０°ビデオ受信装置の受信処理部、メタデータパーサー又はカプセル除去処理部は、３６０°ビデオデータに関する情報から符号化されたピクチャに関する情報及びメタデータを得ることができる。

一実施例による３６０°ビデオ受信装置は、符号化されたピクチャに関する情報に基づいてピクチャを復号する(Ｓ２８２０)。より具体的には、３６０°ビデオ受信装置のデータ復号器は符号化されたピクチャに関する情報に基づいてピクチャを復号する。

一実施例による３６０°ビデオ受信装置は、メタデータに基づいて復号されたピクチャをレンダリングする(Ｓ２８３０)。より具体的には、３６０°ビデオ受信装置のレンダラーはメタデータに基づいて復号されたピクチャをレンダリングする。

図２８及び図２９に示された３６０°ビデオ受信装置及び３６０°ビデオ受信装置の動作方法によれば、一実施例による３６０°ビデオ受信装置は、３６０°ビデオデータに関する情報を受信し(Ｓ２８００)、３６０°ビデオデータに関する情報から符号化されたピクチャに関する情報及びメタデータを得(Ｓ２８１０)、符号化されたピクチャに関する情報に基づいてピクチャを復号し(Ｓ２８２０)、メタデータに基づいて復号されたピクチャをレンダリング(Ｓ２８３０)することができ、この時、メタデータは３６０°ビデオデータ内のビューポイントグループに含まれた少なくとも一つのビューポイントが互いに近接しているか否かを示す非近接フラグ情報を含むことを特徴とする。これにより、３６０°ビデオ内でビューポイントグループに含まれた少なくとも一つのビューポイントが互いに近接しているか否かを示す非近接フラグ情報を効果的にシグナリングすることができる。

上述した各々のパート、モジュール又はユニットは、メモリ(又は格納ユニット)に格納された連続する実行過程を行うプロセッサであるか、又はハードウェアパートである。上述した実施例に記載された各々の段階は、プロセッサ又はハードウェアパートにより行われることができる。上述した実施例に記載された各々のモジュール／ブロック／ユニットは、ハードウェア／プロセッサとして動作することができる。また本発明が提示する方法は、コードとして実行されることができる。このコードはプロセッサが読み取り可能な格納媒体に記録されることができ、よって装置が提供するプロセッサにより読み取られることができる。

上述した実施例において、上記方法は一連の段階又はブロックで順序図に基づいて説明されているが、本発明は段階の順序に限定されるものではなく、ある段階は前述と異なる段階と異なる順序に又は同時に発生することができる。また、当業者であれば、順序図に示す段階が排他的でなく、他の段階が含まれたり、或いは順序図の一つ又はその以上の段階が本発明の範囲に影響を及ぼさずに削除可能であること理解することができる。

本発明において、実施例がソフトウェアで具現される時、上述した技法は、上述した機能を遂行するモジュール(過程、機能など)で具現されることができる。モジュールはメモリに格納され、プロセッサにより実行されることができる。メモリはプロセッサの内部又は外部にあり、よく知られた多様な手段でプロセッサと連結されることができる。プロセッサはＡＳＩＣ(ａｐｐｌｉｃａｔｉｏｎ−ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ)、他のチップセット、論理回路及び／又はデータ処理装置を含む。メモリはＲＯＭ(ｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ)、ＲＡＭ(ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ)、フラッシュメモリ、メモリカード、格納媒体及び／又は他の格納装置を含む。

Claims

３６０°ビデオ受信装置により行われる３６０°ビデオデータ処理方法において、
符号化されたピクチャを含む３６０°ビデオデータを受信する段階と、
メタデータを得る段階と、
前記符号化されたピクチャを復号する段階と、
前記メタデータに基づいて前記復号されたピクチャをレンダリングする段階と、を含み、
前記メタデータはビューポイント情報を含み、
前記ビューポイント情報はビューポイントの位置のｘコンポーネント、ｙコンポーネント及びｚコンポーネントを示すビューポイント位置情報を含み、
前記ビューポイント情報は転移効果情報を含み、
前記転移効果情報は転移効果タイプ情報を含み、前記転移効果タイプ情報は前記ビューポイントがスイッチングされる時、転移効果のタイプを示すことを特徴とする、３６０°ビデオデータ処理方法。
前記ビューポイント情報はビューポイント回転情報を含み、
前記ビューポイント回転情報は前記ビューポイントのヨー、ピッチ、ロール角度に関する情報を含む、請求項１に記載の３６０°ビデオデータ処理方法。
前記転移効果のタイプはズームイン効果タイプ及びウォークスルー効果タイプのうちのいずれか一つを含む、請求項１に記載の３６０°ビデオデータ処理方法。
前記ビューポイント情報は視聴方向情報を含み、
前記視聴方向情報は前記ビューポイントがスイッチングされる時、前記ビューポイントの視聴方向を含む、請求項１に記載の３６０°ビデオデータ処理方法。
前記ビューポイントの視聴方向は、前記ビューポイントと同一に維持される、請求項４に記載の３６０°ビデオデータ処理方法。
前記メタデータは前記ビューポイントのビューポイントＩＤを示すビューポイントＩＤ情報を含む、請求項１に記載の３６０°ビデオデータ処理方法。
前記メタデータはビューポイントを識別するためのビューポイントグループＩＤ情報を含む、請求項１に記載の３６０°ビデオデータ処理方法。
前記メタデータは動的なビューポイント情報を含む、請求項１に記載の３６０°ビデオデータ処理方法。
前記動的なビューポイント情報は前記動的なビューポイント情報内にビューポイントに関連する情報を含む、請求項８に記載の３６０°ビデオデータ処理方法。
前記メタデータはビューポイントグループ内のビューポイントの数の情報を含む、請求項１に記載の３６０°ビデオデータ処理方法。
前記メタデータは前記ビューポイントの近接情報を含み、
前記ビューポイントの近接情報は全てのビューポイントが近接しているか否かを示す、請求項１に記載の３６０°ビデオデータ処理方法。
３６０°ビデオ受信装置において、
符号化されたピクチャを含む３６０°ビデオデータを受信する受信器と、
前記符号化されたピクチャを復号するデータ復号器と、
得られたメタデータに基づいて前記復号されたピクチャをレンダリングするレンダラーと、を含み、
前記メタデータはビューポイント情報を含み、
前記ビューポイント情報はビューポイントの位置のｘコンポーネント、ｙコンポーネント及びｚコンポーネントを示すビューポイント位置情報を含み、
前記ビューポイント情報は転移効果情報を含み、
前記転移効果情報は転移効果タイプ情報を含み、前記転移効果タイプ情報は前記ビューポイントがスイッチングされる時、転移効果のタイプを示すことを特徴とする、３６０°ビデオ受信装置。
３６０°ビデオ送信装置により行われる３６０°ビデオデータ処理方法において、
３６０°ビデオを得る段階と、
ピクチャを生成する段階と、
前記ピクチャを符号化する段階と、
メタデータを生成する段階と、
前記符号化されたピクチャ及び前記メタデータの送信又は格納のための処理を行う段階と、を含み、
前記メタデータはビューポイント情報を含み、
前記ビューポイント情報はビューポイントの位置のｘコンポーネント、ｙコンポーネント及びｚコンポーネントを示すビューポイント位置情報を含み、
前記ビューポイント情報は転移効果情報を含み、
前記転移効果情報は転移効果タイプ情報を含み、前記転移効果タイプ情報は前記ビューポイントがスイッチングされる時、転移効果のタイプを示すことを特徴とする、３６０°ビデオデータ処理方法。
３６０°ビデオ送信装置において、
３６０°ビデオのピクチャを生成するプロジェクションプロセッサと、
前記ピクチャを符号化するデータ符号器と、
メタデータを生成するメタデータプロセッサと、
前記符号化されたピクチャ及び前記メタデータの送信又は格納のための処理を行う送信プロセッサと、を含み、
前記メタデータはビューポイント情報を含み、
前記ビューポイント情報はビューポイントの位置のｘコンポーネント、ｙコンポーネント及びｚコンポーネントを示すビューポイント位置情報を含み、
前記ビューポイント情報は転移効果情報を含み、
前記転移効果情報は転移効果タイプ情報を含み、前記転移効果タイプ情報は前記ビューポイントがスイッチングされる時、転移効果のタイプを示すことを特徴とする、３６０°ビデオ送信装置。