JP2018519723A

JP2018519723A - ビデオストリーミング装置、ビデオストリーム、ビデオストリーミング方法、及び、コンピュータプログラム

Info

Publication number: JP2018519723A
Application number: JP2017559076A
Authority: JP
Inventors: ローベルトスクピン; デラフエンテヤーゴサンチェス; トーマスシール
Original assignee: フラウンホファーゲセルシャフトツールフェールデルンクダーアンゲヴァンテンフォルシュンクエー．ファオ．
Priority date: 2015-05-12
Filing date: 2016-05-06
Publication date: 2018-07-19
Anticipated expiration: 2036-05-06
Also published as: CN107852515A; US10623753B2; JP6556868B2; EP3295673A2; US20180098077A1; KR20180005234A; WO2016180741A3; CN107852515B; WO2016180486A1; KR102192459B1; WO2016180741A2; EP3295673B1

Abstract

ビデオストリーミング技術を提供する。本発明の第１の観点によれば、ビデオストリームは、ビデオコンテンツの符号化バージョンからのコピーによって階層データストリームの１又は複数の層のセットを形成し、階層データストリームとして形成される。このとき、少なくとも１つのビデオは、層間予測により階層データストリームの所定層の画像の少なくとも一部において合成される。本発明の第２の観点によれば、層間予測は、置換画像を挿入することによって、新たに含まれたビデオの欠落した被参照画像を置換するために用いられ、又は、新たに含まれたビデオにおける動き補償予測により欠落した画像を参照する部分は、層間予測により置換される。本発明の第３の観点によれば、ビデオストリームの非出力部分からの時間予測によるコピーによってビデオコンテンツの構成を合成する出力画像は、ビデオストリーム内において符号化順序ではなく表示順序で配置されるように、ビデオストリームに挿入される。

Description

本発明は、ビデオコンテンツの符号化バージョンからビデオストリームを生成するのに適したビデオストリーミング技術に関する。

合成された複数のビデオのユーザへの送信と表示とを同時に行う技術に関し、多くの出願及び使用事例が存在する。第１の方法として、全てのビデオを個別に符号化して送信する方法がある。この方法では、複数のデコーダが同時に使用され、全てのビデオが復号化され編成されることによって、合成されたビデオが表示される。しかし、この方法では、多くの対象装置が単一のハードウェアであるビデオデコーダを組み込んだものとなる。対象装置としては、例えば、低コストのＴＶセット、セットトップボックス（ＳＴＢ：Set Top Box）、バッテリ駆動のモバイルデバイス等が挙げられる。

複数のビデオから単一のビデオビットストリームを生成するため、第２の方法として、ピクセルドメインの映像処理（例えば、スティッチング（stitching）、マージング（merging）、ミキシング（mixing）等）がある。この方法では、異なるビデオビットストリームが単一のビットストリームにコード変換されて対象装置に伝送される。当該コード変換は、直列接続されたビデオデコーダとエンコーダを用いて行うことができる。この場合、入力ビットストリームの復号化、ピクセルドメインの入力ビットストリームから新たなビデオの生成、新たなビデオの単一のビットストリームへの符号化が必要となる。この方法は、非圧縮ドメインでの処理を含む、従来型のフルコード変換とも称される。しかし、フルコード変換には多くの欠点がある。第１に、ビデオ情報の符号化を繰り返し行うと、さらなる符号化アーチファクトによる、信号品質の劣化を招く可能性がある。第２に、より重要なことに、フルコード変換は、入出力ビデオビットストリームの複数の符号化処理及び連続する符号化処理のため、コンピュータの計算上複雑である。したがって、フルコード変換の方法は、大規模に実行できない。

特許文献１には、ＨＥＶＣ（High Efficiency Video Coding）（非特許文献１参照）を用いて、単層ビデオコーデックの圧縮ドメインでビデオ合成を実現する技術が記載されている。しかしながら、ＳＶＣ（Scalable Video Coding）を用いることが有利な場合もある。特許文献２には、複数グループでのビデオ会議等に適用可能なＳＶＣ規格において、圧縮ドメインでのビデオのスティッチングを可能にする技術が説明されている。

国際公開第２０１６／０２６５２６号（国際出願番号ＰＣＴ／ＥＰ２０１４／０６７７５７）米国特許第８，４３６，８８９号明細書

Sullivan, Gary J., et al. "Overview of the high efficiency video coding (HEVC) standard." Circuits and Systems for Video Technology, IEEE Transactions on 22.12 (2012): 1649-1668.

ビデオ会議に適用した場合に生じる問題について、以下に説明する。

図２３に、複数グループでのビデオ会議の典型的なビデオ構成が示されている。生成されたビデオの画像は、そのうちの１つが図２３に例示的に示されており、空間的に継ぎ合わされている。図２３の場合、出力画像において、話し手が大きな領域９００に示され、聞き手が小さな領域９０２，９０４に示されている。図２４は、領域９００〜９０４に示される個々のビデオを表す符号化データストリームに基づいて、映像処理９０６によりビデオビットストリームがどのように生成されるかを例示している。図２４において、データストリーム９０８は、領域９００に示された話し手のビデオを符号化したデータストリームに該当し、データストリーム９１０，９１２は、領域９０２，９０４にそれぞれ示された聞き手のビデオを符号化したデータストリームに該当する。図２４では、ビデオがどのようにしてデータストリーム９０８〜９１２に符号化されるかを説明するため、ビデオの各画像（即ち、連続する２つの時点ｔ０，ｔ１に属し、２つの層Ｌ０，Ｌ１に属する各画像）を示している。図２４に示す矢印は、画像間の予測依存性を表している。時間予測（水平方向の矢印）及び層間予測（垂直方向の矢印）が、ビデオをデータストリーム９０８〜９１２に符号化するために用いられることが理解されよう。Ｈ．２６４／ＳＶＣ等のＳＶＣ規格は、従来ビデオ会議システムに用いられていたが、非常に有効であると立証されたため、当該分野のＳＨＶＣ規格にも期待が高まっている。

特許文献２の技術によると、映像処理９０６は、圧縮ドメインの全ての入力ビットストリーム９０８〜９１２を継ぎ合わすことによって、複数のビットストリーム９０８〜９１２から単一のスケーラブルビットストリームを生成できる。生成された単一のスケーラブルビットストリームは、図２４において、４つの画像（即ち、異なる時点及び層の各セットに属する４つの画像）からなる部分として、符号９１４で示されている。特許文献２の映像処理９０６を適用した技術では、スライスヘッダやパラメータセット等のハイレベルシンタックスの２つのフィールドが書き換えられることで、入力ストリーム９０８〜９１２からの各層内の各画像が、全てのストリームからのデータを含む各層の単一の画像に結合される。

或いは、図２５に示されているように、全ての入力ストリーム９０８〜９１２が互いに同じ数の層を有していない場合（入力ビットストリーム９１０，９１２の層が１つの場合）、出力ビットストリーム９１４の下層Ｌ０には、データストリーム９１０，９１２からの対応するデータが存在しない。したがって、出力データストリーム９１４の下層（図２５の層Ｌ０）には、入力ビットストリーム９０８〜９１２からのデータは生成されないが、図２５の空欄９１６に示すように、必要に応じて下層Ｌ０の画像にダミーデータが追加される。

特許文献２に記載の方法では、レイアウトが変更されるたびに（例えば、話し手が変更されるたびに）、画像内のブロックのサイズが変化し、ビットレートの急峻なピークが生じる。より具体的には、画像のレイアウト又はサイズを変更するために、ＩＤＲ（Intra Decoding Refresh）又はＩフレーム（I-frame）を送信する必要がある。レイアウトの変更が生じた場合、話し手と聞き手との切替を行うビットストリームに対してＩＤＲが必要であり、ビットレートが一時的に急激に上昇してしまう。この現象が図２６に示されている。図２６は、出力ビットストリーム９１４を示しており、ここでは例として連続する４つの時点ｔ０〜ｔ３を含む部分を示している。図２６に示すように、レイアウトの変更が生じた場合、時間予測が符号９１８で示すとおり無効になる。図２６の場合、時点ｔ２で、話し手が変更される（即ち、生成されたビデオ画像内で、話し手のビデオと聞き手のビデオの１つとの位置又は領域が変更される）。この無効化は、他の画像とは独立して符号化された比較的多くのイントラデータの送信を必要とし、当該時点で送信されるデータ量を増加させる。これは、多くの使用事例（例えば、リアルタイムコミュニケーション）において負担となる。

本発明の目的は、ビットレートの消費を抑制でき、構成の変更に関する自由度において有利な、ビデオコンテンツの符号化バージョンで構成されたビデオストリームに関するビデオストリーミング技術を提供することにある。

上記の目的は、本願の独立請求項の主題によって達成される。

本発明の第１の観点によれば、ビデオコンテンツの符号化バージョンから生成されたビデオストリームのより効率的なストリーミングを実現するため、符号化バージョンのコピーによって階層データストリームにおける１又は複数の層のセットを形成し、当該セットの少なくとも一部からの層間予測によって階層データストリームの所定層の画像の少なくとも一部における少なくとも１つのビデオの構成を合成して、ビデオストリームを階層データストリームとして形成する。換言すると、ビデオコンテンツの符号化バージョンの各部に符号化された少なくとも１つのビデオは、階層データストリームの１又は複数の層のセットに伝送又は階層化され、一種の"リザーバ"を形成する。ビデオストリーミング装置による構成に関する制約がほとんどない適宜の動作により、"リザーバ"からビデオの構成を合成することができる。（圧縮ドメイン又は符号化ドメインでの）符号化バージョンのコピーによって階層データストリームの１又は複数の層のセットを形成する際、所定層が、１又は複数の層のうちの１つ（即ち、最も上の層）、又は、１又は複数の層とは別の層となってよい。いずれの場合においても、ビデオの構成を合成する際に所定層の画像とされるビデオの領域について、層間予測に利用可能な全てのツール（例えば、アップサンプリング（up-sampling）、フィルタリング（filtering）等）を利用してよい。

本発明の第２の観点によれば、ビデオコンテンツの符号化バージョンから生成されたビデオストリームのより効率的なストリーミングを実現するため、ビデオのコレクションを基準品質で符号化した符号化バージョンの第１部分のコピーによって形成された基準層と、ビデオを高品質で符号化した符号化バージョンの第２部分におけるビデオの適切なサブセットに関する部分のコピーによって形成された１又は複数の上位層とを、階層データストリームにおいて伝送する。所定時点において適切なサブセットが変化し、適切なサブセットが所定時点よりも前の適切なサブセットには含まれない新たなビデオを含むようになるたびに、層間予測によって、置換画像を挿入することで新たなビデオの被参照画像を置換し、又は、所定時点よりも前にある画像を動き補償予測により参照する新たなビデオの部分を置換する。これにより、画像をイントラ符号化する場合において生じる、所定時点を制限しないことによる、現在高品質で伝送されているビデオのサブセットの変化による品質の悪化と、所定時点の時間的な位置を自由に選択できるという自由度とのトレードオフが改善され、品質の悪化が抑制される。符号化バージョンの第１部分のコピーだけで基準層が形成されるため、上記処理にかかるコストは比較的低い。また、オープンＧＯＰ構造では、過去の時間予測が割り込み、新たなビデオが待たされることになり、画像無しが存在するが、オープンＧＯＰ構造を用いて、ビデオコンテンツが、ビデオ構成用の基準を形成する符号化バージョンに符号化されてもよい。

本発明の第３の観点によれば、ビデオコンテンツの符号化バージョンから生成されたビデオストリームのより効率的なストリーミングを実現するため、ビデオストリームに挿入される出力画像の順序を変更し、時間予測によるビデオストリームの非出力部分のコピーによってビデオコンテンツの構成を合成する。具体的には、ビデオコンテンツの符号化バージョンは、少なくとも１つのビデオのそれぞれについて、画像の符号化順序が表示時間順序と異なるようにビデオが時間予測により符号化された部分を有する。符号化バージョンの当該部分のコピーによって、ビデオストリームの非出力部分が形成される。出力画像は、ビデオストリームにおいて符号化順序ではなく表示時間順序で配列されるよう、ビデオストリームに挿入される。これにより、符号化された画像のバッファ内の高価なメモリを過度に消費することがないため、符号化された画像のバッファの容量を低く維持できる。

上記観点及びそれらの組合せの好適な手段は、本願における独立項及び以下の実施形態に記載のとおりである。本発明の好適な実施形態について、以下に図面を参照して説明する。

本発明の一実施形態に係る、階層データストリームの所定層におけるビデオの合成を用いるビデオストリーミング装置のブロック図を示す。図１に示す代替手段２８にしたがった、図１の階層データストリームのうちのアクセスユニット又は階層化画像の概略図を示す。図１に示す代替手段３０にしたがった、図１の階層データストリームのうちの階層化画像の概略図を示す。ＭＬＣＰの概念を示す概略図である。スケーラブルオフセット（即ち、オフセットパラメータ）の使用例を示す概略図である。本発明の一実施形態に係るＭＬＣＰの概念を用いたレイアウト変更を示す概略図である。図１に係るビデオストリーミング装置によって代替手段３０にしたがって出力された階層データストリームの構成を示す概略図である。図１に係るビデオストリーミング装置によって代替手段２８にしたがって出力された階層データストリームの構成を示す概略図である。２つの層で符号化バージョンのそれぞれに符号化し、それに基づいて図１のビデオストリーミング装置がビデオ合成を行い、データストリームが、図１のビデオストリーミング装置によって出力された階層データストリーム内で用いられ得る同じサイド情報と共に、ＴＭＶＰを用いない最上層の画像を示すサイド情報を含むことを示す、図１のビデオコンテンツのインバウンドストリームの概略図である。ビデオ構成に含まれるビデオが変化する代替手段にしたがった、図１のビデオストリーミング装置を示すブロック図である。ＧＲＰの概念を示す概略図である。ＨＥＶＣ画像名付けに続くオープンＧＯＰ構造を示す概略図である。ＧＲＰを用いたタイルベースのパノラマストリーミングに関するオープンＧＯＰの問題を示すための、オープンＧＯＰ構造の概略図である。高品質ビデオのサブセットと、基準品質のビデオコレクションを含む基準層とを用いて、画像の損失なく上位層で伝送されたビデオの適切なサブセットの時間的変更を可能とする、階層データストリームを用いるビデオストリーミング装置のブロック図である。本発明の一実施形態に係る、図１４の装置によって生成された階層データストリームの構造を示す概略図である。図１５Ａと比較して切替時点が早い実施形態における、図１４の装置によって生成された階層データストリームの構造を示す概略図である。ビデオの適切なサブセットが、図１５Ａのように１つの上位層に空間的に継ぎ合わされるのではなく、いくつかの上位層に階層化される、本発明の別の実施形態による、図１４の装置によって生成された階層データストリームの構造を示す概略図である。タイルベースのパノラマストリーミングに関してオープンＧＯＰ構造に適用された場合の図１５Ａに示されたＧＲＭＬＣＰの概念を示す概略図である。低遅延予測構造を例示する模式図である。ＣＰ挿入後のビットストリームを示す概略図である。階層的双予測Ｂフレームを有する予測構造を示す概略図である。低減されたピクチャバッファが増加するＣＰ挿入を示す概略図である。ビデオコンテンツの一部をコピーして得られた合成ビデオストリームの非出力部分のリザーバに、表示時間順序に応じて出力画像を挿入する、ビデオストリーミング装置のブロック図である。複数の合成ビデオから１つの画像の形式へのビデオ合成の一例を示す図である。特許文献２に記載のように、圧縮ドメイン内の２つの層を有する３つの入力ストリームのビットストリームのスティッチングを示す概略図である。特許文献２に記載のように、圧縮ドメイン内の異なる量の層を有する３つの入力ストリームに対するビットストリームのスティッチングを示す概略図である。層（話し手）変更時の時間予測の中断を示す概略図である。

図１は、本発明の第１の観点の一実施形態に係るビデオストリーミング装置を示す。図１は、ビデオストリーミング装置１０がビデオコンテンツ１４の符号化バージョン１２を受信する状況を示す。図１では、ビデオコンテンツ１４によって２つのビデオ１６₁，１６₂が伝送されるが、ビデオコンテンツ１４によって伝送されるビデオが１又は３以上の場合にも、ビデオストリーミング装置１０の有利な機能が発揮される。符号化バージョン１２は、各ビデオ１６₁，１６₂について、ビデオ１６₁，１６₂が符号化される部分１８１，１８２を含む。図１は、符号化バージョン１２がビデオ１６₁，１６₂ごとに１つのビデオデータストリーム（即ち、ビデオ１６₁，１６₂ごとに個別のストリーム）から構成される場合を示しているが、これに限定されない。以下、ビデオ１６の数は、変数Ｉを用いて示されている。さらに、符号１６，１８のインデックスは、図１において個々のビデオを区別するために使用されており、図２以降の図にもこの概念が適用される。ただし、以下の説明で特に断りのない限り、ある図で使用されている指数は、他の図で使用されている指数とは関係ない。さらに、図１は、ビデオ１６₁が部分１８₁に階層的に符号化される場合を示しているが、以下に述べる当該ビデオストリーミング装置１０の機能による利点は、ビデオコンテンツ１４内に階層化・符号化されたビデオがない場合にも得られる。

以下により詳細に説明するように、ビデオストリーミング装置１０は、ビデオストリーム２０が階層データストリームとなるように、符号化バージョン１２からビデオストリーム２０を形成するように構成されている。したがって、ビデオストリーム２０は、複数の層Ｌ＃を含む。これら層Ｌ＃は、例えば下層Ｌｉが別の層Ｌｊ（ｉ＜ｊ）に対する層間予測を形成するような（即ち、層Ｌｊが、層Ｌｉの共通部分からの層間予測を用いて符号化されるような）階層を有してよい。

図１のビデオストリーミング装置１０は、以下により詳細に説明するように、ビデオストリーミング装置１０の各機能を担う複数のモジュールを含む。ビデオストリーミング装置１０は、特に、コピー形成部２２及び合成部２４を備えている。本明細書の最後に記載のとおり、ビデオストリーミング装置１０は、例えばハードウェア、プログラマブルハードウェア又はソフトウェアで実施されてよい。したがって、コピー形成部２２及び合成部２４は、例えば、コンピュータプログラムの異なる部分、プログラマブルハードウェアの異なる部分、又は、集積回路の異なる部分を示すものであってよい。

コピー形成部２２は、ビデオコンテンツ１４の符号化バージョン１２をコピーすることによって、階層データストリーム２０の１又は複数の層Ｌ０〜Ｌ２のセット２６を形成する。つまり、コピー形成部２２は、符号化ドメイン又は圧縮ドメイン内に（即ち、符号化ドメイン又は圧縮ドメインから離れることなく）、セット２６を形成する。つまり、コピー形成部２２は、ビデオのセット２６をピクセル領域に復号することによって、遠回りをしない。さらに換言すると、階層データストリームの１又は複数の層のセットの形成は、圧縮ドメイン又は符号化ドメインのビデオコンテンツの符号化バージョンをコピーすることによって実現される。

例えば、動き補償予測及び予測残差の符号化を用いて、ビデオ１６₁，１６₂がそれぞれ部分１８₁，１８₂に符号化された場合を仮定する。この場合、コピー形成部２２は、符号化バージョン１２からの動き補償予測パラメータ及び残差データ（即ち、各部分１８₁，１８₂)から、損失なく（即ち、いかなる再量子化も伴わずに）、階層データストリーム２０のセット２６の層に単にコピーする。これと同様のことが、例えば部分１８１に含まれる層間予測パラメータにも適用され、ビデオ１６１の下層からの上層への層間予測について説明する。コピー形成部２２は、部分１８₁，１８₂のエントロピー圧縮フォーマットを維持するようにして、セット２６の層のコピーを実行することもできる。つまり、コピー形成部２２は、圧縮ドメイン内の部分１８₁，１８₂で、圧縮ビットドメインからのエントロピー復号化によって部分１８₁，１８₂のシンタックスドメインに移行することなく、動作できる。したがって、ビデオ１６₁，１６₂の画像間の層間予測の依存性は、ビデオストリーム２０内に維持される。換言すると、コピー形成部２２は、例えば、ビデオコンテンツ１４のビデオ１６₁，１６₂を、同じ層間予測の依存性（即ち、時間予測と、もしあれば層間予測と）を用いて符号化するように、セット２６の層を形成する。しかしながら、コピー形成部２２は、符号化バージョン１２からビデオストリーム２０のセット２６を形成する際に、部分１８₁，１８にエントロピー符号化されない、よりハイレベルのシンタックスの要素（例えば、各画像の層インデックスを記述又は定義するハイレベルシンタックスの要素や、層間予測により参照される画像の層インデックス等）を、変更してよい。

合成部２４は、実際のビデオ合成を実行する。合成部２４は、図１の場合、ビデオコンテンツ１４の構成（即ち、ビデオ１６₁，１６₂の構成）を合成する。合成部２４は、１又は複数の層のセットの少なくとも一部からの層間予測によって、階層データストリームの所定層の画像の少なくとも一部において、合成を行う。このことを説明するため、図１では、ビデオ１６₁の画像とビデオ１６₂の画像とを、互いに異なるハッチング及びハッチングなしで区別している。合成部２４が層間予測によって合成を行う上記部分は、コピー形成部２２によってコピーされたビデオストリーム２０の各層の部分と区別されるよう、クロスハッチングで示している。

図１には、合成を実行し、クロスハッチング部分を位置決めするための、実質的に２つの代替手段が示されている。しかしながら、本発明は、図１に示した代替手段に限定されず、他の代替手段も同様に評価することができる。

代替手段２８によれば、層間予測によって合成が実行される部分は、セット２６内の層とは別の層Ｌ３の画像によって形成され、セット２６内の層よりも上の層を形成し、従属性の観点から、セット２６に対する層間符号化を用いて上位層を符号化することができるが、その逆は不可能である。換言すると、代替手段２８によれば、セット２６内の層からの予測によって合成が少なくとも部分的に実行される所定層は、セット２６とは別の、セット２６内の層よりも上にある。所定層Ｌ３の全ての画像は、セット２６内の層からの層間予測によって合成することができる。この場合、クロスハッチング部分は、図１に示す層Ｌ３の画像全体を空間的に包囲する。或いは、層Ｌ３の画像のサブ部分のみを、層間予測を使用してセット２６内の層から予測してよい。層Ｌ３の画像の残りの部分は、例えば層間予測や時間予測を用いて、合成部２４により他の手段によって合成することができる。例えば、背景は、合成部２４によってこのように追加されてもよい。しかしながら、図１は、所定層Ｌ３の画像が２つに水平に細分され、そのうちの一方が、ビデオ１６₁の上層を伝送する層Ｌ２からの層間予測を用いて符号化され、他方が、ビデオ１６₂を伝送する階層データストリーム２０の層Ｌ０からの層間予測を用いて符号化される、ビデオ１６₁，１６₂の構成の例を示す。

図１に示す代替手段３０によれば、セット２６の層からの層間予測を使用して合成部２４によって合成が実行される部分は、セット２６の最上層（図１の場合、層Ｌ２）内にある。つまり、代替手段３０の場合、層間予測によって合成が実行されるビデオストリーム２０の層は、セット２６の一部であり、合成が層間予測によって実行される部分は、セット２６の最上層（即ち、層Ｌ２）の画像の空間サブ領域であって、層Ｌ２の画像の他の領域は、コピー形成部２２による符号化バージョン１２のコピーによって得られる。代替手段２８の場合には、セット２６の全ての層が層間予測による合成に利用可能である一方、代替手段３０の場合は、層間予測による合成は単にセット２６の下層（図１の場合、層Ｌ０，Ｌ１）となる。層Ｌ２の画像の他の領域は、代替手段３０にしたがって、合成部２４により他の方法で（即ち、符号化バージョン１２のコピーによって、或いは、従属する層Ｌ１又は層Ｌ０からの層間予測によって）は合成できないが、層間予測及び／又は時間予測を用いて例えば背景に構成を提供できる。

ビデオ構成を合成する際の低い複雑度と高い自由度を説明するため、図２では、実際のビデオ構成が別の層（図１及び図２の例では層Ｌ３）内で伝送される代替手段２８の、ある時点における階層データストリーム２０の画像の時点が示されている。図２は、３つの領域から構成される層Ｌ３の画像を示し、領域３２ａ，３２ｂは、矢印３４で示すような層間予測を用いて合成される。したがって、これらの部分は、代替手段２８の場合に、図１のクロスハッチング部分を形成する。領域３２ａは、層Ｌ２の画像のサブ領域３６から層間予測される。領域３２ａ，３６のサイズは、サンプル、ペル又はピクセルの単位で測定した場合、互いに同じであってよい。しがたって、領域３２ａの場合、層間予測はアップサンプリングを含まない。図２の例によれば、領域３２ｂは、層Ｌ０の画像の各サブ領域３８からの層間予測を用いて符号化される。ここでは、サンプルで測定された領域３２ｂのサイズが領域３８よりも大きい。したがって、アップサンプリングプロセスが層Ｌ０からの層間予測領域３２ｂに含まれることが示されている。領域３２ａ，３２ｂは、合成部２４によって層Ｌ３の画像の領域４０に充填されるように、例示的に示されている。領域４０は、先行する層Ｌ３の画像内にある対応する領域又は共通する領域に基づいてイントラ符号化又は時間予測を用いて、合成され得る。

図２から明らかなように、図１の合成部２４は、例えば一種の背景コンテンツを表す領域３２ａ，３２ｂ，４０の位置、数、サイズ又は形状を容易に変更することができ、必要に応じてこれを中止することができる。領域３２ａ，３２ｂの位置及び輪郭を決める際、合成部２４は、ビデオストリーム２０の基礎となるコーデックによって許容されるブロックグリッドと同じものに単に一致するように制限されてもよい。対応する領域３６，３８の位置決めについても、変更及び／又は自由に選択することができる。つまり、領域３６，３８は、図２に示すように、層Ｌ２及び層Ｌ０の全ての画像を含むことができる（即ち、層間予測の被参照画像は、全ての画像である）。一方、参照領域３２ａと参照領域３２ｂとの間の位置ずれ及び被参照領域３６と被参照領域３８との間の位置ずれをそれぞれ補償するため、ビデオストリーミング装置１０又は合成部２４は、ビデオストリーム２０内で、被参照領域（例えば、被参照画像のピクセル単位（即ち、層Ｌ３の現在の画像によって参照される層の画像）の位置に対する参照領域の位置のオフセットを示すオフセットパラメータを信号で送信してよい。領域３２ａ内の位置を、層Ｌ３の画像の画素において層Ｌ３の画像の左上隅から測定して、ベクトル（ｘ，ｙ）と表し、オフセットパラメータがオフセットｐを示してよい。その結果、領域３６内の層Ｌ２のような被参照層の画像内での共通の位置（Ｘ，Ｙ）が、層間予測のためのソースとして用いられるように、当該画像の左上隅から測定して、（ｑ_x・ｘ＋ｐ_x，ｑ_y・ｙ＋ｐ_y）となる。
オフセットパラメータは、最上層以外の層（即ち、図１における層Ｌ０〜Ｌ２）の各々に対し、信号ｐを送信してよい。

図３は、図２と一直線上にある組成物の例を示しているが、今回は図１の代替手段３０である。最上層（ここでは層２）の画像は、３つの領域に区分されるように、合成される。領域４２は、符号化バージョン１２の部分１８１からコピーされる。領域４２は、ビデオ１６₁の画像全体の内容を含むことができる。しかし、クロッピングアウトも実行できる可能性がある。この場合、例えば、ビデオ１６₁の画像は、切り出し可能に既に符号化されている。例えば、ビデオ１６₁の上層の画像は、タイルの部分１８１に符号化されてよい。これらのタイルの１つ又はサブセットは、ビデオストリーム２０（階層データストリーム）の層Ｌ２の領域４２に入れられてよい。領域４４は、図２の領域４０と同様に、イントラ符号化及び／又は時間予測によって合成部２４によって合成されてもよい。領域４６は、図１のクロスハッチング部分を形成し、層Ｌ０の対応する領域４８からの層間予測によって合成される。この場合においても、合成部２４又はビデオストリーミング装置１０は、層Ｌ０の画像のサブ領域４８にある画像コンテンツを層Ｌ２の画像の領域４６に正しく挿入する一方で、ビデオ１６₂をビデオストリーム２０（階層データストリーム）の層Ｌ０に符号化する際に用いられる動きベクトルが維持されるように、オフセットパラメータを使用してよい。

図１及び図２に示す代替手段３０によれば、図１及び図３に示すように、合成部２４は、層Ｌ２の画像がビデオストリーム２０に符号化される経路（符号化経路又は復号化経路）を修正しなければならない場合がある。換言すると、合成部２４は、コピーされた領域４２が上述した符号化順序又は復号化順序にしたがって分割されないように、層Ｌ２の画像を合成してよい。換言すると、合成部２４は、符号化順序又は復号化順序が、コピーされた領域４２を、連続して、かつ、対応する画像コンテンツが符号化バージョン１２の対応する部分１８１に符号化される符号化順序又は復号化順序と一致するように、層Ｌ２の画像を符号化しなければならない場合がある。この場合、コピー形成部２２は、圧縮ドメイン又は符号化ドメインにおける上述のコピーによって、領域４２を埋めることができる。合成部２４は、コピーされた領域４２の輪郭を、タイル境界と整列させることによって、上記事項を実現できる。タイルは、ビデオストリーム２０（データストリーム）に符号化された画像の部分を、別々に（かつ、最も重要なことには連続的に）示す。画像の第１タイル、第２タイル、の順に、ビデオストリーム２０に符号化される。したがって、画像をタイルに構成することにより、画像が符号化又は復号化において横断される符号化順序又は復号化順序を調整することが可能になる。

しかしながら、図３の場合であっても、例えば図３に例示された構成を、ビデオストリーミング装置１０又は合成部２４によって変更してよい。図１及び図２に示す代替手段２８，３０にしたがって、合成部は、図２及び図３に示すように、重み付けされた予測によって、下層から導出された層間予測の画像コンテンツのブレンド、オーバーレイ、フェードイン又はフェードアウトを実行可能である。

図１〜図３に係る上述した実施形態に伴う利点を説明するため、ビデオ会議への適用例について以下に説明する。これにより、本願明細書の冒頭部分に記載の概念に沿った利点を明らかにする。例えば、図４は、図２３〜図２６を参照して上述したビデオ会議タスクに、図１〜図３を参照して上述した概念を適用した場合に得られる、ビデオストリーム２０（階層データストリーム）を示す。つまり、３つのビデオビットストリームは、ビデオコンテンツの符号化バージョン（当該符号化バージョンを基に合成が行なわれる。）を形成する。話し手のビットストリームには２つの層が存在し（図４の大きなブロック）、他のビットストリームには１つの層が存在する（図２５と同様）。

一例として、図１〜図４を参照して上述した実施形態は、例えばＳＨＶＣで提供される、拡張スケーラビリティ又はＲｏＩスケーラビリティの概念を用いてよい。異なる参照層がシグナリングされ、画像における異なる領域を異なる参照層にマッピングするためにオフセットを追加できる。この概念は、オフセットパラメータの説明で参照した図２及び図３に示されている。ＳＨＶＣにおいて、例えば、オフセットパラメータは、スケールド参照層オフセット及び参照領域オフセットと称される。例えば、図４を参照されたい。ここでは、簡略化のため、３人の参加者の１人に対応する基準層Ｌ０は変更されていない。図４では、各参加者に関するビデオが異なる層に割り当てられている。参加者１にはlayer#id=0（層Ｌ０）が割り当てられ、参加者２にはlayer#id=1（層Ｌ１）が割り当てられ、参加者３にはlayer#id=2（層Ｌ２）が割り当てられる。追加の層は、合成が行われる層、即ち所定層である。図４の場合、この追加の層はlayer#id=3（層Ｌ３）である。ビデオコンテンツ１４の符号化バージョン１２の対応する部分からの残りの入力データ（即ち、参加者２のそれぞれの入力ビデオの上位層の残差データ及び／又は予測データ）は、この層に挿入される。この層Ｌ３では、合成も行われる。合成は、上述したＭＬＣＰの概念（即ち、階層化構成画像の概念）を用いる。この概念は、潜在的にスケーラブルな多数の入力ビデオビットストリームと、単一の出力スケーラブルビデオビットストリーム（即ち、階層データストリーム）を生成するための圧縮ドメインと、を処理する。圧縮ドメインは、単一のスケーラブルデコーダに供給されたときに、複数の入力ビデオビットストリームを生成する。

上述のオフセットパラメータは、ビデオストリーム２０のハイレベルシンタックスに含まれてもよい。例えば、画像パラメータセット（ＰＰＳ）は、ビデオストリーミング装置又はその合成部によって、階層化出力データストリーム（ビデオストリーム２０）の最上層（所定層）に対して生成されてよい。ＰＰＳは、オフセットパラメータ（例えば、スケールド参照層オフセット及び被参照領域オフセット）を含む。後者は構成のレイアウトに対応する。換言すると、多くのスケールド参照層オフセット及び潜在的に参照される被参照領域オフセットは、入力ビデオ１６（図４の場合には参加者）として含まれ、例えば各参加者に対応する又は各参加者を示す最上層の出力画像における領域を示す。図５は、参加者のうちの２人に対して例示的に使用される図４の遠隔会議の適用例に対し、スケーラブルオフセット（オフセットパラメータ）を使用することによる効果を示す。層Ｌ３及び層Ｌ２を介してビデオが伝達される参加者にとって、出力画像の左端の領域は、空間スケーラビリティを用いた予測（層間予測）のために層Ｌ２の画像を使用する。しかし、層Ｌ３の画像の右側部分は、図１及び図２に示す合成部によって提供される概念を用いる。つまり、層間予測により、層Ｌ０内の画像のコンテンツを直接コピーする。このような直接的なコピースライスは、一定のゼロ動きベクトルを有する大きな予測ブロックから構成されてよい。当該予測ブロックは、各ＰＰＳ内の特定の参照層オフセット及び参照領域オフセットと組み合わせて、層Ｌ０の画像における意図された領域のサンプルを指示する。図５に示すように、これは、被参照領域オフセットを含むことによって（例えば、ビットストリーム内のビットレートの大部分を必要とする画像の部分（関心のある領域を示す部分）を選択すること、又は、何らかの外部のシグナリング手段によって決定され得る画像の部分を選択することによって）、最も重要な部分を強調するコンテンツのサブ領域のみのコピーであってもよい。上述の実施形態では、元のコンテンツの一部が事実上「切り取られ得る」（即ち、全参加者の構成が、通常のスティッチングの解像度と一致しない、決定された解像度に適合することができる）ため、完成した画像が継ぎ合わされ、レイアウト構成が柔軟である。

ＳＨＶＣを用いる前に説明した実施形態の場合、例えば、基準層が０よりも大きい層ＩＤ（即ち、図５の層Ｌ１と層Ｌ２）である参加者のビデオの画像に関するスライスは、ＳＨＶＣのためのそれぞれのスライスヘッダの拡張がスライスヘッダに含まれるように、変更されてよい。下層からの層間予測は、これらは独立しているため（即ち、これらはそれぞれの入力ストリーム内の独立した基準層あるため）、これらの層に適用又は使用されない。

レイアウトが変更されると（即ち、レイアウトが変化するたびに）、新しいＰＰＳが参照層オフセット及び被参照領域オフセット（即ち、オフセットパラメータ）と共に挿入され、新しいレイアウト構成に一致するように更新される。参加者数と同数の、各参加者の基準層に対応する参照層ごとの、スケールオフセットが存在する。或いは、図４に示すものと比較して、より多くの層を有するより複雑な構造が使用される場合、より多くの層は、有効な層識別子（ＳＨＶＣ内のnuh#layer#idシンタックス要素）を割り当てることを除いて、さらなる変更なしに維持される。

上述の実施形態は、全ての入力層を維持し、かつ、nuh#layer#idの異なる値を有する非出力層（下層）を分離することを可能とし、ＭＬＣＰにおける入力残差データ及び／又は予測データを回避できる点において、順応性がある。しかしながら、ＭＬＣＰだけを用いて、最上層における合成を実行している（即ち、ＭＬＣＰは、最上層を含む、下層の出力層の画像コンテンツをコピーするダイレクトコピースライスからのみ構成されている）。このことは、代替手段２８として前述されている。

ビデオ（図４及び図５の場合には参加者）のＭＬＣＰ（図４及び図５の例では低解像度基準層）に含まれていない階層化出力データストリーム（ビデオストリーム２０）における全ての層は、いつでも、時間予測を用いることができる。ＭＬＣＰ層（即ち、所定層）に含まれる、レイアウト変更時の位置ずれによって行われる、入力画像の残差データ及び／又は予測データに対して、時間予測は許可されない。レイアウトの変更によって影響を受けるＭＬＣＰ領域では、層間予測のみが許可される。図６は、入力画像の残差データ及び／又は予測データを有するＭＬＣＰが用いられる、典型的なレイアウト変更を示す。図６には、ＭＬＣＰの下層及び緑色領域において時間予測が中断されない様子が示されている。これにより、ＭＬＣＰを使用しない場合に比べ、圧縮効率が非常に優れたものとなる。

図６の例において、ＭＬＣＰは、最高解像度で示される話し手に関するビデオの最上層の入力層の残差データ及び／又は予測データを含むことに留意されたい。したがって、この例では、ＭＬＣＰは、より高い解像度のビデオの復号を可能とする話し手の追加の情報を含むスライスと、層間予測ごとの聞き手の低解像度ビデオ層のサンプル値を継承するダイレクトコピースライスとを有し得る。これは、符号３０に関して上述した代替手段である。ここで、層の数は、代替手段２８に比べて少なくなる。

したがって、事実上、代替手段２８又は代替手段３０を選択することは設計上の選択である。代替手段２８では、全ての層がＭＬＣＰから独立して保持され、入力データストリームの残差データ及び／又は予測データが、ビデオストリーム２０の所定層又は最上層のＭＬＣＰに含まれない。このことは、代替手段３０には当てはまらない。代替手段２８によれば、ＭＬＣＰは、層間予測を介して下層から再構成されたサンプルデータを使用するダイレクトコピースライスから、独立して構築される。各スケーラブル入力ビデオビットストリームの層は、適切なnuh#layer#idを書き込むことを除いて、それぞれの層の数に関係なく、変更されないまま維持される。ＭＬＣＰスライス（即ち、ダイレクトコピースライス）の全ては、第１のＣＵが追加の（入力）残差データなしで層間予測を使用し、次のＣＵがスキップモードとして符号化される。つまり、ＭＬＣＰスライスの全ては、残差符号化をスキップし、予測モード（即ち、層間予測）をコピーする。代替手段２８において、時間ドメインにおける予測は、セット２６内の全ての入力層に関して、何ら制約を受けることなく利用することができる。

上記のＭＬＣＰの概念は、損失の状況下で、さらに使用することができる。話し手の最上層（出力層）が失われたと仮定すると、出力層の利用不可能なコンテンツを生成する（潜在的に下層のスケーリングを行う）ダイレクトコピースライスを導入することができる。このような導入は、コピースライスのＭＶが元の失われたスライスのＭＶとは完全に異なるため、ＴＶＭＰが使用された場合、後続の画像に重大な影響を及ぼし得る。したがって、最上層の置換された参加者に対応するさらなるスライスは、「ＴＭＶＰランダムアクセス」（ＴＭＶＰ予測をリセットする画像）が生じるまで、さらなるコピースライスによって削除され、置換される必要がある。

以下、上述した実施形態に関するビットストリーム制約及びプロパティについて、いくつかの説明を行う。

特に、上述したように、ＭＬＣＰは、入力ビデオの実際の構成が達成される階層化出力データストリーム（ビデオストリーム２０）の最上層又は出力層（所定層）の画像を示す。出力データストリームを表現するためにＳＨＶＣを使用する上記の特定の実施形態を実施する場合、ＭＬＣＰは、代替手段３０の場合は入力ビットストリームＥＬ画像から合成され、或いは、コピースライスから生成される、ＳＨＶＣＥＬ画像である。本明細書において、コピースライスとは、下層のソース画像からの層間予測を介して、同じ時点で下層の画像内容を（完全に又は部分的に）コピーする（及び潜在的に再サンプリングする）スライスを意味する。入力ビットストリームＥＬ内で時間的インター予測が使用される場合、上述のようなＭＬＣＰの作成のための２つの方法を用いることができる。全ての入力ビットストリームの層が出力ビットストリーム２０の個々の層に入れられ、ＭＬＣＰがコピースライスのみから生成されることで、代替手段２８によって余分な所定層が形成されると、入力ビットストリームＥＬの画像（即ち、層２６の画像）内で時間予測を使用することは、特定の制約を課さない。しかしながら、ＭＬＣＰが入力ビットストリームのＥＬ画像のスライスデータを含み、これらのスライスが時間的インター予測を実行する他のケース３０では、これらの画像は以下に説明するようにスイッチング制約を満たす必要がある。以下は、[Sanchez, Y., et al. "Low complexity cloud-video-mixing using HEVC." Consumer Communications and Networking Conference (CCNC), 2014 IEEE 11th. IEEE, 2014.]に詳述されている、入力ビットストリーム１８としてのHEVC符号化ビットストリームの制約の短い要約であるが、階層化の場合にも適用される。
１）ＭＶ（動きベクトル）制約：動きベクトルは、画像境界外のサンプル、又は、サブペルサンプル位置（エンコーダ側で呼び出されたサブペル補間フィルタカーネルが画像境界と重なる位置）を、指してはならない。
２）予測単位：画像内の右端の予測単位は、時間動きベクトル予測（ＴＭＶＰ）候補に対応する動きベクトル予測候補、又は、存在しないＴＭＶＰ候補の位置にある空間動きベクトル候補を、使用してはならない。
３）インループフィルタ：スライスセグメント（及び、存在する場合はタイル境界線）は、デブロッキングやＳＡＯフィルタ等のループ内フィルタと、交差してはならない。

適切なスケールド参照層オフセット及び参照領域オフセットのパラメータを用いた切替（又は、チューンイン、話し手の変更）時のＭＬＣＰ及びその参照に対するＰＰＳの挿入は、ＭＬＣＰビットストリームのさらなる特徴である。当該オフセットパラメータは、現在のＭＬＣＰレイアウト、階層、及び、画像次元を反映する必要がある。

図７に、図１の代替手段３０による結果として得られるビデオストリーム２０を示す。ビデオストリーム２０は、いくつかの層Ｌ＃（ここでは、例として４つの層Ｌ０〜Ｌ３）を含むが、層Ｌ＃の数は、１より大きい他の任意の数でもよい。ここで、下層（層Ｌ０〜Ｌ２）は、入力ビデオ１４の符号化バージョン１２からコピーされた動きベクトル７０のような予測パラメータと、ビデオコンテンツの符号化バージョンからコピーされた予測残差を記述する残差データ７２と、を含む。代替手段３０に関する図７の実施形態によれば、最上層も、これらのタイプの情報（即ち、動きベクトル７０及び残差データ７２のような、入力ビデオ１４の符号化バージョン１２からコピーされた予測パラメータ）を含む。さらに、図７のビデオストリーム２０は、ＭＬＣＰで構成される所定層Ｌ３又は最上層Ｌ３の画像が下層Ｌ０〜Ｌ２の画像に対してどのように計測及び位置づけされるかを説明するため、下層（ここでは層Ｌ０〜Ｌ２）の各層についてのオフセットパラメータ７４を含む。なお、階層データストリーム（ビデオストリーム２０）は、最上層又は所定層（層Ｌ３）に対し、層間予測パラメータ７６を含む。層間予測パラメータ７６は、コピーされた予測パラメータ７０及び残差データ７２、下層（層Ｌ０〜Ｌ２）からの画像コンテンツによって符号化される層Ｌ３の画像の領域に空間的に追加するという構図を合成的に生成する。図７の場合、層数Ｎ（ここではＮ＝４）は、Ｉ個の入力ビデオが符号化バージョン１２に符号化される層の数ｎ＝ｉの合計に対応する（即ち、Ｎ＝Σ_iｎ_i）。特に、階層データストリーム（ビデオストリーム２０）の各層Ｌ＃は、１つの入力ビデオｉ（０＜ｉ＜ｉ＋１）に関連付けられている。また、各入力ビデオｉのいくつかの層のうちの１つの層に適用可能であれば、階層データストリーム（ビデオストリーム２０）の層Ｌ＃と全対象の入力ビデオの層との間のマッピングに関連付けられている。下層（層０〜ｎ−１）は、同一の入力ビデオに属する１又は複数の層のグループの単なる単位で、層間予測を介して相互にリンクされる。最上層又は所定層ＬＮは、ここでは、入力ビデオの１つの最上層に対応する。図７に示すように、階層データストリーム（ビデオストリーム２０）は、上サイド情報７８をさらに含んでよく、上サイド情報７８のオプション内容については以下に説明する。

図８は、代替手段２８にしたがって得られた階層データストリーム（ビデオストリーム２０）のコンテンツを示す。この例では、層Ｌ４（最上層）を除いて、コンテンツは図７に示されたものと略一致する。図８において、層Ｌ４（最上層）は、コピーされた予測パラメータ７０又はコピーされた残差７２をそれぞれ含まない。ビデオコンテンツ１４の符号化バージョン１２の各部分から予測パラメータ７０と残差７２をコピーして得られた下層（層Ｌ０〜Ｌ３）に加えて、最上層（層Ｌ４）が追加される。そのため、各入力ビデオｉの層数ｎ_iに対する階層データストリーム（ビデオストリーム２０）の層数Ｎ（ここで、０＜ｉ＜Ｉ＋１）は、Σ_iｎ_i＋１となる。

なお、図７及び図８を参照して階層データストリーム（ビデオストリーム２０）の層数と入力ビデオ１４の層数との関係について述べたが、階層データストリーム（ビデオストリーム２０）の層数Ｎは、図７及び図８に示すものよりも小さくてもよい。入力ビデオのいくつかは、例えば空間的に継ぎ合わされてよい。これにより、階層データストリームの層数が低減される。

換言すると、ビデオストリームは、複数の層と、シグナリング（ＴＭＶＰで、最上層（即ち、ビデオストリームの最高層）で使用されない、又は、ビデオストリームのいずれの層でも使用されない、ビデオストリームの階層化画像を示すシグナリング）とを含む。動き補償時間予測を用いずに符号化されたビデオストリームの階層化画像を示すビデオストリームは、上記シグナリングに加えて、さらなるシグナリングを含んでよい。さらに、ビデオストリームは、シグナリングに加えて、ビデオストリームの各階層化画像を示すさらに別のシグナリング、又は、ビデオストリームの階層化画像において符号化順序で測定され、時間的動きベクトル予測なしで符号化されたビデオストリームの次の階層化画像がどの程度離れているかについて、（上記のように各層内で）ＴＭＶＰなしで符号化されると示されていない少なくとも１つのシグナリングを含んでよい。ビデオストリームは、本明細書の実施形態のいずれかによる合成ビデオストリームであってもよい。

図７及び図８に関して説明したように、ビデオストリーム２０（階層データストリーム）は、ハイレベルのサイド情報７８を含むように、ビデオストリーミング装置１０によって生成されてもよい。サイド情報７８は、例えば、ビデオストリーム２０の層の関連性を、入力ビデオ１６（ビデオのいくつかがビデオコンテンツ１４の符号化バージョン１２の各部分１８に階層状に符号化されている場合は、入力ビデオ１６の層）に通知してよい。追加的又は代替的に、ハイレベルのサイド情報７８は、貴重な情報（ビデオコンテンツ１４の構成の現在のレイアウトに関する情報、即ち、ビデオストリーム２０の所定層にあるＭＬＣＰの現在のレイアウトに関する情報）を提供する、ハイレベルシグナリングを含んでよい。即ち、ハイレベルのサイド情報７８は、ビデオストリーム２０の１又は複数の出力層における、どの話し手、入力ビデオ又はグループが、ビデオストリーム２０の最上層（所定層）の画像（ＭＬＣＰ）のどの領域に関連しているかを、通知できる。これに加えて又は代えて、ハイレベルのサイド情報７８は、受信者が制御される話し手又はレイアウトの変更を制御するために、入力ビデオ１６又は話し手がビデオストリーム２０内のどの解像度又は品質で利用可能であるかに関する情報を含むことができる。ハイレベルのサイド情報７８によって追加的又は代替的に含めることができる、他の貴重な情報は、上述の「ＴＭＶＰランダムアクセス」問題に関係するものであってよい。これについて、図９を参照して説明する。

図９では、ビデオコンテンツ１４の符号化バージョン１２のそれぞれの部分１８_iに符号化された１つの例示的な入力ビデオ１６_iを、階層的に示す（即ち、２つの層ｎ_i＝２を含むものとして示す）。入力ビデオ１６_iのレイヤインデックスと、ビデオストリーミング装置１０のコピー形成部２２によってビデオ１６_iの層がビデオストリーム２０（階層化出力データストリーム）の層Ｌ＃に階層化されている層のレイヤインデックスとを区別するために、入力ビデオ１６_iの層をｌ＃で示している。部分１８_iに符号化されたビデオ１６_iの画像は、「ｐ_i,l,t」と示される（ここで、「ｉ」はビデオ１６_iを示し、「ｌ」は入力ビデオの層（例えばｌ０又はｌ１）を示し、「ｔ」は画像の時点を示す）。入力ビデオ１６_iの最上層（ここでは層ｌ１）の画像が時間予測及び層間予測により部分１８_iに符号化され、時間動き予測（ＴＭＶＰ）も使用されると仮定すると、１つの画像ｐ_i,l,t1に対する動き補償予測データは、画像ｐ_i,l,t2（ここで、１＝ｎ_i−１：図９における上層）の動き補償予測パラメータから時間的に予測される。

例えばビデオ１６ｉを伝送する階層化された入力データストリームの部分１８ｉは、ハイレベルのサイド情報８０を用いて、ＴＭＶＰが使用されていない最上層ｌ１の画像を示してよい。図１のビデオストリーミング装置１０は、サイド情報80を好適に使用してよい。ビデオストリーミング装置１０への部分１８ｉの送信中に、画像ｐ_i,l,t3に関する部分１８ｉのデータが失われることを推察されたい。画像ｐ_i,l,t2は画像ｐ_i,l,t3に基づいてＴＭＶＰを使用するが、サイド情報８０は、画像ｐ_i,l,t1がＴＭＶＰを使用しないことを通知する。層ｌ１がビデオ１６ｉの最上層であるとき、その画像コンテンツは、ビデオストリーム２０の最上層のクロスハッチング部分に対する代替手段２８又は代替手段３０にしたがった層間予測コピーにより、或いは、層ｌ１がコピー形成部２２によって代替手段３０にしたがって直接的にビデオストリーム２０の最も上の出力層に階層化され、ビデオストリーム２０のコンテンツの構成に関与する。合成部２４が画像ｐ_i,l,t3の損失を補償することは比較的容易な作業であり、合成部２４は代わりに合成のために下層の画像ｐ_i,0,t3を使用することができる。即ち、画像ｐ_i,l,t3の画像コンテンツがコピー形成部２２によって直接的に符号化され又は合成部２４による層間予測によって符号化された各領域は、層間予測による下層の画像ｐ_i,0,t3のコピーに置き換えられる。ここで、ビデオストリーミング装置１０は、サイド情報８０を検査し、画像ｐ_i,l,t2がＴＭＶＰを使用すること（即ち、ＴＭＶＰを使用しないものとして示されないこと）を認識する。しかしながら、画像ｐ_i,l,t3の動きベクトル予測パラメータが失われ、画像ｐ_i,l,t3の内容に対して単に「置換」されるため、合成部２４は、画像ｐ_i,l,t2に関しても、下層に基づく合成を置換する（即ち、置換物として合成のための画像ｐ_i,0,t2を使用する）。しかし、サイド情報８０が画像ｐ_i,l,t1がＴＭＶＰを使用しないことを示すため、合成部２４は、画像ｐ_i,l,t1における入力ビデオ１６ｉの最上層に基づく合成を置換することを、停止してよい（即ち、構成の合成において直接的に画像コンテンツを用いてよい）。

さらに、サイド情報８０は、ＴＭＶＰを使用していないと示されていない各画像ｐ_i,l=1,tに対し、層ｌ１内のいくつの画像が、最上層又は任意の層においてＴＭＶＰを使用しない層ｌｌの次の画像から分離されているかを示す。このようにして、ビデオストリーミング装置１０は、置換プロセスをより容易に計画してよい。例えば、通信サービスでは、サイド情報８０があることで、ビットレートで安価なＴＭＶＰリセット画像をその後すぐに期待できるため、通信エンドポイントが他のエンドポイントにビットレートに応じた高価なＩＤＲ画像を送信することを要求しないようにできる（即ち、完全な予測ツールチェーンをリセットできる）。

次に、ビデオストリーミング装置１０は、サイド情報７８に埋め込まれたサイド情報８０を、ビデオストリーム２０にコピーしてよい。ビデオストリーム２０を受信するデコーダは、ビデオストリーム２０内のサイド情報８０に基づいて、ビデオストリーム２０を復号化する復号プロセスで置換手順を拡張できる。

或いは、サイド情報８０は、ビデオストリーミング装置１０によって生成された部分１８ｉに含まれないため、ビデオストリーム２０のハイレベルのサイド情報７８に含まれる。

サイド情報８０は、ＳＥＩメッセージの形式で存在してもよい。ＳＥＩメッセージは、ＴＭＶＰリセットがいつ発生するかを示してよい。さらなるＳＥＩメッセージは、コピースライスが元のＥＬスライスの代わりに参照される最上層で使用されるときにさらに復号化され得る画像の数を示してよい。これにより、多くの画像にランダムアクセスが生じない場合に、最上層ＥＬのコンテンツがコピースライスによって置換される。

図１０は、ビデオストリーミング装置１０が、ビデオストリーム２０（出力階層ビデオデータストリーム）によって表される構成に組み込まれる新しいビデオに対処できることを示している。図１０には、ビデオストリーミング装置１０が、Jビデオの符号化された表現を受信することが示されている。各ビデオは、ｎ_j個（０＞ｎ_j，０＜ｊ＜ｊ＋１）の層を含む。しかし、構成を合成する際に、ビデオストリーミング装置１０は、構成の生成に関与するビデオのセット又はサブセットを変更する。例えば、図１０は、所定時点Ｔにおいて、参加するビデオが変化することを示している。時点Ｔの前は、例示的なビデオ「Ｊ−１」「ｊ」「１」が、図１〜図９を参照して上述した技術にしたがって、階層データストリーム（ビデオストリーム２０）の形成に関与する。一方、時点Ｔの後は、ビデオ「Ｊ−１」「ｋ（≠ｊ）」「１」が、階層データストリーム（ビデオストリーム２０）の形成に関与する。例えば、ビデオ会議リーダー等のオペレータは、ビデオｊに関連する聞き手から、ビデオｋに関連する別の聞き手に切り替えることを決定する。この場合、ビデオストリーミング装置１０は、ビデオｋがイントラ符号化されている（即ち、時間予測を使用しない）オペレータのコマンドの受信から、次の機会に参加ビデオのサブセット内の新たに含まれたビデオkへのオペレータのコマンドを実行するように構成されてよい。この手段によって、ビデオストリーミング装置１０は、ビデオ「Ｊ−１」「ｊ」「１」を含む構成からビデオ「Ｊ−１」「ｋ」「１」を含む構成にシームレスに切り替えることができる。

あるビデオコンテンツの構成の合成に関するビデオのサブセットに新たなビデオを含める問題は、本明細書において続いて例示される態様の主題である。以下の説明において、この問題は、あるアプリケーション（即ち、複数のビデオに亘るパノラマビューから時間的に変化する部分を示す合成ビデオストリームのストリーミングに関するアプリケーション）を一般化して例示している。しかしながら、以下の実施形態は、図１〜図１０のビデオストリーミング装置１０が実際にイントラ符号化されたランダムアクセスの状況又は時点が存在しない時点で、参加ビデオのサブセットを変更可能とすることに、適している。以下の実施形態は、表示時間順に連続する画像の参照を単に形成するイントラ符号化画像が存在しないオープンＧＯＰ構造を用いて符号化された１以上のビデオにビデオ合成を適用する場合にも、適用可能である。むしろ、以下に説明するように、オープンＧＯＰ構造において、このようなイントラ符号化は、表示の時間順序で前の画像と後の画像との両方の時間予測の参照として機能する。以下に説明する実施形態は、１組の参加ビデオから、構成の合成に参加する別の１組のビデオに、シームレスに移行する可能性のみを形成する。

上記問題をより詳細に説明するため、階層化パノラマストリーミングについて簡単に述べる。パノラマビデオは、従来の２Ｄビデオサービスで使用されていたよりも大きな視野角（例えば３６０度まで）のビデオコンテンツを記述する。このようなコンテンツ又はその関連部分を、ブラウザ、ビデオウォール又はヘッドマウントディスプレイ等のエンドポイントに転送することは、確立されたトランスポートスキーム及びシステムにとって、帯域幅及び待ち時間の点で、課題である。エンターテインメント、ゲーム又は監視に適用する場合、ビデオコンテンツの伝送がなされる環境条件がさらに狭まる（例えば、ライブ・ストリーミング）。

大規模なパノラマストリーミングサービスの場合、スケーラビリティのため、メディアの必要なユーザ単位の処理を最小限に抑えることが不可欠である。このため、ＨＥＶＣ（非特許文献１参照）におけるタイルベースのストリーミングの概念と、関連する圧縮ドメイン処理のための異なるアプローチが確立された。例えば、パノラマビデオの送信領域及び／又は表示領域に応じた各ユーザのビデオライブエンコーディングの代わりに、余剰リソースが非常に少ない適切に符号化されたHEVCビデオタイルの中から、圧縮されたドメイン内で同等のビデオを継ぎ合わすことができる。特許文献１に記載のさらなる技術では、関心領域の変更（ＲｏＩスイッチング）を効率的に（即ち、追加のビデオコンテンツを伝送して）実行できる。つまり、以前は見えなかったパノラマビデオ領域が、ライブサービスのレイテンシ制約の下で、ユーザーエクスペリエンスを容易に妨げ得る。

このようなシステムでは、低解像度パノラマと高解像度パノラマとの同時放送を用いたアプローチが以前から使用されており、レイテンシと帯域幅の要求に対処するために非常に価値があることが知られている（[Grunheit, C., et. al. "Efficient representation and interactive streaming of high-resolution panoramic views.", Image Processing. 2002. Proceedings. 2002 International Conference on. Vol. 3. IEEE, 2002]参照）。したがって、ＳＨＶＣ等のスケーラブルビデオコーデックは、当該技術分野で利益をもたらすことが期待されている。

以下に述べる実施形態は、以下に説明するように生成された参照画像の概念を階層化ビデオコーデックに導入し、帯域幅又はレイテンシに関してＲｏＩスイッチングのより効率的な処理を可能にする。特許文献１では、タイルベースのパノラマストリーミングが使用される場合、ＲｏＩスイッチングポイントのビットレート増加を低減するため、生成された参照画像（ＧＲＰ）の概念が単一層のパノラマストリーミングのコンテキストで導入される。図１１は、ＧＲＰの原理（即ち、通常の参照画像のコンテンツの置換を実行する画像）を示している。後続の画像は、以前に受信されたタイル（ビデオ領域）の時間予測を用いることができ、また、ストリーミング切替点での合成ビデオ又はスティッチドビデオ（破線ブロック）における空間的な置換がなされる。ＧＲＰは、参照にのみ用いられ、出力されない。

したがって、ＧＲＰを使用することにより、全ての置換されたタイルの完全なイントラ画像を送信する必要がなくなり、いくつかのタイルに対して時間予測を用いることができる。つまり、ＲｏＩ変更の前に既に存在する画像コンテンツに関連するが、異なる位置において、必要となる伝送ビットレートが低減する。

したがって、以下に述べる実施形態は、とりわけ、パノラマストリーミングのための解決策を提供する。以下の実施形態は、スケーラブルビデオ技術又は階層化ビデオ技術を用いる。特に、これらの実施形態は、オープンＧＯＰ構造が使用される場合の解決法も提供する。オープンＧＯＰ構造は、例えば、ストリームのより高い圧縮効率を可能にする一方（[A. Fujibayashi, TK Tan (NTT DOCOMO), "Random access support for HEVC", JCTVC-D234, 4th JCT-VC Meeting, Daegu, January 2011.]参照）、中間ストリームデコードアクセス（即ち、ランダムアクセス）を提供する。図１２は、オープンＧＯＰの可能な符号化（ＧＯＰ）構造を示す。図１２において、ビデオの画像は、左から右へ、表示時間順に示されている。矢印は、時間予測を示す。他の図と同様、図１２において、矢印は、参照シンク又は参照元の継承（即ち、時間予測を使用して予測された画像）から、時間予測によって参照される画像へ向けて、指示している。サービスのチューンイン又は参加の典型的なイベント（即ち、図１２のビデオのデコードの開始）は、ランダムアクセスと呼ばれ、図１２では「切替点」として例示的に示される。図１２から分かるように、ランダムアクセスイベントが第２のＣＲＡ画像（図１２の右側の画像）で発生すると、それに先行する全ての画像が、ＣＲＡ及び前の画像（図１２にＰで示す画像）に依存するが、表示時間順で、復号されない又は表示されないスキップされる画像となる。このようなアプローチは、非常に効率的であることが示されており、同じ機能のためにＩＤＲを使用し、過去の予測を絶つクローズドＧＯＰ構造と比較して、より高い圧縮効率を提供する。新しいチャネルへのチューニングインのように途中で復号化を再開する場合、このようなアプローチは非常に有用であるが、アダプティブストリーミング又はインタラクティブストリーミングのコンテキストで切替が実行される場合、画像のスキップは有効な手段ではない。このような切替イベント（即ち、表示された関心領域（ＲｏＩ）の変化）が起こるたびに、切替イベントを通してずらされても、連続したビデオが切替イベントを通して表示されなければならないので、画像を破棄する技術を使用することは許容されない。

図１３は、ＧＲＰを用いたタイルベースのストリーミングが考慮されるパノラマストリーミングにおける、オープンＧＯＰの効果を示す。基準層（層Ｌ０）が、層Ｌ１内の選択されたタイルによって形成されるＲｏＩの参照として使用されるパノラマビデオ全体のサムネイル表現に対応する場合、スケーラブルビデオが考慮される。図１３に示すように、層Ｌ１の図形が４つのタイルに水平に細分されている場合、ＧＲＰは元のタイルの最上層（図１３の層Ｌ１）において左にシフトする。特許文献１で説明されているとおり、ハッチングで示されている右端のタイルは、前の被参照フレーム又は他の無意味なコンテンツの画像境界の拡張を含むことになる。この破損した領域は、クロスハッチングで示されている表示時間順序（ＲＡＳＬ）画像の次の画像に追加された新しいタイルの意味のある参照として、使用不可能である。したがって、クロスハッチングで示されている右端のタイルに対するＲＡＰ機能性を有するクローズドＧＯＰ表現が必要であり、スティッチングを実行するには、全てのタイルにクローズドＧＯＰ構造を用いる必要があり、符号化の効率が低下してしまう。オープンＧＯＰ構造が用いられる場合、後続のＲＡＳＬ画像（右から２番目）のクロスハッチングで示す画像領域は、更なる破損コンテンツ又は復号ドリフトに通じる図１３の通常のクロスハッチングで示すボックスで表される参照として、破損領域を使用する。この問題を解決し、オープンＧＯＰスイッチングを可能にするため、後述の実施形態では、図１３において規則的に斜線で示したものを例えばスライスを用いた層間予測によって導出できるリザーバとして、基準層を使用する。ダイレクトコピースライスは、上述したように、層間予測を介して、下層における画像のコンテンツの直接コピーである。このようなダイレクトコピースライスは、下層画像の意図された領域のサンプルを示す、所定の静的動きベクトルを有する大きな予測ブロックから構成されてもよい。

図１４は、ビデオストリーミング装置１００を示す。ビデオストリーミング装置１００は、入力部１０２及び生成部１０４を含む。実施に関しては、図１について示した注釈が、図１４についても有効である。つまり、図１４のビデオストリーミング装置１００は、ハードウェア、プログラマブルハードウェア又はソフトウェアで実施されてよい。例えば、入力部１０２は、その機能を実現するコンピュータプログラムの一部を表す生成部１０４とのソフトウェアインタフェースを形成してよい。或いは、入力部１０２は、ソフトウェア、プログラマブルハードウェア又は特定用途向け集積回路として実装されたモジュール１０４を有する、１又は複数のビデオ入力部であってもよい。

入力部１０２は、ビデオコンテンツ１１４の符号化バージョン１１２を受信する。符号化バージョン１１２は、ビデオ１１６₁〜１１６_Nのコレクション又はセットを基準品質で符号化した第１部分１１４₁と、ビデオ１１６₁〜１１６_Nを高品質で符号化した第２部分１１４₂とを含む。高品質とは、例えば、基準品質に比べ、ピクセル数で測定された解像度が高いことをいう。ビデオ１１６₁〜１１６_Nは、第１部分１１４₁からの層間予測を用いて又は用いずに、第２部分１１４₂に符号化できる。

図１の説明と同様に、第２部分１１４₂は、ビデオ１１６₁〜１１６_Nごとの１つのビデオデータストリーム１１８₁〜１１８_Nから構成されてよい。第１部分１１４₁は、ビデオデータストリーム１１９を含んでよい。ビデオデータストリーム１１９は、図１４に例示的に示すように、空間的に継ぎ合わされる。具体的には、図１４には、ビデオ１１６₁〜１１６_Nがそれぞれパノラマビューの各部分に関連する状況（即ち、それぞれパノラマビューの一部をキャプチャーするビデオが共通のシーンに属する状況）が示されている。つまり、ビデオ１１６₁〜１１６_Nは、これらのビデオが共通のパノラマシーンの水平に分配された部分のシーケンスをキャプチャーするというような、本質的に空間的な相互関係を有してよい。

生成部１０４は、高品質のビデオ１１６₁〜１１６_Nの適切なサブセットの構成を表すビデオストリーム１２０を生成する。図１４に示すように、適切なサブセット１２１は、例えば、一定の基数であってよい（即ち、ビデオ１１６₁〜１１６_Nの定数ｎ＜Ｎ（ここで、ｎは、パノラマビューの連続する部分を形成するように互いに隣接するパノラマビューの各部分に関連するビデオの数）を有してよい）。例えば、ビデオ１１６₁〜１１６_Nのインデックスは、各ビデオによってキャプチャーされたパノラマビューの部分の順序と一致する。サブセット１２１は、ビデオ１１６₁，１１６₂，．．．，１１６_Nのシーケンスにおける連続するサブシーケンスをカバーする。しかしながら、ビデオ１１６₁〜１１６_Nが、例えばビデオ会議通話における異なる参加者に関するビデオのように、その中で定義された空間関係を有することができないことを、想起すべきである。

生成部１０４は、第１部分１１４₁のコピーによって導出された基準層Ｌ０と、ビデオの適切なサブセット１２１に関連する第２部分１１４₂の一部分のコピーによって導出された１又は複数の上位層（図１４では１つの層Ｌ１）と、を備えた階層データストリームとして、ビデオストリーム１２０を生成するように構成されている。例えば、第２部分１１４₂は、適切なサブセット１２１のビデオが符号化されたビデオデータストリーム１１８₁〜１１８_Nから構成される。つまり、生成部１０４は、ビデオのサブセット１２１をビデオストリーム１２０の１又は複数の上位層に階層化するように、圧縮ドメイン又は符号化ドメインで動作する。原理的には、サブセット１２１内のビデオの数は、経時的に変化してよい。サブセット１２１内のビデオの数は、常に、１つ、又は、１よりも大きくてよい。適切なサブセット１２１の構成を示すようにビデオストリーム１２０を合成する場合、生成部１０４は、図１のビデオストリーミング装置と同様に動作してよい。つまり、復号又は圧縮された領域のサブセット１２１のビデオを、追加の最上層を費やすか、或いは、上位層における最高層をＭＬＣＰドメインとして（即ち、適切なサブセット１２１の構成が合成される所定層として）再利用することによって、ビデオストリーム１２０の上位層を生成する。或いは、生成部１０４は、サブセット１２１のビデオを、図１４に示すように、上位層Ｌ１の画像（即ち、１つの上位層）に空間的に階層化する。例えば、生成部１０４は、上位層Ｌ１の画像をタイルに空間的に細分することで、適切なサブセット１２１内のビデオの符号化表現１１８の大部分がビデオストリーム１２０の上位層Ｌ１に単にコピーされ、適切なサブセット１２１の構成になるように、上位層Ｌ１の画像にわたった符号化順序をステアリングする。

図１４の生成部１０４は、適切なサブセット１２１の変化を支持する（即ち、図１４において適切なサブセット１２１を示す中括弧の外側の矢印で示すように、適切なサブセット１２１の時間変化を支持する）。具体的には、生成部１０４は、所定時点における適切なサブセット１２１の変化を支持す。これにより、適切なサブセット１２１は、所定時点の前の適切なサブセット１２４に含まれない新たなビデオを含む。例えば、図１４を参照すると、時点Ｔは、ビデオ１１が適切なサブセット１２１によって新たに含まれる時点を示す。ビデオ１１は、時点Ｔより前の適切なサブセット１２１には含まれない。

上述したように、新たに含まれるビデオ又は新たに関与するビデオにおける問題は、時間予測で必要とされるビデオの被参照画像（即ち、時間的な符号順序において、新たに含まれたビデオの未送信画像の前に位置する画像）が欠落していることにある。ビデオ１１６₁〜１１６_Nを符号化するためにオープンＧＯＰ構造が使用される場合、このような被参照画像の欠落が避けられないことさえある。

したがって、この問題を解決するため、生成部１０４は、以下の２つの方法のうちの１つによって、上述の適切なサブセット１２１の変化を支持する。

図１４のビデオストリーム２０を示す図１５Ａを参照して、生成部１０４が動作する第１の代替手段について説明する。ビデオストリーム２０は、基準層Ｌ０に加え、１つの上位層Ｌ１を含むように、生成部１０４によって生成される。ビデオの適切なサブセットは、空間的に継ぎ合わされた状態で、上位層内で伝送される。つまり、ビデオの適切なサブセットは、上位層Ｌ１の画像の空間的な部分に階層化される。図１５Ａは、表示時間順序で上位層及び基準層における６つの連続する画像を含むビデオストリーム１２０の合成ビデオの時間間隔を示す。図１５Ａにおいて、ビデオ１１６は、上述のように図１５Ａの実施形態の利点がオープンＧＯＰ構造に限定されないとしても、オープンＧＯＰ構造を用いて符号化されたものと仮定される。全ての入力ビデオ１１６は、同じオープンＧＯＰ構造を用いて符号化されたと仮定される。表示時間順序において、示された時間間隔は、画像ＲＡＳＬ１，ＣＲＡ１，Ｂ１，Ｐ１，ＲＡＳＬ２，ＣＲａ２を含む。ＣＲＡ＃画像は、イントラ符号化される。画像ＲＡＳＬ＃は、画像ＣＲＡ＃及び画像Ｐ＃を時間予測によって参照し、各画像ＲＡＳＬ＃は、符号化順序に関する限り、参照される画像ＣＲＡでその位置を切り替える。画像Ｂ＃はまた、時間予測により画像ＣＲＡ及び画像Ｐを参照するが、ビデオストリーム２０の符号化順序に関する限りは、被参照画像Ｐとのそれらの位置を切り替える。図１５Ａでは、ビデオの適切なサブセットの変化が、時点Ｔにおいて変化する（即ち、画像Ｐ１とＲＡＳＬ２との間の表示時間順序にしたがって変化する）ものと仮定されている。時点Ｔのビデオ７〜１０が出力データストリーム２０の上位層Ｌ１の合成に関与する前に、適切なサブセットは時点Ｔの後のビデオ８〜１１を含む。構成変更時点である時点Ｔまでに、生成部は、圧縮ドメイン又は符号化ドメインにおいて（即ち、符号化バージョン１２のコピーによって）上位層Ｌ１の画像のそれぞれの空間タイルにビデオ７〜１０を単純に階層化する。各ビデオ７〜１０は、表示時間順序において、切替時点Ｔよりも前に、これらの画像内でその位置を保持する。したがって、符号化バージョン１１２からコピーされた動きベクトルパラメータが正確に適用される。ビデオは、上位層の画像内で空間的に継ぎ合わされる。適切なサブセット内のいくつかの層をビデオストリーム２０に階層化する他の方法も実現可能であり、適切なサブセット内のビデオの数が１つであってもよい。しかし、この実施形態は、パノラマシーンのＲｏＩを変更するのに使用できるが、ビデオのうちの３つ（即ち、ビデオ８〜１０）は参加ビデオ内（即ち、適切なサブセット１２１内）に留まる一方、ビデオ７はもはやサブセットのメンバーではなくなり、ビデオ１１はサブセットに新たに含まれる。画像ＣＲＡ２に関する限りは、画像ＣＲＡ２内のビデオ８〜１０の画像コンテンツを符号化する際に動き予測が適用されないため、時点Ｔの後に上位層Ｌ１の画像にビデオ８〜１０が示される位置の空間的シフトは問題ではない。しかしながら、合成部２４は、ビデオ８〜１０の場合には、基準層からの層間予測をも用いて、基準層の画像に対する画像ＣＲＡ２内におけるビデオ８〜１０が位置する領域間の空間的アラインメントを行うため、オフセットパラメータを調整してよい。上位層Ｌ１のＣＲＡ２におけるビデオ１１の新たに含まれた画像は、そのイントラ符号化（即ち、非時間コーディング）のために圧縮ドメイン又は符号化ドメインに残ったまま、直接コピーによって実行されてもよい。画像ＲＡＳＬ２で状況が変化する。画像ＲＡＳＬ２は、切替時点Ｔの後の表示時間順序にも属し、時間予測の被参照画像として画像Ｐ１だけでなく画像ＣＲＡ２をも有する。画像ＣＲＡ２，ＲＡＳＬ２においては、画像間で構図が変化するので、問題とならない。しかし、画像Ｐ１，ＲＡＳＬ２においては、問題となる。ここで、ビデオ８，９，１０は、画像Ｐ１，ＲＡＳＬ２の両方に存在するが、空間的に変位した位置にある。ビデオ１１は、画像ＲＡＳＬ２に存在するが、画像Ｐ１には存在しない。生成部１０４は、位置ずれを考慮して、画像ＧＲＰをビデオストリーム２０に挿入するが、画像ＧＲＰは出力されない（ビデオストリーム２０には表示されない）画像である。画像ＲＡＳＬ２は、むしろ、単に被参照画像として機能する。特に、画像ＧＲＰは、画像ＲＡＳＬ２の被参照画像が関係している限り、画像Ｐ１を後者の役割に置換する。換言すると、図１５Ａにおいて実線で描かれた曲線状の各矢印の交差によって示されるように、生成部１０４は、画像ＲＡＳＬ２が画像Ｐ１の代わりに画像ＧＲＰを被参照画像として使用するようにビデオストリーム２０を調整する。画像ＧＲＰは、生成部１０４によって、置換された被参照画像Ｐ１の対応する領域（ビデオ８〜１０が時点Ｔよりも前に位置する領域）からの時間的コピーによって（即ち、時間予測によって）、上位層Ｌ１の画像内で、時点Ｔの後にビデオ８〜１０が位置する領域に、合成される又は埋められる。時点Ｔの後のビデオ８〜１０の領域に関し、画像ＧＲＰの合成又は充填は、切替時点Ｔの前から後までのビデオ８〜１０の領域の並進シフトだけが符号化されることになるため、比較的低いビット消費で実現可能である。

ＲＡＳＬ２内のビデオ１１の位置に対応する図１５Ａのクロスハッチングで示されたＧＲＰの残りの領域を埋める作業は、次のようにして生成部１０４によって解決される。特に、生成部１０４は、基準層Ｌ０の画像（即ち、パノラマ画像）の対応する部分からの層間予測を用いた符号化によって、この領域を埋める。このため、合成部２４は、例えば、図１５ＡにＧＲＰ’で示された対応するＧＲＰ基準層画像を基準層Ｌ０に挿入し、当該画像のコンテンツからの常にゼロの動きベクトルフィールドを使用する時間予測を用いて、この画像ＧＲＰ’基準層画像はＰ１に対応し、ビデオ１１に対応するＧＲＰ’の部分からの層間予測を用いて、層Ｌ１のＧＲＰのクロスハッチングされた領域をコピーする又は埋める。その結果、クロスハッチングされた領域内の画像ＧＲＰの内容に基づいて時間予測により符号化された画像ＲＡＳＬ２におけるビデオ１１に対応する領域が、現在、対応する部分を介して少なくともこのコンテンツの良好な近似を有する時点Ｔにおける構図の変化によりビデオストリーム２０には存在しない、ビデオ１１の以前に指定された参照画像の時点に対応する基準層の画像内のビデオ１１に転送される。

図１５Ａにおいて、生成部１０４は、図１５Ａに示される画像ＧＲＰを２つの画像ＧＲＰに分割するように構成できることに留意されたい。２つの画像ＧＲＰの一方は、クロスハッチング領域を符号化せずに残してビデオ８〜１０の領域シフトを実行し、ビデオ８〜１０を伝送する画像ＲＡＳＬ２の符号化された領域として機能する。２つの画像ＧＲＰの他方は、ビデオ８〜１０の新たな位置に関する領域である限りは、「ドントケア」の方式で充填されるが、クロスハッチング領域（即ち、切替時点Ｔの後に上位層Ｌ１の画像にビデオ１１が示される領域）に関する限りは、上述した基準層に基づく層間予測を用いて埋められて、ビデオ１１を伝送する画像ＲＡＳＬ２の符号化された領域に対する参照画像の役割を担う。

換言すると、図１５Ａの例にしたがって動作する図１４の生成部１０４の場合、生成部１０４は、出力階層データストリーム（ビデオストリーム１２０）の上位層Ｌ１の画像を、固定数ｓ（＜Ｎ；例えばｓ＝４）の領域又はタイルに細分する。当該領域又はタイルに、ビデオ１１６₁〜１１６_Nにおける固定数ｓのビデオの時間変化する適切なサブセット１２１が階層化される。上記タイルは、圧縮ドメイン又は符号化ドメインで、即ちコード変換されずに、生成部１０４によって埋められる。これは、図２〜図４を参照して上述したように（つまり、少なくとも予測パラメータ及び残差データに関しては、ビデオストリーム１２０の上位層にサブセット１２１のビデオを略そのまま記述するスライスを、ビデオストリーム１２０の上位層Ｌ１に適用することによって）、行うことができる。これにより、ビデオストリーム１２０の上位層における出力画像の上記のｓタイルが記述される（図１５Ａの実線参照）。同様に、生成部１０４は、圧縮ドメイン又は符号化ドメインに残すことによって、ビデオストリーム１２０の基準層Ｌ０を形成する。これにより、例えば、予測パラメータ及び残差データが、ビデオストリーム１２０の基準層Ｌ０に単純にコピーされる。生成部１０４は、切替時点Ｔごとに、階層化画像（即ち、関連する基準層の画像ＧＲＰ’を有する上位層の画像ＧＲＰ）をビデオストリーム２０に挿入する。これら画像のうち、少なくとも上位層の画像ＧＲＰは、非出力タイプである。画像ＧＲＰでは、新たに含まれたビデオの位置に対応する領域又はタイル（図１５Ａの例では、ビデオ１１）が、合成的に埋められる。この目的のため、生成部１０４は、切替時点Ｔに先立って存在する新たに含まれたビデオの参照画像のコンテンツをこのタイルにコピーする。したがって、切替時点に後続する新たに含まれたビデオの画像によって参照される。生成部１０４は、画像ＧＲＰ,ＧＲＰ’が、ビデオストリーム１２０によって実際には含まれていない元の参照画像のために、新たに含まれたビデオの参照画像によって参照されるように、画像ＧＲＰ,ＧＲＰ’をビデオストリーム１２０に挿入する。別の画像ＧＲＰ,ＧＲＰ’又はこれら画像の残りのタイルは、時点Ｔに新たなビデオを導入又は含ませるため、或いは、時点Ｔに亘って連続的に含まれる複数のビデオと上位層Ｌ１の画像のタイルとの関連性を空間的に再配置又は変更するため、生成部１０４によって使用される。具体的には、上記目的のため、生成部１０４は、時間予測を用いて、ビデオストリーム１２０の上位層Ｌ１の画像内のタイルを並進的にシフトする。ここで、時点Ｔに亘って連続的に含まれる複数のビデオは、ビデオとタイルとの別の関連性によって配置され、連続的に含まれるビデオの参照画像としての役割において上位層Ｌ１の画像と置換される。基準層のコピーは、ＧＲＰ’を使用した迂回を介して、上述のように実行される。ＧＲＰ’は、ビデオのコレクションのコピーを基準品質で提供する。新たに含まれたビデオの対応する部分は、新たに含まれたビデオに関連付けられたタイルにおけるＧＲＰ内の層間予測によりコピーされる。

つまり、上記代替手段によると、生成部１０４は、ビデオストリーム１２０が階層データストリームとなるように、高品質のビデオ１１６の適切なサブセット１２１の構成を表すビデオストリーム１２０を生成する。このとき、生成部１０４は、ビデオコンテンツ１１４の符号化バージョン１１２の第１部分１１４１のコピーによって、階層データストリームの１又は複数の基準層Ｌ０を形成し、ビデオの適切なサブセットに関連するビデオコンテンツ１１４の符号化バージョン１１２の第２部分１１４２の一部を、１又は複数の上位層Ｌ１に分割する。生成部１０４は、所定時点においける適切なサブセット１２１の変化を支持する。これにより、適切なサブセット１２１は、所定時点の前には適切なサブセット１２１に含まれないビデオ１１６を新たに含む。生成部１０４は、フリッカフリーの方法で（即ち、新たに含まれたビデオの欠落した画像のコンテンツのため、画像損失や構成内のブランクが生じることなしに）、適切なサブセットの変更を実現することができる。図１４の代替手段において、生成部１０４は、Ｐ１のような新たに含まれたビデオの参照画像を、非出力画像に置換する。ここで、参照画像は、以下の２つの条件を満たす。
１）各参照画像は、１又は複数の上位層Ｌ１にコピーされた符号化バージョンの第２部分の部分に含まれない。これは、Ｐ１が符号化順序で切替時点Ｔ１よりも前にあり、コピー元によりビデオストリームに転送されないことから、Ｐ１に該当する。
２）各参照画像は、動き予測により、１又は複数の上位層Ｌ１にコピーされた符号化バージョンの第２部分の部分に含まれる新たに含まれたビデオの任意の画像により参照される画像である。これは、Ｐ１が、例えば、符号化順序で切替時点の下流に位置すると共にコピー元によりビデオストリームに挿入されるＲＡＳＬ２によって参照されることから、Ｐ１に該当する。上記置換は、非出力画像を階層ビデオストリームに挿入し、参照画像（ここではＲＡＳＬ２）の時間予測をリダイレクトして、非出力画像を参照し、基準層に基づいて層間予測を介して非出力画像を参照画像の近似物で埋めることで、実現される。

図１４の生成部１０４の機能に対する別の実施形態を説明する前に、以下の点に留意されたい。つまり、図１４のビデオストリーミング装置１００に関する上述の説明では、生成部１０４が、ビデオストリーム１２０の基準層内で、常に基準品質でＮ個のビデオの完全なセットのコレクションを伝送するが、これに限定されない。例えば、Ｎ個のビデオ１１６のコンテンツは、タイルの単位で基準品質の基準層の画像に符号化されてよい。生成部１０４は、基準層を介して伝送されるこのコレクションが、いずれの場合においても、上述したパノラマビューの例にしたがって適切なサブセット１２１に現在含まれているビデオの直近のビデオのような、適切なサブセット１２１によって新たに含まれる可能性のあるビデオの基準品質を表すタイルを含むように構成されてよい。いずれの場合においても、当該コレクションは、ビデオ１１６が対応する部分１１８への層間予測を用いて符号化されている場合には、現在適切なサブセット１２１内にあるビデオの基準品質の画像を含む。

図１６に、生成部１０４がビデオの適切なサブセット１２１をビデオストリーム１２０に（即ち、ビデオストリーム１２０内のビデオ毎に１つの上位層Ｌ１〜Ｌ４に）階層化する別の代替手段を用いる場合を示す。切替時点Ｔにおいて、生成部１０４は上記画像ＧＲＰ，ＧＲＰ’を挿入する。具体的には、適切なサブセット１２１のビデオと上位層Ｌ１〜Ｌ４（即ち、ビデオストリーム１２０の対応する層ＩＤ）のビデオとの関連性は、例えば、これらのビデオについて同じものが残るように（即ち、時点Ｔの前後でセット１２１のメンバーであるビデオである限り、時点Ｔに亘ってビデオを維持するように）、生成部１０４によって選択されてよい。新たに含まれたビデオ（図１６の例では「１１」）は、残りの上位層Ｌ１と関連するように別のビデオを開始する。つまり、時点Ｔの前にはビデオ7が層Ｌ１に割り当てられているが、時点Ｔの後にはビデオ１１が層Ｌ１に割り当てられる。ビデオ１１の各欠落参照画像について、ＧＲＰ画像が、生成部１０４によって層Ｌ１に挿入される。このＧＲＰ画像は、図１６にクロスハッチングで示されており、層間予測を介して（即ち、基準層Ｌ０にＧＰＰ’画像を挿入することによって）生成部１０４によって埋められ、次にＧＲＰ画像が参照画像の内容の近似物をコピーする。層Ｌ１内のＧＲＰ画像は、時間予測によって置換される。ＧＲＰ画像へのコピーは、ゼロベクトルの一定の動きベクトルフィールドを用いて行われる。層間予測は、層Ｌ０と層Ｌ１との間の各オフセットパラメータを介して制御される。これにより、層間予測を介して、例えば、アップサンプリングを用いて、置換された参照画像の低解像度のコンテンツをＧＲＰ画像にコピーする。また、生成部１０４は、層Ｌ２〜Ｌ４にＧＲＰ画像を挿入してもよい。この場合、層Ｌ１〜Ｌ４に挿入されたＧＲＰ画像の全てを、時点Ｔの後に層Ｌ１〜Ｌ４に関連するビデオ（ビデオ８〜１１）の実際の参照画像のそれぞれと置換してよい。しかしながら、層Ｌ２〜Ｌ４にＧＲＰ画像を挿入せずに、元の符号化バージョン１２にしたがって層Ｌ２〜Ｌ４に参照画像を残してもよい。実際の合成は、層Ｌ５内の画像をビデオストリーム１２０に追加することによって、生成部１０４により実現される。層Ｌ５内の画像は、高品質のビデオの適切なサブセット１２１の実際の構成を、適切なサブセット１２１に含まれるビデオを伝送する層Ｌ１〜Ｌ４からの層間予測を用いて、符号化したものである。上記目的を実現するため、生成部１０４は、層Ｌ５と層Ｌ１〜Ｌ４との間の空間オフセット及び相対スケーリングを調整する各オフセットパラメータを、ビデオストリーム１２０において調整してよい。

或いは、生成部１０４は、追加の層Ｌ５内の構成に対して図１の代替手段２８を用いる代わりに、図１の代替手段３０を用いて、適切なサブセット１２１内でビデオを伝送する層のうちの最上層において、実際の合成を実行してよい。

以上の説明では特に述べていないが、図１４〜図１６の切替時点Ｔは、新たに含まれたビデオの画像の表示時間順序と符号化順序とが異なるにもかかわらず、新たに含まれたビデオの各画像の、切替時点Ｔの前に新たに含まれたビデオの部分（圧縮ドメイン又は符号化ドメインでビデオストリーム１２０にコピーされていない部分）又は切替時点Ｔの後に新たに含まれたビデオの部分（ビデオストリーム１２０にコピーされた部分）に対する関連性が、符号化順序及び表示時間順序の両方に関して等しくなるような時点である。ビデオストリーミング装置１００は、例えば、オペレータや何らかの外部エンティティから生じるサブセット１２１の変更に対するインバウンド要求が、次の時点で行われるよう（即ち、そのような状況が生じる次の時点まで延期されるよう）スケジューリングして、当該要求を処理するように構成されてもよい。ビデオストリーミング装置１００は、サブセット１２１の変更に対するインバウンド要求が、表示時間順序と符号化順序とに差がある場合はこれらの時間間隔が順序タイプに依存する各時点の前後に画像を導かないだけでなく、非時間的に符号化された画像も符号化順序で画像ＣＲＡ２についての図１５Ａの時点Ｔのような時点の直ぐ後に続くような、次の時点で行われるよう（即ち、次の時点まで延期されるよう）スケジューリングして、当該要求を処理するように構成されてもよい。しかしならが、これに限定されず、別の切替時点が選択されてもよい。後者の場合、切替時点Ｔの後に新たに含まれたビデオの部分（ビデオストリーム１２０にコピーされた部分）が符号化順序又は表示時間順序により選択されてよい。符号化順序が選択された場合、符号化順序において切替時点Ｔの後に新たに含まれたビデオの部分（ビデオストリーム１２０にコピーされた部分）は、新たに含まれたビデオに関連する符号化バージョンの連続部分に亘って延在する。つまり、上述の実施形態によれば、コピー形成部は、サブセットの変化ごとに１回だけ、新たに含まれたビデオに切り替える。

図１５Ａ及び図１６の場合、ＧＲＰを用いて置換された画像は、Ｐ１（即ち、表示時間順序において切替時点Ｔの直前の画像。表示時間順序において切替時点Ｔの前の最後の画像）である。当該置換は、例えば図１５ＡのＲＡＳＬ２のように、コピーされた部分に含まれる別の画像に対する参照画像の役割に関するものであった。しかしながら、これに限定されず、出力及び参照画像の役割に関して置換を行ってもよい。置換された画像Ｐ１は、生成部１０４により、ビデオストリーム１２０において非出力画像としてマークされ得る。画像ＧＲＰ，ＧＲＰ’が挿入されて出力画像としてマークされ、Ｐ１の以前の表示時点において再生中の画像Ｐ１のコンテンツが置換される。画像ＧＲＰはまた、Ｐ１の代わりにＲＡＳＬ２によって参照される。時点Ｔの後に続く画像の参照画像としての役割と、出力の点とにおいて、Ｐ１を置換することが、図１５Ｂに示されている。図１５Ｂでは、図１５Ａとは異なりＧＲＰ，ＧＲＰ’を実線・Ｐ１を破線でを示しており、Ｐ１の以前の表示時間をＧＲＰ，ＧＲＰ’に関連付けている。これに対応して、図１６も変更してよい。この手段によって、効果的な切替時点は、図１５Ｂに曲線矢印で示すように、効果的にプリシフトされる。挿入及び符号化に関するコストは実質的に同じである。つまり、置換画像ＧＲＰは、非出力画像ではない。むしろ、置換画像ＧＲＰは、出力画像である。置換又は参照された画像Ｐ１（即ち、ＲＡＳＬ２によって参照される画像Ｐ１）は、非出力画像（即ち、再生中にスキップされる画像）としてマークされる。後者は、表示時間順序におけるＰ１とＴとの間の画像の参照画像（図１５Ａ及び図１６におけるＢ１）として機能してよい。複数の画像が、図１５Ｂに示された方法で、時点ＴごとにＰ１／ＧＲＰのように扱われることにより、複数の画像の時点によりＴをプリシフトできることに言及すべきである。ビデオ１１６のＧＯＰ構造に応じて、１又は複数の非出力置換画像と、１又は複数の出力置換画像とが、切替時点Ｔごとに存在することもある。

以上、生成部１０４の機能として、出力データストリーム（ビデオストリーム１２０）に挿入された非出力画像の領域を埋めること、切替時点Ｔの前に基準層の基準に基づき層間予測により参照画像を置換及び／又は再配置すること、を説明した。しかしながら、代替手段において、生成部１０４は、基準層からの層間予測を用いた部分を符号化することにより、所定時点の前に新たに含まれたビデオの参照画像（新たに含まれたビデオの各部分又は画像）を時間予測を介して参照する、新たに含まれたビデオの画像の各部分を、置換してよい。例えば、図１５Ａにおいて、生成部１０４は、層Ｌ１のＧＲＰ画像のクロスハッチング領域を近似する代わりに、層Ｌ１の画像ＲＡＳＬ２内のビデオ１１に対応するタイルのコンテンツを直接的に近似してよい（即ち、新たに含まれたビデオの画像が、符号化バージョン１２内の各ビデオ１１のコピーによって埋められている場合に、ＧＲＰが置換すべき参照画像を参照したものであってよい）。同様に、生成部１０４は、図１６の画像ＧＲＰ，ＧＲＰ’を挿入せず、基準層の基準に基づき直接的に、層間予測を用いて層Ｌ１のビデオ１１の画像コンテンツ（ＲＡＳＬ２画像）の充填又は近似を行ってよい。

つまり、第２の代替手段によれば、生成部１０４は、ビデオストリーム１２０が階層化されるように、高品質のビデオ１１６の適切なサブセット１２１の構成を表すビデオストリーム１２０を生成する。生成部１０４は、ビデオコンテンツ１１４の符号化バージョン１１２の第１部分１１４１のコピーにより、階層データストリームの１又は複数の基準層Ｌ０を形成し、かつ、ビデオの適切なサブセットに関連するビデオコンテンツ１１４の符号化バージョン１１２の第２部分１１４２の一部を１又は複数の上位層Ｌ１にコピーすることによって、階層データストリームの１又は複数の上位層Ｌ１を形成する。生成部１０４は、所定時点においける適切なサブセット１２１の変化を支持する。これにより、適切なサブセット１２１は、所定時点の前には適切なサブセット１２１に含まれないビデオ１１６を新たに含む。生成部１０４は、フリッカフリーの方法で（即ち、新たに含まれたビデオの欠落した画像のコンテンツのため、画像損失や構成内のブランクが生じることなしに）、適切なサブセットの変更を実現することができる。このことは、第２の代替手段に係る生成部１０４によって、以下の条件を満たす新たに含まれたビデオの部分が置換されることで、実現される。
１）符号化バージョンの第２部分の、１又は複数の上位層Ｌ１にコピーされた部分によって構成される部分これは、ＲＡＳＬ２に該当する。
２）符号化バージョンの第２部分の、１又は複数の上位層Ｌ１にコピーされた部分に含まれない、新たに含まれたビデオの参照画像を時間予測により参照する部分これは、Ｐ１を参照するＲＡＳＬ２に該当する。Ｐ１は、符号化順序で切替時点Ｔの前にあり、コピー元によってコピーされないので、ビデオストリーム１２０には存在しない。置換は、オンザフライで実行されてもよい。即ち、コピー形成部は、合成部が後に置換する部分のコピーを実行しなくてよい。むしろ、置換と非コピーとで、コピー形成部が事前にこれら部分のコピーをスキップするようにしてもよい。置換は、上述のように基準層からの層間予測を介して得られた置換部分の近似値によって近似された部分を置換することによって行われる。

これ以上詳細には規定しないが、Ｔにおける切替は、例えば、ユーザがコンピュータゲームをプレイしている間のユーザ入力によってトリガされてもよい。

図１４〜１６を参照して第２実施形態を説明した後、図１７に再び利点が示されている。図１７には、図１３に関して上述した問題への解決策が示されている。特に、図１４の概念を適用すると、図１７は、ダイレクトコピースライスをＧＲＰと組み合わせて、階層生成基準画像（ＭＬＧＲＰ）を形成することを示している。これは、ＭＬＧＲＰがＧＲＰ情報（即ち、ＲｏＩ切替イベント（画面移動）を補償するための移動情報）を含むいくつかのタイルからなることを意味する。タイルの情報がソース画像に適用された境界拡張手順から生じるサンプルのみからなるタイルの場合、ＧＲＰコンテンツを用いる代わりに、下層（例えば、サムネイル）へのコピー又は参照からなる（この下層の正しい領域からサンプル値を継承する）ＭＬＧＲＰスライスが含まれてよい。この領域は、おそらくサンプルのコピーに対応するだけでなく、例えばビデオストリーム１２０のＰＰＳに定義されたスケールド参照層オフセット及び被参照領域オフセットによって定義される再サンプリングプロセスを必要としてよい。得られた層Ｌ１のＭＬＧＲＰ画像領域は、ＲＡＳＬ画像による参照として用いることができる。ＲＡＳＬ画像によって参照として用いられるＭＬＧＲＰの品質によって、符号化効率が顕著に向上するにもかかわらず、次のイントラ符号化画像が生じるまで、顕著な又はわずかな復号化のドリフトは持続しない。

ＭＬＧＲＰは、ＲｏＩ切替時においてのみビットストリームに挿入され、後続の画像による参照のためにのみ挿入される。即ち、ＭＬＧＲＰはデコーダによって出力されない。

ＭＬＧＲＰのビットストリームの制約と性質に関する限り、以下の点に注意されたい。

ＭＬＧＲＰは、入力ビットストリームＥＬ画像及び／又はダイレクトコピースライスから合成されたＳＨＶＣＥＬ画像である。本明細書において、コピースライスとは、下層のソース画像からの層間予測を介して、同じ時点で下層の画像内容を（完全に又は部分的に）コピーする（及び潜在的に再サンプリングする）スライスを意味する。

ＭＬＧＲＰに含まれるスライスは、時間動きベクトル予測（ＴＭＶＰ）を実行するための参照として用いられなくてもよい。さらに、入力ＥＬ画像スライスは、以下に述べるように、スティッチングの制約を満たす必要があってよい。以下は、[Sanchez, Y., et al. "Low complexity cloud-video-mixing using HEVC." Consumer Communications and Networking Conference (CCNC), 2014 IEEE 11th. IEEE, 2014.]で詳述されている、ＨＥＶＣ符号化ビットストリームの制約の短い要約であるが、階層化の場合にも適用される。
１）ＭＶ制約：動きベクトルは、画像境界外のサンプル、又は、サブペルサンプル位置（エンコーダ側で呼び出されたサブペル補間フィルタカーネルが画像境界と重なる位置）を、指してはならない。
２）予測単位：画像内の右端の予測単位は、時間動きベクトル予測（ＴＭＶＰ）候補に対応する動きベクトル予測候補、又は、存在しないＴＭＶＰ候補の位置にある空間動きベクトル候補を、使用してはならない
３）インループフィルタ：スライスセグメント（及び、存在する場合はタイル境界線）は、デブロッキングやＳＡＯフィルタ等のループ内フィルタと、交差してはならない。
４）スライスとタイル間のインループフィルタが必要であってアクティブ化されている場合、１）のＭＶ制約は、ＭＶが、画像境界外のサンプル、或いは、スライス又はサブペルサンプル位置にわたってインループフィルタの影響を受けるサンプル位置（エンコーダ側で呼び出されたサブペル補間フィルタカーネルが、画像境界、又は、スライスにわたってインループフィルタの影響を受けるサンプルと重複する。）を指さないよう、さらに制限される。

適切なスケールド参照層オフセット及び参照領域オフセットのパラメータを用いたＲｏＩ切替（又は、チューンイン、又は、話し手の変更）時のＭＬＧＲＰ及びその参照のためのＰＰＳの挿入は、ＭＬＧＲＰビットストリームのさらなる特徴であり得る。パラメータは、現在のタイルのレイアウト、層の階層化及び画像のディメンションを反映してよい。

ビットストリーム内でシグナリングされるべき貴重な情報（例えば、ＳＥＩメッセージ）としては、ＭＬＧＲＰの挿入の通知がある。この情報は、復号化後のフィルタレベルを高めるため（例えば、視覚的品質への影響を最小限に抑えるため）、高度なデコーダによって使用される。

以上を要約すると、図１４〜図１７には、ビデオの適切なサブセットをビデオストリーム１２０における１又は複数の上位層に、圧縮ドメイン又は符号化ドメインで階層化すること、及び、ビデオコレクションからの圧縮ドメイン又は符号化ドメインで導出された基準層に１又は複数の上位層を加えることにより、新たに含まれるビデオのために適切なサブセットの意味合いを変更することなく、複数のビデオの時変サブセットの構成を表すビデオストリームを構成することが示されている。基準層における基準品質でのビデオのコレクションは、常に全てのビデオにおいて実行される必要はない。むしろ、このコレクションは、すぐに適切なサブセットのメンバーになり得る基準品質のビデオを含んでよい。階層データストリーム（ビデオストリーム１２０）の基準層で伝送されるビデオのコレクションの時間変動は、上述した適切なサブセットによって新たに含まれたビデオに関して生じるものと同様の「欠落参照」の問題として、扱いが容易であり、或いは、基準層が視聴者に表示されるべき階層データストリーム１２０の実際のビデオコンテンツを表さないので、基準層に関しては問題ではない。このことは、ビデオストリーム１２０の基準層に示されるビデオのコレクションが、ビデオストリーム１２０の上位層内の適切なサブセット１２１の切替時点において、当該サブセット１２１の新たに含まれたビデオの欠落した参照画像のコンテンツの近似を有する場合に、該当する。

図１４は、オプションとして、ビデオストリーム１２０が、生成部１０４によって追加された追加のサイド情報又はシグナリング１８０であって、そのようなパノラマビューセットを伝送するビデオコンテンツ１１４の場合にサブセット１２１により現在カバーされているパノラマビューの連続部分を示す追加のサイド情報又はシグナリング１８０を、含むことができることを示す。各ビデオは、パノラマビューの各部分に関連付けられる。これら各部分は、図示のとおり一次元的に、又は、二次元的に、並んで分布されてよい。適切なサブセット１２１は、パノラマビューの連続部分をカバーするように、互いに隣接するパノラマビューの各部分に関連するビデオを含む。パノラマビューは、所定時点の前から所定時点の後に亘って移動される。シグナリング１８０は、例えばパノラマビューの各部分の単位（即ち、ビデオの単位等）で、パノラマビュー内の連続部分の位置を示してよい。興味深いことに、シグナリング１８０は、基準層からの層間予測を制御するオフセットパラメータ（上述のパラメータｐ，ｏ^TL，ｏ^BR）内に存在することに加えて、ビデオストリーム１２０内に存在してもよい。符号化バージョン１２０の第１部分１１４₁が、全てのビデオ１１６₁．．．１１６Ｎの画像を符号化してフルパノラマビューを示すパノラマ画像を生じるように空間的に継ぎ合わされた場合、シグナリング１８０は、同様であるが、より容易に、サブセット１２１によってカバーされるパノラマビューの連続部分の位置へのアクセスを許可する。しかしながら、上述したように、ビデオコンテンツの符号化バージョンの第１部分は、ビデオ〜１１６_Nの時間変化するコレクション（即ち、全ての基準層のビデオの適切なサブセットを含む基準品質のビデオのコレクション）を符号化したものであり、また、少なくとも被参照画像の前方に被参照画像のコンテンツを含むように、所定時点よりも十分に先に存在する時間から新しく含まれたビデオを少なくとも含むものであってよい。後者の場合、シグナリング１８０は、パノラマビューの連続部分の位置に関する知識を得るための前提条件となり得る。

上述したように、生成部１０４は、新たに含まれたビデオに関する問題に対処するための手段として、基準層リザーバ（即ち、ビデオ１１６のコレクション又はセット）を使用する上述の代替手段の１つ又は両方を用いることができる。１つ目の手段は、ビデオストリーム１２０に階層化画像を挿入することである。これらの階層化画像は、上記の説明ではＭＬＧＲＰと呼ばれ、階層化された非出力画像ＭＬＧＲＰに置換される、参照画像の時点と一致する時点のビデオのコレクションを基準品質でコピーするための基準層の画像と、切替時点の前の表示時間に属するために失われた新たに含まれたビデオの参照画像のコンテンツの基準品質の近似物を層間予測によりコピーするための上位層の画像とを含む。或いは、切替時点Ｔよりも前の時点に属しているために欠落している参照画像を参照する新たに含まれたビデオの画像は、生成部１０４による、時間的に整列された基準層の画像のビデオコレクションコンテンツからの直接的な層間予測を介したコピーによって、置換又は合成されてよい。生成部１０４は、例えば、両方の概念を用いてよい。例えば、図１５Ａ、図１５Ｂ及び図１６を参照されたい。上述したように、図中にクロスハッチングで示された挿入された非出力画像ＧＲＰは、基準層の基準に基づいて構成されたものである。ここで、ビデオ１１の画像ＲＡＳＬ２は、時間予測用の参照基準である。しかし当然のことながら、クロスハッチングで示された画像に対する基準層によって導出された画像コンテンツは、単に実際の参照画像の近似物として近似された代替物に過ぎない。したがって、ビデオの時間予測された画像の連鎖が、参照画像の近似物の順方向の動き補償された符号化された変更をパスする限り、ドリフトが生じる。この場合、生成部１０４は、ＭＬＧＲＰを用いて間欠的に参照画像を置換すること、又は、新たに含まれたビデオの時間予測による画像に関して随時に新たに含まれたビデオ自体の時間予測による画像を置換することによって、時間予測の長い連鎖を回避してよい。つまり、生成部１０４は、新たに含まれたビデオの任意の参照画像（符号化バージョンの第２部分における１又は複数の上位層Ｌ１にコピーされる部分に含まれない画像）に時間予測の連鎖を介して依存する、新たに含まれたビデオの時間的に予測された画像に関する置換を、間欠的に繰り返してよい。例えば、符号化バージョンの第２部分における１又は複数の上位層Ｌ１にコピーされる部分に含まれ、且つ、符号化バージョンの第２部分における１又は複数の上位層Ｌ１にコピーされる部分に含まれない新たに含まれれたビデオの任意の参照画像に時間予測の連鎖を介して依存する、新たに含まれたビデオの１又は複数の被参照画像に対して、新たに含まれたビデオの画像による時間予測を上記１又は複数の被参照画像にリダイレクトし、上記１又は複数の被参照画像の代わりに非出力画像を参照するようにし、基準層の基準により層間予測を介して１又は複数の参照画像の近似物で非出力画像を埋めるようにして、階層化ビデオストリームにさらなる非出力画像を挿入してもよい。或いは、符号化バージョンの第２部分における１又は複数の上位層Ｌ１にコピーされる部分に含まれ、且つ、符号化バージョンの第２部分における１又は複数の上位層Ｌ１にコピーされる部分に含まれない新たに含まれたビデオの参照画像を時間予測の連鎖を介して参照する、新たに含まれたビデオのさらなる部分は、基準層からの層間予測を介して置換された部分の近似によって直接的に置換されてもよい。

本発明の第３の観点に係る実施形態について以下に説明する前に、図１４〜図１７の実施形態の説明に限定されず、基準層の数は、複数であってもよいことに留意されたい。例えば、ビデオ１１６₁〜１１６_Nの基準品質の表示は、現在基準層内で伝送されているビデオのコレクション内の各ビデオにつき１つの層又は各ビデオにつき少なくとも１つの基準層において、基準層内において別々の層に伝送されてよい。

以下に述べる実施形態によれば、合成ビデオストリームは、出力データストリームに１又は複数のビデオのリザーバを提供し、出力画像により散在されたデータストリームの非出力画像が形成されるようにリザーバをデータストリーム内で時間的に階層化することによって、１又は複数のビデオに基づいてビデオコンテンツを構成するように生成される。出力画像は、時間予測により、データストリームの非出力画像を介して伝送されるビデオコンテンツに基づいて、ビデオ構成を形成する画像である。非出力画像は、ビデオの再生時に出力されない画像としてデコーダによりマークされた画像であって、ビデオストリームの後続の画像によって参照できるようになる画像である。ここで問題となるのは、画像の符号化順序が表示時間順序とは異なる構造を用いて符号化された構成を基にしたビデオを使用する場合に、各出力画像のリザーバを形成する非出力画像の直後に合成する出力画像を単に配置すると、以下に詳述するように、合成ビデオデータストリームを復号しようとするデコーダのバッファ容量に対する要求が増大する。この問題は、以下の実施形態により解決される。

第３の観点に係る実施形態について、先ず、ビデオビットストリーム挿入について簡単に説明する。[Skupin, R., et al. "Compressed Domain Video Compositing with HEVC", Picture Coding Symposium (PCS), 2015 IEEE 31th. IEEE, 2015.]に記載されている圧縮ドメイン内の所定のビデオビットストリームの混合技術は、完全な（又は部分的な）復号化及び符号化のサイクル、即ち符号化を行う必要なしに、複数の圧縮ビデオソースの合成を可能にする。このような技術を適用することができる多くの使用事例が存在する（例えば、ピクチャ・イン・ピクチャ、広告挿入、グラフィカル・ユーザー・インターフェース又は他の有用な情報のオーバーレイ）。バスケットボールのような実際のスポーツシーンが示されるスポーツ番組のビデオの画像の上部又は下部に、ニュースティッカーが重ね合わされた場合を想像してみる。[Skupin, R., et al. "Compressed Domain Video Compositing with HEVC", Picture Coding Symposium (PCS), 2015 IEEE 31th. IEEE, 2015.]に記載の方法では、軽量シンタックス変更操作のみを用いて、n個の入力ビデオビットストリームを共通の出力ビデオビットストリームに（空間的又は時間的に）混合し、復号化画像の各コンテンツのデコーダ出力を抑制し、さらに、所謂合成画像（ＣＰ）を（デコーダ出力用の）共通出力ビットストリームに出力する。画像ＣＰは、画像間予測を用いて、ｎ個の入力ビデオビットストリームの画像（即ち、画像ＣＰの関連する抑制画像）から構成を生成する。所定の符号化ビデオビットストリームへの符号化画像の挿入を必要とする他の方法があり、後述する実施形態はピクチャバッファ要件の最小化に関連する。しかしながら、以下では、後述する実施形態の有利な態様を説明するため、[Skupin, R., et al. "Compressed Domain Video Compositing with HEVC", Picture Coding Symposium (PCS), 2015 IEEE 31th. IEEE, ]2015.に詳述された方法を一例として用いる。

理解されるように、共通出力ビットストリームは、n個の入力ビデオストリームによって導入されたビデオデータの復号に加えて、画像CPを復号するための追加の計算資源を提供しなければならない、ターゲットビデオデコーダに対してより高い計算需要をもたらす。非特許文献１に記載のＨＥＶＣ（及び、他のビデオコーデック規格）のレベルの定義は、いくつかの共通動作点（画像解像度、フレームレート、ビットレート、ピクチャバッファメモリ）に対応するように設計されているため、上記した方法がビデオデコーダに課す可能性のあるコンピュータの計算上の複雑さを抑制することが重要である。

後述の実施形態によって対処される複雑さの負担は、デコーダに合成画像を格納することによって引き起こされるピクチャバッファメモリ要求の増加である。後述の実施形態の背景にある思想は、入力ビットストリームの画像の符号化順序（ビットストリーム順序又は予測構造）に関係なく、出力順序で、共通出力ビットストリームに構成又は出力画像を挿入し、共通出力ビットストリームの非出力画像に階層化することにある。合成画像のそのような位置決めは、デコーダ側で出力される前に合成画像を保持するのに必要な付加的な画像メモリを低減させる。

一例として、図１８に示す予測構造を用いる。ここで、２つの単一予測フレーム（Ｐ）は、出力順に先行する画像（即ち、イントラ符号化フレーム（Ｉ））のみを用いて情報を予測する。これにより、ビットストリームの順序で画像を符号化して出力した後の出力のためにピクチャバッファメモリ内に画像を保持しなくとも、符号化順序がデコーダの出力順序に類似することになる。

このような符号化構造が上記の混合方法のn個の入力ビットストリームで使用される場合、関連する抑制画像の直後に画像ＣＰを挿入することにより、復号化直後に画像ＣＰを出力することができる（即ち、n個の入力ビットストリームのみを含むビットストリームに比べ、単一の追加のピクチャバッファが必要とされるだけとなる）。１つの入力ビットストリーム（ｎ＝１）を用いて得られたビットストリームが、図１９に示されている。ここで、ハッチングされたボックスはＣＰ（出力画像）を示し、ハッチングされていない入力ビットストリーム画像（非出力画像）はビデオデコーダによる出力から抑制された画像である。

復号化の構造が一般的な符号化効率を高めるためにより複雑になると、例えば、図２０に示すフレーム（Ｂ）を介して、符号化順序と出力順序とが異なることとなり、出力前の参照として用いる画像を格納するピクチャバッファが多く必要となる（図２０では、各ボックスの左上隅に符号化順序を示す）。

したがって、以前と同じように（合成に使用されるビットストリーム内の関連する抑制画像の直後に）ビットストリームにＣＰを追加すると、ＣＰが他の画像の参照として用いられないにもかかわらず、出力前にＣＰのいくつかをビデオデコーダに格納する必要が生じる。この問題を回避するため、後述の実施形態は、n個の混合入力ビデオビットストリームと比較してピクチャバッファ要求の増加を低減できるよう、画像を挿入するように構成されている。これは、入力ビットストリームの予測構造に関係なく、出力順序でＣＰをビットストリームに追加することによって、達成することができる。図２１は、単一の入力ビデオビットストリーム（ｎ＝１）が階層的双予測構造を用いて得られる共通出力ビデオビットストリームを示す。

図２２には、本発明の第３の観点に係るビデオストリーミング装置２００が、少なくとも１つのビデオ２１６₁，２１６₂，．．．，２１６_N（図２２では、Ｎ＝３）を含むビデオコンテンツ２１４の符号化バージョン２１２を受信する状況が示されている。符号化バージョン２１２は、各ビデオ２１６_iについて、時間予測を用いてビデオ２１６_iが符号化される部分２１８ｉを含む。ビデオ２１６_iの画像間の時間予測依存性が、図２２において、参照シンク（即ち、時間予測を使用して現在符号化されている画像）から、参照源又は参照画像（これら参照画像から上記時間予測符号化画像が予測される。）まで延びる、曲線状の矢印で示されている。図２２の符号化順序を示す矢印は、ビデオ２１６₁〜２１６₃の画像が画像の表示時間順序と異なる符号化順序で示されていることを示している。これは各ビデオ２１６_iに該当する。特に図２２は、３つの画像を包むビデオ２１６_iの時間間隔を示す。図２２において、ビデオ２１６₁の画像はＡ、ビデオ２１６₂の画像はＢ、ビデオ２１６₃の画像はＣで示されている。大文字の直後の数字は、各ビデオ２１６_iからの時間間隔における３つの画像を区別するものである。符号化順序では、画像は、Ａ１、Ａ２、Ａ３等の符号にしたがう。表示時間順序では、画像の順序が異なり、画像Ａ３は画像Ａ１と画像Ａ２との間に配置される。図２２は、全てのビデオ２１６_iが同じ時間的相互依存構造を有する例（即ち、画像の符号化順序と表示時間順序との差が全てのビデオ２１６ｉにおいて真であると想定する例）を示している。さらに、図２２のビデオストリーミング装置２００の有利な態様は、ビデオコンテンツ２１４内のビデオ２１６_iの数（Ｎ）が１である場合にも有効であることに留意されたい。一般に、Ｎは任意の数でよい。ビデオ２１６_iが使用している上記ＧＯＰ構造は、オープンＧＯＰ構造又はクローズドＧＯＰ構造であってよい。部分２１８_iは、図１〜図１４を参照して上述した実施形態の説明と同様、符号化バージョン２１２を形成する個々のデータストリームであってよい。ビデオ２１６_iは、説明を容易にするため単層ビデオとして示されているが、多層ビデオであってもよいし、或いは、単層ビデオ及び多層ビデオの混合であってもよい。

ビデオストリーミング装置２００は、内部に、コピー形成部２２２及び合成部２２４を含む。実施可能性に関しては、図１について上述した記述が成立する。つまり、ビデオストリーミング装置２００は、ハードウェア、プログラマブルハードウェア又はソフトウェアを用いて実装され、それに応じてモジュール２２２，２２４が実装される。

ビデオストリーミング装置は、符号化バージョン２１２のうちのビデオストリーム２２０を生成するように構成される。コピー形成部２２２は、ビデオストリーム２２０の非出力部分を形成する。合成部２２４は、非出力部分からの時間予測によって少なくとも部分的に導出された出力画像をビデオストリーム２２０に挿入することで、ビデオコンテンツ２１４の実際の構成を合成する。これにより、ビデオストリーミング装置２００は、図１８〜図２１に関して動機付けされたように動作する。つまり、出力画像が、ビデオストリーム２２０に挿入され、表示時間順序でビデオストリーム２２０に配置される。

図２２は、コピー形成部２２２と合成部２２４との間の協働に係る３つの代替手段を示す。しかしながら、図２２においてローマ数字I〜IIIを用いて区別される３つの代替手段が、図２２のビデオストリーミング装置２００に基づく有利な概念に係るサブセットの形成方法を示すものに過ぎないことは、明らかである。

図２２に示される全ての代替手段によれば、非出力タイプ（即ち、ビデオストリーム２２０の非出力部分の一部）であるビデオストリーム２２０のアクセスユニット又は画像は、実線で示されるＡ１〜Ｃ３の画像コンテンツを含むものである。合成部２２４に由来する（即ち、ビデオストリーム２２０の非出力部分の非出力画像間に散在している、ビデオストリーム２２０に挿入される）非出力画像は、「ＣＰ＃」で示されている。挿入された出力画像は、点線のＡ１〜Ｂ３で示すコピーされた画像部分を用いて図示されている状況で非出力画像のいずれかを時間予測によりコピーするコピー画像を下位層又は下層に含む階層化出力画像となる場合がある。図２２に示すI〜IIIの代替手段においては、ビデオストリーム２２０の生成の可能性として、ビデオストリーム２２０の画像が、「符号化順序」と示された矢印で図示されるように、符号化順序にしたがって順序づけられている。

代替手段Ｉにしたがい、コピー形成部２２２は、図１５Ａに示されている階層化出力データストリームの上位層の形成と同様、ビデオストリーム２２０の画像が空間的に細分された各タイル上にビデオ２１６_iを階層化することによって、ビデオストリーム２２０の非出力部分（即ち、ビデオストリーム２２０の非出力画像）を形成する。つまり、代替手段Ｉにしたがい、ビデオストリーム２２０の画像は、例えばＮ個のタイルに空間的に細分される。各タイルは、Ｎ個のビデオ２１６₁〜２１６_N（図２２において、Ｎ＝３）の１つに関連付けられる。タイルの細分化のために、符号化順序は、タイルに応じて（タイルとビデオとが１対１の関係にあるため、ビデオに応じて）ビデオストリーム２２０の画像を横断する。したがって、コピー形成部２２２は、圧縮ドメイン又は符号化ドメイン内の非出力画像のタイルを埋めることができる。この点の詳細については、図１〜図１４等を参照して上述しており、コピー形成部２２２においても該当する。ビデオストリーム２２０内において、ビデオ２１６_iの画像のコンテンツによって埋められた画像は、非出力画像として示される。

合成部２２４は、代替手段Ｉによると、これらの空間的に継ぎ合わされた非出画像（即ち、入力ビデオ２１６_iの画像のコンテンツを空間的に継ぎ合わせて構成された画像）と、出力画像との間の、散在の原因となる。これらの出力画像は、出力されたビデオストリーム２２０を介して伝送されるビデオコンテンツの実際の構成を合成する。このために、合成部２２４は、非出力画像からの時間予測を用いて少なくとも部分的にこれら出力画像を符号化する。図２２に示す実施形態によれば、各出力画像ＣＰ＃は、非出力画像のうちの１つを一時的な参照画像の基準として排他的に使用する。したがって、図２２の「ＣＰ」の後の数字は、各出力画像ＣＰ＃のコンテンツ（コンテンツＡ＃，Ｂ＃，Ｃ＃）から時間予測により少なくとも部分的に生成又は合成される非出力画像を示す。合成部２２４は、例えば、ブロックの全部又は隣接するクラスタが非出力画像Ａ１〜Ｃ１の各部分を並進コピーするブロックを用いて、画像又は出力画像ＣＰ１を符号化してよい。画像ＣＰ１の他のブロックは、イントラ予測を用いて又は予測を用いずに、合成部２２４によって符号化されてよい。ビットレートを節約するため、いくつかのブロックをスキップモードで（これにより、残差データを符号化する必要なしに、空間的に隣接するブロックからの時間予測のための動きベクトルを採用し）、符号化してもよい。このことは、上記別の２つの実施形態において記載されており、当該２つの実施形態以外の実施形態においても該当する。このようにして、合成部２２４はまた、出力画像ＣＰ２，ＣＰ３をビデオストリーム２２０に挿入する。しかしながら、これらの出力画像の順序は、表示時間順序にしたがって選択される。つまり、出力画像は、ＣＰ１，ＣＰ３，ＣＰ２の順で、ビデオストリーム２２０内で順序付けされる。これらの画像は、出力画像ＣＰｘの参照された非出力画像ｘがそれぞれビデオストリーム２２０内の符号化順序にしがたい出力画像ＣＰｘに先行するように、ビデオストリーム２２０に挿入される。このことは、図２２に示されている。

図２２に示す他の２つの選択手段により、コピー形成部２２２が、非出力画像の空間的に隣接するタイルにこれらビデオを階層化する以外の方法で、ビデオ２１６_iをビデオストリーム２２０の非出力部分に階層化できることは明らかである。例えば、コピー形成部２２２は、代わりに、時間的な階層化を用いてよい。代替手段IIにしたがい、コピー形成部２２２は、例えば、Ａ１、Ｂ１、Ｃ１、Ａ２、Ｂ２、Ｃ３、Ａ３、Ｂ３、Ｃ３．．．の順で入力ビデオの画像をビデオストリーム２２０に階層化する。つまり、Ｎ個の入力ビデオの画像は、ビデオストリーム２２０の非出力画像のシーケンスにコピーされ、符号化順序で入力ビデオの次の画像を、ビデオストリーム２２０の非出力画像の後続のサブシーケンスにおいて分配する。サブシーケンスは、インターリーブされずに、コピー形成部２２２により埋められる。しかしながら、コピー形成部２２２は、入力ビデオの画像をビデオストリーム２２０の非出力画像に階層化する際に、各ビデオの画像間の時間予測の相互依存性が維持されるように注意する。コピー形成部２２２は、圧縮ドメイン又は符号化ドメイン内の非出力画像を埋めてよい。合成部は、１つのアクセスユニット又はピクチャカウントに属する非出力画像のシーケンス（「Ａ１、Ｂ１、Ｃ１」「Ａ２、Ｂ２、Ｃ２」「Ａ３、Ｂ３、Ｃ３」のいずれか）の間に、出力画像を挿入する。当該挿入及び生成は、代替手段Iと同様に行われる。つまり、挿入は、ＣＰ１，ＣＰ３，ＣＰ２の表示時間順序にしたがい出力画像がビデオストリーム２２０内で順序付けされるように行われる。さらに、各出力画像は、ビデオストリーム２２０内で、符号化順序にしたがって、非出力画像の各サブシーケンスに続く。当該各サブシーケンスから、各出力画像が、時間予測に関する限り、時間的に排他的に予測される。

代替手段IIIは、コピー形成部２２２が、入力ビデオ２１６_iをビデオストリーム２２０の異なる層Ｌ０〜Ｌ２に（合成部２２４が階層化された出力画像の間に挿入する、階層化された非出力画像に）階層化してもよいことを示す。例えば、層Ｌ０は複数のビデオのうちの１つに関連付けられ、層Ｌ１は複数のビデオのうちの上記１つのビデオとは別のビデオに関連付けられる。図２２におけるビデオストリーム２２０の最上層以外の層（層Ｌ０，Ｌ１）において、出力階層化画像は、時間予測（ゼロの動きベクトル）を用いて、関連する非出力階層化画像のコンテンツをコピーする。図２２におけるビデオストリーム２２０の最上層Ｌ２は、出力階層化画像内に、実際の合成されたビデオ構成（即ち、出力画像ＣＰ＃）を保持する。後者（実際の合成されたビデオ構成（即ち、出力画像ＣＰ＃））は、例えば、階層化出力画像の下層の時間的に予測又はコピーされたコンテンツの層間予測と、関連する階層化非出力画像からの時間予測又はコピーとの、両方を用いる合成部２２４によって、生成される。例えば、合成部２２４は、階層化出力画像の下層の画像からの時間予測又はコピーを用いて画像ＣＰ２内の合成ビデオコンテンツを生成する。これにより、画像Ｂ２，Ａ２のコンテンツを継承し、画像数「３」に関する階層化非出力画像の上層からの時間予測を用いて、画像Ｃ２のコンテンツを継承する。

本発明のいくつかの観点は装置として記載されているが、本発明の観点は、対応する方法として記載できることは明白である。ブロック又はデバイスが、方法に係るステップに対応する。同様に、方法のステップとして記載された態様を、対応する装置の対応するブロック、要素、特徴として表すこともできる。方法ステップの一部又は全部は、ハードウェア装置（例えば、マイクロプロセッサ、プログラマブルコンピュータ又は電子回路）によって（又は、ハードウェア装置を用いて）実行されてよい。最も重要な方法ステップのうちの１又は複数を、装置によって実行してよい。

実施の際の要求に応じて、本発明の実施形態はハードウェア内又はソフトウェア内で実施可能である。本発明は、各方法が実行されるようにプログラマブルコンピュータシステムと協働する又は協働可能な電子的に読み取り可能な制御信号が格納されたデジタル記憶媒体（フロッピーディスク（登録商標）、ＤＶＤ（登録商標）、ブルーレイ（登録商標）、ＣＤ（登録商標）、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ等）を用いて実行することができる。よって、デジタル記録媒体はコンピュータで読み取り可能であってもよい。

本発明によるいくつかの実施形態は、プログラマブルコンピュータシステムと協働して、本明細書に記載の方法の１つが実行されるように、電子的に読み取り可能な制御信号を有するデータキャリアを備える。

一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラムとして実施可能である。プログラムコードは、コンピュータプログラムがコンピュータ上で実行される際に、本明細書の方法の１つが実行されるように動作する。プログラムコードは、例えば、機械可読なキャリアに記録されてよい。

他の実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムがインストールされた、コンピュータを備えている。

換言すると、本発明の方法の一実施形態は、コンピュータ上で実行される際に、本明細書の方法の１つを実行するプログラムコードを含むコンピュータプログラムである。

本発明の方法の別の実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを記録したデータキャリア（デジタル記録媒体又はコンピュータ読み取り可能な媒体）である。データキャリア、デジタル記憶媒体又は記録された媒体は、典型的には、有形及び／又は非一過性である。

本発明の方法の別の実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを表すデータストリーム又は信号列である。上記データストリーム又は信号列は、例えば、インターネット等のデータ通信接続を通じて伝送可能に構成されてよい。

さらなる実施形態は、本明細書に記載の方法のうちの１つを実行するように構成され又は適用された、処理手段（例えばコンピュータ又はプログラマブル論理装置）を含む。

他の実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムがインストールされた、コンピュータを有する。

本発明のさらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを受信機に（例えば、電子的に又は光学的に）転送するように構成された、装置又はシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイス等であってよい。ビデオストリーミング装置又はシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを備えてよい。

実施形態によっては、プログラマブル論理装置（例えば、フィールドプログラマブルゲートアレイ）が、本明細書に記載の方法のいくつか又は全ての機能を実行するために用いられてよい。実施形態によっては、フィールドプログラマブルゲートアレイは、本明細書の方法の１つを実行するためのマイクロプロセッサと協働してよい。一般に、これらの方法は、好ましくは、任意のハードウェア装置によって実行される。

本明細書に記載の装置は、ハードウェア装置を用いて、又はコンピュータを用いて、又はハードウェア装置とコンピュータとの組み合わせを用いて、実装することができる。

本明細書に記載の方法は、ハードウェア装置を用いて、又はコンピュータを用いて、又はハードウェア装置とコンピュータとの組み合わせを用いて、実行されてよい。

上述した実施形態は、本発明の原理を説明するものにすぎない。本明細書に記載の構成の修正及び変形並びにその詳細は、当業者にとって明らかであることが理解されよう。したがって、本発明は、特許請求の範囲に記載された範囲のみに限定されず、本明細書の実施形態の説明に示された特定の構成には限定されない。

Claims

１又は複数のビデオ（１６）を含むビデオコンテンツ（１４）の符号化バージョン（１２）からビデオストリーム（２０）を生成するためのビデオストリーミング装置（１０）であって、前記符号化バージョン（１２）は前記ビデオ（１６）のそれぞれについて前記ビデオ（１６）が符号化された部分（１８）を有し、
前記符号化バージョン（１２）のコピーによって、階層データストリームにおける１又は複数の層のセット（２６）を形成する手段と、
前記セット（２６）の少なくとも一部からの層間予測によって、前記階層データストリームの所定層の画像の少なくとも一部における少なくとも１つの前記ビデオ（１６）の構成を合成する手段とによって、
前記ビデオストリーム（２０）を前記階層データストリームとして形成するように構成された、ビデオストリーミング装置（１０）。
前記符号化バージョン（１２）は、前記ビデオ毎の１つの独立したビデオデータストリームから構成される
請求項１に記載のビデオストリーミング装置（１０）。
前記ビデオ（１６）の少なくとも１つにおける前記部分が、階層化により前記ビデオ（１６）のそれぞれを符号化したものである
請求項１又は２に記載のビデオストリーミング装置（１０）。
前記符号化バージョン（１２）の一部のみから前記セット（２６）の各層を形成するように構成され、
前記一部が階層化により前記ビデオのそれぞれを符号化したものである場合は、前記一部における１つの層のみから前記セット（２６）の各層を形成するように構成された
請求項１〜３のいずれか１項に記載のビデオストリーミング装置（１０）。
前記符号化バージョン（１２）から動き補償パラメータ及び残差データをコピーするように構成された
請求項１〜４のいずれか１項に記載のビデオストリーミング装置（１０）。
前記階層データストリームにオフセットパラメータを付与するように構成され、
前記オフセットパラメータは、被参照部分に対する、前記所定層の前記画像の前記一部の位置のオフセットを指示するものであり、
前記被参照部分からの層間予測によって、前記所定層の前記画像の前記一部が合成される
請求項１〜５のいずれか１項に記載のビデオストリーミング装置（１０）。
前記セット（２６）の数が２よりも多く、
前記所定層が前記セット（２６）の１つであり、かつ、前記所定層の前記画像の前記一部が、前記符号化バージョン（１２）のコピーによって形成される前記所定層における前記画像の別の部分と空間的に近接するように構成された
請求項１〜６のいずれか１項に記載のビデオストリーミング装置（１０）。
前記所定層が、前記セット（２６）とは別の層であり、かつ、前記セット（２６）よりも上の層を形成するように構成された
請求項１〜６のいずれか１項に記載のビデオストリーミング装置（１０）。
前記ビデオがそれぞれビデオ会議の参加者の映像である
請求項１〜８のいずれか１項に記載のビデオストリーミング装置（１０）。
ビデオ（１１６₁−１１６_N）のコレクションを基準品質で符号化した第１部分（１１４₁）と前記ビデオ（１１６₁−１１６_N）を高品質で符号化した第２部分（１１４₂）とを有するビデオコンテンツ（１１４）の符号化バージョン（１１２）を受信する入力部（１０２）と、
前記高品質の前記ビデオ（１１６）のサブセット（１２１）の構成を示すビデオストリーム（１２０）を階層データストリームとして生成するように構成された生成部（１０４）と、を備え、
前記生成部（１０４）は、前記符号化バージョン（１１２）の前記第１部分（１１４₁）のコピーによって前記階層データストリームにおける１又は複数の基準層（Ｌ０）を形成し、かつ、前記符号化バージョン（１１２）の前記第２部分（１１４₂）における前記サブセット（１２１）に関する部分のコピーによって前記階層データストリームにおける１又は複数の上位層（Ｌ１）を形成するように構成され、
前記生成部（１０４）は、さらに、
前記上位層（Ｌ１）にコピーされる前記符号化バージョン（１１２）の前記第２部分の（１１４₂）の前記部分から構成される新たなビデオ（１１６）の参照画像が動き予測により参照する、前記上位層（Ｌ１）にコピーされる前記符号化バージョン（１１２）の前記第２部分（１１４₂）の前記部分から構成されない新たなビデオ（１１６）の被参照画像を、置換画像に置換する手段であって、前記置換画像を前記階層データストリームに挿入し、前記参照画像の時間予測をリダイレクトすることで前記置換画像を引用し、前記基準層の基準に基づいて層間予測により前記被参照画像の近似物を前記置換画像に適用する手段と、
前記上位層（Ｌ１）にコピーされる前記符号化バージョン（１１２）の前記第２部分（１１４₂）の前記部分から構成されない新たなビデオ（１１６）の被参照画像を時間予測により参照する、前記上位層（Ｌ１）にコピーされる前記符号化バージョン（１１２）の前記第２部分（１１４₂）の前記部分から構成される新たなビデオ（１１６）の部分を、前記基準層からの層間予測により当該部分の近似物に置換する手段とのいずれかにより、
所定時点における前記サブセット（１２１）の変化を支持することで、前記サブセット（１２１）が前記所定時点よりも前の前記サブセット（１２１）には含まれない１又は複数の新たなビデオ（１１６）を含むように構成された、ビデオストリーミング装置（１００）。
前記置換画像は、前記ビデオストリーム（１２０）が再生される際に出力されない非出力画像である
請求項１０に記載のビデオストリーミング装置（１００）。
前記被参照画像は、表示時間順序において最後の、前記所定時点よりも前の画像であり、
前記置換画像は、前記ビデオストリーム（１２０）が再生される際に出力される出力画像である
請求項１０に記載のビデオストリーミング装置（１００）。
前記生成部（１０４）は、
前記基準層の対応する部分からの層間予測により符号化された前記被参照画像のそれぞれを置換するように、
前記所定時点の前の表示時点に関する新たなビデオ（１１６）であって、前記符号化バージョン（１１２）にしたがって時間予測により参照される、前記上位層（Ｌ１）にコピーされる前記符号化バージョン（１１２）の前記第２部分（１１４₂）の前記部分から構成されない新たなビデオ（１１６）の、各画像に対し、
前記所定時点の後の表示時点に関する新たなビデオ（１１６）の任意の画像を用いて、前記置換画像を前記階層データストリームに挿入するように構成された
請求項１０に記載のビデオストリーミング装置（１００）。
前記生成部（１０４）は、前記階層データストリームにおいて、前記所定時点の前の表示時点に関する新たなビデオ（１１６）の任意の画像を前記符号化バージョン（１１２）にしたがった時間予測により参照する、前記新たなビデオの各部分を、前記基準層の対応する部分からの層間予測を用いた符号化によって、置換するように構成された
請求項１０に記載のビデオストリーミング装置（１００）。
前記符号化バージョン（１１２）の前記第２部分（１１４₂）は、ビデオ毎の１つのビデオデータストリームから構成される
請求項１０〜１４のいずれか１項に記載のビデオストリーミング装置（１００）。
前記符号化バージョン（１１２）の前記第１部分（１１４₁）は、前記ビデオ（１１６₁−１１６_N）の複数の画像を空間的に継ぎ合わせるように符号化したビデオデータストリームを含む
請求項１０〜１５のいずれか１項に記載のビデオストリーミング装置（１００）。
前記符号化バージョン（１１２）の前記第１部分（１１４₁）は、ビデオ毎の１つのビデオデータストリームから構成される
請求項１０〜１５のいずれか１項に記載のビデオストリーミング装置（１００）。
前記ビデオ（１１６₁−１１６_N）はそれぞれ、パノラマビューの各部分に関し、
前記生成部（１０４）は、前記サブセット（１２１）が、前記パノラマビューの互いに隣接する部分に関するビデオを含むことで、前記所定時点の前から後に表示される前記パノラマビューの連続する部分をカバーするように構成された
請求項１０〜１７のいずれか１項に記載のビデオストリーミング装置（１００）。
前記符号化バージョン（１１２）の前記第１部分（１１４₁）は、前記ビデオ（１１６₁−１１６_N）の複数の画像を空間的に継ぎ合わせるように符号化したものであり、前記パノラマビューを示すパノラマ画像を構成する
請求項１８に記載のビデオストリーミング装置（１００）。
前記符号化バージョン（１１２）の前記第１部分（１１４₁）は、前記サブセット（１２１）及び前記所定時点の前の新たなビデオ（１１６）を含む前記ビデオ（１１６₁−１１６_N）の時変集合を符号化したものであり、前記被参照画像の画像コンテンツを含む
請求項１８又は１９に記載のビデオストリーミング装置（１００）。
前記生成部（１０４）は、前記符号化バージョン（１１２）の前記第１部分（１１４₁）から、前記基準層に、動き補償予測パラメータ及び残差データをコピーするように構成された
請求項１０〜２０のいずれか１項に記載のビデオストリーミング装置（１００）。
前記生成部（１０４）は、前記符号化バージョン（１１２）の前記第２部分（１１４₂）の前記部分から、前記上位層（Ｌ１）に、動き補償予測パラメータ及び残差データをコピーするように構成された
請求項１０〜２１のいずれか１項に記載のビデオストリーミング装置（１００）。
前記生成部（１０４）は、前記上位層（Ｌ１）の数が１つになるように構成された
請求項１０〜２２のいずれか１項に記載のビデオストリーミング装置（１００）。
少なくとも１つのビデオが、前記所定時点の前及び後の前記サブセット（１２１）の構成にしたがって位置が変更されて、前記所定時点の前及び後の前記サブセット（１２１）に含まれ、
前記生成部（１０４）は、前記所定時点の後の表示時点に関する前記ビデオの参照画像が参照する、前記所定時点の前の表示時点に関する前記ビデオの被参照画像を、前記置換画像の領域、又は、前記ビデオの被参照画像からの時間予測により適用されかつ符号化された別の置換画像の領域に置換することで、前記ビデオの位置の変更を実現するように構成された
請求項１０〜２３のいずれか１項に記載のビデオストリーミング装置（１００）。
前記生成部（１０４）は、前記上位層（Ｌ１）の数が１よりも多くなるように構成され、
前記生成部（１０４）は、前記上位層（Ｌ１）における下側の層のセットをコピーすることで前記上位層（Ｌ１）におけるコピー上位層のセットを生成し、かつ、前記コピー上位層のセットからの層間予測により前記サブセット（１２１）の構成を合成することで前記階層データストリームの所定層を生成するように構成された
請求項１９〜２２のいずれか１項に記載のビデオストリーミング装置（１００）。
前記所定層は、前記コピー上位層のセットとは別の層であり、かつ、前記コピー上位層のセットよりも上側の層であるか、或いは、前記コピー上位層のセットの中で最も上の層である
請求項２５に記載のビデオストリーミング装置（１００）。
前記生成部（１０４）は、前記コピー上位層のそれぞれが前記サブセット（１２１）の１つのみと関連するように前記コピー上位層のセットを生成し、かつ、前記所定時点の前及び後で前記サブセット（１２１）のビデオの数が一定に維持されるように構成された
請求項２５又は２６に記載のビデオストリーミング装置（１００）。
前記生成部（１０４）は、前記所定時点の前及び後に前記サブセット（１２１）の構成要素となるビデオについて、前記サブセット（１２１）の任意のビデオと、前記コピー上位層のセットとの関連性を、前記所定時点の前及び後において維持するように構成された
請求項１０〜２７のいずれか１項に記載のビデオストリーミング装置（１００）。
前記生成部（１０４）は、
前記上位層（Ｌ１）にコピーされる前記符号化バージョン（１１２）の前記第２部分（１１４₂）の前記部分から構成されない新たなビデオ（１１６）の任意の被参照画像に、一連の時間予測により属する新たなビデオ（１１６）の、時間的に予測される画像について、
前記被参照画像の前記置換画像への置換、及び／又は、前記新たなビデオの前記部分の前記近似物への置換を、断続的に繰り返すように構成された
請求項１０〜２８のいずれか１項に記載のビデオストリーミング装置（１００）。
前記生成部（１０４）は、
前記上位層（Ｌ１）にコピーされる前記符号化バージョン（１１２）の前記第２部分の（１１４₂）の前記部分から構成される新たなビデオ（１１６）であって、前記上位層（Ｌ１）にコピーされる前記符号化バージョン（１１２）の前記第２部分（１１４₂）の前記部分から構成されない新たなビデオ（１１６）の任意の被参照画像に前記一連の時間予測により属する新たなビデオ（１１６）の、１又は複数の被参照画像に対し、前記階層データストリームに非出力画像を挿入すること、及び、
前記新たなビデオ（１１６）の複数の画像による任意の時間予測を前記１又は複数の被参照画像にリダイレクトすることで前記非出力画像を参照し、前記基準層の基準に基づいて層間予測により前記１又は複数の被参照画像の近似物を前記非出力画像に適用することにより、
前記被参照画像の前記置換画像への置換を断続的に繰り返すように構成された
請求項２９に記載のビデオストリーミング装置（１００）。
前記生成部（１０４）は、
前記上位層（Ｌ１）にコピーされる前記符号化バージョン（１１２）の前記第２部分（１１４₂）の前記部分から構成されない新たなビデオ（１１６）の被参照画像を前記一連の時間予測により参照する、前記上位層（Ｌ１）にコピーされる前記符号化バージョン（１１２）の前記第２部分（１１４₂）の前記部分から構成される新たなビデオ（１１６）の別の部分を、前記基準層からの層間予測により当該部分の近似物に置換することにより、
前記新たなビデオの前記部分の前記近似物への置換を断続的に繰り返すように構成された
請求項２９に記載のビデオストリーミング装置（１００）。
前記符号化バージョン（１１２）の前記第２部分（１１４₂）は、画像の符号化順序が表示時間順序と異なるように、前記ビデオを符号化したものである
請求項１０〜３１のいずれか１項に記載のビデオストリーミング装置（１００）。
ビデオコンテンツ（２１４）の符号化バージョン（２１２）からビデオストリーム（２２０）を生成するためのビデオストリーミング装置（２００）であって、前記符号化バージョン（２１２）は、少なくとも１つのビデオ（２１６）のそれぞれについて、画像の符号化順序が表示時間順序と異なるように前記ビデオ（２１６）が時間予測により符号化された部分（２１８）を有し、
前記符号化バージョン（２１２）のコピーによって、前記ビデオストリーム（２２０）の非出力部分を形成する手段と、
時間予測による前記非出力部分のコピーによって出力画像を前記ビデオストリーム（２２０）に挿入することで、前記ビデオ（２１６）の構成を合成する手段とによって、
前記ビデオストリーム（２２０）を形成するように構成され、
前記出力画像が前記ビデオストリーム（２２０）において表示時間順序で配列されるよう、前記出力画像を前記ビデオストリーム（２２０）に挿入するように構成された、ビデオストリーミング装置（２００）。
前記ビデオ（２１６）の数が１よりも多く、
前記符号化バージョン（２１２）における複数の前記部分（２１８）を、前記ビデオストリーム（２２０）における複数の非出力画像の空間タイルに、階層化するように構成された
請求項３３に記載のビデオストリーミング装置（２００）。
前記ビデオ（２１６）の数が１よりも多く、
前記符号化バージョン（２１２）における複数の前記部分（２１８）を、前記ビデオストリーム（２２０）における複数の非出力画像の層に、階層化するように構成された
請求項３３に記載のビデオストリーミング装置（２００）。
前記ビデオ（２１６）の数が１よりも多く、
前記符号化バージョン（２１２）における複数の前記部分（２１８）を、前記ビデオストリーム（２２０）における互いに異なる複数の非出力画像に、時間的に階層化するように構成された
請求項３３に記載のビデオストリーミング装置（２００）。
前記符号化順序と前記表示時間順序との違いが、前記符号化バージョン（２１２）における前記部分の双予測画像又はオープンＧＯＰ構造に起因する
請求項３３〜３６のいずれか１項に記載のビデオストリーミング装置（２００）。
圧縮ドメイン又は符号化ドメインでの前記符号化バージョン（２１２）のコピーによって、前記非出力部分を形成するように構成された
請求項３３〜３７のいずれか１項に記載のビデオストリーミング装置（２００）。
１又は複数のビデオ（１６）を含むビデオコンテンツ（１４）の符号化バージョン（１２）から生成されたビデオストリーム（２０）であって、前記符号化バージョン（１２）は前記ビデオ（１６）のそれぞれについて前記ビデオ（１６）が符号化された部分（１８）を有し、
前記符号化バージョン（１２）のコピーによって形成された１又は複数の層のセット（２６）と、
前記セット（２６）の少なくとも一部からの層間予測によって前記ビデオ（１６）の構成が合成された部分を有する所定層と、
を備えた階層データストリームであるビデオストリーム（２０）。
ビデオ（１１６₁−１１６_N）のコレクションを基準品質で符号化した第１部分（１１４₁）と前記ビデオ（１１６₁−１１６_N）を高品質で符号化した第２部分（１１４₂）とを有するビデオコンテンツ（１１４）の符号化バージョン（１１２）から生成されたビデオストリーム（１２０）であって、
階層データストリームであり、
前記高品質の前記ビデオ（１１６）のサブセット（１２１）の構成を示し、
前記符号化バージョン（１１２）の前記第１部分（１１４₁）のコピーによって形成された１又は複数の基準層（Ｌ０）と、
前記符号化バージョン（１１２）の前記第２部分（１１４₂）における前記サブセット（１２１）に関する部分のコピーによって形成された１又は複数の上位層（Ｌ１）とを備え、
前記上位層（Ｌ１）にコピーされる前記符号化バージョン（１１２）の前記第２部分の（１１４₂）の前記部分から構成される新たなビデオ（１１６）の参照画像が動き予測により参照する、前記上位層（Ｌ１）にコピーされる前記符号化バージョン（１１２）の前記第２部分（１１４₂）の前記部分から構成されない新たなビデオ（１１６）の被参照画像が、置換画像に置換され、前記参照画像の時間予測がリダイレクトされることで前記置換画像が引用され、前記基準層の基準に基づいて層間予測により前記被参照画像の近似物が前記置換画像に適用されることと、
前記上位層（Ｌ１）にコピーされる前記符号化バージョン（１１２）の前記第２部分（１１４₂）の前記部分から構成されない新たなビデオ（１１６）の被参照画像を時間予測により参照する、前記上位層（Ｌ１）にコピーされる前記符号化バージョン（１１２）の前記第２部分（１１４₂）の前記部分から構成される新たなビデオ（１１６）の部分が、前記基準層からの層間予測により当該部分の近似物に置換されることとのいずれかと共に、
前記サブセット（１２１）が所定時点よりも前の前記サブセット（１２１）には含まれない１又は複数の新たなビデオ（１１６）を含むような、前記所定時点における前記サブセット（１２１）の変化が生じる、ビデオストリーム（１２０）。
前記置換画像は、前記ビデオストリーム（１２０）が再生される際に出力されない非出力画像である
請求項４０に記載のビデオストリーム（１２０）。
前記被参照画像は、表示時間順序において最後の、前記所定時点よりも前の画像であり、
前記置換画像は、前記ビデオストリーム（１２０）が再生される際に出力される出力画像である
請求項４０に記載のビデオストリーム（１２０）。
前記ビデオ（１１６₁−１１６_N）はそれぞれ、パノラマビューの各部分に関し、
前記サブセット（１２１）が、前記パノラマビューの互いに隣接する部分に関するビデオを含むことで、前記所定時点の前から後に表示される前記パノラマビューの連続する部分をカバーする
請求項４０〜４２のいずれか１項に記載のビデオストリーム（１２０）。
前記符号化バージョン（１１２）の前記第１部分（１１４₁）は、前記ビデオ（１１６₁−１１６_N）の複数の画像を空間的に継ぎ合わせるように符号化したものであり、前記パノラマビューを示すパノラマ画像を構成する
請求項４３に記載のビデオストリーム（１２０）。
前記符号化バージョン（１１２）の前記第１部分（１１４₁）は、前記サブセット（１２１）及び前記所定時点の前の新たなビデオ（１１６）を含む前記ビデオ（１１６₁−１１６_N）の時変集合を符号化したものであり、前記被参照画像の画像コンテンツを含む
請求項４３又は４４に記載のビデオストリーム（１２０）。
前記パノラマビューの前記連続する部分の位置を示すシグナリングをさらに備えた
請求項４３〜４５のいずれか１項に記載のビデオストリーム（１２０）。
前記シグナリングは、前記基準層からの層間予測を制御するオフセットパラメータと共に、前記階層データストリームに含まれる
請求項４６に記載のビデオストリーム（１２０）。
ビデオコンテンツ（２１４）の符号化バージョン（２１２）から生成されたビデオストリーム（２２０）であって、前記符号化バージョン（２１２）は、少なくとも１つのビデオ（２１６）のそれぞれについて、画像の符号化順序が表示時間順序と異なるように前記ビデオ（２１６）が時間予測により符号化された部分（２１８）を有し、
前記符号化バージョン（２１２）のコピーによって形成された前記ビデオストリーム（２２０）の非出力部分と、
前記ビデオ（２１６）の構成を合成するように、前記ビデオストリームに挿入された、時間予測により前記非出力部分をコピーする出力画像とを備え、
前記出力画像が表示時間順序で配列されるように前記ビデオストリーム（２２０）に挿入された、ビデオストリーム（２２０）。
複数の層と、
ＴＭＶＰ（temporal motion vector prediction）の最も上の層に使用しない、前記複数の層の画像、又は、ＴＭＶＰのどの層にも使用しない、前記複数の層の画像を示す、第１シグナリングと、
を備えたビデオストリーム。
動き補償時間予測を用いずに符号化された、前記複数の層の画像を示す、第２シグナリングをさらに備えた
請求項４９に記載のビデオストリーム。
ＴＭＶＰの最も上の層に使用しないものとして示されない前記複数の層の画像のそれぞれに対して、前記複数の層の画像において符号化順序で判断された、ＴＭＶＰの最も上の層に使用せずに符号化された前記ビデオストリームの次の画像がどの程度離れているかを示す、第３シグナリングをさらに備えた
請求項４９又は５０に記載のビデオストリーム。
請求項４０〜４８のいずれか１項にしたがって形成された、請求項４９〜５１のいずれか１項に記載のビデオストリーム。
１又は複数のビデオ（１６）を含むビデオコンテンツ（１４）の符号化バージョン（１２）からビデオストリーム（２０）を生成するためのビデオストリーミング方法であって、前記符号化バージョン（１２）は前記ビデオ（１６）のそれぞれについて前記ビデオ（１６）が符号化された部分（１８）を有し、
前記符号化バージョン（１２）のコピーによって、階層データストリームにおける１又は複数の層のセット（２６）を形成する形成ステップと、
前記セット（２６）の少なくとも一部からの層間予測によって、前記階層データストリームの所定層の画像の少なくとも一部における少なくとも１つの前記ビデオ（１６）の構成を合成する合成ステップとによって、
前記ビデオストリーム（２０）を前記階層データストリームとして形成するビデオストリーミング方法。
ビデオ（１１６₁−１１６_N）のコレクションを基準品質で符号化した第１部分（１１４₁）と前記ビデオ（１１６₁−１１６_N）を高品質で符号化した第２部分（１１４₂）とを有するビデオコンテンツ（１１４）の符号化バージョン（１１２）を受信する受信ステップと、
前記高品質の前記ビデオ（１１６）のサブセット（１２１）の構成を示すビデオストリーム（１２０）を階層データストリームとして生成する生成ステップと、を備え、
前記生成ステップにおいて、前記符号化バージョン（１１２）の前記第１部分（１１４₁）のコピーによって前記階層データストリームにおける１又は複数の基準層（Ｌ０）を形成し、かつ、前記符号化バージョン（１１２）の前記第２部分（１１４₂）における前記サブセット（１２１）に関する部分のコピーによって前記階層データストリームにおける１又は複数の上位層（Ｌ１）を形成し、
前記上位層（Ｌ１）にコピーされる前記符号化バージョン（１１２）の前記第２部分の（１１４₂）の前記部分から構成される新たなビデオ（１１６）の参照画像が動き予測により参照する、前記上位層（Ｌ１）にコピーされる前記符号化バージョン（１１２）の前記第２部分（１１４₂）の前記部分から構成されない新たなビデオ（１１６）の被参照画像を、置換画像に置換するステップであって、前記置換画像を前記階層データストリームに挿入し、前記参照画像の時間予測をリダイレクトすることで前記置換画像を引用し、前記基準層の基準に基づいて層間予測により前記被参照画像の近似物を前記置換画像に適用する適用ステップと、
前記上位層（Ｌ１）にコピーされる前記符号化バージョン（１１２）の前記第２部分（１１４₂）の前記部分から構成されない新たなビデオ（１１６）の被参照画像を時間予測により参照する、前記上位層（Ｌ１）にコピーされる前記符号化バージョン（１１２）の前記第２部分（１１４₂）の前記部分から構成される新たなビデオ（１１６）の部分を、前記基準層からの層間予測により当該部分の近似物に置換するステップとのいずれかにより、
前記サブセット（１２１）が所定時点よりも前の前記サブセット（１２１）には含まれない１又は複数の新たなビデオ（１１６）を含むような、前記所定時点における前記サブセット（１２１）の変化が生じる、ビデオストリーミング方法。
ビデオコンテンツ（２１４）の符号化バージョン（２１２）からビデオストリーム（２２０）を生成するためのビデオストリーミング方法であって、前記符号化バージョン（２１２）は、少なくとも１つのビデオ（２１６）のそれぞれについて、画像の符号化順序が表示時間順序と異なるように前記ビデオ（２１６）が時間予測により符号化された部分（２１８）を有し、
前記符号化バージョン（２１２）のコピーによって、前記ビデオストリーム（２２０）の非出力部分を形成する形成ステップと、
時間予測により前記非出力部分をコピーする出力画像を前記ビデオストリーム（２２０）に挿入することで、前記ビデオ（１６）の構成を合成する合成ステップとによって、
前記ビデオストリーム（２２０）を形成し、
前記出力画像が前記ビデオストリーム（２２０）において表示時間順序で配列されるよう、前記出力画像を前記ビデオストリーム（２２０）に挿入する、ビデオストリーミング方法。
コンピュータ上で動作する際に、請求項５３〜５５のいずれか１項に記載のビデオストリーミング方法を実行するためのプログラムコードを有する、コンピュータプログラム。