JP2016518769A

JP2016518769A - Ｓｈｖｃのための複数のベースレイヤ参照ピクチャ

Info

Publication number: JP2016518769A
Application number: JP2016506616A
Authority: JP
Inventors: プ、ウェイ; チェン、ジャンレ; リ、シャン; カークゼウィックズ、マルタ; セレジン、バディム
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-04-04
Filing date: 2014-04-03
Publication date: 2016-06-23
Anticipated expiration: 2034-04-03
Also published as: CN105052139A; US20140301457A1; CN105052139B; WO2014165671A3; KR20150138308A; JP6352391B2; US9648353B2; EP2982109A2; WO2014165671A2

Abstract

ビデオデータをコーディングする方法は、参照レイヤ、エンハンスメントレイヤ、またはそれらの両方と関連したビデオ情報を受信することと、複数のレイヤ間フィルタと１つまたは複数の参照レイヤのピクチャとを使用して、複数のレイヤ間参照ピクチャを生成することと、を含み得る。生成される複数のレイヤ間参照ピクチャは、参照ピクチャリストに挿入され得る。エンハンスメントレイヤ内の現在のピクチャは、参照ピクチャリストを使用してコーディングされ得る。レイヤ間フィルタは、デフォルトのレイヤ間フィルタ、またはシーケンスパラメータセット、ビデオパラメータセット、もしくはスライスヘッダの中でシグナリングされる代替のレイヤ間フィルタを備え得る。

Description

[0001]本開示は、一般に、ビデオコーディングおよび圧縮に関し、特に、スケーラブルＨＥＶＣ（ＳＨＶＣ）と呼ばれることがある、高効率ビデオコーディング（ＨＥＶＣ）のためのＳＶＣを含む、スケーラブルビデオコーディング（ＳＶＣ）に関する。

[0002]デジタルビデオ機能は、デジタルテレビジョン、デジタルダイレクトブロードキャストシステム、ワイヤレスブロードキャストシステム、携帯情報端末（ＰＤＡ）、ラップトップまたはデスクトップコンピュータ、タブレットコンピュータ、電子ブックリーダ、デジタルカメラ、デジタル記録デバイス、デジタルメディアプレーヤ、ビデオゲームデバイス、ビデオゲームコンソール、携帯電話または衛星無線電話、いわゆる「スマートフォン」、ビデオ遠隔会議デバイス、ビデオストリーミングデバイスなどを含む、広範囲にわたるデバイスに組み込まれ得る。デジタルビデオデバイスは、ＭＰＥＧ−２、ＭＰＥＧ−４、ＩＴＵ−ＴＨ．２６３、ＩＴＵ−ＴＨ．２６４／ＭＰＥＧ−４、Ｐａｒｔ１０、アドバンストビデオコーディング（ＡＶＣ）、現在開発中の高効率ビデオコーディング（ＨＥＶＣ）規格によって定義された規格、およびそのような規格の拡張に記載されているビデオコーディング技法など、ビデオコーディング技法を実装する。ビデオデバイスは、そのようなビデオコーディング技法を実装することによって、デジタルビデオ情報を送信、受信、符号化、復号、および／または記憶することができる。

[0003]ビデオコーディング技法は、ビデオシーケンスにおいて固有の冗長性を低減または除去するために、空間的（イントラピクチャ）予測および／または時間的（インターピクチャ）予測を含む。ブロックベースのビデオコーディングでは、ビデオスライス（たとえば、ビデオフレームまたはビデオフレームの一部分）は、ツリーブロック、コーディングユニット（ＣＵ）、および／またはコーディングノードと呼ばれることもある、ビデオブロックに区分され得る。ピクチャのイントラコード化（Ｉ）スライス中のビデオブロックは、同じピクチャ中の隣接ブロック中の参照サンプルに対する空間的予測を使用して符号化される。ピクチャのインターコード化（ＰまたはＢ）スライス中のビデオブロックは、同じピクチャ中の隣接ブロック中の参照サンプルに対する空間的予測、または他の参照ピクチャ中の参照サンプルに対する時間的予測を使用し得る。ピクチャはフレームと呼ばれる場合があり、参照ピクチャは参照フレームと呼ばれる場合がある。

[0004]空間的または時間的予測は、コーディングされるべきブロックに関する予測ブロックを生じる。残差データは、コーディングされるべき元のブロックと予測ブロックとの間のピクセル差分を表す。インターコード化ブロックは、予測ブロックを形成する参照サンプルのブロックを指す動きベクトル、およびコーディングされたブロックと予測ブロックとの間の差分を示す残差データに従って符号化される。イントラコード化ブロックは、イントラコーディングモードおよび残差データに従って符号化される。さらなる圧縮のために、残差データは、ピクセル領域から変換領域に変換されて、残差変換係数が得られ得、その残差変換係数は、量子化され得る。量子化変換係数は、最初は２次元アレイで構成され、変換係数の１次元ベクトルを生成するために走査され得、なお一層の圧縮を達成するために、エントロピーコーディングが適用され得る。

[0005]いくつかの実施形態によれば、ビデオ情報をコーディングするように構成される装置は、プロセッサとメモリとを含む。メモリは、参照レイヤ、エンハンスメントレイヤ、またはそれらの両方と関連したビデオ情報を記憶するように構成される。プロセッサは、メモリと通信する。プロセッサは、複数のレイヤ間フィルタと１つまたは複数の参照レイヤのピクチャとを使用して、複数のレイヤ間参照ピクチャを生成するように構成される。

[0006]いくつかの実施形態では、プロセッサは、複数のレイヤ間参照ピクチャを参照ピクチャリストに挿入するように、さらに構成される。プロセッサは、参照ピクチャリストを使用して、エンハンスメントレイヤ内の現在のピクチャをコーディングするように、さらに構成され得る。

[0007]いくつかの実施形態では、レイヤ間フィルタは、アップサンプリングフィルタを備える。レイヤ間フィルタのうちのいくつかまたはすべては、事前定義され得る。レイヤ間フィルタは、シーケンスパラメータセットまたはビデオパラメータセットの中でシグナリングされ得る。レイヤ間フィルタは、スライスヘッダの中でシグナリングされ得る。

[0008]いくつかの実施形態では、レイヤ間フィルタは、少なくとも１つのデフォルトのレイヤ間フィルタと、シーケンスパラメータセット、ビデオパラメータセット、またはスライスヘッダの中でシグナリングされる少なくとも１つの代替のレイヤ間フィルタとを備える。プロセッサは、複数のレイヤ間参照ピクチャのうちのせいぜい１つが、使用されるために利用できるという制限を適用するように、さらに構成され得る。

[0009]いくつかの実施形態では、レイヤ間フィルタは、１つまたは複数のデフォルトのレイヤ間フィルタと、１つまたは複数の代替のレイヤ間フィルタとを備える。プロセッサは、１つまたは複数の代替のレイヤ間フィルタを使用して生成されるレイヤ間参照ピクチャをレイヤ間参照ピクチャセットに加える前に、１つまたは複数のデフォルトのレイヤ間フィルタを使用して生成されるレイヤ間参照ピクチャをレイヤ間参照ピクチャセットに加えるように、さらに構成され得る。あるいは、プロセッサは、１つまたは複数の代替のレイヤ間フィルタを使用して生成されるレイヤ間参照ピクチャをレイヤ間参照ピクチャセットに加えた後、１つまたは複数のデフォルトのレイヤ間フィルタを使用して生成されるレイヤ間参照ピクチャをレイヤ間参照ピクチャセットに加えるように、さらに構成され得る。

[0010]いくつかの実施形態では、装置は、エンコーダを備え、プロセッサは、レイヤ間フィルタと関連したシンタックス要素を生成するように、さらに構成される。いくつかの実施形態では、装置は、デコーダを備え、プロセッサは、レイヤ間フィルタと関連したシンタックス要素を処理するように、さらに構成される。装置は、メモリとプロセッサとを備える、デジタルテレビジョン、デジタルダイレクトブロードキャストシステム、ワイヤレスブロードキャストシステム、携帯情報端末（ＰＤＡ）、ラップトップコンピュータまたはデスクトップコンピュータ、デジタルカメラ、デジタル記録デバイス、デジタルメディアプレーヤ、ビデオゲームデバイス、ビデオゲームコンソール、携帯電話または衛星無線電話、およびビデオ遠隔会議デバイスのうちの少なくとも１つを備え得る。

[0011]別の実施形態では、ビデオ情報をコーディングする方法は、参照レイヤ、エンハンスメントレイヤ、またはそれらの両方と関連したビデオ情報を受信することと、複数のレイヤ間フィルタと１つまたは複数の参照レイヤのピクチャとを使用して、複数のレイヤ間参照ピクチャを生成することと、を含む。

[0012]別の実施形態では、ビデオコーディング装置は、参照レイヤ、エンハンスメントレイヤ、またはそれらの両方と関連したビデオ情報を受信するための手段と、複数のレイヤ間フィルタと１つまたは複数の参照レイヤのピクチャとを使用して、複数のレイヤ間参照ピクチャを生成するための手段と、を含む。

[0013]別の実施形態では、非一時的なコンピュータ可読媒体は、実行されるとき、装置に、参照レイヤ、エンハンスメントレイヤ、またはそれらの両方と関連したビデオ情報を受信することと、複数のレイヤ間フィルタと１つまたは複数の参照レイヤのピクチャとを使用して、複数のレイヤ間参照ピクチャを生成することと、を行わせるコードをそこに記憶している。

[0014]本開示で説明する態様による技法を利用し得る例示的なビデオ符号化および復号システムを示すブロック図。 [0015]本開示で説明する態様による技法を実装し得るビデオエンコーダの例を示すブロック図。 [0016]本開示で説明する態様による技法を実装し得るビデオデコーダの例を示すブロック図。 [0017]本開示の態様による３つの異なる寸法でのスケーラビリティを示すブロック図。 [0018]本開示の態様によるスケーラブルビデオコーディング（ＳＶＣ）のビットストリームの例示的な構造を示すブロック図。 [0019]本開示の態様によるビットストリーム中の例示的なＳＶＣアクセスユニットを示すブロック図。 [0020]一実施形態による参照レイヤのピクチャをアップサンプルすることの例を示す概念図。 [0021]一実施形態によるビデオデータをコーディングするための例示的な方法を示す図。

[0022]本開示に記載される技法は、一般に、スケーラブルビデオコーディング（ＳＶＣ）および／またはマルチビュー／３次元ビデオコーディングに関する。たとえば、技法は、高効率ビデオコーディング（ＨＥＶＣ）のスケーラブルビデオコーディング（ＳＶＣ）の拡張に関してよく、それを伴って、またはそれの中で使用されてもよい。ＳＶＣでは、ビデオ情報の複数のレイヤが存在し得る。ビデオ情報の最下部のレベルすなわち最も低いレベルのレイヤは、ベースレイヤ（ＢＬ）または参照レイヤ（ＲＬ）として働き得、ビデオ情報の最上部のレベルすなわち最も高いレベルのレイヤは、エンハンストレイヤ（ＥＬ）として働き得る。「エンハンストレイヤ」は、「エンハンスメントレイヤ」と同義であると考えられ得るし、これらの用語は互換的に使用される場合がある。ＢＬとＥＬとの間のレイヤは、ＥＬおよび／またはＲＬとして働き得る。たとえば、所与のレイヤは、ベースレイヤまたは間に入る任意のエンハンスメントレイヤなどの、所与のレイヤよりも下の（たとえば、先行する）レイヤのためのＥＬであり得る。さらに、所与のレイヤは、また、所与のレイヤよりも上の（たとえば、後続の）エンハンスメントレイヤのための参照レイヤとして働き得る。ベースレイヤ（たとえば、最も低いレイヤ）とトップレイヤ（すなわち、最も高いレイヤ）との間にある任意の所与のレイヤは、所与のレイヤに比べて高いレイヤによるレイヤ間予測のための参照として使用され得、所与のレイヤよりも低いレイヤをレイヤ間予測のための参照として使用して、決定され得る。

[0023]例示のみを目的として、本開示に記載される技法は、２つのレイヤ（たとえば、参照レイヤのような低いレベルのレイヤ、およびエンハンストレイヤのような高いレベルのレイヤ）のみを含む例とともに説明される。本開示に記載される例は、複数の参照レイヤおよびエンハンスメントレイヤを伴う例に、同様に拡張され得ることを理解されたい。加えて、説明を簡単にするため、以下の開示は、主に「ピクチャ」という用語を使用する。しかしながら、これらの用語は、限定的であることを意味しない。たとえば、以下に記載される技法は、ブロック（たとえば、ＣＵ、ＰＵ、ＴＵ、マクロブロックなど）、スライス、フレーム、ブロックなどのような、ビデオユニットと関連した他の用語とともに使用され得る。

[0024]ＳＨＶＣでは、ベースレイヤピクチャなどの参照レイヤのピクチャは、フィルタされ得、参照ピクチャリストに挿入され得る。たとえば、アップサンプリングフィルタは、レイヤ間参照ピクチャを生成するために、参照レイヤのピクチャに適用され得る。限られた計算リソースの結果、アップサンプリングフィルタのいくつかのフィルタタップは限られる。たとえば、実際には、アップサンプリングフィルタに設けられるフィルタタップの数は、３と同じくらい少ない場合があり、通常は８を越えない。

[0025]参照レイヤのピクチャとエンハンスメントレイヤのピクチャとの間の周波数特性に応じて、限られた数のフィルタタップを有する単一のフィルタは、参照レイヤとエンハンスメントレイヤのピクチャとの間の差を、すべての周波数において正確に明らかにする（account for）ことができない場合がある。たとえば、滑らかなピクチャは、低い周波数に集中される場合があり、一方、鋭いエッジを有するピクチャは、より高い周波数成分を有し得る。しかしながら、低い周波数と高い周波数の両方の成分を有するピクチャにとって、限られた数のフィルタタップを有する単一のフィルタは、低い周波数と高い周波数の両方に対して十分な周波数応答を提供することができない場合がある。

[0026]計算の効率を改善するために、いくつかの実施形態では、参照レイヤ、エンハンスメントレイヤ、またはそれらの両方と関連したビデオ情報を受信するように構成されるビデオコーダまたはデコーダは、複数のレイヤ間フィルタと１つまたは複数の参照レイヤのピクチャとを使用して、複数のレイヤ間参照ピクチャを生成するように構成され得る。たとえば、少なくとも２つのレイヤ間フィルタは、少なくとも２つのレイヤ間参照ピクチャを生成するために、参照レイヤのピクチャに適用され得る。詳細には、少なくとも２つのレイヤ間フィルタのうちの１つは、低い周波数に対して十分な周波数応答を提供するように設計されたアップサンプリングフィルタであり得、一方、少なくとも２つのレイヤ間フィルタのうちの別のものは、高い周波数に対して十分な周波数応答を提供するように設計されたアップサンプリングフィルタであり得る。少なくとも２つのレイヤ間フィルタの各々は、限られた数のフィルタタップで設計され得る。したがって、少なくとも２つのレイヤ間参照ピクチャは、すべての周波数にわたって十分な周波数応答を一緒に提供す、少なくとも２つのレイヤ間フィルタの各々での限られた数のフィルタタップは、計算効率を改善する。

ビデオコーディング規格
[0027]本明細書に記載されるいくつかの実施形態は、ＨＥＶＣ（高効率ビデオコーディング）などの改良型のビデオコーデックのコンテキストにおいて、スケーラブルビデオコーディングのためのレイヤ間予測に関する。より詳細には、本開示は、ＨＥＶＣのスケーラブルビデオコーディング（ＳＶＣ）拡張におけるレイヤ間予測の実行を改善するためのシステムおよび方法に関する。以下の説明では、いくつかの実施形態に関係するＨ．２６４／ＡＶＣ技法が記載され、ＨＥＶＣ規格および関係する技法も説明される。ＨＥＶＣ規格および／またはＨ．２６４規格のコンテキストにおいて、いくつかの実施形態が本明細書に記載されるが、本明細書で開示されるシステムおよび方法が任意の適切なビデオコーディング規格に適用可能であり得ることを、当業者なら諒解されよう。たとえば、本明細書で開示される実施形態は、以下の規格、すなわち、ＩＴＵ−ＴＨ．２６１、ＩＳＯ／ＩＥＣＭＰＥＧ−１ビジュアル、ＩＴＵ−ＴＨ．２６２もしくはＩＳＯ／ＩＥＣＭＰＥＧ−２ビジュアル、ＩＴＵ−ＴＨ．２６３、ＩＳＯ／ＩＥＣＭＰＥＧ−４ビジュアル、およびそのスケーラブルビデオコーディング（ＳＶＣ）およびマルチビュービデオコーディング（ＭＶＣ）拡張を含むＩＴＵ−ＴＨ．２６４（ＩＳＯ／ＩＥＣＭＰＥＧ−４ＡＶＣとしても知られる）のうちの、１つまたは複数に適用可能であり得る。

[0028]スケーラブルビデオコーディング（ＳＶＣ）は、（信号対雑音比（ＳＮＲ）とも呼ばれる）品質スケーラビリティ、空間的スケーラビリティ、および／または時間的スケーラビリティを提供するために使用され得る。たとえば、一実施形態では、参照レイヤ（たとえば、基本レイヤ）は、第１の品質レベルでビデオを表示するのに十分なビデオ情報を含み、エンハンスメントレイヤは、参照レイヤと比べてさらなるビデオ情報を含み、その結果、参照レイヤおよびエンハンスメントレイヤは一緒に、第１のレベルよりも高い第２の品質レベル（たとえば、少ない雑音、大きい解像度、より良いフレームレートなど）でビデオを表示するのに十分なビデオ情報を含む。エンハンストレイヤは、ベースレイヤと異なる空間解像度を有し得る。たとえば、ＥＬとＢＬとの間の空間的なアスペクト比は（spatial aspect ratio）、１．０、１．５、２．０または他の異なる比であり得る。言い換えれば、ＥＬの空間的なアスペクトは、ＢＬの空間的なアスペクトの１．０、１．５、または２．０倍に等しくてよい。いくつかの例では、ＥＬのスケーリングファクタは、ＢＬよりも大きくてよい。たとえば、ＥＬでのピクチャのサイズは、ＢＬでのピクチャのサイズよりも大きくてよい。このようにして、限定でないけれども、ＥＬの空間解像度は、ＢＬの空間解像度よりも大きいことが起こり得る。

[0029]Ｈ．２６４用のＳＶＣ拡張では、現在のブロックの予測は、ＳＶＣ用に提供された様々なレイヤを使用して実施され得る。そのような予測は、レイヤ間予測と呼ばれる場合がある。レイヤ間予測方法は、レイヤ間の冗長性を低減するためにＳＶＣ内で利用され得る。レイヤ間予測のいくつかの例は、レイヤ間イントラ予測と、レイヤ間動き予測と、レイヤ間モード予測と、レイヤ間残差予測とを含み得る。レイヤ間イントラ予測は、エンハンスメントレイヤでの現在のブロックを予測するために、ベースレイヤで並べられた（collocated）ブロックの再構成を使用する。レイヤ間動き予測は、エンハンスメントレイヤでの動きを予測するために、ベースレイヤの動きを使用する。レイヤ間モード予測は、ベースレイヤでのモードに基づいて、エンハンスメントレイヤでのモードを予測する。レイヤ間残差予測は、エンハンスメントレイヤの残差を予測するために、ベースレイヤの残差を使用する。

[0030]新規のシステム、装置、および方法の様々な態様は、これ以降、添付図面を参照して、より十分に説明される。しかしながら、本開示は、多くの異なる形態で実施可能であり、本開示の全体を通して示される任意の特定の構造または機能に限定されるものと解釈されるべきでない。むしろ、本開示が、入念で完全であり、本開示の範囲を当業者に十分に伝達するように、これらの態様が提供される。本明細書での教示に基づいて、当業者は、本発明の任意の他の態様から独立して実施されるか、または、本発明の任意の他の態様と組み合わされて実施されるかにかかわらず、本開示の範囲が、本明細書で開示される新規のシステム、装置、および方法の任意の態様を包含することを意図することを諒解するべきである。たとえば、本明細書で述べられる任意の数の態様を使用して装置が実施されてよく、または方法が実施されてもよい。加えて、本発明の範囲は、本明細書で述べられる本発明の様々な態様に加えて、またはそれ以外の、他の構造、機能性、または構造および機能性を使用して実施されるそのような装置または方法を包含することを意図する。本明細書で開示する任意の態様は、特許請求の範囲の１つまたは複数の要素により実施されてもよいことを理解されたい。

[0031]特定の態様が本明細書で説明されるけれども、これらの態様の多くの変形および置換は、本開示の範囲内に属する。好ましい態様のいくつかの利益および利点が述べられるけれども、本開示の範囲は、特定の利点、使用、または目的に限定されることを意図しない。むしろ、本開示の態様は、異なるワイヤレス技術、システム構成、ネットワーク、および伝送プロトコルに、広範囲に適用できることが意図され、これらのうちのいくつかは、各図面および好ましい態様の以下の説明で、例として示される。発明を実施するための形態および各図面は、限定的でなく、本開示の単に例示であり、本開示の範囲は、添付の特許請求の範囲およびその均等物によって定義される。

[0032]図１は、本開示で説明する態様による技法を利用し得る例示的なビデオ符号化および復号システムを示すブロック図である。図１に示すように、システム１０は、宛先デバイス１４によって後で復号されるべき符号化ビデオデータを与えるソースデバイス１２を含む。特に、ソースデバイス１２は、コンピュータ可読媒体１６を介してビデオデータを宛先デバイス１４に与える。ソースデバイス１２および宛先デバイス１４は、デスクトップコンピュータ、ノートブック（たとえば、ラップトップ）コンピュータ、タブレットコンピュータ、セットトップボックス、いわゆる「スマート」フォンなどのテレフォンハンドセット、いわゆる「スマート」パッド、テレビジョン、カメラ、ディスプレイデバイス、デジタルメディアプレーヤ、ビデオゲーム機、ビデオストリーミングデバイスなどを含む、広範囲のデバイスのいずれかを備え得る。加えて、いくつかの実施形態では、システム１０は、単一のデバイス内に実装され得る。たとえば、テレフォンハンドセットを含む、いかなるそのような単一のデバイスも、ソースデバイス１２と宛先デバイス１４の両方、ならびにコンピュータ可読媒体１６を備える場合がある。場合によっては、ソースデバイス１２および宛先デバイス１４は、ワイヤレス通信のために装備され得る。

[0033]宛先デバイス１４は、コンピュータ可読媒体１６を介して、復号されるべき符号化ビデオデータを受信し得る。コンピュータ可読媒体１６は、符号化ビデオデータをソースデバイス１２から宛先デバイス１４に移動することが可能な、任意のタイプの媒体またはデバイスを備え得る。一例では、コンピュータ可読媒体１６は、ソースデバイス１２が符号化ビデオデータを宛先デバイス１４にリアルタイムで直接送信することを可能にするための、通信媒体を備え得る。符号化ビデオデータは、ワイヤレス通信プロトコルなどの通信規格に従って変調され、宛先デバイス１４に送信され得る。通信媒体は、無線周波数（ＲＦ）スペクトルまたは１つもしくは複数の物理伝送線路など、任意のワイヤレスまたはワイヤード通信媒体を備え得る。通信媒体は、ローカルエリアネットワーク、ワイドエリアネットワークなどのパケットベースのネットワーク、またはインターネットなどのグローバルネットワークの一部を形成し得る。通信媒体は、ルータ、スイッチ、基地局、またはソースデバイス１２から宛先デバイス１４への通信を促進するために有用であり得る、任意の他の機器を含み得る。

[0034]いくつかの例では、符号化されるデータは、出力インターフェース２２から記憶デバイスへ出力され得る。同様に、符号化されるデータは、記憶デバイスから入力インターフェースによってアクセスされ得る。記憶デバイスは、ハードドライブ、Ｂｌｕ−ｒａｙ（登録商標）ディスク、ＤＶＤ、ＣＤ−ＲＯＭ、フラッシュメモリ、揮発性もしくは不揮発性のメモリ、または符号化ビデオデータを記憶するための任意の他の適当なデジタル記憶媒体などの、様々な分散された、または局所的にアクセスされるデータ記憶媒体のうちの任意のものを含み得る。さらなる例では、記憶デバイスは、ソースデバイス１２によって生成される符号化されたビデオを記憶し得る、ファイルサーバまたは別の中間的な記憶デバイスに相当し得る。宛先デバイス１４は、記憶されているビデオデータに、記憶デバイスからストリーミングまたはダウンロードによりアクセスし得る。ファイルサーバは、符号化ビデオデータを記憶し、その符号化ビデオデータを宛先デバイス１４へ送信することができる、任意のタイプのサーバであり得る。例示的なファイルサーバは、ウェブサーバ（たとえば、ウェブサイトのための）、ＦＴＰサーバ、ネットワーク接続記憶（ＮＡＳ）デバイス、またはローカルディスクドライブを含む。宛先デバイス１４は、インターネット接続を含む任意の標準的なデータ接続を通じて、符号化ビデオデータにアクセスし得る。これは、ワイヤレスチャネル（たとえば、Ｗｉ−Ｆｉ（登録商標）接続）、ワイヤード接続（たとえば、ＤＳＬ、ケーブルモデムなど）、または、ファイルサーバ上に記憶されている符号化ビデオデータにアクセスするために適当な、それらの両方の組合せを含み得る。符号化ビデオデータの記憶デバイスからの伝送は、ストリーミング伝送、ダウンロード伝送、またはそれらの組合せであり得る。

[0035]本開示の技法は、ワイヤレスのアプリケーションまたはセッティングに、必ずしも限定されるとは限らない。技法は、無線によるテレビジョン放送、ケーブルテレビジョン伝送、衛星テレビジョン伝送、動的適応型ＨＴＴＰストリーミング（ＤＡＳＨ：dynamic adaptive streaming over HTTP）などのインターネットストリーミングビデオ伝送、データ記憶媒体上へと符号化されるデジタルビデオ、データ記憶媒体上に記憶されるデジタルビデオの復号、または他の適用例などの、様々なマルチメディアの適用例のうちの任意のものを支援して、ビデオコーディングに適用され得る。いくつかの例では、システム１０は、ビデオストリーミング、ビデオプレイバック、ビデオブロードキャスティングおよび／またはビデオ電話通信などの適用例をサポートするために、一方向または二方向のビデオ伝送をサポートするように構成され得る。

[0036]図１の例では、ソースデバイス１２は、ビデオソース１８と、ビデオエンコーダ２０と、出力インターフェース２２とを含む。いくつかの実施形態では、携帯電話などのワイヤレス通信デバイスは、ビデオソース１８と、ビデオエンコーダ２０と、出力インターフェース２２とを含む、ソースデバイス１２を備えることができる。宛先デバイス１４は、入力インターフェース２８と、ビデオデコーダ３０と、ディスプレイデバイス３２とを含む。いくつかの実施形態では、携帯電話などのワイヤレス通信デバイスは、入力インターフェース２８と、ビデオデコーダ３０と、ディスプレイデバイス３２とを含む、宛先デバイス１４を備えることができる。たとえば、場合によっては、単一のワイヤレス通信デバイスは、ソースデバイス１２と宛先デバイス１４の両方を備えることができる。本開示によれば、ソースデバイス１２のビデオエンコーダ２０は、複数の規格または規格拡張に準拠するビデオデータを含む、ビットストリームをコーディングするための技法を適用するように構成され得る。他の例では、ソースデバイスおよび宛先デバイスは、他の構成要素または構成を含んでもよい。たとえば、ソースデバイス１２は、ビデオデータを外部のカメラなどの外部のビデオソース１８から受信し得る。同様に、宛先デバイス１４は、統合されたディスプレイデバイスを含むのではなく、外部のディスプレイデバイスとインターフェースしてもよい。

[0037]図１の例示されたシステム１０は、単に一例である。現在のブロックに対する動きベクトル予測子の候補リストのための、候補を決定するための技法は、任意のデジタルビデオ符号化および／または復号デバイスによって実行され得る。一般に、本開示の技法は、ビデオ符号化デバイスによって実行されるけれども、技法は、また、通常「コーデック」と呼ばれるビデオエンコーダ／デコーダによって実行され得る。その上、本開示の技法は、また、ビデオプリプロセッサによって実行されてもよい。ソースデバイス１２および宛先デバイス１４は、ソースデバイス１２が、コーディングされたビデオデータを宛先デバイス１４への伝送のためにその中で生成する、そのようなコーディングデバイスの単に例である。いくつかの例では、デバイス１２、１４は、デバイス１２、１４の各々がビデオ符号化構成要素と、復号構成要素とを含むように、実質的に相称的な方式で動作し得る。したがって、システム１０は、たとえば、ビデオストリーミング、ビデオプレイバック、ビデオブロードキャスティング、またはビデオ電話通信のための、ビデオデバイス１２と１４との間での一方向または二方向のビデオ伝送をサポートし得る。

[0038]ソースデバイス１２のビデオソース１８は、ビデオカメラ、あらかじめキャプチャされたビデオを含むビデオアーカイブ、および／またはビデオコンテンツプロバイダからビデオを受信するためのビデオ供給インターフェースなどの、ビデオキャプチャデバイスを含み得る。さらなる代わりとして、ビデオソース１８は、ソースビデオとしてコンピュータグラフィックスベースのデータ、または、ライブビデオ、アーカイブされたビデオ、およびコンピュータ生成のビデオの組合せを生成し得る。場合によっては、ビデオソース１８がビデオカメラである場合、ソースデバイス１２および宛先デバイス１４は、いわゆるカメラ付き携帯電話またはテレビ電話を形成し得る。しかしながら、先に述べたように、本開示に記載される技法は、一般にビデオコーディングに適用可能であり得、ワイヤレスおよび／またはワイヤードの応用例に適用され得る。各ケースでは、キャプチャされ、事前にキャプチャされ、またはコンピュータで生成されるビデオは、ビデオエンコーダ２０によって符号化され得る。符号化されたビデオ情報は、次いで、出力インターフェース２２によってコンピュータ可読媒体１６上へ出力され得る。

[0039]コンピュータ可読媒体１６は、ワイヤレスブロードキャストまたはワイヤードネットワーク伝送などの一時的な媒体、または、ハードディスク、フラッシュドライブ、コンパクトディスク、デジタルビデオディスク、Ｂｌｕ−ｒａｙディスク、または他のコンピュータ可読媒体などの記憶媒体（すなわち、非一時的な記憶媒体）を含み得る。たとえば、ソースデバイス１２および宛先デバイス１４がワイヤレスハンドセットなどの単一のデバイスとして実装されるいくつかの実施形態では、コンピュータ可読媒体１６は任意の記憶媒体を含むことができる。いくつかの例では、ネットワークサーバ（図示せず）は、ソースデバイス１２から符号化ビデオデータを受信し、たとえば、ネットワーク伝送、直接ワイヤード通信などを介して、その符号化ビデオデータを宛先デバイス１４に与え得る。同様に、ディスクプレス加工施設などの媒体生産施設のコンピューティングデバイスは、符号化ビデオデータをソースデバイス１２から受信し、符号化ビデオデータを含むディスクを生産し得る。したがって、コンピュータ可読媒体１６は、様々な例で、様々な形態の１つまたは複数のコンピュータ可読媒体を含むと理解され得る。

[0040]宛先デバイス１４の入力インターフェース２８は、情報をコンピュータ可読媒体１６から受信する。コンピュータ可読媒体１６の情報は、ビデオエンコーダ２０により定義された、ブロックの特性および／または処理ならびに他のコーディングされたユニット、たとえば、ＧＯＰを記述するシンタックス要素を含むシンタックス情報を含み得、シンタックス情報は、また、ビデオデコーダ３０によって使用される。ディスプレイデバイス３２は、復号されたビデオデータをユーザに表示し、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）、プラズマディスプレイ、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、または別のタイプのディスプレイデバイスなどの様々なディスプレイデバイスのうちの任意のものを備え得る。

[0041]ビデオエンコーダ２０およびビデオデコーダ３０は、現在開発中の高効率ビデオコーディング（ＨＥＶＣ）規格などの、ビデオコーディング規格に従って動作し得、ＨＥＶＣテストモデル（ＨＭ）に準拠し得る。あるいは、ビデオエンコーダ２０およびビデオデコーダ３０は、あるいはＭＰＥＧ−４、Ｐａｒｔ１０と呼ばれるＩＴＵ−ＴＨ．２６４規格、アドバンストビデオコーディング（ＡＶＣ）、またはそのような規格の拡張などの、他の独自の規格または業界規格に従って動作し得る。しかしながら、本開示の技法は、いかなる特定のコーディング規格にも限定されず、それだけには限らないが、先に列挙した規格の任意のものを含む。ビデオコーディング規格の他の例は、ＭＰＥＧ−２と、ＩＴＵ−ＴＨ．２６３とを含む。いくつかの態様では、ビデオエンコーダ２０およびビデオデコーダ３０は、それぞれ、オーディオのエンコーダおよびデコーダとともに統合され得、オーディオとビデオの両方の、共通のデータストリームまたは別個のデータストリームでの符号化を扱うための、適切なＭＵＸ−ＤＥＭＵＸユニット、または他のハードウェアおよびソフトウェアを含み得る。適用可能であれば、ＭＵＸ−ＤＥＭＵＸユニットは、ＩＴＵＨ．２２３マルチプレクサプロトコル、またはユーザデータグラムプロトコル（ＵＤＰ）などの他のプロトコルに準拠し得る。

[0042]ビデオエンコーダ２０およびビデオデコーダ３０はそれぞれ、１つまたは複数のマイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ディスクリート論理、ソフトウェア、ハードウェア、ファームウェアまたはそれらの任意の組合せなど、様々な好適なエンコーダ回路のいずれかとして実装され得る。技法が部分的にソフトウェアで実施される場合、デバイスは、ソフトウェアのための命令を、適当な、非一時的なコンピュータ可読媒体に記憶し、本開示の技法を実行するための１つまたは複数のプロセッサを使用して、ハードウェアで命令を実行し得る。ビデオエンコーダ２０およびビデオデコーダ３０の各々は、１つまたは複数のエンコーダまたはデコーダに含まれ得、そのいずれかは、組み合わされたエンコーダ／デコーダ（コーデック）の一部として、それぞれのデバイスに統合され得る。ビデオエンコーダ２０および／またはビデオデコーダ３０を含むデバイスは、集積回路、マイクロプロセッサ、および／または携帯電話などのワイヤレス通信デバイスを備え得る。

[0043]ＪＣＴ−ＶＣは、ＨＥＶＣ規格の開発に取り組んでいる。ＨＥＶＣの標準化の取組みは、ＨＥＶＣテストモード（ＨＭ）と呼ばれるビデオコーディングデバイスの進展モデルに基づく。ＨＭは、たとえば、ＩＴＵ−ＴＨ．２６４／ＡＶＣに従う既存のデバイスに対して、ビデオコーディングデバイスのいくつかの付加された機能を想定する。たとえば、Ｈ．２６４は、９つのイントラ予測符号化モードを提供するが、ＨＭは、３３ものイントラ予測符号化モードを提供し得る。

[0044]一般に、ＨＭの作業モデルは、ビデオフレームまたはピクチャが、ルーマサンプルとクロマサンプルの両方を含むツリーブロックまたは最大コーディングユニット（ＬＣＵ）のシーケンスに分割され得ることを記載している。ビットストリーム内のシンタックスデータは、ＬＣＵにとってのサイズを定義し得、ＬＣＵは、ピクセルの数の点で最大のコーディングユニットである。スライスは、いくつかの連続したツリーブロックを、コーディングの順序で含む。ビデオフレームまたはピクチャは、１つまたは複数のスライスに区分され得る。各ツリーブロックは、４分木に従って、コーディングユニット（ＣＵ）に分割され得る。一般に、４分木データ構造は、ＣＵあたり１つのノードを、ツリーブロックに対応するルートノードとともに含む。ＣＵが４つのサブＣＵに分割される場合、ＣＵに対応するノードは、４つのリーフノードを含み、その各々は、サブＣＵのうちの１つに対応する。

[0045]４分木データ構造の各ノードは、対応するＣＵにシンタックスデータを提供することができる。たとえば、４分木におけるノードは、そのノードに対応するＣＵがサブＣＵに分割されるかどうかを示す分割フラグを含み得る。ＣＵに関するシンタックス要素は、再帰的に定義されてよく、ＣＵがサブＣＵに分割されるかどうかに依存し得る。ＣＵがさらに分割されない場合、ＣＵは、リーフＣＵとして参照させられる。本開示では、たとえ元のリーフＣＵの明白な分割がなくても、リーフＣＵの４つのサブＣＵも、リーフＣＵと呼ばれる。たとえば、１６×１６サイズのＣＵがさらに分割されない場合、４つの８×８サブＣＵも、１６×１６ＣＵが分割されなかったけれどもリーフＣＵと呼ばれる。

[0046]ＣＵは、ＣＵがサイズの特異性を有しないことを別にすれば、Ｈ．２６４規格のマクロブロックと類似の目的を有する。たとえば、ツリーブロックは、４つの子ノード（サブＣＵとも呼ばれる）に分割され得、各子ノードは、次に、親ノードであり得、別の４つの子ノードに分割され得る。４分木のリーフノードと呼ばれる、最終の、分割されていない子ノードは、リーフＣＵとも呼ばれるコーディングノードを備える。コーディングされたビットストリームと関連したシンタックスデータは、最大ＣＵ深度（CU depth）と呼ばれる、ツリーブロックが分割され得る回数の最大数を定義し得、また、コーディングノードの最小サイズを定義し得る。したがって、ビットストリームは、また、最小コーディングユニット（ＳＣＵ）を定義し得る。本開示は、「ブロック」という用語を、ＨＥＶＣのコンテキストにおいてＣＵ、ＰＵ、またはＴＵのうちのいずれか、または他の規格のコンテキストにおいて類似のデータ構造（たとえば、Ｈ．２６４／ＡＶＣのマクロブロックおよびそのサブブロック）を参照するために使用する。

[0047]ＣＵは、コーディングノードと、コーディングノードに関連する予測ユニット（ＰＵ）および変換ユニット（ＴＵ）とを含む。ＣＵのサイズは、コーディングノードのサイズに対応し、形状において正方形でなければならない。ＣＵのサイズは、８×８ピクセルから、最大で６４×６４ピクセルまたはそれを越えるツリーブロックのサイズまで変動し得る。各ＣＵは、１つまたは複数のＰＵと、１つまたは複数のＴＵとを含み得る。ＣＵと関連したシンタックスデータは、たとえば、ＣＵを１つまたは複数のＰＵに区分することを記述し得る。区分モードは、ＣＵがスキップであるか、または、ダイレクトモードで符号化されるか、イントラ予測モードで符号化されるか、もしくはインター予測モードで符号化されるかの間で、異なり得る。ＰＵは、形状において非正方形に区分されてもよい。ＣＵと関連したシンタックスデータは、また、たとえば、ＣＵを１つまたは複数のＴＵに、４分木に従って区分することを記述し得る。ＴＵは、形状において正方形または非正方形（たとえば、長方形）であってもよい。

[0048]ＨＥＶＣ規格は、異なるＣＵに対して異なり得る、ＴＵに従う変換を可能にする。ＴＵは、通常、区分されたＬＣＵのために定義された、所与のＣＵ内のＰＵのサイズに基づいてサイズ変更されるが、これは常にそうであるとは限らない。ＴＵは、通常、ＰＵと同じサイズであるか、またはＰＵよりも小さい。いくつかの例では、ＣＵに対応する残差サンプルは、「残差４分木」（ＲＱＴ）として知られる４分木構造を使用して、より小さいユニットにさらに分割され得る。ＲＱＴのリーフノードは、変換ユニット（ＴＵ）と呼ばれる場合がある。ＴＵと関連したピクセル差分の値は、変換係数を生成するために変換され得、変換係数は量子化され得る。

[0049]リーフＣＵは、１つまたは複数の予測ユニット（ＰＵ）を含み得る。一般に、ＰＵは、対応するＣＵのすべてまたは一部分に対応する空間的なエリアを表現し、ＰＵのための参照サンプルを取り出すためのデータを含み得る。その上、ＰＵは、予測に関係するデータを含む。たとえば、ＰＵがイントラモードで符号化される場合、ＰＵに対するデータは、残差４分木（ＲＱＴ）に含まれ得、残差４分木は、ＰＵに対応するＴＵのためのイントラ予測モードを記述するデータを含み得る。別の例では、ＰＵがインターモードで符号化される場合、ＰＵは、ＰＵに対する１つまたは複数の動きベクトルを定義するデータを含み得る。ＰＵに対する動きベクトルを定義するデータは、たとえば、動きベクトルの水平の構成要素、動きベクトルの垂直の構成要素、動きベクトルのための解像度（たとえば、４分の１ピクセルの精度または８分の１ピクセルの精度）、動きベクトルが指す先の参照ピクチャ、および／または動きベクトルのための参照ピクチャリスト（たとえば、リスト０、リスト１、またはリストＣ）を記述し得る。

[0050]１つまたは複数のＰＵを有するリーフＣＵは、また、１つまたは複数の変換ユニット（ＴＵ）を含み得る。変換ユニットは、上述するように、ＲＱＴ（ＴＵの４分木構造とも呼ばれる）を使用して規定され得る。たとえば、分割フラグは、リーフＣＵが４つの変換ユニットに分割されるかどうかを、示し得る。次いで、各変換ユニットは、さらなるサブＴＵに、さらに分割され得る。ＴＵがさらに分割されない場合、ＴＵは、リーフＴＵと呼ばれる場合がある。一般に、イントラコーディングのために、リーフＣＵに属しているすべてのリーフＴＵは、同じイントラ予測モードを共有する。すなわち、同じイントラ予測モードが、一般に、リーフＣＵのすべてのＴＵに対して予測される値を計算するために適用される。イントラコーディングのために、ビデオエンコーダは、イントラ予測モードを使用して、ＴＵに対応するＣＵの部分と元のブロックとの間の差分として、各リーフＴＵに対する残差値を計算し得る。ＴＵは、必ずしも、ＰＵのサイズに限定されるとは限らない。したがって、ＴＵは、ＰＵよりも大きくてもまたは小さくてもよい。イントラコーディングのために、ＰＵは、同じＣＵに対して対応するリーフＴＵと並べられ得る。いくつかの例では、リーフＴＵの最大サイズは、対応するリーフＣＵのサイズに対応し得る。

[0051]その上、リーフＣＵのＴＵはまた、残差４分木（ＲＱＴ）と呼ばれる、それぞれの４分木データ構造に関連付けられ得る。すなわち、リーフＣＵは、リーフＣＵがどのようにＴＵに区分されるかを示す４分木を含み得る。ＴＵ４分木のルートノードは一般にリーフＣＵに対応し、ＣＵ４分木のルートノードは一般にツリーブロック（またはＬＣＵ）に対応する。分割されないＲＱＴのＴＵはリーフＴＵと呼ばれる。一般に、本開示は、別段の注記がない限り、ＣＵおよびＴＵという用語を、それぞれ、リーフＣＵおよびリーフＴＵを参照するために使用する。

[0052]ビデオシーケンスは、通常、一連のビデオフレームまたはピクチャを含む。ピクチャのグループ（ＧＯＰ）は、一般に、一連の１つまたは複数のビデオピクチャを備える。ＧＯＰは、ＧＯＰのヘッダの中、１つまたは複数のピクチャのヘッダの中、またはその他の所にシンタックスデータを含み得、シンタックスデータは、ＧＯＰに含まれるいくつかのピクチャを記述する。ピクチャの各スライスは、それぞれのスライスのための符号化モードを記述するスライスシンタックスデータを含み得る。ビデオエンコーダ２０は、通常、ビデオデータを符号化するために、個々のビデオスライス内のビデオブロックに作用する。ビデオブロックは、ＣＵ内のコーディングノードに対応し得る。ビデオブロックは、固定のまたは変化するサイズを有し得、規定されたコーディング規格に従って、サイズは異なり得る。

[0053]例として、ＨＭは、様々なＰＵサイズでの予測をサポートする。特定のＣＵのサイズが２Ｎ×２Ｎとすれば、ＨＭは、２Ｎ×２ＮまたはＮ×ＮのＰＵサイズでのイントラ予測、および２Ｎ×２Ｎ、２Ｎ×Ｎ、Ｎ×２Ｎ、またはＮ×Ｎの対称なＰＵサイズでのインター予測をサポートする。ＨＭは、また、２Ｎ×ｎＵ、２Ｎ×ｎＤ、ｎＬ×２Ｎ、およびｎＲ×２ＮのＰＵサイズでのインター予測のための、非対称な区分をサポートする。非対称な区分では、ＣＵの一方向は区分されず、他の方向は２５％および７５％に区分される。ＣＵの２５％パーティションに対応する部分は、「ｎ」、ならびにそれに続く「Ｕｐ」、「Ｄｏｗｎ」、「Ｌｅｆｔ」、または「Ｒｉｇｈｔ」の表示によって示される。したがって、たとえば、「２Ｎ×ｎＵ」は、上部で２Ｎ×０．５ＮのＰＵ、および下部で２Ｎ×１．５ＮのＰＵに水平に区分される２Ｎ×２ＮのＣＵを参照する。

[0054]本開示では、「Ｎ×Ｎ」および「ＮｂｙＮ」は、垂直および水平の寸法の観点からビデオブロックのピクセル寸法を参照するために、たとえば、１６×１６ピクセルまたは１６ｂｙ１６ピクセルのように、互換的に使用され得る。一般に、１６×１６ブロックは、垂直方向に１６ピクセル（ｙ＝１６）、および水平方向に１６ピクセル（ｘ＝１６）を有する。同様に、Ｎ×Ｎブロックは、一般に、垂直方向にＮピクセル、および水平方向にＮピクセルを有し、ここでＮは、非負の整数値を表す。ブロックにおけるピクセルは、行および列に配列され得る。その上、ブロックは、必ずしも、水平方向において垂直方向と同じ数のピクセルを有するとは限らない。たとえば、ブロックは、Ｎ×Ｍピクセルを備え得、ただし、Ｍは必ずしもＮに等しいとは限らない。

[0055]ＣＵのＰＵを使用するイントラ予測またはインター予測のコーディングの後で、ビデオエンコーダ２０は、ＣＵのＴＵに対する残差データを計算し得る。ＰＵは、空間領域（ピクセル領域とも呼ばれる）での予測ピクセルデータを生成する方法、すなわちモードを記述するシンタックスデータを備え得、ＴＵは、変換、たとえば、離散コサイン変換（ＤＣＴ）、整数変換、ウェーブレット変換、または残差ビデオデータへの概念的には類似の変換を適用した後の、変換領域での係数を備え得る。残差データは、符号化されていないピクチャのピクセルと、ＰＵに対応する予測値との間のピクセル差分に対応し得る。ビデオエンコーダ２０は、ＣＵに対する残差データを含むＴＵを形成し、次いで、ＣＵのための変換係数を生成するためにＴＵを変換し得る。

[0056]変換係数を生成するための任意の変換の後で、ビデオエンコーダ２０は、変換係数の量子化を実行し得る。量子化は、その最も広範な通常の意味を有することを意図する、広範な用語である。一実施形態では、量子化は、変換係数が量子化されて、場合によっては、係数を表現するために使用されるデータの量を低減し、さらに圧縮をもたらす処理に言及する。量子化処理は、係数の一部または全部と関連したビット深度を低減し得る。たとえば、ｎビットの値は、量子化中にｍビットの値に端数を丸められてよく、ここで、ｎはｍよりも大きい。

[0057]量子化の後で、ビデオエンコーダは、変換係数を走査し得、量子化変換係数を含む２次元の行列から１次元のベクトルを生成する。走査は、より高いエネルギー（したがってより低い周波数）の係数をアレイの前方に配置し、より低いエネルギー（したがってより高い周波数）の係数をアレイの後方に配置するように意図され得る。いくつかの例では、ビデオエンコーダ２０は、エントロピー符号化され得るシリアル化されたベクトルを生成するために、量子化変換係数を走査するための規定の走査順序を利用し得る。他の例では、ビデオエンコーダ２０は、適応走査を実行し得る。量子化変換係数を走査して１次元のベクトルを形成した後、ビデオエンコーダ２０は、たとえば、コンテキスト適応型可変長コーディング（ＣＡＶＬＣ：context-adaptive variable length coding）、コンテキスト適応型２値算術コーディング（ＣＡＢＡＣ：context-adaptive binary arithmetic coding）、シンタックスベースコンテキスト適応型２値算術コーディング（ＳＢＡＣ：syntax-based context-adaptive binary arithmetic coding）、確率間隔区分エントロピー（ＰＩＰＥ：Probability Interval Partitioning Entropy）コーディングまたは別のエントロピー符号化の方法に従って、１次元のベクトルをエントロピー符号化し得る。ビデオエンコーダ２０は、また、ビデオデコーダ３０によるビデオデータの復号での使用のために、符号化ビデオデータと関連したシンタックス要素をエントロピー符号化する。

[0058]ＣＡＢＡＣを実行するために、ビデオエンコーダ２０は、コンテキストモデル内のコンテキストを、送信されるべきシンボルに割り当て得る。コンテキストは、たとえば、シンボルの隣接する値がゼロ以外であるか否かに関係し得る。ＣＡＶＬＣを実行するために、ビデオエンコーダ２０は、送信されるべきシンボルに対する可変長符号を選択し得る。ＶＬＣの中のコードワードは、比較的に短いコードが、より起こりそうなシンボルに対応し、より長いコードが、より起こりそうでないシンボルに対応するように、再構成され得る。このようにして、ＶＬＣの使用により、たとえば、送信されるべき各シンボルに対して等長のコードワードを使用することを越える、ビットの節約が達成され得る。起こりそうなことの決定は、シンボルに割り当てられたコンテキストに基づき得る。

[0059]ビデオエンコーダ２０は、さらに、ブロックベースのシンタックスデータ、フレームベースのシンタックスデータ、およびＧＯＰベースのシンタックスデータなどのシンタックスデータを、たとえば、フレームヘッダ、ブロックヘッダ、スライスヘッダ、またはＧＯＰヘッダの中で、ビデオデコーダ３０へ送り得る。ＧＯＰシンタックスデータは、それぞれのＧＯＰの中のいくつかのフレームを記述し得、フレームシンタックスデータは、対応するフレームを符号化するために使用された符号化／予測モードを示し得る。

[0060]図２は、本開示で説明する態様による技法を実装し得るビデオエンコーダの例を示すブロック図である。ビデオエンコーダ２０は、本開示の技法のうちの、任意のものまたはすべてを実行するように構成され得る。一例として、モード選択ユニット４０は、本開示に記載された技法のうちの、いずれかまたはすべてを実施するように構成され得る。しかしながら、本開示の態様はそのようには限定されない。いくつかの例では、本開示に記載される技法は、図７〜図８に関して以下に記載される方法を含み、ビデオエンコーダ２０の様々な構成要素の間で共有され得る。いくつかの例では、それに加えて、またはそれの代わりに、プロセッサ（図示せず）は、本開示に記載される技法のうちの任意のものまたはすべてを実行するように構成され得る。

[0061]ビデオエンコーダ２０は、ビデオスライス内のビデオブロックのイントラコーディングおよびインターコーディングを実行し得る。イントラコーディングは、所与のビデオフレームまたはピクチャ内のビデオにおける空間的冗長性を低減または除去するために空間的予測に依拠する。インターコーディングは、ビデオシーケンスの隣接するフレーム内またはピクチャ内のビデオにおける、時間的な冗長性を低減または除去するために、時間的予測に依拠する。イントラモード（Ｉモード）は、いくつかの空間ベースのコーディングモードのうちの任意のものを参照し得る。一方向予測（Ｐモード）または双方向予測（Ｂモード）などのインターモードは、いくつかの時間ベースのコーディングモードのうちの任意のものを参照し得る。

[0062]図２に示すように、ビデオエンコーダ２０は、符号化されるべきビデオフレーム内の現在のビデオブロックを受信する。図１の例では、ビデオエンコーダ２０は、モード選択ユニット４０と、参照フレームメモリ６４と、加算器５０と、変換処理ユニット５２と、量子化ユニット５４と、エントロピー符号化ユニット５６とを含む。モード選択ユニット４０は、動き補償ユニット４４と、動き推定ユニット４２と、イントラ予測ユニット４６と、分割ユニット４８とを含む。ビデオブロックの再構成のために、ビデオエンコーダ２０は、また、逆量子化ユニット５８と、逆変換ユニット６０と、加算器６２とを含む。デブロッキングフィルタ（図２に示さず）も、ブロック境界をフィルタして、再構成されたビデオからブロッキネスアーチファクトを除去するために、含まれ得る。所望であれば、デブロッキングフィルタは、通常、加算器６２の出力をフィルタするはずである。さらなるフィルタ（インループまたはポストループ）も、デブロッキングフィルタに加えて使用され得る。そのようなフィルタは、簡約のために図示されないが、所望であれば、加算器５０の出力を（インループフィルタとして）フィルタし得る。

[0063]符号化プロセス中に、ビデオエンコーダ２０は、コーディングされるべきビデオフレームまたはスライスを受信する。フレームまたはスライスは、複数のビデオブロックに分割され得る。動き推定ユニット４２および動き補償ユニット４４は、時間的予測をもたらすために、１つまたは複数の参照フレームの中の１つまたは複数のブロックに対して受信されたビデオブロックのインター予測のコーディングを実行する。イントラ予測ユニット４６は、あるいは、空間的予測をもたらすために、コーディングされるべきブロックと同じフレームまたはスライスの中の、１つまたは複数の隣接ブロックに対して受信されたビデオブロックのイントラ予測のコーディングを実行し得る。ビデオエンコーダ２０は、たとえば、ビデオデータの各ブロックに対する適切なコーディングモードを選択するために、複数のコーディングパスを実行し得る。

[0064]その上、分割ユニット４８は、前のコーディングパスでの前の区分化方式の評価に基づいて、ビデオデータのブロックを、サブブロックに区分し得る。たとえば、分割ユニット４８は、最初は、レート歪み分析（たとえば、レート歪み最適化）に基づいて、フレームまたはスライスをＬＣＵに区分し、ＬＣＵの各々をサブＣＵに区分し得る。モード選択ユニット４０は、さらにＬＣＵをサブＣＵに区分することを示す４分木データ構造を生成し得る。４分木のリーフノードＣＵは、１つまたは複数のＰＵと、１つまたは複数のＴＵとを含み得る。

[0065]モード選択ユニット４０は、たとえば、エラー結果に基づいて、コーディングモードのうちの１つ、イントラまたはインターを選択し、得られたイントラまたはインターコード化ブロックを、残差ブロックデータを生成するために加算器５０に提供し、参照フレームとして使用するための符号化されたブロックを再構成するために加算器６２に提供し得る。モード選択ユニット４０はまた、動きベクトル、イントラモードインジケータ、パーティション情報、および他のそのようなシンタックス情報などのシンタックス要素をエントロピー符号化ユニット５６に与える。

[0066]動き推定ユニット４２および動き補償ユニット４４は、高度に統合され得るが、概念的な目的のために別々に示してある。動き推定は、動き推定ユニット４２によって実行され、動きベクトルを生成する処理であり、ビデオブロックに対する動きを推定する。動きベクトルは、たとえば、現在のフレーム内でコーディングされている現在のブロック（または、他のコーディングユニット）に対する、参照フレーム内の予測ブロック（または、他のコーディングユニット）に対する、現在のビデオフレーム内またはピクチャ内のビデオブロックのＰＵの移動を示し得る。予測ブロックは、ピクセル差分の観点で、コーディングされるべきブロックと密に適合すると見出されたブロックであり、ピクセル差分は、絶対値差分の合計（ＳＡＤ）、二乗差分の合計（ＳＳＤ）、または他の差分の測定規準によって決定され得る。いくつかの例では、ビデオエンコーダ２０は、参照フレームメモリ６４に記憶されている参照ピクチャの、サブ整数ピクセル位置に対する値を計算し得る。たとえば、ビデオエンコーダ２０は、参照ピクチャの、４分の１ピクセル位置、８分の１ピクセル位置、または他の分数のピクセル位置の値を補間し得る。したがって、動き推定ユニット４２は、完全なピクセル位置および分数のピクセル位置に対して動き探索を実行し、動きベクトルを分数のピクセル精度で出力し得る。

[0067]動き推定ユニット４２は、ＰＵの位置を参照ピクチャの予測ブロックの位置と比較することによって、インターコード化スライスの中のビデオブロックのＰＵに対する動きベクトルを計算する。参照ピクチャは、第１の参照ピクチャリスト（リスト０）または第２の参照ピクチャリスト（リスト１）から選択され得、それらの各々は、参照フレームメモリ６４に記憶されている１つまたは複数の参照ピクチャを特定する。動き推定ユニット４２は、計算された動きベクトルを、エントロピー符号化ユニット５６と、動き補償ユニット４４とへ送る。

[0068]動き補償は、動き補償ユニット４４によって実行され、動き推定ユニット４２により決定された動きベクトルに基づいて、予測ブロックをフェッチまたは生成することを伴う。やはり、動き推定ユニット４２および動き補償ユニット４４は、いくつかの例では、機能的に統合され得る。現在のビデオブロックのＰＵに対する動きベクトルを受信すると、動き補償ユニット４４は、予測ブロックを、動きベクトルが参照ピクチャリストのうちの１つで指す所へ位置決めし得る。加算器５０は、コーディングされている現在のビデオブロックのピクセル値から予測ブロックのピクセル値を減算することによって残差ビデオブロックを形成し、以下で説明するようにピクセル差分の値を形成する。一般に、動き推定ユニット４２は、ルーマ構成要素に対して動き推定を実行し、動き補償ユニット４４は、クロマ構成要素とルーマ構成要素の両方のために、ルーマ構成要素に基づいて計算された動きベクトルを使用する。モード選択ユニット４０は、また、ビデオデコーダ３０によるビデオスライスのビデオブロックの復号での使用のために、ビデオブロックおよびビデオスライスと関連したシンタックス要素を生成する。

[0069]イントラ予測ユニット４６は、上述されるように、動き推定ユニット４２および動き補償ユニット４４によって実行されるインター予測に代わるものとして、現在のブロックをイントラ予測または計算し得る。特に、イントラ予測ユニット４６は、現在のブロックを符号化するために使用するイントラ予測モードを決定することができる。いくつかの例では、イントラ予測ユニット４６は、たとえば、別個の符号化パス中に様々なイントラ予測モードを使用して現在のブロックを符号化し得、イントラ予測ユニット４６（または、いくつかの例では、モード選択ユニット４０）は、使用するために適切なイントラ予測モードを、テストされたモードから選択し得る。

[0070]たとえば、イントラ予測ユニット４６は、様々なテストされたイントラ予測モードに対して、レート歪み分析を使用してレート歪みの値を計算し、テストされたモードの中から最良のレート歪み特性を有するイントラ予測モードを選択し得る。レート歪み分析は、一般に、符号化されたブロックと、符号化ブロックを生成するために符号化される、元の符号化されていないブロックとの間のある量の歪み（すなわち、エラー）、および、符号化ブロックを生成するために使用されるビットレート（すなわち、いくつかのビット）を決定する。イントラ予測ユニット４６は、様々な符号化ブロックに対する歪みおよびレートから比を計算し、どのイントラ予測モードがブロックに対して最良のレート歪みの値を示すかを決定し得る。

[0071]ブロックに対するイントラ予測モードを選択した後、イントラ予測ユニット４６は、ブロックに対して選択されたイントラ予測モードを示す情報を、エントロピー符号化ユニット５６に提供し得る。エントロピー符号化ユニット５６は、選択されたイントラ予測モードを示す情報を符号化し得る。ビデオエンコーダ２０は、送信されるビットストリームの中に構成データを含み得、構成データは、コンテキストの各々のために使用する、複数のイントラ予測モードのインデックステーブルおよび複数の修正されたイントラ予測モードのインデックステーブル（コードワードマッピングテーブルとも呼ばれる）、様々なブロックに対する符号化コンテキストの定義、ならびに、最も起こりそうなイントラ予測モードの表示、イントラ予測モードのインデックステーブル、および修正されたイントラ予測モードのインデックステーブルを含み得る。

[0072]ビデオエンコーダ２０は、モード選択ユニット４０からの予測データを、コーディングされている元のビデオブロックから減算することによって、残差ビデオブロックを形成する。加算器５０は、この減算操作を実行する１つの構成要素または複数の構成要素を表現する。変換処理ユニット５２は、離散コサイン変換（ＤＣＴ）または概念的には類似の変換などの変換を残差ブロックに適用し、残差変換係数の値を備えるビデオブロックを生成する。変換処理ユニット５２は、概念的にはＤＣＴに類似の他の変換を実行し得る。ウェーブレット変換、整数変換、サブバンド変換または他のタイプ変換も使用され得る。いかなる場合でも、変換処理ユニット５２は、変換を残差ブロックに適用し、残差変換係数のブロックを生成する。変換は、ピクセル値領域からの残差情報を、周波数領域などの変換領域に転換し得る。変換処理ユニット５２は、得られた変換係数を量子化ユニット５４へ送り得る。量子化ユニット５４は、ビットレートをさらに低減するために、変換係数を量子化する。量子化処理は、係数の一部または全部と関連したビット深度を低減し得る。量子化の程度は、量子化パラメータを調整することによって、修正され得る。いくつかの例では、量子化ユニット５４は、次いで、量子化変換係数を含む行列の走査を実行し得る。あるいは、エントロピー符号化ユニット５６が、走査を実行し得る。

[0073]量子化の後で、エントロピー符号化ユニット５６は、量子化変換係数をエントロピーコーディングする。たとえば、エントロピー符号化ユニット５６は、コンテキスト適応型可変長コーディング（ＣＡＶＬＣ）、コンテキスト適応型２値算術コーディング（ＣＡＢＡＣ）、シンタックスベースコンテキスト適応型２値算術コーディング（ＳＢＡＣ）、確率間隔区分エントロピー（ＰＩＰＥ）コーディングまたは別のエントロピーコーディング技法を、実行し得る。コンテキストベースのエントロピーコーディングの場合、コンテキストは、隣接ブロックに基づいてよい。エントロピー符号化ユニット５６によるエントロピーコーディングの後で、符号化ビットストリームは、別のデバイス（たとえば、ビデオデコーダ３０）へ送信され得、後から伝送または取り出すために、アーカイブされ得る。

[0074]逆量子化ユニット５８および逆変換ユニット６０は、たとえば、参照ブロックとして後で使用できるように、ピクセル領域で残差ブロックを再構成するために、それぞれ、逆量子化と、逆変換とを適用する。動き補償ユニット４４は、残差ブロックを、参照フレームメモリ６４のフレームのうちの１つの予測ブロックに加算することによって、参照ブロックを計算し得る。動き補償ユニット４４は、また、動き推定での使用のためにサブ整数ピクセル値を計算するために、１つまたは複数の補間フィルタを再構成された残差ブロックに適用し得る。加算器６２は、参照フレームメモリ６４での記憶のための再構成されたビデオブロックを生成するために、再構成された残差ブロックを、動き補償ユニット４４によって生成される動き補償された予測ブロックに加算する。再構成されたビデオブロックは、動き推定ユニット４２および動き補償ユニット４４によって、後続のビデオフレームにおけるブロックをインターコード化するための参照ブロックとして使用され得る。

[0075]図３は、本開示で説明する態様による技法を実装し得るビデオデコーダの例を示すブロック図である。ビデオデコーダ３０は、図７〜図８に関して以下に記載される方法を含む、本開示の技法のうちの任意のものまたはすべてを実行するように構成され得る。一例として、動き補償ユニット７２および／またはイントラ予測ユニット７４は、本開示に記載される技法のうちの任意のものまたはすべてを実行するように構成され得る。しかしながら、本開示の態様はそのようには限定されない。いくつかの例では、本開示に記載される技法は、ビデオデコーダ３０の様々な構成要素の中で、共有され得る。いくつかの例では、それに加えて、またはそれの代わりに、プロセッサ（図示せず）は、本開示に記載される技法のうちの任意のものまたはすべてを実行するように構成され得る。

[0076]図３の例では、ビデオデコーダ３０は、エントロピー復号ユニット７０と、動き補償ユニット７２と、イントラ予測ユニット７４と、逆量子化ユニット７６と、逆変換ユニット７８と、参照フレームメモリ８２と、加算器８０とを含む。ビデオデコーダ３０は、いくつかの例では、ビデオエンコーダ２０（図２）に関して記載される符号化パスに対して概ね逆の復号パスを実行し得る。動き補償ユニット７２は、エントロピー復号ユニット７０から受信された動きベクトルに基づいて、予測データを生成し得、イントラ予測ユニット７４は、エントロピー復号ユニット７０から受信されたイントラ予測モードインジケータに基づいて、予測データを生成し得る。

[0077]復号プロセス中に、ビデオデコーダ３０は、符号化されたビデオスライスのビデオブロックおよび関連するシンタックス要素を表現する符号化されたビデオビットストリームを、ビデオエンコーダ２０から受信する。ビデオデコーダ３０のエントロピー復号ユニット７０は、量子化係数、動きベクトルまたはイントラ予測モードインジケータ、および他のシンタックス要素を生成するために、ビットストリームをエントロピー復号する。エントロピー復号ユニット７０は、動きベクトルと、他のシンタックス要素とを、動き補償ユニット７２へ転送する。ビデオデコーダ３０は、ビデオスライスレベルおよび／またはビデオブロックレベルでのシンタックス要素を受信し得る。

[0078]ビデオスライスが、イントラコード化（Ｉ）スライスとしてコーディングされるとき、イントラ予測ユニット７４は、現在のフレームまたはピクチャの以前に復号されたブロックから、シグナリングされたイントラ予測モードおよびデータに基づいて、現在のビデオスライスのビデオブロックに対する予測データを生成し得る。ビデオフレームがインターコード化（たとえば、Ｂ、ＰまたはＧＰＢ）スライスとしてコーディングされるとき、動き補償ユニット７２は、エントロピー復号ユニット７０から受信された動きベクトルおよび他のシンタックス要素に基づいて、現在ビデオスライスのビデオブロックのための予測ブロックを生成する。予測ブロックは、参照ピクチャリストのうちの１つの中の、参照ピクチャのうちの１つから生成され得る。ビデオデコーダ３０は、参照フレームメモリ９２に記憶された参照ピクチャに基づいて、デフォルトの構成技法を使用して、参照フレームリスト、すなわち、リスト０とリスト１とを構成し得る。動き補償ユニット７２は、動きベクトルと他のシンタックス要素とを解析することによって現在のビデオスライスのビデオブロックのための予測情報を決定するとともに、復号されている現在のビデオブロックに関する予測ブロックを生成するために、その予測情報を使用する。たとえば、動き補償ユニット７２は、ビデオスライスのビデオブロックをコーディングするために使用される予測モード（たとえば、イントラまたはインター予測）と、インター予測スライスタイプ（たとえば、Ｂスライス、Ｐスライス、またはＧＰＢスライス）と、スライスに関する参照ピクチャリストのうちの１つまたは複数に関する構成情報と、スライスの各々のインター符号化されたビデオブロックに関する動きベクトルと、スライスの各々のインターコーディングされたビデオブロックに関するインター予測ステータスと、現在のビデオスライス中のビデオブロックを復号するための他の情報とを決定するために、受信されたシンタックス要素のいくつかを使用する。

[0079]動き補償ユニット７２は、また、補間フィルタに基づいて、補間を実行し得る。動き補償ユニット７２は、参照ブロックのサブ整数ピクセルに対して補間された値を計算するために、ビデオブロックの符号化中にビデオエンコーダ２０によって使用されたように、補間フィルタを使用し得る。このケースでは、動き補償ユニット７２は、受信したシンタックス要素からビデオエンコーダ２０によって使用された補間フィルタを決定し、補間フィルタを使用して予測ブロックを生成し得る。

[0080]逆量子化ユニット７６は、ビットストリームの中で提供され、エントロピー復号ユニット８０によって復号された量子化変換係数を、逆量子化（inverse quantize）、たとえば、逆量子化（de-quantize）する。逆量子化処理は、量子化の程度、および同様に、適用されるべき逆量子化の程度を決定するために、ビデオスライスの中の各ビデオブロックに対してビデオデコーダ３０によって計算された量子化パラメータＱＰ_Yの使用を含み得る。

[0081]逆変換ユニット７８は、ピクセル領域内の残差ブロックを生成するために、逆変換、たとえば、逆ＤＣＴ、逆整数変換、または概念的には類似の逆変換処理を、変換係数に適用する。

[0082]動きベクトルおよび他のシンタックス要素に基づいて、動き補償ユニット８２が現在のビデオブロックに対する予測ブロックを生成した後、ビデオデコーダ３０は、逆変換ユニット７８からの残差ブロックに動き補償ユニット７２によって生成された対応する予測ブロックを合計することによって、復号ビデオブロックを形成する。加算器９０は、この加算操作を実行する１つの構成要素または複数の構成要素を表現する。所望であれば、デブロッキングフィルタも、ブロッキネスアーチファクトを除去するため、復号ブロックをフィルタするために適用され得る。他のループフィルタ（コーディングループの中、またはコーディングループの後のいずれか）も、ピクセルの変化を平滑化し、または他の方法でビデオ品質を改善するために使用され得る。所与のフレームまたはピクチャにおける復号ビデオブロックは、次いで、参照ピクチャメモリ９２に記憶され、これは後続の動き補償のために使用される参照ピクチャを記憶する。参照フレームメモリ８２は、また、図１のディスプレイデバイス３２などのディスプレイデバイス上で後で提示できるように、復号ビデオを記憶する。

ＨＥＶＣにおける動き補償
[0083]上述されたように、ＨＥＶＣは次世代のビデオコーディング規格である。概して、ＨＥＶＣは以前のビデオコーディング規格の枠組に追従する。ＨＥＶＣの動き補償ループは、Ｈ．２６４／ＡＶＣのものと同じものを維持され得、すなわち、現在のフレームの再構成

は、以下のように、逆量子化された係数ｒに時間的予測Ｐを加えたものに等しい。

ここで、Ｐは、Ｐフレームもしくはスライスに対する一方向予測、またはＢフレームもしくはスライスに対する双方向予測を示す。

[0084]ＨＥＶＣにおける動き補償の単位は、以前のビデオコーディング規格のものと異なり得る。実際、以前のビデオコーディング規格におけるマクロブロックの概念は、ＨＥＶＣでは存在しない。代わりに、マクロブロックの概念は、包括的な４分木方式に基づく極めてフレキシブルな階層構造によって取り替えられる。この方式内で、３つのタイプのブロック、すなわち、コーディングユニット（ＣＵ）、予測ユニット（ＰＵ）、および変換ユニット（ＴＵ）が定義される。ＣＵは領域分割の基本単位である。ＣＵは、マクロブロックの概念と類似しているが、ＣＵは、最大サイズを制限せず、ＣＵは、内容の適合性を改善するために、４つの等しいサイズのＣＵへの再帰的な分割を可能にする。ＰＵは、インター／イントラ予測の基本的な単位であり、ＰＵは、不規則な画像パターンを効果的にコーディングするために、単一のＰＵの中に複数の任意の形状のパーティションを含み得る。ＴＵは変換の基本単位である。ＴＵは、ＰＵから独立に定義され得るが、ただし、ＴＵのサイズは、ＴＵが属するＣＵに限定される。ブロック構造の３つの異なるコンセプトへのこの分離によって、それぞれがその役割に従って最適化され得、その結果、コーディングの効率性が改善される。

スケーラブルビデオコーディング
[0085]異なる寸法でのスケーラビリティ４００の例が、図４に示される。この例では、スケーラビリティは、３つの寸法４０２、４０４、４０６で可能である。時間ディメンション４０２では、たとえば、７．５Ｈｚ、１５Ｈｚまたは３０Ｈｚのフレームレートが、時間的なスケーラビリティ（Ｔ）によってサポートされ得る。空間的なスケーラビリティ（Ｓ）４０４がサポートされる場合、異なる解像度、たとえば、ＱＣＩＦ、ＣＩＦおよび４ＣＩＦなどが可能である。各特定の空間解像度およびフレームレートのために、ＳＮＲ（Ｑ）レイヤ４０６が、ピクチャ品質を改善するために追加され得る。各レイヤ４０２、４０４、４０６からのビットストリームは、単一のビットストリームの中に一緒に多重化され得る。いったんビデオコンテンツがそのような拡張性のある方法で符号化されると、エクストラクタツールが、たとえば、クライアントまたは伝送チャネルに依存するアプリケーションの要件に従って、実際に配送されるコンテンツを適応させるために使用され得る。図４に示す例では、各立方体４０８は、同じフレームレート（時間的なレベル）、空間解像度、およびＳＮＲレイヤを有するピクチャを含む。これらの立方体４０８（ピクチャ）を任意の寸法４０２、４０４、４０６に追加することによって、より良い表現が達成され得る。組み合わされたスケーラビリティは、２つ、３つ、またはさらに多くのスケーラビリティが可能である場合に、サポートされる。

[0086]ＳＶＣ仕様によれば、最も低い空間的４１０および品質４１２レイヤを有するピクチャは、Ｈ．２６４／ＡＶＣと互換性があり、最も低い時間的レベル４１４でのピクチャは、時間的なベースレイヤを形成し、これは、より高い時間的レベルでのピクチャを伴って拡張され得る。Ｈ．２６４／ＡＶＣと互換性のあるレイヤに加えて、いくつかの空間的および／またはＳＮＲエンハンスメントレイヤが、空間的および／または品質のスケーラビリティをもたらすために、追加され得る。ＳＮＲスケーラビリティ４０６は、品質スケーラビリティとしても参照させられる。各空間的４０４またはＳＮＲ４０６エンハンスメントレイヤは、それ自体、Ｈ．２６４／ＡＶＣと互換性のあるレイヤと同じ時間的スケーラビリティ構造とともに、時間的にスケーラブルであり得る。１つの空間的またはＳＮＲエンハンスメントレイヤに対して、空間的またはＳＮＲエンハンスメントレイヤが依存するより低いレイヤは、その特定の空間的またはＳＮＲエンハンスメントレイヤのベースレイヤとしても参照させられる。

[0087]ＳＶＣコーディング構造５００の例が、図５に示される。最も低い空間的および品質レイヤを有するピクチャ（レイヤ０５０２およびレイヤ１５０４の、ＱＣＩＦ解像度のピクチャ）は、Ｈ．２６４／ＡＶＣと互換性がある。これらの中で、最も低い時間的レベルのこれらのピクチャは、図５のレイヤ０５０２に示されるように、時間的なベースレイヤを形成する。この時間的なベースレイヤ（レイヤ０）５０２は、より高い時間的レベル（レイヤ１）５０４のピクチャを伴って拡張され得る。Ｈ．２６４／ＡＶＣと互換性のあるレイヤ５０４に加えて、いくつかの空間的および／またはＳＮＲエンハンスメントレイヤ５０６、５０８、５１０は、空間的および／または品質スケーラビリティをもたらすために、追加され得る。たとえば、エンハンスメントレイヤは、レイヤ２５０６と同じ解像度を有するＣＩＦ表現であり得る。この例では、レイヤ３５０８は、ＳＮＲエンハンスメントレイヤである。この例に示されるように、各空間的またはＳＮＲエンハンスメントレイヤは、それ自体、Ｈ．２６４／ＡＶＣと互換性のあるレイヤと同じ時間的スケーラビリティ構造とともに、時間的にスケーラブルであり得る。また、エンハンスメントレイヤは、空間解像度とフレームレートの両方を拡張することができる。たとえば、レイヤ４５１０は、さらに、フレームレートを１５Ｈｚから３０Ｈｚに増大させる、４ＣＩＦエンハンスメントレイヤを提供する。

[0088]図６に示すように、同じ時間のインスタンスでコーディングされるスライスは、ビットストリームの順序の中で連続であり、ＳＶＣのコンテキストの中で１つのアクセスユニット６００を形成する。それらのＳＶＣアクセスユニット６００は、次いで、表示の順序と異なるかもしれない復号の順序に従い、たとえば、時間的予測の関係によって決定される。

[0089]図７は、一実施形態による参照レイヤのピクチャをアップサンプルすることの例を示す概念図７００を示す。いくつかの実施形態では、参照レイヤ、エンハンスメントレイヤ、またはそれらの両方と関連したビデオ情報を受信するように構成されるビデオコーダまたはデコーダは、複数のレイヤ間フィルタと１つまたは複数の参照レイヤのピクチャとを使用して、複数のレイヤ間参照ピクチャを生成するように構成され得る。図示のように、第１のアップサンプリングフィルタ７２２は、第１のレイヤ間参照ピクチャ７２０を生成するために、参照レイヤのピクチャ７１０に適用され得る。加えて、第２のアップサンプリングフィルタ７３２は、第２のレイヤ間参照ピクチャ７３０を生成するために、参照レイヤのピクチャ７１０に適用され得る。いくつかの実施形態では、第１のアップサンプリングフィルタ７２２は、低い周波数を十分に再生するように設計され得、一方、第２のアップサンプリングフィルタ７３２は、高い周波数を十分に再生するように設計され得る。加えて、第３のアップサンプリングフィルタ７４２は、第３のレイヤ間参照ピクチャ７４０を生成するために、任意選択で、参照レイヤのピクチャ７１０に適用され得る。たとえば、第３のアップサンプリングフィルタ７４２は、第１のアップサンプリングフィルタ７２２または第２のアップサンプリングフィルタ７３２によって十分に再生されない任意の周波数を、十分に再生するように設計され得る。第１、第２、および第３のアップサンプリングフィルタ７２２、７３２、および７４２の各々は、限られた数のフィルタタップを使用して実現され得る。いくつかの実施形態では、第１、第２、および第３のアップサンプリングフィルタ７２２、７３２、および７４２の各々は、わずか８個のフィルタタップを使用して実現され得る。

[0090]いくつかの実施形態では、第１のレイヤ間参照ピクチャ７２０、第２のレイヤ間参照ピクチャ７３０、および第３のレイヤ間参照ピクチャ７４０は、参照ピクチャリストに挿入され得る。詳細には、エンハンスメントレイヤ内の現在のピクチャは、参照ピクチャリストを使用してコーディングされ得る。

[0091]いくつかの実施形態では、第１のアップサンプリングフィルタ７２２、第２のアップサンプリングフィルタ７３２、および第３のアップサンプリングフィルタ７４２は、事前定義され得る。あるいは、第１のアップサンプリングフィルタ７２２、第２のアップサンプリングフィルタ７３２、および第３のアップサンプリングフィルタ７４２のうちの少なくとも１つは、事前定義され得、一方、他のものは、シーケンスパラメータセット、ビデオパラメータセット、またはスライスヘッダの中でシグナリングされ得る。あるいは、第１のアップサンプリングフィルタ７２２、第２のアップサンプリングフィルタ７３２、および第３のアップサンプリングフィルタ７４２の各々は、シーケンスパラメータセット、ビデオパラメータセット、またはスライスヘッダの中でシグナリングされ得る。

[0092]ＳＨＶＣでは、ベースレイヤの参照ピクチャは、ロングターム参照ピクチャとしてフラグを使用してマークされ得る。たとえば、表１に示すシーケンスパラメータセット（ＳＰＳ）内のシンタックスは、ロングタームピクチャをシグナリングするために使用され得る。

[0093]表１の変数は、次のように記述され得る。
０に等しいｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇは、ＣＶＳ内でコーディングされている任意のピクチャのインター予測のために、ロングターム参照ピクチャが使用されないことを規定し得、一方、１に等しいｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃｓ＿ｐｒｅｓｅｎｔ＿ｆｌａｇは、ＣＶＳ内でコーディングされている１つまたは複数のピクチャのインター予測のために、ロングターム参照ピクチャが使用され得ることを規定し得る。
ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃｓ＿ｓｐｓは、ＳＰＳ（シーケンスパラメータセット）内で規定される候補のロングターム参照ピクチャの数を規定し得る。ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃｓ＿ｓｐｓの値は、０から３２（それらを含む）の範囲にある。
ｌｔ＿ｒｅｆ＿ｐｉｃ＿ｐｏｃ＿ｌｓｂ＿ｓｐｓ［ｉ］は、ＳＰＳ内で規定されるｉ番目の候補のロングターム参照ピクチャの、ＭａｘＰｉｃＯｒｄｅｒＣｎｔＬｓｂを法とするピクチャ順序のカウント（the picture order count modulo MaxPicOrderCntLsb of the i-th candidate long-term reference picture specified in the SPS）を規定し得る。ｌｔ＿ｒｅｆ＿ｐｉｃ＿ｐｏｃ＿ｌｓｂ＿ｓｐｓ［ｉ］を表現するために使用されるビットの数は、ｌｏｇ２＿ｍａｘ＿ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ＿ｍｉｎｕｓ４＋４に等しくてよい。
０に等しいｕｓｅｄ＿ｂｙ＿ｃｕｒｒ＿ｐｉｃ＿ｌｔ＿ｓｐｓ＿ｆｌａｇ［ｉ］は、ＳＰＳ内で規定されるｉ番目の候補のロングターム参照ピクチャが、ＳＰＳ内で規定されるｉ番目の候補のロングターム参照ピクチャをそのロングタームＲＰＳの中に含むピクチャによる参照のために使用されないことを、規定し得る。

[0094]スライスヘッダの中では、表２に示す以下のシンタックス要素は、現在のピクチャのロングターム参照ピクチャセット（ＲＰＳ）をシグナリングするために使用され得る。

[0095]表２の変数は、次のように記述され得る。
ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｓｐｓは、アクティブなＳＰＳ内で規定される候補ロングターム参照ピクチャに基づいて導き出された、現在のピクチャのロングタームＲＰＳ内のエントリの数を規定し得る。ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｓｐｓの値は、０からｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃｓ＿ｓｐｓ（それらを含む）の範囲にあり得る。存在しない場合、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｓｐｓの値は、０に等しいと推論され得る。
ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｉｃｓは、スライスヘッダの中で、直接シグナリングされる現在のピクチャのロングタームＲＰＳ内のエントリの数を規定し得る。存在しない場合、ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｐｉｃｓの値は、０に等しいと推論され得る。
ｌｔ＿ｉｄｘ＿ｓｐｓ［ｉ］は、現在のピクチャのロングタームＲＰＳ内のｉ番目のエントリの、アクティブなＳＰＳ内で規定される候補のロングターム参照ピクチャのリストへのインデックスを規定し得る。ｌｔ＿ｉｄｘ＿ｓｐｓ［ｉ］を表現するために使用されるビットの数は、Ｃｅｉｌ（Ｌｏｇ２（ｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃｓ＿ｓｐｓ））に等しくてよい。存在しない場合、ｌｔ＿ｉｄｘ＿ｓｐｓ［ｉ］の値は、０に等しいと推論され得る。ｌｔ＿ｉｄｘ＿ｓｐｓ［ｉ］の値は、０からｎｕｍ＿ｌｏｎｇ＿ｔｅｒｍ＿ｒｅｆ＿ｐｉｃｓ＿ｓｐｓ−１（それらを含む）の範囲にあり得る。
ｐｏｃ＿ｌｓｂ＿ｌｔ［ｉ］は、現在のピクチャのロングタームＲＰＳ内のｉ番目のエントリの、ＭａｘＰｉｃＯｒｄｅｒＣｎｔＬｓｂを法とするピクチャ順序のカウント数を規定し得る。ｐｏｃ＿ｌｓｂ＿ｌｔ［ｉ］シンタックス要素の長さは、ｌｏｇ２＿ｍａｘ＿ｐｉｃ＿ｏｒｄｅｒ＿ｃｎｔ＿ｌｓｂ＿ｍｉｎｕｓ４＋４ビットであり得る。
０に等しいｕｓｅｄ＿ｂｙ＿ｃｕｒｒ＿ｐｉｃ＿ｌｔ＿ｆｌａｇ［ｉ］は、現在のピクチャのロングタームＲＰＳ内のｉ番目のエントリが、現在のピクチャによる参照のために使用されないことを規定し得る。
１に等しいｄｅｌｔａ＿ｐｏｃ＿ｍｓｂ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ［ｉ］は、ｄｅｌｔａ＿ｐｏｃ＿ｍｓｂ＿ｃｙｃｌｅ＿ｌｔ［ｉ］が存在することを規定し得る。０に等しいｄｅｌｔａ＿ｐｏｃ＿ｍｓｂ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ［ｉ］は、ｄｅｌｔａ＿ｐｏｃ＿ｍｓｂ＿ｃｙｃｌｅ＿ｌｔ［ｉ］が存在しないことを規定し得る。
ｄｅｌｔａ＿ｐｏｃ＿ｍｓｂ＿ｃｙｃｌｅ＿ｌｔ［ｉ］は、現在のピクチャのロングタームＲＰＳ内のｉ番目のエントリの、ピクチャ順序のカウント値の最上位ビットの値を決定するために使用され得る。ｄｅｌｔａ＿ｐｏｃ＿ｍｓｂ＿ｃｙｃｌｅ＿ｌｔ［ｉ］が存在しない場合、それは０に等しいと推論され得る。

[0096]本明細書に記載される様々な実施形態では、複数のアップサンプリングフィルタは、複数のレイヤ間参照ピクチャを生成するために利用され得る。相異なるアップサンプリングフィルタは、相異なる周波数応答を表すように設計され得る。これらのピクチャは、参照ピクチャリストに挿入され得、現在のピクチャをコーディングするためのレイヤ間参照ピクチャとして使用され得る。そのようなアップサンプリングフィルタとは関係なく、本明細書に記載される技法、方法、および実施形態は、また、任意の他の種類のレイヤ間フィルタに適用できる。

ＳＰＳまたはＶＰＳの中で代替のフィルタセットをシグナリングすること
[0097]代替のレイヤ間フィルタは、事前定義され得るか、またはＳＰＳもしくはＶＰＳの中で明示的にシグナリングされ得る。たとえば、いくつかの実施形態では、レイヤ間フィルタのうちのいくつかまたはすべては、事前定義され得る。レイヤ間フィルタは、また、シーケンスパラメータセットまたはビデオパラメータセットの中でシグナリングされ得る。いくつかの実施形態では、レイヤ間フィルタは、少なくとも１つのデフォルトのレイヤ間フィルタと、シーケンスパラメータセット、ビデオパラメータセット、またはスライスヘッダの中でシグナリングされる少なくとも１つの代替のレイヤ間フィルタとを備える。レイヤ間フィルタのうちの任意のものが、ＳＰＳの中で明示的にシグナリングされる場合、表３に示されるシンタックスが使用され得る。

[0098]表３の変数は、次のように記述され得る。
ｎｕｍ＿ａｌｔ＿ｆｉｌｔｅｒ＿ｓｐｓは、代替のフィルタの数を規定し得る。
ｎｕｍ＿ａｌｔ＿ｆｉｌｔｅｒ＿ｔａｐ＿ｍｉｎｕｓ３＿ｌｕｍａおよびｎｕｍ＿ａｌｔ＿ｆｉｌｔｅｒ＿ｔａｐ＿ｍｉｎｕｓ３＿ｃｈｒｏｍａは、それぞれ、ルーマフィルタタップおよびクロマフィルタタップから３を差し引いて規定し得る。
ｌｕｍａ＿ｐｈａｓｅ＿ｆｌａｇ［ｉ］［ｋ］およびｃｈｒｏｍａ＿ｐｈａｓｅ＿ｆｌａｇ［ｉ］［ｋ］は、ｉ番目のフィルタのフェーズｋが存在することを示し得る。１は、存在することを意味し得る。０は、存在しないことを意味し得る。
ｆｉｌｔｅｒ＿ｔａｐ＿ｌｕｍａ［ｉ］［ｋ］［ｊ］およびｆｉｌｔｅｒ＿ｔａｐ＿ｃｈｒｏｍａ［ｉ］［ｋ］［ｊ］は、ビットを削減するために差分コーディングされ得る、フィルタタップの値を表現し得る。これらのフィルタは、異なるベースレイヤの参照ピクチャを生成するために使用され得る。シンタックスが存在しない場合、値は、事前定義されたデフォルトのフィルタの値に等しく設定され得る。

[0099]別の実施形態では、ルーマフィルタおよびクロマフィルタは、一対であり得る。この実施形態では、表４に示すシンタックスが使用され得る。暗に事前定義されたフィルタおよび明示的にシグナリングされるフィルタは、２つのリストを形成するために順序付けられ得る。リスト内でのフィルタの相対位置は、特定の規則に従い得る。

スライスヘッダの中で代替のフィルタセットをシグナリングすること
[0100]代替のレイヤ間フィルタは、また、スライスヘッダの中でシグナリングされ得る。レイヤ間フィルタのうちの任意のものがスライスヘッダの中でシグナリングされる場合、表５に示すシンタックスが使用され得る。

[0101]表５の変数は、次のように記述され得る。
ｎｕｍ＿ｉｌｒ＿ｐｉｃｔｕｒｅ＿ｍｉｎｕｓ１は、レイヤ間参照ピクチャの数から１を差し引いた数を規定し得る。
ａｌｔ＿ｆｉｌｔｅｒ＿ｉｄｘ＿ｌｕｍａ［ｉ］およびａｌｔ＿ｆｉｌｔｅｒ＿ｉｄｘ＿ｃｈｒｏｍａ［ｉ］は、ｉ番目の代替のルーマフィルタおよびクロマフィルタのインデックスをそれぞれ規定し得る。
ｄｅｆａｕｌｔ＿ｆｉｌｔｅｒ＿ｉｄｘ［ｉ］は、ｉ番目のデフォルトのフィルタのインデックスを規定し得る。
ｎｕｍ＿ｄｅｆａｕｌｔ＿ｆｉｌｔｅｒ＿ｕｓｅｄは、シグナリングされない、使用される事前定義されたフィルタの数を規定し得る。規定されない場合、値は１に設定され得る。
ｎｕｍ＿ａｌｔ＿ｆｉｌｔｅｒは、ｎｕｍ＿ｉｌｒ＿ｐｉｃｔｕｒｅ＿ｍｉｎｕｓ１＋１−ｎｕｍ＿ｄｅｆａｕｌｔ＿ｆｉｌｔｅｒ＿ｕｓｅｄに等しくてよい。

[0102]一般に、通常は少なくとも１つの、利用できるデフォルトのフィルタが存在する。特定のｉについてａｌｔ＿ｆｉｌｔｅｒ＿ｉｄｘ＿ｌｕｍａ［ｉ］およびａｌｔ＿ｆｉｌｔｅｒ＿ｉｄｘ＿ｃｈｒｏｍａ［ｉ］の一方が利用できない場合、第１のデフォルトのフィルタは、表６に示すように、利用できないもののために使用され得る。表６における値ａｌｔ＿ｆｉｌｔｅｒ＿ｉｄｘ［ｉ］は、シグナリングされる代替のフィルタのフィルタインデックスを規定し得る。

[0103]別の実施形態では、１つのデフォルトのレイヤ間フィルタおよび１つの事前定義された（または、シグナリングされた）代替のレイヤ間フィルタが、使用され得る。たとえば、ＳＰＳ内で、フラグｓｐｓ＿ａｌｔ＿ｆｉｌｔｅｒ＿ｅｎａｂｌｅ＿ｆｌａｇは、選択されたレイヤ間フィルタの表示に対するスライスレベルのシンタックスの存在を制御するためにシグナリングされ得る。このフラグが１に等しい場合、関係するシンタックスは、スライスヘッドの中でシグナリングされ得る。このフラグは、また、ＶＰＳ（ビデオパラメータセット）においてシグナリングされ得る。

[0104]スライスヘッダの中で、一例として、以下のシンタックスがシグナリングされ得る。

[0105]ａｌｔｅｒｎａｔｉｖｅ＿ｆｉｌｔｅｒ＿ｕｓｅｄ＿ｆｌａｇが０に等しい場合、デフォルトのフィルタが使用され得る。ａｌｔｅｒｎａｔｉｖｅ＿ｆｉｌｔｅｒ＿ｕｓｅｄ＿ｆｌａｇが１に等しい場合、代替のフィルタが使用され得る。加えて、コーディングされるピクチャに対するすべてのスライスのａｌｔｅｒｎａｔｉｖｅ＿ｆｉｌｔｅｒ＿ｕｓｅｄ＿ｆｌａｇは、同じ値を有し得る。

[0106]別の実施形態では、以下のシンタックスが、スライスヘッダの中でシグナリングされ得る。

同じピクチャ内の第１のスライスの後のスライスは、第１のスライスと同じフィルタを共有し得る。

[0107]別の例では、以下のシンタックスが、スライスヘッダの中でシグナリングされ得る。

ａｌｔｅｒｎａｔｉｖｅ＿ｆｉｌｔｅｒ＿ｕｓｅｄ＿ｉｄｃが０に等しい場合、デフォルトのフィルタのみが使用され得、一方、ａｌｔｅｒｎａｔｉｖｅ＿ｆｉｌｔｅｒ＿ｕｓｅｄ＿ｉｄｃが１に等しい場合、代替のフィルタのみが使用され得る。ａｌｔｅｒｎａｔｉｖｅ＿ｆｉｌｔｅｒ＿ｕｓｅｄが２に等しい場合、２つのフィルタの両方が使用され得る。２つのフィルタが使用される場合、２つのレイヤ間参照ピクチャが２つのフィルタを用いて生成され得る。加えて、コーディングされるピクチャに対するすべてのスライスのａｌｔｅｒｎａｔｉｖｅ＿ｆｉｌｔｅｒ＿ｕｓｅｄ＿ｉｄｃは、同じ値を有し得る。

[0108]どのフィルタが使用されるかにかかわらず、これらのフィルタによって導き出される参照ピクチャは、同じ動きフィールド（予測モード、動きベクトル、参照ｉｄｘ他を含む）の情報（空間的スケーラビリティの場合はアップサンプルされる）と、同じＰＯＣとを共有し得る。いくつかの実施形態では、これらのレイヤ間参照ピクチャのすべては、それらがレイヤ間参照ピクチャセットに加えられるとき、ロング参照ピクチャとしてマークされ得る。

双方向予測を制限すること
[0109]アップサンプリングの複雑さを低減するために、特定のＰＵに対して双方向予測が使用される場合、利用できる複数のフィルタされた参照ピクチャのうちのせいぜい１つが使用されることを許されるという、適合する制限が、適用され得る。たとえば、複数のレイヤ間参照ピクチャのうちのせいぜい１つが、現在のピクチャをコーディングするために使用されるために利用できるという制限が、適用され得る。

レイヤ間参照ピクチャセットの構成および参照ピクチャリストの初期化
[0110]エンハンスメントレイヤのピクチャを符号化および／または復号するためにｓｍレイヤ間参照ピクチャセットを構成する場合、代替のフィルタを用いて生成されるレイヤ間参照ピクチャは、デフォルトのフィルタによって生成されるレイヤ間参照ピクチャの後に（または、前に）、加えられ得る。一般に、レイヤ間参照ピクチャは、上述のフィルタインデックスの順序で、レイヤ間参照ピクチャセットに加えられ得る。たとえば、レイヤ間フィルタが、１つまたは複数のデフォルトのレイヤ間フィルタと、１つまたは複数の代替のレイヤ間フィルタとを備える場合、１つまたは複数の代替のレイヤ間フィルタを使用して生成されるレイヤ間参照ピクチャをレイヤ間参照ピクチャセットに加える前に、１つまたは複数のデフォルトのレイヤ間フィルタを使用して生成されるレイヤ間参照ピクチャは、レイヤ間参照ピクチャセットに加えられ得る。

[0111]スライスのための参照ピクチャリストを初期化するとき、レイヤ間参照ピクチャセットからの参照ピクチャは、リスト０およびリスト１に同じ順序で加えられ得る。代替的に、スライスに対する参照ピクチャリストを初期化するとき、レイヤ間参照ピクチャセットからの参照ピクチャは、リスト０に昇順で加えられ得、リスト１に逆の順序で加えられる。

シグナリングされる係数における制約
[0112]レイヤ間フィルタの正および負の係数の合計は、フィルタする処理における最悪のケースの内部ピクセル値のビット深度を決定する。固定のレイヤ間フィルタにとって、中間データのダイナミックレンジは、事前定義されたフィルタ係数に従って導き出され得る。しかしながら、適応的にシグナリングされるフィルタにとって、この情報は知られていないことがある。中間データのダイナミックレンジを制限するために、フィルタする処理において、制約は、レイヤ間フィルタの正および負の係数の合計に課せられ得る。変数ｐｏｓｉｔｉｖｅ＿ｓｕｍ＿ｂｏｕｎｄおよびｎｅｇａｔｉｖｅ＿ｓｕｍ＿ｂｏｕｎｄのしきい値は、コーデック内で事前定義され、ハードコーディングされ得る。この値は、また、ＳＰＳまたはＶＰＳなどの中のビットストリーム内でシグナリングされ得る。

[0113]シグナリングされるレイヤ間フィルタの正の係数の合計は、ｐｏｓｉｔｉｖｅ＿ｓｕｍ＿ｂｏｕｎｄよりも大きくてはならず、シグナリングされるレイヤ間フィルタの負の係数の合計は、ｎｅｇａｔｉｖｅ＿ｓｕｍ＿ｂｏｕｎｄよりも小さくてはならないという、ビットストリームの制約を有することを求められるかもしれない。

[0114]一実施形態では、１つのフィルタの係数の合計は、（１＜＜Ｎ）となるように制限され得、ここで、Ｎは、フィルタ係数のダイナミックレンジを示す。Ｎの典型的な値は、６であり得、これはＳＨＶＣで使用される現在の固定のフィルタと同じである。フィルタ係数の合計の制限が（１＜＜Ｎ）に等しいことを考慮すると、ｎｅｇａｔｉｖｅ＿ｓｕｍ＿ｂｏｕｎｄは、ｐｏｓｉｔｉｖｅ＿ｓｕｍ＿ｂｏｕｎｄ−（１＜＜Ｎ）としてから導き出され（be derived from as positive_sum_bound - (1<<N)）得る。したがって、本実施形態にとってのフィルタの正の係数の合計を制約することは十分であり得る。

[0115]別の実施形態では、別の制約が使用され得る。たとえば、ある特定のフィルタ係数の絶対値は、ある種のしきい値よりも大きくてはならないように制約され得る。このしきい値は、前述のｐｏｓｉｔｉｖｅ＿ｓｕｍ＿ｂｏｕｎｄの値の値よりも小さいかもしれない。本明細書に記載されるこの規範的な制約の機構は、また、フィルタ係数がビットストリームの中でシグナリングされる任意の他の種類の適応フィルタに適用され得る。

ビデオデータをコーディングする方法
[0116]図８は、実施形態によるビデオデータをコーディングするための例示的な方法を示す。方法８００は、たとえば、ビデオエンコーダ２０またはビデオデコーダ３０の１つまたは複数の構成要素によって実行され得る。いくつかの実施形態では、本明細書に記載されるステップのうちの１つまたは複数を実施するために、他の構成要素が使用される場合がある。

[0117]ブロック８０２では、参照レイヤ、エンハンスメントレイヤ、またはそれらの両方と関連したビデオ情報が受信され得る。たとえば、ビデオ情報は、メモリから受信され得る。

[0118]ブロック８０４では、複数のレイヤ間参照ピクチャが、複数のレイヤ間フィルタと１つまたは複数の参照レイヤのピクチャとを使用して、生成され得る。たとえば、少なくとも２つのレイヤ間フィルタは、少なくとも２つのレイヤ間参照ピクチャを生成するために、参照レイヤのピクチャに適用され得る。詳細には、少なくとも２つのレイヤ間フィルタのうちの１つは、より低い周波数に対して十分な周波数応答を提供するように設計されたアップサンプリングフィルタであり得、一方、少なくとも２つのレイヤ間フィルタのうちの別のものは、より高い周波数に対して十分な周波数応答を提供するように設計されたアップサンプリングフィルタであり得る。

[0119]例に応じて、本明細書に記載される技法のうちの任意のもののいくつかの振る舞いまたは事象は、異なるシーケンスで実行され得、全体的に追加さら、マージされ、または除外され得ることが、認識されるべきである（たとえば、記載される振る舞いまたは事象のすべてが、この技法の実施のために必要であるとは限らない）。その上、いくつかの例では、振る舞いまたは事象は、たとえば、マルチスレッドの処理、割込み処理、または多数のプロセッサを用いて、連続的ではなく同時に実行され得る。

[0120]１つまたは複数の例では、述べられた機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで、実施されてもよい。ソフトウェアで実施される場合、諸機能は、１つまたは複数の命令またはコードとして、コンピュータ可読媒体上に記憶されまたはコンピュータ可読媒体を介して伝送され得、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの、有形の媒体に相当するコンピュータ可読記憶媒体、またはコンピュータプログラムの、ある場所から別の場所への、たとえば、通信プロトコルによる転送を促進する任意の媒体を含む通信媒体を含み得る。このようにして、コンピュータ可読媒体は、一般に、（１）非一時的である有形のコンピュータ可読記憶媒体または（２）信号または搬送波などの通信媒体に相当し得る。データ記憶媒体は、本開示に記載される技法の実施のために、１つもしくは複数のコンピュータまたは１つもしくは複数のプロセッサによって、命令、コードおよび／またはデータ構造を取り出すためにアクセスされ得る、任意の利用できる媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含んでもよい。

[0121]例として、それに限定されず、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ（登録商標）、ＣＤ−ＲＯＭもしくは他の光ディスク記憶装置、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、フラッシュメモリ、または命令またはデータ構造の形態で所望のプログラムコードを記憶するために使用可能であり、コンピュータによってアクセス可能な他の任意の媒体を備えることができる。同様に、いかなる接続も、コンピュータ可読媒体と当然のことながら呼ばれる。たとえば、命令が、ウェブサイト、サーバ、または他の遠隔ソースから、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して伝送される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、マイクロ波などのワイヤレス技術は、媒体の定義に含まれる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的な媒体を含まないが、代わりに、非一時的な、有形の記憶媒体を対象とすることを理解されたい。本明細書において、ディスク（disk）およびディスク（disc）は、コンパクトディスク（ＣＤ）、レーザーディスク（登録商標）、光ディスク、デジタルバーサタイルディスク（ＤＶＤ）、フロッピー（登録商標）ディスクおよびＢｌｕ−ｒａｙディスクを含み、この場合、ディスク（disk）は、通常、磁気的にデータを再生し、ディスク（disc）は、レーザーを用いてデータを光学的に再生する。上述したものの組合せも、コンピュータ可読媒体の範囲の中に含められるべきである。

[0122]命令は、１つまたは複数のデジタルシグナルプロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルロジックアレイ（ＦＰＧＡ）、または他の同等の統合された、もしくは個別の論理回路などの、１つまたは複数のプロセッサによって実行され得る。したがって、「プロセッサ」という用語は、本明細書において、前述の構造のうちの任意のものまたは本明細書に記載される技法の実施のために適当な任意の他の構造を参照し得る。加えて、いくつかの態様では、本明細書に記載される機能性は、符号化および復号のために構成され、または組み合わされたコーデックに組み込まれる、専用のハードウェア内および／またはソフトウェアモジュール内で提供され得る。また、この技法は、１つまたは複数の回路または論理要素で、完全に実施され得る。

[0123]本開示の技法は、ワイヤレスハンドセット、集積回路（ＩＣ）またはＩＣのセット（たとえば、チップセット）を含む、多種多様なデバイスまたは装置に実装され得る。様々な構成要素、モジュール、またはユニットは、開示された技法を実行するように構成されるデバイスの機能上の態様を強調するために、本開示に記載されるが、必ずしも異なるハードウェアユニットによる実現を求めるとは限らない。むしろ、上述したように、様々なユニットは、コーデックハードウェアユニットの中で組み合わされ、または、上述される１つまたは複数のプロセッサを含む、適当なソフトウェアおよび／またはファームウェアと一緒に相互作用するハードウェアユニットが集まったものによって提供され得る。様々な例が、述べられた。これらおよび他の例は、以下の特許請求の範囲の範囲内にある。

[0123]本開示の技法は、ワイヤレスハンドセット、集積回路（ＩＣ）またはＩＣのセット（たとえば、チップセット）を含む、多種多様なデバイスまたは装置に実装され得る。様々な構成要素、モジュール、またはユニットは、開示された技法を実行するように構成されるデバイスの機能上の態様を強調するために、本開示に記載されるが、必ずしも異なるハードウェアユニットによる実現を求めるとは限らない。むしろ、上述したように、様々なユニットは、コーデックハードウェアユニットの中で組み合わされ、または、上述される１つまたは複数のプロセッサを含む、適当なソフトウェアおよび／またはファームウェアと一緒に相互作用するハードウェアユニットが集まったものによって提供され得る。様々な例が、述べられた。これらおよび他の例は、以下の特許請求の範囲の範囲内にある。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］ビデオ情報をコーディングするように構成される装置であって、
参照レイヤ、エンハンスメントレイヤ、またはそれらの両方と関連したビデオ情報を記憶するように構成されるメモリと、
前記メモリと通信するプロセッサと、前記プロセッサは、複数のレイヤ間フィルタと１つまたは複数の参照レイヤのピクチャとを使用して、複数のレイヤ間参照ピクチャを生成するように構成され、
を備える、装置。
［Ｃ２］前記プロセッサは、前記複数のレイヤ間参照ピクチャを参照ピクチャリストに挿入するように、さらに構成される、Ｃ１に記載の装置。
［Ｃ３］前記プロセッサは、前記参照ピクチャリストを使用して、前記エンハンスメントレイヤ内の現在のピクチャをコーディングするように、さらに構成される、Ｃ２に記載の装置。
［Ｃ４］前記レイヤ間フィルタは、アップサンプリングフィルタを備える、Ｃ１に記載の装置。
［Ｃ５］前記レイヤ間フィルタは、事前定義される、Ｃ１に記載の装置。
［Ｃ６］前記レイヤ間フィルタは、シーケンスパラメータセットまたはビデオパラメータセットの中でシグナリングされる、Ｃ１に記載の装置。
［Ｃ７］前記レイヤ間フィルタは、スライスヘッダの中でシグナリングされる、Ｃ１に記載の装置。
［Ｃ８］前記レイヤ間フィルタは、少なくとも１つのデフォルトのレイヤ間フィルタと、シーケンスパラメータセット、ビデオパラメータセット、またはスライスヘッダの中で、シグナリングされる少なくとも１つの代替のレイヤ間フィルタとを備える、Ｃ１に記載の装置。
［Ｃ９］前記プロセッサは、前記複数のレイヤ間参照ピクチャのうちのせいぜい１つが、現在のピクチャをコーディングするために使用されるように利用できるという制限を適用するように、さらに構成される、Ｃ１に記載の装置。
［Ｃ１０］前記レイヤ間フィルタは、１つまたは複数のデフォルトのレイヤ間フィルタと、１つまたは複数の代替のレイヤ間フィルタとを備え、
前記プロセッサは、前記１つまたは複数の代替のレイヤ間フィルタを使用して生成されるレイヤ間参照ピクチャをレイヤ間参照ピクチャセットに加える前に、前記１つまたは複数のデフォルトのレイヤ間フィルタを使用して生成されるレイヤ間参照ピクチャを前記レイヤ間参照ピクチャセットに加えるように、さらに構成される、Ｃ１に記載の装置。
［Ｃ１１］前記装置は、エンコーダを備え、前記プロセッサは、前記レイヤ間フィルタと関連したシンタックス要素を生成するように、さらに構成される、Ｃ１に記載の装置。
［Ｃ１２］前記装置は、デコーダを備え、前記プロセッサは、前記レイヤ間フィルタと関連したシンタックス要素を処理するように、さらに構成される、Ｃ１に記載の装置。
［Ｃ１３］前記装置が、前記メモリと前記プロセッサとを備える、デジタルテレビジョン、デジタルダイレクトブロードキャストシステム、ワイヤレスブロードキャストシステム、携帯情報端末（ＰＤＡ）、ラップトップコンピュータまたはデスクトップコンピュータ、デジタルカメラ、デジタル記録デバイス、デジタルメディアプレーヤ、ビデオゲームデバイス、ビデオゲームコンソール、携帯電話または衛星無線電話、およびビデオ遠隔会議デバイス、ならびにそれらの組合せの中から選択された、少なくとも１つのメンバをさらに備える、Ｃ１に記載の装置。
［Ｃ１４］ビデオ情報をコーディングする方法であって、
参照レイヤ、エンハンスメントレイヤ、またはそれらの両方と関連したビデオ情報を受信することと、
複数のレイヤ間フィルタと１つまたは複数の参照レイヤのピクチャとを使用して、複数のレイヤ間参照ピクチャを生成することと
を備える、方法。
［Ｃ１５］前記複数のレイヤ間参照ピクチャを参照ピクチャリストに挿入することをさらに備える、Ｃ１４に記載の方法。
［Ｃ１６］前記参照ピクチャリストを使用して、前記エンハンスメントレイヤ内の現在のピクチャをコーディングすることをさらに備える、Ｃ１５に記載の方法。
［Ｃ１７］前記レイヤ間フィルタは、アップサンプリングフィルタを備える、Ｃ１４に記載の方法。
［Ｃ１８］前記レイヤ間フィルタのうちの少なくとも１つは、事前定義される、Ｃ１４に記載の方法。
［Ｃ１９］前記レイヤ間フィルタは、シーケンスパラメータセットまたはビデオパラメータセットの中でシグナリングされる、Ｃ１４に記載の方法。
［Ｃ２０］前記レイヤ間フィルタは、スライスヘッダの中でシグナリングされる、Ｃ１４に記載の方法。
［Ｃ２１］前記レイヤ間フィルタは、少なくとも１つのデフォルトのレイヤ間フィルタと、シーケンスパラメータセット、ビデオパラメータセット、またはスライスヘッダの中でシグナリングされる少なくとも１つの代替のレイヤ間フィルタとを備える、Ｃ１４に記載の方法。
［Ｃ２２］前記複数のレイヤ間参照ピクチャのうちのせいぜい１つが、現在のピクチャをコーディングするために使用されるように利用できるという制限を適用することを、さらに備える、Ｃ１４に記載の方法。
［Ｃ２３］前記レイヤ間フィルタは、１つまたは複数のデフォルトのレイヤ間フィルタと、１つまたは複数の代替のレイヤ間フィルタとを備え、前記方法は、前記１つまたは複数の代替のレイヤ間フィルタを使用して生成されるレイヤ間参照ピクチャをレイヤ間参照ピクチャセットに加える前に、前記１つまたは複数のデフォルトのレイヤ間フィルタを使用して生成されるレイヤ間参照ピクチャを前記レイヤ間参照ピクチャセットに加えることを、さらに備える、Ｃ１４に記載の方法。
［Ｃ２４］前記レイヤ間フィルタは、１つまたは複数のデフォルトのレイヤ間フィルタと、１つまたは複数の代替のレイヤ間フィルタとを備え、前記方法は、前記１つまたは複数のデフォルトのレイヤ間フィルタか、それとも前記１つまたは複数の代替のレイヤ間フィルタが、前記複数のレイヤ間参照ピクチャを生成するために使用されるかどうかを示すフラグを受信することを、さらに備える、Ｃ１４に記載の方法。
［Ｃ２５］コーディングすることは、符号化することを備え、前記方法は、前記レイヤ間フィルタと関連したシンタックス要素を生成することを、さらに備える、Ｃ１４に記載の方法。
［Ｃ２６］コーディングすることは、復号することを備え、前記方法は、前記レイヤ間フィルタと関連したシンタックス要素を処理することを、さらに備える、Ｃ１４に記載の方法。
［Ｃ２７］参照レイヤ、エンハンスメントレイヤ、またはそれらの両方と関連したビデオ情報を受信するための手段と、
複数のレイヤ間フィルタと１つまたは複数の参照レイヤのピクチャとを使用して、複数のレイヤ間参照ピクチャを生成するための手段と
を備える、ビデオコーディング装置。
［Ｃ２８］前記レイヤ間フィルタは、少なくとも１つのデフォルトのレイヤ間フィルタと、シーケンスパラメータセット、ビデオパラメータセット、またはスライスヘッダの中でシグナリングされる少なくとも１つの代替のレイヤ間フィルタとを備える、Ｃ２７に記載のビデオコーディング装置。
［Ｃ２９］実行されるとき、装置に、
参照レイヤ、エンハンスメントレイヤ、またはそれらの両方と関連したビデオ情報を受信することと、
複数のレイヤ間フィルタと１つまたは複数の参照レイヤのピクチャとを使用して、複数のレイヤ間参照ピクチャを生成することと、
を行わせるコードをそこに記憶した、非一時的なコンピュータ可読媒体。
［Ｃ３０］前記レイヤ間フィルタは、少なくとも１つのデフォルトのレイヤ間フィルタと、シーケンスパラメータセット、ビデオパラメータセット、またはスライスヘッダの中でシグナリングされる少なくとも１つの代替のレイヤ間フィルタとを備える、Ｃ２９に記載の非一時的なコンピュータ可読媒体。

Claims

ビデオ情報をコーディングするように構成される装置であって、
参照レイヤ、エンハンスメントレイヤ、またはそれらの両方と関連したビデオ情報を記憶するように構成されるメモリと、
前記メモリと通信するプロセッサと、前記プロセッサは、複数のレイヤ間フィルタと１つまたは複数の参照レイヤのピクチャとを使用して、複数のレイヤ間参照ピクチャを生成するように構成され、
を備える、装置。
前記プロセッサは、前記複数のレイヤ間参照ピクチャを参照ピクチャリストに挿入するように、さらに構成される、請求項１に記載の装置。
前記プロセッサは、前記参照ピクチャリストを使用して、前記エンハンスメントレイヤ内の現在のピクチャをコーディングするように、さらに構成される、請求項２に記載の装置。
前記レイヤ間フィルタは、アップサンプリングフィルタを備える、請求項１に記載の装置。
前記レイヤ間フィルタは、事前定義される、請求項１に記載の装置。
前記レイヤ間フィルタは、シーケンスパラメータセットまたはビデオパラメータセットの中でシグナリングされる、請求項１に記載の装置。
前記レイヤ間フィルタは、スライスヘッダの中でシグナリングされる、請求項１に記載の装置。
前記レイヤ間フィルタは、少なくとも１つのデフォルトのレイヤ間フィルタと、シーケンスパラメータセット、ビデオパラメータセット、またはスライスヘッダの中で、シグナリングされる少なくとも１つの代替のレイヤ間フィルタとを備える、請求項１に記載の装置。
前記プロセッサは、前記複数のレイヤ間参照ピクチャのうちのせいぜい１つが、現在のピクチャをコーディングするために使用されるように利用できるという制限を適用するように、さらに構成される、請求項１に記載の装置。
前記レイヤ間フィルタは、１つまたは複数のデフォルトのレイヤ間フィルタと、１つまたは複数の代替のレイヤ間フィルタとを備え、
前記プロセッサは、前記１つまたは複数の代替のレイヤ間フィルタを使用して生成されるレイヤ間参照ピクチャをレイヤ間参照ピクチャセットに加える前に、前記１つまたは複数のデフォルトのレイヤ間フィルタを使用して生成されるレイヤ間参照ピクチャを前記レイヤ間参照ピクチャセットに加えるように、さらに構成される、請求項１に記載の装置。
前記装置は、エンコーダを備え、前記プロセッサは、前記レイヤ間フィルタと関連したシンタックス要素を生成するように、さらに構成される、請求項１に記載の装置。
前記装置は、デコーダを備え、前記プロセッサは、前記レイヤ間フィルタと関連したシンタックス要素を処理するように、さらに構成される、請求項１に記載の装置。
前記装置が、前記メモリと前記プロセッサとを備える、デジタルテレビジョン、デジタルダイレクトブロードキャストシステム、ワイヤレスブロードキャストシステム、携帯情報端末（ＰＤＡ）、ラップトップコンピュータまたはデスクトップコンピュータ、デジタルカメラ、デジタル記録デバイス、デジタルメディアプレーヤ、ビデオゲームデバイス、ビデオゲームコンソール、携帯電話または衛星無線電話、およびビデオ遠隔会議デバイス、ならびにそれらの組合せの中から選択された、少なくとも１つのメンバをさらに備える、請求項１に記載の装置。
ビデオ情報をコーディングする方法であって、
参照レイヤ、エンハンスメントレイヤ、またはそれらの両方と関連したビデオ情報を受信することと、
複数のレイヤ間フィルタと１つまたは複数の参照レイヤのピクチャとを使用して、複数のレイヤ間参照ピクチャを生成することと
を備える、方法。
前記複数のレイヤ間参照ピクチャを参照ピクチャリストに挿入することをさらに備える、請求項１４に記載の方法。
前記参照ピクチャリストを使用して、前記エンハンスメントレイヤ内の現在のピクチャをコーディングすることをさらに備える、請求項１５に記載の方法。
前記レイヤ間フィルタは、アップサンプリングフィルタを備える、請求項１４に記載の方法。
前記レイヤ間フィルタのうちの少なくとも１つは、事前定義される、請求項１４に記載の方法。
前記レイヤ間フィルタは、シーケンスパラメータセットまたはビデオパラメータセットの中でシグナリングされる、請求項１４に記載の方法。
前記レイヤ間フィルタは、スライスヘッダの中でシグナリングされる、請求項１４に記載の方法。
前記レイヤ間フィルタは、少なくとも１つのデフォルトのレイヤ間フィルタと、シーケンスパラメータセット、ビデオパラメータセット、またはスライスヘッダの中でシグナリングされる少なくとも１つの代替のレイヤ間フィルタとを備える、請求項１４に記載の方法。
前記複数のレイヤ間参照ピクチャのうちのせいぜい１つが、現在のピクチャをコーディングするために使用されるように利用できるという制限を適用することを、さらに備える、請求項１４に記載の方法。
前記レイヤ間フィルタは、１つまたは複数のデフォルトのレイヤ間フィルタと、１つまたは複数の代替のレイヤ間フィルタとを備え、前記方法は、前記１つまたは複数の代替のレイヤ間フィルタを使用して生成されるレイヤ間参照ピクチャをレイヤ間参照ピクチャセットに加える前に、前記１つまたは複数のデフォルトのレイヤ間フィルタを使用して生成されるレイヤ間参照ピクチャを前記レイヤ間参照ピクチャセットに加えることを、さらに備える、請求項１４に記載の方法。
前記レイヤ間フィルタは、１つまたは複数のデフォルトのレイヤ間フィルタと、１つまたは複数の代替のレイヤ間フィルタとを備え、前記方法は、前記１つまたは複数のデフォルトのレイヤ間フィルタか、それとも前記１つまたは複数の代替のレイヤ間フィルタが、前記複数のレイヤ間参照ピクチャを生成するために使用されるかどうかを示すフラグを受信することを、さらに備える、請求項１４に記載の方法。
コーディングすることは、符号化することを備え、前記方法は、前記レイヤ間フィルタと関連したシンタックス要素を生成することを、さらに備える、請求項１４に記載の方法。
コーディングすることは、復号することを備え、前記方法は、前記レイヤ間フィルタと関連したシンタックス要素を処理することを、さらに備える、請求項１４に記載の方法。
参照レイヤ、エンハンスメントレイヤ、またはそれらの両方と関連したビデオ情報を受信するための手段と、
複数のレイヤ間フィルタと１つまたは複数の参照レイヤのピクチャとを使用して、複数のレイヤ間参照ピクチャを生成するための手段と
を備える、ビデオコーディング装置。
前記レイヤ間フィルタは、少なくとも１つのデフォルトのレイヤ間フィルタと、シーケンスパラメータセット、ビデオパラメータセット、またはスライスヘッダの中でシグナリングされる少なくとも１つの代替のレイヤ間フィルタとを備える、請求項２７に記載のビデオコーディング装置。
実行されるとき、装置に、
参照レイヤ、エンハンスメントレイヤ、またはそれらの両方と関連したビデオ情報を受信することと、
複数のレイヤ間フィルタと１つまたは複数の参照レイヤのピクチャとを使用して、複数のレイヤ間参照ピクチャを生成することと、
を行わせるコードをそこに記憶した、非一時的なコンピュータ可読媒体。
前記レイヤ間フィルタは、少なくとも１つのデフォルトのレイヤ間フィルタと、シーケンスパラメータセット、ビデオパラメータセット、またはスライスヘッダの中でシグナリングされる少なくとも１つの代替のレイヤ間フィルタとを備える、請求項２９に記載の非一時的なコンピュータ可読媒体。