JP2022525024A

JP2022525024A - ビデオコーディングにおける暗黙的な変換選択

Info

Publication number: JP2022525024A
Application number: JP2021552915A
Authority: JP
Inventors: エイイレメゼ、ヒルミ・エネス; サイド、アミール; セレジン、バディム; カルチェビチ、マルタ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2019-03-12
Filing date: 2020-03-12
Publication date: 2022-05-11
Also published as: SG11202109072PA; CO2021011797A2; US11539952B2; CL2021002369A1; WO2020186042A1; US20200296370A1; IL285755A; CA3131886A1; CN113545053A; KR20210135245A; BR112021017451A2; TW202041017A; MX2021010861A; AU2020235621A1; EP3939280A1

Abstract

例示的な方法は、現在のビデオブロックの現在の変換ブロックのために、１つまたは複数の離散コサイン変換（ＤＣＴ）と１つまたは複数の離散サイン変換（ＤＳＴ）とを含む複数の変換タイプから変換タイプを推測することと、ここにおいて、変換タイプを推測することは、現在の変換ブロックのサイズを決定することと、現在のビデオブロックがイントラサブブロック区分（ＩＳＰ）を使用して区分されるのかどうかを決定することと、現在の変換ブロックのサイズがしきい値よりも小さいと決定し、現在のビデオブロックがＩＳＰを使用して区分されると決定することに応答して、選択された変換タイプとして１つまたは複数のＤＳＴのうちの特定のＤＳＴを選択することとを備える、ビデオブロックのための再構成された残差データのブロックを取得するために、選択された変換タイプを使用して現在の変換ブロックを変換することと、ビデオブロックのための再構成された残差データに基づいて、ビデオブロックを再構成することとを備える、を含む。

Description

[0001] 本出願は、その内容全体が参照により本明細書に組み込まれる、２０１９年３月１２日に出願された米国仮特許出願第６２／８１７，３９７号の利益を主張する２０２０年３月１１日に出願された米国特許出願第１６／８１５，９２０号の優先権を主張する。

[0002] 本開示は、ビデオ符号化（video encoding）およびビデオ復号（video encoding）に関する。

[0003] デジタルビデオ能力は、デジタルテレビジョン、デジタルダイレクトブロードキャストシステム、ワイヤレスブロードキャストシステム、携帯情報端末（ＰＤＡ）、ラップトップまたはデスクトップコンピュータ、タブレットコンピュータ、電子ブックリーダー、デジタルカメラ、デジタルレコーディングデバイス、デジタルメディアプレーヤ、ビデオゲーミングデバイス、ビデオゲーム機、セルラーまたは衛星無線電話、いわゆる「スマートフォン」、ビデオ遠隔会議デバイス、ビデオストリーミングデバイスなどを含む、幅広いデバイスの中に組み込まれ得る。デジタルビデオデバイスは、ＭＰＥＧ－２、ＭＰＥＧ－４、ＩＴＵ－ＴＨ．２６３、ＩＴＵ－ＴＨ．２６４／ＭＰＥＧ－４，Ｐａｒｔ１０，アドバンストビデオコーディング（ＡＶＣ）、ＩＴＵ－ＴＨ．２６５／高効率ビデオコーディング（ＨＥＶＣ）によって定義された規格、およびそのような規格の拡張に記載されているビデオコーディング技法など、ビデオコーディング技法を実装する。ビデオデバイスは、そのようなビデオコーディング技法を実装することによって、デジタルビデオ情報をより効率的に送信、受信、符号化、復号、および／または記憶し得る。

[0004] ビデオコーディング（Video coding）技法は、ビデオシーケンスに固有の冗長性を低減または除去するための空間（イントラピクチャ）予測および／または時間（インターピクチャ）予測を含む。ブロックベースのビデオコーディングでは、ビデオスライス（たとえば、ビデオピクチャまたはビデオピクチャの一部分）が、コーディングツリーユニット（ＣＴＵ：coding tree unit）、コーディングユニット（ＣＵ：coding unit）および／またはコーディングノードと呼ばれることもある、ビデオブロック（video block）に区分され得る。ピクチャのイントラコード化（Ｉ）スライス中のビデオブロックは、同じピクチャ中の隣接ブロック中の参照サンプルに対する空間予測を使用して符号化される。ピクチャのインターコード化（ＰまたはＢ）スライス中のビデオブロックは、同じピクチャ中の隣接ブロック中の参照サンプルに対する空間予測、または他の参照ピクチャ中の参照サンプルに対する時間予測を使用し得る。ピクチャは、フレームと呼ばれることがあり、参照ピクチャは、参照フレームと呼ばれることがある。

[0005] 一例では、方法は、現在のビデオブロック（current video block）の現在の変換ブロック（current transform block）のために、１つまたは複数の離散コサイン変換（ＤＣＴ：discrete sine transform）と１つまたは複数の離散サイン変換（ＤＳＴ：discrete sine transform）とを含む複数の変換タイプ（transform type）から変換タイプを推測することと、ここにおいて、変換タイプを推測することは、現在の変換ブロックのサイズ（size）を決定することと、現在のビデオブロックがイントラサブブロック区分（ＩＳＰ：intra-subblock partitioning）を使用して区分されるのかどうかを決定することと、現在の変換ブロックのサイズがサイズしきい値（size threshold）を満たすと決定し、現在のビデオブロックがＩＳＰを使用して区分されると決定することに応答して、選択された変換タイプ（selected transform type）として１つまたは複数のＤＳＴのうちの特定のＤＳＴ（particular DST）を選択することとを備える、ビデオブロックのための再構成された残差データのブロック（reconstructed residual data）を取得するために、選択された変換タイプを使用して現在の変換ブロックを変換することと、ビデオブロックのための再構成された残差データ（reconstructed residual data）に基づいて、ビデオブロックを再構成することと、を含む。

[0006] 別の例では、デバイス（device）は、ビデオブロックを記憶するように構成されたメモリ（memory）と回路（circuitry）中に実装された１つまたは複数のプロセッサ（processor）とを含み、１つまたは複数のプロセッサは、現在のビデオブロックの現在の変換ブロックのために、１つまたは複数のＤＣＴと１つまたは複数のＤＳＴとを含む複数の変換タイプから変換タイプを推測することと、ここにおいて、変換タイプを推測するために、１つまたは複数のプロセッサは、現在の変換ブロックのサイズを決定することと、現在のビデオブロックがＩＳＰを使用して区分されるのかどうかを決定することと、現在の変換ブロックのサイズがサイズしきい値を満たすと決定し、現在のビデオブロックがＩＳＰを使用して区分されると決定することに応答して、選択された変換タイプとして１つまたは複数のＤＳＴのうちの特定のＤＳＴを選択することとを行うように構成される、ビデオブロックのための再構成された残差データのブロック（block）を取得するために、選択された変換タイプを使用して現在の変換ブロックを変換することと、ビデオブロックのための再構成された残差データに基づいて、ビデオブロックを再構成することと、を行うように構成される。

[0007] 別の例では、コンピュータ可読記憶媒体（computer-readable storage medium）は、実行されたとき、ビデオコーディングデバイスの１つまたは複数のプロセッサに、現在のビデオブロックの現在の変換ブロックのために、１つまたは複数のＤＣＴと１つまたは複数のＤＳＴとを含む複数の変換タイプから変換タイプを推測することと、ここにおいて、変換タイプを推測することを１つまたは複数のプロセッサに行わせる命令は、１つまたは複数のプロセッサに、現在の変換ブロックのサイズを決定することと、現在のビデオブロックがＩＳＰを使用して区分されるのかどうかを決定することと、現在の変換ブロックのサイズがサイズしきい値を満たすと決定し、現在のビデオブロックがＩＳＰを使用して区分されると決定することに応答して、選択された変換タイプとして１つまたは複数のＤＳＴのうちの特定のＤＳＴを選択することとを行わせる命令を備える、ビデオブロックのための再構成された残差データのブロックを取得するために、選択された変換タイプを使用して現在の変換ブロックを変換することと、ビデオブロックのための再構成された残差データに基づいて、ビデオブロックを再構成することと、を行わせる命令を記憶する。

[0008] 本開示の１つまたは複数の例の詳細が添付の図面および以下の説明に記載されている。本技法の様々な態様の他の特徴、目的、および利点は、説明および図面、ならびに特許請求の範囲から明らかになろう。

[0009] 本開示の技法を実行し得る例示的なビデオ符号化および復号システムを示すブロック図。 [0010] 例示的な４分木２分木（ＱＴＢＴ：quadtree binary tree）構造を示す概念図。対応するコーディングツリーユニット（ＣＴＵ）を示す概念図。 [0011] 別の例示的な４分木構造と対応するツリーユニットとを示す概念図。 [0012] 本開示の技法を実行し得る例示的なビデオエンコーダを示すブロック図。 [0013] 本開示の技法を実行し得る例示的なビデオデコーダを示すブロック図。 [0014] 適応変換選択（adaptive transform selection）を用いたハイブリッドビデオ符号化（hybrid video encoding）のためのシステムを示すブロック図。 [0015] 水平線と垂直線とが独立して変換される状態での分離可能な変換実装を示す概念図。 [0016] 本開示の１つまたは複数の技法による、ビデオコーダ（video coder）が変換を暗黙的に導出し得る例示的なブロック（block）を示す概念図。 [0017] イントラ予測方向（intra prediction direction）を示す概念図。 [0018] 現在のブロックを符号化するための例示的な方法を示すフローチャート。 [0019] 現在のブロックを復号するための例示的な方法を示すフローチャート。 [0020] 本開示の１つまたは複数の技法による、ビデオブロックの変換ブロックのための変換タイプを推測するための例示的な方法を示すフローチャート。

[0021] 概して、本開示は、ビデオコーディングにおける暗黙的な変換選択（implicit transform selection）のための技法について説明する。以下でさらに詳細に説明するように、ブロックのイントラ予測またはインター予測などの予測に続いて、ビデオエンコーダは、ブロックのための残差データを計算し得る。残差ブロックなどの残差データは、対応する予測モードを使用して形成されるブロックとブロックのための予測ブロックとの間のサンプルごとの差分を表す。ビデオエンコーダは、サンプル領域ではなく変換領域において変換されたデータを生成するために、残差ブロックに１つまたは複数の変換を適用し得る。たとえば、ビデオエンコーダは、離散コサイン変換（ＤＣＴ）を適用し得る。いくつかの例では、ビデオエンコーダは、異なるタイプの変換を利用し得る。たとえば、ビデオエンコーダは、様々なタイプのＤＣＴを使用し得る。

[0022] ビデオデコーダは、ビデオデータ（video data）を復号するときに逆変換を適用し得る。ビデオコーダが異なるタイプの変換を利用し得る場合、ビデオデコーダはどの変換がビデオエンコーダによって使用されたのかを決定する必要があり得る。いくつかの例では、ビデオエンコーダは、残差データを変換するときにどのタイプの変換が使用されたのかを明示的にシグナリングし得る（たとえば、それを示す値をもつシンタックス要素（syntax element）を符号化し得る）。しかしながら、いくつかの例では、（たとえば、シグナリングオーバーヘッドのために）使用される変換のタイプを明示的にシグナリングすることが望ましくないことがある。

[0023] 本開示の１つまたは複数の技法によれば、ビデオデコーダは、残差データを変換するときにどのタイプの変換が使用されたのかを暗黙的に決定し得る。たとえば、ビデオデコーダは、（たとえば、明示的にシグナリングされたかまたはシグナリングされた情報から暗黙的に導出されたかのいずれかの）ビデオデコーダにおいて利用可能なサイド情報に基づいて残差データを変換するときにどのタイプの変換が使用されたのかを決定するためにルールのセットを適用し得る。ビデオエンコーダは、どのタイプの変換を使用すべきかを決定するときに同じルールを適用し得る。したがって、ビデオエンコーダとビデオデコーダとはいずれも、変換タイプの明示的シグナリングなしにどのタイプの変換を使用すべきかを決定し得る。

[0024] 図１は、本開示の技法を実行し得る例示的なビデオ符号化および復号システム１００を示すブロック図である。本開示の技法は、概して、ビデオデータをコーディング（符号化および／または復号）することを対象とする。概して、ビデオデータは、ビデオを処理するための何らかのデータを含む。したがって、ビデオデータは、シグナリングデータなどの未加工の、コーディングされていないビデオと、符号化されたビデオと、復号された（たとえば、再構成された）ビデオと、ビデオメタデータ（video metadata）とを含み得る。

[0025] 図１に示されているように、システム１００は、この例では、宛先デバイス１１６によって復号および表示されるべき符号化されたビデオデータを与えるソースデバイス１０２を含む。具体的には、ソースデバイス１０２は、コンピュータ可読媒体１１０を介してビデオデータを宛先デバイス１１６に提供する。ソースデバイス１０２および宛先デバイス１１６は、デスクトップコンピュータ、ノートブック（すなわち、ラップトップ）コンピュータ、タブレットコンピュータ、セットトップボックス、スマートフォンなどの電話ハンドセット、テレビジョン、カメラ、ディスプレイデバイス、デジタルメディアプレーヤ、ビデオゲーム機、ビデオストリーミングデバイスなどを含む、広範囲のデバイスのいずれかを備え得る。いくつかの場合、ソースデバイス１０２および宛先デバイス１１６は、ワイヤレス通信に対応し得るので、ワイヤレス通信デバイスと呼ばれ得る。

[0026] 図１の例では、ソースデバイス１０２は、ビデオソース１０４と、メモリ１０６と、ビデオエンコーダ２００と、出力インターフェース１０８とを含む。宛先デバイス１１６は、入力インターフェース１２２と、ビデオデコーダ３００と、メモリ１２０と、ディスプレイデバイス１１８とを含む。本開示によれば、ソースデバイス１０２のビデオエンコーダ２００および宛先デバイス１１６のビデオデコーダ３００は、暗黙的な変換選択のための技法を適用するように構成され得る。したがって、ソースデバイス１０２はビデオ符号化デバイスの例を表し、宛先デバイス１１６はビデオ復号デバイスの例を表す。他の例では、ソースデバイスおよび宛先デバイスは他の構成要素または構成を含み得る。たとえば、ソースデバイス１０２は、外部カメラなどの外部ビデオソースからビデオデータを受信し得る。同様に、宛先デバイス１１６は、統合されたディスプレイデバイスを含むのではなく、外部ディスプレイデバイスとインターフェースし得る。

[0027] 図１に示されているシステム１００は一例にすぎない。一般に、いかなるデジタルビデオ符号化および／または復号デバイスも、暗黙的な変換選択ための技法を実行し得る。ソースデバイス１０２および宛先デバイス１１６は、ソースデバイス１０２が宛先デバイス１１６への送信のためにコーディングされたビデオデータを生成するようなコーディングデバイスの例にすぎない。本開示では、「コーディング（coding）」デバイスをデータのコーディング（符号化および／または復号）を実行するデバイスと称する。したがって、ビデオエンコーダ２００およびビデオデコーダ３００は、コーディングデバイス、特に、それぞれビデオエンコーダおよびビデオデコーダの例を表す。いくつかの例では、デバイス１０２、１１６は、デバイス１０２、１１６の各々がビデオ符号化構成要素とビデオ復号構成要素とを含むように、実質的に対称的に動作し得る。したがって、システム１００は、たとえば、ビデオストリーミング、ビデオ再生、ビデオブロードキャスト、またはビデオ電話のための、ビデオデバイス１０２とビデオデバイス１１６との間の一方向または双方向のビデオ送信をサポートし得る。

[0028] 概して、ビデオソース１０４は、ビデオデータのソース（すなわち、未加工の、コーディングされていないビデオデータ）を表し、ピクチャのためのデータを符号化するビデオエンコーダ２００にビデオデータの連続した一連のピクチャ（「フレーム」とも呼ばれる）を与える。ソースデバイス１０２のビデオソース１０４は、ビデオカメラなどのビデオキャプチャデバイス、以前にキャプチャされた未加工のビデオを包含するビデオアーカイブ、および／またはビデオコンテンツプロバイダからビデオを受信するためのビデオフィードインターフェースを含み得る。さらなる代替として、ビデオソース１０４は、ソースビデオとしてのコンピュータグラフィックスベースのデータ、またはライブビデオとアーカイブされたビデオとコンピュータで生成されたビデオとの組合せを生成し得る。各々の場合において、ビデオエンコーダ２００は、キャプチャされたビデオデータ、プリキャプチャされたビデオデータ、またはコンピュータで生成されたビデオデータを符号化する。ビデオエンコーダ２００は、ピクチャを、（「表示順序」と呼ばれることがある）受信順序から、コーディングのためのコーディング順序に並べ替え得る。ビデオエンコーダ２００は、符号化されたビデオデータを含むビットストリーム（）を生成し得る。ソースデバイス１０２は、次いで、たとえば、宛先デバイス１１６の入力インターフェース１２２による受信および／または取出しのために、出力インターフェース１０８を介して符号化されたビデオデータをコンピュータ可読媒体１１０に出力し得る。

[0029] ソースデバイス１０２のメモリ１０６と、宛先デバイス１１６のメモリ１２０とは、汎用メモリを表す。いくつかの例では、メモリ１０６、１２０は、未加工のビデオデータ、たとえば、ビデオソース１０４からの未加工のビデオ、およびビデオデコーダ３００からの未加工の、復号されたビデオデータを記憶し得る。追加または代替として、メモリ１０６、１２０は、たとえば、それぞれ、ビデオエンコーダ２００およびビデオデコーダ３００によって実行可能なソフトウェア命令を記憶し得る。この例ではビデオエンコーダ２００およびビデオデコーダ３００とは別々に示されているが、ビデオエンコーダ２００およびビデオデコーダ３００は、機能的に同等のまたは等価な目的のために内部メモリも含み得ることを理解されたい。さらに、メモリ１０６、１２０は、符号化されたビデオデータ、たとえば、ビデオエンコーダ２００からの出力、およびビデオデコーダ３００への入力を記憶し得る。いくつかの例では、メモリ１０６、１２０の部分は、たとえば、未加工の復号および／または符号化されたビデオデータを記憶するために、１つまたは複数のビデオバッファとして割り振られ得る。

[0030] コンピュータ可読媒体１１０は、ソースデバイス１０２から宛先デバイス１１６に符号化されたビデオデータを移送することが可能な任意のタイプの媒体またはデバイスを表し得る。一例では、コンピュータ可読媒体１１０は、ソースデバイス１０２が、たとえば、無線周波数ネットワークまたはコンピュータベースのネットワークを介して、符号化されたビデオデータを宛先デバイス１１６にリアルタイムで直接送信することを可能にするための通信媒体を表す。出力インターフェース１０８は、符号化されたビデオデータを含む送信信号を変調し得、入力インターフェース１２２は、ワイヤレス通信プロトコルなどの通信規格に従って、受信された送信信号を変調し得る。通信媒体は、無線周波数（ＲＦ）スペクトルまたは１つもしくは複数の物理伝送線路などの、任意のワイヤレスまたは有線の通信媒体を備え得る。通信媒体は、ローカルエリアネットワーク、ワイドエリアネットワーク、またはインターネットなどのグローバルネットワークなどの、パケットベースネットワークの一部を形成し得る。通信媒体は、ルータ、スイッチ、基地局、またはソースデバイス１０２から宛先デバイス１１６への通信を可能にするために有用であり得る任意の他の機器を含み得る。

[0031] いくつかの例では、ソースデバイス１０２は、出力インターフェース１０８から記憶デバイス１１６に符号化データを出力し得る。同様に、宛先デバイス１１６は、入力インターフェース１２２を介して記憶デバイス１１６から符号化されたデータにアクセスし得る。記憶デバイス１１６は、ハードドライブ、Ｂｌｕ－ｒａｙ（登録商標）ディスク、ＤＶＤ、ＣＤ－ＲＯＭ、フラッシュメモリ、揮発性もしくは不揮発性メモリ、または符号化されたビデオデータを記憶するための任意の他の好適なデジタル記憶媒体などの、様々な分散されたまたはローカルにアクセスされるデータ記憶媒体のいずれかを含み得る。

[0032] いくつかの例では、ソースデバイス１０２は、ソースデバイス１０２によって生成された符号化されたビデオを記憶し得るファイルサーバ１１４または別の中間記憶デバイスに符号化されたビデオデータを出力し得る。宛先デバイス１１６は、ストリーミングまたはダウンロードを介して、ファイルサーバ１１４から、記憶されたビデオデータにアクセスし得る。ファイルサーバ１１４は、符号化されたビデオデータを記憶し、その符号化されたビデオデータを宛先デバイス１１６に送信することが可能な任意のタイプのサーバデバイスであり得る。ファイルサーバ１１４は、（たとえば、ウェブサイトのための）ウェブサーバ、ファイル転送プロトコル（ＦＴＰ）サーバ、コンテンツ配信ネットワークデバイス、またはネットワーク接続ストレージ（ＮＡＳ）デバイスを表し得る。宛先デバイス１１６は、インターネット接続を含む任意の標準的なデータ接続を通してファイルサーバ１１４から符号化されたビデオデータにアクセスし得る。これは、ワイヤレスチャネル（たとえば、Ｗｉ－Ｆｉ（登録商標）接続）、有線接続（たとえば、ＤＳＬ、ケーブルモデムなど）、または、ファイルサーバ１１４に記憶された符号化されたビデオデータにアクセスするのに適した、両方の組合せを含み得る。ファイルサーバ１１４および入力インターフェース１２２は、ストリーミング伝送プロトコル、ダウンロード伝送プロトコル、またはそれらの組合せに従って動作するように構成され得る。

[0033] 出力インターフェース１０８と入力インターフェース１２２とは、ワイヤレス送信機／受信機、モデム、ワイヤードネットワーキング構成要素（たとえば、イーサネット（登録商標）カード）、様々なＩＥＥＥ８０２．１１規格のいずれかに従って動作するワイヤレス通信構成要素、または他の物理的構成要素を表し得る。出力インターフェース１０８および入力インターフェース１２２がワイヤレス構成要素を備える例では、出力インターフェース１０８および入力インターフェース１２２は、４Ｇ、４Ｇ－ＬＴＥ（登録商標）（ロングタームエボリューション）、ＬＴＥアドバンスト、５Ｇなどのセルラー通信規格に従って、符号化されたビデオデータなどのデータを転送するように構成され得る。出力インターフェース１０８がワイヤレス送信機を備えるいくつかの例では、出力インターフェース１０８と入力インターフェース１２２とは、ＩＥＥＥ８０２．１１仕様、ＩＥＥＥ８０２．１５仕様（たとえば、ＺｉｇＢｅｅ（登録商標））、Ｂｌｕｅｔｏｏｔｈ（登録商標）規格などの、他のワイヤレス規格に従って、符号化されたビデオデータなどのデータを転送するように構成され得る。いくつかの例では、ソースデバイス１０２および／または宛先デバイス１１６は、それぞれのシステムオンチップ（ＳｏＣ）デバイスを含み得る。たとえば、ソースデバイス１０２は、ビデオエンコーダ２００および／または出力インターフェース１０８に帰属する機能を実行するためのＳｏＣデバイスを含み得、宛先デバイス１１６は、ビデオデコーダ３００および／または入力インターフェース１２２に帰属する機能を実行するためのＳｏＣデバイスを含み得る。

[0034] 本開示の技法は、オーバージエアテレビジョン放送、ケーブルテレビジョン送信、衛星テレビジョン送信、動的適応ストリーミングオーバーＨＴＴＰ（ＤＡＳＨ）などのインターネットストリーミングビデオ送信、データ記憶媒体上に符号化されたデジタルビデオ、データ記憶媒体に記憶されたデジタルビデオの復号、または他の適用例など、様々なマルチメディア適用例のいずれかをサポートするビデオコーディングに適用され得る。

[0035] 宛先デバイス１１６の入力インターフェース１２２は、コンピュータ可読媒体１１０（たとえば、記憶デバイス１１２、ファイルサーバ１１４など）から符号化されたビデオビットストリーム（video bitstream）を受信する。符号化されたビデオビットストリームコンピュータ可読媒体１１０は、ビデオブロックまたは他のコーディングされたユニット（たとえば、スライス、ピクチャ、ピクチャのグループ、シーケンスなど）の特性および／または処理を記述する値を有するシンタックス要素などの、ビデオデコーダ３００によっても使用される、ビデオエンコーダ２００によって定義されるシグナリング情報を含み得る。ディスプレイデバイス１１８は、ユーザに復号されたビデオデータの復号されたピクチャを表示する。ディスプレイデバイス１１８は、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）、プラズマディスプレイ、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、または別のタイプのディスプレイデバイスなどの様々なディスプレイデバイスのいずれかを表し得る。

[0036] 図１には示されていないが、いくつかの例では、ビデオエンコーダ２００およびビデオデコーダ３００は、それぞれ、オーディオエンコーダおよび／またはオーディオデコーダと統合され得、共通のデータストリーム中のオーディオとビデオの両方を含む多重化されたストリームを処理するために、適切なＭＵＸ－ＤＥＭＵＸユニット、あるいは他のハードウェアおよび／またはソフトウェアを含み得る。適用可能な場合、ＭＵＸ－ＤＥＭＵＸユニットはＩＴＵＨ．２２３マルチプレクサプロトコル、またはユーザデータグラムプロトコル（ＵＤＰ）などの他のプロトコルに準拠し得る。

[0037] ビデオエンコーダ２００およびビデオデコーダ３００はそれぞれ、１つまたは複数のマイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ディスクリート論理、ソフトウェア、ハードウェア、ファームウェアなど、様々な好適なエンコーダ回路および／またはデコーダ回路のいずれか、あるいはそれらの任意の組合せとして実装され得る。本技法が部分的にソフトウェアで実装されるとき、デバイスは、好適な非一時的コンピュータ可読媒体にソフトウェアの命令を記憶し、本開示の技法を実行するために１つまたは複数のプロセッサを使用してその命令をハードウェアで実行し得る。ビデオエンコーダ２００とビデオデコーダ３００との各々は、１つもしくは複数のエンコーダまたはデコーダに含まれ得、それらのいずれかが、それぞれのデバイス中の複合エンコーダ／デコーダ（ＣＯＤＥＣ）の一部として組み込まれ得る。ビデオエンコーダ２００および／またはビデオデコーダ３００を含むデバイスは、集積回路、マイクロプロセッサ、および／またはセルラー電話などのワイヤレス通信デバイスを備え得る。

[0038] ビデオエンコーダ２００およびビデオデコーダ３００は、高効率ビデオコーディング（ＨＥＶＣ）とも呼ばれるＩＴＵ－ＴＨ．２６５、またはマルチビューおよび／もしくはスケーラブルビデオコーディング拡張などのそれらの拡張などの、ビデオコーディング規格に従って動作し得る。代替として、ビデオエンコーダ２００およびビデオデコーダ３００は、共同探求テストモデル（ＪＥＭ：Joint Exploration Test Model）または汎用ビデオコーディング（ＶＶＣ：Versatile Video Coding）とも呼ばれるＩＴＵ－ＴＨ．２６６などの、他のプロプライエタリ規格または業界規格に従って動作し得る。ＶＶＣ標準の最近のドラフトは、Ｂｒｏｓｓら「ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ（Ｄｒａｆｔ４）」、ＩＴＵ－ＴＳＧ１６ＷＰ３とＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１とのＪｏｉｎｔＶｉｄｅｏＥｘｐｅｒｔｓＴｅａｍ（ＪＶＥＴ）、第１３回会合：Ｍａｒｒａｋｅｃｈ、ＭＡ、２０１９年１月９～１８日、ＪＶＥＴ－Ｍ１００１－ｖ６（以下、「ＶＶＣＤｒａｆｔ４」）に記載されている。ただし、本開示の技法は、いかなる特定のコーディング規格にも限定されない。

[0039] 概して、ビデオエンコーダ２００とビデオデコーダ３００とは、ピクチャのブロックベースのコーディングを実行し得る。「ブロック」という用語は、処理されるべき（たとえば、符号化されるべき、復号されるべき、あるいは、さもなければ符号化および／または復号プロセスにおいて他の方法で使用されるべき）データを含む構造を一般に意味する。たとえば、ブロックは、ルミナンスおよび／またはクロミナンスデータのサンプルの２次元行列を含み得る。概して、ビデオエンコーダ２００とビデオデコーダ３００とは、ＹＵＶ（たとえば、Ｙ、Ｃｂ、Ｃｒ）フォーマットで表されるビデオデータをコーディングし得る。すなわち、ピクチャのサンプルのために赤色、緑色、および青色（ＲＧＢ）データをコーディングするのではなく、ビデオエンコーダ２００とビデオデコーダ３００とは、ルミナンス成分とクロミナンス成分とをコーディングし得、ここで、クロミナンス成分は、赤色相と青色相の両方のクロミナンス成分を含み得る。いくつかの例では、ビデオエンコーダ２００は、符号化より前に、受信されたＲＧＢフォーマットのデータをＹＵＶ表現に変換し、ビデオデコーダ３００は、ＹＵＶ表現をＲＧＢフォーマットに変換する。代替的に、前処理および後処理ユニット（図示されず）が、これらの変換を実行し得る。

[0040] 本開示は、概して、ピクチャのデータを符号化または復号するプロセスを含めるように、ピクチャのコーディング（たとえば、符号化および復号）に言及することがある。同様に、本開示は、ブロックに対するデータを符号化または復号する、たとえば、予測および／または残差コーディングのプロセスを含めるように、ピクチャのブロックのコーディングに言及することがある。符号化されたビデオビットストリームは、概して、コーディング決定（たとえば、コーディングモード）とブロックへのピクチャの区分とを表すシンタックス要素の一連の値を含む。したがって、ピクチャまたはブロックをコーディングすることへの言及は、概して、ピクチャまたはブロックを形成しているシンタックス要素の値をコーディングすることとして理解されたい。

[0041] ＨＥＶＣは、コーディングユニット（ＣＵ）、予測ユニット（ＰＵ）、および変換ユニット（ＴＵ：transform unit）を含む、様々なブロックを定義する。ＨＥＶＣに従って、（ビデオエンコーダ２００などの）ビデオコーダは、４分木構造に従ってコーディングツリーユニット（ＣＴＵ）をＣＵに区分する。すなわち、ビデオコーダは、ＣＴＵとＣＵとを４つの等しい、重複しない正方形に区分し、４分木の各ノードは、０個または４つのいずれかの子ノードを有する。子ノードなしのノードは「リーフノード」と呼ばれることがあり、そのようなリーフノードのＣＵは、１つまたは複数のＰＵならびに／あるいは１つまたは複数のＴＵを含み得る。ビデオコーダは、ＰＵとＴＵとをさらに区分し得る。たとえば、ＨＥＶＣでは、残差４分木（ＲＱＴ：residual quadtree）は、ＴＵの区分を表す。ＨＥＶＣでは、ＰＵはインター予測データを表すが、ＴＵは残差データを表す。イントラ予測されるＣＵは、イントラモード指示などのイントラ予測情報を含む。

[0042] 別の例として、ビデオエンコーダ２００とビデオデコーダ３００とは、ＪＥＭまたはＶＶＣに従って動作するように構成され得る。ＪＥＭまたはＶＶＣに従って、（ビデオエンコーダ２００などの）ビデオコーダは、ピクチャを複数のコーディングツリーユニット（ＣＴＵ）に区分する。ビデオエンコーダ２００は、４分木２分木（ＱＴＢＴ）構造またはマルチタイプツリー（ＭＴＴ：Multi-Type Tree）構造などの、木構造に従ってＣＴＵを区分し得る。ＱＴＢＴ構造は、ＨＥＶＣのＣＵとＰＵとＴＵの区別などの、複数の区分タイプの概念を除去する。ＱＴＢＴ構造は、４分木区分に従って区分される第１のレベル、および２分木区分に従って区分される第２のレベルという、２つのレベルを含む。ＱＴＢＴ構造のルートノードはＣＴＵに対応する。２分木のリーフノードは、コーディングユニット（ＣＵ）に対応する。

[0043] ＭＴＴ区分構造では、ブロックは、４分木（ＱＴ）区分と、２分木（ＢＴ）区分と、１つまたは複数のタイプの３分木（ＴＴ）区分とを使用して区分され得る。３分木区分は、ブロックが３つのサブブロックに分割される区分である。いくつかの例では、３分木区分は、中心を通って元のブロックを分割することなく、ブロックを３つのサブブロックに分割する。ＭＴＴにおける区分タイプ（たとえば、ＱＴ、ＢＴ、およびＴＴ）は、対称的または非対称的であり得る。

[0044] いくつかの例では、ビデオエンコーダ２００とビデオデコーダ３００とは、ルミナンス成分とクロミナンス成分との各々を表すために単一のＱＴＢＴまたはＭＴＴ構造を使用し得、他の例では、ビデオエンコーダ２００とビデオデコーダ３００とは、ルミナンス成分のための１つのＱＴＢＴ／ＭＴＴ構造、および両方のクロミナンス成分のための別のＱＴＢＴ／ＭＴＴ構造（またはそれぞれのクロミナンス成分のための２つのＱＴＢＴ／ＭＴＴ構造）など、２つ以上のＱＴＢＴまたはＭＴＴ構造を使用し得る。

[0045] ビデオエンコーダ２００およびビデオデコーダ３００は、ＨＥＶＣによる４分木区分、ＱＴＢＴ区分、ＭＴＴ区分、または他の区分構造を使用するように構成され得る。説明の目的で、本開示の技法の説明はＱＴＢＴ区分に関して提示される。ただし、本開示の技法が、４分木区分、または同様に他のタイプの区分を使用するように構成されたビデオコーダにも適用され得ることを理解されたい。

[0046] 本開示は、垂直および水平次元、たとえば、１６×１６のサンプルまたは１６バイ１６のサンプルに関して（ＣＵまたは他のビデオブロックなどの）ブロックのサンプル次元を互換的に言及するために「Ｎ×Ｎ」および「ＮバイＮ」を使用し得る。一般に、１６×１６のＣＵは、垂直方向に１６個のサンプル（ｙ＝１６）を有し、水平方向に１６個のサンプル（ｘ＝１６）を有する。同様に、Ｎ×ＮのＣＵは、概して、垂直方向にＮ個のサンプルを有し、水平方向にＮ個のサンプルを有し、ここで、Ｎは非負整数値を表す。ＣＵ中のサンプルは行と列とに配列され得る。さらに、ＣＵは、必ずしも、水平方向において垂直方向と同じ数のサンプルを有する必要があるとは限らない。たとえば、ＣＵはＮ×Ｍサンプルを備え得、ここで、Ｍは必ずしもＮに等しいとは限らない。

[0047] ビデオエンコーダ２００は、予測および／または残差情報、ならびに他の情報を表すＣＵのためにビデオデータを符号化する。予測情報は、ＣＵについて予測ブロックを形成するためにＣＵがどのように予測されるべきかを示す。残差情報は、概して、符号化より前のＣＵのサンプルと予測ブロックとの間のサンプルごとの差分を表す。

[0048] ＣＵを予測するために、ビデオエンコーダ２００は、概して、インター予測またはイントラ予測を通してＣＵについて予測ブロックを形成し得る。インター予測は、概して、以前にコーディングされたピクチャのデータからＣＵを予測することを指し、一方、イントラ予測は、概して、同じピクチャの以前にコーディングされたデータからＣＵを予測することを指す。インター予測を実施するために、ビデオエンコーダ２００は、１つまたは複数の動きベクトルを使用して予測ブロックを生成し得る。ビデオエンコーダ２００は、一般に、たとえば、ＣＵと参照ブロックとの差分に関して、ＣＵと厳密に一致する参照ブロックを特定するために動き探索を実行し得る。ビデオエンコーダ２００は、参照ブロックが現在ＣＵにぴったり一致するかどうかを決定するために、絶対差分和（ＳＡＤ）、２乗差分和（ＳＳＤ）、平均絶対差（ＭＡＤ）、平均２乗差（ＭＳＤ）、または他のそのような差分計算を使用して差分メトリックを計算し得る。いくつかの例では、ビデオエンコーダ２００は、単方向予測または双方向予測を使用して現在ＣＵを予測し得る。

[0049] ＪＥＭおよびＶＶＣのいくつかの例はまた、インター予測モード（inter-prediction mode）と見なされ得るアフィン動き補償モードを提供する。アフィン動き補償モードでは、ビデオエンコーダ２００は、ズームインまたはアウト、回転、パースペクティブの動き、あるいは他の変則の動きタイプなど、非並進の動きを表す２つ以上の動きベクトルを決定し得る。

[0050] イントラ予測を実行するために、ビデオエンコーダ２００は、予測ブロックを生成するようにイントラ予測モード（intra prediction mode）を選択し得る。ＪＥＭとＶＶＣとのいくつかの例は、様々な方向性モード、ならびに平面モードおよびＤＣモードを含む、６７個のイントラ予測モードを提供する。概して、ビデオエンコーダ２００は、現在のブロック（たとえば、ＣＵのブロック）のサンプルをそれから予測すべき、現在のブロックに対する隣接サンプルを記述するイントラ予測モードを選択する。そのようなサンプルは、ビデオエンコーダ２００がラスタ走査順序で（左から右に、上から下に）ＣＴＵとＣＵとをコーディングすると仮定すると、概して、現在のブロックと同じピクチャ中の現在のブロックの上方、上方および左側、または左側にあり得る。

[0051] ビデオエンコーダ２００は、現在のブロックについて予測モードを表すデータを符号化する。たとえば、インター予測モードでは、ビデオエンコーダ２００は、様々な利用可能なインター予測モードのうちのどれが使用されるか、ならびに対応するモードの動き情報を表すデータを符号化し得る。たとえば、単方向または双方向インター予測では、ビデオエンコーダ２００は、高度動きベクトル予測（ＡＭＶＰ：advanced motion vector prediction）またはマージモードを使用して動きベクトルを符号化し得る。ビデオエンコーダ２００は、アフィン動き補償モードの動きベクトルを符号化するために同様のモードを使用し得る。

[0052] ブロックのイントラ予測またはインター予測などの予測に続いて、ビデオエンコーダ２００は、ブロックについて残差データを計算し得る。残差ブロックなどの残差データは、ブロックと、対応する予測モードを使用して形成された、ブロックについての予測ブロックとの間の、サンプルごとの差分を表す。ビデオエンコーダ２００は、サンプル領域ではなく変換領域中に変換データを生成するために、残差ブロックに１つまたは複数の変換を適用し得る。たとえば、ビデオエンコーダ２００は、離散コサイン変換（ＤＣＴ）、整数変換、ウェーブレット変換、または概念的に同様の変換を残差ビデオデータに適用し得る。さらに、ビデオエンコーダ２００は、モード依存非分離可能２次変換（ＭＤＮＳＳＴ：mode-dependent non-separable secondary transform）、信号依存変換、カルーネンレーベ変換（ＫＬＴ：Karhunen-Loeve transform）など、第１の変換に続いて２次変換を適用し得る。ビデオエンコーダ２００は、１つまたは複数の変換の適用に続いて変換係数（transform coefficient）を生成する。

[0053] 上記で説明されたように、ビデオエンコーダ２００などのビデオエンコーダは、残差データを変換するために様々なタイプの変換を適用し得る。以下は、離散サインおよびコサイン変換（ＤＣＴおよびＤＳＴ）の概要である。また、ＨＥＶＣ標準において使用される変換方式について手短に説明する。

[0054] 離散サインおよびコサイン変換。

[0055] 変換は、入力信号の代替表現を導出するプロセスを示す。Ｎ点ベクトルｘ＝［ｘ₀，ｘ₁，．．．，×_N-1］^Tおよび所与のベクトル｛Φ₀，Φ₁，．．．，Φ_M-1｝のセットを仮定すれば、ｘは、近似されるか、またはΦ₀，Φ₁，．．．，Φ_M-1の線形結合を使用して正確に表され得、これは、次のように公式化され得る。

[0056] ここで、

は、ｘの近似値または均等物であり得、ベクトルｆ＝［ｆ_i，ｆ₂，．．．，ｆ_M-1］は、変換係数ベクトルと呼ばれ、｛Φ₀，Φ₁，．．．，Φ_M-1｝は、変換基底ベクトルである。

[0057] ビデオコーディングのシナリオでは、変換係数は、ほぼ非相関（non-correlated）であり、疎（sparse）であり、すなわち、入力ベクトルｘのエネルギーは、数個の変換係数だけに圧縮され、残りの大多数の変換係数は一般に０に近くなる。

[0058] 特定の入力データを仮定すれば、エネルギー圧縮に関する最適な変換は、変換基底ベクトルとして入力データの共分散行列の固有ベクトルを使用する、いわゆるカルーネンレーベ変換（ＫＬＴ）である。したがって、ＫＬＴは、実際には、データ依存型の変換であり、一般的な数学的公式化を有しない。しかしながら、いくつかの仮定、たとえば、入力データが１次定常マルコフ過程を形成するという仮定の下で、対応するＫＬＴが実際にユニタリ変換の正弦波ファミリのメンバーであることが文献で証明されている。ユニタリ変換の正弦波ファミリは、次のように公式化される変換基底ベクトルを使用して変換を示す。

[0059] ここで、ｅは、２．７１８２８にほぼ等しい自然対数の底であり、Ａ、Ｂ、およびθは概して複素数であり、ｍの値に依存する。

[0060] 離散フーリエ、コサイン、サイン、および（１次定常マルコフ過程のための）ＫＬＴを含む例示的な変換は、ユニタリ変換のこの正弦波ファミリのメンバーである。Ｓ．Ａ．Ｍａｒｔｕｃｃｉ、「Ｓｙｍｍｅｔｒｉｃｃｏｎｖｏｌｕｔｉｏｎａｎｄｔｈｅｄｉｓｃｒｅｔｅｓｉｎｅａｎｄｃｏｓｉｎｅｔｒａｎｓｆｏｒｍｓ」、ＩＥＥＥＴｒａｎｓ．Ｓｉｇ．ＰｒｏｃｅｓｓｉｎｇＳＰ－４２、１０３８～１０５１の（１９９４）によれば、離散コサイン変換（ＤＣＴ）および離散サイン変換（ＤＳＴ）ファミリの完全セットは、異なるタイプ、すなわち、Ａ、Ｂ、およびθの異なる値に基づいて合計で１６個の変換を含み、ＤＣＴとＤＳＴとの異なるタイプの完全な定義を以下に与える。

[0061] 入力Ｎ点ベクトルがｘ＝［ｘ₀，ｘ₁，．．．，ｘ_N-1］^Tとして示され、それが、行列を乗算することによってｙ＝［ｙ₀，ｙ₁，．．．，ｙ_N-1］^Tとして示される別のＮ点変換係数ベクトルに変換されると仮定し、このプロセスは、次の変換公式化のうちの１つに従ってさらに示され得、ここにおいて、ｋは、両端値を含んで０からＮ－１にわたる。

[0062] ＤＣＴタイプＩ（ＤＣＴ－１）：

[0063] ＤＣＴタイプＩＩ（ＤＣＴ－２）：

[0064] ＤＣＴタイプＩＩＩ（ＤＣＴ－３）：

[0065] ＤＣＴタイプＩＶ（ＤＣＴ－４）：

[0066] ＤＣＴタイプＶ（ＤＣＴ－５）：

[0067] ＤＣＴタイプＶＩ（ＤＣＴ－６）：

[0068] ＤＣＴタイプＶＩＩ（ＤＣＴ－７）：

[0069] ＤＣＴタイプＶＩＩＩ（ＤＣＴ－８）：

[0070] ＤＳＴタイプＩ（ＤＳＴ－１）：

[0071] ＤＳＴタイプＩＩ（ＤＳＴ－２）：

[0072] ＤＳＴタイプＩＩＩ（ＤＳＴ－３）：

[0073] ＤＳＴタイプＩＶ（ＤＳＴ－４）：

[0074] ＤＳＴタイプＶ（ＤＳＴ－５）：

[0075] ＤＳＴタイプＶＩ（ＤＳＴ－６）：

[0076] ＤＣＴタイプＶＩＩ（ＤＳＴ－７）：

[0077] ＤＳＴタイプＶＩＩＩ（ＤＳＴ－８）：

[0078] 変換タイプは、変換基底関数の数学的公式化によって指定され、たとえば、４点ＤＳＴ－ＶＩＩと８点ＤＳＴ－ＶＩＩとは、Ｎの値にかかわらず、同じ変換タイプを有する。

[0079] 一般性の喪失なしに、すべての上記の変換タイプは、以下の一般化された公式化を使用して表され得る。

[0080] ここで、Ｔは、１つのある変換の定義によって指定される変換行列、たとえば、ＤＣＴタイプＩ～ＤＣＴタイプＶＩＩＩまたはＤＳＴタイプＩ～ＤＳＴタイプＶＩＩＩであり、Ｔの行ベクトル、たとえば、［Ｔ_i,0，Ｔ_i,1，Ｔ_i,2，…，Ｔ_i,N-1］は、ｉ番目の変換基底ベクトルである。Ｎ点入力ベクトルに適用される変換は、Ｎ点変換と呼ばれる。

[0081] また、１次元入力データｘに適用される上記の変換公式化は、以下のような行列乗算形式で表され得ることに留意されたい。

[0082] ここで、Ｔは、変換行列を示し、ｘは、入力データベクトルを示し、ｙは、出力変換係数ベクトルを示す。

[0083] ２次元（２Ｄ）入力データの変換。

[0084] 前の部分で紹介された変換は、１次元入力データに適用され、変換はまた、２次元入力データソースに拡張され得る。Ｘが入力Ｍ×Ｎデータアレイであると仮定する。２Ｄ入力データに変換を適用する典型的な方法は、分離可能および非分離可能２Ｄ変換を含む。

[0085] 分離可能２Ｄ変換は、以下のように公式化される、Ｘの水平ベクトルおよび垂直ベクトルに連続的に１Ｄ変換を適用する。

[0086] ここで、ＣおよびＲは、それぞれ、所与のＭ×ＭおよびＮ×Ｎの変換行列を示す。公式化から、Ｃは、Ｘの列ベクトルに１Ｄ変換を適用し、一方、Ｒは、Ｘの行ベクトルに１Ｄ変換を適用することがわかる。本明細書の後の部分において、簡単のために、ＣおよびＲを左（垂直）および右（水平）変換として示し、それらは共に変換ペアを形成する。Ｃが、Ｒに等しく、直交行列である場合がある。そのような場合、分離可能２Ｄ変換は、ただ１つの変換行列によって決定される。

[0087] 非分離可能２Ｄ変換は、最初に、一例として次の数学的マッピングを行うことによって、Ｘのすべての要素を単一のベクトル、すなわち、Ｘ’に再編成した。

[0088] 次いで、１Ｄ変換Ｔ’が、以下のようにＸ’に適用される。

[0089] ここで、Ｔ’は、（Ｍ＊Ｎ）×（Ｍ＊Ｎ）変換行列である。

[0090] ビデオコーディングでは、分離可能２Ｄ変換が、１Ｄ変換と比較してはるかに少ない演算（加算、乗算）カウントしか利用しないことがあるので、分離可能２Ｄ変換が適用され得る。

[0091] Ｈ．２６４／ＡＶＣなどの従来のビデオコーデックでは、４点および８点離散コサイン変換（ＤＣＴ）タイプＩＩの整数近似値が、イントラ予測残差とインター予測残差の両方に常に適用される。残差サンプルの様々な統計値により良く適応するために、ＤＣＴタイプＩＩ以外の変換のよりフレキシブルなタイプが、より新しいビデオコーデックにおいて利用される。たとえば、ＨＥＶＣでは、４点タイプＶＩＩ離散サイン変換（ＤＳＴ）の整数近似値が、イントラ予測残差のために利用され、これは、ＤＳＴタイプＶＩＩが、イントラ予測方向に沿って生成された残差ベクトルについてＤＣＴタイプＩＩよりも効率的である（たとえば、ＤＳＴタイプＶＩＩが、水平イントラ予測方向によって生成された行残差ベクトルについてＤＣＴタイプＩＩよりも効率的である）ことが、理論的にも証明され、また実験的にも検証されている。ＨＥＶＣでは、４点ＤＳＴタイプＶＩＩの整数近似値は、４×４ルーマイントラ予測残差ブロックにのみ適用される。ＨＥＶＣにおいて使用される４点ＤＳＴ－ＶＩＩが以下に示される。

[0092] ４×４ＤＳＴ－ＶＩＩ：

[0093] ＨＥＶＣでは、４×４ルーマイントラ予測残差ブロックでない残差ブロックに対して、以下に示されるように、４点、８点、１６点および３２点ＤＣＴタイプＩＩの整数近似値も適用される。

[0094] ４点ＤＣＴ－ＩＩ：

[0095] ８点ＤＣＴ－ＩＩ：

[0096] １６点ＤＣＴ－ＩＩ：

[0097] ３２点ＤＣＴ－ＩＩ：

[0098] ＨＥＶＣにおける残差４分木に基づく変換方式。

[0099] 残差ブロックの様々な特性を適応させるために、ＨＥＶＣでは残差４分木（ＲＱＴ）を使用する変換コーディング構造が適用され、これは、http://www.hhi.fraunhofer.de/fields-of-competence/image-processing/research-groups/image-video-coding/hevc-high-efficiency-video-coding/transform-coding-using-the-residual-quadtree-rqt.htmlに手短に記載されている。ＲＱＴでは、各ピクチャは、特定のタイルまたはスライスについてラスタ走査順序でコーディングされるコーディングツリーユニット（ＣＴＵ）に分割される。ＣＴＵは、正方形ブロックであり、４分木、すなわち、コーディングツリーのルートを表す。ＣＴＵサイズは８×８から６４×６４ルーマサンプルにわたり得るが、一般に６４×６４が使用される。各ＣＴＵは、コーディングユニット（ＣＵ）と呼ばれるより小さい正方形ブロックにさらに分割され得る。ＣＴＵがＣＵに再帰的に分割された後、各ＣＵは、予測ユニット（ＰＵ）と変換ユニット（ＴＵ）とにさらに分けられる。

[0100] ＴＵへのＣＵの区分は、４分木手法に基づいて再帰的に行われ、したがって、各ＣＵの残差信号は、ツリー構造、すなわち、残差４分木（ＲＱＴ）によってコーディングされる。ＲＱＴは、４×４から３２×３２ルーマサンプルまでのＴＵサイズを可能にする。図２Ｃは、ＣＵが、文字ａ～ｊで標示された１０個のＴＵを含む一例と、対応するブロック区分とを示す。ＲＱＴの各ノードは、実際は変換ユニット（ＴＵ：transform unit）である。個々のＴＵは、深度優先トラバーサルによる再帰的Ｚ走査に従う、アルファベット順として図に示された深度優先ツリートラバーサル順序で処理され得る。

[0101] ４分木手法は、残差信号の変動する空間周波数特性に対する変換の適応を可能にする。一般に、より大きい空間サポートを有するより大きい変換ブロックサイズは、より良い周波数解像度を与える。しかしながら、より小さい空間サポートを有するより小さい変換ブロックサイズは、より良い空間解像度を与え得る。これらの２つ、すなわち、空間分解能と周波数分解能との間のトレードオフは、たとえばレートひずみ最適化技法に基づいて、エンコーダモード決定によって選定され得る。ビデオコーダは、各コーディングモード（たとえば、特定のＲＱＴ分割構造）についてコーディングビットと再構成ひずみとの加重和、すなわち、レートひずみコストを計算し、最小レートひずみコストをもつコーディングモードを最良のモードとして選択するためにレートひずみ最適化技法を実行し得る。

[0102] ３つのパラメータ、すなわち、ツリーの最大深度、最小許容変換サイズおよび最大許容変換サイズがＲＱＴにおいて定義され得る。最小変換サイズと最大変換サイズとは、前の段落において述べられたサポートされるブロック変換に対応する、４×４から３２×３２サンプルまでの範囲内で変動することがある。ＲＱＴの最大許容深度はＴＵの数を制限する。０に等しい最大深度は、各含まれたＴＢが最大許容変換サイズ、たとえば、３２×３２に達した場合、ＣＢがこれ以上分割され得ないことを意味する。

[0103] すべてのこれらのパラメータは、相互作用し、ＲＱＴ構造に影響を及ぼす。ルートＣＢサイズが６４×６４であり、最大深度が０に等しく、最大変換サイズが３２×３２に等しい場合について考える。この場合、ＣＢは、さもなければ、それが、許容されない６４×６４ＴＢにつながることになるので、少なくとも１回区分されなければならない。ＲＱＴパラメータ、すなわち、最大ＲＱＴ深度、最小および最大変換サイズは、シーケンスパラメータセットレベルにおいてビットストリーム中で送信される。ＲＱＴ深度に関して、イントラコード化ＣＵとインターコード化ＣＵとについて異なる値が指定され、シグナリングされ得る。

[0104] ４分木変換（quadtree transform）は、イントラ残差ブロック（Intra residual block）とインター残差ブロック（Inter residual block）の両方のために適用される。一般に、現在の残差４分木区分の同じサイズのＤＣＴ－ＩＩ変換が残差ブロックのために適用される。しかしながら、現在の残差４分木ブロックが４×４であり、イントラ予測によって生成される場合、上記の４×４ＤＳＴ－ＶＩＩ変換が適用される。

[0105] ＨＥＶＣでは、より大きいサイズの変換、たとえば、６４×６４変換は、主に、それの限られた利益の考慮と、より比較的小さい分解能のビデオに対する比較的高い複雑さとにより、採用されない。

[0106] 上述のように、変換係数を生成するための任意の変換に続いて、ビデオエンコーダ２００は、変換係数の量子化を実行し得る。量子化は、一般に、係数を表すために使用されるデータの量をできる限り低減してさらなる圧縮をもたらすように、変換係数が量子化されるプロセスを指す。量子化プロセスを実行することによって、ビデオエンコーダ２００は、係数の一部またはすべてと関連付けられるビット深度を低減し得る。たとえば、ビデオエンコーダ２００は、量子化の間にｎビット値をｍビット値に丸めてもよく、ｎはｍより大きい。いくつかの例では、量子化を実行するために、ビデオエンコーダ２００は、量子化されるべき値のビットごとの右シフトを実行し得る。

[0107] 量子化に続いて、ビデオエンコーダ２００は、変換係数を走査して、量子化された変換係数を含む２次元行列から１次元ベクトルを生成し得る。走査は、より高いエネルギー（したがって、より低い頻度）の係数をベクトルの前方に配置し、より低いエネルギー（したがって、より高い頻度）の変換係数をベクトルの後方に配置するように設計され得る。いくつかの例では、ビデオエンコーダ２００は、あらかじめ定義された走査順序を利用して、量子化された変換係数を走査してシリアル化ベクトルを生成し、次いで、ベクトルの量子化された変換係数をエントロピー符号化し得る。他の例では、ビデオエンコーダ２００は適応型走査を実行し得る。量子化された変換係数を走査して１次元ベクトルを形成した後に、ビデオエンコーダ２００は、たとえば、コンテキスト適応型バイナリ算術コーディング（ＣＡＢＡＣ）に従って、１次元ベクトルをエントロピー符号化し得る。ビデオエンコーダ２００はまた、ビデオデータを復号する際にビデオデコーダ３００によって使用するための、符号化されたビデオデータと関連付けられるメタデータを記述するシンタックス要素のための値をエントロピー符号化し得る。

[0108] ＣＡＢＡＣを実行するために、ビデオエンコーダ２００は、コンテキストモデル内のコンテキストを、送信されるべきシンボルに割り当て得る。コンテキストは、たとえば、シンボルの隣接値が０値であるか否かに関係し得る。確率決定は、シンボルに割り当てられたコンテキストに基づき得る。

[0109] ビデオエンコーダ２００は、さらに、ブロックベースのシンタックスデータ、ピクチャベースのシンタックスデータ、およびシーケンスベースのシンタックスデータなどのシンタックスデータを、たとえば、ピクチャヘッダ、ブロックヘッダ、スライスヘッダ、あるいはシーケンスパラメータセット（ＳＰＳ）、ピクチャパラメータセット（ＰＰＳ）、またはビデオパラメータセット（ＶＰＳ）などの他のシンタックスデータ中で、ビデオデコーダ３００に対して生成し得る。ビデオデコーダ３００は、対応するビデオデータをどのように復号すべきかを決定するために、そのようなシンタックスデータを同様に復号し得る。

[0110] このようにして、ビデオエンコーダ２００は、符号化されたビデオデータ、たとえば、ブロック（たとえば、ＣＵ）へのピクチャの区分ならびにブロックの予測および／または残差情報を記述するシンタックス要素を含むビットストリームを生成し得る。最終的に、ビデオデコーダ３００は、ビットストリームを受信し、符号化されたビデオデータを復号し得る。

[0111] 概して、ビデオデコーダ３００は、ビットストリームの符号化されたビデオデータを復号するために、ビデオエンコーダ２００によって実行されたものの逆プロセスを実行する。たとえば、ビデオデコーダ３００は、ビデオエンコーダ２００のＣＡＢＡＣ符号化プロセスと逆ではあるが、それと実質的に同様の様式でＣＡＢＡＣを使用してビットストリームのシンタックス要素の値を復号し得る。シンタックス要素は、ＣＴＵのＣＵを定義するために、ＣＴＵへのピクチャの区分情報と、ＱＴＢＴ構造などの対応する区分構造に従う、各ＣＴＵの区分とを定義し得る。シンタックス要素は、ビデオデータのブロック（たとえば、ＣＵ）のための予測および残差情報をさらに定義し得る。

[0112] 残差情報は、たとえば、量子化された変換係数によって表され得る。ビデオデコーダ３００は、ブロックの残差ブロックを再生するために、ブロックの量子化された変換係数を逆量子化し、逆変換し得る。ビデオデコーダ３００は、ブロックの予測ブロックを形成するために、シグナリングされた予測モード（イントラまたはインター予測）と、関連する予測情報（たとえば、インター予測のための動き情報）とを使用する。ビデオデコーダ３００は、次いで、元のブロックを再生するために（サンプルごとに）予測ブロックと残差ブロックとを組み合わせ得る。ビデオデコーダ３００は、ブロックの境界に沿って視覚的アーティファクトを低減するためにデブロッキング処理を実行することなどの、追加の処理を実行し得る。

[0113] 本開示の技法によれば、ビデオコーダ（すなわち、ビデオエンコーダ（video encoder）２００および／またはビデオデコーダ（video decoder）３００）は、ビデオブロックの現在の係数ブロックのために、複数の変換タイプから変換タイプを導出し得る。ビデオコーダは、ビデオブロックのための再構成された残差データのブロックを取得するために、選択された変換タイプを使用して現在の変換ブロック（たとえば、係数ブロック）を変換し、ビデオブロックのための再構成された残差データに基づいて、ビデオブロックを再構成し得る。

[0114] ビデオコーダは、変換タイプの明示的なシグナリング以外のファクタに基づいて変換タイプを推測し得る。したがって、ビデオコーダは、現在のブロックのための変換タイプを明確に識別するシンタックス要素のコーディングを省略し得る。ビデオコーダが変換タイプを推測し得るファクタのいくつかの例は、現在のブロックのサイズ（たとえば、現在のブロックの高さおよび／または幅）と、現在のブロックがイントラサブブロック区分（ＩＳＰ）を使用して区分されるのかどうかと、現在のブロックのイントラモードとを含む。ビデオコーダは、ファクタの任意の組合せに基づいて変換タイプを推測し得る。たとえば、ビデオコーダは、現在の変換ブロックのサイズと現在のビデオブロックがＩＳＰを使用して区分されるのかどうかとに基づいて現在のビデオブロックの現在の変換ブロックのための変換タイプを推測し得る。そのような例のうちの少なくともいくつかでは、ビデオコーダは、現在のビデオブロックを予測するために使用されるイントラ予測モードにかかわらず現在の変換ブロックのための変換タイプを推測し得る。

[0115] ビデオコーダは、１つまたは複数の離散コサイン変換（ＤＣＴ）と１つまたは複数の離散サイン変換（ＤＳＴ）とを含む複数の変換タイプから変換タイプを選択し得る。以下でさらに詳細に説明するように、１つもしくは複数のＤＣＴは、ＤＣＴ－１、ＤＣＴ－２、ＤＣＴ－３、ＤＣＴ－４、ＤＣＴ－５、ＤＣＴ－６、ＤＣＴ－７、およびＤＣＴ－８のうちの１つもしくは複数を含み得、ならびに／または１つもしくは複数のＤＳＴは、ＤＳＴ－１、ＤＳＴ－２、ＤＳＴ－３、ＤＳＴ－４、ＤＳＴ－５、ＤＳＴ－６、ＤＳＴ－７、およびＤＳＴ－８のうちの１つもしくは複数を含み得る。

[0116] 上記で説明されたように、ビデオコーダは、現在の変換ブロックのサイズに基づいて現在の変換ブロックのための変換タイプを推測し得る。たとえば、ビデオコーダは、現在の変換ブロックのサイズがサイズしきい値を満たすと決定することに応答して現在の変換ブロックのために第１の変換タイプを選択し、現在の変換ブロックのサイズがサイズしきい値を満たさないと決定することに応答して現在の変換ブロックのために第２の変換タイプを選択し得る。いくつかの例では、ビデオコーダは、現在の変換ブロックのサイズを単一のしきい値と比較することによって現在の変換ブロックのサイズがサイズしきい値を満たすのかどうかを決定し得る。他の例では、ビデオコーダは、現在の変換ブロックのサイズが下限（lower bound）（たとえば、２、４、６）よりも大きく、上限（upper bound）（たとえば、８、１６、３２）よりも小さいと決定することによって現在の変換ブロックのサイズがサイズしきい値を満たすのかどうかを決定し得る。現在の変換ブロックのサイズが下限よりも大きく、上限よりも小さい場合、ビデオコーダは、現在の変換ブロックのサイズがサイズしきい値を満たすと決定し得る。同様に、現在の変換ブロックのサイズが下限よりも小さいか、または上限よりも大きい場合、ビデオコーダは、現在の変換ブロックのサイズがサイズしきい値を満たさないと決定し得る。

[0117] 現在のビデオブロックがコーディングユニット（ＣＵ）である場合、ＣＵは、ＩＳＰを使用して複数の下位区分に区分され得る。下位区分の各々は、関連する変換ブロックを有し得る。したがって、ＣＵがＩＳＰを使用して区分される場合、複数の変換ブロックはＣＵに関連付けられ得る。たとえば、１６×１６のＣＵは、４×１６のサイズの４つの区分に垂直方向に区分され得、その各々は、４×１６のサイズの変換ブロックに関連付けられる。

[0118] 上記で説明されたように、ビデオコーダは、現在のビデオブロックがＩＳＰを使用して区分されるのかどうかに基づいて、および現在の変換ブロックのサイズに基づいて現在のビデオブロックの現在の変換ブロックのための変換タイプを推測し得る。一例として、現在の変換ブロックのサイズがサイズしきい値を満たすと決定し、現在のビデオブロックがＩＳＰを使用して区分されると決定することに応答して、ビデオコーダは、現在の変換ブロックのための変換タイプとして１つまたは複数のＤＳＴのうちの特定のＤＳＴ（たとえば、ＤＳＴ－７）を選択し得る。別の例として、現在の変換ブロックのサイズがサイズしきい値を満たさないと決定し、現在のビデオブロックがＩＳＰを使用して区分されると決定することに応答して、ビデオコーダは、現在の変換ブロックのための変換タイプとして１つまたは複数のＤＣＴのうちの特定のＤＣＴ（particular DCT）（たとえば、ＤＣＴ－２）を選択し得る。上述の例のいずれでも、ビデオコーダは、変換タイプが現在のビデオブロックを予測するために使用されるイントラ予測モードにかかわらず（たとえば、現在のビデオをイントラ予測するために使用される角度モード、ＤＣモード、または平面モードにかかわらず）変換タイプを選択することを備えることを選択し得る。

[0119] いくつかの例では、ビデオコーダは、常に、変換タイプ推測を実行し得る。他の例では、ビデオコーダは、いくつかの条件の下で変換タイプ推測を実行し得る。たとえば、ビデオコーダは、複数変換選択（ＭＴＳ：multiple transform selection）が現在のビデオブロックのために使用可能であると決定することに応答して現在の変換ブロックのための変換タイプを推測し得る。ビデオコーダは、いくつかの例では、１つまたは複数のシンタックス要素（たとえば、ｓｐｓ＿ｅｘｐｌｉｃｉｔ＿ｍｔｓ＿ｉｎｔｒａ＿ｅｎａｂｌｅｄ＿ｆｌａｇ）の値に基づいてＭＴＳが現在のビデオブロックのために使用可能であるのかどうかを決定し得る。

[0120] ビデオコーダは、いくつかの例では、水平変換を実行するための変換タイプ（すなわち、水平使用（horizontal use）のための変換タイプ）を推測し、垂直変換を実行するための変換タイプ（すなわち、垂直使用（vertical use）のための変換タイプ）を推測し得る。ビデオコーダは、共通のアルゴリズムを使用して水平および垂直使用のための変換タイプを推測し得る。たとえば、ビデオコーダは、現在の変換ブロックの幅が幅サイズしきい値を満たすのかどうかと、現在の変換ブロックを含む現在のビデオブロックがＩＳＰを使用して区分されるのかどうかとに基づいて水平使用のための変換タイプを推測し、現在の変換ブロックの高さが高さサイズしきい値を満たすのかどうかと、現在の変換ブロックを含む現在のビデオブロックがＩＳＰを使用して区分されるのかどうかとに基づいて垂直使用のための変換タイプを推測し得る。いくつかの例では、ビデオコーダは、水平と垂直との両方の変換タイプ推測のために同じサイズしきい値を使用し得る。たとえば、サイズしきい値が上限と下限とを含む場合、幅サイズしきい値の上限と下限とは高さサイズしきい値の上限と下限とに等しくなり得る。１つの具体的な例として、幅（width）と高さ（height）との両方のしきい値の下限は４であり得、幅と高さとの両方のしきい値の上限は１６であり得る。

[0121] いくつかの例では、現在の係数ブロックのための変換タイプを導出する（すなわち、推測する）ために、ビデオコーダは、しきい値（たとえば、８、１６、３２）数以下のサンプル（たとえば、ルーマサンプル）をもつ任意の行または列を変換するためにＤＳＴ－７変換を選択し、しきい値数よりも大きいサンプルをもつ任意の行または列を変換するためにＤＣＴ－２変換を選択し得る。

[0122] ＶＶＣＤｒａｆｔ４（たとえば、ＪＶＥＴ－Ｍ１００１）に関連して、提案された変更の一例は、表８－１５を以下と置き換えることによって達成され得る。

ここで、「０」および「１」は、それぞれＤＣＴ－２およびＤＳＴ－７を示す。

[0123] ＩＳＰを使用して区分されるブロックは、２つのサンプルしかもたない行／列を有することを禁止され得る。したがって、本開示は、２点ＤＳＴ－７を提案する。（４バイトの追加のメモリしかもたらさない）２点ＤＳＴ－７行列のエントリは以下の通りであり得る。

[0124] 代替的に、提案される変更の一例は、次のようにＶＶＣＤｒａｆｔ４を修正することによって達成され得る。

ここで、「０」および「１」は、それぞれＤＣＴ－２およびＤＳＴ－７を示し、変更（すなわち、削除された部分）は、下線およびイタリックにある。

[0125] 本開示では、概して、シンタックス要素など、ある情報を「シグナリング（signaling）」することに言及することがある。「シグナリング」という用語は、概して、符号化されたビデオデータを復号するために使用される値シンタックス要素および／または他のデータの通信を指すことがある。すなわち、ビデオエンコーダ２００は、ビットストリームにおいてシンタックス要素の値をシグナリングし得る。一般に、シグナリングは、ビットストリームの中に値を生成することを指す。上述されたように、ソースデバイス１０２は、実質的にリアルタイムでビットストリーム（bitstream）を宛先デバイス１１６に移送するか、または、宛先デバイス１１６による後の取出しのためにシンタックス要素を記憶デバイス１１２に記憶するときに起こり得るように、非リアルタイムでビットストリームを宛先デバイス１１６に移送し得る。

[0126] 図２Ａと図２Ｂとは、例示的な４分木２分木（ＱＴＢＴ）構造１３０と、対応するコーディングツリーユニット（ＣＴＵ）１３２とを示す概念図である。実線は４分木分割（quadtree splitting）を表し、点線は２分木分割（binary tree splitting）を表す。２分木の分割された各（すなわち、非リーフ）ノードにおいて、どの分割タイプ（すなわち、水平または垂直）が使用されるのかを示すために１つのフラグがシグナリングされ、ここで、この例では、０は水平分割（horizontal splitting）を示し、１は垂直分割（vertical splitting）を示す。４分木分割の場合、４分木ノードは、サイズが等しい４つのサブブロックに、水平および垂直にブロックを分割するので、分割タイプを示す必要がない。したがって、ＱＴＢＴ構造１３０の領域ツリーレベル（すなわち、実線）についての（スプリッティング情報などの）シンタックス要素と、ＱＴＢＴ構造１３０の予測ツリーレベル（すなわち、破線）についての（スプリッティング情報などの）シンタックス要素とを、ビデオエンコーダ２００は符号化し得、ビデオデコーダ３００は復号し得る。ＱＴＢＴ構造１３０の端末リーフノードによって表されるＣＵについての、予測および変換データなどのビデオデータを、ビデオエンコーダ２００は符号化し得、ビデオデコーダ３００は復号し得る。

[0127] 概して、図２ＢのＣＴＵ１３２は、第１および第２のレベルにおいてＱＴＢＴ構造１３０のノードに対応するブロックのサイズを定義するパラメータに関連付けられ得る。これらのパラメータは、（サンプル単位でＣＴＵ１３２のサイズを表す）ＣＴＵサイズと、最小４分木サイズ（最小許容４分木リーフノードサイズを表す、ＭｉｎＱＴＳｉｚｅ）と、最大２分木サイズ（最大許容２分木ルートノードサイズを表す、ＭａｘＢＴＳｉｚｅ）と、最大２分木深度（最大許容２分木深度を表す、ＭａｘＢＴＤｅｐｔｈ）と、最小２分木サイズ（最小許容２分木リーフノードサイズを表す、ＭｉｎＢＴＳｉｚｅ）とを含み得る。

[0128] ＣＴＵに対応するＱＴＢＴ構造のルートノードは、ＱＴＢＴ構造の第１のレベルにおいて４つの子ノードを有し得、それらの各々は、４分木区分に従って区分され得る。すなわち、第１のレベルのノードは、（子ノードを有しない）リーフノードであるか、あるいは４つの子ノードを有するかのいずれかである。ＱＴＢＴ構造１３０の例は、分岐のために実線を有する親ノードと子ノードとを含むようなノードを表す。第１のレベルのノードは、最大許容２分木ルートノードサイズ（ＭａｘＢＴＳｉｚｅ）よりも大きくない場合、それぞれの２分木によってさらに区分され得る。１つのノードの２分木分割は、分割から得られるノードが最小許容２分木リーフノードサイズ（ＭｉｎＢＴＳｉｚｅ）または最大許容２分木深度（ＭａｘＢＴＤｅｐｔｈ）に到達するまで反復され得る。ＱＴＢＴ構造１３０の例は、分岐のために破線を有するものとしてそのようなノードを表す。２分木リーフノードは、コーディングユニット（ＣＵ）と呼ばれ、コーディングユニット（ＣＵ）は、それ以上区分することなく、予測（たとえば、イントラピクチャ予測またはインターピクチャ予測）および変換のために使用される。上記で説明したように、ＣＵは、「ビデオブロック」または「ブロック」と呼ばれることもある。

[0129] ＱＴＢＴ区分構造の一例では、ＣＴＵサイズは、１２８×１２８（ルーマサンプルおよび２つの対応する６４×６４クロマサンプル）として設定され、ＭｉｎＱＴＳｉｚｅは１６×１６として設定され、ＭａｘＢＴＳｉｚｅは６４×６４として設定され、（幅と高さの両方について）ＭｉｎＢＴＳｉｚｅは４として設定され、ＭａｘＢＴＤｅｐｔｈは４として設定される。４分木リーフノードを生成するために、最初に４分木区分がＣＴＵに適用される。４分木リーフノードは、１６×１６（すなわち、ＭｉｎＱＴＳｉｚｅ）から１２８×１２８（すなわち、ＣＴＵサイズ）までのサイズを有し得る。４分木ノードが１２８×１２８である場合、サイズがＭａｘＢＴＳｉｚｅ（すなわち、この例では６４×６４）を超えるので、それは２分木によってさらに分割されない。そうでない場合、リーフ４分木ノードは、２分木によってさらに区分される。したがって、４分木リーフノードはまた、２分木に対してルートノードであり、０としての２分木深度を有する。２分木深度がＭａｘＢＴＤｅｐｔｈ（この例では４）に達したとき、さらなる分割は許可されない。２分木ノードがＭｉｎＢＴＳｉｚｅ（この例では４）に等しい幅を有するとき、そのことはそれ以上の水平分割が許されないことを暗示する。同様に、ＭｉｎＢＴＳｉｚｅに等しい高さを有する２分木ノードは、その２分木ノードに対してそれ以上の垂直分割が許されないことを暗示する。上述のように、２分木のリーフノードはＣＵと呼ばれ、それ以上区分することなく予測および変換に従ってさらに処理される。

[0130] 図３は、本開示の技法を実行し得る例示的なビデオエンコーダ（video encoder）２００を示すブロック図である。図３は説明のために提供され、本開示で広く例示され記載される技法を限定するものと見なされるべきではない。説明の目的で、本開示では、ＨＥＶＣビデオコーディング規格および開発中のＨ．２６６ビデオコーディング規格などのビデオコーディング規格のコンテキストにおいて、ビデオエンコーダ２００について説明する。しかしながら、本開示の技法は、これらのビデオコーディング規格に限定されず、一般的にビデオ符号化および復号に適用可能である。

[0131] 図３の例では、ビデオエンコーダ２００は、ビデオデータメモリ２３０と、モード選択ユニット２０２と、残差生成ユニット２０４と、変換処理ユニット２０６と、量子化ユニット２０８と、逆量子化ユニット２１０と、逆変換処理ユニット２１２と、再構成ユニット２１４と、フィルタユニット２１６と、復号ピクチャバッファ（ＤＰＢ：decoded picture buffer）２１８と、エントロピー符号化ユニット２２０とを含む。ビデオデータメモリ２３０と、モード選択ユニット２０２と、残差生成ユニット２０４と、変換処理ユニット２０６と、量子化ユニット２０８と、逆量子化ユニット２１０と、逆変換処理ユニット２１２と、再構成ユニット２１４と、フィルタユニット２１６と、ＤＰＢ２１８と、エントロピー符号化ユニット２２０とのいずれかまたはすべては、１つもしくは複数のプロセッサまたは処理回路において実装され得る。その上、ビデオエンコーダ２００は、これらおよび他の機能を実行するための追加もしくは代替のプロセッサまたは処理回路を含み得る。

[0132] ビデオデータメモリ２３０は、ビデオエンコーダ２００の構成要素によって符号化されるべきビデオデータを記憶し得る。ビデオエンコーダ２００は、たとえば、ビデオソース１０４（図１）から、ビデオデータメモリ２３０に記憶されたビデオデータを受信し得る。ＤＰＢ２１８は、ビデオエンコーダ２００による後続のビデオデータの予測において使用するための参照ビデオデータを記憶する参照ピクチャメモリとして働き得る。ビデオデータメモリ２３０およびＤＰＢ２１８は、同期ＤＲＡＭ（ＳＤＲＡＭ）を含むダイナミックランダムアクセスメモリ（ＤＲＡＭ）、磁気抵抗ＲＡＭ（ＭＲＡＭ）、抵抗性ＲＡＭ（ＲＲＡＭ（登録商標））、または他のタイプのメモリデバイスなどの、様々なメモリデバイスのいずれかによって形成され得る。ビデオデータメモリ２３０とＤＰＢ２１８とは、同じメモリデバイスまたは別個のメモリデバイスによって提供され得る。様々な例では、ビデオデータメモリ２３０は、図示のように、ビデオエンコーダ２００の他の構成要素とともにオンチップであるか、またはそれらの構成要素に対してオフチップであり得る。

[0133] 本開示では、ビデオデータメモリ２３０への言及は、特にそのように説明されない限り、ビデオエンコーダ２００の内部のメモリに限定されるものとして解釈されるべきではなく、または特にそのように説明されない限り、ビデオエンコーダ２００の外部のメモリに限定されるものとして解釈されるべきではない。そうではなく、ビデオデータメモリ２３０への言及は、ビデオエンコーダ２００が符号化のために受信するビデオデータ（たとえば、符号化されるべきである現在のブロックのビデオデータ）を記憶する参照メモリとして理解されたい。図１のメモリ１０６はまた、ビデオエンコーダ２００の様々なユニットからの出力の一時的記憶を提供し得る。

[0134] 図３の様々なユニットは、ビデオエンコーダ２００によって実行される動作を理解するのを支援するために示されている。ユニットは、固定機能回路、プログラマブル回路、またはそれらの組合せとして実装され得る。固定機能回路は、特定の機能を与える回路を指し、実行され得る動作に関してあらかじめ設定される。プログラマブル回路は、様々なタスクを実行するように、および実行され得る動作においてフレキシブルな機能を提供するようにプログラムされ得る回路を指す。たとえば、プログラマブル回路は、ソフトウェアまたはファームウェアの命令によって定義される様式でプログラマブル回路を動作させるソフトウェアまたはファームウェアを実行し得る。固定機能回路は、（たとえば、パラメータを受信するかまたはパラメータを出力するための）ソフトウェア命令を実行し得るが、固定機能回路が実行する動作のタイプは、概して不変である。いくつかの例では、ユニットのうちの１つまたは複数は、別個の回路ブロック（固定機能またはプログラマブル）であり得、いくつかの例では、１つまたは複数のユニットは、集積回路であり得る。

[0135] ビデオエンコーダ２００は、プログラマブル回路から形成される論理演算装置（ＡＬＵ）、初等関数ユニット（ＥＦＵ）、デジタル回路、アナログ回路、および／またはプログラマブルコアを含み得る。ビデオエンコーダ２００の動作が、プログラマブル回路によって実行されるソフトウェアを使用して実行される例では、メモリ１０６（図１）は、ビデオエンコーダ２００が受信し実行するソフトウェアのオブジェクトコードを記憶し得るか、またはビデオエンコーダ２００内の別のメモリ（図示されず）が、そのような命令を記憶し得る。

[0136] ビデオデータメモリ２３０は、受信されたビデオデータを記憶するように構成される。ビデオエンコーダ２００は、ビデオデータメモリ２３０からビデオデータのピクチャを取り出し、残差生成ユニット２０４とモード選択ユニット２０２とにビデオデータを与え得る。ビデオデータメモリ２３０中のビデオデータは、符号化されるべきである生のビデオデータであり得る。

[0137] モード選択ユニット２０２は、動き推定ユニット２２２と、動き補償ユニット２２４と、イントラ予測ユニット２２６とを含む。モード選択ユニット２０２は、他の予測モードに従ってビデオ予測を実行するために追加の機能ユニットを含み得る。例として、モード選択ユニット２０２は、パレットユニット、（動き推定ユニット２２２および／または動き補償ユニット２２４の一部であり得る）イントラブロックコピーユニット、アフィンユニット、線形モデル（ＬＭ）ユニットなどを含み得る。

[0138] モード選択ユニット２０２は、概して、符号化パラメータの組合せをテストするために複数の符号化パスを協調させ、そのような組合せのためのレートひずみ値を生じる。符号化パラメータは、ＣＵへのＣＴＵの区分、ＣＵのための予測モード、ＣＵの残差データのための変換タイプ、ＣＵの残差データのための量子化パラメータなどを含み得る。モード選択ユニット２０２は、他のテストされた組合せよりも良好であるレートひずみ値を有する符号化パラメータの組合せを最終的に選択し得る。

[0139] ビデオエンコーダ２００は、一連のＣＴＵにビデオデータメモリ２３０から取り出されたピクチャを区分し、スライス内の１つまたは複数のＣＴＵをカプセル化し得る。モード選択ユニット２１０は、上で説明されたＨＥＶＣのＱＴＢＴ構造または４分木構造などの木構造に従ってピクチャのＣＴＵを区分し得る。上で説明されたように、ビデオエンコーダ２００は、木構造に従ってＣＴＵを区分することから１つまたは複数のＣＵを形成し得る。そのようなＣＵは、一般に「ビデオブロック」または「ブロック」と呼ばれることもある。

[0140] 概して、モード選択ユニット２０２はまた、現在のブロック（たとえば、現在のＣＵまたはＨＥＶＣでは、ＰＵおよびＴＵの重複部分）のための予測ブロックを生成するためにそれの構成要素（たとえば、動き推定ユニット２２２、動き補償ユニット２２４、およびイントラ予測ユニット２２６）を制御する。現在のブロックのインター予測のために、動き推定ユニット２２２は、１つまたは複数の参照ピクチャ（たとえば、ＤＰＢ２１８に記憶されている１つまたは複数の以前のコーディングされたピクチャ）の中で１つまたは複数の厳密に一致する参照ブロックを特定するために動き探索を実行し得る。特に、動き推定ユニット２２２は、たとえば、絶対差分和（ＳＡＤ）、２乗差分和（ＳＳＤ）、平均絶対差（ＭＡＤ）、平均２乗差（ＭＳＤ）などに従って、現在のブロックに対して潜在的な参照ブロックがどのくらい類似しているかを表す値を計算し得る。動き推定ユニット２２２は、一般に、現在のブロックと考慮されている参照ブロックとの間のサンプルごとの差分を使用してこれらの計算を実行し得る。動き推定ユニット２２２は、現在のブロックに最も厳密に一致する参照ブロックを示す、これらの計算から得られた最も低い値を有する参照ブロックを識別し得る。

[0141] 動き推定ユニット２２２は、現在のピクチャ中の現在のブロックの位置に対して参照ピクチャ中の参照ブロックの位置を定義する１つまたは複数の動きベクトル（ＭＶ）を形成し得る。動き推定ユニット２２２は、次いで、動きベクトルを動き補償ユニット２２４に提供し得る。たとえば、単方向インター予測では、動き推定ユニット２２２は、単一の動きベクトルを提供し得るが、双方向インター予測では、動き推定ユニット２２２は、２つの動きベクトルを提供し得る。動き補償ユニット２２４は、次いで、動きベクトルを使用して予測ブロックを生成し得る。たとえば、動き補償ユニット２２４は、動きベクトルを使用して参照ブロックのデータを取り出し得る。別の例として、動きベクトルが部分サンプル精度を有する場合、動き補償ユニット２２４は、１つまたは複数の補間フィルタに従って予測ブロックの値を補間し得る。その上、双方向インター予測の場合、動き補償ユニット２２４は、それぞれの動きベクトルによって特定される２つの参照ブロックのためのデータを取り出し、たとえば、サンプルごとの平均化または重み付け平均化を通じて、取り出されたデータを組み合わせ得る。

[0142] 別の例として、イントラ予測、またはイントラ予測コーディングのために、イントラ予測ユニット２２６は、現在のブロックに隣接しているサンプルから予測ブロックを生成し得る。たとえば、方向性モードでは、イントラ予測ユニット２２６は、隣接サンプルの値を概して数学的に組み合わせ、現在のブロックにわたって規定の方向にこれらの計算された値をポピュレートして、予測ブロックを生成し得る。別の例として、ＤＣモードでは、イントラ予測ユニット２２６は、現在のブロックに対する隣接サンプルの平均を計算し、予測ブロックのサンプルごとにこの得られた平均を含むように予測ブロックを生成し得る。

[0143] モード選択ユニット２０２は、予測ブロックを残差生成ユニット２０４に提供する。残差生成ユニット２０４は、ビデオデータメモリ２３０から現在のブロックの未加工の、コーディングされていないバージョンを受信し、モード選択ユニット２０２から予測ブロックを受信する。残差生成ユニット２０４は、現在のブロックと予測ブロックとの間のサンプルごとの差分を計算する。得られたサンプルごとの差分は、現在のブロックのための残差ブロックを定義する。いくつかの例では、残差生成ユニット２０４はまた、残差差分パルスコード変調（ＲＤＰＣＭ：residual differential pulse code modulation）を使用して残差ブロックを生成するために、残差ブロックの中のサンプル値の間の差分を決定し得る。いくつかの例では、残差生成ユニット２０４は、バイナリ減算を実行する１つまたは複数の減算器回路を使用して形成され得る。

[0144] モード選択ユニット２０２がＣＵをＰＵに区分する例では、各ＰＵは、ルーマ予測ユニットと対応するクロマ予測ユニットとに関連付けられ得る。ビデオエンコーダ２００とビデオデコーダ３００とは、様々なサイズを有するＰＵをサポートし得る。上記のように、ＣＵのサイズは、ＣＵのルーマコーディングブロックのサイズを指すことがあり、ＰＵのサイズは、ＰＵのルーマ予測ユニットのサイズを指すことがある。特定のＣＵのサイズが２Ｎ×２Ｎであると想定すると、ビデオエンコーダ２００は、イントラ予測について２Ｎ×２ＮまたはＮ×ＮというＰＵサイズと、インター予測について２Ｎ×２Ｎ、２Ｎ×Ｎ、Ｎ×２Ｎ、Ｎ×Ｎ、または類似の対称的なＰＵサイズとをサポートし得る。ビデオエンコーダ２００とビデオデコーダ３００とはまた、インター予測のための２Ｎ×ｎＵ、２Ｎ×ｎＤ、ｎＬ×２Ｎ、およびｎＲ×２ＮのＰＵサイズの非対称的区分をサポートし得る。

[0145] モード選択ユニットがＣＵをＰＵにさらに区分しない例では、各ＣＵは、ルーマコーディングブロックと、対応するクロマコーディングブロックとに関連付けられ得る。上記のように、ＣＵのサイズは、ＣＵのルーマコーディングブロックのサイズを指し得る。ビデオエンコーダ２００とビデオデコーダ１２０とは、２Ｎ×２Ｎ、２Ｎ×Ｎ、またはＮ×２ＮのＣＵサイズをサポートし得る。

[0146] いくつかの例として、イントラブロックコピーモードコーディング、アフィンモードコーディング、および線形モデル（ＬＭ）モードコーディングなどの他のビデオコーディング技法の場合、モード選択ユニット２０２は、コーディング技法に関連するそれぞれのユニットを介して、符号化されている現在のブロックのための予測ブロックを生成する。パレットモードコーディングなど、いくつかの例では、モード選択ユニット２０２は、予測ブロックを生成せず、代わりに、選択されたパレットに基づいてブロックを再構成すべき様式を示すシンタックス要素を生成し得る。そのようなモードでは、モード選択ユニット２０２は、符号化されるためにこれらのシンタックス要素をエントロピー符号化ユニット２２０に提供し得る。

[0147] 上記で説明したように、残差生成ユニット２０４は、現在のブロックに対するビデオデータと、対応する予測ブロックとを受信する。残差生成ユニット２０４は、次いで、現在のブロックのための残差ブロックを生成する。残差ブロックを生成するために、残差生成ユニット２０４は、予測ブロックと現在のブロックとの間のサンプルごとの差分を計算する。

[0148] 変換処理ユニット２０６は、（本明細書では「変換係数ブロック（transform coefficient block）」と呼ぶ）変換係数のブロックを生成するために残差ブロックに１つまたは複数の変換を適用する。変換処理ユニット２０６は、変換係数ブロックを形成するために、残差ブロックに様々な変換を適用し得る。たとえば、変換処理ユニット２０６は、離散コサイン変換（ＤＣＴ）、方向変換、カルーネンレーベ変換（ＫＬＴ）、または概念的に同様の変換を残差ブロックに適用し得る。いくつかの例では、変換処理ユニット２０６は、残差ブロックに複数の変換、たとえば、回転変換などの１次変換および２次変換を実行し得る。いくつかの例では、変換処理ユニット２０６は、残差ブロックに変換を適用しない。本明細書で説明されるように、変換処理ユニット２０６は、異なる係数ブロック（すなわち、変換係数のブロック）に異なる変換を選択的に適用し得る。

[0149] 量子化ユニット２０８は、量子化変換係数ブロックを生成するために変換係数ブロック中の変換係数を量子化し得る。量子化ユニット２０８は、現在のブロックと関連付けられる量子化パラメータ（ＱＰ）値に従って変換係数ブロックの変換係数を量子化し得る。ビデオエンコーダ２００は（たとえば、モード選択ユニット２０２を介して）、ＣＵと関連付けられたＱＰ値を調整することによって、現在のブロックと関連付けられた係数ブロックに適用される量子化の程度を調整し得る。量子化は、情報の損失をもたらすことがあり、したがって、量子化された変換係数は、変換処理ユニット２０６によって生成された元の変換係数よりも低い精度を有し得る。

[0150] 逆量子化ユニット２１０および逆変換処理ユニット２１２は、変換係数ブロックから残差ブロックを再構成するために、それぞれ、量子化変換係数ブロックに逆量子化および逆変換を適用し得る。再構成ユニット２１４は、再構成された残差ブロックと、モード選択ユニット２０２によって生成された予測ブロックとに基づいて、（潜在的にある程度のひずみを伴うが）現在のブロックに対応する再構成されたブロックを生成し得る。たとえば、再構成ユニット２１４は、再構成されたブロックを生成するために、モード選択ユニット２０２によって生成された予測ブロックからの対応するサンプルに、再構成された残差ブロックのサンプルを加算し得る。

[0151] フィルタユニット２１６は、再構成されたブロックに対して１つまたは複数のフィルタ演算を実行し得る。たとえば、フィルタユニット２１６は、ＣＵのエッジに沿ってブロッキネスアーティファクト（blockiness artifact）を低減するためのデブロッキング動作を実行し得る。フィルタユニット２１６の動作は、いくつかの例では、スキップされ得る。

[0152] ビデオエンコーダ２００は、ＤＰＢ２１８中に再構成されたブロックを記憶する。たとえば、フィルタユニット２２４の動作が必要とされない例において、再構成ユニット２１４は、再構成されたブロックをＤＰＢ２１８に記憶し得る。フィルタユニット２２４の動作が必要とされる例では、フィルタユニット２１６は、フィルタリングされた再構成されたブロックをＤＰＢ２１８に記憶し得る。動き推定ユニット２２２と動き補償ユニット２２４とは、後で符号化されるピクチャのブロックをインター予測するために、再構成（および潜在的にフィルタ処理）されたブロックから形成された参照ピクチャをＤＰＢ２１８から取り出し得る。加えて、イントラ予測ユニット２２６は、現在のピクチャの中の他のブロックをイントラ予測するために、現在のピクチャのＤＰＢ２１８の中の再構成されたブロックを使用し得る。

[0153] 概して、エントロピー符号化ユニット２２０は、ビデオエンコーダ２００の他の機能構成要素から受信されたシンタックス要素をエントロピー符号化し得る。たとえば、エントロピー符号化ユニット２２０は、量子化ユニット２０８からの量子化された変換係数ブロックをエントロピー符号化し得る。別の例として、エントロピー符号化ユニット２２０は、モード選択ユニット２０２からの予測シンタックス要素（たとえば、インター予測のための動き情報またはイントラ予測のためのイントラモード情報）をエントロピー符号化し得る。エントロピー符号化ユニット２２０は、エントロピー符号化されたデータを生成するためにビデオデータの別の例であるシンタックス要素に対して１つまたは複数のエントロピー符号化動作を実行し得る。たとえば、エントロピー符号化ユニット２２０は、コンテキスト適応型可変長コーディング（ＣＡＶＬＣ）動作、ＣＡＢＡＣ動作、可変対可変（Ｖ２Ｖ）長コーディング動作、シンタックスベースコンテキスト適応型バイナリ算術コーディング（ＳＢＡＣ）動作、確率間隔区分エントロピー（ＰＩＰＥ）コーディング動作、指数ゴロム符号化動作、または別のタイプのエントロピー符号化動作をデータに対して実行し得る。いくつかの例では、エントロピー符号化ユニット２２０は、シンタックス要素がエントロピー符号化されないバイパスモードで動作し得る。

[0154] ビデオエンコーダ２００は、スライスまたはピクチャのブロックを再構成するために必要なエントロピー符号化されたシンタックス要素を含むビットストリームを出力し得る。特に、エントロピー符号化ユニット２２０は、ビットストリームを出力し得る。

[0155] 上記で説明された動作について、ブロックに関して説明する。そのような説明は、ルーマコーディングブロックおよび／またはクロマコーディングブロックのための動作であるものとして理解されるべきである。上で説明されたように、いくつかの例では、ルーマコーディングブロックおよびクロマコーディングブロックは、ＣＵのルーマ成分およびクロマ成分である。いくつかの例では、ルーマコーディングブロックおよびクロマコーディングブロックは、ＰＵのルーマおよびクロマ成分である。

[0156] いくつかの例では、ルーマコーディングブロックに関して実行される動作は、クロマコーディングブロックのために繰り返される必要はない。一例として、ルーマコーディングブロックのための動きベクトル（ＭＶ）と参照ピクチャとを識別するための動作は、クロマブロックのためのＭＶと参照ピクチャとを識別するために繰り返される必要はない。むしろ、ルーマコーディングブロックのためのＭＶは、クロマブロックのためのＭＶを決定するためにスケーリングされ得、参照ピクチャは同じであり得る。別の例として、イントラ予測プロセスは、ルーマコーディングブロックとクロマコーディングブロックとに対して同じであり得る。

[0157] ビデオエンコーダ２００は、ビデオデータを記憶するように構成されたメモリと、回路中に実装され、ビデオブロックの現在の係数ブロックのために、複数の変換タイプから変換タイプを導出するように構成された１つまたは複数の処理ユニットとを含む、ビデオデータを符号化するように構成されたデバイスの一例を表す。ビデオコーダは、ビデオブロックのための再構成された残差データのブロックを取得するために、選択された変換タイプを使用して現在の係数ブロックを変換し、ビデオブロックのための再構成された残差データに基づいて、ビデオブロックを再構成し得る。

[0158] 図４は、本開示の技法を実行し得る例示的なビデオデコーダ（video decoder）３００を示すブロック図である。図４は説明のために提供され、本開示で広く例示され記載される技法を限定するものではない。説明の目的で、本開示は、ビデオデコーダ３００についてＪＥＭ、ＶＶＣ、およびＨＥＶＣの技法に従って説明されることを記載する。しかしながら、本開示の技法は、他のビデオコーディング規格に構成されたビデオコーディングデバイスによって実行され得る。

[0159] 図４の例では、ビデオデコーダ３００は、コード化ピクチャバッファ（ＣＰＢ：coded picture buffer）メモリ３２０と、エントロピー復号ユニット３０２と、予測処理ユニット３０４と、逆量子化ユニット３０６と、逆変換処理ユニット３０８と、再構成ユニット３１０と、フィルタユニット３１２と、復号ピクチャバッファ（ＤＰＢ）３１４とを含む。ＣＰＢメモリ３２０と、エントロピー復号ユニット３０２と、予測処理ユニット３０４と、逆量子化ユニット３０６と、逆変換処理ユニット３０８と、再構成ユニット３１０と、フィルタユニット３１２と、ＤＰＢ３１４とのいずれかまたはすべては、１つもしくは複数のプロセッサまたは処理回路において実装され得る。その上、ビデオデコーダ３００は、これらおよび他の機能を実行するための追加もしくは代替のプロセッサまたは処理回路を含み得る。

[0160] 予測処理ユニット３０４は、動き補償ユニット３１６と、イントラ予測ユニット３１８とを含む。予測処理ユニット３０４は、他の予測モードに従って予測を実行するための追加のユニットを含み得る。例として、予測処理ユニット３０４は、パレットユニット、（動き補償ユニット３１８の一部を形成し得る）イントラブロックコピーユニット、アフィンユニット、線形モデル（ＬＭ）ユニットなどを含み得る。他の例では、ビデオデコーダ３００は、より多数の、より少数の、または異なる機能構成要素を含み得る。

[0161] ＣＰＢメモリ３２０は、ビデオデコーダ３００の構成要素によって復号されるべき、符号化されたビデオビットストリームなどのビデオデータを記憶し得る。ＣＰＢメモリ３２０に記憶されるビデオデータは、たとえば、コンピュータ可読媒体１１０（図１）から取得され得る。ＣＰＢメモリ３２０は、符号化されたビデオビットストリームからの符号化されたビデオデータ（たとえば、シンタックス要素）を記憶するＣＰＢを含み得る。また、ＣＰＢメモリ３２０は、ビデオデコーダ３００の様々なユニットからの出力を表す一時データなど、コーディングされたピクチャのシンタックス要素以外のビデオデータを記憶し得る。ＤＰＢ３１４は、一般に、ビデオデコーダ３００が符号化されたビデオビットストリームの後続のデータまたはピクチャを復号するときに出力しおよび／または参照ビデオデータとして使用し得る復号されたピクチャを記憶する。ＣＰＢメモリ３２０およびＤＰＢ３１４は、同期ＤＲＡＭ（ＳＤＲＡＭ）を含むダイナミックランダムアクセスメモリ（ＤＲＡＭ）、磁気抵抗ＲＡＭ（ＭＲＡＭ）、抵抗性ＲＡＭ（ＲＲＡＭ）、または他のタイプのメモリデバイスなどの、様々なメモリデバイスのいずれかによって形成され得る。ＣＰＢメモリ３２０およびＤＰＢ３１４は、同じメモリデバイスまたは別個のメモリデバイスによって提供され得る。様々な例では、ＣＰＢメモリ３２０は、ビデオデコーダ３００の他の構成要素とともにオンチップであるか、またはそれらの構成要素に対してオフチップであり得る。

[0162] 追加または代替として、いくつかの例では、ビデオデコーダ３００は、メモリ１２０（図１）からコーディングされたビデオデータを取り出し得る。すなわち、メモリ１２０は、ＣＰＢメモリ３２０を用いて上記で論じられたデータを記憶し得る。同様に、メモリ１２０は、ビデオデコーダ３００の機能の一部または全部が、ビデオデコーダ３００の処理回路によって実行され得るソフトウェアにおいて実装されたとき、ビデオデコーダ３００によって実行されるべき命令を記憶し得る。

[0163] 図４に示されている様々なユニットは、ビデオデコーダ３００によって実行される動作を理解するのを支援するために図示されている。ユニットは、固定機能回路、プログラマブル回路、またはそれらの組合せとして実装され得る。図３と同様に、固定機能回路は、特定の機能を与える回路を指し、実行され得る動作にあらかじめ設定される。プログラマブル回路は、様々なタスクを実行するように、および実行され得る動作においてフレキシブルな機能を提供するようにプログラムされ得る回路を指す。たとえば、プログラマブル回路は、ソフトウェアまたはファームウェアの命令によって定義される様式でプログラマブル回路を動作させるソフトウェアまたはファームウェアを実行し得る。固定機能回路は、（たとえば、パラメータを受信するかまたはパラメータを出力するための）ソフトウェア命令を実行し得るが、固定機能回路が実行する動作のタイプは、概して不変である。いくつかの例では、ユニットのうちの１つまたは複数は、別個の回路ブロック（固定機能またはプログラマブル）であり得、いくつかの例では、１つまたは複数のユニットは、集積回路であり得る。

[0164] ビデオデコーダ３００は、プログラマブル回路から形成されるＡＬＵ、ＥＦＵ、デジタル回路、アナログ回路、および／またはプログラマブルコアを含み得る。ビデオデコーダ３００の動作が、プログラマブル回路上で実行されるソフトウェアによって実行される例では、オンチップまたはオフチップメモリは、ビデオデコーダ３００が受信し実行するソフトウェアの命令（たとえば、オブジェクトコード）を記憶し得る。

[0165] エントロピー復号ユニット３０２は、ＣＰＢから符号化されたビデオデータを受信し、シンタックス要素を再生するためにビデオデータをエントロピー復号し得る。予測処理ユニット３０４、逆量子化ユニット３０６、逆変換処理ユニット３０８、再構成ユニット３１０、およびフィルタユニット３１２は、ビットストリームから抽出されるシンタックス要素に基づいて復号されたビデオデータを生成し得る。

[0166] 概して、ビデオデコーダ３００は、ブロックごとにピクチャを再構成する。ビデオデコーダ３００は、各ブロックに対して個々に再構成演算を実行し得る（ここで、現在再構成されているブロック、すなわち、現在復号されているブロックは、「現在のブロック（current block）」と呼ばれることがある）。

[0167] エントロピー復号ユニット３０２は、量子化変換係数ブロックの量子化変換係数を定義するシンタックス要素ならびに量子化パラメータ（ＱＰ）および／または変換モード指示などの変換情報をエントロピー復号し得る。逆量子化ユニット３０６は、量子化の程度を決定するために、また同様に、逆量子化ユニット３０６が適用すべき逆量子化の程度を決定するために、量子化された変換係数ブロックと関連付けられるＱＰを使用し得る。逆量子化ユニット３０６は、たとえば、量子化された変換係数を逆量子化するためにビット単位の左シフト演算を実行し得る。逆量子化ユニット３０６は、それによって、変換係数を含む変換係数ブロックを形成し得る。

[0168] 逆量子化ユニット３０６が変換係数ブロックを形成した後に、逆変換処理ユニット３０８は、現在のブロックに関連する残差ブロックを生成するために変換係数ブロックに１つまたは複数の逆変換を適用し得る。たとえば、逆変換処理ユニット３０８は、逆ＤＣＴ、逆整数変換、逆カルーネンレーベ変換（ＫＬＴ）、逆回転変換、逆方向変換、または別の逆変換を係数ブロックに適用し得る。本明細書で説明されるように、変換処理ユニット２０６は、異なる係数ブロック（すなわち、変換係数のブロック）に異なる変換を選択的に適用し得る。

[0169] さらに、予測処理ユニット３０４は、エントロピー復号ユニット３０２によってエントロピー復号された予測情報シンタックス要素に従って予測ブロックを生成する。たとえば、現在のブロックがインター予測されることを予測情報シンタックス要素が示す場合、動き補償ユニット３１６は予測ブロックを生成し得る。この場合、予測情報シンタックス要素は、参照ブロックを取り出すＤＰＢ３１４中の参照ピクチャ、ならびに現在のピクチャ中の現在のブロックのロケーションに対する参照ピクチャ中の参照ブロックのロケーションを識別する動きベクトルを示し得る。動き補償ユニット３１６は、概して、動き補償ユニット２２４（図３）に関して説明された方式と実質的に同様である方式でインター予測プロセスを実行し得る。

[0170] 別の例として、予測情報シンタックス要素が、現在のブロックがイントラ予測されることを示す場合、イントラ予測ユニット３１８は、予測情報シンタックス要素によって示されるイントラ予測モードに従って予測ブロックを生成し得る。この場合も、イントラ予測ユニット３１８は、概して、イントラ予測ユニット２２６（図３）に関して説明されたのと実質的に同様である様式でイントラ予測プロセスを実行し得る。イントラ予測ユニット３１８は、ＤＰＢ３１４から、現在のブロックに対する隣接サンプルのデータを取り出し得る。

[0171] 再構成ユニット３１０は、予測ブロックと残差ブロックとを使用して現在のブロックを再構成し得る。たとえば、再構成ユニット３１０は、現在のブロックを再構成するために、予測ブロックの対応するサンプルに残差ブロックのサンプルを加算し得る。

[0172] フィルタユニット３１２は、再構成されたブロックに対して１つまたは複数のフィルタ動作を実行し得る。たとえば、フィルタユニット３１２は、再構成されたブロックの端部に沿ってブロッキネスアーティファクトを低減するためにデブロッキング動作を実行し得る。フィルタユニット３１２の動作は、必ずしもすべての例で実行されるとは限らない。

[0173] ビデオデコーダ３００は、ＤＰＢ３１４中に再構成されたブロックを記憶し得る。上で論じられたように、ＤＰＢ３１４は、イントラ予測のための現在のピクチャのサンプルおよび後続の動き補償のための以前に復号されたピクチャなどの、参照情報を予測処理ユニット３０４に提供し得る。その上、ビデオデコーダ３００は、ＤＰＢからの復号されたピクチャを、後で提示するために、図１のディスプレイデバイス１１８などのディスプレイデバイス上に出力し得る。

[0174] このようにして、ビデオデコーダ３００は、ビデオデータを記憶するように構成されたメモリと、回路中に実装され、ビデオブロックの現在の係数ブロックのために、複数の変換タイプから変換タイプを導出するように構成された１つまたは複数の処理ユニットとを含む、ビデオ復号デバイスの一例を表す。ビデオコーダは、ビデオブロックのための再構成された残差データのブロックを取得するために、選択された変換タイプを使用して現在の係数ブロックを変換し、ビデオブロックのための再構成された残差データに基づいて、ビデオブロックを再構成し得る。

[0175] 図５は、適応変換選択を用いたハイブリッドビデオ符号化のためのシステムを示すブロック図である。図５のビデオエンコーダ２００’は、図１および図３のビデオエンコーダ２００と同様のビデオ符号化システムを示すと見なされ得る。たとえば、ビデオエンコーダ２００’のブロック予測２０２’、ブロック変換（block transform）２０６’、量子化２０８’、逆量子化２１０’、逆変換２１２’、フレームバッファ２１８’、およびエントロピーコーディング２２０’、図３のビデオエンコーダ２００のモード選択ユニット２０２、変換処理ユニット２０６、量子化ユニット２０８、逆量子化ユニット２１０、逆変換処理ユニット２１２、復号ピクチャバッファ２１８、およびエントロピー符号化ユニット２２０と同様の動作を実行すると見なされ得る。図５に示されているように、ビデオエンコーダ２００’は、変換バンク（transform bank）２０７’を含み得、これは、残差データを変換するためにブロック変換２０６’と併せて動作するように構成され得る。たとえば、変換バンク２０７’とブロック変換２０６’とは、予測残差の各ブロックのために様々な変換（たとえば、様々なＤＣＴまたはＤＳＴ）を集合的に選択し、実行し得る。上記で説明されたように、いくつかの例では、変換バンク２０７’とブロック変換２０６’とは、変換サイド情報の選択肢をシグナリングし得る。たとえば、ブロック変換２０６’は、エントロピーコーディング２２０’に、使用される変換（すなわち、ｔ）を明示的に示すシンタックス要素を符号化させ得る。

[0176] いくつかの例では、変換バンク２０７’とブロック変換２０６’とは、分離可能な方式でブロック変換を計算し得る。たとえば、計算の複雑さを低減するために、変換バンク２０７’とブロック変換２０６’とは、図６に示されているように、水平線と垂直線とを独立して変換し得る。言い換えれば、図６の水平矢印および垂直矢印に沿ったサンプルは独立して変換され得る。

[0177] ＨＥＶＣより前のビデオコーディング規格では、固定の分離可能変換のみが使用され、ここで、ＤＣＴ－２が垂直と水平の両方に使用される。ＨＥＶＣでは、ＤＣＴ－２に加えて、ＤＳＴ－７も、固定の分離可能変換として４×４のブロックのために採用される。ＵＳ－２０１６－０２１９２９０－Ａ１およびＵＳ－２０１８－００２０２１８－Ａ１は、それらの固定変換の適応型の拡張について説明し、ＵＳ－２０１６－０２１９２９０－Ａ１のＡＭＴの一例は、ＪｏｉｎｔＶｉｄｅｏＥｘｐｅｒｔｓＴｅａｍ（ＪＶＥＴ）のＪｏｉｎｔＥｘｐｅｒｉｍｅｎｔａｌＭｏｄｅｌ（ＪＥＭ）、ＩＴＵ－ＴＳＧ１６ＷＰ３とＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１とのＪｏｉｎｔＶｉｄｅｏＥｘｐｅｒｔｓＴｅａｍ（ＪＶＥＴ）、ＪＥＭＳｏｆｔｗａｒｅ、ｈｔｔｐｓ：／／ｊｖｅｔ．ｈｈｉ．ｆｒａｕｎｈｏｆｅｒ．ｄｅ／ｓｖｎ／ｓｖｎ＿ＨＭＪＥＭＳｏｆｔｗａｒｅ／ｔａｇｓ／ＨＭ－１６．６－ＪＥＭ－７．０において採用されている。

[0178] 本開示の１つまたは複数の技法によれば、ビデオコーダ（たとえば、ビデオエンコーダおよび／またはビデオデコーダ）は、暗黙的な変換選択を実行し得る。たとえば、ビデオコーダは、ブロックのための残差データを変換するための変換を暗黙的に選択するためにルールの１つまたは複数のセットを適用し得る。このようにして、ビデオコーダは、コーディング効率を改善し得る。特に、本開示の技法により、ビデオデコーダは、選択された変換を実際にシグナリングするオーバーヘッドなしに適応型の変換選択を使用する利益を取得することが可能になる。

[0179] ＶＶＣＤｒａｆｔ４では、比較的複雑で、良好なコーディングパフォーマンスを与えない２つの暗黙的な変換導出（implicit transform derivation）がある。本開示は、同様のまたはより良好な圧縮／コーディングパフォーマンス／効率を与え得るより単純な代替導出を提案した。
[0180] ＶＶＣＤｒａｆｔ４および参照ソフトウェアＶＴＭ－４．０）における関連する技法について以下で説明する。

[0181] ＶＶＣＤｒａｆｔ４／ＶＴＭ－４．０では、複数変換選択（ＭＴＳ）は、変換が（ｉ）複数の候補の中から選択するために明示的にシグナリングされるのか、または（ｉｉ）ブロックの形状に基づいて暗黙的に導出されるのかを決定するために高レベルのフラグを使用する。後者の場合、最大サイズ１６の水平または垂直変換としてのＤＳＴ－７とＤＣＴ－２との組合せ。特に、ブロック形状に依存する条件に従うことは、ＶＴＭ－４．０における暗黙的なＭＴＳを定義する。
－ブロックの幅と高さとが等しく、両方が１６以下である場合、ＤＳＴ－７が水平方向と垂直方向との両方に使用される。
－ブロックの幅がそれの高さよりも小さく、それが１６以下である場合、ＤＳＴ－７が、水平にあり、ＤＣＴ－２が垂直方向に使用される。
－ブロックの高さがそれの幅よりも小さく、それが１６以下である場合、ＤＳＴ－７が、垂直にあり、ＤＣＴ－２が水平方向に使用される。
－そうでない場合、ＤＣＴ－２が両方向に使用される。

[0182] ＶＶＣＤｒａｆｔ４／ＶＴＭ－４．０では、イントラサブブロック区分（ＩＳＰ）がルーマブロックをコーディングするために使用されるとき、モード依存の変換選択が行われ、ここで、水平および垂直変換（ｔｒＴｙｐｅＨｏｒおよびｔｒＴｙｐｅＶｅｒ）は、ＶＶＣＤｒａｆｔ４における以下の表に基づいて導出される。

[0183] 上記で説明されたように、本開示の１つまたは複数の技法によれば、ビデオコーダは、利用可能なサイド情報に基づいて変換選択を暗黙的に導出するために１つまたは複数のルールセットを適用し得る。

[0184] 第１の例として、ビデオコーダは、コーディングユニット／変換ユニット（ＣＵ／ＴＵ）がいくつかの条件の下でＤＳＴ－７のみを使用してコーディングされると決定し得る。たとえば、許可される最大１Ｄ変換サイズがコーデックではＮである場合、ビデオコーダは、すべての可能なサイズのためにＤＳＴ－７が使用され得ると決定し得る。たとえば（図７に示されているように、Ｎ個の行が、それぞれＭ個のサンプルを有し、それのＭ個の列がＮ個のサンプルを有する）Ｎ×Ｍのブロックが与えられた場合、ビデオコーダは、Ｎ点ＤＳＴ－７が垂直方向に使用され得、Ｍ点ＤＳＴ－７が水平方向に使用され得ると決定し得る。

[0185] 第２の例として、選択されたセットの次元について、ビデオコーダは、ＤＳＴ－７とＤＣＴ－２との異なる組合せが使用され得ると決定し得る。たとえば、ビデオコーダは、Ｋ個のサンプル以下をもつ任意の行または列にＤＳＴ－７が適用され得、一方、Ｋよりも多いサンプルの数をもつ任意の行または列を変換するためにＤＣＴ－２が使用され得ると決定し得る。たとえば、図７の例では、ＮがＫよりも小さく、ＭがＫよりも大きい場合、ビデオコーダは、垂直方向にＮ点ＤＳＴ－７を使用し、水平方向にＭ点ＤＣＴ－２を使用することを決定し得る。また、図７の例では、ＮとＭとの両方がＫよりも小さい場合、ビデオコーダは、水平方向と垂直方向との両方にＤＳＴ－７を使用することを決定し得る。

[0186] 第３の例として、ＣＵ／ＴＵが区分される場合、ビデオデコーダは、すべての区分が同じ暗黙的な変換選択方式を使用することができると決定し得る。いくつかの例では、ビデオコーダは、すべての区分されたサブブロック（サブＴＵまたはサブＣＵ）のためにＤＳＴ－７を使用し得る。いくつかの例では、ビデオコーダは、区分後のブロックの次元に応じてＤＳＴ－７とＤＣＴ－２との組合せを使用し得る。いくつかの例では、ＶＶＣ（ＶＴＭ－４．０）においてイントラサブブロック区分（ＩＳＰ：intra-subblock partitioning）を使用するコーディングブロックの場合、ビデオコーダは、第２の例において上記で説明されたように、ブロックの次元に応じてＤＳＴ－７とＤＣＴ－２との組合せを使用し得る。たとえば、１６個のサンプル以下をもつ任意の行または列のために、ビデオコーダは、ＤＳＴ－７をし得る。そうでない場合、ビデオコーダは、１６よりも多いサンプル数をもつ任意の行または列を変換するためにＤＣＴ－２を使用し得る。いくつかの例では、ＩＳＰが２つのサンプルをもつ行／列を有することができるので、ビデオコーダは２点ＤＳＴ－７を使用し得る。前の標準では、２点ＤＳＴ－７は使用されていなかった。したがって、ビデオコーダは、以下のように２点ＤＳＴ－７行列の修正されたエントリを使用し得る。

[0187] 第４の例として、ビデオコーダは、イントラ予測モード（モードは図８に示されている）に基づいて変換を導出し得る。イントラ平面およびＤＣモード（intra planar and DC mode）では、ビデオコーダは、水平方向と垂直方向との両方にＤＳＴ－７を使用し得る。イントラ対角角度モード（intra diagonal angular mode）（図８のモードインデックス（mode index）３４）では、ビデオコーダは、水平方向と垂直方向との両方にＤＳＴ－７を使用し得る。２から６６までインデックス付けされた角度モード（angular mode）では、ビデオコーダは、モードインデックス［２，３，．．．，６５，６６］の間のモードインデックスのあらかじめ定義された間隔などのある範囲のモードにＤＳＴ／ＤＣＴの異なる組合せを適用し得る。
１）すべての角度モード［２，３，．．．，６６］からなる間隔の範囲は、２と３０との間の所与の整数Ｔについて以下のように定義され得る。

２）範囲Ｒ₂の角度モードでは、ＤＳＴ－７が水平方向と垂直方向との両方に適用され得る。
３）範囲Ｒ₁の角度モードでは、ＤＳＴ－７が水平方向に適用され、ＤＳＴ－２が垂直方向に適用され得る。
４）範囲Ｒ₃の角度モードでは、ＤＳＴ－２が水平方向に適用され、ＤＳＴ－７が垂直方向に適用され得る。

[0188] 第５の例として、ＤＳＴ－７およびＤＣＴ－２以外に、ビデオコーダは、異なるタイプのＤＣＴ／ＤＳＴ（たとえば、ＤＳＴ－４およびＤＣＴ－８）の組合せおよび１Ｄ識別変換を適用し得る。

[0189] 第６の例として、ビデオコーダは、イントラ予測されるＣＵ／ＴＵのみに上記の例の１つまたは複数の組合せを適用し得る。

[0190] 第７の例として、ビデオコーダは、インター予測されるＣＵ／ＴＵのみに上記の例の１つまたは複数の組合せを適用し得る。

[0191] 第８の例として、ビデオコーダは、イントラ予測されるＣＵ／ＴＵとインター予測されるＣＵ／ＴＵとの両方に使用される上記の例の１つまたは複数の組合せを適用し得る。

[0192] 第９の例として、ビデオコーダは、ルーマチャネルもしくはクロマチャネルまたはルーマチャネルとクロマチャネルとの両方に使用される上記の例の１つまたは複数の組合せを適用し得る。

[0193] 図９は、現在のブロックを符号化するための例示的な方法を示すフローチャートである。現在のブロックは現在のＣＵを備え得る。ビデオエンコーダ２００（図１および図３）に関して説明されるが、他のデバイスが図９の方法と同様の方法を実行するように構成され得ることを理解されたい。たとえば、図５のビデオエンコーダ２００’は、図９の方法と同様の方法を実行し得る。

[0194] この例では、ビデオエンコーダ２００は、最初に、現在のブロックを予測する（３５０）。たとえば、ビデオエンコーダ２００は、現在のブロックのための予測ブロックを形成し得る。ビデオエンコーダ２００は、次いで、現在のブロックのための残差ブロックを計算し得る（３５２）。残差ブロックを計算するために、ビデオエンコーダ２００は、元のコーディングされていないブロックと、現在のブロックのための予測ブロックとの間の差分を計算し得る。ビデオエンコーダ２００は、次いで、残差ブロックの係数を変換し、量子化し得る（３５４）。上記で説明されたように、ビデオエンコーダ２００は、残差ブロックの係数を変換するときに使用すべき変換タイプを暗黙的に導出し得る。たとえば、ビデオエンコーダ２００は、図１１に関して以下で説明されられる技法を使用して変換タイプを導出し得る。

[0195] 次に、ビデオエンコーダ２００は、残差ブロックの量子化された変換係数を走査する（３５６）。走査の間、または走査に続いて、ビデオエンコーダ２００は、係数をエントロピー符号化し得る（３５８）。たとえば、ビデオエンコーダ２００は、ＣＡＶＬＣまたはＣＡＢＡＣを使用して係数を符号化し得る。次いで、ビデオエンコーダ２００は、ブロックのエントロピーコーディングされたデータを出力し得る（３６０）。

[0196] 図１０は、ビデオデータの現在のブロックを復号するための例示的な方法を示すフローチャートである。現在のブロックは現在ＣＵを備え得る。ビデオデコーダ３００（図１および図４）に関して説明されるが、他のデバイスが、図１０の方法と同様の方法を実行するように構成され得ることを理解されたい。

[0197] ビデオデコーダ３００は、エントロピーコーディングされた予測情報、および現在のブロックに対応する残差ブロックの係数に対するエントロピーコーディングされたデータなどの、現在のブロックに対するエントロピーコーディングされたデータを受信し得る（３７０）。ビデオデコーダ３００は、現在のブロックに対する予測情報を決定し残差ブロックの係数を再生するために、エントロピーコーディングされたデータをエントロピー復号し得る（３７２）。ビデオデコーダ３００は、現在のブロックのための予測ブロックを計算するために、たとえば、現在のブロックのための予測情報によって示されるイントラ予測またはインター予測モードを使用して、現在のブロックを予測し得る（３７４）。ビデオデコーダ３００は、次いで、量子化された変換係数のブロックを作成するために、再生された係数を逆走査し得る（３７６）。ビデオデコーダ３００は、次いで、残差ブロックを生成するために係数を逆量子化し、逆変換し得る（３７８）。上記で説明されたように、ビデオデコーダ３００は、残差ブロックの係数を変換するときに使用すべき変換タイプを暗黙的に導出し得る。たとえば、ビデオデコーダ３００は、図１１に関して以下で説明されられる技法を使用して変換タイプを導出し得る。ビデオデコーダ３００は、予測ブロックと残差ブロックとを組み合わせることによって、最終的に現在のブロックを復号し得る（３８０）。

[0198] 図１１は、本開示の１つまたは複数の技法による、ビデオブロックの変換ブロックのための変換タイプを推測するための例示的な方法を示すフローチャートである。図１１の技法は、ビデオコーダ（たとえば、ビデオエンコーダ２００および／またはビデオデコーダ３００）によって実行され得る。

[0199] ビデオコーダは、現在のビデオブロックの現在の変換ブロックを取得し得る（１１０２）。変換ブロックは、ビデオビットストリームから復号された１つまたは複数のシンタックス要素（たとえば、ＶＶＣＤｒａｆｔ４の残差コーディングシンタックス表中に含まれるシンタックス要素に基づいて構成される変換係数の行列であり得る。現在のビデオブロックは、コーディングユニット（ＣＵ）であり得る。

[0200] ビデオコーダは、現在の変換ブロックのために複数の変換タイプから変換タイプを推測し得る。複数の変換タイプは、１つまたは複数の離散コサイン変換（ＤＣＴ）と１つまたは複数の離散サイン変換（ＤＳＴ）とを含み得る。

[0201] 上記で説明されたように、ビデオコーダは、現在のビデオブロックがＩＳＰおよび／または変換ブロックのサイズを使用して区分されるのかどうかなど、１つまたは複数のファクタに基づいて変換タイプを推測し得る。図１１に示されるように、ビデオコーダは、現在のビデオブロックがＩＳＰを使用して区分されると決定し得る（１１０４）。ビデオコーダは、現在のビデオブロックが１つまたは複数のシンタックス要素（たとえば、ｓｐｓ＿ｉｓｐ＿ｅｎａｂｌｅｄ＿ｆｌａｇ、ｉｎｔｒａ＿ｓｕｂｐａｒｔｉｔｉｏｎｓ＿ｍｏｄｅ＿ｆｌａｇ、および／またはｉｎｔｒａ＿ｓｕｂｐａｒｔｉｔｉｏｎｓ＿ｓｐｌｉｔ＿ｆｌａｇ）の値に基づいてＩＳＰを使用して区分されると決定し得る。たとえば、ｉｎｔｒａ＿ｓｕｂｐａｒｔｉｔｉｏｎｓ＿ｓｐｌｉｔ＿ｆｌａｇシンタックス要素に基づいて、ビデオコーダは、現在のビデオブロックが区分されない（たとえば、分割されない）のか、水平方向に区分されるのか、または垂直方向に区分されるのかを決定し得る。

[0202] 現在のビデオブロックがＩＳＰを使用して区分されると決定すること（１１０４）に応答して、ビデオコーダは、現在の変換ブロックのサイズを決定し得る（１１０６）。たとえば、ビデオコーダは、変換ブロックの幅および／または高さを決定し得る。いくつかの例では、ビデオコーダは、各下位区分のための変換ブロックサイズを別々に決定し得る。他の例では、ビデオコーダは、単一の区分のための変換ブロックサイズを決定し、コーディングユニットの各区分のために決定されたサイズを利用し得る。

[0203] ビデオコーダは、現在の変換ブロックのサイズがサイズしきい値を満たすのかどうかを決定し得る。たとえば、図１１に示されているように、ビデオコーダは、現在の変換ブロックのサイズが下限よりも大きく、上限よりも小さいのかどうか（すなわち、（サイズ＞下限）と（サイズ＜上限）との両方が真であるのかどうか）を決定し得る（１１０８）。上記で説明されたように、いくつかの例では、下限は、４つのサンプルであり得、上限は、１６個のサンプルであり得る）。

[0204] 現在の変換ブロックのサイズがサイズしきい値を満たすと決定し、現在のビデオブロックがＩＳＰを使用して区分されると決定することに応答して、ビデオコーダは、選択された変換タイプとして１つまたは複数のＤＳＴのうちの特定のＤＳＴを選択し得る。たとえば、図１１に示されているように、現在の変換ブロックのサイズがサイズしきい値を満たすと決定し、現在のビデオブロックがＩＳＰを使用して区分されると決定することに応答して、ビデオコーダは、現在の変換ブロックのための推測された変換タイプとしてＤＳＴ－７を選択し得る（１１０８、１１１０の「はい」分岐）。代替的に、現在の変換ブロックのサイズがサイズしきい値を満たさないと決定し、現在のビデオブロックがＩＳＰを使用して区分されると決定することに応答して、ビデオコーダは、現在の変換ブロックのための推測された変換タイプとしてＤＣＴ－２を選択し得る（１１０８、１１１２の「いいえ」分岐）。

[0205] ビデオコーダは、再構成された残差データのブロックを取得するために、選択された変換タイプを使用してビデオブロックのための現在の変換ブロックを変換し得る（１１１４）。たとえば、選択された変換タイプがＤＳＴ－７である場合、ビデオコーダ（たとえば、ビデオエンコーダ２００／２００’の逆変換処理ユニット２１２／２１２’および／またはビデオデコーダ３００の逆変換処理ユニット３０８）は、逆ＤＳＴ－７変換を適用することによって再構成された残差データに変換ブロックの係数を変換し得る。

[0206] ビデオコーダは、ビデオブロックのための再構成された残差データに基づいて、ビデオブロックを再構成し得る（１１１６）。たとえば、ビデオエンコーダは、現在のブロックのためのイントラ予測されたサンプルのブロックに残差データを加算し得る。ビデオブロックがＩＳＰを使用して区分される場合、ビデオエンコーダは、現在のビデオブロックのそれぞれの下位区分のためのイントラ予測されたサンプルのそれぞれのブロックに再構成された残差データのそれぞれのブロックを加算し得る。

[0207] 以下の番号付けされた例に、本開示の１つまたは複数の態様を示し得る。

[0208] 例１．ビデオデータをコーディングする方法であって、ビデオブロックの現在の係数ブロックのために、複数の変換タイプから変換タイプを導出することと、ビデオブロックのための再構成された残差データのブロックを取得するために、選択された変換タイプを使用して現在の係数ブロックを変換することと、ビデオブロックのための再構成された残差データに基づいて、ビデオブロックを再構成することとを備える方法。

[0209]1 例２．複数の変換タイプが、１つもしくは複数の離散コサイン変換（ＤＣＴ）および／または１つもしくは複数の離散サイン変換（ＤＳＴ）を含む、例１に記載の方法。

[0210] 例３．１つまたは複数のＤＣＴは、ＤＣＴ－１、ＤＣＴ－２、ＤＣＴ－３、ＤＣＴ－４、ＤＣＴ－５、ＤＣＴ－６、ＤＣＴ－７、およびＤＣＴ－８のうちの１つまたは複数を含む、例２に記載の方法。

[0211] 例４．１つまたは複数のＤＳＴは、ＤＳＴ－１、ＤＳＴ－２、ＤＳＴ－３、ＤＳＴ－４、ＤＳＴ－５、ＤＳＴ－６、ＤＳＴ－７、およびＤＳＴ－８のうちの１つまたは複数を含む、例２または３に記載の方法。

[0212] 例５．変換タイプを導出することは、現在の係数ブロックのサイズに基づいて変換タイプを導出することを備える、例１～４のいずれかに記載の方法。

[0213] 例６．現在の係数ブロックのサイズに基づいて変換タイプを導出することは、ＤＳＴ－７変換タイプを選択することを備える、ここで、許可される最大１Ｄ変換サイズがＮである、例５に記載の方法。

[0214] 例７．現在の係数ブロックは、Ｎ×Ｍの次元を有し、ＤＳＴ－７変換タイプを選択することは、垂直使用のためにＮ点ＤＳＴ－７変換を選択し、水平使用のためにＭ点ＤＳＴ－７変換を選択することを備える、例６に記載の方法。

[0215] 例８．変換タイプを導出することは、ＤＳＴ－７変換とＤＣＴ－２変換との異なる組合せを選択することを備える、例１～７の任意の組合せに記載の方法。

[0216] 例９．ＤＳＴ－７変換とＤＣＴ－２変換との異なる組合せを選択することは、Ｋ個のサンプル以下をもつ任意の行または列のためにＤＳＴ－７変換を選択することと、Ｋ個より大きいサンプルをもつ任意の行または列のためにＤＣＴ－２変換を選択することとを備える、例８に記載の方法。

[0217] 例１０．ビデオブロックが複数の区分に区分されると決定することに応答して、共通のルールセットを使用して複数の区分の各々の係数ブロックのためにそれぞれの変換タイプを選択することをさらに備える、例１～９の任意の組合せに記載の方法。

[0218] 例１１．複数の区分の各々のためにそれぞれの変換タイプを選択することは、複数の区分のすべての係数ブロックのためにＤＳＴ－７を選択することを備える、例１０に記載の方法。

[0219] 例１２．複数の区分の各々のためにそれぞれの変換タイプを選択することは、区分の次元に基づいてＤＳＴ－７変換とＤＣＴ－２変換との異なる組合せを選択することを備える、例１０に記載の方法。

[0220] 例１３．区分の次元に基づいてＤＳＴ－７変換とＤＣＴ－２変換との異なる組合せを選択することは、しきい値数以下のサンプルをもつ任意の行または列のためにＤＳＴ－７変換を選択することと、しきい値数より大きいサンプルをもつ任意の行または列のためにＤＣＴ－２変換を選択することとを備える、例１２に記載の方法。

[0221] 例１４．しきい値が１６である、例１３に記載の方法。

[0222] 例１５．複数の区分にビデオブロックを区分することは、イントラサブブロック区分（ＩＳＰ）を使用してビデオブロックを区分することを備える、例１０～１４の任意の組合せに記載の方法。

[0223] 例１６．ＤＳＴ－７変換を使用して変換することは、以下の２点ＤＳＴ－７行列を使用して現在の係数ブロックを変換することを備える、例１５に記載の方法。

[0224] 例１７．ビデオブロックを予測するために使用されるイントラ予測モードを決定すること、ここにおいて、ビデオブロックの現在の係数ブロックのための変換タイプを導出することは、イントラ予測モードに基づいてビデオブロックの現在の係数ブロックのための変換タイプを導出することを備える、をさらに備える、例１～１６の任意の組合せに記載の方法。

[0225] 例１８．イントラ予測モードに基づいてビデオブロックの現在の係数ブロックのための変換タイプを導出することは、イントラ予測モードが平面またはＤＣモードであると決定することに応答して、水平方向と垂直方向との両方で現在の係数ブロックのためにＤＳＴ－７変換を選択することを備える、例１７に記載の方法。

[0226] 例１９．イントラ予測モードに基づいてビデオブロックの現在の係数ブロックのための変換タイプを導出することは、イントラ予測モードが対角角度モードであると決定することに応答して、水平方向と垂直方向との両方で現在の係数ブロックのためにＤＳＴ－７変換を選択することを備える、例１７または１８のいずれかに記載の方法。

[0227] 例２０．対角角度モードはモードインデックス３４である、例１９に記載の方法。

[0228] 例２１．イントラ予測モードに基づいてビデオブロックの現在の係数ブロックのための変換タイプを導出することは、イントラ予測モードが角度モードであると決定することに応答して、イントラ予測モードのモードインデックスに基づいて現在の係数ブロックのために変換タイプを選択することを備える、例１７～２０のいずれかに記載の方法。

[0229] 例２２．イントラ予測モードのモードインデックスに基づいて現在の係数ブロックのための変換タイプを選択することは、イントラ予測モードのモードインデックスを含む複数の範囲のうちの範囲を識別することと、識別された範囲に基づいて現在の係数ブロックのための変換タイプを選択することとを備える、例２１に記載の方法。

[0230] 例２３．範囲を識別することが、モードインデックスが第１のしきい値（threshold）と第２のしきい値との間にあると決定することに応答して第１の範囲を識別することと、モードインデックスが第２のしきい値と第３のしきい値との間にあると決定することに応答して第２の範囲を識別することと、モードインデックスが第３のしきい値と第４のしきい値との間にあると決定することに応答して第３の範囲を識別することとを備える、例２２に記載の方法。

[0231] 例２４．モードインデックス（mode index）が第１のしきい値と第２のしきい値との間にあると決定することに応答して第１の範囲を識別することが、モードインデックスが［２，．．．，（３３－Ｔ）］内にあると決定することに応答して第１の範囲を識別することを備え、モードインデックスが第２のしきい値と第３のしきい値との間にあると決定することに応答して第２の範囲を識別することが、モードインデックスが［（３４－Ｔ），．．．，（３４＋Ｔ）］内にあると決定することに応答して第２の範囲を識別することを備え、モードインデックスが第３のしきい値と第４のしきい値との間にあると決定することに応答して第３の範囲を識別することが、モードインデックスが［（３５＋Ｔ），．．．，６６］内にあると決定することに応答して第３の範囲を識別することを備え、Ｔは、２と３０との間の整数である、例２３に記載の方法。

[0232] 例２５．識別された範囲に基づいて現在の係数ブロックのための変換タイプを選択することは、第１の範囲を識別することに応答して水平使用のためにＤＳＴ－７を選択し、垂直使用のためにＤＣＴ－２を選択することと、第２の範囲を識別することに応答して水平および垂直使用のためにＤＣＴ－７を選択することと、第３の範囲を識別することに応答して水平使用のためにＤＳＴ－２を選択し、垂直使用のためにＤＣＴ－７を選択することとを備える、例２３または例２４に記載の方法。

[0233] 例２６．コーディングすることが復号することを備える、例１～２５のいずれかに記載の方法。

[0234] 例２７．コーディングすることが符号化することを備える、例１～２６のいずれかに記載の方法。

[0235] 例２８．ビデオデータをコーディングするためのデバイスであって、例１～２７のいずれかに記載の方法を実行するための１つまたは複数の手段例を備える、デバイス。

[0236] 例２９．１つまたは複数の手段は、回路中に実装される１つまたは複数のプロセッサを備える、例２８に記載のデバイス。

[0237] 例３０．ビデオデータを記憶するためのメモリをさらに備える、例２８または２９のいずれかに記載のデバイス。

[0238] 例３１．復号されたビデオデータを表示するように構成されたディスプレイをさらに備える、例２８～３０のいずれかに記載のデバイス。

[0239] 例３２．デバイスが、カメラ、コンピュータ、モバイルデバイス、ブロードキャスト受信機デバイス、またはセットトップボックスのうちの１つまたは複数を備える、例２８～３１のいずれかに記載のデバイス。

[0240] 例３３．デバイスがビデオデコーダを備える、例２８～３２のいずれかに記載のデバイス。

[0241] 例３４．デバイスがビデオエンコーダを備える、例２８～３３のいずれかに記載のデバイス。

[0242] 例３５．実行されたとき、例１～２５のいずれかに記載の方法を１つまたは複数のプロセッサに実行させる命令を記憶したコンピュータ可読記憶媒体。

[0243] 例に応じて、本明細書で説明した技法のいずれかのいくつかの行為またはイベントが、異なるシーケンスで実行され得、追加、マージ、または完全に除外され得る（たとえば、説明したすべての行為またはイベントが本技法の実践のために必要であるとは限らない）ことを認識されたい。その上、いくつかの例では、行為またはイベントは、連続的にではなく、たとえば、マルチスレッド処理、割込み処理、または複数のプロセッサを通して同時に実行され得る。

[0244] １つまたは複数の例において、前述の機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装される場合、機能は、１つまたは複数の命令もしくはコードとして、コンピュータ可読媒体上に記憶され得るか、またはコンピュータ可読媒体を介して送信され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応する、コンピュータ可読記憶媒体を含み得るか、または、たとえば、通信プロトコルに従って、ある場所から別の場所へのコンピュータプログラムの転送を促進する任意の媒体を含む通信媒体を含み得る。このようにして、コンピュータ可読媒体は、一般に、（１）非一時的な有形コンピュータ可読記憶媒体、または（２）信号もしくは搬送波などの通信媒体に対応し得る。データ記憶媒体は、本開示において説明された技法の実装のための命令、コードおよび／またはデータ構造を取り出すために、１つもしくは複数のコンピュータまたは１つもしくは複数のプロセッサによってアクセスされ得る、任意の利用可能な媒体であり得る。コンピュータプログラム製品はコンピュータ可読媒体を含み得る。

[0245] 限定ではなく例として、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ（登録商標）、ＣＤ－ＲＯＭもしくは他の光ディスクストレージ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、フラッシュメモリ、または、命令もしくはデータ構造の形態の所望のプログラムコードを記憶するために使用されコンピュータによってアクセスされ得る、任意の他の媒体を備え得る。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、命令が、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波などのワイヤレス技術は媒体の定義に含まれる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体が、接続、搬送波、信号、または他の一時的媒体を含むのではなく、代わりに非一時的な有形の記憶媒体を対象とすることを理解されたい。本明細書において使用されるディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザーディスク（登録商標）（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）およびＢｌｕ－ｒａｙディスク（disc）を含み、ここで、ディスク（disk）は通常、データを磁気的に再生し、ディスク（disc）は、データをレーザーで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲に含まれるべきである。

[0246] 命令は、１つもしくは複数のデジタルシグナルプロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または他の同等の集積された論理回路もしくは個別の論理回路などの、１つまたは複数のプロセッサによって実行され得る。したがって、本明細書において使用される「プロセッサ」および「処理回路」という用語は、前述の構造、または本明細書において説明された技法の実装に好適な任意の他の構造のいずれかを指し得る。加えて、いくつかの態様では、本明細書で説明された機能は、符号化および復号のために構成された専用ハードウェアおよび／もしくはソフトウェアモジュール内で提供され、または複合コーデックに組み込まれ得る。また、本技法は、１つもしくは複数の回路または論理要素において十分に実装され得る。

[0247] 本開示の技法は、ワイヤレスハンドセット、集積回路（ＩＣ）またはＩＣのセット（たとえば、チップセット）を含む、多種多様なデバイスまたは装置に実装され得る。本開示では、開示される技法を実施するように構成されたデバイスの機能的態様を強調するために様々な構成要素、モジュール、またはユニットについて説明されたが、それらの構成要素、モジュール、またはユニットを、必ずしも異なるハードウェアユニットによって実現する必要があるとは限らない。そうではなく、上記で説明されたように、様々なユニットは、好適なソフトウェアおよび／またはファームウェアとともに、上記で説明された１つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わされ得るか、または相互動作可能なハードウェアユニットの集合によって提供され得る。

[0248] 様々な例を説明した。これらおよび他の例は、以下の特許請求の範囲の範囲内に入る。

Claims

ビデオデータを復号する方法であって、
現在のビデオブロックの現在の変換ブロックのために、１つまたは複数の離散コサイン変換（ＤＣＴ）と１つまたは複数の離散サイン変換（ＤＳＴ）とを含む複数の変換タイプから変換タイプを推測することと、ここにおいて、前記変換タイプを推測することは、
前記現在の変換ブロックのサイズを決定することと、
前記現在のビデオブロックがイントラサブブロック区分（ＩＳＰ）を使用して区分されるのかどうかを決定することと、
前記現在の変換ブロックの前記サイズがサイズしきい値を満たすと決定し、前記現在のビデオブロックがＩＳＰを使用して区分されると決定することに応答して、選択された変換タイプとして前記１つまたは複数のＤＳＴのうちの特定のＤＳＴを選択することと、
を備える、
前記ビデオブロックのための再構成された残差データのブロックを取得するために、前記選択された変換タイプを使用して前記現在の変換ブロックを変換することと、
前記ビデオブロックのための前記再構成された残差データに基づいて、前記ビデオブロックを再構成することと
を備える方法。
前記１つまたは複数のＤＣＴは、ＤＣＴ－１、ＤＣＴ－２、ＤＣＴ－３、ＤＣＴ－４、ＤＣＴ－５、ＤＣＴ－６、ＤＣＴ－７、およびＤＣＴ－８のうちの１つまたは複数を含む、請求項１に記載の方法。
前記１つまたは複数のＤＳＴは、ＤＳＴ－１、ＤＳＴ－２、ＤＳＴ－３、ＤＳＴ－４、ＤＳＴ－５、ＤＳＴ－６、ＤＳＴ－７、およびＤＳＴ－８のうちの１つまたは複数を含む、請求項２に記載の方法。
前記現在の変換ブロックの前記サイズが前記サイズしきい値を満たすと決定することが、前記現在の変換ブロックの前記サイズが下限よりも大きく、上限よりも小さいと決定することを備える、請求項３に記載の方法。
前記特定のＤＳＴを選択することが、前記現在の変換ブロックの前記サイズが前記サイズしきい値を満たすと決定し、前記現在のビデオブロックがＩＳＰを使用して区分されると決定することに応答して、前記ＤＳＴ－７を選択することを備える、請求項４に記載の方法。
前記現在の変換ブロックの前記サイズが前記サイズしきい値を満たさないと決定し、前記現在のビデオブロックがＩＳＰを使用して区分されると決定することに応答して、前記選択された変換タイプとして前記１つまたは複数のＤＣＴのうちの特定のＤＣＴを選択すること
をさらに備える、請求項５に記載の方法。
前記特定のＤＣＴを選択することが、前記現在の変換ブロックの前記サイズが前記サイズしきい値を満たさないと決定し、前記現在のビデオブロックがＩＳＰを使用して区分されると決定することに応答して、前記ＤＣＴ-２を選択することを備える、請求項６に記載の方法。
前記変換タイプを選択することが、前記現在のビデオブロックを予測するために使用されるイントラ予測モードにかかわらず前記変換タイプを選択することを備える、請求項５に記載の方法。
前記現在の変換ブロックの前記サイズを決定することは、
前記現在の変換ブロックの幅を決定することと、
前記現在の変換ブロックの高さを決定することと
を備える、請求項８に記載の方法。
前記変換タイプを選択することが、水平使用のための変換タイプを選択することと、垂直使用のための変換タイプを選択することとを備え、前記方法が、
前記現在の変換ブロックの前記幅が幅サイズしきい値を満たすと決定し、前記現在のビデオブロックがＩＳＰを使用して区分されると決定することに応答して、水平使用のための前記選択された変換タイプとして前記ＤＳＴ－７を選択することと、
前記現在の変換ブロックの前記高さが高さサイズしきい値を満たすと決定し、前記現在のビデオブロックがＩＳＰを使用して区分されると決定することに応答して、垂直使用のための前記選択された変換タイプとして前記ＤＳＴ－７を選択することと
をさらに備える、請求項９に記載の方法。
前記幅しきい値が前記高さしきい値に等しい、請求項１０に記載の方法。
前記幅しきい値と前記高さしきい値とがどちらも１６サンプルである、請求項１１に記載の方法。
前記現在の変換ブロックのための前記変換タイプを推測することが、複数変換選択（ＭＴＳ）が前記現在のビデオブロックのために使用可能であると決定することに応答して前記現在の変換ブロックのための前記変換タイプを推測することを備える、請求項１２に記載の方法。
前記現在のビデオブロックがＩＳＰを使用して区分されるのかどうかが、
ビデオビットストリームから復号された１つまたは複数のシンタックス要素の値に基づいて、前記現在のビデオブロックがＩＳＰを使用して区分されるのかどうかを決定すること
を備える、請求項８に記載の方法。
ビデオデータをコーディングするためのデバイスであって、
ビデオブロックを記憶するように構成されたメモリと、
回路中に実装された１つまたは複数のプロセッサと
を備え、前記１つまたは複数のプロセッサは、
現在のビデオブロックの現在の変換ブロックのために、１つまたは複数の離散コサイン変換（ＤＣＴ）と１つまたは複数の離散サイン変換（ＤＳＴ）とを含む複数の変換タイプから変換タイプを推測することと、ここにおいて、前記変換タイプを推測するために、前記１つまたは複数のプロセッサは、
前記現在の変換ブロックのサイズを決定することと、
前記現在のビデオブロックがイントラサブブロック区分（ＩＳＰ）を使用して区分されるのかどうかを決定することと、
前記現在の変換ブロックの前記サイズがサイズしきい値を満たすと決定し、前記現在のビデオブロックがＩＳＰを使用して区分されると決定することに応答して、選択された変換タイプとして前記１つまたは複数のＤＳＴのうちの特定のＤＳＴを選択することと、
を行うように構成される、
前記ビデオブロックのための再構成された残差データのブロックを取得するために、前記選択された変換タイプを使用して前記現在の変換ブロックを変換することと、
前記ビデオブロックのための前記再構成された残差データに基づいて、前記ビデオブロックを再構成することと
を行うように構成された、デバイス。
前記１つまたは複数のＤＣＴは、ＤＣＴ－１、ＤＣＴ－２、ＤＣＴ－３、ＤＣＴ－４、ＤＣＴ－５、ＤＣＴ－６、ＤＣＴ－７、およびＤＣＴ－８のうちの１つまたは複数を含む、請求項１５に記載のデバイス。
前記１つまたは複数のＤＳＴは、ＤＳＴ－１、ＤＳＴ－２、ＤＳＴ－３、ＤＳＴ－４、ＤＳＴ－５、ＤＳＴ－６、ＤＳＴ－７、およびＤＳＴ－８のうちの１つまたは複数を含む、請求項１６に記載のデバイス。
前記現在の変換ブロックの前記サイズが前記サイズしきい値を満たすと決定するために、前記１つまたは複数のプロセッサは、前記現在の変換ブロックの前記サイズが下限よりも大きく、上限よりも小さいと決定するように構成された、請求項１７に記載のデバイス。
前記特定のＤＳＴを選択するために、前記１つまたは複数のプロセッサは、前記現在の変換ブロックの前記サイズが前記サイズしきい値を満たすと決定し、前記現在のビデオブロックがＩＳＰを使用して区分されると決定することに応答して、前記ＤＳＴ－７を選択するように構成された、請求項１８に記載のデバイス。
前記１つまたは複数のプロセッサは、
前記現在の変換ブロックの前記サイズが前記サイズしきい値を満たさないと決定し、前記現在のビデオブロックがＩＳＰを使用して区分されると決定することに応答して、前記選択された変換タイプとして前記１つまたは複数のＤＣＴのうちの特定のＤＣＴを選択すること
を行うようにさらに構成された、請求項１９に記載のデバイス。
前記特定のＤＣＴを選択するために、前記１つまたは複数のプロセッサは、前記現在の変換ブロックの前記サイズが前記サイズしきい値を満たさないと決定し、前記現在のビデオブロックがＩＳＰを使用して区分されると決定することに応答して、前記ＤＣＴ－２を選択するように構成された、請求項２０に記載のデバイス。
前記変換タイプを選択するために、前記１つまたは複数のプロセッサは、前記現在のビデオブロックを予測するために使用されるイントラ予測モードにかかわらず前記変換タイプを選択するように構成された、請求項１９に記載のデバイス。
前記現在の変換ブロックの前記サイズを決定するために、前記１つまたは複数のプロセッサは、
前記現在の変換ブロックの幅を決定することと、
前記現在の変換ブロックの高さを決定することと
を行うように構成された、請求項２２に記載のデバイス。
前記変換タイプを選択するために、前記１つまたは複数のプロセッサは、水平使用のための変換タイプを選択することと、垂直使用のための変換タイプを選択することとを行うように構成され、前記１つまたは複数のプロセッサは、
前記現在の変換ブロックの幅が幅サイズしきい値を満たすと決定し、前記現在のビデオブロックがＩＳＰを使用して区分されると決定することに応答して、水平使用のための前記選択された変換タイプとして前記ＤＳＴ－７を選択することと、
前記現在の変換ブロックの高さが高さサイズしきい値を満たすと決定し、前記現在のビデオブロックがＩＳＰを使用して区分されると決定することに応答して、垂直使用のための前記選択された変換タイプとして前記ＤＳＴ－７を選択することと
を行うようにさらに構成された、請求項２３に記載のデバイス。
前記幅しきい値が前記高さしきい値に等しい、請求項２４に記載のデバイス。
前記幅しきい値と前記高さしきい値とがどちらも１６サンプルである、請求項２５に記載のデバイス。
前記現在の変換ブロックのための前記変換タイプを推測するために、前記１つまたは複数のプロセッサは、複数変換選択（ＭＴＳ）が前記現在のビデオブロックのために使用可能であると決定することに応答して前記現在の変換ブロックのための前記変換タイプを推測するように構成された、請求項２６に記載のデバイス。
命令を記憶したコンピュータ可読記憶媒体であって、
実行されたとき、ビデオコーディングデバイスの１つまたは複数のプロセッサに、
現在のビデオブロックの現在の変換ブロックのために、１つまたは複数の離散コサイン変換（ＤＣＴ）と１つまたは複数の離散サイン変換（ＤＳＴ）とを含む複数の変換タイプから変換タイプを推測することと、ここにおいて、前記変換タイプを推測することを前記１つまたは複数のプロセッサに行わせる前記命令は、前記１つまたは複数のプロセッサに、
前記現在の変換ブロックのサイズを決定することと、
前記現在のビデオブロックがイントラサブブロック区分（ＩＳＰ）を使用して区分されるのかどうかを決定することと、
前記現在の変換ブロックの前記サイズがサイズしきい値を満たすと決定し、前記現在のビデオブロックがＩＳＰを使用して区分されると決定することに応答して、選択された変換タイプとして前記１つまたは複数のＤＳＴのうちの特定のＤＳＴを選択することと、
を行わせる命令を備える、
前記ビデオブロックのための再構成された残差データのブロックを取得するために、前記選択された変換タイプを使用して前記現在の変換ブロックを変換することと、
前記ビデオブロックのための前記再構成された残差データに基づいて、前記ビデオブロックを再構成することと
を行わせる命令を記憶したコンピュータ可読記憶媒体。
前記１つまたは複数のＤＳＴが少なくともＤＳＴ－７を備え、ここにおいて、前記特定のＤＳＴを選択することを前記１つまたは複数のプロセッサに行わせる前記命令は、前記１つまたは複数のプロセッサに、前記現在の変換の前記サイズが前記サイズしきい値を満たすと決定し、前記現在のビデオブロックがＩＳＰを使用して区分されると決定することに応答して、前記現在のビデオブロックを予測するために使用されるイントラ予測モードにかかわらず前記ＤＳＴ－７を選択することを行わせる命令を備える、請求項２８に記載のコンピュータ可読記憶媒体。