JP2024510433A

JP2024510433A - ビデオ圧縮のための時間的構造ベースの条件付き畳み込みニューラルネットワーク

Info

Publication number: JP2024510433A
Application number: JP2023554294A
Authority: JP
Inventors: ラカペ、ファビアン; ビゲイン、ジョーン; フェルトマン、サイモン; プシュパラジャ、アクシェイ
Original assignee: ヴィドスケールインコーポレイテッド
Priority date: 2021-03-18
Filing date: 2022-03-16
Publication date: 2024-03-07
Also published as: WO2022197772A1; EP4309366A1; MX2023010960A; CN116998154A; US20240187640A1

Abstract

ビデオ符号化及び復号は、クロミナンス予測のための動き情報を導出するために輝度情報を使用するオートエンコーダを用いて実施される。一実施形態では、条件付き畳み込みを使用して、動きフロー情報を符号化する。現在の条件、例えば、ＧＯＰ構造は、条件付き畳み込みを実施するために、一連の全結合層への入力として使用される。関連する実施形態では、動きフロー情報を符号化するために２つ以上の参照フレームが使用される。【選択図】図４

Description

本実施形態のうちの少なくとも１つは、概して、人工ニューラルネットワーク（Artificial Neural Network、ＡＮＮ）ベースのツールを使用して画像及びビデオを圧縮するための方法又は装置に関する。

ＩＳＯ／ＭＰＥＧとＩＴＵとの間の共同ビデオ探索チーム（Joint Video Exploration Team、ＪＶＥＴ）は、現在、最新の標準Ｈ．２６６／ＶＶＣのいくつかのモジュールを置き換えるためのツール、並びにエンドツーエンドのオートエンコーダ方法による構造全体の置き換えを研究している。

本実施形態のうちの少なくとも１つは、概して、新規の人工ニューラルネットワーク（ＡＮＮ）ベースのツールを使用する画像及びビデオの圧縮のコンテキストにおける方法又は装置に関する。

第１の態様によれば、方法が提供される。この方法は、条件付き畳み込み層への入力を受信するステップであって、上記の入力は、現在のブロックと少なくとも１つの参照ブロックとの連結テンソルを含む、受信するステップと、現在の条件を表すデータに基づいて上記の入力に対して少なくとも１つの条件付き畳み込みを実行するステップであって、上記条件付き畳み込みは、一連の全結合層を含む、実行するステップと、上記の少なくとも１つの条件付き畳み込みからの出力を使用して動きフローを符号化するステップであって、上記の現在の条件はＧＯＰ構造に基づいている、符号化するステップと、上記の符号化された動きフローを含むビットストリームを生成するステップと、を含む。

第２の態様によれば、方法が提供される。この方法は、ビデオデータの現在ブロックの動きフローデータを含むビットストリームをエントロピー復号するステップと、再構成された残差を生成するために、上記のビットストリームに対して少なくとも１つの条件付き逆畳み込みを実行するステップであって、上記の条件付き逆畳み込みは、一連の全結合層を含む、実行するステップと、復号されたブロックを生成するために、上記の再構成された残差を上記の現在のブロックの予測と組み合わせるステップと、を含む。

別の態様によれば、装置が提供される。装置は、プロセッサを備える。このプロセッサは、説明された方法のいずれかを実行することによって汎用態様を実施するように構成され得る。

少なくとも１つの実施形態の別の汎用態様によれば、復号する実施形態のいずれかによる装置と、（ｉ）信号を受信するように構成されたアンテナであって、信号がビデオブロックを含む、アンテナ、（ｉｉ）受信された信号を、ビデオブロックを含む周波数帯域に制限するように構成されたバンドリミッタ、又は（ｉｉｉ）ビデオブロックを表す出力を表示するように構成されたディスプレイ、のうちの少なくとも１つと、を備えるデバイス、が提供される。

少なくとも１つの実施形態の別の汎用態様によれば、記載される復号する実施形態又は変形形態のいずれかに従って生成されたデータコンテンツを含む非一時的コンピュータ可読媒体が提供される。

少なくとも１つの実施形態の別の汎用態様によれば、説明した符号化実施形態又は変形形態のいずれかに従って生成されたビデオデータを含む信号が提供される。

少なくとも１つの実施形態の別の汎用態様によれば、記載される復号する実施形態又は変形形態のいずれかに従って生成されたデータコンテンツを含むようにビットストリームがフォーマットされる。

少なくとも１つの実施形態の別の汎用形態によれば、命令を含むコンピュータプログラム製品であって、命令は、プログラムがコンピュータによって実行されるとき、記載される復号する実施形態又は変形形態のうちのいずれかをコンピュータに行わせる、コンピュータプログラム製品が提供される。

汎用態様の上記及び他の態様、特徴、及び利点は、例示的な実施形態の以下の詳細な説明を添付の図面を参照しながら読み進めることによって明らかになるであろう。

基本的なオートエンコーダチェーンを示す。８つのフレームのピクチャグループ（Group of Pictures、ＧＯＰ）を有するランダムアクセス構造を示す。ビデオフレームを圧縮するためのＡｇｕｓｔｓｓｏｎらによるアーキテクチャを示す。条件付き畳み込みを使用する提案されたアーキテクチャを示す。本原理を使用してビデオを符号化するための方法の一実施形態を示す。本原理を使用してビデオを復号するための方法の一実施形態を示す。本原理を使用した符号化又は復号のための装置の一実施形態を示す。標準の一般的なビデオ圧縮スキームを示す。標準の一般的なビデオ解凍スキームを示す。一般的な説明された態様下で符号化／復号するためのプロセッサベースのシステムを示す。

近年、ニューラルネットワークに基づく新規の画像及びビデオ圧縮方法が開発されている。手作りの予測モード及び変換を適用する従来の方法とは対照的に、ＡＮＮベースの方法は、損失関数を反復的に最小化することによって、トレーニング中に大きなデータセットで学習されるパラメータに依存する。圧縮の場合、損失関数は、符号化されたビットストリームのビットレートの推定と、復号されたコンテンツの目的関数との両方を記述する。従来、再構成された画像の品質は、例えば、信号歪みの尺度又は人間が知覚する視覚的品質の近似に基づいて最適化される。

図１に、例示的なエンドツーエンドの圧縮システムを示す。ネットワークのエンコーダ部分への入力Ｘは、以下のものからなることができる。
－ビデオの画像又はフレーム、
－画像の一部
－画像／フレームのグループを表すテンソル
－画像／フレームのグループの一部（クロップ）を表すテンソル。

いずれの場合も、入力は、１つ又は複数の色成分、例えば、モノクロ、ＲＧＢ、又はＹＣｂＣｒ（ＹＵＶ）成分を有することができる。
１．入力テンソルＸは、エンコーダネットワークに供給される。エンコーダネットワークは、通常、非線形活性化関数を有する畳み込み層のシーケンスである。畳み込み又は空間－深さ^１演算における大きなストライドを使用して、チャネルの数を増加させながら空間解像度を低減することができる。エンコーダネットワークは、学習済み分析変換と見なすことができる。
２．エンコーダネットワークの出力、「特徴マップ」又は「潜在」Ｚは、量子化され、記憶又は送信のためにバイナリストリーム（ビットストリーム）としてエントロピーコード化（entropy coded、ＥＣ）される。
３．ビットストリームは、Ｚの量子化されたバージョンである

を取得するためにエントロピー復号（entropy decoded、ＥＤ）される。
４．デコーダネットワークは、潜在

から元のＸテンソルの近似である

を生成する。デコーダネットワークは、通常、アップサンプリング畳み込み（例えば、「逆畳み込み」若しくはアップサンプリングフィルタが後に続く畳み込み）又は深さ－空間演算のシーケンスである。デコーダネットワークは、学習済み逆変換、又は雑音除去及び生成変換と見なすことができる。

より洗練されたアーキテクチャが存在し、例えば、効率的な圧縮のために潜在分布のパラメータを一緒に学習するために、ネットワークに「ハイパーオートエンコーダ」（ハイパー事前分布）を追加することに留意されたい。本発明は、オートエンコーダの使用に限定されない。任意のエンドツーエンド微分可能コーデックを考慮することができる。
^１．再整形及び置換、例えば、サイズ（Ｎ、Ｈ、Ｗ）のテンソルは、（Ｎ^＊２^＊２、Ｈ／／２、Ｗ／／２）に再整形及び置換される。

ビデオコーディング
従来のビデオ圧縮
ビデオシーケンスのフレーム間の冗長性を除去するために、従来のビデオコーディング方法は、インター予測ツールを含む。画像はブロックに分割される。

符号化される各ブロックについて、動き推定器は、前に再構成された参照ピクチャ内の予測子を見つけようと試みる。従来、純粋な変換が考慮され、動き推定器は、予測すべき現在のブロックと同じ位置にあるウィンドウ内の同じ形状のブロックを解析する。最良の一致が見つかると、動きベクトル、すなわち、現在のブロックの位置とその予測子との水平及び垂直座標差がコード化され、参照ピクチャのインデックスとともにビットストリームで送信される。残差とも呼ばれる、ソースブロックと予測子との差は、一般に、ビットストリームにおいて変換され、量子化され、エントロピーコード化される。

デコーダにおいて、動き情報及び残差が復号される。予測子は、復号された動きベクトルを使用して、シグナリングされた参照フレームにおいてアクセスされる。次に、復号された残差を予測子に追加することによって、復号されたブロックが構成される。

このスキームでは、エンコーダは、現在のブロックの位置を中心とする、参照フレーム内のウィンドウ内で最良一致ブロックを見つけるという複雑なタスクを実行する。デコーダは、動き情報を解析するだけでよい。

時間的構造
前のセクションでは、予測すべき現在のフレームと参照ピクチャとの間の動きベクトルの探索及び送信について説明した。いくつかの時間的構造は、エンコーダが、前に復号されたピクチャの中から参照フレームを選択することを可能にする。

ブロードキャストエコシステムで使用される典型的な構造は、ランダムアクセス構造と名付けられている。これは、繰り返される最小時間的タイムフレーム構造からなる周期的なピクチャグループ（ＧＯＰ）から構成される。

図２は、８フレームのＧＯＰの場合のそのような構造を示す。第１のフレームはイントラフレーム、すなわち、Ｉフレームであり、復号される他のフレームに依存しないことを意味する。その後、デコーダがシーケンスの復号を開始することができるランダムアクセスポイントとして使用することができる。ブロードキャストにおいて、それらは、典型的には、１秒のビデオによって分離され、これにより、ＴＶ視聴者が、チャネルを切り替え、選択した新しいチャネルの復号を開始し、ビデオが表示され始めるのをあまりに長く待たないことを可能にする。しかしながら、これらのフレームは、前に復号されたコンテンツを使用して予測されないので、通常、送信するのに要するビットが多い。Ｉフレーム間において、他のフレームは、前に復号されたフレームを使用して予測される。図２の構造では、コーディング順序が表示の順序と異なることに気付くことができる。これにより、エンコーダが過去及び将来の前に再構成されたピクチャを使用してフレームを予測することが可能になる。したがって、これらのフレームは、双方向予測にちなんでＢフレームと呼ばれる。この場合、構造は、タイプＢ_０、Ｂ_１、Ｂ_２、及びＢ_３のフレームを有する階層パターンに従う。各ＧＯＰのＢ_０は、コード化される最初のフレームであり、前のＧＯＰからの最後のキーフレーム（Ｉ又はＢ_０）を使用して予測され、例えば、表示順序におけるフレーム８は、フレーム０から予測される。コーディング順序における次のフレームは、矢印で描写されているように、過去及び将来のフレームを使用して予測することができる。フレームＢ_１は、タイプＩのフレームＢ_０を使用することができ、フレームＢ_２は、フレームＩ、Ｂ_０、及びＢ_１などから予測することができる。現在のフレームと参照フレームとの間の距離は、エンコーダによって行われた決定に応じて変化する。

他のＧＯＰ構造が存在し、この実施例は、基準と予測との間の異なる距離におけるフレーム間の可能な依存性を示すために選択されたものであり、コーディング効率を劇的に向上させる。上記の実施例では、シーン内の動きが速すぎず、不規則でなく、シーンカットがないとき、Ｂ_３ピクチャは、ほとんどが隣接フレームから補間されるので、要するビットはほとんどない。

人工ニューラルネットワークを使用したビデオ圧縮
このセクションは、本発明の説明のための基本モデルとして機能する人工ニューラルネットワークに基づく最新のビデオ圧縮方法を詳述する。それらは、オートエンコーダアーキテクチャに依存して、異なる要素を符号化し、かつオプティカルフローを計算することによってフレーム間冗長性の除去に取り組み、オプティカルフローは、フレーム間の密な動きフローを推定する、すなわち、各ピクセル位置は、別個の２次元動きベクトル（水平及び垂直）を割り当てられる。

従来のブロックベースのインター予測及び残差コーディングと結合されて、オプティカルフローは、これまでのところ、妥当な複雑さで、前に説明されたブロックベースの方法を上回る利点を示すことができていない。しかしながら、動きフィールドを符号化するためにオートエンコーダを使用する最近の研究は、有望な結果を示している。

図３は、従来の手法において提示される一般的なアーキテクチャを示す。左側のＩフレームは、独立して（イントラ）符号化されるキーフレームの符号化を表す。このブロックは、ＡＮＮベースの画像圧縮のために開発された、畳み込み分析及び合成モジュールから構成される単純なオートエンコーダからなる。推論では、エントロピーコーダー（Entropy Coder、ＥＣ）及びエントロピーデコーダ（Entropy Decoder、ＥＤ）を使用して、冗長性を算術的に除去する。

予測されたフレーム（Ｐ）は、右側のプロセスに従って符号化される。エンコーダでは、入力は現在のフレームｘ_ｃｕｒ及び前に再構成された参照フレーム

である。両方の画像を使用して、動き情報を導出し符号化する。これらは、一意のテンソルとして連結され、一意のテンソルは動きフローオートエンコーダ（ｆ_ａ、ｆ_ｓ）の入力であり、動きフローオートエンコーダは再構成されたフロー

を生成する。後者を使用して、参照フレーム

を現在上にワープする。これは、デコーダが、再構成されたフローのみにアクセスするからである。これは、現在のフレームに対する予測子

を生成する。次に、残差（

に対応する）は、（ｒ_ａ、ｒ_ｓ）によって符号化される。再構成された残差は、最終的に、再構成された予測に追加されて、復号された画像

を形成する。

次いで、図３において［１００．．．１１］によって示されるビットストリームは、Ｉフレームの潜在表現、又は予測されたフレームの場合には動きフィールド及び残差の潜在表現のいずれかを表すバイナリコードから構成される。

本発明は、オプティカルフロー推定及びコーディングに基づく動き補償を使用することによってビデオの圧縮を最適化する問題を解決することを目的とする。２つのピクチャ間でモデル化することができる依存性は、２つのフレーム間の時間の距離に大きく依存する。この距離は、２つの主なパラメータ、すなわち、２つの参照フレームを分離するフレーム数と、ビデオが収集されたフレームレートとからもたらされる。

ＡＮＮベースのオプティカルフロー推定器は、通常、畳み込み層に依存して、フレーム間のテクスチャの動き及び変形に関連する特徴をキャプチャする。フロー振幅及び精度は、シーン内のアクション、カメラ運動、並びに２つのフレーム間の時間的距離を定義する上記のパラメータに応じて劇的に異なる。したがって、畳み込みモデルの設計は、異なる時間的コーディング構造についての多種多様な変位をキャプチャすることができる必要がある。本発明では、オプティカルフローオートエンコーダの畳み込み層を参照フレーム間の距離で条件付けることによって、結合フロー推定及び圧縮の性能を向上させることを提案する。

従来のビデオコーディング方法は、セクション１で詳述されたように、ブロックベースの動き推定に依存する。この設計は、フレーム間の動きが各ブロックの単純な平行移動によってモデル化され得るという仮定に依存する。エンコーダは、このモデル化によって生じるエラーを補正するために送信される必要がある残差を最小化するブロック分割を選択する。符号化する各ブロックに対して、エンコーダは、前に復号された参照ピクチャ内の最良一致予測子を見つける。大きな動きをキャプチャし、離れたフレーム間の動きを推定できるようにするために、従来のコーデックは、最大動きベクトルを定義する。最近の研究は、ビデオのフレーム間の密な動きフローを推定し符号化するためにディープニューラルネットワークを使用することの有望さを示している。しかしながら、既存の方法は、通常、各フレームが表示順序において直前のフレームのみに依存する低遅延構造の最も単純な可能な変形などの単純な時間的構造に依存する。上記のセクションで提示されたランダムアクセスとは対照的に、表示順序及びコーディング順序は同一であり、これは、予測されたフレームと参照フレームとの間の距離の問題を解決するが、深層学習ベースの動きモデルも複雑な双方向の時間的構造を活用することができるので、コーディング効率を制限する。

最近の研究では、双方向予測を活用するディープ動きフロー推定ベースのフレームワークが提案されている。これは、コーディング順序における次のフレームのために各フレームの状態を保持するリカレントモデルに依存する。しかしながら、モデルがピクチャの全グループに対して学習されるので、この手法がスケーリングできるようには見えない。別のＧＯＰ構造を使用する必要がある場合には、モデルを適応させ、再トレーニングする必要がある。

本発明では、時間的構造に応じて動きフロー推定器を特殊化することによって、人工ニューラルネットワークに基づいてビデオ圧縮を向上させることが提案される。全体的なアーキテクチャは、参照ピクチャが図２に示されるような構造によって決定され得る図３に描写されるものと同様である。

特に、（標準的な（逆）畳み込みの代わりに）ネットワークモジュール内の条件付き（逆）畳み込みを使用して、参照フレーム間の変化する距離で、複雑なＧＯＰ構造を扱うことができる一般的ネットワークをトレーニングすることを提案する。

提案される一般的方法
本文書では、ＧＯＰ構造における相互依存性に依存する条件付き畳み込みを使用することによってモデルを適応させることが提案されている。以下の段落は、本発明を適用することができる動きフロー推定及び符号化の文脈及び設計を説明する。

動きフローを符号化するために使用されるオートエンコーダは、通常、現在及び参照フレームピクセル値を入力として取る畳み込み層に基づく。図３に見られるように、フレームは、成分軸に沿って連結されて、畳み込みモデル（ｆ_ａ、ｆ_ｓ）に入る。例えば、画像がＲＧＢフォーマットで表される場合、それらは、サイズ３×ｈ×ｗのテンソルとして成形され得、ここで、ｈ及びｗは、フレームの高さ及び幅をそれぞれ示す。フローオートエンコーダへの入力は６×ｈ×ｗからなる。連続する畳み込み層は、符号化されるより低い次元及び圧縮可能な潜在表現につながる。典型的には、潜在は、より多くのチャネル（ＲＧＢの実施例ではＮ＞６）を含むが、空間次元がより小さい、例えば

を含むテンソルである。ＹＵＶカラーフォーマットで表されるビデオを符号化するとき、特にＹ、Ｕ、及びＶが同じサイズを有するとき、ＹＵＶコンテンツをＲＧＢのように処理することが可能である。動きを導出するためだけにルーマ（Ｙ）チャネルを使用することも適切であり得る。その場合、各入力の１つの成分のみが考慮され、入力テンソルは形状２×ｈ×ｗを有する。デコーダでは、転置畳み込みを使用して、動き情報をベクトルの形（すなわち、垂直及び水平動き成分）で含む出力、したがって形状２×ｈ×ｗのテンソルを生成する。これは、参照ピクチャを現在のフレーム上にワープするために使用される。

例えば、オクルージョンが発生して参照ピクチャ内に一致するテクスチャが見つからないときに、動き推定が失敗した領域を識別してぼかすために追加のチャネルが使用される従来の方法で提案されたスケール空間フロースキームのように、追加の成分を推定することができることに留意されたい。これらの技術は、以下に説明する提案された発明と互換性がある。

そのようなオートエンコーダは、トレーニングされる必要がある。すなわち、畳み込みの重み及びエントロピーボトルネックが、ビデオの大きなデータセットに対して最適化される。前のセクションで説明したように、効率的なＧＯＰ構造は、互いに異なる距離にあり、異なるコンテキスト（過去、将来のコンテンツタイプなど）にあるフレーム間で生じる予測につながる。

この問題に対処するための第１の自明なやり方は、所与のＧＯＰ構造における各可能なマッピングを学習し、符号化することである。しかしながら、それは、複数のフローオートエンコーダが必要とされるので、エンコーダ／デコーダモデル全体のサイズを劇的に増加させる。加えて、これは、新しいタイプ又はサイズのＧＯＰが使用されるとき、スケーリング及び適応することが困難である。例えば、従来のビデオコーディングにおいて、動き推定及びコーディングが向上されるおかげで、標準化において考慮されるランダムアクセスＧＯＰは、今度は１６又は３２フレームを含むのに対して、図２に示すように、過去では８フレームしか有していなかった。

これを解決する別のやり方は、異なるフレーム間予測コンテキストについて１つのモデルのみを学習することである。しかしながら、この解決策は、同じ重みが異なる条件で使用されるので、準最適なモーションフロー構成につながる。

本文書では、ＧＯＰ構造における相互依存性に依存する条件付き畳み込みを使用することによってモデルを適応させることが提案されている。図４は、全体的なアーキテクチャを示す。右側では、動きフローオートエンコーダ（ｆ_ａ、ｆ_ｓ）が、図３と同様に表される。しかしながら、ｆ_ａ及びｆ_ｓでそれぞれ使用される畳み込み及び逆畳み込みは、条件付き畳み込み、ｒｅｓｐ．逆畳み込みで置き換えられる。現在の条件ｃをコード化するベクトルは、一連の層、例えば、畳み込みの出力テンソルのチャネル数に対応するサイズのベクトルを生成する、図４の全結合（fully connected、ＦＣ）層への入力として使用される。次に、畳み込みの出力の各チャネルに、条件を伝搬する小規模ネットワークのベクトル出力内の対応する値を乗算する。関数ｆは、任意のスケーリング関数、例えば、指数関数とすることができる。

少なくとも１つの層を置き換えることが提案されることに留意されたい。例えば、全ての畳み込みを置き換えることができるが、モデルサイズと圧縮効率との適切なバランスを見つけるために、いくつかの層のみを置き換えることも想定することができる。

例示的な図４では、タイプｒｅｌｕの非線形性が表されている。本発明は、ｒｅｌｕ活性化の使用に限定されず、任意のタイプの非線形性が、条件付き畳み込みの間並びに条件付きモジュールの内部で考慮され得る。

条件は、ワンホット符号化として符号化することができる。例えば、参照間の３つの可能な距離を考慮する場合、条件ベクトルは３の長さを有し、３つの値は［０、０、１］、［０、１、０］、［１、０、０］のように符号化することができる。他のスキームも考慮することができるが、条件付きモジュールのためのワンホット符号化は、深層学習アプリケーションにおいて非常に効果的であることが証明されている。

変形形態
このセクションでは、提案される方法の異なる変形形態、実施例、及び実施形態を提示する。

条件の拡張
異なる変形形態において修正され得る第１のパラメータは、畳み込みモジュールの入力である実際の条件パラメータである。Ｃは、単一の値、例えば、予測されたフレームと参照フレームとの間の距離であってもよいが、いくつかのパラメータを含むベクトルであってもよい。以下の条件も、別々に又は組み合わせて考慮することができる。
－現在のフレームと参照フレームとの間の距離、
－参照が、表示順序において現在のフレームの過去又は未来にあるかどうか、
－現在のフレームを予測するためにいくつのフレームが使用されるか、
－シーケンスが撮影されたフレームレート、
－コンテンツのタイプ：ゲーム、ＶＲ３６０コンテンツ、画面コンテンツ

より多くの条件付きモジュール
この提案の主な実施形態は、論理的に影響を受けるのが主モジュールであるため、結合オプティカルフロー推定／圧縮を異なる予測構造に条件付けることに焦点を当てているが、モデルの他の部分を適応させることができる。

例えば、残差コーディング又は復元フィルタを使用して予測を向上させることができる。これらのモジュールはまた、現在の予測タイプに基づいて異なる挙動を学習するために、上記で説明したように、「Ｃ」に基づいて条件付けされ得る。

アフィン条件付き関数
主な実施形態は、畳み込みの出力を修正する以下の関数の使用を説明した。
Ｙ＝ｆ（ｓ（ｃ）．（Ｗ^＊Ｘ））
ここで、Ｘは入力であり、Ｗは畳み込み重みであり、ｆ（図４でもｆと示されている）は任意の活性化関数（例えば、指数関数、ソフトプラス）であり、ｓは条件ｃで学習された関数のスケーリングセットである。

この変形形態では、以下のように出力の計算にバイアスを含めることが提案される。
Ｙ＝ｆ（ｓ（ｃ）．（Ｗ．Ｘ））＋ｂ（ｃ）
ここで、ｂ（ｃ）は、出力テンソルのチャネル数と同数の要素を含むバイアスベクトルである。

シンタックス
条件ｃは、異なる要素、例えば、フレーム間の距離並びに予測の時間的方向を計算するために使用される参照及び現在のフレームのピクチャ順序カウント（Picture Order Count、ＰＯＣ）をシグナリングするメタデータを使用して導出される。

提案された条件付きモジュールを活性化するために、シンタックス要素を追加することができる。

加えて、符号化を最適化するためにいくつかのメタデータが必要とされる場合がある。例えば、ビデオのフレームレートを使用してｃを導出することができる。フレームレートは、通常、従来のビデオ圧縮ではほとんど使用されず、復号プロセスに干渉しないので、デコーダに送信される必須のハイレベルシンタックスの一部ではない。この変形形態では、このメタデータは、ｃを導出するために必要な場合に送信されるべきである。

別の変形形態では、情報ｃは、ハイレベルシンタックスの一部としてデコーダに送信することができる。シーケンス又はフレーム／スライスレベルで。エンコーダは、コンテンツ又は時間的構造に応じていくつかの決定を行い、従って条件ｃを調整することができる。デコーダでは、送信されたｃを使用して適切な条件付き逆畳み込みが導出される。

図５に、符号化方法５００の一実施形態を示す。この方法は、開始ブロック５０１から始まり、条件付き畳み込み層への入力を受信するためのブロック５１０に進み、上記の入力は、現在のブロック及び少なくとも１つの参照ブロックの連結テンソルを含む。制御はブロック５１０から、現在の条件を表すデータに基づいて上記の入力に対して少なくとも１つの条件付き畳み込みを実行するためのブロック５２０に進み、上記の条件付き畳み込みは一連の全結合層を含む。制御はブロック５２０から、少なくとも１つの条件付き畳み込みからの出力を使用して動きフローを符号化するためのブロック５３０に進み、ここで、現在の条件はＧＯＰ構造に基づく。制御はブロック５３０から、上記の符号化された動きフローを含むビットストリームを生成するためのブロック５４０に進む。

図６に、ビデオデータを復号するための方法６００の一実施形態を示す。この方法は、開始ブロック６０１から始まり、ビデオデータの現在のブロックの動きフローデータを含むビットストリームをエントロピー復号するためのブロック６１０に進む。制御はブロック６１０から、再構成された残差を生成するために、上記のビットストリームに対して少なくとも１つの条件付き逆畳み込みを実行するためのブロック６２０に進み、上記の条件付き逆畳み込みは、一連の全結合層を含む。制御はブロック６２０から、復号されたブロックを生成するために、上記の再構成された残差を上記の現在のブロックの予測と組み合わせるためのブロック６３０に進む。

図７は、前述の方法を使用してビデオを圧縮、符号化、又は復号するための装置７００の一実施形態を示す。この装置は、プロセッサ７１０を備えており、少なくとも１つのポートを通じてメモリ７２０に相互接続することができる。プロセッサ７１０及びメモリ７２０は両方とも、外部接続への１つ以上の追加の相互接続を有することもできる。

更にプロセッサ７１０は、ビットストリームにおいて情報を挿入又は受信し、かつ前述の方法を使用して圧縮、符号化、又は復号するように構成されている。

本明細書で説明する実施形態は、ツール、特徴、例、モデル、手法などを含む、様々な態様を含む。これらの態様の多くは、具体的に記載され、少なくとも個々の特性を示すために、多くの場合、限定的に聞こえ得る方法で記載されている。しかしながら、これは、説明を明確にすることを目的としており、それらの態様の適用又は範囲を限定するものではない。実際には、異なる態様の全てを組み合わせ、かつ置き換えて、更なる態様を提供することができる。更に、これらの態様はまた同様に、以前の出願に記載の態様と組み合わせ、かつ置き換えすることができる。

本出願において説明され、企図される態様は、多くの異なる形態で実装することができる。図８、図９、及び図１０は、いくつかの実施形態を提供するが、他の実施形態も企図されており、図８、図９、及び図１０の説明は、実装形態の範囲を制限しない。態様のうちの少なくとも１つは、概して、ビデオ符号化及び復号に関し、少なくとも１つの他の態様は、概して、生成又は符号化されたビットストリームを送信することに関する。これら及び別の態様は、方法、装置、説明した方法のいずれかに従ってビデオデータを符号化又は復号するための命令を自体に記憶したコンピュータ可読記憶媒体、及び／又は、説明した方法のいずれかに従って生成されたビットストリームを自体に記憶したコンピュータ可読記憶媒体、として実装することができる。

本出願では、「再構成された（reconstructed）」及び「復号された（decoded）」という用語は、交換可能に使用され得、「ピクセル（pixel）」及び「サンプル（sample）」という用語は、交換可能に使用され得、「画像（image）」、「ピクチャ（picture）」、及び「フレーム（frame）」という用語は、交換可能に使用され得る。通常、必ずしもそうではないが、「再構成された」という用語は、エンコーダ側で使用され、一方、「復号された」という用語は、デコーダ側で使用される。

様々な方法が本明細書に説明されており、本方法の各々は、説明された方法を達成するための１つ以上のステップ又はアクションを含む。ステップ又はアクションの特定の順序が方法の適切な動作のために必要とされない限り、特定のステップ及び／又はアクションの順序及び／又は使用は、修正又は組み合わされ得る。加えて、「第１の（first）」、「第２の（second）」などの用語は、様々な実施形態において、例えば、「第１の復号（first decoding）」及び「第２の復号（second decoding）」などの要素、コンポーネント、ステップ、動作などを修正するために使用され得る。かかる用語の使用は、具体的に必要とされない限り、修正された動作に対する順序付けを意味するものではない。そのため、この実施例では、第１の復号は、第２の復号の前に実行される必要はなく、例えば、第２の復号の前、第２の復号の間、又は第２の復号と重複する時間中に発生し得る。

本出願に説明されている様々な方法及び他の態様を使用して、図８及び図９に示されるようなビデオエンコーダ１００及びビデオデコーダ２００のモジュール、例えば、イントラ予測モジュール、エントロピーコーディングモジュール、及び／又は復号モジュール（１６０、３６０、１４５、３３０）を修正することができる。更に、本開示の態様は、ＶＶＣ又はＨＥＶＣに限定されず、例えば、既存のものであれ将来進展するものであれ、他の規格及び勧告、またこのようないかなる規格及び勧告（ＶＶＣ及びＨＥＶＣを含む）の拡張にも適用することができる。特に断りのない限り、又は技術上除外されない限り、本出願に記載の態様は、個々に、又は組み合わせて使用することができる。

本出願において、様々な数値が使用されている。具体的な値は、例示目的のためであり、記載の態様は、これらの具体的な値に限定されない。

図８は、エンコーダ１００を示す。このエンコーダ１００の変形形態も企図されるが、以下では、分かりやすいように、予想される全ての変形形態を説明せずに、エンコーダ１００について説明される。

符号化される前に、ビデオシーケンスは、符号化前処理（１０１）、例えば、カラー変換を入力カラーピクチャに適用すること（例えば、ＲＧＢ４：４：４からＹＣｂＣｒ４：２：０への転換）、又は圧縮に対してより弾力的な信号分布を得るために入力ピクチャ成分の再マッピングを実行する（例えば、色成分のうちの１つのヒストグラム等化を使用して）ことを経得る。メタデータを前処理に関連付け、ビットストリームに付加することができる。

エンコーダ１００では、以下に説明されるように、ピクチャが、エンコーダ要素によって符号化される。符号化されるピクチャは、例えば、ＣＵという単位に分割され（１０２）、処理される。各ユニットは、例えば、イントラモード又はインターモードのいずれかを使用して符号化される。ユニットがイントラモードで符号化されるとき、そのユニットは、イントラ予測（１６０）を実行する。インターモードでは、動き推定（１７５）及び動き補償（１７０）が実行される。エンコーダは、ユニットを符号化するためにイントラモード又はインターモードのうちのどちらを使用すべきかを決定し（１０５）、例えば、予測モードフラグによってイントラ／インターの決定を示す。予測残差は、例えば、元の画像ブロックから予測されたブロックを減算すること（１１０）によって計算される。

その予測残差は、次いで、変換され（１２５）、量子化される（１３０）。量子化された変換係数、並びに動きベクトル及び他のシンタックス要素は、ビットストリームを出力するためにエントロピーコード化される（１４５）。エンコーダは、変換をスキップし、量子化を非変換残差信号に直接適用することができる。エンコーダは、変換及び量子化の両方をバイパスすることができ、すなわち、残差は、変換プロセス又は量子化プロセスを適用することなく直接コード化される。

エンコーダは、符号化されたブロックを復号して、更なる予測のための参照を提供する。量子化された変換係数は、予測残差を復号するために逆量子化され（１４０）、逆変換される（１５０）。復号された予測残差と予測されたブロックとを組み合わせて（１５５）、画像ブロックが再構成される。ループ内フィルタ（１６５）を再構成されたピクチャに適用して、例えば、符号化アーチファクトを低減するための非ブロック化／サンプル適応オフセット（Sample Adaptive Offset、ＳＡＯ）フィルタリングを実行する。フィルタリングされた画像は、参照ピクチャバッファ（１８０）に記憶される。

図９は、ビデオデコーダ２００のブロック図を示す。デコーダ２００では、以下に説明されるように、ビットストリームが、デコーダ要素によって復号される。ビデオデコーダ２００は、概して、図８に説明したような符号化パスとは逆向きの復号パスを実行する。エンコーダ１００はまた、概して、ビデオデータを符号化することの一部としてビデオ復号を実行する。

特に、デコーダの入力は、ビデオビットストリームを含み、これは、ビデオエンコーダ１００によって生成され得る。ビットストリームは、最初にエントロピー復号されて（２３０）、変換係数、動きベクトル、及び他のコード化された情報を取得する。ピクチャ分割情報は、ピクチャがどのように分割されているかを示す。デコーダは、したがって、復号されたピクチャ分割情報に従ってピクチャを分割し得る（２３５）。変換係数は、逆量子化され（２４０）、逆変換されて（２５０）、予測残差を復号する。復号された予測残差と予測されたブロックとを組み合わせて（２５５）、画像ブロックが再構成される。イントラ予測（２６０）又は動き補償予測（すなわち、インター予測）（２７５）から、予測ブロックを得ることができる（２７０）。ループ内フィルタ（２６５）が、再構成された画像に適用される。フィルタリングされた画像は、参照ピクチャバッファ（２８０）に記憶される。

復号されたピクチャは、復号後処理（２８５）、例えば、逆カラー変換（例えば、ＹｃｂＣｒ４：２：０からＲＧＢ４：４：４への転換）、又は符号化前処理（１０１）において実行された再マッピングプロセスの逆を実行する逆再マッピングを更に経ることができる。復号後処理は、符号化前処理において導出され、ビットストリームにおいてシグナリングされたメタデータを使用することができる。

図１０は、様々な態様及び実施形態が実装されているシステムの一実施例のブロック図を示す。システム１０００は、以下に記載の様々な構成要素を含むデバイスとして具体化することができ、本明細書に記載の態様のうちの１つ以上を行うように構成されている。このようなデバイスの例としては、パーソナルコンピュータ、ラップトップコンピュータ、スマートフォン、タブレットコンピュータ、デジタルマルチメディアセットトップボックス、デジタルテレビ受信機、パーソナルビデオ録画システム、接続型家電、及びサーバなどの様々な電子デバイスが挙げられるが、これらに限定されない。システム１０００の要素は、単独で又は組み合わせて、１つの集積回路（integrated circuit、ＩＣ）、複数のＩＣ、及び／又は別個の構成要素に具現化することができる。例えば、少なくとも１つの実施形態では、システム１０００の処理要素及びエンコーダ要素／デコーダ要素は、複数のＩＣ及び／又は個別のコンポーネントにわたって分散している。様々な実施形態では、システム１０００は、例えば、通信バスを介して、又は専用の入力ポート及び／若しくは出力ポートを通して、１つ以上の他のシステム又は他の電子デバイスに通信可能に結合される。様々な実施形態では、システム１０００は、本文書に説明される態様のうちの１つ以上を実装するように構成されている。

システム１０００は、例えば、本明細書に記載される様々な態様を実装するために、内部にロードされた命令を実行するように構成された少なくとも１つのプロセッサ１０１０を含む。プロセッサ１０１０は、埋め込みメモリ、入出力インターフェース、及び当該技術分野において知られている様々な他の回路を含むことができる。システム１０００は、少なくとも１つのメモリ１０２０（例えば、揮発性メモリデバイス及び／又は不揮発性メモリデバイス）を含む。システム１０００は、記憶デバイス１０４０を含み、これは、不揮発性メモリ及び／又は揮発性メモリを含むことができ、これらのメモリとしては、電気的消去可能なプログラマブル読み出し専用メモリ（Electrically Erasable Programmable Read-Only Memory、ＥＥＰＲＯＭ）、読み出し専用メモリ（ＲＯＭ）、プログラマブル読み出し専用メモリ（Programmable Read-Only Memory、ＰＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（Dynamic Random Access Memory、ＤＲＡＭ）、スタティックランダムアクセスメモリ（Static Random Access Memory、ＳＲＡＭ）、フラッシュ、磁気ディスクドライブ、及び／又は光ディスクドライブが挙げられるが、これらに限定されない。記憶デバイス１０４０は、非限定的な例として、内部記憶デバイス、取り付け型の記憶デバイス（取り外し可能及び非取り外し可能記憶デバイスを含む）、及び／又はネットワークアクセス可能な記憶デバイスを含むことができる。

システム１０００は、例えば、符号化されたビデオ又は復号されたビデオを提供するためにデータを処理するように構成されたエンコーダ／デコーダモジュール１０３０を含み、エンコーダ／デコーダモジュール１０３０は、それ自体のプロセッサ及びメモリを含むことができる。エンコーダ／デコーダモジュール１０３０は、符号化機能及び／又は復号機能を果たすデバイスに含めることができるモジュールに相当する。既知であるように、デバイスは、符号化モジュール及び復号モジュールのうちの一方又は両方を含むことができる。更に、エンコーダ／デコーダモジュール１０３０は、システム１０００の別個の要素として実装することができるか、又は当業者には既知であるように、ハードウェアとソフトウェアとの組み合わせとしてプロセッサ１０１０内に組み込むことができる。

本明細書に記載の様々な態様を行うためにプロセッサ１０１０又はエンコーダ／デコーダ１０３０に読み込まれるプログラムコードは、記憶デバイス１０４０に格納することができ、続いて、プロセッサ１０１０による実行のためにメモリ１０２０に読み込むことができる。様々な実施形態によれば、プロセッサ１０１０、メモリ１０２０、記憶デバイス１０４０、及びエンコーダ／デコーダモジュール１０３０のうちの１つ以上は、本明細書に記憶のプロセスの実行中に様々なアイテムのうちの１つ以上を記憶することができる。かかる記憶されたアイテムは、これらに限定されないが、入力ビデオ、復号されたビデオ、又は復号されたビデオの一部分、ビットストリーム、マトリクス、変数、並びに、方程式、式、動作、及び動作論理の処理からの中間結果又は最終結果を含むことができる。

いくつかの実施形態では、プロセッサ１０１０及び／又はエンコーダ／デコーダモジュール１０３０の内部のメモリは、命令を記憶し、かつ符号化中又は復号中に必要とされる処理のための作業メモリを提供するために使用される。しかし、他の実施形態では、処理デバイス（例えば、処理デバイスは、プロセッサ１０１０又はエンコーダ／デコーダモジュール１０３０であり得る）の外部のメモリが、これらの機能のうちの１つ以上に使用される。外部メモリは、メモリ１０２０及び／又は記憶デバイス１０４０、例えば、ダイナミック揮発性メモリ及び／又は不揮発性フラッシュメモリとすることができる。いくつかの実施形態では、外部不揮発性フラッシュメモリを使用して、例えば、テレビのオペレーティングシステムを記憶する。少なくとも１つの実施形態では、ＲＡＭなどの高速な外部の動的揮発性メモリは、ＭＰＥＧ－２（ＭＰＥＧはＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐと称され、ＭＰＥＧ－２はＩＳＯ／ＩＥＣ１３８１８とも称され、１３８１８－１はＨ．２２２としても既知であり、１３８１８－２はＨ．２６２としても既知である）、ＨＥＶＣ（ＨＥＶＣは高効率映像符号化と称され、Ｈ．２６５及びＭＰＥＧ－ＨＰａｒｔ２としても既知である）、又はＶＶＣ（ＪＶＥＴによって開発中の新しい標準である多用途ビデオコーディング）などのビデオの符号化動作及び復号動作のための作業メモリとして使用される。

システム１０００の要素への入力は、ブロック１１３０に示される様々な入力デバイスを通して、提供することができる。このような入力デバイスには、（ｉ）例えば、放送事業者による放送全体にわたり送信されるＲＦ信号を受信する無線周波数（Radio Frequency、ＲＦ）部分、（ｉｉ）コンポーネント（Component、ＣＯＭＰ）入力端子（又はＣＯＭＰ入力端子セット）、（ｉｉｉ）ユニバーサルシリアルバス（Universal Serial Bus、ＵＳＢ）入力端子、及び／又は（ｉｖ）高解像度マルチメディアインターフェース（High Definition Multimedia Interface、ＨＤＭＩ）入力端子が含まれるが、これらに限定されない。図１０には示されていないが、他の例としては、コンポジットビデオが挙げられる。

様々な実施形態では、ブロック１１３０の入力デバイスは、当該技術分野で知られているように、関連するそれぞれの入力処理要素を有する。例えば、ＲＦ部分は、（ｉ）所望の周波数を選択すること（信号を選択すること、又は信号をある帯域の周波数に帯域制限することとも称される）と、（ｉｉ）選択された信号をダウンコンバートすることと、（ｉｉｉ）（例えば）特定の実施形態でチャネルと称され得る信号周波数帯域を選択するために、より狭い帯域の周波数に再び帯域制限することと、（ｉｖ）ダウンコンバートされ、帯域制限された信号を復調することと、（ｖ）エラー訂正を実行することと、（ｖｉ）所望のデータパケットのストリームを選択するために逆多重化することと、に好適な要素と関連付けられ得る。様々な実施形態のＲＦ部分は、これらの機能を実行する１つ以上の要素、例えば、周波数セレクタ、信号セレクタ、バンドリミッタ、チャネルセレクタ、フィルタ、ダウンコンバータ、復調器、エラー訂正器、及びデマルチプレクサを含む。ＲＦ部分は、様々なこれらの機能を実行するチューナを含むことができ、例えば、受信した信号をより低い周波数（例えば、中間周波数又は近ベースバンド周波数）に又はベースバンドにダウンコンバートすることを含む。セットトップボックスの一実施形態では、ＲＦ部分及びその関連する入力処理要素は、有線（例えば、ケーブル）媒体を介して送信されるＲＦ信号を受信し、所望の周波数バンドにフィルタリング、ダウンコンバート、及び再フィルタリングすることによって周波数選択を実行する。様々な実施形態では、上で説明される（及び他の）要素の順序を並べ替える、これらの要素の一部を削除する、並びに／又は、類似若しくは異なる機能を実行する他の要素を追加する。要素を追加することは、例えば、増幅器及びアナログ－デジタル変換器を挿入するなど、既存の要素間に要素を挿入することを含み得る。様々な実施形態において、ＲＦ部分は、アンテナを含む。

加えて、ＵＳＢ端子及び／又はＨＤＭＩ端子は、システム１０００をＵＳＢ接続及び／又はＨＤＭＩ接続を介して他の電子デバイスに接続するためのそれぞれのインターフェースプロセッサを含むことができる。入力処理の様々な側面、例えば、リード－ソロモンエラー訂正は、例えば、必要に応じて、別個の入力処理ＩＣ内で実装する、又はプロセッサ１０１０内で実装することができることを理解されたい。同様に、ＵＳＢ又はＨＤＭＩインターフェース処理の態様は、必要に応じて、別個のインターフェースＩＣ内、又はプロセッサ１０１０内で実装することができる。復調され、エラー訂正され、逆多重化されたストリームは、例えば、プロセッサ１０１０と、出力デバイス上に提示するために必要に応じてデータストリームを処理するためにメモリ及び記憶要素と組み合わせて動作するエンコーダ／デコーダ１０３０とを含む、様々な処理要素に提供される。

システム１０００の様々な要素は、統合されたハウジング内に提供され得、統合されたハウジング内では、様々な要素は、好適な接続配設、例えば、Ｉｎｔｅｒ－ＩＣ（Ｉ２Ｃ）バス、配線、及びプリント回路基板を含む、当該技術分野で既知の内部バスを使用して相互に接続され、互いの間でデータを送信することができる。

システム１０００は、通信チャネル１０６０を介した他のデバイスとの通信を可能にする通信インターフェース１０５０を含む。通信インターフェース１０５０は、通信チャネル１０６０介してデータを送信及び受信するように構成されたトランシーバを含むことができるが、これに限定されない。通信インターフェース１０５０は、モデム又はネットワークカードを含むことができるが、これらに限定されず、通信チャネル１０６０は、例えば、有線媒体及び／又は無線媒体内で実装することができる。

データは、様々な実施形態では、Ｗｉ－Ｆｉネットワーク、例えば、ＩＥＥＥ８０２．１１（ＩＥＥＥは、米国電気電子技術者協会（Institute of Electrical and Electronics Engineers)を指す）などの無線ネットワークを使用して、システム１０００にストリーミングされるか、又は別様に提供される。これらの実施形態のＷｉ－Ｆｉ信号は、Ｗｉ－Ｆｉ通信に適応している通信チャネル１０６０及び通信インターフェース１０５０を介して受信される。これらの実施形態の通信チャネル１０６０は、典型的に、ストリーミングアプリケーション及び他のオーバザトップ通信を可能にするために、インターネットを含む外部ネットワークへのアクセスを提供するアクセスポイント又はルータに接続される。他の実施形態では、入力ブロック１１３０のＨＤＭＩ接続を介してデータを配信するセットトップボックスを使用して、システム１０００にストリーミングデータを提供する。更に他の実施形態では、入力ブロック１１３０のＲＦ接続を使用して、システム１０００にストリーミングデータを提供する。上で示されるように、様々な実施形態は、データを非ストリーミングの様式で提供する。追加的に、様々な実施形態は、Ｗｉ－Ｆｉ以外の無線ネットワーク、例えば、セルラネットワーク又はＢｌｕｅｔｏｏｔｈネットワークを使用する。

システム１０００は、ディスプレイ１１００、スピーカ１１１０、及び他の周辺デバイス１１２０を含む様々な出力デバイスに出力信号を提供することができる。様々な実施形態のディスプレイ１１００は、例えば、タッチスクリーンディスプレイ、有機発光ダイオード（organic light-emitting diode、ＯＬＥＤ）ディスプレイ、湾曲ディスプレイ、及び／又は折り畳み可能なディスプレイのうちの１つ以上を含む。ディスプレイ１１００は、テレビ、タブレット、ラップトップ、携帯電話（移動電話）、又は別のデバイス用とすることができる。ディスプレイ１１００はまた、他のコンポーネントと統合され得るか（例えば、スマートフォンのように）、又は別個に（例えば、ラップトップのための外部モニタ）され得る。他の周辺デバイス１１２０としては、実施形態の様々な実施例において、スタンドアロンデジタルビデオディスク（又はデジタル多用途ディスク）（両方の用語について、ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｃ、ＤＶＲ）、ディスクプレーヤ、ステレオシステム、及び／又は照明システム、のうちの１つ以上が挙げられる。様々な実施形態は、システム１０００の出力に基づいて機能を提供する１つ以上の周辺デバイス１１２０を使用する。例えば、ディスクプレーヤは、システム１０００の出力を再生する機能を実行する。

様々な実施形態では、制御信号が、システム１０００と、ディスプレイ１１００、スピーカ１１１０、又は他の周辺デバイス１１２０との間で、ＡＶ．Ｌｉｎｋ、家庭用電子制御（Consumer Electronics Control、ＣＥＣ）、又はユーザ介入の有無にかかわらずデバイス間の制御を可能にする他の通信プロトコルなどのシグナリングを使用して通信される。出力デバイスは、それぞれのインターフェース１０７０、１０８０、及び１０９０を通した専用接続を介してシステム１０００に通信可能に結合することができる。代替的に、出力デバイスは、通信インターフェース１０５０を介して、通信チャネル１０６０を使用してシステム１０００に接続することができる。ディスプレイ１１００及びスピーカ１１１０は、例えば、テレビなどの電子デバイスにおいてシステム１０００の他の構成要素と１つの単位に一体化され得る。様々な実施形態において、ディスプレイインターフェース１０７０は、例えば、タイミングコントローラ（timing controller、ＴＣｏｎ）チップなどのディスプレイドライバを含む。

例えば、入力１１３０のＲＦ部が別個のセットトップボックスの一部である場合、ディスプレイ１１００及びスピーカ１１１０は、代替的に、他の構成要素のうちの１つ以上とは別個とすることができる。ディスプレイ１１００及びスピーカ１１１０が外部構成要素である様々な実施形態では、例えば、ＨＤＭＩポート、ＵＳＢポート、又はＣＯＭＰ出力を含む専用の出力接続を介して出力信号を提供することができる。

実施形態は、プロセッサ１０１０によって、又はハードウェアによって、又はハードウェアとソフトウェアとの組み合わせによって、実装されるコンピュータソフトウェアによって行うことができる。非限定的な例として、１つ以上の集積回路によって実施形態を実装することができる。メモリ１０２０は、技術環境に適切な任意のタイプのものとすることができ、非限定的な例として、光メモリデバイス、磁気メモリデバイス、半導体ベースのメモリデバイス、固定メモリ、及びリブ－バブルメモリなどの相応しいいかなるデータストレージ技術を使用しても実装することができる。プロセッサ１０１０は、技術環境に適切な任意のタイプのものとすることができ、非限定的な例として、マイクロプロセッサ、汎用コンピュータ、特殊目的コンピュータ、及びマルチコアアーキテクチャに基づくプロセッサのうちの１つ以上を包含することができる。

様々な実装形態は、復号することを含む。本出願で使用される「復号」は、例えば、表示するのに適した最終出力を生成するために、受信した符号化シーケンスに対して実行される処理の全て又は一部を包含することができる。様々な実施形態において、このようなプロセスには、例えば、エントロピー復号、逆量子化、逆変換、及び差動復号など、通常、デコーダによって行われるプロセスのうちの１つ以上が含まれる。様々な実施形態において、このようなプロセスには、更に又は代替として、本出願に記載の様々な実装形態のデコーダによって行われるプロセスも含まれる。

更なる例として、一実施形態では、「復号」とは、エントロピー復号のみを指し、別の実施形態では、「復号」とは、差動復号のみを指し、別の実施形態では、「復号」とは、エントロピー復号と差動復号との組み合わせを指す。「符号化プロセス」という句が、具体的に作業部分集合を指すことを目的とするものであるか、又は全体としてより広範な符号化プロセスを指すことを目的とするものであるかは、具体的な説明の背景に基づいて明らかになり、当業者によって十分に理解されると考えられる。

様々な実装形態は、符号化を伴う。本出願で使用される「符号化」は、「復号」に関する上記の説明と同様に、例えば、符号化されたビットストリームを生成するために入力ビデオシーケンスに対して実行される処理の全て又は一部を包含することができる。様々な実施形態において、このようなプロセスは、例えば、分割、差動符号化、変換、量子化、及びエントロピー符号化など、エンコーダによって典型的に実行されるプロセスのうちの１つ以上を含む。様々な実施形態において、このようなプロセスには、更に又は代替的に、本出願に記載の様々な実装形態のエンコーダによって行われるプロセスが含まれる。

更なる例として、一実施形態では、「符号化」とは、エントロピー符号化のみを指し、別の実施形態では、「符号化」とは、差動符号化のみを指し、別の実施形態では、「符号化」とは、差動符号化とエントロピー符号化との組み合わせを指す。「符号化プロセス」という句が、具体的に作業部分集合を指すこと目的とするものであるか、又は全体としてより広範な符号化プロセスを指すことを目的とするものであるかは、具体的な説明の背景に基づいて明らかになり、当業者によって十分に理解されると考えられる。

本明細書で使用されるシンタックス要素は、説明上の用語であることに留意されたい。したがって、これらは他のシンタックス要素名の使用を排除するものではない。

図がフローチャートとして提示されている場合、その図は対応する装置のブロック図も提供するものと理解されたい。同様に、図がブロック図として提示されている場合、その図は対応する方法／プロセスのフローチャートも提供するものと理解されたい。

様々な実施形態が、パラメトリックモデル又はレート歪み最適化に関連し得る。具体的には、符号化プロセス中に、レートと歪みとの間のバランス又はトレードオフは、通常、多くの場合、計算複雑性の制約を与えるものと考えられる。レート歪み最適化（Rate Distortion Optimization、ＲＤＯ）メトリックを通して、あるいは最小二乗平均（Least Mean Square、ＬＭＳ）、絶対誤差平均（Mean of Absolute Errors、ＭＡＥ）、又は他のこのような測定を通して、これを測定することができる。レート歪み最適化は、通常、レートと歪みとの加重和であるレート歪み関数を最小化するように定式化される。レート歪み最適化問題を解くには、異なる手法がある。例えば、これらの手法は、全ての考慮されるモード又は符号化パラメータ値を含む全ての符号化オプションの広範なテストに基づき得、それらの符号化コスト、並びに符号化及び復号後の再構成された信号の関連する歪みの完全な評価を伴う。符号化複雑性を抑えるために、特に、再構成された信号ではなく、予測又は予測残差信号に基づく近似歪みの計算とともに、より素早い手法を使用することもできる。考えられる符号化選択肢の一部のみに対して近似歪みを使用し、他の符号化選択肢に対しては完全な歪みを使用することなどによって、これらの２つの手法の混合を使用することもできる。他の手法では、考えられる符号化選択肢部分集合のみを評価する。より一般的には、多くの手法は、最適化を実行するために様々な技術のいずれかを採用するが、最適化は、必ずしもコーディングコスト及び関連する歪みの両方の完全な評価ではない。

本明細書に記載の実装形態及び態様は、例えば、方法若しくはプロセス、装置、ソフトウェアプログラム、データストリーム、又は信号において実装することができる。たとえ単一の形態の実装形態の文脈でのみ考察される場合でも（例えば、方法としてのみ考察される）、考察された特徴の実装形態は、他の形態（例えば、装置又はプログラム）でも実装することができる。例えば、適切なハードウェア、ソフトウェア、及びファームウェアにおいて装置を実装することができる。方法は、例えば、プロセッサにおいて実施することができ、プロセッサとは、例えば、コンピュータ、マイクロプロセッサ、集積回路、又はプログラマブルロジックデバイスを含む一般的な処理デバイスを指す。プロセッサはまた、例えば、コンピュータ、携帯電話、携帯型／携帯情報端末（portable/personal digital assistant、「ＰＤＡ」）及びエンドユーザ間の情報の通信を容易にする他のデバイスなどの通信デバイスを含む。

「一実施形態」若しくは「ある実施形態」又は「一実装形態」若しくは「ある実装形態」、またそれらの他の変形形態への言及は、その実施形態に関連して説明する特定の特徴、構造、特性などが、少なくとも１つの実施形態に含まれることを意味する。したがって、本出願全体を通して様々な場所に現れる「一実施形態では」若しくは「ある実施形態では」又は「一実装形態では」若しくは「ある実装形態では」、また他の変形形態という句が現れるとき、必ずしも全てが同じ実施形態を指しているのではない。

加えて、本出願は、様々な情報を「判定する」ことに言及し得る。情報を判定することは、例えば、情報を推定すること、情報を計算すること、情報を予測すること、又は情報をメモリから取り出すことのうちの１つ以上を含むことができる。

更に、本出願は、様々な情報に「アクセスすること」に言及する場合がある。情報にアクセスすることは、例えば、情報を受信すること、（例えば、メモリから）情報を取得すること、情報を記憶すること、情報を移動すること、情報をコピーすること、情報を計算すること、情報を判定すること、情報を予測すること、又は情報を推定することのうちの１つ以上を含むことができる。

加えて、本出願は、様々な情報を「受信すること」に言及する場合がある。受信することは、「アクセスすること」と同様に、広義の用語であることを意図している。情報を受信することは、例えば、情報にアクセスすること、又は（例えば、メモリから）情報を取得することのうちの１つ以上を含むことができる。更に、「受信すること」は、一般には、例えば、情報を記憶する、情報を処理する、情報を送信する、情報を移動する、情報をコピーする、情報を消去する、情報を計算する、情報を判定する、情報を予測する、又は情報を推定するなどの操作時に、何らかの形で関与する。

例えば、「Ａ／Ｂ」、「Ａ及び／又はＢ（A and/or B）」及び「Ａ及びＢのうちの少なくとも１つ（at least one of A and B）」の場合、次の「／」、「及び／又は（and/or）」、及び「のうちの少なくとも１つ（at least one of）」のいずれかの使用は、第１のリストされた選択肢（Ａ）のみの選択、又は第２のリストされた選択肢（Ｂ）のみの選択、又は両方の選択肢（Ａ及びＢ）の選択を包含することが意図されていることを理解されるべきである。更なる実施例として、「Ａ、Ｂ、及び／又はＣ（A,B,and/or C）」及び「Ａ、Ｂ、及びＣのうちの少なくとも１つ（at least one of A,B,and C）」の場合、かかる表現は、第１のリストされた選択肢（Ａ）のみの選択、又は第２のリストされた選択肢（Ｂ）のみの選択、又は第３のリストされた選択肢（Ｃ）のみの選択、又は第１及び第２のリストされた選択肢（Ａ及びＢ）のみの選択、又は第１及び第３のリストされた選択肢（Ａ及びＣ）のみの選択、又は第２及び第３のリストされた選択肢のみの選択（Ｂ及びＣ）のみ、又は３つ全ての選択肢の選択（Ａ及びＢ及びＣ）を包含することが意図される。このことは、当該技術分野及び関連技術分野の当業者に明らかであるように、リストされたアイテムの数だけ拡張され得る。

また、本明細書で使用されるとき、「シグナリングする」という語は、特に、対応するデコーダに対して何かを示すことを意味する。例えば、特定の実施形態では、エンコーダは、複数の変換、符号化モード又はフラグのうちの特定の１つをシグナリングする。このように、ある実施形態では、同じ変換、パラメータ又はモードが、エンコーダ側及びデコーダ側の両方で使用される。したがって、例えば、エンコーダは、デコーダが同じ特定のパラメータを使用することができるように、特定のパラメータをデコーダに送信することができる（明確なシグナリング）。これに対し、デコーダがすでにその特定のパラメータと共に他のパラメータも有する場合は、単にデコーダがその特定のパラメータを知ること、及びそれを選択することを可能にするように、送信を行わないシグナリング（暗黙的なシグナリング）を使用することができる。いかなる実際の機能の送信も回避することにより、様々な実施形態において、ビットの節約が実現される。シグナリングは、様々な方法で達成することができることが理解されよう。例えば、１つ以上のシンタックス要素、フラグなどが、様々な実施形態において、対応するデコーダに情報をシグナリングするために使用される。上記は、「信号」という語の動詞形に関連し、「信号」という語は、本明細書では名詞としても使用されることがある。

当業者には明白であるように、実装形態は、例えば、格納され得る、又は送信され得る情報を搬送するようにフォーマットされた様々な信号をもたらすことができる。情報は、例えば、方法を実行するための命令、又は説明されている実装形態の１つによって生成されるデータを含むことができる。例えば、記載の実施形態のビットストリームを搬送するように、信号をフォーマットすることができる。例えば、電磁波として（例えば、スペクトルの無線周波数部分を使用して）、又はベースバンド信号として、このような信号をフォーマットすることができる。フォーマットすることは、例えば、データストリームを符号化することと、符号化されたデータストリームで搬送波を変調することと、を含むことができる。信号が搬送する情報は、例えば、アナログ情報又はデジタル情報とすることができる。既知であるように、様々な異なる有線リンク又は無線リンク上で信号を送信することができる。信号は、プロセッサ可読媒体に格納することができる。

前述のセクションは、様々な請求項のカテゴリ及びタイプにわたって、いくつかの実施形態を説明している。これらの実施形態の特徴は、単独で、又は任意の組み合わせで提供することができる。更に、実施形態は、様々な特許請求の範疇及びタイプにわたって、以下の特徴、デバイス、又は態様のうちの１つ以上を、単独で、又は任意の組み合わせにおいて、含むことができる。
・条件付き畳み込みを使用したビデオ情報の符号化及び復号。
・ＧＯＰ構造に基づく条件付き符号化による上記の符号化及び復号。
・動きフローを決定するために輝度を使用する上記の符号化及び復号。
・一連の全結合層を用いて実装される上記の符号化及び復号。
・動き情報を生成するために転置畳み込みを使用する上記の符号化及び復号。
・動き情報を使用して参照フレームを現在のフレーム上にワープして、現在のフレームの予測子を生成することをさらに含む上記の符号化及び復号。
・記載されるシンタックス要素、又はその変形形態のうちの１つ以上を含むビットストリーム又は信号。
・記載される実施形態のうちのいずれかに従って生成される情報を運ぶシンタックスを含むビットストリーム又は信号。
・記載される実施形態のいずれかにより、作り出しかつ／又は送信しかつ／又は受信しかつ／又は復号する。
・記載される実施形態のいずれかによる、方法、プロセス、装置、命令を格納する媒体、データを記憶する媒体、又は信号。
・エンコーダによって使用されることに対応する様態で、デコーダが復号情報を決定することを可能にするシンタックス要素をシグナリングに挿入する。
・記載されるシンタックス要素、又はその変形形態のうちの１つ以上を含むビットストリーム又は信号を作り出しかつ／又は送信しかつ／又受信しかつ／又は復号する。
・記載される実施形態のいずれかによる、変換方法を行う、テレビ、セットトップボックス、携帯電話、タブレットなどの電子デバイス。
・記載される実施形態のいずれかにより、変換方法判定を下し、結果としてもたらされた画像を表示する（例えば、モニタ、スクリーン、などのタイプのディスプレイを使用して）表示する、テレビ、セットトップボックス、携帯電話、タブレットなどの電子デバイス。
・符号化済み画像を含む信号を受信するように、チャネルを選択し、帯域制限し、又はチューニングし（例えば、チューナを使用して）、記載される実施形態のいずれかにより変換方法を行う、テレビ、セットトップボックス、携帯電話、タブレット、又は他の電子デバイス。
・符号化済み画像を含む信号を放送全体にわたって受信し、変換方法を行う、ＴＶ、セットトップボックス、携帯電話、タブレット、又はそれ以外の電子デバイス。

Claims

方法であって、
条件付き畳み込み層への入力を受信することであって、前記入力は、現在のブロックと少なくとも１つの参照ブロックとの連結テンソルを含む、受信することと、
現在の条件を表すデータに基づいて前記入力に対して少なくとも１つの条件付き畳み込みを実行することであって、前記条件付き畳み込みは、一連の全結合層を含む、実行することと、
前記少なくとも１つの条件付き畳み込みからの出力を使用して動きフローを符号化することであって、前記現在の条件はＧＯＰ構造に基づく、符号化することと、
符号化された前記動きフローを含むビットストリームを生成することと、を含む、方法。
装置であって、
プロセッサを備え、前記プロセッサは、
条件付き畳み込み層への入力を受信することであって、前記入力は、現在のブロックと少なくとも１つの参照ブロックとの連結テンソルを含む、受信することと、
現在の条件を表すデータに基づいて前記入力に対して少なくとも１つの条件付き畳み込みを実行することであって、前記条件付き畳み込みは、一連の全結合層を含む、実行することと、
前記少なくとも１つの条件付き畳み込みからの出力を使用して動きフローを符号化することであって、前記現在の条件はＧＯＰ構造に基づく、符号化することと、
符号化された前記動きフローを含むビットストリームを生成することと、を行うように構成されている、装置。
方法であって、
ビデオデータの現在ブロックの動きフローデータを含むビットストリームをエントロピー復号することと、
再構成された残差を生成するために、前記ビットストリームに対して少なくとも１つの条件付き逆畳み込みを実行することであって、前記条件付き逆畳み込みは、一連の全結合層を含む、実行することと、
復号されたブロックを生成するために、前記再構成された残差を前記現在のブロックの予測と組み合わせることと、を含む、方法。
装置であって、
プロセッサを備え、前記プロセッサは、
ビデオデータの現在ブロックの動きフローデータを含むビットストリームをエントロピー復号することと、
再構成された残差を生成するために、前記ビットストリームに対して少なくとも１つの条件付き逆畳み込みを実行することであって、前記条件付き逆畳み込みは、一連の全結合層を含む、実行することと、
復号されたブロックを生成するために、前記再構成された残差を前記現在のブロックの予測と組み合わせることと、を行うように構成されている、装置。
オートエンコーダを使用して実施される、請求項１若しくは３に記載の方法、又は請求項２若しくは４に記載の装置。
前記動きフローは輝度に基づく、請求項１若しくは３に記載の方法、又は請求項２若しくは４に記載の装置。
前記現在の条件は、２つの参照ブロックを分離するフレームの数と、前記ブロックを含む収集されたビデオのフレームレートとを含む、請求項１若しくは３に記載の方法、又は請求項２若しくは４に記載の装置。
予測子を生成するために動き情報を使用して前記参照ブロックを前記現在のブロック上にワープすることを更に含む、請求項１若しくは３に記載の方法、又は請求項２若しくは４に記載の装置。
前記条件付き畳み込み又は条件付き逆畳み込みは、非線形関数を更に含む、請求項１若しくは３に記載の方法、又は請求項２若しくは４に記載の装置。
前記条件付き畳み込みは、少なくとも１つのスケーリング関数を更に含む、請求項１若しくは３に記載の方法、又は請求項２若しくは４に記載の装置。
前記ビットストリームは、エントロピーコード化されている、請求項１若しくは３に記載の方法、又は請求項２若しくは４に記載の装置。
デバイスであって、
請求項１に記載の装置と、
（ｉ）信号を受信するように構成されたアンテナであって、前記信号がビデオブロックを含む、アンテナ、（ｉｉ）受信された前記信号を、前記ビデオブロックを含む周波数帯域に制限するように構成されたバンドリミッタ、及び（ｉｉｉ）ビデオブロックを表す出力を表示するように構成されたディスプレイ、のうちの少なくとも１つと、を備える、デバイス。
プロセッサを使用して再生するための、請求項１のいずれか一項に記載の方法に従って、又は請求項２に記載の装置によって生成されたデータコンテンツを含む、非一時的コンピュータ可読媒体。
プロセッサを使用して再生するための、請求項１に記載の方法に従って、又は請求項２に記載の装置によって生成されたビデオデータを含む、信号。
命令を含むコンピュータプログラム製品であって、前記命令は、前記プログラムがコンピュータによって実行されるときに、請求項１に記載の方法を前記コンピュータに実行させる、コンピュータプログラム製品。