従って、本発明は、好ましくは、上述した問題点の1以上を単独で又は何れかの組み合わせにより軽減、緩和又は解消しようとする。
本発明の一態様によると、イメージに関する深さ表示マップを符号化する方法であって、前記深さ表示マップを受信するステップと、リファレンスイメージと対応するリファレンス深さ表示マップとに応答して、イメージ空間ポジションと前記イメージ空間ポジションに関するピクセル値のカラー座標の組み合わせとの入力セットの形式による入力データと、深さ表示値の形式による出力データとを関連付けるマッピングを生成するステップと、前記マッピングに応答して、前記深さ表示マップを符号化することによって出力符号化データストリームを生成するステップとを有する方法が提供される。
本発明は、改良された符号化を提供するものであってもよい。例えば、それは、深さ表示マップの符号化が具体的な特性に適応化及び対象とされることを可能にするものであってもよい。本発明は、例えば、デコーダが深さ表示マップを生成することを可能にする符号化を提供してもよい。リファレンスイメージに基づくマッピングの利用は、特に多くの実施例において、所定のルール又はアルゴリズムが特定のイメージ又は深さ特性に対して開発及び適用される必要なく、イメージ及び/又は深さ特性に対する自動的及び/又は改良された適応化を可能にするものであってもよい。
組み合わせに関連すると考えられるイメージポジションは、特定の入力セットに対して、例えば、当該入力セットのイメージ空間ポジションの近傍基準を満たすイメージポジションとして決定されてもよい。例えば、それは、入力セットについて規定されたポジション範囲内に属する入力セットのポジションと同じイメージオブジェクトに属する入力セットのポジションからの所与の距離未満のイメージポジションを含むものであってもよい。
当該組み合わせは、例えば、複数のカラー座標値をより少数の値、具体的には単一の値に合成する合成であってもよい。例えば、当該合成は、カラー座標(RGB値など)を単一のルミナンス値に合成するものであってもよい。他の例として、当該合成は、近傍ピクセルの値を単一の平均値又は差分値に合成してもよい。他の実施例では、当該合成は代わりに又はさらに複数の値であってもよい。例えば、当該合成は、複数の近傍ピクセルのそれぞれについてピクセル値を有するデータセットであってもよい。従って、いくつかの実施例では、当該合成は、マッピングのさらなる1つの次元に対応するものであってもよく(すなわち、空間次元に加えて)、他の実施例では、当該合成は、マッピングの複数のさらなる次元に対応するものであってもよい。
カラー座標は、ピクセルの視覚的特性を反映した何れかの値であってもよく、具体的には、ルミナンス値、クロマ値又はクロミナンス値であってもよい。当該合成は、いくつかの実施例では、入力セットのイメージ空間ポジションに対応する1つのピクセル値のみを有してもよい。
本方法は、マッピングを動的に生成することを含むものであってもよい。例えば、新たなマッピングが、各N番目のイメージなどについて(Nは整数)又はビデオシーケンスの各イメージについて生成されてもよい。
深さ表示マップは、イメージに対応するパーシャル又はフルマップであってもよい。深さ表示マップは、イメージの深さ表示を提供する値を有し、具体的には、各ピクセル又は各ピクセルグループの深さ表示値を有してもよい。深さ表示マップの深さ表示は、例えば、深さ(z)座標又はディスパリティ値などであってもよい。深さ表示マップは、具体的には、深さディスパリティマップ又は深さマップであってもよい。
いくつかの実施例では、イメージのオクルージョンデータがまた提供されてもよい。例えば、イメージは、第1レイヤがイメージの視点から見えるオブジェクトを表し、1以上のさらなるレイヤが当該ビューから塞がれているオブジェクトのイメージデータを提供する階層化イメージとして表現されてもよい。深さ表示データは、トップレイヤのみについて提供/生成されてもよいし、又はオクルージョンレイヤの1以上について提供/生成されてもよい。オクルージョンデータは、ビットストリームの異なるレイヤにより送信されてもよく、すなわち、それは、出力データストリームのエンハンスメントレイヤに含まれてもよい。
本発明の任意的な特徴によると、本方法はさらに、前記イメージを受信するステップと、前記マッピングに応答して、前記イメージから予測深さ表示マップを予測するステップと、前記予測深さ表示マップと前記イメージとに応答して、残差深さ表示マップを生成するステップと、符号化深さデータを生成するため、前記残差深さ表示マップを符号化するステップと、前記符号化深さデータを前記出力符号化データストリームに含めるステップとをさらに有する。
本発明は、深さ表示マップの符号化を向上させるものであってもよい。特に、イメージからの深さ表示マップの予測の向上は、低減された残差信号とより効率的な符号化を可能にする。深さ表示マップの符号化データのデータレートは低減され、信号全体のデータレートの低減が実現されてもよい。
当該アプローチは、予測が深さ表示マップとイメージとの間の具体的な関係に対する向上した及び/又は自動的な適応化に基づくものにすることを可能にするものであってもよい。
当該アプローチは、多くのシナリオにおいて、深さ表示マップがエンハンスメントレイヤにおいて提供され、入力イメージの符号化を有するベースレイヤを単に利用する既存の装置との後方互換性を可能にする。さらに、当該アプローチは、低コンプレクシティな実現を可能にし、これにより、コスト、リソース要求及び利用の低下、又は設計若しくは製造の容易化を可能にする。
予測ベースイメージは、具体的には、符号化データを生成するため入力を符号化することによって生成され、符号化データを復号化することによって予測ベースイメージが生成されてもよい。
本方法は、入力イメージの符号化データを有する第1レイヤと、残差深さ表示マップの符号化データを有する第2レイヤとを有するように、出力符号化データストリームを生成することを含むものであってもよい。第2レイヤは任意的なレイヤであり、具体的には、第1レイヤはベースレイヤであり、第2レイヤはエンハンスメントレイヤであってもよい。
残差深さ表示マップの符号化は、具体的には、入力深さ表示マップと予測深さ表示マップとの比較によって、深さ表示マップの少なくとも一部の残差データを生成し、残差データを符号化することによって、符号化深さ表示マップの少なくとも一部を生成することを含むものであってもよい。
本発明の任意的な特徴によると、各入力セットは、各空間イメージ次元の空間インターバルと、合成のための少なくとも1つの値インターバルとに対応し、マッピングの生成は、前記リファレンスイメージの少なくともイメージポジショングループの各イメージポジションについて、前記各イメージポジションに対応する空間インターバルと、前記イメージにおける前記各イメージポジションの合成値に対応する前記組み合わせの値インターバルとを有する少なくとも1つの一致した入力セットを決定するステップと、前記リファレンス深さ表示マップにおける前記各イメージポジションの深さ表示値に応答して、前記一致する入力セットの出力深さ表示値を決定するステップとを有する。
これは、深さ表示マップの生成に適したマッピングを決定するための効率的で正確なアプローチを提供する。
いくつかの実施例では、本方法はさらに、第1入力セットに一致する少なくともイメージポジショングループのイメージポジションのすべての深さ表示値からの寄与度の平均に応答して、第1入力セットの出力深さ表示値を決定することを含む。
本発明の任意的な特徴によると、前記マッピングは、空間サブサンプリングされたマッピング、時間サブサンプリングされたマッピング及び合成値サブサンプリングされたマッピングの少なくとも1つである。
これは、多くの実施例では、効果的な処理を依然として可能にしながら、効率性の向上及び/又はデータレート又はリソース要求の低減を提供してもよい。時間サブサンプリングは、イメージ/マップのシーケンスのイメージ/マップのサブセットについてマッピングを更新することを含むものであってもよい。合成値サブサンプリングは、ピクセル値の量子化から生じるものより1以上の寄与度の値のより粗な量子化の適用を含むものであってもよい。空間サブサンプリングは、複数のピクセルポジションをカバーする各入力セットを含むものであってもよい。
本発明の任意的な特徴によると、本方法は、前記イメージを受信するステップと、前記マッピングに応答して、前記イメージから前記深さ表示マップの予測を生成するステップと、前記深さ表示マップと前記予測との比較に応答して、前記マッピングと残差深さ表示マップとの少なくとも1つを適応化するステップとをさらに有する。
これは、符号化の向上を可能にし、多くの実施例では、データレートが特定のイメージ特性に適応化されることを可能にするものであってもよい。例えば、データレートは、可変的な最小データレートを実現するため、データレートの動的な適応化によって、所与の品質レベルに対して要求されるレベルに低減されてもよい。
いくつかの実施例では、適応化は、マッピングの一部又はすべてを修正するか判断することを含むものであってもよい。例えば、マッピングが入力深さ表示マップから所与の量より大きく乖離する予測深さ表示マップを生じさせる場合、マッピングは、予測を向上させるため部分的に又は完全に修正されてもよい。例えば、適応化は、特定の入力セットについてマッピングにより提供される特定の深さ表示値を修正することを含むものであってもよい。
いくつかの実施例では、本方法は、入力深さ表示マップと予測深さ表示マップとの比較に応答して、出力符号化データストリームに含まれるマッピングデータと残差深さ表示マップデータとの少なくとも1つの要素の選択を含むものであってもよい。マッピングデータ及び/又は残差深さ表示マップデータは、例えば、入力深さ表示マップと予測深さ表示マップとの間の差分が所与の閾値を超過するエリアに制限されてもよい。
本発明の任意的な特徴によると、前記イメージは前記リファレンスイメージであり、前記リファレンス深さ表示マップは前記深さ表示マップである。
これは、多くの実施例では、入力イメージからの深さ表示マップの効率的な予測を可能にし、多くのシナリオでは、深さ表示マップの特に効率的な符号化を提供するものであってもよい。本方法はさらに、出力符号化データストリームにマッピングの少なくとも一部を特徴付けるマッピングデータを含めてもよい。
本発明の任意的な特徴によると、本方法はさらに、前記イメージを符号化するステップをさらに有し、前記イメージと前記深さ表示マップとは結合的に符号化され、前記イメージは前記深さ表示マップに依存することなく符号化され、前記深さ表示マップは前記イメージからのデータを利用して符号化され、前記符号化されたデータは、前記イメージのデータを有するプライマリデータストリームと、前記深さ表示マップのデータを有するセカンダリデータストリームとを含む別々のデータストリームに分割され、前記プライマリデータストリームと前記セカンダリデータストリームとは、出力符号化データストリームに多重化され、前記プライマリデータストリームと前記セカンダリデータストリームとのデータには別々のコードが備えられる。これは、後方互換性の向上を可能にするデータストリームの特に効率的な符号化を提供するものであってもよい。当該アプローチは、結合的符号化の効果と後方互換性とを組み合わせるものであってもよい。
本発明の一態様によると、イメージの深さ表示マップを生成する方法であって、前記イメージを受信するステップと、イメージ空間ポジションと、前記イメージ空間ポジションに関するピクセル値のカラー座標の組み合わせとの入力セットの形式の入力データと深さ表示値の形式の出力データとを関連付けるマッピングを提供するステップであって、前記マッピングはリファレンスイメージと対応するリファレンス深さ表示マップとの間の関係を反映する、前記提供するステップと、前記イメージと前記マッピングとに応答して、前記深さ表示マップを生成するステップとを有する方法が提供される。
本発明は、イメージから深さ表示マップを生成するための特に効率的なアプローチを可能にするものであってもよい。特に、当該アプローチは、手作業の介入の要求を低減し、リファレンスに基づく深さ表示マップの生成と、当該リファレンスからの情報の自動抽出とを可能にするものであってもよい。当該アプローチは、例えば、手作業の又は自動的な処理によりさらに精緻化可能な深さ表示マップの生成を可能にするものであってもよい。
本方法は、具体的には、深さ表示マップを復号化する方法であってもよい。イメージは、最初に復号化され、その後に深さ表示マップを提供するためにマッピングが復号化イメージに適用される符号化イメージとして受信されてもよい。具体的には、イメージは、符号化データストリームのベースレイヤイメージを復号化することよって生成されてもよい。
リファレンスイメージと対応するリファレンス深さ表示マップとは、具体的には、以前に復号化されたイメージ/マップであってもよい。いくつかの実施例では、イメージは、マッピング、リファレンスイメージ及び/又はリファレンス深さ表示マップを特徴付けるか、又は特定するデータを有してもよい符号化データストリームにより受信されてもよい。
本発明の任意的な特徴によると、前記深さ表示マップを生成するステップは、予測深さ表示マップの少なくとも一部の各ポジションについて、前記各ポジションと、前記各ポジションに関するピクセル値のカラー座標の第1の組み合わせとに一致する少なくとも1つの一致する入力セットを決定するステップと、前記少なくとも1つの一致する入力セットについて、前記マッピングから少なくとも1つの出力深さ表示値を抽出するステップと、前記少なくとも1つの出力深さ表示値に応答して、前記予測深さ表示マップの各ポジションの深さ表示値を決定するステップと、前記予測深さ表示マップの少なくとも一部に応答して、前記深さ表示マップを決定するステップとによって、前記予測深さ表示マップの少なくとも一部を決定することを含む。
これは、深さ表示マップの特に効果的な生成を提供してもよい。多くの実施例では、当該アプローチは、深さ表示マップの特に効率的な符号化を可能にしてもよい。特に、イメージからの深さ表示マップの正確で自動的な適応化及び/又は効率的な生成が実現可能である。
予測深さ表示マップの少なくとも一部に応答した深さ表示マップの生成は、予測深さ表示マップの少なくとも一部を直接的に利用することを含むものであってもよいし、あるいは、イメージを有するレイヤと異なるレイヤの符号化信号から構成される残差深さ表示マップデータを利用して、予測深さ表示マップの少なくとも一部をエンハンスすることなどを含むものであってもよい。
本発明の任意的な特徴によると、前記イメージはビデオシーケンスのイメージであり、当該方法は、前記リファレンスイメージとして前記ビデオシーケンスの以前のイメージと、前記リファレンス深さ表示マップとして前記以前にイメージについて生成された以前の深さ表示マップとを利用して、前記マッピングを生成するステップを有する。
これは、効率的な処理を可能にし、特に対応するイメージ及び深さ表示マップによるビデオシーケンスの効率的な符号化を可能にするものであってもよい。例えば、当該アプローチは、エンコーダとデコーダとの間で適用されたマッピングの情報が通信されることを必要とすることなく、イメージからの深さ表示マップの少なくとも一部の予測に基づく正確な符号化を可能にするものであってもよい。
本発明の任意的な特徴によると、前記以前の深さ表示マップはさらに、前記以前のイメージの予測深さデータに対する前記以前の深さ表示マップの残差深さデータに応答して生成される。
これは、特に正確なマッピングと予測の向上とを提供するものであってもよい。
本発明の任意的な特徴によると、前記イメージは、ビデオシーケンスのイメージであり、当該方法はさらに、前記ビデオシーケンスの少なくともいくつかのイメージのノミナル(nominal)なマッピングを利用するステップを有する。
これは、多くの深さ表示マップについて特に効率的な符号化を可能にし、特にビデオシーケンスの異なるイメージ/マップに対する効率的な適応化を可能にするものであってもよい。例えば、ノミナルなマッピングは、シーン変更後の最初のイメージ/マップなど、適切なリファレンスイメージ/マップが存在しない深さ表示マップについて利用されてもよい。
いくつかの実施例では、ビデオシーケンスは、リファレンスマッピングが利用されるイメージのリファレンスマッピング表示をさらに有する符号化ビデオ信号の一部として受信されてもよい。いくつかの実施例では、リファレンスマッピング表示は、所定のリファレンスマッピングセットから選択された適用されたリファレンスマッピングを示す。例えば、N個のリファレンスマッピングが、エンコーダとデコーダとの間で予め決定されてもよく、符号化は、リファレンスマッピングの何れがデコーダによる特定の深さ表示マップについて利用されるべきかの表示を含むものであってもよい。
本発明の任意的な特徴によると、前記組み合わせは、前記イメージ空間ポジションのテクスチャ、勾配及び空間ピクセル値の変化の少なくとも1つを示す。
これは、深さ表示マップの特に効果的な生成を提供するものであってもよい。
本発明の任意的な特徴によると、前記深さ表示マップは、マルチビューイメージの第1ビューイメージに関連し、当該方法はさらに、前記深さ表示マップに応答して、前記マルチビューイメージの第2ビューイメージのさらなる深さ表示マップを生成するステップを有する。
当該アプローチは、マルチビュー深さ表示マップの特に効率的な生成/復号化を可能にし、データレート対品質レシオの向上及び/又は実現の容易化を可能にするものであってもよい。マルチビューイメージは、同一シーンの異なるビューに対応する複数のイメージを有するイメージであってもよく、深さ表示マップが各ビューに関連付けされてもよい。マルチビューイメージは、具体的には、左右のイメージ(例えば、視聴者の左右の目の視点に対応する)と左右の深さ表示マップとを有するステレオイメージであってもよい。第1ビュー深さ表示マップは、具体的には、第2ビュー深さ表示マップの予測を生成するのに利用されてもよい。いくつかのケースでは、第1ビュー深さ表示マップは、第2ビュー深さ表示マップの予測として直接的に利用されてもよい。
いくつかの実施例では、第2ビュー深さ表示マップを生成するステップは、イメージ空間ポジションと、当該イメージ空間ポジションに関連する深さ表示値との入力セットの形式の入力データと、深さ表示値の形式の出力データとを関連付け、第1ビューのリファレンス深さ表示マップと第2ビューの対応するリファレンス深さ表示マップとの間の関係を反映するマッピングを提供するステップと、第1ビュー深さ表示マップとマッピングとに応答して第2ビュー深さ表示マップを生成するステップとを有する。
これは、第1ビュー深さ表示マップに基づき第2ビュー深さ表示マップを生成するための特に効果的なアプローチを提供するものであってもよい。特に、それは、リファレンス深さ表示マップに基づく正確なマッピング又は予測を可能にするものであってもよい。第2ビュー深さ表示マップの生成は、マッピングの自動的な生成に基づくものであってもよく、例えば、以前の第2ビュー深さ表示マップと以前の第1ビュー深さ表示マップとに基づくものであってもよい。当該アプローチは、例えば、エンコーダとデコーダサイドにおいてマッピングが独立して生成されることを可能にし、追加的なマッピングデータがエンコーダからデコーダに通信されることを必要とすることなく、マッピングに基づく効率的なエンコーダ/デコーダの予測を可能にするものであってもよい。
本発明の一態様によると、イメージに関する深さ表示マップを符号化する装置であって、前記深さ表示マップを受信する受信機と、リファレンスイメージと対応するリファレンス深さ表示マップとに応答して、イメージ空間ポジションと、前記イメージ空間ポジションに関するピクセル値のカラー座標の組み合わせとの入力セットの形式の入力データと、深さ表示値の形式の出力データとを関連付けるマッピングを生成するマッピング生成手段と、前記マッピングに応答して、前記深さ表示マップを符号化することによって、出力符号化データストリームを生成する出力プロセッサとを有する装置が提供される。当該装置は、例えば、集積回路又はその一部であってもよい。
本発明の一態様によると、上述した装置と、前記深さ表示マップを有する信号を受信し、上述した装置に前記信号を供給する入力接続手段と、上述した装置から前記出力符号化データストリームを出力する出力接続手段とを有する装置が提供される。
本発明の一態様によると、イメージの深さ表示マップを生成する装置であって、前記イメージを受信する受信機と、イメージ空間ポジションと、前記イメージ空間ポジションに関するピクセル値のカラー座標の組み合わせとの入力セットの形式の入力データと、深さ表示値の形式の出力データとを関連付けるマッピングを提供するマッピングプロセッサであって、前記マッピングはリファレンスイメージと対応するリファレンス深さ表示マップとの間の関係を反映する、前記マッピングプロセッサと、前記イメージと前記マッピングとに応答して、前記深さ表示マップを生成するイメージ生成手段とを有する装置が提供される。当該装置は、例えば、集積回路又はその一部であってもよい。
本発明の一態様によると、上述した装置と、前記イメージを受信し、前記イメージを上述した装置に供給する入力接続手段と、上述した装置からの前記深さ表示マップを有する信号を出力する出力接続手段とを有する装置が提供される。当該装置は、例えば、セットトップボックス、テレビ、コンピュータモニタ若しくは他のディスプレイ、メディアプレーヤー、DVD又はBluRayTMプレーヤーなどであってもよい。
本発明の一態様によると、符号化イメージと、深さ表示マップの残差深さデータとを有する符号化信号であって、前記残差深さデータの少なくとも一部は、前記イメージの所望される深さ表示マップと、前記符号化イメージにマッピングを適用することから得られる予測深さ表示マップとの間の差分を示し、前記マッピングは、イメージ空間ポジションと、前記イメージ空間ポジションに関するピクセル値のカラー座標の組み合わせとの入力セットの形式の入力データと、深さ表示値の形式の出力データとを関連付け、前記マッピングは、リファレンスイメージと対応するリファレンス深さ表示マップとの間の関係を反映する符号化信号が提供される。
本発明の一態様によると、上述した符号化信号を有する記憶媒体が提供される。当該記憶媒体は、例えば、DVD又はBluRayTMディスクなどのデータキャリアであってもよい。
本発明の態様又は特徴の何れかの方法を実行するためのコンピュータプログラムが提供されてもよい。また、本発明の態様又は特徴の何れかの方法を実行するための実行可能コードを有する記憶媒体が提供されてもよい。
本発明の上記及び他の態様、特徴及び効果は、後述される実施例を参照して明らかになるであろう。
以下の説明は、ビデオシーケンスの対応するイメージと深さ表示マップとの符号化及び復号化に適用可能な本発明の実施例に着目する。しかしながら、本発明はこの用途に限定されるものでなく、説明される原理は他の多数のシナリオに適用可能であることが理解されるであろう。特に、本原理は、符号化又は復号化に関する深さ表示マップの生成に限定されるものでない。
図1は、本発明のいくつかの実施例によるビデオ信号の通信のための伝送システム100を示す。伝送システム100は、インターネットやデジタルテレビ配信システムなどの配信システムなどであってもよいネットワーク105を介し受信機103に接続される送信機101を有する。
具体例では、受信機103は信号再生装置であるが、他の実施例では、受信機は他の用途及び他の目的のために利用されてもよいことが理解されるであろう。特定の具体例では、受信機103は、テレビなどのディスプレイであってもよいし、コンピュータモニタやテレビなどの外部ディスプレイのための表示出力信号を生成するセットトップボックスであってもよい。
具体例では、送信機101は、イメージのビデオシーケンスと対応する深さ表示マップとを提供する信号ソース107を有する。イメージの深さマップは、当該イメージの深さ情報を構成してもよい。このような深さ表示は、具体的には、z座標(すなわち、イメージ平面(x−y平面)に垂直する方向におけるオフセットを示す深さ値)、ディスパリティ値又は深さ情報を提供する他の何れかの値であってもよい。深さ表示マップは、イメージ全体をカバーする完全なマップであってもよいし、又はイメージの1以上のエリアのみの深さ表示を提供する部分的な深さ表示マップであってもよい。深さ表示マップは、具体的には、イメージ全体又はイメージの1以上のパーツの各ピクセルの深さ値を提供するものであってもよい。
信号ソース107は、自らイメージ及び深さ表示マップを生成するか、又は外部ソースなどからこれらの一方又は双方を受信してもよい。
以下において、シンプルなイメージと関連する深さ表示マップとの一例が説明される。しかしながら、いくつかの具体例では、閉塞データがさらにイメージについて提供されてもよく、実際、深さ表示マップなどの深さ表示データがまた、閉塞データについて提供されてもよい。
信号ソース107は、以降において詳細に説明される符号化アルゴリズムに従ってビデオシーケンスを符号化するエンコーダ109に接続される。特に、ビデオシーケンスのイメージは従来の符号化規格を用いて符号化されてもよく、深さ表示マップは、後述されるような対応するイメージに基づき予測を用いて符号化される。エンコーダ109は、符号化された信号を受信し、通信ネットワーク105とのインタフェースをとるネットワーク送信機111に接続される。ネットワーク送信機は、通信ネットワーク105を介し受信機103に符号化信号を送信してもよい。他の多くの実施例において、地上波又は衛星放送システムなどの他の配信又は通信ネットワークが利用されてもよいことが理解されるであろう。
受信機103は、通信ネットワーク105とインタフェースをとり、送信機101から符号化信号を受信する受信機113を有する。いくつかの実施例では、受信機113は、例えば、インターネットインタフェースや無線若しくは衛星受信機などであってもよい。
受信機113は、デコーダ115に接続される。デコーダ115には、受信した符号化信号が供給され、その後、以降に詳細に説明される復号化アルゴリズムに従ってそれを復号化する。デコーダ115は、具体的には、従来の復号化アルゴリズムを用いて復号化されたイメージを生成し、後述される復号化イメージからの予測を利用して深さ表示マップを復号化してもよい。
信号再生機能がサポートされる特定の具体例では、受信機103はさらに、デコーダ115から復号化ビデオ信号(深さ表示マップを含む)を受信し、これを適切な機能を利用してユーザに提示する信号プレーヤー117を有する。信号プレーヤー117は、具体的には、当業者に知られる復号化イメージ及び深さ情報に基づき、異なるビューからのイメージを再生してもよい。
信号プレーヤー117自体は、符号化ビデオシーケンスを提示可能なディスプレイを有してもよい。あるいは、又はさらに、信号プレーヤー117は、外部のディスプレイ装置に適したドライブ信号を生成可能な出力回路を有してもよい。従って、受信機103は、符号化ビデオシーケンスを受信する入力接続手段と、ディスプレイのための出力ドライブ信号を提供する出力接続手段とを有してもよい。
図2は、本発明のいくつかの実施例によるエンコーダ109の一例を示す。図3は、本発明のいくつかの実施例による符号化方法の一例を示す。
エンコーダは、入力イメージを有するビデオシーケンスを受信する受信機201と、深さ表示マップの対応するシーケンスを受信する受信機203とを有する。
まず、エンコーダ109は、ビデオシーケンスの入力イメージが受信されるステップ301を実行する。入力イメージは、ビデオシーケンスからビデオイメージを符号化するイメージエンコーダ205に供給される。何れか適切なビデオ又はイメージ符号化アルゴリズムが利用されてもよく、当該符号化は、具体的には、当業者に知られるような動き補償、量子化、変換を含むものであってもよいことが理解される。具体的には、イメージエンコーダ205は、H−264/AVC規格エンコーダであってもよい。
従って、ステップ301はステップ303に続き、入力イメージが、符号化イメージを生成するため符号化される。
エンコーダ109は、そのとき、入力イメージから予測された深さマップを生成する。当該予測は、例えば、入力イメージ自体であってもよい予測ベースイメージに基づく。しかしながら、多くの実施例では、予測ベースイメージは、符号化イメージを復号化することによってデコーダにより生成可能なイメージに対応するよう生成されてもよい。
図2の具体例では、イメージエンコーダ205は、イメージの符号化データの復号化により予測ベースイメージを生成するイメージデコーダ207に接続される。当該復号化は、実際の出力データストリームを有してもよいし、又は最終的な可逆エントロピー符号化の前の符号化データストリームなどの中間データストリームを有してもよい。従って、イメージデコーダ207は、予測ベースイメージbas_IMGが符号化イメージを復号化することによって生成されるステップ305を実行する。
イメージデコーダ207は、予測ベースイメージから予測深さ表示マップを生成する予測手段209に接続される。当該予測は、マッピングプロセッサ211により提供されるマッピングに基づく。
従って、本例では、ステップ305は、マッピングが生成されるステップ307と、その後に予測深さ表示マップを生成するため予測が実行されるステップ309とに続く。
予測手段209はさらに、深さ表示マップ受信機203に接続される深さエンコーダ213に接続される。深さエンコーダ213は、入力された深さ表示マップ及び予測深さ表示マップを受信し、予測深さ表示マップに基づき入力された深さ表示マップを符号化する。
具体的な低コンプレクシティな具体例として、深さ表示マップの符号化は、予測深さ表示マップに対して残差深さ表示マップを生成し、残差深さ表示マップを符号化することに基づくものであってもよい。従って、このような具体例では、深さエンコーダ213は、入力された深さ表示マップと予測深さ表示マップとの比較に応答して、残差深さ表示マップが生成されるステップ311を実行する。具体的には、深さエンコーダ213は、入力された深さ表示マップから予測深さ表示マップを減じることによって、残差深さ表示マップを生成してもよい。従って、残差深さ表示マップは、入力された深さ表示マップと、対応する(符号化)イメージに基づき予測される深さ表示マップとの間の誤差を表す。他の実施例では、他の比較が行われてもよい。例えば、深さ表示マップの予測深さ表示マップによる除算が利用されてもよい。
深さエンコーダ213は、その後、残差深さ表示マップが符号化残差深さデータを生成するため符号化されるステップ313を実行してもよい。
残差深さ表示マップを符号化するのに適した何れかの符号化原理又はアルゴリズムが利用されてもよいことが理解されるであろう。実際、多くの実施例において、予測深さ表示マップは、複数からの1つの可能な予測として利用されてもよい。従って、いくつかの実施例では、深さエンコーダ213は、予測深さ表示マップを含む複数の予測の間で選択するよう構成されてもよい。他の予測は、同一の又は他の深さ表示マップからの空間的又は時間的な予測を含むものであってもよい。当該選択は、入力された深さ表示マップに対する残差量など、異なる予測のための正確な指標に基づくものであってもよい。当該選択は、深さ表示マップ全体に対して実行されてもよいし、又は例えば、深さ表示マップの異なるエリア又は領域について個別に実行されてもよい。
例えば、深さ表示マップエンコーダは、深さ値がルマ値にマッピングされるH264エンコーダにより符号化されてもよい。従来のH264エンコーダは、時間予測(動き補償などのフレーム間)又は空間予測(すなわち、イメージの他のエリアからあるエリアを予測)などの異なる予測を利用してもよい。その後、H.264ベースエンコーダは、可能な異なる予測の間で選択する。当該選択は、マクロブロックベースにより実行され、当該マクロブロックの最も小さい残差を生じさせる予測を選択することに基づく。具体的には、レート歪み解析が、各マクロブロックのためのベストな予測アプローチを選択するため実行されてもよい。従って、ローカルな判定が行われる。
従って、H264ベースエンコーダは、異なるマクロブロックについて異なる予測アプローチを利用してもよい。各マクロブロックについて、残差データが生成及び符号化されてもよい。従って、入力HDRイメージの符号化データは、各マクロブロックの特定の選択された予測から生じる当該マクロブロックの残差データを有してもよい。さらに、符号化データは、何れの予測アプローチが各マクロブロックについて利用されるかの表示を有してもよい。
従って、深さ表示マップ予測に対するイメージは、深さエンコーダにより選択可能なさらなる可能な予測を提供する。いくつかのマクロブロックについて、当該予測は、他の予測より小さい残差を生じさせるものであってもよく、それは、当該マクロブロックについて選択されるであろう。当該ブロックについて結果として得られる残差深さ表示マップは、このとき、当該ブロックについて予測深さ表示マップと入力された深さ表示マップとの間の差分を表すであろう。
本例では、エンコーダは、異なる予測アプローチの組み合わせでなくこれらの間の選択したものを利用してもよい。これは、典型的には、異なる予測は互いに干渉するためである。
イメージエンコーダ205と深さエンコーダ213とは、符号化イメージデータと符号化残差深さデータとを受信する出力プロセッサ215に接続される。その後、出力プロセッサ215は、出力される符号化データストリームEDSが符号化イメージデータと符号化残差深さデータとを含むよう生成されるステップ315を実行する。
本例では、生成される出力符号化データストリームは、レイヤ化されたデータストリームであり、符号化イメージデータは、符号化残差深さデータが第2レイヤに含まれる第1レイヤに含まれる。第2レイヤは、具体的には、深さ処理に互換しないデコーダ又はデバイスにより破棄可能な任意的なレイヤであってもよい。従って、第1レイヤはベースレイヤであり、第2レイヤは任意的レイヤであり、具体的には、第2レイヤは、エンハンスメント又は任意的レイヤであってもよい。このようなアプローチは、深さ対応可能な装置がさらなる深さ情報を利用することを可能にしながら、後方互換性を可能にする。さらに、予測及び残差イメージ符号化の利用は、所与の品質について低いデータレートにより効率性の高い符号化を可能にする。
図2の例では、深さ表示マップの予測はマッピングに基づき。当該マッピングは、イメージ空間ポジションの入力セットとイメージ空間ポジションに関連するピクセル値のカラー座標の組み合わせとの形式による入力データから、深さ表示位置の形式による出力データにマッピングするよう構成される。
従って、ルックアップテーブルとして具体的に実現されてもよいマッピングは、入力セットに構成されるいくつかのパラメータにより規定される入力データに基づく。従って、入力セットは、いくつかのパラメータの値を有する多次元セットであるとみなされてもよい。当該パラメータは、空間次元を有し、具体的には、水平次元のパラメータ(範囲)と垂直次元のパラメータ(範囲)など、2次元のイメージポジションを有してもよい。具体的には、当該マッピングは、イメージエリアを所与の水平及び垂直拡張による複数の空間ブロックに分割してもよい。
各空間ブロックについて、マッピングは、このときピクセル値のカラー座標から生成された1以上のパラメータを有してもよい。シンプルな具体例として、各入力セットは、空間パラメータに加えて、単一のルミナンス値を有してもよい。従って、このケースでは、各入力セットは、2つの空間パラメータと1つのルミナンスパラメータとを有する3次元セットである。
可能な各種入力セットについて、マッピングは、出力深さ表示値を提供する。従って、マッピングは、具体例では、3次元入力データから単一の深さ表示(ピクセル)値へのマッピングであってもよい。
従って、当該マッピングは、適切な深さ表示値に対する空間及びカラー成分(ルミナンス専用成分を含む)に依存したマッピングを提供する。
マッピングプロセッサ211は、リファレンスイメージ及び対応するリファレンス深さ表示マップに応答して、マッピングを生成するよう構成される。従って、当該マッピングは、所定の又は固定的なマッピングでなく、リファレンスイメージ/深さマップに基づき自動的及びフレキシブルに生成/更新されてもよい。
リファレンスイメージ/マップは、具体的には、ビデオシーケンスからのイメージ/マップであってもよい。従って、当該マッピングは、ビデオシーケンスのイメージ/マップから動的に生成され、これにより、具体的なイメージ/マップに対するマッピングの自動的な適応化を提供する。
具体例として、マッピングは、符号化中の実際のイメージ及び対応する深さ表示マップに基づくものであってもよい。本例では、マッピングは、入力されるイメージと入力される深さ表示マップとの間の空間的及びカラー成分関係を反映するよう生成されてもよい。
具体例として、マッピングは、NX×NY×NIビン(入力セット)の3次元グリッドとして生成されてもよい。このようなグリッドアプローチは、3次元に適用される量子化の程度に関して大きなフレキシビリティを提供する。本例では、3次元(非空間次元)は、ルミナンス値に単に対応する強度パラメータである。以下の例では、深さ表示マップの予測は、マクロブロックレベルにおいて28の強度ビン(すなわち、8ビット値を用いて)実行される。高品位イメージについて、これは、グリッドが120×68×256ビンのサイズを有することを意味する。各ビン(bin)は、マッピングのための入力セットに対応する。
リファレンスイメージにおける強度Vとポジション(x,y)における各入力ピクセルとに対して、ポジション及び強度について一致したビンがまず特定される。
本例では、各ビンは、空間的な水平インターバル、空間的な垂直インターバル及び強度インターバルに対応する。一致するビン(すなわち、入力セット)は、最近傍補間を利用して決定されてもよい。
ただし、I
x,I
y,I
Iはそれぞれ水平、垂直及び強度方向におけるグリッド座標であり、s
x,s
y,s
Iはこれらの次元に沿ったグリッドの間隔(インターバルの長さ)であり、[]は最も近い整数の演算子を示す。
従って、本例では、マッピングプロセッサ211は、ピクセルのイメージポジションに対応する空間インターバルと、特定のポジションにおけるリファレンスイメージのピクセルの強度値に対応する強度値インターバルのインターバルとを有する一致する入力セット/ビンを決定する。
マッピングプロセッサ211は、その後、リファレンス深さ表示マップのポジションの深さ表示値に応答して、一致する入力セット/ビンの出力深さ表示位置を決定する。
具体的には、グリッドの構築中、深さ値Dとウェイト値Wとの双方が、考慮される新たな各ポジションについて更新される(ただし、DRは、リファレンス深さ表示マップにおける当該ポジションの深さ表示値を表す)。
リファレンスイメージ/マップのすべてのピクセルが評価された後、深さ表示値は、ビンに対して出力深さ表示値を生じさせるため、ウェイト値により正規化される。
B=D/W
ただし、各値のデータ値Bは、特定のビン/入力セットの入力強度とポジションに対応する出力深さ表示ピクセル値とを含む。従って、グリッド内のポジションは、リファレンスイメージにより決定され、グリッドに格納されるデータは、リファレンス深さ表示マップに対応する。従って、マッピング入力セットは、リファレンスイメージから決定され、マッピング出力データは、リファレンス深さ表示マップから決定される。具体例では、格納されている出力深さ表示値は、入力セット/ビン内に属するピクセルの深さ表示値の平均であるが、他の実施例では、他のアプローチと、特により進んだアプローチとが利用されてもよい。
本例では、マッピングは、リファレンスイメージと深さ表示マップとの間の空間及びピクセル値関係に対して深さを反映させるため、自動的に生成される。これは、リファレンスが符号化されるイメージ及び深さ表示マップと密接に相関されているとき、イメージからの深さ表示マップの予測に特に有用である。これは、特にリファレンスが実際に符号化されているものと同一のイメージ及びマップである場合に当てはまるかもしれない。この場合、入力イメージと深さ表示マップとの間に具体的な関係に自動的に適応化するマッピングが生成される。従って、イメージと深さ表示マップとの間の関係は、典型的には予め知ることができない一方、説明されるアプローチは、何れかの事前の情報なしに関係に自動的に適応化する。これは、入力された深さ表示マップに対してより少ない差分を生じさせる正確な予測を可能にし、より効率的に符号化可能な残差イメージを生じさせる。
符号化される入力イメージ/マップがマッピングを生成するため直接利用される実施例では、これらのリファレンスは、一般にはデコーダエンドでは利用可能でない。従って、デコーダは、自らマッピングを生成することはできない。従って、いくつかの実施例では、エンコーダはさらに、出力符号化ストリームにおけるマッピングの少なくとも一部を特徴付けするデータを含むよう構成されてもよい。例えば、固定的及び所定の入力セットインターバル(すなわち、固定的なビン)が利用されるシナリオでは、エンコーダは、任意的なレイヤの一部として、出力符号化ストリームにすべてのビン出力値を含むものであってもよい。これはデータレートを増大させるかもしれないが、グリッドを生成する際に実行されるサブサンプリングのため相対的に低いオーバヘッドとなる可能性がある。従って、正確かつ適応的な予測アプローチを利用することから得られるデータ低減は、マッピングデータの通信から生じるデータレートの増加を上回る可能性が高い。
予測深さ表示マップを生成する際、予測手段209は、1回に復号化されたイメージの1つのピクセルを処理してもよい。各ピクセルについて、イメージのピクセルの空間ポジション及び強度値が、マッピングについて特定の入力セット/ビンを特定するのに利用される。従って、各ピクセルについて、当該ピクセルの空間ポジション及びイメージ値に基づきビンが選択される。当該入力セット/ビンの出力される深さ表示値がその後に抽出され、いくつかの実施例では、ピクセルの深さ表示値として直接利用されてもよい。しかしながら、これはマッピングの空間サブサンプリングのためあるブロックノイズ提供する傾向があるため、多くの実施例では、深さ表示値は、複数の入力ビンからの出力深さ表示値の間の補間により生成される。例えば、近傍のビン(空間方向と非空間方向の双方において)からの値がまた抽出されてもよく、深さ表示ピクセル値がこれらの補間として生成されてもよい。
具体的には、予測深さ表示マップは、空間座標とイメージとにより決定される部分ポジションにおけるグリッドのスライシングにより構成可能である。
BD=Fint(B(x/sx,y/sy,I/sI))
ただし、Fintは、最近傍又はバイキュービック補間などの適切な補間演算子を示す。
多くのシナリオでは、イメージは複数のカラーコンポーネント(RGB又はYUVなど)により表現されてもよい。
図4,5において、マッピングの生成例が提供される。本例では、イメージ深さマッピング関係は、イメージと深さトレーニングリファレンスとを用いて確定され、マッピングテーブルのポジションは、イメージにおける水平(x)及び垂直(y)ピクセルポジションと共に、図4の例のルミナンス(Y)及び図5の例におけるエントロピー(E)などのイメージピクセル値の組み合わせにより決定される。上述されたように、マッピングテーブルは、指定された位置における関連する深さ表示トレーニングデータを格納する。
従って、エンコーダ115は、符号化イメージを有する符号化信号を生成する。当該イメージは、具体的には、符号化ビットストリームの必須の又はベースレイヤに含まれてもよい。さらに、符号化イメージに基づくデコーダにおける深さイメージの効率的な生成を可能にするデータが含まれる。
いくつかの実施例では、このようなデータは、デコーダにより利用可能なマッピングデータを含むか、又はその形式をとるものであってもよい。しかしながら、他の実施例では、イメージの一部又はすべてについてこのようなマッピングデータが含まれない。その代わりに、デコーダは自ら以前のイメージからマッピングデータを生成してもよい。
生成された符号化信号はさらに、残差イメージデータがイメージに対応する所望される深さ表示マップと、復号化されたイメージへのマッピングの適用から生じる予測深さ表示マップとの間の差分を示す深さ表示マップの残差深さ表示データを有してもよい。所望される深さ表示マップは、具体的には、入力深さ表示マップであり、残差深さデータは、所望される深さ表示マップにより密接に対応するように、すなわち、対応する入力深さ表示マップに対応するように、デコーダにより生成された深さ表示マップを修正可能なデータを表す。
さらなる残差深さデータは、多くの実施例において、適切に装備されたデコーダによって利用され、要求される機能を有さない従来のデコーダによって無視されてもよい任意的なレイヤ(エンハンスメントレイヤなど)に効果的に含まれてもよい。
当該アプローチは、例えば、説明されたマッピングに基づく予測が新たな後方互換的なビデオフォーマットに統合されることを可能にするあってもよい。例えば、双方のレイヤが、従来のデータ変換(ウェーブレット、DCTなど)と後続する量子化との処理を利用して符号化されてもよい。イントラ及び動き補償されたフレーム間予測は、符号化効率を向上させることが可能である。このようなアプローチでは、イメージから深さへのレイヤ間予測は、その他の予測を想定し、さらにエンハンスメントレイヤの符号化効率を向上させる。
信号は、具体的には、図1の具体例のようなネットワークなどを介し配信又は通信されるビットストリームであってもよい。いくつかのシナリオでは、信号は、磁気/光ディスクなどの適切な記憶媒体に格納されてもよい。例えば、信号は、DVD又はBlurayTMディスクに格納されてもよい。
上述した具体例では、マッピングの情報は出力ビットストリームに含まれ、これにより、デコーダが受信したイメージに基づき予測を再生することを可能にする。当該及び他のケースでは、マッピングのサブサンプリングを利用することが特に効果的であるかもしれない。
実際、空間サブサンプリングは、各ピクセルについて別の出力深さ値が格納されず、ピクセルのグループについて、特にピクセルの領域について格納されるように、効果的に利用されてもよい。具体例では、別の出力値が各マクロブロックについて格納される。
あるいは、又はさらに、入力非空間次元のサブサンプリングが利用されてもよい。具体例では、各入力セットは、イメージにおける複数の可能な強度値をカバーしてもよく、これにより、可能なビンの個数を減少させることができる。このようなサブサンプリングは、マッピングの生成前により粗い量子化を適用することに対応するものであってもよい。
このような空間又は値サブサンプリングは、マッピングを通信するのに要求されるデータレートを有意に低減するものであってもよい。しかしながら、さらに又はあるいは、それは、エンコーダ(及び対応するデコーダ)のリソース要求を有意に低減するものであってもよい。例えば、それは、マッピングを格納するのに要求されるメモリリソースを有意に低減するものであってもよい。それはまた、多くの実施例では、マッピングを生成するのに要求される処理リソースを低減するものであってもよい。
本例では、マッピングの生成は、現在のイメージ及び深さ表示マップ、すなわち、符号化されるイメージ及び対応する深さ表示マップに基づくものであった。しかしながら、他の実施例では、マッピングは、リファレンスイメージとしてビデオシーケンスの以前のイメージと、リファレンス深さ表示マップとして以前のイメージビデオシーケンスについて生成された以前の深さ表示マップ(又は、いくつかのケースでは、対応する以前の入力深さ表示マップ)とを用いて生成されてもよい。従って、いくつかの実施例では、現在のイメージについて利用されるマッピングは、以前の対応するイメージ及び深さ表示マップに基づくものであってもよい。
一例として、ビデオシーケンスは、同一シーンのイメージのシーケンスを有してもよく、このため、連続するイメージの間の差分は小さくなる可能性がある。従って、1つのイメージについて適したマッピングは、以降のイメージについても適したものになる可能性が高い。従って、リファレンスとして以前のイメージ及び深さ表示マップを用いて生成されたマッピングは、現在のイメージにも適用可能である可能性が高い。以前のイメージに基づき現在のイメージについてマッピングを利用する効果は、マッピングが以前のイメージが利用可能になるとき(これらの復号化を介し)、マッピングがデコーダにより独立に生成可能であるということである。従って、マッピングに関する情報は含まれる必要はなく、符号化された出力ストリームのデータレートはさらに低減可能である。
図6において、このようなアプローチを利用したエンコーダの具体例が示される。本例では、マッピング(具体例では、ルックアップテーブルLUTである)は、エンコーダとデコーダとの双方において以前に(遅延τ)再構成されたイメージ及び以前に(遅延τ)再構成された深さ表示マップとに基づき構成される。このシナリオでは、マッピング値はエンコーダからデコーダに送信される必要はない。むしろ、デコーダは単に、すでに利用可能なデータを用いて深さ表示マップの予測処理をコピーする。レイヤ間予測の品質は若干低下するが、これは、典型的には、ビデオシーケンスの以降のフレームの間の高い時間相関のため軽微なものである。本例では、yuv420カラー方式がイメージについて利用され、yuv444/422カラー方式がマッピングについて利用され、この結果、LUT(マッピング)の生成及び適用は、カラーアップ変換に続く。
イメージ及び深さ表示マップが可能な限り類似する確率を増加させるため、遅延τを可能な限り小さく維持することが好ましい。しかしながら、多くの実施例において、最小値は、デコーダがすでに復号化されたピクチャからマッピングを生成可能であることを要求するため、利用される具体的な符号化構成に依存してもよい。従って、最適な遅延は、利用されるGOP(Group Of Picture)のタイプと、具体的には利用される時間予測(動き補償)とに依存してもよい。例えば、IPPPP GOPについて、τは単一のイメージ遅延とすることが可能であり、IBPBP GOPからそれは、少なくとも2つのイメージとなる。
本例では、イメージの各ポジションは、グリッドの1つのみの入力セット/ビンに寄与した。しかしながら、他の実施例では、マッピングプロセッサは、マッピングを生成するのに利用されるイメージポジションの少なくとも1つのグループの少なくとも1つのポジションについて、複数の一致する入力セットを特定してもよい。一致したすべての入力セットの出力深さ表示値が、このときリファレンス深さ表示マップの当該ポジションの深さ表示値に応答して決定されてもよい。
具体的には、最近傍補間を利用してグリッドを構築するより、個々のデータがまた単一のベストな一致するビンでなく近傍のビンに拡散可能である。この場合、各ピクセルは、単一のビンに寄与せず、例えば、それのすべての近傍ビン(3Dグリッドのケースでは8つ)などに寄与する。当該寄与は、例えば、ピクセルと近傍ビンの中心との間の3次元距離に反比例などしてもよい。
図7は、図2のエンコーダに相補的なデコーダ115の一例を示し、図8は、そのための動作方法の一例を示す。
デコーダ115は、受信機113から符号化データを受信するステップ801を実行する受信回路701を有する。イメージ符号化データ及び残差深さデータが異なるレイヤで符号化される具体例では、受信回路は、イメージ符号化データと任意的なレイヤデータとを残差深さ表示マップデータの形式により抽出及び逆多重化するよう構成される。マッピングに関する情報が受信ビットストリームに含まれる実施例では、受信回路701はさらに当該データを抽出してもよい。
受信回路701は、符号化イメージデータを受信するイメージデコーダ703に接続される。それはその後、イメージが復号化されるステップ803を実行する。イメージデコーダ703は、エンコーダ109のイメージエンコーダ205に相補的であり、具体的にはH−264/AVC規格のデコーダであってもよい。
イメージデコーダ703は、復号化されたイメージを受信する復号化予測手段705に接続される。復号化予測手段705はさらに、復号化予測手段705についてマッピングが生成されるステップ805を実行するよう構成される復号化マッピングプロセッサ707に接続される。
復号化マッピングプロセッサ707は、残差深さデータを生成する際に、エンコーダより利用されるものに対応するようマッピングを生成する。いくつかの実施例では、復号化マッピングプロセッサ707は単に、符号化データストリームにおいて受信されたマッピングデータに応答して、マッピングを生成してもよい。例えば、グリッドの各ビンの出力データ値は、受信した符号化データストリームにおいて提供されてもよい。
その後、復号化予測手段705は、復号化されたイメージと復号化マッピングプロセッサ707により生成されたマッピングとから、予測深さ表示マップが生成されるステップ807を実行する。当該予測は、エンコーダに利用されるものと同じアプローチに従うものであってもよい。
簡単化のため、本例は、エンコーダがイメージ深さ予測のみに基づき、従って、イメージ深さ表示マップ予測全体(及び残差深さマップ全体)が生成される簡単化された具体例に着目する。しかしながら、他の実施例では、当該アプローチは、時間又は空間予測などの他の予測アプローチと共に利用されてもよいことが理解されるであろう。特に、イメージ全体に説明されたアプローチを適用するのでなく、イメージ深さ予測がエンコーダにより選択された個々のイメージ領域又はブロックのみに適用されてもよいことが理解されるであろう。
図9は、予測処理がどのように実行されるかの具体例を示す。
ステップ901において、深さ表示マップイメージにおける第1ピクセルポジションが選択される。当該ピクセルポジションについて、マッピングのための入力セットがその後にステップ903において決定され、すなわち、グリッドの適した入力ビンが決定される。これは、例えば、当該ポジションが属する空間インターバルと、復号化イメージの復号化ピクセル値が属する強度インターバルとをカバーするグリッドを特定することによって決定されてもよい。その後、ステップ903は、入力セットの出力深さ値がマッピングから抽出されるステップ905に続く。例えば、LUTは、決定された入力セットデータを用いてアドレス指定されてもよく、当該アドレッシングのために格納される結果として得られた出力データが抽出される。
ステップ905はその後に、ピクセルの深さ値が抽出された出力から決定されるステップ907に続く。シンプルな具体例として、深さ値は、抽出された深さ表示値に設定されてもよい。より複雑な実施例では、ピクセルの深さ値は、異なる入力セットについて複数の出力深さ値の補間により生成されてもよい(例えば、すべての近傍ビンと共に、一致するビンなどを考慮して)。
当該処理は、深さ表示マップのすべてのポジションについて繰り返されてもよく、これにより、予測深さ表示マップが生成されることになる。
デコーダ115は、その後に予測深さ表示マップに基づき出力深さ表示マップを生成する。
具体例では、出力深さ表示マップは、受信した残差深さ表示データを考慮することによって生成される。従って、受信回路701は、残差深さ表示データを受信し、残差深さ表示データが復号化残差イメージを生成するため復号化されるステップ809を実行する残差デコーダ709に接続される。
残差デコーダ709は、復号化予測手段705にさらに接続される合成手段711に接続される。合成手段711は、予測深さ表示マップと復号化された残差深さ表示マップとを受信し、これら2つのマップを合成して出力深さ表示マップを生成するステップ811を実行する。具体的には、合成手段は、出力深さ表示マップを生成するため、ピクセル単位で2つのイメージの深さ値を加算してもよい。
合成手段711は、出力信号が生成されるステップ813を実行する出力回路713に接続される。出力信号は、例えば、イメージを提示するため、又はイメージ及び深さ表示マップに基づき他のイメージを生成するため、テレビなどの適切なディスプレイを駆動可能なディスプレイ駆動信号であってもよい。例えば、異なる視点に対応するイメージが生成されてもよい。
具体例では、マッピングは、符号化データストリームに含まれるデータに基づき決定された。しかしながら、他の実施例では、マッピングは、ビデオシーケンスの以前のイメージ及び深さ表示マップなど、デコーダにより受信された以前のイメージ/マップに応答して生成されてもよい。この以前のイメージについて、デコーダは、イメージ復号化から生じた復号化イメージを有し、これがリファレンスイメージとして利用されてもよい。さらに、深さ表示マップが、予測とこれに続く残差深さ表示マップを用いた予測深さ表示マップのさらなる訂正によって生成されている。従って、生成された深さ表示マップは、エンコーダの入力深さ表示マップに密接に対応し、リファレンス深さ表示マップとして利用されてもよい。これら2つのリファレンスイメージに基づき、エンコーダにより利用されるものと正確に同一のアプローチが、デコーダによるマッピングを生成するのに利用されてもよい。従って、当該マッピングは、エンコーダにより利用されているものに対応し、同一の予測を生じさせる(及び残差深さ表示データは、デコーダにより予測深さ表示マップとエンコーダにおける入力深さ表示マップとの間の差分を正確に反映する)。
従って、当該アプローチは、標準的なイメージ符号化から始まる後方互換的な深さ符号化を提供する。
当該アプローチは、要求された残差深さ情報が低減されるように、利用可能なイメージデータからの深さ表示マップの予測を利用する。
当該アプローチは、イメージ/シーンの詳細を自動的に考慮して、異なるイメージ値から深さ値へのマッピングの改良された特徴付けを利用する。
説明されるアプローチは、具体的なローカルな特性に対するマッピングの特に効率的な適応化を提供し、多くのシナリオでは、特に正確な予測を提供するものであってもよい。これは、イメージYのルミナンスと対応する深さ表示マップの深さDとの間の関係を示す図10の具体例により示されてもよい。図10は、異なる3つのオブジェクトの要素をたまたま含む具体的なマクロブロックの関係を示す。この結果、ピクセルルミナンスと深さとの間の関係(破線により示される)は、異なる3つのクラスタ1001,1003,1005に配置される。
直接的な適用は、当該関係に対して線形回帰を単に実行し、これにより、ルミナンス値と、ライン1007により示されるものなどの深さ値との間の線形関係を生成する。しかしながら、このようなアプローチは、クラスタ1003のイメージオブジェクトに属するものなど、少なくとも一部の値について相対的に不良なマッピング/予測を提供する。
他方、上述されたアプローチは、ライン1009により示されるものなど、はるかに正確なマッピングを生成する。このマッピングは、クラスタのすべてに適したマッピングと特性とをより正確に反映し、クラスタに対応するルミナンスのための正確な結果を提供するだけでなく、1011により示されるインターバルなど、ルミナンスの関係を正確に予測することが可能である。このようなマッピングは、補間により取得可能である。
さらに、このような正確なマッピング情報は、リファレンスイメージ/マップに基づく(及び具体的なケースでは、2つのリファレンスマクロブロックに基づく)シンプルな処理によって自動的に決定できる。さらに、正確なマッピングは、以前のイメージに基づきエンコーダ及びデコーダにより独立に決定可能であり、マッピングの情報は、データストリームに含まれる必要はない。従って、マッピングのオーバヘッドが最小限にされる。
以前の具体例では、アプローチは、イメージ及び深さ表示マップについてデコーダの一部として利用された。しかしながら、その原理は他の多数の適用及びシナリオにおいて利用可能であることが理解されるであろう。例えば、アプローチは、イメージから深さ表示マップを単に生成するのに利用されてもよい。例えば、適切なローカルリファレンスイメージ及び深さ表示マップが、ローカルに選択され、適したマッピングを生成するのに利用されてもよい。その後、当該マッピングは、深さ表示マップを生成するため(例えば、補間などを利用して)イメージに適用されてもよい。結果として得られる深さ表示マップは、このとき変更された視点などによりイメージを再生するのに利用されてもよい。
また、いくつかの実施例では、デコーダは残差データを考慮しなくてもよいこと(及びエンコーダが残差データを生成する必要がないこと)が理解されるであろう。実際、多くの実施例では、復号化イメージにマッピングを適用することにより生成される深さ表示マップは、さらなる修正又はエンハンスメントを要求することなく、出力深さ表示マップとして直接利用されてもよい。
説明されたアプローチは、異なる多くの用途及びシナリオにおいて利用されてもよく、例えば、イメージビデオ信号からリアルタイム深さ表示マップ信号を動的に生成するのに利用されてもよい。例えば、デコーダ115は、ビデオ信号を受信する入力コネクタと、関連する深さ表示マップ信号と共にビデオ信号を出力する出力コネクタとを有するセットトップボックス又は他の装置により実現されてもよい。
具体例として、説明されるビデオ信号は、BlurayTMプレーヤーにより読まれるBlurayTMディスクに格納されてもよい。BlurayTMプレーヤーは、HDMI(登録商標)ケーブルを介しセットトップボックスに接続され、このときセットトップボックスは、深さ表示マップを生成してもよい。セットトップボックスは、他のHDMI(登録商標)コネクタを介しディスプレイ(テレビなど)に接続されてもよい。
いくつかのシナリオでは、デコーダ又は深さ表示マップ生成機能は、BlurayTMプレーヤー又は他のメディアプレーヤーなどの信号ソースの一部として含まれてもよい。他の例として、当該機能は、コンピュータモニタやテレビなどのディスプレイの一部として実現されてもよい。従って、ディスプレイは、ローカルに生成された深さ表示マップに基づき異なるイメージを提供するよう修正可能なイメージストリームを受信してもよい。従って、有意に向上したユーザ体感を提供するメディアプレーヤーなどの信号ソース、又はコンピュータモニタやテレビなどのディスプレイが提供可能である。
上述された具体例では、マッピングの入力データは、2つの空間次元と、ピクセルのルミナンス値又はカラーチャネル強度値などに対応する強度を表す単一のピクセル値次元とから単に構成された。
しかしながら、より一般には、マッピング入力はイメージのピクセルのカラー座標の組み合わせを有してもよい。各カラー座標は、RGB信号のR,G,B値の1つ又はYUV信号のY,U,V値の1つなど、ピクセルの1つの値に単に対応するものであってもよい。いくつかの実施例では、当該組み合わせは、カラー座標値の1つの選択に単に対応するものであってもよく、すなわち、それは、選択されたカラー座標値とは別のすべてのカラー座標がゼロのウェイトにより重み付けされる組み合わせに対応するものであってもよい。
他の実施例では、当該組み合わせは、単一のピクセルの複数のカラー座標を有してもよい。具体的には、RGB信号のカラー座標は、ルミナンス値を生成するため単に合成されてもよい。他の実施例では、例えば、すべてのカラーチャネルが考慮されるが、グリッドが構成されるカラーチャネルがその他のカラーチャネルより高く重み付けされる重み付けされたルミナンス値など、よりフレキシブルなアプローチが利用されてもよい。
いくつかの実施例では、当該組み合わせは、複数のピクセルポジションについてピクセル値を考慮してもよい。例えば、処理されるポジションのピクセルのルミナンスだけでなく、他のピクセルのルミナンスもまた考慮する単一のルミナンス値が生成されてもよい。
特定のピクセルの特性を反映するだけでなく、ピクセルのロカリティの特性及び当該特性がピクセルの周囲でどのように変換するかを反映する合成値が生成されてもよい。
一例として、ルミナンス又はカラー強度勾配コンポーネントが当該組み合わせに含まれてもよい。例えば、合成値は、現在ピクセル値のルミナンスと周囲の各ピクセルのルミナンスとの間の差分を考慮して生成されてもよい。さらに、周囲のピクセルの周囲のピクセル(すなわち、次の同心円のレイヤ)に対するルミナンスとの差分が決定されてもよい。その後、当該差分は、加重和を用いて合計されてもよい。ここで、ウェイトは現在ピクセルに対する距離に依存する。ウェイトはさらに、例えば、反対の符号を反対方向の差分に適用するなどによって、空間方向に依存してもよい。このような合成された差分に基づく値は、特定のピクセルの周囲の可能なルミナンス勾配を示すと考えられてもよい。
従って、このような空間エンハンスされたマッピングを適用することは、空間的な変位を考慮するため、イメージから生成された深さ表示マップを可能にし、これにより、このような空間変位をより正確に反映することを可能にする。
他の例として、合成値は、現在ピクセルの位置を含むイメージエリアのテクスチャ特性を反映するよう生成されてもよい。このような合成値は、例えば、小さな周囲のエリアにおけるピクセル値の分散を決定するなどによって生成されてもよい。他の例として、繰り返しパターンが検出され、合成値を決定する際に考慮されてもよい。
実際、多くの実施例では、合成値が現在ピクセルの値を周囲のピクセル値の変化の表示を反映することが効果的である可能性がある。例えば、分散が直接決定され、入力値として利用されてもよい。
他の例として、当該合成は、ローカルエントロピー値などのパラメータであってもよい。エントロピーは、入力イメージのテクスチャを特徴付けするのに利用可能な統計的なランダム性の指標である(この例とは別に、別々に又は集約したマッピング/ルックアップテーブルに関係なく予測に寄与しうる近傍エッジ及びコーナー指標(ローカルポイント又はピクセル領域がギザギザのエッジの左にあることを示すなど、現在位置からの(粗な)方向及び距離に基づくさらなるコード化を有してもよい)の概略化など、他のテクスチャ又はオブジェクト識別指標が利用されてもよい)。エントロピー値Hは、例えば、
として計算されてもよい。ただし、p()はイメージIにおけるピクセル値I
jに対する確率密度関数を表す。当該関数は、考慮される近傍に対するローカルなヒストグラムを構成することによって推定可能である(上記の例では、n個の近傍ピクセル)。対数の基底bは、典型的には、2に設定される。
合成値が複数の個々のピクセル値から生成される実施例では、各空間入力セットについてグリッドにおいて利用される可能な合成値の個数は、各ピクセルのピクセル値の量子化レベルの合計よりおそらく大きくなってもよいことが理解されるであろう。例えば、特定の空間ポジションのビンの個数は、ピクセルが取得可能な可能な個々のルミナンス値の個数を超えてもよい。しかしながら、個々の合成値の正確な量子化と、グリッドのサイズは、具体的な適用について最も良く最適化される。
他の各種特徴、パラメータ及び特性に応答して、イメージからの深さ表示マップの生成が可能であることが理解されるであろう。
例えば、エンコーダ及び/又はデコーダは、イメージオブジェクトを抽出し、おそらく特定する機能を有し、当該オブジェクトの特性に応答してマッピングを調整してもよい。例えば、イメージにおける顔の検出のための各種アルゴリズムが知られており、当該アルゴリズムが、人間の顔に相当すると考えられるエリアにおいてマッピングを適応化するのに利用されてもよい。考慮可能な他の特徴の具体例は、鮮明さ、コントラスト及びカラーサチュレーションの指標を含む。これらすべての特徴は、一般に深さの増加により減少し、深さに大変良好に相関する傾向がある。
従って、いくつかの実施例では、エンコーダ及び/又はデコーダは、イメージオブジェクトを検出する手段と、イメージオブジェクトのイメージ特性に応答してマッピングを適応化する手段とを有してもよい。特に、エンコーダ及び/又はデコーダは、顔検出を実行する手段と、顔検出に応答してマッピングを適応化する手段とを有してもよい(これは、例えば、LUTにおけるピクチャルミナンス範囲を超える“顔ルミナンス”の範囲を加えるなどによって実現可能であり、これらのリミナンスは、他の意味を取得する顔検出により、ピクチャの何れかにおいて行われてもよい)。例えば、具体的なイメージでは、顔は背景のオブジェクトより前景のオブジェクトになる可能性が高いことが仮定されてもよい。
マッピングは多くの異なる方法により適応化されてもよいことが理解されるであろう。低コンプレクシティの具体例として、異なるグリッド又はルックアップテーブルが異なるエリアについて単に利用されてもよいことが理解されるであろう。従って、エンコーダ/デコーダは、イメージオブジェクトのイメージ特性に応答して異なるマッピングの間で選択するよう構成されてもよい。
マッピングを適応化する他の手段が想定できる。例えば、いくつかの実施例では、入力データセットは、マッピングの前に処理されてもよい。例えば、放物線関数が、テーブルルックアップの前にカラー値に適用されてもよい。このような前処理は、おそらくすべての入力値に適用されてもよいし、あるいは、選択的に適用されてもよい。例えば、入力値は、あるエリア又はイメージオブジェクトについてのみ又はある値のインターバルについてのみ適用されてもよい。例えば、前処理は、肌の色合いのインターバルに属するカラー値のみに、及び/又は顔に相当する可能性が高いと指定されたエリアにのみ適用されてもよい。このようなアプローチは、人間の顔のより正確なモデル化を可能にする。
あるいは、又はさらに、出力深さ値の後処理が適用されてもよい。このような後処理は、同様に全体的に適用されてもよいし、あるいは、選択的に適用されてもよい。例えば、それは、肌の色合いに対応する出力値にのみ適用されてもよいし、あるいは、顔に対応するエリアにのみ適用されてもよい。いくつかのシステムでは、後処理は、前処理を部分的又は全体的に補償するよう構成されてもよい。例えば、前処理は、逆変換を適用する後処理と共に変換処理を適用してもよい。
具体例として、前処理及び/又は後処理は、入出力値の(1以上の)フィルタリングを有してもよい。これは、多くの実施例において、パフォーマンスの向上を提供し、特にマッピングは、しばしば予測を向上させる。例えば、フィルタリングは、深さ領域における帯域の低減をもたらす。
いくつかの実施例では、マッピングは、非一様にサブサンプリングされてもよい。マッピングは、具体的には、空間的に非一様にサブサンプリングされたマッピング、時間的に非一様にサブサンプリングされたマッピング及び合成値の非一様なサブサンプリングされたマッピングの少なくとも1つであってもよい。
非一様なサブサンプリングは、静的な非一様なサブサンプリングであってもよいし、あるいは、カラー座標又はイメージ特性の合成の特性などに応答して適応化されてもよい。
例えば、カラー値サブサンプリングは、カラー座標値に依存してもよい。これは、例えば、肌の色合いに対応するカラー値のビンが他のカラーをカバーするカラー値よりはるかに小さなカラー座標値のインターバルしかカバーしないように、静的なものであってもよい。
他の例として、顔に対応すると考えられないエリアに対してより、顔に対応すると考えられるエリアのより詳細なサブサンプリングが利用される動的な空間サブサンプリングが適用されてもよい。他の多くの非一様サブサンプリングアプローチが利用可能であることが理解されるであろう。
上述した具体例では、3次元マッピング/グリッドが利用された。しかしながら、他の実施例では、N次元グリッドが利用されてもよい。ここで、Nは3より大きな整数である。特に、2つの空間次元が複数のピクセル値に関連する次元により補間されてもよい。
従って、いくつかの実施例では、当該合成は、各次元の値を有する複数次元を有してもよい。シンプルな具体例として、グリッドは、2つの空間次元と各カラーチャネルの1つの次元とを有するグリッドとして生成されてもよい。例えば、RGBイメージについて、各ビンは、水平方向のポジションインターバル、垂直方向のポジションインターバル、R値インターバル、G値インターバル及びB値インターバルにより規定されてもよい。
他の例として、複数のピクセル値次元がさらに、又は代わりに異なる空間次元に対応してもよい。例えば、現在ピクセルのルミナンスと周囲の各ピクセルとに次元が割り当てられてもよい。
このような多次元グリッドは、予測の向上を可能し、特に深さ表示マップがピクセル間の相対的な相違をより密接に反映することを可能にするさらなる情報を提供するようにしてもよい。
いくつかの実施例では、エンコーダは、予測に応答して処理を適応化するよう構成されてもよい。
例えば、エンコーダは、上述されたような予測深さ表示マップを生成し、その後、これと入力された深さ表示マップとを比較してもよい。これは、例えば、残差深さ表示マップを生成し、当該マップを評価することなどによって実行されてもよい。その後、エンコーダは、当該評価に応じて処理を適応化し、特に当該評価に応じてマッピング及び/又は残差深さ表示マップを適応化してもよい。
具体例として、エンコーダは、マッピングの何れの部分が評価に基づき符号化データストリームに含まれるべきか選択するよう構成されてもよい。例えば、エンコーダは、以前のイメージ/マップセットを利用して、現在イメージのマッピングを生成してもよい。当該マッピングに基づく対応する予測が決定され、対応する残差深さ表示マップが生成されてもよい。このとき、エンコーダは、予測が十分正確であると考えられるエリアと、予測が十分正確でないと考えられるエリアとを特定するため、残差深さ表示マップを評価してもよい。例えば、残差深さ表示マップ値が所与の所定の閾値より小さいすべてのピクセルが、十分正確に予測されるとみなされてもよい。従って、このようなエリアのマッピング値は、十分正確であると考えられ、これらの値のグリッド値はデコーダにより直接利用可能である。従って、十分正確に予測されると考えられるピクセルのみを範囲とする入力セット/ビンについて、マッピングデータは含まれない。
しかしながら、十分正確に予測されないピクセルに対応するビンについて、エンコーダは、リファレンスとして現在のイメージ/マップセットを利用することに基づき、新たなマッピング値を生成してもよい。当該マッピング情報がデコーダにより再生成可能でないとき、それは符号化データに含まれる。従って、当該アプローチは、以前のイメージ/マップを反映するデータビンと、現在のイメージ/マップを反映するデータビンとから構成されるように、マッピングを動的に適応化するのに利用されてもよい。従って、マッピングは、許容されるときには以前のイメージ/マップと、必要であるときには現在のイメージ/マップとに基づくよう自動的に適応化される。現在のイメージ/マップに基づき生成されたビンのみが符号化出力ストリームに含まれればよいため、通信されたマッピング情報の自動的な適応化が実現される。
従って、いくつかの実施例では、例えば、エンコーダがこれらの領域についてそれを検出可能であるため、イメージのいくつかの領域についてより良好な(デコーダ側で構成されない)イメージ深さマッピングを送信することが所望されてもよく、重要なオブジェクトの変化のため、又はオブジェクトが実際には重要であるため(顔など)、深さ表示マップ予測は十分良好でない。
いくつかの実施例では、同様のアプローチが、代わりに又はさらに、残差深さ表示マップについて利用されてもよい。低コンプレクシティの例として、通信される残差深さ表示データのデータ量が、入力された深さ表示マップと予測深さ表示マップとの比較に応答して調整されてもよい。具体例として、エンコーダは、残差深さ表示マップの情報がどの程度有意であるか評価してもよい。例えば、残差深さ表示マップの値の平均値が所与の閾値未満である場合、これは、予測されたイメージが入力された深さ表示マップに近いことを示す。従って、エンコーダは、このような考慮に基づき符号化出力ストリームに残差深さ表示マップを含むべきか選択してもよい。例えば、残差深さ値の平均値が閾値を下回る場合、残差イメージの符号化データは含まれず、閾値を上回る場合、残差深さ表示マップの符号化データが含まれる。
いくつかの実施例では、深さ表示値の平均値が閾値を上回るエリアについて残差深さ表示データが含まれるが、深さ表示値の平均値が閾値を下回るエリアについては残差深さ表示データが含まれないより微妙な選択が適用されてもよい。当該イメージエリアは、例えば、固定サイズを有してもよいし、あるいは、動的に決定されてもよい(セグメント化処理などにより)。
いくつかの実施例では、エンコーダはさらに、所望の効果を提供するためマッピングを生成してもよい。例えば、いくつかの実施例では、マッピングは、最も正確な予測を提供するため生成されるのでなく、代わりに又はさらに所望の効果を提供するため生成されてもよい。例えば、予測がまたイメージの再生が知覚されるより大きな深さを生じさせるような深さエンハンスメント効果を提供するように生成されてもよい(すなわち、前景オブジェクトと背景オブジェクトとの間のより大きな知覚される距離)。このような所望の効果は、例えば、イメージの異なるエリアにおいて異なって適用されてもよい。例えば、イメージオブジェクトが特定され、マッピングを生成するための異なるアプローチが異なるエリアに利用されてもよい。特に、イメージオブジェクトに対応するエリアは、ピクチャにおいてさらに前に又は後に移動されてもよい。
実際、いくつかの実施例では、エンコーダは、イメージ特性に応答して、特にローカルなイメージ特性に応答して、マッピングを生成するための異なるアプローチ間で選択するよう構成されてもよい。
具体例では、マッピングは、イメージセットと深さ表示マップとに基づくマッピングの適応的生成に基づくものであった。特に、マッピングは、マッピング情報が符号化データストリームに含まれることを要求しないとき、以前のイメージ及び深さ表示マップに基づき生成されてもよい。しかしながら、一部のケースでは、これは、例えば、シーン変更などに適しておらず、以前のイメージと現在のイメージとの間の相関があまり高くない可能性がある。この場合、エンコーダは、符号化出力データにマッピングを含めるようスイッチしてもよい。例えば、エンコーダは、シーン変更が生じたことを検出し、現在のイメージ及び深さ表示マップに基づきシーン変更の直後にイメージのマッピングを生成してもよい。生成されたマッピングデータは、その後に符号化出力ストリームに含まれる。デコーダは、このケースにおいて利用される受信した符号化ビットストリームに明示的なマッピングデータが含まれるときを除き、以前のイメージ/マップに基づきマッピングを生成してもよい。
いくつかの実施例では、デコーダは、ビデオシーケンスの少なくとも一部のイメージについてリファレンスマッピングを利用してもよい。リファレンスマッピングは、ビデオシーケンスのイメージ及び深さ表示マップセットに応答して、動的には決定されないマッピングであってもよい。リファレンスマッピングは、所定のマッピングであってもよい。
例えば、エンコーダとデコーダは共に、イメージから深さ表示マップを生成するのに利用可能な所定のデフォルトマッピングの情報を有してもよい。従って、動的な適応的マッピングが以前のイメージから生成される実施例では、所定のデフォルトマッピングは、当該所定のマッピングが現在のイメージを正確に反映したものでない可能性があるときに利用されてもよい。例えば、シーン変更の後、リファレンスマッピングが最初のイメージに利用されてもよい。
このような場合、エンコーダは、シーン変更が行われたことを検出し(例えば、連続するイメージの間のピクセル値の差分のシンプルな比較などにより)、その後、リファレンスマッピングが予測のため利用されるべきであることを示すリファレンスマッピング指示を符号化出力ストリームに含めてもよい。リファレンスマッピングは予測深さ表示マップの精度を低下させる可能性がある。しかしながら、同一のリファレンスマッピングがエンコーダとデコーダとの双方により利用されるとき、これは、残差深さ表示マップの値(及びデータレート)を増加させるだけである。
いくつかの実施例では、エンコーダとデコーダとは、複数のリファレンスマッピングから1つのリファレンスマッピングを選択することが可能であってもよい。従って、1つのリファレンスマッピングのみを利用するのでなく、システムは、複数の所定のマッピングのデータを共有してもよい。このような実施例では、エンコーダは、予測深さ表示マップを生成し、対応する残差イメージ深さ表示マップは、可能なすべてのリファレンスマッピングをマッピングする。その後、それは、最小の残差深さ表示マップ(及び最小の符号化データレート)を生じさせるものを選択してもよい。エンコーダは、何れのリファレンスマッピングが符号化出力ストリームにおいて利用されたか明示的に規定するリファレンスマッピングインジケータを有してもよい。このようなアプローチは予測を承認し、多くのシナリオにおいて残差深さ表示マップを通信するのに要求されるデータレートを低下させる可能性がある。
従って、いくつかの実施例では、固定的なLUT(マッピング)が、最初のフレーム又はシーン変更後の最初のフレームについて利用されてもよい(あるいは、固定的なセットから選択され、対応するインデックスのみが送信される)。このようなフレームの残差は一般により大きくなるが、これは、典型的には、マッピングデータが符号化される必要がないという事実がこれより重要である。
具体例では、マッピングは、2つの空間イメージ次元と少なくとも1つの合成値次元とを有する多次元マップとして構成される。これは、特に効率的な構成を提供する。
いくつかの実施例では、多次元フィルタが多次元マップに適用されてもよく、多次元フィルタは、少なくとも1つの合成値次元と、空間イメージ次元との少なくとも1つとを含む。具体的には、いくつかの実施例では、適度な多次元ローパスフィルタが、多次元グリッドに適用されてもよい。これは、多くの実施例では、予測を向上させ、データレートを低減する可能性がある。具体的には、それは、典型的には、輪郭アーチファクトを生じさせるスムースな強度勾配など、いくつかの信号の予測品質を向上させる可能性がある。
上述した説明では、単一の深さ表示マップがイメージから生成された。しかしながら、シーンのマルチビューキャプチャリング及びレンダリングの関心が高まっている。例えば、3次元(3D)テレビが消費者市場に導入されてきている。他の例として、ユーザがオブジェクトを見回すことを可能にするマルチビューコンピュータディスプレイが開発された。
従って、マルチビューイメージは、異なる視点からキャプチャ又は生成された同一のシーンの複数のイメージを有してもよい。以下は、シーンの左右(目)のビューを有するステレオビュー又は立体視の説明に着目する。しかしながら、当該原理は異なる方向に対応する2より多くのイメージを有するマルチビューイメージのビューに等しく適用され、特に左右のイメージがマルチビューイメージの2より多くのイメージ/ビューからの2つのビューの2つのイメージであると考えられてもよいことが理解されるであろう。
多くのシナリオでは、マルチビューイメージを効率的に生成、符号化又は復号化することが可能であることが望ましく、これは、多くのシナリオにおいて他のイメージに依存するマルチビューイメージの1つのイメージにより実現されてもよい。
いくつかのケースでは、マルチビューイメージは、1つのみの深さ表示マップにより表されてもよく、すなわち、深さ表示マップは、マルチビューイメージの1つのみについて提供されてもよい。しかしながら、他の例では、深さ表示マップは、マルチビューイメージのすべての又は一部のイメージについて提供されてもよい。具体的には、左深さ表示マップが左イメージに提供され、右深さ表示マップが右イメージに提供されてもよい。
このようなシナリオでは、深さ表示マップを生成/予測するための上述されたアプローチが、マルチビューイメージの各イメージについて個別に適用されてもよい。具体的には、左深さ表示マップは左イメージのマッピングから生成/予測され、右深さ表示マップは右イメージから生成/予測されてもよい。
しかしながら、代わりに又はさらに、1つのビューの深さ表示マップは、他のビューの深さ表示マップから生成又は予測されてもよい。例えば、右深さ表示マップが、左深さ表示マップから生成又は予測されてもよい。
従って、最初のビューの深さ表示マップに基づき、次のビューの深さ表示マップが符号化されてもよい。例えば、図11に示されるように、図2のエンコーダは、ステレオ深さ表示マップの符号化を提供するためエンハンスされてもよい。具体的には、図11のエンコーダは図2のエンコーダに対応するが、さらに第2ビューに対応する第2深さ表示マップを受信するよう構成される第2受信機1101を有する。以下において、受信機203により受信される深さ表示マップは第1ビュー深さ表示マップと呼ばれ、第2受信機1101により受信される深さ表示マップは第2ビュー深さ表示マップと呼ばれる。第1及び第2ビュー深さ表示マップは、特にステレオイメージの左右の深さ表示マップである。
第1ビュー深さ表示マップは、上述されたように符号化される。さらに、符号化された第1ビュー深さ表示マップは、第1ビュー深さ表示マップから第2ビュー深さ表示マップの予測を生成するビュー予測手段1103に供給される。具体的には、システムは、深さエンコーダ213とビュー予測手段1103との間で、第1ビュー深さ表示マップの符号化データを復号化し、復号化された深さ表示マップをビュー予測手段1103に提供する深さデコーダ1105を有し、それはその後、そこから第2ビュー深さ表示マップの予測を生成する。シンプルな例では、第1ビュー深さ表示マップ自体は、第2深さ表示マップの予測として直接利用されてもよい。
図11のエンコーダはさらに、ビュー予測手段1103から予測深さ表示マップと、第2受信機1101からオリジナルイメージとを受信する第2深さエンコーダ1107を有する。第2深さエンコーダ1107は、ビュー予測手段1103からの予測深さ表示マップに応答して、第2ビュー深さ表示マップを符号化する。具体的には、第2エンコーダ1107は、第2ビュー深さ表示マップから予測深さ表示マップを減算し、結果として得られる残差深さ表示マップを符号化してもよい。第2エンコーダ1107は、第2ビュー深さ表示マップの符号化データを出力ストリームに含める出力プロセッサ215に接続される。
説明されたアプローチは、マルチビュー深さ表示マップのための特に効率的な符号化を可能にするものであってもよい。特に、所与の品質について大変低いデータレートが実現可能である。
典型的には、第2ビューのイメージがまた符号化され、出力ストリームに含まれる。従って、図11のエンコーダは、図12に示されるようにエンハンスされてもよい。
具体的には、受信機1201は、第2ビューイメージ(例えば、ステレオイメージの右イメージなど)を受信してもよい。その後、それは当該イメージをイメージを符号化する第2イメージエンコーダ1203に供給する。第2イメージエンコーダ1203は、第1イメージエンコーダ205と同一であってもよく、具体的には、H264規格に従ってイメージの符号化を実行してもよい。第2イメージエンコーダ1203は、第2イメージエンコーダ1203から符号化データが供給される出力プロセッサ215に接続される。
従って、本例では、出力ストリームは4つの異なるデータストリームを有する。
すなわち、第1ビューイメージのための符号化データ。当該データは、自己完結的であり、他の何れの符号化データに依存しない。
第2ビューイメージのための符号化データ。当該データは、自己完結的であり、他の何れの符号化データに依存しない。
第1ビュー深さ表示マップの符号化データ。当該データは、第1ビューイメージの符号化データに依存して符号化される。
第2ビュー深さ表示マップの符号化データ。当該データは、第1ビュー深さ表示マップの符号化データに依存して符号化され、従って第1ビューイメージデータに依存して符号化される。
図12に示されるように、第2ビュー深さ表示マップの符号化はまた、第2ビューイメージに依存してもよい。実際、本例では、予測手段1205は、第2ビューイメージに基づき第2ビュー深さ表示マップの予測深さ表示マップを生成する。当該予測は、第1ビューイメージから第1ビュー深さ表示マップを予測する際と同一のアプローチを利用して生成されてもよい。従って、予測手段1205は、ブロック207,209,211の合成された機能を表すと考えられてもよい。実際、いくつかのシナリオでは、正確に同じマッピングが利用されてもよい。
従って、図12の例では、第2深さエンコーダ1107は、第2深さ表示マップの2つの異なる予測に基づき符号化を実行する。
図12の例では、2つのイメージは独立に符号化され、自己矛盾のないものである(すなわち、その他の符号化からのデータに依拠又は利用しない)。しかしながら、いくつかの例では、イメージの1つはさらに、その他のイメージに依存して符号化されてもよい。例えば、第2イメージエンコーダ1203は、イメージデコーダ207から復号化された第1ビューイメージを受信し、符号化される第2ビューイメージの予測としてこれを利用してもよい。
第1イメージ深さ表示マップから第2イメージ深さ表示マップを予測するための異なるアプローチが利用されてもよい。上述されるように、第1イメージ深さ表示マップは、いくつかの例では、第2深さ表示マップの予測として直接利用されてもよい。
特に効率的でパフォーマンスの高いシステムは、イメージと深さ表示マップとの間のマッピングについて説明されたものと同一のマッピングのアプローチに基づくものであってもよい。
具体的には、リファレンスマップに基づき、第1ビューに関する深さ表示マップにおけるイメージ空間ポジションに関する深さ表示値の深さ表示値とイメージ空間ポジションとの入力セットの形式の入力データと、第2ビューに関する深さ表示マップの深さ表示値の形式の出力データとを関連させるマッピングが生成されてもよい。従って、当該マッピングは、第1ビューのリファレンス深さ表示マップ(すなわち、第1ビューイメージに対応する)と、第2ビューの対応するリファレンス深さ表示マップ(すなわち、第2ビューイメージに対応する)との間の関係を反映するよう生成される。
当該マッピングは、イメージ深さ表示マップマッピングについて上述されたものと同じ原理を利用して生成されてもよい。特に、当該マッピングは、以前のステレオイメージの深さマップに基づき生成されてもよい。例えば、以前のステレオイメージ深さマップについて、各空間ポジションは、一致する空間インターバルと深さ値のインターベルとをカバーするものとして特定されるマッピングの適切なビンにより評価されてもよい。その後、第2ビューの深さ表示マップの対応する値が、当該ビンの出力値を生成するのに利用されてもよい(及び、いくつかの具体例では、出力値として直接利用されてもよい)。従って、当該アプローチは、マッピングの自動的な生成、正確な予測、実際的な実装などを含むイメージ深さマッピングに適用されるアプローチのものに沿った効果を提供するものであってもよい。
エンコーダの特に効率的な実現は、共通の、同一の又は共有の要素を利用することによって実現されてもよい。いくつかのシステムでは、予測エンコーダモジュールが複数の符号化処理について利用されてもよい。
具体的には、基本的な符号化モジュールは、イメージ/マップの予測に基づき入力イメージ/マップを符号化するよう構成されてもよい。基本的な符号化モジュールは、具体的には、以下の入力及び出力、すなわち、符号化対象のイメージ/マップを受信する符号化入力、符号化対象のイメージ/マップの予測を受信する予測入力、及び符号化対象のイメージの符号化データを出力するエンコーダ出力を有する。
このような符号化モジュールの具体例として、図13に示される符号化モジュールがある。具体的な符号化モジュールは、符号化対象のイメージ又はマップのデータを含む入力信号INを受信するH264コーデック1301を利用する。さらに、H264コーデック1301は、H264符号化規格及び原理に従って入力イメージを符号化することによって、符号化出力データBSを生成する。当該符号化は、予測メモリ1303,1305に格納される1以上の予測イメージに基づく。これら予測メモリの1つ1305は、予測入力(INex)からの入力イメージを格納するよう構成される。特に、基本符号化モジュールは、基本符号化モジュール自体により生成される予測イメージを上書きしてもよい。従って、本例では、予測メモリ1303,1305は、H264規格に従ってビデオシーケンスの以前の符号化イメージ/マップの復号化により生成される以前の予測データにより充填される。しかしながら、予測メモリの少なくとも1つ1305はさらに、予測入力からの入力イメージ/マップによって、すなわち、外部で生成された予測によって上書きされる。符号化モジュールにおいて内部的に生成される予測データは、典型的には、ビデオシーケンスの現在、以前又は以降のイメージ/マップからの時間又は空間予測であるが、予測入力により提供される予測は、典型的には、非時間及び非空間予測であってもよい。例えば、それは、異なるビューからのイメージに基づく予測であってもよい。例えば、第2ビューイメージ/深さ表示マップは、予測入力に供給される第1ビューイメージ/深さ表示マップと共に、説明されるような符号化モジュールを用いて符号化されてもよい。
図13の一例となる符号化モジュールはさらに、符号化データの復号化から得られる復号化イメージ/マップを外部機能に提供可能な任意的な復号化イメージ出力OUTlocを有する。さらに、遅延した復号化イメージ/マップ出力OUTloc(τ−1)の形式の任意的な第2出力は、復号化イメージの遅延したものを提供する。
符号化ユニットは、具体的には、参照することによりその内容がここに援用されるWO2008084417に説明されるような符号化ユニットであってもよい。
従って、いくつかの具体例では、システムは、圧縮が実行され、複数の時間予測がメモリに格納されている複数の予測フレームにより利用されるビデオ信号を復号化し、メモリの予測フレームは、別々に生成された予測フレームにより上書きされてもよい。
上書きされた予測フレームは、具体的には、メモリにおいて最長の予測フレームの1以上であってもよい。
メモリは、エンハンスメントストリームエンコーダにおけるメモリであってもよく、予測フレームは、ベースストリームエンコーダからのフレームにより上書きされてもよい。
符号化モジュールは、多数の効果的な構成及びトポロジーにおいて利用されてもよく、大変効率的だが低コストの実装を可能にする。例えば、図12のエンコーダでは、同一の符号化モジュールが、イメージエンコーダ205、深さエンコーダ213、第2イメージエンコーダ1203及び第2HDRエンコーダ1207について利用されてもよい。
図13のものなどの符号化モジュールの各種の効果的な構成及び利用は、図14〜17を参照して説明される。
図14は、図13のものなどの基本符号化モジュールが上述した原理によるイメージと対応する深さ表示マップとの双方の符号化に利用される一例を示す。本例では、基本符号化モジュール1401,1405は何れも、イメージ及び深さ表示マップを符号化するのに利用される。本例では、イメージは符号化モジュール1401に供給され、符号化モジュール1401は、予測入力を介し提供されるイメージの予測なしに符号化ビットストリームBS IMGを生成する(符号化は、動き補償に利用される時間予測などの内部的に生成される予測を利用してもよいが)。
基本符号化モジュール1401はさらに、復号化イメージ出力上でイメージの復号化されたバージョンと、遅延された復号化イメージ出力上で遅延した復号化イメージとを生成する。これら2つの復号化イメージは、遅延した復号化イメージ、すなわち、以前のイメージをさらに受信する予測手段1403に供給される。予測手段1403は、以前の(遅延した)復号化イメージ及び深さ表示マップに基づきマッピングを生成する。その後、それは、当該マッピングを現在の復号化イメージに適用することによって、現在のイメージについて予測深さ表示マップを生成する。
その後、基本符号化モジュール1405は、予測深さ表示マップに基づき深さ表示マップを符号化する。具体的には、予測深さ表示マップが基本符号化モジュール1405の予測入力に供給され、深さ表示マップが入力に供給される。その後、基本符号化モジュール1405は、深さ表示マップに対応する出力ビットストリームBS DEPを生成する。2つのビットストリームBS IMGとBS DEPとは、単一の出力ビットストリームに合成されてもよい。
本例では、同一の符号化モジュール(2つの機能的表示1401,1405により表される)が、イメージと深さ表示マップとの双方を符号化するのに利用される。これは、1つのみの基本符号化モジュールを時間逐次的に利用して実現されてもよい。あるいは、同一の基本符号化モジュールが実装可能である。これは、有意なコストの節約をもたらすかもしれない。
本例では、深さ表示マップはイメージに応じて符号化され、イメージは深さ表示マップに応じて符号化されない。従って、結合的な符号化/圧縮が実現される符号化の階層的構成が提供される。
図14の具体例は、同一の符号化モジュールがイメージ及び深さ表示マップに利用される図2のエンコーダの具体的な実現としてみなされてもよい。具体的には、同一の基本符号化モジュールが、図2の深さエンコーダ213と共に、イメージエンコーダ205とイメージデコーダ207との双方を実現するのに利用されてもよい。
図15において、他の具体例が示される。本例では、複数の同一の又は単一の基本符号化モジュール1501,1503が、ステレオイメージの効率的な符号化を実行するのに利用される。本例では、左イメージが基本符号化モジュール1501に供給され、基本符号化モジュール1501は、何れかの予測に依拠することなく左イメージを符号化する。結果として得られる符号化データは、第1ビットストリームLBSとして出力される。右イメージのイメージデータは、基本符号化モジュール1503のイメージデータ入力に入力される。さらに、左イメージは予測イメージとして利用され、基本符号化モジュール1501の復号化イメージ出力は、左イメージの復号化されたバージョンが基本符号化モジュール1503の予測入力に供給されるように、基本符号化モジュール1503の予測入力に接続され、基本符号化モジュール1503は、当該予測に基づき右イメージを符号化する。従って、基本符号化モジュール1503は、右イメージ(左イメージに対する)の符号化データを有する第2ビットストリームRBSを生成する。
図16は、複数の同一の又は単一の基本符号化モジュール1401,1403,1603,1601がステレオ深さ表示マップ及びイメージの双方の結合的及び構成された符号化を提供するため利用される具体例を示す。本例では、図14のアプローチは、左イメージ及び左深さ表示マップに適用される。さらに、右深さ表示マップが、左深さ表示マップに基づき符号化される。具体的には、右深さ表示マップは、左深さ表示マップを符号化する基本符号化モジュール1405の復号化イメージ出力に接続される予測入力を有する基本符号化モジュール1601のイメージデータ入力に供給される。従って、本例では、右深さ表示マップは、左深さ表示マップに基づき基本符号化モジュール1601により符号化される。従って、図16のエンコーダは、左イメージビットストリームLBS、左深さ表示マップビットストリームLDEP BS及び右深さ表示マップRDEP BSを生成する。
図16の具体例では、第4ビットストリームがまた右イメージのため符号化される。本例では、基本符号化モジュール1603は、イメージデータ入力において右イメージを受信し、左イメージの復号化されたバージョンは、予測入力に供給される。基本符号化モジュール1603は、その後、第4ビットストリームRBSを生成するため、右イメージを符号化する。
従って、図15の例では、ステレオイメージと深さ特性との双方が結合的及び効率的に符号化/圧縮される。本例では、左ビューイメージは独立に符号化され、右ビューイメージは左イメージに依存する。さらに、左深さ表示マップは左イメージに依存する。右深さ表示マップは、左深さ表示マップに依存し、さらに左イメージに依存する。本例では、右イメージは、ステレオ深さ表示マップの何れかを符号化/復号化するのに利用されない。これの効果は、3つの基本モジュールしかステレオ深さ表示マップを符号化/復号化するのに要求されないことである。
図17は、右イメージがまた右深さ表示マップを符号化するのに利用されるように、図16のエンコーダがエンハンスされる具体例を示す。具体的には、右深さ表示マップの予測は、左深さ表示マップに対するものと同一のアプローチを利用して、右イメージから生成されてもよい。具体的には、上述されたようなマッピングが利用されてもよい。本例では、基本符号化モジュール1501の予測入力は、双方が右深さ表示マップの符号化に利用されてもよい2つの予測マップを受信するよう構成される。例えば、これら2つの予測深さ表示マップは、基本符号化モジュール1601の2つの予測メモリを上書きしてもよい。
従って、本例では、ステレオイメージと深さ表示マップとの双方が結合的に符号化され、(より)効率的に圧縮される。ここで、左ビューイメージは独立に符号化され、右ビューイメージは、左イメージに依存して符号化される。本例では、右イメージはまた、ステレオ深さ表示マップ信号を符号化/復号化するのに利用され、具体的には、右深さ表示マップを符号化/復号化するのに利用される。従って、本例では、2つの予測が右深さ表示マップを利用するのに利用されてもよく、これにより、4つの基本符号化モジュールを必要(又は、同一の基本符号化モジュールを4回再利用する)とすることを犠牲にするが、より高い圧縮効率が可能になる。
従って、図14〜17の例では、同一の基本符号化/圧縮モジュールが、結合イメージ及び深さマップ符号化のため利用され、これらは共に圧縮効率と、実装の現実性及びコストとのため有用である。
図14〜17は機能図であり、同一の符号化モジュールの時間連続的な利用を反映するか、又は同一の符号化モジュールのパラレルな適用などを示すものであってもよいことが理解されるであろう。
説明された符号化の具体例は、1以上のイメージ又は深さマップに基づき1以上のイメージ又は深さマップの符号化を含む出力データを生成する。従って、本例では、少なくとも2つのイメージが、一方が他方に依存するが、他方は一方に依存しないように結合的に符号化される。例えば、図16のエンコーダでは、2つの深さ表示マップが、(予測を介し)左深さ表示マップに依存して符号化される右深さ表示マップにより結合的に符号化される一方、左深さ表示マップは、右深さ表示マップから独立に符号化される。
この非対称な結合的符号化は、効果的な出力ストリームを生成するのに利用可能である。具体的には、左右の深さ表示マップの2つの出力ストリームR DEP BS及びL DEP BSはそれぞれ、出力データストリームを形成するため一緒に多重化可能な異なる2つのデータストリームとして生成(分割)される。R DEP BSデータストリームからのデータを要求しないL DEP BSデータストリームがプライマリデータストリームとみなされ、L DEP BSデータストリームからのデータを必要とするR DEP BSデータストリームが、セカンダリデータストリームとみなされてもよい。特に効果的な例では、プライマリ及びセカンダリデータストリームに別々のコードが提供されるように、多重化が実行される。従って、異なるコード(ヘッダ/ラベル)が2つのデータストリームに割り当てられ、これにより、個々のデータストリームが出力データストリームにおいて分離及び特定可能になる。
具体例として、出力データストリームは、各パケット/セグメントがプライマリ又はセカンダリデータストリームのみからのデータを有し、何れのストリームが特定のパケット/セグメントに含まれるか特定するコード(ヘッダ、プリアンブル、ミッドアンブル又はポストアンブルなどに)提供されるデータパケット又はセグメントに分割されてもよい。
このようなアプローチは、パフォーマンスの向上を可能にし、特に後方互換性を可能にするものであってもよい。例えば、フルに互換的なステレオデコーダが、フルステレオ深さ表示マップを生成するため、左右両方の深さ表示マップを抽出可能であってもよい。しかしながら、非ステレオデコーダは、プライマリデータストリームしか抽出できない。実際、このデータストリームは右深さ表示マップから独立しているため、非ステレオデコーダは、非ステレオ技術を利用して単一の深さ表示マップを復号化可能である。
当該アプローチは異なるエンコーダに利用されてもよいことが理解されるであろう。例えば、図14のエンコーダについて、BS IMGビットストリームがプライマリデータストリームとみなされ、BS DEPビットストリームがセカンダリデータストリームとみなされてもよい。図15の例では、L BSビットストリームがプライマリデータストリームとみなされ、R BSビットストリームがセカンダリデータストリームとみなされてもよい。従って、いくつかの具体例では、プライマリデータストリームは、完全に自己完結的なデータ、すなわち、他の何れかの符号化データ入力を要求しないデータ(すなわち、他の何れかのデータストリームからのデータを符号化することに依存せず、自己一貫的に符号化される)を有してもよい。
また、当該アプローチは、2より多くのビットストリームに拡張されてもよい。例えば、図16のエンコーダについて、L BSビットストリーム(完全に自己完結した)がプライマリデータストリームとみなされ、L DEP BS(L BSビットストリームに依存するが、R DEP BSビットストリームには依存しない)がセカンダリデータストリームとみなされてもよく、またR DEP BSビットストリーム(L BSとL DEP BSビットストリームとの双方に依存する)が第3データストリームとみなされてもよい。これら3つのデータストリームは、各データストリームにそれ自体のコードが割り当てられて一緒に多重化されてもよい。
他の例として、図16又は17のエンコーダにおいて生成される4つのビットストリームが、出力データストリームの4つの異なる部分に含まれてもよい。具体例として、ビットストリームの多重化は、以下の部分、すなわち、記述コード0x1Bを有するすべてのL BSパケットを含む部分1(通常のH264)、記述コード0x20を有するすべてのR BSパケットを含む部分2(MVCの従属的なステレオビュー)、記述コード0x21を有するすべてのL DEP BSパケットを含む部分3、及び記述コード0x22を有するすべてのR DEP BSエンハンスメントパケットを含む出力ストリームを生成してもよい。このタイプの多重化は、後方互換性を維持しながら、ステレオ多重化のフレキシブルな利用を可能にする。特に、特定のコードは、適切に装備された(例えば、H264又はMVCベースの)デコーダが、ステレオイメージ/マップなどのより進んだイメージ及び深さマップを復号化することを可能にしながら、単一のイメージを復号化する従来のH264デコーダを可能にする。
出力ストリームの生成は、具体的には、参照することによりここに援用されるWO2009040701に説明されるアプローチに従うものであってもよい。
このようなアプローチは、各自の欠点を回避しながら、他の方法の効果を組み合わせるものであってもよい。このアプローチは、2以上のビデオデータ信号を結合的に圧縮し、その後に2以上の別々の(プライマリ及びセカンダリ)ビットストリームを形成することを含む。自己完結的な(セカンダリビットストリームに依存しない)プライマリビットストリームは、ビットストリーム双方を復号化することが可能でなくてもよいデコーダにより復号化可能である。プライマリ及びセカンダリビットストリームが別々のコードが設けられ、送信される別々のビットストリームである別々のビットストリームが多重化される。一見すると、余計なようにみえるが、圧縮後に分割するためだけに最初に信号を結合的に圧縮し、それらに別々のコードを提供する労力は無駄である。通常の技術では、圧縮されたデータ信号には、マルチプレクサにおいて単一のコードが与えられる。一見すると、当該アプローチは、データ信号の符号化において不要なコンプレクシティを加えるように見える。
しかしながら、多重化信号のプライマリ及びセカンダリビットストリームの分離及び別々のパッケージ化(すなわち、マルチプレクサにおいてプライマリ及びセカンダリビットストリームの別々のコードを与える)は、一方において、従来のビデオシステムにおける標準的なデマルチプレクサがそれのコードによりプライマリビットストリームを認識し、それをデコーダに送信し、これにより、標準的なビデオデコーダがプライマリストリームしか受信せず、セカンダリストリームはデマルチプレクサにわたされず、標準的なビデオデコーダは、標準的なビデオデータ信号としてそれを正しく処理することが可能になり、他方、特殊なシステムは符号化処理を完全に逆転させ、適切なデコーダに送信する前にオリジナルのエンハンスされたビットストリームを再生成するという結果を有することが理解された。
このアプローチでは、プライマリ及びセカンダリビットストリームは、別々のビットストリームであり、プライマリビットストリームは、具体的には、自己完結したビットストリームであってもよい。これは、プライマリビットストリームに標準的なビデオデータ信号に対応するコードが与えられ、セカンダリビットストリームに標準的なビデオデータ信号として標準的なデマルチプレクサにより認識されないコードが与えられることを可能にする。受信エンドでは、標準的な逆多重化装置は、プライマリビットストリームを標準的なビデオデータ信号と認識し、それをビデオデコーダにわたす。標準的な逆多重化装置は、セカンダリビットストリームを標準的なビデオデータ信号として認識せずにこれを拒絶することになる。ビデオデコーダ自体は、“標準的なビデオデータ信号”しか受信しない。ビデオデコーダ自体により受信されるビット量は、標準的なビデオデータ信号の形式により自己完結したプライマリビットストリームに制限され、標準的なビデオ装置により解釈可能であり、標準的なビデオ装置が処理可能なビットレートを有する。
当該符号化は、ビデオデータ信号が第1フレームセットと少なくとも第2フレームセットとを有する符号化信号により符号化され、第1及び第2セットのフレームはインタリーブされたビデオシーケンスを構成するようインタリーブされる点で、又は第1及び第2フレームセットを有するインタリーブされたビデオデータ信号が受信され、インタリーブされたビデオシーケンスが圧縮されたビデオデータ信号に圧縮され、第1セットのフレームは第2セットのフレームを利用することなく符号化及び圧縮され、第2セットのフレームは第1セットのフレームを利用して符号化及び圧縮され、圧縮されたビデオデータ信号が、各ビットストリームがフレームを有するプライマリビットストリームと少なくともセカンダリビットストリームとに分割された後、プライマリビットストリームは第1セットの圧縮されたフレームを有し、セカンダリビットストリームは第2セットの圧縮されたフレームを有し、プライマリ及びセカンダリビットストリームは別々のビットストリームを構成し、プライマリ及びセカンダリビットストリームが多重化信号に多重化された後、プライマリ及びセカンダリビットストリームには別々のコードが提供される点で特徴付けできる。
少なくとも1ついのセットをインタリーブした後、すなわち、プライマリビットストリームのフレームセットが“自己完結した”信号として圧縮されてもよい。これは、当該自己完結したフレームセットに属するフレームが、その他のセカンダリビットストリームからの情報(例えば、動き補償又は他の何れかの予測方式などを介し)を必要としないことを意味する。
プライマリ及びセカンダリビットストリームは、別々のビットストリームを構成し、上述された理由のため別々のコードにより多重化される。
いくつかの具体例では、プライマリビットストリームは、マルチビュービデオデータ信号の1つのビューのフレームのデータを有し、セカンダリビットストリームは、マルチビューデータ信号の他のビューのフレームのデータを有する。
図17は、各ビューがフレーム0〜フレーム7から構成される2つのビュー(左(L)深さ表示マップ及び右(R)深さ表示マップなど)のフレーム0〜フレーム15を有するインタリーブされた合成信号への可能なインタリーブ処理(図18を参照)の具体例を示す。
具体例では、図16のL DEP BS及びR DEP BSのフレーム/マップは、図17に示されるように個々のフレーム/セグメントに分割される。
その後、左右のビュー深さ表示マップのフレームは、合成信号を提供するためインタリーブされる。合成信号は、2次元の信号に類似する。圧縮の特別な特徴は、ビューの一方のフレームが他方に従属しない(自己完結したシステムである)、すなわち、圧縮において、他方のビューからの情報が圧縮に利用されないことである。他方のビューのフレームは、一方のビューのフレームからの情報を利用して圧縮される。当該アプローチは、対等な立場で2つのビューを扱う自然な傾向から逸脱している。実際、2つのビューは、圧縮中は等しく扱われない。ビューの一方がプライマリビューになり、圧縮中、セカンダリである他方のビューからの情報は使用されない。プライマリビューのフレームとセカンダリビューのフレームとが、プライマリビットストリームとセカンダリビットストリームとに分割される。符号化システムは、MPEGについては0x01又はH.264については0x1Bなどのコードをプライマリビットストリームに割当て、0x20などの異なるコードをセカンダリストリームに割り当てるマルチプレクサを有することが可能である。多重化信号が、その後に送信される。当該信号は、デマルチプレクサが2つのビットストリーム0x01又は0x1B(プライマリストリームについて)と0x20(セカンダリストリームについて)とを認識し、プライマリ及びセカンダリストリームを再びマージするビットストリームマージ手段に双方を送信する復号化システムにより受診可能であり、合成されたビデオシーケンスは、その後に、デコーダにおいて符号化方法をリバースすることによって復号化される。これは、後方互換性を可能にする。より古く又は機能の低いデコーダは、特定のコードによるインタリーブされたパケットの一部を無視することがあり(例えば、デコーダは、左右のビューしか抽出しないことを所望し、ストリームにインタリーブされる背景情報を含む深さマップやパーシャルイメージを抽出することを所望しない)、完全な機能のデコーダは、特定の関係によりすべてのパケットを復号化するであろう。
図14〜17のエンコーダの具体例は、デコーダエンドにおいて対応する処理に直接転換可能であることが理解されるであろう。具体的には、図19は、図13の基本符号化モジュールに相補的な復号化モジュールである基本復号化モジュールを示す。基本復号化モジュールは、復号化対象の符号化イメージ/深さマップのためのエンコーダのデータを受信するエンコーダデータ入力を有する。基本符号化モジュールと同様に、基本復号化モジュールは、複数の予測メモリ1901と共に、復号化対象の符号化イメージ/深さマップの予測を受信するための予測入力を有する。基本復号化モジュールは、デコーダ出力OUTlocにより出力される復号化イメージ/深さマップを生成するため、予測に基づき符号化データを復号化するデコーダユニット1903を有する。復号化イメージ/マップはさらに、予測メモリに供給される。基本符号化モジュールに関して、予測入力上の予測データは、予測メモリ1901におけるデータを上書きしてもよい。また、基本符号化モジュールと同様に、基本復号化モジュールは、遅延した復号化イメージ/マップを提供するための(任意的な)出力を有する。
このような基本復号化モジュールは図14〜17の具体例の基本符号化モジュールと相補的に利用可能であることは明らかであろう。例えば、図20は図14のエンコーダに相補的なデコーダを示す。マルチプレクサ(図示せず)は、イメージ符号化データEnc IMGと深さ表示マップ符号化データEnc DEPとを分離する。第1基本復号化モジュールは、イメージを復号化し、これを用いて図14について説明されたように深さ表示マップの予測を生成する。第2基本復号化モジュール(第1基本復号化モジュール又は実際には、時間連続的に第1基本復号化モジュールと同一)は、その後に、深さ表示マップ符号化データと予測から深さ表示マップを復号化する。
他の例として、図21は、図15のエンコーダに相補的なデコーダの具体例を示す。本例では、左イメージの符号化データは、左イメージを復号化する第1基本復号化モジュールに供給される。これはさらに、右イメージの符号化データを受信し、予測に基づき当該データを復号化し、右イメージを生成する第2基本復号化モジュールの予測入力に供給される。
さらなる他の例として、図22は、図16のエンコーダに相補的なデコーダの具体例を示す。
図20〜22は機能図であり、同一の復号化モジュールの時間連続的な利用を反映してもよいし、又は同一の復号化モジュールのパラレルな適用などを示すものであってもよいことが理解されるであろう。
本例では、シンプルなイメージが考慮され、当該イメージに基づきイメージの深さ表示マップが生成された。いくつかのケースでは、オクルージョン(occlusion)情報がまたイメージについて提供されてもよい。例えば、イメージは、下位レイヤが通常のビューにおいてオクルードされるピクセルのイメージデータを提供する階層化イメージであってもよい。このようなケースでは、説明されたアプローチは、オクルージョンデータの深さマップを生成するのに利用されてもよい。例えば、以前の階層化イメージの第1レイヤ、第2レイヤなどについてマッピングが生成されてもよい。現在のイメージについて、適切なマッピングが、各レイヤの深さマップを生成するため、各レイヤについて適用されてもよい。当該アプローチは、例えば、各レイヤの深さ表示マップの予測がこのようにして生成される符号化処理において利用されてもよい。結果として得られる予測は、このとき、各レイヤについてイメージソースにより提供される当該レイヤの入力された深さ表示マップと比較され、差分が符号化されてもよい。オクルージョンデータの提供は、異なる視点からのイメージの向上した生成を可能にし、特に視点が変更されたとき、オクルード解除されたイメージオブジェクトの向上した再生を可能にするものであってもよい。
上述した具体例では、深さ表示マップは、対応するイメージに基づき生成又は予測された。しかしながら、深さ表示マップの生成又は予測はまた他のデータを考慮し、実際には他の予測に基づくものであってもよいことが理解されるであろう。例えば、現在のイメージの深さ表示マップはまた、以前のフレーム又はイメージについて生成された深さ表示マップに基づき予測されてもよい。例えば、所与のイメージについて、イメージから第1深さ表示マップを生成するため、マッピングが利用されてもよい。さらに、第2深さ表示マップが、例えば、以前のイメージからの深さ表示マップとして直接的に、又はそれにマッピングを適用するなどによって生成されてもよい。その後、単一の深さ表示マップ(具体的には、現在のイメージの予測深さ表示マップであってもよい)が、例えば、入力された深さ表示マップに最も近く対応する第1及び第2イメージ深さ表示マップからイメージエリアを選択などすることによって生成されてもよい。当該選択の情報は、その後、符号化データストリームに含めることができる。このようなアプローチは、マルチビューイメージの双方の(すべての)ビューに又はビューのサブセットのみに適用可能であることが理解されるであろう。
簡単化のため上記説明は、異なる機能回路、ユニット及びプロセッサを参照して本発明の実施例を説明したことが理解されるであろう。しかしながら、異なる機能回路、ユニット又はプロセッサの間の機能の何れか適切な分配が本発明から逸脱することなく利用されてもよいことが明らかであろう。例えば、別々のプロセッサ又はコントローラにより実行されると示される機能は、同一のプロセッサ又はコントローラにより実行されてもよい。従って、特定の機能ユニット又は回路の参照は、厳密に論理的又は物理的構成又は組織を示すのでなく、説明された機能を提供する適切な手段の参照してみなされるべきである。
本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの何れかの組み合わせを含む何れか適切な形態により実現可能である。本発明は、任意的には、1以上のデータプロセッサ及び/又はデジタル信号プロセッサ上で実行されるコンピュータソフトウェアとして少なくとも部分的に実現されてもよい。本発明の実施例の要素及びコンポーネントは、何れか適切な方法により物理的、機能的及び論理的に実現されてもよい。実際、当該機能は、単一のユニット、複数のユニット又は他の機能ユニットの一部として実現されてもよい。また、本発明は、単一のユニットにより実現されてもよく、又は異なるユニット、回路及びプロセッサの間で物理的及び機能的に分配されてもよい。
本発明がいくつかの実施例に関して説明されたが、それは、ここで与えられた特定の形態に限定されることを意図していない。むしろ、本発明の範囲は、添付した請求項によってのみ限定される。さらに、ある特徴は特定の実施例に関して説明されるように見えるかもしれないが、当業者は、説明された実施例の各種特徴が本発明に従って組み合わせ可能であることを認識するであろう。請求項において、有するという用語は、他の要素又はステップの存在を排除するものでない。
さらに、個別に列記されたが、複数の手段、要素、回路又は方法ステップは、単一の回路、ユニット又はプロセッサなどにより実現されてもよい。個々の特徴は異なる請求項に含まれてもよいが、これらはおそらく、効果的に組み合わされてもよく、異なる請求項に含めることは、特徴の組み合わせが実現可能及び/又は効果的でないことを意味するものでない。また、請求項の1つのカテゴリに特徴を含めることは、当該カテゴリへの限定を意味するものでなく、当該特徴が適切である場合、他の請求項のカテゴリに等しく適用可能であることを示す。さらに、請求項における各特徴の順序は、当該特徴が作用しなければならない何れか特定の順序を意味するものでなく、方法の請求項の各ステップの順序は特に、当該ステップがこの順序により実行される必要があることを意味するものでない。むしろ、ステップは何れか適切な順序により実行されてもよい。さらに、単数形の表現は複数を排除するものでない。従って、“ある”、“第1の”、“第2の”などの表現は複数を排除するものでない。請求項における参照符号は、明確化のためだけに提供されるものであり、請求項の範囲を限定するものとして解釈されるべきでない。