JP2009510869A5

JP2009510869A5 -

Info

Publication number: JP2009510869A5
Application number: JP2008532887A
Authority: JP
Filing date: 2005-09-29
Publication date: 2011-12-15
Anticipated expiration: 2025-09-29

Description

スケーラブルビデオコーディング方法

本発明はスケーラブルビデオコーディング方法を扱う。

ビデオコーディングは、一連の異なる操作、すなわちモーション推定、空間変換、量子化、エントロピーコーディングからなる複雑な処理である。最初の操作であるモーション推定は、本方法において重要な役割を演じ、その効率は得られる圧縮比に深く影響する。実際はこのステップにおいて、連続したフォトグラムを普通に特徴付ける高い類似性を利用することにより、隣接したものから開始してフォトグラムの内容の予測が計算される。

以下、「基準フォトグラム」なる用語は、デコーダーにより再構成できるように既に処理されたフォトグラムを意味する。「現在のフォトグラム」なる用語は、コード化されるべきフォトグラム、すなわち処理対象を意味する。現在のフォトグラムを近似するために基準フォトグラムが修正される。

連続したフォトグラム間の類似性は、「歪み」により表すことができる。コード化されたフローは、現在のフォトグラム予測と現在のフォトグラム自体との差から構成されると共に、同じ予測を得て完全な再構成を行なうことをデコーダーに可能にする追加情報からも構成される。このようにして、コード化された情報エネルギーが最小化されて圧縮率を最大化する。

ハイブリッド型の従来の規格（例えばＭＰＥＧ−２、Ｈ．２６４／ＡＶＣ）において最も用いられるモーション推定技術は、いわゆる「ブロックマッチング」である。ブロックマッチングでは、現在のフォトグラムの全体が、可変サイズの小ブロックに分割され、その各々が、最も類似した内容を有するブロックと基準フォトグラム上にて関連付けられ、よって、このことにより差エネルギーが最小になる。したがって、これら２つの小ブロック（１つは現在のフォトグラム上、もう１つは基準フォトグラム上）は、おそらく同じ画像部分を示している。撮影される対象物の移動又はカメラの移動により１フォトグラムから次のフォトグラムに移るとき、しばしばこの画像部分はオフセットされる。したがって、現在の画像のすべての小ブロックを、前のフォトグラムに対して小ブロックが受けたオフセットを表す二次元ベクトルに関連付けることができる。オフセットを特定するこのような二次元ベクトルを「モーションベクトル」（ＭＶ）という。

よって、コード化されたフローにおいて、基準フォトグラム、ＭＶ、及び個々のブロックとそれらの予測との差が挿入される。

ブロックマッチングの使用により、いくつかの視覚的な人工物がデコード化フロー上に高い圧縮比で導入されるが、ハイブリッド型コーダー（すなわち移動及び空間圧縮を補償するために予測を含んだコーダー）においてモーション推定を計算するための最も効率的な方法と思われる。

従来のＤＣＴ（離散的コサイン変換）とは異なる変換（例えば「ウェーブレット」変換）に基づいた新しいビデオコーディング技術の出現により、モーション推定技術としてブロックマッチングを用いることで効率損失が検出される。実際には、ブロック中で作用するＤＣＴとは反対にウェーブレット変換は、フォトグラム全体に適用され、したがって、ブロックマッチング技術によって小ブロックの端に不連続性が導入され、このことが変換された領域において高周波成分の原因を与える。このような成分は量子化ステップの性能を著しく制限する。したがって、新しい種類のモーション表現が必要とされる。

ブロックマッチングに対する別のアプローチ（いわゆる「オプティカルフロー」）に基づいたモーション推定装置は公知であり、ブロックを使用することなく現在のフォトグラム予測を求めるために基準フォトグラムのスポット歪みを計算する。オプティカルフロー技術については、例えば非特許文献１に記載されている。オプティカルフローは、現在のフォトグラムの空間及び時間微分から、すなわち時間的に隣接し且つ／又は連続したピクセル間のスポット差から得られる係数を有する連立一次方程式を解くことによって計算される。解は二次元ベクトルのセットであり、「モーションフィールド」と称されるすべてのフォトグラムピクセルに対して１つである。

オプティカルフローにより生成されたモーションフィールドは、連立一次方程式中に調整項を追加することによって規則的又は「滑らか」になるように決定できる。滑らかなフィールドにより、ブロックマッチングの典型的な不連続性を示さない残差が得られ、ウェーブレット変換により分解できる。

モーションフィールドを反復計算するオプティカルフローの態様が存在し、各反復にてフィールドの総和中に項として挿入されるフィールドを決定する。最終的な和がモーションフィールドである。非特許文献２には、例えば最初のモーションフィールドを構築するために特殊な解法を用いてオプティカルフロー技術を使用することが記載されており、最初のモーション推定は幾つかの目立つポイントを識別しトラッキングすることに基づいている。

ビデオコーディングにおいてオプティカルフローを用いてマルチ解像度モーション推定技術を適用することは、例えば非特許文献３に記載されている。

特にオプティカルフローによるモーション推定の態様が存在し、この態様では「コアース・ツー・ファイン(coarse-to-fine)」手順、すなわちマルチ解像度の手順を用いる。これらの技術ではモーションフィールドが総和として構成される。この総和のすべての項は、様々な空間解像度を含んだピラミッドのレベルに対応する。これらの手順の目的は、ワイド・モーション計算の際、すなわち特定数のピクセルを超えるオフセットを決定する際にオプティカルフローアルゴリズムが遭遇する困難さを解消することである。

実際には、これらの技術は次のように動作する。最初の項は、最低の解像度レベルにてフォトグラムについて推定されたモーションフィールドから構成される。それ以降の項は次のようにして生成される。
１．解像度レベルを１だけ上げ、そのレベルのフォトグラムを考える。
２．補間により拡張すると共に前に計算されたフィールドをスケーリングすることでモーションフィールドを生成する。
３．その結果生成されたフィールドを用いて基準フォトグラムを変形する。
４．変形したフォトグラムと現在のフォトグラムとの間に存在するモーションフィールドを計算する。このフィールドはこの総和の項となり、既に計算されたものに加えられる。
５．最大解像度レベルに到達しなかったならば、本プロセスはステップ１から繰り返される。

したがって、この技術では、より低いレベルについて計算されたモーションフィールドが、最終的なフィールドにおける項として用いられる。

非特許文献４には、例えば複数レベルにてモーション推定に属する不確実性を管理できるアルゴリズムを使用するマルチ解像度オプティカルフロー装置が記載されている。特定レベルでのモーションフィールドは、下のレベル及び確率成分から得られるモーションの総和としてモデル化される。マルチ解像度オプティカルフローモーション推定に関する他の文献としては特許文献１（ＵＳ０５６８０４８７）及び特許文献２（ＵＳ０５２４１６０８）がある。

オプティカルフローは、従来のコーディングとは異なる環境において、特にスケーラブルビデオコーディング（ＳＶＣ）（「レベル」コーディングともいう）の場合に適用できる。ＳＶＣ技術の目的は、単一のコード化されたフローから開始して、単一コーディングを実行して、複数のクオリティのフローを得ることのできるビットストリームを得ることである。実際、このようなビットストリームから、空間、時間（「フレームレート」で示される）及びクオリティ（「ビットレート」で示される）特性を考慮して（可能な解像度のセットから選択された）所望の解像度を有するビデオフローに関連した新しいビットストリームを抽出できる。ハイブリッド型技術とウェーブレットに基づいたアプローチとの両方を用いる構成は公知である。

スケーラブル・コーディングは例えば雑音の多いチャネルで伝送するために重要である。実際には、より良い性能を有するチャネル上で伝送することにより、最も重要なレベル（基本レベル）を保護することができる。スケーラブル・コーディングは可変ビットレートのチャネル上で非常に有効である。すなわち、帯域が狭められたとき、重要性の低い層は伝送されない。スケーラビリティの別の有効な応用は、プログレッシブな伝送に存する。すなわち、ユーザーは、例えばデータベースにおいて選択を実行するために基本レベルでのみコード化されたビデオプレビューを変更できる。いったん決定が為されたなら、最上のクオリティでビデオを受信できる。

スケーラブルコーダーにおいて、空間スケーラビリティの場合、モーション推定ステップは非常に複雑であり、このステップによって性能が強く影響を受ける。実際には、詳細の損失やエイリアシングの出現に起因して、より低い解像度について最適な予測が、十分な解像度で計算されたモーションベクトルのスケーリングによって必ずしも与えられるとは限らない。各空間解像度に関連付けられたモーションフィールドについての最適な解は、他の解像度から得ることはできない。したがって、すべての解像度について最適なモーションを、その限定されたセットにおいて限定的に計算することにより求めることはできない。しかしながら、ビットストリーム中に挿入されるモーション表現は、モーションフィールドに専用のビットの過度の占有を防ぐために、一意的でなければならない。

よって、影響されるすべての解像度について性能を最適化できる最良の妥協案を見いだす必要がある。

ブロックマッチング型のモーション推定に基づいたアプローチが存在し、このアプローチでは、与えられる各解像度についてモーションフィールドが計算され、各スケーラビリティレベルについて良好な性能を維持できる妥協案をコード化されたフロー中に挿入することによってモーション情報が一義的に表される。それ以降のアプローチは、妥協案の計算モードに依存して異なる。

特許文献３（ＥＰ０６４４６９５Ａ２）では、基本層及びエンハンスメント層上で計算された推定から開始して、最終的なモーションフィールドの計算が、各レベルについて推定有効性（残差エネルギーで表す）により導かれた重み関数を用いることによって実行される。

非特許文献５には、推定有効性に依存する可変重みを、空間フィルタリング中に計算される高周波帯域から得られるモーション情報に割り当てる適応プロセスが記載されている。
ＵＳ０５６８０４８７ＵＳ０５２４１６０８ＥＰ０６４４６９５Ａ２Ｂ．Ｈｏｒｎ、Ｂ．Ｓｃｈｕｎｃｋ、「オプティカルフローの決定（Determining optical flow）」（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ｎｏ．１７、ｐｐ．１８５-２０３、１９８１）Ｐ．Ｇｉａｃｃｏｎｅ、Ｇ．Ｊｏｎｅｓの論文、「オプティカルフローの計算について時空的アプローチ（Spatio−temporal approaches to the computation of optical flow）」（ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＢｒｉｔｉｓｈＭａｃｈｉｎｅＶｉｓｉｏｎＣｏｎｆｅｒｅｎｃｅ、１９９７）Ｍｏｕｌｉｎ：Ｐ．Ｍｏｕｌｉｎ、Ｒ．Ｋｒｉｓｈｎａｍｕｒｔｈｙ及びＪ．Ｗｏｏｄｓ、「ビデオコーディングのためのモーションフィールドのマルチスケール・モデリング及び推定（Multiscale Modeling and Estimation of Motion Fields for Video Coding）」（ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ．６、ｎｏ．１２、ｐｐ．１６０６-１６２０、１９９６年１２月）ＥｅｒｏＰ．Ｓｉｍｏｎｃｅｌｌｉによる文献「ベイズのマルチスーケール微分オプティカルフロ（Bayesian multiscale differential optical flow）」（ＨａｎｄｂｏｏｋｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＡｐｐｌｉｃａｔｉｏｎｓ、Ｂ．Ｊａｈｎｅ、Ｈ．Ｈａｕｓｓｅｃｋｅｒ、及びＰ．Ｇｅｉｓｓｌｅｒ編、ＡｃａｄｅｍｉｃＰｒｅｓｓ、１９９９）Ｄ．Ｔａｕｂｍａｎ、Ｎ．Ｍｅｈｒｓｅｒｅｓｈｔ、Ｒ．Ｌｅｕｎｇ、「ＳＶＣＴｅｃｈｎｉｃａｌＣｏｎｔｒｉｂｕｔｉｏｎ：ＯｖｅｒｖｉｅｗｏｆｒｅｃｅｎｔｔｅｃｈｎｏｌｏｇｙｄｅｖｅｌｏｐｍｅｎｔｓａｔＵＮＳＷ」（ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１／Ｍ１０８６８、２００４）

出願人は、上記文献には異なるスケーラビリティレベルについて妥協案を用いるマルチ解像度分析に基づいたモーション推定アルゴリズムが記載されているにも関わらず、ブロックマッチングを適用することによりモーション推定が常に行われることが分かった。しかしながら、異なる空間解像度を忠実に表すことができるモーションフィールドを実現する方法は知られていないので、ブロックマッチングはスケーラブルコーディングに適用される場合に困難さを有する。

発明の詳細な説明
出願人は、特にスケーラブルビデオコーディングのためのマルチ解像度での空間スケーラビリティの場合にモーション推定装置の性能を改善するためにオプティカルフローのアルゴリズムプロセスを修正するスケーラブルコーディングのシナリオにオプティカルフロー技術を適応させる問題を扱ってきた。

出願人は、最低の空間解像度についてオプティカルフローの計算を実行した後、当該レベルについての解とより低い解像度での低レベルについての解との類似性を測る制約が追加されたより大きな解像度について同様のプロセスを行なうことにより、推定装置性能を改善できることが分かった。

デコーディングの際、異なる解像度についてのモーションフィールドが、ウェーブレット型（離散的ウェーブレット変換ＤＷＴ）のフィルターのベンチを適用することにより、（後に説明する方法によりコーディングするとき計算される）最高の解像度に関連付けられたフィールドにより得られる。

調整項として実現される上記の制約は、（特にローパス成分において）より低い解像度について既に計算されたモーションフィールドとは異なる解にペナルティーを科す。調整項は、計算されるフィールドと下のレベルについて既に計算されたフィールドとの差を定量化する。この目的のため、ローパスウェーブレットフィルタリングが、計算されるべきフィールドに適用された後、解像度を下げるためにサブサンプリングが行われる。

次に、調整により与えられる影響が、レベル間の類似性を決定する係数（「調整係数」という）により設定できる。大きな調整係数は、ここに記載のプロセスの以降の反復中に特定の解像度の成分をほとんど変化させない。そうではなく調整係数が小さい場合、特により上のレベルで現れる詳細がより低いレベルで見ることのできるものとは異なって移動するならば、以降の反復中に特定の解像度の成分が変えられる。

したがって、シーンの内容及びスケーラビリティの必要性に依存して性能を最大にするために、いくつかの空間レベルに幾分束縛された解を得ることができる。

より低いレベルにつき計算されたフィールドは、最終フィールド中の項としてではなく、最適化基準の一部としてのみ使用される。デコーディングするとき特定の解像度で適用できるモーションフィールドを得るためには、高周波成分を除去するローパスウェーブレットフィルタリングを行なってその結果をサブサンプリングすることで十分である。

したがって、本発明の技術はマルチ解像度スケーラブルビデオコーディングにおいて革新的な調整項を加える。

この手順の最終結果は、最高レベルにて計算されたモーションフィールドから構成される。これ自体、すべての解像度レベルについて（オプティカルフローの意味において）最適なモーションフィールドに対する近似を成分として含む。したがって、本発明の技術により、種々の使用解像度の間で、マルチ解像度のフィールドに属する誤差を分散することができる。

ウェーブレット型のビデオコーダーについて研究され提案した解決策は、ハイブリッド型コーダーにおいても採用できる。

したがって第１の態様によると、本発明は最小解像度レベルと最大解像度レベルとの間に含まれる複数の空間解像度レベルで表すことができる一連のフォトグラムのモーションフィールドを推定するステップを有する、スケーラブルビデオのコーディングのためのモーション推定方法であって、前記モーションフィールドを推定するステップが、関数の最小化により前記空間解像度レベルの各々についてモーションフィールドを計算するステップを含み、最小空間解像度レベルとは異なる各レベルについて、前記関数が、当該レベルについての前記最小化の解と当該レベルの直ぐ下の空間解像度レベルについての前記最小化の解との差を表す、レベル間の調整項を含むことを特徴とするスケーラブルビデオのコーディングのためのモーション推定方法に関する。「最小化の解法」なる表現は、当該関数の最小を得ることのできる解法を意味する。

好ましくは、上記関数はオプティカルフロー方程式により表すことができる。言い換えれば、モーションフィールドは、最小空間解像度レベルとは異なるレベルについてレベル間の上記調整項を有するオプティカルフロー方程式により計算される。この項は最小解像度レベルについては存在しない。

好ましくは、最小空間解像度レベルとは異なるすべてのレベルについてモーションフィールドを計算する前記ステップが、最小空間解像度レベルから最大空間解像度レベルに順次変えて実行される。

各空間解像度レベルについて、モーションフィールドが初期モーションフィールドと増分モーションフィールドとを含み、好ましくは、モーションフィールドを計算する前記ステップが増分モーションフィールドを計算し、増分モーションフィールドを初期モーションフィールドに加えることを含む。

最小空間解像度レベルとは異なるオーダーＫ−ｍの一般的な空間解像度レベルについて、レベル間の前記調整項を

により表すことができ、ここでＥはフィルタリング及びサブサンプリングの演算子であり、ｐ^０は初期モーションフィールドであり、ｑは増分モーションフィールドであり、さらに座標ｘ，ｙの一般的な点での前記増分モーションフィールドｑは

で表すことができ、ここでδｕ及びδｖは増分モーションフィールドの水平成分及び垂直成分である。

好ましくは、前記フィルタリング及びサブサンプリングの演算子Ｅがウェーブレット変換のローパス成分である。

最小空間解像度レベルとは異なる各レベルについて、好ましくは最小化を

で表すことができ、ここでＦ_１（ｑ）は近似誤差を示す項であり、Ｆ_２（ｑ）はモーションフィールド規則性を示す項であり、λ及びμは２つの調整係数である。

代わりに、前記最小空間解像度レベルについて、好ましくは最小化を

で表すことができる。

また、次の時刻ｔ及び時刻ｔ＋１での一般的な解像度レベルＫ−ｍの２つのフォトグラムｇ_ｔ及びｇ_ｔ＋１を考慮して、近似誤差を表す前記項を、

で表すことができ、ここで、
- ｕ０及びｖ０は初期モーションフィールドの水平成分及び垂直成分であり、
- Ａ_Ｋ−ｍはフォトグラムｇ_ｔ＋１の空間微分を含んだ２つの対角サブマトリックスから成るマトリックスであり、

で表され、
- Ｍは、

に示される様に一般的なフォトグラムｇを歪ませることができるモーション演算子である。

モーションフィールド規則性を示す前記項は

で表すことができ、ここでＨは

で表すことができる二次微分演算子である。

好ましくは本方法は、モーションフィールドを計算する前記ステップの前に、最大空間解像度レベルのフォトグラムから開始して異なる空間解像度レベルのフォトグラムを構成する別のステップを含む。

また、好ましくは、各空間解像度レベルについて、フォトグラムを構成する前記ステップが、最大空間解像度レベルのフォトグラムをフィルタリングしサブサンプリングするステップを含み、フィルタリングしサブサンプリングする前記ステップが、空間解像度レベルを最大空間解像度レベルから分離するレベル数に等しい回数実行される。

好ましくは、フィルタリングしサブサンプリングする前記ステップが、以下のステップ、すなわち
- 行に沿ったローパスフィルタリング；
- 列に沿ったサブサンプリング；
- 列に沿ったローパスフィルタリング；及び
- 行のサブサンプリング；
を含む。

本発明は更に、上記の方法によりビデオ画像をコーディングするステップ、コード化された画像を送信するステップ、コード化された画像を受信するステップ、及び受信したコード化画像をデコードするステップからなるコード化ビデオ画像の送信方法に関する。

好ましくは、前記デコードするステップが、所望の解像度レベルの一連のフォトグラムを得るために前記コード化ビデオ画像に少なくとも１つのウェーブレット型の変換を適用することを含む。

上記の方法は、プログラムとして（一連のステップとして）プロセッサにより実行できる。したがって、本発明はまた、データ処理システムのメモリに直接ロードできると共に実行時に上記の方法を実施できるプロセッサプログラムにも関する。最後に、本発明は上記の方法を実行するための手段を備えたシステムにも関係する。

以下、本発明を限定するものではないが、実施態様を示す添付図面を参照して本発明を説明する。

図１では、符号１が画像コーダー２と画像デコーダー３とを備えたビデオ信号の送信システムを示す。画像コーダー２は、ビデオ撮影装置（例えばデジタルビデオカメラ）により生成されたビデオ信号Ｓを受信し、対応するコード化ビデオ信号Ｓｃを生成すべく信号Ｓをコード化し、最終的にこのコード化信号を公知の種類の伝送媒体４（例えば光ファイバー接続）上に送信することができる。デコーダー３は、コード化信号Ｓｃを受信し、該信号をデコードして（信号Ｓに類似しているが必ずしも同じではない）信号ＳＤを抽出できる。

信号Ｓは、可能な解像度レベルのセットから選択された１つの空間解像度レベルにてデコードできるようにコード化される。

したがって、以下の説明では、Ｍ＋１個のレベルを有するフォトグラム及びモーションフィールドを表すためにマルチ解像度ピラミッドの存在が仮定される（最高レベルが添え字Ｋを有し、最低レベルが添え字Ｋ−Ｍを有する）。

図２は時間ｔ＝１，ｔ＝２…，ｔ＝Ｔにて３つのフォトグラム列を示し、これらは同じビデオに関するものではあるが３つの異なる解像度レベルＫ，Ｋ−ｍ及びＫ−Ｍに対応している。特に、最初のフォトグラム列ｆ_１ ^Ｋ，ｆ_２ ^Ｋ，…，ｆ_Ｔ ^Ｋは最大解像度（レベルＫ）に関係し、２番目のフォトグラム列ｆ_１ ^Ｋ−ｍ，ｆ_２ ^Ｋ−ｍ，…，ｆ_Ｔ ^Ｋ−ｍは中間の解像度（レベルＫ−ｍ）に関係し、３番目のフォトグラム列ｆ_１ ^Ｋ−Ｍ，ｆ_２ ^Ｋ−Ｍ，…，ｆ_Ｔ ^Ｋ−Ｍは最小解像度（レベルＫ−Ｍ）に関係する。

最大解像度レベルのフォトグラム列からなる非コード化ビデオ信号を受信すると、コーダー２はより低い解像度レベルでフォトグラムの構成を行なう。図３の流れ図に示されているように、最大解像度より低いレベルの解像度でフォトグラムを形成するためには、以下の一連の操作を最大解像度のフォトグラムに行なう。
- 行に沿ったローパスフィルタリング（ステップ１０）；
- 列のサブサンプリング（ステップ２０）；
・列に沿ったローパスフィルタリング（ステップ３０）；及び
- 行のサブサンプリング（ステップ４０）。
この一連の操作を文字Ｂにより表す。

最大レベルよりｍレベル低い解像度のフォトグラムを形成するためには、上記一連の操作をｍ回行なう。Ｂｍとして表されるこの操作は、二次元画像について離散的ウェーブレット変換（ＤＷＴ）の対応するローパス成分を計算することに等しい。次に、時間ｔでのレベルＫ−ｍ（すなわち最大レベルよりｍレベル低い）のフォトグラムが、時間ｔでの最大レベルＫの対応するフォトグラムから下記の関係により得られる。

異なるレベルのフォトグラムを形成した後、異なるレベルでモーションフィールドの計算が行われる。本発明では、反復手順によりコード化を行なう際にモーションフィールドが得られる。この手順ではまずオプティカルフロー型関数を最小化することにより最低の解像度のモーションフィールドを計算し、次により高い解像度についてモーションフィールドを計算するために、最終的なモーションフィールドが計算される最大の解像度に達するまで解像度のピラミッドに沿って上がる。

他のすべての解像度では、モーションフィールドが、費用関数（計算されるべき解と、それより下のレベルについて既に得られた解との類似性を１つの項が表す）を最小化することにより計算される。最小化は連立方程式を解くことにより得ることができる。

一般的な解像度Ｋ−ｍと一般的な時刻ｔとを想定する。この解像度に関係し時間ｔ及び時間ｔ＋１での２つのフォトグラムを考えると、これらはｇ_ｔ＝ｆ_ｔ ^Ｋ−ｍとｇ_ｔ−１＝ｆ_ｔ−１ ^Ｋ−ｍとである。

オプティカルフロー技術により、２つの対角線上にてデカルト座標ｘ及びｙに関する一次空間微分を含むと共に、その他の要素はゼロに等しいマトリックスが構成される。

オプティカルフローは水平モーションフィールドｕ０（ｘ，ｙ）及び垂直モーションフ
ィールドｖ０（ｘ，ｙ）により初期化され、ベクトル

が一方のフォトグラムと他方のフォトグラムとの間で（ｘ，ｙ）のピクセルを移動させることを仮定する。

オプティカルフローを解くために最小化すべき関数の第１項は次式の通りである。

ここで、変数ｑは最初のものに加えられるべき増分モーションフィールド

であり、Ｍは初期化に関して定義されたモーション演算子であり、モーションフィールドｕ及びｖに従ってフォトグラムｇを次式のように歪ませることができる。

（非整数を含んだフィールドｕ及びｖについてフォトグラム端部付近での移動のために修正が必要な場合）。

したがって、上述したことから、モーションフィールドｐはｐ＝ｑ＋ｐ^０として、すなわち初期項と増分項との和として表すことができる。
上記の項Ｆ_１（ｑ）は近似誤差を示す項である。

オプティカルフローの第１項はモーションフィールドを一義的に決定しない。Ｈｏｒｎ及びＳｃｈｕｎｃｋによる古典的な公式によると、モーションフィールドの二次微分のエネルギーに等しい項を追加する必要がある。この二次微分は、

に等しい演算子Ｈにより表され、モーションフィールドの二次微分のエネルギーは次式の通りである。

第２項Ｆ_２は適当な調整係数によりモーションフィールド規則性（すなわち詳細の「不十分さ」）を表す。

本発明によると、最低レベル以外のすべての解像度レベルにて第３項Ｆ_３が、最小化されるべき関数の２つの典型項Ｆ_１及びＦ_２に加えられる。この項Ｆ_３は、推定する必要のあるフィールド（空間解像度レベルＫ−ｍにて）と前に計算されたフィールド（レベルＫ−ｍ−１にて）との間の類似性を保つために用いられる。この類似性を定量化するために、より低い解像度（レベルＫ−ｍ−１）のフィールドと現在のフィールド（レベルＫ−ｍ）のローパス成分との差が考慮される。

ローパス成分は、

として演算子Ｂにより表すことができる。ここで、演算子Ｅは水平フィールドと垂直フィールドの両方をフィルタリングしサブサンプリングする。この操作は、初期のものｐ^０と計算される増分ｑから構成されるフィールドに実行される。

このようにして、第３項は次式となる。

この第３項は、適当な調整係数を有し、より下の解像度により受け継がれる制約である。言い換えれば、第３項はレベル間の調整項である。

これら３つの項Ｆ_１，Ｆ_２及びＦ_３から、下記に説明するアルゴリズムにより最終モーションフィールドを得ることができる。

最低の解像度にて、モーションフィールド

が計算される。ここで、ｐ ^０ _Ｋ−Ｍは初期フィールドであり、ｑは増分フィールドである
。ｑは次の（オプティカルフロー）方程式：

により表すことができ、ここでλは調整係数である。制約ｑ∈Ｐ_Ｋ−Ｍは、解が解像度レベルＫ−Ｍであることを示す。

最低の解像度より大きなすべての解像度にて、すなわち一般的なレベルＫ−ｍにて、モーションフィールドが次式により計算される。

ここでｐ ^０ _Ｋ−ｍは初期フィールドであり、ｑは増分フィールドである。ｑは次の（オプティカルフロー）関数：

により表すことができ、ここでλとμは調整係数である。制約ｑ∈Ｐ_Ｋ−ｍは、解像度レベルＫ−ｍにて解を見つけ得ることを示す。

式（１３）の総和における３つの項Ｆ_１（ｑ），Ｆ_２（ｑ）及びＦ_３（ｑ）は、近似誤差、モーションフィールド規則性、及び下の解像度により受け継がれる制約をそれぞれ表す。係数λが大きい場合には、結果として得られるモーションフィールドについては規則性に優先度（すなわち低い詳細内容）が与えられる。係数μが大きい場合には、結果として得られたモーションフィールドがより低い解像度について計算されたモーションフィールドに対して有する類似性に優先度が与えられる。

式（１３）は次の正規方程式により解かれる。

以下、図４の流れ図を参照してモーションフィールドの計算を説明する。
第１のステップ（ブロック１００）では、解像度レベルＫ−ｍを最低のレベルＫ−Ｍに初期化するために変数ｍがＭに初期化される。レベルＫ−Ｍで時間ｔ及び時間ｔ＋１での２つのフォトグラムｆ_ｔ及びｆ_ｔ＋１を考え、それぞれのフォトグラムｇ_ｔ＝ｆ_ｔ ^Ｋ−Ｍ及びｇ_ｔ＋１＝ｆ_ｔ＋１ ^Ｋ−Ｍを抽出する。

次に、式（１０）及び（１１）により表すことのできる関数を最小化してモーションフィールドｐ_Ｋ−Ｍを計算する（ブロック２００）。
次に１レベル上げてレベルｍ−１にし、新しい解像度レベルについてフォトグラムを抽出する（ブロック３００）。

次に、モーションフィールドｐ_Ｋ−ｍを計算し（ブロック４００）、式（１２）及び（１３）により表すことのできる関数を最小化する（ブロック４００）。

次に、最高レベル（ｍ＝０）に達したか否かを調べる（ブロック５００）。最高レベルに達したならば、手順を終了する。最高レベルにまだ達していないならば、さらにレベルを上げてブロック３００から手順を再開する。
手順の終わりに、最終的なモーションフィールドｐ_Ｋが得られる。

ビデオ画像をコーディング及びデコーディングするためのシステムを例として示す。本発明のコーディング技術が適用される多くの解像度レベルのビデオ画像列を示す。本発明のコーディング方法に含まれるフィルタリングステップ及びサブサンプリングステップを示す。本発明の方法のステップに関連した流れ図を示す。

１ビデオ信号送信システム
２画像コーダー
３画像デコーダー

Claims

最小空間解像度レベル（Ｋ−Ｍ）と最大空間解像度レベル（Ｋ）との間に含まれる複数の空間解像度レベル（Ｋ，…，Ｋ−ｍ，…，Ｋ−Ｍ）で表すことができる一連のフォトグラム（ｆ_１，ｆ_２，…，ｆ_Ｔ）のモーションフィールド（ｐ）を推定するステップを有する、スケーラブルビデオのコーディング方法であって、
前記モーションフィールドを推定するステップが、関数の最小化により前記空間解像度レベルの各々についてモーションフィールドを計算するステップを含み、
最小空間解像度レベルとは異なる各レベルについて、前記関数が、当該レベルについての前記最小化の解と当該レベルの直ぐ下の空間解像度レベルについての前記最小化の解との差を表す、レベル間の調整項を含むことを特徴とするスケーラブルビデオのコーディング方法。
最小空間解像度レベルとは異なるすべてのレベルについてモーションフィールドを計算する前記ステップが、最小空間解像度レベルから最大空間解像度レベルに順次変えて実行される請求項１に記載の方法。
各空間解像度レベルについて、モーションフィールドが初期モーションフィールド（ｐ^０）と増分モーションフィールド（ｑ）とを含み、モーションフィールド（ｐ）を計算する前記ステップが増分モーションフィールド（ｑ）を計算し、増分モーションフィールド（ｑ）を初期モーションフィールド（ｐ^０）と合計することを含む請求項１又は２に記載の方法。
最小空間解像度レベルとは異なる一般的な空間解像度レベルＫ−ｍについて、レベル間の前記調整項を

により表すことができ、ここでＥはフィルタリング及びサブサンプリングの演算子であり、ｐ^０は初期モーションフィールドであり、ｑは増分モーションフィールドであり、座標ｘ，ｙの一般的な点での前記増分モーションフィールドｑは

で表すことができ、ここでδｕ及びδｖは増分モーションフィールドの水平成分及び垂直成分であり、最小空間解像度レベルとは異なる各レベルについて、前記最小化を

で表すことができ、ここでＦ _１（ｑ）は近似誤差を示す項であり、Ｆ _２（ｑ）はモーションフィールド規則性を示す項であり、λ及びμは２つの調整係数である請求項３に記載の方法。
前記フィルタリング及びサブサンプリングの演算子Ｅがウェーブレット変換のローパス成分である請求項４に記載の方法。
前記最小空間解像度レベルについて、前記最小化を

で表すことができる請求項４に記載の方法。
時刻ｔ及び時刻ｔ＋１での一般的な空間解像度レベルＫ−ｍの２つのフォトグラムｇ_ｔ及びｇ_ｔ＋１を考慮して、近似誤差を表す前記項を、

で表すことができ、ここで、
- ｕ_０及びｖ_０は初期モーションフィールドの水平成分及び垂直成分であり、
- Ａ_Ｋ−ｍはフォトグラムｇ_ｔ＋１の空間微分を含んだ２つの対角サブマトリックスから成るマトリックスであり、

で表され、
- Ｍは、

に示される様に一般的なフォトグラムｇを歪ませることができるモーション演算子である、請求項４又は６に記載の方法。
モーションフィールド規則性を示す前記項は

で表すことができ、ここでＨは

で表すことができる二次微分演算子である、請求項４又は６に記載の方法。
モーションフィールドを計算する前記ステップの前に、最大空間解像度レベルのフォトグラムから開始して異なる空間解像度レベルのフォトグラムを構成する別のステップを含む請求項１〜８のいずれか一項に記載の方法。
各空間解像度レベルについて、フォトグラムを構成する前記ステップが最大空間解像度レベルのフォトグラムをフィルタリングしサブサンプリングするステップ（１０〜４０）を含み、フィルタリングしサブサンプリングする前記ステップが、当該空間解像度レベルを最大空間解像度レベルから分離するレベル数に等しい回数実行される請求項９に記載の方法。
フィルタリングしサブサンプリングする前記ステップが、以下のステップ、すなわち
- 行に沿ったローパスフィルタリング（１０）；
- 列のサブサンプリング（２０）；
- 列に沿ったローパスフィルタリング（３０）；及び
- 行のサブサンプリング（４０）；
を含む請求項１０に記載の方法。
前記関数はオプティカルフロー方程式により表すことができる請求項１〜１１のいずれか一項に記載の方法。
請求項１〜１２のいずれか一項に記載の方法によりスケーラブルビデオのコーディングを行うステップ、コード化ビデオ画像を送信するステップ、コード化ビデオ画像を受信するステップ、及び受信したコード化ビデオ画像をデコードするステップを含むコード化ビデオ画像の送信方法。
前記デコードするステップが、所望の空間解像度レベルの一連のフォトグラムを得るために前記コード化ビデオ画像に少なくとも１つのウェーブレット型の変換を適用することを含む請求項１３に記載の方法。
データ処理システムに請求項１〜１４のいずれか一項に記載の方法を実行させるコンピュータプログラム。
請求項１〜１４のいずれか一項に記載の方法を実行するための手段を備えたシステム。