JP2009510869A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2009510869A5 JP2009510869A5 JP2008532887A JP2008532887A JP2009510869A5 JP 2009510869 A5 JP2009510869 A5 JP 2009510869A5 JP 2008532887 A JP2008532887 A JP 2008532887A JP 2008532887 A JP2008532887 A JP 2008532887A JP 2009510869 A5 JP2009510869 A5 JP 2009510869A5
- Authority
- JP
- Japan
- Prior art keywords
- spatial resolution
- motion field
- level
- resolution level
- photogram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003287 optical Effects 0.000 claims description 29
- 238000001914 filtration Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims 1
- 238000000034 method Methods 0.000 description 28
- 230000005540 biological transmission Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000007906 compression Methods 0.000 description 4
- 230000000875 corresponding Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 210000003284 Horns Anatomy 0.000 description 1
- 101700080201 SC29 Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000003365 glass fiber Substances 0.000 description 1
- 230000004301 light adaptation Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001131 transforming Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Description
本発明はスケーラブルビデオコーディング方法を扱う。
ビデオコーディングは、一連の異なる操作、すなわちモーション推定、空間変換、量子化、エントロピーコーディングからなる複雑な処理である。最初の操作であるモーション推定は、本方法において重要な役割を演じ、その効率は得られる圧縮比に深く影響する。実際はこのステップにおいて、連続したフォトグラムを普通に特徴付ける高い類似性を利用することにより、隣接したものから開始してフォトグラムの内容の予測が計算される。
以下、「基準フォトグラム」なる用語は、デコーダーにより再構成できるように既に処理されたフォトグラムを意味する。「現在のフォトグラム」なる用語は、コード化されるべきフォトグラム、すなわち処理対象を意味する。現在のフォトグラムを近似するために基準フォトグラムが修正される。
連続したフォトグラム間の類似性は、「歪み」により表すことができる。コード化されたフローは、現在のフォトグラム予測と現在のフォトグラム自体との差から構成されると共に、同じ予測を得て完全な再構成を行なうことをデコーダーに可能にする追加情報からも構成される。このようにして、コード化された情報エネルギーが最小化されて圧縮率を最大化する。
ハイブリッド型の従来の規格(例えばMPEG−2、H.264/AVC)において最も用いられるモーション推定技術は、いわゆる「ブロックマッチング」である。ブロックマッチングでは、現在のフォトグラムの全体が、可変サイズの小ブロックに分割され、その各々が、最も類似した内容を有するブロックと基準フォトグラム上にて関連付けられ、よって、このことにより差エネルギーが最小になる。したがって、これら2つの小ブロック(1つは現在のフォトグラム上、もう1つは基準フォトグラム上)は、おそらく同じ画像部分を示している。撮影される対象物の移動又はカメラの移動により1フォトグラムから次のフォトグラムに移るとき、しばしばこの画像部分はオフセットされる。したがって、現在の画像のすべての小ブロックを、前のフォトグラムに対して小ブロックが受けたオフセットを表す二次元ベクトルに関連付けることができる。オフセットを特定するこのような二次元ベクトルを「モーションベクトル」(MV)という。
よって、コード化されたフローにおいて、基準フォトグラム、MV、及び個々のブロックとそれらの予測との差が挿入される。
ブロックマッチングの使用により、いくつかの視覚的な人工物がデコード化フロー上に高い圧縮比で導入されるが、ハイブリッド型コーダー(すなわち移動及び空間圧縮を補償するために予測を含んだコーダー)においてモーション推定を計算するための最も効率的な方法と思われる。
従来のDCT(離散的コサイン変換)とは異なる変換(例えば「ウェーブレット」変換)に基づいた新しいビデオコーディング技術の出現により、モーション推定技術としてブロックマッチングを用いることで効率損失が検出される。実際には、ブロック中で作用するDCTとは反対にウェーブレット変換は、フォトグラム全体に適用され、したがって、ブロックマッチング技術によって小ブロックの端に不連続性が導入され、このことが変換された領域において高周波成分の原因を与える。このような成分は量子化ステップの性能を著しく制限する。したがって、新しい種類のモーション表現が必要とされる。
ブロックマッチングに対する別のアプローチ(いわゆる「オプティカルフロー」)に基づいたモーション推定装置は公知であり、ブロックを使用することなく現在のフォトグラム予測を求めるために基準フォトグラムのスポット歪みを計算する。オプティカルフロー技術については、例えば非特許文献1に記載されている。オプティカルフローは、現在のフォトグラムの空間及び時間微分から、すなわち時間的に隣接し且つ/又は連続したピクセル間のスポット差から得られる係数を有する連立一次方程式を解くことによって計算される。解は二次元ベクトルのセットであり、「モーションフィールド」と称されるすべてのフォトグラムピクセルに対して1つである。
オプティカルフローにより生成されたモーションフィールドは、連立一次方程式中に調整項を追加することによって規則的又は「滑らか」になるように決定できる。滑らかなフィールドにより、ブロックマッチングの典型的な不連続性を示さない残差が得られ、ウェーブレット変換により分解できる。
モーションフィールドを反復計算するオプティカルフローの態様が存在し、各反復にてフィールドの総和中に項として挿入されるフィールドを決定する。最終的な和がモーションフィールドである。非特許文献2には、例えば最初のモーションフィールドを構築するために特殊な解法を用いてオプティカルフロー技術を使用することが記載されており、最初のモーション推定は幾つかの目立つポイントを識別しトラッキングすることに基づいている。
ビデオコーディングにおいてオプティカルフローを用いてマルチ解像度モーション推定技術を適用することは、例えば非特許文献3に記載されている。
特にオプティカルフローによるモーション推定の態様が存在し、この態様では「コアース・ツー・ファイン(coarse-to-fine)」手順、すなわちマルチ解像度の手順を用いる。これらの技術ではモーションフィールドが総和として構成される。この総和のすべての項は、様々な空間解像度を含んだピラミッドのレベルに対応する。これらの手順の目的は、ワイド・モーション計算の際、すなわち特定数のピクセルを超えるオフセットを決定する際にオプティカルフローアルゴリズムが遭遇する困難さを解消することである。
実際には、これらの技術は次のように動作する。最初の項は、最低の解像度レベルにてフォトグラムについて推定されたモーションフィールドから構成される。それ以降の項は次のようにして生成される。
1.解像度レベルを1だけ上げ、そのレベルのフォトグラムを考える。
2.補間により拡張すると共に前に計算されたフィールドをスケーリングすることでモーションフィールドを生成する。
3.その結果生成されたフィールドを用いて基準フォトグラムを変形する。
4.変形したフォトグラムと現在のフォトグラムとの間に存在するモーションフィールドを計算する。このフィールドはこの総和の項となり、既に計算されたものに加えられる。
5.最大解像度レベルに到達しなかったならば、本プロセスはステップ1から繰り返される。
1.解像度レベルを1だけ上げ、そのレベルのフォトグラムを考える。
2.補間により拡張すると共に前に計算されたフィールドをスケーリングすることでモーションフィールドを生成する。
3.その結果生成されたフィールドを用いて基準フォトグラムを変形する。
4.変形したフォトグラムと現在のフォトグラムとの間に存在するモーションフィールドを計算する。このフィールドはこの総和の項となり、既に計算されたものに加えられる。
5.最大解像度レベルに到達しなかったならば、本プロセスはステップ1から繰り返される。
したがって、この技術では、より低いレベルについて計算されたモーションフィールドが、最終的なフィールドにおける項として用いられる。
非特許文献4には、例えば複数レベルにてモーション推定に属する不確実性を管理できるアルゴリズムを使用するマルチ解像度オプティカルフロー装置が記載されている。特定レベルでのモーションフィールドは、下のレベル及び確率成分から得られるモーションの総和としてモデル化される。マルチ解像度オプティカルフローモーション推定に関する他の文献としては特許文献1(US05680487)及び特許文献2(US05241608)がある。
オプティカルフローは、従来のコーディングとは異なる環境において、特にスケーラブルビデオコーディング(SVC)(「レベル」コーディングともいう)の場合に適用できる。SVC技術の目的は、単一のコード化されたフローから開始して、単一コーディングを実行して、複数のクオリティのフローを得ることのできるビットストリームを得ることである。実際、このようなビットストリームから、空間、時間(「フレームレート」で示される)及びクオリティ(「ビットレート」で示される)特性を考慮して(可能な解像度のセットから選択された)所望の解像度を有するビデオフローに関連した新しいビットストリームを抽出できる。ハイブリッド型技術とウェーブレットに基づいたアプローチとの両方を用いる構成は公知である。
スケーラブル・コーディングは例えば雑音の多いチャネルで伝送するために重要である。実際には、より良い性能を有するチャネル上で伝送することにより、最も重要なレベル(基本レベル)を保護することができる。スケーラブル・コーディングは可変ビットレートのチャネル上で非常に有効である。すなわち、帯域が狭められたとき、重要性の低い層は伝送されない。スケーラビリティの別の有効な応用は、プログレッシブな伝送に存する。すなわち、ユーザーは、例えばデータベースにおいて選択を実行するために基本レベルでのみコード化されたビデオプレビューを変更できる。いったん決定が為されたなら、最上のクオリティでビデオを受信できる。
スケーラブルコーダーにおいて、空間スケーラビリティの場合、モーション推定ステップは非常に複雑であり、このステップによって性能が強く影響を受ける。実際には、詳細の損失やエイリアシングの出現に起因して、より低い解像度について最適な予測が、十分な解像度で計算されたモーションベクトルのスケーリングによって必ずしも与えられるとは限らない。各空間解像度に関連付けられたモーションフィールドについての最適な解は、他の解像度から得ることはできない。したがって、すべての解像度について最適なモーションを、その限定されたセットにおいて限定的に計算することにより求めることはできない。しかしながら、ビットストリーム中に挿入されるモーション表現は、モーションフィールドに専用のビットの過度の占有を防ぐために、一意的でなければならない。
よって、影響されるすべての解像度について性能を最適化できる最良の妥協案を見いだす必要がある。
ブロックマッチング型のモーション推定に基づいたアプローチが存在し、このアプローチでは、与えられる各解像度についてモーションフィールドが計算され、各スケーラビリティレベルについて良好な性能を維持できる妥協案をコード化されたフロー中に挿入することによってモーション情報が一義的に表される。それ以降のアプローチは、妥協案の計算モードに依存して異なる。
特許文献3(EP0644695A2)では、基本層及びエンハンスメント層上で計算された推定から開始して、最終的なモーションフィールドの計算が、各レベルについて推定有効性(残差エネルギーで表す)により導かれた重み関数を用いることによって実行される。
非特許文献5には、推定有効性に依存する可変重みを、空間フィルタリング中に計算される高周波帯域から得られるモーション情報に割り当てる適応プロセスが記載されている。
US05680487
US05241608
EP0644695A2
B.Horn、B.Schunck、「オプティカルフローの決定(Determining optical flow)」(Artificial Intelligence、no.17、pp.185-203、1981)
P.Giaccone、G.Jonesの論文、「オプティカルフローの計算について時空的アプローチ(Spatio−temporal approaches to the computation of optical flow)」(Proceedings of the British Machine Vision Conference、1997)
Moulin: P.Moulin、R.Krishnamurthy及びJ.Woods、「ビデオコーディングのためのモーションフィールドのマルチスケール・モデリング及び推定(Multiscale Modeling and Estimation of Motion Fields for Video Coding)」(IEEE Transactions on Image Processing、vol.6、no.12、pp.1606-1620、1996年12月)
Eero P.Simoncelliによる文献「ベイズのマルチスーケール微分オプティカルフロ(Bayesian multiscale differential optical flow)」(Handbook of Computer Vision and Applications、B.Jahne、H.Haussecker、及びP.Geissler編、AcademicPress、1999)
D.Taubman、N.Mehrseresht、R.Leung、「SVC Technical Contribution: Overview of recent technology developments at UNSW」(ISO/IEC JTC1/SC29/WG11/M10868、2004)
出願人は、上記文献には異なるスケーラビリティレベルについて妥協案を用いるマルチ解像度分析に基づいたモーション推定アルゴリズムが記載されているにも関わらず、ブロックマッチングを適用することによりモーション推定が常に行われることが分かった。しかしながら、異なる空間解像度を忠実に表すことができるモーションフィールドを実現する方法は知られていないので、ブロックマッチングはスケーラブルコーディングに適用される場合に困難さを有する。
発明の詳細な説明
出願人は、特にスケーラブルビデオコーディングのためのマルチ解像度での空間スケーラビリティの場合にモーション推定装置の性能を改善するためにオプティカルフローのアルゴリズムプロセスを修正するスケーラブルコーディングのシナリオにオプティカルフロー技術を適応させる問題を扱ってきた。
出願人は、特にスケーラブルビデオコーディングのためのマルチ解像度での空間スケーラビリティの場合にモーション推定装置の性能を改善するためにオプティカルフローのアルゴリズムプロセスを修正するスケーラブルコーディングのシナリオにオプティカルフロー技術を適応させる問題を扱ってきた。
出願人は、最低の空間解像度についてオプティカルフローの計算を実行した後、当該レベルについての解とより低い解像度での低レベルについての解との類似性を測る制約が追加されたより大きな解像度について同様のプロセスを行なうことにより、推定装置性能を改善できることが分かった。
デコーディングの際、異なる解像度についてのモーションフィールドが、ウェーブレット型(離散的ウェーブレット変換DWT)のフィルターのベンチを適用することにより、(後に説明する方法によりコーディングするとき計算される)最高の解像度に関連付けられたフィールドにより得られる。
調整項として実現される上記の制約は、(特にローパス成分において)より低い解像度について既に計算されたモーションフィールドとは異なる解にペナルティーを科す。調整項は、計算されるフィールドと下のレベルについて既に計算されたフィールドとの差を定量化する。この目的のため、ローパスウェーブレットフィルタリングが、計算されるべきフィールドに適用された後、解像度を下げるためにサブサンプリングが行われる。
次に、調整により与えられる影響が、レベル間の類似性を決定する係数(「調整係数」という)により設定できる。大きな調整係数は、ここに記載のプロセスの以降の反復中に特定の解像度の成分をほとんど変化させない。そうではなく調整係数が小さい場合、特により上のレベルで現れる詳細がより低いレベルで見ることのできるものとは異なって移動するならば、以降の反復中に特定の解像度の成分が変えられる。
したがって、シーンの内容及びスケーラビリティの必要性に依存して性能を最大にするために、いくつかの空間レベルに幾分束縛された解を得ることができる。
より低いレベルにつき計算されたフィールドは、最終フィールド中の項としてではなく、最適化基準の一部としてのみ使用される。デコーディングするとき特定の解像度で適用できるモーションフィールドを得るためには、高周波成分を除去するローパスウェーブレットフィルタリングを行なってその結果をサブサンプリングすることで十分である。
したがって、本発明の技術はマルチ解像度スケーラブルビデオコーディングにおいて革新的な調整項を加える。
この手順の最終結果は、最高レベルにて計算されたモーションフィールドから構成される。これ自体、すべての解像度レベルについて(オプティカルフローの意味において)最適なモーションフィールドに対する近似を成分として含む。したがって、本発明の技術により、種々の使用解像度の間で、マルチ解像度のフィールドに属する誤差を分散することができる。
ウェーブレット型のビデオコーダーについて研究され提案した解決策は、ハイブリッド型コーダーにおいても採用できる。
したがって第1の態様によると、本発明は最小解像度レベルと最大解像度レベルとの間に含まれる複数の空間解像度レベルで表すことができる一連のフォトグラムのモーションフィールドを推定するステップを有する、スケーラブルビデオのコーディングのためのモーション推定方法であって、前記モーションフィールドを推定するステップが、関数の最小化により前記空間解像度レベルの各々についてモーションフィールドを計算するステップを含み、最小空間解像度レベルとは異なる各レベルについて、前記関数が、当該レベルについての前記最小化の解と当該レベルの直ぐ下の空間解像度レベルについての前記最小化の解との差を表す、レベル間の調整項を含むことを特徴とするスケーラブルビデオのコーディングのためのモーション推定方法に関する。「最小化の解法」なる表現は、当該関数の最小を得ることのできる解法を意味する。
好ましくは、上記関数はオプティカルフロー方程式により表すことができる。言い換えれば、モーションフィールドは、最小空間解像度レベルとは異なるレベルについてレベル間の上記調整項を有するオプティカルフロー方程式により計算される。この項は最小解像度レベルについては存在しない。
好ましくは、最小空間解像度レベルとは異なるすべてのレベルについてモーションフィールドを計算する前記ステップが、最小空間解像度レベルから最大空間解像度レベルに順次変えて実行される。
各空間解像度レベルについて、モーションフィールドが初期モーションフィールドと増分モーションフィールドとを含み、好ましくは、モーションフィールドを計算する前記ステップが増分モーションフィールドを計算し、増分モーションフィールドを初期モーションフィールドに加えることを含む。
最小空間解像度レベルとは異なるオーダーK−mの一般的な空間解像度レベルについて、レベル間の前記調整項を
により表すことができ、ここでEはフィルタリング及びサブサンプリングの演算子であり、p0は初期モーションフィールドであり、qは増分モーションフィールドであり、さらに座標x,yの一般的な点での前記増分モーションフィールドqは
で表すことができ、ここでδu及びδvは増分モーションフィールドの水平成分及び垂直成分である。
好ましくは、前記フィルタリング及びサブサンプリングの演算子Eがウェーブレット変換のローパス成分である。
最小空間解像度レベルとは異なる各レベルについて、好ましくは最小化を
で表すことができ、ここでF1(q)は近似誤差を示す項であり、F2(q)はモーションフィールド規則性を示す項であり、λ及びμは2つの調整係数である。
また、次の時刻t及び時刻t+1での一般的な解像度レベルK−mの2つのフォトグラムgt及びgt+1を考慮して、近似誤差を表す前記項を、
で表すことができ、ここで、
- u0及びv0は初期モーションフィールドの水平成分及び垂直成分であり、
- AK−mはフォトグラムgt+1の空間微分を含んだ2つの対角サブマトリックスから成るマトリックスであり、
で表され、
- Mは、
に示される様に一般的なフォトグラムgを歪ませることができるモーション演算子である。
- u0及びv0は初期モーションフィールドの水平成分及び垂直成分であり、
- AK−mはフォトグラムgt+1の空間微分を含んだ2つの対角サブマトリックスから成るマトリックスであり、
- Mは、
好ましくは本方法は、モーションフィールドを計算する前記ステップの前に、最大空間解像度レベルのフォトグラムから開始して異なる空間解像度レベルのフォトグラムを構成する別のステップを含む。
また、好ましくは、各空間解像度レベルについて、フォトグラムを構成する前記ステップが、最大空間解像度レベルのフォトグラムをフィルタリングしサブサンプリングするステップを含み、フィルタリングしサブサンプリングする前記ステップが、空間解像度レベルを最大空間解像度レベルから分離するレベル数に等しい回数実行される。
好ましくは、フィルタリングしサブサンプリングする前記ステップが、以下のステップ、すなわち
- 行に沿ったローパスフィルタリング;
- 列に沿ったサブサンプリング;
- 列に沿ったローパスフィルタリング;及び
- 行のサブサンプリング;
を含む。
- 行に沿ったローパスフィルタリング;
- 列に沿ったサブサンプリング;
- 列に沿ったローパスフィルタリング;及び
- 行のサブサンプリング;
を含む。
本発明は更に、上記の方法によりビデオ画像をコーディングするステップ、コード化された画像を送信するステップ、コード化された画像を受信するステップ、及び受信したコード化画像をデコードするステップからなるコード化ビデオ画像の送信方法に関する。
好ましくは、前記デコードするステップが、所望の解像度レベルの一連のフォトグラムを得るために前記コード化ビデオ画像に少なくとも1つのウェーブレット型の変換を適用することを含む。
上記の方法は、プログラムとして(一連のステップとして)プロセッサにより実行できる。したがって、本発明はまた、データ処理システムのメモリに直接ロードできると共に実行時に上記の方法を実施できるプロセッサプログラムにも関する。最後に、本発明は上記の方法を実行するための手段を備えたシステムにも関係する。
以下、本発明を限定するものではないが、実施態様を示す添付図面を参照して本発明を説明する。
図1では、符号1が画像コーダー2と画像デコーダー3とを備えたビデオ信号の送信システムを示す。画像コーダー2は、ビデオ撮影装置(例えばデジタルビデオカメラ)により生成されたビデオ信号Sを受信し、対応するコード化ビデオ信号Scを生成すべく信号Sをコード化し、最終的にこのコード化信号を公知の種類の伝送媒体4(例えば光ファイバー接続)上に送信することができる。デコーダー3は、コード化信号Scを受信し、該信号をデコードして(信号Sに類似しているが必ずしも同じではない)信号SDを抽出できる。
信号Sは、可能な解像度レベルのセットから選択された1つの空間解像度レベルにてデコードできるようにコード化される。
したがって、以下の説明では、M+1個のレベルを有するフォトグラム及びモーションフィールドを表すためにマルチ解像度ピラミッドの存在が仮定される(最高レベルが添え字Kを有し、最低レベルが添え字K−Mを有する)。
図2は時間t=1,t=2…,t=Tにて3つのフォトグラム列を示し、これらは同じビデオに関するものではあるが3つの異なる解像度レベルK,K−m及びK−Mに対応している。特に、最初のフォトグラム列f1 K,f2 K,…,fT Kは最大解像度(レベルK)に関係し、2番目のフォトグラム列f1 K−m,f2 K−m,…,fT K−mは中間の解像度(レベルK−m)に関係し、3番目のフォトグラム列f1 K−M,f2 K−M,…,fT K−Mは最小解像度(レベルK−M)に関係する。
最大解像度レベルのフォトグラム列からなる非コード化ビデオ信号を受信すると、コーダー2はより低い解像度レベルでフォトグラムの構成を行なう。図3の流れ図に示されているように、最大解像度より低いレベルの解像度でフォトグラムを形成するためには、以下の一連の操作を最大解像度のフォトグラムに行なう。
- 行に沿ったローパスフィルタリング(ステップ10);
- 列のサブサンプリング(ステップ20);
・ 列に沿ったローパスフィルタリング(ステップ30);及び
- 行のサブサンプリング(ステップ40)。
この一連の操作を文字Bにより表す。
- 行に沿ったローパスフィルタリング(ステップ10);
- 列のサブサンプリング(ステップ20);
・ 列に沿ったローパスフィルタリング(ステップ30);及び
- 行のサブサンプリング(ステップ40)。
この一連の操作を文字Bにより表す。
最大レベルよりmレベル低い解像度のフォトグラムを形成するためには、上記一連の操作をm回行なう。Bmとして表されるこの操作は、二次元画像について離散的ウェーブレット変換(DWT)の対応するローパス成分を計算することに等しい。次に、時間tでのレベルK−m(すなわち最大レベルよりmレベル低い)のフォトグラムが、時間tでの最大レベルKの対応するフォトグラムから下記の関係により得られる。
異なるレベルのフォトグラムを形成した後、異なるレベルでモーションフィールドの計算が行われる。本発明では、反復手順によりコード化を行なう際にモーションフィールドが得られる。この手順ではまずオプティカルフロー型関数を最小化することにより最低の解像度のモーションフィールドを計算し、次により高い解像度についてモーションフィールドを計算するために、最終的なモーションフィールドが計算される最大の解像度に達するまで解像度のピラミッドに沿って上がる。
他のすべての解像度では、モーションフィールドが、費用関数(計算されるべき解と、それより下のレベルについて既に得られた解との類似性を1つの項が表す)を最小化することにより計算される。最小化は連立方程式を解くことにより得ることができる。
一般的な解像度K−mと一般的な時刻tとを想定する。この解像度に関係し時間t及び時間t+1での2つのフォトグラムを考えると、これらはgt=ft K−mとgt−1=ft−1 K−mとである。
オプティカルフローは水平モーションフィールドu0(x,y)及び垂直モーションフ
ィールドv0(x,y)により初期化され、ベクトル
が一方のフォトグラムと他方のフォトグラムとの間で(x,y)のピクセルを移動させることを仮定する。
ィールドv0(x,y)により初期化され、ベクトル
オプティカルフローを解くために最小化すべき関数の第1項は次式の通りである。
ここで、変数qは最初のものに加えられるべき増分モーションフィールド
であり、Mは初期化に関して定義されたモーション演算子であり、モーションフィールドu及びvに従ってフォトグラムgを次式のように歪ませることができる。
(非整数を含んだフィールドu及びvについてフォトグラム端部付近での移動のために修正が必要な場合)。
したがって、上述したことから、モーションフィールドpはp=q+p0として、すなわち初期項と増分項との和として表すことができる。
上記の項F1(q)は近似誤差を示す項である。
上記の項F1(q)は近似誤差を示す項である。
オプティカルフローの第1項はモーションフィールドを一義的に決定しない。Horn及びSchunckによる古典的な公式によると、モーションフィールドの二次微分のエネルギーに等しい項を追加する必要がある。この二次微分は、
に等しい演算子Hにより表され、モーションフィールドの二次微分のエネルギーは次式の通りである。
第2項F2は適当な調整係数によりモーションフィールド規則性(すなわち詳細の「不十分さ」)を表す。
本発明によると、最低レベル以外のすべての解像度レベルにて第3項F3が、最小化されるべき関数の2つの典型項F1及びF2に加えられる。この項F3は、推定する必要のあるフィールド(空間解像度レベルK−mにて)と前に計算されたフィールド(レベルK−m−1にて)との間の類似性を保つために用いられる。この類似性を定量化するために、より低い解像度(レベルK−m−1)のフィールドと現在のフィールド(レベルK−m)のローパス成分との差が考慮される。
ローパス成分は、
として演算子Bにより表すことができる。ここで、演算子Eは水平フィールドと垂直フィールドの両方をフィルタリングしサブサンプリングする。この操作は、初期のものp0と計算される増分qから構成されるフィールドに実行される。
この第3項は、適当な調整係数を有し、より下の解像度により受け継がれる制約である。言い換えれば、第3項はレベル間の調整項である。
これら3つの項F1,F2及びF3から、下記に説明するアルゴリズムにより最終モーションフィールドを得ることができる。
最低の解像度にて、モーションフィールド
が計算される。ここで、p 0 K−M は初期フィールドであり、qは増分フィールドである
。qは次の(オプティカルフロー)方程式:
により表すことができ、ここでλは調整係数である。制約q∈PK−Mは、解が解像度レベルK−Mであることを示す。
。qは次の(オプティカルフロー)方程式:
最低の解像度より大きなすべての解像度にて、すなわち一般的なレベルK−mにて、モーションフィールドが次式により計算される。
ここでp 0 K−m は初期フィールドであり、qは増分フィールドである。qは次の(オプティカルフロー)関数:
により表すことができ、ここでλとμは調整係数である。制約q∈PK−m は、解像度レベルK−mにて解を見つけ得ることを示す。
式(13)の総和における3つの項F1(q),F2(q)及びF3(q)は、近似誤差、モーションフィールド規則性、及び下の解像度により受け継がれる制約をそれぞれ表す。係数λが大きい場合には、結果として得られるモーションフィールドについては規則性に優先度(すなわち低い詳細内容)が与えられる。係数μが大きい場合には、結果として得られたモーションフィールドがより低い解像度について計算されたモーションフィールドに対して有する類似性に優先度が与えられる。
以下、図4の流れ図を参照してモーションフィールドの計算を説明する。
第1のステップ(ブロック100)では、解像度レベルK−mを最低のレベルK−Mに初期化するために変数mがMに初期化される。レベルK−Mで時間t及び時間t+1での2つのフォトグラムft及びft+1を考え、それぞれのフォトグラムgt=ft K−M及びgt+1=ft+1 K−Mを抽出する。
第1のステップ(ブロック100)では、解像度レベルK−mを最低のレベルK−Mに初期化するために変数mがMに初期化される。レベルK−Mで時間t及び時間t+1での2つのフォトグラムft及びft+1を考え、それぞれのフォトグラムgt=ft K−M及びgt+1=ft+1 K−Mを抽出する。
次に、式(10)及び(11)により表すことのできる関数を最小化してモーションフィールドpK−Mを計算する(ブロック200)。
次に1レベル上げてレベルm−1にし、新しい解像度レベルについてフォトグラムを抽出する(ブロック300)。
次に1レベル上げてレベルm−1にし、新しい解像度レベルについてフォトグラムを抽出する(ブロック300)。
次に、モーションフィールドpK−mを計算し(ブロック400)、式(12)及び(13)により表すことのできる関数を最小化する(ブロック400)。
次に、最高レベル(m=0)に達したか否かを調べる(ブロック500)。最高レベルに達したならば、手順を終了する。最高レベルにまだ達していないならば、さらにレベルを上げてブロック300から手順を再開する。
手順の終わりに、最終的なモーションフィールドpKが得られる。
手順の終わりに、最終的なモーションフィールドpKが得られる。
1 ビデオ信号送信システム
2 画像コーダー
3 画像デコーダー
2 画像コーダー
3 画像デコーダー
Claims (16)
- 最小空間解像度レベル(K−M)と最大空間解像度レベル(K)との間に含まれる複数の空間解像度レベル(K,…,K−m,…,K−M)で表すことができる一連のフォトグラム(f1,f2,…,fT)のモーションフィールド(p)を推定するステップを有する、スケーラブルビデオのコーディング方法であって、
前記モーションフィールドを推定するステップが、関数の最小化により前記空間解像度レベルの各々についてモーションフィールドを計算するステップを含み、
最小空間解像度レベルとは異なる各レベルについて、前記関数が、当該レベルについての前記最小化の解と当該レベルの直ぐ下の空間解像度レベルについての前記最小化の解との差を表す、レベル間の調整項を含むことを特徴とするスケーラブルビデオのコーディング方法。 - 最小空間解像度レベルとは異なるすべてのレベルについてモーションフィールドを計算する前記ステップが、最小空間解像度レベルから最大空間解像度レベルに順次変えて実行される請求項1に記載の方法。
- 各空間解像度レベルについて、モーションフィールドが初期モーションフィールド(p0)と増分モーションフィールド(q)とを含み、モーションフィールド(p)を計算する前記ステップが増分モーションフィールド(q)を計算し、増分モーションフィールド(q)を初期モーションフィールド(p0)と合計することを含む請求項1又は2に記載の方法。
- 最小空間解像度レベルとは異なる一般的な空間解像度レベルK−mについて、レベル間の前記調整項を
- 前記フィルタリング及びサブサンプリングの演算子Eがウェーブレット変換のローパス成分である請求項4に記載の方法。
- モーションフィールドを計算する前記ステップの前に、最大空間解像度レベルのフォトグラムから開始して異なる空間解像度レベルのフォトグラムを構成する別のステップを含む請求項1〜8のいずれか一項に記載の方法。
- 各空間解像度レベルについて、フォトグラムを構成する前記ステップが最大空間解像度レベルのフォトグラムをフィルタリングしサブサンプリングするステップ(10〜40)を含み、フィルタリングしサブサンプリングする前記ステップが、当該空間解像度レベルを最大空間解像度レベルから分離するレベル数に等しい回数実行される請求項9に記載の方法。
- フィルタリングしサブサンプリングする前記ステップが、以下のステップ、すなわち
- 行に沿ったローパスフィルタリング(10);
- 列のサブサンプリング(20);
- 列に沿ったローパスフィルタリング(30);及び
- 行のサブサンプリング(40);
を含む請求項10に記載の方法。 - 前記関数はオプティカルフロー方程式により表すことができる請求項1〜11のいずれか一項に記載の方法。
- 請求項1〜12のいずれか一項に記載の方法によりスケーラブルビデオのコーディングを行うステップ、コード化ビデオ画像を送信するステップ、コード化ビデオ画像を受信するステップ、及び受信したコード化ビデオ画像をデコードするステップを含むコード化ビデオ画像の送信方法。
- 前記デコードするステップが、所望の空間解像度レベルの一連のフォトグラムを得るために前記コード化ビデオ画像に少なくとも1つのウェーブレット型の変換を適用することを含む請求項13に記載の方法。
- データ処理システムに請求項1〜14のいずれか一項に記載の方法を実行させるコンピュータプログラム。
- 請求項1〜14のいずれか一項に記載の方法を実行するための手段を備えたシステム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/IB2005/002920 WO2007036759A1 (en) | 2005-09-29 | 2005-09-29 | Method for scalable video coding |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2009510869A JP2009510869A (ja) | 2009-03-12 |
JP2009510869A5 true JP2009510869A5 (ja) | 2011-12-15 |
JP4906864B2 JP4906864B2 (ja) | 2012-03-28 |
Family
ID=36572221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008532887A Active JP4906864B2 (ja) | 2005-09-29 | 2005-09-29 | スケーラブルビデオコーディング方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8625678B2 (ja) |
EP (1) | EP1938611B8 (ja) |
JP (1) | JP4906864B2 (ja) |
CN (1) | CN101313579B (ja) |
WO (1) | WO2007036759A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101347000B (zh) | 2005-12-21 | 2010-09-01 | 意大利电信股份公司 | 用于确定立体视觉中密集差异区的方法 |
US8005140B2 (en) | 2006-03-17 | 2011-08-23 | Research In Motion Limited | Soft decision and iterative video coding for MPEG and H.264 |
US8675726B2 (en) * | 2010-02-18 | 2014-03-18 | Blackberry Limited | Method and encoder for constrained soft-decision quantization in data compression |
CN102939750B (zh) | 2010-04-13 | 2016-07-06 | Ge视频压缩有限责任公司 | 跨平面预测 |
ES2907203T3 (es) | 2010-04-13 | 2022-04-22 | Ge Video Compression Llc | Codificación de vídeo que usa subdivisiones multiárbol de imágenes |
CN106454370B (zh) | 2010-04-13 | 2019-11-01 | Ge视频压缩有限责任公司 | 解码器、重建数组的方法、编码器、编码方法及数据流 |
JP5718453B2 (ja) | 2010-04-13 | 2015-05-13 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 復号化方法 |
US20110299605A1 (en) * | 2010-06-04 | 2011-12-08 | Apple Inc. | Method and apparatus for video resolution adaptation |
EP2842106B1 (en) * | 2012-04-23 | 2019-11-13 | Telecom Italia S.p.A. | Method and system for image analysis |
EP2904807A4 (en) | 2012-10-07 | 2016-06-01 | Numeri Ltd | VIDEO COMPRESSION METHOD |
US10349069B2 (en) * | 2012-12-11 | 2019-07-09 | Sony Interactive Entertainment Inc. | Software hardware hybrid video encoder |
CN104519239A (zh) * | 2013-09-29 | 2015-04-15 | 诺基亚公司 | 用于视频防抖的方法和装置 |
WO2015113608A1 (en) * | 2014-01-30 | 2015-08-06 | Huawei Technologies Co., Ltd. | Method for recognizing objects |
EP3016390A1 (en) * | 2014-10-28 | 2016-05-04 | Alcatel Lucent | Method and device for transmission of a video |
US10462490B2 (en) * | 2015-11-06 | 2019-10-29 | Raytheon Company | Efficient video data representation and content based video retrieval framework |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0285902A3 (de) * | 1987-04-07 | 1990-10-10 | Siemens Aktiengesellschaft | Verfahren zur Datenreduktion digitaler Bildsequenzen |
US5241608A (en) * | 1988-11-25 | 1993-08-31 | Eastman Kodak Company | Method for estimating velocity vector fields from a time-varying image sequence |
US5680487A (en) | 1991-12-23 | 1997-10-21 | Texas Instruments Incorporated | System and method for determining optical flow |
CA2127151A1 (en) | 1993-09-21 | 1995-03-22 | Atul Puri | Spatially scalable video encoding and decoding |
JP3628776B2 (ja) * | 1995-10-25 | 2005-03-16 | 沖電気工業株式会社 | 動きベクトル検出装置 |
US6957350B1 (en) * | 1996-01-30 | 2005-10-18 | Dolby Laboratories Licensing Corporation | Encrypted and watermarked temporal and resolution layering in advanced television |
JP2000270335A (ja) * | 1999-03-16 | 2000-09-29 | Nippon Telegr & Teleph Corp <Ntt> | 動画像符号化方法、動画像復号方法、および動画像符号化装置、動画像復号装置、ならびに前記方法を記録した記録媒体 |
KR20020030101A (ko) * | 2000-06-30 | 2002-04-22 | 요트.게.아. 롤페즈 | 비디오 시퀀스의 압축을 위한 인코딩 방법 |
US6717622B2 (en) * | 2001-03-30 | 2004-04-06 | Koninklijke Philips Electronics N.V. | System and method for scalable resolution enhancement of a video image |
US20050031037A1 (en) * | 2001-06-26 | 2005-02-10 | Paul Carrasco | Video coding method |
US7627037B2 (en) * | 2004-02-27 | 2009-12-01 | Microsoft Corporation | Barbell lifting for multi-layer wavelet coding |
-
2005
- 2005-09-29 US US11/992,741 patent/US8625678B2/en active Active
- 2005-09-29 EP EP05805077.4A patent/EP1938611B8/en active Active
- 2005-09-29 WO PCT/IB2005/002920 patent/WO2007036759A1/en active Application Filing
- 2005-09-29 JP JP2008532887A patent/JP4906864B2/ja active Active
- 2005-09-29 CN CN2005800521120A patent/CN101313579B/zh active Active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4906864B2 (ja) | スケーラブルビデオコーディング方法 | |
JP2009510869A5 (ja) | ||
US5943445A (en) | Dynamic sprites for encoding video data | |
US7643690B2 (en) | Image decoding and encoding apparatus, method and computer readable storage medium | |
Shen et al. | Down-sampling based video coding using super-resolution technique | |
US7215831B2 (en) | Video enhancement using multiple frame techniques | |
EP0705035B1 (en) | Encoding data represented as a multi-dimensional array | |
US6625216B1 (en) | Motion estimation using orthogonal transform-domain block matching | |
JP3868017B2 (ja) | 映像処理システム | |
CN100364338C (zh) | 估计图像噪声的方法和设备和消除噪声的方法 | |
US7627040B2 (en) | Method for processing I-blocks used with motion compensated temporal filtering | |
JP2008507190A (ja) | 動き補償方法 | |
JPH08265780A (ja) | ビデオ信号符号化/復号化装置及び方法 | |
JP4494471B2 (ja) | 環状映像の参照画素補間方法、その装置、環状映像符号化方法、その装置及び環状映像復号化方法ならびにその装置 | |
EP1169867B1 (en) | Method and apparatus for motion vector field encoding | |
JP4494803B2 (ja) | 動き補償に基づいた改善されたノイズ予測方法及びその装置とそれを使用した動画符号化方法及びその装置 | |
Segall et al. | Bayesian high-resolution reconstruction of low-resolution compressed video | |
EP0825778A2 (en) | Method for motion estimation | |
WO1997004402A1 (en) | Method and apparatus for regenerating a dense motion vector field | |
Dolly et al. | A hybrid tactic model intended for video compression using global affine motion and local free-form transformation parameters | |
Yang et al. | A low-complexity region-based video coder using backward morphological motion field segmentation | |
Segall et al. | Super-resolution from compressed video | |
Shen et al. | Down-sampling based video coding with super-resolution technique | |
US20080117983A1 (en) | Method And Device For Densifying A Motion Field | |
Wang | Fully scalable video coding using redundant-wavelet multihypothesis and motion-compensated temporal filtering |