JP2002507339A - 非線形ピラミッドを用いた階層的な運動推定実行方法及び装置 - Google Patents

非線形ピラミッドを用いた階層的な運動推定実行方法及び装置

Info

Publication number
JP2002507339A
JP2002507339A JP50094299A JP50094299A JP2002507339A JP 2002507339 A JP2002507339 A JP 2002507339A JP 50094299 A JP50094299 A JP 50094299A JP 50094299 A JP50094299 A JP 50094299A JP 2002507339 A JP2002507339 A JP 2002507339A
Authority
JP
Japan
Prior art keywords
image
pyramid
motion estimation
pixel
linear
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP50094299A
Other languages
English (en)
Other versions
JP2002507339A5 (ja
Inventor
ソン,シュドン
ヅァン,ヤーチン
チャン,ティハオ
Original Assignee
サーノフ コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by サーノフ コーポレイション filed Critical サーノフ コーポレイション
Publication of JP2002507339A publication Critical patent/JP2002507339A/ja
Publication of JP2002507339A5 publication Critical patent/JP2002507339A5/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/53Multi-resolution motion estimation; Hierarchical motion estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/39Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability involving multiple description coding [MDC], i.e. with separate layers being structured as independently decodable descriptions of input picture data

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

(57)【要約】 画像シーケンス・エンコーディング装置及びそれに相伴う方法で、特に、ブロックベースの運動推定の運動ベクトルを求める際の計算量を減らし、且つ非線形ピラミッド用いることによって運動推定の精度を高める方法が開示される。

Description

【発明の詳細な説明】 非線形ピラミッドを用いた階層的な運動推定実行方法及び装置 この出願は、1997年5月30日に出願され、本明細書に援用されている米 国仮出願(U.S.Provisional Apphcation)第60/048,181号の利益を主張する。 発明は、一般的に画像シーケンス・エンコーディング装置及びそれに相 伴う方法に関し、特にブロックベースの運動椎定の運動ベクトルを求める際の計 算量(computational complexity)を減らす方法及び運動推定の精度を高める方法 に関する。 開示の背景 例えばビデオ画像シーケンスといった画像シーケンスは、概して画像フ レーム・シーケンス又は画像ピクチャー・シーケンスを含む。必要な伝送帯域幅 か又は記憶容量を減らすために、フレーム・シーケンスは、シーケンス内の冗長 情報が記憶されないように或いは伝送されないように、圧縮される。 一般に、画像シーケンスをエンコードするために、1つのフレームから 次のフレームへのシーンにおける対象物の運動に関する情報は、エンコーディン グプロセスで重要な役割を果たす。大部分の画像シーケンス内での連続フレーム 間に存在する高冗長のため、実質的なデータ圧縮は、例えばITU H.263、ISOMPEG -1及びMPEG-2といった様々な国際規格によって採用された運動推定/補正(運動 補正されたフレーム間予測ビデオコーディングとしても知られている)として知 られている技術を使って成し遂げられることが可能である。 普及している運動補正方法の一つは、ブロックごとに変位を推定するブ ロック・マッチング・アルゴリズム(BMA)である。これら現行のブロックの各 々に対して、検索は、「最も」現行のブロックとマッチする画素ブロックの先行 するフレームで選ばれたサーチエリア内で実行される。すなわち各々の現行ブロ ックを全ての選ばれたサーチエリアと比較するこの処理法は、全検索処理法(ful l search approach)又は全数探索処理法(exhaustive search approach)として 知られている。全数探索処理法による運動ベクトルの特定は、計算に対して強力 であり、特にサーチエリアがとりわけ広い場合には力を発揮する。 他の運動推定方法は階層的な運動推定(HME)の概念を取り入れ、そこで 、画像は、ピラミッドというマルチ解像度フレームワークに分解される。そして 、階層的な運動ベクトル検索は実行され、そこで、検索はピラミッドの最低解像 度から最高解像度まで進む。HMEが速くて有効な運動推定方法であることは証明 されたけれども、ピラミッドの生成は依然として相当な量の計算サイクルを招く 。 したがって、ニーズは、運動ベクトルを求める際に計算量を減らすため の装置及びそれに相伴う方法の技術に存在する。 発明の要約 本発明の実施例は、運動ベクトルを求める際に計算量を減らし且つ運動 推定方法の精度を高める装置及び方法である。より具体的に言えば、本発明は画 像シーケンス内の画像フレームの各々を非線形ピラミッドに分解する。それから 、階層的な運動ベクトル検索は非線形ピラミッド上で実行される。 図面の簡単な説明 本発明の教示は、添付の図面に関連した以下の詳細な説明を考慮するこ とによって容易に理解され得る。 図1は、運動ベクトルを求める際の計算量を減らす本発明のエンコーダ ーのブロック図を図示する。 図2は、ブロックベースの運動椎定の運動ベクトルを求める際の計算量 を減らす方法のフローチャートを図示する。 図3は、非線形ピラミッドを構築する方法のフローチャートを図示する 。 図4は、3×3メジアン・カーネルを用いて画像上でフィルタリング・オ ペレーションを適用するブロック図を図示する。 図5は、低解像度画像を作り出すための画像上でのデシメーション・プ ロセスのブロック図を図示する。 図6は、本発明のエンコーディングシステムのブロック図を図示する。 図7は、5×5メジアン・カーネルを用いて画像上でフィルタリング・オ ペレーションを適用するブロック図を図示する。 理解を容易にするために同一参照数字が用いられ、図に共通である同一 要素を明示するために、可能な限りその同一参照数字は用いられている。 詳細な説明 図1は、例えばブロックベースの階層的な運動椎定で用いられるように 、運動ベクトルを求める際に計算量を減らす本発明の装置100のブロック図を表 す。本発明の好適な実施例がエンコーダーを用いて以下に記載されるが、本発明 が一般に画像処理システムに適し得ることは理解されるはずである。さらに、様 々なコーディング規格に対応するエンコーダーにおいて、本発明は使用されるこ とができる。これらの規格は、MPEG規格(Moving Picture Experts Group St andards)(例えば、MPEG-1(11172-*)及びMPEG-2(13818-*))、H.261及びH.263を 含むが、これらに限定されるものではない。 装置100はエンコーダーであるか、あるいはより複雑なブロックベース の運動が補正されるコーディングシステムの一部である。装置100は、運動推定 モジュール140、運動補正モジュール150、オプションのセグメンテーション・モ ジュール151、前処理モジュール120、レート・コントロールモジュール130、変 換モジュール(例えばDCTモジュール)160、量子化モジュール170、コーダー( 例えば可変長コーディングモジュール)180、バッファ190、逆量子化モジュール 175、逆変換モジュール(例えば逆DCTモジュール)165、減算器115及び加算器15 5を含む。エンコーダー100は複数のモジュールを含むけれども、図1で示すよう に、様々なモジュールによって実行される機能が別々のモジュールに分離される 必要は無いと当業者は理解するであろう。例えば、運動補正モジュール150、逆 量子化モジュール175及び逆DCTモジュール165を含 むモジュールセットは、一般に「埋め込みデコーダー(embedded decoder)」とし て知られている。 図1は、デジタル化され、且つMPEG規格に従って1つの輝度信号及び2 つの色差信号(Y、Cr、Cb)として表示される、パス110上の入力画像(画像シー ケンス)を図示する。各ピクチャー(フレーム)が複数のマクロブロックによっ て表されるように、これらの信号は複数の層に更に分割される。各マクロブロッ クは、8×8のサンプル・アレーとして定義されるブロックの4つの(4)輝度ブ ロック、1つのCrブロック及び1つのCbブロックを含む。ピクチャーのブロック 単位への分割は、2つの連続ピクチャー間の変化を識別する能力を向上させ、且 つ小振幅変換される係数(以下に述べる)の消去によって画像圧縮を改善する。 以下の開示は、MPEG規格技術用語を用いるが、マクロブロック又はブロックとい う用語が、エンコーディングのベースとして用いられる任意のサイズ又は形状の 画素ブロックを記述するつもりであることは理解されるはずである。一般的に言 って、「マクロブロック」は単一画素と同じくらい小さくありえるか、あるいは全 ビデオ・フレームと同じくらい大きくありえる。 好適な実施例において、デジタル化された入力画像信号は、前処理モジ ュール120で1つ以上の前処理ステップを経る。より具体的に言えば、前処理モ ジュール120は、非線形ピラミッド・ジェネレーター122を含む。非線形ピラミッ ド・ジェネレーター122は、下記のように非線形ピラミッドの異なる解像度が階 層的な形態で相関している「非線形ピラミッド」を生成するために、非線形ピラ ミッド構築方法を用いて各フレームを複数の異なる解像度に分解するため、つま り各フレームにフィルターをかけ複数の異なる解像度にするために非線形フィル ター123を使用する。好適な実施例において、非線形ピラミッドは、階層的な運 動推定プロセスを実施するために以下で使用される。 本発明は運動推定プロセスに関連して直接実施されるが、他の画像処理 方法にも適応し得る。例えば、オプションのブロック・クラシファイヤー・モジ ュール124は、領域(ブロック)を高アクティビィティ又は低アクティビィティ の領域として素早く分類するために、解像度の非線形ピラミッドで提供される情 報を利用することができ、それによって各フレーム内の特徴検出を可能にする。 そして次に、オプションのセグメンテーション・モジュール151内のセグメンテ ーション・プロセスが、例えば前景から背景、または例えば人間の顔及びこれら に類するものの様々な特徴の中のある対象物から別の対象物というように、各フ レーム内の領域を区分化する(あるいは単に識別する)手助けをするために、特 徴検出情報は用いられることができる。 図1へ戻って、パス110の入力画像は、運動ベクトルを推定するために 、運動推定モジュール140にもまた受信される。運動ベクトルは、現行ピクチャ ー内のブロックの座標位置から基準枠内の座標にオフセットを提供するために運 動補正によって用いられる二次元のベクトルである。現行のフレーム内での変化 のみがコーディングされ且つ伝送されるので、運動ベクトルの使用は、チャネル 上で伝送される情報量を減らすことによって非常に画像圧縮を高める。好適な実 施例において、運動推定モジュール140もまた、運動推定プロセスのパフォーマ ンスを高めるために前処理モジュール120から情報を受け取る。 運動推定モジュール140からの運動ベクトルは、サンプル値の予測効率 を改善するために運動補正モジュール150によって受け取られる。運動補正は、 予めデコードされたサンプル値を含む過去及び/又は将来の基準枠にオフセット を提供するために運動ベクトルを用いる予測を伴い、かつ予測エラーを作り上げ るために用いられる。すなわち、運動補正モジュール150は、パス152上で現行フ レームの推定値(運動補正予測または予測画像)を構築するために予めデコード されたフレーム及び運動ベクトルを用いる。この運動補正された予測は、パス15 3上でエラー信号(e)又は予測残差(predictive residual)を作り上げるために 、現行マクロブロックのパス110上の入力画像から減算器115を通して差し引かれ る。 予測残差信号は、例えばDCTモジュール160といった変換モジュールに移 される。それから、DCTモジュールは、DCT係数の8×8ブロック一組を作り出すた めに、順方向離散コサイン変換プロセス(forward discrete cosine transform p rocess)を予測残差信号の各ブロックに適用する。離散コサイン変換は、DCT係数 が一組のコサイン基礎関数の振幅を表す、反転可能な離散直交変換である。 結果として生じるDCT係数の8×8ブロックは、量子化(Q)モジュール17 0によって受け取られ、そこでDCT係数は量子化される。整数値を形成するために 、DCT係数は適切に丸められた一組の量子化値または量子化スケールでDCT係数を 割ることによって表されるので、量子化のプロセスは精度を引き下げる。基礎関 数の可視度に基づく基準(視覚にウエイトが置かれた量子化として知られている )を用いることで、量子化値は、各DCT係数に対して個別に設定可能である。こ の値でDCT係数を量子化することによって、DCT係数の多くはゼロに変換され、そ れによって画像圧縮効率を改善する。 次に、結果として生じる量子化されたDCT係数の8×8ブロックは、例え ば信号接続(signal connection)171を経た可変長コーディングモジュール180と いったコーダーによって受け取られ、そこで、量子化された係数の二次元ブロッ クを量子化されたDCT係数の一次元列に変換するために、その二次元ブロックは 「ジグザグ」オーダーでスキャンされる。それから、可変長コーディング(VLC )モジュール180は、量子化されたDCT係数列、またマクロブロック・タイプ且つ 運動ベクトルといったマクロブロックに対する全ての副次的情報(side-informat ion)をエンコードする。このように、VLCモジュール180は、入力画像を有効なデ ータストリームに変換する最終的なステップを実行する。 データストリームは、例えば「先入れ先出し」(FIFO)バッファ190とい ったバッファに受け取られる。異なるピクチャー・タイプ及び可変長コーディン グを用いた結果は、総括ビットレートが変数であるということである。すなわち 、各フレームをコーディングするために用いられるビット数が異なることは可能 である。このように、固定レートチャネルを伴うアプリケーションにおいて、FI FOバッファは、ビットレートを平滑化するためのチャネルにエンコーダー・アウ トプットを一致させるために用いられる。このように、FIFOバッファ190からや ってくるパス195上の出力信号は、入力画像110の圧縮表現であり、そこで、その 出力信号は、記憶媒体または遠距離通信チャネルに送られる。 レート・コントロールモジュール130は、データストリーム送信後、( 表示されていない受信機または標的記憶装置内の)デコーダー側でオーバーフロ ー及びアンダーフローを防ぐために、FIFOバッファ190に入力されるデータスト リームのビットレートを監視および調節するのに役立つ。固定レートチャネルは 、(表示されていない)デコーダー内の入力バッファーに、一定レートでビット を運ぶものと見なされる。ピクチャーレートによって決められる一定の間隔で、 次のピクチャーのために、デコーダーは、その入力バッファーから即座に全ての ビットを取り除く。ほとんどのビットが入力バッファーにない場合、すなわち、 次のピクチャーのための全てのビットが受け取られなかった場合、入力バッファ ーはアンダーフローし、エラーをもたらす。同様に、あまりに多くのビットが入 力バッファーにある場合、すなわち、ピクチャーが動き出す間に入力バッファー の容量が限度を超えた場合、入力バッファーはオーバーフローし、オーバーフロ ーエラーをもたらす。このように、エンコーダーによって生成されるビット数を 制御するためにバッファ190のステータスを監視することは、レート・コントロ ールモジュール130の役目であり、それによってオーバーフロー及びアンダーフ ロー状態を防ぐ。レート・コントロール方法は、量子化スケールを調節すること によってコーディング・ビット数を制御することができる。 さらに、結果として生じる、量子化モジュール170からの量子化されたD CT係数の8×8ブロックは、信号接続172を通して逆量子化モジュール175及び逆DC Tモジュール165によって受け取られる。要するに、現段階では、画像シーケンス のIフレーム及びPフレームが次のエンコーディングに対する基準枠として用い られるように、エンコーダーは、データをデコードすることによってそのIフレ ーム及びPフレームを再生する。 図2は、ブロックベースの運動椎定の運動ベクトルを求める際の計算量 を減らす方法200のフローチャートを図示する。すなわち、マッチングがおそら く起こるであろう最初の検索領域を素早く限定することによって、方法200はブ ロックベースの運動推定方法の質を高める。 より具体的に言えば、方法200は、ステップ205で開始され、非線形ピラ ミッドが画像シーケンス中の各画像フレームに対して生成されるステップ210に 進む。非線形ピラミッド生成方法は、図3から5及び7に関連して以下に記載さ れる。非線形ピラミッドは、階層ピラミッドの特定のタイプである。 ひとたび非線形ピラミッドが生成されると、運動推定はステップ220に おける非線形ピラミッド上で実行され、そこで、検索は非線形ピラミッドの最低 解像度レベルで開始される。そして、この検索から得られた情報は、非線形ピラ ミッドの次の解像度レベルでの検索に改善を加えるために利用され、それは最高 解像度レベルに達するまで続く。この検索情報の伝搬は、効率的で且つ速い運動 推定実行方法を実現させる。 より具体的に言えば、階層的な運動ベクトル推定は、非線形ピラミッド の上位レベル(低解像度層)から下位レベル(高解像度層)へ再帰的に果たされ る。したがって、高位層での縮小画像サイズに起因して、計算量はかなり減らさ れる。好適な実施例において、階層的なブロックベースの運動ベクトル推定で用 いられるマッチング基準(matching criterion)を以下に示す。 [数1] ここで、I1,,k(i,j)は、1番目レベルのk番目フレームの中のブロック内地点( i,j)における画素強度であり、その変位は(x,y)である。したがって、I3,k(i ,j)は全解像度画像上の画素強度である。 画像(subimage)で用いられる。この構造においては、1つの解像度におけるブロ ックは、別の解像度における同位置および同一対象物と一致するので、全てのサ ブ画像に対する運動ブロック数は一定である。さらに、ブロックのサイズは解像 度によって変化する。小さい運動ブロックは低解像度と一致する。この可変ブロ ックサイズ方法の利点は、異なる層の重要性を適切に評価し、人間の視知覚を異 なる解像度での異なる周波数にマッチさせ、かつピラミッドの上位レベルでの小 さい対象物に対する運動を検出し得ることにある。非線形ピラミッド構築後、レ ブロックサイズを用いて推定される。最小のMADl(x,y)を提供する運動ベクトル は、このレベルで粗運動(coarse motion)ベクトルとして選ばれ、且つそのベク トルは、次の下位レベルでの運動推定に対する初期ベクトルとして用いられるよ うに、その下位レベルに伝播される。すなわち、上位レベルで検出された運動ベ クトルは、下位レベルに送られ、そのレベルで改善ステップを導く。この運動推 定プロセスは、レベル3に至るまで再度繰り返される。 初期ベクトルとして、レベルlに対してレベルl-1での運動ベクトルを 2倍にして用いると、レベルlの運動ベクトルは、全検索を用いはするが比較的 小さい検索範囲で改善を加えられる。レベルl-1での運動ベクトルがVl-1(x,y)で 表される場合、レベルlで検出された運動ベクトルは、以下のように記述される 。 [数2] ここで、ΔV(δx、δy)は、レベルlでの運動ベクトルのアップデートされたイ ンクリメントであり、且つ以下のように表される。 [数3] オリジナル画像と運動補正された画像との間の予測エラーを更に縮小す るために、半画素検索(half pixel search)は、提唱される階層的な運動ベクト ル推定アルゴリズムで実施される。半画素解像度による画像は、全画素解像度に よる画像からの補間を用いることによって生成される。空間的に補間される画素 値は、MPEG TM4推奨の補間方程式を用いて計算される。補間方程式は、次の通り である。 [数4]ここで、x、yは、整数−画素の横および縦座標であり、Sは画素値である。本 発明は、方程式(1)から(4)で表されるように、運動推定プロセスを使用するが、 本発明が、他の運動推定方法で実施されることができることは、理解されるはず である。すなわち、非線形ピラミッドは、他のどの運動推定方法でも用いられる ことができる。 図3は、非線形ピラミッド構築方法300のフローチャートを図示する。 より具体的に言えば、方法300はステップ305で開始され、初期化が起こるステッ プ310に進む。すなわち、オリジナル画像Xn(n=オリジナル画像の解像度レベ ル)は、非線形画像ピラミッドの最高解像度レベル(レベル0、即ちk=0)を兼 ねる画像Xk(k=非線形画像ピラミッドの解像度レベル)と等しく設定される。 ステップ320で、方法300は、非線形フィルターHを非線形フィルターH の出力がH(Xk)によって表される画像Xkに適用する。非線形フィルターは、3x3メ ジアン機能、5x5メジアン機能、ウエイトを置かれたメジアン1機能、及 びウエイトを置かれたメジアン2機能といった非線形機能(又はカーネル)を適 用する。これらの機能は、図4及び7に関連して以下で述べられる。 より具体的に言えば、図4は、フィルターをかけられた画像420を作り 出すために、3x3メジアン・カーネルを用いて、画像410に非線形フィルタリング ・オペレーションを適用するブロック図を図示する。本発明において、3x3メジ アン・カーネルは、3つの(3)異なる実施例で表されることができる: [数5] [数6] [数7] オペレーションにおいて、画像410の画素値411の各々は、フィルターを かけられた画像420での一致する画素値422を作り出すために、上記の3x3メジア ン・カーネルの内の1つによってフィルターをかけられる。画像410は、オリジ ナル入力画像、或いは予めフイルターをかけられ且つ間引きされた (decimated)非線形ピラミッドの画像であり得る。 図示するために、数式(5)は、ウエイト無しの3x3メジアン・カーネル 、すなわち、カーネルでの各々の値が、等しくウエイトを置かれることを表す。 フィルターをかけられた画像420のフィルターをかけられた画素X(1,1)422a(最 上部左の画素)を生成するために、(412aと振られたボックスによって表される )3x3カーネルは、その3x3カーネルがフィルターをかけられている画素を軸とす る画像410の一致する画素X(1,1)に適用される。言い換えると、フィルターをか けられた画素X(1,1)422aの値は、3x3メジアン・カーネルによってカバーされる 9つの(9)値のメジアンを選び出すことで求められる。しかしながら、3x3カー ネルは画像の角に位置する画素X(1,1)を軸とするので、3x3カーネルによって必 要とされるような9つの必要値を提供するのに不適切な画素値がある。このよう な「ボーダー」画素において、画像は、カーネルに必要な画素値を提供するため に、隣接した「エッジ」画素値を重複することによって埋められる。このエッジ ・パディングは、フィルタリング・プロセスによってエラーを発生させることな く、画像エッジに位置する情報を保存する利点を備える。 例えば、ボックス412a内では、ピクセル値X(1,1)は3回重複し、かつピ クセル値X(2,1)及びX(1,2)の双方は一度重複する。X(1,1)が0という値を有する 場合、X(1,2)は100という値を、X(2,1)は200という値を、また、X(2,2)は255と いう値を有し、フィルターをかけられた画素X(1,1)422aは、ピクセル値グループ (0、0、0、0、100、100、200、200、255)から、メジアンを選び出すことによ って求められ、それは100である。フィルターをかけられた画素422bは、3x3カー ネル412bを用いて、同様に生成され、フィルターをかけられたピクセル422cは、 全体にフィルターをかけられた画像420を形成するために、3x3カーネル412c及び その他を用いて生成される。 これに対して、方程式(2)及び(3)で図示されるように、3x3メジア ン・カーネルはウエイトを置かれることが可能である。すなわち、カーネル内の 様々なピクセル値は、他のピクセル値より大幅にウエイトが置かれるか或いはカ ウントされる。例えば、数式(6)は、カーネルの中央を占めるピクセル値が、 周囲のピクセル値よりも3倍ウエイトを置かれることを示す。このウエイト「x 」 は、一致するピクセル値がウエイトxによって重複されるところでウエイトを置 かれるものとしてとらえることができる。上記の同一例を用いると、数式(6)の 、ウエイトを置かれる3x3メジアンが使用される場合、フィルターをかけられた 画素X(1,1)422aは、ピクセル値グループ(0、0、0、0、0、0、100、100、200、2 00、255)からメジアンを選び出すことによって求められ、それは、この場合0 である。すなわち、カーネルは、センターピクセル値X(1,1)を3倍にウエイトを 置くか或いはカウントし、それによって、2つの更なる「0」値をピクセル値グ ループに加える。 同様に、数式(7)は、カーネル内の他のピクセル値もまた、ウエイト を置かれ得ることを示す。すなわち、3倍のウエイトが置かれているセンターピ クセル値を除いて、直接にセンターピクセル値の上下左右にあるピクセル値は、 残りの周囲のピクセル値よりも2倍のウエイトを置かれる。再び、上記の同一例 を用いると、数式(7)のウエイトを置かれた3x3メジアンが使用される場合、フ ィルターをかけられた画素X(1,1)422aは、ピクセル値グループ(0、0、0、0、0 、0、0、0、100、100、100、200、200、200、255)からメジアンを選び出すこと によって求められ、それは、この場合また0である。 他のウエイトを置かれた3x3メジアン・カーネルが本発明で使用可能な ことは、理解されるはずである。しかしながら、特定のウエイトを置かれたメジ アン・カーネルの選択は、画像内のアプリケーション及び/又は内容によってた びたび左右される。 これに対して、図7は、フィルターをかけられた画像720を作り出すた めに、非線形フィルタリング・オペレーションを5x5メジアン・カーネルを用い て画像710に適用するブロック図を図示する。本発明において、5x5メジアン・カ ーネルは、以下のように表されることができる。 [数8] オペレーションにおいて、画像710の各々のピクセル値711は、フィルタ ーをかけられた画像720での一致するピクセル値722を作り出すために、上記の5x 5メジアン・カーネルの内の1つによってフィルターをかけられる。画像710は、 非線形ピラミッドのオリジナル入力画像、又は予めフィルターをかけられ且つ間 引きされた画像でありえる。 図示するために、数式(8)は、ウエイト無しの3x3メジアン・カーネル 、すなわち、カーネルでの各々の値か、等しくウエイトを置かれることを表す。 フィルターをかけられた画像720のフィルターをかけられた画素X(1,1)722a(最 上部左の画素)を生成するために、(712aと振られたボックスによって表される )5x5カーネルは、その5x5カーネルがフィルターをかけられている画素を軸とす る画像710の一致する画素X(1,1)に適用される。言い換えると、フィルターをか けられた画素X(1,1)722aの値は、5x5メジアン・カーネルによってカバーされる2 5の(25)値のメジアンを選び出すことで求められる。5x5カーネルもまた、画像 の角に位置する画素X(1,1)を軸とするので、5x5カーネルによって必要とされる ような25の必要値を提供するのに不適切な画素値がある。このような「ボーダー 」画素において、図7で示すように、画像は、カーネルに必要な画素値を提供す るために、隣接した「エッジ」画素値を重複することによって埋められる。 例えば、ボックス712a内では、ピクセル値X(1,1)は8度重複され、かつ ピクセル値X(2,1)、X(3,1)、X(1,2)及びX(1,3)がそれぞれ二度重複される。X(1, 1) が0という値を有する場合、X(1,2)は50という値を、X(1,3)は100という値を 、X(2,1)は75という値を、X(3,1)は125という値を、X(2,2)は200という値を、X( 3,2) は255という値を、X(2,3)は255という値をまた、X(3,3)は255という値を有 し、フィルターをかけられた画素X(1,1)722aは、ピクセル値グループ(0,0,0,0,0 ,0,0,0,0,50,50,50,75,75,75,100,100,100,125,125,125,200,255,255,255)から 、メジアンを選び出すことによって求められ、それは75である。フィルターをか けられた画素722bは、5x5カーネル712bを用いて、同様に生成され、フィルター をかけられたピクセル722cは、全体にフィルターをかけられた画像720を形成す るために、5x5カーネル712c及びその他を用いて生成される。 3x3のウエイトを置かれたメジアン・カーネルと同様に、5x5カーネルも また、ウエイトで実施されることができる。 図3に戻ると、ステップ330において、方法300は、非線形ピラミッドの 低解像度画像Xk-1を生成するために、定義済みファクターによって両方向(横及 び縦)でフィルターをかけられた画像を間引きする。図5は、低解像度画像を作 り出すための、画像上でのこのデシメーション・プロセスのブロック図を図示す る。すなわち、画像、例えばフィルターをかけられた画像510は、フィルターを かけられた画像から選択的に画素を取り除くことによって、低解像度画像520に 縮小される。好適な実施例で、デシメーション・ファクターは、両方向で2(2 )という値に設定され、そこで、画素は、低解像度画像Xk-1520を形成するため に(横及び縦に)一つおきに切り捨てられる。より具体的に言えば、画素512a、 512d及び512eは、低解像度画像520で、それそれに一致する画素522a、522c及び5 22bを形成するために保持される。画素512b及び512cは、低解像度画像520が完全 に形成されるまで続けられるデシメーション・プロセスで切り捨てられる。本発 明は、2というデシメーション・ファクターを使用するが、他のデシメーション ・ファクター値が本発明で使用され得ることは理解されるはずである。 ステップ340において、方法300は、非線形ピラミッドに追加レベルを生 成すべきかどうかを照会する(query)。照会に対する答えが肯定的である場合、 方法300はステップ320へ戻り、そこで、フィルタリング及びデシメーティング・ ステップが、次の低解像度画像Xk-2等を生成するために繰り返される。照会に対 する答えが否定的である場合、方法300はステップ350に進み、終了する。好適な 実施例において、非線形ピラミッドは、各々の入力画像に対して生成され、そこ で、非線形ピラミッドは、4つの解像度レベル(レベル0-3)を有する。しかし ながら、非線形ピラミッドは、どの解像度レベルに関しても及び/又は「2」以 外の他のデシメーション・ファクターを用いても生成され得ることは理解される はずである。通常、非線形ピラミッドは、特定のアプリケーションの要求、又は 例えば画像のサイズ、画像のコンテンツ等といった入力イメージの特性に従って 生成され得る。例えば、より大きな入力イメージは、より大きい非線 形ピラミッドを必要とするであろう。 図6は、本発明のエンコーディング・システム600のブロック図を図示 する。エンコーディング・システムは、汎用コンピュータ610及び種々の入出力 装置620を含む。汎用コンピュータは、中央処理装置(CPU)612、メモリー614、及 び画像シーケンスを受け取ってエンコードするためのエンコーダー616を含む。 好適な実施例において、エンコーダー616は、上記のように単にエンコ ーダー100である。エンコーダー616は、通信チャネルによってCPU612に結合され るフィジカルデバイスであり得る。あるいは、エンコーダー616は、ソフトウェ ア・アプリケーション(又はソフトウェア・アプリケーションの組合せ及び、例 えば、特定用途向けIC(ASIC)を経たハードウェア)によって代表されること ができ、そこで、ソフトウェア・アプリケーションは、例えば磁気又は光ディス クといった記憶装置からロードされ、かつコンピュータのメモリー612に存在す る。CPU612は、メモリー614に存在するソフトウェア・アプリケーションを実行 するのに役立つ。このように、本発明のエンコーダー100は、コンピユータが読 み込み可能なメディアに格納され得る。 コンピュータ610は、例えばキーボード、マウス、カメラ、キャムコー ダ、ビデオモニタ、任意の個数のイメージング・デバイス、或いは、テープドラ イブ、フロッピードライブ、ハードディスクドライブ又はコンパクトディスク・ ドライブを含むが、それに限定されてはいない任意の個数の記憶装置といった、 複数の入出力装置620に結合されることができる。入力装置は、エンコードされ たビデオ・ビットストリームを作り出すためにコンピュータへ入力を供給するか 、或いは記憶装置又はイメージング・デバイスからのビデオ画像シーケンスを受 け取るのに役立つ。最後に、通信チャネル630は、エンコーディング・システム からのエンコードされた信号がデコーディング・システム(図示せず)に転送さ れるところで示される。 本発明の教示を取り入れる種々の実施例が、ここで詳細に示され且つ記 載されたけれども、当業者は、これらの教示を更に取り入れる他の多種多様な実 施例を容易に案出することができる。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 チャン,ティハオ アメリカ合衆国 ニュー ジャージー州 プレインズボロ クウェイル リッジ ド ライヴ 3716

Claims (1)

  1. 【特許請求の範囲】 1. (a)画像を非線形ピラミッドに分解するステップと、 (b)前記非線形ピラミッド上で階層的な運動推定(hierarchical motione stimation)を実行するステップとを含む、少なくとも1つのブロックに分割され る画像の運動推定実行方法。 2. 前記分解ステップ(a)が、 (a')フィルターをかけられた画像を生成するために、画像に非線形フィ ルターを適用するステップと、 (a")前記非線形ピラミッドの低解像度画像を生成するために、前記フィ ルターをかけられた画像を間引きする(decimating)ステップとを含む、請求項1 記載の画像の運動推定実行方法。 3. 前記適用ステップ(a")がメジアンフィルターを前記画像に適用するス テップを含む請求項2記載の運動椎定実行方法。 4. 前記メジアンフィルターが3x3メジアンフィルターである請求項3記載 の運動推定実行方法。 5. 前記3x3メジアンフィルターがウエイトを置かれた(weighted)フィルタ ーである請求項3記載の運動推定実行方法。 6. (a)画像を非線形ピラミッドの最高解像度画像として設定するステップ と、 (b)フィルターをかけられた画像を生成するために非線形フィルターを 画像に適用するステップと、 (c)前記非線形ピラミッドの低解像度画像を生成するために前記フィル ターをかけられた画像を間引きするステップとを含む、画像を画像の非線形ピラ ミッドに分解する方法。 7. 前記適用ステップ(b)が、メジアンフィルターを前記画像に適用する ステップを含む請求項6記載の画像を画像の非線形ピラミッドに分解する方法。 8. 前記メジアンフィルターが3x3メジアンフィルターである請求項7記載 の画像を画像の非線形ピラミッドに分解する方法。 9. 前記メジアンフィルターが5x5メジアンフィルターである請求項7記載 の画像を画像の非線形ピラミッドに分解する方法。 10. 画像を非線形ピラミッドに分解する手段と、 前記非線形ピラミッド上で階層的な運動推定を実行する手段とを含む、 少なくとも1つのブロックに分割される画像の運動推定実行装置。
JP50094299A 1997-05-30 1998-05-29 非線形ピラミッドを用いた階層的な運動推定実行方法及び装置 Pending JP2002507339A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US4818197P 1997-05-30 1997-05-30
US60/048,181 1997-05-30
PCT/US1998/010956 WO1998054888A2 (en) 1997-05-30 1998-05-29 Method and apparatus for performing hierarchical motion estimation using nonlinear pyramid

Publications (2)

Publication Number Publication Date
JP2002507339A true JP2002507339A (ja) 2002-03-05
JP2002507339A5 JP2002507339A5 (ja) 2005-12-08

Family

ID=21953149

Family Applications (1)

Application Number Title Priority Date Filing Date
JP50094299A Pending JP2002507339A (ja) 1997-05-30 1998-05-29 非線形ピラミッドを用いた階層的な運動推定実行方法及び装置

Country Status (6)

Country Link
US (1) US6148027A (ja)
EP (1) EP1138152B8 (ja)
JP (1) JP2002507339A (ja)
KR (1) KR100563552B1 (ja)
DE (1) DE69836696T2 (ja)
WO (1) WO1998054888A2 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6332002B1 (en) * 1997-11-01 2001-12-18 Lg Electronics Inc. Motion prediction apparatus and method
KR100273980B1 (ko) * 1998-02-20 2000-12-15 윤종용 차등 펄스 부호 변조를 위한 부조합 평균 중점 예측기
US6983018B1 (en) * 1998-11-30 2006-01-03 Microsoft Corporation Efficient motion vector coding for video compression
EP1243141B1 (en) * 1999-12-14 2011-10-19 Scientific-Atlanta, LLC System and method for adaptive decoding of a video signal with coordinated resource allocation
US6594397B1 (en) * 2000-03-03 2003-07-15 Tektronix, Inc. Adaptive multi-modal motion estimation for video compression
US6782052B2 (en) 2001-03-16 2004-08-24 Sharp Laboratories Of America, Inc. Reference frame prediction and block mode prediction for fast motion searching in advanced video coding
KR100408294B1 (ko) * 2001-09-05 2003-12-01 삼성전자주식회사 저전송율 동영상 부호화에 적합한 움직임 추정 방법
US7274857B2 (en) * 2001-12-31 2007-09-25 Scientific-Atlanta, Inc. Trick modes for compressed video streams
US7248741B2 (en) * 2002-01-09 2007-07-24 Hiroshi Akimoto Video sequences correlation and static analysis and scene changing forecasting in motion estimation
US7020201B2 (en) * 2002-11-20 2006-03-28 National Chiao Tung University Method and apparatus for motion estimation with all binary representation
US7212571B2 (en) * 2003-01-31 2007-05-01 Seiko Epson Corporation Method and apparatus for DCT domain filtering for block based encoding
US7382937B2 (en) * 2003-03-07 2008-06-03 Hewlett-Packard Development Company, L.P. Method and apparatus for re-constructing high-resolution images
US20040252762A1 (en) * 2003-06-16 2004-12-16 Pai R. Lakshmikanth System, method, and apparatus for reducing memory and bandwidth requirements in decoder system
US20050013498A1 (en) 2003-07-18 2005-01-20 Microsoft Corporation Coding of motion vector information
US7724827B2 (en) 2003-09-07 2010-05-25 Microsoft Corporation Multi-layer run level encoding and decoding
US7567617B2 (en) 2003-09-07 2009-07-28 Microsoft Corporation Predicting motion vectors for fields of forward-predicted interlaced video frames
US8064520B2 (en) 2003-09-07 2011-11-22 Microsoft Corporation Advanced bi-directional predictive coding of interlaced video
US7966642B2 (en) * 2003-09-15 2011-06-21 Nair Ajith N Resource-adaptive management of video storage
US7394856B2 (en) * 2003-09-19 2008-07-01 Seiko Epson Corporation Adaptive video prefilter
KR20070026451A (ko) * 2004-03-10 2007-03-08 신드하라 슈퍼미디어, 인코포레이티드 모션 예측을 사용하여 디지털 이미지 데이터를 압축하는방법 및 장치
US8600217B2 (en) * 2004-07-14 2013-12-03 Arturo A. Rodriguez System and method for improving quality of displayed picture during trick modes
KR100606140B1 (ko) * 2004-11-09 2006-08-01 (주)씨앤에스 테크놀로지 적응적 모드 결정에 의한 움직임 예측방법
JP4708819B2 (ja) * 2005-03-14 2011-06-22 キヤノン株式会社 画像処理装置、方法、コンピュータプログラム及び記憶媒体
JP4779435B2 (ja) * 2005-05-17 2011-09-28 ソニー株式会社 画像処理装置、および画像処理方法、並びにコンピュータ・プログラム
US8687688B2 (en) 2006-01-09 2014-04-01 Lg Electronics, Inc. Inter-layer prediction method for video signal
JP4785678B2 (ja) * 2006-09-01 2011-10-05 キヤノン株式会社 画像符号化装置および画像符号化方法
US8300696B2 (en) * 2008-07-25 2012-10-30 Cisco Technology, Inc. Transcoding for systems operating under plural video coding specifications
US8542732B1 (en) * 2008-12-23 2013-09-24 Elemental Technologies, Inc. Video encoder using GPU
BRPI1008081A2 (pt) 2009-02-06 2017-10-17 Thomson Licensing metodos e aparelho para sinalizacao intra-modal implicita e semi-implicita para codificadores e desodificadores de video
US8774267B2 (en) * 2010-07-07 2014-07-08 Spinella Ip Holdings, Inc. System and method for transmission, processing, and rendering of stereoscopic and multi-view images
WO2013059504A1 (en) * 2011-10-21 2013-04-25 Dolby Laboratories Licensing Corporation Hierarchical motion estimation for video compression and motion analysis
US9998750B2 (en) 2013-03-15 2018-06-12 Cisco Technology, Inc. Systems and methods for guided conversion of video from a first to a second compression format
KR102138368B1 (ko) 2013-07-19 2020-07-27 삼성전자주식회사 적응적 샘플링에 기초한 계층적 움직임 예측 방법 및 움직임 예측 장치
US9305362B1 (en) * 2014-02-28 2016-04-05 Xilinx, Inc. Image stabilization

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8429879D0 (en) * 1984-11-27 1985-01-03 Rca Corp Signal processing apparatus
EP0624037B1 (en) * 1987-04-28 2001-10-10 Mitsubishi Denki Kabushiki Kaisha Image coding system
US5241395A (en) * 1989-08-07 1993-08-31 Bell Communications Research, Inc. Adaptive transform coding using variable block size
US5014134A (en) * 1989-09-11 1991-05-07 Aware, Inc. Image compression method and apparatus
FR2663178B1 (fr) * 1990-06-06 1995-07-21 Thomson Csf Procede d'estimation hierarchique du mouvement dans une sequence d'images.
SE469866B (sv) * 1991-04-12 1993-09-27 Dv Sweden Ab Metod för estimering av rörelseinnehåll i videosignaler
US5315670A (en) * 1991-11-12 1994-05-24 General Electric Company Digital data compression system including zerotree coefficient coding
DE69312132T2 (de) * 1992-03-17 1998-01-15 Sony Corp Bildkompressionsgerät
US5598514A (en) * 1993-08-09 1997-01-28 C-Cube Microsystems Structure and method for a multistandard video encoder/decoder
US5717789A (en) * 1993-09-08 1998-02-10 California Institute Of Technology Image enhancement by non-linear extrapolation in frequency space
EP0739570A1 (en) * 1994-01-14 1996-10-30 Houston Advanced Research Center Boundary-spline-wavelet compression for video images
JPH07212761A (ja) * 1994-01-17 1995-08-11 Toshiba Corp 階層符号化装置及び階層復号化装置
US5867602A (en) * 1994-09-21 1999-02-02 Ricoh Corporation Reversible wavelet transform and embedded codestream manipulation
US5796855A (en) * 1995-10-05 1998-08-18 Microsoft Corporation Polygon block matching method

Also Published As

Publication number Publication date
EP1138152B8 (en) 2007-02-14
WO1998054888A3 (en) 2000-01-06
EP1138152A2 (en) 2001-10-04
DE69836696D1 (de) 2007-02-01
EP1138152A4 (en) 2002-05-22
KR20010013198A (ko) 2001-02-26
DE69836696T2 (de) 2007-10-31
WO1998054888A2 (en) 1998-12-03
EP1138152B1 (en) 2006-12-20
US6148027A (en) 2000-11-14
KR100563552B1 (ko) 2006-03-27

Similar Documents

Publication Publication Date Title
JP2002507339A (ja) 非線形ピラミッドを用いた階層的な運動推定実行方法及び装置
KR100578682B1 (ko) 가변 블록 크기를 이용한 계층적 움직임 추정 장치 및방법
US6208692B1 (en) Apparatus and method for performing scalable hierarchical motion estimation
US6430317B1 (en) Method and apparatus for estimating motion using block features obtained from an M-ary pyramid
US6434196B1 (en) Method and apparatus for encoding video information
JP2744871B2 (ja) 画像信号符号化方法および画像信号符号化装置
US5689306A (en) Method and apparatus for encoding a video signal using pixel-by-pixel motion prediction
JP4429968B2 (ja) Svcの圧縮率を高めるシステムおよび方法
EP0740473A2 (en) Apparatus for encoding a video signal using feature point based motion estimation
EP0734177A2 (en) Method and apparatus for encoding/decoding a video signal
JP5078895B2 (ja) 統合時空間予測法
JP2624087B2 (ja) 映像信号復号化方法
JP3655651B2 (ja) データ処理装置
JP2008507190A (ja) 動き補償方法
JPH0955945A (ja) 動きベクトル特定方法及び装置
JP2011055536A (ja) 画像デジタル化のシーケンスにおけるモーションを表わす方法および装置
KR19990038001A (ko) 디지털 영상을 위한 움직임 추정장치 및 방법
JP3703299B2 (ja) ピクチャ中央の画質を最適化するためのビデオ符号化方法、システムおよびコンピュータ・プログラム製品
JP3667105B2 (ja) 動きベクトル検出方法及びその方法を実施する装置
US6408101B1 (en) Apparatus and method for employing M-ary pyramids to enhance feature-based classification and motion estimation
JPH10191360A (ja) 動き推定ベクトルを求める方法および動き推定ベクトルを用いて動画像データを圧縮する方法
JP2955526B2 (ja) 動画像符号化方法及び装置
JP3681784B2 (ja) 映像信号符号化装置
JP4490351B2 (ja) 階層間予測処理方法,階層間予測処理装置,階層間予測処理プログラムおよびその記録媒体
JP3759537B2 (ja) 画像信号伝送装置及び画像信号伝送方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050525

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050525

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20050621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070815

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071211