JP2006525735A

JP2006525735A - 適応的な走査順序に基づいてブロックを使用するビデオ情報の符号化

Info

Publication number: JP2006525735A
Application number: JP2006506940A
Authority: JP
Inventors: エッヘレン，ランベルテュスアーファン
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-05-06
Filing date: 2004-05-04
Publication date: 2006-11-09
Also published as: WO2004100554A1; CN1784904A; US20070053436A1; EP1623577A1; KR20060009898A

Abstract

本発明は、入力ビデオ情報を符号化して対応する符号化された出力データを供給するためのエンコーダ１００，２００，３００に関する。本エンコーダ１００，２００，３００は、（ａ）画像フレームの系列２０に対応するデータを含むビデオ情報を受ける入力手段、（ｂ）それぞれのフレーム２０に関連するデータを複数のデータマクロブロック３０に細分する第一の処理ハードウェア１１０、（ｃ）それぞれのマクロブロック３０のデータを、その関連するマクロブロック３０に存在する少なくとも空間情報を記録する対応する係数データブロックに変換する第二の処理ハードウェア１１０、（ｄ）スキャニングルートに従ってそれぞれの係数データブロックをスキャニングして、対応する再構成されたデータブロックを生成する第三の処理ハードウェア１１０、（ｅ）データ圧縮を再構成されたデータブロックに適用し、符号化された出力データを生成するデータコンプレッサ１１０を有する。第三の処理ハードウェア１１０は、符号化された出力データに存在するビデオ情報のデータ圧縮を強化するために、それぞれの係数ブロックにおける非対称性の程度に応じてスキャニングルートを自動的に選択するために作用する。さらに、第三の処理ハードウェア１１０は、それぞれの係数データブロックを処理して、その対応する再構成されたデータブロックを生成するために単一のスキャニングルートを利用するように作用する。

Description

本発明は、たとえば、デジタルビデオディスク（ＤＶＤ）システム、デジタルテレビジョン及びビデオ伝送システムのような装置に関連するエンコーダ及び／デコーダにおけるビデオ情報の符号化といった、ビデオ情報の符号化に関する。

特に、排他するものではないが、本発明は、符号化係数のスキャンルートの選択が利用されるビデオ情報の符号化に関する。

たとえばビデオ信号及び画像データといった画像情報を符号化する方法が知られており、ＩＴＵ（International Telecommunications Union）のＩＴＵ−Ｔ勧告Ｈ．２６３＋及びＨ．２６３／Ｌのような規格を含んでいる。結果的に、画像情報を符号化する初期の方法に関連する問題点に対処するため、国際規格ＭＰＥＧ−４（Moving Pictures Experts Group）指定のＩＳＯ／ＩＥＣ１４４９６が１９９８年１０月に完成された。たとえばＭＰＥＧ−１及びＭＰＥＧ−２といった初期のＭＰＥＧ規格もまた現在使用されている。

最も現代のハイブリッドビデオ情報符号化技術は、ビデオ情報を受信して該情報を中間データに変換するための第一の動き補償されたＤＰＣＭ（Differential Pulse Code Modulation）の手順、中間データに存在する特別の画像情報を対応するそれぞれの係数に変換するための第二の二次元ＤＣＴ（Discrete Cosine Transform）の手順、これらＤＣＴ係数を量子化するための第三の手順、及び符号化された出力ビデオ情報を提供するために量子化されたＤＣＴ係数を圧縮するための第四の手順をそれぞれ採用している。

米国特許第5,767,909号では、ビデオフレームを含むデジタルビデオ信号を符号化するための方法及び関連する装置が記載されており、この方法は、適応的な走査技術を利用している。この方法は、符号化されるべき画像フレームを含むビデオ信号を受信して、該フレームに対応するデータブロックを生成し、該ブロックに対応する変換係数のセットを計算し、該係数のセットを量子化し、次いで、出力符号化データを生成するために量子化されたセットを符号化するためのソースコーダを利用することを含んでいる。更に、この方法は、非ゼロ値を有する多数の量子化された変換係数に基づいてそれぞれの画像フレームについて走査順序を適応的に決定するための量子化された変換係数のセットを走査するためのスキャナを利用する点で区別される。走査順序の適応的な決定により、エンコーダにより生成された符号化データ量において低減させることができ、すなわち、高められた程度のビデオ情報の圧縮となる。

本発明者は、上述された公開された米国特許に記載される方法が更なるデータ圧縮を提供しやすいが、より多くのデータ圧縮を提供するために現代のビデオ情報符号化装置を適応するとき、特に、幾つかのタイプのビデオ入力情報がかかる符号化装置により収容されるこことなるとき、本方法は潜在的に複雑であり、実際に実現するのに高価である点を理解している。

したがって、本発明の目的は、強化されたデータ圧縮をもたらすことができ、たとえば、比較的僅かな変更により、ＭＰＥＧビデオ画像符号化規格に準拠するビデオエンコーダ及び対応するデコーダといった既存の現代のビデオ符号化装置に組み込まれやすい、ビデオ情報を符号化する方法を提供することにある。

本発明の第一の態様によれば、請求項１に記載されるような対応する符号化された出力データを提供するために、入力ビデオ情報を符号化する方法が提供される。
本発明は、本方法がこれと関連して実現されるときに現代のエンコーダに対して最小の変更を要求しつつ、強化されたデータ圧縮によりビデオ情報を符号化可能であるという利点を有している。

好ましくは、本方法のステップ（ｄ）におけるスキャニングルーチンを制御するそれぞれの係数ブロックにおける非対称性の決定は、以下のうちの少なくとも１つに依存する。
入力ビデオ情報におけるフレームインタレースの利用。ビデオ情報に存在する１以上の画像フレームの空間スケーリングアスペクト比。１以上の画像フレームのデータに存在しているプルダウンマテリアル。ビデオ情報における先行する画像フレームを処理するために利用される１以上のスキャニングルーチン。一連の画像フレームで生じる時間的な動きの程度。先に選択されたスキャニングルーチン及びそれら関連するデータ圧縮性能に関する統計的データ。
かかる非対称のインジケータの利用により、本方法は、入力ビデオ情報の性質に正確に適応することができ、これに適用されるデータ圧縮を良好に最適化することができる。

好ましくは、フィールド及びフレームのマクロな動作モードは、本方法のステップ（ｂ）で提供され、フィールドマクロモードは、本方法のステップ（ｃ）における変換について対応するデータブロックを生成するためのそれら関連する時間的な瞬間に従って、インタレースされた画像フレームライン情報を相互に分離するために作用し、フレームマクロモードは、本方法のステップ（ｃ）における変換について対応するデータマクロブロックを生成するため、それぞれの画像フレームとその関連されるデータマクロブロックとの間の空間的な対応関係を維持するために作用する。これらのモードの利用は、強化されたデータ圧縮を達成するために最も適切なスキャニングルートを本方法が採用するのを支援することができる。

好ましくは、再構成されたデータブロックを生成するために本方法のステップ（ｄ）で利用されるスキャニングルートは、複数の画像フレーム、個々の画像フレーム、及びそれぞれのフレーム画像内のうちの１以上について切り替え可能である。

フレームからフレームに切り替え可能であるスキャニングルートについては位置することで、及びフレーム内でさえも、急速に変化するフォーマットからなる入力ビデオデータに本方法がより効率的に対処するのが可能である。

より好ましくは、利用されるスキャニングルートは、プログレッシブフォーマットである複数の画像フレームの比率とは相対的なインタレースフォーマットである複数の画像フレームの比率に応答して選択される。かかるスキャニングルートの選択は、実際に実現するために潜在的に簡単である。

好ましくは、本方法のステップ（ｃ）におけるその関連するマクロブロックに存在する少なくとも空間的な情報を記録している対応する係数データブロックにそれぞれのマクロブロックのデータを変換することは、離散コサイン変換を使用して実現される。かかる変換は、本方法で代替的又は付加的に他のタイプの変換を利用することができるのが理解されるが、効果的なデータ圧縮を生じることができる。

好ましくは、本方法は、１以上のデジタルハードウェアロジック及びソフトウェアで実行可能である。本方法のハードウェアの実現は、実際に実現するのに潜在的に安価であり、本方法のソフトウェアの実現は、たとえばリモートドメスティックビデオ装置で、種々異なったロケーションで実現されるとき、簡単なアップデートを受けやすい。

本発明の第二の態様によれば、請求項７に記載される対応する符号化された出力データを提供するための入力ビデオ情報を符号化するためのエンコーダが提供される。
本発明の第三の態様によれば、本発明の第一の態様に係る対応する符号化された出力データを生成するためにビデオ情報を処理するために実行可能なソフトウェアが提供される。
好ましくは、ソフトウェアは、データキャリアに記録される。

本発明の第四の態様によれば、本発明の第一の態様に係る方法を使用して生成される符号化された出力データを復号化するためのデコーダが提供される。
好ましくは、デコーダは、対応する符号化された出力データからビデオ情報を再生するための本発明の第一の態様に係る方法の逆を適用するために作用する。

本発明の第五の態様では、本発明の第一の態様の方法を使用して生成される符号化された出力データが提供される。信号フォーマットは発明であると考えることができるので、データ及び信号が同義語として考えられるようにデータフォーマットも同様である。
好ましくは、符号化された出力データは、たとえば、コンパクトディスク及び／又はＤＶＤディスクデータキャリアに記録される。
本発明の特徴は、本発明の範囲から逸脱することなしに何れかの組み合わせで結合することができる。本発明の実施の形態は、以下に添付図面を参照して例示のみで記載される。

本発明を文脈的に記載するため、現代のＭＰＥＧビデオ情報符号化に関する簡単な記載がはじめに提供される。

図１を参照して、画像情報を符号化するとき、現代のＭＰＥＧエンコーダにより実現される処理ステップが示されており、ステップは参照符号１０により一般に示されている。概略では、エンコーダは、一連のビデオ画像フレーム（ＦＲＭ）を時間的な系列ｔで受信し、これらを処理して、参照符号１５により示される対応するＭＰＥＧ符号化出力データ（ＯＰＤ）を提供する。

それぞれ受信されたビデオフレームＦＲＭは、２次元の画素フィールドを有しており、この画素フィールドは、エンコーダ内でデータマクロブロックＤＭＢに小分割され、便宜的に、それぞれのマクロブロックＤＭＢは、他のフィールドサイズもまた実施可能であるが、２次元の１６×１６画素フィールドを含んでいる。たとえば、エンコーダ内で現在処理されている参照符号２０により示される画像フレームは、参照符号３０により示される対応するマクロブロックＤＭＢに分割される。

エンコーダは、これらマクロブロックＤＭＢを更に処理し、それぞれのブロックＤＭＢは、それについて４つの対応するルミナンスデータ値及び２つの対応するクロミナンスデータ値を生成し、これらの値は、参照符号４０により示される関連するルミナンスブロックＬＢで記憶され、たとえば、それぞれのルミナンスブロックＬＢは、２次元の８×８画素フィールドを便宜的に含んでいるが、他の画素フィールドもまた実施可能である。ルミナンスデータ値は、それら対応するマクロブロックＤＭＢにおけるそれぞれの画素の明るさに関する情報を含み、さらに、クロミナンスデータ値は、それら対応するマクロブロックＤＭＢにおけるそれぞれの色に属する情報を含んでいる。

エンコーダは、参照符号４５により示される変換ＤＣＴをそれぞれのルミナンスブロックＬＢに適用し、ルミナンスブロックＬＢに伝達される空間及び色情報を記述する参照符号５０で示される対応する係数のブロックＫＢを導出し、便宜的に、係数ブロックＫＢは、他のアレイサイズも実施可能であるが、２次元の８×８アレイとしてもそれぞれ実現される。従来は、利用される変換ＤＣＴは、たとえばＭＰＥＧ規格で記述されるように離散コサイン変換（ＤＣＴ）であり、この変換は、空間的な相関を提供するために複雑な数学的手順である。変換ＤＣＴは、それぞれのブロックＬＢの画素値をより大きな整数で割ることを含んでおり、最下位ビットがそれぞれの画素から失われることとなり、さらに、これらの値は、コサイン関数を通して同時に通過され、刊行物“Discrete Cosine Transform − Algorithm, Advantages, Applications”by K. R. Roa, P. Yip; Academic Press Inc. 1990で提供されるように、式１（Ｅｑ．１）により概要的に記載されるように最終的に合計される。

さらに、式１の他のパラメータは、上述された刊行物で定義されている。

次いで、係数ブロックＫＢは、参照符号５５で示される処理演算ＺＴにエンコーダでそれぞれ向けられ、この処理動作は、係数を量子化し、次いでこれら量子化された係数を、参照符号６０で示される対応する１次元ブロックＬＡに配列する。ブロックＬＡは、可変長符号化（ＶＬＣ）を使用して最終的に処理され、上述された符号化された出力データ（ＯＰＤ）１５を生成する。ＶＬＣ処理６５は、他の実現も実施可能であるが、ルックアップテーブルを符号化することで便宜的に実現される。

変換ＤＣＴは、アレイエレメントＰ_1,1，Ｐ_8,1，Ｐ_1,8及びＰ_8,8を左上、右上、左下及び右下のそれぞれで例示されるように含む係数ブロックＫＢを生成する点で区別され、ここで、左上コーナにある係数は、右下コーナにある係数に比較して比較的大きな振幅の動作にある。量子化の後、右下コーナに向かう、すなわちエレメントＰ_8,8に近づく多くの係数は、ゼロ値であると想定される。さらに、処理演算ＺＴは、ブロックＬＡを生成するときに例示されるような「ジグザグ」方式で量子化された係数値を選択するために作用し、かかる選択は、ブロックＬＡで互いにゼロ値係数をグループ化可能であり、ＶＬＣ処理は、ゼロ値係数のグループ化に対応する情報を効率的に圧縮し、かかる圧縮されたゼロ値の情報を出力データＯＰＤに含むことができる。動作ＺＴでは、量子化された係数は、順次に、すなわち以下のようなＰ_1,1からＰ_8,8への対称的なスキャニングルートで選択されるのが好ましい。

変換ＤＣＴ、演算ＺＴの対称「ジグザグ」スキャニングルート、ＶＬＣ処理のゼロ値のグループ化特性を組み合わせることで、ＭＰＥＧ処理ステップ１０は、有効なビデオ情報圧縮を提供することができる。

処理ステップ１０は、ビデオフレームＦＲＭが先に記載されたような時系列でエンコーダに提供されるとき、すなわちプログレッシブフレーム系列が提供されるとき、適用するのが比較的簡単である。しかし、ビデオフレームがインタレース系列に対応するとき、現代のＭＰＥＧエンコーダは、相互に異なる時間の瞬間に対応するインタレース画像フィールドに対処するための更なる特徴を含んでいる。このように、インタレース画像に対処するため、エンコーダは、プログレッシブフレーム系列が提供されたときにフレームマクロモードで動作可能であり、インタレースフレーム系列が提供されたときにフィールドマクロモードで動作可能である。

インタレースフレームは、奇数及び偶数のインタレース画素ラインを含んでおり、この場合、特定の画像フレームの奇数ライン及び偶数ラインが相互に異なる第一及び第二の時間のそれぞれで生じる。エンコーダは、たとえば、各マクロブロックについて、奇数及び偶数ラインに対応する隣接マクロブロックのペアの画素を分離し、それらを図２に例示されるような隣接する奇数及び偶数マクロブロックに割り当てることで、フィールドマクロモードにおいて、インタレースフレームＦＲＭをデータマクロブロックＤＭＢに処理するのが可能である。かかる画素ラインの再構成は、マクロブロックＤＭＢにおける垂直スケーリング変化を導入し、これにより、スケーリングされたマクロブロックから生成される。

スケーリング変化は、係数ブロックＫＢで生成されるスペクトル密度の変更を導入する。すなわち、マクロブロックＤＭＢ内のスケーリングがそれら２つの直交する空間的な次元Ｘ，Ｙで類似するとき、対応する係数ブロックＫＢ内の係数は、例示される軸Ａ−Ｂに沿って、左上コーナＰ_1,1から右下コーナＰ_8,8に実質的に対称に減少する。しかし、スケーリングが係数マクロブロックＤＭＢの２つの直交空間次元Ｘ，Ｙで異なるとき、それらの軸Ａ−Ｂに関する対応するブロックＫＢにおける係数値の非対称性が結果的に生じる。

図１に示される演算ＺＴによる係数の対称的な「ジグザグ」選択は、スケーリングがデータマクロブロックＤＭＢの２つの直交次元Ｘ，Ｙに類似するとき、最適なデータ圧縮について適している。しかし、インタレースされた画像フレームを処理するためにフィールドマクロモードでエンコーダが機能するとき、代替的な非対称性のスキャニングルートは、図３に示されるように最適なデータ圧縮を提供する。図３では、上述された「ジグザグ」スキャニングルートも比較の目的で示されている。代替的な非対称なスキャニングルートは、以下のようなＰ_1,1からＰ_8,8へのシーケンスに対応する。

本発明者は、今日のＭＰＥＧ規格は、演算ＺＴにより利用されるスケーリングルートについて、マクロブロックＤＭＢを処理するとき、画像フレームＦＲＭ内で対称なルートと非対称なルートとの間で自動的に切り替え可能ではない。ＭＰＥＧ規格は、各データマクロブロックＤＭＢについて、フレームモードからフィールドマクロモードの動作に切り替えるときに選択的に選択されるのを可能にするが、演算ＺＴにより適合されるスキャニングルートを各画像フレームＦＲＭ内で一定に維持する。

したがって、本発明者は、先に説明された処理ステップ１０に基づいてビデオ情報を符号化する方法を考案している。本発明者の方法では、演算ＺＴのためのスキャニングルートの最適な選択のための予測子を利用しており、予測子は、たとえば、潜在的に低コストで今日のＭＰＥＧエンコーダに簡単に組み込み易い。かかる予測子の組み込みは、実質的に８％でＭＰＥＧエンコーダのビデオ情報の圧縮を強化可能である。これは、予測子により、フレームからフレームへのマクロデータブロックＤＭＢ及び／又は画像フレームＦＲＭでのマクロデータブロックを処理するとき、スキャニングルートのダイナミックな選択が可能であるためである。特に、変換ＤＣＴ及び演算ＺＴに対応して、フィールド−フレームＤＣＴフォーマッタにより提供される情報を再使用することは実用的であることを発明者は理解しており、このフォーマッタは、予測子を実現するための今日のＭＰＥＧエンコーダに組み込まれ、これによりフレームＦＲＭを符号化するときにスキャニングルートを動的に変更することができる。

さらに、データ圧縮を拡張するために予測子を含むかかるＭＰＥＧエンコーダは、コンパクトディスク（ＣＤ）でビデオ情報を書き込み可能なＤＶＤレコーダすなわちＤＶＤ＋ＲＷレコーダ、テレビジョンセットトップボックス、マルチメディアシステム、及び幾つかの潜在的な例を言及するプロフェッショナルブロードキャストの使用のためのコンピュータソフトウェア及びプロフェッショナルＭＰＥＧエンコーダのような様々な装置で使用され易いことを本発明者は考えている。

上述した内容で明らかにされるように、１以上のソフトウェア及びハードウェアで実現される今日の低コストのＭＰＥＧエンコーダでは、演算ＺＴにより適応されるスキャニングルートは、ビデオストリーム符号化を始めるときにユーザ設定可能であり、全体のビデオストリームの処理の間に変更されないままで維持される。しかし、プロフェッショナルＭＰＥＧエンコーダのなかには、演算ＺＴのための非対称なスキャニングルート及び対称なスキャニングルートが、対応する出力データＯＰＤを生成するため、たとえば２つのビデオ情報ストリームといった複数のビデオ情報ストリームを同時に処理することで共に受容され、最も圧縮された出力データを提供するビデオストリームは、最終的な出力データＯＰＤを生成するためにかかるプロフェッショナルエンコーダで選択される。かかる同時処理は、係数ブロックＫＢからの係数値が複数回にわたり処理されるので、実現するのに高価である。

処理ステップ１０に従って動作する今日のＭＰＥＧエンコーダが、１次元ブロックＬＡを生成するための係数ブロックＫＢを処理するときに、最適なスキャニングルートを予測するためのマクロブロックＤＭＢを生成するために、これと関連して利用されるフィールド／フレームフォーマッタから提供される情報を再使用するために適応されることが実施可能であることを、本発明者は理解している。

本発明の方法では、そのフィールド／フレームフォーマッタは、それぞれのマクロブロックＤＭＢを分析し、これより、そのマクロブロックＤＭＢについて最適なＤＣＴフォーマットを決定する。結果的に、フィールド／フレームフォーマッタが上述されたフィールドマクロモードでマクロブロックＤＭＢを符号化するのを選択したとき、動作ＺＴは、ブロックＬＡを生成するための非対称的なルートを利用するのを選択し、対照的に、フィールド／フレームフォーマッタが上述されたフレームマクロモードでマクロブロックＤＭＢを符号化するのを選択したとき、演算ＺＴは、ブロックＬＡを生成することにおいて実質的に対称的なルートを採用する。より好ましくは、ルートの選択は、処理されているそれぞれの画像フレーム内で動的に変更可能である。代替的に、スキャニングルートの選択は、時間的に先行する１以上のフレームＦＲＭについて選択されたスキャニングルートに基づいてそれぞれのフレームＦＲＭの処理の開始で行うことができる。以下では、本発明の方法に従って動作するエンコーダは、図４〜図８を参照して記載される。

図４をはじめに参照して、参照符号１００により一般に示されるエンコーダが示されている。エンコーダ１００は、たとえばコンテンポラリＭＰＥＧ−２エンコーダといった標準的な今日のＭＰＥＧエンコーダ（ＭＰＥＧ）１１０を有している。エンコーダ１１０に結合されているのは、符号化されるべき到来するビデオ情報ストリーム（ＶＩ）を受信するための入力、及びビデオストリームをエンコーダ１１０に出力するための第一の出力（ＶＯ）を有するフィルム検出器（ＦＤＥＴ）１２０である。フィルム検出器１２０は、到来するビデオ情報ＶＩがプログレッシブフレームに対応するか、インタレースされたビデオ情報に対応するかを、スキャニングルートセレクタ（Ｓ−ＳＥＬ）１３０に示すための第二の出力（ＰＩ）を更に含んでいる。セレクタ１３０は、そのＳＲ出力を介して順次エンコーダ１１０に接続されており、上述されたように、係数ブロックＫＢを処理するとき、その動作ＺＴにより適応されるスキャニングルートを決定する。さらに、検出器１２０は、２：３プルダウンマテリアル及び／又は４：３レシオマテリアルがフィルム検出器１２０からエンコーダ１１０に提供されたビデオ情報ＶＯから除かれるべきか否かを、エンコーダ１１０に示すための第三の出力（ＲＥＭ）を更に含んでいる。さらに、入力アスペクト比（ＡＳＰ）の入力は、エンコーダ１１０の動作ＺＴにより選択されたスキャニングルートの決定において使用するためのルートセレクタ１３０に提供される。入力アスペクト比に依存するスキャニングルートのかかる選択は、以下に更に詳細に明らかにされるであろう。

また、エンコーダ１１０は、その符号化された出力データ（ＯＰＤ）が提供される第一の出力を含んでいる。更に、エンコーダ１１０は、フィルタ１５０に符号化パラメータを出力するために、エンコーダ１１０の情報コレクタ１４０と関連する第二の符号化パラメータ出力（ＫＰ）を含んでおり、フィルタ１５０の出力（ＦＯ）は、エンコーダ１１０の動作ＺＴについて適応されるスキャニングルートの選択を支援するためのルートセレクタ１３０の入力に結合される。

エンコーダ１００の動作が以下に記載される。
ビデオ情報ＶＩは、検出器１２０に流れ込み、この検出器は情報を検出して、この情報がインタレース画像フレームに対応するか否か、及びこの情報が２：３プルダウンマテリアル及び／又は４：３レシオマテリアルを含むか否かを判定する。さらに、検出器１２０は、ビデオ情報ＶＩのスキャニングレートを決定し、スキャニングレートは、たとえば、スキャニングルートセレクタ１３０における閾値を設定するために利用される。検出器１２０は、対応する分析出力をルートセレクタ１３０及びエンコーダ１１０にそれぞれ伝達する。検出器１２０がインタレースされた到来ビデオ情報を検出したとき、実質的に非対称なスキャニングルートがエンコーダ１１０の演算ＺＴにより利用されるべきことを、ルートセレクタ１３０を介してエンコーダ１１０に伝達し、逆に、検出器１２０がプログレッシブフレームの到来ビデオ情報、及び／又は２：３プルダウンビデオ情報、及び／又は４：３プルダウンビデオ情報を検出したとき、実質的に対称なスキャニングルートがエンコーダ１１０の演算ＺＴにより利用されるべきことを、セレクタ１３０を介してエンコーダ１１０に伝達する。エンコーダ１１０は、２：３プルダウンマテリアルが到来するビデオ情報ストリームＶＩに存在することを検出器１２０の第三の出力ＲＥＭが示したときに、２：３プルダウン情報を除くために構成される。好ましくは、エンコーダ１１０は、エンコーダ１００と互換性のある後続のデコーダが、入力ビデオストリーム（ＶＩ）を再構成するための出力データ（ＯＰＤ）を復号化するときに、かかるマテリアルを追加可能であるようなやり方で、２：３プルダウンマテリアルを除く。

情報コレクタ１４０及びその関連するフィルタ１５０は、たとえば先行する画像フレームＦＲＭについて適応されるスキャニングルートに依存して動作ＺＴのためのスキャニングルートの選択を制御するために作用する。

２：３プルダウンマテリアルの保持は出力データ（ＯＰＤ）において許容される場合、図４に示されるエンコーダ１００が簡略化しやすいことを本発明者は理解している。かかる簡略化されたエンコーダは図８に例示されており、簡略化されたエンコーダは、参照符号２００により一般に示されている。エンコーダ２００は、フレーム検出器１２０が省略された場合を除いてエンコーダ１００に類似している。さらに、同期出力（ＳＹＮＣ）は、フレーム同期を支援するために、エンコーダ１１０からセレクタ１３０に提供される。エンコーダ２００は、特に、比較的最小の変更による標準的な今日のＭＰＥＧエンコーダを使用して実現可能であるという利点を提供する間でも、エンコーダ１１０における動作ＺＴのために最適なスキャニングルートを選択可能であるという利点を有している。

エンコーダ１００，２００は、実際に特徴付けされ、実質的に類似の符号化性能及びロバスト性を提供することがわかる。調査された両方のエンコーダ１００，２００では、フィルタ１５０及びセレクタ１３０は、グループ・オブ・ピクチャの画像フレーム（ＧＯＰ）の開始で演算ＺＴに適応されたスキャニングルートを変更するために実現されている。しかし、エンコーダ１００，２００を変更することで更に拡張された圧縮が達成可能であることを本発明者は考えており、それらセレクタ１３０が画像フレーム毎にスキャニングルートを変更するために作用し、望まれる場合に、エンコーダ１００，２００における画像処理の間にそれぞれのフレーム画像ＦＲＭ内でスキャニングルートを変更するために作用する。

その演算ＺＴにための特定のスキャニングルートをエンコーダ１１０に調節させるようにセレクタ１３０に指示するとき、そのフィルタ１５０がフレームＦＲＭの系列にわたり平均するようにエンコーダ２００が構成されるときに問題が生じる。たとえば、エンコーダ２００は、次いで、系列にわたりその動作ＺＴについて一定のスキャニングルートを結果的に適応し、この場合、系列は、幾つかの２：３プルダウンマテリアル及び／又は４：３レシオマテリアルを部分的に含んでいる。動作ＺＴにおける実質的に対称なスキャニングルートと非対称なスキャニングルートの間で選択のために調整される閾値に依存して、画像の全体の系列は、この例では、特定の選択されたスキャニングルートを使用して符号化される。かかる一定のスキャニングルートの調整から生じるデータ圧縮における低減に対処するため、エンコーダ２００は、２：３プルダウンマテリアルに効率的に対処するために、図６に概念的に例示され、参照符号３００により示されるエンコーダを提供するために更に適応することができる。

エンコーダ３００のコンフィギュレーションは、図６を参照してはじめに記載される。
エンコーダ３００は、逆符号化の再順序機能（ＩＮＶ）３１０、プルダウン検出機能（ＰＬＤ−ＤＥＴ）３２０及びタイマ機能（ＲＥＴ）３３０を有している。再順序機能３１０は、情報コレクタ１４０から符号化パラメータ（ＰＡＰＡＭ）を受信し、これらを処理してプルダウン機能３２０及びフィルタ１５０に対応するデータを提供する。さらに、プルダウン検出機能３２０は、データをタイマ機能３３０に出力し、セレクタ１３０に直接的に出力するために配置される。さらに、フィルタ１５０は、セレクタ１３０にデータを直接出力するために構成される。したがって、セレクタ１３０は、プルダウンマテリアルがそこに存在するか否かで、ビデオ情報ストリームＶＩに存在する連続する画像フレーム内の動きの１以上のレートに依存してエンコーダ１１０の動作ＺＴにより調整されるスキャニングルートを指示するために作用し、符号化パラメータの一般的な特性は、フィルタ１５０により通過される。情報コレクタ１４０それ自身は、たとえばマクロブロックのＤＭＢ処理に関する性能を符号化するエンコーダ１１０のインジケータを収集するためのエンコーダ１１０内で相互接続されている。

プルダウン機能３２０は、フォーム検出器（ＦＯＲＭ−ＤＥＴ）４００とこれに結合されるパターン認識検出器（ＰＲＥＣ）４１０の組み合わせにより、図７に概念的に示されるように実現されやすい。エンコーダ１１０の情報コレクタ１４０から収集される情報ストリームＩ₁〜Ｉ_nは、フォーム検出器４００により処理され、それぞれの画像フレームＦＲＭがインタレースされるか一時的にプログレッシブであるかを符号化パラメータＰＡＲＡＭに基づいて画像フレーム当たり判定する。出力ストリームＦ₁〜Ｆ_nは、フレームフォーマットを示している。出力ストリームＦは、認識検出器４１０に伝達され、この検出器は、入力ビデオ情報ＶＩが２：３プルダウンマテリアル（２：３ＰＤ）を含むかを判定し、すなわちかかるマテリアルの存在に関するｙｅｓ／ｎｏ（Ｙ／Ｎ）の指示を出力する。

同様に、フィルタ１５０は、図８に例示されるように実現されやすく、この場合、パラメータＩ₁〜Ｉ₅は、たとえば、フィールドマクロモード及び／又はフレームマクロモードといった１以上の上述されたマクロモードで機能するエンコーダ３００で符号化されたマクロモードの数を示す情報コレクタ１４０により収集される情報に固有である。

エンコーダ３００は、上述されたフィールドマクロモードで動作しているとき、２：３プルダウンマテリアルの存在及び情報コレクタ１４０から提供される符号化パラメータからの位相を検出し、画像フレームＦＲＭ内での動きを消去するのが可能であり、実質的に低い程度の動きがエンコーダ３００に提供される画像フレームＦＲＭに存在するとき、インタレース画像は実質的に類似しており、エンコーダ３００のエンコーダ１００の動作ＺＴのための実質的に対称なスキャニングルートは、次いで、出力データＯＰＤにおける効率的なデータ圧縮を達成するために有利にも調整され、逆に、比較的高い程度の動きが画像フレームに存在するとき、動作ＺＴのための非対称的なスキャニングルートは、次いで、出力データＯＰＤにおける強化されたデータ圧縮を達成するために有利にも採用される。検出器１２０が著しい動きをもつ２：３プルダウンビデオ情報を検出したとき、演算ＺＴのための非対称のスキャニングルートが有利にも利用される。

エンコーダ１００，２００，３００は、以下のように構成されることが好ましい。それらのエンコーダ１１０がフィールドマクロモードで動作しているとき、ｎＧＯＰの間のマクロブロックの数に関してカウントが行われる。すなわち、ＧＯＰ及びｎは、「グループ・オブ・イメージピクチャ」及び整数にそれぞれ対応する。エンコーダ１００，２００，３００において新たな後続のＧＯＰの処理の開始が生じたとき、エンコーダ１００，２００，３００は、マクロブロックＤＭＢの実質的に１０％以上がインタレースに対処するために処理されたときに、すなわちフィールドマクロモードにおけるように、それらの動作ＺＴについて非対称なスキャンルートを採用するために構成される。マクロブロックＤＭＢの実質的に１０％以下がインタレースに対処するために処理されたとき、新たな後続のＧＯＰの処理の開始は、たとえば上述されたような対称な「ジグザグ」ルートといった、その動作ＺＰのための実質的に対称なスキャンルートを利用するために構成されるエンコーダ１００，２００，３００のエンコーダ１１０で生じる。

１０％の閾値が先に記載されたが、たとえば２〜５０％の範囲で、より好ましくは５〜２５％の範囲で１以上の閾値といった他の閾値を適用することができることを理解されたい。

さらに、アスペクト比をエンコーダ１００，２００，３００内で設定することができることを理解されたい。たとえば、ＡＳＰ入力に伝達されたとき、到来するビデオ情報に存在する画像フレームの所定のアスペクト比により、セレクタ１３０は、拡張されたビデオ情報の圧縮を達成するため、１以上の好適なスキャニングルートをエンコーダ１１０に適応させる。たとえば、４：３及び１６：９の画像フレームのアスペクト比について、エンコーダ１１０は、その動作ＺＴについて２つの相互に異なる非対称なスキャニングルートを調整可能であることが好ましく、かかる異なるスキャニングルートは、かかるアスペクト比について最適化されることが好ましい。様々な画像のアスペクト比について適切なスキャニングルートは、エンコーダをプログラミング及び／又は分析したとき、適切な統計的な分析により前もって決定され、代替的又は付加的に、スキャニングルートは、エンコーダ１００，２００，３００の圧縮性能を監視する間に、様々な画像のアスペクト比の様々なスキャニングルートを特徴付けることで経験的に決定することができる。

エンコーダ１００，２００，３００は、それらの情報コレクタ１４０がｎＧＯＰの処理においてＫＢ係数を符号化するために使用されるビット数をカウントするために作用するように適合される。新たなＧＯＰの処理が開始されたとき、セレクタ１３０は、カウントされたビットの実質的に１９％以上がフィールドマクロモードにおけるマクロブロックＤＭＢの処理に関して使用されたとき、動作ＺＴに非対称的なスキャニングルートを利用させるように指示される。多かれ少なかれ実質的に１９％がフィールドマクロモードにおけるマクロブロックＤＭＢの処理に関して使用されるとき、セレクタ１３０は、動作ＺＴに対称なスキャニングルートに従わせるために作用する。動作ＺＴのためのスキャニングルートを決定するためのかかるビットカウント手順は、拡張されたデータ圧縮をそこで達成するためにエンコーダ１００，２００，３００の動作を制御するために現実に利点がある。実質的に１９％の閾値が先に記載されたが、望まれる場合には、たとえば１０〜４０％の範囲で閾値を変更することができることを理解されたい。

エンコーダ１００，２００，３００は、たとえば、１以上の特定用途向け集積回路（ＡＳＩＣ）又は１以上のカスタム集積回路といった、符号化ハードウェアを使用して実現されるのが好ましい。代替的に、エンコーダ１００，２００，３００は、たとえばプロプラエタリコンピューティングプラットフォームといった、コンピューティングハードウェアで実行しやすいソフトウェアで実現することができる。更なる代替として、エンコーダ１００，２００，３００は、カスタマイズされたハードウェア及びソフトウェアと関連されるコンピューティングハードウェアとの組み合わせとして、ハイブリッドフォームで実現することができる。類似の実現の考察は、エンコーダ１００，２００，３００により生成された出力データＯＰＤを復号化するために利用される今日のデコーダに適する。かかるデコーダもまた本発明の範囲にあり、エンコーダ１００，２００，３００での利用される符号化方法の逆の動作に対応するデータ処理機能を実行するために作用することが好ましい。

他の形態のエンコーダ１００，２００，３００が本発明の範囲内で実施可能であることを理解されたい。同様に、かかる他のエンコーダからの符号化されたビデオ情報を復号化するのに適したデコーダ、及びエンコーダ１００，２００，３００は、本発明の範囲である。本発明の方法、該方法を実現する装置、及び該方法を実現するソフトウェアは、本発明の範囲にある。本方法は、潜在的に比較的に低いコストでの拡張されたデータ圧縮を提供可能であり、たとえば製造されたビデオ符号化及び／又は復号化装置で工業的に適用可能である。

なお、上述された実施の形態は、本発明を限定するよりはむしろ例示するものであって、当業者であれば特許請求の範囲から逸脱することなしに多くの代替的な実施の形態を設計するであろう。請求項において、括弧間に配置される参照符号は、請求項を制限するものとして解釈されるべきではない。単語「有する“comprising”」は、請求項に列挙された構成要素又はステップ以外の構成要素又はステップを排除するものではない。本発明は、幾つかの個別の構成要素を有するハードウェアにより、適切にプログラムされたコンピュータにより実現することができる。幾つかの手段を列挙する装置の請求項では、これらの手段のうちの幾つかは、同一アイテムのハードウェアにより実施することができる。所定の手段が相互に異なる従属の請求項で引用される事実は、これらの手段の組み合わせを利用のために使用することができないことを示していない。

従来のＭＰＥＧ画像情報符号化で利用される処理ステップの概念的な表現を示す図である。インタレース画像のためのデータマクロブロック生成に関する概念的な例を示す図である。連続するフレーム及びインタレース画像情報の受信に応じて、データマクロブロックの生成から生じる様々な画像スケーリングを収容するための対称及び非対称の係数ブロックスキャニングルートの例を示す図である。本発明の方法を実行するための本発明に係る第一のエンコーダの概念的な表現を示す図である。本発明の方法を実行するための本発明に係る第二のエンコーダの概念的な表現を示す図である。本発明の方法を実行するための本発明に係る第三のエンコーダの概念的な表現を示す図である。図６に例示される第三のエンコーダのプルダウン検出機能の概念図である。図６に例示される第三のエンコーダのフィルタの概念図である。

Claims

入力ビデオ情報を符号化して、対応する符号化された出力データを供給する方法であって、
（ａ）画像フレームの系列に対応するデータを含むビデオ情報を受けるステップと、
（ｂ）それぞれのフレームに関連するデータを複数のデータブロックに細分するステップと、
（ｃ）それぞれのデータブロックのデータを、その関連するデータブロックに存在する少なくとも空間情報を記録する対応する係数データブロックに変換するステップと、
（ｄ）スキャニングルートに従ってそれぞれの係数データブロックをスキャニングし、対応する再構成されたデータブロックを生成するステップと、
（ｅ）データ圧縮を前記再構成されたデータブロックに適用し、前記符号化された出力データを生成するステップとを有し、
当該方法は、前記ステップ（ｄ）において、前記符号化された出力データに存在するビデオ情報のデータ圧縮を強化するために、それぞれの係数ブロックにおける非対称性の程度に応じて前記スキャニングルートを自動的に選択するために作用し、
前記ステップ（ｄ）において、それぞれの係数データブロックを処理して、その対応する再構成されたデータブロックを生成するために単一のスキャニングルートが利用される、
ことを特徴とする方法。
前記ステップ（ｄ）におけるスキャニングルートを制御するそれぞれの係数ブロックにおける非対称性の判定は、前記入力ビデオ情報におけるフレームインタレースの利用、前記ビデオ情報に存在する１以上の画像フレームの空間スケーリングアスペクト比、１以上の画像フレームのデータに存在するプルダウンマテリアル、前記ビデオ情報における先行する画像フレームを処理するために利用される１以上のスキャニングルート、一連の画像フレームで生じる時間的な動きの程度、並びに、前に選択されたスキャニングルート及びそれらの関連するデータ圧縮性能のうちの少なくとも１つに依存する、
請求項１記載の方法。
前記ステップ（ｂ）においてフィールドマクロモード及びフレームマクロモードの動作が提供され、前記フィールドマクロモードは、それら関連する時間に従ってインタレースされた画像フレームのライン情報を相互に分離して、前記ステップ（ｃ）における変換のための対応するデータブロックを生成するために作用し、前記フレームマクロモードは、それぞれの画像フレームとその関連するデータブロックとの間の空間的な対応関係を維持して、前記ステップ（ｃ）における変換のための対応するデータマクロブロックを生成するために作用する、
請求項１記載の方法。
前記再構成されたデータブロックを生成するために前記ステップ（ｄ）で利用されるスキャニングルートは、複数の画像フレーム、個々の画像フレーム及びそれぞれのフレーム画像内、のうちの１以上について切り替え可能である、
請求項１記載の方法。
利用されるスキャニングルートは、プログレッシブフォーマットからなる複数の画像フレームの割合と相対的なインタレースフォーマットからなる複数の画像フレームの割合に応答して選択される、
請求項４記載の方法。
前記ステップ（ｃ）における、その関連するデータブロックに存在する少なくとも空間情報を記録する対応する係数データブロックにそれぞれのマクロブロックのデータを変換することは、離散コサイン変換を使用して実現される、
請求項１記載の方法。
入力ビデオ情報を符号化し、対応する符号化された出力データを供給するためのエンコーダであって、
（ａ）画像フレームの系列に対応するデータを含むビデオ情報を受ける入力手段と、
（ｂ）それぞれのフレームに関連するデータを複数のデータブロックに細分する第一の処理手段と、
（ｃ）それぞれのデータブロックのデータを、その関連するデータブロックに存在する少なくとも空間情報を記録する対応する係数データブロックに変換する第二の処理手段と、
（ｄ）スキャニングルートに従ってそれぞれの係数データブロックをスキャニングし、対応する再構成されたデータブロックを生成する第三の処理手段と、
（ｅ）データ圧縮を再構成されたデータブロックに適用し、前記符号化された出力データを生成する圧縮手段とを有し、
前記第三の処理手段は、前記符号化された出力データに存在するビデオ情報のデータ圧縮を強化するために、それぞれの係数ブロックにおける非対称性の程度に応じて前記スキャニングルートを自動的に選択するために作用し、
前記第三の処理手段は、それぞれの係数データブロックを処理して、その対応する再構成されたデータブロックを生成するために単一のスキャニングルートを利用するように作用する、
ことを特徴とするエンコーダ。
請求項１の方法に係る対応する符号化された出力データを生成するため、ビデオ情報を処理するために実行可能なソフトウェア。
請求項１記載の方法を使用して生成される符号化された出力データ。
請求項９記載の符号化された出力データを記憶したデータキャリア。