JP4358990B2

JP4358990B2 - 動き推定システムおよび方法

Info

Publication number: JP4358990B2
Application number: JP2000543926A
Authority: JP
Inventors: アルトゥロエイ．ロドリゲス，; ティモシーダブリュー．シマーリー，; ネイレッシュアール．パテル，
Original assignee: サイエンティフィック−アトランタ，インコーポレイテッド
Priority date: 1998-04-16
Filing date: 1999-04-16
Publication date: 2009-11-04
Anticipated expiration: 2019-04-16
Also published as: JP2002511687A; WO1999053438A2; JP4410206B2; WO1999053438A3; BR9909574A; JP2006217644A; US6195389B1; DE69920429D1; DE69920429T2; EP1072017B1; EP1072017A1; DE1072017T1

Description

【０００１】
（関連特許出願の相互参照）
（発明の背景）
１．発明の分野
本発明は概して、デジタルピクチャのエンコーディングシーケンスに関し、より詳細には、デジタルピクチャのシーケンスをエンコーディングする間に行われる動き推定動作に関する。
【０００２】
２．従来技術の説明
以下の従来技術についての説明では、最初に総括的にデジタルピクチャの圧縮について、次いで現在実施されている動き推定について、そして最後に現在の技術の問題点について議論する。
【０００３】
デジタルピクチャの圧縮
デジタルピクチャはもともとは、コンンピュータシステムのメモリにおいて、ピクチャエレメントまたはピクセルのアレイとして表される。各ピクセルは、ピクチャにおける１つの点を表す。ピクセル自体はデータのアイテムであり、このデータのアイテムの内容が、ピクセルにより表される点がデジタルピクチャにおいてどのように見えるかを決定する。デジタルピクチャの品質はもちろん、ピクチャ中のピクセル数とピクセル中のビット数とに依存する。ピクチャ中のピクセル数が多いほど、解像度が良くなり、各ピクセル内のビット数が多いほど、各ピクセルはピクセルにより表される画像内の点についてより多くの情報を格納することができる。例えば、ピクセル内のビット数が多いほど、ピクセルはより多くの色の差異を表現することができる。
【０００４】
上記のような理由のため、高品質なデジタルピクチャを表示するためにもともとは用いられたピクセルのアレイは、非常に大型であり、かつ大量のメモリを必要とする。特に問題なのは、該当するデジタルピクチャが、適切な順序でかつ適切なタイミングで見られると動画を構成するピクチャのシーケンスの一部である場合のアレイのサイズである。ピクチャのシーケンスを表示する装置は、それらを格納するだけでなく、動画についてのタイミング要求を満たすようそれらを十分に高速に読み出しかつ表示しなければならない。
【０００５】
このタイミングおよび格納の問題は、デジタルピクチャのシーケンスを限られた帯域を有する媒体を用いて格納量が限られている受信器に分配する場合、特に深刻となる。この問題が当てはまる例としては、デジタルテレビ、テレビ会議、およびテレビ電話がある。これらのアプリケーションでは、ピクチャのシーケンスを、テレビ放送チャンネルもしくはケーブルテレビチャンネル、電話線、またはコンピュータネットワークを用いて、ピクチャを格納するためのメモリ量が限られている、テレビジョンセット、テレビ電話、またはパーソナルコンピュータのような、比較的低コストな消費者のデバイスに送信しなければならない。これらのアプリケーションはしたがって、デジタルピクチャを圧縮することによりピクチャを送信する際に必要な帯域および／またはそのピクチャを送信先に格納するために必要な格納量を低減する何らかの方法が見付けられた場合にのみ、経済的に実施可能である。
【０００６】
この技術分野においては、デジタルピクチャのシーケンスを圧縮するための多くの異なる技術が開発された。これらの技術の１つとしては、デジタルビデオを圧縮するためのＭＰＥＧ−２規格がある。ＭＰＥＧ−２規格については、１９９６年１１月にＵＲＬのｈｔｔｐ：／／ｗｗｗ．ｃｄｒｅｖｏｌｕｔｉｏｎ．ｃｏｍ／ｔｅｘｔ／ｍｐｅｇｉｎｆｏ．ｈｔｍ．のアドレスにおいて閲覧可能であった「ＢａｃｋｇｒｏｕｎｄＩｎｆｏｒｍａｔｉｏｎｏｎＭＰＥＧ−１ａｎｄＭＰＥＧ−２ＴｅｌｅｖｉｓｉｏｎＣｏｍｐｒｅｓｓｉｏｎ」において説明されている。これらの技術の全ては、デジタルピクチャのシーケンスが冗長情報を大量に含んでいる点を利用したものである。１つのタイプの冗長性は、空間的なものである：任意のピクチャにおいて、空間的に互いに接近したピクセルは、類似の特性を有する傾向がある。こういった理由のため、ピクチャを空間的に隣接するピクセルの領域のセットとして表現することがしばしば可能となる。領域はもちろんオーバーラップし得る。領域が矩形の場合、それをブロックと呼ぶ。ピクチャの所与の領域がピクチャの別の領域に大きく類似するがその別の領域と同一ではない場合、その所与の領域におけるピクセルを、その所与の領域を別の領域と所与の領域との間の差として記述する表現と取り替えることができる。
【０００７】
ピクチャのシーケンスにおける別のタイプの冗長性は、時間的なものである；シーケンス内の所与のピクチャがシーケンス内の先行または後続ピクチャに外観が大きく類似することはごく頻繁におこる；したがって、所与のピクチャ内の領域と先行または後続するピクチャ（本明細書中、これを「基準」ピクチャと呼ぶ）の中の領域との間の「差」を表す所与のピクチャの表現を作成し、この表現をピクセルのアレイとしての表現の代わりに用いることにより、所与のピクチャを圧縮することが可能となる。
【０００８】
図１は、所与のピクチャと基準ピクチャとの間の差を表すための１つの方法を示す。デジタル基準ピクチャ１０１は、メモリにおいてピクセル１０５のアレイとして表現される。このピクチャは、ブロック１０３にさらに分割される。ブロック１０３の各々は典型的には、１６×１６ピクセルの正方形である。基準ピクチャ１０１内のオブジェクト１０７は、隣接する４つのブロック１０３（すなわち、ブロック１０３（ｍ、ｎ）、（ｍ＋１、ｎ）、（ｍ、ｎ＋１）、および（ｍ＋１、ｎ＋１））内に含まれる。ここで、ｍおよびｎは、ブロックの左上隅部のｘおよびｙ座標を示す。所与のピクチャ１０９において、オブジェクト１０７は、異なる位置（すなわち、ブロック１０３（ｂ、ｓ）、（ｂ＋１、ｓ）、（ｂ、ｓ＋１）および（ｂ＋１、ｓ＋１））にあるが、それ以外の点ではオブジェクト１０７は、基準ピクチャ１０１におけるのと同じ外観を実質的に有する。そういった理由のため、オブジェクト１０７は、所与のピクチャ１０９の圧縮表現において、基準イメージ１０１内のオブジェクト１０７との差として記述され得る。差としては、以下の２種類の差、すなわち、
所与のピクチャ１０９におけるオブジェクト１０７の位置変化および
所与のピクチャ１０９におけるオブジェクト１０７の外観における任意の変化がある。第１の種類の差は、基準ピクチャ１０１におけるオブジェクト１０７の位置からピクチャ１０９におけるオブジェクト１０７へのオフセットを用いて記述され得る。第２の種類の差は、基準ピクチャ１０１におけるオブジェクト１０７の外観とピクチャ１０９におけるオブジェクト１０７の外観との差を用いて記述され得る。この外観の変化は、オブジェクト１０７に入射する照度の変化またはｘ軸、ｙ軸もしくはピクチャ平面に垂直なｚ軸周りでの回転によるオブジェクトのひずみもしくはせん断変形などの要因により生じ得る。
【０００９】
先程説明したような圧縮技術を使用すると、市販のデジタルテレビ、デジタル通信会議、およびデジタルテレビ電話に典型的な帯域およびメモリ制約条件を満足するのに十分に小さいデジタルピクチャのシーケンスの圧縮された表現を作成することが可能になる。本明細書中、デジタルピクチャのピクセル表現からデジタルピクチャの圧縮表現を製作することを、ピクチャを「エンコードする」という。
【００１０】
「ハイブリッドな」ビデオコーディング方法において、時間的な冗長性は典型的には、１つ以上の「基準ピクチャ」内のデータからエンコード中のピクチャ（すなわち、「現在の」ピクチャ）内のブロックデータを予測することにより除去される。エンコーダエンジン（すなわち、プロセッサ上で実行するエンコーディングソフトウェアまたはマイクロコード）が現在のピクチャを圧縮している時点では、このような基準ピクチャは既に圧縮された後であり、恐らく送信もされた後である。しかし、これらの基準ピクチャは、後続のピクチャを圧縮する際に基準ピクチャとして用いられる予定であるため、エンコーダエンジンがこのような基準ピクチャを圧縮している間、エンコーダエンジンは、後で検索および基準ピクチャとして使用可能なよう、これらの基準ピクチャを再構成およびメモリ内に保有する。エンコーダエンジンは、メモリ内の圧縮された基準ピクチャを再構成することにより、エンコーダエンジンによりエンコードされたピクチャをデコードすることが可能な「デコーダエンジン」をシミュレートする。これは、デコーダエンジンはデジタルピクチャ用の受信器の一部であり、オリジナルのピクチャへのアクセスを有しておらず、圧縮の結果の信号損失（すなわち劣化）を本来的に示す再構成されたピクチャのみにアクセスを有するためである。
【００１１】
動き推定およびブロックマッチング規準
ビデオ信号は高速な動きを示すことができるため、動き推定／補償技術を用いて、基準ピクチャ内の異なる空間オフセットにおける同一サイズのブロックによって現在のピクチャにおけるブロックのデータを予測することを可能とすることにより、時間的冗長性を活用することが最大限に達成される。ブロックに基づいた動き推定／補償技術では、最適ではないのだがコスト的に効率の良いマルチメディアシステムにおける実用面での理由のため、並進運動のみを仮定する。すなわち、ブロックは移動はしたが回転はしなかったものと仮定する。したがって、ブロックに基づいた動き推定／補償方法は、最もハイブリッドなビデオコーディング方法の一部であり、ＭＰＥＧ−１［１］、ＭＰＥＧ−２［２］、Ｈ．２６１［３］、およびＨ．２６３［４］などの全ての既存のビデオコーディング規格のキー的要素である。動き推定は、現在のピクチャにおいて現在エンコーディングされている「現在のブロック」に最もよく適合する基準ピクチャ内のブロックを見付けるプロセスである。現在のピクチャに最もよく適合する基準ピクチャ内のブロックは、「予測因子」と呼ばれる。なぜならば、このブロックは、予測因子ブロックに対する現在のブロックの動きおよびピクセル値を予測するからである。
【００１２】
一例としては、多くの既存のビデオコーディング規格の場合のようにブロックサイズが１６×１６ピクセルで、基準ピクチャ内の対応する「探索空間」（すなわち、エンコーエィングエンジンが予測因子を探す基準ピクチャの一部分）が６４×４８に等しいサイズである場合、動き推定のジョブは、探索空間において現在のブロックにとって最適な予測因子である連続した１６×１６のブロックを見付けることである。したがって、１６１７（すなわち、４９×３３）個の「候補ブロック」、すなわち、探索空間において、現在のブロックについての予測因子の候補である１６×１６のブロックがある。予測因子は、現在のブロックと各候補とをマッチングさせることにより、候補の中から選択される。現在のブロックと最もよく適合する候補が予測因子である。
【００１３】
動き推定の上記の部分を「ブロックマッチング」と呼ぶ。ブロックマッチングは、マッチング規準を用いて行われる。典型的なマッチング規準は、ピクセル誤差絶対値の和（ＳＡＥ）およびピクセル誤差の２乗和（ＳＳＥ）である。誤差および差という言葉は、当業者にとっては同じ文脈中において同じ意味として用いられる点に留意されたい。したがって、ＳＡＤおよびＳＡＥは、同一のブロックマッチング計算を指す。同様に、ＳＳＤおよびＳＳＥは同じである。
【００１４】
例えば、探索空間における各オフセット（ｕ、ｖ）についてのＳＳＥは、以下のように定義される。
【００１５】
【数１】

ここで、Ｐ_currは現在のピクチャにおいて動き推定を用いて予測されるブロックであり、Ｐ_refは基準ピクチャの探索空間における候補ブロックであり、Ｐ_currからベクトル（ｕ、ｖ）分だけ変位している。この実施例において６４×４８の探索空間が現在のブロックと同心であると仮定すると、候補ブロックのオフセット範囲は、水平方向に−２４から＋２４、垂直方向に−１６から＋１６となる。しかし、これはもちろん、本明細書中開示されている本発明の必要条件ではない。
【００１６】
例えば、探索空間における各オフセット（ｕ、ｖ）についてのＳＡＥは、以下のように定義される：
【００１７】
【数２】

マッチング規準を全体的に最小化する候補ブロックが、最もよく適合するブロックとして選択され、その最もよく適合するブロックに対応する現在のブロックの座標からの変位が現在のブロックの「動きベクトル」となる。この動きベクトルは、エンコーダエンジンにより生成された圧縮ビデオストリームから完全に復元できるようエンコードされ、これにより、現在のピクチャの再構成の際に、規格に対応したデコーダエンジンは動き補償を行うことができる。したがって、動き推定の出力は、現在のブロックの動きベクトルであり、これは、予測因子の対応する隅部の座標から現在のブロックの左上隅部分の座標への変位を示すものである。
【００１８】
デジタル化されたビデオシーケンスにおいて、各ピクチャは３つの情報面からなる。１つの面は輝度であり、２つの面はクロミナンスである。動き推定は典型的には、輝度領域において行われるのに対し、動き補償は、ピクチャを再構成するために３つの面全てについて行われなければならない。各情報面は、８ビットの数値（すなわちバイト）からなる。典型的には、輝度面の寸法は、ピクチャの解像度と等しく、各ピクセルは独自の８ビットの輝度表現を有する。
【００１９】
例えば、ＳＳＥは、各候補について、２５６の減算、２５６の平方動作（すなわち、乗算）、および２５５の加算を必要とする。ＳＡＥでは、上記の乗算動作を絶対値と取り換える。計算複雑性がより低いマッチング規準は、予測能力が劣るため、実際に用いられることはめったにない。したがって、動き推定は、ＳＡＥまたはＳＳＥマッチング規準を用いても、計算集約型の動作である。さらに、現在のピクチャにおける各ブロックについて、規準ピクチャにおいて考慮される候補ブロックのそれぞれについてマッチング規準を計算しなければならない。ＣＣＩＲ６０１解像度（７２０×４８０）と等しいサイズのピクチャは、個別に動き推定を受ける１３５０個のオーバラップしていない１６×１６のブロックを有する。６４×４８のサイズの探索空間（すなわち、１６１７個の候補ブロック）について、各候補ブロックを考慮する動き推定システムを有するエンコーダエンジンは、ピクチャを１秒当たり３０ピクチャのレートでエンコードしながら、ブロックマッチング規準をピクチャ当たり約２，１８２，９５０（１３５０×１６１７）回計算しなければならない。したがって、動き推定は典型的には、ハイブリッドビデオコーディング方法のうち最も計算集約型の要素である。
【００２０】
上述した全探索動き推定方法は、マッチング規準に対して全体的に最小のスコアを生成する予測因子ブロックが探索空間に配置されることを保証するが、大量の計算能力を必要とする。この方法は、高コストなエンコーダエンジンをまかなうことができるならばうまく働く。しかし、エンコーダエンジンがテレビ電話のような一般消費者システムの一部である場合、問題が生じる。このコストによる制約により、低コストなデジタル信号プロセッサ（ＤＳＰ）またはＲＩＳＣプロセッサのような比較的低コストなプロセッサを用いてエンコーダエンジンを実現することが要求され、その一方で全探索の動き推定方法の要求はその低コストプロセッサの能力を超える。このような状況では、いわゆる「高速」動き推定方法を用いなければならない。
【００２１】
高速動き推定方法
高速動き推定方法の目的は、現在のブロックと比較される候補ブロックの数を低減することである。これらの方法の欠点は、現在のブロックと実際に最もよく適合する候補が予測因子として選択される保証が無いということである。この方法の最終結果は、計算サイクルが低減されることにより、ピクチャの質の低下もしくは圧縮度の低下またはその両方が発生することである。提案される方法は、以下のように分類することができる。
１．探索空間において、予測因子としてみなされる候補ブロックの数をヒューリスティックスを用いて低減する方法。このような方法の例としては、対数探索および３段階探索方法がある。
２．ブロックマッチング規準を計算する際のピクセル数と、考慮される候補ブロックの数とを同時に低減する階層型探索方法。これらの方法は、水平および垂直方向に２倍の間引きまたはローパスフィルタリングを行うことにより、現在および基準のピクチャの解像度を連続的に低下させる。ブロックのマッチングは、利用可能な最低解像度で行われ、その結果は、次に高い解像度にマッピングされ、マッピングされた最もよく適合するブロックの周囲に位置する、変位した限られた数のブロック候補が考慮される。
３．現在のブロックに近接するブロックの動きベクトルを用いて候補ブロックを配置する方法。
【００２２】
前半の２つの方法のさらなる詳細については、Ｖ．ＢｈａｓｋａｒａｎおよびＫ．ＫｏｎｓｔａｎｔｉｎｉｄｅｓによるＫｌｕｗｅｒＡｃａｄｅｍｉｃＰｒｅｓｓ、１９９５の「ＩｍａｇｅａｎｄＶｉｄｅｏＣｏｍｐｒｅｓｓｉｏｎＳｔａｎｄａｒｄｓ」と、Ｋ．Ｒ．ＲａｏおよびＪ．Ｊ．ＨｗａｎｇによるＰｒｅｎｔｉｃｅＨａｌｌＰｒｅｓｓ、１９９６の「Ｔｅｃｈｎｉｑｕｅｓ＆ＳｔａｎｄａｒｄｓｆｏｒＩｍａｇｅ、Ｖｉｄｅｏ、ａｎｄＡｕｄｉｏＣｏｄｉｎｇ」とを参照されたい。３番目の方法の例については、ＪｕｎａｖｉｔＣｈａｌｉｄａｂｈｏｎｇｓｅ、ＳｕｎｇｏｏｋＫｉｍおよびＣ．−Ｃ．ＪａｙＫｕｏによるＰｒｏｃｅｅｄｉｎｇｓ、ＶｉｓｕａｌＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ ’９６、ＩｎｔｅｒｎａｔｉｏｎａｌＳｏｃｉｅｔｙｆｏｒＯｐｔｉｃａｌＥｎｇｉｎｅｅｒｉｎｇ、ｖｏｌ．２７２７、ｐｐ．６４５−６５６の「ＦａｓｔＭｏｔｉｏｎＶｅｃｔｏｒＥｓｔｉｍａｔｉｏｎｆｏｒＶｉｄｅｏＣｏｄｉｎｇＢａｓｅｄｏｎＭｕｌｔｉｒｅｓｏｌｕｔｉｏｎ−Ｓｐａｔｉｏ−ＴｅｍｐｏｒａｌＣｏｒｒｅｌａｔｉｏｎｓ」を参照されたい。
【００２３】
この３段階動き推定方法は例えば、探索空間を間引きサンプリングすることにより候補ブロック数を低減する。＋／−７の範囲の動きベクトルについては、この３段階方法では３段階を１セットとして進行する。各段階において、前段階での候補予測因子のセットにおいて発見された最もよく適合する規準スコアに従って、探索空間の位置を連続的に微調整し、残りの考慮中の候補ブロックのウィンドウサイズを連続的に低減する。第１の段階では最初に、原点の候補を含む基準ピクチャにおいて現在のブロックの原点から＋／−４の範囲の空間的に対応するオフセットで９個の候補を調べる。すなわち、考慮される９個の予測因子の座標は、（０、０）、（４、０）、（−４、０）、（０、４）、（０、−４）、（４、４）、（４、−４）、（−４、−４）、および（−４、４）である。最小マッチング規準値を有するオフセットは次に、新しい原点の周囲の＋／−２のオフセットにおいて別の８個の候補を調べるための原点として用いられる。最後に、第２段階で発見された最もよく適合するものが、＋／−１のオフセットにおける別の８個の候補の新しい原点として用いられる。第３の段階の最後に発見された変位は、現在のブロックの予測因子として働く。全てにおいて、この方法は典型的には、２５個の異なるオフセット（第１段階について９個のオフセット、第２段階について８個のオフセット、および第３段階について８個のオフセット）における候補についてマッチング規準を計算することを必要とする。この方法は、探索空間のサイズに依存する点に留意されたい。探索空間が＋／−１５の範囲の動きベクトルをサポートするために拡張された場合は、考慮されるオフセット数は６５個に増加する。これは、探索空間を水平および垂直方向に４つおきに間引きサンプリングすることにより、第１段階は４９個のオフセットからなるためである。
【００２４】
別の高速動き推定方法は、上記の３段階方法と同じ原理で動作する。この対数探索では、＋／−７の動きベクトル範囲での上記３段階探索と同じオフセットを用いて探索空間の粗い間引きサンプリング〜細かい間引きサンプリングを行う。しかし、＋／−１５の動きベクトル範囲については、この対数探索では、探索空間の間引きサンプリングが＋／−８、＋／−４、＋／−２、＋／−１のオフセットにおいて行われる４つの段階が必要となる。＋／−１５の動きベクトル範囲についてこの方法を用いて調べた候補位置は３３個未満であるが、この方法の成績は、良くない。なぜならば、この方法では、探索空間の局所的最小値を反映する予測因子を発見する可能性がより大きいからである。
【００２５】
現在のブロックに近接するブロックを用いる技術のための出発地点を形成する洞察としては、現在のブロックに密接に関連する領域が、現在のブロックと同じ様式で移動する可能性が非常に高いことがある。したがって、密接に関連する領域におけるブロックの動きベクトルが分かっている場合、その現在のブロックはその動きベクトルを有している可能性が高い。従って、これらの関連するブロックのうちの１つからの動きベクトルを用いて規準ピクチャ内に現在のブロックに対する候補ブロックを配置することは道理に適っている。候補ブロックとは単に、関連するブロックからの動きベクトルが候補ブロックに適用されると、現在のブロックとなるような基準ピクチャ内の位置を有する、基準ピクチャ内のブロックのことである。さらなる洞察としては、デジタルピクチャにおいて、別のブロックに関連するブロックはその別のブロックにごく近接して配置されやすいことである。この近接化は、以前にエンコードされたピクチャにおけるブロックまたは現在のピクチャにおけるブロックのどちらにも関連し得る。したがって、現在のブロックにごく近接するブロックを用いて配置された候補ブロックを用いて予測因子の探索を開始するだけで、現在のブロックの予測因子を発見するために比較されなければならないブロックの数を実質的に低減することがしばしば可能となる。このようなブロックは、以下において「近接」ブロックと呼ばれる。
【００２６】
Ｃｈａｌｉｄａｂｈｏｎｇｓｅらの参照文献の技術では、現在のピクチャおよび現在のピクチャに先行するピクチャにおける近接ブロックを用いて最適な候補を発見し、その最適な候補をさらなる高精度化を行うための出発地点として用いる。このさらなる高精度化では、最適な候補の周囲の８つの点を探索し、その探索で発見された最適な候補をさらなる８つの点で用いるといった具合のことを、マッチング結果が閾値未満に達するまで継続する。この技術に関する別の変更例が示されており、上記参照文献ではまた、階層型探索においてこの技術をいかにして用いるかについて開示している。
【００２７】
公知の動き推定技術の問題点
上述した高速動き推定技術は全て、候補ブロック数と最適な予測因子が見つかる可能性との間の望ましくないトレードオフを生じる。さらに、どの高速動き技術においても、一般消費者向けに構成されたデジタルシステムではメモリに厳しい制約が有り、その結果探索空間のサイズも厳しく制約されるという点を考慮に入れていない。詳細には、一般消費者向けに構成されたデジタルシステムでは、ＤＳＰ内部のＲＡＭに含まれるデータ上で最も効率良く動作するデジタル信号プロセッサ（ＤＳＰ）を用いる。その結果、探索空間全体をＤＳＰ内部のＲＡＭに転送することができた場合、探索が最も効率良く行われる。このように探索空間のサイズには制約があるため、探索技術は、探索空間が予測因子を含む可能性が非常に大きいことを保証しなければならない。上述した方法では、探索空間においてブロックのサブセットのみを候補として考慮しているため、探索空間が含まれている探索空間またはメモリを効率的に使用できていない。その上、上述した方法において候補を調べる範囲を効率的に増やすための唯一の方法は、ＤＳＰ内部のＲＡＭ量を増やすことである。したがって、上記の方法は、一般消費者向けに構成されたシステムにおいて用いられた場合、必然的に劣った動き推定を発生させる。
【００２８】
一度に１つの候補ブロックを、ＤＳＰ外部のメモリからＤＳＰデータＲＡＭ内部に転送するのは実際的ではない点に留意されたい。なぜならば、隣接する候補ブロックは共通して１５または１６ものカラム（またはロウ）を有し得、さらにはそのような転送はリアルタイムシステムに深刻な遅延を課すからである。したがって、所与の動作でできるだけ多くの面積の探索空間をＤＳＰデータＲＡＭ内部へ転送する方がより効率的である。上記の問題は、階層型探索方法の場合に特に深刻になる。上記の方法では、現在のピクチャおよび基準ピクチャのマルチ解像バージョンのために、さらなるメモリを必要とする。上記の方法ではまた、基準ピクチャの異なる解像度のデータを格納および検索するために、外部メモリへの多重アクセスを必要とする。
【００２９】
本明細書中に開示する技術の目的は、現在のブロックに対して予測因子ブロックを配置する方法を提供することにより、上述した動き推定についての問題を解消することである。この方法は、メモリの効率的な使用を必要とするエンコーディングシステムに特に良く適応されている。
【００３０】
（発明の要旨）
上記目的は、現在のブロックに近接するブロックから動きベクトルを取り、その動きベクトルを現在のブロックに適用して候補ブロックを基準ピクチャ内に配置し、そしてその候補ブロックを用いて探索空間の一部を規定することにより達成される。上記のように規定された探索空間は概して、ブロック比較を行うために用いられるプロセッサの内部ＲＡＭにその全体がロードされるのに十分に小さいが、プロセッサの内部ＲＡＭの外部メモリへの単純な射影に限定されない。
【００３１】
本発明の別の局面は、現在の最適な候補上にセンタリングされた非矩形探索空間を用いて予測因子ブロックの探索をさらに精製し、近接するブロックの数および位置を動的に変化させて、予測因子の探索を限定するための改良された技術を含む。これらの近接するブロックの動きベクトルを用いて、近接するブロックについての動きベクトルの利用可能性と、プロセッササイクルの利用可能性と、以前に決定された動きベクトルの数値とによって示されるように候補ブロックを配置する。
【００３２】
本発明のさらに別の目的および利点は、以下の詳細な説明および図面を読めば、本発明が関連する技術分野の当業者にとって明らかである。
【００３３】
（詳細な説明）
図面中、参照番号は、少なくとも３桁である。右側の２桁は図面中の参照番号であり、これらの左側の桁は、その参照符号により示されるアイテムが初出する図面番号である。例えば、参照番号が２０３のアイテムは、図２に初出する。
【００３４】
以下の詳細な説明は、まず、好適な実施形態において、候補ブロックがどのように選択されるかを説明し、次に、この技術に従って選択された候補ブロックが、どのように新たな技術に要求される探索空間を予測するために使用され得るかを示す。
【００３５】
（本技術の好適な実施形態：図２）
好適な実施形態において、先ほど説明した技術は、現在のブロックについての予測因子を２フェーズ探索する際に使用される。第１フェーズが、予測因子が探索されるエリアを局限し、第２フェーズが、予め規定された２次元探索空間（この空間の形状は、予め規定されるかまたは第１フェーズの結果によって決定される）内での探索の精度を高める。この探索は、適切な予測因子が見つかるとすぐに、いずれかのフェーズにおいて終了する。第１フェーズは、４個以上の近接ブロックおよび現在のブロックの位置を使用して、基準ピクチャ内に、対応する候補ブロックを配置する。近接ブロックは２つの特性を有する。すなわち、
・近接ブロックは、現在のブロックに、特に近く近接している。
・近接ブロックが動きベクトルを有する場合、その動きベクトルは既に計算されている。
現在のブロックについての予測因子であると考えられる程度に十分に近い、現在のブロックと適合する候補ブロックが見つかった場合、探索は第１フェーズにおいて終了する。このような候補ブロックが見つからない場合、第１フェーズにおいて見つかった最適候補のまわりを徐々に拡張するらせんを形成する順序で、基準ピクチャにおける候補ブロックを用いて探索が続行される。十分に近い適合するブロックが見つかった場合、または、第２フェーズの探索空間内の全候補ブロックが現在のブロックと比較された場合のいずれかの場合に、探索は終了する。好適な実施形態において、同時に観察した場合、候補ブロックは、ダイヤモンド形状を形成し、このダイヤモンドの中央に、第１フェーズからの最良の候補が位置する。
【００３６】
近接ブロックを使用して候補ブロックを配置することの利点は、第１フェーズにおいて使用される近接ブロックについての動きベクトルが、第１フェーズの開始よりも前に既知である点にある。結果的に、これらの動きベクトルを使用して、第１フェーズについての探索空間を決定し得、この探索空間は、第１フェーズの開始前に、ＤＳＰの内部ＤＲＡＭにプリロードされ得る。さらに、第１フェーズによって提供される最良の候補ブロックは、第１フェーズについての探索空間内に存在し、且つ、第２フェーズについての所定のサイズのダイヤモンド形状の中心として使用されるので、第１フェーズについての探索空間は、探索空間内のブロックの任意のブロック上に中心を有するダイヤモンド形状を取り囲むより大きな矩形の探索空間へと拡張され得、この拡張された探索空間は、第１フェーズの開始前に、ＤＳＰの内部ＤＲＡＭにプリロードされ得る。
【００３７】
（フェーズ１：図２および図６）
図２は、探索の第１フェーズについて初めに考慮される近接ブロック２０２を示す。以下に詳細に説明するように、より多くの近接ブロックが使用され得るか、または、他のブロックが図２の近接ブロックの代わりに用いられ得る。現在のブロック２０３および近接ブロック２０２を用いて、基準ピクチャ１０１の探索空間２１９内の、現在のピクチャ２０１の現在のブロック２０３についての予測因子が見つけられる。好適な実施形態において、現在のピクチャ２０１のエンコーディングは、ラスタスキャンの順序で行われる。つまり、現在のピクチャのブロックは行にエンコードされ、各行内のブロックは左から右へとエンコードされ、行はピクチャの上端から下端へと処理される。したがって、現在のブロックを含む行より上の行に含まれるブロックが既にエンコードされており、同様に、現在のブロックの行内の現在のブロックの左側のブロックがエンコードされている。これらのブロックは既にエンコードされているので、それらが有し得るいずれの動きベクトルも既に利用可能である。好適な実施形態において、５個の候補ブロックが、最小４個の近接ブロックおよび現在のブロックを用いて見つけられ得る。第１フェーズにおける使用のためにまず考慮された４個の近接ブロックは、エンコードされる最後のピクチャ２２０の１つのブロック、および現在のピクチャ２０１の３つのブロックである。エンコードされる最後のピクチャ２２０の１つのブロックは、現在のブロックが現在のピクチャ２０１内に有するのと同じｘｙ座標をピクチャ２２０内に有する。本明細書中、現在のブロックと同じ座標を有する異なるピクチャ内のブロックを、「空間的に対応する」ブロックと呼ぶ。現在のピクチャ２０１内の３つの近接ブロックは、現在のブロック２０３に「隣接する」３つのブロックであり、既に動きベクトルを有し得る。本明細書中、「隣接する」とは、少なくとも、現在のブロックの縁または角に接触する角を有することを意味する。したがって、５つの候補ブロックを配置するために使用されるブロックは、以下の通りである。
１．基準ピクチャの空間的対応ブロック（ＲＰＳＣＢ）２２７を配置するために使用される、現在のブロック（ＣＢ）２０３。（ＲＰＳＣＢ２２７は、現在のブロック２０３と同じｘｙ座標を有する基準ピクチャ１０１内のブロックであり、言い換えると、基準ピクチャ１０１内のブロックであって、これに対して現在のブロック２０３が動きベクトル（０，０）を有するブロックである。）
２．現在のブロック２０３と同じｘｙ座標を有する最後にエンコードされたピクチャ２２０内の、最終ピクチャの空間的対応ブロック（ＬＰＳＣＢ）２２１。
３．現在のピクチャ内の、西側の隣接ブロック（ＷＡＢ）２０５。
４．北側の隣接ブロック（ＮＡＢ）２０７。
５．北東側の隣接ブロック（ＮＥＡＢ）２０９。
【００３８】
好適な実施形態において、現在のピクチャ２０１およびエンコードされた最後のピクチャ２２０はそれぞれ、ピクチャ内の各ブロックへのエントリを有する、関連するルックアップテーブルを有する。動きベクトルがブロックについて計算された場合、ブロックへのエントリは、ブロックの動きベクトルを含む。動きベクトルが計算されなかった場合、エントリはヌル値を含む。例えば、図２において、現在のピクチャ２０１はルックアップテーブル２１０を有し、このテーブル２１０内には近接ブロック２０２についての動きベクトルについてのエントリが含まれる。エントリ２１３は、近接ブロック２０７についての動きベクトルを有する。これは、北側の隣接動きベクトル（ＮＡＭＶ）である。エントリ２１５は、近接ブロック２０９についての動きベクトルを有する。これは、北東側の隣接動きベクトル（ＮＥＡＭＶ）である。エントリ２１７は、近接ブロック２０５についての動きベクトルを有する。これは、西側の隣接動きベクトル（ＷＡＭＶ）である。同様に、エンコードされた最後のピクチャ２２０についてのルックアップテーブル２１８内に、近接ブロック２２１についての動きベクトルエントリ２２９がある。これは、ＬＰＳＣＢ動きベクトル（ＬＰＳＣＢＭＶ）である。
【００３９】
上記５つの近接ブロックについての動きベクトルを用いて、５個の候補ブロックを基準ピクチャ１０１内に配置する。候補ブロックの１つは、基準ピクチャ１０１内のＲＰＳＣＢブロック２２７である。残り４個の候補ブロックは、現在のピクチャ２０１またはエンコードされた最後のピクチャ２２０内の近接ブロックの１つについての動きベクトルを、基準ピクチャ１０１内のブロック２２７のｘｙ座標（ｉ，ｊ）に適用することにより配置される。したがって、候補ブロック２２５は、動きベクトル（ａ，ｂ）を座標（ｉ，ｊ）に適用して、候補ブロック２２５について座標（ｉ＋ａ，ｊ＋ｂ）を得ることにより、近接ブロック２０５からの動きベクトル（ａ，ｂ）２１７を用いて配置される。ブロック２２７に対して動きベクトル（０，０）を有する、現在のピクチャ２０１内のブロックは、当然現在のブロック２０３である。したがって、５個の候補ブロックは次のように説明し得る。
１．基準ピクチャ１０１のＲＰＳＣＢブロック２２７。
２．動きベクトル２１７をＲＰＳＣＢ２２７の座標（ｉ，ｊ）に適用することにより得られたオフセットにおける候補ブロック。
３．動きベクトル２１３を座標（ｉ，ｊ）に適用することにより得られたオフセットにおける候補ブロック。
４．動きベクトル２１５を座標（ｉ，ｊ）に適用することにより得られたオフセットにおける候補ブロック。
５．動きベクトル２２９を座標（ｉ，ｊ）に適用することにより得られたオフセットにおける候補ブロック。
【００４０】
ＲＰＳＣＢ２２７に対する現在のブロック２０３の動きベクトルは、当然（０，０）であり、実際に、現在のブロック２０３がＲＰＳＣＢ２２７に対してごくわずか動いた場合または全く動かなかった場合に、現在のブロック２０３はＲＰＳＣＢ２２７に適合する。
【００４１】
上記についての詳細は、図６に示され得る。図６は、ハイブリッド動き推定技術の好適な実施形態の両フェーズについてのフローチャート６０１である。この技術は、３つの閾値を含む。３つの閾値の由来を以下に説明する。直後の説明ににおいて、本発明者らは、フェーズ１６０３についてのみ取り扱う。この説明において、丸括弧内の参照番号はフローチャート６０１内のブロックを示す。ＳＴＡＲＴＨＭＥ６０４で始めると、第１のステップは、現在のブロック２０３をＲＰＳＣＢ２２７と比較することにより、ＲＰＳＣＢ２２７に対する現在のブロック２０３の動きについてテストする（６０５）。この比較が、適合基準が第１の閾値を下回るような、現在のブロック２０３とＲＰＳＣＢ２２７との適合を示した場合、現在のピクチャと基準ピクチャ１０１との間には、現在のブロック２０３に対する動きはほとんどまたは全くないという、非常に高い可能性が存在する（６０７）。この場合、ＲＰＳＣＢ２２７は現在のブロック２０３についての予測因子であり、他の候補を試験する必要がない。したがって、矢印６０８によって示すように、この方法はすぐにステップ６１９へと進み、その後６２１において終了する。
【００４２】
適合基準が第１の閾値を下回らない場合、残り４個の近接ブロック２０５、２０７、２０９、および２２１についての動きベクトルを用いて、探索空間２１９内に候補ブロック２２５を配置する（６０９）。各候補ブロック２２５は、その後、上で説明したように現在のブロック２０３と比較され、最良の適合ブロックが、つまり、最も低い適合基準スコアを有するブロックが、予測因子として選択される（６１１）。この予測因子が、第２の閾値よりも小さな適合基準スコアを有する場合（６１３）、この予測因子は、現在のブロック２０３についての予測因子として選択され、矢印６１５によって示されるように、この方法は、上述のように、ブロック６１９および６２１を介して終了する。さもなければ、この方法は、フェーズ２６２３を続ける（矢印６１７）。フェーズ２について、以下により詳細に説明する。
【００４３】
（ＬＰＳＣＢ２２１から、候補ブロックを配置する）
エンコードされた最後のピクチャ２２０は、必ずしも基準ピクチャである必要はない。例えば、連続する双方向（Ｂ型）ピクチャがＭＰＥＧビデオデコーディング規格で伝送される場合、エンコードされた最後のピクチャはＢピクチャであり得、したがって基準ピクチャではない。また、エンコードされた最後のピクチャは、必ずしも、現在のピクチャよりも先に表示されるピクチャである必要はない。例えば、ＭＰＥＧビデオデコーディング規格では、予測されたピクチャ（Ｐ型）は、Ｂピクチャよりも先に伝送されるが、Ｂピクチャよりも後に表示される。この場合、Ｐピクチャが基準である。ＭＰＥＧビデオデコーディング規格は、ＩＳＯ／ＩＥＣＩｎｔｅｒｎａｔｉｏｎａｌＳｔａｎｄａｒｄＩＳ１１１７２−２、“Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ−Ｃｏｄｉｎｇｏｆｍｏｖｉｎｇｐｉｃｔｕｒｅｓａｎｄａｓｓｏｃｉａｔｅｄａｕｄｉｏｆｏｒｄｉｇｉｔａｌｓｔｏｒａｇｅｍｅｄｉａａｔｕｐｔｏａｂｏｕｔ１．５Ｍｂｉｔｓ／ｓ−Ｐａｒｔ２：Ｖｉｄｅｏ”（１９９３）、およびＩＴＵ−ＴＲｅｃｏｍｍｅｎｄａｔｉｏｎＨ．２６２（１９９５）、“Ｇｅｎｅｒｉｃｃｏｄｉｎｇｏｆｍｏｖｉｎｇｐｉｃｔｕｒｅｓａｎｄａｓｓｏｃｉａｔｅｄａｕｄｉｏ：ｖｉｄｅｏ” （ＩＳＯ／ＩＥＣ１３８１８−２）に、詳細に説明されている。以下に詳細に示すように、最後のピクチャ２２０内の近接ブロック２２１から得られる候補は、ブロック２２１の動きベクトルから直接得られ得るか、または、時間領域で、その動きベクトルのＸＹ座標を比例的にスケーリングすることにより「計算」され得る。
【００４４】
（エンコードされた最後のピクチャ内の動きベクトルからオフセットされた候補ブロックの計算）
以下の説明はまず、エンコードされたビデオ画像のシーケンス内で起こり得るピクチャ間の時間関係について説明し、その後、これらの時間関係が、ＬＰＳＣＢ２２１が近接ブロックである候補ブロック２２５を判定するために使用される動きベクトルの計算に、どのように影響するかを説明する。
【００４５】
デジタルビデオシーケンスは、シーンがフィールド（インターレースされたピクチャ）またはフレーム（プログレッシブピクチャ）の連続するピクチャとして捕捉されるカメラにおいて発生する。ピクチャは、カメラによって、特定のピクチャレートで捕捉される。例えば、ＮＴＳＣカメラは、約６０ヘルツでフィールドを捕捉する。カメラからのピクチャがアナログフォーマットである場合、これらのピクチャはデジタル化され、エンコーダエンジンによって、要求された空間解像度へと空間的にスケーリングされる。一旦デジタルフォーマットになると、時間の基準は、各ピクチャと関係付けられて、他のピクチャと関連してそれが捕捉された時間の経過を追跡し、したがって、それらの「表示順序」の維持を容易にする。したがって、カメラによって生成される通常のシーケンスは、Ｐ₁，Ｐ₂，Ｐ₃，Ｐ₄，Ｐ₅，．．．Ｐ_k（下付記号はピクチャの表示順序を示す）によって示される。
【００４６】
テレビ電話アプリケーションで用いられるような、マルチメディアシステムにおけるリアルタイム型の費用効果が高いエンコーダエンジンは、処理能力が制限されているので、エンコーダエンジンは、カメラがピクチャを出力する速度よりも遅い速度でピクチャをエンコードし得る。さらに、エンコーダエンジンの「速度制御」構成要素は、その計算負荷またはその「出力バッファ」の満杯度に基づいて、ピクチャのエンコーディングを動的に控え得る。その結果、圧縮および伝送されたピクチャシーケンスから得られる実際のピクチャのセットは、エンコーダエンジンが捨てねばならないピクチャに対応するギャップを有し得る。例えば、圧縮されたピクチャシーケンスは、可能性としては、Ｐ₁，Ｐ₅，Ｐ₈，Ｐ₁₁，Ｐ₁₄，．．．Ｐ_kであり得る。というのは、
１．エンコーダエンジンは、毎秒１０ピクチャで動作するように設計（企図）されており、
２．シーケンスの最初のピクチャは、動き推定によって提供される優れたデータ低減能力の恩恵を受けないので、シーケンスの最初のピクチャが「出力バッファ」をあふれさせるからである。
つまり、この例において、エンコーダエンジンは、３つのピクチャ毎に圧縮を行うように設計されているが、Ｐ₁は圧縮された形態でビット数が多くなるので、エンコーダエンジンは、Ｐ₂からＰ₄までを無視する必要がある。その後、Ｐ₅が到着するまでに、エンコーダエンジンの「出力バッファ」は、Ｐ₅の圧縮が可能になるように十分に排出される。
【００４７】
さらに、多くのエンコーディングスキームにおいて、全てのエンコードされたピクチャが基準ピクチャであるわけではない。これらのスキームにおいて、このようなエンコードされた非基準ピクチャは、基準ピクチャの間に挿入される。このようなスキームは、計算能力のより小さな、規格に対応したデコーダエンジンによって、時間的なピクチャスケーラビィリティ（つまり、ピクチャドロッピング）を可能にするか、および／または、圧縮されたデジタルビデオストリーム内のランダムアクセスを可能にする。最後に、ピクチャがエンコードされる順序は、それらピクチャの表示順序と異なり得る。ここでの例はＭＰＥＧであり、ＭＰＥＧは、ピクチャが未来の基準ピクチャを参照できるようにすることにより、高度な動きのあるビデオシーケンスのより効率的な圧縮を達成する。エンコーダエンジンがピクチャをエンコードする順序は、ピクチャの「伝送順序」である。
【００４８】
以下のケースは、エンコードされた最後のピクチャ中の、空間的に対応するブロックの動きベクトルからの候補ブロックの変位の計算を例示する。この計算は、
１．寄与した動きベクトルの座標（ｘ，ｙ）、ならびに
２．・基準ピクチャ、
・エンコードされた最後のピクチャ、および
・現在のピクチャ
の時間関係
に依存する。
【００４９】
全てのピクチャは、エンコーダエンジンに提供された、表示順（Ｐ_a，Ｐ_b，Ｐ_c，Ｐ_d，Ｐ_e，．．．．Ｐ_i，Ｐ_j，Ｐ_k，．．．．）を有するシーケンスの一部であると仮定する。ここで、時間関係は、ａ＜ｂ＜ｃ＜ｄ＜ｅ＜．．．．ｉ＜ｊ＜ｋ．．．であることを意味する。以下の説明を一般化するために、本発明者らは、下付文字ｋ、ｍ、およびｖを、ｋ＜ｍ＜ｖの「表示順」条件で、しかし、ピクチャ間の時間的相違（つまり、どれだけの時間的隔たりが存在するか）への制約なしに用いる。
【００５０】
以下のケースの全てにおいて、計算された変位（ｎｅｗＸ，ｎｅｗＹ）の結果、そのエリアのいずれかの部分が、許可された探索空間の境界を越えて（つまり、許容された動きベクトルの範囲外に）はみ出した候補ブロックが得られる場合、この候補ブロックは無視されるか、または、下で説明する「境界条件」に照らして適格な別の候補ブロックと交換される。
【００５１】
以下の各ケースにおいて、前の伝送されたピクチャの２つの時間関係が要求されるので、計算は、３番目に圧縮されるピクチャ（つまり、「伝送順」で３番目のピクチャ）にのみ適用可能である。
【００５２】
ケース１−表示順＝伝送順；
エンコードされた最後のピクチャは「過去の」基準ピクチャでもある
表示順のピクチャ；Ｐ_k，Ｐ_m，Ｐ_v
ピクチャの伝送順序
−現在のピクチャ；Ｐ_k，Ｐ_m，Ｐ_v （表示順と同じ）
現在のピクチャの前に
エンコードされた最後のピクチャ；＿，Ｐ_k，Ｐ_m
現在のピクチャについての基準ピクチャ；＿，Ｐ_k，Ｐ_m
このとき、ピクチャＰ_vについて：
【００５３】
【数３】

ここで、「ｆｌｏｏｒ」関数が意味する切り捨て操作の前に０．５を加えることによって最も近い整数へ丸められる。このケースは、Ｈ．２６１およびＨ．２６３ビデオコーディングにおいて典型的である。詳細については、ＩＴＵ−ＴＲｅｃｏｍｍｅｎｄａｔｉｏｎＨ．２６１（１９９３）：“Ｖｉｄｅｏｃｏｄｅｃｆｏｒａｕｄｉｏｖｉｓｕａｌｓｅｒｖｉｃｅｓａｔｐ×６４ｋｂｉｔｓ／ｓ”、およびＤｒａｆｔＩＴＵ−ＴＲｅｃｏｍｍｅｎｄａｔｉｏｎＨ．２６３（１９９？）：“Ｖｉｄｅｏｃｏｄｅｃｆｏｒｌｏｗｂｉｔｒａｔｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ”を参照。
【００５４】
ケース２−表示順＝伝送順；
エンコードされた最後のピクチャおよび現在のピクチャが、同じ「過去の」基準ピクチャを使用する
表示順のピクチャ；Ｐ_k，Ｐ_m，Ｐ_v
ピクチャの伝送順序
−現在のピクチャ；Ｐ_k，Ｐ_m，Ｐ_v （表示順と同じ）
現在のピクチャの前に
エンコードされた最後のピクチャ；＿，Ｐ_k，Ｐ_m
現在のピクチャについての基準ピクチャ；＿，Ｐ_k，Ｐ_k
このとき、ピクチャＰ_vについて：
【００５５】
【数４】

ビデオエンコーダエンジンの仕様およびシンタックスによって許容される場合、このケースは、規格に対応したデコーダエンジンが、「後方への」時間的スケーラビリティについて、Ｐ_mまたはＰ_vのいずれかを落とすことを可能にする。
【００５６】
ケース３−表示順および伝送順が異なる；
エンコードされた最後のピクチャおよび現在のピクチャが、同じ「未来の」基準ピクチャを使用する
表示順のピクチャ；Ｐ_k，Ｐ_m，Ｐ_v
ピクチャの伝送順序
−現在のピクチャ；Ｐ_v，Ｐ_k，Ｐ_m
現在のピクチャの前に
エンコードされた最後のピクチャ；＿，Ｐ_v，Ｐ_k
現在のピクチャについての基準ピクチャ；＿，Ｐ_v，Ｐ_v
このとき、ピクチャＰ_mについて：
【００５７】
【数５】

ビデオエンコーダエンジンの仕様およびシンタックスによって許容される場合、このケースは、シーンの変化を示す高度な動きのあるビデオを圧縮するのに有用である。
【００５８】
ケース４−表示順および伝送順が異なる；
Ｐ_kがＰ_vに対して「過去」の基準ピクチャであり、Ｐ_vがＰ_mに対して「未来」の基準ピクチャであることを除いては、エンコードされた最後のピクチャは基準ピクチャでもある
表示順のピクチャ；Ｐ_k，Ｐ_m，Ｐ_v
ピクチャの伝送順序
−現在のピクチャ；Ｐ_k，Ｐ_v，Ｐ_m
現在のピクチャの前に
エンコードされた最後のピクチャ；＿，Ｐ_k，Ｐ_v
現在のピクチャについての基準ピクチャ；＿，Ｐ_k，Ｐ_v
このとき、ピクチャＰ_mについて：
【００５９】
【数６】

ビデオエンコーダエンジンの仕様およびシンタックスによって許容される場合、このケースは、規格に対応したデコーダエンジンが、「後方への」時間的スケーラビリティについて、Ｐ_mもしくはＰ_mおよびＰ_vの両方のいずれかを落とす（ドロッピングする）ことを可能にする。
【００６０】
ケース５−表示順および伝送順が異なる；
Ｐ_vがＰ_kに対して「未来」の基準ピクチャであり、Ｐ_kがＰ_mに対して「過去」の基準ピクチャであることを除いては、エンコードされた最後のピクチャは基準ピクチャでもある
表示順のピクチャ；Ｐ_k，Ｐ_m，Ｐ_v
ピクチャの伝送順序
−現在のピクチャ；Ｐ_v，Ｐ_k，Ｐ_m
現在のピクチャの前に
エンコードされた最後のピクチャ；＿，Ｐ_v，Ｐ_k
現在のピクチャについての基準ピクチャ；＿，Ｐ_v，Ｐ_k
このとき、ピクチャＰ_mについて：
【００６１】
【数７】

（フェーズ１において他の近接ブロックを使用する：図３および図４）
図３に示すように、北西側の隣接ブロック３０１は、他の近接ブロック２０２と同様の様態で、候補ブロック２２５の配置するために、フェーズ１において使用され得る。ブロック３０１は、６番目の候補ブロックを配置するために使用され得るか、または、近接ブロック２０５、２０７、または２０９のうち１つの近接ブロックの代わりに使用され得るかのいずれかである。後者の場合、エンコーダエンジンは、どの隣接ブロックが、現在のピクチャ２０1における動きベクトルの既に決定された各ブロックについての予測因子についての動きベクトルを提供したかを記録しておき、この情報を使用して、４個の隣接ブロック（北西側、北側、北東側、西側）のうちの、どの３個の隣接ブロックが、それらの動きベクトルが、現在のブロックについての予測因子として寄与するように用いられるべきかを判定する。不十分な動き推定能力（つまり、見つかった最良マッチング誤差が受け入れられない）のために、他のブロック２０５、２０７、または２０９の１つがピクチャ内（つまりピクチャの右端部分）に無い場合、もしくは、残りの３つの隣接ブロックの１つ（または１つ以上）に動きベクトルが存在しない場合に、北西側のブロックは、代わりのブロックとしても機能する。
【００６２】
ハイブリッド動き推定（ＨＭＥ）法の「フェーズ１」の間に使用される近接ブロック２０２のセットは、さらに、ブロック２２７、２２１、２０５、２０７、２０９、３０１に制限されない。図４に示すように、動き推定が既に行われた現在のピクチャにおける近接ブロックからの動きベクトルを用いることにより、追加候補２２５が獲得され得る。これらの追加近接ブロックを、図４の、斜線領域４０１内の６個のブロックとして示す。ＨＭＥ法の「フェーズ１」において使用され得る近接ブロックの数に対する制約は、ＤＳＰ型エンコーディングエンジンの計算能力、および、ＨＭＥのフェーズ２のブロックマッチング計算のためにプロセッササイクルを残しておく必要性によって課せられる。近接ブロックが現在のブロックに近いほど、同様の並進運動を示す可能性が高くなる。したがって、好適な追加近接ブロックは、西側、北西側、北側、および北東側のブロックに隣接するブロックである。これらの追加ブロックを斜線領域４０１として示す。エンコーダエンジンが余剰のプロセッササイクルを有する場合、または、既にフェーズ１において使用されている近接ブロックのどれもが候補ブロックを提供できない場合、斜線で示すブロックは、ＨＭＥ法の「フェーズ１」において、近接ブロックとして使用され得る。
【００６３】
（ハイブリッド動き推定のフェーズ２：図５および図６）
「フェーズ１」において見つかった最良の適合基準スコアがＴｈｒｅｓｈｏｌｄ２を超える場合、探索空間のどこかに、現在のブロックに対するより良い適合が存在し得ると仮定する。したがって、ハイブリッド動き推定法は「フェーズ２」へと続く。「フェーズ２」において、フェーズ１によって配置された予測因子（ここで、Ｐｒｅｄｐｈａｓｅ１と呼ぶ）を中心とする領域内で、より良好な予測因子が探される。
【００６４】
現在のブロックに対するより良い予測因子が、Ｐｒｅｄｐｈａｓｅ１の位置のごく近くに存在するという仮定の下で、ＨＭＥ法を「フェーズ２」に進める。テレビ電話システム等の低帯域幅のアプリケーションについて、ＨＭＥ法は、（矩形の領域ではなく）ダイヤモンド形状の領域またはエリア５０５上で、より良い候補ブロックを探す。図５は、「１」から「２１」までの番号が付されたブロックから構成された領域５０５、および、探索空間２０１における、領域５０５のＰｒｅｄｐｈａｓｅ１５０１との関係を示す。図５において、番号「１」のブロックとして示した探索エリアの中心は、１６×１６個のＰｒｅｄｐｈａｓｅ１ブロック５０１を示す。しかし、実際には、残りのブロックが中心から１ピクセル分変位しているのだが、らせん順探索の説明を単純化するために、これら残りのブロックも１６×１６中心ブロックと同じサイズで示す。図５における寸法によって示すように、中心ブロックを除く全てのブロックが、１６×１６ブロックではなく、１ピクセル分の変位を示す。
【００６５】
「フェーズ２」の間に、矩形領域５０３がＰｒｅｄｐｈａｓｅ１上にセンタリングされた場合であっても、最良の適合基準スコアを示す候補ブロックは、矩形領域５０３によって制限されたダイヤモンド形状領域５０５内に見つかる傾向にある。その結果、ＨＭＥ法は、ダイヤモンド形状領域の外側に変位した候補ブロックを省略することにより、追加計算を節約する。節約された計算は、その後、ダイヤモンド形状領域を拡大するために使用され、可能性としてよりよい適合基準スコアに至り得る追加候補ブロックを考慮することを可能にする。さらに、ダイヤモンド形状領域は、図５に示すように、垂直方向の位置よりも、水平方向の候補変位を考慮して設計される。なぜなら、家庭における通常の家庭用テレビ電話のピクチャは、カメラをパンすること（つまり、居間の中で家族のメンバーを撮影するためにパンすること）が原因で、水平方向のような動きを示す傾向にあるからである。
【００６６】
ＨＭＥ法の「フェーズ２」において、ダイヤモンド形状領域内でのらせん探索は、好適には、増加する番号ラベルで示されるような特定の順序で行われて、計算がさらに最小化される。候補ブロックがＰｒｅｄｐｈａｓｅ１５０１に近づくほど、Ｐｒｅｄｐｈａｓｅ１５０１におけるスコアより良い適合基準スコアを有する可能性が高くなる。したがって、候補ブロックは、（Ｐｒｅｄｐｈａｓｅ１５０１から離れて）反時計回り（あるいは時計回り）のらせんの、外側に向かう順に考慮される。
【００６７】
Ｐｒｅｄｐｈａｓｅ１５０１よりも良い予測因子を配置するために使用される方法を、図６のフェーズ２６２３に示す。ステップ６２５において、ダイヤモンド形状領域５０５が設定され、その後、現在のブロック６２９との適合についての適合基準スコアが十分に低い（つまり、好適な実施形態において、ｔｈｒｅｓｈｏｌｄ３よりも低い）候補が見つかるまで、または、ダイヤモンド５０５内の全候補を調べ終わるまで、ブロック６２７、６２９、６３１、６３７から構成されたループが実行される。前者（ブロック６３１および矢印６３３）の場合、候補ブロックは予測因子であり、この方法は、ステップ６１９および６２１を経て終了する。後者（ブロック６３７および矢印６４１）の場合、適合基準について最小スコアを有するフェーズ２候補ブロックが予測因子であり、この方法は、ブロック６４３、６４５、および６２１を経て終了する。
【００６８】
ダイヤモンド５０５はＰｒｅｄｐｈａｓｅ１５０１上にセンタリングされるので、Ｐｒｅｄｐｈａｓｅ１５０１からの、ブロック２〜２１の変位のルックアップテーブルによって設けられ得、フェーズ２の間に調べられる候補のアドレスは、このルックアップテーブルを用いて計算され得る。図２における、ダイヤモンド形状領域の外側の矩形５０３の斜線領域は、「フェーズ２」の間は使用されないが、実際上の理由から、「フェーズ２」の実行のためにＤＳＰデータＲＡＭ内に存在することが必要な有効領域は、完全な２２×２２矩形領域５０３（４８４バイト）である。１６×１６ブロックを超えて要求される有効エリアは、各方向に３ピクセル分ずつ拡張したエリアである。このＤｅｌｔａは、以下に説明する、「フェーズ１」について要求される探索空間エリアの計算に組み込まれる。あるいは、このデータ転送は、「フェーズ１」の間にＰｒｅｄｐｈａｓｅ１５０１が判定された直後に、早急に処理され得る。一連のステップを用いて最終結果を「目指す」高速動き推定法（上述）との差異として、ＨＭＥ法のさらなる新規性は、ターゲット（Ｐｒｅｄｐｈａｓｅ１）上にマッピングされた非矩形探索エリア、およびこの縮小された探索エリア内でのらせん順探索を用いる。
【００６９】
（フェーズ２のための、他の動作モード）
より能力の高いプロセッサおよび／または余剰のＤＳＰデータＲＡＭを使用する場合、ＨＭＥ法の「フェーズ２」についての探索エリアは、図２に示す特定の領域サイズまたは形状に制限されずに、さらなる変位により増大し得る。
【００７０】
ＨＭＥ法で使用されるプロセッササイクルの数は、満足できる予測因子がどれだけ素早く見つかるかに応じて変化するので、本発明の異なる動作モードにおいて、フェーズ２探索空間領域のサイズは、余剰なプロセッササイクルに基づいて動的に変更され得る。
【００７１】
別の異なる動作モードにおいて、この領域の形状は、
１．現在のブロックに対するＰｒｅｄｐｈａｓｅ１５０１の位置、ならびに動きベクトルがＰｒｅｄｐｈａｓｅ１５０１に寄与するブロックの相対位置、または
２．現在のブロックに対する、「フェーズ１」における候補ブロックの組の大まかな配向
に基づいて、予め規定された形状のセットから動的に選択されるか、または、カスタマイズされる。したがって、候補ブロックの組の大まかな配向のＹ成分がＸ成分よりもかなり大きな場合、垂直方向にバイアスされたダイヤモンド形状領域が使用される。したがって、本発明のさらなる特徴は、ダイヤモンド形状領域の歪みおよび配向を動的に調節し得ることである。しかし、「フェーズ２」探索空間領域の形状を動的に計算するために、「フェーズ２」探索順序のための形状およびその関連するルックアップテーブルを、予め規定された形状の小さなセットから選択する動作のモードが好ましい。予め規定された形状の、ある特定の有用なセットは、４個のダイヤモンド形状のエントリ（水平方向にバイアスされたエントリ、別の垂直方向にバイアスされたエントリ、および２つの対角方向にバイアスされたエントリ（一方は４５度に配向され、他方は１３５度に配向される））からなる。
【００７２】
（Ｔｈｒｅｓｈｏｌｄ１、Ｔｈｒｅｓｈｏｌｄ２、およびＴｈｒｅｓｈｏｌｄ３の決定）
一般に、Ｔｈｒｅｓｈｏｌｄ１＞Ｔｈｒｅｓｈｏｌｄ２＞Ｔｈｒｅｓｈｏｌｄ３である。この理由の１つは、一般に、プロセッサが予測因子を見つけるためにより多くのサイクルを費やすにつれ、予測因子と現在のブロックとの間の適合はより良くなることである。別の理由は、動きベクトルが、圧縮されたビデオストリームに要求されるシンタックスおよび意味的規則によって特定されるように、現在のブロックについての動きベクトルの大きさと、現在のピクチャ内の以前にエンコードされたブロックの動きベクトルの大きさとの間の、大きさの差としてエンコードされることである。結果的に、大きさの差が大きくなるにしたがい、ブロックの圧縮表現において、大きさを示すために、より多くのビットが要求される。
【００７３】
各閾値は、固定された成分に、動的に決定されたΔ値を加えることにより計算される。１６×１６個のブロックおよびＳＡＥマッチング基準を使用し、１１２Ｋｂｓのデータレートを有する好適な実施形態において、
Ｔｈｒｅｓｈｏｌｄ１＝５１２＋Δ₁
Ｔｈｒｅｓｈｏｌｄ２＝５１２＋Δ₂
Ｔｈｒｅｓｈｏｌｄ３＝５１２＋Δ₃
（Δ₁＞Δ₂＞Δ₃）である。Δの値は、次のように決定される。
【００７４】
Δ₁：この値はエンコーダの速度制御機構によって制御される。毎秒１５フレームのＱＣＩＦ解像度ピクチャ（つまり１７６×１４４）について、１２８０の最大値を有し得る。
【００７５】
Δ₂：０．２５（Δ₁−Δ₃）
Δ₃：ｆ（ピクチャ解像度、ピクチャレート、データレート、およびＤＳＰサイクル）。ここで、Δ₃の値は、インターバル［０，５１２］に亘って変化し得る。
１１２Ｋｂｓデータレートで、Ｔｈｒｅｓｈｏｌｄ１は、［５１２，１０２４］に亘って変化し得る。
【００７６】
（境界条件）
圧縮されたいくつかのブロックについて、１つ以上の近接ブロックは、使用可能な動きベクトルを有さないことがある。このようなケースは、近接ブロックが現在のピクチャの境界の外側にある場合、または、不十分な動き推定能力のために、動きベクトルが存在しない場合（つまり、見つかった最良マッチング誤差が受け入れられず、指定されたブロックが動き推定されずに圧縮された場合）に起こる。近接ブロックによって特定された候補ブロックのいずれかの部分が、許可された探索空間の境界の外側に存在する場合、同様の状況が起こる。これらの状況の３つ全てにおいて、上述し、且つ図３および図４において説明したように、置換近接ブロックが使用される。
【００７７】
以下は、候補ブロックが未確定である他の状態からなる。
【００７８】
・現在のブロックは、現在のピクチャの第１の「行のブロック」（つまり、ＭＰＥＧにおける第１のスライス、またはＨ．２６３におけるＧＯＢ）内にあり、現在のピクチャは、動き推定が行われる第１のピクチャである。
【００７９】
・現在のブロックは、並列処理環境においてプロセッサに送信されたピクチャのあるセクション内の、第１の「行のブロック」内にある。つまり、ピクチャはセクションに分割され、各セクションは「ブロックの行」の連続するセットであり、エンコーダエンジンは、各セクション上でＨＭＥ法を並列に独立して実行する複数のプロセッサ（例えば、ＴｅｘａｓＩｎｓｔｒｕｍｅｎｔＤＳＰＴＭＳ３２０Ｃ８０）を有する。
このような場合、未確定の動きベクトルが、それぞれ（０，０）に設定されるか、または、ハイブリッド動き推定法が、従来の高速動き推定法を用いて、これらのブロック上で動き推定を行う。
【００８０】
（ＨＭＥ法のための、探索空間２１９の要求される部分の動的計算：図７〜図１２）
明らかに、方法６０１のフェーズ１のために、基準ピクチャ１０１の、ＤＳＰの内部ＲＡＭ内に存在する必要のある部分は、フェーズ１において使用されている候補ブロックを含む部分である。候補ブロックの位置は、近接ブロックの動きベクトルから計算し得、これらの位置は、フェーズ１の前に既知である。その結果、本明細書中で「要求される部分」と呼ぶ、探索空間２１９の、候補ブロックを含む部分を、フェーズ１より前に決定し得、また、フェーズ１より前にＤＳＰの内部ＲＡＭにロードし得る。さらに、フェーズ２に要求される探索空間の部分は、また、候補ブロックの位置から計算し得、その結果、両フェーズについて要求される部分は、内部ＲＡＭにロードされ得る。
【００８１】
図１２は、ビデオピクチャ符号化システム１２０１のブロック図であり、ＤＳＰ１２２３とシステム１２０１の残りの部分との関係を示す。システム１２０１は、ビデオカメラ１２０３からアナログイメージを受け取る。これらのアナログイメージは、Ａ／Ｄ変換器１２０５においてデジタル表現に変換され、デジタル化されたピクチャデータを、ＦＩＦＯメモリ１２１７を介してルーティングすることにより、外部ＲＡＭ１２０７に入力され、コントロールロジック１２１８によって制御される。コントロールロジック１２１８はまた、外部ＲＡＭ１２０７およびＤＳＰ１２２３の動作を調整する。外部ＲＡＭ１２０７は、２つのピンポン型のピクチャバッファ１２０８および１２１０を含み、このうち一方は、目下エンコードされつつある現在のピクチャ２０１を常に含み、他方は、カメラ１２０３から、エンコードされる次のピクチャ１２０９を受け取っている。外部ＲＡＭ１２０７は、バッファ１２１２内に、現在のピクチャ２０１をエンコードするために必要なデジタル基準ピクチャの再構成された表現をさらに含む。現在のピクチャが圧縮されると、そのデコードされた表現は、１２１２において再構成される。現在のピクチャは、次のピクチャの圧縮のために、基準ピクチャとして使用されることが決められている。１２１２における再構成は、エンコードされたデジタルピクチャを、エンコードしたのと同様にデコードすることにより行われる。探索空間２１９を有する再構成された基準ピクチャ１０１を示す。出力バッファ１２１１は、それがエンコードされた状態の、圧縮された表現での現在のピクチャ２０１を受け取り、システムの残りの部分に対してエンコードされたピクチャを出力する。出力バッファは、出力されずに残っている圧縮されたフォーマットの、エンコードされた最後のピクチャの部分を含み得る。
【００８２】
外部ＲＡＭ１２０７のさらなる部分が、現在のピクチャ２０１をエンコードする際にＤＳＰ１２２３によって使用されるデータを含む。ＨＭＥ法６０１において使用される閾値１２１３と、現在のピクチャ２０１およびエンコードされた最後のピクチャ２２０についての動きベクトルのルックアップテーブル２１０および２１８とが、このデータに含まれる。外部ＲＡＭ１２０７は、ＤＳＰ１２２３がエンコーディング動作を行う場合に実行するプログラムコード１２１５を最終的に含む。
【００８３】
ＤＳＰ１２２３は、３つの主要な構成要素（ＤＳＰハードウェア１２２７、命令ＲＡＭ１２２９、およびデータＲＡＭ１２３１）を有する。ＤＳＰハードウェア１２２７は、処理演算を実際に実行する回路を含み、命令ＲＡＭ１２２９は、ＤＳＰプログラムコード１２１５の、実行中の動作にＤＳＰ１２２３が目下必要とする部分を含み、データＲＡＭ１２３１は、実行中の動作において、ＤＳＰ１２２３によって目下使用中または生成中のデータを含む。ＤＳＰ１２２３は、バスインターフェース（ＢＩ）１２２５を介して、アドレスバス１２１９およびデータバス１２２１に接続される。アドレスバス１２１９およびデータバス１２２１は、外部ＲＡＭ１２０７に接続される。したがって、ＤＳＰ１２２３は、ＲＡＭ１２０７からデータを読み出し、且つＲＡＭ１２０７にデータを書き込み得る。しかし、ＲＡＭ１２０７からの読み出しおよびＲＡＭ１２０７への書き込みは、データＲＡＭ１２３１からの読み出しおよびデータＲＡＭ１２３１への書き込みよりもかなり遅い。その結果、ＤＳＰ１２２３を使用する最も効率的な方法は、ＤＳＰ１２２３によって実行される特定の一連の演算に要求される全てのデータを、その一連の演算の開始前に、データＲＡＭ１２３１にロードすることである。より詳細には、ＨＭＥ法６０１を実行するための、ＤＳＰ１２２３の効率的な使用は、現在のブロック２０３、探索空間１２１９の要求された部分、ルックアップテーブル２１０および２１８、ならびに閾値１２１３が、ＨＭＥ法６０１の開始よりも前に、ＤＳＰ１２２３にロードされることを要求する。
【００８４】
図７は、要求された部分７０１、ならびに、要求された部分７０１の、探索空間２１９および５個の候補ブロック２２５（１．．．５）との関係を示す。候補ブロック２２５（１）は、現在のブロック２０３に空間的に対応する、基準ピクチャのブロック２２７である。残りの候補ブロックを配置するために使用される動きベクトルを、ブロックの丸括弧内に書き込んだ。部分７０１を確立する際の第１のステップは、全ての候補ブロックが部分７０１に含まれる必要のある場合に必要な境界を決定することである。通常、隣接ブロックの動きベクトルは高い相関関係を有するので、全ての候補ブロックを含む部分７０１は、ＤＳＰデータＲＡＭに収まる程度に十分小さな、基準ピクチャ１０１の探索空間２１９内の単一のエリアである。このような場合、図７に示すように、外部ＲＡＭ１２０７から内部データＲＡＭ１２３１へと要求された部分７０１を移動するのに、一回の転送で済む。しかし、候補ブロックの間の相違が大きいことが原因で、計算された探索空間エリアが大きい場合、単一の矩形であり、且つ、内部ＤＳＰデータＲＡＭに収まる程度に十分小さな部分７０１は存在し得ない。この場合、収まる程度に十分小さな要求された部分７０１は、探索空間２１９の、２個以上の、連続しない、ひょっとしたら重なり合っているかもしれない矩形セクションから構成される。この場合、各矩形セクションは、外部メモリから内部ＤＳＰデータＲＡＭへと別個に転送する必要がある。以下、全ての候補を含む探索空間２１９において、２個の最小サイズの矩形を配置する方法について説明する。ほとんど全てのケースにおいて、２個の最小サイズの矩形は、ＤＳＰの内部ＲＡＭに同時に収まる程度に十分小さい。
【００８５】
探索空間エリア計算法の、パート２の結果のあり得る例を、図８〜図１１に示す。図８において、探索空間の、未使用の垂直矩形セクションは、探索空間の上端から下端へと延びる。このようなセクションをセクションＶと呼ぶ。要求された矩形領域Ｂ８０３の左側に対する、要求された矩形領域Ａ８０１の右側の位置は変動し得る。矩形領域は、交差するか、バラバラにされるか（つまり、これら領域の間に、別の未使用の垂直矩形セクションが存在し得る）、または、図示のように、一致した辺を有する。したがって、３個までの未使用垂直矩形セクションが存在し得る（１つは領域Ａの左、１つは領域の間、もう１つは領域Ｂの右）。セクションＮＷ、ＮＥ、ＮＥ、およびＳＥは、サイズが変動する。セクションＮＷ、ＮＥ、ＮＥ、およびＳＥのいずれかは存在しないことがあり得る。候補ブロックＲＰＳＣＢ２２７は、常に、２個の要求された領域８０１および８０３の一方によって取り囲まれる。
【００８６】
同様に、計算された探索空間エリアは、１個以上の未使用水平矩形セクションになり得る。図９は、探索空間の左側から右側へと延びるセクションＨ１およびＨ２を示す。図９はまた、要求された領域８０１および８０３が互いに関連し得る、つまり、要求された領域８０１および８０３が交差部９０５を有する、多くの様態のうちの１つを示す。要求された領域８０１および８０３が互いに関連し得る他の２つの様態を、図１０および図１１に示す。
【００８７】
（探索空間２１９の要求された部分７０１を計算する方法）
要求された部分７０１は、ＨＭＥ法のフェーズ１の間に、ある手法を用いて計算される。この手法では、まず、単一の矩形から構成された、要求された部分７０１を計算し、単一の矩形がＤＳＰの内部ＲＡＭに収まらないほど大きな場合は、２つの最小の矩形の要求された領域８０１および８０３から構成された要求された部分７０１を計算する。
【００８８】
パート１−単一矩形エリア計算法
１．各フェーズ１候補ブロック２２５を見つけ、探索空間２１９にマッピングする。候補ブロック２２５の座標が、その左上隅に対応する（つまり、動きベクトルがブロックの左上隅を指す）ことを思い出されたい。
【００８９】
２．候補２２５のＸ成分およびＹ成分の極値を見つける。
【００９０】
３．以下に示す１組の式を用いて、候補２２５の境界を形成する矩形領域の範囲を見つける。
【００９１】
ｎｅｗ＿Ｘ＿ｍｉｎ＝ｍｉｎ＿Ｘ−Ｄｅｌｔａ
ｎｅｗ＿Ｘ＿ｍａｘ＝
ｍａｘ＿Ｘ＋Ｘ＿ｂｌｏｃｋ＿ｄｉｍｅｎｓｉｏｎ＋Ｄｅｌｔａ
ｎｅｗ＿Ｙ＿ｍｉｎ＝ｍｉｎ＿Ｙ−Ｄｅｌｔａ
ｎｅｗ＿Ｙ＿ｍａｘ＝
ｍａｘ＿Ｙ＋Ｙ＿ｂｌｏｃｋ＿ｄｉｍｅｎｓｉｏｎ＋Ｄｅｌｔａ
図７は、これらの式の項が、要求された部分７０１にどのように関係するかを示す。Ｄｅｌｔａは、ＨＭＥ法のフェーズ２において使用されるエリア５０３を収容するために、要求された部分７０１に追加される余分な量である。要求された部分７０１が探索空間２１９の境界または基準ピクチャ１０１の周囲の外側にはみ出さないように、Ｄｅｌｔａは、必要な場合には、適切に切り取られる（値が減少される）。好適な実施形態において、Ｄｅｌｔａ＝３である。
【００９２】
４．得られた、要求された部分７０１が、内部ＤＳＰデータＲＡＭに収まる程度に十分小さい場合、矩形領域をＤＳＰデータＲＡＭに転送する旨の要求が発送され、要求された部分７０１を計算する方法は、この時点で終了する。そうでない場合、この方法は以下に示すように継続する。
【００９３】
パート２−２個の矩形エリアについての、候補ブロッククラスタリング法
パート２は、静的クラスタリング法と同様である。しかし、サンプルを集合体にまとめる従来の方法は、サンプルの、集合体の重心への距離に依存する。サンプルは点であり、集合体はそれらの重心（集合体の構成要素（つまりサンプル）の平均）によって表現される。本発明者らのサンプルは、矩形領域に集める必要のあるブロック（２−Ｄエリア）であり、必ずしも、最小総面積の要求された部分７０１となる２つの矩形エリアを形成しないので、この平均化の効果は望ましくない。
【００９４】
５．大きく離れた２つの候補ブロック２２５（Ｂ１およびＢ２）を見つけ、それらを初期ガイドに指定して、残りのフェーズ１候補ブロック２２５を集める。この時点で、Ｂ１およびＢ２は、探索空間の、２つの別個の矩形領域８０１および８０３（Ｒ１およびＲ２）として機能する。探索空間は、大きくなって、残りのフェーズ１候補ブロック２２５を組み込む。好適な実施形態において、５個のフェーズ１候補ブロック２２５があるので、２つの矩形領域のうちの一方に、３つの候補をマッピングする必要がある。各候補ブロック２２５は、左上隅の座標によって規定される。矩形領域８０１および８０３の各々は、その面積ならびに各領域に集められた候補のＸ成分およびＹ成分の極値から構成された４つの隅によって規定される。つまり、矩形領域の左上隅は（Ｘｍｉｎ，Ｙｍｉｎ）に位置し、右下隅は（Ｘｍａｘ，Ｙｍａｘ）に位置し、左下隅は（Ｘｍｉｎ，Ｙｍａｘ）に位置し、右上隅は（Ｘｍａｘ，Ｙｍｉｎ）に位置する。
【００９５】
６．残りの（つまり、マッピングされていない）候補ブロック２２５それぞれから、Ｂ１およびＢ２への距離を計測する。これは、Ｒ１およびＲ２が、当初は、それぞれＢ１およびＢ２に相当する点であるからである。
【００９６】
７．矩形領域への最小距離を示す候補は、その領域に集められる。しかし、複数の候補が、所与の矩形領域への同じ最小距離を示す場合、各候補は、それぞれの矩形領域に集められる。
【００９７】
８．修正された矩形領域の４隅の座標は、吸収された候補のＸおよびＹ成分を、矩形領域の前の極値と比較することにより計算される。修正された矩形領域の面積が計算される。Ｒ１およびＲ２の一方または両方が、ステップ７に依存して修正され得る。
【００９８】
９．いずれかの候補が、２つの矩形領域の一方にマッピングされずに残った場合、ステップ１０へと続く。そうでない場合は、終了する。
【００９９】
１０．残りの候補Ｂ_iの各々について：
Ｂ_iがＲ１に追加される場合に得られる面積を計算する。
【０１００】
Ｂ_iがＲ２に追加される場合に得られる面積を計算する。
【０１０１】
１１．矩形領域に集められることによってその矩形領域に加えられる増加面積が最小である候補ブロックが、その矩形領域に集められる。しかし、複数の候補ブロックが同じ最小増加面積を示す場合、各々がそれぞれの矩形領域に集められる。
【０１０２】
１２．修正された矩形領域の４隅は、吸収された候補のＸおよびＹ成分を、矩形領域の前の極値と比較することにより計算される。修正された矩形領域の新たな面積が保存される。Ｒ１およびＲ２の一方または両方が、ステップ１１に依存して修正され得る。
【０１０３】
１３．候補のいずれかが、２つの矩形領域の一方にマッピングされずに残った場合、ステップ１０へ進む。
【０１０４】
１４．ステップ３の式を適用することにより、Ｒ１およびＲ２によって境界が定められた探索空間エリアの矩形領域は、それぞれ、各方向に延びる。
【０１０５】
パート２は、最も小さな総面積（つまり、ＤＳＰデータＲＡＭに転送するのに要求される最小データ量）となる要求された探索空間エリアの２つの矩形領域の計算を保証する。この保証を提供しない本発明の異なる態様において、矩形領域の増加面積ではなく、候補と矩形エリアの最も近い隅との距離が、クラスタリングの基準として使用される。単純であるが、最小総面積を生成する可能性がより低い本発明の第３の異なる態様において、ステップ７からステップ１３は、１つのステップに置き換えられる。すなわち、残りの候補の各々は、Ｂ１およびＢ２の最も近い方にマッピングされるというステップである。探索空間の複数の矩形領域を連続的に転送する必要がある場合、（０，０）オフセットを含む領域が、常に最初に転送される。
【０１０６】
あまり一般的ではないが、ＨＭＥ法のいくつかのインプリメンテーション（つまり、極めて大きな探索領域）は、外部メモリから内部ＤＳＰデータＲＡＭへと３回以上転送することを要求する。このような場合、探索空間の複数の矩形セクションを運ぶために、連続して転送を行う必要がある。最悪の場合、矩形領域の集合体が内部ＤＳＰデータＲＡＭに収まらない場合、残りの候補のために要求される探索空間は、探索空間のサブセットの候補についてマッチング基準の計算を行う間に、内部データＲＡＭに転送され得る。本明細書中、ちょうど説明した要求された部分７０１を計算する方法は、候補ブロックを配置するために使用される近接ブロックの動きベクトルの大きさに対していかなる制限も課さないことに留意されたい。
【０１０７】
上記の説明から明らかなように、上述の、探索空間２１９の要求された部分７０１の面積を計算する方法は、ＤＳＰの内部ＤＲＡＭと共に使用することに限定されず、探索空間のいくつかの部分を、比較を行っているプロセッサによりアクセス可能なメモリへと移動させるのが有利ないかなる状況においても使用し得る。
【０１０８】
（結論）
上記の「詳細な説明」は、「詳細な説明」に開示された動き検出の技術が関連する分野の当業者に、本発明者らが現在知っている、本発明の技術の実行のベストモードを開示した。本発明の技術が関連する分野の当業者にすぐにわかるように、本発明の技術の、他の多くのインプリメンテーションが可能である。正確なインプリメンテーションは、当然、使用されるエンコーディングスキームおよびエンコーディングを行うのに使用されるハードウェアに依存する。所与のインプリメンテーションにおいて本方法についての閾値を決定する様態は、エンコーディングスキーム、ハードウェア、およびエンコーディングが行われるアプリケーションの種類に依存する。
【０１０９】
他の変形例は以下を含む。ブロックの時間的予測は、必ずしも、基準ピクチャ内の同じサイズのブロックから得る必要はない。したがって、ブロックのいくつかの部分（例えば、４分の１の部分）は、基準ピクチャ内の等しい寸法のサブブロックから時間的に予測され得る。さらに、現在のブロックについての予測因子は、必ずしも、単一の基準ピクチャから得る必要はなく、いくつかの基準ピクチャから得られた予測因子から最良の予測因子を選択することにより生成され得る。あるいは、予測因子は、例えば、荷重平均を用いることにより、基準ピクチャからの予測因子を組み合わせることによって生成され得る。さらに、エンコーダエンジンは、元のピクチャ、または、それらをエンコーディングしたものから再構成されたピクチャのいずれかである基準ピクチャを用い得る。しかし、規格に対応したデコーダエンジンがピクチャの展開および再構成の間に生成するのと等価なデジタルエラー信号を生成するためには、エンコーダエンジンは、再構成されたバージョンの基準ピクチャを用いる必要がある。さらに、予測因子を見つけるために比較される領域は、形状が矩形である必要はなく、動的に近接ブロックを選択し、探索の第２のフェーズにおいて使用されるエリアを形成する情報は、インプリメンテーションによって異なる。
【０１１０】
「詳細な説明」は、動き推定技術のインプリメンテーションを１つしか記載しておらず、動き推定技術の原理を組み込んだ他の多くのインプリメンテーションが可能であるので、「詳細な説明」は、あらゆる点で例示的であり、制限的ではないと理解する必要があり、本明細書中に開示された本発明の範囲は、「詳細な説明」から決定されるのではなく、特許法によって許可される最大限の範囲で解釈された請求の範囲から決定されることは明らかである。
【図面の簡単な説明】
【図１】デジタルピクチャエンコーディングの概要を提供する図である。
【図２】好適な実施形態において用いられる近接ブロックおよび候補ブロックを示す図である。
【図３】現在のピクチャにおける近接ブロックを示す図である。
【図４】現在のピクチャにおけるさらなる近接ブロックを示す図である。
【図５】ＨＭＥ方法の第２フェーズにおける候補ブロックを示す図である。
【図６】ＨＭＥ方法の好適な実施形態のフローチャートである。
【図７】探索空間の必要部分を示す図である。
【図８】必要部分の計算を示す第１の図である。
【図９】必要部分の計算を示す第２の図である。
【図１０】必要部分の計算を示す第３の図である。
【図１１】必要部分の計算を示す第４の図である。
【図１２】好適な実施形態が実現されるエンコーディングシステムの関連部分のブロック図である。

Claims

デジタル表現された複数のピクチャのシーケンスの基準ピクチャに含まれる複数の候補領域のうちの１つが予測因子領域として考慮されるべきか否かを決定する方法であって、該予測因子領域は、該デジタル表現された複数のピクチャのシーケンスの現在のピクチャにおける現在の領域の値を予測するために使用され、
該デジタル表現された複数のピクチャのシーケンスは複数のピクチャを含み、該複数のピクチャのうち特定の時刻における１つが該現在のピクチャとして定義されており、
該現在のピクチャは複数の領域を含み、該現在のピクチャの該複数の領域のうち該特定の時刻における１つが該現在の領域として定義されており、
該方法は、
該現在の領域に近接する複数の近接領域であって、該現在のピクチャ内の領域およびエンコードされた最後のピクチャ内の領域を含む複数の近接領域に対して、それぞれが所定のベクトル値を有する複数の動きベクトルを決定する工程と、
該複数の近接領域に対して各動きベクトルの該所定のベクトル値を該基準ピクチャ内の領域の空間的位置に加算することにより、該複数の候補領域を生成する工程であって、各動きベクトルの該所定のベクトル値と該基準ピクチャ内の該領域の空間的位置とを加算した結果として、該複数の候補領域のそれぞれに対する空間的位置を生じさせ、該基準ピクチャ内の該領域の空間的位置は、該現在のピクチャ内の該現在の領域の空間的位置と同一である、工程と、
該複数の候補領域のそれぞれにおけるピクセル情報と該現在の領域におけるピクセル情報とを比較することにより、該複数の候補領域のそれぞれに対して適合基準スコアを決定する工程と、
最も低い適合基準スコアを有する候補領域を該予測因子領域として割り当てる工程と
を含み、
該複数の候補領域を生成する該工程は、該基準ピクチャと、該エンコードされた最後のピクチャと、該現在のピクチャとの間の時間的な関係に基づいて、該所定のベクトル値を時間的に後方にスケーリングすることによって、該エンコードされた最後のピクチャ内に含まれる近接領域ピクチャに対応する候補領域を生成する工程を含み、
該基準ピクチャ、該エンコードされた最後のピクチャ、該現在のピクチャの表示順序と、該基準ピクチャ、該エンコードされた最後のピクチャ、該現在のピクチャの伝送順序との間には相違があり、該表示順序に関して、該基準ピクチャは、該現在のピクチャに対して過去の基準ピクチャであり、該現在のピクチャは、該エンコードされた最後のピクチャに対して過去のピクチャであり、
該方法は、デコーダエンジンによって該エンコードされた最後のピクチャおよび該現在のピクチャの両方を落とす時間的スケーラビリティを可能にする、方法。
前記エンコードされた最後のピクチャ内の前記近接領域は、該エンコードされた最後のピクチャにおいて、前記現在のピクチャにおける前記現在の領域の位置と同じ空間的位置にある、請求項１に記載の方法。
前記複数の候補領域のそれぞれに対して空間的領域を割り当て、該割り当てられた空間的領域のそれぞれに対して座標を定義し、該複数の候補領域のうちの一対の候補領域であって、該一対の候補領域に割り当てられた該空間的領域に対して定義された座標が、他のどの一対の候補領域よりも大きな探索空間を定義する極値を定義する一対の候補領域を決定することによって、前記決定工程において決定された前記複数の候補領域を用いて探索空間を計算する工程
をさらに含む、請求項１に記載の方法。
前記探索空間をプロセッサの内部にあるコンピュータ読み取り可能な格納媒体にローディングする工程をさらに含み、
該プロセッサは、該コンピュータ読み取り可能な格納媒体に配置される該候補領域におけるピクセル情報と該現在の領域におけるピクセル情報とを比較する、請求項３に記載の方法。
前記探索空間を計算する前記工程は、複数の探索空間を計算することを含む、請求項３に記載の方法。
前記複数の探索空間を計算する前記工程は、
前記空間的領域に等しい初期探索空間であって、前記より大きな探索空間を定義する極値を定義する座標を有するように決定された前記一対の候補領域に対して定義された前記座標に等しい座標を有する初期探索空間を定義することと、
該初期探索空間のそれぞれに対して該複数の候補領域のうちの１つの候補領域であって、他の候補領域の空間的領域の座標と該初期探索空間の座標との距離に比べて該初期探索空間の座標から最小の距離である座標を有する空間的領域を有する候補領域を決定することと、
該初期探索空間のそれぞれに対して該初期探索空間の空間的領域の座標の極値によって定義される空間的領域を有する新たな探索空間を定義することであって、該候補領域の該空間的領域は、該最小の距離である座標を有する空間的領域を有している、ことと、
該新たな探索空間が該複数の候補領域の空間的領域を含む空間的領域を有するまで、該初期探索空間のそれぞれに対して該複数の候補領域のうちの１つを決定する工程と該新たな探索空間を定義する工程とを繰り返すことと
を含む、請求項５に記載の方法。
前記複数の候補領域を用いて決定された前記予測因子領域におけるピクセル情報と前記現在の領域におけるピクセル情報との間の適合が、第１の閾値を満足するほど近くない場合には、該複数の候補領域のうちのいくつかを用いて決定された該予測因子領域上にセンタリングされた該探索空間における領域と該現在の領域とを比較することにより該予測因子領域を発見し、そうでない場合には、該複数の候補領域のうちのいくつかを用いて決定された該予測因子領域を該予測因子領域にする工程をさらに含む、請求項１に記載の方法。
前記複数の候補領域のうちのいくつかを用いて決定された予測因子領域上にセンタリングされた前記探索空間における領域を比較する前記工程において、該探索空間は非矩形である、請求項７に記載の方法。
前記複数の候補領域のうちのいくつかを用いて決定された予測因子領域上にセンタリングされた前記探索空間における領域を比較する前記工程において、該領域は、該複数の候補領域のうちの該いくつか以外の該複数の候補領域のうちのいくつかを用いて決定される該予測因子領域からの距離が増大する順に前記現在の領域と比較される、請求項８に記載の方法。
前記領域は、第２の事前に決定された閾値を満足するほど十分に近い前記現在の領域と適合するものが発見されるまで比較される、請求項９に記載の方法。
前記第２の閾値を満足するために必要な前記適合は、前記第１の閾値を満足するために必要な適合よりも近い、請求項１０に記載の方法。
計算を行うためのプロセッササイクルの割当てにおいて利用可能なプロセッササイクル数に応じて、前記予測因子領域上にセンタリングされた前記探索空間を動的にサイジングする工程をさらに含む、請求項８に記載の方法。
前記現在の領域に対する前記少なくとも１つの別の候補領域の位置に応じて、前記探索空間を動的に形成する工程をさらに含む、請求項８に記載の方法。
前記現在の領域が前記現在のピクチャにおいて有する空間的位置と同じ空間的位置を前記基準ピクチャにおいて有する前記基準ピクチャ内の領域を第１の候補領域として選択する工程と、
前記第１の候補領域内のピクセル情報と前記現在の領域内のピクセル情報との間の適合が第３の閾値を満足するほど近くない場合には、前記複数の候補領域についての工程を進め、そうでない場合には、該第１の候補領域を前記予測因子領域にする工程と
をさらに含む、請求項１０に記載の方法。
前記第３の閾値は、前記第１の閾値よりも大きく、該第１の閾値は前記第２の閾値よりも大きい、請求項１４に記載の方法。
前記複数の候補領域のそれぞれは、矩形である、請求項１に記載の方法。
コンピュータプロセッサに請求項１に記載の方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な格納媒体。
デジタル表現された複数のピクチャのシーケンスの基準ピクチャにおける探索空間の部分を規定する方法であって、複数の候補領域の中から予測因子領域に対して探索が該探索空間の部分内で行われ、該予測因子領域は、該デジタル表現された複数のピクチャのシーケンスの現在のピクチャにおける現在の領域の値を予測するために使用され、
該デジタル表現された複数のピクチャのシーケンスは複数のピクチャを含み、該複数のピクチャのうち特定の時刻における１つが該現在のピクチャとして定義されており、
該現在のピクチャは複数の領域を含み、該現在のピクチャの該複数の領域のうち該特定の時刻における１つが該現在の領域として定義されており、
該方法は、
該現在の領域に近接し、かつ、それぞれが所定の値を有する動きベクトルを含む該現在のピクチャ内の該複数の領域の各領域およびエンコードされた最後のピクチャにおける領域に対して、
該複数の近接領域に対して各動きベクトルの該所定のベクトル値を該基準ピクチャ内の領域の空間的位置に加算することにより、該複数の候補領域を生成する工程であって、各動きベクトルの該所定のベクトル値と該基準ピクチャ内の該領域の空間的位置とを加算した結果として、該複数の候補領域のそれぞれに対する空間的位置を生じさせ、該基準ピクチャ内の該領域の空間的位置は、該現在のピクチャ内の該現在の領域の空間的位置と同一である、工程と、
該複数の候補領域を用いて該探索空間の部分を規定する工程と
を含み、
該複数の候補領域を生成する該工程は、該基準ピクチャと、該エンコードされた最後のピクチャと、該現在のピクチャとの間の時間的な関係に基づいて、該所定のベクトル値を時間的に後方にスケーリングすることによって、該エンコードされた最後のピクチャ内に含まれる近接領域に対応する候補領域を生成する工程を含み、
該基準ピクチャ、該エンコードされた最後のピクチャ、該現在のピクチャの表示順序と、該基準ピクチャ、該エンコードされた最後のピクチャ、該現在のピクチャの伝送順序との間には相違があり、該表示順序に関して、該基準ピクチャは、該現在のピクチャに対して過去の基準ピクチャであり、該現在のピクチャは、該エンコードされた最後のピクチャに対して過去のピクチャであり、
該方法は、デコーダエンジンによって該エンコードされた最後のピクチャおよび該現在のピクチャの両方を落とす時間的スケーラビリティを可能にする、方法。
前記動きベクトルの前記所定の値は、任意の大きさを有し得る、請求項１８に記載の方法。
前記探索空間の部分が該複数の候補領域の全てを含むように、前記複数の候補領域を用いて該探索空間の部分を決定する工程をさらに含む、請求項１８に記載の方法。
コンピュータ読み取り可能な格納媒体に配置される前記候補領域におけるピクセル情報と前記現在の領域におけるピクセル情報との比較を実行するプロセッサの内部にあるコンピュータ読み取り格納媒体に前記探索空間の部分をローディングする工程をさらに含む、請求項１８に記載の方法
前記探索空間の部分を計算する前記工程は、該探索空間の複数の部分を計算することを含む、請求項２０に記載の方法。
前記探索空間の複数の部分を計算する前記工程は、
前記空間的領域に等しい初期探索空間であって、前記より大きな探索空間を定義する極値を定義する座標を有するように決定された前記一対の候補領域に対して定義された前記座標に等しい座標を有する初期探索空間を定義することと、
該初期探索空間のそれぞれに対して該複数の候補領域のうちの１つの候補領域であって、他の候補領域の空間的領域の座標と該初期探索空間の座標との距離に比べて該初期探索空間の座標から最小の距離である座標を有する空間的領域を有する候補領域を決定することと、
該初期探索空間のそれぞれに対して該初期探索空間の空間的領域の座標の極値によって定義される空間的領域を有する新たな探索空間を定義することであって、該候補領域の該空間的領域は、該最小の距離である座標を有する空間的領域を有している、ことと、
該新たな探索空間が該複数の候補領域の空間的領域を含む空間的領域を有するまで、該初期探索空間のそれぞれに対して該複数の候補領域のうちの１つを決定する工程と該新たな探索空間を定義する工程とを繰り返すことと
を含む、請求項２２に記載の方法。
前記探索空間の複数の部分のうち１つは、前記現在の領域が前記現在のピクチャにおいて有する空間的位置と同じ空間的位置を前記基準ピクチャにおいて有する該基準ピクチャ内の領域を有し、
該探索空間の複数の部分は、該現在の領域が該現在のピクチャにおいて有する空間的位置と同じ空間的位置を該基準ピクチャにおいて有する該基準ピクチャ内
の領域を含む該探索空間の複数の部分のうちの１つから、前記プロセッサの内
部にある前記コンピュータ読み取り格納媒体に別個にロードされる、請求項２２に記載の方法。