JP2006524460A

JP2006524460A - 符号化されたビデオデータのコンテンツ分析

Info

Publication number: JP2006524460A
Application number: JP2006506837A
Authority: JP
Inventors: ブラゼロヴィッチ，ゼフデット; ネスファトバ，ヤン　アー　デー; スネイデル，フレディ
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-04-17
Filing date: 2004-04-13
Publication date: 2006-10-26
Also published as: WO2004093462A1; KR20050122265A; EP1618743A1; CN1774931A; US20070041447A1

Abstract

本発明は、コンテンツ分析のためのシステム１０１に関する。システム１０１は、Ｈ．２６４のような第一の符号化規格に準拠したビデオ信号を受けるインタフェースを有している。インタフェースは、ビデオ信号からビデオ符号化データを抽出する抽出プロセッサ１０７に結合される。ビデオ符号化データは、該ビデオ符号化データを、ＭＰＥＧ−２のような第二のビデオ符号化規格に準拠したビデオ符号化データに変換する変換プロセッサ１０９に供給される。変換は、たとえば、より小さなブロックをグループ化して、より大きなブロックサイズに関連するビデオ符号化パラメータを提供するためにビデオパラメータを平均化することで、抽出されたビデオデータを共通の符号化ブロックサイズに関連するビデオ符号化データに変換する。変換されたデータは、該変換されたデータに基づいてコンテンツ分析を実行するコンテンツ分析プロセッサ１１１に供給される。

Description

本発明は、コンテンツ分析のための方法及び装置に関し、特に、ビデオ符号化パラメータに基づいたコンテンツ分析のための方法及び装置に関する。

近年、デジタルストレージの使用及びビデオ信号の流通は、益々普及してきている。デジタルビデオ信号を送信するために必要とされる帯域幅を低減するため、ビデオデータ圧縮を含む効果的なデジタルビデオ符号化を使用することが知られており、デジタルビデオ信号のデータレートは、実質的に低減される場合がある。

相互使用可能性を保証するため、ビデオ符号化の規格は、多くのプロフェッショナル及びコンシューマアプリケーションにおけるデジタルビデオの適合を容易にする鍵を握る役割を果たしている。最も有力な規格は、ＩＳＯ／ＩＥＣ（International Organization for Standardization/International Electrotechnical Committee）のＩＴＵ−Ｔ（International Telecommunication Union）又はＭＰＥＧ（Motion Pictures Experts Group）委員会のいずれかにより慣習的に発展されている。勧告として知られるＩＴＵ−Ｔ規格は、リアルタイムコミュニケーション（たとえばビデオ会議）を典型的に狙いとしており、大部分のＭＰＥＧ規格は、ストレージ（たとえばＤＶＤ（Digital Versatile Disc））及びブロードキャスト（たとえばＤＶＢ（Digital Video Broadcast）規格）について最適化される。

現在、最も広く使用されているビデオ圧縮技術のうちの１つは、ＭＰＥＧ−２（Motion Picture Expert Group）規格として知られている。ＭＰＥＧ−２は、ブロックベースの圧縮スキームであり、この場合、８つの垂直画素と８つの水平画素をそれぞれ含む複数のブロックにフレームが分割される。ルミナンスデータの圧縮について、それぞれのブロックは、離散コサイン変換（ＤＣＴ）を使用して個々に圧縮され、多数の変換されたデータ値をゼロに低減する量子化がこれに続く。クロミナンスデータの圧縮について、クロミナンスデータの量は、ダウンサンプリングにより、通常ははじめに低減され、それぞれ４つのルミナンスブロックについて、２つのクロミナンスブロックが得られ（４：２：０フォーマット）、これらはＤＣＴ及び量子化を使用して同様に圧縮される。フレーム内圧縮のみに基づいたフレームは、イントラフレーム（Ｉフレーム）として知られている。

フレーム内圧縮に加えて、ＭＰＥＧ−２は、データレートを更に低減するためにフレーム間圧縮を使用する。フレーム間圧縮は，前のＩフレームに基づいて予測されたフレーム（Ｐフレーム）の生成を含んでいる。さらに、Ｉ及びＰフレームは、双方向予測フレーム（Ｂフレーム）により典型的に挿入され、ここでは、Ｂフレームと周囲のＩフレーム及びＰフレーム間の差を転送するのみで圧縮が達成される。さらに、ＭＰＥＧ−２は、動き予測を使用し、この動き予測では、異なる位置での後続するフレームで発見される１フレームのマクロブロックの画像は、動きベクトルの使用により簡単に伝達される。

これら圧縮技術の結果として、標準的なＴＶスタジオのブロードキャストのクオリティレベルは、２〜４Ｍｂｐｓ前後のデータレートで送信することができる。

最近、Ｈ．２６Ｌとして知られる新たなＩＴＵ−Ｔ規格が出現している。Ｈ．２６Ｌは、ＭＰＥＧ−２のような既存の規格に比較してその優れた符号化効率について広く認識されてきている。Ｈ．２６Ｌのゲインは、ピクチャサイズに比例して一般に減少するが、広い範囲の応用においてその配置のポテンシャルは疑う余地がない。このポテンシャルは、ＪＶＴ（Joint Video Team）フォーラムのフォーメーションにより認識されており、このＪＶＴフォーラムは、Ｈ．２６Ｌを新たなジョイントＩＴＵ−Ｔ／ＭＰＥＧ規格として完成させる役割を果たす。新たな規格は、Ｈ．２６４又はＭＰＥＧ−４ＡＶＣ（Advanced Video Coding）として知られている。さらに、Ｈ．２６４ベースのソリューションは、ＤＶＢ及びＤＶＤフォーラムのような他の標準化の機関で考慮されている。

Ｈ．２６４規格は、ＭＰＥＧ−２のような確立された規格から知られているブロックベースの動き補償ハイブリッド変換符号化の同じ原理を採用している。Ｈ．２６４シンタックスは、ピクチャブロックヘッダ、スライスブロックヘッダ及びマクロブロックヘッダのような通常のヘッダの階層、並びに、動きベクトル、ブロック変換係数、量子化スケール等のようなデータとして編成される。しかし、Ｈ．２６４規格は、ビデオデータのコンテンツを表すＶＣＬ（Video Coding Layer）と、データをフォーマット化してヘッダ情報を提供するＮＡＬ（Network Adaptation Layer）とを区別する。

さらに、Ｈ２６４は、非常に増加された符号化パラメータの選択を可能にする。たとえば、１６×１６マクロブロックの更に精巧なパーティション及びマニピュレーションを可能にし、これにより、たとえば、４×４と同じサイズでマクロブロックのセグメント化に動き補償を実行することができる。また、サンプルブロックの動き補償された予測のための選択プロセスは、隣接するピクチャ（又はフレーム）のみの代わりに、多数の記憶された、前にデコードされたピクチャ（フレームとして知られる）を含んでいる場合がある。単一フレームでのフレーム内符号化によってさえ、同じフレームから前にデコードされたサンプルを使用してブロックの予測を形成することが可能である。また、動き補償に続いて結果的に得られる予測誤差は、伝統的な８×８サイズの代わりに、４×４ブロックサイズに基づいて変換及び量子化される場合がある。

デジタルビデオ規格の出現は、データ及び信号処理における技術的な進歩と共に、ビデオ処理及びストレージ装置で更なる機能が実現されるのを可能にする。たとえば、最近では、ビデオ信号のコンテンツ分析の分野で著しい調査が行われてきている。かかるコンテンツ分析は、ビデオ信号のコンテンツに関する自動的な判定又は推定を可能にしている。判定されたコンテンツは、コンテンツアイテムのフィルタリング、カテゴリ化又は編成を含むユーザ機能を提供する。たとえばＴＶブロードキャスタから入手可能なビデオコンテンツにおける可用性及び変異性は、最近において著しく増加してきており、コンテンツ分析は、自動的に、利用可能なコンテンツをフィルタリングして適切なカテゴリに編成するために使用される場合がある。さらに、ビデオ装置の動作は、コンテンツの検出に応答して変更される場合がある。コンテンツ分析は、ビデオ符号化パラメータに基づく場合があり、特にＭＰＥＧ−２ビデオ符号化パラメータに基づいてコンテンツ分析を実行するためのアルゴリズムに向けて、かなりのリサーチが指示されている。ＭＰＥＧ−２は、消費者の応用にとって現在最も広く普及しているビデオ符号化規格であり、したがって、ＭＰＥＧ−２ベースのコンテンツ分析が広く実現されるようになる可能性がある。

Ｈ．２６４のような新たなビデオ符号化規格がロールアウトされるとき、コンテンツ分析は、多くの応用で必要とされ、望まれることになる。したがって、新たなビデオ符号化規格に適したコンテンツ分析アルゴリズムが開発される必要がある。これは、かなりのリサーチと開発を必要とするが、これは時間がかかり費用がかかる。適切なコンテンツ分析アルゴリズムがないことは、新たなビデオ符号化規格の取り込みを遅らせるか又は妨げさせ、若しくはこの規格について提供することができる機能を大幅に低減する。

さらに、既存のビデオシステムは、新たなコンテンツ分析アルゴリズムを導入するために置き換えられるか、又は更新される必要がある。これも費用がかかり、新たなビデオ符号化規格の導入を遅らせる。代替的に、ＭＰＥＧ−２ビデオ符号化規格に準拠した再符号化が後続する新たなビデオ符号化規格に準拠した信号を復号化するために作用する更なる装置が導入される必要がある。かかる装置は、複雑、高価であって、高い計算リソースの要件を有している。

したがって、コンテンツ分析に関する改善された方法が望まれており、特に、低い複雑さを有し、装置の相互使用可能性を容易にし、高いフレキシビリティを有し、低いリサーチ及び開発リソースの要件を有し、計算上の要件を有し、及び／又は新たなビデオ符号化規格の導入を容易にするコンテンツ分析の方法が望まれている。

したがって、本発明は、上述された問題点のうちの１以上を１つ又は組み合わせで緩和、軽減又は除去することを目的とすることが好ましい。

本発明の第一の態様によれば、コンテンツ分析のための装置が提供され、本装置は、第一のビデオ符号化フォーマットに準拠して符号化された第一のビデオ信号を受ける手段、第一のビデオ符号化フォーマットに準拠した第一のビデオ符号化データを第一のビデオ信号から抽出する手段、第二のビデオ符号化フォーマットに準拠した第二のビデオ符号化データに第一のビデオ符号化データを変換する手段、第二のビデオ符号化データに応答してコンテンツ分析を実行するために作用する手段を有している。

第一のビデオ符号化フォーマットは、第一のビデオ符号化規格である場合があり、第二のビデオ符号化フォーマットは、第二のビデオ符号化規格である場合がある。

低い複雑さを有するコンテンツ分析用の装置は、このようにして実現される。本装置は、たとえば、第一のビデオ符号化フォーマットに準拠してフルデコーディングを実行し、続いて第二のビデオ符号化フォーマットに準拠してフルエンコーディングを実行するために必要とされる。特に、フルトランスコーディングがアプリケーションにおいて必要とされない。関与する符号化パラメータの一部のみがコンテンツ分析及び２つのフォーマットに従うフォーマット変換について必要とされる場合がある。本装置は、高いフレキシビリティを更に有し、たとえば、異なるビデオ符号化フォーマットが同じコンテンツ分析アルゴリズムと使用することができる。本装置は、装置の相互使用可能性を更に容易にし、既存のビデオ符号化フォーマットへのフルトランスコーディングを必要とすることなしに、既存のコンテンツ分析アルゴリズムが新たに出現するビデオ符号化フォーマットと使用するのを可能にする場合がある。本装置は、新たな装置の既存のビデオシステムへの導入を容易にする。さらに、コンテンツ分析に関連するリサーチ及び開発コストは、特に、既存のコンテンツ分析アルゴリズムを全部又は一部再使用するのを可能にすることで、大幅に低減することができる。特に、ＭＰＥＧ−２コンテンツ分析アルゴリズムは、Ｈ．２６４信号と使用される場合があり、これによりＭＰＥＧ−２コンテンツ分析に関連する全てのリサーチ及びノウハウを適用可能にすることができる。

本発明の特徴によれば、変換する手段は、第一のブロック符号化サイズに関連する第一のビデオ符号化データのうちの少なくとも幾つかのビデオ符号化パラメータを、第二のビデオ符号化フォーマットと互換性のある第二の符号化ブロックサイズに関連するビデオ符号化パラメータに変換することで、第二のビデオ符号化データを生成するために作用する。これにより、ビデオ符号化パラメータの適切な変換が可能となり、異なる符号化ブロックサイズを使用して符号化されるビデオ信号により、第二の符号化ブロックサイズに基づいたコンテンツ分析の使用が可能となる。

本発明の別の特徴によれば、変換する手段は、第一及び第二のビデオ符号化フォーマットについて共通の符号化ブロックサイズを決定し、共通の符号化ブロックサイズに対応しない第一のビデオ符号化データのうちの少なくとも幾つかのビデオ符号化パラメータを共通の符号化ブロックサイズに対応するビデオ符号化パラメータに変換するために作用する。２つのビデオフォーマットは、共通の符号化ブロックサイズを有し、この符号化ブロックサイズにビデオ符号化パラメータを変換することは、最適な程度の変換精度を提供する傾向にあるシンプルかつ容易な実現を提供する。共通の符号化ブロックサイズは、たとえば、関与される信号又はビデオ符号化フォーマットの分析により決定されるか、又は第一及び第二のビデオ符号化フォーマットについて共通の符号化ブロックサイズの予め決定された値から簡単に決定される場合がある。

本発明の別の特徴によれば、第一及び第二の符号化ブロックサイズは、変換ブロックサイズである。たとえば、符号化ブロックサイズは、符号化及び／又は復号化のために使用される離散コサイン変換（ＤＣＴ）のために使用されるブロックのサイズである場合がある。これにより、ビデオ符号化パラメータの正確かつ実用的な変換が可能となり、変換ブロックパラメータを利用する多くのコンテンツ分析アルゴリズムについて適している。

本発明の別の特徴によれば、第一及び第二の符号化ブロックサイズは、予測ブロックサイズである。たとえば、符号化ブロックサイズは、ビデオ符号化フォーマットに従って動き推定及び予測について使用されるブロックのサイズである場合がある。これにより、ビデオ符号化パラメータの正確かつ実用的な変換が可能となり、予測ブロックパラメータを利用する多くのコンテンツ分析アルゴリズムについて適している。

本発明の別の特徴によれば、第一の符号化ブロックサイズは、第二の符号化ブロックサイズよりも小さく、少なくとも幾つかのビデオ符号化パラメータの変換は、複数の符号化ブロックをグループ化すること、グループについて共通のビデオ符号化パラメータを決定することを含んでいる。共通のパラメータは、複数のサブパラメータを含む場合がある。たとえば、共通のパラメータは、複数の平均されたビデオ符号化パラメータを含む場合があり、ここで平均は、グループに含まれる符号化ブロックに拡張する。この特徴は、容易に実現される非常に効果的、正確及び／又は複雑さの低い変換が可能となる。

本発明の別の特徴によれば、共通のビデオ符号化パラメータは、変換係数を含んでいる。これは、コンテンツ分析における使用について適したビデオ符号化パラメータの効果的な変換を可能にする。

本発明の特徴によれば、変換係数は、直流（ＤＣ）係数である。共通のＤＣ成分は、多くのコンテンツ分析アルゴリズムで有効であるビデオ符号化パラメータを提供する。ビデオ信号のコンテンツ分析の特性をグループ化して決定するのに良好に適したビデオ符号化パラメータである。異なる周波数での信号の流通を反映する変換係数のうち、ＤＣ係数は、実質的にゼロの周波数に対応する。言い換えれば、ＤＣ係数は、変換が適用される信号の平均値を表している。

本発明の別の特徴によれば、変換する手段は、グループでそれぞれの符号化ブロックの少なくとも１つのＤＣ係数を平均することで、少なくとも部分的に共通のビデオ符号化パラメータを決定するために作用する。ＤＣ係数の平均により、グループ化された符号化ブロックのＤＣ特性の特に適した指示が提供され、コンテンツ分析に特に有効である。

本発明の別の特徴によれば、変換係数は、交流（ＡＣ）係数である。共通のＡＣ係数は、多くのコンテンツ分析アルゴリズムで有効なビデオ符号化パラメータを提供する。ビデオ信号のコンテンツ分析の特性をグループ化して決定するための良好に適したビデオ符号化パラメータである。特に、ＡＣ係数は、ＤＣ係数以外の係数である場合がある。

本発明の別の特徴によれば、変換する手段は、グループでそれぞれの符号化ブロックの少なくとも１つのＡＣ係数をスケーリングすることで、少なくとも部分的に共通のビデオ符号化パラメータを決定するために作用する。ＡＣ係数のスケーリングは、共通のビデオ符号化パラメータを生成するための特に適切な手段を提供し、特に、異なるブロックサイズの変換に関連する異なるスケーリングを補償する場合がある。スケーリングは、変換ブロックサイズ及び／又は変換ブロックにおけるＡＣ係数の位置に依存する場合がある。

本発明の別の特徴によれば、共通のビデオ符号化パラメータは動きベクトルを含んでいる。共通の動きベクトルは、多くのコンテンツ分析アルゴリズムで有効であるビデオ符号化パラメータを提供する。ビデオ信号のコンテンツ分析の特性をグループ化して決定するために良好に適したビデオ符号化パラメータである。

本発明の別の特徴によれば、変換する手段は、グループでそれぞれの符号化ブロックの少なくとも１つの動きベクトルを平均することで、少なくとも部分的に共通のビデオ符号化パラメータを決定するために作用する。動きベクトルの平均により、グループ化された符号化ブロックに関連する動きの特性の特に適切な指示が提供され、コンテンツ分析について特に有効である。

本発明の別の特徴によれば、コンテンツ分析手段は第二のビデオ符号化フォーマットにより許容されるビデオ符号化パラメータのみに基づいてコンテンツ分析を実行するために作用する。したがって、本発明は、第二のビデオ符号化フォーマットとの使用のために独占的に開発されたコンテンツ分析アルゴリズムがコンテンツ分析アルゴリズムの変更を必要とすることなしに第一のビデオ符号化フォーマットと使用される場合がある。

本発明の別の特徴によれば、コンテンツ分析手段は、第一のビデオ符号化データのビデオ符号化パラメータに応答してコンテンツ分析を実行するために更に作用する。たとえば、コンテンツ分析は、第二のビデオ符号化フォーマットに準拠する利用可能であるものとは異なる基準ピクチャ情報、異なる予測モード及びブロックサイズ並びに異なるイントラピクチャモード及びブロックサイズを更に考慮する場合がある。これにより、更なる情報が利用される場合があるので、改善されたコンテンツ分析が可能となる。同時に、第二の符号化フォーマットのみに準拠して開発された既存のコンテンツ分析アルゴリズム及び／又は基準が使用される場合がある。したがって、既存のアルゴリズムは、第一のビデオ符号化フォーマットに準拠して利用可能な更なる情報を考慮するために除々に改良される場合がある。

本発明の別の特徴によれば、第一のビデオ符号化フォーマットは、ＩＴＵ（International Telecommunications Union）の勧告Ｈ．２６４及び第二のビデオフォーマットは、ＩＳＯ（International Organization for Standardization/International Electrotechnial Committee Motion Expert Group MPEG）のＭＰＥＧ２規格である。特に、本発明は、ＭＰＥＧ−２信号のために開発されたコンテンツ分析アルゴリズム及び／又は基準に基づいてコンテンツ分析がＨ．２６４ビデオ信号について実行されるのを可能にする。

本発明の第二の態様によれば、コンテンツ分析の方法が提供され、本方法は、第一のビデオ符号化フォーマットに準拠して符号化された第一のビデオ信号を受けるステップ、第一のビデオ符号化フォーマットに準拠した第一のビデオ符号化データを第一のビデオ信号から抽出するステップ、第二のビデオ符号化フォーマットに準拠した第二のビデオ符号化データに第一のビデオ符号化データを変換するステップ、第二のビデオ符号化データに応答してコンテンツ分析を実行するステップを有している。

本発明のこれらの態様、特徴及び利点、並びに他の態様、特徴及び利点は、以下に記載される実施の形態を参照して明らかにされるであろう。本発明の実施の形態は、添付図面を参照して例示によってのみ記載される。

以下の記載は、ＭＰＥＧ−２ビデオ符号化パラメータに基づいたコンテンツ分析、特にＭＰＥＧ−２ビデオ符号化パラメータに基づいたＨ．２６４符号化ビデオ信号のコンテンツ分析に適用可能な本発明の実施の形態に焦点を当てている。しかし、本発明はこの応用に制限されるものではなく、たとえばＨ．２６３、ＭＰＥＧ−４ＡＳＰ（Advanced Simple Profile）、ＲｅａｌＰｌａｙｅｒ、ＱｕｉｃｋＴｉｍｅ、Ｗｉｎｄｏｗｓ（登録商標）ＭｅｄｉａＰｌａｙｅｒ及びＤｉｖＸ規格を含む他のビデオ符号化アルゴリズム、仕様又は規格に関連して使用される場合があることを理解されるであろう。

以下では、Ｈ．２６４への引用は、ＭＰＥＧ−４ＡＶＣ（Advanced Video Coding）として知られる等価なＩＳＯ／ＩＥＣ１４４９６−１０ＡＶＣへの引用も含んでいる。

コンテンツ分析は、近年、多くの注目を引き付けており、多くのリサーチが行われてビデオ信号のコンテンツ分析のために適したアルゴリズムが開発されている。

典型的に、コンテンツ分析は、コンテンツのカテゴリについて典型的である特定の特性を検出することに基づいている。たとえば、ビデオコンテンツアイテムは、緑色という高い平均的な集中と頻繁な横方向の動きを有することで、フットボールの試合に関連するとして検出される場合がある。アニメーション（cartoons）は、強い原色の、高いレベルの輝度、及び鮮鋭な色の遷移を典型的に有することで特徴づけされる。

従って、ビデオ符号化パラメータは、ビデオ信号の内容を判定するために使用されるのが有利である場合がある。たとえば、ＤＣＴ変換ブロックにおける高い相対的なＡＣ係数の値は、鮮鋭な遷移が変換ブロックに含まれている可能性がある点を示している。かかる遷移は、典型的にアニメーションについてであって、したがって現在のコンテンツがアニメーションであることを示すビデオ符号化パラメータとして含まれる場合がある。典型的に、かなりの数のパラメータが考慮され、コンテンツは、決定された特性と最も密に相関するコンテンツカテゴリとして決定される場合がある。したがって、色濃度及びルミナンスは、現在のコンテンツがアニメーションであるかを判定するために更に含まれる場合がある。たとえば、ビデオ符号化データは、高い度合いの色濃度、高いルミナンス、高周波のＤＣＴ係数における高いエネルギーの集中、及び高い大きな又はフラットなピクチャエリアを示す場合、コンテンツ分析アルゴリズムは、現在のコンテンツがアニメーションであると判定する場合がある。

コンテンツ分析のために有効である場合があるビデオ符号化パラメータの別の例は、動きベクトルのような動きデータである。たとえば、ピクチャエリアが、小さく関連された動きベクトルをもつ非常に高い程度の予測を含む場合、このことは、このエリアについてピクチャが静止画であること、このエリアのコンテンツがテキスト又はオンスクリーンロゴ（たとえばステーションロゴ）を重ねる可能性があるという示唆である場合がある。

典型的に、ビデオ符号化パラメータ及びノンビデオ符号化パラメータの両者は、コンテンツ分析について互いに使用される場合がある。たとえば、高い程度の動き、強いルミナンス及び関連されるサウンドトラックのリズミカルな特性は、現在のコンテンツがミュージックビデオであることを示唆している場合がある。

コンテンツ分析に関する更なる情報は、当業者にとって一般に利用可能である。たとえば、文献“Content-Bases Multimedia Indexing and Retrieval”by C. Djeraba, IEEE Multimedia, April-June 2002, Institute of Electrical and Electonic Engineers; “A Survey on Content-Based Retrieval for Multimedia Databases” by A. Yoshika et al., IEEE Transaction on Knowledge and Data Engineering, vol.11, No1, January/February 1999, Institute of Electrical and Electronic Engineers; “Applications of Video-Content Analysis and Retrieval” by N. Dimitrova et al., IEEE Multimedia, July-September 2002, Institute of Electrical and Electronics Engineers、及び引用に含まれるものは、コンテンツ分析への導入を提供する。

ＭＰＥＧ−２ビデオエンコーダにより生成されたパラメータに基づいて異なるビデオコンテンツを検出するために効果的、正確及び信頼性の高いアルゴリズムが開発されている。したがって、新たなビデオ符号化規格が出現しているので、これらのアルゴリズムを再使用可能であることが好ましい。たとえば、新たなビデオ符号化規格Ｈ．２６４について全部又は一部分的に開発されたアルゴリズム又は基準の１以上又は全部を再使用することは有利である。しかし、Ｈ．２６４は、たとえば更なる予測又は変換ブロックサイズ又は広い範囲の予測ピクチャのような、ＭＰＥＧ−２と互換性のない更なるシンタックスを使用する。Ｈ．２６４とＭＰＥＧ−２との間のフルトランスコーディングは、ＭＰＥＧ−２のビデオコンテンツアルゴリズムが再使用されるのを可能にする。しかし、このことは、不利な点に関連している。特に、関連されるプロセス、特に符号化プロセスは、複雑であって、計算的に集中する傾向にある。

図１は、本発明の好適な実施の形態に係るコンテンツ分析の装置１０１のブロック図を示している。図１及び以下の説明は、明確さのため、個別の機能モジュール又はエンティティを示していることを理解されるであろう。しかし、コンテンツ分析の装置１０１の機能は、適切な方式で分割又は分散される場合がある。

トランスコーダは、インタフェース１０３を含んでおり、このインタフェースは、Ｈ．２６４符号化されたビデオ信号を受けるために作用する。示される実施の形態では、Ｈ．２６４ビデオ信号は、外部のビデオソース１０５から受信される。他の実施の形態では、ビデオ信号は、内部ビデオソースを含む他のソースから受信される場合がある。

インタフェース１０３は、Ｈ．２６４ビデオ信号からビデオ符号化データを抽出するために作用する抽出プロセッサ１０７に結合される。抽出されたビデオ符号化データは、Ｈ．２６４ビデオ信号に含まれるＨ．２６４ビデオ符号化データの一部又は全部である。したがって、抽出された第一のビデオ符号化データは、好適な実施の形態では、Ｈ．２６４規格に準拠するビデオ符号化データである。特に、抽出プロセッサ１０７は、Ｈ．２６４デコーダとして実現される場合があり、ビデオ符号化データは、Ｈ．２６４ビデオ復号化処理により抽出される場合がある。

抽出プロセッサ１０７は、変換プロセッサ１０９に結合され、この変換プロセッサは、Ｈ．２６４規格に準拠するビデオ符号化データを、ＭＰＥＧ−２規格に準拠するビデオ符号化データに変換するために作用する。したがって、ＭＰＥＧ−２規格と互換性のある対応するビデオ符号化データは、Ｈ．２６４ビデオ符号化データの一部又は全部に基づいて生成される。変換は、Ｈ．２６４ビデオ符号化データから出来るだけ多くの情報を保有することが好ましい。特に、変換処理及びアルゴリズムは、コンテンツ分析に有益な情報が特定の応用の制約下で実用的であるまで保持されることが好ましい。変換アルゴリズム及び基準は、ビデオ符号化装置の低い複雑さを維持しつつ、適切な情報が保持されるように選択されるのが好ましい。したがって、ＭＰＥＧ−２ビデオ符号化規格に準拠した第二のビデオ符号化データは、第一のビデオ符号化データの変換により、変換プロセッサ１０９により生成される。好ましくは、決定された関係は、変換のために使用される。たとえば、予め決定された数学的な式又は演算は、１以上のＨ．２６４ビデオ符号化パラメータをＭＰＥＧ−２ビデオ符号化パラメータに変換するために使用される場合がある。

たとえば、ＭＰＥＧ−２及びＨ．２６４ビデオ符号化は、マクロブロックのレベルにまでビデオデータについて類似のシンタックスを使用する。このレベルで、２つのビデオ符号化規格は、マクロブロックをより小さなサブブロックに分割するためのＨ．２６４の追加された可能性において、ＭＰＥＧ−２について考えられるのと大部分が異なる。したがって、たとえば、コンテンツ分析について使用される符号化パラメータは、かかるパラメータが両方の規格において、すなわち共通の符号化ブロックサイズで存在できる最も高いブロックレベルで抽出される場合がある。たとえば、動きベクトル及びＤＣ変換係数のようなパラメータは、マクロブロックレベルに変換される場合がある。これを達成するため、平均及びスケーリングのような制限された複雑さの演算が使用される場合がある。

変換プロセッサ１０９により実行された変換は、ＭＰＥＧ−２パラメータについてと同じ粒状度（granularity）のＨ．２６４パラメータのためのコンテンツ分析パラメータを達成するためのやり方であると考えられる場合がある。この粒状度は、マクロブロックレベルである場合がある。

変換プロセッサ１０９は、変換されたビデオ符号化データに基づいてコンテンツ分析を実行するために作用するコンテンツ分析プロセッサ１１１に結合される。したがって、コンテンツ分析プロセッサ１１１は、ＭＰＥＧ−２ビデオ符号化パラメータに基づいてコンテンツ分析を実行するために作用する。コンテンツ分析のための適切なアルゴリズム又は基準は、ビデオ符号化データを考慮するものであって、本発明をなくすことなしに使用される場合がある。たとえば、コンテンツ分析は、“Real time commercial detection using MPEG-2 features”by N. Dimitrova, S. Jeannin, J. Nesvadba, T. McGee, L. Agnihotri, G. Mekenkamp, Conference Proceeding of the 9^th International Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems, 2002に記載される。

好適な実施の形態では、コンテンツ分析の装置は、コンテンツ分析のための現在のＭＰＥＧ−２ベースのアルゴリズム及び基準の前方互換性を達成するための手段を提供する場合がある。同様に、コンテンツ分析の装置は、Ｈ．２６４のような新たなビデオ符号化規格にための後方互換性を達成するための手段を提供する場合がある。かかる互換性は、より広い範囲の応用において既存のＭＰＥＧ−２ベースのソリューションの配置を容易にし、及び／又は既存のビデオシステムにおけるＨ．２６４装置の配置を容易にする。

図２は、本発明の好適な実施の形態に係る、コンテンツ分析の方法に関するフローチャートを示している。本方法は、図１の装置に適用可能であって、図１を参照しながら説明される。

本方法は、ステップ２０１で開始し、コンテンツ分析装置１０１のインタフェース１０３は、外部ビデオソース１０５からＨ．２６４ビデオ信号を受ける。

ステップ２０１に続いてステップ２０３では、Ｈ．２６４ビデオ信号は、インタフェース１０３から抽出プロセッサ１０７に供給され、この抽出プロセッサ１０７は、Ｈ．２６４ビデオ信号からＨ．２６４ビデオ符号化データを抽出する。特に、ステップ２０３は、関連するビデオ符号化データを抽出するためにＨ．２６４信号の復号化を含む場合がある。Ｈ．２６４信号を復号化するためのアルゴリズム及び方法は、当該技術分野で知られており、適切な方法及びアルゴリズムが使用される場合がある。

ステップ２０３に続いてステップ２０５では、Ｈ．２６４ビデオ符号化データは、ＭＰＥＧ−２ビデオ符号化規格に準拠したビデオ符号化データに変換される。

好適な実施の形態では、変換は、ＭＰＥＧ−２について許容されるのとは異なる符号化ブロックサイズに関連するビデオ符号化パラメータを、ＭＰＥＧ−２により許容される符号化ブロックサイズに変換するステップを含んでいる。たとえば、４つの４×４符号化ブロックに関連するビデオ符号化パラメータは、１つの８×８ＭＰＥＧ−２ＤＣＴブロックに関連するビデオ符号化パラメータを形成するために互いに追加される場合がある。

好適な実施の形態では、共通の符号化ブロックサイズは、関与されるビデオ符号化規格について決定される。たとえば、ＭＰＥＧ−２及びＨ．２６４の両者は、１６×１６画素の符号化ブロック（マクロブロック）を含んでいる。共通の符号化ブロックサイズの決定は、単に、予め決定された共通の符号化ブロックサイズを使用することである場合がある。たとえば、共通の符号化ブロックサイズに関連する情報は、ルックアップテーブルに含まれるか、予め決定された値としてソフトウェアルーチンに含まれる場合がある。共通の符号化ブロックサイズが決定された後、ビデオ符号化パラメータは、共通の符号化ブロックサイズに対応するビデオ符号化パラメータに変換される。たとえば、Ｈ．２６４データは、１６×１６マクロブロックに対応するデータに変換される。

幾つかの実施の形態では、コンテンツ分析装置１０１は、複数の異なる規格に準拠したビデオ信号を受信するために作用する場合がある。このケースでは、本装置は、（たとえば、複数のビデオ符号化規格に準拠してビデオ信号を復号化するのを試みることで）受信された信号のビデオ符号化規格を自動的に決定するための手段を更に有し、共通の符号化ブロックサイズは、検出されたビデオ符号化規格に応答して決定される場合がある。

好適な実施の形態では、符号化ブロックサイズは、変換ブロックサイズに関連する場合がある。代替的又は付加的に、符号化ブロックサイズは、予測ブロックサイズに関連する場合がある。

ＭＰＥＧ−２及びＨ．２６４の両者は、当業者には知られているように、信号を空間周波数領域に変換するため、離散コサイン変換（ＤＣＴ）を使用する。しかし、ＭＰＥＧ−２は、８×８画素ブロックに基づいたＤＣＴ変換を規定し、Ｈ．２６４は、多種のＤＣＴベースの変換が使用されるのを許容する。特に、ＤＣＴ変換は、４×４ブロックと同じく小さいブロックで実行される場合がある。

好適な実施の形態では、マクロブロックのＤＣＴ係数は、Ｈ．２６４信号から抽出される。マクロブロックで使用される変換ブロックサイズが次いで決定され、変換ブロックは、８×８変換ブロックを形成するために互いにグループ化される。たとえば、マクロブロックの８×８領域が４つの４×４ＤＣＴブロックを有する場合、これら４つのブロックは、互いにグループ化される。結果的に、この４×４ＤＣＴブロックのグループについて単一の共通のビデオ符号化パラメータが決定される。共通のビデオ符号化パラメータは、複数のサブパラメータを有する場合がある（又は等価的に、複数の共通のビデオ符号化パラメータが決定される場合がある）。

特に、４つのＤＣＴブロックの４つのＤＣ係数の平均により、４×４のＤＣＴブロックのグループについて、共通のＤＣのＤＣＴ係数が決定される場合がある。平均された値は、８×８ＤＣＴを使用させるのが達成されたＤＣ係数の信頼性のある測定値を含んでいる。

同様に、ＡＣ係数は、対応する周波数係数を全てのブロックで考慮することで互いにグループ化される。しかし、当該技術分野で公知であるように、ＡＣ係数のスケーリングは、変換ブロックサイズ及び係数の位置に依存し、ＡＣ係数は、これに応じてスケーリングされる。このように、好適な実施の形態では、ＡＣ係数は、変換ブロックサイズ及び変換ブロックにおける係数の位置に依存してスケーリング又は重み付けされる。好ましくは、それぞれの係数のスケーリングは、予め決定されたスケーリングファクタを含むルックアップテーブルから決定される。

同様に、ＭＰＥＧ−２動き補償は、マクロブロックサイズに基づいており、Ｈ．２６４は、非常に粒状度（fine granularity）の予測ブロックを許容する。特に、Ｈ．２６４は、４×４画素のサイズにまで下がる予測ブロックを許容する。したがって、Ｈ．２６４のマクロブロックは、複数の小さな予測ブロックに対応する複数の関連される動きベクトルを有する場合がある。

好適な実施の形態によれば、予測ブロックは互いにグループ化され、単一の動きベクトルがグループについて決定される。好ましくは、グループの予測ブロックの動きベクトルを平均することで、共通の動きベクトルが生成される。したがって、マクロブロックに含まれる予測ブロックの動きベクトルを平均することで、マクロブロックの動きベクトルが生成される。好ましくは、動きベクトルは、予測ブロックのサイズに従って重み付けされる。付加的又は代替的に、動きベクトルは、基準ピクチャの選択に従って重み付けされる場合がある。

したがって、好適な実施の形態では、ＭＰＥＧ−２規格に準拠してビデオ信号の符号化から生じるビデオ符号化パラメータの予測値に対応する動きベクトル及び変換係数が生成される。

ステップ２０５に続いてステップ２０７では、コンテンツ分析プロセッサ１１１は、変換されたＭＰＥＧ−２データに応答してコンテンツ分析を実行する。いずれか適切なアルゴリズムが使用される場合がある。

幾つかの実施の形態では、ＭＰＥＧ−２のみのコンテンツ分析が使用される。しかし、他の実施の形態では、更なるパラメータが使用される場合があり、特に、ＭＰＥＧ−２と互換性のないパラメータが使用される場合がある。たとえば、Ｈ．２６４は、コンテンツ分析の精度を改善する場合がある幾つかの新たなタイプの符号化パラメータを導入する。特に、これら更なるパラメータの考慮により、オブジェクトの判別及び追跡が改善される。たとえば、以下の更なるビデオ符号化パラメータがコンテンツ分析プロセッサ１１１に通過され、ＭＰＥＧ−２に変換されたビデオ符号化データと共に使用される場合がある。

「インターモード」
動き補償についてより小さな符号化ブロックサイズは、より小さくかつ高速に移動するオブジェクトが検出されるのを可能にし、より大きな符号化ブロックサイズは、より大きくかつ静止したオブジェクト（たとえば、バックグランド）の良好な検出を可能にする。したがって、Ｈ．２６４のより小さなブロックサイズに関する情報は、特に、より小さく高速に動きオブジェクトについて、コンテンツ分析を改善するために使用される場合がある。

「イントラモード」
Ｈ．２６４は、予測ブロックが同じピクチャ内にあるのを許容する。イントラモードに関連する情報は、たとえば、他の方法により得られたリファインの判定について有効である場合がある。たとえば、その領域における制限された数のイントラモードの不連続性により、エッジ又はオブジェクトの境界の存在が示される。

「基準ピクチャの情報」
Ｈ．２６４は、より広い範囲の基準ピクチャが予測のために使用されるのを許容し、これにより、たとえば、ピクチャエリアがカバーされる状況及びカバーされない状況において、改善されたコンテンツ分析が可能となる。したがって、より遠方の基準をもつ局所的なエリアにおけるマクロブロックの支配的な集中は、オブジェクト又はバックグランドのカバー及びアンカバーを検出するために有効である場合がある。

本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの組み合わせを含む適切な形式で実現することができる。しかし、好ましくは、本発明は、１以上のデータプロセッサ及び／又はデジタルシグナルプロセッサで実行されるコンピュータソフトウェアとして実現される。本発明の実施の形態のエレメント及びコンポーネントは、いずれか適切なやり方で物理的、機能的及び論理的に実現される場合がある。確かに、機能は、単一のユニットで、複数のユニットで、又は他の機能ユニットの一部として実現される場合がある。かかるように、本発明は、単一のユニットで実現されるか、異なるユニット及びプロセッサの間で物理的及び機能的に分散される場合がある。

本発明は、好適な実施の形態と共に記載されたが、本実施の形態で述べた特定の形式に制限されることが意図されていない。むしろ、本発明の範囲は、特許請求の範囲によってのみ制限される。請求項では、用語「有する“comprising”」は、他の構成要素又はステップの存在を排除するものではない。さらに、個々に列挙されているが、複数の手段、構成要素又は方法ステップは、たとえば単一のユニット又はプロセッサにより実現される場合がある。さらに、個々の機能が異なる請求項に含まれる場合があるが、これらは、好適に結合される場合があり、異なる請求項における包含は、機能の結合が実施可能ではないこと及び／又は有効ではないことを意味していない。さらに、単数の引用は複数を排除するものではない。したがって、“ａ”、“ａｎ”、“ｆｉｒｓｔ”、“ｓｅｃｏｎｄ”等への参照は、複数を排除するものではない。

本発明の実施の形態に係るコンテンツ分析の装置に関するブロック図である。本発明の実施の形態に係るコンテンツ分析の方法に関するフローチャートである。

Claims

第一のビデオ符号化フォーマットに従って符号化された第一のビデオ信号を受ける手段と、
前記第一のビデオ符号化フォーマットに従う第一のビデオ符号化データを前記第一のビデオ信号から抽出する手段と、
前記第一のビデオ符号化データを、第二のビデオ符号化フォーマットに従う第二のビデオ符号化データに変換する手段と、
前記第二のビデオ符号化データに応答してコンテンツ分析を実行するために作用する手段と、
を有することを特徴とするコンテンツ分析装置。
前記第一のビデオ符号化フォーマットは、第一のビデオ符号化規格であり、前記第二のビデオ符号化フォーマットは、第二のビデオ符号化規格である、
請求項１記載のコンテンツ分析装置。
前記変換する手段は、第一のブロック符号化サイズに関連する前記第一のビデオ符号化データのうちの少なくとも幾つかのビデオ符号化パラメータを、前記第二のビデオ符号化フォーマットと互換性のある第二の符号化ブロックサイズに関連するビデオ符号化パラメータに変換することで、前記第二のビデオ符号化データを発生するために作用する、
請求項１記載のコンテンツ分析装置。
前記変換する手段は、前記第一及び第二のビデオ符号化フォーマットについて共通の符号化ブロックサイズを決定し、共通の符号化ブロックサイズに対応しない前記第一のビデオ符号化データのうちの少なくとも幾つかのビデオ符号化パラメータを、共通の符号化ブロックサイズに対応するビデオ符号化パラメータに変換するために作用する、
請求項３記載のコンテンツ分析装置。
前記第一及び第二の符号化ブロックサイズは、変換ブロックサイズである、
請求項３記載のコンテンツ分析装置。
前記第一及び第二の符号化ブロックサイズは、予測ブロックサイズである、
請求項３記載のコンテンツ分析装置。
前記第一の符号化ブロックサイズは前記第二の符号化ブロックサイズよりも小さく、前記少なくとも幾つかのビデオ符号化パラメータの変換は、複数の符号化ブロックをグループ化して、グループについて共通のビデオ符号化パラメータを決定することを含む、
請求項３記載のコンテンツ分析装置。
前記共通のビデオ符号化パラメータは、変換係数を含む、
請求項７記載のコンテンツ分析装置。
前記変換係数は、直流（ＤＣ）係数である、
請求項８記載のコンテンツ分析装置。
前記変換する手段は、グループにおけるそれぞれの符号化ブロックのうちの少なくとも１つのＤＣ係数を平均することで、少なくとも部分的に共通のビデオ符号化パラメータを決定するために作用する、
請求項９記載のコンテンツ分析装置。
前記変換係数は、交流（ＡＣ）係数である、
請求項８記載のコンテンツ分析装置。
前記変換する手段は、グループにおけるそれぞれの符号化ブロックのうちの少なくとも１つのＡＣ係数をスケーリングすることで、少なくとも部分的に共通のビデオ符号化パラメータを決定するために作用する、
請求項１１記載のコンテンツ分析装置。
前記共通のビデオ符号化パラメータは、動きベクトルを含む、
請求項７記載のコンテンツ分析装置。
前記変換する手段は、グループにおけるそれぞれの符号化ブロックのうちの少なくとも１つの動きベクトルを平均することで、少なくとも部分的に共通のビデオ符号化パラメータを決定するために作用する、
請求項１３記載のコンテンツ分析装置。
前記コンテンツ分析を実行するために作用する手段は、前記第二のビデオ符号化フォーマットにより許容されるビデオ符号化パラメータのみに基づいてコンテンツ分析を実行するために作用する、
請求項１記載のコンテンツ分析装置。
前記コンテンツ分析を実行するために作用する手段は、前記第一のビデオ符号化データのビデオ符号化パラメータに応答してコンテンツ分析を実行するために更に作用する、
請求項１記載のコンテンツ分析装置。
第一のビデオ符号化フォーマットに従って符号化された第一のビデオ信号を受けるステップと、
前記第一のビデオ符号化フォーマットに従う第一のビデオ符号化データを前記第一のビデオ信号から抽出するステップと、
前記第一のビデオ符号化データを、第二のビデオ符号化フォーマットに従う第二のビデオ符号化データに変換するステップと、
前記第二のビデオ符号化データに応答してコンテンツ分析を実行するステップと、
を含むことを特徴とするコンテンツ分析方法。
請求項１７記載のコンテンツ分析方法を実行するのを可能にするコンピュータプログラム。
請求項１８記載のコンピュータプログラムを含む記録媒体。