JP2012523641A

JP2012523641A - ビデオコンテンツ解析のためのキーフレーム抽出

Info

Publication number: JP2012523641A
Application number: JP2012505283A
Authority: JP
Inventors: リンシャオ
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2009-04-14
Filing date: 2010-04-14
Publication date: 2012-10-04
Also published as: EP2419861A1; CN102395984A; RU2011146075A; US20120027295A1; WO2010119410A1

Abstract

ショットを構成するフレームのシーケンスからキーフレームを抽出する方法であって、各フレームは画素のマトリクスにより構成される方法は、該フレームのシーケンスの各フレームについて、該フレームから後続するフレームまで各画素の変位のマトリクスとして該後続するフレームに比べた該フレームのオプティカルフローを計算するステップ３と、該フレームの該オプティカルフローに基づいて動きエントロピー値を計算するステップ５と、を有し、該方法は更に、最大の動きエントロピー値を持つフレームのシーケンスのフレームをキーフレームとして選択するステップ７を有する。

Description

本発明は、ビデオ要約、閲覧、検索及び理解における、ショットを構成するフレームのシーケンスにおける、該ショットを表すためのキーフレームの抽出の分野に関する。

インターネット、モバイル装置及び広範囲のビデオアプリケーションにおいてディジタルビデオを保存及び視聴する人気の急速な上昇に伴い、ビデオデータの効果的な管理は、以前よりもかなり重要なものとなっている。

自動的なビデオ検索のためには、ビデオシーケンスを記述するキーワードを利用することが略不可能である。その理由は、手動による注釈付け（annotation）は膨大な人力を必要とし、利用されるキーワードも不正確で主観的なものとなってしまう傾向があることである。それ故、ビデオシーケンスに対して効率的なインデクシング、検索及び閲覧を提供することができる、コンテンツベースの手法が解決方法となろう。

ビデオデータを管理するための一般的な手法は、「ショット」と呼ばれる関連するフレームの群へと、ショットカット検出又は場面切り換え検出によってビデオをセグメント化することである。ショット境界を特定した後、各フレームの群（ＧｏＦ）又はビデオショットから、１つ以上のキーフレーム即ち代表フレームが抽出されることができる。このとき、これらキーフレームにおける可視のコンテンツが、インデクシング及び検索のためビデオショットを表わすために用いられる。

キーフレーム検出は、ビデオ解析及び管理における必須部分であり、ビデオのインデクシング、閲覧及び検索のための適切なビデオ要約を提供する。キーフレームの利用は、ビデオのインデクシングにおいて必要とされるデータの量を削減し、ビデオコンテンツを管理するための枠組みを提供する。

キーフレーム抽出は、場面レベルで為されても良いし、ショットレベルで為されても良い。通常は、ショットレベルでの解析が好適である。なぜなら、ビデオフレームのセットにおいて選択されるキーフレームの時間シーケンスを保存するからである。

現在のキーフレーム抽出手法は、以下の６つのクラスに分類できる：即ち、
ショット境界ベースの手法、可視コンテンツベースの手法、動き解析ベースの手法、ショットアクティビティベースの手法、教師なし分類ベースの手法、及びマクロブロックベースの手法、である。これらの方法は、それぞれ長所を持っている。

例えば、米国特許出願公開US2005/0002452は、輝度分布及び隣接フレームとの比較により定義されるエントロピー値に基づく、最小の動きアクティビティを持つフレームが選択される、キーフレーム抽出を開示している。

既知の抽出方法は、動作認識のために利用され得る複雑で高速に変化する動きを含むフレームを選択するには、十分に動作しないと考えられる。

ショットによって捕捉された動きを代表するキーフレームを抽出する方法を実現することが有利となる。

１つ以上のこれら事項に適切に対処するため、本発明の第１の態様においては、ショットを構成するフレームのシーケンスからキーフレームを抽出する方法であって、各前記フレームは画素のマトリクスにより構成される方法は、
前記フレームのシーケンスの各フレームについて、
前記フレームから後続するフレームまで各画素の変位のマトリクスとして前記後続するフレームに比べた前記フレームのオプティカルフローを計算するステップと、
前記フレームの前記オプティカルフローに基づいて動きエントロピー値を計算するステップと、
を有し、前記方法は更に、
最大の動きエントロピー値を持つフレームのシーケンスのフレームをキーフレームとして選択するステップ
を有する。

本方法は、複雑で高速に変化する動きを含むフレームを選択するために、特に利点を持つ。

特定の実施例においては、
前記各画素の変位は変位のモジュラス及び角度を持つベクトルとして定義され、変位のモジュラスと角度との組み合わせを表わす所定の数のビンにより動きヒストグラムが定義され、
最も高い頻度を持つビンが破棄され、
前記動きエントロピー値は、全てのビンの動きエントロピー値の合計であり、１つのビンの動きエントロピー値は、前記動きヒストグラムにおける前記ビンの出現の頻度に比例し、
前記ビンのエントロピー値は、前記ビンの出現の対数頻度の絶対値により重み付けされ、
各前記フレームの動きヒストグラムは、他のフレームの動きヒストグラムと比較され、前記フレームの前記動きエントロピー値を類似度として定義し、
所定の長さのフレームを持つ滑動するウィンドウにおいて最大動きエントロピー値を持つフレームのシーケンスのフレームを選択することにより、複数のキーフレームが抽出され、
前記各画素の変位は変位のモジュラス及び角度を持つベクトルとして定義され、変位のモジュラスと角度との組み合わせを表わす所定の数のビンにより動きヒストグラムが定義され、前記動きエントロピー値は全てのビンの動きエントロピー値の合計であり、１つのビンの動きエントロピー値は前記動きヒストグラムにおける前記ビンの出現の頻度に比例し、
前記方法は更に、各選択されたフレームについて、隣接するフレームの動きヒストグラムと比較し、前記比較の結果により各選択されたフレームの動きエントロピー値を重み付けするステップを有する。

本発明の第２の態様においては、記録媒体に保存され、命令のセットであってコンピュータが前記命令のセットを実行するときに前記コンピュータが以上に開示された方法を実行することを可能とする命令のセットを有する、コンピュータソフトウェアが提供される。

本発明の第３の態様においては、ショットを構成するフレームのシーケンスからキーフレームを抽出するための装置であって、各前記フレームは画素のマトリクスにより構成された装置は、
前記フレームから後続するフレームまで各画素の変位のマトリクスとして前記後続するフレームに比べたフレームのシーケンスの各フレームのオプティカルフローを計算するための、フレーム・オプティカルフロー算出器と、
前記フレーム・オプティカルフロー算出器の出力に基づく動きエントロピー値算出器と、
最大動きエントロピー値を持つフレームのシーケンスのフレームを選択するためのキーフレーム選択器と、
を有する。

画像のタイプに依存して、特定の実施例が、適合が容易であり又は好適な結果をもたらすため、好適となり得る。しかしながら、これら特定の実施例の態様は、適宜組み合わせられ又は変更されても良い。

本発明のこれらの及び他の態様は、以下に説明される実施例を参照しながら説明され明らかとなるであろう。

本発明の実施例による方法のフロー図である。フレームの動きヒストグラムである。最も多いカウントを持つビンのない図２のフレームの別の動きヒストグラムである。本発明の他の実施例による方法のフロー図である。本発明の実施例による装置の模式的な図である。

図１を参照すると、ショットを構成するフレームのシーケンスからキーフレームを抽出する方法であって、各前記フレームは画素のマトリクスにより構成される方法において、前記方法は、
前記フレームのシーケンスの各フレームについて（ステップ１）、
前記フレームから後続するフレームまで各画素の変位のマトリクスとして前記後続するフレームに比べたフレーム・オプティカルフロー（optical flow）を計算するステップ（ステップ３）と、
前記フレーム・オプティカルフローに基づいて動きエントロピー値を計算するステップ（ステップ５）と、
を有し、前記方法は更に、
最大の動きエントロピー値を持つフレームのシーケンスのフレームをキーフレームとして選択するステップ（ステップ７）
を有する。

オプティカルフローの計算を考慮すると、人間の行動は、観測者によって容易に認識され得る特徴的な動きパターンを生じることは、留意されるべきである。オプティカルフローは、人間の行動を認識するために適した動き記述子である。

第１のステップにおいて、該フレームの各画素の変位が、オプティカルフロー場として、後続するフレームとの比較により計算される。例えば、オプティカルフロー場のシーケンスが、Lucas-Kanadeアルゴリズムのような標準的な手法を用いて計算される。

従って、フレームｋについて、フレームｉとフレームｉ＋１との間のオプティカルフローＦ_ｋは、それぞれモジュラスＭ_ｉ（ｘ，ｙ）及び角度θ_ｉ（ｘ，ｙ）を持つ速度ベクトルＦ_ｉ（ｘ，ｙ）のマトリクスである。速度ベクトルＦ_ｉ（ｘ，ｙ）は、フレームｉからフレームｉ＋１までの画素（ｘ，ｙ）の変位を示す。

エントロピーは、データのセットの不純物度又は予測不可能さを表わす好適な方法である。なぜなら、エントロピーは測定が行われるコンテンツに依存するからである。

以上において定義されたオプティカルフローに基づいて、動きエントロピー値が計算される。

オプティカルフロー出力に基づく各速度ベクトルは、該ベクトルの大きさＭ_ｉ（ｘ，ｙ）及び向きθ_ｉ（ｘ，ｙ）により量子化される。動きヒストグラムは所定の数のビンとして定義され、ここで各ビンは大きさと向きとの組み合わせであり、大きさ及び向きの値のスペクトル全体がカバーされるようにされる。例えば、５個の大きさレベルと８個の向き角度を表わす４０本のヒストグラムビンが利用される。

或るフレームにおいてｋ番目のビンの出現の可能性は、

として与えられる。ここで、Ｍ及びＮはフレームのサイズであり、ｈはｋ番目のビンのカウントを示す。従ってＰ_ｆ（ｋ）は、画素の総数に対する、ビンｋに含まれる画素カウントの比である。

ここでＫｍａｘはヒストグラムにおけるビンの総数であり、本例においてはＫｍａｘ＝４０であり、全てのビン・エントロピーｅ_ｆ（ｋ）の合計は当該フレームにおける動きの総エントロピーである。従って、ビン・エントロピー値ｅ_ｆ（ｋ）は、該ビンの出現の対数確率の絶対値によって重み付けされた、該ビンの出現の確率である。対数確率は常に負であるため、エントロピーとして正の値を得るため絶対値がとられる。

直感的に、ピークを持つ動きヒストグラムは、あまり動き情報を含まず、従って低いエントロピー値をもたらし、平坦で分散したヒストグラムは、より多くの動き情報を含み、それ故高いエントロピー値をもたらす。

以上に開示されたエントロピー最大法は、どのフレームが最も複雑な動きを含むかについての情報を提供する。幾つかの状況においては、周囲のフレームに対して動きヒストグラムが高速に変化するフレームは、重要な情報を含む。それ故、フレーム間法又はヒストグラム交差法と呼ばれ、連続するフレームの動きの間の差を測定する、第２の実施例が開示される。

該手法は、２つのヒストグラム間の類似度を算出する。

フレームｉと隣接フレーム（先行又は後続するｘ個のフレーム）の動きヒストグラムはそれぞれＨ_ｆ（ｉ）及びＨ_ｆ（ｉ±ｘ）であり、それぞれがＫｍａｘ個のビンＨ_ｆ（ｉ，ｋ）及びＨ_ｆ（ｉ±ｘ，ｋ）を含む。２つのヒストグラムの交差ＨＩは、

として定義される。

分母は、ヒストグラム交差を正規化し、ヒストグラム交差の値を０と１との間にする。該値は実際には、隣接フレームにおいて同じ動きベクトルの対応する画素を持つ現在のフレームの画素の数に比例する。ＨＩ値が高いほど、２つのフレーム間の類似度が高いことを示す。

本方法においては、ＨＩが動きエントロピー値として利用され、最も高いＨＩを持つフレームがキーフレームとして選択される。

本方法は、開示された第１の方法に対する補助的な方法として利用され得る。なぜなら、２つのフレーム間の動きベクトル分布についての付加的な情報を提供するからである。

これら２つの方法の変形例においては、ビデオフレームは通常前景の動き（オブジェクト）と背景の動き（カメラ）との両方を持ち、背景の動きは通常動きヒストグラムにおいて一定であって支配的であることに留意されたい。

図２に示されるように、最も高いビンが背景の動きを示す。背景の動きは、該ヒストグラムから最も高いビンを単に除去することにより、取り除かれ得る。これにより、ビデオシーケンスの突出したオブジェクトを含む領域に焦点を合わせられる。図３は、背景の動きを取り除いた後の、図２の動きヒストグラムを示し、３９本のビンのみが残されている。背景の動きの除去の後、ヒストグラムは前景オブジェクトの動き分布のより好適な表現となる。背景の動きの除去は、キーフレーム抽出の性能を改善する。

動作認識のような特定の用途については、１つのキーフレームでは不十分となり、ショットを要約するためには複数のキーフレームが必要となり得る。それ故、ショット全体についてエントロピー関数の総最大値を見つける代わりに、局所最大値が探される。例えば、ｎ個のフレームの長さを持つ滑動するウィンドウにおける局所最大値が考慮される。勿論、局所最大値を見出すための、より高度な手法が利用されても良い。

局所最大法を用いることにより選択されたキーフレームは、ビデオ要約のような用途のために利用され得る。低いアクティビティのショットについては、単一のキーフレームで十分となり得るが、殆どの場合、ショットの内容を表わすためには複数のキーフレームが必要とされる。単一のキーフレームの代わりにキーフレームのセットを観測することにより、例えば動きの方向、背景の変化等のようなショットの外観の好適な理解が得られる。

キーフレームは、エントロピー最大アルゴリズム及びフレーム間アルゴリズムを組み合わせることにより得られても良い。組み合わせられたアルゴリズムは、最も複雑な動きを含むだけでなく、隣接するフレームと比べて突出した動き変化をも持つフレームを抽出する。
・エントロピー最大法を用いて局所最大値を選択することにより、初期フレームが選択される（図４、ステップ１０）。
・該選択された初期フレームに対してヒストグラム交差法が適用される（ステップ１２）。
・該選択された初期フレームのエントロピー値が、対応するヒストグラム交差値によって重み付けされる（ステップ１４）。
・該重み付けされたエントロピー曲線におけるピークを見出すことにより、最終的なキーフレームが抽出される（ステップ１６）。

開示された方法は、ショットを構成するフレームのシーケンスからキーフレームを抽出するための装置であって、
・前記フレームから後続するフレームまで各画素の変位のマトリクスとして前記後続するフレームに比べたショットの各フレームのオプティカルフローを計算するための、フレーム・オプティカルフロー算出器２０と、
・前記フレーム・オプティカルフロー算出器の出力に基づく動きエントロピー値算出器２２と、
・最大動きエントロピー値を持つショットのフレームを選択するためのキーフレーム選択器２４と、
を有する装置（図５）によって実装されても良い。

該装置は、解析されるべきショットを受信するための入力手段と、キーフレームを例えばビデオデータベースインデクスに送信するための出力手段と、を有しても良い。

本発明は図面及び以上の記述において説明され記載されたが、斯かる説明及び記載は説明するもの又は例示的なものであって限定的なものではないとみなされるべきであり、本発明は開示された実施例に限定されるものではない。

前記装置は、プログラム可能なコンピュータと、記録媒体に保存され、命令のセットであってコンピュータが当該命令のセットを実行するときに開示された方法を実行することを可能とする命令のセットを有するコンピュータソフトウェア製品とを用いて実装されても良い。しかしながら、特にビデオ処理により要求される各動作の高い並列性及び高いスループットのため、当業者は該システムを、ＦＰＧＡ（Field Programmable Gate Arrays）のような特定のハードウェアコンポーネントに有利に実装しても良く、又は何らかの特定のディジタル信号プロセッサを用いることにより実装しても良い。

図面、説明及び添付される請求項を読むことにより、請求される本発明を実施化する当業者によって、開示された実施例に対する他の変形が理解され実行され得る。請求項において、「有する（comprising）」なる語は他の要素を除外するものではなく、「１つの（a又はan）」なる不定冠詞は複数を除外するものではない。

Claims

ショットを構成するフレームのシーケンスからキーフレームを抽出する方法であって、各前記フレームは画素のマトリクスにより構成される方法において、前記方法は、
前記フレームのシーケンスの各フレームについて、
前記フレームから後続するフレームまで各画素の変位のマトリクスとして前記後続するフレームに比べた前記フレームのオプティカルフローを計算するステップと、
前記フレームの前記オプティカルフローに基づいて動きエントロピー値を計算するステップと、
を有し、前記方法は更に、
最大の動きエントロピー値を持つフレームのシーケンスのフレームをキーフレームとして選択するステップ
を有する方法。
前記各画素の変位は変位のモジュラス及び角度を持つベクトルとして定義され、変位のモジュラスと角度との組み合わせを表わす所定の数のビンにより動きヒストグラムが定義される、請求項１に記載の方法。
最も高い頻度を持つビンが破棄される、請求項２に記載の方法。
前記動きエントロピー値は、全てのビンの動きエントロピー値の合計であり、１つのビンの動きエントロピー値は、前記動きヒストグラムにおける前記ビンの出現の頻度に比例する、請求項２又は３に記載の方法。
前記ビンのエントロピー値は、前記ビンの出現の対数頻度の絶対値により重み付けされる、請求項４に記載の方法。
各前記フレームの動きヒストグラムは、他のフレームの動きヒストグラムと比較され、前記フレームの前記動きエントロピー値を類似度として定義する、請求項２又は３に記載の方法。
所定の長さのフレームを持つ滑動するウィンドウにおいて最大動きエントロピー値を持つフレームのシーケンスのフレームを選択することにより、複数のキーフレームが抽出される、請求項１に記載の方法。
前記各画素の変位は変位のモジュラス及び角度を持つベクトルとして定義され、変位のモジュラスと角度との組み合わせを表わす所定の数のビンにより動きヒストグラムが定義され、前記動きエントロピー値は全てのビンの動きエントロピー値の合計であり、１つのビンの動きエントロピー値は前記動きヒストグラムにおける前記ビンの出現の頻度に比例し、
前記方法は更に、各選択されたフレームについて、隣接するフレームの動きヒストグラムと比較し、前記比較の結果により各選択されたフレームの動きエントロピー値を重み付けするステップを有する、請求項７に記載の方法。
記録媒体に保存され、命令のセットであってコンピュータが前記命令のセットを実行するときに前記コンピュータが請求項１に記載の方法を実行することを可能とする命令のセットを有する、コンピュータソフトウェア。
ショットを構成するフレームのシーケンスからキーフレームを抽出するための装置であって、各前記フレームは画素のマトリクスにより構成された装置において、
前記フレームから後続するフレームまで各画素の変位のマトリクスとして前記後続するフレームに比べたフレームのシーケンスの各フレームのオプティカルフローを計算するための、フレーム・オプティカルフロー算出器と、
前記フレーム・オプティカルフロー算出器の出力に基づく動きエントロピー値算出器と、
最大動きエントロピー値を持つフレームのシーケンスのフレームを選択するためのキーフレーム選択器と、
を有する装置。