JP2005276220A

JP2005276220A - ビデオからのインテリジェントなキーフレーム抽出

Info

Publication number: JP2005276220A
Application number: JP2005085295A
Authority: JP
Inventors: Tong Zhang; トン・チャン
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2004-03-24
Filing date: 2005-03-24
Publication date: 2005-10-06
Also published as: EP1580757A3; EP1580757A2; US20050228849A1; KR20060044634A; TW200536389A

Abstract

【課題】ビデオクリップの内容の重要な描写を提供するキーフレームを抽出する方法及びシステムを提供する。
【解決手段】本発明では、ビデオ１２中の意味のある内容を検出するようにそれぞれ選択される集合をなす解析を各ビデオフレームに実施することによって前記ビデオ１２中の一連のビデオフレームの中から集合をなすキーフレーム候補１８を選択するステップと、前記キーフレーム候補を集合をなすクラスタにアレンジするステップと、各キーフレーム候補１８の相対的な重要度に応じて、各クラスタから前記キーフレーム候補の１つを選択するステップとを含む、ビデオから集合をなすキーフレームを抽出する方法が提供される。
【選択図】図１

Description

本発明は、ビデオクリップの内容の重要な描写を提供するキーフレームを抽出する方法及びシステムに関する。

ビデオは、画像シーンのビデオスナップショットをそれぞれ含む一連のビデオフレームを含むことができる。一連のビデオフレームを適切なフレームレートでディスプレイ上にレンダリングして、ビデオ再生を提供することができる。

ビデオシステムは、ビデオのビデオフレームのサブセットを抽出して、ビデオのキーフレームとして使用する機能を備えることができる。たとえば、ビデオから集合をなすキーフレームを抽出して、ビデオのストーリーボードを構築することができる。ストーリーボードは、抽出されたキーフレームを、見る側にビデオの内容の視覚的な目安（indication）を提供する一連のサムネイル画像としてレンダリングすることによって構築することができる。

ビデオからキーフレームを抽出する１つの従来の方法は、ビデオ中のショットの配置に基づく。ショットは、連続して取り込まれた一連のビデオフレームとして定義することができる。たとえば、専門的に生成されたビデオは、綿密に選択されたショットのセットにアレンジすることができる。このようなビデオのキーフレームは、ショットの境界を検出し、次いで検出された各ショットの集合をなすキーフレームを選択することによって抽出することができる。たとえば、キーフレームは序盤、中盤、および／または終盤のショットで選択することができる。

不都合なことに、ショット検出に基づくキーフレーム抽出方法は、短いビデオクリップやショットに綿密にアレンジされていないアマチュアビデオからのキーフレーム抽出に適さない場合がある。さらに、このような従来の方法によって選択されるキーフレームは、ビデオ中の内容のハイライトやビデオ中の重要であり得る内容を表さない場合がある。

ビデオの重要な内容を表すキーフレームをもたらす、ビデオからキーフレームをインテリジェントに抽出する方法を開示する。本技法による方法は、各ビデオフレームに対して解析のセットを行うことによってビデオ中の一連のビデオフレームの中から集合をなすキーフレーム候補を選択することを含む。各解析は、対応するタイプのビデオ中の重要な内容を検出するように選択される。次いで、キーフレーム候補は集合をなすクラスタにアレンジされ、次いで、ビデオ中の重要な内容を表すことに関しての相対的な重要度に応じて、各クラスタからキーフレームが選択される。

本技法は、ビデオクリップの内容の重要な描写を提供するキーフレームを抽出することにより、膨大なビデオクリップのコレクションの管理に使用することができる。本技法に従って抽出されるキーフレームは、ビデオ閲覧およびビデオプリントに使用することができる。

本発明の他の特徴および利点が以下の詳細な説明から明らかになろう。

本発明について、本発明の特定の例示的な実施形態を参照して説明し、それに沿って図面を参照する。

図１は、本教示によるビデオから集合をなすキーフレームを抽出する方法の実施形態を示す。ステップ３００において、集合をなすキーフレーム候補が、ビデオ中の一連のビデオフレームの中から選択される。キーフレーム候補は、各ビデオフレームに対して解析のセットを行うことによって選択される。各解析は、ビデオ中の重要な内容を検出するように選択される。重要な内容は、数例を挙げれば、ビデオ中のカメラの移動、ビデオ中のオブジェクトの移動、ビデオに含まれている人の顔の数、および／またはビデオ中のオーディオイベントを解析することによって検出することができる。

ステップ３０２において、ステップ３００からのキーフレーム候補は集合をなすクラスタにアレンジされる。クラスタの数は固定であっても、またはビデオの内容の複雑性に応じて可変であってもよい。

ステップ３０４において、各クラスタから、ビデオのキーフレームとしてキーフレーム候補の１つが選択される。キーフレーム候補は、各キーフレーム候補の相対的な重要度に応じて選択することができる。キーフレーム候補の相対的な重要度は、キーフレーム候補における重要な内容の全体レベルに基づくことができる。

図２は、本教示によるキーフレーム抽出システム１０の実施形態を示す。キーフレーム抽出システム１０は、ビデオ１２からキーフレーム３２のセットを抽出する。

キーフレーム抽出システム１０は、ビデオ１２中の一連のビデオフレームの各ビデオフレームを抽出し、抽出されたビデオフレームを集合をなすフレームアナライザ２０〜２４に供給するビデオフレームエクストラクタ１４を備える。各フレームアナライザ２０〜２４は、ビデオフレームエクストラクタ１４から供給されたビデオフレームに対して、対応する解析を行う。各解析は、ビデオ１２中の重要な内容を検出するように選択される。各フレームアナライザ２０〜２４は、ビデオ１２のビデオフレームからキーフレーム候補を選択する。フレームアナライザ２０〜２４によって選択されたキーフレーム候補は、キーフレーム候補１８のセットとして累積される。

キーフレーム抽出システム１０は、ビデオ１２中のオーディオイベントを検出するオーディオイベント検出器１６を備える。検出されたオーディオイベントに対応するビデオ１２のビデオフレームは、キーフレーム候補１８に含めるものとして選択される。

キーフレーム抽出システム１０は、各キーフレーム候補１８の相対的な重要度に基づいてキーフレーム候補１８の中からキーフレーム３２を選択するキーフレームセレクタ３０を備える。さらに、キーフレームセレクタ３０は、各キーフレーム候補１８の相対画質に基づいてキーフレーム候補１８の中からキーフレーム３２を選択する。

フレームアナライザ２０〜２４はカラーヒストグラムアナライザを含む。カラーヒストグラムアナライザは、ビデオ１２の各ビデオフレームのカラーヒストグラムを求める。ビデオ１２中のビデオフレームのカラーヒストグラムの差を用いて、ビデオの内容を差別化することができる。たとえば、カラーヒストグラムの差を用いて、ビデオ１２における大きなシーンの変化を検出することができる。カラーヒストグラムアナライザは、先行するビデオフレームと比較してカラーヒストグラムに相対的に大きな変化が検出される場合に、ビデオ１２中のビデオフレームをキーフレーム候補として選択する。カラーヒストグラムアナライザはビデオフレームのカラーヒストグラムを正規化して、ビデオ１２における照明の変化による影響を最小化する。

まず、カラーヒストグラムアナライザは、ビデオ１２の最初のビデオフレームをキーフレーム候補および基準フレームとして選択する。次いで、カラーヒストグラムアナライザは、カラーヒストグラムの差が所定のしきい値よりも高くなるまで、基準フレームのカラーヒストグラムをビデオ１２中の後続する各ビデオフレームのカラーヒストグラムと比較する。次いで、カラーヒストグラムアナライザは、所定のしきい値を越えるビデオフレームをキーフレーム候補および新しい基準フレームとして選択し、次いで、プロセスをビデオ１２中の残りのビデオフレームに対して繰り返す。

カラーヒストグラム差は以下のように計算することができる。ビデオフレームのカラーヒストグラムは、ビデオフレームの各ピクセルの赤、緑、および青の各成分の値を組み合わせて１つのカラーコードにすることによって計算することができる。カラーコードのビット深さは任意であることができる。たとえば、８ビットのカラーコードは０〜２５５の範囲を有し、緑に最上位４ビット、赤に最上位２ビット、および青に最上位２ビットを含むことができる。したがって、ビデオフレームのカラーヒストグラムＨ（ｋ）の値は、ｋに等しいカラーコードを有するビデオフレームのピクセルの総数に等しい。但し、ｋ＝０〜２５５である。

Ｈ_i（ｋ）およびＨ_j（ｋ）でｉ番目のビデオフレームおよびｊ番目のビデオフレームそれぞれのヒストグラム値を表し、ｋ＝０〜２５５とする。ｉ番目のビデオフレームとｊ番目のビデオフレームとの間のカラーヒストグラム差は以下のように計算される。

別法として、ｉ番目のビデオフレームとｊ番目のビデオフレームとの間のカラーヒストグラム差は以下のように計算されて、差をより強く反映させることができる。

照明の変化は２つの連続したビデオフレームのカラーヒストグラムをシフトさせる可能性があるため、輝度正規化を適用することができる。これにより、２つの同様のビデオフレームに、相対的に大きなカラーヒストグラム差を示させることができる。輝度正規化は、ビデオフレーム内のすべてのピクセルの輝度の和を正規化することによって行うことができる。正規化は、隣接するビデオフレームの間で相対的に大きなカラーヒストグラム差が検出される場合に行うことができる。後続するビデオフレームの輝度は、新しい基準フレームが選択されるまで、基準フレームの輝度の従って正規化することができる。

図３は、ビデオ１２中の一連のビデオフレーム例４０〜４７に対するカラーヒストグラムアナライザの動作を示す。ビデオフレーム４０はビデオ１２中の最初のビデオフレームであり、カラーヒストグラムアナライザにより最初のキーフレーム候補および最初の基準フレームとして選択される。

カラーヒストグラムアナライザは、ビデオフレーム４０のカラーヒストグラムおよびビデオフレーム４１のカラーヒストグラムを求め、ビデオフレーム４０および４１のカラーヒストグラム差を求める。ビデオフレーム４０および４１のカラーヒストグラム差は、所定のしきい値を越えない。カラーヒストグラムアナライザは、ビデオフレーム４２のカラーヒストグラム、およびビデオフレーム４０および４２のカラーヒストグラム差を求める。ここでも、ビデオフレーム４０および４２のカラーヒストグラム差は、所定のしきい値を越えない。カラーヒストグラムアナライザは、ビデオフレーム４３のカラーヒストグラム、およびビデオフレーム４０および４３のカラーヒストグラム差を求める。ビデオフレーム４０および４３のカラーヒストグラム差は所定のしきい値を越えるため、カラーヒストグラムアナライザはビデオフレーム４３を別のキーフレーム候補としておよび後続のビデオフレーム４４〜４７のカラーヒストグラムと比較する新しい基準フレームとして選択する。

後続のステップにおいて、カラーヒストグラムアナライザはビデオフレーム４７を次のキーフレーム候補として選択する。図３に示す矢印は、ビデオフレーム４０〜４７の間でのカラーヒストグラムの比較を示す。

フレームアナライザ２０〜２４は、ビデオ１２の各ビデオフレームのカラーレイアウトを求めるカラーレイアウトアナライザを含む。ビデオフレーム中のカラーレイアウトを使用して、ビデオフレームの内容を差別化することができる。たとえば、ビデオ１２のビデオフレームのカラーレイアウトの差を使用して、ビデオ１２中のオブジェクトの大きな変化を検出するとともに、ビデオ１２中のオブジェクトの移動を検出することができる。

図４は、オブジェクト５４を含むビデオ１２中の一連のビデオフレーム例５０〜５２を示す。オブジェクト５４は、各後続ビデオフレーム５０〜５２内で位置を変える。オブジェクト５４の位置変化は、ビデオフレーム５０〜５２のカラーレイアウトの変化によって示される。たとえば、オブジェクト５４のカラーコンテンツは、ビデオフレーム５０のサブブロック５５に大部分含まれ、次いで、ビデオフレーム５１のサブブロック５６に大部分移動し、次いでビデオフレーム５２のサブブロック５７に大部分移動する。

カラーレイアウトアナライザは、ビデオ１２中の先行ビデオフレームと比較してカラーレイアウトに相対的に大きな変化が検出される場合、そのビデオフレームをキーフレーム候補として選択する。最初に、カラーレイアウトアナライザは、ビデオ１２中の最初のビデオフレームをキーフレーム候補および基準フレームとして選択する。次いで、カラーレイアウトアナライザは、差が所定のしきい値よりも高くなるまで、基準フレームのカラーレイアウトをビデオ１２中の各後続ビデオフレームのカラーレイアウトと比較する。カラーレイアウトアナライザは、所定のしきい値を越えるカラーレイアウト差を有するビデオフレームを新しいキーフレーム候補および新しい基準フレームとして選択し、次いで、ビデオ１２中の残りのビデオフレームに対してプロセスを繰り返す。

カラーレイアウト差は、ビデオフレームを複数のサブブロックに分割することによって計算することができる。たとえば、ビデオフレームの幅がＷＩＤＴＨであり、ビデオフレームの高さがＨＥＩＧＨＴであり、ビデオフレームがＮ×Ｎサブブロックに分割される場合、各サブブロックの幅はＷＩＤＴＨ／Ｎであり、各サブブロックの高さはＨＥＩＧＨＴ／Ｎである。次いで、サブブロック全体にわたって赤、緑、および青の各成分を平均することにより、各サブブロックの平均カラーを計算することができる。

２つのビデオフレーム間のカラーレイアウト差は、２つのビデオフレーム中の対応するサブブロックの各対の平均カラーの差を計算することにより、すなわち各色成分の絶対差の平均を計算することにより、計算することができる。次いで、最大差の値を有するＭ個のサブブロックがＮ×Ｎサブブロックの中から選択される。Ｍ個の差の値の平均が計算され、これが２つのビデオフレームのカラーレイアウト差を表す。

別法として、カラーレイアウトを計算する他の方法、たとえば、ＭＰＥＧ−７規格において規定される方法を採用することもできる。

カラーレイアウトアナライザおよびカラーヒストグラムアナライザは、カラーレイアウトおよび／またはカラーヒストグラムに関して実質的に異なるキーフレーム候補をもたらす。カラーレイアウトおよび／またはカラーヒストグラムが実質的に異なるキーフレーム候補により、選択キーフレームの重複を回避しながら、ビデオ１２において異なるビューのシーンを示すキーフレームの選択が可能になる。

フレームアナライザ２０〜２４は、高速カメラ移動検出器を含む。高速カメラ移動検出器は、ビデオ１２中の複数の連続したビデオフレームにわたる隣接ビデオフレームのカラーレイアウトまたはカラーヒストグラムの相対的に大きな差を検出することにより、ビデオ１２を取り込んだカメラの高速移動を検出することができる。高速カメラ移動の期間に対応するビデオ１２中のビデオフレームは、高速移動はぶれた画像になりがちであることからキーフレーム候補１８に選択されない。代わりに、高速カメラ移動検出器は、高速カメラ移動が止まり、カメラが安定化した直後にキーフレーム候補を選択する。

フレームアナライザ２０〜２４はカメラ移動トラッカを含む。カメラ移動トラッカは、ビデオ１２を取り込んだカメラの移動をトラッキングすることにより、ビデオ１２の内容のハイライトを検出する。カメラ移動トラッカは、ビデオ１２の一連のビデオフレームの間の相対移動を解析することにより、ビデオ１２中のカメラ移動を検出する。カメラ移動トラッカは、ＭＰＥＧ符号化に関連するもの等のブロックベースの移動解析を使用して、ビデオ１２中のビデオフレームの間の相対移動を求めることができる。

図５ａ〜図５ｃは、カメラ移動トラッカが、ビデオ１２中の隣接するビデオフレーム６０〜６２の対の間での相対移動を求めるために採用することができる一方法を示す。カメラ移動トラッカは、ビデオフレーム６０および６２のピクセルの内容を比較し、ビデオフレーム６０のブロック７０がビデオフレーム６２中のブロック７２と実質的に同様であると判断する。たとえば、カメラ移動トラッカは、ブロック７０および７２中のピクセルデータ値に基づいてブロック７０および７２の間の相関メトリックを求めて、類似度を求めることができる。カメラ移動トラッカは、基準フレームとしてのビデオフレーム６０に基づいて、ブロック７０および７２の間の空間関係を示す動きベクトル７４を生成する。カメラ移動トラッカは、ビデオフレーム６０〜６２の動きベクトルのセットを生成し、各動きベクトルは基準ビデオフレーム６０のブロックに対応する。カメラ移動トラッカは、ビデオ１２中の隣接するビデオフレーム対の動きベクトルの配置を調べて、移動を検出する。

カメラ移動トラッカは、相対的に一貫した方向および均一の大きさを示す方向および大きさを有する隣接ビデオフレームの動きベクトルの配置を検出することにより、パン移動を検出することができる。カメラ移動トラッカは、ビデオフレームの中心から離れて指す隣接ビデオフレームの動きベクトルの配置を検出することによってズームイン移動を検出することができる。カメラ移動トラッカは、ビデオフレームの中心を指す隣接ビデオフレームの動きベクトルの配置を検出することによってズームアウト移動を検出することができる。カメラ移動トラッカは、隣接ビデオフレーム中の略ゼロの動きベクトルの配置を検出することによってフォーカス期間を検出することができる。カメラ移動トラッカは、相対的に大きな大きさおよび均一の方向を有する隣接ビデオフレームの動きベクトルを検出することにより、高速パン移動期間またはカメラ傾斜移動期間を検出することができる。

カメラ移動トラッカは、カメラ移動ルールのセットを使用してキーフレーム候補を選択する。１つのカメラ移動ルールは、パン移動期間またはズーム移動期間後のカメラフォーカスに関わる。カメラ移動トラッカが、パン移動期間またはズーム移動期間後にカメラがフォーカスする時間期間を検出する場合、フォーカス期間の開始直後のキーフレーム候補が選択される。フォーカス期間がビデオ１２中の興味を持つシーンまたはオブジェクトに対応し得る。

別のカメラ移動ルールは、ビデオ１２の開始時の比較的長期間のフォーカス後のパン移動に関わる。カメラ移動トラッカが、ビデオ１２の開始時の比較的長期間のフォーカス後のパン移動を検出する場合、キーフレーム候補がパン移動の開始時に選択される。パン移動の開始は、ビデオ１２中の来るべきハイライトの兆候であり得る。

別のカメラ移動ルールは、ビデオ１２中の高速カメラ移動に関わる。カメラ移動トラッカがビデオ１２中の高速カメラ移動を検出する場合、高速カメラ移動期間中にキーフレーム候補は選択されない。高速カメラ移動期間は、ビデオ１２を取り込んだカメラの操作者にとって興味のないビデオ１２中の内容を示し得る。

フレームアナライザ２０〜２４はオブジェクト移動アナライザを含む。オブジェクト移動アナライザは、ビデオフレーム中の小格子カラーレイアウトを比較することにより、ビデオ１２中の移動中オブジェクトの軌跡を調べる。オブジェクト移動アナライザは、新しいオブジェクトが現われたとき、またはオブジェクトの移動がオブジェクトサイズまたはビデオフレーム内のオブジェクト位置に関して大幅に変化したときにキーフレーム候補を選択する。オブジェクト移動アナライザは、ビデオフレームの中央付近に移動中のオブジェクトがあるビデオフレームを優先的に選択する。

図６は、移動中オブジェクト１１４を取り込むビデオ１２中の隣接ビデオフレーム１１０〜１１２の対を示す。オブジェクト移動アナライザは、移動中オブジェクト１１４がビデオフレーム１１２内でかなりのサイズを有し、ビデオフレーム１１２の中心付近にあるため、ビデオフレーム１１２をキーフレーム候補として選択する。

オブジェクト移動アナライザは、移動中オブジェクトに関する観察のセットに基づいて移動中オブジェクト１１４を検出する。１つの観察は、ビデオ１２中の前景の移動がビデオ１２中の背景の移動と実質的に異なることである。別の観察は、ビデオ１２を取り込んだ撮影者が、中間サイズまたはより大きな移動中オブジェクトの取り込みに興味を持ち、また興味を持つ移動中オブジェクトをカメラビューファインダの中心付近に保つことに興味を持っていたことである。別の観察は、カメラ操作者が一度に１つの支配的な移動中オブジェクトに興味を持つ傾向が高かったことである。

図７ａおよび図７ｂは、オブジェクト移動アナライザにより行われる、ビデオ１２中のビデオフレーム１２６中の移動中オブジェクトを検出する方法を示す。オブジェクト移動アナライザはまず、ビデオフレーム１２６に対してカメラ移動推定１２０を行う。次いで、オブジェクト移動アナライザは、ビデオフレーム１２６のカメラ移動推定に応じて、残差誤差計算を行うことによって残差画像１３０を生成する。次いで、オブジェクト移動アナライザは、フィルタリング１２４を残差画像１３０に施す。フィルタリング１２４は、一連のフィルタ１４０〜１４３を含む。図７ｂは、残差画像１３０から導出されるフィルタリング後の残差画像１６０を示す。

次いで、オブジェクト移動アナライザは、ブロック１７０の連結性に基づいて、フィルタリング後の残差画像１６０中のブロック１７０のセットをクラスタ化する。オブジェクト移動アナライザは、図７ｂに示すように、ビデオフレーム１２６の中央付近の最大クラスタであるブロック１８０のクラスタを保持し、残りのブロック１７０を除去する。次いで、オブジェクト移動アナライザは、図７ｂに示すように、ビデオフレーム１２６中の検出された移動中オブジェクトの位置を表す、ブロック１８０の枠１６２を求める。

枠１６２中の移動中オブジェクトが検出されると、オブジェクト移動アナライザは、ビデオフレーム１２６に続くビデオ１２の複数のビデオフレームを通してその移動中オブジェクトをトラッキングする。オブジェクト移動アナライザは、連続したビデオフレームにおけるオブジェクトの移動をトラッキングする様々な既知の方法のいずれかを使用してオブジェクトをトラッキングすることができる。

フレームアナライザ２０〜２４は人面検出器を含む。人面検出器は、人の顔を含むビデオフレームは、人の顔を含まないビデオフレームよりもビデオ１２を見る側にとって興味がある傾向があると仮定することができるため、ビデオ１２のビデオフレームの中から人の顔を含むキーフレーム候補を選択する。人面検出器はまた、検出されたいずれの人の顔のサイズおよびフレーム位置も記録する。人面検出器は、パターンマッチング、たとえば人の顔の特徴の配置のマッチングに基づく方法を含め、人面検出器の既知のいずれの方法も採用することができる。

オーディオイベント検出器１６は、ハイライトを示し得るビデオ１２のサウンドトラックにおけるオーディオイベントを検出する。オーディオイベントの例としては、拍手、叫び声、喝采、無音期間後の高レベルのノイズの開始が挙げられる。オーディオイベント検出器１６は、キーフレーム候補１８に含めるオーディオイベントの開始に対応するビデオ１２中のビデオフレームを選択する。オーディオイベント検出器１６は、所定の集合をなすオーディオイベントのオーディオエネルギーの統計モデルを採用し、次いでビデオ１２中の各ビデオフレームのオーディオエネルギーを統計モデルとマッチングすることができる。

図８ａは、オーディオイベント例２２０のオーディオスペクトルである。オーディオイベント例２２０は、比較的高いレベルの、高速変化するピッチを特徴とする叫び声の音である。オーディオイベント検出器１６は、オーディオ信号の周波数領域における叫び声のピッチ、すなわち基本周波数、および部分音、すなわち基本周波数の整数倍を求めてビデオ１２のサウンドトラックを探索し、キーフレーム候補は叫び声のポイントにおいて選択される。

図８ｂは、比較的長期間の無音後のノイズまたはスピーチの期間であるオーディオイベント例２２２のオーディオ信号波形である。オーディオイベント検出器１６は、オーディオ信号のエネルギーレベルをトラッキングし、比較的長期間の無音後のノイズまたはスピーチの期間の開始に対応するポイント２２２においてキーフレーム候補を選択する。

図９は、キーフレーム候補１８の中からキーフレーム３２を選択する、キーフレームセレクタ３０によって採用される方法の実施形態を示す。ステップ２００において、キーフレームセレクタ３０は、各キーフレーム候補１８の特徴に基づいてキーフレーム候補１８をクラスタ化する。一実施形態では、キーフレームセレクタ３０は、各キーフレーム候補１８のカラーヒストグラムに応じてキーフレーム候補１８をクラスタ化する。他の実施形態では、キーフレーム候補１８の他の特徴を、ステップ２００におけるクラスタ化のベースとして使用することができる。

キーフレームセレクタ３０は、ステップ２００において、キーフレーム候補１８を固定数Ｎ個のクラスタにクラスタ化することができる。たとえば、４つのキーフレームを選択すべき実施形態では、キーフレームセレクタ３０はキーフレーム候補１８を４つのクラスタにクラスタ化する。キーフレームの数は、特定の用途、たとえば、ビデオポストカード、ビデオストーリーブック、カメラまたはプリンタのＬＣＤディスプレイ等に適した数に制限することができる。最初に、キーフレームセレクタ３０は、キーフレーム候補１８の中の第Ｎのキーフレーム候補１８を各クラスタ１〜Ｎにランダムに割り当てる。これらキーフレーム候補のカラーヒストグラムが、各クラスタ１〜Ｎの初期重心を提供する。次いで、キーフレームセレクタ３０は、残りのキーフレーム候補１８のカラーヒストグラムをクラスタ１〜Ｎの重心と繰り返し比較し、重心との最良マッチングに基づいてキーフレーム候補１８をクラスタ１〜Ｎに割り当て、それに従ってクラスタ１〜Ｎの重心を更新する。

キーフレームセレクタ３０は、ステップ２００において、キーフレーム候補１８を可変数ｎのクラスタにクラスタ化することができる。ｎの値は、ビデオ１２の内容の複雑性に従って可変である。たとえば、キーフレームセレクタ３０は、ビデオ１２の内容がより多様であることに応じて、より大きな数のクラスタを採用することができる。これを使用して、たとえば、ビデオコレクションの閲覧に使用されるより多くのキーフレーム３２をもたらすことができる。最初に、キーフレームセレクタ３０は、キーフレーム候補１８の中の第１のキーフレーム候補１８をクラスタ１に割り当て、第１のキーフレーム候補１８のカラーヒストグラムをクラスタ１の重心として使用する。次いで、キーフレームセレクタ３０は、キーフレーム候補１８の中の第２のキーフレーム候補１８のカラーヒストグラムをクラスタ１の重心と比較する。クラスタ１の重心との差が所定のしきい値未満の場合、第２のキーフレーム候補はクラスタ１に割り当てられ、クラスタ１の重心は、第２のキーフレーム候補１８のカラーヒストグラムで更新される。第２のキーフレーム候補１８のカラーヒストグラムが所定のしきい値を超える量分、クラスタ１の重心と異なる場合、第２のキーフレーム候補はクラスタ２に割り当てられ、その第２のキーフレーム候補のカラーヒストグラムがクラスタ２の重心として機能する。このプロセスは、残りのキーフレーム候補１８に対して繰り返される。

ステップ２０２において、キーフレームセレクタ３０は、各キーフレーム候補１８の重要度スコアを求める。キーフレーム候補の重要度スコアは、キーフレーム候補の特徴のセットに基づく。

キーフレーム候補の重要度スコアを求めるために使用される１つの特徴は、キーフレーム候補がカメラ移動トラッカのカメラ移動ルールの１つを満たしているか否かである。キーフレーム候補がカメラ移動ルールの１つを満たす場合、キーフレームセレクタ３０はキーフレーム候補に重要度ポイント１の評価を与える。

キーフレーム候補の重要度スコアを求めるために使用される別の特徴は、キーフレーム候補に含まれ得る任意の人の顔に基づく。この特徴に関連する要素としては、キーフレーム候補中の人の顔の数、キーフレーム候補中の人の顔のサイズ、およびキーフレーム候補内の人の顔の位置が挙げられる。キーフレームセレクタ３０は、キーフレーム候補の所定のエリア範囲、たとえば中央エリアに含まれ、かつ所定のサイズよりも大きい人の顔の数（Ｆ）をカウントし、キーフレーム候補に重要度ポイントＦの評価を与える。

キーフレーム候補の重要度スコアを求めるために使用される別の特徴は、キーフレーム候補中の移動中オブジェクトに基づく。キーフレームセレクタ３０は、キーフレーム候補が、所定のサイズ範囲内のサイズを有する移動中オブジェクトを含む場合、キーフレーム候補に重要度ポイントＭの評価を与える。数Ｍは、フレームの中央に対するキーフレーム候補中の移動中オブジェクトの位置によって求められる。数Ｍは、移動中オブジェクトがキーフレーム候補の予め画定された中央エリア範囲にある場合、３に等しい。数Ｍは、移動中オブジェクトがキーフレーム候補の予め画定された第２レベルのエリア範囲にある場合、２に等しい。数Ｍは、移動中オブジェクトがキーフレーム候補の予め画定された第３レベルのエリア範囲にある場合、１に等しい。

キーフレーム候補の重要度スコアを求めるために使用される別の特徴は、キーフレーム候補に関連するオーディオイベントに基づく。キーフレーム候補がオーディオイベント検出器１６によって検出されたオーディオイベントに関連する場合、キーフレームセレクタ３０は、キーフレーム候補に重要度ポイント１の評価を与える。

キーフレームセレクタ３０は、対応する重要度ポイントを集計することによって各キーフレーム候補１８の重要度スコアを求める。

ステップ２０４において、キーフレームセレクタ３０は、各キーフレーム候補１８の画質スコアを求める。キーフレーム候補の画質スコアは、キーフレーム候補の鮮鋭度、キーフレーム候補の輝度、または鮮鋭度と輝度の組み合わせに基づくことができる。キーフレームセレクタ３０は、各キーフレーム候補１８の画質スコアを求める際に、ビデオフレームの鮮鋭度および輝度を求める既知の方法を行うことができる。

ステップ２０６において、キーフレームセレクタ３０は、キーフレーム候補１８の各クラスタから１つのキーフレーム候補を選択することによってキーフレーム３２を選択する。キーフレームセレクタ３０は、最高重要度スコアを有し、かつ所定のしきい値を越える画質スコアを有するクラスタ中のキーフレーム候補を選択する。たとえば、キーフレームセレクタ３０は最初に、最高重要度スコアを有するクラスタ中のキーフレーム候補を選択し、そのキーフレーム候補の画質スコアが所定のしきい値未満の場合、次に最も高い重要度スコアを有するクラスタ中のキーフレーム候補を選択し、画質スコアしきい値が満たされるまで以下同様である。２つ以上のキーフレーム候補が最高重要度スコアを有する場合、クラスタの重心に最も近いものが選択される。

キーフレーム抽出システム１０では、ビデオ１２のキーフレームの半自動ユーザ選択が可能である。たとえば、キーフレーム３２を初期セットとして使用することができる。初期セットに基づいて、ユーザは、初期セット中の各キーフレームの先行フレームおよび後続フレームの閲覧を選択して、プリント、または友人に電子メール送信等すべき的確なフレームを見つけることができる。別の例では、キーフレームセレクタ３０は、各クラスタにＸ個のキーフレーム候補、たとえば、最高重要度スコアのＸ個のキーフレーム候補を選択することができる。キーフレーム抽出システム１０は、ディスプレイおよびユーザインタフェース機構を備えることができる。各クラスタのＸ個のキーフレーム候補をディスプレイ上にレンダリングすることができ、ユーザは、ユーザインタフェース機構を介して最も魅力のあるキーフレーム候補を選択することができる。

本技法は、ビデオクリップのコレクション、たとえば、デジタルカメラを使用して取り込まれた短いビデオクリップのコレクション、ならびにカムコーダを使用して取り込まれたビデオ記録中の未編集のロングショットの管理に使用することができる。ビデオクリップから抽出されたキーフレームは、ビデオプリントおよび／またはビデオ閲覧、およびたとえば電子メール、携帯電話ディスプレイ等を通してのビデオ通信に使用することができる。キーフレームを抽出する上記方法は、ビデオクリップのハイライトを示し、見る側にとって重要であり得るビデオクリップの内容を示すことができるキーフレームをもたらす。フレームアナライザ２０〜２４によって行われる複数のタイプの内容解析により、ビデオクリップの内容のわかりのよい表現を提供するキーフレームの抽出が可能である。抽出されたキーフレームは、ビデオクリップのサムネイル表現、ビデオクリップのプレビュー、ならびにビデオデータのカテゴリ化および検索に使用することができる。抽出されたキーフレームは、ストーリーブック、ポストカードのプリント等に使用することができる。

本発明の上記詳細な説明は、例示を目的として提供され、網羅的である、すなわち本発明を開示された厳密な実施形態に限定することを意図するものではない。したがって、本発明の範囲は添付の特許請求の範囲によって規定される。

本教示によるビデオから集合をなすキーフレームを抽出する方法の実施形態を示す。本教示によるキーフレーム抽出システムの実施形態を示す。ビデオ中の一連のビデオフレーム例に対するカラーヒストグラムアナライザの動作を示す。オブジェクトを含むビデオ中の一連のビデオフレーム例を示す。隣接するビデオフレーム対の中の相対移動を求める一方法を示す。隣接するビデオフレーム対の中の相対移動を求める一方法を示す。隣接するビデオフレーム対の中の相対移動を求める一方法を示す。移動中オブジェクトを取り込むビデオ中の隣接するビデオフレーム対を示す。ビデオフレーム中の移動中オブジェクトを検出する方法を示す。ビデオフレーム中の移動中オブジェクトを検出する方法を示す。キーフレーム候補の選択に使用することができるオーディオイベント例を示す。キーフレーム候補の選択に使用することができるオーディオイベント例を示す。集合をなすキーフレーム候補の中から集合をなすキーフレームを選択する方法の実施形態を示す。

Claims

ビデオ中の意味のある内容を検出するようにそれぞれ選択される集合をなす解析を各ビデオフレームに実施することによって前記ビデオ中の一連のビデオフレームの中から集合をなすキーフレーム候補を選択するステップと、
前記キーフレーム候補を集合をなすクラスタにアレンジするステップと、
各キーフレーム候補の相対的な重要度に応じて、各クラスタから前記キーフレーム候補の１つを選択するステップと
を含むビデオから集合をなすキーフレームを抽出する方法。
ある集合をなすキーフレーム候補を選択する前記ステップは、前記ビデオ中のカメラの移動に応じて集合をなすキーフレーム候補を選択するステップを含む、請求項１に記載のビデオから集合をなすキーフレームを抽出する方法。
集合をなすキーフレーム候補を選択する前記ステップは、前記ビデオ中の物体の移動に応じて集合をなすキーフレーム候補を選択するステップを含む、請求項１に記載のビデオから集合をなすキーフレームを抽出する方法。
集合をなすキーフレーム候補を選択する前記ステップは、前記ビデオ中の高速なカメラの移動に応じて集合をなすキーフレーム候補を選択するステップを含む、請求項１に記載のビデオから集合をなすキーフレームを抽出する方法。
集合をなすキーフレーム候補を選択する前記ステップは、前記ビデオ中の人の顔の数に応じて集合をなすキーフレーム候補を選択するステップを含む、請求項１に記載のビデオから集合をなすキーフレームを抽出する方法。
前記ビデオ中のオーディオイベントに応じて、ある集合をなすキーフレーム候補を選択する前記ステップをさらに含む、請求項１に記載のビデオからある集合をなすキーフレームを抽出する方法。
ビデオ中の一連のビデオフレームの中から集合をなすキーフレーム候補をそれぞれ選択する、前記ビデオ中の重要な内容を検出する集合をなすフレームアナライザと、
前記キーフレーム候補を集合をなすクラスタにアレンジし、各キーフレーム候補の相対的な重要度に応じて、前記ビデオのキーフレームとして各クラスタから前記キーフレーム候補の１つを選択するキーフレームセレクタと
を備えるキーフレーム抽出システム。
前記ビデオ中の集合をなすオーディオイベントを検出することによって集合をなすキーフレーム候補を選択するオーディオイベント検出器をさらに備える、請求項７に記載のキーフレーム抽出システム。
前記フレームアナライザはカラーヒストグラムアナライザを含む、請求項７に記載のキーフレーム抽出システム。
前記フレームアナライザはカラーレイアウトアナライザを含む、請求項７に記載のキーフレーム抽出システム。