JP2009528756A

JP2009528756A - 複数の画像の要約の自動生成のための方法及び装置

Info

Publication number: JP2009528756A
Application number: JP2008556901A
Authority: JP
Inventors: マウロバルビーリ; ラリザアグニホトリ; ネヴェンカディミットローヴァ
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2006-03-03
Filing date: 2007-02-27
Publication date: 2009-08-06
Also published as: US8204317B2; CN101395607B; US20090041356A1; WO2007099496A1; RU2008139306A; EP1999646A1; CN101395607A; BRPI0708456A2; RU2440606C2; KR20080114786A

Abstract

例えばビデオシーケンスのような、複数の画像の要約を提供するための方法及び装置。本方法は、ビデオシーケンスを複数のセグメントに分割するステップを含む。該セグメントは、内容に関して解析され、コンテンツ記述子のセットが該セグメントに関連付けられる。好適には、脚本等のような、該セグメントについての付加的なテキスト情報が、該コンテンツ記述子を決定するために利用される。セグメント間の関係を表すグラフが構築され、セグメント間の関係を示す。セグメント間の例えば論理的な相関のような関係の度合いを表すため、該関係に重みが割り当てられる。該重みは、算出されたコンテンツ記述子に基づく。前記セグメントに対する関係に関連する全ての重みに基づいて、セグメントについての重要度が決定される。最後に、最も重要な幾つかのセグメントを選択することにより、要約が生成される。本方法は、元の再生速度が維持されつつ、元の全ての論理的な筋を維持しながらも所要時間がより短い（例えば元の映画の７０％）、映画の自動的な要約を生成することができる。

Description

本発明は、例えばビデオシーケンスのような複数の画像の内容要約を抽出する分野に関する。更に詳細には、本発明は、ストーリー又は論理的な筋が維持される、複数の画像の要約の自動生成のための方法及び装置を提供する。

家庭用ビデオのコレクション及び生成されたビデオアーカイブ又は写真アーカイブの閲覧及び検索において、ユーザの時間を節約し優れた制御及び概観を提供する要約が、非常に必須なツールとなっている。コンテンツの視覚的なテーブル、スキミング及びマルチメディア要約といった、種々のタイプの要約方法が文献上で提案されてきた。また、ニュース、音楽ビデオ及びスポーツのための構造化されたビデオ要約のような、種々の分野が考察されてきた。

ユーザは、論理的な筋を理解しつつ、元の所要時間よりも短い時間で映画を鑑賞したいと欲し得る。即ち、映画の全体のストーリーが維持される、という要件である。鑑賞のペースを１．５乃至２倍に速めることが可能な早送り及びオーディオ圧縮のためのアルゴリズムが提案されてきた。１つの可能性は再生速度を増大させることであるが、高速再生は、鑑賞者に非常に高い注意レベルを要求し、奇妙で理解不能なものともなり得る。

かくして、依然として目標は、映画、ドキュメンタリ及び家庭用ビデオのようなビデオシーケンスの物語内容を要約するための方法を含む、物語ビデオ要約である。映画のような物語マルチメディアコンテンツのための要約は活発な研究テーマであるが、通常の目的は、元の映画のストーリーについての全ての情報を伝達するわけではない、プレビューを生成することである。

国際特許出願公開WO03/090444は、ビデオシーケンスからビデオフレームのサブシーケンスを選択するための方法を開示している。２つのビデオフレームに関する互いに対する距離関数が、ビデオフレームのシーケンスにおいて定義される（例えば、フレームのＲＧＢヒストグラム間の距離）。ビデオフレームのシーケンスから選択されたビデオフレームの複数のサブシーケンスの特徴を表現するための、最適化基準が定義される。ビデオフレームのシーケンスは次いで、全てのサブシーケンスに対して定義された最適化基準関数（例えばエネルギー関数）の値を最適化することによって決定される。国際特許出願公開WO03/090444においては、フレームに関する互いに対する距離関数は、フレーム間の視覚的な距離に基づく。かくして、フレームの選択されたサブシーケンスは、ビジュアルコンテンツに対して最も異なるフレームであるキーフレームのセットであり、従って或る意味において該ビデオシーケンスを代表するものである。しかしながら、２つのフレームは視覚的な距離によってのみ相互に関連付けられるため、選択されたサブシーケンスは必ずしもストーリーを反映する要約を表すものとはならず、ビデオシーケンスの真の意味を表すものとならない。

それ故目的は、例えばビデオシーケンスのような複数の画像の論理的な筋を反映し、且つ依然として元のビデオシーケンスと同じ再生速度を持つ要約シーケンスを提供することが可能な要約方法及びシステムを提供することにある。

該目的及び他の幾つかの目的は、複数の画像の要約を提供する方法であって、
（ａ）前記複数の画像を、それぞれが少なくとも１つの画像を有する複数のセグメントに分割するステップと、
（ｂ）各前記セグメントを内容に関して解析し、前記セグメントの前記解析に起因するコンテンツ記述子のセットを関連付けるステップと、
（ｃ）前記コンテンツ記述子に基づいて前記セグメント間の関係を確立するステップであって、第１のセグメントと第２のセグメントとの間の各関係は該関係に関連付けられた１つ以上の重みを持ち、前記１つ以上の重みは、前記第１のセグメントと前記第２のセグメントとの間の関係の度合いを表すステップと、
（ｄ）前記セグメントに対する関係に関連付けられた重みに基づき、各前記セグメントについて重要度を決定するステップと、
（ｅ）前記セグメントに関連付けられた重要度パラメータに基づき、前記複数のセグメントからセグメントのサブセットを選択することにより、要約を生成するステップと、
を有する方法を提供することにより、本発明の第１の態様において達成される。

「複数の画像」とは、写真のアーカイブ又は画像フレームから成るビデオシーケンスのような、画像のセットとして理解される。「関連度」とは、２つのセグメント間の関連の度合いを表す尺度として理解される。例えば、「関連度」は、セグメント間の論理相関を表す尺度であっても良いし、又は単に特定のコンテンツ記述子に対して当該セグメントがどれだけ類似しているかの尺度であっても良い。

本発明はとりわけ（限定するものではないが）、映画又は家庭用ビデオ等の要約を自動的に生成するために有利である。好適な実施例においては、元の入力ビデオシーケンスの骨子を含む要約を自動的に生成することが可能であり、該要約は元のビデオシーケンスから選択されたセグメント又は場面から生成されるため、該要約は自然な再生速度を持つ。即ち、不自然な速いスピードが強制されることを伴わない。

本方法は、写真の内容の要約見本を持つことが望ましい場合の、例えば休日等の写真のアーカイブのような、写真のアーカイブの要約を生成するためにも利用され得る。写真の場合には、１つのセグメントは単一の写真であっても良いし、又は写真のセットであっても良い。

例えば既にセグメントに分割されているビデオシーケンス（例えばビデオシーケンスの各場面についての１つのチャプタ）の場合には、ステップ（ａ）が省略され得ることは理解されるべきである。そうでなければ、ステップ（ａ）は例えば、本分野において知られたフレーム差分検出方法を利用した、セグメント境界の検出に基づく、時間セグメント化を含んでも良い。

ステップ（ｃ）において、非常に限られた量のデータを利用した、複数の画像の非常にコンパクトな表現が確立される。例えば、１．５時間の映画は、５乃至１０個のコンテンツ記述子、及び典型的に７００乃至１０００個のセグメントへの分割を用いて表現され得る。

好適には、ステップ（ｅ）は、最も高い重要度値を持つセグメントを選択するステップを含む。換言すれば、該複数の画像の残りのセグメントに対して最も小さな関連度を持つ１以上のセグメントが最初に省略され、従って要約から除外される。これにより、要約が該複数の画像のとり得る最大の意味内容を持つセグメントに基づくものとなること、及び従って要約がとり得る最良の程度に該複数の画像の意味の核を反映するものとなることが、効果的に保証される。

重みは２つのセグメントがどの程度関連するかを示すものであるため（高い重み値は高い関連度を反映する。重みは、２つのセグメントのパラメータセット間の相関係数として決定されても良い。該セットは、少なくとも１つのパラメータを有する）、重要度は好適には、特定のセグメントに対する関係に関連付けられた全ての重みの合計に基づいて算出される。重要度は特に、特定のセグメントに対する関係に関連付けられた全ての重みの合計と等しくても良い。

好適な実施例においては、例えば前記ステップ（ｂ）における前記セグメントの内容解析において、及び好適には更に前記セグメントと他のセグメントとの間の関係の確立において、前記セグメントに関連付けられた付加的なテキスト情報が考慮される。テキスト情報はビデオコンテンツに埋め込まれていても良く（例えば字幕）、又はビデオシーケンスと同一の物理的又は論理的な担体に保存されていても良い（例えばＤＶＤディスク上の字幕、又はＴＶ放送と共に送信されるクローズドキャプション）。

かくして、斯かる付加的なテキスト情報がコンテンツ解析を支援するために利用されても良く、そうでなければコンテンツ解析は、複数の画像自体に適用される自動的なアルゴリズムにのみ基づいても良い。付加的なテキスト情報が複数の画像自体に埋め込まれている場合（例えば字幕）には、好適な追加のステップが、該テキスト情報を更なる解析のために考慮することを可能とするため、複数のセグメントから斯かる付加的なテキスト情報を抽出するステップを含む。該付加的なテキスト情報が、例えば複数の画像に関連したオーディオ部分に埋め込まれたナレーション音声から抽出されるべき場合には、該付加的なテキスト情報の抽出は、音声認識を含んでも良い。

該付加的なテキスト情報の重要部分を要約に含めることが、好適であり得る。このことは、要約のビデオ部分における字幕として、及び／又は、音声合成方法を利用して該付加的なテキスト情報を音声へと変換することによって、実行され得る。

該複数の画像は、単に画像であっても良いし若しくは画像フレームであっても良く、又は加えて、例えば映画のサウンドトラックのような、複数の画像と関連付けられたオーディオ部分であっても良い。該付加的なテキスト情報は、例えば誰が、どこで、及びいつを含む情報を持つ、映画の一場面を記述する短いテキストを含んでも良い。一般に、該付加的なテキスト情報は、例えば字幕（例えば人間によって手動で入力され同期される）、映画の脚本（例えば人間により書かれ、自動的にビデオシーケンスに整合される）、音声のトランスクリプト（例えば人間により書かれるか、又は自動音声認識によって生成される）を含んでも良い。付加的なテキスト情報は、例えば「誰がこの場面に居るか」、「何がこの場面にあるか」、「この場面はどこか」、「なぜ何かが起こるのか又は示されるのか」等についてのメタデータのような、パーソナライズされた読み手の意味把握を容易化する目的のための、ビデオシーケンスに同期された手動のアノテーション（annotation）を提供するための別個のサービスとして提供されても良い。

該複数の画像がビデオ部分及びオーディオ部分の両方を含む場合には、該ビデオ部分及びオーディオ部分の両方を考慮に入れるコンテンツ記述子が、好適には含められる。例えば、画像及び音声信号の両方が解析され、ビデオシーケンスの特定のセグメントにどの人物又は映画のキャラクタが存在するかに関する情報を抽出するために利用される。好適には、前記関係は、少なくともオーディオ部分に基づく１つの関係と、ビデオ部分に基づく１つの関係とを含む。これにより、該複数の画像に関連する利用可能なデータ、即ちビデオデータ及びオーディオデータの両方の最善の利用が提供される。

好適には、前記関係は、
（１）第１のセグメントと第２のセグメントとの間の時間の距離、
（２）それぞれ第１及び第２のセグメントに関連するテキスト情報におけるキーワードの共起、
（３）第１及び第２のセグメントにおける人物の共出現、及び
（４）セグメントのビデオ部分における視界
のうち１つ以上に基づく少なくとも１つの関係を含む。

（１）に関しては、時間的に大きく離れたセグメントは大きな距離を割り当てられ、それ故視覚的に類似するが時間的に大きく離れた２つのセグメント間の重みは、セグメントが時間的にも互いに近い場合（例えば実際に同一の場面又はチャプタに属する場合）ほどには大きいべきではない。

（３）に関しては、例えば顔検出及び認識及び／又は音声認識に基づく人物特定が、ステップ（ｂ）に含められるべきである。

（４）に関しては、視界とは、被写体からのカメラの距離、及び特定のセグメントにおいて利用されるレンズの焦点距離（例えばクローズアップ、ロングショット、中程度のショット等）として理解される。

好適には、ステップ（ｃ）乃至（ｅ）は、セグメントの選択されたサブセットが、所定の停止基準に合致するまで、例えば１つずつ、セグメントの数を減少させるために繰り返される。斯かる停止基準は、セグメントの選択されたサブセットの所定の最大再生時間であっても良い。例えばユーザが、１．５時間の映画の４５分の要約を視聴したいと欲したとする。この場合には、残りのセグメントの総再生時間が４５分以下となるまで、セグメントが除去される。

一般に要約は、上述したように、例えば再生時間に関しての、ユーザにより入力される好み（preference）を考慮に入れて生成されても良い。しかしながら、特定のトピック又は映画のキャラクタに関するユーザの好みがユーザにより入力され、ステップ（ｃ）、（ｄ）及び（ｅ）のうちのいずれか１つ以上において考慮に入れられ、それにより要約がユーザによる特別な好みを反映するようにされても良い。例えば、ユーザは車探しに関心があり得、従って、例えば車探しの場面を持つセグメントにおいて重要度が高くなるように操作することによって、車探しを含むセグメントは他のセグメントの後に除去される。特に、ステップ（ｃ）の重みは、ユーザにより入力される好みの関数として算出されても良い。

第２の態様においては、本発明は、第１の態様による方法をコンピュータが実行することを可能とするように構成された、実行可能なコンピュータプログラムコードに関する。本プログラムコードは、汎用のプログラムコードであっても良いし、又は特定プロセッサ向けプログラムコードであっても良い。本プログラムコードは、パーソナルコンピュータ上で実行されるように構成されても良いし、又はデータプロセッサを含むいずれかの装置上で実行されるように構成されても良い。本発明の本態様は特に（これに限定するものではないが）、コンピュータシステムが本発明の第１の態様の動作を実行することを可能とするコンピュータプログラムにより本発明が実装され得る点で有利である。かくして、幾つかの既知の装置が、該装置にコンピュータプログラムをインストールすることにより、本発明によって動作し、かくして該装置が第１の態様による方法を実行することを可能とするように変更され得ることが予期される。

第３の態様においては、本発明は、第２の態様による実行可能なコンピュータプログラムコードを含むデータ担体に関する。該データ担体は、例えば磁気ベース又は光ベースの媒体のような、いずれかの種類のコンピュータ読み取り可能な媒体、又は例えばインターネットのようなコンピュータベースのネットワークを通したものであっても良い。

第４の態様においては、本発明は、第１の態様による方法を実行するように構成された処理手段を有する装置を提供する。本装置は、生成された要約を保存するための記憶手段、及び／又は該要約を表示するように構成された表示手段を含んでも良い。本装置は、個人向けビデオレコーダ、ハードディスクレコーダ、ＤＶＤプレイヤ、ビデオカメラ、家庭用メディアサーバ、パーソナルコンピュータ（ＰＣ）、ｅハブ（e-hub）装置、ビデオ・オン・デマンド・システム等のようなものであっても良い。

第５の態様においては、本発明は、第４の態様による装置と、要約のビデオ部分を表示するように構成された表示手段とを含むシステムに関する。本システムは、前記装置により生成された要約のオーディオ部分をも提示することが可能となるように、ラウドスピーカをも有しても良い。本システムは、例えばハードディスクドライブと、要約を生成し該要約をＴＶ画面に表示するか又はハードディスクに保存するように構成された処理手段とを含むＴＶセットのように、前記装置と一体化されても良い。代替としては、本システムは、別個の構成要素により形成されても良い。例えば、要約を生成するように構成された装置がスタンドアロン型の装置であり、本システムの他の部分が例えば表示手段及び記憶手段を含むような場合である。一例として、本システムは、インターネットを介してＰＣに接続されたリモートサーバに保存されたビデオシーケンス又は写真に基づいて、要約を生成するように構成されたソフトウェアを持つ、ＰＣであっても良い。

第１の態様について言及された利点及び実施例は、本発明の第２、第３及び第４の態様についても当てはまることが理解される。従って、本発明のいずれか１つの態様はそれぞれ、他の態様のいずれかと組み合わせられ得る。

本発明は、添付図面を参照しながら、単に例としてのみ、以下に説明される。

図１は、オーディオビジュアルコンテンツを持つ映画のような、ビデオシーケンス１のビデオ要約３を生成するための好適な方法を示す。好適には、付加的なテキスト情報２が、ビデオシーケンス１に加えて利用可能である。斯かる付加的なテキスト情報２は、字幕、クローズドキャプション、音声のトランスクリプト、脚本等を含んでも良い。特に、音声の付加的なテキスト情報２は、発話された言語を表すテキストを提供するために、音声認識を利用してビデオシーケンス１のオーディオ部分から抽出されても良い。例えば、脚本、トランスクリプト、ウェブ及びオーディオ特性を利用した映画のキャラクタの特定に関連する、国際特許出願公開WO05/055196A2を参照されたい。

最初に、ビデオシーケンス１の自動的な時間セグメント化１０が実行される。ここで、ビデオシーケンス１は論理的な一貫性のあるセグメントへと分割され、各セグメントは、映画のショット又は場面を表す。該時間セグメント化は、本分野において知られているような、即ちビデオシーケンス１の単一のフレーム間の差分を検出するために利用される種々の低レベルの記述子を含む、ショット境界検出に基づくものであっても良い。ビデオシーケンス１が既に時間セグメントに分割されている場合には（例えばショット又は場面を表すチャプタ）、時間セグメント化ステップ１０は省略されても良いことは、理解されるべきである。

次いで、各セグメントについて種々のコンテンツ記述子のセットを算出することにより、セグメントの内容を表すことを可能とするため、セグメントに対してコンテンツ解析２０が実行される。非常に低レベルにおけるコンテンツ記述子が含められても良く、非常に高いレベルの抽出におけるコンテンツ記述子が利用されても良い。利用可能である場合には、コンテンツ解析２０は好適には、各セグメントに関連する付加的なテキスト情報２（例えば、どの人物が当該場面にいるかについての情報等）により支援されても良い。

セグメントのオーディオ部分及びビデオ部分の両方が、別個に又は組み合わせて、コンテンツ記述子を算出するために利用されることができる。コンテンツ記述子の非網羅的なリストは、以下のとおりである：
−色分布（例えば色ヒストグラムを算出することによる）
−オーディオクラス（セグメントのオーディオ部分を解析し、例えば音声、無音、音楽等に該セグメントの内容を分類する）
−顔の位置及び存在
−人物特定（例えば顔及び／又は音声認識を用いることによる）
−場面の視野（例えばクローズアップ、中程度のショット、ロングショット、極端なロングショット等）

クローズドキャプション又は脚本のような、付加的なテキスト情報２が利用可能である場合には、斯かる情報は、当該セグメントにどの人物が存在しているか、何が起こっているのか、どこでいつ（物語の時間で）事象が起こるのか、についてのキーワードの形でテキスト記述子を抽出するために解析される。例えば、脚本、トランスクリプト、ウェブ及びオーディオ特徴を利用した映画キャラクタの特定に関連する、国際特許出願公開WO05/055196A2を参照されたい。

幾つかのコンテンツ記述子がセグメントに関連付けられた後、セグメント間の関係が確立され（３０）、ビデオシーケンスの非常にコンパクトな表現がかくして提供される。該関係に関して、２つのセグメントが論理的に関係している（高い重み値）か、論理的に関係していない（低い重み値）かを反映するために、重みが付与される。特に、２つのセグメント間の関係についての斯かる重みは、各重みが或るコンテンツ記述子に対する類似度を表す、重みのベクトルであっても良い。かくして、２つのセグメント間の関係について、異なる観点でのセグメント間の論理的な関係を記述する重みのセットが存在する。

関係に重みが付与された後、重要度を決定するステップ４０が、各セグメントに対して実行される。該重要度は好適には、特定のセグメントに関する関係に関連する全ての重みの合計として決定される。かくして、全ての重みの合計が大きい場合には、該セグメントは重要なものであるとみなされ、全ての重みの合計が小さい場合には、該セグメントは重要でないものであるとみなされる。

次のステップは、セグメント５０のサブセットを選択するステップを含む。該選択は、例えば重み及び重要度の中間的な再計算を用いて１つずつ省略することにより、又は単に幾つかのセグメントを一度に省略することによって該選択を実行することにより、即ち最も低い重要度値を持つセグメントを省略することにより、最も高い重要度の値を持つセグメントを最初に選択することによって、段階的に実行されても良い。

最終ステップ６０はかくして、ビデオシーケンスの選択されたセグメント、即ちステップ５０において選択されたセグメントをとることにより、要約３を生成するステップである。単純な実施例においては、要約３は単に、選択されたセグメントを時間的な順序で連結することにより生成される。

理解されるであろうように、要約３は、アナログ若しくはディジタル信号のようないずれの形態で、又は中間的な再生及び／又は記憶媒体への保存のために適したいずれのタイプのデータ表現で、提供されても良い。かくして、本方法は、必要なデータ処理能力が利用可能である場合には、オンラインの要約３の生成のために適用されても良いし、又はビデオアーカイブ全体のビデオシーケンスの要約がオフラインで生成されても良い。

ステップ３０、４０、５０及び６０のいずれにおいても、最終的な要約３をユーザによる好みに適合させるために、ユーザ入力４が考慮されても良い。かくして、ユーザによって入力された好み４に基づいて、要約に提示される情報をパーソナライズすることが可能である。該入力４は、予め保存されていても良い。個人の好みに基づいて、該要約は異なる要素を含み得る。該人物が映画の特定の部分により関心がある場合には、これら部分に関するセグメントが、ストーリー中の他の要素を含むセグメントに優先して選択される等する。この種のパーソナライズを実現するため、ユーザ入力４は、例えば要約構築の間、即ちステップ３０、４０、５０及び６０のうちいずれか１つ以上において、合致するセグメントに追加される関連する重要度の重みを持つキーワードのような、ユーザプロファイルを含んでも良い。

ユーザ入力４が非常に明確な好みを示す場合には、該入力はステップ１０又は２０において既に考慮に入れられていても良く、これらステップはこの場合、ユーザにとって関心のある側面に焦点を当てるように構成されても良く、当該セグメントの特定の特徴は該ユーザにとっては重要でないものであり得るため、ことによると他の側面は省略されても良く、これによってステップ２０及びことによると後続するステップを実行するために必要とされる計算パワーの量を抑える。

幾つかの実施例においては、要約は、例えば階層構造を持つ要約のような、多レベルのものであっても良い。これにより、ユーザが、セグメントのセット間を、より高いレベルで選択することが可能となる。任意の時間に、ユーザは木の「より深く」へと進み、該ユーザが観ているものに関連する更なるセグメントを取得ことができる。同様に、ユーザは、高いレベルへと戻るために、「ポップアップ」することが可能である。以下に説明されるデータ表現及び処理は、セグメント部分の斯かる階層的な選択に適したものである。

図２は、ステップ３０、４０及び５０を、例示的な略図を用いて、より詳細に示す。４つのセグメントｓ１、ｓ２、ｓ３及びｓ４へと分割されたビデオシーケンスの単純な場合が１１０に示され、かくしてステップ３０の実施例を表す。セグメントｓ１、ｓ２、ｓ３及びｓ４を接続する線は、セグメントｓ１、ｓ２、ｓ３及びｓ４間の関係を示す。ベクトルｗ１２、ｗ１３、ｗ１４、ｗ２３、ｗ２４及びｗ３４は重みのセットを表し、各重みは関係の度合い、即ち該関係が適用される２つのセグメント間の類似度又は論理的な相関を反映する値を表す。ベクトルは好適には、セグメント解析ステップ２０において抽出されたコンテンツ記述子のそれぞれについて、別個の重みを含む。かくして、ベクトルｗ１２は、セグメントｓ１及びｓ２に関連するコンテンツ記述子のセットの類似度を示す重みのセットを含む。１１０において図示されるように、全てのデータはグラフで表される。

２つのセグメント間の関係に付与される重みは、多種多様なコンテンツ記述子に基づくものであっても良い。関係のタイプ、及びどのように重みが２つのセグメントのそれぞれに関連するコンテンツ記述子に基づいて付与されるかの幾つかの例は、以下のとおりである：
−連続性（即ち、重みが２つのセグメントが連続するセグメントであるか否かを示す）
−キーワードの共起性（即ち、同一の又は類似するキーワードを持つセグメントは、共起の数によって重みを付与される）
−人物又はキャラクタの出現（即ち、２つのセグメントに同一の人物又はキャラクタが出現する場合、オーバラップする時間の合計の相対的な量により、重みが付与される）
−信号特徴に基づく内容類似性（即ち、実際の類似度関数により重みが付与される）
−オーディオクラスに基づく内容類似性（即ち、高い重みは、２つのセグメントにおける特定の期間における同一のオーディオクラス（音声、音楽等）の存在を示す）
−視野に基づく内容類似性（即ち、高い重みは、２つのセグメントにおける特定の期間における同一の視野（例えばクローズアップ、ロングショット、中程度のショット等）の存在を示す。

キーワードの共起性及び人物又はキャラクタの出現は、入力セグメントｓ１、ｓ２、ｓ３及びｓ４の論理的な筋を反映する要約１３０に帰着する、セグメント間の関係の確立のための特に重要な特徴であるように思われる。

グラフ１１０は、少ない量の単一のデータ値のみを持つ、ビデオシーケンスの非常にコンパクトな表現である。該グラフの構造はセグメントの内容の相対的な重要度についての手掛かりを提供し、グラフ１１０は後続するステップ４０、５０及び６０のために有用な表現である。

ステップ４０において、ベクトルｗ１２、ｗ１３、ｗ１４、ｗ２３、ｗ２４及びｗ３４に基づいて、セグメントｓ１、ｓ２、ｓ３及びｓ４のそれぞれに対して、重要度が割り当てられる。好適には、セグメントについての重要度は、該セグメントに対する関係に付与された全ての重みの合計に基づく。例えば、セグメントｓ１についての重要度は、ｗ１２、ｗ１３及びｗ１４のベクトル合計として表現されても良い。ユーザ入力４が例えば映画における特定のキャラクタに対する好みを示す場合には、例えば重みの合計が計算されたときに当該キャラクタの存在を示すベクトルｗ１２、ｗ１３及びｗ１４の重みに対して更なる重みを付与することにより、該重要度が前記好みにより影響を受けるようにしても良い。かくして、ストーリーの必須部分を含む要約３の最小のバージョン及びその解像度又は更なる情報を含む最適なバージョンをユーザが規定できるという意味で、最終的な要約３がカスタマイズされることができる。このことは、ビデオシーケンス及びデータのグラフ表現１１０について抽出された情報及びメタデータの量により、可能とされる。

ステップ５０において、重要度に基づいて「グラフ切り取り」が実行される。好適には、セグメントの選択、及びどのセグメントを要約に含めるべきかの決定は、グラフ全体内の重みに基づく。

このことは１２０に示され、ここではｓ３が４つのセグメントｓ１、ｓ２、ｓ３及びｓ４のうち最も低い重要度を持ち、従ってビデオシーケンス１の意味的な核を表すのに最も重要でない内容を持つと考えられるセグメントであることが仮定されているため、セグメントｓ３が除去されている。更なる切り取りは１２０と１３０との間で行われ、ここではセグメントｓ１が残りの３つのセグメントｓ１、ｓ２及びｓ４のうち最も重要でないセグメントであることが分かったため、セグメントｓ１が除去されている。一般に、セグメントの切り取りは、停止基準に到達するまで継続される。例えば、該停止基準は、好適な要約の最大再生時間を示すユーザ入力４に基づくものであり、従って該切り取りは、残りのセグメントがユーザ入力４において示された再生時間以下の総再生時間を持つに至るまで継続される。代替として、該停止基準は、ビデオシーケンス１全体の再生時間の割合であっても良く、例えば要約は元のビデオシーケンスの再生時間の約７０％に選択されても良い。

最後に、停止基準が満たされると、要約を生成するステップ６０が実行され得る。単純な実施例においては、要約は残りのセグメントの連結であり、例えば図２においては、要約１３０はセグメントｓ２及びｓ４を含み、要約１３０は単にこれらのセグメントｓ２及びｓ４のオーディオ−ビデオコンテンツであっても良く、好適にはビデオシーケンス１の時間順の再生を可能な限り最も適切に反映するように時間順に再生される。

要約を生成するため、所望の長さに到達するまで、最も低い重みを持つノードが１つずつ除去される。ノードの重みは、該ノードに接続された円弧の重みの合計である。

図３は、本発明の第１の態様による方法を実行するように構成されたプロセッサ２１１を持つ装置２１０を含むシステムを示す。即ち装置２１０は、分割手段２１１ａ、解析手段２１１ｂ、関係解析手段２１１ｃ、重要度決定手段２１１ｄ、及び要約生成器２１１ｅを含む。装置２１０は、個人向けビデオレコーダ、家庭用メディアサーバ、メディアセンタＰＣ、ｅハブ装置、ビデオ・オン・デマンド・システム等であっても良い。該装置は、例えば装置２１０に一体化されたＤＶＤプレイヤか又は装置２１０に接続された外部のＤＶＤプレイヤから受信されたＭＰＥＧ準拠ビデオ及びオーディオ信号のような、ビデオシーケンス２０１を含む信号を受信する。該ビデオシーケンスに加えて、装置２１０は、ビデオシーケンス２０１に関連する付加的なテキスト情報２０２をも受信する。該装置は、プロセッサ２１１において入力信号２０１及び２０２を処理し、それに応じて要約２２０を生成する。破線により示されるように、該装置は、例えばハードディスク２１２のような内蔵記憶手段２１２に入力信号２０１及び２０２を保存し、次いで要求に応じて要約２２０を生成しても良い。代替としては、要約２２０は即座に生成され出力されるか、又は要約２２０が生成された後要約２２０が要求されるまで記憶手段２１２に保存される。

図３のシステムはまた、要約２２０のビデオ部分２２１及びオーディオ部分２２２を提示するように構成された要約提示手段２３０を示している。ビデオ部分２２１は、例えばＬＣＤディスプレイのような表示画面２３１に提示され、オーディオ部分２２２はラウドスピーカ２３２を用いて提示される。任意に、要約２２０は、付加的なテキスト情報２０２を含んでも良い。付加的なテキスト情報２０２のこれらの部分は、表示画面２３１上に、又は付加的なユーザインタフェース／ディスプレイ上に表示されても良く、及び／又はテキスト情報２０２の該部分は、該テキストが音声合成により人工的な音声に変換される場合には、ラウドスピーカ２３２を介して提示されても良い。要約提示手段２３０は、内蔵ラウドスピーカ等を持つＴＶセットであっても良い。

本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらのいずれかの組み合わせを含む、いずれの適切な形態で実装されても良い。本発明又は本発明の幾つかの特徴は、１以上のデータプロセッサ及び／又はディジタル信号プロセッサ上で動作するコンピュータソフトウェアとして実装され得る。本発明の実施例の構成要素は、物理的、機能的及び論理的に、いずれの適切な態様で実装されても良い。機能は単一のユニットで実装されても良いし、複数のユニットで実装されても良いし、又は他の機能ユニットの一部として実装されても良い。本発明は単一のユニットで実装されても良いし、種々のユニット及びプロセッサ間で物理的及び機能的に分散されても良い。

本発明は特定の実施例と関連して説明されたが、本発明はここで開示された特定の形態に限定されることを意図したものではない。本発明の範囲は、添付する請求項によってのみ限定される。請求項において、「有する（comprise）」なる語は、他の要素又はステップの存在を除外するものではない。加えて、個々の特徴が異なる請求項に含められ得るが、これら特徴は有利に組み合わせられても良く、異なる請求項に含められていることは、これら特徴の組み合わせが利用可能ではない及び／又は有利ではないことを意味するものではない。また、単数形の参照は複数を除外するものではない。従って、「１つの（a、an）」、「第１の（first）」及び「第２の（second）」等への参照は、複数を除外するものではない。更に、請求項における参照記号は請求項の範囲を限定するものとして解釈されるべきではない。

更に、本発明は、ここで説明された実施例において備えられるよりも少ない構成要素で実施化され、１つの構成要素が複数の機能を実行しても良い。同様に、本発明は、図２に示されたよりも多くの構成要素を用いて実施化され、提供された実施例における１つの構成要素により実行される機能が複数の構成要素に分散されても良い。

本明細書において開示された種々のパラメータは変更されても良く、開示された及び／又は請求項に記載された種々の実施例は本発明の範囲から逸脱することなく組み合わせられ得ることは、当業者は容易に理解するであろう。

本発明による方法の好適な実施例のフロー図を示す。初期セグメントのセグメントのサブセットである要約に到達するために、セグメントの初期ビデオシーケンスからセグメントを除去する原理を示す。本発明による好適な装置の図を示す。

Claims

複数の画像の要約を提供する方法であって、
（ａ）前記複数の画像を、それぞれが少なくとも１つの画像を有する複数のセグメントに分割するステップと、
（ｂ）各前記セグメントを内容に関して解析し、前記セグメントの前記解析に起因するコンテンツ記述子のセットを関連付けるステップと、
（ｃ）前記コンテンツ記述子に基づいて前記セグメント間の関係を確立するステップであって、第１のセグメントと第２のセグメントとの間の各関係は該関係に関連付けられた１つ以上の重みを持ち、前記１つ以上の重みは、前記第１のセグメントと前記第２のセグメントとの間の関係の度合いを表すステップと、
（ｄ）前記セグメントに対する関係に関連付けられた重みに基づき、各前記セグメントについて重要度を決定するステップと、
（ｅ）前記セグメントに関連付けられた重要度パラメータに基づき、前記複数のセグメントからセグメントのサブセットを選択することにより、要約を生成するステップと、
を有する方法。
前記セグメントの内容解析において、及び前記セグメントと他のセグメントとの間の関係の確立において、前記セグメントに関連付けられた利用可能な付加的なテキスト情報が考慮される、請求項１に記載の方法。
前記な付加的なテキスト情報は、前記複数の画像から抽出される、請求項２に記載の方法。
前記複数の画像はビデオ部分とオーディオ部分とを含み、前記コンテンツ記述子は、前記ビデオ部分及び前記オーディオ部分の両方を考慮に入れて含められる、請求項１に記載の方法。
前記関係は少なくとも、前記オーディオ部分に基づく１つの関係と、前記ビデオ部分に基づく１つの関係とを含む、請求項４に記載の方法。
前記関係は、前記第１のセグメントと前記第２のセグメントとの間の時間的な距離に基づく少なくとも１つの関係を含む、請求項１に記載の方法。
前記関係は、前記第１のセグメント及び前記第２のセグメントにそれぞれ関連付けられた第１及び第２のテキスト情報におけるキーワードの共起に基づく少なくとも１つの関係を含む、請求項１に記載の方法。
前記関係は、前記第１及び第２のセグメントにおける人物の共出現に基づく少なくとも１つの関係を含む、請求項１に記載の方法。
前記関係は、前記セグメントのビデオ部分における視野に基づく少なくとも１つの関係を含む、請求項１に記載の方法。
前記ステップ（ｅ）は、最も低い重要度の値を持つセグメントを除去するステップを含む、請求項１に記載の方法。
各前記セグメントについての重要度は、前記セグメントに対する関係に関連付けられた全ての重みの合計に基づく、請求項１０に記載の方法。
前記ステップ（ｃ）乃至（ｅ）は、セグメントの数を減少させるため、セグメントの選択されたサブセットが所定の停止条件を満足するまで繰り返される、請求項１に記載の方法。
前記停止基準は、前記セグメントの選択されたサブセットの所定の最大再生時間を含む、請求項１２に記載の方法。
前記要約は、ユーザにより入力された好みを考慮して生成される、請求項１に記載の方法。
前記ステップ（ｃ）の前記重みは、前記ユーザにより入力された好みの関数として算出される、請求項１４に記載の方法。
複数の画像の要約を生成するように構成された装置であって、前記装置は、
前記複数の画像を、それぞれが少なくとも１つの画像を有する複数のセグメントに分割するように構成された分割手段と、
各前記セグメントを内容に関して解析し、前記セグメントの前記解析に起因するコンテンツ記述子のセットを関連付けるように構成された解析手段と、
前記コンテンツ記述子に基づいて前記セグメント間の関係を確立するように構成された関係解析手段であって、第１のセグメントと第２のセグメントとの間の各関係は該関係に関連付けられた１つ以上の重みを持ち、前記１つ以上の重みは、前記第１のセグメントと前記第２のセグメントとの間の関係の度合いを表す関係解析手段と、
前記セグメントに対する関係に関連付けられた重みに基づき、各前記セグメントについて重要度を決定するように構成された重要度決定手段と、
前記セグメントに関連付けられた重要度パラメータに基づき、前記複数のセグメントからセグメントのサブセットを選択することにより、要約を生成するように構成された要約生成器と、
を含む処理手段を有する装置。
請求項１６に記載の装置と、前記要約のビデオ部分を表示するように構成された表示手段と、を有するシステム。
請求項１に記載の方法を実行するように構成されたコンピュータ実行可能なプログラムコード。
請求項１８に記載のコンピュータ実行可能なプログラムコードを持つデータ担体。