JP2009528756A - 複数の画像の要約の自動生成のための方法及び装置 - Google Patents
複数の画像の要約の自動生成のための方法及び装置 Download PDFInfo
- Publication number
- JP2009528756A JP2009528756A JP2008556901A JP2008556901A JP2009528756A JP 2009528756 A JP2009528756 A JP 2009528756A JP 2008556901 A JP2008556901 A JP 2008556901A JP 2008556901 A JP2008556901 A JP 2008556901A JP 2009528756 A JP2009528756 A JP 2009528756A
- Authority
- JP
- Japan
- Prior art keywords
- segment
- segments
- relationship
- content
- importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Television Signal Processing For Recording (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
例えばビデオシーケンスのような、複数の画像の要約を提供するための方法及び装置。本方法は、ビデオシーケンスを複数のセグメントに分割するステップを含む。該セグメントは、内容に関して解析され、コンテンツ記述子のセットが該セグメントに関連付けられる。好適には、脚本等のような、該セグメントについての付加的なテキスト情報が、該コンテンツ記述子を決定するために利用される。セグメント間の関係を表すグラフが構築され、セグメント間の関係を示す。セグメント間の例えば論理的な相関のような関係の度合いを表すため、該関係に重みが割り当てられる。該重みは、算出されたコンテンツ記述子に基づく。前記セグメントに対する関係に関連する全ての重みに基づいて、セグメントについての重要度が決定される。最後に、最も重要な幾つかのセグメントを選択することにより、要約が生成される。本方法は、元の再生速度が維持されつつ、元の全ての論理的な筋を維持しながらも所要時間がより短い(例えば元の映画の70%)、映画の自動的な要約を生成することができる。
Description
本発明は、例えばビデオシーケンスのような複数の画像の内容要約を抽出する分野に関する。更に詳細には、本発明は、ストーリー又は論理的な筋が維持される、複数の画像の要約の自動生成のための方法及び装置を提供する。
家庭用ビデオのコレクション及び生成されたビデオアーカイブ又は写真アーカイブの閲覧及び検索において、ユーザの時間を節約し優れた制御及び概観を提供する要約が、非常に必須なツールとなっている。コンテンツの視覚的なテーブル、スキミング及びマルチメディア要約といった、種々のタイプの要約方法が文献上で提案されてきた。また、ニュース、音楽ビデオ及びスポーツのための構造化されたビデオ要約のような、種々の分野が考察されてきた。
ユーザは、論理的な筋を理解しつつ、元の所要時間よりも短い時間で映画を鑑賞したいと欲し得る。即ち、映画の全体のストーリーが維持される、という要件である。鑑賞のペースを1.5乃至2倍に速めることが可能な早送り及びオーディオ圧縮のためのアルゴリズムが提案されてきた。1つの可能性は再生速度を増大させることであるが、高速再生は、鑑賞者に非常に高い注意レベルを要求し、奇妙で理解不能なものともなり得る。
かくして、依然として目標は、映画、ドキュメンタリ及び家庭用ビデオのようなビデオシーケンスの物語内容を要約するための方法を含む、物語ビデオ要約である。映画のような物語マルチメディアコンテンツのための要約は活発な研究テーマであるが、通常の目的は、元の映画のストーリーについての全ての情報を伝達するわけではない、プレビューを生成することである。
国際特許出願公開WO03/090444は、ビデオシーケンスからビデオフレームのサブシーケンスを選択するための方法を開示している。2つのビデオフレームに関する互いに対する距離関数が、ビデオフレームのシーケンスにおいて定義される(例えば、フレームのRGBヒストグラム間の距離)。ビデオフレームのシーケンスから選択されたビデオフレームの複数のサブシーケンスの特徴を表現するための、最適化基準が定義される。ビデオフレームのシーケンスは次いで、全てのサブシーケンスに対して定義された最適化基準関数(例えばエネルギー関数)の値を最適化することによって決定される。国際特許出願公開WO03/090444においては、フレームに関する互いに対する距離関数は、フレーム間の視覚的な距離に基づく。かくして、フレームの選択されたサブシーケンスは、ビジュアルコンテンツに対して最も異なるフレームであるキーフレームのセットであり、従って或る意味において該ビデオシーケンスを代表するものである。しかしながら、2つのフレームは視覚的な距離によってのみ相互に関連付けられるため、選択されたサブシーケンスは必ずしもストーリーを反映する要約を表すものとはならず、ビデオシーケンスの真の意味を表すものとならない。
それ故目的は、例えばビデオシーケンスのような複数の画像の論理的な筋を反映し、且つ依然として元のビデオシーケンスと同じ再生速度を持つ要約シーケンスを提供することが可能な要約方法及びシステムを提供することにある。
該目的及び他の幾つかの目的は、複数の画像の要約を提供する方法であって、
(a)前記複数の画像を、それぞれが少なくとも1つの画像を有する複数のセグメントに分割するステップと、
(b)各前記セグメントを内容に関して解析し、前記セグメントの前記解析に起因するコンテンツ記述子のセットを関連付けるステップと、
(c)前記コンテンツ記述子に基づいて前記セグメント間の関係を確立するステップであって、第1のセグメントと第2のセグメントとの間の各関係は該関係に関連付けられた1つ以上の重みを持ち、前記1つ以上の重みは、前記第1のセグメントと前記第2のセグメントとの間の関係の度合いを表すステップと、
(d)前記セグメントに対する関係に関連付けられた重みに基づき、各前記セグメントについて重要度を決定するステップと、
(e)前記セグメントに関連付けられた重要度パラメータに基づき、前記複数のセグメントからセグメントのサブセットを選択することにより、要約を生成するステップと、
を有する方法を提供することにより、本発明の第1の態様において達成される。
(a)前記複数の画像を、それぞれが少なくとも1つの画像を有する複数のセグメントに分割するステップと、
(b)各前記セグメントを内容に関して解析し、前記セグメントの前記解析に起因するコンテンツ記述子のセットを関連付けるステップと、
(c)前記コンテンツ記述子に基づいて前記セグメント間の関係を確立するステップであって、第1のセグメントと第2のセグメントとの間の各関係は該関係に関連付けられた1つ以上の重みを持ち、前記1つ以上の重みは、前記第1のセグメントと前記第2のセグメントとの間の関係の度合いを表すステップと、
(d)前記セグメントに対する関係に関連付けられた重みに基づき、各前記セグメントについて重要度を決定するステップと、
(e)前記セグメントに関連付けられた重要度パラメータに基づき、前記複数のセグメントからセグメントのサブセットを選択することにより、要約を生成するステップと、
を有する方法を提供することにより、本発明の第1の態様において達成される。
「複数の画像」とは、写真のアーカイブ又は画像フレームから成るビデオシーケンスのような、画像のセットとして理解される。「関連度」とは、2つのセグメント間の関連の度合いを表す尺度として理解される。例えば、「関連度」は、セグメント間の論理相関を表す尺度であっても良いし、又は単に特定のコンテンツ記述子に対して当該セグメントがどれだけ類似しているかの尺度であっても良い。
本発明はとりわけ(限定するものではないが)、映画又は家庭用ビデオ等の要約を自動的に生成するために有利である。好適な実施例においては、元の入力ビデオシーケンスの骨子を含む要約を自動的に生成することが可能であり、該要約は元のビデオシーケンスから選択されたセグメント又は場面から生成されるため、該要約は自然な再生速度を持つ。即ち、不自然な速いスピードが強制されることを伴わない。
本方法は、写真の内容の要約見本を持つことが望ましい場合の、例えば休日等の写真のアーカイブのような、写真のアーカイブの要約を生成するためにも利用され得る。写真の場合には、1つのセグメントは単一の写真であっても良いし、又は写真のセットであっても良い。
例えば既にセグメントに分割されているビデオシーケンス(例えばビデオシーケンスの各場面についての1つのチャプタ)の場合には、ステップ(a)が省略され得ることは理解されるべきである。そうでなければ、ステップ(a)は例えば、本分野において知られたフレーム差分検出方法を利用した、セグメント境界の検出に基づく、時間セグメント化を含んでも良い。
ステップ(c)において、非常に限られた量のデータを利用した、複数の画像の非常にコンパクトな表現が確立される。例えば、1.5時間の映画は、5乃至10個のコンテンツ記述子、及び典型的に700乃至1000個のセグメントへの分割を用いて表現され得る。
好適には、ステップ(e)は、最も高い重要度値を持つセグメントを選択するステップを含む。換言すれば、該複数の画像の残りのセグメントに対して最も小さな関連度を持つ1以上のセグメントが最初に省略され、従って要約から除外される。これにより、要約が該複数の画像のとり得る最大の意味内容を持つセグメントに基づくものとなること、及び従って要約がとり得る最良の程度に該複数の画像の意味の核を反映するものとなることが、効果的に保証される。
重みは2つのセグメントがどの程度関連するかを示すものであるため(高い重み値は高い関連度を反映する。重みは、2つのセグメントのパラメータセット間の相関係数として決定されても良い。該セットは、少なくとも1つのパラメータを有する)、重要度は好適には、特定のセグメントに対する関係に関連付けられた全ての重みの合計に基づいて算出される。重要度は特に、特定のセグメントに対する関係に関連付けられた全ての重みの合計と等しくても良い。
好適な実施例においては、例えば前記ステップ(b)における前記セグメントの内容解析において、及び好適には更に前記セグメントと他のセグメントとの間の関係の確立において、前記セグメントに関連付けられた付加的なテキスト情報が考慮される。テキスト情報はビデオコンテンツに埋め込まれていても良く(例えば字幕)、又はビデオシーケンスと同一の物理的又は論理的な担体に保存されていても良い(例えばDVDディスク上の字幕、又はTV放送と共に送信されるクローズドキャプション)。
かくして、斯かる付加的なテキスト情報がコンテンツ解析を支援するために利用されても良く、そうでなければコンテンツ解析は、複数の画像自体に適用される自動的なアルゴリズムにのみ基づいても良い。付加的なテキスト情報が複数の画像自体に埋め込まれている場合(例えば字幕)には、好適な追加のステップが、該テキスト情報を更なる解析のために考慮することを可能とするため、複数のセグメントから斯かる付加的なテキスト情報を抽出するステップを含む。該付加的なテキスト情報が、例えば複数の画像に関連したオーディオ部分に埋め込まれたナレーション音声から抽出されるべき場合には、該付加的なテキスト情報の抽出は、音声認識を含んでも良い。
該付加的なテキスト情報の重要部分を要約に含めることが、好適であり得る。このことは、要約のビデオ部分における字幕として、及び/又は、音声合成方法を利用して該付加的なテキスト情報を音声へと変換することによって、実行され得る。
該複数の画像は、単に画像であっても良いし若しくは画像フレームであっても良く、又は加えて、例えば映画のサウンドトラックのような、複数の画像と関連付けられたオーディオ部分であっても良い。該付加的なテキスト情報は、例えば誰が、どこで、及びいつを含む情報を持つ、映画の一場面を記述する短いテキストを含んでも良い。一般に、該付加的なテキスト情報は、例えば字幕(例えば人間によって手動で入力され同期される)、映画の脚本(例えば人間により書かれ、自動的にビデオシーケンスに整合される)、音声のトランスクリプト(例えば人間により書かれるか、又は自動音声認識によって生成される)を含んでも良い。付加的なテキスト情報は、例えば「誰がこの場面に居るか」、「何がこの場面にあるか」、「この場面はどこか」、「なぜ何かが起こるのか又は示されるのか」等についてのメタデータのような、パーソナライズされた読み手の意味把握を容易化する目的のための、ビデオシーケンスに同期された手動のアノテーション(annotation)を提供するための別個のサービスとして提供されても良い。
該複数の画像がビデオ部分及びオーディオ部分の両方を含む場合には、該ビデオ部分及びオーディオ部分の両方を考慮に入れるコンテンツ記述子が、好適には含められる。例えば、画像及び音声信号の両方が解析され、ビデオシーケンスの特定のセグメントにどの人物又は映画のキャラクタが存在するかに関する情報を抽出するために利用される。好適には、前記関係は、少なくともオーディオ部分に基づく1つの関係と、ビデオ部分に基づく1つの関係とを含む。これにより、該複数の画像に関連する利用可能なデータ、即ちビデオデータ及びオーディオデータの両方の最善の利用が提供される。
好適には、前記関係は、
(1)第1のセグメントと第2のセグメントとの間の時間の距離、
(2)それぞれ第1及び第2のセグメントに関連するテキスト情報におけるキーワードの共起、
(3)第1及び第2のセグメントにおける人物の共出現、及び
(4)セグメントのビデオ部分における視界
のうち1つ以上に基づく少なくとも1つの関係を含む。
(1)第1のセグメントと第2のセグメントとの間の時間の距離、
(2)それぞれ第1及び第2のセグメントに関連するテキスト情報におけるキーワードの共起、
(3)第1及び第2のセグメントにおける人物の共出現、及び
(4)セグメントのビデオ部分における視界
のうち1つ以上に基づく少なくとも1つの関係を含む。
(1)に関しては、時間的に大きく離れたセグメントは大きな距離を割り当てられ、それ故視覚的に類似するが時間的に大きく離れた2つのセグメント間の重みは、セグメントが時間的にも互いに近い場合(例えば実際に同一の場面又はチャプタに属する場合)ほどには大きいべきではない。
(3)に関しては、例えば顔検出及び認識及び/又は音声認識に基づく人物特定が、ステップ(b)に含められるべきである。
(4)に関しては、視界とは、被写体からのカメラの距離、及び特定のセグメントにおいて利用されるレンズの焦点距離(例えばクローズアップ、ロングショット、中程度のショット等)として理解される。
好適には、ステップ(c)乃至(e)は、セグメントの選択されたサブセットが、所定の停止基準に合致するまで、例えば1つずつ、セグメントの数を減少させるために繰り返される。斯かる停止基準は、セグメントの選択されたサブセットの所定の最大再生時間であっても良い。例えばユーザが、1.5時間の映画の45分の要約を視聴したいと欲したとする。この場合には、残りのセグメントの総再生時間が45分以下となるまで、セグメントが除去される。
一般に要約は、上述したように、例えば再生時間に関しての、ユーザにより入力される好み(preference)を考慮に入れて生成されても良い。しかしながら、特定のトピック又は映画のキャラクタに関するユーザの好みがユーザにより入力され、ステップ(c)、(d)及び(e)のうちのいずれか1つ以上において考慮に入れられ、それにより要約がユーザによる特別な好みを反映するようにされても良い。例えば、ユーザは車探しに関心があり得、従って、例えば車探しの場面を持つセグメントにおいて重要度が高くなるように操作することによって、車探しを含むセグメントは他のセグメントの後に除去される。特に、ステップ(c)の重みは、ユーザにより入力される好みの関数として算出されても良い。
第2の態様においては、本発明は、第1の態様による方法をコンピュータが実行することを可能とするように構成された、実行可能なコンピュータプログラムコードに関する。本プログラムコードは、汎用のプログラムコードであっても良いし、又は特定プロセッサ向けプログラムコードであっても良い。本プログラムコードは、パーソナルコンピュータ上で実行されるように構成されても良いし、又はデータプロセッサを含むいずれかの装置上で実行されるように構成されても良い。本発明の本態様は特に(これに限定するものではないが)、コンピュータシステムが本発明の第1の態様の動作を実行することを可能とするコンピュータプログラムにより本発明が実装され得る点で有利である。かくして、幾つかの既知の装置が、該装置にコンピュータプログラムをインストールすることにより、本発明によって動作し、かくして該装置が第1の態様による方法を実行することを可能とするように変更され得ることが予期される。
第3の態様においては、本発明は、第2の態様による実行可能なコンピュータプログラムコードを含むデータ担体に関する。該データ担体は、例えば磁気ベース又は光ベースの媒体のような、いずれかの種類のコンピュータ読み取り可能な媒体、又は例えばインターネットのようなコンピュータベースのネットワークを通したものであっても良い。
第4の態様においては、本発明は、第1の態様による方法を実行するように構成された処理手段を有する装置を提供する。本装置は、生成された要約を保存するための記憶手段、及び/又は該要約を表示するように構成された表示手段を含んでも良い。本装置は、個人向けビデオレコーダ、ハードディスクレコーダ、DVDプレイヤ、ビデオカメラ、家庭用メディアサーバ、パーソナルコンピュータ(PC)、eハブ(e-hub)装置、ビデオ・オン・デマンド・システム等のようなものであっても良い。
第5の態様においては、本発明は、第4の態様による装置と、要約のビデオ部分を表示するように構成された表示手段とを含むシステムに関する。本システムは、前記装置により生成された要約のオーディオ部分をも提示することが可能となるように、ラウドスピーカをも有しても良い。本システムは、例えばハードディスクドライブと、要約を生成し該要約をTV画面に表示するか又はハードディスクに保存するように構成された処理手段とを含むTVセットのように、前記装置と一体化されても良い。代替としては、本システムは、別個の構成要素により形成されても良い。例えば、要約を生成するように構成された装置がスタンドアロン型の装置であり、本システムの他の部分が例えば表示手段及び記憶手段を含むような場合である。一例として、本システムは、インターネットを介してPCに接続されたリモートサーバに保存されたビデオシーケンス又は写真に基づいて、要約を生成するように構成されたソフトウェアを持つ、PCであっても良い。
第1の態様について言及された利点及び実施例は、本発明の第2、第3及び第4の態様についても当てはまることが理解される。従って、本発明のいずれか1つの態様はそれぞれ、他の態様のいずれかと組み合わせられ得る。
本発明は、添付図面を参照しながら、単に例としてのみ、以下に説明される。
図1は、オーディオビジュアルコンテンツを持つ映画のような、ビデオシーケンス1のビデオ要約3を生成するための好適な方法を示す。好適には、付加的なテキスト情報2が、ビデオシーケンス1に加えて利用可能である。斯かる付加的なテキスト情報2は、字幕、クローズドキャプション、音声のトランスクリプト、脚本等を含んでも良い。特に、音声の付加的なテキスト情報2は、発話された言語を表すテキストを提供するために、音声認識を利用してビデオシーケンス1のオーディオ部分から抽出されても良い。例えば、脚本、トランスクリプト、ウェブ及びオーディオ特性を利用した映画のキャラクタの特定に関連する、国際特許出願公開WO05/055196A2を参照されたい。
最初に、ビデオシーケンス1の自動的な時間セグメント化10が実行される。ここで、ビデオシーケンス1は論理的な一貫性のあるセグメントへと分割され、各セグメントは、映画のショット又は場面を表す。該時間セグメント化は、本分野において知られているような、即ちビデオシーケンス1の単一のフレーム間の差分を検出するために利用される種々の低レベルの記述子を含む、ショット境界検出に基づくものであっても良い。ビデオシーケンス1が既に時間セグメントに分割されている場合には(例えばショット又は場面を表すチャプタ)、時間セグメント化ステップ10は省略されても良いことは、理解されるべきである。
次いで、各セグメントについて種々のコンテンツ記述子のセットを算出することにより、セグメントの内容を表すことを可能とするため、セグメントに対してコンテンツ解析20が実行される。非常に低レベルにおけるコンテンツ記述子が含められても良く、非常に高いレベルの抽出におけるコンテンツ記述子が利用されても良い。利用可能である場合には、コンテンツ解析20は好適には、各セグメントに関連する付加的なテキスト情報2(例えば、どの人物が当該場面にいるかについての情報等)により支援されても良い。
セグメントのオーディオ部分及びビデオ部分の両方が、別個に又は組み合わせて、コンテンツ記述子を算出するために利用されることができる。コンテンツ記述子の非網羅的なリストは、以下のとおりである:
−色分布(例えば色ヒストグラムを算出することによる)
−オーディオクラス(セグメントのオーディオ部分を解析し、例えば音声、無音、音楽等に該セグメントの内容を分類する)
−顔の位置及び存在
−人物特定(例えば顔及び/又は音声認識を用いることによる)
−場面の視野(例えばクローズアップ、中程度のショット、ロングショット、極端なロングショット等)
−色分布(例えば色ヒストグラムを算出することによる)
−オーディオクラス(セグメントのオーディオ部分を解析し、例えば音声、無音、音楽等に該セグメントの内容を分類する)
−顔の位置及び存在
−人物特定(例えば顔及び/又は音声認識を用いることによる)
−場面の視野(例えばクローズアップ、中程度のショット、ロングショット、極端なロングショット等)
クローズドキャプション又は脚本のような、付加的なテキスト情報2が利用可能である場合には、斯かる情報は、当該セグメントにどの人物が存在しているか、何が起こっているのか、どこでいつ(物語の時間で)事象が起こるのか、についてのキーワードの形でテキスト記述子を抽出するために解析される。例えば、脚本、トランスクリプト、ウェブ及びオーディオ特徴を利用した映画キャラクタの特定に関連する、国際特許出願公開WO05/055196A2を参照されたい。
幾つかのコンテンツ記述子がセグメントに関連付けられた後、セグメント間の関係が確立され(30)、ビデオシーケンスの非常にコンパクトな表現がかくして提供される。該関係に関して、2つのセグメントが論理的に関係している(高い重み値)か、論理的に関係していない(低い重み値)かを反映するために、重みが付与される。特に、2つのセグメント間の関係についての斯かる重みは、各重みが或るコンテンツ記述子に対する類似度を表す、重みのベクトルであっても良い。かくして、2つのセグメント間の関係について、異なる観点でのセグメント間の論理的な関係を記述する重みのセットが存在する。
関係に重みが付与された後、重要度を決定するステップ40が、各セグメントに対して実行される。該重要度は好適には、特定のセグメントに関する関係に関連する全ての重みの合計として決定される。かくして、全ての重みの合計が大きい場合には、該セグメントは重要なものであるとみなされ、全ての重みの合計が小さい場合には、該セグメントは重要でないものであるとみなされる。
次のステップは、セグメント50のサブセットを選択するステップを含む。該選択は、例えば重み及び重要度の中間的な再計算を用いて1つずつ省略することにより、又は単に幾つかのセグメントを一度に省略することによって該選択を実行することにより、即ち最も低い重要度値を持つセグメントを省略することにより、最も高い重要度の値を持つセグメントを最初に選択することによって、段階的に実行されても良い。
最終ステップ60はかくして、ビデオシーケンスの選択されたセグメント、即ちステップ50において選択されたセグメントをとることにより、要約3を生成するステップである。単純な実施例においては、要約3は単に、選択されたセグメントを時間的な順序で連結することにより生成される。
理解されるであろうように、要約3は、アナログ若しくはディジタル信号のようないずれの形態で、又は中間的な再生及び/又は記憶媒体への保存のために適したいずれのタイプのデータ表現で、提供されても良い。かくして、本方法は、必要なデータ処理能力が利用可能である場合には、オンラインの要約3の生成のために適用されても良いし、又はビデオアーカイブ全体のビデオシーケンスの要約がオフラインで生成されても良い。
ステップ30、40、50及び60のいずれにおいても、最終的な要約3をユーザによる好みに適合させるために、ユーザ入力4が考慮されても良い。かくして、ユーザによって入力された好み4に基づいて、要約に提示される情報をパーソナライズすることが可能である。該入力4は、予め保存されていても良い。個人の好みに基づいて、該要約は異なる要素を含み得る。該人物が映画の特定の部分により関心がある場合には、これら部分に関するセグメントが、ストーリー中の他の要素を含むセグメントに優先して選択される等する。この種のパーソナライズを実現するため、ユーザ入力4は、例えば要約構築の間、即ちステップ30、40、50及び60のうちいずれか1つ以上において、合致するセグメントに追加される関連する重要度の重みを持つキーワードのような、ユーザプロファイルを含んでも良い。
ユーザ入力4が非常に明確な好みを示す場合には、該入力はステップ10又は20において既に考慮に入れられていても良く、これらステップはこの場合、ユーザにとって関心のある側面に焦点を当てるように構成されても良く、当該セグメントの特定の特徴は該ユーザにとっては重要でないものであり得るため、ことによると他の側面は省略されても良く、これによってステップ20及びことによると後続するステップを実行するために必要とされる計算パワーの量を抑える。
幾つかの実施例においては、要約は、例えば階層構造を持つ要約のような、多レベルのものであっても良い。これにより、ユーザが、セグメントのセット間を、より高いレベルで選択することが可能となる。任意の時間に、ユーザは木の「より深く」へと進み、該ユーザが観ているものに関連する更なるセグメントを取得ことができる。同様に、ユーザは、高いレベルへと戻るために、「ポップアップ」することが可能である。以下に説明されるデータ表現及び処理は、セグメント部分の斯かる階層的な選択に適したものである。
図2は、ステップ30、40及び50を、例示的な略図を用いて、より詳細に示す。4つのセグメントs1、s2、s3及びs4へと分割されたビデオシーケンスの単純な場合が110に示され、かくしてステップ30の実施例を表す。セグメントs1、s2、s3及びs4を接続する線は、セグメントs1、s2、s3及びs4間の関係を示す。ベクトルw12、w13、w14、w23、w24及びw34は重みのセットを表し、各重みは関係の度合い、即ち該関係が適用される2つのセグメント間の類似度又は論理的な相関を反映する値を表す。ベクトルは好適には、セグメント解析ステップ20において抽出されたコンテンツ記述子のそれぞれについて、別個の重みを含む。かくして、ベクトルw12は、セグメントs1及びs2に関連するコンテンツ記述子のセットの類似度を示す重みのセットを含む。110において図示されるように、全てのデータはグラフで表される。
2つのセグメント間の関係に付与される重みは、多種多様なコンテンツ記述子に基づくものであっても良い。関係のタイプ、及びどのように重みが2つのセグメントのそれぞれに関連するコンテンツ記述子に基づいて付与されるかの幾つかの例は、以下のとおりである:
−連続性(即ち、重みが2つのセグメントが連続するセグメントであるか否かを示す)
−キーワードの共起性(即ち、同一の又は類似するキーワードを持つセグメントは、共起の数によって重みを付与される)
−人物又はキャラクタの出現(即ち、2つのセグメントに同一の人物又はキャラクタが出現する場合、オーバラップする時間の合計の相対的な量により、重みが付与される)
−信号特徴に基づく内容類似性(即ち、実際の類似度関数により重みが付与される)
−オーディオクラスに基づく内容類似性(即ち、高い重みは、2つのセグメントにおける特定の期間における同一のオーディオクラス(音声、音楽等)の存在を示す)
−視野に基づく内容類似性(即ち、高い重みは、2つのセグメントにおける特定の期間における同一の視野(例えばクローズアップ、ロングショット、中程度のショット等)の存在を示す。
−連続性(即ち、重みが2つのセグメントが連続するセグメントであるか否かを示す)
−キーワードの共起性(即ち、同一の又は類似するキーワードを持つセグメントは、共起の数によって重みを付与される)
−人物又はキャラクタの出現(即ち、2つのセグメントに同一の人物又はキャラクタが出現する場合、オーバラップする時間の合計の相対的な量により、重みが付与される)
−信号特徴に基づく内容類似性(即ち、実際の類似度関数により重みが付与される)
−オーディオクラスに基づく内容類似性(即ち、高い重みは、2つのセグメントにおける特定の期間における同一のオーディオクラス(音声、音楽等)の存在を示す)
−視野に基づく内容類似性(即ち、高い重みは、2つのセグメントにおける特定の期間における同一の視野(例えばクローズアップ、ロングショット、中程度のショット等)の存在を示す。
キーワードの共起性及び人物又はキャラクタの出現は、入力セグメントs1、s2、s3及びs4の論理的な筋を反映する要約130に帰着する、セグメント間の関係の確立のための特に重要な特徴であるように思われる。
グラフ110は、少ない量の単一のデータ値のみを持つ、ビデオシーケンスの非常にコンパクトな表現である。該グラフの構造はセグメントの内容の相対的な重要度についての手掛かりを提供し、グラフ110は後続するステップ40、50及び60のために有用な表現である。
ステップ40において、ベクトルw12、w13、w14、w23、w24及びw34に基づいて、セグメントs1、s2、s3及びs4のそれぞれに対して、重要度が割り当てられる。好適には、セグメントについての重要度は、該セグメントに対する関係に付与された全ての重みの合計に基づく。例えば、セグメントs1についての重要度は、w12、w13及びw14のベクトル合計として表現されても良い。ユーザ入力4が例えば映画における特定のキャラクタに対する好みを示す場合には、例えば重みの合計が計算されたときに当該キャラクタの存在を示すベクトルw12、w13及びw14の重みに対して更なる重みを付与することにより、該重要度が前記好みにより影響を受けるようにしても良い。かくして、ストーリーの必須部分を含む要約3の最小のバージョン及びその解像度又は更なる情報を含む最適なバージョンをユーザが規定できるという意味で、最終的な要約3がカスタマイズされることができる。このことは、ビデオシーケンス及びデータのグラフ表現110について抽出された情報及びメタデータの量により、可能とされる。
ステップ50において、重要度に基づいて「グラフ切り取り」が実行される。好適には、セグメントの選択、及びどのセグメントを要約に含めるべきかの決定は、グラフ全体内の重みに基づく。
このことは120に示され、ここではs3が4つのセグメントs1、s2、s3及びs4のうち最も低い重要度を持ち、従ってビデオシーケンス1の意味的な核を表すのに最も重要でない内容を持つと考えられるセグメントであることが仮定されているため、セグメントs3が除去されている。更なる切り取りは120と130との間で行われ、ここではセグメントs1が残りの3つのセグメントs1、s2及びs4のうち最も重要でないセグメントであることが分かったため、セグメントs1が除去されている。一般に、セグメントの切り取りは、停止基準に到達するまで継続される。例えば、該停止基準は、好適な要約の最大再生時間を示すユーザ入力4に基づくものであり、従って該切り取りは、残りのセグメントがユーザ入力4において示された再生時間以下の総再生時間を持つに至るまで継続される。代替として、該停止基準は、ビデオシーケンス1全体の再生時間の割合であっても良く、例えば要約は元のビデオシーケンスの再生時間の約70%に選択されても良い。
最後に、停止基準が満たされると、要約を生成するステップ60が実行され得る。単純な実施例においては、要約は残りのセグメントの連結であり、例えば図2においては、要約130はセグメントs2及びs4を含み、要約130は単にこれらのセグメントs2及びs4のオーディオ−ビデオコンテンツであっても良く、好適にはビデオシーケンス1の時間順の再生を可能な限り最も適切に反映するように時間順に再生される。
要約を生成するため、所望の長さに到達するまで、最も低い重みを持つノードが1つずつ除去される。ノードの重みは、該ノードに接続された円弧の重みの合計である。
図3は、本発明の第1の態様による方法を実行するように構成されたプロセッサ211を持つ装置210を含むシステムを示す。即ち装置210は、分割手段211a、解析手段211b、関係解析手段211c、重要度決定手段211d、及び要約生成器211eを含む。装置210は、個人向けビデオレコーダ、家庭用メディアサーバ、メディアセンタPC、eハブ装置、ビデオ・オン・デマンド・システム等であっても良い。該装置は、例えば装置210に一体化されたDVDプレイヤか又は装置210に接続された外部のDVDプレイヤから受信されたMPEG準拠ビデオ及びオーディオ信号のような、ビデオシーケンス201を含む信号を受信する。該ビデオシーケンスに加えて、装置210は、ビデオシーケンス201に関連する付加的なテキスト情報202をも受信する。該装置は、プロセッサ211において入力信号201及び202を処理し、それに応じて要約220を生成する。破線により示されるように、該装置は、例えばハードディスク212のような内蔵記憶手段212に入力信号201及び202を保存し、次いで要求に応じて要約220を生成しても良い。代替としては、要約220は即座に生成され出力されるか、又は要約220が生成された後要約220が要求されるまで記憶手段212に保存される。
図3のシステムはまた、要約220のビデオ部分221及びオーディオ部分222を提示するように構成された要約提示手段230を示している。ビデオ部分221は、例えばLCDディスプレイのような表示画面231に提示され、オーディオ部分222はラウドスピーカ232を用いて提示される。任意に、要約220は、付加的なテキスト情報202を含んでも良い。付加的なテキスト情報202のこれらの部分は、表示画面231上に、又は付加的なユーザインタフェース/ディスプレイ上に表示されても良く、及び/又はテキスト情報202の該部分は、該テキストが音声合成により人工的な音声に変換される場合には、ラウドスピーカ232を介して提示されても良い。要約提示手段230は、内蔵ラウドスピーカ等を持つTVセットであっても良い。
本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらのいずれかの組み合わせを含む、いずれの適切な形態で実装されても良い。本発明又は本発明の幾つかの特徴は、1以上のデータプロセッサ及び/又はディジタル信号プロセッサ上で動作するコンピュータソフトウェアとして実装され得る。本発明の実施例の構成要素は、物理的、機能的及び論理的に、いずれの適切な態様で実装されても良い。機能は単一のユニットで実装されても良いし、複数のユニットで実装されても良いし、又は他の機能ユニットの一部として実装されても良い。本発明は単一のユニットで実装されても良いし、種々のユニット及びプロセッサ間で物理的及び機能的に分散されても良い。
本発明は特定の実施例と関連して説明されたが、本発明はここで開示された特定の形態に限定されることを意図したものではない。本発明の範囲は、添付する請求項によってのみ限定される。請求項において、「有する(comprise)」なる語は、他の要素又はステップの存在を除外するものではない。加えて、個々の特徴が異なる請求項に含められ得るが、これら特徴は有利に組み合わせられても良く、異なる請求項に含められていることは、これら特徴の組み合わせが利用可能ではない及び/又は有利ではないことを意味するものではない。また、単数形の参照は複数を除外するものではない。従って、「1つの(a、an)」、「第1の(first)」及び「第2の(second)」等への参照は、複数を除外するものではない。更に、請求項における参照記号は請求項の範囲を限定するものとして解釈されるべきではない。
更に、本発明は、ここで説明された実施例において備えられるよりも少ない構成要素で実施化され、1つの構成要素が複数の機能を実行しても良い。同様に、本発明は、図2に示されたよりも多くの構成要素を用いて実施化され、提供された実施例における1つの構成要素により実行される機能が複数の構成要素に分散されても良い。
本明細書において開示された種々のパラメータは変更されても良く、開示された及び/又は請求項に記載された種々の実施例は本発明の範囲から逸脱することなく組み合わせられ得ることは、当業者は容易に理解するであろう。
Claims (19)
- 複数の画像の要約を提供する方法であって、
(a)前記複数の画像を、それぞれが少なくとも1つの画像を有する複数のセグメントに分割するステップと、
(b)各前記セグメントを内容に関して解析し、前記セグメントの前記解析に起因するコンテンツ記述子のセットを関連付けるステップと、
(c)前記コンテンツ記述子に基づいて前記セグメント間の関係を確立するステップであって、第1のセグメントと第2のセグメントとの間の各関係は該関係に関連付けられた1つ以上の重みを持ち、前記1つ以上の重みは、前記第1のセグメントと前記第2のセグメントとの間の関係の度合いを表すステップと、
(d)前記セグメントに対する関係に関連付けられた重みに基づき、各前記セグメントについて重要度を決定するステップと、
(e)前記セグメントに関連付けられた重要度パラメータに基づき、前記複数のセグメントからセグメントのサブセットを選択することにより、要約を生成するステップと、
を有する方法。 - 前記セグメントの内容解析において、及び前記セグメントと他のセグメントとの間の関係の確立において、前記セグメントに関連付けられた利用可能な付加的なテキスト情報が考慮される、請求項1に記載の方法。
- 前記な付加的なテキスト情報は、前記複数の画像から抽出される、請求項2に記載の方法。
- 前記複数の画像はビデオ部分とオーディオ部分とを含み、前記コンテンツ記述子は、前記ビデオ部分及び前記オーディオ部分の両方を考慮に入れて含められる、請求項1に記載の方法。
- 前記関係は少なくとも、前記オーディオ部分に基づく1つの関係と、前記ビデオ部分に基づく1つの関係とを含む、請求項4に記載の方法。
- 前記関係は、前記第1のセグメントと前記第2のセグメントとの間の時間的な距離に基づく少なくとも1つの関係を含む、請求項1に記載の方法。
- 前記関係は、前記第1のセグメント及び前記第2のセグメントにそれぞれ関連付けられた第1及び第2のテキスト情報におけるキーワードの共起に基づく少なくとも1つの関係を含む、請求項1に記載の方法。
- 前記関係は、前記第1及び第2のセグメントにおける人物の共出現に基づく少なくとも1つの関係を含む、請求項1に記載の方法。
- 前記関係は、前記セグメントのビデオ部分における視野に基づく少なくとも1つの関係を含む、請求項1に記載の方法。
- 前記ステップ(e)は、最も低い重要度の値を持つセグメントを除去するステップを含む、請求項1に記載の方法。
- 各前記セグメントについての重要度は、前記セグメントに対する関係に関連付けられた全ての重みの合計に基づく、請求項10に記載の方法。
- 前記ステップ(c)乃至(e)は、セグメントの数を減少させるため、セグメントの選択されたサブセットが所定の停止条件を満足するまで繰り返される、請求項1に記載の方法。
- 前記停止基準は、前記セグメントの選択されたサブセットの所定の最大再生時間を含む、請求項12に記載の方法。
- 前記要約は、ユーザにより入力された好みを考慮して生成される、請求項1に記載の方法。
- 前記ステップ(c)の前記重みは、前記ユーザにより入力された好みの関数として算出される、請求項14に記載の方法。
- 複数の画像の要約を生成するように構成された装置であって、前記装置は、
前記複数の画像を、それぞれが少なくとも1つの画像を有する複数のセグメントに分割するように構成された分割手段と、
各前記セグメントを内容に関して解析し、前記セグメントの前記解析に起因するコンテンツ記述子のセットを関連付けるように構成された解析手段と、
前記コンテンツ記述子に基づいて前記セグメント間の関係を確立するように構成された関係解析手段であって、第1のセグメントと第2のセグメントとの間の各関係は該関係に関連付けられた1つ以上の重みを持ち、前記1つ以上の重みは、前記第1のセグメントと前記第2のセグメントとの間の関係の度合いを表す関係解析手段と、
前記セグメントに対する関係に関連付けられた重みに基づき、各前記セグメントについて重要度を決定するように構成された重要度決定手段と、
前記セグメントに関連付けられた重要度パラメータに基づき、前記複数のセグメントからセグメントのサブセットを選択することにより、要約を生成するように構成された要約生成器と、
を含む処理手段を有する装置。 - 請求項16に記載の装置と、前記要約のビデオ部分を表示するように構成された表示手段と、を有するシステム。
- 請求項1に記載の方法を実行するように構成されたコンピュータ実行可能なプログラムコード。
- 請求項18に記載のコンピュータ実行可能なプログラムコードを持つデータ担体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP06300198 | 2006-03-03 | ||
PCT/IB2007/050622 WO2007099496A1 (en) | 2006-03-03 | 2007-02-27 | Method and device for automatic generation of summary of a plurality of images |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009528756A true JP2009528756A (ja) | 2009-08-06 |
Family
ID=38109469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008556901A Pending JP2009528756A (ja) | 2006-03-03 | 2007-02-27 | 複数の画像の要約の自動生成のための方法及び装置 |
Country Status (8)
Country | Link |
---|---|
US (1) | US8204317B2 (ja) |
EP (1) | EP1999646A1 (ja) |
JP (1) | JP2009528756A (ja) |
KR (1) | KR20080114786A (ja) |
CN (1) | CN101395607B (ja) |
BR (1) | BRPI0708456A2 (ja) |
RU (1) | RU2440606C2 (ja) |
WO (1) | WO2007099496A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013539250A (ja) * | 2010-07-20 | 2013-10-17 | トムソン ライセンシング | トリック・モード動作の間にコンテンツを再生出力する方法 |
JP2014516222A (ja) * | 2011-05-18 | 2014-07-07 | インテレクチュアル ベンチャーズ ファンド 83 エルエルシー | 興味の特徴を含むビデオサマリー |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007127695A2 (en) | 2006-04-25 | 2007-11-08 | Elmo Weber Frank | Prefernce based automatic media summarization |
US20080288537A1 (en) * | 2007-05-16 | 2008-11-20 | Fuji Xerox Co., Ltd. | System and method for slide stream indexing based on multi-dimensional content similarity |
US20090028517A1 (en) * | 2007-07-27 | 2009-01-29 | The University Of Queensland | Real-time near duplicate video clip detection method |
JP2010245853A (ja) * | 2009-04-07 | 2010-10-28 | Hitachi Ltd | 動画インデクシング方法及び動画再生装置 |
US8856636B1 (en) * | 2009-09-22 | 2014-10-07 | Adobe Systems Incorporated | Methods and systems for trimming video footage |
KR101118536B1 (ko) * | 2009-10-23 | 2012-03-12 | 세종대학교산학협력단 | 상호 작용이 가능한 콘텐츠 저작 수단을 제공하는 방법 |
KR101384931B1 (ko) * | 2009-12-10 | 2014-04-11 | 노키아 코포레이션 | 이미지 처리 방법, 장치 또는 시스템 |
US9069850B2 (en) | 2011-11-08 | 2015-06-30 | Comcast Cable Communications, Llc | Content descriptor |
US9846696B2 (en) * | 2012-02-29 | 2017-12-19 | Telefonaktiebolaget Lm Ericsson (Publ) | Apparatus and methods for indexing multimedia content |
CN106127796B (zh) | 2012-03-07 | 2019-03-26 | 奥林巴斯株式会社 | 图像处理装置和图像处理方法 |
WO2013133370A1 (ja) * | 2012-03-08 | 2013-09-12 | オリンパス株式会社 | 画像処理装置、プログラム及び画像処理方法 |
EP2839770A4 (en) | 2012-04-18 | 2015-12-30 | Olympus Corp | Image processing device, program and image processing method |
US9633015B2 (en) | 2012-07-26 | 2017-04-25 | Telefonaktiebolaget Lm Ericsson (Publ) | Apparatus and methods for user generated content indexing |
US20140089803A1 (en) * | 2012-09-27 | 2014-03-27 | John C. Weast | Seek techniques for content playback |
US10691737B2 (en) * | 2013-02-05 | 2020-06-23 | Intel Corporation | Content summarization and/or recommendation apparatus and method |
JP2016517640A (ja) * | 2013-03-06 | 2016-06-16 | トムソン ライセンシングThomson Licensing | ビデオの画像サマリ |
WO2014134802A1 (en) * | 2013-03-06 | 2014-09-12 | Thomson Licensing | Pictorial summary for video |
US10445367B2 (en) | 2013-05-14 | 2019-10-15 | Telefonaktiebolaget Lm Ericsson (Publ) | Search engine for textual content and non-textual content |
US10311038B2 (en) | 2013-08-29 | 2019-06-04 | Telefonaktiebolaget Lm Ericsson (Publ) | Methods, computer program, computer program product and indexing systems for indexing or updating index |
WO2015030646A1 (en) | 2013-08-29 | 2015-03-05 | Telefonaktiebolaget L M Ericsson (Publ) | Method, content owner device, computer program, and computer program product for distributing content items to authorized users |
US9583105B2 (en) * | 2014-06-06 | 2017-02-28 | Microsoft Technology Licensing, Llc | Modification of visual content to facilitate improved speech recognition |
CN104202657B (zh) * | 2014-08-29 | 2018-09-18 | 北京奇虎科技有限公司 | 对同主题视频组中的多个视频选择播放的方法及装置 |
CN104202658A (zh) * | 2014-08-29 | 2014-12-10 | 北京奇虎科技有限公司 | 视频分组播放的方法及*** |
CN104268504B (zh) * | 2014-09-02 | 2017-10-27 | 百度在线网络技术(北京)有限公司 | 图片识别方法和装置 |
KR102340196B1 (ko) * | 2014-10-16 | 2021-12-16 | 삼성전자주식회사 | 동영상 처리 장치 및 방법 |
CN105989067B (zh) * | 2015-02-09 | 2019-09-03 | 华为技术有限公司 | 从图片生成文本摘要的方法、用户设备及训练服务器 |
BR112017028019A2 (pt) * | 2015-06-24 | 2018-08-28 | Thomson Licensing | entrega sequencial de conteúdo otimizado por eliminação de segmentos redundantes |
CN105228033B (zh) * | 2015-08-27 | 2018-11-09 | 联想(北京)有限公司 | 一种视频处理方法及电子设备 |
US10939187B1 (en) * | 2016-08-11 | 2021-03-02 | Amazon Technologies, Inc. | Traversing a semantic graph to process requests for video |
RU2637998C1 (ru) * | 2016-09-12 | 2017-12-08 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система создания краткого изложения цифрового контента |
US10362340B2 (en) | 2017-04-06 | 2019-07-23 | Burst, Inc. | Techniques for creation of auto-montages for media content |
US10255502B2 (en) | 2017-05-18 | 2019-04-09 | Wipro Limited | Method and a system for generating a contextual summary of multimedia content |
US11363352B2 (en) * | 2017-09-29 | 2022-06-14 | International Business Machines Corporation | Video content relationship mapping |
US11039177B2 (en) | 2019-03-19 | 2021-06-15 | Rovi Guides, Inc. | Systems and methods for varied audio segment compression for accelerated playback of media assets |
US10708633B1 (en) | 2019-03-19 | 2020-07-07 | Rovi Guides, Inc. | Systems and methods for selective audio segment compression for accelerated playback of media assets |
US11102523B2 (en) * | 2019-03-19 | 2021-08-24 | Rovi Guides, Inc. | Systems and methods for selective audio segment compression for accelerated playback of media assets by service providers |
CN110324709A (zh) * | 2019-07-24 | 2019-10-11 | 新华智云科技有限公司 | 一种视频生成的处理方法、装置、终端设备及存储介质 |
US11361515B2 (en) * | 2020-10-18 | 2022-06-14 | International Business Machines Corporation | Automated generation of self-guided augmented reality session plans from remotely-guided augmented reality sessions |
CN113784174A (zh) * | 2021-01-21 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 生成视频预览动态图的方法、装置、电子设备及介质 |
CN114697760B (zh) | 2022-04-07 | 2023-12-19 | 脸萌有限公司 | 一种处理方法、装置、电子设备及介质 |
CN114697762B (zh) * | 2022-04-07 | 2023-11-28 | 脸萌有限公司 | 一种处理方法、装置、终端设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10112835A (ja) * | 1996-10-04 | 1998-04-28 | Matsushita Electric Ind Co Ltd | 映像要約方法および映像表示方法 |
EP1067800A1 (en) * | 1999-01-29 | 2001-01-10 | Sony Corporation | Signal processing method and video/voice processing device |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6535639B1 (en) * | 1999-03-12 | 2003-03-18 | Fuji Xerox Co., Ltd. | Automatic video summarization using a measure of shot importance and a frame-packing method |
US6331859B1 (en) * | 1999-04-06 | 2001-12-18 | Sharp Laboratories Of America, Inc. | Video skimming system utilizing the vector rank filter |
US6763069B1 (en) | 2000-07-06 | 2004-07-13 | Mitsubishi Electric Research Laboratories, Inc | Extraction of high-level features from low-level features of multimedia content |
US6925455B2 (en) * | 2000-12-12 | 2005-08-02 | Nec Corporation | Creating audio-centric, image-centric, and integrated audio-visual summaries |
US7203620B2 (en) * | 2001-07-03 | 2007-04-10 | Sharp Laboratories Of America, Inc. | Summarization of video content |
AU2002351310A1 (en) | 2001-12-06 | 2003-06-23 | The Trustees Of Columbia University In The City Of New York | System and method for extracting text captions from video and generating video summaries |
US7333712B2 (en) * | 2002-02-14 | 2008-02-19 | Koninklijke Philips Electronics N.V. | Visual summary for scanning forwards and backwards in video content |
AU2003223639A1 (en) | 2002-04-15 | 2003-11-03 | The Trustees Of Columbia University In The City Of New York | Methods for selecting a subsequence of video frames from a sequence of video frames |
US20040088723A1 (en) | 2002-11-01 | 2004-05-06 | Yu-Fei Ma | Systems and methods for generating a video summary |
US7480442B2 (en) | 2003-07-02 | 2009-01-20 | Fuji Xerox Co., Ltd. | Systems and methods for generating multi-level hypervideo summaries |
US20070061352A1 (en) | 2003-12-03 | 2007-03-15 | Koninklijke Philips Electronic, N.V. | System & method for integrative analysis of intrinsic and extrinsic audio-visual |
US8200063B2 (en) * | 2007-09-24 | 2012-06-12 | Fuji Xerox Co., Ltd. | System and method for video summarization |
-
2007
- 2007-02-27 KR KR1020087024287A patent/KR20080114786A/ko not_active Application Discontinuation
- 2007-02-27 WO PCT/IB2007/050622 patent/WO2007099496A1/en active Application Filing
- 2007-02-27 BR BRPI0708456-0A patent/BRPI0708456A2/pt not_active IP Right Cessation
- 2007-02-27 EP EP07713175A patent/EP1999646A1/en not_active Withdrawn
- 2007-02-27 US US12/281,005 patent/US8204317B2/en not_active Expired - Fee Related
- 2007-02-27 JP JP2008556901A patent/JP2009528756A/ja active Pending
- 2007-02-27 RU RU2008139306/08A patent/RU2440606C2/ru not_active IP Right Cessation
- 2007-02-27 CN CN2007800077478A patent/CN101395607B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10112835A (ja) * | 1996-10-04 | 1998-04-28 | Matsushita Electric Ind Co Ltd | 映像要約方法および映像表示方法 |
EP1067800A1 (en) * | 1999-01-29 | 2001-01-10 | Sony Corporation | Signal processing method and video/voice processing device |
Non-Patent Citations (4)
Title |
---|
JPN5009000809; MINERVA M YEUNG: 'Video Visualization for Compact Presentation and Fast Browsing of Pictorial Content' IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY V7 N5, 199710, P771-785, IEEE SERVICE CENTER * |
JPN5009000810; ERKAN G: 'LexRank: Graph-based Centrality as Salience in Text Summarization' JOURNAL OF ARTIFICIAL INTELLIGENCE RESEARCH V22, 2004, P1-23, AI ACCESS FOUNDATION & MORGAN 以下備考 * |
JPN5009000811; YEUNG M: 'Segmentation of Video by Clustering and Graph Analysis' COMPUTER VISION AND IMEGE UNDERSTANDING V71 N1, 199807, P94-109, ACADEMIC PRESS * |
JPN5009000812; XIAODI HUANG: 'NODERANK: A NEW STRUCTURE BASED APPROACH TO INFORMATION FILTERING' Proceedings of the international conference on internet computing IC'03 V197, 20030623, P166-173, CSREA PRESS * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013539250A (ja) * | 2010-07-20 | 2013-10-17 | トムソン ライセンシング | トリック・モード動作の間にコンテンツを再生出力する方法 |
JP2014516222A (ja) * | 2011-05-18 | 2014-07-07 | インテレクチュアル ベンチャーズ ファンド 83 エルエルシー | 興味の特徴を含むビデオサマリー |
Also Published As
Publication number | Publication date |
---|---|
US8204317B2 (en) | 2012-06-19 |
CN101395607B (zh) | 2011-10-05 |
US20090041356A1 (en) | 2009-02-12 |
WO2007099496A1 (en) | 2007-09-07 |
RU2008139306A (ru) | 2010-04-10 |
EP1999646A1 (en) | 2008-12-10 |
CN101395607A (zh) | 2009-03-25 |
BRPI0708456A2 (pt) | 2011-05-31 |
RU2440606C2 (ru) | 2012-01-20 |
KR20080114786A (ko) | 2008-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8204317B2 (en) | Method and device for automatic generation of summary of a plurality of images | |
JP7498640B2 (ja) | ローカライズされたコンテキストのビデオ注釈を生成するためのシステム及び方法 | |
Sundaram et al. | A utility framework for the automatic generation of audio-visual skims | |
US7698721B2 (en) | Video viewing support system and method | |
US8750681B2 (en) | Electronic apparatus, content recommendation method, and program therefor | |
JP4920395B2 (ja) | 動画要約自動作成装置、方法、及びコンピュータ・プログラム | |
JP2006319980A (ja) | イベントを利用した動画像要約装置、方法及びプログラム | |
US20070136755A1 (en) | Video content viewing support system and method | |
US20130006625A1 (en) | Extended videolens media engine for audio recognition | |
JP4873018B2 (ja) | データ処理装置、データ処理方法、及び、プログラム | |
JP2004533756A (ja) | 自動コンテンツ分析及びマルチメデイア・プレゼンテーションの表示 | |
JP2008529338A (ja) | プロダクトプレイスメントを含むトレイラの自動生成 | |
EP0786115A1 (en) | System and method for skimming digital audio/video data | |
TW200537941A (en) | Replay of media stream from a prior change location | |
KR20150093425A (ko) | 콘텐츠 추천 방법 및 장치 | |
JP2008205745A (ja) | 映像再生装置および方法 | |
JP4192703B2 (ja) | コンテンツ処理装置、コンテンツ処理方法及びプログラム | |
EP2104937A1 (fr) | Procede de creation d'un nouveau sommaire d'un document audiovisuel comportant deja un sommaire et des reportages et recepteur mettant en uvre le procede | |
Gagnon et al. | A computer-vision-assisted system for videodescription scripting | |
Tseng et al. | Hierarchical video summarization based on context clustering | |
JP5088119B2 (ja) | データ生成装置、データ生成プログラムおよび情報処理装置 | |
US20230223048A1 (en) | Rapid generation of visual content from audio | |
WO2014027475A1 (ja) | 記録再生装置、記録再生方法、記録装置及び再生装置 | |
Dimitrova et al. | Visual Associations in DejaVideo | |
Dong et al. | Educational documentary video segmentation and access through combination of visual, audio and text understanding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100225 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120501 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120510 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121011 |