JP2010505176A - サマリ生成方法 - Google Patents
サマリ生成方法 Download PDFInfo
- Publication number
- JP2010505176A JP2010505176A JP2009529825A JP2009529825A JP2010505176A JP 2010505176 A JP2010505176 A JP 2010505176A JP 2009529825 A JP2009529825 A JP 2009529825A JP 2009529825 A JP2009529825 A JP 2009529825A JP 2010505176 A JP2010505176 A JP 2010505176A
- Authority
- JP
- Japan
- Prior art keywords
- segment
- segments
- cut point
- importance
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000004364 calculation method Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000005259 measurement Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000819038 Chichester Species 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Television Signal Processing For Recording (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
各セグメントが各自のセグメント重要度を有する複数のセグメントを有するコンテンツアイテムのサマリを生成する方法。本方法は、各ポテンシャルカットポイントが2つのセグメントの間の境界となる複数のポテンシャルカットポイントのそれぞれについて、該ポテンシャルカットポイントに配列された前記2つのセグメントのコンテンツ特性に基づくカットポイント重要度を導出するステップと、前記セグメント重要度と前記カットポイント重要度との組み合わせに基づき選択される前記コンテンツアイテムの複数のセグメントのサブセットを有するサマリを生成するステップとを有する。
Description
本発明は、各セグメントが各自の重要度を有する複数のセグメントを有するコンテンツアイテムのサマリを生成する方法に関する。
近年、ビデオキャプチャ機能を備えたコンシューマ装置の利用性及び入手容易性が増大してきた。これは、ユーザが生活において経験した多数のイベントを記録することを可能にする。さらにこれは、1人のユーザにより生成されるオーディオビジュアルマテリアルの数量を膨大なものにする。完全な長さの記録物を試聴することは、面白いオーディオビジュアルマテリアルとあまり面白くないオーディオビジュアルマテリアルとが混在しているとき、時間を浪費し、退屈なものとなりえる。任意のオーディオビジュアルコンテンツアイテムのサマリを生成するための各種技術が開発されてきた。
A.Girgensohn,J.Boreczkyらによる“A semi−automatic approach to home video editing”(CHI Letters,2000,vol.2,p.81−89)による刊行物は、ユーザが標準的なビデオカメラにより生のビデオショットからカスタムビデオを容易に生成することを可能にするシステムを開示している。当該システムは、生ビデオの各部分の適合性を決定するための自動解析を利用する。適合しないビデオは高速又は不安定なカメラの動きを有している。この解析に基づき、ビデオの各フレームについて数値的な“不適合”度が計算される。編集ルールと組み合わせて、この不適合度は、最終的なビデオサマリに含めるセグメント(オリジナルの刊行物では、“クリップ”という用語が使用されている)を特定し、それらのスタート及びエンドポイントを選択するのに利用される。カスタムビデオを生成するため、ユーザは、所望のセグメントに対応するキーフレームをサマリにドラッグすることによって、セグメントを選択する。
上記方法は、カメラの動きに関するコンテンツ解析に基づき、サマリに含めるのに適したセグメントを選択することを可能にするのみである。選択されたセグメントは同質なクオリティのビデオマテリアルについてカメラの動きに関して高いクオリティを有する可能性があるが、これは、ユーザによるセグメントのランダムな選択を生じさせる。
本発明の課題は、上記状況を少なくとも部分的に軽減する、各セグメントが各自の重要度を有する複数のセグメントを有するコンテンツアイテムのサマリを生成する方法を向上させることである。
上記課題は、本発明によると、各ポテンシャルカットポイントが2つのセグメントの間の境界となる複数のポテンシャルカットポイントのそれぞれについて、該ポテンシャルカットポイントに配列された前記2つのセグメントのコンテンツ特性に基づくカットポイント重要度を導出するステップと、前記セグメント重要度と前記カットポイント重要度との組み合わせに基づき選択される前記コンテンツアイテムの複数のセグメントのサブセットを有するサマリを生成するステップとを有する上述した方法により実現される。
コンテンツアイテムは、いくつかのセグメントを有する。ポテンシャルカットポイントは、隣接する2つのセグメントの間の境界、すなわち、セグメントの分離が可能性として行われうるコンテンツアイテムのポイントとして定義される。本発明によると、各ポテンシャルカットポイントについて、カットポイント重要度が導出される。特定のポテンシャルカットポイントのカットポイント重要度は、ポテンシャルカットポイントに隣接する2つのセグメントのコンテンツ特性に基づく。コンテンツ特性は、例えば、輝度やオーディオレベルなどの各成分を有する。このとき、本発明は、サマリを構成させるべきセグメントを選択するため、効果的にカットポイント重要度とセグメント重要度とを組み合わせる。
結果として得られるサマリは、向上した、すなわち、より整合性のあるセグメントの選択をサマリに提供し、当該サマリはユーザに提供される提示クオリティを向上させる。
一実施例では、ポテンシャルカットポイントのカットポイント重要度は、当該ポテンシャルカットポイントに配列された2つのセグメントに対応するコンテンツ特性の加重ノルムの絶対差である。コンテンツ特性の各成分は異なる特徴に対応し、このため、これらの成分の各値は異なる範囲のものである。これら異なる成分の値は、それらを同一の範囲にさせ、それらの比較を可能にするよう加重によりスケーリングされる。加重ノルムの各加重は、特定の成分の関連性を表すのに利用可能である。加重ノルムは1次元であり、このため、カットポイントに配列されるセグメントに対応する多次元コンテンツ特性の容易な比較を可能にする。配列されるセグメントの加重ノルムの差分が、ポテンシャルカットポイントのカットポイント重要度をもたらす。
一実施例では、ポテンシャルカットポイントは、近傍のセグメントのコンテンツ特性の少なくとも1つの成分の有意な変化において決定される。コンテンツ特性の少なくとも1つの成分の有意な変化は、カットポイント重要度の増加をもたらす。カットポイント重要度が高くなるに従って、ポテンシャルカットポイントはより適合したものとなる。従って、特に妥当に同質なビデオコンテンツに対して、コンテンツ特性の少なくとも1つの成分の実質的な変化が起こるポイントにポテンシャルカットポイントを配置することが効果的である。
一実施例では、サマリに含まれるべきセグメントのサブセットの適合性は、適合度により測定され、適合度は、セグメントのサブセットに属するセグメントのセグメント重要度と、連続するセグメントのグループを、当該グループに属する各セグメントの間のポテンシャルカットポイントの有意でないカットポイント重要度により区切るポテンシャルカットポイントの有意なカットポイント重要度との加重和である。ここで「有意でない」とは、ポテンシャルカットポイントの重要度の値でなく、適合度への寄与が小さいと判断されたポテンシャルカットポイントの選択を意味する。加重和における加重の利用は、セグメント重要度とカットポイント重要度との間で区別することを可能にする。例えば、セグメント重要度のものより低いカットポイント重要度の加重は、ユーザがコンテンツセグメントの間の移行に関連するコンテンツの提示より、実際のコンテンツにより注目することを意味する。
一実施例では、サマリに含まれるよう選択されたセグメントのサブセットは、最も高い適合度を有する。カットッポイント重要度と共にセグメント重要度に基づき、サマリの各種セグメントサブセットが選択可能である。可能なサマリのうちでベストな選択をするため、適合度が利用される。適合度が高くなるほど、サマリは良好になる。
一実施例では、ポテンシャルカットポイントは、カメラショットの境界に決定され、当該カメラショットは、記録の連続するスタートとストップとの間で記録される連続するビデオコンテンツである。これは、妥当に同質なビデオコンテンツについて、セグメント内のカメラショットの境界の配置を防ぐ。サマリにこのようなセグメントを含めることは、ビデオのさらなる他のカットポイントとして認識されるであろう。カメラショットの境界がポテンシャルカットポイントの近くに配置される場合、これは、ユーザを苛つかせるものとなりうる。カメラショットの境界にポテンシャルカットポイントを配列することは、この苛つかせる減少の発生を防ぐ。
一実施例では、セグメントのサイズは所定の最小セグメントサイズより小さくなく、所定の最大セグメントサイズより大きくない。最大セグメントサイズは、セグメントが長すぎるものになるのを回避する。これは特に、最大セグメントサイズが利用されない場合、可能性として最終的にサマリとなりうる極めて長い(おそらく面白くない)セグメントが生成可能な同質のビデオコンテンツに関連する。限定されたサイズを有するセグメントを有することは、同質なビデオコンテンツの内部のコンテンツ特性の変化のより良好な利用を可能にする。
他方、セグメントを小さくしすぎる(1フレームなど)ことは非現実的であり、サマリに含まれる短いセグメントの選択に対してなされうる選択回数を膨大なものにする。セグメントサイズについて最大値/最小値の制約を設定することは、短い場面をキャプチャするのに十分なセグメントとポテンシャルカットポイントの豊富な選択をもたらし、同時に、長すぎないためサマリ全体が長くなりすぎることが回避される。それはまた、サマリに到達するのに必要な計算複雑さに対する制御を可能にする。より大きなセグメントセットについて、サマリに到達するのにより多くの計算労力が必要とされる。
一実施例では、ポテンシャルカットポイントは、許容されるポテンシャルカットポイントのうち最も高いカットポイント重要度を有するよう選択され、許容されるポテンシャルカットポイントは、所定の最小セグメントサイズより小さくなく、所定の最大セグメントサイズより大きくないセグメントサイズを提供する。すなわち、本実施例は、セグメントサイズが所定の範囲内に留まることと、カットポイント重要度により測定された適合性が所定の範囲内に留まることを保証する可能性のあるすべてのポテンシャルカットポイントから最も適したポテンシャルカットポイントを選択することを可能にする。
一実施例では、最小及び最大セグメントサイズは、ユーザにより明示的に提供される。ユーザは、自らがビデオコンテンツをキャプチャし、何れのタイプのイベントがビデオにキャプチャされているか知っているため、何れが最小及び最大セグメントサイズに適した値であるかの大まかな考えを有している。
最大/最小セグメントサイズのユーザの選択はまた、ユーザがビデオコンテンツにキャプチャされたイベントに与えることを所望する注目スパンを反映している。さらに、最大及び最小セグメントサイズの設定により、ユーザはサマリを生成するのに費やすことを所望する時間に影響を与える。それらが小さくなるほど、より多くのセグメント及びポテンシャルカットポイントが利用可能であり、これにより、サマリに適したセグメントの選択をするのにより多くの計算時間が必要とされる。
一実施例では、サマリのサイズはユーザにより与えられる。それは、ユーザが自ら進んでサマリを視聴するのに費やす時間を指定することを可能にする。休暇中にキャプチャされたビデオコンテンツを考える。サマリのサイズは、ユーザが一人で又は休暇の友人と一緒に結果としてのサマリを視聴する状況では大きなものとなりうる。ユーザが友人とサマリを視聴するとき、ユーザは休暇の最も重要なハイライトのみを見せたいため、サマリサイズは短いものとなりうる。
一実施例では、所定のサイズを提供するサマリに選択されたセグメントのサブセットは、最も高い適合度を有する。対象とされるサマリサイズは、セグメントの様々な選択により実現可能である。可能なすべての選択のうちでベストなサマリは、ベストなコンテンツ選択と提示クオリティとを提供する最も高い適合度を有する。
本発明はさらに、本発明による方法に使用される装置を提供する。装置及び方法の効果的な実施例が従属クレームに与えられる。
本発明の上記及び他の特徴は、図面に示される実施例を参照して明らかにされるであろう。
図1は、対応するサマリによりコンテンツアイテムを概略的に示す。
図2は、特定のポテンシャルカットポイントに配列された2つのセグメントのコンテンツ特性に基づくポテンシャルカットポイントのカットポイント重要度を示す。
図3は、本発明によるサマリを生成する方法の各ステップを有するフローチャートを示す。
図4は、適合度により測定される適合性を有するサマリに構成される一例となるセグメントのサブセットを示す。
図5は、サマリに構成されるため選択されたサブセットが最も高い適合度を有するセグメントのサブセットの2つの具体例を示す。
図6は、カメラショットが記録物の連続するスタートとストップとの間で記録された連続的なビデオコンテンツであるカメラショット境界においてポテンシャルカットポイントが決定されることを概略的に示す。
図7は、所定の最小セグメントサイズより小さくなく、所定の最大セグメントサイズより大きくないセグメントサイズを提供する許容されるポテンシャルカットポイントのうち最も高いカットポイント重要度を有するよう選択されたポテンシャルカットポイントを概略的に示す。
図8は、本発明の方法を実現するよう構成される装置を示す。 図面を通じて、同一の参照番号は同様の又は対応する特徴を示す。図面に示される特徴の一部は、典型的には、ソフトウェアにより実現され、ソフトウェアモジュール又はオブジェクトなどのソフトウェアエンティティを表す。
図1は、対応するサマリ110によりコンテンツアイテム100を概略的に示す。コンテンツアイテム100は、第1セグメント101−1からエンドセグメント101−7までの複数のセグメントを有する。各セグメントを決定するための周知な方法が多数存在する。そのうちの1つは、セグメントを手動により決定することである。他の方法は、例えば、John Boreczky,Andreas Girgensohn,Gene Golovchinsky及びShingo Uchihashiによる“An Interactive Comic Book Presentation for Exploring Video”(In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems(The Hague,Netherlands),ACM,pp.185−192)に記載される方法などを利用することによって、セグメント化を自動化するものである、上述されたセグメント化方法は、単なる一例であり、他の方法もまた可能である。
コンテンツアイテム100に関する各セグメントは、各セグメントを表すボックスに記載される数値により示される各セグメントの重要度を有する。これらのセグメントの重要度は、主観的なセグメントの重要度又は客観的なセグメントの重要度である。主観的なセグメントの重要度は、手動により導入され、例えば、コンテンツアイテムの監督又は構成者などの誰かの判断を直接反映した数値である。あるいは、客観的なセグメントの重要度は、人手による介入なくセグメントに含まれるコンテンツに基づき計算される。客観的なセグメントの重要度の計算は、例えば、Barbieri M.,Weda H.,Dimitrova N.による“Browsing Video Recordings Using Movie−in−a−Minute”(Proc.of the IEEE International Conference on Consumer Electronics,ICCE2006,pp.301−302,January 7−11,2006,Las Vegas,USA)などに記載されている。
ポテンシャルカットポイント(potential cut point)が、各セグメントの境界に規定される。コンテンツアイテム100に対応するポテンシャルカットポイントは、ポテンシャルカットポイント102−1〜102−8であり、垂直方向の破線により示される。これらのポテンシャルカットポイントは、セグメント102−2〜102−7の各2つのセグメントの間の境界と共に、コンテンツアイテム100の第1セグメント102−1と最終セグメント102−8のエンド境界とを含む。コンテンツアイテムについて規定される各ポテンシャルカットポイントは、ポテンシャルカットポイントの下に直接設けられた数値により示される各自のカットポイント重要度を有する。カットポイントの重要度の導出が、図2を参照して説明される。
サマリ110は、各セグメントの重要度とカットポイントの重要度とに基づき選択されたコンテンツアイテムの複数のセグメントのサブセットを有する。セグメント104は、選択されたセグメントの1つである。セグメント104のボックスの細い実線は、当該セグメントがサマリ110に選択されたことを示している。セグメント103のボックスの破線は、当該セグメントがサマリ110に選択されていないことを示す。
図1に示される具体例では、サマリはセグメント101−2〜101−5を有する。選択されたすべてのセグメントは、5より大きな重要度を有する。しかしながら、セグメント101−6は、すべてのセグメントのうちで最も高いセグメント重要度を有するが、サマリ110には含まれていない。これは、当該セグメントに先行するポテンシャルカットポイント102−6が、17という高いカットポイント重要度により表される極めて適したカットポイントであるためである。当該セグメントに後続するポテンシャルカットポイント102−7は、2という極めて低いカットポイント重要度を有し、それは、適しているカットポイントでないことを意味している。セグメント重要度とカットポイント重要度とに基づくサマリ110のセグメントの選択の詳細が、図3を参照して説明される。
コンテンツアイテム100は、好ましくは、オーディオビジュアルコンテンツを有する。コンテンツアイテム100は、好ましくは、音楽、ビデオ、ムービー、クリップ、マルチメディアコンテンツ、グラフィックスなどを有する。
図2は、ポテンシャルカットポイントに配列(aligned)された2つのセグメントのコンテンツ特性に基づく特定のポテンシャルカットポイントのカットポイント重要度を示す。図2は、2つの連続するセグメント101−iと101−jを示す。これら2つのセグメントの間のポテンシャルカットポイントは、102−ijである。各セグメントは、係るコンテンツ特性201−iと201−jを有する。コンテンツ特性は、各成分のベクトルとして示され、セグメントiについて、コンテンツ特性201−iは、
ポテンシャルカットポイント102−ijに配列されたセグメントのコンテンツ特性の相違は、対応するカットポイント重要度pijに反映される。
コンテンツ特性という用語は、コンテンツに係る説明又は他のメタデータを含むコンテンツ自体の特性を意味する。コンテンツ特性の具体例として、ルミナンスレベル、色相及び彩度レベル、オーディオボリュームレベル、オーディオ分類(発話、音楽、ノイズ、群衆など)、発話検出及びセンテンス境界検出、カメラの動き(パン、ティルト、ズームなど)、動きぼやけ、フォーカスぼやけ、ショットタイプ(ロング、ショート、クローズアップなど)、顔検出及び他の多くがあげられる。他方、タイトル、監督、俳優、コンテンツ若しくはコンテンツのセグメントのキーワードなどの各アイテムは、当該用語が本文献で使用されるとき、コンテンツ特性ではない。各コンテンツ特性は、セグメントに構成されるコンテンツについて測定可能であり、各コンテンツ特性にある所定の最大値に対する値が与えられる。
通常、セグメントはフレーム系列などを有する。コンテンツ特性の値は、例えば、セグメントに関するフレームに対応するコンテンツ特性の値の算術平均又は最小値などとすることが可能である。あるいは、このような平均値は、特定のフレームのサブセットについて計算可能である。例えば、セグメント内に均一に離間した所定数のフレームについて、又はコンテンツに基づきセグメントを代表すると考えられるフレームについてなどである。セグメントに対応するコンテンツ特性値を計算する方法は、周知である。例えば、Barbieri M.,Weda H.,Dimitrova N.による“Browsing Video Recordings Using Movie−in−a−Minute”(Proc.of the IEEE International Conference on Consumer Electronics,ICCE2006,pp.301−302,January 7−11,2006,Las Vegas,USA)などに、セグメント重要度の計算が説明される。
コンテンツに関する特定のコンテンツ特性を測定するため、コンテンツを完全に又は部分的に復号化することが必要であるかもしれない。カムコーダ機能を備えた現在の装置にしばしば備えられるオーディオビジュアルコンテンツに使用されるフォーマットは、MPEG2、MPEG4又はDV(Digital Video)である。しかしながら、他のフォーマットが排除されるものでない。
ポテンシャルカットポイントに配列されたセグメントのコンテンツ特性の成分の少なくとも1つの有意な変化が、カットポイント重要度の値の有意な変化をもたらすように、カットポイント重要度が計算される。コンテンツ特性の各種成分の比較を可能にするため、コンテンツ特性に基づき計算された1次元ノルムが利用可能である。このようなノルムの一例は、古典的なユークリッド距離である。
一実施例では、ポテンシャルカットポイントのカットポイント重要度は、当該ポテンシャルカットポイントに配列された2つのセグメントに対応するコンテンツ特性の重み付けされたノルムの絶対差である。セグメントiについて、加重ノルムは加重ユークリッド距離であり、
これらの加重は、コンテンツアイテムにおいて規定されるポテンシャルカットポイントのカットポイント重要度計算について固定される。あるいは、加重は、ビデオコンテンツの詳細に依存してコンテンツアイテムに沿って可変とすることができる。例えば、発話を有するセグメントが発話のないセグメントより所望されるため、発話検出が大変重要となる。特に、センテンスのスタートとエンドは、これらがビデオをカットするため大変適したポイントであるため、ポテンシャルカットポイントを設けるのに関連性がある。これは、発話に関する加重の値に反映させることができる。発話関連加重は、発話を有するセグメントについて増幅可能であるが、発話のない風景などを有するセグメントについては極めて低い値に設定されうる。
さらに、コンテンツアイテムの同質なビデオ部分について、コンテンツ特性の成分の一部の小さな変動が増幅されるように、加重を選択することができる。すなわち、加重ノルムは、小さな成分変動により敏感である。しかしながら、成分に対応する加重の選択は、成分の一部のノイズ性のローカルな変動が誤って増幅されることがないように経時的に観察されるとき、コンテンツ特性に注意深くしっかりと依存されるべきである。
図3は、本発明によるサマリ生成方法の各ステップを有するフローチャートを示す。ステップ301は、コンテンツアイテムに対応する生ビデオコンテンツをインポートすることを含む。ステップ302は、インポートされたコンテンツアイテムからコンテンツ特性を抽出することを含む。このステップでは、各フレームについてコンテンツ特性が導出される。あるいは、計算複雑さを低減するため、一定数のフレーム毎のコンテンツ特性を計算することも可能である。他には、フレームグループについて平均的なコンテンツ特性を計算することである。これらは、コンテンツ特性がどのように計算可能であるかの単なる一例であり、コンテンツ特性を決定する他の方法もまた可能である。
ステップ303において、コンテンツアイテムがセグメント化される。このステップは、次にセグメントの境界を決定するポテンシャルカットポイントを決定することを含む。このセグメント化は多数の方法により実現可能であり、例えば、コンテンツアイテムを固定サイズのセグメントに分割し、又は図7に説明されるように、コンテンツ特性に基づき適切なポテンシャルカットポイントをより高度に検索することを含みうる。これらは、セグメント化の単なる2つの具体例であり、セグメント化されたコンテンツアイテムに到達する他の方法もまた可能である。ステップ304及び305は、互いに独立に実行可能である。
ステップ304は、セグメント重要度を導出することを含み、ステップ305は、ポテンシャルカットポイント重要度を導出することを含む。これら2つのステップは独立したステップとして導かれるが、これら2つのステップがおそらく同様の計算を要することを考慮して、実際の実現では組み合わせることも可能である。
ステップ304と305の結果は、自動編集を有するステップ306に続く。このステップがさらに、より詳細に示される。ステップ306−1では、サマリにおそらく構成可能ないくつかのセグメントサブセットが選択される。サブセットへのセグメントの選択は、それらのセグメント重要度に基づくものとすることが可能である。例えば、特定の閾値を超えるセグメント重要度を有するすべてのセグメントが、サマリに含まれるべき候補として考えられる。このようなセットから、いくつかのサブセットが、追加的な制約を充足するよう選択される。このような追加的な制約は、例えば、ある許容範囲が選択されたセグメントサブセットにより充足されるべきユーザにより所望されるサマリサイズ、又は選択されたトピックをカバーするサマリ時間の少なくとも60%を含むサブセットなどのコンテンツアイテムから生成されるサマリによりカバーされるべき選択されたトピックなどである。
その後、ステップ306−2において、セグメント重要度とポテンシャルカットポイント重要度の両方の関数であるコスト関数が評価される。
コスト関数は、例えば、すべてのセグメント重要度と、サマリに含まれるよう選択されたセグメントに係るすべてのポテンシャルカットポイント重要度との加重和などとすることが可能である。上述したコストは単なる一例であり、セグメント重要度とポテンシャルカットポイント重要度を利用したコスト関数を決定する他の方法もまた可能である。これら他の方法は、コスト関数の式に追加的な制約を含めることも可能である。このような制約の一例は、ユーザにより所望されるサマリサイズ、又はコンテンツアイテムから生成されるサマリによりカバーされるべき選択されたトピックにより予め決定することも可能である。
ステップ306−3において、ベストなセグメントサブセットは、選択されたサブセットに対応して評価されたコスト関数に基づき選択される。このベストサブセットの選択は、サマリが構成され、ユーザに出力されるステップ307に続く。
図4は、適合度により適合性が測定されるサマリに含まれる一例となるセグメントサブセットを示す。図4は、対応するサマリ110によりコンテンツアイテムを示す。サマリは、セグメント101−2〜101−5を有する。
セグメントサブセットに対応する適合度は、セグメントサブセットに属する各セグメントのセグメント重要度と、連続する各セグメントのグループを、当該グループに関する各セグメント間のポテンシャルカットポイントの有意でないカットポイント重要度により区切るポテンシャルカットポイントの有意なカットポイント重要度との加重和である。ここでの「有意でない(insignificant)」とは、ポテンシャルカットッポイントの重要度の値でなく、適合度にあまり貢献しないと決定されたポテンシャルカットッポイントの選択を意味する。
サマリ110に選択されたセグメントに対応するセグメント重要度の和は37である。この和の計算は、太い実線の矢印により記号表示される。選択されたセグメントは、ポテンシャルカットピント102−2と102−6により区切られた1つのセグメントグループを形成する。それらに対応するカットポイント重要度の和は32である。この和の計算は、細い実線の矢印により記号表示される。重み付けが適用されていない場合、適合度sは、上記計算されたセグメントの和とカットポイントの和、すなわち、それぞれ、37と32の和となり、69の適合度となる。
セグメントとポテンシャルカットポイントの間の区別が所望されるとき、この加重が利用される。これは、セグメントコンテンツが、サマリにおいて選択された各セグメントが互いに配列される方法よりユーザにとって重要性が高いケースである。
あるいは、サマリについて選択されたセグメントのサブセットの適合性を評価する他の方法がまた利用可能である。例えば、セグメントのすべての可能な組み合わせが規定可能であり、セグメント重要度とカットポイント重要度に基づくそれらの適合性が、いくつかの度数測定により評価可能である。制約と最適化(最大化又は最小化)すべき度数測定関数の計算モデルが与えられると、セグメント選択の問題は、例えば、Aarts E.H.L.,Lenstra J.K.による“Local Search in Combinatorial Optimization”(John Wiley&Sons,Chichester,England,1997)などに記載されるように、制約ロジックプログラミング又はローカル検索技術などの周知の技術を用いて解くことができる制約付き最適化問題である。
図5は、サマリに含まれるよう選択されたサブセットが最も高い適合度を有する2つのセグメントサブセットの具体例を示す。図5において、サマリに含まれるべき2つの可能なセグメントサブセット110−aと110−bが示される。各サブセットは4つのセグメントを有する。サブセット110−aは、最も高いセグメント重要度を有する4つのセグメント、すなわち、セグメント101−2,101−4,101−5,101−6を有する。サブセット110−bは、セグメント101−2〜101−5を有し、14の重要度を有するセグメント101−6がはるかに低いセグメント重要度を有するセグメント101−3を支持して排除されることを許容する。セグメント101−3を選択する効果は、それがセグメント101−2から101−4へのよりスムーズな移行を提供することであり、ポテンシャルカットポイント102−3と102−4における極めて低いカットポイント重要度により表される。
選択110−aについて、各セグメント101−2,101−4,101−5,101−6のセグメント重要度の和は46となる。このサブセットに構成される2つのセグメントグループがあり、すなわち、孤立したセグメント101−2と、セグメント101−4〜101−6を有するグループとである。これらのグループを区切るポテンシャルカットポイントは、102−2,102−3,102−4,102−7である。これらのポテンシャルカットポイントに対応するカットポイントの度数の和は21である。このとき、1に設定された加重に対する適合度は、46+21=67である。
選択110−bについて、1に設定された加重に対する適合度は69である。選択110−bに対応する適合度が選択110−aのものより高いため、セグメント110−bのサブセットがサマリに選択される。
図6は、カメラショットが記録の連続的なスタートとストップとの間で記録された連続的なビデオコンテンツであるカメラショット境界においてポテンシャルカットポイントが決定されることを概略的に示す。コンテンツアイテム100−aは、カメラショット105−1〜105−4の境界を有する生ビデオを示す。コンテンツアイテム100−bは、コンテンツアイテム100−aに対応するセグメント化されたビデオコンテンツを示す。100−bにおけるセグメント境界102−1,102−2,102−6,102−8は、100−aにおける各カメラショット境界105−1,105−2,105−3,105−4と配列される。カメラショット境界は、ビデオコンテンツにマーカーを設定することによって、又はビデオコンテンツの解析によって維持可能である。DVビデオフォーマットについて、DVタイムスタンプの不連続性を検索することによって、カメラショットが容易に検出可能である。R.Lienhartによる“Comparison of Automatic Shot Boundary Detection Algorithms”(Proceedings of Storage and Retrieval for Image and Video Databases VII,January 1999,San Jose,USA,pp.290−301)など、他の多くのショットカット検出方法が知られている。
一実施例では、セグメントのサイズは所定の最小セグメントサイズより小さくなく、所定の最大セグメントサイズより大きくない。最大セグメントサイズは、セグメントが長すぎるものになることを防ぐ。これは特に、最大セグメントサイズが使用されない場合、最終的にサマリになってしまう可能性のある極めて長い(おそらく面白くない)セグメントが生成されうる同質なビデオコンテンツについて関係する。制限されたサイズのセグメントを有することは、同質なビデオコンテンツ内のコンテンツ特性の変化のより良好な利用を可能にする。
他方、セグメントを小さなものにしすぎる(1フレームなど)ことは非現実的であり、サマリに含まれる短いセグメントの選択するため行われる選択回数を膨大なものにする。セグメントサイズに最小値/最大値の制約を設定することは、短い作品をキャプチャするのに十分なセグメント及びポテンシャルカットポイントの豊富な選択をもたらし、同時に長すぎてサマリ全体が長すぎるものになることを防ぐことができなくなることを回避する。それはまた、サマリに到達するのに必要な計算複雑さに対する制御を可能にする。より大きなセグメントセットについて、サマリに到達するためのより大きな計算労力が必要とされる。
図7は、所定の最小セグメントサイズより小さくなく、所定の最大セグメントサイズより大きくないセグメントサイズを提供する許容されるポテンシャルカットポイントのうちで最も高いカットポイント重要度を有するような選択されるポテンシャルカットポイントを概略的に示す。生成されるセグメントのスタート境界は、ポテンシャルカットポイント102−pにある。102−pにおいてスタートする所定の最小セグメントサイズを有するセグメントが、108−aとして示される。102−pにおいてスタートする所定の最大セグメントサイズを有するセグメントが、108−bとして示される。生成されるセグメントのエンドは、双方のセグメントが102−pにおいてスタートする最大セグメントサイズを有するセグメントに属するが、最小セグメントサイズを有するセグメントにはないフレームの境界にあるポテンシャルカットポイントにある可能性がある。このポテンシャルカットポイントのセットは、許容される(admissible)と呼ばれる。このポテンシャルカットポイントセットから、最も適したポテンシャルカットッポイントが選択され、当該ポテンシャルカットッポイントが最も高いカットポイント重要度を有する。
一実施例では、最小セグメントサイズと最大セグメントサイズがユーザにより明示的に与えられる。ユーザは、自らビデオコンテンツをキャプチャし、ビデオに何れのタイプのイベントがキャプチャされているか知っているため、最小及び最大セグメントサイズに適した値が何れであるかについての大まかな考えを有している。認識の観点から、推奨される最小セグメントは約1〜2秒であり、それは25〜50フレームに相当する。推奨される最大サイズは、約10〜50秒であり、それは250〜1250フレームに相当する。
一実施例では、サマリのサイズはユーザにより与えられる。それは、ユーザがサマリを視聴するのに進んで費やす時間を指定することを可能にする。ユーザインタフェースが、ユーザがサマリのサイズを入力することを可能にするため設けられる。
一実施例では、所定サイズを提供するサマリに選択されるセグメントのサブセットは、最も高い適合度を有する。サマリサイズは、セグメントの各種選択により実現可能である。可能なすべての選択のうちでベストなサマリは、ベストなコンテンツ選択及び提示クオリティを提供する最も高い適合度を有する。
図8は、本発明の方法を実現するよう構成される装置802を示す。生ビデオコンテンツが、ハードディスク802−a又は他の記憶手段に備えられるビデオレコーダでありうる装置802にインポートされる。ビデオコンテンツは、ハードディスク802−aに格納され、さらにコンテンツアイテムを対応するポテンシャルカットポイントを有するセグメントにセグメント化するセグメント化手段802−bに供給される。手段802−cは、セグメント化手段802−bにより提供されるセグメントに対応するセグメント重要度を導出する。手段802−dは、セグメント化手段802−bにより提供されるような複数のポテンシャルカットポイントのそれぞれについてカットポイント重要度を導出する。手段802−eは、自動編集、サマリの構成及び出力にそれぞれ対応する本発明の方法の各ステップ306及び307を評価及び実行する。
上述した実施例は本発明を限定するものでなく説明するものであり、当業者は添付した請求項の範囲から逸脱することなく他の多数の実施例を設計可能であることに留意すべきである。例えば、オーディオビジュアルコンテンツアイテムの代わりに、オーディオアイテムが利用可能である。
添付した請求項では、括弧内の参照符号は請求項を限定するものとして解釈されるべきでない。“有する”という用語は、請求項に列記した以外の要素又はステップの存在を排除するものでない。要素に先行する“ある”という用語は、当該要素が複数存在することを排除するものでない。本発明は、複数の異なる要素を有するハードウェア及び適切にプログラムされたコンピュータにより実現可能である。
複数の手段を列記した装置クレームでは、これらの手段のいくつかは1つの同一のハードウェアアイテムにより実現可能である。特定の手段が互いに異なる従属クレームに記載されるという事実は、これらの手段の組み合わせが効果的に利用可能でないことを示すものでない。
Claims (17)
- 各セグメントが各自のセグメント重要度を有する複数のセグメントを有するコンテンツアイテムのサマリを生成する方法であって、
各ポテンシャルカットポイントが2つのセグメントの間の境界となる複数のポテンシャルカットポイントのそれぞれについて、該ポテンシャルカットポイントに配列された前記2つのセグメントのコンテンツ特性に基づくカットポイント重要度を導出するステップと、
前記セグメント重要度と前記カットポイント重要度との組み合わせに基づき選択される前記コンテンツアイテムの複数のセグメントのサブセットを有するサマリを生成するステップと、
を有する方法。 - 前記ポテンシャルカットポイントのカットポイント重要度は、前記ポテンシャルカットポイントに配列される前記2つのセグメントに対応するコンテンツ特性の加重ノルムの絶対差である、請求項1記載の方法。
- 前記ポテンシャルカットポイントは、近傍セグメントのコンテンツ特性の少なくとも1つの成分の有意な変化において決定される、請求項1記載の方法。
- 前記サマリに含まれる前記セグメントのサブセットの適合性は、適合度により測定され、
前記適合度は、前記セグメントのサブセットに属する各セグメントのセグメント重要度と、連続するセグメントの各グループを、該グループに属する各セグメントの間のポテンシャルカットポイントの有意でないカットポイント重要度により区切る前記ポテンシャルカットポイントの有意なカットポイント重要度との加重和である、請求項1記載の方法。 - 前記サマリに含まれるよう選択されたセグメントのサブセットは、最も高い適合度を有する、請求項4記載の方法。
- 前記ポテンシャルカットポイントは、カメラショットの境界に決定され、
前記カメラショットは、記録の連続するスタートとストップとの間に記録された連続するビデオコンテンツである、請求項1記載の方法。 - 前記セグメントのサイズは、所定の最小セグメントサイズより小さくなく、所定の最大セグメントサイズより大きくない、請求項1記載の方法。
- 前記ポテンシャルカットポイントは、許容されるポテンシャルカットポイントのうちで最も高いカットポイント重要度を有するよう選択され、
前記許容されるポテンシャルカットポイントは、前記所定の最小セグメントサイズより小さくなく、前記所定の最大セグメントサイズより大きくないセグメントサイズを提供する、請求項7記載の方法。 - 前記最小セグメントサイズと最大セグメントサイズとは、ユーザにより明示的に提供される、請求項7又は8記載の方法。
- 前記サマリのサイズは、ユーザにより提供される、請求項1記載の方法。
- 前記所定のサイズを提供するサマリに対して選択されるセグメントのサブセットは、最も高い適合度を有する、請求項10記載の方法。
- 請求項1記載の方法に従って動作可能な装置であって、
各ポテンシャルカットポイントが2つのセグメントの間の境界となる複数のポテンシャルカットポイントのそれぞれについて、該ポテンシャルカットポイントに配列された前記2つのセグメントのコンテンツ特性に基づくカットポイント重要度を導出する手段と、
前記セグメント重要度と前記カットポイント重要度との組み合わせに基づき選択される前記コンテンツアイテムの複数のセグメントのサブセットを有するサマリを生成する手段と、
を提供するよう動作可能な装置。 - 前記ポテンシャルカットポイントが近傍セグメントのコンテンツ特性の成分の少なくとも1つの有意な変化において決定されるように、前記コンテンツアイテムをセグメント化する手段をさらに有する、請求項12記載の装置。
- 前記ポテンシャルカットポイントがカメラショットの境界に決定されるように前記コンテンツアイテムをセグメント化する手段をさらに有し、
前記カメラショットは、記録の連続するスタートとストップとの間で記録される連続するビデオコンテンツである、請求項12記載の装置。 - 前記コンテンツアイテムをセグメント化する手段は、セグメントサイズが所定の最小セグメントサイズより小さくなく、所定の最大セグメントサイズより大きくないように構成される、請求項13又は14記載の装置。
- ユーザが前記最小セグメントサイズ、前記最大セグメントサイズ又は前記サマリのサイズの少なくとも1つを提供することを可能にするユーザインタフェース手段をさらに有する、請求項12記載の装置。
- 請求項1記載の方法を実現する装置ハードウェア上で実行可能なソフトウェア。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP06121342 | 2006-09-27 | ||
PCT/IB2007/053899 WO2008038230A2 (en) | 2006-09-27 | 2007-09-26 | Method of creating a summary |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010505176A true JP2010505176A (ja) | 2010-02-18 |
Family
ID=39144383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009529825A Withdrawn JP2010505176A (ja) | 2006-09-27 | 2007-09-26 | サマリ生成方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20100111498A1 (ja) |
EP (1) | EP2070087A2 (ja) |
JP (1) | JP2010505176A (ja) |
CN (1) | CN101517650A (ja) |
WO (1) | WO2008038230A2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010113691A1 (ja) * | 2009-03-30 | 2010-10-07 | 日本電気株式会社 | 言語解析装置、方法、及びプログラム |
US8856636B1 (en) * | 2009-09-22 | 2014-10-07 | Adobe Systems Incorporated | Methods and systems for trimming video footage |
US9265458B2 (en) | 2012-12-04 | 2016-02-23 | Sync-Think, Inc. | Application of smooth pursuit cognitive testing paradigms to clinical drug development |
US9380976B2 (en) | 2013-03-11 | 2016-07-05 | Sync-Think, Inc. | Optical neuroinformatics |
US10037129B2 (en) * | 2013-08-30 | 2018-07-31 | Google Llc | Modifying a segment of a media item on a mobile device |
WO2015179047A1 (en) | 2014-05-21 | 2015-11-26 | Pcms Holdings, Inc | Methods and systems for contextual adjustment of thresholds of user interestedness for triggering video recording |
US10579630B2 (en) | 2015-01-14 | 2020-03-03 | Microsoft Technology Licensing, Llc | Content creation from extracted content |
KR20170098079A (ko) * | 2016-02-19 | 2017-08-29 | 삼성전자주식회사 | 전자 장치 및 전자 장치에서의 비디오 녹화 방법 |
US11259088B2 (en) * | 2017-10-27 | 2022-02-22 | Google Llc | Previewing a video in response to computing device interaction |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6496228B1 (en) * | 1997-06-02 | 2002-12-17 | Koninklijke Philips Electronics N.V. | Significant scene detection and frame filtering for a visual indexing system using dynamic thresholds |
US6535639B1 (en) * | 1999-03-12 | 2003-03-18 | Fuji Xerox Co., Ltd. | Automatic video summarization using a measure of shot importance and a frame-packing method |
US7027124B2 (en) * | 2002-02-28 | 2006-04-11 | Fuji Xerox Co., Ltd. | Method for automatically producing music videos |
US7127120B2 (en) * | 2002-11-01 | 2006-10-24 | Microsoft Corporation | Systems and methods for automatically editing a video |
EP1557837A1 (en) * | 2004-01-26 | 2005-07-27 | Sony International (Europe) GmbH | Redundancy elimination in a content-adaptive video preview system |
KR100612862B1 (ko) * | 2004-10-05 | 2006-08-14 | 삼성전자주식회사 | 스포츠 동영상의 요약 방법 및 장치 |
-
2007
- 2007-09-26 CN CNA2007800361065A patent/CN101517650A/zh active Pending
- 2007-09-26 WO PCT/IB2007/053899 patent/WO2008038230A2/en active Application Filing
- 2007-09-26 EP EP07826540A patent/EP2070087A2/en not_active Withdrawn
- 2007-09-26 US US12/442,717 patent/US20100111498A1/en not_active Abandoned
- 2007-09-26 JP JP2009529825A patent/JP2010505176A/ja not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
EP2070087A2 (en) | 2009-06-17 |
WO2008038230A3 (en) | 2008-07-03 |
WO2008038230A2 (en) | 2008-04-03 |
CN101517650A (zh) | 2009-08-26 |
US20100111498A1 (en) | 2010-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010505176A (ja) | サマリ生成方法 | |
US20090077137A1 (en) | Method of updating a video summary by user relevance feedback | |
JP5091086B2 (ja) | ビデオの短いセグメントを表示するための方法及びグラフィカルユーザインタフェース | |
US8948515B2 (en) | Method and system for classifying one or more images | |
JP4201454B2 (ja) | 動画要約生成方法及び動画要約生成装置 | |
US8750681B2 (en) | Electronic apparatus, content recommendation method, and program therefor | |
JP4580183B2 (ja) | 視覚的に代表するビデオサムネイルの生成 | |
US9189137B2 (en) | Method and system for browsing, searching and sharing of personal video by a non-parametric approach | |
US10134440B2 (en) | Video summarization using audio and visual cues | |
JP2009095013A (ja) | ビデオ要約システムおよびビデオ要約のためのコンピュータプログラム | |
KR20080114786A (ko) | 다수의 이미지들 요약의 자동 생성 방법 및 장치 | |
JP2011044140A (ja) | 画像セットからの動画コンテンツの生成 | |
US20210117471A1 (en) | Method and system for automatically generating a video from an online product representation | |
WO2011059029A1 (ja) | 映像処理装置、映像処理方法、および映像処理プログラム | |
JP6917210B2 (ja) | 要約映像生成装置およびそのプログラム | |
KR20100018070A (ko) | 멀티미디어 파일의 개요들을 자동으로 생성하기 위한 방법 및 장치 | |
US20220114204A1 (en) | Method for atomically tracking and storing video segments in multi-segment audio-video compositions | |
JP2008522311A (ja) | コンテンツアイテムの関連付けに基づく自動的なコンテンツ整理 | |
US20230230378A1 (en) | Method and system for selecting highlight segments | |
JP2006217046A (ja) | 映像インデックス画像生成装置及び映像のインデックス画像を生成するプログラム | |
JP2008522310A (ja) | 関連コンテンツの抽出 | |
JP5994974B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
JP2012114559A (ja) | 映像処理装置、映像処理方法及び映像処理プログラム | |
Boukadida et al. | A novel modeling for video summarization using constraint satisfaction programming | |
Chu et al. | Enabling portable animation browsing by transforming animations into comics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100921 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20120420 |