JP2010505176A

JP2010505176A - サマリ生成方法

Info

Publication number: JP2010505176A
Application number: JP2009529825A
Authority: JP
Inventors: ウェーダ，ヨーハネス; バルビエリ，マウロ; エカンパネッラ，マルコ; シュレスタ，プラルタナ
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2006-09-27
Filing date: 2007-09-26
Publication date: 2010-02-18
Also published as: EP2070087A2; WO2008038230A3; WO2008038230A2; CN101517650A; US20100111498A1

Abstract

各セグメントが各自のセグメント重要度を有する複数のセグメントを有するコンテンツアイテムのサマリを生成する方法。本方法は、各ポテンシャルカットポイントが２つのセグメントの間の境界となる複数のポテンシャルカットポイントのそれぞれについて、該ポテンシャルカットポイントに配列された前記２つのセグメントのコンテンツ特性に基づくカットポイント重要度を導出するステップと、前記セグメント重要度と前記カットポイント重要度との組み合わせに基づき選択される前記コンテンツアイテムの複数のセグメントのサブセットを有するサマリを生成するステップとを有する。

Description

本発明は、各セグメントが各自の重要度を有する複数のセグメントを有するコンテンツアイテムのサマリを生成する方法に関する。

近年、ビデオキャプチャ機能を備えたコンシューマ装置の利用性及び入手容易性が増大してきた。これは、ユーザが生活において経験した多数のイベントを記録することを可能にする。さらにこれは、１人のユーザにより生成されるオーディオビジュアルマテリアルの数量を膨大なものにする。完全な長さの記録物を試聴することは、面白いオーディオビジュアルマテリアルとあまり面白くないオーディオビジュアルマテリアルとが混在しているとき、時間を浪費し、退屈なものとなりえる。任意のオーディオビジュアルコンテンツアイテムのサマリを生成するための各種技術が開発されてきた。

Ａ．Ｇｉｒｇｅｎｓｏｈｎ，Ｊ．Ｂｏｒｅｃｚｋｙらによる“Ａｓｅｍｉ−ａｕｔｏｍａｔｉｃａｐｐｒｏａｃｈｔｏｈｏｍｅｖｉｄｅｏｅｄｉｔｉｎｇ”（ＣＨＩＬｅｔｔｅｒｓ，２０００，ｖｏｌ．２，ｐ．８１−８９）による刊行物は、ユーザが標準的なビデオカメラにより生のビデオショットからカスタムビデオを容易に生成することを可能にするシステムを開示している。当該システムは、生ビデオの各部分の適合性を決定するための自動解析を利用する。適合しないビデオは高速又は不安定なカメラの動きを有している。この解析に基づき、ビデオの各フレームについて数値的な“不適合”度が計算される。編集ルールと組み合わせて、この不適合度は、最終的なビデオサマリに含めるセグメント（オリジナルの刊行物では、“クリップ”という用語が使用されている）を特定し、それらのスタート及びエンドポイントを選択するのに利用される。カスタムビデオを生成するため、ユーザは、所望のセグメントに対応するキーフレームをサマリにドラッグすることによって、セグメントを選択する。

上記方法は、カメラの動きに関するコンテンツ解析に基づき、サマリに含めるのに適したセグメントを選択することを可能にするのみである。選択されたセグメントは同質なクオリティのビデオマテリアルについてカメラの動きに関して高いクオリティを有する可能性があるが、これは、ユーザによるセグメントのランダムな選択を生じさせる。

本発明の課題は、上記状況を少なくとも部分的に軽減する、各セグメントが各自の重要度を有する複数のセグメントを有するコンテンツアイテムのサマリを生成する方法を向上させることである。

上記課題は、本発明によると、各ポテンシャルカットポイントが２つのセグメントの間の境界となる複数のポテンシャルカットポイントのそれぞれについて、該ポテンシャルカットポイントに配列された前記２つのセグメントのコンテンツ特性に基づくカットポイント重要度を導出するステップと、前記セグメント重要度と前記カットポイント重要度との組み合わせに基づき選択される前記コンテンツアイテムの複数のセグメントのサブセットを有するサマリを生成するステップとを有する上述した方法により実現される。

コンテンツアイテムは、いくつかのセグメントを有する。ポテンシャルカットポイントは、隣接する２つのセグメントの間の境界、すなわち、セグメントの分離が可能性として行われうるコンテンツアイテムのポイントとして定義される。本発明によると、各ポテンシャルカットポイントについて、カットポイント重要度が導出される。特定のポテンシャルカットポイントのカットポイント重要度は、ポテンシャルカットポイントに隣接する２つのセグメントのコンテンツ特性に基づく。コンテンツ特性は、例えば、輝度やオーディオレベルなどの各成分を有する。このとき、本発明は、サマリを構成させるべきセグメントを選択するため、効果的にカットポイント重要度とセグメント重要度とを組み合わせる。

結果として得られるサマリは、向上した、すなわち、より整合性のあるセグメントの選択をサマリに提供し、当該サマリはユーザに提供される提示クオリティを向上させる。

一実施例では、ポテンシャルカットポイントのカットポイント重要度は、当該ポテンシャルカットポイントに配列された２つのセグメントに対応するコンテンツ特性の加重ノルムの絶対差である。コンテンツ特性の各成分は異なる特徴に対応し、このため、これらの成分の各値は異なる範囲のものである。これら異なる成分の値は、それらを同一の範囲にさせ、それらの比較を可能にするよう加重によりスケーリングされる。加重ノルムの各加重は、特定の成分の関連性を表すのに利用可能である。加重ノルムは１次元であり、このため、カットポイントに配列されるセグメントに対応する多次元コンテンツ特性の容易な比較を可能にする。配列されるセグメントの加重ノルムの差分が、ポテンシャルカットポイントのカットポイント重要度をもたらす。

一実施例では、ポテンシャルカットポイントは、近傍のセグメントのコンテンツ特性の少なくとも１つの成分の有意な変化において決定される。コンテンツ特性の少なくとも１つの成分の有意な変化は、カットポイント重要度の増加をもたらす。カットポイント重要度が高くなるに従って、ポテンシャルカットポイントはより適合したものとなる。従って、特に妥当に同質なビデオコンテンツに対して、コンテンツ特性の少なくとも１つの成分の実質的な変化が起こるポイントにポテンシャルカットポイントを配置することが効果的である。

一実施例では、サマリに含まれるべきセグメントのサブセットの適合性は、適合度により測定され、適合度は、セグメントのサブセットに属するセグメントのセグメント重要度と、連続するセグメントのグループを、当該グループに属する各セグメントの間のポテンシャルカットポイントの有意でないカットポイント重要度により区切るポテンシャルカットポイントの有意なカットポイント重要度との加重和である。ここで「有意でない」とは、ポテンシャルカットポイントの重要度の値でなく、適合度への寄与が小さいと判断されたポテンシャルカットポイントの選択を意味する。加重和における加重の利用は、セグメント重要度とカットポイント重要度との間で区別することを可能にする。例えば、セグメント重要度のものより低いカットポイント重要度の加重は、ユーザがコンテンツセグメントの間の移行に関連するコンテンツの提示より、実際のコンテンツにより注目することを意味する。

一実施例では、サマリに含まれるよう選択されたセグメントのサブセットは、最も高い適合度を有する。カットッポイント重要度と共にセグメント重要度に基づき、サマリの各種セグメントサブセットが選択可能である。可能なサマリのうちでベストな選択をするため、適合度が利用される。適合度が高くなるほど、サマリは良好になる。

一実施例では、ポテンシャルカットポイントは、カメラショットの境界に決定され、当該カメラショットは、記録の連続するスタートとストップとの間で記録される連続するビデオコンテンツである。これは、妥当に同質なビデオコンテンツについて、セグメント内のカメラショットの境界の配置を防ぐ。サマリにこのようなセグメントを含めることは、ビデオのさらなる他のカットポイントとして認識されるであろう。カメラショットの境界がポテンシャルカットポイントの近くに配置される場合、これは、ユーザを苛つかせるものとなりうる。カメラショットの境界にポテンシャルカットポイントを配列することは、この苛つかせる減少の発生を防ぐ。

一実施例では、セグメントのサイズは所定の最小セグメントサイズより小さくなく、所定の最大セグメントサイズより大きくない。最大セグメントサイズは、セグメントが長すぎるものになるのを回避する。これは特に、最大セグメントサイズが利用されない場合、可能性として最終的にサマリとなりうる極めて長い（おそらく面白くない）セグメントが生成可能な同質のビデオコンテンツに関連する。限定されたサイズを有するセグメントを有することは、同質なビデオコンテンツの内部のコンテンツ特性の変化のより良好な利用を可能にする。

他方、セグメントを小さくしすぎる（１フレームなど）ことは非現実的であり、サマリに含まれる短いセグメントの選択に対してなされうる選択回数を膨大なものにする。セグメントサイズについて最大値／最小値の制約を設定することは、短い場面をキャプチャするのに十分なセグメントとポテンシャルカットポイントの豊富な選択をもたらし、同時に、長すぎないためサマリ全体が長くなりすぎることが回避される。それはまた、サマリに到達するのに必要な計算複雑さに対する制御を可能にする。より大きなセグメントセットについて、サマリに到達するのにより多くの計算労力が必要とされる。

一実施例では、ポテンシャルカットポイントは、許容されるポテンシャルカットポイントのうち最も高いカットポイント重要度を有するよう選択され、許容されるポテンシャルカットポイントは、所定の最小セグメントサイズより小さくなく、所定の最大セグメントサイズより大きくないセグメントサイズを提供する。すなわち、本実施例は、セグメントサイズが所定の範囲内に留まることと、カットポイント重要度により測定された適合性が所定の範囲内に留まることを保証する可能性のあるすべてのポテンシャルカットポイントから最も適したポテンシャルカットポイントを選択することを可能にする。

一実施例では、最小及び最大セグメントサイズは、ユーザにより明示的に提供される。ユーザは、自らがビデオコンテンツをキャプチャし、何れのタイプのイベントがビデオにキャプチャされているか知っているため、何れが最小及び最大セグメントサイズに適した値であるかの大まかな考えを有している。

最大／最小セグメントサイズのユーザの選択はまた、ユーザがビデオコンテンツにキャプチャされたイベントに与えることを所望する注目スパンを反映している。さらに、最大及び最小セグメントサイズの設定により、ユーザはサマリを生成するのに費やすことを所望する時間に影響を与える。それらが小さくなるほど、より多くのセグメント及びポテンシャルカットポイントが利用可能であり、これにより、サマリに適したセグメントの選択をするのにより多くの計算時間が必要とされる。

一実施例では、サマリのサイズはユーザにより与えられる。それは、ユーザが自ら進んでサマリを視聴するのに費やす時間を指定することを可能にする。休暇中にキャプチャされたビデオコンテンツを考える。サマリのサイズは、ユーザが一人で又は休暇の友人と一緒に結果としてのサマリを視聴する状況では大きなものとなりうる。ユーザが友人とサマリを視聴するとき、ユーザは休暇の最も重要なハイライトのみを見せたいため、サマリサイズは短いものとなりうる。

一実施例では、所定のサイズを提供するサマリに選択されたセグメントのサブセットは、最も高い適合度を有する。対象とされるサマリサイズは、セグメントの様々な選択により実現可能である。可能なすべての選択のうちでベストなサマリは、ベストなコンテンツ選択と提示クオリティとを提供する最も高い適合度を有する。

本発明はさらに、本発明による方法に使用される装置を提供する。装置及び方法の効果的な実施例が従属クレームに与えられる。

本発明の上記及び他の特徴は、図面に示される実施例を参照して明らかにされるであろう。
図１は、対応するサマリによりコンテンツアイテムを概略的に示す。図２は、特定のポテンシャルカットポイントに配列された２つのセグメントのコンテンツ特性に基づくポテンシャルカットポイントのカットポイント重要度を示す。図３は、本発明によるサマリを生成する方法の各ステップを有するフローチャートを示す。図４は、適合度により測定される適合性を有するサマリに構成される一例となるセグメントのサブセットを示す。図５は、サマリに構成されるため選択されたサブセットが最も高い適合度を有するセグメントのサブセットの２つの具体例を示す。図６は、カメラショットが記録物の連続するスタートとストップとの間で記録された連続的なビデオコンテンツであるカメラショット境界においてポテンシャルカットポイントが決定されることを概略的に示す。図７は、所定の最小セグメントサイズより小さくなく、所定の最大セグメントサイズより大きくないセグメントサイズを提供する許容されるポテンシャルカットポイントのうち最も高いカットポイント重要度を有するよう選択されたポテンシャルカットポイントを概略的に示す。図８は、本発明の方法を実現するよう構成される装置を示す。図面を通じて、同一の参照番号は同様の又は対応する特徴を示す。図面に示される特徴の一部は、典型的には、ソフトウェアにより実現され、ソフトウェアモジュール又はオブジェクトなどのソフトウェアエンティティを表す。

図１は、対応するサマリ１１０によりコンテンツアイテム１００を概略的に示す。コンテンツアイテム１００は、第１セグメント１０１−１からエンドセグメント１０１−７までの複数のセグメントを有する。各セグメントを決定するための周知な方法が多数存在する。そのうちの１つは、セグメントを手動により決定することである。他の方法は、例えば、ＪｏｈｎＢｏｒｅｃｚｋｙ，ＡｎｄｒｅａｓＧｉｒｇｅｎｓｏｈｎ，ＧｅｎｅＧｏｌｏｖｃｈｉｎｓｋｙ及びＳｈｉｎｇｏＵｃｈｉｈａｓｈｉによる“ＡｎＩｎｔｅｒａｃｔｉｖｅＣｏｍｉｃＢｏｏｋＰｒｅｓｅｎｔａｔｉｏｎｆｏｒＥｘｐｌｏｒｉｎｇＶｉｄｅｏ”（ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＳＩＧＣＨＩＣｏｎｆｅｒｅｎｃｅｏｎＨｕｍａｎＦａｃｔｏｒｓｉｎＣｏｍｐｕｔｉｎｇＳｙｓｔｅｍｓ（ＴｈｅＨａｇｕｅ，Ｎｅｔｈｅｒｌａｎｄｓ），ＡＣＭ，ｐｐ．１８５−１９２）に記載される方法などを利用することによって、セグメント化を自動化するものである、上述されたセグメント化方法は、単なる一例であり、他の方法もまた可能である。

コンテンツアイテム１００に関する各セグメントは、各セグメントを表すボックスに記載される数値により示される各セグメントの重要度を有する。これらのセグメントの重要度は、主観的なセグメントの重要度又は客観的なセグメントの重要度である。主観的なセグメントの重要度は、手動により導入され、例えば、コンテンツアイテムの監督又は構成者などの誰かの判断を直接反映した数値である。あるいは、客観的なセグメントの重要度は、人手による介入なくセグメントに含まれるコンテンツに基づき計算される。客観的なセグメントの重要度の計算は、例えば、ＢａｒｂｉｅｒｉＭ．，ＷｅｄａＨ．，ＤｉｍｉｔｒｏｖａＮ．による“ＢｒｏｗｓｉｎｇＶｉｄｅｏＲｅｃｏｒｄｉｎｇｓＵｓｉｎｇＭｏｖｉｅ−ｉｎ−ａ−Ｍｉｎｕｔｅ”（Ｐｒｏｃ．ｏｆｔｈｅＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｎｓｕｍｅｒＥｌｅｃｔｒｏｎｉｃｓ，ＩＣＣＥ２００６，ｐｐ．３０１−３０２，Ｊａｎｕａｒｙ７−１１，２００６，ＬａｓＶｅｇａｓ，ＵＳＡ）などに記載されている。

ポテンシャルカットポイント（ｐｏｔｅｎｔｉａｌｃｕｔｐｏｉｎｔ）が、各セグメントの境界に規定される。コンテンツアイテム１００に対応するポテンシャルカットポイントは、ポテンシャルカットポイント１０２−１〜１０２−８であり、垂直方向の破線により示される。これらのポテンシャルカットポイントは、セグメント１０２−２〜１０２−７の各２つのセグメントの間の境界と共に、コンテンツアイテム１００の第１セグメント１０２−１と最終セグメント１０２−８のエンド境界とを含む。コンテンツアイテムについて規定される各ポテンシャルカットポイントは、ポテンシャルカットポイントの下に直接設けられた数値により示される各自のカットポイント重要度を有する。カットポイントの重要度の導出が、図２を参照して説明される。

サマリ１１０は、各セグメントの重要度とカットポイントの重要度とに基づき選択されたコンテンツアイテムの複数のセグメントのサブセットを有する。セグメント１０４は、選択されたセグメントの１つである。セグメント１０４のボックスの細い実線は、当該セグメントがサマリ１１０に選択されたことを示している。セグメント１０３のボックスの破線は、当該セグメントがサマリ１１０に選択されていないことを示す。

図１に示される具体例では、サマリはセグメント１０１−２〜１０１−５を有する。選択されたすべてのセグメントは、５より大きな重要度を有する。しかしながら、セグメント１０１−６は、すべてのセグメントのうちで最も高いセグメント重要度を有するが、サマリ１１０には含まれていない。これは、当該セグメントに先行するポテンシャルカットポイント１０２−６が、１７という高いカットポイント重要度により表される極めて適したカットポイントであるためである。当該セグメントに後続するポテンシャルカットポイント１０２−７は、２という極めて低いカットポイント重要度を有し、それは、適しているカットポイントでないことを意味している。セグメント重要度とカットポイント重要度とに基づくサマリ１１０のセグメントの選択の詳細が、図３を参照して説明される。

コンテンツアイテム１００は、好ましくは、オーディオビジュアルコンテンツを有する。コンテンツアイテム１００は、好ましくは、音楽、ビデオ、ムービー、クリップ、マルチメディアコンテンツ、グラフィックスなどを有する。

図２は、ポテンシャルカットポイントに配列（ａｌｉｇｎｅｄ）された２つのセグメントのコンテンツ特性に基づく特定のポテンシャルカットポイントのカットポイント重要度を示す。図２は、２つの連続するセグメント１０１−ｉと１０１−ｊを示す。これら２つのセグメントの間のポテンシャルカットポイントは、１０２−ｉｊである。各セグメントは、係るコンテンツ特性２０１−ｉと２０１−ｊを有する。コンテンツ特性は、各成分のベクトルとして示され、セグメントｉについて、コンテンツ特性２０１−ｉは、

として表される。

ポテンシャルカットポイント１０２−ｉｊに配列されたセグメントのコンテンツ特性の相違は、対応するカットポイント重要度ｐ_ｉｊに反映される。

コンテンツ特性という用語は、コンテンツに係る説明又は他のメタデータを含むコンテンツ自体の特性を意味する。コンテンツ特性の具体例として、ルミナンスレベル、色相及び彩度レベル、オーディオボリュームレベル、オーディオ分類（発話、音楽、ノイズ、群衆など）、発話検出及びセンテンス境界検出、カメラの動き（パン、ティルト、ズームなど）、動きぼやけ、フォーカスぼやけ、ショットタイプ（ロング、ショート、クローズアップなど）、顔検出及び他の多くがあげられる。他方、タイトル、監督、俳優、コンテンツ若しくはコンテンツのセグメントのキーワードなどの各アイテムは、当該用語が本文献で使用されるとき、コンテンツ特性ではない。各コンテンツ特性は、セグメントに構成されるコンテンツについて測定可能であり、各コンテンツ特性にある所定の最大値に対する値が与えられる。

通常、セグメントはフレーム系列などを有する。コンテンツ特性の値は、例えば、セグメントに関するフレームに対応するコンテンツ特性の値の算術平均又は最小値などとすることが可能である。あるいは、このような平均値は、特定のフレームのサブセットについて計算可能である。例えば、セグメント内に均一に離間した所定数のフレームについて、又はコンテンツに基づきセグメントを代表すると考えられるフレームについてなどである。セグメントに対応するコンテンツ特性値を計算する方法は、周知である。例えば、ＢａｒｂｉｅｒｉＭ．，ＷｅｄａＨ．，ＤｉｍｉｔｒｏｖａＮ．による“ＢｒｏｗｓｉｎｇＶｉｄｅｏＲｅｃｏｒｄｉｎｇｓＵｓｉｎｇＭｏｖｉｅ−ｉｎ−ａ−Ｍｉｎｕｔｅ”（Ｐｒｏｃ．ｏｆｔｈｅＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｎｓｕｍｅｒＥｌｅｃｔｒｏｎｉｃｓ，ＩＣＣＥ２００６，ｐｐ．３０１−３０２，Ｊａｎｕａｒｙ７−１１，２００６，ＬａｓＶｅｇａｓ，ＵＳＡ）などに、セグメント重要度の計算が説明される。

コンテンツに関する特定のコンテンツ特性を測定するため、コンテンツを完全に又は部分的に復号化することが必要であるかもしれない。カムコーダ機能を備えた現在の装置にしばしば備えられるオーディオビジュアルコンテンツに使用されるフォーマットは、ＭＰＥＧ２、ＭＰＥＧ４又はＤＶ（ＤｉｇｉｔａｌＶｉｄｅｏ）である。しかしながら、他のフォーマットが排除されるものでない。

ポテンシャルカットポイントに配列されたセグメントのコンテンツ特性の成分の少なくとも１つの有意な変化が、カットポイント重要度の値の有意な変化をもたらすように、カットポイント重要度が計算される。コンテンツ特性の各種成分の比較を可能にするため、コンテンツ特性に基づき計算された１次元ノルムが利用可能である。このようなノルムの一例は、古典的なユークリッド距離である。

一実施例では、ポテンシャルカットポイントのカットポイント重要度は、当該ポテンシャルカットポイントに配列された２つのセグメントに対応するコンテンツ特性の重み付けされたノルムの絶対差である。セグメントｉについて、加重ノルムは加重ユークリッド距離であり、

として表される。ただし、マトリックスＭは加重係数を有する加重マトリックスである。マトリックスＭは優対角であり、すなわち、非対角成分はゼロとなる。対角線上の非ゼロのエントリが加重となる、これらの加重の各値は、コンテンツ特性の各種成分について測定された値を、当該各種成分の１次元ノルムに対する寄与を公平にする同一範囲にするように選択される。あるいは、これらの成分の一部がカットポイント重要度の評価のため他のものより関連していることが知られているとき、加重は成分の関連性の当該相違を反映するよう選択可能である。

これらの加重は、コンテンツアイテムにおいて規定されるポテンシャルカットポイントのカットポイント重要度計算について固定される。あるいは、加重は、ビデオコンテンツの詳細に依存してコンテンツアイテムに沿って可変とすることができる。例えば、発話を有するセグメントが発話のないセグメントより所望されるため、発話検出が大変重要となる。特に、センテンスのスタートとエンドは、これらがビデオをカットするため大変適したポイントであるため、ポテンシャルカットポイントを設けるのに関連性がある。これは、発話に関する加重の値に反映させることができる。発話関連加重は、発話を有するセグメントについて増幅可能であるが、発話のない風景などを有するセグメントについては極めて低い値に設定されうる。

さらに、コンテンツアイテムの同質なビデオ部分について、コンテンツ特性の成分の一部の小さな変動が増幅されるように、加重を選択することができる。すなわち、加重ノルムは、小さな成分変動により敏感である。しかしながら、成分に対応する加重の選択は、成分の一部のノイズ性のローカルな変動が誤って増幅されることがないように経時的に観察されるとき、コンテンツ特性に注意深くしっかりと依存されるべきである。

図３は、本発明によるサマリ生成方法の各ステップを有するフローチャートを示す。ステップ３０１は、コンテンツアイテムに対応する生ビデオコンテンツをインポートすることを含む。ステップ３０２は、インポートされたコンテンツアイテムからコンテンツ特性を抽出することを含む。このステップでは、各フレームについてコンテンツ特性が導出される。あるいは、計算複雑さを低減するため、一定数のフレーム毎のコンテンツ特性を計算することも可能である。他には、フレームグループについて平均的なコンテンツ特性を計算することである。これらは、コンテンツ特性がどのように計算可能であるかの単なる一例であり、コンテンツ特性を決定する他の方法もまた可能である。

ステップ３０３において、コンテンツアイテムがセグメント化される。このステップは、次にセグメントの境界を決定するポテンシャルカットポイントを決定することを含む。このセグメント化は多数の方法により実現可能であり、例えば、コンテンツアイテムを固定サイズのセグメントに分割し、又は図７に説明されるように、コンテンツ特性に基づき適切なポテンシャルカットポイントをより高度に検索することを含みうる。これらは、セグメント化の単なる２つの具体例であり、セグメント化されたコンテンツアイテムに到達する他の方法もまた可能である。ステップ３０４及び３０５は、互いに独立に実行可能である。

ステップ３０４は、セグメント重要度を導出することを含み、ステップ３０５は、ポテンシャルカットポイント重要度を導出することを含む。これら２つのステップは独立したステップとして導かれるが、これら２つのステップがおそらく同様の計算を要することを考慮して、実際の実現では組み合わせることも可能である。

ステップ３０４と３０５の結果は、自動編集を有するステップ３０６に続く。このステップがさらに、より詳細に示される。ステップ３０６−１では、サマリにおそらく構成可能ないくつかのセグメントサブセットが選択される。サブセットへのセグメントの選択は、それらのセグメント重要度に基づくものとすることが可能である。例えば、特定の閾値を超えるセグメント重要度を有するすべてのセグメントが、サマリに含まれるべき候補として考えられる。このようなセットから、いくつかのサブセットが、追加的な制約を充足するよう選択される。このような追加的な制約は、例えば、ある許容範囲が選択されたセグメントサブセットにより充足されるべきユーザにより所望されるサマリサイズ、又は選択されたトピックをカバーするサマリ時間の少なくとも６０％を含むサブセットなどのコンテンツアイテムから生成されるサマリによりカバーされるべき選択されたトピックなどである。

その後、ステップ３０６−２において、セグメント重要度とポテンシャルカットポイント重要度の両方の関数であるコスト関数が評価される。

コスト関数は、例えば、すべてのセグメント重要度と、サマリに含まれるよう選択されたセグメントに係るすべてのポテンシャルカットポイント重要度との加重和などとすることが可能である。上述したコストは単なる一例であり、セグメント重要度とポテンシャルカットポイント重要度を利用したコスト関数を決定する他の方法もまた可能である。これら他の方法は、コスト関数の式に追加的な制約を含めることも可能である。このような制約の一例は、ユーザにより所望されるサマリサイズ、又はコンテンツアイテムから生成されるサマリによりカバーされるべき選択されたトピックにより予め決定することも可能である。

ステップ３０６−３において、ベストなセグメントサブセットは、選択されたサブセットに対応して評価されたコスト関数に基づき選択される。このベストサブセットの選択は、サマリが構成され、ユーザに出力されるステップ３０７に続く。

図４は、適合度により適合性が測定されるサマリに含まれる一例となるセグメントサブセットを示す。図４は、対応するサマリ１１０によりコンテンツアイテムを示す。サマリは、セグメント１０１−２〜１０１−５を有する。

セグメントサブセットに対応する適合度は、セグメントサブセットに属する各セグメントのセグメント重要度と、連続する各セグメントのグループを、当該グループに関する各セグメント間のポテンシャルカットポイントの有意でないカットポイント重要度により区切るポテンシャルカットポイントの有意なカットポイント重要度との加重和である。ここでの「有意でない（ｉｎｓｉｇｎｉｆｉｃａｎｔ）」とは、ポテンシャルカットッポイントの重要度の値でなく、適合度にあまり貢献しないと決定されたポテンシャルカットッポイントの選択を意味する。

サマリ１１０に選択されたセグメントに対応するセグメント重要度の和は３７である。この和の計算は、太い実線の矢印により記号表示される。選択されたセグメントは、ポテンシャルカットピント１０２−２と１０２−６により区切られた１つのセグメントグループを形成する。それらに対応するカットポイント重要度の和は３２である。この和の計算は、細い実線の矢印により記号表示される。重み付けが適用されていない場合、適合度ｓは、上記計算されたセグメントの和とカットポイントの和、すなわち、それぞれ、３７と３２の和となり、６９の適合度となる。

セグメントとポテンシャルカットポイントの間の区別が所望されるとき、この加重が利用される。これは、セグメントコンテンツが、サマリにおいて選択された各セグメントが互いに配列される方法よりユーザにとって重要性が高いケースである。

あるいは、サマリについて選択されたセグメントのサブセットの適合性を評価する他の方法がまた利用可能である。例えば、セグメントのすべての可能な組み合わせが規定可能であり、セグメント重要度とカットポイント重要度に基づくそれらの適合性が、いくつかの度数測定により評価可能である。制約と最適化（最大化又は最小化）すべき度数測定関数の計算モデルが与えられると、セグメント選択の問題は、例えば、ＡａｒｔｓＥ．Ｈ．Ｌ．，ＬｅｎｓｔｒａＪ．Ｋ．による“ＬｏｃａｌＳｅａｒｃｈｉｎＣｏｍｂｉｎａｔｏｒｉａｌＯｐｔｉｍｉｚａｔｉｏｎ”（ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｃｈｉｃｈｅｓｔｅｒ，Ｅｎｇｌａｎｄ，１９９７）などに記載されるように、制約ロジックプログラミング又はローカル検索技術などの周知の技術を用いて解くことができる制約付き最適化問題である。

図５は、サマリに含まれるよう選択されたサブセットが最も高い適合度を有する２つのセグメントサブセットの具体例を示す。図５において、サマリに含まれるべき２つの可能なセグメントサブセット１１０−ａと１１０−ｂが示される。各サブセットは４つのセグメントを有する。サブセット１１０−ａは、最も高いセグメント重要度を有する４つのセグメント、すなわち、セグメント１０１−２，１０１−４，１０１−５，１０１−６を有する。サブセット１１０−ｂは、セグメント１０１−２〜１０１−５を有し、１４の重要度を有するセグメント１０１−６がはるかに低いセグメント重要度を有するセグメント１０１−３を支持して排除されることを許容する。セグメント１０１−３を選択する効果は、それがセグメント１０１−２から１０１−４へのよりスムーズな移行を提供することであり、ポテンシャルカットポイント１０２−３と１０２−４における極めて低いカットポイント重要度により表される。

選択１１０−ａについて、各セグメント１０１−２，１０１−４，１０１−５，１０１−６のセグメント重要度の和は４６となる。このサブセットに構成される２つのセグメントグループがあり、すなわち、孤立したセグメント１０１−２と、セグメント１０１−４〜１０１−６を有するグループとである。これらのグループを区切るポテンシャルカットポイントは、１０２−２，１０２−３，１０２−４，１０２−７である。これらのポテンシャルカットポイントに対応するカットポイントの度数の和は２１である。このとき、１に設定された加重に対する適合度は、４６＋２１＝６７である。

選択１１０−ｂについて、１に設定された加重に対する適合度は６９である。選択１１０−ｂに対応する適合度が選択１１０−ａのものより高いため、セグメント１１０−ｂのサブセットがサマリに選択される。

図６は、カメラショットが記録の連続的なスタートとストップとの間で記録された連続的なビデオコンテンツであるカメラショット境界においてポテンシャルカットポイントが決定されることを概略的に示す。コンテンツアイテム１００−ａは、カメラショット１０５−１〜１０５−４の境界を有する生ビデオを示す。コンテンツアイテム１００−ｂは、コンテンツアイテム１００−ａに対応するセグメント化されたビデオコンテンツを示す。１００−ｂにおけるセグメント境界１０２−１，１０２−２，１０２−６，１０２−８は、１００−ａにおける各カメラショット境界１０５−１，１０５−２，１０５−３，１０５−４と配列される。カメラショット境界は、ビデオコンテンツにマーカーを設定することによって、又はビデオコンテンツの解析によって維持可能である。ＤＶビデオフォーマットについて、ＤＶタイムスタンプの不連続性を検索することによって、カメラショットが容易に検出可能である。Ｒ．Ｌｉｅｎｈａｒｔによる“ＣｏｍｐａｒｉｓｏｎｏｆＡｕｔｏｍａｔｉｃＳｈｏｔＢｏｕｎｄａｒｙＤｅｔｅｃｔｉｏｎＡｌｇｏｒｉｔｈｍｓ”（ＰｒｏｃｅｅｄｉｎｇｓｏｆＳｔｏｒａｇｅａｎｄＲｅｔｒｉｅｖａｌｆｏｒＩｍａｇｅａｎｄＶｉｄｅｏＤａｔａｂａｓｅｓＶＩＩ，Ｊａｎｕａｒｙ１９９９，ＳａｎＪｏｓｅ，ＵＳＡ，ｐｐ．２９０−３０１）など、他の多くのショットカット検出方法が知られている。

一実施例では、セグメントのサイズは所定の最小セグメントサイズより小さくなく、所定の最大セグメントサイズより大きくない。最大セグメントサイズは、セグメントが長すぎるものになることを防ぐ。これは特に、最大セグメントサイズが使用されない場合、最終的にサマリになってしまう可能性のある極めて長い（おそらく面白くない）セグメントが生成されうる同質なビデオコンテンツについて関係する。制限されたサイズのセグメントを有することは、同質なビデオコンテンツ内のコンテンツ特性の変化のより良好な利用を可能にする。

他方、セグメントを小さなものにしすぎる（１フレームなど）ことは非現実的であり、サマリに含まれる短いセグメントの選択するため行われる選択回数を膨大なものにする。セグメントサイズに最小値／最大値の制約を設定することは、短い作品をキャプチャするのに十分なセグメント及びポテンシャルカットポイントの豊富な選択をもたらし、同時に長すぎてサマリ全体が長すぎるものになることを防ぐことができなくなることを回避する。それはまた、サマリに到達するのに必要な計算複雑さに対する制御を可能にする。より大きなセグメントセットについて、サマリに到達するためのより大きな計算労力が必要とされる。

図７は、所定の最小セグメントサイズより小さくなく、所定の最大セグメントサイズより大きくないセグメントサイズを提供する許容されるポテンシャルカットポイントのうちで最も高いカットポイント重要度を有するような選択されるポテンシャルカットポイントを概略的に示す。生成されるセグメントのスタート境界は、ポテンシャルカットポイント１０２−ｐにある。１０２−ｐにおいてスタートする所定の最小セグメントサイズを有するセグメントが、１０８−ａとして示される。１０２−ｐにおいてスタートする所定の最大セグメントサイズを有するセグメントが、１０８−ｂとして示される。生成されるセグメントのエンドは、双方のセグメントが１０２−ｐにおいてスタートする最大セグメントサイズを有するセグメントに属するが、最小セグメントサイズを有するセグメントにはないフレームの境界にあるポテンシャルカットポイントにある可能性がある。このポテンシャルカットポイントのセットは、許容される（ａｄｍｉｓｓｉｂｌｅ）と呼ばれる。このポテンシャルカットポイントセットから、最も適したポテンシャルカットッポイントが選択され、当該ポテンシャルカットッポイントが最も高いカットポイント重要度を有する。

一実施例では、最小セグメントサイズと最大セグメントサイズがユーザにより明示的に与えられる。ユーザは、自らビデオコンテンツをキャプチャし、ビデオに何れのタイプのイベントがキャプチャされているか知っているため、最小及び最大セグメントサイズに適した値が何れであるかについての大まかな考えを有している。認識の観点から、推奨される最小セグメントは約１〜２秒であり、それは２５〜５０フレームに相当する。推奨される最大サイズは、約１０〜５０秒であり、それは２５０〜１２５０フレームに相当する。

一実施例では、サマリのサイズはユーザにより与えられる。それは、ユーザがサマリを視聴するのに進んで費やす時間を指定することを可能にする。ユーザインタフェースが、ユーザがサマリのサイズを入力することを可能にするため設けられる。

一実施例では、所定サイズを提供するサマリに選択されるセグメントのサブセットは、最も高い適合度を有する。サマリサイズは、セグメントの各種選択により実現可能である。可能なすべての選択のうちでベストなサマリは、ベストなコンテンツ選択及び提示クオリティを提供する最も高い適合度を有する。

図８は、本発明の方法を実現するよう構成される装置８０２を示す。生ビデオコンテンツが、ハードディスク８０２−ａ又は他の記憶手段に備えられるビデオレコーダでありうる装置８０２にインポートされる。ビデオコンテンツは、ハードディスク８０２−ａに格納され、さらにコンテンツアイテムを対応するポテンシャルカットポイントを有するセグメントにセグメント化するセグメント化手段８０２−ｂに供給される。手段８０２−ｃは、セグメント化手段８０２−ｂにより提供されるセグメントに対応するセグメント重要度を導出する。手段８０２−ｄは、セグメント化手段８０２−ｂにより提供されるような複数のポテンシャルカットポイントのそれぞれについてカットポイント重要度を導出する。手段８０２−ｅは、自動編集、サマリの構成及び出力にそれぞれ対応する本発明の方法の各ステップ３０６及び３０７を評価及び実行する。

上述した実施例は本発明を限定するものでなく説明するものであり、当業者は添付した請求項の範囲から逸脱することなく他の多数の実施例を設計可能であることに留意すべきである。例えば、オーディオビジュアルコンテンツアイテムの代わりに、オーディオアイテムが利用可能である。

添付した請求項では、括弧内の参照符号は請求項を限定するものとして解釈されるべきでない。“有する”という用語は、請求項に列記した以外の要素又はステップの存在を排除するものでない。要素に先行する“ある”という用語は、当該要素が複数存在することを排除するものでない。本発明は、複数の異なる要素を有するハードウェア及び適切にプログラムされたコンピュータにより実現可能である。

複数の手段を列記した装置クレームでは、これらの手段のいくつかは１つの同一のハードウェアアイテムにより実現可能である。特定の手段が互いに異なる従属クレームに記載されるという事実は、これらの手段の組み合わせが効果的に利用可能でないことを示すものでない。

Claims

各セグメントが各自のセグメント重要度を有する複数のセグメントを有するコンテンツアイテムのサマリを生成する方法であって、
各ポテンシャルカットポイントが２つのセグメントの間の境界となる複数のポテンシャルカットポイントのそれぞれについて、該ポテンシャルカットポイントに配列された前記２つのセグメントのコンテンツ特性に基づくカットポイント重要度を導出するステップと、
前記セグメント重要度と前記カットポイント重要度との組み合わせに基づき選択される前記コンテンツアイテムの複数のセグメントのサブセットを有するサマリを生成するステップと、
を有する方法。
前記ポテンシャルカットポイントのカットポイント重要度は、前記ポテンシャルカットポイントに配列される前記２つのセグメントに対応するコンテンツ特性の加重ノルムの絶対差である、請求項１記載の方法。
前記ポテンシャルカットポイントは、近傍セグメントのコンテンツ特性の少なくとも１つの成分の有意な変化において決定される、請求項１記載の方法。
前記サマリに含まれる前記セグメントのサブセットの適合性は、適合度により測定され、
前記適合度は、前記セグメントのサブセットに属する各セグメントのセグメント重要度と、連続するセグメントの各グループを、該グループに属する各セグメントの間のポテンシャルカットポイントの有意でないカットポイント重要度により区切る前記ポテンシャルカットポイントの有意なカットポイント重要度との加重和である、請求項１記載の方法。
前記サマリに含まれるよう選択されたセグメントのサブセットは、最も高い適合度を有する、請求項４記載の方法。
前記ポテンシャルカットポイントは、カメラショットの境界に決定され、
前記カメラショットは、記録の連続するスタートとストップとの間に記録された連続するビデオコンテンツである、請求項１記載の方法。
前記セグメントのサイズは、所定の最小セグメントサイズより小さくなく、所定の最大セグメントサイズより大きくない、請求項１記載の方法。
前記ポテンシャルカットポイントは、許容されるポテンシャルカットポイントのうちで最も高いカットポイント重要度を有するよう選択され、
前記許容されるポテンシャルカットポイントは、前記所定の最小セグメントサイズより小さくなく、前記所定の最大セグメントサイズより大きくないセグメントサイズを提供する、請求項７記載の方法。
前記最小セグメントサイズと最大セグメントサイズとは、ユーザにより明示的に提供される、請求項７又は８記載の方法。
前記サマリのサイズは、ユーザにより提供される、請求項１記載の方法。
前記所定のサイズを提供するサマリに対して選択されるセグメントのサブセットは、最も高い適合度を有する、請求項１０記載の方法。
請求項１記載の方法に従って動作可能な装置であって、
各ポテンシャルカットポイントが２つのセグメントの間の境界となる複数のポテンシャルカットポイントのそれぞれについて、該ポテンシャルカットポイントに配列された前記２つのセグメントのコンテンツ特性に基づくカットポイント重要度を導出する手段と、
前記セグメント重要度と前記カットポイント重要度との組み合わせに基づき選択される前記コンテンツアイテムの複数のセグメントのサブセットを有するサマリを生成する手段と、
を提供するよう動作可能な装置。
前記ポテンシャルカットポイントが近傍セグメントのコンテンツ特性の成分の少なくとも１つの有意な変化において決定されるように、前記コンテンツアイテムをセグメント化する手段をさらに有する、請求項１２記載の装置。
前記ポテンシャルカットポイントがカメラショットの境界に決定されるように前記コンテンツアイテムをセグメント化する手段をさらに有し、
前記カメラショットは、記録の連続するスタートとストップとの間で記録される連続するビデオコンテンツである、請求項１２記載の装置。
前記コンテンツアイテムをセグメント化する手段は、セグメントサイズが所定の最小セグメントサイズより小さくなく、所定の最大セグメントサイズより大きくないように構成される、請求項１３又は１４記載の装置。
ユーザが前記最小セグメントサイズ、前記最大セグメントサイズ又は前記サマリのサイズの少なくとも１つを提供することを可能にするユーザインタフェース手段をさらに有する、請求項１２記載の装置。
請求項１記載の方法を実現する装置ハードウェア上で実行可能なソフトウェア。