JP2013025748A

JP2013025748A - 情報処理装置、動画要約方法、及びプログラム

Info

Publication number: JP2013025748A
Application number: JP2011163044A
Authority: JP
Inventors: Koji Sato; 浩司佐藤; Masatomo Kurata; 雅友倉田; Makoto Murata; 誠村田; Naoki Shibuya; 直樹澁谷
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-07-26
Filing date: 2011-07-26
Publication date: 2013-02-04
Also published as: CN102981733A; US20130028571A1; US9083933B2

Abstract

【課題】登場物の選択内容に適合する要約結果が得られる動画要約手法を実現すること。
【解決手段】動画に登場する各登場物間の関係性を示す関係性情報と、前記動画の中で各登場物が登場する区間を示す区間メタデータとを利用し、ユーザにより選択された登場物との間に所定の関係性を有する登場物が登場する区間を検出する区間検出部と、前記区間検出部により検出された区間に対応する画像を出力する画像出力部と、を備える、情報処理装置が提供される。
【選択図】図１４

Description

本技術は、情報処理装置、動画要約方法、及びプログラムに関する。

テレビジョン映像やビデオ映像など、人々は、様々な動画を視聴する機会に恵まれている。また、広域通信網の整備が進み、多くの家庭では、インターネットを介してストリーミング配信される動画（以下、ストリーミング映像）を視聴することも可能になっている。こうした動画を視聴する際、ユーザは、リモートコントローラ（以下、リモコン）を操作して放送局を選択したり、ビデオ映像の再生を開始させたりする。視聴する動画が録画映像、ＤＶＤビデオ映像、Ｂｌｕ−ｒａｙビデオ映像、ストリーミング映像などの場合、ユーザは、再生を開始する位置を指定したり、一部の映像シーンをスキップさせたりすることができる。例えば、下記の特許文献１には、簡単な操作でＣＭをスキップ再生できるようにする技術が開示されている。

特開２０１０−２７７６６１号公報

しかしながら、動画に登場する人物の中から指定した人物に関連する人物が登場する映像シーンを集めたダイジェスト映像を自動再生できるようにしたり、それら映像シーンの概要を俯瞰的に把握できるように表示したりする技術は知られていない。そこで、本技術は、上記のような事情を受けて考案されたものであり、選択した登場人物を基準として登場人物間の関係性を考慮したシーン群の選択方法や、そのシーン群を選択的に再生する仕組みを実現することが可能な、新規かつ改良された情報処理装置、動画要約方法、及びプログラムを提供することを意図するものである。また、本技術は、動画に登場する物品間、或いは、物品と人物との間の関係性をさらに考慮したシーン群の選択方法を実現することも意図している。

本技術のある観点によれば、動画に登場する各登場物間の関係性を示す関係性情報と、前記動画の中で各登場物が登場する区間を示す区間メタデータとを利用し、ユーザにより選択された登場物との間に所定の関係性を有する登場物が登場する区間を検出する区間検出部と、前記区間検出部により検出された区間に対応する画像を出力する画像出力部と、を備える、情報処理装置が提供される。

また、本技術の別の観点によれば、動画に登場する各登場物間の関係性を示す関係性情報と、前記動画の中で各登場物が登場する区間を示す区間メタデータとを利用し、ユーザにより選択された登場物との間に所定の関係性を有する登場物が登場する区間を検出するステップと、検出された区間に対応する画像を出力するステップと、を含む、動画要約方法が提供される。

また、本技術の別の観点によれば、動画に登場する各登場物間の関係性を示す関係性情報と、前記動画の中で各登場物が登場する区間を示す区間メタデータとを利用し、ユーザにより選択された登場物との間に所定の関係性を有する登場物が登場する区間を検出する区間検出機能と、前記区間検出機能により検出された区間に対応する画像を出力する画像出力機能と、をコンピュータに実現させるためのプログラムが提供される。

また、本技術の別の観点によれば、上記のプログラムが記録された、コンピュータにより読み取り可能な記録媒体が提供される。

以上説明したように本技術によれば、選択した登場人物を基準として登場人物間の関係性を考慮したシーン群の選択方法や、そのシーン群を選択的に再生する仕組みを実現することが可能になる。また、本技術によれば、動画に登場する物品間、或いは、物品と人物との間の関係性をさらに考慮したシーン群の選択方法を実現することも可能になる。

動画要約手法の概要について説明するための説明図である。動画要約手法の概要について説明するための説明図である。動画要約手法の概要について説明するための説明図である。動画要約手法の概要について説明するための説明図である。関係性値の算出方法について説明するための説明図である。関係性値の算出方法について説明するための説明図である。関係性値の算出方法について説明するための説明図である。関係性値の算出方法について説明するための説明図である。関係性値の算出方法について説明するための説明図である。関係性値の算出方法について説明するための説明図である。関係性値の算出方法について説明するための説明図である。関係性値の算出方法について説明するための説明図である。関係性情報について説明するための説明図である。本実施形態に係る情報処理装置の構成例について説明するための説明図である。本実施形態に係る情報処理装置の構成例（変形例＃１）について説明するための説明図である。本実施形態に係る情報処理装置の構成例（変形例＃２）について説明するための説明図である。本実施形態に係る情報処理装置の動作例について説明するための説明図である。本実施形態に係る情報処理装置の動作例について説明するための説明図である。本実施形態に係る情報処理装置の動作例について説明するための説明図である。本実施形態に係る情報処理装置の動作例について説明するための説明図である。本実施形態に係る情報処理装置の動作例について説明するための説明図である。本実施形態に係る情報処理装置の動作例について説明するための説明図である。本実施形態に係る情報処理装置の動作例について説明するための説明図である。本実施形態に係る情報処理装置の動作例について説明するための説明図である。本実施形態に係る情報処理装置の動作例について説明するための説明図である。本実施形態に係る情報処理装置の動作例について説明するための説明図である。本実施形態に係る情報処理装置の動作例について説明するための説明図である。本実施形態に係る関係性値の編集方法について説明するための説明図である。本実施形態に係る関係性値の編集方法について説明するための説明図である。本実施形態に係る関係性値の編集方法について説明するための説明図である。本実施形態の一変形例に係る動画要約手法について説明するための説明図である。本実施形態の一変形例に係る動画要約手法について説明するための説明図である。本実施形態の一変形例に係る動画要約手法について説明するための説明図である。本実施形態に係る情報処理装置の機能を実現することが可能なハードウェア構成例について説明するための説明図である。顔トラッキング、顔クラスタリング、及び顔識別の内容を示した参考図である。

以下に添付図面を参照しながら、本技術に係る好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

［説明の流れについて］
ここで、以下に記載する説明の流れについて簡単に述べる。

まず、図１〜図４を参照しながら、本実施形態に係る動画要約手法の概要について説明する。次いで、図５〜図１３を参照しながら、関係性値の算出方法について説明する。次いで、図１４〜図１６を参照しながら、本実施形態に係る情報処理装置１００の構成例について説明する。次いで、図１７〜図２７を参照しながら、本実施形態に係る情報処理装置１００の動作例について説明する。

次いで、図２８〜図３０を参照しながら、本実施形態に係る関係性値の編集方法について説明する。次いで、図３１〜図３３を参照しながら、本実施形態の一変形例に係る動画要約手法について説明する。次いで、図３４を参照しながら、本実施形態に係る情報処理装置１００の機能を実現することが可能なハードウェア構成例について説明する。なお、図３５は、説明の中で適宜参照する。

最後に、同実施形態の技術的思想について纏め、当該技術的思想から得られる作用効果について簡単に説明する。

（説明項目）
１：はじめに
１−１：登場物間の関係性に基づく動画要約手法の概要
１−１−１：ダイジェスト再生について
１−１−２：コミック表示について
１−２：関係性値の算出方法
１−２−１：動画タイムラインメタデータについて
１−２−２：区間メタデータに基づく共演関係の評価方法
１−２−３：共演作品数に基づく関係性値の算出方法
１−２−４：共演作品数に基づく関係性値の算出方法（重み付き）
１−２−５：出演時間に基づく関係性値の算出方法
１−２−６：出演シーン時間に基づく関係性値の算出方法
１−３：関係性情報の拡張
２：実施形態
２−１：情報処理装置１００の構成
２−１−１：標準構成
２−１−２：変形例＃１（動画からメタデータを自動生成する構成）
２−１−３：変形例＃２（所定の関係性情報を利用する構成）
２−２：情報処理装置１００の動作
２−２−１：基本動作
２−２−２：要約処理＃１（関係性値の総和を最大化する方法）
２−２−３：要約処理＃２（シーン切り替え時の関係性値和を最大化１）
２−２−４：要約処理＃３（シーン切り替え時の関係性値和を最大化２）
２−２−５：要約処理＃４（シーン切り替え時の関係性値差を最小化）
２−２−６：要約処理＃５（その他の構成）
２−３：関係性値の編集方法
２−３−１：操作ＵＩの構成
２−３−２：関係性値の編集処理に伴う情報処理装置１００の動作
２−４：変形例（テンプレートを利用した動画要約手法）
２−４−１：テンプレートの構成
２−４−２：要約処理の流れ
２−４−３：テンプレートの自動生成方法
３：ハードウェア構成例
４：まとめ

＜１：はじめに＞
はじめに、本実施形態に係る動画要約手法について詳細に説明するに先立ち、当該動画要約手法の概要及び当該動画要約手法に用いる関係性値の算出方法について説明する。

［１−１：登場物間の関係性に基づく動画要約手法の概要］
まず、図１〜図４を参照しながら、登場物間の関係性に基づく動画要約手法の概要について説明する。図１及び図２は、登場物の関係性を利用したダイジェスト再生の仕組みについて説明するための説明図である。また、図３及び図４は、登場物の関係性を利用した代表シーン画像のコミック表示方法について説明するための説明図である。

（１−１−１：ダイジェスト再生）
近年、一般家庭においても動画を編集する機会が増えている。例えば、子供の運動会を撮影した映像の中から、自分の子供や自分の子供に関係する人物や物品など（以下、登場物）が写っている映像シーンだけを切り出して繋ぎ合わせる編集作業は、多くの場合、撮影者自身の手で行われる。但し、こうした編集作業は、撮影者にとって負荷の高い作業である。また、子供に関係する登場物を撮影者が十分に把握しているとは限らず、本当に適切な編集結果が得られていない可能性もある。そのため、登場物間の関係性を考慮して自動的に適切な映像シーンを抽出する技術が求められている。

また、登場物間の関係性を考慮して自動的に適切な映像シーンが抽出されるのであれば、実際には動画を編集せずに、自動抽出した映像シーンだけを時系列に再生することで、視聴者の意図に沿った動画の視聴形態を実現することが可能になる。例えば、自分の子供を指定し、自分の子供と関係する登場物の登場シーンだけを自動抽出して再生すれば、編集した動画を再生するのと同じ結果が得られる。また、ユーザが撮影した動画だけでなく、市場に流通している映画などの動画を対象に、ユーザが指定した登場物に関係する登場物の登場シーンを選択的に再生することも可能になる。

以下、動画から特定の映像シーンを選択的に再生する再生方法のことをダイジェスト再生と呼ぶことにする。言うまでもないが、動画のダイジェスト再生は、動画の要約に他ならない。さて、本実施形態において、動画のダイジェスト再生は、図１及び図２のような仕組みを用いて実現される。例えば、ある動画に人物Ａ、人物Ｂ、人物Ｃが登場するものとしよう。つまり、人物Ａ、人物Ｂ、人物Ｃは、この動画における登場物である。また、人物Ａと人物Ｂとは良好な関係性を有するものとする。一方、人物Ａと人物Ｃとは険悪な関係性を有するものとする。なお、登場物間の関係性を定量化する方法については後段において詳述する。

まず、動画中における人物Ａ、人物Ｂ、人物Ｃの登場シーンが抽出される。また、ユーザが人物Ａを選択し、良好な関係性に基づくダイジェスト再生を望んだ場合、人物Ａと良好な関係性を有する人物Ｂが選択される。次いで、人物Ａの登場シーンと、人物Ｂの登場シーンとが時系列に並べられてダイジェスト動画が生成される。但し、ダイジェスト動画は、実際に動画を編集して得られる動画データであってもよいし、再生区間を示した情報であってもよい。図１の例では、人物Ａが登場する区間Ｓ_１１〜Ｓ_１４と、人物Ｂが登場する区間Ｓ_２１及びＳ_２２とが時系列に並べられたダイジェスト動画が得られる。

また、ユーザが異なる登場物を選択すると、図２に示すように、ダイジェスト動画の内容も変更される。図２の例では、動画中に人物Ａ、人物Ｂ、人物Ｃ、人物Ｄが登場するものと仮定されている。また、人物Ａと人物Ｂとは良好な関係性を有し、人物Ａと人物Ｃとは険悪な関係性を有する。そして、人物Ａと人物Ｄとは険悪な関係性を有し、人物Ｂと人物Ｄとは良好な関係性を有する。さらに、人物Ｃと人物Ｄとは良好な関係性を有する。このような関係性が存在する場合、ユーザが人物Ａを選択し、良好な関係性に基づくダイジェスト再生を望むと、ダイジェスト動画は、（１）のような構成になる。一方、ユーザが人物Ｄを選択すると、ダイジェスト動画は、（２）のような構成になる。

上記のように、本実施形態に係る動画要約手法を用いると、同じ動画であっても、選択する登場物を変更することにより、ダイジェスト再生される動画の内容も変更される。また、上記の例では良好な関係性に基づくダイジェスト再生について考えたが、関係性の種類が途中で切り替わるように設定してもよい。例えば、「味方の関係→敵対関係→無関係→敵対関係→味方の関係」といった設定を設けておくことにより、特定のストーリー性をダイジェスト動画に与えることが可能になる。但し、このような関係性に関する設定を設けた場合であっても、ユーザが選択する登場物の変更に追従してダイジェスト動画の内容が変更されることに変わりはない。

（１−１−２：コミック表示）
図１及び図２に示したダイジェスト再生は、要約した動画を時系列で視聴するために利用される方法に関する。一方、ここで説明するコミック表示は、動画の要約結果を俯瞰的に視聴するための利用される方法に関する。但し、映像シーンの抽出方法は、上述したダイジェスト再生における映像シーンの抽出方法と同じである。例えば、図２の例において人物Ａが選択された場合に、人物Ａが登場する区間Ｓ_１１〜Ｓ_１４と、人物Ｂが登場する区間Ｓ_２１及びＳ_２２とが抽出される。しかし、コミック表示の場合、区間Ｓ_１１〜Ｓ_１４、Ｓ_２１、Ｓ_２２が時系列に再生されるのではなく、図３に示すように、各区間を代表する画像が並べて表示される。なお、代表する画像に代えて、各区間の動画が再生されるように構成されていてもよい。

また、図２の例において人物Ｄが選択された場合、人物Ｄが登場する区間Ｓ_４１〜Ｓ_４３と、人物Ｄの登場シーン以降に人物Ｂが登場する区間Ｓ_２２と、人物Ｄの登場シーン以降に人物Ｃが登場する区間Ｓ_３２〜Ｓ_３４とが抽出される。この場合、図４に示すように、各区間を代表する画像が並べて表示される。なお、１つの枠と１つの区間とが１対１に対応していなくてもよい。例えば、所定時間毎に各枠内に表示された画像が他の区間に対応する画像に切り替わるようにしてもよい。また、ユーザが各枠の画像を選択した場合に、選択された画像に対応する区間の動画が再生されるようにしてもよい。さらに、ユーザにより選択された登場物と関係性の強い登場物の登場シーンに対応する枠が強調表示されるように構成されていてもよい。

以上説明したように、本実施形態に係る動画要約手法を用いると、上記のようなダイジェスト再生やコミック表示が可能になる。なお、要約結果の表現方法はこれらの方法に限定されない点に注意されたい。

［１−２：関係性値の算出方法］
次に、図５〜図１２を参照しながら、関係性値の算出方法について説明する。この関係性値は、登場物間の関係性を定量的に表現したものである。この関係性値は、例えば、以下で説明する動画タイムラインメタデータを利用して算出される。

（１−２−１：動画タイムラインメタデータについて）
まず、動画タイムラインメタデータについて説明する。動画タイムラインメタデータは、図５に示すように、領域メタデータ、区間メタデータ、オブジェクトメタデータにより構成される。領域メタデータは、動画フレーム内に登場する人物や物品など（登場物）の位置及び範囲を示すメタデータである。図５の例では、動画フレーム内に登場する人物の顔領域を示す領域メタデータが例示されている。また、区間メタデータは、動画の中で、登場物が登場する区間を示すメタデータである。そして、オブジェクトメタデータは、動画に登場する登場物に関する関連情報を示すメタデータである。

なお、動画タイムラインメタデータは、動画に登場する登場物毎に設定される。また、動画タイムラインメタデータは、動画１つ１つについて設定される。そのため、動画タイムラインメタデータのうち、区間メタデータを利用することにより、ある登場物がどの動画のどの区間に登場するかを把握することが可能になる。また、領域メタデータを利用することにより、ユーザが指定した画面上の領域と、画面上に表示されている登場物との対応関係を把握することが可能になる。例えば、領域メタデータ及びオブジェクトメタデータを利用すれば、ユーザが登場人物の顔領域を指定した場合に、その登場人物に関する関連情報が表示されるといったユーザインターフェースを実現することが可能になる。

なお、動画タイムラインメタデータは、手入力により生成してもよいが、図３５に示すような顔検出、顔トラッキング、顔クラスタリング、顔識別などの方法を用いて自動生成することもできる。また、手入力による生成方法と自動生成方法とを補完的に組み合わせることにより、高精度の動画タイムラインメタデータを生成することができる。例えば、特開２００５−４４３３０号公報（物体検出・トラッキング）、特開２０１０−３０２１号公報（クラスタリング）、特開２００７−６５７６６号公報（認識）などに記載の技術を利用することが可能である。

（１−２−２：区間メタデータに基づく共演関係の評価方法）
次に、図６〜図８を参照しながら、区間メタデータに基づく共演関係の評価方法について説明する。なお、ここで言う共演とは、同じ動画又は同じ動画フレームに複数の登場物が登場する状態のことを意味する。また、以下では、説明の都合上、登場物が人物である場合を例に挙げて説明を進める。まず、区間メタデータから得られる主な情報の種類と、人物間の関係性を評価する際の評価基準とについて説明する。図６〜図８は、区間メタデータに基づく共演関係の評価方法について説明するための説明図である。

まず、図６を参照する。先に述べたように、区間メタデータは、動画毎及び人物毎に用意されている。また、各区間メタデータは、人物が登場する動画中の区間を表す。図６には、動画Ｍ_１について、人物Ａの登場区間を表した区間メタデータと、人物Ｂの登場区間を表した区間メタデータと、人物Ｃの登場区間を表した区間メタデータとが例示されている。図６の例では、ｔ_２〜ｔ_４の区間、ｔ_９〜ｔ_１１の区間、ｔ_１３〜ｔ_１６の区間が人物Ａの登場区間である。また、ｔ_１〜ｔ_３の区間、ｔ_５〜ｔ_７の区間、ｔ_１０〜ｔ_１２の区間が人物Ｂの登場区間である。さらに、ｔ_６〜ｔ_８の区間、ｔ_１４〜ｔ_１５の区間が人物Ｃの登場区間である。

図６に例示した３つの区間メタデータからは、動画Ｍ_１における各登場人物の出演時間（動画別出演時間）、動画Ｍ_１における共演者、動画Ｍ_１における共演シーンの長さ（以下、共演シーン時間）が分かる。例えば、動画Ｍ_１における人物Ａの動画別出演時間Δｔ_Ａは、Δｔ_１Ａ＝｜ｔ_４−ｔ_２｜＋｜ｔ_１１−ｔ_９｜＋｜ｔ_１６−ｔ_１３｜と算出される。人物Ｂの動画別出演時間Δｔ_１Ｂ、人物Ｃの動画別出演時間Δｔ_１Ｃについても同様である。また、動画Ｍ_１において人物Ａ、Ｂ、Ｃの登場区間が存在することから、人物Ａと人物Ｂとは共演者であり、人物Ｂと人物Ｃとは共演者であり、人物Ｃと人物Ａとは共演者であることが分かる。

さらに、ｔ_２〜ｔ_３の区間及びｔ_１０〜ｔ_１１の区間で人物Ａと人物Ｂとが共に登場しているから、動画Ｍ_１における人物Ａと人物Ｂとの共演シーン時間Δｔ_１ＡＢは、Δｔ_１ＡＢ＝｜ｔ_３−ｔ_２｜＋｜ｔ_１１−ｔ_１０｜と算出される。同様に、ｔ_６〜ｔ_７の区間で人物Ｂと人物Ｃとが共に登場しているから、動画Ｍ_１における人物Ｂと人物Ｃとの共演シーン時間Δｔ_１ＢＣは、Δｔ_１ＢＣ＝｜ｔ_７−ｔ_６｜と算出される。また、ｔ_１５〜ｔ_１４の区間で人物Ａと人物Ｃとが共に登場しているから、動画Ｍ_１における人物Ａと人物Ｃとの共演シーン時間Δｔ_１ＣＡは、Δｔ_１ＣＡ＝｜ｔ_１５−ｔ_１４｜と算出される。

このように、各動画の区間メタデータを分析することにより、各動画における各登場人物の動画別出演時間、各動画における共演者、各動画における共演シーン時間が得られる。また、複数の動画について得られた動画別出演時間、共演者、共演シーン時間などの情報を組み合わせると、図７に示すように、対象とする動画群（図７の例では動画Ｍ_１〜Ｍ_ｎ）について各人物の総出演時間、各人物の組に関する共演作品数、各人物の組に関する総共演時間、各人物の組に関する総共演シーン時間といった情報が得られる。

例えば、対象とする動画群について同じ人物の動画別出演時間を合計すると、その人物に関する総出演時間が得られる。また、各動画における共演者が分かっているため、ある人物の組が共演者となっている動画の数を計算すれば、その人物の組に関する共演作品数が得られる。さらに、ある人物の組に注目し、その人物の組が共演する動画群について各人物の動画別出演時間を合計することで、その人物の組に関する共演時間が得られる。また、ある人物の組に注目し、その人物の組が共演する動画群について共演シーン時間を合計することで、その人物の組に関する共演シーン時間が得られる。

例えば、人物Ｄと人物Ｅとが動画Ｍ_２、Ｍ_５で共演しているとしよう。この場合、人物Ｄと人物Ｅとの組に関する共演時間は、動画Ｍ_２及びＭ_５における人物Ｄの動画別出演時間（Δｔ_２Ｄ及びΔｔ_５Ｄ）の合計値と、動画Ｍ_２及びＭ_５における人物Ｅの動画別出演時間（Δｔ_２Ｅ及びΔｔ_５Ｅ）の合計値との和（Δｔ_２Ｄ＋Δｔ_５Ｄ＋Δｔ_２Ｅ＋Δｔ_５Ｅ）となる。また、人物Ｄと人物との組に関する共演シーン時間は、動画Ｍ_２における共演シーン時間Δｔ_２ＤＥと、動画Ｍ_５における共演シーン時間Δｔ_５ＤＥとの和（Δｔ_２ＤＥ＋Δｔ_５ＤＥ）となる。

共演作品数が多い人物の組、共演時間の長い人物の組、共演シーン時間の長い人物の組は、人物間の関係性が強い組であると考えられる。また、お互いに主役として共演している作品が多いほど、人物間の関係性が強いと考えることもできる。さらに、表示される面積なども考慮して人物間の関係性を評価する方が好ましいと考えられる。表示面積を考慮しないと、例えば、エキストラとして出演している人物と主演俳優との間の関係性が高く、主演俳優と主演女優との間の関係性が低くなるといったことも起こりうる。主役や脇役などの情報は、オブジェクトメタデータから得られる。また、子供、大人、男性、女性、年齢などの情報がオブジェクトデータに含まれている場合には、これらの情報を利用してもよい。また、表示面積などは、領域メタデータから得られる。

上記のように、区間メタデータを利用することで、人物間の関係性を評価するための様々な情報が得られる。また、その情報を利用することにより、人物間の関係性を評価することができる。さらに、オブジェクトメタデータや領域メタデータを併せて利用することにより、人物間の関係性をより適切に評価することが可能になる。例えば、人物間の関係性は、図８に示すように、マトリックスの形式で表現できる。なお、マトリックスの各枠には、その要素に対応する人物の組について関係性の強さを表す関係性値が入る。なお、このマトリックスのことを関係性マトリックスと呼ぶことにする。また、人物以外の登場物についても、同様に関係性マトリックスを求めることができる。以下、関係性値の具体的な算出方法について説明する。

（１−２−３：共演作品数に基づく関係性値の算出方法）
まず、図９を参照しながら、共演作品数に基づく関係性値の算出方法について説明する。図９は、共演作品数に基づく関係性値の算出方法について説明するための説明図である。なお、対象とする動画群は、動画Ｍ_１〜Ｍ_６であるとする。また、動画Ｍ_１〜Ｍ_６に登場する人物は、人物Ａ、人物Ｂ、人物Ｃであるとする。

既に述べたように、区間メタデータを利用すると、図６に示すように、人物Ａ、人物Ｂ、人物Ｃの共演関係が得られる。図９の例において、動画Ｍ_１の出演者は、人物Ａ、人物Ｂ、人物Ｃである。また、動画Ｍ_２の出演者は、人物Ａ、人物Ｃである。さらに、動画Ｍ_３の出演者は、人物Ｂだけである。そして、動画Ｍ_４の出演者は、人物Ａだけである。また、動画Ｍ_５の出演者は、人物Ａ、人物Ｂである。さらに、動画Ｍ_６の出演者は、人物Ａ、人物Ｂである。つまり、人物Ａと人物Ｂとが共演する作品は、動画Ｍ_１、動画Ｍ_５、動画Ｍ_６である。また、人物Ａと人物Ｃとが共演する作品は、動画Ｍ_１、動画Ｍ_２である。さらに、人物Ｂと人物Ｃとが共演する作品は、動画Ｍ_１だけである。

人物Ａと人物Ｂとが共演する作品数は３、人物Ａと人物Ｃとが共演する作品数は２、人物Ｂと人物Ｃとが共演する作品数は１であるため、人物Ａと人物Ｂとの関係性を表す関係性値は３、人物Ａと人物Ｃとの関係性を表す関係性値は２、人物Ｂと人物Ｃとの関係性を表す関係性値は１となる。なお、同じ人物間の関係性値も形式的に算出することができる。例えば、人物Ａと人物Ａとが共演する作品は、人物Ａが出演する作品と同義であり、動画Ｍ_１、Ｍ_２、Ｍ_４〜Ｍ_６が該当する。つまり、人物Ａと人物Ａとの共演作品数は５となり、人物Ａと人物Ａとの関係性を表す関係性値は５となる。人物Ｂ、人物Ｃについても同様である。

同じ人物に関する関係性値も含め、上記の方法で算出された関係性値をまとめると、図９に示すような関係性マトリックスが得られる。但し、この関係性マトリックスの対角成分は、各枠に対応する人物の出演作品数を表す。なお、ここでは出演作品数をそのまま関係性値として記載しているが、所定の係数をかけたり、正規化したりするなど、加工した数値を関係性値として利用することが望ましい。例えば、対角成分が全て１になるように正規化することが望ましい。

以上、共演作品数に基づく関係性の算出方法について説明した。

（１−２−４：共演作品数に基づく関係性値の算出方法（重み付き））
次に、図１０を参照しながら、共演作品数に基づく関係性値の算出方法（重み付き）について説明する。図１０は、共演作品数に基づく関係性値の算出方法（重み付き）について説明するための説明図である。ここでは、主役／脇役の区別を重みで表現し、その重み値と共演作品数とに基づいて関係性値を算出する方法について述べる。なお、子供、大人、男性、女性、年齢などの区別を重みで表現した場合も、同様の方法にて関係性マトリックスを求めることができる。ここでは、対象とする動画群は、動画Ｍ_１〜Ｍ_６であるとする。また、動画Ｍ_１〜Ｍ_６に登場する人物は、人物Ａ、人物Ｂ、人物Ｃであるとする。

区間メタデータを利用すると、図１０に示すように、人物Ａ、人物Ｂ、人物Ｃの共演関係が得られる。図１０の例において、動画Ｍ_１の出演者は、人物Ａ、人物Ｂ、人物Ｃである。また、動画Ｍ_２の出演者は、人物Ａ、人物Ｃである。さらに、動画Ｍ_３の出演者は、人物Ｂだけである。そして、動画Ｍ_４の出演者は、人物Ａだけである。また、動画Ｍ_５の出演者は、人物Ａ、人物Ｂである。さらに、動画Ｍ_６の出演者は、人物Ａ、人物Ｂである。つまり、人物Ａと人物Ｂとが共演する作品は、動画Ｍ_１、動画Ｍ_５、動画Ｍ_６である。また、人物Ａと人物Ｃとが共演する作品は、動画Ｍ_１、動画Ｍ_２である。さらに、人物Ｂと人物Ｃとが共演する作品は、動画Ｍ_１だけである。

また、オブジェクトメタデータを利用すると、動画Ｍ_１において人物Ａ及び人物Ｂが主役、人物Ｃが脇役であることが分かる。同様に、動画Ｍ_２において人物Ａが主役、人物Ｃが脇役であることが分かる。また、動画Ｍ_３において人物Ｂが主役であることが分かる。さらに、動画Ｍ_４において人物Ａが脇役であることが分かる。そして、動画Ｍ_５において人物Ａ、人物Ｂが脇役であることが分かる。また、動画Ｍ_６において人物Ａが主役、人物Ｂが脇役であることが分かる。

ここで、重みについて考える。共演者が共に主役の場合、共演作品１つにつきスコア＝４を与えるものとする。また、共演者の一方が主役、かつ、他方が脇役の場合、共演作品１つにつきスコア＝２を与えるものとする。さらに、共演者が共に脇役の場合、共演作品１つにつきスコア＝１を与えるものとする。

図１０の例において、人物Ａと人物Ｂとが共に主役を務める作品は、動画Ｍ_１である。また、人物Ａが主役を務め、かつ、人物Ｂが脇役を務める作品、或いは、人物Ａが脇役を務め、かつ、人物Ｂが主役を務める作品は、動画Ｍ_６である。そして、人物Ａと人物Ｂとが共に脇役を務める作品は、動画Ｍ_５である。これらの結果から、人物Ａと人物Ｂとの組について、人物Ａと人物Ｂとが共に主役を務める作品の数は１である。また、人物Ａが主役を務め、かつ、人物Ｂが脇役を務める作品、或いは、人物Ａが脇役を務め、かつ、人物Ｂが主役を務める作品の数は１である。そして、人物Ａと人物Ｂとが共に脇役を務める作品の数は１である。従って、スコアの合計は、４×１＋２×１＋１×１＝７となる。つまり、人物Ａと人物Ｂとの関係性を表す関係性値は７となる。

同様に、人物Ａと人物Ｃとが共に主役を務める作品は、動画Ｍ_２である。また、人物Ａが主役を務め、かつ、人物Ｃが脇役を務める作品、或いは、人物Ａが脇役を務め、かつ、人物Ｃが主役を務める作品は、動画Ｍ_１である。そして、人物Ａと人物Ｃとが共に脇役を務める作品は存在しない。これらの結果から、人物Ａと人物Ｃとの組について、人物Ａと人物Ｃとが共に主役を務める作品の数は１である。また、人物Ａが主役を務め、かつ、人物Ｃが脇役を務める作品、或いは、人物Ａが脇役を務め、かつ、人物Ｃが主役を務める作品の数は１である。そして、人物Ａと人物Ｃとが共に脇役を務める作品の数は０である。従って、スコアの合計は、４×１＋２×１＋１×０＝６となる。つまり、人物Ａと人物Ｃとの関係性を表す関係性値は６となる。

同様に、人物Ｂと人物Ｃとが共に主役を務める作品は存在しない。また、人物Ｂが主役を務め、かつ、人物Ｃが脇役を務める作品、或いは、人物Ｂが脇役を務め、かつ、人物Ｃが主役を務める作品は、動画Ｍ_１である。そして、人物Ｂと人物Ｃとが共に脇役を務める作品は存在しない。これらの結果から、人物Ｂと人物Ｃとの組について、人物Ｂと人物Ｃとが共に主役を務める作品の数は０である。また、人物Ｂが主役を務め、かつ、人物Ｃが脇役を務める作品、或いは、人物Ｂが脇役を務め、かつ、人物Ｃが主役を務める作品の数は１である。そして、人物Ｂと人物Ｃとが共に脇役を務める作品の数は０である。従って、スコアの合計は、４×０＋２×１＋１×０＝２となる。つまり、人物Ｂと人物Ｃとの関係性を表す関係性値は２となる。

同じ人物に関する関係性値も同様にして求め、これらの関係性値をまとめると、図１０に示すような関係性マトリックスが得られる。なお、ここではスコアの合計値をそのまま関係性値としたが、合計値の平方根を関係性値としてもよい。また、所定の係数をかけたり、正規化したりするなど、加工した数値を関係性値として利用することが望ましい。例えば、対角成分が全て１になるように正規化することが望ましい。また、上記の説明では、役柄の組み合わせに応じてスコア付けする方法を例示したが、例えば、次のように役柄重みＲＷを定義し、下記の式（１）に基づいて関係性値Ｒｅｌを算出してもよい。役柄重みＲＷ（Ｍｋ，Ａ）は、動画Ｍｋにおける人物Ａの役柄が主役の場合に２、脇役の場合に１、出演していない場合に０をとる。また、Ｒｅｌ（Ａ，Ｂ）は、人物Ａと人物Ｂとの関係性を示す関係性値を表す。

以上、共演作品数に基づく関係性の算出方法（重み付き）について説明した。

（１−２−５：出演時間に基づく関係性値の算出方法）
次に、図１１を参照しながら、出演時間に基づく関係性値の算出方法について説明する。図１１は、出演時間に基づく関係性値の算出方法について説明するための説明図である。ここでは、各動画における各人物の出演時間を利用して関係性値を算出する方法について述べる。なお、対象とする動画群は、動画Ｍ_１〜Ｍ_６であるとする。また、動画Ｍ_１〜Ｍ_６に登場する人物は、人物Ａ、人物Ｂ、人物Ｃであるとする。

区間メタデータを利用すると、図１１に示すように、人物Ａ、人物Ｂ、人物Ｃの共演関係が得られる。図１１の例において、動画Ｍ_１の出演者は、人物Ａ、人物Ｂ、人物Ｃである。また、動画Ｍ_２の出演者は、人物Ａ、人物Ｃである。さらに、動画Ｍ_３の出演者は、人物Ｂだけである。そして、動画Ｍ_４の出演者は、人物Ａだけである。また、動画Ｍ_５の出演者は、人物Ａ、人物Ｂである。さらに、動画Ｍ_６の出演者は、人物Ａ、人物Ｂである。つまり、人物Ａと人物Ｂとが共演する作品は、動画Ｍ_１、動画Ｍ_５、動画Ｍ_６である。また、人物Ａと人物Ｃとが共演する作品は、動画Ｍ_１、動画Ｍ_２である。さらに、人物Ｂと人物Ｃとが共演する作品は、動画Ｍ_１だけである。

また、区間メタデータを利用すると、図１１に示すように、動画Ｍ_１における人物Ａの出演時間は４０、人物Ｂの出演時間は３０、人物Ｃの出演時間は１０であることが分かる。同様に、動画Ｍ_２における人物Ａの出演時間は３０、人物Ｃの出演時間は４０であることが分かる。また、動画Ｍ_３における人物Ｂの出演時間は２０であることが分かる。さらに、動画Ｍ_４における人物Ａの出演時間は１０であることが分かる。そして、動画Ｍ_５における人物Ａの出演時間は５、人物Ｂの出演時間は１０であることが分かる。また、動画Ｍ_６における人物Ａの出演時間は４０、人物Ｂの出演時間は５であることが分かる。

出演時間が長い人物は、その動画の中で重要な役を担当していると言える。また、互いに重要な役で出演している人物間の関係性は強いと考えられる。逆に、互いに出演時間が短い人物間の関係性は低いと考えられる。例えば、ちょい役で登場する人物間の関係性は低く評価されるべきであろう。こうした考えから、出演時間ＰＳＬを定義し、下記の式（２）に基づいて関係性値Ｒｅｌを算出する方法を提案する。但し、出演時間ＰＳＬ（Ｍ_ｋ，Ａ）は、動画Ｍ_ｋにおける人物Ａの出演時間を表し、人物Ａが出演していない場合には０をとる。また、Ｒｅｌ（Ａ，Ｂ）は、人物Ａと人物Ｂとの関係性を示す関係性値を表す。なお、右辺の平方根を関係性値としてもよい。

図１１の例において、人物Ａと人物Ｂとの関係性を示す関係性値は、４０×３０（動画Ｍ_１）＋３０×０（動画Ｍ_２）＋０×２０（動画Ｍ_３）＋１０×０（動画Ｍ_４）＋５×１０（動画Ｍ_５）＋４０×５（動画Ｍ_６）＝１４５０となる。同様に計算すると、人物Ａと人物Ｃとの関係性を示す関係性値は１６００、人物Ｂと人物Ｃとの関係性を示す関係性値は３００となる。これらの数値をまとめると、図１１に示すような関係性マトリックスが得られる。なお、ここではスコアをそのまま関係性値として記載しているが、所定の係数をかけたり、正規化したりするなど、加工した数値を関係性値として利用することが望ましい。例えば、対角成分が全て１になるように正規化することが望ましい。

以上、出演時間に基づく関係性マトリックスの計算方法について説明した。

（１−２−６：出演シーン時間に基づく関係性値の算出方法）
次に、図１２を参照しながら、出演シーン時間に基づく関係性値の算出方法について説明する。図１２は、出演シーン時間に基づく関係性値の算出方法について説明するための説明図である。ここでは、各動画における共演シーン時間を利用して関係性値を算出する方法について述べる。なお、対象とする動画群は、動画Ｍ_１〜Ｍ_６であるとする。また、動画Ｍ_１〜Ｍ_６に登場する人物は、人物Ａ、人物Ｂ、人物Ｃであるとする。

区間メタデータを利用すると、図１２に示すように、各動画について各人物の組に関する共演シーン時間が得られる。なお、図１２の中では、人物Ｘと人物Ｙとの組に関する共演シーン時間を［Ｘ，Ｙ］と表現している。例えば、動画Ｍ_１における人物Ａと人物Ｂとの組に関する共演シーン時間は［Ａ，Ｂ］＝２０である。同様に、動画Ｍ_１に関しては、［Ａ，Ａ］＝４０、［Ｂ，Ｂ］＝３０，［Ｃ，Ｃ］＝１０、［Ａ，Ｃ］＝５、［Ｂ，Ｃ］＝５という結果が得られている。なお、［Ａ，Ａ］とは、人物Ａと人物Ａとが共演する区間の長さを示すものであるが、同じ人物が対象であるから、人物Ａの出演時間に一致する。［Ｂ，Ｂ］、［Ｃ，Ｃ］についても同様である。

同じ映像シーンに登場する人物間の関係性は強いと考えられる。例えば、会話を交わす関係にある人物は、当然のことながら同じ映像シーンに登場する。また、敵対していたり、或いは、味方の関係にある人物は、動画の中で同じ映像シーンに登場する頻度が高い。ヒーロー役の人物とヒロイン役の人物も同じ映像シーンに登場する頻度が高い。こうした考えから、共演シーン時間ＣＳＬを定義し、下記の式（３）に基づいて関係性値Ｒｅｌを算出する方法を提案する。但し、共演シーン時間ＣＳＬ（Ｍ_ｋ，Ａ，Ｂ）は、動画Ｍ_ｋにおいて人物Ａと人物Ｂとが共演している区間の長さを表し、いずれかの人物が出演していない場合には０をとる。また、Ｒｅｌ（Ａ，Ｂ）は、人物Ａと人物Ｂとの関係性を示す関係性値を表す。なお、右辺の平方根を関係性値としてもよい。

図１２の例において、人物Ａと人物Ｂとの関係性を示す関係性値は、２０（動画Ｍ_１）＋０（動画Ｍ_２）＋０（動画Ｍ_３）＋０（動画Ｍ_４）＋５（動画Ｍ_５）＋５（動画Ｍ_６）＝３０となる。同様に計算すると、人物Ａと人物Ｃとの関係性を示す関係性値は２５、人物Ｂと人物Ｃとの関係性を示す関係性値は５となる。これらの数値をまとめると、図１２に示すような関係性マトリックスが得られる。なお、ここでは共演シーン時間の合計値をそのまま関係性値として記載しているが、所定の係数をかけたり、正規化したりするなど、加工した数値を関係性値として利用することが望ましい。例えば、対角成分が全て１になるように正規化することが望ましい。

以上、共演シーン時間に基づく関係性マトリックスの計算方法について説明した。

以上説明したように、区間メタデータを利用して得られる情報から、様々な観点で人物間の関係性を評価することが可能である。なお、ここで説明した関係性値の算出方法は一例であり、例えば、顔領域の面積により重み付けした出演時間や共演シーン時間などを利用して関係性値を算出することも可能である。また、主役／脇役の区別、或いは、子供、大人、男性、女性、年齢などの区別を考慮して重み付けした出演時間や共演シーン時間などを利用して関係性値を算出することも可能である。

（その他の方法１：共演シーン時間＋役柄重み）
一例として、共演シーン時間ＣＳＬ及び役柄重みＲＷを組み合わせて関係性値Ｒｅｌを算出する方法を紹介する。なお、ＣＳＬ及びＲＷの定義は既に説明したものと同じである。この例において、関係性値Ｒｅｌ（Ａ，Ｂ）は、下記の式（４）により算出される。なお、右辺の平方根は省略してもよい。この方法によると、各動画における各人物の重要度を示す役柄重みと、各動画における人物間の関係性の強さを示す共演シーン時間とを共に考慮した関係性値が算出される。

（その他の方法２：共演シーン時間＋出演時間）
別の例として、共演シーン時間ＣＳＬ及び出演時間ＰＳＬを組み合わせて関係性値Ｒｅｌを算出する方法を紹介する。なお、ＣＳＬ及びＰＳＬの定義は既に説明したものと同じである。この例において、関係性値Ｒｅｌ（Ａ，Ｂ）は、下記の式（５）により算出される。なお、右辺の平方根は省略してもよい。この方法によると、各動画における各人物の重要度を示す出演時間と、各動画における人物間の関係性の強さを示す共演シーン時間とを共に考慮した関係性値が算出される。

［１−３：関係性情報の拡張］
さて、これまで説明してきた関係性値は、関係性の強弱を所定の条件下で定量化した数値であった。確かに、この数値を利用することにより、登場物間の関係性を客観的に判断することが可能になる。但し、動画を要約する際に関係性の種類を考慮したいケースが生じることも想定されるため、ここで関係性値の定義を拡張しておきたい。

例えば、親友と家族とが同等の関係性値で表現される可能性が考えられるであろう。これらを区別する方法としては、例えば、図１３に示すように、関係性値に属性を設定しておき、その属性を利用して関係性の種類を判別する方法が考えられる。また、人物Ａが人物Ｂに感じる親密度と、人物Ｂが人物Ａに感じる親密度とは異なる可能性が考えられる。そこで、図１３に示すように、関係性マトリックスの非対称性を許容することとする。図１３の例では、人物Ａにとっての人物Ｃは敵であり、人物Ｃにとっての人物Ａは友人である。このように関係性マトリックスの構成を拡張することで、より柔軟に要約の条件を設定することが可能になる。

以上、本実施形態に係る動画要約手法の概要及び関連技術について説明した。

＜２：実施形態＞
本技術の一実施形態について説明する。本実施形態は、動画要約手法に関する。

［２−１：情報処理装置１００の構成］
まず、図１４〜図１６を参照しながら、本実施形態に係る情報処理装置１００の構成例について説明する。図１４は、情報処理装置１００の標準的な構成について説明するための説明図である。図１５は、変形例（変形例＃１）に係る情報処理装置１００の構成について説明するための説明図である。図１６は、他の変形例（変形例＃２）に係る情報処理装置１００の構成について説明するための説明図である。

（２−１−１：標準構成）
図１４に示すように、情報処理装置１００は、主に、メタデータ取得部１０１と、関係性情報生成部１０２と、入力部１０３と、シーン抽出部１０４と、出力部１０５と、ＵＩ表示部１０６と、動画取得部１０７とにより構成される。

動画の要約処理を開始すると、メタデータ取得部１０１は、動画タイムラインメタデータを取得する。例えば、メタデータ取得部１０１は、情報処理装置１００の筐体内に設けられた記憶装置（非図示）、ネットワークに接続された記憶装置（非図示）、或いは、動画タイムラインメタデータを提供するサービスなどから動画タイムラインメタデータを取得する。そして、メタデータ取得部１０１により取得された動画タイムラインメタデータは、関係性情報生成部１０２に入力される。

動画タイムラインメタデータが入力されると、関係性情報生成部１０２は、入力された動画タイムラインメタデータを利用して関係性情報（関係性値や属性などを含む情報）を生成する。そして、関係性情報生成部１０２により生成された関係性情報は、シーン抽出部１０４及びＵＩ表示部１０６に入力される。なお、入力部１０３を介してユーザにより関係性情報の変更操作が行われた場合、関係性情報生成部１０２は、関係性情報に変更操作の内容を反映する。また、変更後の関係性情報は、シーン抽出部１０４及びＵＩ表示部１０６に入力される。

関係性情報が入力されると、シーン抽出部１０４は、入力された関係性情報、及び入力部１０３を介してユーザにより選択された登場物の情報に基づいてシーンを抽出する。なお、シーン抽出部１０４による抽出処理の内容については後段において詳述する。

シーン抽出部１０４により抽出されたシーンの情報は、出力部１０５に入力される。抽出されたシーンの情報が入力されると、出力部１０５は、入力されたシーンの情報に基づいて要約結果を出力する。例えば、出力部１０５は、動画取得部１０７により取得された動画のうち、シーン抽出部１０４により抽出されたシーンを再生（ダイジェスト再生）したり、そのシーンを代表する画像を並べて表示（コミック表示）したりする。また、出力部１０５は、シーン抽出部１０４により抽出されたシーンに対応する区間の情報を外部の機器に向けて出力するように構成されていてもよい。なお、動画取得部１０７は、情報処理装置１００の筐体内に設けられた記憶装置（非図示）、ネットワークに接続された記憶装置（非図示）、或いは、動画を提供するサービスなどから動画を取得する。

また、出力部１０５は、ＵＩ表示部１０６により生成されるユーザインターフェースの画像を表示する。このユーザインターフェースは、ユーザに対して関係性情報を提示するために利用されるものである。また、このユーザインターフェースは、ユーザが関係性情報を変更する際に利用されるものである。このユーザインターフェースを構成する部品の生成及び表示制御は、ＵＩ表示部１０６により実行される。なお、このユーザインターフェースの構成については後段において詳述する。

以上、情報処理装置１００の標準的な構成について説明した。

（２−１−２：変形例＃１（動画からメタデータを自動生成する構成））
次に、図１５を参照しながら、変形例＃１に係る情報処理装置１００の構成について説明する。変形例＃１の構成は、動画タイムラインメタデータを動画から自動抽出する点で図１４に示した標準的な構成と相違する。

図１５に示すように、情報処理装置１００は、主に、動画解析部１１１と、関係性情報生成部１０２と、入力部１０３と、シーン抽出部１０４と、出力部１０５と、ＵＩ表示部１０６と、動画取得部１０７とにより構成される。

動画の要約処理を開始すると、動画解析部１１１は、動画取得部１０７により取得された動画を解析し、動画タイムラインメタデータを生成する。なお、動画取得部１０７は、情報処理装置１００の筐体内に設けられた記憶装置（非図示）、ネットワークに接続された記憶装置（非図示）、或いは、動画を提供するサービスなどから動画を取得する。動画解析部１１１により生成された動画タイムラインメタデータは、関係性情報生成部１０２に入力される。

動画タイムラインメタデータが入力されると、関係性情報生成部１０２は、入力された動画タイムラインメタデータを利用して関係性情報を生成する。そして、関係性情報生成部１０２により生成された関係性情報は、シーン抽出部１０４及びＵＩ表示部１０６に入力される。なお、入力部１０３を介してユーザにより関係性情報の変更操作が行われた場合、関係性情報生成部１０２は、関係性情報に変更操作の内容を反映する。また、変更後の関係性情報は、シーン抽出部１０４及びＵＩ表示部１０６に入力される。

シーン抽出部１０４により抽出されたシーンの情報は、出力部１０５に入力される。抽出されたシーンの情報が入力されると、出力部１０５は、入力されたシーンの情報に基づいて要約結果を出力する。例えば、出力部１０５は、動画取得部１０７により取得された動画のうち、シーン抽出部１０４により抽出されたシーンを再生（ダイジェスト再生）したり、そのシーンを代表する画像を並べて表示（コミック表示）したりする。また、出力部１０５は、シーン抽出部１０４により抽出されたシーンに対応する区間の情報を外部の機器に向けて出力するように構成されていてもよい。

以上、変形例＃１に係る情報処理装置１００の構成について説明した。

（２−１−３：変形例＃２（所定の関係性情報を利用する構成））
次に、図１６を参照しながら、変形例＃２に係る情報処理装置１００の構成について説明する。変形例＃２の構成は、関係性情報を外部から取得する点で図１４に示した標準的な構成と相違する。

図１６に示すように、情報処理装置１００は、主に、関係性情報取得部１２１と、入力部１０３と、シーン抽出部１０４と、出力部１０５と、ＵＩ表示部１０６と、動画取得部１０７とにより構成される。

動画の要約処理を開始すると、関係性情報取得部１２１は、関係性情報を取得する。なお、関係性情報取得部１２１は、情報処理装置１００の筐体内に設けられた記憶装置（非図示）、ネットワークに接続された記憶装置（非図示）、或いは、関係性情報を提供するサービスなどから関係性情報を取得する。そして、関係性情報取得部１２１により取得された関係性情報は、シーン抽出部１０４及びＵＩ表示部１０６に入力される。なお、入力部１０３を介してユーザにより関係性情報の変更操作が行われた場合、関係性情報取得部１２１は、関係性情報に変更操作の内容を反映する。また、変更後の関係性情報は、シーン抽出部１０４及びＵＩ表示部１０６に入力される。

以上、変形例＃２に係る情報処理装置１００の構成について説明した。

［２−２：情報処理装置１００の動作］
次に、図１７〜図２７を参照しながら、本実施形態に係る情報処理装置１００の動作について説明する。なお、以下では、説明の都合上、情報処理装置１００の標準的な構成を想定して説明を進める。

（２−２−１：基本動作）
まず、図１７を参照しながら、情報処理装置１００の基本的な動作について説明する。

図１７に示すように、動画の要約処理を開始すると、情報処理装置１００は、メタデータ取得部１０１の機能により、動画タイムラインメタデータを取得する（Ｓ１０１）。次いで、情報処理装置１００は、関係性情報生成部１０２の機能により、動画タイムラインメタデータを用いて関係性情報を生成する（Ｓ１０２）。次いで、情報処理装置１００は、ユーザにより登場物が選択されたか否かを判定する（Ｓ１０３）。登場物が選択された場合、情報処理装置１００は、処理をステップＳ１０４に進める。一方、登場物が選択されていない場合、情報処理装置１００は、処理をステップＳ１０３に戻す。

処理をステップＳ１０４に進めた場合、情報処理装置１００は、シーン抽出部１０４の機能により、関係性情報に基づく動画の要約処理を実行する（Ｓ１０４）。なお、ステップＳ１０４にて実行される要約処理の詳細については後述する。次いで、情報処理装置１００は、出力部１０５の機能により、要約処理の結果を出力する（Ｓ１０５）。要約処理の結果を出力すると、情報処理装置１００は、動画の要約処理に関する一連の処理を終了する。

以上、情報処理装置１００の基本的な動作について説明した。

（２−２−２：要約処理＃１（関係性値の総和を最大化する方法））
次に、図１８及び図１９を参照しながら、ステップＳ１０４にて実行される要約処理の一例について、より詳細に説明する。ここでは、関係性値の総和を最大化するようにシーンを選択する方法（以下、要約処理＃１）について説明する。図１８は、要約処理＃１の概要について説明するための説明図である。また、図１９は、要約処理＃１に係る情報処理装置１００の動作について説明するための説明図である。

まず、図１８を参照する。ユーザにより登場物Ａが選択された場合、図１８に示すように、情報処理装置１００は、動画に登場する各登場物と登場物Ａとの間の関係性値Ｒを算出する。そして、情報処理装置１００は、関係性値Ｒが大きい順に所定数の登場物を選択する。図１８の例では、関係性値Ｒが大きい順に、登場物Ｃ、登場物Ｄ、登場物Ｂ、登場物Ｇが選択されている。このようにして登場物を選択することにより、選択した登場物と登場物Ａとの間における関係性値Ｒの総和が最大化される。登場物を選択すると、情報処理装置１００は、選択した各登場物が登場する動画中の区間を抽出する。そして、情報処理装置１００は、抽出した区間の動画を時系列に沿って再生したり、各区間を代表する画像を並べて表示したりする。

次に、図１９を参照する。図１８の例では単純に関係性値Ｒが大きい順に所定数の登場物を選択したが、関係性値Ｒの総和が最大化されるように所定数の区間を抽出したいケースも考えられる。また、各区間に登場する全ての登場物に関する関係性値Ｒを考慮したいケースも考えられる。このようなケースに適応するには、例えば、図１９に示すような処理の流れに沿って動画の要約処理を実行すればよい。

図１９に示すように、まず、情報処理装置１００は、ユーザにより選択された登場物が登場する区間（第１の区間）を検出する（Ｓ１１１）。次いで、情報処理装置１００は、ｎ＝２〜Ｎに関する処理ループを開始する。まず、情報処理装置１００は、第ｎ−１の区間以降の区間に登場する登場物を選択する（Ｓ１１２）。例えば、情報処理装置１００は、ユーザにより選択された登場物との間における関係性値Ｒが所定の閾値を越える登場物を選択する。但し、ステップＳ１１２で登場物が選択できない場合、情報処理装置１００は、処理をステップＳ１１４に進める。登場物を選択した情報処理装置１００は、選択した登場物が登場する区間を検出し、検出した区間を第ｎの区間に設定する（Ｓ１１３）。ｎ＝２〜ＮについてステップＳ１１２及びＳ１１３の処理を実行した後、情報処理装置１００は、処理をステップＳ１１４に進める。

処理をステップＳ１１４に進めた情報処理装置１００は、ユーザにより選択された登場物と第２〜第ｎの区間に登場する各登場物との間における関係性値Ｒを算出し、算出した関係性値Ｒの総和を計算する（Ｓ１１４）。次いで、情報処理装置１００は、ステップＳ１１４にて算出した関係性値Ｒの総和が最大か否かを判定する（Ｓ１１５）。関係性値Ｒの総和が最大になった場合、情報処理装置１００は、処理をステップＳ１１６に進める。一方、関係性値Ｒの総和が最大になっていない場合、情報処理装置１００は、処理をステップＳ１１１の後段に戻す。処理をステップＳ１１６に進めた場合、情報処理装置１００は、抽出したシーンの情報として第１〜第Ｎの区間を出力し（Ｓ１１６）、要約処理＃１に係る一連の処理を終了する。

以上、ステップＳ１０４にて実行される要約処理の一例について説明した。

（２−２−３：要約処理＃２（シーン切り替え時の関係性値和を最大化１））
次に、図２０及び図２１を参照しながら、ステップＳ１０４にて実行される要約処理の他の一例について、より詳細に説明する。ここでは、シーン切り替え時の関係性値和が最大化されるように登場物を選択する方法（以下、要約処理＃２）について説明する。図２０は、要約処理＃２の概要について説明するための説明図である。また、図２１は、要約処理＃２に係る情報処理装置１００の動作について説明するための説明図である。

まず、図２０を参照する。図２０に示すように、例えば、登場物Ａが登場する区間Ｓ_Ａ、登場物Ｆが登場する区間Ｓ_Ｆ、登場物Ｄが登場する区間Ｓ_Ｄ、登場物Ｂが登場する区間Ｓ_Ｂ、登場物Ｇが登場する区間Ｓ_Ｇを順次選択した場合について考えてみよう。この場合、シーンの切り替え前後に登場する登場物の組は、（Ａ，Ｆ）、（Ｆ，Ｄ）、（Ｄ，Ｂ）、（Ｂ，Ｇ）となる。そこで、情報処理装置１００は、登場物Ａと登場物Ｆとの間における関係性値Ｒ、登場物Ｆと登場物Ｆとの間における関係性値Ｒ、登場物Ｄと登場物Ｂとの間における関係性値Ｒ、登場物Ｂと登場物Ｇとの間における関係性値Ｒを算出し、それらの総和（図２０の例では３．１５）を計算する。

図２０には区間Ｓ_Ａ、区間Ｓ_Ｆ、区間Ｓ_Ｄ、区間Ｓ_Ｂ、区間Ｓ_Ｇを順次選択するケースを示したが、同様にして、情報処理装置１００は、選択する区間の組み合わせを変更しながら関係性値Ｒの総和を算出する。そして、情報処理装置１００は、関係性値Ｒの総和が最大となる区間の組み合わせを検出する。区間の組み合わせを検出した情報処理装置１００は、検出した区間の動画を時系列に沿って再生したり、各区間を代表する画像を並べて表示したりする。要約処理＃２の手法を適用すると、ユーザにより選択された登場物と間接的に強い関係性を有する登場物の登場シーンをダイジェスト再生やコミック表示に含めることが可能になる。例えば、仲が良い友人の繋がりを考慮したダイジェスト再生などを実現することが可能になる。

ここで、図２１を参照しながら、要約処理＃２に係る情報処理装置１００の動作について、より詳細に説明する。図２１に示すように、まず、情報処理装置１００は、ユーザにより選択された登場物が登場する区間（第１の区間）を検出する（Ｓ１２１）。次いで、情報処理装置１００は、ｎ＝２〜Ｎに関する処理ループを開始する。まず、情報処理装置１００は、第ｎ−１の区間以降の区間に登場する登場物を選択する（Ｓ１２２）。例えば、情報処理装置１００は、ユーザにより選択された登場物との間における関係性値Ｒが所定の閾値を越える登場物を選択する。但し、ステップＳ１２２で登場物が選択できない場合、情報処理装置１００は、処理をステップＳ１２４に進める。

登場物を選択した情報処理装置１００は、選択した登場物が登場する区間を検出し、検出した区間を第ｎの区間に設定する（Ｓ１２３）。ｎ＝２〜ＮについてステップＳ１２２及びＳ１２３の処理を実行した後、情報処理装置１００は、処理をステップＳ１２４に進める。処理をステップＳ１２４に進めた情報処理装置１００は、ｎ＝２〜Ｎについて第ｎ−１の区間に登場する登場物と第ｎの区間に登場する登場物との間における関係性値Ｒを算出し、算出した関係性値Ｒの総和を計算する（Ｓ１２４）。

次いで、情報処理装置１００は、ステップＳ１２４にて算出した関係性値Ｒの総和が最大か否かを判定する（Ｓ１２５）。関係性値Ｒの総和が最大になった場合、情報処理装置１００は、処理をステップＳ１２６に進める。一方、関係性値Ｒの総和が最大になっていない場合、情報処理装置１００は、処理をステップＳ１２１の後段に戻す。処理をステップＳ１２６に進めた場合、情報処理装置１００は、抽出したシーンの情報として第１〜第Ｎの区間を出力し（Ｓ１２６）、要約処理＃２に係る一連の処理を終了する。

以上、ステップＳ１０４にて実行される要約処理の他の一例について説明した。

（２−２−４：要約処理＃３（シーン切り替え時の関係性値和を最大化２））
次に、図２２及び図２３を参照しながら、ステップＳ１０４にて実行される要約処理の他の一例について、より詳細に説明する。ここでは、シーン切り替え時の関係性値和が最大化されるように登場物を選択する方法（以下、要約処理＃３）について説明する。図２２は、要約処理＃３の概要について説明するための説明図である。また、図２３は、要約処理＃３に係る情報処理装置１００の動作について説明するための説明図である。

上記の要約処理＃２の場合、情報処理装置１００は、登場物及びその登場物の登場シーンを逐次選択していき、シーンの切り替わりタイミングにおける登場物間の関係性値を求める。このとき、情報処理装置１００は、選択された登場物間の関係性値を求めている。そのため、上記の要約処理＃２においては、各シーンに登場する他の登場物に関する関係性値が考慮されていない。一方、ここで説明する要約処理＃３は、各シーンに登場する全ての登場物について関係性を考慮する。

例えば、図２２に示すように、ユーザにより登場物Ａが選択された場合、情報処理装置１００は、登場物Ａが登場する区間Ｓ_１を抽出する。次いで、情報処理装置１００は、区間Ｓ_１に登場する全ての登場物を検出する。図２２の例では、区間Ｓ_１に登場物Ａと登場物Ｇとが登場している。次いで、情報処理装置１００は、抽出した区間Ｓ_１以降の区間Ｓ_２を選択する。そして、情報処理装置１００は、区間Ｓ_２に登場する全ての登場物を検出する。図２２の例では、区間Ｓ_２に登場物Ｆが登場している。そこで、情報処理装置１００は、登場物Ａと登場物Ｆとの間における関係性値Ｒ、及び、登場物Ｇと登場物Ｆとの間における関係性値Ｒを算出し、それら関係性値Ｒの総和を計算する。

情報処理装置１００は、区間Ｓ_２の位置を移動させながら同様の方法で関係性値Ｒの総和を計算し、関係性値Ｒの総和が最大となる区間Ｓ_２を探索する。ここでは、登場物Ｆが登場する区間Ｓ_２が、関係性値Ｒの総和が最大となる区間Ｓ_２として確定されたものとする。区間Ｓ_２の位置を確定させると、情報処理装置１００は、区間Ｓ_２以降の区間Ｓ_３を選択する。そして、情報処理装置１００は、区間Ｓ_３に登場する全ての登場物を検出する。図２２の例では、区間Ｓ_３に登場物Ｄと登場物Ｃとが登場している。そこで、情報処理装置１００は、登場物Ｆと登場物Ｄとの間における関係性値Ｒ、及び、登場物Ｆと登場物Ｃとの間における関係性値Ｒを算出し、それら関係性値Ｒの総和を計算する。

区間Ｓ_２を確定された場合と同様に、情報処理装置１００は、関係性値Ｒの総和が最大となる区間Ｓ_３を探索する。区間Ｓ_３を確定させると、情報処理装置１００は、順次、区間Ｓ_４及び区間Ｓ_５についても同様の方法で位置を確定させる。区間の組み合わせを確定させた情報処理装置１００は、確定した区間の動画を時系列に沿って再生したり、各区間を代表する画像を並べて表示したりする。要約処理＃３の手法を適用すると、共演者との関係性も考慮に入れて、ユーザにより選択された登場物と間接的に強い関係性を有する登場物の登場シーンをダイジェスト再生やコミック表示に含めることが可能になる。

ここで、図２３を参照しながら、要約処理＃３に係る情報処理装置１００の動作について、より詳細に説明する。図２３に示すように、まず、情報処理装置１００は、ユーザにより選択された登場物が登場する区間（第１の区間）を検出する（Ｓ１３１）。次いで、情報処理装置１００は、ｎ＝２〜Ｎに関する処理ループを開始する。まず、情報処理装置１００は、第ｎ−１の区間以降の区間を選択し、選択した区間に登場する全ての登場物と、第ｎ−１の区間に登場する全ての登場物との間における関係性値の総和を算出する（Ｓ１３２）。次いで、情報処理装置１００は、関係性値の総和が最大になる区間を検出し、検出した区間を第ｎの区間に設定する（Ｓ１３３）。

ｎ＝２〜ＮについてステップＳ１３２及びＳ１３３の処理を実行した後、情報処理装置１００は、処理をステップＳ１３４に進める。処理をステップＳ１３４に進めた情報処理装置１００は、抽出したシーンの情報として第１〜第Ｎの区間を出力し（Ｓ１３４）、要約処理＃３に係る一連の処理を終了する。

（２−２−５：要約処理＃４（シーン切り替え時の関係性値差を最小化））
次に、図２４及び図２５を参照しながら、ステップＳ１０４にて実行される要約処理の他の一例について、より詳細に説明する。ここでは、シーン切り替え時における関係性値和の差が最小化されるように登場物を選択する方法（以下、要約処理＃４）について説明する。図２４は、要約処理＃４の概要について説明するための説明図である。また、図２５は、要約処理＃４に係る情報処理装置１００の動作について説明するための説明図である。

まず、図２４を参照する。ユーザにより登場物Ａが選択された場合、情報処理装置１００は、登場物Ａが登場する区間Ｓ_１を選択する。そして、情報処理装置１００は、選択した区間Ｓ_１に登場する全ての登場物を検出し、検出した各登場物と登場物Ａとの間における関係性値を算出する。図２４の例では、登場物Ａと登場物Ａとの間における関係性値、及び登場物Ａと登場物Ｇとの間における関係性値が算出される。関係性値を算出した情報処理装置１００は、算出した関係性値の総和を計算する。次いで、情報処理装置１００は、区間Ｓ_１以降の区間Ｓ_２を選択し、区間Ｓ_２に登場する全ての登場物に関して、各登場物と登場物Ａとの間における関係性値を算出する。そして、情報処理装置１００は、区間Ｓ_２に登場する登場物に関する関係性値の総和を計算する。

さらに、情報処理装置１００は、区間Ｓ_１に関して算出された関係性値の総和と区間Ｓ_２に関して算出された関係性値の総和との差を算出する。この差が最小でない場合、情報処理装置１００は、区間Ｓ_２の位置を変更して区間Ｓ_２に関する関係性値の総和を算出し、区間Ｓ_１に関して算出された関係性値の総和と区間Ｓ_２に関して算出された関係性値の総和との差を算出する。差が最小になった場合、情報処理装置１００は、区間Ｓ_２の位置を確定させ、同様の方法で区間Ｓ_２に次ぐ区間Ｓ_３の位置を探索する。その後も、情報処理装置１００は、同様の処理を逐次実行して区間Ｓ_４及び区間Ｓ_５の位置を確定させる。このようにして区間の組み合わせを確定させた情報処理装置１００は、確定した区間の動画を時系列に沿って再生したり、各区間を代表する画像を並べて表示したりする。

要約処理＃４の手法を適用すると、ユーザにより選択された登場物と強い関係性を有する登場物の登場シーンを用いてダイジェスト再生やコミック表示を実現することができる。また、シーンの切り替え前後で関係性値の差が小さくなることから、自然なシーンの切り替わりが実現される。

ここで、図２５を参照しながら、要約処理＃４に係る情報処理装置１００の動作について、より詳細に説明する。図２５に示すように、まず、情報処理装置１００は、ユーザにより選択された登場物が登場する区間（第１の区間）を検出する（Ｓ１４１）。次いで、情報処理装置１００は、ｎ＝２〜Ｎに関する処理ループを開始する。まず、情報処理装置１００は、第ｎ−１の区間以降の区間を選択し、選択した区間に登場する全ての登場物と、ユーザにより選択された登場物との間における関係性値の総和を算出する（Ｓ１４２）。次いで、情報処理装置１００は、選択した区間のうち、関係性値の総和が第ｎ−１の区間に関する関係性値の総和に最も近い区間を検出し、検出した区間を第ｎの区間に設定する（Ｓ１４３）。

ｎ＝２〜ＮについてステップＳ１４２及びＳ１４３の処理を実行した後、情報処理装置１００は、処理をステップＳ１４４に進める。処理をステップＳ１４４に進めた情報処理装置１００は、抽出したシーンの情報として第１〜第Ｎの区間を出力し（Ｓ１４４）、要約処理＃４に係る一連の処理を終了する。

（２−２−６：要約処理＃５（その他の構成））
これまで説明してきた要約処理は、ユーザにより選択された登場物との間で直接的又は間接的に強い関係性を有する登場物の登場シーンを抽出するものであった。しかし、関係性値の総和が最小になるように区間を選択するなどの条件変更を行うことも可能である。また、要約処理＃２及び＃３のようにシーン切り替え時の関係性に基づいて区間を逐次選択する手法の場合、ユーザにより選択された登場物との関係性が次第に薄れていってしまう可能性がある。そこで、ランダムなタイミングでユーザにより選択された登場物との直接的な関係性が強い登場物が登場する区間を挿入するなどの工夫を追加してもよい。また、上記の説明では比較的単純なアルゴリズムを例示したが、最適な区間の組み合わせを検出する方法として、例えば、局所探索、焼きなまし法、遺伝的アルゴリズムなどを利用する方法も考えられる。このように、上記の要約処理は必要に応じて変形可能である。

以上、本実施形態に係る情報処理装置１００の動作について説明した。なお、図２６及び図２７に示すように、いずれの方法を用いても、ダイジェスト動画における関係性値の時系列変化は、ユーザにより選択される登場物に応じて変わる。また、ダイジェスト動画の構成も、ユーザにより選択される登場物に応じて変化する。もちろん、要約結果をコミック表示にした場合も、ユーザにより選択される登場物に応じて表示内容が変化する。

［２−３：関係性値の編集方法］
次に、図２８〜図３０を参照しながら、本実施形態に係る関係性値の編集方法について説明する。図２８は、関係性値の編集操作に用いるユーザインターフェースの構成例を示した説明図である。図２９は、関係性値の編集方法について説明するための説明図である。図３０は、関係性値の編集に伴う情報処理装置１００の動作について説明するための説明図である。

（２−３−１：操作ＵＩの構成）
まず、図２８及び図２９を参照しながら、関係性値の編集操作に用いるユーザインターフェースの構成例について説明する。

図２８に示すように、情報処理装置１００は、ＵＩ表示部１０６の機能により、編集領域、及び各登場物を表すオブジェクトを表示画面に表示する。この編集領域は、コミック表示やダイジェスト再生用のウィンドウと同じ表示画面上に表示されてもよいし、或いは、単独で表示画面上に表示されてもよい。編集領域の内部には、動画に登場する登場物のオブジェクトが表示される。また、編集領域の内部には、図２８に示すような同心円状のガイドが表示されていてもよい。図２８の例では、動画に登場する登場人物Ａ〜Ｄのオブジェクト及び同心円状のガイドが表示されている。

図２８の例において、ユーザにより選択された登場物は、登場人物Ａである。そのため、登場人物Ａのオブジェクトは、編集領域の中央に表示される。また、登場人物Ｂ〜Ｄのオブジェクトは、各登場物間の関係性値に基づいて配置される。例えば、登場人物Ａのオブジェクトと登場人物Ｂのオブジェクトとの間の距離は、登場人物Ａのオブジェクトと登場人物Ｃのオブジェクトとの間の距離よりも短い。この配置は、登場人物Ａと登場人物Ｂとの間における関係性値の方が、登場人物Ａと登場人物Ｃとの間における関係性値よりも大きいことを示している。また、登場人物Ｂ〜Ｄのオブジェクトが表示される位置は、登場人物Ｂと登場人物Ｃとの間における関係性値、登場人物Ｃと登場人物Ｄとの間における関係性値、登場人物Ｂと登場人物Ｄとの間における関係性値も考慮して決定される。

上記のように、動画に登場する各登場物のオブジェクトを関係性値に基づいて配置することにより、一見して登場物間の関係性を把握することが可能になる。また、同心円状のガイドを併せて表示することにより、ユーザにより選択された登場物と他の登場物との関係性を正確に把握することが可能になる。なお、ユーザにより選択された登場物との間における関係性値が所定の閾値を下回る登場物のオブジェクトを編集領域に表示しないようにしてもよい。このような表示方法を適用すると、見やすい表示となり、編集対象として注目すべき登場物を素早く見つけることが可能になる。

ここで関係性値の編集操作について説明する。関係性値を編集する場合、ユーザは、図２９に示すように、編集対象の登場物を表すオブジェクトの位置を変えることで、その登場物と他の登場物との間の関係性値を変更することができる。例えば、図２９に示すように、登場人物Ｂのオブジェクトを左下方向へ、登場人物Ｃのオブジェクトを中心方向へと移動させると、登場人物Ａと登場人物Ｂとの間における関係性値が減少し、登場人物Ａと登場人物Ｃとの間における関係性値が増加する。また、図２９の例では、登場人物Ｂと登場人物Ｄとの間における関係性値が減少し、登場人物Ｃと登場人物Ｄとの間における関係性値が増大する。

（２−３−２：関係性値の編集処理に伴う情報処理装置１００の動作）
図２９に示すような編集操作を行った場合、情報処理装置１００は、図３０に示すように、オブジェクトの位置関係に基づいて関係性マトリックスを更新する。例えば、図２９に例示した編集操作を行った場合、情報処理装置１００は、登場人物Ａと登場人物Ｂとの間における関係性値を距離に応じた値に減少させ（０．８→０．１）、登場人物Ａと登場人物Ｃとの間における関係性値を距離に応じた値に増加させる（０．２→０．７）。さらに、情報処理装置１００は、登場人物Ｂと登場人物Ｃとの間における関係性値を距離に応じた値に増加させる（０．１→０．３）。そして、情報処理装置１００は、更新後の関係性マトリクスに基づいてダイジェスト動画の構成やコミック表示の構成を変化させる。

以上、関係性値の編集操作に用いるユーザインターフェースの構成例、及び関係性値の編集に伴う情報処理装置１００の動作について説明した。

［２−４：変形例（テンプレートを利用した動画要約手法）］
これまで、関係性値を利用した動画要約手法について説明してきた。ここでは、登場物間の関係性に関する属性情報が得られる場合、或いは、動画の各区間におけるカメラワークやエフェクトなどの情報が得られる場合に、これらの情報を用いてストーリー性のある要約結果が得られるようにする手法について説明する。この手法においては、図３１に示すようなテンプレートが利用される。

（２−４−１：テンプレートの構成）
まず、図３１を参照しながら、テンプレートの構成について説明する。図３１に示すように、テンプレートには、関係性の種類を示す属性情報が含まれる。また、テンプレートには、シーンの個数などの情報が含まれていてもよい。例えば、友人（２シーン）→他人（１シーン）→本人（５シーン）→敵（１シーン）→恋人（３シーン）などといった情報がテンプレートに含まれていてもよい。また、カメラワークやエフェクトなどの情報がメタデータとして得られている場合には、このメタデータも動画の要約処理に利用される。

例えば、図３１の例において、登場人物Ａが選択された場合、情報処理装置１００は、登場人物Ａと友人関係にある登場人物が登場するシーンのうち、メタデータがパンを示すシーンを選択する。次いで、情報処理装置１００は、登場人物Ａと他人関係にある登場人物が登場するシーンのうち、メタデータがチルトを示すシーンを選択する。次いで、情報処理装置１００は、登場人物Ａが登場するシーンのうち、メタデータがズームを示すシーンを選択する。次いで、情報処理装置１００は、登場人物Ａと敵対関係にある登場人物が登場するシーンのうち、メタデータがズームアウトを示すシーンを選択する。次いで、情報処理装置１００は、登場人物Ａと恋人関係にある登場人物が登場するシーンのうち、メタデータがフェードアウトを示すシーンを選択する。

一方、図３１の例において、登場人物Ｂが選択された場合、情報処理装置１００は、登場人物Ｂと友人関係にある登場人物が登場するシーンのうち、メタデータがパンを示すシーンを選択する。次いで、情報処理装置１００は、登場人物Ｂと他人関係にある登場人物が登場するシーンのうち、メタデータがチルトを示すシーンを選択する。次いで、情報処理装置１００は、登場人物Ｂが登場するシーンのうち、メタデータがズームを示すシーンを選択する。次いで、情報処理装置１００は、登場人物Ｂと敵対関係にある登場人物が登場するシーンのうち、メタデータがズームアウトを示すシーンを選択する。次いで、情報処理装置１００は、登場人物Ｂと恋人関係にある登場人物が登場するシーンのうち、メタデータがフェードアウトを示すシーンを選択する。

このように、テンプレートを利用することにより、ストーリー性のあるダイジェスト動画を生成することが可能になる。また、関係性値を利用した動画要約手法と同様に、選択する登場物に応じてダイジェスト動画の構成が動的に変更される。

（２−４−２：要約処理の流れ）
ここで、図３２を参照しながら、テンプレートを利用した動画要約手法に係る情報処理装置１００の動作について説明する。図３２は、テンプレートを利用した動画要約手法に係る情報処理装置１００の動作について説明するための説明図である。

図３２に示すように、まず、情報処理装置１００は、テンプレートを取得する（Ｓ１５１）。例えば、情報処理装置１００は、筐体内に設けられた記憶装置（非図示）、ネットワークに接続された記憶装置（非図示）、或いは、テンプレートを提供するサービスなどからテンプレートを取得する。次いで、情報処理装置１００は、ｎ＝１〜Ｎについて、テンプレートのｎ番目に記載の属性に適合する区間を検出し、第ｎの区間に設定する（Ｓ１５２）。ｎ＝１〜ＮについてステップＳ１５２の処理を実行した情報処理装置１００は、処理をステップＳ１５３に進める。処理をステップＳ１５３に進めた情報処理装置１００は、抽出したシーンの情報として第１〜第Ｎの区間を出力し（Ｓ１５３）、要約処理に係る一連の処理を終了する。

以上、テンプレートを利用した動画要約手法に係る情報処理装置１００の動作について説明した。

（２−４−３：テンプレートの自動生成方法）
上記の説明においてはテンプレートを外部から取得するものとしたが、機械学習などを利用してテンプレートを自動生成する方法も考えられる。そこで、図３３を参照しながら、テンプレートの自動生成方法について簡単に説明する。

図３３に示すように、まず、情報処理装置１００は、予め用意した複数の作品（動画や静止画群など）を解析し、各作品に含まれる典型的な関係性の時系列変化を抽出する（Ｓ１６１）。次いで、情報処理装置１００は、ステップＳ１６１で抽出した関係性の時系列変化を学習データとして利用し、機械学習により特徴的な関係性の時系列変化を抽出してテンプレートを生成する（Ｓ１６２）。次いで、情報処理装置１００は、ステップＳ１６２で生成したテンプレートを出力し（Ｓ１６３）、テンプレートの自動生成に係る一連の処理を終了する。例えば、情報処理装置１００は、筐体内に設けられた記憶装置（非図示）又はネットワークに接続された記憶装置（非図示）にテンプレートを格納したり、テンプレートを提供するサービスなどにテンプレートを提供したりする。

以上、テンプレートの自動生成方法について説明した。

＜３：ハードウェア構成例＞
上記の情報処理装置１００が有する各構成要素の機能は、例えば、図３４に示すハードウェア構成を用いて実現することが可能である。つまり、当該各構成要素の機能は、コンピュータプログラムを用いて図３４に示すハードウェアを制御することにより実現される。なお、このハードウェアの形態は任意であり、例えば、パーソナルコンピュータ、携帯電話、ＰＨＳ、ＰＤＡ等の携帯情報端末、ゲーム機、又は種々の情報家電がこれに含まれる。但し、上記のＰＨＳは、ＰｅｒｓｏｎａｌＨａｎｄｙ−ｐｈｏｎｅＳｙｓｔｅｍの略である。また、上記のＰＤＡは、ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔの略である。

図３４に示すように、このハードウェアは、主に、ＣＰＵ９０２と、ＲＯＭ９０４と、ＲＡＭ９０６と、ホストバス９０８と、ブリッジ９１０と、を有する。さらに、このハードウェアは、外部バス９１２と、インターフェース９１４と、入力部９１６と、出力部９１８と、記憶部９２０と、ドライブ９２２と、接続ポート９２４と、通信部９２６と、を有する。但し、上記のＣＰＵは、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔの略である。また、上記のＲＯＭは、ＲｅａｄＯｎｌｙＭｅｍｏｒｙの略である。そして、上記のＲＡＭは、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙの略である。

ＣＰＵ９０２は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ９０４、ＲＡＭ９０６、記憶部９２０、又はリムーバブル記録媒体９２８に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ＲＯＭ９０４は、ＣＰＵ９０２に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ９０６には、例えば、ＣＰＵ９０２に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

これらの構成要素は、例えば、高速なデータ伝送が可能なホストバス９０８を介して相互に接続される。一方、ホストバス９０８は、例えば、ブリッジ９１０を介して比較的データ伝送速度が低速な外部バス９１２に接続される。また、入力部９１６としては、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力部９１６としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。

出力部９１８としては、例えば、ＣＲＴ、ＬＣＤ、ＰＤＰ、又はＥＬＤ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。但し、上記のＣＲＴは、ＣａｔｈｏｄｅＲａｙＴｕｂｅの略である。また、上記のＬＣＤは、ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙの略である。そして、上記のＰＤＰは、ＰｌａｓｍａＤｉｓｐｌａｙＰａｎｅｌの略である。さらに、上記のＥＬＤは、Ｅｌｅｃｔｒｏ−ＬｕｍｉｎｅｓｃｅｎｃｅＤｉｓｐｌａｙの略である。

記憶部９２０は、各種のデータを格納するための装置である。記憶部９２０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。但し、上記のＨＤＤは、ＨａｒｄＤｉｓｋＤｒｉｖｅの略である。

ドライブ９２２は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９２８に記録された情報を読み出し、又はリムーバブル記録媒体９２８に情報を書き込む装置である。リムーバブル記録媒体９２８は、例えば、ＤＶＤメディア、Ｂｌｕ−ｒａｙメディア、ＨＤＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９２８は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。但し、上記のＩＣは、ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔの略である。

接続ポート９２４は、例えば、ＵＳＢポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ、ＲＳ−２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９３０を接続するためのポートである。外部接続機器９３０は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。但し、上記のＵＳＢは、ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓの略である。また、上記のＳＣＳＩは、ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅの略である。

通信部９２６は、ネットワーク９３２に接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ用の通信カード、光通信用のルータ、ＡＤＳＬ用のルータ、又は各種通信用のモデム等である。また、通信部９２６に接続されるネットワーク９３２は、有線又は無線により接続されたネットワークにより構成され、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、可視光通信、放送、又は衛星通信等である。但し、上記のＬＡＮは、ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋの略である。また、上記のＷＵＳＢは、ＷｉｒｅｌｅｓｓＵＳＢの略である。そして、上記のＡＤＳＬは、ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅの略である。

＜４：まとめ＞
最後に、本実施形態の技術的思想について簡単に纏める。以下に記載する技術的思想は、例えば、ＰＣ、携帯電話、ゲーム機、情報端末、情報家電、カーナビゲーションシステムなど、種々の情報処理装置に対して適用することができる。

上記の情報処理装置の機能構成は、以下のように表現することができる。例えば、下記（１）に記載の情報処理装置は、関係性情報と区間メタデータとに基づき、ユーザが選択した登場物と関係性のある登場物が登場する区間を動画中から検出し、その区間に対応する画像を出力する機能を有している。つまり、この情報処理装置は、ユーザが選択した登場物に関係する登場物が登場するシーンを繋ぎ合わせてダイジェスト映像を出力したり、抽出したシーンに対応する画像を並べてダイジェストシーンの俯瞰表示を実現したりすることができる。もちろん、ユーザが選択する登場物が変われば、これらのダイジェスト映像や俯瞰表示の構成も、その登場物に適した構成に自動変更される。

上記のように、本実施形態に係る動画要約手法を用いると、人物や物品などの登場物を選択するだけで、その登場物に関するダイジェスト映像や俯瞰表示の内容を自動的に生成することが可能になる。例えば、運動会の模様を撮影した動画を用意し、自分の子供を選択すると、自分の子供に関するダイジェスト映像が自動的に生成される。このダイジェスト映像には、自分の子供はもちろんのこと、友人や先生など、自分の子供に関係する人物が登場するため、そのダイジェスト映像から人間関係を中心とした学校生活の雰囲気を把握することも可能になる。また、結婚式などのイベントで撮影した動画を用意し、新郎・新婦を選択すると、新郎・新婦を中心とし、友人や親しい親類などが登場する編集されたダイジェスト映像が自動生成される。

このように、本実施形態に係る動画要約手法を実現可能な構成を有する下記の情報処理装置を用いれば、専門家の手を借りずとも、人間関係を考慮した優れたダイジェスト映像を容易に生成することが可能になる。もちろん、ダイジェスト映像に代えて、各シーンに対応する画像を並べて表示する俯瞰表示なども実現することができる。また、本実施形態に係る動画要約手法は、人物の関係性だけでなく、人物と物品との関係性、或いは、物品と物品との関係性についても同様に扱うことができる。例えば、映画を収録した動画を用意し、登場するサングラスを選択すると、そのサングラスと関係性のある俳優の登場シーンをまとめたダイジェスト映像を生成することなども可能になる。このようなダイジェスト映像は、例えば、サングラスのコマーシャル映像として利用することもできよう。このように、本実施形態に係る動画要約手法は、応用範囲が広く様々な場面で利用できる。

（１）
動画に登場する各登場物間の関係性を示す関係性情報と、前記動画の中で各登場物が登場する区間を示す区間メタデータとを利用し、ユーザにより選択された登場物との間に所定の関係性を有する登場物が登場する区間を検出する区間検出部と、
前記区間検出部により検出された区間に対応する画像を出力する画像出力部と、
を備える、
情報処理装置。

（２）
前記関係性情報は、前記関係性の強さを示す関係性値を含み、
前記区間検出部は、前記ユーザにより選択された登場物との間における関係性値の総和が最大となるように所定数の登場物を選択し、選択した登場物が登場する所定数の区間を検出する、
上記（１）に記載の情報処理装置。

（３）
前記関係性情報は、前記関係性の強さを示す関係性値を含み、
前記区間検出部は、
前記ユーザにより選択された第１の登場物が登場する第１の区間を検出する処理と、
ｎ＝２〜Ｎ（Ｎ≧２）に関し、第ｎ−１の区間の次に再生される第ｎの区間に登場する第ｎの登場物を選択する処理と、
前記第ｎ−１の登場物と前記第ｎの登場物との間における関係性値をｎ＝２〜Ｎに関して積算し、前記関係性値の積算値を算出する処理と、
前記関係性値の積算値が最大となる第２〜第Ｎの登場物を選択する処理と、
選択した前記第ｎの登場物（ｎ＝２〜Ｎ）が登場する第ｎの区間を検出する処理と、
を実行し、前記第１〜第Ｎの区間を検出結果として出力する、
上記（１）に記載の情報処理装置。

（４）
前記関係性情報は、前記関係性の強さを示す関係性値を含み、
前記区間検出部は、
前記ユーザにより選択された登場物が登場する第１の区間を検出する処理と、
ｎ＝２〜Ｎ（Ｎ≧２）に関し、第ｎ−１の区間以降の各区間について、各区間内に登場する全ての登場物と、前記第ｎ−１の区間に登場する全ての登場物との間における関係性値の総和が最大になる区間を検出して第ｎの区間に設定する処理と、
を実行し、前記第１〜第Ｎの区間を検出結果として出力する、
上記（１）に記載の情報処理装置。

（５）
前記関係性情報は、前記関係性の強さを示す関係性値を含み、
前記区間検出部は、
前記ユーザにより選択された登場物が登場する第１の区間を検出する処理と、
ｎ＝２〜Ｎ（Ｎ≧２）に関し、第ｎ−１の区間以降の各区間について、各区間内に登場する全ての登場物と、前記ユーザにより選択された登場物との間における関係性値の総和を算出し、算出した関係性値の総和が前記第ｎ−１の区間に関する関係性値の総和に最も近くなる区間を検出して第ｎの区間に設定する処理と、
を実行し、前記第１〜第Ｎの区間を検出結果として出力する、
上記（１）に記載の情報処理装置。

（６）
前記関係性情報は、前記関係性の強さを示す関係性値を含み、
前記区間検出部は、前記ユーザにより選択された登場物との間における関係性値の総和が最小となるように所定数の登場物を選択し、選択した登場物が登場する所定数の区間を検出する、
上記（１）に記載の情報処理装置。

（７）
前記区間検出部は、前記関係性情報に含まれる少なくとも１つの関係性値が変更された場合に、変更後の前記関係性情報に基づいて前記区間を再検出し、
前記画像出力部は、前記区間検出部による再検出の結果に応じて出力内容を更新する、
上記（２）〜（６）のいずれか１項に記載の情報処理装置。

（８）
前記ユーザにより選択された登場物に対応する第１のオブジェクトを操作領域の中心に表示し、当該登場物との間における関係性値の大きさに応じた距離だけ前記第１のオブジェクトから離れた位置に、一又は複数の他の登場物にそれぞれ対応する一又は複数の第２のオブジェクトを表示するオブジェクト表示部と、
前記操作領域において前記第２のオブジェクトの位置が変更された場合に、変更後の当該第２のオブジェクトの位置に応じた関係性値を算出し、算出した関係性値により前記関係性情報を更新する関係性情報更新部と、
をさらに備える、
上記（７）に記載の情報処理装置。

（９）
同じ作品に登場する頻度が高いほど、或いは、共に登場する区間の長さが長いほど、前記関係性値が大きくなるように、前記区間メタデータを利用して各登場物の組に関する関係性値を算出して前記関係性情報を生成する関係性情報生成部をさらに備える、
上記（２）〜（８）に記載の情報処理装置。

（１０）
前記関係性情報は、前記関係性の種類を示した第１〜第Ｎ−１の種類情報を含み、
前記区間検出部は、
前記ユーザにより選択された登場物が登場する第１の区間を検出する処理と、
ｎ＝１〜Ｎ−１に関し、前記ユーザにより選択された登場物との間において第ｎの種類情報が示す種類の関係性を有する第ｎの登場物を検出し、第ｎの区間以降の区間の中から当該第ｎの登場物が登場する区間を検出して第ｎ＋１の区間に設定する処理と、
を実行し、前記第１〜第Ｎの区間を検出結果として出力する、
上記（１）に記載の情報処理装置。

（１１）
予め用意された複数の動画における特徴的な関係性の時系列変化を検出し、検出した特徴的な関係性の時系列変化に適合するように前記第１〜第Ｎ−１の種類情報を設定する種類情報設定部をさらに備える、
上記（１０）に記載の情報処理装置。

（１２）
前記第１〜第Ｎ−１の種類情報には、それぞれカメラワーク又はエフェクトの種類を示す補助情報が対応付けられており、
前記区間検出部は、
前記ユーザにより選択された登場物が登場する第１の区間を検出する処理と、
ｎ＝１〜Ｎ−１に関し、前記ユーザにより選択された登場物との間において第ｎの種類情報が示す種類の関係性を有する第ｎの登場物を検出し、第ｎの区間以降の区間の中から当該第ｎの登場物が登場する区間であり、かつ、前記補助情報に適合する区間を検出して第ｎ＋１の区間に設定する処理と、
を実行し、前記第１〜第Ｎの区間を検出結果として出力する、
上記（１０）又は（１１）に記載の情報処理装置。

（１３）
動画に登場する各登場物間の関係性を示す関係性情報と、前記動画の中で各登場物が登場する区間を示す区間メタデータとを利用し、ユーザにより選択された登場物との間に所定の関係性を有する登場物が登場する区間を検出するステップと、
検出された区間に対応する画像を出力するステップと、
を含む、
動画要約方法。

（１４）
動画に登場する各登場物間の関係性を示す関係性情報と、前記動画の中で各登場物が登場する区間を示す区間メタデータとを利用し、ユーザにより選択された登場物との間に所定の関係性を有する登場物が登場する区間を検出する区間検出機能と、
前記区間検出機能により検出された区間に対応する画像を出力する画像出力機能と、
をコンピュータに実現させるためのプログラム。

（備考）
上記のシーン抽出部１０４は、区間検出部の一例である。上記の出力部１０５は、画像出力部の一例である。上記のＵＩ表示部１０６は、オブジェクト表示部の一例である。上記の関係性情報生成部１０２は、関係性情報更新部の一例である。上記の動画解析部１１１は、種類情報設定部の一例である。

以上、添付図面を参照しながら本技術に係る好適な実施形態について説明したが、本技術はここで開示した構成例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本技術の技術的範囲に属するものと了解される。

１００情報処理装置
１０１メタデータ取得部
１０２関係性情報生成部
１０３入力部
１０４シーン抽出部
１０５出力部
１０６ＵＩ表示部
１０７動画取得部
１１１動画解析部
１２１関係性情報取得部

Claims

動画に登場する各登場物間の関係性を示す関係性情報と、前記動画の中で各登場物が登場する区間を示す区間メタデータとを利用し、ユーザにより選択された登場物との間に所定の関係性を有する登場物が登場する区間を検出する区間検出部と、
前記区間検出部により検出された区間に対応する画像を出力する画像出力部と、
を備える、
情報処理装置。
前記関係性情報は、前記関係性の強さを示す関係性値を含み、
前記区間検出部は、前記ユーザにより選択された登場物との間における関係性値の総和が最大となるように所定数の登場物を選択し、選択した登場物が登場する所定数の区間を検出する、
請求項１に記載の情報処理装置。
前記関係性情報は、前記関係性の強さを示す関係性値を含み、
前記区間検出部は、
前記ユーザにより選択された第１の登場物が登場する第１の区間を検出する処理と、
ｎ＝２〜Ｎ（Ｎ≧２）に関し、第ｎ−１の区間の次に再生される第ｎの区間に登場する第ｎの登場物を選択する処理と、
前記第ｎ−１の登場物と前記第ｎの登場物との間における関係性値をｎ＝２〜Ｎに関して積算し、前記関係性値の積算値を算出する処理と、
前記関係性値の積算値が最大となる第２〜第Ｎの登場物を選択する処理と、
選択した前記第ｎの登場物（ｎ＝２〜Ｎ）が登場する第ｎの区間を検出する処理と、
を実行し、前記第１〜第Ｎの区間を検出結果として出力する、
請求項１に記載の情報処理装置。
前記関係性情報は、前記関係性の強さを示す関係性値を含み、
前記区間検出部は、
前記ユーザにより選択された登場物が登場する第１の区間を検出する処理と、
ｎ＝２〜Ｎ（Ｎ≧２）に関し、第ｎ−１の区間以降の各区間について、各区間内に登場する全ての登場物と、前記第ｎ−１の区間に登場する全ての登場物との間における関係性値の総和が最大になる区間を検出して第ｎの区間に設定する処理と、
を実行し、前記第１〜第Ｎの区間を検出結果として出力する、
請求項１に記載の情報処理装置。
前記関係性情報は、前記関係性の強さを示す関係性値を含み、
前記区間検出部は、
前記ユーザにより選択された登場物が登場する第１の区間を検出する処理と、
ｎ＝２〜Ｎ（Ｎ≧２）に関し、第ｎ−１の区間以降の各区間について、各区間内に登場する全ての登場物と、前記ユーザにより選択された登場物との間における関係性値の総和を算出し、算出した関係性値の総和が前記第ｎ−１の区間に関する関係性値の総和に最も近くなる区間を検出して第ｎの区間に設定する処理と、
を実行し、前記第１〜第Ｎの区間を検出結果として出力する、
請求項１に記載の情報処理装置。
前記関係性情報は、前記関係性の強さを示す関係性値を含み、
前記区間検出部は、前記ユーザにより選択された登場物との間における関係性値の総和が最小となるように所定数の登場物を選択し、選択した登場物が登場する所定数の区間を検出する、
請求項１に記載の情報処理装置。
前記区間検出部は、前記関係性情報に含まれる少なくとも１つの関係性値が変更された場合に、変更後の前記関係性情報に基づいて前記区間を再検出し、
前記画像出力部は、前記区間検出部による再検出の結果に応じて出力内容を更新する、
請求項２に記載の情報処理装置。
前記ユーザにより選択された登場物に対応する第１のオブジェクトを操作領域の中心に表示し、当該登場物との間における関係性値の大きさに応じた距離だけ前記第１のオブジェクトから離れた位置に、一又は複数の他の登場物にそれぞれ対応する一又は複数の第２のオブジェクトを表示するオブジェクト表示部と、
前記操作領域において前記第２のオブジェクトの位置が変更された場合に、変更後の当該第２のオブジェクトの位置に応じた関係性値を算出し、算出した関係性値により前記関係性情報を更新する関係性情報更新部と、
をさらに備える、
請求項７に記載の情報処理装置。
同じ作品に登場する頻度が高いほど、或いは、共に登場する区間の長さが長いほど、前記関係性値が大きくなるように、前記区間メタデータを利用して各登場物の組に関する関係性値を算出して前記関係性情報を生成する関係性情報生成部をさらに備える、
請求項２に記載の情報処理装置。
前記関係性情報は、前記関係性の種類を示した第１〜第Ｎ−１の種類情報を含み、
前記区間検出部は、
前記ユーザにより選択された登場物が登場する第１の区間を検出する処理と、
ｎ＝１〜Ｎ−１に関し、前記ユーザにより選択された登場物との間において第ｎの種類情報が示す種類の関係性を有する第ｎの登場物を検出し、第ｎの区間以降の区間の中から当該第ｎの登場物が登場する区間を検出して第ｎ＋１の区間に設定する処理と、
を実行し、前記第１〜第Ｎの区間を検出結果として出力する、
請求項１に記載の情報処理装置。
予め用意された複数の動画における特徴的な関係性の時系列変化を検出し、検出した特徴的な関係性の時系列変化に適合するように前記第１〜第Ｎ−１の種類情報を設定する種類情報設定部をさらに備える、
請求項１０に記載の情報処理装置。
前記第１〜第Ｎ−１の種類情報には、それぞれカメラワーク又はエフェクトの種類を示す補助情報が対応付けられており、
前記区間検出部は、
前記ユーザにより選択された登場物が登場する第１の区間を検出する処理と、
ｎ＝１〜Ｎ−１に関し、前記ユーザにより選択された登場物との間において第ｎの種類情報が示す種類の関係性を有する第ｎの登場物を検出し、第ｎの区間以降の区間の中から当該第ｎの登場物が登場する区間であり、かつ、前記補助情報に適合する区間を検出して第ｎ＋１の区間に設定する処理と、
を実行し、前記第１〜第Ｎの区間を検出結果として出力する、
請求項１０に記載の情報処理装置。
動画に登場する各登場物間の関係性を示す関係性情報と、前記動画の中で各登場物が登場する区間を示す区間メタデータとを利用し、ユーザにより選択された登場物との間に所定の関係性を有する登場物が登場する区間を検出するステップと、
検出された区間に対応する画像を出力するステップと、
を含む、
動画要約方法。
動画に登場する各登場物間の関係性を示す関係性情報と、前記動画の中で各登場物が登場する区間を示す区間メタデータとを利用し、ユーザにより選択された登場物との間に所定の関係性を有する登場物が登場する区間を検出する区間検出機能と、
前記区間検出機能により検出された区間に対応する画像を出力する画像出力機能と、
をコンピュータに実現させるためのプログラム。