JP5857450B2

JP5857450B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP5857450B2
Application number: JP2011120395A
Authority: JP
Inventors: 村田　誠; 誠村田; 倉田　雅友; 雅友倉田; 佐藤　浩司; 浩司佐藤; 直樹澁谷
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-05-30
Filing date: 2011-05-30
Publication date: 2016-02-10
Anticipated expiration: 2031-05-30
Also published as: CN102857810A; EP2530675A2; US20120308202A1; EP2530675A3; JP2012249156A

Description

本技術は、情報処理装置、情報処理方法、及びプログラムに関する。

ビデオ映像やテレビジョン映像などを視聴している際、映像に登場する人物や物品、或いは、場所など（以下、対象物）に関する情報を詳しく知りたいと思うことがあるだろう。現状、多くのユーザは、パーソナルコンピュータ（以下、ＰＣ）、携帯電話、携帯情報端末など（以下、情報機器）を利用して情報の検索を行っている。しかし、映像に登場する対象物を特定することが可能なキーワードを知らないと、ユーザが、その対象物の情報を得ることは難しい。また、映像を視聴している最中に情報機器を立ち上げたり、情報機器に検索キーワードを入力したりする操作を行うことは面倒である。

例えば、映像に登場する対象物を画面上で選択できるようにし、ユーザにより選択された対象物の情報が画面上に表示されるようなユーザインターフェースが実現できれば、ユーザの利便性が大きく向上するものと考えられる。対象物の選択操作は、タッチパネルやリモコンなどの入力デバイスを利用すれば実現可能である。しかし、選択された画面上の位置に存在する対象物を特定するには、各動画フレームにおける各対象物の位置などを示したメタデータが必要になる。なお、映像に登場する対象物の位置を自動検出する方法は、例えば、下記の特許文献１に開示されている。

特開２００５−４４３３０号公報

上記の文献に記載された技術を用いると、各動画フレームに登場する対象物の位置を自動検出することができる。そのため、自動検出された対象物の位置をメタデータとして利用することで、ユーザが画面上で選択した位置に存在する対象物を特定することが可能になる。但し、現状ではすべての対象物を自動で検出するのに十分な精度には達していない。そのため、人手によるメタデータのラベリング作業は欠かせない。しかし、映像を構成する動画フレームの数は非常に多く、人手によるメタデータのラベリング作業は非常に負担の大きい作業である。そこで、本件発明者は、人手によるメタデータのラベリング作業を容易にする仕組みを開発した。しかし、これまでは精度の良いメタデータが得られなかったため、精度の良いメタデータを利用してコンテンツの再生制御を行うアプリケーションの実現が困難であった。

そこで、本技術は、上記のような事情を受けて考案されたものであり、精度の良いメタデータを利用してコンテンツの再生制御を行うアプリケーションを提供することが可能な、新規かつ改良された情報処理装置、情報処理方法、及びプログラムを提供することを意図している。

本技術のある観点によれば、動画に登場する各対象物の登場区間を示した区間メタデータを取得するメタ取得部と、前記区間メタデータを利用し、前記動画を構成する全区間の中で各対象物が登場する区間を視覚的に表現した区間情報を表示する区間情報表示部と、ある対象物に関する区間情報として表示された区間の中から１つの区間がユーザにより選択された場合に、選択された区間の動画フレームを再生させる再生制御部と、を備える、情報処理装置が提供される。

また、本技術の別の観点によれば、動画に登場する各対象物の登場区間を示した区間メタデータを取得するステップと、前記区間メタデータを利用し、前記動画を構成する全区間の中で各対象物が登場する区間を視覚的に表現した区間情報を表示するステップと、ある対象物に関する区間情報として表示された区間の中から１つの区間がユーザにより選択された場合に、選択された区間の動画フレームを再生させるステップと、を含む、情報処理方法が提供される。

また、本技術の別の観点によれば、動画に登場する各対象物の登場区間を示した区間メタデータを利用し、前記動画を構成する全区間の中で各対象物が登場する区間を視覚的に表現した区間情報を表示する区間情報表示機能をコンピュータに実現させるためのプログラムであり、ある対象物に関する区間情報として表示された区間の中から１つの区間がユーザにより選択された場合に、選択された区間の動画フレームが再生される、プログラムが提供される。

また、本技術の別の観点によれば、動画に登場する各対象物の登場区間を示した区間メタデータを取得するメタ取得部と、前記区間メタデータを利用し、再生されている動画フレームに含まれる全ての対象物の画像又は関連情報を表示する情報表示部と、前記対象物の画像又は関連情報がユーザにより選択された場合に、前記区間メタデータを利用して、選択された画像又は関連情報に対応する対象物の登場区間を特定し、当該登場区間に含まれる動画フレームを再生させる再生制御部と、を備える、情報処理装置が提供される。

また、本技術の別の観点によれば、動画に登場する各対象物の登場区間を示した区間メタデータと、動画を構成する各動画フレームに含まれる各対象物の位置又は当該各対象物を含む領域の情報を動画フレーム毎に記述した領域メタデータと、を取得するメタ取得部と、前記領域メタデータを利用して、再生されている動画フレーム内でユーザが指定した位置に存在する対象物を認識する領域認識部と、前記領域認識部により対象物の存在が認識された場合に、前記区間メタデータを利用して、存在が認識された対象物の登場区間を特定し、当該登場区間に含まれる動画フレームを再生させる再生制御部と、を備える、情報処理装置が提供される。

また、本技術の別の観点によれば、上記のプログラムが記録された、コンピュータにより読み取り可能な記録媒体が提供される。

以上説明したように本技術によれば、精度の良いメタデータを利用してコンテンツの再生制御を行うアプリケーションの提供が可能になる。

関連情報の表示方法について説明するための説明図である。関連情報の表示方法について説明するための説明図である。関連情報の表示方法について説明するための説明図である。登場区間の表示方法について説明するための説明図である。ハイパーリンク型ビデオブラウジングの概念について説明するための説明図である。動画タイムラインメタデータの概要について説明するための説明図である。動画タイムラインメタデータを提供するための仕組みについて説明するための説明図である。動画タイムラインメタデータを提供するための仕組みについて説明するための説明図である。動画タイムラインメタデータの提供から利用までの処理の大まかな流れについて説明するための説明図である。メタデータ提供者端末の構成例について説明するための説明図である。動画タイムラインメタデータの提供に係る処理のうち、前処理の流れについて説明するための説明図である。前処理の内容について説明するための説明図である。前処理の内容について説明するための説明図である。前処理の内容について説明するための説明図である。前処理の内容について説明するための説明図である。前処理の内容について説明するための説明図である。前処理の内容について説明するための説明図である。動画タイムラインメタデータの提供に係る処理のうち、メタデータのラベリング処理の流れについて説明するための説明図である。ラベリングに係る処理の内容について説明するための説明図である。ラベリングに係る処理の内容について説明するための説明図である。ラベリングに係る処理の内容について説明するための説明図である。ラベリングに係る処理の内容について説明するための説明図である。ラベリングに係る処理の内容について説明するための説明図である。ラベリングに係る処理の内容について説明するための説明図である。ラベリングに係る処理の内容について説明するための説明図である。ラベリングに係る処理の内容について説明するための説明図である。ラベリングに係る処理の内容について説明するための説明図である。ラベリングに係る処理の内容について説明するための説明図である。ラベリングに係る処理の内容について説明するための説明図である。ラベリングに係る処理の内容について説明するための説明図である。ラベリングに係る処理の内容について説明するための説明図である。ラベリングに係る処理の内容について説明するための説明図である。ラベリングに係る処理の内容について説明するための説明図である。ラベリングに係る処理の内容について説明するための説明図である。ラベリングに係る処理の内容について説明するための説明図である。動画タイムラインメタデータの提供に係る処理のうち、後処理の大まかな流れについて説明するための説明図である。メタデータ管理システムの構成例について説明するための説明図である。動画タイムラインメタデータの提供に係る処理のうち、後処理の流れについて説明するための説明図である。後処理の内容について説明するための説明図である。後処理の内容について説明するための説明図である。後処理の内容について説明するための説明図である。メタデータ管理システムが提供する他の機能について説明するための説明図である。メタデータ管理システムが提供する他の機能について説明するための説明図である。メタデータ管理システムが提供する他の機能について説明するための説明図である。メタデータ利用者端末の構成例について説明するための説明図である。動画タイムラインメタデータの構成について説明するための説明図である。動画タイムラインメタデータを利用した登場区間の表示方法、及び登場区間の再生方法について説明するための説明図である。動画タイムラインメタデータを利用した登場区間の表示方法、及び登場区間の再生方法について説明するための説明図である。動画タイムラインメタデータを利用した登場区間の表示方法、及び登場区間の再生方法について説明するための説明図である。動画タイムラインメタデータを利用した登場区間の表示方法、及び登場区間の再生方法について説明するための説明図である。関連情報の表示方法について説明するための説明図である。関連情報の表示方法について説明するための説明図である。動画タイムラインメタデータのデータ構造について説明するための説明図である。動画タイムラインメタデータのデータ構造について説明するための説明図である。動画タイムラインメタデータのデータ構造について説明するための説明図である。動画タイムラインメタデータのデータ構造について説明するための説明図である。動画タイムラインメタデータのデータ構造について説明するための説明図である。動画タイムラインメタデータのデータ構造について説明するための説明図である。動画タイムラインメタデータのデータ構造について説明するための説明図である。メタデータ提供者端末、メタデータ管理システム、メタデータ利用者端末の機能を実現することが可能な情報処理装置のハードウェア構成例を示した説明図である。

以下に添付図面を参照しながら、本技術に係る好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

［説明の流れについて］
ここで、以下に記載する説明の流れについて簡単に述べる。

まず、図１〜図４を参照しながら、本実施形態に係る技術により実現されるユーザインターフェースの具体例について説明する。次いで、図６及び図７を参照しながら、本実施形態に係る動画タイムラインメタデータについて説明する。次いで、図８及び図９を参照しながら、本実施形態に係る動画タイムラインメタデータの提供、管理及び利用に関する処理を実行するシステムの構成及び当該処理の流れについて説明する。

次いで、図１０〜図３５を参照しながら、本実施形態に係るメタデータ提供者端末１０の構成及び動作について説明する。この中で、動画タイムラインメタデータのラベリング処理を容易化する仕組みについて詳細に説明する。次いで、図３６〜図４４を参照しながら、本実施形態に係るメタデータ管理システム２０の構成及び動作について説明する。この中で、複数のユーザにより設定された動画タイムラインメタデータを統合する処理の内容及び動画タイムラインメタデータの設定作業を奨励するための仕組みについて詳細に説明する。

次いで、図４５〜図５２を参照しながら、本実施形態に係るメタデータ利用者端末３０の構成及び動作について説明する。この中で、動画タイムラインメタデータを利用したユーザインターフェースの構成について詳細に説明する。次いで、図５３〜図５９を参照しながら、本実施形態に係る動画タイムラインメタデータのデータ構造について説明する。次いで、図６０を参照しながら、本実施形態に係るメタデータ提供者端末１０、メタデータ管理システム２０、及びメタデータ利用者端末３０の機能を実現することが可能な情報処理装置のハードウェア構成例について説明する。

最後に、同実施形態の技術的思想について纏め、当該技術的思想から得られる作用効果について簡単に説明する。

（説明項目）
１：はじめに
２：実施例
２−１：システムの全体構成及び動作
２−２：メタデータ提供者端末１０の構成
２−３：メタデータ提供者端末１０の動作
２−３−１：前処理について
２−３−２：ラベリング処理について
２−４：メタデータ管理システム２０の構成
２−５：メタデータ管理システム２０の動作
２−５−１：統合処理について
２−５−２：その他の機能
２−６：メタデータ利用者端末３０の構成及び動作
２−７：動画タイムラインメタデータのデータ構造
３：ハードウェア構成
４：まとめ

＜１：はじめに＞
はじめに、本実施形態に係る動画タイムラインメタデータを利用することで実現されるユーザインターフェース及びアプリケーションについて紹介する。また、本実施形態に係る動画タイムラインメタデータについて説明する。

ビデオ映像やテレビジョン映像などの動画を視聴しているとき、その動画に登場する人物や物品などに興味を惹かれることがあるだろう。人物や物品だけでなく、動画に登場する場所や、その動画の制作者、或いは、その動画のストーリー展開などに興味を惹かれ、それらに関連する詳しい情報を得たいと思うこともあるだろう。例えば、あるユーザは、ドラマを視聴しているとき、そのドラマに登場する人物が出演している他の動画を知りたいと思うかもしれない。また、他のユーザは、映画を視聴しているとき、映画に登場する俳優が着用しているスーツに興味を惹かれるかもしれない。

これまで、多くのユーザは、上記のような情報を得ようとするとき、別途用意した情報機器を操作してＷｅｂから情報を取得したり、画面をデータ放送の表示モードに切り替えて情報を取得したりしていた。しかし、動画の視聴を中断して情報機器を立ち上げたり、検索エンジンに適切な検索キーワードを入力したりする操作を行うことは面倒である。また、データ放送では所望の情報が得られないことも多い。そして、いずれの方法も、視聴中のシーンに即した関連情報をリアルタイムに取得するのには適さない。こうした事情に鑑み、本件発明者は、視聴中のシーンに登場する人物や物品などに関する情報をリアルタイムに閲覧できるようにしたいと考えた。

例えば、図１に示すように、動画の１シーンに登場する人物の関連情報をリアルタイムに表示できるようにすることが望まれる。また、図２に示すように、動画の１シーンに登場する人物の関連情報、その人物が身に付けている物品の関連情報、或いは、そのシーンの撮影された場所に関する関連情報がリアルタイムに表示できるようにすることが望まれる。また、動画の再生時に関連情報が自動表示されるようにするだけでなく、図３に示すように、ユーザが登場人物を選択した場合に、選択された登場人物に関する関連情報が表示されるようなユーザインターフェースの実現も望まれる。こうした関連情報の表示を実現させるには、各動画フレームに出現する人物や物品など（以下、対象物）の情報（以下、動画タイムラインメタデータ）を用意しておく必要がある。

例えば、ある対象物が動画フレームに登場するか否かを示す情報（以下、区間メタデータ）及びその対象物の関連情報（以下、オブジェクトメタデータ）を各動画フレームについて用意しておけば、各動画フレームの再生時に、その対象物の関連情報をリアルタイムに表示することができるようになる。また、その対象物が出現する各動画フレーム内の位置や範囲を示す情報（以下、領域メタデータ）を用意しておけば、図１に示すように、関連情報を対象物の位置や範囲に対応付けて表示することができるようになる。さらに、領域メタデータを利用すれば、画面内に表示された対象物の位置や範囲と、ユーザが指定した位置とをマッチングすることが可能になり、図３に示すように、ユーザによる位置の指定に応じて関連情報を表示するユーザインターフェースを実現できる。

また、区間メタデータを利用すると、ある対象物が登場する区間を特定することが可能になるため、図４に示すように、ある対象物が登場する区間をユーザに提示したり、ある対象物が登場する区間だけを再生したりすることが可能になる。図４の例では、人物が登場するシーンと、そのシーンに登場する人物とを対応付けた情報（登場区間の時間情報）をユーザに提示する例が示されている。

また、複数の動画に関する区間メタデータを利用すると、図５に示すようなハイパーリンク型のビデオブラウジングが可能になる。ここで言うハイパーリンク型のビデオブラウジングとは、動画に登場する対象物をキー情報にして動画を切り替えながら視聴する操作手法のことを意味する。例えば、図５の例では、動画＃１の１シーンに登場する人物を選択すると、その人物が登場する動画＃２の再生が開始され、動画＃２の１シーンに登場する物品を選択すると、その物品が登場する動画＃４の再生が開始される。このように、ユーザは、動画を視聴しながら、気になる対象物を選択することで、その対象物が登場する動画を自由に切り替えて視聴することが可能になる。

ここで、図６を参照しながら、動画タイムラインメタデータの構成について説明を補足する。動画タイムラインメタデータは、領域メタデータ、区間メタデータ、オブジェクトメタデータにより構成される。領域メタデータは、各動画フレームに登場する対象物の位置及びその範囲（以下、領域）を示すメタデータである。一例として、図６には、人物の顔領域が円形のハッチングにより表現されている。この場合、顔領域の位置は、円の中心座標で表現される。また、顔領域の範囲は、円の半径で表現される。なお、領域の形状は、矩形でもよい。領域の形状が矩形の場合、その領域の位置は、例えば、矩形の左上隅（もちろん、左下隅、右上隅、右下隅でもよい。）の座標で表現される。また、その領域の範囲は、矩形の高さ及び幅で表現される。

一方、区間メタデータは、対象物が登場する区間を示すメタデータである。例えば、人物Ａが１０枚目の動画フレームから８０枚目の動画フレームに登場する場合、人物Ａに関する区間メタデータは、１０〜８０枚目の動画フレームに対応する区間を示す。区間メタデータは、動画毎、及び各動画に登場する対象物毎に用意される。区間メタデータを参照すると、ある動画に特定の対象物が登場するか否かが分かる。また、区間メタデータを利用すると、各動画において特定の対象物が登場する区間の長さが分かる。さらに、区間メタデータを利用すると、同じ動画に登場する対象物の組を特定することができるため、例えば、共演関係を検出したり、共演時間を計算したりすることができる。

なお、動画タイムラインメタデータの提供は、図７に示すように、動画提供者とは異なるメタデータ提供者により行われるものと考えられる。また、動画タイムラインメタデータは、動画解析技術を利用して生成されるか、手入力により生成されるものと考えられる。例えば、顔識別技術や顔トラッキング技術などを利用すると、各動画フレームに登場する人物を自動検出することができる。その検出結果を利用することにより、動画タイムラインメタデータを生成することができる。しかしながら、これらの自動検出技術を用いた場合、誤検出や誤識別、或いは、検出漏れなどのエラーが発生してしまう。

そのため、エラーが生じた部分について動画タイムラインメタデータの修正や追加を手作業で行うか、或いは、初めから手作業で動画タイムラインメタデータを生成する必要がある。もちろん、手作業で動画タイムラインメタデータを生成する方が高い精度を得られる。しかしながら、動画を構成する動画フレームの数は膨大である。そのため、手作業で動画フレーム１枚１枚に動画タイムラインメタデータをラベリングしていくのは困難である。そこで、本件発明者は、手作業による動画タイムラインメタデータのラベリング作業を簡単にし、ユーザの作業負担を大幅に軽減することが可能なユーザインターフェースを開発した。また、本件発明者は、複数のユーザが協働して動画タイムラインメタデータを生成することが可能な仕組みを考案した。

これらの技術を適用することにより、精度の高い動画タイムラインメタデータを提供することが可能となる。また、動画タイムラインメタデータを利用した様々なアプリケーションが実現される。例えば、図１〜図３に示すような関連情報のリアルタイム表示が可能となる。また、図４に示すような登場区間の表示や、特定の登場人物が登場するシーンだけを選択的に再生することが可能になる。さらに、図５に示すようなハイパーリンク型のビデオブラウジングが可能になる。

以下では、本実施形態に係る動画タイムラインメタデータのラベリング方法、動画タイムラインメタデータのラベリングに用いるユーザインターフェースの構成、及び動画タイムラインメタデータを利用したアプリケーションについて詳細に説明する。

＜２：実施例＞
以下、本実施形態に係る技術の一実施例について説明する。

［２−１：システムの全体構成及び動作］
まず、図８及び図９を参照しながら、本実施例に係る一連の処理を実行可能なシステムの構成及び動作について説明する。図８及び図９は、本実施例に係る一連の処理を実行可能なシステムの構成及び動作について説明するための説明図である。

（構成）
図８に示すように、本実施例に係るシステムは、主に、メタデータ提供者端末１０と、メタデータ管理システム２０と、メタデータ利用者端末３０とにより構成される。

メタデータ提供者端末１０は、動画タイムラインメタデータのラベリング作業に用いるユーザインターフェースの提供及び動画タイムラインメタデータのラベリングに関する処理を実行する。また、メタデータ提供者端末１０は、ラベリングされた動画タイムラインメタデータをメタデータ管理システム２０に提供する。なお、メタデータ提供者端末１０からメタデータ利用者端末３０に動画タイムラインメタデータが直接提供されるようにシステムを構成することも可能である。また、図８にはメタデータ提供者端末１０が１つしか記載されていないが、システム内に複数のメタデータ提供者端末１０が設けられていてもよい。以下では、複数のメタデータ提供者が存在し、システム内に複数のメタデータ提供者端末１０が存在するものとして説明を進める。

メタデータ管理システム２０は、メタデータ提供者端末１０により提供された動画タイムラインメタデータを蓄積する。また、同じ動画に関する複数の動画タイムラインメタデータが提供された場合、メタデータ管理システム２０は、これら複数の動画タイムラインメタデータを統合する。さらに、メタデータ管理システム２０は、ソーシャルネットワークサービス（以下、ＳＮＳ）を利用して複数のユーザ間で動画タイムラインメタデータを共有できるようにする機能を有していてもよい。また、メタデータ管理システム２０は、メタデータ提供者に対して報酬を与える機能を有していてもよい。さらに、メタデータ管理システム２０は、動画タイムラインメタデータのラベリング作業を補助するための情報をメタデータ提供者端末１０に送信する機能を有していてもよい。

メタデータ利用者端末３０は、メタデータ管理システム２０から動画タイムラインメタデータを取得し、取得した動画タイムラインメタデータを利用して各種の機能を提供する。例えば、メタデータ利用者端末３０は、動画タイムラインメタデータを利用して、関連情報の表示機能、シーン検索・再生機能（登場区間の表示機能、登場区間の選択的な再生機能など）、ハイパーリンク型ビデオブラウジング機能などを提供する。つまり、メタデータ利用者端末３０は、動画タイムラインメタデータを利用したアプリケーションの実行環境を提供する。

（動作）
本実施例に係るシステムは、図９に示した一連の処理を実行する。まず、メタデータ提供者端末１０又はメタデータ管理システム２０は、前処理を実行する（Ｓ１０）。ステップＳ１０の前処理は、主に、物体認識技術や物体検出・物体トラッキング技術などの動画解析技術を利用して動画に登場する対象物を自動検出する処理である。物体検出・物体トラッキング技術としては、例えば、特開２００５−４４３３０号公報に記載の技術を利用することができる。また、物体認識技術としては、例えば、特開２００７−６５７６６号公報に記載の技術を利用することができる。

後述するように、前処理を予め実行しておくことで、新規にラベリングすべき対象物の数及び動画フレームの数を低減することが可能になり、ラベリング作業の負担を軽減することができる。但し、前処理は省略可能である。前処理を省略した場合、全ての動画フレームに対して手作業で動画タイムラインメタデータをラベリングすることになる。また、前処理は、メタデータ提供者端末１０が実行してもよいし、メタデータ管理システム２０が実行してもよい。以下では、前処理をメタデータ提供者端末１０が実行するものとして説明を進める。

前処理を実行した後、メタデータ提供者端末１０は、動画タイムラインメタデータのラベリングに関する処理を実行する（Ｓ２０）。例えば、メタデータ提供者端末１０は、ラベリング対象の動画を再生し、ユーザによる入力を受け付ける。このとき、メタデータ提供者端末１０は、ユーザによるラベリング作業を補助するためのユーザインターフェースを提供する。そして、メタデータ提供者端末１０は、ユーザによる入力に応じて動画タイムラインメタデータを生成し、その動画タイムラインメタデータをメタデータ管理システム２０に提供する。

次いで、メタデータ管理システム２０は、メタデータ提供者端末１０により提供された動画タイムラインメタデータに後処理を施す（Ｓ３０）。この後処理は、主に、同じ動画を対象に設定された複数の動画タイムラインメタデータを統合する処理である。次いで、メタデータ利用者端末３０は、メタデータ管理システム２０から動画タイムラインメタデータを取得し、取得した動画タイムラインメタデータを利用して、関連情報の表示など、様々な機能をユーザに提供する（Ｓ４０）。

本実施例に係る一連の処理を実行可能なシステムの構成及び動作について説明した。以下では、図９に示した処理の流れに沿って、メタデータ提供者端末１０、メタデータ管理システム２０及びメタデータ利用者端末３０の詳細な機能構成、及び各ステップにおける処理の内容について詳細に説明する。

［２−２：メタデータ提供者端末１０の構成］
まず、図１０を参照しながら、メタデータ提供者端末１０の機能構成について説明する。図１０は、メタデータ提供者端末１０の機能構成について説明するための説明図である。

図１０に示すように、メタデータ提供者端末１０は、主に、記憶部１０１と、デコーダ１０２と、領域抽出部１０３と、領域加工部１０４と、物体認識部１０５と、メタデータ提供部１０６と、再生制御部１０７と、表示部１０８と、入力部１０９と、移動距離算出部１１０と、類似スコア算出部１１１と、により構成される。

なお、領域抽出部１０３、領域加工部１０４、及び物体認識部１０５は、動画解析ブロックを構成する。図９に示したステップＳ１０の前処理を省略する場合、動画解析ブロックを省略してもよい。また、動画解析ブロックをメタデータ管理システム２０又は他の動画解析用デバイスに設け、メタデータ提供者端末１０の動画解析ブロックを省略してもよい。但し、以下では、メタデータ提供者端末１０に動画解析ブロックが設けられているものとして説明を進める。

記憶部１０１には、動画が格納されている。記憶部１０１に格納されている動画は、デコーダ１０２によりデコードされ、領域抽出部１０３、再生制御部１０７、及び類似スコア算出部１１１に入力される。領域抽出部１０３は、物体検出・物体トラッキング技術などを利用し、入力された動画の各動画フレームに出現する対象物の位置及び範囲（以下、対象領域）を抽出する。領域抽出部１０３により抽出された対象領域の情報は、領域加工部１０４に入力される。

領域加工部１０４は、入力された対象領域の情報に基づいて対象領域を加工する。例えば、領域加工部１０４は、出現時間の短い対象領域やサイズの小さい対象領域を削除したり、同じ動画フレームに出現する同種の対象領域を結合したりする。領域加工部１０４により加工された対象領域の情報は、物体認識部１０５に入力される。物体認識部１０５は、入力された各対象領域に含まれる対象物の特徴量に基づいて対象物をクラスタリングし、各クラスタを代表する対象物の特徴量を決定する。そして、物体認識部１０５は、対象物の特徴量と対象物の識別情報とを対応付けたデータベースを参照し、各クラスタを代表する対象物の特徴量に基づいて各クラスタに対象物の識別情報を対応付ける。

この段階で、各動画フレームに出現する各対象領域の情報と、各対象領域に対応する対象物の識別情報とが得られる。つまり、識別情報により分類される対象物の種類毎に、対象物が出現する区間（区間メタデータ）と、各動画フレームにおける対象物の位置及び範囲（領域メタデータ）とが得られる。但し、動画解析ブロックで得られた区間メタデータ及び領域メタデータは、物体検出・物体トラッキング及び物体認識の際に生じる誤検出、検出漏れ、或いは、誤認識などの影響を含んでいる。そのため、手入力により動画解析ブロックで得られた区間メタデータ及び領域メタデータを修正する必要がある。

動画解析ブロックで得られた区間メタデータ及び領域メタデータは、メタデータ提供部１０６、再生制御部１０７、及び移動距離算出部１１０に入力される。

メタデータ提供部１０６は、入力部１０９を介してユーザにより入力された対象領域の情報に基づき、動画解析ブロックで得られた区間メタデータ及び領域メタデータを修正する。但し、動画解析ブロックが省略された場合、メタデータ提供部１０６は、入力部１０９を介してユーザにより入力された対象領域の情報に基づいて区間メタデータ及び領域メタデータを生成する。そして、メタデータ提供部１０６は、領域メタデータ及び区間メタデータをメタデータ管理システム２０に提供する。なお、ユーザによりオブジェクトメタデータが入力された場合、メタデータ提供部１０６は、入力されたオブジェクトメタデータをメタデータ管理システム２０に提供する。

再生制御部１０７は、動画を再生して表示部１０８に表示させる。但し、再生制御部１０７は、ユーザの入力操作を補助するため、動画の再生速度を調整したり、一部の動画フレームの再生をスキップしたりする。また、再生制御部１０７は、ユーザにより指定された対象領域の情報を表示したり、対象領域にオブジェクトメタデータを付与するためのメニューを表示したりする。なお、再生制御部１０７の詳細な機能については後述する。

表示部１０８は、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）やＥＬＤ（Ｅｌｅｃｔｒｏ−ＬｕｍｉｎｅｓｃｅｎｃｅＤｉｓｐｌａｙ）などの表示デバイスである。また、入力部１０９は、タッチパネル、タッチパッド、マウス、リモートコントローラ、ゲーム用コントローラ、視線入力装置、ジェスチャー入力装置、音声入力装置などの入力デバイスである。なお、ジェスチャー入力装置は、カメラやセンサなどを利用してユーザの動きを検出し、その検出結果からユーザの動きを識別するデバイスである。以下では、入力デバイスとしてタッチパネルを利用するケースを想定して説明を進める。

移動距離算出部１１０は、隣接する動画フレーム間における対象領域の移動距離を算出する。例えば、移動距離算出部１１０は、動画解析ブロックで得られた領域メタデータを利用し、同じ対象物の対象領域が隣接する動画フレーム間で移動した距離を算出する。この距離は、スキップすべき動画フレームの判定に利用される。また、移動距離算出部１１０は、入力部１０９を介してユーザが入力した対象領域の移動距離を算出する。この移動距離は、再生速度の調整に利用される。移動距離算出部１１０により算出された距離の情報は、再生制御部１０７及びメタデータ提供部１０６に入力される。

類似スコア算出部１１１は、隣接する動画フレームについて動画フレーム間の類似スコアを算出する。例えば、類似スコア算出部１１１は、特開２００７−２０６９２０号公報に記載の方法を利用して動画フレーム間の類似スコアを算出する。この類似スコアは、スキップすべき動画フレームの判定に利用される。類似スコア算出部１１１により算出された類似スコアは、再生制御部１０７及びメタデータ提供部１０６に入力される。

以上、メタデータ提供者端末１０の主な機能構成について説明した。

［２−３：メタデータ提供者端末１０の動作］
次に、図１１〜図３５を参照しながら、メタデータ提供者端末１０の動作について説明する。また、メタデータ提供者端末１０の詳細な機能構成について説明を補足する。図１１〜図３５は、メタデータ提供者端末１０の動作について説明するための説明図である。

（２−３−１：前処理について）
まず、図１１を参照しながら、前処理（図９のステップＳ１０）に関するメタデータ提供者端末１０の動作について説明する。図１１は、前処理に関するメタデータ提供者端末１０の動作について説明するための説明図である。

図１１に示すように、メタデータ提供者端末１０は、デコーダ１０２の機能により、記憶部１０１から読み出した動画をデコードする（Ｓ１０１）。次いで、メタデータ提供者端末１０は、領域抽出部１０３の機能により、対象領域の検出及びトラッキングを実行する（Ｓ１０２）。なお、対象領域の検出及びトラッキングは、例えば、特開２００５−４４３３０号公報に記載の技術などを利用することで実現可能である。

対象物が人物の顔である場合、領域抽出部１０３は、図１２に示すような方法で対象領域（この場合は顔領域）を検出する。まず、領域抽出部１０３は、１枚の動画フレームについて顔検出器（図１２の例では矩形のウィンドウ）を移動させながら画像全体を走査して顔領域を検出する。次いで、領域抽出部１０３は、次の動画フレームについて顔検出器を移動させながら顔領域の検出を試みる。このとき、領域抽出部１０３は、前の動画フレームで検出された顔領域の周辺を走査して顔領域を検出する。次いで、領域抽出部１０３は、次の動画フレームについて顔検出器を移動させながら、前の動画フレームで検出された顔領域の周辺を走査して顔領域を検出する。

図１２の例は顔領域の検出及びトラッキングに関する処理の内容を示していたが、図１３に示すように人物全体、車、文字などについても同様にして領域の検出及びトラッキングが可能である。図１３の例は、人物領域、車領域、文字領域の検出及びトラッキングに関する処理の内容を示している。なお、対象領域の形状は、図１２に示すように、矩形であってもよいし、円形やその他の形状であってもよい。対象領域の形状が矩形の場合、対象領域の位置及び範囲は、例えば、左上隅の座標（ｘ，ｙ）、高さｈ、及び幅ｗで表現される。一方、対象領域の形状が円形の場合、対象領域の位置及び範囲は、例えば、中心の座標（ｘ，ｙ）、及び半径ｒで表現される。

再び図１１を参照する。上記のようにして対象領域を検出したメタデータ提供者端末１０は、領域加工部１０４の機能により、各対象領域のＲＰＳ（ＲｅｇｉｏｎＰｒｉｏｒｉｔｙＳｃｏｒｅ）を算出する（Ｓ１０３）。このＲＰＳは、下記の式（１）により定義される。但し、Ｔｙｐｅは、対象領域に含まれる対象物の種類（例えば、顔、人物、文字、物体など）に応じたスコアを表す。また、Ｓｑｒは、対象領域が１枚の動画フレーム全体に占める面積に応じたスコアを表す。さらに、ΔＴは、対象領域が出現する時間の長さを表す。また、α、β、γは、正規化係数を表す。

例えば、図１４に示すように、５枚の動画フレームを対象に対象領域を検出した結果、人物領域、車領域、動物領域が検出されたものとしよう。なお、図１４の例では、１〜５枚目の動画フレームに人物領域が存在し、２〜３枚目の動画フレームに車領域が存在し、１〜３枚目の動画フレームに動物領域が存在している。また、人物領域にはＴｙｐｅ＝５．０のスコアが割り当てられ、車領域にはＴｙｐｅ＝１．０のスコアが割り当てられ、動物領域にはＴｙｐｅ＝３．０のスコアが割り当てられているものとする。

また、対象領域の検出結果から、人物領域の面積に応じたスコアＳｑｒが２．０、車領域の面積に応じたスコアＳｑｒが８．０、動物領域の面積に応じたスコアＳｑｒが３．０であったとする。さらに、人物領域の出現時間はΔＴ＝５．０、車領域の出現時間はΔＴ＝２．０、動物領域の出現時間ΔＴ＝３．０であったとする。この場合、人物領域のＲＰＳは、α＝β＝γ＝１とすると、ＲＰＳ（人物）＝５．０＋２．０＋５．０＝１２．０となる。同様に、車領域のＲＰＳは、ＲＰＳ（車）＝１．０＋８．０＋２．０＝１１．０となる。そして、動物領域のＲＰＳは、ＲＰＳ（動物）＝３．０＋１．０＋３．０＝７．０となる。

再び図１１を参照する。上記のようにして対象物の種類毎に対象領域のＲＰＳを算出したメタデータ提供者端末１０は、領域加工部１０４の機能により、各ＲＰＳが所定の閾値以上であるか否かを判定する（Ｓ１０４）。そして、メタデータ提供者端末１０は、領域加工部１０４の機能により、ＲＰＳが所定の閾値未満となった対象領域を削除する。つまり、メタデータ提供者端末１０は、領域抽出部１０３による対象領域の検出結果から、ＲＰＳが所定の閾値未満となった対象領域を除外する。例えば、所定の閾値が８．０の場合、図１４のケースでは、対象領域の検出結果から動物領域が除外される。

なお、ＲＰＳの算出は、動画全体を対象に行われてもよいが、図１５に示すように、所定数の動画フレームで構成されるＲＰＳ算出ウィンドウを移動させながら、ＲＰＳ算出ウィンドウに含まれる動画フレーム群を対象に行われてもよい。ＲＰＳ算出ウィンドウを単位としてＲＰＳを算出した場合、メタデータ提供者端末１０は、各ＲＰＳ算出ウィンドウに含まれる動画フレーム内で検出された対象領域から、各ＲＰＳ算出ウィンドウについて算出されたＲＰＳが所定の閾値未満の対象領域を除外する。

再び図１１を参照する。上記のようにしてＲＰＳが所定の閾値未満となった対象領域を除外した後、メタデータ提供者端末１０は、領域加工部１０４の機能により、残った対象領域の幅及び高さ（対象領域が円形の場合は半径）を算出する（Ｓ１０５）。次いで、メタデータ提供者端末１０は、領域加工部１０４の機能により、幅又は高さが所定の閾値未満である対象領域を削除する（Ｓ１０６）。つまり、メタデータ提供者端末１０は、領域加工部１０４の機能により、ＲＰＳが所定の閾値以上であった対象領域の中から、幅又は高さが所定の閾値未満である対象領域を除外する。

次いで、メタデータ提供者端末１０は、領域加工部１０４の機能により、同じ動画フレーム内で近隣に位置する同種の対象領域を結合する（Ｓ１０７）。図１６に示すように、領域加工部１０４は、サイズの小さい複数の対象領域が近隣に位置している場合に、それら複数の対象領域を結合してサイズの大きな対象領域を生成する。なお、図１１の例では、ステップＳ１０６において対象領域の幅及び高さの閾値判定を行っているが、ステップＳ１０５及びＳ１０６の処理をステップＳ１０７の後で実行するように変形してもよい。このように変形すると、１つ１つの対象領域が小さくとも、結合により大きなサイズとなる対象領域を除外せずに残すことが可能になる。

対象領域を結合したメタデータ提供者端末１０は、物体認識部１０５の機能により、対象領域をクラスタリングする（Ｓ１０８）。例えば、図１７に示すように、顔検出・顔トラッキングの結果（ＲｅｓｕｌｔｏｆｔｈｅＦａｃｅＴｒａｃｋｉｎｇ）として、動画（ＶｉｄｅｏＣｏｎｔｅｎｔ）から５つの顔トラッキング区間（検出結果１〜５）が検出されているものとする。この場合、物体認識部１０５は、各検出結果に含まれる顔の特徴量に基づいて、同一人物に関する複数の顔トラッキング区間を統合する。図１７の例において、検出結果１と検出結果３との間で顔の特徴量が近いものとする。この場合、物体認識部１０５は、検出結果３に対応する顔領域を検出結果１に対応する顔領域と同じクラスタに帰属させ、対応する２つの顔トラッキング区間を統合する。

また、図１７の例において、検出結果１と検出結果５との間で顔の特徴量が近いものとする。この場合、物体認識部１０５は、検出結果５に対応する顔領域を検出結果１に対応する顔領域と同じクラスタに帰属させ、対応する２つの顔トラッキング区間を統合する。一方、検出結果１、２、４の間で互いに顔の特徴量が離れているものとする。この場合、検出結果１、２、４の間で顔トラッキング区間の統合は行われない。結果として、検出結果１、３、５に対応する顔領域が属するクラスタ１と、検出結果２に対応する顔領域が属するクラスタ２と、検出結果４に対応する顔領域が属するクラスタ４とが得られる。

再び図１１を参照する。なお、顔以外についても同様にクラスタリングが行われる。クラスタリングを行った後、メタデータ提供者端末１０は、物体認識部１０５の機能により、各クラスタに識別情報を対応付ける（Ｓ１０９）。例えば、図１７に示すように、物体認識部１０５は、顔の特徴量と、人物を特定するための識別情報（人物ＩＤ）とを対応付ける顔データベースを参照し、各クラスタを代表する顔の特徴量に基づいて各クラスタに対応する人物ＩＤを特定する。そして、物体認識部１０５は、特定した人物ＩＤとクラスタとを対応付ける。なお、顔データベースは、メタデータ提供者端末１０が保持していてもよいし、メタデータ管理システム２０又は外部の機器が保持していてもよい。

なお、ステップＳ１０８におけるクラスタリングは、例えば、特開２０１０−３０２１号公報に記載の技術などを利用することで実現可能である。また、ステップＳ１０９における特徴量に基づく対象物の識別は、例えば、特開２００７−６５７６６号公報に記載の技術などを利用することで実現可能である。

以上、前処理に係るメタデータ提供者端末１０の動作について説明した。以上説明した処理により、ある対象物が出現する区間の情報、その対象物が各動画フレームにおいて出現する領域、その対象物を特定するための識別情報が得られる。つまり、領域メタデータ及び区間メタデータが得られる。但し、この領域メタデータ及び区間メタデータは、物体検出・物体トラッキング技術及び物体識別技術に基づいて自動検出されたものであり、誤検出、検出漏れ、誤識別などの影響を含んでいると考えられる。そのため、手入力によるメタデータのラベリングは不可欠である。

（２−３−２：ラベリング処理について）
以下では、図１８を参照しながら、ユーザによるラベリング作業に関係するメタデータ提供者端末１０の動作（図９のステップＳ２０）について説明する。図１８は、ユーザによるラベリング作業に関係するメタデータ提供者端末１０の動作について説明するための説明図である。

図１８に示すように、メタデータ提供者端末１０は、ラベリングの対象となる動画フレーム（以下、対象フレーム）を用意する（Ｓ２０１）。次いで、メタデータ提供者端末１０は、対象フレームに対する解析結果（動画解析ブロックにより生成された領域メタデータなど）が存在するか否かを判定する（Ｓ２０２）。解析結果が存在する場合、メタデータ提供者端末１０は、処理をステップＳ２０３に進める。一方、解析結果が存在しない場合、メタデータ提供者端末１０は、処理をステップＳ２０５に進める。

処理をステップＳ２０３に進めた場合、メタデータ提供者端末１０は、移動距離算出部１１０の機能により、対象フレームと、対象フレームに隣接する動画フレームとの間における対象領域の移動距離を算出する（Ｓ２０３）。なお、対象フレームに複数の対象領域が含まれる場合、移動距離算出部１１０は、複数の対象領域について算出された移動距離の代表値（例えば、平均値や中央値など）を算出する。次いで、メタデータ提供者端末１０は、再生制御部１０７の機能により、移動距離が所定の閾値以上であるか否かを判定する（Ｓ２０４）。

移動距離が所定の閾値以上である場合、メタデータ提供者端末１０は、処理をステップＳ２０７に進める。一方、移動距離が所定の閾値未満である場合、メタデータ提供者端末１０は、現在の対象フレームの次に位置する動画フレームを新たな対象フレームに設定し、処理をステップＳ２０３に進める。つまり、メタデータ提供者端末１０は、図２０に示すように、対象領域の移動距離が短く、対象領域の位置がほとんど変化しない場合、その対象フレームに対するユーザの入力機会をスキップする。なお、対象フレームに対するユーザの入力機会をスキップした場合、メタデータ提供者端末１０は、メタデータ提供部１０６の機能により、対象フレームの前に位置する動画フレームに設定されているメタデータを対象フレームに設定する。

再び図１８を参照する。ステップＳ２０２において処理をステップＳ２０５に進めた場合、メタデータ提供者端末１０は、類似スコア算出部１１１の機能により、対象フレームと、対象フレームに隣接する動画フレームとの間の類似スコアを算出する（Ｓ２０５）。類似スコアとは、動画フレーム間の類似度を表すスコアである。類似スコアの算出は、例えば、特開２００７−２０６９２０号公報に記載の技術を利用することで実現可能である。次いで、メタデータ提供者端末１０は、再生制御部１０７の機能により、類似スコアが所定の閾値以上であるか否かを判定する（Ｓ２０５）。

類似スコアが所定の閾値以上である場合、メタデータ提供者端末１０は、処理をステップＳ２０７に進める。一方、類似スコアが所定の閾値未満である場合、メタデータ提供者端末１０は、現在の対象フレームの次に位置する動画フレームを新たな対象フレームに設定し、処理をステップＳ２０５に進める。つまり、メタデータ提供者端末１０は、図１９に示すように、対象フレームと、対象フレームに隣接する動画フレームとの間で画像にほとんど変化がない場合、その対象フレームに対するユーザの入力機会をスキップする。なお、対象フレームに対するユーザの入力機会をスキップした場合、メタデータ提供者端末１０は、メタデータ提供部１０６の機能により、対象フレームの前に位置する動画フレームに設定されているメタデータを対象フレームに設定する。

再び図１８を参照する。処理をステップＳ２０７に進めた場合、メタデータ提供者端末１０は、再生制御部１０７の機能により表示部１０８に対象フレームを表示し、入力部１０９の機能によりユーザによる入力を受け付ける（Ｓ２０７）。例えば、入力部１０９がタッチパネルの場合、ユーザは、図２１に示すように、表示部１０８に表示された対象フレームを参照しながら対象領域を選択する。このとき、再生制御部１０７は、ユーザが選択した領域（選択領域）に所定の形状を有するオブジェクト（図２１ではハッチングで表現）を表示する。なお、再生制御部１０７は、押圧力や近接距離に応じてオブジェクトのサイズを調整したり（図２４）、ピンチイン／ピンチアウト操作（図２５）やジェスチャー操作（図２６）に応じてオブジェクトのサイズを調整したりしてもよい。

次いで、メタデータ提供者端末１０は、移動距離算出部１１０の機能により、対象フレームと、対象フレームに隣接する動画フレームとの間でユーザにより選択された対象領域間の距離を算出する（Ｓ２０８）。ラベリング作業の際、再生制御部１０７は、通常の再生速度よりも遅い速度で動画を再生する。しかし、対象物の動きが速いシーンや、対象領域の選択が難しいシーンなどでは、ユーザの操作がシーンの切り替わりに追従できず、対象領域の選択に誤りが生じてしまう可能性がある。そこで、メタデータ提供者端末１０は、図２３に示すように、ユーザにより選択された対象領域の移動距離を算出し、その移動距離によりユーザ操作の遅れを検出する。

移動距離を算出したメタデータ提供者端末１０は、再生制御部１０７の機能により、移動距離が所定の閾値以上となる区間が所定の長さ以上続いているか否かを判定する（Ｓ２０９）。つまり、メタデータ提供者端末１０は、移動距離が所定の閾値以上となる区間が所定の長さ以上続いている場合に、ユーザ操作の遅れが生じているものとみなす。ユーザ操作の遅れを検出した場合、メタデータ提供者端末１０は、処理をステップＳ２１０に進める。一方、ユーザ操作の遅れが検出されなかった場合、メタデータ提供者端末１０は、処理をステップＳ２１１に進める。

処理をステップＳ２１０に進めた場合、メタデータ提供者端末１０は、再生制御部１０７の機能により、動画の再生速度を遅くし（Ｓ２１０）、処理をステップＳ２０１に進める。この場合、メタデータ提供者端末１０は、対象フレームについてユーザが選択した対象領域の情報をメタデータとして使用しないようにする。一方、処理をステップＳ２１１に進めた場合、メタデータ提供者端末１０は、メタデータ提供部１０６の機能により、ユーザにより選択された対象領域の情報を保持する（Ｓ２１１）。次いで、メタデータ提供者端末１０は、全ての動画フレームについて処理が終了したか否かを判定する（Ｓ２１２）。全ての動画フレームについて処理が終了した場合、メタデータ提供者端末１０は、一連の処理を終了する。一方、処理が終了していない動画フレームが残っている場合、メタデータ提供者端末１０は、処理をステップＳ２０１に進める。

以上、ラベリング作業に関するメタデータ提供者端末１０の動作について説明した。

（ユーザインターフェースについて）
ここで、ラベリング作業に用いるユーザインターフェースについて説明を補足する。

メタデータのラベリング作業は、主に対象領域の選択作業である。つまり、ユーザは、図２１に示すように、画面に表示された画像の中から対象物を検出し、その対象物を含む領域を選択することでメタデータのラベリングを行う。入力デバイスとしてタッチパネルを利用している場合、ユーザは、対象物が表示された位置をタッチするだけで対象領域の選択を行うことができる。また、動画は連続的に再生されるため、ユーザは、画面に表示された映像に出現する対象物を指で追うだけで対象領域の選択を行うことができる。

例えば、図２２に示すように、２〜６枚目の動画フレームに人物Ａの顔が出現する場合、ユーザは、２番目の動画フレームの中で人物Ａの顔が出現した位置をタッチし、６番目の動画フレームの再生が終了するまで人物Ａの顔を指で追えばよい。この作業により、２〜６枚目の各動画フレームにおいて人物Ａの顔が出現する領域を示す領域メタデータが生成される。さらに、２〜６枚目の動画フレームに対応する区間に人物Ａの顔が出現することを示す区間メタデータが生成される。このように、ユーザは、再生中の動画を参照しつつ、画面に出現した対象物を追うように選択することで簡単に領域メタデータ及び区間メタデータを生成することができる。

また、図２４に示すように、押圧力の強さやタッチパネルと指との間の距離に応じて領域のサイズが変更されるようにしてもよい。さらに、図２５に示すように、ピンチアウト操作により選択された領域のサイズが変更されるようにしてもよい。また、図２６に示すように、ジェスチャーにより選択された領域のサイズが変更されるようにしてもよい。例えば、右回りに円を描くようなジェスチャーを行った場合に選択された領域のサイズが大きくなり、左回りに円を描くようなジェスチャーを行った場合に選択された領域のサイズが小さくなるようにしてもよい。

また、図２７に示すように、スクロールバーなどを利用してユーザが動画の再生シーンを自由に選択できるようにしてもよい。さらに、図２７に示すように、動画解析ブロックにより自動生成された領域メタデータに基づいて各シーンの画像に対象領域（この例では顔領域）が枠で表示されるようにしてもよい。動画解析ブロックによる解析結果をユーザが修正する場合、修正が必要な箇所を素早く見つけて修正作業（例えば、図３０を参照）を行えるようにすることが望まれる。図２７に示すように、スクロールバーを利用して再生シーンを自由に選択できるようにし、各再生シーンに解析結果に基づく枠が表示されるようにすると、ユーザは、対象領域を修正すべき再生シーンを素早く見つけることができるようになる。

図２７にはスクロールバーを利用して再生シーンを遷移させるユーザインターフェースを例示したが、図２８に示すように、フリック操作を利用して再生シーンを遷移させるユーザインターフェースも便利である。このユーザインターフェースでは、例えば、画面の左方向に指をスライドさせると次のページへと再生シーンが遷移し、画面に右方向に指をスライドさせると前のページへと再生シーンが遷移する。なお、１回のフリック操作により動画フレーム１枚分だけ再生シーンが遷移するようにしてもよいが、１回のフリック操作で、動画フレーム間の類似スコアが所定の閾値以上となる動画フレームまで再生シーンが遷移するようにしてもよい。

また、図２９に示すように、対象領域を示す枠の中に対象領域の情報が表示されるようにしてもよい。図２９は顔領域の情報を表示した例であるが、この場合、顔領域のサイズ、顔ＩＤ（又は人物ＩＤ）、プロパティ情報（顔の方向、顔のオクルージョン、人物の名前など）などが枠内に表示される。プロパティ情報の設定は、例えば、図３１及び図３２に示すようなメニュー項目の選択操作や文字の入力操作により行われる。なお、顔の方向としては、例えば、「正面」、「横向き」、「後ろ向き」などがある。また、オクルージョンのレベルとしては、例えば、「完全に見えている」、「やや隠れている」、「目・鼻・口のいずれかが見える」、「完全に隠れている」などがある。

また、図３３に示すように、同じ対象物に関して過去に設定された対象領域の画像を並べて表示するようにしてもよい。例えば、ある再生シーンにおいて顔領域を２本指で選択した場合に、その顔領域に含まれる顔と同じ顔に関して過去に設定された顔領域の画像が並べて表示されるようにする。過去に設定された顔領域の画像が並べて表示されることにより、過去に設定した顔領域と現在の再生シーンに登場する人物の顔とが確かに一致しているかを確認することが可能になる。その結果、ユーザの誤入力を抑制できるようになる。また、ユーザは、誤入力を素早く発見することが可能になる。

なお、並べて表示された顔領域の画像を選択することで、その顔領域が設定されている再生シーンに遷移できるようにしてもよい。このようにすると、誤入力が発見された際に、該当する再生シーンに素早く遷移することが可能になり、より効率的に顔領域の修正を行うことが可能になる。また、並べて表示された顔領域の画像を２本指（或いは、メニュー選択やダブルタップなど）で選択することで、プロパティ情報を修正するためのメニュー項目が表示されるようにしてもよい。このようにすると、再生シーンを遷移させることなしにプロパティ情報の修正を行うことが可能になり、より効率的にプロパティ情報の修正が可能になる。

ところで、動画解析ブロックによる自動処理によると、同じ対象物であるにもかかわらず、異なる対象物として認識されていることがある。例えば、動画中の離れた区間で同じ人物が出現した場合、それぞれの区間で検出された人物が別々の人物と認識されてしまうことがある。この場合、両区間に登場する人物の情報を結合させる必要がある。このような結合操作は、図３４に示すようなユーザインターフェースを利用して行われる。図３４に示すように、ある再生シーンに登場する人物の顔領域を指で選択（例えば、メニュー選択や３本指選択など）すると、結合候補が表示される。さらに、結合候補の中から１人の人物を選択すると、現在の再生フレームに登場する顔領域に関する情報と、選択された人物に関する情報とが結合される。

ところで、ラベリング作業の際、ユーザに対して何らフィードバックが与えられないと、メタデータが付与されたことを実感しにくい。また、図３５に示すように、ユーザに対して特徴的なフィードバックを与えることで、例えば、既に付与されているメタデータの情報を直感的に伝達することが可能になる。図３５の例では、対象物が人物の場合、車の場合、動物の場合で異なる振動パターンが異なる構成が示されている。例えば、メタデータが既に付与されている顔領域にタッチすると、人物に対応する振動パターンで振動が発生し、ユーザは、人物のメタデータが付与されていることを認識することができる。

このようなフィードバックの発生は、ラベリング作業に対するユーザのモチベーションを高めることにも寄与する。例えば、ユーザは、メタデータが付与されていない領域から振動フィードバックが得られないため、メタデータを付与しようと考えるだろう。また、再生シーンにおける人物の感情に応じた振動パターンで振動フィードバックが返ってくるようにすると、ラベリング作業にゲーム性が生まれ、ユーザは、振動フィードバックの発生を期待して積極的にメタデータを付与するようになるであろう。例えば、人物が怒りの感情を持つ場合には振幅を大きく、人物が冷静な状態のときには振幅を小さく、人物がリラックスした状態のときには滑らかに振動させるなどの振動パターンが考えられる。

以上、ラベリング作業に用いるユーザインターフェースについて説明を補足した。

［２−４：メタデータ管理システム２０の構成］
次に、図３６及び図３７を参照しながら、メタデータ管理システム２０の構成について説明する。図３６及び図３７は、メタデータ管理システム２０の構成について説明するための説明図である。

（概要）
まず、図３６を参照しながら、メタデータ管理システム２０が有する機能の概要について説明する。図３６に示すように、メタデータ管理システム２０は、複数のメタデータ提供者端末１０により提供された動画タイムラインメタデータを統合する機能を有する。統合された動画タイムラインメタデータは、メタデータ利用者端末３０に提供される。また、メタデータ管理システム２０は、動画から対象物を検出する検出器や対象物の識別を行う識別器の生成に用いる学習用データベースを構築する機能を有する。このように、メタデータ管理システム２０は、主に、動画タイムラインメタデータの統合及び学習用データベースの構築を行う。なお、メタデータ管理システム２０は、図１０に示した動画解析ブロックの機能を有していてもよい。

（機能構成）
次に、図３７を参照する。図３７に示すように、メタデータ管理システム２０は、主に、メタデータ取得部２０１と、スキル・傾向分析部２０２と、領域メタデータ統合部２０３と、区間メタデータ統合部２０４と、オブジェクトメタデータ統合部２０５と、メタデータ提供部２０６と、記憶部２０７と、学習部２０８とにより構成される。

まず、メタデータ取得部２０１は、メタデータ提供者端末１０から動画タイムラインメタデータを取得する。メタデータ取得部２０１により取得された動画タイムラインメタデータは、スキル・傾向分析部２０２に入力される。スキル・傾向分析部２０２は、入力された動画タイムラインメタデータに基づいて、その動画タイムラインメタデータを付与したユーザのラベリングスキルやラベリング操作の傾向を分析する。スキル・傾向分析部２０２による分析結果は、領域メタデータ統合部２０３、区間メタデータ統合部２０４、及びオブジェクトメタデータ統合部２０５に入力される。

領域メタデータ統合部２０３は、複数の領域メタデータを統合する。例えば、対象領域が矩形の場合、領域メタデータ統合部２０３は、同じ動画フレームに設定された同じ対象物に関する複数の対象領域について、各頂点座標の平均値を算出し、その平均値を頂点とする矩形の領域を統合後の対象領域に設定する。また、対象領域が円形の場合、領域メタデータ統合部２０３は、同じ動画フレームに設定された同じ対象物に関する複数の対象領域について、中心座標及び半径の平均値を算出し、中心座標の平均値を新たな中心座標とし、半径の平均値を新たな半径とする円形の領域を統合後の対象領域に設定する。統合後の領域メタデータは、メタデータ提供部２０６に入力される。

区間メタデータ統合部２０４は、複数の区間メタデータを統合する。例えば、区間メタデータ統合部２０４は、同じ動画及び同じ対象物に関する複数の区間メタデータを参照し、所定数以上の区間メタデータで対象物の出現区間とされた区間を対象物の出現区間に設定し、それ以外の区間を対象物の非出現区間に設定して統合後の区間メタデータを生成する。なお、区間メタデータ統合部２０４は、ユーザのスキルを考慮したスコアを用いて統合後の区間メタデータを生成してもよい。統合後の区間メタデータは、メタデータ提供部２０６に入力される。

オブジェクトメタデータ統合部２０５は、複数のオブジェクトメタデータを統合する。オブジェクトメタデータには、例えば、対象物の名前、属性、説明などを表すテキストが含まれる。しかし、これらのテキストには表記ゆらぎが含まれている。そのため、オブジェクトメタデータ統合部２０５は、各オブジェクトメタデータに含まれる表記ゆらぎを吸収すべくテキストを修正する。つまり、オブジェクトメタデータ統合部２０５は、類似テキストを判定し、所定の表記に修正する。例えば、オブジェクトメタデータ統合部２０５は、同じ人物名を表す「キャメロン・ディアス」「キャメロンディアス」「キャメロン」「キャメロン・ミシェル・ディアス」という表記を全て「キャメロン・ディアス」に置き換える。統合後のオブジェクトメタデータは、メタデータ提供部２０６に入力される。

なお、オブジェクトメタデータの表記ゆらぎは、ユーザがオブジェクトメタデータを入力する段階で、ある程度抑制されることが望ましい。例えば、ユーザがテキストを入力せずに済むようにテキストの候補をユーザに選択させるようなユーザインターフェースにしたり、テキストの補完機能を活用したりする方法が考えられる。また、メタデータ提供者端末１０においてオブジェクトメタデータ統合部２０５と同様に表記ゆらぎを吸収するようにしてもよい。

メタデータ提供部２０６は、統合後の領域メタデータ、区間メタデータ、オブジェクトメタデータをメタデータ利用者端末３０に提供する。また、メタデータ提供部２０６は、統合後の領域メタデータ、区間メタデータ、オブジェクトメタデータを記憶部２０７に蓄積する。記憶部２０７に蓄積された領域メタデータ、区間メタデータ、オブジェクトメタデータは、対象物の検出器及び識別器を学習により生成する際に教師データとして利用される。教師データが集まると、学習部２０８は、集まった教師データを利用して学習により対象物の検出器及び識別器を生成する。このとき、学習部２０８は、例えば、特開２００９−１０４２７５号公報に記載の技術などを利用する。学習部２０８により生成された検出器及び識別器は、動画解析ブロックにて利用される。

以上、メタデータ管理システム２０の構成について説明した。

［２−５：メタデータ管理システム２０の動作］
次に、図３８〜図４４を参照しながら、メタデータ管理システム２０の動作について説明する。また、メタデータ管理システム２０の詳細な機能構成について説明を補足する。図３８〜図４４は、メタデータ管理システム２０の動作について説明するための説明図である。

（２−５−１：統合処理について）
まず、図３８を参照しながら、後処理（図９のステップＳ３０）に関するメタデータ管理システム２０の動作について説明する。図３８は、後処理に関するメタデータ管理システム２０の動作について説明するための説明図である。

図３８に示すように、メタデータ管理システム２０は、メタデータ取得部２０１の機能により、メタデータ提供者端末１０から動画タイムラインメタデータを取得する（Ｓ３０１）。次いで、メタデータ管理システム２０は、高信頼メタデータがあるか否かを判定する（Ｓ３０２）。高信頼メタデータとは、高精度の動画解析エンジンを利用して検出された動画タイムラインメタデータや、スキルの高いユーザから取得した動画タイムラインメタデータなどである。高信頼メタデータがある場合、メタデータ管理システム２０は、処理をステップＳ３０３に進める。一方、高信頼メタデータがない場合、メタデータ管理システム２０は、処理をステップＳ３０５に進める。

処理をステップＳ３０３に進めた場合、メタデータ管理システム２０は、スキル・傾向分析部２０２の機能により、下記の式（２）に基づいてユーザ毎及び動画タイムラインメタデータの種類毎にＬＳＳ（ＬａｂｅｌｉｎｇＳｋｉｌｌＳｃｏｒｅ）を算出する（Ｓ３０３）。但し、下記の式（２）に含まれるＡｃｃｕｒａｃｙは、取得した動画タイムラインメタデータの精度を示すパラメータである。例えば、Ａｃｃｕｒａｃｙとしては、再現率（Ｒｅｃａｌｌ）、適合率（Ｐｒｅｃｉｓｉｏｎ）、Ｆ値（Ｆ−Ｍｅａｓｕｒｅ）、誤差率などの値が利用可能である。また、Ｖａｒｉａｎｃｅは、高信頼メタデータと、取得した動画タイムラインメタデータとの差分の分散値である。さらに、α、βは、正規化係数である。

上記の式（２）からも推察されるように、ＬＳＳは、取得した動画タイムラインメタデータの精度が高いほど大きな値となる。一方、ＬＳＳは、取得した動画タイムラインメタデータと高信頼性メタデータとの差分の分散が小さいほど大きな値となる。なお、高信頼メタデータと、取得した動画タイムラインメタデータとの差分の分散であるＶａｒｉａｎｃｅから、ユーザの傾向を分析することができる。例えば、Ｖａｒｉａｎｃｅが小さい場合、領域を大きめに設定する傾向や、インターバルを長めにとる傾向、或いは、領域の選択操作が遅れる傾向など、ユーザに固有に傾向が存在すると考えられる。

さて、ＬＳＳを計算したメタデータ管理システム２０は、スキル・傾向分析部２０２の機能により、高信頼メタデータと、取得した動画タイムラインメタデータとの差分から、ユーザの傾向を算出する（Ｓ３０４）。次いで、メタデータ管理システム２０は、取得した動画タイムラインメタデータの種類に応じて処理を切り替える（Ｓ３０５）。取得した動画タイムラインメタデータが領域メタデータの場合、メタデータ管理システム２０は、処理をステップＳ３０６に進める。また、取得した動画タイムラインメタデータが区間メタデータの場合、メタデータ管理システム２０は、処理をステップＳ３０７に進める。そして、取得した動画タイムラインメタデータがオブジェクトメタデータの場合、メタデータ管理システム２０は、処理をステップＳ３０８に進める。

処理をステップＳ３０６に進めた場合、メタデータ管理システム２０は、領域メタデータ統合部２０３の機能により、領域メタデータを統合する（Ｓ３０６）。例えば、図４０に示すように、同じ動画フレームの同じ対象物に対してユーザＡ、ユーザＢ、ユーザＣがラベリングした領域メタデータが得られているものとしよう。この場合、領域メタデータ統合部２０３は、ユーザＡがラベリングした対象領域の各頂点座標、ユーザＢがラベリングした対象領域の各頂点座標、ユーザＣがラベリングした対象領域の各頂点座標を平均し、その平均値を各頂点座標とする領域を算出する。そして、領域メタデータ統合部２０３は、算出した領域を統合後の領域メタデータに設定する。

また、領域メタデータ統合部２０３は、図４０に示すように、対象領域を各座標ヒートマップで表現し、このヒートマップを信頼性分布として利用してもよい。さらに、領域メタデータ統合部２０３は、ＬＳＳの高いユーザによりラベリングされた領域メタデータを重視するようにＬＳＳに応じた重みを付けて領域メタデータを統合してもよい。また、領域メタデータ統合部２０３は、各ユーザの傾向を考慮して領域メタデータの統合処理を実行してもよい。例えば、領域メタデータ統合部２０３は、領域を小さめに設定する傾向がユーザＡにある場合、ユーザＡが設定した領域を少し大きめに修正した上で、他のユーザが設定した領域と統合するようにしてもよい。

再び図３８を参照する。処理をステップＳ３０７に進めた場合、メタデータ管理システム２０は、区間メタデータ統合部２０４の機能により、図４１に示すように、区間メタデータを統合する（Ｓ３０７）。まず、区間メタデータ統合部２０４は、下記の式（３）に基づいてＴＭＳ（ＴｉｍｅｌｉｎｅＭｅｔａＳｃｏｒｅ）を算出する。但し、下記の式（３）に含まれるＬは、ラベリングしたユーザの集合を表す。また、ＬＳＳ_ｎは、ユーザｎのＬＳＳを表す。そして、ＩｓＬａｂｅｌｅｄ_ｎ，ｔは、ユーザｎが時刻ｔの動画フレームにラベリングしたか否かを表す。また、Ｍは、ラベリングしたユーザの総数を表す。

ＴＭＳを算出した区間メタデータ統合部２０４は、ＴＭＳが所定の閾値Ｔｈ以上となる区間を対象物の出現区間に設定し、統合後の区間メタデータを生成する。なお、区間メタデータ統合部２０４は、各ユーザの傾向を区間メタデータの統合処理に反映させてもよい。例えば、ユーザＡは領域を選択するタイミングが遅れる傾向にあるとする。この場合、区間メタデータ統合部２０４は、タイミングが遅れる分の時間だけ対象物の出現開始及び出現終了タイミングを早めるようにユーザＡの区間メタデータを修正した上でＴＭＳを算出し、そのＴＭＳに基づいて統合後の区間メタデータを生成する。

ステップＳ３０５において処理をステップＳ３０８に進めた場合、メタデータ管理システム２０は、オブジェクトメタデータ統合部２０５の機能により、オブジェクトメタデータの統合処理を実行する（Ｓ３０８）。まず、オブジェクトメタデータ統合部２０５は、図３９に示すように、同じ対象物にラベリングされたプロパティ情報などを統合する。次いで、オブジェクトメタデータ統合部２０５は、オブジェクトメタデータに含まれる対象物の名前、属性、説明などを表すテキストの表記ゆらぎを修正する。

ステップＳ３０６、Ｓ３０７、Ｓ３０８の処理を終了すると、メタデータ管理システム２０は、メタデータ提供部２０６の機能により、統合後の領域メタデータ、区間メタデータ、オブジェクトメタデータをメタデータ利用者端末３０に提供する（Ｓ３０９）。次いで、メタデータ管理システム２０は、統合後の動画タイムラインメタデータを新たな検出器や識別器の生成（新規機能開発・精度向上）に利用するか否かを判定する（Ｓ３１０）。統合後の動画タイムラインメタデータを新規機能開発・精度向上に利用する場合、メタデータ管理システム２０は、処理をステップＳ３１１に進める。一方、統合後の動画タイムラインメタデータを新規機能開発・精度向上に利用しない場合、メタデータ管理システム２０は、一連の処理を終了する。

処理をステップＳ３１１に進めた場合、メタデータ管理システム２０は、統合後の動画タイムラインメタデータを記憶部２０７（学習用データベース）に格納する（Ｓ３１１）。次いで、メタデータ管理システム２０は、学習部２０８の機能により、学習用データベースに十分な量の動画タイムラインメタデータが蓄積されたか否かを判定する（Ｓ３１２）。学習用データベースに十分な量の動画タイムラインメタデータが蓄積された場合、メタデータ管理システム２０は、処理をステップＳ３１３に進める。一方、学習用データベースに十分な量の動画タイムラインメタデータが蓄積されていない場合、メタデータ管理システム２０は、一連の処理を終了する。

処理をステップＳ３１３に進めた場合、メタデータ管理システム２０は、学習部２０８の機能により、記憶部２０７に蓄積された動画タイムラインメタデータを教師データとして利用し、学習により新たな検出器及び識別器を生成する（Ｓ３１３）。新たな検出器及び識別器を生成したメタデータ管理システム２０は、一連の処理を終了する。

以上、後処理に関するメタデータ管理システム２０の動作について説明した。

（２−５−２：その他の機能）
さて、メタデータ管理システム２０は、動画タイムラインメタデータを統合する機能や新たな検出器及び識別器を学習により生成する機能の他、ラベリングを補助又は奨励するための機能を備えていてもよい。例えば、メタデータ管理システム２０は、図４２に示すように、ラベリングを行ったユーザにポイントやクーポンなどの報酬を提供する機能を有していてもよい。また、メタデータ管理システム２０は、図４３に示すように、ソーシャルネットワークサービス（以下、ＳＮＳ）を通じて動画タイムラインメタデータを複数のユーザで共有できる環境を提供する機能を有していてもよい。さらに、メタデータ管理システム２０は、図４４に示すように、オブジェクトメタデータの入力を補助するための情報を提供する機能を有していてもよい。

これらの機能は、ラベリング作業に対するユーザのモチベーションを直接的又は間接的に高めるための機能である。多くのユーザにとって、動画タイムラインメタデータのラベリング作業は単調で退屈な作業であると考えられる。また、一部のユーザにとってはラベリング作業が苦痛を伴う作業であるかもしれない。そのため、動画タイムラインメタデータのラベリング作業に対する動機付けを行うことは有意義であると考えられる。

例えば、図４２に示すように、ラベリングを行ったユーザにポイントやクーポンが与えられる仕組みを設ければ、ラベリング作業に対するモチベーションが高まるものと考えられる。また、ポイントやクーポンの提供に代えて、ラベリングした動画（映画や放送番組など）を無料で視聴できるようにしてもよい。また、「動画から○○を探せ」のようなお題をユーザに与え、ラベリング作業にゲーム性を持たせるなどの工夫も考えられる。また、長時間のラベリング作業を行ったユーザに高い報酬を与えたり、注目度の高い人物にラベリングしたユーザに対して高い報酬を与えたりする仕組みも有効であろう。

また、図４３に示すように、動画タイムラインメタデータをＳＮＳで共有すると、動画タイムラインメタデータをアップロードしたユーザが他のユーザに感謝されたりする。そして、他のユーザに感謝されることが積極的にラベリング作業を行う動機付けになると考えられる。また、図４４に示すように、動画中で選択した顔領域の特徴量に基づいてマッチング候補が提供されるようにすることで、ラベリング作業が簡略化される。また、人物を当てるゲームのような要素も含むため、ユーザのラベリング作業に対するモチベーションの向上に寄与すると考えられる。

以上、メタデータ管理システム２０のオプション機能について説明した。なお、上記のオプション機能は、他のサービス提供システムにより提供されるようにしてもよい。

［２−６：メタデータ利用者端末３０の構成及び動作］
次に、図４５を参照しながら、メタデータ利用者端末３０の構成について説明する。この中で、メタデータ利用者端末３０の動作についても説明する。図４５は、メタデータ利用者端末３０の構成について説明するための説明図である。

図４５に示すように、メタデータ利用者端末３０は、主に、メタデータ取得部３０１と、登場区間提示部３０２と、登場区間再生部３０３と、記憶部３０４と、表示部３０５と、関連情報提示部３０６と、入力部３０７とにより構成される。

メタデータ取得部３０１は、メタデータ管理システム２０から動画タイムラインメタデータ（図４６を参照）を取得する。メタデータ取得部３０１により取得された動画タイムラインメタデータのうち、区間メタデータは、登場区間提示部３０２に入力される。一方、領域メタデータは、関連情報提示部３０６に入力される。登場区間提示部３０２は、区間メタデータを利用して各対象物が出現する区間を示す情報を表示部３０５に表示する。例えば、登場区間提示部３０２は、図４７に示すように、全区間の中で各登場人物の登場区間を色分けして表示する。

また、登場区間提示部３０２は、図４及び図４８に示すように、登場人物が出現する区間の時間情報と、その区間に出現する登場人物の情報とを対応付けて表示してもよい。さらに、登場区間提示部３０２は、図４９に示すように、現在再生されている区間に登場する登場人物を表示してもよい。そして、登場区間提示部３０２は、現在再生されている区間に登場する登場人物のうち、ユーザにより選択された登場人物が登場する区間をタイムライン上に表示してもよい。また、登場区間提示部３０２は、図５０に示すように、現在再生されている区間に登場する登場人物のうち、ユーザにより選択された登場人物が登場する区間の代表シーンを並べて表示してもよい。

再び図４５を参照する。区間メタデータは、登場区間提示部３０２を介して登場区間再生部３０３にも入力される。登場区間再生部３０３は、記憶部３０４に格納された動画を再生して表示部３０５に表示する。また、ある対象物が出現する区間、又はある対象物が選択された場合、登場区間再生部３０３は、区間メタデータに基づいて、選択された区間又は選択された対象物が出現する区間を再生する。例えば、図４７に示すように、ユーザにより「Ｃａｍｅｒｏｎ」の登場区間が選択された場合、登場区間再生部３０３は、選択された登場区間の映像を再生する。

また、図４８に示すように、登場区間のリストから１つの登場区間が選択された場合、登場区間再生部３０３は、選択された登場区間の映像を再生する。また、図４９に示すように、現在再生している区間に登場する登場人物が選択された場合、登場区間再生部３０３は、選択された登場人物が登場する区間の映像を再生する。また、図５０に示すように、画面上で選択された登場人物の登場シーンが１つ選択された場合、登場区間再生部３０３は、選択された登場シーンの映像を再生する。このように、登場区間再生部３０３は、区間メタデータを利用し、ユーザにより選択された区間や対象物に対応する映像を選択的に再生する。

一方、関連情報提示部３０６は、領域メタデータを利用し、現在表示されている画像に含まれる各対象物の関連情報を表示部３０５に表示する。例えば、図１に示すように、現在表示されている画像に人物Ａ及び人物Ｂが含まれる場合、関連情報提示部３０６は、人物Ａ及び人物Ｂの関連情報を画面上に表示する。また、図２に示すように、現在表示されている画像に物品及び場所が含まれる場合、関連情報提示部３０６は、物品及び場所の関連情報を画面上に表示する。また、関連情報提示部３０６は、図３に示すように、現在表示されている画像に出現する対象物が選択された場合に、選択された対象物の関連情報を表示するように構成されていてもよい。

なお、関連情報としては、例えば、人物のプロフィールや写真の他、ＳＮＳサービスへのリンクや物品の販売サイトへのリンク、人物や物品の写真、人物が登場する他の動画作品などが含まれていてもよい。また、関連情報は、メタデータ管理システム２０やメタデータ利用者端末３０が保持していてもよいし、関連情報を提供するサービス提供システムに対して人物ＩＤなどの識別情報を送信し、そのサービス提供システムから関連情報を取得するようにしてもよい。

また、図５１及び図５２に示すように、ＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）技術を利用して関連情報を表示することも可能である。ＡＲを利用する場合、ユーザは、図５１に示すように、カメラ付き端末装置で動画の表示画面を撮影し、その表示画面をカメラ付き端末装置のディスプレイに表示させる。動画の表示画面が撮影範囲に入ると、カメラ付き端末装置は、表示画面に登場する対象物の関連情報を取得し、取得した関連情報をディスプレイに表示する。また、図５２に示すように、カメラ付き端末装置を把持する角度を変え、撮影範囲から表示画面を外した場合に、カメラ付き端末装置のディスプレイに関連情報だけが表示されるようにしてもよい。なお、カメラ付き端末装置に加速度センサなどのセンサ類が搭載されていれば角度の変化を検出できるため、その検出結果に応じて関連情報の表示方法を切り替えることができる。

以上、メタデータ利用者端末３０の構成及び動作について説明した。

［２−７：動画タイムラインメタデータのデータ構造］
次に、図５３〜図５９を参照しながら、動画タイムラインメタデータのデータ構造について説明する。図５３〜図５９は、動画タイムラインメタデータのデータ構造について説明するための説明図である。なお、動画タイムラインメタデータの構成例（対象物が顔の場合）は、図４６に示した通りである。図４６の例では、領域メタデータは顔枠の位置及び範囲を含み、区間メタデータは顔の出現区間を含み、オブジェクトメタデータは人物ＩＤ、顔プロパティ及び顔のサムネイル画像を含む。

ここでは、上記のような構成を持つ動画タイムラインメタデータの管理を容易にすることが可能な格納フォーマットについて説明する。この格納フォーマットにおいて、動画タイムラインメタデータは、図５３に示すようなボックス連結構造で格納される。ボックスは、動画タイムラインメタデータの種類毎に分類されている。例えば、「ＦａｃｅＢｏｘ」は、顔領域に関する動画タイムラインメタデータを表す。また、「ＣａｒＢｏｘ」は、車領域に関する動画タイムラインメタデータを表す。このようなボックス連結構造にすると、新たなタイプのボックスを追加するのが容易になる。また、動画タイムラインメタデータの最後尾に容易にデータを追記できるようになる。

図５４に示すように、各ボックスは、ヘッダと、データ領域とにより構成される。また、ヘッダの種類には、ボックス共通のヘッダ（ＢｏｘＨｅａｄｅｒ）と、データ依存のヘッダ（ＤａｔａＨｅａｄｅｒ）とがある。ボックス共通のヘッダには、ボックスのサイズ、ボックスのタイプ、ボックスのＩＤなどが格納される。一方、データ依存のヘッダには、データ要素数や時間情報などが格納される。また、データ領域は、１又は複数のデータ要素（ＤａｔａＥｌｅｍｅｎｔ）により構成される。

上記のように、動画タイムラインメタデータは、タイプ毎にボックスを設けて格納される。しかし、図５５に示すように、１つのボックスを複数のボックスに分割（Ｆｒａｇｍｅｎｔａｔｉｏｎ）することも可能である。図５５の例では、「ＦａｃｅＢｏｘ」などのボックスが２つに分割されている。ボックスを分割することで、１つのボックスに格納されるデータ量が少なくなる。そのため、書き出し時にメモリに一旦格納されるデータ量が削減でき、書き出し時のメモリ負荷を低減することが可能になる。

また、図５６に示すように、分割されたボックスを連結することもできる。分割されたボックスの連結は、ＢｏｘＣｌａｓｓＩＤに基づいて行う。このＢｏｘＣｌａｓｓＩＤは、ボックスを識別するために予め規定されるＩＤである。例えば、動画解析エンジンＡの解析結果を格納するＦａｃｅＢｏｘのＢｏｘＣｌａｓｓＩＤが１、動画解析エンジンＢの解析結果を格納するＦａｃｅＢｏｘのＢｏｘＣｌａｓｓＩＤが１０などと規定される。分割されたボックスを連結する場合、同じＢｏｘＣｌａｓｓＩＤのボックスを検出して１つのボックスに連結する。

また、図５７に示すように、データ要素の間には親子関係が規定される。親ノードと子ノードとの関係は、親ノードから子ノードへと伸びる矢印で表現される。また、１つの親ノードから複数の子ノードへと矢印を延ばすことができる。顔領域について考えると、人物ＩＤや名前に対応するデータ要素「Ｐｅｒｓｏｎ」が最上位の親ノードとなる。また、データ要素「Ｐｅｒｓｏｎ」の下位には、人物が登場する区間の開始点や長さに対応するデータ要素「Ｉｎｔｅｒｖａｌ」が位置する。

また、データ要素「Ｉｎｔｅｒｖａｌ」の下位には、ベクター（顔枠の位置及び範囲、顔特徴量）に対応するデータ要素「Ｖｅｃｔｏｒ」が位置する。また、データ要素「Ｉｎｔｅｒｖａｌ」の下位には、顔情報（顔位置、サイズ、パーツ位置、特徴量）に対応するデータ要素「Ｆａｃｅ」が位置する。また、データ要素「Ｉｎｔｅｒｖａｌ」の下位には、画像（画像情報、画像データ）に対応するデータ要素「Ｉｍａｇｅ」が位置する。このような親子関係を規定しておくことにより、例えば、人物Ａの出演する区間をすべてリスト形式で表示することが可能になる。

図５７に示すような親子関係を実現するには、各データ要素が識別可能であることが必要になる。そのため、各データ要素にはＥｌｅｍｅｎｔＩＤが付与される。このＥｌｅｍｅｎｔＩＤは、１つの動画タイムラインメタデータの中で、ＢｏｘＣｌａｓｓＩＤが同じ全てのボックス内でユニークなＩＤである。例えば、図５８に示すように、ＢｏｘＣｌａｓｓＩＤ＝１の２つのＦａｃｅＢｏｘ間でＥｌｅｍｅｎｔＩＤはユニークとなる。一方、ＢｏｘＣｌａｓｓＩＤ＝１のＦａｃｅＢｏｘと、ＢｏｘＣｌａｓｓＩＤ＝１０のＦａｃｅＢｏｘとの間では、ＥｌｅｍｅｎｔＩＤが重なっていてもよい。

上記の規定により、ＢｏｘＣｌａｓｓＩＤとＥｌｅｍｅｎｔＩＤとを組み合わせることで、親Ｂｏｘのユニーク性が担保される。なお、親ＢｏｘのＢｏｘＣｌａｓｓＩＤは、子ＢｏｘのＢｏｘＨｅａｄｅｒに格納される。また、親Ｂｏｘのデータ要素が持つＥｌｅｍｅｎｔＩＤは、子Ｂｏｘが持つデータ要素に格納される。図５９を参照しながら、親ＢｏｘであるＰｅｒｓｏｎＢｏｘと、子ＢｏｘであるＩｎｔｅｒｖａｌＢｏｘとの間の関係について考えてみたい。ＰｅｒｓｏｎＢｏｘのＢｏｘＣｌａｓｓＩＤは、ＩｎｔｅｒｖａｌＢｏｘのＢｏｘＨｅａｄｅｒに格納される。また、ＰｅｒｓｏｎＢｏｘのデータ要素ＰｅｒｓｏｎＥｌｅｍｅｎｔのＥｌｅｍｅｎｔＩＤ＝１、２は、ＩｎｔｅｒｖａｌＢｏｘのデータ要素ＩｎｔｅｒｖａｌＥｌｅｍｅｎｔに格納される。つまり、親は複数の子を持てるが、子は複数の親を持つことができない。

以上、動画タイムラインメタデータのデータ構造について説明した。

＜３：ハードウェア構成＞
上記のメタデータ提供者端末１０、メタデータ管理システム２０、及びメタデータ利用者端末３０が有する各構成要素の機能は、例えば、図６０に示す情報処理装置のハードウェア構成を用いて実現することが可能である。つまり、当該各構成要素の機能は、コンピュータプログラムを用いて図６０に示すハードウェアを制御することにより実現される。なお、このハードウェアの形態は任意であり、例えば、パーソナルコンピュータ、携帯電話、ＰＨＳ、ＰＤＡ等の携帯情報端末、ゲーム機、又は種々の情報家電がこれに含まれる。但し、上記のＰＨＳは、ＰｅｒｓｏｎａｌＨａｎｄｙ−ｐｈｏｎｅＳｙｓｔｅｍの略である。また、上記のＰＤＡは、ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔの略である。

図６０に示すように、このハードウェアは、主に、ＣＰＵ９０２と、ＲＯＭ９０４と、ＲＡＭ９０６と、ホストバス９０８と、ブリッジ９１０と、を有する。さらに、このハードウェアは、外部バス９１２と、インターフェース９１４と、入力部９１６と、出力部９１８と、記憶部９２０と、ドライブ９２２と、接続ポート９２４と、通信部９２６と、を有する。但し、上記のＣＰＵは、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔの略である。また、上記のＲＯＭは、ＲｅａｄＯｎｌｙＭｅｍｏｒｙの略である。そして、上記のＲＡＭは、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙの略である。

ＣＰＵ９０２は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ９０４、ＲＡＭ９０６、記憶部９２０、又はリムーバブル記録媒体９２８に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ＲＯＭ９０４は、ＣＰＵ９０２に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ９０６には、例えば、ＣＰＵ９０２に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

これらの構成要素は、例えば、高速なデータ伝送が可能なホストバス９０８を介して相互に接続される。一方、ホストバス９０８は、例えば、ブリッジ９１０を介して比較的データ伝送速度が低速な外部バス９１２に接続される。また、入力部９１６としては、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力部９１６としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。

出力部９１８としては、例えば、ＣＲＴ、ＬＣＤ、ＰＤＰ、又はＥＬＤ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。但し、上記のＣＲＴは、ＣａｔｈｏｄｅＲａｙＴｕｂｅの略である。また、上記のＬＣＤは、ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙの略である。そして、上記のＰＤＰは、ＰｌａｓｍａＤｉｓｐｌａｙＰａｎｅｌの略である。さらに、上記のＥＬＤは、Ｅｌｅｃｔｒｏ−ＬｕｍｉｎｅｓｃｅｎｃｅＤｉｓｐｌａｙの略である。

記憶部９２０は、各種のデータを格納するための装置である。記憶部９２０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。但し、上記のＨＤＤは、ＨａｒｄＤｉｓｋＤｒｉｖｅの略である。

ドライブ９２２は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９２８に記録された情報を読み出し、又はリムーバブル記録媒体９２８に情報を書き込む装置である。リムーバブル記録媒体９２８は、例えば、ＤＶＤメディア、Ｂｌｕ−ｒａｙメディア、ＨＤＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９２８は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。但し、上記のＩＣは、ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔの略である。

接続ポート９２４は、例えば、ＵＳＢポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ、ＲＳ−２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９３０を接続するためのポートである。外部接続機器９３０は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。但し、上記のＵＳＢは、ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓの略である。また、上記のＳＣＳＩは、ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅの略である。

通信部９２６は、ネットワーク９３２に接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ用の通信カード、光通信用のルータ、ＡＤＳＬ用のルータ、又は各種通信用のモデム等である。また、通信部９２６に接続されるネットワーク９３２は、有線又は無線により接続されたネットワークにより構成され、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、可視光通信、放送、又は衛星通信等である。但し、上記のＬＡＮは、ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋの略である。また、上記のＷＵＳＢは、ＷｉｒｅｌｅｓｓＵＳＢの略である。そして、上記のＡＤＳＬは、ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅの略である。

＜４：まとめ＞
最後に、本実施形態の技術的思想について簡単に纏める。以下に記載する技術的思想は、例えば、ＰＣ、携帯電話、携帯ゲーム機、携帯情報端末、情報家電、カーナビゲーションシステム等、種々の情報処理装置に対して適用することができる。

上記の情報処理装置の機能構成は以下のように表現することができる。

（１）
動画に登場する各対象物の登場区間を示した区間メタデータを取得するメタ取得部と、
前記区間メタデータを利用し、前記動画を構成する全区間の中で各対象物が登場する区間を視覚的に表現した区間情報を表示する区間情報表示部と、
ある対象物に関する区間情報として表示された区間の中から１つの区間がユーザにより選択された場合に、選択された区間の動画フレームを再生させる再生制御部と、
を備える、
情報処理装置。

（２）
前記区間情報表示部は、前記区間情報と共に、当該区間情報に対応する対象物の画像を表示し、
前記再生制御部は、ある対象物に関する区間情報と共に表示された対象物の画像がユーザにより選択された場合に、当該区間情報として表示された全ての区間の動画フレームを再生させる、
上記（１）に記載の情報処理装置。

（３）
前記区間メタデータを利用して、再生されている動画フレームに含まれる全ての対象物を認識し、認識した各対象物の画像を並べて表示する画像表示部をさらに備え、
前記再生制御部は、ある対象物の画像がユーザにより選択された場合に、選択された画像に対応する対象物が登場する区間の動画フレームを再生させる、
上記（１）又は（２）に記載の情報処理装置。

（４）
前記メタ取得部は、動画を構成する各動画フレームに含まれる各対象物の位置又は当該各対象物を含む領域の情報を動画フレーム毎に記述した領域メタデータを取得し、
前記情報処理装置は、
前記領域メタデータを利用して、再生されている動画フレーム内でユーザが指定した位置に存在する対象物を認識する領域認識部と、
前記領域認識部により対象物の存在が認識された場合に、当該対象物に関連する関連情報を表示する関連情報表示部と、
をさらに備える、
上記（１）〜（３）のいずれか１項に記載の情報処理装置。

（５）
前記メタ取得部は、動画を構成する各動画フレームに含まれる各対象物の位置又は当該各対象物を含む領域の情報を動画フレーム毎に記述した領域メタデータを取得し、
前記情報処理装置は、前記領域メタデータを利用して、再生されている動画フレーム内でユーザが指定した位置に存在する対象物を認識する領域認識部をさらに備え、
前記再生制御部は、前記領域認識部により対象物の存在が認識された場合に、前記区間メタデータを利用して、当該対象物が登場する区間の動画フレームを再生する、
上記（１）〜（３）のいずれか１項に記載の情報処理装置。

（６）
前記メタ取得部は、動画を構成する各動画フレームに含まれる各対象物の位置又は当該各対象物を含む領域の情報を動画フレーム毎に記述した領域メタデータを取得し、
前記情報処理装置は、前記区間メタデータを利用して、再生されている動画フレームに含まれる全ての対象物を認識し、認識した各対象物に関連する関連情報を表示する関連情報表示部をさらに備え、
前記関連情報表示部は、前記領域メタデータを利用し、前記動画フレームに含まれる各対象物の位置又は当該各対象物を含む領域から吹き出しを表示し、当該吹き出しの中に当該各対象物に関連する関連情報を表示する、
上記（１）〜（３）のいずれか１項に記載の情報処理装置。

（７）
前記区間情報表示部は、対象物が登場する区間と、各区間に登場する全ての対象物とを対応付けたリストを表示する、
上記（１）〜（３）のいずれか１項に記載の情報処理装置。

（８）
前記区間情報表示部は、前記動画の全区間をバーで表示し、当該バーにおいてユーザにより選択された対象物が登場する区間を強調表示する、
上記（１）〜（３）のいずれか１項に記載の情報処理装置。

（９）
前記区間情報表示部は、ユーザにより選択された対象物が登場する各区間について、当該各区間を代表する画像を並べて表示し、
前記再生制御部は、前記各区間を代表する画像の１つがユーザにより選択された場合に、当該画像に対応する区間の動画フレームを再生させる、
上記（１）〜（３）のいずれか１項に記載の情報処理装置。

（１０）
前記情報処理装置は、前記区間メタデータを利用して、再生されている動画フレームに含まれる全ての対象物を認識し、認識した各対象物の情報を端末装置に送信する情報送信部をさらに備え、
前記端末装置は、撮像デバイス及び表示デバイスを搭載しており、前記撮像デバイスにより前記再生されている動画フレームを撮像し、前記表示デバイスにより当該動画フレームを表示し、前記情報処理装置から受信した各対象物の情報に基づいて当該各対象物の関連情報を当該動画フレームに重ねて表示する、
上記（１）〜（３）のいずれか１項に記載の情報処理装置。

（１１）
前記端末装置は、
前記撮像デバイスの撮像範囲に前記動画フレームの表示領域が含まれる場合には前記表示デバイスに前記動画フレームと前記関連情報とを表示し、
前記撮像デバイスの撮像範囲に前記動画フレームの表示領域が含まれない場合には前記表示デバイスに前記関連情報だけを表示する、
上記（１０）に記載の情報処理装置。

（１２）
動画に登場する各対象物の登場区間を示した区間メタデータを取得するステップと、
前記区間メタデータを利用し、前記動画を構成する全区間の中で各対象物が登場する区間を視覚的に表現した区間情報を表示するステップと、
ある対象物に関する区間情報として表示された区間の中から１つの区間がユーザにより選択された場合に、選択された区間の動画フレームを再生させるステップと、
を含む、
情報処理方法。

（１３）
動画に登場する各対象物の登場区間を示した区間メタデータを利用し、前記動画を構成する全区間の中で各対象物が登場する区間を視覚的に表現した区間情報を表示する区間情報表示機能をコンピュータに実現させるためのプログラムであり、
ある対象物に関する区間情報として表示された区間の中から１つの区間がユーザにより選択された場合に、選択された区間の動画フレームが再生される、
プログラム。

（１４）
動画に登場する各対象物の登場区間を示した区間メタデータを取得するメタ取得部と、
前記区間メタデータを利用し、再生されている動画フレームに含まれる全ての対象物の画像又は関連情報を表示する情報表示部と、
前記対象物の画像又は関連情報がユーザにより選択された場合に、前記区間メタデータを利用して、選択された画像又は関連情報に対応する対象物の登場区間を特定し、当該登場区間に含まれる動画フレームを再生させる再生制御部と、
を備える、
情報処理装置。

（１５）
動画に登場する各対象物の登場区間を示した区間メタデータと、動画を構成する各動画フレームに含まれる各対象物の位置又は当該各対象物を含む領域の情報を動画フレーム毎に記述した領域メタデータと、を取得するメタ取得部と、
前記領域メタデータを利用して、再生されている動画フレーム内でユーザが指定した位置に存在する対象物を認識する領域認識部と、
前記領域認識部により対象物の存在が認識された場合に、前記区間メタデータを利用して、存在が認識された対象物の登場区間を特定し、当該登場区間に含まれる動画フレームを再生させる再生制御部と、
を備える、
情報処理装置。

（備考）
上記のメタデータ取得部３０１は、メタ取得部の一例である。上記の登場区間提示部３０２は、区間情報表示部の一例である。上記の登場区間再生部３０３は、再生制御部、画像表示部の一例である。上記の関連情報提示部３０６は、領域認識部、関連情報表示部の一例である。上記の関連情報提示部３０６は、情報送信部、情報表示部の一例である。

以上、添付図面を参照しながら本技術に係る好適な実施形態について説明したが、本技術はここで開示した構成例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本技術の技術的範囲に属するものと了解される。

１０メタデータ提供者端末
１０１記憶部
１０２デコーダ
１０３領域抽出部
１０４領域加工部
１０５物体認識部
１０６メタデータ提供部
１０７再生制御部
１０８表示部
１０９入力部
１１０移動距離算出部
１１１類似スコア算出部
２０メタデータ管理システム
２０１メタデータ取得部
２０２スキル・傾向分析部
２０３領域メタデータ統合部
２０４区間メタデータ統合部
２０５オブジェクトメタデータ統合部
２０６メタデータ提供部
２０７記憶部
２０８学習部
３０メタデータ利用者端末
３０１メタデータ取得部
３０２登場区間提示部
３０３登場区間再生部
３０４記憶部
３０５表示部
３０６関連情報提示部
３０７入力部

Claims

動画を構成する各動画フレームに含まれる各対象物の位置又は当該各対象物を含む領域の情報を動画フレーム毎に記述した領域メタデータと、当該動画に登場する前記各対象物の登場区間を示した区間メタデータと、を取得するメタ取得部と、
前記区間メタデータを利用し、前記動画を構成する全区間の中で各対象物が登場する区間を視覚的に表現した区間情報を表示する区間情報表示部と、
ある対象物に関する区間情報として表示された区間の中から１つの区間がユーザにより選択された場合に、選択された区間の動画フレームを再生させる再生制御部と、
前記領域メタデータを利用して、再生されている動画フレーム内でユーザが指定した位置に存在する対象物を認識する領域認識部と、
を備え、
前記区間情報表示部は、前記領域認識部により対象物の存在が認識された場合に、前記区間メタデータを利用して、存在が認識された当該対象物の登場区間を特定し、特定した当該登場区間に対応する情報を表示する、
情報処理装置。
前記区間情報表示部は、前記区間情報と共に、当該区間情報に対応する対象物の画像を表示し、
前記再生制御部は、ある対象物に関する区間情報と共に表示された対象物の画像がユーザにより選択された場合に、当該区間情報として表示された全ての区間の動画フレームを再生させる、
請求項１に記載の情報処理装置。
前記区間メタデータを利用して、再生されている動画フレームに含まれる全ての対象物を認識し、認識した各対象物の画像を並べて表示する画像表示部をさらに備え、
前記再生制御部は、ある対象物の画像がユーザにより選択された場合に、選択された画像に対応する対象物が登場する区間の動画フレームを再生させる、
請求項１又は２に記載の情報処理装置。
前記メタ取得部は、動画を構成する各動画フレームに含まれる各対象物の位置又は当該各対象物を含む領域の情報を動画フレーム毎に記述した領域メタデータを取得し、
前記情報処理装置は、
前記領域メタデータを利用して、再生されている動画フレーム内でユーザが指定した位置に存在する対象物を認識する領域認識部と、
前記領域認識部により対象物の存在が認識された場合に、当該対象物に関連する関連情報を表示する関連情報表示部と、
をさらに備える、
請求項１〜３のいずれか１項に記載の情報処理装置。
前記再生制御部は、前記領域認識部により対象物の存在が認識された場合に、前記区間メタデータを利用して、当該対象物が登場する区間の動画フレームを再生する、
請求項１〜３のいずれか１項に記載の情報処理装置。
前記情報処理装置は、前記区間メタデータを利用して、再生されている動画フレームに含まれる全ての対象物を認識し、認識した各対象物に関連する関連情報を表示する関連情報表示部をさらに備え、
前記関連情報表示部は、前記領域メタデータを利用し、前記動画フレームに含まれる各対象物の位置又は当該各対象物を含む領域から吹き出しを表示し、当該吹き出しの中に当該各対象物に関連する関連情報を表示する、
請求項１〜３のいずれか１項に記載の情報処理装置。
前記区間情報表示部は、対象物が登場する区間と、各区間に登場する全ての対象物とを対応付けたリストを表示する、
請求項１〜３のいずれか１項に記載の情報処理装置。
前記区間情報表示部は、前記動画の全区間をバーで表示し、当該バーにおいてユーザにより選択された対象物が登場する区間を強調表示する、
請求項１〜３のいずれか１項に記載の情報処理装置。
前記区間情報表示部は、前記領域認識部により認識された前記対象物が登場する各区間に対応する情報として、当該各区間を代表する画像を表示し、
前記再生制御部は、前記各区間を代表する画像の１つがユーザにより選択された場合に、当該画像に対応する区間の動画フレームを再生させる、
請求項１〜３のいずれか１項に記載の情報処理装置。
前記情報処理装置は、前記区間メタデータを利用して、再生されている動画フレームに含まれる全ての対象物を認識し、認識した各対象物の情報を端末装置に送信する情報送信部をさらに備え、
前記端末装置は、撮像デバイス及び表示デバイスを搭載しており、前記撮像デバイスにより前記再生されている動画フレームを撮像し、前記表示デバイスにより当該動画フレームを表示し、前記情報処理装置から受信した各対象物の情報に基づいて当該各対象物の関連情報を当該動画フレームに重ねて表示する、
請求項１〜３のいずれか１項に記載の情報処理装置。
前記端末装置は、
前記撮像デバイスの撮像範囲に前記動画フレームの表示領域が含まれる場合には前記表示デバイスに前記動画フレームと前記関連情報とを表示し、
前記撮像デバイスの撮像範囲に前記動画フレームの表示領域が含まれない場合には前記表示デバイスに前記関連情報だけを表示する、
請求項１０に記載の情報処理装置。
動画を構成する各動画フレームに含まれる各対象物の位置又は当該各対象物を含む領域の情報を動画フレーム毎に記述した領域メタデータと、動画に登場する各対象物の登場区間を示した区間メタデータと、を取得するステップと、
前記区間メタデータを利用し、前記動画を構成する全区間の中で各対象物が登場する区間を視覚的に表現した区間情報を表示するステップと、
ある対象物に関する区間情報として表示された区間の中から１つの区間がユーザにより選択された場合に、選択された区間の動画フレームを再生させるステップと、
前記領域メタデータを利用して、再生されている動画フレーム内でユーザが指定した位置に存在する対象物を認識するステップと、
当該対象物の存在が認識された場合に、前記区間メタデータを利用して、存在が認識された当該対象物の登場区間を特定し、特定された当該登場区間に対応する情報を表示する、ステップと、
を含む、
情報処理方法。
動画に登場する各対象物の登場区間を示した区間メタデータを利用し、前記動画を構成する全区間の中で各対象物が登場する区間を視覚的に表現した区間情報を表示する区間情報表示機能をコンピュータに実現させるためのプログラムであり、
ある対象物に関する区間情報として表示された区間の中から１つの区間がユーザにより選択された場合に、選択された区間の動画フレームが再生され、
動画を構成する各動画フレームに含まれる前記各対象物の位置又は当該各対象物を含む領域の情報を動画フレーム毎に記述した領域メタデータを利用し、再生されている動画フレーム内でユーザが指定した位置に存在する対象物が認識され、
当該対象物の存在が認識された場合に、前記区間メタデータを利用して、当該対象物が登場する各区間に対応する情報が表示される、
プログラム。
動画を構成する各動画フレームに含まれる各対象物の位置又は当該各対象物を含む領域の情報を動画フレーム毎に記述した領域メタデータと、動画に登場する前記各対象物の登場区間を示した区間メタデータと、を取得するメタ取得部と、
前記区間メタデータを利用し、再生されている動画フレームに含まれる全ての対象物の画像又は関連情報を表示する情報表示部と、
前記対象物の画像又は関連情報がユーザにより選択された場合に、前記区間メタデータを利用して、選択された画像又は関連情報に対応する対象物の登場区間を特定し、当該登場区間に含まれる動画フレームを再生させる再生制御部と、
前記領域メタデータを利用して、再生されている動画フレーム内でユーザが指定した位置に存在する対象物を認識する領域認識部と、
を備え、
前記情報表示部は、前記領域認識部により対象物の存在が認識された場合に、前記区間メタデータを利用して、当該対象物が登場する各区間に対応する情報を表示する、
情報処理装置。