JP5533861B2

JP5533861B2 - 表示制御装置、表示制御方法、及び、プログラム

Info

Publication number: JP5533861B2
Application number: JP2011511378A
Authority: JP
Inventors: 洋貴鈴木
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-04-30
Filing date: 2010-04-22
Publication date: 2014-06-25
Anticipated expiration: 2030-04-22
Also published as: CN102077580A; CN101877060A; JPWO2010125962A1; CN101877060B; WO2010125962A1; RU2010154157A; US8457469B2; EP2426917A1; US20120033933A1; RU2494566C2; EP2246807A1; CN102077580B; EP2426917A4

Description

本発明は、表示制御装置、表示制御方法、及び、プログラムに関し、特に、例えば、コンテンツの概要を、容易に把握することができるようにする表示制御装置、表示制御方法、及び、プログラムに関する。

近年、テレビジョン放送の他、例えば、YouTube等のサイトで、多数の動画のコンテンツが配信されている。このため、コンテンツを視聴するユーザにとって、各コンテンツが、視聴する価値があるのかどうかを判断するために、コンテンツの（内容の）概要を、容易に把握する手法の重要性が高まっている。

コンテンツの概要を把握する手法としては、コンテンツのサムネイルを表示する方法がある。

コンテンツのサムネイルを表示する方法としては、例えば、コンテンツの画像の、一定間隔ごとのフレーム等の所定のフレームを検出し、そのフレームを縮小したサムネイルを生成して表示する方法がある。

また、コンテンツのサムネイルを表示する方法としては、例えば、コマーシャルと、本来の番組（新聞の番組欄に掲載される番組）との切り替わりや、画像に映る人物や物体の切り替わり等を、シーンチェンジとして検出し、そのシーンチェンジの直後のフレームを縮小したサムネイルを生成して表示する方法がある（例えば、特許文献１を参照）。

さらに、コンテンツのサムネイルを表示する方法としては、タイトル単位で、そのタイトル（コンテンツ）を代表する画像を縮小したサムネイルを生成して表示する方法がある（例えば、特許文献２を参照）。

なお、コンテンツの画像の、一定間隔ごとのフレームのサムネイルを表示する方法では、同じようなサムネイル画像が、連続して表示されることがある。

また、シーンチェンジとして検出し、そのシーンチェンジの直後のフレームのサムネイルを表示する方法では、検出しようとするシーンチェンジごとに、そのシーンチェンジを検出するためのアルゴリズムを用意する必要がある。

すなわち、例えば、コマーシャルと本来の番組との切り替わりを、シーンチェンジとして検出するには、そのためのシーンチェンジ検出のアルゴリズムを用意する必要があり、画像に映る人物や物体の切り替わりを、シーンチェンジとして検出するには、やはり、そのためのシーンチェンジ検出のアルゴリズムを用意する必要がある。

さらに、タイトル単位で、サムネイルを表示する方法では、タイトル単位のサムネイルだけでは、コンテンツの概要を把握することが困難なことがある。

特開2008-312183号公報特開2009-047721号公報

以上のように、サムネイルを表示する方法としては、各種の方法が提案されているが、今後提供されるコンテンツがさらに増加することが予想される中で、新たなサムネイルの表示方法の提案が要請されている。

本発明は、このような状況に鑑みてなされたものであり、新たなサムネイルの表示方法を提供し、これにより、コンテンツの概要を、容易に把握することができるようにするものである。

本発明の一側面の表示制御装置、又は、プログラムは、状態と状態遷移とを有する状態遷移モデルを用いて、コンテンツの各フレームを、複数の前記状態のそれぞれに対応する複数のクラスタのそれぞれのうちのいずれかのクラスタにクラスタリングするクラスタリング手段と、前記複数のクラスタそれぞれについて、前記クラスタに属するフレームを、時間的に連続する１フレーム以上のフレームの集まりであるシーンに区分するシーン区分手段と、前記シーンのサムネイルを作成するサムネイル作成手段と、前記状態遷移モデルの１つの状態から他の１つの状態への状態間距離を、前記１つの状態から前記他の１つの状態への状態遷移の状態遷移確率に基づいて求め、状態を配置した２次元のマップであるモデルマップ上の、前記１つの状態から前記他の１つの状態へのユークリッド距離と、前記状態間距離との誤差が小さくなるように、前記モデルマップ上の前記状態の位置の座標である状態座標を求め、前記状態座標の位置に、対応する前記状態を配置した前記モデルマップを生成し、前記モデルマップの各状態の位置に、その状態に対応するクラスタに属するフレームを有するシーンのサムネイルを配置して表示する2Dマップ表示の表示制御を行う表示制御手段とを備える表示制御装置、又は、表示制御装置として、コンピュータを機能させるためのプログラムである。

本発明の一側面の表示制御方法は、表示制御装置が、状態と状態遷移とを有する状態遷移モデルを用いて、コンテンツの各フレームを、複数の前記状態のそれぞれに対応する複数のクラスタのそれぞれのうちのいずれかのクラスタにクラスタリングし、前記複数のクラスタそれぞれについて、前記クラスタに属するフレームを、時間的に連続する１フレーム以上のフレームの集まりであるシーンに区分し、前記シーンのサムネイルを作成し、前記状態遷移モデルの１つの状態から他の１つの状態への状態間距離を、前記１つの状態から前記他の１つの状態への状態遷移の状態遷移確率に基づいて求め、状態を配置した２次元のマップであるモデルマップ上の、前記１つの状態から前記他の１つの状態へのユークリッド距離と、前記状態間距離との誤差が小さくなるように、前記モデルマップ上の前記状態の位置の座標である状態座標を求め、前記状態座標の位置に、対応する前記状態を配置した前記モデルマップを生成し、前記モデルマップの各状態の位置に、その状態に対応するクラスタに属するフレームを有するシーンのサムネイルを配置して表示する2Dマップ表示の表示制御を行うステップを含む表示制御方法である。

本発明の一側面においては、状態と状態遷移とを有する状態遷移モデルが用いられて、コンテンツの各フレームが、複数の前記状態のそれぞれに対応する複数のクラスタのそれぞれのうちのいずれかのクラスタにクラスタリングされ、前記複数のクラスタそれぞれについて、前記クラスタに属するフレームが、時間的に連続する１フレーム以上のフレームの集まりであるシーンに区分される。そして、前記状態遷移モデルの１つの状態から他の１つの状態への状態間距離が、前記１つの状態から前記他の１つの状態への状態遷移の状態遷移確率に基づいて求められ、状態を配置した２次元のマップであるモデルマップ上の、前記１つの状態から前記他の１つの状態へのユークリッド距離と、前記状態間距離との誤差が小さくなるように、前記モデルマップ上の前記状態の位置の座標である状態座標が求められ、前記状態座標の位置に、対応する前記状態を配置した前記モデルマップが生成され、前記モデルマップの各状態の位置に、その状態に対応するクラスタに属するフレームを有するシーンのサムネイルを配置して表示する2Dマップ表示の表示制御が行われる。

なお、表示制御装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。

本発明の一側面によれば、コンテンツの概要を、容易に把握することができる。

本発明を適用したレコーダの一実施の形態の構成例を示すブロック図である。コンテンツモデル学習部１２の構成例を示すブロック図である。 HMMの例を示す図である。 HMMの例を示す図である。 HMMの例を示す図である。 HMMの例を示す図である。特徴量抽出部２２による特徴量の抽出の処理を説明する図である。コンテンツモデル学習処理を説明するフローチャートである。コンテンツ構造提示部１４の構成例を示すブロック図である。コンテンツ構造提示処理の概要を説明する図である。モデルマップの例を示す図である。モデルマップの例を示す図である。コンテンツ構造提示部１４によるコンテンツ構造提示処理を説明するフローチャートである。ダイジェスト生成部１５の構成例を示すブロック図である。ハイライト検出器学習部５１の構成例を示すブロック図である。ハイライトラベル生成部６５の処理を説明する図である。ハイライト検出器学習部５１によるハイライト検出器学習処理を説明するフローチャートである。ハイライト検出部５３の構成例を示すブロック図である。ダイジェストコンテンツ生成部７９が生成するダイジェストコンテンツの例を説明する図である。ハイライト検出部５３によるハイライト検出処理を説明するフローチャートである。ハイライトシーン検出処理を説明するフローチャートである。スクラップブック生成部１６の構成例を示すブロック図である。初期スクラップブック生成部１０１の構成例を示すブロック図である。ユーザがモデルマップ上の状態を指定するための、ユーザインターフェースの例を示す図である。初期スクラップブック生成部１０１による初期スクラップブック生成処理を説明するフローチャートである。登録スクラップブック生成部１０３の構成例を示すブロック図である。登録スクラップブック生成部１０３による登録スクラップブック生成処理を説明するフローチャートである。登録スクラップブック生成処理を説明する図である。サーバクライアントシステムの第１の構成例を示すブロック図である。サーバクライアントシステムの第２の構成例を示すブロック図である。サーバクライアントシステムの第３の構成例を示すブロック図である。サーバクライアントシステムの第４の構成例を示すブロック図である。サーバクライアントシステムの第５の構成例を示すブロック図である。サーバクライアントシステムの第６の構成例を示すブロック図である。本発明を適用したレコーダの他の実施の形態の構成例を示すブロック図である。コンテンツモデル学習部２０１の構成例を示すブロック図である。音声特徴量抽出部２２１による特徴量の抽出の処理を説明する図である。音声特徴量抽出部２２１による特徴量の抽出の処理を説明する図である。対象物特徴量抽出部２２４による特徴量の抽出の処理を説明する図である。コンテンツモデル学習部２０１による音声コンテンツモデル学習処理を説明するフローチャートである。コンテンツモデル学習部２０１による対象物コンテンツモデル学習処理を説明するフローチャートである。ダイジェスト生成部２０４の構成例を示すブロック図である。ハイライト検出器学習部２９１の構成例を示すブロック図である。ハイライト検出器学習部２９１によるハイライト検出器学習処理を説明するフローチャートである。ハイライト検出部２９３の構成例を示すブロック図である。ハイライト検出部２９３によるハイライト検出処理を説明するフローチャートである。スクラップブック生成部２０３の構成例を示すブロック図である。初期スクラップブック生成部３７１の構成例を示すブロック図である。ユーザがモデルマップ上の状態を指定するための、ユーザインターフェースの例を示す図である。登録スクラップブック生成部３７３の構成例を示すブロック図である。登録スクラップブック生成部３７３による登録スクラップブック生成処理を説明するフローチャートである。登録スクラップブック生成処理を説明する図である。本発明を適用した表示システムの一実施の形態の構成例を示すブロック図である。サムネイル表示制御の処理を説明するフローチャートである。クラスタリング部６１１の構成例を示すブロック図である。 2Dマップの表示例を示す図である。 2Dマップの他の表示例を示す図である。 2Dマップのさらに他の表示例を示す図である。ステート表示の表示例を示す図である。ステート表示の他の表示例を示す図である。２ペイン表示の表示例を示す図である。５ペイン表示の表示例を示す図である。時系列表示の表示例を示す図である。フラット表示の表示例を示す図である。クラスタリングモデルがHMMである場合のクラスタリングモデルの学習の処理を説明するフローチャートである。クラスタリングモデルがHMMである場合のクラスタリングの処理を説明するフローチャートである。 HMMをクラスタリングモデルとして採用した場合のクラスタリングを表現するグラフィカルモデルを示す図である。クラスタリングモデルが新ベクトル量子化モデルである場合のクラスタリングモデルの学習の処理を説明するフローチャートである。クラスタリングモデルが新ベクトル量子化モデルである場合のクラスタリングの処理を説明するフローチャートである。新ベクトル量子化モデルをクラスタリングモデルとして採用した場合のクラスタリングを表現するグラフィカルモデルを示す図である。クラスタリングモデルが新GMMである場合のクラスタリングの処理を説明するフローチャートである。新GMMをクラスタリングモデルとして採用した場合のクラスタリングを表現するグラフィカルモデルを示す図である。本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

＜ハイライトシーン用情報処理装置＞

まず、ユーザの興味があるシーンを、ハイライトシーンとして集めたダイジェストを、容易に得ることができるようにするハイライトシーン用情報処理装置について説明する。

例えば、映画やテレビジョン放送の番組等のコンテンツから、ハイライトシーンを検出するハイライトシーン検出技術としては、エキスパート（設計者）の経験や知識を利用する技術や、学習サンプルを用いた統計学習を利用する技術等がある。

エキスパートの経験や知識を利用する技術では、ハイライトシーンで生じるイベントを検出する検出器や、そのイベントから定義されるシーン（イベントが生じるシーン）を検出する検出器が、エキスパートの経験や知識に基づいて設計される。そして、それらの検出器を用いて、ハイライトシーンが検出される。

学習サンプルを用いた統計学習を利用する技術では、学習サンプルを用いて、ハイライトシーンを検出する検出器（ハイライト検出器）や、ハイライトシーンで生じるイベントを検出する検出器（イベント検出器）が求められる。そして、それらの検出器を用いて、ハイライトシーンが検出される。

また、ハイライトシーン検出技術では、コンテンツの画像や音声の特徴量を抽出し、その特徴量を用いて、ハイライトシーンが検出される。この、ハイライトシーンの検出のための特徴量としては、一般に、ハイライトシーンを検出する対象のコンテンツのジャンルに特化した特徴量が用いられる。

例えば、Wangら、及びDuanらのハイライトシーン検出技術では、サッカーの試合のビデオから、サッカーフィールドのライン、サッカーボールの軌跡、画面全体の動き、音声のMFCC(Mel-Frequency Cepstrum Coefficient)を利用した、イベント「ホイッスル」や「喝采」等を検出するための高次の特徴量を抽出し、それらを組み合わせた特徴量を用いて、「攻撃」や「ファウル」等の、サッカーのプレーシーンの検出を行っている。

また、例えば、Wangらは、サッカーの試合のビデオから、カラーヒストグラム特徴量を用いたビュータイプ分類器、ライン検出器を用いたプレーロケーション同定器、リプレイロゴ検出器、司会興奮度検出器、ホイッスル検出器等を設計し、それらの時間的な関係をベイジアンネットワークによりモデル化し、サッカーハイライト検出器を構成するハイライトシーン検出技術を提案している。

ハイライトシーン検出技術としては、その他、例えば、特開2008-185626号公報（以下、文献１ともいう）において、音の盛り上がり（歓声）を特徴付ける特徴量を用いて、コンテンツのハイライトシーンを検出する技術が提案されている。

以上のハイライトシーン検出技術は、特定のジャンルのコンテンツについては、ハイライトシーン（又は、イベント）を検出することができるが、他のジャンルのコンテンツについては、ハイライトシーンとして適切なシーンを検出することが困難となる。

すなわち、例えば、文献１に記載のハイライトシーン検出技術では、歓声があるシーンが、ハイライトシーンであるというルールの下で、ハイライトシーンが検出されるが、歓声があるシーンが、ハイライトシーンとなるコンテンツのジャンルは、限られている。そして、文献１に記載のハイライトシーン検出技術では、歓声がないシーンをハイライトシーンとするジャンルのコンテンツを対象として、ハイライトシーンを検出することは、困難である。

したがって、文献１に記載のハイライトシーン検出技術等によって、特定のジャンル以外のジャンルのコンテンツを対象として、ハイライトシーンの検出を行うには、そのジャンルに適した特徴量を設計する必要がある。さらに、その特徴量を用いたハイライトシーンの検出（又は、イベントの定義）のためのルールデザインを、エキスパートへのインタビュー等に基づいて行う必要がある。

そこで、例えば、特開2000-299829号公報（以下、文献２ともいう）では、一般的にハイライトシーンとされるシーンの検出に用いることができる特徴量と閾値を設計し、その特徴量と閾値とを用いた閾値処理によりハイライトシーンを検出する方法が提案されている。

しかしながら、近年においては、コンテンツが多様化しており、すべてのコンテンツについて、ハイライトシーンとして適切なシーンを検出するための、例えば、特徴量や、閾値処理のルール等の一般的なルールを求めることは、極めて困難となっている。

したがって、ハイライトシーンとして適切なシーンを検出するには、例えば、ジャンル等ごとに、そのジャンルに適した、ハイライトシーンを検出するための特徴量やルールを設計（デザイン）する必要がある。但し、そのようなルールを設計した場合でも、そのルールからはずれるような、いわば例外的なハイライトシーンを検出することは困難となる。

例えば、サッカーの試合のゴールシーン等の、スポーツの試合等のコンテンツについて、一般的にハイライトシーンと呼ばれているシーンについては、そのシーンを検出するルールを、エキスパートの知識を用いて精密高精度に設計することが可能である。

しかしながら、ユーザの嗜好は、ユーザごとに、多種多様である。すなわち、例えば、「ベンチの監督が映っているシーン」や、「野球の１塁走者への牽制のシーン」、「クイズ番組の問題と答えのシーン」等のそれぞれを好む別々のユーザが存在する。この場合に、それらのユーザすべての嗜好それぞれに適したルールを、個別に設計し、ハイライトシーンを検出するAV(Audio Visual)機器等の検出システムに組み込むことは、現実的ではない。

一方、ユーザが、検出システムに組み込まれた固定のルールに従って検出されるハイライトシーンを集めたダイジェストを視聴するのではなく、検出システムが、個々のユーザの嗜好を学習し、その嗜好にあったシーン（ユーザの興味があるシーン）を、ハイライトシーンとして検出して、そのようなハイライトシーンを集めたダイジェストを提供することで、コンテンツの視聴の、いわば「個人化」が実現され、コンテンツの楽しみ方が広がっていく。

ハイライトシーン用情報処理装置は、このような状況に鑑みてなされたものであり、ユーザの興味があるシーンを、ハイライトシーンとして集めたダイジェストを、容易に得ることができるようにするものである。

第１に、ハイライトシーン用情報処理装置は、
ユーザの興味があるシーンを、ハイライトシーンとして検出するためのモデルであるハイライト検出器の学習に用いるコンテンツである注目検出器学習用コンテンツの画像の各フレームの特徴量を抽出する特徴量抽出手段と、
状態が遷移する状態遷移確率と、前記状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習に用いるコンテンツである学習用コンテンツの画像の各フレームの特徴量を抽出し、
前記学習用コンテンツの前記特徴量を用いて、前記状態遷移確率モデルの学習を行う
ことにより得られる、前記学習後の状態遷移確率モデルであるコンテンツモデルにおいて、前記注目検出器学習用コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定する最尤状態系列推定手段と、
ユーザの操作に従い、前記ハイライトシーンであるか否かを表すハイライトラベルを、前記注目検出器学習用コンテンツの各フレームにラベリングすることにより、前記注目検出器学習用コンテンツについて、ハイライトラベル系列を生成するハイライトラベル生成手段と、
前記注目検出器学習用コンテンツから得られる前記最尤状態系列と、前記ハイライトラベル系列とのペアである学習用ラベル系列を用いて、状態遷移確率モデルである前記ハイライト検出器の学習を行うハイライト検出器の学習手段と
を備える情報処理装置である。

第２に、ハイライトシーン用情報処理装置は、
ハイライトシーンを検出する対象のコンテンツである注目ハイライト検出用コンテンツの画像の各フレームの特徴量を抽出し、
前記コンテンツモデルにおいて、前記注目ハイライト検出用コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定し、
前記ハイライト検出器において、前記注目ハイライト検出用コンテンツから得られる前記最尤状態系列と、ハイライトシーンであること又はハイライトシーンでないことを表すハイライトラベルのハイライトラベル系列とのペアである検出用ラベル系列が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定し、
前記検出用ラベル系列から得られる前記最尤状態系列であるハイライト関係状態系列の各状態の前記ハイライトラベルの観測確率に基づいて、前記注目ハイライト検出用コンテンツから、ハイライトシーンのフレームを検出し、
前記ハイライトシーンのフレームを用いて、前記注目ハイライト検出用コンテンツのダイジェストであるダイジェストコンテンツを生成する
ハイライト検出手段
を、さらに備える
第１のハイライトシーン用情報処理装置である。

第３に、ハイライトシーン用情報処理装置は、
前記ハイライト検出手段は、前記ハイライト関係状態系列の所定の時刻の状態における、ハイライトシーンであることを表すハイライトラベルの観測確率と、ハイライトシーンでないことを表すハイライトラベルの観測確率との差分が、所定の閾値より大である場合、前記所定の時刻の状態に対応する、前記注目ハイライト検出用コンテンツのフレームを、ハイライトシーンのフレームとして検出する
第２のハイライトシーン用情報処理装置である。

第４に、ハイライトシーン用情報処理装置は、
コンテンツの画像の各フレームの特徴量を抽出し、
前記コンテンツモデルにおいて、前記コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定し、
前記最尤状態系列の状態のうちの、ユーザによって指示された状態と一致する状態に対応するフレームを、前記コンテンツから抽出し、
前記ハイライトシーンを登録するスクラップブックに、前記コンテンツから抽出されたフレームを登録する
スクラップブック生成手段
を、さらに備える
第１のハイライトシーン用情報処理装置である。

第５に、ハイライトシーン用情報処理装置は、
前記コンテンツモデルの１つの状態から他の１つの状態への状態間距離を、前記１つの状態から前記他の１つの状態への状態遷移確率に基づいて求める状態間距離算出手段と、
前記コンテンツモデルの状態が配置される２次元又は３次元のマップであるモデルマップ上の、前記１つの状態から前記他の１つの状態へのユークリッド距離と、前記状態間距離との誤差が小さくなるように、前記モデルマップ上の前記状態の位置の座標である状態座標を求める座標算出手段と、
前記状態座標の位置に、対応する前記状態を配置した前記モデルマップを表示する表示制御を行う表示制御手段と
を、さらに備える
第１のハイライトシーン用情報処理装置である。

第６に、ハイライトシーン用情報処理装置は、
前記座標算出手段は、
前記ユークリッド距離と、前記状態間距離との統計的な誤差に比例するSammon Mapのエラー関数を最小にするように、前記状態座標を求め、
前記１つの状態から前記他の１つの状態へのユークリッド距離が、所定の閾値より大である場合、前記１つの状態から前記他の１つの状態へのユークリッド距離を、前記１つの状態から前記他の１つの状態への前記状態間距離に等しい距離にして、前記エラー関数の計算を行う
第５のハイライトシーン用情報処理装置である。

第７に、ハイライトシーン用情報処理装置は、
コンテンツの画像の各フレームの特徴量を抽出し、
前記コンテンツモデルにおいて、前記コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定し、
前記最尤状態系列の状態のうちの、ユーザによって指示された、前記モデルマップ上の状態と一致する状態に対応するフレームを、前記コンテンツから抽出し、
前記ハイライトシーンを登録するスクラップブックに、前記コンテンツから抽出されたフレームを登録する
スクラップブック生成手段
を、さらに備える
第５のハイライトシーン用情報処理装置である。

第８に、ハイライトシーン用情報処理装置は、
前記フレームの特徴量は、
前記フレームを、複数の小領域であるサブ領域に分割し、
前記複数のサブ領域のそれぞれの特徴量を抽出し、
前記複数のサブ領域それぞれの特徴量を結合する
ことにより求められる
第１のハイライトシーン用情報処理装置である。

第９に、ハイライトシーン用情報処理装置は、
前記フレームの特徴量は、
前記フレームに対応する所定の時間内における音声のエネルギー、ゼロ交差レート、またはスペクトル重心における平均値、および分散を結合する
ことにより求められる
第１のハイライトシーン用情報処理装置である。

第１０に、ハイライトシーン用情報処理装置は、
前記フレームの特徴量は、
前記フレーム内の対象物の表示領域を検出し、
前記フレームを、複数の小領域であるサブ領域に分割し、
前記複数のサブ領域のそれぞれのピクセル数に対する、前記サブ領域における前記対象物の表示領域のピクセル数の割合を特徴量として抽出し、
前記複数のサブ領域それぞれの特徴量を結合する
ことにより求められる
第１のハイライトシーン用情報処理装置である。

第１１に、ハイライトシーン用情報処理装置は、
前記学習用コンテンツの前記特徴量を用いて、前記状態遷移確率モデルの学習を行うことにより、前記コンテンツモデルを生成するコンテンツモデル学習手段
を、さらに備える
第１のハイライトシーン用情報処理装置である。

第１２に、ハイライトシーン用情報処理装置の情報処理方法は、
情報処理装置が、
ユーザの興味があるシーンを、ハイライトシーンとして検出するためのモデルであるハイライト検出器の学習に用いるコンテンツである注目検出器学習用コンテンツの画像の各フレームの特徴量を抽出する特徴量抽出ステップと、
状態が遷移する状態遷移確率と、前記状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習に用いるコンテンツである学習用コンテンツの画像の各フレームの特徴量を抽出し、
前記学習用コンテンツの前記特徴量を用いて、前記状態遷移確率モデルの学習を行う
ことにより得られる、前記学習後の状態遷移確率モデルであるコンテンツモデルにおいて、前記注目検出器学習用コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定する最尤状態系列推定ステップと、
ユーザの操作に従い、前記ハイライトシーンであるか否かを表すハイライトラベルを、前記注目検出器学習用コンテンツの各フレームにラベリングすることにより、前記注目検出器学習用コンテンツについて、ハイライトラベル系列を生成するハイライトラベル生成ステップと、
前記注目検出器学習用コンテンツから得られる前記最尤状態系列と、前記ハイライトラベル系列とのペアである学習用ラベル系列を用いて、状態遷移確率モデルである前記ハイライト検出器の学習を行うハイライト検出器の学習ステップと
を含む情報処理方法である。

第１３に、コンピュータを、ハイライトシーン用情報処理装置として機能させるためのプログラムは、
ユーザの興味があるシーンを、ハイライトシーンとして検出するためのモデルであるハイライト検出器の学習に用いるコンテンツである注目検出器学習用コンテンツの画像の各フレームの特徴量を抽出する特徴量抽出手段と、
状態が遷移する状態遷移確率と、前記状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習に用いるコンテンツである学習用コンテンツの画像の各フレームの特徴量を抽出し、
前記学習用コンテンツの前記特徴量を用いて、前記状態遷移確率モデルの学習を行う
ことにより得られる、前記学習後の状態遷移確率モデルであるコンテンツモデルにおいて、前記注目検出器学習用コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定する最尤状態系列推定手段と、
ユーザの操作に従い、前記ハイライトシーンであるか否かを表すハイライトラベルを、前記注目検出器学習用コンテンツの各フレームにラベリングすることにより、前記注目検出器学習用コンテンツについて、ハイライトラベル系列を生成するハイライトラベル生成手段と、
前記注目検出器学習用コンテンツから得られる前記最尤状態系列と、前記ハイライトラベル系列とのペアである学習用ラベル系列を用いて、状態遷移確率モデルである前記ハイライト検出器の学習を行うハイライト検出器の学習手段と
して、コンピュータを機能させるためのプログラムである。

第１４に、ハイライトシーン用情報処理装置は、
ユーザの興味があるシーンを、ハイライトシーンとして検出するためのモデルであるハイライト検出器の学習に用いるコンテンツである注目検出器学習用コンテンツの画像の各フレームの特徴量を抽出し、
状態が遷移する状態遷移確率と、前記状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習に用いるコンテンツである学習用コンテンツの画像の各フレームの特徴量を抽出し、
前記学習用コンテンツの前記特徴量を用いて、前記状態遷移確率モデルの学習を行う
ことにより得られる、前記学習後の状態遷移確率モデルであるコンテンツモデルにおいて、前記注目検出器学習用コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定し、
ユーザの操作に従い、前記ハイライトシーンであるか否かを表すハイライトラベルを、前記注目検出器学習用コンテンツの各フレームにラベリングすることにより、前記注目検出器学習用コンテンツについて、ハイライトラベル系列を生成し、
前記注目検出器学習用コンテンツから得られる前記最尤状態系列と、前記ハイライトラベル系列とのペアである学習用ラベル系列を用いて、状態遷移確率モデルである前記ハイライト検出器の学習を行う
ことにより得られる前記ハイライト検出器を取得する取得手段と、
ハイライトシーンを検出する対象のコンテンツである注目ハイライト検出用コンテンツの画像の各フレームの特徴量を抽出する特徴量抽出手段と、
前記コンテンツモデルにおいて、前記注目ハイライト検出用コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定する第１の最尤状態系列推定手段と、
前記ハイライト検出器において、前記注目ハイライト検出用コンテンツから得られる前記最尤状態系列と、ハイライトシーンであること又はハイライトシーンでないことを表すハイライトラベルのハイライトラベル系列とのペアである検出用ラベル系列が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定する第２の最尤状態系列推定手段と、
前記検出用ラベル系列から得られる前記最尤状態系列であるハイライト関係状態系列の各状態の前記ハイライトラベルの観測確率に基づいて、前記注目ハイライト検出用コンテンツから、ハイライトシーンのフレームを検出するハイライトシーン検出手段と、
前記ハイライトシーンのフレームを用いて、前記注目ハイライト検出用コンテンツのダイジェストであるダイジェストコンテンツを生成するダイジェストコンテンツ生成手段と
を備える情報処理装置である。

第１５に、ハイライトシーン用情報処理装置は、
前記ハイライトシーン検出手段は、前記ハイライト関係状態系列の所定の時刻の状態における、ハイライトシーンであることを表すハイライトラベルの観測確率と、ハイライトシーンでないことを表すハイライトラベルの観測確率との差分が、所定の閾値より大である場合、前記所定の時刻の状態に対応する、前記注目ハイライト検出用コンテンツのフレームを、ハイライトシーンのフレームとして検出する
第１４のハイライトシーン用情報処理装置である。

第１６に、ハイライトシーン用情報処理装置は、
コンテンツの画像の各フレームの特徴量を抽出し、
前記コンテンツモデルにおいて、前記コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定し、
前記最尤状態系列の状態のうちの、ユーザによって指示された状態と一致する状態に対応するフレームを、前記コンテンツから抽出し、
前記ハイライトシーンを登録するスクラップブックに、前記コンテンツから抽出されたフレームを登録する
スクラップブック生成手段
を、さらに備える
第１４のハイライトシーン用情報処理装置である。

第１７に、ハイライトシーン用情報処理装置は、
前記コンテンツモデルの１つの状態から他の１つの状態への状態間距離を、前記１つの状態から前記他の１つの状態への状態遷移確率に基づいて求める状態間距離算出手段と、
前記コンテンツモデルの状態が配置される２次元又は３次元のマップであるモデルマップ上の、前記１つの状態から前記他の１つの状態へのユークリッド距離と、前記状態間距離との誤差が小さくなるように、前記モデルマップ上の前記状態の位置の座標である状態座標を求める座標算出手段と、
前記状態座標の位置に、対応する前記状態を配置した前記モデルマップを表示する表示制御を行う表示制御手段と
を、さらに備える
第１４のハイライトシーン用情報処理装置である。

第１８に、ハイライトシーン用情報処理装置は、
前記座標算出手段は、
前記ユークリッド距離と、前記状態間距離との統計的な誤差に比例するSammon Mapのエラー関数を最小にするように、前記状態座標を求め、
前記１つの状態から前記他の１つの状態へのユークリッド距離が、所定の閾値より大である場合、前記１つの状態から前記他の１つの状態へのユークリッド距離を、前記１つの状態から前記他の１つの状態への前記状態間距離に等しい距離にして、前記エラー関数の計算を行う
第１７のハイライトシーン用情報処理装置である。

第１９に、ハイライトシーン用情報処理装置は、
コンテンツの画像の各フレームの特徴量を抽出し、
前記コンテンツモデルにおいて、前記コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定し、
前記最尤状態系列の状態のうちの、ユーザによって指示された、前記モデルマップ上の状態と一致する状態に対応するフレームを、前記コンテンツから抽出し、
前記ハイライトシーンを登録するスクラップブックに、前記コンテンツから抽出されたフレームを登録する
スクラップブック生成手段
を、さらに備える
第１７のハイライトシーン用情報処理装置である。

第２０に、ハイライトシーン用情報処理装置は、
前記フレームの特徴量は、
前記フレームを、複数の小領域であるサブ領域に分割し、
前記複数のサブ領域のそれぞれの特徴量を抽出し、
前記複数のサブ領域それぞれの特徴量を結合する
ことにより求められる
第１４のハイライトシーン用情報処理装置である。

第２１に、ハイライトシーン用情報処理装置は、
前記フレームの特徴量は、
前記フレームに対応する所定の時間内における音声のエネルギー、ゼロ交差レート、またはスペクトル重心における平均値、および分散を結合する
ことにより求められる
第１４のハイライトシーン用情報処理装置である。

第２２に、ハイライトシーン用情報処理装置は、
前記フレームの特徴量は、
前記フレーム内の対象物の表示領域を検出し、
前記フレームを、複数の小領域であるサブ領域に分割し、
前記複数のサブ領域のそれぞれのピクセル数に対する、前記サブ領域における前記対象物の表示領域のピクセル数の割合を特徴量として抽出し、
前記複数のサブ領域それぞれの特徴量を結合する
ことにより求められる
第１４のハイライトシーン用情報処理装置である。

第２３に、ハイライトシーン用情報処理装置の情報処理方法は、
情報処理装量が、
ユーザの興味があるシーンを、ハイライトシーンとして検出するためのモデルであるハイライト検出器の学習に用いるコンテンツである注目検出器学習用コンテンツの画像の各フレームの特徴量を抽出し、
状態が遷移する状態遷移確率と、前記状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習に用いるコンテンツである学習用コンテンツの画像の各フレームの特徴量を抽出し、
前記学習用コンテンツの前記特徴量を用いて、前記状態遷移確率モデルの学習を行う
ことにより得られる、前記学習後の状態遷移確率モデルであるコンテンツモデルにおいて、前記注目検出器学習用コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定し、
ユーザの操作に従い、前記ハイライトシーンであるか否かを表すハイライトラベルを、前記注目検出器学習用コンテンツの各フレームにラベリングすることにより、前記注目検出器学習用コンテンツについて、ハイライトラベル系列を生成し、
前記注目検出器学習用コンテンツから得られる前記最尤状態系列と、前記ハイライトラベル系列とのペアである学習用ラベル系列を用いて、状態遷移確率モデルである前記ハイライト検出器の学習を行う
ことにより得られる前記ハイライト検出器を取得する取得ステップと、
ハイライトシーンを検出する対象のコンテンツである注目ハイライト検出用コンテンツの画像の各フレームの特徴量を抽出する特徴量抽出ステップと、
前記コンテンツモデルにおいて、前記注目ハイライト検出用コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定する第１の最尤状態系列推定ステップと、
前記ハイライト検出器において、前記注目ハイライト検出用コンテンツから得られる前記最尤状態系列と、ハイライトシーンであること又はハイライトシーンでないことを表すハイライトラベルのハイライトラベル系列とのペアである検出用ラベル系列が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定する第２の最尤状態系列推定ステップと、
前記検出用ラベル系列から得られる前記最尤状態系列であるハイライト関係状態系列の各状態の前記ハイライトラベルの観測確率に基づいて、前記注目ハイライト検出用コンテンツから、ハイライトシーンのフレームを検出するハイライトシーン検出ステップと、
前記ハイライトシーンのフレームを用いて、前記注目ハイライト検出用コンテンツのダイジェストであるダイジェストコンテンツを生成するダイジェストコンテンツ生成ステップと
を含む情報処理方法である。

第２４に、コンピュータを、ハイライトシーン用情報処理装置として機能させるためのプログラムは、
ユーザの興味があるシーンを、ハイライトシーンとして検出するためのモデルであるハイライト検出器の学習に用いるコンテンツである注目検出器学習用コンテンツの画像の各フレームの特徴量を抽出し、
状態が遷移する状態遷移確率と、前記状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習に用いるコンテンツである学習用コンテンツの画像の各フレームの特徴量を抽出し、
前記学習用コンテンツの前記特徴量を用いて、前記状態遷移確率モデルの学習を行う
ことにより得られる、前記学習後の状態遷移確率モデルであるコンテンツモデルにおいて、前記注目検出器学習用コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定し、
ユーザの操作に従い、前記ハイライトシーンであるか否かを表すハイライトラベルを、前記注目検出器学習用コンテンツの各フレームにラベリングすることにより、前記注目検出器学習用コンテンツについて、ハイライトラベル系列を生成し、
前記注目検出器学習用コンテンツから得られる前記最尤状態系列と、前記ハイライトラベル系列とのペアである学習用ラベル系列を用いて、状態遷移確率モデルである前記ハイライト検出器の学習を行う
ことにより得られる前記ハイライト検出器を取得する取得手段と、
ハイライトシーンを検出する対象のコンテンツである注目ハイライト検出用コンテンツの画像の各フレームの特徴量を抽出する特徴量抽出手段と、
前記コンテンツモデルにおいて、前記注目ハイライト検出用コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定する第１の最尤状態系列推定手段と、
前記ハイライト検出器において、前記注目ハイライト検出用コンテンツから得られる前記最尤状態系列と、ハイライトシーンであること又はハイライトシーンでないことを表すハイライトラベルのハイライトラベル系列とのペアである検出用ラベル系列が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定する第２の最尤状態系列推定手段と、
前記検出用ラベル系列から得られる前記最尤状態系列であるハイライト関係状態系列の各状態の前記ハイライトラベルの観測確率に基づいて、前記注目ハイライト検出用コンテンツから、ハイライトシーンのフレームを検出するハイライトシーン検出手段と、
前記ハイライトシーンのフレームを用いて、前記注目ハイライト検出用コンテンツのダイジェストであるダイジェストコンテンツを生成するダイジェストコンテンツ生成手段と
して、コンピュータを機能させるためのプログラムである。

［本発明の情報処理装置を適用したレコーダの一実施の形態］

図１は、本発明の情報処理装置を適用したレコーダの一実施の形態の構成例を示すブロック図である。

図１のレコーダは、例えば、HD(Hard Disk)レコーダ等であり、テレビジョン放送の番組や、インターネット等のネットワークを介して提供されるコンテンツ、ビデオカメラ等で撮影したコンテンツ等の各種のコンテンツを録画（記録）（記憶）することができる。

すなわち、図１において、レコーダは、コンテンツ記憶部１１、コンテンツモデル学習部１２、モデル記憶部１３、コンテンツ構造提示部１４、ダイジェスト生成部１５、及び、スクラップブック生成部１５から構成される。

コンテンツ記憶部１１は、例えば、テレビジョン放送の番組等のコンテンツを記憶（記録）する。コンテンツ記憶部１１へのコンテンツの記憶が、そのコンテンツの録画となり、その録画がされたコンテンツ（コンテンツ記憶部１１に記憶されたコンテンツ）は、例えば、ユーザの操作に応じて再生される。

コンテンツモデル学習部１２は、コンテンツ記憶部１１に記憶されたコンテンツを、所定の特徴量空間において自己組織的に構造化し、コンテンツの構造（時空間構造）を表すモデル（以下、コンテンツモデルともいう）を求める学習（統計学習）を行う。コンテンツモデル学習部１２は、学習の結果得られるコンテンツモデルを、モデル記憶部１３に供給する。

モデル記憶部１３は、コンテンツモデル学習部１２から供給されるコンテンツモデルを記憶する。

コンテンツ構造提示部１４は、コンテンツ記憶部１１に記憶されたコンテンツと、モデル記憶部１３に記憶されたコンテンツモデルとを用いて、コンテンツの構造を表す、後述するモデルマップを作成して提示する。

ダイジェスト生成部１５は、モデル記憶部１３に記憶されたコンテンツモデルを利用いて、コンテンツ記憶部１１に記憶されたコンテンツから、ユーザの興味があるシーンを、ハイライトシーンとして検出する。そして、ダイジェスト生成部１５は、ハイライトシーンを集めたダイジェストを生成する。

スクラップブック生成部１６は、モデル記憶部１３に記憶されたコンテンツモデルを利用いて、ユーザが興味のあるシーンを検出し、そのシーンを集めたスクラップブックを生成する。

なお、ダイジェスト生成部１５によるダイジェストの生成と、スクラップブック生成部１６によるスクラップブックの生成とでは、結果として、ユーザの興味があるシーンが検出される点では共通するが、その検出の方法（アルゴリズム）が異なる。

また、図１のレコーダは、コンテンツ構造提示部１４やスクラップブック生成部１６等を設けずに構成することができる。

すなわち、例えば、モデル記憶部１３に、学習済みのコンテンツモデルが、既に記憶されている場合には、コンテンツモデル学習部１２を設けずに、レコーダを構成することができる。

また、例えば、コンテンツ構造提示部１４、ダイジェスト生成部１５、及び、スクラップブック生成部１６については、それらのうちの１つ、又は、２つのブロックだけを設けて、レコーダを構成することができる。

ここで、コンテンツ記憶部１１に記憶されるコンテンツのデータは、画像、音声、及び、必要なテキスト（字幕）のデータ（ストリーム）を含むこととする。

また、ここでは、コンテンツのデータのうちの、画像のデータだけを、コンテンツモデルの学習の処理や、コンテンツモデルを用いた処理に用いることとする。

但し、コンテンツモデルの学習の処理や、コンテンツモデルを用いた処理には、画像のデータの他、音声やテキストのデータをも用いることが可能であり、この場合、処理の精度を向上させることができる。

また、コンテンツモデルの学習の処理や、コンテンツモデルを用いた処理には、画像ではなく、音声のデータだけを用いることが可能である。

［コンテンツモデル学習部１２の構成例］

図２は、図１のコンテンツモデル学習部１２の構成例を示すブロック図である。

コンテンツモデル学習部１２は、状態が遷移する状態遷移確率と、状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習に用いるコンテンツである学習用コンテンツの画像の各フレームの特徴量を抽出する。さらに、コンテンツモデル学習部１２は、学習用コンテンツの特徴量を用いて、状態遷移確率モデルの学習を行う。

すなわち、コンテンツモデル学習部１２は、学習用コンテンツ選択部２１、特徴量抽出部２２、特徴量記憶部２６、及び、学習部２７から構成される。

学習用コンテンツ選択部２１は、コンテンツ記憶部１１に記憶されたコンテンツの中から、状態遷移確率モデルの学習に用いるコンテンツを、学習用コンテンツとして選択し、特徴量抽出部２２に供給する。

ここで、学習用コンテンツ選択部２１は、コンテンツ記憶部１１に記憶されたコンテンツの中から、例えば、所定のカテゴリに属する１以上のコンテンツを、学習用コンテンツとして選択する。

所定のカテゴリに属するコンテンツとは、例えば、ジャンルが同一の番組や、連続番組、毎週又は毎日その他周期的に放送される番組（タイトルが同一の番組）等の、コンテンツに潜む、コンテンツの構造が共通するコンテンツを意味する。

ジャンルとしては、例えば、スポーツ番組やニュース番組等といった、いわば大まかな分類を採用することもできるが、例えば、サッカーの試合の番組や野球の試合の番組等といった、いわば細かい分類であることが望ましい。

また、例えば、サッカーの試合の番組であれば、チャンネル（放送局）が異なるごとに、異なるカテゴリに属するコンテンツに分類することもできる。

なお、コンテンツのカテゴリとして、どのようなカテゴリを採用するかは、例えば、図１のレコーダに、あらかじめ設定されていることとする。

また、コンテンツ記憶部１１に記憶されたコンテンツのカテゴリは、例えば、テレビジョン放送で番組とともに送信されてくる、番組のタイトルやジャンル等のメタデータや、インターネット上のサイトが提供する番組の情報等から認識することができる。

特徴量抽出部２２は、学習用コンテンツ選択部２１からの学習用コンテンツを、画像と音声のデータに逆多重化し、画像の各フレームの特徴量を抽出して、特徴量記憶部２６に供給する。

すなわち、特徴量抽出部２２は、フレーム分割部２３、サブ領域特徴量抽出部２４、及び、結合部２５から構成される。

フレーム分割部２３には、学習用コンテンツ選択部２１からの学習用コンテンツの画像の各フレームが、時系列に供給される。

フレーム分割部２３は、学習用コンテンツ選択部２１から時系列に供給される学習用コンテンツのフレームを、順次、注目フレームとする。そして、フレーム分割部２３は、注目フレームを、複数の小領域であるサブ領域に分割し、サブ領域特徴量抽出部２４に供給する。

サブ領域特徴量抽出部２４は、フレーム分割部２３からの注目フレームの各サブ領域から、そのサブ領域の特徴量（以下、サブ領域特徴量ともいう）を抽出し、結合部２５に供給する。

結合部２５は、サブ領域特徴量抽出部２４からの注目フレームのサブ領域のサブ領域特徴量を結合し、その結合結果を、注目フレームの特徴量として、特徴量記憶部２６に供給する。

特徴量記憶部２６は、特徴量抽出部２２（の結合部２５）から供給される学習用コンテンツの各フレームの特徴量を時系列に記憶する。

学習部２７は、特徴量記憶部２６に記憶された学習用コンテンツの各フレームの特徴量を用いて、状態遷移確率モデルの学習を行う。さらに、学習部２７は、学習後の状態遷移確率モデルを、コンテンツモデルとし、学習用コンテンツのカテゴリと対応付けて、モデル記憶部１３に供給する。

［状態遷移確率モデル］

図３ないし図６を参照して、図２の学習部２７が学習を行う状態遷移確率モデルについて説明する。

状態遷移確率モデルとしては、例えば、HMM(Hidden Marcov Model)を採用することができる。状態遷移確率モデルとして、HMMを採用する場合、HMMの学習は、例えば、Baum-Welchの再推定法によって行われる。

図３は、left-to-right型のHMMの例を示す図である。

left-to-right型のHMMは、状態が、左から右方向に、一直線上に並んだHMMであり、自己遷移（ある状態から、その状態への遷移）と、ある状態から、その状態よりも右側にある状態への遷移とを行うことができる。left-to-right型のHMMは、例えば、音声認識等で用いられる。

図３のHMMは、３つの状態s₁,s₂,s₃から構成され、状態遷移として、自己遷移と、ある状態から、その右隣の状態への遷移とが許されている。

なお、HMMは、状態s_iの初期確率π_i、状態遷移確率a_ij、及び、状態s_iから、所定の観測値oが観測される観測確率b_i(o)で規定される。

ここで、初期確率π_iは、状態s_iが、初期の状態（最初の状態）である確率であり、left-to-right型のHMMでは、最も左側の状態s₁の初期確率π₁は、1.0とされ、他の状態s_iの初期確率π_iは、0.0とされる。

状態遷移確率a_iｊは、状態s_iから状態s_jに遷移する確率である。

観測確率b_i(o)は、状態s_iへの状態遷移時に、状態s_iから観測値oが観測される確率である。観測確率b_i(o)としては、観測値oが離散値である場合には、確率となる値（離散値）が用いられるが、観測値oが連続値である場合には、確率分布関数が用いられる。確率分布関数としては、例えば、平均値（平均ベクトル）と分散（共分散行列）とで定義されるガウス分布等を採用することができる。

図４は、エルゴディック(Ergodic)型のHMMの例を示す図である。

エルゴディック型のHMMは、状態遷移に制約がないHMM、すなわち、任意の状態s_iから任意の状態s_jへの状態遷移が可能なHMMである。

図４のHMMは、３つの状態s₁,s₂,s₃から構成され、任意の状態遷移が許されている。

エルゴディック型のHMMは、状態遷移の自由度が最も高いHMMであるが、状態数が多くなると、HMMのパラメータ（初期確率π_i、状態遷移確率a_ij、及び、観測確率b_i(o)）の初期値によっては、ローカルミニマムに収束し、適切なパラメータを得られないことがある。

そこで、「自然界の現象の殆どや、ビデオコンテンツを生み出すカメラワークや番組構成は、スモールワールドネットワークのようなスパースな結合によって表現可能である」という仮説を採用し、学習部２７での学習には、状態遷移を、スパース(Sparse)な構造に制約したHMMを採用することとする。

ここで、スパースな構造とは、ある状態から任意の状態への状態遷移が可能なエルゴディック型のHMMのような密な状態遷移ではなく、ある状態から状態遷移することができる状態が非常に限定されている構造（状態遷移が疎らな構造）である。

なお、ここでは、スパースな構造であっても、他の状態への状態遷移は、少なくとも１つ存在し、また、自己遷移は存在することとする。

図５は、スパースな構造のHMMである2次元近傍拘束HMMの例を示す図である。

図５のＡ及び図５のＢのHMMには、スパースな構造であることの他、HMMを構成する状態を、２次元平面上に、格子状に配置する制約が課されている。

ここで、図５のＡのHMMでは、他の状態への状態遷移が、横に隣接する状態と、縦に隣接する状態とに制限されている。図５のＢのHMMでは、他の状態への状態遷移が、横に隣接する状態、縦に隣接する状態、及び、斜めに隣接する状態に制限されている。

図６は、スパースな構造のHMMの、2次元近傍拘束HMM以外の例を示す図である。

すなわち、図６のＡは、３次元グリッド制約によるHMMの例を示している。図６のＢは、２次元ランダム配置制約によるHMMの例を示している。図６のＣは、スモールワールドネットワークによるHMMの例を示している。

図２の学習部２７では、状態が、例えば、100ないし数百個程度の、図５や図６に示したスパースな構造のHMMの学習が、特徴量記憶部２６に記憶された画像の（フレームから抽出された）特徴量を用い、Baum-Welchの再推定法によって行われる。

学習部２７での学習の結果得られるコンテンツモデルであるHMMは、コンテンツの画像(Visual)の特徴量のみを用いた学習によって得られるので、Visual HMMと呼ぶことができる。

ここで、HMMの学習に用いられる、特徴量記憶部２６に記憶される特徴量は、連続値であるベクトルであり、HMMの観測確率b_i(o)としては、確率分布関数が用いられる。

なお、HMMについては、例えば、Laurence Rabiner, Biing-Hwang Juang 共著、「音声認識の基礎（上・下）、ＮＴＴアドバンステクノロジ株式会社」や、本件出願人が先に提案した特願2008-064993号に記載されている。また、エルゴティック型のHMMや、スパースな構造のHMMの利用については、例えば、本件出願人が先に提案した特願2008-064994号に記載されている。

［特徴量の抽出］

図７は、図２の特徴量抽出部２２による特徴量の抽出の処理を説明する図である。

特徴量抽出部２２において、フレーム分割部２３には、学習用コンテンツ選択部２１からの学習用コンテンツの画像の各フレームが、時系列に供給される。

フレーム分割部２３は、学習用コンテンツ選択部２１から時系列に供給される学習用コンテンツのフレームを、順次、注目フレームとし、注目フレームを、複数のサブ領域R_kに分割して、サブ領域特徴量抽出部２４に供給する。

ここで、図７では、注目フレームが、横×縦が4×4個の１６個のサブ領域R₁，R₂，・・・，R₁₆に等分されている。

なお、１フレームをサブ領域R_kに分割するときの、サブ領域R_kの数は、4×4個の16個に限定されるものではない。すなわち、１フレームは、例えば、5×4個の20個のサブ領域R_kや、5×5個の25個のサブ領域R_k等に分割することができる。

また、図７では、１フレームが、同一のサイズのサブ領域R_kに分割（等分）されているが、サブ領域のサイズは、同一でなくても良い。すなわち、例えば、フレームの中央部分は、小さなサイズのサブ領域に分割し、フレームの周辺部分（画枠に隣接する部分等）は、大きなサイズのサブ領域に分割することができる。

サブ領域特徴量抽出部２４（図２）は、フレーム分割部２３からの注目フレームの各サブ領域R_kのサブ領域特徴量f_k=FeatExt(R_k)を抽出し、結合部２５に供給する。

すなわち、サブ領域特徴量抽出部２４は、サブ領域R_kの画素値（例えば、RGB成分や、YUV成分等）を用い、サブ領域R_kの大域的な特徴量を、サブ領域特徴量f_kとして求める。

ここで、サブ領域R_kの大域的な特徴量とは、サブ領域R_kを構成する画素の位置の情報を用いずに、画素値だけを用いて、加法的に計算される、例えば、ヒストグラムのような特徴量をいう。

大域的な特徴量としては、例えば、GISTと呼ばれる特徴量を採用することができる。GISTについては、例えば、A. Torralba, K. Murphy, W. Freeman, M. Rubin, "Context-based vision system for place and object recognition", IEEE Int. Conf. Computer Vision, vol. 1, no. 1, pp. 273-280, 2003.に、詳細が記載されている。

なお、大域的な特徴量は、GISTに限定されるものではない。すなわち、大域的な特徴量は、局所的な位置、明度、視点等の見えの変化に対して頑強な（変化を吸収するような）（Robustな）特徴量であれば良い。そのような特徴量としては、例えば、HLCA（局所高次相関）や、LBP(Local Binary Patterns)、カラーヒストグラム等がある。

HLCAについては、例えば、N. Otsu, T. Kurita, "A new scheme for practical flexible and intelligent vision systems", Proc. IAPR Workshop on Computer Vision, pp.431-435, 1988に、詳細が記載されている。LBPについては、例えば、Ojala T, Pietikainen M & Maenpaa T, "Multiresolution gray-scale and rotation invariant texture classification with Local Binary Patterns", IEEE Transactions on Pattern Analysis and Machine Intelligence 24(7):971-987に、詳細が記載されている（Pietikainen、及び、Maenpaaの"a"は、正確には、"a"の上部に、"・・"を付加した文字）。

ここで、上述のGISTや、LBP，HLCA、カラーヒストグラム等の大域的な特徴量は、次元数が大となる傾向があるが、次元間の相関が高い傾向もある。

そこで、サブ領域特徴量抽出部２４（図２）では、サブ領域R_kから、GIST等を抽出した後、そのGIST等の主成分分析(PCA(principal component analysis))を行うことができる。そして、サブ領域特徴量抽出部２４では、PCAの結果に基づき、累積寄与率が、ある程度高い値（例えば、95%等以上の値）となるように、GIST等の次元数を圧縮（制限）し、その圧縮結果を、サブ領域特徴量とすることができる。

この場合、GIST等を、次元数を圧縮したPCA空間に射影した射影ベクトルが、GIST等の次元数を圧縮した圧縮結果となる。

結合部２５（図２）は、サブ領域特徴量抽出部２４からの注目フレームのサブ領域R₁ないしR₁₆のサブ領域特徴量f₁ないしf₁₆を結合し、その結合結果を、注目フレームの特徴量として、特徴量記憶部２６に供給する。

すなわち、結合部２５は、サブ領域特徴量抽出部２４からのサブ領域特徴量f₁ないしf₁₆を結合することにより、そのサブ領域特徴量f₁ないしf₁₆をコンポーネントとするベクトルを生成し、そのベクトルを、注目フレームの特徴量F_tとして、特徴量記憶部２６に供給する。

ここで、図７では、時刻tのフレーム（フレームt）が、注目フレームとなっている。時刻tとは、例えば、コンテンツの先頭を基準とする時刻であり、本実施の形態において、時刻tのフレームとは、コンテンツの先頭からt番目のフレームを意味する。

図２の特徴量抽出部２２では、学習用コンテンツの各フレームが、先頭から順次、注目フレームとされ、上述したようにして、特徴量F_tが求められる。そして、学習用コンテンツの各フレームの特徴量F_tは、時系列に（時間的な前後関係を維持した状態で）、特徴量抽出部２２から特徴量記憶部２６に供給されて記憶される。

以上のように、特徴量抽出部２２では、サブ領域特徴量f_kとして、サブ領域R_kの大域的な特徴量が求められ、そのサブ領域特徴量f_kをコンポーネントとするベクトルが、フレームの特徴量F_tとして求められる。

したがって、フレームの特徴量F_tは、局所的な変化（サブ領域内で起こる変化）に対しては頑強であるが、フレーム全体としてのパターンの配置の変化に対してはディスクリミネイティブ（鋭敏に違いを見分ける性質）であるような特徴量となる。

このような特徴量F_tによれば、フレーム間のシーン（内容）の類似性を、適切に判定することができる。例えば、「浜辺」のシーンは、フレームの上方に「空」があり、中央に「海」があり、画面下方に「砂浜」があればよく、「砂浜」のどこに人がいるかや、「空」のどこに雲があるか等は、シーンが「浜辺」のシーンであるかどうかに関係がない。特徴量F_tは、このような観点からシーンの類似性を判定する（シーンを分類する）のに適している。

［コンテンツモデル学習処理］

図８は、図２のコンテンツモデル学習部１２が行う処理（コンテンツモデル学習処理）を説明するフローチャートである。

ステップＳ１１において、学習用コンテンツ選択部２１は、コンテンツ記憶部１１に記憶されたコンテンツの中から、所定のカテゴリに属する１以上のコンテンツを、学習用コンテンツとして選択する。

すなわち、例えば、学習用コンテンツ選択部２１は、コンテンツ記憶部１１に記憶されたコンテンツの中から、まだ、学習用コンテンツとしていない任意の１つのコンテンツを、学習用コンテンツとして選択する。

さらに、学習用コンテンツ選択部２１は、学習用コンテンツとして選択した１つのコンテンツのカテゴリを認識し、そのカテゴリに属する他のコンテンツが、コンテンツ記憶部１１に記憶されている場合には、そのコンテンツ（他のコンテンツ）を、さらに、学習用コンテンツとして選択する。

学習用コンテンツ選択部２１は、学習用コンテンツを、特徴量抽出部２２に供給し、処理は、ステップＳ１１からステップＳ１２に進む。

ステップＳ１２では、特徴量抽出部２２のフレーム分割部２３が、学習用コンテンツ選択部２１からの学習用コンテンツの中の、まだ、注目学習用コンテンツ（以下、注目コンテンツともいう）に選択していない学習用コンテンツの１つを、注目コンテンツに選択する。

そして、処理は、ステップＳ１２からステップＳ１３に進み、フレーム分割部２３は、注目コンテンツのフレームのうちの、まだ、注目フレームとしていない、時間的に最も先行するフレームを、注目フレームに選択し、処理は、ステップＳ１４に進む。

ステップＳ１４では、フレーム分割部２３は、注目フレームを、複数のサブ領域に分割し、サブ領域特徴量抽出部２４に供給して、処理は、ステップＳ１５に進む。

ステップＳ１５では、サブ領域特徴量抽出部２４は、フレーム分割部２３からの複数のサブ領域それぞれのサブ領域特徴量を抽出し、結合部２５に供給して、処理は、ステップＳ１６に進む。

ステップＳ１６では、結合部２５は、サブ領域特徴量抽出部２４からの、注目フレームを構成する複数のサブ領域それぞれのサブ領域特徴量を結合することで、注目フレームの特徴量を生成し、処理は、ステップＳ１７に進む。

ステップＳ１７では、フレーム分割部２３は、注目コンテンツのすべてのフレームを注目フレームとしたかどうかを判定する。

ステップＳ１７において、注目コンテンツのフレームの中に、まだ、注目フレームとしていないフレームがあると判定された場合、処理は、ステップＳ１３に戻り、以下、同様の処理が繰り返される。

また、ステップＳ１７において、注目コンテンツのすべてのフレームを注目フレームとしたと判定された場合、処理は、ステップＳ１８に進み、結合部２５は、注目コンテンツについて求めた注目コンテンツの各フレームの特徴量（の時系列）を、特徴量記憶部２６に供給して記憶させる。

そして、処理は、ステップＳ１８からステップＳ１９に進み、フレーム分割部２３は、学習用コンテンツ選択部２１からの学習用コンテンツのすべてを、注目コンテンツとしたかどうかを判定する。

ステップＳ１９において、学習用コンテンツの中に、まだ、注目コンテンツとしていない学習用コンテンツがあると判定された場合、処理は、ステップＳ１２に戻り、以下、同様の処理が繰り返される。

また、ステップＳ１９において、学習用コンテンツのすべてを、注目コンテンツとしたと判定された場合、処理は、ステップＳ２０に進み、学習部２７は、特徴量記憶部２６に記憶された、学習用コンテンツの特徴量（各フレームの特徴量の時系列）を用いて、HMMの学習を行う。

そして、学習部２７は、学習後のHMMを、コンテンツモデルとして、学習用コンテンツのカテゴリと対応付けて、モデル記憶部１３に出力（供給）し、コンテンツモデル学習処理を終了する。

なお、コンテンツモデル学習処理は、任意のタイミングで開始することができる。

以上のコンテンツモデル学習処理によれば、HMMにおいて、学習用コンテンツに潜む、コンテンツの構造（例えば、番組構成や、カメラワーク等が作り出す構造）が自己組織的に獲得される。

その結果、コンテンツモデル学習処理よって得られるコンテンツモデルとしてのHMMの各状態は、学習によって獲得されたコンテンツの構造の要素に対応し、状態遷移は、コンテンツの構造の要素どうしの間での、時間的な遷移を表現する。

そして、コンテンツモデルの状態は、特徴量空間（特徴量抽出部２２（図２）で抽出される特徴量の空間）において、空間的な距離が近く、かつ、時間的な前後関係が似ているフレーム群（つまり「似たシーン」）をまとめて表現する。

ここで、例えば、コンテンツがクイズ番組である場合には、大雑把には、クイズの出題、ヒントの提示、出演者による解答、正解発表、という流れを、番組の基本的な流れとして、この基本的な流れの繰り返しによって、クイズ番組が進行していく。

上述の番組の基本的な流れが、コンテンツの構造に相当し、その流れ（構造）を構成する、クイズの出題、ヒントの提示、出演者による解答、正解発表のそれぞれが、コンテンツの構造の要素に相当する。

また、例えば、クイズの出題から、ヒントの提示への進行等が、コンテンツの構造の要素どうしの間での、時間的な遷移に相当する。

［コンテンツ構造提示部１４の構成例］

図９は、図１のコンテンツ構造提示部１４の構成例を示すブロック図である。

上述したように、コンテンツモデルは、学習用コンテンツに潜む、コンテンツの構造を獲得するが、コンテンツ構造提示部１４は、そのコンテンツの構造を可視化して、ユーザに提示する。

すなわち、コンテンツ構造提示部１４は、コンテンツ選択部３１、モデル選択部３２、特徴量抽出部３３、最尤状態系列推定部３４、状態対応画像情報生成部３５、状態間距離算出部３６、座標算出部３７、マップ描画部３８、及び、表示制御部３９から構成される。

コンテンツ選択部３１は、例えば、ユーザの操作等に応じて、コンテンツ記憶部１１に記憶されたコンテンツの中から、構造を可視化するコンテンツを、注目提示用コンテンツ（以下、単に、注目コンテンツともいう）に選択する。

そして、コンテンツ選択部３１は、注目コンテンツを、特徴量抽出部３３と、状態対応画像情報生成部３５とに供給する。また、コンテンツ選択部３１は、注目コンテンツのカテゴリを認識し、モデル選択部３２に供給する。

モデル選択部３２は、モデル記憶部１３に記憶されたコンテンツモデルの中から、コンテンツ選択部３１からの、注目コンテンツのカテゴリと一致するカテゴリのコンテンツモデル（注目コンテンツのカテゴリに対応付けられたコンテンツモデル）を、注目モデルに選択する。

そして、モデル選択部３２は、注目モデルを、最尤状態系列推定部３４と、状態間距離算出部３６とに供給する。

特徴量抽出部３３は、コンテンツ選択部３１から供給される注目コンテンツの（画像の）各フレームの特徴量を、図２の特徴抽出部２２と同様にして抽出し、注目コンテンツの各フレームの特徴量（の時系列）を、最尤状態系列推定部３４に供給する。

最尤状態系列推定部３４は、例えば、Viterbiアルゴリズムに従い、モデル選択部３２からの注目モデルにおいて、特徴量抽出部３３からの注目コンテンツの特徴量（の時系列）が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列（いわゆるビタビパスを構成する状態の系列）を推定する。

そして、最尤状態系列推定部３４は、注目モデルにおいて、注目コンテンツの特徴量が観測される場合の最尤状態系列（以下、注目コンテンツに対する注目モデルの最尤状態系列ともいう）を、状態対応画像情報生成部３５に供給する。

ここで、注目コンテンツに対する注目モデルの最尤状態系列の先頭を基準とする時刻tの状態（最尤状態系列を構成する、先頭からt番目の状態）を、s(t)と表すとともに、注目コンテンツのフレーム数を、Tと表すこととする。

この場合、注目コンテンツに対する注目モデルの最尤状態系列は、T個の状態s(1)，S(2)，・・・，s(T)の系列であり、そのうちのt番目の状態（時刻tの状態）s(t)は、注目コンテンツの時刻tのフレーム（フレームt）に対応する。

また、注目モデルの状態の総数をNと表すこととすると、時刻tの状態s(t)は、N個の状態s₁，s₂，・・・，s_Nのうちのいずれかである。

さらに、N個の状態s₁，s₂，・・・，s_Nのそれぞれには、状態を特定するインデクスである状態ID(Identification)が付されている。

いま、注目コンテンツに対する注目モデルの最尤状態系列の時刻tの状態s(t)が、N個の状態s₁ないしs_Nのうちのi番目の状態s_iであるとすると、時刻tのフレームは、状態s_iに対応する。

したがって、注目コンテンツの各フレームは、N個の状態s₁ないしs_Nのうちのいずれかに対応する。

注目コンテンツに対する注目モデルの最尤状態系列の実体は、注目コンテンツの各時刻tのフレームが対応する、N個の状態s₁ないしs_Nのうちのいずれかの状態の状態IDの系列である。

以上のような、注目コンテンツに対する注目モデルの最尤状態系列は、注目コンテンツが、注目モデル上において、どのような状態遷移を起こすかを表現する。

状態対応画像情報生成部３５は、最尤状態系列推定部３４からの最尤状態系列（状態IDの系列）を構成する状態の状態IDごとに、同一の状態に対応するフレームを、コンテンツ選択部３１からの注目コンテンツの中から選択する。

すなわち、状態対応画像情報生成部３５は、注目モデルのN個の状態s₁ないしs_Nを、順次、注目状態に選択する。

いま、状態IDが#iの状態s_iが注目状態に選択されたこととすると、状態対応画像情報生成部３５は、最尤状態系列の中から、注目状態に一致する状態（状態IDが#iの状態）を検索し、その状態に対応するフレームを、注目状態の状態IDと対応付けて記憶する。

そして、状態対応画像情報生成部３５は、状態IDと対応付けられたフレームを加工し、その状態IDに対応する画像情報（以下、状態対応画像情報ともいう）を生成して、マップ描画部３８に供給する。

ここで、状態対応画像情報としては、例えば、状態IDと対応付けられた１以上のフレームのサムネイルを時系列順に配置した静止画（画像列）や、状態IDと対応付けられた１以上のフレームを縮小して、時系列順に並べた動画（ムービー）等を採用することができる。

なお、状態対応画像情報生成部３５は、注目モデルのN個の状態s₁ないしs_Nの状態IDのうちの、最尤状態系列の中に登場しない状態の状態IDについては、状態対応画像情報を生成しない（生成することができない）。

状態間距離算出部３６は、モデル選択部３２からの注目モデルの１つの状態s_iから他の１つの状態s_jへの状態間距離d_ij ^*を、１つの状態s_iから他の１つの状態s_jへの状態遷移確率a_ijに基づいて求める。そして、状態間距離算出部３６は、注目モデルのN個の状態の任意の状態s_iから任意の状態s_jへの状態間距離d_ij ^*を求めると、その状態間距離d_ij ^*をコンポーネントとするN行N列の行列（状態間距離行列）を、座標算出部３７に供給する。

ここで、状態間距離算出部３６は、例えば、状態遷移確率a_ijが所定の閾値（例えば、(1/N)×10^-2）より大である場合、状態間距離d_ij ^*を、例えば、0.1（小さい値）とし、状態遷移確率a_ijが所定の閾値以下である場合、状態間距離d_ij ^*を、例えば、1.0（大きい値）とする。

座標算出部３７は、注目モデルのN個の状態s₁ないしs_Nが配置される２次元又は３次元のマップであるモデルマップ上の、１つの状態s_iから他の１つの状態s_jへのユークリッド距離d_ijと、状態間距離算出部３６からの状態間距離行列の状態間距離d_ij ^*との誤差が小さくなるように、モデルマップ上の状態s_iの位置の座標である状態座標Y_iを求める。

すなわち、座標算出部３７は、ユークリッド距離d_ijと、状態間距離d_ij ^*との統計的な誤差に比例するSammon Mapのエラー関数Eを最小にするように、状態座標Y_iを求める。

ここで、Sammon Mapは、多次元尺度法の１つであり、その詳細は、例えば、J. W. Sammon, JR., "A Nonlinear Mapping for Data Structure Analysis", IEEE Transactions on Computers, vol. C-18, No. 5, May 1969に記載されている。

Sammon Mapでは、例えば、式（１）のエラー関数Eを最小にするように、例えば、２次元のマップであるモデルマップ上の状態座標Y_i=(x_i,y_i)が求められる。

・・・（１）

ここで、式（１）において、Nは、注目モデルの状態の総数を表し、i及びjは、1ないしNの範囲の整数値をとる、状態のインデクスである（本実施の形態では、状態IDでもある）。

d_ij ^*は、状態間距離行列の第i行第j列の要素を表し、状態s_iから状態s_jへの状態間距離を表す。d_ijは、モデルマップ上の、状態s_iの位置の座標（状態座標）Y_iと、状態s_jの位置の座標Y_jとの間のユークリッド距離を表す。

座標算出部３７は、式（１）のエラー関数Eが最小になるように、状態座標Y_i(i=1,2,・・・,N)を、勾配法の反復適用により求め、マップ描画部３８に供給する。

マップ描画部３８は、座標算出部３７からの状態座標Y_iの位置に、対応する状態s_i（の画像）を配置したモデルマップ（のグラフィクス）を描画する。また、マップ描画部３８は、モデルマップ上の状態どうしの間を、その状態どうしの間の状態遷移確率に応じて結ぶ線分を描画する。

さらに、マップ描画部３８は、モデルマップ上の状態s_iに、状態対応画像情報生成部３５からの状態対応画像情報のうちの、状態s_iの状態IDに対応する状態対応画像情報をリンク付けし、表示制御部３９に供給する。

表示制御部３９は、マップ描画部３８からモデルマップを、図示せぬディスプレイに表示する表示制御を行う。

図１０は、図９のコンテンツ構造提示部１４が行う処理（コンテンツ構造提示処理）の概要を説明する図である。

図１０のＡは、コンテンツ選択部３１において注目コンテンツ（注目提示用コンテンツ）として選択されたコンテンツのフレームの時系列を示している。

図１０のＢは、特徴量抽出部３３において抽出された、図１０のＡのフレームの時系列の特徴量の時系列を示している。

図１０のＣは、最尤状態系列推定部３４において推定された、注目モデルにおいて、図１０のＢの注目コンテンツの特徴量の時系列が観測される最尤状態系列（注目コンテンツに対する注目モデルの最尤状態系列）を示している。

ここで、注目コンテンツに対する注目モデルの最尤状態系列の実体は、上述したように、状態IDの系列である。そして、注目コンテンツに対する注目モデルの最尤状態系列の先頭からt番目の状態IDは、最尤状態系列において、注目コンテンツのt番目（時刻t）のフレームの特徴量が観測される状態の状態ID（フレームtに対応する状態の状態ID）である。

図１０のＤは、状態対応画像情報生成部３５において生成される状態対応画像情報を示している。

図１０のＤでは、図１０のＣの最尤状態系列において、状態IDが"1"の状態に対応するフレームが選択され、その状態IDに対応する状態対応画像情報としてのムービーや画像列が生成されている。

図１１は、図９のマップ描画部３８で描画されるモデルマップの例を示す図である。

図１１のモデルマップにおいて、楕円は、状態を表し、楕円どうしを結ぶ線分（点線）は、状態遷移を表す。また、楕円に付してある数字は、その楕円が表す状態の状態IDを表す。

モデルマップ描画部３８は、上述したように、座標算出部３７で求められる状態座標Y_iの位置に、対応する状態s_i（の画像（図１１では、楕円））を配置したモデルマップ（のグラフィクス）を描画する。

さらに、マップ描画部３８は、モデルマップ上の状態どうしの間を、その状態どうしの間の状態遷移確率に応じて結ぶ線分を描画する。すなわち、マップ描画部３８は、モデルマップ上の状態s_iから他の状態s_jへの状態遷移確率が、所定の閾値より大である場合には、それらの状態s_iとs_jとの間を結ぶ線分を描画する。

ここで、モデルマップにおいて、状態等は、強調して描画することができる。

すなわち、図１１のモデルマップにおいて、状態s_iは、楕円（円を含む）等で描画されるが、この状態s_iを表す楕円等は、例えば、その状態s_iの観測確率b_j(o)となる確率分布関数としてのガウス分布の分散に応じて、半径や色を変化させて描画することができる。

また、モデルマップ上の状態どうしの間を、その状態どうしの間の状態遷移確率に応じて結ぶ線分は、状態遷移確率の大きさに応じて、線分の幅や色を変化させて描画することができる。

なお、状態等を強調して描画する方法は、上述のような描画に限定されるものではない。さらに、状態等の強調は、必ずしも行う必要はない。

ところで、図９の座標算出部３７において、式（１）のエラー関数Eを、そのまま採用し、エラー関数Eを最小にするように、モデルマップ上の状態座標Y_iを求めた場合、状態（を表す楕円）は、図１１に示したように、モデルマップ上に、円状に配置される。

そして、この場合、モデルマップの円周付近（外側）（外縁）に、状態が密集し、状態の配置が見にくくなって、いわば、可視性が損なわれることがある。

そこで、図９の座標算出部３７では、式（１）のエラー関数Eを修正し、修正後のエラー関数Eを最小にするように、モデルマップ上の状態座標Y_iを求めることができる。

すなわち、座標算出部３７では、ユークリッド距離d_ijが、所定の閾値THd（例えば、THd=1.0等）より大であるかどうかを判定する。

そして、ユークリッド距離d_ijが、所定の閾値THdより大でない場合には、座標算出部３７は、式（１）のエラー関数の演算において、ユークリッド距離d_ijとして、そのユークリッド距離d_ijを、そのまま用いる。

一方、ユークリッド距離d_ijが、所定の閾値THdより大である場合には、座標算出部３７は、式（１）のエラー関数の演算において、ユークリッド距離d_ijとして、状態間距離d_ij ^*を用いる（d_ij＝d_ij ^*とする）（ユークリッド距離d_ijを、状態間距離d_ij ^*に等しい距離とする）。

この場合、モデルマップにおいて、ユークリッド距離dijが、ある程度近い（閾値THdより大でない）２つの状態s_i及びs_jに注目したときには、状態座標Y_i及びY_jは、ユークリッド距離d_ijと状態間距離d_ij ^*とが一致するように（ユークリッド距離d_ijが状態間距離d_ij ^*に近づくように）変更される。

一方、モデルマップにおいて、ユークリッド距離d_ijが、ある程度遠い（閾値THdより大の）２つの状態s_i及びs_jに注目したときには、状態座標Y_i及びY_jは、変更されない。

その結果、ユークリッド距離d_ijが、ある程度遠い２つの状態s_i及びs_jは、ユークリッド距離d_ijが遠いままとされるので、図１１に示したように、モデルマップの円周（外縁）付近に、状態が密集することによって、可視性が損なわれることを防止することができる。

図１２は、修正後のエラー関数Eを用いて得られるモデルマップの例を示す図である。

図１２のモデルマップによれば、円周付近に、状態が密集していないことを確認することができる。

［コンテンツ構造提示処理］

図１３は、図９のコンテンツ構造提示部１４が行うコンテンツ構造提示処理を説明するフローチャートである。

ステップＳ４１において、コンテンツ選択部３１は、例えば、ユーザの操作等に応じて、コンテンツ記憶部１１に記憶されたコンテンツの中から、注目コンテンツ（注目提示用コンテンツ）を選択する。

そして、コンテンツ選択部３１は、注目コンテンツを、特徴量抽出部３３と、状態対応画像情報生成部３５とに供給する。また、コンテンツ選択部３１は、注目コンテンツのカテゴリを認識し、モデル選択部３２に供給して、処理は、ステップＳ４１からステップＳ４２に進む。

ステップＳ４２では、モデル選択部３２は、モデル記憶部１３に記憶されたコンテンツモデルの中から、コンテンツ選択部３１からの、注目コンテンツのカテゴリに対応付けられたコンテンツモデルを、注目モデルに選択する。

そして、モデル選択部３２は、注目モデルを、最尤状態系列推定部３４と、状態間距離算出部３６とに供給し、処理は、ステップＳ４２からステップＳ４３に進む。

ステップＳ４３では、特徴量抽出部３３は、コンテンツ選択部３１からの注目コンテンツの各フレームの特徴量を抽出し、注目コンテンツの各フレームの特徴量（の時系列）を、最尤状態系列推定部３４に供給して、処理は、ステップＳ４４に進む。

ステップＳ４４では、最尤状態系列推定部３４は、モデル選択部３２からの注目モデルにおいて、特徴量抽出部３３からの注目コンテンツの特徴量が観測される最尤状態系列（注目コンテンツに対する注目モデルの最尤状態系列）を推定する。

そして、最尤状態系列推定部３４は、注目コンテンツに対する注目モデルの最尤状態系列を、状態対応画像情報生成部３５に供給し、処理は、ステップＳ４４からステップＳ４５に進む。

ステップＳ４５では、状態対応画像情報生成部３５は、最尤状態系列推定部３４からの最尤状態系列（状態IDの系列）を構成する状態の状態IDごとに、同一の状態に対応するフレームを、コンテンツ選択部３１からの注目コンテンツの中から選択する。

さらに、状態対応画像情報生成部３５は、状態IDと対応付けて、その状態IDの状態に対応するフレームを記憶する。また、状態対応画像情報生成部３５は、状態IDと対応付けられたフレームを加工することで、状態対応画像情報を生成する。

そして、状態対応画像情報生成部３５は、状態IDに対応する状態対応画像情報を、マップ描画部３８に供給し、処理は、ステップＳ４５からステップＳ４６に進む。

ステップＳ４６では、状態間距離算出部３６は、モデル選択部３２からの注目モデルの１つの状態s_iから他の１つの状態s_jへの状態間距離d_ij ^*を、状態遷移確率a_ijに基づいて求める。そして、状態間距離算出部３６は、注目モデルのN個の状態の任意の状態s_iから任意の状態s_jへの状態間距離d_ij ^*を求めると、その状態間距離d_ij ^*をコンポーネントとする状態間距離行列を、座標算出部３７に供給し、処理は、ステップＳ４６からステップＳ４７に進む。

ステップＳ４７では、座標算出部３７は、モデルマップ上の、１つの状態s_iから他の１つの状態s_jへのユークリッド距離d_ijと、状態間距離算出部３６からの状態間距離行列の状態間距離d_ij ^*との統計的な誤差である式（１）のエラー関数Eを最小にするように、状態座標Y_i=(x_i,y_i)を求める。

そして、座標算出部３７は、状態座標Y_i=(x_i,y_i)を、マップ描画部３８に供給して、処理は、ステップＳ４７からステップＳ４８に進む。

ステップＳ４８では、マップ描画部３８は、座標算出部３７からの状態座標Y_i=(x_i,y_i)の位置に、対応する状態s_i（の画像）を配置した、例えば、２次元のモデルマップ（のグラフィクス）を描画する。さらに、マップ描画部３８は、モデルマップ上の、状態遷移確率が所定の閾値以上の状態どうしの間を結ぶ線分を描画し、処理は、ステップＳ４８からステップＳ４９に進む。

ステップＳ４９では、マップ描画部３８は、モデルマップ上の状態s_iに、状態対応画像情報生成部３５からの状態対応画像情報のうちの、状態s_iの状態IDに対応する状態対応画像情報をリンク付けし、表示制御部３９に供給して、処理は、ステップＳ５０に進む。

ステップＳ５０では、表示制御部３９は、マップ描画部３８からモデルマップを、図示せぬディスプレイに表示する表示制御を行う。

さらに、表示制御部３９は、ユーザの操作による、モデルマップ上の状態の指定に対して、その状態の状態IDに対応する状態対応画像情報を表示する表示制御（再生する再生制御）を行う。

すなわち、ユーザが、モデルマップ上の状態を指定する操作を行うと、表示制御部３９は、その状態にリンク付けされた状態対応画像情報を、例えば、モデルマップとは別に、図示せぬディスプレイに表示させる。

これにより、ユーザは、モデルマップ上の状態に対応するフレームの画像を確認することができる。

［ダイジェスト生成部１５の構成例］

図１４は、図１のダイジェスト生成部１５の構成例を示すブロック図である。

ダイジェスト生成部１５は、ハイライト検出器学習部５１、検出器記憶部５２、及び、ハイライト検出部５３から構成される。

ハイライト検出器学習部５１は、コンテンツ記憶部１１に記憶されたコンテンツと、モデル記憶部１３に記憶されたコンテンツモデルとを用いて、ユーザの興味があるシーンを、ハイライトシーンとして検出するためのモデルであるハイライト検出器の学習を行う。

ハイライト検出器学習部５１は、学習後のハイライト検出器を、検出器記憶部５２に供給する。

ここで、ハイライト検出器となるモデルとしては、コンテンツモデルと同様に、状態遷移確率モデルの１つである、例えば、HMMを用いることができる。

検出器記憶部５２は、ハイライト検出器学習部５１からのハイライト検出器を記憶する。

ハイライト検出部５３は、検出器記憶部５２に記憶されたハイライト検出器を用い、コンテンツ記憶部１１に記憶されたコンテンツから、ハイライトシーンのフレームを検出する。さらに、ハイライト検出部５３は、ハイライトシーンのフレームを用いて、コンテンツ記憶部１１に記憶されたコンテンツのダイジェストであるダイジェストコンテンツを生成する。

［ハイライト検出器学習部５１の構成例］

図１５は、図１４のハイライト検出器学習部５１の構成例を示すブロック図である。

図１５において、ハイライト検出器学習部５１は、コンテンツ選択部６１、モデル選択部６２、特徴量抽出部６３、最尤状態系列推定部６４、ハイライトラベル生成部６５、学習用ラベル生成部６６、及び、学習部６７から構成される。

コンテンツ選択部６１は、例えば、ユーザの操作等に応じて、コンテンツ記憶部１１に記憶されたコンテンツの中から、ハイライト検出器の学習に用いるコンテンツを、注目検出器学習用コンテンツ（以下、単に、注目コンテンツともいう）に選択する。

すなわち、コンテンツ選択部６１は、例えば、コンテンツ記憶部１１に記憶されたコンテンツである、例えば、録画済みの番組の中から、ユーザが、再生の対象として指定したコンテンツを、注目コンテンツに選択する。

そして、コンテンツ選択部６１は、注目コンテンツを、特徴量抽出部６３に供給するとともに、注目コンテンツのカテゴリを認識し、モデル選択部６２に供給する。

モデル選択部６２は、モデル記憶部１３に記憶されたコンテンツモデルの中から、コンテンツ選択部６１からの、注目コンテンツのカテゴリに対応付けられたコンテンツモデルを、注目モデルに選択し、最尤状態系列推定部６４に供給する。

特徴量抽出部６３は、コンテンツ選択部６１から供給される注目コンテンツの各フレームの特徴量を、図２の特徴抽出部２２と同様にして抽出し、注目コンテンツの各フレームの特徴量（の時系列）を、最尤状態系列推定部６４に供給する。

最尤状態系列推定部６４は、モデル選択部６２からの注目モデルにおいて、特徴量抽出部６３からの注目コンテンツの特徴量（の時系列）が観測される尤度が最も高い状態遷移が生じる最尤状態系列（注目コンテンツに対する注目モデルの最尤状態系列）を、図９の最尤状態系列推定部３４と同様にして推定する。

そして、最尤状態系列推定部６４は、注目コンテンツに対する注目モデルの最尤状態系列を、学習用ラベル生成部６６に供給する。

ハイライトラベル生成部６５は、ユーザの操作に従い、ハイライトシーンであるか否かを表すハイライトラベルを、コンテンツ選択部６１で選択された注目コンテンツの各フレームにラベリングすることにより、注目コンテンツについて、ハイライトラベル系列を生成する。

すなわち、コンテンツ選択部６１が選択する注目コンテンツは、上述したように、ユーザが、再生の対象として指定したコンテンツであり、注目コンテンツの画像は、図示せぬディスプレイに表示される（とともに、音声は、図示せぬスピーカから出力される）。

ユーザは、ディスプレイに、興味があるシーンが表示されたときに、図示せぬリモートコマンダ等を操作して、興味があるシーンである旨を入力することができ、ハイライトラベル生成部６５は、そのようなユーザの操作に従って、ハイライトラベルを生成する。

具体的には、例えば、興味があるシーンである旨を入力するときの、ユーザの操作を、お気に入り操作ということとすると、ハイライトラベル生成部６５は、お気に入り操作がされなかったフレームに対しては、ハイライトシーンでないことを表す、例えば、値が"0"のハイライトラベルを生成する。

また、ハイライトラベル生成部６５は、お気に入り操作がされたフレームに対しては、ハイライトシーンであることを表す、例えば、値が"1"のハイライトラベルを生成する。

そして、ハイライトラベル生成部６５は、注目コンテンツについて生成したハイライトラベルの時系列であるハイライトラベル系列を、学習用ラベル生成部６６に供給する。

学習用ラベル生成部６６は、最尤状態系列推定部６４からの、注目コンテンツに対する注目モデルの最尤状態系列（注目コンテンツから得られる最尤状態系列）である状態IDの系列と、ハイライトラベル生成部６５からのハイライトラベル系列とのペアである学習用ラベル系列を生成する。

すなわち、学習用ラベル生成部６６は、最尤状態系列推定部６４からの最尤状態系列である状態IDと、ハイライトラベル生成部６５からのハイライトラベル系列とにおける、各時刻tの状態ID（フレームtに対応する状態の状態ID）と、ハイライトラベル（フレームtに対するハイライトラベル）とをペアにした、マルチストリームの学習用ラベル系列を生成する。

そして、学習用ラベル生成部６６は、学習用ラベル系列を、学習部６７に供給する。

学習部６７は、学習用ラベル生成部６６からの学習用ラベル系列を用いて、例えば、エルゴディック型の、マルチストリームHMMであるハイライト検出器の学習を、Baum-Welchの再推定法に従って行う。

そして、学習部６７は、学習後のハイライト検出器を、コンテンツ選択部６１で選択された注目コンテンツのカテゴリと対応付けて、検出器記憶部５２に供給して記憶させる。

ここで、ハイライトラベル生成部６５で得られるハイライトラベルは、値が"0"又は"1"の2値のラベル（シンボル）であり、離散値である。また、最尤状態系列推定部６４において、注目コンテンツから得られる最尤状態系列は、状態IDの系列であり、やはり、離散値である。

したがって、学習用ラベル生成部６６において、そのようなハイライトラベルと最尤状態系列とのペアとして生成される学習用ラベル系列も離散値（の時系列）である。このように、学習用ラベル系列が離散値であるため、学習部６７で学習が行われるハイライト検出器としてのHMMの観測確率b_j(o)は、確率となる値（離散値）そのものとなる。

なお、マルチストリームHMMでは、マルチストリームを構成する個々の系列（ストリーム）（以下、構成要素系列ともいう）に対して、その構成要素系列をマルチストリームHMMに影響させる度合いである重み（以下、系列重みともいう）を設定することができる。

マルチストリームHMMの学習時や、マルチストリームHMMを用いた認識時（最尤状態系列を求めるとき）に重要視する構成要素系列に対して、大きな系列重みを設定することで、マルチストリームHMMの学習結果が局所解に陥らないように事前知識を与えることができる。

なお、マルチストリームHMMの詳細は、例えば、田村哲嗣, 岩野公司, 古井貞煕,「オプティカルフローを用いたマルチモーダル音声認識の検討」、日本音響学会 2001年秋季講演論文集, 1-1-14, pp.27-28 (2001-10)等に記載されている。

上述の文献では、audio-visual speech recognition の分野での、マルチストリームHMMの使用例が紹介されている。すなわち、音声のSN比(Signal to Noise ratio)が低いときは、音声の特徴量の系列の系列重みを低くし、音声よりも画像の影響がより大きくなるようにして、学習と認識を行うことが記載されている。

マルチストリームHMMが、マルチストリームでない単一の系列を用いるHMMと異なる点は、式（２）に示すように、マルチストリームを構成する各構成要素系列o_[m]の観測確率b_[m]j(o_[m])に、事前に設定した系列重みW_mを考慮して、マルチストリーム全体の観測確率b_j(o_[1],o_[2],・・・,o_[M])を計算する点である。

・・・（２）

ここで、式（２）において、Mは、マルチストリームを構成する構成要素系列o_[m]の数（ストリーム数）を表し、系列重みW_mは、マルチストリームを構成するM個の構成要素系列のうちのm番目の構成要素系列o_[m]の系列重みを表す。

図１５の学習部６７で学習に用いられるマルチストリームである学習用ラベル系列は、状態IDの系列o_[V]とハイライトラベル系列o_[HL]との２つの構成要素系列で構成される。

この場合、学習用ラベル系列の観測確率b_j(o_[V],o_[HL])は、式（３）で表される。

・・・（３）

ここで、式（３）において、b_[V]j(o_[V])は、状態IDの系列o_[V]の観測確率（状態s_jにおいて、観測値o_[v]が観測される観測確率）を表し、b_[HL]j(o_[HL])は、ハイライトラベル系列o_[HL]の観測確率を表す。また、Wは、状態IDの系列o_[V]の系列重みを表し、1-Wは、ハイライトラベル系列o_[HL]の系列重みを表す。

なお、ハイライト検出器としてのHMMの学習では、系列重みWとしては、例えば、0.5を採用することができる。

図１６は、図１５のハイライトラベル生成部６５の処理を説明する図である。

ハイライトラベル生成部６５は、ユーザによるお気に入り操作がされなかった注目コンテンツのフレーム（時刻）に対しては、ハイライトシーンでないことを表す、値が"0"のハイライトラベルを生成する。また、ハイライトラベル生成部６５は、ユーザによるお気に入り操作がされた注目コンテンツのフレームに対しては、ハイライトシーンであることを表す、値が"1"のハイライトラベルを生成する。

［ハイライト検出器学習処理］

図１７は、図１５のハイライト検出器学習部５１が行う処理（ハイライト検出器学習処理）を説明するフローチャートである。

ステップＳ７１では、コンテンツ選択部６１は、コンテンツ記憶部１１に記憶されたコンテンツの中から、例えば、ユーザの操作によって再生が指定されたコンテンツを、注目コンテンツ（注目検出器学習用コンテンツ）に選択する。

そして、コンテンツ選択部６１は、注目コンテンツを、特徴量抽出部６３に供給するとともに、注目コンテンツのカテゴリを認識し、モデル選択部６２に供給して、処理は、ステップＳ７１からステップＳ７２に進む。

ステップＳ７２では、モデル選択部６２は、モデル記憶部１３に記憶されたコンテンツモデルの中から、コンテンツ選択部６１からの、注目コンテンツのカテゴリに対応付けられたコンテンツモデルを、注目モデルに選択する。

そして、モデル選択部６２は、注目モデルを、最尤状態系列推定部６４に供給して、処理は、ステップＳ７２からステップＳ７３に進む。

ステップＳ７３では、特徴量抽出部６３は、コンテンツ選択部６１から供給される注目コンテンツの各フレームの特徴量を抽出し、注目コンテンツの各フレームの特徴量（の時系列）を、最尤状態系列推定部６４に供給して、処理は、ステップＳ７４に進む。

ステップＳ７４では、最尤状態系列推定部６４は、モデル選択部６２からの注目モデルにおいて、特徴量抽出部６３からの注目コンテンツの特徴量（の時系列）が観測される尤度が最も高い状態遷移が生じる最尤状態系列（注目コンテンツに対する注目モデルの最尤状態系列）を推定する。

そして、最尤状態系列推定部６４は、注目コンテンツに対する注目モデルの最尤状態系列を、学習用ラベル生成部６６に供給して、処理は、ステップＳ７４からステップＳ７５に進む。

ステップＳ７５では、ハイライトラベル生成部６５は、ユーザの操作に従い、ハイライトラベルを、コンテンツ選択部６１で選択された注目コンテンツの各フレームにラベリングすることにより、注目コンテンツについて、ハイライトラベル系列を生成する。

そして、ハイライトラベル生成部６５は、注目コンテンツについて生成したハイライトラベル系列を、学習用ラベル生成部６６に供給し、処理は、ステップＳ７６に進む。

ステップＳ７６では、学習用ラベル生成部６６は、最尤状態系列推定部６４からの、注目コンテンツに対する注目モデルの最尤状態系列である状態IDの系列と、ハイライトラベル生成部６５からのハイライトラベル系列とのペアである学習用ラベル系列を生成する。

そして、学習用ラベル生成部６６は、学習用ラベル系列を、学習部６７に供給し、処理は、ステップＳ７６からステップＳ７７に進む。

ステップＳ７７では、学習部６７は、学習用ラベル生成部６６からの学習用ラベル系列を用いて、HMMであるハイライト検出器の学習を行い、処理は、ステップＳ７８に進む。

ステップＳ７８では、学習部６７は、学習後のハイライト検出器を、コンテンツ選択部６１で選択された注目コンテンツのカテゴリと対応付けて、検出器記憶部５２に供給して記憶させる。

以上のように、ハイライト検出器は、注目コンテンツに対する注目モデルの最尤状態系列である状態IDの系列と、ユーザの操作に応じて生成されるハイライトラベル系列とのペアである学習用ラベル系列を用いて、HMMの学習を行うことにより得られる。

したがって、ハイライト検出器の各状態の、ハイライトラベルo_[HL]の観測確率b_[HL]j(o_[HL])を参照することにより、その状態で観測される（確率が高い）、コンテンツモデルの状態o_[V]に対応するフレームが、ユーザの興味があるシーン（ハイライトシーン）であるかどうかを判定することができる。

［ハイライト検出部５３の構成例］

図１８は、図１４のハイライト検出部５３の構成例を示すブロック図である。

図１８において、ハイライト検出部５３は、コンテンツ選択部７１、モデル選択部７２、特徴量抽出部７３、最尤状態系列推定部７４、検出用ラベル生成部７５、最尤状態系列推定部７７、ハイライトシーン検出部７８、ダイジェストコンテンツ生成部７９、及び、再生制御部８０から構成される。

コンテンツ選択部７１は、例えば、ユーザの操作等に応じて、コンテンツ記憶部１１に記憶されたコンテンツの中から、ハイライトシーンを検出する対象のコンテンツである注目ハイライト検出用コンテンツ（以下、単に、注目コンテンツともいう）を選択する。

すなわち、コンテンツ選択部７１は、例えば、ダイジェストを生成するコンテンツとして、ユーザが指定したコンテンツを、注目コンテンツに選択する。あるいは、コンテンツ選択部７１は、例えば、まだ、ダイジェストを生成していないコンテンツのうちの任意の１つのコンテンツを、注目コンテンツに選択する。

コンテンツ選択部７１は、注目コンテンツを選択すると、その注目コンテンツを、特徴量抽出部７３に供給するとともに、注目コンテンツのカテゴリを認識し、モデル選択部７２と、検出器選択部７６とに供給する。

モデル選択部７２は、モデル記憶部１３に記憶されたコンテンツモデルの中から、コンテンツ選択部７１からの、注目コンテンツのカテゴリに対応付けられたコンテンツモデルを、注目モデルに選択し、最尤状態系列推定部７４に供給する。

特徴量抽出部７３は、コンテンツ選択部７１から供給される注目コンテンツの各フレームの特徴量を、図２の特徴抽出部２２と同様にして抽出し、注目コンテンツの各フレームの特徴量（の時系列）を、最尤状態系列推定部７４に供給する。

最尤状態系列推定部７４は、モデル選択部７２からの注目モデルにおいて、特徴量抽出部７３からの注目コンテンツの特徴量（の時系列）が観測される尤度が最も高い状態遷移が生じる最尤状態系列（注目コンテンツに対する注目モデルの最尤状態系列）を、図９の最尤状態系列推定部３４と同様にして推定する。

そして、最尤状態系列推定部７４は、注目コンテンツに対する注目モデルの最尤状態系列を、検出用ラベル生成部７５に供給する。

検出用ラベル生成部７５は、最尤状態系列推定部７４からの、注目コンテンツに対する注目モデルの最尤状態系列（注目コンテンツから得られる最尤状態系列）である状態IDの系列と、ハイライトシーンでないこと（、又はハイライトシーンであること）を表すハイライトラベルのみのハイライトラベル系列とのペアである検出用ラベル系列を生成する。

すなわち、検出用ラベル生成部７５は、ハイライトシーンでないことを表すハイライトラベルのみのハイライトラベル系列であって、最尤状態系列推定部７４からの最尤状態系列と同一の長さ（系列長）のハイライトラベル系列を、ハイライト検出器に与える、いわばダミーの系列として生成する。

さらに、検出用ラベル生成部７５は、最尤状態系列推定部７４からの最尤状態系列である状態IDと、ダミーの系列としてのハイライトラベル系列における、各時刻tの状態ID（フレームtに対応する状態の状態ID）と、ハイライトラベル（フレームtに対するハイライトラベル（ここでは、ハイライトシーンでないことを表すハイライトラベル））とをペアにした、マルチストリームの検出用ラベル系列を生成する。

そして、検出用ラベル生成部７５は、検出用ラベル系列を、最尤状態系列推定部７７に供給する。

検出部選択部７６は、検出器記憶部５２に記憶されたハイライト検出器の中から、コンテンツ選択部７１からの、注目コンテンツのカテゴリに対応付けられたハイライト検出器を、注目検出器に選択する。そして、検出器選択部７６は、検出器記憶部５２に記憶されたハイライト検出器の中から、注目検出器を取得し、最尤状態系列推定部７７とハイライトシーン検出部７８とに供給する。

最尤状態系列推定部７７は、例えば、Viterbiアルゴリズムに従い、検出器選択部７６からの注目検出器であるHMMにおいて、検出用ラベル生成部７５からの検出用ラベル系列が観測される尤度が最も高い状態遷移が生じる最尤状態系列（以下、ハイライト関係状態系列ともいう）を推定する。

そして、最尤状態系列推定部７７は、ハイライト関係状態系列を、ハイライトシーン検出部７８に供給する。

なお、検出用ラベル系列は、注目コンテンツに対する注目モデルの最尤状態系列である状態IDの系列o_[V]と、ダミーの系列としてのハイライトラベル系列o_[HL]とを、構成要素系列とするマルチストリームであり、ハイライト関係状態系列の推定にあたり、検出用ラベル系列の観測確率b_j(o_[V],o_[HL])は、学習用ラベル系列の場合と同様に、式（３）に従って求められる。

但し、検出用ラベル系列の観測確率b_j(o_[V],o_[HL])を求める際の、状態IDの系列o_[V]の系列重みWとしては、1.0を用いる。この場合、ハイライトラベル系列o_[HL]の系列重み1-Wは、0.0となる。これにより、最尤状態系列推定部７７では、ダミーの系列として入力されたハイライトラベル系列を考慮せずに、注目コンテンツに対する注目モデルの最尤状態系列のみを考慮して、ハイライト関係状態系列の推定が行われることになる。

ハイライトシーン検出部７８は、最尤状態系列推定部７７からの、検出用ラベル系列から得られる最尤状態系列（ハイライト関係状態系列）の各状態のハイライトラベルo_[HL]の観測確率b_[HL]j(o_[HL])を、検出器選択部７６からの注目検出器を参照することにより認識する。

さらに、ハイライトシーン検出部７８は、ハイライトラベルo_[HL]の観測確率b_[HL]j(o_[HL])に基づいて、注目コンテンツから、ハイライトシーンのフレームを検出する。

すなわち、ハイライトシーン検出部７８は、ハイライト関係状態系列の時刻tの状態s_jにおける、ハイライトシーンであることを表すハイライトラベルの観測確率b_[HL]j(o_[HL]="1")と、ハイライトシーンでないことを表すハイライトラベルの観測確率b_[HL]j(o_[HL]="0")との差分b_[HL]j(o_[HL]="1")−b_[HL]j(o_[HL]="0")が、所定の閾値THb（例えば、THb=0等）より大である場合、時刻tの状態s_jに対応する、注目コンテンツのフレームtを、ハイライトシーンのフレームとして検出する。

そして、ハイライトシーン検出部７８は、注目コンテンツの、ハイライトシーンのフレームについては、フレームがハイライトシーンのフレームであるかどうかを表す１ビットのハイライトフラグに、ハイライトシーンである旨を表す値である、例えば、"1"をセットする。また、ハイライトシーン検出部７８は、注目コンテンツの、ハイライトシーンでないシーンのフレームについては、ハイライトフラグに、ハイライトシーンでない旨を表す値である、例えば、"0"をセットする。

そして、ハイライトシーン検出部７８は、注目コンテンツの各フレームのハイライトフラグ（の時系列）を、ダイジェストコンテンツ生成部７９に供給する。

ダイジェストコンテンツ生成部７９は、コンテンツ選択部７１からの注目コンテンツのフレームから、ハイライトシーン検出部７８からのハイライトフラグによって特定されるハイライトシーンのフレームを抽出する。さらに、ダイジェストコンテンツ生成部７９は、注目コンテンツのフレームから抽出したハイライトシーンのフレームを、少なくとも用いて、注目コンテンツのダイジェストであるダイジェストコンテンツを生成し、再生制御部８０に供給する。

再生制御部８０は、ダイジェストコンテンツ生成部７９からのダイジェストコンテンツを再生する再生制御を行う。

図１９は、図１８のダイジェストコンテンツ生成部７９が生成するダイジェストコンテンツの例を示している。

図１９のＡは、ダイジェストコンテンツの第１の例を示している。

図１９のＡでは、ダイジェストコンテンツ生成部７９は、注目コンテンツから、ハイライトシーンのフレームの画像、及び、その画像に付随する音声のデータを抽出し、その画像及び音声のデータを、時間的な前後関係を維持して結合した動画のコンテンツを、ダイジェストコンテンツとして生成する。

この場合、再生制御部８０（図１８）では、ハイライトシーンのフレームの画像のみが、元のコンテンツ（注目コンテンツ）と同一のサイズ（以下、フルサイズともいう）で表示されるとともに、その画像に付随する音声が出力される。

なお、図１９のＡにおいて、注目コンテンツからのハイライトシーンのフレームの画像の抽出では、ハイライトシーンのフレームのすべてを抽出することもできるし、ハイライトシーンの２フレームに１フレームを抽出する等の、フレームを間引いた抽出を行うこともできる。

図１９のＢは、ダイジェストコンテンツの第２の例を示している。

図１９のＢでは、ダイジェストコンテンツ生成部７９は、注目コンテンツのフレームのうちの、ハイライトシーンでないフレームの画像は、視聴時に早送りに見えるように、フレームの間引き処理（例えば２０フレームにつき、１フレームを抽出する間引き処理）を行い、かつ、ハイライトシーンでないフレームの画像に付随する音声が無音となるように、注目コンテンツを加工することで、ダイジェストコンテンツを生成する。

この場合、再生制御部８０（図１８）では、ハイライトシーンについては、画像が、一倍速で表示されるとともに、その画像に付随する音声が出力されるが、ハイライトシーンでないシーン（非ハイライトシーン）については、画像が、早送り（例えば、２０倍速）で表示されるとともに、その画像に付随する音声は、出力されない。

なお、図１９のＢでは、非ハイライトシーンの画像に付随する音声を、出力しないこととしたが、非ハイライトシーンの画像に付随する音声は、ハイライトシーンの画像に付随する音声と同様に出力することが可能である。この場合、非ハイライトシーンの画像に付随する音声は、小さな音量で、ハイライトシーンの画像に付随する音声は、大きな音量で、それぞれ、出力することができる。

また、図１９のＢでは、ハイライトシーンの画像と、非ハイライトシーンの画像とは、同一のサイズ（フルサイズ）で表示されるが、非ハイライトシーンの画像は、ハイライトシーンの画像よりも小さいサイズ（例えば、ハイライトシーンの画像の横及び縦のサイズを、それぞれ５０％にしたサイズ等）で表示すること（、又は、ハイライトシーンの画像を、非ハイライトシーンの画像よりも大きいサイズで表示すること）が可能である。

さらに、図１９において、フレームを間引く場合の、その間引きの割合は、例えば、ユーザが指定することができる。

［ハイライト検出処理］

図２０は、図１８のハイライト検出部５３の処理（ハイライト検出処理）を説明するフローチャートである。

ステップＳ８１において、コンテンツ選択部７１は、コンテンツ記憶部１１に記憶されたコンテンツの中から、ハイライトシーンを検出する対象のコンテンツである注目コンテンツ（注目ハイライト検出用コンテンツ）を選択する。

そして、コンテンツ選択部７１は、注目コンテンツを、特徴量抽出部７３に供給する。さらに、コンテンツ選択部７１は、注目コンテンツのカテゴリを認識し、モデル選択部７２と、検出器選択部７６とに供給して、処理は、ステップＳ８１からステップＳ８２に進む。

ステップＳ８２では、モデル選択部７２は、モデル記憶部１３に記憶されたコンテンツモデルの中から、コンテンツ選択部７１からの、注目コンテンツのカテゴリに対応付けられたコンテンツモデルを、注目モデルに選択する。

そして、モデル選択部７２は、注目モデルを、最尤状態系列推定部７４に供給し、処理は、ステップＳ８２からステップＳ８３に進む。

ステップＳ８３では、特徴量抽出部７３は、コンテンツ選択部７１から供給される注目コンテンツの各フレームの特徴量を抽出し、最尤状態系列推定部７４に供給して、処理は、ステップＳ８４に進む。

ステップＳ８４では、最尤状態系列推定部７４は、モデル選択部７２からの注目モデルにおいて、特徴量抽出部７３からの注目コンテンツの特徴量（の時系列）が観測される尤度が最も高い状態遷移が生じる最尤状態系列（注目コンテンツに対する注目モデルの最尤状態系列）を推定する。

そして、最尤状態系列推定部７４は、注目コンテンツに対する注目モデルの最尤状態系列を、検出用ラベル生成部７５に供給し、処理は、ステップＳ８４からステップＳ８５に進む。

ステップＳ８５では、検出用ラベル生成部７５は、ダミーのハイライトラベル系列として、例えば、ハイライトシーンでないことを表すハイライトラベル（値が"0"のハイライトラベル）のみのハイライトラベル系列を生成し、処理は、ステップＳ８６に進む。

ステップＳ８６では、検出用ラベル生成部７５は、最尤状態系列推定部７４からの、注目コンテンツに対する注目モデルの最尤状態系列である状態IDの系列と、ダミーのハイライトラベル系列とのペアである検出用ラベル系列を生成する。

そして、検出用ラベル生成部７５は、検出用ラベル系列を、最尤状態系列推定部７７に供給して、処理は、ステップＳ８６からステップＳ８７に進む。

ステップＳ８７では、検出器選択部７６は、検出器記憶部５２に記憶されたハイライト検出器の中から、コンテンツ選択部７１からの、注目コンテンツのカテゴリに対応付けられたハイライト検出器を、注目検出器に選択する。そして、検出器選択部７６は、検出器記憶部５２に記憶されたハイライト検出器の中から、注目検出器を取得し、最尤状態系列推定部７７とハイライトシーン検出部７８とに供給して、処理は、ステップＳ８７からステップＳ８８に進む。

ステップＳ８８では、最尤状態系列推定部７７は、検出器選択部７６からの注目検出器において、検出用ラベル生成部７５からの検出用ラベル系列が観測される尤度が最も高い状態遷移が生じる最尤状態系列（ハイライト関係状態系列）を推定する。

そして、最尤状態系列推定部７４は、ハイライト関係状態系列を、ハイライトシーン検出部７８に供給して、処理は、ステップＳ８８からステップＳ８９に進む。

ステップＳ８９では、ハイライトシーン検出部７８は、最尤状態系列推定部７７からのハイライト関係状態系列に基づいて、注目コンテンツから、ハイライトシーンを検出し、ハイライトフラグを出力するハイライトシーン検出処理を行う。

そして、ハイライトシーン検出処理の終了後、処理は、ステップＳ８９からステップＳ９０に進み、ダイジェストコンテンツ生成部７９は、コンテンツ選択部７１からの注目コンテンツのフレームから、ハイライトシーン検出部７８が出力するハイライトフラグによって特定されるハイライトシーンのフレームを抽出する。

さらに、ダイジェストコンテンツ生成部７９は、注目コンテンツのフレームから抽出したハイライトシーンのフレームを用いて、注目コンテンツのダイジェストコンテンツを生成し、再生制御部８０に供給して、処理は、ステップＳ９０からステップＳ９１に進む。

ステップＳ９１では、再生制御部８０は、ダイジェストコンテンツ生成部７９からのダイジェストコンテンツを再生する再生制御を行う。

図２１は、図２０のステップＳ８９で、ハイライトシーン検出部７８（図１８）が行うハイライトシーン検出処理を説明するフローチャートである。

ステップＳ１０１において、ハイライトシーン検出部７８は、時刻（注目コンテンツのフレーム数）をカウントする変数tに、初期値としての1をセットして、処理は、ステップＳ１０２に進む。

ステップＳ１０２では、ハイライトシーン検出部７８は、検出器選択部７６（図１８）からの注目検出器としてのHMMの状態s₁ないしs_N'（N'は、注目検出器としてのHMMの状態の総数を表す）の中から、最尤状態系列推定部７７からのハイライト関係状態系列の時刻tの状態H(t)=s_j（先頭からt番目の状態）を取得（認識）する。

その後、処理は、ステップＳ１０２からステップＳ１０３に進み、ハイライトシーン検出部７８は、時刻tの状態H(t)=s_jのハイライトラベルo_[HL]の観測確率b_[HL]H(t)j(o_[HL])を、検出器選択部７６からの注目検出器から取得し、処理は、ステップＳ１０４に進む。

ステップＳ１０４では、ハイライトシーン検出部７８は、ハイライトラベルo_[HL]の観測確率b_[HL]H(t)j(o_[HL])に基づいて、注目コンテンツの時刻tのフレームが、ハイライトシーンであるかどうかを判定する。

ステップＳ１０４において、注目コンテンツの時刻tのフレームが、ハイライトシーンであると判定された場合、すなわち、例えば、ハイライトラベルo_[HL]の観測確率b_[HL]H(t)j(o_[HL])のうちの、ハイライトシーンであることを表すハイライトラベルの観測確率b_[HL]H(t)(o_[HL]="1")と、ハイライトシーンでないことを表すハイライトラベルの観測確率b_[HL]H(t)(o_[HL]="0")との差分b_[HL]j(o_[HL]="1")−b_[HL]j(o_[HL]="0")が、所定の閾値THbより大である場合、処理は、ステップＳ１０５に進み、ハイライトシーン検出部７８は、注目コンテンツの時刻tのフレームのハイライトフラグF(t)に、ハイライトシーンである旨を表す値の"1"をセットする。

また、ステップＳ１０４において、注目コンテンツの時刻tのフレームが、ハイライトシーンでないと判定された場合、すなわち、例えば、ハイライトラベルo_[HL]の観測確率b_[HL]H(t)j(o_[HL])のうちの、ハイライトシーンであることを表すハイライトラベルの観測確率b_[HL]H(t)(o_[HL]="1")と、ハイライトシーンでないことを表すハイライトラベルの観測確率b_[HL]H(t)(o_[HL]="0")との差分b_[HL]j(o_[HL]="1")−b_[HL]j(o_[HL]="0")が、所定の閾値THbより大でない場合、処理は、ステップＳ１０６に進み、ハイライトシーン検出部７８は、注目コンテンツの時刻tのフレームのハイライトフラグF(t)に、ハイライトシーンでない旨を表す値の"0"をセットする。

ステップＳ１０５、及びＳ１０６の後、処理は、いずれも、ステップＳ１０７に進み、ハイライトシーン検出部７８は、変数tが、注目コンテンツのフレームの総数N_Fに等しいかどうかを判定する。

ステップＳ１０７において、変数tが、フレームの総数N_Fに等しくないと判定された場合、処理は、ステップＳ１０８に進み、ハイライトシーン検出部７８は、変数tを1だけインクリメントし、処理は、ステップＳ１０２に戻る。

また、ステップＳ１０７において、変数tが、フレームの総数N_Fに等しいと判定された場合、すなわち、注目コンテンツの、特徴量を求めたフレームごとに、ハイライトフラグF(t)が得られた場合、処理は、ステップＳ１０９に進み、ハイライトシーン検出部７８は、注目コンテンツのフレームのハイライトフラグF(t)の系列を、ハイライトシーンの検出結果として、ダイジェストコンテンツ生成部７９（図１８）に出力し、処理は、リターンする。

以上のように、ハイライト検出部５３（図１８）は、ハイライト検出器において、注目コンテンツに対する注目モデルの最尤状態系列である状態IDの系列と、ダミーのハイライトラベル系列とのペアである検出用ラベル系列が観測される場合の最尤状態系列であるハイライト関係状態系列を推定し、そのハイライト関係状態系列の各状態のハイライトラベルの観測確率に基づいて、注目コンテンツから、ハイライトシーンのフレームを検出して、そのハイライトシーンのフレームを用いて、ダイジェストコンテンツを生成する。

また、ハイライト検出器は、コンテンツに対するコンテンツモデルの最尤状態系列である状態IDの系列と、ユーザの操作に応じて生成されるハイライトラベル系列とのペアである学習用ラベル系列を用いて、HMMの学習を行うことにより得られる。

したがって、ダイジェストコンテンツを生成する注目コンテンツが、コンテンツモデルや、ハイライト検出器の学習に用いられていない場合であっても、注目コンテンツと同一のカテゴリのコンテンツを用いての、コンテンツモデル、及び、ハイライト検出器の学習が行われていれば、そのコンテンツモデル、及び、ハイライト検出器を用いて、ユーザの興味があるシーンを、ハイライトシーンとして集めたダイジェスト（ダイジェストコンテンツ）を、容易に得ることができる。

［スクラップブック生成部１６の構成例］

図２２は、図１のスクラップブック生成部１６の構成例を示すブロック図である。

スクラップブック生成部１６は、初期スクラップブック生成部１０１、初期スクラップブック記憶部１０２、登録スクラップブック生成部１０３、登録スクラップブック記憶部１０４、及び、再生制御部１０５から構成される。

初期スクラップブック生成部１０１は、コンテンツ記憶部１１に記憶されたコンテンツと、モデル記憶部１３に記憶されたコンテンツモデルとを用いて、後述する初期スクラップブックを生成し、初期スクラップブック記憶部１０２に供給する。

初期スクラップブック記憶部１０２は、初期スクラップブック生成部１０１からの初期スクラップブックを記憶する。

登録スクラップブック生成部１０３は、コンテンツ記憶部１１に記憶されたコンテンツ、モデル記憶部１３に記憶されたコンテンツモデル、及び、初期スクラップブック記憶部１０２に記憶された初期スクラップブックを用いて、後述する登録スクラップブックを生成し、登録スクラップブック記憶部１０４に供給する。

登録スクラップブック記憶部１０４は、登録スクラップブック生成部１０３からの登録スクラップブックを記憶する。

再生制御部１０５は、登録スクラップブック記憶部１０４に記憶された登録スクラップブックを再生する再生制御を行う。

［初期スクラップブック生成部１０１の構成例］

図２３は、図２２の初期スクラップブック生成部１０１の構成例を示すブロック図である。

図２３において、初期スクラップブック生成部１０１は、コンテンツ選択部１１１、モデル選択部１１２、特徴量抽出部１１３、最尤状態系列推定部１１４、状態対応画像情報生成部１１５、状態間距離算出部１１６、座標算出部１１７、マップ描画部１１８、表示制御部１１９、状態選択部１２１、及び、選択状態登録部１２２から構成される。

コンテンツ選択部１１１ないし表示制御部１１９は、コンテンツ構造提示部１４（図９）のコンテンツ選択部３１ないし表示制御部３９と同様に構成され、図１３で説明したコンテンツ構造提示処理を行う。

なお、マップ描画部１１８は、図９のマップ描画部３８と同様に、モデルマップを、表示制御部１１９に供給する他、状態選択部１２１にも供給する。

状態選択部１２１は、コンテンツ構造提示処理によって表示されたモデルマップ（図１１、図１２）上の状態が、ユーザの操作によって指定された場合に、その指定された状態を、選択状態として選択する。さらに、状態選択部１２１は、マップ描画部１１８からのモデルマップを参照して、選択状態の状態IDを認識し、選択状態登録部１２２に供給する。

選択状態登録部１２２は、空のスクラップブックを生成し、その空のスクラップブックに、状態選択部１２１からの選択状態の状態IDを登録する。そして、選択状態登録部１２２は、状態IDを登録したスクラップブックを、初期スクラップブックとして、初期スクラップブック記憶部１０２に供給して記憶させる。

ここで、選択状態登録部１２２が生成するスクラップブックとは、静止画（写真）や、動画、音声（音楽）等のデータを保管（記憶）しておくことができる、電子的な保管庫である。

なお、空のスクラップブックとは、何も登録されていないスクラップブックであり、初期スクラップブックとは、状態IDが登録されているスクラップブックである。

以上のように構成される初期スクラップブック生成部１０１では、コンテンツ構造提示処理（図１３）が行われることにより、モデルマップ（図１１、図１２）が、図示せぬディスプレイに表示される。そして、モデルマップ上の状態が、ユーザの操作によって指定された場合に、その指定された状態（選択状態）の状態IDが、（空の）スクラップブックに登録される。

図２４は、ユーザがモデルマップ上の状態を指定するための、表示制御部１１９が表示制御を行うことによって表示されるユーザインターフェースの例を示す図である。

図２４では、ウインドウ１３１に、マップ描画部１１８で生成されたモデルマップ１３２が表示されている。

ウインドウ１３１内のモデルマップ１３２上の状態は、ユーザが指定することにより、いわゆるフォーカスをあてることができる。ユーザによる状態の指定は、例えば、マウス等のポインティングデバイスでクリックすることや、ポインティングデバイスの操作に応じて移動するカーソルを、フォーカスをあてようとする状態の位置に移動すること等によって行うことができる。

また、モデルマップ１３２上の状態のうち、既に、選択状態になっている状態と、選択状態になっていない状態とは、異なる色等の、異なる表示形式で表示することができる。

ウインドウ１３１の下部には、状態ID入力欄１３３、スクラップブックID入力欄１３４、登録ボタン１３５、及び、終了ボタン１３６等が設けられている。

状態ID入力欄１３３には、モデルマップ１３２上の状態のうちの、フォーカスがあたっている状態の状態IDが表示される。

なお、状態ID入力欄１３３には、ユーザが、直接、状態IDを入力することもできる。

スクラップブックID入力欄１３４には、選択状態の状態IDを登録するスクラップブックを特定する情報であるスクラップブックIDが表示される。

なお、スクラップブックID入力欄１３４は、ユーザが操作すること（例えば、マウス等のポインティングデバイスでクリックすること等）ができ、スクラップブックID入力欄１３４に表示されるスクラップブックIDは、ユーザによるスクラップブックID入力欄１３４の操作に応じて変更される。したがって、ユーザは、スクラップブックID入力欄１３４を操作することにより、状態IDを登録するスクラップブックを変更することができる。

登録ボタン１３５は、フォーカスがあたっている状態（状態ID入力欄１３３に状態IDが表示されている状態）の状態IDを、スクラップブックに登録する場合に操作される。すなわち、登録ボタン１３５が操作された場合、フォーカスがあたっている状態が、選択状態として選択（確定）される。

終了ボタン１３６は、例えば、モデルマップ１３２の表示を終了するとき（ウインドウ１３１をクローズするとき）等に操作される。

ウインドウ１３０は、モデルマップ１３２上の状態のうちの、フォーカスがあたっている状態に、コンテンツ構造提示処理で生成された状態対応画像情報がリンク付けされている場合にオープンする。そして、ウインドウ１３０には、フォーカスがあたっている状態にリンク付けされている状態対応画像情報が表示される。

なお、ウインドウ１３０には（さらには、ウインドウ１３０以外の図示せぬウインドウに）、フォーカスがあたっている状態にリンク付けされた状態対応画像情報に代えて、モデルマップ１３２上の、フォーカスがあたっている状態と、その状態に近い位置の状態とのそれぞれにリンク付けされた状態対応画像情報や、モデルマップ１３２上のすべての状態のそれぞれにリンク付けされた状態対応画像情報を、時間的にシーケンシャルに、又は、空間的に並列的に表示することが可能である。

ユーザは、ウインドウ１３１に表示されたモデルマップ１３２上の任意の状態をクリックすること等によって指定することができる。

ユーザによって状態が指定されると、表示制御部１１９（図２３）は、ユーザによって指定された状態にリンク付けされた状態対応画像情報を、ウインドウ１３０に表示する。

これにより、ユーザは、モデルマップ１３２上の状態に対応するフレームの画像を確認することができる。

ユーザは、ウインドウ１３０に表示された画像を見て、その画像に興味があり、スクラップブックに登録することを希望する場合、登録ボタン１３５を操作する。

登録ボタン１３５が操作されると、状態選択部１２１（図２３）は、そのときにユーザによって指定されているモデルマップ１３２上の状態を、選択状態として選択する。

そして、その後、ユーザが、終了ボタン１３６を操作すると、状態選択部１２１は、それまでに選択した選択状態の状態IDを、選択状態登録部１２２（図２３）に供給する。

選択状態登録部１２２は、状態選択部１２１からの選択状態の状態IDを、空のスクラップブックに登録し、状態IDを登録したスクラップブックを、初期スクラップブックとして、初期スクラップブック記憶部１０２して記憶させる。そして、表示制御部１１９（図２３）は、ウインドウ１３１及び１４１をクローズする。

［初期スクラップブック生成処理］

図２５は、図２３の初期スクラップブック生成部１０１が行う処理（初期スクラップブック生成処理）を説明するフローチャートである。

ステップＳ１２１において、コンテンツ選択部１１１ないし表示制御部１１９は、コンテンツ構造提示部１４（図９）のコンテンツ選択部３１ないし表示制御部３９と同様のコンテンツ構造提示処理（図１３）を行う。これにより、モデルマップ１３２を含むウインドウ１３１（図２４）が、図示せぬディスプレイに表示される。

その後、処理は、ステップＳ１２１からステップＳ１２２に進み、状態選択部１２１は、ユーザによって、状態の登録操作がされたかどうかを判定する。

ステップＳ１２２において、状態の登録操作がされたと判定された場合、すなわち、モデルマップ１３２上の状態が、ユーザによって指定され、（ウインドウ１３１の）登録ボタン１３５（図２４）が操作された場合、処理は、ステップＳ１２３に進み、状態選択部１２１は、登録ボタン１３５が操作されたときにユーザによって指定されていたモデルマップ１３２上の状態を、選択状態として選択する。

さらに、状態選択部１２１は、選択状態の状態IDを、図示せぬメモリに記憶し、処理は、ステップＳ１２３からステップＳ１２４に進む。

また、ステップＳ１２２において、状態の登録操作がされていないと判定された場合、処理は、ステップＳ１２３をスキップして、ステップＳ１２４に進む。

ステップＳ１２４では、状態選択部１２１は、ユーザによって、終了操作がされたかどうかを判定する。

ステップＳ１２４において、終了操作がされていないと判定された場合、処理は、ステップＳ１２２に戻り、以下、同様の処理が繰り返される。

また、ステップＳ１２４において、終了操作がされたと判定された場合、すなわち、ユーザが、終了ボタン１３６（図２４）を操作した場合、状態選択部１２１は、ステップＳ１２３で記憶した選択状態の状態IDすべてを、選択状態登録部１２２に供給して、処理は、ステップＳ１２５に進む。

ステップＳ１２５では、選択状態登録部１２２は、空のスクラップブックを生成し、その空のスクラップブックに、状態選択部１２１からの選択状態の状態IDを登録する。

さらに、選択状態登録部１２２は、状態IDを登録したスクラップブックを、初期スクラップブックとして、その初期スクラップブックに、ステップＳ１２１のコンテンツ構造提示処理（図１３）で、注目コンテンツ（注目提示用コンテンツ）に選択されたコンテンツのカテゴリと対応付ける。

そして、選択状態登録部１２２は、注目コンテンツのカテゴリと対応付けた初期スクラップブックを、初期スクラップブック記憶部１０２に供給して記憶させる。

その後、ステップＳ１２１のコンテンツ構造提示処理で表示されたウインドウ１３１（図２４）がクローズされ、初期スクラップブック生成処理は終了する。

［登録スクラップブック生成部１０３の構成例］

図２６は、図２２の登録スクラップブック生成部１０３の構成例を示すブロック図である。

図２６において、登録スクラップブック生成部１０３は、スクラップブック選択部１４１、コンテンツ選択部１４２、モデル選択部１４３、特徴量抽出部１４４、最尤状態系列推定部１４５、フレーム抽出部１４６、及び、フレーム登録部１４７から構成される。

スクラップブック選択部１４１は、初期スクラップブック記憶部１０２に記憶された初期スクラップブックの１つを、注目スクラップブックに選択し、フレーム抽出部１４６、及び、フレーム登録部１４７に供給する。

また、スクラップブック選択部１４１は、注目スクラップブックに対応付けられたカテゴリを、コンテンツ選択部１４２、及び、モデル選択部１４３に供給する。

コンテンツ選択部１４２は、コンテンツ記憶部１１に記憶されたコンテンツの中から、スクラップブック選択部１４１からのカテゴリのコンテンツの１つを、注目スクラップブック用コンテンツ（以下、単に、注目コンテンツともいう）に選択する。

そして、コンテンツ選択部１４２は、注目コンテンツを、特徴量抽出部１４４、及び、フレーム抽出部１４６に供給する。

モデル選択部１４３は、モデル記憶部１３に記憶されたコンテンツモデルの中から、スクラップブック選択部１４１からのカテゴリに対応付けられたコンテンツモデルを、注目モデルに選択し、最尤状態系列推定部１４５に供給する。

特徴量抽出部１４４は、コンテンツ選択部１４２から供給される注目コンテンツの（画像の）各フレームの特徴量を、図２の特徴抽出部２２と同様にして抽出し、注目コンテンツの各フレームの特徴量（の時系列）を、最尤状態系列推定部１４５に供給する。

最尤状態系列推定部１４５は、例えば、Viterbiアルゴリズムに従い、モデル選択部１４３からの注目モデルにおいて、特徴量抽出部１４４からの注目コンテンツの特徴量（の時系列）が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列（注目コンテンツに対する注目モデルの最尤状態系列）を推定する。

そして、最尤状態系列推定部１４５は、注目コンテンツに対する注目モデルの最尤状態系列を、フレーム抽出部１４６に供給する。

フレーム抽出部１４６は、最尤状態系列推定部１４５からの最尤状態系列の各状態について、状態IDが、スクラップブック選択部１４１からの注目スクラップブックに登録されている選択状態の状態ID（以下、登録状態IDともいう）に一致するかどうかを判定する。

さらに、フレーム抽出部１４６は、最尤状態系列推定部１４５からの最尤状態系列の状態のうちの、状態IDが、スクラップブック選択部１４１からの注目スクラップブックに登録されている登録状態IDに一致する状態に対応するフレームを、コンテンツ選択部１４２からの注目コンテンツから抽出し、フレーム登録部１４７に供給する。

フレーム登録部１４７は、スクラップブック選択部１４１からの注目スクラップブックに、フレーム抽出部１４６からのフレームを登録する。さらに、フレーム登録部１４７は、フレームの登録後の注目スクラップブックを、登録スクラップブックとして、登録スクラップブック記憶部１０４に供給して記憶させる。

［登録スクラップブック生成処理］

図２７は、図２６の登録スクラップブック生成部１０３が行う登録スクラップブック生成処理を説明するフローチャートである。

ステップＳ１３１において、スクラップブック選択部１４１は、初期スクラップブック記憶部１０２に記憶された初期スクラップブックのうちの、まだ、注目スクラップブックに選択されたことがない初期スクラップブックの１つを、注目スクラップブックに選択する。

そして、スクラップブック選択部１４１は、注目スクラップブックを、フレーム抽出部１４６、及び、フレーム登録部１４７に供給する。さらに、スクラップブック選択部１４１は、注目スクラップブックに対応付けられたカテゴリを、コンテンツ選択部１４２、及び、モデル選択部１４３に供給し、処理は、ステップＳ１３１からステップＳ１３２に進む。

ステップＳ１３２では、コンテンツ選択部１４２は、コンテンツ記憶部１１に記憶されたコンテンツのうちの、スクラップブック選択部１４１からのカテゴリのコンテンツの中で、また、注目コンテンツ（注目スクラップブック用コンテンツ）に選択されていないコンテンツの１つを、注目コンテンツに選択する。

そして、コンテンツ選択部１４２は、注目コンテンツを、特徴量抽出部１４４、及び、フレーム抽出部１４６に供給して、処理は、ステップＳ１３２からステップＳ１３３に進む。

ステップＳ１３３では、モデル選択部１４３は、モデル記憶部１３に記憶されたコンテンツモデルの中から、スクラップブック選択部１４１からのカテゴリに対応付けられたコンテンツモデルを、注目モデルに選択する。

そして、モデル選択部１４３は、注目モデルを、最尤状態系列推定部１４５に供給し、処理は、ステップＳ１３３からステップＳ１３４に進む。

ステップＳ１３４では、特徴量抽出部１４４は、コンテンツ選択部１４２から供給される注目コンテンツの各フレームの特徴量を抽出し、注目コンテンツの各フレームの特徴量（の時系列）を、最尤状態系列推定部１４５に供給する。

その後、処理は、ステップＳ１３４からステップＳ１３５に進み、最尤状態系列推定部１４５は、モデル選択部１４３からの注目モデルにおいて、特徴量抽出部１４４からの注目コンテンツの特徴量（の時系列）が観測される尤度が最も高い状態遷移が生じる最尤状態系列（注目コンテンツに対する注目モデルの最尤状態系列）を推定する。

そして、最尤状態系列推定部１４５は、注目コンテンツに対する注目モデルの最尤状態系列を、フレーム抽出部１４６に供給して、処理は、ステップＳ１３５からステップＳ１３６に進む。

ステップＳ１３６では、フレーム抽出部１４６は、時刻（注目コンテンツのフレーム数）をカウントする変数tに、初期値としての1をセットして、処理は、ステップＳ１３７に進む。

ステップＳ１３７では、フレーム抽出部１４６は、最尤状態系列推定部１４５からの最尤状態系列（注目コンテンツに対する注目モデルの最尤状態系列）の時刻tの状態（先頭からt番目の状態）の状態IDが、スクラップブック選択部１４１からの注目スクラップブックに登録されている選択状態の登録状態IDのいずれかに一致するかどうかを判定する。

ステップＳ１３７において、注目コンテンツに対する注目モデルの最尤状態系列の時刻tの状態の状態IDが、注目スクラップブックに登録されている選択状態の登録状態IDのいずれかに一致すると判定された場合、処理は、ステップＳ１３８に進み、フレーム抽出部１４６は、コンテンツ選択部１４２からの注目コンテンツから、時刻tのフレームを抽出し、フレーム登録部１４７に供給して、処理は、ステップＳ１３９に進む。

また、ステップＳ１３７において、注目コンテンツに対する注目モデルの最尤状態系列の時刻tの状態の状態IDが、注目スクラップブックに登録されている選択状態の登録状態IDのいずれかにも一致しないと判定された場合、処理は、ステップＳ１３８をスキップして、ステップＳ１３９に進む。

ステップＳ１３９では、フレーム抽出部１４６は、変数tが、注目コンテンツのフレームの総数N_Fに等しいかどうかを判定する。

ステップＳ１３９において、変数tが、注目コンテンツのフレームの総数N_Fに等しくないと判定された場合、処理は、ステップＳ１４０に進み、フレーム抽出部１４６は、変数tを1だけインクリメントする。その後、処理は、ステップＳ１４０からステップＳ１３７に戻り、以下、同様の処理が繰り返される。

また、ステップＳ１３９において、変数tが、注目コンテンツのフレームの総数N_Fに等しいと判定された場合、処理は、ステップＳ１４１に進み、フレーム登録部１４７は、フレーム抽出部１４６から供給されたフレーム、すなわち、注目コンテンツから抽出されたフレームすべてを、スクラップブック選択部１４１からの注目スクラップブックに登録する。

その後、処理は、ステップＳ１４１からステップＳ１４２に進み、コンテンツ選択部１４２は、コンテンツ記憶部１１に記憶された、カテゴリが注目スクラップブックに対応付けられたカテゴリと同一のコンテンツの中で、まだ、注目コンテンツに選択されていないコンテンツがあるかどうかを判定する。

ステップＳ１４２において、コンテンツ記憶部１１に記憶された、カテゴリが注目スクラップブックに対応付けられたカテゴリと同一のコンテンツの中で、まだ、注目コンテンツに選択されていないコンテンツがあると判定された場合、処理は、ステップＳ１３２に戻り、以下、同様の処理が繰り返される。

また、ステップＳ１４２において、コンテンツ記憶部１１に記憶された、カテゴリが注目スクラップブックに対応付けられたカテゴリと同一のコンテンツの中で、注目コンテンツに選択されていないコンテンツがないと判定された場合、処理は、ステップＳ１４３に進み、フレーム登録部１４７は、注目スクラップブックを、登録スクラップブックとして、登録スクラップブック記憶部１０４に出力し、登録スクラップブック生成処理を終了する。

図２８を参照して、登録スクラップブック生成部１０３（図２６）が行う登録スクラップブック生成処理について、さらに説明する。

図２８のＡは、コンテンツ選択部１４２（図２６）において注目コンテンツ（注目スクラップブック用コンテンツ）として選択されたコンテンツのフレームの時系列を示している。

図２８のＢは、特徴量抽出部１４４（図２６）において抽出された、図２８のＡのフレームの時系列の特徴量の時系列を示している。

図２８のＣは、最尤状態系列推定部１４５（図２６）において推定された、注目モデルにおいて、図２８のＢの注目コンテンツの特徴量の時系列が観測される最尤状態系列（注目コンテンツに対する注目モデルの最尤状態系列）を示している。

図２８のＤは、フレーム抽出部１４６（図２６）において、注目コンテンツから抽出されたフレームを示している。

図２８のＤでは、注目スクラップブックの登録状態IDとして、"1"と"3"が登録されており、注目コンテンツからは、状態IDが"1"及び"3"のそれぞれのフレームが抽出されている。

図２８のＥは、注目コンテンツから抽出されたフレームが登録されたスクラップブック（登録スクラップブック）を示している。

スクラップブックには、注目コンテンツから抽出されたフレームが、その時間的な前後関係を維持する形で、例えば、動画として、登録される。

以上のように、登録スクラップブック生成部１０３では、注目コンテンツの画像の各フレームの特徴量を抽出し、注目モデルにおいて、注目コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる最尤状態系列を推定し、その最尤状態系列の状態のうちの、初期スクラップブック生成処理（図２５）において、ユーザによって指示された、モデルマップ上の状態の状態ID（登録状態ID）と一致する状態に対応するフレームを、注目コンテンツから抽出し、スクラップブックに、注目コンテンツから抽出されたフレームを登録するので、ユーザは、モデルマップにおいて、興味があるフレーム（例えば、歌手が歌を歌っているシーンのうちの、顔のアップが写っているフレーム等）に対応する状態を指定するだけで、そのフレームと同様の内容のフレームを集めたスクラップブックを得ることができる。

なお、図２７では、注目スクラップブックに対応付けられたカテゴリのコンテンツのすべてを注目コンテンツとして、登録スクラップブックの生成を行うこととしたが、登録スクラップブックの生成は、ユーザが指定した１つのコンテンツのみを注目コンテンツとして行うことが可能である。

また、図２７の登録スクラップブック生成処理では、スクラップブック選択部１４１において、初期スクラップブック記憶部１０２に記憶された初期スクラップブックの中から、注目スクラップブックを選択し、その注目スクラップブックに、注目コンテンツから抽出したフレームを登録することとしたが、その他、注目スクラップブックは、登録スクラップブック記憶部１０４に記憶された登録スクラップブックの中から選択することが可能である。

すなわち、コンテンツ記憶部１１に、新たなコンテンツが記憶された場合に、その新たなコンテンツのカテゴリに対応付けられた登録スクラップブックが、既に存在するときには、新たなコンテンツを注目コンテンツとするとともに、その注目コンテンツのカテゴリに対応付けられた登録スクラップブックを注目スクラップブックとして、登録スクラップブック生成処理（図２７）を行うことが可能である。

また、登録スクラップブック生成部１０３（図２６）では、フレーム抽出部１４６において、注目コンテンツからフレーム（画像）の他、そのフレームに付随する音声も抽出し、フレーム登録部１４７において、初期スクラップブックに登録することができる。

さらに、コンテンツ記憶部１１に、新たなコンテンツが記憶された場合に、その新たなコンテンツのカテゴリに対応付けられた登録スクラップブックが、既に存在するときには、新たなコンテンツを注目コンテンツとして、コンテンツ構造提示処理（図１３）を含む初期スクラップブック生成処理（図２５）を行い、新たな状態IDを、登録スクラップブックに追加登録することができる。

そして、初期スクラップブック生成処理によって、登録スクラップブックに、新たな状態IDが追加登録された場合には、その登録スクラップブックを、注目スクラップブックとして、登録スクラップブック生成処理（図２７）を行い、コンテンツ記憶部１１に記憶されたコンテンツから、状態IDが、登録スクラップブックに追加登録された新たな状態IDと一致するフレームを抽出して、登録スクラップブックに追加登録することができる。

この場合、登録スクラップブックに既に登録されているフレームfが抽出されたコンテンツcから、状態IDが、登録スクラップブックに追加登録された新たな状態IDと一致する別のフレームf'が新たに抽出され、登録スクラップブックに追加登録されることがある。

この、登録スクラップブックへのフレームf'の追加登録は、そのフレームf'が抽出されたコンテンツcから抽出されたフレームfとの時間的な前後関係を維持するように行われる。

なお、この場合、登録スクラップブックに登録されているフレームfが抽出されたコンテンツcを特定する必要があるので、登録スクラップブックには、フレームfとともに、そのフレームfが抽出されたコンテンツcを特定する情報としてのコンテンツIDを登録しておく必要がある。

ここで、特開2005-189832号公報に記載のハイライトシーン検出技術では、前段の処理において、コンテンツの画像から抽出した動きベクトルの大きさの平均値と分散のそれぞれを、４個や５個のラベルに量子化するとともに、コンテンツの音声から抽出した特徴量を、「拍手」、「打球」、「女声」、「男声」、「音楽」、「音楽＋声」、「雑音」のラベルに、ニューラルネット分類器により分類することで、画像のラベル時系列と、音声のラベル時系列とが求められる。

さらに、特開2005-189832号公報に記載のハイライトシーン検出技術では、後段の処理において、ハイライトシーンを検出する検出器が、ラベル時系列を用いた学習により獲得される。

すなわち、コンテンツのデータのうちの、ハイライトシーンとする区間のデータを、検出器とするHMMの学習に用いる学習用データとして、学習用データから得た画像と音声それぞれのラベル時系列をHMMに与えて、離散HMM（観測値が離散値のHMM）の学習が行われる。

その後、ハイライトシーンを検出する対象の検出対象コンテンツから、所定の長さ（ウインドウ長）の画像と音声それぞれのラベル時系列を、スライディングウインドウ処理によって抽出し、学習後のHMMに与えて、そのHMMにおいて、ラベル時系列が観測される尤度が求められる。

そして、尤度が所定の閾値より大となった場合に、その尤度が求められたラベル系列の区間が、ハイライトシーンの区間として検出される。

特開2005-189832号公報に記載のハイライトシーン検出技術によれば、コンテンツのデータのうちの、ハイライトシーンとする区間のデータを、学習用データとして、HMMに与えるだけで、どのような特徴量やイベント等のシーンがハイライトシーンとなるかというエキスパートからの事前知識を設計せずとも、学習により、ハイライトシーンを検出する検出器としてのHMMを求めることができる。

その結果、例えば、ユーザが興味があるシーンのデータを、学習用データとして、HMMに与えることで、そのユーザが興味があるシーンを、ハイライトシーンとして検出することが可能となる。

しかしながら、特開2005-189832号公報に記載のハイライトシーン検出技術では、特定のジャンルのコンテンツを、検出対象コンテンツとして、そのような特定のジャンルのコンテンツから、例えば、「拍手」、「打球」、「女声」、「男声」、「音楽」、「音楽＋声」、「雑音」のラベリングに適した（音声の）特徴量が抽出される。

したがって、特開2005-189832号公報に記載のハイライトシーン検出技術では、検出対象コンテンツが、特定のジャンルのコンテンツに制限され、そのような制限をなしにするには、検出対象コンテンツのジャンルが異なるごとに、そのジャンルに適した特徴量を設計して（決定しておいて）抽出する必要がある。また、ハイライトシーンの区間の検出に用いられる尤度の閾値を、コンテンツのジャンルごとに決定する必要があるが、そのような閾値の決定は困難である。

これに対して、図１のレコーダでは、コンテンツから抽出した特徴量に対して、「拍手」等の、いわば、コンテンツの内容を表すラベリングをせずに、特徴量をそのまま用いて、コンテンツモデル(HMM)の学習を行い、コンテンツモデルにおいて、コンテンツの構造を自己組織的に獲得するので、コンテンツから抽出する特徴量としては、特定のジャンルに適した特徴量ではなく、シーンの分類（識別）等に一般に用いられている、いわば、汎用の特徴量を採用することができる。

したがって、図１のレコーダでは、様々なジャンルのコンテンツが検出対象コンテンツとなる場合であっても、ジャンルごとに、コンテンツモデルの学習を行う必要はあるが、ジャンルごとに、コンテンツから抽出する特徴量を変更する必要はない。

以上から、図１のレコーダによるハイライトシーン検出技術は、コンテンツのジャンルに依存しない、汎用性が極めて高い技術であるということができる。

また、図１のレコーダでは、ユーザに、興味があるシーン（フレーム）を指定してもらい、その指定に従い、ハイライトシーンであるか否かを表すハイライトラベルを、コンテンツの各フレームにラベリングしたハイライトラベル系列を生成し、そのハイライトラベル系列を構成要素系列とするマルチストリームによって、ハイライト検出器としてのHMMの学習を行うので、どのような特徴量やイベント等のシーンがハイライトシーンとなるかというエキスパートからの事前知識を設計せずとも、ハイライト検出器としてのHMMを、容易に得ることができる。

このように、図１のレコーダによるハイライト検出技術は、エキスパートからの事前知識を必要としない点でも、汎用性が高い。

そして、図１のレコーダは、ユーザの嗜好を学習し、その嗜好にあったシーン（ユーザの興味があるシーン）を、ハイライトシーンとして検出して、そのようなハイライトシーンを集めたダイジェストを提供する。したがって、コンテンツの視聴の、いわば「個人化」が実現され、コンテンツの楽しみ方を広げていくことができる。

［サーバクライアントシステムへの適用］

図１のレコーダは、全体を、単体の装置として構成することも可能であるが、サーバクライアントシステムとして、サーバとクライアントとに分けて構成することも可能である。

ここで、コンテンツモデル、ひいては、コンテンツモデルの学習に用いるコンテンツとしては、すべてのユーザに共通のコンテンツ（コンテンツモデル）を採用することができる。

一方、ユーザの興味があるシーン、すなわち、ユーザにとってのハイライトシーンは、ユーザごとに異なる。

そこで、図１のレコーダを、サーバクライアントシステムとして構成する場合には、例えば、コンテンツモデルの学習に用いるコンテンツの管理（記憶）は、サーバに行わせることができる。

また、例えば、コンテンツの構造の学習、つまり、コンテンツモデルの学習は、コンテンツのジャンル等の、コンテンツのカテゴリごとに、サーバに行わせることができ、さらに、学習後のコンテンツモデルの管理（記憶）も、サーバに行わせることができる。

また、例えば、コンテンツモデルにおいて、コンテンツの特徴量が観測される尤度が最も高い状態遷移が生じる最尤状態系列の推定、さらには、その推定結果である最尤状態系列の管理（記憶）も、サーバに行わせることができる。

サーバクライアントシステムでは、クライアントは、処理に必要な情報をサーバに要求し、サーバは、クライアントから要求があった情報を、クライアントに提供（送信）する。そして、クライアントは、サーバから提供を受けた情報を用いて、必要な処理を行う。

図２９は、図１のレコーダを、サーバクライアントシステムで構成する場合の、そのサーバクライアントシステムの構成例（第１の構成例）を示すブロック図である。

図２９では、サーバは、コンテンツ記憶部１１、コンテンツモデル学習部１２、及び、モデル記憶部１３から構成され、クライアントは、コンテンツ構造提示部１４、ダイジェスト生成部１５、及び、スクラップブック生成部１６から構成される。

なお、図２９において、クライアントに対しては、コンテンツを、コンテンツ記憶部１１から提供することもできるし、その他の図示せぬブロック（例えば、チューナ等）から与えることもできる。

図２９では、コンテンツ構造提示部１４全体が、クライアント側に設けられているが、コンテンツ構造提示部１４は、その一部分を、サーバとして構成し、残りの部分を、クライアントとして構成することができる。

図３０は、そのようなサーバクライアントシステムの構成例（第２の構成例）を示すブロック図である。

図３０では、コンテンツ構造提示部１４（図９）の一部分としてのコンテンツ選択部３１ないし座標算出部３７が、サーバに設けられ、コンテンツ構造提示部１４の残りの部分としてのマップ描画部３８、及び表示制御部３９が、クライアントに設けられている。

図３０においては、クライアントは、モデルマップの描画に用いるコンテンツを特定する情報としてのコンテンツIDを、サーバに送信する。

サーバでは、クライアントからのコンテンツIDによって特定されるコンテンツが、コンテンツ選択部３１において注目コンテンツに選択され、モデルマップの生成（描画）に必要な状態座標が求められるとともに、状態対応画像情報が生成される。

さらに、サーバでは、状態座標と、状態対応画像情報とが、クライアントに送信され、クライアントでは、サーバからの状態座標を用いて、モデルマップが描画され、そのモデルマップに、サーバからの状態対応画像情報がリンク付けされる。そして、クライアントでは、モデルマップが表示される。

次に、上述の図２９では、ハイライト検出器学習部５１を含むダイジェスト生成部１５（図１４）全体が、クライアント側に設けられているが、ハイライト検出器学習部５１（図１５）は、その一部分を、サーバとして構成し、残りの部分を、クライアントとして構成することができる。

図３１は、そのようなサーバクライアントシステムの構成例（第３の構成例）を示すブロック図である。

図３１では、ハイライト検出器学習部５１（図１５）の一部分としてのコンテンツ選択部６１ないし最尤状態系列推定部６４が、サーバに設けられ、残りの部分としてのハイライトラベル生成部６５ないし学習部６７が、クライアントに設けられている。

図３１において、クライアントは、ハイライト検出器の学習に用いるコンテンツのコンテンツIDを、サーバに送信する。

サーバでは、クライアントからのコンテンツIDによって特定されるコンテンツが、コンテンツ選択部６１において注目コンテンツに選択され、その注目コンテンツに対する最尤状態系列が求められる。そして、サーバでは、注目コンテンツに対する最尤状態系列が、クライアントに提供される。

クライアントでは、サーバからの最尤状態系列を用いて、学習用ラベル系列が生成され、その学習用ラベル系列を用いて、ハイライト検出器の学習が行われる。そして、クライアントでは、学習後のハイライト検出器が、検出器記憶部５２に記憶される。

次に、上述の図２９では、ハイライト検出部５３を含むダイジェスト生成部１５（図１４）全体が、クライアント側に設けられているが、ハイライト検出部５３（図１８）は、その一部分を、サーバとして構成し、残りの部分を、クライアントとして構成することができる。

図３２は、そのようなサーバクライアントシステムの構成例（第４の構成例）を示すブロック図である。

図３２では、ハイライト検出部５３（図１８）の一部分としてのコンテンツ選択部７１ないし最尤状態系列推定部７４が、サーバに設けられ、残りの部分としての検出用ラベル生成部７５ないし再生制御部８０が、クライアントに設けられている。

図３２において、クライアントは、ハイライトシーンの検出の対象の検出対象コンテンツのコンテンツIDを、サーバに送信する。

サーバでは、クライアントからのコンテンツIDによって特定されるコンテンツが、コンテンツ選択部７１において注目コンテンツに選択され、その注目コンテンツに対する最尤状態系列が求められる。そして、サーバでは、注目コンテンツに対する最尤状態系列が、クライアントに提供される。

クライアントでは、サーバからの最尤状態系列を用いて、検出用ラベル系列が生成され、その検出用ラベル系列と、検出器記憶部５２に記憶されたハイライト検出器とを用いて、ハイライトシーンの検出と、そのハイライトシーンを用いたダイジェストコンテンツの生成とが行われる。

次に、上述の図２９では、初期スクラップブック生成部１０１を含むスクラップブック生成部１６（図２２）全体が、クライアント側に設けられているが、初期スクラップブック生成部１０１（図２３）は、その一部分を、サーバとして構成し、残りの部分を、クライアントとして構成することができる。

図３３は、そのようなサーバクライアントシステムの構成例（第５の構成例）を示すブロック図である。

図３３では、初期スクラップブック生成部１０１（図２３）の一部分としてのコンテンツ選択部１１１ないし座標算出部１１７が、サーバに設けられ、残りの部分としてのマップ描画部１１８、及び、表示制御部１１９、並びに、状態選択部１２１、及び、選択状態登録部１２２が、クライアントに設けられている。

図３３において、クライアントは、モデルマップの描画に用いるコンテンツを特定する情報としてのコンテンツIDを、サーバに送信する。

サーバでは、クライアントからのコンテンツIDによって特定されるコンテンツが、コンテンツ選択部１１１において注目コンテンツに選択され、モデルマップの生成（描画）に必要な状態座標が求められるとともに、状態対応画像情報が生成される。

また、クライアントでは、ユーザの操作に応じて、モデルマップ上の状態が、選択状態に選択され、その選択状態の状態IDが認識される。そして、クライアントでは、選択状態の状態IDがスクラップブックに登録され、そのスクラップブックが、初期スクラップブックとして、初期スクラップブック記憶部１０２に記憶される。

次に、上述の図２９では、登録スクラップブック生成部１０３を含むスクラップブック生成部１６（図２２）全体が、クライアント側に設けられているが、登録スクラップブック生成部１０３（図２６）は、その一部分を、サーバとして構成し、残りの部分を、クライアントとして構成することができる。

図３４は、そのようなサーバクライアントシステムの構成例（第６の構成例）を示すブロック図である。

図３４では、登録スクラップブック生成部１０３（図２６）の一部分としてのコンテンツ選択部１４２ないし最尤状態系列推定部１４５が、サーバに設けられ、残りの部分としてのスクラップブック選択部１４１、フレーム抽出部１４６、及び、フレーム登録部１４７が、クライアントに設けられている。

図３４において、クライアントは、スクラップブック選択部１４１が選択した注目スクラップブックに対応付けられたカテゴリを、サーバに送信する。

サーバでは、クライアントからのカテゴリのコンテンツに対する、そのカテゴリに対応付けられたコンテンツモデルの最尤状態系列が推定され、クライアントからのカテゴリのコンテンツとともに、クライアントに提供される。

クライアントでは、サーバからの最尤状態系列の状態のうちの、状態IDが、スクラップブック選択部１４１で選択された注目スクラップブックに登録された状態ID（登録状態ID）に一致する状態に対応するフレームが、サーバからのコンテンツから抽出され、スクラップブックに登録される。

以上のように、図１のレコーダを、サーバとクライアントとに分けて構成することにより、ハードウェアの性能が高くないクライアントであっても、処理を迅速に行うことが可能となる。

なお、図１のレコーダが行う処理のうちの、ユーザの嗜好が反映される部分の処理をクライアントが行うようにする限り、図１のレコーダを、どのように、サーバとクライアントとに分けるかは、特に限定されるものではない。

［その他のレコーダの構成例］

以上においては、フレーム単位の画像より得られる特徴量を用いて、ビデオコンテンツを自己組織的に構造化することでコンテンツモデルを学習し、コンテンツ構造を提示したり、ダイジェストビデオやビデオスクラップを生成する例について説明してきた。しかしながら、コンテンツモデルを学習するにあたっては、特徴量としてフレーム単位の画像以外のものを用いるようにしてもよく、例えば、音声や画像内の対象物などを特徴量として用いるようにしてもよい。

図３５は、フレーム単位の画像以外の特徴量を用いるようにした、本発明の情報処理装置を適用したレコーダの他の実施の形態の構成例を示すブロック図である。尚、図１のレコーダと同一の機能を備えた構成には、同一の符号を付しており、その説明は適宜省略するものとする。

すなわち、図３５のレコーダにおいて、図１のレコーダと異なるのは、コンテンツモデル学習部１２、モデル記憶部１３、コンテンツ構造提示部１４、ダイジェスト生成部１５、及び、スクラップブック生成部１６に代えて、コンテンツモデル学習部２０１、モデル記憶部２０２、コンテンツ構造提示部２０３、ダイジェスト生成部２０４、及び、スクラップブック生成部２０５を設けたことである。

コンテンツモデル学習部２０１、モデル記憶部２０２、コンテンツ構造提示部２０３、ダイジェスト生成部２０４、及び、スクラップブック生成部２０５は、いずれもその基本的な機能は、コンテンツモデル学習部１２、モデル記憶部１３、コンテンツ構造提示部１４、ダイジェスト生成部１５、及び、スクラップブック生成部１６と同様である。しかしながら、それぞれで扱われる特徴量が、上述したフレーム単位の画像の特徴量（以下、画像特徴量とも称する）に加えて、さらに、音声特徴量、および対象物特徴量の合計３種類の特徴量に対応したものである点が異なる。尚、ここでは、３種類の特徴量を扱う例について説明を進めるものとするが、扱う特徴量の種類は３種類に限られるものではなく、それ以上の種類の特徴量を扱うようにしてもよいものである。

［コンテンツモデル学習部２０１の構成例］

図３６は、図３５のコンテンツモデル学習部２０１の構成例を示すブロック図である。尚、図３６のコンテンツモデル学習部２０１の構成において、図２において説明したコンテンツモデル学習部１２と同一の機能を備えた構成については、同一の符号を付しており、その説明は省略するものとする。

コンテンツモデル学習部２０１は、状態が遷移する状態遷移確率と、状態から、所定の観測値が観測される観測確率とで規定される状態遷移確率モデルの学習に用いるコンテンツである学習用コンテンツの画像の各フレームの特徴量として、画像特徴量、音声特徴量、および対象物特徴量を抽出する。そして、コンテンツモデル学習部２０１は、学習用コンテンツの画像特徴量、音声特徴量、および対象物特徴量を用いて、それぞれ状態遷移確率モデルの学習を行う。

画像特徴量抽出部２２０は、図２の特徴量抽出部２２と同一のものであり、さらに、画像特徴量記憶部２６、および学習部２７については、図２のものと同一である。すなわち、画像特徴量を扱う構成については、図２のコンテンツモデル学習部１２と同一である。また、学習部２７において、学習により得られるコンテンツモデルは、モデル記憶部２０２における画像モデル記憶部２０２ａに記憶される。すなわち、画像モデル記憶部２０２ａは、図２におけるモデル記憶部１３と同様のものである。尚、画像モデル記憶部２０２ａに記憶されるコンテンツモデルは、画像特徴量により得られるコンテンツモデルであるので、以降においては、画像コンテンツモデルとも称する。

音声特徴量抽出部２２１は、学習用コンテンツの音声について、画像の各フレームに対応付けて特徴量を抽出する。

音声特徴量抽出部２２１は、学習用コンテンツ選択部２１からの学習用コンテンツを、画像と音声のデータに逆多重化し、画像の各フレームに対応付けて、音声の特徴量を抽出して、音声特徴量記憶部２２２に供給する。尚、ここでいうフレーム単位の音声についての特徴量を、以降においては、音声特徴量と称するものとする。

すなわち、音声特徴量抽出部２２１は、プリミティブ特徴量抽出部２４１、平均算出部２４２、分散算出部２４３、および結合部２４４から構成される。

プリミティブ特徴量抽出部２４１は、音声分類（sound classification, audio classification)の分野で利用されているような、音声からシーン（例えば、「音楽」、「非音楽」、「ノイズ」、「人の声」、「人の声＋音楽」、および「観衆」など）を分類するのに適した音声特徴量を生成するための原始的な特徴量であるプリミティブ特徴量を抽出する。プリミティブ特徴量とは、音声分類で使用される、例えば、10msecオーダ程度の比較的短い時間単位で音声信号から計算により得られるエネルギー、ゼロ交差レート、およびスペクトル重心などである。

より具体的には、プリミティブ特徴量抽出部２４１は、例えば、「Zhu Liu; Jincheng Huang; Yao Wang; Tsuhan Chen, Audio feature extraction and analysis for scene classification, First Workshop on Multimedia Signal Processing, 1997., IEEE Volume, Issue , 23-25 Jun 1997 Page(s):343 - 348」、および「Brezeale, D. Cook, D.J., Automatic Video Classification: A Survey of the Literature, IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, May 2008, Volume: 38, Issue: 3, pp. 416-430」に挙げられている特徴量の抽出手法により、プリミティブ特徴量を抽出する。

平均算出部２４２は、プリミティブ特徴量時系列から、より長い所定の時間単位（一般的に1sec以上）で統計量として平均値を計算することにより、より長い所定の時間単位の特徴量を時系列に抽出し、結合部２４４に供給する。

分散算出部２４３は、プリミティブ特徴量時系列から、より長い所定の時間単位（一般的に1sec以上）で統計量として分散を計算することにより、より長い所定の時間単位の特徴量を時系列に抽出し、結合部２４４に供給する。

結合部２４４は、プリミティブ特徴量時系列から統計量として求められた平均値、および分散を結合し、結合結果を注目フレームの特徴量として音声特徴量記憶部２６に供給する。

より具体的には、音声特徴量は、後述する処理を実現するため、上述した画像特徴量と同期するように抽出する必要がある。また、音声特徴量は、画像特徴量が抽出された各時刻において、音声によりシーンを判別するのに適した特徴量であることが望ましいことから、以下のような手法により生成される。

すなわち、プリミティブ特徴量抽出部２４１は、まず、音信号がステレオ音声信号である場合、モノラル音声信号に変換する。そして、プリミティブ特徴量抽出部２４１は、図３７の波形図Ａ及びＢで示されるように、0.05secのステップ幅で、0.05secの時間幅の窓をずらしていき、窓の中の音声信号のプリミティブ特徴量を抽出する。ここで、波形図Ａ，Ｂにおいては、いずれも縦軸が音声信号の振幅を表し、横軸が時間を表す。また、波形図Ｂは、波形図Ａの一部について、分解能を挙げて表示したものであり、波形図Ａにおいては、0（×10⁴）ないし10（×10⁴）の範囲が、2.0833secのスケールとなっており、波形図Ｂでは、0ないし5000の範囲が、0.1042secのスケールとなっている。尚、プリミティブ特徴量は、窓の中の音声信号から、複数種類を抽出するようにしてもよい。その場合、プリミティブ特徴量抽出部２４１は、それらの複数種類を要素とするベクトルを構成してプリミティブ特徴量とする。

そして、音声特徴量抽出部２２１は、画像特徴量が抽出された各時刻（例えば、フレームの開始の時刻や、フレームの開始の時刻と終了の時刻との間の中点の時刻）において、図３８で示されるように、平均算出部２４２、および分散算出部２４３は、その時刻の前後0.5sec分（つまり1.0sec分)のプリミティブ特徴量の平均値と分散を求め、それを当該時刻の音声特徴量とする。

図３８においては、上から、波形図Ａは、音声情報のサンプリングデータを識別する識別子（プリミティブ特徴量が抽出される時刻）Sidとプリミティブ特徴量であるエネルギーとの関係を示すの波形であり、波形図Ｂは、画像のフレームを識別する識別子（フレームの画像特徴量が抽出される時刻）Vidと画像特徴量（GIST）との関係を示す波形である。尚、波形図Ａ，Ｂにおいては、丸印が、それぞれプリミティブ特徴量、および画像特徴量を表す。

また、波形図Ｃ，Ｄは、それぞれ波形図Ａ，Ｂの元になる波形であり、波形図Ａ，Ｂは、それぞれ、波形図Ｃ，Ｄの一部の横軸の識別子Sid、Vidの表示間隔が拡大された波形である。図３８においては、音声のプリミティブ特徴量のサンプリングレートfq_sが２０Hzであり、画像特徴量のサンプリングレートfq_vは、３Hzであるときの例が示されている。

ある画像識別子Vidのフレームと同期するプリミティブ特徴量の音声識別子Sidは、以下の式（４）で示される。

Sid＝ceil((Vid-1)×(fq_s/fq_v))+1
・・・（４）

ここで、ceil()は、正の無限大方向の丸め込み（カッコ内の値以上の最小の整数）を示す関数である。

いま、音声特徴量となる平均値を求めるのに用いるプリミティブ特徴量のサンプル数Wを、所定の定数Kを1として、式（５）で表すこととすると、サンプル数Wは、7となる。この場合、ある画像識別子Vidのフレームに対しては、式（４）を満たす音声識別子Sidを中心とするW=7個のプリミティブ特徴量の平均値、および分散が、対応（同期）する音声特徴量となる。

W＝round(K×(fq_s/fq_v))
・・・（５）

ここで、round()は、最も近い整数にする（カッコ内の小数点以下を四捨五入する）関数である。なお、式（５）において、定数K=fq_vとすると、音声特徴量を求めるのに用いられるプリミティブ特徴量は、1秒分のプリミティブ特徴量となる。

このようにして抽出された音声特徴量は、音声特徴量記憶部２２２に記憶される。尚、音声特徴量記憶部２２２、および学習部２２３についての機能は、画像特徴量記憶部２６、および学習部２７と同様であるので、その説明は省略するものとする。さらに、学習部２２３が、学習処理することにより得られるコンテンツモデルは、音声コンテンツモデルとしてモデル記憶部２０２の音声モデル記憶部２０２ｂに記憶される。

対象物特徴量抽出部２２４は、学習用コンテンツの画像の各フレームについて対象物に対応付けて特徴量を抽出する。

対象物特徴量抽出部２２４は、学習用コンテンツ選択部２１からの学習用コンテンツを、画像と音声のデータに逆多重化し、画像の各フレームに含まれる、例えば、人物、および顔といった対象物の存在範囲を矩形画像として検出する。そして、対象物特徴量抽出部２２４は、検出した矩形画像を用いて特徴量を抽出し、対象物特徴量記憶部２２５に供給する。

すなわち、対象物特徴量抽出部２２４は、対象物抽出部２６１、フレーム分割部２６２、サブ領域特徴量抽出部２６３、および結合部２６４から構成される。

対象物抽出部２６１は、学習用コンテンツを、まず、画像と音声のデータに逆多重化する。次に、対象物抽出部２６１は、画像の各フレームにおいて、対象物検出処理を実行し、例えば、対象物を人物の全身外形であるものとすると、図３９の左上部で示されるように、フレームＦ_１内の矩形領域からなる対象物ＯＢ１，ＯＢ２を検出する。そして、対象物抽出部２６１は、図３９の左下部において斜線部で示される、検出された対象物を含む矩形領域の左上座標と幅及び高さからなるベクトル（Ｘ１，Ｙ１，Ｗ１，Ｈ１）および（Ｘ２，Ｙ２，Ｗ２，Ｈ２）をサブ領域特徴量抽出部２６３に出力する。尚、複数の対象物が検出され、複数の矩形領域が出力された場合、１フレームにこの情報が検出数分だけ出力されることになる。

同時に、フレーム分割部２６２は、フレーム分割部２３と同様にフレームを、例えば、図３９の左下部で示されるようにサブ領域Ｒ_１乃至Ｒ_３６（６×６）に分割し、サブ領域特徴量抽出部２６３に供給する。

サブ領域特徴量抽出部２６３は、図３９の中央下部で示されるように、各サブ領域R_nにおける矩形領域のピクセル数Ｖ_nをカウントし、検出数分だけ累積する。さらに、サブ領域特徴量抽出部２６３は、矩形領域のピクセル数Ｖ_nをサブ領域内総ピクセル数S_nで除することで画像サイズに対して正規化し、結合部２６４に出力する。

結合部２６４は、図３９の右下部で示されるように、各サブ領域R_nで計算された値F_n=V_n/S_nを、ベクトルのコンポーネントとして結合することで、対象物特徴量となるベクトルを生成し、対象物特徴量記憶部２２５に出力する。尚、対象物特徴量記憶部２２５、および学習部２２６についての機能は、画像特徴量記憶部２６、および学習部２７と同様であるので、その説明は省略するものとする。さらに、学習部２２６が、学習処理することにより得られるコンテンツモデルは、対象物コンテンツモデルとしてモデル記憶部２０２の対象物モデル記憶部２０２ｃに記憶される。

［コンテンツモデル学習部２０１が行うコンテンツモデル学習処理］

次に、図３６のコンテンツモデル学習部２０１が行うコンテンツ学習処理について説明する。図３６のコンテンツモデル学習部２０１が行うコンテンツ学習処理は、特徴量の種類に応じて、画像コンテンツモデル学習処理、音声コンテンツモデル学習処理、および、対象物コンテンツモデル学習処理からなる。このうち、画像コンテンツモデル学習処理は、図８を参照して説明したコンテンツモデル学習処理と同様であり、生成された画像コンテンツモデルが画像モデル記憶部２０２ａに記憶されるのみであるので、その説明は省略する。

次に、図４０のフローチャートを参照して、図３６のコンテンツモデル学習部２０１が行う音声コンテンツモデル学習処理について説明する。尚、図４０におけるステップＳ２０１の処理は、図８のステップＳ１１の処理と同様であるのでその説明は省略するものとする。

ステップＳ２０２では、音声特徴量抽出部２２１のプリミティブ特徴量抽出部２４１が、学習用コンテンツ選択部２１からの学習用コンテンツの中の、まだ、注目学習用コンテンツ（以下、注目コンテンツともいう）に選択していない学習用コンテンツの１つを、注目コンテンツに選択する。

そして、処理は、ステップＳ２０２からステップＳ２０３に進み、プリミティブ特徴量抽出部２４１は、注目コンテンツのフレームのうちの、まだ、注目フレームとしていない、時間的に最も先行するフレームを、注目フレームに選択し、処理は、ステップＳ２０４に進む。

ステップＳ２０４では、プリミティブ特徴量抽出部２４１が、図３７、図３８を参照して説明したように、注目フレームに対応する音声特徴量を生成するのに用いるプリミティブ特徴量を、注目コンテンツの音源から抽出する。そして、プリミティブ特徴量抽出部２４１は、抽出したプリミティブ特徴量を、平均算出部２４２、および分散算出部２４３に供給する。

ステップＳ２０５では、平均算出部２４２は、供給されたプリミティブ特徴量のうち、注目フレームの分について平均値を算出し、結合部２４４に供給する。

ステップＳ２０６では、分散算出部２４３は、供給されたプリミティブ特徴量のうち、注目フレームの分について分散を算出し、結合部２４４に供給する。

ステップＳ２０７では、結合部２４４は、平均算出部２４２より供給された、注目フレームにおけるプリミティブ特徴量の平均値と、分散算出部２４３より供給された、注目フレームにおけるプリミティブ特徴量の分散と結合することで特徴量ベクトルを構成する。そして、結合部２４４は、この特徴量ベクトルを、注目フレームの音声特徴量として生成し、処理は、ステップＳ２０８に進む。

ステップＳ２０８では、フレーム分割部２３は、注目コンテンツのすべてのフレームを注目フレームとしたかどうかを判定する。

ステップＳ２０８において、注目コンテンツのフレームの中に、まだ、注目フレームとしていないフレームがあると判定された場合、処理は、ステップＳ２０３に戻り、以下、同様の処理が繰り返される。

また、ステップＳ２０８において、注目コンテンツのすべてのフレームを注目フレームとしたと判定された場合、処理は、ステップＳ２０９に進み、結合部２４４は、注目コンテンツについて求めた注目コンテンツの各フレームの特徴量（の時系列）を、音声特徴量記憶部２２２に供給して記憶させる。

そして、処理は、ステップＳ２０９からステップＳ２１０に進み、プリミティブ特徴量抽出部２４１は、学習用コンテンツ選択部２１からの学習用コンテンツのすべてを、注目コンテンツとしたかどうかを判定する。

ステップＳ２１０において、学習用コンテンツの中に、まだ、注目コンテンツとしていない学習用コンテンツがあると判定された場合、処理は、ステップＳ２０２に戻り、以下、同様の処理が繰り返される。

また、ステップＳ２１０において、学習用コンテンツのすべてが、注目コンテンツとしたと判定された場合、処理は、ステップＳ２１１に進み、学習部２２３は、音声特徴量記憶部２２２に記憶された、学習用コンテンツの音声特徴量（各フレームの音声特徴量の時系列）を用いて、音声HMMの学習を行う。

そして、学習部２２３は、学習後の音声HMMを、音声コンテンツモデルとして、学習用コンテンツのカテゴリと対応付けて、音声モデル記憶部２０２ｂに出力（供給）し、音声コンテンツモデル学習処理を終了する。

なお、音声コンテンツモデル学習処理は、任意のタイミングで開始することができる。

以上の音声コンテンツモデル学習処理によれば、音声HMMにおいて、学習用コンテンツに潜む、コンテンツの構造（例えば、音声等が作り出す構造）が自己組織的に獲得される。

その結果、音声コンテンツモデル学習処理よって得られる音声コンテンツモデルとしての音声HMMの各状態は、学習によって獲得されたコンテンツの構造の要素に対応し、状態遷移は、コンテンツの構造の要素どうしの間での、時間的な遷移を表現する。

そして、音声コンテンツモデルの状態は、音声特徴量空間（音声特徴量抽出部２２１（図３６）で抽出される音声特徴量の空間）において、空間的な距離が近く、かつ、時間的な前後関係が似ているフレーム群（つまり「似たシーン」）をまとめて表現する。

次に、図４１のフローチャートを参照して、図３６のコンテンツモデル学習部２０１が行う対象物コンテンツモデル学習処理について説明する。尚、図４１におけるステップＳ２３１の処理は、図８のステップＳ１１の処理と同様であるのでその説明は省略するものとする。

ステップＳ２３２では、対象物特徴量抽出部２２４のフレーム分割部２６２が、学習用コンテンツ選択部２１からの学習用コンテンツの中の、まだ、注目学習用コンテンツ（以下、注目コンテンツともいう）に選択していない学習用コンテンツの１つを、注目コンテンツに選択する。

そして、処理は、ステップＳ２３２からステップＳ２３３に進み、フレーム分割部２６２は、注目コンテンツのフレームのうちの、まだ、注目フレームとしていない、時間的に最も先行するフレームを、注目フレームに選択し、処理は、ステップＳ２３４に進む。

ステップＳ２３４では、フレーム分割部２６２は、注目フレームを、複数のサブ領域に分割し、サブ領域特徴量抽出部２６３に供給して、処理は、ステップＳ２３５に進む。

ステップＳ２３５では、対象物抽出部２６１は、注目フレームに含まれる対象物を検出し、検出した対象物を含む領域を矩形領域とし、矩形領域の左上座標と幅及び高さからなるベクトルをサブ領域特徴量抽出部２６３に出力する。

ステップＳ２３６では、サブ領域特徴量抽出部２６３は、フレーム分割部２６２からの各サブ領域R_nについて、対象物を含む矩形領域になっているピクセル数V_nをカウントする。さらに、サブ領域特徴量抽出部２６３は、サブ領域R_nに含まれる全ピクセル数S_nで、各サブ領域R_nにおける矩形領域となっているピクセル数V_nを除算して正規化し、サブ領域特徴量F_n=V_n/S_nとして結合部２６４に供給する。

ステップＳ２３７では、結合部２６４は、サブ領域特徴量抽出部２６３からの、注目フレームを構成する複数のサブ領域R_nそれぞれのサブ領域特徴量F_nを結合することで、注目フレームの対象物特徴量を生成し、処理は、ステップＳ２３８に進む。

ステップＳ２３８では、フレーム分割部２６２は、注目コンテンツのすべてのフレームを注目フレームとしたかどうかを判定する。

ステップＳ２３８において、注目コンテンツのフレームの中に、まだ、注目フレームとしていないフレームがあると判定された場合、処理は、ステップＳ２３３に戻り、以下、同様の処理が繰り返される。

また、ステップＳ２３８において、注目コンテンツのすべてのフレームを注目フレームとしたと判定された場合、処理は、ステップＳ２３９に進み、結合部２４４は、注目コンテンツについて求めた注目コンテンツの各フレームの対象物特徴量（の時系列）を、対象物特徴量記憶部２２５に供給して記憶させる。

そして、処理は、ステップＳ２３９からステップＳ２４０に進み、フレーム分割部２６２は、学習用コンテンツ選択部２１からの学習用コンテンツのすべてを、注目コンテンツとしたかどうかを判定する。

ステップＳ２４０において、学習用コンテンツの中に、まだ、注目コンテンツとしていない学習用コンテンツがあると判定された場合、処理は、ステップＳ２３２に戻り、以下、同様の処理が繰り返される。

また、ステップＳ２４０において、学習用コンテンツのすべてを、注目コンテンツとしたと判定された場合、処理は、ステップＳ２４１に進む。ステップＳ２４１において、学習部２２６は、対象物特徴量記憶部２２５に記憶された、学習用コンテンツの対象物特徴量（各フレームの対象物特徴量の時系列）を用いて、対象物HMMの学習を行う。

そして、学習部２２６は、学習後の対象物HMMを、対象物コンテンツモデルとして、学習用コンテンツのカテゴリと対応付けて、対象物モデル記憶部２０２ｃに出力（供給）し、対象物コンテンツモデル学習処理を終了する。

なお、対象物コンテンツモデル学習処理は、任意のタイミングで開始することができる。

以上の対象物コンテンツモデル学習処理によれば、対象物HMMにおいて、学習用コンテンツに潜む、コンテンツの構造（例えば、対象物の登場の有無等が作り出す構造）が自己組織的に獲得される。

その結果、対象物コンテンツモデル学習処理よって得られる対象物コンテンツモデルとしての対象物HMMの各状態は、学習によって獲得されたコンテンツの構造の要素に対応し、状態遷移は、コンテンツの構造の要素どうしの間での、時間的な遷移を表現する。

そして、対象物コンテンツモデルの状態は、対象物特徴量空間（対象物特徴量抽出部２２４（図３６）で抽出される対象物特徴量の空間）において、空間的な距離が近く、かつ、時間的な前後関係が似ているフレーム群（つまり「似たシーン」）をまとめて表現する。

次に、コンテンツ構造提示部２０３の構成例について説明する。コンテンツ構造提示部２０３の構成例については、例えば、後述する初期スクラップブック生成部３７１（図４８）における、状態選択部４１９、および選択状態登録部４２０を除いた構成となる。これは、画像コンテンツモデル、音声コンテンツモデル、および対象物コンテンツモデルのそれぞれに対応したコンテンツ構造提示部１４が設けられることにより構成されるものであるからである。

また、コンテンツ構造提示部２０３のコンテンツ構造提示処理は、画像コンテンツモデル、音声コンテンツモデル、および対象物コンテンツモデルのそれぞれのコンテンツ構造のマップ画像を個別に、または各々独立したウィンドウに表示する処理となる。従って、画像コンテンツモデル、音声コンテンツモデル、および対象物コンテンツモデルのそれぞれについて、上述したコンテンツ構造提示部１４（図９）におけるコンテンツ構造提示処理（図１３）の処理と、同一の処理により実現されるものである。

以上のことから、コンテンツ構造提示部２０３の構成例と、そのコンテンツ構造提示処理については、その説明を省略するものとする。

［ダイジェスト生成部２０４の構成例］

図４２は、図３５のダイジェスト生成部２０４の構成例を示すブロック図である。

ダイジェスト生成部２０４は、ハイライト検出器学習部２９１、検出器記憶部２９２、及び、ハイライト検出部２９３から構成される。

ハイライト検出器学習部２９１、検出器記憶部２９２、及び、ハイライト検出部２９３は、基本的に、ハイライト検出器学習部５１、検出器記憶部５２、及び、ハイライト検出部５３と同様の機能を備えているが、いずれも画像コンテンツモデル、音声コンテンツモデル、および対象物コンテンツモデルに対応した処理を実行することができる。

［ハイライト検出器学習部２９１の構成例］

図４３は、図４２のハイライト検出器学習部２９１の構成例を示すブロック図である。尚、図４３におけるハイライト検出器学習部２９１の構成について、図１５のハイライト検出器学習部５１の構成と同一の機能を備える構成については、同一の符号を付しており、その説明は、適宜省略するものとする。

すなわち、ハイライト検出器学習部２９１において、ハイライト検出器学習部５１の構成と異なる構成は、画像特徴量、音声特徴量、および対象物特徴量に対応したモデル選択部６２、特徴量抽出部６３、および最尤状態系列推定部６４を備えている点である。より具体的には、ハイライト検出器学習部２９１は、画像特徴量に対応した画像モデル選択部３１１、画像特徴量抽出部３１２、および画像最尤状態系列推定部３１３を備えている。また、ハイライト検出器学習部２９１は、音声特徴量に対応した音声モデル選択部３１６、音声特徴量抽出部３１７、および音声最尤状態系列推定部３１８を備えている。さらに、ハイライト検出器学習部２９１は、対象物特徴量に対応した、対象物モデル選択部３１９、対象物特徴量抽出部３２０、および対象物最尤状態系列推定部３２１を備えている。

ただし、画像コンテンツモデルを対象とした画像モデル選択部３１１、画像特徴量抽出部３１２、および画像最尤状態系列推定部３１３は、モデル選択部６２、特徴量抽出部６３、および最尤状態系列推定部６４と同様のものである。また、音声モデル選択部３１６、音声特徴量抽出部３１７、および音声最尤状態系列推定部３１８は、扱う特徴量が音声特徴量である点を除き、基本的な機能は、モデル選択部６２、特徴量抽出部６３、および最尤状態系列推定部６４と同様である。さらに、対象物モデル選択部３１９、対象物特徴量抽出部３２０、および対象物最尤状態系列推定部３２１も、扱う特徴量が対象物特徴量である点を除き、基本的な機能は、モデル選択部６２、特徴量抽出部６３、および最尤状態系列推定部６４と同様である。

さらに、画像モデル選択部３１１は、モデル記憶部２０２のうちの画像モデル記憶部２０２ａより画像コンテンツモデルのいずれかを選択する。音声モデル選択部３１６は、モデル記憶部２０２のうちの音声モデル記憶部２０２ｂより音声コンテンツモデルのいずれかを選択する。対象物モデル選択部３１９は、モデル記憶部２０２のうちの対象物モデル記憶部２０２ｃより対象物コンテンツモデルのいずれかを選択する。

また、図４３のハイライト検出器学習部２９１においては、学習用ラベル生成部６６に代えて、学習用ラベル生成部３１４を備えている。学習用ラベル生成部３１４は、基本的な機能は、学習用ラベル生成部６６と同様である。学習用ラベル生成部３１４は、画像最尤状態系列推定部３１３より、注目モデルとしての画像コンテンツモデルにおいて注目コンテンツの画像特徴量が観測されるときの最尤状態系列（画像最尤状態系列とも称する）である状態IDの系列を取得する。学習用ラベル生成部３１４は、音声最尤状態系列推定部３１８より、注目モデルとしての音声コンテンツモデルにおいて注目コンテンツの音声特徴量が観測されるときの最尤状態系列（音声最尤状態系列とも称する）である状態IDの系列を取得する。学習用ラベル生成部３１４は、対象物最尤状態系列推定部３１９より、注目モデルとしての対象物コンテンツモデルにおいて注目コンテンツの対象物特徴量が観測されるときの最尤状態系列（対象物最尤状態系列とも称する）である状態IDの系列を取得する。学習用ラベル生成部３１４は、ハイライトラベル生成部６５からのハイライトラベル系列を取得する。そして、学習用ラベル生成部３１４は、画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列である状態IDの系列、並びにハイライトラベル系列からなる学習用ラベル系列を生成する。

すなわち、学習用ラベル生成部３１４は、画像、音声、および対象物それぞれの最尤状態系列の状態ID、並びに、ハイライトラベル系列における、各時刻tの状態IDと、ハイライトラベルとを合成したマルチストリームの学習用ラベル系列を生成する。

したがって、学習用ラベル生成部３１４は、上述した式（２）におけるストリーム数M＝４の構成要素系列からなるマルチストリームの学習用ラベル系列を生成する。そして、学習用ラベル生成部３１４は、マルチストリームの学習用ラベル系列を、学習部３１５に供給する。

学習部３１５は、学習用ラベル生成部３１４からの学習用ラベル系列を用いて、例えば、エルゴディック型の、マルチストリームHMMであるハイライト検出器の学習を、Baum-Welchの再推定法に従って行う。

そして、学習部３１５は、学習後のハイライト検出器を、コンテンツ選択部６１で選択された注目コンテンツのカテゴリと対応付けて、検出器記憶部２９２に供給して記憶させる。

尚、学習部３１５におけるマルチストリームHMMの学習においては、上述したようにM=４の４種類の構成要素系列で構成されるため、各構成要素系列の系列重みをW₁ないしW₄とし、例えば、全てを均等に割付ける場合、いずれも1/4（=0.25）とすることができる。また、ストリーム数Mについて一般化すると、各系列の系列重みについて均等とする場合、いずれの系列重みも1/Mとすることができる。

［ハイライト検出器学習処理］

図４４は、図４３のハイライト検出器学習部２９１が行う処理（ハイライト検出器学習処理）を説明するフローチャートである。

ステップＳ２６１では、コンテンツ選択部６１は、コンテンツ記憶部１１に記憶されたコンテンツの中から、例えば、ユーザの操作によって再生が指定されたコンテンツを、注目コンテンツ（注目検出器学習用コンテンツ）に選択する。

そして、コンテンツ選択部６１は、注目コンテンツを、画像特徴量抽出部３１２、音声特徴量抽出部３１７、および対象物特徴量抽出部３２０のそれぞれに供給する。また、コンテンツ選択部６１は、注目コンテンツのカテゴリを認識し、画像モデル選択部３１１、音声モデル選択部３１６、および対象物モデル選択部３１９に供給して、処理は、ステップＳ２６１からステップＳ２６２に進む。

ステップＳ２６２では、画像モデル選択部３１１は、画像モデル記憶部２０２ａに記憶された画像コンテンツモデルの中から、コンテンツ選択部６１からの、注目コンテンツのカテゴリに対応付けられた画像コンテンツモデルを、注目モデルに選択する。

そして、画像モデル選択部３１１は、注目モデルを、画像最尤状態系列推定部３１３に供給して、処理は、ステップＳ２６２からステップＳ２６３に進む。

ステップＳ２６３では、画像特徴量抽出部３１２は、コンテンツ選択部６１から供給される注目コンテンツの各フレームの画像特徴量を抽出し、注目コンテンツの各フレームの画像特徴量（の時系列）を、画像最尤状態系列推定部３１３に供給する。そして、処理は、ステップＳ２６４に進む。

ステップＳ２６４では、画像最尤状態系列推定部３１３は、画像モデル選択部３１１からの注目モデルにおいて、画像特徴量抽出部３１２からの注目コンテンツの画像特徴量（の時系列）が観測される尤度が最も高い状態遷移が生じる画像最尤状態系列を推定する。

そして、画像最尤状態系列推定部３１３は、注目コンテンツに対する注目モデルの画像最尤状態系列を、学習用ラベル生成部３１４に供給して、処理は、ステップＳ２６４からステップＳ２６５に進む。

ステップＳ２６５では、音声モデル選択部３１６は、音声モデル記憶部２０２ｂに記憶された音声コンテンツモデルの中から、コンテンツ選択部６１からの、注目コンテンツのカテゴリに対応付けられた音声コンテンツモデルを、注目モデルに選択する。

そして、音声モデル選択部３１６は、注目モデルを、音声最尤状態系列推定部３１８に供給して、処理は、ステップＳ２６５からステップＳ２６６に進む。

ステップＳ２６６では、音声特徴量抽出部３１７は、コンテンツ選択部６１から供給される注目コンテンツの各フレームの音声特徴量を抽出し、注目コンテンツの各フレームの音声特徴量（の時系列）を、音声最尤状態系列推定部３１８に供給する。そして、処理は、ステップＳ２６７に進む。

ステップＳ２６７では、音声最尤状態系列推定部３１８は、音声モデル選択部３１６からの注目モデルにおいて、音声特徴量抽出部３１７からの注目コンテンツの音声特徴量（の時系列）が観測される尤度が最も高い状態遷移が生じる音声最尤状態系列を推定する。

そして、音声最尤状態系列推定部３１８は、注目コンテンツに対する注目モデルの音声最尤状態系列を、学習用ラベル生成部３１４に供給して、処理は、ステップＳ２６７からステップＳ２６８に進む。

ステップＳ２６８では、対象物モデル選択部３１９は、対象物モデル記憶部２０２ｃに記憶された対象物コンテンツモデルの中から、コンテンツ選択部６１からの、注目コンテンツのカテゴリに対応付けられた対象物コンテンツモデルを、注目モデルに選択する。

そして、対象物モデル選択部３１９は、注目モデルを、対象物最尤状態系列推定部３２１に供給して、処理は、ステップＳ２６８からステップＳ２６９に進む。

ステップＳ２６９では、対象物特徴量抽出部３２０は、コンテンツ選択部６１から供給される注目コンテンツの各フレームの対象物特徴量を抽出し、注目コンテンツの各フレームの対象物特徴量（の時系列）を、対象物最尤状態系列推定部３２１に供給する。そして、処理は、ステップＳ２７０に進む。

ステップＳ２７０では、対象物最尤状態系列推定部３２１は、対象物モデル選択部３１９からの注目モデルにおいて、対象物特徴量抽出部３２０からの注目コンテンツの対象物特徴量（の時系列）が観測される尤度が最も高い状態遷移が生じる対象物最尤状態系列を推定する。

そして、対象物最尤状態系列推定部３２１は、注目コンテンツに対する注目モデルの対象物最尤状態系列を、学習用ラベル生成部３１４に供給して、処理は、ステップＳ２７０からステップＳ２７１に進む。

ステップＳ２７１では、ハイライトラベル生成部６５は、ユーザの操作に従い、ハイライトラベルを、コンテンツ選択部６１で選択された注目コンテンツの各フレームにラベリングすることにより、注目コンテンツについて、ハイライトラベル系列を生成する。

そして、ハイライトラベル生成部６５は、注目コンテンツについて生成したハイライトラベル系列を、学習用ラベル生成部３１４に供給し、処理は、ステップＳ２７２に進む。

ステップＳ２７２では、学習用ラベル生成部３１４は、画像最尤状態系列推定部３１３からの注目コンテンツに対する注目モデルの画像最尤状態系列の状態IDの系列を取得する。また、学習用ラベル生成部３１４は、音声最尤状態系列推定部３１８からの注目コンテンツに対する注目モデルの音声最尤状態系列の状態IDの系列を取得する。さらに、学習用ラベル生成部３１４は、対象物最尤状態系列推定部３２１からの注目コンテンツに対する注目モデルの対象物最尤状態系列の状態IDの系列を取得する。また、学習用ラベル生成部３１４は、ハイライトラベル生成部６５からのハイライトラベル系列を取得する。そして、学習用ラベル生成部３１４は、これらの画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列であるそれぞれの状態IDの系列、およびハイライトラベル系列の４系列を組み合わせて学習用ラベル系列を生成する。

そして、学習用ラベル生成部３１４は、学習用ラベル系列を、学習部３１５に供給し、処理は、ステップＳ２７２からステップＳ２７３に進む。

ステップＳ２７３では、学習部３１５は、学習用ラベル生成部３１４からの学習用ラベル系列を用いて、マルチストリームHMMであるハイライト検出器の学習を行い、処理は、ステップＳ２７４に進む。

ステップＳ２７４では、学習部３１５は、学習後のハイライト検出器を、コンテンツ選択部６１で選択された注目コンテンツのカテゴリと対応付けて、検出器記憶部２９２に供給して記憶させる。

以上のように、ハイライト検出器は、注目コンテンツの注目モデルの画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列の状態IDの系列と、ハイライトラベル系列の４系列の学習用ラベル系列を用いた、マルチストリームHMMの学習により得られる。

したがって、ハイライト検出器の各状態の、ハイライトラベル系列の観測確率を参照することにより、その状態で観測される（確率が高い）、コンテンツモデルの状態に対応するフレームが、ユーザの興味があるシーン（ハイライトシーン）であるかどうかを判定することができる。

［ハイライト検出部２９３の構成例］

図４５は、図４２のハイライト検出部２９３の構成例を示すブロック図である。尚、図４５のハイライト検出部２９３において、図１８のハイライト検出部５３における構成と同一の機能を備えた構成については、同一の符号を付しており、その説明は省略するものとする。

図４５においてのハイライト検出部２９３は、基本的に図１８のハイライト検出部５３と同様の機能を備えたものであるが、画像特徴量、音声特徴量、および対象物特徴量のそれぞれに対応して検出用ラベルを生成する点で異なる。

すなわち、画像モデル選択部３４１、画像特徴量抽出部３４２、および画像最尤状態系列推定部３４３は、図４３のハイライト検出器学習部２９１の画像モデル選択部３１１、画像特徴量抽出部３１２、および画像最尤状態系列推定部３１３と同様である。また、音声モデル選択部３５０、音声特徴量抽出部３５１、および音声最尤状態系列推定部３５２は、図４３のハイライト検出器学習部２９１の音声モデル選択部３１６、音声特徴量抽出部３１７、および音声最尤状態系列推定部３１８と同様である。さらに、対象物モデル選択部３５３、対象物特徴量抽出部３５４、および対象物最尤状態系列推定部３５５は、図４３のハイライト検出器学習部２９１の対象物モデル選択部３１９、対象物特徴量抽出部３２０、および対象物最尤状態系列推定部３２１と同様である。

このような構成により、検出用ラベル生成部３４４には、注目コンテンツに対する注目モデルの画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列のそれぞれの状態IDの系列が検出用ラベル生成部３４４に供給される。

検出用ラベル生成部３４４は、注目コンテンツに対する注目モデルの画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列のそれぞれである状態IDの系列、並びに、ハイライトラベルのみのハイライトラベル系列からなる検出用ラベル系列を生成する。

すなわち、検出用ラベル生成部３４４は、ハイライトシーンでないことを表すハイライトラベルのみのハイライトラベル系列であって、画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列の系列と同一の長さ（系列長）のハイライトラベル系列を、ハイライト検出器に与える、いわばダミーの系列として生成する。

さらに、検出用ラベル生成部３４４は、画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列のそれぞれである状態ID、並びに、ダミーの系列のハイライトラベル系列における、各時刻tの状態IDと、ハイライトラベルとを組み合わせた、マルチストリームの検出用ラベル系列を生成する。

そして、検出用ラベル生成部３４４は、検出用ラベル系列を、最尤状態系列推定部３４６に供給する。

尚、検出用ラベル系列の観測確率を求める際の、画像最尤状態系列、音声最尤状態系列、対象物最尤状態系列、およびダミーの系列としてのハイライトラベル系列のそれぞれの系列の系列重みW₁乃至W₄は、（W₁：W₂：W₃：W₄）＝（1/3：1/3：1/3：0）を用いる。これにより、最尤状態系列推定部３４６では、ダミーの系列として入力されたハイライトラベル系列を考慮せずに、注目コンテンツに対する注目モデルの画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列のみを考慮して、ハイライト関係状態系列の推定が行われることになる。また、ストリーム数Mの場合の重みを一般化すると、ハイライトラベル系列の重みを0として、それ以外の系列の系列重みを均等にする場合、いずれの系列重みも1/(M-1)となる。

また、検出器選択部３４５、最尤状態系列推定部３４６、ハイライトシーン検出部３４７、ダイジェストコンテンツ生成部３４８、および再生制御部３４９は、扱うマルチストリームの検出用ラベルが、４つのストリームからなる検出用ラベル系列となる。それ以外の点については、図１８における検出器選択部７６、最尤状態系列推定部７７、ハイライトシーン検出部７８、ダイジェストコンテンツ生成部７９、および再生制御部８０と基本的に同様の機能であるので、その説明は省略する。

［ハイライト検出処理］

図４６は、図４５のハイライト検出部２９３の処理（ハイライト検出処理）を説明するフローチャートである。

ステップＳ２９１において、コンテンツ選択部７１は、コンテンツ記憶部１１に記憶されたコンテンツの中から、ハイライトシーンを検出する対象のコンテンツである注目コンテンツ（注目ハイライト検出用コンテンツ）を選択する。

そして、コンテンツ選択部７１は、注目コンテンツを、画像特徴量抽出部３４２、音声特徴量抽出部３５１、および対象物特徴量抽出部３５４に供給する。さらに、コンテンツ選択部７１は、注目コンテンツのカテゴリを認識し、画像モデル選択部３４１、音声モデル選択部３５０、および対象物モデル選択部３５３、並びに検出器選択部３４５に供給して、処理は、ステップＳ２９１からステップＳ２９２に進む。

ステップＳ２９２では、画像モデル選択部３４１は、画像モデル記憶部２０２ａに記憶された画像コンテンツモデルの中から、コンテンツ選択部７１からの、注目コンテンツのカテゴリに対応付けられた画像コンテンツモデルを、注目モデルに選択する。

そして、画像モデル選択部３４１は、注目モデルを、画像最尤状態系列推定部３４３に供給し、処理は、ステップＳ２９２からステップＳ２９３に進む。

ステップＳ２９３では、画像特徴量抽出部３４２は、コンテンツ選択部７１から供給される注目コンテンツの各フレームの画像特徴量を抽出し、画像最尤状態系列推定部３４３に供給して、処理は、ステップＳ２９４に進む。

ステップＳ２９４では、画像最尤状態系列推定部３４３は、画像モデル選択部３４１からの注目モデルにおいて、画像特徴量抽出部３４２からの注目コンテンツの画像特徴量（の時系列）が観測される尤度が最も高い状態遷移が生じる画像最尤状態系列（注目コンテンツに対する注目モデルの画像最尤状態系列）を推定する。

そして、最尤状態系列推定部２９４は、注目コンテンツに対する注目モデルの画像最尤状態系列を、検出用ラベル生成部３４４に供給し、処理は、ステップＳ２９４からステップＳ２９５に進む。

ステップＳ２９５では、音声モデル選択部３５０は、音声モデル記憶部２０２ｂに記憶された音声コンテンツモデルの中から、コンテンツ選択部７１からの、注目コンテンツのカテゴリに対応付けられた音声コンテンツモデルを、注目モデルに選択する。

そして、音声モデル選択部３５０は、注目モデルを、音声最尤状態系列推定部３５２に供給し、処理は、ステップＳ２９５からステップＳ２９６に進む。

ステップＳ２９６では、音声特徴量抽出部３５１は、コンテンツ選択部７１から供給される注目コンテンツの各フレームの音声特徴量を抽出し、音声最尤状態系列推定部３５２に供給して、処理は、ステップＳ２９７に進む。

ステップＳ２９７では、音声最尤状態系列推定部３５２は、音声モデル選択部３５０からの注目モデルにおいて、音声特徴量抽出部３５１からの注目コンテンツの音声特徴量（の時系列）が観測される尤度が最も高い状態遷移が生じる音声最尤状態系列（注目コンテンツに対する注目モデルの音声最尤状態系列）を推定する。

そして、音声最尤状態系列推定部３５２は、注目コンテンツに対する注目モデルの音声最尤状態系列を、検出用ラベル生成部３４４に供給し、処理は、ステップＳ２９７からステップＳ２９８に進む。

ステップＳ２９８では、対象物モデル選択部３５３は、対象物モデル記憶部２０２ｃに記憶された対象物コンテンツモデルの中から、コンテンツ選択部７１からの、注目コンテンツのカテゴリに対応付けられた対象物コンテンツモデルを、注目モデルに選択する。

そして、対象物モデル選択部３５３は、注目モデルを、対象物最尤状態系列推定部３５５に供給し、処理は、ステップＳ２９８からステップＳ２９９に進む。

ステップＳ２９９では、対象物特徴量抽出部３５４は、コンテンツ選択部７１から供給される注目コンテンツの各フレームの対象物特徴量を抽出し、対象物最尤状態系列推定部３５５に供給して、処理は、ステップＳ３００に進む。

ステップＳ３００では、対象物最尤状態系列推定部３５５は、対象物モデル選択部３５３からの注目モデルにおいて、対象物特徴量抽出部３５４からの注目コンテンツの対象物特徴量（の時系列）が観測される尤度が最も高い状態遷移が生じる対象物最尤状態系列（注目コンテンツに対する注目モデルの対象物最尤状態系列）を推定する。

そして、対象物最尤状態系列推定部３５５は、注目コンテンツに対する注目モデルの対象物最尤状態系列を、検出用ラベル生成部３４４に供給し、処理は、ステップＳ３００からステップＳ３０１に進む。

ステップＳ３０１では、検出用ラベル生成部３４４は、ダミーのハイライトラベル系列として、例えば、ハイライトシーンでないことを表すハイライトラベル（値が"0"のハイライトラベル）のみのハイライトラベル系列を生成し、処理は、ステップＳ３０２に進む。

ステップＳ３０２では、検出用ラベル生成部３４４は、注目コンテンツに対する注目モデルの画像最尤状態系列、音声最尤状態系列、対象物最尤状態系列のそれぞれである状態IDの系列、及びダミーのハイライトラベル系列の４系列の検出用ラベル系列を生成する。

そして、検出用ラベル生成部３４４は、検出用ラベル系列を、最尤状態系列推定部３４６に供給して、処理は、ステップＳ３０２からステップＳ３０３に進む。

ステップＳ３０３では、検出器選択部３４５は、検出器記憶部２９２に記憶されたハイライト検出器の中から、コンテンツ選択部７１からの、注目コンテンツのカテゴリに対応付けられたハイライト検出器を、注目検出器に選択する。そして、検出器選択部３４５は、検出器記憶部２９２に記憶されたハイライト検出器の中から、注目検出器を取得し、最尤状態系列推定部３４６とハイライトシーン検出部３４７とに供給して、処理は、ステップＳ３０３からステップＳ３０４に進む。

ステップＳ３０４では、最尤状態系列推定部３４６は、検出器選択部３４５からの注目検出器において、検出用ラベル生成部３４４からの検出用ラベル系列が観測される尤度が最も高い状態遷移が生じる最尤状態系列（ハイライト関係状態系列）を推定する。

そして、最尤状態系列推定部３４６は、ハイライト関係状態系列を、ハイライトシーン検出部３４７に供給して、処理は、ステップＳ３０４からステップＳ３０５に進む。

ステップＳ３０５では、ハイライトシーン検出部３４７は、最尤状態系列推定部３４６からのハイライト関係状態系列の各状態のハイライトラベルの観測確率に基づいて、注目コンテンツから、ハイライトシーンを検出し、ハイライトフラグを出力するハイライトシーン検出処理を行う。

そして、ハイライトシーン検出処理の終了後、処理は、ステップＳ３０５からステップＳ３０６に進み、ダイジェストコンテンツ生成部３４８は、コンテンツ選択部７１からの注目コンテンツのフレームから、ハイライトシーン検出部３４７が出力するハイライトフラグによって特定されるハイライトシーンのフレームを抽出する。

さらに、ダイジェストコンテンツ生成部３４８は、注目コンテンツのフレームから抽出したハイライトシーンのフレームを用いて、注目コンテンツのダイジェストコンテンツを生成し、再生制御部３４９に供給して、処理は、ステップＳ３０６からステップＳ３０７に進む。

ステップＳ３０７では、再生制御部４９は、ダイジェストコンテンツ生成部３４８からのダイジェストコンテンツを再生する再生制御を行う。

尚、ステップＳ３０５におけるハイライトシーン検出処理については、図２０におけるステップＳ８９の処理、すなわち、図２１のフローチャートを参照して説明した処理と同様であるので、その説明は省略するものとする。

以上のように、ハイライト検出部２９３は、ハイライト検出器において、画像、音声、および対象物最尤状態系列のそれぞれである状態IDの系列、及びダミーのハイライトラベル系列から検出用ラベル系列が観測される最尤状態系列のハイライト関係状態系列を推定する。そして、ハイライト検出部２９３は、そのハイライト関係状態系列の各状態のハイライトラベルの観測確率に基づいて、注目コンテンツから、ハイライトシーンのフレームを検出して、そのハイライトシーンのフレームを用いて、ダイジェストコンテンツを生成する。

また、ハイライト検出器は、コンテンツに対するコンテンツモデルの画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列である状態IDの系列、並びにユーザの操作に応じて生成されるハイライトラベル系列の４系列の組み合わせからなる学習用ラベル系列を用いて、HMMの学習を行うことにより得られる。

［スクラップブック生成部２０５の構成例］

図４７は、図３５のスクラップブック生成部２０５の構成例を示すブロック図である。

スクラップブック生成部２０５は、初期スクラップブック生成部３７１、初期スクラップブック記憶部３７２、登録スクラップブック生成部３７３、登録スクラップブック記憶部３７４、及び、再生制御部３７５から構成される。

初期スクラップブック生成部３７１、初期スクラップブック記憶部３７２、登録スクラップブック生成部３７３、登録スクラップブック記憶部３７４、及び、再生制御部３７５は、基本的に初期スクラップブック生成部１０１ないし再生制御部１０５と同様である。しかしながら、いずれも、画像特徴量に基づいた画像コンテンツモデルだけでなく、さらに、音声特徴量に基づいた音声コンテンツモデル、および対象物特徴量に基づいた対象物コンテンツモデルに対応した処理を実行する。

［初期スクラップブック生成部３７１の構成例］

図４８は、図４７の初期スクラップブック生成部３７１の構成例を示すブロック図である。尚、図４８の初期スクラップブック生成部３７１の構成において、図２３の初期スクラップブック生成部１０１と同一の機能を備えた構成については、同一の符号を付しており、その説明は適宜省略するものとする。

また、図４８において、初期スクラップブック生成部３７１の、画像モデル選択部４１１、画像特徴量抽出部４１２、画像最尤状態系列推定部４１３、画像状態対応画像情報生成部４１４、画像状態間距離算出部４１５、画像座標算出部４１６、画像マップ描画部４１７は、それぞれモデル選択部１１２、特徴量抽出部１１３、最尤状態系列推定部１１４、状態対応画像情報生成部１１５、状態間距離算出部１１６、座標算出部１１７、およびマップ描画部１１８と同一であるので、その説明は省略する。

すなわち、画像モデル選択部４１１ないし画像マップ描画部４１７は、コンテンツ構造提示部１４（図９）のモデル選択部３２ないしマップ描画部３８と同様に構成され、図１３で説明した画像特徴量に基づいたコンテンツ構造提示処理を行う。

また、音声モデル選択部４２１、音声特徴量抽出部４２２、音声最尤状態系列推定部４２３、音声状態対応画像情報生成部４２４、音声状態間距離算出部４２５、音声座標算出部４２６、および音声マップ描画部４２７は、いずれも扱う対象が音声特徴量であることを除き、画像モデル選択部４１１、画像特徴量抽出部４１２ないし画像マップ描画部４１７と同様の処理を行う。

さらに、対象物モデル選択部４２８、対象物特徴量抽出部４２９、対象物最尤状態系列推定部４３０、対象物状態対応画像情報生成部４３１、対象物状態間距離算出部４３２、対象物座標算出部４３３、および対象物マップ描画部４３４は、いずれも扱う対象が対象物特徴量であることを除き、それぞれ画像モデル選択部４１１ないし画像マップ描画部４１７と同様の処理を行う。

また、表示制御部４１８、状態選択部４１９、及び、選択状態登録部４２０は、図２３の表示制御部１１９、状態選択部１２１、及び、選択状態登録部１２２と、それぞれ同様の処理を行う。

従って、初期スクラップブック生成部３７１では、コンテンツ構造提示処理が行われることにより、モデルマップ（図１１、図１２）が、画像特徴量、音声特徴量、および対象物特徴量のそれぞれに基づいて、図示せぬディスプレイに表示される。そして、画像特徴量、音声特徴量、および対象物特徴量のそれぞれに基づいたモデルマップ上の状態が、ユーザの操作によって指定された場合に、その指定された状態（選択状態）の状態IDが、（空の）スクラップブックに登録される。

図４９は、ユーザがモデルマップ上の状態を指定するための、表示制御部４１８が表示制御を行うことによって表示されるユーザインターフェースの例を示す図である。尚、図２４のウィンドウ１３１における表示と、同一の機能を備える表示については、同一の符号を付しており、その説明は適宜省略するものとする。

図４９では、ウインドウ４５１に、画像マップ描画部４１７で生成された画像特徴量に基づいたモデルマップ４６２、および、音声マップ描画部４２７で生成された音声特徴量に基づいたモデルマップ４６３が表示されている。尚、図４９の例においては、示されていないが、対象物マップ描画部４３４で生成された対象物特徴量に基づいたモデルマップも合わせて表示することも当然のことながら可能である。また、画像特徴量、音声特徴量、および対象物特徴量以外の他の特徴量を扱う場合、さらに、他の特徴量に基づいたモデルマップを描画して表示させることもできる。さらに、それぞれのモデルマップを異なるウィンドウにして表示することもできる。

ウインドウ４５１内のモデルマップ４６２，４６３上の状態は、ユーザが指定することにより、いわゆるフォーカスをあてることができる。ユーザによる状態の指定は、例えば、マウス等のポインティングデバイスでクリックすることや、ポインティングデバイスの操作に応じて移動するカーソルを、フォーカスをあてようとする状態の位置に移動すること等によって行うことができる。

また、モデルマップ４６２，４６３上の状態のうち、既に、選択状態になっている状態と、選択状態になっていない状態とは、異なる色等の、異なる表示形式で表示することができる。

ウインドウ４５１の下部における表示において、図２４のウィンドウ１３１と異なるのは、状態ID入力欄１３３に代えて、画像状態ID入力欄４７１、および音声状態ID入力欄４７２が設けられている点である。

画像状態ID入力欄４７１には、画像特徴量に基づいたモデルマップ４６２上の状態のうちの、フォーカスがあたっている状態の状態IDが表示される。

音声状態ID入力欄４７２には、音声特徴量に基づいたモデルマップ４６３上の状態のうちの、フォーカスがあたっている状態の状態IDが表示される。

なお、画像状態ID入力欄４７１、および音声状態ID入力欄４７２には、ユーザが、直接、状態IDを入力することもできる。また、対象物特徴量に基づいたモデルマップが表示される場合、併せて対象物状態ID入力欄も表示される。

ウインドウ４６１は、モデルマップ４６２，４６３上の状態のうちの、フォーカスがあたっている状態に、コンテンツ構造提示処理で生成された状態対応画像情報がリンク付けされている場合にオープンする。そして、ウインドウ４６１には、フォーカスがあたっている状態にリンク付けされている状態対応画像情報が表示される。

なお、ウインドウ４６１には、モデルマップ４６２，４６３上の、フォーカスがあたっている状態と、その状態に近い位置の状態とのそれぞれにリンク付けされた状態対応画像情報を表示することが可能である。また、ウインドウ４６１には、モデルマップ４６２，４６３上のすべての状態のそれぞれにリンク付けされた状態対応画像情報を、時間的にシーケンシャルに、又は、空間的に並列的に表示することが可能である。

ユーザは、ウインドウ４５１に表示されたモデルマップ４６２，４６３上の任意の状態をクリックすること等によって指定することができる。

ユーザによって状態が指定されると、表示制御部４１８（図４８）は、ユーザによって指定された状態にリンク付けされた状態対応画像情報を、ウインドウ４６１に表示する。

これにより、ユーザは、モデルマップ４６２，４６３上の状態に対応するフレームの画像を確認することができる。

図４８の初期スクラップブック生成部３７１では、選択状態登録部４２０により、画像モデルマップ、音声モデルマップ、および対象物モデルマップの選択状態の状態IDが、初期スクラップブックに登録される。

すなわち、図４８の初期スクラップブック生成部３７１による初期スクラップブック生成処理は、画像モデルマップ（画像特徴量に基づいたモデルマップ）、音声モデルマップ（音声特徴量に基づいたモデルマップ）、および対象物モデルマップ（対象物特徴量に基づいたモデルマップ）それぞれについて、図２５を参照して説明した処理と同様であるので、その説明は省略するものとする。

但し、図４８の初期スクラップブック生成部３７１では、画像モデルマップ、音声モデルマップ、及び、対象物モデルマップのうちの、あるモデルマップから選択（指定）された選択状態と、他のモデルマップから選択された選択状態とに、同一のフレームが対応する場合、それらの選択状態（の状態ID）は、関連づけて、初期スクラップブックに登録される。

すなわち、例えば、いま、画像モデルマップと音声モデルマップとに注目する。

注目コンテンツの各フレームは、画像モデルマップ上のいずれかの状態（画像最尤状態系列において、フレームの画像特徴量が観測される状態）に対応し、音声モデルマップ上のいずれかの状態にも対応する。

したがって、画像モデルマップから選択された選択状態と、音声モデルマップから選択された選択状態とに、注目コンテンツの同一のフレームが対応する場合がある。

この場合、同一のフレームに対応する、画像モデルマップから選択された選択状態と、音声モデルマップから選択された選択状態とは、関連づけて、初期スクラップブックに登録される。

画像モデルマップ、音声モデルマップ、及び、対象物モデルマップのうちの、任意の２つのモデルマップそれぞれから選択された２つの選択状態に、同一のフレームが対応する場合の他、画像モデルマップ、音声モデルマップ、及び、対象物モデルマップの３つのモデルマップそれぞれから選択された３つの選択状態に、同一のフレームが対応する場合も、その３つの選択状態は、関連づけて、初期スクラップブックに登録される。

なお、初期スクラップブックに登録された選択状態の状態ID（登録状態ID）のうちの、画像モデルマップから選択された選択状態（画像コンテンツモデルの状態）の状態IDを、以下、適宜、画像登録状態IDともいう。

同様に、初期スクラップブックに登録された登録状態IDのうちの、音声モデルマップから選択された選択状態（音声コンテンツモデルの状態）の状態IDを、以下、適宜、音声登録状態IDともいい、対象物モデルマップから選択された選択状態（対象物コンテンツモデルの状態）の状態IDを、以下、適宜、対象物登録状態IDともいう。

［登録スクラップブック生成部３７３の構成例］

図５０は、図４７の登録スクラップブック生成部３７３の構成例を示すブロック図である。尚、図５０の登録スクラップブック生成部３７３において、図２６の登録スクラップブック生成部１０３における構成と同一の機能を備えた構成については、同一の符号を付しており、その説明は適宜省略するものとする。

図５０において、画像モデル選択部５０１、画像特徴量抽出部５０２、画像最尤状態系列推定部５０３、及び、フレーム登録部５０５は、図２６におけるモデル選択部１４３ないし最尤状態系列推定部１４５、及び、フレーム登録部１４７と同一であるので、その説明は省略する。

また、音声モデル選択部５０６、音声特徴量抽出部５０７、および音声最尤状態系列推定部５０８は、扱う対象が音声特徴量に対応したものであることを除き、画像モデル選択部５０１ないし画像最尤状態系列推定部５０３と同様であるので、その説明は省略する。

さらに、対象物モデル選択部５０９、対象物特徴量抽出部５１０、および対象物最尤状態系列推定部５１１は、扱う処理対象が対象物特徴量に対応したものであることを除き、画像モデル選択部５０１ないし画像最尤状態系列推定部５０３と同様である。そこで、それらの説明は省略する。

フレーム抽出部５０４は、基本的に図２６のフレーム抽出部１４６と同様の機能を備えたものであるが、扱う状態系列が異なる。すなわち、フレーム抽出部５０４は、画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列の各状態IDが、スクラップブック選択部１４１からの注目スクラップブックに登録されている登録状態IDに一致するかどうかを判定する。

さらに、フレーム抽出部５０４は、状態IDが、スクラップブック選択部１４１からの注目スクラップブックに登録されている登録状態IDに一致する状態に対応するフレームを、注目コンテンツから抽出し、フレーム登録部５０５に供給する。

［登録スクラップブック生成部３７３による登録スクラップブック生成処理］

図５１は、図５０の登録スクラップブック生成部３７３が行う登録スクラップブック生成処理を説明するフローチャートである。

ステップＳ３３１において、スクラップブック選択部１４１は、初期スクラップブック記憶部３７２に記憶された初期スクラップブックのうちの、まだ、注目スクラップブックに選択されたことがない初期スクラップブックの１つを、注目スクラップブックに選択する。

そして、スクラップブック選択部１４１は、注目スクラップブックを、フレーム抽出部５０４、及び、フレーム登録部５０５に供給する。さらに、スクラップブック選択部１４１は、注目スクラップブックに対応付けられたカテゴリを、コンテンツ選択部１４２、画像モデル選択部５０１、音声モデル選択部５０６、および対象物モデル選択部５０９に供給する。そして、処理は、ステップＳ３３１からステップＳ３３２に進む。

ステップＳ３３２では、コンテンツ選択部１４２は、コンテンツ記憶部１１に記憶されたコンテンツのうちの、スクラップブック選択部１４１からのカテゴリのコンテンツの中で、注目コンテンツに選択されていないコンテンツの１つを、注目コンテンツに選択する。

そして、コンテンツ選択部１４２は、注目コンテンツを、画像特徴量抽出部５０２、音声特徴量抽出部５０７、対象物特徴量抽出部５１０、及び、フレーム抽出部５０４に供給して、処理は、ステップＳ３３２からステップＳ３３３に進む。

ステップＳ３３３では、画像モデル選択部５０１は、画像モデル記憶部２０２ａに記憶された画像コンテンツモデルの中から、スクラップブック選択部１４１からのカテゴリに対応付けられた画像コンテンツモデルを、注目モデルに選択する。

そして、画像モデル選択部５０１は、注目モデルを、画像最尤状態系列推定部５０３に供給し、処理は、ステップＳ３３３からステップＳ３３４に進む。

ステップＳ３３４では、画像特徴量抽出部５０２は、コンテンツ選択部１４２から供給される注目コンテンツの各フレームの画像特徴量を抽出し、注目コンテンツの各フレームの画像特徴量（の時系列）を、画像最尤状態系列推定部５０３に供給する。

その後、処理は、ステップＳ３３４からステップＳ３３５に進む。ステップＳ３３５において、画像最尤状態系列推定部５０３は、画像モデル選択部５０１からの注目モデルにおいて、画像特徴量抽出部５０２からの注目コンテンツの画像特徴量（の時系列）が観測される尤度が最も高い状態遷移が生じる画像最尤状態系列を推定する。

そして、画像最尤状態系列推定部５０３は、注目コンテンツに対する注目モデルの画像最尤状態系列を、フレーム抽出部５０４に供給して、処理は、ステップＳ３３５からステップＳ３３６に進む。

ステップＳ３３６では、音声モデル選択部５０６は、音声モデル記憶部２０２ｂに記憶された音声コンテンツモデルの中から、スクラップブック選択部１４１からのカテゴリに対応付けられた音声コンテンツモデルを、注目モデルに選択する。

そして、音声モデル選択部５０６は、注目モデルを、音声最尤状態系列推定部５０８に供給し、処理は、ステップＳ３３６からステップＳ３３７に進む。

ステップＳ３３７では、音声特徴量抽出部５０７は、コンテンツ選択部１４２から供給される注目コンテンツの各フレームの音声特徴量を抽出し、注目コンテンツの各フレームの音声特徴量（の時系列）を、音声最尤状態系列推定部５０８に供給する。

その後、処理は、ステップＳ３３７からステップＳ３３８に進む。ステップＳ３３８において、音声最尤状態系列推定部５０８は、音声モデル選択部５０６からの注目モデルにおいて、音声特徴量抽出部５０７からの注目コンテンツの音声特徴量（の時系列）が観測される尤度が最も高い状態遷移が生じる音声最尤状態系列を推定する。

そして、音声最尤状態系列推定部５０８は、注目コンテンツに対する注目モデルの音声最尤状態系列を、フレーム抽出部５０４に供給して、処理は、ステップＳ３３８からステップＳ３３９に進む。

ステップＳ３３９では、対象物モデル選択部５０９は、対象物モデル記憶部２０２ｃに記憶された対象物コンテンツモデルの中から、スクラップブック選択部１４１からのカテゴリに対応付けられた対象物コンテンツモデルを、注目モデルに選択する。

そして、対象物モデル選択部５０９は、注目モデルを、対象物最尤状態系列推定部５１１に供給し、処理は、ステップＳ３３９からステップＳ３４０に進む。

ステップＳ３４０では、対象物特徴量抽出部５１０は、コンテンツ選択部１４２から供給される注目コンテンツの各フレームの対象物特徴量を抽出し、注目コンテンツの各フレームの対象物特徴量（の時系列）を、対象物最尤状態系列推定部５１１に供給する。

その後、処理は、ステップＳ３４０からステップＳ３４１に進む。ステップＳ３４１において、対象物最尤状態系列推定部５１１は、対象物モデル選択部５０９からの注目モデルにおいて、対象物特徴量抽出部５１０からの注目コンテンツの対象物特徴量が観測される尤度が最も高い状態遷移が生じる対象物最尤状態系列を推定する。

そして、対象物最尤状態系列推定部５１１は、注目コンテンツに対する注目モデルの対象物最尤状態系列を、フレーム抽出部５０４に供給して、処理は、ステップＳ３４１からステップＳ３４２に進む。

ステップＳ３４２では、フレーム抽出部５０４は、時刻（注目コンテンツのフレーム数）をカウントする変数tに、初期値としての1をセットして、処理は、ステップＳ３４３に進む。

ステップＳ３４３では、フレーム抽出部５０４は、画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列の時刻tの状態（先頭からt番目の状態）の状態IDが、スクラップブック選択部１４１からの注目スクラップブックに登録されている選択状態の登録状態IDのいずれかに一致するかどうかを判定する。

ステップＳ３４３において、注目コンテンツに対する注目モデルの画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列の時刻tの状態の状態IDが、注目スクラップブックの登録状態IDのいずれかに一致すると判定された場合、処理は、ステップＳ３４４に進む。

ステップＳ３４４において、フレーム抽出部５０４は、コンテンツ選択部１４２からの注目コンテンツから、時刻tのフレームを抽出し、フレーム登録部５０５に供給して、処理は、ステップＳ３４５に進む。

また、ステップＳ３４３において、注目モデルの画像最尤状態系列、音声最尤状態系列、および対象物最尤状態系列の時刻tの状態の状態IDが、注目スクラップブックの登録状態IDのいずれかにも一致しない場合、処理は、ステップＳ３４５に進む。すなわち、ステップＳ３４４はスキップされる。

ステップＳ３４５では、フレーム抽出部５０４は、変数tが、注目コンテンツのフレームの総数N_Fに等しいかどうかを判定する。

ステップＳ３４５において、変数tが、注目コンテンツのフレームの総数N_Fに等しくないと判定された場合、処理は、ステップＳ３４６に進み、フレーム抽出部５０４は、変数tを1だけインクリメントする。その後、処理は、ステップＳ３４６からステップＳ３４３に戻り、以下、同様の処理が繰り返される。

また、ステップＳ３４５において、変数tが、注目コンテンツのフレームの総数N_Fに等しいと判定された場合、処理は、ステップＳ３４７に進む。

ステップＳ３４７において、フレーム登録部５０５は、フレーム抽出部５０４から供給されたフレーム、すなわち、注目コンテンツから抽出されたフレームすべてを、スクラップブック選択部１４１からの注目スクラップブックに登録する。

その後、処理は、ステップＳ３４７からステップＳ３４８に進む。ステップＳ３４８において、コンテンツ選択部１４２は、コンテンツ記憶部１１に記憶された、カテゴリが注目スクラップブックに対応付けられたカテゴリと同一のコンテンツの中で、まだ、注目コンテンツに選択されていないコンテンツがあるかどうかを判定する。

ステップＳ３４８において、コンテンツ記憶部１１に記憶された、カテゴリが注目スクラップブックに対応付けられたカテゴリと同一のコンテンツの中で、注目コンテンツに選択されていないコンテンツがあると判定された場合、処理は、ステップＳ３３２に戻る。

また、ステップＳ３４８において、コンテンツ記憶部１１に記憶された、カテゴリが注目スクラップブックに対応付けられたカテゴリと同一のコンテンツに、注目コンテンツに選択されていないコンテンツがないと判定された場合、処理は、ステップＳ３４９に進む。

ステップＳ３４９において、フレーム登録部５０５は、注目スクラップブックを、登録スクラップブックとして、登録スクラップブック記憶部３７４に出力し、登録スクラップブック生成処理を終了する。

図５２を参照して、登録スクラップブック生成部３７３が行う登録スクラップブック生成処理について、図２８において説明した登録スクラップブック生成部１０３による画像特徴量のみを用いた場合のスクラップブック生成処理との違いについて説明する。

すなわち、図２８のＤでは、注目スクラップブックの画像登録状態IDとして、"1"と"3"が登録されており、注目コンテンツからは、画像特徴量に基づいた状態ID（注目コンテンツの画像特徴量が観測される画像最尤状態系列における状態ID）が"1"及び"3"のそれぞれのフレームが抽出されている。

そして、図２８のＥで示されるように、スクラップブックには、注目コンテンツから抽出されたフレームが、その時間的な前後関係を維持する形で、例えば、動画として、登録される。

一方、画像特徴量以外の特徴量をも用いた場合、すなわち、例えば、画像特徴量と音声特徴量を用いた場合、図５２で示されるように、注目スクラップブックの登録状態IDとして、"V1","V3","A5","V2&A6"が登録されることがある。

ここで、図５２において、"V1"等の"V"の文字とそれに続く数字からなる文字列は、登録状態IDのうちの、画像登録状態IDを表し、"A5"等の"A"の文字とそれに続く数字からなる文字列は、登録状態IDのうちの、音声登録状態IDを表す。

また、図５２において、"V2&A6"は、画像登録状態IDである"V2"と、音声登録状態IDである"A6"とが関連づけられていることを表す。

図５２に示したように、注目スクラップブックに、登録状態IDとして、"V1","V3","A5","V2&A6"が登録されている場合、フレーム抽出部５０４（図５０）では、注目コンテンツから、画像特徴量に基づいた状態IDが、画像登録状態ID="V1"に一致するフレーム、及び、画像登録状態ID="V3"に一致するフレームが抽出されるとともに、音声特徴量に基づいた状態IDが、音声登録状態ID="A5"に一致するフレームが抽出される。

さらに、フレーム抽出部５０４では、注目コンテンツから、画像特徴量に基づいた状態IDが、画像登録状態ID="V2"に一致し、かつ、音声特徴量に基づいた状態IDが、音声登録状態ID="A6"に一致するフレームが抽出される。

したがって、複数の特徴量を考慮して、フレームが選択されることになるので、画像特徴量のみを用いた場合よりも、さらに高い精度でユーザの興味があるフレームを集めたスクラップブックを得ることが可能となる。

尚、図５２においては、画像特徴量、および音声特徴量を用いた例が示されているが、当然の事ながら、対象物特徴量をさらに用いるようにしてもよいものである。

また、以上においては、画像特徴量、音声特徴量、および対象物特徴量を用いた例について説明してきたが、さらに、異なる特徴量を組み合わせて利用するようにしても良いし、それらを単独で利用するようにしてもよい。さらに、対象物の種類に応じて対象物特徴量を設定し、それらを区別して利用するようにしても良く、例えば、対象物として人物の全体像、上半身、および顔画像等をそれぞれ個別の対象物特徴量として用いるようにしてもよい。

＜サムネイル表示用情報処理装置＞

ところで、コンテンツモデルによれば、コンテンツの各フレームをクラスタリングすることができる。

以下、コンテンツの各フレームをクラスタリングしたクラスタリング結果を利用して、サムネイルを表示することにより、コンテンツの内容を迅速に把握すること等に寄与するサムネイル表示用情報処理装置について説明する。

［本発明の表示制御装置を適用した表示システムの一実施の形態］

図５３は、本発明の表示制御装置を適用したサムネイル表示用情報処理装置としての表示システムの一実施の形態の構成例を示すブロック図である。

図５３において、表示システムは、コンテンツ記憶装置６０１、表示制御装置６０２、及び、表示装置６０３を有する。

なお、コンテンツ記憶装置６０１は、例えば、レコーダや、インターネット上のサイト（サーバ）、PC（パーソナルコンピュータ）の内蔵する、又は、外付けのHD等に相当し、表示装置６０３は、例えば、TV（テレビジョン受像機）等に相当する。

また、表示制御装置６０２は、コンテンツ記憶装置６０１、及び、表示装置６０３のそれぞれとは別個に構成することもできるが、コンテンツ記憶装置６０１に相当するレコーダ等、又は、表示装置６０３に相当するTV等に内蔵させることもできる。

コンテンツ記憶装置６０１は、図１のコンテンツ記憶部１１と同様に、動画のコンテンツを記憶する。また、コンテンツ記憶装置６０１は、記憶しているコンテンツを読み出し、表示制御装置６０２に供給する。

表示制御装置６０２は、表示装置６０３での画像の表示を制御する。

すなわち、表示制御装置６０２は、クラスタリング部６１１、シーン区分部６１２、サムネイル作成部６１３、表示制御部６１４、操作部６１５、及び、制御部６１６を有する。

クラスタリング部６１１には、コンテンツ記憶装置６０１から、再生の対象のコンテンツ（以下、再生対象コンテンツともいう）が供給される。

クラスタリング部６１１は、コンテンツ記憶装置６０１からの再生対象コンテンツの各フレームを、例えば、あらかじめ定められた複数のクラスタのうちのいずれかのクラスタにクラスタリングし、そのクラスタリング結果を表すクラスタリング情報を、シーン区分部６１２に供給（出力）する。

ここで、クラスタリング情報には、再生対象コンテンツの各フレームが属するクラスタを特定するクラスタ情報（例えば、クラスタに付されたユニークな番号等）が、少なくとも含まれる。

シーン区分部６１２は、クラスタリング部６１１でクラスタリングされ得る複数のクラスタそれぞれについて、そのクラスタに属するフレームを、時間的に連続する１フレーム以上のフレームの集まりであるシーンに区分する。

すなわち、シーン区分部６１２は、クラスタリング部６１１でクラスタリングされ得る複数のクラスタそれぞれを、順次、注目する注目クラスタに選択し、クラスタリング部６１１からのクラスタリング情報に基づいて、注目クラスタに属する、再生対象コンテンツのフレームを認識する。

さらに、シーン区分部６１２は、注目クラスタに属するフレームを、時系列に並べたときに、時間的に連続する１フレーム以上のフレームの集まりを、１シーンとして、シーン（カット、又は、ショット）に区分する。

したがって、例えば、いま、再生対象コンテンツの先頭からt1番目のフレームt1から連続するn1（枚の）フレームと、再生対象コンテンツの先頭からt2（>t1+n1）番目のフレームt2から連続するn2（枚の）フレームとが、注目クラスタに属する場合、シーン区分部６１２では、注目クラスタに属するn1+n2フレームが、再生対象コンテンツのフレームt1から連続するn1フレームを有するシーンと、再生対象コンテンツのフレームt2から連続するn2フレームを有するシーンとに区分される。

そして、シーン区分部６１２は、注目クラスタに属するフレームから得られたシーンを、注目クラスタに属するシーンとして、そのシーンを表すシーン情報を、サムネイル作成部６１３に供給する。

ここで、シーン情報には、シーンが有するフレームを特定するフレーム情報（例えば、再生対象コンテンツの先頭から何番目のフレームであるかを表す番号）と、シーン（ひいては、シーンが有するフレーム）が属するクラスタを表すクラスタ情報とが、少なくとも含まれる。

サムネイル作成部６１３には、シーン区分部６１２から、再生対象コンテンツの各シーンのシーン情報が供給される他、コンテンツ記憶装置６０１から、再生対象コンテンツが供給される。

サムネイル作成部６１３は、再生対象コンテンツの各シーンのサムネイルを作成する。

すなわち、サムネイル作成部６１３は、シーン区分部６１２からのシーン情報に基づいて、再生対象コンテンツのすべてのシーンを認識し、順次、注目する注目シーンに選択する。

さらに、サムネイル作成部６１３は、シーン区分部６１２からのシーン情報に基づいて、注目シーンが有するフレームを認識し、コンテンツ記憶装置６０１からの、注目シーンが有するフレームを用いて、注目シーン（の内容）を表すサムネイルを作成する。

そして、サムネイル作成部６１３は、注目シーンのサムネイルを、注目シーンのシーン情報とともに、表示制御部６１４に供給する。

ここで、注目シーンのサムネイルとしては、注目シーンが有するフレームのうちの、例えば、先頭のフレーム等の１フレームを縮小した画像を採用することができる。

また、注目シーンのサムネイルとしては、注目シーンが有するフレームのうちの、例えば、複数フレームを縮小した画像をアニメーション（動画）で表示するアニメーションGIF等の画像を採用することができる。

表示制御部６１４には、サムネイル作成部６１３から、再生対象コンテンツのシーンのサムネイル、及び、シーン情報が供給される他、コンテンツ記憶装置６０１から、再生対象コンテンツが供給される。

表示制御部６１４は、サムネイル作成部６１３からのシーン情報に基づいて、同じくサムネイル作成部６１３からのシーンのサムネイルを、表示装置６０３に表示させる表示制御を行う。

また、表示制御部６１４は、コンテンツ記憶装置６０１から供給される再生対象コンテンツの各フレーム（の画像）を、表示装置６０３に表示させる表示制御を行う。

操作部６１５は、再生対象コンテンツの指示や、表示装置６０３に表示されたサムネイル等の指示等を入力するときに操作され、その操作に対応する操作信号を、制御部６１６に供給する。

制御部６１６は、操作部６１５からの操作信号に従い、クラスタリング部６１１、シーン区分部６１２、サムネイル再生部６１３、及び、表示制御部６１４のうちの必要なブロックを制御する。

また、制御部６１６は、コンテンツ記憶装置６０１から再生対象コンテンツ（のフレーム）を再生する再生制御等を行う。

なお、制御部６１６は、コンテンツ記憶装置６０１、クラスタリング部６１１、シーン区分部６１２、サムネイル再生部６１３、及び、表示制御部６１４に対して、必要なデータ（信号）を供給する。但し、制御部６１６が必要なデータを供給する等のための接続線の図示は、図が煩雑になるのを防止するため、省略してある。

表示装置６０３は、表示制御部６１４からの表示制御に従って、サムネイルや再生対象コンテンツ（のフレーム）を表示する。

［サムネイル表示制御の処理］

図５４は、図５３の表示制御装置６０２が、表示装置６０３に、コンテンツのサムネイルを表示させるサムネイル表示制御の処理を説明するフローチャートである。

ステップＳ６０１において、制御部６１６は、ユーザが操作部６１５を操作することにより、コンテンツ記憶装置６０１に記憶されたコンテンツの中から、再生対象コンテンツを指示する指示入力が行われる（与えられる）のを待って、その指示入力に基づいて、その指示入力によって指示されたコンテンツを、再生対象コンテンツに選択する。

そして、制御部６１６は、コンテンツ記憶装置６０１から、再生対象コンテンツを読み出させ、クラスタリング部６１１、及び、サムネイル作成部６１３に供給させて、処理は、ステップＳ６０１からステップＳ６０２に進む。

ステップＳ６０２では、クラスタリング部６１１が、コンテンツ記憶装置６０１からの再生対象コンテンツの各フレームをクラスタリングし、そのクラスタリング結果を表すクラスタリング情報を、シーン区分部６１２に供給して、処理は、ステップＳ６０３に進む。

ステップＳ６０３では、シーン区分部６１２が、クラスタリング部６１１からのクラスタリング情報に基づいて、各クラスタについて、そのクラスタに属するフレームを、時間的に連続する１フレーム以上のフレームの集まりであるシーンに区分する。

そして、シーン区分部６１２は、各クラスタに属する各シーンを表すシーン情報を、サムネイル作成部６１３に供給して、処理は、ステップＳ６０３からステップＳ６０４に進む。

ステップＳ６０４では、サムネイル作成部６１３が、シーン区分部６１２からのシーン情報に基づいて、再生対象コンテンツのすべてのシーンを認識し、各シーンについて、そのシーンのサムネイルを、コンテンツ記憶装置６０１からの再生対象コンテンツを用いて作成する。

そして、サムネイル作成部６１３は、各シーンのサムネイルを、そのシーンのシーン情報とともに、表示制御部６１４に供給して、処理は、ステップＳ６０４からステップＳ６０５に進む。

ステップＳ６０５では、表示制御部６１４は、サムネイル作成部６１３からのシーン情報に基づいて、同じくサムネイル作成部６１３からのシーンのサムネイルを、表示装置６０３に表示させる表示制御を行う。

以上のように、表示制御装置６０２では、クラスタリング部６１１が、再生対象コンテンツの各フレームをクラスタリングし、シーン区分部６１２が、各クラスタについて、そのクラスタに属するフレームを、時間的に連続する１フレーム以上のフレームの集まりであるシーンに区分する。

したがって、表示制御装置６０２によれば、再生対象コンテンツを、各クラスタに対応する内容（特徴量）ごとのシーンに、容易に分けることができる。

すなわち、フレームをクラスタリングするクラスタリング方法として、どのような方法を採用しても、個々のクラスタには、同じような内容（特徴量）のフレームがクラスタリングされる。

したがって、あるクラスタに注目すると、そのクラスタに属するフレームを、時間的に連続する１フレーム以上のフレームの集まりに区分するだけで、そのクラスタに対応する内容のシーンを、容易に構成することができる。

なお、クラスタに対応する内容が、どのような内容であるかは、既知であってもよいし、未知であってもよい。

但し、クラスタに対応する内容を、既知の内容とするには、すなわち、各クラスタに、例えば、多数の人が映っているフレームや、一人がアップで映っているフレーム等の、既知の内容のフレームがクラスタリングされることが、あらかじめ分かるようにするには、そのような既知の内容のフレームがクラスタリングされるように、クラスタ（さらには、クラスタリングに用いる各フレームの特徴量）を設計する必要がある。

しかしながら、そのように、特定の既知の内容のフレームがクラスタリングされるように、クラスタを設計することは、面倒であり、また、困難な場合もある。

一方、内容が未知のクラスタ、すなわち、どのような内容のフレームがクラスタリングされるのかが分からないクラスタは、設計が容易である。さらに、クラスタに対応する内容が、未知であっても、各クラスタに属するシーン（フレーム）が、どのような内容のシーンであるかは、ユーザが、表示装置６０３に表示されるシーンのサムネイルを見ることで判断することができるので、問題はない。

［クラスタリング部６１１の構成例］

図５５は、図５３のクラスタリング部６１１の構成例を示すブロック図である。

図５５において、クラスタリング部６１１は、クラスタリングモデル学習部６２１、クラスタリングモデル記憶部６２２、クラスタリングモデル選択部６２３、特徴量抽出部６２４、及び、クラスタ判定部６２５を有する。

クラスタリングモデル学習部６２１は、コンテンツの各フレームをクラスタリングするのに用いるモデルであるクラスタリングモデルの学習を行い、クラスタリングモデル記憶部６２２に供給する。

なお、クラスタリングモデルとしては、例えば、状態と状態遷移とを有する状態遷移モデルを採用することができる。

クラスタリングモデルとして採用する状態遷移モデルとしては、例えば、上述のコンテンツモデルとしてのHMMや、後述する、ベクトル量子化に用いられるk-means法を利用したモデル（以下、新ベクトル量子化モデルともいう）、同じく後述するGMM(Gaussian Mixture Model)を利用したモデル（以下、新GMMともいう）等を採用することができる。

クラスタリングモデル学習部６２１は、コンテンツ記憶装置６０１に記憶されたコンテンツを、クラスタリングモデルの学習用の学習用コンテンツとして、その学習用コンテンツを、カテゴリごとに分類する。

そして、クラスタリングモデル学習部６２１は、各カテゴリについて、そのカテゴリの学習用コンテンツを用いて、そのカテゴリのクラスタリングモデルの学習を行い、カテゴリごとのクラスタリングモデルを生成（獲得）する。

すなわち、クラスタリングモデルとして、例えば、上述のコンテンツモデルとしてのHMMを採用する場合には、クラスタリングモデル学習部６２１は、図２のコンテンツモデル学習部１２と同様にして、クラスタリングモデルとしてのコンテンツモデルの学習を行う。

なお、以下では、説明を簡単にするため、図１ないし図３４の場合と同様に、コンテンツのデータのうちの、画像のデータだけを、クラスタリングモデルの学習の処理や、クラスタリングモデルを用いた処理に用いることとする。

但し、クラスタリングモデルの学習の処理や、クラスタリングモデルを用いた処理には、図３５ないし図５２で説明したように、画像の他、音声等のデータ（特徴量）を用いることが可能である。

クラスタリングモデル記憶部６２２は、クラスタリングモデル学習部６２１等で生成される、カテゴリごとのクラスタリングモデルを記憶する。

ここで、クラスタリングモデルの学習は、例えば、インターネット上のサイト等で行うことができ、クラスタリングモデル記憶部６２２は、そのサイトから、クラスタリングモデルをダウンロード（取得）して記憶することができる。

この場合、クラスタリング部６１１は、クラスタリングモデル学習部６２１を設けずに構成することができる。

クラスタリングモデル選択部６２３は、クラスタリングモデル記憶部６２２に記憶された、カテゴリごとのクラスタリングモデルの中から、コンテンツ記憶装置６０１から供給される再生対象コンテンツのカテゴリに一致するカテゴリのクラスタリングモデルを、クラスタリングに用いる注目モデルとして選択し、クラスタ判定部６２５に供給する。

特徴量抽出部６２４には、コンテンツ記憶装置６０１から、再生対象コンテンツが供給される。

特徴量抽出部６２４は、コンテンツ記憶装置６０１からの再生対象コンテンツの各フレームの特徴量を抽出して、クラスタ判定部６２５に供給する。

ここで、クラスタリングモデルの学習は、学習用コンテンツから抽出される特徴量を用いて行われる。

特徴量抽出部６２４では、再生対象コンテンツから、クラスタリングモデルの学習で用いられるのと同様の特徴量が抽出される。

したがって、クラスタリングモデルとして、例えば、上述のコンテンツモデルとしてのHMMを採用し、クラスタリングモデル学習部６２１において、図２のコンテンツモデル学習部１２と同様にして、クラスタリングモデルとしてのコンテンツモデルの学習が行われる場合には、特徴量抽出部６２４は、図２の特徴量抽出部２２と同様にして、再生対象コンテンツの各フレームの特徴量を抽出する。

クラスタ判定部６２５は、クラスタリングモデル選択部６２３から供給されるクラスタリングモデルと、特徴量抽出部６２４から供給される特徴量とを用いて、再生対象コンテンツの各フレームが属するクラスタを判定し、そのクラスタであるクラスタリング結果を表すクラスタリング情報を、シーン区分部６１２に供給（出力）する。

クラスタリングモデルとして、例えば、上述のコンテンツモデルとしてのHMMを採用する場合には、クラスタ判定部６２５は、図９の最尤状態系列推定部３４と同様に、例えば、Viterbiアルゴリズムに従い、クラスタリングモデル選択部６２３からの注目モデルにおいて、特徴量抽出部６２４からの再生対象コンテンツの特徴量（再生対象コンテンツの各フレームの特徴量の時系列）が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列を推定する。

ここで、注目モデルにおいて、再生対象コンテンツの特徴量が観測される場合の最尤状態系列（以下、再生対象コンテンツに対する注目モデルの最尤状態系列ともいう）の先頭を基準とする時刻tの状態（最尤状態系列を構成する、先頭からt番目の状態）を、s(t)と表すとともに、再生対象コンテンツのフレーム数を、Tと表すこととする。

この場合、再生対象コンテンツに対する注目モデルの最尤状態系列は、T個の状態s(1)，S(2)，・・・，s(T)の系列であり、そのうちのt番目の状態（時刻tの状態）s(t)は、再生対象コンテンツの時刻tのフレーム（フレームt）に対応する。

さらに、N個の状態s₁，s₂，・・・，s_Nのそれぞれには、状態を特定するインデクスである状態IDが付されている。

いま、再生対象コンテンツに対する注目モデルの最尤状態系列の時刻tの状態s(t)が、N個の状態s₁ないしs_Nのうちのi番目の状態s_iであるとすると、時刻tのフレームは、状態s_iに対応する。

再生対象コンテンツに対する注目モデルの最尤状態系列の実体は、再生対象コンテンツの各時刻tのフレームが対応する、N個の状態s₁ないしs_Nのうちのいずれかの状態の状態IDの系列である。

以上のような、再生対象コンテンツに対する注目モデルの最尤状態系列は、再生対象コンテンツが、注目モデル上において、どのような状態遷移を起こすかを表現する。

また、再生対象コンテンツに対する注目モデルの最尤状態系列において、上述したように、時刻tの状態s(t)が、N個の状態s₁ないしs_Nのうちのi番目の状態s_iであるとすると、時刻tのフレームは、状態s_iに対応する。

したがって、注目モデルのN個の状態それぞれを、クラスタとみなすことにより、時刻tのフレームは、注目モデルのN個の状態のうちの、最尤状態系列の、時刻tの状態s(t)であるi番目の状態s_iに対応するクラスタにクラスタリングされており、再生対象コンテンツに対する注目モデルの最尤状態系列の推定では、再生対象コンテンツの各フレームが属するクラスタが判定されている、ということができる。

クラスタ判定部６２５は、再生対象コンテンツに対する注目モデルの最尤状態系列を推定すると、その最尤状態系列を、クラスタリング情報として出力する。

［サムネイル等の表示制御］

図５３の表示制御部６１４によるサムネイル、及び、再生対象コンテンツの表示制御について説明する。

表示制御部６１４によるサムネイル、及び、再生対象コンテンツの表示の方法には、例えば、2Dマップ表示、ステート表示、２ペイン表示、５ペイン表示、時系列表示、及び、フラット表示の６種類の表示の方法がある。

以下、これらの2Dマップ表示、ステート表示、２ペイン表示、５ペイン表示、時系列表示、及び、フラット表示の６種類の表示の表示制御について説明する。

なお、2Dマップ表示、ステート表示、２ペイン表示、５ペイン表示、時系列表示、及び、フラット表示の６種類の表示の表示制御については、そのうちのいずれか１種類の表示の表示制御を、表示システムに実装することもできるし、全部を含む複数種類の表示の表示制御を、表示システムに実装することもできる。

2Dマップ表示、ステート表示、２ペイン表示、５ペイン表示、時系列表示、及び、フラット表示の６種類の表示のうちの、全部を含む複数種類の表示の表示制御を、表示システムに実装する場合において、いずれの表示制御を行うかは、例えば、ユーザが操作部６１５（図５３）を操作することによって選択することができる。

さらに、いずれの表示制御を行うかは、例えば、ユーザが操作部６１５を操作することによって、再生対象コンテンツの再生中に切り替えることができる。

［2Dマップ表示］

図５６は、2Dマップ表示の表示例を示す図である。

2Dマップ表示では、表示制御部６１４は、再生対象コンテンツのクラスタリングに用いられたクラスタリングモデル、つまり、注目モデルである状態遷移モデルにおいて、状態遷移が可能な状態どうしが近くなるように、状態を配置した２次元のマップであるモデルマップを生成し、そのモデルマップの各状態の位置に、その状態に対応するクラスタに属する（フレームを有する）シーンのサムネイルを配置して、表示装置６０３に表示する。

すなわち、表示制御部６１４は、２次元のマップ（平面）に、注目モデルのN個の状態s₁ないしs_Nを、状態遷移が可能な状態どうしが近くなるように配置したモデルマップを生成する。

なお、注目モデルは、制御部６１６がクラスタリング部６１１から取得し、表示制御部６１４に供給する。

さらに、表示制御部６１４は、モデルマップ上の状態どうしの間を、その状態どうしの間の状態遷移確率に応じて結ぶ線分を描画する。

すなわち、表示制御部６１４は、例えば、ある状態s_iからの状態遷移のうちの、状態遷移確率が最大の状態遷移の遷移元s_iの状態と、遷移先の状態とを結ぶ線分を、モデルマップに描画する。

あるいは、表示制御部６１４は、例えば、ある状態s_iからの状態遷移のうちの、状態遷移確率が所定の閾値以上の状態遷移の遷移元s_iの状態と、遷移先の状態とを結ぶ線分を、モデルマップに描画する。

ここで、図５６において、線分の端点が状態を表し、線分が状態遷移を表す。

表示制御部６１４は、サムネイル作成部６１３から供給されるシーン情報から、再生対象コンテンツの各シーンが属するクラスタを認識し、モデルマップのN個の状態s₁ないしs_Nそれぞれの位置に、その状態s_iに対応するクラスタに属する（クラスタリングされた）シーンのサムネイルを配置する。

ここで、図５６において、小さい矩形が、サムネイルを表す。図５６では、サムネイルが配置されていない状態が存在するが、これは、再生対象コンテンツにおいて、その状態に対応するクラスタにクラスタリングされたフレームがなかったことを表す。

また、ある状態s_iに対応するクラスタには、複数のシーンが属する場合があるが、この場合、モデルマップの状態s_iの位置には、その状態s_iに対応するクラスタに属する複数のシーンそれぞれのサムネイルを並べて表示することが可能である。

但し、１つの状態s_iの位置に、複数のシーンそれぞれのサムネイルを表示すると、その複数のシーンそれぞれのサムネイル（の一部）が、他の状態s_jの位置に表示されるサムネイルと重なり、サムネイルが見にくくなることがある。

また、１つの状態s_iの位置に表示される複数のシーンそれぞれのサムネイルと、他の状態s_jの位置に表示されるサムネイルとの重なりを防止するには、サムネイルのサイズを、より小さくする方法があるが、サムネイルのサイズを小さくすると、やはり、サムネイルが見にくくなることがある。

そこで、ある状態s_iに対応するクラスタに、複数のシーンが属する場合には、モデルマップの状態s_iの位置には、その状態s_iに対応するクラスタに属する複数のシーンそれぞれのサムネイルのうちの、例えば、再生対象コンテンツにおいて時系列順で最も早い（再生順が最も早い）１シーンのサムネイルだけを表示することができる。

なお、ある状態s_iに対応するクラスタに、複数のシーンが属する場合に、モデルマップの状態s_iの位置に表示する、その状態s_iに対応するクラスタに属する１シーンのサムネイルは、例えば、ユーザによる操作部６１５（図５３）の操作に応じて切り替えることが可能である。

すなわち、状態s_iに対応するクラスタに、例えば、時系列順に３つのシーンc1,c2,c3が属する場合には、操作部６１５が、サムネイルを切り替えるように操作されるごとに、モデルマップの状態s_iの位置に表示するサムネイルを、シーンc1のサムネイル、シーンc2のサムネイル、シーンc3のサムネイル、シーンc1のサムネイル、・・・のように、巡回的に切り替えることが可能である。

以上のように、2Dマップ表示では、再生対象コンテンツのクラスタリングに用いられたクラスタリングモデル（注目モデル）の、状態遷移が可能な状態どうしが近くなるように、状態が配置され、かつ、状態遷移が描画されたモデルマップの各状態の位置に、その状態に対応するクラスタに属するシーンのサムネイルが配置されて表示される。

したがって、2Dマップ表示によれば、ユーザは、各状態の位置に配置されたシーンのサムネイルと、状態どうしの間の状態遷移を表す線分とによって、図９等で説明したように、再生対象コンテンツの構造を認識し、再生対象コンテンツの概要を、一目で、容易に把握することができる。

ここで、モデルマップでは、注目モデルのN個の状態s₁ないしs_Nが、状態遷移が可能な状態どうしが近くなるように配置されるが、このような状態の配置は、図９のコンテンツ構造提示部１４と同様に行うことができる。

すなわち、表示制御部６１４では、注目モデルの１つの状態s_iから他の１つの状態s_jへの状態間距離d_ij ^*を、１つの状態s_iから他の１つの状態s_jへの状態遷移の状態遷移確率a_ijに基づいて求め、モデルマップ上の、１つの状態s_iから他の１つの状態s_jへのユークリッド距離d_ijと、状態間距離d_ij ^*との誤差が小さくなるように、、具体的には、例えば、例えば、式（１）のSammon Mapのエラー関数Eを最小にするように、モデルマップ上の状態s_iの位置の座標である状態座標Y_iを求める。

そして、表示制御部６１４では、モデルマップの状態座標Y_iの位置に、対応する状態s_iを配置する。

なお、上述したように、式（１）のエラー関数Eを、そのまま採用し、エラー関数Eを最小にするように、モデルマップ上の状態座標Y_iを求めた場合、状態は、図１１に示したように、モデルマップ上に、円状に配置され、円周付近（外側）に、状態が密集し、状態の配置が見にくくなって、可視性が損なわれることがある。

そこで、表示制御部６１４でも、図１２で説明したように、式（１）のエラー関数Eを修正し、修正後のエラー関数Eを最小にするように、モデルマップ上の状態座標Y_iを求めることができる。

すなわち、表示制御部６１４では、１つの状態s_iから他の１つの状態s_jへのユークリッド距離d_ijが、所定の閾値THd（例えば、THd=1.0等）より大でない場合には、式（１）のエラー関数の演算において、ユークリッド距離d_ijとして、そのユークリッド距離d_ijを、そのまま用い、所定の閾値THdより大である場合には、式（１）のエラー関数の演算において、ユークリッド距離d_ijとして、状態間距離d_ij ^*を用いる（d_ij＝d_ij ^*とする）（ユークリッド距離d_ijを、状態間距離d_ij ^*に等しい距離とする）ことができる。

以上のように、修正後のエラー関数Eを最小にするように、モデルマップ上の状態座標Y_iを求めることで、ユークリッド距離d_ijが、ある程度遠い２つの状態s_i及びs_jは、ユークリッド距離d_ijが遠いままとされるので、モデルマップの円周付近に、状態が密集することによって、可視性が損なわれることを防止することができる。すなわち、図１２に示したように、可視性が良いモデルマップを表示することができる。

図５７は、2Dマップ表示の他の表示例を示す図である。

上述したように、2Dマップ表示では、再生対象コンテンツのクラスタリングに用いられたクラスタリングモデル、つまり、注目モデルにおいて、状態遷移が可能な状態どうしが近くなるように、状態を配置したモデルマップの各状態の位置に、その状態に対応するクラスタに属する（フレームを有する）シーンのサムネイルが配置される。

したがって、例えば、再生対象コンテンツのフレームが、多数のクラスタにクラスタリングされた場合、モデルマップに表示されるサムネイルの数が多くなる。そして、そのような多くの数のサムネイルを、互いに重ならないように表示するには、サムネイルのサイズを、ある程度小さくする必要がある。

しかしながら、サムネイルのサイズが小さい場合には、サムネイルが見にくくなることがある。

そこで、2Dマップ表示では、表示制御部６１４は、モデルマップの一部を拡大して、表示装置６０３に表示させることができる。

すなわち、ユーザが、モデルマップのある位置を拡大するように、操作部６１５を操作すると、すなわち、例えば、モデルマップのある位置に、カーソルを移動して、操作部６１５をクリックすると、表示制御部６１４は、図５７に示すように、モデルマップの、カーソルの位置を含む所定の範囲を拡大し、表示装置６０３に表示させる。

この場合、ユーザは、サムネイルとしての画像を、明確に確認することができる。

なお、モデルマップの拡大は、操作部６１５の所定の操作により解除される。

図５８は、2Dマップ表示のさらに他の表示例を示す図である。

図５４で説明したように、表示制御装置６０２（図５３）では、ユーザが操作部６１５を操作し、再生対象コンテンツを指示する指示入力を与えると、制御部６１６は、その指示入力によって指示されたコンテンツを、再生対象コンテンツに選択し、その再生対象コンテンツを、コンテンツ記憶装置６０１から読み出させ、クラスタリング部６１１、及び、サムネイル作成部６１３に供給させる。

クラスタリング部６１１、及び、サムネイル作成部６１３に再生対象コンテンツを供給するための、コンテンツ記憶装置６０１からの再生対象コンテンツの読み出しと、その再生対象コンテンツの、クラスタリング部６１１、及び、サムネイル作成部６１３への供給とは、サムネイルの表示を、迅速に行うために、高速で行われる。

制御部６１６は、以上のように、クラスタリング部６１１、及び、サムネイル作成部６１３への、再生対象コンテンツの高速な供給の他に、再生対象コンテンツを、リアルタイムでの表示のために、コンテンツ記憶装置６０１から表示制御部６１４に供給する、再生対象コンテンツの再生制御を行う。

そして、表示制御部６１４は、制御部６１６の再生制御によって、コンテンツ記憶装置６０１から供給される再生対象コンテンツの各フレームを、例えば、その先頭のフレームから、リアルタイムで、表示装置６０３に表示させる。

すなわち、表示制御部６１４は、図５６及び図５７の場合と同様に、状態遷移を表す線分が描画されたモデルマップの各状態の位置に、その状態に対応するクラスタに属するシーンのサムネイルが配置されたモデルマップを表示させるとともに、再生対象コンテンツにおいて、現在、再生の対象になっているフレームである再生対象フレームを、サムネイルよりも所定のサイズだけ大きいサイズのウインドウである再生ウインドウに描画し、その再生ウインドウを、モデルマップの、その再生対象フレームが属するクラスタに対応する状態の位置に表示させる。

したがって、再生対象フレームが属するクラスタが変化すると、すなわち、シーンが変化すると、再生ウインドウの表示位置は、図５８において矢印で示すように、変化前のクラスタに対応する状態の位置から、変化後のクラスタに対応する状態の位置に移動する。

この場合、ユーザは、どのクラスタに属するフレームが再生されているのか（再生対象フレームになっているのか）を認識することができる。

以上のように、再生対象フレームが描画された再生ウインドウを、モデルマップとともに表示する場合には、モデルマップにおいて、複数のシーンが属するクラスタに対応する状態の位置には、再生ウインドウの再生対象フレームに対して、時系列で最も近いシーンのサムネイルを表示することができる。

この場合、ユーザは、各クラスタに属するシーンにおいて、そのクラスタに属するシーンのうちの、再生対象フレームに、時系列で最も近いシーンの概要を確認することができる。

また、ユーザは、操作部６１５を操作することにより、モデルマップ上の状態を指示する指示入力を与えることができる。

この場合、制御部６１６は、モデルマップ上の状態を指示する指示入力に基づいて、その指示入力によって指示された状態に対応するクラスタに属するフレームを、再生対象フレームに変更し、その再生対象フレームからの再生制御を開始する。

したがって、ユーザが、モデルマップの状態の位置に表示されたサムネイルを見て、そのサムネイルを指示する指示入力を与えると、そのサムネイルが表すシーンの、例えば、先頭のフレームが、再生対象フレームとなり、その再生対象フレームが描画された再生ウインドウが、指示入力によって指示されたサムネイルの位置に表示される。

以上のように、ユーザは、再生対象フレームを見ながら、状態の位置に表示されたサムネイルを指示する指示入力を与えるだけで、そのサムネイルが表すシーンに、いわば、再生位置をジャンプすることができる。

したがって、状態（の位置に表示されているサムネイル）は、いわゆるチャプタとして機能し、チャプタの頭出しに利用することができる。

すなわち、例えば、DVDに記録された商用のコンテンツには、チャプタが付されている（ことが多い）のに対して、個人的に撮影された動画のコンテンツには、ユーザが手動でチャプタを付ける必要がある。表示制御装置６０２によれば、等価的に、コンテンツに対して、チャプタを自動で付すことができる。

また、従来のレコーダには、再生位置を、現在、再生の対象になっている位置（フレーム）から、例えば、５秒や３０秒等の所定の時間だけ後（や前）の位置にジャンプするときに操作されるジャンプボタンが設けられていることがある。

ユーザは、ジャンプボタンを操作し、再生位置をジャンプして、ジャンプ後の位置から再生される画像を、少しだけ見て、再び、ジャンプボタンを操作することを繰り返すことにより、コンテンツの概要を把握することができる。

しかしながら、ジャンプボタンの操作では、再生位置のジャンプ前と、ジャンプ後とで、シーンに変化がないことがあり、この場合、コンテンツの概要を把握するのに、何度も、ジャンプボタンを操作する必要がある。

また、ジャンプボタンの操作では、再生位置のジャンプ前のシーンと、ジャンプ後のシーンとの間に、多数のシーンが存在することがあり、この場合、コンテンツの概要を把握することが困難となる。

一方、2Dマップ表示によれば、状態遷移を表す線分が描画されたモデルマップの各状態の位置に、その状態に対応するクラスタに属するシーンのサムネイルが配置されたモデルマップが表示され、さらに、再生対象フレームが描画された再生ウインドウが、モデルマップの、再生対象フレームが属するクラスタに対応する状態の位置に表示される。

したがって、ユーザは、再生ウインドウの他、例えば、再生ウインドウが表示されている位置の状態、つまり、再生対象フレームが属するクラスタに対応する状態と（状態遷移を表す線分によって）接続された状態の位置に配置されているサムネイルを見て、再生対象フレームを有するシーンの直前のシーンや直後のシーンの概要を予想することができるので、再生対象コンテンツの概要を、より容易に把握することができる。

［ステート表示］

図５９は、ステート表示の表示例を示す図である。

ステート表示では、表示制御部６１４（図５３）は、表示装置６０３の表示画面を、再生対象コンテンツのクラスタリングに用いられたクラスタリングモデル、つまり、注目モデルである状態遷移モデルの状態に対応するクラスタに従って区切った矩形状のクラスタ領域に、対応するクラスタに属する（フレームを有する）シーンのサムネイルを配置して、表示装置６０３に表示する。

すなわち、表示制御部６１４は、表示装置６０３の表示画面を、注目モデルの状態の総数N（以上）の数のクラスタ領域に、格子状に区切り、例えば、ラスタスキャン順で、左上からi番目のクラスタ領域が、クラスタリング部６１１でのクラスタリングのi番目のクラスタ（状態s_i）に対応することとして、そのi番目のクラスタ領域に、注目モデルのN個の状態s₁ないしs_Nのうちの、i番目の状態に対応するクラスタに属するシーンのサムネイルを配置する。

ここで、図５９において、点線で囲む矩形の領域が、クラスタ領域を表す。また、クラスタ領域の中の実線の矩形が、サムネイルを表す。

図５９では、サムネイルが配置されていないクラスタ領域が存在するが、これは、再生対象コンテンツにおいて、そのクラスタ領域に対応するクラスタにクラスタリングされたフレームがなかったことを表す。

図５６ないし図５８で説明した2Dマップ表示では、モデルマップの状態s_iの位置に、その状態s_iに対応するクラスタに属する１つのシーンのサムネイルだけを表示することとしたが、ステート表示では、クラスタ領域には、対応するクラスタに属するシーンすべてのサムネイルを表示することができる。

すなわち、ステート表示では、ある状態s_iに対応するクラスタに、１つのシーンだけが属する場合には、その１つのシーンのサムネイルだけが、i番目のクラスタ領域に表示される。

また、ある状態s_iに対応するクラスタに、複数のシーンが属する場合には、その複数のシーンそれぞれのサムネイルが、i番目のクラスタ領域に、並べて表示される。

図５９において、注目モデルの状態の総数N（以上）の数のクラスタ領域それぞれは、同一のサイズの領域になっており、したがって、クラスタ領域に表示されるサムネイルの数が多いほど、サムネイルは、同一のサイズのクラスタ領域に、より小さいサイズで表示される。

以上のように、ステート表示では、同一のクラスタに属するシーンのサムネイルが、１つのクラスタ領域に並べて表示されるので、ユーザは、同一のクラスタに属するシーン（同様の内容のシーン）を俯瞰し、かつ、各クラスタに属するシーンも俯瞰するような形で、再生対象コンテンツのすべてのシーンを確認することができ、再生対象コンテンツの概要を、容易に把握することができる。

図６０は、ステート表示の他の表示例を示す図である。

上述したように、ステート表示では、表示画面を、注目モデルの状態に対応するクラスタに従って区切った矩形状のクラスタ領域に、対応するクラスタに属するシーンすべてのサムネイルが並べて表示される。

したがって、クラスタ領域に対応するクラスタに属するシーンの数が多い場合、そのクラスタ領域には、そのような多くのシーンのサムネイルが並べて表示されるため、サムネイルのサイズを小さくする必要があり、その結果、サムネイルが見にくくなることがある。

そこで、ステート表示でも、2Dマップ表示の場合と同様に、表示制御部６１４は、幾つかのクラスタ領域を拡大して、表示装置６０３に表示させることができる。

すなわち、ユーザが、クラスタ領域を拡大するように、操作部６１５を操作すると、すなわち、例えば、あるクラスタ領域の位置に、カーソルを移動して、操作部６１５をクリックすると、表示制御部６１４は、図６０に示すように、カーソルの位置にあるクラスタ領域を含む所定の範囲を拡大し、表示装置６０３に表示させる。

なお、以上のようなクラスタ領域の拡大は、図５７で説明したモデルマップの拡大と同様に、操作部６１５の所定の操作により解除される。

また、ステート表示においても、2Dマップ表示の場合と同様に、再生対象フレームが描画された再生ウインドウ（図５８）を表示することができる。

すなわち、表示制御部６１４では、シーンのサムネイルが配置されたクラスタ領域を表示するとともに、再生対象フレームが描画された再生ウインドウを、その再生対象フレームが属するクラスタ領域の位置に表示させることができる。

さらに、ステート表示でも、2Dマップ表示の場合と同様に、ユーザは、操作部６１５を操作することにより、クラスタ領域や、クラスタ領域に表示されたサムネイルを指示する指示入力を与えることができる。

ここで、指示入力が、クラスタ領域、及び、クラスタ領域に表示されたサムネイルのうちのいずれを指示するのかは、例えば、操作部６１５の操作に応じて切り替えることができる。

指示入力が、クラスタ領域を指示する場合、制御部６１６は、クラスタ領域を指示する指示入力に基づいて、その指示入力によって指示されたクラスタ領域に対応するクラスタに属するフレームを、再生対象フレームに変更し、その再生対象フレームからの再生制御を開始する。

すなわち、制御部６１６は、指示入力によって指示されたクラスタ領域に対応するクラスタに属するシーンのうちの、再生対象フレームに対して、時系列で最も近いシーンの、例えば、先頭のフレームを、再生対象フレームとする（再生制御を行う）。そして、表示制御部６１４において、その再生対象フレームが描画された再生ウインドウが、指示入力によって指示されたクラスタ領域の位置に表示される。

以上のように、ユーザは、再生対象フレームを見ながら、クラスタ領域を指示する指示入力を与えるだけで、そのクラスタ領域に表示されたサムネイルが表すシーンに、再生位置をジャンプすることができる。

また、指示入力が、クラスタ領域に配置されたサムネイルを指示する場合、制御部６１６は、サムネイルを指示する指示入力に基づいて、その指示入力によって指示されたサムネイルが表すシーンが有するフレームを、再生対象フレームに変更し、その再生対象フレームからの再生制御を開始する。

すなわち、制御部６１６は、指示入力によって指示されたサムネイルが表すシーンの、例えば、先頭のフレームを、再生対象フレームとする。そして、表示制御部６１４において、その再生対象フレームが描画された再生ウインドウが、指示入力によって指示されたサムネイルが配置されたクラスタ領域の位置に表示される。

以上のように、ユーザは、再生対象フレームを見ながら、サムネイルを指示する指示入力を与えるだけで、そのサムネイルが表すシーンに、再生位置をジャンプすることができる。

［２ペイン表示］

図６１は、２ペイン表示の表示例を示す図である。

２ペイン表示では、表示制御部６１４は、再生対象コンテンツ（の再生対象フレーム）を描画した再生ウインドウ６３１と、再生対象フレームが属するクラスタに属する（フレームを有する）シーンのサムネイルを描画したクラスタウインドウ６３２とを、表示装置６０３に表示する。

図６１では、表示装置６０３の表示画面の上側の2/3程度の領域に、再生ウインドウ６３１が表示され、再生ウインドウ６３１の下側に、クラスタウインドウ６３２が表示されている。

また、クラスタウインドウ６３２には、再生対象フレームが属するクラスタに属するシーンすべて（再生対象フレームを有するシーンを含む）のサムネイルが、クラスタウインドウ６３２を等分した領域に、例えば、時系列順に並べて表示（描画）される。

クラスタウインドウ６３２にサムネイルが表示される、再生対象フレームが属するクラスタに属するシーンすべては、同様の内容のシーンであり、したがって、クラスタウインドウ６３２によれば、ユーザは、再生対象フレームを有するシーンと同様のシーンを、容易に把握することができる。

２ペイン表示でも、2Dマップ表示等の場合と同様に、ユーザは、操作部６１５を操作することにより、クラスタウインドウ６３２に表示されたサムネイルを指示する指示入力を与えることができる。

制御部６１６は、サムネイルを指示する指示入力に基づいて、その指示入力によって指示されたサムネイルが表すシーンが有するフレームを、再生対象フレームに変更し、その再生対象フレームからの再生制御を開始する。

すなわち、制御部６１６は、指示入力によって指示されたサムネイルが表すシーンの、例えば、先頭のフレームを、再生対象フレームとする。そして、表示制御部６１４において、その再生対象フレームが、いままで、再生対象フレームであったフレームに代えて、再生ウインドウ６３１に表示される。

さらに、表示制御部６１４は、再生対象フレームの変更に応じて、クラスタウインドウ６３２の表示も変更する。

クラスタウインドウ６３２にサムネイルが表示される、再生対象フレームが属するクラスタに属するシーンすべては、同様の内容のシーンであるので、２ペイン表示によれば、ユーザは、再生対象フレームを見ながら、サムネイルを指示する指示入力を与えるだけで、再生対象フレームを有するシーンと同様の他のシーンに、再生位置をジャンプすることができる。

［５ペイン表示］

図６２は、５ペイン表示の表示例を示す図である。

５ペイン表示では、表示制御部６１４は、図６１で説明した２ペイン表示と同様に、再生対象コンテンツを描画した再生ウインドウ６４１と、再生対象フレームが属するクラスタに属する（フレームを有する）シーンのサムネイルを描画したクラスタウインドウ６４２とを、表示装置６０３に表示する。

さらに、５ペイン表示では、表示制御部６１４は、クラスタウインドウ６４３及び６４４、並びに、サムネイルウインドウ６４５も、表示装置６０３に表示する。

クラスタウインドウ６４３には、再生対象フレームを有するシーンの直前のシーン（のフレーム）が属するクラスタに属する（フレームを有する）シーンすべてのサムネイルが、例えば、図６１のクラスタウインドウ６３２と同様に、時系列順に並べて表示される。

クラスタウインドウ６４３にサムネイルが表示される、再生対象フレームを有するシーンの直前のシーンが属するクラスタに属するシーンすべては、同様の内容のシーンであり、したがって、クラスタウインドウ６４３によれば、ユーザは、再生対象フレームを有するシーンの直前のシーンと同様のシーンを、容易に把握することができる。

クラスタウインドウ６４４には、再生対象フレームを有するシーンの直後のシーン（のフレーム）が属するクラスタに属する（フレームを有する）シーンすべてのサムネイルが、例えば、図６１のクラスタウインドウ６３２と同様に、時系列順に並べて表示される。

したがって、クラスタウインドウ６４４によれば、ユーザは、再生対象フレームを有するシーンの直後のシーンと同様のシーンを、容易に把握することができる。

サムネイルウインドウ６４５には、再生対象コンテンツのシーンすべてのサムネイルが、例えば、図６１のクラスタウインドウ６３２と同様に、時系列に並べて表示される。

したがって、サムネイルウインドウ６４５によれば、再生対象コンテンツのシーンすべてを、容易に把握することができる。

以上から、５ペイン表示によれば、ユーザは、サムネイルウインドウ６４５によって、再生対象コンテンツの、いわば全貌を確認しつつ、クラスタウインドウ６４２によって、再生対象フレームを有するシーン（以下、現在シーンともいう）と同様のシーンを把握し、さらに、クラスタウインドウ６４３や６４４によって、現在シーンの直前のシーンと同様のシーンや、現在シーンの直後のシーンと同様のシーンも把握することができる。

ここで、図６２では、表示装置６０３の表示画面の左上側の1/4程度の領域に、再生ウインドウ６４１が表示され、再生ウインドウ６４１の右側の、表示画面の右上側の1/4程度の領域に、サムネイルウインドウ６４５が表示されている。

さらに、図６２では、表示装置６０３の表示画面の下側の1/2程度の領域を、水平方向に３つに分けた（３つの）領域のうちの、左から１番目の領域には、クラスタウインドウ６４４が、２番目の領域には、クラスタウインドウ６４２が、３番目の領域には、クラスタウインドウ６４３が、それぞれ表示されている。

なお、５ペイン表示において、サムネイルウインドウ６４５に表示されるサムネイルのうちの、現在シーンのサムネイルについては、枠で囲む等の強調表示を行うことができる。

さらに、サムネイルウインドウ６４５では、再生対象コンテンツのすべてのシーンのサムネイルのうちの、クラスタウインドウ６４２ないし６４４に表示されたサムネイルを除いた、残りのサムネイルだけを表示することができる。

また、５ペイン表示でも、2Dマップ表示等の場合と同様に、ユーザは、操作部６１５を操作することにより、クラスタウインドウ６４２ないし６４４や、サムネイルウインドウ６４５に表示されたサムネイルを指示する指示入力を与えることができる。

すなわち、制御部６１６は、指示入力によって指示されたサムネイルが表すシーンの、例えば、先頭のフレームを、再生対象フレームとする。そして、表示制御部６１４において、その再生対象フレームが、いままで、再生対象フレームであったフレームに代えて、再生ウインドウ６４１に表示される。

さらに、表示制御部６１４は、再生対象フレームの変更に応じて、クラスタウインドウ６４２ないし６４４の表示も変更する。

したがって、５ペイン表示によれば、ユーザは、サムネイルを指示する指示入力を与えるだけで、再生対象コンテンツの任意のシーンに、再生位置をジャンプすることができる。

［時系列表示］

図６３は、時系列表示の表示例を示す図である。

時系列表示では、表示制御部６１４は、再生対象コンテンツを描画した再生ウインドウ６５１と、サムネイル画像群６５２とを、表示装置６０３に表示する。

図６３では、表示装置６０３の表示画面の上側の3/4程度の領域に、再生ウインドウ６５１が表示され、再生ウインドウ６５１の下側の、表示画面の下側の1/4程度の領域に、サムネイル画像群６５２が表示されている。

サムネイル画像群６５２は、再生対象フレームを有するシーン（現在シーン）のサムネイル、現在シーンの後の１以上のシーンのサムネイル、及び、現在シーンの前の１以上のシーンのサムネイルを、時系列に並べた画像になっている。

すなわち、図６３では、サムネイル画像群６５２の中央に、現在シーンのサムネイルが配置されており、右から左方向を、時刻の進行方向として、現在シーンのサムネイルの右側に、現在シーンの直前の４つのシーンのサムネイルが、時系列に配置されている。

さらに、図６３のサムネイル画像群６５２では、現在シーンのサムネイルの左側に、現在シーンの直後の４つのシーンのサムネイルが、時系列に配置されている。

また、図６３のサムネイル画像群６５２において、サムネイルは、円柱の側面に貼り付けられたような状態で、いわゆる3D画像のように表示されている。これにより、サムネイル画像群６５２を構成するサムネイルの中で、現在シーンのサムネイルは、最も大きいサイズで表示されており、現在シーンから、時系列で離れたシーンのサムネイルほど、小さいサイズで表示されている。

以上のように、サムネイル画像群６５２では、現在シーンのサムネイル、現在シーンの後の１以上のシーンのサムネイル、及び、現在シーンの前の１以上のシーンのサムネイルが、時系列に並んでいるので、サムネイル画像群６５２によれば、ユーザは、現在シーンに時間的に近いシーンを、容易に把握することができる。

時系列表示でも、2Dマップ表示等の場合と同様に、ユーザは、操作部６１５を操作することにより、サムネイル画像群６５２のサムネイルを指示する指示入力を与えることができる。

すなわち、制御部６１６は、指示入力によって指示されたサムネイルが表すシーンの、例えば、先頭のフレームを、再生対象フレームとする。そして、表示制御部６１４において、その再生対象フレームが、いままで、再生対象フレームであったフレームに代えて、再生ウインドウ６５１に表示される。

さらに、表示制御部６１４は、再生対象フレームの変更に応じて、サムネイル画像群６５２の表示も変更する。

したがって、時系列表示によれば、ユーザは、サムネイルを指示する指示入力を与えるだけで、再生対象コンテンツの任意のシーンに、再生位置をジャンプすることができる。

ここで、時系列表示では、サムネイル画像群６５２において、現在シーンの後の１以上のシーンのサムネイル、及び、現在シーンの前の１以上のシーンのサムネイルが、時系列に並んでいるので、例えば、現在シーンの次（直後）のシーンや、現在シーンの次の次のシーン等に、再生位置をジャンプすることができる。

したがって、サムネイル画像群６５２の各サムネイルは、従来のレコーダの、上述したジャンプボタンのような機能を有する、ということができる。

なお、ジャンプボタンによるジャンプでは、ジャンプ後のフレーム（再生対象フレーム）が、現在シーンとは異なるシーンのフレームとは限らず、現在シーンのフレームであることがあり、シーンが変わらないことがあるが、サムネイル画像群６５２のサムネイルによるジャンプでは、ジャンプ後のフレームが、必ず、現在シーンとは異なるシーンのフレームである点で、サムネイル画像群６５２のサムネイルによるジャンプは、ジャンプボタンによるジャンプよりも、有用である。

［フラット表示］

図６４は、フラット表示の表示例を示す図である。

フラット表示では、表示制御部６１４は、図６２の５ペイン表示のサムネイルウインドウ６４５と同様に、再生対象コンテンツのすべてのシーンのサムネイルを時系列に並べて、表示装置６０３に表示する。

したがって、フラット表示によれば、再生対象コンテンツのシーンすべてを、容易に把握することができる。

また、フラット表示においても、2Dマップ表示の場合と同様に、再生対象フレームが描画された再生ウインドウを表示することができる。

すなわち、表示制御部６１４では、再生対象コンテンツのすべてのシーンのサムネイルを表示するとともに、再生対象フレームが描画された再生ウインドウを、その再生対象フレームのシーン（現在シーン）のサムネイルの位置に表示させることができる。

さらに、フラット表示でも、2Dマップ表示の場合と同様に、ユーザは、操作部６１５を操作することにより、サムネイルを指示する指示入力を与えることができる。

すなわち、制御部６１６は、指示入力によって指示されたサムネイルが表すシーンの、例えば、先頭のフレームを、再生対象フレームとする。そして、表示制御部６１４において、その再生対象フレームが描画された再生ウインドウが、指示入力によって指示されたサムネイルの位置に表示される。

［クラスタリングモデルがHMMである場合の、クラスタリングモデルの学習］

図６５は、クラスタリングモデルがHMMである場合に、クラスタリングモデル学習部６２１（図５５）が行う、クラスタリングモデルの学習の処理を説明するフローチャートである。

ここで、図５５で説明したように、クラスタリングモデルとしては、例えば、状態と状態遷移とを有する状態遷移モデルを採用することができ、また、クラスタリングモデルとして採用する状態遷移モデルとしては、例えば、コンテンツモデルとしてのHMMや、ベクトル量子化に用いられるk-means法を利用したモデルである新ベクトル量子化モデル、GMMを利用したモデルである新GMM等を採用することができる。

図６５は、以上のHMM、新ベクトル量子化モデル、及び、新GMMモデルのうちの、HMMを、クラスタリングモデルとして採用した場合の、そのクラスタリングモデルの学習の処理を説明するフローチャートである。

クラスタリングモデル学習部６２１（図５５）は、ステップＳ６２１において、コンテンツ記憶装置６０１に記憶されたコンテンツを、クラスタリングモデルの学習用の学習用コンテンツとして、その学習用コンテンツを、カテゴリごとに分類する。

そして、クラスタリングモデル学習部６２１は、例えば、図２のコンテンツモデル学習部１２と同様に、学習用コンテンツの各フレームの特徴量を抽出し、処理は、ステップＳ６２１からステップＳ６２２に進む。

ステップＳ６２２では、クラスタリングモデル学習部６２１は、各カテゴリについて、そのカテゴリの学習用コンテンツのフレームの特徴量（の時系列）を用いて、クラスタリングモデルとなるHMMの学習を、図２のコンテンツモデル学習部１２と同様にして行い、カテゴリごとのクラスタリングモデルとしてのHMMを生成（獲得）する。

そして、クラスタリングモデル学習部６２１は、カテゴリごとのクラスタリングモデルとしてのHMMを、クラスタリングモデル記憶部６２２に供給して記憶させ、クラスタリングモデルの学習の処理は、終了する。

ここで、クラスタリングモデルがHMMである場合、HMMの状態が、クラスタに対応する。

［クラスタリングモデルがHMMである場合のクラスタリング］

図６６は、クラスタリングモデルがHMMである場合に、クラスタリング部６１１（図５５）が行う、再生対象コンテンツのクラスタリングの処理を説明するフローチャートである。

ステップＳ６３１において、クラスタリングモデル選択部６２３（図５５）は、クラスタリングモデル記憶部６２２に記憶された、カテゴリごとのクラスタリングモデルの中から、再生対象コンテンツのカテゴリに一致するカテゴリのクラスタリングモデルを、クラスタリングに用いる注目モデルとして選択し、クラスタ判定部６２５に供給して、処理は、ステップＳ６３２に進む。

ステップＳ６３２では、特徴量抽出部６２４（図５５）は、コンテンツ記憶装置６０１からの再生対象コンテンツの各フレームの特徴量（コンテンツモデルとしてのHMMの学習に用いられたのと同一の特徴量）を抽出し、クラスタ判定部６２５に供給して、処理は、ステップＳ６３３に進む。

ステップＳ６３３、及び、続くステップＳ６３４では、クラスタ判定部６２５（図５５）は、クラスタリングモデル選択部６２３からの注目モデルと、特徴量抽出部６２４からの再生対象コンテンツの各フレーム（の時系列）の特徴量とを用いて、再生対象コンテンツの各フレームが属するクラスタを判定し、そのクラスタであるクラスタリング結果を表すクラスタリング情報を、シーン区分部６１２に供給（出力）する。

すなわち、ステップＳ６３３では、クラスタ判定部６２３は、図９の最尤状態系列推定部３４と同様に、クラスタリングモデル選択部６２３からの注目モデルにおいて、特徴量抽出部６２４からの再生対象コンテンツの特徴量（再生対象コンテンツの各フレームの特徴量の時系列）が観測される尤度が最も高い状態遷移が生じる状態系列である最尤状態系列（再生対象コンテンツに対する注目モデルの最尤状態系列）を推定し、処理は、ステップＳ６３４に進む。

ステップＳ６３４では、クラスタ判定部６２５は、再生対象コンテンツに対する注目モデルの最尤状態系列を、クラスタリング情報として、シーン区分部６１２（図５３）に出力し、再生対象コンテンツのクラスタリングの処理は、終了する。

図６７は、HMMをクラスタリングモデルとして採用した場合のクラスタリングを表現するグラフィカルモデルを示す図である。

図６７のグラフィカルモデルは、再生対象コンテンツに対する注目モデルの最尤状態系列s(1),s(2),・・・,s(T)の時刻tの状態s(t)において（Tは、再生対象コンテンツのフレーム数を表す）、再生対象コンテンツの時刻tのフレームの特徴量x_ｔが観測されることを表現している。

再生対象コンテンツに対する注目モデルの最尤状態系列s(1)ないしs(T)の時刻tの状態s(t)は、再生対象コンテンツの時刻tのフレームが、状態s(t)に対応するクラスタにクラスタリングされたことを表す。

［クラスタリングモデルが新ベクトル量子化モデルである場合の、クラスタリングモデルの学習］

図６８は、クラスタリングモデルが新ベクトル量子化モデルである場合に、クラスタリングモデル学習部６２１（図５５）が行う、クラスタリングモデルの学習の処理を説明するフローチャートである。

クラスタリングモデル学習部６２１（図５５）は、ステップＳ６４１において、コンテンツ記憶装置６０１に記憶されたコンテンツを、クラスタリングモデルの学習用の学習用コンテンツとして、その学習用コンテンツを、カテゴリごとに分類する。

そして、クラスタリングモデル学習部６２１は、例えば、図２のコンテンツモデル学習部１２と同様に、学習用コンテンツの各フレームの特徴量（ベクトル）を抽出し、処理は、ステップＳ６４１からステップＳ６４２に進む。

ステップＳ６４２では、クラスタリングモデル学習部６２１は、各カテゴリについて、そのカテゴリの学習用コンテンツの各フレームの特徴量を用いて、フレームの特徴量（ベクトル）のベクトル量子化に用いるコードブックを、例えば、k-means法によって求め、処理は、ステップＳ６４３に進む。

すなわち、クラスタリングモデル学習部６２１は、k-means法によって、フレームの特徴量の空間（特徴量空間）のベクトルであるコードベクトルを求め、そのコードベクトルを表す（識別する）コードと対応付けて、コードブックに登録する。

なお、クラスタリングモデルが新ベクトル量子化モデルである場合、コードベクトル（を表すコード）が、状態遷移モデルである新ベクトル量子化モデルの状態、ひいては、クラスタに対応する。

ここで、コードブックのコードベクトルの総数が、N個であるとし、そのN個のコードベクトルのうちの、n番目のコードベクトルを、μ_nと表すとともに、そのコードベクトルμ_nを表すコードを、nと表すこととする。

ステップＳ６４３では、クラスタリングモデル学習部６２１は、各カテゴリについて、そのカテゴリの学習用コンテンツの各フレームの特徴量を、時系列に、そのカテゴリのコードブックを用いてベクトル量子化することによりクラスタリングし、クラスタリング結果としての、コードの系列（コード系列）を出力して、処理は、ステップＳ６４４に進む。

すなわち、学習用コンテンツの時刻tのフレームの特徴量（ベクトル）を、x_tと表すこととすると、クラスタリングモデル学習部６２１は、特徴量（ベクトル）x_tを、式s(t)=argmin|x_t−μ_n|で表されるコードs(t)、つまり、特徴量（ベクトル）x_tと、コードベクトルμ_nとの距離|x_t−μ_n|を最小にするコードnにベクトル量子化することによりクラスタリングする。

クラスタリングモデル学習部６２１は、各カテゴリについて、そのカテゴリの学習用コンテンツの各フレームの特徴量を、時系列に、そのカテゴリのコードブックを用いてベクトル量子化することによりクラスタリングし、クラスタリング結果としての、コード系列s(1),s(2),・・・，s(T)（Tは、再生対象コンテンツのフレーム数を表す）を出力する。

ステップＳ６４４では、クラスタリングモデル学習部６２１は、各カテゴリについて、そのカテゴリのコード系列s(1)ないしs(T)に基づき、コード（が表すコードベクトル）に対応する状態の状態遷移確率（以下、コード遷移確率ともいう）を求め、処理は、ステップＳ６４５に進む。

すなわち、クラスタリングモデル学習部６２１は、ある時刻tに、コードs(t)に対応する状態iにいて、次の時刻t+1に、コードs(t+1)に対応する状態jに状態遷移する状態遷移確率であるコード遷移確率A_ij=P(j=s(t+1)|i=s(t))を求める。

なお、コード系列s(1)ないしs(T)において、時刻tに、コードiに対応する状態iにいて、次の時刻t+1に、コードjに対応する状態jに状態遷移した回数を、m_i,jと表すこととすると、時刻tに、コードs(t)に対応する状態にいて、次の時刻t+1に、コードs(t+1)に対応する状態に状態遷移する状態遷移確率P(s(t+1)|s(t))は、式P(s(t+1)|s(t))＝m_s(t),s(t+1)／Σm_s(t),nで表される。

ここで、式P(s(t+1)|s(t))＝m_s(t),s(t+1)／Σm_s(t),nにおいて、右辺の分母のΣは、nを、1からNまでの整数に変えてのサメ−ション（総和）を表す。

ステップＳ６４５では、クラスタリングモデル学習部６２１は、各カテゴリについて求められたコードブックと、コード遷移確率A_ijとのセットを、コードに対応する状態と、コード遷移確率A_ijを状態遷移確率とする状態遷移とを有する状態遷移モデルである新ベクトル量子化モデルとして、クラスタリングモデル記憶部６２２に供給して記憶させ、クラスタリングモデルの学習の処理は、終了する。

［クラスタリングモデルが新ベクトル量子化モデルである場合のクラスタリング］

図６９は、クラスタリングモデルが新ベクトル量子化モデルである場合に、クラスタリング部６１１（図５５）が行う、再生対象コンテンツのクラスタリングの処理を説明するフローチャートである。

ステップＳ６５１において、クラスタリングモデル選択部６２３（図５５）は、クラスタリングモデル記憶部６２２に記憶された、カテゴリごとのクラスタリングモデルの中から、再生対象コンテンツのカテゴリに一致するカテゴリのクラスタリングモデルを、クラスタリングに用いる注目モデルとして選択し、クラスタ判定部６２５に供給して、処理は、ステップＳ６５２に進む。

ステップＳ６５２では、特徴量抽出部６２４（図５５）は、コンテンツ記憶装置６０１からの再生対象コンテンツの各フレームの特徴量（コンテンツモデルとしての新ベクトル量子化モデルの学習に用いられたのと同一の特徴量）を抽出し、クラスタ判定部６２５に供給して、処理は、ステップＳ６５３に進む。

ステップＳ６５３、及び、続くステップＳ６５４では、クラスタ判定部６２５（図５５）は、クラスタリングモデル選択部６２３からの注目モデルと、特徴量抽出部６２４からの再生対象コンテンツの各フレームの特徴量とを用いて、再生対象コンテンツの各フレームが属するクラスタを判定し、そのクラスタであるクラスタリング結果を表すクラスタリング情報を、シーン区分部６１２に供給（出力）する。

すなわち、ステップＳ６５３では、クラスタ判定部６２３は、特徴量抽出部６２４からの再生対象コンテンツの各フレームの特徴量（ベクトル）を、クラスタリングモデル選択部６２３からの注目モデルとしてのコードブックを用いてベクトル量子化することにより、再生対象コンテンツの各フレームをクラスタリングし、処理は、ステップＳ６５４に進む。

ステップＳ６５４では、クラスタ判定部６２５は、再生対象コンテンツの各フレームのベクトル量子化結果であるコード（の系列）を、クラスタリング情報として、シーン区分部６１２（図５３）に出力し、再生対象コンテンツのクラスタリングの処理は、終了する。

なお、新ベクトル量子化モデルの状態遷移確率であるコード遷移確率は、新ベクトル量子化モデルを用いたクラスタリングには用いられないが、図５６ないし図５８で説明した2Dマップ表示を行う場合において、モデルマップ上の状態どうしの間を、その状態どうしの間の状態遷移確率に応じて結ぶ線分を描画するときに用いられる。

図７０は、新ベクトル量子化モデルをクラスタリングモデルとして採用した場合のクラスタリングを表現するグラフィカルモデルを示す図である。

図７０のグラフィカルモデルは、再生対象コンテンツの時刻tのフレームのベクトル量子化結果であるコードs(t)に対応する状態において（図７０で、Tは、再生対象コンテンツのフレーム数を表す）、再生対象コンテンツの時刻tのフレームの特徴量x_ｔが観測されることを表現している。

また、コードs(t)は、再生対象コンテンツの時刻tのフレームが、コードs(t)（に対応する状態）に対応するクラスタにクラスタリングされたことを表す。

［クラスタリングモデルが新GMMである場合の、クラスタリングモデルの学習］

図７１は、クラスタリングモデルが新GMMである場合に、クラスタリングモデル学習部６２１（図５５）が行う、クラスタリングモデルの学習の処理を説明するフローチャートである。

クラスタリングモデル学習部６２１は、ステップＳ６６１において、コンテンツ記憶装置６０１に記憶されたコンテンツを、クラスタリングモデルの学習用の学習用コンテンツとして、その学習用コンテンツを、カテゴリごとに分類する。

そして、クラスタリングモデル学習部６２１は、例えば、図２のコンテンツモデル学習部１２と同様に、学習用コンテンツの各フレームの特徴量（ベクトル）を抽出し、処理は、ステップＳ６６１からステップＳ６６２に進む。

ステップＳ６６２では、クラスタリングモデル学習部６２１は、各カテゴリについて、そのカテゴリの学習用コンテンツの各フレームの特徴量を用いて、一般的なGMMの学習を行うことにおり、GMMのクラスの平均値（ベクトル）と分散とを求め、処理は、ステップＳ６６３に進む。

すなわち、クラスタリングモデル学習部６２１は、フレームの特徴量の空間（特徴量空間）の一部の空間（分布）であるクラスを規定する平均値と分散とを求める。

ここで、クラスを規定する平均値と分散を、それぞれ、クラス平均値とクラス分散という。このクラス平均値とクラス分散とで規定されるクラスが、状態遷移モデルである新GMMの状態、ひいては、クラスタに対応する。

なお、ここでは、GMMのクラスの総数が、N個であるとし、そのN個のクラスのうちの、n番目のクラスnのクラス平均値とクラス分散を、それぞれ、μ_nとσ² _nと表す。

ステップＳ６６３では、クラスタリングモデル学習部６２１は、各カテゴリについて、そのカテゴリの学習用コンテンツの各フレームの特徴量を、そのカテゴリのGMMのいずれかのクラスに分類することによりクラスタリングし、クラスタリング結果としての、特徴量を分類したクラスの系列（クラス系列）を出力して、処理は、ステップＳ６６４に進む。

すなわち、学習用コンテンツの時刻tのフレームの特徴量（ベクトル）を、x_tと表すこととすると、クラスタリングモデル学習部６２１は、特徴量（ベクトル）x_tを、式s(t)=argmax{Normal(x_t;μ_n,σ² _n)}で表されるクラスs(t)に分類することによりクラスタリングする。

ここで、式s(t)=argmax{Normal(x_t;μ_n,σ² _n)}において、Normal(x_t;μ_n,σ² _n)は、平均値(ベクトル）が、クラス平均値μ_nで、分散が、クラス分散σ² _nの正規分布を表す正規分布関数の、引数が特徴量x_tであるときの関数値を表す。

したがって、式s(t)=argmax{Normal(x_t;μ_n,σ² _n)}によれば、特徴量x_tは、その特徴量x_tを引数とする正規分布関数の関数値を最大にするクラスnに分類されることによりクラスタリングされる。

クラスタリングモデル学習部６２１は、各カテゴリについて、そのカテゴリの学習用コンテンツの各フレームの特徴量を、時系列に、そのカテゴリのGMMのいずれかのクラスに分類することによりクラスタリングし、クラスタリング結果としての、クラス系列s(1),s(2),・・・，s(T)（Tは、再生対象コンテンツのフレーム数を表す）を出力する。

ステップＳ６６４では、クラスタリングモデル学習部６２１は、各カテゴリについて、そのカテゴリのクラス系列s(1)ないしs(T)に基づき、クラスに対応する状態の状態遷移確率（以下、クラス遷移確率ともいう）を求め、処理は、ステップＳ６６５に進む。

すなわち、クラスタリングモデル学習部６２１は、ある時刻tに、クラスs(t)に対応する状態iにいて、次の時刻t+1に、クラスs(t+1)に対応する状態jに状態遷移する状態遷移確率であるクラス遷移確率A_ij=P(j=s(t+1)|i=s(t))を求める。

なお、クラス系列s(1)ないしs(T)において、時刻tに、クラスiに対応する状態iにいて、次の時刻t+1に、クラスjに対応する状態jに状態遷移した回数を、m_i,jと表すこととすると、時刻tに、クラスs(t)に対応する状態にいて、次の時刻t+1に、クラスs(t+1)に対応する状態に状態遷移する状態遷移確率P(s(t+1)|s(t))は、上述のコード遷移確率と同様に、式P(s(t+1)|s(t))＝m_s(t),s(t+1)／Σm_s(t),nで表される。

ステップＳ６６５では、クラスタリングモデル学習部６２１は、各カテゴリについて求められたGMMと、クラス遷移確率A_ijとのセットを、クラスに対応する状態と、クラス遷移確率A_ijを状態遷移確率とする状態遷移とを有する状態遷移モデルである新GMMとして、クラスタリングモデル記憶部６２２に供給して記憶させ、クラスタリングモデルの学習の処理は、終了する。

［クラスタリングモデルが新GMMである場合のクラスタリング］

図７２は、クラスタリングモデルが新GMMである場合に、クラスタリング部６１１（図５５）が行う、再生対象コンテンツのクラスタリングの処理を説明するフローチャートである。

ステップＳ６７１において、クラスタリングモデル選択部６２３（図５５）は、クラスタリングモデル記憶部６２２に記憶された、カテゴリごとのクラスタリングモデルの中から、再生対象コンテンツのカテゴリに一致するカテゴリのクラスタリングモデルを、クラスタリングに用いる注目モデルとして選択し、クラスタ判定部６２５に供給して、処理は、ステップＳ６７２に進む。

ステップＳ６７２では、特徴量抽出部６２４（図５５）は、コンテンツ記憶装置６０１からの再生対象コンテンツの各フレームの特徴量（コンテンツモデルとしての新GMMの学習に用いられたのと同一の特徴量）を抽出し、クラスタ判定部６２５に供給して、処理は、ステップＳ６７３に進む。

ステップＳ６７３、及び、続くステップＳ６７４では、クラスタ判定部６２５（図５５）は、クラスタリングモデル選択部６２３からの注目モデルと、特徴量抽出部６２４からの再生対象コンテンツの各フレームの特徴量とを用いて、再生対象コンテンツの各フレームが属するクラスタを判定し、そのクラスタであるクラスタリング結果を表すクラスタリング情報を、シーン区分部６１２に供給（出力）する。

すなわち、ステップＳ６７３では、クラスタ判定部６２３は、特徴量抽出部６２４からの再生対象コンテンツの各フレームの特徴量を、クラスタリングモデル選択部６２３からの注目モデルとしてのGMMのいずれかのクラスに分類するクラス分類を行うことにより、再生対象コンテンツの各フレームをクラスタリングし、処理は、ステップＳ６７４に進む。

ステップＳ６７４では、クラスタ判定部６２５は、再生対象コンテンツの各フレームのクラス分類結果であるクラス（の系列）を、クラスタリング情報として、シーン区分部６１２（図５３）に出力し、再生対象コンテンツのクラスタリングの処理は、終了する。

なお、新GMMの状態遷移確率であるクラス遷移確率は、新GMMを用いたクラスタリングには用いられないが、図５６ないし図５８で説明した2Dマップ表示を行う場合において、モデルマップ上の状態どうしの間を、その状態どうしの間の状態遷移確率に応じて結ぶ線分を描画するときに用いられる。

また、新GMMをクラスタリングモデルとして採用した場合のクラスタリングを表現するグラフィカルモデルは、図７０に示した、新ベクトル量子化モデルをクラスタリングモデルとして採用した場合のクラスタリングを表現するグラフィカルモデルと同様であるので、説明を省略する。

以上、クラスタリングモデルとして、状態遷移モデルであるHMMや、新ベクトル量子化モデル、新GMMを用いた場合について説明したが、クラスタリングモデルとしては、状態遷移モデルでないモデル、すなわち、例えば、コードブックや、GMMを採用することが可能である。

クラスタリングモデルとして、状態遷移モデルでないコードブックや、GMMを採用した場合でも、クラスタリング部６１１では、クラスタリングとして、図６９や図７２で説明した、コードブックを用いたベクトル量子化や、GMMを用いたクラス分類を行うことができる。

但し、クラスタリングモデルとして、状態遷移モデルでないコードブックや、GMMを採用した場合には、状態遷移確率が存在しないため、状態遷移確率を用いた表示が行われる2Dマップ表示は、行うことができない（ステート表示、２ペイン表示、５ペイン表示、時系列表示、及び、フラット表示は、行うことができる）。

［本発明を適用したコンピュータの説明］

次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

そこで、図７３は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク１００５やROM１００３に予め記録しておくことができる。

あるいはまた、プログラムは、ドライブ１００９に装着されるリムーバブル記録媒体１０１１に格納（記録）しておくことができる。このようなリムーバブル記録媒体１０１１は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体１０１１としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。

なお、プログラムは、上述したようなリムーバブル記録媒体１０１１からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク１００５にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。

コンピュータは、CPU(Central Processing Unit)１００２を内蔵しており、CPU１００２には、バス１００１を介して、入出力インタフェース１０１０が接続されている。

CPU１００２は、入出力インタフェース１０１０を介して、ユーザによって、入力部１００７が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)１００３に格納されているプログラムを実行する。あるいは、CPU１００２は、ハードディスク１００５に格納されたプログラムを、RAM(Random Access Memory)１００４にロードして実行する。

これにより、CPU１００２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU１００２は、その処理結果を、必要に応じて、例えば、入出力インタフェース１０１０を介して、出力部１００６から出力、あるいは、通信部１００８から送信、さらには、ハードディスク１００５に記録等させる。

なお、入力部１００７は、キーボードや、マウス、マイク等で構成される。また、出力部１００６は、LCD(Liquid Crystal Display)やスピーカ等で構成される。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１１コンテンツ記憶部，１２コンテンツモデル学習部，１３モデル記憶部，
１４コンテンツ構造提示部，１５ダイジェスト生成部，１６スクラップブック生成部，２１学習用コンテンツ選択部，２２特徴量抽出部，２３フレーム分割部，２４サブ領域特徴量抽出部，２５結合部，２６特徴量記憶部，２７学習部，３１コンテンツ選択部，３２モデル選択部，３３特徴量抽出部，３４最尤状態系列推定部，３５状態対応画像情報生成部，３６状態間距離算出部，３７座標算出部，３８マップ描画部，３９表示制御部，５１ハイライト検出器学習部，５２検出器記憶部，５３ハイライト検出部，６１コンテンツ選択部，６２モデル選択部，６３特徴量抽出部，６４最尤状態系列推定部，６５ハイライトラベル生成部，６６学習用ラベル生成部，６７学習部，７１コンテンツ選択部，７２モデル選択部，７３特徴量抽出部，７４
最尤状態系列推定部，７５検出用ラベル生成部，７６検出器選択部，７７最尤状態系列推定部，７８ハイライトシーン検出部，７９ダイジェストコンテンツ生成部，８０再生制御部，１０１初期スクラップブック生成部，１０２初期スクラップブック記憶部，１０３登録スクラップブック生成部，１０４登録スクラップブック記憶部，１０５再生制御部，１１１コンテンツ選択部，１１２
モデル選択部，１１３特徴量抽出部，１１４最尤状態系列推定部，１１５状態対応画像情報生成部，１１６状態間距離算出部，１１７座標算出部，１１８マップ描画部，１１９表示制御部，１２１状態選択部，１２２選択状態登録部，１４１スクラップブック選択部，１４２コンテンツ選択部，１４３モデル選択部，１４４特徴量抽出部，１４５最尤状態系列推定部，１４６フレーム抽出部，１４７フレーム登録部，２０１コンテンツモデル学習部，２０２モデル記憶部，２０２ａ画像モデル記憶部，２０２ｂ音声モデル記憶部，２０２ｃ対象物モデル記憶部，２０３コンテンツ構造提示部，２０４ダイジェスト生成部，２０５スクラップブック生成部，２２０画像特徴量抽出部，２２１音声特徴量抽出部，２２２音声特徴量記憶部，２２３学習部，２２４対象物特徴量抽出部，２２５対象物特徴量記憶部，２２６学習部，２４１プリミティブ特徴量抽出部，２４２平均算出部，２４３分散算出部，２２４結合部，２６１対象物抽出部，２６２フレーム分割部，２６３サブ領域特徴量抽出部，２６４結合部，２９１ハイライト検出器学習部，２９２検出器記憶部，２９３ハイライト検出部，３１１画像モデル選択部，３１２画像特徴量抽出部，３１３画像最尤状態系列推定部，３１４学習用ラベル生成部，３１５学習部，３１６音声モデル選択部，３１７音声特徴量抽出部，３１８音声最尤状態系列推定部，３１９対象物モデル選択部，３２０対象物特徴量抽出部，３２１対象物最尤状態系列推定部，３４１画像モデル選択部，３４２画像特徴量抽出部，３４３画像最尤状態系列推定部，３４４検出用ラベル生成部，３４５検出器選択部，３４６最尤状態系列推定部，３４７ハイライトシーン検出部，３４８ダイジェストコンテンツ生成部，３４９再生制御部，３５０音声モデル選択部，３５１音声特徴量抽出部，３５２音声最尤状態系列推定部，３５３対象物モデル選択部，３５４対象物特徴量抽出部，３５５対象物最尤状態系列推定部，３７１初期スクラップブック生成部，３７２初期スクラップブック記憶部，３７３登録スクラップブック生成部，３７４登録スクラップブック記憶部，３７５再生制御部，４１１画像モデル選択部，４１２画像特徴量抽出部，
４１３画像最尤状態系列推定部，４１４画像状態対応画像情報生成部，４１５画像状態間距離算出部，４１６画像座標算出部，４１７画像マップ描画部，４１８表示制御部，４１９状態選択部，４２０選択状態登録部，４２１音声モデル選択部，４２２音声特徴量抽出部，４２３音声最尤状態系列推定部，４２４音声状態対応画像情報生成部，４２５音声状態間距離算出部，４２６音声座標算出部，４２７音声マップ描画部，４２８対象物モデル選択部，４２９対象物特徴量抽出部，４３０対象物最尤状態系列推定部，４３１対象物状態対応画像情報生成部，４３２対象物状態間距離算出部，４３３対象物座標算出部，４３４対象物マップ描画部，５０１画像モデル選択部，５０２画像特徴量抽出部，５０３画像最尤状態系列推定部，５０４フレーム抽出部，５０５フレーム登録部，５０６音声モデル選択部，５０７音声特徴量抽出部，５０８音声最尤状態系列推定部５０９対象物モデル選択部，５１０対象物特徴量抽出部，５１１対象物最尤状態系列推定部，６０１コンテンツ記憶装置，６０２表示制御装置，６０３表示装置，６１１クラスタリング部，６１２シーン区分部，６１３サムネイル作成部，６１４表示制御部，６１５操作部，６１６制御部，６２１クラスタリングモデル学習部，６２２クラスタリングモデル記憶部，６２３クラスタリングモデル選択部，６２４特徴量抽出部，６２５クラスタ判定部，６３１再生ウインドウ，６３２クラスタウインドウ，６４１再生ウインドウ，６４２ないし６４４クラスタウインドウ，６４５サムネイルウインドウ，６５１再生ウインドウ，６５２サムネイル画像群，１００１バス，１００２ CPU，１００３ ROM，１００４ RAM，１００５ハードディスク，１００６出力部，１００７入力部，１００８通信部，１００９ドライブ，１０１０入出力インタフェース，１０１１リムーバブル記録媒体

Claims

状態と状態遷移とを有する状態遷移モデルを用いて、コンテンツの各フレームを、複数の前記状態のそれぞれに対応する複数のクラスタのそれぞれのうちのいずれかのクラスタにクラスタリングするクラスタリング手段と、
前記複数のクラスタそれぞれについて、前記クラスタに属するフレームを、時間的に連続する１フレーム以上のフレームの集まりであるシーンに区分するシーン区分手段と、
前記シーンのサムネイルを作成するサムネイル作成手段と、
前記状態遷移モデルの１つの状態から他の１つの状態への状態間距離を、前記１つの状態から前記他の１つの状態への状態遷移の状態遷移確率に基づいて求め、状態を配置した２次元のマップであるモデルマップ上の、前記１つの状態から前記他の１つの状態へのユークリッド距離と、前記状態間距離との誤差が小さくなるように、前記モデルマップ上の前記状態の位置の座標である状態座標を求め、前記状態座標の位置に、対応する前記状態を配置した前記モデルマップを生成し、前記モデルマップの各状態の位置に、その状態に対応するクラスタに属するフレームを有するシーンのサムネイルを配置して表示する2Dマップ表示の表示制御を行う表示制御手段と
を備える表示制御装置。
前記コンテンツの再生を制御する制御手段をさらに備え、
前記表示制御手段は、再生の対象のフレームである再生対象フレームを、前記モデルマップの、前記再生対象フレームが属するクラスタに対応する状態の位置に表示させる
請求項１に記載の表示制御装置。
前記制御手段は、前記モデルマップ上の状態を指示する指示入力に基づいて、前記指示入力によって指示された状態に対応するクラスタに属するフレームを、前記再生対象フレームとして、前記コンテンツを再生させる
請求項２に記載の表示制御装置。
前記表示制御手段は、
前記ユークリッド距離と、前記状態間距離との統計的な誤差に比例するSammon Mapのエラー関数を最小にするように、前記状態座標を求め、
前記１つの状態から前記他の１つの状態へのユークリッド距離が、所定の閾値より大である場合、前記１つの状態から前記他の１つの状態へのユークリッド距離を、前記１つの状態から前記他の１つの状態への前記状態間距離に等しい距離にして、前記エラー関数の計算を行う
請求項１に記載の表示制御装置。
表示制御装置が、
状態と状態遷移とを有する状態遷移モデルを用いて、コンテンツの各フレームを、複数の前記状態のそれぞれに対応する複数のクラスタのそれぞれのうちのいずれかのクラスタにクラスタリングし、
前記複数のクラスタそれぞれについて、前記クラスタに属するフレームを、時間的に連続する１フレーム以上のフレームの集まりであるシーンに区分し、
前記シーンのサムネイルを作成し、
前記状態遷移モデルの１つの状態から他の１つの状態への状態間距離を、前記１つの状態から前記他の１つの状態への状態遷移の状態遷移確率に基づいて求め、状態を配置した２次元のマップであるモデルマップ上の、前記１つの状態から前記他の１つの状態へのユークリッド距離と、前記状態間距離との誤差が小さくなるように、前記モデルマップ上の前記状態の位置の座標である状態座標を求め、前記状態座標の位置に、対応する前記状態を配置した前記モデルマップを生成し、前記モデルマップの各状態の位置に、その状態に対応するクラスタに属するフレームを有するシーンのサムネイルを配置して表示する2Dマップ表示の表示制御を行う
ステップを含む表示制御方法。
状態と状態遷移とを有する状態遷移モデルを用いて、コンテンツの各フレームを、複数の前記状態のそれぞれに対応する複数のクラスタのそれぞれのうちのいずれかのクラスタにクラスタリングするクラスタリング手段と、
前記複数のクラスタそれぞれについて、前記クラスタに属するフレームを、時間的に連続する１フレーム以上のフレームの集まりであるシーンに区分するシーン区分手段と、
前記シーンのサムネイルを作成するサムネイル作成手段と、
前記状態遷移モデルの１つの状態から他の１つの状態への状態間距離を、前記１つの状態から前記他の１つの状態への状態遷移の状態遷移確率に基づいて求め、状態を配置した２次元のマップであるモデルマップ上の、前記１つの状態から前記他の１つの状態へのユークリッド距離と、前記状態間距離との誤差が小さくなるように、前記モデルマップ上の前記状態の位置の座標である状態座標を求め、前記状態座標の位置に、対応する前記状態を配置した前記モデルマップを生成し、前記モデルマップの各状態の位置に、その状態に対応するクラスタに属するフレームを有するシーンのサムネイルを配置して表示する2Dマップ表示の表示制御を行う表示制御手段と
して、コンピュータを機能させるためのプログラム。