JP4856105B2

JP4856105B2 - 電子機器および表示処理方法

Info

Publication number: JP4856105B2
Application number: JP2008021900A
Authority: JP
Inventors: 浩平桃崎
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-01-31
Filing date: 2008-01-31
Publication date: 2012-01-18
Anticipated expiration: 2028-01-31
Also published as: JP2009182876A

Description

本発明は映像コンテンツデータの概要を表示する電子機器および表示方法に関する。

一般に、ビデオレコーダ、パーソナルコンピュータといった電子機器は、テレビジョン放送番組データのような各種映像コンテンツデータを記録および再生することが可能である。この場合、電子機器に格納された各映像コンテンツデータにはタイトル名が付加されるが、タイトル名だけでは、ユーザが、各映像コンテンツデータがどのような内容のものであるかを把握することは困難である。このため、映像コンテンツデータの内容を把握するためには、その映像コンテンツデータを再生することが必要となる。しかし、総時間長の長い映像コンテンツデータの再生には、たとえ早送り再生機能等を用いた場合であっても、多くの時間が要される。

特許文献１には、登場人物一覧表示機能を有する装置が開示されている。この装置は、映像コンテンツにおける登場人物の一覧として、映像コンテンツにおける登場人物それぞれの顔の画像を並べて表示する機能を有している。
特開２００１−３０９２６９号公報

しかし、単純に登場人物の一覧を表示しただけでは、ユーザは、放送番組のような映像コンテンツデータ内のどの辺りに、ある特定の人物の発言位置、ある特定の音楽が流れる場面、といった特定の音響区間が存在するかを把握することは困難である。例えば、ユーザは、そのユーザにとって興味のある音響区間（特定の人物の発言位置、特定の音楽が流れる場面、など）を放送番組内から探して、それら音響区間のみを選択的に再生することを希望する場合もある。

したがって、映像コンテンツデータ内のどの辺りにどのような種類の音響区間が存在するのかをユーザに提示するための機能の実現が必要である。

しかし、通常、映像コンテンツデータ内には、様々な種類の音響区間が含まれている。したがって、映像コンテンツデータ内に含まれる全ての種類の音響区間それぞれの位置を単純にタイムバー上等に表示するという仕組みを採用すると、タイムバー上に表示される音響区間の数が非常に多くなってしまい、音響区間の位置をユーザに分かりやすく提示することが困難になる。

本発明は上述の事情を考慮してなされたものであり、映像コンテンツデータ内に含まれる音響区間それぞれの位置をユーザに分かりやすく提示することができる電子機器および表示処理方法を提供することを目的とする。

上述の課題を解決するため、本発明の一つの観点によれば、映像コンテンツデータから複数の代表画像を抽出すると共に、抽出された複数の代表画像それぞれが出現する時点を示すタイムスタンプ情報を出力する画像抽出手段と、前記映像コンテンツデータ内のオーディオデータを分析することによって、前記映像コンテンツデータのシーケンス内における音が発生している複数の音響区間それぞれの音響特徴を示す音響特徴情報を出力する音響特徴出力手段と、前記抽出された複数の代表画像の一覧を表示エリア上に表示する画像一覧表示手段と、前記表示エリア上に表示されている代表画像の一覧の中から一つの代表画像が選択された場合、前記音響特徴情報と前記選択された代表画像に対応するタイムスタンプ情報とに基づいて、前記映像コンテンツデータ内に含まれ、且つ前記選択された代表画像が出現する時点が属する音響区間の音響特徴と類似する音響特徴を有する音響区間それぞれを特定する音響区間特定処理を実行する音響区間特定処理手段と、前記音響区間特定処理の結果に基づいて、前記映像コンテンツデータのシーケンスを表すタイムバー上に、前記特定された音響区間それぞれの位置を示すバー領域を表示する表示処理手段とを具備することを特徴とする電子機器が提供される。

本発明の別の観点によれば、映像コンテンツデータから複数の顔画像を抽出すると共に、抽出された複数の顔画像それぞれが出現する時点を示すタイムスタンプ情報を出力する顔画像抽出手段と、前記映像コンテンツデータ内のオーディオデータを分析することによって、前記映像コンテンツデータのシーケンス内における音が発生している複数の音響区間それぞれの音響特徴を示す音響特徴情報を出力する音響特徴出力手段と、前記抽出された複数の顔画像の一覧を表示エリア上に表示する顔画像一覧表示手段と、前記音響特徴情報に基づいて類似する音響特徴を有する音響区間同士を同一のグループにまとめることによって、前記複数の音響区間を、互いに音響特徴が異なる複数のグループに分類すると共に、前記表示エリア上に表示されている顔画像の一覧の中から一つの顔画像が選択された場合、前記複数の音響区間の内で、前記選択された顔画像が出現する時点が属する音響区間と同一のグループに属する音響区間それぞれを特定することによって、前記選択された顔画像が出現する時点が属する音響区間の音響特徴と類似する音響特徴を有する音響区間それぞれを特定する音響区間特定処理を実行する音響区間特定処理手段と、前記音響区間特定処理の結果に基づいて、前記映像コンテンツデータのシーケンスを表すタイムバー上に、前記特定された音響区間それぞれの位置を示すバー領域を表示する表示処理手段とを具備することを特徴とする電子機器が提供される。

本発明のさらに別の観点によれば、映像コンテンツデータの概要を表示するための表示処理方法であって、前記映像コンテンツデータから複数の代表画像を抽出すると共に、抽出された複数の代表画像それぞれが出現する時点を示すタイムスタンプ情報を出力するステップと、前記映像コンテンツデータ内のオーディオデータを分析することによって、前記映像コンテンツデータのシーケンス内における音が発生している複数の音響区間それぞれの音響特徴を示す音響特徴情報を出力するステップと、前記抽出された複数の代表画像の一覧を表示エリア上に表示するステップと、前記表示エリア上に表示されている代表画像の一覧の中から一つの代表画像が選択された場合、前記音響特徴情報と前記選択された代表画像に対応するタイムスタンプ情報とに基づいて、前記映像コンテンツデータ内に含まれ、且つ前記選択された代表画像が出現する時点が属する音響区間の音響特徴と類似する音響特徴を有する音響区間それぞれを特定する音響区間特定処理を実行する音響区間特定処理ステップと、前記音響区間特定処理の結果に基づいて、前記映像コンテンツデータのシーケンスを表すタイムバー上に、前記特定された音響区間それぞれの位置を示すバー領域を表示する表示処理ステップとを具備することを特徴とする表示処理方法が提供される。

本発明によれば、映像コンテンツデータ内に含まれる音響区間それぞれの位置をユーザに分かりやすく提示することができる。

以下、図面を参照して、本発明の実施形態を説明する。
まず、図１および図２を参照して、本発明の一実施形態に係る電子機器の構成を説明する。本実施形態の電子機器は、例えば、情報処理装置として機能するノートブック型の携帯型パーソナルコンピュータ１０から実現されている。

このパーソナルコンピュータ１０は、放送番組データ、外部機器から入力されるビデオデータといった、映像コンテンツデータ（オーディオビジュアルコンテンツデータ）を記録および再生することができる。即ち、パーソナルコンピュータ１０は、テレビジョン放送信号によって放送される放送番組データの視聴および録画を実行するためのテレビジョン（ＴＶ）機能を有している。このＴＶ機能は、例えば、パーソナルコンピュータ１０に予めインストールされているＴＶアプリケーションプログラムによって実現されている。また、ＴＶ機能は、外部のＡＶ機器から入力されるビデオデータを記録する機能、および記録されたビデオデータおよび記録された放送番組データを再生する機能も有している。

さらに、パーソナルコンピュータ１０は、パーソナルコンピュータ１０に格納されたビデオデータ、放送番組データのような映像コンテンツデータ中に出現するオブジェクトの画像のような代表画像の一覧、例えば、映像コンテンツデータに出現する人物の顔画像の一覧等を表示するインデキシング情報表示機能を有している。

このインデキシング情報表示機能は、さらに、映像コンテンツデータから抽出された代表画像の一覧の中からユーザによってある代表画像が選択された場合、映像コンテンツデータのシーケンス内における音が発生している複数の音響区間の内から、選択された代表画像が出現する時点が属する音響区間の音響特徴と類似する音響特徴を有する音響区間それぞれを特定し、それら特定された音響区間それぞれの位置をタイムバー上に表示する音響区間表示機能も有している。

この音響区間表示機能により、映像コンテンツデータ内に含まれる全ての環境区間ではなく、ユーザの現在の注目箇所に対応する音響区間の音響特徴に類似する音響特徴を有する音響区間のみに限定して、その音響区間の位置をタイムバー上に表示することができる。ユーザの注目箇所が変更されたならば、タイムバー上に表示される音響区間も変更される。すなわち、ユーザによって別の代表画像が選択されたならば、その選択された別の代表画像が出現する時点が属する音響区間の音響特徴と類似する音響特徴を有する音響区間それぞれが特定され、それら特定された音響区間それぞれの位置がタイムバー上に表示される。このように、本実施形態では、ユーザの注目箇所の音響特徴に類似する音響特徴を有する音響区間のみに着目して当該音響区間それぞれの位置をタイムバー上に表示することができるので、映像コンテンツデータ内に複数種の音響区間が含まれている場合であっても、それら音響区間それぞれの位置をユーザに分かりやすく提示することができる。

さらに、インデキシング情報表示機能は、映像コンテンツデータから抽出された静止画像の一覧等を表示するサムネイル画像表示機能も有している。

図１はコンピュータ１０のディスプレイユニットを開いた状態における斜視図である。本コンピュータ１０は、コンピュータ本体１１と、ディスプレイユニット１２とから構成されている。ディスプレイユニット１２には、ＴＦＴ−ＬＣＤ（Thin Film Transistor Liquid Crystal Display）１７から構成される表示装置が組み込まれている。

ディスプレイユニット１２は、コンピュータ本体１１に対し、コンピュータ本体１１の上面が露出される開放位置とコンピュータ本体１１の上面を覆う閉塞位置との間を回動自在に取り付けられている。コンピュータ本体１１は薄い箱形の筐体を有しており、その上面にはキーボード１３、本コンピュータ１０をパワーオン／パワーオフするためのパワーボタン１４、入力操作パネル１５、タッチパッド１６、およびスピーカ１８Ａ，１８Ｂなどが配置されている。

入力操作パネル１５は、押されたボタンに対応するイベントを入力する入力装置であり、複数の機能をそれぞれ起動するための複数のボタンを備えている。これらボタン群には、ＴＶ機能（視聴、録画、録画された放送番組データ／ビデオデータの再生）を制御するための操作ボタン群も含まれている。また、コンピュータ本体１１の正面には、本コンピュータ１０のＴＶ機能をリモート制御するリモコンユニットとの通信を実行するためのリモコンユニットインタフェース部２０が設けられている。リモコンユニットインタフェース部２０は、赤外線信号受信部などから構成されている。

コンピュータ本体１１の例えば右側面には、ＴＶ放送用のアンテナ端子１９が設けられている。また、コンピュータ本体１１の例えば背面には、例えばＨＤＭＩ(high-definition multimedia interface)規格に対応した外部ディスプレイ接続端子が設けられている。この外部ディスプレイ接続端子は、放送番組データのような映像コンテンツデータに含まれる映像データ（動画像データ）を外部ディスプレイに出力するために用いられる。

次に、図２を参照して、本コンピュータ１０のシステム構成について説明する。

本コンピュータ１０は、図２に示されているように、ＣＰＵ１０１、ノースブリッジ１０２、主メモリ１０３、サウスブリッジ１０４、グラフィクスプロセッシングユニット（ＧＰＵ）１０５、ビデオメモリ（ＶＲＡＭ）１０５Ａ、サウンドコントローラ１０６、ＢＩＯＳ−ＲＯＭ１０９、ＬＡＮコントローラ１１０、ハードディスクドライブ（ＨＤＤ）１１１、ＤＶＤドライブ１１２、ビデオプロセッサ１１３、メモリ１１３Ａ、カードコントローラ１１３、無線ＬＡＮコントローラ１１４、IEEE 1394コントローラ１１５、エンベデッドコントローラ／キーボードコントローラＩＣ（ＥＣ／ＫＢＣ）１１６、ＴＶチューナ１１７、およびＥＥＰＲＯＭ１１８等を備えている。

ＣＰＵ１０１は本コンピュータ１０の動作を制御するプロセッサであり、ハードディスクドライブ（ＨＤＤ）１１１から主メモリ１０３にロードされる、オペレーティングシステム（ＯＳ）２０１、およびＴＶアプリケーションプログラム２０２のような各種アプリケーションプログラムを実行する。ＴＶアプリケーションプログラム２０２はＴＶ機能を実行するためのソフトウェアである。このＴＶアプリケーションプログラム２０２は、ＴＶチューナ１１７によって受信された放送番組データを視聴するためのライブ再生処理、受信された放送番組データをＨＤＤ１１１に記録する録画処理、およびＨＤＤ１１１に記録された放送番組データ／ビデオデータを再生する再生処理等を実行する。また、ＣＰＵ１０１は、ＢＩＯＳ−ＲＯＭ１０９に格納されたＢＩＯＳ（Basic Input Output System）も実行する。ＢＩＯＳはハードウェア制御のためのプログラムである。

ノースブリッジ１０２はＣＰＵ１０１のローカルバスとサウスブリッジ１０４との間を接続するブリッジデバイスである。ノースブリッジ１０２には、主メモリ１０３をアクセス制御するメモリコントローラも内蔵されている。また、ノースブリッジ１０２は、PCI EXPRESS規格のシリアルバスなどを介してＧＰＵ１０５との通信を実行する機能も有している。

ＧＰＵ１０５は、本コンピュータ１０のディスプレイモニタとして使用されるＬＣＤ１７を制御する表示コントローラである。このＧＰＵ１０５によって生成される表示信号はＬＣＤ１７に送られる。また、ＧＰＵ１０５は、ＨＤＭＩ制御回路３およびＨＤＭＩ端子２を介して、外部ディスプレイ装置１にデジタル映像信号を送出することもできる。

ＨＤＭＩ端子２は上述の外部ディスプレイ接続端子である。ＨＤＭＩ端子２は、非圧縮のデジタル映像信号と、デジタルオーディオ信号とを一本のケーブルでテレビのような外部ディスプレイ装置１に送出することができる。ＨＤＭＩ制御回路３は、ＨＤＭＩモニタと称される外部ディスプレイ装置１にデジタル映像信号をＨＤＭＩ端子２を介して送出するためのインタフェースである。

サウスブリッジ１０４は、ＬＰＣ（Low Pin Count）バス上の各デバイス、およびＰＣＩ（Peripheral Component Interconnect）バス上の各デバイスを制御する。また、サウスブリッジ１０４は、ハードディスクドライブ（ＨＤＤ）１１１およびＤＶＤドライブ１１２を制御するためのＩＤＥ（Integrated Drive Electronics）コントローラを内蔵している。さらに、サウスブリッジ１０４は、サウンドコントローラ１０６との通信を実行する機能も有している。

またさらに、サウスブリッジ１０４には、PCI EXPRESS規格のシリアルバスなどを介してビデオプロセッサ１１３が接続されている。

ビデオプロセッサ１１３は、音声インデキシング処理および映像インデキシング処理を実行するプロセッサである。

音声インデキシング処理は、映像コンテンツデータ内のオーディオデータを分析することによって、映像コンテンツデータのシーケンス内における音が発生している複数の音響区間それぞれの音響特徴を示す音響特徴情報を出力する処理である。この音声インデキシング処理においては、類似する音響特徴を有する音響区間同士を同一のグループにまとめるクラスタリング処理等が実行され、これによって、複数の音響区間は、互いに音響特徴が異なる複数のグループ（音響特徴グループ）に分類される。

映像インデキシング処理においては、顔画像抽出処理が実行される。この顔画像抽出処理においては、ビデオプロセッサ１１３は、映像コンテンツデータに含まれる動画像データから複数の顔画像を抽出する。顔画像の抽出は、例えば、動画像データの各フレームから顔領域を検出する顔検出処理、検出された顔領域をフレームから切り出す切り出し処理等によって実行される。顔領域の検出は、例えば、各フレームの画像の特徴を解析して、予め用意された顔画像特徴サンプルと類似する特徴を有する領域を探索することによって行うことができる。顔画像特徴サンプルは、多数の人物それぞれの顔画像特徴を統計的に処理することによって得られた特徴データである。

映像インデキシング処理においては、サムネイル画像取得処理も実行される。サムネイル画像取得処理においては、ビデオプロセッサ１１３は、映像コンテンツデータのシーケンスを構成する複数の区間の各々から少なくとも１フレームの静止画像を抽出する。複数の区間それぞれの時間長は例えば等間隔である。この場合、ビデオプロセッサ１１３は、映像コンテンツデータに含まれる動画像データから等時間間隔毎に少なくとも１フレームの静止画像を抽出する。もちろん、複数の区間それぞれの時間長は必ずしも等間隔である必要はない。例えば、映像コンテンツデータに含まれる動画像データが圧縮符号化されているならば、フレーム内符号化されたピクチャであるＩ（イントラ）ピクチャのみを圧縮符号化された動画像データから抽出してもよい。また、ビデオプロセッサ１１３は、映像コンテンツデータ内の動画像データの各カットまたは各シーンを検出し、検出された各カットまたは各シーンから少なくとも１フレームの静止画像を抽出することもできる。

メモリ１１３Ａは、ビデオプロセッサ１１３の作業メモリとして用いられる。インデキシング処理（映像インデキシング処理、および音声インデキシング処理）を実行するためには多くの演算量が必要とされる。本実施形態においては、ＣＰＵ１０１とは異なる専用のプロセッサであるビデオプロセッサ１１３がバックエンドプロセッサとして使用され、このビデオプロセッサ１１３によってインデキシング処理が実行される。よって、ＣＰＵ１０１の負荷の増加を招くことなく、インデキシング処理を実行することが出来る。

サウンドコントローラ１０６は音源デバイスであり、再生対象のオーディオデータをスピーカ１８Ａ，１８ＢまたはＨＤＭＩ制御回路３に出力する。

無線ＬＡＮコントローラ１１４は、たとえばIEEE 802.11規格の無線通信を実行する無線通信デバイスである。IEEE 1394コントローラ１１５は、IEEE 1394規格のシリアルバスを介して外部機器との通信を実行する。

エンベデッドコントローラ／キーボードコントローラＩＣ（ＥＣ／ＫＢＣ）１１６は、電力管理のためのエンベデッドコントローラと、キーボード（ＫＢ）１３およびタッチパッド１６を制御するためのキーボードコントローラとが集積された１チップマイクロコンピュータである。このエンベデッドコントローラ／キーボードコントローラＩＣ（ＥＣ／ＫＢＣ）１１６は、ユーザによるパワーボタン１４の操作に応じて本コンピュータ１０をパワーオン／パワーオフする機能を有している。さらに、エンベデッドコントローラ／キーボードコントローラＩＣ（ＥＣ／ＫＢＣ）１１６は、リモコンユニットインタフェース２０との通信を実行する機能を有している。

ＴＶチューナ１１７はテレビジョン（ＴＶ）放送信号によって放送される放送番組データを受信する受信装置であり、アンテナ端子１９に接続されている。このＴＶチューナ１１７は、例えば、地上波デジタルＴＶ放送のようなデジタル放送番組データを受信可能なデジタルＴＶチューナとして実現されている。また、ＴＶチューナ１１７は、外部機器から入力されるビデオデータをキャプチャする機能も有している。

次に、図３を参照して、本実施形態のインデキシング情報表示機能について説明する。

放送番組データのような映像コンテンツデータに対するインデキシング処理（映像インデキシング処理、および音声インデキシング処理）は、上述したように、インデキシング処理部として機能するビデオプロセッサ１１３によって実行される。

ビデオプロセッサ１１３は、ＴＶアプリケーションプログラム２０２の制御の下、例えば、ユーザによって指定された録画済みの放送番組データ等の映像コンテンツデータに対してインデキシング処理を実行する。また、ビデオプロセッサ１１３は、ＴＶチューナ１１７によって受信された放送番組データをＨＤＤ１１１に格納する録画処理と並行して、当該放送番組データに対するインデキシング処理を実行することもできる。

映像インデキシング処理においては、ビデオプロセッサ１１３は、顔画像を抽出する処理を実行する。ビデオプロセッサ１１３は、映像コンテンツデータに含まれる動画像データをフレーム単位で解析する。そして、ビデオプロセッサ１１３は、動画像データを構成する複数のフレームそれぞれから人物の顔画像を抽出すると共に、抽出された各顔画像が動画像データ内に登場する時点を示すタイムスタンプ情報を出力する。

さらに、ビデオプロセッサ１１３は、抽出された各顔画像のサイズ（解像度）も出力する。ビデオプロセッサ１１３から出力される顔検出結果データ（顔画像、タイムスタンプ情報ＴＳ、およびサイズ）は、データベース１１１Ａに顔画像インデキシング情報として格納される。このデータベース１１１Ａは、ＨＤＤ１１１内に用意されたインデキシングデータ記憶用の記憶領域である。

さらに、映像インデキシング処理においては、ビデオプロセッサ１１３は、サムネイル画像取得処理も実行する。サムネイル画像は、映像コンテンツデータ内の動画像データを構成する複数の区間それぞれから抽出された複数のフレームの各々に対応する静止画像（縮小画像）である。すなわち、ビデオプロセッサ１１３は、動画像データの各区間毎に１以上のフレームを抽出し、抽出した各フレームに対応する画像（サムネイル画像）と、そのサムネイル画像が出現する時点を示すタイムスタンプ情報ＴＳとを出力する。ビデオプロセッサ１１３から出力されるサムネイル画像取得結果データ（サムネイル画像、タイムスタンプ情報ＴＳ）は、データベース１１１Ａにサムネイルインデキシング情報として格納される。

各サムネイル画像に対応するタイムスタンプ情報としては、映像コンテンツデータの開始から当該サムネイル画像のフレームが登場するまでの経過時間、または当該サムネイル画像のフレームのフレーム番号、等を使用することが出来る。

また、音声インデキシング処理においては、ビデオプロセッサ１１３は、映像コンテンツに含まれるオーディオデータを分析して、オーディオデータの音響特徴を示す音響特徴情報を所定時間単位で出力する。すなわち、音声インデキシング処理においては、オーディオデータを構成する所定時間分の部分データ単位で、その部分データから音響特徴が抽出される。そして、ビデオプロセッサ１１３は、各部分データの音響特徴を解析することにより、複数の音響区間を、グループ分けする。これにより、例えば、同じ音楽が流れている音響区間同士はある同じグループに分類され、また同一人物がトークしているトーク区間同士も、ある同じグループに分類される。

データベース１１１Ａには、各部分データに対応する音響特徴情報が格納される。

さらに、音声インデキシング処理においては、ビデオプロセッサ１１３は、歓声レベル検出処理および盛り上がりレベル検出処理も実行する。

歓声レベル検出処理は、映像コンテンツデータ内の各部分データ（一定時間長のデータ）毎に歓声レベルを検出する処理である。歓声レベルは、歓声の大きさを示す。歓声は、大勢の人の声が合わさった音である。大勢の人の声が合わさった音は、ある特定の周波数スペクトルの分布を有する。歓声レベル検出処理においては、映像コンテンツデータに含まれるオーディオデータの周波数スペクトルが分析され、そしてその周波数スペクトルの分析結果に従って、各部分データの歓声レベルが検出される。

盛り上がりレベルを検出する盛り上がりレベル検出処理を実行する。

盛り上がりレベル検出処理は、映像コンテンツデータの盛り上がりレベルを検出する処理である。盛り上がりレベルは、ある一定以上の音量レベルがある一定時間長以上連続的に発生する区間の音量レベルである。例えば、比較的盛大な拍手、大きな笑い声のような音の音量レベルが、盛り上がりレベルである。盛り上がりレベル検出処理においては、映像コンテンツデータに含まれるオーディオデータの音量の分布が分析され、その分析結果に従って、各部分データの盛り上がりレベルが検出される。なお、音量レベルそのものを盛り上がりレベルとして使用してもよい。

これら歓声レベル検出処理の結果および盛り上がりレベル検出処理の結果も、データベース１１１Ａにレベル情報として格納される。

ＴＶアプリケーションプログラム２０２は、上述のインデキシング情報表示機能を実行するためのインデキシング情報表示処理部３０１を含んでいる。このインデキシング情報表示処理部３０１は、例えば、インデキシングビューワプログラムとして実現されており、データベース１１１Ａに格納されたインデキシング情報（顔画像インデキシング情報、サムネイルインデキシング情報、音響特徴情報等）を用いて、映像コンテンツデータの概要を俯瞰するためのインデキシングビュー画面を表示する。

具体的には、インデキシング情報表示処理部３０１は、データベース１１１Ａから顔画像インデキシング情報（顔画像、タイムスタンプ情報ＴＳ、およびサイズ）を読み出し、そしてその顔画像インデキシング情報を用いて、映像コンテンツデータに登場する人物の顔画像の一覧を、インデキシングビュー画面上の２次元の表示エリア（以下、顔サムネイル表示エリアと称する）上に表示する。

この場合、インデキシング情報表示処理部３０１は、映像コンテンツデータの総時間長を、例えば等間隔で、複数の時間帯に分割し、時間帯毎に、抽出された顔画像の内から当該時間帯に登場する顔画像を所定個選択する。そして、インデキシング情報表示処理部３０１は、時間帯毎に、選択した所定個の顔画像それぞれを並べて表示する。

すなわち、２次元の顔サムネイル表示エリアは、複数の行および複数の列を含むマトリクス状に配置された複数の顔画像表示エリアを含む。複数の列それぞれには、映像コンテンツデータの総時間長を構成する複数の時間帯が割り当てられている。具体的には、例えば、複数の列それぞれには、映像コンテンツデータの総時間長をこれら複数の列の数で等間隔に分割することによって得られる、互いに同一の時間長を有する複数の時間帯がそれぞれ割り当てられる。もちろん、各列に割り当てられる時間帯は必ずしも同一の時間長でなくてもよい。

インデキシング情報表示処理部３０１は、顔画像それぞれに対応するタイムスタンプ情報ＴＳに基づき、各列内に属する行数分の顔画像表示エリア上に、当該各列に割り当てられた時間帯に属する顔画像それぞれを、例えば、それら顔画像の出現頻度順（顔画像の検出時間長順）のような順序で並べて表示する。この場合、例えば、当該各列に割り当てられた時間帯に属する顔画像の内から、出現頻度（登場頻度）の高い順に顔画像が行数分だけ選択され、選択された顔画像が登場頻度順に上から下に向かって並んで配置される。もちろん、出現頻度順ではなく、各列に割り当てられた時間帯に出現する顔画像それぞれを、その出現順に並べて表示してもよい。

この顔画像一覧表示機能により、映像コンテンツデータ全体の中のどの時間帯にどの人物が登場するのかをユーザに分かりやすく提示することができる。

また、インデキシング情報表示処理部３０１は、データベース１１１Ａからサムネイルインデキシング情報（サムネイル、タイムスタンプ情報ＴＳ）を読み出し、そしてサムネイルインデキシング情報を用いて、サムネイル画像それぞれを、顔サムネイル表示エリアの下方側または上方側の一方に配置されたサムネイル表示エリア（以下、じゃばらサムネイル表示エリアと称する）上に、それらサムネイル画像の出現時間順に一列に並べて表示する。

映像コンテンツデータによっては、顔画像が登場しない時間帯も存在する。したがって、インデキシングビュー画面上に顔サムネイル表示エリアのみならず、じゃばらサムネイル表示エリアも表示することにより、顔画像が登場しない時間帯においても、その時間帯の映像コンテンツデータの内容をユーザに提示することができる。

また、インデキシング情報表示処理部３０１は、データベース１１１Ａから音響特徴情報を読み出し、その音響特徴情報に従って、インデキシングビュー画面上に、映像コンテンツデータの開始位置から終端位置までのシーケンスを表すタイムバーを表示する。このタイムバー上には、例えば、映像コンテンツデータの開始位置から終端位置までのシーケンス内における音響区間それぞれの位置を示す複数のバー領域が、音響特徴グループ毎に異なる表示形態で表示される。例えば、複数のバー領域は音響特徴グループ毎に色分けされて表示される。この場合、類似する音響特徴を有する音響区間それぞれに対応するバー領域、つまり同じ音響特徴グループに属する音響区間それぞれに対応するバー領域は、同じ色で表示される。これにより、例えば、放送番組内の複数の箇所に同じ人物の発言場所または同じ音楽が流れている音楽区間等が存在する場合には、それら発言場所または音楽区間を同じ色で表示することが出来る。なお、音響特徴グループ毎に色を変える代わりに、音響特徴グループ毎にバー領域の模様または形状を変えるようにしてもよい。

顔サムネイル表示エリア上のある顔画像がユーザによって選択された場合、またはじゃばらサムネイル表示エリア上のあるサムネイル画像がユーザによって選択された場合、インデキシング情報表示処理部３０１は、当該映像コンテンツデータ内に含まれ、且つ選択された画像（顔画像またはサムネイル画像）が出現する時点が属する音響区間の音響特徴と類似する音響特徴を有する音響区間それぞれを特定し、特定された音響区間それぞれの位置を示すバー領域をタイムバー上に表示する。よって、ユーザの現在の注目箇所に対応する音響区間の音響特徴と類似する音響特徴を有する音響区間のみに限定して、その音響区間の位置をタイムバー上に表示することができる。

さらに、インデキシング情報表示処理部３０１は、データベース１１１Ａから歓声レベル情報および盛り上がりレベル情報を読み出し、それら歓声レベル情報および盛り上がりレベル情報に従って、映像コンテンツデータの開始位置から終端位置までのシーケンス内における歓声レベルの変化および盛り上がりレベルの変化をそれぞれ示すグラフを、インデキシングビュー画面上のレベル表示エリアに表示する。

このレベル表示エリアを見ることにより、ユーザに、映像コンテンツデータ内のどの辺りに大きな歓声が生じた区間が存在し、また映像コンテンツデータ内のどの辺りに盛り上がりの大きな区間が存在するかを提示することができる。

次に、図４を参照して、インデキシングビューワプログラムと連携して動作するＴＶアプリケーションプログラム２０２の機能構成を説明する。

ＴＶアプリケーションプログラム２０２は、上述のインデキシング情報表示処理部３０１に加え、記録処理部４０１、インデキシング制御部４０２、再生処理部４０３等を備えている。インデキシング情報表示処理部３０１、およびインデキシング制御部４０２は、インデキシングビューワプログラムによって実現することができる。

記録処理部４０１は、ＴＶチューナ１１７によって受信された放送番組データ、または外部機器から入力されるビデオデータをＨＤＤ１１１に記録する記録処理を実行する。また、記録処理部４０１は、ユーザによって予め設定された録画予約情報（チャンネル番号、日時）によって指定される放送番組データをＴＶチューナ１１７を用いて受信し、その放送番組データをＨＤＤ１１１に記録する予約録画処理も実行する。

インデキシング制御部４０２は、ビデオプロセッサ（インデキシング処理部）１１３を制御して、インデキシング処理（映像インデキシング処理、音声インデキシング処理）をビデオプロセッサ１１３に実行させる。ユーザは、録画対象の放送番組データ毎にインデキシング処理を実行するか否かを指定することができる。例えば、インデキシング処理の実行が指示された録画対象の放送番組データについては、その放送番組データがＨＤＤ１１１に記録された後に、インデキシング処理が自動的に開始される。また、ユーザは、既にＨＤＤ１１１に格納されている映像コンテンツデータの内から、インデキシング処理を実行すべき映像コンテンツデータを指定することもできる。

再生処理部４０３は、映像コンテンツデータから抽出されたある代表画像（顔サムネイル表示エリア上のある顔画像、またはじゃばらサムネイル表示エリア上のあるサムネイル画像）が選択されている状態でユーザ操作によって再生指示イベントが入力された時、選択されている代表画像（顔画像、またはサムネイル画像）が登場する時点よりも所定時間前の時点から映像コンテンツデータの再生を開始する機能を有している。

次に、図５乃至図１３を参照して、インデキシングビュー画面の例について説明する。

図５はインデキシングビュー画面の例を示している。

インデキシングビュー画面上には、顔サムネイル表示エリア、レベル表示エリア、タイムバー、およびじゃばらサムネイル表示エリアが表示される。

顔サムネイル表示エリアは、複数の行と複数の列とを含むマトリクス状に配置された複数個の顔画像表示エリアを含んでいる。図５においては、顔サムネイル表示エリアは６行×１６列から構成されている。顔サムネイル表示エリアに含まれる顔画像表示エリアの数は、９６個である。

列１〜列１６のそれぞれには、例えば、映像コンテンツデータ（映像コンテンツデータに含まれる動画像データ）の総時間長を列数（＝１６）で等間隔で分割することによって得られる、互いに同一の時間長Ｔを有する複数の時間帯がそれぞれ割り当てられる。

例えば、映像コンテンツデータの総時間長が２時間であるならば、その２時間が１６個の時間帯に等間隔で分割される。この場合、各時間帯の時間長Ｔは、７．５分である。例えば、列１には、先頭0:00:00から0:07:30までの時間帯が割り当てられ、列２には、0:07:30から0:15:00までの時間帯が割り当てられ、列３には、0:15:00から0:22:30までの時間帯が割り当てられる。映像コンテンツデータの総時間長に応じて、各時間帯の時間長Ｔは変化する。

もちろん、複数の列それぞれに割り当てられる時間帯の長さは、必ずしも同一である必要はない。

インデキシング情報表示処理部３０１は、ビデオプロセッサ１１３によって抽出された顔画像それぞれに対応するタイムスタンプ情報に基づき、各列内の６個の顔画像表示エリア上に、当該各列に割り当てられた時間帯に属する顔画像それぞれをたとえば上述の頻度順に並べて表示する。この場合、インデキシング情報表示処理部３０１は、表示処理対象の列に割り当てられた時間帯に属する顔画像の内から行数分（６個）の顔画像を選択し、選択した行数分の顔画像それぞれを並べて表示する。

このように、顔サムネイル表示エリアにおいては、左端位置（1,1）を基点とし、右端位置(6,16)を映像コンテンツデータの終端とする時間軸が用いられている。

顔サムネイル表示エリアの各顔画像表示エリアに表示される顔画像のサイズは“大”、“中”、“小”の内からユーザが選択することができる。行と列の数は、ユーザが選択した顔画像のサイズに応じて変化される。顔画像のサイズと行と列の数との関係は、次の通りである。

（１）“大”の場合；３行×８列
（２）“中”の場合；６行×１６列
（３）“小”の場合：１０行×２４列
“大”の場合においては、各顔画像は、例えば、１８０×１８０ピクセルのサイズで表示される。“中”の場合においては、各顔画像は、例えば、９０×９０ピクセルのサイズで表示される。“小”の場合においては、各顔画像は、例えば、６０×６０ピクセルのサイズで表示される。デフォルトの顔画像サイズは、例えば、“中”に設定されている。

顔サムネイル表示エリア内の各顔画像は、選択されていない“標準”状態、選択されている“フォーカス”状態の２つの状態のいずれかに設定される。“フォーカス”状態の顔画像のサイズは、“標準”状態の時のサイズ（１８０×１８０、９０×９０、または６０×６０）よりも大きく設定される。図５においては、座標(１，１２)の顔画像が“フォーカス”状態である場合を示している。

じゃばらサムネイル表示エリアは、サムネイル画像の一覧をじゃばら形式で表示する。ここで、じゃばら形式とは、選択されているサムネイル画像を通常サイズで表示し、他の各サムネイル画像についてはその横方向サイズを縮小して表示する表示形式である。インデキシング情報表示処理部３０１は、ユーザ操作によって選択されたサムネイル画像を第１の横幅サイズで表示し、他の各サムネイル画像の横幅サイズを第１の横幅サイズよりも小さい横幅サイズで表示する。具体的には、選択されたサムネイル画像は第１の横幅サイズで表示され、その選択されたサムネイル画像の近傍の幾つかサムネイル画像はその横幅が縮小された状態で表示され、他の各サムネイル画像はさらに僅かな横幅で表示される。選択されているサムネイル画像には、さらに矩形の枠を付加してもよい。

じゃばらサムネイル表示エリアに表示されるサムネイル画像の枚数は、ユーザ設定に従って、例えば２４０枚、１４４枚、９６枚、４８枚のいずれかに設定される。デフォルトは例えば２４０枚である。この場合、動画像データは２４０個の区間（２４０個の時間帯）に区分され、２４０個の区間それぞれから抽出された２４０枚のサムネイル画像が時間順に並んでじゃばらサムネイル表示エリアに表示される。

サムネイル画像は、選択されていない“標準”状態、選択されている“フォーカス”状態の２つの状態のいずれかに設定される。“フォーカス”状態のサムネイル画像は、上述したように、他のサムネイル画像よりも大きいサイズで表示される。

レベル表示エリアにおいては、歓声レベルの変化を示すグラフと、盛り上がりレベルの変化を示すグラフが表示される。

タイムバー上には、音響区間それぞれの位置を示す複数のバー領域が表示される。タイムバーの具体的に例については図７以降で説明する。

次に、図６を参照して、図５のインデキシングビュー画面上に表示される、顔サムネイル表示エリアとじゃばらサムネイル表示エリアとの関係について説明する。

同一列に属する顔画像表示エリア群の集合、つまり顔サムネイル表示エリア内の個々の列を“大区間”と称する。また、“大区間”をさらに分割したものを“小区間”と称する。１つの大区間に含まれる小区間の数は、じゃばらサムネイル表示エリアに表示されるサムネイル画像の数を顔サムネイル表示エリアの列数で割った商で与えられる。例えば、顔サムネイル表示エリアが６行×１６列で、じゃばらサムネイル表示エリアに表示されるサムネイル画像の数が２４０枚であるならば、１つの大区間に含まれる小区間の数は、１５（＝２４０÷１６）となる。１つの大区間は１５個の小区間を含む。換言すれば、１つの大区間に対応する時間帯には、１５枚のサムネイル画像が属することになる。

じゃばらサムネイル表示エリア上のあるサムネイル画像が選択された時、インデキシング情報表示処理部３０１は、選択されたサムネイル画像のタイムスタンプ情報に基づき、顔サムネイル表示エリア内の複数の列（複数の大区間）の内で、選択されたサムネイル画像が属する時間帯が割り当てられた列（大区間）を選択する。選択される大区間は、選択されたサムネイル画像が属する区間（小区間）を含む大区間である。そして、インデキシング情報表示処理部３０１は、選択した大区間を強調表示する。

さらに、インデキシング情報表示処理部３０１は、選択されたサムネイル画像と選択された大区間との間を接続する現在位置バー（縦長のバー）を表示する。この縦長のバーは、選択されたサムネイル画像に対応する小区間が、選択された大区間に含まれる１５個の小区間の内のどの小区間に対応するかを提示するために使用される。縦長のバーは、選択された大区間に含まれる１５個の小区間の内で、選択されたサムネイル画像に対応する小区間の位置に表示される。例えば、選択されたサムネイル画像が、ある大区間に対応する時間帯に属する１５枚のサムネイル画像の内の先頭の画像、つまり大区間内の先頭の小区間に対応する画像であるならば、選択されたサムネイル画像は、縦長のバーによって大区間の左端に接続される。また、例えば、選択されたサムネイル画像が、ある大区間に対応する時間帯に属する１５枚のサムネイル画像の内の終端の画像、つまり大区間内の終端の小区間に対応する画像であるならば、選択されたサムネイル画像は、縦長のバーによって大区間の右端に接続される。

このように、じゃばらサムネイル表示エリア上のサムネイル画像が選択された時には、顔サムネイル表示エリア内の複数の列の内から、選択されたサムネイル画像が属する時間帯が割り当てられている列（大区間）が自動選択される。これにより、ユーザは、選択したサムネイル画像が、顔サムネイル表示エリア内のどの列（大区間）に対応する画像であるかを識別することができる。さらに、縦長のバーにより、ユーザは、選択したサムネイル画像が、どの列（大区間）内のどの辺りの時点に対応する画像であるかも識別することができる。

また、インデキシング情報表示処理部３０１は、選択されたサムネイル画像のタイムスタンプ情報に基づいて、選択されたサムネイル画像が出現する時点を示す時間情報もインデキシングビュー画面上に表示する。

“現在位置変更”ボタンは選択されているサムネイル画像を変更するための操作ボタンである。“現在位置変更”ボタンがフォーカスされている状態でユーザが左カーソルキーまたは右カーソルキーを操作すると、選択対象のサムネイル画像は、例えば１小区間単位で、左または右に移動する。

図７は、図５のインデキシングビュー画面上に表示されるタイムバーの例を示している。

図７においては、音響特徴の解析結果に基づいて、映像コンテンツデータ内の音響区間それぞれが、“グループ１”、“グループ２”、“グループ３”、および“グループ４”の４つのグループ（音響特徴グループ）に分類された場合を想定している。

本実施形態では、同じ音響特徴を持つ音響区間同士は同じ音響特徴グループに分類され、同じ音響特徴グループに属する音響区間それぞれの位置を示すバー領域は同じ表示形態（例えば同色）で表示される。

“グループ１”、“グループ２”、“グループ３”、および“グループ４”にはそれぞれ異なる４つの色が割り当てられる。代表画像（顔画像またはサムネイル画像）が選択されていない初期状態においては、複数のバー領域のすべてが色分けされて表示される。すなわち、“グループ１”に対応する音響特徴グループに属する各音響区間の位置を示すバー領域は、色１（例えば、赤）で表示される。“グループ２”に対応する音響特徴グループに属する各音響区間の位置を示すバー領域は、色２（例えば、青）で表示される。“グループ３”に対応する音響特徴グループに属する各音響区間の位置を示すバー領域は、色３（例えば、緑）で表示される。“グループ４”に対応する音響特徴グループに属する各音響区間の位置を示すバー領域は、色４（例えば、黄）で表示される。

代表画像（顔画像またはサムネイル画像）が選択されると、インデキシング情報表示処理部３０１は、選択された代表画像が出現する時点が属する音響区間と同一のグループに属する音響区間それぞれの位置を示すバー領域を第１の表示形態（例えば第１の色）でタイムバー上に表示し、他の音響区間それぞれの位置を示すバー領域を第１の表示形態とは異なる第２の表示形態（例えば第２の色）でタイムバー上に表示する。例えば、選択された代表画像が“グループ１”に対応する音響特徴グループに属するならば、“グループ１”に対応する音響特徴グループに属する各音響区間の位置を示すバー領域は、“グループ１”に割り当てられた色１で表示され、他の全ての音響区間それぞれに対応するバー領域は、例えば、黒、白、グレー等の下地色で表示される。

すなわち、インデキシング情報表示処理部３０１は、複数の音響特徴グループに対して複数の色を割り当てることにより、複数の音響区間それぞれの位置を示すバー領域を音響特徴グループ毎に異なる表示形態（異なる色）でタイムバー上に表示する第１の表示モードと、選択された代表画像が出現する時点が属する音響区間と同一のグループに属する音響区間それぞれの位置を示すバー領域と他の音響区間それぞれの位置を示すバー領域とを互いに異なる表示形態（異なる色）で表示する第２の表示モードとを有している。代表画像の一覧の中から代表画像が選択されるまではインデキシング情報表示処理部３０１は前記第１の表示モードを使用して動作し、代表画像が選択されたことに応答して、使用する表示モードを前記１の表示モードから第２の表示モードに変更する。

図８はタイムバーの第２の例を示している。

音響特徴に応じて音響区間を特定する処理においては、例えば、音の重なり等により、音響区間の変わり目を明確に識別することが困難なことがある。そこで、図８のタイムバーにおいては、音響特徴が最も明確な位置を中心として、音響特徴の明確性が低くなるほど色が徐々に薄くなるように、各バー領域の色にグラデーションをつけている。これにより、視覚的に見やすいタイムバーとすることができる。

しかし、映像コンテンツデータ内に多くの音響特徴グループが含まれる場合には、バー領域の表示色も増えるので、たとえグラデーション表示を用いても各音響特徴グループを識別しやすく表示することは困難になる場合がある。本実施形態では、第２の表示モードを使用することにより、表示対象の音響区間をユーザが着目した箇所が属する音響特徴グループのみに限定することができるので、ユーザが着目した箇所が属する音響特徴グループ内の各音響区間の位置をユーザに対して識別しやすく表示することができる。

次に、図９および図１０を参照して、第１の表示モードおよび第２の表示モードそれぞれにおけるタイムバーの表示例を説明する。

図９は、第１の表示モードを用いて表示されたタイムバーを含むインデキシングビュー画面の例を示している。初期状態においては、図９に示されているように、特定された複数の音響区間それぞれに対応するバー領域が音響特徴グループ毎に異なる色で表示される。音響特徴グループ１，２，３，４を含む４つの音響特徴グループが存在する場合には、音響区間それぞれに対応するバー領域は、音響特徴グループ１，２，３，４にそれぞれ割り当てられた色１，色２，色３，色４の４つの色で色分けされて表示される。つまり、音響特徴グループ１に属する各音響区間のバー領域は音響特徴グループ１に割り当てられた色１で表示され、音響特徴グループ２に属する各音響区間のバー領域は音響特徴グループ２に割り当てられた色２で表示され、音響特徴グループ３に属する各音響区間のバー領域は音響特徴グループ３に割り当てられた色３で表示され、音響特徴グループ４に属する各音響区間のバー領域は音響特徴グループ４に割り当てられた色４で表示される。

図１０は、第２の表示モードを用いて表示されたタイムバーを含むインデキシングビュー画面の例を示している。

図１０においては、顔サムネイル表示エリア上の顔画像Ａ１がユーザによって選択された場合を想定している。顔画像Ａ１が出現する音響区間が例えば音響特徴グループ１に属する場合には、映像コンテンツデータ内の複数の音響区間の内、音響特徴グループ１に属する音響区間のみが特定され、音響特徴グループ１に属する音響区間に対応するバー領域のみが音響特徴グループ１に対応する色１で表示される。音響特徴グループ１に属する音響区間以外の他の音響区間それぞれに対応するバー領域それぞれは例えばグレー、白、黒等の特定の下地色で表示される。具体的には、音響特徴グループ２に属する各音響区間のバー領域、音響特徴グループ３に属する各音響区間のバー領域、および音響特徴グループ４に属する各音響区間のバー領域は、いずれも同じ下地色（例えばグレー、白、黒等）で表示される（図１０において斜線で示されている）。もちろん、音響特徴グループ２に属する各音響区間のバー領域、音響特徴グループ３に属する各音響区間のバー領域、および音響特徴グループ４に属する各音響区間のバー領域の表示を省略してもよい。

図１１は、ある映像コンテンツデータのインデキシングビュー画面の具体例を示している。

顔サムネイル表示エリア上には、６行×１６列の顔画像表示エリアが配置されており、各顔画像表示エリア上に顔画像が表示されている。なお、顔画像のみならず、フレーム全体のサムネイル画像やシーンの変わり目のサムネイル画像等と顔画像とを混在させて、顔サムネイル表示エリア上に表示してもよい。

初期状態においては、タイムバー上には、複数の音響区間それぞれに対応するバー領域が音響特徴グループ毎に異なる色で表示される。顔サムネイル表示エリア上のある顔画像、例えば顔画像Ｂ１、がユーザによって選択された場合、インデキシング情報表示処理部３０１は、音響特徴情報に基づいて、映像コンテンツデータのシーケンスの内から、顔画像Ｂ１が出現する時点が属する音響区間の音響特徴と類似する音響特徴を有する音響区間それぞれを特定する。換言すれば、インデキシング情報表示処理部３０１は、映像コンテンツデータに含まれる複数の音響区間の中から、顔画像Ｂ１と同じ音響特徴グループに属する音響区間それぞれを特定することにより、顔画像Ｂ１が出現する時点が属する音響区間の音響特徴と類似する音響特徴を有する音響区間それぞれを特定する。そして、インデキシング情報表示処理部３０１は、特定された音響区間それぞれの位置を示すバー領域をタイムバー上に所定の色（例えば、顔画像Ｂ１が属する音響特徴グループに割り当てられた色１）で表示する。音響特徴グループ１に属する音響区間以外の他の音響区間それぞれに対応するバー領域それぞれは例えばグレー、白、黒等の特定の下地色で表示される。

顔サムネイル表示エリア上の顔画像が選択された場合のみならず、じゃばらサムネイル表示エリア上のサムネイル画像がユーザによって選択された場合においても、同様の表示処理が実行される。例えば、図１２に示すように、じゃばらサムネイル表示エリア上のサムネイル画像Ｃ１がユーザによって選択された場合、インデキシング情報表示処理部３０１は、映像コンテンツデータのシーケンスの内から、サムネイル画像Ｃ１が出現する時点が属する音響区間の音響特徴と類似する音響特徴を有する音響区間それぞれを特定する。そして、インデキシング情報表示処理部３０１は、特定された音響区間それぞれの位置を示すバー領域をタイムバー上に所定の色（例えば、サムネイル画像Ｃ１が属する音響特徴グループに割り当てられた色１）で表示する。

次に、図１３のフローチャートを参照して、インデキシング情報表示処理部３０１によって実行される表示処理の手順を説明する。

まず、インデキシング情報表示処理部３０１は、データベース１１１Ａに格納されている顔画像それぞれを、それら顔画像に対応するタイムスタンプ情報に基づいて、それら顔画像の登場時間順にソートする（ステップＳ１０１）。次いで、インデキシング情報表示処理部３０１は、ユーザによって指定された表示すべき顔画像サイズに応じて行及び列の数を決定すると共に、例えばインデキシング対象の映像コンテンツデータの総時間長を列数で均等に分割することによって、各列（大区間）に割り当てる時間帯を算出する。そして、インデキシング情報表示処理部３０１は、表示処理対象の列に割り当てられた時間帯内に属する顔画像の内から、行数分の顔画像を選択する（ステップＳ１０２）。表示処理対象の列に割り当てられた時間帯内に属する顔画像の数が行数よりも多い場合には、インデキシング情報表示処理部３０１は、例えば、出現頻度の高い顔画像を優先的に選択する処理を実行することもできる。

また、表示処理対象の列に割り当てられた時間帯内に属する顔画像の数が行数よりも多い場合、インデキシング情報表示処理部３０１は、データベース１１Ａに格納された顔画像それぞれのサイズ情報に基づいて、表示処理対象の列に割り当てられた時間帯に属する顔画像の内から、サイズの大きい顔画像を優先的に選択する処理を実行することもできる。

クローズアップされた顔を映すフレームから抽出される顔画像のサイズは、比較的大きなものとなる。したがって、抽出された顔画像のサイズが大きいほど、重要度の高い人物である可能性が高い。よって、サイズの大きい顔画像を優先的に選択することにより、重要度の高い人物の顔画像を優先的に表示することが可能となる。

次いで、インデキシング情報表示処理部３０１は、表示処理対象の列内の複数の顔画像表示エリアに、選択した顔画像それぞれを例えば出現頻度順に並べて表示する（ステップＳ１０３）。出現頻度の高い顔画像ほど、上方の顔画像表示エリアに表示される。

ステップＳ１０２，Ｓ１０３の処理は、全ての列に対する処理が完了するまで、表示処理対象の列の番号を更新しながら繰り返し実行される（ステップＳ１０４，Ｓ１０５）。この結果、顔画像表示エリアには、複数の顔画像が並んで表示される。

なお、表示処理対象の列に割り当てられた時間帯内に属する顔画像の数が行数よりも少ない場合には、対応する時間帯内に属するサムネイル画像を表示処理対象の列に表示することも出来る。

全ての列に対する処理が完了すると（ステップＳ１０４のＮＯ）、インデキシング情報表示処理部３０１は、データベース１１Ａに格納されているサムネイル画像それぞれを、それらサムネイル画像それぞれのタイムスタンプ情報に基づいて、じゃばらサムネイル表示エリア上にそれらサムネイル画像が出現する時間順に一列に並べて表示する（ステップＳ１０６）。

次いで、インデキシング情報表示処理部３０１は、データベース１１１Ａから音響特徴情報を読み出し、その音響特徴情報に基づいて、類似する音響特徴を有する音響区間同士を同一のグループにまとめることによって、複数の音響区間を互いに音響特徴が異なる複数の音響特徴グループに分類する処理を実行する。そして、インデキシング情報表示処理部３０１は、複数の音響区間それぞれの位置を示すバー領域を音響特徴グループ毎に異なる表示形態（例えば異なる色）でタイムバー上に表示する（ステップＳ１０７）。なお、複数の音響区間を互いに音響特徴が異なる複数の音響特徴グループに分類する処理は、ビデオプロセッサ１１３によって予め実行することも出来る。この場合、インデキシング情報表示処理部３０１は、分類結果を示す情報に基づいて、複数の音響区間それぞれの位置を示すバー領域を音響特徴グループ毎に異なる表示形態（例えば異なる色）でタイムバー上に表示する処理のみを実行すればよい。

さらに、インデキシング情報表示処理部３０１は、データベース１１１Ａから歓声レベル情報および盛り上がりレベル情報を読み出し、それら歓声レベル情報および盛り上がりレベル情報に従って、レベル表示エリア上に、映像コンテンツデータの開始位置から終端位置までのシーケンス内における歓声レベルの変化を示すグラフと、シーケンス内における盛り上がりレベルの変化をそれぞれ示すグラフとを表示する。

次に、図１４のフローチャートを参照して、タイムバーの表示処理に関する一連の処理手順の例を説明する。

ビデオプロセッサ１１３は、映像コンテンツデータに含まれるオーディオデータを分析して、例えば、オーディオデータの部分データ毎にその部分データの音響特徴（周波数スペクトル分布等）を示す音響特徴情報を出力する（ステップＳ３０１）。次いで、ビデオプロセッサ１１３またはインデキシング情報表示処理部３０１は、部分データそれぞれの音響特徴情報に基づいて、映像コンテンツデータの内から音が発生している複数の音響区間を検出すると共に、複数の音響区間を、互いに音響特徴が異なる複数の音響特徴グループに分類する（ステップＳ３０２）。

次いで、インデキシング情報表示処理部３０１は、映像コンテンツデータのシーケンスを表すタイムバー上に、複数の音響区間の位置を示す複数のバー領域を、音響特徴グループ毎に異なる表示形態（例えば異なる色）で表示する（ステップＳ３０３）。そして、インデキシング情報表示処理部３０１は、顔サムネイル表示エリア上の複数の顔画像の内の一つ、またはじゃばらサムネイル表示エリア上の複数のサムネイル画像の内の一つがユーザによる入力装置（キーボード、マウス、リモコンユニット等）の操作によって選択されたか否かを判別する（ステップＳ３０４）。

顔サムネイル表示エリア上のある顔画像、またはじゃばらサムネイル表示エリア上のあるサムネイル画像が選択されたならば（ステップＳ３０４のＹＥＳ）、インデキシング情報表示処理部３０１は、その選択された顔画像を他の顔画像よりも大きなサイズで表示する処理、または選択されたサムネイル画像を他のサムネイル画像よりも大きなサイズで表示する処理を実行すると共に、音響区間特定処理を実行する（ステップＳ３０５）。

音響区間特定処理においては、まず、インデキシング情報表示処理部３０１は、選択された顔画像または選択された顔画像に対応するタイムスタンプ情報と、複数の部分データそれぞれの音響特徴情報とに基づいて、映像コンテンツデータ内に含まれ、且つ前記選択された代表画像が出現する時点が属する音響区間の音響特徴と類似する音響特徴を有する音響区間それぞれを特定する。具体的には、インデキシング情報表示処理部３０１は、複数の音響区間の内で、選択された画像（顔画像またはサムネイル画像）が出現する時点が属する音響区間と同じ音響特徴グループに属する音響区間それぞれを特定し、これによって、選択された画像（顔画像またはサムネイル画像）が出現する時点が属する音響区間と類似する音響特徴を有する音響区間それぞれを特定する。なお、選択された画像（顔画像またはサムネイル画像）が出現する時点が属する音響区間の音響特徴情報を、複数の部分データそれぞれに対応する音響特徴情報と比較することによっても、選択された画像（顔画像またはサムネイル画像）が出現する時点が属する音響区間と類似する音響特徴を有する音響区間を特定することができる。そして、インデキシング情報表示処理部３０１は、音響区間特定処理の結果に基づき、特定された音響区間の位置をそれぞれ示すバー領域をタイムバー上に所定の表示形態（例えば所定の色）で表示し、他の音響区間それぞれに対応するバー領域を別の表示形態（例えばグレー等所定の色）で表示する（ステップＳ３０５）。なお、ステップＳ３０５においては、他の音響区間それぞれに対応するバー領域の表示を省略してもよい。

また、ステップＳ３０２の処理をスキップして、顔画像またはサムネイル画像がユーザによって選択されるまではタイムバー上にどのバー領域も表示しないようにしてもよい。この場合、顔画像またはサムネイル画像が選択された時に、選択された画像（選択された顔画像または選択されたサムネイル画像）が出現する時点が属する音響区間と同じ音響特徴を有する音響区間を特定し、それら特定された音響区間の位置をそれぞれ示すバー領域をタイムバー上に所定の表示形態（例えば所定の色）で表示してもよい。

また、ステップＳ３０２においては、複数の音響区間の位置を示す複数のバー領域を、同じ表示形態（例えば、同じ下地色）で表示してもよい。

以上のように、本実施形態においては、タイムバー上に一度に表示されるバー領域を、画像の一覧の中から選択された画像に関連する音響区間に対応するバー領域のみに限定することができる。よって、たとえ映像コンテンツデータ内に互いに音響特徴が異なる様々な音響区間が混在している場合であっても、映像コンテンツデータ内に含まれる様々な音響区間の位置をユーザに分かりやすく提示することが可能となる。

また、ユーザは、そのユーザにとって興味のある画像を選択するだけで、その画像（顔画像またはサムネイル画像）が登場する時点を含む音響区間と同じ音響特徴を有する音響期間が映像コンテンツデータ内のどの辺りに存在するかを容易に把握することができる。これにより、ユーザはタイムバーを見るだけで、特定の人物の発言位置を探したり、番組内の構成をグラフィカルに認識することが可能となり、番組内の観たい位置へのシークを容易にすることができる。

なお、本実施形態では、タイムバー上に一度に表示されるバー領域を、画像の一覧の中から選択された画像に関連する音響区間に対応するバー領域のみに限定する処理について説明したが、これに加えて、またこの代わりに、マウスオーバー（マウスオーバー：クリックせずにタイムバー上をポインタを移動させる操作）のような、タイムバー上のマウスポインタの移動操作に応じて、表示されるバー領域を制限するようにしてもよい。この場合、映像コンテンツデータの中から、タイムバー上のマウスポインタの現在の位置に対応する時点が属する音響区間と同じ音響特徴を有する音響期間それぞれが特定され、それら特定された音響期間それぞれに対応するバー領域が特定の表示形態でタイムバー上に表示される。

また、本実施形態のインデキシング情報表示処理の手順は全てソフトウェアによって実現することができるので、このソフトウェアをコンピュータ読み取り可能な記憶媒体を通じて通常のコンピュータに導入することにより、本実施形態と同様の効果を容易に実現することができる。

また、本実施形態の電子機器はコンピュータ１０によって実現するのみならず、例えば、ＨＤＤレコーダ、ＤＶＤレコーダ、テレビジョン装置といった様々なコンシューマ電子機器によって実現することもできる。この場合、インデキシング情報表示処理およびプレビュー処理の機能は、ＤＳＰ、マイクロコンピュータのようなハードウェアによって実現することができる。

また、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に構成要素を適宜組み合わせてもよい。

本発明の一実施形態に係る電子機器の概観の例を示す斜視図。同実施形態の電子機器のシステム構成の例を示すブロック図。同実施形態の電子機器のインデキシング情報表示機能を説明するためのブロック図。同実施形態の電子機器で用いられるプログラムの機能構成を示すブロック図。同実施形態の電子機器によって表示装置に表示されるインデキシングビュー画面の例を示す図。図５のインデキシングビュー画面に表示される、顔サムネイル表示エリアとじゃばらサムネイル表示エリアとの関係を説明するための図。図５のインデキシングビュー画面に表示される、タイムバーの例を説明するための図。図５のインデキシングビュー画面に表示される、タイムバーの他の例を説明するための図。同実施形態の電子機器によって表示される、第１の表示モードのタイムバーを含むインデキシングビュー画面の例を示す図。同実施形態の電子機器によって表示される、第２の表示モードのタイムバーを含むインデキシングビュー画面の例を示す図。同実施形態の電子機器によって表示されるインデキシングビュー画面の具体例を示す図。同実施形態の電子機器によって表示されるインデキシングビュー画面の他の具体例を示す図。同実施形態の電子機器によって実行されるインデキシングビュー画面表示処理の手順の例を示すフローチャート。同実施形態の電子機器によって実行されるタイムバー表示処理の手順の例を示すフローチャート。

符号の説明

１０…電子機器（コンピュータ）、１１１Ａ…データベース、１１３…ビデオプロセッサ、１１７…ＴＶチューナ、３０１…インデキシング情報表示処理部、４０２…インデキシング制御部。

Claims

映像コンテンツデータから複数の代表画像を抽出すると共に、抽出された複数の代表画像それぞれが出現する時点を示すタイムスタンプ情報を出力する画像抽出手段と、
前記映像コンテンツデータ内のオーディオデータを分析することによって、前記映像コンテンツデータのシーケンス内における音が発生している複数の音響区間それぞれの音響特徴を示す音響特徴情報を出力する音響特徴出力手段と、
前記抽出された複数の代表画像の一覧を表示エリア上に表示する画像一覧表示手段と、
前記表示エリア上に表示されている代表画像の一覧の中から一つの代表画像が選択された場合、前記音響特徴情報と前記選択された代表画像に対応するタイムスタンプ情報とに基づいて、前記映像コンテンツデータ内に含まれ、且つ前記選択された代表画像が出現する時点が属する音響区間の音響特徴と類似する音響特徴を有する音響区間それぞれを特定する音響区間特定処理を実行する音響区間特定処理手段と、
前記音響区間特定処理の結果に基づいて、前記映像コンテンツデータのシーケンスを表すタイムバー上に、前記特定された音響区間それぞれの位置を示すバー領域を表示する表示処理手段とを具備することを特徴とする電子機器。
前記音響区間特定処理手段は、前記音響特徴情報に基づいて、類似する音響特徴を有する音響区間同士を同一のグループにまとめることによって、前記複数の音響区間を、互いに音響特徴が異なる複数のグループに分類する手段と、前記表示エリア上に表示されている代表画像の一覧の中から所定の代表画像が選択された場合、前記複数の音響区間の内で、前記選択された代表画像が出現する時点が属する音響区間と同一のグループに属する音響区間それぞれを特定することによって、前記選択された代表画像が出現する時点が属する音響区間の音響特徴と類似する音響特徴を有する音響区間それぞれを特定する手段とを含むことを特徴とする請求項１記載の電子機器。
前記表示処理手段は、前記選択された代表画像が出現する時点が属する音響区間と同一のグループに属する音響区間それぞれの位置を示すバー領域を第１の表示形態で前記タイムバー上に表示し、他の音響区間それぞれの位置を示すバー領域を前記第１の表示形態とは異なる第２の表示形態で前記タイムバー上に表示することを特徴とする請求項２記載の電子機器。
前記表示処理手段は、前記選択された代表画像が出現する時点が属する音響区間と同一のグループに属する音響区間それぞれの位置を示すバー領域と、他の音響区間それぞれの位置を示すバー領域とを、互いに異なる色で表示することを特徴とする請求項３記載の電子機器。
前記表示処理手段は、前記複数のグループに対して複数の色を割り当てることにより、前記複数の音響区間それぞれの位置を示すバー領域を前記グループ毎に異なる色で前記タイムバー上に表示する第１の表示モードと、前記選択された代表画像が出現する時点が属する音響区間と同一のグループに属する音響区間それぞれの位置を示すバー領域と他の音響区間それぞれの位置を示すバー領域とを互いに異なる色で表示する第２の表示モードとを有し、前記表示エリア上に表示されている代表画像の一覧の中から代表画像が選択されるまでは前記第１の表示モードを使用して動作し、前記表示エリア上に表示されている代表画像の一覧の中から代表画像が選択されたことに応答して、使用する表示モードを前記１の表示モードから前記第２の表示モードに変更するように構成されていることを特徴とする請求項２記載の電子機器。
映像コンテンツデータから複数の顔画像を抽出すると共に、抽出された複数の顔画像それぞれが出現する時点を示すタイムスタンプ情報を出力する顔画像抽出手段と、
前記映像コンテンツデータ内のオーディオデータを分析することによって、前記映像コンテンツデータのシーケンス内における音が発生している複数の音響区間それぞれの音響特徴を示す音響特徴情報を出力する音響特徴出力手段と、
前記抽出された複数の顔画像の一覧を表示エリア上に表示する顔画像一覧表示手段と、
前記音響特徴情報に基づいて類似する音響特徴を有する音響区間同士を同一のグループにまとめることによって、前記複数の音響区間を、互いに音響特徴が異なる複数のグループに分類すると共に、前記表示エリア上に表示されている顔画像の一覧の中から一つの顔画像が選択された場合、前記複数の音響区間の内で、前記選択された顔画像が出現する時点が属する音響区間と同一のグループに属する音響区間それぞれを特定することによって、前記選択された顔画像が出現する時点が属する音響区間の音響特徴と類似する音響特徴を有する音響区間それぞれを特定する音響区間特定処理を実行する音響区間特定処理手段と、
前記音響区間特定処理の結果に基づいて、前記映像コンテンツデータのシーケンスを表すタイムバー上に、前記特定された音響区間それぞれの位置を示すバー領域を表示する表示処理手段とを具備することを特徴とする電子機器。
映像コンテンツデータの概要を表示するための表示処理方法であって、
前記映像コンテンツデータから複数の代表画像を抽出すると共に、抽出された複数の代表画像それぞれが出現する時点を示すタイムスタンプ情報を出力するステップと、
前記映像コンテンツデータ内のオーディオデータを分析することによって、前記映像コンテンツデータのシーケンス内における音が発生している複数の音響区間それぞれの音響特徴を示す音響特徴情報を出力するステップと、
前記抽出された複数の代表画像の一覧を表示エリア上に表示するステップと、
前記表示エリア上に表示されている代表画像の一覧の中から一つの代表画像が選択された場合、前記音響特徴情報と前記選択された代表画像に対応するタイムスタンプ情報とに基づいて、前記映像コンテンツデータ内に含まれ、且つ前記選択された代表画像が出現する時点が属する音響区間の音響特徴と類似する音響特徴を有する音響区間それぞれを特定する音響区間特定処理を実行する音響区間特定処理ステップと、
前記音響区間特定処理の結果に基づいて、前記映像コンテンツデータのシーケンスを表すタイムバー上に、前記特定された音響区間それぞれの位置を示すバー領域を表示する表示処理ステップとを具備することを特徴とする表示処理方法。
前記音響区間特定処理ステップは、前記音響特徴情報に基づいて、類似する音響特徴を有する音響区間同士を同一のグループにまとめることによって、前記複数の音響区間を、互いに音響特徴が異なる複数のグループに分類するステップと、前記表示エリア上に表示されている代表画像の一覧の中から所定の代表画像が選択された場合、前記複数の音響区間の内で、前記選択された代表画像が出現する時点が属する音響区間と同一のグループに属する音響区間それぞれを特定することによって、前記選択された代表画像が出現する時点が属する音響区間の音響特徴と類似する音響特徴を有する音響区間それぞれを特定するステップとを含むことを特徴とする請求項７記載の表示処理方法。
前記表示処理ステップは、前記選択された代表画像が出現する時点が属する音響区間と同一のグループに属する音響区間それぞれの位置を示すバー領域を第１の表示形態で前記タイムバー上に表示し、他の音響区間それぞれの位置を示すバー領域を前記第１の表示形態とは異なる第２の表示形態で前記タイムバー上に表示することを特徴とする請求項８記載の表示処理方法。
前記表示処理ステップは、前記選択された代表画像が出現する時点が属する音響区間と同一のグループに属する音響区間それぞれの位置を示すバー領域と、他の音響区間それぞれの位置を示すバー領域とを、互いに異なる色で表示することを特徴とする請求項９記載の表示処理方法。