以下、図面を参照して、本発明の実施形態を説明する。
まず、図1および図2を参照して、本発明の一実施形態に係る電子機器の構成を説明する。本実施形態の電子機器は、例えば、情報処理装置として機能するノートブック型の携帯型パーソナルコンピュータ10から実現されている。
このパーソナルコンピュータ10は、放送番組データ、外部機器から入力されるビデオデータといった、映像コンテンツデータ(オーディオビジュアルコンテンツデータ)を記録および再生することができる。即ち、パーソナルコンピュータ10は、テレビジョン放送信号によって放送される放送番組データの視聴および録画を実行するためのテレビジョン(TV)機能を有している。このTV機能は、例えば、パーソナルコンピュータ10に予めインストールされているTVアプリケーションプログラムによって実現されている。また、TV機能は、外部のAV機器から入力されるビデオデータを記録する機能、および記録されたビデオデータおよび記録された放送番組データを再生する機能も有している。
さらに、パーソナルコンピュータ10は、パーソナルコンピュータ10に格納されたビデオデータ、放送番組データのような映像コンテンツデータ中に出現するオブジェクトの画像のような代表画像の一覧、例えば、映像コンテンツデータに出現する人物の顔画像の一覧等を表示するインデキシング情報表示機能を有している。
このインデキシング情報表示機能は、さらに、映像コンテンツデータから抽出された代表画像の一覧の中からユーザによってある代表画像が選択された場合、映像コンテンツデータのシーケンス内における音が発生している複数の音響区間の内から、選択された代表画像が出現する時点が属する音響区間の音響特徴と類似する音響特徴を有する音響区間それぞれを特定し、それら特定された音響区間それぞれの位置をタイムバー上に表示する音響区間表示機能も有している。
この音響区間表示機能により、映像コンテンツデータ内に含まれる全ての環境区間ではなく、ユーザの現在の注目箇所に対応する音響区間の音響特徴に類似する音響特徴を有する音響区間のみに限定して、その音響区間の位置をタイムバー上に表示することができる。ユーザの注目箇所が変更されたならば、タイムバー上に表示される音響区間も変更される。すなわち、ユーザによって別の代表画像が選択されたならば、その選択された別の代表画像が出現する時点が属する音響区間の音響特徴と類似する音響特徴を有する音響区間それぞれが特定され、それら特定された音響区間それぞれの位置がタイムバー上に表示される。このように、本実施形態では、ユーザの注目箇所の音響特徴に類似する音響特徴を有する音響区間のみに着目して当該音響区間それぞれの位置をタイムバー上に表示することができるので、映像コンテンツデータ内に複数種の音響区間が含まれている場合であっても、それら音響区間それぞれの位置をユーザに分かりやすく提示することができる。
さらに、インデキシング情報表示機能は、映像コンテンツデータから抽出された静止画像の一覧等を表示するサムネイル画像表示機能も有している。
図1はコンピュータ10のディスプレイユニットを開いた状態における斜視図である。本コンピュータ10は、コンピュータ本体11と、ディスプレイユニット12とから構成されている。ディスプレイユニット12には、TFT−LCD(Thin Film Transistor Liquid Crystal Display)17から構成される表示装置が組み込まれている。
ディスプレイユニット12は、コンピュータ本体11に対し、コンピュータ本体11の上面が露出される開放位置とコンピュータ本体11の上面を覆う閉塞位置との間を回動自在に取り付けられている。コンピュータ本体11は薄い箱形の筐体を有しており、その上面にはキーボード13、本コンピュータ10をパワーオン/パワーオフするためのパワーボタン14、入力操作パネル15、タッチパッド16、およびスピーカ18A,18Bなどが配置されている。
入力操作パネル15は、押されたボタンに対応するイベントを入力する入力装置であり、複数の機能をそれぞれ起動するための複数のボタンを備えている。これらボタン群には、TV機能(視聴、録画、録画された放送番組データ/ビデオデータの再生)を制御するための操作ボタン群も含まれている。また、コンピュータ本体11の正面には、本コンピュータ10のTV機能をリモート制御するリモコンユニットとの通信を実行するためのリモコンユニットインタフェース部20が設けられている。リモコンユニットインタフェース部20は、赤外線信号受信部などから構成されている。
コンピュータ本体11の例えば右側面には、TV放送用のアンテナ端子19が設けられている。また、コンピュータ本体11の例えば背面には、例えばHDMI(high-definition multimedia interface)規格に対応した外部ディスプレイ接続端子が設けられている。この外部ディスプレイ接続端子は、放送番組データのような映像コンテンツデータに含まれる映像データ(動画像データ)を外部ディスプレイに出力するために用いられる。
次に、図2を参照して、本コンピュータ10のシステム構成について説明する。
本コンピュータ10は、図2に示されているように、CPU101、ノースブリッジ102、主メモリ103、サウスブリッジ104、グラフィクスプロセッシングユニット(GPU)105、ビデオメモリ(VRAM)105A、サウンドコントローラ106、BIOS−ROM109、LANコントローラ110、ハードディスクドライブ(HDD)111、DVDドライブ112、ビデオプロセッサ113、メモリ113A、カードコントローラ113、無線LANコントローラ114、IEEE 1394コントローラ115、エンベデッドコントローラ/キーボードコントローラIC(EC/KBC)116、TVチューナ117、およびEEPROM118等を備えている。
CPU101は本コンピュータ10の動作を制御するプロセッサであり、ハードディスクドライブ(HDD)111から主メモリ103にロードされる、オペレーティングシステム(OS)201、およびTVアプリケーションプログラム202のような各種アプリケーションプログラムを実行する。TVアプリケーションプログラム202はTV機能を実行するためのソフトウェアである。このTVアプリケーションプログラム202は、TVチューナ117によって受信された放送番組データを視聴するためのライブ再生処理、受信された放送番組データをHDD111に記録する録画処理、およびHDD111に記録された放送番組データ/ビデオデータを再生する再生処理等を実行する。また、CPU101は、BIOS−ROM109に格納されたBIOS(Basic Input Output System)も実行する。BIOSはハードウェア制御のためのプログラムである。
ノースブリッジ102はCPU101のローカルバスとサウスブリッジ104との間を接続するブリッジデバイスである。ノースブリッジ102には、主メモリ103をアクセス制御するメモリコントローラも内蔵されている。また、ノースブリッジ102は、PCI EXPRESS規格のシリアルバスなどを介してGPU105との通信を実行する機能も有している。
GPU105は、本コンピュータ10のディスプレイモニタとして使用されるLCD17を制御する表示コントローラである。このGPU105によって生成される表示信号はLCD17に送られる。また、GPU105は、HDMI制御回路3およびHDMI端子2を介して、外部ディスプレイ装置1にデジタル映像信号を送出することもできる。
HDMI端子2は上述の外部ディスプレイ接続端子である。HDMI端子2は、非圧縮のデジタル映像信号と、デジタルオーディオ信号とを一本のケーブルでテレビのような外部ディスプレイ装置1に送出することができる。HDMI制御回路3は、HDMIモニタと称される外部ディスプレイ装置1にデジタル映像信号をHDMI端子2を介して送出するためのインタフェースである。
サウスブリッジ104は、LPC(Low Pin Count)バス上の各デバイス、およびPCI(Peripheral Component Interconnect)バス上の各デバイスを制御する。また、サウスブリッジ104は、ハードディスクドライブ(HDD)111およびDVDドライブ112を制御するためのIDE(Integrated Drive Electronics)コントローラを内蔵している。さらに、サウスブリッジ104は、サウンドコントローラ106との通信を実行する機能も有している。
またさらに、サウスブリッジ104には、PCI EXPRESS規格のシリアルバスなどを介してビデオプロセッサ113が接続されている。
ビデオプロセッサ113は、音声インデキシング処理および映像インデキシング処理を実行するプロセッサである。
音声インデキシング処理は、映像コンテンツデータ内のオーディオデータを分析することによって、映像コンテンツデータのシーケンス内における音が発生している複数の音響区間それぞれの音響特徴を示す音響特徴情報を出力する処理である。この音声インデキシング処理においては、類似する音響特徴を有する音響区間同士を同一のグループにまとめるクラスタリング処理等が実行され、これによって、複数の音響区間は、互いに音響特徴が異なる複数のグループ(音響特徴グループ)に分類される。
映像インデキシング処理においては、顔画像抽出処理が実行される。この顔画像抽出処理においては、ビデオプロセッサ113は、映像コンテンツデータに含まれる動画像データから複数の顔画像を抽出する。顔画像の抽出は、例えば、動画像データの各フレームから顔領域を検出する顔検出処理、検出された顔領域をフレームから切り出す切り出し処理等によって実行される。顔領域の検出は、例えば、各フレームの画像の特徴を解析して、予め用意された顔画像特徴サンプルと類似する特徴を有する領域を探索することによって行うことができる。顔画像特徴サンプルは、多数の人物それぞれの顔画像特徴を統計的に処理することによって得られた特徴データである。
映像インデキシング処理においては、サムネイル画像取得処理も実行される。サムネイル画像取得処理においては、ビデオプロセッサ113は、映像コンテンツデータのシーケンスを構成する複数の区間の各々から少なくとも1フレームの静止画像を抽出する。複数の区間それぞれの時間長は例えば等間隔である。この場合、ビデオプロセッサ113は、映像コンテンツデータに含まれる動画像データから等時間間隔毎に少なくとも1フレームの静止画像を抽出する。もちろん、複数の区間それぞれの時間長は必ずしも等間隔である必要はない。例えば、映像コンテンツデータに含まれる動画像データが圧縮符号化されているならば、フレーム内符号化されたピクチャであるI(イントラ)ピクチャのみを圧縮符号化された動画像データから抽出してもよい。また、ビデオプロセッサ113は、映像コンテンツデータ内の動画像データの各カットまたは各シーンを検出し、検出された各カットまたは各シーンから少なくとも1フレームの静止画像を抽出することもできる。
メモリ113Aは、ビデオプロセッサ113の作業メモリとして用いられる。インデキシング処理(映像インデキシング処理、および音声インデキシング処理)を実行するためには多くの演算量が必要とされる。本実施形態においては、CPU101とは異なる専用のプロセッサであるビデオプロセッサ113がバックエンドプロセッサとして使用され、このビデオプロセッサ113によってインデキシング処理が実行される。よって、CPU101の負荷の増加を招くことなく、インデキシング処理を実行することが出来る。
サウンドコントローラ106は音源デバイスであり、再生対象のオーディオデータをスピーカ18A,18BまたはHDMI制御回路3に出力する。
無線LANコントローラ114は、たとえばIEEE 802.11規格の無線通信を実行する無線通信デバイスである。IEEE 1394コントローラ115は、IEEE 1394規格のシリアルバスを介して外部機器との通信を実行する。
エンベデッドコントローラ/キーボードコントローラIC(EC/KBC)116は、電力管理のためのエンベデッドコントローラと、キーボード(KB)13およびタッチパッド16を制御するためのキーボードコントローラとが集積された1チップマイクロコンピュータである。このエンベデッドコントローラ/キーボードコントローラIC(EC/KBC)116は、ユーザによるパワーボタン14の操作に応じて本コンピュータ10をパワーオン/パワーオフする機能を有している。さらに、エンベデッドコントローラ/キーボードコントローラIC(EC/KBC)116は、リモコンユニットインタフェース20との通信を実行する機能を有している。
TVチューナ117はテレビジョン(TV)放送信号によって放送される放送番組データを受信する受信装置であり、アンテナ端子19に接続されている。このTVチューナ117は、例えば、地上波デジタルTV放送のようなデジタル放送番組データを受信可能なデジタルTVチューナとして実現されている。また、TVチューナ117は、外部機器から入力されるビデオデータをキャプチャする機能も有している。
次に、図3を参照して、本実施形態のインデキシング情報表示機能について説明する。
放送番組データのような映像コンテンツデータに対するインデキシング処理(映像インデキシング処理、および音声インデキシング処理)は、上述したように、インデキシング処理部として機能するビデオプロセッサ113によって実行される。
ビデオプロセッサ113は、TVアプリケーションプログラム202の制御の下、例えば、ユーザによって指定された録画済みの放送番組データ等の映像コンテンツデータに対してインデキシング処理を実行する。また、ビデオプロセッサ113は、TVチューナ117によって受信された放送番組データをHDD111に格納する録画処理と並行して、当該放送番組データに対するインデキシング処理を実行することもできる。
映像インデキシング処理においては、ビデオプロセッサ113は、顔画像を抽出する処理を実行する。ビデオプロセッサ113は、映像コンテンツデータに含まれる動画像データをフレーム単位で解析する。そして、ビデオプロセッサ113は、動画像データを構成する複数のフレームそれぞれから人物の顔画像を抽出すると共に、抽出された各顔画像が動画像データ内に登場する時点を示すタイムスタンプ情報を出力する。
さらに、ビデオプロセッサ113は、抽出された各顔画像のサイズ(解像度)も出力する。ビデオプロセッサ113から出力される顔検出結果データ(顔画像、タイムスタンプ情報TS、およびサイズ)は、データベース111Aに顔画像インデキシング情報として格納される。このデータベース111Aは、HDD111内に用意されたインデキシングデータ記憶用の記憶領域である。
さらに、映像インデキシング処理においては、ビデオプロセッサ113は、サムネイル画像取得処理も実行する。サムネイル画像は、映像コンテンツデータ内の動画像データを構成する複数の区間それぞれから抽出された複数のフレームの各々に対応する静止画像(縮小画像)である。すなわち、ビデオプロセッサ113は、動画像データの各区間毎に1以上のフレームを抽出し、抽出した各フレームに対応する画像(サムネイル画像)と、そのサムネイル画像が出現する時点を示すタイムスタンプ情報TSとを出力する。ビデオプロセッサ113から出力されるサムネイル画像取得結果データ(サムネイル画像、タイムスタンプ情報TS)は、データベース111Aにサムネイルインデキシング情報として格納される。
各サムネイル画像に対応するタイムスタンプ情報としては、映像コンテンツデータの開始から当該サムネイル画像のフレームが登場するまでの経過時間、または当該サムネイル画像のフレームのフレーム番号、等を使用することが出来る。
また、音声インデキシング処理においては、ビデオプロセッサ113は、映像コンテンツに含まれるオーディオデータを分析して、オーディオデータの音響特徴を示す音響特徴情報を所定時間単位で出力する。すなわち、音声インデキシング処理においては、オーディオデータを構成する所定時間分の部分データ単位で、その部分データから音響特徴が抽出される。そして、ビデオプロセッサ113は、各部分データの音響特徴を解析することにより、複数の音響区間を、グループ分けする。これにより、例えば、同じ音楽が流れている音響区間同士はある同じグループに分類され、また同一人物がトークしているトーク区間同士も、ある同じグループに分類される。
データベース111Aには、各部分データに対応する音響特徴情報が格納される。
さらに、音声インデキシング処理においては、ビデオプロセッサ113は、歓声レベル検出処理および盛り上がりレベル検出処理も実行する。
歓声レベル検出処理は、映像コンテンツデータ内の各部分データ(一定時間長のデータ)毎に歓声レベルを検出する処理である。歓声レベルは、歓声の大きさを示す。歓声は、大勢の人の声が合わさった音である。大勢の人の声が合わさった音は、ある特定の周波数スペクトルの分布を有する。歓声レベル検出処理においては、映像コンテンツデータに含まれるオーディオデータの周波数スペクトルが分析され、そしてその周波数スペクトルの分析結果に従って、各部分データの歓声レベルが検出される。
盛り上がりレベルを検出する盛り上がりレベル検出処理を実行する。
盛り上がりレベル検出処理は、映像コンテンツデータの盛り上がりレベルを検出する処理である。盛り上がりレベルは、ある一定以上の音量レベルがある一定時間長以上連続的に発生する区間の音量レベルである。例えば、比較的盛大な拍手、大きな笑い声のような音の音量レベルが、盛り上がりレベルである。盛り上がりレベル検出処理においては、映像コンテンツデータに含まれるオーディオデータの音量の分布が分析され、その分析結果に従って、各部分データの盛り上がりレベルが検出される。なお、音量レベルそのものを盛り上がりレベルとして使用してもよい。
これら歓声レベル検出処理の結果および盛り上がりレベル検出処理の結果も、データベース111Aにレベル情報として格納される。
TVアプリケーションプログラム202は、上述のインデキシング情報表示機能を実行するためのインデキシング情報表示処理部301を含んでいる。このインデキシング情報表示処理部301は、例えば、インデキシングビューワプログラムとして実現されており、データベース111Aに格納されたインデキシング情報(顔画像インデキシング情報、サムネイルインデキシング情報、音響特徴情報等)を用いて、映像コンテンツデータの概要を俯瞰するためのインデキシングビュー画面を表示する。
具体的には、インデキシング情報表示処理部301は、データベース111Aから顔画像インデキシング情報(顔画像、タイムスタンプ情報TS、およびサイズ)を読み出し、そしてその顔画像インデキシング情報を用いて、映像コンテンツデータに登場する人物の顔画像の一覧を、インデキシングビュー画面上の2次元の表示エリア(以下、顔サムネイル表示エリアと称する)上に表示する。
この場合、インデキシング情報表示処理部301は、映像コンテンツデータの総時間長を、例えば等間隔で、複数の時間帯に分割し、時間帯毎に、抽出された顔画像の内から当該時間帯に登場する顔画像を所定個選択する。そして、インデキシング情報表示処理部301は、時間帯毎に、選択した所定個の顔画像それぞれを並べて表示する。
すなわち、2次元の顔サムネイル表示エリアは、複数の行および複数の列を含むマトリクス状に配置された複数の顔画像表示エリアを含む。複数の列それぞれには、映像コンテンツデータの総時間長を構成する複数の時間帯が割り当てられている。具体的には、例えば、複数の列それぞれには、映像コンテンツデータの総時間長をこれら複数の列の数で等間隔に分割することによって得られる、互いに同一の時間長を有する複数の時間帯がそれぞれ割り当てられる。もちろん、各列に割り当てられる時間帯は必ずしも同一の時間長でなくてもよい。
インデキシング情報表示処理部301は、顔画像それぞれに対応するタイムスタンプ情報TSに基づき、各列内に属する行数分の顔画像表示エリア上に、当該各列に割り当てられた時間帯に属する顔画像それぞれを、例えば、それら顔画像の出現頻度順(顔画像の検出時間長順)のような順序で並べて表示する。この場合、例えば、当該各列に割り当てられた時間帯に属する顔画像の内から、出現頻度(登場頻度)の高い順に顔画像が行数分だけ選択され、選択された顔画像が登場頻度順に上から下に向かって並んで配置される。もちろん、出現頻度順ではなく、各列に割り当てられた時間帯に出現する顔画像それぞれを、その出現順に並べて表示してもよい。
この顔画像一覧表示機能により、映像コンテンツデータ全体の中のどの時間帯にどの人物が登場するのかをユーザに分かりやすく提示することができる。
また、インデキシング情報表示処理部301は、データベース111Aからサムネイルインデキシング情報(サムネイル、タイムスタンプ情報TS)を読み出し、そしてサムネイルインデキシング情報を用いて、サムネイル画像それぞれを、顔サムネイル表示エリアの下方側または上方側の一方に配置されたサムネイル表示エリア(以下、じゃばらサムネイル表示エリアと称する)上に、それらサムネイル画像の出現時間順に一列に並べて表示する。
映像コンテンツデータによっては、顔画像が登場しない時間帯も存在する。したがって、インデキシングビュー画面上に顔サムネイル表示エリアのみならず、じゃばらサムネイル表示エリアも表示することにより、顔画像が登場しない時間帯においても、その時間帯の映像コンテンツデータの内容をユーザに提示することができる。
また、インデキシング情報表示処理部301は、データベース111Aから音響特徴情報を読み出し、その音響特徴情報に従って、インデキシングビュー画面上に、映像コンテンツデータの開始位置から終端位置までのシーケンスを表すタイムバーを表示する。このタイムバー上には、例えば、映像コンテンツデータの開始位置から終端位置までのシーケンス内における音響区間それぞれの位置を示す複数のバー領域が、音響特徴グループ毎に異なる表示形態で表示される。例えば、複数のバー領域は音響特徴グループ毎に色分けされて表示される。この場合、類似する音響特徴を有する音響区間それぞれに対応するバー領域、つまり同じ音響特徴グループに属する音響区間それぞれに対応するバー領域は、同じ色で表示される。これにより、例えば、放送番組内の複数の箇所に同じ人物の発言場所または同じ音楽が流れている音楽区間等が存在する場合には、それら発言場所または音楽区間を同じ色で表示することが出来る。なお、音響特徴グループ毎に色を変える代わりに、音響特徴グループ毎にバー領域の模様または形状を変えるようにしてもよい。
顔サムネイル表示エリア上のある顔画像がユーザによって選択された場合、またはじゃばらサムネイル表示エリア上のあるサムネイル画像がユーザによって選択された場合、インデキシング情報表示処理部301は、当該映像コンテンツデータ内に含まれ、且つ選択された画像(顔画像またはサムネイル画像)が出現する時点が属する音響区間の音響特徴と類似する音響特徴を有する音響区間それぞれを特定し、特定された音響区間それぞれの位置を示すバー領域をタイムバー上に表示する。よって、ユーザの現在の注目箇所に対応する音響区間の音響特徴と類似する音響特徴を有する音響区間のみに限定して、その音響区間の位置をタイムバー上に表示することができる。
さらに、インデキシング情報表示処理部301は、データベース111Aから歓声レベル情報および盛り上がりレベル情報を読み出し、それら歓声レベル情報および盛り上がりレベル情報に従って、映像コンテンツデータの開始位置から終端位置までのシーケンス内における歓声レベルの変化および盛り上がりレベルの変化をそれぞれ示すグラフを、インデキシングビュー画面上のレベル表示エリアに表示する。
このレベル表示エリアを見ることにより、ユーザに、映像コンテンツデータ内のどの辺りに大きな歓声が生じた区間が存在し、また映像コンテンツデータ内のどの辺りに盛り上がりの大きな区間が存在するかを提示することができる。
次に、図4を参照して、インデキシングビューワプログラムと連携して動作するTVアプリケーションプログラム202の機能構成を説明する。
TVアプリケーションプログラム202は、上述のインデキシング情報表示処理部301に加え、記録処理部401、インデキシング制御部402、再生処理部403等を備えている。インデキシング情報表示処理部301、およびインデキシング制御部402は、インデキシングビューワプログラムによって実現することができる。
記録処理部401は、TVチューナ117によって受信された放送番組データ、または外部機器から入力されるビデオデータをHDD111に記録する記録処理を実行する。また、記録処理部401は、ユーザによって予め設定された録画予約情報(チャンネル番号、日時)によって指定される放送番組データをTVチューナ117を用いて受信し、その放送番組データをHDD111に記録する予約録画処理も実行する。
インデキシング制御部402は、ビデオプロセッサ(インデキシング処理部)113を制御して、インデキシング処理(映像インデキシング処理、音声インデキシング処理)をビデオプロセッサ113に実行させる。ユーザは、録画対象の放送番組データ毎にインデキシング処理を実行するか否かを指定することができる。例えば、インデキシング処理の実行が指示された録画対象の放送番組データについては、その放送番組データがHDD111に記録された後に、インデキシング処理が自動的に開始される。また、ユーザは、既にHDD111に格納されている映像コンテンツデータの内から、インデキシング処理を実行すべき映像コンテンツデータを指定することもできる。
再生処理部403は、映像コンテンツデータから抽出されたある代表画像(顔サムネイル表示エリア上のある顔画像、またはじゃばらサムネイル表示エリア上のあるサムネイル画像)が選択されている状態でユーザ操作によって再生指示イベントが入力された時、選択されている代表画像(顔画像、またはサムネイル画像)が登場する時点よりも所定時間前の時点から映像コンテンツデータの再生を開始する機能を有している。
次に、図5乃至図13を参照して、インデキシングビュー画面の例について説明する。
図5はインデキシングビュー画面の例を示している。
インデキシングビュー画面上には、顔サムネイル表示エリア、レベル表示エリア、タイムバー、およびじゃばらサムネイル表示エリアが表示される。
顔サムネイル表示エリアは、複数の行と複数の列とを含むマトリクス状に配置された複数個の顔画像表示エリアを含んでいる。図5においては、顔サムネイル表示エリアは6行×16列から構成されている。顔サムネイル表示エリアに含まれる顔画像表示エリアの数は、96個である。
列1〜列16のそれぞれには、例えば、映像コンテンツデータ(映像コンテンツデータに含まれる動画像データ)の総時間長を列数(=16)で等間隔で分割することによって得られる、互いに同一の時間長Tを有する複数の時間帯がそれぞれ割り当てられる。
例えば、映像コンテンツデータの総時間長が2時間であるならば、その2時間が16個の時間帯に等間隔で分割される。この場合、各時間帯の時間長Tは、7.5分である。例えば、列1には、先頭0:00:00から0:07:30までの時間帯が割り当てられ、列2には、0:07:30から0:15:00までの時間帯が割り当てられ、列3には、0:15:00から0:22:30までの時間帯が割り当てられる。映像コンテンツデータの総時間長に応じて、各時間帯の時間長Tは変化する。
もちろん、複数の列それぞれに割り当てられる時間帯の長さは、必ずしも同一である必要はない。
インデキシング情報表示処理部301は、ビデオプロセッサ113によって抽出された顔画像それぞれに対応するタイムスタンプ情報に基づき、各列内の6個の顔画像表示エリア上に、当該各列に割り当てられた時間帯に属する顔画像それぞれをたとえば上述の頻度順に並べて表示する。この場合、インデキシング情報表示処理部301は、表示処理対象の列に割り当てられた時間帯に属する顔画像の内から行数分(6個)の顔画像を選択し、選択した行数分の顔画像それぞれを並べて表示する。
このように、顔サムネイル表示エリアにおいては、左端位置(1,1)を基点とし、右端位置(6,16)を映像コンテンツデータの終端とする時間軸が用いられている。
顔サムネイル表示エリアの各顔画像表示エリアに表示される顔画像のサイズは“大”、“中”、“小”の内からユーザが選択することができる。行と列の数は、ユーザが選択した顔画像のサイズに応じて変化される。顔画像のサイズと行と列の数との関係は、次の通りである。
(1)“大”の場合; 3行×8列
(2)“中”の場合; 6行×16列
(3)“小”の場合: 10行×24列
“大”の場合においては、各顔画像は、例えば、180×180ピクセルのサイズで表示される。“中”の場合においては、各顔画像は、例えば、90×90ピクセルのサイズで表示される。“小”の場合においては、各顔画像は、例えば、60×60ピクセルのサイズで表示される。デフォルトの顔画像サイズは、例えば、“中”に設定されている。
顔サムネイル表示エリア内の各顔画像は、選択されていない“標準”状態、選択されている“フォーカス”状態の2つの状態のいずれかに設定される。“フォーカス”状態の顔画像のサイズは、“標準”状態の時のサイズ(180×180、90×90、または60×60)よりも大きく設定される。図5においては、座標(1,12)の顔画像が“フォーカス”状態である場合を示している。
じゃばらサムネイル表示エリアは、サムネイル画像の一覧をじゃばら形式で表示する。ここで、じゃばら形式とは、選択されているサムネイル画像を通常サイズで表示し、他の各サムネイル画像についてはその横方向サイズを縮小して表示する表示形式である。インデキシング情報表示処理部301は、ユーザ操作によって選択されたサムネイル画像を第1の横幅サイズで表示し、他の各サムネイル画像の横幅サイズを第1の横幅サイズよりも小さい横幅サイズで表示する。具体的には、選択されたサムネイル画像は第1の横幅サイズで表示され、その選択されたサムネイル画像の近傍の幾つかサムネイル画像はその横幅が縮小された状態で表示され、他の各サムネイル画像はさらに僅かな横幅で表示される。選択されているサムネイル画像には、さらに矩形の枠を付加してもよい。
じゃばらサムネイル表示エリアに表示されるサムネイル画像の枚数は、ユーザ設定に従って、例えば240枚、144枚、96枚、48枚のいずれかに設定される。デフォルトは例えば240枚である。この場合、動画像データは240個の区間(240個の時間帯)に区分され、240個の区間それぞれから抽出された240枚のサムネイル画像が時間順に並んでじゃばらサムネイル表示エリアに表示される。
サムネイル画像は、選択されていない“標準”状態、選択されている“フォーカス”状態の2つの状態のいずれかに設定される。“フォーカス”状態のサムネイル画像は、上述したように、他のサムネイル画像よりも大きいサイズで表示される。
レベル表示エリアにおいては、歓声レベルの変化を示すグラフと、盛り上がりレベルの変化を示すグラフが表示される。
タイムバー上には、音響区間それぞれの位置を示す複数のバー領域が表示される。タイムバーの具体的に例については図7以降で説明する。
次に、図6を参照して、図5のインデキシングビュー画面上に表示される、顔サムネイル表示エリアとじゃばらサムネイル表示エリアとの関係について説明する。
同一列に属する顔画像表示エリア群の集合、つまり顔サムネイル表示エリア内の個々の列を“大区間”と称する。また、“大区間”をさらに分割したものを“小区間”と称する。1つの大区間に含まれる小区間の数は、じゃばらサムネイル表示エリアに表示されるサムネイル画像の数を顔サムネイル表示エリアの列数で割った商で与えられる。例えば、顔サムネイル表示エリアが6行×16列で、じゃばらサムネイル表示エリアに表示されるサムネイル画像の数が240枚であるならば、1つの大区間に含まれる小区間の数は、15(=240÷16)となる。1つの大区間は15個の小区間を含む。換言すれば、1つの大区間に対応する時間帯には、15枚のサムネイル画像が属することになる。
じゃばらサムネイル表示エリア上のあるサムネイル画像が選択された時、インデキシング情報表示処理部301は、選択されたサムネイル画像のタイムスタンプ情報に基づき、顔サムネイル表示エリア内の複数の列(複数の大区間)の内で、選択されたサムネイル画像が属する時間帯が割り当てられた列(大区間)を選択する。選択される大区間は、選択されたサムネイル画像が属する区間(小区間)を含む大区間である。そして、インデキシング情報表示処理部301は、選択した大区間を強調表示する。
さらに、インデキシング情報表示処理部301は、選択されたサムネイル画像と選択された大区間との間を接続する現在位置バー(縦長のバー)を表示する。この縦長のバーは、選択されたサムネイル画像に対応する小区間が、選択された大区間に含まれる15個の小区間の内のどの小区間に対応するかを提示するために使用される。縦長のバーは、選択された大区間に含まれる15個の小区間の内で、選択されたサムネイル画像に対応する小区間の位置に表示される。例えば、選択されたサムネイル画像が、ある大区間に対応する時間帯に属する15枚のサムネイル画像の内の先頭の画像、つまり大区間内の先頭の小区間に対応する画像であるならば、選択されたサムネイル画像は、縦長のバーによって大区間の左端に接続される。また、例えば、選択されたサムネイル画像が、ある大区間に対応する時間帯に属する15枚のサムネイル画像の内の終端の画像、つまり大区間内の終端の小区間に対応する画像であるならば、選択されたサムネイル画像は、縦長のバーによって大区間の右端に接続される。
このように、じゃばらサムネイル表示エリア上のサムネイル画像が選択された時には、顔サムネイル表示エリア内の複数の列の内から、選択されたサムネイル画像が属する時間帯が割り当てられている列(大区間)が自動選択される。これにより、ユーザは、選択したサムネイル画像が、顔サムネイル表示エリア内のどの列(大区間)に対応する画像であるかを識別することができる。さらに、縦長のバーにより、ユーザは、選択したサムネイル画像が、どの列(大区間)内のどの辺りの時点に対応する画像であるかも識別することができる。
また、インデキシング情報表示処理部301は、選択されたサムネイル画像のタイムスタンプ情報に基づいて、選択されたサムネイル画像が出現する時点を示す時間情報もインデキシングビュー画面上に表示する。
“現在位置変更”ボタンは選択されているサムネイル画像を変更するための操作ボタンである。“現在位置変更”ボタンがフォーカスされている状態でユーザが左カーソルキーまたは右カーソルキーを操作すると、選択対象のサムネイル画像は、例えば1小区間単位で、左または右に移動する。
図7は、図5のインデキシングビュー画面上に表示されるタイムバーの例を示している。
図7においては、音響特徴の解析結果に基づいて、映像コンテンツデータ内の音響区間それぞれが、“グループ1”、“グループ2”、“グループ3”、および“グループ4”の4つのグループ(音響特徴グループ)に分類された場合を想定している。
本実施形態では、同じ音響特徴を持つ音響区間同士は同じ音響特徴グループに分類され、同じ音響特徴グループに属する音響区間それぞれの位置を示すバー領域は同じ表示形態(例えば同色)で表示される。
“グループ1”、“グループ2”、“グループ3”、および“グループ4”にはそれぞれ異なる4つの色が割り当てられる。代表画像(顔画像またはサムネイル画像)が選択されていない初期状態においては、複数のバー領域のすべてが色分けされて表示される。すなわち、“グループ1”に対応する音響特徴グループに属する各音響区間の位置を示すバー領域は、色1(例えば、赤)で表示される。“グループ2”に対応する音響特徴グループに属する各音響区間の位置を示すバー領域は、色2(例えば、青)で表示される。“グループ3”に対応する音響特徴グループに属する各音響区間の位置を示すバー領域は、色3(例えば、緑)で表示される。“グループ4”に対応する音響特徴グループに属する各音響区間の位置を示すバー領域は、色4(例えば、黄)で表示される。
代表画像(顔画像またはサムネイル画像)が選択されると、インデキシング情報表示処理部301は、選択された代表画像が出現する時点が属する音響区間と同一のグループに属する音響区間それぞれの位置を示すバー領域を第1の表示形態(例えば第1の色)でタイムバー上に表示し、他の音響区間それぞれの位置を示すバー領域を第1の表示形態とは異なる第2の表示形態(例えば第2の色)でタイムバー上に表示する。例えば、選択された代表画像が“グループ1”に対応する音響特徴グループに属するならば、“グループ1”に対応する音響特徴グループに属する各音響区間の位置を示すバー領域は、“グループ1”に割り当てられた色1で表示され、他の全ての音響区間それぞれに対応するバー領域は、例えば、黒、白、グレー等の下地色で表示される。
すなわち、インデキシング情報表示処理部301は、複数の音響特徴グループに対して複数の色を割り当てることにより、複数の音響区間それぞれの位置を示すバー領域を音響特徴グループ毎に異なる表示形態(異なる色)でタイムバー上に表示する第1の表示モードと、選択された代表画像が出現する時点が属する音響区間と同一のグループに属する音響区間それぞれの位置を示すバー領域と他の音響区間それぞれの位置を示すバー領域とを互いに異なる表示形態(異なる色)で表示する第2の表示モードとを有している。代表画像の一覧の中から代表画像が選択されるまではインデキシング情報表示処理部301は前記第1の表示モードを使用して動作し、代表画像が選択されたことに応答して、使用する表示モードを前記1の表示モードから第2の表示モードに変更する。
図8はタイムバーの第2の例を示している。
音響特徴に応じて音響区間を特定する処理においては、例えば、音の重なり等により、音響区間の変わり目を明確に識別することが困難なことがある。そこで、図8のタイムバーにおいては、音響特徴が最も明確な位置を中心として、音響特徴の明確性が低くなるほど色が徐々に薄くなるように、各バー領域の色にグラデーションをつけている。これにより、視覚的に見やすいタイムバーとすることができる。
しかし、映像コンテンツデータ内に多くの音響特徴グループが含まれる場合には、バー領域の表示色も増えるので、たとえグラデーション表示を用いても各音響特徴グループを識別しやすく表示することは困難になる場合がある。本実施形態では、第2の表示モードを使用することにより、表示対象の音響区間をユーザが着目した箇所が属する音響特徴グループのみに限定することができるので、ユーザが着目した箇所が属する音響特徴グループ内の各音響区間の位置をユーザに対して識別しやすく表示することができる。
次に、図9および図10を参照して、第1の表示モードおよび第2の表示モードそれぞれにおけるタイムバーの表示例を説明する。
図9は、第1の表示モードを用いて表示されたタイムバーを含むインデキシングビュー画面の例を示している。初期状態においては、図9に示されているように、特定された複数の音響区間それぞれに対応するバー領域が音響特徴グループ毎に異なる色で表示される。音響特徴グループ1,2,3,4を含む4つの音響特徴グループが存在する場合には、音響区間それぞれに対応するバー領域は、音響特徴グループ1,2,3,4にそれぞれ割り当てられた色1,色2,色3,色4の4つの色で色分けされて表示される。つまり、音響特徴グループ1に属する各音響区間のバー領域は音響特徴グループ1に割り当てられた色1で表示され、音響特徴グループ2に属する各音響区間のバー領域は音響特徴グループ2に割り当てられた色2で表示され、音響特徴グループ3に属する各音響区間のバー領域は音響特徴グループ3に割り当てられた色3で表示され、音響特徴グループ4に属する各音響区間のバー領域は音響特徴グループ4に割り当てられた色4で表示される。
図10は、第2の表示モードを用いて表示されたタイムバーを含むインデキシングビュー画面の例を示している。
図10においては、顔サムネイル表示エリア上の顔画像A1がユーザによって選択された場合を想定している。顔画像A1が出現する音響区間が例えば音響特徴グループ1に属する場合には、映像コンテンツデータ内の複数の音響区間の内、音響特徴グループ1に属する音響区間のみが特定され、音響特徴グループ1に属する音響区間に対応するバー領域のみが音響特徴グループ1に対応する色1で表示される。音響特徴グループ1に属する音響区間以外の他の音響区間それぞれに対応するバー領域それぞれは例えばグレー、白、黒等の特定の下地色で表示される。具体的には、音響特徴グループ2に属する各音響区間のバー領域、音響特徴グループ3に属する各音響区間のバー領域、および音響特徴グループ4に属する各音響区間のバー領域は、いずれも同じ下地色(例えばグレー、白、黒等)で表示される(図10において斜線で示されている)。もちろん、音響特徴グループ2に属する各音響区間のバー領域、音響特徴グループ3に属する各音響区間のバー領域、および音響特徴グループ4に属する各音響区間のバー領域の表示を省略してもよい。
図11は、ある映像コンテンツデータのインデキシングビュー画面の具体例を示している。
顔サムネイル表示エリア上には、6行×16列の顔画像表示エリアが配置されており、各顔画像表示エリア上に顔画像が表示されている。なお、顔画像のみならず、フレーム全体のサムネイル画像やシーンの変わり目のサムネイル画像等と顔画像とを混在させて、顔サムネイル表示エリア上に表示してもよい。
初期状態においては、タイムバー上には、複数の音響区間それぞれに対応するバー領域が音響特徴グループ毎に異なる色で表示される。顔サムネイル表示エリア上のある顔画像、例えば顔画像B1、がユーザによって選択された場合、インデキシング情報表示処理部301は、音響特徴情報に基づいて、映像コンテンツデータのシーケンスの内から、顔画像B1が出現する時点が属する音響区間の音響特徴と類似する音響特徴を有する音響区間それぞれを特定する。換言すれば、インデキシング情報表示処理部301は、映像コンテンツデータに含まれる複数の音響区間の中から、顔画像B1と同じ音響特徴グループに属する音響区間それぞれを特定することにより、顔画像B1が出現する時点が属する音響区間の音響特徴と類似する音響特徴を有する音響区間それぞれを特定する。そして、インデキシング情報表示処理部301は、特定された音響区間それぞれの位置を示すバー領域をタイムバー上に所定の色(例えば、顔画像B1が属する音響特徴グループに割り当てられた色1)で表示する。音響特徴グループ1に属する音響区間以外の他の音響区間それぞれに対応するバー領域それぞれは例えばグレー、白、黒等の特定の下地色で表示される。
顔サムネイル表示エリア上の顔画像が選択された場合のみならず、じゃばらサムネイル表示エリア上のサムネイル画像がユーザによって選択された場合においても、同様の表示処理が実行される。例えば、図12に示すように、じゃばらサムネイル表示エリア上のサムネイル画像C1がユーザによって選択された場合、インデキシング情報表示処理部301は、映像コンテンツデータのシーケンスの内から、サムネイル画像C1が出現する時点が属する音響区間の音響特徴と類似する音響特徴を有する音響区間それぞれを特定する。そして、インデキシング情報表示処理部301は、特定された音響区間それぞれの位置を示すバー領域をタイムバー上に所定の色(例えば、サムネイル画像C1が属する音響特徴グループに割り当てられた色1)で表示する。
次に、図13のフローチャートを参照して、インデキシング情報表示処理部301によって実行される表示処理の手順を説明する。
まず、インデキシング情報表示処理部301は、データベース111Aに格納されている顔画像それぞれを、それら顔画像に対応するタイムスタンプ情報に基づいて、それら顔画像の登場時間順にソートする(ステップS101)。次いで、インデキシング情報表示処理部301は、ユーザによって指定された表示すべき顔画像サイズに応じて行及び列の数を決定すると共に、例えばインデキシング対象の映像コンテンツデータの総時間長を列数で均等に分割することによって、各列(大区間)に割り当てる時間帯を算出する。そして、インデキシング情報表示処理部301は、表示処理対象の列に割り当てられた時間帯内に属する顔画像の内から、行数分の顔画像を選択する(ステップS102)。表示処理対象の列に割り当てられた時間帯内に属する顔画像の数が行数よりも多い場合には、インデキシング情報表示処理部301は、例えば、出現頻度の高い顔画像を優先的に選択する処理を実行することもできる。
また、表示処理対象の列に割り当てられた時間帯内に属する顔画像の数が行数よりも多い場合、インデキシング情報表示処理部301は、データベース11Aに格納された顔画像それぞれのサイズ情報に基づいて、表示処理対象の列に割り当てられた時間帯に属する顔画像の内から、サイズの大きい顔画像を優先的に選択する処理を実行することもできる。
クローズアップされた顔を映すフレームから抽出される顔画像のサイズは、比較的大きなものとなる。したがって、抽出された顔画像のサイズが大きいほど、重要度の高い人物である可能性が高い。よって、サイズの大きい顔画像を優先的に選択することにより、重要度の高い人物の顔画像を優先的に表示することが可能となる。
次いで、インデキシング情報表示処理部301は、表示処理対象の列内の複数の顔画像表示エリアに、選択した顔画像それぞれを例えば出現頻度順に並べて表示する(ステップS103)。出現頻度の高い顔画像ほど、上方の顔画像表示エリアに表示される。
ステップS102,S103の処理は、全ての列に対する処理が完了するまで、表示処理対象の列の番号を更新しながら繰り返し実行される(ステップS104,S105)。この結果、顔画像表示エリアには、複数の顔画像が並んで表示される。
なお、表示処理対象の列に割り当てられた時間帯内に属する顔画像の数が行数よりも少ない場合には、対応する時間帯内に属するサムネイル画像を表示処理対象の列に表示することも出来る。
全ての列に対する処理が完了すると(ステップS104のNO)、インデキシング情報表示処理部301は、データベース11Aに格納されているサムネイル画像それぞれを、それらサムネイル画像それぞれのタイムスタンプ情報に基づいて、じゃばらサムネイル表示エリア上にそれらサムネイル画像が出現する時間順に一列に並べて表示する(ステップS106)。
次いで、インデキシング情報表示処理部301は、データベース111Aから音響特徴情報を読み出し、その音響特徴情報に基づいて、類似する音響特徴を有する音響区間同士を同一のグループにまとめることによって、複数の音響区間を互いに音響特徴が異なる複数の音響特徴グループに分類する処理を実行する。そして、インデキシング情報表示処理部301は、複数の音響区間それぞれの位置を示すバー領域を音響特徴グループ毎に異なる表示形態(例えば異なる色)でタイムバー上に表示する(ステップS107)。なお、複数の音響区間を互いに音響特徴が異なる複数の音響特徴グループに分類する処理は、ビデオプロセッサ113によって予め実行することも出来る。この場合、インデキシング情報表示処理部301は、分類結果を示す情報に基づいて、複数の音響区間それぞれの位置を示すバー領域を音響特徴グループ毎に異なる表示形態(例えば異なる色)でタイムバー上に表示する処理のみを実行すればよい。
さらに、インデキシング情報表示処理部301は、データベース111Aから歓声レベル情報および盛り上がりレベル情報を読み出し、それら歓声レベル情報および盛り上がりレベル情報に従って、レベル表示エリア上に、映像コンテンツデータの開始位置から終端位置までのシーケンス内における歓声レベルの変化を示すグラフと、シーケンス内における盛り上がりレベルの変化をそれぞれ示すグラフとを表示する。
次に、図14のフローチャートを参照して、タイムバーの表示処理に関する一連の処理手順の例を説明する。
ビデオプロセッサ113は、映像コンテンツデータに含まれるオーディオデータを分析して、例えば、オーディオデータの部分データ毎にその部分データの音響特徴(周波数スペクトル分布等)を示す音響特徴情報を出力する(ステップS301)。次いで、ビデオプロセッサ113またはインデキシング情報表示処理部301は、部分データそれぞれの音響特徴情報に基づいて、映像コンテンツデータの内から音が発生している複数の音響区間を検出すると共に、複数の音響区間を、互いに音響特徴が異なる複数の音響特徴グループに分類する(ステップS302)。
次いで、インデキシング情報表示処理部301は、映像コンテンツデータのシーケンスを表すタイムバー上に、複数の音響区間の位置を示す複数のバー領域を、音響特徴グループ毎に異なる表示形態(例えば異なる色)で表示する(ステップS303)。そして、インデキシング情報表示処理部301は、顔サムネイル表示エリア上の複数の顔画像の内の一つ、またはじゃばらサムネイル表示エリア上の複数のサムネイル画像の内の一つがユーザによる入力装置(キーボード、マウス、リモコンユニット等)の操作によって選択されたか否かを判別する(ステップS304)。
顔サムネイル表示エリア上のある顔画像、またはじゃばらサムネイル表示エリア上のあるサムネイル画像が選択されたならば(ステップS304のYES)、インデキシング情報表示処理部301は、その選択された顔画像を他の顔画像よりも大きなサイズで表示する処理、または選択されたサムネイル画像を他のサムネイル画像よりも大きなサイズで表示する処理を実行すると共に、音響区間特定処理を実行する(ステップS305)。
音響区間特定処理においては、まず、インデキシング情報表示処理部301は、選択された顔画像または選択された顔画像に対応するタイムスタンプ情報と、複数の部分データそれぞれの音響特徴情報とに基づいて、映像コンテンツデータ内に含まれ、且つ前記選択された代表画像が出現する時点が属する音響区間の音響特徴と類似する音響特徴を有する音響区間それぞれを特定する。具体的には、インデキシング情報表示処理部301は、複数の音響区間の内で、選択された画像(顔画像またはサムネイル画像)が出現する時点が属する音響区間と同じ音響特徴グループに属する音響区間それぞれを特定し、これによって、選択された画像(顔画像またはサムネイル画像)が出現する時点が属する音響区間と類似する音響特徴を有する音響区間それぞれを特定する。なお、選択された画像(顔画像またはサムネイル画像)が出現する時点が属する音響区間の音響特徴情報を、複数の部分データそれぞれに対応する音響特徴情報と比較することによっても、選択された画像(顔画像またはサムネイル画像)が出現する時点が属する音響区間と類似する音響特徴を有する音響区間を特定することができる。そして、インデキシング情報表示処理部301は、音響区間特定処理の結果に基づき、特定された音響区間の位置をそれぞれ示すバー領域をタイムバー上に所定の表示形態(例えば所定の色)で表示し、他の音響区間それぞれに対応するバー領域を別の表示形態(例えばグレー等所定の色)で表示する(ステップS305)。なお、ステップS305においては、他の音響区間それぞれに対応するバー領域の表示を省略してもよい。
また、ステップS302の処理をスキップして、顔画像またはサムネイル画像がユーザによって選択されるまではタイムバー上にどのバー領域も表示しないようにしてもよい。この場合、顔画像またはサムネイル画像が選択された時に、選択された画像(選択された顔画像または選択されたサムネイル画像)が出現する時点が属する音響区間と同じ音響特徴を有する音響区間を特定し、それら特定された音響区間の位置をそれぞれ示すバー領域をタイムバー上に所定の表示形態(例えば所定の色)で表示してもよい。
また、ステップS302においては、複数の音響区間の位置を示す複数のバー領域を、同じ表示形態(例えば、同じ下地色)で表示してもよい。
以上のように、本実施形態においては、タイムバー上に一度に表示されるバー領域を、画像の一覧の中から選択された画像に関連する音響区間に対応するバー領域のみに限定することができる。よって、たとえ映像コンテンツデータ内に互いに音響特徴が異なる様々な音響区間が混在している場合であっても、映像コンテンツデータ内に含まれる様々な音響区間の位置をユーザに分かりやすく提示することが可能となる。
また、ユーザは、そのユーザにとって興味のある画像を選択するだけで、その画像(顔画像またはサムネイル画像)が登場する時点を含む音響区間と同じ音響特徴を有する音響期間が映像コンテンツデータ内のどの辺りに存在するかを容易に把握することができる。これにより、ユーザはタイムバーを見るだけで、特定の人物の発言位置を探したり、番組内の構成をグラフィカルに認識することが可能となり、番組内の観たい位置へのシークを容易にすることができる。
なお、本実施形態では、タイムバー上に一度に表示されるバー領域を、画像の一覧の中から選択された画像に関連する音響区間に対応するバー領域のみに限定する処理について説明したが、これに加えて、またこの代わりに、マウスオーバー(マウスオーバー:クリックせずにタイムバー上をポインタを移動させる操作)のような、タイムバー上のマウスポインタの移動操作に応じて、表示されるバー領域を制限するようにしてもよい。この場合、映像コンテンツデータの中から、タイムバー上のマウスポインタの現在の位置に対応する時点が属する音響区間と同じ音響特徴を有する音響期間それぞれが特定され、それら特定された音響期間それぞれに対応するバー領域が特定の表示形態でタイムバー上に表示される。
また、本実施形態のインデキシング情報表示処理の手順は全てソフトウェアによって実現することができるので、このソフトウェアをコンピュータ読み取り可能な記憶媒体を通じて通常のコンピュータに導入することにより、本実施形態と同様の効果を容易に実現することができる。
また、本実施形態の電子機器はコンピュータ10によって実現するのみならず、例えば、HDDレコーダ、DVDレコーダ、テレビジョン装置といった様々なコンシューマ電子機器によって実現することもできる。この場合、インデキシング情報表示処理およびプレビュー処理の機能は、DSP、マイクロコンピュータのようなハードウェアによって実現することができる。
また、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に構成要素を適宜組み合わせてもよい。
10…電子機器(コンピュータ)、111A…データベース、113…ビデオプロセッサ、117…TVチューナ、301…インデキシング情報表示処理部、402…インデキシング制御部。