WO2010125757A1

WO2010125757A1 - 映像音声再生装置、映像音声記録再生装置、映像音声再生方法、および映像音声記録再生方法

Info

Publication number: WO2010125757A1
Application number: PCT/JP2010/002735
Authority: WO
Inventors: 楠恵明; 島田昌明
Original assignee: 三菱電機株式会社
Priority date: 2009-04-28
Filing date: 2010-04-15
Publication date: 2010-11-04
Also published as: JP2012142645A

Abstract

　シーン毎に適切な画像をサムネイルとして表示させることができる装置または方法であって、この装置または方法は、映像情報からシーン境界(ＳＢ)を抽出し、シーン境界(ＳＢ)により区画されたシーン(Ｓｃｅｎｅ＃１５,Ｓｃｅｎｅ＃１６,…)を代表する代表ピクチャ(Ｐ５５,Ｐ７２,…)を選択し、各シーンの代表ピクチャに基づいて各シーンのサムネイル画像データを生成し、各シーンのサムネイル画像データに基づいて各シーンのサムネイル(ＴＮ１５,ＴＮ１６,…)を表示装置に表示させ、表示されたサムネイルのうちから任意に選択されたサムネイルに対応するシーンを再生し、各シーンの代表ピクチャの選択に際し、シーン境界(ＳＢ)のピクチャ(Ｐ５２,Ｐ６７,…)よりも時間的に後のピクチャから前記代表ピクチャ(Ｐ５５,Ｐ７２,…)は選択される。

Description

映像音声再生装置、映像音声記録再生装置、映像音声再生方法、および映像音声記録再生方法

　本発明は、映像情報の各シーンに対応するサムネイルを表示装置に表示させ、表示されたサムネイルを見ながら再生するシーンのサムネイルを選択操作することによって、各シーンの再生を開始させることができる映像音声再生装置、映像音声記録再生装置、映像音声再生方法、および映像音声記録再生方法に関するものである。

　従来の映像記録再生装置においては、映像の再生開始位置から再生を行う場合、再生開始時点をタイトル名もしくはチャプター番号によって選択していたため、ユーザーは、再生を行う前の段階で、どのような内容の映像が再生されるかを知ることができなかった。

　このような問題を解消するため、録画時における映像符号化処理前の画像データを用いて、サムネイル画像データを生成し、再生タイトルを選択するグラフィックス画面上に、生成したサムネイル画像データに基づくサムネイルを表示することによって、再生内容をユーザーに知らせる方法がある（例えば、特許文献１参照）。さらに、タイトル、もしくはタイトル内の特定区間（チャプターやシーン）の内容を示すサムネイル画像データの画像をより適切な画像内容とするために、サムネイル画像データの元となる映像の位置を決定する方法も考案されている（例えば、特許文献２及び３参照）。一方、特定のシーンの内容を、連続する静止画として表現するために、シーン内のシーンチェンジの発生間隔を利用し、サムネイル画像を決定する方法もある（例えば、特許文献４参照）。

特開２００６－１４８７３１号公報（第１４頁、図９）特開２００６－２２９８２１号公報（第４頁、図１）特開２００３－２７４３６１号公報（第４頁、図３）特開２００１－２９８７１１号公報（第３頁、図２５）

　しかし、従来の映像記録再生装置においては、シーンの開始および終了位置をチャプターもしくはエントリーで区切り、再生開始から固定時間、もしくはエントリー位置からの固定時間経過後の画像をサムネイルとして利用していた。そのため、選択したサムネイル画像の内容と、再生される映像内容に乖離があり、ユーザーが違和感を覚えることがあった。また、動きの変化が激しい場面のピクチャがサムネイルとして選択された場合、サムネイル画像が何を表示しているのか分からないという不具合もあった。

　本発明は、上記の課題を解決するためになされたものであり、記録するまたは記録された映像音声コンテンツをシーンに区切るとともに、各シーンについて、適切な画像をサムネイルとして表示装置に表示させることができる映像音声再生装置、映像音声記録再生装置、映像音声再生方法、および映像音声記録再生方法を提供することを目的とする。

　本発明に係る映像音声再生装置は、映像情報から、複数のピクチャによって構成されるシーンの境界であるシーン境界を抽出するシーン境界抽出手段と、抽出された前記シーン境界にアクセスするためのエントリー情報を生成するエントリー生成手段と、抽出された前記シーン境界により分割されたシーンを代表する代表ピクチャを選択し、該代表ピクチャに基づいてサムネイル画像データを生成するサムネイル生成手段と、生成された前記サムネイル画像データに基づくサムネイルを表示装置に表示させるサムネイル表示制御手段と、表示された前記サムネイルのうちから任意のサムネイルを選択するためのサムネイル選択手段と、選択された前記サムネイルに対応するシーンを前記エントリー情報に基づく位置から再生する手段と、を備え、前記サムネイル生成手段は、各シーンの前記代表ピクチャの選択に際し、前記シーン境界のピクチャよりも後のピクチャを前記代表ピクチャとして選択するものである。

　本発明によれば、シーン境界より後のピクチャから代表ピクチャを選択し、各シーンの代表ピクチャに基づいて各シーンのサムネイル画像データを生成するので、映像音声コンテンツをシーンに区切るとともに、各シーンについて、適切な画像をサムネイルとして表示させることができる。

実施の形態１に係る映像音声記録再生装置の概略的な構成を示すブロック図である。再生シーンを選択するためのサムネイル選択操作における表示画面の一例を示す図である。シーンとピクチャとサムネイル画像との関係を示す図である。シーン境界とサムネイル画像の元になる代表ピクチャとの関係の一例を示す図である。シーン境界とサムネイル画像の元になる代表ピクチャとの関係の他の例を示す図である。シーン境界とサムネイル画像の元になる代表ピクチャとの関係のさらに他の例を示す図である。エントリー情報の生成動作の一例を示すフローチャートである。サムネイル画像の生成動作の一例を示すフローチャートである。サムネイル画像の生成動作の他の例を示すフローチャートである。サムネイルをモニターに表示させ、表示されたサムネイルを見ながら再生シーンのサムネイルを選択する動作を示すフローチャートである。実施の形態２に係る映像音声記録再生装置の概略的な構成を示すブロック図である。（ａ）～（ｃ）は、音声の周波数解析によりシーン境界を検出する方法を示す説明図である。実施の形態３に係る映像音声記録再生装置の概略的な構成を示すブロック図である。

実施の形態１．
　図１は、本発明の実施の形態１に係る映像音声記録再生装置１００の概略的な構成を示すブロック図である。映像音声記録再生装置１００は、実施の形態１に係る映像音声記録再生方法を実施することができる装置である。映像音声記録再生装置１００は、外部機器とのインターフェースとして、デジタルチューナー３、アナログチューナー４、外部入力端子５、モニター出力端子３１、および、ネットワーク端子３０を有する。デジタルチューナー３およびアナログチューナー４は、アンテナ９１に接続され、デジタルおよびアナログ放送を受信することができる。外部入力端子５は、主に、アナログ入力と呼ばれるコンポジット入力、Ｓビデオ入力、ＬＲ音声入力等に対応する。モニター出力端子３１にはモニター９３が接続され、映像音声記録再生装置１００が生成する映像および音声信号を出力することが可能である。また、映像音声記録再生装置１００は、装置を遠隔操作するためのリモコン９４からの信号を受信するリモコン受信部６を備え、赤外線等で受信されたリモコンコードはシステム制御部２に送信される。

　システム制御部２は、ユーザーの要求に基づくリモコン９４からの制御信号に応じて映像音声記録再生装置１００を制御する。システム制御部２は、ユーザーから録画の要求がなされると、録画アプリ（録画用アプリケーション実行部）９を起動し、録画実行を指示する。録画アプリ９は、録画制御部１０を制御し、録画の開始、終了および録画中の記録動作を管理する。また、ユーザーから再生の要求がなされると、システム制御部２は、再生アプリ（再生用アプリケーション実行部）１１を起動し、再生実行を指示する。再生アプリ１１は、再生制御部１４を制御し、指定されたコンテンツの再生を開始する。

　図１を参照し、映像音声記録再生装置１００における、デジタル放送の録画機能について説明する。デジタルチューナー３で受信されたデジタル放送は、フルＴＳ（Ｔｒａｎｓｐｏｒｔ　Ｓｔｒｅａｍ）として入力ストリーム制御部８に送られる。入力ストリーム制御部８は、ＡＶストリーム記録部１７に映像音声データであるＡＶストリームを安定的に記録するために、データを一時的に蓄えて、ＡＶストリーム記録部１７に定常的に書き込む処理を行う。また、入力ストリーム制御部８は、フルＴＳから記録する必要のないパケット等を省いたパーシャルＴＳにも対応する。また、入力ストリーム制御部８は、ＴＳのＰＩＤ（パケット識別子）やセクション情報の検出処理を行うほか、記録されるビデオストリーム中のＧＯＰ（Ｇｒｏｕｐ　Ｏｆ　Ｐｉｃｔｕｒｅ）の開始位置の検出等も行う。ＡＶストリーム記録部１７は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｃ　Ｄｒｉｖｅ）等により構成されるが、光ディスク記録装置などのようなＨＤＤ以外の記録装置であってもよい。

　ＨＤＤにＡＶストリームを記録する場合、再生時におけるシーン検索性の向上、特殊再生時における任意時間へのランダムシークを実現するため、ＨＤＤに記録されるＡＶストリームのアドレス情報と時間情報とを対応付けたアドレスマップが必要となる。録画制御部１０は、録画時に、入力ストリーム制御部８により検出されるＧＯＰ開始位置情報に基づいてアドレスマップを生成し、このアドレスマップをＡＶ管理情報記録部１８に記録する。ＡＶ管理情報記録部１８は、前述のアドレスマップを記録するほか、記録された番組のタイトル、記録開始時間、記録終了時間、放送サービス名、チャンネル番号、映像コーデック情報、音声コーデック情報、番組詳細情報等が含まれる再生制御情報を記録する。再生制御部１４は、必要に応じてＡＶ管理情報記録部１８に記録された情報を読み出す。なお、ＡＶストリーム記録部１７、ＡＶ管理情報記録部１８、及び後述のメタデータ記録部１９は、図１に示されるように、別個の記録装置であってもよいが、同一の記録装置の異なる記録領域であってもよい。

　次に、アナログ放送、および外部から入力された映像信号の録画機能について説明する。アンテナ９１で受信されたアナログ放送から、アナログチューナー４によって、ユーザーが指定されたチャンネルの信号のみが取り出される。アナログチューナー４により取り出された信号は、映像信号化され、図示しないＡＤ／ＤＡコンバーター（Ａｎａｌｏｇ　ｔｏ　Ｄｉｇｉｔａｌ／Ｄｉｇｉｔａｌ　ｔｏ　Ａｎａｌｏｇ　Ｃｏｎｖｅｒｔｅｒ）によってデジタル信号化された後、ＡＶエンコーダ７に入力される。ＡＶエンコーダ７は、映像信号をＭＰＥＧ－２ビデオに符号化するとともに、音声信号をＡＡＣ（Ａｄｖａｎｃｅｄ　Ａｕｄｉｏ　Ｃｏｄｉｎｇ）により符号化し、符号化した映像および音声信号をＭＰＥＧ－２　ＴＳに多重し、ＡＶストリームを生成する。ＡＶストリームは、入力ストリーム制御部８に送られ、ＡＶストリーム記録部１７に記録される。外部入力端子５から入力された映像音声信号についても同様に、図示しないＡＤ／ＤＡコンバーターによってＡＤ／ＤＡ変換された後に、ＡＶエンコーダ７によってＡＶストリームに変換され、ＡＶストリームは、入力ストリーム制御部８に送られ、ＡＶストリーム記録部１７に記録される。

　図１を参照し、映像音声記録再生装置１００における再生機能について説明する。ユーザーが、リモコン９４により録画タイトル一覧を表示させる操作、例えば、リモコン９４に設けられた「録画タイトル一覧」ボタンを押下すると、録画されたタイトル（映像や音声等のデジタルコンテンツ）の全ての番組名（タイトル名）または一部の番組名がモニター９３の画面上に表示される。ユーザーはリモコン９４の操作、例えば、リモコン９４に設けられた上下左右のカーソルキー（例えば、後述する図２のカーソルキー９７Ｕ，９７Ｄ，９７Ｌ，９７Ｒ）の操作によって希望する番組名にカーソルを移動させ、「決定」キー（例えば、後述する図２の「決定」キー９６）を押下することで再生するタイトルを選択する。番組名の選択操作に応じたコードは、リモコン９４から赤外線信号としてリモコン受信部６に送信される。リモコン受信部６は、受信したコードをソフトウェアコードに変換した後、システム制御部２に送る。システム制御部２は、グラフィックス画面を更新する。また、再生待機状態である場合（または、録画状態でない場合）、これらのコードは再生アプリ１１に送られ、対応する再生動作機能が呼び出され、再生状態が変更される。以下、具体的な再生動作について説明する。

　ユーザーが再生する番組名を指定する操作を行うと、再生アプリ１１は指定されたタイトルを再生するように再生制御部１４に指示を行う。再生制御部１４は、そのタイトルに関する再生制御情報をＡＶ管理情報記録部１８から読み出し、図示しないＲＡＭ（例えば、再生制御部１４の一部として、または、再生制御部１４の外部に設けられる。）に入力する。再生制御部１４は、再生制御情報のうちアドレスマップを用いて、次に再生すべきストリームの再生開始時点に対応するアドレス情報を読み出し、そのアドレスのＡＶストリームをＡＶストリーム記録部１７から読み出し、出力ストリーム制御部１６に送る。ＡＶデコーダ１５は、出力ストリーム制御部１６から送り込まれたＡＶストリームを、転送された順にデコードし、モニター出力端子３１を介してモニター９３に出力する。出力ストリーム制御部１６は、ＡＶデコーダ１５のアンダーフローおよびオーバーフローに起因する映像及び音声の中断を発生させないように、ＡＶストリーム記録部１７に記録されたＡＶストリームを読み出してＡＶデコーダ１５に転送する。さらに、出力ストリーム制御部１６は、ＡＶデコーダ１５のバッファの状態に応じて、一時的に保存されたＡＶストリームを、Ｈ／ＷのアシストであるＤＭＡ（Ｄｉｒｅｃｔ　Ｍｅｍｏｒｙ　Ａｃｃｅｓｓ）転送機能を利用して、ＡＶデコーダ１５に転送する。

　次に、映像音声記録再生装置１００におけるシーン検出部５０の動作について説明する。シーン検出部５０は、録画動作時に入力ストリーム制御部８に一時的に記録されるＡＶストリームの映像および／または音声を解析して、シーン検出を行う。録画時に、入力ストリーム制御部８においてＧＯＰの先頭が検出されると、解析用デコーダ２１は、ＧＯＰの先頭からキーフレーム（Ｉピクチャ）を抽出し、Ｉピクチャのデコードを行う。デコードされた輝度信号（Ｙ）、および色差信号（Ｕ，Ｖ）のデータは、フレームバッファ２２に入力される。フレームバッファ２２は、デコードされたＹＵＶデータの少なくとも２つの画像（２フレーム分の画像データ）を保持できるサイズを有する。シーン境界抽出部２３は、フレームバッファ２２に入力された２つの画像の画像データの差を求め、画像データの差が予め設定した閾値以上であれば、シーンチェンジＳＣが発生したものと判断し、これら２つの画像の間に、シーン境界ＳＢが存在すると判定する。

　２つの画像の差を求める手法としては、比較する各画像のヒストグラムを求め、一方の画像のヒストグラムの要素と他方の画像のヒストグラムの要素との差分の絶対値である差分絶対値を求め、ヒストグラムの各要素の差分絶対値を累積し、この累積値を２つの画像の差とする方法が考えられる。また、２つの画像の差を求める手法は、ＡＶストリーム中の符号化パラメータである動きベクトル等を検出し、この動きベクトルに基づく値を２つの画像の差とする方法であってもよい。また、２つの画像の差を求める手法は、顔検出および顔認識等によって検出された顔データを用いて、登場人物の構成の変化を数値化し、得られた数値を２つの画像の差とする方法であってもよい。

　シーン境界抽出部２３によってシーン境界ＳＢとして判定された位置は、シーン再生開始位置とされる。エントリー生成部２４は、シーン再生開始位置のアドレス情報および時間情報からなる再生エントリー情報を作成する。このようなシーンは、一般的にはチャプターと呼ばれる。また、エントリー位置もしくはその情報は、チャプターマークと呼ばれるが、単にチャプターと呼ばれることもある。このように生成されたエントリー情報は、メタデータ記録部１９に記録される。

　シーン境界抽出部２３によりシーン境界ＳＢが検出されると、サムネイル生成部２５は、シーンを構成するピクチャの画像情報をフレームバッファ２２から抜き出し、この画像情報に基づいてビットマップのフォーマットのサムネイル画像データ（単に「サムネイル画像」とも言う）ＴＮＩを生成する。生成されたサムネイル画像ＴＮＩは、サムネイル情報としてメタデータ記録部１９に記録される（サムネイルの選択方法の詳細については後述する）。なお、サムネイル画像ＴＮＩのフォーマットは、ビットマップに代えて、ＴＩＦＦ、ＪＰＥＧ等の他のフォーマットであってもよい。また、サムネイル画像ＴＮＩを記録する方法に代えて、サムネイル画像ＴＮＩが存在するＡＶストリームの時間情報および／またはアドレス情報を、サムネイル情報としてメタデータ記録部１９に記録する方法を採用してもよい。この場合、サムネイルを表示するために使用される実データ（サムネイル画像ＴＮＩ）の生成時間を必要とせず、システム負荷を低減できるほか、メタデータ記録部１９の領域を小さくするとともに、データ転送にかかる時間およびシステム負荷を低減できるというメリットがある。

　次に、映像音声記録再生装置１００において、エントリー情報とサムネイル情報を用いて任意のシーンを再生する方法について説明する。図２は、モニター９３にＡＶストリームの再生映像（背景部分）とグラフィックス画像（５個のサムネイル及び２つの矢印部分）が重畳されて表示されている状態を示している。サムネイルＴＮ１５，ＴＮ１６，ＴＮ１７，ＴＮ１８，ＴＮ１９は、メタデータ記録部１９に保存されているサムネイル情報を、メタデータ制御部１２により読み出し、サムネイル表示制御部１３において画像化された後、グラフィックス重畳部２０で再生映像に重畳され、モニター９３に表示される。

　ユーザーが、例えば、リモコン９４を用いて、所望のタイトルに対応するサムネイルを選択する操作を行うと、再生アプリ１１は、再生制御部１４に、選択されたタイトルの再生を指示する。再生制御部１４からの制御信号に応じて、出力ストリーム制御部１６は、ＡＶストリーム記録部１７からＡＶストリームを読み出す。出力ストリーム制御部１６に読み出されたＡＶストリームは、ＡＶデコーダ１５によってデコードされ、デコードされたＡＶストリームに基づく画像がモニター９３に表示される。

　ユーザーが、再生シーンを選択する操作、例えば、リモコンに設けられたシーンセレクトのための専用ボタン（シーンセレクトボタン）を押下すると、再生アプリ１１は、メタデータ制御部１２に対して、再生すべきタイトルと、再生映像の経過時間情報を伝える。メタデータ制御部１２は、例えば、経過時間のシーンに対応するサムネイルと、その前後２枚ずつのサムネイルとから成る、合計５枚のサムネイルをメタデータ制御部１２から読み出す。サムネイル選択枠生成部２８は、表示された複数枚のサムネイルのうちの１つのサムネイルを選択していることを示す選択枠データを生成し、これをサムネイル表示制御部１３に出力する。サムネイル表示制御部１３は、サムネイルのメタデータを画像として展開し、選択枠４１とともにグラフィックス重畳部２０に出力する。

　上記処理により、図２に示すように、現在のシーン（Ｓｃｅｎｅ＃１７）に対応するサムネイルＴＮ１７と、その前後２枚ずつのサムネイルＴＮ１５，ＴＮ１６，ＴＮ１８，ＴＮ１９とから成る、合計５枚のサムネイルＴＮ１５，ＴＮ１６，ＴＮ１７，ＴＮ１８，ＴＮ１９が表示される。サムネイルが表示された初期状態においては、選択枠４１は、現在再生中のシーンに合わせて表示される。ここでは、現在表示されているシーンはＳｃｅｎｅ＃１７であるため、Ｓｃｅｎｅ＃１７に対応するサムネイルＴＮ１７を囲うように選択枠４１が表示される。ユーザーは、例えば、リモコン９４の右もしくは左のカーソルキー９７Ｒ，９７Ｌを使って選択枠４１を左右に移動させ、表示された複数枚のサムネイルの中から、所望のシーンに対応するサムネイルを選択することができる。サムネイル選択枠生成部２８は、このリモコン９４の操作に連動して左右に移動する選択枠４１を生成する。さらに、選択枠４１が画面の右もしくは左端に到達した状態でさらに右もしくは左のカーソルキー９７Ｒ，９７Ｌを押下すると、表示されている複数枚のサムネイル全体が、押下された右もしくは左のカーソルキー９７Ｒ，９７Ｌと反対の方向に移動することによって、現在表示されていないシーンのサムネイルが表示される。ユーザーが、所望のサムネイルにカーソルを合わせ、「決定」キー９６を押下すると、再生アプリ１１は、再生制御部１４に対して、再生しているコンテンツの再生を一時停止させる。

　さらに、再生アプリ１１は、再生制御部１４に対して、ユーザーが選択したシーンの開始位置を示すエントリー情報に基づいて、シーンのエントリー情報によって指定される時間から再生を再開するよう指示を行う。再生制御部１４は、ＡＶ管理情報記録部１８に記録されているアドレスマップ情報を用いて、エントリーの時間情報をＡＶストリームのアドレス情報に変換し、出力ストリーム制御部１６に送る。出力ストリーム制御部１６は、再生制御部１４からのアドレス情報に基づいて、選択されたシーンのＡＶストリームのデータをＡＶストリーム記録部１７から読み出し、ＡＶデコーダ１５に出力する。ＡＶデコーダ１５は、出力ストリーム制御部１６からのＡＶストリームのデータをデコードする。これにより、ユーザーが選択したサムネイルに対応するシーンの再生が可能となる。

　図３は、シーンＳＣＥとピクチャＰＩＣとサムネイルとの関係を示す図である。
図３において、ｔは時間軸を示し、複数の四角形の時間軸方向の配列で示されるＰＩＣは複数のピクチャＰ５２～Ｐ１１８を示し、ＳＣＥは複数のピクチャから構成されるシーンを示す。図３には、複数のピクチャＰ５２～Ｐ１１８を例示し、複数のシーンＳＣＥとして、Ｓｃｅｎｅ＃１５，Ｓｃｅｎｅ＃１６，Ｓｃｅｎｅ＃１７，Ｓｃｅｎｅ＃１８，Ｓｃｅｎｅ＃１９を例示する。また、ピクチャＰ５２，Ｐ６７，Ｐ８３，Ｐ９４，Ｐ１０３は、Ｓｃｅｎｅ＃１５，Ｓｃｅｎｅ＃１６，Ｓｃｅｎｅ＃１７，Ｓｃｅｎｅ＃１８，Ｓｃｅｎｅ＃１９の先頭のピクチャ（シーン境界ＳＢのピクチャ）である。また、ピクチャＰ５５，Ｐ７２，Ｐ８６，Ｐ９８，Ｐ１０７は、Ｓｃｅｎｅ＃１５，Ｓｃｅｎｅ＃１６，Ｓｃｅｎｅ＃１７，Ｓｃｅｎｅ＃１８，Ｓｃｅｎｅ＃１９の代表ピクチャＲＰであり、サムネイル画像ＴＮＩは代表ピクチャＲＰに基づいて生成される。ここでは、映像の変化点であるシーンチェンジＳＣを、シーンＳＣＥの境界、すなわち、シーン境界ＳＢとしている。

　なお、シーン境界ＳＢは、シーンチェンジＳＣに限らず、例えば、（ａ）音声が発生しない無音区間、（ｂ）コーデックやフォーマットの変化点、（ｃ）周波数の変化位置、（ｄ）チャンネル数の変化位置、（ｅ）量子化数の変化位置、又は、（ｆ）これらの中のいずれかの組み合わせに基づいて検出してもよい。また、シーン境界ＳＢを、５分、１０分、１５分等の所定時間間隔、あるいはユーザー指定による時間間隔で設けて、各シーンＳＣＥを構成してもよい。また、シーン境界ＳＢを、外部から与えられた特定のイベントに対応して設けて、シーンＳＣＥを構成してもよい。このように、シーン境界ＳＢで分割された各シーンＳＣＥにおいて、シーンＳＣＥの内容を表示するサムネイル画像ＴＮＩが生成される。

　本実施の形態は、図３に示すように、シーン先頭のピクチャ（例えば、Ｐ５２，Ｐ６７，Ｐ８３，Ｐ９４，Ｐ１０３）ではなく、シーンの先頭ピクチャより時間的に後の代表ピクチャＲＰ（例えば、Ｐ５５，Ｐ７２，Ｐ８６，Ｐ９８，Ｐ１０７）に基づいてサムネイル（例えば、ＴＮ１５，ＴＮ１６，ＴＮ１７，ＴＮ１８，ＴＮ１９）を表示させるためのサムネイル画像ＴＮＩを生成することを特徴とする。映像が継続して変化しているような画像は、その位置をシーン境界ＳＢであるエントリーとして採用することは適切であるが、その画像をシーンＳＣＥの代表画であるサムネイル画像ＴＮＩとして採用することは適切でない。一般的に、継続的に変化する映像から一つの画像を抜き出した場合、その画像だけでは何が表示されているのか分からないことが多い。このため、ユーザーが再生するシーンＳＣＥを選択するために使用されるサムネイル画像ＴＮＩとして、このような動いている映像の一部を用いることは適切ではなく、静止画もしくは静止画に近い画像を採用することが適切であると考えられる。シーンの開始位置のピクチャではなく、シーンの開始位置からある時間（例えば、ｔｄ１５，ｔｄ１６，ｔｄ１７，ｔｄ１８，ｔｄ１９）が経過した後のピクチャをサムネイル画像ＴＮＩの元になる代表ピクチャＲＰとすることにより、こうした不具合を解消することができる。

　シーン境界ＳＢから時間的に遅れた代表ピクチャＲＰに基づいてサムネイル画像を生成する方法としては、シーンチェンジＳＣを検出した後、一定時間、例えば、３秒後の位置のピクチャを代表ピクチャＲＰとし、これに基づいてサムネイル画像ＴＮＩを生成する方法がある（図４）。また、他の方法としては、シーンチェンジＳＣ検出後、シーンの変化量が閾値以下になった最初の位置のピクチャを代表ピクチャＲＰとし、これに基づいてサムネイル画像ＴＮＩを生成する方法がある（図５）。さらに他の方法としては、シーンチェンジＳＣ検出後、シーンの変化量が閾値以下になり、かつ閾値以下の状態が一定時間経過（例えば、３秒）した位置のピクチャを代表ピクチャＲＰとし、これに基づいてサムネイル画像ＴＮＩを生成する方法がある（図６）。また、さらに他の方法としては、映像データが動きベクトル情報を有するデータである場合、動きベクトルの量がある閾値以下になるピクチャを代表ピクチャＲＰとし、これに基づいてサムネイル画像ＴＮＩを生成する方法がある。このように、シーン境界ＳＢからある時間が経過した後のピクチャに基づいてサムネイル画像ＴＮＩを生成することにより、各シーンの内容に合致した画像をシーン選択のための画像であるサムネイルとして、ユーザーに提供することが可能となる。

　図４は、シーン境界とサムネイル画像ＴＮＩの元になるピクチャＰＩＣとの関係の一例を示す図である。図４において、横軸はピクチャ番号（ＰＩＣ　Ｎｏ．）、縦軸は隣接する２つのピクチャの画像差分値ＤＩＦを示す。ここでは、説明を単純化するため、１秒間に１枚のピクチャを解析対象とする。画像差分値ＤＩＦは、例えば、２つのピクチャの輝度信号（Ｙ）、色差信号（Ｕ，Ｖ）のそれぞれのヒストグラムを生成し、各要素の差分絶対値の累積和を全要素数で除算した値としてもよい。この場合、画像差分値ＤＩＦは、最小値０から最大値１までの範囲内の間の値をとることになる。そして、シーン境界抽出部２３は、画像差分値ＤＩＦが、予め設定しているシーン変化判定閾値ＴＨ１を越えた場合、２つのピクチャ間にシーンチェンジＳＣが発生したと判定する。

　図４では、ピクチャ番号Ｐ５２において、画像差分値ＤＩＦがシーン変化判定閾値ＴＨ１を越えているため、シーン境界抽出部２３は、ピクチャＰ５１とピクチャＰ５２の間でシーンチェンジＳＣが発生していると判定し、ピクチャＰ５２をシーン境界ＳＢのピクチャとする。よって、シーン境界抽出部２３は、ピクチャＰ５２を、シーン開始位置、つまりエントリーとし、メタデータ記録部１９にエントリー情報を記録する。先述の通り、サムネイル生成部２５は、ピクチャＰ５２の画像を、当該シーンに対応するサムネイル画像ＴＮＩの元とするピクチャとしては採用せず、ピクチャ５２から、さらに所定時間ｔ１経過後（例えば、３秒経過後）のピクチャＰ５５をサムネイル画像ＴＮＩの元とする代表ピクチャＲＰとして採用する。ピクチャＰ５５のデータは、入力ストリーム制御部８により検出され、解析用デコーダ２１でデコードされた後、フレームバッファ２２に入力される。サムネイル生成部２５は、フレームバッファ２２に入力されたピクチャＰ５５のデータに基づいてサムネイル画像ＴＮＩを生成し、これをメタデータ記録部１９に記録する。

　このようにシーン境界ＳＢ、すなわちエントリー位置から所定時間ｔ１経過したピクチャに基づいてサムネイル画像ＴＮＩを生成することによって、例えば、カメラのパーン映像、画像エフェクトによる画像変化中の画像、一瞬割り込まれた画像等（シーン境界ＳＢの直後に現われることが多い画像）のように、サムネイル画像として不適切な画像が、サムネイル画像ＴＮＩの元となる代表ピクチャＲＰとして選択されることを防ぐことができる。

　図５は、シーン境界とサムネイル画像ＴＮＩの元になるピクチャとの関係の他の例を示す図である。図５に示す方法では、シーン変化判定閾値ＴＨ１に加えて、シーン変化判定閾値ＴＨ１よりも小さい値のサムネイル用判定閾値ＴＨ２を用いてサムネイル画像ＴＮＩの元になるピクチャを選択する。サムネイル用判定閾値ＴＨ２は、サムネイル画像ＴＮＩの元になるピクチャを選択するための閾値であり、シーンチェンジＳＣ発生後、画像差分値ＤＩＦがサムネイル用判定閾値ＴＨ２以下となった場合に、サムネイル画像ＴＮＩの元になるピクチャを選択する。

　図５に示した方法では、シーン境界抽出部２３は、映像中の時間的に前後の２枚の画像間で画像差分値ＤＩＦを求め、算出された画像差分値ＤＩＦを予め設定されているシーン変化判定閾値ＴＨ１と比較し、シーン変化判定閾値ＴＨ１を越えていれば、シーンチェンジＳＣが発生したとみなす。そして、エントリー生成部２４は、このシーンチェンジＳＣが発生したとみなした位置をエントリー位置と判定して、メタデータ記録部１９にエントリー位置を示すエントリー情報を記録する。この点は、図４に示した方法における処理と同じである。また、サムネイル生成部２５は、シーンチェンジＳＣが発生した位置のピクチャ（ここでは、シーン境界ＳＢのピクチャ）に基づいてサムネイル画像ＴＮＩを生成しない点も、図４の例と同様である。

　次に、前記シーンチェンジＳＣの発生以降、継続して画像間の画像差分値ＤＩＦを求め、算出した画像差分値ＤＩＦとサムネイル用判定閾値ＴＨ２を比較し、シーンチェンジＳＣ発生位置以降（ここでは、シーン境界ＳＢよりも後に）、始めて画像差分値ＤＩＦがサムネイル用判定閾値ＴＨ２を下回った位置のピクチャを、サムネイル画像ＴＮＩの生成の元とする代表ピクチャＲＰとして選択する。つまり、図５に示す方法は、映像がシーンチェンジＳＣのように大きく変化した後の、映像変化があまり起こらない（映像変化が所定の閾値ＴＨ２より小さい）最初の位置のピクチャに基づいてサムネイル画像ＴＮＩを生成するものである。ここで、シーンチェンジＳＣ発生位置以降において映像変化の少ない画像は複数存在するが、その中でも最初の位置をサムネイル画像ＴＮＩとしているのは、一般に、時間的に近い画像ほどより内容も近いという傾向があるからである。

　図５においては、サムネイル画像ＴＮＩとしてシーンチェンジＳＣ発生以降で最初にサムネイル用判定閾値ＴＨ２を下回ったピクチャに基づいてサムネイル画像ＴＮＩを生成する例を示しているが、サムネイル用判定閾値ＴＨ２を下回ったピクチャから２番目以降のピクチャに基づいてサムネイル画像ＴＮＩを生成してもよい。

　さらには、映像もしくは音声情報に特徴的な情報がある場合等の条件を組合せてサムネイル画像ＴＮＩとしてふさわしいピクチャを選択し、この選択されたピクチャに基づいてサムネイル画像ＴＮＩを生成してもよい。特徴的な情報として、例えば、顔検出、輝度検出、形状検出、無音検出、人間の話し声の検出、楽曲検出、または、これらのいずれかの組み合わせ等がある。

　図６は、シーン境界とサムネイル画像ＴＮＩの元になるピクチャとの関係のさらに他の例を示す図である。図６に示す方法では、シーン変化判定閾値ＴＨ１に加えて、シーン変化判定閾値ＴＨ１よりも小さい値のサムネイル用判定閾値ＴＨ３を用いてサムネイル画像ＴＮＩの元になるピクチャを選択する。図６に示す方法では、サムネイル生成部２５は、画像差分値ＤＩＦがサムネイル用判定閾値ＴＨ３を下回ってから所定時間ｔ２経過後（ここでは３秒経過後）のピクチャＰ５８をサムネイル画像ＴＮＩの元になるピクチャとして選択する。これにより、サムネイル生成部２５は、同じ内容の画像が継続して表示される期間（この例ではピクチャＰ５５からピクチャＰ５８まで）における画像に基づいてサムネイル画像ＴＮＩを生成することができる。そのため、サムネイル表示制御部１３は、モニター９３に、内容を認識しやすい画像をサムネイル画像ＴＮＩとして表示させることができるとともに、モニター９３を見たユーザーは、再生したいシーンの映像と再生選択用の画面に表示されているサムネイルとをより容易に関連付けすることができる。

　図６に示す例では、映像のシーン変化値がサムネイル用判定閾値ＴＨ３を下回ってから所定時間ｔ２経過後のピクチャに基づいてサムネイル画像ＴＮＩを生成する方法を採用しているが、所定時間ｔ２経過後に、所定時間経過時点よりも以前のピクチャ（ピクチャＰ５６やピクチャＰ５７）に基づいてサムネイル画像ＴＮＩを生成する方法を採用してもよい。

　以下、フローチャートを用いて本実施の形態に係る映像音声記録再生装置１００の動作を説明する。
　図７は、エントリー情報の生成動作の一例を示すフローチャートである。録画を開始すると、入力ストリーム制御部８にＡＶストリームが順次入力され、エントリー情報の生成動作が開始する（Ｓ１０１）。入力ストリーム制御部８は、ＡＶストリームからＧＯＰヘッダの検出を行い、キーフレームと呼ばれるＩピクチャのみを解析し、抽出する（Ｓ１０２）。解析用デコーダ２１は、抽出されたキーフレームのピクチャのデータをデコードする（Ｓ１０３）。シーン境界抽出部２３は、デコードされたデータから画像差分値ＤＩＦを算出し（Ｓ１０４）、シーンチェンジの有無を判定する（Ｓ１０５）。シーンチェンジＳＣが発生していないと判定された場合（Ｓ１０５においてＮＯ）、次のピクチャについてステップＳ１０２～Ｓ１０４の処理が行われる。

　一方、ステップＳ１０５において、シーンチェンジＳＣが検出されると（Ｓ１０５においてＹＥＳ）、シーン境界抽出部２３は、シーンチェンジＳＣが発生した箇所をシーン境界ＳＢと判定し、エントリー生成部２４は、シーン境界ＳＢの位置のエントリー情報を生成する（Ｓ１０６）。生成されたエントリー情報は、メタデータ記録部１９に記録される（Ｓ１０７）。上記動作は録画が完了し、入力ストリーム制御部８が録画用ＡＶストリーム（録画ストリーム）の入力の終了を検知するまで行われる。入力ストリーム制御部８において、ＡＶストリーム中からストリームの終端を示すフラグが検出された場合（Ｓ１０８においてＹＥＳ）、録画処理が終了する（Ｓ１０９）。

　図８は、サムネイル画像ＴＮＩの生成動作の一例を示すフローチャートである。図８のフローチャートは、図４に示す、シーンチェンジＳＣ発生から所定時間経過後（例えば、３秒経過後）のピクチャに基づいてサムネイル画像ＴＮＩを生成する場合の動作を示している。なお、図８のステップＳ２０２，Ｓ２０３，Ｓ２１０，Ｓ２１１，Ｓ２１２，Ｓ２１３，Ｓ２１５は、図７のステップＳ１０２，Ｓ１０３，Ｓ１０４，Ｓ１０５，Ｓ１０６，Ｓ１０７，Ｓ１０８にそれぞれ対応する。

　図８に示されるように、入力ストリーム制御部８は、ＡＶストリームの入力が開始されると、サムネイル画像ＴＮＩの生成動作を開始する（Ｓ２０１）。入力ストリーム制御部８は、入力されたＡＶストリームからキーフレームであるＩピクチャを抽出し、解析用デコーダ２１に送り（Ｓ２０２）、解析用デコーダ２１は、キーフレームのデコード処理を行う（Ｓ２０３）。デコード処理の後、サムネイル生成部２５は、サムネイル生成タイマー（サムネイル生成カウンタ）２５ａがセットされているか否かを判定する（Ｓ２０４）。サムネイル生成タイマー２５ａは、シーンチェンジＳＣ検出後（ここでは、シーン境界ＳＢ検出後）のステップＳ２１４においてセットされ（タイマーが動作状態となり）、以降、キーフレームがデコードされるごとにサムネイル生成タイマー２５ａのカウントは減算される（Ｓ２０５）。サムネイル生成タイマー２５ａは、シーンチェンジＳＣ検出後、サムネイル画像ＴＮＩの元になるピクチャを選択するまでの所定時間（例えば、３秒間）をカウントするためのものである。所定時間が経過してサムネイル生成タイマー２５ａがタイムアウトすると（Ｓ２０６においてＹＥＳ）、サムネイル生成部２５においてサムネイル画像ＴＮＩが生成される（Ｓ２０７）。サムネイル画像ＴＮＩが生成されると、サムネイル画像ＴＮＩを含むサムネイル情報がメタデータ記録部１９に記録される（Ｓ２０８）。サムネイル画像ＴＮＩを生成するまでの所定時間が経過していない場合（Ｓ２０６においてＮＯ）、あるいはサムネイル画像ＴＮＩの生成が完了してサムネイル生成タイマー２５ａをセットした場合（Ｓ２０９）、シーン境界抽出部２３は、ステップＳ２０４においてデコードされた２つのキーフレームの画像差分値ＤＩＦを算出し（Ｓ２１０）、画像差分値ＤＩＦに基づいてシーンチェンジＳＣの有無の判定処理を行う（Ｓ２１１）。シーン境界抽出部２３がシーンチェンジＳＣを検出した場合、エントリー生成部２４は、シーン境界ＳＢを示すエントリー情報を生成し（Ｓ２１２）、このエントリー情報をメタデータ記録部１９に記録する（Ｓ２１３）。エントリー情報が記録されると、サムネイル生成タイマー２５ａがセットされ（Ｓ２１４）、入力ストリーム制御部８は、続く録画ストリームについてキーフレーム抽出処理を開始する（Ｓ２０２）。以上の処理が、録画ストリームの入力が終了するまで行われる（Ｓ２１５）。

　ここでは、サムネイル画像ＴＮＩの生成動作において、ピクチャの処理を行うごとにサムネイル生成タイマー２５ａの値（カウント）を減算する処理を利用してタイムアウトを判定する場合を説明したが、サムネイル生成タイマー２５ａに代えて、装置内に存在する他のタイマーの機能を使ってタイムアウトを判定してもよい。また、サムネイル画像ＴＮＩの生成動作において、サムネイル生成タイマー２５ａの利用に代えて、記録されるＡＶストリームに重畳されているシステム時間を利用してもよい。

　図９は、サムネイル画像ＴＮＩの生成動作の他の例を示すフローチャートである。図９のフローチャートは、図６に示す、シーンチェンジＳＣ発生後、画像差分値ＤＩＦがサムネイル用判定閾値ＴＨ３を下回ってから所定時間経過後（例えば、３秒経過後）のピクチャに基づいてサムネイル画像ＴＮＩを生成する場合の動作を示している。なお、図９のステップＳ３０２，Ｓ３０３，Ｓ３０４，Ｓ３１３，Ｓ３１４，Ｓ３１５，Ｓ３１７は、図７のステップＳ１０２，Ｓ１０３，Ｓ１０４，Ｓ１０５，Ｓ１０６，Ｓ１０７，Ｓ１０８にそれぞれ対応する。

　図９のステップＳ３０２～Ｓ３０４に示す処理工程は、図７のステップＳ１０２～Ｓ１０４に示す処理工程と同様である。ステップＳ３０４における画像差分値ＤＩＦの算出後、シーン境界抽出部２３は、シーン開始状態が設定されているか否か（すなわち、シーン開始位置であるエントリーが決定しているか否か）を判定する（Ｓ３０５）。エントリーが決定しているか否かの判定は、後段のステップＳ３１６においてシーン開始状態が設定されているかにより行われる。すなわち、シーンチェンジＳＣが検出され（Ｓ３１３）、エントリー情報が生成され（Ｓ３１４）、エントリー情報が記録された（Ｓ３１５）後に、シーン開始状態が設定される（Ｓ３１６）。ステップＳ３０５において、シーン開始状態が設定されている場合（エントリーが決定している場合）、サムネイル生成部２５は、画像差分値ＤＩＦがサムネイル用判定閾値ＴＨ３以下であるか否かを判定する（Ｓ３０６）。サムネイル用判定閾値ＴＨ３以下と判定された場合（Ｓ３０６においてＹＥＳ）、サムネイル生成タイマー２５ａのカウントが減算される（Ｓ３０７）。画像差分値ＤＩＦがサムネイル用判定閾値ＴＨ３を下回ってから所定期間経過後（すなわち、サムネイル生成タイマー２５ａがタイムアウトすると）（Ｓ３０８）、サムネイル生成部２５は、サムネイル画像ＴＮＩを生成し（Ｓ３０９）、サムネイル画像ＴＮＩを含むサムネイル情報をメタデータ記録部１９に記録する（Ｓ３１０）。サムネイル画像ＴＮＩ生成処理が終了すると、サムネイル生成部２５は、シーン開始状態を解除する（すなわち、サムネイル生成タイマー２５ａをセットする）（Ｓ３１１）。これにより、次のシーン境界ＳＢの検出処理が開始される。一方、画像差分値ＤＩＦがサムネイル用判定閾値ＴＨ３以下と判定された場合（Ｓ３０６においてＮＯ）、サムネイル生成タイマー２５ａのカウント値がリセットされ（Ｓ３１２）、画像差分値ＤＩＦが再びサムネイル用判定閾値ＴＨ３以下となるまでサムネイル生成タイマー２５ａのカウントの減算は行われない。以上の処理が、録画ストリームの入力が終了するまで行われる（Ｓ３１７）。

　図１０は、サムネイルをモニターに表示させ、表示されたサムネイルを見ながら再生シーンのサムネイルを選択する動作を示すフローチャートである。ユーザーがリモコン９４等を操作して所望のコマンドを映像記録再生装置１００のリモコン受信部６に入力すると、リモコン受信部６でコード化されたコマンドがシステム制御部２に入力される（Ｓ４０２）。システム制御部２はコマンドに応じて処理を分岐する。再生開始指示が入力された場合（Ｓ４０３）、システム制御部２は、再生アプリ１１に対して再生開始指示を行う（Ｓ４０４）。これにより、ＡＶストリーム記録部１７から出力ストリーム制御部１６へのＡＶストリームの読み出しが開始され、ＡＶデコーダ１５においてデコードおよび出画が開始される。

　次に、ユーザーが、リモコン９４に設けられた「シーンセレクト」ボタンを押下した場合、リモコン受信部６からシステム制御部２にサムネイル表示コマンドが送られ、システム制御部２は再生アプリ１１にサムネイル表示指示を行い、再生アプリ１１は、再生制御部１４、メタデータ制御部１２、サムネイル選択部にサムネイル表示指示を行う（Ｓ４０５）。これにより、メタデータ記録部１９からサムネイル画像ＴＮＩが読み出され（Ｓ４０６）、サムネイル表示制御部１３からのサムネイル画像ＴＮＩが重畳された画像がモニター９３に表示される（Ｓ４０７）。

　次に、ユーザーがリモコン９４の右もしくは左のカーソルキー９７Ｒ，９７Ｌを押下すると、選択枠移動指示が行われ（Ｓ４０８）、サムネイル選択枠生成部２８によって表示された選択枠４１を移動させて描画する処理が行われる（Ｓ４０９）。ユーザーが希望するシーンのサムネイルに選択枠４１を移動させ、「決定」キー９６を押下すると、システム制御部２に対し再生開始シーンの決定指示がなされる（Ｓ４１０）。次に、再生アプリ１１に対してエントリー情報を抽出するように指示がなされ、再生制御部１４はＡＶ管理情報記録部１８から再生制御情報を読み出し、ＡＶストリーム記録部１７において指定されたシーンのアドレス位置にシーク動作が行われる（Ｓ４１１）。ステップＳ４１２において、再生終了指示がなされた場合は処理を終了し（Ｓ４１３）、それ以外の場合は、新たなコマンドの入力に従う（Ｓ４０２）。以上のように、ユーザーが、モニター９３の画面に表示されたサムネイルを選択し、決定する操作を行うことによって、対応するシーンのエントリー位置からの再生が開始される。

　以上において説明した本実施の形態に係る映像音声記録再生装置１００によれば、シーンチェンジＳＣに対応するエントリー位置から時間的に後のピクチャに基づいてサムネイル画像ＴＮＩを生成することができる。これにより、シーンチェンジＳＣが継続して発生している（画像差分値ＤＩＦが閾値ＴＨ１を超えている）可能性が高いエントリー直後のピクチャに基づいてサムネイル画像ＴＮＩを生成した場合に生じる不具合を解消し、サムネイル画像ＴＮＩの元になるピクチャとして、より適切なピクチャを選択することができる。具体的には、動きが激しい映像や、瞬間的に表示されるような映像をサムネイル画像ＴＮＩの元になるピクチャとして選択することを避け、動きが少ない静止画に近い画像をサムネイル画像ＴＮＩの元になるピクチャとして選択とすることができる。また、サムネイル画像ＴＮＩは静止画等の相関性の高い画像が時間的に継続する期間内で選択されたピクチャに基づいて生成されるので、シーンの内容に合致したサムネイルをモニター９３に表示させることができるとともに、ユーザーが選択したサムネイル画像ＴＮＩをシーンの映像内において確認することができ、ユーザーは安心してサムネイル画像ＴＮＩ選択によるシーン再生をすることができる。

　また、図４及び図８に示される例では、サムネイル画像ＴＮＩの元になるピクチャを選択する条件は、時間経過のみであるため、サムネイル画像ＴＮＩの生成判定条件を計算するシステムの負荷が少なくて済む。

　また、本実施の形態においては、再生するＡＶストリームを直接解析して、エントリー情報の抽出およびサムネイル画像ＴＮＩの元になるピクチャを選択するので、エントリー情報およびサムネイル画像ＴＮＩが有する時間情報はＡＶストリームと関連付けられている。このため、ＡＶストリームの再生経過時間とエントリー情報およびサムネイル画像ＴＮＩが示す時間とを対応付けて再生することが可能である。

　さらに、本実施の形態では、シーン境界ＳＢのピクチャの位置を示すエントリー情報を生成する方法、およびサムネイル画像ＴＮＩを生成する方法は、ＨＤＤなどのＡＶストリーム記録部１７に記録されるＡＶストリームに対して適用されている。しかし、これらの方法は、符号化ストリームにのみ適用可能なものではなく、例えば、符号化を行う前の画像データに対しても適用可能である。

　また、Ｈ／Ｗなどで実装されたデコーダを解析用デコーダ２１として用いてもよい。

　さらに、サムネイル画像ＴＮＩの生成処理を、専用のＨ／Ｗエンコーダを用いて行ってもよい。

　また、実施の形態１に係る映像記録再生装置１００の記録処理を行う各構成（例えば、デジタルチューナー３、アナログチューナー４、ＡＶエンコーダ７、入力ストリーム制御部８、ＡＶストリーム記録部１７）は、従来の映像音声記録再生装置の記録処理を行う各構成と共通する構成であるので、本発明は、従来の映像音声記録再生装置に、比較的小規模な構成の変更を行うことによって、適用することができる。

　また、サムネイル生成部２５は、生成しようとするサムネイル画像ＴＮＩの元になるピクチャが、サムネイルとしてふさわしい（好ましい）画像であるか否かを判定し、ふさわしくない（好ましくない）画像であると判定した場合に、サムネイル画像ＴＮＩの元になるピクチャとして採用せず、新たに別のピクチャに基づいてサムネイル画像ＴＮＩを生成するようにしてもよい。サムネイル画像ＴＮＩとしてふさわしくない画像の例としては、例えば、黒色や白色などの単色の画像、画像内に何も対象物が存在しない画像、カメラのフラッシュ等で画面が白とびした画像、動きが早すぎて何が写っているのかわらない画像、コントラストが所定値よりも低い画像等が考えられる。これにより、適切な画像をサムネイル画像ＴＮＩとして選択することができるだけでなく、不適切なデータに基づいてサムネイル生成処理を行うことにより発生することがある、システムのハング（予期しないデータ入力などによって生じることがある機能停止）を回避することができる。

　また、本実施の形態では、シーン境界ＳＢを抽出した後にサムネイル画像ＴＮＩの元になるピクチャの選択とサムネイル画像ＴＮＩの生成を行う構成を説明したが、例えば、サムネイル画像ＴＮＩとして適切なピクチャを検出し、その後に、この検出されたピクチャよりも時間的に前にあるシーン境界ＳＢの抽出を行う構成を採用してもよい。この場合には、シーン境界ＳＢの検出（例えば、シーンチェンジＳＣの検出）を常に行わなくてもよく、処理負荷の軽減が期待できる。さらに、サムネイル画像ＴＮＩとして適正な画像が検出されたときのみ、シーンを区切るので、結果的にサムネイルとして不適切な画像がサムネイル画像ＴＮＩの元になるピクチャとして選択されることがなくなる。

　さらにまた、シーン境界ＳＢの検出を固定値で行った場合、例えば、５分間隔等でシーンを区切った場合、シーン境界ＳＢの検出のための負荷を軽減できる。また、この場合には、録画動作と並行してサムネイル画像を生成するときに、シーンの長さが予めわかっているので、シーンの中で最良のサムネイル画像ＴＮＩを選択する処理が簡単に実現でき、結果として、より適切なサムネイル画像ＴＮＩ用のピクチャを選択することができる。

　なお、本実施の形態に係る映像音声記録再生装置１００は、再生機能を有しているが、記録機能のみを有する記録装置であってもよい。このような映像音声記録装置は、記録したＡＶストリーム、再生制御情報、メタデータを外部に出力するインターフェース機能を設けることにより実現することができる。

　また、こうしたインターフェースから出力されたデータ、もしくはデータが記録された媒体を用いて、本実施の形態に係る映像音声記録再生装置１００が持つ再生機能を有する映像音声再生装置を構成してもよい。映像音声記録再生装置１００が、録画機能を持たない映像音声再生装置である場合には、シーン検出部５０は、ＡＶストリーム記録部１７のＡＶストリームを読み出す構成を備え、ＡＶストリーム記録部１７に記録されたＡＶストリームの映像および／または音声を解析して、シーン検出を行う。ＡＶストリーム記録部１７のＡＶストリームを読み出す構成の一例は、後述の実施の形態３で説明されるが、実施の形態３の構成に限定されない。

実施の形態２．
　図１１は、本発明の実施の形態２に係る映像音声記録再生装置１０１の概略的な構成を示すブロック図である。図１１において、図１に示される構成と同一または対応する構成には、同じ符号を付す。実施の形態２に係る映像音声記録再生装置１０１は、シーン検出部５１の構成の点において、実施の形態１に係る映像音声記録再生装置１００と相違する。実施の形態２に係る映像音声記録再生装置１０１は、図１に示す映像音声記録再生装置１００におけるシーン境界抽出部２３に代えて、音声境界抽出部２６を備えたことを特徴とする。実施の形態２に係る映像音声記録再生装置１０１は、シーン検出部５１以外の点について、実施の形態１に係る映像音声記録再生装置１００と同じである。

　実施の形態２のシーン検出部５１において、解析用デコーダ２１は、ＡＶストリーム中の符号化されている音声データに対しても復号を行う。音声境界抽出部２６は、フレームバッファ２２を介して入力される音声データについて、例えば、無音が発生している区間（無音区間）を検出し、この検出された無音区間をシーン境界ＳＢである判定する。エントリー生成部２４は、シーン境界ＳＢの判定結果に基づき、実施の形態１と同様に、シーン再生開始位置のアドレス情報および／または時間情報からなるエントリー情報を作成し、このエントリー情報をメタデータ記録部１９に記録する。

　音声境界抽出部２６における音声の解析方法は、無音検出を用いる方法に限らず、音声の周波数解析を行い、この解析によって得られた周波数分布より、音声情報の特性分類を行う処理を用いる、以下のような方法であってもよい。先ず、音声境界抽出部２６は、一定区間の音声信号に対し、オーディオフレーム単位で周波数解析を実施し、各オーディオフレームの周波数分布を求める。次に、音声境界抽出部２６は、各オーディオフレームの周波数分布の形状が、予め「会話」、「音楽」、「スポーツ」、「動物の声」、「騒音」等に分類され、保持された周波数分布パターンのうちのいずれのパターンに一致するか（または最も近いか）を求める。次に、音声境界抽出部２６は、複数のオーディオフレームからなる区間窓を設け、各区間窓内において最も頻度の高い周波数分布パターンを、対応する区間窓を代表するパターンであると判定する。そして、音声境界抽出部２６は、代表するパターンが変化した区間窓の先頭を、シーン境界ＳＢとする。

　図１２（ａ）～（ｃ）は、音声の周波数解析によりシーン境界ＳＢを検出する方法を示す説明図である。図１２（ａ）に示すように、音声信号はオーディオフレームＡＦ_ｍ，ＡＦ_ｍ＋１，…，ＡＦ_ｍ＋１４，…に分割される。ここで、ｍは、１以上の整数である。音声境界抽出部２６は、分割されたオーディオフレーム単位でオーディオデータの周波数解析を行い、各オーディオフレームの周波数分布が、予め保持された周波数分布パターンのうちのいずれのパターンに一致するか、または、最も近いかを求める。図１２（ａ）に示す例では、音声境界抽出部２６は、３つのオーディオフレームからなる区間窓Ｗ_ｎ，Ｗ_ｎ＋１，…を設け、図１２（ｂ）に示すように、区間窓Ｗ_ｎ，Ｗ_ｎ＋１，…の各々に含まれる音声信号の周波数分布が、予め保持された周波数分布パターンのうちのいずれのパターンに一致するか、または、最も近いかを求める。ここで、ｎは、１以上の整数である。音声境界抽出部２６は、この区間窓Ｗ_ｎ，Ｗ_ｎ＋１，…に対応付けられた周波数分布パターンが変化した時点をシーンの変わり目であるシーン境界ＳＢと判定する。その結果、図１２（ｃ）に示すように、映像信号は、シーン境界ＳＢによって、シーンＳＣＥ_ｓ，ＳＣＥ_ｓ＋１，…に分割される。ここで、ｓは、１以上の整数である。

　次に、オーディオ情報に基づいて、各シーンに属する複数のピクチャからサムネイル画像ＴＮＩの元になる代表ピクチャＲＰを選択する方法について説明する。映像情報と音声情報の区切りは、必ずしも一致する訳ではないが、音声の区切りで映像の変化が発生することが多い。このような理由から、図１２（ｃ）に示す、シーン境界ＳＢ（周波数分布の形状パターンが変化する区間窓の境界）の画像をサムネイル画像ＴＮＩとすべきではない。よって、サムネイル生成部２５は、区間窓において、同じ周波数分布パターンが続く位置のピクチャに基づいてサムネイル画像ＴＮＩを生成することが好ましい。例えば、サムネイル生成部２５は、「スポーツ」が続く区間窓Ｗ_ｎ＋１からＷ_ｎ＋３までの範囲において、中心の区間窓Ｗ_ｎ＋２を選び、この中心の区間窓Ｗ_ｎ＋２における中心のオーディオフレームＡＦ_ｍ＋７に対応するピクチャからサムネイル画像ＴＮＩを生成する。以降のサムネイル画像ＴＮＩの生成処理は、実施の形態１における処理と同じである。

　実施の形態２に係る装置又は方法によれば、音声情報に基づいてシーン境界ＳＢの検出やサムネイル画像ＴＮＩの元になるピクチャを選択することにより、実施の形態１のように映像情報に基づいてこれらの処理を行う場合に比して、解析処理を軽量化し、処理速度を上げることができる。特に、音声信号から検出された無音区間に基づいてシーン境界ＳＢを検出する方法を採用した場合は、解析処理が非常に軽量になり、より早く処理を完了させることができる。また、実施の形態２に係る装置又は方法によれば、音声情報を利用するため、音声に特徴のある番組、例えば、音楽番組や、スポーツ番組に対するシーン検出の精度を向上させることができる。

　さらに、実施の形態２に係る装置又は方法において、映像と音声とを組み合わせてシーン境界ＳＢの検出を行う場合、または、サムネイル画像ＴＮＩの元になるピクチャの選択を行う場合には、より適切な処理が可能となる。

　また、実施の形態２に係る装置又は方法は、映像情報や音声情報に基づいてシーン境界の検出、または、サムネイル画像ＴＮＩの元になるピクチャの選択を行う場合に限定されず、放送波に重畳される種々の情報、例えば、字幕情報、ＥＰＧ（Ｅｌｅｃｔｒｏｎｉｃ　Ｐｒｏｇｒａｍ　Ｇｕｉｄｅ）データ、著作権管理情報などを利用してシーン境界の検出、または、サムネイル画像ＴＮＩの元になるピクチャの選択を行ってもよい。これらのデータを利用する場合には、正確なシーン分割が可能になる。

実施の形態３．
　図１３は本発明の実施の形態３に係る映像音声記録再生装置１０２の概略的な構成を示すブロック図である。本実施の形態に係る映像音声記録再生装置１０２は、ＡＶストリーム記録部１７に記録されたＡＶストリームを読み出して、シーン境界ＳＢの検出およびサムネイル画像ＴＮＩの元になるピクチャの選択を行う処理において用いられるダビング用ストリーム制御部２７を備えたことを特徴とする。図１３に示す映像音声記録再生装置１０２において、ダビング用ストリーム制御部２７以外の構成は、図１に示す映像音声記録再生装置１００と同様である。

　ダビング用ストリーム制御部２７は、ＡＶストリーム記録部１７からＡＶストリームを読み出し、解析対象となるＡＶストリームのデータを解析用デコーダ２１に入力する。ダビング用ストリーム制御部２７は、通常、ダビング用のバッファとして用いられ、ダビング時には、ＡＶストリーム記録部１７からＡＶストリームを読み出し、図示しないストリーム出力端子から、読み出されたＡＶストリームを出力するか、または、図示しないストリーム入力端子から入力されたＡＶストリームを、ＡＶストリーム記録部１７に書き込む動作を行う。本実施の形態においては、このダビング用ストリーム制御部２７に、ＡＶストリーム記録部１７から読み出されたＡＶストリームを解析用デコーダ２１に入力させる機能をも持たせている。

　ダビング用ストリーム制御部２７は、録画が終了するとＡＶストリーム記録部１７に記録されたＡＶストリームを順次読み出し、解析用デコーダ２１に入力する。解析用デコーダ２１は、ＧＯＰの開始コードが検出されると、先頭のＩピクチャが含まれるパケットを解析し、当該Ｉピクチャのデコードを行う。以降の動作は、実施の形態１における動作と同様である。

　このように、実施の形態３に係る映像音声記録再生装置１０２によれば、録画終了後にシーン境界ＳＢの検出およびサムネイル画像ＴＮＩの元になるピクチャの選択を行う構成としているので、実施の形態１のように録画時の処理負荷の高い状態ではなく、処理の負荷が低い状態でのＡＶストリームの解析を行うことができ、安定した処理が可能となる。

　また、録画時にＡＶストリームの解析を行う場合、録画動作の速度と同じか、それ以上の速度でシーン境界ＳＢの検出およびサムネイル画像ＴＮＩの生成を行う必要（すなわち、高速な解析処理の必要）があったが、実施の形態３に係る映像音声記録再生装置１０２によれば、録画終了後においてシーン境界ＳＢの検出およびサムネイル画像ＴＮＩの生成を行うので、要求される解析処理の速度は、比較的に低い速度とすることができる。

　また、実施の形態３に係る映像音声記録再生装置１０２によれば、録画後にシーン境界ＳＢの検出およびサムネイル画像ＴＮＩの生成の処理を行うため、特定の期間のみ（例えば、ＣＭ区間を除いた期間）の解析を行うことができ、トータルの解析負荷を低減し、消費電力の削減に貢献できる。

　また、実施の形態３に係る映像音声記録再生装置１０２によれば、一度記録されたタイトルに対してシーン境界ＳＢの検出およびサムネイル画像ＴＮＩの生成の処理を行うことができるため、編集操作等でタイトルの内容が変わった場合（例えば、一部のシーンが削除されたり、複数のシーンの順番が入れ替えられたりした場合）であっても、編集後の映像音声データについて適切なサムネイルの表示を行うことができる。

　１００，１０１，１０２　映像音声記録再生装置、　２　システム制御部、　３　デジタルチューナー、　４　アナログチューナー、　５　外部入力端子、　６　リモコン受信部、　７　ＡＶエンコーダ、　８　入力ストリーム制御部、　９　録画アプリ、　１０　録画制御部、　１１　再生アプリ、　１２　メタデータ制御部、　１３　サムネイル表示制御部、　１４　再生制御部、　１５　ＡＶデコーダ、　１６　出力ストリーム制御部、　１７　ＡＶストリーム記録部、　１８　ＡＶ管理情報記録部、　１９　メタデータ記録部、　２０　グラフィック重畳部、　２１　解析用デコーダ、　２２　フレームバッファ、　２３　シーン境界抽出部、　２４　エントリー生成部、　２５　サムネイル生成部、　２５ａ　サムネイル生成タイマー、　２６　音声境界抽出部、　２７　ダビング用ストリーム制御部、　２８　サムネイル選択枠生成部、　３０　ネットワーク端子、　３１　モニター出力端子、　４１　選択枠、　５０，５１　シーン検出部、　９１　アンテナ、　９２　ネットワーク、　９３　モニター、　９４　リモコン、　９５　画面、　ＰＩＣ　ピクチャ、　ＲＰ，Ｐ５５，Ｐ７２，Ｐ８６，Ｐ９８，Ｐ１０７　代表ピクチャ、　Ｐ５２，Ｐ６７，Ｐ８３，Ｐ９４，Ｐ１０３　シーン境界のピクチャ、　ＳＢ　シーン境界、　ＳＣＥ　シーン、　ＳＣ　シーンチェンジ、　ＴＮＩ　サムネイル画像、　ＴＮ１５～ＴＮ１９　サムネイル。

Claims

　映像情報から、複数のピクチャによって構成されるシーンの境界であるシーン境界を抽出するシーン境界抽出手段と、
　抽出された前記シーン境界にアクセスするためのエントリー情報を生成するエントリー生成手段と、
　抽出された前記シーン境界により分割されたシーンを代表する代表ピクチャを選択し、該代表ピクチャに基づいてサムネイル画像データを生成するサムネイル生成手段と、
　生成された前記サムネイル画像データに基づくサムネイルを表示装置に表示させるサムネイル表示制御手段と、
　表示された前記サムネイルのうちから任意のサムネイルを選択するためのサムネイル選択手段と、
　選択された前記サムネイルに対応するシーンを前記エントリー情報に基づく位置から再生する手段と、を備え、
　前記サムネイル生成手段は、各シーンの前記代表ピクチャの選択に際し、前記シーン境界のピクチャよりも後のピクチャを前記代表ピクチャとして選択する
　ことを特徴とする映像音声再生装置。
　前記サムネイル生成手段は、各シーンの前記代表ピクチャの選択に際し、前記映像情報を解析し、前記シーン内において映像変化が少ないピクチャを前記代表ピクチャとして選択することを特徴とする請求項１記載の映像音声再生装置。
　前記サムネイル生成手段は、各シーンの前記代表ピクチャの選択に際し、シーンを構成するピクチャ間の差分値を検出し、当該差分値が所定の閾値以下となるピクチャを前記代表ピクチャとして選択することを特徴とする請求項１記載の映像音声再生装置。
　前記サムネイル生成手段は、各シーンの前記代表ピクチャの選択に際し、シーンを構成するピクチャ間の差分値を検出し、前記シーン境界のピクチャよりも後の第１のピクチャであって、かつ前記シーン境界以降において最初に当該差分値が所定の閾値以下となる前記第１のピクチャを、前記代表ピクチャとして選択することを特徴とする請求項１記載の映像音声再生装置。
　前記サムネイル生成手段は、各シーンの前記代表ピクチャの選択に際し、シーンを構成するピクチャ間の差分値を検出し、前記シーン境界のピクチャよりも後の第２のピクチャであって、かつ前記シーン境界以降において当該差分値が所定の閾値以下の状態が所定の時間続いた後の最初のピクチャである前記第２のピクチャを、前記代表ピクチャとして選択することを特徴とする請求項１記載の映像音声再生装置。
　メタデータ記憶手段を更に備え、
　前記サムネイル生成手段は、生成された前記サムネイル画像データに対応するピクチャのアドレス情報をサムネイル情報として生成し、前記メタデータ記憶手段に前記サムネイル情報を記憶させる
　ことを特徴とする請求項１から５のいずれか１項に記載の映像音声再生装置。
　前記シーン境界抽出手段は、前記映像情報のシーンチェンジを検出し、該検出の結果に基づいて、前記シーン境界を検出することを特徴とする請求項１から５のいずれか１項に記載の映像音声再生装置。
　前記シーン境界抽出手段は、前記映像情報に含まれる音声データの周波数分布の変化を検出し、該検出の結果に基づいて、前記シーン境界を検出することを特徴とする請求項１から５のいずれか１項に記載の映像音声再生装置。
　前記シーン境界抽出手段は、前記映像情報に重畳されるデータに基づいて、前記シーン境界を検出することを特徴とする請求項１から５のいずれか１項に記載の映像音声再生装置。
　映像情報から、複数のピクチャによって構成されるシーンの境界であるシーン境界を抽出し、
　抽出された前記シーン境界にアクセスするためのエントリー情報を生成し、
　抽出された前記シーン境界により分割されたシーンを代表する代表ピクチャを選択し、該代表ピクチャに基づいてサムネイル画像データを生成し、
　生成された前記サムネイル画像データに基づくサムネイルを表示装置に表示させ、
　表示された前記サムネイルのうちから任意に選択されたサムネイルに対応するシーンを前記エントリー情報に基づく位置から再生し、
　各シーンの前記代表ピクチャの選択に際し、前記シーン境界のピクチャよりも後のピクチャを前記代表ピクチャとして選択する
　ことを特徴とする映像音声再生方法。
　各シーンの前記代表ピクチャの選択に際し、前記映像情報を解析し、映像変化が少ないピクチャを前記代表ピクチャとして選択することを特徴とする請求項１０記載の映像音声再生方法。
　各シーンの前記代表ピクチャの選択に際し、シーンを構成するピクチャ間の差分値を検出し、前記シーン境界のピクチャよりも後の第１のピクチャであって、かつ前記シーン境界以降において最初に当該差分値が所定の閾値以下となる前記第１のピクチャを、前記代表ピクチャとして選択する請求項１０記載の映像音声再生方法。
　各シーンの前記代表ピクチャの選択に際し、シーンを構成するピクチャ間の差分値を検出し、前記シーン境界のピクチャよりも後の第２のピクチャであって、かつ前記シーン境界以降において当該差分値が所定の閾値以下の状態が所定の時間続いた後の最初のピクチャである前記第２のピクチャを、前記代表ピクチャとして選択することを特徴とする請求項１０記載の映像音声再生方法。
　映像情報を記録媒体に記録する記録手段と、
　前記記録媒体に記録されるまたは記録された映像情報から、複数のピクチャによって構成されるシーンの境界であるシーン境界を抽出するシーン境界抽出手段と、
　抽出された前記シーン境界にアクセスするためのエントリー情報を生成するエントリー生成手段と、
　抽出された前記シーン境界により分割されたシーンを代表する代表ピクチャを選択し、該代表ピクチャに基づいてサムネイル画像データを生成するサムネイル生成手段と、
　生成された前記サムネイル画像データに基づくサムネイルを表示装置に表示させるサムネイル表示制御手段と、
　表示された前記サムネイルのうちから任意のサムネイルを選択するためのサムネイル選択手段と、
　選択された前記サムネイルに対応するシーンを前記エントリー情報に基づく位置から再生する手段と、を備え、
　前記サムネイル生成手段は、各シーンの前記代表ピクチャの選択に際し、前記シーン境界のピクチャよりも後のピクチャを前記代表ピクチャとして選択する
　ことを特徴とする映像音声記録再生装置。
　前記サムネイル生成手段は、各シーンの前記代表ピクチャの選択に際し、シーンを構成するピクチャ間の差分値を検出し、当該差分値が所定の閾値以下となるピクチャを前記代表ピクチャとして選択することを特徴とする請求項１４記載の映像音声記録再生装置。
　前記サムネイル生成手段は、各シーンの前記代表ピクチャの選択に際し、シーンを構成するピクチャ間の差分値を検出し、前記シーン境界のピクチャよりも後の第１のピクチャであって、かつ前記シーン境界以降において最初に当該差分値が所定の閾値以下となる前記第１のピクチャを、前記代表ピクチャとして選択することを特徴とする請求項１４記載の映像音声記録再生装置。
　前記サムネイル生成手段は、各シーンの前記代表ピクチャの選択に際し、シーンを構成するピクチャ間の差分値を検出し、前記シーン境界のピクチャよりも後の第２のピクチャであって、かつ前記シーン境界以降において当該差分値が所定の閾値以下の状態が所定の時間続いた後の最初のピクチャである前記第２のピクチャを、前記代表ピクチャとして選択する請求項１４記載の映像音声記録再生装置。
　前記サムネイル生成手段は、前記サムネイル画像データに含まれる画像特性に基づいて、前記サムネイル画像データに基づく第１のサムネイルを表示させるか否かを判定し、前記第１のサムネイルを表示させないと判定したときに、他のサムネイル画像データを生成することを特徴とする請求項１４から１７のいずれか１項に記載の映像音声記録再生装置。
　映像情報を記録媒体に記録し、
　前記記録媒体に記録されるまたは記録された映像情報から、複数のピクチャによって構成されるシーンの境界であるシーン境界を抽出し、
　抽出された前記シーン境界にアクセスするためのエントリー情報を生成し、
　抽出された前記シーン境界により分割されたシーンを代表する代表ピクチャを選択し、該代表ピクチャに基づいてサムネイル画像データを生成し、
　生成された前記サムネイル画像データに基づくサムネイルを表示装置に表示させ、
　表示された前記サムネイルのうちから任意に選択されたサムネイルに対応するシーンを前記エントリー情報に基づく位置から再生し、
　各シーンの前記代表ピクチャの選択に際し、前記シーン境界のピクチャよりも後のピクチャを前記代表ピクチャとして選択する
　ことを特徴とする映像音声記録再生方法。
　各シーンの前記代表ピクチャの選択に際し、シーンを構成するピクチャ間の差分値を検出し、当該差分値が所定の閾値以下となるピクチャを前記代表ピクチャとして選択することを特徴とする請求項１９記載の映像音声記録再生方法。
　各シーンの前記代表ピクチャの選択に際し、シーンを構成するピクチャ間の差分値を検出し、前記シーン境界のピクチャよりも後の第１のピクチャであって、かつ前記シーン境界以降において最初に当該差分値が所定の閾値以下となる前記第１のピクチャを、前記代表ピクチャとして選択することを特徴とする請求項１９記載の映像音声記録再生方法。
　各シーンの前記代表ピクチャの選択に際し、シーンを構成するピクチャ間の差分値を検出し、前記シーン境界のピクチャよりも後の第２のピクチャであって、かつ前記シーン境界以降において当該差分値が所定の閾値以下の状態が所定の時間続いた後の最初のピクチャである前記第２のピクチャを、前記代表ピクチャとして選択することを特徴とする請求項１９記載の映像音声記録再生方法。