JP4019085B2

JP4019085B2 - 番組録画装置、番組録画方法および番組録画プログラム

Info

Publication number: JP4019085B2
Application number: JP2005092578A
Authority: JP
Inventors: 哲矢鯵坂
Original assignee: NEC Embedded Products Ltd
Current assignee: NEC Embedded Products Ltd
Priority date: 2005-03-28
Filing date: 2005-03-28
Publication date: 2007-12-05
Anticipated expiration: 2025-03-28
Also published as: JP2006279290A

Description

本発明は組録画装置、番組録画方法および番組録画プログラムに関し、特に字幕放送を受信して、その字幕放送を記録する際にチャプタを付加して記録する組録画装置、番組録画方法および番組録画プログラムに関する。

ＤＶＤレコーダやＨＤＤレコーダに代表されるような、放送受信装置が受信した所定の番組をデジタルデータとして録画することが可能な番組録画装置が普及してきている。

一般的に、従来の番組録画装置は録画する番組に関する情報（例えば、ユーザが入力する番組の名称や録画時刻等。以下、番組情報と呼ぶ。）を記録媒体に記録しておき、再生時において、その番組情報を参照して録画されている番組をユーザに認識させる機能を搭載している。さらに、その番組情報を用いて頭出し（ユーザが選択した番組をその冒頭から再生すること）ができるものが存在する。録画された番組の冒頭以外の部分から再生を行う場合には、ユーザが画面に表示されている映像を参照しながら、早送りや巻き戻しを実行する必要がある。

画面を参照することなく、ユーザが所望する箇所から映像を再生させる技術として、所定の文字列（以下、キーワードと呼ぶ）を入力し、その入力された文字列から、記録媒体に記録された番組の再生開始箇所を特定する技術が知られている（例えば、特許文献１参照。）。

特許文献１（特開２０００−２８７１５６号公報）に記載の技術は、ＭＰＥＧ２エンコード部が、チューナから入力されるテレビジョン信号に含まれるＡＶデータをＭＰＥＧ２方式を用いて圧縮符号化し、記録部に出力している。またＶＢＩデータ抽出部は、テレビジョン信号のＶＢＩに含まれる付加情報を抽出して記録部に出力している。記録部５、ＭＰＧファイルとＶＢＩファイルを対応付けてハードディスク７記録する。検索再生部は、ユーザが入力する文字列をキーワードとして、ＶＢＩファイルの中身を検索し、合致する台詞等に対応するＭＰＧファイルを読み出して、その台詞の位置からデコードしてモニタに出力している。

また、番組を放送する技術の進歩に伴って、放送用の映像／音声データに対応して字幕データを送信する、いわゆる字幕放送と呼ばれる番組も増えてきている。字幕放送を番組録画装置で録画する技術が知られている（例えば、特許文献２参照）。

特許文献２（特開２００４−２８９３８１号公報）に記載の技術は、テレビジョン放送波から抽出される文字情報の内容をＤＶＤビデオフォーマットで規定されるサブピクチャデータに変換している。そして、サブピクチャデータを、映像や音声のデータとあわせてＤＶＤに記録している。

さらに、録画された字幕放送を任意の位置から再生する技術として、例えば、特許文献３（特開２００４−０８０４７６号公報）に記載の技術が知られている。

特許文献３に記載の技術は、ユーザから番組の録画指令を受けたとき、デマルチプレクサから出力されるその番組を構成するパーシャルＴＳを内蔵ハードディスクドライブに書き込むと共に、字幕文字データとその提示時刻情報とを対応付けたテーブルを作成し、録画番組とリンクさせて記憶している。字幕文字による映像検索指令を受けたときには、文字入力画面をＯＳＤ表示し、文字入力を受け付ける。入力された文字に一致する或いは類似する字幕文字をテーブルから検索し、その字幕文字の提示時刻の映像を再生している。

このような番組録画装置で字幕放送を記憶媒体（例えば、ＤＶＤディスク）に記録する場合、所望の場面から映像を再生させるための章ごとの区切り符号（以下、チャプタと呼ぶ。）を付与することがある。

上記特許文献に記載の技術を適用して、チャプタを付加する箇所を特定する場合、番組中にそのキーワードが短時間で連続して出現すると、チャプタを付加する箇所も連続的に指定されてしまう。そのため、最適な再生開始箇所を特定することが困難になってしまう場合がある。さらに、キーワードが複数回出現する場合、チャプタを付加する箇所はキーワードが出現する度に指定されてしまう。付与することが可能なチャプタの個数に上限があると、番組途中でその上限に達してしまい、所望の再生開始箇所を特定することができなくなってしまうことがある。

字幕データからキーワードが出現する時刻を特定してチャプタを付与する場合において、そのキーワードが短時間で連続的に出現するときでも、再生開始箇所として適切な箇所を特定することができる技術が望まれている。さらに、付与することが可能なチャプタの個数に上限があるときに、その上限値に対応してチャプタを付与することができる技術が望まれている。

また、番組中の音声を放送局に備えられた字幕文字変換器を用いて、リアルタイムで字幕文字へ変換して映像に合わせて放送する字幕放送（以下、リアルタイム字幕放送と呼ぶ）も実現している。リアルタイム字幕放送は、音声が出力される時刻とその音声に対応する字幕が表示される時刻とに時間差が存在する。したがって、リアルタイム字幕放送の字幕データを用いてチャプタを付与すると、そのチャプタで特定された再生開始箇所から所望の音声が出力されない場合がある。

通常の字幕放送とリアルタイム字幕放送とを混在させて録画する場合でも、適切にチャプタを付与することができる技術が望まれている。

特開２０００−２８７１５６号公報特開２００４−２８９３８１号公報特開２００４−０８０４７６号公報

本発明が解決しようとする課題は、字幕データからキーワードが出現する時刻を特定して書き込み用データにチャプタを付与する場合において、そのキーワードが字幕として出現する間隔に対応して、再生開始箇所として適切な箇所を特定することができる技術を提供することにある。

さらに、本発明が解決しようとする他の課題は、書き込み用データに付与することが可能なチャプタの個数に上限があるときに、その上限値に対応してチャプタを付与することができる技術を提供することにある。

さらに、本発明が解決しようとする他の課題は、通常の字幕放送とリアルタイム字幕放送とを混在させて録画する場合でも、適切にチャプタを付与することができる技術を提供することにある。

以下に、［発明を実施するための最良の形態］で使用される番号を用いて、課題を解決するための手段を説明する。これらの番号は、［特許請求の範囲］の記載と［発明を実施するための最良の形態］との対応関係を明らかにするために付加されたものである。ただし、それらの番号を、［特許請求の範囲］に記載されている発明の技術的範囲の解釈に用いてはならない。

上記課題を解決するために、以下に述べる番組録画装置を構成する。その番組録画装置は、字幕放送を受信する受信装置（２）から供給される字幕データ付テレビジョン信号（３０）に応答して、前記字幕データ付テレビジョン信号（３０）から字幕データ（３１）と映像音声データ（３２）とを抽出するデコーダ装置（４）と、前記字幕データ（３１）と前記映像音声データ（３２）とに基づいてチャプタ（頭出し用章区切り）付書き込み用画像（３９）を生成する書き込み用データ生成装置（１）とを具備して構成する。ここで、前記映像音声データ（３２）は、前記字幕放送の映像と音声とを含むものである。
そして、前記書き込み用データ生成装置（１）は、予め設定されたキーワードが字幕として表示される時刻をチャプタ候補時刻として特定し、前記キーワードと前記チャプタ候補時刻とを対応付けて初期チャプタ情報テーブル（３３）を生成する字幕データ（３１）解析部（１２）と、前記初期チャプタ情報テーブル（３３）に基づいて前記チャプタ候補時刻を補正して、チャプタ情報テーブル（３５）を生成するチャプタ情報テーブル補正部（１３）と、前記チャプタ付映像音声記録媒体（３９）を生成する書き込み用画像生成部（１４）とを有して構成する。

前記字幕データ（３１）解析部（１２）は、前記チャプタ候補時刻に対応付けられた前記キーワードが、所定の時間を越えずに再度字幕として出現するとき、前記キーワードが新たに出現する時刻をチャプタ候補時刻として特定することを禁止する。
さらに、前記チャプタ情報テーブル補正部（１３）は、前記チャプタ候補時刻と前記キーワードに対応する音声が出力される時刻との時間差に基づいてチャプタ設定時刻を特定し、前記チャプタ設定時刻と前記キーワードとを関連付けて前記チャプタ情報テーブル（３５）を生成する。
そして、前記書き込み用画像生成部（１４）は、前記チャプタ情報テーブル（３５）に示される前記チャプタ設定時刻に基づいて、書き込み用映像音声データ（３４）に前記チャプタ情報を付与して前記チャプタ付映像音声記録媒体（３９）を生成する。
上述したような番組録画装置を構成することで、字幕データ（３１）を用いてチャプタを生成することが可能になり、そのチャプタを使用して番組の頭出しを行うときに、出力される音声データとのずれを抑制することが可能になる。

また、その番組録画装置において、前記字幕データ（３１）解析部（１２）は、前記キーワードと前記チャプタ候補時刻とを関連付けたレコードを生成して前記初期チャプタ情報テーブル（３３）を構成する。このとき、前記チャプタ候補時刻に対応付けられた前記キーワードが、所定の時間を越えて再度字幕として出現するときには、前記キーワードが新たに出現する時刻を新たなチャプタ候補時刻として特定する。さらに、前記チャプタ候補時刻と前記新たなチャプタ候補時刻との時間差であるキーワード出現間隔と前記新たなチャプタ候補時刻と前記キーワードとを関連付けて新たなレコードを生成する。そのうえで、前記レコードの総数が所定の数を超えるとき、前記出現間隔が短いレコードを削除して、新たなレコードを前記初期チャプタ情報テーブル（３３）に追加する。

また、その番組録画装置において、前記チャプタ情報補正部は音声認識部を含んで構成されることが好ましい。そして、前記音声認識部は、前記書き込み用映像音声データ（３４）に含まれる音声データの音声認識を実行して前記キーワードが音声として出力される時刻をキーワード音声出力時刻として特定する。また、チャプタ情報補正部は、前記キーワード音声出力時刻と前記チャプタ候補時刻との時間差に基づいて、前記チャプタ候補時刻を補正して前記チャプタ設定時刻を特定する。

その番組録画装置において、前記音声認識部は、前記チャプタ候補時刻を基準時刻として所定の時間範囲で音声認識を実行するように機能するものであることが好ましい。そして、前記時間範囲で実行された音声認識により、前記キーワードに対応する音声が認識されるとき、その認識された時刻を前記キーワード音声出力時刻として特定する。また、チャプタ情報補正部は、前記時間範囲で実行された音声認識により、前記キーワードに対応する音声が認識されないときには、前記キーワードの音声認識を開始する時刻と前記チャプタ候補時刻との時間差に基づいて、前記チャプタ候補時刻を補正して前記チャプタ設定時刻を特定する。

その番組録画装置において、前記音声認識部は、予め定められた認識時間に基づいて音声認識を開始する音声認識開始時刻を特定し、特定された前記音声認識開始時刻から所定の時間範囲で音声認識を実行するような機能を備えて構成されるものであってもよい。その際、前記チャプタ情報テーブル補正部（１３）は、その音声認識によって得られた前記キーワード音声出力時刻を、予め定められた補正時間に基づいて前記チャプタ候補時刻を補正して前記チャプタ設定時刻を特定する。

また、その番組録画装置において、さらに、前記映像音声データ（３２）を処理して前記書き込み用映像音声データ（３４）を生成する画像処理部を含む構成であることが好ましい。ここで、前記画像処理部は、前記映像音声データ（３２）に対応する字幕放送が生放送番組であるか録画放送番組であるかを示す番組種別情報を生成し、前記番組種別情報と前記映像音声データ（３２）とを対応付けて前記書き込み用映像音声データ（３４）を生成する。そして、前記チャプタ情報テーブル補正部（１３）は、前記書き込み用映像音声データ（３４）に含まれる前記番組種別情報に基づいて、前記チャプタ候補時刻を補正して前記チャプタ設定時刻を特定する。

また、以下の方法で番組録画を実行することで上記課題を解決することが可能になる。その方法は、下記行為の連鎖であり、その中で述べる映像音声データ（３２）は字幕放送の映像データと音声データとを含むものであるとする。
上記課題を解決するために、
［ａ］字幕データ付テレビジョン信号（３０）に応答して、前記字幕データ付テレビジョン信号（３０）から字幕データ（３１）と映像音声データ（３２）とを抽出するステップと、
［ｂ］予め設定されたキーワードが字幕として表示される時刻をチャプタ候補時刻として特定し、前記キーワードと前記チャプタ候補時刻とを対応付けて初期チャプタ情報テーブル（３３）を生成するステップと、
［ｃ］前記チャプタ候補時刻に対応付けられた前記キーワードが、所定の時間を越えずに再度字幕として出現するとき、前記キーワードが新たに出現する時刻をチャプタ候補時刻として特定することを禁止するステップと、
［ｄ］前記チャプタ候補時刻と前記キーワードに対応する音声が出力される時刻との時間差に基づいてチャプタ設定時刻を特定し、前記チャプタ設定時刻と前記キーワードとを関連付けて前記チャプタ情報テーブル（３５）を生成するステップと、
［ｅ］前記字幕データ（３１）と前記映像音声データ（３２）と前記チャプタ情報テーブル（３５）に示される前記チャプタ設定時刻に基づいて、書き込み用映像音声データ（３４）に前記チャプタ情報を付与して前記チャプタ付映像音声記録媒体（３９）を生成するステップ
を具備する番組録画方法を実行する。

その番組録画方法において、前記［ｂ］ステップは、下記複数のステップを含むものであることが好ましい。その複数のステップは、
前記キーワードと前記チャプタ候補時刻とを関連付けたレコードを生成して前記初期チャプタ情報テーブル（３３）を構成するステップと、
前記チャプタ候補時刻に対応付けられた前記キーワードが、所定の時間を越えて再度字幕として出現するとき、前記キーワードが新たに出現する時刻を新たなチャプタ候補時刻として特定するステップと
前記チャプタ候補時刻と前記新たなチャプタ候補時刻との時間差であるキーワード出現間隔と前記新たなチャプタ候補時刻と前記キーワードとを関連付けて新たなレコードを生成するステップと、
前記レコードの総数が所定の数を超えるとき、前記出現間隔が短いレコードを削除して、新たなレコードを前記初期チャプタ情報テーブル（３３）に追加するステップである。

その番組録画装置において、前記［ｄ］ステップは、記複数のステップを含むものであることが好ましい。その複数のステップは、
前記書き込み用映像音声データ（３４）に含まれる音声データの音声認識を実行して前記キーワードが音声として出力される時刻をキーワード音声出力時刻として特定するステップと、
前記キーワード音声出力時刻と前記チャプタ候補時刻との時間差に基づいて、前記チャプタ候補時刻を補正するステップである。

その番組録画方法において、前記［ｄ］ステップは、さらに下記複数のステップを具備するものでああってもよい。ここで、その複数のステップは、
前記チャプタ候補時刻を基準時刻として所定の時間範囲で音声認識を実行するステップと、
前記時間範囲で実行された音声認識により、前記キーワードに対応する音声が認識されるとき、その認識された時刻を前記キーワード音声出力時刻として特定するステップと、
前記時間範囲で実行された音声認識により、前記キーワードに対応する音声が認識されないとき、前記キーワードの音声認識を開始する時刻と前記チャプタ候補時刻との時間差に基づいて、前記チャプタ候補時刻を補正するステップである。

また、その番組録画方法において、前記［ｄ］ステップは、さらに下記複数のステップを具備するものでああってもよい。ここで、その複数のステップは、
予め定められた認識時間に基づいて音声認識を開始する音声認識開始時刻を特定し、特定された前記音声認識開始時刻から所定の時間範囲で音声認識を実行するステップと、
その音声認識によって得られた前記キーワード音声出力時刻を、予め定められた補正時間に基づいて前記チャプタ候補時刻を補正するステップである。

その番組録画方法において、上述した［ａ］〜［ｅ］ステップに加えてさらに、下記ステップを実行する。
上記課題を解決するために、
［ｆ］前記映像音声データ（３２）に対応する字幕放送が生放送番組であるか録画放送番組であるかを示す番組種別情報を生成し、前記番組種別情報と前記映像音声データ（３２）とを対応付けて前記書き込み用映像音声データ（３４）を生成するステップと、
［ｇ］前記書き込み用映像音声データ（３４）に含まれる前記番組種別情報に基づいて、前記チャプタ候補時刻を補正するステップ
を具備する番組録画方法を実行する。

また、以下に示すコンピュータプログラムを組むことで上記課題を解決すること可能である。そのプログラムはコンピュータを字幕放送を受信する受信手段から供給される字幕データ付テレビジョン信号（３０）に応答して、前記字幕データ付テレビジョン信号（３０）から字幕データ（３１）と映像音声データ（３２）とを抽出するデコーダ手段と、前記字幕データ（３１）と前記映像音声データ（３２）とに基づいてチャプタ付映像音声記録媒体（３９）を生成する書き込み用映像音声データ生成手段として機能させるプログラムである。さらに詳細には、そのプログラムは、前記書き込み用映像音声データ生成手段に、
［ａ］前記デコーダ手段から供給される前記字幕データ（３１）と前記映像音声データ（３２）とを受け取るステップと、前記映像音声データ（３２）は前記字幕放送の映像データと音声データとを含み、
［ｂ］予め設定されたキーワードが字幕として表示される時刻をチャプタ候補時刻として特定し、前記キーワードと前記チャプタ候補時刻とを対応付けて初期チャプタ情報テーブル（３３）を生成するステップと、
［ｃ］前記チャプタ候補時刻に対応付けられた前記キーワードが、所定の時間を越えずに再度字幕として出現するとき、前記キーワードが新たに出現する時刻をチャプタ候補時刻として特定することを禁止するステップと、
［ｄ］前記チャプタ候補時刻と前記キーワードに対応する音声が出力される時刻との時間差に基づいてチャプタ設定時刻を特定し、前記チャプタ設定時刻と前記キーワードとを関連付けて前記チャプタ情報テーブル（３５）を生成するステップと、
［ｅ］前記字幕データ（３１）と前記映像音声データ（３２）と前記チャプタ情報テーブル（３５）に示される前記チャプタ設定時刻に基づいて、書き込み用映像音声データ（３４）に前記チャプタ情報を付与して前記チャプタ付映像音声記録媒体に書き込むためのデータ（３９）を生成するステップ
を具備する方法を実行させる番組録画プログラムである。

その番組録画プログラムにおいて、前記［ｂ］ステップは、
前記キーワードと前記チャプタ候補時刻とを関連付けたレコードを生成して前記初期チャプタ情報テーブル（３３）を構成するステップと、
前記チャプタ候補時刻に対応付けられた前記キーワードが、所定の時間を越えて再度字幕として出現するとき、前記キーワードが新たに出現する時刻を新たなチャプタ候補時刻として特定するステップと
前記チャプタ候補時刻と前記新たなチャプタ候補時刻との時間差であるキーワード出現間隔と前記新たなチャプタ候補時刻と前記キーワードとを関連付けて新たなレコードを生成するステップと、
前記レコードの総数が所定の数を超えるとき、前記出現間隔が短いレコードを削除して、新たなレコードを前記初期チャプタ情報テーブル（３３）に追加するステップ
を具備するものであってもよい。

また、その番組録画プログラムにおいて、前記［ｄ］ステップは、
前記書き込み用映像音声データ（３４）に含まれる音声データの音声認識を実行して前記キーワードが音声として出力される時刻をキーワード音声出力時刻として特定するステップと、
前記キーワード音声出力時刻と前記チャプタ候補時刻との時間差に基づいて、前記チャプタ候補時刻を補正するステップ
を具備するものであってもよい。

また、その番組録画プログラムにおいて、前記［ｄ］ステップは、さらに、
前記チャプタ候補時刻を基準時刻として所定の時間範囲で音声認識を実行するステップと、
前記時間範囲で実行された音声認識により、前記キーワードに対応する音声が認識されるとき、その認識された時刻を前記キーワード音声出力時刻として特定するステップと、
前記時間範囲で実行された音声認識により、前記キーワードに対応する音声が認識されないとき、前記キーワードの音声認識を開始する時刻と前記チャプタ候補時刻との時間差に基づいて、前記チャプタ候補時刻を補正するステップ
を具備するものであってもよい。

その番組録画プログラムにおいて、前記［ｄ］ステップは、さらに、
予め定められた認識時間に基づいて音声認識を開始する音声認識開始時刻を特定し、特定された前記音声認識開始時刻から所定の時間範囲で音声認識を実行するステップと、
その音声認識によって得られた前記キーワード音声出力時刻を、予め定められた補正時間に基づいて前記チャプタ候補時刻を補正するステップ
を具備するものであってもよい。

その番組録画プログラムにおいて、前記コンピュータを、さらに、前記映像音声データ（３２）を処理して前記書き込み用映像音声データ（３４）を生成する画像処理手段として機能させるプログラムであることが好ましい。そして、そのプログラムは前記書き込み用映像音声データ生成手段に、さらに、
［ｆ］前記映像音声データ（３２）に対応する字幕放送が生放送番組であるか録画放送番組であるかを示す番組種別情報を生成し、前記番組種別情報と前記映像音声データ（３２）とを対応付けて前記書き込み用映像音声データ（３４）を生成するステップと、
［ｇ］前記書き込み用映像音声データ（３４）に含まれる前記番組種別情報に基づいて、前記チャプタ候補時刻を補正するステップ
を具備する方法を実行させる番組録画プログラムであることが好ましい。

本発明によると、字幕データからキーワードが出現する時刻を特定してチャプタを付与する場合において、そのキーワードが短時間で連続的に出現するときでも、再生開始箇所として適切な箇所を特定することができる。

さらに、本発明によると、付与することが可能なチャプタの個数に上限があるときに、その上限値に対応してチャプタを付与することができる。

さらに、本発明によると、通常の字幕放送とリアルタイム字幕放送とを混在させて録画する場合でも、適切にチャプタを付与することができる。

以下に、図面を参照して本発明を実施するための形態について説明を行う。以下の説明において、本実施の形態における番組録画システムが、受信した字幕放送をＤＶＤディスクに記録するシステムである場合を例示して説明を行う。

図１は、本発明の実施の形態に構成を例示するブロック図である。図１を参照すると、本実施の形態のデジタル録画システムは、ＤＶＤデータ生成装置１と、放送受信装置２と、アンテナ３と、字幕放送デコーダ４と、入力装置５と、表示装置６と、ＤＶＤデータ書き込み装置７とを含んで構成されている。ＤＶＤデータ生成装置１は、本実施の形態の番組録画システムにおける記録用データを生成する情報処理装置である。以下の実施の形態において、ＤＶＤデータ生成装置１がパーソナルコンピュータである場合を例示し、通常パーソナルコンピュータに備えられている情報処理機能を用いて本発明を実現する場合に対応して説明を行う。また、以下の実施の形態において、受信した番組を記録するための記録媒体として、ＤＶＤディスクを用いる場合を例示して説明を行う。

図１に示されているように、ＤＶＤデータ生成装置１は、送受信部８と、演算処理部９と、主記憶部１０と、複数の情報処理部（１１〜１４）と、大容量記憶装置１５とを含んで構成されている。本実施の形態において、ＤＶＤデータ生成部１４は、複数の情報処理機能ブロック（１７〜２０）で構成されている。また、大容量記憶装置１５は、複数の情報格納部（２１〜２６）を含んで構成されている。図１に示されているように、ＤＶＤデータ生成装置１に備えられている各機能ブロック（８〜１５）は、バス１６を介して互いに接続されている。なお、ＤＶＤデータ生成装置１を構成する各機能ブロックの詳細は後述するものとする。

放送受信装置２は、字幕放送の受信を行い、受信した放送を所定の表示装置に表示させる機能を有する装置である。図１を参照すると、放送受信装置２は、アンテナ３を介して字幕放送を受信する場合の構成が例示されている。放送受信装置２は、受信した字幕放送５２をＭＰＥＧ２エンコード部１１に供給する。ＭＰＥＧ２エンコード部１１はその字幕放送から映像音声データを特定してＭＰＥＧ２エンコードを行う。

字幕放送デコーダ４は、放送受信装置２が受信した字幕放送から、字幕データを抽出する装置である。

入力装置５は、キーボードやマウスなど、本体装置にデータを入力することが可能な機能を備える装置である。表示装置６は、ＣＲＴディスプレイや液晶表示装置など、画面に情報を表示する表示装置である。ＤＶＤデータ書き込み装置７は、ＤＶＤデータ生成装置１から供給される書き込み用ＤＶＤデータをＤＶＤディスクに書き込む可能ＤＶＤドライブである。

以下に、ＤＶＤデータ生成装置１を構成する各ブロックについて説明を行う。ＤＶＤデータ生成装置１の送受信部８は、ＤＶＤデータ生成装置１の外部から供給されるデータを、ＤＶＤデータ生成装置１の内部で情報処理可能な形式に変換する通信インターフェースである。本実施の形態における送受信部８は、字幕放送デコーダ４から出力される字幕放送に関連するデータを受信し、そのデータを形式変換してバス１６を介して所定の機能ブロックに供給している。また、本実施の形態の送受信部８が、入力装置５および表示装置６に接続され、それぞれの装置と送受信可能な構成であってもよい。

演算処理部９は、ＤＶＤデータ生成装置１に備えられた各種装置の制御やデータの処理を行うプロセッシングユニットである。本実施の形態において、演算処理部９は、ＤＶＤデータ生成装置１に備えられているＣＰＵ（Central Processing Unit：中央演算処理装置）である場合に対応して説明を行う。

主記憶部１０は、電気的にデータを記憶する記憶媒体である。主記憶部１０は、演算処理部９がソフトウェアを実行する場合に、メインメモリとして用いられる。本実施の形態において、主記憶部１０
がＤＶＤデータ生成装置１に備えられたＲＡＭ（Random Access Memory）であることを前提に説明をおこなう。なお、本実施の形態における主記憶部１０は、特定の半導体記憶装置に制限されるものではない。

ＭＰＥＧ２エンコード部１１は、法送受信装置２から供給される字幕放送（映像／音声データ）に応答し、ＭＰＥＧ２規格に対応してＭＰＥＧ２データ生成する圧縮画像生成機能ブロックである。

字幕データ解析部１２は、字幕放送デコーダ４から供給される字幕データに応答して、その字幕データを解析する情報処理機能ブロックであり、受信する字幕データを随時解析し、予め設定されるキーワードと一致する字幕が表示される時刻を特定する。なお字幕データ解析部１２の動作に関する詳細は、後述する。

チャプタ情報テーブル補正部１３は、字幕データに基づいて、書き込み用ＤＶＤデータにチャプタ（章）をつける場合に、最適なチャプタを生成するための補正を行う情報処理機能ブロックである。

ＤＶＤデータ生成部１４は、ＭＰＥＧ２エンコード部１１、字幕データ解析部１２およびチャプタ情報テーブル補正部１３から供給される各種データに基づいて、書き込み用ＤＶＤデータを生成する情報処理機能ブロックである。上述したように、ＤＶＤデータ生成部１４は、サムネイル画像作成部１７と、ナビゲーションデータ作成部１８と、メニュー画面作成部１９と、書き込みデータ作成部２０とを含んで構成されている。

サムネイル画像作成部１７は、ＤＶＤディスクに格納するサムネイル画像を生成する情報処理機能ブロックである。ナビゲーションデータ作成部１８は、ＤＶＤディスクにＭＰＥＧ２データを書き込むときのナビゲーションデータを生成する情報処理機能ブロックである。メニュー画面作成部１９は、ＤＶＤディスクの作成に対応して、そのＤＶＤディスクに格納するメニュー画面を生成する情報処理機能ブロックである。書き込みデータ作成部２０は、ＭＰＥＧ２データ３４をＤＶＤディスクに書き込むための書き込み用データを生成する情報処理機能ブロックである。

また、大容量記憶装置１５は、ＤＶＤデータ生成装置１に備えられた情報記憶装置である。本実施の形態における大容量記憶装置１５は、ＤＶＤデータ生成装置１への電源の供給が遮断された場合であっても、情報の保持を継続することが可能な記憶装置であることが好ましい。したがって、以下の実施の形態において、大容量記憶装置１５がハードディスクドライブである場合に対応して説明を行う。

上述したように、大容量記憶装置１５は、キーワードリスト格納部２１と、最大チャプタ情報格納部２２と、ＭＰＥＧ２データ格納部２３と、ＤＶＤデータ格納部２４と、チャプタ情報テーブル格納部２５と、補正用データ格納部２６とを含んで構成されている。

キーワードリスト格納部２１は、チャプタを生成するときに用いられるキーワードを格納する情報格納部である。キーワードリスト格納部２１は、少なくとも一つのキーワードを保持している。以下の実施の形態では、キーワードリスト格納部２１は複数のキーワードを保持し、その複数のキーワードは、各情報処理部から読み出し可能な状態であるものとする。キーワードリストは、ユーザによってキーワードが手入力されるものをリストとして保持する場合や、ＥＰＧ（電子番組表）情報から出演者名などを自動的に抽出することで生成される
最大チャプタ情報格納部２２は、本実施の形態において、作成されるＤＶＤディスクに付与することが可能なチャプタの最大数を格納する情報格納部である。最大チャプタ情報格納部２２には、ＤＶＤ規格で定められる最大チャプタ数と、ユーザが独自に設定する最大チャプタ数とが格納されている。付与するチャプタの上限を特定する時には、字幕データ解析部１２は最大チャプタ情報格納部２２を参照して、その最大チャプタ数を特定する。

ＭＰＥＧ２データ格納部２３は、ＭＰＥＧ２エンコード部１１から出力されるＭＰＥＧ２データを格納する情報格納部である。ＤＶＤデータ格納部２４は、ＤＶＤデータ生成部１４から出力される書き込み用データを格納する情報格納部である。チャプタ情報テーブル格納部２５は、字幕データ解析部１２が生成する初期チャプタ情報テーブル３３およびチャプタ情報テーブル補正部１３が生成するチャプタ情報テーブル３５を格納する情報格納である。補正用データ格納部２６は、チャプタ情報テーブル補正部１３が初期チャプタ情報テーブル３３の補正を実行するときに用いる補正用のデータを格納する情報格納部である。

以下に、本実施の形態における詳細な構成を説明する。図２は、本実施の形態の番組録画システムにおける構成とデータの流れとを例示するブロック図である。図２に示されているように、字幕放送デコーダ４は、放送受信装置２と、ＭＰＥＧ２エンコード部１１と、字幕データ解析部１２とに接続されている。字幕データ解析部１２はさらにチャプタ情報テーブル補正部１３に接続されている。また、ＭＰＥＧ２エンコード部１１は、サムネイル画像作成部１７とナビゲーションデータ作成部１８と書き込みデータ作成部２０とに接続されている。また、チャプタ情報テーブル補正部１３はさらに、サムネイル画像作成部１７と、ナビゲーションデータ作成部１８とに接続されている。サムネイル画像作成部１７とナビゲーションデータ作成部１８とは、さらにメニュー画面作成部１９に接続されている。また、ナビゲーションデータ作成部１８は、書き込みデータ作成部２０に接続されている。書き込みデータ作成部２０は、前述のＭＰＥＧ２エンコード部１１と、そのサムネイル画像作成部１７と、メニュー画面作成部１９とに接続されている。

図２を参照すると、本実施の形態の放送受信装置２は、放送の受信に対応して受信放送データ３０を出力する。放送受信装置２は、その受信放送データ３０に基づいて、映像／音声データ３２をＭＰＥＧ２エンコード部１１に出力し、字幕データ３１を字幕データ解析部１２に出力する。ＭＰＥＧ２エンコード部１１は、字幕放送デコーダ４から供給される映像／音声データ３２に基づいてＭＰＥＧ２データ３４を出力する。

字幕データ解析部１２は、字幕放送デコーダ４から供給される字幕データ３１に基づいて初期チャプタ情報テーブル３３を出力する。初期チャプタ情報テーブル３３とＭＰＥＧ２データ３４はチャプタ情報テーブル補正部１３に供給される。チャプタ情報テーブル補正部１３は、各々のデータに基づいてチャプタ情報テーブル３５を出力し、サムネイル画像作成部１７とナビゲーションデータ作成部１８とに供給する。

サムネイル画像作成部１７は、ＭＰＥＧ２エンコード部１１から供給されるＭＰＥＧ２データ３４とチャプタ情報テーブル補正部１３から供給されるチャプタ情報テーブル３５に基づいてサムネイル画像データ４０をメニュー画面作成部１９に出力する。ナビゲーションデータ作成部１８は、ＭＰＥＧ２エンコード部１１から供給されるＭＰＥＧ２データ３４とチャプタ情報テーブル補正部１３から供給されるチャプタ情報テーブル３５とに基づいてナビゲーションデータ３７をメニュー画面作成部１９と書き込みデータ作成部２０とに出力する。メニュー画面作成部１９は、ナビゲーションデータ３７とサムネイル画像データ４０とに基づいて、メニュー画面データ３８を書き込みデータ作成部２０に出力する。書き込みデータ作成部２０は、ＭＰＥＧ２データ３４と、ナビゲーションデータ３７とメニュー画面データ３８とに基づいて、チャプタ付書き込み用映像音声データ３９を生成する。

以下に、図面を参照して、字幕データ解析１２の動作について説明を行う。図３は、本実施の形態における字幕データ解析部１２の動作を例示するフローチャートである。本実施の形態において、図３に示されている動作は、ＤＶＤディスクに書き込むために番組録画が行われることで開始するものとする。図３のステップＳ１０１において、字幕データ解析部１２は、字幕放送デコーダ４から出力される字幕データ３１を受け取る。字幕データ解析部１２は、受け取った字幕データ３１に応答して、初期チャプタ情報テーブル３３の生成を開始する。

ステップＳ１０２において、字幕データ解析部１２は、初期チャプタ情報テーブルの生成開始に応答して大容量記憶装置１５のキーワードリスト格納部２１を参照する。字幕データ解析部１２は、その参照によって得られたキーワードリストの読み込みを行う。なお、予めキーワードリスト格納部２１に格納されるキーワードリストは、ユーザのキーボード入力や、ＥＰＧ情報に基づいて選択された文字列をキーワードとして設定するなどの方法によって生成される。字幕データ解析部１２は、受信した字幕データからキーワードに対応する字幕が出現する時刻を特定し、そのキーワードと出現時刻とを関連付けて一時的に保持する。

ステップＳ１０３において、字幕データ解析部１２は、時間経過に対応して字幕データを解析する。字幕データ解析部１２は、その解析に基づいて、予め設定されたキーワードが字幕データに出現すると、そのキーワードと出現時刻とを関連付けて初期チャプタ情報テーブルを生成する。字幕データ解析部１２は、初期チャプタ情報テーブルの生成過程で、以前に出現したキーワードが再度出現しているかどうかの判断を行う。その判断の結果、キーワードが既出であった場合、処理はステップＳ１０４に進む。以前に出現したキーワードが出現していない場合、処理はステップＳ１１０に進む。

ステップＳ１０４において、字幕データ解析部１２は、既出のキーワードの出現時刻を特定する。字幕データ解析部１２は、特定した時刻に基づいて、前回そのキーワードが字幕として出現した時刻と今回出現した時刻との時間間隔（時間差）を求める。字幕データ解析部１２は、その求めた時間間隔が所定の時間（以下、チャプタ未作成時間Ｔ１と呼ぶ）を超えているかどうかの判断を行い、超えている場合は、処理はステップＳ１０５に進む。その求めた時間差がチャプタ未作成時間Ｔ１を超えていない場合は、そのキーワードが出現した時刻をチャプタとして採用しないまま、処理はステップＳ１１０に進む。例えば、チャプタ未作成時間Ｔ１として、５秒間という時間が設定されているものとする。予め設定されたキーワードが、”００：１０：００”に字幕表示されたとして、その出現時刻から５秒以内（００：１０：００〜００：１０：０５までの間）に再度字幕として表示されたとしても、字幕データ解析部１２は、その時刻をチャプタ候補時刻として特定しない。

ステップＳ１０５において、字幕データ解析部１２は、キーワードが出現した時刻をチャプタ候補時刻とし、そのチャプタ候補時刻と前回キーワードが出現した時刻との時間差を時間間隔情報とし、チャプタ候補時刻と時間間隔情報とを新たなチャプタ番号に関連付けて初期チャプタ情報テーブルを更新する。更新が完了すると、処理はステップＳ１０６に進む。

ステップＳ１０６において、字幕データ解析部１２は、初期チャプタ情報テーブルが更新されたことに応答して、最大チャプタ情報格納部２２を参照し、最大チャプタ数情報を読み込む。

ステップＳ１０７において、字幕データ解析部１２は、その現時点における初期チャプタ情報テーブルに保持されている総チャプタ数を特定する。字幕データ解析部１２は、その総チャプタ数と読み込んだ最大チャプタ数との比較を行う。その比較の結果、総チャプタ数が最大チャプタ数を超えていない場合、字幕データ解析部１２は、初期チャプタ情報テーブルに新たなチャプタ情報を追加する（ステップＳ１０８）。その比較の結果、総チャプタ数が最大チャプタ数を超えている場合には、字幕データ解析部１２は、同一キーワード出現間隔が、一番短いチャプタを削除して、初期チャプタ情報テーブルを更新する（ステップＳ１０９）。

ステップＳ１１０において、字幕データ解析部１２は、字幕データの解析が全て完了したかどうかの判断を行う。その判断の結果、解析が完了していない場合には、処理はステップＳ１０３戻る。解析が完了した場合、処理はステップＳ１１１に進む。ステップＳ１１１において、字幕データ解析部１２は、生成してきた初期チャプタ情報テーブルを出力する。

これによって、
以下に、初期チャプタ情報テーブルの具体例を示して、字幕データ解析部１２の動作および初期チャプタ情報テーブルの構成に関して説明を行う。以下の実施の形態の説明においては、設定されている最大チャプタ数が”８”であるものする。図４は、初期チャプタ情報テーブル３３の構成を例示するテーブルである。図４を参照すると、初期チャプタ情報テーブル３３は、チャプタ番号４１と、キーワード４２と、チャプタ候補時刻４３と、同一キーワード間隔４４とが関連付けられて構成されている。図４に示されている初期チャプタ情報テーブル３３は、１番目から８番目までのチャプタ番号４１がすでに使用されている場合を例示している。

チャプタ番号４１は、チャプタ候補時刻の特定が行われるごとに付与される番号である。キーワード４２は、字幕データ解析部１２がキーワードリストに基づいて特定した文字列である。チャプタ候補時刻４３は、そのキーワード４２が字幕データに基づいて字幕表示される時刻である。同一キーワード間隔４４は、以前キーワード字幕表示された時刻とそのキーワードが再度字幕表示される時刻との時間差である。

図５は、字幕データを解析した結果、新たにキーワードが出現したときの更新用データ４５の構成を例示するテーブルである。図５を参照すると、字幕データの解析開始時刻から２７分４５秒の時点で”プロ野球”というキーワードが出現したことを示している。このとき字幕データ解析部１２は、初期チャプタ情報テーブル３３を参照して、前回”プロ野球”というキーワードが出現した時刻（００：１２：２０）と、今回の出現時刻（００：２７：４５）とから、同一キーワード間隔４４を算出する。

このとき、初期チャプタ情報テーブル３３の最大チャプタ数と同数のチャプタ情報を保持しているので、字幕データ解析部１２は、図３のフローチャートにおけるステップＳ１０９の処理を実行する。字幕データ解析部１２は、初期チャプタ情報テーブル３３を参照して、同一キーワードの出現間隔が、一番短いチャプタを特定する。図４を参照すると、このときのチャプタ番号が”３”の”小泉首相”というキーワードは、前回出現した時刻から１５秒後に出現していることが示されている。字幕データ解析部１２は、チャプタ番号３に関連付けられているチャプタ情報を削除し、更新用データ４５に示されている情報を新たなチャプタ情報として追加するとともに、初期チャプタ情報テーブル３３を更新する。

図６は、更新された初期チャプタ情報テーブル３３ａの構成を例示するテーブルである。図６を参照すると、更新されたチャプタ情報テーブル３３ａは、更新前のチャプタ情報テーブル４０のチャプタ番号３に関連付けられていた情報が削除されている。また、その策上に伴って各チャプタ情報が繰り上げられている。さらに、図６に示されているように、その削除によって、チャプタ番号２の”小泉首相”というキーワードの次に”小泉首相”というキーワードが出現する時刻が、１５分５５秒となる。そのため、字幕データ解析部１２は初期チャプタ情報テーブル３３ａチャプタ番号５の同一キーワード間隔４４を更新する。

これによって、そのキーワードが字幕として出現する間隔に対応して、再生開始箇所として適切な箇所を特定することが可能となる。

図７は、チャプタ情報テーブル補正部１３がチャプタを付与する時刻を補正する動作を例示するフローチャートである。その補正は字幕データ解析部１２から供給される初期チャプタ情報テーブル３３に基づいて実行される。図７のステップＳ２０１において、チャプタ情報テーブル補正部１３は、字幕データ解析部１２から供給される初期チャプタ情報テーブルを読み込む。ステップＳ２０２において、チャプタ情報テーブル補正部１３は、ＭＰＥＧ２エンコード部１１から出力されるＭＰＥＧ２データ３４を読み込む。

ステップＳ２０３において、チャプタ情報テーブル補正部１３の音声認識部１３−１は、初期チャプタ情報テーブル３３（または、初期チャプタ情報テーブル３３ａ）に示されているチャプタ候補時刻４３に基づいて、音声認識を開始する時刻（以下、音声認識開始時刻と呼ぶ。）を特定する。音声認識開始時刻は、チャプタ候補時刻から所定の時間（以下、認識時間Ｔ２と呼ぶ）だけ早い時刻が設定される。音声認識部１３−１は、音声認識開始時刻から音声認識を開始し、一定の時間間隔（音声認識実行時間４６）が経過するまでにキーワードに対応する音声の認識を実行する。

リアルタイム字幕放送の場合には、音声が出力されてからその音声に対応する字幕が表示されるまで、５〜１０秒間程度のタイムラグが発生してしまうことがある。そこで、認識時間Ｔ２として、例えば１０秒間を設定しておくと、チャプタ候補時刻から音声認識を実行するよりも、キーワードに対応する音声を認識することができる可能性（音声認識率）が高くなる。また、音声認識を終了する時刻を、チャプタ候補時刻から所定の時間だけ遅らせることで、より音声認識率を高めることが可能となる。

ステップＳ２０４において、音声認識部１３−１は、キーワードに対応する音声データを認識することができたかどうかの判断を実行する。その判断の結果、キーワードに対応する音声データの認識ができた場合、処理はステップＳ２０５に進む。キーワードに対応する音声データの認識ができなかった場合、処理はステップＳ２０６に進む。

ステップＳ２０５において、チャプタ情報テーブル補正部１３は、音声認識部１３−１による音声認識に基づいて、キーワードに対応する音声データが出現する時刻（キーワード出現時刻４７）を特定する。ステップＳ２０７において、チャプタ情報テーブル補正部１３は、キーワード出現時刻４７と補正時間Ｔ３とに対応してチャプタ時刻を補正する。

ステップＳ２０６において、チャプタ情報テーブル補正部１３は音声認識部１３−１による音声認識ができなかった場合、ステップＳ２０３で設定される音声認識開始時刻に対応してチャプタ時刻を補正する。ステップＳ２０８において、チャプタ情報テーブル補正部１３は補正が完了したときに、チャプタ情報テーブルを更新する。

ここで、上述のフローチャートの動作を補正用チャプタ情報テーブルの具体例を示して、チャプタ情報テーブル補正部１３の動作およびチャプタ情報テーブルの構成に関して説明を行う。図８は、音声認識実行時間４６を含む補正用チャプタ情報テーブル５０の構成を例示するテーブルである。補正用チャプタ情報テーブル５０は初期チャプタ情報テーブル３３に基づいて生成される。以下の説明において第１補正時間Ｔ２が１０秒であり、補正時間Ｔ３が１秒である場合を例示する。

図８を参照すると、補正用チャプタ情報テーブル５０は、キーワード４２とチャプタ候補時刻４３とに関連付けられた音声認識実行時間４６とで構成されている。図８に示されているように。補正用チャプタ情報テーブル５０は、各チャプタ候補時刻４３より第１補正時間Ｔ２（１０秒間）早い時刻を音声認識開始時刻として特定している。また、各チャプタ候補時刻４３より５秒遅い時刻を音声認識終了時刻として特定している。音声認識部１３−１は、補正用チャプタ情報テーブル５０の音声認識実行時間４６に示されている時間の音声認識を実行し、キーワードに対応する音声データが出現する時刻を特定する。

図９は、音声認識部１３−１による音声認識の結果（キーワード出現時刻４７）と認識対象のキーワードとを関連付けて保持する補正用チャプタ情報テーブル５１の構成を例示するテーブルである。図９を参照すると、チャプタ情報テーブル補正部１３は、音声認識部１３−１による音声認識の結果をキーワード出現時刻４７として各キーワード４２に関連付けて保持している。

図１０は、キーワード出現時刻４７から第２補正時刻Ｔ３を加減して得られたチャプタ設定時刻４８と、そのチャプタの特定に用いられるキーワードとを関連付けて保持しているチャプタ情報テーブル３５の構成を例示するテーブルである。図１０を参照すると、チャプタ情報テーブル３５は、音声認識部１３−１が実行した音声認識によって得られたキーワード出現時刻４７をさらに補正したチャプタ設定時刻４８と、キーワード４２とを関連付けて保持している。

上述してきたように、チャプタ情報テーブル補正部１３は、字幕データに基づいて特定されるチャプタ候補時刻と、ＭＰＥＧ２データの音声が出力される時刻との時間差に対応して補正している。補正することによって得られたチャプタ設定時刻に対応してチャプタを付与させているため、任意のチャプタから記録画像を再生させたときに、音声が途中から再生されてしまうような不具合を低減させることが可能になる。

図１１は、チャプタ情報テーブル補正部１３が実行する補正における、他の実施の形態の動作を例示するフローチャートである。図１１に示されているステップＳ２０１とステップＳ２０２は、図７で説明した動作と同様であるので、詳細な説明は省略する。

図１１のステップＳ３０１において、チャプタ情報テーブル補正部１３は、ＭＰＥＧ２エンコード部１１から供給されるＭＰＥＧ２データ３４に基づいて、そのＭＰＥＧ２データ３４が生放送番組を録画した字幕データ３１から生成されたかどうかの判断を実行する。その判断の結果、ＭＰＥＧ２データ３４が、生放送番組を録画した字幕データ３１に基づいて生成されている場合、処理はステップＳ３０２に進み、録画番組に対応して生成されたＭＰＥＧ２データ３４の場合、処理はステップＳ３０３に進む。ここで、チャプタ情報テーブル補正部１３は、ＭＰＥＧ２データ３４の受信に応答して、ＥＰＧ情報から番組のジャンルを取得し、そのジャンルに基づいて上記の判断を実行する。例えば、そのジャンルがニュースやスポーツの場合、処理はステップＳ３０２に進むこととなる。

ステップＳ３０２において、チャプタ情報テーブル補正部１３は、リアルタイム字幕放送に対応した補正を実行する。また、ステップＳ３０３において、チャプタ情報テーブル補正部１３は、録画放送用の補正を実行する。

具体的には、例えばチャプタ情報テーブル補正部１３は、リアルタイム字幕放送に対応した補正を実行する場合、上述した認識時間Ｔ２に対応して、チャプタ設定時刻を特定し、録画放送用の補正を実行する場合には、補正時間Ｔ３に対応してチャプタ設定時刻を特定する。

これによって、番組のジャンルに対応してチャプタを設定する時刻を特定することが可能になる。

なお、上述してきた実施の形態において、各装置の構成は本発明における構成を限定するものではない。例えば、記録媒体はＤＶＤディスクに限定されるものではなく、受信した字幕放送をＨＤＤレコーダを使用してハードディスクに記録させる構成であってもよい。同様に、上述の実施の形態において、ＤＶＤデータ生成装置１がパーソナルコンピュータである場合を例示して説明を行ってきたが、これは、本発明のＤＶＤデータ生成装置１の構成を限定するものではない。例えば、ＤＶＤデータ生成装置１として専用の装置を構成して本発明を実現することも可能である。

また、上述の実施の形態において、各情報処理部がコンピュータプログラム（ソフトウェア）である場合を前提に説明を行ってきたが、例えば、任意のプログラムに対応する電子回路（ハードウェア）を構成し、その電子回路を動作させることで、本実施の形態の動作を実現させることが可能である。

なお、上述の実施の形態において、その動作に矛盾が生じない範囲において、組み合わせて実行することも可能である。

図１は、本発明の実施の形態の構成を例示するブロック図である。図２は、本発明の実施の形態の構成とデータの流れとを例示するブロック図である。図３は、本発明の実施の形態におけるデータ解析部の動作を例示するフローチャートである。図４は、初期チャプタ情報テーブルの構成を例示するテーブルである。図５は、新たなキーワードを例示するテーブルである。図６は、新たなキーワードに対応して生成されるチャプタ情報テーブルの構成を例示するテーブルである。図７は、本発明の実施の形態におけるチャプタ情報テーブル補正部の動作を例示するフローチャートである。図８は、補正用チャプタ情報テーブルの構成を例示するテーブルである。図９は、補正用チャプタ情報テーブルの構成を例示するテーブルである。図１０は、チャプタ情報テーブルの構成を例示するテーブルである。図１１は、チャプタ情報テーブル補正部の他の動作を例示するフローチャートである。

符号の説明

１…ＤＶＤデータ生成装置
２…放送受信装置
３…アンテナ
４…字幕放送デコーダ
５…入力装置
６…表示装置
７…ＤＶＤデータ書き込み装置
８…送受信部
９…演算処理部
１０…主記憶部
１１…ＭＰＥＧ２エンコード部
１２…字幕データ解析部
１３…チャプタ情報テーブル補正部
１４…ＤＶＤデータ生成部
１５…大容量記憶装置
１６…バス
１７…サムネイル画像作成部
１８…ナビゲーションデータ作成部
１９…メニュー画面作成部
２０…書き込みデータ作成部
２１…キーワードリスト格納部
２２…最大チャプタ情報格納部
２３…ＭＰＥＧ２データ格納部
２４…ＤＶＤデータ格納部
２５…チャプタ情報テーブル格納部
２６…補正用データ格納部
３０…受信放送データ
３１…字幕データ
３２…映像／音声データ
３３、３３ａ…初期チャプタ情報テーブル
３４…ＭＰＥＧ２データ
３５…チャプタ情報テーブル
３７…ナビゲーションデータ
３８…メニュー画面データ
３９…チャプタ付映像音声記録媒体
４０…サムネイル画像データ
４１…チャプタ番号
４２…キーワード
４３…チャプタ候補時刻
４４…同一キーワード間隔
４５…更新用データ
４６…音声認識実行時間
４７…キーワード出現時刻
４８…チャプタ設定時刻
５０、５１、補正用チャプタ情報テーブル
５２…字幕放送
Ｔ１…チャプタ未作成時間
Ｔ２…認識時間
Ｔ３…補正時間

Claims

字幕放送を受信する受信装置から供給される字幕データ付テレビジョン信号に応答して、前記字幕データ付テレビジョン信号から字幕データと映像音声データとを抽出するデコーダ装置と、前記映像音声データは、前記字幕放送の映像と音声とを含み、
前記字幕データと前記映像音声データとに基づいてチャプタ付映像音声記録媒体を生成する書き込み用データ生成装置と
を具備し、
前記書き込み用データ生成装置は、
予め設定されたキーワードが字幕として表示される時刻をチャプタ候補時刻として特定し、前記キーワードと前記チャプタ候補時刻とを対応付けて初期チャプタ情報テーブルを生成する字幕データ解析部と、
前記初期チャプタ情報テーブルに基づいて前記チャプタ候補時刻を補正して、チャプタ情報テーブルを生成するチャプタ情報テーブル補正部と、
前記チャプタ付映像音声記録媒体を生成する書き込み用画像生成部と
を有し、
前記字幕データ解析部は、
前記チャプタ候補時刻に対応付けられた前記キーワードが、所定の時間を越えずに再度字幕として出現するとき、前記キーワードが新たに出現する時刻をチャプタ候補時刻として特定することを禁止し、
前記チャプタ情報テーブル補正部は、音声認識部を含み、
前記チャプタ候補時刻と前記キーワードに対応する音声が出力される時刻との時間差に基づいてチャプタ設定時刻を特定し、前記チャプタ設定時刻と前記キーワードとを関連付けて前記チャプタ情報テーブルを生成し、
前記音声認識部は、
前記書き込み用映像音声データに含まれる音声データの音声認識を実行して前記キーワードが音声として出力される時刻をキーワード音声出力時刻として特定し、
前記キーワード音声出力時刻と前記チャプタ候補時刻との時間差に基づいて、前記チャプタ候補時刻を補正して前記チャプタ設定時刻を特定し、
前記書き込み用画像生成部は、
前記チャプタ情報テーブルに示される前記チャプタ設定時刻に基づいて、書き込み用映像音声データに前記チャプタ情報を付与して前記チャプタ付映像音声記録媒体を生成する
番組録画装置。
請求項１に記載の番組録画装置において、
前記字幕データ解析部は、
前記キーワードと前記チャプタ候補時刻とを関連付けたレコードを生成して前記初期チャプタ情報テーブルを構成し、
前記チャプタ候補時刻に対応付けられた前記キーワードが、所定の時間を越えて再度字幕として出現するとき、前記キーワードが新たに出現する時刻を新たなチャプタ候補時刻として特定し、
前記チャプタ候補時刻と前記新たなチャプタ候補時刻との時間差であるキーワード出現間隔と前記新たなチャプタ候補時刻と前記キーワードとを関連付けて新たなレコードを生成し、
前記レコードの総数が所定の数を超えるとき、前記出現間隔が短いレコードを削除して、新たなレコードを前記初期チャプタ情報テーブルに追加する
番組録画装置。
請求項２に記載の番組録画装置において、
前記音声認識部は、
前記チャプタ候補時刻を基準時刻として所定の時間範囲で音声認識を実行し、
前記時間範囲で実行された音声認識により、前記キーワードに対応する音声が認識されるとき、その認識された時刻を前記キーワード音声出力時刻として特定し、
前記時間範囲で実行された音声認識により、前記キーワードに対応する音声が認識されないとき、前記キーワードの音声認識を開始する時刻と前記チャプタ候補時刻との時間差に基づいて、前記チャプタ候補時刻を補正して前記チャプタ設定時刻を特定する
番組録画装置。
請求項３に記載の番組録画装置において、
前記音声認識部は、予め定められた認識時間に基づいて音声認識を開始する音声認識開始時刻を特定し、特定された前記音声認識開始時刻から所定の時間範囲で音声認識を実行し、
前記チャプタ情報テーブル補正部は、
その音声認識によって得られた前記キーワード音声出力時刻を、予め定められた補正時間に基づいて前記チャプタ候補時刻を補正して前記チャプタ設定時刻を特定する
番組録画装置。
請求項１から４の何れか一項に記載の番組録画装置において、
さらに、前記映像音声データを処理して前記書き込み用映像音声データを生成する画像処理部を含み、
前記画像処理部は、前記映像音声データに対応する字幕放送が生放送番組であるか録画放送番組であるかを示す番組種別情報を生成し、前記番組種別情報と前記映像音声データとを対応付けて前記書き込み用映像音声データを生成し、
前記チャプタ情報テーブル補正部は、
前記書き込み用映像音声データに含まれる前記番組種別情報に基づいて、前記チャプタ候補時刻を補正して前記チャプタ設定時刻を特定する
番組録画装置。
（ａ）字幕データ付テレビジョン信号に応答して、前記字幕データ付テレビジョン信号から字幕データと映像音声データとを抽出するステップと、前記映像音声データは前記字幕放送の映像データと音声データとを含み、
（ｂ）予め設定されたキーワードが字幕として表示される時刻をチャプタ候補時刻として特定し、前記キーワードと前記チャプタ候補時刻とを対応付けて初期チャプタ情報テーブルを生成するステップと、
（ｃ）前記チャプタ候補時刻に対応付けられた前記キーワードが、所定の時間を越えずに再度字幕として出現するとき、前記キーワードが新たに出現する時刻をチャプタ候補時刻として特定することを禁止するステップと、
（ｄ）前記チャプタ候補時刻と前記キーワードに対応する音声が出力される時刻との時間差に基づいてチャプタ設定時刻を特定し、前記チャプタ設定時刻と前記キーワードとを関連付けて前記チャプタ情報テーブルを生成するステップと、
（ｅ）前記字幕データと前記映像音声データと前記チャプタ情報テーブルに示される前記チャプタ設定時刻に基づいて、書き込み用映像音声データに前記チャプタ情報を付与して前記チャプタ付映像音声記録媒体を生成するステップ
を具備し、
前記（ｄ）ステップは、
前記書き込み用映像音声データに含まれる音声データの音声認識を実行して前記キーワードが音声として出力される時刻をキーワード音声出力時刻として特定するステップと、
前記キーワード音声出力時刻と前記チャプタ候補時刻との時間差に基づいて、前記チャプタ候補時刻を補正するステップ
を具備する
番組録画方法。
請求項６に記載の番組録画方法において、
前記（ｂ）ステップは、
前記キーワードと前記チャプタ候補時刻とを関連付けたレコードを生成して前記初期チャプタ情報テーブルを構成するステップと、
前記チャプタ候補時刻に対応付けられた前記キーワードが、所定の時間を越えて再度字幕として出現するとき、前記キーワードが新たに出現する時刻を新たなチャプタ候補時刻として特定するステップと
前記チャプタ候補時刻と前記新たなチャプタ候補時刻との時間差であるキーワード出現間隔と前記新たなチャプタ候補時刻と前記キーワードとを関連付けて新たなレコードを生成するステップと、
前記レコードの総数が所定の数を超えるとき、前記出現間隔が短いレコードを削除して、新たなレコードを前記初期チャプタ情報テーブルに追加するステップ
を具備する番組録画方法。
請求項７に記載の番組録画方法において、
前記（ｄ）ステップは、さらに、
前記チャプタ候補時刻を基準時刻として所定の時間範囲で音声認識を実行するステップと、
前記時間範囲で実行された音声認識により、前記キーワードに対応する音声が認識されるとき、その認識された時刻を前記キーワード音声出力時刻として特定するステップと、
前記時間範囲で実行された音声認識により、前記キーワードに対応する音声が認識されないとき、前記キーワードの音声認識を開始する時刻と前記チャプタ候補時刻との時間差に基づいて、前記チャプタ候補時刻を補正するステップ
を具備する番組録画方法。
請求項８に記載の番組録画方法において、
前記（ｄ）ステップは、さらに、
予め定められた認識時間に基づいて音声認識を開始する音声認識開始時刻を特定し、特定された前記音声認識開始時刻から所定の時間範囲で音声認識を実行するステップと、
その音声認識によって得られた前記キーワード音声出力時刻を、予め定められた補正時間に基づいて前記チャプタ候補時刻を補正するステップ
を具備する番組録画方法。
請求項６から８の何れか一項に記載の番組録画方法において、
さらに、
（ｆ）前記映像音声データに対応する字幕放送が生放送番組であるか録画放送番組であるかを示す番組種別情報を生成し、前記番組種別情報と前記映像音声データとを対応付けて前記書き込み用映像音声データを生成するステップと、
（ｇ）前記書き込み用映像音声データに含まれる前記番組種別情報に基づいて、前記チャプタ候補時刻を補正するステップ
を具備する番組録画方法。
コンピュータを
字幕放送を受信する受信手段から供給される字幕データ付テレビジョン信号に応答して、前記字幕データ付テレビジョン信号から字幕データと映像音声データとを抽出するデコーダ手段と、
前記字幕データと前記映像音声データとに基づいてチャプタ付映像音声記録媒体を生成する書き込み用映像音声データ生成手段
として機能させるプログラムであって、
前記書き込み用映像音声データ生成手段に、
（ａ）前記デコーダ手段から供給される前記字幕データと前記映像音声データとを受け取るステップと、前記映像音声データは前記字幕放送の映像データと音声データとを含み、
（ｂ）予め設定されたキーワードが字幕として表示される時刻をチャプタ候補時刻として特定し、前記キーワードと前記チャプタ候補時刻とを対応付けて初期チャプタ情報テーブルを生成するステップと、
（ｃ）前記チャプタ候補時刻に対応付けられた前記キーワードが、所定の時間を越えずに再度字幕として出現するとき、前記キーワードが新たに出現する時刻をチャプタ候補時刻として特定することを禁止するステップと、
（ｄ）前記チャプタ候補時刻と前記キーワードに対応する音声が出力される時刻との時間差に基づいてチャプタ設定時刻を特定し、前記チャプタ設定時刻と前記キーワードとを関連付けて前記チャプタ情報テーブルを生成するステップと、
（ｅ）前記字幕データと前記映像音声データと前記チャプタ情報テーブルに示される前記チャプタ設定時刻に基づいて、書き込み用映像音声データに前記チャプタ情報を付与して前記チャプタ付映像音声記録媒体を生成するステップ
を具備する方法を実行するための手順を示し、
前記（ｄ）ステップは、
前記書き込み用映像音声データに含まれる音声データの音声認識を実行して前記キーワードが音声として出力される時刻をキーワード音声出力時刻として特定するステップと、
前記キーワード音声出力時刻と前記チャプタ候補時刻との時間差に基づいて、前記チャプタ候補時刻を補正するステップ
を具備する
番組録画プログラム。
請求項１１に記載の番組録画プログラムにおいて、
前記（ｂ）ステップは、
前記キーワードと前記チャプタ候補時刻とを関連付けたレコードを生成して前記初期チャプタ情報テーブルを構成するステップと、
前記チャプタ候補時刻に対応付けられた前記キーワードが、所定の時間を越えて再度字幕として出現するとき、前記キーワードが新たに出現する時刻を新たなチャプタ候補時刻として特定するステップと
前記チャプタ候補時刻と前記新たなチャプタ候補時刻との時間差であるキーワード出現間隔と前記新たなチャプタ候補時刻と前記キーワードとを関連付けて新たなレコードを生成するステップと、
前記レコードの総数が所定の数を超えるとき、前記出現間隔が短いレコードを削除して、新たなレコードを前記初期チャプタ情報テーブルに追加するステップ
を具備する
番組録画プログラム。
請求項１２に記載の番組録画プログラムにおいて、
前記（ｄ）ステップは、さらに、
前記チャプタ候補時刻を基準時刻として所定の時間範囲で音声認識を実行するステップと、
前記時間範囲で実行された音声認識により、前記キーワードに対応する音声が認識されるとき、その認識された時刻を前記キーワード音声出力時刻として特定するステップと、
前記時間範囲で実行された音声認識により、前記キーワードに対応する音声が認識されないとき、前記キーワードの音声認識を開始する時刻と前記チャプタ候補時刻との時間差に基づいて、前記チャプタ候補時刻を補正するステップ
を具備する
番組録画プログラム。
請求項１３に記載の番組録画プログラムにおいて、
前記（ｄ）ステップは、さらに、
予め定められた認識時間に基づいて音声認識を開始する音声認識開始時刻を特定し、特定された前記音声認識開始時刻から所定の時間範囲で音声認識を実行するステップと、
その音声認識によって得られた前記キーワード音声出力時刻を、予め定められた補正時間に基づいて前記チャプタ候補時刻を補正するステップ
を具備する
番組録画プログラム。
請求項１１から１４の何れか一項に記載の番組録画プログラムにおいて、
前記コンピュータを、さらに、
前記映像音声データを処理して前記書き込み用映像音声データを生成する画像処理手段として機能させ、
前記書き込み用映像音声データ生成手段に、さらに、
（ｆ）前記映像音声データに対応する字幕放送が生放送番組であるか録画放送番組であるかを示す番組種別情報を生成し、前記番組種別情報と前記映像音声データとを対応付けて前記書き込み用映像音声データを生成するステップと、
（ｇ）前記書き込み用映像音声データに含まれる前記番組種別情報に基づいて、前記チャプタ候補時刻を補正するステップ
を具備する方法を実行させる
番組録画プログラム。