JP5649769B2

JP5649769B2 - 放送受信装置

Info

Publication number: JP5649769B2
Application number: JP2007337558A
Authority: JP
Inventors: 正憲西森; 和也千藤
Original assignee: Kyocera Corp
Current assignee: Kyocera Corp
Priority date: 2007-12-27
Filing date: 2007-12-27
Publication date: 2015-01-07
Anticipated expiration: 2027-12-27
Also published as: JP2009159483A

Description

本発明は、放送受信装置に関し、特に字幕放送を表示することができるデジタル放送受信装置に関するものである。

近年、携帯電話のような無線通信端末は非常に数多くのユーザに広く使用されている。最近の携帯電話は、端末本体に、例えばデジタルカメラやＧＰＳ（Global Positioning System）による位置検出機能などの様々な機能部およびアプリケーションが搭載され、ますます多機能化しており、ユーザにとっての利便性は格段に向上してきている。

特に、最近は、携帯電話・移動体端末向けの１セグメント部分受信サービス（以下、ワンセグ放送という）による地上デジタルテレビジョン放送（以下、デジタル放送という）の受信機能を搭載した携帯電話が急速に普及しつつある。このような、ワンセグ放送を受信することでデジタル放送を視聴できる携帯端末を用いることにより、放送波の届くエリア内であれば、視聴する場所に関わらず、例えば移動中であっても、デジタル放送を視聴することが可能である。

デジタル放送においては、画面上に重畳表示される各種の字幕を表示することが標準機能として規格され、特別な機器を用いることなく字幕を用いた放送を視聴することが出来るようになった。デジタル放送の字幕放送は、アナログ放送の字幕放送とは異なり、放送を受信する端末側で、字幕の表示／非表示の設定や、複数提供される字幕から所望の字幕を選択することが可能である。字幕管理データを用いることにより、送信側にて、受信側端末における個々の字幕の表示形態を操作することもできる。

このデジタル放送の字幕放送では、従来のアナログ放送のように、例えば英語で話される発言内容が日本語に翻訳された字幕を表示するような番組だけではなく、例えば日本語で話される発言内容に対して日本語の字幕が提供される番組も多い。このような母国語の字幕の提供により、聴力に障害を持つユーザでも番組内容を把握することができるのみならず、例えば公共の場所など音を出すことが望ましくないような場所であっても、イヤホンなどを使用することなく画面の目視のみで番組内容を充分に把握することが可能である。

さらに、デジタル放送の字幕放送においては、１つのチャンネルに付与される周波数帯域幅のうち、１２セグメント（ハイビジョン放送）を使用する据置型の受信機向けと、１セグメントを使用する携帯受信端末向け（ワンセグ放送）とで異なる字幕が提供され、それぞれに字幕の内容および表現形式などにおいて異なるものが放送されている。

このデジタル放送の字幕機能としては、大きく分類して、表示態様に関する機能と、表示制御に関する機能とがある。表示態様に関する機能には、書式（縦書き、横書き、混在）、文字種（漢字、仮名など）、フォント指定、外字、文字サイズ、文字色（文字単位で２５６色の着色が可能）、文字属性（反転、フラッシング、アンダーラインなど）などがあり、表示制御に関する機能には、表示タイミング、消去タイミング、カット、ディゾルブなどがある。また、１ＥＳ（Elementary Stream）あたり、最大８言語まで拡張させて字幕を扱うことが可能である。地上デジタル放送における字幕放送の仕様の詳細は、ＡＲＩＢ（Association of Radio Industries and Broadcast：社団法人電波産業会）による標準規格ＳＴＤ−Ｂ２４「デジタル放送におけるデータ放送符号化方法と伝送方式」の技術報告書ＴＲ−Ｂ１４に規定されているため、より詳細な説明は省略する。

ところで、最近では、受信したワンセグ放送によるデジタル放送を、本体に内蔵したメモリ（またはメモリカードなど）に録画することができる携帯端末も既に市販されている。

上述した字幕情報も共に録画した番組を再生する場合、この字幕情報だけを表示することにより、ユーザは番組の流れを追うことができ、番組によってはその内容を充分に把握することが可能である。このため、例えば、録画した番組を通して視聴する時間的な余裕がない場合や、番組の重要部分を中心とする概略のみを知りたいような場合に、番組内で表示される字幕のみ（映像および音声を省いて）をまとめて表示させることで、実際に番組を再生して最初から最後まで全てを視聴する場合に比べて、番組の内容を把握するのに必要な時間が著しく低減される。

デジタル放送の番組内で表示される字幕を記録・保存する技術は、既に開示されている（例えば、特許文献１参照）。特許文献１に記載の字幕処理装置は、デジタル放送の信号波に含まれている字幕データをデコード処理して、この字幕データに含まれるテキストデータをデータ蓄積部に蓄積し、これを描画データに変換してテレビジョンの受信映像と合成して出力することができる。したがって、この字幕処理装置を用いることにより、デジタル放送の番組内で表示された字幕データに含まれるテキストデータを保存して、保存したテキストデータの字幕を、そのテキストデータに関する属性情報と共にテレビモニタに表示したり、外部装置に出力したりすることも可能である。

特開２００３−７８８８９号公報

しかしながら、上記特許文献１に記載の字幕処理装置は、当該発明が解決すべき課題にて、番組放送中に字幕で「郵便あて先情報」や、「ＷｅｂサイトのＵＲＬ情報」や、「番組への問合せ情報」などが表示された際に、ユーザがいちいちメモなどに残したりする必要をなくすという利便性の向上を掲げており、番組中に表示される全ての字幕を保存するような用途は想定していない。

そのため、上記特許文献１に記載の技術を用いて番組全体の字幕を全てテキストデータとして保存して、その字幕をその後画面表示する場合には、字幕の１つ１つを選択して表示する必要があり、字幕を用いて番組内容を短時間で把握することを目的とするような場合には著しく手間がかかることになる。

また、特許文献１に記載の技術は、そもそも番組全体の字幕を全てまとめて表示することを想定していない。そのため、例えば、字幕の１つ１つを外部装置に出力することで、出力先の外部装置側で全ての字幕をまとめて表示するような措置を講じたとしても、表示上の工夫をせずに字幕を並べて表示しただけでは、番組によっては、字幕が読みにくくなったり、発言者の区別が付きにくくなったりするなどの不具合が生じる恐れもある。

さらに、たとえ字幕を用いて番組内容を短時間で把握することが主目的の場合でも、本来は映像と音声により構成されていたデジタル放送が、字幕の文字情報のみに間引きされてしまうと、番組の構成によっては、臨場感が著しく損なわれるのみならず、必要または重要な情報を逃してしまう恐れもある。番組内で極めて重要な情報が映像または音声により提供される場合には、番組内容の概略すら正確に把握することが困難になることも予想され、これでは番組内容を短時間で把握するという目的を達成することは困難である。

したがって、かかる事情に鑑みてなされた本発明の目的は、デジタル放送で放送される番組の内容を短時間に把握することができ、かつ特徴的な情報については映像または音声などによる補助を提供することができる放送受信装置を提供することにある。

上記目的を達成する請求項１に係る放送受信装置の発明は、
ストリーム信号を受信する受信部と、
該受信部が受信したストリーム信号に含まれている字幕データをマークアップ言語に変換する変換部と、
該変換部により変換されたマークアップ言語を記憶すると共に、前記字幕データを構成する文字列のうち特定の文字または文字列と、その特定の文字または文字列に対応する前記ストリーム信号に含まれている音声データ、映像データ、データ放送用データのうち少なくとも１つと、を関連付けて記憶する記憶部と、
を有することを特徴とするものである。

請求項２に係る発明は、請求項１に記載の放送受信装置において、
前記記憶部は、前記音声データ、映像データ、またはデータ放送用データのうち少なくとも１つへのリンク情報を、前記文字または文字列に関連付けて記憶することを特徴とするものである。

請求項３に係る発明は、請求項１または２に記載の放送受信装置において、
ストリーム信号に含まれる音声データの音量情報を解析する音量解析部をさらに有し、
前記記憶部は、前記字幕データを構成する文字列の修飾形態を定義する文字属性情報を、前記音量解析部により解析される音声データの音量情報に応じて、前記文字または文字列に関連付けて記憶することを特徴とするものである。

請求項４に係る発明は、請求項１〜３のいずれか１項に記載の放送受信装置において、
前記記憶部は、表示単位の字幕データを構成する文字列と同一の文字列を既に記憶している場合、当該表示単位の字幕データを記憶しないことを特徴とするものである。

請求項５に係る発明は、請求項１〜４のいずれか１項に記載の放送受信装置において、
前記記憶部は、第１字幕データを構成する文字列と第２字幕データを構成する文字列とを、同一の表示タイミングにおいて同一の文字列が重複しないように併合して記憶することを特徴とするものである。

本発明によれば、字幕データをマークアップ言語に変換して記憶部に記憶し、さらに字幕データの特定の文字列に対応する音声データや映像データなどを、特定の文字列に関連付けて記憶するようにしたので、デジタル放送の番組内容を字幕により短時間に把握することができるだけでなく、特徴的な情報については映像または音声などの付加的な情報も得ることができる。したがって、番組内容の把握についての迅速性と、番組特有の臨場感などの娯楽性および視聴覚的情報の把握容易性とを両立させることが可能になる。

以下、本発明の実施の形態について、図面を参照して説明する。以下の各実施の形態においては、本発明の放送受信装置の一例として、例えばワンセグ放送を受信可能な携帯電話のような携帯端末を想定して説明するが、本発明の放送受信装置は携帯電話に限定されるものではなく、例えばＰＤＡなどの任意の携帯型デジタル放送受信装置および据置型のテレビジョン受信機に適用することも可能である。また、本発明は、放送受信装置が受信するデジタル放送についてもワンセグ放送に限定されるものではなく、フルセグ放送（ＨＤＴＶ）を受信する放送受信装置に適用することも可能である。

（第１実施の形態）
図１は、本発明の第１実施の形態に係る放送受信装置の概略構成を示す機能ブロック図である。

放送受信装置１００は、ワンセグ放送によるデジタル放送を視聴するためのテレビジョン受信機能を搭載しており、全体を制御する制御部１０と、地上デジタル放送の放送波を受信する受信部を構成する放送受信用のアンテナ部１１およびチューナ部１２とを有している。放送受信装置１００は、アンテナ部１１で、デジタル放送の放送波を受信する。チューナ部１２は、アンテナ部１１で受信された受信信号（ＲＦ信号）を、制御部１０からの周波数（チャンネル）指定命令に基づいてチューニングする。復調部１３は、チューナ部１２でチューニングされた放送波を、トランスポートストリーム（ＴＳ）信号に復調して分離部１４に供給する。分離部１４は、復調されたＴＳ信号を、パケットＩＤに応じて、音声パケット、映像パケット、字幕パケット、データ放送パケットに分離する。分離部１４でＴＳ信号から分離された音声パケットは音声デコード部１５に、映像パケットは映像デコード部１６に、字幕パケットは字幕デコード部１７に、データ放送パケットはデータ放送デコード部１８に入力される。

音声デコード部１５は、入力された音声パケット内の音声データをデコードしてスピーカ１９に出力し、スピーカ１９は音声デコード部１５から出力される音声を出力する。映像デコード部１６、字幕デコード部１７は、それぞれ入力された映像パケット内の映像データ、字幕パケット内の字幕データをデコードして画面制御部２０に出力する。データ放送デコード部１８は、入力されたデータ放送パケット内のＢＭＬ（Broadcast Markup Language）を基に画面イメージを作成して画面制御部２０に出力する。画面制御部２０は、制御部１０からの命令に基づいて、映像デコード部１６、字幕デコード部１７、データ放送デコード部１８よりそれぞれ出力される映像、字幕テキスト、ＢＭＬに基づく画面イメージを映像表示部２１に表示する。このようにして、ワンセグ放送の字幕付き映像、データ放送および音声を視聴することができる。ワンセグ放送による字幕放送およびデータ放送を視聴する際の受信装置の通常の動作は公知技術であるため、より詳細な説明は省略する。

さらに、放送受信装置１００は、入力されるデータをＨＴＭＬ形式に変換して出力する変換部２２と、各種情報を記憶する記憶部２３とを備えている。変換部２２は、字幕デコード部１７から出力される字幕テキストを元に、字幕の文字列をＨＴＭＬ形式に変換する。記憶部２３は、入力した情報および各種アプリケーション等を記憶する他、ワークメモリやバッファなどとしても機能する。記憶部２３はさらに、ＨＴＭＬ形式に変換した字幕の文字列を記憶する字幕ファイル記憶部２４と、音声デコード部１５が出力する音声データを記憶する音声データ記憶部２５と、映像デコード部１６が出力する映像データを動画像または静止画として記憶する映像データ記憶部２６と、データ放送デコード部１８が出力するＢＭＬ（データ放送用データ）を記憶するデータ放送用データ記憶部２７と、を有している。この記憶部２３にデジタル放送を録画することにより、放送終了後にデジタル放送を再生することができる。デジタル放送の通常の録画および再生動作も公知技術であるため、より詳細な説明は省略する。

次に、図２のフローチャートを参照して、本実施の形態による、字幕を保存する動作について説明する。本実施の形態では、デジタル放送の番組が放送されている間に実際にその番組をリアルタイムで視聴するか否かに関わらず、デジタル放送を受信中にその字幕を記憶して、後からその字幕のみを読むことができるようにする。この字幕の保存動作は、従来のデジタル放送録画機能と同様に、番組視聴中のユーザ操作に基づいて開始することも、または予約録画のように予め設定した時刻になると字幕保存動作が自動的に行われるようにすることもできる。

まず、ユーザが所望するデジタル放送の番組（チャンネル）を、チューナ部１２の選局によりアンテナ部１１で受信するところからスタートする。次に、復調部１３は、受信した放送受信信号（ＲＦ信号）からトランスポートストリーム（ＴＳ）パケットを取り出す（ステップＳ１１）。さらに分離部１４は、取り出されたＴＳパケットを、パケットＩＤに応じて音声パケット、映像パケット、データ放送パケット、および字幕パケット等に分離するが、ここでは特に字幕パケットに着目して説明する（ステップＳ１２）。

次に、字幕デコード部１７は、分離部１４より入力された字幕パケット内の字幕データをデコードして字幕テキストを出力し、制御部１０は、字幕デコード部１７から出力される字幕テキスト情報から、表示単位ぶんの字幕を抽出する（ステップＳ１３）。字幕テキスト情報には、字幕を構成する文字または文字列、および表示する際の文字色などが含まれる。表示単位ぶんの字幕が抽出されたら、変換部２２は、これらの字幕テキスト情報を利用して、字幕を構成する文字または文字列を、マークアップ言語として一般的なＨＴＭＬ形式に変換する（ステップＳ１４）。

ステップＳ１４にて、字幕を構成する文字または文字列をＨＴＭＬ形式に変換する際には、字幕の表示単位をそのまま羅列して変換すると、字幕を映像表示部２１に表示した際に見難く、字幕の内容を発言した話者が特定できなくなる恐れがある。このため、本実施の形態では、この字幕のＨＴＭＬ形式への変換前に、字幕が読み難くならないような措置を講じる。

具体的には、字幕をＨＴＭＬ形式に変換する際に、例えば、発言者を単位として、その発言内容を示す字幕の文字列が終了した時点で改行を入れる。これにより、発言者が明示されていない字幕であったとしても、改行を目印に発言者が替わったということがわかり、ＨＴＭＬ形式において、字幕を見易く表示することができる。なお、通常、字幕の表示単位は発言者単位であることが想定されるため、ＨＴＭＬ形式に変換する際には、表示単位毎に改行を入れることにより、発言者単位で改行を入れることができる。また、実際に番組を視聴する際に、映像表示部２１に複数の登場人物の発言内容が同時に字幕で表示されることもある。このような場合にも、字幕を構成する文字または文字列をＨＴＭＬ形式に変換する際に、発言者単位で字幕を改行して人物ごとに文字列を分けるようにすれば、発言者を混同してしまうようなことは生じない。

さらに、デジタル放送の字幕では、例えば「（ドアを開ける音）」のように、背景に流れる効果音や状況の説明などが字幕で現れることもある。このような字幕についても、ＨＴＭＬ形式に変換する際には、１つの表示単位として、その前後で改行を入れる。これにより、ＨＴＭＬ形式において字幕を読み易く表示することができる。また、登場人物のセリフが長い場合などに、映像表示部２１に収まりきらない字幕がまだ続くことを示す文字「→（右矢印）」がある場合には、同一人物の字幕文字列とみなして、ＨＴＭＬ形式では連続して表示するのが好適である。

その他、ＨＴＭＬ形式においてさらに複数発言者の字幕を読み易くする措置として、例えば、字幕テキスト情報において、発言内容を示す字幕に「Ａさん：（実際のセリフ）」のように発言者の名前が与えられている場合には、変換部２２は、字幕をＨＴＭＬ形式に変換する際に、この発言者の名称に基づく表示単位で、改行を入れたり表示色を変更するなど、字幕を読み易くする措置を講じる。また、デジタル放送では、字幕を表示する際に、発言者別に色分けして表示することもあり、ＨＴＭＬ形式への変換時に、このような字幕の表示色をそのまま（字幕テキスト情報に基づいて）用いたり、または、このような字幕の表示色に基づいて新たな色を人物別に設定したりすることも、ＨＴＭＬ形式に変換した後の字幕を読み易くするのに有効な方法である。

続いて、制御部１０は、ステップＳ１４にてＨＴＭＬ形式に変換された字幕データを、記憶部２３の字幕ファイル記憶部２４に記憶する（ステップＳ１５）。

ここで、字幕ファイル記憶部２４に記憶されるＨＴＭＬ形式の字幕データの一例を図３に示す。図３は、図４の（Ａ）および（Ｂ）に例示するようなデジタル放送の番組内で表示された字幕をＨＴＭＬ形式に変換したものである。デジタル放送の一例として、図４（Ａ）から時間の流れと共に図４（Ｂ）のように番組が進行し、それに伴って登場人物のセリフが字幕として表示される場合、そのセリフの字幕データが抽出され、図３に示すようなＨＴＭＬ形式の字幕データが字幕ファイル記憶部２４に記憶される。図３に示す例では、登場人物であるＡさんのセリフを赤で、Ｂさんのセリフを青で、Ｃさんのセリフを黄色で表示するように色指定している。

ＨＴＭＬの記述形式では種々の要素を用いて文字修飾を行うことができる。図３においては、字幕の内容をP要素によって囲うことで、Paragraph（段落）として扱っているが、字幕の範囲を指定する要素はＰ要素に限定されるものではなく、他に例えばＤＩＶ要素のようなブロック要素などを用いることもできる。また、図３においては、文字色（フォントの色）の指定をＦＯＮＴ要素により行っているが、これもＦＯＮＴ要素のみに限定されるものではなく、例えばＣＳＳ（カスケーディングスタイルシート）を用いて、そこに記述することにより表示色の指定をしてもよい。

次に、制御部１０は、デジタル放送の番組の終了、またはユーザによる字幕の記憶動作を中止する操作などに基づいて、字幕の記憶動作が全て終了したか否かを判定する（ステップＳ１６）。まだ字幕の記憶動作が継続している場合には、ステップＳ１１に戻って動作を続行する。字幕の記憶動作が終了した場合には、制御部１０は、字幕ファイル記憶部２４に記憶されているＨＴＭＬ形式の字幕データを、１つのＨＴＭＬファイルにまとめて、番組属性情報を付加して字幕ファイル記憶部２４に記憶する（ステップＳ１７）。

このとき、字幕データをまとめて１つのＨＴＭＬファイルとして記憶する際のファイル名は、デジタル放送の番組情報であるＳＩ（Service Information）情報に含まれる番組の属性情報を利用して、例えば番組のタイトル、放送回などを含めて記憶するようにするのが好適である。例えば、図４に示した番組のタイトルが『水曜ドラマ「平凡な日々」』であり、放送回が第２話目で、２００７年１２月１０日の午後１２：３０からの３０分番組であった場合には、制御部１０は、その字幕データを１つにまとめたＨＴＭＬファイル（以下、字幕ＨＴＭＬファイルという）に、例えば「２００７１２１０１２３０＿水曜ドラマ「平凡な日々」＿第２話．ｈｔｍｌ」のようなファイル名を付与して字幕ファイル記憶部２４に記憶するよう制御する。これにより、１つの番組の字幕保存動作が終了する。したがって、本実施の形態では、記憶部２３以外に、制御部１０も含めて広義の「記憶部」として動作する。

このようにして、字幕ファイル記憶部２４に記憶された字幕ＨＴＭＬファイルを、字幕ファイル記憶部２４から読み出して映像表示部２１に表示することにより、ユーザは番組の内容を字幕のみで追うことができ、極めて短時間で番組内容を把握することができる。図４（Ｃ）は、字幕ＨＴＭＬファイルを映像表示部２１に表示した一例を示している。図４（Ａ）および（Ｂ）に例示したようなデジタル放送の番組の字幕は、図４（Ｃ）に示すように、登場人物別（発言者別）に色を分けるなどの処理が行われて、タイトルなどの番組属性情報と共に、後から読み易い態様で映像表示部２１に表示される。ユーザは、このような字幕ＨＴＭＬファイルに基づく表示を一読するだけで、番組内容を把握することができるため、実際に番組を映像および音声情報により視聴する場合に比べて、内容の把握に要する時間を極めて少なくすることができる。

さらに、字幕ファイル記憶部２４に記憶された字幕ＨＴＭＬファイルは、ＨＴＭＬ形式で記述されたデータを閲覧できるブラウザを内蔵した端末であれば任意のもので閲覧することができる。そのため、デジタル放送を受信する機能がない他の端末であっても、ＨＴＭＬ形式のファイルを閲覧可能なブラウザを搭載していれば、例えばこの字幕ＨＴＭＬファイルを、放送受信装置１００から赤外線通信などの通信により取得したり、メモリカードのような記憶メディアを用いて放送受信装置１００から取得して、取得した字幕ＨＴＭＬファイルを閲覧することでデジタル放送の番組内容を把握することができる。

次に、図５のフローチャートを参照して、字幕ＨＴＭＬファイルを読む際の時間的な効率をさらに向上させるために、所定範囲内において字幕が重複しないように保存する動作について説明する。これは、図２で説明した、通常の字幕保存の動作に加えて、字幕を字幕ファイル記憶部２４に記憶する際に、既にその字幕の文字列が記憶されている場合には当該字幕の文字列を記憶しないようにする。

ステップＳ１１〜ステップＳ１３の動作は上述した図２の説明と同じであり、放送受信装置１００は、受信したトランスポートストリーム（ＴＳ）から字幕パケットを分離して、字幕パケット内の字幕データをデコードして得られる字幕テキスト情報から、表示単位ぶんの字幕を抽出する。次に、制御部１０は、字幕テキスト情報から抽出した表示単位ぶんの字幕と、既に字幕ファイル記憶部２４にＨＴＭＬ形式で記憶されている字幕とを比較する（ステップＳ２１）。この比較の結果、字幕ファイル記憶部２４に記憶されたＨＴＭＬ形式の字幕の文字列のうち、最後に記憶された字幕から遡って所定の範囲内にて、字幕テキスト情報から抽出した字幕と一致する字幕が存在しない場合には（ステップＳ２２でＮｏ）、当該抽出した表示単位ぶんの字幕をＨＴＭＬ形式に変換して字幕ファイル記憶部２４に記憶する（ステップＳ１４）。以後は図２の説明と同じ動作になる。

ステップＳ２２にて、字幕ファイル記憶部２４にＨＴＭＬ形式で記憶された字幕の文字列のうち、最後に記憶された字幕から所定の範囲内にて、字幕テキスト情報から抽出した字幕と一致する字幕が存在する場合には（ステップＳ２２でＹｅｓ）、当該抽出した表示単位ぶんの字幕は、既にＨＴＭＬ形式で記憶が完了している字幕と重複するものとみなして、この表示単位の字幕についてはＨＴＭＬ形式での記憶の処理を行わずにステップＳ１６に移行する。

なお、ステップＳ２２にて字幕の文字列の重複を判定する所定の範囲の設定を広くし過ぎると、番組の中で時間的に離れた箇所で発言されたセリフの字幕がたまたま一致する場合にも、その重複箇所を省いてしまう。したがって、重複を判定する範囲を、字幕の文字列（例えば字幕の表示単位ぶんいくつ前まで遡って重複を判定するか）または、番組に応じた時間（例えば何分前まで遡って重複を判定するか）などに基づいて予め適切に設定しておく。

このようにすることで、番組の内容に重複がみられるような箇所があった場合でも、字幕は、その重複部分を省いて記憶されるため、字幕ＨＴＭＬファイルを閲覧して番組内容を把握する際の時間的な効率をさらに向上させることができる。

例えば、最近のテレビ番組では、図６に示すように、コマーシャルを挟んでその前後に重複した内容を放送する番組が多い。図６は、（Ａ）〜（Ｆ）まで、番組の一例を時間の経過に沿って示したものである。このような番組では、図６の（Ａ）から（Ｂ）まで番組が進行した後に、図６（Ｃ）のコマーシャルになり、その後コマーシャルが終了すると、視聴者に対するリマインダとして、図６（Ｄ）から（Ｅ）の部分のように、コマーシャル前の番組内容を一部（図６の（Ａ）から（Ｂ））含んだ態様で番組の続きが始まる。重複する内容が終わったところでようやく、図６（Ｆ）に示すような新しい内容に移行することになる。

このような、重複した内容を含む番組に対して、そのまま字幕を記憶する処理を行うと、図７（Ａ）に示すように、一部重複した字幕に目を通さざるを得なくなる。番組中に何度もコマーシャルを挟むような番組である場合には、このような重複は、急いで番組内容を把握しようとする際には、煩わしいだけでなく、番組の内容を把握するのに要する時間を増大させる。このような番組に対して、上述した字幕の重複を省いて記憶する動作を行うことにより、図７（Ｂ）に示すように、字幕が読み易いだけでなく、字幕を読むのに要する時間を低減させることができる。

次に、複数種類の異なる字幕が提供される番組の字幕を保存する動作について説明する。地上デジタル放送では、例えば、第１字幕と第２字幕のように、複数の異なる字幕を切り替えて使用することができる。複数の字幕には、例えば英語の字幕と、それを翻訳した日本語の字幕のように、全く異なる文字列が割り当てられる場合と、第１および第２字幕の両方とも日本語で、相互に多少異なる文字列が割り当てられる場合がある。

例えば番組がドラマの場合、第１字幕は登場人物のセリフのみが字幕になり、第２字幕においては登場人物のセリフに加えて、さらに人物の動作や状況説明などの詳細が字幕により提供される場合もある。この場合のように、同一言語による２種類の字幕で、片方の字幕がもう片方の字幕の文字列を完全に内包するような場合には、詳細な方の字幕を読むことにより全ての字幕情報に目を通すことができる。しかしながら、第１字幕と第２字幕とで、互いに似てはいるものの、それぞれに若干異なる文字列を有する字幕による放送において、全ての字幕情報に目を通したい場合には、両方の字幕を全て読むことが必要であり、時間と手間が増大する。このような場合には、相互に似た複数の字幕を１つの字幕ファイルにマージすることで、１つの字幕に目を通すだけで、実際には第１および第２字幕の双方に目を通したことになる。

図８は、本実施の形態による、複数の字幕をマージして保存する動作を説明するフローチャートである。ステップＳ１１〜ステップＳ３３は、図２で説明したステップＳ１１〜ステップＳ１３の動作に似ているが、ここでは、受信したトランスポートストリーム（ＴＳ）から字幕パケットを分離して、字幕パケット内の字幕データをデコードして得られる字幕テキスト情報から、表示単位ぶんの字幕を抽出する際には、第１および第２の字幕について、それぞれ同じ動作を行う。なお、このようにストリームから複数種類の字幕データを分離してデコードする場合には、図１で説明した字幕デコード部１７を複数設ける。

次に、制御部１０は、抽出した第１および第２の字幕の表示単位を比較する（ステップＳ３３）。この比較の結果、ステップＳ３４にて、両字幕の表示単位に一致した部分がある場合には、これら第１および第２の字幕データのうち、重複する部分の一方を削除して、重複を除いた文字列を１つの表示単位として変換部２２に出力する。変換部２２は、この重複が除かれた文字列の表示単位をＨＴＭＬ形式に変換する（ステップＳ３５）。その後、ＨＴＭＬ形式に変換された字幕データを字幕ファイル記憶部２４に記憶する動作以降は、図２および図５で説明した動作と同じになる（ステップＳ１５〜ステップＳ１７）。

また、ステップＳ３４にて、両字幕の表示単位に一致した部分がない場合には、これら第１および第２の字幕データの文字列の双方を１つの表示単位として合成して変換部２２に出力する。変換部２２は、この文字列の表示単位をＨＴＭＬ形式に変換してから（ステップＳ３６）、字幕ファイル記憶部２４に記憶する動作に移行する（ステップＳ１５）

このような処理により、相互に似て非なる複数種類の字幕を、共通部分の重複を避けて１つの字幕ＨＴＭＬファイルとして保存するので、複数種類の字幕に効率良く目を通せるとともに、各字幕間の対応関係も理解し易くなる。

例えば、第１字幕では図９（Ａ）に示すような文字列の字幕が、第２字幕では図９（Ｂ）に示すような文字列の字幕が放送されていたとする。第１字幕では、登場人物のセリフと共に、発言した登場人物の人物名が字幕で与えられている。第２字幕では、登場人物のセリフの他に状況説明が字幕で与えられているが、登場人物名は与えられていない。このような第１および第２字幕をマージする処理を行うことにより、図９（Ｃ）に示すように、双方の字幕に含まれる情報を漏れなく、かつ重複なく示すことができる。このようにマージした字幕を読むことにより、短時間に漏れなく番組内容に目を通すことができる。

なお、２つの似た文字列から重複部分を除いて１つの文字列を作成する技術には、上述のような比較を行うものだけでなく、他にも既存のマッチング技術が各種存在する。このような公知技術を用いて重複を除いて字幕ファイルのマージを行うこともできる。

以上、字幕を用いることにより、短時間でデジタル放送の内容を把握することができる放送受信装置の動作について説明したが、本来は音声情報および映像情報を伴ったデジタル放送の番組であったものから、字幕のみを記憶して音声も映像も省略してしまうと、番組内容によっては、内容の把握が困難になったり、臨場感が著しく失われたりすることも考えられる。

このような事情に鑑みて、以下、図１０のフローチャートを参照しながら、字幕中の特定の文字列に対応する音声データを保存して、当該特定の文字列からのリンクにより音声データの出力を可能にする動作について説明する。

図１０のステップＳ１１〜ステップＳ１３の動作は図２の説明と同じであり、受信したトランスポートストリーム（ＴＳ）から字幕パケットを分離して、字幕パケット内の字幕データをデコードして得られる字幕テキスト情報から、表示単位ぶんの字幕を抽出する。次に、制御部１０は、抽出した表示単位ぶんの字幕の中に、音声データが出力される際に表示される文字または文字列が含まれているか否かを判定する（ステップＳ４１）。デジタル放送においては、登場人物のセリフの他に、音楽や効果音などの音声データが出力される際に、当該音楽や効果音が流れていることを表す文字または文字列を字幕にて表示する場合がある。具体的には、例えば音楽が流れる時には、字幕として「♪(音符)」のマークが表示されたり、例えばドラマの中で電話が鳴るシーンでは「電話機マーク」が表示されたりする。このような措置により、ユーザは、例えば音を出さないような設定にしてデジタル放送を視聴している際であっても、番組の放送中に音楽や効果音が出力されたことを知ることができる。このように、番組の進行上特徴的と想定される音楽や効果音が発生する際に表示される文字または文字列を予め設定して記憶部２３に記憶しておく。

ステップＳ４１にて、上述した音を表す文字または文字列が検知された場合には、制御部１０は、その文字または文字列が字幕として表示されている間に出力される音声データを、音声デコード部１５でデコードされる音声データから抽出して、記憶部２３の音声データ記憶部２５に記憶する（ステップＳ４２）。さらに、制御部１０は、このようにして音声データ記憶部２５に記憶された音声データに関連付けたリンク情報を、音を表す文字または文字列に付加して、このリンク情報を含む字幕データを変換部２２に出力し、変換部２２は、このリンク情報を含む字幕データをＨＴＭＬ形式に変換する（ステップＳ４３）。このＨＴＭＬ形式に変換された字幕データを字幕ファイル記憶部２４に記憶し（ステップＳ１５）、これ以降は図２で説明した動作と同じになる。

また、ステップＳ４１にて、表示単位ぶんの字幕の中に音を表す文字または文字列が検知されない場合には、図２および図５のステップＳ１４と同様に、変換部２２は、この字幕データをそのままＨＴＭＬ形式に変換して（ステップＳ４４）、制御部１０は、ＨＴＭＬ形式に変換された字幕データを字幕ファイル記憶部２４に記憶する（ステップＳ１５）。

このようにして記憶した字幕ＨＴＭＬファイルおよび音声データのファイルを、ブラウザを用いて閲覧可能に表示する際は、字幕ＨＴＭＬファイルのうち、音声データと関連している特定の文字または文字列を、音声データへのリンクが付されていることがユーザにわかるような態様で表示する。そして、音声データへのリンクが付された特定の文字または文字列がユーザ操作に基づいて選択されると、制御部１０は、そのリンク先の音声データを音声データ記憶部２５から読み出し、当該音声データをスピーカ１９から出力する。

このようにすることで、番組の内容を示す字幕ＨＴＭＬファイルをブラウザで閲覧する際に、基本的には字幕を読み進めることで番組内容を迅速に把握することができ、番組の進行上音声が特徴的であるような箇所においては、その時点で流れていた音声を聴くこともできる。

例えば図１１（Ａ）に示すように、字幕を保存したデジタル放送の番組が音楽番組であった場合、音楽が演奏されている間は「♪(音符)」マークが表示され、その番組の字幕をＨＴＭＬ形式で保存して、後から字幕を読む際には、図１１（Ｂ）のような表示がされる。ここでは、「♪(音符)」マークが字幕を構成する文字として表示されており、この「♪(音符)」マークはクリックなどの動作により選択可能となっている。この「♪(音符)」マークが選択されると、例えば図１１（Ｃ）に示すように、その字幕が表示されていた間に流れていた音声ファイルが再生されて、実際に放送されていた音楽を聴くことができる。

以上、字幕中の特定の文字または文字列に対応する音声データを保存して、当該特定の文字または文字列からのリンクにより音声データの出力を可能にする動作について説明したが、同様にして、音声データ以外に、映像データおよび／またはデータ放送のデータについても、特定の文字または文字列に対応するものを記憶して、当該特定の文字または文字列からのリンクにより、映像データおよび／またはデータ放送用のデータを出力するようにもできる。

まず、図１０のフローチャートにおいて「音声」に関する箇所を「映像」に読み替えて、字幕中の特定の文字列に対応する映像データを保存して当該特定の文字列からのリンクにより映像データの出力を可能にする動作について説明する。この動作を開始するにあたり、番組の進行上特徴的な映像が発生する際に字幕として表示される特定の文字または文字列を予め設定して、記憶部２３に記憶しておく。

ステップＳ４１では、予め設定された、番組の進行上特徴的な映像が発生する際に字幕として表示される特定の文字または文字列を検出し、このような文字または文字列が検出された場合には、制御部１０は、その文字列が表示されている間に出力される映像データを映像デコード部１６から静止画または動画として抽出して、映像データ記憶部２６に記憶する（ステップＳ４２）。さらに、制御部１０は、このようにして映像データ記憶部２６に記憶された映像データに関連付けたリンク情報を、前記特定の文字または文字列に付加して、このリンク情報を含む字幕データを変換部２２に出力し、変換部２２は、このリンク情報を含む字幕データをＨＴＭＬ形式に変換する（ステップＳ４３）。このＨＴＭＬ形式に変換された字幕データを字幕ファイル記憶部２４に記憶し（ステップＳ１５）、これ以降は前述の動作と同じになる。

このようにして記憶した字幕ＨＴＭＬファイルおよび映像データのファイルを、ブラウザを用いて閲覧可能に表示する際は、当該映像データが静止画であれば、映像表示部２１にて、関連する特定の文字または文字列の付近にサムネイルのように表示する。あるいは、静止画へのリンクを付した文字列のみを映像表示部２１に表示して、このリンクを選択するユーザ操作に基づいて当該静止画を表示するようにしてもよい。また、当該画像データが動画であれば、字幕の中で特定の文字または文字列を表示するにあたり、映像データにリンクが張られていることがユーザにわかるような態様で映像表示部２１に表示するようにする。そのリンクを選択する等のユーザ操作に基づいて、制御部１０は、そのリンク先の映像データを映像データ記憶部２６から読み出し、動画を映像表示部２１にて再生する。

このようにすることで、番組の内容を示す字幕ＨＴＭＬファイルをブラウザで閲覧する際に、基本的には字幕を読み進めることで、番組内容を迅速に把握することができ、さらに、字幕中に特定の文字列が発生した際に流れていた映像を見ることもできる。このような特定の文字列に対応する映像のみならず、さらに前述の音声データも記憶する動作と組み合わせることにより、字幕中に特定の文字列が発生した際に流れていた映像および音声の視聴ができるようにすることもできる。したがって、デジタル放送の番組が映像や音楽主体の内容であったとしても、特徴的と判断される映像や音声を逃すことなく視聴でき、他の部分は字幕により短時間で番組内容を把握することができる。

例えば図１２（Ａ）に示すように、字幕をＨＴＭＬ形式で保存した番組がサッカーの試合を放送したものであり、予め、字幕中に「ゴール」という特定の文字列が検出された際の映像および／または音声を記憶するように設定してあるものとする。このような設定により、図１２（Ｂ）に示すように、番組が進行して、字幕に「ゴール」の文字列が表示されると、その字幕が表示されている間の映像を静止画または動画として記憶し、さらに設定に応じてその間の音声も記憶される。この番組の字幕をＨＴＭＬ形式で保存して、ブラウザを用いて字幕を閲覧する際には、図１２（Ｃ）のような表示がされる。「ゴール」の文字と対応して記憶される映像データを静止画とする設定にした場合には、図１２（Ｃ）に示すように、当該特定の文字列のそばにサムネイルのように静止画を表示させることができる。あるいは、最初は「ゴール」の文字列を、映像データへのリンクが付されていることがユーザに認識できるよう選択可能に表示して、その文字列をクリックするなどのユーザによる選択動作に基づき静止画を表示する。また、映像データとして動画を記憶するように設定した場合には、「ゴール」の文字列に付されたリンクをクリックするなどのユーザ操作に基づいて、その動画ファイルを再生する。再生される動画ファイルが音声付きで記憶されたものである場合には、音声付きの動画が再生される。

次に、図１０のフローチャートにおいて「音声」に関する箇所を「データ放送」に読み替えて、字幕中の特定の文字列に対応するデータ放送用データを保存して当該特定の文字列からのリンクによりデータ放送の出力を可能にする動作について説明する。この動作を開始するにあたり、番組の進行上特徴的なデータ放送用データが発生する際に字幕として表示される特定の文字または文字列を予め設定して、記憶部２３に記憶しておく。

ステップＳ４１では、予め設定された、番組の進行上特徴的なデータ放送の表示がなされる際に字幕として表示される特定の文字または文字列を検出し、このような文字または文字列が検出された場合には、制御部１０は、その文字列が表示されている間のデータ放送用データ（ＢＭＬファイル）をデータ放送デコード部１８から抽出して、データ放送用データ記憶部２７に記憶する（ステップＳ４２）。さらに、制御部１０は、このようにしてデータ放送用データ記憶部２７に記憶されたデータ放送用データに関連付けたリンク情報を、前記特定の文字または文字列に付加して、このリンク情報を含む字幕データを変換部２２に出力し、変換部２２は、このリンク情報を含む字幕データをＨＴＭＬ形式に変換する（ステップＳ４３）。このＨＴＭＬ形式に変換された字幕データを字幕ファイル記憶部２４に記憶し（ステップＳ１５）、これ以降は前述の動作と同じになる。

なお、一般的に、デジタル放送におけるデータ放送では、所定の期間中、放送局から受信装置に対して同じデータが繰り返し送信される（ISO/IEC13818-6として国際標準化されたDSM-CC(Digital Storage Media Command and Control)データカルーセル仕様に基づく）。そのため、番組によっては、上述した特定の文字または文字列が字幕として表示された時点のデータ放送用データを抽出するのではなく、当該特定の文字または文字列が字幕として表示された後、最初に更新されたデータ放送のデータを抽出する方が好適な場合も想定される。データ放送の更新は、DSM-CCコントロールメッセージに属するＤＩＩ(DownloadInfoIndication)メッセージのデータ構造に含まれる、ダウンロード識別(downloadId)フィールド（３２ビット）の上位４ビットに符号化されるデータイベント識別(data_event_id)の値、または８ビットのモジュールバージョン(moduleVersion)の値の更新を監視することにより検知することができる。

このようにして記憶した字幕ＨＴＭＬファイルおよびデータ放送用データのファイルを、ブラウザを用いて閲覧可能に表示する際は、字幕ＨＴＭＬファイルのうち、データ放送用データと関連している特定の文字または文字列を、データ放送用データへのリンクが付されていることがユーザにわかるような態様で表示する。そして、データ放送用データへのリンクが付された特定の文字または文字列がユーザ操作に基づいて選択されると、制御部１０は、そのリンク先のデータ放送用データをデータ放送用データ記憶部２７から読み出し、当該データ放送用データを映像表示部２１に表示する。

このようにすることで、番組の内容を示す字幕ＨＴＭＬファイルをブラウザで閲覧する際に、基本的には字幕を読み進めることで、番組内容を迅速に把握することができ、さらに、字幕中に特定の文字列が発生した際に表示されていたデータ放送を見ることもできる。したがって、デジタル放送の番組が、映像や音声の放送内容以外にデータ放送と関連する番組内容であったとしても、特徴的と判断されるデータ放送の内容を逃すことなく見ることができ、他の部分は字幕により短時間で番組内容を把握することができる。

例えば図１３（Ａ）に示すように、ＨＴＭＬ形式で字幕を保存したデジタル放送の番組がサッカーの試合を放送したものであり、予め、字幕中に「ゴール」という特定の文字列が検出されてから最初に更新されるデータ放送を記憶しておくように設定してあるものとする。このような設定により、図１３（Ｂ）に示すように、番組が進行して、字幕に「ゴール」の文字列が表示されると、その字幕が表示されてから最初に更新されるデータ放送（画面表示（図１３（Ｂ））の下側に示す）を記憶する。この番組の字幕をＨＴＭＬ形式で保存して、ブラウザを用いて字幕を読む際には、図１３（Ｃ）のような表示がされる。字幕中でデータ放送に対するリンクのある文字または文字列（図１３（Ｃ）中の「ゴール」の文字列）をクリックするなどのユーザ操作に基づいて、図１３（Ｄ）に示すように、当該文字または文字列に対応して記憶されたデータ放送用データによるデータ放送を表示する。

このようにデジタル放送の番組の字幕を保存し、字幕の特定の文字または文字列に対応する音声データ、映像データ、データ放送用データも選択的に記憶することにより、字幕の閲覧により番組の内容を把握する際に、必要に応じて音声、映像、データ放送も視聴することができるため、特定の場面の臨場感を損なわず、かつ、番組の内容を短時間で把握することができる。さらに、字幕を中心として番組を保存することにより、デジタル放送をそのまま全て録画する場合（例えば全内容をＴＳパケットごと記憶する場合）に比べて、保存に必要なメモリの量を著しく低減させることもできる。

（第２実施の形態）
次に、本発明の第２実施の形態に係る放送受信装置の動作について説明する。本実施の形態では、第１実施の形態で説明した字幕の保存動作において、字幕中の文字または文字列が表示される際の音量が所定の閾値を超える場合に、当該文字または文字列に対応する音声、映像、データ放送用の各種データを選択的に記憶するようにする。

図１４は、本発明の第２実施の形態に係る放送受信装置２００の概略構成を示す機能ブロック図である。放送受信装置２００は、図１にて説明した第１実施の形態に係る放送受信装置１００に、さらに音量解析部２８を設けたものである。この音量解析部２８は、音声デコード部１５から出力される音声データの音量情報を解析することにより、字幕デコード部１７から出力される字幕データに対応する音声データの音量が所定の閾値を超えたか否かを判定する。

以下、図１５のフローチャートを参照して、本実施の形態による字幕を保存する動作について説明する。なお、本実施の形態では、字幕の各表示単位の文字または文字列が表示される際に出力される音声が一定の音量を超える場合に、当該文字または文字列に対応付けて記憶されるデータとして、音声データ、映像データ、データ放送用データのうち少なくとも１つを予め設定しておくようにする。また、字幕データに対応する音声データ、映像データなどの各データが記憶される際の基準となる音声の音量の閾値についても、所定の閾値を予め設定しておくようにする。

ステップＳ１１〜ステップＳ１３の動作は第１実施の形態の説明と同じであり、受信したトランスポートストリーム（ＴＳ）から字幕パケットを分離して、字幕パケット内の字幕データをデコードして得られる字幕テキスト情報から、表示単位ぶんの字幕を抽出する。次に、音量解析部２８は、抽出した表示単位ぶんの字幕データに対応する音声データの音量情報を解析して、当該音声データに基づき出力される音声の音量を判定する（ステップＳ５１）。

ステップＳ５２にて、音量解析部２８により解析された音声データの音量が所定の閾値を超える場合には、制御部１０は、音量が所定の閾値を超える箇所を含む文字または文字列の字幕の表示単位に対応する音声データ、映像データ、データ放送用データのうち少なくとも１つを選択的に抽出して、記憶部２３に記憶する（ステップＳ５３）。各データを記憶部２３に記憶する際には、音声データは音声データ記憶部２５に、映像データは映像データ記憶部２６に、データ放送用データはデータ放送用データ記憶部２７に記憶する。

さらに、制御部１０は、このようにして各データ記憶部２５，２６，２７に記憶された音声データ、映像データ、データ放送用データの各データに関連付けたリンク情報を、音量が閾値を超える際に表示される字幕の文字または文字列に付加して、このリンク情報を含む字幕データを変換部２２に出力し、変換部２２は、このリンク情報を含む字幕データをＨＴＭＬ形式に変換する（ステップＳ５４）。このＨＴＭＬ形式に変換された字幕データを字幕ファイル記憶部２４に記憶し（ステップＳ１５）、これ以降は第１実施の形態で説明した動作と同じになる。

また、ステップＳ５２にて、字幕の文字または文字列が表示される際に、音量解析部２８により解析された音声の音量が所定の閾値を超えない場合には、当該字幕の表示単位は、第１実施の形態と同様に単に字幕データとしてそのままＨＴＭＬ形式に変換する（ステップＳ４４）。ＨＴＭＬ形式に変換された字幕データを字幕ファイル記憶部２４に記憶する以降は第１実施の形態で説明した動作と同じになる。

このようにして記憶した字幕ＨＴＭＬファイルおよび映像などの各データのファイルを、ブラウザを用いて閲覧可能に表示する際は、字幕ＨＴＭＬファイルのうち、所定の音量を超えた際に字幕として表示される文字または文字列を、各データへのリンクが付されていることがユーザにわかるような態様で表示する。そして、各データへのリンクが付された文字または文字列がユーザ操作に基づいて選択されると、制御部１０は、そのリンク先の各データを、各データ記憶部２５，２６，２７から読み出し、当該各データを、データの種類に応じてスピーカ１９または映像表示部２１から出力する。

このようにすることで、デジタル放送の字幕を記憶する際に、字幕表示中の音量が所定の閾値を超える場合には、当該字幕が表示される期間に対応する音声データ、映像データ、データ放送用データのうち少なくとも１つが、自動的に記憶される。さらに、当該字幕は、それらのデータへのリンクが付された状態で字幕ファイル記憶部２４に記憶される。一般的に、放送される番組の中で、音声の音量が大きくなる箇所というのは、放送している番組内で内容的に躍動感のある箇所であるか、または決定的な瞬間など特徴的な場面が放送されている場合が多い。したがって、字幕表示中の音量が所定の閾値を超える際の字幕に対応して記憶された音声データ、映像データ、データ放送用データによって、娯楽性の高い場面や特徴的な場面などを必要に応じて視聴することができる。

例えば、図１６（Ａ）に示すように、サッカーの試合を放映している番組において、「さぁＰＫです。」の字幕が表示される際の音声の音量は通常の音量であるため、この部分は字幕データのみが記憶されて他の音声や映像などのデータは記憶されない。その後番組が進行して、図１６（Ｂ）に示すように、「入りました！ゴール！！」の字幕が表示される際に音声データの音量が閾値を超えた場合、その部分の字幕データが記憶されると共に、その字幕が表示される間の音声データ、映像データ、データ放送用データのうち少なくとも１つを、当該字幕に関連付けて記憶する。この番組の字幕をＨＴＭＬ形式で保存して、ブラウザを用いて字幕を閲覧する際には、図１６（Ｃ）のように、「ゴール」の字幕箇所付近に当該字幕に関連付けて記憶されたデータへのリンクが表示される。

ユーザ入力により、例えば画像データへのリンク（図１６（Ｃ）の「画像」）が選択された場合には、図１６（Ｄ）に示すように、「ゴール！！」の文字列に関連付けて記憶している映像データを静止画または動画として映像表示部２１に表示する。また、音声データへのリンク（図１６（Ｃ）の「♪（音符マーク）」）が選択された場合には、図１６（Ｅ）に示すように、「ゴール！！」の文字列に関連付けて記憶している音声データに基づく音声をスピーカ１９から出力する。映像データを音声データと共に記憶している場合には、動画の再生と共に音声を出力してもよい。データ放送へのリンク（図１６（Ｃ）の「データ放送」）が選択された場合には、図１６（Ｆ）に示すように、「ゴール！！」の文字列に関連付けて記憶しているＢＭＬに基づくデータ放送を映像表示部２１に表示する。

なお、上記図１６に示した例では、字幕表示の際に出力される音声の音量が閾値を超える場合の字幕に対応する、音声データ、映像データ、データ放送用データの全てを記憶する場合について説明したが、これら各データのうち少なくとも１つを任意に設定できるようにするのが好適である。

（第３実施の形態）
次に、本発明の第３実施の形態に係る放送受信装置の動作について説明する。本実施の形態では、第２実施の形態で説明した字幕の保存動作において、字幕中の文字または文字列が表示される際の音量に応じて、当該文字または文字列の字幕を表示する際の文字の大きさを指定するようにする。

本実施の形態に係る放送受信装置は、第２実施の形態で説明した放送受信装置２００と同じ構成で、音量解析部２８の動作が若干異なるものである。本実施の形態における音量解析部２８は、音声デコード部１５から出力される音声データの音量情報を解析することにより、字幕デコード部１７から出力される字幕データに対応する音声データの音量を、その大きさに応じて所定の複数の段階に分類する。

以下、図１７のフローチャートを参照して、本実施の形態による字幕を保存する動作について説明する。なお、本実施の形態では、字幕の各表示単位の文字または文字列が表示される際に出力される音声の大きさの段階別にそれぞれ対応させて字幕に割り当てる文字の大きさとして、所定のフォントサイズなどを予め設定しておくようにする。一般的には、字幕が表示される際の音声が大きいほど、それに従って大きな文字を指定するような段階的な設定にするのが望ましい。

ステップＳ１１〜ステップＳ１３の動作は第１実施の形態の説明と同じであり、受信したトランスポートストリーム（ＴＳ）から字幕パケットを分離して、字幕パケット内の字幕データをデコードして得られる字幕テキスト情報から、表示単位ぶんの字幕を抽出する。次に、音量解析部２８は、抽出した表示単位ぶんの字幕データに対応する音声データの音量情報を解析して、当該音声データに基づき出力される音声の音量を判定する（ステップＳ６１）。

制御部１０は、音量解析部２８で判定された音量に対応する文字の大きさを指定する属性情報を、表示単位ぶんの字幕データに付加してから変換部２２に出力し、変換部２２は、この属性情報を含む字幕データをＨＴＭＬ形式に変換する（ステップＳ６２）。記憶部２３は、ＨＴＭＬ形式に変換された字幕データを字幕ファイル記憶部２４に記憶し（ステップＳ１５）、これ以降は第１実施の形態で説明した動作と同じになる。

このようにして記憶した、文字の属性情報が付加された字幕ＨＴＭＬファイルを、ブラウザを用いて閲覧可能に表示する際は、画面制御部２０は、付加された属性情報に基づいて、字幕の文字の大きさを変更して映像表示部２１に表示する。

このようにすることで、番組の内容を示す字幕ＨＴＭＬファイルを後からブラウザで閲覧する際に、字幕の表示がされた際に出力された音声の音量を、文字の大きさにより直感的に把握することができるため、字幕の文字列を一見するだけで、字幕に対応するセリフ発言時の臨場感や番組内容の抑揚などを視覚的に把握することができる。

例えば、図１８（Ａ）に示すように、デジタル放送の番組内で、登場人物であるＡさんのセリフが字幕で表示された際の音声出力の音量はやや大きめであり、Ｂさんのセリフが字幕で表示された際の音声出力の音量は普通であったとする。その後番組が進行して、図１８（Ｂ）に示すように、Ｃさんのセリフが字幕で表示された際の音声出力の音量はかなり大きかったとする。この番組の字幕を保存して、後からブラウザを用いて字幕ファイルを閲覧する際には、図１８（Ｃ）に示すように、字幕が表示された際の音声出力の相対的な大小関係が、字幕を構成する文字列の大きさにより表現されるため、番組の字幕を閲覧しているユーザは、発言されたセリフの音量の相対的な大小関係を一見して視覚的に把握することができる。

なお、本発明は、上述した各実施の形態にのみ限定されるものではなく、幾多の変形または変更が可能である。例えば、上述した各実施の形態では、デジタル放送の番組を受信している最中に、リアルタイムで字幕データなどの各データの記憶をする処理を想定して説明しているが、まず番組全体をデジタル放送として字幕データを含めて（例えば全てのＴＳパケットごと）録画しておき、この録画したファイルに対して、タイミング情報（例えばタイムスタンプ情報など）に従って、後からデータ一括変換のような態様で字幕および／または字幕に対応する各種データを抽出して、ＨＴＭＬ形式の字幕データファイルに変換するようにしてもよい。

また、上述した各実施の形態では、デジタル放送の内容把握のための時間短縮措置と、字幕のみで補うことが困難な情報の補完措置とを、説明の便宜上、細かく分割して説明したが、所望に応じて、本発明の各実施の形態にて説明した各種の措置のうち任意のものを組み合わせて実施することもできる。

本発明の第１実施の形態に係る放送受信装置の概略構成を示す機能ブロック図である。第１実施の形態に係る放送受信装置の字幕保存動作を説明するフローチャートである。保存した字幕データの文字列をＨＴＭＬ形式に変換した例を示す図である。第１実施の形態に係る放送受信装置の動作を説明する表示画面例を示す図である。第１実施の形態に係る放送受信装置の字幕を重複させずに保存する動作を説明するフローチャートである。第１実施の形態に係る放送受信装置の字幕を重複させずに保存する動作を説明する表示画面例を示す図である。同じく、第１実施の形態に係る放送受信装置の字幕を重複させずに保存する動作を説明する表示画面例を示す図である。第１実施の形態に係る放送受信装置の複数の字幕を併合させて保存する動作を説明するフローチャートである。第１実施の形態に係る放送受信装置の複数の字幕を併合させて保存する動作を説明する表示画面例を示す図である。第１実施の形態に係る放送受信装置の、字幕内の特定の文字に対応する音声データを保存する動作を説明するフローチャートである。第１実施の形態に係る放送受信装置の、字幕内の特定の文字に対応する音声データを保存する動作を説明する表示画面例を示す図である。第１実施の形態に係る放送受信装置の、字幕内の特定の文字に対応する映像データを保存する動作を説明する表示画面例を示す図である。第１実施の形態に係る放送受信装置の、字幕内の特定の文字に対応するデータ放送用データを保存する動作を説明する表示画面例を示す図である。第２実施の形態に係る放送受信装置の概略構成を示す機能ブロック図である。第２実施の形態に係る放送受信装置の字幕保存動作を説明するフローチャートである。第２実施の形態に係る放送受信装置の音量が閾値を超える際の字幕内の特定の文字に対応する音声データ、映像データ、データ放送用データを保存する動作を説明する表示画面例を示す図である。第３実施の形態に係る放送受信装置の字幕保存動作を説明するフローチャートである。第３実施の形態に係る放送受信装置の、字幕表示の際の音量に応じて記憶する文字の大きさを変更する動作を説明する表示画面例を示す図である。

符号の説明

１０制御部
１１アンテナ部
１２チューナ部
１３復調部
１４分離部
１５音声デコード部
１６映像デコード部
１７字幕デコード部
１８データ放送デコード部
１９スピーカ
２０画面制御部
２１映像表示部
２２変換部
２３記憶部
２４字幕ファイル記憶部
２５音声データ記憶部
２６映像データ記憶部
２７データ放送用データ記憶部
２８音量解析部
１００，２００放送受信装置

Claims

ストリーム信号を受信する受信部と、
該受信部が受信したストリーム信号に含まれている字幕データをマークアップ言語に変換する変換部と、
該変換部により変換されたマークアップ言語を記憶すると共に、前記字幕データを構成する文字列のうち特定の文字または文字列と、その特定の文字または文字列に対応する前記ストリーム信号に含まれている音声データ、映像データ、データ放送用データのうち少なくとも１つと、を関連付けて記憶する記憶部と、
を有することを特徴とする放送受信装置。
前記記憶部は、前記音声データ、映像データ、またはデータ放送用データのうち少なくとも１つへのリンク情報を、前記文字または文字列に関連付けて記憶することを特徴とする、請求項１に記載の放送受信装置。
ストリーム信号に含まれる音声データの音量情報を解析する音量解析部をさらに有し、
前記記憶部は、前記字幕データを構成する文字列の修飾形態を定義する文字属性情報を、前記音量解析部により解析される音声データの音量情報に応じて、前記文字または文字列に関連付けて記憶することを特徴とする、請求項１または２に記載の放送受信装置。
前記記憶部は、表示単位の字幕データを構成する文字列と同一の文字列を既に記憶している場合、当該表示単位の字幕データを記憶しないことを特徴とする、請求項１〜３のいずれか１項に記載の放送受信装置。
前記記憶部は、第１字幕データを構成する文字列と第２字幕データを構成する文字列とを、同一の表示タイミングにおいて同一の文字列が重複しないように併合して記憶することを特徴とする、請求項１〜４のいずれか１項に記載の放送受信装置。