以下、本発明の実施の形態について、図面を参照して説明する。以下の各実施の形態においては、本発明の放送受信装置の一例として、例えばワンセグ放送を受信可能な携帯電話のような携帯端末を想定して説明するが、本発明の放送受信装置は携帯電話に限定されるものではなく、例えばPDAなどの任意の携帯型デジタル放送受信装置および据置型のテレビジョン受信機に適用することも可能である。また、本発明は、放送受信装置が受信するデジタル放送についてもワンセグ放送に限定されるものではなく、フルセグ放送(HDTV)を受信する放送受信装置に適用することも可能である。
(第1実施の形態)
図1は、本発明の第1実施の形態に係る放送受信装置の概略構成を示す機能ブロック図である。
放送受信装置100は、ワンセグ放送によるデジタル放送を視聴するためのテレビジョン受信機能を搭載しており、全体を制御する制御部10と、地上デジタル放送の放送波を受信する受信部を構成する放送受信用のアンテナ部11およびチューナ部12とを有している。放送受信装置100は、アンテナ部11で、デジタル放送の放送波を受信する。チューナ部12は、アンテナ部11で受信された受信信号(RF信号)を、制御部10からの周波数(チャンネル)指定命令に基づいてチューニングする。復調部13は、チューナ部12でチューニングされた放送波を、トランスポートストリーム(TS)信号に復調して分離部14に供給する。分離部14は、復調されたTS信号を、パケットIDに応じて、音声パケット、映像パケット、字幕パケット、データ放送パケットに分離する。分離部14でTS信号から分離された音声パケットは音声デコード部15に、映像パケットは映像デコード部16に、字幕パケットは字幕デコード部17に、データ放送パケットはデータ放送デコード部18に入力される。
音声デコード部15は、入力された音声パケット内の音声データをデコードしてスピーカ19に出力し、スピーカ19は音声デコード部15から出力される音声を出力する。映像デコード部16、字幕デコード部17は、それぞれ入力された映像パケット内の映像データ、字幕パケット内の字幕データをデコードして画面制御部20に出力する。データ放送デコード部18は、入力されたデータ放送パケット内のBML(Broadcast Markup Language)を基に画面イメージを作成して画面制御部20に出力する。画面制御部20は、制御部10からの命令に基づいて、映像デコード部16、字幕デコード部17、データ放送デコード部18よりそれぞれ出力される映像、字幕テキスト、BMLに基づく画面イメージを映像表示部21に表示する。このようにして、ワンセグ放送の字幕付き映像、データ放送および音声を視聴することができる。ワンセグ放送による字幕放送およびデータ放送を視聴する際の受信装置の通常の動作は公知技術であるため、より詳細な説明は省略する。
さらに、放送受信装置100は、入力されるデータをHTML形式に変換して出力する変換部22と、各種情報を記憶する記憶部23とを備えている。変換部22は、字幕デコード部17から出力される字幕テキストを元に、字幕の文字列をHTML形式に変換する。記憶部23は、入力した情報および各種アプリケーション等を記憶する他、ワークメモリやバッファなどとしても機能する。記憶部23はさらに、HTML形式に変換した字幕の文字列を記憶する字幕ファイル記憶部24と、音声デコード部15が出力する音声データを記憶する音声データ記憶部25と、映像デコード部16が出力する映像データを動画像または静止画として記憶する映像データ記憶部26と、データ放送デコード部18が出力するBML(データ放送用データ)を記憶するデータ放送用データ記憶部27と、を有している。この記憶部23にデジタル放送を録画することにより、放送終了後にデジタル放送を再生することができる。デジタル放送の通常の録画および再生動作も公知技術であるため、より詳細な説明は省略する。
次に、図2のフローチャートを参照して、本実施の形態による、字幕を保存する動作について説明する。本実施の形態では、デジタル放送の番組が放送されている間に実際にその番組をリアルタイムで視聴するか否かに関わらず、デジタル放送を受信中にその字幕を記憶して、後からその字幕のみを読むことができるようにする。この字幕の保存動作は、従来のデジタル放送録画機能と同様に、番組視聴中のユーザ操作に基づいて開始することも、または予約録画のように予め設定した時刻になると字幕保存動作が自動的に行われるようにすることもできる。
まず、ユーザが所望するデジタル放送の番組(チャンネル)を、チューナ部12の選局によりアンテナ部11で受信するところからスタートする。次に、復調部13は、受信した放送受信信号(RF信号)からトランスポートストリーム(TS)パケットを取り出す(ステップS11)。さらに分離部14は、取り出されたTSパケットを、パケットIDに応じて音声パケット、映像パケット、データ放送パケット、および字幕パケット等に分離するが、ここでは特に字幕パケットに着目して説明する(ステップS12)。
次に、字幕デコード部17は、分離部14より入力された字幕パケット内の字幕データをデコードして字幕テキストを出力し、制御部10は、字幕デコード部17から出力される字幕テキスト情報から、表示単位ぶんの字幕を抽出する(ステップS13)。字幕テキスト情報には、字幕を構成する文字または文字列、および表示する際の文字色などが含まれる。表示単位ぶんの字幕が抽出されたら、変換部22は、これらの字幕テキスト情報を利用して、字幕を構成する文字または文字列を、マークアップ言語として一般的なHTML形式に変換する(ステップS14)。
ステップS14にて、字幕を構成する文字または文字列をHTML形式に変換する際には、字幕の表示単位をそのまま羅列して変換すると、字幕を映像表示部21に表示した際に見難く、字幕の内容を発言した話者が特定できなくなる恐れがある。このため、本実施の形態では、この字幕のHTML形式への変換前に、字幕が読み難くならないような措置を講じる。
具体的には、字幕をHTML形式に変換する際に、例えば、発言者を単位として、その発言内容を示す字幕の文字列が終了した時点で改行を入れる。これにより、発言者が明示されていない字幕であったとしても、改行を目印に発言者が替わったということがわかり、HTML形式において、字幕を見易く表示することができる。なお、通常、字幕の表示単位は発言者単位であることが想定されるため、HTML形式に変換する際には、表示単位毎に改行を入れることにより、発言者単位で改行を入れることができる。また、実際に番組を視聴する際に、映像表示部21に複数の登場人物の発言内容が同時に字幕で表示されることもある。このような場合にも、字幕を構成する文字または文字列をHTML形式に変換する際に、発言者単位で字幕を改行して人物ごとに文字列を分けるようにすれば、発言者を混同してしまうようなことは生じない。
さらに、デジタル放送の字幕では、例えば「(ドアを開ける音)」のように、背景に流れる効果音や状況の説明などが字幕で現れることもある。このような字幕についても、HTML形式に変換する際には、1つの表示単位として、その前後で改行を入れる。これにより、HTML形式において字幕を読み易く表示することができる。また、登場人物のセリフが長い場合などに、映像表示部21に収まりきらない字幕がまだ続くことを示す文字「→(右矢印)」がある場合には、同一人物の字幕文字列とみなして、HTML形式では連続して表示するのが好適である。
その他、HTML形式においてさらに複数発言者の字幕を読み易くする措置として、例えば、字幕テキスト情報において、発言内容を示す字幕に「Aさん:(実際のセリフ)」のように発言者の名前が与えられている場合には、変換部22は、字幕をHTML形式に変換する際に、この発言者の名称に基づく表示単位で、改行を入れたり表示色を変更するなど、字幕を読み易くする措置を講じる。また、デジタル放送では、字幕を表示する際に、発言者別に色分けして表示することもあり、HTML形式への変換時に、このような字幕の表示色をそのまま(字幕テキスト情報に基づいて)用いたり、または、このような字幕の表示色に基づいて新たな色を人物別に設定したりすることも、HTML形式に変換した後の字幕を読み易くするのに有効な方法である。
続いて、制御部10は、ステップS14にてHTML形式に変換された字幕データを、記憶部23の字幕ファイル記憶部24に記憶する(ステップS15)。
ここで、字幕ファイル記憶部24に記憶されるHTML形式の字幕データの一例を図3に示す。図3は、図4の(A)および(B)に例示するようなデジタル放送の番組内で表示された字幕をHTML形式に変換したものである。デジタル放送の一例として、図4(A)から時間の流れと共に図4(B)のように番組が進行し、それに伴って登場人物のセリフが字幕として表示される場合、そのセリフの字幕データが抽出され、図3に示すようなHTML形式の字幕データが字幕ファイル記憶部24に記憶される。図3に示す例では、登場人物であるAさんのセリフを赤で、Bさんのセリフを青で、Cさんのセリフを黄色で表示するように色指定している。
HTMLの記述形式では種々の要素を用いて文字修飾を行うことができる。図3においては、字幕の内容をP要素によって囲うことで、Paragraph(段落)として扱っているが、字幕の範囲を指定する要素はP要素に限定されるものではなく、他に例えばDIV要素のようなブロック要素などを用いることもできる。また、図3においては、文字色(フォントの色)の指定をFONT要素により行っているが、これもFONT要素のみに限定されるものではなく、例えばCSS(カスケーディングスタイルシート)を用いて、そこに記述することにより表示色の指定をしてもよい。
次に、制御部10は、デジタル放送の番組の終了、またはユーザによる字幕の記憶動作を中止する操作などに基づいて、字幕の記憶動作が全て終了したか否かを判定する(ステップS16)。まだ字幕の記憶動作が継続している場合には、ステップS11に戻って動作を続行する。字幕の記憶動作が終了した場合には、制御部10は、字幕ファイル記憶部24に記憶されているHTML形式の字幕データを、1つのHTMLファイルにまとめて、番組属性情報を付加して字幕ファイル記憶部24に記憶する(ステップS17)。
このとき、字幕データをまとめて1つのHTMLファイルとして記憶する際のファイル名は、デジタル放送の番組情報であるSI(Service Information)情報に含まれる番組の属性情報を利用して、例えば番組のタイトル、放送回などを含めて記憶するようにするのが好適である。例えば、図4に示した番組のタイトルが『水曜ドラマ「平凡な日々」』であり、放送回が第2話目で、2007年12月10日の午後12:30からの30分番組であった場合には、制御部10は、その字幕データを1つにまとめたHTMLファイル(以下、字幕HTMLファイルという)に、例えば「200712101230_水曜ドラマ「平凡な日々」_第2話.html」のようなファイル名を付与して字幕ファイル記憶部24に記憶するよう制御する。これにより、1つの番組の字幕保存動作が終了する。したがって、本実施の形態では、記憶部23以外に、制御部10も含めて広義の「記憶部」として動作する。
このようにして、字幕ファイル記憶部24に記憶された字幕HTMLファイルを、字幕ファイル記憶部24から読み出して映像表示部21に表示することにより、ユーザは番組の内容を字幕のみで追うことができ、極めて短時間で番組内容を把握することができる。図4(C)は、字幕HTMLファイルを映像表示部21に表示した一例を示している。図4(A)および(B)に例示したようなデジタル放送の番組の字幕は、図4(C)に示すように、登場人物別(発言者別)に色を分けるなどの処理が行われて、タイトルなどの番組属性情報と共に、後から読み易い態様で映像表示部21に表示される。ユーザは、このような字幕HTMLファイルに基づく表示を一読するだけで、番組内容を把握することができるため、実際に番組を映像および音声情報により視聴する場合に比べて、内容の把握に要する時間を極めて少なくすることができる。
さらに、字幕ファイル記憶部24に記憶された字幕HTMLファイルは、HTML形式で記述されたデータを閲覧できるブラウザを内蔵した端末であれば任意のもので閲覧することができる。そのため、デジタル放送を受信する機能がない他の端末であっても、HTML形式のファイルを閲覧可能なブラウザを搭載していれば、例えばこの字幕HTMLファイルを、放送受信装置100から赤外線通信などの通信により取得したり、メモリカードのような記憶メディアを用いて放送受信装置100から取得して、取得した字幕HTMLファイルを閲覧することでデジタル放送の番組内容を把握することができる。
次に、図5のフローチャートを参照して、字幕HTMLファイルを読む際の時間的な効率をさらに向上させるために、所定範囲内において字幕が重複しないように保存する動作について説明する。これは、図2で説明した、通常の字幕保存の動作に加えて、字幕を字幕ファイル記憶部24に記憶する際に、既にその字幕の文字列が記憶されている場合には当該字幕の文字列を記憶しないようにする。
ステップS11〜ステップS13の動作は上述した図2の説明と同じであり、放送受信装置100は、受信したトランスポートストリーム(TS)から字幕パケットを分離して、字幕パケット内の字幕データをデコードして得られる字幕テキスト情報から、表示単位ぶんの字幕を抽出する。次に、制御部10は、字幕テキスト情報から抽出した表示単位ぶんの字幕と、既に字幕ファイル記憶部24にHTML形式で記憶されている字幕とを比較する(ステップS21)。この比較の結果、字幕ファイル記憶部24に記憶されたHTML形式の字幕の文字列のうち、最後に記憶された字幕から遡って所定の範囲内にて、字幕テキスト情報から抽出した字幕と一致する字幕が存在しない場合には(ステップS22でNo)、当該抽出した表示単位ぶんの字幕をHTML形式に変換して字幕ファイル記憶部24に記憶する(ステップS14)。以後は図2の説明と同じ動作になる。
ステップS22にて、字幕ファイル記憶部24にHTML形式で記憶された字幕の文字列のうち、最後に記憶された字幕から所定の範囲内にて、字幕テキスト情報から抽出した字幕と一致する字幕が存在する場合には(ステップS22でYes)、当該抽出した表示単位ぶんの字幕は、既にHTML形式で記憶が完了している字幕と重複するものとみなして、この表示単位の字幕についてはHTML形式での記憶の処理を行わずにステップS16に移行する。
なお、ステップS22にて字幕の文字列の重複を判定する所定の範囲の設定を広くし過ぎると、番組の中で時間的に離れた箇所で発言されたセリフの字幕がたまたま一致する場合にも、その重複箇所を省いてしまう。したがって、重複を判定する範囲を、字幕の文字列(例えば字幕の表示単位ぶんいくつ前まで遡って重複を判定するか)または、番組に応じた時間(例えば何分前まで遡って重複を判定するか)などに基づいて予め適切に設定しておく。
このようにすることで、番組の内容に重複がみられるような箇所があった場合でも、字幕は、その重複部分を省いて記憶されるため、字幕HTMLファイルを閲覧して番組内容を把握する際の時間的な効率をさらに向上させることができる。
例えば、最近のテレビ番組では、図6に示すように、コマーシャルを挟んでその前後に重複した内容を放送する番組が多い。図6は、(A)〜(F)まで、番組の一例を時間の経過に沿って示したものである。このような番組では、図6の(A)から(B)まで番組が進行した後に、図6(C)のコマーシャルになり、その後コマーシャルが終了すると、視聴者に対するリマインダとして、図6(D)から(E)の部分のように、コマーシャル前の番組内容を一部(図6の(A)から(B))含んだ態様で番組の続きが始まる。重複する内容が終わったところでようやく、図6(F)に示すような新しい内容に移行することになる。
このような、重複した内容を含む番組に対して、そのまま字幕を記憶する処理を行うと、図7(A)に示すように、一部重複した字幕に目を通さざるを得なくなる。番組中に何度もコマーシャルを挟むような番組である場合には、このような重複は、急いで番組内容を把握しようとする際には、煩わしいだけでなく、番組の内容を把握するのに要する時間を増大させる。このような番組に対して、上述した字幕の重複を省いて記憶する動作を行うことにより、図7(B)に示すように、字幕が読み易いだけでなく、字幕を読むのに要する時間を低減させることができる。
次に、複数種類の異なる字幕が提供される番組の字幕を保存する動作について説明する。地上デジタル放送では、例えば、第1字幕と第2字幕のように、複数の異なる字幕を切り替えて使用することができる。複数の字幕には、例えば英語の字幕と、それを翻訳した日本語の字幕のように、全く異なる文字列が割り当てられる場合と、第1および第2字幕の両方とも日本語で、相互に多少異なる文字列が割り当てられる場合がある。
例えば番組がドラマの場合、第1字幕は登場人物のセリフのみが字幕になり、第2字幕においては登場人物のセリフに加えて、さらに人物の動作や状況説明などの詳細が字幕により提供される場合もある。この場合のように、同一言語による2種類の字幕で、片方の字幕がもう片方の字幕の文字列を完全に内包するような場合には、詳細な方の字幕を読むことにより全ての字幕情報に目を通すことができる。しかしながら、第1字幕と第2字幕とで、互いに似てはいるものの、それぞれに若干異なる文字列を有する字幕による放送において、全ての字幕情報に目を通したい場合には、両方の字幕を全て読むことが必要であり、時間と手間が増大する。このような場合には、相互に似た複数の字幕を1つの字幕ファイルにマージすることで、1つの字幕に目を通すだけで、実際には第1および第2字幕の双方に目を通したことになる。
図8は、本実施の形態による、複数の字幕をマージして保存する動作を説明するフローチャートである。ステップS11〜ステップS33は、図2で説明したステップS11〜ステップS13の動作に似ているが、ここでは、受信したトランスポートストリーム(TS)から字幕パケットを分離して、字幕パケット内の字幕データをデコードして得られる字幕テキスト情報から、表示単位ぶんの字幕を抽出する際には、第1および第2の字幕について、それぞれ同じ動作を行う。なお、このようにストリームから複数種類の字幕データを分離してデコードする場合には、図1で説明した字幕デコード部17を複数設ける。
次に、制御部10は、抽出した第1および第2の字幕の表示単位を比較する(ステップS33)。この比較の結果、ステップS34にて、両字幕の表示単位に一致した部分がある場合には、これら第1および第2の字幕データのうち、重複する部分の一方を削除して、重複を除いた文字列を1つの表示単位として変換部22に出力する。変換部22は、この重複が除かれた文字列の表示単位をHTML形式に変換する(ステップS35)。その後、HTML形式に変換された字幕データを字幕ファイル記憶部24に記憶する動作以降は、図2および図5で説明した動作と同じになる(ステップS15〜ステップS17)。
また、ステップS34にて、両字幕の表示単位に一致した部分がない場合には、これら第1および第2の字幕データの文字列の双方を1つの表示単位として合成して変換部22に出力する。変換部22は、この文字列の表示単位をHTML形式に変換してから(ステップS36)、字幕ファイル記憶部24に記憶する動作に移行する(ステップS15)
このような処理により、相互に似て非なる複数種類の字幕を、共通部分の重複を避けて1つの字幕HTMLファイルとして保存するので、複数種類の字幕に効率良く目を通せるとともに、各字幕間の対応関係も理解し易くなる。
例えば、第1字幕では図9(A)に示すような文字列の字幕が、第2字幕では図9(B)に示すような文字列の字幕が放送されていたとする。第1字幕では、登場人物のセリフと共に、発言した登場人物の人物名が字幕で与えられている。第2字幕では、登場人物のセリフの他に状況説明が字幕で与えられているが、登場人物名は与えられていない。このような第1および第2字幕をマージする処理を行うことにより、図9(C)に示すように、双方の字幕に含まれる情報を漏れなく、かつ重複なく示すことができる。このようにマージした字幕を読むことにより、短時間に漏れなく番組内容に目を通すことができる。
なお、2つの似た文字列から重複部分を除いて1つの文字列を作成する技術には、上述のような比較を行うものだけでなく、他にも既存のマッチング技術が各種存在する。このような公知技術を用いて重複を除いて字幕ファイルのマージを行うこともできる。
以上、字幕を用いることにより、短時間でデジタル放送の内容を把握することができる放送受信装置の動作について説明したが、本来は音声情報および映像情報を伴ったデジタル放送の番組であったものから、字幕のみを記憶して音声も映像も省略してしまうと、番組内容によっては、内容の把握が困難になったり、臨場感が著しく失われたりすることも考えられる。
このような事情に鑑みて、以下、図10のフローチャートを参照しながら、字幕中の特定の文字列に対応する音声データを保存して、当該特定の文字列からのリンクにより音声データの出力を可能にする動作について説明する。
図10のステップS11〜ステップS13の動作は図2の説明と同じであり、受信したトランスポートストリーム(TS)から字幕パケットを分離して、字幕パケット内の字幕データをデコードして得られる字幕テキスト情報から、表示単位ぶんの字幕を抽出する。次に、制御部10は、抽出した表示単位ぶんの字幕の中に、音声データが出力される際に表示される文字または文字列が含まれているか否かを判定する(ステップS41)。デジタル放送においては、登場人物のセリフの他に、音楽や効果音などの音声データが出力される際に、当該音楽や効果音が流れていることを表す文字または文字列を字幕にて表示する場合がある。具体的には、例えば音楽が流れる時には、字幕として「♪(音符)」のマークが表示されたり、例えばドラマの中で電話が鳴るシーンでは「電話機マーク」が表示されたりする。このような措置により、ユーザは、例えば音を出さないような設定にしてデジタル放送を視聴している際であっても、番組の放送中に音楽や効果音が出力されたことを知ることができる。このように、番組の進行上特徴的と想定される音楽や効果音が発生する際に表示される文字または文字列を予め設定して記憶部23に記憶しておく。
ステップS41にて、上述した音を表す文字または文字列が検知された場合には、制御部10は、その文字または文字列が字幕として表示されている間に出力される音声データを、音声デコード部15でデコードされる音声データから抽出して、記憶部23の音声データ記憶部25に記憶する(ステップS42)。さらに、制御部10は、このようにして音声データ記憶部25に記憶された音声データに関連付けたリンク情報を、音を表す文字または文字列に付加して、このリンク情報を含む字幕データを変換部22に出力し、変換部22は、このリンク情報を含む字幕データをHTML形式に変換する(ステップS43)。このHTML形式に変換された字幕データを字幕ファイル記憶部24に記憶し(ステップS15)、これ以降は図2で説明した動作と同じになる。
また、ステップS41にて、表示単位ぶんの字幕の中に音を表す文字または文字列が検知されない場合には、図2および図5のステップS14と同様に、変換部22は、この字幕データをそのままHTML形式に変換して(ステップS44)、制御部10は、HTML形式に変換された字幕データを字幕ファイル記憶部24に記憶する(ステップS15)。
このようにして記憶した字幕HTMLファイルおよび音声データのファイルを、ブラウザを用いて閲覧可能に表示する際は、字幕HTMLファイルのうち、音声データと関連している特定の文字または文字列を、音声データへのリンクが付されていることがユーザにわかるような態様で表示する。そして、音声データへのリンクが付された特定の文字または文字列がユーザ操作に基づいて選択されると、制御部10は、そのリンク先の音声データを音声データ記憶部25から読み出し、当該音声データをスピーカ19から出力する。
このようにすることで、番組の内容を示す字幕HTMLファイルをブラウザで閲覧する際に、基本的には字幕を読み進めることで番組内容を迅速に把握することができ、番組の進行上音声が特徴的であるような箇所においては、その時点で流れていた音声を聴くこともできる。
例えば図11(A)に示すように、字幕を保存したデジタル放送の番組が音楽番組であった場合、音楽が演奏されている間は「♪(音符)」マークが表示され、その番組の字幕をHTML形式で保存して、後から字幕を読む際には、図11(B)のような表示がされる。ここでは、「♪(音符)」マークが字幕を構成する文字として表示されており、この「♪(音符)」マークはクリックなどの動作により選択可能となっている。この「♪(音符)」マークが選択されると、例えば図11(C)に示すように、その字幕が表示されていた間に流れていた音声ファイルが再生されて、実際に放送されていた音楽を聴くことができる。
以上、字幕中の特定の文字または文字列に対応する音声データを保存して、当該特定の文字または文字列からのリンクにより音声データの出力を可能にする動作について説明したが、同様にして、音声データ以外に、映像データおよび/またはデータ放送のデータについても、特定の文字または文字列に対応するものを記憶して、当該特定の文字または文字列からのリンクにより、映像データおよび/またはデータ放送用のデータを出力するようにもできる。
まず、図10のフローチャートにおいて「音声」に関する箇所を「映像」に読み替えて、字幕中の特定の文字列に対応する映像データを保存して当該特定の文字列からのリンクにより映像データの出力を可能にする動作について説明する。この動作を開始するにあたり、番組の進行上特徴的な映像が発生する際に字幕として表示される特定の文字または文字列を予め設定して、記憶部23に記憶しておく。
ステップS41では、予め設定された、番組の進行上特徴的な映像が発生する際に字幕として表示される特定の文字または文字列を検出し、このような文字または文字列が検出された場合には、制御部10は、その文字列が表示されている間に出力される映像データを映像デコード部16から静止画または動画として抽出して、映像データ記憶部26に記憶する(ステップS42)。さらに、制御部10は、このようにして映像データ記憶部26に記憶された映像データに関連付けたリンク情報を、前記特定の文字または文字列に付加して、このリンク情報を含む字幕データを変換部22に出力し、変換部22は、このリンク情報を含む字幕データをHTML形式に変換する(ステップS43)。このHTML形式に変換された字幕データを字幕ファイル記憶部24に記憶し(ステップS15)、これ以降は前述の動作と同じになる。
このようにして記憶した字幕HTMLファイルおよび映像データのファイルを、ブラウザを用いて閲覧可能に表示する際は、当該映像データが静止画であれば、映像表示部21にて、関連する特定の文字または文字列の付近にサムネイルのように表示する。あるいは、静止画へのリンクを付した文字列のみを映像表示部21に表示して、このリンクを選択するユーザ操作に基づいて当該静止画を表示するようにしてもよい。また、当該画像データが動画であれば、字幕の中で特定の文字または文字列を表示するにあたり、映像データにリンクが張られていることがユーザにわかるような態様で映像表示部21に表示するようにする。そのリンクを選択する等のユーザ操作に基づいて、制御部10は、そのリンク先の映像データを映像データ記憶部26から読み出し、動画を映像表示部21にて再生する。
このようにすることで、番組の内容を示す字幕HTMLファイルをブラウザで閲覧する際に、基本的には字幕を読み進めることで、番組内容を迅速に把握することができ、さらに、字幕中に特定の文字列が発生した際に流れていた映像を見ることもできる。このような特定の文字列に対応する映像のみならず、さらに前述の音声データも記憶する動作と組み合わせることにより、字幕中に特定の文字列が発生した際に流れていた映像および音声の視聴ができるようにすることもできる。したがって、デジタル放送の番組が映像や音楽主体の内容であったとしても、特徴的と判断される映像や音声を逃すことなく視聴でき、他の部分は字幕により短時間で番組内容を把握することができる。
例えば図12(A)に示すように、字幕をHTML形式で保存した番組がサッカーの試合を放送したものであり、予め、字幕中に「ゴール」という特定の文字列が検出された際の映像および/または音声を記憶するように設定してあるものとする。このような設定により、図12(B)に示すように、番組が進行して、字幕に「ゴール」の文字列が表示されると、その字幕が表示されている間の映像を静止画または動画として記憶し、さらに設定に応じてその間の音声も記憶される。この番組の字幕をHTML形式で保存して、ブラウザを用いて字幕を閲覧する際には、図12(C)のような表示がされる。「ゴール」の文字と対応して記憶される映像データを静止画とする設定にした場合には、図12(C)に示すように、当該特定の文字列のそばにサムネイルのように静止画を表示させることができる。あるいは、最初は「ゴール」の文字列を、映像データへのリンクが付されていることがユーザに認識できるよう選択可能に表示して、その文字列をクリックするなどのユーザによる選択動作に基づき静止画を表示する。また、映像データとして動画を記憶するように設定した場合には、「ゴール」の文字列に付されたリンクをクリックするなどのユーザ操作に基づいて、その動画ファイルを再生する。再生される動画ファイルが音声付きで記憶されたものである場合には、音声付きの動画が再生される。
次に、図10のフローチャートにおいて「音声」に関する箇所を「データ放送」に読み替えて、字幕中の特定の文字列に対応するデータ放送用データを保存して当該特定の文字列からのリンクによりデータ放送の出力を可能にする動作について説明する。この動作を開始するにあたり、番組の進行上特徴的なデータ放送用データが発生する際に字幕として表示される特定の文字または文字列を予め設定して、記憶部23に記憶しておく。
ステップS41では、予め設定された、番組の進行上特徴的なデータ放送の表示がなされる際に字幕として表示される特定の文字または文字列を検出し、このような文字または文字列が検出された場合には、制御部10は、その文字列が表示されている間のデータ放送用データ(BMLファイル)をデータ放送デコード部18から抽出して、データ放送用データ記憶部27に記憶する(ステップS42)。さらに、制御部10は、このようにしてデータ放送用データ記憶部27に記憶されたデータ放送用データに関連付けたリンク情報を、前記特定の文字または文字列に付加して、このリンク情報を含む字幕データを変換部22に出力し、変換部22は、このリンク情報を含む字幕データをHTML形式に変換する(ステップS43)。このHTML形式に変換された字幕データを字幕ファイル記憶部24に記憶し(ステップS15)、これ以降は前述の動作と同じになる。
なお、一般的に、デジタル放送におけるデータ放送では、所定の期間中、放送局から受信装置に対して同じデータが繰り返し送信される(ISO/IEC13818-6として国際標準化されたDSM-CC(Digital Storage Media Command and Control)データカルーセル仕様に基づく)。そのため、番組によっては、上述した特定の文字または文字列が字幕として表示された時点のデータ放送用データを抽出するのではなく、当該特定の文字または文字列が字幕として表示された後、最初に更新されたデータ放送のデータを抽出する方が好適な場合も想定される。データ放送の更新は、DSM-CCコントロールメッセージに属するDII(DownloadInfoIndication)メッセージのデータ構造に含まれる、ダウンロード識別(downloadId)フィールド(32ビット)の上位4ビットに符号化されるデータイベント識別(data_event_id)の値、または8ビットのモジュールバージョン(moduleVersion)の値の更新を監視することにより検知することができる。
このようにして記憶した字幕HTMLファイルおよびデータ放送用データのファイルを、ブラウザを用いて閲覧可能に表示する際は、字幕HTMLファイルのうち、データ放送用データと関連している特定の文字または文字列を、データ放送用データへのリンクが付されていることがユーザにわかるような態様で表示する。そして、データ放送用データへのリンクが付された特定の文字または文字列がユーザ操作に基づいて選択されると、制御部10は、そのリンク先のデータ放送用データをデータ放送用データ記憶部27から読み出し、当該データ放送用データを映像表示部21に表示する。
このようにすることで、番組の内容を示す字幕HTMLファイルをブラウザで閲覧する際に、基本的には字幕を読み進めることで、番組内容を迅速に把握することができ、さらに、字幕中に特定の文字列が発生した際に表示されていたデータ放送を見ることもできる。したがって、デジタル放送の番組が、映像や音声の放送内容以外にデータ放送と関連する番組内容であったとしても、特徴的と判断されるデータ放送の内容を逃すことなく見ることができ、他の部分は字幕により短時間で番組内容を把握することができる。
例えば図13(A)に示すように、HTML形式で字幕を保存したデジタル放送の番組がサッカーの試合を放送したものであり、予め、字幕中に「ゴール」という特定の文字列が検出されてから最初に更新されるデータ放送を記憶しておくように設定してあるものとする。このような設定により、図13(B)に示すように、番組が進行して、字幕に「ゴール」の文字列が表示されると、その字幕が表示されてから最初に更新されるデータ放送(画面表示(図13(B))の下側に示す)を記憶する。この番組の字幕をHTML形式で保存して、ブラウザを用いて字幕を読む際には、図13(C)のような表示がされる。字幕中でデータ放送に対するリンクのある文字または文字列(図13(C)中の「ゴール」の文字列)をクリックするなどのユーザ操作に基づいて、図13(D)に示すように、当該文字または文字列に対応して記憶されたデータ放送用データによるデータ放送を表示する。
このようにデジタル放送の番組の字幕を保存し、字幕の特定の文字または文字列に対応する音声データ、映像データ、データ放送用データも選択的に記憶することにより、字幕の閲覧により番組の内容を把握する際に、必要に応じて音声、映像、データ放送も視聴することができるため、特定の場面の臨場感を損なわず、かつ、番組の内容を短時間で把握することができる。さらに、字幕を中心として番組を保存することにより、デジタル放送をそのまま全て録画する場合(例えば全内容をTSパケットごと記憶する場合)に比べて、保存に必要なメモリの量を著しく低減させることもできる。
(第2実施の形態)
次に、本発明の第2実施の形態に係る放送受信装置の動作について説明する。本実施の形態では、第1実施の形態で説明した字幕の保存動作において、字幕中の文字または文字列が表示される際の音量が所定の閾値を超える場合に、当該文字または文字列に対応する音声、映像、データ放送用の各種データを選択的に記憶するようにする。
図14は、本発明の第2実施の形態に係る放送受信装置200の概略構成を示す機能ブロック図である。放送受信装置200は、図1にて説明した第1実施の形態に係る放送受信装置100に、さらに音量解析部28を設けたものである。この音量解析部28は、音声デコード部15から出力される音声データの音量情報を解析することにより、字幕デコード部17から出力される字幕データに対応する音声データの音量が所定の閾値を超えたか否かを判定する。
以下、図15のフローチャートを参照して、本実施の形態による字幕を保存する動作について説明する。なお、本実施の形態では、字幕の各表示単位の文字または文字列が表示される際に出力される音声が一定の音量を超える場合に、当該文字または文字列に対応付けて記憶されるデータとして、音声データ、映像データ、データ放送用データのうち少なくとも1つを予め設定しておくようにする。また、字幕データに対応する音声データ、映像データなどの各データが記憶される際の基準となる音声の音量の閾値についても、所定の閾値を予め設定しておくようにする。
ステップS11〜ステップS13の動作は第1実施の形態の説明と同じであり、受信したトランスポートストリーム(TS)から字幕パケットを分離して、字幕パケット内の字幕データをデコードして得られる字幕テキスト情報から、表示単位ぶんの字幕を抽出する。次に、音量解析部28は、抽出した表示単位ぶんの字幕データに対応する音声データの音量情報を解析して、当該音声データに基づき出力される音声の音量を判定する(ステップS51)。
ステップS52にて、音量解析部28により解析された音声データの音量が所定の閾値を超える場合には、制御部10は、音量が所定の閾値を超える箇所を含む文字または文字列の字幕の表示単位に対応する音声データ、映像データ、データ放送用データのうち少なくとも1つを選択的に抽出して、記憶部23に記憶する(ステップS53)。各データを記憶部23に記憶する際には、音声データは音声データ記憶部25に、映像データは映像データ記憶部26に、データ放送用データはデータ放送用データ記憶部27に記憶する。
さらに、制御部10は、このようにして各データ記憶部25,26,27に記憶された音声データ、映像データ、データ放送用データの各データに関連付けたリンク情報を、音量が閾値を超える際に表示される字幕の文字または文字列に付加して、このリンク情報を含む字幕データを変換部22に出力し、変換部22は、このリンク情報を含む字幕データをHTML形式に変換する(ステップS54)。このHTML形式に変換された字幕データを字幕ファイル記憶部24に記憶し(ステップS15)、これ以降は第1実施の形態で説明した動作と同じになる。
また、ステップS52にて、字幕の文字または文字列が表示される際に、音量解析部28により解析された音声の音量が所定の閾値を超えない場合には、当該字幕の表示単位は、第1実施の形態と同様に単に字幕データとしてそのままHTML形式に変換する(ステップS44)。HTML形式に変換された字幕データを字幕ファイル記憶部24に記憶する以降は第1実施の形態で説明した動作と同じになる。
このようにして記憶した字幕HTMLファイルおよび映像などの各データのファイルを、ブラウザを用いて閲覧可能に表示する際は、字幕HTMLファイルのうち、所定の音量を超えた際に字幕として表示される文字または文字列を、各データへのリンクが付されていることがユーザにわかるような態様で表示する。そして、各データへのリンクが付された文字または文字列がユーザ操作に基づいて選択されると、制御部10は、そのリンク先の各データを、各データ記憶部25,26,27から読み出し、当該各データを、データの種類に応じてスピーカ19または映像表示部21から出力する。
このようにすることで、デジタル放送の字幕を記憶する際に、字幕表示中の音量が所定の閾値を超える場合には、当該字幕が表示される期間に対応する音声データ、映像データ、データ放送用データのうち少なくとも1つが、自動的に記憶される。さらに、当該字幕は、それらのデータへのリンクが付された状態で字幕ファイル記憶部24に記憶される。一般的に、放送される番組の中で、音声の音量が大きくなる箇所というのは、放送している番組内で内容的に躍動感のある箇所であるか、または決定的な瞬間など特徴的な場面が放送されている場合が多い。したがって、字幕表示中の音量が所定の閾値を超える際の字幕に対応して記憶された音声データ、映像データ、データ放送用データによって、娯楽性の高い場面や特徴的な場面などを必要に応じて視聴することができる。
例えば、図16(A)に示すように、サッカーの試合を放映している番組において、「さぁPKです。」の字幕が表示される際の音声の音量は通常の音量であるため、この部分は字幕データのみが記憶されて他の音声や映像などのデータは記憶されない。その後番組が進行して、図16(B)に示すように、「入りました!ゴール!!」の字幕が表示される際に音声データの音量が閾値を超えた場合、その部分の字幕データが記憶されると共に、その字幕が表示される間の音声データ、映像データ、データ放送用データのうち少なくとも1つを、当該字幕に関連付けて記憶する。この番組の字幕をHTML形式で保存して、ブラウザを用いて字幕を閲覧する際には、図16(C)のように、「ゴール」の字幕箇所付近に当該字幕に関連付けて記憶されたデータへのリンクが表示される。
ユーザ入力により、例えば画像データへのリンク(図16(C)の「画像」)が選択された場合には、図16(D)に示すように、「ゴール!!」の文字列に関連付けて記憶している映像データを静止画または動画として映像表示部21に表示する。また、音声データへのリンク(図16(C)の「♪(音符マーク)」)が選択された場合には、図16(E)に示すように、「ゴール!!」の文字列に関連付けて記憶している音声データに基づく音声をスピーカ19から出力する。映像データを音声データと共に記憶している場合には、動画の再生と共に音声を出力してもよい。データ放送へのリンク(図16(C)の「データ放送」)が選択された場合には、図16(F)に示すように、「ゴール!!」の文字列に関連付けて記憶しているBMLに基づくデータ放送を映像表示部21に表示する。
なお、上記図16に示した例では、字幕表示の際に出力される音声の音量が閾値を超える場合の字幕に対応する、音声データ、映像データ、データ放送用データの全てを記憶する場合について説明したが、これら各データのうち少なくとも1つを任意に設定できるようにするのが好適である。
(第3実施の形態)
次に、本発明の第3実施の形態に係る放送受信装置の動作について説明する。本実施の形態では、第2実施の形態で説明した字幕の保存動作において、字幕中の文字または文字列が表示される際の音量に応じて、当該文字または文字列の字幕を表示する際の文字の大きさを指定するようにする。
本実施の形態に係る放送受信装置は、第2実施の形態で説明した放送受信装置200と同じ構成で、音量解析部28の動作が若干異なるものである。本実施の形態における音量解析部28は、音声デコード部15から出力される音声データの音量情報を解析することにより、字幕デコード部17から出力される字幕データに対応する音声データの音量を、その大きさに応じて所定の複数の段階に分類する。
以下、図17のフローチャートを参照して、本実施の形態による字幕を保存する動作について説明する。なお、本実施の形態では、字幕の各表示単位の文字または文字列が表示される際に出力される音声の大きさの段階別にそれぞれ対応させて字幕に割り当てる文字の大きさとして、所定のフォントサイズなどを予め設定しておくようにする。一般的には、字幕が表示される際の音声が大きいほど、それに従って大きな文字を指定するような段階的な設定にするのが望ましい。
ステップS11〜ステップS13の動作は第1実施の形態の説明と同じであり、受信したトランスポートストリーム(TS)から字幕パケットを分離して、字幕パケット内の字幕データをデコードして得られる字幕テキスト情報から、表示単位ぶんの字幕を抽出する。次に、音量解析部28は、抽出した表示単位ぶんの字幕データに対応する音声データの音量情報を解析して、当該音声データに基づき出力される音声の音量を判定する(ステップS61)。
制御部10は、音量解析部28で判定された音量に対応する文字の大きさを指定する属性情報を、表示単位ぶんの字幕データに付加してから変換部22に出力し、変換部22は、この属性情報を含む字幕データをHTML形式に変換する(ステップS62)。記憶部23は、HTML形式に変換された字幕データを字幕ファイル記憶部24に記憶し(ステップS15)、これ以降は第1実施の形態で説明した動作と同じになる。
このようにして記憶した、文字の属性情報が付加された字幕HTMLファイルを、ブラウザを用いて閲覧可能に表示する際は、画面制御部20は、付加された属性情報に基づいて、字幕の文字の大きさを変更して映像表示部21に表示する。
このようにすることで、番組の内容を示す字幕HTMLファイルを後からブラウザで閲覧する際に、字幕の表示がされた際に出力された音声の音量を、文字の大きさにより直感的に把握することができるため、字幕の文字列を一見するだけで、字幕に対応するセリフ発言時の臨場感や番組内容の抑揚などを視覚的に把握することができる。
例えば、図18(A)に示すように、デジタル放送の番組内で、登場人物であるAさんのセリフが字幕で表示された際の音声出力の音量はやや大きめであり、Bさんのセリフが字幕で表示された際の音声出力の音量は普通であったとする。その後番組が進行して、図18(B)に示すように、Cさんのセリフが字幕で表示された際の音声出力の音量はかなり大きかったとする。この番組の字幕を保存して、後からブラウザを用いて字幕ファイルを閲覧する際には、図18(C)に示すように、字幕が表示された際の音声出力の相対的な大小関係が、字幕を構成する文字列の大きさにより表現されるため、番組の字幕を閲覧しているユーザは、発言されたセリフの音量の相対的な大小関係を一見して視覚的に把握することができる。
なお、本発明は、上述した各実施の形態にのみ限定されるものではなく、幾多の変形または変更が可能である。例えば、上述した各実施の形態では、デジタル放送の番組を受信している最中に、リアルタイムで字幕データなどの各データの記憶をする処理を想定して説明しているが、まず番組全体をデジタル放送として字幕データを含めて(例えば全てのTSパケットごと)録画しておき、この録画したファイルに対して、タイミング情報(例えばタイムスタンプ情報など)に従って、後からデータ一括変換のような態様で字幕および/または字幕に対応する各種データを抽出して、HTML形式の字幕データファイルに変換するようにしてもよい。
また、上述した各実施の形態では、デジタル放送の内容把握のための時間短縮措置と、字幕のみで補うことが困難な情報の補完措置とを、説明の便宜上、細かく分割して説明したが、所望に応じて、本発明の各実施の形態にて説明した各種の措置のうち任意のものを組み合わせて実施することもできる。