WO2006022071A1

WO2006022071A1 - 映像表示装置及び映像表示方法

Info

Publication number: WO2006022071A1
Application number: PCT/JP2005/011423
Authority: WO
Inventors: Tatsuya Nishi
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2004-08-25
Filing date: 2005-06-22
Publication date: 2006-03-02

Abstract

　無音状態でも番組内容を視聴者に容易に把握させる映像表示装置を開示する。この装置では、多重化分離部（１１３）から出力されたデータのうち、字幕情報が発言者識別情報に基づいて、発言者別に字幕履歴記憶部（１１６）に記憶される。また、多重化分離部（１１３）から出力されたデータは、発言者情報抽出部（１１８）で発言者識別情報と発言者情報とが抽出され、抽出された発言者識別情報と発言者情報とを組にして、発言者情報記憶部（１１９）に記憶される。表示処理部（１２０）は、一つの画像領域を、字幕を表示する字幕表示領域と、映像を表示する映像表示領域とに分割し、映像処理部（１１７）から出力された映像を映像表示領域に配し、字幕履歴記憶部（１１６）に記憶された字幕表示情報と発言者情報記憶部（１１９）に記憶された発言者情報を前記字幕表示領域に配し、これらの表示画像を合成する。合成した画像は表示部（１２１）で表示される。

Description

明細書

映像表示装置及び映像表示方法

技術分野

[0001] 本発明は、映像表示装置及び映像表示方法に関し、特に、字幕の表示を行う映像表示装置及び映像表示方法に関する。

背景技術

[0002] 近年、テレビの視聴が可能な携帯電話等の小型携帯端末が普及しつつあり、ユーザは移動中又は移動先でもテレビの電波を受信できれば場所に制約されることなくテレビを視聴することができる。

[0003] このような小型携帯端末でのテレビ視聴を想定した場合、公共スペースでの視聴も考えられる。特に、公共交通機関の利用中や病院等の待ち時間に視聴する場合など、周囲への配慮が必要な場所では、テレビの音声が周囲に伝わらないように視聴することが求められる。

[0004] このような場所では、一般に、ヘッドフォンを装着し、周囲に音声が伝わることを防止している力ヘッドフォンを取り出して装着するには手間がかかり、短時間の視聴が予想される場合にはヘッドフォンの使用は好ましくな、。

[0005] また、ヘッドフォンを装着せずに、音声を消して無音状態とし、字幕放送等を利用して視聴することも考えられ、このような技術として特許文献 1には、図 1に示すように、また、特許文献 2には、図 2に示すように、画像に表示された人物に対応する吹き出し用の枠を表示し、音声を文字に変換したデータをその音声の発言者に対応させ、字幕 (文字データ）を吹き出し用の枠に表示する技術がそれぞれ開示されている。これにより、字幕のみでは困難な発言者の特定を容易に行うことができ、無音状態でも番組内容の把握が容易となる。

特許文献 1：特開 2004— 056286号公報

特許文献 2：特開 2004 - 080069号公報

発明の開示

発明が解決しょうとする課題 [0006] し力しながら、上記特許文献 1及び特許文献 2に開示された技術では、吹き出し用の枠を表示するため映像が隠れてしまう。特に、小型携帯端末では、表示画面も小型であるため画面の多くの領域が吹き出し用の枠で占有されてしまい、重要な映像が隠れてしまう。また、番糸且の演出等によっては、必ずしも、字幕に表示された内容が映像に表示されている人物の発言と一致するとは限らないので、このような場合、上記特許文献 1及び特許文献 2に開示された技術では、発言者と吹き出し用の枠を対応させることができない。

[0007] 本発明の目的は、無音状態でも番組内容を視聴者に容易に把握させる映像表示装置及び映像表示方法を提供することである。

課題を解決するための手段

[0008] 本発明の映像表示装置は、字幕と字幕の発言者を視聴者に認知させる発言者情報とを対応付けた字幕表示画像を作成し、作成した字幕表示画像と映像とを合成する表示処理手段と、前記表示処理手段によって合成された画像を表示する表示手段と、を具備する構成を採る。

[0009] この構成によれば、字幕と映像内の発言者とを対応付けられるので、映像に表示されて、な、発言者でも視聴者は認識することができ、無音状態で番組内容を容易に把握することができる。

発明の効果

[0010] 本発明によれば、無音状態でも番組内容を視聴者に容易に把握させる映像表示装置及び映像表示方法を提供することができる。

図面の簡単な説明

[0011] [図 1]特許文献 1に開示された画像表示方法を示す図

[図 2]特許文献 2に開示された画像表示方法を示す図

[図 3]本発明の実施の形態 1に係る放送システムの構成を示すブロック図

[図 4]図 3に示す字幕処理部の処理の様子を示す概念図

[図 5]発言者枠の表示位置を示す図

[図 6]図 3に示す発言者情報抽出部の処理の様子を示す概念図

[図 7]図 3に示す表示処理部の処理の様子を示す概念図 [図 8]図 3に示す字幕処理部の処理の手順を示すフロー図

圆 9]字幕を削除した様子を示す概念図

圆 10]字幕表示情報を削除した様子を示す概念図

[図 11]表示指定情報を示す概念図

圆 12]表示指定情報を選択する様子を示す概念図

[図 13]本発明の実施の形態 2( ；こ係る映像表示装置の構成を示すブロ:ック図

[図 14]本発明の実施の形態 3( ；こ係る映像表示装置の構成を示すブロ:ック図

[図 15]本発明の実施の形態 3( ；こ係る映像表示装置の構成を示すブロ:ック図

[図 16]本発明の実施の形態 4( ；こ係る放送システムの構成を示すブロック図

[図 17]本発明の実施の形態 4( ；こ係る映像表示装置の構成を示すブロ:ック図

[図 18]本発明の実施の形態 4( ；こ係る映像表示装置の構成を示すブロ:ック図

[図 19]本発明の実施の形態 5( ；こ係る放送システムの構成を示すブロック図

[図 20]本発明の実施の形態 6( ；こ係る放送システムの構成を示すブロック図

[図 21]本発明の実施の形態 7( ；こ係る映像表示装置の構成を示すブロ:ック図

[図 22]本発明の実施の形態 7( ；こ係る映像表示装置の構成を示すブロ:ック図

[図 23]本発明の実施の形態 8( ；こ係る映像表示装置の構成を示すブロ:ック図

[図 24]本発明の実施の形態 9( ；こ係る映像表示装置の構成を示すブロ:ック図

[図 25A]字幕の表示順序を昇順とした場合を示す図

[図 25B]字幕の表示順序を降順とした場合を示す図

発明を実施するための最良の形態

[0012] 以下、本発明の実施の形態について、図面を参照して詳細に説明する。なお、実施の形態において、同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。

[0013] (実施の形態 1)

図 3は、本発明の実施の形態 1に係る放送システムの構成を示す。まず、放送波送出装置 100の構成について説明する。入力装置 101は、カメラ、マイク、キーボード等であり、これらによって字幕情報、映像音声コンテンツ、データコンテンツが入力される。 [0014] 映像符号ィ匕部 102は、映像音声コンテンツのうち映像情報を Mpeg2、 Mpeg4又は H. 264などの圧縮方式で符号ィ匕し、符号化した映像情報を多重化処理部 104に出力する。

[0015] 音声符号ィ匕部 103は、映像音声コンテンツのうち音声情報を AACなどの圧縮方式で符号ィ匕し、符号ィ匕した音声情報を多重化処理部 104に出力する。

[0016] 多重化処理部 104は、映像符号ィ匕部 102から出力された映像情報と、音声符号化部 103から出力された音声情報と、それ以外の番組情報や番組特定情報、テキスト情報、画像情報などの放送内容 (以下、「その他放送内容」という）を多重化し、多重化した信号を伝送路符号ィ匕部 105に出力する。

[0017] 伝送路符号ィ匕部 105は、多重化処理部 104から出力された信号に符号化、変調などの送信処理を行い、アンテナ 106から放送波を送出する。

[0018] 次に、映像表示装置 110の構成について説明する。チューナ部 112は、アンテナ 1 11を介して受信した放送波からユーザによって指定されたチャンネルの周波数信号を抽出し、抽出した周波数信号の符号復調処理を行う。復調処理された信号は多重化分離部 113に出力される。

[0019] 多重化分離部 113は、チューナ部 112から出力された信号を字幕情報、映像情報、その他放送内容に分離し、分離した字幕情報を字幕処理部 115に出力し、映像情報を映像処理部 117に出力し、その他放送内容を発言者情報抽出部 118に出力する。なお、字幕情報には、発言者を識別する IDなどの情報である発言者識別情報と字幕そのものの情報とを含むものとし、その他放送内容には、字幕の発言者をユーザに認知させる発言者情報と発言者識別情報とを含むものとする。

[0020] タイマ 114は、現在時刻を計測し、計測した現在時刻を字幕処理部 115及び表示処理部 120に通知する。

[0021] 字幕処理部 115は、多重化分離部 113から出力された字幕情報を発言者識別情報に基づいて、発言者別に字幕履歴記憶部 116に記憶する。このとき、タイマ 114から通知された現在時刻を字幕情報の表示時刻として、表示時刻も字幕履歴記憶部 1 16に記憶する。また、発言者毎の字幕を表示する領域を発言者枠として、この発言者枠を表示する位置 (以下、単に「表示位置」という）を決定し、決定した表示位置も字幕履歴記憶部 116に記憶する。字幕処理部 115の処理の様子を概念的に図 4に示す。また、本実施の形態では、図 5に示すように、発言者枠を 3つ用意し、上段から順に表示位置「1」「2」「3」とし、表示位置の決定については、空いている表示位置のうち、最も若い番号を決定する。

[0022] 字幕履歴記憶部 116は、発言者識別情報、表示時刻、表示位置、字幕を一組とする字幕表示情報を図 4に示すようにテーブルで管理する。

[0023] 映像処理部 117は、多重化分離部 113から出力され、 H. 264などで符号ィ匕された映像ストリームを復号し、復号した信号を表示処理部 120に出力する。

[0024] 発言者情報抽出部 118は、多重化分離部 113から出力されたデータ力発言者識別情報と発言者情報とを抽出し、抽出した発言者識別情報と発言者情報とを組にして、発言者情報記憶部 119に記憶する。発言者情報抽出部 118の処理の様子を概念的に図 6に示す。図 6に示すように、発言者情報記憶部 119は、発言者識別情報と発言者情報とを組にして、テーブルで管理する。

[0025] 表示処理部 120は、一つの画像領域を、字幕を表示する字幕表示領域と、映像を表示する映像表示領域とに分割し、映像処理部 117から出力された映像を映像表示領域に配し、字幕履歴記憶部 116に記憶された字幕表示情報と発言者情報記憶部 119に記憶された発言者情報を前記字幕表示領域に配し、これらの表示画像を合成する。このとき、タイマ 114から通知された時刻と字幕履歴記憶部 116に記憶された表示時刻に基づいて、発言者枠をソートする。表示処理部 120により、字幕表示と映像表示を同一画面上でそれぞれ分けることになるので、映像表示と字幕表示が重なることがなくなり、映像又は字幕の表示が見えなくなることを防止することができる。合成した画像は表示部 121に出力される。表示処理部 120の処理の様子を概念的に図 7に示す。

[0026] なお、表示処理部 120は、発言者の発言の有無に応じて、発言者枠を動的に配することになり、発言者の発言がある場合に発言者枠を配し、発言者の発言がない場合には発言者枠を配さないことにより、映像の画面比率と映像表示装置の画面比率とが異なる場合、余った領域を字幕表示領域として有効利用することができる。

[0027] 表示部 121は、表示処理部 120から出力された合成画像を表示する。 [0028] 次に、上述した構成を有する映像表示装置 100の主な動作について図 8を用いて説明する。図 8において、ステップ (以下、「ST」と省略する） 131では、字幕を表示して力も指定時間 (例えば 5秒)経過した字幕を字幕履歴記憶部 116が有する字幕表示情報から削除し、 ST132に移行する。字幕を削除した様子を図 9に示す。

[0029] ST132では、字幕を表示してから指定時間経過した字幕表示情報、又は 2枠以上使用され、かつ字幕のみ削除された字幕表示情報を削除し、 ST133に移行する。字幕表示情報を削除した様子を図 10に示す。なお、字幕と同時に字幕表示情報も削除する場合は、字幕の削除指定時間と字幕表示情報の削除指定時間を等しくすればよい。ちなみに、削除指定時間は、第 1発言者の字幕を表示中に、第 1発言者とは異なる第 2発言者の字幕を表示してから、前記第 1発言者の字幕を削除する時間とする。これにより、第 1発言者の発言が終了しても、第 1発言者の字幕が表示されていることになり、複数人が同時に発言した場合でも、視聴者は内容を容易に把握することができる。

[0030] ST133では、多重化分離部 113から新たな字幕情報を取得した力否かが判定され、新たな字幕情報を取得した (YES)と判定されると ST134に移行し、新たな字幕情報を取得していない (NO)と判定されると ST131に戻り、新たな字幕情報を取得したと判定されるまで ST131〜ST133の処理を繰り返す。

[0031] ST134では、発言者枠に空きがある力否かが判定される。具体的には、画面サイズゃ端末の仕様によって表示可能な発言者枠数には上限があるため、字幕履歴記憶部 116に記憶されている情報力発言者枠数が上限であるか否かが判定される。例えば、上限力である場合、発言者枠数が 3以下であれば上限ではないと判定され、発言者枠数が 4であれば上限であると判定される。すなわち、上限でなければ、発言者枠に空きがある (YES)と判定され、 ST136に移行し、上限であれば、発言者枠に空きがない（NO)と判定され、 ST135に移行する。

[0032] ST135では、 ST134において発言者枠に空きがないと判定されたので、字幕履歴記憶部 116の中から表示時刻の最も古い字幕表示情報を削除することにより発言者枠を確保し、 ST136に移行する。これにより、登場人物が多数いる場合でも、限られた字幕表示領域を有効に利用することができると共に、視聴者は内容を容易に把握することができる。

[0033] ST136では、多重化分離部 113から取得した新しい字幕情報に含まれる発言者識別情報と同一の発言者識別情報が字幕履歴記憶部 116に存在するか、すなわち、記憶されているカゝ否かを判定する。存在する (YES)と判定されると ST138に移行し、存在しない（NO)と判定されると ST137に移行する。

[0034] ST137では、新、字幕情報を基に、字幕履歴記憶部 116の空き領域に新たな字幕表示情報を記録する。

[0035] ST138では、新たに取得した字幕情報に含まれる発言者識別情報と字幕履歴記憶部 116に記憶された同一の発言者識別情報を含む字幕表示情報に字幕が存在する力（記憶されている力 )否かが判定される。ここでは、 ST131において、字幕表示力も指定時間経過後の字幕が削除され、 ST132において、字幕表示から指定時間内の字幕表示情報が削除されない場合には、字幕表示情報のうち字幕のみが削除されていることがあるので、字幕のみが削除されている力否かを判定することになる。字幕が存在する (YES)と判定されると ST140に移行し、字幕が存在しない (NO) と判定されると ST139に移行する。

[0036] ST139では、字幕履歴記憶部 116に記憶された同一の発言者識別情報を含む字幕表示情報 (字幕を含まない）に、新しい字幕情報を記憶する。

[0037] ST140では、字幕履歴記憶部 116に記憶された同一の発言者識別情報に対応する表示位置の次の表示位置が空きとなっている力否かが判定される。例えば、字幕履歴記憶部 116に記憶された同一の発言者識別情報のうち、最も下となるものの表示位置が上から 2つ目であったとすると、その次の表示位置、すなわち、上から 3つの目の表示位置が空きである力否かが判定される。空きである (YES)と判定されると S T142に移行し、空きではない（NO)と判定されると ST141に移行する。また、同一の発言者識別情報が最下段の表示位置であり、次の表示位置が存在しない場合は空きではな、 (NO)と判定される。

[0038] ST142では、 ST141において字幕履歴記憶部 116に記憶された同一の発言者識別情報のうち、表示位置が最も下となるものの次の表示位置が空きではないと判定されたので、次の表示位置に空きを作成する。具体的には、同一の発言者識別情報のうち、最も下となるものの表示位置が上から 2つ目であったとし、その次の表示位置、すなわち、上から 3つの目の表示位置が空きではないとすると、上から 3つ目の字幕表示情報の表示位置を 4つめに繰り上げシフトし、上から 4つ目以降も同様に繰り上げシフトする。

[0039] このように、字幕処理部 115は動的に発言者別の字幕情報を字幕履歴記憶部 116 に記憶し、字幕履歴記憶部 116に記憶された字幕情報を古、順に削除する。

[0040] このように実施の形態 1によれば、一つの画像領域を字幕表示領域と映像表示領域とに分割し、発言者を示す情報と発言者の発言内容を示す字幕とを対応させた字幕表示画像を字幕表示領域に表示し、映像を映像表示領域に表示することにより、映像を隠すことなぐ無音状態でも発言者の発言内容をユーザに認知させることができるので、番組内容を容易に把握することができる。

[0041] なお、本実施の形態では、発言者情報としてのアイコン、発言者枠、フォント、文字色、文字サイズ等がそれぞれ 1種類の場合を想定して説明したが、図 11に示すように、アイコン、発言者枠、フォント、文字色、文字サイズ等をそれぞれ複数用意し、これらのいずれかを用いるように表示指定情報で指定してもよい。この場合、その他放送内容に同一の発言者を示す複数の発言者情報が含まれていれば、発言者情報抽出部 118においてその他放送内容力発言者識別情報と表示指定情報との組合せが抽出され、図 12に示すように、抽出された表示指定情報に従って字幕表示画像が作成される。また、その他放送内容に複数の発言者情報が含まれていなければ、予め用意されたデフォルトの情報を使用する。

[0042] なお、本実施の形態における表示処理部 120は、複数の発言者の発言者枠を表示中に、いずれかの発言者の発言が連続する場合、他の発言者の発言者枠を削除し、削除された領域に連続する発言を行う発言者の発言者枠を拡張するようにしてもよい。発言者枠が最大限拡張され、さらに発言が連続する場合は、字幕をスクロールさせる。これにより、長い字幕を表示することができる。

[0043] (実施の形態 2)

本発明の実施の形態 2では、その他放送内容に時刻制御モード (TMD)及び表示開始時刻 (STM) t 、つた時刻情報が含まれ、この時刻情報を用いる場合にっ、て説明する。

[0044] 本発明の実施の形態 2に係る映像表示装置 150は、図 13に示すように、発言者情報抽出処理部 151が多重化分離部 113から出力されたデータから時刻情報を抽出し、抽出した時刻情報を字幕処理部 115及び表示処理部 120に出力する。

[0045] これにより、映像表示装置 150は現在時刻を計測するタイマを省くことができ、装置規模の削減を図ることができる。

[0046] (実施の形態 3)

本発明の実施の形態 3に係る映像表示装置 160は、図 14に示すように、記憶装置 161が DVD (Digital Versatile Disc)、 SDカード又はハードディスクなどであり、映像音声コンテンツ及びデータコンテンツが蓄積されている。

[0047] これにより、映像表示装置 160は、記憶装置 161に蓄積された映像音声コンテンツ及びデータコンテンツを用いて、映像、発言者情報及び字幕を同時に表示することができる。

[0048] なお、図 15に示すように、映像表示装置 165は、放送波を受信し、チューナ部 112 で復調処理した受信信号を録画処理部 166にお、て録画処理し、記憶装置 161に記憶する受信録画機能を有してもよい。この場合、受信した放送波を復調し、リアルタイムで表示してもよいし、記憶装置 161に記憶した後、表示してもよい。

[0049] (実施の形態 4)

図 16は、本発明の実施の形態 4に係る放送システムの構成を示す。この図において、映像表示装置 170は、通信部 171がインターネット網などの通信網を介してサーノ 180から映像音声コンテンツ及びデータコンテンツを送受信する。ここで、通信部 1 71の通信方式については、ネットワークアダプタ、無線 LAN (Local Area Network)、 Bluetooth,赤外線通信などその種別は問わず、有線でも無線でもよい。

[0050] サーバ 180は、入力装置 181であるカメラ、キーボード等によって発言者情報を入力し、発言者情報を発言者情報記憶部 182に記憶し、通信部 183を介して映像表示装置 170に送信する。

[0051] これにより、映像表示装置 170は、映像音声コンテンツ及び字幕情報を放送波から取得し、発言者情報を通信網から取得することができる。これにより、例えば、インタ一ネットやデータ放送等により、ある番組の発言者情報を予め取得しておき、当該番組の映像を再生する場合に、取得しておいた発言者情報を用いることにより、視聴者は番組内容を容易に把握することができる。

[0052] なお、図 17に示すように、映像表示装置 172において、通信部 171が映像音声コンテンッ、字幕情報及び発言者情報を通信網から取得するようにしてもよい。また、図 18に示すように、映像表示装置 173において、字幕情報及び発言者情報を通信網から取得し、映像音声コンテンツを放送波から取得するようにしてもよぐこの場合、発言者情報を含まないアナログ放送においても、映像、発言者情報及び字幕を同時に表示することができる。

[0053] (実施の形態 5)

図 19は、本発明の実施の形態 5に係る放送システムの構成を示す。この図において、映像表示装置 190は、認証処理部 192が入力装置 191からユーザによって入力された認証情報を取得し、取得した認証情報の問い合わせを通信部 171を介して発言者情報配信装置 200に行う。

[0054] 発言者情報配信装置 200は、映像表示装置 190から通信部 201を介して認証の問い合わせを受け、認証処理部 202が認証情報の照合を行い、認証に成功した映像表示装置に対してのみ発言者情報記憶部 203に記憶された複数種類の発言者情報を送信する。なお、発言者情報記憶部 203に記憶された発言者情報は、入力装置 204によって入力されたものである。

[0055] 映像表示装置 190における記憶装置 193は、セキュア領域を有する SDカードなどであり、発言者情報配信装置 200から取得した複数種類の発言者情報及びこの発言者情報を使用する番組識別情報 (番組名、放送局名、チャンネル、開始時間、終了時間、その他 ID等）と、入力装置 191から入力された認証情報とを記憶し、認証処理部 192のみがアクセス可能である。

[0056] 映像表示装置 190は番組識別情報で定められた番組の視聴を開始する際、認証処理部 192が記憶装置 193にアクセスし、記憶装置 193に記憶された情報を読み取つて発言者情報記憶部 119に書き込む。番組の視聴を終了する際、認証処理部 19 2は発言者情報記憶部 119に書き込んだ情報を削除する。これにより、認証処理によつて得られる情報 (ここでは、複数種類の発言者情報)の漏洩を防止することができる

[0057] このように、認証が成功した映像表示装置のみがリッチな発言者情報を入手し、表示指定情報を用いて字幕表示を行うことができる。このため、リッチな発言者情報を購入したユーザに対して認証情報を配信したり、ある番組のホームページなどのアンケートに回答したユーザに対して認証情報を配信したりするといつたサービスを提供することができる。

[0058] このように実施の形態 5によれば、認証が成功した映像表示装置のみが複数種類の発言者情報を入手することができ、リッチな字幕表示を行うことができる。

[0059] (実施の形態 6)

図 20は、本発明の実施の形態 6に係る放送システムの構成を示す。この図において、映像表示装置 210は、インターネット網などの通信網を介して発言者情報配信装置 200と接続する第 1通信部 171と、スイカ（登録商標)などの非接触式 IC、無線タグ、赤外線などを用、て通信を行う第 2通信部 211を有する。

[0060] 鍵配信装置 220は、通信部 221を介して映像表示装置 210から鍵取得要求を受けると、鍵配信管理部 222が管理する鍵 (又は鍵と発言者情報配信装置のアドレス)を映像表示装置 210に配信し、その旨を発言者情報配信装置 200に通知する。なお、鍵配信管理部 222が管理する認証情報 (鍵、 ID)は入力装置 223によって入力される。

[0061] 発言者情報配信装置 200は、鍵配信装置 220から鍵の配信通知を受け、認証処理部 202が管理する認証情報にその情報を追記する。また、映像表示装置 210から鍵を用いた認証の問い合わせを受けると、認証処理部 202は認証を行い、認証が成功した映像表示装置に対してのみ発言者情報記憶部 203に記憶された複数種類の発言者情報を送信する。

[0062] このように、鍵配信装置 220から鍵を取得した映像表示装置のみがリッチな発言者情報を入手し、複数種類の発言者情報を用いた字幕表示を行うことができる。このため、複数の発言者情報を購入したユーザに対して鍵を配信したり、番組に関連する物品を購入した際、購入した店舗にて鍵を配信したりするとヽつたサービスを提供することがでさる。

[0063] このように本実施の形態 6によれば、鍵を取得した映像表示装置のみが複数種類の発言者情報を入手することができ、複数種類の発言者情報を用いたリッチな字幕表示を行うことができる。

[0064] (実施の形態 7)

本発明の実施の形態 7に係る映像表示装置 230は、図 21に示すように、音声処理部 231が多重化分離部 113から出力された音声ストリームを復号し、復号した音声ストリームを音声解析部 232に出力する。

[0065] 音声解析部 232は、音声処理部 231から出力された音声ストリームを解析し、音量、音程などの解析結果を表示処理部 233に出力する。また、音声の特徴を解析することにより、喜怒哀楽といった感情を表す情報、性別情報、年齢を表す情報 (例えば、赤ちゃん、子供、成人、老人など）を生成し、表示処理部 233に出力する。

[0066] 表示処理部 233は、音声解析部 232から出力された音声解析結果を用いて、字幕表示画像を作成する。例えば、音量を文字サイズと対応させ、音程を文字色と対応させる。また、感情を表す情報はフォントと対応させ、性別はハイライトの色と対応させる。ただし、音声解析結果のそれぞれの内容に対応させる装飾はこれに限らない。

[0067] このように本実施の形態 7によれば、字幕表示画像で発言者の音声を解析した結果を視覚的に表示することにより、文字以外の情報を字幕表示することができ、番組内容をより容易に把握することができる。

[0068] なお、図 22に示すように、映像表示装置 235が映像解析部 236を有し、映像解析部 236が映像処理部 117から出力された映像ストリームを解析し、表示処理部 233 が明るさなどの解析結果に対応する装飾を行ってもよい。表示処理部 233は、朝、昼、夜、海、山、サッカーなどのシーンに対応した装飾を行ってもよい。

[0069] また、例えば、発言者の音声を検知すると、発言中であることを示すアイコン (発言している顔)や発言者枠に変更し、発言者の音声を検知しなくなると、発言中ではな V、ことを示すアイコン（聞、て、る顔)や発言者枠に変更するようにしてもよ!、。ちなみに、発言者情報として静止画のアイコンだけではなぐアニメーション GIFといった簡易動画のアイコンによって発言者を示してもょ、。 [0070] (実施の形態 8)

本発明の実施の形態 8に係る映像表示装置 240は、図 23に示すように、音声処理部 231が多重化分離部 113から出力された音声ストリームを復号し、復号した音声ストリームを発言者解析部 241に出力する。

[0071] 発言者解析部 241は、発言者を映像と音声から検出し、発言者の画像を抽出する

。そして、抽出した画像を指定のサイズに拡大縮小し、発言者情報とする。発言者情報は字幕処理部 115で処理された字幕情報と共に字幕履歴記憶部 116に記憶される。なお、発言者を映像と音声力検出する技術は既存の技術を用い、例えば、特許文献 1に記載の技術を用いるものとする。

[0072] これにより、発言者情報を含まないアナログ放送においても、映像、発言者情報及び字幕を同時に表示することができる。

[0073] (実施の形態 9)

本発明の実施の形態 9に係る映像表示装置 250は、図 24に示すように、音声認識部 251が音声処理部 231から出力された音声ストリームを音声認識することにより、文字情報に変換し、字幕情報を生成する。生成された字幕情報は字幕履歴記憶部 1

16に記憶される。

[0074] これにより、発言者情報及び字幕情報が放送波に含まれない場合でも、字幕表示を行うことができる。

[0075] (他の実施の形態）

字幕の表示順序は、図 25Aに示すように、字幕表示領域の上から順 (昇順）に表示してもよいし、図 25Bに示すように、字幕表示領域の下から順（降順）に表示してもよい。このとき、字幕の表示順序に対応させて発言者枠のノ、イライトを明るい色力地味な色に段階的に変化させたり、字幕の文字色を段階的に薄くしたり、さらには文字サイズを段階的に小さくしたり、表示順序の番号付けを行ったりしてもよい。これにより、ユーザは字幕の表示順序を、字幕を読むことなぐ認知することができる。なお、字幕の表示順序 (降順又は昇順)をユーザに設定させてもよ!、。

[0076] 本発明の第 1の態様は、字幕と字幕の発言者を視聴者に認知させる発言者情報とを対応付けた字幕表示画像を作成し、作成した字幕表示画像と映像とを合成する表示処理手段と、前記表示処理手段によって合成された画像を表示する表示手段と、を具備する映像表示装置である。

[0077] この構成によれば、字幕と映像内の発言者とを対応付けられるので、映像に表示されて、な、発言者でも視聴者は認識することができ、無音状態で番組内容を容易に把握することができる。

[0078] 本発明の第 2の態様は、上記態様において、発言者情報を取得する発言者情報取得手段と、取得された発言者情報を記憶する発言者情報記憶手段と、を具備する映像表示装置である。

[0079] 本発明の第 3の態様は、上記態様において、前記発言者情報取得手段は、番組の受信開始前に予め発言者情報を取得する映像表示装置である。

[0080] これらの構成によれば、例えば、インターネットやデータ放送等により、ある番組の発言者情報を予め取得しておき、当該番組の映像のみを再生する場合でも、取得しておいた発言者情報を用いることにより、視聴者は番組内容を容易に把握することができる。

[0081] 本発明の第 4の態様は、上記態様において、前記発言者情報取得手段が、番組の受信と共に発言者情報を取得する映像表示装置である。

[0082] この構成によれば、予め発言者情報を取得する手間を省くことができ、視聴者の利便性を向上させることができる。

[0083] 本発明の第 5の態様は、上記態様において、前記表示処理手段が、一つの画像領域を、字幕を表示する字幕表示領域と、前記字幕表示領域とは異なり、かつ、映像を表示する映像表示領域とに分割し、発言者を含む映像を前記映像表示領域に配し、前記発言者に対応する字幕及び発言者情報を前記字幕表示領域に配する映像表示装置である。

[0084] この構成によれば、字幕表示と映像表示を同一画面上でそれぞれ分けて表示することになるので、映像表示と字幕表示が重なることがなくなり、映像又は字幕の表示が見えなくなることを防止することができる。

[0085] 本発明の第 6の態様は、上記態様において、前記表示処理手段が、発言者の発言の有無に応じて、発言者毎の字幕を表示する領域である発言者枠を動的に配する映像表示装置である。

[0086] この構成によれば、発言者の発言がある場合に発言者枠を配し、発言者の発言がない場合には発言者枠を配さないことにより、映像の画面比率と映像表示装置の画面比率とが異なる場合、余った領域を字幕表示領域として有効利用することができる

[0087] 本発明の第 7の態様は、上記態様において、前記表示処理手段が、第 1発言者の字幕を表示中に、第 1発言者とは異なる第 2発言者の字幕を表示してから、前記第 1 発言者の字幕を削除する映像表示装置である。

[0088] この構成によれば、第 1発言者の発言が終了しても、第 1発言者の字幕が表示されていることになり、複数人が同時に発言した場合でも、視聴者は内容を容易に把握することができる。

[0089] 本発明の第 8の態様は、上記態様において、前記表示処理手段が、発言者枠が表示可能な数の上限で表示され、かつ、新たな発言者が登場した場合、表示されている発言者枠を削除し、新たな発言者に対応する発言者枠を配する映像表示装置である。

[0090] この構成によれば、登場人物が多数ヽる場合でも、限られた字幕表示領域を有効に利用することができ、視聴者は内容を容易に把握することができる。

[0091] 本発明の第 9の態様は、上記態様において、前記表示処理手段が、前記発言者情報取得手段によって取得された同一の発言者を視聴者に認知させる複数種類の発言者情報のうち、いずれの発言者情報を用いるかを示す表示指定情報に基づいて、字幕表示画像を作成する映像表示装置である。

[0092] この構成〖こよれば、同一の発言者を視聴者に認知させる発言者情報を複数種類の中から指定することにより、リッチな字幕表示を行うことができる。

[0093] 本発明の第 10の態様は、上記態様において、前記表示処理手段が、複数の発言者の発言者枠を表示中に、いずれかの発言者の発言が連続する場合、他の発言者の発言者枠を削除し、削除された領域に前記いずれかの発言者の発言者枠を拡張する映像表示装置である。

[0094] この構成によれば、発言が連続する発言者の発言者枠を、他の表示中の発言者枠を削除し、削除した領域に拡張することにより、長い字幕を表示することができる。

[0095] 本発明の第 11の態様は、上記態様において、映像又は音声を解析する解析手段を具備し、前記表示処理手段は、前記解析手段の解析結果に基づいて、字幕を装飾する映像表示装置である。

[0096] この構成によれば、発言者の音声又は映像を解析した結果を視覚的に表示することにより、文字以外の情報を字幕表示することができ、番組内容をより容易に把握することがでさる。

[0097] 本発明の第 12の態様は、上記態様において、前記表示処理手段が、字幕表示情報の表示順と字幕の装飾とを対応付け、字幕表示情報の表示順に応じて、字幕を装飾する映像表示装置である。

[0098] この構成によれば、字幕を読むことなく字幕の表示順を視覚的に認識することができるので、番組の内容を容易に把握することができる。

[0099] 本発明の第 13の態様は、映像、字幕及び字幕の発言者を視聴者に認知させる発言者情報を放送波として送出する放送波送出装置と、前記放送波送出装置から送出された放送波を受信する受信手段と、受信した放送波に含まれる字幕と発言者情報とを対応付けた字幕表示画像を作成し、作成した字幕表示画像と映像とを合成する表示処理手段と、前記表示処理手段によって合成された画像を表示する表示手段と、を有する映像表示装置と、を具備する放送システムである。

[0100] この構成によれば、字幕と映像内の発言者とを対応付けられるので、映像に表示されて、な、発言者でも視聴者は認識することができ、無音状態で番組内容を容易に把握することができる。

[0101] 本発明の第 14の態様は、映像、字幕及び字幕の発言者を視聴者に認知させる発言者情報を記録する録画装置と、前記録画装置に記録された情報に含まれる字幕と発言者情報とを対応付けた字幕表示画像を作成し、作成した字幕表示画像と映像とを合成する表示処理手段と、前記表示処理手段によって合成された画像を表示する表示手段と、を有する映像表示装置と、を具備する録画再生システムである。

[0102] この構成によれば、字幕と映像内の発言者とを対応付けられるので、映像に表示されて、な、発言者でも視聴者は認識することができ、無音状態で番組内容を容易に把握することができる。

[0103] 本発明の第 15の態様は、認証処理を行う認証処理手段と、前記認証処理手段により認証された映像表示装置に、同一の発言者を視聴者に認知させる複数の異なる発言者情報を送信する送信手段と、を有する認証装置と、字幕と前記認証装置から送信された複数の発言者情報の!/、ずれかを対応付けた字幕表示画像を作成し、作成した字幕表示画像と映像とを合成する表示処理手段と、前記表示処理手段によつて合成された画像を表示する表示手段と、を有する映像表示装置と、を具備する認証システムである。

[0104] この構成によれば、認証装置によって認証された映像表示装置が同一の発言者を視聴者に認知させる複数の異なる発言者情報を取得することになるので、認証された映像表示装置がリッチな字幕表示を行うことができる。

[0105] 本発明の第 16の態様は、字幕と字幕の発言者を視聴者に認知させる発言者情報とを対応付けた字幕表示画像を作成し、作成した字幕表示画像と映像とを合成する表示処理工程と、前記表示処理工程で合成された画像を表示する表示工程と、を具備する映像表示方法である。

[0106] この方法によれば、字幕と映像内の発言者とを対応付けられるので、映像に表示されて、な、発言者でも視聴者は認識することができ、無音状態で番組内容を容易に把握することができる。

[0107] 本明細書は、 2004年 8月 25日出願の特願 2004— 245734に基づくものである。

この内容は全てここに含めておく。

産業上の利用可能性

[0108] 本願発明にかかる映像表示装置及び映像表示方法は、無音状態でも番組内容を視聴者に容易に把握させると！ヽぅ効果を有し、小型の画面サイズを有する携帯電話等に適用することができる。

Claims

請求の範囲

[1] 字幕と字幕の発言者を視聴者に認知させる発言者情報とを対応付けた字幕表示画像を作成し、作成した字幕表示画像と映像とを合成する表示処理手段と、前記表示処理手段によって合成された画像を表示する表示手段と、

を具備する映像表示装置。

[2] 発言者情報を取得する発言者情報取得手段と、

取得された発言者情報を記憶する発言者情報記憶手段と、

を具備する請求項 1に記載の映像表示装置。

[3] 前記発言者情報取得手段は、番組の受信開始前に予め発言者情報を取得する請求項 2に記載の映像表示装置。

[4] 前記発言者情報取得手段は、番組の受信と共に発言者情報を取得する請求項 2 に記載の映像表示装置。

[5] 前記表示処理手段は、一つの画像領域を、字幕を表示する字幕表示領域と、前記字幕表示領域とは異なり、かつ、映像を表示する映像表示領域とに分割し、発言者を含む映像を前記映像表示領域に配し、前記発言者に対応する字幕及び発言者情報を前記字幕表示領域に配する請求項 1に記載の映像表示装置。

[6] 前記表示処理手段は、発言者の発言の有無に応じて、発言者毎の字幕を表示する領域である発言者枠を動的に配する請求項 1に記載の映像表示装置。

[7] 前記表示処理手段は、第 1発言者の字幕を表示中に、第 1発言者とは異なる第 2発言者の字幕を表示してから、前記第 1発言者の字幕を削除する請求項 1に記載の映像表示装置。

[8] 前記表示処理手段は、発言者枠が表示可能な数の上限で表示され、かつ、新たな発言者が登場した場合、表示されている発言者枠を削除し、新たな発言者に対応する発言者枠を配する請求項 1に記載の映像表示装置。

[9] 前記表示処理手段は、前記発言者情報取得手段によって取得された同一の発言者を視聴者に認知させる複数種類の発言者情報のうち、 V、ずれの発言者情報を用 Vヽるかを示す表示指定情報に基づヽて、字幕表示画像を作成する請求項 1に記載の映像表示装置。

[10] 前記表示処理手段は、複数の発言者の発言者枠を表示中に、いずれかの発言者の発言が連続する場合、他の発言者の発言者枠を削除し、削除された領域に前記

V、ずれかの発言者の発言者枠を拡張する請求項 1に記載の映像表示装置。

[11] 映像又は音声を解析する解析手段を具備し、

前記表示処理手段は、前記解析手段の解析結果に基づいて、字幕を装飾する請求項 1に記載の映像表示装置。

[12] 前記表示処理手段は、字幕表示情報の表示順と字幕の装飾とを対応付け、字幕表示情報の表示順に応じて、字幕を装飾する請求項 1に記載の映像表示装置。

[13] 映像、字幕及び字幕の発言者を視聴者に認知させる発言者情報を放送波として送出する放送波送出装置と、

前記放送波送出装置から送出された放送波を受信する受信手段と、

受信した放送波に含まれる字幕と発言者情報とを対応付けた字幕表示画像を作成し、作成した字幕表示画像と映像とを合成する表示処理手段と、

前記表示処理手段によって合成された画像を表示する表示手段と、

を有する映像表示装置と、

を具備する放送システム。

[14] 映像、字幕及び字幕の発言者を視聴者に認知させる発言者情報を記録する録画装置と、

前記録画装置に記録された情報に含まれる字幕と発言者情報とを対応付けた字幕表示画像を作成し、作成した字幕表示画像と映像とを合成する表示処理手段と、前記表示処理手段によって合成された画像を表示する表示手段と、

を有する映像表示装置と、

を具備する録画再生システム。

[15] 認証処理を行う認証処理手段と、

前記認証処理手段により認証された映像表示装置に、同一の発言者を視聴者に認知させる複数の異なる発言者情報を送信する送信手段と、

を有する認証装置と、

字幕と前記認証装置から送信された複数の発言者情報のいずれかを対応付けた字幕表示画像を作成し、作成した字幕表示画像と映像とを合成する表示処理手段と前記表示処理手段によって合成された画像を表示する表示手段と、

を有する映像表示装置と、

を具備する認証システム。

字幕と字幕の発言者を視聴者に認知させる発言者情報とを対応付けた字幕表示画像を作成し、作成した字幕表示画像と映像とを合成する表示処理工程と、前記表示処理工程で合成された画像を表示する表示工程と、

を具備する映像表示方法。