JP4850123B2 - 画像データ処理装置 - Google Patents

画像データ処理装置 Download PDF

Info

Publication number
JP4850123B2
JP4850123B2 JP2007121867A JP2007121867A JP4850123B2 JP 4850123 B2 JP4850123 B2 JP 4850123B2 JP 2007121867 A JP2007121867 A JP 2007121867A JP 2007121867 A JP2007121867 A JP 2007121867A JP 4850123 B2 JP4850123 B2 JP 4850123B2
Authority
JP
Japan
Prior art keywords
video
display device
caption
subtitle
video signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007121867A
Other languages
English (en)
Other versions
JP2008278380A (ja
Inventor
信寛 正賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2007121867A priority Critical patent/JP4850123B2/ja
Publication of JP2008278380A publication Critical patent/JP2008278380A/ja
Application granted granted Critical
Publication of JP4850123B2 publication Critical patent/JP4850123B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、映像データと字幕データに基づいて、映像表示装置へ出力される映像信号を生成するための画像データ処理装置に関する。
テレビ放送において、映像および音声を放送するだけでなく、音声の内容を文字で表した、字幕を放送することが知られている。字幕は、視聴者が映像に係る音声が聞こえない場合であっても、映像とともに液晶テレビ等の映像表示装置に表示されることにより、映像に現われる人物が話している内容を視聴者が把握するためのものであり、放送事業者は、映像、音声および字幕を放送するために、映像データと音声データと字幕データを送信する。
また、映像に現われる人物である発話者と字幕との関係を分かりやすくするために、人物の一部から字幕を覆う図形(即ち、吹き出し)を映像表示装置に表示することが提案されている(例えば、特許文献1参照)。このような吹き出しの表示に関して、テレビ放送の受信者側において吹き出しを表示するために、コンテンツ作成者は、吹き出しの表示に用いられる吹き出しデータを作成し、放送事業者は、映像と音声と吹き出し付字幕を放送する。より具体的には、コンテンツ作成者は、音声データに基づいて吹き出しの表示時間を決定するとともに、公知の画像処理技術を用いて映像における人物の顔や口を検出することにより、吹き出しの表示位置を決定し、さらに、吹き出しの表示形状を決定する。そして、コンテンツ作成者は、吹き出しの表示時間・表示位置・表示形状を有するとともに字幕データを含む吹き出しデータを作成し、この吹き出しデータを、放送事業者が放送機を用いて、映像データや音声データとともに送信する。
特開2005−124169号公報
しかしながら、上記従来の吹き出しの表示に関して、テレビ放送の送信者側(即ち、コンテンツ作成者および放送事業者)が、吹き出しデータを作成して放送する必要がある。送信者側が吹き出しデータを作成するか否かは、任意の事項であるため、送信者側から吹き出しデータが送信されない場合があり、このような場合は、受信者側において吹き出しを映像表示装置に表示することができないという問題がある。
本発明は、こうした実情に鑑みてなされたものであり、その目的は、送信者側から吹き出しデータが送信されない場合であっても、映像データと字幕データに基づいて、吹き出しを映像表示装置に表示させることができる画像データ処理装置を提供することにある。
請求項1に記載の発明は、映像データと字幕データに基づいて、映像信号を生成し映像表示装置へ出力する画像データ処理装置であって、映像データを解析することにより、映像表示装置に表示される人物の一部を検出するとともに、人物の一部の表示位置の情報を取得する映像データ解析部と、字幕データを解析することにより、映像表示装置に表示される字幕を検出するとともに、字幕の表示位置の情報を取得する字幕データ解析部と、人物の一部の表示位置の情報および字幕の表示位置の情報を用いて、人物の一部の位置を基準点として字幕を覆う図形を映像表示装置に表示するための映像信号を生成する映像信号生成部と、映像データ解析部によって人物の一部が検出できたか否かを判断するとともに、字幕データ解析部によって字幕が検出できたか否かを判断して、映像信号生成部による映像信号の生成を制御する制御部とを備えることを特徴とする。
同構成によれば、制御部は、映像データ解析部によって人物の一部が検出できたか否かを判断するとともに、字幕データ解析部によって字幕が検出できたか否かを判断して、人物の一部の位置を基準点として字幕を覆う図形(即ち、吹き出し)を映像表示装置に表示するために、映像信号生成部による映像信号の生成を制御する。このため、映像データと字幕データに基づいて、映像表示装置に吹き出しを表示することができる。従って、例えば、テレビ放送において吹き出しデータが送信者側から送信されない場合であっても、受信者側において、映像データと字幕データに基づいて、映像表示装置に吹き出しを表示することができる。
請求項2に記載の発明は、請求項1に記載の画像データ処理装置であって、制御部は、映像データ解析部によって1人の人物の一部が検出できたと判断し、字幕データ解析部によって字幕が検出できたと判断した場合に、映像信号生成部が映像信号を生成するように制御することを特徴とする。
同構成によれば、制御部は、1人の人物の一部が検出できたと判断し、且つ、字幕が検出できたと判断した場合に、人物の一部の位置を基準点として字幕を覆う図形(即ち、吹き出し)を映像表示装置に表示するために、映像信号生成部が映像信号を生成するように制御する。このため、映像表示装置に吹き出しを容易に表示することができる。
請求項3に記載の発明は、請求項1に記載の画像データ処理装置であって、制御部は、さらに、字幕が、映像表示装置に表示される何れの人物に対する字幕であるかを判断することにより、映像信号生成部による映像信号の生成を制御することを特徴とする。
同構成によれば、制御部は、さらに、字幕が、映像表示装置に表示される何れの人物に対する字幕であるかを判断することにより、人物の一部の位置を基準点として字幕を覆う図形(即ち、吹き出し)を映像表示装置に表示するために、映像信号生成部による映像信号の生成を制御する。このため、映像表示装置に吹き出しを効果的に表示することができる。
請求項4に記載の発明は、請求項3に記載の画像データ処理装置であって、字幕データ解析部は、さらに、字幕データを解析することにより、字幕の色の情報を取得し、制御部は、字幕の色の情報を用いて、字幕が、映像表示装置に表示される何れの人物に対する字幕であるかを判断することにより、映像信号生成部による映像信号の生成を制御することを特徴とする。
同構成によれば、制御部は、字幕データ解析部によって取得された字幕の色の情報を用いて、字幕が、映像表示装置に表示される何れの人物に対する字幕であるかを判断することにより、人物の一部の位置を基準点として字幕を覆う図形(即ち、吹き出し)を映像表示装置に表示するために、映像信号生成部による映像信号の生成を制御する。このため、映像表示装置に吹き出しを容易かつ効果的に表示することができる。
請求項5に記載の発明は、請求項3または請求項4に記載の画像データ処理装置であって、制御部は、映像信号生成部によって映像信号が生成された後において、字幕データ解析部によって再度検出された映像表示装置に表示される字幕が、映像表示装置に表示されている同一の人物に対する字幕であると判断した場合に、映像信号生成部が映像信号を継続して生成するように制御することを特徴とする。
同構成によれば、制御部は、映像信号生成部によって映像信号が生成された後において、字幕データ解析部によって再度検出された映像表示装置に表示される字幕が、映像表示装置に表示されている同一の人物に対する字幕であると判断した場合に、映像信号生成部が映像信号を継続して生成するように制御する。このため、映像表示装置に表示されている同一の人物に対する字幕であると判断した場合に、映像表示装置に吹き出しを効果的に表示することを継続することができる。
本発明によれば、映像データと字幕データに基づいて、映像表示装置に吹き出しを表示することができる。
以下に、本発明の具体的な実施形態について図面を参照しながら説明する。図1は、本発明の画像データ処理装置を内蔵した放送受信装置が利用されるテレビ放送システムを示すブロック図であり、図2は、本発明の実施形態に係る画像データ処理装置を内蔵する放送受信装置の構成を示すブロック図である。なお、本実施形態では、テレビ放送として、ARIB(Association of Radio Industries and Businesses,電波産業会)の規格(STD:Standard)および技術資料(TR:Technical Report)、またはこれらによって参照される規格に基づいて放送される、ISDB−T(Integrated Services Digital Broadcasting - Terrestrial)方式の地上デジタルテレビ放送を例に挙げて説明する。
(放送受信装置)
図1に示すように、放送受信装置1には、アンテナ2と音声出力装置3と映像表示装置4が接続されている。アンテナ2は、送信者側の放送機5からの放送信号を受信し、放送信号を放送受信装置1へ出力する。そして、放送受信装置1は入力された放送信号に対して種々の信号処理を施し、放送信号に含まれるデータに基づいて、音声信号を音声出力装置3へ出力するとともに、映像信号を映像表示装置4へ出力することで、音声出力装置3によって音声を再生し、映像表示装置に人物の動画や字幕等の画像を表示する。
放送受信装置1は、図1に示すように、選局部11と、伝送路復号部12と、多重分離部13と、音声データ処理部14と、画像データ処理装置15とを備えている。これら以外にも、インターネット等と接続する通信インタフェースや、視聴者からの入力を受け付けるリモコンインタフェースを設けてもよい。放送受信装置1の各部は、CPU(Central Processing Unit)(不図示)が、ROM(Read Only Memory)(不図示)に記憶されているプログラムを、RAM(Random Access Memory)(不図示)を用いて実行することによって制御される。また、ROMには、後述する8単位文字符号データの文字符号によって示される文字や、輝度信号と色差信号と透明度の値を間接的に指定するCLUT(Color Look-Up Table,カラールックアップテーブル)が記憶されている。
選局部11は、アンテナ2で受信した複数のチャンネルの放送信号から、所望のチャンネルに対応する放送信号のみを抽出し、この放送信号を伝送路復号部12において復調しやすいように放送信号を低周波の信号に変換するとともに、デジタル信号へ変換する。そして、選局部11は、デジタル信号となった放送信号を伝送路復号部12へ出力する。
伝送路復号部12は、入力された放送信号であるデジタル信号に対して、送信者側での信号処理手順と逆の手順で、各種の信号処理(例えば、復調、ビタビ復号化、デインタリーブ、リードソロモン復号化)を施し、放送信号をMPEG−2TS(Transport Stream)形式(以下、「TS形式」という。)の信号へ変換する。そして、伝送路復号部12は、TS形式の信号を多重分離部13へ出力する。
多重分離部13は、MPEG−2Systemsに基づいて多重化されているTS形式の信号から、各種データ毎に、PES(Packetized Elementary Stream)形式のデータを構成するMPEG−2TSパケット(以下、「TSパケット」という。)を分離して、各種データ(即ち、映像データ、字幕データ、音声データ)を取り出す。取り出された音声データは、多重分離部13によって、音声データ処理部14へ出力されるとともに、取り出された映像データおよび字幕データは、多重分離部13によって、画像データ処理装置15へ出力される。
音声データ処理部14は、MPEG−2AAC(Advanced Audio Coding)によって符号化されている音声データを復号化し、復号化された音声信号をアンプ付スピーカー等の音声出力装置3へ出力する。
(画像データ処理装置)
画像データ処理装置15は、入力された映像データと字幕データに基づいて、映像信号を生成して液晶テレビ等の映像表示装置4へ出力するために、図2に示すように、映像デコーダ部151と、映像データ解析部152と、字幕デコーダ部153と、字幕データ解析部154と、制御部155と、フレームメモリを有する映像信号生成部156とを備えている。なお、映像データと字幕データは、それぞれ画像データ処理装置15の映像デコーダ部151と字幕デコーダ部153に入力される。
映像デコーダ部151は、MPEG−2Videoに基づいて符号化されている映像データに対して、可変長符号の復号や逆量子化や逆離散コサイン変換や動き補償等を行うことにより復号化を行い、復号化された映像データに基づいて、輝度信号と色差信号を映像信号生成部156の動画用フレームメモリ156aに書き込む。映像デコーダ部151が、復号化された映像データに基づいて、輝度信号と色差信号を動画用フレームメモリ156aに逐次書き込むことによって、動画を示すプレーン(即ち、動画プレーン)が生成される。
映像データ解析部152は、復号化された映像データのうち、1フレーム分の静止画像を示す映像データを解析することにより、所定時刻に映像表示装置4に表示される人物の口を検出するとともに、この人物の口の表示位置の情報を少なくとも取得する。即ち、映像データ(即ち、動画用フレームメモリ156aに書き込まれる輝度信号と色差信号)によって示される1フレーム分の静止画像に対して、パターンマッチング等の画像処理を行うことによって映像データを解析し、映像表示装置4に表示される人物の口を検出する。そして、映像データ解析部152は、検出された人物の口の情報(即ち、検出された人物の口の表示位置の情報や、検出された人物の口の数や、検出された人物の口の特徴に関する情報等)を取得し、これらの情報を制御部155へ出力する。なお、本実施形態においては、映像データ解析部152は、映像表示装置4に表示される人物の口を検出して、検出された人物の口の情報を取得しているが、映像表示装置4に表示される顔や頭等の人物の一部を検出して、検出された顔や頭等の人物の一部の情報を取得するようにしてもよい。
字幕デコーダ部153は、字幕データに基づいて、輝度信号と色差信号と透明度の値を間接的に指定する値(以下、「カラーインデックス」という。)を、映像信号生成部156の字幕用フレームメモリ156bに書き込むことによって、字幕を示すプレーン(即ち、字幕プレーン)を生成する。より具体的には、例えば、PES形式の映像データおよび音声データに含まれずに独立してPES形式の字幕データとなっている独立PES形式の字幕データは、図3に示すように、PESヘッダ領域とPESデータ領域から構成され、PESデータ領域には、字幕管理データまたは字幕文データがデータグループとして含まれている。また、データグループのデータユニット領域には、図3に示すように、本文データユニットが含まれている。本文データユニットのデータユニットデータ領域には、8単位文字符号データが含まれており、この8単位文字符号データには字幕の文字を示す文字符号だけでなく、字幕の表示位置や、大きさや、色等を指定するための制御符号(例えば、SDPやSDFやSSZやSZXやCOL等)が含まれている。文字符号によって示されるROMに記憶された文字が、制御符号の指定通りに映像表示装置4に表示されるように、字幕用フレームメモリ156bの、映像表示装置4において字幕が表示される位置に対応する箇所に、カラーインデックスが書き込まれる。
字幕データ解析部154は、字幕データを解析することにより、映像表示装置4に表示される字幕を検出するとともに、この字幕の表示位置の情報を少なくとも取得する。即ち、字幕用フレームメモリ156bに、字幕を表示するためのカラーインデックス(透明度が0ではない値を示すカラーインデックス)が書き込まれる場合に、字幕データ解析部154が、映像表示装置4に表示される字幕を検出する。そして、字幕データ解析部154は、字幕用フレームメモリ156bの、カラーインデックスが書き込まれる箇所を検出することにより、字幕の表示位置の情報を取得し、また、字幕用フレームメモリ156bに書き込まれるカラーインデックスが示す輝度信号および色差信号を検出することにより、字幕の色の情報を取得する。そして、字幕データ解析部154は、検出された字幕の情報(例えば、検出された字幕の表示位置の情報や、検出された字幕の色の情報等)を取得し、制御部155へ出力する。なお、本実施形態においては、字幕用フレームメモリ156bに書き込まれる字幕データ(即ち、字幕用フレームメモリ156bに書き込まれるカラーインデックス)を解析したが、8単位文字符号データを含む字幕データを解析して、映像表示装置4に表示される字幕を検出するとともに、この字幕の情報を取得してもよい。
制御部155は、映像データ解析部152によって人物の口が検出できたか否かを判断するとともに、字幕データ解析部154によって字幕が検出できたか否かを判断する。また、制御部155は、字幕の色の情報を用いて、逐次表示される字幕が、映像表示装置4に表示される何れの人物に対する字幕であるか等の種々の判断をする。これらの判断は、検出された人物の口の情報や検出された字幕の情報を用いて判断することができ、制御部155は、上記の判断等に基づいて、映像信号生成部156による映像信号の生成を制御する。即ち、制御部155は、人物の一部から字幕を覆う図形(即ち、吹き出し)を映像表示装置4に表示するための映像信号を生成する映像信号生成部156を制御する。
映像表示装置4に吹き出しを表示する場合、制御部155は、映像信号生成部156が映像表示装置4に吹き出しを表示するための映像信号を生成するように制御する。この場合、制御部155は、検出された人物の口の表示位置の情報と字幕の表示位置の情報に基づいて、映像信号生成部156が有する吹き出し用フレームメモリ156cに透明度が0ではない値を示すカラーインデックスを書き込む。より具体的には、制御部155は、吹き出し用フレームメモリ156cの、映像表示装置4において人物の口から字幕を覆う図形(即ち、吹き出し)が表示される位置に対応する箇所に、透明度が0ではない値を示すカラーインデックスを書き込み、吹き出しの図形を示すプレーン(即ち、図形プレーン)を生成する。
一方、映像表示装置4に吹き出しを表示しない(即ち、吹き出しを消す)場合は、制御部155は、映像信号生成部156が映像表示装置4に吹き出しを表示するための映像信号を生成しないように制御する。この場合、制御部155は、映像信号生成部156が有する吹き出し用フレームメモリ156cの全てに、透明度が0を示すカラーインデックスを書き込む。
以上のように、制御部155は、カラーインデックスを吹き出し用フレームメモリ156cに書き込むことによって、映像信号生成部156による映像信号の生成を制御し、映像表示装置4に表示される吹き出しを制御することができる。
映像信号生成部156は、動画プレーンと図形プレーンと字幕プレーンを合成した合成画像プレーンを生成するために、合成用フレームメモリ156dに合成後の画像を示す輝度および色差信号を書き込む。より具体的には、動画用フレームメモリ156aに書き込まれた輝度信号および色差信号と、字幕用フレームメモリ156bと吹き出し用フレームメモリ156cに書き込まれたカラーインデックスを基に、映像表示装置4で表示する画像の輝度信号および色差信号を合成用フレームメモリ156dに書き込む。この場合、合成後の画像は、図4に示すように、まず、図形プレーンを、動画プレーンの前に重畳するように合成し、さらに、字幕プレーンを、動画プレーンおよび図形プレーンの前に重畳するように合成した画像である。なお、合成に用いられる図形プレーンの全面の透明度が0の場合は、映像表示装置4に吹き出しが表示されることはない。そして、映像信号生成部156は、合成用フレームメモリ156dに書き込まれた輝度信号や色差信号を、映像信号として映像表示装置4へ出力する。従って、映像信号生成部156は、映像データ解析部152によって取得された人物の口の表示位置の情報と、字幕データ解析部154によって取得された字幕の表示位置の情報を用いて、図4に示すような、人物の一部から字幕を覆う図形(即ち、吹き出し)を映像表示装置4に表示するための映像信号を生成する。
(吹き出しを表示する手順)
次に、吹き出しを映像表示装置4に表示する際の手順について、図5および図6を参照しながら説明する。まず、視聴者によって映像表示装置4に吹き出しを含む画像を表示する旨の指示がなされて、映像表示装置4に吹き出しを表示する吹き出し表示モードが開始される(ステップS1)。
次いで、所定時刻T1に映像表示装置4に表示される字幕の有無を判断する(ステップS2)。この場合、映像表示装置4に表示される字幕の有無の判断は、制御部155が、字幕データ解析部154によって字幕が検出できたか否かを判断することによって判断する。即ち、ステップS2においては、制御部155が、字幕データ解析部154によって映像表示装置4に表示される字幕を検出できたと判断した場合は、映像表示装置4に表示される字幕が有ると判断する。また、制御部155が、字幕データ解析部154によって映像表示装置4に表示される字幕を検出できなかったと判断した場合は、映像表示装置4に表示される字幕が無いと判断する。
次いで、ステップS2において映像表示装置4に表示される字幕が有ると判断された場合、制御部155が、映像データ解析部152によって人物の口が検出できたか否かを判断する(ステップS3)。この場合、映像データ解析部152は、ステップS2において検出された字幕が映像表示装置4に表示される所定時刻T1と、同一の時刻に映像表示装置4に表示される映像を示す映像データを解析して、人物の口を検出するようにする。
次いで、ステップS3において人物の口が検出できたと判断された場合、ステップS3において検出できた人物が1人であるか否かを判断する(ステップS4)。この場合、ステップS3においては、制御部155が、ステップS3において映像データ解析部152によって検出できた口が1つであるか否かを判断して、検出できた人物が1人であるか否かを判断する。即ち、ステップS3およびステップS4においては、制御部155が、映像データ解析部152によって1人の人物の口が検出できたか否かを判断している。
ステップS2〜ステップS4において、映像表示装置4に表示される字幕が無い、または、人物の口が検出できなかった、または、検出できた人物が1人ではないと判断された場合は、吹き出しを表示することなく、ステップS2以降の処理が再び行われる。即ち、表示される字幕が無い場合は、吹き出しを表示する必要がなく、人物の口が検出できない場合、または検出できた人物が1人ではない(即ち、2人以上である)場合は、吹き出しの対象となる人物が特定できない。このため、映像表示装置4に吹き出しを表示せずに、所定時間後においてステップS2以降の処理を再び行う。
一方、ステップS2およびステップS3を経て、ステップS4において検出できた人物が1人であると判断された場合は、検出された人物の口から字幕を覆う図形(即ち、吹き出し)を映像表示装置4に表示する(ステップS5)。即ち、ステップS2〜ステップS4において、映像表示装置4に表示される字幕が有ると判断され、1人の人物の口が検出できたと判断された場合は、ステップS2において字幕データ解析部154によって検出された字幕は、ステップS3において映像データ解析部152によって検出された人物の口に対応する人物Aが話す内容であると判断する。従って、人物Aを吹き出しの対象として、ステップS3において検出された人物Aの口から、ステップS2において検出された字幕を覆う図形を映像表示装置4に表示するようにする。そして、ステップS5において人物Aを対象として吹き出しを表示した後、所定時間後に後述するステップS6へ移行する。
人物Aを対象として吹き出しが映像表示装置4に表示された後は、図6に示す手順で映像表示装置4に表示される吹き出しが制御される。まず、所定時刻T2に映像表示装置4に表示される字幕の有無を判断する(ステップS6)。この場合、映像表示装置4に表示される字幕の有無の判断は、制御部155が、字幕データ解析部154によって映像表示装置4に表示される字幕が検出できたか否かを判断することによって判断する。
次いで、ステップS6において映像表示装置4に表示される字幕が有ると判断された場合、制御部155が、映像データ解析部152によって人物の口が検出できたか否かを判断する(ステップS7)。この場合、映像データ解析部152は、ステップS6において検出された字幕が映像表示装置4に表示される所定時刻T2と、同一の時刻に映像表示装置4に表示される映像を示す映像データを解析して、人物の口を検出するようにする。
ステップS6またはステップS7において、映像表示装置4に表示される字幕が無い、または、人物の口が検出できなかったと判断された場合は、吹き出しが映像表示装置4に表示されないように、映像表示装置4に表示されていた人物Aを対象とする吹き出しを消す(ステップS8)。その後、所定時間後においてステップS2以降の処理を再び行う。
一方、ステップS6を経て、ステップS7において人物の口が検出できたと判断された場合は、話者が変化したか否かを判断する(ステップS9)。即ち、ステップS6において検出された字幕が、ステップS5において表示した吹き出しの対象となる人物Aが話している内容であるか否かを判断する。この場合、話者が変化したか否かの判断は、制御部155が、字幕データ解析部154によって取得された字幕の色の情報を用いて、ステップS2とステップS6において検出された字幕の色が異なるか否かを判断することによって判断する。より具体的には、ステップS2において検出された字幕の色(即ち、所定時刻T1に映像表示装置4に表示される字幕の色)とステップS6において検出された字幕の色(即ち、所定時刻T2に映像表示装置4に表示される字幕の色)が異なる場合は、話者が変化したと判断する。また、ステップS2において検出された字幕の色(即ち、所定時刻T1に映像表示装置4に表示される字幕の色)とステップS6において検出できた字幕の色(即ち、所定時刻T2に映像表示装置4に表示される字幕の色)が同じ場合は、話者が変化していないと判断する。ステップS9において、話者が変化していないと判断することは、ステップS6において字幕データ解析部によって検出された字幕が、所定時刻T1,T2において映像表示装置4に表示されている同一の人物Aに対する字幕であると判断することである。
ステップS9において話者が変化していないと判断された場合は、ステップS7において検出された人物Aの口から、ステップS6において検出された字幕を覆う図形を表示して、人物Aを対象とする吹き出しの表示を継続する(ステップS10)。その後、所定時間後においてステップS6以降の処理が再び行われる。
一方、ステップS9において話者が変化したと判断された場合は、ステップS7において検出できた人物が2人以下であるか否かを判断する(ステップS11)。この場合、ステップS11においては、制御部155が、ステップS7において映像データ解析部152によって検出できた口が2つ以下であるか否かを判断して、検出できた人物が2人以下であるか否かを判断する。
ステップS11において検出できた人物が2人以下でない(即ち、3人以上である)と判断された場合は、吹き出しが映像表示装置4に表示されないように、映像表示装置4に表示されていた人物Aを対象とする吹き出しを消す(ステップS12)。即ち、ステップS6において検出できた字幕が、ステップS7において検出できた3人以上の人物のうち、何れの人物が話す内容であるか特定できないため、吹き出しを消すようにする。その後、所定時間後においてステップS2以降の処理を再び行う。
一方、ステップS11において検出できた人物が2人以下であると判断された場合は、ステップS6において検出できた字幕が、ステップS7において検出できた人物のうち、人物Aではない人物Bが話す内容であると判断することができる。従って、この場合、映像表示装置4に表示されていた人物Aに対する吹き出しを消す(ステップS13)。そして、映像表示装置4に人物Bに対する他の吹き出しを表示するようにする(ステップS14)。なお、映像表示装置4に表示される人物A,Bの口の識別は、制御部155が、映像データ解析部152によって取得された口の特徴の情報や、所定時間における口の表示位置の情報を用いて識別すればよい。
次いで、視聴者によって、吹き出し表示モード終了の旨が指示されているか否かを制御部155が判断する(ステップS15)。ステップS15において、吹き出し表示モード終了の旨が指示されていないと判断された場合は、所定時間後にステップS6以降の処理を再び行う。一方、ステップS15において、吹き出し表示モード終了の旨が指示されていると判断された場合は、映像表示装置4に吹き出しを表示しないように吹き出し表示モードが終了される。
上記実施形態の画像データ処理装置15によれば、以下のような効果を得ることができる。
(1)制御部155は、映像データ解析部152によって人物の口が検出できたか否かを判断するとともに、字幕データ解析部154によって字幕が検出できたか否かを判断する。これらを判断して、制御部155は、人物の口から字幕を覆う図形(即ち、吹き出し)を映像表示装置4に表示するために、映像信号生成部156による映像信号の生成を制御する。このため、映像データと字幕データに基づいて、映像表示装置4に吹き出しを表示することができる。従って、例えば、テレビ放送において吹き出しデータが送信者側から送信されない場合であっても、受信者側において、映像データと字幕データに基づいて、映像表示装置4に吹き出しを表示することができる。
(2)制御部155は、ステップS3およびステップS4において1人の人物の口が検出できたと判断し、且つ、ステップS2において字幕が検出できたと判断した場合に、人物Aの口から字幕を覆う図形(即ち、吹き出し)を映像表示装置4に表示するために、映像信号生成部156が映像信号を生成するように制御する。このため、映像表示装置4に吹き出しを容易に表示することができる。
(3)制御部155は、さらに、字幕データ解析部154によって取得された字幕の色の情報を用いて、字幕が、映像表示装置4に表示される何れの人物に対する字幕であるかを判断する。この判断により、人物の口から字幕を覆う図形(即ち、吹き出し)を映像表示装置4に表示するために、映像信号生成部156による映像信号の生成を制御する。このため、映像表示装置4に吹き出しを容易かつ効果的に表示することができる。
(4)制御部155は、映像信号生成部156によって映像表示装置4に吹き出しを表示するための映像信号が生成された後であるステップS9において、字幕データ解析部154によってステップS6で再度検出された字幕が、映像表示装置4に表示されている同一の人物に対する字幕であるかを判断している。そして、制御部155は、同一の人物に対する字幕であると判断した場合に、人物Aの口から字幕を覆う図形(即ち、吹き出し)を映像表示装置4に表示するために、ステップS10において映像信号生成部156が映像信号を継続して生成するように制御する。このため、映像表示装置4に吹き出しを効果的に表示することを継続することができる。
なお、本発明は、上記実施形態に限定されるものではなく、本発明の趣旨に基づいて種々の設計変更をすることが可能であり、それらを本発明の範囲から除外するものではない。例えば、上記実施形態は以下のように変更してもよい。
・上記実施形態においては、字幕データは独立PES形式の字幕データであったが、字幕データが映像データまたは音声データにおける多重可能な領域に含まれるデータや、セクション形式のデータであってもよい。
・上記実施形態においては、PES形式の字幕データに含まれる制御符号によって、字幕の色が指定されていたが、字幕データに、字幕の色は含まれていなくてもよい。この場合、上述のステップS9においては、字幕の色の情報を用いて話者が変化したか否かを判断していたが、これ以外の情報(例えば、字幕の大きさ等)を用いて、ステップS9において話者が変化したか否か、即ち、字幕が、映像表示装置4に表示される何れの人物に対する字幕であるかを判断すればよい。このようにしても、映像表示装置4に吹き出しを効果的に表示することができる。
・上記実施形態においては、S4において検出できた人物が1人であると判断された場合に、映像表示装置4に吹き出しを表示するようにしたが、これ以外の方法により、ステップS2において検出された字幕が、ステップS3において検出された人物が話す内容であると判断してもよい。
・上記実施形態においては、PES形式の字幕データに含まれる制御符号によって、字幕の表示位置が指定されていたが、字幕データには、字幕の表示位置は含まれていなくてもよい。即ち、画像データ処理装置15の字幕デコーダ部153が、映像表示装置4において字幕が表示される位置を決定するようにしてもよい。
・上記実施形態においては、地上デジタルテレビ放送を例に説明したが、BSデジタル放送、CSデジタル放送、またはアナログ放送においても、本発明の画像データ処理装置を用いて、映像データと字幕データに基づき映像表示装置4に吹き出しを表示することができる。
本発明の活用例としては、映像データと字幕データを含む放送信号が入力される放送受信装置に内蔵され、映像データと字幕データに基づいて、映像信号を生成して映像表示装置へ出力する画像データ処理装置が挙げられる。
本発明の実施形態に係るテレビ放送システムを示すブロック図。 本発明の実施形態に係る画像データ処理装置を示すブロック図。 本発明の実施形態に係る字幕データの構成図。 動画プレーンと図形プレーンと字幕プレーンの合成を示す概念図。 本発明の実施形態に係る吹き出しを表示する手順を示すフローチャート。 本発明の実施形態に係る吹き出しを表示する手順を示すフローチャート。
符号の説明
1…放送受信装置、4…映像表示装置、15…画像データ処理装置、152…映像データ解析部、154…字幕データ解析部、155…制御部、156…映像信号生成部。

Claims (5)

  1. 映像データと字幕データに基づいて、映像信号を生成し映像表示装置へ出力する画像データ処理装置であって、
    前記映像データを解析することにより、前記映像表示装置に表示される人物の一部を検出するとともに、前記人物の一部の表示位置の情報を取得する映像データ解析部と、
    前記字幕データを解析することにより、前記映像表示装置に表示される字幕を検出するとともに、前記字幕の表示位置の情報を取得する字幕データ解析部と、
    前記人物の一部の表示位置の情報および前記字幕の表示位置の情報を用いて、前記人物の一部の位置を基準点として前記字幕を覆う図形を前記映像表示装置に表示するための前記映像信号を生成する映像信号生成部と、
    前記映像データ解析部によって人物の一部が検出できたか否かを判断するとともに、前記字幕データ解析部によって字幕が検出できたか否かを判断して、前記映像信号生成部による前記映像信号の生成を制御する制御部と
    を備えることを特徴とする画像データ処理装置。
  2. 前記制御部は、前記映像データ解析部によって1人の人物の一部が検出できたと判断し、前記字幕データ解析部によって字幕が検出できたと判断した場合に、前記映像信号生成部が前記映像信号を生成するように制御する
    ことを特徴とする請求項1に記載の画像データ処理装置。
  3. 前記制御部は、さらに、前記字幕が、前記映像表示装置に表示される何れの人物に対する字幕であるかを判断することにより、前記映像信号生成部による前記映像信号の生成を制御する
    ことを特徴とする請求項1に記載の画像データ処理装置。
  4. 前記字幕データ解析部は、さらに、前記字幕データを解析することにより、前記字幕の色の情報を取得し、
    前記制御部は、前記字幕の色の情報を用いて、前記字幕が、前記映像表示装置に表示される何れの人物に対する字幕であるかを判断することにより、前記映像信号生成部による前記映像信号の生成を制御する
    ことを特徴とする請求項3に記載の画像データ処理装置。
  5. 前記制御部は、前記映像信号生成部によって前記映像信号が生成された後において、前記字幕データ解析部によって再度検出された前記映像表示装置に表示される字幕が、前記映像表示装置に表示されている同一の前記人物に対する字幕であると判断した場合に、前記映像信号生成部が前記映像信号を継続して生成するように制御する
    ことを特徴とする請求項3または請求項4に記載の画像データ処理装置。
JP2007121867A 2007-05-02 2007-05-02 画像データ処理装置 Expired - Fee Related JP4850123B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007121867A JP4850123B2 (ja) 2007-05-02 2007-05-02 画像データ処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007121867A JP4850123B2 (ja) 2007-05-02 2007-05-02 画像データ処理装置

Publications (2)

Publication Number Publication Date
JP2008278380A JP2008278380A (ja) 2008-11-13
JP4850123B2 true JP4850123B2 (ja) 2012-01-11

Family

ID=40055765

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007121867A Expired - Fee Related JP4850123B2 (ja) 2007-05-02 2007-05-02 画像データ処理装置

Country Status (1)

Country Link
JP (1) JP4850123B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012147160A (ja) * 2011-01-11 2012-08-02 Nec Personal Computers Ltd 立体画像処理装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000244816A (ja) * 1999-02-22 2000-09-08 Nippon Telegr & Teleph Corp <Ntt> 映像字幕挿入方法及び装置並びに方法を記述したプログラムを記録した記憶媒体
JP4340398B2 (ja) * 2001-05-15 2009-10-07 日本放送協会 双方向型放送視聴システム
JP2004056286A (ja) * 2002-07-17 2004-02-19 Fuji Photo Film Co Ltd 画像表示方法
JP3873926B2 (ja) * 2003-05-16 2007-01-31 日本電気株式会社 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム
JP2007101945A (ja) * 2005-10-05 2007-04-19 Fujifilm Corp 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム

Also Published As

Publication number Publication date
JP2008278380A (ja) 2008-11-13

Similar Documents

Publication Publication Date Title
JP4384074B2 (ja) 放送コンテンツ処理装置及びその制御方法
US20030035486A1 (en) MPEG encoding apparatus, MPEG decoding apparatus, and encoding program
JP2004080476A (ja) ディジタル映像再生装置
JP2006025422A (ja) オーディオビデオデータストリームの字幕を通じてナビゲートするための方法および装置
JP2010187158A (ja) コンテンツ処理装置
JP2011151750A (ja) 画像処理装置
JPH11341441A (ja) 映像生成装置及び映像再生装置並びに映像生成方法及び映像再生方法
JP2005124169A (ja) 吹き出し字幕付き映像コンテンツ作成装置、送信装置、再生装置、提供システムならびにそれらで用いられるデータ構造および記録媒体
JP5110978B2 (ja) 送信装置、受信装置及び再生装置
JP4850123B2 (ja) 画像データ処理装置
JP2010081141A (ja) 字幕放送システム及び字幕放送方法
JP2004032607A (ja) ディジタル映像再生装置
JP6137755B2 (ja) 受信装置、受信方法及びプログラム
JP2004172864A (ja) 字幕表示制御装置
JP6309061B2 (ja) 放送システム
JP6137754B2 (ja) 受信装置、受信方法及びプログラム
JP6279140B1 (ja) 受信装置
JP2009055541A (ja) 動画再生装置
JP6279063B2 (ja) 受信装置、受信方法及びプログラム
JP5127610B2 (ja) 放送局装置および受信装置
JP3768130B2 (ja) ディジタル放送受信装置
JP6327711B2 (ja) 受信装置、放送システム、受信方法及びプログラム
KR100640915B1 (ko) 캡션 방송 시스템 및 캡션 방송 시스템의 문자속성 처리방법
KR100576047B1 (ko) 녹화된 음성다중 프로그램의 오디오신호 출력방법
JP2013219639A (ja) 字幕表示装置およびそのプログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20081021

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110705

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110920

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111018

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141028

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees