JP4850123B2

JP4850123B2 - 画像データ処理装置

Info

Publication number: JP4850123B2
Application number: JP2007121867A
Authority: JP
Inventors: 信寛正賀
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2007-05-02
Filing date: 2007-05-02
Publication date: 2012-01-11
Anticipated expiration: 2027-05-02
Also published as: JP2008278380A

Description

本発明は、映像データと字幕データに基づいて、映像表示装置へ出力される映像信号を生成するための画像データ処理装置に関する。

テレビ放送において、映像および音声を放送するだけでなく、音声の内容を文字で表した、字幕を放送することが知られている。字幕は、視聴者が映像に係る音声が聞こえない場合であっても、映像とともに液晶テレビ等の映像表示装置に表示されることにより、映像に現われる人物が話している内容を視聴者が把握するためのものであり、放送事業者は、映像、音声および字幕を放送するために、映像データと音声データと字幕データを送信する。

また、映像に現われる人物である発話者と字幕との関係を分かりやすくするために、人物の一部から字幕を覆う図形（即ち、吹き出し）を映像表示装置に表示することが提案されている（例えば、特許文献１参照）。このような吹き出しの表示に関して、テレビ放送の受信者側において吹き出しを表示するために、コンテンツ作成者は、吹き出しの表示に用いられる吹き出しデータを作成し、放送事業者は、映像と音声と吹き出し付字幕を放送する。より具体的には、コンテンツ作成者は、音声データに基づいて吹き出しの表示時間を決定するとともに、公知の画像処理技術を用いて映像における人物の顔や口を検出することにより、吹き出しの表示位置を決定し、さらに、吹き出しの表示形状を決定する。そして、コンテンツ作成者は、吹き出しの表示時間・表示位置・表示形状を有するとともに字幕データを含む吹き出しデータを作成し、この吹き出しデータを、放送事業者が放送機を用いて、映像データや音声データとともに送信する。
特開２００５−１２４１６９号公報

しかしながら、上記従来の吹き出しの表示に関して、テレビ放送の送信者側（即ち、コンテンツ作成者および放送事業者）が、吹き出しデータを作成して放送する必要がある。送信者側が吹き出しデータを作成するか否かは、任意の事項であるため、送信者側から吹き出しデータが送信されない場合があり、このような場合は、受信者側において吹き出しを映像表示装置に表示することができないという問題がある。

本発明は、こうした実情に鑑みてなされたものであり、その目的は、送信者側から吹き出しデータが送信されない場合であっても、映像データと字幕データに基づいて、吹き出しを映像表示装置に表示させることができる画像データ処理装置を提供することにある。

請求項１に記載の発明は、映像データと字幕データに基づいて、映像信号を生成し映像表示装置へ出力する画像データ処理装置であって、映像データを解析することにより、映像表示装置に表示される人物の一部を検出するとともに、人物の一部の表示位置の情報を取得する映像データ解析部と、字幕データを解析することにより、映像表示装置に表示される字幕を検出するとともに、字幕の表示位置の情報を取得する字幕データ解析部と、人物の一部の表示位置の情報および字幕の表示位置の情報を用いて、人物の一部の位置を基準点として字幕を覆う図形を映像表示装置に表示するための映像信号を生成する映像信号生成部と、映像データ解析部によって人物の一部が検出できたか否かを判断するとともに、字幕データ解析部によって字幕が検出できたか否かを判断して、映像信号生成部による映像信号の生成を制御する制御部とを備えることを特徴とする。

同構成によれば、制御部は、映像データ解析部によって人物の一部が検出できたか否かを判断するとともに、字幕データ解析部によって字幕が検出できたか否かを判断して、人物の一部の位置を基準点として字幕を覆う図形（即ち、吹き出し）を映像表示装置に表示するために、映像信号生成部による映像信号の生成を制御する。このため、映像データと字幕データに基づいて、映像表示装置に吹き出しを表示することができる。従って、例えば、テレビ放送において吹き出しデータが送信者側から送信されない場合であっても、受信者側において、映像データと字幕データに基づいて、映像表示装置に吹き出しを表示することができる。

請求項２に記載の発明は、請求項１に記載の画像データ処理装置であって、制御部は、映像データ解析部によって１人の人物の一部が検出できたと判断し、字幕データ解析部によって字幕が検出できたと判断した場合に、映像信号生成部が映像信号を生成するように制御することを特徴とする。

同構成によれば、制御部は、１人の人物の一部が検出できたと判断し、且つ、字幕が検出できたと判断した場合に、人物の一部の位置を基準点として字幕を覆う図形（即ち、吹き出し）を映像表示装置に表示するために、映像信号生成部が映像信号を生成するように制御する。このため、映像表示装置に吹き出しを容易に表示することができる。

請求項３に記載の発明は、請求項１に記載の画像データ処理装置であって、制御部は、さらに、字幕が、映像表示装置に表示される何れの人物に対する字幕であるかを判断することにより、映像信号生成部による映像信号の生成を制御することを特徴とする。

同構成によれば、制御部は、さらに、字幕が、映像表示装置に表示される何れの人物に対する字幕であるかを判断することにより、人物の一部の位置を基準点として字幕を覆う図形（即ち、吹き出し）を映像表示装置に表示するために、映像信号生成部による映像信号の生成を制御する。このため、映像表示装置に吹き出しを効果的に表示することができる。

請求項４に記載の発明は、請求項３に記載の画像データ処理装置であって、字幕データ解析部は、さらに、字幕データを解析することにより、字幕の色の情報を取得し、制御部は、字幕の色の情報を用いて、字幕が、映像表示装置に表示される何れの人物に対する字幕であるかを判断することにより、映像信号生成部による映像信号の生成を制御することを特徴とする。

同構成によれば、制御部は、字幕データ解析部によって取得された字幕の色の情報を用いて、字幕が、映像表示装置に表示される何れの人物に対する字幕であるかを判断することにより、人物の一部の位置を基準点として字幕を覆う図形（即ち、吹き出し）を映像表示装置に表示するために、映像信号生成部による映像信号の生成を制御する。このため、映像表示装置に吹き出しを容易かつ効果的に表示することができる。

請求項５に記載の発明は、請求項３または請求項４に記載の画像データ処理装置であって、制御部は、映像信号生成部によって映像信号が生成された後において、字幕データ解析部によって再度検出された映像表示装置に表示される字幕が、映像表示装置に表示されている同一の人物に対する字幕であると判断した場合に、映像信号生成部が映像信号を継続して生成するように制御することを特徴とする。

同構成によれば、制御部は、映像信号生成部によって映像信号が生成された後において、字幕データ解析部によって再度検出された映像表示装置に表示される字幕が、映像表示装置に表示されている同一の人物に対する字幕であると判断した場合に、映像信号生成部が映像信号を継続して生成するように制御する。このため、映像表示装置に表示されている同一の人物に対する字幕であると判断した場合に、映像表示装置に吹き出しを効果的に表示することを継続することができる。

本発明によれば、映像データと字幕データに基づいて、映像表示装置に吹き出しを表示することができる。

以下に、本発明の具体的な実施形態について図面を参照しながら説明する。図１は、本発明の画像データ処理装置を内蔵した放送受信装置が利用されるテレビ放送システムを示すブロック図であり、図２は、本発明の実施形態に係る画像データ処理装置を内蔵する放送受信装置の構成を示すブロック図である。なお、本実施形態では、テレビ放送として、ＡＲＩＢ（Association of Radio Industries and Businesses，電波産業会）の規格（ＳＴＤ：Standard）および技術資料（ＴＲ:Technical Report）、またはこれらによって参照される規格に基づいて放送される、ＩＳＤＢ−Ｔ（Integrated Services Digital Broadcasting - Terrestrial）方式の地上デジタルテレビ放送を例に挙げて説明する。

（放送受信装置）
図１に示すように、放送受信装置１には、アンテナ２と音声出力装置３と映像表示装置４が接続されている。アンテナ２は、送信者側の放送機５からの放送信号を受信し、放送信号を放送受信装置１へ出力する。そして、放送受信装置１は入力された放送信号に対して種々の信号処理を施し、放送信号に含まれるデータに基づいて、音声信号を音声出力装置３へ出力するとともに、映像信号を映像表示装置４へ出力することで、音声出力装置３によって音声を再生し、映像表示装置に人物の動画や字幕等の画像を表示する。

放送受信装置１は、図１に示すように、選局部１１と、伝送路復号部１２と、多重分離部１３と、音声データ処理部１４と、画像データ処理装置１５とを備えている。これら以外にも、インターネット等と接続する通信インタフェースや、視聴者からの入力を受け付けるリモコンインタフェースを設けてもよい。放送受信装置１の各部は、ＣＰＵ（Central Processing Unit）（不図示）が、ＲＯＭ（Read Only Memory）（不図示）に記憶されているプログラムを、ＲＡＭ（Random Access Memory）（不図示）を用いて実行することによって制御される。また、ＲＯＭには、後述する８単位文字符号データの文字符号によって示される文字や、輝度信号と色差信号と透明度の値を間接的に指定するＣＬＵＴ（Color Look-Up Table，カラールックアップテーブル）が記憶されている。

選局部１１は、アンテナ２で受信した複数のチャンネルの放送信号から、所望のチャンネルに対応する放送信号のみを抽出し、この放送信号を伝送路復号部１２において復調しやすいように放送信号を低周波の信号に変換するとともに、デジタル信号へ変換する。そして、選局部１１は、デジタル信号となった放送信号を伝送路復号部１２へ出力する。

伝送路復号部１２は、入力された放送信号であるデジタル信号に対して、送信者側での信号処理手順と逆の手順で、各種の信号処理（例えば、復調、ビタビ復号化、デインタリーブ、リードソロモン復号化）を施し、放送信号をＭＰＥＧ−２ＴＳ（Transport Stream）形式（以下、「ＴＳ形式」という。）の信号へ変換する。そして、伝送路復号部１２は、ＴＳ形式の信号を多重分離部１３へ出力する。

多重分離部１３は、ＭＰＥＧ−２Ｓｙｓｔｅｍｓに基づいて多重化されているＴＳ形式の信号から、各種データ毎に、ＰＥＳ（Packetized Elementary Stream）形式のデータを構成するＭＰＥＧ−２ＴＳパケット（以下、「ＴＳパケット」という。）を分離して、各種データ（即ち、映像データ、字幕データ、音声データ）を取り出す。取り出された音声データは、多重分離部１３によって、音声データ処理部１４へ出力されるとともに、取り出された映像データおよび字幕データは、多重分離部１３によって、画像データ処理装置１５へ出力される。

音声データ処理部１４は、ＭＰＥＧ−２ＡＡＣ（Advanced Audio Coding）によって符号化されている音声データを復号化し、復号化された音声信号をアンプ付スピーカー等の音声出力装置３へ出力する。

（画像データ処理装置）
画像データ処理装置１５は、入力された映像データと字幕データに基づいて、映像信号を生成して液晶テレビ等の映像表示装置４へ出力するために、図２に示すように、映像デコーダ部１５１と、映像データ解析部１５２と、字幕デコーダ部１５３と、字幕データ解析部１５４と、制御部１５５と、フレームメモリを有する映像信号生成部１５６とを備えている。なお、映像データと字幕データは、それぞれ画像データ処理装置１５の映像デコーダ部１５１と字幕デコーダ部１５３に入力される。

映像デコーダ部１５１は、ＭＰＥＧ−２Ｖｉｄｅｏに基づいて符号化されている映像データに対して、可変長符号の復号や逆量子化や逆離散コサイン変換や動き補償等を行うことにより復号化を行い、復号化された映像データに基づいて、輝度信号と色差信号を映像信号生成部１５６の動画用フレームメモリ１５６ａに書き込む。映像デコーダ部１５１が、復号化された映像データに基づいて、輝度信号と色差信号を動画用フレームメモリ１５６ａに逐次書き込むことによって、動画を示すプレーン（即ち、動画プレーン）が生成される。

映像データ解析部１５２は、復号化された映像データのうち、１フレーム分の静止画像を示す映像データを解析することにより、所定時刻に映像表示装置４に表示される人物の口を検出するとともに、この人物の口の表示位置の情報を少なくとも取得する。即ち、映像データ（即ち、動画用フレームメモリ１５６ａに書き込まれる輝度信号と色差信号）によって示される１フレーム分の静止画像に対して、パターンマッチング等の画像処理を行うことによって映像データを解析し、映像表示装置４に表示される人物の口を検出する。そして、映像データ解析部１５２は、検出された人物の口の情報（即ち、検出された人物の口の表示位置の情報や、検出された人物の口の数や、検出された人物の口の特徴に関する情報等）を取得し、これらの情報を制御部１５５へ出力する。なお、本実施形態においては、映像データ解析部１５２は、映像表示装置４に表示される人物の口を検出して、検出された人物の口の情報を取得しているが、映像表示装置４に表示される顔や頭等の人物の一部を検出して、検出された顔や頭等の人物の一部の情報を取得するようにしてもよい。

字幕デコーダ部１５３は、字幕データに基づいて、輝度信号と色差信号と透明度の値を間接的に指定する値（以下、「カラーインデックス」という。）を、映像信号生成部１５６の字幕用フレームメモリ１５６ｂに書き込むことによって、字幕を示すプレーン（即ち、字幕プレーン）を生成する。より具体的には、例えば、ＰＥＳ形式の映像データおよび音声データに含まれずに独立してＰＥＳ形式の字幕データとなっている独立ＰＥＳ形式の字幕データは、図３に示すように、ＰＥＳヘッダ領域とＰＥＳデータ領域から構成され、ＰＥＳデータ領域には、字幕管理データまたは字幕文データがデータグループとして含まれている。また、データグループのデータユニット領域には、図３に示すように、本文データユニットが含まれている。本文データユニットのデータユニットデータ領域には、８単位文字符号データが含まれており、この８単位文字符号データには字幕の文字を示す文字符号だけでなく、字幕の表示位置や、大きさや、色等を指定するための制御符号（例えば、ＳＤＰやＳＤＦやＳＳＺやＳＺＸやＣＯＬ等）が含まれている。文字符号によって示されるＲＯＭに記憶された文字が、制御符号の指定通りに映像表示装置４に表示されるように、字幕用フレームメモリ１５６ｂの、映像表示装置４において字幕が表示される位置に対応する箇所に、カラーインデックスが書き込まれる。

字幕データ解析部１５４は、字幕データを解析することにより、映像表示装置４に表示される字幕を検出するとともに、この字幕の表示位置の情報を少なくとも取得する。即ち、字幕用フレームメモリ１５６ｂに、字幕を表示するためのカラーインデックス（透明度が０ではない値を示すカラーインデックス）が書き込まれる場合に、字幕データ解析部１５４が、映像表示装置４に表示される字幕を検出する。そして、字幕データ解析部１５４は、字幕用フレームメモリ１５６ｂの、カラーインデックスが書き込まれる箇所を検出することにより、字幕の表示位置の情報を取得し、また、字幕用フレームメモリ１５６ｂに書き込まれるカラーインデックスが示す輝度信号および色差信号を検出することにより、字幕の色の情報を取得する。そして、字幕データ解析部１５４は、検出された字幕の情報（例えば、検出された字幕の表示位置の情報や、検出された字幕の色の情報等）を取得し、制御部１５５へ出力する。なお、本実施形態においては、字幕用フレームメモリ１５６ｂに書き込まれる字幕データ（即ち、字幕用フレームメモリ１５６ｂに書き込まれるカラーインデックス）を解析したが、８単位文字符号データを含む字幕データを解析して、映像表示装置４に表示される字幕を検出するとともに、この字幕の情報を取得してもよい。

制御部１５５は、映像データ解析部１５２によって人物の口が検出できたか否かを判断するとともに、字幕データ解析部１５４によって字幕が検出できたか否かを判断する。また、制御部１５５は、字幕の色の情報を用いて、逐次表示される字幕が、映像表示装置４に表示される何れの人物に対する字幕であるか等の種々の判断をする。これらの判断は、検出された人物の口の情報や検出された字幕の情報を用いて判断することができ、制御部１５５は、上記の判断等に基づいて、映像信号生成部１５６による映像信号の生成を制御する。即ち、制御部１５５は、人物の一部から字幕を覆う図形（即ち、吹き出し）を映像表示装置４に表示するための映像信号を生成する映像信号生成部１５６を制御する。

映像表示装置４に吹き出しを表示する場合、制御部１５５は、映像信号生成部１５６が映像表示装置４に吹き出しを表示するための映像信号を生成するように制御する。この場合、制御部１５５は、検出された人物の口の表示位置の情報と字幕の表示位置の情報に基づいて、映像信号生成部１５６が有する吹き出し用フレームメモリ１５６ｃに透明度が０ではない値を示すカラーインデックスを書き込む。より具体的には、制御部１５５は、吹き出し用フレームメモリ１５６ｃの、映像表示装置４において人物の口から字幕を覆う図形（即ち、吹き出し）が表示される位置に対応する箇所に、透明度が０ではない値を示すカラーインデックスを書き込み、吹き出しの図形を示すプレーン（即ち、図形プレーン）を生成する。

一方、映像表示装置４に吹き出しを表示しない（即ち、吹き出しを消す）場合は、制御部１５５は、映像信号生成部１５６が映像表示装置４に吹き出しを表示するための映像信号を生成しないように制御する。この場合、制御部１５５は、映像信号生成部１５６が有する吹き出し用フレームメモリ１５６ｃの全てに、透明度が０を示すカラーインデックスを書き込む。

以上のように、制御部１５５は、カラーインデックスを吹き出し用フレームメモリ１５６ｃに書き込むことによって、映像信号生成部１５６による映像信号の生成を制御し、映像表示装置４に表示される吹き出しを制御することができる。

映像信号生成部１５６は、動画プレーンと図形プレーンと字幕プレーンを合成した合成画像プレーンを生成するために、合成用フレームメモリ１５６ｄに合成後の画像を示す輝度および色差信号を書き込む。より具体的には、動画用フレームメモリ１５６ａに書き込まれた輝度信号および色差信号と、字幕用フレームメモリ１５６ｂと吹き出し用フレームメモリ１５６ｃに書き込まれたカラーインデックスを基に、映像表示装置４で表示する画像の輝度信号および色差信号を合成用フレームメモリ１５６ｄに書き込む。この場合、合成後の画像は、図４に示すように、まず、図形プレーンを、動画プレーンの前に重畳するように合成し、さらに、字幕プレーンを、動画プレーンおよび図形プレーンの前に重畳するように合成した画像である。なお、合成に用いられる図形プレーンの全面の透明度が０の場合は、映像表示装置４に吹き出しが表示されることはない。そして、映像信号生成部１５６は、合成用フレームメモリ１５６ｄに書き込まれた輝度信号や色差信号を、映像信号として映像表示装置４へ出力する。従って、映像信号生成部１５６は、映像データ解析部１５２によって取得された人物の口の表示位置の情報と、字幕データ解析部１５４によって取得された字幕の表示位置の情報を用いて、図４に示すような、人物の一部から字幕を覆う図形（即ち、吹き出し）を映像表示装置４に表示するための映像信号を生成する。

（吹き出しを表示する手順）
次に、吹き出しを映像表示装置４に表示する際の手順について、図５および図６を参照しながら説明する。まず、視聴者によって映像表示装置４に吹き出しを含む画像を表示する旨の指示がなされて、映像表示装置４に吹き出しを表示する吹き出し表示モードが開始される（ステップＳ１）。

次いで、所定時刻Ｔ１に映像表示装置４に表示される字幕の有無を判断する（ステップＳ２）。この場合、映像表示装置４に表示される字幕の有無の判断は、制御部１５５が、字幕データ解析部１５４によって字幕が検出できたか否かを判断することによって判断する。即ち、ステップＳ２においては、制御部１５５が、字幕データ解析部１５４によって映像表示装置４に表示される字幕を検出できたと判断した場合は、映像表示装置４に表示される字幕が有ると判断する。また、制御部１５５が、字幕データ解析部１５４によって映像表示装置４に表示される字幕を検出できなかったと判断した場合は、映像表示装置４に表示される字幕が無いと判断する。

次いで、ステップＳ２において映像表示装置４に表示される字幕が有ると判断された場合、制御部１５５が、映像データ解析部１５２によって人物の口が検出できたか否かを判断する（ステップＳ３）。この場合、映像データ解析部１５２は、ステップＳ２において検出された字幕が映像表示装置４に表示される所定時刻Ｔ１と、同一の時刻に映像表示装置４に表示される映像を示す映像データを解析して、人物の口を検出するようにする。

次いで、ステップＳ３において人物の口が検出できたと判断された場合、ステップＳ３において検出できた人物が１人であるか否かを判断する（ステップＳ４）。この場合、ステップＳ３においては、制御部１５５が、ステップＳ３において映像データ解析部１５２によって検出できた口が１つであるか否かを判断して、検出できた人物が１人であるか否かを判断する。即ち、ステップＳ３およびステップＳ４においては、制御部１５５が、映像データ解析部１５２によって１人の人物の口が検出できたか否かを判断している。

ステップＳ２〜ステップＳ４において、映像表示装置４に表示される字幕が無い、または、人物の口が検出できなかった、または、検出できた人物が１人ではないと判断された場合は、吹き出しを表示することなく、ステップＳ２以降の処理が再び行われる。即ち、表示される字幕が無い場合は、吹き出しを表示する必要がなく、人物の口が検出できない場合、または検出できた人物が１人ではない（即ち、２人以上である）場合は、吹き出しの対象となる人物が特定できない。このため、映像表示装置４に吹き出しを表示せずに、所定時間後においてステップＳ２以降の処理を再び行う。

一方、ステップＳ２およびステップＳ３を経て、ステップＳ４において検出できた人物が１人であると判断された場合は、検出された人物の口から字幕を覆う図形（即ち、吹き出し）を映像表示装置４に表示する（ステップＳ５）。即ち、ステップＳ２〜ステップＳ４において、映像表示装置４に表示される字幕が有ると判断され、1人の人物の口が検出できたと判断された場合は、ステップＳ２において字幕データ解析部１５４によって検出された字幕は、ステップＳ３において映像データ解析部１５２によって検出された人物の口に対応する人物Ａが話す内容であると判断する。従って、人物Ａを吹き出しの対象として、ステップＳ３において検出された人物Ａの口から、ステップＳ２において検出された字幕を覆う図形を映像表示装置４に表示するようにする。そして、ステップＳ５において人物Ａを対象として吹き出しを表示した後、所定時間後に後述するステップＳ６へ移行する。

人物Ａを対象として吹き出しが映像表示装置４に表示された後は、図６に示す手順で映像表示装置４に表示される吹き出しが制御される。まず、所定時刻Ｔ２に映像表示装置４に表示される字幕の有無を判断する（ステップＳ６）。この場合、映像表示装置４に表示される字幕の有無の判断は、制御部１５５が、字幕データ解析部１５４によって映像表示装置４に表示される字幕が検出できたか否かを判断することによって判断する。

次いで、ステップＳ６において映像表示装置４に表示される字幕が有ると判断された場合、制御部１５５が、映像データ解析部１５２によって人物の口が検出できたか否かを判断する（ステップＳ７）。この場合、映像データ解析部１５２は、ステップＳ６において検出された字幕が映像表示装置４に表示される所定時刻Ｔ２と、同一の時刻に映像表示装置４に表示される映像を示す映像データを解析して、人物の口を検出するようにする。

ステップＳ６またはステップＳ７において、映像表示装置４に表示される字幕が無い、または、人物の口が検出できなかったと判断された場合は、吹き出しが映像表示装置４に表示されないように、映像表示装置４に表示されていた人物Ａを対象とする吹き出しを消す（ステップＳ８）。その後、所定時間後においてステップＳ２以降の処理を再び行う。

一方、ステップＳ６を経て、ステップＳ７において人物の口が検出できたと判断された場合は、話者が変化したか否かを判断する（ステップＳ９）。即ち、ステップＳ６において検出された字幕が、ステップＳ５において表示した吹き出しの対象となる人物Ａが話している内容であるか否かを判断する。この場合、話者が変化したか否かの判断は、制御部１５５が、字幕データ解析部１５４によって取得された字幕の色の情報を用いて、ステップＳ２とステップＳ６において検出された字幕の色が異なるか否かを判断することによって判断する。より具体的には、ステップＳ２において検出された字幕の色（即ち、所定時刻Ｔ１に映像表示装置４に表示される字幕の色）とステップＳ６において検出された字幕の色（即ち、所定時刻Ｔ２に映像表示装置４に表示される字幕の色）が異なる場合は、話者が変化したと判断する。また、ステップＳ２において検出された字幕の色（即ち、所定時刻Ｔ１に映像表示装置４に表示される字幕の色）とステップＳ６において検出できた字幕の色（即ち、所定時刻Ｔ２に映像表示装置４に表示される字幕の色）が同じ場合は、話者が変化していないと判断する。ステップＳ９において、話者が変化していないと判断することは、ステップＳ６において字幕データ解析部によって検出された字幕が、所定時刻Ｔ１，Ｔ２において映像表示装置４に表示されている同一の人物Ａに対する字幕であると判断することである。

ステップＳ９において話者が変化していないと判断された場合は、ステップＳ７において検出された人物Ａの口から、ステップＳ６において検出された字幕を覆う図形を表示して、人物Ａを対象とする吹き出しの表示を継続する（ステップＳ１０）。その後、所定時間後においてステップＳ６以降の処理が再び行われる。

一方、ステップＳ９において話者が変化したと判断された場合は、ステップＳ７において検出できた人物が２人以下であるか否かを判断する（ステップＳ１１）。この場合、ステップＳ１１においては、制御部１５５が、ステップＳ７において映像データ解析部１５２によって検出できた口が２つ以下であるか否かを判断して、検出できた人物が２人以下であるか否かを判断する。

ステップＳ１１において検出できた人物が２人以下でない（即ち、３人以上である）と判断された場合は、吹き出しが映像表示装置４に表示されないように、映像表示装置４に表示されていた人物Ａを対象とする吹き出しを消す（ステップＳ１２）。即ち、ステップＳ６において検出できた字幕が、ステップＳ７において検出できた３人以上の人物のうち、何れの人物が話す内容であるか特定できないため、吹き出しを消すようにする。その後、所定時間後においてステップＳ２以降の処理を再び行う。

一方、ステップＳ１１において検出できた人物が２人以下であると判断された場合は、ステップＳ６において検出できた字幕が、ステップＳ７において検出できた人物のうち、人物Ａではない人物Ｂが話す内容であると判断することができる。従って、この場合、映像表示装置４に表示されていた人物Ａに対する吹き出しを消す（ステップＳ１３）。そして、映像表示装置４に人物Ｂに対する他の吹き出しを表示するようにする（ステップＳ１４）。なお、映像表示装置４に表示される人物Ａ，Ｂの口の識別は、制御部１５５が、映像データ解析部１５２によって取得された口の特徴の情報や、所定時間における口の表示位置の情報を用いて識別すればよい。

次いで、視聴者によって、吹き出し表示モード終了の旨が指示されているか否かを制御部１５５が判断する（ステップＳ１５）。ステップＳ１５において、吹き出し表示モード終了の旨が指示されていないと判断された場合は、所定時間後にステップＳ６以降の処理を再び行う。一方、ステップＳ１５において、吹き出し表示モード終了の旨が指示されていると判断された場合は、映像表示装置４に吹き出しを表示しないように吹き出し表示モードが終了される。

上記実施形態の画像データ処理装置１５によれば、以下のような効果を得ることができる。
（１）制御部１５５は、映像データ解析部１５２によって人物の口が検出できたか否かを判断するとともに、字幕データ解析部１５４によって字幕が検出できたか否かを判断する。これらを判断して、制御部１５５は、人物の口から字幕を覆う図形（即ち、吹き出し）を映像表示装置４に表示するために、映像信号生成部１５６による映像信号の生成を制御する。このため、映像データと字幕データに基づいて、映像表示装置４に吹き出しを表示することができる。従って、例えば、テレビ放送において吹き出しデータが送信者側から送信されない場合であっても、受信者側において、映像データと字幕データに基づいて、映像表示装置４に吹き出しを表示することができる。

（２）制御部１５５は、ステップＳ３およびステップＳ４において１人の人物の口が検出できたと判断し、且つ、ステップＳ２において字幕が検出できたと判断した場合に、人物Ａの口から字幕を覆う図形（即ち、吹き出し）を映像表示装置４に表示するために、映像信号生成部１５６が映像信号を生成するように制御する。このため、映像表示装置４に吹き出しを容易に表示することができる。

（３）制御部１５５は、さらに、字幕データ解析部１５４によって取得された字幕の色の情報を用いて、字幕が、映像表示装置４に表示される何れの人物に対する字幕であるかを判断する。この判断により、人物の口から字幕を覆う図形（即ち、吹き出し）を映像表示装置４に表示するために、映像信号生成部１５６による映像信号の生成を制御する。このため、映像表示装置４に吹き出しを容易かつ効果的に表示することができる。

（４）制御部１５５は、映像信号生成部１５６によって映像表示装置４に吹き出しを表示するための映像信号が生成された後であるステップＳ９において、字幕データ解析部１５４によってステップＳ６で再度検出された字幕が、映像表示装置４に表示されている同一の人物に対する字幕であるかを判断している。そして、制御部１５５は、同一の人物に対する字幕であると判断した場合に、人物Ａの口から字幕を覆う図形（即ち、吹き出し）を映像表示装置４に表示するために、ステップＳ１０において映像信号生成部１５６が映像信号を継続して生成するように制御する。このため、映像表示装置４に吹き出しを効果的に表示することを継続することができる。

なお、本発明は、上記実施形態に限定されるものではなく、本発明の趣旨に基づいて種々の設計変更をすることが可能であり、それらを本発明の範囲から除外するものではない。例えば、上記実施形態は以下のように変更してもよい。

・上記実施形態においては、字幕データは独立ＰＥＳ形式の字幕データであったが、字幕データが映像データまたは音声データにおける多重可能な領域に含まれるデータや、セクション形式のデータであってもよい。

・上記実施形態においては、ＰＥＳ形式の字幕データに含まれる制御符号によって、字幕の色が指定されていたが、字幕データに、字幕の色は含まれていなくてもよい。この場合、上述のステップＳ９においては、字幕の色の情報を用いて話者が変化したか否かを判断していたが、これ以外の情報（例えば、字幕の大きさ等）を用いて、ステップＳ９において話者が変化したか否か、即ち、字幕が、映像表示装置４に表示される何れの人物に対する字幕であるかを判断すればよい。このようにしても、映像表示装置４に吹き出しを効果的に表示することができる。

・上記実施形態においては、Ｓ４において検出できた人物が１人であると判断された場合に、映像表示装置４に吹き出しを表示するようにしたが、これ以外の方法により、ステップＳ２において検出された字幕が、ステップＳ３において検出された人物が話す内容であると判断してもよい。

・上記実施形態においては、ＰＥＳ形式の字幕データに含まれる制御符号によって、字幕の表示位置が指定されていたが、字幕データには、字幕の表示位置は含まれていなくてもよい。即ち、画像データ処理装置１５の字幕デコーダ部１５３が、映像表示装置４において字幕が表示される位置を決定するようにしてもよい。

・上記実施形態においては、地上デジタルテレビ放送を例に説明したが、ＢＳデジタル放送、ＣＳデジタル放送、またはアナログ放送においても、本発明の画像データ処理装置を用いて、映像データと字幕データに基づき映像表示装置４に吹き出しを表示することができる。

本発明の活用例としては、映像データと字幕データを含む放送信号が入力される放送受信装置に内蔵され、映像データと字幕データに基づいて、映像信号を生成して映像表示装置へ出力する画像データ処理装置が挙げられる。

本発明の実施形態に係るテレビ放送システムを示すブロック図。本発明の実施形態に係る画像データ処理装置を示すブロック図。本発明の実施形態に係る字幕データの構成図。動画プレーンと図形プレーンと字幕プレーンの合成を示す概念図。本発明の実施形態に係る吹き出しを表示する手順を示すフローチャート。本発明の実施形態に係る吹き出しを表示する手順を示すフローチャート。

符号の説明

１…放送受信装置、４…映像表示装置、１５…画像データ処理装置、１５２…映像データ解析部、１５４…字幕データ解析部、１５５…制御部、１５６…映像信号生成部。

Claims

映像データと字幕データに基づいて、映像信号を生成し映像表示装置へ出力する画像データ処理装置であって、
前記映像データを解析することにより、前記映像表示装置に表示される人物の一部を検出するとともに、前記人物の一部の表示位置の情報を取得する映像データ解析部と、
前記字幕データを解析することにより、前記映像表示装置に表示される字幕を検出するとともに、前記字幕の表示位置の情報を取得する字幕データ解析部と、
前記人物の一部の表示位置の情報および前記字幕の表示位置の情報を用いて、前記人物の一部の位置を基準点として前記字幕を覆う図形を前記映像表示装置に表示するための前記映像信号を生成する映像信号生成部と、
前記映像データ解析部によって人物の一部が検出できたか否かを判断するとともに、前記字幕データ解析部によって字幕が検出できたか否かを判断して、前記映像信号生成部による前記映像信号の生成を制御する制御部と
を備えることを特徴とする画像データ処理装置。
前記制御部は、前記映像データ解析部によって１人の人物の一部が検出できたと判断し、前記字幕データ解析部によって字幕が検出できたと判断した場合に、前記映像信号生成部が前記映像信号を生成するように制御する
ことを特徴とする請求項１に記載の画像データ処理装置。
前記制御部は、さらに、前記字幕が、前記映像表示装置に表示される何れの人物に対する字幕であるかを判断することにより、前記映像信号生成部による前記映像信号の生成を制御する
ことを特徴とする請求項１に記載の画像データ処理装置。
前記字幕データ解析部は、さらに、前記字幕データを解析することにより、前記字幕の色の情報を取得し、
前記制御部は、前記字幕の色の情報を用いて、前記字幕が、前記映像表示装置に表示される何れの人物に対する字幕であるかを判断することにより、前記映像信号生成部による前記映像信号の生成を制御する
ことを特徴とする請求項３に記載の画像データ処理装置。
前記制御部は、前記映像信号生成部によって前記映像信号が生成された後において、前記字幕データ解析部によって再度検出された前記映像表示装置に表示される字幕が、前記映像表示装置に表示されている同一の前記人物に対する字幕であると判断した場合に、前記映像信号生成部が前記映像信号を継続して生成するように制御する
ことを特徴とする請求項３または請求項４に記載の画像データ処理装置。