JP5423425B2

JP5423425B2 - 画像処理装置

Info

Publication number: JP5423425B2
Application number: JP2010013571A
Authority: JP
Inventors: 純大橋; 健太郎永濱
Original assignee: Fujitsu Mobile Communications Ltd
Current assignee: Fujitsu Mobile Communications Ltd
Priority date: 2010-01-25
Filing date: 2010-01-25
Publication date: 2014-02-19
Anticipated expiration: 2030-01-25
Also published as: US20110181773A1; JP2011151750A

Description

この発明は、例えばデジタル放送など、映像に字幕を重ねて表示する画像処理を行う画像処理装置に関する。

周知のように、従来は、映像を表示するモニタの解像度と、受信した映像の解像度が異なる場合に、モニタの解像度に応じた位置を先頭に字幕文を表示させるようにしている（例えば、特許文献１参照）。

ところで近時、デジタル放送には画面サイズの大きい設置型の固定受信機向けの字幕形式や画面サイズの小さい携帯電話機等の移動受信機向けの字幕形式がある。これらの形式は解像度が異なるばかりではなく、レイアウトの自由度や装飾機能に隔たりがある。

一方、固定機向けのデジタル放送をトランスコードし移動機で視聴するという視聴形態が一般化している。これはPCやテレビ、レコーダで音声・映像・字幕の各メディアの形式を対応した携帯機向けの形式に変換することで実現する。

字幕に関しては、上述した通り解像度ばかりではなく、レイアウトや装飾機能に隔たりがあるため、公知の技術を用いたとしても適切に変換することができなかった。
また字幕の形式を変換するのではなく映像に合成する方法があるが、字幕の表示・非表示がフォーマット変換時にしか設定できないため、端末で再生中には字幕表示設定を変更できないという課題があった。

特開２００１−３４６１１８号公報

従来では、映像上の任意の位置を指定して文字色・背景色の異なる複数の字幕文を表示することが可能な字幕形式を、単数のみに対応している字幕形式に変換する際に、元の字幕形式とは異なるレイアウトで表示されてしまい、閲覧性低下したりコンテンツ保持者が意図する表示方法と違う形でユーザに提示してしまうという問題があった。
この発明は上記の問題を解決すべくなされたもので、映像上の任意の位置を指定して文字色・背景色の異なる字幕文を単数のみ表示することが可能な字幕形式のデジタル放送を受信する受信機において、複数の字幕文を表示することが可能なディジタル放送の字幕表示を可能とする画像処理装置を提供することを目的とする。

上記の目的を達成するために、この発明は、表示位置を指定し複数の字幕表示を行うことが可能な第１字幕形式を採用する放送信号を受信する受信手段と、この受信手段が受信した放送信号に含まれる字幕情報に基づいて、字幕の表示位置を検出する表示位置検出手段と、字幕情報に基づいて、字幕の文字列を検出する文字列検出手段と、複数の字幕表示を行うことができない第２字幕形式の字幕情報を生成するものであって、表示位置検出手段が検出した表示位置に文字列検出手段が検出した文字列を表示するために、字幕の表示領域の始点から字幕として空白文字を配置するとともに、これに続いて文字列検出手段が検出した文字列を配置して第２字幕形式の字幕情報を生成する字幕生成手段とを具備して構成するようにした。

以上述べたように、この発明では、第１字幕形式を採用する放送信号から得た字幕情報に基づいて、字幕の表示位置を字幕の文字列を検出し、字幕の表示領域の始点から字幕として空白文字を配置するとともに、これに続いて上記文字列を配置して第２字幕形式の字幕情報を生成するようにしている。

したがって、この発明によれば、字幕のレイアウトや装飾を維持しつつ第１字幕形式の字幕情報を第２字幕形式の字幕情報に変換できるので、映像上の任意の位置を指定して文字色・背景色の異なる字幕文を単数のみ表示することが可能な字幕形式のデジタル放送を受信する受信機において、映像上の任意の位置を指定して文字色・背景色の異なる字幕文を複数表示することが可能な画像処理装置を提供できる。

この発明に係わる画像処理装置を備えた放送受信装置の一実施形態の構成を示す回路ブロック図。 ISDB-T SUBによる字幕を表示する領域の管理を説明するための図。 ISDB-T SUBによる字幕を説明するための図。 3GPP Timed Textによる字幕を説明するための図。図１に示した放送受信装置によって生成されるTimed Textを説明するための図。図１に示した放送受信装置の第１の実施形態に係わる字幕トランスコーダの構成を示す図。図６に示した字幕トランスコーダの動作を説明するためのフローチャート。図６に示した字幕トランスコーダの動作を説明するための図。図６に示した字幕トランスコーダの動作を説明するための図。 DVB SUBによる字幕を説明するための図。図１に示した放送受信装置の第２の実施形態に係わる字幕トランスコーダの構成を示す図。図１１に示した字幕トランスコーダの動作を説明するためのフローチャート。 DTVCCによる字幕を説明するための図。図１に示した放送受信装置の第３の実施形態に係わる字幕トランスコーダの構成を示す図。図１４に示した字幕トランスコーダの動作を説明するためのフローチャート。図１５に示した放送受信装置によって生成されるTimed Textを説明するための図。図１に示した放送受信装置の変形例によって生成されるTimed Textを説明するための図。図１に示した放送受信装置の変形例の構成を示す回路ブロック図。

以下、図面を参照して、この発明の実施形態について説明する。
なお、ここでは、デジタル放送の規格、および映像上の任意の位置を指定して文字色・背景色の異なる字幕文を複数表示することが可能な字幕形式として、例えば以下の３つのデジタル放送を想定している。

１．国内および南米のデジタルテレビ放送規格であるISDB-T Integrated Services Digital Broadcasting - Terrestrial)に、ARIB TR-B14 A Profileで規定される字幕形式（以下、ISDB-T SUBと表記する）を適用したデジタル放送。

２．欧州を中心に採用されているデジタルテレビ放送規格であるDVB(Digital Broadcasting)に、ETSI EN 300 743で規定される字幕形式（以下、DVB SUBと表記する）を適用したデジタル放送。

３．北米を中心に採用されているデジタルテレビ放送規格であるATSC（Advanced Television Systems Committee）で使用され、CEA 708で規定される字幕形式（以下、DTVCCと表記する）を適用したデジタル放送。

また、映像上の所定の位置に字幕を表示する字幕形式としては、3GPP(3rd Generation Partnership Project)が規格化し、3GPP TS 26.234で規定される3GPP Timed Text（以下、Timed Textと表記する）を想定する。
すなわち、この発明に係わる画像処理装置では、３つのデジタル放送のうち、いずれかを受信し、そして、Timed Textにより字幕を表示する。

図１は、この発明の実施形態に係わる画像処理装置を備えた放送受信装置の構成を示すものである。この放送受信装置は、チューナ１１と、ハードディスクドライブ（HDD）１２と、メモリカード１３を接続するためのカードインタフェース（Ｉ／Ｆ）１４と、読出処理部１５と、分離処理部２０と、音声トランスコーダ３０と、映像トランスコーダ４０と、字幕トランスコーダ５０と、多重処理部６０と、記録処理部７０と、入力部８０と、制御部１００とを備えている。

チューナ１１は、例えば衛星デジタル放送や地上デジタル放送、インターネットを通じて配信されるデジタル放送などを受信するためのチューナであって、受信した信号を復調して、音声、映像、字幕などの複数のメディアデータを含むマルチメディアデータを得る。

ハードディスクドライブ（HDD）１２は、上記マルチメディアデータを保存するものである。すなわち、ハードディスクドライブ１２は、チューナ１１などによって得たマルチメディアデータをリアルタイム再生せず、ユーザが好きなときに視聴するためにマルチメディアデータを保存するのに用いる記憶媒体である。

メモリカード１３も同様に、上記マルチメディアデータを保存するものであって、NAND型フラッシュメモリなどを用いた記憶媒体である。
カードインタフェース（Ｉ／Ｆ）１４は、メモリカード１３が電気的および物理的に接続され、読出処理部１５によって制御されることにより、メモリカード１３に記録されたデータを読み出したり、あるいはデータをメモリカード１３に記録するためのインタフェースである。

読出処理部１５は、ハードディスクドライブ１２を制御して、これに記録されたマルチメディアデータを読み出したり、カードインタフェース１４を制御して、メモリカード１３に記録されたマルチメディアデータを読み出して、分離処理部２０に出力する。
なお、図１には図示しないが、チューナ１１によって得られたマルチメディアデータを、ハードディスクドライブ１２に記録（録画）したりと、カードインタフェース１４を通じてメモリカード１３に記録（録画）する録画処理部を備える。

分離処理部２０は、チューナ１１によって得られたマルチメディアデータや、読出処理部１５によって読み出されたマルチメディアデータが入力され、このマルチメディアデータを、音声データ、映像データ、字幕データに分離する処理を行うもので、各データはそれぞれ対応する音声トランスコーダ３０、映像トランスコーダ４０および字幕トランスコーダ５０に出力される。

音声トランスコーダ３０は、後述する制御部１００から与えられる変換パラメータにしたがって、分離処理部２０から与えられる音声データをトランスコードし、当該放送受信装置で再生可能な音声データに変換する。

映像トランスコーダ４０は、制御部１００から与えられる変換パラメータにしたがって、分離処理部２０から与えられる映像データをトランスコードし、当該放送受信装置で再生可能な映像データに変換する。

字幕トランスコーダ５０は、制御部１００から与えられる変換パラメータにしたがって、分離処理部２０から与えられる字幕データに変換処理を施して、Timed Text方式の字幕データを得る。

多重処理部６０は、音声トランスコーダ３０から出力される音声データ、映像トランスコーダ４０から出力される映像データおよび字幕トランスコーダ５０から出力される字幕データを１つのマルチメディアデータに多重化する。このようにして主にサイズの小さなモニタを備える携帯電話機などの受信機に向けたデータが得られる。

記録処理部７０は、多重処理部６０によって得られたマルチメディアデータを記録するものであって、ハードディスクドライブ１２やメモリカード１３に記録する。

なお、このようにして得たマルチメディアデータは、図示しないデコーダによって音声信号、映像信号、字幕信号に復号され、スピーカ（図示しない）から拡声出力されると共に、映像がモニタ（図示しない）上に表示されてもよく、字幕信号に基づく字幕は、映像信号に基づく映像上に重ねて表示される。

入力部８０は、ユーザからの要求を受け付けるためのインタフェースであって、例えば、音声の品質の度合い、映像の品質の度合い、出力解像度、字幕の表示方法などの情報が任意に入力される。

制御部１００は、当該放送受信装置の各部を統括して制御するものであって、入力部８０を通じて入力された情報に基づいて、上記変換パラメータを生成し、音声に関わるパラメータについては、音声トランスコーダ３０に出力し、映像に関わるパラメータについては、映像トランスコーダ４０に出力し、そして字幕に関わるパラメータについては、字幕トランスコーダ５０に出力する。

次に、この発明に係わる字幕トランスコーダ５０の詳細な構成について説明する。なお、前述したようにデジタルテレビ放送規格によって採用する字幕形式が異なり、それに応じて字幕トランスコーダ５０の処理も異なるため、字幕形式毎に説明する。第１の実施形態では、字幕データがISDB-T SUBの場合について説明し、第２の実施形態では、DVB SUBの場合について説明し、そして第３の実施形態では、DTVCCの場合について説明する。

（第１の実施形態：字幕データがISDB-T SUBの場合）
字幕データISDB-T SUBは、PES(Packet Elementary Stream)パケット形式であり、映像データ、音声データとともにMPEG-2 TS形式で上記マルチメディアデータとして多重され、PESヘッダに存在するPTS(Presentation Time Stamp)によって映像・音声と同期して再生されるものである。またISDB-T SUBには、字幕文の情報である字幕文データと、制御情報が格納された字幕管理データを含んでいる。

ISDB-T SUBを採用する地上デジタル放送では、図２に示すように、映像と字幕をプレーンＰと呼ばれる論理的な領域で管理する。そして、通常の地上ディジタル放送受信装置では、再生時に字幕を映像にオーバーレイして表示する。なお、当該放送受信装置では、ISDB-T SUBをTimed Textに変換して表示を行う。これについては後に詳述する。

通常の地上ディジタル放送受信装置について、さらに具体的に説明する。通常の地上ディジタル放送受信装置では、字幕プレーンＰの原点座標を起点とする任意の場所が、字幕データ中の制御符号SDPで指定されるとともに、サイズがSDFで指定される。また背景色がCOLで指定される。このようにして、表示領域Ｅが字幕データ中の制御符号（SDP、SDF、COL）によって設定される。そして、例えば図３に示すように、字幕文Ｓ１〜Ｓ３を、表示領域Ｅにおいて、文字単位で、対応した制御符号により指定された場所・文字サイズ・文字間隔・文字色・背景色で表示する。

一方、Timed Textでは、図４に示すように、ディスプレイの表示領域Ｄのうち、論理的な領域Text Track中の任意の場所に、背景色を指定可能な表示領域Text Boxを設定することが可能であって、Text Box中に文字単位で文字色を指定した字幕文を表示することができる。しかし、Timed Textでは、ISDB-T SUBのように文字単位で表示位置を指定する機能や背景色を指定する機能がないため、ISDB-T SUBを単純にTimed Textに変換することはできない。

そこで、発明に係わる放送受信装置では、図１の字幕トランスコーダ５０によってISDB-T SUBをTimed Textに変換する。すなわち、字幕トランスコーダ５０は、図５に示すように、例えば図３に例示した各字幕文Ｓ１〜Ｓ３を包含する矩形領域に対応するText Boxを生成し、その背景色を透明に設定する。そしてText Box上に、画面左上から空白文字や改行を設定して、ISDB-T SUBで指定された表示位置に各字幕文Ｓ１〜Ｓ３を設定する。そして、Timed Textで使用可能な装飾機能であるハイライト機能を使用し、それぞれの文字をISDB-T SUBの背景色で指定された色でハイライト表示する。この方法により、ISDB-T SUBで表示した場合と酷似した表示を行う。

図６に、字幕トランスコーダ５０の構成を示す。すなわち、字幕トランスコーダ５０は、入力PESバッファ５１と、パラメータ設定部５２と、字幕解析処理部５３と、スケール処理部５４と、データ変換処理部５５と、出力バッファ５６とを備える。このような構成により、図７に示す処理を繰り返し実行する。

入力PESバッファ５１は、分離処理部２０から与えられる字幕データを一時的に蓄え、後段の処理の進捗に応じて、字幕解析処理部５３により、処理対象となる字幕データのPESパケットが読み出される。

パラメータ設定部５２は、制御部１００から与えられる変換パラメータに基づいて、ISDB-T SUBをTimed Textに変換する際の出力解像度をスケール処理部５４に通知する。

字幕解析処理部５３は、ステップ７ａにおいて、字幕文データおよび字幕管理データを解析する。字幕文データ中の文字コードおよび制御コードを解析し、横方向（縦書きの場合は縦方向）に連続し背景色が同じである文字列を１つの字幕グループとして検出する。また、この検出した各字幕グループに含まれる文字・文字サイズ・文字色・背景色・各種装飾情報を検出するとともに、そして各字幕グループの開始座標および終了座標を検出する。また字幕管理データについても解析を行い、制御コードから表示書式等を変更する。図３の例では、字幕グループは、Ｓ１〜Ｓ３に相当する。

スケール処理部５４は、ステップ７ｂにおいて、ISDB-T SUBの字幕プレーンＰの解像度（入力解像度。例えば、960x540あるいは720x480など）、パラメータ設定部５２から通知された出力解像度（Text Trackのサイズ）に基づいて、字幕解析処理部５３が解析した文字サイズおよび各グループの開始・終了座標などのスケールを変換するスケール変換処理を実施する。

例えば、入力解像度が960x540、出力解像度が320x180の場合は、文字サイズおよび各座標を1/3に変換する。また小さなモニタ上での字幕の読みやすさを考慮して、縮小するのではなく、より大きなサイズに変換してもよい。

例えば、横書きで、縦方向より横方向の表示サイズが大きくならないようにすることを優先する場合には、図８（ａ）に示すように、各行の折り返し位置と改行位置を調整して、グループのサイズを変更してもよい。さらには、複数の行を連結して、改行位置から折り返し位置までの空きをなくすようにしてもよい。なお、横書きで、横方向より縦方向の表示サイズが大きくならないようにすることを優先する場合には、図８（ｂ）に示すように、各行の折り返し位置や改行位置は変更することなく、文字サイズを拡大する。

なお、ここでスケール変換した字幕文の文字列長が終了座標を超えて、表示領域Ｅからはみ出してしまう場合、追加的に、改行やフォントを変更する処理や、文字サイズをより小さくする処理を実施して、各字幕グループが表示領域Ｅ内の所望の位置に表示できるように調整する処理を実施する。

データ変換処理部５５は、ステップ７ｃにおいて、まず、各字幕グループ内の字幕文の文字コードを8単位符号からUnicodeのUTF-8（もしくはUTF-16）に変換する処理を行う。そして、データ変換処理部５５は、すべての字幕グループ（図３の例では、字幕グループは、Ｓ１〜Ｓ３）を包含するサイズのText Boxを設定する。なお、Text Boxのサイズは、Text Trackと同じサイズとしてもよい。

さらに、データ変換処理部５５は、各字幕グループを上記Text Box内に配置する処理を行う。すなわち、データ変換処理部５５は、字幕解析処理部５３によって検出され、スケール処理部５４によってスケール変換された各字幕グループの開始座標を参照し、その開始座標が、対応する字幕グループの開始位置となるように、各字幕グループの字幕文に加えて、空白文字や改行コードを設定して、映像と字幕の位置関係が相対的にISDB-T SUBの位置関係と一致するように調整して、１つのText Sampleを生成する。図３の例では、各字幕グループの位置関係が図５に示すような配置になるように、図１０に示すようなText Boxをデータとして持つText Sampleを生成する。なお、図１０では、空白文字や改行コードの設定により、字幕文とその位置調整を示したもので、背景色の設定については省略して示している。

また、データ変換処理部５５は、上記Text Sampleに対して装飾処理を行う。字幕解析処理部５３によって検出されたISDB-T SUB中の装飾情報（文字色、スクロールやブリンク）に基づく装飾をText Sample中の対応する文字に対して行うために、Text Style BoxやText Scroll Delay Box等を上記Text Sampleに対して適用して実現する。そしてまた、各字幕グループの背景色については、データ変換処理部５５は、Text Hilight Box、Text Hilight Color Boxを用いたハイライト処理を上記Text Sampleに対して適用して実現する。

なお、上記Text Sampleの出力タイミングの情報については、データ変換処理部５５は、PESパケットのPTSを基準に生成する。また、初回のデータ変換処理の場合は、Text TrackのヘッダであるTrack Header Box、およびSampleのデフォルトパラメータを設定したText Sample Entryを、上記Text Sampleに合わせて生成する。

出力バッファ５６は、ステップ７ｄにおいて、データ変換処理部５５のデータ変換処理によって生成されText Sampleと、その出力タイミング情報、さらに、初回のデータの場合は、Text Sample Entry、Track Header Boxを対応づけて、一時的に記憶し、後段の多重処理部６０の処理の進捗（あるいは、音声トランスコーダ３０および映像トランスコーダ４０の進捗）に合わせて出力する。

以上のように、上記構成の画像処理装置では、ISDB-T SUBをTimed Textに変換する際に、横方向（縦書きの場合は縦方向）に連続し背景色が同じである文字列を１つの字幕グループとして検出するとともに、各グループの開始座標を検出し、Text Box内に空白文字や改行コードを設定することで位置調整して、複数の字幕グループを含む１つのText Sampleを生成するようにしている。

したがって、上記構成の画像処理装置によれば、ISDB-T SUBを相対的な表示位置をほとんど変えずにTimed Textに変換することができるので、Timed Text方式のデジタル放送を再生する受信機において、ISDB-T SUBと同様に動的に字幕の表示位置を変化させることができる。

（第２の実施形態：字幕データがDVB SUBの場合）
字幕データDVB SUBは、PES(Packet Elementary Stream)パケット形式であり、映像データ、音声データとともにMPEG-2 TS形式で上記マルチメディアデータとして多重され、PESヘッダに存在するPTS(Presentation Time Stamp)によって映像・音声と同期して再生されるものである。

DVB SUBは、PESパケット中にディスプレイのサイズの情報を有し、図１０に示すようなwindowを、画面中の任意の位置および任意のサイズで設定し、上記window上にpageと呼ばれる表示単位で字幕を表示する。また字幕を表示する領域（図１０では、Ｒ１〜Ｒ３）は、regionと呼ばれ、window上の任意の位置に、任意のサイズで複数設定できる。

ディスプレイの情報やpageやregionを設定するためのデータは、PESパケットのペイロードにsubtitle segmentとして格納されており、subtitle segmentのsegment_typeパラメータで識別できる。ディスプレイ情報は、display definition segmentに格納され、page情報は、page composition segmentに格納され、region情報は、region composition segmentに格納され、字幕文データは、object data segmentに格納される。DVB SUBは、字幕文データとして、テキスト形式とビットマップ形式を使用することができ、region composition segmentのobject_idパラメータで、形式を識別できる。字幕文データがテキスト形式の場合は、object data segmentには、文字コードが格納され、文字色、背景色は、region composition segmentで指定される。また字幕文データがビットマップ形式の場合は、各ピクセルの色情報が指定される。

一方、Timed Textでは、図４に示したように、ディスプレイの表示領域Ｄのうち、論理的な領域Text Track中の任意の場所に、背景色を指定可能な表示領域Text Boxを設定することが可能であって、Text Box中に文字単位で文字色を指定した字幕文を表示することができる。しかし、Timed Textでは、DVB SUBのように文字単位で表示位置を指定する機能や背景色を指定する機能、そしてビットマップ形式のデータを字幕として表示させる機能がないため、DVB SUBを単純にTimed Textに変換することはできない。

そこで、発明に係わる放送受信装置では、図１の字幕トランスコーダ５０によってDVB SUBをTimed Textに変換する。すなわち、字幕トランスコーダ５０は、図５に示すように、例えば図１０に例示した各region Ｒ１〜Ｒ３を包含する矩形領域に対応するText Boxを生成し、その背景色を透明に設定する。そしてText Box上に、画面左上から空白文字や改行を設定して、DVB SUBで指定された表示位置に各字幕表示領域Ｒ１〜Ｒ３を設定する。そして、Timed Textで使用可能な装飾機能であるハイライト機能を使用し、それぞれの文字をDVB SUBの背景色で指定された色でハイライト表示する。この方法により、DVB SUBで表示した場合と酷似した表示を行う。なお、ビットマップ形式のデータによる字幕については、その表示を文字認識して、テキスト形式のデータに変換する。

図１１に、字幕トランスコーダ５０の構成を示す。すなわち、字幕トランスコーダ５０は、入力PESバッファ５１と、パラメータ設定部５２と、字幕解析処理部５３と、スケール処理部５４と、データ変換処理部５５と、出力バッファ５６と、字幕データ判定部５７と、文字認識処理部５８とを備える。このような構成により、図１２に示す処理を繰り返し実行する。

入力PESバッファ５１は、分離処理部２０から与えられる字幕データを一時的に蓄え、後段の処理の進捗に応じて、字幕解析処理部５３により、処理対象となる字幕データのPESパケットが読み出される。
パラメータ設定部５２は、制御部１００から与えられる変換パラメータに基づいて出力解像度をスケール処理部５４に通知する。

ステップ１２ａ〜１２ｆは、ループ処理である。字幕解析処理部５３、字幕データ判定部５７および文字認識処理部５８によるステップ１２ｂ〜１２ｅの処理が、各regionについて実施され、字幕分データの形式の判定、文字認識処理および字幕解析処理が行われる。図１０の例では、Ｒ１〜Ｒ３について、それぞれ実行される。
ステップ１２ｂでは字幕データ判定部５７が、処理対象のregionについて、region composition segmentのobject_idパラメータを参照し、ステップ１２ｃに移行する。

ステップ１２ｃでは字幕データ判定部５７が、region composition segmentのobject_idパラメータに基づいて、処理対象のregionがビットマップ形式の字幕分データであるか否かを判定する。ここで、ビットマップ形式の字幕分データである場合には、処理対象のregionのデータを文字認識処理部５８に出力して、ステップ１２ｄに移行し、一方、ビットマップ形式の字幕分データではない場合は、処理対象のregionのデータを字幕解析処理部５３に出力して、ステップ１２ｅに移行する。

ステップ１２ｄでは文字認識処理部５８が、字幕データ判定部５７を通じて入力される処理対象のregionのobject data segmentから取得したビットマップデータに対して文字認識処理を実施して、このビットマップデータで表現される字幕文の文字列、文字のサイズ、文字色、背景色をそれぞれ検出し、これらの情報から字幕文データおよび字幕管理データを生成する。

すなわち、文字認識処理部５８は、ビットマップデータで表現される字幕文を字幕文データおよび字幕管理データに変換する。このようにして生成した字幕文データおよび字幕管理データは、字幕解析処理部５３に出力され、ステップ１２ｅに移行する。なお、ここで文字認識処理部５８は、上記文字認識処理において、文字の形状から対応するフォントを検出し、そのフォントの種別を示すフォント情報を生成して、字幕解析処理部５３に出力するようにしてもよい。

ステップ１２ｅでは字幕解析処理部５３が、字幕データ判定部５７あるいは文字認識処理部５８から与えられる、処理対象のregionの字幕文データおよび字幕管理データを解析する。字幕文データ中の文字コードおよび制御コードを解析し、region内の文字列を１つの字幕グループとして検出する。また、この検出した各字幕グループに含まれる文字・文字サイズ・文字色・背景色・各種装飾情報を検出するとともに、そして各字幕グループの開始・終了座標を検出する。また字幕管理データについても解析を行い、制御コードから表示書式等を変更する。

ステップ１２ｇは、すべてのregionについてステップ１２ｂ〜１２ｅの処理が完了すると実行される。ステップ１２ｇでは、スケール処理部５４が、display definition segmentより取得したDVB SUBのディスプレイの解像度、パラメータ設定部５２から通知された出力解像度（Text Trackのサイズ）に基づいて、字幕解析処理部５３が解析した文字サイズおよび各グループの開始・終了座標などのスケールを変換するスケール変換処理を実施する。

例えば、入力解像度が1920x1080、出力解像度が320x180の場合は、文字サイズおよび各座標を1/6に変換する。また小さなモニタ上での字幕の読みやすさを考慮して、縮小するのではなく、より大きなサイズに変換してもよい。その際、横方向あるいは縦方向の表示サイズを優先するために、改行位置を調整し、各グループのサイズを変更してもよいし、後述する第２の実施形態の様式で表示するような処理を実施してもよい。

なお、ここでスケール変換した字幕文の文字列長が終了座標を超えて、windowからはみ出してしまう場合、追加的に、改行やフォントを変更する処理や、文字サイズをより小さくする処理を実施して、各字幕グループがwindow内の所望の位置に表示できるように調整する処理を実施する。

ステップ１２ｈでは、データ変換処理部５５が、まず、各字幕グループ内の字幕文の文字コードを8単位符号からUnicodeのUTF-8（もしくはUTF-16）に変換する処理を行う。そして、データ変換処理部５５は、すべての字幕グループ（図１０の例では、字幕グループは、Ｒ１〜Ｒ３に対応するもの）を包含するサイズのText Boxを設定する。なお、Text Boxのサイズは、Text Trackと同じサイズとしてもよい。

さらに、データ変換処理部５５は、各字幕グループを上記Text Box内に配置する処理を行う。すなわち、データ変換処理部５５は、字幕解析処理部５３によって検出され、スケール処理部５４によってスケール変換された各字幕グループの開始座標を参照し、その開始座標が、対応する字幕グループの開始位置となるように、各字幕グループの字幕文に加えて、空白文字や改行コードを設定して、映像と字幕の位置関係が相対的にDVB SUBの位置関係と一致するように調整して、１つのText Sampleを生成する。図１０の例では、各字幕グループの位置関係が図５に示すような配置になるように、Text Sampleを生成する。

また、データ変換処理部５５は、上記Text Sampleに対して装飾処理を行う。字幕解析処理部５３によって検出されたDVB SUB中の装飾情報（文字色、スクロールやブリンク）に基づく装飾をText Sample中の対応する文字に対して行うために、Text Style BoxやText Scroll Delay Box等を上記Text Sampleに対して適用して実現する。なお、DVB SUB中での色指定は、YCbCr形式であるため、Timed Textで採用するRGB形式に変換する処理を行う。

そしてまた、各字幕グループの背景色については、データ変換処理部５５は、Text Hilight Box、Text Hilight Color Boxを用いたハイライト処理を上記Text Sampleに対して適用して実現する。また文字認識処理部５８の文字認識処理により、フォント情報を生成している場合、サンプル情報を記述するText Sample Entryを生成し、FontTableBoxで該当するフォントを指定する。

ステップ１２ｉでは、出力バッファ５６が、データ変換処理部５５のデータ変換処理によって生成されText Sampleと、その出力タイミング情報、さらに、初回のデータの場合は、Text Sample Entry、Track Header Boxを対応づけて、一時的に記憶し、後段の多重処理部６０の処理の進捗（あるいは、音声トランスコーダ３０および映像トランスコーダ４０の進捗）に合わせて出力する。

以上のように、上記構成の画像処理装置では、DVB SUBをTimed Textに変換する際に、regionの文字列（ビットマップ形式の場合は、文字認識処理により文字列に変換する）を１つの字幕グループとして検出するとともに、各グループの開始座標を検出し、Text Box内に空白文字や改行コードを設定することで位置調整して、複数の字幕グループを含む１つのText Sampleを生成するようにしている。

したがって、上記構成の画像処理装置によれば、DVB SUBを相対的な表示位置をほとんど変えずにTimed Textに変換することができるので、Timed Text方式のデジタル放送を再生する受信機において、DVB SUBと同様に動的に字幕の表示位置を変化させることができる。また、ビットマップ形式の字幕データであっても、変換できる。

（第３の実施形態：字幕データがDTVCCの場合）
字幕データDTVCCは、Caption Channelパケット形式であり、コンテンツ映像のMPEG-2 Videoデータのuser_data領域に格納され、このVideoデータと同期して再生される。

DTVCCは、図１３に示すように、縦横それぞれにマージン（20%が推奨値）を残してビデオの表示領域Ｖ上にsafe title areaを設け、これをgridと呼ばれる領域に分割する。このgridの数は、映像のアスペクト比が16:9の場合は縦210個x横75個とし、4:3の場合は縦160個x横75個とする。

このようなgridに分割されたsafe title areaにおいて、任意のgridを組み合わせることでサイズを可変し、背景色を設定して、字幕表示領域であるwindowを表示する。このようにして設定されるwindowは、最大８つ表示できる。またwindowに優先順位を設定することができ、window同士が重なった場合、優先順位の高いものが前面に表示される。図１３の例では、window２の優先順位がwndow１の優先順位よりも高く設定されている様子を示している。

windowは、字幕データ中の制御コードSWAにより、スクロールさせたり、表示効果や背景色等を設定したり、複数のwindowを揃えたりする設定を施すことができる。またwindow内で表示する字幕文は、字幕文データ中のSPA制御コードにより文字単位でサイズやフォント、アンダーライン等の修飾を設定でき、また字幕分データ中のSPC制御コードにより文字色や背景色等を設定できる。

一方、Timed Textでは、図４に示したように、ディスプレイの表示領域Ｄのうち、論理的な領域Text Track中の任意の場所に、背景色を指定可能な表示領域Text Boxを設定することが可能であって、Text Box中に文字単位で文字色を指定した字幕文を表示することができる。しかし、Timed Textでは、DTVCCのようにwindow単位で表示位置を指定する機能や背景色を指定する機能、そしてwindowに優先順位を設定して重ね合わせ表示させる機能がないため、DTVCCを単純にTimed Textに変換することはできない。

そこで、発明に係わる放送受信装置では、図１の字幕トランスコーダ５０によってDTVCCをTimed Textに変換する。すなわち、字幕トランスコーダ５０は、図５に示すように、例えば図１３に例示した各window１〜window３を包含する矩形領域に対応するText Boxを生成し、その背景色を透明に設定する。そしてText Box上に、画面左上から空白文字や改行を設定して、DTVCCで指定された表示位置に各字幕表示領域Ｒ１〜Ｒ３を設定する。そして、Timed Textで使用可能な装飾機能であるハイライト機能を使用し、それぞれの文字をDTVCCの背景色で指定された色でハイライト表示する。この方法により、DTVCCで表示した場合と酷似した表示を行う。

図１４に、字幕トランスコーダ５０の構成を示す。すなわち、字幕トランスコーダ５０は、入力パケットバッファ５１と、パラメータ設定部５２と、字幕解析処理部５３と、スケール処理部５４と、データ変換処理部５５と、出力バッファ５６とを備える。このような構成により、図１５に示す処理を繰り返し実行する。

入力パケットバッファ５１は、分離処理部２０から与えられる字幕データを一時的に蓄え、後段の処理の進捗に応じて、字幕解析処理部５３により、処理対象となる字幕データのパケットが読み出される。

パラメータ設定部５２は、制御部１００から与えられる変換パラメータに基づいて、DTVCCをTimed Textに変換する際の出力解像度をスケール処理部５４に通知する。

字幕解析処理部５３は、ステップ１５ａにおいて、DTVCCを解析し、window内の文字列を１つの字幕グループとして検出する。そして、字幕解析処理部５３は、この検出した各字幕グループに含まれる文字・文字サイズ・文字色・背景色・各種装飾情報を検出するとともに、そして各字幕グループの開始座標および終了座標をDTVCCから検出する。

なお、開始座標および終了座標は、windowを構成するgridの位置を示す情報に基づいて、ビデオ表示領域Ｖの左上を原点とするピクセル値で示される座標系の位置情報に変換する。また文字サイズは、SPAで指定されたSTANDARD,LARGE,SMALLという３段階の設定値をピクセル値に変換する。フォントが指定されている場合は、対応するフォント選択し、フォント情報を生成してもよい。

スケール処理部５４は、ステップ１５ｂにおいて、ビデオ表示領域Ｖ、パラメータ設定部５２から通知された出力解像度（Text Trackのサイズ）に基づいて、字幕解析処理部５３が解析した文字サイズおよび各グループの開始・終了座標などのスケールを変換するスケール変換処理を実施する。

例えば、入力解像度が1920x1080、出力解像度が320x180の場合は、文字サイズおよび各座標を1/6に変換する。また小さなモニタ上での字幕の読みやすさを考慮して、縮小するのではなく、より大きなサイズに変換してもよい。その際、横方向あるいは縦方向の表示サイズを優先するために、改行位置を調整し、各グループのサイズを変更してもよいし、後述する第２の実施形態の様式で表示するような処理を実施してもよい。
またスケール処理部５４は、window同士が重なっている場合は、文字サイズの変更やwindowの表示位置を変更し、重なりを解消する処理を行う。

データ変換処理部５５は、ステップ１５ｃにおいて、まず、各字幕グループ内の字幕文の文字コードを8単位符号からUnicodeのUTF-8（もしくはUTF-16）に変換する処理を行う。そして、データ変換処理部５５は、すべての字幕グループ（図１３の例では、字幕グループは、window１〜window３）を包含するサイズのText Boxを設定する。なお、Text Boxのサイズは、Text Trackと同じサイズとしてもよい。

さらに、データ変換処理部５５は、各字幕グループを上記Text Box内に配置する処理を行う。すなわち、データ変換処理部５５は、字幕解析処理部５３によって検出され、スケール処理部５４によってスケール変換された各字幕グループの開始座標を参照し、その開始座標が、対応する字幕グループの開始位置となるように、各字幕グループの字幕文に加えて、空白文字や改行コードを設定して、映像と字幕の位置関係が相対的にDTVCCの位置関係と一致するように調整して、１つのText Sampleを生成する。図１３の例では、各字幕グループの位置関係が図１６に示すような配置になるように、Text Sampleを生成する。

また、データ変換処理部５５は、上記Text Sampleに対して装飾処理を行う。字幕解析処理部５３によって検出されたDTVCC中の装飾情報（文字色、スクロールやブリンク）に基づく装飾をText Sample中の対応する文字に対して行うために、Text Style BoxやText Scroll Delay Box等を上記Text Sampleに対して適用して実現する。なお、DTVCCの色指定は、RGB各2bitの全64色であるが、Timed TextではRGB各8bitであるため、これを考慮して、2bitのRGB値を8bitのRGB値に変換する処理を行う。

そしてまた、各字幕グループの背景色については、データ変換処理部５５は、Text Hilight Box、Text Hilight Color Boxを用いたハイライト処理を上記Text Sampleに対して適用して実現する。またスクロール処理が指定されている場合は、Text Sample Entryにスクロールの開始・停止タイミングを設定するとともに、Text Scroll Delay Boxによりスクロールの遅延を設定する。フォント情報を生成している場合は、サンプル情報を記述するText Sample Entryを生成し、Font Table Boxで該当するフォントを指定する。

なお、上記Text Sampleの出力タイミングの情報については、データ変換処理部５５は、VideoのPTSを基準に生成する。また、初回のデータ変換処理の場合は、Text TrackのヘッダであるTrack Header Box、およびSampleのデフォルトパラメータを設定したText Sample Entryを、上記Text Sampleに合わせて生成する。

出力バッファ５６は、ステップ１５ｄにおいて、データ変換処理部５５のデータ変換処理によって生成されText Sampleと、その出力タイミング情報、さらに、初回のデータの場合は、Text Sample Entry、Track Header Boxを対応づけて、一時的に記憶し、後段の多重処理部６０の処理の進捗（あるいは、音声トランスコーダ３０および映像トランスコーダ４０の進捗）に合わせて出力する。

以上のように、上記構成の画像処理装置では、DTVCCをTimed Textに変換する際に、windowの文字列を１つの字幕グループとして検出するとともに、各グループの開始座標を検出し、Text Box内に空白文字や改行コードを設定することで位置調整して、複数の字幕グループを含む１つのText Sampleを生成するようにしている。

したがって、上記構成の画像処理装置によれば、DTVCCを相対的な表示位置をほとんど変えずにTimed Textに変換することができるので、Timed Text方式のデジタル放送を再生する受信機において、DTVCCと同様に動的に字幕の表示位置を変化させることができる。

なお、この発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。

その一例として例えば、上記第１および第２の実施の形態では、それぞれデータ変換処理部５５によって、図５に示すようなTimed Textに変換し、上記第３の実施の形態では、データ変換処理部５５によって、図１７に示すようなTimed Textに変換した。すなわち、元の字幕分データ（ISDB-T SUB、DVB SUBあるいはDTVCC）と同じ位置に同じ字幕を表示するようにした。

これに代わって例えば、図１７に例示するように、データ変換処理部５５は、元の字幕分データに対応する位置には、インデックス番号（図１７の例では「１」と「２」）だけを表示するようにText Sampleを生成するとともに、Text Boxの外周部（図１７に例では下部）に、インデックス番号と字幕文を対応づけて表示するようにText Sampleを生成するようにしてもよい。

また上記実施形態では、図１に示したように、デジタル放送をトランスコードしたのち、ハードディスクドライブ１２やメモリカード１３に記録するようにしたが、これに代わって例えば、図１８に示すように、トランスコードしたマルチメディアデータをデコードして、再生するようにしてもよい。その場合、入力部８０からの字幕の表示・非表示を指定するユーザ入力により字幕再生のオンオフを随時切り換えることも可能である。その場合、字幕トランスコーダ５０の処理を停止することやデコーダ９０による字幕のデコードの停止、再生処理部９１による字幕のオーバーレイの停止により実現する。

図１８に示す放送受信装置では、デコーダ９０が、音声トランスコーダ３０から出力される音声データ、映像トランスコーダ４０から出力される映像データおよび字幕トランスコーダ５０から出力される字幕データをそれぞれデコードして、音声信号、映像信号、字幕信号を得る。そして、再生処理部９１が、映像信号と字幕信号に基づいて、映像に字幕を載せた映像をディスプレイ９２に表示させる。このように、トランスコードしたマルチメディアデータを再記録しない放送受信装置に適用することも可能である。

また上記実施の形態では、Text Box上に空白文字と改行の組み合わせにより、字幕文の表示位置を調整するようにしたが、空白文字だけで上記表示位置を調整するようにしてもよい。
そしてまた、上記実施の形態では、各形式（ISDB-T SUB、DVB SUBあるいはDTVCC）の字幕データを包含する矩形領域に対応するText Boxを生成するようにしたが、表示領域全体を包含する領域に対応するText Boxを生成するようにしてもよい。

さらにまた各形式（ISDB-T SUB、DVB SUBあるいはDTVCC）の字幕データから字幕文を検出するようにしたが、字幕が重ねられた映像に対して文字認識処理を施して字幕文とその表示位置を検出し、この検出結果に基づいてTimed Text方式の字幕データを生成するようにしてもよい。なお、文字が存在しない位置については、無色の空白文字を設定する。
その他、この発明の要旨を逸脱しない範囲で種々の変形を施しても同様に実施可能であることはいうまでもない。

１１…チューナ、１２…ハードディスクドライブ（ＨＤＤ）、１３…メモリカード、１４…カードインタフェース（Ｉ／Ｆ）、１５…読出処理部、２０…分離処理部、３０…音声トランスコーダ、４０…映像トランスコーダ、５０…字幕トランスコーダ、５１…入力PESバッファ、５２…パラメータ設定部、５３…字幕解析処理部、５４…スケール処理部、５５…データ変換処理部、５６…出力バッファ、５７…字幕データ判定部、５８…文字認識処理部、６０…多重処理部、７０…記録処理部、８０…入力部、９０…デコーダ、９１…再生処理部、９２…ディスプレイ、１００…制御部。。

Claims

表示位置を指定し複数の字幕表示を行うことが可能な第１字幕形式を採用する放送信号を受信する受信手段と、
この受信手段が受信した放送信号に含まれる字幕情報に基づいて、字幕の表示位置を検出する表示位置検出手段と、
前記字幕情報に基づいて、字幕の文字列を検出する文字列検出手段と、
複数の字幕表示を行うことができない第２字幕形式の字幕情報を生成するものであって、前記表示位置検出手段が検出した前記表示位置と対応する位置に前記文字列検出手段が検出した文字列を表示するために、前記表示位置を含む領域に前記第２字幕形式の表示領域を設定し、前記表示領域の始点から字幕として空白文字を配置するとともに、これに続いて前記文字列検出手段が検出した文字列を前記対応する位置に配置して前記第２字幕形式の字幕情報を生成する字幕生成手段と、
を具備したことを特徴とする画像処理装置。
前記文字列検出手段は、前記字幕情報に含まれる画像データから文字を認識することで、字幕に文字列を検出することを特徴とする請求項１に記載の画像処理装置。
前記字幕生成手段は、前記表示位置検出手段が検出した前記表示位置をすべて包含する領域を検出して前記第２字幕形式の前記表示領域を設定することを特徴とする請求項１に記載の画像処理装置。
前記文字列検出手段は、縦方向もしくは横方向に連なる字幕の文字列を１つのグループとして検出し、
前記表示位置検出手段は、前記グループの表示位置を検出することを特徴とする請求項３に記載の画像処理装置。
表示位置を指定し複数の字幕表示を行うことが可能な第１字幕形式を採用する放送信号を受信する受信手段と、
この受信手段が受信した放送信号に含まれる字幕情報に基づいて、字幕の表示位置を検出する表示位置検出手段と、
前記字幕情報に基づいて、字幕の文字列を検出する文字列検出手段と、
複数の字幕表示を行うことができない第２字幕形式の字幕情報を生成するものであって、前記表示位置検出手段が検出した表示位置と対応する位置に前記文字列を示すインデックスを表示するために、前記表示位置を含む領域に前記第２字幕形式の表示領域を設定し、前記表示領域の始点から字幕として空白文字を配置し前記対応する位置に前記インデックスを配置するとともに、前記インデックスに対応する前記文字列を前記表示領域の端部に表示するために、さらに空白文字を配列して前記インデックスに対応する前記文字列を前記表示領域の前記端部に配置して前記第２字幕形式の字幕情報を生成する字幕生成手段と、
を具備したことを特徴とする画像処理装置。
前記文字列検出手段は、前記字幕情報に含まれる画像データから文字を認識することで、字幕に文字列を検出することを特徴とする請求項５に記載の画像処理装置。
前記字幕生成手段は、前記表示位置検出手段が検出した前記表示位置をすべて包含する領域を検出して前記第２字幕形式の前記表示領域を設定することを特徴とする請求項５に記載の画像処理装置。
前記文字列検出手段は、縦方向もしくは横方向に連なる字幕の文字列を１つのグループとして検出し、
前記表示位置検出手段は、前記グループの表示位置を検出することを特徴とする請求項７に記載の画像処理装置。