JP4734446B2

JP4734446B2 - テレビジョン受像装置及びテレビジョン受像方法

Info

Publication number: JP4734446B2
Application number: JP2009221981A
Authority: JP
Inventors: 拓弥紺谷
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-09-28
Filing date: 2009-09-28
Publication date: 2011-07-27
Anticipated expiration: 2029-09-28
Also published as: US8035744B2; US20110075030A1; JP2011071809A

Description

本発明は、テレビジョン受像装置及びテレビジョン受像方法に係わり、特に自動翻訳表示技術に関する。

テレビジョン受像装置では自動翻訳表示技術に関する技術が関心を持たれている。応用例としては、シーンボタンのいずれかを押すことにより各シーンのフレーズをディスプレイに表示し、日英変換ボタンを押すことにより日本語のフレーズを英語に変換し表示する。また音声出力ボタンを押すと、英語でそのフレーズを音声出力する。またキーワードボタンを押すと、フレーズに付加されたレベル情報を用い該当するフレーズを検索する。関連して特許文献１に記載されている内容は、音声のフレーズを翻訳して、動画シーン中に表示するというものである。

しかしながらこれは、翻訳に動画からの情報を活用しておらず、単に表示方法に掛かる方式である。したがって画像情報を利用して精度を向上させた翻訳に関る技術は開示されていなかった。

特開平０５−３２４７０２号公報

本発明は、画像情報を利用して精度を向上させた音声翻訳を行なうテレビジョン受像装置及びテレビジョン受像方法を提供することを目的とする。

上記課題を解決するために、本発明のテレビジョン受像装置は、入力音声から指示代名詞を抽出する音声データ処理装置と、入力画像よりオブジェクトを切り出す画像データ処理装置と、前記指示代名詞が示す位置関係によりこの指示代名詞と前記オブジェクトを対応付ける音声画像比較翻訳装置とを具備することを特徴とする。

本発明によれば、画像情報を利用して精度を向上させた音声翻訳を行なうテレビジョン受像装置及びテレビジョン受像方法が得られる。

この発明の一実施形態を示すシステム概念図。同実施形態の音声自動翻訳表示のフローチャート。同実施形態の音声データ処理装置概念図。同実施形態の画像データ処理装置概念図。同実施形態に用いられる音声画像比較翻訳装置概念図。同実施形態の基本となるデータ構造の説明図。同実施形態に用いられる実施例１（画像領域分割）。同実施形態に用いられる実施例２（オブジェクト種別判定）。同実施形態に用いられる実施例３（指示代名詞、移動の動詞抽出）。同実施形態に用いられる実施例４（代名詞出現時の位置関係からＯＢＪしぼり込み）。同実施形態に用いられる実施例５（指示代名詞の変化からＯＢＪをしぼり込み）。同実施形態に用いられる実施例６（移動の動詞からＯＢＪを決定）。同実施形態に用いられる実施例７（動き度／画像特性付加辞書から訳語を決定、表示）。同実施形態に用いられる確率的手法の適用の説明図。

以下、本発明の実施形態を説明する。
（実施形態１）
本発明による実施形態１を図１乃至図１４を参照して説明する。
図１は、この発明の一実施形態を示すシステム概念図であり、テレビジョン受像装置１のブロック構成図を含んでいる。テレビジョン受像装置１内の構成要素については以下に説明していく。

まず先に、図２の実施形態の音声自動翻訳表示のフローチャートを示す。図２は、テレビの表示画像におけるシーンの検出に関る処理である。
ステップＳ２１：音声から指示代名詞、移動の動詞を抽出する。構文解析し、指示代名詞が示す単語、移動動詞の主語、目的語を決定する。さらに、同じ被指示単語、目的語（以下、単語Ａ）を持つ構文をまとめる。

ステップＳ２２：他方で、遠景／近景分割、オブジェクト領域分割、オブジェクト近傍設定を行う。
ステップＳ２３：続いて、各オブジェクト（ＯＢＪ）の種別を判定する。
ステップＳ２４：ステップＳ２１とステップＳ２３の結果を用い、指示代名詞出現時のＯＢＪ位置関係から、各指示代名詞の対象をしぼり込む。
ステップＳ２５：各指示代名詞の変化、及び移動の動詞の方向性と、ＯＢＪの運動ベクトルを比較して、単語Ａに当たるＯＢＪを決定する。
ステップＳ２６：各指示対象ＯＢＪの画像特性を判定し、動き度／画像特性付加辞書から、指示対象ＯＢＪ、すなわち単語Ａの訳語を決定する。更に精度を上げる場合は、辞書リンクされているサーバー上の画像とＯＢＪの画像比較を行う。更には、Ｉｎｔｅｒｎｅｔ上で、ＯＢＪと特徴の一致する画像を検索する。

ステップＳ２７：画面中の各指示対象ＯＢＪ付近に、それぞれの訳語を表示する。音声と同期し訳文を音声合成して出力する。
図３は、実施形態の音声データ処理装置の概念図である。
まず入力である音声データは、音声認識手段１１によりテキストデータとして出力される。この例では、Ｉ‘ｌｌｐｉｃｋｉｔｕｐ．である。
次に形態素解析手段１２により、Ｉは名詞、‘ｌｌは助動詞、ｐｉｃｋは動詞、ｉｔは指示代名詞、ｕｐは副詞とそれぞれ判別される。続いて次の構文解析手段１３では図３にあるように、Ｉを主語として、‘ｌｌ＋ｐｉｃｋが述語、ｉｔが目的語といった解析がなされる。そしてこの解析結果に基づき最後の指示代名詞／移動動詞抽出手段１４では図３にあるように、ｐｉｃｋが移動動詞、ｉｔが指示代名詞といった抽出がなされる。

図４は、実施形態の画像データ処理装置の概念図である。
まず入力である画像データは、オブジェクト分離手段１６（エッジ検出）によりオブジェクト分離データとして出力される。
次にオブジェクト種別判定手段１７により、オブジェクト種別が判定される。続いて次の近傍付加手段１８（遠近法）では、近傍付加がなされる。そしてこの結果に基づき最後のオブジェクト動きベクトル測定／オブジェクト近傍重なり判定手段１９ではＯＢＪ位置／動きデータの出力がなされる。

図５は、実施形態に用いられる音声‐画像比較翻訳装置の概念図である。
まず入力である音声テキスト情報と画像情報から比較手段２１は、対象のしぼり込みを行う。図３のｉｔ（目的語）は曖昧語であるｐｒｅｓｅｎｔと対応付けられ、また画像情報の方はオブジェクト動きベクトルとオブジェクト近傍重なり状態とが考慮される。比較手段は、指示代名詞の特性とＯＢＪ近傍重なりとの位置関係と、指示代名詞の変化、移動動詞の特性とＯＢＪ動きベクトルとの動きから対象をしぼり込む。

つぎにＯＢＪ‐単語対応推定手段２２では後述する最尤推定などの方法を用いてＯＢＪ‐単語対応推定を行う。最後に辞書検索手段２３は、辞書付加画像特性データとＯＢＪ画像特性とを対応させて比較（画像特性、画像比較、ネット画像検索を用いて）、意味決定手段の出力として「贈り物」なる目的語を得る。

図６は、同実施形態の基本となるデータ構造の説明図である。内蔵辞書のデータ構造としては、諸元として単語（同音語単位）、訳語（品詞）、動き度（０〜１０）、画像特性、画像リンクが含まれる。

例として「キカイ」という単語は訳語としてmachine(n), chance(n), monstrosity(n)といった３つの名詞が挙げられ、各動き度として５，０，２の数値が割り当てられている。それぞれ画像特性としては金属光沢、抽象名詞、暗い色彩が相当し、２つには画像リンク(アドレス情報等)が張られている。リンク先は例えばＴＶメーカが提供する画像データサーバーである。

図７は、実施形態に用いられる画像領域分割の処理の実施例である。次の３段階を経る。
（１）遠景と近景の分離（高画質化用アルゴリズムなど）
（２）オブジェクト分離（エッジ検出アルゴリズムなど）
（３）オブジェクト近傍設定（エッジからｎピクセル、のような形式で、遠近も考慮する。ＯＢＪの動きに伴い、近傍も移動させる。）
図８は、実施形態に用いられるオブジェクト種別判定の処理の実施例である。次の５種類を想定している。
（１）私（話し手）：人、最初に口が動く、一人だけ写った時に声が流れるなど
（２）あなた（聞きて、答え手）：「私」ではない人、「私」の視線が向いている、「私」の動作などに反応するなど
（３）第三者（彼）：「私」でも「あなた」でもない人（物体と同じだが、その人、この人たちなど、特別な指示語で示される）
（４）ナレーター（無人称）：人が写っていないのに声が流れる時に設定する仮想ＯＢＪ（近傍は近景全て）
話者認識技術を用いて同一人か判定しても良い。ある時点で複数の写らない人が生じる場合などにも有効である。
（５）物体：人でないもの、物、動物
図９は、実施形態に用いられる指示代名詞、移動の動詞抽出の処理の実施例である。
まず代名詞に関しては、人称代名詞（わたし、あなた、彼、Ｉ、ｙｏｕ、ｈｅ）と物主代名詞（わたしの、あなたの、ｍｉｎｅ、ｙｏｕｒｓ）と指示代名詞（これ、それ、あれ、ｔｈｉｓ、ｔｈａｔ、ｉｔ）と疑問代名詞（どれ、なに、ｗｈａｔ、ｗｈｉｔｃｈ）と再帰代名詞（自分、ｍｙｓｅｌｆ）の区分がある。また移動を表す動詞には、行く、来る、寄る、投げる、引くなどがある（反例としては、いる、咲く、笑う、壊す、食べるなど）。

指示代名詞と移動の動詞に注目し、音声より抽出する（音声認識、形態素／構文解析の技術を用いる）。
図１０は、実施形態に用いられる代名詞出現時の位置関係からのＯＢＪしぼり込みの処理の実施例である。予め登録された、各言語の特有の位置関係から、指示代名詞に対応するＯＢＪをしぼり込む。

ここで登録データ形式（指示代名詞の位置特性）としては、例えば次の要素がある。
（代名詞：特性）
（これ：私∋指示対象，あなたＮＯＴ∋指示対象）＃私の近傍
（それ：あなた∋指示対象，私ＮＯＴ∋指示対象）＃あなたの近傍
（あれ：私∪あなたＮＯＴ∋指示対象）＃近傍にない
図１１は、実施形態に用いられる指示代名詞の変化からのＯＢＪしぼり込み処理の実施例である。
次のような対話があるとする。
わたし：「それよ」
あなた：「これですか？じゃ、これを拾います」
あなた：「――これですよね」
わたし：「そう。これは、ｐｒｅｓｅｎｔ」
このような対話を元に、テキスト翻訳と同じ構文解析により、「それ」即ち「これ」から「ｐｒｅｓｅｎｔ」を決定する。更に、（人‐指示代名詞）の変化を測定する（「わたし‐それ」から「わたし‐これ」へ、「あなた‐これ」から「あなた‐これ」へ）

先には（それ：私ＮＯＴ∋指示対象）だったのが、後には（これ：私∋指示対象）の状態となる。これにより、指示対象は私の近傍に入った、私に近接するＯＢＪを指示対象と推定する、というＯＢＪのしぼり込みを行う。

図１２は、実施形態に用いられる移動の動詞からのＯＢＪ決定処理の実施例である。
移動の動詞「拾う」の方向特性（主語から目的語へ）を用いる。
ここで登録データ形式（移動動詞の方向特性）としては、例えば次の要素がある。
（動詞，価数，特性）
（ｐｉｃｋ，２，Ｓ→Ｏ）＃主語が目的語に接近
（ｇｉｖｅ，３，Ｏｄ：Ｓ→，Ｏｄ→Ｏｉ）＃直接目的語は主語から離れ、間接目的語に接近
図１３は、実施形態に用いられる動き度／画像特性付加辞書からの訳語決定、表示の処理の実施例である。
内蔵辞書のデータ構造としては、すでに説明したように諸元として単語（同音語単位）、訳語（品詞）、動き度（０〜１０）、画像特性、画像リンクが含まれる。
例として上記の「ｐｒｅｓｅｎｔ」という単語は訳語として現在(n), 贈り物(n), 証書(n)といった３つの名詞が挙げられ、各動き度として０，１，１の数値が割り当てられている。それぞれ画像特性としては抽象名詞、派手な色彩で立体、地味な色彩で平たいが相当している。決定訳は贈り物である。

“Ｔｈｉｓｉｓａｐｒｅｓｅｎｔ．”と原語音声で発せられる場合、図１３中の矢印のように贈り物(ｐｒｅｓｅｎｔ)の対象物が同期として、対応する音声発音時に点滅するなどしてユーザに知らされる。

上記の実施形態の変形例としては以下に列挙するような方法を用いても良い。
・「あちら」、「こちら」、「そこ」、「ここ」など、指示代名詞の派生語に着目して位置関係を把握してもよい。
・Webと接続して、オブジェクトの訳語をクリックすると、その原語や訳語をWeb検索するようにしてもよい。
・翻訳結果を付けたまま録画する機能を待たせてもよい。
・元音声が何語か、自動判定する機能を持たせてもよい。
・全翻訳結果を字幕形式で表示してもよい。
・単語に対応するオブジェクトを、複数のオブジェクトから決定する際に、最尤度法など、確率推定的な手法を適用してもよい（図１４参照）。
図１４は、実施形態に用いられる確率的手法の適用の説明図である。
例として曖昧さを考慮した接近度の測定を行う。上記の「ｐｒｅｓｅｎｔ」であるＯＢＪ（Ａ）では最接近距離の逆数値が私からは３０であなたからは１９、他のオブジェクトであるＯＢＪ（Ｂ）では同値が各１５と４０である。

最尤度法は条件付確率に関するものであり、ここでは確率（０〜１）に正規化する前の値を例に説明すると図１４の計算のように、ＯＢＪ（Ａ）では５７０、ＯＢＪ（Ｂ）では６００となり、オブジェクト「それ」としてより数値の大きなＯＢＪ（Ｂ）が選ばれる。

（実施形態２）
本発明による実施形態２を図１乃至図１４を参照して説明する。実施形態１と共通する部分は説明を省略する。
図４に関してオブジェクト種別判定手段１７により、オブジェクト種別が判定される。ここで注目画像があるエリアとして人物等が存在しているエリアを検出する方法を説明する。

例えば人物の特徴としては顔の部分の肌色を抽出する。デジタルカメラで実用化されているように目や口等も捉えてもよい。付随して頭部や肢体を色、形、大きさ、相互配置、動き方といった特徴で捉える。

人物を捉えるための具体的なアルゴリズムとしてはＭＴ（Mahalanobis-Taguchi）システムを援用してもよい。画像等の認識手段を実装する枠組みとしてＭＴシステムがあるがＭＴシステムは、均一な例えば普通のベクトルデータ集団から基準空間を予め作成し、入力データがこの集団に属するか否かを判定する。

ここでは実装例として人物が含まれるとして選ばれたデータから基準空間を作成する。例えば、上記人物の特徴ｋ個の値から成る列ベクトルを数十サンプル以上用いる。なおｋ個の変量ごとに、それらの平均と標準偏差を用いてそれぞれのデータを正規化しておくことは言うまでも無い。

ＭＴシステムのうちで逆行列を利用するポピュラーな方法であるMT法は、Mahalanobis距離MD（二乗距離）を正規化された入力データである列ベクトルYに対し式１のように求める。即ち、基準空間である相関行列Rの逆行列R^−１とYを演算しベクトル項目数ｋで割ったスカラー値となる。

予め装置の製造時等に相関行列Rに対応する例えば数表等と上記演算のプログラムを実装しておけばよい。
ＭＴシステムに関連する技術のうち、MT法の他に余因子行列を利用するMTA法やシュミットの直交展開を利用するTS法等やこれらの多階法を用いてもよい。例えば、人物の特徴としては顔の部分の肌色が有力といったことが予め解っている場合には、TS法を用いるとｋ個のうち有力な項目を優先して演算するように構成しておけば演算精度を向上することができる。近年の手法であるＴ法をまず用いるのも好適である。

人物らしさの抽出後の判定は、例えばMDが１以下なら人物であると、５以上なら人物ではないと判定する。１と５の間の値の場合は人物らしさの程度に応じ信頼度のような数値を付与し後の処理に用いてもよい。

なお、基準空間の画素ブロックサイズも適宜変えてもよい。また注目位置内容、対象の種類毎に基準空間を分けるのも好適である。一入力に対する複数のMDの結果に対して例えば最も高い対象の値を以って判定を行なえばよい。例えばまず人物を対象とする場合でも層別がある。成人とは体形等が異なる子供を特に捉えたければ、子供の基準空間を作る。また人物以外の対象としては例えば、自動車もまた基準空間を作成しやすい対象である。このように精度の高い基準空間を作成できる対象があれば、それらを用いて人物の候補であるオブジェクトを予め削減しておいてもよい。

どの種類の基準空間を用いるかはユーザがリモコンを用いて表示画面のメニュー設定に対して対話的に行うといった形態をとってもよい。またやがてユーザの好みを反映してどの種類の基準空間を用いるか自動的に決定するような設定を行ってもよい。

本実施形態では、通常は正常状態の判定に利用されるＭＴシステムを用いることにより、アルゴリズムが確定し難い処理対象において相応の最適性を確保できる。
ＭＴシステムを援用することにより、図８の実施形態に用いられるオブジェクト種別判定の処理の精度を高める可能性が大きくなる。
以上の実施形態では、音声から抽出した指示代名詞や移動の動詞から推定した動きと、動画中のオブジェクトの動きを比較して、音声中の単語と動画中のオブジェクトを対応づけ、そのオブジェクトの画像特性と、翻訳辞書に付加された画像特性などのデータを比較して、対応する単語の訳語を決定することにより、従来の音声のみによる翻訳やテキスト翻訳より高い翻訳精度が得られる。

また、オブジェクトと訳語の対応関係が判り、オブジェクトの近くに表示する形で訳語を示し、音声と同期させて点滅させたりできるので、全訳を単調に出力するような、従来の自動翻訳に比べて、視聴者に情報内容を理解させる効果が高まる。

更に、訳語の表示を一定時間遅らせることで、視聴覚語学学習機器として活用することもできる点も、従来の自動翻装置にはなかった。
実施形態の効果として、音声から抽出した動き情報（指示代名詞、移動の動詞）と、動画の動きベクトルを対応させることにより、動画情報を翻訳に活用することで、曖昧語の意味決定などが容易になり、自動翻訳の精度を上げることができ、また情報利用率を向上させることができ、更にWeb上の文書データ翻訳に対して、テレビ翻訳を差異化できる。

訳語を対応する物体の付近に表示して、単語の発声と同期して点滅させたりすることにより、訳語−画像−音声を一体化させ、外国語情報の意味を把握しやすくできる。これは、インターネット動画配信などを通じて、外国語音声動画に直接アクセスする際に特に効果を発揮する。

全翻訳を合成音声出力したり、訳語の表示を一定時間遅くしたりすることで、語学学習効果を発揮する。
以下に、実施形態のポイントをまとめる。
１．音声から抽出した指示代名詞と、動画中より切り出したオブジェクトを、指示代名詞が示す位置関係により対応付ける。
２．指示代名詞の変化、および「移動の動詞」の方向性と、オブジェクトの動きベクトルを比較することにより、指示代名詞が示すオブジェクトを決定する。
３．単語の動き度、画像特性、画像リンクをデータとして付加した翻訳辞書を持ち、またインターネット画像検索手段、画像特徴比較手段を持ち、オブジェクトの動き度、および画像特性と比較して、オブジェクトに対応する単語の意味を決定することで翻訳精度を上げる。

４．訳語を画面中のオブジェクトの近くに表示し、対応する単語の発声と同期して点滅させるなどして、単語（原語）とオブジェクト（画像）と訳語を一体化して認識できるようにし、音声動画の情報認識度を上げる。

５．原音声と切り替えて、全翻訳を合成音声で出力できる機能を持つ。
６．訳語表示を単語の発声から一定時間遅らせる、語学学習機能を持つ。
なお、この発明は上記実施形態に限定されるものではなく、この外その要旨を逸脱しない範囲で種々変形して実施することができる。例えばアンテナとチューナーにより放送波を受信する替わりに、インターネット等を通して番組の配信サービスを受けてもよい。

また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係る構成要素を適宜組み合わせても良いものである。

１…テレビジョン受像装置、１１…音声認識手段、１２…形態素解析手段、１３…構文解析手段、１４…指示代名詞／移動動詞抽出手段、１６…オブジェクト分離手段、１７…オブジェクト種別判定手段、１８…近傍付加手段、１９…オブジェクト動きベクトル測定／オブジェクト近傍重なり判定手段、２１…比較手段、２２…ＯＢＪ‐単語対応推定手段、２３…辞書検索手段。

Claims

入力音声から第１，第２の話者が話す指示代名詞を抽出する音声データ処理手段と、
入力画像よりオブジェクトを切り出す画像データ処理手段と、
前記第１，第２の話者の対話の過程における前記第１の話者と当該第１の話者が話す指示代名詞との組み合わせの変化及び前記第２の話者と当該第２の話者が話す指示代名詞との組み合わせの変化と、前記入力画像上における前記第１の話者と前記オブジェクトの位置関係の変化又は前記第２の話者と前記オブジェクトの位置関係の変化に基づいて、前記切り出したオブジェクトから前記指示対象物を認識する認識手段と
を具備することを特徴とするテレビジョン受像装置。
前記認識手段は、
前記第１，第２の話者が話す、前記第１の話者、第２の話者又は指示対象物の少なくとも一つの移動を伴う動詞に基づいて、前記入力画像上における前記第１の話者が話す主語に対応するオブジェクトと目的語に対応するオブジェクトとの位置関係、又は前記第１の話者が話す目的語に対応するオブジェクトと間接目的語に対応するオブジェクトとの位置関係の変化から推測される前記入力画像上での前記オブジェクトの位置の変化に応じて、前記切り出したオブジェクトから前記指示対象物を認識することを特徴とする請求項１に記載のテレビジョン受像装置。
単語と、該単語を他の言語に訳した複数の訳語と、この訳語毎に付与された前記訳語の動きの激しさと見た目の特徴を表すパラメータとを対応付けて記憶した辞書データ記憶手段をさらに備え、
前記認識手段は、
前記指示対象物として認識されたオブジェクトの前記入力画像上での位置の変化と映像信号から該オブジェクトの動きの激しさと見た目の特徴を表すパラメータを抽出し、該抽出したパラメータを前記辞書データ記憶手段に記憶されているパラメータと比較して、前記指示対象物として認識したオブジェクトに対応する単語の訳語を決定することを特徴とする請求項１に記載のテレビジョン受像装置。
前記辞書データ記憶手段を参照して、前記入力音声に含まれる単語を他の言語に訳した訳語を抽出し、該抽出した訳語を、前記入力画像上において前記指示対象物として認識したオブジェクトの近くに、前記単語に対応する音声の出力と同期して表示する画像翻訳結果合成手段
をさらに備えたことを特徴とする請求項３に記載のテレビジョン受像装置。
前記画像データ処理手段は、
前記入力画像より前記オブジェクトを切り出すためにＭＴシステムを用いることを特徴とする請求項１に記載のテレビジョン受像装置。
放送波から前記入力画像および前記入力音声を得る為のチューナーをさらに備えたことを特徴とする請求項１乃至請求項５に記載のテレビジョン受像装置。
入力音声から指示代名詞を抽出し、
入力画像よりオブジェクトを切り出し、
前記第１，第２の話者の対話の過程における前記第１の話者と当該第１の話者が話す指示代名詞との組み合わせの変化及び前記第２の話者と当該第２の話者が話す指示代名詞との組み合わせの変化と、前記入力画像上における前記第１の話者と前記オブジェクトの位置関係の変化又は前記第２の話者と前記オブジェクトの位置関係の変化に基づいて、前記切り出したオブジェクトから前記指示対象物を認識する
ことを特徴とするテレビジョン受像方法。