JP4734446B2 - テレビジョン受像装置及びテレビジョン受像方法 - Google Patents

テレビジョン受像装置及びテレビジョン受像方法 Download PDF

Info

Publication number
JP4734446B2
JP4734446B2 JP2009221981A JP2009221981A JP4734446B2 JP 4734446 B2 JP4734446 B2 JP 4734446B2 JP 2009221981 A JP2009221981 A JP 2009221981A JP 2009221981 A JP2009221981 A JP 2009221981A JP 4734446 B2 JP4734446 B2 JP 4734446B2
Authority
JP
Japan
Prior art keywords
speaker
word
image
input image
spoken
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009221981A
Other languages
English (en)
Other versions
JP2011071809A (ja
Inventor
拓弥 紺谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2009221981A priority Critical patent/JP4734446B2/ja
Priority to US12/839,053 priority patent/US8035744B2/en
Publication of JP2011071809A publication Critical patent/JP2011071809A/ja
Application granted granted Critical
Publication of JP4734446B2 publication Critical patent/JP4734446B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43074Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of additional data with content streams on the same device, e.g. of EPG data or interactive icon with a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4856End-user interface for client configuration for language selection, e.g. for the menu or subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Description

本発明は、テレビジョン受像装置及びテレビジョン受像方法に係わり、特に自動翻訳表示技術に関する。
テレビジョン受像装置では自動翻訳表示技術に関する技術が関心を持たれている。応用例としては、シーンボタンのいずれかを押すことにより各シーンのフレーズをディスプレイに表示し、日英変換ボタンを押すことにより日本語のフレーズを英語に変換し表示する。また音声出力ボタンを押すと、英語でそのフレーズを音声出力する。またキーワードボタンを押すと、フレーズに付加されたレベル情報を用い該当するフレーズを検索する。関連して特許文献1に記載されている内容は、音声のフレーズを翻訳して、動画シーン中に表示するというものである。
しかしながらこれは、翻訳に動画からの情報を活用しておらず、単に表示方法に掛かる方式である。したがって画像情報を利用して精度を向上させた翻訳に関る技術は開示されていなかった。
特開平05−324702号公報
本発明は、画像情報を利用して精度を向上させた音声翻訳を行なうテレビジョン受像装置及びテレビジョン受像方法を提供することを目的とする。
上記課題を解決するために、本発明のテレビジョン受像装置は、入力音声から指示代名詞を抽出する音声データ処理装置と、入力画像よりオブジェクトを切り出す画像データ処理装置と、前記指示代名詞が示す位置関係によりこの指示代名詞と前記オブジェクトを対応付ける音声画像比較翻訳装置とを具備することを特徴とする。
本発明によれば、画像情報を利用して精度を向上させた音声翻訳を行なうテレビジョン受像装置及びテレビジョン受像方法が得られる。
この発明の一実施形態を示すシステム概念図。 同実施形態の音声自動翻訳表示のフローチャート。 同実施形態の音声データ処理装置概念図。 同実施形態の画像データ処理装置概念図。 同実施形態に用いられる音声画像比較翻訳装置概念図。 同実施形態の基本となるデータ構造の説明図。 同実施形態に用いられる実施例1(画像領域分割)。 同実施形態に用いられる実施例2(オブジェクト種別判定)。 同実施形態に用いられる実施例3(指示代名詞、移動の動詞抽出)。 同実施形態に用いられる実施例4(代名詞出現時の位置関係からOBJしぼり込み)。 同実施形態に用いられる実施例5(指示代名詞の変化からOBJをしぼり込み)。 同実施形態に用いられる実施例6(移動の動詞からOBJを決定)。 同実施形態に用いられる実施例7(動き度/画像特性付加辞書から訳語を決定、表示)。 同実施形態に用いられる確率的手法の適用の説明図。
以下、本発明の実施形態を説明する。
(実施形態1)
本発明による実施形態1を図1乃至図14を参照して説明する。
図1は、この発明の一実施形態を示すシステム概念図であり、テレビジョン受像装置1のブロック構成図を含んでいる。テレビジョン受像装置1内の構成要素については以下に説明していく。
まず先に、図2の実施形態の音声自動翻訳表示のフローチャートを示す。図2は、テレビの表示画像におけるシーンの検出に関る処理である。
ステップS21:音声から指示代名詞、移動の動詞を抽出する。構文解析し、指示代名詞が示す単語、移動動詞の主語、目的語を決定する。さらに、同じ被指示単語、目的語(以下、単語A)を持つ構文をまとめる。
ステップS22:他方で、遠景/近景分割、オブジェクト領域分割、オブジェクト近傍設定を行う。
ステップS23:続いて、各オブジェクト(OBJ)の種別を判定する。
ステップS24:ステップS21とステップS23の結果を用い、指示代名詞出現時のOBJ位置関係から、各指示代名詞の対象をしぼり込む。
ステップS25:各指示代名詞の変化、及び移動の動詞の方向性と、OBJの運動ベクトルを比較して、単語Aに当たるOBJを決定する。
ステップS26:各指示対象OBJの画像特性を判定し、動き度/画像特性付加辞書から、指示対象OBJ、すなわち単語Aの訳語を決定する。更に精度を上げる場合は、辞書リンクされているサーバー上の画像とOBJの画像比較を行う。更には、Internet上で、OBJと特徴の一致する画像を検索する。
ステップS27:画面中の各指示対象OBJ付近に、それぞれの訳語を表示する。音声と同期し訳文を音声合成して出力する。
図3は、実施形態の音声データ処理装置の概念図である。
まず入力である音声データは、音声認識手段11によりテキストデータとして出力される。この例では、I‘ll pick it up.である。
次に形態素解析手段12により、Iは名詞、‘llは助動詞、pickは動詞、itは指示代名詞、upは副詞とそれぞれ判別される。続いて次の構文解析手段13では図3にあるように、Iを主語として、‘ll+pickが述語、itが目的語といった解析がなされる。そしてこの解析結果に基づき最後の指示代名詞/移動動詞抽出手段14では図3にあるように、pickが移動動詞、itが指示代名詞といった抽出がなされる。
図4は、実施形態の画像データ処理装置の概念図である。
まず入力である画像データは、オブジェクト分離手段16(エッジ検出)によりオブジェクト分離データとして出力される。
次にオブジェクト種別判定手段17により、オブジェクト種別が判定される。続いて次の近傍付加手段18(遠近法)では、近傍付加がなされる。そしてこの結果に基づき最後のオブジェクト動きベクトル測定/オブジェクト近傍重なり判定手段19ではOBJ位置/動きデータの出力がなされる。
図5は、実施形態に用いられる音声‐画像比較翻訳装置の概念図である。
まず入力である音声テキスト情報と画像情報から比較手段21は、対象のしぼり込みを行う。図3のit(目的語)は曖昧語であるpresentと対応付けられ、また画像情報の方はオブジェクト動きベクトルとオブジェクト近傍重なり状態とが考慮される。比較手段は、指示代名詞の特性とOBJ近傍重なりとの位置関係と、指示代名詞の変化、移動動詞の特性とOBJ動きベクトルとの動きから対象をしぼり込む。
つぎにOBJ‐単語対応推定手段22では後述する最尤推定などの方法を用いてOBJ‐単語対応推定を行う。最後に辞書検索手段23は、辞書付加画像特性データとOBJ画像特性とを対応させて比較(画像特性、画像比較、ネット画像検索を用いて)、意味決定手段の出力として「贈り物」なる目的語を得る。
図6は、同実施形態の基本となるデータ構造の説明図である。内蔵辞書のデータ構造としては、諸元として単語(同音語単位)、訳語(品詞)、動き度(0〜10)、画像特性、画像リンクが含まれる。
例として「キカイ」という単語は訳語としてmachine(n), chance(n), monstrosity(n)といった3つの名詞が挙げられ、各動き度として5,0,2の数値が割り当てられている。それぞれ画像特性としては金属光沢、抽象名詞、暗い色彩が相当し、2つには画像リンク(アドレス情報等)が張られている。リンク先は例えばTVメーカが提供する画像データサーバーである。
図7は、実施形態に用いられる画像領域分割の処理の実施例である。次の3段階を経る。
(1)遠景と近景の分離(高画質化用アルゴリズムなど)
(2)オブジェクト分離(エッジ検出アルゴリズムなど)
(3)オブジェクト近傍設定(エッジからnピクセル、のような形式で、遠近も考慮する。OBJの動きに伴い、近傍も移動させる。)
図8は、実施形態に用いられるオブジェクト種別判定の処理の実施例である。次の5種類を想定している。
(1)私(話し手):人、最初に口が動く、一人だけ写った時に声が流れるなど
(2)あなた(聞きて、答え手):「私」ではない人、「私」の視線が向いている、「私」の動作などに反応するなど
(3)第三者(彼):「私」でも「あなた」でもない人(物体と同じだが、その人、この人たちなど、特別な指示語で示される)
(4)ナレーター(無人称):人が写っていないのに声が流れる時に設定する仮想OBJ(近傍は近景全て)
話者認識技術を用いて同一人か判定しても良い。ある時点で複数の写らない人が生じる場合などにも有効である。
(5)物体:人でないもの、物、動物
図9は、実施形態に用いられる指示代名詞、移動の動詞抽出の処理の実施例である。
まず代名詞に関しては、人称代名詞(わたし、あなた、彼、I、you、he)と物主代名詞(わたしの、あなたの、mine、yours)と指示代名詞(これ、それ、あれ、this、that、it)と疑問代名詞(どれ、なに、what、whitch)と再帰代名詞(自分、myself)の区分がある。また移動を表す動詞には、行く、来る、寄る、投げる、引くなどがある(反例としては、いる、咲く、笑う、壊す、食べるなど)。
指示代名詞と移動の動詞に注目し、音声より抽出する(音声認識、形態素/構文解析の技術を用いる)。
図10は、実施形態に用いられる代名詞出現時の位置関係からのOBJしぼり込みの処理の実施例である。予め登録された、各言語の特有の位置関係から、指示代名詞に対応するOBJをしぼり込む。
ここで登録データ形式(指示代名詞の位置特性)としては、例えば次の要素がある。
(代名詞:特性)
(これ:私∋指示対象,あなたNOT∋指示対象) #私の近傍
(それ:あなた∋指示対象,私NOT∋指示対象) #あなたの近傍
(あれ:私∪あなたNOT∋指示対象) #近傍にない
図11は、実施形態に用いられる指示代名詞の変化からのOBJしぼり込み処理の実施例である。
次のような対話があるとする。
わたし:「それよ」
あなた:「これですか? じゃ、これを拾います」
あなた:「――これですよね」
わたし:「そう。これは、present」
このような対話を元に、テキスト翻訳と同じ構文解析により、「それ」即ち「これ」から「present」を決定する。更に、(人‐指示代名詞)の変化を測定する(「わたし‐それ」から「わたし‐これ」へ、「あなた‐これ」から「あなた‐これ」へ)
先には(それ:私NOT∋指示対象)だったのが、後には(これ:私∋指示対象)の状態となる。これにより、指示対象は私の近傍に入った、私に近接するOBJを指示対象と推定する、というOBJのしぼり込みを行う。
図12は、実施形態に用いられる移動の動詞からのOBJ決定処理の実施例である。
移動の動詞「拾う」の方向特性(主語から目的語へ)を用いる。
ここで登録データ形式(移動動詞の方向特性)としては、例えば次の要素がある。
(動詞,価数,特性)
(pick,2,S→O) #主語が目的語に接近
(give,3,Od:S→,Od→Oi) #直接目的語は主語から離れ、間接目的語に接近
図13は、実施形態に用いられる動き度/画像特性付加辞書からの訳語決定、表示の処理の実施例である。
内蔵辞書のデータ構造としては、すでに説明したように諸元として単語(同音語単位)、訳語(品詞)、動き度(0〜10)、画像特性、画像リンクが含まれる。
例として上記の「present」という単語は訳語として現在(n), 贈り物(n), 証書(n)といった3つの名詞が挙げられ、各動き度として0,1,1の数値が割り当てられている。それぞれ画像特性としては抽象名詞、派手な色彩で立体、地味な色彩で平たいが相当している。決定訳は贈り物である。
“This is a present.”と原語音声で発せられる場合、図13中の矢印のように贈り物(present)の対象物が同期として、対応する音声発音時に点滅するなどしてユーザに知らされる。
上記の実施形態の変形例としては以下に列挙するような方法を用いても良い。
・「あちら」、「こちら」、「そこ」、「ここ」など、指示代名詞の派生語に着目して位置関係を把握してもよい。
・Webと接続して、オブジェクトの訳語をクリックすると、その原語や訳語をWeb検索するようにしてもよい。
・翻訳結果を付けたまま録画する機能を待たせてもよい。
・元音声が何語か、自動判定する機能を持たせてもよい。
・全翻訳結果を字幕形式で表示してもよい。
・単語に対応するオブジェクトを、複数のオブジェクトから決定する際に、最尤度法など、確率推定的な手法を適用してもよい(図14参照)。
図14は、実施形態に用いられる確率的手法の適用の説明図である。
例として曖昧さを考慮した接近度の測定を行う。上記の「present」であるOBJ(A)では最接近距離の逆数値が私からは30であなたからは19、他のオブジェクトであるOBJ(B)では同値が各15と40である。
最尤度法は条件付確率に関するものであり、ここでは確率(0〜1)に正規化する前の値を例に説明すると図14の計算のように、OBJ(A)では570、OBJ(B)では600となり、オブジェクト「それ」としてより数値の大きなOBJ(B)が選ばれる。
(実施形態2)
本発明による実施形態2を図1乃至図14を参照して説明する。実施形態1と共通する部分は説明を省略する。
図4に関してオブジェクト種別判定手段17により、オブジェクト種別が判定される。ここで注目画像があるエリアとして人物等が存在しているエリアを検出する方法を説明する。
例えば人物の特徴としては顔の部分の肌色を抽出する。デジタルカメラで実用化されているように目や口等も捉えてもよい。付随して頭部や肢体を色、形、大きさ、相互配置、動き方といった特徴で捉える。
人物を捉えるための具体的なアルゴリズムとしてはMT(Mahalanobis-Taguchi)システムを援用してもよい。画像等の認識手段を実装する枠組みとしてMTシステムがあるがMTシステムは、均一な例えば普通のベクトルデータ集団から基準空間を予め作成し、入力データがこの集団に属するか否かを判定する。
ここでは実装例として人物が含まれるとして選ばれたデータから基準空間を作成する。例えば、上記人物の特徴k個の値から成る列ベクトルを数十サンプル以上用いる。なおk個の変量ごとに、それらの平均と標準偏差を用いてそれぞれのデータを正規化しておくことは言うまでも無い。
MTシステムのうちで逆行列を利用するポピュラーな方法であるMT法は、Mahalanobis距離MD(二乗距離)を正規化された入力データである列ベクトルYに対し式1のように求める。即ち、基準空間である相関行列Rの逆行列R−1とYを演算しベクトル項目数kで割ったスカラー値となる。
Figure 0004734446

予め装置の製造時等に相関行列Rに対応する例えば数表等と上記演算のプログラムを実装しておけばよい。
MTシステムに関連する技術のうち、MT法の他に余因子行列を利用するMTA法やシュミットの直交展開を利用するTS法等やこれらの多階法を用いてもよい。例えば、人物の特徴としては顔の部分の肌色が有力といったことが予め解っている場合には、TS法を用いるとk個のうち有力な項目を優先して演算するように構成しておけば演算精度を向上することができる。近年の手法であるT法をまず用いるのも好適である。
人物らしさの抽出後の判定は、例えばMDが1以下なら人物であると、5以上なら人物ではないと判定する。1と5の間の値の場合は人物らしさの程度に応じ信頼度のような数値を付与し後の処理に用いてもよい。
なお、基準空間の画素ブロックサイズも適宜変えてもよい。また注目位置内容、対象の種類毎に基準空間を分けるのも好適である。一入力に対する複数のMDの結果に対して例えば最も高い対象の値を以って判定を行なえばよい。例えばまず人物を対象とする場合でも層別がある。成人とは体形等が異なる子供を特に捉えたければ、子供の基準空間を作る。また人物以外の対象としては例えば、自動車もまた基準空間を作成しやすい対象である。このように精度の高い基準空間を作成できる対象があれば、それらを用いて人物の候補であるオブジェクトを予め削減しておいてもよい。
どの種類の基準空間を用いるかはユーザがリモコンを用いて表示画面のメニュー設定に対して対話的に行うといった形態をとってもよい。またやがてユーザの好みを反映してどの種類の基準空間を用いるか自動的に決定するような設定を行ってもよい。
本実施形態では、通常は正常状態の判定に利用されるMTシステムを用いることにより、アルゴリズムが確定し難い処理対象において相応の最適性を確保できる。
MTシステムを援用することにより、図8の実施形態に用いられるオブジェクト種別判定の処理の精度を高める可能性が大きくなる。
以上の実施形態では、音声から抽出した指示代名詞や移動の動詞から推定した動きと、動画中のオブジェクトの動きを比較して、音声中の単語と動画中のオブジェクトを対応づけ、そのオブジェクトの画像特性と、翻訳辞書に付加された画像特性などのデータを比較して、対応する単語の訳語を決定することにより、従来の音声のみによる翻訳やテキスト翻訳より高い翻訳精度が得られる。
また、オブジェクトと訳語の対応関係が判り、オブジェクトの近くに表示する形で訳語を示し、音声と同期させて点滅させたりできるので、全訳を単調に出力するような、従来の自動翻訳に比べて、視聴者に情報内容を理解させる効果が高まる。
更に、訳語の表示を一定時間遅らせることで、視聴覚語学学習機器として活用することもできる点も、従来の自動翻装置にはなかった。
実施形態の効果として、音声から抽出した動き情報(指示代名詞、移動の動詞)と、動画の動きベクトルを対応させることにより、動画情報を翻訳に活用することで、曖昧語の意味決定などが容易になり、自動翻訳の精度を上げることができ、また情報利用率を向上させることができ、更にWeb上の文書データ翻訳に対して、テレビ翻訳を差異化できる。
訳語を対応する物体の付近に表示して、単語の発声と同期して点滅させたりすることにより、訳語−画像−音声を一体化させ、外国語情報の意味を把握しやすくできる。これは、インターネット動画配信などを通じて、外国語音声動画に直接アクセスする際に特に効果を発揮する。
全翻訳を合成音声出力したり、訳語の表示を一定時間遅くしたりすることで、語学学習効果を発揮する。
以下に、実施形態のポイントをまとめる。
1.音声から抽出した指示代名詞と、動画中より切り出したオブジェクトを、指示代名詞が示す位置関係により対応付ける。
2.指示代名詞の変化、および「移動の動詞」の方向性と、オブジェクトの動きベクトルを比較することにより、指示代名詞が示すオブジェクトを決定する。
3.単語の動き度、画像特性、画像リンクをデータとして付加した翻訳辞書を持ち、またインターネット画像検索手段、画像特徴比較手段を持ち、オブジェクトの動き度、および画像特性と比較して、オブジェクトに対応する単語の意味を決定することで翻訳精度を上げる。
4.訳語を画面中のオブジェクトの近くに表示し、対応する単語の発声と同期して点滅させるなどして、単語(原語)とオブジェクト(画像)と訳語を一体化して認識できるようにし、音声動画の情報認識度を上げる。
5.原音声と切り替えて、全翻訳を合成音声で出力できる機能を持つ。
6.訳語表示を単語の発声から一定時間遅らせる、語学学習機能を持つ。
なお、この発明は上記実施形態に限定されるものではなく、この外その要旨を逸脱しない範囲で種々変形して実施することができる。例えばアンテナとチューナーにより放送波を受信する替わりに、インターネット等を通して番組の配信サービスを受けてもよい。
また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係る構成要素を適宜組み合わせても良いものである。
1…テレビジョン受像装置、11…音声認識手段、12…形態素解析手段、13…構文解析手段、14…指示代名詞/移動動詞抽出手段、16…オブジェクト分離手段、17…オブジェクト種別判定手段、18…近傍付加手段、19…オブジェクト動きベクトル測定/オブジェクト近傍重なり判定手段、21…比較手段、22…OBJ‐単語対応推定手段、23…辞書検索手段。

Claims (7)

  1. 入力音声から第1,第2の話者が話す指示代名詞を抽出する音声データ処理手段と、
    入力画像よりオブジェクトを切り出画像データ処理手段と、
    前記第1,第2の話者の対話の過程における前記第1の話者と当該第1の話者が話す指示代名詞との組み合わせの変化及び前記第2の話者と当該第2の話者が話す指示代名詞との組み合わせの変化と、前記入力画像上における前記第1の話者と前記オブジェクトの位置関係の変化又は前記第2の話者と前記オブジェクトの位置関係の変化に基づいて、前記切り出したオブジェクトから前記指示対象物を認識する認識手段と
    を具備することを特徴とするテレビジョン受像装置。
  2. 前記認識手段は、
    前記第1,第2の話者が話す、前記第1の話者、第2の話者又は指示対象物の少なくとも一つの移動を伴う動詞に基づいて、前記入力画像上における前記第1の話者が話す主語に対応するオブジェクトと目的語に対応するオブジェクトとの位置関係、又は前記第1の話者が話す目的語に対応するオブジェクトと間接目的語に対応するオブジェクトとの位置関係の変化から推測される前記入力画像上での前記オブジェクトの位置の変化に応じて、前記切り出したオブジェクトから前記指示対象物を認識することを特徴とする請求項1記載のテレビジョン受像装置。
  3. 単語と、該単語を他の言語に訳した複数の訳語と、この訳語毎に付与された前記訳語の動きの激しさと見た目の特徴を表すパラメータとを対応付けて記憶した辞書データ記憶手段をさらに備え、
    前記認識手段は、
    前記指示対象物として認識されたオブジェクトの前記入力画像上での位置の変化と映像信号から該オブジェクトの動きの激しさと見た目の特徴を表すパラメータを抽出し、該抽出したパラメータを前記辞書データ記憶手段に記憶されているパラメータと比較して、前記指示対象物として認識したオブジェクトに対応する単語の訳語を決定することを特徴とする請求項1に記載のテレビジョン受像装置。
  4. 前記辞書データ記憶手段を参照して、前記入力音声に含まれる単語を他の言語に訳した訳語を抽出し、該抽出した訳語を、前記入力画像上において前記指示対象物として認識したオブジェクトの近くに、前記単語に対応する音声の出力と同期して表示する画像翻訳結果合成手段
    をさらに備えたことを特徴とする請求項に記載のテレビジョン受像装置。
  5. 前記画像データ処理手段は、
    前記入力画像より前記オブジェクトを切り出すためにMTシステムを用いることを特徴とする請求項1に記載のテレビジョン受像装置。
  6. 放送波から前記入力画像および前記入力音声を得る為のチューナーをさらに備えたことを特徴とする請求項1乃至請求項に記載のテレビジョン受像装置。
  7. 入力音声から指示代名詞を抽出し、
    入力画像よりオブジェクトを切り出し
    前記第1,第2の話者の対話の過程における前記第1の話者と当該第1の話者が話す指示代名詞との組み合わせの変化及び前記第2の話者と当該第2の話者が話す指示代名詞との組み合わせの変化と、前記入力画像上における前記第1の話者と前記オブジェクトの位置関係の変化又は前記第2の話者と前記オブジェクトの位置関係の変化に基づいて、前記切り出したオブジェクトから前記指示対象物を認識する
    ことを特徴とするテレビジョン受像方法。
JP2009221981A 2009-09-28 2009-09-28 テレビジョン受像装置及びテレビジョン受像方法 Expired - Fee Related JP4734446B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009221981A JP4734446B2 (ja) 2009-09-28 2009-09-28 テレビジョン受像装置及びテレビジョン受像方法
US12/839,053 US8035744B2 (en) 2009-09-28 2010-07-19 Television receiver and method of receiving television broadcasting

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009221981A JP4734446B2 (ja) 2009-09-28 2009-09-28 テレビジョン受像装置及びテレビジョン受像方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2011089756A Division JP2011193483A (ja) 2011-04-14 2011-04-14 テレビジョン受像装置及びテレビジョン受像方法

Publications (2)

Publication Number Publication Date
JP2011071809A JP2011071809A (ja) 2011-04-07
JP4734446B2 true JP4734446B2 (ja) 2011-07-27

Family

ID=43779960

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009221981A Expired - Fee Related JP4734446B2 (ja) 2009-09-28 2009-09-28 テレビジョン受像装置及びテレビジョン受像方法

Country Status (2)

Country Link
US (1) US8035744B2 (ja)
JP (1) JP4734446B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106375804A (zh) * 2016-05-30 2017-02-01 深圳市美贝壳科技有限公司 移动端同步模拟智能设备界面的改良方法
US10091545B1 (en) * 2016-06-27 2018-10-02 Amazon Technologies, Inc. Methods and systems for detecting audio output of associated device
KR102025391B1 (ko) * 2017-05-15 2019-09-25 네이버 주식회사 사용자의 발화 위치에 따른 디바이스 제어
US10528623B2 (en) * 2017-06-09 2020-01-07 Fuji Xerox Co., Ltd. Systems and methods for content curation in video based communications
US20210392193A1 (en) * 2018-12-04 2021-12-16 Sony Group Corporation Information processing device and information processing method

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2717035B2 (ja) 1991-07-15 1998-02-18 大日本スクリーン製造株式会社 マルチビーム走査記録装置
JPH05324702A (ja) 1992-05-20 1993-12-07 Fuji Xerox Co Ltd 情報処理装置
US5938447A (en) * 1993-09-24 1999-08-17 Readspeak, Inc. Method and system for making an audio-visual work with a series of visual word symbols coordinated with oral word utterances and such audio-visual work
JP2000322077A (ja) 1999-05-12 2000-11-24 Sony Corp テレビジョン装置
JP2005341072A (ja) 2004-05-26 2005-12-08 Sharp Corp 翻訳テレビジョン装置
JP2009175803A (ja) * 2008-01-21 2009-08-06 Nippon Telegr & Teleph Corp <Ntt> 障がい者向けパーソナルコンピュータ要約者支援方法及び装置及びプログラム

Also Published As

Publication number Publication date
US8035744B2 (en) 2011-10-11
US20110075030A1 (en) 2011-03-31
JP2011071809A (ja) 2011-04-07

Similar Documents

Publication Publication Date Title
US11580983B2 (en) Sign language information processing method and apparatus, electronic device and readable storage medium
US10621991B2 (en) Joint neural network for speaker recognition
JP5323770B2 (ja) ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
CN109637518A (zh) 虚拟主播实现方法及装置
JP4980018B2 (ja) 字幕生成装置
EP3413303A1 (en) Information processing device, information processing method, and program
KR101749100B1 (ko) 디바이스 제어를 위한 제스처/음향 융합 인식 시스템 및 방법
US20150331490A1 (en) Voice recognition device, voice recognition method, and program
JP4734446B2 (ja) テレビジョン受像装置及びテレビジョン受像方法
US20130300934A1 (en) Display apparatus, server, and controlling method thereof
Ivanko et al. Multimodal speech recognition: increasing accuracy using high speed video data
CN116129931B (zh) 一种视听结合的语音分离模型搭建方法及语音分离方法
CN114779922A (zh) 教学设备的控制方法、控制设备、教学***和存储介质
CN114157920A (zh) 一种展示手语的播放方法、装置、智能电视及存储介质
JP2003037826A (ja) 代理画像表示装置およびテレビ電話装置
JP6678315B2 (ja) 音声再生方法、音声対話装置及び音声対話プログラム
CN113822187A (zh) 手语翻译、客服、通信方法、设备和可读介质
KR20130054131A (ko) 디스플레이장치 및 그 제어방법
KR20140093459A (ko) 자동 통역 방법
CN112764549B (zh) 翻译方法、装置、介质和近眼显示设备
JP2011193483A (ja) テレビジョン受像装置及びテレビジョン受像方法
US20190035420A1 (en) Information processing device, information processing method, and program
CN113780013A (zh) 一种翻译方法、设备和可读介质
JP2005141328A (ja) 予知ロボット装置、予知ロボットの制御方法、及び予知ロボットシステム
CN112088402B (zh) 用于说话者识别的联合神经网络

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110310

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110425

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees