JP2016091057A - 電子機器 - Google Patents

電子機器 Download PDF

Info

Publication number
JP2016091057A
JP2016091057A JP2014220685A JP2014220685A JP2016091057A JP 2016091057 A JP2016091057 A JP 2016091057A JP 2014220685 A JP2014220685 A JP 2014220685A JP 2014220685 A JP2014220685 A JP 2014220685A JP 2016091057 A JP2016091057 A JP 2016091057A
Authority
JP
Japan
Prior art keywords
language
audio
subtitles
subtitle
setting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014220685A
Other languages
English (en)
Inventor
朋樹 岩泉
Tomoki Iwaizumi
朋樹 岩泉
誠治 山田
Seiji Yamada
誠治 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Corp
Original Assignee
Kyocera Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Corp filed Critical Kyocera Corp
Priority to JP2014220685A priority Critical patent/JP2016091057A/ja
Publication of JP2016091057A publication Critical patent/JP2016091057A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】ユーザがコンテンツの内容を理解することを可能にする電子機器を提供する。
【解決手段】字幕設定部10は、表示する字幕の言語を設定する。字幕生成部7は、コンテンツに含まれる字幕の言語が設定した言語と相違する場合には、コンテンツに含まれる字幕を設定した言語の字幕に翻訳する。再生処理部4は、コンテンツに含まれる映像を再生するとともに、翻訳された字幕を表示させる。
【選択図】図1

Description

本発明は、電子機器に関する。
従来から、映像とともに字幕を表示する技術が知られている。たとえば、特許文献1(特開2009−302702号公報)には、映像データとその映像データに関連する字幕データを含むコンテンツを記録媒体から再生するコンテンツ再生装置が開示されている。
特開2009−302702号公報
しかしながら、映像とともに提供される字幕の言語が理解できないユーザは、字幕を見てもコンテンツの内容を理解することができない。また、映像とともに提供される音声の言語が理解できないユーザは、音声を聞いてもコンテンツの内容を理解することができない。
また、映像とともに字幕が提供されない場合もある。そのような場合、たとえ映像とともに再生される音声の言語が母国語であっても、聴覚障がい者は、コンテンツの内容を理解することができない。
また、映像とともに音声が提供されない場合もある。そのような場合、たとえ、映像とともに表示する字幕の言語が母国語であっても、視覚障がい者は、コンテンツの内容を理解することができない。
それゆえに、本発明の目的は、ユーザがコンテンツの内容を理解することを可能にする電子機器を提供することである。
本発明の一態様の電子機器は、表示する字幕の言語を設定する設定部と、コンテンツに含まれる字幕の言語が設定した言語と相違する場合には、コンテンツに含まれる字幕を設定した言語の字幕に翻訳する字幕生成部と、コンテンツに含まれる映像を再生するとともに、翻訳された字幕を表示させる再生処理部とを備える。
本発明の一態様によれば、ユーザがコンテンツの内容を理解することができる。
第1の実施形態のスマートフォンの構成を表わす図である。 (a)〜(d)は、第1の実施形態のマルチメディアコンテンツデータに含まれるヘッダの例を表わす図である。 第1の実施形態のマルチディアコンテンツデータに含まれるタイミング情報の例を表わす図である。 第1の実施形態における字幕の設定手順を表わすフローチャートである。 第1の実施形態における字幕の表示手順を表わすフローチャートである。 第1の実施形態の字幕の表示例を表わす図である。 第1の実施形態の字幕の表示例を表わす図である。 第2の実施形態における字幕の設定手順を表わすフローチャートである。 第2の実施形態における字幕の表示手順を表わすフローチャートである。 第2の実施形態の字幕を構成するテキストの例である。 第2の実施形態の字幕の表示例を表わす図である。 第3の実施形態のスマートフォンの構成を表わす図である。 (a)〜(d)は、第3の実施形態のヘッダの例を表わす図である。 第3の実施形態のマルチディアコンテンツデータに含まれるタイミング情報の例を表わす図である。 第3の実施形態における音声の設定手順を表わすフローチャートである。 第3の実施形態における字幕の表示手順を表わすフローチャートである。
以下、本発明の実施の形態について図面を用いて説明する。
[第1の実施形態]
従来では、映像とともに提供される字幕の言語が理解できないユーザは、字幕を見てもコンテンツの内容を理解することができないという問題がある。それゆえ、本実施形態の第1の目的は、取得したコンテンツに含まれる字幕の言語が理解できないユーザがコンテンツの内容を理解することを可能にする電子機器を提供することである。
また、従来では、映像とともに字幕が提供されない場合、たとえ映像とともに再生される音声の言語が母国語であっても、聴覚障がい者は、コンテンツの内容を理解することができないという問題がある。それゆえ、本実施の形態の第2の目的は、聴覚に障害のあるユーザが取得したコンテンツが字幕を含まない場合にでもコンテンツの内容を理解することを可能にする電子機器を提供することである。
第1の実施形態では、シフトタイム再生するときに、上記の目的を達成する技術に関する。ここで、シフトタイム再生とは、マルチメディアコンテンツデータを受信して一旦蓄積しておき、受信終了後に再生することをいう。
図1は、第1の実施形態のスマートフォンの構成を表わす図である。
図1を参照して、このスマートフォン1は、無線通信部2と、データ記憶部3と、再生処理部4と、表示部5と、ユーザ入力部6と、字幕生成部7とを備える。
無線通信部2は、無線基地局を通じて送信されるマルチメディアコンテンツデータを受信する。マルチメディアコンテンツデータは、映像、音声、ヘッダを含む。マルチメディアコンテンツデータは、字幕および字幕の表示タイミングを定めたタイミング情報も含む場合がある。
データ記憶部3は、無線通信部2で受信したマルチメディアコンテンツデータを記憶する。
再生処理部4は、データ記憶部3に記憶されているマルチメディアコンテンツデータに含まれる映像を再生する。再生処理部4は、マルチメディアコンテンツデータに含まれる字幕、または字幕生成部7で生成された字幕を表わす画像を再生された映像に重畳して、表示部5に出力する。
表示部5は、再生処理部4から送られる映像および字幕を表示する。
ユーザ入力部6は、ユーザからの入力を受け付ける。
字幕生成部7は、マルチメディアコンテンツデータに含まれる字幕の言語が、表示する字幕の言語(A)と相違する場合には、マルチメディアコンテンツに含まれる字幕を言語(A)の字幕に翻訳する。字幕生成部7は、マルチメディアコンテンツデータに字幕が含まれていない場合に、マルチメディアコンテンツに含まれる音声から言語(A)の字幕を生成する。
字幕生成部7は、音声認識部8と、翻訳部9と、字幕設定部10と、字幕タイミング設定部11とを備える。
音声認識部8は、マルチメディアコンテンツデータに含まれる音声を音声認識することによって字幕を生成する。
翻訳部9は、マルチメディアコンテンツデータに含まれる字幕、音声認識によって得られた字幕を言語(A)の字幕に翻訳する。
字幕設定部10は、マルチメディアコンテンツデータに含まれるヘッダを参照して、表示する字幕の言語、表示する字幕の生成方法を設定する。
字幕タイミング設定部11は、マルチメディアコンテンツデータに含まれる音声から字幕を生成する場合に、音声の再生タイミングを定めたタイミング情報に基づいて、字幕を表示するタイミングを設定する。
図2(a)〜(d)は、第1の実施形態のマルチメディアコンテンツデータに含まれるヘッダの例を表わす図である。
図2(a)のヘッダには、音声の言語が日本語であること、マルチメディアコンテンツデータが字幕を含むこと、および字幕の言語が日本語であることを表わす情報が含まれる。
図2(b)のヘッダには、音声の言語が日本語であること、マルチメディアコンテンツデータが字幕を含むこと、および字幕の言語が英語であることを表わす情報が含まれる。
図2(c)のヘッダには、音声の言語が日本語であること、およびマルチメディアコンテンツデータが字幕を含まないことを表わす情報が含まれる。
図2(d)のヘッダには、音声の言語が英語であること、およびマルチメディアコンテンツデータが字幕を含まないことを表わす情報が含まれる。
図3は、第1の実施形態のマルチディアコンテンツデータに含まれるタイミング情報の例を表わす図である。図3に示すように、タイミング情報は、字幕と字幕を表示するときの映像のフレーム番号との関係を定める。
図3のタイミング情報には、字幕#1、字幕#2、字幕#3・・・が、それぞれ、フレーム番号1〜56の映像、フレーム番号57〜86の映像、フレーム番号87〜94の映像が表示されているときに表示するように定められている。
図4は、第1の実施形態における字幕の設定手順を表わすフローチャートである。
ステップS101において、字幕設定部10は、スマートフォン1の言語設定を参照することによって、表示する字幕の言語(α)を設定する。
ステップS102において、字幕設定部10は、データ記憶部3に記憶されているマルチメディアコンテンツデータのヘッダを取得する。
ステップS103において、取得したヘッダにマルチメディアコンテンツデータに字幕が含まれることが定められている場合(図2(a)または図2(b)の場合)には、処理がステップS104に進む。取得したヘッダにマルチメディアコンテンツデータに字幕が含まれないことが定められている場合(図2(c)または図2(d)の場合)には、処理がステップS110に進む。
ステップS104において、字幕設定部10は、取得したヘッダを参照して、マルチメディアコンテンツデータに含まれる字幕の言語(β)を特定する。
ステップS105において、表示する字幕の言語(α)と、マルチメディアコンテンツデータに含まれる字幕の言語(β)とが同一の場合には、処理がステップS109に進み、相違する場合には、処理がステップS106に進む。
ステップS106において、字幕設定部10は、言語(β)の字幕を表示することをユーザが承諾するか否かの画面を表示部5に出力する。ユーザが承諾する場合には、処理がステップS107に進み、ユーザが承諾しない場合には、処理がステップS108に進む。
ステップS107において、字幕設定部10は、字幕設定を「マルチメディアコンテンツデータに含まれる言語(β)の字幕を言語(α)の字幕に翻訳して表示する(設定B)」に設定する。
ステップS108において、字幕設定部10は、表示する字幕の言語をαからβに変更する。
ステップS109において、字幕設定部10は、字幕設定を「マルチメディアコンテンツデータに含まれる言語(β)の字幕をそのまま表示する(設定A)」に設定する。
ステップS110において、字幕設定部10は、取得したヘッダを参照して、マルチメディアコンテンツデータに含まれる音声の言語(γ)を特定する。
ステップS111において、表示する字幕の言語(α)と、マルチメディアコンテンツデータに含まれる音声言語(γ)とが同一の場合には、処理がステップS115に進み、相違する場合には、処理がステップS112に進む。
ステップS112において、字幕設定部10は、言語(γ)の字幕を表示することをユーザが承諾するか否かの画面を表示部5に出力する。ユーザが承諾する場合には、処理がステップS113に進み、ユーザが承諾しない場合には、処理がステップS114に進む。
ステップS113において、字幕設定部10は、字幕設定を「マルチメディアコンテンツデータに含まれる言語(γ)の音声を音声認識することによって言語(γ)の字幕を生成し、さらに言語(α)の字幕に翻訳して表示する(設定C)」に設定する。
ステップS114において、字幕設定部10は、表示する字幕の言語をαからγに変更する。
ステップS115において、字幕設定部10は、字幕設定を「マルチメディアコンテンツデータに含まれる言語(γ)の音声を音声認識することによって字幕を生成して表示する(設定D)」に設定する。
図5は、第1の実施形態における字幕の表示手順を表わすフローチャートである。
図5を参照して、ステップS201において、字幕設定が設定B「マルチメディアコンテンツデータに含まれる言語(β)の字幕を言語(α)の字幕に翻訳して表示する」の場合には、処理がステップS202に進む。
ステップS203において、字幕設定が設定D「マルチメディアコンテンツデータに含まれる言語(γ)の音声を音声認識することによって字幕を生成して表示する」の場合には、処理がステップS204に進む。
ステップS206において、字幕設定が設定C「マルチメディアコンテンツデータに含まれる言語(γ)の音声を音声認識することによって言語(γ)の字幕を生成し、さらに言語(α)の字幕に翻訳して表示する」の場合には、処理がステップS207に進む。
ステップS202において、翻訳部9は、マルチメディアコンテンツデータに含まれる言語(β)の各字幕を言語(α)の字幕に翻訳する。
ステップS204において、音声認識部8は、マルチメディアコンテンツデータに含まれる言語(γ)の各音声を音声認識し、認識結果から言語(γ)の字幕を生成する。具体的には、音声認識部8は、マルチメディアコンテンツデータに含まれる言語(γ)の各音声を再生処理部4で再生させたときに得られる出力波形から各音声に対する文字を特定し、字幕を生成する。
ステップS205において、字幕タイミング設定部11は、各字幕の表示開始時刻および表示終了時刻を、各字幕の元となる音声の開始時刻と終了時刻と同一に設定する。
ステップS207において、音声認識部8は、マルチメディアコンテンツデータに含まれる言語(γ)の各音声を音声認識し、認識結果から言語(γ)の字幕を生成する。具体的には、音声認識部8は、マルチメディアコンテンツデータに含まれる言語(γ)の各音声を再生処理部4で再生させたときに得られる出力波形から各音声に対する文字を特定し、字幕を生成する。
ステップS208において、翻訳部9は、言語(γ)の各字幕を言語(α)の字幕に翻訳する。
ステップS209において、字幕タイミング設定部11は、各字幕の表示開始時刻および表示終了時刻を、各字幕の元となる音声の開始時刻と終了時刻と同一に設定する。
以上のようにして、マルチメディアコンテンツデータに含まれる映像とともに表示するすべての字幕の準備が終了する。
次に、ステップS210において、再生処理部4は、マルチメディアコンテンツデータに含まれる映像を再生する。再生処理部4は、マルチメディアコンテンツデータに含まれるタイミング情報(設定Aまたは設定Bの場合)、または、ステップS205,S209で設定した字幕タイミング(設定Cまたは設定Dの場合)に基づいて、再生された映像に字幕を表わす画像を重畳して表示部5に出力する。
(字幕の例)
スマートフォンの設定言語(α)が日本語であり、マルチメディアコンテンツデータに含まれる字幕の言語(β)が日本語の場合(設定A)には、図6に示すように日本語の字幕61が表示される。
スマートフォンの設定言語(α)が日本語であり、マルチメディアコンテンツデータに含まれる字幕の言語(β)が英語の場合(設定B)には、図6に示すように日本語の字幕61が表示される。
スマートフォンの設定言語(α)が日本語であり、マルチメディアコンテンツデータに含まれる字幕の言語(β)が英語であるが、ユーザが英語で表示することを承諾する場合(設定A)には、図7に示すように英語の字幕62が表示される。
スマートフォンの設定言語(α)が日本語であり、マルチメディアコンテンツデータに字幕が含まれず、マルチメディアコンテンツデータに含まれる音声の言語(γ)が日本語の場合(設定D)には、図6に示すように日本語の字幕61が表示される。
スマートフォンの設定言語(α)が日本語であり、マルチメディアコンテンツデータに字幕が含まれず、マルチメディアコンテンツデータに含まれる音声の言語(γ)が英語の場合(設定C)には、図6に示すように日本語の字幕61が表示される。
スマートフォンの設定言語(α)が日本語であり、マルチメディアコンテンツデータに字幕が含まれず、マルチメディアコンテンツデータに含まれる音声の言語(γ)が英語であるが、ユーザが英語で表示することを承諾する場合(設定D)には、図7に示すように英語の字幕62が表示される。
以上のように、本実施の形態によれば、マルチメディアコンテンツデータに字幕が含まれていない場合に、音声から字幕を生成して表示するので、特に聴覚障がい者にとって便利である。また、本実施の形態によれば、マルチメディアコンテンツデータに英語の字幕のみ、または英語の音声のみが含まれている場合に、英語の字幕または英語の音声から日本語の字幕を生成して表示するので、特に母国語が日本語のユーザにとって便利である。
[第2の実施形態]
第2実施形態では、ストリーミング再生するときに、第1の実施形態と同様の目的を達成する技術に関する。ここで、ストリーミング再生とは、マルチメディアコンテンツデータを受信して、リアルタイムで再生することをいう。
本実施の形態では、データ記憶部3は、受信したマルチメディアコンテンツデータの受信バッファとして機能する。すなわち、データ記憶部3は、所定時間分の最新のマルチメディアコンテンツデータを記憶する。データ記憶部3は、新たに所定時間分のマルチメディアコンテンツデータを受信した場合には、記憶している古い所定時間分のマルチメディアコンテンツデータに代えて、最新のマルチメディアコンテンツデータを記憶する。
再生処理部4は、データ記憶部3に記憶されている最新の所定時間分のマルチメディアコンテンツデータから映像を取り出して再生する。字幕生成部7は、データ記憶部3に記憶されている最新の所定時間分のマルチメディアコンテンツデータから字幕を生成する。
図8は、第2の実施形態における字幕の設定手順を表わすフローチャートである。
ステップS301において、字幕設定部10は、スマートフォン1の言語設定を参照することによって、表示する字幕の言語(α)を設定する。
ステップS302において、データ記憶部3に無線通信部2からマルチメディアコンテンツデータのヘッダが出力された場合に、処理がステップS303に進む。
ステップS303において、ヘッダにマルチメディアコンテンツデータに字幕が含まれることが定められている場合(図2(a)または図2(b)の場合)には、処理がステップS304に進む。ヘッダにマルチメディアコンテンツデータに字幕が含まれないことが定められている場合(図2(c)または図2(d)の場合)には、処理がステップS310に進む。
ステップS304において、字幕設定部10は、ヘッダを参照して、マルチメディアコンテンツデータに含まれる字幕の言語(β)を特定する。
ステップS305において、表示する字幕の言語(α)と、マルチメディアコンテンツデータに含まれる字幕の言語(β)とが同一の場合には、処理がステップS309に進み、相違する場合には、処理がステップS306に進む。
ステップS306において、字幕設定部10は、言語(β)の字幕を表示することをユーザが承諾するか否かの画面を表示部5に出力する。ユーザが承諾する場合には、処理がステップS307に進み、ユーザが承諾しない場合には、処理がステップS308に進む。
ステップS307において、字幕設定部10は、字幕設定を「マルチメディアコンテンツデータに含まれる言語(β)の字幕を言語(α)の字幕に翻訳して表示する(設定B)」に設定する。
ステップS308において、字幕設定部10は、表示する字幕の言語をαからβに変更する。
ステップS309において、字幕設定部10は、字幕設定を「マルチメディアコンテンツデータに含まれる言語(β)の字幕をそのまま表示する(設定A)」に設定する。
ステップS310において、字幕設定部10は、ヘッダを参照して、マルチメディアコンテンツデータに含まれる音声の言語(γ)を特定する。
ステップS311において、表示する字幕の言語(α)と、マルチメディアコンテンツデータに含まれる音声言語(γ)とが同一の場合には、処理がステップS315に進み、相違する場合には、処理がステップS312に進む。
ステップS312において、字幕設定部10は、言語(γ)の字幕を表示することをユーザが承諾するか否かの画面を表示部5に出力する。ユーザが承諾する場合には、処理がステップS314に進み、ユーザが承諾しない場合には、処理がステップS313に進む。
ステップS313において、字幕設定部10は、字幕設定を「マルチメディアコンテンツデータに含まれる言語(γ)の音声を音声認識することによって字幕を生成し、さらに言語(α)の字幕に翻訳して表示する(設定C)」に設定する。
ステップS314において、字幕設定部10は、表示する字幕の言語をαからγに変更する。
ステップS315において、字幕設定部10は、字幕設定を「マルチメディアコンテンツデータに含まれる言語(γ)の音声を音声認識することによって字幕を生成して表示する(設定D)」に設定する。
図9は、第2の実施形態における字幕の表示手順を表わすフローチャートである。
図9を参照して、ステップS401において、字幕設定が設定B「マルチメディアコンテンツデータに含まれる言語(β)の字幕を言語(α)の字幕に翻訳して表示する」の場合には、処理がステップS402に進む。
ステップS403において、字幕設定が設定D「マルチメディアコンテンツデータに含まれる言語(γ)の音声を音声認識することによって字幕を生成して表示する」の場合には、処理がステップS404に進む。
ステップS406において、字幕設定が設定C「マルチメディアコンテンツデータに含まれる言語(γ)の音声を音声認識することによって字幕を生成し、さらに言語(α)の字幕に翻訳して表示する」の場合には、処理がステップS407に進む。
ステップS402において、翻訳部9は、データ記憶部3に記憶されている所定時間分のマルチメディアコンテンツデータに含まれる言語(β)の各字幕を一定時間内で可能な範囲で言語(α)の字幕に翻訳する。
ステップS404において、音声認識部8は、データ記憶部3に記憶されている所定時間分のマルチメディアコンテンツデータに含まれる言語(γ)の各音声を音声認識し、認識結果から言語(γ)の字幕を生成する。具体的には、音声認識部8は、マルチメディアコンテンツデータに含まれる言語(γ)の各音声を再生処理部4で再生させたときに得られる出力波形から各音声に対する文字を特定し、字幕を生成する。
ステップS405において、字幕タイミング設定部11は、各字幕の表示開始時刻および表示終了時刻を、各字幕の元となる音声の開始時刻と終了時刻と同一に設定する。
ステップS407において、音声認識部8は、データ記憶部3に記憶されている所定時間分のマルチメディアコンテンツデータに含まれる言語(γ)の各音声を音声認識し、認識結果から言語(γ)の字幕を生成する。具体的には、音声認識部8は、マルチメディアコンテンツデータに含まれる言語(γ)の各音声を再生処理部4で再生させたときに得られる出力波形から各音声に対する文字を特定し、字幕を生成する。
ステップS408において、翻訳部9は、言語(γ)の各字幕を一定時間内で可能な範囲で言語(α)の字幕に翻訳する。
ステップS409において、字幕タイミング設定部11は、各字幕の表示開始時刻および表示終了時刻を、各字幕の元となる音声の開始時刻と終了時刻と同一に設定する。
ステップS410において、マルチメディアコンテンツデータの受信が終了した場合(すなわち、未処理のマルチメディアコンテンツデータがデータ記憶部3に記憶されていない場合)に、処理が終了し、マルチメディアコンテンツデータをさらに受信した場合(すなわち、未処理のマルチメディアコンテンツデータがデータ記憶部3に記憶されている場合)に、処理がステップS401に戻る。
ステップS411において、再生処理部4は、データ記憶部3に記憶されている所定時間分のマルチメディアコンテンツデータに含まれる映像を再生する。再生処理部4は、マルチメディアコンテンツデータに含まれるタイミング情報(設定Aまたは設定Bの場合)、または、ステップS405,S409で設定した字幕タイミング(設定Cまたは設定Dの場合)に基づいて、再生された映像に字幕を表わす画像を重畳して表示部5に出力する。
ステップS412において、ステップS402およびステップS408における翻訳が未完成の場合には、処理がステップS413に進む。
ステップS413において、再生処理部4は、翻訳が未完成の旨を表わす画面を表示部5に出力する。
ステップS414において、マルチメディアコンテンツデータの受信が終了した場合に、処理が終了し、マルチメディアコンテンツデータをさらに受信した場合に、処理がステップS411に戻る。
(字幕の例)
スマートフォンの設定言語(α)が日本語であり、マルチメディアコンテンツデータに含まれる字幕の言語(β)が英語の場合(設定B)において、図10に示す英語の字幕は、日本語に翻訳される。図11は、図10に示す英語の字幕の日本語への翻訳が未完成の場合の例を示す図である。図11では、図10に示す字幕の文のうちThe 27th edition of the international film festival, which runs until October 30, focuses heavily on Japanese animated movies″のみが日本語に翻訳されて表示されている。また、翻訳が未完成の旨を表わすアイコン53が表示される。
以上のように、本実施の形態によれば、コンテンツデータを受信しながら再生するストリーミング再生においても、第1の実施形態のコンテンツデータをすべて受信してから生成するシフトタイム再生と同様に、マルチメディアコンテンツデータに字幕が含まれていない場合に、音声から字幕を生成して表示するので、特に聴覚障がい者にとって便利である。また、本実施の形態によれば、第1の実施形態と同様に、マルチメディアコンテンツデータに英語の字幕のみ、または英語の音声のみが含まれている場合に、英語の字幕または英語の音声から日本語の字幕を生成して表示するので、特に母国語が日本語のユーザにとって便利である。
[第3の実施形態]
従来では、映像とともに提供される音声の言語が理解できないユーザは、音声の内容を理解することができない。それゆえに、本実施の形態の第1の目的は、取得したコンテンツに含まれる音声の言語が理解できないユーザがコンテンツの内容を理解することを可能にする電子機器を提供することである。
また、従来では、映像とともに音声が提供されない場合には、たとえ、映像とともに表示する字幕の言語が母国語であっても、視覚障がい者、すなわち視覚機能を失った人、または映像は視認できるが、小さな文字の字幕を読むのが困難な人は、コンテンツの内容を理解することができない。それゆえに、本実施の形態の第2の目的は、視覚に障害のあるユーザが取得したコンテンツが音声を含まない場合にでもコンテンツの内容を理解することを可能にする電子機器を提供することである。
第3の実施形態では、シフトタイム再生するときに、上記の目的を達成する技術に関する。
図12は、第3の実施形態のスマートフォンの構成を表わす図である。
図12を参照して、このスマートフォン51は、字幕生成部7の代わりに、音声生成部57を含む。
音声生成部57は、マルチメディアコンテンツデータに含まれる音声の言語が、再生する音声の言語(A)と相違する場合には、マルチメディアコンテンツに含まれる音声を言語(A)の音声に翻訳する。字幕生成部7は、マルチメディアコンテンツデータに音声が含まれていない場合に、マルチメディアコンテンツに含まれる字幕から言語(A)の音声を生成する。
音声生成部57は、音声認識部53と、音声合成部58と、翻訳部59と、音声設定部55と、音声タイミング設定部56とを備える。
音声認識部53は、マルチメディアコンテンツデータに含まれる音声を音声認識することによってテキストを生成する。
翻訳部9は、マルチメディアコンテンツデータに含まれる字幕、音声認識によって得られたテキストを言語(A)の字幕に翻訳する。
音声合成部58は、字幕またはテキストから音声を合成する。
音声設定部55は、マルチメディアコンテンツデータに含まれるヘッダを参照して、再生する音声の言語、再生する音声の生成方法を設定する。
音声タイミング設定部56は、マルチメディアコンテンツデータに含まれる字幕から音声を生成する場合に、字幕の表示タイミングを定めたタイミング情報に基づいて、音声を再生するタイミングを設定する。
図13(a)〜(d)は、第3の実施形態のヘッダの例を表わす図である。
図13(a)のヘッダには、マルチメディアコンテンツデータが音声を含むこと、音声の言語が日本語であること、および字幕の言語が日本語であることを表わす情報が含まれる。
図13(b)のヘッダには、マルチメディアコンテンツデータが音声を含むこと、音声の言語が英語であること、および字幕の言語が日本語であることを表わす情報が含まれる。
図13(c)のヘッダには、マルチメディアコンテンツデータが音声を含まないこと、および字幕の言語が日本語であることを表わす情報が含まれる。
図13(d)のヘッダには、マルチメディアコンテンツデータが音声を含まないこと、および音声の言語が英語であることを表わす情報が含まれる。
図14は、第3の実施形態のマルチディアコンテンツデータに含まれるタイミング情報の例を表わす図である。図14に示すように、タイミング情報は、音声と音声が再生されるときの映像のフレーム番号との関係を定める。
図14のタイミング情報には、音声#1、音声#2、音声#3・・・が、それぞれ、フレーム番号1〜56の映像、フレーム番号57〜86の映像、フレーム番号87〜94の映像が表示されているときに再生されるように定められている。
図15は、第3の実施形態における音声の設定手順を表わすフローチャートである。
ステップS501において、音声設定部55は、スマートフォン51の言語設定を参照することによって、再生する音声の言語(α)を設定する。
ステップS502において、音声設定部55は、データ記憶部3に記憶されているマルチメディアコンテンツデータのヘッダを取得する。
ステップS503において、取得したヘッダにマルチメディアコンテンツデータに音声が含まれることが定められている場合(図13(a)または図13(b)の場合)には、処理がステップS504に進む。取得したヘッダにマルチメディアコンテンツデータに音声が含まれないことが定められている場合(図13(c)または図13(d)の場合)には、処理がステップS510に進む。
ステップS504において、音声設定部55は、取得したヘッダを参照して、マルチメディアコンテンツデータに含まれる音声の言語(β)を特定する。
ステップS505において、再生する音声の言語(α)と、マルチメディアコンテンツデータに含まれる音声の言語(β)とが同一の場合には、処理がステップS509に進み、相違する場合には、処理がステップS506に進む。
ステップS506において、音声設定部55は、言語(β)の音声を再生することをユーザが承諾するか否かの画面を表示部5に出力する。ユーザが承諾する場合には、処理がステップS507に進み、ユーザが承諾しない場合には、処理がステップS508に進む。
ステップS507において、音声設定部55は、音声設定を「マルチメディアコンテンツデータに含まれる言語(β)の音声を言語(α)の音声に翻訳して再生する(設定B)」に設定する。
ステップS508において、字幕設定部10は、表示する字幕の言語をαからβに変更する。
ステップS509において、音声設定部55は、音声設定を「マルチメディアコンテンツデータに含まれる言語(β)の音声をそのまま再生する(設定A)」に設定する。
ステップS510において、音声設定部55は、取得したヘッダを参照して、マルチメディアコンテンツデータに含まれる字幕の言語(γ)を特定する。
ステップS511において、再生する音声の言語(α)と、マルチメディアコンテンツデータに含まれる音声の言語(γ)とが同一の場合には、処理がステップS515に進み、相違する場合には、処理がステップS512に進む。
ステップS512において、音声設定部55は、言語(γ)の音声を再生することをユーザが承諾するか否かの画面を表示部5に出力する。ユーザが承諾する場合には、処理がステップS514に進み、ユーザが承諾しない場合には、処理がステップS513に進む。
ステップS513において、音声設定部55は、音声設定を「マルチメディアコンテンツデータに含まれる言語(γ)の字幕を言語(α)の字幕に翻訳し、さらに音声合成することによって言語(α)の音声を生成して再生する(設定C)」に設定する。
ステップS514において、字幕設定部10は、表示する字幕の言語をαからγに変更する。
ステップS515において、音声設定部55は、字幕設定を「マルチメディアコンテンツデータに含まれる言語(γ)の字幕から音声合成することによって言語(γ)の音声を生成して再生する(設定D)」に設定する。
図16は、第3の実施形態における字幕の表示手順を表わすフローチャートである。
図16を参照して、ステップS601において、音声設定が設定B「マルチメディアコンテンツデータに含まれる言語(β)の音声を言語(α)の音声に翻訳して再生する」の場合には、処理がステップS602に進む。
ステップS603において、音声設定が設定D「マルチメディアコンテンツデータに含まれる言語(γ)の字幕から音声合成することによって言語(γ)の音声を生成して再生する」の場合には、処理がステップS604に進む。
ステップS606において、音声設定が設定C「マルチメディアコンテンツデータに含まれる言語(γ)の字幕を言語(α)の字幕に翻訳し、さらに音声合成することによって言語(α)の音声を生成して再生する」の場合には、処理がステップS607に進む。
ステップS602において、音声認識部53、翻訳部59および音声合成部58は、マルチメディアコンテンツデータに含まれる言語(β)の各音声から言語(α)の音声を生成する。
具体的には、音声認識部53は、マルチメディアコンテンツデータに含まれる言語(β)の各音声を再生処理部4で再生させたときに得られる出力波形から各音声に対する文字を特定し、言語(β)のテキストを生成する。翻訳部59は、言語(β)のテキストを言語(α)のテキストに翻訳する。音声合成部58は、言語(α)のテキストから音声合成することによって、言語(α)の音声を生成する。
ステップS604において、音声合成部58は、マルチメディアコンテンツデータに含まれる言語(γ)の各字幕から音声合成して言語(γ)の音声を生成する。
ステップS605において、音声タイミング設定部56は、各音声の表示開始時刻および表示終了時刻を、各音声の元となる字幕の開始時刻と終了時刻と同一に設定する。
ステップS607において、翻訳部59は、マルチメディアコンテンツデータに含まれる言語(γ)の各字幕を言語(α)の字幕に翻訳する。
ステップS608において、音声合成部58は、言語(α)の各字幕から音声合成して言語(α)の音声を生成する。
ステップS609において、音声タイミング設定部56は、各音声の表示開始時刻および表示終了時刻を、各音声の元となる字幕の開始時刻と終了時刻と同一に設定する。
以上のようにして、再生するすべての音声が生成される。
次に、ステップS610において、再生処理部4は、マルチメディアコンテンツデータに含まれる映像を再生して表示部5に出力する。再生処理部4は、マルチメディアコンテンツデータに含まれるタイミング情報(設定Aまたは設定Bの場合)、または、ステップS605,S609で設定した音声タイミング(設定Cまたは設定Dの場合)に基づいて、生成された音声を再生してスピーカ71に出力する。
以上のように、本実施の形態によれば、マルチメディアコンテンツデータに音声が含まれていない場合に、字幕から音声を生成して再生するので、特に視覚障がい者にとって便利である。また、本実施の形態によれば、マルチメディアコンテンツデータに英語の音声のみ、または英語の字幕のみが含まれている場合に、英語の音声または英語の字幕から日本語の音声を生成して表示するので、特に母国語が日本語のユーザにとって便利である。
(変形例)
本発明は、上記の実施形態に限定されるものではなく、たとえば以下のような変形例も含む。
(1)音声と字幕の両方を出力する構成
第1の実施形態および第2の実施形態では、映像と字幕を表示し、音声を再生しなかったが、音声を再生するものとしてもよい。第3の実施形態では、映像と音声を再生し、字幕を表示しなかったが、字幕を表示してもよい。
(2)表示する字幕の言語および再生する音声の言語
第1〜第3の実施形態では、スマートフォンの言語設定で設定されている言語に基づいて、表示する字幕の言語および再生する音声の言語を設定した。
ここで、スマートフォンの言語設定は、マイクに入力されたユーザの音声を認識することによって行われるものであってもよい。
すなわち、字幕設定部または音声設定部は、音声通話時、または音声通話時以外において、ユーザが発音した言語を識別することによって、スマートフォンの言語を設定してもよい。たとえば、字幕設定部または音声設定部は、ユーザが"This is a pen"と発音した場合に、スマートフォンの言語を英語に設定するようにしてもよい。
また、字幕設定部または音声設定部は、ユーザがスマートフォンの言語設定メニューを選択した後、ユーザが音声で直接スマートフォンの言語を設定することとしてもよい。たとえば、字幕設定部または音声設定部は、ユーザが英語または他の言語の音声で"English"と発音することによって、スマートフォンの言語を英語に設定するようにしてもよい。
(3)効果音の字幕化
第1の実施形態および第2の実施形態において、音声から字幕を生成するときに、音声に効果音が含まれる場合には、効果音を表わす擬音語を含む字幕を表示するものとしてもよい。
(4)楽曲の字幕化
第1の実施形態および第2の実施形態において、音声から字幕を生成するときに、音声に楽曲が含まれる場合には、楽曲名、楽曲の説明、または楽曲の歌詞を含む字幕を表示するものとしてもよい。
(5)翻訳が未完成の場合の設定変更
第2の実施形態において、翻訳が未完成の場合に、翻訳が未完成の旨を表わすアイコンを表示した(図9のステップS411、S412)が、その後ユーザが表示する字幕の言語を変更できるようにしてもよい。
具体的には、字幕の翻訳の停止設定するためのアイコンを表示部の5の上端などに表示して、ユーザがアイコンを選択することによって、マルチメディアコンテンツデータに含まれるコンテンツデータ、または音声認識によって得られた字幕を翻訳せずに表示するものとしてもよい。
(6)ストリーミング
第1の実施形態では、マルチメディアコンテンツデータのすべてを受信終了後、すべての字幕を生成し、その後で映像の再生および字幕の表示を行ったが、これに限定するものではない。
マルチメディアコンテンツデータのすべてを受信終了する前から、字幕の生成を開始するものとしてもよい。字幕の生成時に、字幕の翻訳が必要な場合には、未完成部分を残すことなく翻訳を完成させる。表示する字幕の生成が追い付かなくなるようなことがないように十分な時間分の字幕が生成された後、映像の再生を開始するものとしてもよい。
(7)複数の字幕を含む場合
第1の実施形態および第2の実施形態において、マルチメディアコンテンツデータに含まれる字幕は1種類の言語のものだけとしたが、本発明は、複数言語の字幕が含まれる場合にでも適用可能である。
たとえば、マルチメディアコンテンツデータに含まれる複数言語の字幕の中に、表示する字幕と同じ言語のものが存在しない場合には、マルチメディアコンテンツデータに含まれる複数言語の字幕の中のいずれか1つの字幕を選択して、表示する字幕の言語に翻訳すればよい。この際、複数の字幕の中のいずれを選択するかは、予め設定した優先度に基づくものとすることができる。たとえば、文法の構造が類似している言語の間の翻訳は、優先度が高いものとすることができる。
あるいは、マルチメディアコンテンツデータに含まれる複数言語の字幕の中に、表示する字幕と同じ言語のものが存在しない場合には、複数言語のうち標準の言語(たとえば英語)の字幕を表示するものとしてもよい。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1,51 スマートフォン、2 無線通信部、3 データ記憶部、4 再生処理部、5 表示部、6 ユーザ入力部、7 字幕生成部、8,53 音声認識部、9,59 翻訳部、10 字幕設定部、11 字幕タイミング設定部、55 音声設定部、56 音声タイミング設定部、57 音声生成部、58 音声合成部、71 スピーカ。

Claims (10)

  1. 電子機器であって、
    前記電子機器に設定されている言語を表示する字幕の言語として設定する設定部と、
    コンテンツに含まれる字幕の言語が前記設定した言語と相違する場合には、前記コンテンツに含まれる字幕を前記設定した言語の字幕に翻訳する字幕生成部と、
    前記コンテンツに含まれる映像を再生するとともに、前記翻訳された字幕を表示させる再生処理部とを備えた、電子機器。
  2. 電子機器であって、
    前記電子機器に設定されている言語を表示する字幕の言語として設定する設定部と、
    コンテンツに字幕が含まれていない場合に、前記コンテンツに含まれる音声から前記設定した言語の字幕を生成する字幕生成部と、
    前記コンテンツに含まれる映像を生成するとともに、前記生成した字幕を表示させる再生処理部とを備えた、電子機器。
  3. 前記字幕生成部は、前記コンテンツに含まれる音声の言語が前記設定した言語と同一の場合には、前記コンテンツに含まれる音声の認識処理によって、前記設定した言語の字幕を生成する、請求項2記載の電子機器。
  4. 前記字幕生成部は、前記コンテンツに含まれる音声の言語が前記設定した言語と相違する場合には、前記コンテンツに含まれる音声の認識処理によって字幕を生成し、さらに前記生成した字幕を前記設定した言語の字幕に翻訳する、請求項2記載の電子機器。
  5. 前記字幕生成部は、前記字幕の表示開始時刻と表示終了時刻を、前記字幕の生成源の音声の再生開始時刻と再生終了時刻と同一に設定する、請求項3または4記載の電子機器。
  6. 前記字幕生成部は、一定時間内に可能な範囲で前記翻訳を実行し、
    前記再生処理部は、未完成な翻訳がある場合には、翻訳が未完成のまま字幕を表示する旨を通知する、請求項1または4記載の電子機器。
  7. 前記字幕生成部は、ユーザが前記翻訳を所望する場合にのみ、前記翻訳を実行する、請求項1または4記載の電子機器。
  8. 前記設定部は、ユーザが発音する音声に基づいて前記電子機器の言語を設定する、請求項1または2記載の電子機器。
  9. 再生する音声の言語を設定する設定部と、
    コンテンツに含まれる音声の言語が、前記設定した言語と相違する場合には、前記コンテンツに含まれる音声から前記設定した言語の音声を生成する音声生成部と、
    前記コンテンツに含まれる映像を再生するとともに、前記生成した音声を再生する再生処理部とを備えた、電子機器。
  10. 再生する音声の言語を設定する設定部と、
    コンテンツに音声が含まれていない場合に、前記コンテンツに含まれる字幕から前記設定した言語の音声を生成する音声生成部と、
    前記コンテンツに含まれる映像を再生するとともに、前記生成した音声を再生する再生処理部とを備えた、電子機器。
JP2014220685A 2014-10-29 2014-10-29 電子機器 Pending JP2016091057A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014220685A JP2016091057A (ja) 2014-10-29 2014-10-29 電子機器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014220685A JP2016091057A (ja) 2014-10-29 2014-10-29 電子機器

Publications (1)

Publication Number Publication Date
JP2016091057A true JP2016091057A (ja) 2016-05-23

Family

ID=56016903

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014220685A Pending JP2016091057A (ja) 2014-10-29 2014-10-29 電子機器

Country Status (1)

Country Link
JP (1) JP2016091057A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017004109A1 (de) 2016-04-28 2017-11-02 Sanyo Denki Co., Ltd. Motor
JP2020096660A (ja) * 2018-12-17 2020-06-25 株式会社カプコン ゲーム動画編集プログラムならびにゲーム動画編集システム
JP2021044669A (ja) * 2019-09-10 2021-03-18 富士ゼロックス株式会社 情報処理装置およびプログラム
JP2023506186A (ja) * 2019-12-09 2023-02-15 チョル キム、ギョン 使用者端末、ビデオ通話装置、ビデオ通話システム、及びその制御方法
JP2023506469A (ja) * 2019-12-09 2023-02-16 チョル キム、ギョン 使用者端末、及びその制御方法
JP2023506468A (ja) * 2019-12-09 2023-02-16 チョル キム、ギョン 使用者端末、放送装置、それを含む放送システム、及びその制御方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61221815A (ja) * 1985-03-27 1986-10-02 Toshiba Corp 情報処理装置
JP2003143527A (ja) * 2001-11-06 2003-05-16 Funai Electric Co Ltd ディジタルバーサタイルディスクプレイヤ
JP2006065528A (ja) * 2004-08-26 2006-03-09 Sato Corp 情報表示装置およびその方法
JP2010033351A (ja) * 2008-07-29 2010-02-12 Kyocera Corp コンテンツ出力装置
JP2012138670A (ja) * 2010-12-24 2012-07-19 Clarion Co Ltd デジタル放送受信装置、デジタル放送受信装置の制御方法及び制御プログラム
US20120316860A1 (en) * 2011-06-08 2012-12-13 Microsoft Corporation Dynamic video caption translation player

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61221815A (ja) * 1985-03-27 1986-10-02 Toshiba Corp 情報処理装置
JP2003143527A (ja) * 2001-11-06 2003-05-16 Funai Electric Co Ltd ディジタルバーサタイルディスクプレイヤ
JP2006065528A (ja) * 2004-08-26 2006-03-09 Sato Corp 情報表示装置およびその方法
JP2010033351A (ja) * 2008-07-29 2010-02-12 Kyocera Corp コンテンツ出力装置
JP2012138670A (ja) * 2010-12-24 2012-07-19 Clarion Co Ltd デジタル放送受信装置、デジタル放送受信装置の制御方法及び制御プログラム
US20120316860A1 (en) * 2011-06-08 2012-12-13 Microsoft Corporation Dynamic video caption translation player

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017004109A1 (de) 2016-04-28 2017-11-02 Sanyo Denki Co., Ltd. Motor
JP2020096660A (ja) * 2018-12-17 2020-06-25 株式会社カプコン ゲーム動画編集プログラムならびにゲーム動画編集システム
JP2021044669A (ja) * 2019-09-10 2021-03-18 富士ゼロックス株式会社 情報処理装置およびプログラム
CN112565860A (zh) * 2019-09-10 2021-03-26 富士施乐株式会社 信息处理装置及记录媒体
JP7434762B2 (ja) 2019-09-10 2024-02-21 富士フイルムビジネスイノベーション株式会社 情報処理装置およびプログラム
JP2023506186A (ja) * 2019-12-09 2023-02-15 チョル キム、ギョン 使用者端末、ビデオ通話装置、ビデオ通話システム、及びその制御方法
JP2023506469A (ja) * 2019-12-09 2023-02-16 チョル キム、ギョン 使用者端末、及びその制御方法
JP2023506468A (ja) * 2019-12-09 2023-02-16 チョル キム、ギョン 使用者端末、放送装置、それを含む放送システム、及びその制御方法
JP7467635B2 (ja) 2019-12-09 2024-04-15 チョル キム、ギョン 使用者端末、ビデオ通話装置、ビデオ通話システム、及びその制御方法
JP7467636B2 (ja) 2019-12-09 2024-04-15 チョル キム、ギョン 使用者端末、放送装置、それを含む放送システム、及びその制御方法
JP7519441B2 (ja) 2019-12-09 2024-07-19 チョル キム、ギョン 使用者端末、及びその制御方法

Similar Documents

Publication Publication Date Title
JP2016091057A (ja) 電子機器
CN104732593B (zh) 一种基于移动终端的3d动画编辑方法
JP2013521523A (ja) 聴覚障害者向けに音声言語を手話に翻訳するシステム
JP2008500573A (ja) メッセージを変更するための方法及びシステム
JP2012109901A (ja) 資料提示装置
JP6530139B2 (ja) 動画提供装置、動画提供方法及びそのコンピュータプログラム
JP6271194B2 (ja) 携帯デバイスへのセカンドスクリーン情報の提供方法
US8553855B2 (en) Conference support apparatus and conference support method
KR102136059B1 (ko) 그래픽 객체를 이용한 자막 생성 시스템
JP2006337490A (ja) コンテンツ配信システム
JP2015018079A (ja) 字幕音声生成装置
JP4772315B2 (ja) 情報変換装置及び情報変換方法、並びに通信装置及び通信方法
CN115359796A (zh) 数字人手语播报方法、装置、设备及存储介质
KR101832464B1 (ko) 동영상 제공 장치, 동영상 제공 방법, 및 컴퓨터 프로그램
JP5777233B1 (ja) 動画生成装置及び動画生成方法
JP2013097240A (ja) 聴覚障がい者支援装置およびその動作方法
JP6064209B2 (ja) 通話システム及び通話中継方法
KR20110065276A (ko) 비교 영상을 이용한 발음 학습 방법 및 장치
JP2013201505A (ja) テレビ会議システム及び多地点接続装置並びにコンピュータプログラム
KR20240026475A (ko) 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법
KR20150126538A (ko) 사진, 음성, 및 터치정보가 결합된 메시지 송수신 방법
EP2665255A1 (en) Solution for sub-titling of images and image sequences
JP7279861B2 (ja) 送信装置、コミュニケーション方法、及びプログラム
JP2008154258A (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP2007228624A (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170626

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180612

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190226

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190903