JP2016062357A - 音声翻訳装置、方法およびプログラム - Google Patents

音声翻訳装置、方法およびプログラム Download PDF

Info

Publication number
JP2016062357A
JP2016062357A JP2014190411A JP2014190411A JP2016062357A JP 2016062357 A JP2016062357 A JP 2016062357A JP 2014190411 A JP2014190411 A JP 2014190411A JP 2014190411 A JP2014190411 A JP 2014190411A JP 2016062357 A JP2016062357 A JP 2016062357A
Authority
JP
Japan
Prior art keywords
utterance
character string
unit
speech
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014190411A
Other languages
English (en)
Inventor
聡史 釜谷
Satoshi Kamaya
聡史 釜谷
住田 一男
Kazuo Sumita
一男 住田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2014190411A priority Critical patent/JP2016062357A/ja
Priority to US14/848,338 priority patent/US9600475B2/en
Priority to CN201510574967.5A priority patent/CN105446960B/zh
Publication of JP2016062357A publication Critical patent/JP2016062357A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

【課題】発話の了解性が高めることができる。【解決手段】本開示の一実施形態に係る音声翻訳装置は、音声認識部、検出部、翻訳部及び制御部を含む。音声認識部は、複数の話者による1種類以上の第1言語の発話を時系列順に音声認識処理し、音声認識結果であるテキスト文字列を得る。検出部は、前記テキスト文字列の意味のまとまりを検出し、該意味のまとまりで区切られる文字列を示す1以上の単位文字列を得る。翻訳部は、前記1以上の単位文字列を前記第1言語とは異なる第2言語に翻訳し、1以上の翻訳文字列を得る。制御部は、時系列において前記発話間に重複がある場合、重複する部分に対応する翻訳文字列の表示順序を変更するように制御する。【選択図】図1

Description

本発明の実施形態は、音声翻訳装置、方法およびプログラムに関する。
音声言語処理技術の進展により、第1言語による入力を第2の言語に変換して出力する音声翻訳機器が実現されている。入力や出力の形式は、アプリケーションに応じて文字列(テキスト)であったり音声であったりするが、人が話した音声を翻訳する技術として本質は同じである。
音声翻訳技術は、会議や講演における翻訳の字幕表示や、翻訳の音声出力に応用が可能である。音声通訳技術の一例としては、例えば、会議字幕システムがある。
特開2002−101205号公報
しかし、翻訳結果は、翻訳対象となる区間の発話が終わった後に提示されることから、翻訳結果を提示するタイミングによっては、利用者が翻訳結果を誤って解釈してしまうという問題がある。
本発明は、上述した課題を解決するためになされたものであり、翻訳結果の誤解を低減することができる音声翻訳装置、方法およびプログラムを提供することを目的とする。
本発明の一実施形態に係る音声翻訳装置は、音声認識部、検出部、翻訳部及び制御部を含む。音声認識部は、複数の話者による1種類以上の第1言語の発話を時系列順に音声認識処理し、音声認識結果であるテキスト文字列を得る。検出部は、前記テキスト文字列の意味のまとまりを検出し、該意味のまとまりで区切られる文字列を示す1以上の単位文字列を得る。翻訳部は、前記1以上の単位文字列を前記第1言語とは異なる第2言語に翻訳し、1以上の翻訳文字列を得る。制御部は、時系列において前記発話間に重複がある場合、重複する部分に対応する翻訳文字列の表示順序を変更するように制御する。
本実施形態に係る音声翻訳装置を示すブロック図。 制御部における制御処理を示すフローチャート。 音声翻訳装置の動作の第1具体例を示す図。 音声翻訳装置の動作の第2具体例を示す図。 提示部における第1表示例を示す図。 提示部における第2表示例を示す図。 提示部における第3表示例を示す図。 制御部における制御処理の第1変形例を示す図。 制御部における制御処理の第2変形例を示す図。 従来手法による翻訳結果の表示を説明する図。
以下、図面を参照しながら本開示の一実施形態に係る音声翻訳装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行なうものとして、重ねての説明を省略する。
第1の実施形態に係る音声翻訳装置について図1のブロック図を参照して説明する。
本実施形態に係る音声翻訳装置100は、音声取得部101、音声認識部102、翻訳単位検出部103、翻訳部104、制御部105および提示部106を含む。
音声取得部101は、第1言語を発する話者の発話を音声信号として取得する。さらに音声取得部101は、音声信号の発話者を示す話者情報と、音声信号を取得した時刻および音声信号の継続時間を含む時間情報とを音声信号に対応付けて取得する。第1言語は、1種類以上の言語を含む。音声信号は、例えば、マイクロフォンを通して集音し、これをアナログデジタル変換器(A/D変換器)により処理することで得ることができる。また、予め音声が記録された記録媒体を、再生デバイスなどにより読み込んで再生することで音声信号を取得してもよい。
音声認識部102は、音声取得部101から音声信号、話者情報および時間情報を受け取り、音声信号に対して時系列順に音声認識処理し、音声信号の音声認識結果であるテキスト文字列を得る。音声認識処理は、例えば、隠れマルコフモデル(Hidden Markov Model:HMM)を利用するなど、一般的な方法で行えばよいのでここでの詳細な説明は省略する。
翻訳単位検出部103は、音声認識部102からテキスト文字列、話者情報および時間情報を受け取り、翻訳処理に適したテキスト文字列の意味のまとまりを検出し、意味のまとまりで区切られる文字列である単位文字列を生成する。
話者が発する話し言葉には、書き言葉に含まれる句読点のような明確な区切りがないため、同時性が高く品質のよい音声通訳を実現するには、翻訳処理に適した単位に分割する必要がある。ここで、翻訳処理に適した単位とは、機械翻訳装置に入力された音声を同時並行的に訳出し、最良の翻訳結果が得られるような意味のまとまりであればよく、一般的な手法を用いればよいため、ここでの説明は省略する。
なお、意味のまとまりは言語の種類に応じて区切りが異なるため、翻訳単位検出部103は、第1言語の種類に応じて意味のまとまりを決定すればよい。
翻訳部104は、翻訳単位検出部103から単位文字列、話者情報および時間情報を受け取り、単位文字列を第1言語とは異なる第2言語に翻訳し、翻訳文字列を得る。翻訳処理は、例えば、一般的なトランスファ方式、用例ベース方式、統計ベース方式、中間言語方式など、従来の機械翻訳(Machine Translation)技術において利用されているあらゆる方法を適用すればよく、ここでの説明を省略する。
制御部105は、翻訳部104から翻訳文字列、単位文字列、話者情報および時間情報を受け取る。制御部105は、話者情報および時間情報を参照して、時系列において発話間に重複がある場合に、後述する提示部106において、発話が重複する部分に対応する翻訳文字列の表示順序を変更するように制御する。表示順序の変更は、発話者に既に提示されている翻訳文字列と、発話時における他者の発話の発生状況に基づいて決定されるが、詳細については後述する。
提示部106は、例えばLCD(Liquid crystal display)やOLED(organic light emitting diode)ディスプレイのような表示デバイスであり、制御部105から翻訳文字列および単位文字列を受け取り、翻訳結果およびテキスト文字列を利用者に表示する。なお、テキスト文字列は、音声認識部102から受け取ってもよい。提示部106は、表示デバイスに限らず、プリンタデバイス、スピーカなどの音声デバイス、ハードディスクドライブなどの記憶媒体への記憶デバイスでもよい。
なお、翻訳文字列およびテキスト文字列を音声合成処理によって音声として出力することもできる。この音声合成処理は、音声素片編集音声合成、フォルマント音声合成、音声コーパスベースの音声合成、テキストトゥスピーチなどの一般的に利用されているあらゆる方法を適用することができる。この場合、制御部105は、表示位置を決定する代わりに、重複がある複数の翻訳文字列について音声間のポーズ長を変化させたり、音声出力の順序を変更すればよい。
さらに、本実施形態では、英語および中国語を第1言語として、日本語を第2言語として、第1言語と第2言語との間の翻訳を前提として説明するが、他の言語の組み合わせでもよいし、さらに複数の言語を同時に扱う場合でも同様に処理することができる。
なお、単位文字列および翻訳文字列が生成されるごとに、話者情報および時間情報とそれぞれ対応付けてバッファ(図示せず)に保持されるようにしてもよい。制御部105は、バッファに保持される時間情報および話者情報を参照して、翻訳文字列の表示順序を変更するように制御してもよい。
次に、制御部105における表示順序の制御処理について図2のフローチャートを参照して説明する。
ステップS201では、処理対象となる発話(対象発話ともいう)に対応する翻訳文字列iを取得する。
ステップS202では、翻訳文字列の表示を制御するための内部変数kをk=1に設定する。
ステップS203では、翻訳文字列iに対応する発話部分と重複する発話が存在するかどうかを判定する。重複する発話が存在するかどうかの判定は、翻訳文字列iに対応する時間情報と他の発話の翻訳文字列に対応する時間情報とを参照して、翻訳文字列iに対応する発話の継続時間と他の話者の発話の継続時間とに重複部分が存在するかどうかにより判定すればよい。翻訳文字列iに対応する発話部分と重複する発話が存在する場合はステップS204に進み、重複する発話が存在しない場合はステップS209に進む。
ステップS204では、既に提示部106に提示された翻訳文字列のうち、末尾からk番目の翻訳文字列に対応する発話hを得る。
ステップS205では、発話hが空であるかどうかを判定する。発話hが空である場合はステップS209に進み、発話hが空でない場合はステップS206に進む。なお、最初の翻訳文字列について処理している場合は、既に表示されている翻訳文字列は存在しないため、発話hは空となる。
ステップS206では、発話hの継続時間の終端が翻訳文字列iの発話の継続時間の始端より早い時刻かどうかを判定する。発話hの継続時間の終端が翻訳文字列iの発話の継続時間の始端よりも早い時刻である場合はステップS209に進み、そうでない場合はステップS207に進む。
ステップS207では、翻訳文字列iよりも前の発話であって、発話hと重複しない発話のうち、直前の発話の話者が翻訳文字列iの話者と同一であるかどうかを判定する。同一の話者であればステップS209に進み、同一の話者でない、すなわち話者が異なる場合はステップS208に進む。
ステップS208では、kを1つインクリメントし、ステップS204に戻り同様の処理を繰り返す。
ステップS209では、既に提示部106に表示された翻訳文字列のうち、末尾からk番目の翻訳文字列の後ろに翻訳文字列iを表示するように制御する。
ステップS210では、翻訳文字列iの1つ前に表示されている翻訳文字列の発話pを取得する。
ステップS211では、発話pと翻訳文字列iとの話者が同一であるかどうかを判定する。発話pと翻訳文字列iとの話者が同一である場合はステップS212に進み、発話pと翻訳文字列iとの話者が同一でない場合は処理を終了する。なお、最初の翻訳文字列について処理している場合は、翻訳文字列iと同一の話者は存在しないとして処理を終了する。
ステップS212では、発話pと翻訳文字列iとの表示を統合する。以上で制御部105の制御処理を終了する。
次に、図2に示す制御部105の制御処理に基づく音声翻訳装置100の動作の第1具体例について図3を参照して説明する。
図3は、異なる言語を発話する3人の話者A、話者Bおよび話者Cが、それぞれ発話する場合の時系列を示す図である。上側の発話ほど先の発話(早い時刻の発話)であることを示す。ここでは、話者Aが英語、話者Bが中国語、話者Cが日本語をそれぞれ発話するとする。発話301から発話304は、それぞれの話者の発話した内容(単位文字列)を示す吹き出しである。継続時間305から継続時間308は、発話301から発話304のそれぞれの継続時間を示す。
本実施形態では、発話の開始時間(発話始端ともいう)が早い発話から順に処理を行う場合を想定する。すなわち、図3の例では、発話301、発話302、発話303および発話304の順に処理することになる。
話者Aが発話301「Let’s have a next meeting on next Monday.」を発話したと想定する。
発話301に対応する翻訳文字列iが生成された場合、制御部105は、発話301の翻訳文字列iを対象発話として取得し、k=1に設定する。
発話301の継続時間305と時間的に重複する発話が存在しないため、提示部106に表示される翻訳文字列の末尾から1番目に発話301の翻訳文字列が表示される。ここでは、最初の発話であり提示部106に表示される翻訳文字列は存在しないため、発話301の翻訳文字列が最初に表示されることになる。続く処理として、発話301の1つ前に表示されている翻訳文字列に対応する発話を取得するが、現段階では発話が存在しないため、処理を終了する。
次に、話者Aが発話302「Is that OK for you?」を発話したと想定する。
発話302に対応する翻訳文字列iが生成された場合、制御部105は、発話302の翻訳文字列iを対象発話として取得し、k=1に設定する。
発話302の継続時間306と時間的に重複する継続時間を有する発話303,304が存在するため、提示部106に表示された発話における末尾からk番目の発話、つまり末尾である翻訳文字列に対応する発話301を取得する。継続時間305と継続時間306とを比較すると、発話301の発話終端が発話302の発話始端よりも早い時刻であり、かつ発話301の話者と発話302の話者とは同一であるため、発話301と発話302とは統合され、同一の枠内に収められて表示される。
次に、話者Bが発話303として、
を発話したと想定する。
発話303に対応する翻訳文字列iが生成された場合、制御部105は、発話303の翻訳文字列iを対象発話として取得し、k=1とに設定する。
発話303の継続時間307と時間的に重複する継続時間を有する発話302,304が存在するため、提示部106に表示された翻訳文字列における末尾からk番目の発話、つまり末尾である翻訳文字列に対応する発話302を取得する。継続時間306と継続時間307とを比較すると、発話302の発話終端は発話303の発話始端よりも後に存在する。さらに、発話303と重複しない直前の発話である発話301の話者は話者Aであるので、発話303の話者Bと同一ではない。よって、kを1つインクリメントしてk=2に設定する。
続いて、提示部106に表示された翻訳文字列における末尾からk番目の発話、つまり末尾から2番目の翻訳文字列に対応する発話301を取得する。継続時間305と継続時間307とを比較すると、発話301の発話終端は発話303の発話始端よりも前に存在するので、発話303を発話301の後に表示する。また、発話303の話者と発話301の話者とは同一ではないため、発話303に対する表示制御を終了する。これにより、発話303が、既に表示される発話302よりも時系列において前に表示される。
次に、話者Cが発話304「そうしましょう」と発話した場合を想定する。
発話304に対応する翻訳文字列iが生成された場合、制御部105は、発話304の翻訳文字列iを対象発話として取得し、k=1に設定する。
発話304の継続時間308と時間的に重複する継続時間を有する発話302,303が存在する。よって、提示部106に表示された翻訳文字列における末尾からk番目、つまり末尾である翻訳文字列に対応する発話302を取得する。継続時間306と継続時間308とを比較すると、発話302の発話終端は発話304の発話始端よりも遅い時刻である。また、発話304と重複しない直前の発話である発話301の話者は話者Aであるので、発話304の話者Cと同一ではない。よって、kを1つインクリメントしてk=2に設定する。
続いて、提示部106に表示された翻訳文字列における末尾から2番目の翻訳文字列に対応する発話303を取得する。継続時間307と継続時間308とを比較すると、発話303の発話終端は発話304の発話始端よりも遅い時刻である。また、発話304と重複しない直前の発話である発話301の話者は話者Aであるので、kをさらに1つインクリメントしてk=3に設定する。
提示部106に表示された翻訳文字列における末尾から3番目の発話301を取得する。継続時間305と継続時間308とを比較すると、発話301の発話終端は発話304の発話始端よりも早い時刻であるため発話304に対応する翻訳文字列iを発話301の後に表示する。ここで、発話304の話者と発話301の話者とは同一ではないため、発話304に対する表示制御を終了する。これにより、発話304が、既に表示される発話303および発話302よりも時系列において前に表示される。結果として、最終的な翻訳文字列の表示順序は、発話301、発話304、発話303、発話302となる。
次に、音声翻訳装置100の動作の第2具体例について図4を参照して説明する。
図4は、図3とほぼ同様であるが、話者Bの発話303が話者Aの発話302よりも時間的に前に発話された場合を示す。
発話301の翻訳文字列が表示されたのち、話者Bが発話303を発話したと想定する。発話303の翻訳文字列iが生成された場合、制御部105は、発話303の翻訳文字列iを対象発話として取得し、k=1に設定する。
発話303の継続時間と時間的に重複する継続時間を有する発話302,304が存在するため、提示部106に提示される翻訳文字列の末尾から1つ前に表示されている発話301を取得する。発話301の発話終端が発話303の発話始端よりも早い時刻であり、発話301と発話303との話者は異なるため、発話301の翻訳文字列の直後に発話303の翻訳文字列が表示される。
次に、話者Aが発話302を発話した場合を想定する。
発話302の翻訳文字列iが生成され、制御部105は、発話302の翻訳文字列iを対象発話として取得し、k=1に設定する。
発話302の継続時間と時間的に重複する発話303、発話304が存在するため、発話302の1つ前に表示されている発話303を取得する。発話303の発話終端が発話302の発話始端よりも遅い時刻であり、かつ、発話303と重複しない発話のうち、直前の発話である発話301の話者は、発話302の話者と同一である。従って、提示部106に提示された翻訳文字列の末尾から1番目に発話302の翻訳文字列が表示される。
発話304に関しては、図3と同様の処理が行われるので、最終的な翻訳文字列の表示順序は、発話301、発話304、発話303、発話302となる。
次に、提示部106における第1表示例について図5を参照して説明する。
図5は、図3の発話302の翻訳文字列に対する処理を完了した状態における表示であり、同一の話者が他者の発話と重複せずに連続して発話した場合の発話の表示例である。
ここでは、発話301の発話表示501として、上段に単位文字列を、下段に単位文字列の翻訳である翻訳文字列を表示する。また、発話301の話者502も表示する。
話者Aが、発話「来週の月曜日に次の会議を開きましょう」に連続して発話302「大丈夫でしょうか?」を発話した場合、制御部105は、同一の話者の発話に対応する翻訳文字列を統合して表示するように制御する。
提示部106では、制御部105からの制御に応じて、発話302の発話表示503と発話301の発話表示501とを1つのグループに統合し、発話表示504として表示する。このように、同一話者の発話が継続されている間は、その翻訳結果が1つに関連づけられて表示されるため、翻訳結果においても発話の継続性に関する了解性を向上させることができる。
次に、提示部106における第2表示例について図6を参照して説明する。
図6は、図5に示す発話表示504の状態から、他者の発話がある場合の発話の表示例であり、図3の例では、発話303の翻訳文字列に対する処理を完了した状態における表示である。
図3の例に従い、制御部105は、発話301の直後に発話303を表示させるように制御する。その結果、提示部106では、発話表示501と発話表示503とを分離し、発話表示501の直後に、発話303の発話表示601を表示し、発話表示601の後に発話表示503を表示する。
次に、提示部106における第3表示例について図7を参照して説明する。
図7は、図3の発話304の翻訳文字列に対する処理を完了した状態における表示である。
図3の例に従い、制御部105は、発話301の直後に発話304を表示させるように制御する。従って、提示部106では、発話表示501の直後に発話304の発話表示701が表示され、続いて、発話表示601および発話表示503が順次表示される。
図6および図7に示す処理を行うことで、話者がどこまでの翻訳結果を基に発話したかが明確となり、翻訳結果の了解性を高めることができる。
次に、制御部105における表示順序の制御処理に関する第1変形例について図8を参照して説明する。
図8の例では、発話表示601を発話表示503よりも時間的な前に表示せずに、発話表示503と発話表示601とを横に並列させて表示する。このようにしても、翻訳結果の了解性を高めることができる。
次に、制御部105における表示順序の制御処理に関する第2変形例について図9を参照して説明する。
図9の例では、現行の発話と、先行する発話の直後に表示すべきと判定された発話とを1組として表示する。
例えば、発話表示601は、発話表示501の直後であると表示順序が決定されるため、発話表示501と発話表示601とを1組として表示すればよい。
以上に示した本実施形態によれば、発話に重複が存在する場合に、発話の継続時間と話者とに基づいて表示順序を制御することで、同一話者の連続発話、および話者がどこまでの翻訳文字列を基準として発話したかが明確となり、発話の了解性が高めることができ、誤解の発生を抑制することができる。
なお、談話解析の技術を用いて、文脈上の前後関係に基づいて提示順序を制御してもよい。または、先行提示済の発話の前に、新たな翻訳結果を提示するように制御する際は、後置される発話を薄い色にしたり、図8のように提示位置をずらして提示したりするなど、発話の連続性が失われた事を強調して提示するよう制御してもよい。
(比較例)
比較例として、従来手法による翻訳結果の表示について図10を参照して説明する。
図10の発話表示501および発話表示503に示す話者Aの ”Let’s have a next meeting on next Monday. Is that OK for you?” という発話に対して、話者Bが
と発話し、話者Cが「そうしましょう」と発話したとする。
この時、話者Bの発話が話者Cに先行する場合、表示画面上は、話者Bの発話表示601の後に話者Cの発話表示701が表示される。そのため、話者Cは、話者Aの「月曜日に会議を開催する」という提案に同意したにもかかわらず、話者Bの「火曜日に会議を開催する」という提案に同意したように解釈されてしまう。
本実施形態では、話者がどこまでの翻訳文字列を基準として発話したかが表示として明確となるため、比較例のような誤った解釈がなされるのを低減することができる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した音声翻訳装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の音声翻訳装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100・・・音声翻訳装置、101・・・音声取得部、102・・・音声認識部、103・・・翻訳単位検出部、104・・・翻訳部、105・・・制御部、106・・・提示部、301〜304・・・発話、305〜308・・・継続時間、501,503,504,601,602,701・・・発話表示、502・・・話者。

Claims (10)

  1. 複数の話者による1種類以上の第1言語の発話を時系列順に音声認識処理し、音声認識結果であるテキスト文字列を得る音声認識部と、
    前記テキスト文字列の意味のまとまりを検出し、該意味のまとまりで区切られる文字列を示す1以上の単位文字列を得る検出部と、
    前記1以上の単位文字列を前記第1言語とは異なる第2言語に翻訳し、1以上の翻訳文字列を得る翻訳部と、
    時系列において前記発話間に重複がある場合、重複する部分に対応する翻訳文字列の表示順序を変更するように制御する制御部と、を具備することを特徴とする音声翻訳装置。
  2. 前記制御部は、前記発話の継続時間と前記話者とに基づいて前記表示順序を制御することを特徴とする請求項1に記載の音声翻訳装置。
  3. 前記制御部は、同一の話者の発話が他の話者の発話と重複せずに連続する場合、該同一の話者の発話に対応する翻訳文字列を統合して表示するように制御することを特徴とする請求項1または請求項2に記載の音声翻訳装置。
  4. 前記制御部は、処理対象となる対象発話が他の発話と重複する場合、かつ、該対象発話よりも前の発話であってかつ重複がない発話のうち直前の発話の話者と該対象発話の話者とが同一ではない場合、該対象発話に対応する翻訳文字列を、該対象発話と重複する発話に対応し既に表示される翻訳文字列よりも時系列において前に表示するように制御することを特徴とする請求項1から請求項3のいずれか1項に記載の音声翻訳装置。
  5. 前記制御部は、処理対象となる対象発話が他の発話と重複する場合、該対象発話に対応する翻訳文字列と該対象発話と重複する発話に対応する翻訳文字列とを並列して表示するように制御することを特徴とする請求項1から請求項3のいずれか1項に記載の音声翻訳装置。
  6. 前記制御部は、処理対象となる対象発話が他の発話と重複する場合、該対象発話よりも前の発話であってかつ重複がない発話のうち直前の発話に対応する翻訳文字列と、該対象発話に対応する翻訳文字列とを1組として表示するように制御することを特徴とする請求項1から請求項3のいずれか1項に記載の音声翻訳装置。
  7. 前記検出部は、前記第1言語の種類に応じて前記意味のまとまりを検出することを特徴とする請求項1から請求項6のいずれか1項に記載の音声翻訳装置。
  8. 前記制御部は、前記翻訳文字列に対応する発話の継続時間と他の話者の発話の継続時間とに重複部分が存在するか否かに基づいて、前記発話間に重複があるか否かを判定することを特徴とする請求項1から請求項7のいずれか1項に記載の音声翻訳装置。
  9. 複数の話者による1種類以上の第1言語の発話を時系列順に音声認識処理し、音声認識結果であるテキスト文字列を得、
    前記テキスト文字列の意味のまとまりを検出し、該意味のまとまりで区切られる文字列を示す1以上の単位文字列を得、
    前記1以上の単位文字列を前記第1言語とは異なる第2言語に翻訳し、1以上の翻訳文字列を得、
    時系列において前記発話間に重複がある場合、重複する部分に対応する翻訳文字列の表示順序を変更するように制御することを特徴とする音声翻訳方法。
  10. コンピュータを、
    複数の話者による1種類以上の第1言語の発話を時系列順に音声認識処理し、音声認識結果であるテキスト文字列を得る音声認識手段と、
    前記テキスト文字列の意味のまとまりを検出し、該意味のまとまりで区切られる文字列を示す1以上の単位文字列を得る検出手段と、
    前記1以上の単位文字列を前記第1言語とは異なる第2言語に翻訳し、1以上の翻訳文字列を得る翻訳手段と、
    時系列において前記発話間に重複がある場合、重複する部分に対応する翻訳文字列の表示順序を変更するように制御する制御手段として機能させるための音声翻訳プログラム。
JP2014190411A 2014-09-18 2014-09-18 音声翻訳装置、方法およびプログラム Pending JP2016062357A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014190411A JP2016062357A (ja) 2014-09-18 2014-09-18 音声翻訳装置、方法およびプログラム
US14/848,338 US9600475B2 (en) 2014-09-18 2015-09-09 Speech translation apparatus and method
CN201510574967.5A CN105446960B (zh) 2014-09-18 2015-09-10 语音翻译装置、方法及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014190411A JP2016062357A (ja) 2014-09-18 2014-09-18 音声翻訳装置、方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2016062357A true JP2016062357A (ja) 2016-04-25

Family

ID=55525900

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014190411A Pending JP2016062357A (ja) 2014-09-18 2014-09-18 音声翻訳装置、方法およびプログラム

Country Status (3)

Country Link
US (1) US9600475B2 (ja)
JP (1) JP2016062357A (ja)
CN (1) CN105446960B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10423700B2 (en) 2016-03-16 2019-09-24 Kabushiki Kaisha Toshiba Display assist apparatus, method, and program
CN111654658A (zh) * 2020-06-17 2020-09-11 平安科技(深圳)有限公司 音视频通话的处理方法、***、编解码器及存储装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10121474B2 (en) * 2016-02-17 2018-11-06 Microsoft Technology Licensing, Llc Contextual note taking
US9747282B1 (en) 2016-09-27 2017-08-29 Doppler Labs, Inc. Translation with conversational overlap
CN106486125A (zh) * 2016-09-29 2017-03-08 安徽声讯信息技术有限公司 一种基于语音识别技术的同声传译***
US10431216B1 (en) * 2016-12-29 2019-10-01 Amazon Technologies, Inc. Enhanced graphical user interface for voice communications
US11582174B1 (en) 2017-02-24 2023-02-14 Amazon Technologies, Inc. Messaging content data storage
KR20200125735A (ko) * 2018-04-27 2020-11-04 주식회사 엘솔루 음성 인식 기술을 이용한 다자간 대화 기록/출력 방법 및 이를 위한 장치
CN110162252A (zh) * 2019-05-24 2019-08-23 北京百度网讯科技有限公司 同声传译***、方法、移动终端及服务器
KR102190986B1 (ko) * 2019-07-03 2020-12-15 주식회사 마인즈랩 개별 화자 별 음성 생성 방법
KR102264224B1 (ko) * 2020-12-30 2021-06-11 주식회사 버넥트 실시간 번역 서비스 기반의 원격 커뮤니케이션 방법 및 그 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005345681A (ja) * 2004-06-02 2005-12-15 Nippon Telegr & Teleph Corp <Ntt> 異言語間対話処理方法および装置
JP2008077601A (ja) * 2006-09-25 2008-04-03 Toshiba Corp 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP2013164515A (ja) * 2012-02-10 2013-08-22 Toshiba Corp 音声翻訳装置、音声翻訳方法および音声翻訳プログラム

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6424946B1 (en) * 1999-04-09 2002-07-23 International Business Machines Corporation Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering
JP2000322077A (ja) 1999-05-12 2000-11-24 Sony Corp テレビジョン装置
JP2001117920A (ja) 1999-10-15 2001-04-27 Sony Corp 翻訳装置および翻訳方法、並びに記録媒体
US6556972B1 (en) * 2000-03-16 2003-04-29 International Business Machines Corporation Method and apparatus for time-synchronized translation and synthesis of natural-language speech
JP2002101205A (ja) 2000-09-22 2002-04-05 Sharp Corp 会議支援装置及び方法並びにこれに利用される記憶媒体
US7567908B2 (en) * 2004-01-13 2009-07-28 International Business Machines Corporation Differential dynamic content delivery with text display in dependence upon simultaneous speech
JP2006050500A (ja) 2004-08-09 2006-02-16 Jfe Systems Inc 会議支援システム
US20070133437A1 (en) * 2005-12-13 2007-06-14 Wengrovitz Michael S System and methods for enabling applications of who-is-speaking (WIS) signals
US8972268B2 (en) * 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US20080300872A1 (en) * 2007-05-31 2008-12-04 Microsoft Corporation Scalable summaries of audio or visual content
KR100911621B1 (ko) * 2007-12-18 2009-08-12 한국전자통신연구원 한영 자동번역 방법 및 장치
US8407049B2 (en) * 2008-04-23 2013-03-26 Cogi, Inc. Systems and methods for conversation enhancement
US8370142B2 (en) * 2009-10-30 2013-02-05 Zipdx, Llc Real-time transcription of conference calls
JP5014449B2 (ja) * 2010-02-26 2012-08-29 シャープ株式会社 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム
US9245254B2 (en) * 2011-12-01 2016-01-26 Elwha Llc Enhanced voice conferencing with history, language translation and identification
JP2013206253A (ja) 2012-03-29 2013-10-07 Toshiba Corp 機械翻訳装置、方法、およびプログラム
JP5727980B2 (ja) 2012-09-28 2015-06-03 株式会社東芝 表現変換装置、方法およびプログラム
US9231898B2 (en) * 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US8996352B2 (en) * 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US9031829B2 (en) * 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US20160179831A1 (en) * 2013-07-15 2016-06-23 Vocavu Solutions Ltd. Systems and methods for textual content creation from sources of audio that contain speech
JP6235280B2 (ja) * 2013-09-19 2017-11-22 株式会社東芝 音声同時処理装置、方法およびプログラム
JP2015201215A (ja) 2015-05-25 2015-11-12 株式会社東芝 機械翻訳装置、方法、およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005345681A (ja) * 2004-06-02 2005-12-15 Nippon Telegr & Teleph Corp <Ntt> 異言語間対話処理方法および装置
JP2008077601A (ja) * 2006-09-25 2008-04-03 Toshiba Corp 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP2013164515A (ja) * 2012-02-10 2013-08-22 Toshiba Corp 音声翻訳装置、音声翻訳方法および音声翻訳プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10423700B2 (en) 2016-03-16 2019-09-24 Kabushiki Kaisha Toshiba Display assist apparatus, method, and program
CN111654658A (zh) * 2020-06-17 2020-09-11 平安科技(深圳)有限公司 音视频通话的处理方法、***、编解码器及存储装置
CN111654658B (zh) * 2020-06-17 2022-04-15 平安科技(深圳)有限公司 音视频通话的处理方法、***、编解码器及存储装置

Also Published As

Publication number Publication date
US20160085747A1 (en) 2016-03-24
CN105446960A (zh) 2016-03-30
CN105446960B (zh) 2018-09-11
US9600475B2 (en) 2017-03-21

Similar Documents

Publication Publication Date Title
JP2016062357A (ja) 音声翻訳装置、方法およびプログラム
JP6463825B2 (ja) 多重話者音声認識修正システム
US8155958B2 (en) Speech-to-text system, speech-to-text method, and speech-to-text program
US9236045B2 (en) Methods and apparatus for proofing of a text input
JP4987623B2 (ja) ユーザと音声により対話する装置および方法
US9202466B2 (en) Spoken dialog system using prominence
JP2016057986A (ja) 音声翻訳装置、方法およびプログラム
JP6235280B2 (ja) 音声同時処理装置、方法およびプログラム
US20130035936A1 (en) Language transcription
JP5787780B2 (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2013206253A (ja) 機械翻訳装置、方法、およびプログラム
JP2015060095A (ja) 音声翻訳装置、音声翻訳方法およびプログラム
JP5451982B2 (ja) 支援装置、プログラムおよび支援方法
JP2013025299A (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2015201215A (ja) 機械翻訳装置、方法、およびプログラム
JP2010197644A (ja) 音声認識システム
JP7326931B2 (ja) プログラム、情報処理装置、及び情報処理方法
JP6599914B2 (ja) 音声認識装置、音声認識方法およびプログラム
WO2021059968A1 (ja) 音声認識装置、音声認識方法、およびプログラム
Chen et al. A proof-of-concept study for automatic speech recognition to transcribe AAC speakers’ speech from high-technology AAC systems
EP4261822A1 (en) Setting up of speech processing engines
KR101501705B1 (ko) 음성 데이터를 이용한 문서 생성 장치, 방법 및 컴퓨터 판독 가능 기록 매체
JP6340839B2 (ja) 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム
US20220399030A1 (en) Systems and Methods for Voice Based Audio and Text Alignment
KR101704501B1 (ko) 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170306

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180306

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180327