JP2016062357A

JP2016062357A - 音声翻訳装置、方法およびプログラム

Info

Publication number: JP2016062357A
Application number: JP2014190411A
Authority: JP
Inventors: 聡史釜谷; Satoshi Kamaya; 住田　一男; Kazuo Sumita; 一男住田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2014-09-18
Filing date: 2014-09-18
Publication date: 2016-04-25
Also published as: US20160085747A1; CN105446960A; CN105446960B; US9600475B2

Abstract

【課題】発話の了解性が高めることができる。【解決手段】本開示の一実施形態に係る音声翻訳装置は、音声認識部、検出部、翻訳部及び制御部を含む。音声認識部は、複数の話者による１種類以上の第１言語の発話を時系列順に音声認識処理し、音声認識結果であるテキスト文字列を得る。検出部は、前記テキスト文字列の意味のまとまりを検出し、該意味のまとまりで区切られる文字列を示す１以上の単位文字列を得る。翻訳部は、前記１以上の単位文字列を前記第１言語とは異なる第２言語に翻訳し、１以上の翻訳文字列を得る。制御部は、時系列において前記発話間に重複がある場合、重複する部分に対応する翻訳文字列の表示順序を変更するように制御する。【選択図】図１

Description

本発明の実施形態は、音声翻訳装置、方法およびプログラムに関する。

音声言語処理技術の進展により、第１言語による入力を第２の言語に変換して出力する音声翻訳機器が実現されている。入力や出力の形式は、アプリケーションに応じて文字列（テキスト）であったり音声であったりするが、人が話した音声を翻訳する技術として本質は同じである。
音声翻訳技術は、会議や講演における翻訳の字幕表示や、翻訳の音声出力に応用が可能である。音声通訳技術の一例としては、例えば、会議字幕システムがある。

特開２００２−１０１２０５号公報

しかし、翻訳結果は、翻訳対象となる区間の発話が終わった後に提示されることから、翻訳結果を提示するタイミングによっては、利用者が翻訳結果を誤って解釈してしまうという問題がある。

本発明は、上述した課題を解決するためになされたものであり、翻訳結果の誤解を低減することができる音声翻訳装置、方法およびプログラムを提供することを目的とする。

本発明の一実施形態に係る音声翻訳装置は、音声認識部、検出部、翻訳部及び制御部を含む。音声認識部は、複数の話者による１種類以上の第１言語の発話を時系列順に音声認識処理し、音声認識結果であるテキスト文字列を得る。検出部は、前記テキスト文字列の意味のまとまりを検出し、該意味のまとまりで区切られる文字列を示す１以上の単位文字列を得る。翻訳部は、前記１以上の単位文字列を前記第１言語とは異なる第２言語に翻訳し、１以上の翻訳文字列を得る。制御部は、時系列において前記発話間に重複がある場合、重複する部分に対応する翻訳文字列の表示順序を変更するように制御する。

本実施形態に係る音声翻訳装置を示すブロック図。制御部における制御処理を示すフローチャート。音声翻訳装置の動作の第１具体例を示す図。音声翻訳装置の動作の第２具体例を示す図。提示部における第１表示例を示す図。提示部における第２表示例を示す図。提示部における第３表示例を示す図。制御部における制御処理の第１変形例を示す図。制御部における制御処理の第２変形例を示す図。従来手法による翻訳結果の表示を説明する図。

以下、図面を参照しながら本開示の一実施形態に係る音声翻訳装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行なうものとして、重ねての説明を省略する。

第１の実施形態に係る音声翻訳装置について図１のブロック図を参照して説明する。
本実施形態に係る音声翻訳装置１００は、音声取得部１０１、音声認識部１０２、翻訳単位検出部１０３、翻訳部１０４、制御部１０５および提示部１０６を含む。

音声取得部１０１は、第１言語を発する話者の発話を音声信号として取得する。さらに音声取得部１０１は、音声信号の発話者を示す話者情報と、音声信号を取得した時刻および音声信号の継続時間を含む時間情報とを音声信号に対応付けて取得する。第１言語は、１種類以上の言語を含む。音声信号は、例えば、マイクロフォンを通して集音し、これをアナログデジタル変換器（Ａ／Ｄ変換器）により処理することで得ることができる。また、予め音声が記録された記録媒体を、再生デバイスなどにより読み込んで再生することで音声信号を取得してもよい。

音声認識部１０２は、音声取得部１０１から音声信号、話者情報および時間情報を受け取り、音声信号に対して時系列順に音声認識処理し、音声信号の音声認識結果であるテキスト文字列を得る。音声認識処理は、例えば、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：ＨＭＭ）を利用するなど、一般的な方法で行えばよいのでここでの詳細な説明は省略する。

翻訳単位検出部１０３は、音声認識部１０２からテキスト文字列、話者情報および時間情報を受け取り、翻訳処理に適したテキスト文字列の意味のまとまりを検出し、意味のまとまりで区切られる文字列である単位文字列を生成する。
話者が発する話し言葉には、書き言葉に含まれる句読点のような明確な区切りがないため、同時性が高く品質のよい音声通訳を実現するには、翻訳処理に適した単位に分割する必要がある。ここで、翻訳処理に適した単位とは、機械翻訳装置に入力された音声を同時並行的に訳出し、最良の翻訳結果が得られるような意味のまとまりであればよく、一般的な手法を用いればよいため、ここでの説明は省略する。
なお、意味のまとまりは言語の種類に応じて区切りが異なるため、翻訳単位検出部１０３は、第１言語の種類に応じて意味のまとまりを決定すればよい。

翻訳部１０４は、翻訳単位検出部１０３から単位文字列、話者情報および時間情報を受け取り、単位文字列を第１言語とは異なる第２言語に翻訳し、翻訳文字列を得る。翻訳処理は、例えば、一般的なトランスファ方式、用例ベース方式、統計ベース方式、中間言語方式など、従来の機械翻訳（ＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ）技術において利用されているあらゆる方法を適用すればよく、ここでの説明を省略する。

制御部１０５は、翻訳部１０４から翻訳文字列、単位文字列、話者情報および時間情報を受け取る。制御部１０５は、話者情報および時間情報を参照して、時系列において発話間に重複がある場合に、後述する提示部１０６において、発話が重複する部分に対応する翻訳文字列の表示順序を変更するように制御する。表示順序の変更は、発話者に既に提示されている翻訳文字列と、発話時における他者の発話の発生状況に基づいて決定されるが、詳細については後述する。

提示部１０６は、例えばＬＣＤ（Ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ）やＯＬＥＤ（ｏｒｇａｎｉｃｌｉｇｈｔｅｍｉｔｔｉｎｇｄｉｏｄｅ）ディスプレイのような表示デバイスであり、制御部１０５から翻訳文字列および単位文字列を受け取り、翻訳結果およびテキスト文字列を利用者に表示する。なお、テキスト文字列は、音声認識部１０２から受け取ってもよい。提示部１０６は、表示デバイスに限らず、プリンタデバイス、スピーカなどの音声デバイス、ハードディスクドライブなどの記憶媒体への記憶デバイスでもよい。

なお、翻訳文字列およびテキスト文字列を音声合成処理によって音声として出力することもできる。この音声合成処理は、音声素片編集音声合成、フォルマント音声合成、音声コーパスベースの音声合成、テキストトゥスピーチなどの一般的に利用されているあらゆる方法を適用することができる。この場合、制御部１０５は、表示位置を決定する代わりに、重複がある複数の翻訳文字列について音声間のポーズ長を変化させたり、音声出力の順序を変更すればよい。

さらに、本実施形態では、英語および中国語を第１言語として、日本語を第２言語として、第１言語と第２言語との間の翻訳を前提として説明するが、他の言語の組み合わせでもよいし、さらに複数の言語を同時に扱う場合でも同様に処理することができる。

なお、単位文字列および翻訳文字列が生成されるごとに、話者情報および時間情報とそれぞれ対応付けてバッファ（図示せず）に保持されるようにしてもよい。制御部１０５は、バッファに保持される時間情報および話者情報を参照して、翻訳文字列の表示順序を変更するように制御してもよい。

次に、制御部１０５における表示順序の制御処理について図２のフローチャートを参照して説明する。
ステップＳ２０１では、処理対象となる発話（対象発話ともいう）に対応する翻訳文字列ｉを取得する。
ステップＳ２０２では、翻訳文字列の表示を制御するための内部変数ｋをｋ＝１に設定する。

ステップＳ２０３では、翻訳文字列ｉに対応する発話部分と重複する発話が存在するかどうかを判定する。重複する発話が存在するかどうかの判定は、翻訳文字列ｉに対応する時間情報と他の発話の翻訳文字列に対応する時間情報とを参照して、翻訳文字列ｉに対応する発話の継続時間と他の話者の発話の継続時間とに重複部分が存在するかどうかにより判定すればよい。翻訳文字列ｉに対応する発話部分と重複する発話が存在する場合はステップＳ２０４に進み、重複する発話が存在しない場合はステップＳ２０９に進む。

ステップＳ２０４では、既に提示部１０６に提示された翻訳文字列のうち、末尾からｋ番目の翻訳文字列に対応する発話ｈを得る。
ステップＳ２０５では、発話ｈが空であるかどうかを判定する。発話ｈが空である場合はステップＳ２０９に進み、発話ｈが空でない場合はステップＳ２０６に進む。なお、最初の翻訳文字列について処理している場合は、既に表示されている翻訳文字列は存在しないため、発話ｈは空となる。

ステップＳ２０６では、発話ｈの継続時間の終端が翻訳文字列ｉの発話の継続時間の始端より早い時刻かどうかを判定する。発話ｈの継続時間の終端が翻訳文字列ｉの発話の継続時間の始端よりも早い時刻である場合はステップＳ２０９に進み、そうでない場合はステップＳ２０７に進む。
ステップＳ２０７では、翻訳文字列ｉよりも前の発話であって、発話ｈと重複しない発話のうち、直前の発話の話者が翻訳文字列ｉの話者と同一であるかどうかを判定する。同一の話者であればステップＳ２０９に進み、同一の話者でない、すなわち話者が異なる場合はステップＳ２０８に進む。
ステップＳ２０８では、ｋを１つインクリメントし、ステップＳ２０４に戻り同様の処理を繰り返す。

ステップＳ２０９では、既に提示部１０６に表示された翻訳文字列のうち、末尾からｋ番目の翻訳文字列の後ろに翻訳文字列ｉを表示するように制御する。
ステップＳ２１０では、翻訳文字列ｉの１つ前に表示されている翻訳文字列の発話ｐを取得する。

ステップＳ２１１では、発話ｐと翻訳文字列ｉとの話者が同一であるかどうかを判定する。発話ｐと翻訳文字列ｉとの話者が同一である場合はステップＳ２１２に進み、発話ｐと翻訳文字列ｉとの話者が同一でない場合は処理を終了する。なお、最初の翻訳文字列について処理している場合は、翻訳文字列ｉと同一の話者は存在しないとして処理を終了する。
ステップＳ２１２では、発話ｐと翻訳文字列ｉとの表示を統合する。以上で制御部１０５の制御処理を終了する。

次に、図２に示す制御部１０５の制御処理に基づく音声翻訳装置１００の動作の第１具体例について図３を参照して説明する。
図３は、異なる言語を発話する３人の話者Ａ、話者Ｂおよび話者Ｃが、それぞれ発話する場合の時系列を示す図である。上側の発話ほど先の発話（早い時刻の発話）であることを示す。ここでは、話者Ａが英語、話者Ｂが中国語、話者Ｃが日本語をそれぞれ発話するとする。発話３０１から発話３０４は、それぞれの話者の発話した内容（単位文字列）を示す吹き出しである。継続時間３０５から継続時間３０８は、発話３０１から発話３０４のそれぞれの継続時間を示す。
本実施形態では、発話の開始時間（発話始端ともいう）が早い発話から順に処理を行う場合を想定する。すなわち、図３の例では、発話３０１、発話３０２、発話３０３および発話３０４の順に処理することになる。

話者Ａが発話３０１「Let’s have a next meeting on next Monday.」を発話したと想定する。
発話３０１に対応する翻訳文字列ｉが生成された場合、制御部１０５は、発話３０１の翻訳文字列ｉを対象発話として取得し、ｋ＝１に設定する。
発話３０１の継続時間３０５と時間的に重複する発話が存在しないため、提示部１０６に表示される翻訳文字列の末尾から１番目に発話３０１の翻訳文字列が表示される。ここでは、最初の発話であり提示部１０６に表示される翻訳文字列は存在しないため、発話３０１の翻訳文字列が最初に表示されることになる。続く処理として、発話３０１の１つ前に表示されている翻訳文字列に対応する発話を取得するが、現段階では発話が存在しないため、処理を終了する。

次に、話者Ａが発話３０２「Is that OK for you?」を発話したと想定する。
発話３０２に対応する翻訳文字列ｉが生成された場合、制御部１０５は、発話３０２の翻訳文字列ｉを対象発話として取得し、ｋ＝１に設定する。
発話３０２の継続時間３０６と時間的に重複する継続時間を有する発話３０３，３０４が存在するため、提示部１０６に表示された発話における末尾からｋ番目の発話、つまり末尾である翻訳文字列に対応する発話３０１を取得する。継続時間３０５と継続時間３０６とを比較すると、発話３０１の発話終端が発話３０２の発話始端よりも早い時刻であり、かつ発話３０１の話者と発話３０２の話者とは同一であるため、発話３０１と発話３０２とは統合され、同一の枠内に収められて表示される。

次に、話者Ｂが発話３０３として、

を発話したと想定する。
発話３０３に対応する翻訳文字列ｉが生成された場合、制御部１０５は、発話３０３の翻訳文字列ｉを対象発話として取得し、ｋ＝１とに設定する。
発話３０３の継続時間３０７と時間的に重複する継続時間を有する発話３０２，３０４が存在するため、提示部１０６に表示された翻訳文字列における末尾からｋ番目の発話、つまり末尾である翻訳文字列に対応する発話３０２を取得する。継続時間３０６と継続時間３０７とを比較すると、発話３０２の発話終端は発話３０３の発話始端よりも後に存在する。さらに、発話３０３と重複しない直前の発話である発話３０１の話者は話者Ａであるので、発話３０３の話者Ｂと同一ではない。よって、ｋを１つインクリメントしてｋ＝２に設定する。

続いて、提示部１０６に表示された翻訳文字列における末尾からｋ番目の発話、つまり末尾から２番目の翻訳文字列に対応する発話３０１を取得する。継続時間３０５と継続時間３０７とを比較すると、発話３０１の発話終端は発話３０３の発話始端よりも前に存在するので、発話３０３を発話３０１の後に表示する。また、発話３０３の話者と発話３０１の話者とは同一ではないため、発話３０３に対する表示制御を終了する。これにより、発話３０３が、既に表示される発話３０２よりも時系列において前に表示される。

次に、話者Ｃが発話３０４「そうしましょう」と発話した場合を想定する。
発話３０４に対応する翻訳文字列ｉが生成された場合、制御部１０５は、発話３０４の翻訳文字列ｉを対象発話として取得し、ｋ=１に設定する。
発話３０４の継続時間３０８と時間的に重複する継続時間を有する発話３０２，３０３が存在する。よって、提示部１０６に表示された翻訳文字列における末尾からｋ番目、つまり末尾である翻訳文字列に対応する発話３０２を取得する。継続時間３０６と継続時間３０８とを比較すると、発話３０２の発話終端は発話３０４の発話始端よりも遅い時刻である。また、発話３０４と重複しない直前の発話である発話３０１の話者は話者Ａであるので、発話３０４の話者Ｃと同一ではない。よって、ｋを１つインクリメントしてｋ＝２に設定する。

続いて、提示部１０６に表示された翻訳文字列における末尾から２番目の翻訳文字列に対応する発話３０３を取得する。継続時間３０７と継続時間３０８とを比較すると、発話３０３の発話終端は発話３０４の発話始端よりも遅い時刻である。また、発話３０４と重複しない直前の発話である発話３０１の話者は話者Ａであるので、ｋをさらに１つインクリメントしてｋ=３に設定する。
提示部１０６に表示された翻訳文字列における末尾から３番目の発話３０１を取得する。継続時間３０５と継続時間３０８とを比較すると、発話３０１の発話終端は発話３０４の発話始端よりも早い時刻であるため発話３０４に対応する翻訳文字列ｉを発話３０１の後に表示する。ここで、発話３０４の話者と発話３０１の話者とは同一ではないため、発話３０４に対する表示制御を終了する。これにより、発話３０４が、既に表示される発話３０３および発話３０２よりも時系列において前に表示される。結果として、最終的な翻訳文字列の表示順序は、発話３０１、発話３０４、発話３０３、発話３０２となる。

次に、音声翻訳装置１００の動作の第２具体例について図４を参照して説明する。
図４は、図３とほぼ同様であるが、話者Ｂの発話３０３が話者Ａの発話３０２よりも時間的に前に発話された場合を示す。

発話３０１の翻訳文字列が表示されたのち、話者Ｂが発話３０３を発話したと想定する。発話３０３の翻訳文字列ｉが生成された場合、制御部１０５は、発話３０３の翻訳文字列ｉを対象発話として取得し、ｋ＝１に設定する。
発話３０３の継続時間と時間的に重複する継続時間を有する発話３０２，３０４が存在するため、提示部１０６に提示される翻訳文字列の末尾から１つ前に表示されている発話３０１を取得する。発話３０１の発話終端が発話３０３の発話始端よりも早い時刻であり、発話３０１と発話３０３との話者は異なるため、発話３０１の翻訳文字列の直後に発話３０３の翻訳文字列が表示される。

次に、話者Ａが発話３０２を発話した場合を想定する。
発話３０２の翻訳文字列ｉが生成され、制御部１０５は、発話３０２の翻訳文字列ｉを対象発話として取得し、ｋ＝１に設定する。
発話３０２の継続時間と時間的に重複する発話３０３、発話３０４が存在するため、発話３０２の１つ前に表示されている発話３０３を取得する。発話３０３の発話終端が発話３０２の発話始端よりも遅い時刻であり、かつ、発話３０３と重複しない発話のうち、直前の発話である発話３０１の話者は、発話３０２の話者と同一である。従って、提示部１０６に提示された翻訳文字列の末尾から１番目に発話３０２の翻訳文字列が表示される。

発話３０４に関しては、図３と同様の処理が行われるので、最終的な翻訳文字列の表示順序は、発話３０１、発話３０４、発話３０３、発話３０２となる。

次に、提示部１０６における第１表示例について図５を参照して説明する。
図５は、図３の発話３０２の翻訳文字列に対する処理を完了した状態における表示であり、同一の話者が他者の発話と重複せずに連続して発話した場合の発話の表示例である。

ここでは、発話３０１の発話表示５０１として、上段に単位文字列を、下段に単位文字列の翻訳である翻訳文字列を表示する。また、発話３０１の話者５０２も表示する。
話者Ａが、発話「来週の月曜日に次の会議を開きましょう」に連続して発話３０２「大丈夫でしょうか？」を発話した場合、制御部１０５は、同一の話者の発話に対応する翻訳文字列を統合して表示するように制御する。

提示部１０６では、制御部１０５からの制御に応じて、発話３０２の発話表示５０３と発話３０１の発話表示５０１とを１つのグループに統合し、発話表示５０４として表示する。このように、同一話者の発話が継続されている間は、その翻訳結果が１つに関連づけられて表示されるため、翻訳結果においても発話の継続性に関する了解性を向上させることができる。

次に、提示部１０６における第２表示例について図６を参照して説明する。
図６は、図５に示す発話表示５０４の状態から、他者の発話がある場合の発話の表示例であり、図３の例では、発話３０３の翻訳文字列に対する処理を完了した状態における表示である。

図３の例に従い、制御部１０５は、発話３０１の直後に発話３０３を表示させるように制御する。その結果、提示部１０６では、発話表示５０１と発話表示５０３とを分離し、発話表示５０１の直後に、発話３０３の発話表示６０１を表示し、発話表示６０１の後に発話表示５０３を表示する。

次に、提示部１０６における第３表示例について図７を参照して説明する。
図７は、図３の発話３０４の翻訳文字列に対する処理を完了した状態における表示である。

図３の例に従い、制御部１０５は、発話３０１の直後に発話３０４を表示させるように制御する。従って、提示部１０６では、発話表示５０１の直後に発話３０４の発話表示７０１が表示され、続いて、発話表示６０１および発話表示５０３が順次表示される。
図６および図７に示す処理を行うことで、話者がどこまでの翻訳結果を基に発話したかが明確となり、翻訳結果の了解性を高めることができる。

次に、制御部１０５における表示順序の制御処理に関する第１変形例について図８を参照して説明する。
図８の例では、発話表示６０１を発話表示５０３よりも時間的な前に表示せずに、発話表示５０３と発話表示６０１とを横に並列させて表示する。このようにしても、翻訳結果の了解性を高めることができる。

次に、制御部１０５における表示順序の制御処理に関する第２変形例について図９を参照して説明する。
図９の例では、現行の発話と、先行する発話の直後に表示すべきと判定された発話とを１組として表示する。
例えば、発話表示６０１は、発話表示５０１の直後であると表示順序が決定されるため、発話表示５０１と発話表示６０１とを１組として表示すればよい。

以上に示した本実施形態によれば、発話に重複が存在する場合に、発話の継続時間と話者とに基づいて表示順序を制御することで、同一話者の連続発話、および話者がどこまでの翻訳文字列を基準として発話したかが明確となり、発話の了解性が高めることができ、誤解の発生を抑制することができる。

なお、談話解析の技術を用いて、文脈上の前後関係に基づいて提示順序を制御してもよい。または、先行提示済の発話の前に、新たな翻訳結果を提示するように制御する際は、後置される発話を薄い色にしたり、図８のように提示位置をずらして提示したりするなど、発話の連続性が失われた事を強調して提示するよう制御してもよい。

（比較例）
比較例として、従来手法による翻訳結果の表示について図１０を参照して説明する。
図１０の発話表示５０１および発話表示５０３に示す話者Ａの ”Let’s have a next meeting on next Monday. Is that OK for you?” という発話に対して、話者Ｂが

と発話し、話者Ｃが「そうしましょう」と発話したとする。

この時、話者Ｂの発話が話者Ｃに先行する場合、表示画面上は、話者Ｂの発話表示６０１の後に話者Ｃの発話表示７０１が表示される。そのため、話者Ｃは、話者Ａの「月曜日に会議を開催する」という提案に同意したにもかかわらず、話者Ｂの「火曜日に会議を開催する」という提案に同意したように解釈されてしまう。

本実施形態では、話者がどこまでの翻訳文字列を基準として発話したかが表示として明確となるため、比較例のような誤った解釈がなされるのを低減することができる。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した音声翻訳装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の音声翻訳装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００・・・音声翻訳装置、１０１・・・音声取得部、１０２・・・音声認識部、１０３・・・翻訳単位検出部、１０４・・・翻訳部、１０５・・・制御部、１０６・・・提示部、３０１〜３０４・・・発話、３０５〜３０８・・・継続時間、５０１，５０３，５０４，６０１，６０２，７０１・・・発話表示、５０２・・・話者。

Claims

複数の話者による１種類以上の第１言語の発話を時系列順に音声認識処理し、音声認識結果であるテキスト文字列を得る音声認識部と、
前記テキスト文字列の意味のまとまりを検出し、該意味のまとまりで区切られる文字列を示す１以上の単位文字列を得る検出部と、
前記１以上の単位文字列を前記第１言語とは異なる第２言語に翻訳し、１以上の翻訳文字列を得る翻訳部と、
時系列において前記発話間に重複がある場合、重複する部分に対応する翻訳文字列の表示順序を変更するように制御する制御部と、を具備することを特徴とする音声翻訳装置。
前記制御部は、前記発話の継続時間と前記話者とに基づいて前記表示順序を制御することを特徴とする請求項１に記載の音声翻訳装置。
前記制御部は、同一の話者の発話が他の話者の発話と重複せずに連続する場合、該同一の話者の発話に対応する翻訳文字列を統合して表示するように制御することを特徴とする請求項１または請求項２に記載の音声翻訳装置。
前記制御部は、処理対象となる対象発話が他の発話と重複する場合、かつ、該対象発話よりも前の発話であってかつ重複がない発話のうち直前の発話の話者と該対象発話の話者とが同一ではない場合、該対象発話に対応する翻訳文字列を、該対象発話と重複する発話に対応し既に表示される翻訳文字列よりも時系列において前に表示するように制御することを特徴とする請求項１から請求項３のいずれか１項に記載の音声翻訳装置。
前記制御部は、処理対象となる対象発話が他の発話と重複する場合、該対象発話に対応する翻訳文字列と該対象発話と重複する発話に対応する翻訳文字列とを並列して表示するように制御することを特徴とする請求項１から請求項３のいずれか１項に記載の音声翻訳装置。
前記制御部は、処理対象となる対象発話が他の発話と重複する場合、該対象発話よりも前の発話であってかつ重複がない発話のうち直前の発話に対応する翻訳文字列と、該対象発話に対応する翻訳文字列とを１組として表示するように制御することを特徴とする請求項１から請求項３のいずれか１項に記載の音声翻訳装置。
前記検出部は、前記第１言語の種類に応じて前記意味のまとまりを検出することを特徴とする請求項１から請求項６のいずれか１項に記載の音声翻訳装置。
前記制御部は、前記翻訳文字列に対応する発話の継続時間と他の話者の発話の継続時間とに重複部分が存在するか否かに基づいて、前記発話間に重複があるか否かを判定することを特徴とする請求項１から請求項７のいずれか１項に記載の音声翻訳装置。
複数の話者による１種類以上の第１言語の発話を時系列順に音声認識処理し、音声認識結果であるテキスト文字列を得、
前記テキスト文字列の意味のまとまりを検出し、該意味のまとまりで区切られる文字列を示す１以上の単位文字列を得、
前記１以上の単位文字列を前記第１言語とは異なる第２言語に翻訳し、１以上の翻訳文字列を得、
時系列において前記発話間に重複がある場合、重複する部分に対応する翻訳文字列の表示順序を変更するように制御することを特徴とする音声翻訳方法。
コンピュータを、
複数の話者による１種類以上の第１言語の発話を時系列順に音声認識処理し、音声認識結果であるテキスト文字列を得る音声認識手段と、
前記テキスト文字列の意味のまとまりを検出し、該意味のまとまりで区切られる文字列を示す１以上の単位文字列を得る検出手段と、
前記１以上の単位文字列を前記第１言語とは異なる第２言語に翻訳し、１以上の翻訳文字列を得る翻訳手段と、
時系列において前記発話間に重複がある場合、重複する部分に対応する翻訳文字列の表示順序を変更するように制御する制御手段として機能させるための音声翻訳プログラム。