JP4481972B2

JP4481972B2 - 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム

Info

Publication number: JP4481972B2
Application number: JP2006264203A
Authority: JP
Inventors: 建太郎降幡; 哲朗知野; 聡史釜谷
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-09-28
Filing date: 2006-09-28
Publication date: 2010-06-16
Anticipated expiration: 2026-09-28
Also published as: US20080091407A1; JP2008083459A; CN101154221A; US8275603B2

Description

この発明は、入力された音声から翻訳処理を行う音声翻訳装置、音声翻訳方法及び音声翻訳プログラムに関するものである。

近年、音声認識、機械翻訳および音声合成といった要素技術の研究が進んでいる。そして、これらを組み合わせることで、原言語による音声の入力を受け付けた場合、目的言語の音声が出力される音声翻訳システムが実用化されつつある。

しかし、各要素技術にはまだ多くの技術的課題が残されているので、利用者の発話が常に正しく認識、翻訳されるほど精度の高いシステムの実現は困難である。

例えば、音声認識では、実使用の環境下における周囲の騒音や、ユーザの言いよどみなどにも対処する必要があるが、これら誤りを完全になくすことは難しい。そして、このような音声認識の誤りが生じたテキストを、機械翻訳しても正しい結果は得られない。

他の例としては、機械翻訳では、文脈に応じて訳し分けするための文脈処理技術がまだ未成熟であるため、常に正しく訳出できるわけではない。

そこで、音声認識や機械翻訳等の誤りを検出するためのインターフェースが数多く提案されている。このようなインターフェースは、リアルタイムでユーザ同士が対話する場合、ユーザ間にシステムを介することによる煩わしい操作や待機時間を軽減させるためにも重要な役割を有する。

例えば、特許文献１では、入力された音声から変換されたテキストから、認識誤りが生じているフレーズを自動的に検出し、検出部分を該音声の発話者にテキスト又は音声により提示、訂正させる技術が提案されている。

このような技術により、原言語による発話者に提示されるのは誤りフレーズだけなので、発話内容全体を確認する手間が省かれ、確認に要する時間を短縮させることができる。

特開２０００-２９４９２号公報

しかしながら、特許文献１に記載された技術では、原言語話者が発話してから、音声認識結果の音声出力し、ユーザによる訂正発話を再度音声認識した後、目的言語による音声を出力するという一連の流れ自体は変わらないため、相手に伝達されるまでのタイムラグが大きいという問題がある。

また、誤りの自動的検出を行うが、誤りフレーズを全て自動で検出できるわけではない。この場合、原言語話者は誤りに全く気づくことなく、相手に対して目的言語による音声が出力されるため、両者の間で誤解が生じるという問題がある。

本発明は、上記に鑑みてなされたものであって、利用者が音声認識された内容を容易に確認すると共に、音声の入力を受け付けた後、翻訳して出力するまでの時間を短縮して会話を適切に進めることができる音声翻訳装置、音声翻訳方法及び音声翻訳プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、音声翻訳装置であって、利用者から第１言語による音声の入力を受け付ける音声入力受付手段と、前記音声入力受付手段により入力を受け付けた前記音声を認識し、第１のテキストを生成する音声認識手段と、前記音声認識手段により生成された前記第１のテキストを第２言語に翻訳して、第２のテキストを生成する翻訳手段と、前記第１のテキストをフレーズ毎に分割し、第１のフレーズ群を生成する第１分割手段と、前記第２のテキストをフレーズ毎に分割し、第２のフレーズ群を生成する第２分割手段と、前記各第２のフレーズに対して、当該各第２のフレーズと意味的に等価な前記第１のフレーズを、対応付ける対応付手段と、前記第２のテキストにおけるフレーズ順で、前記第２のフレーズと、当該第２のフレーズと前記対応付手段により対応付けられた前記第１のフレーズとを順次出力する出力手段と、を備え、前記音声入力受付手段は、前記出力手段による前記第２のフレーズと、前記第１のフレーズとの出力時に、音声の入力を受け付け、前記出力手段は、前記音声入力受付手段により音声の入力を受け付けた場合、前記第２のフレーズと前記第１のフレーズとの出力を停止する、ことを特徴とする。

また、本発明は、音声翻訳方法であって、利用者から第１言語による音声の入力を受け付ける第１の音声入力受付ステップと、前記音声入力受付ステップにより入力を受け付けた前記音声を認識し、第１のテキストを生成する音声認識ステップと、前記音声認識ステップにより生成された前記第１のテキストを第２言語に翻訳して、第２のテキストを生成する翻訳ステップと、前記第１のテキストをフレーズ毎に分割し、第１のフレーズ群を生成する第１分割ステップと、前記第２のテキストをフレーズ毎に分割し、第２のフレーズ群を生成する第２分割ステップと、前記各第２のフレーズに対して、当該各第２のフレーズと意味的に等価な前記第１のフレーズを、対応付ける対応付ステップと、前記第２のテキストにおけるフレーズ順で、前記第２のフレーズと、当該第２のフレーズと前記対応付ステップにより対応付けられた前記第１のフレーズとを順次出力する出力ステップと、前記出力ステップによる前記第２のフレーズと、前記第１のフレーズとの出力時に、音声の入力を受け付ける第２の音声入力受付ステップと、前記第２の音声入力受付ステップにより音声の入力を受け付けた場合、前記出力ステップによる前記第２のフレーズと前記第１のフレーズとの出力を停止する停止ステップと、を有することを特徴とする。

また、本発明は、入力された音声に対して翻訳処理を行う音声翻訳プログラムであって、入力された音声に対して翻訳処理を行う音声翻訳プログラムであって、利用者から第１言語による音声の入力を受け付ける第１の音声入力受付ステップと、前記音声入力受付ステップにより入力を受け付けた前記音声を認識し、第１のテキストを生成する音声認識ステップと、前記音声認識ステップにより生成された前記第１のテキストを第２言語に翻訳して、第２のテキストを生成する翻訳ステップと、前記第１のテキストをフレーズ毎に分割し、第１のフレーズ群を生成する第１分割ステップと、前記第２のテキストをフレーズ毎に分割し、第２のフレーズ群を生成する第２分割ステップと、前記各第２のフレーズに対して、当該各第２のフレーズと意味的に等価な前記第１のフレーズを、対応付ける対応付ステップと、前記第２のテキストにおけるフレーズ順で、前記第２のフレーズと、当該第２のフレーズと前記対応付ステップにより対応付けられた前記第１のフレーズとを順次出力する出力ステップと、前記出力ステップによる前記第２のフレーズと、前記第１のフレーズとの出力時に、音声の入力を受け付ける第２の音声入力受付ステップと、前記第２の音声入力受付ステップにより音声の入力を受け付けた場合、前記出力ステップによる前記第２のフレーズと前記第１のフレーズとの出力を停止する停止ステップと、をコンピュータに実行させることを特徴とする。

本発明によれば、第１のフレーズを確認することで、第２言語の第２のフレーズとして出力されている内容を第１言語で利用者が確認できると共に、第１言語による音声の入力を受け付けた後、当該第２言語に翻訳された第２のフレーズを出力するまでの間に利用者が誤りなどを確認する時間を必要としないので、会話を適切に進めることができるという効果を奏する。さらに、各フレーズの出力時に音声の入力を受け付けた場合に出力を停止することで、利用者間で生じる誤解等を防止することができるという効果を奏する。

以下に添付図面を参照して、この発明にかかる音声翻訳装置、音声翻訳方法及び音声翻訳プログラムの最良な実施の形態を詳細に説明する。

図１は、実施の形態にかかる音声翻訳装置１００を使用している状況を概念的に示した説明図である。図１に示すように、日本語話者が、マイク１０に対して発話し、ヘッドホン１６０を介して出力された日本語音声を聞き取る。また、英語話者は、マイク１１に対して発話し、音声翻訳装置１００が備えているスピーカ１５０から出力される英語音声を聞き取る。

例えば、日本語話者が日本語で発話した場合、音声翻訳装置１００が、当該発話の音声を認識して、英語に翻訳したあと、翻訳された英語の音声をスピーカ１５０から出力する。さらに、音声翻訳装置１００は、英語音声の出力時に、日本語話者の発話内容を音声認識した結果を日本語音声で、ヘッドホン１６０に対して出力する。これにより、日本語話者は、ヘッドホン１６０から日本語音声を聞き取ることで、音声認識に誤りがないか確認をすることができる。

つまり、日本語話者は、現在英語話者に対して出力されている英語音声に対応する日本語音声を聞き取り、誤りがないか確認できる。

そして、日本語話者が、誤りを確認した場合、英語話者に対して訂正するために、音声翻訳装置による音声出力時に、音声で割り込むことができる。そして、当該音声翻訳装置は、音声出力時に割り込み音声の入力を受け付けた場合、割り込み音声を翻訳した音声を優先して出力する。

そして、音声翻訳装置は、割り込み音声を翻訳した音声を出力した後、割り込み前の元の音声出力を、中断箇所から再開する。これにより、日本語話者は再度同じ内容を言い直さずにすむため、利便性が向上する。

また、従来の技術を用いて日本語音声と英語音声を同時に出力した場合、即座に割り込んだとしても、日本語と英語の語順が異なるため、割り込みが適切ではないことも多いと考えられる。そこで、本実施の形態にかかる音声翻訳装置では、異なる言語でも、出力される音声の語順が対応するように処理が施されている。これにより、英語話者及び日本語話者は、音声出力中にいつ割り込んでも、誤解などの問題が生じることはない。なお、詳細な処理については、後述する。

なお、本実施の形態では、英語話者と日本語話者が会話する例を用いて説明するが、これらの言語に制限するものではなく、例えば、ドイツ語、フランス語、中国語など、他のあらゆる自然言語を用いても良い。

図２は、実施の形態にかかる音声翻訳装置１００の構成を示すブロック図である。本図に示すように、音声翻訳装置１００は、音声入力受付部２０１と、音声認識部２０２と、機械翻訳部２０３と、フレーズアライメント部２０４、音声合成部２０６、音声出力部２０５と、フレーズ記憶部２０７と、制御部２０８とを備えている。

制御部２０８は、音声翻訳装置１００本体を制御し、他の各要素に対して指示等を行う。詳細については、後述する。

音声入力受付部２０１は、第１音声入力受付部２１１と、第２音声入力受付部２１２とを備え、制御部２０８の指示に従って、翻訳対象となる言語による発話の入力を受け付ける。公知のアナログ・デジタル変換の手法を用いてＰＣＭ（パルスコードモジュレーション）形式などによるデジタル信号に変換する。

第１音声入力受付部２１１は、マイク１０から日本語話者による発話の入力を受け付ける。そして、上述した処理によりデジタル信号に変換された後、後述する音声認識部２０２の日本語音声認識部２６１に出力する。

第２音声入力受付部２１２は、マイク１１から英語話者による発話の入力を受け付ける。そして、上述した処理によりデジタル信号に変換された後、後述する音声認識部２０２の英語音声認識部２６２に出力する。

また、音声入力受付部２０１は、第１音声入力受付部２１１及び第２音声入力受付部２１２により、両言語の話者からの音声を待ち受けるが、一方の音声入力受付部が話者からの入力音声を検出した場合、他方の音声入力受付部による話者からの発話の受付を停止し、前者の音声のみ入力処理を行う。

音声認識部２０２は、日本語音声認識部２６１と、英語音声認識部２６２とを備え、音声入力受付部２０１から入力されたデジタル信号を、公知の信号解析、言語解析の手法を用いて音声認識処理を行い、話者の言語で記載されたテキスト（以下、原言語テキストＳとする）を生成する。

本実施の形態では、原言語は、一方の話者が利用する翻訳前の言語とする。また、目的言語は、他方の話者が利用できる翻訳された後の言語とする。つまり、音声翻訳装置１００は、原言語による発話を目的言語に翻訳する装置とする。また、本実施の形態では主に、原言語が日本語であり、目的言語が英語の例について説明する。

日本語音声認識部２６１は、第１音声入力受付部２１１から入力された音声信号に対して音声認識処理を行い、日本語で記載されたテキストを生成する。

英語音声認識部２６２は、第２音声入力受付部２１２から入力された音声信号に対して音声認識処理を行い、英語で記載されたテキストを生成する。

機械翻訳部２０３は、ルール保持部２２１と、適用履歴記憶部２２２とを備え、音声認識部２０２から入力された原言語テキストＳの翻訳処理を行い、目的言語で記載されたテキスト（以下、目的言語テキストＴとする）を生成する。

例えば、機械翻訳部２０３は、原言語テキストＳが日本語で記載されていれば、英語で記載された目的言語テキストＴを生成する。また、機械翻訳部２０３は、原言語テキストＳが英語で記載されていれば、日本語で記載された目的言語テキストＴを生成する。このように、機械翻訳部２０３は、原言語テキストＳと意味的に等価な目的言語テキストＴを生成する。

また、機械翻訳部２０３は、ルール保持部２２１に保持された語彙辞書および構造変換規則を用いて、原言語テキストＳから、目的言語テキストＴを生成する。なお、この変換手法は、公知の手法を含め、どのような手法を用いても良い。

また、機械翻訳部２０３は、原言語テキストＳを解析した格構造を目的言語の構造に変換するとき使用した構造変換規則を、適用履歴記憶部２２２に翻訳規則適応履歴Ｈとして保持する。

図３は、適用履歴記憶部２２２に記憶された翻訳規則適応履歴Ｈの例を示した図である。図３に示すように、翻訳規則適応履歴Ｈは、原言語テキストＳを目的言語テキストＴに変換する際に使用した翻訳規則を保持している。

そして、機械翻訳部２０３は、翻訳規則適応履歴Ｈを、原言語テキストＳおよび目的言語テキストＴとともにフレーズアライメント部２０４に出力する。

フレーズアライメント部２０４では、第１分割部２３１と、第２分割部２３２と、対応付け部２３３とを備え、原言語テキストＳと目的言語テキストＴとを所定の長さのフレーズ単位で分割し、フレーズ間で対応付けを行う。

第１分割部２３１は、原言語テキストＳをフレーズ単位で分割し、原言語フレーズフレーズ群を生成する。

第２分割部２３２は、目的言語テキストＴをフレーズ単位で分割し、目的言語フレーズ群を生成する。

また、本実施の形態にかかる１フレーズは、１個以上の内容語と０個以上の機能語から構成される文節とする。また、本実施の形態は、１フレーズを当該文節に制限するものではなく、他の処理単位でもよい。

対応付け部２３３は、各目的言語フレーズに対して、当該目的言語フレーズと意味的に等価な原言語フレーズを対応付ける（アライメントをとる）。

図４は、対応付け部２３３が行うアライメントの概念を示した説明図である。図４では、原言語テキストＳを「(1)太郎は / (2)酒を/ (3)昨晩から / (4)飲んでいる」とし、目的言語テキストＴを「(1)Taro / (2)has been drinking / (3)from last evening」としている。そして、これらテキスト中の「/」はフレーズの切れ目を表しており、番号は先頭からの順序を表している。

そして、対応付け部２３３は、入力された翻訳規則適応履歴Ｈに従って、該当する単語を含むフレーズ同士を対応付ける。

まず、図３に示す翻訳規則適応履歴Ｈの規則１は、「酒を飲む」を「drink」に変換することを示している。そこで、対応付け部２３３は、原言語（日本語）フレーズＳＰ(2)、(4)と、目的言語（英語）フレーズＴＰ(2)とを対応付ける。このように、対応付け部２３３は、複数の原言語フレーズがひとつの目的言語フレーズと対応する場合、原言語フレーズをひとつにまとめる。例えば、対応付け部２３３は、図３に示すように原言語フレーズ(2)「酒を」と、(4)「飲んでいる」とを、「酒を飲んでいる」にまとめる。

同様に、対応付け部２３３は、規則２に従ってＳＰ(1)「太郎は」とＴＰ(1)「Taro」を対応付け、規則３に従ってＳＰ(3)「昨晩から」とＴＰ(3)「from last evening」を対応付ける。

また、翻訳規則適応履歴Ｈの規則４は「昨晩」と「last evening」との対応を表すが、すでに規則３によって該当フレーズ同士が対応付けられているので、対応付け部２３３は、当該規則を用いた処理を行わない。

以上により、対応付け部２３３は、３つのフレーズ対ＰＰ（(1)Taro，(1)太郎は）、（(2)has been drinking，(2)酒を(4)飲んでいる）、（(3)from last evening，(3)昨晩から）で構成されるフレーズ対セットＰＰＳＥＴを生成する。

また、フレーズ対ＰＰは、対応付けられた目的言語のフレーズ及び原言語のフレーズの対を示したものとする。そして、フレーズ対セットＰＰＳＥＴは、一回の発話で入力された文等から生成されたフレーズ対ＰＰのまとまりを示している。

フレーズ記憶部２０７は、フレーズアライメント部２０４から入力されたフレーズ対セットＰＰＳＥＴを保持する。

図５は、フレーズ記憶部２０７が保持するデータ構造の例を示した図である。図５に示すようにフレーズ記憶部２０７は、フレーズ対セット番号と、フレーズ対番号と、原言語フレーズと、目的言語フレーズとを対応付けて保持している。第４図にフレーズ記憶部内のレコードの例を示す。

図５に示すように、フレーズ記憶部２０７は、フレーズ対セットＰＰＳＥＴ１として、３個のフレーズ対ＰＰ（１，１）（(1)Please arrive，(3)到着してください）、ＰＰ（１，２）（(2)at Hiya and Hotel，(2)ヒヤッとホテルに）、ＰＰ（１，３）（(3)by 3 p.m.，(1)午後３時までに）を保持している。

フレーズ対セットＰＰＳＥＴ番号は、割り込み発話の階層を示している。例えば、フレーズ対セットＰＰＳＥＴ１が第１階層の発話のフレーズ対セットであり、フレーズ対セットＰＰＳＥＴ２はフレーズ対セットＰＰＳＥＴ１による音声出力中に割り込んだ音声によるフレーズ対セットであることを示している。

また、フレーズ対ＰＰ番号は、（フレーズ対セットＰＰＳＥＴ番号，目的言語フレーズの目的言語テキストにおける出現順序）を示したものとする。この目的言語フレーズの目的言語テキストにおける出現順序を保持しているのは、目的言語フレーズＴＰの順序を入れ替えることなく出力する必要があるためである。つまり、各フレーズ対ＰＰは、目的言語フレーズの出現順序に応じて出力される。なお、詳細な処理手順については後述する。

音声合成部２０６は、日本語音声合成部２５１と、英語音声合成部２５２とを備え、制御部２０８の指示に従って、フレーズ記憶部から先に割り当てた順序に従って、各フレーズを、読み上げ音声の波形を表すデジタル信号を合成する。

日本語音声合成部２５１は、日本語で表されたフレーズを、日本語の読み上げ音声の波形を示すデジタル信号を合成する。なお、日本語音声合成部２５１は、原言語が日本語である場合、原言語フレーズからデジタル信号を合成し、原言語が英語である場合、目的言語フレーズからデジタル信号を合成する。

英語音声合成部２５２は、英語で表されたフレーズを、英語の読み上げ音声の波形を示すデジタル信号を合成する。なお、英語音声合成部２５２は、原言語が日本語である場合、目的言語フレーズからデジタル信号を合成し、原言語が英語である場合、原言語フレーズからデジタル信号を合成する。

音声出力部２０５は、第１音声出力部２４１と、第２音声出力部２４２とを備え、音声合成部２０６から入力されたデジタル信号を、公知のデジタル／アナログ変換手段を用いて変換した後、音声を出力する。また、音声出力部２０５は、目的言語テキストにおけるフレーズ順で目的言語フレーズと、目的言語フレーズと対応付けられた原言語フレーズとを順次、音声として出力する。

第１音声出力部２４１は、日本語音声合成部２５１から入力されたデジタル信号を変換して、ヘッドホン１６０に音声を出力する。また、第２音声出力部２４２は、英語音声合成部２５２から入力されたデジタル信号を変換して、スピーカ１５０に出力する。

次に、本実施の形態にかかる音声翻訳装置１００の音声の入力を受け付けてから、音声を出力するまでの処理について説明する。図６は、音声翻訳装置１００の音声の入力を受け付けてから、音声を出力するまでの処理手順を示すフローチャートである。

まず、制御部２０８は、カウンタ変数ｉに、初期値１を設定する（ステップＳ６０１）。次に、音声入力受付部２０１が、入力音声ＳＡＩ１を受け付ける（ステップＳ６０２）。音声入力受付部２０１は、入力音声ＳＡＩ１の入力がない場合（ステップＳ６０２：Ｎｏ９）、入力があるまで待機する。なお、ＳＡＩ１の‘１’はカウンタ変数ｉの値とする。

そして、音声入力受付部２０１が入力音声ＳＡＩ１の入力を受け付けた場合（ステップＳ６０２：Ｙｅｓ）、入力音声ＳＡＩｉに対応するフレーズ対セットＰＰＳＥＴｉを生成する（ステップＳ６０３）。なお、詳細な処理については後述する。

次に、制御部２０８は、ポインタＪｉに初期値‘１’を代入する（ステップＳ６０４）。

次に、制御部２０８は、ポインタＪｉが、フレーズ対合計要素数Ｎｉより大きいか否か判断する（ステップＳ６０５）。なお、フレーズ対合計要素数Ｎｉとは、処理の対象であるフレーズ対セットＰＰＳＥＴｉを構成するフレーズ対の合計数を示している。

そして、制御部２０８は、ポインタＪｉが、フレーズ対合計要素数Ｎｉより小さいと判断した場合（ステップＳ６０５：Ｎｏ）、音声割込フラグに‘Ｆａｌｓｅ’を代入する（ステップＳ６０６）。

そして、フレーズ対ＰＰ（ｉ、Ｊｉ）の音声出力を行う（ステップＳ６０７）。また、処理中に割り込み音声の入力を受け付けた場合、音声割込フラグに‘Ｔｒｕｅ’が代入される。なお、詳細な処理手順については後述する。

次に、制御部２０８は、ポインタＪｉを‘１’増加させる（ステップＳ６０８）。また、ポインタＪｉが、目的言語フレーズの目的言語テキスト内の順序を示している。つまり、ポインタＪｉが１ずつ増加することで、目的言語テキストにおけるフレーズ順に、目的言語フレーズの音声出力等が行われることになる。

そして、制御部２０８は、音声割込フラグが‘Ｔｒｕｅ’であるか否か判断する（ステップＳ６０９）。音声割込フラグが‘Ｆａｌｓｅ’の場合（ステップＳ６０９：Ｎｏ）、再びポインタＪｉがフレーズ対合計要素数Ｎｉより大きいか否かの判断から開始する（ステップＳ６０５）。

また、制御部２０８は、音声割込フラグが‘Ｔｒｕｅ’の場合（ステップＳ６０９：Ｙｅｓ）、カウンタ変数ｉを‘１’増加させる（ステップＳ６１０）。その後、再び割り込み音声から、再びフレーズ対セットＰＰＳＥＴｉを生成する（ステップＳ６０３）。

そして、制御部２０８が、ポインタＪｉがフレーズ対合計要素数Ｎｉより大きいと判断した場合（ステップＳ６０５：Ｙｅｓ）、当該フレーズ対セットＰＰＳＥＴｉを用いた処理が終了したものとして、フレーズ対セットＰＰＳＥＴｉを削除する（ステップＳ６１１）。

そして、制御部２０８は、カウンタ変数ｉを‘１’減少させる（ステップＳ６１２）。次に、制御部２０８は、カウンタ変数ｉが‘１’より小さいか否か判断する（ステップＳ６１３）。カウンタ変数ｉが‘１’以上と判断した場合（ステップＳ６１３：Ｎｏ）、制御部２０８は、再び、ポインタＪｉがフレーズ対合計要素数Ｎｉより大きいか否か判断する（ステップＳ６０５）。

また、制御部２０８は、カウンタ変数ｉが‘１’より小さいと判断した場合（ステップＳ６１３：Ｙｅｓ）、処理を終了する。

本実施の形態にかかる音声翻訳装置１００は、音声の入力を受け付けてから、音声を出力するまでの処理を、上述した処理手順で行うことで、フレーズ対セットＰＰＳＥＴｉの処理を再帰的に行うこととした。

これにより、入力音声の割り込みが発生した場合、割り込み音声の方を優先して処理した後、中断された元の音声についての処理を再開することができる。

次に、本実施の形態の音声翻訳装置１００の入力音声ＳＡＩｉを受け付けた場合に、フレーズアライメントを行い、フレーズ対セットＰＰＳＥＴｉを生成するまでの処理手順について説明する。図７は、本実施の形態の音声翻訳装置１００の入力音声ＳＡＩｉを受け付けた場合に、フレーズ対セットＰＰＳＥＴｉを生成するまでの処理手順を示すフローチャートである。

まず、音声認識部２０２が、音声入力受付部２０１から入力された入力音声ＳＡＩｉを音声認識し、原言語テキストＳｉを生成する（ステップＳ７０１）。また、入力音声ＳＡＩｉの原言語が日本語の場合、日本語音声認識部２６１が、原言語テキストＳｉを生成する。また、入力音声ＳＡＩｉの原言語が英語の場合、英語音声認識部２６２が、原言語テキストＳｉを生成する。

そして、機械翻訳部２０３が、原言語テキストＳｉを機械翻訳し、目的言語テキストＴｉを生成する（ステップＳ７０２）。

次に、第１分割部２３１が、原言語テキストＳｉを、フレーズ単位で分割する（ステップＳ７０３）。そして、第２分割部２３２が、目的言語テキストＴｉを、フレーズ単位で分割する（ステップＳ７０４）。

そして、対応付け部２３３が、目的言語のフレーズと、原言語のフレーズとをアライメントし、フレーズ対セットＰＰＳＥＴｉを生成する（ステップＳ７０５）。そして、フレーズアライメント部２０４は、生成したフレーズ対セットＰＰＳＥＴｉを、フレーズ記憶部２０７に記録する。

次に、本実施の形態の音声翻訳装置１００のフレーズ対ＰＰ（ｉ、Ｊｉ）の音声出力を行う際の処理手順について説明する。図８は、本実施の形態の音声翻訳装置１００のフレーズ対ＰＰ（ｉ、Ｊｉ）の音声出力を行う際の処理手順を示すフローチャートである。なお、後述する説明では、目的言語が英語で、原言語が日本語の例とする。

まず、英語音声合成部２５２が、フレーズ記憶部２０７からフレーズ対ＰＰ（ｉ，ｊ）の目的言語フレーズを読み込み、読み込んだ目的語（英語）のフレーズの音声合成を行い、目的言語におけるフレーズの音声信号ＴＰＡＯを生成する（ステップＳ８０１）。

次に、日本語音声合成部２５１が、フレーズ記憶部２０７からフレーズ対ＰＰ（ｉ，ｊ）の原言語フレーズを読み込み、読み込んだ原言語（日本語）のフレーズの音声合成を行い、原言語のフレーズ音声信号ＳＰＡＯを生成する（ステップＳ８０２）。

そして、第２音声出力部２４２が、生成された目的言語のフレーズ音声信号ＴＰＡＯをスピーカ１５０に出力する（ステップＳ８０３）。

次に、第１音声出力部２４１が、生成された原言語のフレーズ音声信号ＳＰＡＯをヘッドホン１６０に出力する（ステップＳ８０４）。

そして、音声入力受付部２０１が、話者からの音声による割り込みが発生したか否かを検出する（ステップＳ８０５）。なお、この割り込みを行う話者は、日本語話者でも英語話者でも良い。

次に、音声入力受付部２０１が、音声の割り込みを検出しない場合（ステップＳ８０５：Ｎｏ）、制御部２０８が音声の出力を終了したか否か判断する（ステップＳ８０７）。終了していないと判断した場合（ステップＳ８０７：Ｎｏ）、継続して音声の合成を行う（ステップＳ８０１）。

また、制御部２０８が、音声の出力が終了したと判断した場合（ステップＳ８０７：Ｙｅｓ）、処理を終了する。

また、音声入力受付部２０１が割り込みによる入力音声ＳＡＩｉ＋１を検出した場合（ステップＳ８０５：Ｙｅｓ）、制御部２０８が、第２音声出力部２４２による目的言語のフレーズ音声信号ＴＰＡＯの出力、及び第１音声出力部２４１による原言語のフレーズ音声信号ＳＰＡＯの出力を中断する（ステップＳ８０８）。

そして、制御部２０８が、音声割込フラグに"Ｔｒｕｅ"を代入する（ステップＳ８０９）。これにより処理が終了する。

次に、上述した処理を、具体的な例を示して詳細に説明する。状況としては、まず、日本語話者が最初に発話していることとする。そして、音声翻訳装置１００が当該発話の音声出力している時に、該発話に対して音声認識誤りが生じ、日本語話者が割り込む場合について説明する。

図９は、音声翻訳装置１００に対して入力された入力音声と、当該入力音声から生成された原言語テキスト及び目的言語テキストの例を示した図である。図９に示すように、第１音声入力受付部２１１が、まず、日本語話者から入力音声ＳＡＩ１「ごごさんじまでにはいはっとほてるにとうちゃくしてください」の入力を受け付ける。その後に、第１音声入力受付部２１１が、割り込みで、日本語話者から入力音声「えきのちかくのはいはっとほてるです」の入力を受け付けているものとする。

そして、図９には、音声翻訳装置１００が、入力音声から生成された原言語テキスト及び目的言語テキストが示されている。入力順１では、日本語音声認識部２６１が行う音声認識に誤りが生じ、「はいはっとほてる」が、「ヒヤッとホテル」として認識された例とする。これにより、機械翻訳部２０３は、目的言語テキストにおいて「Hiya and Hotel」と翻訳している。

そして、日本語話者は、音声出力中にこの音声認識による誤りに気づき、入力順２に示した入力音声ＳＡＩ２「えきのちかくのはいはっとほてるです」という割り込みを行った例とする。

また、これらにより生成されるフレーズ対セットＰＰＳＥＴｉは、図５に示した通りとなる。そして、フレーズ対（１，２）の出力中に、上述した入力音声ＳＡＩ２による割り込みを受け付けたものとする。

図１０は、音声翻訳装置１００によりフレーズ対が出力される順序の例を示した説明図である。図１０に示す順序で、音声翻訳装置１００は、図５に示したフレーズ対セットＰＰＳＥＴｉのフレーズ対を出力していくこととする。

図１１は、時間経過に従って音声翻訳装置１００が入力を受け付ける入力音声と、出力する音声フレーズ対とを示した第１の例におけるタイムチャート図である。そして、図１１に示したタイムチャートに従って音声フレーズ対を出力するため処理手順を、図６と共に説明する。

まずは、制御部２０８が、ステップＳ６０１において、カウンタ変数ｉ＝１を代入する。また、カウンタ変数ｉは、元の発話に対して割り込まれた階層を表している。つまり、割り込まれていない元の発話が、第１階層となる。そして、この発話に対して割り込んだ発話は、第２階層となる。そして第２階層の発話に対して割り込んだ会話は第３階層となる。以下も同様とする。

つまり、制御部２０８は、最初の割り込まれていない発話による入力音声を受け付けるため、カウンタ変数ｉに‘１’をセットする。

そして、音声入力受付部２０１が、ステップＳ６０２において、日本語話者、英語話者の双方からの音声を待ち受ける。また、音声入力受付部２０１は、最初に検出した話者の音声のみ、入力を受け付ける。

本例では、第１音声入力受付部２１１が、日本語話者からの最初の発話を検出したものとし、英語話者からの入力受付を停止する。そして、図１１の符号１１０１に示すように、日本語話者がマイク１０に対して、入力音声ＳＡＩ１「ごごさんじまでにはいはっとほてるにとうちゃくしてください」（午後３時までにハイハットホテルに到着してください）を入力したものとする。これにより、ステップＳ６０２において、第１音声入力受付部２１１が、入力音声ＳＡＩ１の入力を受け付ける。

そして、図６のステップＳ６０３において、入力音声ＳＡＩ１から原言語フレーズと言語フレーズの対（ＰＰ）のセット（ＰＰＳＥＴ１）を生成する。この生成処理は、図７に詳細に示してある。

まず、図７のステップＳ７０１において、音声認識部２０２が、入力音声ＳＡＩ１から原言語テキストを生成する。この時に「はいはっとほてるに」の部分で「ヒヤッとホテルに」のように認識誤りが生じたとする。これにより、音声認識部２０２は、原言語テキストＳ１「午後３時までにヒヤッとホテルに到着してください」を生成する。

そして、ステップＳ７０２において、機械翻訳部２０３が原言語テキストＳ１から目的言語テキストＴ１「Please arrive at Hiya and Hotel by 3 p.m.」を生成する。そして、ステップＳ７０２において音声認識誤り「ヒヤッとホテルに」が生じているので、機械翻訳部２０３は、正しくは「at hyhat Hotel」であるところを「at Hiya and Hotel」と翻訳している。

次に、ステップＳ７０４において、第１分割部２３１が原言語テキストＳ１をフレーズ毎に分割する。そして、ステップＳ７０５において、第２分割部２３２が、目的言語テキストＴ１をフレーズ毎に分割する。そして、ステップＳ７０５において、対応付け部２３３が、これらフレーズを対応付けたフレーズ対のセットＰＰＳＥＴ１を生成し、フレーズ記憶部２０７に格納する。

格納されたフレーズ対セットＰＰＳＥＴ１について、図５を用いて説明する。フレーズ対セットＰＰＳＥＴ１は、フレーズ対ＰＰ（１，１），ＰＰ（１，２），ＰＰ（１，３）から構成されている。

各フレーズ対ＰＰは、目的言語フレーズＴＰおよび原言語フレーズＳＰのペアとする。例えば、フレーズ対ＰＰ（１，１）は、原言語フレーズＳＰ（１，１）「到着してください」と、目的言語フレーズＴＰ（１，１）「Please arrive」のペアとする。このように、目的言語フレーズＴＰ及び原言語フレーズＳＰは、該当するフレーズ対ＰＰと同じ添え字を付与する。

同様に、フレーズ対ＰＰ（１，２）は（(2)at Hyatt Hotel，(2)ヒヤッとホテルに）とする。また、フレーズ対ＰＰ（１，３）は（(3)by 3 p.m.，(1)午後３時までに）とする。

このようにフレーズ対セットＰＰＳＥＴｉを生成した後、図６の処理に戻る。そして、制御部２０８は、ステップＳ６０４において、ポインタＪ１＝１とする。ポインタＪｉは、次にフレーズ対ＰＰ（ｉ，Ｊｉ）を音声出力することを示している。

そして、制御部２０８は、ステップＳ６０５において、ポインタＪｉがフレーズ対合計要素数Ｎｉより大きいか否か、つまりフレーズ対ＰＰ（ｉ，Ｊｉ）がフレーズ記憶部２０７に存在するかどうか判断する。この場合、制御部２０８は、ポインタＪ１の値‘１’と、フレーズ対セットＰＰＳＥＴｉのフレーズ合計要素数‘３’を比較する。つまり、制御部２０８は、Ｊ１＜フレーズ対要素数であると判断する（ステップＳ６０５：Ｎｏ）。そこで、音声翻訳装置１００は、フレーズ対ＰＰ（１，１）を出力するために、ステップＳ６０６の処理を開始する。

次に、制御部２０８は、ステップＳ６０６において、音声割込フラグに“Ｆａｌｓｅ”を代入する。音声割込フラグは、後述するステップＳ６０７において、該フレーズ対による音声出力中に、話者から割り込み発話がなされたか否かを示している。

そして、ステップＳ６０７において、フレーズ対ＰＰ（１，１）の目的言語フレーズ「plese arrive」を英語話者に対して、原言語フレーズ「到着してください」を日本語話者に対して出力する。ステップＳ６０７の詳細な処理手順を、図８を用いて説明する。

まず、図８のステップＳ８０１において、英語音声合成部２５２が、目的言語フレーズＴＰ（１，１）「Please arrive」から、音声信号を生成する。そして、ステップＳ８０２において、日本語音声合成部２５１が、原言語フレーズＳＰ（１，１）「到着してください」から、音声信号を生成する。

そして、ステップＳ８０３において、第２音声出力部２４２が、生成された英語のフレーズ音声信号ＴＰＡＯ（１，１）「Please arrive」を出力する。次に、ステップＳ８０４において、第１音声出力部２４１が、生成された原言語（日本語）フレーズ音声信号ＳＰＡＯ（１，１）「とうちゃくしてください」を出力する。これは、図１１の音声フレーズ対１１０２が該当する。図１１に示すように、「とうちゃくしてください」と「Please arrive」とがほぼ同時に出力される。このように、本実施の形態にかかる音声翻訳装置１００は、出力時に対応関係が明確になるように音声出力を行う。

また、原言語（日本語）フレーズ音声信号ＳＰＡＯ（１，１）「とうちゃくしてください」及び目的言語フレーズ音声信号ＴＰＡＯ（１，１）「Please arrive」を、音声フレーズ対ＰＰＡＯ（１，１）とする。

そして、ステップＳ８０５において、該音声を出力中、音声入力受付部２０１では、日本語話者および英語話者からの入力音声を待ち受ける。このように音声入力受付部２０１による割り込み音声の検出を随時行っている。そして、音声出力が終了するまで今回は割り込みがなかったとする。

これにより図８に示した処理が終了し、図６の処理に戻ることになる。図６のステップＳ６０８では、制御部２０８が、ポインタＪ１＝２とする。これは次に処理対象となるフレーズ対が、フレーズ対ＰＰ（１，２）に変更されたことを示している。

ステップＳ６０９では、ステップＳ６０７の処理中に、割り込み音声を検出したか否かを、音声割込フラグにより判断する。この段階では、音声割込フラグは“Ｆａｌｓｅ”なので、制御部２０８は割り込みがなかったと判断し、未発話のフレーズ対ＰＰを出力するために、ステップＳ６０５の処理を開始する。

以降、前回と同様に処理を進める。つまり、制御部２０８は、ステップＳ６０５において、ポインタＪ２（＝２）＜フレーズ対合計要素数Ｎ２（＝３）であると判断する。そして、制御部２０８は、ステップＳ６０６に進み、音声割込フラグの値を“Ｆａｌｓｅ”にする。

そして、ステップＳ６０７においては、フレーズ対ＰＰ（２，２）を音声出力する。以下に、図８を用いて詳細に説明する。

まず、図８のステップＳ８０１において、英語音声合成部２５２が、目的言語フレーズＴＰ（１，２）「at Hiya and Hotel」から、音声信号を生成する。そして、ステップＳ８０２において、日本語音声合成部２５１が、原言語フレーズＳＰ（１，２）「ひやっとほてるに」から、音声信号を生成する。

そして、ステップＳ８０３において、第２音声出力部２４２が、生成された英語のフレーズ音声信号ＴＰＡＯ（１，２）「at Hiya and Hotel」を出力する。次に、ステップＳ８０４において、第１音声出力部２４１が、生成された原言語（日本語）フレーズ音声信号ＳＰＡＯ（１，２）「ひやっとほてるに」を出力する。これは、図１１の音声フレーズ対１１０３が該当する。図１１に示すように、これら音声信号はほぼ同時に出力される。

また、これら音声フレーズ対ＰＰＡＯ（１，２）による該出力音声は、前回の音声フレーズ対ＰＰＡＯ（１，１）と異なり、音声認識誤りが生じたフレーズである。したがって、日本語話者は、自身による発話「ハイハットホテルに」が音声翻訳装置１００において正しく処理されなかったことを認識する。

そこで、「ひやっとほてるに」を訂正するため、日本語話者が、当該音声出力中に割り込んで、入力音声ＳＡＩ２「えきのちかくのはいはっとほてるです」（駅の近くのハイハットホテルです）と発話する。これは、図１１の符号１１０４で示した入力音声ＳＡＩ２が該当する。

これにより、図８のステップＳ８０５において、音声入力受付部２０１が、音声の割り込みを検出する（ステップＳ８０５：Ｙｅｓ）。そこで、制御部２０８が、ステップＳ８０８において音声出力部２０５による音声フレーズ対ＰＰＡＯ（１，２）の出力を中断し、ステップＳ８０９において割り込みの有無を示す音声割込フラグを“Ｔｒｕｅ”にする。その後、図６に示した処理に戻る。

そして、ステップＳ６０９において、制御部２０８はポインタＪ１＝３とする。その後、制御部２０８は、ステップＳ６０９において、音声割込フラグの判断を行う。そして、音声割込フラグが“Ｔｒｕｅ”なので、割り込み入力音声ＳＡＩ２が発生したことを認識できる。そこで、制御部２０８は、入力音声ＳＡＩ２から、入力音声ＳＡＩ１と同様にフレーズ対を生成して、音声出力を行うためにステップＳ６１０に進む。

そして、制御部２０８は、ステップＳ６１０において、カウンタ変数ｉ＝２とする。そして、カウンタ変数ｉ＝２の間、制御部２０８は、割り込み入力音声ＳＡＩ２の処理を行うことになる。

ステップＳ６０３において、割り込み入力音声ＳＡＩ２から原言語テキストＳ２「駅の近くのハイハットホテルです」と、目的言語テキストＴ２「Hyatt Hotel near the station」とを生成する。このように、今回の処理では、「はいはっとほてる」を正しく音声認識し、「ハイハットホテル」を生成したとする。さらに、原言語テキストＳ２と目的言語テキストＴ２からフレーズ対セットＰＰＳＥＴ２を生成し、フレーズ記憶部２０７に記録する。

図５に示すように、フレーズ対セットＰＰＳＥＴ２は、フレーズ対ＰＰ（２，１）（(1)Hyatt Hotel，(2)ハイハットホテルです）とフレーズ対ＰＰ（２，２）（(2)near the station，(1)駅の近くの）とから構成されている。

そして、ステップＳ６０４において、制御部２０８は、ポインタＪ２＝１とする。また、制御部２０８は、ステップＳ６０５において、ポインタＪ２（＝１）＜フレーズ対合計要素数Ｎ２（＝２）なので、ステップＳ６０６に進む。

次に、制御部２０８は、ステップＳ６０６において、音声割込フラグの値を“Ｆａｌｓｅ”にする。そして、ステップＳ６０７において、フレーズ対ＰＰ（２，１）から、音声フレーズ対ＰＰＡＯ（２，１）を生成する。そして、音声フレーズ対ＰＰＡＯ（２，１）に含まれる原言語フレーズ音声信号ＳＰＡＯ（２，１）「はいはっとほてるです」を日本語話者に対して出力する。また、音声フレーズ対ＰＰＡＯ（２，１）に含まれる目的言語フレーズ音声信号ＴＰＡＯ（２，１）「Hyatt Hotel」を英語話者にそれぞれ出力する。これは、図１１の音声フレーズ対１１０５が該当する。

つまり、図１１の音声フレーズ対１１０３で示される、前回の音声フレーズ対ＰＰＡＯ（１，２）では、「ハイハットホテル」の部分が「ひやっとほてる」として音声認識されている。そして、図１１の音声フレーズ対１１０５に示すように、今回は正しく「はいはっとほてる」が出力されている。このように、日本語話者が、音声出力中に割り込み発話を行うことで、英語話者に対して音声認識誤りによる誤解を防止できたことになる。

そして、図８のステップＳ８０５において、音声入力受付部２０１が、音声による割り込みが発生したか否かを検出するが、この段階で音声の割り込みがなかったものとする。

そして、図６のステップＳ６０８で、制御部２０８がポインタＪ２を‘１’増加し、ポインタ＝２とする。そして、ステップＳ６０９において、音声割込フラグの値が“Ｆａｌｓｅ”なので、ステップＳ６０５に戻る。

そして、制御部２０８が、ステップＳ６０５〜ステップＳ６０９の処理により、フレーズ対ＰＰ（２，２）を処理し、目的言語フレーズ音声信号ＴＰＡＯ「near the station」および原言語フレーズ音声信号ＳＰＡＯ「えきのちかくの」を出力する。これは、図１１のフレーズ対１１０６が該当する。また、これら音声出力時に、割り込み発話もなかったものとする。

これらの処理が終了した後、再びステップＳ６０５に戻る。この段階では、ポインタＪ２の値が‘３’であり、フレーズ対合計要素数Ｎ２が‘２’なので、ステップＳ６１１の処理に進むことになる。つまり、制御部２０８は、フレーズ対ＰＰ（２，３）はフレーズ記憶部２０７に存在せず、フレーズ対セットＰＰＳＥＴ２を構成する全てのフレーズ対ＰＰを出力済みと判断する。

そのあと、制御部２０８は、ステップＳ６１１において、フレーズ対セットＰＰＳＥＴ２を、フレーズ記憶部２０７から削除する。そして、制御部２０８は、ステップＳ６１２において、カウンタ変数ｉの値を‘１’減少させて、割り込み前のフレーズ対セットＰＰＳＥＴ１の処理に復帰する。

その後、制御部２０８は、カウンタ変数ｉが‘１’より小さいか否か判断する。これは、カウンタ変数ｉが‘０’以下の場合、フレーズ記憶部２０７にフレーズ対セットＰＰＳＥＴが格納されていないので、処理を終了するためである。しかし、現段階ではカウンタ変数ｉが‘１’であるので、ステップＳ６０５に戻る。

この段階では、カウンタ変数ｉが‘１’であり、ポインタＪ１が‘３’であり、フレーズ対合計要素数Ｎ１が‘３’である。

そして、ステップＳ６０５〜ステップＳ６０９迄の処理で、割り込みで中断されていた図７の３行目に示す最後の未発話のフレーズ対ＰＰ（１，３）（(3)by 3p.m.，(1)午後３時までに）を用いた処理を行う。つまり、図１１の符号１１０７に示すように、音声フレーズ対ＰＰＡＯ（１，３）（by 3p.m.，ごごさんじまでに）の出力処理までが行なわれる。

この音声フレーズ対ＰＰＡＯ（１，３）の出力時に割り込みはなかったものとし、ポインタＪ１を‘１’増加させた後、ステップＳ６０５に戻る。この段階では、カウンタ変数ｉが‘１’であり、ポインタＪ１が‘４’であり、フレーズ対合計要素数Ｎ１が‘３’である。つまり、制御部２０８が、ポインタＪ１がフレーズ対合計要素数Ｎ１より大きいと判断し、ステップＳ６１１に進む。これにより、フレーズ対セットＰＰＳＥＴ１の全てのフレーズ対ＰＰについて処理が終了したものとする。

そして、制御部２０８が、ステップＳ６１１において、フレーズ対セットＰＰＳＥＴ１を削除する。次に、制御部２０８が、ステップＳ６１２において、カウンタ変数ｉを‘１’減少させてカウンタ変数ｉ＝０とする。そして、ステップＳ６１３において、制御部２０８が、カウンタ変数が‘１’より小さいと判断するので、フレーズ記憶部２０７にフレーズ対セットＰＰＳＥＴが存在しないものとみなし、処理を終了する。

このような処理手順で進めることで、日本語話者は原言語音声を聞くことで誤りが無いか否か確認できる。また、原言語音声と目的言語音声を対応付けて出力しているので、音声出力中に音声で割り込んでも誤解や混乱が生じることがない。また、誤りを発見した場合又は確認を行いたい場合、英語話者であっても割り込むことができる。そこで、次に日本語話者の音声出力中に、英語話者が割り込む場合について説明する。

状況としては、まず、日本語話者が最初に発話していることとする。そして、音声翻訳装置１００が当該発話の音声出力している時に、該発話に対する翻訳誤りが生じる。この翻訳誤りから生じる混乱を解消するため、英語話者が音声で割り込む場合について説明する。

図１２は、音声翻訳装置１００に対して入力された入力音声と、当該入力音声から生成された原言語テキスト及び目的言語テキストの第２の例を示した図である。図１２に示すように、第１音声入力受付部２１１が、まず、日本語話者から入力音声ＳＡＩ１「このかうんたーでえんではらってもいいですか」の入力を受け付ける。その後に、第２音声入力受付部２１２が、割り込みで、英語話者から入力音声「Circle you mean coin」の入力を受け付ける。さらにその後、第１音声入力受付部２１１が、英語話者の音声出力後に、日本語話者から入力音声「いいえにほんえんです」の入力を受け付ける。

つまり、図１２の状況を説明すると、まず、入力順１では、日本語音声認識部２６１が行う翻訳誤りが生じ、「円」が、「Circle」として翻訳された例とする。

そして、英語話者は、音声出力中に「Circle」の意味がわからないため、入力順２に示した入力音声ＳＡＩ２「Circle, you mean coin?」という割り込みを行った。

そして、この後、日本語話者が英語話者に対する返答として、入力順３に示した「いいえ日本円です」と発話した。図１２はこのような状況を想定している。

図１３は、フレーズ記憶部２０７が保持するデータの第２の例を示した図である。図１３に示すように、フレーズ記憶部２０７は、図１２の入力順１〜３で入力された入力音声ＳＡＩ１〜ＳＡＩ３から生成されたフレーズ対セットＰＰＳＥＴ１〜３が格納される。

図１４は、音声翻訳装置１００によりフレーズ対が出力される順序の例を示した説明図である。図１４に示す順序で、音声翻訳装置１００は、図１３に示したフレーズ対セットＰＰＳＥＴｉのフレーズ対を出力していくこととする。

図１５は、時間経過に従って音声翻訳装置１００が入力を受け付ける入力音声と、出力する音声フレーズ対とを示した第２の例におけるタイムチャート図である。そして、図１５に示したタイムチャートに従って音声フレーズ対を出力するため処理手順を、図６と共に説明する。

まずは、制御部２０８が、ステップＳ６０１において、カウンタ変数ｉ＝１を代入する。そして、第１音声入力受付部２１１が、日本語話者からの最初の発話を検出し、英語話者からの入力受付を停止する。そして、図１５の符号１５０１に示すように、日本語話者がマイク１０に対して、入力音声ＳＡＩ１「えんではらってもいいですか」を入力したものとする。これにより、ステップＳ６０２において、第１音声入力受付部２１１が、入力音声ＳＡＩ１の入力を受け付ける。

そして、日本語音声認識部２６１は、入力音声ＳＡＩ１を正しく認識し、原言語テキストＳ１「円で払ってもいいですか」を生成する。そして、機械翻訳部２０３が、原言語テキストＳ１を機械翻訳する。この際、機械翻訳部２０３が、原言語テキストＳ１の「円で」を正しくは「by yen」と翻訳すべきところを、「with a circle」と誤って翻訳を行ったものとする。これにより、機械翻訳部２０３は、目的言語テキストＴ１「May I pay with a circle?」を生成する。

フレーズアライメント部２０４が、原言語テキストＳ１及び目的言語テキストＴ１のそれぞれをフレーズ毎に分割した後、アライメント処理を行う。これにより、図１３に示すフレーズ対セットＰＰＳＥＴ１が、フレーズ記憶部２０７に記録される（以上、ステップＳ６０３）。

そして、制御部２０８は、ステップＳ６０４において、ポインタＪ１＝１とする。そして、ステップＳ６０５〜ステップＳ６０９までの処理で、音声翻訳装置１００は、フレーズ記憶部２０７に格納されたフレーズ対ＰＰ（１，１）から、音声フレーズ対ＰＰＡＯ（１，１）を出力する。この出力された音声フレーズ対は、図１５の音声フレーズ対１５０２が該当する。

この音声フレーズ対１５０２の出力中に、音声の割り込みはなかったものとして、ステップＳ６０５に戻る。この段階では、カウンタ変数ｉが‘１’であり、ポインタＪ１が‘２’であり、フレーズ対合計要素数Ｎ１が‘３’である。そこで、音声翻訳装置１００は、フレーズ対ＰＰ（１，２）の処理を行い、音声フレーズ対ＰＰＡＯ（１，２）を出力する。この出力された音声フレーズ対は、図１５の音声フレーズ対１５０３が該当する。

また、目的言語フレーズＴＰ（１，２）「with a circle」は翻訳誤りである。そこで、この音声フレーズ対１５０３に含まれる目的言語フレーズ音声信号ＴＰＡＯ（１，２）「with a circle」を聞いた英語話者は、対話の場面（支払いについて会話している）にそぐわないフレーズであると考える。

そこで、当該音声フレーズ対１５０３による音声出力中に、聞きなおしのために英語話者が、割り込み入力音声ＳＡＩ２「Circle, you mean coin?」（円って硬貨のことですか？）と言ったものとする。この割り込み入力音声ＳＡＩ２は、図１５の符号１５０４が該当する。

これにより、第２音声入力受付部２１２が、割り込み入力音声ＳＡＩ２の入力を受け付けたことになる。また、図６のステップＳ６０９において、音声割込フラグに“Ｔｒｕｅ”が代入されたことになる。

そこで、ステップＳ６０９において、制御部２０８は、音声割込フラグが“Ｔｒｕｅ”であると判断し、ステップＳ６１０に進み、カウンタ変数ｉを‘２’に設定する。

その後、ステップＳ６０３において、入力音声ＳＡＩ２から、原言語テキストＳ２「Circle, you mean coin?」及び目的言語テキストＴ２「円って硬貨のことですか」を生成する。さらに、フレーズアライメント部２０４が、原言語テキストＳ２及び目的言語テキストＴ２のそれぞれをフレーズ毎に分割し、分割したフレーズ毎にアライメント処理を行う。このようにしてフレーズ対セットＰＰＳＥＴ２を生成する。生成されたフレーズ対セットＰＰＳＥＴ２は、フレーズ記憶部２０７に記憶される。このフレーズ記憶部２０７に記憶されたレコードは、図１３の第４レコードと第５レコードに示してある。

そして、音声翻訳装置１００は、ステップＳ６０４からステップＳ６０９までの処理を繰り返し行うことで、フレーズ対セットＰＰＳＥＴ２のフレーズ対ＰＰ（２，１）及びフレーズ対ＰＰ（２，２）を用いた音声出力等の処理を行う。これらの処理により出力された音声は、図１５の音声フレーズ対１５０５及び音声フレーズ対１５０６に該当する。

以上の処理により、音声翻訳装置１００は、日本語話者に対して「円って硬貨のことですか？」という、入力音声ＳＡＩ２の翻訳結果を音声出力した。

そして、日本語話者は、原言語フレーズ音声信号ＳＰＡＯ（１，２）「えんで」を既に聴いている。このため、日本語話者は、音声翻訳装置１００により話者自身の発話が正しく音声認識されていることを確認している。なお、この「えんで」は、図１５の音声フレーズ対１５０３に含まれている。

したがって、日本語話者は、話者自身の入力音声ＳＡＩ１に含まれる「円で」の部分が翻訳誤り等の理由により、英語話者に正しく伝わらなかったと認識できる。

そこで、日本語話者が、入力音声ＳＡＩ２による音声出力後に、入力音声ＳＡＩ３「いいえにほんえんです」（いいえ、日本円です）を発話したとする。つまり、「円」を別の表現「日本円」に置き換えて発話することで、「円で」の誤解を解消しようとしている。この入力音声ＳＡＩ３は、図１５の符号１５０７に示してある。

そして、音声翻訳装置１００は、図６のステップＳ６０３において、入力音声ＳＡＩ３の認識処理を行い、原言語テキストＳ３「いいえ、日本円です」を生成したとする。そして、音声翻訳装置１００は、原言語テキストＳ１に対して「円」を「Circle」と誤った翻訳をしたが、原言語テキストＳ３から正しく目的言語テキストＴ３「No, Japanese yen」を生成したとする。この手法は、公知の手法を用いることで実現できるので、説明を省略する。

さらに、音声翻訳装置１００は、ステップＳ６０３において、原言語テキストＳ３および目的言語テキストＴ３から、フレーズ対セットＰＰＳＥＴ３を生成する。このフレーズ対セットＰＰＳＥＴ３は、図１３の第６レコード及び第７レコードが該当する。そして、音声翻訳装置１００は、このフレーズ対セットＰＰＳＥＴ３を、フレーズ記憶部２０７に記録する。これによりステップＳ６０３の処理が終了する。

そして、音声翻訳装置１００はさらに処理を行い、ステップＳ６０９の処理を繰り返し行うことで、音声フレーズ対ＰＰＡＯ（３，１）及び音声フレーズ対ＰＰＡＯ（３，２）を出力する。これら出力された音声フレーズ対は、図１５の音声フレーズ対１５０８及び１５０９が該当する。

そのあと、ステップＳ６０５からステップＳ６１１〜ステップＳ６１３の処理を行うことで、フレーズ対セットＰＰＳＥＴ１の処理を再開することになる。

フレーズ対セットＰＰＳＥＴ１の音声フレーズ対ＰＰＡＯ（１，２）の出力処理までが既に終了しているので、音声翻訳装置１００は、フレーズ対ＰＰ（１，３）を用いた処理を行う。つまり、音声翻訳装置１００は、ステップＳ６０５〜Ｓ９０６の処理を行うことで、音声フレーズ対ＰＰＡＯ（１，３）の出力を行う。この出力された音声フレーズ対は、図１５の音声フレーズ対１５１０が該当する。

このような処理を行うことで、音声翻訳装置１００による誤訳が生じたにもかかわらず、英語話者に対して「日本円で払いたい」という日本語話者の意図を伝達させることができる。また、音声翻訳装置１００は、これ以上割り込み入力音声はないものとし、図６に示す処理を終了する。

また、上述した実施の形態にかかる音声翻訳装置１００においては、原言語音声フレーズを確認することで、目的言語フレーズの目的言語フレーズとして出力されている内容を原言語で利用者が確認できる。また、原言語話者は、音声認識された内容を全て確認できるので、音声翻訳装置１００の音声認識の誤りを確実に検出することができる。また、原言語フレーズと目的語フレーズとを同時に出力することで、音声認識された内容を、日本語話者が確認した後、英語話者に対して出力するという処理手順が必要なくなる。

このように、原言語による入力音声を受け付けた後、目的言語に翻訳された目的言語フレーズ群を出力するまでの間に利用者が誤りなどを確認する時間を必要としないので、会話を適切に進めることができる。これによりタイムラグを減少させることができる。

上述した実施の形態に係る音声翻訳装置１００によって、原言語の発話者が発話をした後、目的言語のフレーズを音声で出力している時に、当該目的言語フレーズと対応付けられた原言語のフレーズを音声出力することで、原言語発話者が音声認識などの誤りを確認できる。また、原言語話者が発話してから目的言語のフレーズを出力する間に、原言語話者が誤り確認等を行わないため、対話の遅延を防止することができる。

また、音声翻訳装置１００は、原言語のフレーズと目的言語のフレーズとを音声出力する時に、原言語発話者及び目的言語話者のいずれかが発話による割り込みを受け付け可能とした。そして、原言語発話者及び目的言語話者は、音声出力中に、翻訳又は音声認識音声誤り等を理由に質問や訂正等のために割り込み発話を行った場合、音声翻訳装置１００は、当該割り込んだ発話を優先して翻訳処理を行い、音声出力する。この場合、原言語発話者及び目的言語話者は常に同じ箇所の原言語音声及び目的言語音声を聴いているため、どこに問題が生じたのか推定することができる。これにより、原言語発話者及び目的言語話者の間で生じる誤解等を防止することができる。

また、上述した実施の形態に係る音声翻訳装置１００は、割り込み発話が、終了した後に元の音声出力を再開する。このため、話者が再び同じ発話を行わなくとも良いので、話者の負担を軽減させることができる。

以上、具体的な手順を挙げながら、本発明の実施の形態について説明を行った。なお、本発明は上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせてもよい。その一例は上記手順中においていくつか述べてきたが、その他、形成可能な実施の形態の一例を以下に挙げる。

また、上述した実施の形態では翻訳手法として、語彙辞書および構造変換規則を用いて変換するトランスファー方式を用いた場合について説明した。しかしながら、上述したトランスファー方式に制限するものではなく、例えば、対訳用例の中から入力テキストとの類似度が高い用例を選び出す用例利用方式などを用いてもよい。

そこで、この変形例ではトランスファー方式以外の方式を用いることとする。この場合、フレーズアライメントとして、上述した方式とは異なる方式を用いることになる。例えば、フレーズアライメントとして、２言語間における単語やフレーズの共起確率を用いる方法など、さまざまな公知の手法が存在するので、これらを用いてもよい。

このような技術の例として、特開２００４−３８９７６公報に記載された技術がある。この開示された技術では、２言語辞書を用いて単語間の類似度を計ることによって単語アライメントとっている。次にこれをフレーズアライメントのための目印として、目的言語テキストから原言語フレーズと最も一致度が高いセグメントを抽出する。該手法では、不連続なセグメントも抽出できるように工夫している。このように音声翻訳装置のフレーズアライメント部では、さまざまなフレーズアライメント手法を用いることができる。

また、上述した実施の形態では、音声出力中に、原言語話者及び目的言語話者による割り込みが行われた場合の処理について説明した。しかしながら、原言語話者及び目的言語話者のいずれかが発話するかにより処理を異ならせるものではなかった。そこで、本変形例では、原言語発話者及び目的言語話者のいずれかが発話したかにより処理を変更する例について説明する。

この変形例では、割り込み発話は、音声認識結果や翻訳結果に誤りが生じた際に、当該出力中のフレーズ等に対する訂正や疑問等を示す発話であることを前提とする。そして、原言語話者が割り込むのは、音声認識結果に誤りが生じていることを確認した場合とする。また、目的言語話者だけが割り込むときは、翻訳結果に誤りが生じている場合とする。さらに、原言語話者と目的言語話者の双方が割り込むときは、音声認識結果に誤りが生じている場合とする。

したがって、本変形例にかかる音声翻訳装置では、上述した条件を処理として組み込むことで、割り込んで中断されたフレーズあるいは前後のフレーズの情報を利用して、再発話の音声認識結果の改善や、より良い翻訳候補の選択が可能になる。

このように発話の履歴を用いて、音声認識や翻訳の精度を向上させる手法はすでに数多く考案されている。例えば、特開２００３−３１６３８６公報では、最初の発話と、訂正発話の一致部分を自動的に検出し、一致部分の発話履歴を用いて処理を行うことで、より適切と判断される認識候補を選択する手法を提案している。

例えば、本変形例の音声翻訳装置に対して、日本語話者から入力音声「午後３時までに早くホテルに到着してください」を受け付けた例について説明する。そして、音声翻訳装置が、入力音声「午後３時までに早くホテルに到着してください」の音声認識を誤り、原言語テキスト「午後3時までに/早く/ホテルに/当社を/ください。」を生成する。さらに、音声翻訳装置は、目的言語テキスト「Give/this company/to the hotel/by 3 p.m./soon.」を生成したとする。

そして、音声翻訳装置は、目的言語（英語）話者および原言語（日本語）話者に対して、音声フレーズ対 (1)（Give, ください）、(2)（this company，当社を）、(3)（to the hotel，ホテルに）、(4)（by 3 p.m., 午後3時までに）、(5)（soon, 早く）の順で音声出力する。

そして、音声フレーズ対(2)の出力中、日本語話者がフレーズ「当社を」を聴いたときに、「到着してください」の部分が正しく認識されなかったと推測し、割り込み発話「到着してください」を行ったとする。

そして、音声翻訳装置が、割り込み入力音声「到着してください」の入力を受け付けた場合、原言語（日本語）テキストに含まれる「当社を」の前後のフレーズを参照して、割り込み入力音声の認識処理結果を示すテキスト「到着してください」と、元の原言語テキストの類似部分「当社をください」を検出する。

そこで、音声翻訳装置の音声認識部は、前発話における認識処理で用いられた「当社をください」以外の認識候補を優先し、当該部分を新たな認識結果「到着してください」に置換する。

さらに、音声翻訳装置は、上記置換部分のみを再翻訳するのではなく、置換された後の原言語テキスト全体の再翻訳を行い、目的言語テキストを生成する。これにより、音声翻訳装置は、目的言語テキスト「Please arrive at Hyatt Hotel by 3 p.m.」を取得できる。

次に、音声翻訳装置は、再生成された原言語テキスト及び目的言語テキストから生成されたフレーズ対セットのフレーズ(1)（arrive,到着してください）から順に音声出力する。

また、上述した変形例では、音声翻訳装置は元の原言語テキストと、割り込み入力音声の認識結果を示すテキストとの比較を行った。しかしながら、このような比較に制限するものではなく、例えば類似部分の検出を音声信号レベルでマッチングを行っても良い。これにより、さらに精度を向上させることができる。

また、上述した変形例では、誤り箇所が目的言語テキストの文頭で検出する場合について説明したが、誤り箇所が目的原テキストの途中で検出する場合も同様の処理を行うことができる。

また、上述した変形例では、音声翻訳装置が、原言語話者の入力音声に対して音声認識に誤りが生じた例について説明した。しかしながら、当該変形例にかかる音声翻訳装置は、入力音声に翻訳処理で誤訳が生じた際に、目的言語話者が割り込み発話を行う場合にも利用できる。

上述した実施の形態で説明したように、音声翻訳装置は、原言語話者から入力音声「円で」の入力を受け付けた場合に、正しくは「Yen」と翻訳する必要があるにもかかわらず、「circle」と翻訳したものとする。

そして、上述した実施形態と同様に、音声翻訳装置が、音声フレーズ対（with circle,円で）を音声出力した場合に、英語話者が割り込んで「Circle，You mean "coin"？」と発話した時の処理を説明する。

例えば、音声翻訳装置が保持する翻訳辞書において、「円」の対訳候補として優先順位１位“circle” 、優先順位２位“Yen”と複数保持しているものとする。そして、音声翻訳装置は、原言語話者から入力された入力音声の翻訳処理で優先順位１位の「circle」を訳語として選択した。

そして、音声翻訳装置は、英語話者から割り込み発話を検出したので、上述した訳語が誤っていた可能性があると判断する。このため、音声翻訳装置は、次の原言語話者から入力される入力音声に「円」が含まれている場合、優先順位２位の「Yen」を訳語として選択して、音声出力を行う。

また、音声翻訳装置は、さらに、最初の原言語テキストに含まれるフレーズ「円」の対訳候補と、割り込まれたテキストに含まれるフレーズ“coin"との意味的類似度を比較しても良い。

例えば、音声翻訳装置は、“circle”と“coin”とから算出した類似度と、“Yen"
と“coin”とから算出した類似度とを比較し、“coin”との類似度がより高い“Yen”を対訳の選択候補とする。

このような上述した変形例を、音声翻訳装置に組み込むことで、利用者が音声の誤認識や誤訳が生じた場合に、利用者が誤認識や誤訳が生じた箇所を指定せずとも、その後に修正した結果を出力できる。

また、音声翻訳装置に対して、聞き返しをあらわす特定のフレーズ“you mean…”,“it is… ”等を予め登録し、これらのフレーズが入力した場合に誤訳や音声の誤認識が生じたと判断しても良い。

このように、音声翻訳装置が、上述した変形例で示した手法を実現することで、割り込み発話と元発話の一致部分を特定することで誤認識の検出や、類似度等を用いて誤訳の検出を行うことで、音声翻訳装置の翻訳精度を向上させることができる。また、利用者が操作せずとも誤訳、誤認識の修正を行うので利便性が向上する。

なお、上述した実施の形態及び変形例では、音声翻訳装置が音声フレーズ対による音声出力中に割り込み発話を、音声出力中のフレーズに対する翻訳誤りや音声認識誤りによる誤解の解消のための発話としたが、割り込み発話をこのような発話に制限するものではない。

上述した実施の形態では、音声翻訳装置は、入力音声の音声認識結果を原言語話者にフィードバックしていた。しかし、音声翻訳装置は、このようなフィードバックに制限するものではない。

そこで変形例１に係る音声翻訳装置は、入力音声から生成された原言語テキストを翻訳して目的言語テキストを生成した後、さらに目的言語テキストを原言語に再翻訳（トランスレーションバック）し、この再翻訳した結果を、原言語話者に対して出力する際に追加する。

そして、本変形例にかかる音声翻訳装置は、音声認識した結果を発話者に対して音声出力する際、内部で処理したトランスレーションバックした結果と、音声認識結果と差異が大きいフレーズについては、当該出力音声にノイズを混合して出力する。これにより、音声翻訳装置は、利用者が、出力された音声を聴くときに、翻訳誤りが生じている可能性を喚起することができる。

例えば、音声翻訳装置が、原言語話者からの入力音声「円で／払っていいですか？」から、目的言語テキスト「May I pay/with circle?」を生成した場合、この目的言語テキストから生成を逆翻訳し、原言語テキスト「円周で/払っていいですか？」を生成したとする。

そして、音声翻訳装置が、元の音声認識結果「円で/払っていいですか？」と再翻訳された原言語テキスト「円周で/払っていいですか？」とフレーズ毎に比較する。つまり音声翻訳装置が、まず、“円周で”と“円で”とを比較し、“払っていいですか？”と“払っていいですか？”とを比較する。そして、音声翻訳装置は、“円周で”と“円で”との一致度が６０％として算出し、“払っていいですか？”と“払っていいですか？”との一致度が１００％として算出される。そして、一致度の閾値として７０％が設定されているものとする。

そこで、音声翻訳装置は、発話者に対して主の音声認識に基づいて、フレーズ（円で，with circle）を出力するが、当該フレーズは一致度が閾値より下回っているのでノイズを加える。

つまり、逆翻訳結果が元の発話内容と異なる場合でも、翻訳誤り箇所であるとは限らない。また、逆翻訳結果の全てを利用者に対して出力して確認することにした場合、逆翻訳による誤訳が生じるため、利用者の負担が増大するが、効果はそれほど向上するものではない。

そこで、音声翻訳装置は、発話内容として音声認識結果を利用者に対して出力し、逆翻訳した場合の一致度が閾値より低い場合にノイズを付加することとした。これにより、音声翻訳装置は、利用者に対して、当該フレーズの翻訳の確信度を効率的に伝達することができる。

上述した手段により、話者は、音声翻訳装置から音声認識したテキストと共に、逆翻訳結果の情報を同時に受け取ることができる。これにより、利用者は、原言語フレーズを聴いて音声認識結果が正しいと判断した場合でも、当該フレーズのノイズを聴くことで誤訳が生じている可能性があることを認識することができる。

そして、原言語話者が、ノイズが大きいと判断したフレーズについては、翻訳誤りが生じていると判断できる。これにより、原言語話者は、当該フレーズについて別の表現で発話することで、目的言語話者との間で翻訳誤りによる誤解を解消することができる。これにより、非常にスムーズに対話を進めることができる。

上述した実施の形態においては、音声翻訳装置は、原言語と目的言語のフレーズを同時に出力していた。しかしながら、このように出力することに制限するものではなく、例えば、音声翻訳装置は、目的言語フレーズを目的言語話者に対して出力する前に、原言語話者に対して原言語のフレーズを出力してもよい。これにより、原言語話者は、目的言語話者が当該目的言語フレーズを聴く前に、訂正することができる。このように、目的言語のフレーズと、原言語のフレーズの出力に時間差を設けても良い。

また、上述した実施の形態においては、音声翻訳装置は、原言語フレーズと目的語フレーズとを音声で出力した。しかしながら、このような出力手法に制限するものではない。

そこで変形例として、音声翻訳装置が表示部に出力する例について説明する。本変形例において、音声翻訳装置は、小型携帯型端末であり、両面に液晶が備え付けられているものとする。そして、当該音声翻訳装置は、話者から入力音声を受け付けた場合、一方の面に原言語フレーズを表示すると共に、他方の面に目的語フレーズを表示する。そして、原言語話者が、一方の面の原言語フレーズを参照し、目的言語話者が、他方の面の目的言語フレーズを参照する。そして、割り込み等の処理については上述した実施形態と同様に、割り込み音声により受け付けることができる。

このように本変形例における音声翻訳装置は、これら原言語フレーズと目的語フレーズを、上述した実施の形態及び変形例の音声を出力するタイミングと同様のタイミングで表示することで、上述した実施の形態及び変形例と同様の効果を得ることができる。

また、上述した実施の形態においては、音声翻訳装置を使用する人数として、原言語話者と目的語話者の二人を想定していた。しかしながら、上述した実施の形態は、音声翻訳装置を使用する人数を二人に制限するものではなく、多人数対応に拡張してもよい。

また、上述した実施の形態においては、音声翻訳装置は、割り込み入力音声を受け付けた場合、当該入力音声による割り込み階層は何層でも生成することができる。このように割り込み階層が何層も生成された場合、元の発話に再帰的に戻ったとしても、利用者が既に忘れている又はすでに伝達が終了した等の理由により、復帰する利益が減少することもある。

そこで、音声翻訳装置は、自動的に元発話をキャンセルしてもよい。また、音声翻訳装置に元発話をキャンセルするためのボタン等が備え付けられており、話者が手動でキャンセルできるようにしてもよい。

これにより、話者との間の話題が割り込みしている間に変更された場合や、音声翻訳装置が出力した音声で音声認識がおかしかった場合にも対応できる。

図１６は、上述した実施の形態にかかる音声翻訳装置のハードウェア構成を示す図である。音声翻訳装置は、ハードウェア構成として、音声翻訳装置における音声翻訳プログラムなどが格納されているＲＯＭ１６０２と、ＲＯＭ１６０２内のプログラムに従って音声翻訳装置の各部を制御するＣＰＵ１６０１と、音声翻訳装置の制御に必要な種々のデータを記憶するＲＡＭ（Randam Access Memory）１６０３と、話者からの音声信号を入力する音声入力Ｉ／Ｆ１６０４と、話者に対して音声信号を出力する音声出力Ｉ／Ｆ１６０５と、各部を接続するバス１６０６を備えている。また、音声翻訳装置は、上述した構成を備えた、一般的なコンピュータに適用することができる。

上述した実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

この場合には、音声翻訳プログラムは、音声翻訳装置において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。

また、上述した実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、上述した実施の形態にかかる音声翻訳装置で実行される音声翻訳プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。

また、本実施形態の音声翻訳プログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

本実施の形態の音声翻訳装置で実行される音声翻訳プログラムは、上述した各部を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ（プロセッサ）が上記記憶媒体から音声翻訳プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上記各部が主記憶装置上に生成されるようになっている。

以上のように、本発明にかかる音声翻訳装置、音声翻訳方法及び音声翻訳プログラムは、入力された音声から翻訳処理を行う間に生じた誤りを確認する技術として有用である。

実施の形態にかかる音声翻訳装置を使用している状況を概念的に示した説明図である。前記音声翻訳装置の構成を示すブロック図である。前記音声翻訳装置の適用履歴記憶部に記憶された翻訳規則適応履歴の例を示した図である。前記音声翻訳装置の対応付け部が行うアライメントの概念を示した説明図である。前記音声翻訳装置のフレーズ記憶部が保持するデータ構造の例を示した図である。前記音声翻訳装置の音声の入力を受け付けてから、音声を出力するまでの処理手順を示すフローチャートである。前記翻訳装置の入力音声を受け付けた場合に、フレーズ対セットを生成するまでの処理手順を示すフローチャートである。前記音声翻訳装置のフレーズ対の音声出力を行う際の処理手順を示すフローチャートである。前記音声翻訳装置に対して入力された入力音声と、当該入力音声から生成された原言語テキスト及び目的言語テキストの例を示した図である。前記音声翻訳装置によりフレーズ対が出力される順序の例を示した説明図である。前記音声翻訳装置が入力を受け付ける入力音声と、出力する音声フレーズ対とを示した第１の例におけるタイムチャート図である。前記音声翻訳装置に対して入力された入力音声と、当該入力音声から生成された原言語テキスト及び目的言語テキストの第２の例を示した図である。前記音声翻訳装置のフレーズ記憶部が保持するデータの第２の例を示した図である。前記音声翻訳装置が入力を受け付ける入力音声と、出力する音声フレーズ対とを示した第２の例におけるタイムチャート図である。前記音声翻訳装置が入力を受け付ける入力音声と、出力する音声フレーズ対とを示した第２の例におけるタイムチャート図である。音声翻訳装置のハードウェア構成を示す図である。

符号の説明

１０マイク
１１マイク
１００音声翻訳装置
１５０スピーカ
１６０ヘッドホン
２０１音声入力受付部
２０２音声認識部
２０３機械翻訳部
２０４フレーズアライメント部
２０５音声出力部
２０６音声合成部
２０７フレーズ記憶部
２０８制御部
２１１第１音声入力受付部
２１２第１音声入力受付部
２２１ルール保持部
２２２適用履歴記憶部
２３１第１分割部
２３２第２分割部
２３３対応付け部
２４１第１音声出力部
２４２第２音声出力部
２５１日本語音声合成部
２５２英語音声合成部
２６１音声認識部
２６１日本語音声認識部
２６２英語音声認識部
１６０１ＣＰＵ
１６０２ＲＯＭ
１６０３ＲＡＭ
１６０４音声入力Ｉ／Ｆ
１６０５音声出力Ｉ／Ｆ
１６０６バス

Claims

利用者から第１言語による音声の入力を受け付ける音声入力受付手段と、
前記音声入力受付手段により入力を受け付けた前記音声を認識し、第１のテキストを生成する音声認識手段と、
前記音声認識手段により生成された前記第１のテキストを第２言語に翻訳して、第２のテキストを生成する翻訳手段と、
前記第１のテキストをフレーズ毎に分割し、第１のフレーズ群を生成する第１分割手段と、
前記第２のテキストをフレーズ毎に分割し、第２のフレーズ群を生成する第２分割手段と、
前記各第２のフレーズに対して、当該各第２のフレーズと意味的に等価な前記第１のフレーズを、対応付ける対応付手段と、
前記第２のテキストにおけるフレーズ順で、前記第２のフレーズと、当該第２のフレーズと前記対応付手段により対応付けられた前記第１のフレーズとを順次出力する出力手段と、を備え、
前記音声入力受付手段は、前記出力手段による前記第２のフレーズと、前記第１のフレーズとの出力時に、音声の入力を受け付け、
前記出力手段は、前記音声入力受付手段により音声の入力を受け付けた場合、前記第２のフレーズと前記第１のフレーズとの出力を停止する、
ことを特徴とする音声翻訳装置。
前記出力手段は、前記出力時に入力を受け付けた前記音声から生成された前記第２のフレーズと前記第１のフレーズとを出力した後、出力を停止していた音声から生成された前記第２のフレーズと前記第１のフレーズとを出力すること、
を特徴とする請求項１に記載の音声翻訳装置。
前記出力手段は、前記第２のフレーズと、前記第１のフレーズとをほぼ同時に出力すること、
を特徴とする請求項１又は２に記載の音声翻訳装置。
前記第１のフレーズを音声信号に合成する第１音声合成手段と、をさらに備え、
前記出力手段は、前記音声合成手段により合成された前記第１のフレーズの音声信号を出力すること、
を特徴とする請求項１乃至３のいずれか一つに記載の音声翻訳装置。
前記第２のフレーズを音声信号に合成する第２音声合成手段と、をさらに備え、
前記出力手段は、前記第２音声合成手段により合成された前記第２のフレーズの音声信号を出力すること、
を特徴とする請求項１乃至４のいずれか一つに記載の音声翻訳装置。
利用者から第１言語による音声の入力を受け付ける第１の音声入力受付ステップと、
前記音声入力受付ステップにより入力を受け付けた前記音声を認識し、第１のテキストを生成する音声認識ステップと、
前記音声認識ステップにより生成された前記第１のテキストを第２言語に翻訳して、第２のテキストを生成する翻訳ステップと、
前記第１のテキストをフレーズ毎に分割し、第１のフレーズ群を生成する第１分割ステップと、
前記第２のテキストをフレーズ毎に分割し、第２のフレーズ群を生成する第２分割ステップと、
前記各第２のフレーズに対して、当該各第２のフレーズと意味的に等価な前記第１のフレーズを、対応付ける対応付ステップと、
前記第２のテキストにおけるフレーズ順で、前記第２のフレーズと、当該第２のフレーズと前記対応付ステップにより対応付けられた前記第１のフレーズとを順次出力する出力ステップと、
前記出力ステップによる前記第２のフレーズと、前記第１のフレーズとの出力時に、音声の入力を受け付ける第２の音声入力受付ステップと、
前記第２の音声入力受付ステップにより音声の入力を受け付けた場合、前記出力ステップによる前記第２のフレーズと前記第１のフレーズとの出力を停止する停止ステップと、
を有することを特徴とする音声翻訳方法。
入力された音声に対して翻訳処理を行う音声翻訳プログラムであって、
利用者から第１言語による音声の入力を受け付ける第１の音声入力受付ステップと、
前記音声入力受付ステップにより入力を受け付けた前記音声を認識し、第１のテキストを生成する音声認識ステップと、
前記音声認識ステップにより生成された前記第１のテキストを第２言語に翻訳して、第２のテキストを生成する翻訳ステップと、
前記第１のテキストをフレーズ毎に分割し、第１のフレーズ群を生成する第１分割ステップと、
前記第２のテキストをフレーズ毎に分割し、第２のフレーズ群を生成する第２分割ステップと、
前記各第２のフレーズに対して、当該各第２のフレーズと意味的に等価な前記第１のフレーズを、対応付ける対応付ステップと、
前記第２のテキストにおけるフレーズ順で、前記第２のフレーズと、当該第２のフレーズと前記対応付ステップにより対応付けられた前記第１のフレーズとを順次出力する出力ステップと、
前記出力ステップによる前記第２のフレーズと、前記第１のフレーズとの出力時に、音声の入力を受け付ける第２の音声入力受付ステップと、
前記第２の音声入力受付ステップにより音声の入力を受け付けた場合、前記出力ステップによる前記第２のフレーズと前記第１のフレーズとの出力を停止する停止ステップと、
をコンピュータに実行させる音声翻訳プログラム。