以下、本発明の実施の形態について詳細に説明する。なお、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。またさらに、必要に応じて示す上下左右等の位置関係は、特に断らない限り、図示の表示に基づくものとする。さらにまた、図面における各種の寸法比率は、その図示の比率に限定されるものではない。
(装置構成)
図1は、本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。この例において、音声翻訳装置100は、ユーザが使用する情報端末10(ユーザ装置)にネットワークNを介して電子的に接続されるサーバ20を備える(但し、これに限定されない)。
情報端末10は、例えば、タッチパネル等のユーザインターフェイス及び視認性が高いディスプレイを採用する。また、ここでの情報端末10は、ネットワークNとの通信機能を有するスマートフォンに代表される携帯電話を含む可搬型のタブレット型端末装置である。さらに、情報端末10は、プロセッサ11、記憶資源12、音声入出力デバイス13、通信インターフェイス14、入力デバイス15、表示デバイス16、及びカメラ17を備えている。また、情報端末10は、インストールされた音声翻訳アプリケーションソフト(本発明の一実施形態による音声翻訳プログラムの少なくとも一部)が動作することにより、本発明の一実施形態による音声翻訳装置の一部又は全部として機能するものである。
プロセッサ11は、算術論理演算ユニット及び各種レジスタ(プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等)から構成される。また、プロセッサ11は、記憶資源12に格納されているプログラムP10である音声翻訳アプリケーションソフトを解釈及び実行し、各種処理を行う。このプログラムP10としての音声翻訳アプリケーションソフトは、例えばサーバ20からネットワークNを通じて配信可能なものであり、手動で又は自動でインストール及びアップデートされてもよい。
なお、ネットワークNは、例えば、有線ネットワーク(近距離通信網(LAN)、広域通信網(WAN)、又は付加価値通信網(VAN)等)と無線ネットワーク(移動通信網、衛星通信網、ブルートゥース(Bluetooth(登録商標))、WiFi(Wireless Fidelity)、HSDPA(High Speed Downlink Packet Access)等)が混在して構成される通信網である。
記憶資源12は、物理デバイス(例えば、半導体メモリ等のコンピュータ読み取り可能な記録媒体)の記憶領域が提供する論理デバイスであり、情報端末10の処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、各種データ等を格納する。ドライバプログラムとしては、例えば、音声入出力デバイス13を制御するための入出力デバイスドライバプログラム、入力デバイス15を制御するための入力デバイスドライバプログラム、表示デバイス16を制御するための表示デバイスドライバプログラム等が挙げられる。さらに、音声入出力デバイス13は、例えば、一般的なマイクロフォン、及びサウンドデータを再生可能なサウンドプレイヤである。
通信インターフェイス14は、例えばサーバ20との接続インターフェイスを提供するものであり、無線通信インターフェイス及び/又は有線通信インターフェイスから構成される。また、入力デバイス15は、例えば、表示デバイス16に表示されるアイコン、ボタン、仮想キーボード、テキスト等のタップ動作による入力操作を受け付けるインターフェイスを提供するものであり、タッチパネルの他、情報端末10に外付けされる各種入力装置を例示することができる。
表示デバイス16は、画像表示インターフェイスとして各種の情報をユーザ(話し手と聞き手)に提供するものであり、例えば、有機ELディスプレイ、液晶ディスプレイ、CRTディスプレイ等が挙げられる。また、カメラ17は、種々の被写体の静止画や動画を撮像するためのものである。
サーバ20は、例えば、演算処理能力の高いホストコンピュータによって構成され、そのホストコンピュータにおいて所定のサーバ用プログラムが動作することにより、サーバ機能を発現するものであり、例えば、音声認識サーバ、翻訳サーバ、及び音声合成サーバとして機能する単数又は複数のホストコンピュータから構成される(図示においては単数で示すが、これに限定されない)。そして、各サーバ20は、プロセッサ21、通信インターフェイス22、及び記憶資源23を備える。
プロセッサ21は、算術演算、論理演算、ビット演算等を処理する算術論理演算ユニット及び各種レジスタ(プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等)から構成され、記憶資源23に格納されているプログラムP20を解釈及び実行し、所定の演算処理結果を出力する。また、通信インターフェイス22は、ネットワークNを介して情報端末10に接続するためのハードウェアモジュールであり、例えば、ISDNモデム、ADSLモデム、ケーブルモデム、光モデム、ソフトモデム等の変調復調装置である。
記憶資源23は、例えば、物理デバイス(ディスクドライブ又は半導体メモリ等のコンピュータ読み取り可能な記録媒体等)の記憶領域が提供する論理デバイスであり、それぞれ単数又は複数のプログラムP20、各種モジュールL20、各種データベースD20、及び各種モデルM20が格納されている。また、記憶資源23には、会話の一方のユーザ(話し手)が会話の他方のユーザ(聞き手)へ話しかけるために予め用意された複数の質問定型文、入力音声の履歴データ、各種設定用のデータ、後述するフレーズデータ等も記憶されている。
プログラムP20は、サーバ20のメインプログラムである上述したサーバ用プログラム等である。また、各種モジュールL20は、情報端末10から送信されてくる要求及び情報に係る一連の情報処理を行うため、プログラムP10の動作中に適宜呼び出されて実行されるソフトウェアモジュール(モジュール化されたサブプログラム)である。かかるモジュールL20としては、音声認識モジュール、翻訳モジュール、音声合成モジュール等が挙げられる。
また、各種データベースD20としては、音声翻訳処理のために必要な各種コーパス(例えば、日本語と英語の音声翻訳の場合、日本語音声コーパス、英語音声コーパス、日本語文字(語彙)コーパス、英語文字(語彙)コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等)、音声データベース、ユーザに関する情報を管理するための管理用データベース、後述する階層構造を有するフレーズデータベース等が挙げられる。また、各種モデルM20としては、音声認識に使用する音響モデルや言語モデル等が挙げられる。
(通常の音声翻訳による会話)
以上のとおり構成された音声翻訳装置100における処理操作及び動作の一例について、以下に説明する。ここでは、ユーザ同士(質問者と回答者;何れも話者)の会話及び/又は会話準備における通常の音声翻訳処理の一例について説明する。図2は、音声翻訳装置100における処理の流れ(の一部)の一例を示すフローチャートである。また、図3(A)乃至(D)及び図4(A)乃至(D)は、情報端末における表示画面の遷移の一例を示す平面図である。なお、本実施形態においては、一方の話者(質問者)の言語が日本語であり、他方の話者(回答者)の言語が中国語である場合の会話を想定する(但し、言語やシチュエーションはこれに限定されない)。
まず、ユーザが当該アプリケーションを起動する(ステップSU1)と、サーバ20のプロセッサ21及び情報端末10のプロセッサ11により、情報端末10の表示デバイス16に、相手方のユーザの言語を選択するための言語選択画面が表示される(図3(A);ステップSJ1)。この言語選択画面には、相手方のユーザに言語を尋ねることを、ユーザに促すための日本語のテキストT1、相手方のユーザに言語を尋ねる旨の英語のテキストT2、及び、想定される複数の代表的な言語(ここでは、英語、中国語(例えば書体により2種類)、ハングル語)を示す言語ボタン31が表示される。さらにその下方には、言語選択画面を閉じて当該アプリケーションを終了するためのキャンセルボタンB1も表示される。
このとき、図3(A)に示す如く、日本語のテキストT1及び英語のテキストT2は、プロセッサ11及び表示デバイス16により、情報端末10の表示デバイス16の画面において、異なる領域によって区分けされ、且つ、互いに逆向き(互いに異なる向き;図示において上下逆向き)に表示される。これにより、ユーザ同士が対面している状態で会話を行う場合、一方のユーザは日本語のテキストT1を確認し易い一方、他方のユーザは、英語のテキストT2を確認し易くなる。また、日本語のテキストT1と英語のテキストT2が区分けして表示されるので、両者を明別して更に視認し易くなる利点がある。
ユーザがその言語選択画面における英語のテキストT2の表示を聞き手に提示し、相手方のユーザに「中国語」のボタンをタップしてもらうことにより、又は、相手方のユーザが自ら、その使用言語である「中国語」を選択することができる。こうして相手方のユーザの言語が選択されると、サーバ20のプロセッサ21及び情報端末10のプロセッサ11により、ホーム画面として、日本語と中国語の音声入力の待機画面が表示デバイス16に表示される(図3(B);ステップSJ2)。
この音声入力待機画面には、日本語の音声入力を行うためのマイクを図案化した入力ボタン32a及び中国語の音声入力を行うためのマイクを図案化した入力ボタン32bが表示される。また、入力ボタン32a,32bよりも画面の縁側には、それぞれ、日本語を中国語に変換することを示す日本語のテキストT3、及び、中国語を日本語に変換することを示す中国語のテキストT4が表示される。さらに、入力ボタン32a,32bよりも画面の中央側には、それぞれ、マイクを図案化した入力ボタン32a,32bをタップして会話を始めることを促す日本語のテキストT5及び中国語のテキストT6が表示される。
またさらに、この音声入力待機画面には、ユーザが予め登録しておいたフレーズ群を表示させるための登録フレーズボタンB2、音声入力に代えてテキストで入力するためのテキスト入力ボタンB3、当該アプリケーションソフトの各種設定を行うための設定ボタンB4、及び会話のシーンを選択するためのシーン選択ボタンBSも表示される。
次に、図3(B)に示す音声入力待機画面において、ユーザ(質問者)が日本語の入力ボタン32aをタップして日本語の音声入力を選択すると、ユーザの日本語による発話内容を受け付ける音声入力画面となる(図3(C))。この音声入力画面が表示されると、音声入出力デバイス13からの音声入力が可能な状態となる。
また、この音声入力画面には、情報端末10のマイクに向かって音声入力を行うように促す日本語のテキストT6、相手が音声入力中であることを示す中国語のテキストT7、マイクを図案化した入力ボタン32a、及び、その入力ボタン32aを囲うような多重円形図案33が表示される。この多重円形図案33は、音声入力状態にあることを示し、声量の大小を模式的に且つ動的に表すように、声量に応じて表示される円部分の大きさが変化する。これにより、音声入力レベルがユーザへ視覚的にフィードバックされる。
さらに、この音声入力画面にも、キャンセルボタンB1が表示され、これをタップすることにより、当該アプリケーションを終了するか、音声入力待機画面(図3(B))へ戻って音声入力をやり直すことができる。また、入力ボタン32aの近傍には、音声入力が終了した後に、後述の音声認識処理及び多言語翻訳処理を行うための日本語のテキストT8が表示される。
この状態で、ユーザ(質問者)が相手方のユーザ(回答者)への伝達事項等を発話する(ステップSU2)と、音声入出力デバイス13を通して音声入力が行われる(ステップSJ3)。情報端末10のプロセッサ11は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス14及びネットワークNを通してサーバ20へ送信する。このとおり、情報端末10自体、又はプロセッサ11及び音声入出力デバイス13が「入力部」として機能する。
それから、発話が終了して図4(C)に示す日本語のテキストT8がタップ(タッチ)されると、プロセッサ11は、発話内容の受け付けを終了する。情報端末10のプロセッサ11は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス14及びネットワークNを通してサーバ20へ送信する。
次に、サーバ20のプロセッサ21は、通信インターフェイス22を通してその音声信号を受信し、音声認識処理を行う(ステップSJ4)。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声認識モジュール、日本語音声コーパス、音響モデル、言語モデル等)を呼び出し、入力音声の「音」を「読み」(文字)へ変換する。このとおり、サーバ20は、全体として「音声認識サーバ」としても機能する。また、プロセッサ21は、認識された内容を、音声入力の履歴データとして、記憶資源23(記憶部)に(必要に応じて適宜のデータベースに)記憶する。
続いて、プロセッサ21は、認識された音声の「読み」(文字)を複数の他言語に翻訳する多言語翻訳処理へ移行する(ステップSJ5)。ここでは、相手方のユーザの言語として中国語が選択されているので、プロセッサ21は、記憶資源23から、必要なモジュールL20及びデータベースD20(翻訳モジュール、日本語文字コーパス、日本語辞書、中国語辞書、日本語/中国語対訳辞書、日本語/中国語対訳コーパス等)を呼び出し、認識結果である入力音声の「読み」(文字列)を適切に並び替えて日本語の句、節、文等へ変換し、その変換結果に対応する中国語を抽出し、それらを中国語の文法に従って並び替えて自然な中国語の句、節、文等へと変換する。
このとおり、プロセッサ21は、入力音声の内容を第1言語(日本語)とは異なる第2言語(中国語)の内容に翻訳する「翻訳部」としても機能し、サーバ20は、全体として「翻訳サーバ」としても機能する。なお、入力音声が正確に認識されなかった場合には、音声の再入力を行うことができる(図示省略)。また、プロセッサ21は、それらの日本語及び中国語の句、節、文等を、記憶資源23に記憶しておくこともできる。
また、この翻訳処理中に、情報端末10のプロセッサ11は、図3(D)に示す翻訳処理中画面を表示する。この翻訳処理中画面には、翻訳処理中であることを示す日本語のテキストT9及び中国語のテキストT10、並びに、翻訳処理中であることを表すための円弧の一部が回動するように表示される環状図案34も表示される。さらに、この翻訳処理中画面にも、キャンセルボタンB1が表示され、これをタップすることにより、当該アプリケーションを終了するか、音声入力待機画面(図3(B))へ戻って音声入力をやり直すことができる。
次に、多言語翻訳処理が完了すると、プロセッサ21は、音声合成処理へ移行する(ステップSJ6)。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声合成モジュール、中国語音声コーパス、音響モデル、言語モデル等)を呼び出し、翻訳結果である中国語の句、節、文等を自然な音声に変換する。このとおり、プロセッサ21は、「音声合成部」としても機能し、サーバ20は、全体として「音声合成サーバ」としても機能する。
次いで、プロセッサ21は、中国語による翻訳結果(対応する中国語の会話コーパスでもよい)に基づいてテキスト表示用のテキスト信号を生成し、情報端末10へ送信する。そのテキスト信号を受信したプロセッサ11は、音声認識した入力音声の内容を示す日本語のテキストT11と、その中国語による翻訳結果(対訳)のテキストT12を、図4(A)に示す翻訳結果表示画面に表示する。
また、この翻訳結果表示画面には、図3(B)のホーム画面にも表示されたマイクを図案化した日本語の入力ボタン32a及び中国語の入力ボタン32bが表示され、それらの近傍には、それぞれ、日本語及び中国語であることを示すテキストT13,T14が表示される。
さらに、プロセッサ21は、合成された音声に基づいて音声出力用の音声信号を生成し、情報端末10へ送信する。その音声信号を受信したプロセッサ11は、テキストT13,T14の表示とともに、音声入出力デバイス13(出力部)を用いて、中国語のテキストT12の内容の音声を出力する(読み上げる)(ステップSJ7)。
さらに、テキストT11の近傍には、音声入力に代えてテキストで入力するためのテキスト入力ボタンB5が表示され、画面下部には、図3(B)のホーム画面へ戻るためのチェックボタンB7、及び、翻訳結果の誤りを報告するための誤訳通知ボタンB6が表示される。またさらに、この翻訳結果表示画面には、ユーザの感情を表現するための感情文字又は感情記号を表示させるための表示ボタンB8も表示される。
ここで、テキスト入力ボタンB5をタップすると、図4(B)に示すテキスト入力画面が表示される。このテキスト入力画面には、図4(A)に表示された日本語のテキストT11が淡いグレースケールで表示される。日本語のキーボードKからテキスト入力を開始すると、テキストT11が消去され、その場所に新たに入力されたテキストの内容が表示される。また、テキスト入力画面の上部には、入力したテキストをキャンセルして消去するための消去ボタンB9が表示され、キーボードKの直上には、入力したテキストを翻訳するための翻訳ボタンB10が表示される。この翻訳ボタンB10がタップされると、先述の翻訳処理と音声合成処理が行われ、図4(A)に示す翻訳結果表示画面と同様の画面が表示される。
その後、相手方のユーザが回答する場合、図4(A)の翻訳結果表示画面に表示された中国語の入力ボタン32bをタップして中国語の音声入力を選択すると、相手方のユーザの中国語による発話内容を受け付ける音声入力画面となる(図4(C))。この音声入力画面が表示されると、図3(C)に示す音声入力画面と同様に、音声入出力デバイス13からの音声入力が可能な状態となる。また、この音声入力画面には、情報端末10のマイクに向かって音声入力を行うように促す中国語のテキストT15、相手が音声入力中であることを示す日本語のテキストT16、マイクを図案化した入力ボタン32b、及び、その入力ボタン32bを囲うような多重円形図案33が表示される。
さらに、この音声入力画面にも、キャンセルボタンB1が表示され、これをタップすることにより、当該アプリケーションを終了するか、音声入力待機画面(図3(B))へ戻って音声入力をやり直すことができる。また、入力ボタン32bの近傍には、音声入力が終了した後に、後述の音声認識処理及び多言語翻訳処理を行うための中国語のテキストT17が表示される。
この状態で、相手方のユーザ(回答者)がユーザ(質問者)への回答事項等を発話する(ステップSU2)と、音声入出力デバイス13を通して音声入力が行われる(ステップSJ3)。情報端末10のプロセッサ11は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス14及びネットワークNを通してサーバ20へ送信する。それから、発話が終了して中国語のテキストT14がタップ(タッチ)されると、プロセッサ11は、発話内容の受け付けを終了する。情報端末10のプロセッサ11は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス14及びネットワークNを通してサーバ20へ送信する。
次に、サーバ20のプロセッサ21は、通信インターフェイス22を通してその音声信号を受信し、音声認識処理を行う(ステップSJ4)。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声認識モジュール、中国語音声コーパス、音響モデル、言語モデル等)を呼び出し、入力音声の「音」を「読み」(文字)へ変換する。また、プロセッサ21は、認識された内容を、音声入力の履歴データとして、記憶資源23に(必要に応じて適宜のデータベースに)記憶する。
続いて、プロセッサ21は、認識された音声の「読み」(文字)を複数の他言語に翻訳する多言語翻訳処理へ移行する(ステップSJ5)。プロセッサ21は、記憶資源23から、必要なモジュールL20及びデータベースD20(翻訳モジュール、中国語文字コーパス、中国語辞書、日本語辞書、中国語/日本語対訳辞書、中国語/日本語対訳コーパス等)を呼び出し、認識結果である入力音声の「読み」(文字列)を適切に並び替えて中国語の句、節、文等へ変換し、その変換結果に対応する日本語を抽出し、それらを日本語の文法に従って並び替えて自然な日本語の句、節、文等へと変換する。なお、入力音声が正確に認識されなかった場合には、音声の再入力を行うことができる(図示省略)。また、プロセッサ21は、それらの中国御及び日本語の句、節、文等を、記憶資源23に記憶しておくこともできる。
また、この翻訳処理中に、情報端末10のプロセッサ11は、図4(D)に示す翻訳処理中画面を表示する。この翻訳処理中画面には、翻訳処理中であることを示す日本語のテキストT9及び中国語のテキストT10、並びに、翻訳処理中であることを表すため円弧の一部が回動するように表示される環状図案34も表示される。さらに、この翻訳処理中画面にも、キャンセルボタンB1が表示され、これをタップすることにより、当該アプリケーションを終了するか、音声入力待機画面(図3(B))へ戻って音声入力をやり直すことができる。
次に、多言語翻訳処理が完了すると、プロセッサ21は、音声合成処理へ移行する(ステップSJ6)。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声合成モジュール、日本語音声コーパス、音響モデル、言語モデル等)を呼び出し、翻訳結果である日本語の句、節、文等を自然な音声に変換する。
次いで、プロセッサ21は、日本語による翻訳結果(対応する日本語の会話コーパスでもよい)に基づいてテキスト表示用のテキスト信号を生成し、情報端末10へ送信する。そのテキスト信号を受信したプロセッサ11は、音声認識した入力音声の内容を示す中国語のテキストと、その日本語による翻訳結果(対訳)のテキストを、図4(A)に示す翻訳結果表示画面と同様に表示する。
(会話のシーンを考慮した音声翻訳による会話)
次に、ユーザ同士(話者)の会話及び/又は会話準備において、その会話のシーンをユーザが選択し、選択されたその会話のシーンを考慮して音声翻訳を行う場合の処理操作及び動作の一例について、以下に説明する。図5は、音声翻訳装置100における処理の流れ(の一部)の一例を示すフローチャートである。また、図6(A)及び(B)は、情報端末における表示画面の遷移の一例を示す平面図である。なお、本実施形態においては、一方のユーザ(質問者)の言語が日本語であり、他方のユーザ(回答者)の言語が英語である場合の会話を想定する(但し、言語やシチュエーションはこれに限定されない)。
ここでの処理手順は、図2に示す発話(ステップSU2)に先立って会話のシーンを選択し(ステップSU3)、また、音声認識(ステップSJ4)と多言語翻訳(ステップSJ5)の間に、認識された音声の内容が質問文であり且つ特定のフレーズを含んでいるか否かの判定(ステップSJ8)、特定のフレーズと選択されたシーンが関連付けられているか否かの判定(ステップSJ9)、及び特定のフレーズと選択されたシーンに関連付けて記憶された定型構文の提示(ステップSJ10)を実施すること以外は、図2に示す「通常の音声翻訳による会話」における処理手順と同様である。
すなわち、ユーザ(質問者)が当該アプリケーションを起動して(ステップSU1)、相手方のユーザ(回答者)の言語を選択するための言語選択画面を表示し(図3(A);ステップSJ1)、さらに、相手方のユーザ(回答者)の言語を選択して日本語と英語の音声入力待機画面を表示デバイス16に表示する(図3(B)と同様;ステップSJ2)。それから、図3(B)に示す音声入力待機画面において、ユーザ(質問者)が会話のシーンを選択するためのシーン選択ボタンBSをタップする。そうすると、サーバ20のプロセッサ21及び情報端末10のプロセッサ11により、会話のシーンのリスト表示画面が表示デバイス16に表示される(図6(A))。
図6(A)に示す例では、シーンの大分類(例えば、「飲食」、「買い物」、「観光」、「ビジネス」等)がシーン見出しタブS1〜S4として表示される。それらのなかからユーザ(質問者)が所望のシーン見出しタブS1〜S4をタップすると、そのシーンタブに属する具体的なシーンの小分類(大分類が「飲食」の場合、例えば、「接客」、「案内」、「注文」、「会計」等)が、シーンバーS11〜S15としてリスト表示される。
ここで、一例として、ユーザ(質問者)が日本語を話す飲食店の店員であり、ユーザ(回答者)がその飲食店に来店した英語を話す外国人客である場合、質問者である店員は、シーンタブS1〜S4のなかから「飲食」のシーンタブをタップし、さらに、来店時の応対であることから、シーンバーS11〜S15のなかから、「接客」又は「案内」のシーンバーをタップして、そのときの会話のシーンを選択することができる(ステップSU3)。
ユーザによって会話のシーンが選択されると、サーバ20のプロセッサ21及び情報端末10のプロセッサ11により、情報端末10の表示デバイス16に、図3(B)に示す音声入力待機画面が再び表示される。この状態で、質問者が回答者への質問事項として、図4(A)に示すフレーズとは異なり、例えば「どんな席がよろしいですか?」と発話する(ステップSU2)と、音声入出力デバイス13を通して音声入力が行われる(ステップSJ3)。その発話が終了して図4(C)に示す日本語のテキストT8がタップ(タッチ)されると、プロセッサ11は、発話内容の受け付けを終了し、サーバ20のプロセッサ21が、音声認識処理を行う(ステップSJ4)。
この場合、具体的には、プロセッサ21は、入力音声の「音」を「読み」(文字)へ変換し、形態素解析を行い、上記の発話内容から、例えば「どんな」、「席」、「が」、「よろしい」、及び「ですか」といったフレーズが抽出される。次に、プロセッサ21は、その入力音声の内容が質問文であり、且つ、特定のフレーズを含むか否かの判定を行う(ステップSJ8)。より具体的には、プロセッサ21は、入力音声の内容に「どんな」といった疑問詞が含まれることから、或いは、それに加えて「ですか」という文尾の表現から、その入力音声の内容が質問文であると判定する。
一方、記憶資源23(記憶部)には、例えば、「席」という単独のフレーズ、又は、「どんな」+「席」というフレーズの組み合わせが、特定のフレーズとして予め記憶されており、プロセッサ21は、その入力音声の内容が特定のフレーズを含むと判定する(ステップSJ8においてYes)。なお、入力音声の内容が質問文ではなく、又は、特定のフレーズを含まない場合(ステップSJ8においてNo)には、処理は通常の多言語翻訳処理(ステップSJ5)へ移行する。
次いで、プロセッサ21は、入力音声の内容に含まれる特定のフレーズ(「席」又は「どんな」+「席」)に、選択されたシーン(「接客」又は「案内」)が関連付けられているか否かを判定する(ステップSJ9)。ここでは、記憶資源23に、「席」又は「どんな」+「席」に対して「接客」というシーンが関連付けられて予め記憶されているので、入力音声の内容に含まれる特定のフレーズに、選択されたシーンの関連付けありと判定される(ステップSJ9においてYes)。なお、入力音声の内容に含まれる特定のフレーズに、選択されたシーンの関連付けがない場合(ステップSJ9においてNo)には、処理は通常の多言語翻訳処理(ステップSJ5)へ移行する。
それから、プロセッサ21は、記憶資源23に記憶されている情報のなかから、特定のフレーズ(「席」又は「どんな」+「席」)と選択されたシーン(「接客」又は「案内」)の双方に関連付けて記憶されている定型構文がある場合、それを抽出して表示デバイス16にリストとして提示する(ステップSJ10においてYes;図6(B))。この図6(B)に示す例では、特定のフレーズ(「席」又は「どんな」+「席」)と選択されたシーン(「接客」又は「案内」)の双方に関連付けて記憶資源23に記憶されている定型構文として、「お席は室内とテラスとどちらがよろしいですか?」、「お席は禁煙席と喫煙席のどちらがよろしいですか?」、「お席はカウンターとテーブルのどちらがよろしいですか?」、「お席は1階席と2階席のどちらがよろしいですか?」、及び「何かお席の希望がございますか?」といった構文が構文リストPLとして表示される。
ここで、仮に、質問者である店員から「どんな席がよろしいですか?」と質問された回答者である外国人客は、そもそも、店内にどのような種類の席が存在するのか知らなかったり、店員が質問事項である「どんな席」としてどのような種類の席を想定しているのか分からなかったりすることも多々ある。その場合、質問された外国人客は、図6(B)の構文リストPLに例示されているような内容を、確認のため、店員に質問してしまうことも想定される。しかも、かかるやり取りを、音声翻訳を介して行うために、円滑なコミュニケーションを図り難い傾向にある。
これに対し、図6(B)の如く、構文リストPLが表示されると、質問者である店員は、例えば「どんな席がよろしいですか?」よりも精度の高い質問内容(例えば「お席はカウンターとテーブルのどちらがよろしいですか?」)を選択して、外国人客へ問い掛けることができるので、外国人客に対して適切な質問を行うことができ、外国人の意向をより正確に把握しつつ、両者の円滑なコミュニケーションを図ることが可能となる。
このようにして、質問者である店員は、図6(B)に示す構文リストPLのなかから所望の構文をタップして選択することにより、その構文の内容が翻訳され(ステップSJ5)、続けて音声合成(ステップSJ6)及び音声出力(ステップSJ7)の処理が行われる。また、図6(B)に示す構文リスト表示画面には、図4(A)の翻訳結果表示画面に表示されているのと同様のテキスト入力ボタンB5も表示される。話し手がこのテキスト入力ボタンB5をタップすると、図4(B)に示すのと同様のテキスト入力画面が表示され、例えば構文リストPLを参考にして、他の内容をテキスト入力することができ、その内容を定型構文として記憶資源23に追加登録してもよい。
なお、上述したとおり、上記の各実施形態は、本発明を説明するための一例であり、本発明をその実施形態に限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。例えば、当業者であれば、実施形態で述べたリソース(ハードウェア資源又はソフトウェア資源)を均等物に置換することが可能であり、そのような置換も本発明の範囲に含まれる。
また、会話のシーンを選択するステップSU3は、例えば、アプリケーション起動(ステップSU1)の後、言語選択画面表示(ステップSJ1)の後、又は発話(ステップSU2)の後に実施するようにしてもよく、或いは、ある程度会話が進んだ任意のタイミングにおいて会話のシーンを選択(入力)することができるように構成してもよい。さらに、構文リストPLを、認識された音声の内容(例えば先述した音声入力内容である「どんな席がよろしいですか?」)とともに表示してもよい。
また、音声認識、翻訳、音声合成等の各処理をサーバ20によって実行する例について記載したが、これらの処理を情報端末10において実行するように構成してもよい。この場合、それらの処理に用いるモジュールL20は、情報端末10の記憶資源12に保存されていてもよいし、サーバ20の記憶資源23に保存されていてもよい。さらに、音声データベースであるデータベースD20、及び/又は、音響モデル等のモデルM20も、情報端末10の記憶資源12に保存されていてもよいし、サーバ20の記憶資源23に保存されていてもよい。このとおり、音声翻訳装置は、ネットワークN及びサーバ20を備えなくてもよい。
また、情報端末10とネットワークNとの間には、両者間の通信プロトコルを変換するゲートウェイサーバ等が介在してももちろんよい。また、情報端末10は、携帯型装置に限らず、例えば、デスクトップ型パソコン、ノート型パソコン、タブレット型パソコン、ラップトップ型パソコン等でもよい。