JP6110539B1

JP6110539B1 - 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム

Info

Publication number: JP6110539B1
Application number: JP2016067710A
Authority: JP
Inventors: 知高大越; 千春宇賀神
Original assignee: RECRUIT LIFESTYLE CO., LTD.
Current assignee: RECRUIT LIFESTYLE CO., LTD.
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2017-04-05
Anticipated expiration: 2036-03-30
Also published as: JP2017182397A

Abstract

【課題】対話者たる外国人との会話の契機を得ることができ、かつ、自然な会話の流れのなかで対話者の言語を選択する又は選択させること。【解決手段】本発明の一態様による音声翻訳装置は、ユーザの音声入力のための入力部、入力音声の内容を翻訳する翻訳部、及び、その翻訳内容を音声等で出力する出力部を備える。また、当該音声翻訳装置は、複数の定型文、及びそれらの複数の言語による訳文を記憶する記憶部と、ユーザが複数の定型文のなかから特定の定型文を選択するために、複数の定型文を表示する定型文提示部と、特定の定型文に対する複数の言語による訳文を表示する訳文提示部と、対話者が複数の言語のなかから所望の言語を選択するための言語選択手段を表示する言語選択手段提示部とを更に備える。【選択図】図５

Description

本発明は、音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムに関する。

互いの言語を理解できない人同士の会話、例えば店員（飲食店等の店舗の販売員）と外国人（海外からの観光客等）との会話を可能ならしめるべく、話者の発話音声をテキスト化し、そのテキストの内容を相手の言語に機械翻訳した上で画面に表示したり、或いは、音声合成技術を用いてそのテキストの内容を音声再生したりする音声翻訳技術が提案されている（例えば特許文献１参照）。また、かかる音声翻訳技術を具現化したスマートフォン等の情報端末で動作する音声翻訳アプリケーションも実用化されている（例えば非特許文献１参照）。

特開平９−３４８９５号公報

Ｕ−ＳＴＡＲコンソーシアムホームページ［平成２８年１月２５日検索］、インターネット＜ＵＲＬ：http://www.ustar-consortium.com/app_ja/app.html＞

しかし、いざ、外国人と会話によるコミュニケーションを図ろうとしても、話しかける切っ掛けを作ることができず、会話自体を始めることができないことがある。また、音声翻訳アプリケーションや音声翻訳装置を有していても、そもそも、対話者（外国人）が話す言語や理解することができる言語が分からない状態では、相手の言語を選択することができず、結果として、音声翻訳アプリケーションや音声翻訳装置を使用することができない。

そこで、本発明は、かかる事情に鑑みてなされたものであり、対話者たる外国人との会話の契機を得ることができ、かつ、自然な会話の流れのなかで対話者の言語を選択する又は選択させることが可能な音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムを提供することを目的とする。

上記課題を解決するため、本発明の一態様による音声翻訳装置は、ユーザの音声を入力するための入力部、入力音声の内容を異なる言語の内容に翻訳する翻訳部、及び、対話者に対して入力音声の翻訳内容（対訳）を音声及び／又はテキストで出力する出力部を備える。そして、当該音声翻訳装置は、複数の定型文（質問文等）、及びそれらの複数の定型文のそれぞれに対する複数の言語による訳文を記憶する記憶部と、ユーザが複数の定型文のなかから特定の定型文を選択するために、それらの複数の定型文を表示する定型文提示部と、特定の定型文が選択されたときに、その特定の定型文に対する複数の言語による訳文を表示する訳文提示部と、対話者が複数の言語のなかから所望の言語を選択するための言語選択手段を表示する言語選択手段提示部とを更に備える。

また、具体的には、言語選択手段提示部が、上記特定の定型文に対する前記複数の言語による訳文の表示の後に、又は、該訳文の表示とともに（同時に）、言語選択手段（ボタン、チェックボックス等）を表示するようにしてもよい。

さらに、上記特定の定型文に対する複数の言語による訳文の表示の後に、又は、その訳文の表示とともに（同時に）、対話者が上記と定型文（質問文等）に対して返答するための返答手段を表示する返答手段提示部を更に備えてもよい。

また、本発明の一態様による音声翻訳方法は、入力部、翻訳部、出力部、記憶部、定型文提示部、訳文提示部、及び言語選択手段提示部を備える本発明による音声翻訳装置を用いる方法である。すなわち、当該方法は、ユーザの音声を入力するステップと、翻訳部が、入力音声の内容を異なる言語の内容に翻訳するステップと、出力部が、翻訳内容を音声及び／又はテキストで出力するステップと、記憶部が、複数の定型文、及びそれらの複数の定型文のそれぞれに対する複数の言語による訳文を記憶するステップと、定型文提示部が、ユーザが複数の定型文のなかから特定の定型文を選択するために、それらの複数の定型文を表示するステップと、訳文提示部が、特定の定型文が選択されたときに、その特定の定型文に対する複数の言語による訳文を表示するステップと、言語選択手段提示部が、対話者が複数の言語のなかから所望の言語を選択するための言語選択手段を表示するステップとを含む。

また、本発明の一態様による音声翻訳プログラムは、コンピュータ（単数又は単一種に限られず、複数又は複数種でもよい；以下同様）を、ユーザの音声を入力するための入力部と、入力音声の内容を異なる言語の内容に翻訳する翻訳部と、翻訳内容を音声及び／又はテキストで出力する出力部と、複数の定型文、及びそれらの複数の定型文のそれぞれに対する複数の言語による訳文を記憶する記憶部と、ユーザが複数の定型文のなかから特定の定型文を選択するために、それらの複数の定型文を表示する定型文提示部と、特定の定型文が選択されたときに、その特定の定型文に対する複数の言語による訳文を表示する訳文提示部と、対話者が複数の言語のなかから所望の言語を選択するための言語選択手段を表示する言語選択手段提示部として機能させるものである。

本発明によれば、複数の定型文、及びそれらの複数の定型文のそれぞれに対する複数の言語の訳文を予め記憶しておき、ユーザがそれらのなかから適宜の「特定の定型文」を選択することができる。そして、それらの複数の言語による訳文を対話者に提示することにより、会話の契機を得ることができるので、対話者との会話による円滑なコミュニケーションが可能となる。また、そのような特定の定型文に対する複数の言語による訳文を対話者に表示して会話を始めてから、対話者が話す又は理解することができる所望の言語を選択することができるので、対話者の言語選択を自然な会話の流れのなかで行うことが可能となる。

本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。本発明による音声翻訳装置におけるユーザ装置である情報端末の構成の一例を概略的に示すシステムブロック図である。本発明による音声翻訳装置におけるサーバの構成の一例を概略的に示すシステムブロック図である。本発明による音声翻訳装置の第１実施形態における処理の流れ（一部）の一例を示すフローチャートである。（Ａ）乃至（Ｄ）は、第１実施形態による情報端末における表示画面の遷移の一例を示す平面図である。（Ａ）及び（Ｂ）は、第１実施形態による情報端末における表示画面の遷移の一例を示す平面図である。本発明による音声翻訳装置の第２実施形態における処理の流れ（一部）の一例を示すフローチャートである。（Ａ）及び（Ｂ）は、第２実施形態による情報端末１０の画面表示における遷移（の一部）の一例を示す平面図である。

以下、本発明の実施の形態について詳細に説明する。なお、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。またさらに、必要に応じて示す上下左右等の位置関係は、特に断らない限り、図示の表示に基づくものとする。さらにまた、図面における各種の寸法比率は、その図示の比率に限定されるものではない。

（装置構成）
図１は、本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。また、図２は、音声翻訳装置１００におけるユーザ装置である情報端末１０の構成の一例を概略的に示すシステムブロック図である。さらに、図３は、音声翻訳装置１００におけるサーバ２０の構成の一例を概略的に示すシステムブロック図である。この例において、音声翻訳装置１００は、ユーザが使用する情報端末１０（ユーザ装置）にネットワークＮを介して電子的に接続されるサーバ２０を備える（但し、これに限定されない）。

情報端末１０は、例えば、タッチパネル等のユーザインターフェイス及び視認性が高いディスプレイを採用する。また、ここでの情報端末１０は、ネットワークＮとの通信機能を有するスマートフォンに代表される携帯電話を含む可搬型のタブレット型端末装置である。さらに、情報端末１０は、プロセッサ１１、記憶資源１２、音声入出力デバイス１３、通信インターフェイス１４、入力デバイス１５、表示デバイス１６、及びカメラ１７を備えている。また、情報端末１０は、インストールされた音声翻訳アプリケーションソフト（本発明の一実施形態による音声翻訳プログラムの少なくとも一部）が動作することにより、本発明の一実施形態による音声翻訳装置の一部又は全部として機能するものである。

プロセッサ１１は、算術論理演算ユニット及び各種レジスタ（プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等）から構成される。また、プロセッサ１１は、記憶資源１２に格納されているプログラムＰ１０である音声翻訳アプリケーションソフトを解釈及び実行し、各種処理を行う。このプログラムＰ１０としての音声翻訳アプリケーションソフトは、例えばサーバ２０からネットワークＮを通じて配信可能なものであり、手動で又は自動でインストール及びアップデートされてもよい。

なお、ネットワークＮは、例えば、有線ネットワーク（近距離通信網（ＬＡＮ）、広域通信網（ＷＡＮ）、又は付加価値通信網（ＶＡＮ）等）と無線ネットワーク（移動通信網、衛星通信網、ブルートゥース（Bluetooth（登録商標））、ＷｉＦｉ(Wireless Fidelity)、ＨＳＤＰＡ(High Speed Downlink Packet Access)等）が混在して構成される通信網である。

記憶資源１２は、物理デバイス（例えば、半導体メモリ等のコンピュータ読み取り可能な記録媒体）の記憶領域が提供する論理デバイスであり、情報端末１０の処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、各種データ等を格納する。ドライバプログラムとしては、例えば、音声入出力デバイス１３を制御するための入出力デバイスドライバプログラム、入力デバイス１５を制御するための入力デバイスドライバプログラム、表示デバイス１６を制御するための表示デバイスドライバプログラム等が挙げられる。さらに、音声入出力デバイス１３は、例えば、一般的なマイクロフォン、及びサウンドデータを再生可能なサウンドプレイヤである。

通信インターフェイス１４は、例えばサーバ２０との接続インターフェイスを提供するものであり、無線通信インターフェイス及び／又は有線通信インターフェイスから構成される。また、入力デバイス１５は、例えば、表示デバイス１６に表示されるアイコン、ボタン、仮想キーボード等のタップ動作による入力操作を受け付けるインターフェイスを提供するものであり、タッチパネルの他、情報端末１０に外付けされる各種入力装置を例示することができる。

表示デバイス１６は、画像表示インターフェイスとして各種の情報をユーザや、必要に応じて対話者（会話の相手方）に提供するものであり、例えば、有機ＥＬディスプレイ、液晶ディスプレイ、ＣＲＴディスプレイ等が挙げられる。また、カメラ１７は、種々の被写体の静止画や動画を撮像するためのものである。

サーバ２０は、例えば、演算処理能力の高いホストコンピュータによって構成され、そのホストコンピュータにおいて所定のサーバ用プログラムが動作することにより、サーバ機能を発現するものであり、例えば、音声認識サーバ、翻訳サーバ、及び音声合成サーバとして機能する単数又は複数のホストコンピュータから構成される（図示においては単数で示すが、これに限定されない）。そして、各サーバ２０は、プロセッサ２１、通信インターフェイス２２、及び記憶資源２３を備える。

プロセッサ２１は、算術演算、論理演算、ビット演算等を処理する算術論理演算ユニット及び各種レジスタ（プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等）から構成され、記憶資源２３に格納されているプログラムＰ２０を解釈及び実行し、所定の演算処理結果を出力する。また、通信インターフェイス２２は、ネットワークＮを介して情報端末１０に接続するためのハードウェアモジュールであり、例えば、ＩＳＤＮモデム、ＡＤＳＬモデム、ケーブルモデム、光モデム、ソフトモデム等の変調復調装置である。

記憶資源２３は、例えば、物理デバイス（ディスクドライブ又は半導体メモリ等のコンピュータ読み取り可能な記録媒体等）の記憶領域が提供する論理デバイスであり、それぞれ単数又は複数のプログラムＰ２０、各種モジュールＬ２０、各種データベースＤ２０、及び各種モデルＭ２０が格納されている。また、記憶資源２３には、ユーザが対話者へ話しかけるために予め用意された複数の質問定型文（例えば後述する日本語テキストＴ３）と、それらの複数の質問定型文のそれぞれに対する複数の言語による訳文（例えば後述する外国語テキストＴ６，Ｔ１１）も記憶されている。このとおり、記憶資源２３が「記憶部」として機能する。

プログラムＰ２０は、サーバ２０のメインプログラムである上述したサーバ用プログラム等である。また、各種モジュールＬ２０は、情報端末１０から送信されてくる要求及び情報に係る一連の情報処理を行うため、プログラムＰ１０の動作中に適宜呼び出されて実行されるソフトウェアモジュール（モジュール化されたサブプログラム）である。かかるモジュールＬ２０としては、音声認識モジュール、翻訳モジュール、音声合成モジュール等が挙げられる。

また、各種データベースＤ２０としては、音声翻訳処理のために必要な各種コーパス（例えば、日本語と英語の音声翻訳の場合、日本語音声コーパス、英語音声コーパス、日本語文字（語彙）コーパス、英語文字（語彙）コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等）、音声データベース、ユーザに関する情報を管理するための管理用データベース等が挙げられる。また、各種モデルＭ２０としては、音声認識に使用する音響モデルや言語モデル等が挙げられる。

以上のとおり構成された音声翻訳装置１００における、音声翻訳処理の操作及び動作の一例について、以下に更に説明する。

（第１実施形態）
図４は、第１実施形態の音声翻訳装置１００における処理の流れ（の一部）の一例を示すフローチャートである。また、図５（Ａ）乃至（Ｄ）、並びに、図６（Ａ）及び（Ｂ）は、第１実施形態による情報端末１０の画面表示における遷移（の一部）の一例を示す平面図である。ここでは、情報端末１０のユーザが日本語を話す店員であり、対話者（会話の相手）が英語、中国語（例えば書体により２種類）、又はハングル語を話す外国人である場合の会話を想定する（但し、言語はこれに限定されない）。

まず、ユーザ（店員）が当該アプリケーションを起動する（ステップＳＵ１）と、情報端末１０の表示デバイス１６に、図５（Ａ）に示す対話者の言語選択画面が表示される（ステップＳＪ１）。この言語選択画面には、対話者に当該アプリケーションを使用して会話することを勧める旨、及び、後記の言語ボタンを選択することにより当該アプリケーションのプライバシーポリシーに同意することを示す英語テキストＴ１、並びに、会話のイメージを表すイラスト５１が表示される。また、この言語選択画面における英語テキストＴ１の下方には、想定される複数の代表的な言語（英語、中国語２種類、及びハングル語）を示す言語ボタン５２（言語選択手段）が表示され、さらにその下方には、言語選択画面を閉じて当該アプリケーションを終了するためのキャンセルボタンＢ１も表示される。

次に、この時点では、対話者が話す又は理解することができる言語が不明であるため、ユーザが言語ボタン５２（言語選択手段）のなかから、差し当たり、例えば「英語」の部分をタップして英語を選択すると、サーバ２０のプロセッサ２１及び情報端末１０のプロセッサ１１により、ホーム画面として、日本語と英語の音声入力の待機画面が表示デバイス１６に表示される（図５（Ｂ）；ステップＳＪ２）。この待機画面には、ユーザと対話者の言語の何れを発話するかを問う日本語テキストＴ２、並びに、日本語の音声入力を行うための日本語入力ボタン５３ａ及び英語の音声入力を行うための英語入力ボタン５３ｂが表示される。このとおり、プロセッサ１１，２１及び表示デバイス１６が「言語選択手段提示部」として機能する。

また、この待機画面には、予め設定されている複数の質問定型文のリスト表示を選択するためのお声がけボタン５４、図５（Ａ）の言語選択画面に戻って対話者の言語を切り替える（言語選択をやり直す）ための言語選択ボタン５５、これまでになされた音声入力内容の履歴表示を選択するための履歴ボタン５６、及び当該アプリケーションソフトの各種設定を行うための設定ボタン５７も表示される。

ここで、図４には、これ以降の処理として、ユーザがお声掛けボタン５４をタップするか否かに着目した場合分け（ステップＳＵ２）のフローを示すが、通常の音声翻訳処理においては、図５（Ｂ）に示す待機画面から音声入力を行うことができる。ここでは、その通常の音声翻訳処理（つまり、ステップＳＵ２において「Ｎｏ」）の流れについて先に説明する。

［通常の音声翻訳処理］
すなわち、この待機画面において、ユーザが日本語入力ボタン５３ａをタップして日本語の音声入力を選択すると、その音声入力が可能な状態となる。この状態で、ユーザが対話者への伝達事項等を発話すると、音声入出力デバイス１３を通して音声入力が行われる（ステップＳＪ３）。情報端末１０のプロセッサ１１は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス１４及びネットワークＮを通してサーバ２０へ送信する。このとおり、情報端末１０自体、又はプロセッサ１１及び音声入出力デバイス１３が「入力部」として機能する。

サーバ２０のプロセッサ２１は、通信インターフェイス２２を通してその音声信号を受信し、音声認識処理を行う（ステップＳＪ４）。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０、データベースＤ２０、及びモデルＭ２０（音声認識モジュール、日本語音声コーパス、音響モデル、言語モデル等）を呼び出し、入力音声の「音」を「読み」（文字）へ変換する。このとおり、プロセッサ２１、又は、サーバ２０が全体として「音声認識サーバ」として機能する。

ここで、入力音声が認識された場合、プロセッサ２１は、認識された音声の「読み」（文字）を他の言語に翻訳する多言語翻訳処理へ移行する（ステップＳＪ５）。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０及びデータベースＤ２０（翻訳モジュール、日本語文字コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等）を呼び出し、認識結果である入力音声の「読み」（文字列）を適切に並び替えて日本語の句、節、文等へ変換し、その変換結果に対応する英語を抽出し、それらを英文法に従って並び替えて自然な英語の句、節、文等へと変換する。このとおり、プロセッサ２１は、「翻訳部」としても機能し、サーバ２０は、全体として「翻訳サーバ」としても機能する。なお、入力音声がうまく認識されなかった場合には、音声の再入力を行うことができる（画面表示を図示せず）。

また、プロセッサ２１は、認識された入力音声の内容を記憶資源２３に記憶する。次に、多言語翻訳処理、及び、入力音声の内容の記憶処理が完了すると、プロセッサ２１は、音声合成処理へ移行する（ステップＳＪ６）。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０、データベースＤ２０、及びモデルＭ２０（音声合成モジュール、英語音声コーパス、音響モデル、言語モデル等）を呼び出し、翻訳結果である英語の句、節、文等を自然な音声に変換する。このとおり、プロセッサ２１は、「音声合成部」としても機能し、サーバ２０は、全体として「音声合成サーバ」としても機能する。

次いで、プロセッサ２１は、合成された音声に基づいて音声出力用の音声信号を生成し、通信インターフェイス２２及びネットワークＮを通して、情報端末１０へ送信する。情報端末１０のプロセッサ１１は、通信インターフェイス１４を通してその音声信号を受信し、音声入出力デバイス１３を用いて、音声出力処理を行う（ステップＳＪ７）。このとおり、プロセッサ１１及び音声入出力デバイス１３が、「出力部」として機能する。

［お声がけ機能による処理］
一方、図５（Ｂ）に示す待機画面において、ユーザがお声がけボタン５４をタップする（ステップＳＵ２において「Ｙｅｓ」）と、情報端末１０のプロセッサ１１は、対話者へ話しかけるために用意された複数の質問定型文の一覧を表示するための指令信号をサーバ２０へ送信する。その指令信号を受信したサーバ２０のプロセッサ２１は、記憶資源２３に記憶保持された複数の質問定型文を読み出し、例えば図５（Ｃ）に示す定型文表示画面を表示デバイス１６に表示する（ステップＳＪ８）。この定型文表示画面には、複数の質問定型文の日本語テキストＴ３が横書きで画面縦方向にリスト表示され、ユーザが各質問定型文のテキスト部分をタップすることにより、所望の質問定型文（特定の定型文）を選択することができる。このとおり、プロセッサ１１，２１及び表示デバイス１６は「定型文提示部」としても機能する。

また、この定型文表示画面において、日本語テキストＴ３のリストの上方及び下方には、それぞれ、図５（Ａ）の言語選択画面において対話者の言語として選択された言語（つまり対訳言語）が英語であることを示す日本語テキストＴ４、及び、定型文表示画面を閉じて図５（Ｂ）の待機画面へ戻るための閉じるボタンＢ２も表示される。

次に、ユーザが、定型文表示画面にリストされた質問定型文の日本語テキストＴ３のなかから、所望の質問定型文（特定の定型文）として、例えば「どうされましたか？」と記載された日本語テキストＴ５を選択する（ステップＳＵ３において「Ｙｅｓ」）と、情報端末１０のプロセッサ１１からその指令信号がサーバ２０へ送信される。その指令信号を受信したサーバ２０のプロセッサ２１は、選択された日本語テキストＴ５の内容に関連付けて記憶資源２３に記憶されている複数の言語（英語、中国語２種類、及びハングル語）の訳文を呼び出し、それらの内容を含むテキスト信号を生成し、通信インターフェイス２２及びネットワークＮを通して、情報端末１０へ送信する。情報端末１０のプロセッサ１１は、通信インターフェイス１４を通してそのテキスト信号を受信し、図５（Ｄ）に示す訳文表示画面を表示デバイス１６に表示する（ステップＳＪ９）。このとおり、プロセッサ１１，２１及び表示デバイス１６は「訳文提示部」としても機能する。

この訳文表示画面には、ユーザによって選択された特定の定型文の日本語テキストＴ５とともに、各言語による訳文を示す複数の外国語テキストＴ６が横書きで画面縦方向にリスト表示される。ユーザは、この訳文表示画面を対話者に提示することにより、対話者に対して複数の言語で「どうされましたか？」と問いかけることができる。また、その訳文表示画面において、外国語テキストＴ６の下方には、その質問に対する返答を行うための複数の返答ボタン５８ａ，５８ｂ（何れも返答手段）が、プロセッサ１１，２１によって表示される。すなわち、「ＹＥＳ」及び「Ｐｌｅａｓｅ」と記載された返答ボタン５８ａ、は、補助や支援をユーザに要求するためのものであり、「ＮＯ」及び「Ｔｈａｎｋｙｏｕ」と記載された返答ボタン５８ｂは、ユーザによる支援又は補助が不要であることを表明するためのものである。対話者は、返答ボタン５８ａ，５８ｂの何れかをタップして選択する（ステップＳＵ４）ことができる。このとおり、プロセッサ１１，２１及び表示デバイス１６は「返答手段提示部」としても機能する。

例えば、対話者が外国語テキストＴ６の何れかを理解することができ、かつ、ユーザによる補助や支援が必要であった場合、対話者は「ＹＥＳ」の返答ボタン５８ａをタップする（ステップＳＵ４において「ＹＥＳ」選択）。そうすると、表示デバイス１６には、先述の図５（Ａ）に示す言語選択画面が再表示され（ステップＳＪ１０）、この時点で、対話者が自ら言語を選択することができる。対話者による言語選択が完了すると、表示デバイス１６には、図５（Ｂ）に示す音声入力の待機画面が表示される。なお、前述の如く図５（Ｂ）には英語入力ボタン５３ｂが表示されているが、対話者が選択した言語が英語以外の場合には、英語入力ボタン５３ｂに代えて、その選択された言語の入力ボタンが表示される。

次いで、図５（Ｂ）に示す音声入力の待機画面において、対話者が英語入力ボタン５３ｂ（又は他の言語の入力ボタン）をタップして音声入力を選択すると、音声入力が可能な状態となる。この状態で、対話者がユーザへの伝達事項（補助や支援が必要な内容等）を発話する（ステップＳＪ３）と、上述した［通常の音声翻訳処理］と同様にして（ただし日本語に代えて英語又は他の言語の処理となる）、音声認識処理（ステップＳＪ４）、多言語翻訳処理（ステップＳＪ５）、音声合成処理（ステップＳＪ６）、及び音声出力処理（ステップＳＪ７）が順次実行され、ユーザと対話者の会話が進行する。

一方、例えば、対話者が外国語テキストＴ６の何れかを理解することができ、かつ、ユーザによる補助や支援が不要である場合、対話者は「ＮＯ」の返答ボタン５８ｂをタップする（ステップＳＵ４において「ＮＯ」選択）。そうすると、情報端末１０のプロセッサ１１からその指令信号がサーバ２０へ送信される。その指令信号を受信したサーバ２０のプロセッサ２１は、対話者の音声入力が不要であると判断し、対話者への返答として、記憶資源２３に記憶されている例えば「ごゆっくりどうぞ」という定型文、及び、複数の言語によるその訳文の内容を含むテキスト信号を生成し、通信インターフェイス２２及びネットワークＮを通して、情報端末１０へ送信する。

情報端末１０のプロセッサ１１は、通信インターフェイス１４を通してそのテキスト信号を受信し、図６（Ａ）に示す返答表示画面を表示デバイス１６に表示する（ステップＳＪ１１）。この返答表示画面には、「ごゆっくりどうぞ」という定型文の日本語テキストＴ７とともに、その内容のイメージを表すイラスト６１、及び、各言語による訳文を示す複数の外国語テキストＴ８が横書きで画面縦方向にリスト表示される。

なお、ユーザに対して、お声がけ機能の内容を説明するために、例えば図６（Ｂ）に示すチュートリアル（説明）画面を、上述した適宜の画面から遷移して表示するようにしてもよい。例えば、図５（Ｄ）に示すヘルプボタンＨを、適宜の画面に表示しておき、ユーザがそのヘルプボタンＨをタップしたときに、チュートリアル画面が表示されてもよい。このチュートリアル画面には、例えば、お声がけ機能の内容又は概要を説明するための日本語テキストＴ９、及び、その内容のイメージを表すイラスト６２が表示される。

（第２実施形態）
図７は、第２実施形態の音声翻訳装置１００における処理の流れ（の一部）の一例を示すフローチャートである。また、図８（Ａ）及び（Ｂ）は、第２実施形態による情報端末１０の画面表示における遷移（の一部）の一例を示す平面図である。この第２実施形態の処理フローは、第１実施形態における図４に示すステップＳＵ４に代えて図７に示すステップＳＵ５を実行し、同図４に示すステップＳＪ１０，ＳＪ１１を実行せず、かつ、第１実施形態における図５（Ｃ）及び（Ｄ）に示す画面に代えて、それぞれ図８（Ａ）及び（Ｂ）に示す画面が表示されること以外は、第１実施形態における処理フローと同等の手順で実行される。

すなわち、ここでは、図７に示すステップＳＪ８において、図８（Ａ）に示す定型文表示画面が表示され、ユーザが、定型文表示画面にリストされた質問定型文の日本語テキストＴ３のなかから、所望の質問定型文（特定の定型文）として、例えば「日本はいかがですか？」と記載された日本語テキストＴ１０を選択する（ステップＳＵ３において「Ｙｅｓ」）。

これにより、情報端末１０のプロセッサ１１からその指令信号がサーバ２０へ送信され、サーバ２０のプロセッサ２１は、選択された特定の質問定型文と、複数言語によるその訳文を含むテキスト信号を生成し、通信インターフェイス２２及びネットワークＮを通して、情報端末１０へ送信する。情報端末１０のプロセッサ１１は、通信インターフェイス１４を通してそのテキスト信号を受信し、図８（Ｂ）に示す訳文表示画面を表示デバイス１６に表示する（ステップＳＪ９）。

この訳文表示画面には、ユーザによって選択された特定の定型文の日本語テキストＴ１０とともに、各言語による訳文を示す複数の外国語テキストＴ１１が横書きで画面縦方向にリスト表示される。ユーザは、この訳文表示画面を対話者に提示することにより、対話者に対して複数の言語で「日本はいかがですか？」と問いかけることができる。また、その訳文表示画面において、外国語テキストＴ１１のそれぞれに隣接するように、その質問に対して応答する旨の意思表示を行うための複数の返答ボタン７１（返答手段）が表示され、対話者がその何れかをタップして選択することができる。

この問いかけに対し、対話者が外国語テキストＴ１１の何れかを理解することができ、かつ、ユーザに対して何らかの返答を行う場合、対話者は、自分が話す又は理解することができる言語（特定の言語）による対訳が記載された返答ボタン７１をタップする（ステップＳＵ４）。情報端末１０のプロセッサ１１は、その言語の返答ボタン７１の選択が行われたことを示す指令信号をサーバ２０のプロセッサ２１へ送信し、プロセッサ２１は、その指令信号に基づいて、対話者が話す又は理解することができる言語を判別する。

それから、プロセッサ２１は、情報端末１０の表示デバイス１６に、第１実施形態における図５（Ｂ）に示す音声入力の待機画面を表示する。例えば、対話者の言語が英語であると判断された場合、ユーザの言語である日本語入力ボタン５３ａと対話者の言語である英語入力ボタン５３ｂを含む待機画面（つまり図５（Ｂ）の画面）が表示される。同様に、対話者の言語が他の言語であると判断された場合には、日本語入力ボタン５３ａと他の言語入力ボタンを含む待機画面が表示される。そして、これ以降の処理、すなわち、対話者による音声入力（ステップＳＪ３）、音声認識処理（ステップＳＪ４）、多言語翻訳処理（ステップＳＪ５）、音声合成処理（ステップＳＪ６）、及び音声出力処理（ステップＳＪ７）は、上述した［通常の音声翻訳処理］と同様にして順次実行される。

以上のように構成された音声翻訳装置１００及びそれを用いた音声翻訳方法並びに音声翻訳プログラムによれば、ユーザが対話者へ話しかけるために予め用意された複数の質問定型文（日本語テキストＴ３）と、それらの複数の質問定型文のそれぞれに対する複数の言語による訳文（例えば外国語テキストＴ６，Ｔ１１）が記憶されており、ユーザがそれらのなかから適宜の「特定の定型文」を選択することができる。その際、情報端末１０の表示デバイス１６に、選択された特定の定型文の複数の言語による訳文が表示されるので、それを対話者に提示することにより、対話者との会話の契機を得ることができる。これにより、ユーザは、対話者に気軽に話しかけることができ、対話者との会話による円滑なコミュニケーションが可能となる。

また、第１実施形態の如く、例えば図５（Ｄ）に示す特定の定型文（日本語テキストＴ５）に対する複数の言語による訳文が表示された訳文表示画面の後に、対話者の必要に応じて、図５（Ａ）に示す言語選択画面が表示され、対話者が話す又は理解することができる所望の言語を選択することができる。したがって、対話者の言語選択を自然な会話の流れのなかで行うことが可能となる。

さらに、第２実施形態の如く、例えば図８（Ｂ）に示す特定の定型文（日本語テキストＴ１０）に対する複数の言語による訳文が表示された訳文表示画面において、各訳文の外国語テキストＴ１１に隣接するように、その質問に対して返答する旨を表明するための回答ボタン７１が表示される。そして、対話者がその何れかをタップして選択することにより、対話者が話す又は理解することができる言語が判別判断されるので、かかる手順によっても、対話者の言語選択を自然な会話の流れのなかで行うことが可能となる。

なお、上述したとおり、上記の各実施形態は、本発明を説明するための一例であり、本発明をその実施形態に限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。例えば、当業者であれば、実施形態で述べたリソース（ハードウェア資源又はソフトウェア資源）を均等物に置換することが可能であり、そのような置換も本発明の範囲に含まれる。

また、上記各実施形態では、音声認識、翻訳、及び音声合成の各処理をサーバ２０によって実行する例について記載したが、これらの処理を情報端末１０において実行するように構成してもよい。この場合、それらの処理に用いるモジュールＬ２０は、情報端末１０の記憶資源１２に保存されていてもよいし、サーバ２０の記憶資源２３に保存されていてもよい。さらに、音声データベースであるデータベースＤ２０、及び／又は、音響モデル等のモデルＭ２０も、情報端末１０の記憶資源１２に保存されていてもよいし、サーバ２０の記憶資源２３に保存されていてもよい。このとおり、音声翻訳装置は、ネットワークＮ及びサーバ２０を備えなくてもよい。

さらに、例えば図５（Ｄ）や図８（Ｂ）の訳文表示画面にリストされた複数の言語による訳文（外国語テキストＴ６，Ｔ１１）の全部又は一部を音声で読み上げるようにしてもよい。この場合、音声出力する訳文をユーザ又は対話者が選択するようにしてもよいし、選択することなく自動で読み上げるようにしてもよい。またさらに、図５（Ｄ）や図８（Ｂ）の訳文表示画面にリストされた複数の言語による訳文（外国語テキストＴ６，Ｔ１１）のそれぞれが、返答ボタン５８ａ，５８ｂ，７１を兼ねるように構成してもよい。この場合、対話者が訳文（外国語テキストＴ６，Ｔ１１）のそれぞれをタップして選択することにより、サーバ２０のプロセッサ２１が、その対話者の言語を判別するようにしても好適である。

また、情報端末１０とネットワークＮとの間には、両者間の通信プロトコルを変換するゲートウェイサーバ等が介在してももちろんよい。また、情報端末１０は、携帯型装置に限らず、例えば、デスクトップ型パソコン、ノート型パソコン、タブレット型パソコン、ラップトップ型パソコン等でもよい。

本発明によれば、対話者たる外国人との会話の契機を得ることができ、かつ、自然な会話の流れのなかで対話者の言語を選択する又は選択させることが可能となるので、例えば、互いの言語を理解できない人同士の会話に関するサービスの提供分野における、プログラム、装置、システム、及び方法の設計、製造、提供、販売等の活動に広く利用することができる。

１０情報端末
１１プロセッサ
１２記憶資源
１３音声入出力デバイス
１４通信インターフェイス
１５入力デバイス
１６表示デバイス
１７カメラ
２０サーバ
２１プロセッサ
２２通信インターフェイス
２３記憶資源
５１イラスト
５２言語ボタン
５３ａ日本語入力ボタン
５３ｂ英語入力ボタン
５４お声がけボタン
５５言語選択ボタン
５６履歴ボタン
５７設定ボタン
５８ａ，５８ｂ返答ボタン
６１イラスト
６２イラスト
７１返答ボタン
１００音声翻訳装置
Ｂ１キャンセルボタン
Ｂ２閉じるボタン
Ｄ２０データベース
Ｈヘルプボタン
Ｌ２０モジュール
Ｍ２０モデル
Ｎネットワーク
Ｐ１０プログラム
Ｐ２０プログラム
Ｔ１英語テキスト
Ｔ２日本語テキスト
Ｔ３日本語テキスト
Ｔ４日本語テキスト
Ｔ５日本語テキスト
Ｔ６外国語テキスト
Ｔ７日本語テキスト
Ｔ８外国語テキスト
Ｔ９日本語テキスト
Ｔ１０日本語テキスト
Ｔ１１外国語テキスト

Claims

ユーザの音声を入力するための入力部、入力音声の内容を異なる言語の内容に翻訳する翻訳部、及び、前記入力音声の翻訳内容を音声及び／又はテキストで出力する出力部を備える音声翻訳装置であって、
複数の質問定型文、及び該複数の質問定型文のそれぞれに対する複数の言語による訳文を記憶する記憶部と、
前記ユーザが前記複数の質問定型文のなかから特定の質問定型文を選択するために、該複数の質問定型文を表示する定型文提示部と、
前記特定の質問定型文が選択されたときに、該特定の質問定型文に対する前記複数の言語による訳文を表示する訳文提示部と、
前記特定の質問定型文に対する前記複数の言語による訳文の表示の後に、又は、該訳文の表示とともに、前記対話者が前記特定の質問定型文に対して返答するための返答手段を提示する返答手段提示部と、
前記対話者が前記返答手段を操作した後に、前記対話者が前記複数の言語のなかから所望の言語を選択するための言語選択手段を表示する言語選択手段提示部と、
前記対話者が前記所望の言語を選択したときに、前記ユーザの言語と前記対話者の言語による音声入力の待機画面を表示する音声入力待機画面表示部と、
を更に備える音声翻訳装置。
ユーザの音声を入力するための入力部、入力音声の内容を異なる言語の内容に翻訳する翻訳部、及び、前記入力音声の翻訳内容を音声及び／又はテキストで出力する出力部を備える音声翻訳装置であって、
複数の質問定型文、及び該複数の質問定型文のそれぞれに対する複数の言語による訳文を記憶する記憶部と、
前記ユーザが前記複数の質問定型文のなかから特定の質問定型文を選択するために、該複数の質問定型文を表示する定型文提示部と、
前記特定の質問定型文が選択されたときに、該特定の質問定型文に対する前記複数の言語による訳文を表示する訳文提示部と、
前記特定の質問定型文に対する前記複数の言語による訳文の表示の後に、又は、該訳文の表示とともに、前記対話者が前記特定の質問定型文に対して返答する意思表示を行うための、前記それぞれの訳文の言語による返答手段を提示する返答手段提示部と、
前記対話者が前記返答手段を操作した後に、該返答手段に対応する言語を、前記対話者の言語であると判別し、前記ユーザの言語と前記対話者の言語による音声入力の待機画面を表示する音声入力待機画面表示部と、
を更に備える音声翻訳装置。
前記出力部は、前記特定の質問定型文に対する前記複数の言語による訳文の全部又は一部を音声で出力する、
請求項１又は２記載の音声翻訳装置。
前記特定の質問定型文に対する前記複数の言語による訳文が、前記返答手段の機能を兼ねており、
前記音声入力待機画面表示部は、前記対話者が前記訳文を操作した後に、該訳文に対応する言語を、前記対話者の言語であると判別し、前記ユーザの言語と前記対話者の言語による音声入力の待機画面を表示する、
請求項１乃至３の何れか記載の音声翻訳装置。
入力部、翻訳部、出力部、記憶部、定型文提示部、訳文提示部、返答手段提示部、言語選択手段提示部、及び音声入力待機画面表示部を備える音声翻訳装置を用い、
前記入力部が、ユーザの音声を入力するステップと、
前記翻訳部が、入力音声の内容を異なる言語の内容に翻訳するステップと、
前記出力部が、翻訳内容を音声及び／又はテキストで出力するステップと、
前記記憶部が、複数の質問定型文、及び該複数の質問定型文のそれぞれに対する複数の言語による訳文を記憶するステップと、
前記定型文提示部が、前記ユーザが前記複数の質問定型文のなかから特定の質問定型文を選択するために、該複数の質問定型文を表示するステップと、
前記訳文提示部が、前記特定の質問定型文が選択されたときに、該特定の質問定型文に対する前記複数の言語による訳文を表示するステップと、
前記返答手段提示部が、前記特定の質問定型文に対する前記複数の言語による訳文の表示の後に、又は、該訳文の表示とともに、前記対話者が前記特定の質問定型文に対して返答するための返答手段を提示するステップと、
前記言語選択手段提示部が、前記対話者が前記返答手段を操作した後に、前記対話者が前記複数の言語のなかから所望の言語を選択するための言語選択手段を表示するステップと、
前記音声入力待機画面表示部が、前記対話者が前記所望の言語を選択したときに、前記ユーザの言語と前記対話者の言語による音声入力の待機画面を表示するステップと、
を含む音声翻訳方法。
コンピュータを、
ユーザの音声を入力するための入力部と、
入力音声の内容を異なる言語の内容に翻訳する翻訳部と、
翻訳内容を音声及び／又はテキストで出力する出力部と、
複数の質問定型文、及び該複数の質問定型文のそれぞれに対する複数の言語による訳文を記憶する記憶部と、
前記ユーザが前記複数の質問定型文のなかから特定の質問定型文を選択するために、該複数の質問定型文を表示する定型文提示部と、
前記特定の質問定型文が選択されたときに、該特定の質問定型文に対する前記複数の言語による訳文を表示する訳文提示部と、
前記特定の質問定型文に対する前記複数の言語による訳文の表示の後に、又は、該訳文の表示とともに、前記対話者が前記特定の質問定型文に対して返答するための返答手段を提示する返答手段提示部と、
前記対話者が前記返答手段を操作した後に、前記対話者が前記複数の言語のなかから所望の言語を選択するための言語選択手段を表示する言語選択手段提示部と、
前記対話者が前記所望の言語を選択したときに、前記ユーザの言語と前記対話者の言語による音声入力の待機画面を表示する音声入力待機画面表示部と、
して機能させる音声翻訳プログラム。