JP6250209B1

JP6250209B1 - 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム

Info

Publication number: JP6250209B1
Application number: JP2017061327A
Authority: JP
Inventors: 翔大渡辺
Original assignee: RECRUIT LIFESTYLE CO., LTD.
Current assignee: RECRUIT LIFESTYLE CO., LTD.
Priority date: 2017-03-27
Filing date: 2017-03-27
Publication date: 2017-12-20
Anticipated expiration: 2037-03-27
Also published as: JP2018163581A

Abstract

【課題】音声翻訳を利用した会話において、質問者が回答者に対して適切な質問を行うことができ、これにより、両者の円滑なコミュニケーションを図る。【解決手段】本発明の一態様による音声翻訳装置は、会話を行うユーザの音声を入力するための入力部と、複数のシーンのなかから、ユーザが会話におけるシーンを選択するためのシーン選択手段を提示するシーン選択手段提示部と、特定のフレーズについて想定される複数の定型構文を、その特定のフレーズと各シーンに関連付けて予め記憶する記憶部と、入力された音声を認識し、その認識された音声の内容が質問文であり且つ特定のフレーズを含んでいたときに、その特定のフレーズと選択されたシーンに関連付けて記憶された定型構文を、ユーザが選択可能なように提示する定型構文提示部等を備える。【選択図】図５

Description

本発明は、音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムに関する。

互いの言語を理解できない人同士の会話、例えば店舗の店員と外国人客との会話を可能ならしめるべく、話し手の発話音声をテキスト化し、そのテキストの内容を聞き手の言語に機械翻訳した上で画面に表示したり、或いは、音声合成技術を用いてそのテキストの内容を音声再生したりする音声翻訳技術が提案されている（例えば特許文献１）。また、かかる音声翻訳技術を具現化したスマートフォン等の情報端末で動作する音声翻訳アプリケーションも実用化されている（例えば非特許文献１）。

特開平９−３４８９５号公報

Ｕ−ＳＴＡＲホームページ［平成２９年３月８日検索］、インターネット＜ＵＲＬ：http://www.ustar-consortium.com/qws/slot/u50227/app/app.html＞

一般に、かかる従来の音声翻訳技術では、発話された音声の認識処理を行ってその音声の読み（文字）を取得し、辞書を用いてその文字を他の言語へ翻訳する。この場合、音声認識処理には、予め構築された音響モデルや言語モデルが適用され、また、翻訳処理には、予め用意された各言語のコーパス等のデータベースが用いられる。ところで、店舗の店員等の話者（質問者）が、外国人の客（回答者）に何らかの問い合わせをする際に、質問者の問い掛け方が不適切又は不十分である場合がある。この場合、回答者は、質問者の質問の真意がわからず、その真意を質す質問を返したり、或いは、的を射ていない回答を行ってしまったりして、円滑なコミュニケーションを図れないことがあり得る。

そこで、本発明は、かかる事情に鑑みてなされたものであり、音声翻訳を利用した会話において、質問者が回答者に対して適切な質問を行うことができ、これにより、両者の円滑なコミュニケーションを図ることが可能な音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムを提供することを目的とする。

上記課題を解決するため、本発明の一態様による音声翻訳装置は、会話を行うユーザの音声を入力するための入力部と、複数のシーンのなかから、ユーザが会話におけるシーン（場面又は状況）を選択するためのシーン選択手段を提示するシーン選択手段提示部と、特定のフレーズについて想定される複数の定型構文を、その特定のフレーズと各シーンに関連付けて予め記憶する記憶部と、入力された音声を認識し、その認識された音声の内容が質問文であり且つ特定のフレーズを含んでいたときに、その特定のフレーズと選択されたシーンに関連付けて記憶された定型構文を、ユーザが選択可能なように提示する定型構文提示部と、選択された定型構文の内容を異なる言語の内容に翻訳する翻訳部と、異なる言語に翻訳された内容を、音声及び／又はテキストで出力する出力部とを備える。なお、「特定のフレーズ」には、文、節、句、語、及び数字が含まれ、また、「定型構文」には、文に付随して画像又は記号等が含まれていてもよい。

また、入力部が、選択された定型構文の内容をユーザが変更するための入力変更手段を提示するように構成してもよい。

さらに、定型構文提示部が、認識された音声の内容とともに定型構文を提示するようにしても好適である。

またさらに、ユーザが定型構文を追加して入力するための定型構文入力部を更に備えてもよい。

また、本発明の一態様による音声翻訳方法は、入力部、シーン選択手段提示部、記憶部、定型構文提示部、翻訳部、及び出力部を備える音声翻訳装置を用い、入力部が、会話を行うユーザの音声を入力するステップと、シーン選択手段提示部が、ユーザが複数のシーンのなかから会話におけるシーンを選択するためのシーン選択手段を提示するステップと、記憶部が、特定のフレーズについて想定される複数の定型構文を、その特定のフレーズと各シーンに関連付けて予め記憶するステップと、定型構文提示部が、入力された音声を認識し、その認識された音声の内容が質問文であり且つ特定のフレーズを含んでいたときに、その特定のフレーズと選択されたシーンに関連付けて記憶された定型構文を、ユーザが選択可能なように提示するステップと、翻訳部が、選択された定型構文の内容を異なる言語の内容に翻訳するステップと、出力部が、異なる言語に翻訳された内容を、音声及び／又はテキストで出力するステップとを含む。

また、本発明の一態様による音声翻訳プログラムは、コンピュータ（単数又は単一種に限られず、複数又は複数種でもよい；以下同様）を、会話を行うユーザの音声を入力するための入力部と、ユーザが複数のシーンのなかから会話におけるシーンを選択するためのシーン選択手段を提示するシーン選択手段提示部と、特定のフレーズについて想定される複数の定型構文を、その特定のフレーズと各シーンに関連付けて予め記憶する記憶部と、入力された音声を認識し、その認識された音声の内容が質問文であり且つ特定のフレーズを含んでいたときに、その特定のフレーズと選択されたシーンに関連付けて記憶された定型構文を、ユーザが選択可能なように提示する定型構文提示部と、選択された定型構文の内容を異なる言語の内容に翻訳する翻訳部と、異なる言語に翻訳された内容を、音声及び／又はテキストで出力する出力部として機能させる。

本発明によれば、音声翻訳を利用した会話を行うユーザである質問者が音声入力した内容をそのまま他言語に翻訳して相手方のユーザ（回答者）に伝えるのではなく、ユーザが会話のシーンを選択した上で、ユーザによる音声入力の内容に含まれる特定のフレーズとその会話のシーンに関連付けられた定型構文のなかから、質問者が意図した又は質問者の真意に沿った質問内容を選択することができる。そして、その選択された定型構文を翻訳して回答者に伝えるので、質問者が回答者に対して適切な質問を行うことができ、これにより、両者の円滑なコミュニケーションを図ることが可能となる。

本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。本発明による音声翻訳装置の好適な一実施形態における処理の流れ（一部）の一例を示すフローチャートである。（Ａ）乃至（Ｄ）は、情報端末における表示画面の遷移の一例を示す平面図である。（Ａ）乃至（Ｄ）は、情報端末における表示画面の遷移の一例を示す平面図である。本発明による音声翻訳装置の好適な一実施形態における処理の流れ（一部）の一例を示すフローチャートである。（Ａ）及び（Ｂ）は、情報端末における表示画面の遷移の一例を示す平面図である。

以下、本発明の実施の形態について詳細に説明する。なお、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。またさらに、必要に応じて示す上下左右等の位置関係は、特に断らない限り、図示の表示に基づくものとする。さらにまた、図面における各種の寸法比率は、その図示の比率に限定されるものではない。

（装置構成）
図１は、本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。この例において、音声翻訳装置１００は、ユーザが使用する情報端末１０（ユーザ装置）にネットワークＮを介して電子的に接続されるサーバ２０を備える（但し、これに限定されない）。

情報端末１０は、例えば、タッチパネル等のユーザインターフェイス及び視認性が高いディスプレイを採用する。また、ここでの情報端末１０は、ネットワークＮとの通信機能を有するスマートフォンに代表される携帯電話を含む可搬型のタブレット型端末装置である。さらに、情報端末１０は、プロセッサ１１、記憶資源１２、音声入出力デバイス１３、通信インターフェイス１４、入力デバイス１５、表示デバイス１６、及びカメラ１７を備えている。また、情報端末１０は、インストールされた音声翻訳アプリケーションソフト（本発明の一実施形態による音声翻訳プログラムの少なくとも一部）が動作することにより、本発明の一実施形態による音声翻訳装置の一部又は全部として機能するものである。

プロセッサ１１は、算術論理演算ユニット及び各種レジスタ（プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等）から構成される。また、プロセッサ１１は、記憶資源１２に格納されているプログラムＰ１０である音声翻訳アプリケーションソフトを解釈及び実行し、各種処理を行う。このプログラムＰ１０としての音声翻訳アプリケーションソフトは、例えばサーバ２０からネットワークＮを通じて配信可能なものであり、手動で又は自動でインストール及びアップデートされてもよい。

なお、ネットワークＮは、例えば、有線ネットワーク（近距離通信網（ＬＡＮ）、広域通信網（ＷＡＮ）、又は付加価値通信網（ＶＡＮ）等）と無線ネットワーク（移動通信網、衛星通信網、ブルートゥース（Bluetooth（登録商標））、ＷｉＦｉ(Wireless Fidelity)、ＨＳＤＰＡ(High Speed Downlink Packet Access)等）が混在して構成される通信網である。

記憶資源１２は、物理デバイス（例えば、半導体メモリ等のコンピュータ読み取り可能な記録媒体）の記憶領域が提供する論理デバイスであり、情報端末１０の処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、各種データ等を格納する。ドライバプログラムとしては、例えば、音声入出力デバイス１３を制御するための入出力デバイスドライバプログラム、入力デバイス１５を制御するための入力デバイスドライバプログラム、表示デバイス１６を制御するための表示デバイスドライバプログラム等が挙げられる。さらに、音声入出力デバイス１３は、例えば、一般的なマイクロフォン、及びサウンドデータを再生可能なサウンドプレイヤである。

通信インターフェイス１４は、例えばサーバ２０との接続インターフェイスを提供するものであり、無線通信インターフェイス及び／又は有線通信インターフェイスから構成される。また、入力デバイス１５は、例えば、表示デバイス１６に表示されるアイコン、ボタン、仮想キーボード、テキスト等のタップ動作による入力操作を受け付けるインターフェイスを提供するものであり、タッチパネルの他、情報端末１０に外付けされる各種入力装置を例示することができる。

表示デバイス１６は、画像表示インターフェイスとして各種の情報をユーザ（話し手と聞き手）に提供するものであり、例えば、有機ＥＬディスプレイ、液晶ディスプレイ、ＣＲＴディスプレイ等が挙げられる。また、カメラ１７は、種々の被写体の静止画や動画を撮像するためのものである。

サーバ２０は、例えば、演算処理能力の高いホストコンピュータによって構成され、そのホストコンピュータにおいて所定のサーバ用プログラムが動作することにより、サーバ機能を発現するものであり、例えば、音声認識サーバ、翻訳サーバ、及び音声合成サーバとして機能する単数又は複数のホストコンピュータから構成される（図示においては単数で示すが、これに限定されない）。そして、各サーバ２０は、プロセッサ２１、通信インターフェイス２２、及び記憶資源２３を備える。

プロセッサ２１は、算術演算、論理演算、ビット演算等を処理する算術論理演算ユニット及び各種レジスタ（プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等）から構成され、記憶資源２３に格納されているプログラムＰ２０を解釈及び実行し、所定の演算処理結果を出力する。また、通信インターフェイス２２は、ネットワークＮを介して情報端末１０に接続するためのハードウェアモジュールであり、例えば、ＩＳＤＮモデム、ＡＤＳＬモデム、ケーブルモデム、光モデム、ソフトモデム等の変調復調装置である。

記憶資源２３は、例えば、物理デバイス（ディスクドライブ又は半導体メモリ等のコンピュータ読み取り可能な記録媒体等）の記憶領域が提供する論理デバイスであり、それぞれ単数又は複数のプログラムＰ２０、各種モジュールＬ２０、各種データベースＤ２０、及び各種モデルＭ２０が格納されている。また、記憶資源２３には、会話の一方のユーザ（話し手）が会話の他方のユーザ（聞き手）へ話しかけるために予め用意された複数の質問定型文、入力音声の履歴データ、各種設定用のデータ、後述するフレーズデータ等も記憶されている。

プログラムＰ２０は、サーバ２０のメインプログラムである上述したサーバ用プログラム等である。また、各種モジュールＬ２０は、情報端末１０から送信されてくる要求及び情報に係る一連の情報処理を行うため、プログラムＰ１０の動作中に適宜呼び出されて実行されるソフトウェアモジュール（モジュール化されたサブプログラム）である。かかるモジュールＬ２０としては、音声認識モジュール、翻訳モジュール、音声合成モジュール等が挙げられる。

また、各種データベースＤ２０としては、音声翻訳処理のために必要な各種コーパス（例えば、日本語と英語の音声翻訳の場合、日本語音声コーパス、英語音声コーパス、日本語文字（語彙）コーパス、英語文字（語彙）コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等）、音声データベース、ユーザに関する情報を管理するための管理用データベース、後述する階層構造を有するフレーズデータベース等が挙げられる。また、各種モデルＭ２０としては、音声認識に使用する音響モデルや言語モデル等が挙げられる。

（通常の音声翻訳による会話）
以上のとおり構成された音声翻訳装置１００における処理操作及び動作の一例について、以下に説明する。ここでは、ユーザ同士（質問者と回答者；何れも話者）の会話及び／又は会話準備における通常の音声翻訳処理の一例について説明する。図２は、音声翻訳装置１００における処理の流れ（の一部）の一例を示すフローチャートである。また、図３（Ａ）乃至（Ｄ）及び図４（Ａ）乃至（Ｄ）は、情報端末における表示画面の遷移の一例を示す平面図である。なお、本実施形態においては、一方の話者（質問者）の言語が日本語であり、他方の話者（回答者）の言語が中国語である場合の会話を想定する（但し、言語やシチュエーションはこれに限定されない）。

まず、ユーザが当該アプリケーションを起動する（ステップＳＵ１）と、サーバ２０のプロセッサ２１及び情報端末１０のプロセッサ１１により、情報端末１０の表示デバイス１６に、相手方のユーザの言語を選択するための言語選択画面が表示される（図３（Ａ）；ステップＳＪ１）。この言語選択画面には、相手方のユーザに言語を尋ねることを、ユーザに促すための日本語のテキストＴ１、相手方のユーザに言語を尋ねる旨の英語のテキストＴ２、及び、想定される複数の代表的な言語（ここでは、英語、中国語（例えば書体により２種類）、ハングル語）を示す言語ボタン３１が表示される。さらにその下方には、言語選択画面を閉じて当該アプリケーションを終了するためのキャンセルボタンＢ１も表示される。

このとき、図３（Ａ）に示す如く、日本語のテキストＴ１及び英語のテキストＴ２は、プロセッサ１１及び表示デバイス１６により、情報端末１０の表示デバイス１６の画面において、異なる領域によって区分けされ、且つ、互いに逆向き（互いに異なる向き；図示において上下逆向き）に表示される。これにより、ユーザ同士が対面している状態で会話を行う場合、一方のユーザは日本語のテキストＴ１を確認し易い一方、他方のユーザは、英語のテキストＴ２を確認し易くなる。また、日本語のテキストＴ１と英語のテキストＴ２が区分けして表示されるので、両者を明別して更に視認し易くなる利点がある。

ユーザがその言語選択画面における英語のテキストＴ２の表示を聞き手に提示し、相手方のユーザに「中国語」のボタンをタップしてもらうことにより、又は、相手方のユーザが自ら、その使用言語である「中国語」を選択することができる。こうして相手方のユーザの言語が選択されると、サーバ２０のプロセッサ２１及び情報端末１０のプロセッサ１１により、ホーム画面として、日本語と中国語の音声入力の待機画面が表示デバイス１６に表示される（図３（Ｂ）；ステップＳＪ２）。

この音声入力待機画面には、日本語の音声入力を行うためのマイクを図案化した入力ボタン３２ａ及び中国語の音声入力を行うためのマイクを図案化した入力ボタン３２ｂが表示される。また、入力ボタン３２ａ，３２ｂよりも画面の縁側には、それぞれ、日本語を中国語に変換することを示す日本語のテキストＴ３、及び、中国語を日本語に変換することを示す中国語のテキストＴ４が表示される。さらに、入力ボタン３２ａ，３２ｂよりも画面の中央側には、それぞれ、マイクを図案化した入力ボタン３２ａ，３２ｂをタップして会話を始めることを促す日本語のテキストＴ５及び中国語のテキストＴ６が表示される。

またさらに、この音声入力待機画面には、ユーザが予め登録しておいたフレーズ群を表示させるための登録フレーズボタンＢ２、音声入力に代えてテキストで入力するためのテキスト入力ボタンＢ３、当該アプリケーションソフトの各種設定を行うための設定ボタンＢ４、及び会話のシーンを選択するためのシーン選択ボタンＢＳも表示される。

次に、図３（Ｂ）に示す音声入力待機画面において、ユーザ（質問者）が日本語の入力ボタン３２ａをタップして日本語の音声入力を選択すると、ユーザの日本語による発話内容を受け付ける音声入力画面となる（図３（Ｃ））。この音声入力画面が表示されると、音声入出力デバイス１３からの音声入力が可能な状態となる。

また、この音声入力画面には、情報端末１０のマイクに向かって音声入力を行うように促す日本語のテキストＴ６、相手が音声入力中であることを示す中国語のテキストＴ７、マイクを図案化した入力ボタン３２ａ、及び、その入力ボタン３２ａを囲うような多重円形図案３３が表示される。この多重円形図案３３は、音声入力状態にあることを示し、声量の大小を模式的に且つ動的に表すように、声量に応じて表示される円部分の大きさが変化する。これにより、音声入力レベルがユーザへ視覚的にフィードバックされる。

さらに、この音声入力画面にも、キャンセルボタンＢ１が表示され、これをタップすることにより、当該アプリケーションを終了するか、音声入力待機画面（図３（Ｂ））へ戻って音声入力をやり直すことができる。また、入力ボタン３２ａの近傍には、音声入力が終了した後に、後述の音声認識処理及び多言語翻訳処理を行うための日本語のテキストＴ８が表示される。

この状態で、ユーザ（質問者）が相手方のユーザ（回答者）への伝達事項等を発話する（ステップＳＵ２）と、音声入出力デバイス１３を通して音声入力が行われる（ステップＳＪ３）。情報端末１０のプロセッサ１１は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス１４及びネットワークＮを通してサーバ２０へ送信する。このとおり、情報端末１０自体、又はプロセッサ１１及び音声入出力デバイス１３が「入力部」として機能する。

それから、発話が終了して図４（Ｃ）に示す日本語のテキストＴ８がタップ（タッチ）されると、プロセッサ１１は、発話内容の受け付けを終了する。情報端末１０のプロセッサ１１は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス１４及びネットワークＮを通してサーバ２０へ送信する。

次に、サーバ２０のプロセッサ２１は、通信インターフェイス２２を通してその音声信号を受信し、音声認識処理を行う（ステップＳＪ４）。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０、データベースＤ２０、及びモデルＭ２０（音声認識モジュール、日本語音声コーパス、音響モデル、言語モデル等）を呼び出し、入力音声の「音」を「読み」（文字）へ変換する。このとおり、サーバ２０は、全体として「音声認識サーバ」としても機能する。また、プロセッサ２１は、認識された内容を、音声入力の履歴データとして、記憶資源２３（記憶部）に（必要に応じて適宜のデータベースに）記憶する。

続いて、プロセッサ２１は、認識された音声の「読み」（文字）を複数の他言語に翻訳する多言語翻訳処理へ移行する（ステップＳＪ５）。ここでは、相手方のユーザの言語として中国語が選択されているので、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０及びデータベースＤ２０（翻訳モジュール、日本語文字コーパス、日本語辞書、中国語辞書、日本語／中国語対訳辞書、日本語／中国語対訳コーパス等）を呼び出し、認識結果である入力音声の「読み」（文字列）を適切に並び替えて日本語の句、節、文等へ変換し、その変換結果に対応する中国語を抽出し、それらを中国語の文法に従って並び替えて自然な中国語の句、節、文等へと変換する。

このとおり、プロセッサ２１は、入力音声の内容を第１言語（日本語）とは異なる第２言語（中国語）の内容に翻訳する「翻訳部」としても機能し、サーバ２０は、全体として「翻訳サーバ」としても機能する。なお、入力音声が正確に認識されなかった場合には、音声の再入力を行うことができる（図示省略）。また、プロセッサ２１は、それらの日本語及び中国語の句、節、文等を、記憶資源２３に記憶しておくこともできる。

また、この翻訳処理中に、情報端末１０のプロセッサ１１は、図３（Ｄ）に示す翻訳処理中画面を表示する。この翻訳処理中画面には、翻訳処理中であることを示す日本語のテキストＴ９及び中国語のテキストＴ１０、並びに、翻訳処理中であることを表すための円弧の一部が回動するように表示される環状図案３４も表示される。さらに、この翻訳処理中画面にも、キャンセルボタンＢ１が表示され、これをタップすることにより、当該アプリケーションを終了するか、音声入力待機画面（図３（Ｂ））へ戻って音声入力をやり直すことができる。

次に、多言語翻訳処理が完了すると、プロセッサ２１は、音声合成処理へ移行する（ステップＳＪ６）。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０、データベースＤ２０、及びモデルＭ２０（音声合成モジュール、中国語音声コーパス、音響モデル、言語モデル等）を呼び出し、翻訳結果である中国語の句、節、文等を自然な音声に変換する。このとおり、プロセッサ２１は、「音声合成部」としても機能し、サーバ２０は、全体として「音声合成サーバ」としても機能する。

次いで、プロセッサ２１は、中国語による翻訳結果（対応する中国語の会話コーパスでもよい）に基づいてテキスト表示用のテキスト信号を生成し、情報端末１０へ送信する。そのテキスト信号を受信したプロセッサ１１は、音声認識した入力音声の内容を示す日本語のテキストＴ１１と、その中国語による翻訳結果（対訳）のテキストＴ１２を、図４（Ａ）に示す翻訳結果表示画面に表示する。

また、この翻訳結果表示画面には、図３（Ｂ）のホーム画面にも表示されたマイクを図案化した日本語の入力ボタン３２ａ及び中国語の入力ボタン３２ｂが表示され、それらの近傍には、それぞれ、日本語及び中国語であることを示すテキストＴ１３，Ｔ１４が表示される。

さらに、プロセッサ２１は、合成された音声に基づいて音声出力用の音声信号を生成し、情報端末１０へ送信する。その音声信号を受信したプロセッサ１１は、テキストＴ１３，Ｔ１４の表示とともに、音声入出力デバイス１３（出力部）を用いて、中国語のテキストＴ１２の内容の音声を出力する（読み上げる）（ステップＳＪ７）。

さらに、テキストＴ１１の近傍には、音声入力に代えてテキストで入力するためのテキスト入力ボタンＢ５が表示され、画面下部には、図３（Ｂ）のホーム画面へ戻るためのチェックボタンＢ７、及び、翻訳結果の誤りを報告するための誤訳通知ボタンＢ６が表示される。またさらに、この翻訳結果表示画面には、ユーザの感情を表現するための感情文字又は感情記号を表示させるための表示ボタンＢ８も表示される。

ここで、テキスト入力ボタンＢ５をタップすると、図４（Ｂ）に示すテキスト入力画面が表示される。このテキスト入力画面には、図４（Ａ）に表示された日本語のテキストＴ１１が淡いグレースケールで表示される。日本語のキーボードＫからテキスト入力を開始すると、テキストＴ１１が消去され、その場所に新たに入力されたテキストの内容が表示される。また、テキスト入力画面の上部には、入力したテキストをキャンセルして消去するための消去ボタンＢ９が表示され、キーボードＫの直上には、入力したテキストを翻訳するための翻訳ボタンＢ１０が表示される。この翻訳ボタンＢ１０がタップされると、先述の翻訳処理と音声合成処理が行われ、図４（Ａ）に示す翻訳結果表示画面と同様の画面が表示される。

その後、相手方のユーザが回答する場合、図４（Ａ）の翻訳結果表示画面に表示された中国語の入力ボタン３２ｂをタップして中国語の音声入力を選択すると、相手方のユーザの中国語による発話内容を受け付ける音声入力画面となる（図４（Ｃ））。この音声入力画面が表示されると、図３（Ｃ）に示す音声入力画面と同様に、音声入出力デバイス１３からの音声入力が可能な状態となる。また、この音声入力画面には、情報端末１０のマイクに向かって音声入力を行うように促す中国語のテキストＴ１５、相手が音声入力中であることを示す日本語のテキストＴ１６、マイクを図案化した入力ボタン３２ｂ、及び、その入力ボタン３２ｂを囲うような多重円形図案３３が表示される。

さらに、この音声入力画面にも、キャンセルボタンＢ１が表示され、これをタップすることにより、当該アプリケーションを終了するか、音声入力待機画面（図３（Ｂ））へ戻って音声入力をやり直すことができる。また、入力ボタン３２ｂの近傍には、音声入力が終了した後に、後述の音声認識処理及び多言語翻訳処理を行うための中国語のテキストＴ１７が表示される。

この状態で、相手方のユーザ（回答者）がユーザ（質問者）への回答事項等を発話する（ステップＳＵ２）と、音声入出力デバイス１３を通して音声入力が行われる（ステップＳＪ３）。情報端末１０のプロセッサ１１は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス１４及びネットワークＮを通してサーバ２０へ送信する。それから、発話が終了して中国語のテキストＴ１４がタップ（タッチ）されると、プロセッサ１１は、発話内容の受け付けを終了する。情報端末１０のプロセッサ１１は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス１４及びネットワークＮを通してサーバ２０へ送信する。

次に、サーバ２０のプロセッサ２１は、通信インターフェイス２２を通してその音声信号を受信し、音声認識処理を行う（ステップＳＪ４）。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０、データベースＤ２０、及びモデルＭ２０（音声認識モジュール、中国語音声コーパス、音響モデル、言語モデル等）を呼び出し、入力音声の「音」を「読み」（文字）へ変換する。また、プロセッサ２１は、認識された内容を、音声入力の履歴データとして、記憶資源２３に（必要に応じて適宜のデータベースに）記憶する。

続いて、プロセッサ２１は、認識された音声の「読み」（文字）を複数の他言語に翻訳する多言語翻訳処理へ移行する（ステップＳＪ５）。プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０及びデータベースＤ２０（翻訳モジュール、中国語文字コーパス、中国語辞書、日本語辞書、中国語／日本語対訳辞書、中国語／日本語対訳コーパス等）を呼び出し、認識結果である入力音声の「読み」（文字列）を適切に並び替えて中国語の句、節、文等へ変換し、その変換結果に対応する日本語を抽出し、それらを日本語の文法に従って並び替えて自然な日本語の句、節、文等へと変換する。なお、入力音声が正確に認識されなかった場合には、音声の再入力を行うことができる（図示省略）。また、プロセッサ２１は、それらの中国御及び日本語の句、節、文等を、記憶資源２３に記憶しておくこともできる。

また、この翻訳処理中に、情報端末１０のプロセッサ１１は、図４（Ｄ）に示す翻訳処理中画面を表示する。この翻訳処理中画面には、翻訳処理中であることを示す日本語のテキストＴ９及び中国語のテキストＴ１０、並びに、翻訳処理中であることを表すため円弧の一部が回動するように表示される環状図案３４も表示される。さらに、この翻訳処理中画面にも、キャンセルボタンＢ１が表示され、これをタップすることにより、当該アプリケーションを終了するか、音声入力待機画面（図３（Ｂ））へ戻って音声入力をやり直すことができる。

次に、多言語翻訳処理が完了すると、プロセッサ２１は、音声合成処理へ移行する（ステップＳＪ６）。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０、データベースＤ２０、及びモデルＭ２０（音声合成モジュール、日本語音声コーパス、音響モデル、言語モデル等）を呼び出し、翻訳結果である日本語の句、節、文等を自然な音声に変換する。

次いで、プロセッサ２１は、日本語による翻訳結果（対応する日本語の会話コーパスでもよい）に基づいてテキスト表示用のテキスト信号を生成し、情報端末１０へ送信する。そのテキスト信号を受信したプロセッサ１１は、音声認識した入力音声の内容を示す中国語のテキストと、その日本語による翻訳結果（対訳）のテキストを、図４（Ａ）に示す翻訳結果表示画面と同様に表示する。

（会話のシーンを考慮した音声翻訳による会話）
次に、ユーザ同士（話者）の会話及び／又は会話準備において、その会話のシーンをユーザが選択し、選択されたその会話のシーンを考慮して音声翻訳を行う場合の処理操作及び動作の一例について、以下に説明する。図５は、音声翻訳装置１００における処理の流れ（の一部）の一例を示すフローチャートである。また、図６（Ａ）及び（Ｂ）は、情報端末における表示画面の遷移の一例を示す平面図である。なお、本実施形態においては、一方のユーザ（質問者）の言語が日本語であり、他方のユーザ（回答者）の言語が英語である場合の会話を想定する（但し、言語やシチュエーションはこれに限定されない）。

ここでの処理手順は、図２に示す発話（ステップＳＵ２）に先立って会話のシーンを選択し（ステップＳＵ３）、また、音声認識（ステップＳＪ４）と多言語翻訳（ステップＳＪ５）の間に、認識された音声の内容が質問文であり且つ特定のフレーズを含んでいるか否かの判定（ステップＳＪ８）、特定のフレーズと選択されたシーンが関連付けられているか否かの判定（ステップＳＪ９）、及び特定のフレーズと選択されたシーンに関連付けて記憶された定型構文の提示（ステップＳＪ１０）を実施すること以外は、図２に示す「通常の音声翻訳による会話」における処理手順と同様である。

すなわち、ユーザ（質問者）が当該アプリケーションを起動して（ステップＳＵ１）、相手方のユーザ（回答者）の言語を選択するための言語選択画面を表示し（図３（Ａ）；ステップＳＪ１）、さらに、相手方のユーザ（回答者）の言語を選択して日本語と英語の音声入力待機画面を表示デバイス１６に表示する（図３（Ｂ）と同様；ステップＳＪ２）。それから、図３（Ｂ）に示す音声入力待機画面において、ユーザ（質問者）が会話のシーンを選択するためのシーン選択ボタンＢＳをタップする。そうすると、サーバ２０のプロセッサ２１及び情報端末１０のプロセッサ１１により、会話のシーンのリスト表示画面が表示デバイス１６に表示される（図６（Ａ））。

図６（Ａ）に示す例では、シーンの大分類（例えば、「飲食」、「買い物」、「観光」、「ビジネス」等）がシーン見出しタブＳ１〜Ｓ４として表示される。それらのなかからユーザ（質問者）が所望のシーン見出しタブＳ１〜Ｓ４をタップすると、そのシーンタブに属する具体的なシーンの小分類（大分類が「飲食」の場合、例えば、「接客」、「案内」、「注文」、「会計」等）が、シーンバーＳ１１〜Ｓ１５としてリスト表示される。

ここで、一例として、ユーザ（質問者）が日本語を話す飲食店の店員であり、ユーザ（回答者）がその飲食店に来店した英語を話す外国人客である場合、質問者である店員は、シーンタブＳ１〜Ｓ４のなかから「飲食」のシーンタブをタップし、さらに、来店時の応対であることから、シーンバーＳ１１〜Ｓ１５のなかから、「接客」又は「案内」のシーンバーをタップして、そのときの会話のシーンを選択することができる（ステップＳＵ３）。

ユーザによって会話のシーンが選択されると、サーバ２０のプロセッサ２１及び情報端末１０のプロセッサ１１により、情報端末１０の表示デバイス１６に、図３（Ｂ）に示す音声入力待機画面が再び表示される。この状態で、質問者が回答者への質問事項として、図４（Ａ）に示すフレーズとは異なり、例えば「どんな席がよろしいですか？」と発話する（ステップＳＵ２）と、音声入出力デバイス１３を通して音声入力が行われる（ステップＳＪ３）。その発話が終了して図４（Ｃ）に示す日本語のテキストＴ８がタップ（タッチ）されると、プロセッサ１１は、発話内容の受け付けを終了し、サーバ２０のプロセッサ２１が、音声認識処理を行う（ステップＳＪ４）。

この場合、具体的には、プロセッサ２１は、入力音声の「音」を「読み」（文字）へ変換し、形態素解析を行い、上記の発話内容から、例えば「どんな」、「席」、「が」、「よろしい」、及び「ですか」といったフレーズが抽出される。次に、プロセッサ２１は、その入力音声の内容が質問文であり、且つ、特定のフレーズを含むか否かの判定を行う（ステップＳＪ８）。より具体的には、プロセッサ２１は、入力音声の内容に「どんな」といった疑問詞が含まれることから、或いは、それに加えて「ですか」という文尾の表現から、その入力音声の内容が質問文であると判定する。

一方、記憶資源２３（記憶部）には、例えば、「席」という単独のフレーズ、又は、「どんな」＋「席」というフレーズの組み合わせが、特定のフレーズとして予め記憶されており、プロセッサ２１は、その入力音声の内容が特定のフレーズを含むと判定する（ステップＳＪ８においてＹｅｓ）。なお、入力音声の内容が質問文ではなく、又は、特定のフレーズを含まない場合（ステップＳＪ８においてＮｏ）には、処理は通常の多言語翻訳処理（ステップＳＪ５）へ移行する。

次いで、プロセッサ２１は、入力音声の内容に含まれる特定のフレーズ（「席」又は「どんな」＋「席」）に、選択されたシーン（「接客」又は「案内」）が関連付けられているか否かを判定する（ステップＳＪ９）。ここでは、記憶資源２３に、「席」又は「どんな」＋「席」に対して「接客」というシーンが関連付けられて予め記憶されているので、入力音声の内容に含まれる特定のフレーズに、選択されたシーンの関連付けありと判定される（ステップＳＪ９においてＹｅｓ）。なお、入力音声の内容に含まれる特定のフレーズに、選択されたシーンの関連付けがない場合（ステップＳＪ９においてＮｏ）には、処理は通常の多言語翻訳処理（ステップＳＪ５）へ移行する。

それから、プロセッサ２１は、記憶資源２３に記憶されている情報のなかから、特定のフレーズ（「席」又は「どんな」＋「席」）と選択されたシーン（「接客」又は「案内」）の双方に関連付けて記憶されている定型構文がある場合、それを抽出して表示デバイス１６にリストとして提示する（ステップＳＪ１０においてＹｅｓ；図６（Ｂ））。この図６（Ｂ）に示す例では、特定のフレーズ（「席」又は「どんな」＋「席」）と選択されたシーン（「接客」又は「案内」）の双方に関連付けて記憶資源２３に記憶されている定型構文として、「お席は室内とテラスとどちらがよろしいですか？」、「お席は禁煙席と喫煙席のどちらがよろしいですか？」、「お席はカウンターとテーブルのどちらがよろしいですか？」、「お席は１階席と２階席のどちらがよろしいですか？」、及び「何かお席の希望がございますか？」といった構文が構文リストＰＬとして表示される。

ここで、仮に、質問者である店員から「どんな席がよろしいですか？」と質問された回答者である外国人客は、そもそも、店内にどのような種類の席が存在するのか知らなかったり、店員が質問事項である「どんな席」としてどのような種類の席を想定しているのか分からなかったりすることも多々ある。その場合、質問された外国人客は、図６（Ｂ）の構文リストＰＬに例示されているような内容を、確認のため、店員に質問してしまうことも想定される。しかも、かかるやり取りを、音声翻訳を介して行うために、円滑なコミュニケーションを図り難い傾向にある。

これに対し、図６（Ｂ）の如く、構文リストＰＬが表示されると、質問者である店員は、例えば「どんな席がよろしいですか？」よりも精度の高い質問内容（例えば「お席はカウンターとテーブルのどちらがよろしいですか？」）を選択して、外国人客へ問い掛けることができるので、外国人客に対して適切な質問を行うことができ、外国人の意向をより正確に把握しつつ、両者の円滑なコミュニケーションを図ることが可能となる。

このようにして、質問者である店員は、図６（Ｂ）に示す構文リストＰＬのなかから所望の構文をタップして選択することにより、その構文の内容が翻訳され（ステップＳＪ５）、続けて音声合成（ステップＳＪ６）及び音声出力（ステップＳＪ７）の処理が行われる。また、図６（Ｂ）に示す構文リスト表示画面には、図４（Ａ）の翻訳結果表示画面に表示されているのと同様のテキスト入力ボタンＢ５も表示される。話し手がこのテキスト入力ボタンＢ５をタップすると、図４（Ｂ）に示すのと同様のテキスト入力画面が表示され、例えば構文リストＰＬを参考にして、他の内容をテキスト入力することができ、その内容を定型構文として記憶資源２３に追加登録してもよい。

なお、上述したとおり、上記の各実施形態は、本発明を説明するための一例であり、本発明をその実施形態に限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。例えば、当業者であれば、実施形態で述べたリソース（ハードウェア資源又はソフトウェア資源）を均等物に置換することが可能であり、そのような置換も本発明の範囲に含まれる。

また、会話のシーンを選択するステップＳＵ３は、例えば、アプリケーション起動（ステップＳＵ１）の後、言語選択画面表示（ステップＳＪ１）の後、又は発話（ステップＳＵ２）の後に実施するようにしてもよく、或いは、ある程度会話が進んだ任意のタイミングにおいて会話のシーンを選択（入力）することができるように構成してもよい。さらに、構文リストＰＬを、認識された音声の内容（例えば先述した音声入力内容である「どんな席がよろしいですか？」）とともに表示してもよい。

また、音声認識、翻訳、音声合成等の各処理をサーバ２０によって実行する例について記載したが、これらの処理を情報端末１０において実行するように構成してもよい。この場合、それらの処理に用いるモジュールＬ２０は、情報端末１０の記憶資源１２に保存されていてもよいし、サーバ２０の記憶資源２３に保存されていてもよい。さらに、音声データベースであるデータベースＤ２０、及び／又は、音響モデル等のモデルＭ２０も、情報端末１０の記憶資源１２に保存されていてもよいし、サーバ２０の記憶資源２３に保存されていてもよい。このとおり、音声翻訳装置は、ネットワークＮ及びサーバ２０を備えなくてもよい。

また、情報端末１０とネットワークＮとの間には、両者間の通信プロトコルを変換するゲートウェイサーバ等が介在してももちろんよい。また、情報端末１０は、携帯型装置に限らず、例えば、デスクトップ型パソコン、ノート型パソコン、タブレット型パソコン、ラップトップ型パソコン等でもよい。

本発明によれば、特定のフレーズと選択された会話のシーンに関連付けて記憶された定型構文を、ユーザが選択可能なように提示することにより、音声翻訳を利用した会話において、質問者が回答者に対して適切な質問を行うことができ、その結果、両者の円滑なコミュニケーションを図ることが可能となるので、例えば、互いの言語を理解できない人同士の会話に関するサービスの提供分野における、プログラム、装置、システム、及び方法の設計、製造、提供、販売等の活動に広く利用することができる。

１０…情報端末、１１…プロセッサ、１２…記憶資源、１３…音声入出力デバイス、１４…通信インターフェイス、１５…入力デバイス、１６…表示デバイス、１７…カメラ、２０…サーバ、２１…プロセッサ、２２…通信インターフェイス、２３…記憶資源、３１…言語ボタン、３２ａ，３２ｂ…入力ボタン、３３…多重円形図案、３４…環状図案、１００…音声翻訳装置、Ｂ１…キャンセルボタン、Ｂ２…登録フレーズボタン、Ｂ３…テキスト入力ボタン、Ｂ４…設定ボタン、Ｂ５…テキスト入力ボタン、Ｂ６…チェックボタン、Ｂ７…誤訳通知ボタン、Ｂ８…表示ボタン、Ｂ９…消去ボタン、Ｂ１０…翻訳ボタン、ＢＳ…シーン選択ボタン、Ｄ２０…データベース、Ｅ１，Ｅ２…顔マーク、Ｋ…キーボード、Ｌ２０…モジュール、Ｍ２０…モデル、Ｎ…ネットワーク、Ｐ１０，Ｐ２０…プログラム、ＰＬ…構文リスト、Ｓ１〜Ｓ４…シーン見出しタブ、Ｓ１１〜Ｓ１５…シーンバー、ＳＪ１〜ＳＪ１０，ＳＵ１〜ＳＵ３…ステップ、Ｔ１〜Ｔ１７…テキスト。

Claims

会話を行うユーザの音声を入力するための入力部と、
前記ユーザが複数のシーンのなかから前記会話におけるシーンを選択するためのシーン選択手段を提示するシーン選択手段提示部と、
特定のフレーズについて想定される複数の定型構文を、該特定のフレーズと前記シーンに関連付けて予め記憶する記憶部と、
前記入力された音声を認識し、該認識された音声の内容が質問文であり且つ前記特定のフレーズを含んでいたときに、該特定のフレーズと前記選択されたシーンに関連付けて記憶された前記定型構文を、前記ユーザが選択可能なように提示する定型構文提示部と、
前記選択された定型構文の内容を異なる言語の内容に翻訳する翻訳部と、
前記異なる言語に翻訳された内容を、音声及び／又はテキストで出力する出力部と、
を備える音声翻訳装置。
前記入力部は、前記選択された定型構文の内容を前記ユーザが変更するための入力変更手段を提示し、
前記翻訳部は、前記変更された内容を異なる言語の内容に翻訳する、
請求項１記載の音声翻訳装置。
前記定型構文提示部は、前記認識された音声の内容とともに前記定型構文を提示する、
請求項１又は２記載の音声翻訳装置。
前記ユーザが前記定型構文を追加して入力するための定型構文入力部を更に備える、
請求項１乃至３の何れか記載の音声翻訳装置。
入力部、シーン選択手段提示部、記憶部、定型構文提示部、翻訳部、及び出力部を備える音声翻訳装置を用い、
前記入力部が、会話を行うユーザの音声を入力するステップと、
前記シーン選択手段提示部が、前記ユーザが複数のシーンのなかから前記会話におけるシーンを選択するためのシーン選択手段を提示するステップと、
前記記憶部が、特定のフレーズについて想定される複数の定型構文を、該特定のフレーズと前記シーンに関連付けて予め記憶するステップと、
前記定型構文提示部が、前記入力された音声を認識し、該認識された音声の内容が質問文であり且つ前記特定のフレーズを含んでいたときに、該特定のフレーズと前記選択されたシーンに関連付けて記憶された前記定型構文を、前記ユーザが選択可能なように提示するステップと、
前記翻訳部が、前記選択された定型構文の内容を異なる言語の内容に翻訳するステップと、
前記出力部が、前記異なる言語に翻訳された内容を、音声及び／又はテキストで出力するステップと、
を含む音声翻訳方法。
コンピュータを、
会話を行うユーザの音声を入力するための入力部と、
前記ユーザが複数のシーンのなかから前記会話におけるシーンを選択するためのシーン選択手段を提示するシーン選択手段提示部と、
特定のフレーズについて想定される複数の定型構文を、該特定のフレーズと前記シーンに関連付けて予め記憶する記憶部と、
前記入力された音声を認識し、該認識された音声の内容が質問文であり且つ前記特定のフレーズを含んでいたときに、該特定のフレーズと前記選択されたシーンに関連付けて記憶された前記定型構文を、前記ユーザが選択可能なように提示する定型構文提示部と、
前記選択された定型構文の内容を異なる言語の内容に翻訳する翻訳部と、
前記異なる言語に翻訳された内容を、音声及び／又はテキストで出力する出力部と、
して機能させる音声翻訳プログラム。