JP2017181727A

JP2017181727A - 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム

Info

Publication number: JP2017181727A
Application number: JP2016067706A
Authority: JP
Inventors: 知高大越; Tomotaka Ogoshi; 千春宇賀神; Chiharu Ugajin
Original assignee: Recruit Lifestyle Co Ltd
Current assignee: Recruit Lifestyle Co Ltd
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2017-10-05
Anticipated expiration: 2036-03-30
Also published as: JP6198879B1

Abstract

【課題】入力音声の発話分析の精度向上、及び分析作業の負荷軽減による効率化を図ることができ、音声翻訳の精度を高めること。【解決手段】本発明の一態様による音声翻訳装置は、ユーザの音声を入力するための入力部、入力音声の内容を異なる言語の内容に翻訳する翻訳部、入力音声の翻訳内容を音声及び／又はテキストで出力する出力部、入力音声のログを記録するログ記録部、及び、ユーザと対話者との会話における音声入力を行うための第１のモードと、ユーザと対話者との会話以外の動作における音声入力を行うための第２のモードとを切り替えるモード切替部を備える。また、ログ記録部は、第１のモードにおける入力音声のログ、及び、第２のモードにおける入力音声のログを、互いに区別して記録する。【選択図】図２

Description

本発明は、音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムに関する。

互いの言語を理解できない人同士の会話、例えば店員（飲食店等の店舗の販売員）と外国人（海外からの観光客等）との会話を可能ならしめるべく、話者の発話音声をテキスト化し、そのテキストの内容を相手の言語に機械翻訳した上で画面に表示したり、或いは、音声合成技術を用いてそのテキストの内容を音声再生したりする音声翻訳技術が提案されている（例えば特許文献１参照）。また、かかる音声翻訳技術を具現化したスマートフォン等の情報端末で動作する音声翻訳アプリケーションも実用化されている（例えば非特許文献１参照）。

特開平９−３４８９５号公報

Ｕ−ＳＴＡＲコンソーシアムホームページ［平成２８年２月１日検索］、インターネット＜ＵＲＬ：http://www.ustar-consortium.com/app_ja/app.html＞

かかる従来の音声翻訳アプリケーション等においては、話者の入力音声の内容が発話日時等とともに時系列に記録され（以下、このようにして記録されたデータを「入力音声のログ」という。）、会話時の発話内容、発話形態、発話状況、発話傾向、発話頻度等の分析（発話分析）が行われ得る。この発話分析の結果は、例えば、音声翻訳アプリケーション等で用いられる音声認識用モデル（音響モデル、言語モデル等）の学習に資され、音声翻訳の精度向上が図られる。

ところで、音声翻訳アプリケーションの利用目的としては、実際の会話（コミュニケーション）を行う利用や、会話の相手（対話者）がいない状況において翻訳される内容を事前に確認するといった利用、つまり実利用の他にも、例えば以下に示すような形態の使用が考えられる。
（１）音声翻訳アプリケーションの試行又はその操作に慣れるための試行
（２）単語や熟語の意味を調べる辞書引き
（３）会話以外の文章（記事、歌詞、名言、台詞等）の翻訳
（４）外国語の発音練習

しかし、実際の会話（実利用）での入力音声のログのみならず、上記（１）〜（４）で示すような形態での使用時における入力音声のログを記録し、それらのログを全て用いて実利用時における入力音声の発話分析を行うことは、分析精度の向上や分析作業の効率化の観点、及び翻訳精度を高める観点から望ましくない。

そこで、本発明は、かかる事情に鑑みてなされたものであり、入力音声の発話分析の精度向上、及び分析作業の負荷軽減による効率化を図ることができ、これにより、音声翻訳の精度を高めることが可能な音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムを提供することを目的とする。

上記課題を解決するため、本発明の一態様による音声翻訳装置は、ユーザの音声を入力するための入力部、入力音声の内容を異なる言語の内容に翻訳する翻訳部、及び、入力音声の翻訳内容（対訳）を音声及び／又はテキストで出力する出力部を備える。そして、当該音声翻訳装置は、入力音声のログを記録するログ記録部と、ユーザと対話者（会話の相手方）との会話における音声入力を行うための第１のモードと、ユーザと対話者との会話以外の動作における音声入力を行うための第２のモードとを切り替えるモード切替部とを更に備えるとともに、ログ記録部は、第１のモードにおける入力音声のログ、及び、第２のモードにおける入力音声のログを、互いに区別して記録する。なお、「会話」には、対話者がいない状況において、翻訳される内容を事前に確認するといった会話のための準備をする利用も含まれるものとする。

また、具体的には、モード切替部は、ユーザが第１のモードと第２のモードとを切り替えるための切替手段を、ユーザが使用するユーザ装置に表示するようにしてもよい。

さらに、ログ記録部は、第１のモードにおける入力音声のログ、及び、第２のモードにおける入力音声のログを同一のデータベースに記録してもよい。

またさらに、第１のモードにおける入力音声のログのみを用いて発話分析を行う分析部を更に備えても好適である。

また、本発明の一態様による音声翻訳方法は、入力部、翻訳部、出力部、ログ記録部、及びモード切替部を備える音声翻訳装置を用いる方法である。すなわち、当該方法は、ユーザの音声を入力するステップと、翻訳部が、入力音声の内容を異なる言語の内容に翻訳するステップと、出力部が、翻訳内容を音声及び／又はテキストで出力するステップと、ログ記録部が、入力音声のログを記録するステップと、モード切替部が、ユーザと対話者との会話における音声入力を行うための第１のモードと、ユーザと対話者との会話以外の動作における音声入力を行うための第２のモードとを切り替えるステップとを含む。そして、ログを記録するステップにおいては、第１のモードにおける入力音声のログ、及び、第２のモードにおける入力音声のログが、互いに区別して記録される。

また、本発明の一態様による音声翻訳プログラムは、コンピュータ（単数又は単一種に限られず、複数又は複数種でもよい；以下同様）を、ユーザの音声を入力するための入力部と、入力音声の内容を異なる言語の内容に翻訳する翻訳部と、翻訳内容を音声及び／又はテキストで出力する出力部と、入力音声のログを記録するログ記録部と、ユーザと対話者との会話における音声入力を行うための第１のモードと、ユーザと対話者との会話以外の動作における音声入力を行うための第２のモードとを切り替えるモード切替部として機能させる。そして、ログ記録部は、第１のモードにおける入力音声のログ、及び、第２のモードにおける入力音声のログを、互いに区別して記録する。

本発明によれば、ユーザと対話者との会話（すなわち音声翻訳装置等の実利用時）における音声入力を行うための第１のモードと、ユーザと対話者との会話以外の動作（すなわち試行、辞書引き、会話以外の文章翻訳、発音練習等）における音声入力を行うための第２のモードが用意されており、それらのモードを適宜切り替えることができる。また、第１のモード（実利用）における入力音声のログ、及び、第２のモード（実利用以外の使用）における入力音声のログを、互いに区別して記録することができる。したがって、第１のモードにおける入力音声のログのみ（つまり実利用時の発話情報のみ）を簡易に抽出でき、それを用いることにより、実利用時の発話分析を正確に行い、かつ、その際の負荷を軽減することができる。その結果、入力音声の発話分析の精度向上及び分析作業の効率化を図ることができ、これにより、音声翻訳の精度を高めることが可能となる。

本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。本発明による音声翻訳装置の好適な一実施形態における処理の流れ（一部）の一例を示すフローチャートである。（Ａ）乃至（Ｃ）は、第１実施形態による情報端末における表示画面の遷移の一例を示す平面図である。音声ログデータベースのデータ構造の一例を示す模式図である。

以下、本発明の実施の形態について詳細に説明する。なお、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。またさらに、必要に応じて示す上下左右等の位置関係は、特に断らない限り、図示の表示に基づくものとする。さらにまた、図面における各種の寸法比率は、その図示の比率に限定されるものではない。

（装置構成）
図１は、本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。この例において、音声翻訳装置１００は、ユーザが使用する情報端末１０（ユーザ装置）にネットワークＮを介して電子的に接続されるサーバ２０を備える（但し、これに限定されない）。

情報端末１０は、例えば、タッチパネル等のユーザインターフェイス及び視認性が高いディスプレイを採用する。また、ここでの情報端末１０は、ネットワークＮとの通信機能を有するスマートフォンに代表される携帯電話を含む可搬型のタブレット型端末装置である。さらに、情報端末１０は、プロセッサ１１、記憶資源１２、音声入出力デバイス１３、通信インターフェイス１４、入力デバイス１５、表示デバイス１６、及びカメラ１７を備えている。また、情報端末１０は、インストールされた音声翻訳アプリケーションソフト（本発明の一実施形態による音声翻訳プログラムの少なくとも一部）が動作することにより、本発明の一実施形態による音声翻訳装置の一部又は全部として機能するものである。

プロセッサ１１は、算術論理演算ユニット及び各種レジスタ（プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等）から構成される。また、プロセッサ１１は、記憶資源１２に格納されているプログラムＰ１０である音声翻訳アプリケーションソフトを解釈及び実行し、各種処理を行う。このプログラムＰ１０としての音声翻訳アプリケーションソフトは、例えばサーバ２０からネットワークＮを通じて配信可能なものであり、手動で又は自動でインストール及びアップデートされてもよい。

なお、ネットワークＮは、例えば、有線ネットワーク（近距離通信網（ＬＡＮ）、広域通信網（ＷＡＮ）、又は付加価値通信網（ＶＡＮ）等）と無線ネットワーク（移動通信網、衛星通信網、ブルートゥース（Bluetooth（登録商標））、ＷｉＦｉ(Wireless Fidelity)、ＨＳＤＰＡ(High Speed Downlink Packet Access)等）が混在して構成される通信網である。

記憶資源１２は、物理デバイス（例えば、半導体メモリ等のコンピュータ読み取り可能な記録媒体）の記憶領域が提供する論理デバイスであり、情報端末１０の処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、各種データ等を格納する。ドライバプログラムとしては、例えば、音声入出力デバイス１３を制御するための入出力デバイスドライバプログラム、入力デバイス１５を制御するための入力デバイスドライバプログラム、表示デバイス１６を制御するための表示デバイスドライバプログラム等が挙げられる。さらに、音声入出力デバイス１３は、例えば、一般的なマイクロフォン、及びサウンドデータを再生可能なサウンドプレイヤである。

通信インターフェイス１４は、例えばサーバ２０との接続インターフェイスを提供するものであり、無線通信インターフェイス及び／又は有線通信インターフェイスから構成される。また、入力デバイス１５は、例えば、表示デバイス１６に表示されるアイコン、ボタン、仮想キーボード等のタップ動作による入力操作を受け付けるインターフェイスを提供するものであり、タッチパネルの他、情報端末１０に外付けされる各種入力装置を例示することができる。

表示デバイス１６は、画像表示インターフェイスとして各種の情報をユーザや、必要に応じて対話者（会話の相手方）に提供するものであり、例えば、有機ＥＬディスプレイ、液晶ディスプレイ、ＣＲＴディスプレイ等が挙げられる。また、カメラ１７は、種々の被写体の静止画や動画を撮像するためのものである。

サーバ２０は、例えば、演算処理能力の高いホストコンピュータによって構成され、そのホストコンピュータにおいて所定のサーバ用プログラムが動作することにより、サーバ機能を発現するものであり、例えば、音声認識サーバ、翻訳サーバ、及び音声合成サーバとして機能する単数又は複数のホストコンピュータから構成される（図示においては単数で示すが、これに限定されない）。そして、各サーバ２０は、プロセッサ２１、通信インターフェイス２２、及び記憶資源２３を備える。

プロセッサ２１は、算術演算、論理演算、ビット演算等を処理する算術論理演算ユニット及び各種レジスタ（プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等）から構成され、記憶資源２３に格納されているプログラムＰ２０を解釈及び実行し、所定の演算処理結果を出力する。また、通信インターフェイス２２は、ネットワークＮを介して情報端末１０に接続するためのハードウェアモジュールであり、例えば、ＩＳＤＮモデム、ＡＤＳＬモデム、ケーブルモデム、光モデム、ソフトモデム等の変調復調装置である。

記憶資源２３は、例えば、物理デバイス（ディスクドライブ又は半導体メモリ等のコンピュータ読み取り可能な記録媒体等）の記憶領域が提供する論理デバイスであり、それぞれ単数又は複数のプログラムＰ２０、各種モジュールＬ２０、各種データベースＤ２０、及び各種モデルＭ２０が格納されている。また、記憶資源２３には、ユーザが対話者へ話しかけるために予め用意された複数の質問定型文、入力音声の履歴データ、各種設定用のデータ等も記憶されている。

プログラムＰ２０は、サーバ２０のメインプログラムである上述したサーバ用プログラム等である。また、各種モジュールＬ２０は、情報端末１０から送信されてくる要求及び情報に係る一連の情報処理を行うため、プログラムＰ１０の動作中に適宜呼び出されて実行されるソフトウェアモジュール（モジュール化されたサブプログラム）である。かかるモジュールＬ２０としては、音声認識モジュール、翻訳モジュール、音声合成モジュール等が挙げられる。

また、各種データベースＤ２０としては、音声翻訳処理のために必要な各種コーパス（例えば、日本語と英語の音声翻訳の場合、日本語音声コーパス、英語音声コーパス、日本語文字（語彙）コーパス、英語文字（語彙）コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等）、音声データベース、ユーザに関する情報を管理するための管理用データベース等が挙げられる。また、各種モデルＭ２０としては、音声認識に使用する音響モデルや言語モデル等が挙げられる。

以上のとおり構成された音声翻訳装置１００における、音声翻訳処理の操作及び動作の一例について、以下に更に説明する。

図２は、音声翻訳装置１００における処理の流れ（の一部）の一例を示すフローチャートである。また、図３（Ａ）乃至（Ｃ）は、情報端末１０の画面表示における遷移（の一部）の一例を示す平面図である。なお、ここでは、情報端末１０のユーザが日本語を話す飲食店等の店員であり、対話者（会話の相手）が英語、中国語（例えば書体により２種類）、又はハングル語を話す外国人である場合の会話を想定する（但し、言語はこれに限定されない）。

まず、ユーザ（店員）が当該アプリケーションを起動する（ステップＳＵ１）と、情報端末１０の表示デバイス１６に、図３（Ａ）に示す対話者の言語選択画面が表示される（ステップＳＪ１）。この言語選択画面には、対話者に言語を尋ねることをユーザに促すための日本語テキストＴ１、対話者に言語を尋ねる旨の英語テキストＴ２、及び、想定される複数の代表的な言語（ここでも、英語、中国語（例えば書体により２種類）、ハングル語）を示す言語ボタン３１が表示される。

このとき、図３（Ａ）に示す如く、日本語テキストＴ１及び英語テキストＴ２は、プロセッサ１１及び表示デバイス１６により、情報端末１０の表示デバイス１６の画面において、異なる領域によって区分けされ、且つ、互いに逆向き（互いに異なる向き；図示において上下逆向き）に表示される。これにより、ユーザと対話者が対面している状態で会話を行う場合、ユーザは日本語テキストＴ１を確認し易い一方、対話者は、英語テキストＴ２を確認し易くなる。また、日本語テキストＴ１と英語テキストＴ２が区分けして表示されるので、両者を明別して更に確認し易くなる利点がある。

ユーザがその言語選択画面の英語テキストＴ２の表示を対話者に提示し、対話者に例えば英語（Ｅｎｇｌｉｓｈ）のボタンをタップしてもらうことにより、又は、ユーザ自らが、対話者の言語を選択することができる。こうして対話者の言語が選択されると、サーバ２０のプロセッサ２１及び情報端末１０のプロセッサ１１により、ホーム画面として、日本語と英語の音声入力の待機画面が表示デバイス１６に表示される（図３（Ｂ）；ステップＳＪ２）。この待機画面には、ユーザと対話者の言語の何れを発話するかを問う日本語テキストＴ３、並びに、日本語の音声入力を行うための日本語入力ボタン３２ａ及び英語の音声入力を行うための英語入力ボタン３２ｂが表示される。

また、この待機画面には、予め設定されている複数の質問定型文のリスト表示を選択するためのお声がけボタン３３、図３（Ａ）の言語選択画面に戻って対話者の言語を切り替える（言語選択をやり直す）ための言語選択ボタン３４、これまでになされた音声入力内容の履歴表示を選択するための履歴ボタン３５、及び当該アプリケーションソフトの各種設定を行うための設定ボタン３６も表示される。

ここで、図２には、これ以降の処理として、ユーザが設定ボタン３６を選択し、かつ、後述する「練習モード」（第２のモード）をＯＮにするか否かに着目した場合分け（ステップＳＵ２，ＳＵ３）のフローを示す。なお、通常の音声翻訳処理においては、図３（Ｂ）に示す待機画面から、ユーザと対話者の会話及び／又は会話準備のための音声入力を行うことができる（それ以降の処理を「通常モード」（第１のモード）という）。以下、通常モード及び練習モードにおける処理の流れについて、順に説明する。

［通常モード（第１のモード）］
図３（Ｂ）に示す待機画面において、ユーザが日本語入力ボタン３２ａをタップして日本語の音声入力を選択すると、その音声入力が可能な状態となる。この状態で、ユーザが対話者への伝達事項等を発話すると、音声入出力デバイス１３を通して音声入力が行われる（ステップＳＪ３）。情報端末１０のプロセッサ１１は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス１４及びネットワークＮを通してサーバ２０へ送信する。このとおり、情報端末１０自体、又はプロセッサ１１及び音声入出力デバイス１３が「入力部」として機能する。

サーバ２０のプロセッサ２１は、通信インターフェイス２２を通してその音声信号を受信し、音声認識処理を行う（ステップＳＪ４）。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０、データベースＤ２０、及びモデルＭ２０（音声認識モジュール、日本語音声コーパス、音響モデル、言語モデル等）を呼び出し、入力音声の「音」を「読み」（文字）へ変換する。このとおり、プロセッサ２１、又は、サーバ２０が全体として「音声認識サーバ」として機能する。

次に、入力音声が認識された場合、プロセッサ２１は、その音声入力が「通常モード」でなされたものか「練習モード」でなされたものかを判定する（モード判定）。そして、ここでは、通常モードにおける音声入力であるので、認識された入力音声にフラグとして例えば「１」を割り当てる（スッテプＳＪ５）。それから、プロセッサ２１は、認識された入力音声のログを、記憶資源２３に記憶されているデータベースＤ２０の１つである音声ログデータベースＤ２１に記録する（ステップＳＪ６）。このとおり、プロセッサ２１及び記憶資源２３が、「ログ記録部」として機能する。

ここで、図４は、かかる音声ログデータベースＤ２１のデータ構造の一例を示す模式図である。音声ログデータベースＤ２１は、例えばデータテーブル４０として表現することができ、このデータテーブル４０は、音声ログデータＤ毎に、データ番号４１、モード種別４２、ユーザＩＤ４３、記録日（発話日）４４、入力音声テキスト４５等の複数のデータレコードを有する。これらのデータレコードのなかで、モード種別４２には、上述したフラグが記録される。この通常モードでは、プロセッサ２１は、認識された入力音声のログを、例えばデータ番号４１＝「１」又は「３」の音声ログデータＤに関連付け、そのモード種別４２を通常モードに割り当てられたフラグである「１」として、音声ログデータベースＤ２１に記録する。

次に、プロセッサ２１は、認識された音声の「読み」（文字）を他の言語に翻訳する多言語翻訳処理へ移行する（ステップＳＪ７）。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０及びデータベースＤ２０（翻訳モジュール、日本語文字コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等）を呼び出し、認識結果である入力音声の「読み」（文字列）を適切に並び替えて日本語の句、節、文等へ変換し、その変換結果に対応する英語を抽出し、それらを英文法に従って並び替えて自然な英語の句、節、文等へと変換する。このとおり、プロセッサ２１は、「翻訳部」としても機能し、サーバ２０は、全体として「翻訳サーバ」としても機能する。なお、入力音声がうまく認識されなかった場合には、音声の再入力を行うことができる（画面表示を図示せず）。

また、プロセッサ２１は、認識された入力音声の内容を記憶資源２３に記憶する。次に、多言語翻訳処理、及び、入力音声の内容の記憶処理が完了すると、プロセッサ２１は、音声合成処理へ移行する（ステップＳＪ８）。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０、データベースＤ２０、及びモデルＭ２０（音声合成モジュール、英語音声コーパス、音響モデル、言語モデル等）を呼び出し、翻訳結果である英語の句、節、文等を自然な音声に変換する。このとおり、プロセッサ２１は、「音声合成部」としても機能し、サーバ２０は、全体として「音声合成サーバ」としても機能する。

次いで、プロセッサ２１は、合成された音声に基づいて音声出力用の音声信号を生成し、通信インターフェイス２２及びネットワークＮを通して、情報端末１０へ送信する。情報端末１０のプロセッサ１１は、通信インターフェイス１４を通してその音声信号を受信し、音声入出力デバイス１３を用いて、音声出力処理を行う（ステップＳＪ９）。このとおり、プロセッサ１１及び音声入出力デバイス１３が、「出力部」として機能する。

［練習モード（第２のモード）］
一方、図３（Ｂ）に示す待機画面において、ユーザが設定ボタン３６をタップする（ステップＳＵ２において「Ｙｅｓ」）と、情報端末１０のプロセッサ１１は、各種設定メニューの一覧を表示するための指令信号をサーバ２０へ送信する。その指令信号を受信したサーバ２０のプロセッサ２１は、設定メニューリストの表示画像データを情報端末１０のプロセッサ１１へ送信し、プロセッサ１１は、例えば図３（Ｃ）に示す設定メニュー画面を表示デバイス１６に表示する（ステップＳＪ１０）。この設定メニュー画面には、ユーザが理解できる日本語の設定メニュー３７が横書きで画面縦方向にリスト表示され、ユーザが各設定メニューのテキスト部分をタップすることにより、所望の設定メニューを選択することができる。

そして、この設定メニュー３７には、「練習モード」が用意されており、その練習モードを表す日本語テキストＴ４とともに、それに隣接してスライドスイッチ３８が表示される。このスライドスイッチ３８は、練習モードのＯＮ／ＯＦＦを切り替えるためのものであり、ユーザが必要に応じて、スライドスイッチ３８をＯＮにすることにより、当該音声翻訳アプリケーションの試行又はその操作に慣れるための試行としての「練習」を、通常モードと区別して行うことができる。このとおり、スライドスイッチ３８が、第１のモードと第２のモードを切り替えるための「切替手段」に相当し、また、プロセッサ１１，２１が、「モード切替部」として機能する。

そうしてユーザが練習モードをＯＮにして設定メニューを閉じると、表示デバイス１６には、図３（Ｂ）に示す待機画面が再表示され、前述した「通常モード」におけるステップＳＪ３〜ＳＪを、同様の手順で実行することができる。その際、練習モードにおける処理が通常モードにおける処理と異なるのは、ステップＳＪ５，ＳＪ６における処理のみであるため、その他のステップにおける処理については、ここでの詳細な説明を省略する。

すなわち、この練習モードでは、サーバ２０のプロセッサ２１は、スッテプＳＪ５において、認識された入力音声にフラグとして例えば「２」を割り当てる。それから、この練習モードでは、プロセッサ２１は、ステップＳＪ６において、認識された入力音声のログを、例えばデータ番号４１＝「２」の音声ログデータＤに関連付け、そのモード種別４２を練習モードに割り当てられたフラグである「２」として、音声ログデータベースＤ２１に記録する。

［発話分析］
以上のとおり、ステップＳＪ６における入力音声のログ記録においては、通常モード（第１のモード）における入力音声のログ、及び、練習モード（第２のモード）における入力音声のログが、フラグにより互いに区別された状態で音声ログデータベースＤ２１に記録される。そして、サーバ２０のプロセッサ２１は、音声ログデータベースＤ２１に記録された複数の音声ログデータＤのうち、通常モード（第１のモード）における入力音声のログのみ（つまりモード種別４２が「１」である音声ログデータＤのみ）を抽出し、それを用いて発話分析を行う（ステップＳＪ２０）。このとおり、プロセッサ２１は、「分析部」としても機能する。

以上のように構成された音声翻訳装置１００及びそれを用いた音声翻訳方法並びに音声翻訳プログラムによれば、ユーザと対話者との会話（音声翻訳装置１００の実利用時）における音声入力を行うための通常モード（第１のモード）と、ユーザと対話者との会話以外の動作である音声翻訳装置１００における音声入力を行うための練習モード（第２のモード）が用意されており、ユーザは、それらのモードを適宜切り替えて音声翻訳を利用することができる。また、通常モード及び練習モードにおける入力音声のログが、それぞれのフラグにより互いに区別して音声ログデータベースＤ２１に記録され、通常モードにおける入力音声のログのみを用いて発話分析を行うことができる。

したがって、練習モードで発話された入力音声の内容（実利用時に必ずしも発話されるとは限らない音声内容）が発話分析に混入してしまうことを、確実に抑止することができる。その結果、実利用時の発話情報のみを用いた発話分析が可能となり、また、分析作業量を低減して発話分析の負荷を軽減することができる。これにより、実利用時の発話分析の精度（学習精度）を向上させ、かつ、その分析作業の効率化を図ることができるので、音声翻訳自体の精度を高めることが可能となる。

なお、上述したとおり、上記の各実施形態は、本発明を説明するための一例であり、本発明をその実施形態に限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。例えば、当業者であれば、実施形態で述べたリソース（ハードウェア資源又はソフトウェア資源）を均等物に置換することが可能であり、そのような置換も本発明の範囲に含まれる。

また、上記実施形態のとおり通常モード及び練習モードの双方にフラグを立ててもよいが、何れか一方のみにフラグを立てるようにしてもよく、かかる構成においても、両モードで認識されたそれぞれの入力音声のログを、互いに区別することができる。さらに、通常モード及び練習モードにおけるそれぞれの入力音声のログを、別々の音声ログデータベースに記録してもよい。またさらに、練習モードを、設定メニュー以外の他のメニューから、或いは、設定メニューを経なくとも選択できるようにしてもよい。例えば、図３（Ａ）や図３（Ｂ）に示す画面に、練習モードを直接選択することができるボタン等を表示するようにしてもよい。

また、スッテプＳＪ５，ＳＪ６は、ステップＳＪ４以降であれば、何れの時点で実行してもよい。さらにまた、入力音声のログを音声ログデータベースＤ２１へ記録する処理は、発話毎に行ってもよく、複数の入力音声のログを所定の時点でまとめて記録しても構わない。また、練習モードにおいては、単に、音声翻訳アプリケーションの試行又はその操作に慣れるための試行のみならず、例えば、単語や熟語の意味を調べる辞書引き、会話以外の文章（記事、歌詞、名言、台詞等）の翻訳、外国語の発音練習等の実利用以外の動作に利用することもできる。このようにすれば、それらの実利用以外の動作における入力音声も、実利用時の入力音声と区別することが可能となる。

また、音声認識、翻訳、及び音声合成の各処理をサーバ２０によって実行する例について記載したが、これらの処理を情報端末１０において実行するように構成してもよい。この場合、それらの処理に用いるモジュールＬ２０は、情報端末１０の記憶資源１２に保存されていてもよいし、サーバ２０の記憶資源２３に保存されていてもよい。さらに、音声データベースであるデータベースＤ２０、及び／又は、音響モデル等のモデルＭ２０も、情報端末１０の記憶資源１２に保存されていてもよいし、サーバ２０の記憶資源２３に保存されていてもよい。このとおり、音声翻訳装置は、ネットワークＮ及びサーバ２０を備えなくてもよい。

また、情報端末１０とネットワークＮとの間には、両者間の通信プロトコルを変換するゲートウェイサーバ等が介在してももちろんよい。また、情報端末１０は、携帯型装置に限らず、例えば、デスクトップ型パソコン、ノート型パソコン、タブレット型パソコン、ラップトップ型パソコン等でもよい。

本発明によれば、入力音声の発話分析の精度向上及び分析作業の効率化を図ることができ、これにより、音声翻訳の精度を高めることが可能となるので、例えば、互いの言語を理解できない人同士の会話に関するサービスの提供分野における、プログラム、装置、システム、及び方法の設計、製造、提供、販売等の活動に広く利用することができる。

１０情報端末
１１プロセッサ
１２記憶資源
１３音声入出力デバイス
１４通信インターフェイス
１５入力デバイス
１６表示デバイス
１７カメラ
２０サーバ
２１プロセッサ
２２通信インターフェイス
２３記憶資源
３１言語ボタン
３２ａ日本語入力ボタン
３２ｂ英語入力ボタン
３３お声がけボタン
３４言語選択ボタン
３５履歴ボタン
３６設定ボタン
３７設定メニュー
３８スライドスイッチ
４０データテーブル
４１データ番号
４２モード種別
４３ユーザＩＤ
４４記録日
４５入力音声テキスト
１００音声翻訳装置
Ｄ音声ログデータ
Ｄ２０データベース
Ｄ２１音声ログデータベース
Ｌ２０モジュール
Ｍ２０モデル
Ｎネットワーク
Ｐ１０プログラム
Ｐ２０プログラム
Ｔ１日本語テキスト
Ｔ２英語テキスト
Ｔ３日本語テキスト
Ｔ４日本語テキスト

そうしてユーザが練習モードをＯＮにして設定メニューを閉じると、表示デバイス１６には、図３（Ｂ）に示す待機画面が再表示され、前述した「通常モード」におけるステップＳＪ３〜ＳＪ９を、同様の手順で実行することができる。その際、練習モードにおける処理が通常モードにおける処理と異なるのは、ステップＳＪ５，ＳＪ６における処理のみであるため、その他のステップにおける処理については、ここでの詳細な説明を省略する。

Claims

ユーザの音声を入力するための入力部、入力音声の内容を異なる言語の内容に翻訳する翻訳部、及び、前記入力音声の翻訳内容を音声及び／又はテキストで出力する出力部を備える音声翻訳装置であって、
前記入力音声のログを記録するログ記録部と、
前記ユーザと前記対話者との会話における音声入力を行うための第１のモードと、前記ユーザと前記対話者との会話以外の動作における音声入力を行うための第２のモードとを切り替えるモード切替部と、
を更に備え、
前記ログ記録部は、前記第１のモードにおける入力音声のログ、及び、前記第２のモードにおける入力音声のログを、互いに区別して記録する、
音声翻訳装置。
前記モード切替部は、前記ユーザが前記第１のモードと前記第２のモードとを切り替えるための切替手段を、前記ユーザが使用するユーザ装置に表示する、
請求項１記載の音声翻訳装置。
前記ログ記録部は、前記第１のモードにおける入力音声のログ、及び、前記第２のモードにおける入力音声のログを同一のデータベースに記録する、
請求項１又は２記載の音声翻訳装置。
前記第１のモードにおける入力音声のログのみを用いて発話分析を行う分析部を更に備える、
請求項１乃至３の何れかに記載の音声翻訳装置。
入力部、翻訳部、出力部、ログ記録部、及びモード切替部を備える音声翻訳装置を用い、
前記入力部が、ユーザの音声を入力するステップと、
前記翻訳部が、入力音声の内容を異なる言語の内容に翻訳するステップと、
前記出力部が、翻訳内容を音声及び／又はテキストで出力するステップと、
前記ログ記録部が、前記入力音声のログを記録するステップと、
前記モード切替部が、前記ユーザと対話者との会話における音声入力を行うための第１のモードと、前記ユーザと前記対話者との会話以外の動作における音声入力を行うための第２のモードとを切り替えるステップと、
を含み、
前記ログを記録するステップにおいては、前記第１のモードにおける入力音声のログ、及び、前記第２のモードにおける入力音声のログを、互いに区別して記録する、
音声翻訳方法。
コンピュータを、
ユーザの音声を入力するための入力部と、
入力音声の内容を異なる言語の内容に翻訳する翻訳部と、
翻訳内容を音声及び／又はテキストで出力する出力部と、
前記入力音声のログを記録するログ記録部と、
前記ユーザと対話者との会話における音声入力を行うための第１のモードと、前記ユーザと前記対話者との会話以外の動作における音声入力を行うための第２のモードとを切り替えるモード切替部と、
して機能させ、
前記ログ記録部は、前記第１のモードにおける入力音声のログ、及び、前記第２のモードにおける入力音声のログを、互いに区別して記録する、
音声翻訳プログラム。