JP6298806B2

JP6298806B2 - 音声翻訳システム及びその制御方法、並びに音声翻訳プログラム

Info

Publication number: JP6298806B2
Application number: JP2015241459A
Authority: JP
Inventors: 知高大越
Original assignee: RECRUIT LIFESTYLE CO., LTD.
Current assignee: RECRUIT LIFESTYLE CO., LTD.
Priority date: 2015-12-10
Filing date: 2015-12-10
Publication date: 2018-03-20
Anticipated expiration: 2035-12-10
Also published as: JP2017107098A

Description

本発明は、音声翻訳システム、音声翻訳方法、及び音声翻訳プログラムに関する。

一般に、音声翻訳システムにおいては、ある言語による音声を他の言語による音声に翻訳する際に、入力音声を認識するための音声認識エンジンが用いられる（例えば特許文献１及び２）。かかる音声認識エンジンでは、例えば、発話された音声が音響モデルのデータベースと照合されて「音」が「読み」に変換された後、その「読み」が言語モデルのデータベースと照合されて「文字」に変換され、更に単語の並びが調整され、必要に応じて一連のテキストとして表示される。音声翻訳システムでは、こうして認識されたある言語の入力音声が、翻訳エンジンで他の言語に翻訳され、その翻訳結果が音声合成エンジンにより出力音声に変換される。

特開２０１５−４０９４６号公報特開２０１１−２２８１３号公報特開２００５−２８４８８０号公報

ところで、上記従来の音声翻訳システムでは、音声認識エンジンにおいて入力音声を誤認識すると、その誤った音声認識結果が翻訳されるため、その翻訳結果も誤ったものとなってしまう。かかる誤認識率を低くするための対策としては、音声認識処理の高精度化、認識対象単語の長大化（複数の単語を極力まとめて処理する）、発話者による音声の再入力又は音声認識結果の確認等が挙げられる。

しかし、音声認識処理の高精度化を行うには、多くの語彙を対象とした負荷の重い処理が必要となる結果、処理時間が増大してしまう傾向にあり、この場合、高速処理が可能なハードウェアを用いると、装置コストが増大してしまう。また、認識対象単語の長大化を行うと、複数の単語のまとまりが音声認識結果として出力されるので、その後の翻訳エンジンにおける取り扱いが複雑又は煩雑となり、翻訳処理に手間が掛ったり、翻訳精度が低下したりするおそれがある。さらに、発話者による音声の再入力又は音声認識結果の確認を求めると、そのためのメッセージの生成と表示といった処理が複雑化し、また、最終的な翻訳結果を取得するまでに時間を要することとなるので、ユーザ（利用者、発話者）の負担の増加や利便性の低下を招いてしまう。

そこで、本発明は、このような事情に鑑みてなされたものであり、音声認識ひいては音声翻訳の精度を簡易に向上させることができる音声翻訳システム、音声翻訳方法、及び音声翻訳プログラムを提供することを目的とする。

上記課題を解決するため、本発明者は、サンプリングデータの収集や試験データの分析及び解析を含む研究を鋭意実施してきた。その結果、通常の音声認識エンジンでは、例えば標準的な成人の音声データの分析結果に基づいて作成された音響モデル等が使用されることから、例えば高齢者や子供が発話したときの音声認識率が低い傾向にあることを見出し、本発明を完成するに至った。

すなわち、本発明の一態様による音声翻訳システムは、まず、発話者の音声を入力するための音声入力部と、音声入力部に入力された音声の内容を認識する音声認識部と、音声認識部で認識された内容を異なる言語の内容に翻訳する翻訳部と、翻訳部で翻訳された内容の音声を合成する音声合成部と、音声合成部で合成された音声を出力する音声出力部と、記憶部とを備える。そして、記憶部は、音声認識部で認識できなかった認識不可音声を、その認識不可音声の正しい認識内容とともに、音声データベースとして記憶する。また、音声認識部が、音声データベースを参照し、音声入力部に入力された他の発話者の音声を音声データベースに記憶された認識不可音声と照合し、その照合結果（例えば両者の一致度や類似度等）に基づいて、該音声の正しい認識内容を翻訳部に提供する音声照会処理を実行する。

なお、「認識不可音声の正しい認識内容」とは、換言すれば、その認識不可音声の正しい「読み」といえる。また、その取得方法としては、例えば、記憶部に記憶された認識不可音声の語彙の内容を、その発話者から聴取したり、他の人が実際に聞いて認識することにより、その正しい「読み」を判断したりといった例が挙げられる。後者の場合、例えば、何れの年齢や世代の人が聞いても認識することができない認識不可音声は、記憶部における記憶対象から除外しても構わない。さらに、「発話者」と「他の発話者」は、本発明を特定する便宜上、異なる用語として区別して用いているが、「発話者」と「他の発話者」が同一である場合も本発明の技術的範囲に含まれる。

また、音声認識部が照合処理を実行するタイミングは特に制限されず、例えば、他の発話者の音声を認識できなかったとき（音声認識を一旦実行した後）に、或いは、他の発話者の音声を認識前に、音声照会処理を実行してもよい。

また、本発明の一態様による音声翻訳システムは、発話者及び他の発話者の属性に関する情報を取得する情報取得部を更に備えてもよい。そして、記憶部は、認識不可音声、並びに、その正しい認識内容を、発話者の属性に関連付けて上記の音声データベースとして記憶してもよい。さらに、音声認識部は、他の発話者の属性を音声データベースに記憶された属性と照合し、その照合結果（例えば両者の一致度や類似度等）に基づいて、上記の音声照会処理を実行することができる。

具体的には、「属性」が、発話者の年齢若しくは年齢の範囲（世代ともいえる）又は性別である例が挙げられる。このとき、同じ「読み」の語彙であっても、例えば世代や性別によって抑揚や音調（音節音調、単語音調、句音調、文音調等）が異なる場合に対応した複数のデータレコードを音声データベースの一部として作成し、記憶部に記憶してもよい。また、「属性」に関する情報を取得する方法としては、ユーザ（利用者、発話者）が音声翻訳システムに係るサービスを使用する際、又は、音声翻訳プログラムであるアプリケーションを情報端末等のコンピュータにインストールして使用する際のユーザ情報の登録画面に記入してもらったり、音声翻訳システムを利用する際に属性に関する質問アンケートに回答してもらったりといった例が挙げられる。

或いは、本発明の一態様による音声翻訳システムは、発話者の音声を入力するための音声入力部と、音声入力部に入力された音声の内容を認識する音声認識部と、音声認識部で認識された内容を異なる言語の内容に翻訳する翻訳部と、翻訳部で翻訳された内容の音声を合成する音声合成部と、音声合成部で合成された音声を出力する音声出力部と、音声認識部で認識できなかった認識不可音声を記憶する記憶部と、音声認識部における入力された音声の認識に用いる第１の音響モデルに対して、認識不可音声を用いた適応処理を実施して第２の音響モデルを生成する音響モデル生成部を備える。なお、本態様による音声翻訳システムに、上述した音声データベース、及びそれを用いた音声照会処理を組み合わせてもよい。

この場合、音声翻訳システムが、発話者の属性に関する情報を取得する情報取得部を更に備え、音響モデル生成部は、発話者の属性、例えば、発話者の年齢若しくは年齢の範囲（世代）又は性別毎に第２の音響モデルを生成し、音声認識部が、他の発話者の属性に対応した第２の音響モデルを用いて、入力された音声の内容を認識するように構成してもよい。

また、本発明の一態様による音声入力部、音声認識部、翻訳部、音声出力部、及び記憶部を備える音声翻訳システムの制御方法は、以下の各ステップを有する。すなわち、当該方法は、音声入力部により、発話者の音声を入力するステップと、音声翻訳部により、音声入力部に入力された音声の内容を認識するステップと、翻訳部により、音声認識部で認識された内容を異なる言語の内容に翻訳するステップと、音声合成部により、翻訳部で翻訳された内容の音声を合成するステップと、音声出力部により、音声合成部で合成された音声を出力するステップと、記憶部により、音声認識部で認識できなかった（或いは、認識できない又は認識できないであろう；以下同様）音声（「認識不可音声」）を、それらの認識不可音声の正しい認識内容とともに、音声データベースとして記憶するステップとを有する。そして、音声の内容を認識するステップにおいては、音声データベースを参照し、音声入力部に入力された他の発話者の音声を音声データベースに記憶された認識不可音声と照合し、その照合結果に基づいて、音声の正しい認識内容を翻訳部に提供する音声照会処理を実行する。

また、本発明の一態様による音声翻訳プログラムは、コンピュータ（単数又は単一種に限られず、複数又は複数種でもよい；以下同様）を、発話者の音声を入力するための音声入力部、音声入力部に入力された音声の内容を認識する音声認識部、音声認識部で認識された内容を異なる言語の内容に翻訳する翻訳部、翻訳部で翻訳された内容の音声を合成する音声合成部と、音声合成部で合成された音声を出力する音声出力部、及び記憶部として機能させるものである。そして、当該プログラムは、記憶部に、音声認識部で認識できなかった認識不可音声を、認識不可音声の正しい認識内容とともに、音声データベースとして記憶させる。また、当該プログラムは、音声認識部に、音声データベースを参照し、音声入力部に入力された他の発話者の音声を音声データベースに記憶された認識不可音声と照合し、その照合結果に基づいて、その音声の正しい認識内容を翻訳部に提供する音声照会処理を実行させる。

本発明によれば、ユーザの発話した音声を、音声データベースに予め記憶された認識不可音声と照合することにより、通常の処理では認識できない音声の正しい認識内容を簡易に得ることができる。よって、音声認識自体の高精度化及び高速処理化に起因する装置コストの増大、各種処理の煩雑化や翻訳精度の低下、及び、ユーザの負担の増大や利便性の低下を招くことなく、音声認識の精度ひいては音声翻訳の精度を簡易に且つ効率的に向上させることが可能となる。

本発明による音声翻訳システムに係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。本発明による音声翻訳システムにおけるユーザ者装置（情報端末）の構成の一例を概略的に示すシステムブロック図である。本発明による音声翻訳システムにおけるサーバの構成の一例を概略的に示すシステムブロック図である。本発明による音声翻訳システムにおける音声データベース構築を含む処理の一例を示すフローチャートである。本発明による音声翻訳システムにおける音声照会を含む処理の一例を示すフローチャートである。本発明による音声翻訳システムにおける音声照会を含む処理の他の一例を示すフローチャートである。本発明による音声翻訳システムにおける音声データベース構築を含む処理の他の一例を示すフローチャートである。本発明による音声翻訳システムにおける音声照会を含む処理の他の一例を示すフローチャートである。本発明による音声翻訳システムにおける音声照会を含む処理の他の一例を示すフローチャートである。本発明による音声翻訳システムにおける音響モデル生成（改良）を含む処理の一例を示すフローチャートである。

以下、本発明の実施の形態について詳細に説明する。なお、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。またさらに、必要に応じて示す上下左右等の位置関係は、特に断らない限り、図示の表示に基づくものとする。さらにまた、図面における各種の寸法比率は、その図示の比率に限定されるものではない。

（システム構成）
図１は、本発明による音声翻訳システムに係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。音声翻訳システム１００は、ユーザ（発話者、他の発話者）が使用する情報端末１０（ユーザ装置）にネットワークＮを介して電子的に接続されるサーバ２０を備える。

情報端末１０は、例えば、タッチパネル等のユーザインターフェイス及び視認性が高いディスプレイを採用する。また、ここでの情報端末１０は、ネットワークＮとの通信機能を有するスマートフォンに代表される携帯電話を含む可搬型のタブレット型端末装置である。さらに、情報端末１０は、プロセッサ１１、記憶資源１２、音声入出力デバイス１３、通信インターフェイス１４、入力デバイス１５、表示デバイス１６、及びカメラ１７を備えている。また、情報端末１０は、インストールされた音声翻訳アプリケーションソフト（本発明の一実施形態による音声翻訳プログラムの少なくとも一部）が動作することにより、本発明の一実施形態による音声翻訳システムの一部又は全部として機能するものである。

プロセッサ１１は、算術論理演算ユニット及び各種レジスタ（プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等）から構成される。また、プロセッサ１１は、記憶資源１２に格納されているプログラムＰ１０である音声翻訳アプリケーションソフトを解釈及び実行し、各種処理を行う。このプログラムＰ１０としての音声翻訳アプリケーションソフトは、例えばサーバ２０からネットワークＮを通じて配信可能なものであり、手動的に又は自動的にインストール及びアップデートされてもよい。

なお、ネットワークＮは、例えば、有線ネットワーク（近距離通信網（ＬＡＮ）、広域通信網（ＷＡＮ）、又は付加価値通信網（ＶＡＮ）等）と無線ネットワーク（移動通信網、衛星通信網、ブルートゥース（Bluetooth：登録商標）、ＷｉＦｉ(Wireless Fidelity)、ＨＳＤＰＡ(High Speed Downlink Packet Access)等）が混在して構成される通信網である。

記憶資源１２は、物理デバイス（例えば、半導体メモリ等のコンピュータ読み取り可能な記録媒体）の記憶領域が提供する論理デバイスであり、情報端末１０の処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、各種データ等を格納する。ドライバプログラムとしては、例えば、音声入出力デバイス１３を制御するための入出力デバイスドライバプログラム、入力デバイス１５を制御するための入力デバイスドライバプログラム、表示デバイス１６を制御するための出力デバイスドライバプログラム等が挙げられる。さらに、音声入出力デバイス１３は、例えば、一般的なマイクロフォン、及びサウンドデータを再生可能なサウンドプレイヤである。

通信インターフェイス１４は、例えばサーバ２０との接続インターフェイスを提供するものであり、無線通信インターフェイス及び／又は有線通信インターフェイスから構成される。また、入力デバイス１５は、例えば、表示デバイス１６に表示されるアイコン、ボタン、仮想キーボード等のタップ動作による入力操作を受け付けるインターフェイスを提供するものであり、タッチパネルの他、情報端末１０に外付けされる各種入力装置を例示することができる。

表示デバイス１６は、画像表示インターフェイスとして各種の情報をユーザや、必要に応じて会話の相手方に提供するものであり、例えば、有機ＥＬディスプレイ、液晶ディスプレイ、ＣＲＴディスプレイ等が挙げられる。また、カメラ１７は、種々の被写体の静止画や動画を撮像するためのものである。

サーバ２０は、例えば、演算処理能力の高いホストコンピュータによって構成され、そのホストコンピュータにおいて所定のサーバ用プログラムが動作することにより、サーバ機能を発現するものであり、例えば、音声認識サーバ、翻訳サーバ、及び音声合成サーバとして機能する単数又は複数のホストコンピュータから構成される（図示においては単数で示すが、これに限定されない）。そして、各サーバ２０は、プロセッサ２１、通信インターフェイス２２、及び記憶資源２３（記憶部）を備える。

プロセッサ２１は、算術演算、論理演算、ビット演算等を処理する算術論理演算ユニット及び各種レジスタ（プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等）から構成され、記憶資源２３に格納されているプログラムＰ２０を解釈及び実行し、所定の演算処理結果を出力する。また、通信インターフェイス２２は、ネットワークＮを介して情報端末１０に接続するためのハードウェアモジュールであり、例えば、ＩＳＤＮモデム、ＡＤＳＬモデム、ケーブルモデム、光モデム、ソフトモデム等の変調復調装置である。

記憶資源２３は、例えば、物理デバイス（ディスクドライブ又は半導体メモリ等のコンピュータ読み取り可能な記録媒体等）の記憶領域が提供する論理デバイスであり、それぞれ単数又は複数の、プログラムＰ２０、各種モジュールＬ２０、各種データベースＤ２０、及び各種モデルＭ２０が格納されている。

プログラムＰ１０は、サーバ２０のメインプログラムである上述したサーバ用プログラム等である。また、各種モジュールＬ２０は、情報端末１０から送信されてくる要求及び情報に係る一連の情報処理を行うため、プログラムＰ１０の動作中に適宜呼び出されて実行されるソフトウェアモジュール（モジュール化されたサブプログラム）である。かかるモジュールＬ２０としては、音声認識モジュール、翻訳モジュール、音声合成モジュール等が挙げられる。

また、各種データベースＤ２０としては、音声翻訳処理のために必要な各種コーパス（例えば、日本語と英語の音声翻訳の場合、日本語音声コーパス、英語音声コーパス、日本語文字（語彙）コーパス、英語文字（語彙）コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等）、後述する音声データベース、ユーザに関する情報を管理するための管理用データベース等が挙げられる。また、各種モデルＭ２０としては、後述する音声認識に使用する音響モデルや言語モデル等が挙げられる。

以上のとおり構成された音声翻訳システム１００における、音声翻訳処理の操作及び動作の一例について、以下に更に説明する。

［第１実施形態］
（音声翻訳における音声データベース構築処理１）
図４は、音声翻訳システム１００における音声データベース構築を含む処理の一例を示すフローチャートである。かかる音声データベース構築は、音声翻訳システム１００による音声翻訳処理の一部を構成する。

ユーザ（発話者）は、まず、情報端末１０の表示デバイス１６に表示されている音声翻訳アプリケーションソフトのアイコン（図示せず）をタップして当該アプリケーションを起動する。これにより、表示デバイス１６には、音声翻訳の対象の言語を選択する画面が適宜表示され、ユーザの言語（ここでは「日本語」）と、例えば会話の相手の言語（ここでは「英語」））を選択することができる。その後、表示デバイス１６に、ユーザによる発話内容を受け付ける音声入力画面が表示されると、音声入出力デバイス１３からの音声入力が可能な状態となる。

この状態で、ユーザ（発話者）が例えば日本語で音声入力する（ステップＳＴ１）と、プロセッサ１１は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス１４及びネットワークＮを通してサーバ２０へ送信する。このとおり、情報端末１０自体、又はプロセッサ１１及び音声入出力デバイス１３が「音声入力部」として機能する。

サーバ２０のプロセッサ２１は、通信インターフェイス２２を通してその音声信号を受信し、音声認識処理を行う（ステップＳＪ１）。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０、データベースＤ２０、及びモデルＭ２０（音声認識モジュール、日本語音声コーパス、音響モデル、言語モデル等）を呼び出し、入力音声の「音」を「読み」（文字）へ変換する。このとおり、プロセッサ２１は、「音声認識部」として機能し、サーバ２０は、全体として「音声認識サーバ」として機能する。

ここで、音声の認識が「可」であった場合（ステップＳＪ１において「Ｙｅｓ」）、プロセッサ２１は、認識された音声の「読み」（文字）を他の言語に翻訳する多言語翻訳処理へ移行する（ステップＳＪ２）。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０及びデータベースＤ２０（翻訳モジュール、日本語文字コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等）を呼び出し、認識結果である入力音声の「読み」（文字列）を適切に並び替えて日本語の句、節、文等へ変換し、その変換結果に対応する英語を抽出し、それらを英文法に従って並び替えて自然な英語の句、節、文等へと変換する。このとおり、プロセッサ２１は、「翻訳部」としても機能し、サーバ２０は、全体として「翻訳サーバ」として機能する。

一方、音声の認識が「不可」であった場合（ステップＳＪ１において「Ｎｏ」）、プロセッサ２１は、音声データベース構築処理（ステップＳＪ５）へ移行する。ここでは、認識できなかった音声を、記憶資源２３に確保されたデータベースＤ２０の１つである音声データベースの領域に、「認識不可音声」として記憶し蓄積していく（ステップＳＪ５１）。それから、適宜のタイミングで、その「認識不可音声」の正しい認識内容を取得し、同じ音声データベースに記憶させる（ステップＳＪ５２）。具体的には、この場合の取得方法として、例えば、以下に列挙する（１）乃至（３）の手法が挙げられる。何れの場合においても、サーバ２０のプロセッサ２１は、「正しい認識内容」を「認識不可音声」に関連付けて記憶資源２３の音声データベースへ保存する。

（１）発話したユーザに、音声が認識不可であった旨を情報端末１０に表示する等してその場で伝え、その音声の正しい「読み」（文字）を情報端末１０から直ちに入力してもらう。情報端末１０のプロセッサ１１は、その正しい読み（つまり正しい認識内容）をその都度、サーバ２０へ送信する。

（２）「認識不可音声」が記憶資源２３にある程度蓄積されてから、属性（例えば年齢や性別）が種々異なる人々に、それらの音声を聞いてもらい、正しく認識された場合に、その正しい読み（つまり正しい認識内容）をその都度又は一括で、サーバ２０へ送信又は入力する。

（３）情報端末１０で実行する音声翻訳アプリケーションのメニューに、「認識不可音声」の認識への協力を依頼するアンケート形式のページやカラムを用意しておき、音声翻訳アプリケーションを実行した（不特定の）ユーザに、単数又は複数の「認識不可音声」を聞いてもらい、その正しい読み（つまり正しい認識内容）その都度、サーバ２０へ送信する。

次に、音声の内容の翻訳が完了すると、プロセッサ２１は、音声合成処理へ移行する（ステップＳＪ３）。このとき、プロセッサ２１は、記憶資源２３から、必要なモジュールＬ２０、データベースＤ２０、及びモデルＭ２０（音声合成モジュール、英語音声コーパス、音響モデル、言語モデル等）を呼び出し、翻訳結果である英語の句、節、文等を自然な音声に変換する。このとおり、プロセッサ２１は、「音声合成部」としても機能し、サーバ２０は、全体として「音声合成サーバ」として機能する。

次いで、プロセッサ２１は、合成された音声に基づいて音声出力用の音声信号を生成し、通信インターフェイス２２及びネットワークＮを通して、情報端末１０へ送信する。情報端末１０のプロセッサ１１は、通信インターフェイス１４を通してその音声信号を受信し、音声出力処理を行う（ステップＳＴ２）。

（音声翻訳における音声照会処理１−１）
図５は、音声翻訳システム１００における音声照会を含む処理の一例を示すフローチャートである。かかる音声照会は、音声翻訳システム１００による音声翻訳処理の一部を構成する。ここでの処理は、「ユーザ（発話者）」に代えて「ユーザ（他の発話者）」が音声入力を行い、ステップＳＪ５に代えてステップＳＪ６の処理を実行すること以外は、図４に示す処理と実質的に同一である。よって、以下、この相違点に関連する処理以外の処理については説明を省略する。また、図５に示す音声翻訳処理は、音声照会処理をユーザ（他の発話者）の音声を認識できなかったとき（音声認識を一旦実行した後）に実行する手順の一例である。

図４に示す処理と同様に音声の認識が「可」であった場合（ステップＳＪ１において「Ｙｅｓ」）には、プロセッサ２１は、多言語翻訳処理へ移行する（ステップＳＪ２）一方、音声の認識が「不可」であった場合（ステップＳＪ１において「Ｎｏ」）、プロセッサ２１は、音声照会処理（ステップＳＪ６）へ移行する。

ここで、プロセッサ２１は、記憶資源２３から音声データベースを呼び出して参照し、認識できなかった音声を、その音声データベースに記憶された「認識不可音声」と照合する（ステップＳＪ６１）。このとき、例えば、両者の音声マッチングにおける一致度又は類似度等が所定の値以上であると判断された場合、プロセッサ２１は、音声データベースに記憶されているその「認識不可音声」の「正しい認識内容」を、認識できなかった音声の「正しい認識内容」として多言語翻訳処理（ステップＳＪ２）側へ出力する（ステップＳＪ６２）。

（音声翻訳における音声照会処理１−２）
図６は、音声翻訳システム１００における音声照会を含む処理の他の一例を示すフローチャートである。かかる音声照会も、音声翻訳システム１００による音声翻訳処理の一部を構成する。ここでの処理は、「ユーザ（発話者）」に代えて「ユーザ（他の発話者）」が音声入力（ステップＳＴ１）を行い、且つ、ステップＳＪ５に代えてステップＳＪ７の処理を実行すること以外は、図４に示す処理と実質的に同一である。よって、以下、この相違点に関連する処理以外の処理については説明を省略する。また、図６に示す音声翻訳処理は、ユーザ（他の発話者）の音声を認識する前に、音声照会処理を実行する手順の一例である。

すなわち、ユーザ（他の発話者）が日本語で音声入力し（ステップＳＴ１）、その音声信号を受信したサーバ２０のプロセッサ２１は、音声照会処理（ステップＳＪ７）へ移行する。ここで、プロセッサ２１は、記憶資源２３から音声データベースを呼び出して参照し、入力された音声を、その音声データベースに記憶された「認識不可音声」と照合する（ステップＳＪ７１；ステップＳＪ６１に対応）。

そして、プロセッサ２１は、入力された音声が音声データベースに記憶された「認識不可音声」に該当するか否かを判定する（ステップＳＪ７２；実質的にはステップＳＪ７１の処理に含まれる）。例えば、両者の音声マッチングにおける一致度又は類似度等が所定の値以上であると判断された場合、プロセッサ２１は、音声の「該当有り」（ステップＳＪ７２で「Ｙｅｓ」）として、その該当した「認識不可音声」の「正しい認識内容」を、入力された音声の「正しい認識内容」として多言語翻訳処理（ステップＳＪ２）側へ出力する（ステップＳＪ７３）。

一方、両者の音声マッチングにおける一致度又は類似度等が所定の値未満であると判断された場合、プロセッサ２１は、音声の「該当無し」（ステップＳＪ７２で「Ｎｏ」）として、音声認識処理（ステップＳＪ１）へ移行する。すなわち、この場合、ユーザ（他の発話者）による音声は、「認識不可音声」ではないから、通常の音声認識処理によって認識されるか、或いは、その可能性が極めて高いこととなる。

なお、以上の如く、図６に示す音声翻訳処理の例では、ユーザ（他の発話者）の音声を認識する前に、音声照会処理を実行するので、図５に示す音声認識処理（ステップＳＪ１）における判定処理は不要となる。

［第２実施形態］
（音声翻訳における音声データベース構築処理２）
図７は、音声翻訳システム１００における音声データベース構築を含む処理の他の一例を示すフローチャートである。かかる音声データベース構築も、音声翻訳システム１００による音声翻訳処理の一部を構成する。ここでの処理は、ユーザ（発話者）による音声入力（ステップＳＴ１）に先立って、ユーザ（発話者）によるユーザ情報の入力（ステップＳＴ０）を実施し、且つ、「認識不可音声」の記憶・蓄積（ステップＳＪ５１）に先立って、「ユーザ情報」の記憶・蓄積を実施すること以外は、図４に示す処理と実質的に同一である。よって、以下、この相違点に関連する処理以外の処理については説明を省略する。

ここでは、ユーザ（発話者）が音声翻訳アプリケーションを起動すると、例えば、音声翻訳の対象言語を選択する画面が情報端末１０の表示デバイス１６に表示される前に、或いは、対象言語を選択した後に、ユーザに関する情報を入力してもらうための情報登録画面が、情報端末１０の表示デバイス１６に表示される。ユーザに関する情報としては特に制限されないが、ユーザの年齢、性別、出身地、居住地等の属性情報が含まれる。

この状態で、ユーザ（発話者）がユーザ情報を入力する（ステップＳＴ０）と、プロセッサ１１は、その情報入力に基づいて情報信号を生成し、その情報信号を通信インターフェイス１４及びネットワークＮを通してサーバ２０へ送信する。このとおり、情報端末１０自体又はプロセッサ１１が「情報取得部」としても機能する。

サーバ２０のプロセッサ２１は、通信インターフェイス２２を通してその情報信号を受信すると、音声データベース構築処理（ステップＳＪ５）へ移行する。ここでは、入力されたユーザ情報（属性を含む）を、記憶資源２３に確保されたデータベースＤ２０の１つである音声データベースの領域に記憶する（ステップＳＪ５０）。次いで、ユーザ（発話者）による音声入力（ステップＳＴ１）、及び、それに続く音声認識処理（ステップＳＪ１）で音声の認識が不可であった場合、プロセッサ２１は、その「認識不可音声」を、そのユーザの属性情報に関連付けて、音声データベースに記憶し蓄積していく（ステップＳＪ５１）。また、適宜のタイミングで、その「認識不可音声」の正しい認識内容を取得し、同じ音声データベースに記憶する（ステップＳＪ５２）。

（音声翻訳における音声照会処理２−１）
図８は、音声翻訳システム１００における音声照会を含む処理の他の一例を示すフローチャートである。かかる音声照会も、音声翻訳システム１００による音声翻訳処理の一部を構成する。ここでの処理は、「ユーザ（発話者）」に代えて「ユーザ（他の発話者）」が音声入力を行い、ステップＳＪ５に代えてステップＳＪ６の処理を実行すること以外は、図７に示す処理と実質的に同一である。よって、以下、この相違点に関連する処理以外の処理については説明を省略する。また、図８に示す音声翻訳処理は、図５に示す例と同様に、ユーザ（他の発話者）の音声を認識できなかったとき（音声認識を一旦実行した後）に実行する手順の一例である。

図７に示す処理と同様にユーザ（他の発話者）の情報が情報端末１０から入力されると、プロセッサ２１は、音声照会処理（ステップＳＪ６）へ移行する。ここで、プロセッサ２１は、記憶資源２３から音声データベースを呼び出して参照し、ユーザの属性（年齢、性別等）による絞り込みを行う。

具体的には、例えば、ユーザが７０代の男性である場合、プロセッサ２１は、音声データベースに記憶されている「７０代の男性」に関連付けられた「認識不可音声」を抽出（選別）し、或いは、必要に応じて、それらの抽出された音声データから副次的な新たな音声データベースを作成する。同様に、例えば、ユーザが１０歳未満の女性（女の子）である場合、プロセッサ２１は、音声データベースに記憶されている「１０歳未満の女性」に関連付けられた「認識不可音声」を抽出（選別）し、或いは、必要に応じて、それらの抽出された音声データから副次的な新たな音声データベースを作成する。

それから、図７に示す処理と同様に、音声入力（ステップＳＴ１）に引き続き音声の認識が「可」であった場合（ステップＳＪ１において「Ｙｅｓ」）には、プロセッサ２１は、多言語翻訳処理へ移行する（ステップＳＪ２）。一方、音声の認識が「不可」であった場合（ステップＳＪ１において「Ｎｏ」）、プロセッサ２１は、再び音声照会処理（ステップＳＪ６）へ移行する。ここで、プロセッサ２１は、記憶資源２３から音声データベースを呼び出して参照し、認識できなかった音声を、ユーザの属性に基づいて抽出された「認識不可音声」」（又は、それらから作成された新たな音声データベースにおける「認識不可音声」）と照合する（ステップＳＪ６１）。

（音声翻訳における音声照会処理２−２）
図９は、音声翻訳システム１００における音声照会を含む処理の他の一例を示すフローチャートである。かかる音声照会も、音声翻訳システム１００による音声翻訳処理の一部を構成する。ここでの処理は、「ユーザ（発話者）」に代えて「ユーザ（他の発話者）」が情報入力（ステップＳＴ０）及び音声入力（ステップＳＴ１）を行い、且つ、ステップＳＪ５に代えてステップＳＪ７の処理を実行すること以外は、図７に示す処理と実質的に同一である。よって、以下、この相違点に関連する処理以外の処理については説明を省略する。また、図９に示す音声翻訳処理は、ユーザ（他の発話者）の音声を認識する前に、音声照会処理を実行する手順の一例である。

すなわち、ユーザ（他の発話者）がユーザ情報を入力し（ステップＳＴ０）、その情報信号を受信したサーバ２０のプロセッサ２１は、音声照会処理（ステップＳＪ７）へ移行する。ここで、プロセッサ２１は、記憶資源２３から音声データベースを呼び出して参照し、ユーザの属性（年齢、性別等）による絞り込みを行う（ステップＳＪ７０；ステップＳＪ６０と同じ）。次いで、ユーザ（他の発話者）が日本語で音声入力し（ステップＳＴ１）、その音声信号を受信したプロセッサ２１は、記憶資源２３から音声データベースを呼び出して参照し、入力された音声を、ユーザの属性に基づいて抽出された「認識不可音声」（又は、それらから作成された新たな音声データベース「認識不可音声」）と照合する（ステップＳＪ７１；ステップＳＪ６１に対応）。

そして、プロセッサ２１は、入力された音声が属性に関連付けられた「認識不可音声」に該当するか否かを判定する（ステップＳＪ７２；実質的にはステップＳＪ７１の処理に含まれる）。例えば、両者の音声マッチングにおける一致度又は類似度等が所定の値以上であると判断された場合、プロセッサ２１は、音声の「該当有り」（ステップＳＪ７２で「Ｙｅｓ」）として、その該当した「認識不可音声」の「正しい認識内容」を、入力された音声の「正しい認識内容」として多言語翻訳処理（ステップＳＪ２）側へ出力する（ステップＳＪ７３）。

なお、以上の如く、図９に示す音声翻訳処理の例では、図６に示す例と同様に、ユーザ（他の発話者）の音声を認識する前に、音声照会処理を実行するので、図８に示すような音声認識処理（ステップＳＪ１）における判定処理は不要となる。

［第３実施形態］
（音声翻訳における音響モデル生成処理）
図１０は、音声翻訳システム１００における音響モデル生成（改良）を含む処理の一例を示すフローチャートである。かかる音響モデル生成も、音声翻訳システム１００による音声翻訳処理の一部を構成する。

ここでは、まず、図４（第１実施形態）に示す音声データベース構築までの処理（ステップＳＴ１，ＳＴ２，ＳＪ５）、又は、図７（第２実施形態）に示す音声データベース構築までの処理（ステップＳＴ０，ＳＴ１，ＳＴ２，ＳＪ５）を実行する。

次に、サーバ２０のプロセッサ２１は、処理をステップＳＪ８へ移行し、記憶資源２３から、モデルＭ２０として音声認識に使用する従来の音響モデル（第１の音響モデル）を呼び出す（ステップＳＪ８１）。それから、その従来の音響モデルに対して、音声データベースに記憶された「認識不可音声」を用いた公知の適応処理（例えば特許文献１において引用されている適応処理）を実施する（ステップＳＪ８２）ことにより、新たな音響モデル（第２の音響モデル）を生成し（ステップＳＪ８３）、記憶資源２３に記憶する。

なお、このステップＳＪ８３においては、図４（第１実施形態）に示す処理で構築した音声データベースを用いる場合、従来の音響モデル１つから、新たな音響モデルを１つ生成することができる。また、図７（第２実施形態）に示す処理で構築した音声データベースを用いる場合、従来の音響モデル１つから、例えばユーザの属性毎（年齢、世代、性別等）に複数の新たな音響モデルを生成することができる。このとき、新たな音響モデルは、ユーザの属性に関連付けて、記憶資源２３に記憶される。以下、後者の如く、新たな音響モデルが属性毎に生成された場合を例に説明する。

次いで、図８（第２実施形態）におけるのと同様にユーザ（他の発話者）の情報が情報端末１０から入力されると、プロセッサ２１は、音響モデル選択処理（ステップＳＪ９）へ移行する。ここで、プロセッサ２１は、記憶資源２３に記憶された複数の新たな音響モデルのなかから、ユーザの属性（年齢、性別等）に応じた新たな音響モデルを指定し、それを音声認識に用いる準備を行う。

そして、第３実施形態におけるステップＳＪ９以降の処理（ステップＳＪ１，ＳＪ２，ＳＪ３）については、従来の音響モデルに代えて、新たに作成され且つ属性に応じて選択された音響モデルを用いること以外は、図６（第１実施形態）及び図９（第２実施形態）における一連の処理と実質的に同一であるため、ここでの説明を省略する。

このように構成された音声翻訳システム１００及びその制御方法並びに音声翻訳プログラムによれば、ユーザ（発話者）が発話した音声のうち、当初は認識できなかった音声（認識不可音声）を予め収集し、また、それらの正しい認識内容を適宜取得することにより、両者のデータを含む音声データベースが構築され、記憶資源２３に記憶される。

そして、ユーザ（他の発話者）が発話した音声を、一旦音声認識後、或いは、音声認識に先立って、その音声データベースに記憶された認識不可音声と照合することにより、通常の処理では認識できない音声の正しい認識内容を簡易に得ることができる。したがって、音声認識自体の高精度化及び高速処理化に起因する装置コストの増大、各種処理の煩雑化や翻訳精度の低下、及び、ユーザの負担の増大や利便性の低下を招くことなく、音声認識の精度ひいては音声翻訳の精度を簡易に且つ効率的に向上させることが可能となる。

また、前述のとおり、ユーザが高齢者や子供である場合に、その発話した音声の認識率が低い傾向にあるところ、音声翻訳システム１００では、認識不可音声とそれらの正しい認識内容を、ユーザの属性（年齢、世代、性別等）に関連付けて音声データベースとして記憶資源２３に記憶することができる。よって、ユーザの属性に応じて、対応する認識不可音声を絞り込むことにより、かかるユーザが発話した音声の音声認識率ひいては音声翻訳率を更に高めることができる。

さらに、音声翻訳システム１００によれば、記憶資源２３に記憶された認識不可音声を用い、従来の音響モデルに対する適応処理を実施して新たな音響モデルを生成し、そのようにしていわば改良された新たな音響モデルを用いて音声認識を行うことができる。このようにしても、音声認識自体の高精度化及び高速処理化に起因する装置コストの増大、各種処理の煩雑化や翻訳精度の低下、及び、ユーザの負担の増大や利便性の低下を招くことなく、音声認識の精度ひいては音声翻訳の精度を簡易に且つ効率的に向上させることが可能となる。

またこの場合、ユーザ（発話者）の属性、例えば、年齢若しくは年齢の範囲（世代）又は性別毎に新たな音響モデルを生成し、かかるユーザの属性に対応した新たな音響モデルを用いて、音声認識を行うこともできる。このようにしてユーザの属性に応じた音響モデルを用いた音声認識が可能となるので、ユーザが発話した音声の音声認識率ひいては音声翻訳率を更に一層高めることができる。

なお、上述したとおり、上記の各実施形態は、本発明を説明するための一例であり、本発明をその実施形態に限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。例えば、当業者であれば、実施形態で述べたリソース（ハードウェア資源又はソフトウェア資源）を均等物に置換することが可能であり、そのような置換も本発明の範囲に含まれる。

また、上記各実施形態では、音声認識、翻訳、及び音声合成の各処理をサーバ２０によって実行する例について記載したが、これらの処理を情報端末１０において実行するように構成してもよい。この場合、それらの処理に用いるモジュールＬ２０は、情報端末１０の記憶資源１２に保存されていてもよいし、サーバ２０の記憶資源２３に保存されていてもよい。さらに、音声データベースのデータベースＤ２０、及び／又は、音響モデル等のモデルＭ２０も、情報端末１０の記憶資源１２に保存されていてもよいし、サーバ２０の記憶資源２３に保存されていてもよい。このとおり、音声翻訳システムは、ネットワークＮ及びサーバ２０を備えなくてもよい。

さらに、図５若しくは図６に示す処理（第１実施形態）又は図８若しくは図９に示す処理（第２実施形態）を、図１０に示す処理（第３実施形態）と組み合わせてもよい。すなわち、第３実施形態として説明した新たな音響モデルの生成及び使用とともに、その前に、又は、その後に、第１又は第２実施形態における音声照会処理を実行するようにしてもよい。またさらに、音声認識が可能であったものの、多言語翻訳において適切な翻訳ができなかった内容の元の音声も一種の「認識不可音声」として、或いは「翻訳不可音声」として音声データベースに記憶・蓄積してもよい。さらにまた、第３実施形態においては、ユーザの属性毎に新たな音響モデルを生成せずに、ユーザの属性に依存しない新たな音響モデルを生成するようにしてもよい。

また、情報端末１０とネットワークＮとの間には、両者間の通信プロトコルを変換するゲートウェイサーバ等が介在してももちろんよい。また、情報端末１０は、携帯型装置に限らず、例えば、デスクトップ型パソコン、ノート型パソコン、タブレット型パソコン、ラップトップ型パソコン等でもよい。

本発明によれば、通常の処理では認識できない音声の正しい認識内容を簡易に得ることができるので、例えば、互いの言語を理解できない人同士の会話に関連するサービスを提供する分野における、プログラム、システム、及び方法の設計、製造、提供、販売等の活動に広く利用することができる。

１０情報端末（音声翻訳システム）
１１プロセッサ
１２記憶資源
１３音声入出力デバイス
１４通信インターフェイス
１５入力デバイス
１６表示デバイス
１７カメラ
２０サーバ（音声翻訳システム）
２１プロセッサ
２２通信インターフェイス
２３記憶資源
１００音声翻訳システム
Ｄ２０データベース
Ｌ２０モジュール
Ｍ２０モデル
Ｎネットワーク
Ｐ１０，Ｐ２０プログラム

Claims

発話者の音声を入力するための音声入力部と、
前記音声入力部に入力された音声の内容を認識する音声認識部と、
前記音声認識部で認識された内容を異なる言語の内容に翻訳する翻訳部と、
前記翻訳部で翻訳された内容の音声を合成する音声合成部と、
前記音声合成部で合成された音声を出力する音声出力部と、
前記音声認識部で認識できなかった認識不可音声を記憶する記憶部と、
を備え、
前記音声認識部は、下記（１）又は（２）；
（１）前記記憶部に記憶された前記認識不可音声を、前記発話者とは異なるユーザに聞かせ、該認識不可音声の正しい認識内容を該ユーザから受け取る、
（２）前記記憶部に記憶された前記認識不可音声の正しい認識内容を入力することを、前記発話者とは異なるユーザに依頼し、該認識不可音声の正しい認識内容を該ユーザから受け取る、
の処理を実行し、
前記記憶部は、前記認識不可音声と、該認識不可音声の正しい認識内容を、音声データベースとして記憶し、
前記音声認識部は、前記音声データベースを参照し、前記音声入力部に入力された他の発話者の音声を前記音声データベースに記憶された前記認識不可音声と照合し、該照合結果に基づいて、該音声の正しい認識内容を翻訳部に提供する音声照会処理を実行する、
音声翻訳システム。
前記音声認識部は、前記他の発話者の音声を認識できなかったときに、又は、前記他の発話者の音声を認識する前に、前記音声照会処理を実行する、
請求項１記載の音声翻訳システム。
前記発話者及び前記他の発話者の属性に関する情報を取得する情報取得部を更に備え、
前記記憶部は、前記認識不可音声、及び、前記正しい認識内容を、前記発話者の属性に関連付けて前記音声データベースとして記憶し、
前記音声認識部は、前記他の発話者の属性を前記音声データベースに記憶された前記属性と照合し、該照合結果に基づいて、前記音声照会処理を実行する、
請求項１又は２記載の音声翻訳システム。
前記属性は、前記発話者の年齢若しくは年齢の範囲又は性別である、
請求項３記載の音声翻訳システム。
前記音声認識部における前記入力された音声の認識に用いる第１の音響モデルに対して、前記認識不可音声及び該認識不可音声の正しい認識内容を用いた適応処理を実施して第２の音響モデルを生成する音響モデル生成部を更に備える、
請求項１乃至４の何れか記載の音声翻訳システム。
前記発話者の属性に関する情報を取得する情報取得部を更に備え、
前記音響モデル生成部は、前記発話者の属性毎に前記第２の音響モデルを生成し、
前記音声認識部は、前記他の発話者の属性に対応した前記第２の音響モデルを用いて前記入力された音声の内容を認識する、
請求項５記載の音声翻訳システム。
音声入力部、音声認識部、翻訳部、音声合成部、音声出力部、及び記憶部を備える音声翻訳システムの制御方法であって、
前記音声入力部により、発話者の音声を入力するステップと、
前記音声翻訳部により、前記音声入力部に入力された音声の内容を認識するステップと、
前記翻訳部により、前記音声認識部で認識された内容を異なる言語の内容に翻訳するステップと、
前記音声合成部により、前記翻訳部で翻訳された内容の音声を合成するステップと、
前記音声出力部により、前記音声合成部で合成された音声を出力するステップと、
前記記憶部により、前記音声認識部で認識できなかった認識不可音声を記憶するステップと、
を有し、
前記音声の内容を認識するステップにおいては、下記（１）又は（２）；
（１）前記記憶部に記憶された前記認識不可音声を、前記発話者とは異なるユーザに聞かせ、該認識不可音声の正しい認識内容を該ユーザから受け取る、
（２）前記記憶部に記憶された前記認識不可音声の正しい認識内容を入力することを、前記発話者とは異なるユーザに依頼し、該認識不可音声の正しい認識内容を該ユーザから受け取る、
の処理を実行し、
前記記憶するステップにおいては、前記認識不可音声と、該認識不可音声の正しい認識内容を、音声データベースとして記憶し、
前記音声の内容を認識するステップにおいては、さらに、前記音声データベースを参照し、前記音声入力部に入力された他の発話者の音声を前記音声データベースに記憶された前記認識不可音声と照合し、該照合結果に基づいて、該音声の正しい認識内容を前記翻訳部に提供する音声照会処理を実行する、
音声翻訳システムの制御方法。
コンピュータを、
発話者の音声を入力するための音声入力部、
前記音声入力部に入力された音声の内容を認識する音声認識部、
前記音声認識部で認識された内容を異なる言語の内容に翻訳する翻訳部、
前記翻訳部で翻訳された内容の音声を合成する音声合成部、
前記音声合成部で合成された音声を出力する音声出力部、
前記音声認識部で認識できなかった認識不可音声を記憶する記憶部、
として機能させ、
前記音声認識部に、下記（１）又は（２）；
（１）前記記憶部に記憶された前記認識不可音声を、前記発話者とは異なるユーザに聞かせ、該認識不可音声の正しい認識内容を該ユーザから受け取る、
（２）前記記憶部に記憶された前記認識不可音声の正しい認識内容を入力することを、前記発話者とは異なるユーザに依頼し、該認識不可音声の正しい認識内容を該ユーザから受け取る、
の処理を実行させ、
前記記憶部に、前記認識不可音声と、該認識不可音声の正しい認識内容を、音声データベースとして記憶させ、
前記音声認識部に、前記音声データベースを参照し、前記音声入力部に入力された他の発話者の音声を前記音声データベースに記憶された前記認識不可音声と照合し、該照合結果に基づいて、該音声の正しい認識内容を翻訳部に提供する音声照会処理を実行させる、
音声翻訳プログラム。