JP5704686B2

JP5704686B2 - 音声翻訳システム、音声翻訳装置、音声翻訳方法、およびプログラム

Info

Publication number: JP5704686B2
Application number: JP2010217559A
Authority: JP
Inventors: 英男大熊; 将夫内山; 隅田　英一郎; 英一郎隅田
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2010-09-28
Filing date: 2010-09-28
Publication date: 2015-04-22
Anticipated expiration: 2030-09-28
Also published as: JP2012073369A

Description

本発明は、入力された音声を翻訳し、音声合成出力する音声翻訳システム等に関するものである。

従来、予め対訳の例文を用意し、特定の例文の訳文を対話相手に表示することによって発話を翻訳する対話翻訳技術があった（特許文献１参照）。この技術は、利用者からの問いに対する回答文の選択肢を対話相手に提示し、対話相手が選択した回答の訳文を利用者に表示することにより対話相手の回答を利用者に通訳する対話翻訳技術である。

また、入力された音声の音声認識結果の文からキーワードを取得し、キーワードを用いて例文を検索し、当該例文を用いて自動通訳を行う自動通訳システムがあった（非特許文献１参照）。

特許第３９５２７０９号公報（第１頁、第１図等）

池田崇博、他４名「自由文通訳と例文選択型通訳を統合した自動通訳システム」ＦＩＴ（情報科学技術フォーラム）２００２年

しかしながら、従来の音声翻訳システムにおいては、音声認識結果に誤りがある場合、翻訳精度は著しく劣化していた。

さらに具体的には、音声認識結果の文には、音が近いが意味が遠い単語が含まれていることも多いにも関わらず、従来の技術において、音声認識結果に含まれる単語をキーとして例文を検索することにより、正解からは遠い単語を含むテキストが機械翻訳の入力となることにより、翻訳精度は著しく劣化していた。

本第一の発明の音声翻訳システムは、端末装置とサーバ装置とを具備する音声翻訳システムであって、端末装置は、音声を受け付ける音声受付部と、音声受付部が受け付けた音声、または音声受付部が受け付けた音声に関する１以上の特徴量である音声関連情報を取得する音声関連情報取得部と、音声関連情報をサーバ装置に送信する音声関連情報送信部と、サーバ装置から音声合成結果を受信する音声合成結果受信部と、音声合成結果を用いて音声出力する合成音声出力部とを具備し、サーバ装置は、音素列と文字列とを有する２以上の固有表現情報を格納し得る固有表現情報格納部と、音声関連情報を受信する音声関連情報受信部と、音声関連情報を用いて、音声認識し、音素列を取得する音声認識部と、音声認識部が取得した音素列に類似する音素列を、固有表現情報格納部から取得する類似音素列取得部と、類似音素列取得部が取得した音素列に対応する文字列である類似文字列を、固有表現情報格納部から取得する類似文字列取得部と、類似文字列取得部が取得した類似文字列を翻訳し、翻訳結果を取得する機械翻訳部と、機械翻訳部が取得した翻訳結果を音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムである。

かかる構成により、音声認識結果に誤りがある場合でも、良好な翻訳結果を得ることができる。

また、本第二の発明の音声翻訳システムは、第一の発明に対して、音声認識部は、音声関連情報を用いて、音声認識し、１以上の音素列および音声認識結果である１以上の文字列である１以上の音声認識文字列を取得し、類似音素列取得部は、音声認識部が取得した音素列に類似する１以上の音素列を、固有表現情報格納部から取得し、類似文字列取得部は、類似音素列取得部が取得した１以上の音素列に対応する１以上の類似文字列を取得し、音声認識部が取得した１以上の音声認識文字列および類似文字列取得部が取得した１以上の類似文字列である２以上の候補文字列を、端末装置に送信する候補文字列送信部と、２以上の候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報を、端末装置から受信する候補文字列特定情報受信部とをさらに具備し、機械翻訳部は、候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得し、端末装置は、サーバ装置から、２以上の候補文字列を受信する候補文字列受信部と、候補文字列受信部が受信した２以上の候補文字列を出力する候補文字列出力部と、候補文字列出力部が出力した２以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部と、指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報を、サーバ装置に送信する候補文字列特定情報送信部とをさらに具備する音声翻訳システムである。

かかる構成により、音声認識結果に誤りがある場合でも、さらに良好な翻訳結果を得ることができる。

また、本第三の発明の音声翻訳システムは、第一の発明に対して、類似音素列取得部は、音声認識部が取得した音素列に類似する２以上の音素列を、固有表現情報格納部から取得し、類似文字列取得部は、類似音素列取得部が取得した２以上の音素列に対応する２以上の文字列である２以上の類似文字列を取得し、類似文字列取得部が取得した２以上の類似文字列である２以上の候補文字列を、端末装置に送信する候補文字列送信部と、２以上の候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報を、端末装置から受信する候補文字列特定情報受信部とをさらに具備し、機械翻訳部は、候補文字列特定情報に対応する類似文字列を翻訳し、翻訳結果を取得し、端末装置は、サーバ装置から、２以上の候補文字列を受信する候補文字列受信部と、候補文字列受信部が受信した２以上の候補文字列を出力する候補文字列出力部と、候補文字列出力部が出力した２以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部と、指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報を、サーバ装置に送信する候補文字列特定情報送信部とをさらに具備する音声翻訳システムである。

また、本第四の発明の音声翻訳システムは、第二または第三の発明に対して、サーバ装置は、音声認識部が取得した文字列と類似文字列取得部が取得した１以上の各類似文字列とを比較し、音声認識部が取得した文字列と一致する文字列が、類似文字列取得部が取得した１以上の類似文字列の中に存在するか否かを判断する制御部をさらに具備し、候補文字列送信部は、候補文字列を送信しない音声翻訳システムである。

かかる構成により、音声認識結果が正しい場合、高速な処理が可能となる。

また、本第五の発明の音声翻訳装置は、音素列と文字列とを有する２以上の固有表現情報を格納し得る固有表現情報格納部と、音声を受け付ける音声受付部と、音声受付部が受け付けた音声を音声認識し、音素列を取得する音声認識部と、音声認識部が取得した音素列に類似する音素列を、固有表現情報格納部から取得する類似音素列取得部と、類似音素列取得部が取得した音素列に対応する文字列である類似文字列を取得する類似文字列取得部と、類似文字列取得部が取得した類似文字列を翻訳し、翻訳結果を取得する機械翻訳部と、機械翻訳部が取得した翻訳結果を音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を用いて音声出力する合成音声出力部とを具備する音声翻訳装置である。

また、本第六の発明の音声翻訳装置は、第五の発明に対して、音声認識部は、音声関連情報を用いて、音声認識し、１以上の音素列および音声認識結果である１以上の文字列である１以上の音声認識文字列を取得し、類似音素列取得部は、音声認識部が取得した音素列に類似する１以上の音素列を、固有表現情報格納部から取得し、類似文字列取得部は、類似音素列取得部が取得した１以上の音素列に対応する１以上の文字列である１以上の類似文字列を取得し、音声認識部が取得した１以上の音声認識文字列および類似文字列取得部が取得した１以上の類似文字列である２以上の候補文字列を出力する候補文字列出力部と、候補文字列出力部が出力した２以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部とをさらに具備し、機械翻訳部は、指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得する音声翻訳装置である。

また、本第七の発明の音声翻訳装置は、第五の発明に対して、類似音素列取得部は、音声認識部が取得した音素列に類似する２以上の音素列を、固有表現情報格納部から取得し、類似文字列取得部は、類似音素列取得部が取得した２以上の音素列に対応する２以上の類似文字列を取得し、類似文字列取得部が取得した２以上の類似文字列である２以上の候補文字列を出力する候補文字列出力部と、候補文字列出力部が出力した２以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部とをさらに具備し、機械翻訳部は、指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得する音声翻訳装置である。

また、本第八の発明の音声翻訳装置は、第六または第七の発明に対して、音声認識部が取得した文字列と類似文字列取得部が取得した１以上の各類似文字列とを比較し、音声認識部が取得した文字列と一致する文字列が、類似文字列取得部が取得した１以上の類似文字列の中に存在するか否かを判断する制御部をさらに具備し、候補文字列出力部は、候補文字列を出力しない音声翻訳装置である。

本発明による音声翻訳システムによれば、音声認識結果に誤りがある場合でも、良好な翻訳結果を得ることができる。

実施の形態１における音声翻訳システム１の概念図同音声翻訳システム１の内部構造を示すブロック図同端末装置１１の動作について説明するフローチャート同サーバ装置１２の動作について説明するフローチャート同類似音素列取得処理について説明するフローチャート同固有表現管理表を示す図同候補文字列の出力例を示す図実施の形態２における音声翻訳装置２のブロック図同音声翻訳装置２の動作について説明するフローチャート上記実施の形態におけるコンピュータシステムの概観図同コンピュータシステムのブロック図

以下、音声翻訳システム等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
（実施の形態１）

本実施の形態において、入力された音声に対する音声認識処理により音素列を取得し、当該音素列を用いて、類似文をコーパスから検索し、類似文を翻訳し、音声合成出力する音声翻訳システムについて説明する。また、本実施の形態において、１以上の音声認識処理結果と、１以上の検索類似文を出力し、ユーザからの指示を受け付け、指示された文を翻訳し、音声合成出力する音声翻訳システムについて説明する。さらに、本実施の形態において、２以上の検索類似文を出力し、ユーザからの指示を受け付け、指示された文を翻訳し、音声合成出力する音声翻訳システムについて説明する。

図１は、本実施の形態における音声翻訳システム１の概念図である。音声翻訳システム１は、１以上の端末装置１１、およびサーバ装置１２を具備し、ネットワーク１３により相互に通信可能である。端末装置１１は、いわゆるパーソナルコンピュータ、携帯端末、携帯電話、いわゆるスマートフォーンなどであるが、音声の入力や出力が行えれば良く、その態様は問わない。なお、ネットワーク１３は、インターネット、電話回線、専用回線等、問わない。

図２は、本実施の形態における音声翻訳システム１の内部構造を示すブロック図である。
端末装置１１は、音声受付部１１１、音声関連情報取得部１１２、音声関連情報送信部１１３、候補文字列受信部１１４、候補文字列出力部１１５、指示受付部１１６、候補文字列特定情報送信部１１７、音声合成結果受信部１１８、および合成音声出力部１１９を具備する。

サーバ装置１２は、固有表現情報格納部１２０、音声関連情報受信部１２１、音声認識部１２２、類似音素列取得部１２３、類似文字列取得部１２４、候補文字列送信部１２５、候補文字列特定情報受信部１２６、機械翻訳部１２７、音声合成部１２８、音声合成結果送信部１２９、および制御部１３０を具備する。

音声受付部１１１は、通常、ユーザから音声を受け付ける。ただし、受け付けとは、有線もしくは無線の通信回線を介して送信された音声の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された音声の受け付けなどを含む概念である。

音声関連情報取得部１１２は、音声受付部１１１が受け付けた音声に関する１以上の特徴量である音声関連情報を取得するか、音声受付部１１１が受け付けた音声を取得する。つまり、音声関連情報取得部１１２は、音声から１以上の特徴量を抽出する機能を有しても有さなくても良い。また、音声関連情報とは、音声または１以上の特徴量であり、音声から１以上の特徴量を取得する技術は公知技術である。ここで、特徴量は、音声の特徴量である。１以上の特徴量は、例えば、三角型フィルタを用いたチャネル数２４のフィルタバンク出力を離散コサイン変換したＭＦＣＣであり、その静的パラメータ、デルタパラメータおよびデルタデルタパラメータをそれぞれ１２次元、さらに正規化されたパワーとデルタパワーおよびデルタデルタパワー（３９次元）を有する。ただし、１以上の特徴量の内容は問わない。

音声関連情報送信部１１３は、音声関連情報取得部１１２が取得した音声関連情報をサーバ装置１２に送信する。

候補文字列受信部１１４は、音声関連情報の送信に対応して、サーバ装置１２から２以上の候補文字列を受信する。

候補文字列出力部１１５は、候補文字列受信部１１４が受信した２以上の候補文字列を出力する。ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。

指示受付部１１６は、候補文字列出力部１１５が出力した２以上の候補文字列の中から、一の候補文字列の指示を受け付ける。指示の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。

候補文字列特定情報送信部１１７は、指示受付部１１６が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報を、サーバ装置１２に送信する。候補文字列特定情報とは、候補文字列を特定する情報であれば何でも良く、例えば、候補文字列のＩＤ、候補文字列自体などである。

音声合成結果受信部１１８は、サーバ装置１２から音声合成結果を受信する。ここで、音声合成結果とは、音声のデータでも良いし、音声合成の元になるデータや音声出力する直前のデータなどでも良い。

合成音声出力部１１９は、音声合成結果受信部１１８が受信した音声合成結果を用いて音声出力する。音声合成結果を用いた音声出力とは、音声合成結果が音声である場合、単に音声出力することである。また、音声合成結果が音声合成の元になるデータの場合、音声合成結果を用いた音声出力とは、当該データから音声合成し、音声出力することである。

サーバ装置１２の固有表現情報格納部１２０は、音素列と文字列とを有する２以上の固有表現情報を格納し得る。ここで、音素列とは、文字列に対応する音素列である。つまり、音素列とは、文字列を発音した際の音素の並びである。そして、文字列とは、原言語の文や句や単語を構成する文字列である。

音声関連情報受信部１２１は、音声関連情報を、端末装置１１から受信する。

音声認識部１２２は、音声関連情報受信部１２１が受信した音声関連情報を用いて、音声認識し、音素列を取得する。なお、音声認識部１２２は公知技術であるので、詳細な説明を省略する。また、この音声認識部１２２は、音声関連情報受信部１２１が受信した音声関連情報を用いて、音声認識し、１以上の音素列および音声認識結果である１以上の文字列である１以上の音声認識文字列を取得しても良い。また、音声認識部１２２は、１以上の特徴量から音声認識処理しても良いし、音声関連情報である音声から１以上の特徴量を抽出し、当該１以上の特徴量から音声認識しても良い。また、音素列とは、通常、２以上の音素の集合である。

類似音素列取得部１２３は、音声認識部１２２が取得した音素列に類似する音素列を、固有表現情報格納部１２０から取得する。この類似音素列取得部１２３は、音声認識部１２２が取得した音素列と、固有表現情報格納部１２０に格納されている２以上の各固有表現情報が有する２以上の音素列との類似度（スコア）を算出し、当該類似度が所定の条件を満たすほど類似している１以上の音素列を固有表現情報格納部１２０から取得する。所定の条件を満たすほど類似している音素列とは、例えば、類似度が最大の音素列であったり、類似度が閾値以上または閾値より大の音素列であったり、類似度をキーとして降順に音素列をソートした場合の上位ｎ（ｎは１以上の整数）の音素列等である。

なお、２つの音素列の類似度を算出するアルゴリズムは、例えば、ＢＬＥＵやＷｏｒｄＥｒｒｏｒＲａｔｅ（ＷＥＲ）などである。また、２つの音素列の類似度を算出するアルゴリズムは、例えば、「類似度＝一致する音素数／長い方の全音素数」などでも良い。つまり、類似の判断のアルゴリズムは問わない。なお、ＢＬＥＵやＷＥＲは、代表的な機械翻訳結果の評価尺度である。また、ＢＬＥＵやＷＥＲは、通常、機械翻訳結果である自然言語文や単語を対象として、スコアを算出する尺度であるが、音声翻訳システム１では、音素列を対象として用いられる。

ＢＬＥＵを用いた場合、以下の数式１により類似度を算出する。

数式１において、ｐ_ｎは音声認識部１２２が取得した音素列内のnグラムが固有表現情報格納部１２０内の音素列のnグラムと一致する割合である。また、rは音声認識部１２２が取得した音素列の長さ、cは固有表現情報格納部１２０内の固有表現情報が有する音素列の長さである。なお、後述する実験では、Ｎは４であり、ｗ_ｎは１／Ｎである、とした。

また、ＷＥＲを用いた場合、以下の数式２により類似度を算出する。

数式２において、Ｉは挿入語数、Ｄは削除語数、Ｓは置換語数、Ｎは参照訳の語数である。ここで、語とは、音素に読み替える。つまり、数式２において、挿入語数とは、挿入されている音素の数である。また、削除語数とは、削除されている音素の数である。また、置換語数とは、置換されている音素の数である。さらに、参照訳の語数とは、参照訳の音素の数である。

また、類似音素列取得部１２３は、音声認識部１２２が取得した音素列に類似する１以上の音素列を、固有表現情報格納部１２０から取得しても良いし、音声認識部１２２が取得した音素列に類似する２以上の音素列を、固有表現情報格納部１２０から取得しても良い。

類似文字列取得部１２４は、類似音素列取得部１２３が取得した音素列に対応する文字列である類似文字列を、固有表現情報格納部１２０から取得する。また、類似文字列取得部１２４は、類似音素列取得部１２３が取得した１以上の音素列に対応する１以上の類似文字列を取得しても良い。また、類似文字列取得部１２４は、類似音素列取得部１２３が取得した２以上の音素列に対応する２以上の類似文字列を取得しても良い。

候補文字列送信部１２５は、２以上の候補文字列を、端末装置１１に送信する。２以上の候補文字列は、音声認識部１２２が取得した１以上の音声認識文字列および類似文字列取得部１２４が取得した１以上の類似文字列であっても良いし、類似文字列取得部１２４が取得した２以上の類似文字列であっても良い。つまり、２以上の候補文字列の中には、通常、音声認識文字列を含むが、音声認識文字列を含まなくても良い。

候補文字列特定情報受信部１２６は、２以上の候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報を、端末装置１１から受信する。候補文字列特定情報とは、候補文字列を識別する情報でも良いし、候補文字列そのものでも良い。

機械翻訳部１２７は、類似文字列取得部１２４が取得した類似文字列を翻訳し、翻訳結果を取得する。機械翻訳部１２７は、候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得しても良いし、候補文字列特定情報に対応する類似文字列を翻訳し、翻訳結果を取得しても良い。なお、機械翻訳部１２７は、公知技術である。

音声合成部１２８は、機械翻訳部１２７が取得した翻訳結果を音声合成し、音声合成結果を取得する。音声合成結果とは、例えば、音声のデータである。ただし、音声合成結果とは、音声合成する元になるデータでも良い。音声合成部１２８は、公知技術である。

音声合成結果送信部１２９は、音声合成部１２８が取得した音声合成結果を端末装置１１に送信する。

制御部１３０は、音声認識部１２２が取得した文字列と類似文字列取得部１２４が取得した１以上の各類似文字列とを比較し、音声認識部１２２が取得した文字列と一致する文字列（概ね一致する文字列も含む）が、類似文字列取得部１２４が取得した１以上の類似文字列の中に存在するか否かを判断する。一致する文字列が存在する場合、候補文字列送信部１２５は候補文字列を送信しない。そして、一致する文字列が存在する場合、機械翻訳部１２７は、音声認識部１２２が取得した文字列を機械翻訳する。なお、制御部１３０は、音声認識部１２２が取得した音素列と類似音素列取得部１２３が取得した１以上の各類似音素列とを比較し、音声認識部１２２が取得した音素列と一致する音素列（概ね一致する音素列も含む）が、類似音素列取得部１２３が取得した１以上の音素列の中に存在するか否かを判断しても良い。なお、音素列の比較も、文字列の比較と同等である、と考える。

音声受付部１１１は、例えば、マイクとそのドライバーソフトにより実現され得る。

音声関連情報取得部１１２、音声認識部１２２、類似音素列取得部１２３、類似文字列取得部１２４、機械翻訳部１２７、および音声合成部１２８は、通常、ＭＰＵやメモリ等から実現され得る。音声関連情報取得部１１２等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

音声関連情報送信部１１３、候補文字列特定情報送信部１１７、候補文字列送信部１２５、および音声合成結果送信部１２９は、通常、無線または有線の通信手段で実現されるが、放送手段で実現されても良い。

候補文字列受信部１１４、音声合成結果受信部１１８、音声関連情報受信部１２１、および候補文字列特定情報受信部１２６は、通常、無線または有線の通信手段で実現されるが、放送を受信する手段で実現されても良い。

候補文字列出力部１１５は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。候補文字列出力部１１５は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

指示受付部１１６は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。

合成音声出力部１１９は、スピーカー等の出力デバイスを含むと考えても含まないと考えても良い。合成音声出力部１１９は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

固有表現情報格納部１２０は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。固有表現情報格納部１２０に固有表現情報が記憶される過程は問わない。例えば、記録媒体を介して固有表現情報が固有表現情報格納部１２０で記憶されるようになってもよく、通信回線等を介して送信された固有表現情報が固有表現情報格納部１２０で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された固有表現情報が固有表現情報格納部１２０で記憶されるようになってもよい。
次に、音声翻訳システム１の動作について説明する。まず、端末装置１１の動作について、図３のフローチャートを用いて説明する。

（ステップＳ３０１）音声受付部１１１は、音声を受け付けたか否かを判断する。音声を受け付ければステップＳ３０２に行き、音声を受け付けなければステップＳ３０１に戻る。

（ステップＳ３０２）音声関連情報取得部１１２は、ステップＳ３０１で受け付けられた音声に関する１以上の特徴量である音声関連情報を取得する。

（ステップＳ３０３）音声関連情報送信部１１３は、ステップＳ３０２で取得された音声関連情報をサーバ装置１２に送信する。

（ステップＳ３０４）候補文字列受信部１１４は、サーバ装置１２から、２以上の候補文字列を受信したか否かを判断する。２以上の候補文字列を受信すればステップＳ３０５に行き、受信しなければステップＳ３０９に行く。

（ステップＳ３０５）候補文字列出力部１１５は、ステップＳ３０４で受信された２以上の候補文字列を出力する。

（ステップＳ３０６）指示受付部１１６は、ステップＳ３０５で出力された２以上の候補文字列の中から、一の候補文字列の指示（ユーザによる指示）を受け付けたか否かを判断する。指示を受け付ければステップＳ３０７に行き、受け付けなければステップＳ３０６に行く。

（ステップＳ３０７）候補文字列特定情報送信部１１７は、指示受付部１１６が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報を、サーバ装置１２に送信する。

（ステップＳ３０８）音声合成結果受信部１１８は、ステップＳ３０７における候補文字列特定情報の送信に対応して、サーバ装置１２から音声合成結果を受信したか否かを判断する。音声合成結果を受信すればステップＳ３１０に行き、受信しなければステップＳ３０８に戻る。

（ステップＳ３０９）音声合成結果受信部１１８は、サーバ装置１２から音声合成結果を受信したか否かを判断する。音声合成結果を受信すればステップＳ３１０に行き、受信しなければステップＳ３０４に戻る。

（ステップＳ３１０）合成音声出力部１１９は、ステップＳ３０８、またはステップＳ３０９で受信された音声合成結果を用いて音声出力し、ステップＳ３０１に戻る。

なお、図３のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

次に、サーバ装置１２の動作について、図４のフローチャートを用いて説明する。

（ステップＳ４０１）音声関連情報受信部１２１は、端末装置１１から音声関連情報を受信したか否かを判断する。音声関連情報を受信すればステップＳ４０２に行き、音声関連情報を受信しなければステップＳ４０１に戻る。

（ステップＳ４０２）音声認識部１２２は、ステップＳ４０１で受信された音声関連情報を用いて、音声認識処理を行う。そして、音声認識部１２２は、１以上の音素列および１以上の音声認識文字列を取得する。なお、音声認識文字列は、音声認識結果である。

（ステップＳ４０３）類似音素列取得部１２３は、ステップＳ４０２で取得された音素列に類似する１以上の音素列を、固有表現情報格納部１２０から取得する。かかる処理を、類似音素列取得処理という。類似音素列取得処理について、図５のフローチャートを用いて説明する。

（ステップＳ４０４）類似文字列取得部１２４は、ステップＳ４０３で取得された１以上の音素列に対応する１以上の類似文字列を、固有表現情報格納部１２０から取得する。

（ステップＳ４０５）制御部１３０は、音声認識部１２２がステップＳ４０２で取得した文字列と、類似文字列取得部１２４がステップＳ４０４で取得した１以上の各類似文字列とを比較する。そして、制御部１３０は、音声認識部１２２が取得した文字列と一致する類似文字列が存在するか否かを判断する。音声認識部１２２が取得した文字列と一致する類似文字列が存在すればステップＳ４０９に行き、存在しなければステップＳ４０６に行く。

（ステップＳ４０６）候補文字列送信部１２５は、ステップＳ４０２で取得した文字列と、ステップＳ４０４で取得した１以上の各類似文字列とを用いて、２以上の候補文字列を構成する。

（ステップＳ４０７）候補文字列送信部１２５は、ステップＳ４０６で構成した２以上の候補文字列を端末装置１１に送信する。

（ステップＳ４０８）候補文字列特定情報受信部１２６は、ステップＳ４０７における２以上の候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報を、端末装置１１から受信したか否かを判断する。候補文字列特定情報を受信すればステップＳ４０９に行き、受信しなければステップＳ４０８に戻る。

（ステップＳ４０９）ステップＳ４０８から遷移してきた場合、機械翻訳部１２７は、候補文字列特定情報に対応する音声認識文字列または類似文字列を取得する。また、ステップＳ４０５から遷移してきた場合、機械翻訳部１２７は、音声認識部１２２が取得した文字列を取得する。

（ステップＳ４１０）機械翻訳部１２７は、ステップＳ４０９で取得した文字列を翻訳し、翻訳結果を取得する。

（ステップＳ４１１）音声合成部１２８は、ステップＳ４１０で取得された翻訳結果を音声合成し、音声合成結果を取得する。

（ステップＳ４１２）音声合成結果送信部１２９は、ステップＳ４１１で取得された音声合成結果を端末装置１１に送信し、ステップＳ４０１に戻る。

なお、図４のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

次に、ステップＳ４０３の類似音素列取得処理について、図５のフローチャートを用いて説明する。

（ステップＳ５０１）類似音素列取得部１２３は、ステップＳ４０２における音声認識処理により得られた音声認識文字列（第一の音素列という）を取得する。

（ステップＳ５０２）類似音素列取得部１２３は、カウンタｉに１を代入する。

（ステップＳ５０３）類似音素列取得部１２３は、固有表現情報格納部１２０にｉ番目の音素列（第二の音素列という）が存在するか否かを判断する。ｉ番目の第二の音素列が存在すればステップＳ５０４に行き、ｉ番目の第二の音素列が存在しなければステップＳ５０７に行く。

（ステップＳ５０４）類似音素列取得部１２３は、ステップＳ５０１で取得した第一の音素列と、ｉ番目の第二の音素列との類似度を算出する。

（ステップＳ５０５）類似音素列取得部１２３は、ステップＳ５０４で算出した類似度を、ｉ番目の第二の音素列に対応付けて、図示しない記録媒体に一時蓄積する。

（ステップＳ５０６）類似音素列取得部１２３は、カウンタｉを１、インクリメントし、ステップＳ５０３に戻る。

（ステップＳ５０７）類似音素列取得部１２３は、ステップＳ５０５で一時蓄積した類似度をキーとして、第二の音素列をソートする。

（ステップＳ５０８）類似音素列取得部１２３は、所定の条件を満たすほど類似している１または２以上の音素列（類似音素列）を固有表現情報格納部１２０から取得し、上位処理にリターンする。

以下、本実施の形態における音声翻訳システム１の具体的な動作（行った実験）について説明する。

本実験では、サーバ装置１２の固有表現情報格納部１２０は、図６に示す固有表現管理表を保持している。固有表現管理表は「ＩＤ」「文字列」「音素列」を有するレコード（固有表現情報）を１以上格納している。ここでは、固有表現情報は、５０９５存在する。また、固有表現情報が有する音素列の固有表現音素記号化手法は「Ximera」という手法を用いている。また、類似音素列取得部１２３が利用する類似度の算出のアルゴリズムは、ＢＬＥＵ（数式１）である。また、類似音素列取得部１２３が利用する所定の条件は「類似度が最大の音素列」である。

そして、実験において、ユーザは、３００の文を音声により入力した。以下、２つの例を用いて、音声翻訳システム１の具体的な動作について説明する。

例えば、ユーザが「雑誌売り場はどこですか」と、端末装置１１に対して音声入力した。次に、端末装置１１の音声受付部１１１は、音声を受け付ける。そして、音声関連情報取得部１１２は、受け付けられた音声に関する１以上の特徴量である音声関連情報を取得する。音声関連情報送信部１１３は、取得された音声関連情報をサーバ装置１２に送信する。

次に、サーバ装置１２の音声関連情報受信部１２１は、端末装置１１から１以上の特徴量である音声関連情報を受信する。

次に、音声認識部１２２は、受信された音声関連情報を用いて、音声認識処理を行う。そして、音声認識部１２２は、音素列「z a ng sh i ng u r i b a w a d o k o d e s u k a」と音声認識文字列「斬新売り場はどこですか」とを取得する。

次に、類似音素列取得部１２３は、取得された音素列「z a ng sh i ng u r i b a w a d o k o d e s u k a」に類似する１以上の音素列を、ＢＬＵＥを用いて探索する。そして、類似音素列取得部１２３は、図６に示す固有表現管理表から類似音素列「z a q sh i u r i b a w a d o k o d e s u k a」取得する。

次に、類似文字列取得部１２４は、取得された音素列「z a q sh i u r i b a w a d o k o d e s u k a」に対応する類似文字列「雑誌売り場はどこですか」を、固有表現管理表から取得する。

次に、制御部１３０は、音声認識文字列「斬新売り場はどこですか」と、類似文字列「雑誌売り場はどこですか」とを比較する。そして、制御部１３０は、両文字列が一致しない、と判断する。

次に、候補文字列送信部１２５は、音声認識文字列「斬新売り場はどこですか」と、類似文字列「雑誌売り場はどこですか」とを用いて、２つの候補文字列を構成する。例えば、構成した候補文字列は「１：雑誌売り場はどこですか，２：斬新売り場はどこですか」である。ここで構成とは、送信するデータ構造にすることである。

次に、候補文字列送信部１２５は、構成した２つの候補文字列「１：雑誌売り場はどこですか，２：斬新売り場はどこですか」を端末装置１１に送信する。

次に、端末装置１１の候補文字列受信部１１４は、サーバ装置１２から、２つの候補文字列「１：雑誌売り場はどこですか，２：斬新売り場はどこですか」を受信する。

次に、候補文字列出力部１１５は、受信された候補文字列を出力する。候補文字列の出力例を図７に示す。そして、図７に示すように、ユーザは、「雑誌売り場はどこですか」の文をチェックし、「送信」ボタンを押下した、とする。

次に、指示受付部１１６は、出力された２つの候補文字列の中から、一の候補文字列「雑誌売り場はどこですか」の指示（ユーザによる指示）を受け付ける。

そして、候補文字列特定情報送信部１１７は、受け付けた指示に対応する候補文字列「雑誌売り場はどこですか」を特定する候補文字列特定情報「１」を取得する。そして、候補文字列特定情報送信部１１７は、候補文字列特定情報「１」をサーバ装置１２に送信する。

次に、サーバ装置１２の候補文字列特定情報受信部１２６は、候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報「１」を、端末装置１１から受信する。

次に、機械翻訳部１２７は、候補文字列特定情報「１」に対応する類似文字列「雑誌売り場はどこですか」を取得する。

次に、機械翻訳部１２７は、取得した文字列「雑誌売り場はどこですか」を翻訳し、翻訳結果「Where is the magazine counter?」を取得する。

次に、音声合成部１２８は、取得された翻訳結果「Where is the magazine counter?」を音声合成し、音声合成結果を取得する。

そして、音声合成結果送信部１２９は、取得された音声合成結果を端末装置１１に送信する。

次に、音声合成結果受信部１１８は、候補文字列特定情報の送信に対応して、サーバ装置１２から音声合成結果を受信する。

そして、合成音声出力部１１９は、受信された音声合成結果を用いて音声出力する。

次に、ユーザが「フロントは内線九番です」と、端末装置１１に対して音声入力した。そして、上記と同様の動作により、サーバ装置１２の音声認識部１２２は、音素列「j o ng t o w a n a i s e ng k j u u b a ng d e s u」と音声認識文字列「夜んとは内線九番で」とを取得する。

そして、次に、類似音素列取得部１２３は、取得された音素列「j o ng t o w a n a i s e ng k j u u b a ng d e s u」に類似する１以上の音素列を、ＢＬＵＥを用いて探索する。そして、類似音素列取得部１２３は、図６に示す固有表現管理表から類似音素列「f u r o ng t o w a n a i s e ng k j u u b a ng d e s u」取得する。

次に、類似文字列取得部１２４は、取得された音素列「f u r o ng t o w a n a i s e ng k j u u b a ng d e s u」に対応する類似文字列「フロントは内線九番です」を、固有表現管理表から取得する。

次に、制御部１３０は、音声認識文字列「夜んとは内線九番で」と、類似文字列「フロントは内線九番です」とを比較する。そして、制御部１３０は、両文字列が一致しない、と判断する。

次に、候補文字列送信部１２５は、音声認識文字列「夜んとは内線九番で」と、類似文字列「フロントは内線九番です」とを用いて、２つの候補文字列「１：フロントは内線九番です，２：夜んとは内線九番で」を構成する。

次に、候補文字列送信部１２５は、構成した２つの候補文字列「１：フロントは内線九番です，２：夜んとは内線九番で」を端末装置１１に送信する。

次に、端末装置１１の候補文字列受信部１１４は、サーバ装置１２から、２つの候補文字列「１：フロントは内線九番です，２：夜んとは内線九番で」を受信する。

次に、候補文字列出力部１１５は、受信された候補文字列を出力する。

そして、ユーザは、「フロントは内線九番です」の文をチェックし、「送信」ボタンを押下した、とする。

次に、指示受付部１１６は、出力された２つの候補文字列の中から、一の候補文字列「フロントは内線九番です」の指示（ユーザによる指示）を受け付ける。

そして、候補文字列特定情報送信部１１７は、受け付けた指示に対応する候補文字列を特定する候補文字列特定情報「１」を取得する。そして、候補文字列特定情報送信部１１７は、候補文字列特定情報「１」をサーバ装置１２に送信する。

次に、機械翻訳部１２７は、候補文字列特定情報「１」に対応する類似文字列「フロントは内線九番です」を取得する。

次に、機械翻訳部１２７は、取得した文字列「フロントは内線九番です」を翻訳し、翻訳結果「Extension because of the connection to the reception desk is the ninth.」を取得する。

次に、音声合成部１２８は、取得された翻訳結果「Extension because of the connection to the reception desk is the ninth.」を音声合成し、音声合成結果を取得する。

以上の実験において、音声認識の段階において、認識が成功した数は２３５で、失敗した数は６５となった。そして、認識失敗した文をさらに類似文検索した結果、一番スコア（類似度）が良かったものが意図した文（検索成功）であった数は５３で、意図しなかった文（検索失敗）であった数は１２であった。

つまり、「認識成功：２３５（７８．３％）、認識失敗：６５（２１．７％）」、「検索成功：５３、検索失敗：１２」であった。

つまり、認識成功文と検索成功文とを同時に提示してユーザに選択させることにより、発話した文が意図どおりに機械翻訳部１２７に渡る数は２３５＋５３＝２８８（９６．０％）になる。以上より、本実験において、音声翻訳としての精度を大幅に上げることができたことが分かる。

以上、本実施の形態によれば、音を表す音素記号列を検索のキーとして、類似文の検索を行うことにより、音声認識結果に誤りがある場合でも、良好な翻訳結果を得ることができる。

なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における端末装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、音声を受け付ける音声受付部と、前記音声受付部が受け付けた音声、または前記音声受付部が受け付けた音声に関する１以上の特徴量である音声関連情報を取得する音声関連情報取得部と、前記音声関連情報を前記サーバ装置に送信する音声関連情報送信部と、前記サーバ装置から音声合成結果を受信する音声合成結果受信部と、前記音声合成結果を用いて音声出力する合成音声出力部として機能させるためのプログラム、である。

また、上記プログラムにおいて、コンピュータを、前記サーバ装置から、２以上の候補文字列を受信する候補文字列受信部と、前記候補文字列受信部が受信した２以上の候補文字列を出力する候補文字列出力部と、前記候補文字列出力部が出力した２以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部と、前記指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報を、前記サーバ装置に送信する候補文字列特定情報送信部としてさらに機能させることは好適である。

また、本実施の形態におけるサーバ装置を実現するソフトウェアは、以下のようなプログラムである。つまり、記憶媒体に、音素列と文字列とを有する２以上の固有表現情報を格納しており、コンピュータを、前記音声関連情報を受信する音声関連情報受信部と、前記音声関連情報を用いて、音声認識し、音素列を取得する音声認識部と、前記音声認識部が取得した音素列に類似する音素列を、前記記憶媒体から取得する類似音素列取得部と、前記類似音素列取得部が取得した音素列に対応する文字列である類似文字列を、前記記憶媒体から取得する類似文字列取得部と、前記類似文字列取得部が取得した類似文字列を翻訳し、翻訳結果を取得する機械翻訳部と、前記機械翻訳部が取得した翻訳結果を音声合成し、音声合成結果を取得する音声合成部と、前記音声合成結果を前記端末装置に送信する音声合成結果送信部として機能させることは好適である。

また、上記プログラムにおいて、前記音声認識部は、前記音声関連情報を用いて、音声認識し、１以上の音素列および音声認識結果である１以上の文字列である１以上の音声認識文字列を取得し、前記類似音素列取得部は、前記音声認識部が取得した音素列に類似する１以上の音素列を、前記固有表現情報格納部から取得し、前記類似文字列取得部は、前記類似音素列取得部が取得した１以上の音素列に対応する１以上の類似文字列を取得し、コンピュータを、前記音声認識部が取得した１以上の音声認識文字列および前記類似文字列取得部が取得した１以上の類似文字列である２以上の候補文字列を、前記端末装置に送信する候補文字列送信部と、前記２以上の候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報を、前記端末装置から受信する候補文字列特定情報受信部としてさらに機能させ、前記機械翻訳部は、前記候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得するものとして、コンピュータを機能させることは好適である。

また、上記プログラムにおいて、前記類似音素列取得部は、前記音声認識部が取得した音素列に類似する２以上の音素列を、前記固有表現情報格納部から取得し、前記類似文字列取得部は、前記類似音素列取得部が取得した２以上の音素列に対応する２以上の文字列である２以上の類似文字列を取得し、コンピュータを、前記類似文字列取得部が取得した２以上の類似文字列である２以上の候補文字列を、前記端末装置に送信する候補文字列送信部と、前記２以上の候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報を、前記端末装置から受信する候補文字列特定情報受信部としてさらに機能させ、前記機械翻訳部は、前記候補文字列特定情報に対応する類似文字列を翻訳し、翻訳結果を取得するものとして、コンピュータを機能させることは好適である。

また、上記プログラムにおいて、コンピュータを、前記音声認識部が取得した文字列と前記類似文字列取得部が取得した１以上の各類似文字列とを比較し、前記音声認識部が取得した文字列と一致する文字列が、前記類似文字列取得部が取得した１以上の類似文字列の中に存在するか否かを判断する制御部としてさらに機能させ、前記候補文字列送信部は、前記候補文字列を送信しないものとして、コンピュータを機能させることは好適である。
（実施の形態２）

本実施の形態において、スタンドアロンの音声翻訳装置について説明する。本実施の形態における音声翻訳装置の機能は、実施の形態１の音声翻訳システム１の機能と同様である。

図８は、本実施の形態における音声翻訳装置２のブロック図である。音声翻訳装置２は、固有表現情報格納部１２０、音声受付部１１１、音声認識部２０１、類似音素列取得部１２３、類似文字列取得部１２４、候補文字列出力部２０２、指示受付部１１６、機械翻訳部２０３、音声合成部１２８、合成音声出力部２０４、および制御部１３０を具備する。

音声認識部２０１は、音声受付部１１１が受け付けた音声を音声認識し、音素列を取得する。また、音声認識部２０１は、音声受付部１１１が受け付けた音声を音声認識し、音素列と音声認識文字列とを取得しても良い。また、音声認識部２０１は、音声受付部１１１が受け付けた音声に関する１以上の特徴量である音声関連情報を取得し、当該音声関連情報を用いて、音声認識し、１以上の音素列または、１以上の音素列と１以上の音声認識文字列とを取得しても良い。

候補文字列出力部２０２は、２以上の候補文字列を出力する。２以上の候補文字列は、通常、音声認識部２０１が取得した１以上の音声認識文字列および類似文字列取得部１２４が取得した１以上の類似文字列である。ただし、２以上の候補文字列は、類似文字列取得部１２４が取得した２以上の類似文字列であっても良い。

機械翻訳部２０３は、類似文字列取得部１２４が取得した類似文字列を翻訳し、翻訳結果を取得する。機械翻訳部２０３は、指示受付部１１６が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得しても良い。機械翻訳部２０３は、候補文字列特定情報に対応する類似文字列を翻訳し、翻訳結果を取得しても良い。

合成音声出力部２０４は、音声合成部１２８が取得した音声合成結果を用いて音声出力する。

音声認識部２０１、機械翻訳部２０３は、通常、ＭＰＵやメモリ等から実現され得る。音声認識部２０１等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

合成音声出力部２０４は、スピーカー等の出力デバイスを含むと考えても含まないと考えても良い。合成音声出力部２０４は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
次に、音声翻訳装置２の動作について、図９のフローチャートを用いて説明する。図９のフローチャートにおいて、図３または図４のフローチャートと同一のステップの説明を省略する。なお、図９のフローチャートは、図３または図４のフローチャートと同様のステップにより構成されるので、説明を省略する。また、図９のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

以下、本実施の形態における音声翻訳装置２の具体的な動作について説明する。

本具体例では、実施の形態１における実験の環境と同じである。つまり、音声翻訳装置２の固有表現情報格納部１２０は、図６に示す固有表現管理表を保持している。また、固有表現情報が有する音素列の固有表現音素記号化手法は「Ximera」という手法を用いている。また、類似音素列取得部１２３が利用する類似度の算出のアルゴリズムは、ＢＬＥＵ（数式１）である。また、類似音素列取得部１２３が利用する所定の条件は「類似度が最大の音素列」である。

例えば、ユーザが「雑誌売り場はどこですか」と、音声翻訳装置２に対して音声入力した。次に、音声翻訳装置２の音声受付部１１１は、音声を受け付ける。そして、音声認識部２０１は、受け付けられた音声に対して、音声認識処理を行う。そして、音声認識部２０１は、音素列「z a ng sh i ng u r i b a w a d o k o d e s u k a」と音声認識文字列「斬新売り場はどこですか」とを取得する。

次に、候補文字列出力部２０２は、音声認識文字列「斬新売り場はどこですか」と、類似文字列「雑誌売り場はどこですか」とを用いて、２つの候補文字列を構成する。例えば、構成した候補文字列は「１：雑誌売り場はどこですか，２：斬新売り場はどこですか」である。

次に、候補文字列出力部２０２は、候補文字列を出力する。候補文字列の出力例を図７に示す。そして、図７に示すように、ユーザは、「雑誌売り場はどこですか」の文をチェックし、「送信」ボタンを押下した、とする。

次に、機械翻訳部２０３は、候補文字列特定情報「１」に対応する類似文字列「雑誌売り場はどこですか」を取得する。

次に、機械翻訳部２０３は、取得した文字列「雑誌売り場はどこですか」を翻訳し、翻訳結果「Where is the magazine counter?」を取得する。

そして、合成音声出力部２０４は、音声合成結果を用いて音声出力する。

なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記憶媒体に、音素列と文字列とを有する２以上の固有表現情報を格納しており、コンピュータを、音声を受け付ける音声受付部と、前記音声受付部が受け付けた音声を音声認識し、音素列を取得する音声認識部と、前記音声認識部が取得した音素列に類似する音素列を、前記記憶媒体から取得する類似音素列取得部と、前記類似音素列取得部が取得した音素列に対応する文字列を取得する文字列取得部と、前記文字列取得部が取得した文字列を翻訳し、翻訳結果を取得する機械翻訳部と、前記機械翻訳部が取得した翻訳結果を音声合成する音声合成部と、前記音声合成結果を用いて音声出力する合成音声出力部として機能させるためのプログラムである。

また、上記プログラムにおいて、前記音声認識部は、前記音声関連情報を用いて、音声認識し、１以上の音素列および音声認識結果である１以上の文字列である１以上の音声認識文字列を取得し、前記類似音素列取得部は、前記音声認識部が取得した音素列に類似する１以上の音素列を、前記固有表現情報格納部から取得し、前記類似文字列取得部は、前記類似音素列取得部が取得した１以上の音素列に対応する１以上の文字列である１以上の類似文字列を取得し、前記音声認識部が取得した１以上の音声認識文字列および前記類似文字列取得部が取得した１以上の類似文字列である２以上の候補文字列を出力する候補文字列出力部と、前記候補文字列出力部が出力した２以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部とをさらに具備し、前記機械翻訳部は、前記指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得するものとしてコンピュータを機能させることは好適である。

また、上記プログラムにおいて、前記類似音素列取得部は、前記音声認識部が取得した音素列に類似する２以上の音素列を、前記固有表現情報格納部から取得し、前記類似文字列取得部は、前記類似音素列取得部が取得した２以上の音素列に対応する２以上の類似文字列を取得し、前記類似文字列取得部が取得した２以上の類似文字列である２以上の候補文字列を出力する候補文字列出力部と、前記候補文字列出力部が出力した２以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部とをさらに具備し、前記機械翻訳部は、前記指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報に対応する音声認識文字列または類似文字列を翻訳し、翻訳結果を取得するものとしてコンピュータを機能させることは好適である。

また、上記プログラムにおいて、コンピュータを、前記音声認識部が取得した文字列と前記類似文字列取得部が取得した１以上の各類似文字列とを比較し、前記音声認識部が取得した文字列と一致する文字列が、前記類似文字列取得部が取得した１以上の類似文字列の中に存在するか否かを判断する制御部としてさらに機能させ、前記候補文字列出力部は、前記候補文字列を出力しないものとして、コンピュータを機能させることは好適である。

また、図１０は、本明細書で述べたプログラムを実行して、上述した実施の形態の音声翻訳装置等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図１０は、このコンピュータシステム３４０の概観図であり、図１１は、コンピュータシステム３４０の内部構成を示す図である。

図１０において、コンピュータシステム３４０は、ＦＤドライブ３４１１、ＣＤ−ＲＯＭドライブ３４１２を含むコンピュータ３４１と、キーボード３４２と、マウス３４３と、モニタ３４４と、マイク３４５とを含む。

図１１において、コンピュータ３４１は、ＦＤドライブ３４１１、ＣＤ−ＲＯＭドライブ３４１２に加えて、ＭＰＵ３４１３と、ＣＤ−ＲＯＭドライブ３４１２及びＦＤドライブ３４１１に接続されたバス３４１４と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ３４１５とに接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ３４１６と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク３４１７とを含む。ここでは、図示しないが、コンピュータ３４１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

コンピュータシステム３４０に、上述した実施の形態の音声翻訳装置等の機能を実行させるプログラムは、ＣＤ−ＲＯＭ３５０１、またはＦＤ３５０２に記憶されて、ＣＤ−ＲＯＭドライブ３４１２またはＦＤドライブ３４１１に挿入され、さらにハードディスク３４１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３４１に送信され、ハードディスク３４１７に記憶されても良い。プログラムは実行の際にＲＡＭ３４１６にロードされる。プログラムは、ＣＤ−ＲＯＭ３５０１、ＦＤ３５０２またはネットワークから直接、ロードされても良い。

プログラムは、コンピュータ３４１に、上述した実施の形態の音声翻訳装置等の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３４０がどのように動作するかは周知であり、詳細な説明は省略する。

なお、上記プログラムにおいて、情報を送信するステップや、情報を受信するステップなどでは、ハードウェアによって行われる処理、例えば、モデムやインターフェースカードなどで行われる処理（ハードウェアでしか行われない処理）は含まれない。

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

また、上記各実施の形態において、一の装置に存在する２以上の通信手段は、物理的に一の媒体で実現されても良いことは言うまでもない。

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる音声翻訳システムは、音声認識結果に誤りがある場合でも、良好な翻訳結果を得ることができる、という効果を有し、音声翻訳システム等として有用である。

１音声翻訳システム
２音声翻訳装置
１１端末装置
１２サーバ装置
１１１音声受付部
１１２音声関連情報取得部
１１３音声関連情報送信部
１１４候補文字列受信部
１１５、２０２候補文字列出力部
１１６指示受付部
１１７候補文字列特定情報送信部
１１８音声合成結果受信部
１１９、２０４合成音声出力部
１２０固有表現情報格納部
１２１音声関連情報受信部
１２２、２０１音声認識部
１２３類似音素列取得部
１２４類似文字列取得部
１２５候補文字列送信部
１２６候補文字列特定情報受信部
１２７、２０３機械翻訳部
１２８音声合成部
１２９音声合成結果送信部
１３０制御部

Claims

端末装置とサーバ装置とを具備する音声翻訳システムであって、
前記端末装置は、
音声を受け付ける音声受付部と、
前記音声受付部が受け付けた音声、または前記音声受付部が受け付けた音声に関する１以上の特徴量である音声関連情報を取得する音声関連情報取得部と、
前記音声関連情報を前記サーバ装置に送信する音声関連情報送信部と、
前記サーバ装置から２以上の候補文字列を受信する候補文字列受信部と、
前記候補文字列受信部が受信した２以上の候補文字列を出力する候補文字列出力部と、
前記候補文字列出力部が出力した２以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部と、
前記指示受付部が受け付けた指示に対応する候補文字列を特定する候補文字列特定情報を、前記サーバ装置に送信する候補文字列特定情報送信部と、
前記サーバ装置から音声合成結果を受信する音声合成結果受信部と、
前記音声合成結果を用いて音声出力する合成音声出力部とを具備し、
前記サーバ装置は、
音素列と文字列とを有する２以上の固有表現情報を格納し得る固有表現情報格納部と、
前記音声関連情報を受信する音声関連情報受信部と、
前記音声関連情報を用いて、音声認識し、音素列および音声認識結果の文字列である音声認識文字列を取得する音声認識部と、
前記音声認識部が取得した音素列と前記固有表現情報格納部に格納されている２以上の各固有表現情報が有する２以上の音素列との類似度を算出し、当該類似度が所定の条件を満たすほど類似している１以上の音素列を、前記固有表現情報格納部から取得する類似音素列取得部と、
前記類似音素列取得部が取得した１以上の音素列に対応する文字列である１以上の類似文字列を、前記固有表現情報格納部から取得する類似文字列取得部と、
前記音声認識部が取得した音声認識文字列と前記類似文字列取得部が取得した１以上の各類似文字列とを比較し、前記音声認識文字列と一致する文字列が、前記１以上の類似文字列の中に存在するか否かを判断する制御部と、
前記音声認識部が取得した音声認識文字列および前記類似文字列取得部が取得した１以上の類似文字列である２以上の候補文字列を、前記端末装置に送信する候補文字列送信部と、
前記２以上の候補文字列の送信に対応して、一の候補文字列を特定する情報である候補文字列特定情報を、前記端末装置から受信する候補文字列特定情報受信部と、
前記候補文字列特定情報に対応する候補文字列を翻訳し、翻訳結果を取得する機械翻訳部と、
前記機械翻訳部が取得した翻訳結果を音声合成し、音声合成結果を取得する音声合成部と、
前記音声合成結果を前記端末装置に送信する音声合成結果送信部とを具備し、
前記候補文字列送信部は、
前記音声認識部が取得した音声認識文字列と一致する文字列が、前記類似文字列取得部が取得した１以上の類似文字列の中に存在すると前記制御部が判断した場合、前記候補文字列を送信しない音声翻訳システム。
前記類似音素列取得部は、
前記音声認識部が取得した音素列と前記固有表現情報格納部に格納されている２以上の各固有表現情報が有する２以上の音素列との類似度を算出し、当該類似度が所定の条件を満たすほど類似している２以上の音素列を、前記固有表現情報格納部から取得し、
前記類似文字列取得部は、
前記類似音素列取得部が取得した２以上の音素列に対応する文字列である２以上の類似文字列を、前記固有表現情報格納部から取得し、
前記候補文字列送信部は、
前記音声認識部が取得した音声認識文字列および前記類似文字列取得部が取得した２以上の類似文字列である３以上の候補文字列を、前記端末装置に送信する請求項１記載の音声翻訳システム。
音素列と文字列とを有する２以上の固有表現情報を格納し得る固有表現情報格納部と、
音声を受け付ける音声受付部と、
前記音声受付部が受け付けた音声を音声認識し、音素列および音声認識結果の文字列である音声認識文字列を取得する音声認識部と、
前記音声認識部が取得した音素列と前記固有表現情報格納部に格納されている２以上の各固有表現情報が有する２以上の音素列との類似度を算出し、当該類似度が所定の条件を満たすほど類似している１以上の音素列を、前記固有表現情報格納部から取得する類似音素列取得部と、
前記類似音素列取得部が取得した１以上の音素列に対応する文字列である１以上の類似文字列を、前記固有表現情報格納部から取得する類似文字列取得部と、
前記音声認識部が取得した音声認識文字列と前記類似文字列取得部が取得した１以上の各類似文字列とを比較し、前記音声認識文字列と一致する文字列が、前記１以上の類似文字列の中に存在するか否かを判断する制御部と、
前記音声認識部が取得した音声認識文字列および前記類似文字列取得部が取得した１以上の類似文字列である２以上の候補文字列を出力する候補文字列出力部と、
前記候補文字列出力部が出力した２以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部と、
前記指示受付部が受け付けた指示に対応する一の候補文字列を翻訳し、翻訳結果を取得する機械翻訳部と、
前記機械翻訳部が取得した翻訳結果を音声合成し、音声合成結果を取得する音声合成部と、
前記音声合成結果を用いて音声出力する合成音声出力部とを具備し、
前記候補文字列出力部は、
前記音声認識部が取得した文字列と一致する文字列が、前記類似文字列取得部が取得した１以上の類似文字列の中に存在すると前記制御部が判断した場合、前記候補文字列を出力しない音声翻訳装置。
前記類似音素列取得部は、
前記音声認識部が取得した音素列と前記固有表現情報格納部に格納されている２以上の各固有表現情報が有する２以上の音素列との類似度を算出し、当該類似度が所定の条件を満たすほど類似している２以上の音素列を、前記固有表現情報格納部から取得し、
前記類似文字列取得部は、
前記類似音素列取得部が取得した２以上の音素列に対応する文字列である２以上の類似文字列を、前記固有表現情報格納部から取得し、
前記候補文字列出力部は、
前記音声認識部が取得した音声認識文字列および前記類似文字列取得部が取得した２以上の類似文字列である３以上の候補文字列を出力する請求項３記載の音声翻訳装置。
記憶媒体に、
音素列と文字列とを有する２以上の固有表現情報を格納しており、
音声受付部、音声認識部、類似音素列取得部、類似文字列取得部、制御部、候補文字列出力部、指示受付部、機械翻訳部、音声合成部、および合成音声出力部により実現される音声翻訳方法であって、
前記音声受付部が、音声を受け付ける音声受付ステップと、
前記音声認識部が、前記音声受付ステップで受け付けられた音声を音声認識し、音素列および音声認識結果の文字列である音声認識文字列を取得する音声認識ステップと、
前記類似音素列取得部が、前記音声認識ステップで取得された音素列と前記記憶媒体に格納されている２以上の各固有表現情報が有する２以上の音素列との類似度を算出し、当該類似度が所定の条件を満たすほど類似している１以上の音素列を、前記記憶媒体から取得する類似音素列取得ステップと、
前記類似文字列取得部が、前記類似音素列取得ステップで取得された１以上の音素列に対応する文字列である１以上の類似文字列を、前記記憶媒体から取得する類似文字列取得ステップと、
前記制御部が、前記音声認識ステップで取得された音声認識文字列と前記類似文字列取得ステップで取得された１以上の各類似文字列とを比較し、前記音声認識文字列と一致する文字列が、前記１以上の類似文字列の中に存在するか否かを判断する制御ステップと、
前記候補文字列出力部が、前記音声認識ステップで取得された音声認識文字列および前記類似文字列取得ステップで取得された１以上の類似文字列である２以上の候補文字列を出力する候補文字列出力ステップと、
前記指示受付部が、前記候補文字列出力ステップで出力された２以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付ステップと、
前記機械翻訳部が、前記指示受付ステップで受け付けられた指示に対応する一の候補文字列を翻訳し、翻訳結果を取得する機械翻訳ステップと、
前記音声合成部が、前記機械翻訳ステップで取得された翻訳結果を音声合成し、音声合成結果を取得する音声合成ステップと、
前記合成音声出力部が、前記音声合成結果を用いて音声出力する合成音声出力ステップとを具備し、
前記候補文字列出力ステップにおいて、
前記音声認識ステップで取得された文字列と一致する文字列が、前記類似文字列取得ステップで取得された１以上の類似文字列の中に存在すると前記制御ステップで判断された場合、前記候補文字列を出力しない音声翻訳方法。
前記類似音素列取得ステップにおいて、
前記音声認識ステップで取得された音素列と前記記憶媒体に格納されている２以上の各固有表現情報が有する２以上の音素列との類似度を算出し、当該類似度が所定の条件を満たすほど類似している２以上の音素列を、前記記憶媒体から取得し、
前記類似文字列取得ステップにおいて、
前記類似音素列取得ステップで取得された２以上の音素列に対応する文字列である２以上の類似文字列を、前記記憶媒体から取得し、
前記候補文字列出力ステップにおいて、
前記音声認識ステップで取得された音声認識文字列および前記類似文字列取得ステップで取得された２以上の類似文字列である３以上の候補文字列を出力する請求項５記載の音声翻訳方法。
記憶媒体に、
音素列と文字列とを有する２以上の固有表現情報を格納しており、
コンピュータを、
音声を受け付ける音声受付部と、
前記音声受付部が受け付けた音声を音声認識し、音素列を取得する音声認識部と、
前記音声認識部が取得した音素列と前記記憶媒体に格納されている２以上の各固有表現情報が有する２以上の音素列との類似度を算出し、当該類似度が所定の条件を満たすほど類似している１以上の音素列を、前記記憶媒体から取得する類似音素列取得部と、
前記類似音素列取得部が取得した１以上の音素列に対応する文字列である１以上の類似文字列を、前記記憶媒体から取得する類似文字列取得部と、
前記音声認識部が取得した音声認識文字列と前記類似文字列取得部が取得した１以上の各類似文字列とを比較し、前記音声認識文字列と一致する文字列が、前記１以上の類似文字列の中に存在するか否かを判断する制御部と、
前記音声認識部が取得した音声認識文字列および前記類似文字列取得部が取得した１以上の類似文字列である２以上の候補文字列を出力する候補文字列出力部と、
前記候補文字列出力部が出力した２以上の候補文字列の中から、一の候補文字列の指示を受け付ける指示受付部と、
前記指示受付部が受け付けた指示に対応する一の候補文字列を翻訳し、翻訳結果を取得する機械翻訳部と、
前記機械翻訳部が取得した翻訳結果を音声合成し、音声合成結果を取得する音声合成部と、
前記音声合成結果を用いて音声出力する合成音声出力部として機能させるためのプログラムであって、
前記候補文字列出力部は、
前記音声認識部が取得した文字列と一致する文字列が、前記類似文字列取得部が取得した１以上の類似文字列の中に存在すると前記制御部が判断した場合、前記候補文字列を出力しないものとして、コンピュータ機能させるためのプログラム。
前記類似音素列取得部は、
前記音声認識部が取得した音素列と前記記憶媒体に格納されている２以上の各固有表現情報が有する２以上の音素列との類似度を算出し、当該類似度が所定の条件を満たすほど類似している２以上の音素列を、前記記憶媒体から取得し、
前記類似文字列取得部は、
前記類似音素列取得部が取得した２以上の音素列に対応する文字列である２以上の類似文字列を、前記記憶媒体から取得し、
前記候補文字列出力部は、
前記音声認識部が取得した音声認識文字列および前記類似文字列取得部が取得した２以上の類似文字列である３以上の候補文字列を出力するものとして、コンピュータを機能させるための請求項７記載のプログラム。