JP2005031150A

JP2005031150A - 音声処理装置および方法

Info

Publication number: JP2005031150A
Application number: JP2003193112A
Authority: JP
Inventors: Toshiaki Fukada; 俊明深田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-07-07
Filing date: 2003-07-07
Publication date: 2005-02-03

Abstract

【課題】音声認識または音声合成が利用者の母国語に対応していない場合に、利用者にとってなるべく抵抗のない言語を使用し、なおかつ、その言語が非母国語であることを考慮した音声認識や音声合成を実行させる。
【解決手段】利用者の言語能力に関する情報を取得し（ステップＳ２０１）、取得した言語能力に関する情報に基づいて、音声認識の対象とする言語を複数の言語から選択し（ステップＳ２０２）、上記言語能力に関する情報と認識対象の言語とに基づいて、音声認識の動作条件を設定する（ステップＳ２０３）。
【選択図】図３

Description

【０００１】
【発明の属する技術分野】
本発明は、多言語の音声を認識しうる音声処理装置および方法、ならびに多言語の音声を出力しうる音声処理装置および方法に関するものである。
【０００２】
【従来の技術】
近年、複数の言語の音声を認識しうる音声認識装置、および複数の言語の音声を出力しうる音声合成装置が開発されつつある。ただし、現状の多言語に対応した音声認識装置や音声合成装置では、あらかじめ利用者が使用する言語を指定する必要がある。ここで、利用者の母国語がこれらの装置が処理可能な言語に含まれていない場合には、利用者にとってなるべく抵抗のない言語を選択し、利用者が操作しやすいようにこれらの装置を動作させることが望ましい。
【０００３】
また、多言語音声認識装置および多言語音声合成装置を用いた多言語音声対話システムを考えた場合、理想的には音声認識装置が取り扱う言語の種類と音声合成装置が取り扱う言語の種類は同一であることが望ましいが、現実にはそうであるとは限らない。例えば、ある多言語音声対話システムにおいて、音声認識は、英語、日本語、ドイツ語、フランス語、イタリア語の５か国語に対応しているが、音声合成は、英語、日本語、中国語の３か国語にだけ対応している、という場合もある。この場合、英語や日本語を母国語とする利用者にとっては、音声認識および音声合成ともこれらの言語に対応しているため問題はない。しかし、例えばドイツ語に対しては、音声認識は可能であるが音声合成はできないことになる。逆に、中国語に対しては、音声合成は可能であるが音声認識ができない。
【０００４】
そこでこのような場合の次善策として、ドイツ語を母国語としている利用者に対しては、ドイツ語以外の適切な言語が音声合成の言語として設定されることが望ましい。同様に、中国語を母国語としている利用者に対しては、中国語以外の適切な言語が音声認識の言語として設定されることが望ましい。また、例えば、音声認識および音声合成のいずれも対応していないオランダ語を母国語とする利用者がこの多言語音声対話システムを利用する場合は、使用可能な言語のうちの適切な言語が音声認識および音声合成の言語として設定されることが望ましい。
【０００５】
このような要請に対し、例えば特許文献１には、言語ごとに、音声認識、言語解析、言語生成、音声合成のオブジェクトによって言語依存オブジェクトを構成する音声翻訳システムにおいて、指定された言語依存オブジェクトが存在しない場合に、指定言語に最も近い（近さの定義の記述はなし）言語が選択されることが記載されている。
【０００６】
【特許文献１】
特開２００１−２２２５３０公報
【０００７】
【発明が解決しようとする課題】
しかしながら、特許文献１に開示された方法により単に近い言語を選択させてオブジェクトを動作させてしまうと、利用者にとっては非母国語のオブジェクトを母国語のオブジェクトとして利用することになり、例えば、音声出力の発声スピードが速すぎるため利用者が理解できなかったり、ネイティブな発音ができないために音声認識に失敗するという問題が生じる可能性がある。
【０００８】
そこで、本発明は、音声処理システムにおいて、音声認識または音声合成が利用者の母国語に対応していない場合に、利用者にとってなるべく抵抗のない言語を使用し、なおかつ、その言語が非母国語であることを考慮した音声認識や音声合成が提供されるようにすることを目的とする。
【０００９】
【課題を解決するための手段】
本発明の一側面によれば、複数の言語から選択された言語の音声認識を行う音声処理装置であって、利用者の言語能力に関する情報を取得する取得手段と、取得した言語能力に関する情報に基づいて、音声認識の対象とする言語を前記複数の言語から選択する選択手段と、前記言語能力に関する情報と認識対象の言語とに基づいて、音声認識の動作条件を設定する設定手段とを有することを特徴とする音声処理装置が提供される。
【００１０】
本発明の別の側面によれば、複数の言語から選択された言語の音声合成を行う音声処理装置であって、利用者の言語能力に関する情報を取得する取得手段と、取得した言語能力に関する情報に基づいて、音声合成を行う言語を前記複数の言語から選択する選択手段と、前記言語能力に関する情報と音声合成を行う言語とに基づいて、音声合成の動作条件を設定する設定手段とを有することを特徴とする音声処理装置が提供される。
【００１１】
【発明の実施の形態】
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。
【００１２】
（第１の実施形態）
図１は、本発明の第１の実施形態に係る音声処理装置の構成を示すブロック図である。この音声処理装置は典型的にはＣＰＵを用いたコンピュータシステムで実現されうる。もちろん、ＣＰＵを使用せずに専用のハードウェアロジックで実現してもよい。
【００１３】
１０１はＣＰＵで、ＲＯＭ１０２や外部記憶装置１０４からＲＡＭ１０３にロードされたプログラムに従って、本音声処理装置全体の制御を司る。ＲＯＭ１０２はブートプログラムや各種パラメータなどを格納している。ＲＡＭ１０３は、ＣＰＵ１０１による各種制御の実行時に作業領域を提供する主記憶装置として機能する。
【００１４】
１０４は外部記憶装置としてのハードディスク装置で、図示するように、ここにＯＳの他、音声処理プログラムがインストールされている。この音声処理プログラムは多言語対応の音声認識プログラムを含んでいる。なお、音声処理プログラムは例えばＣＤ−ＲＯＭ１１０ａに格納されて提供され、ＣＤ−ＲＯＭドライブ１１０を介して外部記憶装置１０４にインストールされる。あるいは、図示しないネットワークを介して音声処理プログラムの提供を受けることも可能である。
【００１５】
１０５はマイクロフォンなどによる音声入力部である。１０６は液晶タッチパネルなどの操作表示部であり、処理内容の設定・入力、文字、画像による通知などの表示・出力を行う。１０７は補助入出力部で、例えば、ボタン、テンキー、キーボード、マウス、ペン、スイッチ、ＬＥＤなどの光情報、点字、アクチュエータなどで構成されうる。１０８はスピーカなどの音声出力部であり、利用者へのメッセージの通知などを行う。１０９は上記各部を接続するバスである。
【００１６】
図２は、本実施形態における音声処理プログラムの音声認識モジュールの構成を示す図である。
【００１７】
音声認識モジュールは、音響分析モジュール１と、探索モジュール２に大別される。音響分析モジュール１は、音声入力部１０５を介して入力された音声に対して、一定のフレーム間隔で音響特徴ベクトル（例えば、Δパワー、ＭＦＣＣなどで構成される）に変換する。探索モジュール２は、音響モデル３および単語辞書５を用いて、言語モデル（もしくは文法）４によって言語的な制約を加えつつ探索を行う。
【００１８】
実施形態における音声認識は多言語対応であり、たとえば日本語、英語、ドイツ語、フランス語、イタリア語の５カ国語に対応する。ここで、音響モデル３、言語モデル４、および単語辞書５はそれぞれ、図示のように、上記の各言語毎に、ネイティブ（ｎａｔｉｖｅ）話者用のものと、非ネイティブ（ｎｏｎ−ｎａｔｉｖｅ）話者用のものを個別に含む。そして、後述する方法によって選択された言語の音響モデル、言語モデル、単語辞書が選択されて探索処理が実行される。
【００１９】
図３は、本実施形態における音声認識の動作条件の設定処理を示すフローチャートである。
【００２０】
まず、ステップＳ２０１において、利用者の母国語や利用者が発話できる言語およびそのレベルなどに関する発話言語情報を言語能力に関する情報として獲得する。利用者の母国語に関しては、たとえば図４に示すような母国語選択画面を操作表示部１０６に表示し、利用者に選択させることによって獲得する。ここで例えば、利用者が「Ｄｅｕｔｃｈ」を選択した場合には、利用者の母国語はオランダ語となる。
【００２１】
なお、上記のような母国語選択画面を介して発話言語情報を獲得するのではなく、予めファイルなどに利用者ごとの発話言語情報を格納して、この情報をもとに獲得してもよい。この場合、利用者は利用者ＩＤの入力などの操作を行ったことに応じて、その利用者に関する情報を通知することが好ましい。
【００２２】
あるいは、発話言語情報は、利用者の発声内容に基づきその言語を識別する方法を用いることによって獲得するようにしてもよい。
【００２３】
利用者が発話できる言語およびそのレベルに関する情報に関しては、図５に示すような発話レベル選択画面を操作表示部１０６に表示し、利用者に選択させることによって獲得する。例えば、各言語の発話レベルが５段階（１が低く、５が高い）で与えられ、利用者がいずれか適当なものを選択することができる。同図の例は、英語の発話レベル４が選択された状態を示している。
【００２４】
なお、利用者が発話できる言語およびそのレベルに関する情報に関しては、上記のような発話レベル選択画面を介して獲得するのではなく、利用者に所定の音声を発声させ、その発声内容を音声認識にかけ、そのときの音声認識率、尤度、スコアなどの情報に基づいて獲得するようにしてもよい。他にも、音声認識によらない方法として、一般的な語学レベルを測定するテストを利用して発話レベルを獲得してもよい。
【００２５】
次に、ステップＳ２０２において、発話言語情報に基づいて音声認識の対象とする言語を選択する。利用者の母国語が英語、日本語、ドイツ語、フランス語、イタリア語のいずれかである場合には、その母国語による音声認識を実行すればよい。しかし、利用者の母国語がこれら以外である場合には、利用者に対してなるべく負担の少ない言語を選択する必要がある。すなわち、音声認識の対象となりうる複数の言語のうち利用者がどの言語を話すことができるかという情報を獲得する必要がある。図５に示した発話レベル選択画面を介してこの情報が獲得できる場合には、最も高い発話レベルとして設定された言語を音声認識の対象言語として設定する。このとき、最も高い発話レベルが複数の言語に対して存在する場合には、利用者にそれらの言語を提示し、選択させる、もしくは、音声認識モジュールの不特定話者に対する認識率がより高い言語を自動的に選択することになどよって決定することができる。
【００２６】
なお、先のステップＳ２０１では、図４に示したような母国語選択画面や図５に示したような発話レベル選択画面を介して、それぞれ、利用者の母国語の情報と、利用者が発話できる言語およびそのレベルに関する情報の両方を、発話言語情報として取得していたが、これは少なくともいずれか一方が取得できればよい。例えば、図４の母国語選択画面を介して母国語に関する情報が得られない場合には、直接対応する母国語の音響モデルや言語モデルを選択することはできなくなるが、少なくとも、図５の発話レベル選択画面を介して得られた情報に基づいて音声認識の動作条件や言語を設定することはできる。逆に、図５の発話レベル選択画面を介して利用者の発話できる言語およびそのレベルに関する情報が得られない場合には、少なくとも、図４の母国語選択画面を介して得られた母国語の情報に基づいて、その母国語を話す人の一般的な利用者が発話できる言語およびそのレベルに関する情報を例えば図６に示すような形で親密度（たとえば１０段階で表され、１０が最も親密度が高い）として予め求めておくことにより、音声認識の動作条件や言語を設定することができる。
【００２７】
次に、ステップＳ２０３において、音声認識の動作条件を設定する。この際、図５に示した発話レベル選択画面を介して得られる利用者の使用言語に対する発話レベルをその言語に対する「親密度」として捉え、親密度の値に応じて、音声認識の動作条件を変更する。例えば、図５における１から５までの発話レベルを２倍したもので親密度を定義することができる。そして、親密度に応じた音声認識の動作条件は、親密度と動作条件との対応関係を記述した動作条件テーブルを参照することで決定される。この動作条件テーブルは、たとえば図７に示すような構造で、音声処理プログラムに付随してハードディスク１０４に格納される。音声認識の動作条件としては、音声認識の探索条件など探索処理に関するもの、認識候補の数など結果出力に関するもの、音響モデルの種類など音響的なモデルに関するもの、音声認識の語彙や文法など言語的なモデルに関するものなどがある。
【００２８】
図７に示した動作条件テーブルには、探索条件としてビームサーチにおけるビーム幅の値、Ｎベスト出力（上位Ｎ位までの文仮説が生成される）のＮの数、音響モデルにおけるｎａｔｉｖｅ／ｎｏｎ−ｎａｔｉｖｅの選択、言語モデルにおけるｎａｔｉｖｅ／ｎｏｎ−ｎａｔｉｖｅの選択などが規定されている。図７を参照すると、たとえば親密度が６の場合には、ビーム幅を２００、Ｎベスト出力数を５、ｎｏｎ−ｎａｔｉｖｅ用の音響モデル、ｎｏｎ−ｎａｔｉｖｅ用の認識文法を用いる、といった音声認識の動作条件が設定される。したがって、このステップＳ２０３では、ステップＳ２０２で選択された言語の音響モデル、言語モデル、単語辞書のそれぞれについて、親密度に応じてｎａｔｉｖｅ用かｎｏｎ−ｎａｔｉｖｅ用かが選択される。
【００２９】
なお、図２では、音響モデル、言語モデル、単語辞書の全てについてｎｏｎ−ｎａｔｉｖｅのモデルが存在するが、これらのいくつかについてのみｎｏｎ−ｎａｔｉｖｅのモデルを含んだ構成としてもよいし、ｎｏｎ−ｎａｔｉｖｅのモデルを含まない構成としてもよい。また、ｎｏｎ−ｎａｔｉｖｅのモデルは１つでなく、ｎｏｎ−ｎａｔｉｖｅの度合いや母国語の種類やカテゴリに応じた複数のモデルを用いた構成としてもよい。ここで、ｎａｔｉｖｅのモデルは、通常用いられる方法によって、音響モデル、言語モデル、単語辞書を作成すればよい。次に、ｎｏｎ−ｎａｔｉｖｅの音響モデルは、ｎｏｎ−ｎａｔｉｖｅが発声した音声データベースを用いて音響モデルを作成することができる。また、ｎｏｎ−ｎａｔｉｖｅの言語モデルは、平易な単語や短文で構成された簡単な文法を作成する方法や、平易な単語や短文を用いたＮ−ｇｒａｍなどの統計的言語モデルを作成する方法を用いることができる。また，ｎｏｎ−ｎａｔｉｖｅの単語辞書は、ｎｏｎ−ｎａｔｉｖｅが発声しやすい発音辞書を作成することができる。
【００３０】
このようにして、利用者の発話言語および発話レベルに応じて音声認識の動作条件が設定される。このため、非母国語を音声認識させる場合にはｎｏｎ−ｎａｔｉｖｅ用の音響モデル、言語モデル、単語辞書を用いて音声認識が実行されるように設定されるので、従来のようにネイティブな発音ができないために音声認識に失敗するということが少なくなる。
【００３１】
（第２の実施形態）
第２の実施形態は、音声合成処理に関するものである。本実施形態に係る音声処理装置の構成は図１に示したものと同様であるが、本実施形態における音声処理プログラムは、第１の実施形態における音声認識モジュールのかわりに、図８に示すような構成の音声合成モジュール１０を有する。
【００３２】
本実施形態における音声合成は多言語対応であり、たとえば日本語、英語、中国語の３カ国語に対応する。これに伴い、音声合成モジュール１０は、図８に示すように、各国語用の合成モジュール１１，１２，１３を含み、後述する方法によって選択された言語に対応する合成モジュールが実行される。日本語用の合成モジュール１１は、たとえば図示のような構成を有する。テキスト解析モジュール１４は、入力された日本語テキストの構文解析（具体的には、形態素解析）を、言語辞書１４ａを用いて行う。言語辞書１４ａは、図示のように、ネイティブ用のものと、非ネイティブ用のものとを個別に備えていることが好ましい。言語処理モジュール１５は音韻処理モジュール１５ａと韻律処理モジュール１５ｂとを含み、音韻処理モジュール１５ａは、テキストの解析結果に基づき音素記号列を出力し、韻律処理モジュール１５ｂは、ポーズ、アクセント、イントネーション、継続時間長などの韻律情報を出力する。音響処理モジュール１６は、入力した音素記号列および韻律情報に基づいて、波形辞書１７を用いて合成音声を生成する。また、波形辞書はネイティブ話者用のものと、非ネイティブ話者用のものとを個別に備えている。なお、英語用の合成モジュール１２および中国語用の合成モジュール１３も、日本語用の合成モジュール１１と同様の構成であるので、図示およびその説明は省略する。
【００３３】
図９は、本実施形態における音声合成の動作条件の設定処理を示すフローチャートである。
【００３４】
まず、ステップＳ３０１において、利用者の母国語や利用者が音で聞いて理解（聴解）できる言語およびそのレベルなどに関する聴解言語情報を獲得する。利用者の母国語に関しては、第１の実施形態で説明した図４と同様の母国語選択画面を操作表示部１０６に表示し、利用者に選択させることによって獲得する。また、利用者が聴解できる言語およびそのレベルに関する情報に関しても、第１の実施形態で説明した図５と同様の発話レベル選択画面を操作表示部１０６に表示し、利用者に選択させることによって獲得する。
【００３５】
なお、聴解言語情報は、予めファイルなどに利用者ごとの聴解言語情報を格納して、この情報をもとに獲得してもよい。この場合、利用者は利用者ＩＤの入力などの操作を行うことによって、利用者に関する情報を通知することが好ましい。
【００３６】
また、利用者が聴解できる言語のレベルに関する情報に関しては、所定内容の音声合成に対する利用者の応答結果もしくは応答時間などに基づいて獲得するようにしてもよい。
【００３７】
次に、ステップＳ３０２において、聴解言語情報に基づいて音声出力の言語を選択する。利用者の母国語が英語、日本語、中国語のいずれかである場合には、その母国語による音声合成を実行すればよい。しかし、利用者の母国語がこれらの３言語以外である場合には、利用者に対してなるべく負担の少ない言語を選択する必要がある。すなわち、音声出力が可能な言語のうち利用者がどの言語が聴解しやすいかという情報を獲得する必要がある。発話レベル選択画面を介してこの情報が獲得できる場合には、その情報を用いて音声出力の言語を設定する。
【００３８】
なお、先のステップＳ３０１では、母国語選択画面や発話レベル選択画面を介して、それぞれ、利用者の母国語と利用者が聴解できる言語およびそのレベルに関するものの両方を、聴解言語情報として取得していたが、これは少なくともいずれか一方を取得できればよい。例えば、図４の母国語選択画面を介して母国語に関する情報が得られない場合には、直接対応する母国語の合成モジュールを特定することができなくなるが、少なくとも、図５の発話レベル選択画面を介して得られた情報に基づいて音声合成の動作条件や言語を設定することができる。逆に、図５の発話レベル選択画面を介して利用者が聴解できる言語およびそのレベルに関する情報が得られない場合には、図４の母国語選択画面を介して得られた母国語の情報に基づいて、その母国語を話す人の一般的な利用者が聴解できる言語およびそのレベルに関する情報を例えば図１０に示すような形で親密度として予め求めておくことにより、音声合成の動作条件や言語を設定することができる。
【００３９】
次に、ステップＳ３０３において、音声合成の動作条件を設定する。この際、図５と同様の発話レベル選択画面を介して得られる利用者が選択した言語に対する聴解レベルをその言語に対する「親密度」として捉え、親密度の値に応じて、音声合成の動作条件を変更する。なお、聴解レベルと親密度は、第１の実施形態で述べた方法と同様に規定することが可能である。
【００４０】
親密度に応じた音声合成の動作条件は、親密度と動作条件との対応関係を記述した動作条件テーブルを参照することで決定される。この動作条件テーブルは、たとえば図１１に示すような構造で、音声処理プログラムに付随してハードディスク１０４に格納される。音声合成の動作条件としては、音声合成の発声速度など韻律的な要因に関するもの、音量など出力の要因に関するもの、波形辞書の種類など音韻的な要因に関するもの、応答文の内容など言語的な要因に関するものなどがある。
【００４１】
図１１に示した動作条件テーブルには、韻律的な要因として韻律制御における発声速度、出力の要因に関するものとして音量、音韻的な要因としてｎａｔｉｖｅもしくはｎｏｎ−ｎａｔｉｖｅの波形辞書の選択、言語的な要因として応答文の内容および繰り返し回数などが規定されている。図１１を参照すると、たとえば親密度が６の場合には、発声速度はゆっくり、音量は７（０を最小音量、９を最大音量とする１０段階のうちの７）、ｎｏｎ−ｎａｔｉｖｅ音声を利用した波形辞書、丁寧な応答文を用いる、といった音声合成の動作条件が設定される。したがって、このステップＳ３０３では、ステップＳ３０２で選択された言語の音声合成モジュールが選択され、さらに、親密度に応じて、波形辞書のうちｎａｔｉｖｅ用かｎｏｎ−ｎａｔｉｖｅ用のものが選択される。
【００４２】
なお、図８では、波形辞書にｎｏｎ−ｎａｔｉｖｅの波形辞書が存在するが、ｎｏｎ−ｎａｔｉｖｅの波形辞書を含まない構成としてもよい。また、ｎｏｎ−ｎａｔｉｖｅの波形辞書は１つでなく、ｎｏｎ−ｎａｔｉｖｅの度合いや母国語の種類やカテゴリに応じた複数の波形辞書を用いた構成としてもよい。ここで、ｎａｔｉｖｅの波形辞書は、通常用いられる方法によって作成すればよい。次に、ｎｏｎ−ｎａｔｉｖｅの波形辞書は、ｎｏｎ−ｎａｔｉｖｅがｎａｔｉｖｅの言語を発声した音声データを用いて作成することができる。他にも、ｎｏｎ−ｎａｔｉｖｅがｎｏｎ−ｎａｔｉｖｅの言語を発声した音声データと、ｎｏｎ−ｎａｔｉｖｅの言語の音素体系（発音体系）とｎａｔｉｖｅの言語の音素体系（発音体系）を対応付けることによって作成することもできる。
【００４３】
このようにして、利用者の母国語や聴解可能な言語の聴解レベルに応じて音声合成の動作条件が設定される。このため、非母国語を音声合成させる場合には、ｎｏｎ−ｎａｔｉｖｅ用として調整された音韻、韻律情報に従い音声合成が実行されるように設定されるので、音声出力の内容の理解の向上に役立つ。
【００４４】
（第３の実施形態）
第１の実施形態では、音声認識機能を有する音声処理装置について説明し、第２の実施形態では、音声合成機能を有する音声処理装置について説明したが、第１の実施形態と第２の実施形態とを組み合わせて、音声認識機能と音声合成機能の両方を兼ね備えた音声処理装置を実現することも可能である。
【００４５】
第３の実施形態に係る音声処理装置の構成は図１に示したものと同様であるが、本実施形態における音声処理プログラムは、第１の実施形態おける音声認識モジュールと、第２の実施形態における音声合成モジュールとを含む。
【００４６】
図１２は、本実施形態における音声認識および音声合成の動作条件の設定処理を示すフローチャートである。
【００４７】
動作の手順は、ステップＳ４０１において、発話および聴解言語に関する情報を同時に獲得していること以外は、第１および第２の実施形態における処理と同様である。ここで、音声認識の言語および音声合成の言語で用いる言語についてはそれぞれステップＳ４０２およびステップＳ４０４で、第１および第２の実施形態で説明した方法に従い、独立に求めることも可能であるが、利用者によっては音声認識と音声合成の言語が異なると違和感があると考えられるため、音声認識と音声合成の親密度の和が最大となる言語を音声認識および音声合成に対して適用することも可能である。
【００４８】
（他の実施形態）
以上、本発明の実施形態を詳述したが、本発明は、例えばシステム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能である。また、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
【００４９】
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。
【００５０】
従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
【００５１】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。
【００５２】
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ、ＤＶＤ−Ｒ）などがある。
【００５３】
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明のクレームに含まれるものである。
【００５４】
また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
【００５５】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
【００５６】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
【００５７】
【発明の効果】
本発明によれば、音声処理システムにおいて、音声認識または音声合成が利用者の母国語に対応していない場合に、利用者にとってなるべく抵抗のない言語を使用し、なおかつ、その言語が非母国語であることを考慮した音声認識や音声合成が提供される。
【図面の簡単な説明】
【図１】実施形態における音声処理装置の構成を示すブロック図である。
【図２】実施形態における音声認識モジュールの構成を示す図である。
【図３】実施形態における音声認識の動作条件の設定処理を示すフローチャートである。
【図４】実施形態における母国語選択画面の一例を示す図である。
【図５】実施形態における発話レベル選択画面の一例を示す図である。
【図６】母国語毎の他の言語に対する親密度の例を示す図である。
【図７】実施形態における音声認識の動作条件テーブルの一例を示す図である。
【図８】実施形態における音声合成モジュールの構成を示す図である。
【図９】実施形態における音声合成の動作条件の設定処理を示すフローチャートである。
【図１０】母国語毎の他の言語に対する親密度の例を示す図である。
【図１１】実施形態における音声合成の動作条件テーブルの一例を示す図である。
【図１２】実施形態における音声認識および音声合成の動作条件の設定処理を示すフローチャートである。

Claims

複数の言語から選択された言語の音声認識を行う音声処理装置であって、
利用者の言語能力に関する情報を取得する取得手段と、
取得した言語能力に関する情報に基づいて、音声認識の対象とする言語を前記複数の言語から選択する選択手段と、
前記言語能力に関する情報と認識対象の言語とに基づいて、音声認識の動作条件を設定する設定手段と、
を有することを特徴とする音声処理装置。
前記言語能力に関する情報は、母国語情報と、前記複数の言語のうち少なくともいずれかの言語の発話レベル情報とを含むことを特徴とする請求項１に記載の音声処理装置。
前記選択手段は、利用者の母国語が前記複数の言語に含まれていないときは、前記発話レベル情報に基づいて当該母国語以外の言語を選択することを特徴とする請求項２に記載の音声処理装置。
前記動作条件は、認識候補の探索条件、認識結果の出力条件、音響モデルの選択、言語モデルの選択、単語辞書の選択、の少なくともいずれかを含むことを特徴とする請求項１に記載の音声処理装置。
複数の言語からいずれかの言語を選択して音声認識を行う方法であって、
利用者の言語能力に関する情報を取得するステップと、
取得した言語能力に関する情報に基づいて、音声認識の対象とする言語を前記複数の言語から選択するステップと、
前記言語能力に関する情報と認識対象の言語とに基づいて、音声認識の動作条件を設定するステップと、
を有することを特徴とする方法。
複数の言語からいずれかの言語を選択して音声認識を行わせるために、コンピュータに、
利用者の言語能力に関する情報を取得するステップ、
取得した言語能力に関する情報に基づいて、音声認識の対象とする言語を前記複数の言語から選択するステップ、
前記言語能力に関する情報と認識対象の言語とに基づいて、音声認識の動作条件を設定するステップ、
を実行させるためのプログラム。
複数の言語から選択された言語の音声合成を行う音声処理装置であって、
利用者の言語能力に関する情報を取得する取得手段と、
取得した言語能力に関する情報に基づいて、音声合成を行う言語を前記複数の言語から選択する選択手段と、
前記言語能力に関する情報と音声合成を行う言語とに基づいて、音声合成の動作条件を設定する設定手段と、
を有することを特徴とする音声処理装置。
前記言語能力に関する情報は、母国語情報と、前記複数の言語のうち少なくともいずれかの言語の聴解レベル情報とを含むことを特徴とする請求項７に記載の音声処理装置。
前記選択手段は、利用者の母国語が前記複数の言語に含まれていないときは、前記聴解レベル情報に基づいて当該母国語以外の言語を選択することを特徴とする請求項８に記載の音声処理装置。
前記動作条件は、発声速度、音量、波形辞書の選択、応答文の内容、の少なくともいずれかを含むことを特徴とする請求項７に記載の音声処理装置。
複数の言語からいずれかの言語を選択して音声合成を行う方法であって、
利用者の言語能力に関する情報を取得するステップと、
取得した言語能力に関する情報に基づいて、音声合成を行う言語を前記複数の言語から選択するステップと、
前記言語能力に関する情報と音声合成を行う言語とに基づいて、音声合成の動作条件を設定するステップと、
を有することを特徴とする方法。
複数の言語からいずれかの言語を選択して音声合成を行わせるために、コンピュータに、
利用者の言語能力に関する情報を取得するステップ、
取得した言語能力に関する情報に基づいて、音声合成を行う言語を前記複数の言語から選択するステップ、
前記言語能力に関する情報と音声合成を行う言語とに基づいて、音声合成の動作条件を設定するステップ、
を実行させるためのプログラム。