JP2005031150A - 音声処理装置および方法 - Google Patents
音声処理装置および方法 Download PDFInfo
- Publication number
- JP2005031150A JP2005031150A JP2003193112A JP2003193112A JP2005031150A JP 2005031150 A JP2005031150 A JP 2005031150A JP 2003193112 A JP2003193112 A JP 2003193112A JP 2003193112 A JP2003193112 A JP 2003193112A JP 2005031150 A JP2005031150 A JP 2005031150A
- Authority
- JP
- Japan
- Prior art keywords
- language
- speech
- information
- languages
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】音声認識または音声合成が利用者の母国語に対応していない場合に、利用者にとってなるべく抵抗のない言語を使用し、なおかつ、その言語が非母国語であることを考慮した音声認識や音声合成を実行させる。
【解決手段】利用者の言語能力に関する情報を取得し(ステップS201)、取得した言語能力に関する情報に基づいて、音声認識の対象とする言語を複数の言語から選択し(ステップS202)、上記言語能力に関する情報と認識対象の言語とに基づいて、音声認識の動作条件を設定する(ステップS203)。
【選択図】 図3
【解決手段】利用者の言語能力に関する情報を取得し(ステップS201)、取得した言語能力に関する情報に基づいて、音声認識の対象とする言語を複数の言語から選択し(ステップS202)、上記言語能力に関する情報と認識対象の言語とに基づいて、音声認識の動作条件を設定する(ステップS203)。
【選択図】 図3
Description
【0001】
【発明の属する技術分野】
本発明は、多言語の音声を認識しうる音声処理装置および方法、ならびに多言語の音声を出力しうる音声処理装置および方法に関するものである。
【0002】
【従来の技術】
近年、複数の言語の音声を認識しうる音声認識装置、および複数の言語の音声を出力しうる音声合成装置が開発されつつある。ただし、現状の多言語に対応した音声認識装置や音声合成装置では、あらかじめ利用者が使用する言語を指定する必要がある。ここで、利用者の母国語がこれらの装置が処理可能な言語に含まれていない場合には、利用者にとってなるべく抵抗のない言語を選択し、利用者が操作しやすいようにこれらの装置を動作させることが望ましい。
【0003】
また、多言語音声認識装置および多言語音声合成装置を用いた多言語音声対話システムを考えた場合、理想的には音声認識装置が取り扱う言語の種類と音声合成装置が取り扱う言語の種類は同一であることが望ましいが、現実にはそうであるとは限らない。例えば、ある多言語音声対話システムにおいて、音声認識は、英語、日本語、ドイツ語、フランス語、イタリア語の5か国語に対応しているが、音声合成は、英語、日本語、中国語の3か国語にだけ対応している、という場合もある。この場合、英語や日本語を母国語とする利用者にとっては、音声認識および音声合成ともこれらの言語に対応しているため問題はない。しかし、例えばドイツ語に対しては、音声認識は可能であるが音声合成はできないことになる。逆に、中国語に対しては、音声合成は可能であるが音声認識ができない。
【0004】
そこでこのような場合の次善策として、ドイツ語を母国語としている利用者に対しては、ドイツ語以外の適切な言語が音声合成の言語として設定されることが望ましい。同様に、中国語を母国語としている利用者に対しては、中国語以外の適切な言語が音声認識の言語として設定されることが望ましい。また、例えば、音声認識および音声合成のいずれも対応していないオランダ語を母国語とする利用者がこの多言語音声対話システムを利用する場合は、使用可能な言語のうちの適切な言語が音声認識および音声合成の言語として設定されることが望ましい。
【0005】
このような要請に対し、例えば特許文献1には、言語ごとに、音声認識、言語解析、言語生成、音声合成のオブジェクトによって言語依存オブジェクトを構成する音声翻訳システムにおいて、指定された言語依存オブジェクトが存在しない場合に、指定言語に最も近い(近さの定義の記述はなし)言語が選択されることが記載されている。
【0006】
【特許文献1】
特開2001−222530公報
【0007】
【発明が解決しようとする課題】
しかしながら、特許文献1に開示された方法により単に近い言語を選択させてオブジェクトを動作させてしまうと、利用者にとっては非母国語のオブジェクトを母国語のオブジェクトとして利用することになり、例えば、音声出力の発声スピードが速すぎるため利用者が理解できなかったり、ネイティブな発音ができないために音声認識に失敗するという問題が生じる可能性がある。
【0008】
そこで、本発明は、音声処理システムにおいて、音声認識または音声合成が利用者の母国語に対応していない場合に、利用者にとってなるべく抵抗のない言語を使用し、なおかつ、その言語が非母国語であることを考慮した音声認識や音声合成が提供されるようにすることを目的とする。
【0009】
【課題を解決するための手段】
本発明の一側面によれば、複数の言語から選択された言語の音声認識を行う音声処理装置であって、利用者の言語能力に関する情報を取得する取得手段と、取得した言語能力に関する情報に基づいて、音声認識の対象とする言語を前記複数の言語から選択する選択手段と、前記言語能力に関する情報と認識対象の言語とに基づいて、音声認識の動作条件を設定する設定手段とを有することを特徴とする音声処理装置が提供される。
【0010】
本発明の別の側面によれば、複数の言語から選択された言語の音声合成を行う音声処理装置であって、利用者の言語能力に関する情報を取得する取得手段と、取得した言語能力に関する情報に基づいて、音声合成を行う言語を前記複数の言語から選択する選択手段と、前記言語能力に関する情報と音声合成を行う言語とに基づいて、音声合成の動作条件を設定する設定手段とを有することを特徴とする音声処理装置が提供される。
【0011】
【発明の実施の形態】
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。
【0012】
(第1の実施形態)
図1は、本発明の第1の実施形態に係る音声処理装置の構成を示すブロック図である。この音声処理装置は典型的にはCPUを用いたコンピュータシステムで実現されうる。もちろん、CPUを使用せずに専用のハードウェアロジックで実現してもよい。
【0013】
101はCPUで、ROM102や外部記憶装置104からRAM103にロードされたプログラムに従って、本音声処理装置全体の制御を司る。ROM102はブートプログラムや各種パラメータなどを格納している。RAM103は、CPU101による各種制御の実行時に作業領域を提供する主記憶装置として機能する。
【0014】
104は外部記憶装置としてのハードディスク装置で、図示するように、ここにOSの他、音声処理プログラムがインストールされている。この音声処理プログラムは多言語対応の音声認識プログラムを含んでいる。なお、音声処理プログラムは例えばCD−ROM110aに格納されて提供され、CD−ROMドライブ110を介して外部記憶装置104にインストールされる。あるいは、図示しないネットワークを介して音声処理プログラムの提供を受けることも可能である。
【0015】
105はマイクロフォンなどによる音声入力部である。106は液晶タッチパネルなどの操作表示部であり、処理内容の設定・入力、文字、画像による通知などの表示・出力を行う。107は補助入出力部で、例えば、ボタン、テンキー、キーボード、マウス、ペン、スイッチ、LEDなどの光情報、点字、アクチュエータなどで構成されうる。108はスピーカなどの音声出力部であり、利用者へのメッセージの通知などを行う。109は上記各部を接続するバスである。
【0016】
図2は、本実施形態における音声処理プログラムの音声認識モジュールの構成を示す図である。
【0017】
音声認識モジュールは、音響分析モジュール1と、探索モジュール2に大別される。音響分析モジュール1は、音声入力部105を介して入力された音声に対して、一定のフレーム間隔で音響特徴ベクトル(例えば、Δパワー、MFCCなどで構成される)に変換する。探索モジュール2は、音響モデル3および単語辞書5を用いて、言語モデル(もしくは文法)4によって言語的な制約を加えつつ探索を行う。
【0018】
実施形態における音声認識は多言語対応であり、たとえば日本語、英語、ドイツ語、フランス語、イタリア語の5カ国語に対応する。ここで、音響モデル3、言語モデル4、および単語辞書5はそれぞれ、図示のように、上記の各言語毎に、ネイティブ(native)話者用のものと、非ネイティブ(non−native)話者用のものを個別に含む。そして、後述する方法によって選択された言語の音響モデル、言語モデル、単語辞書が選択されて探索処理が実行される。
【0019】
図3は、本実施形態における音声認識の動作条件の設定処理を示すフローチャートである。
【0020】
まず、ステップS201において、利用者の母国語や利用者が発話できる言語およびそのレベルなどに関する発話言語情報を言語能力に関する情報として獲得する。利用者の母国語に関しては、たとえば図4に示すような母国語選択画面を操作表示部106に表示し、利用者に選択させることによって獲得する。ここで例えば、利用者が「Deutch」を選択した場合には、利用者の母国語はオランダ語となる。
【0021】
なお、上記のような母国語選択画面を介して発話言語情報を獲得するのではなく、予めファイルなどに利用者ごとの発話言語情報を格納して、この情報をもとに獲得してもよい。この場合、利用者は利用者IDの入力などの操作を行ったことに応じて、その利用者に関する情報を通知することが好ましい。
【0022】
あるいは、発話言語情報は、利用者の発声内容に基づきその言語を識別する方法を用いることによって獲得するようにしてもよい。
【0023】
利用者が発話できる言語およびそのレベルに関する情報に関しては、図5に示すような発話レベル選択画面を操作表示部106に表示し、利用者に選択させることによって獲得する。例えば、各言語の発話レベルが5段階(1が低く、5が高い)で与えられ、利用者がいずれか適当なものを選択することができる。同図の例は、英語の発話レベル4が選択された状態を示している。
【0024】
なお、利用者が発話できる言語およびそのレベルに関する情報に関しては、上記のような発話レベル選択画面を介して獲得するのではなく、利用者に所定の音声を発声させ、その発声内容を音声認識にかけ、そのときの音声認識率、尤度、スコアなどの情報に基づいて獲得するようにしてもよい。他にも、音声認識によらない方法として、一般的な語学レベルを測定するテストを利用して発話レベルを獲得してもよい。
【0025】
次に、ステップS202において、発話言語情報に基づいて音声認識の対象とする言語を選択する。利用者の母国語が英語、日本語、ドイツ語、フランス語、イタリア語のいずれかである場合には、その母国語による音声認識を実行すればよい。しかし、利用者の母国語がこれら以外である場合には、利用者に対してなるべく負担の少ない言語を選択する必要がある。すなわち、音声認識の対象となりうる複数の言語のうち利用者がどの言語を話すことができるかという情報を獲得する必要がある。図5に示した発話レベル選択画面を介してこの情報が獲得できる場合には、最も高い発話レベルとして設定された言語を音声認識の対象言語として設定する。このとき、最も高い発話レベルが複数の言語に対して存在する場合には、利用者にそれらの言語を提示し、選択させる、もしくは、音声認識モジュールの不特定話者に対する認識率がより高い言語を自動的に選択することになどよって決定することができる。
【0026】
なお、先のステップS201では、図4に示したような母国語選択画面や図5に示したような発話レベル選択画面を介して、それぞれ、利用者の母国語の情報と、利用者が発話できる言語およびそのレベルに関する情報の両方を、発話言語情報として取得していたが、これは少なくともいずれか一方が取得できればよい。例えば、図4の母国語選択画面を介して母国語に関する情報が得られない場合には、直接対応する母国語の音響モデルや言語モデルを選択することはできなくなるが、少なくとも、図5の発話レベル選択画面を介して得られた情報に基づいて音声認識の動作条件や言語を設定することはできる。逆に、図5の発話レベル選択画面を介して利用者の発話できる言語およびそのレベルに関する情報が得られない場合には、少なくとも、図4の母国語選択画面を介して得られた母国語の情報に基づいて、その母国語を話す人の一般的な利用者が発話できる言語およびそのレベルに関する情報を例えば図6に示すような形で親密度(たとえば10段階で表され、10が最も親密度が高い)として予め求めておくことにより、音声認識の動作条件や言語を設定することができる。
【0027】
次に、ステップS203において、音声認識の動作条件を設定する。この際、図5に示した発話レベル選択画面を介して得られる利用者の使用言語に対する発話レベルをその言語に対する「親密度」として捉え、親密度の値に応じて、音声認識の動作条件を変更する。例えば、図5における1から5までの発話レベルを2倍したもので親密度を定義することができる。そして、親密度に応じた音声認識の動作条件は、親密度と動作条件との対応関係を記述した動作条件テーブルを参照することで決定される。この動作条件テーブルは、たとえば図7に示すような構造で、音声処理プログラムに付随してハードディスク104に格納される。音声認識の動作条件としては、音声認識の探索条件など探索処理に関するもの、認識候補の数など結果出力に関するもの、音響モデルの種類など音響的なモデルに関するもの、音声認識の語彙や文法など言語的なモデルに関するものなどがある。
【0028】
図7に示した動作条件テーブルには、探索条件としてビームサーチにおけるビーム幅の値、Nベスト出力(上位N位までの文仮説が生成される)のNの数、音響モデルにおけるnative/non−nativeの選択、言語モデルにおけるnative/non−nativeの選択などが規定されている。 図7を参照すると、たとえば親密度が6の場合には、ビーム幅を200、Nベスト出力数を5、non−native用の音響モデル、non−native用の認識文法を用いる、といった音声認識の動作条件が設定される。したがって、このステップS203では、ステップS202で選択された言語の音響モデル、言語モデル、単語辞書のそれぞれについて、親密度に応じてnative用かnon−native用かが選択される。
【0029】
なお、図2では、音響モデル、言語モデル、単語辞書の全てについてnon−nativeのモデルが存在するが、これらのいくつかについてのみnon−nativeのモデルを含んだ構成としてもよいし、non−nativeのモデルを含まない構成としてもよい。また、non−nativeのモデルは1つでなく、non−nativeの度合いや母国語の種類やカテゴリに応じた複数のモデルを用いた構成としてもよい。ここで、nativeのモデルは、通常用いられる方法によって、音響モデル、言語モデル、単語辞書を作成すればよい。次に、non−nativeの音響モデルは、non−nativeが発声した音声データベースを用いて音響モデルを作成することができる。また、non−nativeの言語モデルは、平易な単語や短文で構成された簡単な文法を作成する方法や、平易な単語や短文を用いたN−gramなどの統計的言語モデルを作成する方法を用いることができる。また,non−nativeの単語辞書は、non−nativeが発声しやすい発音辞書を作成することができる。
【0030】
このようにして、利用者の発話言語および発話レベルに応じて音声認識の動作条件が設定される。このため、非母国語を音声認識させる場合にはnon−native用の音響モデル、言語モデル、単語辞書を用いて音声認識が実行されるように設定されるので、従来のようにネイティブな発音ができないために音声認識に失敗するということが少なくなる。
【0031】
(第2の実施形態)
第2の実施形態は、音声合成処理に関するものである。本実施形態に係る音声処理装置の構成は図1に示したものと同様であるが、本実施形態における音声処理プログラムは、第1の実施形態における音声認識モジュールのかわりに、図8に示すような構成の音声合成モジュール10を有する。
【0032】
本実施形態における音声合成は多言語対応であり、たとえば日本語、英語、中国語の3カ国語に対応する。これに伴い、音声合成モジュール10は、図8に示すように、各国語用の合成モジュール11,12,13を含み、後述する方法によって選択された言語に対応する合成モジュールが実行される。日本語用の合成モジュール11は、たとえば図示のような構成を有する。テキスト解析モジュール14は、入力された日本語テキストの構文解析(具体的には、形態素解析)を、言語辞書14aを用いて行う。言語辞書14aは、図示のように、ネイティブ用のものと、非ネイティブ用のものとを個別に備えていることが好ましい。言語処理モジュール15は音韻処理モジュール15aと韻律処理モジュール15bとを含み、音韻処理モジュール15aは、テキストの解析結果に基づき音素記号列を出力し、韻律処理モジュール15bは、ポーズ、アクセント、イントネーション、継続時間長などの韻律情報を出力する。音響処理モジュール16は、入力した音素記号列および韻律情報に基づいて、波形辞書17を用いて合成音声を生成する。また、波形辞書はネイティブ話者用のものと、非ネイティブ話者用のものとを個別に備えている。なお、英語用の合成モジュール12および中国語用の合成モジュール13も、日本語用の合成モジュール11と同様の構成であるので、図示およびその説明は省略する。
【0033】
図9は、本実施形態における音声合成の動作条件の設定処理を示すフローチャートである。
【0034】
まず、ステップS301において、利用者の母国語や利用者が音で聞いて理解(聴解)できる言語およびそのレベルなどに関する聴解言語情報を獲得する。利用者の母国語に関しては、第1の実施形態で説明した図4と同様の母国語選択画面を操作表示部106に表示し、利用者に選択させることによって獲得する。また、利用者が聴解できる言語およびそのレベルに関する情報に関しても、第1の実施形態で説明した図5と同様の発話レベル選択画面を操作表示部106に表示し、利用者に選択させることによって獲得する。
【0035】
なお、聴解言語情報は、予めファイルなどに利用者ごとの聴解言語情報を格納して、この情報をもとに獲得してもよい。この場合、利用者は利用者IDの入力などの操作を行うことによって、利用者に関する情報を通知することが好ましい。
【0036】
また、利用者が聴解できる言語のレベルに関する情報に関しては、所定内容の音声合成に対する利用者の応答結果もしくは応答時間などに基づいて獲得するようにしてもよい。
【0037】
次に、ステップS302において、聴解言語情報に基づいて音声出力の言語を選択する。利用者の母国語が英語、日本語、中国語のいずれかである場合には、その母国語による音声合成を実行すればよい。しかし、利用者の母国語がこれらの3言語以外である場合には、利用者に対してなるべく負担の少ない言語を選択する必要がある。すなわち、音声出力が可能な言語のうち利用者がどの言語が聴解しやすいかという情報を獲得する必要がある。発話レベル選択画面を介してこの情報が獲得できる場合には、その情報を用いて音声出力の言語を設定する。
【0038】
なお、先のステップS301では、母国語選択画面や発話レベル選択画面を介して、それぞれ、利用者の母国語と利用者が聴解できる言語およびそのレベルに関するものの両方を、聴解言語情報として取得していたが、これは少なくともいずれか一方を取得できればよい。例えば、図4の母国語選択画面を介して母国語に関する情報が得られない場合には、直接対応する母国語の合成モジュールを特定することができなくなるが、少なくとも、図5の発話レベル選択画面を介して得られた情報に基づいて音声合成の動作条件や言語を設定することができる。逆に、図5の発話レベル選択画面を介して利用者が聴解できる言語およびそのレベルに関する情報が得られない場合には、図4の母国語選択画面を介して得られた母国語の情報に基づいて、その母国語を話す人の一般的な利用者が聴解できる言語およびそのレベルに関する情報を例えば図10に示すような形で親密度として予め求めておくことにより、音声合成の動作条件や言語を設定することができる。
【0039】
次に、ステップS303において、音声合成の動作条件を設定する。この際、図5と同様の発話レベル選択画面を介して得られる利用者が選択した言語に対する聴解レベルをその言語に対する「親密度」として捉え、親密度の値に応じて、音声合成の動作条件を変更する。なお、聴解レベルと親密度は、第1の実施形態で述べた方法と同様に規定することが可能である。
【0040】
親密度に応じた音声合成の動作条件は、親密度と動作条件との対応関係を記述した動作条件テーブルを参照することで決定される。この動作条件テーブルは、たとえば図11に示すような構造で、音声処理プログラムに付随してハードディスク104に格納される。音声合成の動作条件としては、音声合成の発声速度など韻律的な要因に関するもの、音量など出力の要因に関するもの、波形辞書の種類など音韻的な要因に関するもの、応答文の内容など言語的な要因に関するものなどがある。
【0041】
図11に示した動作条件テーブルには、韻律的な要因として韻律制御における発声速度、出力の要因に関するものとして音量、音韻的な要因としてnativeもしくはnon−nativeの波形辞書の選択、言語的な要因として応答文の内容および繰り返し回数などが規定されている。 図11を参照すると、たとえば親密度が6の場合には、発声速度はゆっくり、音量は7(0を最小音量、9を最大音量とする10段階のうちの7)、non−native音声を利用した波形辞書、丁寧な応答文を用いる、といった音声合成の動作条件が設定される。したがって、このステップS303では、ステップS302で選択された言語の音声合成モジュールが選択され、さらに、親密度に応じて、波形辞書のうちnative用かnon−native用のものが選択される。
【0042】
なお、図8では、波形辞書にnon−nativeの波形辞書が存在するが、non−nativeの波形辞書を含まない構成としてもよい。また、non−nativeの波形辞書は1つでなく、non−nativeの度合いや母国語の種類やカテゴリに応じた複数の波形辞書を用いた構成としてもよい。ここで、nativeの波形辞書は、通常用いられる方法によって作成すればよい。次に、non−nativeの波形辞書は、non−nativeがnativeの言語を発声した音声データを用いて作成することができる。他にも、non−nativeがnon−nativeの言語を発声した音声データと、non−nativeの言語の音素体系(発音体系)とnativeの言語の音素体系(発音体系)を対応付けることによって作成することもできる。
【0043】
このようにして、利用者の母国語や聴解可能な言語の聴解レベルに応じて音声合成の動作条件が設定される。このため、非母国語を音声合成させる場合には、non−native用として調整された音韻、韻律情報に従い音声合成が実行されるように設定されるので、音声出力の内容の理解の向上に役立つ。
【0044】
(第3の実施形態)
第1の実施形態では、音声認識機能を有する音声処理装置について説明し、第2の実施形態では、音声合成機能を有する音声処理装置について説明したが、第1の実施形態と第2の実施形態とを組み合わせて、音声認識機能と音声合成機能の両方を兼ね備えた音声処理装置を実現することも可能である。
【0045】
第3の実施形態に係る音声処理装置の構成は図1に示したものと同様であるが、本実施形態における音声処理プログラムは、第1の実施形態おける音声認識モジュールと、第2の実施形態における音声合成モジュールとを含む。
【0046】
図12は、本実施形態における音声認識および音声合成の動作条件の設定処理を示すフローチャートである。
【0047】
動作の手順は、ステップS401において、発話および聴解言語に関する情報を同時に獲得していること以外は、第1および第2の実施形態における処理と同様である。ここで、音声認識の言語および音声合成の言語で用いる言語についてはそれぞれステップS402およびステップS404で、第1および第2の実施形態で説明した方法に従い、独立に求めることも可能であるが、利用者によっては音声認識と音声合成の言語が異なると違和感があると考えられるため、音声認識と音声合成の親密度の和が最大となる言語を音声認識および音声合成に対して適用することも可能である。
【0048】
(他の実施形態)
以上、本発明の実施形態を詳述したが、本発明は、例えばシステム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能である。また、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
【0049】
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。
【0050】
従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
【0051】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
【0052】
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM、DVD−R)などがある。
【0053】
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明のクレームに含まれるものである。
【0054】
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
【0055】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
【0056】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
【0057】
【発明の効果】
本発明によれば、音声処理システムにおいて、音声認識または音声合成が利用者の母国語に対応していない場合に、利用者にとってなるべく抵抗のない言語を使用し、なおかつ、その言語が非母国語であることを考慮した音声認識や音声合成が提供される。
【図面の簡単な説明】
【図1】実施形態における音声処理装置の構成を示すブロック図である。
【図2】実施形態における音声認識モジュールの構成を示す図である。
【図3】実施形態における音声認識の動作条件の設定処理を示すフローチャートである。
【図4】実施形態における母国語選択画面の一例を示す図である。
【図5】実施形態における発話レベル選択画面の一例を示す図である。
【図6】母国語毎の他の言語に対する親密度の例を示す図である。
【図7】実施形態における音声認識の動作条件テーブルの一例を示す図である。
【図8】実施形態における音声合成モジュールの構成を示す図である。
【図9】実施形態における音声合成の動作条件の設定処理を示すフローチャートである。
【図10】母国語毎の他の言語に対する親密度の例を示す図である。
【図11】実施形態における音声合成の動作条件テーブルの一例を示す図である。
【図12】実施形態における音声認識および音声合成の動作条件の設定処理を示すフローチャートである。
【発明の属する技術分野】
本発明は、多言語の音声を認識しうる音声処理装置および方法、ならびに多言語の音声を出力しうる音声処理装置および方法に関するものである。
【0002】
【従来の技術】
近年、複数の言語の音声を認識しうる音声認識装置、および複数の言語の音声を出力しうる音声合成装置が開発されつつある。ただし、現状の多言語に対応した音声認識装置や音声合成装置では、あらかじめ利用者が使用する言語を指定する必要がある。ここで、利用者の母国語がこれらの装置が処理可能な言語に含まれていない場合には、利用者にとってなるべく抵抗のない言語を選択し、利用者が操作しやすいようにこれらの装置を動作させることが望ましい。
【0003】
また、多言語音声認識装置および多言語音声合成装置を用いた多言語音声対話システムを考えた場合、理想的には音声認識装置が取り扱う言語の種類と音声合成装置が取り扱う言語の種類は同一であることが望ましいが、現実にはそうであるとは限らない。例えば、ある多言語音声対話システムにおいて、音声認識は、英語、日本語、ドイツ語、フランス語、イタリア語の5か国語に対応しているが、音声合成は、英語、日本語、中国語の3か国語にだけ対応している、という場合もある。この場合、英語や日本語を母国語とする利用者にとっては、音声認識および音声合成ともこれらの言語に対応しているため問題はない。しかし、例えばドイツ語に対しては、音声認識は可能であるが音声合成はできないことになる。逆に、中国語に対しては、音声合成は可能であるが音声認識ができない。
【0004】
そこでこのような場合の次善策として、ドイツ語を母国語としている利用者に対しては、ドイツ語以外の適切な言語が音声合成の言語として設定されることが望ましい。同様に、中国語を母国語としている利用者に対しては、中国語以外の適切な言語が音声認識の言語として設定されることが望ましい。また、例えば、音声認識および音声合成のいずれも対応していないオランダ語を母国語とする利用者がこの多言語音声対話システムを利用する場合は、使用可能な言語のうちの適切な言語が音声認識および音声合成の言語として設定されることが望ましい。
【0005】
このような要請に対し、例えば特許文献1には、言語ごとに、音声認識、言語解析、言語生成、音声合成のオブジェクトによって言語依存オブジェクトを構成する音声翻訳システムにおいて、指定された言語依存オブジェクトが存在しない場合に、指定言語に最も近い(近さの定義の記述はなし)言語が選択されることが記載されている。
【0006】
【特許文献1】
特開2001−222530公報
【0007】
【発明が解決しようとする課題】
しかしながら、特許文献1に開示された方法により単に近い言語を選択させてオブジェクトを動作させてしまうと、利用者にとっては非母国語のオブジェクトを母国語のオブジェクトとして利用することになり、例えば、音声出力の発声スピードが速すぎるため利用者が理解できなかったり、ネイティブな発音ができないために音声認識に失敗するという問題が生じる可能性がある。
【0008】
そこで、本発明は、音声処理システムにおいて、音声認識または音声合成が利用者の母国語に対応していない場合に、利用者にとってなるべく抵抗のない言語を使用し、なおかつ、その言語が非母国語であることを考慮した音声認識や音声合成が提供されるようにすることを目的とする。
【0009】
【課題を解決するための手段】
本発明の一側面によれば、複数の言語から選択された言語の音声認識を行う音声処理装置であって、利用者の言語能力に関する情報を取得する取得手段と、取得した言語能力に関する情報に基づいて、音声認識の対象とする言語を前記複数の言語から選択する選択手段と、前記言語能力に関する情報と認識対象の言語とに基づいて、音声認識の動作条件を設定する設定手段とを有することを特徴とする音声処理装置が提供される。
【0010】
本発明の別の側面によれば、複数の言語から選択された言語の音声合成を行う音声処理装置であって、利用者の言語能力に関する情報を取得する取得手段と、取得した言語能力に関する情報に基づいて、音声合成を行う言語を前記複数の言語から選択する選択手段と、前記言語能力に関する情報と音声合成を行う言語とに基づいて、音声合成の動作条件を設定する設定手段とを有することを特徴とする音声処理装置が提供される。
【0011】
【発明の実施の形態】
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。
【0012】
(第1の実施形態)
図1は、本発明の第1の実施形態に係る音声処理装置の構成を示すブロック図である。この音声処理装置は典型的にはCPUを用いたコンピュータシステムで実現されうる。もちろん、CPUを使用せずに専用のハードウェアロジックで実現してもよい。
【0013】
101はCPUで、ROM102や外部記憶装置104からRAM103にロードされたプログラムに従って、本音声処理装置全体の制御を司る。ROM102はブートプログラムや各種パラメータなどを格納している。RAM103は、CPU101による各種制御の実行時に作業領域を提供する主記憶装置として機能する。
【0014】
104は外部記憶装置としてのハードディスク装置で、図示するように、ここにOSの他、音声処理プログラムがインストールされている。この音声処理プログラムは多言語対応の音声認識プログラムを含んでいる。なお、音声処理プログラムは例えばCD−ROM110aに格納されて提供され、CD−ROMドライブ110を介して外部記憶装置104にインストールされる。あるいは、図示しないネットワークを介して音声処理プログラムの提供を受けることも可能である。
【0015】
105はマイクロフォンなどによる音声入力部である。106は液晶タッチパネルなどの操作表示部であり、処理内容の設定・入力、文字、画像による通知などの表示・出力を行う。107は補助入出力部で、例えば、ボタン、テンキー、キーボード、マウス、ペン、スイッチ、LEDなどの光情報、点字、アクチュエータなどで構成されうる。108はスピーカなどの音声出力部であり、利用者へのメッセージの通知などを行う。109は上記各部を接続するバスである。
【0016】
図2は、本実施形態における音声処理プログラムの音声認識モジュールの構成を示す図である。
【0017】
音声認識モジュールは、音響分析モジュール1と、探索モジュール2に大別される。音響分析モジュール1は、音声入力部105を介して入力された音声に対して、一定のフレーム間隔で音響特徴ベクトル(例えば、Δパワー、MFCCなどで構成される)に変換する。探索モジュール2は、音響モデル3および単語辞書5を用いて、言語モデル(もしくは文法)4によって言語的な制約を加えつつ探索を行う。
【0018】
実施形態における音声認識は多言語対応であり、たとえば日本語、英語、ドイツ語、フランス語、イタリア語の5カ国語に対応する。ここで、音響モデル3、言語モデル4、および単語辞書5はそれぞれ、図示のように、上記の各言語毎に、ネイティブ(native)話者用のものと、非ネイティブ(non−native)話者用のものを個別に含む。そして、後述する方法によって選択された言語の音響モデル、言語モデル、単語辞書が選択されて探索処理が実行される。
【0019】
図3は、本実施形態における音声認識の動作条件の設定処理を示すフローチャートである。
【0020】
まず、ステップS201において、利用者の母国語や利用者が発話できる言語およびそのレベルなどに関する発話言語情報を言語能力に関する情報として獲得する。利用者の母国語に関しては、たとえば図4に示すような母国語選択画面を操作表示部106に表示し、利用者に選択させることによって獲得する。ここで例えば、利用者が「Deutch」を選択した場合には、利用者の母国語はオランダ語となる。
【0021】
なお、上記のような母国語選択画面を介して発話言語情報を獲得するのではなく、予めファイルなどに利用者ごとの発話言語情報を格納して、この情報をもとに獲得してもよい。この場合、利用者は利用者IDの入力などの操作を行ったことに応じて、その利用者に関する情報を通知することが好ましい。
【0022】
あるいは、発話言語情報は、利用者の発声内容に基づきその言語を識別する方法を用いることによって獲得するようにしてもよい。
【0023】
利用者が発話できる言語およびそのレベルに関する情報に関しては、図5に示すような発話レベル選択画面を操作表示部106に表示し、利用者に選択させることによって獲得する。例えば、各言語の発話レベルが5段階(1が低く、5が高い)で与えられ、利用者がいずれか適当なものを選択することができる。同図の例は、英語の発話レベル4が選択された状態を示している。
【0024】
なお、利用者が発話できる言語およびそのレベルに関する情報に関しては、上記のような発話レベル選択画面を介して獲得するのではなく、利用者に所定の音声を発声させ、その発声内容を音声認識にかけ、そのときの音声認識率、尤度、スコアなどの情報に基づいて獲得するようにしてもよい。他にも、音声認識によらない方法として、一般的な語学レベルを測定するテストを利用して発話レベルを獲得してもよい。
【0025】
次に、ステップS202において、発話言語情報に基づいて音声認識の対象とする言語を選択する。利用者の母国語が英語、日本語、ドイツ語、フランス語、イタリア語のいずれかである場合には、その母国語による音声認識を実行すればよい。しかし、利用者の母国語がこれら以外である場合には、利用者に対してなるべく負担の少ない言語を選択する必要がある。すなわち、音声認識の対象となりうる複数の言語のうち利用者がどの言語を話すことができるかという情報を獲得する必要がある。図5に示した発話レベル選択画面を介してこの情報が獲得できる場合には、最も高い発話レベルとして設定された言語を音声認識の対象言語として設定する。このとき、最も高い発話レベルが複数の言語に対して存在する場合には、利用者にそれらの言語を提示し、選択させる、もしくは、音声認識モジュールの不特定話者に対する認識率がより高い言語を自動的に選択することになどよって決定することができる。
【0026】
なお、先のステップS201では、図4に示したような母国語選択画面や図5に示したような発話レベル選択画面を介して、それぞれ、利用者の母国語の情報と、利用者が発話できる言語およびそのレベルに関する情報の両方を、発話言語情報として取得していたが、これは少なくともいずれか一方が取得できればよい。例えば、図4の母国語選択画面を介して母国語に関する情報が得られない場合には、直接対応する母国語の音響モデルや言語モデルを選択することはできなくなるが、少なくとも、図5の発話レベル選択画面を介して得られた情報に基づいて音声認識の動作条件や言語を設定することはできる。逆に、図5の発話レベル選択画面を介して利用者の発話できる言語およびそのレベルに関する情報が得られない場合には、少なくとも、図4の母国語選択画面を介して得られた母国語の情報に基づいて、その母国語を話す人の一般的な利用者が発話できる言語およびそのレベルに関する情報を例えば図6に示すような形で親密度(たとえば10段階で表され、10が最も親密度が高い)として予め求めておくことにより、音声認識の動作条件や言語を設定することができる。
【0027】
次に、ステップS203において、音声認識の動作条件を設定する。この際、図5に示した発話レベル選択画面を介して得られる利用者の使用言語に対する発話レベルをその言語に対する「親密度」として捉え、親密度の値に応じて、音声認識の動作条件を変更する。例えば、図5における1から5までの発話レベルを2倍したもので親密度を定義することができる。そして、親密度に応じた音声認識の動作条件は、親密度と動作条件との対応関係を記述した動作条件テーブルを参照することで決定される。この動作条件テーブルは、たとえば図7に示すような構造で、音声処理プログラムに付随してハードディスク104に格納される。音声認識の動作条件としては、音声認識の探索条件など探索処理に関するもの、認識候補の数など結果出力に関するもの、音響モデルの種類など音響的なモデルに関するもの、音声認識の語彙や文法など言語的なモデルに関するものなどがある。
【0028】
図7に示した動作条件テーブルには、探索条件としてビームサーチにおけるビーム幅の値、Nベスト出力(上位N位までの文仮説が生成される)のNの数、音響モデルにおけるnative/non−nativeの選択、言語モデルにおけるnative/non−nativeの選択などが規定されている。 図7を参照すると、たとえば親密度が6の場合には、ビーム幅を200、Nベスト出力数を5、non−native用の音響モデル、non−native用の認識文法を用いる、といった音声認識の動作条件が設定される。したがって、このステップS203では、ステップS202で選択された言語の音響モデル、言語モデル、単語辞書のそれぞれについて、親密度に応じてnative用かnon−native用かが選択される。
【0029】
なお、図2では、音響モデル、言語モデル、単語辞書の全てについてnon−nativeのモデルが存在するが、これらのいくつかについてのみnon−nativeのモデルを含んだ構成としてもよいし、non−nativeのモデルを含まない構成としてもよい。また、non−nativeのモデルは1つでなく、non−nativeの度合いや母国語の種類やカテゴリに応じた複数のモデルを用いた構成としてもよい。ここで、nativeのモデルは、通常用いられる方法によって、音響モデル、言語モデル、単語辞書を作成すればよい。次に、non−nativeの音響モデルは、non−nativeが発声した音声データベースを用いて音響モデルを作成することができる。また、non−nativeの言語モデルは、平易な単語や短文で構成された簡単な文法を作成する方法や、平易な単語や短文を用いたN−gramなどの統計的言語モデルを作成する方法を用いることができる。また,non−nativeの単語辞書は、non−nativeが発声しやすい発音辞書を作成することができる。
【0030】
このようにして、利用者の発話言語および発話レベルに応じて音声認識の動作条件が設定される。このため、非母国語を音声認識させる場合にはnon−native用の音響モデル、言語モデル、単語辞書を用いて音声認識が実行されるように設定されるので、従来のようにネイティブな発音ができないために音声認識に失敗するということが少なくなる。
【0031】
(第2の実施形態)
第2の実施形態は、音声合成処理に関するものである。本実施形態に係る音声処理装置の構成は図1に示したものと同様であるが、本実施形態における音声処理プログラムは、第1の実施形態における音声認識モジュールのかわりに、図8に示すような構成の音声合成モジュール10を有する。
【0032】
本実施形態における音声合成は多言語対応であり、たとえば日本語、英語、中国語の3カ国語に対応する。これに伴い、音声合成モジュール10は、図8に示すように、各国語用の合成モジュール11,12,13を含み、後述する方法によって選択された言語に対応する合成モジュールが実行される。日本語用の合成モジュール11は、たとえば図示のような構成を有する。テキスト解析モジュール14は、入力された日本語テキストの構文解析(具体的には、形態素解析)を、言語辞書14aを用いて行う。言語辞書14aは、図示のように、ネイティブ用のものと、非ネイティブ用のものとを個別に備えていることが好ましい。言語処理モジュール15は音韻処理モジュール15aと韻律処理モジュール15bとを含み、音韻処理モジュール15aは、テキストの解析結果に基づき音素記号列を出力し、韻律処理モジュール15bは、ポーズ、アクセント、イントネーション、継続時間長などの韻律情報を出力する。音響処理モジュール16は、入力した音素記号列および韻律情報に基づいて、波形辞書17を用いて合成音声を生成する。また、波形辞書はネイティブ話者用のものと、非ネイティブ話者用のものとを個別に備えている。なお、英語用の合成モジュール12および中国語用の合成モジュール13も、日本語用の合成モジュール11と同様の構成であるので、図示およびその説明は省略する。
【0033】
図9は、本実施形態における音声合成の動作条件の設定処理を示すフローチャートである。
【0034】
まず、ステップS301において、利用者の母国語や利用者が音で聞いて理解(聴解)できる言語およびそのレベルなどに関する聴解言語情報を獲得する。利用者の母国語に関しては、第1の実施形態で説明した図4と同様の母国語選択画面を操作表示部106に表示し、利用者に選択させることによって獲得する。また、利用者が聴解できる言語およびそのレベルに関する情報に関しても、第1の実施形態で説明した図5と同様の発話レベル選択画面を操作表示部106に表示し、利用者に選択させることによって獲得する。
【0035】
なお、聴解言語情報は、予めファイルなどに利用者ごとの聴解言語情報を格納して、この情報をもとに獲得してもよい。この場合、利用者は利用者IDの入力などの操作を行うことによって、利用者に関する情報を通知することが好ましい。
【0036】
また、利用者が聴解できる言語のレベルに関する情報に関しては、所定内容の音声合成に対する利用者の応答結果もしくは応答時間などに基づいて獲得するようにしてもよい。
【0037】
次に、ステップS302において、聴解言語情報に基づいて音声出力の言語を選択する。利用者の母国語が英語、日本語、中国語のいずれかである場合には、その母国語による音声合成を実行すればよい。しかし、利用者の母国語がこれらの3言語以外である場合には、利用者に対してなるべく負担の少ない言語を選択する必要がある。すなわち、音声出力が可能な言語のうち利用者がどの言語が聴解しやすいかという情報を獲得する必要がある。発話レベル選択画面を介してこの情報が獲得できる場合には、その情報を用いて音声出力の言語を設定する。
【0038】
なお、先のステップS301では、母国語選択画面や発話レベル選択画面を介して、それぞれ、利用者の母国語と利用者が聴解できる言語およびそのレベルに関するものの両方を、聴解言語情報として取得していたが、これは少なくともいずれか一方を取得できればよい。例えば、図4の母国語選択画面を介して母国語に関する情報が得られない場合には、直接対応する母国語の合成モジュールを特定することができなくなるが、少なくとも、図5の発話レベル選択画面を介して得られた情報に基づいて音声合成の動作条件や言語を設定することができる。逆に、図5の発話レベル選択画面を介して利用者が聴解できる言語およびそのレベルに関する情報が得られない場合には、図4の母国語選択画面を介して得られた母国語の情報に基づいて、その母国語を話す人の一般的な利用者が聴解できる言語およびそのレベルに関する情報を例えば図10に示すような形で親密度として予め求めておくことにより、音声合成の動作条件や言語を設定することができる。
【0039】
次に、ステップS303において、音声合成の動作条件を設定する。この際、図5と同様の発話レベル選択画面を介して得られる利用者が選択した言語に対する聴解レベルをその言語に対する「親密度」として捉え、親密度の値に応じて、音声合成の動作条件を変更する。なお、聴解レベルと親密度は、第1の実施形態で述べた方法と同様に規定することが可能である。
【0040】
親密度に応じた音声合成の動作条件は、親密度と動作条件との対応関係を記述した動作条件テーブルを参照することで決定される。この動作条件テーブルは、たとえば図11に示すような構造で、音声処理プログラムに付随してハードディスク104に格納される。音声合成の動作条件としては、音声合成の発声速度など韻律的な要因に関するもの、音量など出力の要因に関するもの、波形辞書の種類など音韻的な要因に関するもの、応答文の内容など言語的な要因に関するものなどがある。
【0041】
図11に示した動作条件テーブルには、韻律的な要因として韻律制御における発声速度、出力の要因に関するものとして音量、音韻的な要因としてnativeもしくはnon−nativeの波形辞書の選択、言語的な要因として応答文の内容および繰り返し回数などが規定されている。 図11を参照すると、たとえば親密度が6の場合には、発声速度はゆっくり、音量は7(0を最小音量、9を最大音量とする10段階のうちの7)、non−native音声を利用した波形辞書、丁寧な応答文を用いる、といった音声合成の動作条件が設定される。したがって、このステップS303では、ステップS302で選択された言語の音声合成モジュールが選択され、さらに、親密度に応じて、波形辞書のうちnative用かnon−native用のものが選択される。
【0042】
なお、図8では、波形辞書にnon−nativeの波形辞書が存在するが、non−nativeの波形辞書を含まない構成としてもよい。また、non−nativeの波形辞書は1つでなく、non−nativeの度合いや母国語の種類やカテゴリに応じた複数の波形辞書を用いた構成としてもよい。ここで、nativeの波形辞書は、通常用いられる方法によって作成すればよい。次に、non−nativeの波形辞書は、non−nativeがnativeの言語を発声した音声データを用いて作成することができる。他にも、non−nativeがnon−nativeの言語を発声した音声データと、non−nativeの言語の音素体系(発音体系)とnativeの言語の音素体系(発音体系)を対応付けることによって作成することもできる。
【0043】
このようにして、利用者の母国語や聴解可能な言語の聴解レベルに応じて音声合成の動作条件が設定される。このため、非母国語を音声合成させる場合には、non−native用として調整された音韻、韻律情報に従い音声合成が実行されるように設定されるので、音声出力の内容の理解の向上に役立つ。
【0044】
(第3の実施形態)
第1の実施形態では、音声認識機能を有する音声処理装置について説明し、第2の実施形態では、音声合成機能を有する音声処理装置について説明したが、第1の実施形態と第2の実施形態とを組み合わせて、音声認識機能と音声合成機能の両方を兼ね備えた音声処理装置を実現することも可能である。
【0045】
第3の実施形態に係る音声処理装置の構成は図1に示したものと同様であるが、本実施形態における音声処理プログラムは、第1の実施形態おける音声認識モジュールと、第2の実施形態における音声合成モジュールとを含む。
【0046】
図12は、本実施形態における音声認識および音声合成の動作条件の設定処理を示すフローチャートである。
【0047】
動作の手順は、ステップS401において、発話および聴解言語に関する情報を同時に獲得していること以外は、第1および第2の実施形態における処理と同様である。ここで、音声認識の言語および音声合成の言語で用いる言語についてはそれぞれステップS402およびステップS404で、第1および第2の実施形態で説明した方法に従い、独立に求めることも可能であるが、利用者によっては音声認識と音声合成の言語が異なると違和感があると考えられるため、音声認識と音声合成の親密度の和が最大となる言語を音声認識および音声合成に対して適用することも可能である。
【0048】
(他の実施形態)
以上、本発明の実施形態を詳述したが、本発明は、例えばシステム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能である。また、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
【0049】
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。
【0050】
従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
【0051】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
【0052】
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM、DVD−R)などがある。
【0053】
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明のクレームに含まれるものである。
【0054】
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
【0055】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
【0056】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
【0057】
【発明の効果】
本発明によれば、音声処理システムにおいて、音声認識または音声合成が利用者の母国語に対応していない場合に、利用者にとってなるべく抵抗のない言語を使用し、なおかつ、その言語が非母国語であることを考慮した音声認識や音声合成が提供される。
【図面の簡単な説明】
【図1】実施形態における音声処理装置の構成を示すブロック図である。
【図2】実施形態における音声認識モジュールの構成を示す図である。
【図3】実施形態における音声認識の動作条件の設定処理を示すフローチャートである。
【図4】実施形態における母国語選択画面の一例を示す図である。
【図5】実施形態における発話レベル選択画面の一例を示す図である。
【図6】母国語毎の他の言語に対する親密度の例を示す図である。
【図7】実施形態における音声認識の動作条件テーブルの一例を示す図である。
【図8】実施形態における音声合成モジュールの構成を示す図である。
【図9】実施形態における音声合成の動作条件の設定処理を示すフローチャートである。
【図10】母国語毎の他の言語に対する親密度の例を示す図である。
【図11】実施形態における音声合成の動作条件テーブルの一例を示す図である。
【図12】実施形態における音声認識および音声合成の動作条件の設定処理を示すフローチャートである。
Claims (12)
- 複数の言語から選択された言語の音声認識を行う音声処理装置であって、
利用者の言語能力に関する情報を取得する取得手段と、
取得した言語能力に関する情報に基づいて、音声認識の対象とする言語を前記複数の言語から選択する選択手段と、
前記言語能力に関する情報と認識対象の言語とに基づいて、音声認識の動作条件を設定する設定手段と、
を有することを特徴とする音声処理装置。 - 前記言語能力に関する情報は、母国語情報と、前記複数の言語のうち少なくともいずれかの言語の発話レベル情報とを含むことを特徴とする請求項1に記載の音声処理装置。
- 前記選択手段は、利用者の母国語が前記複数の言語に含まれていないときは、前記発話レベル情報に基づいて当該母国語以外の言語を選択することを特徴とする請求項2に記載の音声処理装置。
- 前記動作条件は、認識候補の探索条件、認識結果の出力条件、音響モデルの選択、言語モデルの選択、単語辞書の選択、の少なくともいずれかを含むことを特徴とする請求項1に記載の音声処理装置。
- 複数の言語からいずれかの言語を選択して音声認識を行う方法であって、
利用者の言語能力に関する情報を取得するステップと、
取得した言語能力に関する情報に基づいて、音声認識の対象とする言語を前記複数の言語から選択するステップと、
前記言語能力に関する情報と認識対象の言語とに基づいて、音声認識の動作条件を設定するステップと、
を有することを特徴とする方法。 - 複数の言語からいずれかの言語を選択して音声認識を行わせるために、コンピュータに、
利用者の言語能力に関する情報を取得するステップ、
取得した言語能力に関する情報に基づいて、音声認識の対象とする言語を前記複数の言語から選択するステップ、
前記言語能力に関する情報と認識対象の言語とに基づいて、音声認識の動作条件を設定するステップ、
を実行させるためのプログラム。 - 複数の言語から選択された言語の音声合成を行う音声処理装置であって、
利用者の言語能力に関する情報を取得する取得手段と、
取得した言語能力に関する情報に基づいて、音声合成を行う言語を前記複数の言語から選択する選択手段と、
前記言語能力に関する情報と音声合成を行う言語とに基づいて、音声合成の動作条件を設定する設定手段と、
を有することを特徴とする音声処理装置。 - 前記言語能力に関する情報は、母国語情報と、前記複数の言語のうち少なくともいずれかの言語の聴解レベル情報とを含むことを特徴とする請求項7に記載の音声処理装置。
- 前記選択手段は、利用者の母国語が前記複数の言語に含まれていないときは、前記聴解レベル情報に基づいて当該母国語以外の言語を選択することを特徴とする請求項8に記載の音声処理装置。
- 前記動作条件は、発声速度、音量、波形辞書の選択、応答文の内容、の少なくともいずれかを含むことを特徴とする請求項7に記載の音声処理装置。
- 複数の言語からいずれかの言語を選択して音声合成を行う方法であって、
利用者の言語能力に関する情報を取得するステップと、
取得した言語能力に関する情報に基づいて、音声合成を行う言語を前記複数の言語から選択するステップと、
前記言語能力に関する情報と音声合成を行う言語とに基づいて、音声合成の動作条件を設定するステップと、
を有することを特徴とする方法。 - 複数の言語からいずれかの言語を選択して音声合成を行わせるために、コンピュータに、
利用者の言語能力に関する情報を取得するステップ、
取得した言語能力に関する情報に基づいて、音声合成を行う言語を前記複数の言語から選択するステップ、
前記言語能力に関する情報と音声合成を行う言語とに基づいて、音声合成の動作条件を設定するステップ、
を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003193112A JP2005031150A (ja) | 2003-07-07 | 2003-07-07 | 音声処理装置および方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003193112A JP2005031150A (ja) | 2003-07-07 | 2003-07-07 | 音声処理装置および方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005031150A true JP2005031150A (ja) | 2005-02-03 |
Family
ID=34204703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003193112A Withdrawn JP2005031150A (ja) | 2003-07-07 | 2003-07-07 | 音声処理装置および方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005031150A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009003619A (ja) * | 2007-06-20 | 2009-01-08 | Laurel Seiki Kk | 窓口呼出装置 |
WO2012042578A1 (ja) * | 2010-10-01 | 2012-04-05 | 三菱電機株式会社 | 音声認識装置 |
JP2015026057A (ja) * | 2013-07-29 | 2015-02-05 | 韓國電子通信研究院Electronics and Telecommunications Research Institute | インタラクティブキャラクター基盤の外国語学習装置及び方法 |
WO2015164116A1 (en) * | 2014-04-25 | 2015-10-29 | Nuance Communications, Inc | Learning language models from scratch based on crowd-sourced user text input |
WO2016103415A1 (ja) * | 2014-12-25 | 2016-06-30 | 日立マクセル株式会社 | ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法 |
JP5996702B1 (ja) * | 2015-03-31 | 2016-09-21 | 東芝エレベータ株式会社 | エレベータの遠隔監視システム |
US9672818B2 (en) | 2013-04-18 | 2017-06-06 | Nuance Communications, Inc. | Updating population language models based on changes made by user clusters |
WO2018169276A1 (ko) * | 2017-03-15 | 2018-09-20 | 삼성전자주식회사 | 언어 정보를 처리하기 위한 방법 및 그 전자 장치 |
-
2003
- 2003-07-07 JP JP2003193112A patent/JP2005031150A/ja not_active Withdrawn
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009003619A (ja) * | 2007-06-20 | 2009-01-08 | Laurel Seiki Kk | 窓口呼出装置 |
WO2012042578A1 (ja) * | 2010-10-01 | 2012-04-05 | 三菱電機株式会社 | 音声認識装置 |
US9239829B2 (en) | 2010-10-01 | 2016-01-19 | Mitsubishi Electric Corporation | Speech recognition device |
US9672818B2 (en) | 2013-04-18 | 2017-06-06 | Nuance Communications, Inc. | Updating population language models based on changes made by user clusters |
JP2015026057A (ja) * | 2013-07-29 | 2015-02-05 | 韓國電子通信研究院Electronics and Telecommunications Research Institute | インタラクティブキャラクター基盤の外国語学習装置及び方法 |
CN106233375A (zh) * | 2014-04-25 | 2016-12-14 | 纽昂斯通信有限公司 | 基于众包的用户文本输入从头开始学习语言模型 |
WO2015164116A1 (en) * | 2014-04-25 | 2015-10-29 | Nuance Communications, Inc | Learning language models from scratch based on crowd-sourced user text input |
JPWO2016103415A1 (ja) * | 2014-12-25 | 2017-11-09 | 日立マクセル株式会社 | ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法 |
WO2016103415A1 (ja) * | 2014-12-25 | 2016-06-30 | 日立マクセル株式会社 | ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法 |
US10613826B2 (en) | 2014-12-25 | 2020-04-07 | Maxell, Ltd. | Head-mounted display system and operating method for head-mounted display device |
JP5996702B1 (ja) * | 2015-03-31 | 2016-09-21 | 東芝エレベータ株式会社 | エレベータの遠隔監視システム |
WO2018169276A1 (ko) * | 2017-03-15 | 2018-09-20 | 삼성전자주식회사 | 언어 정보를 처리하기 위한 방법 및 그 전자 장치 |
US11216497B2 (en) | 2017-03-15 | 2022-01-04 | Samsung Electronics Co., Ltd. | Method for processing language information and electronic device therefor |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102199050B1 (ko) | 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템 | |
US9424833B2 (en) | Method and apparatus for providing speech output for speech-enabled applications | |
US8015011B2 (en) | Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases | |
US8825486B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
EP2595143B1 (en) | Text to speech synthesis for texts with foreign language inclusions | |
US7010489B1 (en) | Method for guiding text-to-speech output timing using speech recognition markers | |
US20110238407A1 (en) | Systems and methods for speech-to-speech translation | |
US8914291B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
US20030154080A1 (en) | Method and apparatus for modification of audio input to a data processing system | |
WO2009021183A1 (en) | System-effected text annotation for expressive prosody in speech synthesis and recognition | |
KR20000057795A (ko) | 음독이 미숙한 자용 및 표시기가 없는 장치용 음성 인식등록 방법 및 장치 | |
El Ouahabi et al. | Toward an automatic speech recognition system for amazigh-tarifit language | |
US20090281808A1 (en) | Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device | |
KR20170057623A (ko) | 언어장애인을 위한 다언어 어휘의 발음 합성 및 문자화 장치 | |
JP5079718B2 (ja) | 外国語学習支援システム、及びプログラム | |
JP2005031150A (ja) | 音声処理装置および方法 | |
CN112802447A (zh) | 一种语音合成播报方法及装置 | |
Lobanov et al. | Language-and speaker specific implementation of intonation contours in multilingual TTS synthesis | |
Nandutu et al. | Luganda text-to-speech machine | |
JP2001117752A (ja) | 情報処理装置および情報処理方法、並びに記録媒体 | |
JP2005157166A (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP6340839B2 (ja) | 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム | |
JP2006302149A (ja) | 日本語入力装置 | |
JP4208819B2 (ja) | 音声合成辞書登録方法および装置 | |
JP2006047866A (ja) | 電子辞書装置およびその制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20061003 |