JP2012234204A

JP2012234204A - 基準変換手段を伴なう音声認識装置及び方法

Info

Publication number: JP2012234204A
Application number: JP2012175359A
Authority: JP
Inventors: F Bartosik Heinrich; エフバールトシック，ヘンリッヒ
Original assignee: Nuance Communications Austria GmbH
Current assignee: Nuance Communications Austria GmbH
Priority date: 2000-02-25
Filing date: 2012-08-07
Publication date: 2012-11-29
Anticipated expiration: 2021-02-12
Also published as: EP1185976A1; DE60122257D1; US20010025240A1; EP1185976B1; DE60122257T2; JP5425280B2; JP2003524217A; ATE336776T1; US7146317B2; JP5105682B2; WO2001063597A1

Abstract

【課題】基準変換手段を伴なう音声認識装置及び方法を提供する。
【解決手段】第１の受信チャネル２１と第２の受信チャネル２５とを含む複数の受信チャネルを介して受信可能な音声を認識するための音声認識装置８であって、音声認識装置は複数の基準話者による単語の発音を特徴とする話者に独立の基準情報を蓄積するための蓄積手段４１〜４３であって、前記蓄積手段は、前記第１の受信チャネルに対応する基準情報を、前記第２の受信チャネルに対応する基準情報に変換して第１の変換を更に蓄積する蓄積手段と、第１の適応された基準情報を取得するように、前記第１の受信チャネルを介して話すユーザの音声の特徴に従って、話者に独立した基準情報に適応するために第１の受信チャネルを介して前記ユーザから得られた音声情報を用い、前記第１の変換を用いて前記第１の適応された基準情報を、前記第２の受信チャネルに適応するためのユーザ適応手段３７とを有する。
【選択図】図２

Description

本発明は、音声認識装置、音声認識方法、基準決定方法、及びコンピュータプログラムに関連する。

音声認識装置、音声認識方法、基準決定方法、及び、コンピュータプログラム製品は、例えば、ＵＳ−Ａ５，８９０，１１３により既知である。既知の音声認識装置は、基準情報を蓄積する基準蓄積手段を有する。基準情報は、複数の基準話者による単語の発音の形式の分析を介して、基準決定方法中に音声認識装置の製造者により決定される。各規準話者は特定の単語をマイクロフォンに発音し、そして、分析手段がマイクロフォンに入力された音声情報からいわゆる特徴ベクトルを分析し、その特徴ベクトルは基準話者の音声情報の周波数成分の時間パターンを記述する。テキストの単語の各音素の発音に対する全ての基準話者の特徴ベクトルの平均値を構成することにより、個々の基準話者の特異性が平均化されそして、このように決定された基準情報は話者に依存する音声認識システムに適する。基準話者の音声情報の特徴ベクトルは、受信チャネルを構成する入力装置（マイクロフォン、電話等．．．）の歪にも依存するので、基準決定方法と共に、基準話者は音声情報の特徴ベクトルの最小な歪を可能とするマイクロフォンを使用する。基準蓄積装置に蓄積された既知の音声認識装置のこの基準情報は、音声認識装置の認識率を改善するために、ユーザにより使用される入力装置に、ユーザにより適応される。この目的のために、基準蓄積手段内に蓄積された基準情報を入力装置により発生されたひずみに適応させるために、既知の音声認識装置は、チャネル適応手段を受ける。この歪は、音声情報の周波数ベクトル内で作られ、このベクトルは、音声認識装置の分析手段により発生される。

基準蓄積手段内に蓄積された既知の音声認識装置の基準情報は、このユーザの音声認識装置の認識率を更に改善するために、音声認識装置のユーザにより、単語の発音の形式に適応される。この目的のために、既知の音声認識装置は、基準蓄積手段内に蓄積され且つ既にユーザにより使用される受信チャネルに適応される基準情報を、単語の発音のユーザの形式に適応させるためのユーザ適応手段を有する。受信チャネルとユーザに適応される基準情報は、音声情報又は音声情報から決定される特徴ベクトルの１つにそれぞれ割り当てられるテキスト情報を決定するために、音声認識装置の音声認識手段により使用される。

既知の音声認識装置、音声認識方法、基準決定方法及びコンピュータプログラム製品と共に、異なる入力装置を使用するときに、ユーザはこれらの入力装置の各々に基準情報を適応させるという欠点があることがわかった。これは、例えば、習慣的にコンピュータに接続されたマイクロフォンでテキストを口述するがしかし、時々、電話によりコンピュータに命令を与えそして、時々、コンピュータにより構成された音声認識装置により後に認識されるテキストを、途中で口述するためにディジタル口述装置を使用するユーザに関係する。そのようにするときには、ユーザは、基準情報をユーザ及び入力装置に適応させ且つ異なる入力装置が使用されるときに比較的よい認識結果が得られるようにするために、ユーザの入力装置の各々に対するそれぞれの入力装置で予め定義されたテキストを入力する。

本発明の目的は、上述の問題を除去し且つ、前文に定義された形式の、ユーザはもはや基準情報を異なる入力チャネルに適応させる必要のない、音声認識装置、音声認識方法、基準決定方法及び、コンピュータプログラム製品を提供することである。この目的は、請求項１の特徴的な部分の手段に従った音声認識装置、請求項４の特徴的な部分の手段に従った音声認識方法、請求項７の特徴的な部分の手段に従った基準決定方法、及び、請求項９の特徴的な部分の手段に従ったコンピュータプログラム製品により達成される。

これは、典型的な受信チャネルに適応された典型的な基準情報に加えて、基準を決定する方法と共に、決定された基準情報を他の典型的な基準チャネルに適応させるために、変換マトリクスが各々の更なる典型的な受信チャネルに対して決定される。これは、音声認識装置が、全ての入力装置で、実際的な均一で良好な認識率に達するために、これらの典型的な入力装置の１つのみで、基準情報を単語の発音のユーザの形式に適応させることを必要とするという優位点を提供する。そして、基準変換手段は、ユーザ及び典型的な受信装置基準情報に適応された基準情報から、ユーザにより使用され得るそれぞれの更なる典型的な受信装置又は典型的な受信チャネルに対して、決定する。例えば、以下の典型的な受信チャネルに対して、音声情報が、マイクロフォン、アナログ又はディジタル電話ネットワークを介した電話、移動電話又は、ディジタル口述装置により受信される、変換マトリクスと適応基準情報が決定される。

請求項２又は請求項５に従った手段により、ユーザとこれらの典型的な受信チャネルの１つに適応された基準情報は、ユーザによる更なる動作なしに、自動的に他の全ての典型的な受信チャネルに適応される。

請求項３又は請求項６に従った手段により、音声情報の周波数サブレンジは、特徴ベクトルがそれぞれの受信チャネルから受信される周波数スペクトルの最も可能な画像を与えるようにするために、これらの周波数サブレンジを特徴とする特徴ベクトル内で表現される。例えば、４ｋＨｚまでの周波数スペクトルを有する音声情報信号が典型的な受信チャネルからチャネルから受信される場合には、受信された音声情報を記述するために、４ｋＨｚよりも高い周波数サブレンジ内の音声情報を記述する特徴ベクトルは決定されない。

請求項８に記載された手段は、決定された基準情報又は決定された変換マトリクスが典型的な受信チャネルの特性を記述し且つ個々の特殊性がフィルタ除去されるという優位性を提供する。例えば、２０の異なるディジタル口述装置が、典型的なディジタル口述装置の受信チャネルをコピーするために基準決定方法に関して使用される。

基準決定ソフトウェアが実行され且つ変換マトリクスを発生する変換マトリクス発生器を構成するコンピュータのブロック図である。コンピュータとそれにより音声認識ソフトウェアが実行され且つ基準変換手段を有する音声認識装置を構成するブロック図である。

本発明は、変換マトリクス発生器の図１に示す実施例と、基準変換手段を含む音声認識装置の図２に示す実施例を参照して以下に詳細に説明し、一方、本発明は、これらの実施例には限定されない。

図１は、主メモリに、ソフトウェアコード部分を有し且つ基準決定ソフトウェアにより構成される第１のコンピュータプログラムをロードできるコンピュータを示す。コンピュータが基準決定ソフトウェアを実行するときには、コンピュータは変換マトリクス発生器１を構成し且つ、基準決定方法に従って動作する。基準決定方法で、一方では、３つの異なる形式の受信チャネルに対する基準情報ＲＩと、他方では、典型的な受信チャネルの１つの決定された基準情報ＲＩを、典型的な受信チャネルの他の１つの決定された受信情報ＲＩへ変換するための変換マトリクスＴ１−２，Ｔ１−３及びＴ２−３、が決定される。
第１の基準情報ＲＩ１は、１０の異なるマイクロフォン３−１から３−１０によりコピーされた、第１の典型的な受信チャネル２に対して決定される。更に、第２の基準情報ＲＩ２は、１０の異なる電話線５−１から５−１０によりコピーされた、第２の典型的な受信チャネル４に対して決定される。更に、第３の基準情報ＲＩ３は、１０の異なるディジタル口述装置７−１から７−１０によりコピーされた、第３の典型的な受信チャネル６に対して決定される。これらの典型的な受信チャネル２，４及び、６の各々は、マイクロフォン３の１つに、電話５の１つに、ディジタル口述装置６の１つに、ユーザにより話された音声情報ＳＩに対する異なる伝送特性を有し、この結果、変換マトリクス発生器１に与えられる音声情報は、使用されるそれぞれの受信チャネル２，４、又は、６により色が付される。

それぞれの受信チャネル２，４又は６による音声情報ＳＩの色付けは、音声情報ＳＩの８ｋＨｚまでの周波数は第１の受信チャネル２を介して伝送され、３．７ｋＨｚまでは第２の受信チャネル４を介して伝送され、そして、４ｋＨｚ以上は第３の受信チャネル６を介してそして、音声情報ＳＩのそれより高い周波数部分は伝送されないということにより発生される。更に、伝送された音声情報ＳＩの個々の周波数部分は、それぞれの受信チャネルにより、それぞれ強く減衰されるので、音声情報ＳＩは、それぞれの受信チャネル２，４又は、６により色が付される。

第１の典型的な受信チャネル２の且つ変換マトリクス発生器１により発生された第１の基準情報ＲＩ１、及び、決定された変換マトリクスＴ１−２、Ｔ１−３及び、Ｔ２−３は、第２のコンピュータ製品を構成し且つ図２に示されたコンピュータにより実行される音声認識ソフトウェアの一部を構成する。コンピュータが音声認識ソフトウェアを実行するときには、コンピュータは音声認識装置８を構成し且つ音声認識装置８に与えられる音声情報ＳＩに割り当てることができる認識するテキスト情報ＴＩに対する音声認識方法に従って動作する。この処理中に、音声認識装置８は第１、第２又は、第３の基準情報ＲＩを評価する。

ユーザにより話され且つ音響情報を含む音声情報ＳＩは、長い時間知られてきたように、約４０の音素で記述できる。音声認識装置８は、４０のどの音素がどの順序で音声情報ＳＩ内に含まれているかを決定されるということから、他のものの中で、受信された音声情報信号ＳＩに割り当てられるべきテキスト情報ＴＩを認識する。しかし、音声情報ＳＩを入力するためにユーザにより選択される入力装置又は、受信チャネル２，４又は、６により、音声情報ＳＩ内に含まれる各音素の音響情報は、色が付される。音声認識装置８の高認識率を得るために、音声認識装置８は、音声認識方法が実行されながら、それぞれの受信チャネル２，４、又は、６による音声情報ＳＩの色付けを考慮するために、ユーザにより選択される受信チャネル２，４，又は、６に対して決定される第１、第２又は、第３の基準情報ＲＩをそれぞれ評価する。

音声情報内ＳＩ内に含まれる各音素の音響情報は、音声認識装置８の実際のユーザにも依存するので、各ユーザは単語とその音素を僅かに異なって発音する。従って、以下に更に説明するように、音声認識装置８の非常に高い認識率を達成するために、第１、第２又は、第３の基準情報ＲＩは、それぞれのユーザ毎の適応手段に適応される。

変換マトリクス発生器１は、第１のオーディオ端子９、第２のオーディオ端子１０及び、第３のオーディオ端子１１を有する。変換マトリクス発生器１の第１のオーディオ端子９と第２のオーディオ端子１０へは、音声情報ＳＩを含む、アナログオーディオ信号ＡＳを与えることが可能である。変換マトリクス発生器１の第３のオーディオ端子１１には、音声情報ＳＩ内にも含まれるディジタルオーディオデータＡＤを与えられることが可能である。

変換マトリクス発生器１は、第１のオーディオ端子９と第２のオーディオ端子１０へ送られるオーディオ信号ＡＳをディジタル化するための第１のＡ／Ｄ変換器１２と第２のＡ/Ｄ変換器１３を含む。アナログオーディオ信号ＡＳ内に含まれている音声情報ＳＩは、第１のＡ／Ｄ変換器１２と第２のＡ/Ｄ変換器１３から、ディジタルオーディオデータＡＤとして出力される。

変換マトリクス発生器１は、更に、第１と第２のＡ／Ｄ変換器１２と１３によりそれぞれ送られるオーディオデータＡＤと第３のオーディオ端子１１からのオーディオデータＡＤが与えられる分析手段１４を有する。分析手段１４は、与えられるオーディオデータＡＤ内に含まれる音声情報ＳＩを分析し、且つ、それぞれの受信チャネル２，４又は、６による４０の音素の各々の色付けを特徴とする基準情報ＲＩを決定するために使用される。

この目的のために、分析手段１４は、１０ミリ秒毎に、３２の成分を含む特徴ベクトルを決定する。特徴ベクトルの３２の成分のうちの１６は、それぞれの受信チャネルにより伝送される全体の周波数範囲の１６の周波数範囲内の音声情報ＳＩの振幅値を記述する。特徴ベクトルの３２の成分の内の残りの１６は、１６の振幅値の時間にわたる変化を記述する。４０の音素の各々は、３２の成分を含む１つのそのような特徴ベクトルにより記述される。異なる周囲（隣接音素）内の音素の音響情報の差を考慮するために、４０の音素の各々は、３２の成分を有する音素特徴ベクトルの４００の典型的なサンプルにより記述される。

分析手段１４は、このように、第１の受信チャネルを介して変換マトリクス発生器１に与えられる多数のオーディオデータＡＤの分析の結果として、４０の音素の各々に対する第１の基準情報ＲＩ１として３２の成分を含む特徴ベクトルの２，４００の典型的なサンプルを決定する。このように、全体で４００ｘ３２ｘ４０＝５１２，０００の数値は、第１の受信チャネル２により色が付される４０の音素を特徴とする第１の基準情報ＲＩ１として、分析手段１４により決定される。同様に多くの数値は、第２の受信チャネル４により色が付される４０の音素を特徴とする第２の基準情報ＲＩ２として、そして、第３の受信チャネル６により色が付される４０の音素を特徴とする第３の基準情報ＲＩ３として、分析手段１４により決定される。

個々の話者による単語の発音の形式に大きく独立し且つ話者独立基準情報ＲＩとも呼ばれる、基準情報ＲＩは、変換マトリクス発生器１により決定される。この目的のために、複数のユーザは、一般的に知られているように、個々の話者の差を満足に平均する、基準決定方法に従って、入力装置３，５及び７に向かって予め定義されたテキストを話す。これを以下に、変換マトリクス１のアプリケーションの例として説明する。

変換マトリクス発生器１は、更に、第１の基準情報ＲＩ１を蓄積する第１の基準蓄積手段１５、第２の基準情報ＲＩ２を蓄積する第２の基準蓄積手段１６、及び、第３の基準情報ＲＩ３を蓄積する第３の基準蓄積手段１７を有する。変換マトリクス発生器１更に、変換マトリクス発生手段１８を有し、それは、基準蓄積手段１５，１６及び１７内に蓄積された基準情報をＲＩを読出し且つ、３２−成分特徴ベクトルを比較するのに使用される。変換マトリクス発生手段１８の比較の結果として、それらは、３２−成分特徴ベクトルを示すための３２のローと３２のコラムを有する変換マトリクスＴ１−２、Ｔ１−３及び、Ｔ２−３を決定できる。

変換マトリクス発生手段１８により決定される変換マトリクスＴ１−２、Ｔ１−３及び、Ｔ２−３は、基準蓄積手段１５，１６及び１７内に蓄積された基準情報ＲＩ１、ＲＩ２及びＲＩ３から、これらの３つの変換マトリクスＴ１−２、Ｔ１−３及び、Ｔ２−３の２つと共に、常に基準蓄積手段内に蓄積された他の２つの基準情報信号ＲＩ１、ＲＩ２及び、ＲＩ３を決定できる、特性を有する。例えば、変換マトリクスＴ１−２を第１の基準蓄積手段１５内に蓄積された第１の基準情報信号ＲＩ１に適用することにより、第２の基準蓄積手段１６内に蓄積された第２の基準情報信号ＲＩ２を計算できる。専門家に対して、変換マトリクスＴ１−２の特性のこの記述は、変換マトリクス発生手段１８により決定される変換マトリクスＴ１−２を十分に開示する。変換マトリクス発生手段１８により決定される変換マトリクスＴ１−２，Ｔ１−３及びＴ２−３を、変換マトリクス発生器１の基準変換手段１９内に蓄積することが可能である。

以下に、変換マトリクスＴ１−２，Ｔ１−３及びＴ２−３の発生を、図１に示す変換マトリクス発生器１のアプリケーションの例を参照して更に説明する。基準決定方法は、音声認識装置８に関する音声認識ソフトウェアを開発する会社のコンピュータにより実行される。この会社は、音声認識装置８に関する典型的な入力装置に、マイクロフォン３に、電話５に、そして、ディジタル口述装置７に、既に適合されている基準情報ＲＩを決定したい。更に、基準情報ＲＩと変換マトリクスＴ１−２，Ｔ１−３及びＴ２−３は、ドイツ語に対して決定されることが意図されている。

この目的のために、会社は、数週間内に、１時間の間テキストを声を出して読む、いわゆる基準話者と呼ばれる、合計で１００人のドイツ語の話者を集める。そして、最初の１０人の話者により発生された音声情報ＳＩがマイクロフォン３−１、電話５−１及び、ディジタル口述装置７−１に与えられ、次の１０人の話者により発生された音声情報ＳＩがマイクロフォン３−２、電話５−２及び、ディジタル口述装置７−２に与えられ、そして、それぞれの更に１０人の話者により発生された音声情報ＳＩが、それぞれ、更なるマイクロフォン３−３から３−１０、電話５−３から５−１０及び、ディジタル口述装置７−３から７−１０に与えられる。

受信チャネル２，４及び６のこれらの１０の入力装置の各々は、僅かに異なる伝送特性を有しているので、分析手段１４には、受信チャネル２，４，及び、６の典型であるオーディオデータＡＤが供給される。これは、変換マトリクス発生器１が典型的な入力装置に対して基準情報ＲＩを決定できるという優位点を有する。分析手段１４に与えられる、オーディオデータＡＤに関する多数の話者と多量のデータの結果、分析手段１４は、それぞれの受信チャネル２，４，又は６に適応される独立の基準情報ＲＩ１，ＲＩ２及び、ＲＩ３を決定する。

このために、分析手段１４は、上述のように、異なる受信チャネル２，４，及び６により供給されるオーディオデータＡＤに対する３２−成分特徴ベクトルの時間パターンを決定する。分析手段１４は、そして、受信チャネル２，４及び６に対する特徴ベクトルの１６の周波数サブレンジを固定し、それにより、それぞれの受信チャネル内で伝送される周波数レンジは特徴ベクトルにより最適に記述される。例えば、第１の受信チャネル２内で伝送される８ｋＨｚまでの周波数レンジは、８０００Ｈｚ／１６＝５００Ｈｚの周波数サブレンジ（０から５００Ｈｚ，５００Ｈｚから１０００Ｈｚ，．．．７５００Ｈｚから８０００Ｈｚ）により記述され、そして、第３の受信チャネル６内で伝送される４ｋＨｚまでの周波数レンジは、４０００Ｈｚ／１６＝２５０Ｈｚの周波数サブレンジ（０から２５０Ｈｚ，２５０Ｈｚから５００Ｈｚ，．．．３７５０Ｈｚから４０００Ｈｚ）により記述される。

これは、３２−成分特徴ベクトルの各々が、実際にオーディオデータＡＤがそれぞれの受信チャネル２，４又は６から受信される周波数サブレンジを記述するという優位点を提供する。優位に、例えば、４ｋＨｚまでの周波数レンジ内に音声情報ＳＩを含む第３の受信チャネル６を渡って受信されたオーディオデータＡＤは、音声情報ＳＩの全くない、４ｋＨｚから８ｋＨｚの周波数サブレンジ内の特徴ベクトルの８つの成分により記述されるということが避けられる。

分析手段１４が３つの受信チャネル２，４及び６に対して決定する基準情報ＲＩ１、ＲＩ２及び、ＲＩ３は、それぞれ、基準蓄積手段１５，１６及び１７内に蓄積される。変換マトリクス発生手段１８は、上述のように、変換マトリクスＴ１−２，Ｔ１−３及び、Ｔ２−３を計算する。さらに加えて、基準情報信号ＲＩ１，ＲＩ２の１つの音素の特徴ベクトルの複数の成分は、変換マトリクスＴ１−２，Ｔ１−３及びＴ２−３の１つでの変換中に、変換された基準情報ＲＩ１，ＲＩ２及び、ＲＩ３のこの音素の特徴ベクトルの成分の結果に影響を及ぼし、その結果変換マトリクスＴ１−２，Ｔ１−３及びＴ２−３も、変換マトリクスＴ１−２，Ｔ１−３及びＴ２−３の対角の外側に数値を含むということを指摘するべきである。例えば、変換マトリクスＴ１−３での変換中に、その成分が０から２５０Ｈｚと２５０Ｈｚから５００Ｈｚの周波数サブレンジを記述する第３の基準情報信号ＲＩ３の音素の特徴ベクトルの４００サンプルの２つの成分は、周波数サブレンジ０Ｈｚから５００Ｈｚを記述する、第１の基準情報信号ＲＩ１のこの御その特徴ベクトル成分に影響する。

３２ローと３２コラム−合計１０２４数値−を有する変換マトリクスＴ１−２，Ｔ１−３及び、Ｔ２−３を決定することにより、音声認識方法を実行するために音声認識装置８に対して３つの受信チャネル２，４及び６の各々に対して基準情報ＲＩを使用できるようにするために、音声認識ソフトウェア内で、５１２，０００の数値のみを有する受信チャネル基準情報ＲＩと、各々バ１０２４の数値のみを有する変換マトリクスＴ１−２，Ｔ１−３及び、Ｔ２−３のみを、蓄積すればよいという優位点が得られる。従って、この音声認識ソフトウェアは、優位に、コンピュータ内で比較的少ないメモリ空間を有することを必要とする。

更に加えて、変換マトリクスＴ１−２、Ｔ１−３及び、Ｔ２−３共に、音声認識装置８のユーザに既に適応された受信チャネル２，４又は６の基準情報ＲＩは、他の受信チャネル２，３又は６の１つに対して直接的に使用でき、これは非常に優位である。音声認識装置の以下の説明では、これに更に注目する。

マトリクス発生器の分析手段は、第１の受信チャネル２に対してのみ基準情報ＲＩ１を決定することができ、そして、第１の基準蓄積手段１５内に蓄積する。これらの分析手段は、蓄積された第１の基準情報ＲＩ１からの差を排他的に特徴とする、非常に少ない量の基準情報ＲＩを発生するために、同じテキスト部分のしかしそれは異なる受信チャネルを介して受信されたオーディオデータＡＤを比較できる。この変換マトリクス発生器の変換マトリクス発生手段は、この基準情報ＲＩから直接的に、対応する変換マトリクスＴ１−２，Ｔ１−３及びＴ２−３を決定できる。これは、第２の基準情報ＲＩ２の全ての５１２，０００の数値を決定すること及び第３の基準情報ＲＩ３の全ての５１２，０００の数値を決定することが免除されるという優位点を導く。

特徴ベクトルの他の幾つかの成分も、オーディオデータＡＤ内に含まれる音声情報ＳＩの音素を記述するのに分析手段１４により規定することができると認められる。例えば、８又は６４の周波数サブレンジに副分割もされたそれぞれの受信チャネル２，４又は６を介して伝送された周波数レンジ内の音声情報ＳＩも、周波数サブレンジ当り特徴ベクトルの１つ又は２つの成分によっても記述されうる。

受信チャネルを介して伝送される周波数レンジは上述のように、周波数サブレンジに均一に副分割される必要がないと認められる。人間の聴覚システムも低い周波数に更に敏感であるので、小さな周波数幅を設けるのには、周波数サブレンジに対して、周波数レンジの低い中心周波数を有するのが優位である。例えば、以下の中心周波数は、次の周波数サブレンジの中心周波数＝周波数サブレンジの中心周波数ｘ１．５という規則に従って周波数サブレンジに対して規定されうる。例えば、１００Ｈｚの中心周波数で始まる以下の中心周波数、１００Ｈｚ、１５０Ｈｚ、２２５Ｈｚ、３３８Ｈｚ、５０６Ｈｚ．．．（第１の周波数サブレンジ：７５Ｈｚから１２５Ｈｚ＝５０Ｈｚ周波数幅；第４の周波数サブレンジ：２８２Ｈｚから４２２Ｈｚ＝１４０Ｈｚ周波数幅）が決定される。

音声認識装置８の構造と動作方法をいかに更に詳細に説明する。第１のオーディオ端子２２を介して、音声認識装置８は、第１の受信チャネル２１を構成するマイクロフォン２０を介してユーザにより話された音声情報ＳＩが供給される。更に、第２のオーディオ端子２３を介して、音声認識装置８は、第２のオーディオ端子２３に関しては電話ネットワークの電話線と共に、第２の受信チャネル２５を構成する電話２４に、ユーザが、話した音声情報ＳＩが供給される。最後に、第３のオーディオ端子２６を介して、音声認識装置８には、ユーザがディジタル口述装置２７に話し且つそれを記録したユーザの音声情報ＳＩが供給される。記録されたときの音声情報ＳＩの色付けと、ディジタル口述装置２７による後の再生は、第３の受信チャネル２８の伝送特性を構成する。

音声認識装置８は、分析手段３０と認識手段３１を含む音声認識手段２９を含む。音声認識手段２９は、与えられた音声情報ＳＩに割り当てられるべきテキスト情報ＴＩを認識するように構成される。音声認識手段２７により決定されたテキスト情報ＴＩは、モニタ端子３２を介してモニタ３３に送られそして、モニタ３３に表示される。

音声認識装置８の第１のオーディオ端子２２にオーディオ信号ＡＳとして与えられる音声情報信号ＳＩは、第１のＡ／Ｄ変換器２４を介して分析手段３０へ、ディジタルオーディオデータＡＤとして与えられる。同様に、音声認識装置８の第２のオーディオ端子２３へオーディオ信号ＡＳとして送られた音声情報信号ＳＩは、第２のＡ／Ｄ変換器３５を介して分析手段３０へ、ディジタルオーディオデータＡＤとして与えられる。更に、音声認識装置８の第３のオーディオ端子２６に与えられるオーディオデータＡＤは、直接的に、分析手段３０に送られる。

分析手段３０は、音声情報ＳＩが検出される、３つのオーディオ端子２２，２３又は２６のオーディオデータから検出し、そして、チャネル検出手段を構成する。ユーザがマイクロフォン２０、電話２４又は、ディジタル口述装置２７を介して音声認識装置８へ音声情報を与えたか否かを特徴とするチャネル検出情報ＫＤＩは、分析手段３０により発生されることが可能である。

これは、音声認識装置８は音声認識方法の実行のために基準情報ＲＩを使用するという優位点を提供し、その基準情報ＲＩは、ユーザにより選択れる受信チャネル２１，２５又は、２８に対して適している。これは、更に音声認識装置８のアプリケーションの例を参照して以下に説明する。

分析手段３０は、送られたオーディオデータＡＤを分析し且つ各１０ミリ秒ごとの３２の成分を含む、オーディオデータＡＤ内に含まれる音声情報ＳＩを記述する、特徴ベクトルＦＶを発生するために、更に変換マトリクス発生器１の前述した分析手段１４のように構成される。優位に、分析手段３０は、決定されたチャネル識別示情報ＫＤＩに依存して、特徴ベクトルＦＶの１６の周波数サブレンジを決定する。このように、例えば、第３の受信チャネル２８を介して受信されたオーディオデータＡＤに対して、特徴ベクトルの３２の成分が、前述のように、各２５０Ｈｚの周波数レンジを有する１６の周波数サブレンジから決定される。分析手段３０により決定される特徴ベクトルＦＶは、認識手段３１に与えられる。

認識手段３１は、例えば、文書ＷＯ９９／３５６４０から知られている音声認識方法を実行する。音声認識方法が実行されるときには、認識手段３１は音声認識装置８の基準蓄積手段内に蓄積され、且つ実際のユーザに及び実際に使用される受信チャネル２１、２５又は、２８に適応された基準情報ＲＩを評価する。音声認識装置８によるトレーニング方法の実行中に、典型的な受信チャネルに適応された蓄積された基準情報は、音声認識装置８の実際のユーザに適応される。

基準蓄積手段３６内に蓄積され且つ変換マトリクス発生器１により決定された第１の典型的な受信チャネル２の第１の基準情報ＲＩ１を適応させるために、音声認識装置８はユーザ適応手段３７を含む。ユーザ適応手段３７は、第１の基準情報ＲＩ１を第２の基準情報ＲＩ２に変換するために変換マトリクス発生器１により発生された第１の変換マトリクスＴ１−２及び、第１の基準情報ＲＩ１を第３の基準情報ＲＩ３に変換するための第２の変換マトリクスＴ１−３を含む。

第１のスイッチ３８に対して、基準蓄積手段３６から第１の基準情報ＲＩ１、第１の変換マトリクスＴ１−２で決定された第２の基準情報ＲＩ２、そして、第２の変換マトリクスＴ１−３で決定された第３の基準情報ＲＩ３が与えられる。第１のスイッチ３８に対して、分析手段３０によりチャネル検出情報ＫＤＩがさらに与えられる。３つの基準情報信号ＲＩ１，ＲＩ２又は、ＲＩ３のうちの１つは、第１のスイッチ３８により、そこに与えられるチャネル検出情報ＫＤＩに従って、ユーザ適応手段３７の比較手段３９に与えられる。分析手段３０と第１のスイッチ３８は、蓄積された基準情報ＲＩをユーザにより選択された受信チャネル２１，２５又は２８へ適応させるための受信チャネル適応手段を構成する。

分析手段３０は、オーディオデータＡＤの特徴ベクトルＦＶを、各１０ミリ秒毎に、比較手段３９に供給し、そのオーディオデータはトレーニング方法の実行中に音声認識装置８に与えられ、そして、分析手段３０により分析される。トレーニング方法の実行中に、比較手段３９は、そこに与えられる個々の音素の特徴ベクトルＦＶと、そこに与えられる規準情報ＲＩの音素の特徴ベクトルの４００の典型的なサンプルとを比較するように構成される。特徴ベクトルＦＶの比較の結果は、基準情報ＲＩを音声認識装置８の実際のユーザの発音のそれぞれの特異性適応させるために評価される。

ユーザ適応手段３７によりユーザに適応された基準情報ＡＲＩは、基準情報ＲＩをユーザに適応させるために、ユーザにより選択された受信チャネル２１，２５又は、２８に依存して、第１の適応された基準蓄積手段４１、第２の適応された基準蓄積手段４２、又は、第３の適応された基準蓄積手段４３内の内の第２のスイッチ４０を介して蓄積される。適応された基準蓄積手段４１，４２及び４３は共に、音声認識装置８の実際のユーザにそしてそれぞれの受信チャネル２１，２５及び２８の１つに適応された基準情報ＡＲＩを蓄積するための基準蓄積手段を構成する。基準蓄積手段４１，４２又は、４３にそれぞれ適応された、ユーザと受信チャネル２１，２５及び２８の１つにに適応された基準情報ＡＲＩを伝達するために、チャネル識別情報ＫＤＩが分析手段３０により第２のスイッチ４０に与えられる。

受信チャネル２１，２５又は、２８の１つ及びユーザに対するトレーニング方法の実行中に適応された、適応された基準蓄積手段４１，４２又は、４３の１つに蓄積された、適応された基準情報ＡＲＩ１、ＡＲＩ２又は、ＡＲＩ３は、変換マトリクス発生器１により変換マトリクスＴ１−２、Ｔ１−３及び、Ｔ２−３を用いて変換され、そして、ユーザに適応された他の基準情報ＡＲＩ１、ＡＲＩ２及び、ＡＲＩ３へ、そして、他の適応された基準蓄積手段４１、４２又は、４３内に蓄積される。変換マトリクスＴ１−２、Ｔ１−３及び、Ｔ２−３は、適応された基準情報ＡＲＩを変換する基準変換手段を構成する。

音声認識装置８は、チャネル検出情報ＫＤＩも与えられる第３のスイッチ４４を含みそして、それを介して、ユーザとユーザにより使用される受信チャネル２１，２５又は、２８に適応される基準情報ＡＲＩが、認識手段３１が音声認識方法を実行するときに認識手段３１に与えられる。分析手段３０と第３のスイッチ４４は、蓄積された基準情報ＡＲＩをユーザにより選択された受信チャネル２１，２５又は、２８に適応させるための受信チャネル適応手段を構成する。

以下に、変換マトリクス発生器１により決定される話者に独立の基準情報ＲＩが、どのように、音声認識装置８の実際のユーザに適応された基準情報ＡＲＩに適応されるかを、音声認識装置８を伴なうトレーニング方法の実施例を参照して更に詳細に説明する。アプリケーションの例に従って、スミス氏は、音声認識装置８を最初にテキストの口述に使用したいとする。音声認識装置８の認識率を改善するために、音声認識装置８のマニュアルは、装置８をユーザに適応させるようにアドバイスする。

スミス氏は、音声認識装置８のトレーニング方法を活性化し、そして、マイクロフォン２０に、マニュアルに示された所定のトレーニングテキストを話し、このテキストは比較手段３９内に蓄積される。口頭のトレーニングテキストの音声情報ＳＩは、第１のオーディオ端子２２と第１のＡ／Ｄ変換器３４を介して分析手段３０に達し、この分析手段は比較手段３９へ、それぞれの特徴ベクトルＦＶを与える。分析手段３０は、更に、第１の受信チャネル２１を特徴化するチャネル検出情報ＫＤＩを第１のスイッチ３８に与え、その後に、第１のスイッチ３８は比較手段３９を第１の基準蓄積手段３６へ接続する。

第１の基準蓄積手段３６には、典型的なマイクロフォン受信チャネル−第１の受信チャネル２に対して、変換マトリクス発生器１により適合される第１の基準情報ＲＩ１が蓄積されている。比較手段３９は、分析手段３０と比較手段に既知のトレーニングテキストにより決定される特徴ベクトルＦＶに基づいて、スミス氏による各音素の発音の形式を決定し、そして、スミス氏に従って第１の基準情報ＲＩを適応させる。スミス氏と第１の受信チャネル２１に適応され且つ比較手段３９により決定された第１の適応された基準情報ＡＲＩ１は、第２のスイッチ４０を介して第１の適応された基準蓄積手段４１に蓄積される。

トレーニング方法の最後で、第１の適応された基準情報ＡＲＩ１は、第１の変換マトリクスＴ１−２で、第２の受信チャネル２５とスミス氏に適応された第２の適応された基準情報ＡＲＩ２に変換されそして、第２の適応された基準蓄積手段４２に蓄積される。同様に、第３の受信チャネル２８とスミス氏に適応された第３の適応された基準情報ＡＲＩ３は、第２の変換マトリクスＴ１−３で決定され、そして、第３の適応された基準蓄積手段４３に蓄積される。

上述のトレーニング方法は、音声認識装置８のユーザは、可能な受信チャネル２１，２５又は、２８の１つを介してこのユーザの発音に音声認識装置８を適合させることができそして、他の受信チャネル２１，２５又は、２８に対する基準情報ＲＩも自動的に適応され、そして、音声認識方法の良好な認識率が、これらの受信チャネルに対しても得られるという優位点を提供する。

スミス氏は他の場所から電話２４によりこのトレーニング方法を実行させることも可能であると認められる。この場合には、第１の変換マトリクスＴ１−２で第１の基準情報ＲＩ１から変換された第２の基準情報ＲＩ２は、比較手段３９により適応されそして、第２の適応された基準蓄積手段４２内に第２の基準情報ＡＲＩ２として蓄積される。第１の変換マトリクスＴ１−２で変換された第１の適応された基準情報ＡＲＩ１は、第１の適応された基準蓄積手段４１に蓄積され、そして、第３の変換マトリクスＴ２−３で変換された第３の適応された基準情報ＡＲＩ３は、第３の適応された基準蓄積手段４３に蓄積される。

これから、音声認識装置８は、受信チャネル２１、２５及び、２８の任意の１つに学習され、そして、全ての受信チャネルに対して、ユーザに適応されるという優位点は明らかである。

以下に、音声認識装置８による音声認識方法の実行の実施例によって、音声認識装置８に優位点を更に説明する。実施例に従って、スミス氏は、旅行中に、ディジタル口述装置２７で口述を行うとする。家に帰ると、スミス氏は、口述装置２７を第３のオーディオ端子２６に接続し、口述装置２７のキーを作動させ、そして、音声認識装置８の音声認識方法を活性化させる。

分析手段３０は、それぞれ及び、の特徴ベクトルＦＶを認識手段３１に与えそして、第３の重鎮チャネル２８を特超過するチャネル検出情報ＫＤＩを第３のスイッチ４４に与える。そして、第３のスイッチ４４は、第３の適応された基準蓄積手段４３を認識手段３１へ接続する。音声認識方法の実行中に、認識手段３１は、スミス氏と口述装置の典型的な受信チャネルに適応された基準情報ＡＲＩ３を評価し、そして、音声情報ＳＩに対応するテキスト情報ＴＩをモニタ端子３２を介してモニタ３３に送る。

これは、トレーニング方法を実行している間に、音声認識装置８はマイクロフォン２０によるスミス氏に適応されたが、口述装置２７を介してスミス氏により入力された音声情報ＳＩを用いる音声認識方法の認識率はかなり高いということを優位に達成する。同様に、音声認識方法は、電話２４によりスミス氏によってコンピュータに与えられたコマンドに対する高認識率を有する。

比較的高い認識率は、全ての他の組合せで達成されることも可能であることがが認められる。例えば、音声認識装置８が第２の受信チャネル２５で学習されそして、後に第１の受信チャネル２１により受信され且つ音声情報ＳＩに割り当てられるべきテキスト情報ＴＩを認識するために使用される。しかしながら、大部分のマイクロフォンで、音声情報ＳＩは、比較的高い周波数レンジ（８ｋＨｚまで）で伝送されるので、音声認識装置８がマイクロフォン２０でトレーニングするのはかなり有利である。ユーザ適応手段３７から、第１の変換マトリクスＴ１−２と第２の変換マトリクスＴ１−３を省略することが可能でありそして、トレーニング方法が実行されるときに、マイクロフォン２０を介して、ユーザによるテキストの音声情報ＳＩの入力を要求することも可能である。その場合には、第３の変換マトリクスＴ２−３は、第２の適応された基準情報ＡＲＩ２から第３の適応された基準情報ＡＲＩ３への変換に関して省略され及び、その逆である。

変換マトリクス発生器１は、移動電話の又は、ディジタル又はアナログネットワークを介して第２のオーディオ端子１０に接続された電話５の典型的な受信チャネルに対する基準情報も決定できると認められる。専門家は、多数の更なる可能性のある典型的な受信チャネルを知っている。

変換マトリクスＴ１−２、Ｔ１−３及び、Ｔ２−３から、逆変換マトリクスも決定でき、それによって、分析手段３０に送られたオーディオデータＡＤは、上述のように分析手段３０により分析される前に前処理され得ると認められる。

基準決定方法は、音声認識ソフトウェアの製造者のコンピュータにより実行される必要はないが、しかし、音声認識ソフトウェアの一部を構成しても良く、そして、音声認識装置のユーザのコンピュータ上で実行されることが可能であると認められる。音声認識方法の実行中に、認識手段により決定される、実際に使用される受信チャネルに関する情報は、基準情報を適応させ活変換マトリクス又は逆変換マトリクスを決定するために使用することができる。

Claims

第１の受信チャネルと第２の受信チャネルとを含む複数の受信チャネルを介して受信可能な音声を認識するための音声認識装置であって、当該音声認識装置は：
複数の基準話者による単語の発音を特徴とする、話者に独立の基準情報を蓄積するための蓄積手段であって、前記蓄積手段は、前記第１の受信チャネルに対応する基準情報を、前記第２の受信チャネルに対応する基準情報に変換するよう構成された第１の変換を更に蓄積する、蓄積手段と；
第１の適応された基準情報を取得するように、前記第１の受信チャネルを介して話すユーザの音声の特徴に従って、話者に独立した基準情報に適応するために第１の受信チャネルを介して前記ユーザから得られた音声情報を用い、かつ、前記ユーザの音声の特徴に適応し、かつ前記第２の受信チャネルに適応する、第２の適応された基準情報を取得するように、前記第１の変換を用いて前記第１の適応された基準情報を、前記第２の受信チャネルに適応するためのユーザ適応手段と；
を有する音声認識装置。
前記第１の受信チャネルは、マイクロフォンを含み、前記第２の受信チャネルは、電話及びデジタルディクテーティングマシンのうちの１つを含む、請求項１記載の音声認識装置。
前記第１の受信チャネルは、電話を含み、前記第２の受信チャネルは、マイクロフォン及びデジタルディクテーティングマシンのうちの１つを含む、請求項１記載の音声認識装置。
前記第１の受信チャネルは、デジタルディクテーティングマシンを含み、前記第２の受信チャネルは、マイクロフォン及び電話のうちの１つを含む、請求項１記載の音声認識装置。
前記電話は、携帯電話である、請求項２記載の音声認識装置。
前記複数の受信チャネルは、第３の受信チャネルを含み、かつ前記蓄積手段は、前記第１の受信チャネルに対応した基準情報を、前記第３の受信チャネルに対応した基準情報に変換するよう構成された第２の変換を蓄積する、請求項１記載の音声認識装置。
前記ユーザ適応手段は、前記第１の適応された基準情報を、前記ユーザの音声特徴に適応し、かつ前記第３の受信チャネルに適応する第３の適応された基準情報に変換するように、前記第２の変換を用いるよう構成された、請求項６記載の音声認識装置。
前記蓄積手段は、前記第２の受信チャネルに対応する基準情報を、前記第３の受信チャネルに対応する基準情報に変換するよう構成された、第３の変換を蓄積する、請求項６記載の音声認識装置。
前記ユーザ適応手段は、前記第２の適応された基準情報を、前記ユーザの音声特徴に適応し、かつ前記第３の受信チャネルに適応する第３の適応された基準情報に変換するように、前記第３の変換を用いるよう構成された、請求項８記載の音声認識装置。
前記第１の変換は、前記第１の受信チャネルと同じ形式の少なくとも１つのチャネルを介して得られた、話者に独立の基準情報と、前記第２の受信チャネルと同じ形式の少なくとも１つのチェネルを介して得られた話者に独立の基準情報とに基づいて決定される、請求項１記載の音声認識装置。
前記第２の変換は、前記第１の受信チャネルと同じ形式の少なくとも１つのチャネルを介して得られた、話者に独立の基準情報と、前記第３の受信チャネルと同じ形式の少なくとも１つのチェネルを介して得られた話者に独立の基準情報とに基づいて決定される、請求項６記載の音声認識装置。
複数の基準話者による単語の発音を特徴とする、話者に独立の基準情報を変換することによって、第１の受信チャネル及び第２の受信チャネルを含む複数の受信チャネルを介して受信可能な音声を認識するよう構成された、音声認識装置を適応させるための方法であって：
前記第１の受信チャネルに対応する基準情報を、前記第２の受信チャネルに対応する基準情報に変換するように構成された第１の変換を得るステップと；
前記第１の受信チャネルを介して得られたユーザからの音声情報を受信するステップと；
第１の適応された基準情報を得るように、前記得られた音声情報を用いて、前記第１の受信チャネルを介して話す前記ユーザの音声特徴に従って、話者に独立な基準情報を適応させるステップと；
前記ユーザの音声特徴に適応し、かつ前記第２の受信チャネルに適応する、第２の適応された基準情報を得るように、前記第１の変換を用いて、前記第１の適応された基準情報を、前記第２の受信チャネルに適応させるステップと；
を有する方法。
前記第１の受信チャネルは、マイクロフォンを含み、前記第２の受信チャネルは、電話及びデジタルディクテーティングマシンのうちの１つを含む、請求項１２記載の音声認識装置。
前記第１の受信チャネルは、電話を含み、前記第２の受信チャネルは、マイクロフォン及びデジタルディクテーティングマシンのうちの１つを含む、請求項１２記載の音声認識装置。
前記第１の受信チャネルは、デジタルディクテーティングマシンを含み、前記第２の受信チャネルは、マイクロフォン及び電話のうちの１つを含む、請求項１２記載の音声認識装置。
前記電話は、携帯電話である、請求項１３記載の音声認識装置。
前記複数の受信チャネルは、第３の受信チャネルを含み、当該方法は、前記第１の受信チャネルに対応した基準情報を、前記第３の受信チャネルに対応した基準情報に変換するよう構成された第２の変換を得るステップ、を更に有する請求項１２記載の方法。
前記ユーザの音声特徴に適応し、かつ前記第３の受信チャネルに適応する第３の適応された基準情報を得るように、前記第２の変換を用いて、前記第１の適応された基準情報を前記第３の受信チャネルに適応させるステップ、を更に有する請求項１７記載の方法。
前記第２の受信チャネルに対応する基準情報を、前記第３の受信チャネルに対応する基準情報に変換するよう構成された、第３の変換を得るステップ、を有する請求項１７記載の方法。
前記ユーザの音声特徴に適応し、かつ前記第３の受信チャネルに適応する、第３の適応した基準情報を得るように、前記第３の変換を用いて、前記第２の適応された基準情報を前記第３の受信チャネルに適応させるステップ、を有する請求項１９記載の方法。
前記第１の変換は、前記第１の受信チャネルと同じ形式の少なくとも１つのチャネルを介して得られた、話者に独立の基準情報と、前記第２の受信チャネルと同じ形式の少なくとも１つのチェネルを介して得られた話者に独立の基準情報とに基づいて決定される、請求項１２記載の方法。
前記第２の変換は、前記第１の受信チャネルと同じ形式の少なくとも１つのチャネルを介して得られた、話者に独立の基準情報と、前記第３の受信チャネルと同じ形式の少なくとも１つのチェネルを介して得られた話者に独立の基準情報とに基づいて決定される、請求項１７記載の方法。