JP3567477B2

JP3567477B2 - 発声変形音声認識装置

Info

Publication number: JP3567477B2
Application number: JP05060594A
Authority: JP
Inventors: 鈴木　　忠
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1994-03-22
Filing date: 1994-03-22
Publication date: 2004-09-22
Anticipated expiration: 2019-09-22
Also published as: JPH07261780A

Description

【０００１】
【産業上の利用分野】
本発明は、環境騒音による発声変形が生じた音声を対象とする音声認識装置に関するものである。
【０００２】
【従来の技術】
騒音下音声認識を実現する上で、環境騒音による発声変形（ロンバード効果）は、雑音重畳による音声信号の品質劣化と並ぶ重要な問題となっている。ロンバード効果による音韻スペクトルの変形に対して、音韻や話者に依存しない補正手法がこれまでに提案されている。
【０００３】
特開平４−２９６７９９号公報に記載された音声認識装置や特開平５−６１９６号公報に記載された音声認識装置では、ロンバード効果により３００Ｈｚ〜１５００Ｈｚ内のホルマントが大きく変動することについて、入力音声に対するホルマント周波数分析と、環境騒音レベルもしくは入力音声のレベルによって規定される周波数変動量により、ケプストラムパラメータ上で補正する手法が提案されている。特開平４−２５７８９８号公報に記載されたロンバード音声認識方法においても前述の帯域におけるホルマント周波数の変動に着目して、標準パタンのスペクトルと入力パタンのスペクトルのマッチングの際に、１．５ｋＨｚ以下のズレをＤＰマッチングで補正する方法を提案している。
しかしながらこれらの手法は、ロンバード効果によるスペクトル変形の個人性や音韻依存性を考慮しておらず、また前記帯域以外の変動については具体的補正手法を示すに至っていない。そのため、語彙数の多い認識では十分な認識率が得られないという欠点があった。
【０００４】
これに対し近年、スペクトル変形の様態を表現する発声変形モデルを定義し、このモデルのパラメータを大量の発声変形音声データを用いて音韻ごとに学習、認識に用いる手法が、文献“高騒音下音声認識における発声変形対処法の検討”（鈴木、中島、日本音響学会講演論文集平成５年１０月ｐｐ．１４７−１４８）において提案されている。
図４はこの手法に基づく発声変形音声認識装置の構成図の一例である。図において、２は入力端１より入力された入力音声信号に対し音響分析を行い、入力音声特徴ベクトル時系列３を出力する音響分析手段、４は音韻ごとに学習された発声変形モデルを格納する発声変形モデルメモリ、５は発声変形がない音声データを学習データとして得られた発声変形なし音声標準モデルを格納する発声変形なし音声標準モデルメモリ、６は発声変形モデルメモリ４に格納されている発声変形モデルと、発声変形なし音声標準モデルメモリ５に記憶されている発声変形なし音声標準モデルとを入力として、音声認識処理を行う発声変形音声認識手段、７は発声変形音声認識手段６の出力である認識結果である。図５に発声変形音声認識手段６の構成図の一例を示す。８は前記発声変形なし音声標準モデルに対し前記発声変形モデルを用いて音韻スペクトルの変形を行うスペクトル変形手段、９はスペクトル変形手段８の出力であるところの変形音声標準モデルと発声変形なし音声標準モデルメモリ５に格納されている発声変形なし音声標準モデルとを合成し、混合型音声標準モデルを生成する音声モデル合成手段、１０は音声モデル合成手段９の出力である混合型音声標準モデルと、入力音声特徴ベクトル時系列３に対する尤度を演算する尤度演算手段、１１は尤度演算手段の出力である尤度データを用いて、照合処理を行い認識結果７を出力する照合手段である。
【０００５】
次に動作について、連続分布型音素片ＨＭＭによる離散単語認識の場合を例にとり説明を行う。発声変形なし音声標準モデルメモリ５には、発声変形のない音声データを用いて学習した音素片ＨＭＭが発声変形なし音声標準モデルとして格納されている。認識対象となる各単語音声は音素片ＨＭＭの連鎖で表現される。発声変形モデルは各音素片のスペクトル変形に対応して生成され、発声変形モデルメモリ４に格納されているものとする。
【０００６】
入力端１より入力された未知入力単語音声信号は、音響分析手段２における音響分析により各分析フレームごとに特徴ベクトルが抽出され、入力音声特徴ベクトル時系列３｛Ｘ（ｎ）｜ｎ＝１．．．Ｎ｝に変換される。ここでＸ（ｎ）は第ｎフレームの特徴ベクトル、Ｎはフレーム数である。
スペクトル変形手段８は、発声変形なし音声標準モデルメモリ５に格納されているところの音素片Ｌ（Ｌは音素片の種類を表すラベルとする）に対応する発声変形なし音素片ＨＭＭの平均ベクトルに対し、発声変形モデルメモリ４に格納されている発声変形モデルＬ _Ｔを用いてスペクトル変形処理を施す。平均ベクトル以外のパラメータは何等所作を加えない。この処理をすべての音素片について行う。
音声モデル合成手段９は、発声変形なし音声標準モデルメモリ５に格納されている発声変形なし音素片ＨＭＭと、これに対しスペクトル変形手段８でスペクトル変形処理を施されて得られた発声変形音素片ＨＭＭとを用い、２混合等確率の混合連続分布型音素片ＨＭＭを生成する。
尤度演算手段１０は前記入力音声特徴ベクトル時系列３の各特徴ベクトルＸ（ｎ）と、音響モデル合成手段９の出力であるところの混合連続分布型音素片ＨＭＭとの尤度演算を行い、尤度データを出力する。尤度データＰ（ｎ，Ｌ）は、ラベルＬの音素片ＨＭＭに対する入力音声特徴ベクトル時系列中の特徴ベクトルＸ（ｎ）の尤度を表し、すべてのＬについて１≦ｎ≦Ｎの範囲で求める。
照合手段１１は、尤度演算手段１０の出力である尤度データを用いて、認識語彙の単語音声を表す音素片の連鎖に従い、各単語に対する尤度をビタビ演算もしくはトレリス演算により求め、尤度が最大になる単語のカテゴリを認識結果として出力する。
【０００７】
【発明が解決しようとする課題】
従来の装置は以上のように構成されているため、発声変形モデルにより表現された一定の変形様態に従った変形音声標準モデルが生成されることになる。発声変形モデルは、前記文献における学習手順によれば、ある騒音環境下において発声された音声の、音素片ごとの平均的な変形様態を表現している。ところが実際には発声変形音声の変形の強度は、同一騒音環境下においても、アクセントの有無や声の大きさによって大きく変動している。そのため、発声変形モデルが表現する固定的なスペクトル変形処理を施した変形音声標準モデルでは、十分な認識性能が得られないという問題があった。
また、従来の発声変形モデルは、スペクトルの変形にのみ注目していたが、ロンバード効果による音声の変形は、発話時間の伸長としても現れる。現在、ＨＭＭを用いた音声認識方式においては、音韻の継続時間による尤度ペナルティを併用することで、認識性能の向上を実現している。これに対し、前述の発話時間の伸長は、音韻継続時間による尤度ペナルティの精度を劣化させ、認識性能の劣化につながっていた。
【０００８】
本発明は上記の問題を解決するためになされたもので、発声変形の強度を表すパラメータの関数として定義される発声変形モデルを従来の発声変形モデルから生成し、入力音声に対する尤度を最大にする発声変形の強度パラメータを求める機能を持たせることで、発声変形の強度の変動による認識性能の劣化を免れることを目的としている。
また、発声変形なし音声標準モデルに含まれる音韻継続時間パラメータに対し、ロンバード効果による変動を補償するように変更する機能を付加することで、発声変形音声の認識率の向上を図る。
【０００９】
【課題を解決するための手段】
この発明に係る発声変形音声認識装置は、
適応型発声変形モデル生成手段と、スペクトル変形手段と、発声変形音声認識手段と、適応型尤度演算手段と、照合手段と、を有する発声変形音声認識手段をさらに備え、
前記適応型発声変形モデル生成手段は、前記適応型尤度演算手段が求めた発声変形度パラメータを入力し、前記発声変形モデルメモリに格納されている発声変形モデルから前記発声変形度パラメータに従う適応型発声変形モデルを生成し、前記スペクトル変形手段は、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルに対し、前記適応型発声変形モデルに基づくスペクトル変形処理を施し、
前記適応型尤度演算手段は、前記入力音声特徴ベクトル時系列と前記スペクトル変形手段が出力した音声標準パタンとの尤度を最大にする前記発声変形度パラメータを求めるとともに、前記適応型発声変形モデル生成手段に入力して、前記発声変形度パラメータに基づく尤度を求め、
前記照合手段は、前記適応型尤度演算手段の出力を用いて照合処理を行い、認識結果を出力することを特徴とする。
【００１１】
また請求項３の発明における発声変形音声認識装置は、発声変形なし音声標準モデルメモリと音声認識手段との間に、発声変形なし音声標準モデルの継続時間パラメータを変更する継続時間パラメータ変更手段を入れたことを特徴とする。
【００１２】
【作用】
この発明において、適応型発声変形モデル生成手段は、適応型尤度演算手段が出力した発声変形度パラメータに従い、発声変形モデルメモリに格納されている発声変形モデルから適応型発声変形モデルを生成する。
本発明におけるスペクトル変形手段は、適応型発声変形モデル生成手段の出力であるところの適応型発声変形モデルに従い、発声変形なし音声標準モデルメモリに格納されている発声変形なし音声標準モデルに対しスペクトル変形処理を施し、変形音声標準モデルを生成する。
また適応型尤度演算手段は、入力音声特徴ベクトル時系列に対し、尤度を最大にする発声変形度パラメータを求め、そのパラメータに対応してスペクトル変形手段が生成した変形音声標準モデルに対する入力音声特徴ベクトルの尤度データを演算し、照合手段に出力する。
【００１３】
また他の発明によるマルチ発声変形モデル生成手段は、発声変形モデルメモリ上の発声変形モデルから、変形度メモリに格納されている発声変形度パラメータに則り、発声変形の強度の異なる発声変形モデルを生成する。
選択型尤度演算手段は、入力音声特徴ベクトルに対し、発声変形の強度が異なる発声変形モデルに基づきスペクトル変形手段で生成された変形音声標準モデルの中での尤度最大値を尤度データとして、照合手段に出力する。
【００１４】
また別の発明においては、継続時間パラメータ変更手段は、発声変形なし音声標準モデルメモリに格納されている発声変形なし音声標準モデルの音韻継続時間パラメータに対し、ロンバード効果による発話時間の伸長を補正するように変更を行い、発声変形音声認識手段へ送る。
【００１５】
【実施例】
実施例１．
図１は、請求項１の発明にかかわる発声変形音声認識装置に使われる発声変形音声認識手段の一実施例の構成を示すブロック図である。図において、４は発声変形モデルを格納する発声変形モデルメモリ、５は発声変形がない音声データから学習した発声変形なし音声標準モデルを格納する発声変形なし音声標準モデルメモリ、１２は発声変形モデルメモリ４に格納されている発声変形モデルから、入力される発声変形度パラメータに従う適応型発声変形モデルを生成する適応型発声変形モデル生成手段、８は入力される適応型声変形モデルを用いて、発声変形なし音声標準モデルメモリ５に格納されている発声変形なし音声標準モデルに対し、スペクトル変形処理を施すスペクトル変形手段、１４は適応型発声変形モデル生成手段１２に出力した発声変形度パラメータと、その値に対応してスペクトル変形手段から出力された発声変形モデルに対する入力音声特徴ベクトル時系列３の尤度とを用いて、入力音声特徴ベクトル時系列に対し最適な発声変形度パラメータによる尤度データ１５を照合手段に出力する適応型尤度演算手段、１１は尤度データ１５を用いて、照合処理を行い認識結果７を出力する照合手段である。
【００１６】
次に動作について、従来例の説明と同じく連続分布型音素片ＨＭＭによる離散単語認識の場合を例にとって説明する。発声変形なし音声標準モデルメモリ５には、発声変形のない音声データを用いて学習した音素片ＨＭＭが発声変形なし音声標準モデルとして格納されている。認識対象となる各単語音声は音素片ＨＭＭの連鎖で表現される。発声変形モデルは各音素片のスペクトル変形に対応して生成され、発声変形モデルメモリ４に格納されているものとする。従来例と重複する部分は説明を省略する。
【００１７】
適応型発声変形モデル生成手段１２は、発声変形モデルメモリ４に格納されている発声変形モデルから、後述する適応型尤度演算手段が決定した発声変形度パラメータ１３に従う発声変形の強度をもつ適応型発声変形モデルを生成する。
発声変形モデルは、従来例である前記文献と同じくロンバード効果によるスペクトルの変形について、以下の３つの要素で構成される。
（１）ホルマント周波数の移動を表す周波数軸非線形伸縮関数
（２）スペクトルの全体傾斜の変化を表すフィルタ
（３）ホルマントＱの変化を表すフィルタ
発声変形モデルメモリ４に格納されている発声変形モデルＬ _Ｔに対する適応型発声変形モデルは、発声変形度パラメータｗの関数として以下のように定義される。
Δ^Ｌ _ｔ（ｗ）＝ｗ・Δ^Ｌ _ｔ
δ^Ｌ _ｔ（ｗ）＝ｗ・δ^Ｌ _ｔ
ＱＬ_ｔ（ｗ）＝ｗ・Ｑ^Ｌ _ｔ
ここで、Δ^Ｌ _ｔは（１）から得られる周波数ｔにおける周波数シフト量、δ^Ｌ _ｔおよびＱ^Ｌ _ｔはそれぞれ（２）（３）の各フィルタに対応する対数スペクトルでｔは周波数を表している。ｗは０以上の値をとり、ｗ＝０では変形なし、徐々にｗを大きくすることで変形度が増し、ｗ＝１では元の発声変形モデルと同じになる。ｗを１以上にすることでより強い変形も表現できる。
【００１８】
スペクトル変形手段８は、従来例と同じく入力された適応型発声変形モデルを用いて、発声変形なし音声標準パタンメモリ５に格納されているラベルＬの発声変形なし音素片ＨＭＭに対し、同じラベルＬに対応する適応型発声変形モデルによるスペクトル変形処理を施し、発声変形音素片ＨＭＭとして出力する。スペクトル変形処理の対象は、音素片ＨＭＭの場合、各状態における平均ベクトルとなる。
適応型尤度演算手段１４は、適応型発声変形モデル生成手段１２に対し出力する発声変形度パラメータ１３の値の変更と、それに対応してスペクトル変形手段８が出力した発声変形音素片ＨＭＭ（ラベルＬ）に対する入力音声特徴ベクトル時系列３の特徴ベクトルＸ（ｎ）の尤度演算を繰り返し、最も大きい尤度を尤度データＰ（ｎ，Ｌ）として出力する。これをすべてのＬ、１≦ｎ≦Ｎについて行う。これにより発声変形の強さの変動の影響を受けない尤度が得られる。
照合手段１１は、従来例と同じように、尤度データ１５を用いて各単語に対する尤度をビタビ演算もしくはトレリス演算により求め、尤度最大となる単語のカテゴリを認識結果として出力する。
【００１９】
実施例２．
図２は、請求項２の発明に係る発声変形音声認識装置に使われる発声変形音声認識手段の一実施例の構成を示すブロック図である。図において、１６は各発声変形モデルについて設定される複数個の相異なる発声変形度パラメータを記憶する変形度メモリ、１７は発声変形モデルメモリ４に記憶されている各発声変形モデルを入力として、変形度メモリ１６に格納されている発声変形度パラメータを用いて発声変形の強さの相異なる複数の発声変形モデルを生成するマルチ発声変形モデル生成手段、８はマルチ発声変形モデル生成手段１７の出力であるところの発声変形モデルを用いて、発声変形なし音声標準モデルメモリ５に格納されている発声変形なし音声標準モデルに対しスペクトル変形処理を施すスペクトル変形手段、１８はスペクトル変形手段８の出力であるところの変形音声標準モデルに対する入力音声特徴ベクトル時系列３の尤度を求め、同一の発声変形なし音声標準モデルから生成された変形音声標準モデルの中での最大尤度を尤度データとして照合手段に出力する選択型尤度演算手段、１１は選択型尤度演算手段１８の出力であるところの尤度データを用いて、照合処理を行い認識結果７を出力する照合手段である。
【００２０】
次に動作について、従来例と同じく連続分布型音素片ＨＭＭによる離散単語認識の場合を例にとって説明する。発声変形なし音声標準モデルメモリ５には、発声変形のない音声データを用いて学習した音素片ＨＭＭが発声変形なし音声標準モデルとして格納されている。認識対象となる各単語音声は音素片ＨＭＭの連鎖で表現される。発声変形モデルは各音素片のスペクトル変形に対応して生成され、発声変形モデルメモリ４に格納されているものとする。従来例と重複する部分は説明を省略する。
【００２１】
変形度メモリ１６には、ラベルＬの音素片における発声変形の強さの変動の分布を近似する複数個の発声変形度パラメータ｛ｗ_Ｌ（ｋ）｜ｋ＝１．．．Ｋ_Ｌ｝（Ｋ_ＬはラベルＬの音素片に対する発声変形度パラメータの数）が、すべてのラベルについて記憶されている。
マルチ発声変形モデル生成手段１７は、発声変形モデルメモリ４に記憶されている、各音素片に対応する発声変形モデルに対し、変形度メモリ１６に格納されている該音素片に対応する複数個の発声変形度パラメータに従い、前述の実施例１における適応型発声変形モデル生成手段における適応型発声変形モデルの定義に則り発声変形度パラメータの個数と等しい数の発声変形モデルを生成する。
スペクトル変形手段８は、発声変形なし音声標準モデルメモリ５に記憶されているラベルＬの発声変形なし音素片ＨＭＭに対し、マルチ発声変形モデル生成手段１７の出力であるところのラベルＬに対応する複数個の発声変形モデルによる、スペクトル変形処理を施し、発声変形音素片ＨＭＭとして出力する。これをすべてのＬについて行う。
選択型尤度演算手段１８は、スペクトル変形手段の出力であるところのラベルＬに対応する複数個の発声変形音素片ＨＭＭに対する、入力音声特徴ベクトル時系列３の特徴ベクトルＸ（ｎ）の尤度を求め、その中で最大の尤度を尤度データＰ（ｎ，Ｌ）として出力する。これをすべてのＬ、１≦ｎ≦Ｎについて行う。
照合手段は、従来例と同じように、尤度データ１５を用いて各単語に対する尤度をビタビ演算もしくはトレリス演算により求め、尤度最大となる単語のカテゴリを認識結果として出力する。
【００２２】
実施例３．
図３は、請求項３の発明に係る発声変形音声認識装置の位置実施例の構成を示すブロック図である。図において、１９は発声変形なし音声標準モデルメモリ５に格納されている発声変形なし音声標準モデルを入力とし、該発声変形なし音声標準モデルの音韻継続時間パラメータに対し変更を加えて、発声変形音声認識手段へ出力する、継続時間パラメータ変更手段である。その他の構成要素は、前述の従来例におけるものと全く同一であるので説明を省略する。
【００２３】
次に動作について、継続時間制御付き連続分布型音素片ＨＭＭによる離散単語認識の場合を例にとって説明する。従来例と重複する部分は説明を省略する。
発声変形なし音声標準モデルメモリ５には、発声変形がない音声データから生成した発声変形なし音声標準モデルが格納されている。各単語音声の発声変形音声標準モデルは、連続分布型音素片ＨＭＭの連鎖で表されている。また各音素片について継続時間の平均と分散が求められており、認識時には継続時間によるペナルティを含めた尤度計算が行われる。
継続時間パラメータ変更手段１９は、ロンバード効果による各音素片の継続時間の変化についての情報として、発声変形音声における音素片継続時間の平均の伸び率と分散の増大率を多数話者について調査した得た平均値を保持しており、これに従い、発声変形なし音声標準モデルメモリ５に記憶されている発声変形なし音声標準モデルの音素片継続時間パラメータを変更し、出力する。
これにより、継続時間によるペナルティを用いた照合方式において、ロンバード効果による発話時間の伸長による認識精度の劣化が抑えられる。
この継続時間補正手法は、音素片への適用に限定されるものではなく、半音素、音素、音節、ＣＶＣ、ＶＣＶ、単語など如何なる音声単位であってもかまわない。
【００２４】
【発明の効果】
この発明は、以上説明したように構成されているので、以下に記載されるような効果を奏する。
【００２５】
請求項１の発明においては、適応型尤度演算手段が設定した発声変形度パラメータに従って適応型発声変形モデルが生成され、この適応型発声変形モデルに基づくスペクトル変形を発声変形なし音声標準モデルに施し、得られた変形音声標準モデルに対する入力音声特徴ベクトル時系列との尤度に従って発声変形度パラメータが更新されているので、入力音声における発声変形の強さの変動の影響を受けにくい発声変形音声認識装置を得ることができる。
【００２７】
また、請求項２の発明においては、発声変形なし音声標準モデルにおける音韻継続時間に関するパラメータに対し、ロンバード効果による発話時間の伸長に適合した補正を施しているため、音韻継続時間によるペナルティを用いる音声認識装置においてロンバード効果による発話時間伸長による認識精度劣化が生じ難くなっている。
【図面の簡単な説明】
【図１】この発明の実施例１を示すブロック図である。
【図２】この発明の実施例２を示すブロック図である。
【図３】この発明の実施例３を示すブロック図である。
【図４】従来の音声認識装置の全体構成を示すブロック図である。
【図５】従来の音声認識装置の構成する機能の一つである発声変形音声認識手段の構成を示すブロック図である。
【符号の説明】
１入力端
２音響分析手段
３入力音声特徴ベクトル時系列
４発声変形モデルメモリ
５発声変形なし音声標準モデルメモリ
６発声変形音声認識手段
７認識結果
８スペクトル変形手段
９音声モデル合成手段
１０尤度演算手段
１１照合手段
１２適応型発声変形モデル生成手段
１３発声変形度パラメータ
１４適応型尤度演算手段
１５尤度データ
１６変形度メモリ
１７マルチ発声変形モデル生成手段
１８選択型尤度演算手段
１９継続時間パラメータ変更手段

Claims

入力音声信号に対し音響分析を行い入力音声特徴ベクトル時系列を出力する音響分析手段と、
騒音環境下で発声された音声に生じる音韻スペクトルの変形の様態を表現する発声変形モデルを記憶する発声変形モデルメモリと、
発声変形の無い音声データで学習した音声標準モデルを記憶する発声変形無し音声標準モデルメモリと、
前記音響分析手段の出力である入力音声特徴ベクトル時系列に対し、該発声変形モデルと該音声標準モデルとを用いて認識処理を行い、認識結果を出力する発声変形音声認識手段とで構成される音声認識装置において、
適応型発声変形モデル生成手段と、スペクトル変形手段と、発声変形音声認識手段と、適応型尤度演算手段と、照合手段と、を有する発声変形音声認識手段をさらに備え、
前記適応型発声変形モデル生成手段は、前記適応型尤度演算手段が求めた発声変形度パラメータを入力し、前記発声変形モデルメモリに格納されている発声変形モデルから前記発声変形度パラメータに従う適応型発声変形モデルを生成し、
前記スペクトル変形手段は、前記発声変形なし音声標準モデルメモリに格納されている音声標準モデルに対し、前記適応型発声変形モデルに基づくスペクトル変形処理を施し、
前記適応型尤度演算手段は、前記入力音声特徴ベクトル時系列と前記スペクトル変形手段が出力した音声標準パタンとの尤度を最大にする前記発声変形度パラメータを求めるとともに、前記適応型発声変形モデル生成手段に入力して、前記発声変形度パラメータに基づく尤度を求め、
前記照合手段は、前記適応型尤度演算手段の出力を用いて照合処理を行い、認識結果を出力することを特徴とする発声変形音声認識装置。
入力音声信号に対し音響分析を行い入力音声特徴ベクトル時系列を出力する音響分析手段と、
騒音環境下で発声された音声に生じる音韻スペクトルの変形の様態を表現する発声変形モデルを記憶する発声変形モデルメモリと、
発声変形の無い音声データで学習した音声標準モデルを記憶する発声変形無し音声標準モデルメモリと、
前記音響分析手段の出力である入力音声特徴ベクトル時系列に対し、該発声変形モデルと該音声標準モデルとを用いて認識処理を行い、認識結果を出力する発声変形音声認識手段とで構成される音声認識装置に対し、
前記発声変形なし音声標準モデルメモリと前記音声認識手段との間に、発声変形なし音声標準モデルの継続時間パラメータを変更する継続時間パラメータ変更手段を入れたことを特徴とする発声変形音声認識装置。