JP3088357B2

JP3088357B2 - 不特定話者音響モデル生成装置及び音声認識装置

Info

Publication number: JP3088357B2
Application number: JP09242513A
Authority: JP
Inventors: 純石井
Original assignee: 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date: 1997-09-08
Filing date: 1997-09-08
Publication date: 2000-09-18
Anticipated expiration: 2017-09-08
Also published as: JPH1185186A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、初期話者モデルに
対して話者依存の音声データの特徴パラメータを用いて
話者正規化を行った後、不特定話者化を行うことにより
不特定話者化された音響モデルである隠れマルコフモデ
ル（以下、ＨＭＭという。）を生成する不特定話者音響
モデル生成装置、及び、生成された不特定話者ＨＭＭを
用いて音声認識する音声認識装置に関する。

【０００２】

【従来の技術】音声認識のアプリケーションを考えた場
合、事前の話者登録無しに使用が可能の不特定話者音声
認識システムの要望が高い。しかしながら、現状の不特
定話者音声認識の性能は、特定話者音声認識よりも低
く、その差は、誤り率で２〜３倍程度である。不特定話
者音声認識の性能を向上されるため、特定話者が発声し
た少量の適応データを用い、不特定話者音声認識の音響
モデルを特定話者へ近づける話者適応化処理（例えば、
従来技術文献１「C.L.Leggetter et al.,“MaximumLike
lihood Linear Regression for Speaker Adaptation of
Continuous Density Hidden Markov Models",Computer
Speech and Language,Vol.9,pp.171-185,1995年」参
照。）の研究が行なわれているが、特定話者音声認識と
同等の性能を示すまでには、多量の学習用適応化データ
が必要となっている。

【０００３】一般に、話者に依存しない不特定話者ＨＭ
Ｍ（以下、ＳＩ−ＨＭＭという。）の学習は複数の話者
の音声データを用いて行う。学習データには話者による
違いだけでなく、学習対象の単位の置かれた状況（コン
テキスト）等の違いが混在するにも関わらず、特定話者
音声認識の音響モデル（話者に依存するＨＭＭ（以下、
ＳＤ−ＨＭＭという。）である。）の学習と同様に処理
する。これにより、ＳＩ−ＨＭＭには話者の違いに起因
する変動と音韻コンテキストの変動の両方が混在し、広
がりの大きなモデルになってしまう。これが識別性能劣
化の要因の１つなっていると考えられる。連続混合分布
型ＨＭＭを基本とした音声認識システムの場合では、ガ
ウス分布の分散が大きくなる現象であり、認識単位間の
重なりが発生し、識別を困難となるという問題点があっ
た。

【０００４】特に、従来技術文献１において開示され
た、従来例の重回帰写像モデルを用いて話者適応化した
場合に、学習用適応化データが少量であるときに、適応
化のパラメータの推定精度が比較的悪く、音声認識率が
比較的低いという問題点があった。

【０００５】本特許出願人は、以上の問題点を解決する
ために、特願平０９−０５４５９６号の特許出願におい
て、話者正規化装置及び話者適応化装置が開示されてい
る。当該話者正規化装置は、「複数の話者にそれぞれ依
存する音声データの特徴ベクトルに基づいて、所定の隠
れマルコフモデルの初期モデルに対して、最尤線形回帰
法により、重回帰写像モデルに基づく平均ベクトルの変
換のための変換行列と定数項ベクトルを含む第１の変換
係数を上記各話者毎に演算する第１の演算手段と、上記
複数の話者にそれぞれ依存する音声データの特徴ベクト
ルから上記各話者毎に、上記第１の演算手段によって演
算された定数項ベクトルを減算して正規化された音声デ
ータの特徴ベクトルを演算する第２の演算手段と、上記
第２の演算手段によって演算された正規化された音声デ
ータの特徴ベクトルに基づいて、上記隠れマルコフモデ
ルの初期モデルを、所定の学習アルゴリズムを用いて学
習することにより、話者正規化された隠れマルコフモデ
ルのモデルパラメータを演算する第３の演算手段とを備
えたこと」を特徴としている。また、当該話者適応化装
置は、「話者適応化する話者の音声データの特徴ベクト
ルに基づいて、上記話者正規化装置の第３の演算手段に
よって演算された隠れマルコフモデルに対して、最尤線
形回帰法により、重回帰写像モデルに基づく平均ベクト
ルの変換のための変換行列と定数項ベクトルを含む第２
の変換係数を演算する第４の演算手段と、上記第４の演
算手段によって演算された変換行列と定数項ベクトルを
含む第２の変換係数に基づいて、最大事後確率推定法に
より、話者適応化された重回帰写像モデルに基づく平均
ベクトルの変換のための変換行列と定数項ベクトルを含
む第３の変換係数を演算する第５の演算手段と、上記第
５の演算手段によって演算された変換行列と定数項ベク
トルを含む第３の変換係数に対して、所定の線形変換処
理を実行することにより、話者適応化後の隠れマルコフ
モデルの平均ベクトルを演算する第６の演算手段とを備
えたこと」を特徴としている。

【０００６】

【発明が解決しようとする課題】しかしながら、上記話
者適応化装置においては、音声認識時において話者適応
処理を行う必要があるという問題点があった。不特定話
者モデルとしては話者適応処理無しのシステムが望まれ
る。本発明の目的は以上の問題点を解決し、不特定話者
音声認識において、従来技術に比較して音声認識率を改
善することができる不特定話者音響モデル生成装置及び
音声認識装置を提供することにある。

【０００７】

【課題を解決するための手段】本発明に係る請求項１記
載の不特定話者音響モデル生成装置は、複数の話者にそ
れぞれ依存する音声データの特徴ベクトルに基づいて、
所定の隠れマルコフモデルの初期モデルに対して、最尤
線形回帰法により、重回帰写像モデルに基づく平均ベク
トルの変換のための変換行列と定数項ベクトルを含む第
１の変換係数を上記各話者毎に演算することにより、上
記各話者毎に適応された隠れマルコフモデルを得る第１
の演算手段と、上記第１の演算手段によって得られた上
記各話者毎に適応された隠れマルコフモデルに基づい
て、上記音声データとその発話内容のテキストデータか
ら、ビタビ・アルゴリズムを用いて、最適状態系列を演
算し、各時刻の最適状態毎に上記音声データの特徴ベク
トルが最大出力確率を示す混合分布系列を演算する第２
の演算手段と、上記第２の演算手段によって演算された
最適状態系列の各状態内の混合分布の話者適応化前後の
平均ベクトルを用いて、上記音声データの特徴ベクトル
を話者正規化することにより、話者正規化された音声デ
ータの特徴ベクトルを演算する第３の演算手段と、上記
第３の演算手段によって演算された正規化された音声デ
ータの特徴ベクトルに基づいて、上記隠れマルコフモデ
ルの初期モデルを、所定の学習アルゴリズムを用いて学
習することにより、話者正規化された隠れマルコフモデ
ルのモデルパラメータを演算する第４の演算手段と、上
記第４の演算手段によって演算された話者正規化された
隠れマルコフモデルに対して、最尤線形回帰法により、
重回帰写像モデルに基づく平均ベクトルの変換のための
変換行列と定数項ベクトルを含む第２の変換係数を上記
各話者毎に演算することにより、上記各話者毎に適応さ
れた隠れマルコフモデルの平均ベクトルを得る第５の演
算手段と、上記第５の演算手段によって得られた適応さ
れた隠れマルコフモデルの平均ベクトルと、上記第４の
演算手段によって演算された話者正規化された隠れマル
コフモデルのモデルパラメータとに基づいて、不特定話
者化することにより、不特定話者化された隠れマルコフ
モデルの平均ベクトルと共分散行列を演算して、不特定
話者化された隠れマルコフモデルを得る第６の演算手段
とを備えたことを特徴とする。

【０００８】また、本発明に係る請求項２記載の音声認
識装置は、請求項１記載の不特定話者音響モデル生成装
置の第６の演算手段によって演算された隠れマルコフモ
デルを用いて、入力された発声音声文の音声信号に基づ
いて、音声認識して音声認識結果を出力する音声認識手
段とを備えたことを特徴とする。

【０００９】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。

【００１０】図１は本発明に係る一実施形態である音声
認識装置のブロック図である。この実施形態は、話者正
規化制御部２０と、不特定話者化制御部２１とを備えた
ことを特徴とする。

【００１１】ここで、話者正規化制御部２０は、（ａ）
複数Ｍ人の話者にそれぞれ依存する音声データ３２−１
乃至３２−Ｍの特徴ベクトルＯ^m（ｍ＝１，２，…，
Ｍ）＝［ｏ^m ₁，ｏ^m ₂，…，ｏ^m _Tm］に基づいて、所定の
ＨＭＭの初期モデル（以下、初期ＨＭＭという。）３１
に対して、最尤線形回帰法により、重回帰写像モデルに
基づく平均ベクトルの変換のための変換行列と定数項ベ
クトルを含む第１の変換係数Ａ^m，ｂ^mを、後述する数１
を用いて各話者ｍ（ｍ＝１，２，…，Ｍ）毎に演算する
ことにより、上記各話者毎に適応されたＨＭＭλｈ^mを
得た後、（ｂ）上記得られた各話者ｍ毎に適応されたＨ
ＭＭλｈ^mに基づいて、上記音声データとその発話内容
のテキストデータ（音声データ３２−１乃至３２−Ｍと
ともにメモリに格納される。）から、ビタビ・アルゴリ
ズムを用いて、最適状態系列ｐ^m＝［ｐ^m ₁，ｐ^m ₂，…，
ｐ^m _Tm］を演算し、各時刻の最適状態毎に上記音声デー
タの特徴ベクトルＯ^mが最大出力確率を示す混合分布系
列ｑ^m＝［ｑ^m ₁，ｑ^m ₂，…，ｑ^m _Tm］を、後述する数２を
用いて演算し、（ｃ）上記演算された最適状態系列の各
状態ｐ^m _t内の混合分布ｑ^m _tの話者適応化前後の平均ベク
トルを用いて、上記音声データの特徴ベクトルを話者正
規化することにより、話者正規化された音声データの特
徴ベクトルＯｂ＝［Ｏｂ¹，Ｏ^b２，…，Ｏｂ^M］を、後
述する数３を用いて演算し、（ｄ）上記演算された正規
化された音声データの特徴ベクトルＯｂに基づいて、上
記初期ＨＭＭを、後述する数４乃至数８を用いてバーム
・ウエルチ（Ｂａｕｍ−Ｗｅｌｃｈ）の学習アルゴリズ
ムを用いて学習することにより、話者正規化されたＨＭ
Ｍλｂのモデルパラメータを演算する。ここで、モデル
パラメータは、平均ベクトル、ガウス分布の分散、状態
遷移確率などのＨＭＭのモデルパラメータを含む。

【００１２】また、不特定話者化制御部２１は、（ｅ）
上記演算された話者正規化されたＨＭＭλｂに対して、
最尤線形回帰法により、重回帰写像モデルに基づく平均
ベクトルの変換のための変換行列と定数項ベクトルを含
む第２の変換係数を、数９を用いて、上記各話者ｍ毎に
演算することにより、上記各話者ｍ毎に適応されたＨＭ
Ｍの平均ベクトルを得た後（ここで、適応学習するパラ
メータは、ガウス分布の平均値である。）、（ｆ）上記
得られた適応されたＨＭＭの平均ベクトルと、話者正規
化制御部２０によって演算された話者正規化されたＨＭ
Ｍのモデルパラメータである共分散行列とに基づいて、
後述する数１０及び数１１を用いて、不特定話者化する
ことにより、不特定話者化されたＨＭＭλａの平均ベク
トルと共分散行列を演算して、不特定話者化されたＨＭ
Ｍλａを得る。ここで、ＨＭＭλａの遷移確率と、混合
重み係数については、話者正規化されたＨＭＭλｂのパ
ラメータを用いる。

【００１３】さらに、図１の音声認識装置は、上記不特
定話者化されたＨＭＭ１１を用いて、入力された発声音
声文の音声信号に基づいて、音声認識して音声認識結果
を出力する。

【００１４】まず、本実施形態における話者正規化を用
いた不特定話者モデル作成について説明する。会話のよ
うな自然発話音声データを用いて一括処理した場合、発
話様式が学習話者毎で大きく異るので、広がりが大きな
音響モデルが生成される。また、発話内容も話者毎に異
っており、認識ユニット毎に学習話者数の偏りが生じ、
話者の違いによる変動を正しく表現できなくなる。この
ため、ＨＭＭは図６（ａ）のように、広がりが大きな、
偏った出力確率分布となり不特定話者音声認識の性能が
低くなると考えられる。そこで、自然発話音声を用いた
不特定話者モデルを、以下の２段階の処理によって作成
する。（ａ）話者正規化を行い、話者内の音韻変動のみで図６
（ｂ）の話者正規化モデル（ＳＮモデル：λｂ）を得る
ように学習する。（ｂ）話者正規化モデルλｂを基準として話者の違いに
よる変動を推定し、図６（ｃ）の話者正規化不特定話者
モデル（ＳＮ−ＳＩモデル：λａ）を獲得する。

【００１５】まず、学習データの話者正規化について述
べる。話者正規化は、Ｍ人の学習話者音声データからの
特徴パラメータの観測系列の集合Ｏ＝［Ｏ¹，Ｏ²…，Ｏ
^M］（話者ｍの特徴パラメータの観測系列はＯ^m＝
［ｏ^m ₁，ｏ^m ₂，…，ｏ^m _Tm］（ｏはｎ次元のベクトルで
あり、下つき添字は時刻（具体的には、フレーム番号）
である。）から話者正規化観測系列の集合Ｏｂ＝［Ｏｂ
¹，Ｏｂ²，…，Ｏｂ^M］を求めることで行う。本実施形
態では、話者適応法を利用し、話者適応モデルと観測ベ
クトルとの相対的な位置が、話者正規化観測ベクトルで
あると仮定した話者正規化法を述べる。話者ｍの適応モ
デルλｈ^m（本明細書において、モデルはＨＭＭをい
う。）は、初期モデルをλとし、特徴ベクトルの観測系
列Ｏ^mを学習データとした適応学習によって得る。ここ
では、話者適応方式として最尤線形回帰法（Maximum Li
kelihood Linear Regression；以下、ＭＬＬＲ法とい
う。；例えば従来技術文献１参照。）を用いて、ガウス
分布の平均ベクトルμ（ｊ，ｋ）（状態ｊ内の混合分布
ｋ）を、次式で適応平均ベクトルμｈ（ｊ，ｋ）に写像
する。

【数１】μｈ^m（ｊ，ｋ）＝Ａ^mμ（ｊ，ｋ）＋ｂ^m

【００１６】ここで、Ａ^m、ｂ^mはそれぞれ、ｎ×ｎの行
列、ｎ次元のベクトルであり、ガウス分布の共有化クラ
ス毎に推定する。また、ｎは特徴ベクトルの次元数であ
る。このＭＬＬＲ法による処理の概念図を図４に示す。

【００１７】次に、話者ｍの適応モデルλｈ^mを用い
て、話者ｍの特徴ベクトルの観測系列Ｏ^mとその発声内
容のテキストデータからビタビ（Viterbi）・アルゴリ
ズムにより最適状態系列ｐ^m＝［ｐ^m ₁，ｐ^m ₂，…，
ｐ^m _Tm］を求め、各時刻の最適状態毎に、特徴ベクトル
の観測系列Ｏ^mが最大出力確率を示す混合分布系列ｑ^m＝
［ｑ^m ₁，ｑ^m ₂，…，ｑ^m _Tm］を次式で抽出する。

【数２】ｑ^m _t＝ａｒｇｍａｘ[ｃ(ｐ^m _t,ｑ)・Ｎ(ｏ^m _t,μ
ｈ^m(ｐ^m _t,ｑ),Ｕ（ｐ^m _t,ｑ))]ｑ∈Ｑ^m _t

【００１８】ここで、Ｑ^m _tは時刻ｔの最適状態内の混合
分布の集合、ｃは混合重み係数、Ｕは共分散行列であ
る。また、関数ａｒｇｍａｘ（・）は、ｑ∈Ｑ^m _tなる条
件で変数ｑを変化したときに、当該関数値が最大となる
ときの変数ｑの値を示す関数である。さらに、関数Ｎ
（・）は、変数である特徴パラメータｏ^m _t、平均ベクト
ルμｈ^m(ｐ^m _t,ｑ)及び共分散行列Ｕ（ｐ^m _t,ｑ)を設定し
たときの出力確率である。次いで、話者正規化観測系列
Ｏｂ^m＝［ｏｂ^m ₁，ｏｂ^m ₂，…，ｏｂ^m _Tm］は、上記で求
めた、状態ｐ^m _t内の混合分布ｑ^m _tの話者適応前後の平均
ベクトルを用い、次式に従って獲得する。

【数３】ｏｂ^m _t＝ｏ^m _t−μｈ^m（ｐ^m _t，ｑ^m _t）＋μ（ｐ^m
_t，ｑ^m _t）

【００１９】すなわち、音声データの特徴パラメータの
観測系列ｏ^m _tから、話者適応化後の平均ベクトルμｈ^m
（ｐ^m _t，ｑ^m _t）を減算するとともに、話者適応化前の平
均ベクトルμ（ｐ^m _t，ｑ^m _t）を加算することにより、原
点を話者適応化前にあわせて、上記観測系列ｏ^m _tを話者
正規化する。話者正規化処理の概念図を図５に示す。以
上の処理を学習話者全て、すなわち話者毎に行い、話者
正規化観測系列の集合Ｏｂ＝［Ｏｂ¹，Ｏｂ²，…，Ｏｂ
^m］を得る。

【００２０】次いで、話者正規化モデルの学習について
述べる。まず、話者正規化観測系列Ｏｂを用いて、初期
モデルλの再学習を行う。ガウス分布の平均値と共分散
行列μｂ（ｊ，ｋ），Ｕｂ（ｊ，ｋ）は次式で更新す
る。

【数４】

【数５】

【００２１】ここで、

【数６】

【数７】

【数８】

【００２２】ここで、γ^m _t（ｊ，ｋ）は、特徴パラメー
タｏｂ^m _tが状態ｊの混合分布ｋに観測される期待値であ
る。また、｛・｝’は転置行列を表す。その他、ＨＭＭ
の遷移確率、混合重み係数等も同様に更新する。更新さ
れた音響モデルを前述の初期モデルλに置き換え、正規
化処理を一定回数繰り返し、最終的に得られたモデルを
ＳＮモデルλｂとする。

【００２３】次いで、話者正規化不特定話者モデルの作
成について述べる。不特定話者音声認識を目的とした、
話者の違いによる変動が表現されている話者正規化モデ
ル（ＳＮ−ＳＩモデル）の作成法について述べる。話者
の違いによる変動は、話者正規化モデルを初期モデルと
して、各学習話者毎に話者適応モデルを作成し、ガウス
分布を合成して表現する。

【００２４】（ａ）ＳＮモデルλｂを初期モデルとし、
話者正規化制御部２０のＭＬＬＲ処理と同様に、ＭＬＬ
Ｒ法によって、次式によって各学習話者毎の適応モデル
を作成する。適応するパラメータはガウス分布の平均値
である。

【数９】 μｈｂ^m（ｋ，ｊ）＝Ａｂ^mμｂ（ｊ，ｋ）＋ｂｂ^m （ｂ）適応モデルの平均ベクトルμｈ^m（ｊ，ｋ）とＳ
Ｎモデルの共分散行列Ｕｂ（ｊ，ｋ）から、数１０及び
数１１により、平均ベクトルμａ（ｊ，ｋ）と共分散行
列Ｕａ（ｊ，ｋ）を求め、ＳＮ−ＳＩモデルλａを得
る。ここで、遷移確率、混合重み係数についてはＳＮモ
デルの値を用いる。

【数１０】

【数１１】

【００２５】図１において、話者正規化制御部２０、不
特定話者化制御部２１、特徴抽出部２、音素照合部４、
ＬＲパーザ５は例えば、デジタル計算機などの演算制御
装置で構成され、バッファメモリ３は例えばハードディ
スクメモリであり、初期ＨＭＭ３１及び各話者１乃至Ｍ
の音声データの特徴パラメータベクトル、話者正規化さ
れたＨＭＭ３３、不特定話者化されたＨＭＭ１１、ＬＲ
テーブル１２及び文脈自由文法１３は例えばハードディ
スクメモリに記憶される。なお、各話者の音声データ３
２−１乃至３２−Ｍは各話者の音声波形信号から特徴抽
出した特徴パラメータのベクトル、すなわち特徴ベクト
ル及びその発声内容のテキストデータである。本明細書
において、音声データとは、特徴ベクトルをいう。

【００２６】図２は、図１の話者正規化制御部２０によ
って実行される話者正規化処理を示すフローチャートで
ある。まず、図２のステップＳ１で、各話者ｍの音声デ
ータ３２−１乃至３２−Ｍを読み出すとともに、不特定
話者ＨＭＭである初期ＨＭＭ（ＨＭＭの初期モデル）３
１を読み出して処理対象のＨＭＭとする。次いで、ステ
ップＳ２で、図４に示すように、処理対象のＨＭＭに対
して、各話者ｍ毎の音声データ３２−１乃至３２−Ｍの
特徴パラメータＯ^mを学習データとして適応学習し、こ
こで、ＭＬＬＲ法により数１を用いて各話者毎にガウス
分布の平均ベクトルμ（ｊ，ｋ）を適応平均ベクトルμ
ｈ^m（ｊ，ｋ）に写像することにより、話者ｍの適応モ
デルλｈ^mを得る。次いで、ステップＳ３で、各話者毎
に適応モデルλｈ^mを用いて観測系列Ｏ^mとその発声内容
のテキストデータからビタビ・アルゴリズムにより、最
適状態系列ｐ^mを演算し、各時刻の最適状態毎に観測系
列Ｏ^mが最大出力確率を示す混合分布系列ｑ^mを数２を用
いて演算する。さらに、ステップＳ４で話者正規化観測
系列Ｏｂ^mを状態ｐ^m _t内の混合分布ｑ^m _tの話者適応前後
の平均ベクトルを用いて数３に従って演算する。さら
に、ステップＳ５で、話者正規化観測系列Ｏｂ^mを用い
て初期ＨＭＭに対してバーム・ウエルチの学習アルゴリ
ズムを用いて再学習を行う。そして、ステップＳ６で所
定の繰り返し回数となったか否かが判断され、なってい
ないときは、ステップＳ７で再学習後のＨＭＭを処理対
象のＨＭＭとして、再び、ステップＳ２に戻り、上記の
処理を実行する。一方、ステップＳ６で、所定の繰り返
し回数（好ましい実施形態においては、５回である。）
となったときは、ステップＳ８で再学習後のＨＭＭを話
者正規化ＨＭＭ３３としてメモリに記憶する。そして当
該話者正規化処理を終了する。

【００２７】図３は、図１の不特定話者化制御部によっ
て実行される不特定話者化処理を示すフローチャートで
ある。図３のステップＳ１１で、話者正規化されたＨＭ
Ｍ３３と各話者の音声データ３２−１乃至３２−Ｍを読
み出す。次いで、ステップＳ１２で、ＭＬＬＲ法により
数９を用いて、各話者毎の適応モデルを演算する。さら
に、ステップＳ１３で数１０及び数１１を用いて、不特
定話者化されたモデルλｂを演算する。最後に、不特定
話者化されたＨＭＭ１１をメモリに記憶する。そして当
該不特定話者化処理を終了する。

【００２８】不特定話者化されたＨＭＭ１１は、音素照
合部４に接続され、ＨＭ網として複数の状態のネットワ
ークとして表すこともできる。ＨＭＭ１１内の個々の状
態は、音声空間上の１つの確率的定常信号源と見なすこ
とができ、それぞれ以下の情報を保有している。（ａ）状態番号、（ｂ）受理可能なコンテキストクラ
ス、（ｃ）先行する状態および後続する状態のリスト、
（ｄ）音声の特徴空間上に割り当てられた確率分布のパ
ラメータ、（ｅ）自己遷移確率および後続状態への遷移
確率。不特定話者化されたＨＭＭ１１では、入力データとその
コンテキスト情報が与えられた場合、そのコンテキスト
を受理することができる状態を先行および後続状態リス
トの制約内で連結することによって、入力データに対す
るモデルを一意に決定することができる。ここで、出力
確率密度関数は３４次元の対角共分散行列をもつ混合ガ
ウス分布（本明細書において、ガウス分布という。）で
あり、各ガウス分布は、初期ＨＭＭ３１を用いて話者正
規化制御部２０により話者正規化されかつ、話者正規化
されたＨＭＭ３３を用いて不特定話者化制御部２１によ
り不特定話者化されている。

【００２９】一般に連続分布型ＨＭＭによるモデルに対
して少量の適応データにより話者適応を行なう場合、ガ
ウス分布の平均値の適応は他のパラメータの適応に比べ
て効果が大きいことが知られている（例えば、従来技術
文献２「大倉計美ほか，“混合連続分布ＨＭＭを用いた
移動ベクトル場平滑化話者適応方式”，音響学会講演論
文集，２−Ｑ−１７，ｐｐ．１９１−１９２，１９９２
年３月」参照。）。本実施形態においては、各ガウス分
布の平均値のみの適応を行ない、分散値、状態遷移確率
及び、混合ガウス分布の重み係数の適応は行なわない。

【００３０】次いで、上述の本実施形態の話者正規化方
法及び話者適応化方法を用いた、ＳＳＳ−ＬＲ（left-t
o-right rightmost型）不特定話者連続音声認識装置に
ついて説明する。この装置は、ＨＭＭ１１を含むＨＭ網
のメモリに格納された音素環境依存型の効率のよいＨＭ
Ｍの表現形式を用いている。また、上記ＳＳＳにおいて
は、音素の特徴空間上に割り当てられた確率的定常信号
源（状態）の間の確率的な遷移により音声パラメータの
時間的な推移を表現した確率モデルに対して、尤度最大
化の基準に基づいて個々の状態をコンテキスト方向又は
時間方向へ分割するという操作を繰り返すことによっ
て、モデルの精密化を逐次的に実行する。

【００３１】図１において、話者の発声音声はマイクロ
ホン１に入力されて音声信号に変換された後、特徴抽出
部２に入力される。特徴抽出部２は、入力された音声信
号をＡ／Ｄ変換した後、例えばＬＰＣ分析を実行し、対
数パワー、１６次ケプストラム係数、Δ対数パワー及び
１６次Δケプストラム係数を含む３４次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ３を介して音素照合部４に入力される。

【００３２】音素照合部４は、音素コンテキスト依存型
ＬＲパーザ５からの音素照合要求に応じて音素照合処理
を実行する。そして、話者適応化されたＨＭＭ１１のメ
モリに格納された音素ＨＭＭの話者モデルを用いて音素
照合区間内のデータに対する尤度が計算され、この尤度
の値が音素照合スコアとしてＬＲパーザ５に返される。
このとき、前向きパスアルゴリズムを使用する。

【００３３】一方、文脈自由文法データベース１３内の
所定の文脈自由文法（ＣＦＧ）を公知の通り自動的に変
換してＬＲテーブル１２を作成してそのメモリに格納さ
れる。ＬＲパーザ５は、上記ＬＲテーブル１２を参照し
て、入力された音素予測データについて左から右方向
に、後戻りなしに処理する。構文的にあいまいさがある
場合は、スタックを分割してすべての候補の解析が平行
して処理される。ＬＲパーザ５は、上記ＬＲテーブル１
２から次にくる音素を予測して音素予測データを音素照
合部４に出力する。これに応答して、音素照合部４は、
その音素に対応するＨＭＭ１１内の情報を参照して照合
し、その尤度を音声認識スコアとしてＬＲパーザ５に戻
し、順次音素を連接していくことにより、連続音声の認
識を行う。上記連続音声の認識において、複数の音素が
予測された場合は、これらすべての存在をチェックし、
ビームサーチの方法により、部分的な音声認識の尤度の
高い部分木を残すという枝刈りを行って高速処理を実現
する。

【００３４】

【実施例】本発明者は、以上のように構成された音声認
識装置について、評価実験を以下の如く行った。評価実
験として、表１を実験条件として、連続単語認識実験を
行った。

【００３５】

【表１】実験条件 ─────────────────────────────────── 音響分析 ─────────────────────────────────── サンプリング周波数：１２ＫＨｚフレームシフト：１０ｍｓフレーム長：２０ｍｓ（ハミング窓）特徴ベクトル：１６次ケプストラム係数，１６次Δケプストラム係数，対数パワー，Δパワー ─────────────────────────────────── 音声データ ─────────────────────────────────── 旅行会話タスク学習：男性９９名（１３Ｋ単語，１２３７発話）女性１３１名（２０Ｋ単語，１７２５発話）評価：男性１６名（２１０２単語，１９６発話）女性１９名（２８４４単語，２４４発話） ─────────────────────────────────── ＨＭＭ ─────────────────────────────────── ＭＬ−ＳＳＳで作成したＨＭｎｅｔ（５混合／状態）＋１状態（１０混合）の無音モデル ─────────────────────────────────── 言語モデル ─────────────────────────────────── 可変長Ｎ−ｇｒａｍ学習：４１４，３２６単語（異り６，３９６単語），パープレキティー：１９．３４ ───────────────────────────────────

【００３６】音声データは本特許出願人で収録した旅行
会話音声データを用い、男性話者モデル、女性話者モデ
ル、男女不特定話者モデルを男性９９名、女性１３１名
のデータから作成し評価した。音響モデルの構造も上記
の音声データを用い、有音モデルは公知のＭＬ−ＳＳＳ
（maximum likelihood successive state splitting）
によって決定したＨＭｎｅｔ（５混合／状態）を使用
し、無音モデルは１状態（１０混合）とした。ＳＮ−Ｓ
Ｉモデル作成に用いたＭＬＬＲ法は、共有化クラスが１
６（不特定話者モデルのガウス分布を公知のクルバック
発散法（Kullbackdivergence）に基づいてクラスタリン
グすることで決定した。）であり、回帰行列Ａの対角成
分と定数項ｂを推定した。上記話者正規化処理の繰り返
し回数は５回とし、バーム・ウエルチ（Ｂａｕｍ−Ｗｅ
ｌｃｈ）の学習アルゴリズムでパラメータ推定を行っ
た。言語モデルは公知の可変長Ｎ−ｇｒａｍ（例えば、
従来技術文献３「H.Masataki et al.,“Variable-Order
N-Gram Generation by Word-Class Splitting and Con
secutive Word Grouping",Proceedings of ICASSP'96,p
p.188-191,1996年」参照。）を用い、認識結果をワード
グラフを用いたビームサーチの１位候補で評価した。

【００３７】次いで、実験結果について述べる。ＳＮ−
ＳＩモデルを用いて、男性１６名、女性１９名（音響モ
デルオープン、言語モデルクローズ）に対して連続音声
認識実験を行なった。ＨＭＭの状態数を４０１，６０
１，８０１，１００１とした場合の単語アキュラシーで
評価した結果を表２に示す。比較としてＳＮモデル、従
来の不特定話者（ＳＩ）モデルの認識結果も示す。

【００３８】

【表２】連続単語認識結果−単語誤り率（％） ─────────────────────────────────── ＨＭＭの状態数（分布数） ────────────────────────── ４０１６０１８０１１００１（２０１０）（３０１０）（４０１０）（５０１０） ─────────────────────────────────── 男性話者４４．３４２．６４３．９４０．４モデル４８．１４９．６５０．８４４．９４５．４４６．８４５．７４１．２ ─────────────────────────────────── 女性話者２９．９２８．７３０．３２８．６モデル３２．９３２．１３５．０３５．０３１．６３０．３３２．９３１．５ ─────────────────────────────────── 男女不特定３６．０３１．９３３．８３３．５話者モデル３８．９３５．５３７．３３８．５３７．７３３．８３４．７３５．４ ─────────────────────────────────── （注）上段：話者正規化不特定話者（ＳＮ−ＳＩ）モデル中段：話者正規化（ＳＮ）モデル下段：不特定話者（ＳＩ）モデル

【００３９】表２から明らかなように、ＳＮ−ＳＩモデ
ルは、全ての音響モデルの種類において、従来のＳＩモ
デルを上回る認識結果を得た。話者正規化を行って話者
内の音韻変動を学習した後に、話者の違いによる変動を
推定することが有効であることが分かる。ＳＮモデルは
従来のＳＩモデルよりも認識率が低い。これは、話者の
違いによる変動が含まれていないので、不特定話者音声
認識では低性能であると理解できる。

【００４０】以上説明したように、本実施形態によれ
ば、話者毎で発話内容、発話様式が異る自然発話音声を
用いた不特定話者モデルのために、話者正規化処理を施
して話者内の音韻変動を学習した後に、話者の違いによ
る変動を再学習することにより不特定話者化処理を行っ
た。すなわち、話者正規化した音声データの特徴パラメ
ータを用いて学習し、話者正規化モデルを生成した後、
話者性の違いによる変動を学習するので、学習音声デー
タの偏りによる悪影響が減少し、得られた不特定話者モ
デルを用いて音声認識することにより、従来技術に比較
して音声認識率を大幅に向上させることができる。

【００４１】

【発明の効果】以上詳述したように本発明に係る不特定
話者音響モデル生成装置によれば、複数の話者にそれぞ
れ依存する音声データの特徴ベクトルに基づいて、所定
の隠れマルコフモデルの初期モデルに対して、最尤線形
回帰法により、重回帰写像モデルに基づく平均ベクトル
の変換のための変換行列と定数項ベクトルを含む第１の
変換係数を上記各話者毎に演算することにより、上記各
話者毎に適応された隠れマルコフモデルを得る第１の演
算手段と、上記第１の演算手段によって得られた上記各
話者毎に適応された隠れマルコフモデルに基づいて、上
記音声データとその発話内容のテキストデータから、ビ
タビ・アルゴリズムを用いて、最適状態系列を演算し、
各時刻の最適状態毎に上記音声データの特徴ベクトルが
最大出力確率を示す混合分布系列を演算する第２の演算
手段と、上記第２の演算手段によって演算された最適状
態系列の各状態内の混合分布の話者適応化前後の平均ベ
クトルを用いて、上記音声データの特徴ベクトルを話者
正規化することにより、話者正規化された音声データの
特徴ベクトルを演算する第３の演算手段と、上記第３の
演算手段によって演算された正規化された音声データの
特徴ベクトルに基づいて、上記隠れマルコフモデルの初
期モデルを、所定の学習アルゴリズムを用いて学習する
ことにより、話者正規化された隠れマルコフモデルのモ
デルパラメータを演算する第４の演算手段と、上記第４
の演算手段によって演算された話者正規化された隠れマ
ルコフモデルに対して、最尤線形回帰法により、重回帰
写像モデルに基づく平均ベクトルの変換のための変換行
列と定数項ベクトルを含む第２の変換係数を上記各話者
毎に演算することにより、上記各話者毎に適応された隠
れマルコフモデルの平均ベクトルを得る第５の演算手段
と、上記第５の演算手段によって得られた適応された隠
れマルコフモデルの平均ベクトルと、上記第４の演算手
段によって演算された話者正規化された隠れマルコフモ
デルのモデルパラメータとに基づいて、不特定話者化す
ることにより、不特定話者化された隠れマルコフモデル
の平均ベクトルと共分散行列を演算して、不特定話者化
された隠れマルコフモデルを得る第６の演算手段とを備
える。従って、話者毎で発話内容、発話様式が異る自然
発話音声を用いた不特定話者モデルのために、話者正規
化処理を施して話者内の音韻変動を学習した後に、話者
の違いによる変動を再学習することにより不特定話者化
処理を行った。すなわち、話者正規化した音声データの
特徴パラメータを用いて学習し、話者正規化モデルを生
成した後、話者性の違いによる変動を学習するので、学
習音声データの偏りによる悪影響が減少し、得られた不
特定話者モデルを用いて音声認識することにより、従来
技術に比較して音声認識率を大幅に向上させることがで
きる。

【００４２】また、本発明に係る請求項２記載の音声認
識装置によれば、上記不特定話者音響モデル生成装置の
第６の演算手段によって演算された隠れマルコフモデル
を用いて、入力された発声音声文の音声信号に基づい
て、音声認識して音声認識結果を出力する音声認識手段
とを備える。従って、話者正規化した音声データの特徴
パラメータを用いて学習し、話者正規化モデルを生成し
た後、話者性の違いによる変動を学習するので、学習音
声データの偏りによる悪影響が減少し、得られた不特定
話者モデルを用いて音声認識することにより、従来技術
に比較して音声認識率を大幅に向上させることができ
る。

【図面の簡単な説明】

【図１】本発明に係る一実施形態である音声認識装置
のブロック図である。

【図２】図１の話者正規化制御部によって実行される
話者正規化処理を示すフローチャートである。

【図３】図１の不特定話者化制御部によって実行され
る不特定話者化処理を示すフローチャートである。

【図４】図１の話者正規化制御部によって実行される
ＭＬＬＲ処理を示す図である。

【図５】図１の話者正規化制御部によって実行される
話者正規化処理を示す図である。

【図６】図１の装置によって準備され又は生成される
各モデルの出力確率分布を示す図であって、（ａ）は不
特定話者モデルの出力確率分布を示す図であり、（ｂ）
は話者正規化モデルの出力確率分布を示す図であり、
（ａ）は話者正規化された不特定話者モデルの出力確率
分布を示す図である。

【符号の説明】

１…マイクロホン、２…特徴抽出部、３…バッファメモリ、４…音素照合部、５…ＬＲパーザ、１１…不特定話者化されたＨＭＭ、１２…ＬＲテーブル、１３…文脈自由文法（ＣＦＧ）データベース、２０…話者正規化制御部、２１…不特定話者化制御部、３１…初期ＨＭＭ、３２−１乃至３２−Ｍ…話者１乃至Ｍの音声データ、３３…話者正規化されたＨＭＭ。

フロントページの続き (56)参考文献特許3035239（ＪＰ，Ｂ２) 電子情報通信学会技術研究報告［音声］，Ｖｏｌ．96，Ｎｏ．448．ＳＰ96− 91，石井純外「重回帰写像モデルを用いた話者正規化と話者適応化方式」，ｐ. 29−35（1997年１月16日発行) 日本音響学会平成９年度春季研究発表会講演論文集▲Ｉ▼，２−６−16，石井純外「重回帰写像モデルを用いた話者適応のための話者正規化方式」，ｐ．75− 76（平成９年３月17日発行) 日本音響学会平成９年度秋季研究発表会講演論文集▲Ｉ▼，１−１−９，石井純外「話者正規化を用いた不特定話者音響モデルの学習」，ｐ．17−18（平成９年９月17日発行) Ｐｒｏｃｅｅｄｉｎｇｓｏｆ 1998 ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．１，Ｊ．Ｉｓｈｉｉｅｔａｌ，”ＳｐｅａｋｅｒＩｎｄｅｐｅｎｄｅｎｔＡｃｏｕｓｔｉｃＭｏｄｅｌｉｎｇＵｓｉｎｇＳｐｅａｋｅｒＮｏｒｍａｌｉｚａｔｉｏｎ" ｐ．97−100，Ｍａｙ 12−15，1998, Ｓｅａｔｔｌｅ，Ｗａｓｈｉｎｇｔｏｎ，ＵＳＡＰｒｏｃｅｅｄｉｎｇｓｏｆ 1997 ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．２，Ｊ．Ｉｓｈｉｉｅｔａｌ，”ＳｐｅａｋｅｒＮｏｒｍａｌｉｚａｔｉｏｎａｎｄＡｄａｐａｔａｔｉｏｎＢａｓｅｄｏｎＬｉｎｅａｒＴｒａｎｓｆｏｒｍａｔｉｏｎ”，ｐ．1055−1058 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/14 G10L 15/06 ＪＩＣＳＴファイル（ＪＯＩＳ) ＩＥＥＥ／ＩＥＥＥｌｅｃｔｒｏｎｉｃＬｉｂｒａｒｙＯｎｌｉｎｅ

Claims

(57)【特許請求の範囲】

【請求項１】複数の話者にそれぞれ依存する音声デー
タの特徴ベクトルに基づいて、所定の隠れマルコフモデ
ルの初期モデルに対して、最尤線形回帰法により、重回
帰写像モデルに基づく平均ベクトルの変換のための変換
行列と定数項ベクトルを含む第１の変換係数を上記各話
者毎に演算することにより、上記各話者毎に適応された
隠れマルコフモデルを得る第１の演算手段と、上記第１の演算手段によって得られた上記各話者毎に適
応された隠れマルコフモデルに基づいて、上記音声デー
タとその発話内容のテキストデータから、ビタビ・アル
ゴリズムを用いて、最適状態系列を演算し、各時刻の最
適状態毎に上記音声データの特徴ベクトルが最大出力確
率を示す混合分布系列を演算する第２の演算手段と、上記第２の演算手段によって演算された最適状態系列の
各状態内の混合分布の話者適応化前後の平均ベクトルを
用いて、上記音声データの特徴ベクトルを話者正規化す
ることにより、話者正規化された音声データの特徴ベク
トルを演算する第３の演算手段と、上記第３の演算手段によって演算された正規化された音
声データの特徴ベクトルに基づいて、上記隠れマルコフ
モデルの初期モデルを、所定の学習アルゴリズムを用い
て学習することにより、話者正規化された隠れマルコフ
モデルのモデルパラメータを演算する第４の演算手段
と、上記第４の演算手段によって演算された話者正規化され
た隠れマルコフモデルに対して、最尤線形回帰法によ
り、重回帰写像モデルに基づく平均ベクトルの変換のた
めの変換行列と定数項ベクトルを含む第２の変換係数を
上記各話者毎に演算することにより、上記各話者毎に適
応された隠れマルコフモデルの平均ベクトルを得る第５
の演算手段と、上記第５の演算手段によって得られた適応された隠れマ
ルコフモデルの平均ベクトルと、上記第４の演算手段に
よって演算された話者正規化された隠れマルコフモデル
のモデルパラメータとに基づいて、不特定話者化するこ
とにより、不特定話者化された隠れマルコフモデルの平
均ベクトルと共分散行列を演算して、不特定話者化され
た隠れマルコフモデルを得る第６の演算手段とを備えた
ことを特徴とする不特定話者音響モデル生成装置。
【請求項２】請求項１記載の不特定話者音響モデル生
成装置の第６の演算手段によって演算された隠れマルコ
フモデルを用いて、入力された発声音声文の音声信号に
基づいて、音声認識して音声認識結果を出力する音声認
識手段とを備えたことを特徴とする音声認識装置。