JP3088357B2 - 不特定話者音響モデル生成装置及び音声認識装置 - Google Patents

不特定話者音響モデル生成装置及び音声認識装置

Info

Publication number
JP3088357B2
JP3088357B2 JP09242513A JP24251397A JP3088357B2 JP 3088357 B2 JP3088357 B2 JP 3088357B2 JP 09242513 A JP09242513 A JP 09242513A JP 24251397 A JP24251397 A JP 24251397A JP 3088357 B2 JP3088357 B2 JP 3088357B2
Authority
JP
Japan
Prior art keywords
speaker
model
hidden markov
vector
markov model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP09242513A
Other languages
English (en)
Other versions
JPH1185186A (ja
Inventor
純 石井
Original Assignee
株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール音声翻訳通信研究所 filed Critical 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority to JP09242513A priority Critical patent/JP3088357B2/ja
Publication of JPH1185186A publication Critical patent/JPH1185186A/ja
Application granted granted Critical
Publication of JP3088357B2 publication Critical patent/JP3088357B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、初期話者モデルに
対して話者依存の音声データの特徴パラメータを用いて
話者正規化を行った後、不特定話者化を行うことにより
不特定話者化された音響モデルである隠れマルコフモデ
ル(以下、HMMという。)を生成する不特定話者音響
モデル生成装置、及び、生成された不特定話者HMMを
用いて音声認識する音声認識装置に関する。
【0002】
【従来の技術】音声認識のアプリケーションを考えた場
合、事前の話者登録無しに使用が可能の不特定話者音声
認識システムの要望が高い。しかしながら、現状の不特
定話者音声認識の性能は、特定話者音声認識よりも低
く、その差は、誤り率で2〜3倍程度である。不特定話
者音声認識の性能を向上されるため、特定話者が発声し
た少量の適応データを用い、不特定話者音声認識の音響
モデルを特定話者へ近づける話者適応化処理(例えば、
従来技術文献1「C.L.Leggetter et al.,“MaximumLike
lihood Linear Regression for Speaker Adaptation of
Continuous Density Hidden Markov Models",Computer
Speech and Language,Vol.9,pp.171-185,1995年」参
照。)の研究が行なわれているが、特定話者音声認識と
同等の性能を示すまでには、多量の学習用適応化データ
が必要となっている。
【0003】一般に、話者に依存しない不特定話者HM
M(以下、SI−HMMという。)の学習は複数の話者
の音声データを用いて行う。学習データには話者による
違いだけでなく、学習対象の単位の置かれた状況(コン
テキスト)等の違いが混在するにも関わらず、特定話者
音声認識の音響モデル(話者に依存するHMM(以下、
SD−HMMという。)である。)の学習と同様に処理
する。これにより、SI−HMMには話者の違いに起因
する変動と音韻コンテキストの変動の両方が混在し、広
がりの大きなモデルになってしまう。これが識別性能劣
化の要因の1つなっていると考えられる。連続混合分布
型HMMを基本とした音声認識システムの場合では、ガ
ウス分布の分散が大きくなる現象であり、認識単位間の
重なりが発生し、識別を困難となるという問題点があっ
た。
【0004】特に、従来技術文献1において開示され
た、従来例の重回帰写像モデルを用いて話者適応化した
場合に、学習用適応化データが少量であるときに、適応
化のパラメータの推定精度が比較的悪く、音声認識率が
比較的低いという問題点があった。
【0005】本特許出願人は、以上の問題点を解決する
ために、特願平09−054596号の特許出願におい
て、話者正規化装置及び話者適応化装置が開示されてい
る。当該話者正規化装置は、「複数の話者にそれぞれ依
存する音声データの特徴ベクトルに基づいて、所定の隠
れマルコフモデルの初期モデルに対して、最尤線形回帰
法により、重回帰写像モデルに基づく平均ベクトルの変
換のための変換行列と定数項ベクトルを含む第1の変換
係数を上記各話者毎に演算する第1の演算手段と、上記
複数の話者にそれぞれ依存する音声データの特徴ベクト
ルから上記各話者毎に、上記第1の演算手段によって演
算された定数項ベクトルを減算して正規化された音声デ
ータの特徴ベクトルを演算する第2の演算手段と、上記
第2の演算手段によって演算された正規化された音声デ
ータの特徴ベクトルに基づいて、上記隠れマルコフモデ
ルの初期モデルを、所定の学習アルゴリズムを用いて学
習することにより、話者正規化された隠れマルコフモデ
ルのモデルパラメータを演算する第3の演算手段とを備
えたこと」を特徴としている。また、当該話者適応化装
置は、「話者適応化する話者の音声データの特徴ベクト
ルに基づいて、上記話者正規化装置の第3の演算手段に
よって演算された隠れマルコフモデルに対して、最尤線
形回帰法により、重回帰写像モデルに基づく平均ベクト
ルの変換のための変換行列と定数項ベクトルを含む第2
の変換係数を演算する第4の演算手段と、上記第4の演
算手段によって演算された変換行列と定数項ベクトルを
含む第2の変換係数に基づいて、最大事後確率推定法に
より、話者適応化された重回帰写像モデルに基づく平均
ベクトルの変換のための変換行列と定数項ベクトルを含
む第3の変換係数を演算する第5の演算手段と、上記第
5の演算手段によって演算された変換行列と定数項ベク
トルを含む第3の変換係数に対して、所定の線形変換処
理を実行することにより、話者適応化後の隠れマルコフ
モデルの平均ベクトルを演算する第6の演算手段とを備
えたこと」を特徴としている。
【0006】
【発明が解決しようとする課題】しかしながら、上記話
者適応化装置においては、音声認識時において話者適応
処理を行う必要があるという問題点があった。不特定話
者モデルとしては話者適応処理無しのシステムが望まれ
る。本発明の目的は以上の問題点を解決し、不特定話者
音声認識において、従来技術に比較して音声認識率を改
善することができる不特定話者音響モデル生成装置及び
音声認識装置を提供することにある。
【0007】
【課題を解決するための手段】本発明に係る請求項1記
載の不特定話者音響モデル生成装置は、複数の話者にそ
れぞれ依存する音声データの特徴ベクトルに基づいて、
所定の隠れマルコフモデルの初期モデルに対して、最尤
線形回帰法により、重回帰写像モデルに基づく平均ベク
トルの変換のための変換行列と定数項ベクトルを含む第
1の変換係数を上記各話者毎に演算することにより、上
記各話者毎に適応された隠れマルコフモデルを得る第1
の演算手段と、上記第1の演算手段によって得られた上
記各話者毎に適応された隠れマルコフモデルに基づい
て、上記音声データとその発話内容のテキストデータか
ら、ビタビ・アルゴリズムを用いて、最適状態系列を演
算し、各時刻の最適状態毎に上記音声データの特徴ベク
トルが最大出力確率を示す混合分布系列を演算する第2
の演算手段と、上記第2の演算手段によって演算された
最適状態系列の各状態内の混合分布の話者適応化前後の
平均ベクトルを用いて、上記音声データの特徴ベクトル
を話者正規化することにより、話者正規化された音声デ
ータの特徴ベクトルを演算する第3の演算手段と、上記
第3の演算手段によって演算された正規化された音声デ
ータの特徴ベクトルに基づいて、上記隠れマルコフモデ
ルの初期モデルを、所定の学習アルゴリズムを用いて学
習することにより、話者正規化された隠れマルコフモデ
ルのモデルパラメータを演算する第4の演算手段と、上
記第4の演算手段によって演算された話者正規化された
隠れマルコフモデルに対して、最尤線形回帰法により、
重回帰写像モデルに基づく平均ベクトルの変換のための
変換行列と定数項ベクトルを含む第2の変換係数を上記
各話者毎に演算することにより、上記各話者毎に適応さ
れた隠れマルコフモデルの平均ベクトルを得る第5の演
算手段と、上記第5の演算手段によって得られた適応さ
れた隠れマルコフモデルの平均ベクトルと、上記第4の
演算手段によって演算された話者正規化された隠れマル
コフモデルのモデルパラメータとに基づいて、不特定話
者化することにより、不特定話者化された隠れマルコフ
モデルの平均ベクトルと共分散行列を演算して、不特定
話者化された隠れマルコフモデルを得る第6の演算手段
とを備えたことを特徴とする。
【0008】また、本発明に係る請求項2記載の音声認
識装置は、請求項1記載の不特定話者音響モデル生成装
置の第6の演算手段によって演算された隠れマルコフモ
デルを用いて、入力された発声音声文の音声信号に基づ
いて、音声認識して音声認識結果を出力する音声認識手
段とを備えたことを特徴とする。
【0009】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
【0010】図1は本発明に係る一実施形態である音声
認識装置のブロック図である。この実施形態は、話者正
規化制御部20と、不特定話者化制御部21とを備えた
ことを特徴とする。
【0011】ここで、話者正規化制御部20は、(a)
複数M人の話者にそれぞれ依存する音声データ32−1
乃至32−Mの特徴ベクトルOm(m=1,2,…,
M)=[om 1,om 2,…,om Tm]に基づいて、所定の
HMMの初期モデル(以下、初期HMMという。)31
に対して、最尤線形回帰法により、重回帰写像モデルに
基づく平均ベクトルの変換のための変換行列と定数項ベ
クトルを含む第1の変換係数Am,bmを、後述する数1
を用いて各話者m(m=1,2,…,M)毎に演算する
ことにより、上記各話者毎に適応されたHMMλhm
得た後、(b)上記得られた各話者m毎に適応されたH
MMλhmに基づいて、上記音声データとその発話内容
のテキストデータ(音声データ32−1乃至32−Mと
ともにメモリに格納される。)から、ビタビ・アルゴリ
ズムを用いて、最適状態系列pm=[pm 1,pm 2,…,
m Tm]を演算し、各時刻の最適状態毎に上記音声デー
タの特徴ベクトルOmが最大出力確率を示す混合分布系
列qm=[qm 1,qm 2,…,qm Tm]を、後述する数2を
用いて演算し、(c)上記演算された最適状態系列の各
状態pm t内の混合分布qm tの話者適応化前後の平均ベク
トルを用いて、上記音声データの特徴ベクトルを話者正
規化することにより、話者正規化された音声データの特
徴ベクトルOb=[Ob1,Ob2,…,ObM]を、後
述する数3を用いて演算し、(d)上記演算された正規
化された音声データの特徴ベクトルObに基づいて、上
記初期HMMを、後述する数4乃至数8を用いてバーム
・ウエルチ(Baum−Welch)の学習アルゴリズ
ムを用いて学習することにより、話者正規化されたHM
Mλbのモデルパラメータを演算する。ここで、モデル
パラメータは、平均ベクトル、ガウス分布の分散、状態
遷移確率などのHMMのモデルパラメータを含む。
【0012】また、不特定話者化制御部21は、(e)
上記演算された話者正規化されたHMMλbに対して、
最尤線形回帰法により、重回帰写像モデルに基づく平均
ベクトルの変換のための変換行列と定数項ベクトルを含
む第2の変換係数を、数9を用いて、上記各話者m毎に
演算することにより、上記各話者m毎に適応されたHM
Mの平均ベクトルを得た後(ここで、適応学習するパラ
メータは、ガウス分布の平均値である。)、(f)上記
得られた適応されたHMMの平均ベクトルと、話者正規
化制御部20によって演算された話者正規化されたHM
Mのモデルパラメータである共分散行列とに基づいて、
後述する数10及び数11を用いて、不特定話者化する
ことにより、不特定話者化されたHMMλaの平均ベク
トルと共分散行列を演算して、不特定話者化されたHM
Mλaを得る。ここで、HMMλaの遷移確率と、混合
重み係数については、話者正規化されたHMMλbのパ
ラメータを用いる。
【0013】さらに、図1の音声認識装置は、上記不特
定話者化されたHMM11を用いて、入力された発声音
声文の音声信号に基づいて、音声認識して音声認識結果
を出力する。
【0014】まず、本実施形態における話者正規化を用
いた不特定話者モデル作成について説明する。会話のよ
うな自然発話音声データを用いて一括処理した場合、発
話様式が学習話者毎で大きく異るので、広がりが大きな
音響モデルが生成される。また、発話内容も話者毎に異
っており、認識ユニット毎に学習話者数の偏りが生じ、
話者の違いによる変動を正しく表現できなくなる。この
ため、HMMは図6(a)のように、広がりが大きな、
偏った出力確率分布となり不特定話者音声認識の性能が
低くなると考えられる。そこで、自然発話音声を用いた
不特定話者モデルを、以下の2段階の処理によって作成
する。 (a)話者正規化を行い、話者内の音韻変動のみで図6
(b)の話者正規化モデル(SNモデル:λb)を得る
ように学習する。 (b)話者正規化モデルλbを基準として話者の違いに
よる変動を推定し、図6(c)の話者正規化不特定話者
モデル(SN−SIモデル:λa)を獲得する。
【0015】まず、学習データの話者正規化について述
べる。話者正規化は、M人の学習話者音声データからの
特徴パラメータの観測系列の集合O=[O1,O2…,O
M](話者mの特徴パラメータの観測系列はOm
[om 1,om 2,…,om Tm](oはn次元のベクトルで
あり、下つき添字は時刻(具体的には、フレーム番号)
である。)から話者正規化観測系列の集合Ob=[Ob
1,Ob2,…,ObM]を求めることで行う。本実施形
態では、話者適応法を利用し、話者適応モデルと観測ベ
クトルとの相対的な位置が、話者正規化観測ベクトルで
あると仮定した話者正規化法を述べる。話者mの適応モ
デルλhm(本明細書において、モデルはHMMをい
う。)は、初期モデルをλとし、特徴ベクトルの観測系
列Omを学習データとした適応学習によって得る。ここ
では、話者適応方式として最尤線形回帰法(Maximum Li
kelihood Linear Regression;以下、MLLR法とい
う。;例えば従来技術文献1参照。)を用いて、ガウス
分布の平均ベクトルμ(j,k)(状態j内の混合分布
k)を、次式で適応平均ベクトルμh(j,k)に写像
する。
【数1】μhm(j,k)=Amμ(j,k)+bm
【0016】ここで、Am、bmはそれぞれ、n×nの行
列、n次元のベクトルであり、ガウス分布の共有化クラ
ス毎に推定する。また、nは特徴ベクトルの次元数であ
る。このMLLR法による処理の概念図を図4に示す。
【0017】次に、話者mの適応モデルλhmを用い
て、話者mの特徴ベクトルの観測系列Omとその発声内
容のテキストデータからビタビ(Viterbi)・アルゴリ
ズムにより最適状態系列pm=[pm 1,pm 2,…,
m Tm]を求め、各時刻の最適状態毎に、特徴ベクトル
の観測系列Omが最大出力確率を示す混合分布系列qm
[qm 1,qm 2,…,qm Tm]を次式で抽出する。
【数2】qm t=argmax[c(pm t,q)・N(om t
m(pm t,q),U(pm t,q))]q∈Qm t
【0018】ここで、Qm tは時刻tの最適状態内の混合
分布の集合、cは混合重み係数、Uは共分散行列であ
る。また、関数argmax(・)は、q∈Qm tなる条
件で変数qを変化したときに、当該関数値が最大となる
ときの変数qの値を示す関数である。さらに、関数N
(・)は、変数である特徴パラメータom t、平均ベクト
ルμhm(pm t,q)及び共分散行列U(pm t,q)を設定し
たときの出力確率である。次いで、話者正規化観測系列
Obm=[obm 1,obm 2,…,obm Tm]は、上記で求
めた、状態pm t内の混合分布qm tの話者適応前後の平均
ベクトルを用い、次式に従って獲得する。
【数3】obm t=om t−μhm(pm t,qm t)+μ(pm
t,qm t
【0019】すなわち、音声データの特徴パラメータの
観測系列om tから、話者適応化後の平均ベクトルμhm
(pm t,qm t)を減算するとともに、話者適応化前の平
均ベクトルμ(pm t,qm t)を加算することにより、原
点を話者適応化前にあわせて、上記観測系列om tを話者
正規化する。話者正規化処理の概念図を図5に示す。以
上の処理を学習話者全て、すなわち話者毎に行い、話者
正規化観測系列の集合Ob=[Ob1,Ob2,…,Ob
m]を得る。
【0020】次いで、話者正規化モデルの学習について
述べる。まず、話者正規化観測系列Obを用いて、初期
モデルλの再学習を行う。ガウス分布の平均値と共分散
行列μb(j,k),Ub(j,k)は次式で更新す
る。
【数4】
【数5】
【0021】ここで、
【数6】
【数7】
【数8】
【0022】ここで、γm t(j,k)は、特徴パラメー
タobm tが状態jの混合分布kに観測される期待値であ
る。また、{・}’は転置行列を表す。その他、HMM
の遷移確率、混合重み係数等も同様に更新する。更新さ
れた音響モデルを前述の初期モデルλに置き換え、正規
化処理を一定回数繰り返し、最終的に得られたモデルを
SNモデルλbとする。
【0023】次いで、話者正規化不特定話者モデルの作
成について述べる。不特定話者音声認識を目的とした、
話者の違いによる変動が表現されている話者正規化モデ
ル(SN−SIモデル)の作成法について述べる。話者
の違いによる変動は、話者正規化モデルを初期モデルと
して、各学習話者毎に話者適応モデルを作成し、ガウス
分布を合成して表現する。
【0024】(a)SNモデルλbを初期モデルとし、
話者正規化制御部20のMLLR処理と同様に、MLL
R法によって、次式によって各学習話者毎の適応モデル
を作成する。適応するパラメータはガウス分布の平均値
である。
【数9】 μhbm(k,j)=Abmμb(j,k)+bbm (b)適応モデルの平均ベクトルμhm(j,k)とS
Nモデルの共分散行列Ub(j,k)から、数10及び
数11により、平均ベクトルμa(j,k)と共分散行
列Ua(j,k)を求め、SN−SIモデルλaを得
る。ここで、遷移確率、混合重み係数についてはSNモ
デルの値を用いる。
【数10】
【数11】
【0025】図1において、話者正規化制御部20、不
特定話者化制御部21、特徴抽出部2、音素照合部4、
LRパーザ5は例えば、デジタル計算機などの演算制御
装置で構成され、バッファメモリ3は例えばハードディ
スクメモリであり、初期HMM31及び各話者1乃至M
の音声データの特徴パラメータベクトル、話者正規化さ
れたHMM33、不特定話者化されたHMM11、LR
テーブル12及び文脈自由文法13は例えばハードディ
スクメモリに記憶される。なお、各話者の音声データ3
2−1乃至32−Mは各話者の音声波形信号から特徴抽
出した特徴パラメータのベクトル、すなわち特徴ベクト
ル及びその発声内容のテキストデータである。本明細書
において、音声データとは、特徴ベクトルをいう。
【0026】図2は、図1の話者正規化制御部20によ
って実行される話者正規化処理を示すフローチャートで
ある。まず、図2のステップS1で、各話者mの音声デ
ータ32−1乃至32−Mを読み出すとともに、不特定
話者HMMである初期HMM(HMMの初期モデル)3
1を読み出して処理対象のHMMとする。次いで、ステ
ップS2で、図4に示すように、処理対象のHMMに対
して、各話者m毎の音声データ32−1乃至32−Mの
特徴パラメータOmを学習データとして適応学習し、こ
こで、MLLR法により数1を用いて各話者毎にガウス
分布の平均ベクトルμ(j,k)を適応平均ベクトルμ
m(j,k)に写像することにより、話者mの適応モ
デルλhmを得る。次いで、ステップS3で、各話者毎
に適応モデルλhmを用いて観測系列Omとその発声内容
のテキストデータからビタビ・アルゴリズムにより、最
適状態系列pmを演算し、各時刻の最適状態毎に観測系
列Omが最大出力確率を示す混合分布系列qmを数2を用
いて演算する。さらに、ステップS4で話者正規化観測
系列Obmを状態pm t内の混合分布qm tの話者適応前後
の平均ベクトルを用いて数3に従って演算する。さら
に、ステップS5で、話者正規化観測系列Obmを用い
て初期HMMに対してバーム・ウエルチの学習アルゴリ
ズムを用いて再学習を行う。そして、ステップS6で所
定の繰り返し回数となったか否かが判断され、なってい
ないときは、ステップS7で再学習後のHMMを処理対
象のHMMとして、再び、ステップS2に戻り、上記の
処理を実行する。一方、ステップS6で、所定の繰り返
し回数(好ましい実施形態においては、5回である。)
となったときは、ステップS8で再学習後のHMMを話
者正規化HMM33としてメモリに記憶する。そして当
該話者正規化処理を終了する。
【0027】図3は、図1の不特定話者化制御部によっ
て実行される不特定話者化処理を示すフローチャートで
ある。図3のステップS11で、話者正規化されたHM
M33と各話者の音声データ32−1乃至32−Mを読
み出す。次いで、ステップS12で、MLLR法により
数9を用いて、各話者毎の適応モデルを演算する。さら
に、ステップS13で数10及び数11を用いて、不特
定話者化されたモデルλbを演算する。最後に、不特定
話者化されたHMM11をメモリに記憶する。そして当
該不特定話者化処理を終了する。
【0028】不特定話者化されたHMM11は、音素照
合部4に接続され、HM網として複数の状態のネットワ
ークとして表すこともできる。HMM11内の個々の状
態は、音声空間上の1つの確率的定常信号源と見なすこ
とができ、それぞれ以下の情報を保有している。 (a)状態番号、(b)受理可能なコンテキストクラ
ス、(c)先行する状態および後続する状態のリスト、
(d)音声の特徴空間上に割り当てられた確率分布のパ
ラメータ、(e)自己遷移確率および後続状態への遷移
確率。 不特定話者化されたHMM11では、入力データとその
コンテキスト情報が与えられた場合、そのコンテキスト
を受理することができる状態を先行および後続状態リス
トの制約内で連結することによって、入力データに対す
るモデルを一意に決定することができる。ここで、出力
確率密度関数は34次元の対角共分散行列をもつ混合ガ
ウス分布(本明細書において、ガウス分布という。)で
あり、各ガウス分布は、初期HMM31を用いて話者正
規化制御部20により話者正規化されかつ、話者正規化
されたHMM33を用いて不特定話者化制御部21によ
り不特定話者化されている。
【0029】一般に連続分布型HMMによるモデルに対
して少量の適応データにより話者適応を行なう場合、ガ
ウス分布の平均値の適応は他のパラメータの適応に比べ
て効果が大きいことが知られている(例えば、従来技術
文献2「大倉計美ほか,“混合連続分布HMMを用いた
移動ベクトル場平滑化話者適応方式”,音響学会講演論
文集,2−Q−17,pp.191−192,1992
年3月」参照。)。本実施形態においては、各ガウス分
布の平均値のみの適応を行ない、分散値、状態遷移確率
及び、混合ガウス分布の重み係数の適応は行なわない。
【0030】次いで、上述の本実施形態の話者正規化方
法及び話者適応化方法を用いた、SSS−LR(left-t
o-right rightmost型)不特定話者連続音声認識装置に
ついて説明する。この装置は、HMM11を含むHM網
のメモリに格納された音素環境依存型の効率のよいHM
Mの表現形式を用いている。また、上記SSSにおいて
は、音素の特徴空間上に割り当てられた確率的定常信号
源(状態)の間の確率的な遷移により音声パラメータの
時間的な推移を表現した確率モデルに対して、尤度最大
化の基準に基づいて個々の状態をコンテキスト方向又は
時間方向へ分割するという操作を繰り返すことによっ
て、モデルの精密化を逐次的に実行する。
【0031】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して音素照合部4に入力される。
【0032】音素照合部4は、音素コンテキスト依存型
LRパーザ5からの音素照合要求に応じて音素照合処理
を実行する。そして、話者適応化されたHMM11のメ
モリに格納された音素HMMの話者モデルを用いて音素
照合区間内のデータに対する尤度が計算され、この尤度
の値が音素照合スコアとしてLRパーザ5に返される。
このとき、前向きパスアルゴリズムを使用する。
【0033】一方、文脈自由文法データベース13内の
所定の文脈自由文法(CFG)を公知の通り自動的に変
換してLRテーブル12を作成してそのメモリに格納さ
れる。LRパーザ5は、上記LRテーブル12を参照し
て、入力された音素予測データについて左から右方向
に、後戻りなしに処理する。構文的にあいまいさがある
場合は、スタックを分割してすべての候補の解析が平行
して処理される。LRパーザ5は、上記LRテーブル1
2から次にくる音素を予測して音素予測データを音素照
合部4に出力する。これに応答して、音素照合部4は、
その音素に対応するHMM11内の情報を参照して照合
し、その尤度を音声認識スコアとしてLRパーザ5に戻
し、順次音素を連接していくことにより、連続音声の認
識を行う。上記連続音声の認識において、複数の音素が
予測された場合は、これらすべての存在をチェックし、
ビームサーチの方法により、部分的な音声認識の尤度の
高い部分木を残すという枝刈りを行って高速処理を実現
する。
【0034】
【実施例】本発明者は、以上のように構成された音声認
識装置について、評価実験を以下の如く行った。評価実
験として、表1を実験条件として、連続単語認識実験を
行った。
【0035】
【表1】 実験条件 ─────────────────────────────────── 音響分析 ─────────────────────────────────── サンプリング周波数:12KHz フレームシフト:10ms フレーム長:20ms(ハミング窓) 特徴ベクトル:16次ケプストラム係数,16次Δケプストラム係数, 対数パワー,Δパワー ─────────────────────────────────── 音声データ ─────────────────────────────────── 旅行会話タスク 学習:男性99名(13K単語,1237発話) 女性131名(20K単語,1725発話) 評価:男性16名(2102単語,196発話) 女性19名(2844単語,244発話) ─────────────────────────────────── HMM ─────────────────────────────────── ML−SSSで作成したHMnet(5混合/状態) +1状態(10混合)の無音モデル ─────────────────────────────────── 言語モデル ─────────────────────────────────── 可変長N−gram 学習:414,326単語(異り6,396単語), パープレキティー:19.34 ───────────────────────────────────
【0036】音声データは本特許出願人で収録した旅行
会話音声データを用い、男性話者モデル、女性話者モデ
ル、男女不特定話者モデルを男性99名、女性131名
のデータから作成し評価した。音響モデルの構造も上記
の音声データを用い、有音モデルは公知のML−SSS
(maximum likelihood successive state splitting)
によって決定したHMnet(5混合/状態)を使用
し、無音モデルは1状態(10混合)とした。SN−S
Iモデル作成に用いたMLLR法は、共有化クラスが1
6(不特定話者モデルのガウス分布を公知のクルバック
発散法(Kullbackdivergence)に基づいてクラスタリン
グすることで決定した。)であり、回帰行列Aの対角成
分と定数項bを推定した。上記話者正規化処理の繰り返
し回数は5回とし、バーム・ウエルチ(Baum−We
lch)の学習アルゴリズムでパラメータ推定を行っ
た。言語モデルは公知の可変長N−gram(例えば、
従来技術文献3「H.Masataki et al.,“Variable-Order
N-Gram Generation by Word-Class Splitting and Con
secutive Word Grouping",Proceedings of ICASSP'96,p
p.188-191,1996年」参照。)を用い、認識結果をワード
グラフを用いたビームサーチの1位候補で評価した。
【0037】次いで、実験結果について述べる。SN−
SIモデルを用いて、男性16名、女性19名(音響モ
デルオープン、言語モデルクローズ)に対して連続音声
認識実験を行なった。HMMの状態数を401,60
1,801,1001とした場合の単語アキュラシーで
評価した結果を表2に示す。比較としてSNモデル、従
来の不特定話者(SI)モデルの認識結果も示す。
【0038】
【表2】 連続単語認識結果−単語誤り率(%) ─────────────────────────────────── HMMの状態数(分布数) ────────────────────────── 401 601 801 1001 (2010)(3010)(4010)(5010) ─────────────────────────────────── 男性話者 44.3 42.6 43.9 40.4 モデル 48.1 49.6 50.8 44.9 45.4 46.8 45.7 41.2 ─────────────────────────────────── 女性話者 29.9 28.7 30.3 28.6 モデル 32.9 32.1 35.0 35.0 31.6 30.3 32.9 31.5 ─────────────────────────────────── 男女不特定 36.0 31.9 33.8 33.5 話者モデル 38.9 35.5 37.3 38.5 37.7 33.8 34.7 35.4 ─────────────────────────────────── (注)上段:話者正規化不特定話者(SN−SI)モデル 中段:話者正規化(SN)モデル 下段:不特定話者(SI)モデル
【0039】表2から明らかなように、SN−SIモデ
ルは、全ての音響モデルの種類において、従来のSIモ
デルを上回る認識結果を得た。話者正規化を行って話者
内の音韻変動を学習した後に、話者の違いによる変動を
推定することが有効であることが分かる。SNモデルは
従来のSIモデルよりも認識率が低い。これは、話者の
違いによる変動が含まれていないので、不特定話者音声
認識では低性能であると理解できる。
【0040】以上説明したように、本実施形態によれ
ば、話者毎で発話内容、発話様式が異る自然発話音声を
用いた不特定話者モデルのために、話者正規化処理を施
して話者内の音韻変動を学習した後に、話者の違いによ
る変動を再学習することにより不特定話者化処理を行っ
た。すなわち、話者正規化した音声データの特徴パラメ
ータを用いて学習し、話者正規化モデルを生成した後、
話者性の違いによる変動を学習するので、学習音声デー
タの偏りによる悪影響が減少し、得られた不特定話者モ
デルを用いて音声認識することにより、従来技術に比較
して音声認識率を大幅に向上させることができる。
【0041】
【発明の効果】以上詳述したように本発明に係る不特定
話者音響モデル生成装置によれば、複数の話者にそれぞ
れ依存する音声データの特徴ベクトルに基づいて、所定
の隠れマルコフモデルの初期モデルに対して、最尤線形
回帰法により、重回帰写像モデルに基づく平均ベクトル
の変換のための変換行列と定数項ベクトルを含む第1の
変換係数を上記各話者毎に演算することにより、上記各
話者毎に適応された隠れマルコフモデルを得る第1の演
算手段と、上記第1の演算手段によって得られた上記各
話者毎に適応された隠れマルコフモデルに基づいて、上
記音声データとその発話内容のテキストデータから、ビ
タビ・アルゴリズムを用いて、最適状態系列を演算し、
各時刻の最適状態毎に上記音声データの特徴ベクトルが
最大出力確率を示す混合分布系列を演算する第2の演算
手段と、上記第2の演算手段によって演算された最適状
態系列の各状態内の混合分布の話者適応化前後の平均ベ
クトルを用いて、上記音声データの特徴ベクトルを話者
正規化することにより、話者正規化された音声データの
特徴ベクトルを演算する第3の演算手段と、上記第3の
演算手段によって演算された正規化された音声データの
特徴ベクトルに基づいて、上記隠れマルコフモデルの初
期モデルを、所定の学習アルゴリズムを用いて学習する
ことにより、話者正規化された隠れマルコフモデルのモ
デルパラメータを演算する第4の演算手段と、上記第4
の演算手段によって演算された話者正規化された隠れマ
ルコフモデルに対して、最尤線形回帰法により、重回帰
写像モデルに基づく平均ベクトルの変換のための変換行
列と定数項ベクトルを含む第2の変換係数を上記各話者
毎に演算することにより、上記各話者毎に適応された隠
れマルコフモデルの平均ベクトルを得る第5の演算手段
と、上記第5の演算手段によって得られた適応された隠
れマルコフモデルの平均ベクトルと、上記第4の演算手
段によって演算された話者正規化された隠れマルコフモ
デルのモデルパラメータとに基づいて、不特定話者化す
ることにより、不特定話者化された隠れマルコフモデル
の平均ベクトルと共分散行列を演算して、不特定話者化
された隠れマルコフモデルを得る第6の演算手段とを備
える。従って、話者毎で発話内容、発話様式が異る自然
発話音声を用いた不特定話者モデルのために、話者正規
化処理を施して話者内の音韻変動を学習した後に、話者
の違いによる変動を再学習することにより不特定話者化
処理を行った。すなわち、話者正規化した音声データの
特徴パラメータを用いて学習し、話者正規化モデルを生
成した後、話者性の違いによる変動を学習するので、学
習音声データの偏りによる悪影響が減少し、得られた不
特定話者モデルを用いて音声認識することにより、従来
技術に比較して音声認識率を大幅に向上させることがで
きる。
【0042】また、本発明に係る請求項2記載の音声認
識装置によれば、上記不特定話者音響モデル生成装置の
第6の演算手段によって演算された隠れマルコフモデル
を用いて、入力された発声音声文の音声信号に基づい
て、音声認識して音声認識結果を出力する音声認識手段
とを備える。従って、話者正規化した音声データの特徴
パラメータを用いて学習し、話者正規化モデルを生成し
た後、話者性の違いによる変動を学習するので、学習音
声データの偏りによる悪影響が減少し、得られた不特定
話者モデルを用いて音声認識することにより、従来技術
に比較して音声認識率を大幅に向上させることができ
る。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である音声認識装置
のブロック図である。
【図2】 図1の話者正規化制御部によって実行される
話者正規化処理を示すフローチャートである。
【図3】 図1の不特定話者化制御部によって実行され
る不特定話者化処理を示すフローチャートである。
【図4】 図1の話者正規化制御部によって実行される
MLLR処理を示す図である。
【図5】 図1の話者正規化制御部によって実行される
話者正規化処理を示す図である。
【図6】 図1の装置によって準備され又は生成される
各モデルの出力確率分布を示す図であって、(a)は不
特定話者モデルの出力確率分布を示す図であり、(b)
は話者正規化モデルの出力確率分布を示す図であり、
(a)は話者正規化された不特定話者モデルの出力確率
分布を示す図である。
【符号の説明】
1…マイクロホン、 2…特徴抽出部、 3…バッファメモリ、 4…音素照合部、 5…LRパーザ、 11…不特定話者化されたHMM、 12…LRテーブル、 13…文脈自由文法(CFG)データベース、 20…話者正規化制御部、 21…不特定話者化制御部、 31…初期HMM、 32−1乃至32−M…話者1乃至Mの音声データ、 33…話者正規化されたHMM。
フロントページの続き (56)参考文献 特許3035239(JP,B2) 電子情報通信学会技術研究報告[音声 ],Vol.96,No.448.SP96− 91,石井純外「重回帰写像モデルを用い た話者正規化と話者適応化方式」,p. 29−35(1997年1月16日発行) 日本音響学会平成9年度春季研究発表 会講演論文集▲I▼,2−6−16,石井 純外「重回帰写像モデルを用いた話者適 応のための話者正規化方式」,p.75− 76(平成9年3月17日発行) 日本音響学会平成9年度秋季研究発表 会講演論文集▲I▼,1−1−9,石井 純外「話者正規化を用いた不特定話者音 響モデルの学習」,p.17−18(平成9 年9月17日発行) Proceedings of 1998 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processin g,Vol.1,J.Ishii et al,”Speaker Indep endent Acoustic Mo deling Using Speak er Normalization" p.97−100,May 12−15,1998, Seattle,Washingto n,USA Proceedings of 1997 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processin g,Vol.2,J.Ishii et al,”Speaker Norma lization and Adapa tation Based on Li near Transformatio n”,p.1055−1058 (58)調査した分野(Int.Cl.7,DB名) G10L 15/14 G10L 15/06 JICSTファイル(JOIS) IEEE/IEE Electroni c Library Online

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 複数の話者にそれぞれ依存する音声デー
    タの特徴ベクトルに基づいて、所定の隠れマルコフモデ
    ルの初期モデルに対して、最尤線形回帰法により、重回
    帰写像モデルに基づく平均ベクトルの変換のための変換
    行列と定数項ベクトルを含む第1の変換係数を上記各話
    者毎に演算することにより、上記各話者毎に適応された
    隠れマルコフモデルを得る第1の演算手段と、 上記第1の演算手段によって得られた上記各話者毎に適
    応された隠れマルコフモデルに基づいて、上記音声デー
    タとその発話内容のテキストデータから、ビタビ・アル
    ゴリズムを用いて、最適状態系列を演算し、各時刻の最
    適状態毎に上記音声データの特徴ベクトルが最大出力確
    率を示す混合分布系列を演算する第2の演算手段と、 上記第2の演算手段によって演算された最適状態系列の
    各状態内の混合分布の話者適応化前後の平均ベクトルを
    用いて、上記音声データの特徴ベクトルを話者正規化す
    ることにより、話者正規化された音声データの特徴ベク
    トルを演算する第3の演算手段と、 上記第3の演算手段によって演算された正規化された音
    声データの特徴ベクトルに基づいて、上記隠れマルコフ
    モデルの初期モデルを、所定の学習アルゴリズムを用い
    て学習することにより、話者正規化された隠れマルコフ
    モデルのモデルパラメータを演算する第4の演算手段
    と、 上記第4の演算手段によって演算された話者正規化され
    た隠れマルコフモデルに対して、最尤線形回帰法によ
    り、重回帰写像モデルに基づく平均ベクトルの変換のた
    めの変換行列と定数項ベクトルを含む第2の変換係数を
    上記各話者毎に演算することにより、上記各話者毎に適
    応された隠れマルコフモデルの平均ベクトルを得る第5
    の演算手段と、 上記第5の演算手段によって得られた適応された隠れマ
    ルコフモデルの平均ベクトルと、上記第4の演算手段に
    よって演算された話者正規化された隠れマルコフモデル
    のモデルパラメータとに基づいて、不特定話者化するこ
    とにより、不特定話者化された隠れマルコフモデルの平
    均ベクトルと共分散行列を演算して、不特定話者化され
    た隠れマルコフモデルを得る第6の演算手段とを備えた
    ことを特徴とする不特定話者音響モデル生成装置。
  2. 【請求項2】 請求項1記載の不特定話者音響モデル生
    成装置の第6の演算手段によって演算された隠れマルコ
    フモデルを用いて、入力された発声音声文の音声信号に
    基づいて、音声認識して音声認識結果を出力する音声認
    識手段とを備えたことを特徴とする音声認識装置。
JP09242513A 1997-09-08 1997-09-08 不特定話者音響モデル生成装置及び音声認識装置 Expired - Fee Related JP3088357B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP09242513A JP3088357B2 (ja) 1997-09-08 1997-09-08 不特定話者音響モデル生成装置及び音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09242513A JP3088357B2 (ja) 1997-09-08 1997-09-08 不特定話者音響モデル生成装置及び音声認識装置

Publications (2)

Publication Number Publication Date
JPH1185186A JPH1185186A (ja) 1999-03-30
JP3088357B2 true JP3088357B2 (ja) 2000-09-18

Family

ID=17090230

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09242513A Expired - Fee Related JP3088357B2 (ja) 1997-09-08 1997-09-08 不特定話者音響モデル生成装置及び音声認識装置

Country Status (1)

Country Link
JP (1) JP3088357B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7437288B2 (en) 2001-03-13 2008-10-14 Nec Corporation Speech recognition apparatus

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4766074A (en) * 1986-01-17 1988-08-23 Miles Inc. Thermostable Rhizomucor rennet having increased milk clotting activity
JP2002366187A (ja) * 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP2003058185A (ja) * 2001-08-09 2003-02-28 Matsushita Electric Ind Co Ltd 音声認識装置
KR100557650B1 (ko) * 2002-09-25 2006-03-10 주식회사 케이티 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법
EP2133868A4 (en) 2007-02-28 2013-01-16 Nec Corp WEIGHT COEFFICIENT LEARNING SYSTEM AND AUDIO RECOGNITION SYSTEM
KR101001684B1 (ko) 2009-02-27 2010-12-15 부산대학교 산학협력단 쌍일차 모델을 이용한 화자 적응 시스템 및 방법
JP5647159B2 (ja) * 2012-02-28 2014-12-24 日本電信電話株式会社 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム
CN103066591B (zh) * 2012-12-13 2014-11-26 广东电网公司东莞供电局 一种基于实时测量的电网参数偏差识别方法
GB2564607B (en) * 2016-05-20 2019-05-08 Mitsubishi Electric Corp Acoustic model learning device, acoustic model learning method, voice recognition device, and voice recognition method
CN117995165B (zh) * 2024-04-03 2024-05-31 中国科学院自动化研究所 基于隐变量空间添加水印的语音合成方法、装置及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3035239B2 (ja) 1997-03-10 2000-04-24 株式会社エイ・ティ・アール音声翻訳通信研究所 話者正規化装置、話者適応化装置及び音声認識装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3035239B2 (ja) 1997-03-10 2000-04-24 株式会社エイ・ティ・アール音声翻訳通信研究所 話者正規化装置、話者適応化装置及び音声認識装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Proceedings of 1997 IEEE International Conference on Acoustics,Speech and Signal Processing,Vol.2,J.Ishii et al,"Speaker Normalization and Adapatation Based on Linear Transformation",p.1055−1058
Proceedings of 1998 IEEE International Conference on Acoustics,Speech and Signal Processing,Vol.1,J.Ishii et al,"Speaker Independent Acoustic Modeling Using Speaker Normalization"p.97−100,May 12−15,1998,Seattle,Washington,USA
日本音響学会平成9年度春季研究発表会講演論文集▲I▼,2−6−16,石井純外「重回帰写像モデルを用いた話者適応のための話者正規化方式」,p.75−76(平成9年3月17日発行)
日本音響学会平成9年度秋季研究発表会講演論文集▲I▼,1−1−9,石井純外「話者正規化を用いた不特定話者音響モデルの学習」,p.17−18(平成9年9月17日発行)
電子情報通信学会技術研究報告[音声],Vol.96,No.448.SP96−91,石井純外「重回帰写像モデルを用いた話者正規化と話者適応化方式」,p.29−35(1997年1月16日発行)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7437288B2 (en) 2001-03-13 2008-10-14 Nec Corporation Speech recognition apparatus

Also Published As

Publication number Publication date
JPH1185186A (ja) 1999-03-30

Similar Documents

Publication Publication Date Title
JP2965537B2 (ja) 話者クラスタリング処理装置及び音声認識装置
JP2986792B2 (ja) 話者正規化処理装置及び音声認識装置
Sukkar et al. Vocabulary independent discriminative utterance verification for nonkeyword rejection in subword based speech recognition
JP2871561B2 (ja) 不特定話者モデル生成装置及び音声認識装置
JP4531166B2 (ja) 信頼性尺度の評価を用いる音声認識方法
EP1701337B1 (en) Method of speech recognition
JPH10512686A (ja) 個別話者に適応した音声認識のための方法及び装置
JP3088357B2 (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP2751856B2 (ja) 木構造を用いたパターン適応化方式
Zavaliagkos et al. A hybrid continuous speech recognition system using segmental neural nets with hidden Markov models
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2852210B2 (ja) 不特定話者モデル作成装置及び音声認識装置
JP3039399B2 (ja) 非母国語音声認識装置
JP2905674B2 (ja) 不特定話者連続音声認識方法
JP3035239B2 (ja) 話者正規化装置、話者適応化装置及び音声認識装置
JP2996925B2 (ja) 音素境界検出装置及び音声認識装置
JPH08110792A (ja) 話者適応化装置及び音声認識装置
JP2886118B2 (ja) 隠れマルコフモデルの学習装置及び音声認識装置
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JP2976795B2 (ja) 話者適応化方式
JP2888781B2 (ja) 話者適応化装置及び音声認識装置
JP3439700B2 (ja) 音響モデル学習装置、音響モデル変換装置及び音声認識装置
JPH0822296A (ja) パターン認識方法
JP2875179B2 (ja) 話者適応化装置及び音声認識装置
JPH08123468A (ja) 不特定話者モデル作成装置及び音声認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090714

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100714

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110714

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120714

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120714

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130714

Year of fee payment: 13

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees