JPH0981182A - 隠れマルコフモデルの学習装置及び音声認識装置 - Google Patents

隠れマルコフモデルの学習装置及び音声認識装置

Info

Publication number
JPH0981182A
JPH0981182A JP7232436A JP23243695A JPH0981182A JP H0981182 A JPH0981182 A JP H0981182A JP 7232436 A JP7232436 A JP 7232436A JP 23243695 A JP23243695 A JP 23243695A JP H0981182 A JPH0981182 A JP H0981182A
Authority
JP
Japan
Prior art keywords
word
hidden markov
markov model
hmm
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7232436A
Other languages
English (en)
Other versions
JP2886118B2 (ja
Inventor
Atsushi Nakamura
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK, ATR Interpreting Telecommunications Research Laboratories filed Critical ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
Priority to JP7232436A priority Critical patent/JP2886118B2/ja
Publication of JPH0981182A publication Critical patent/JPH0981182A/ja
Application granted granted Critical
Publication of JP2886118B2 publication Critical patent/JP2886118B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 従来例に比較して容易にかつ迅速に登録語の
語彙を変更してHMMを学習することができるHMMの
学習装置及びその学習装置によって学習されたHMMを
用いて音声認識する音声認識装置を提供する。 【解決手段】 発生された多次元一様乱数を、予め登録
された登録語を認識するための所定の単語HMMの多次
元ガウス分布に従う複数のガウス乱数に変換して、変換
された複数のガウス乱数を複数の特徴パラメータである
擬似的な単語学習データとして出力する。次いで、上記
単語学習データと、上記単語HMMに基づいて、所定の
コスト関数の関数値が最小となるように、予め登録され
ない未登録語を検出するためのガーベジHMMの複数の
パラメータを更新することにより上記ガーベジHMMの
複数のパラメータを学習する。さらに、学習されたHM
Mと、上記単語HMMとを用いて入力された発声音声を
音声認識する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識のための
隠れマルコフモデル(以下、HMMという。)を学習す
るためのHMMの学習装置、及びその学習装置によって
学習されたHMMを用いて音声認識する音声認識装置に
関する。
【0002】
【従来の技術】従来の連続音声認識装置においては、入
力された発声音声から抽出された音響的特徴パラメータ
に基づいて、HMMを用いて音声認識してその結果を出
力している。
【0003】音声認識部による上記HMMを用いた登録
語の抽出(スポッティングともいう。)においては、未
登録語を検出するときに用いるガーベジHMMがスポッ
ティング性能に大きな影響を与える。従来、ガーベジH
MMを学習するために、誤り最小化基準に基づく学習法
(以下、ME学習法という。)が用いられており、その
有効性が、例えば、従来文献1「Komori et
al.,“Minimum error classi
fication training forHMM−
based keyword spotting”,P
roc.ICSLP 92,Vol.I,pp.9−1
2,1992年」及び従来文献2「Torre et
al.,“Discriminative train
ingof garbage model for n
on−vocabularyutterance re
jection”,Proc.ICSLP 94,Vo
l.I,pp.475−478,1994年」において
報告されている。
【0004】
【発明が解決しようとする課題】しかしながら、これら
の従来例の方法では、学習に際して大量の音声サンプル
を用いるため、登録語の語彙の変更毎に音声サンプルの
収集、切り出し等の工程が必要であり、迅速な登録語の
語彙の変更は原理的に不可能であった。
【0005】本発明の目的は以上の問題点を解決し、従
来例に比較して容易にかつ迅速に登録語の語彙を変更し
てHMMを学習することができるHMMの学習装置及び
その学習装置によって学習されたHMMを用いて音声認
識する音声認識装置を提供することにある。
【0006】
【課題を解決するための手段】本発明に係る請求項1記
載の隠れマルコフモデルの学習装置は、多次元一様乱数
を発生する乱数発生手段と、上記乱数発生手段によって
発生された多次元一様乱数を、予め登録された登録語を
認識するための所定の単語隠れマルコフモデルの多次元
ガウス分布に従う複数のガウス乱数に変換して、変換さ
れた複数のガウス乱数を複数の特徴パラメータである擬
似的な単語学習データとして出力するデータ生成手段
と、上記データ生成手段から出力された擬似的な単語学
習データと、上記単語隠れマルコフモデルに基づいて、
所定のコスト関数の関数値が最小となるように、予め登
録されない未登録語を検出するためのガーベジ隠れマル
コフモデルの複数のパラメータを更新することにより上
記ガーベジ隠れマルコフモデルの複数のパラメータを学
習する学習手段とを備えたことを特徴とする。
【0007】また、請求項2記載の隠れマルコフモデル
の学習装置は、請求項1記載の隠れマルコフモデルの学
習装置において、上記コスト関数は、認識対象の単語に
ついて、上記単語学習データと上記単語隠れマルコフモ
デルとに基づいて計算された音声認識のためのスコア
と、上記単語学習データと上記ガーベジ隠れマルコフモ
デルとに基づいて計算された音声認識のためのスコアと
に基づいて計算された、発声された単語が認識されない
誤りの発生可能性を示す指標値と、認識対象の単語につ
いて、認識対象の単語を除く上記単語学習データと上記
単語隠れマルコフモデルとに基づいて計算された音声認
識のためのスコアと、上記単語学習データと上記ガーベ
ジ隠れマルコフモデルとに基づいて計算された音声認識
のためのスコアとに基づいて計算された、発声されてい
ない単語が認識結果に現れる誤りの発生可能性を示す指
標値と、を加算することにより計算される関数であるこ
とを特徴とする。
【0008】さらに、請求項3記載の隠れマルコフモデ
ルの学習装置は、請求項2記載の隠れマルコフモデルの
学習装置において、上記音声認識のための尤度を示すス
コアは、ビタビ復号化法によって計算されたスコアであ
ることを特徴とする。
【0009】また、本発明に係る音声認識装置は、請求
項1、2又は3記載の隠れマルコフモデルの学習装置
と、入力された発声音声文の音声信号に基づいて、予め
登録された登録語を認識するための単語隠れマルコフモ
デルと、上記隠れマルコフモデルの学習装置によって学
習され予め登録されない未登録語を検出するためのガー
ベジ隠れマルコフモデルとを用いて音声認識して音声認
識結果を出力する音声認識手段を備えたことを特徴とす
る。
【0010】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。本発明では、迅速かつ容
易に登録語の語彙セットの変更を可能とするべく、登録
語の語彙セットの変更時に新たな音声サンプルの収集や
加工が不要なガーベジHMM12の学習法として擬似的
な単語学習データ(以下、単語学習データ)を用いてガ
ーベジHMMを学習するME学習法を用いることを特徴
とする。ここで、擬似的な単語学習データは、前後音素
環境を考慮した音素HMM(以下、CD音素HMM)で
ある所定の単語HMM11と、デジタル電子計算機によ
って発生させた一様乱数をもとに生成する。
【0011】図1は本発明に係る一実施形態である音声
認識装置のブロック図であり、単語照合部4で用いる登
録語スポッティングアルゴリズムは、ワン−パス・ビタ
ビ復号化法(One−pass Viterbi de
coding)に基づくものである。音響モデルとして
は、図9に示すように、CD音素HMMの連結によって
構成される各登録語に関するHMMと、それぞれ1状態
の無音HMM及びガーベジHMMを用いる。ここで、予
め登録される複数の登録語を認識するための各登録語に
関するHMMと無音HMMは、図1の単語HMM11の
メモリに格納される一方、予め登録されない未登録語を
検出するためのガーベジHMMは図1のガーベジHMM
12のメモリに格納される。これらのHMM11,12
のメモリは例えばハードディスクメモリで構成される。
【0012】上記単語HMM11は、図8(a)に示す
状態間の接続関係を有し、図8(b)に示す情報構造を
有する。単語HMM11は、図8(a)に示すように、
複数n個の状態が縦続に接続された状態遷移で表され、
各状態で自己ループを有する。そして、単語HMM11
の各状態は、図8(b)に示すように、自己ループ確率
と、状態遷移確率及び出力分布のデータとを含み、出力
分布のデータは、多次元ガウス分布番号、混合重み、次
元番号、各次元に対応する平均値と分散値を含む。ここ
で、多次元ガウス分布とは、例えば、16次元LPCケ
プストラム、16次元Δケプストラム、対数パワー、Δ
対数パワーを含む34次元の特徴パラメータに関するガ
ウス分布である。
【0013】図2に、図1のHMM学習部20によって
実行されるガーベジHMM学習処理を示す。CD音素H
MMと無音HMMとを含む単語HMM11と、ガーベジ
HMM12は公知のバーム・ウェルチ(Baum−We
lch)アルゴリズムによって予めそのパラメータが学
習されて初期パラメータが設定され、ガーベジHMM1
2のみが図2の処理によってME学習法により再学習さ
れる。
【0014】図2に示すように、まず、ステップS1に
おいて、擬似的な単語学習データを作成するための単語
学習データ作成処理が実行される。ここでは、単語学習
データは、認識対象の各単語について、単語HMM11
内の各単語HMMが持つ情報をもとに生成する。具体的
には、各単語について、デジタル電子計算機によって発
生された一様疑似乱数を、単語HMMの状態遷移規則
と、各状態の混合重み分布とによって決定される多次元
ガウス分布に従う乱数に変換し出力する手続きを、各単
語HMMの最終状態に至るまで繰り返すことで実現す
る。
【0015】次いで、ステップS2では、作成された単
語学習データに基づいて、以下に詳細後述する認識誤り
発生可能性の指標値に対応するように定義されたコスト
関数の関数値が最小値(実際には、局所的最小値)とな
るように、ガーベジHMM12の各パラメータを逐次的
に更新して新たなガーベジHMMを得る。実際には、複
数の単語学習データセットを用意し、各単語学習データ
セットについてのコストの平均値を最小化するように学
習を進める。
【0016】ステップS2で用いるコスト関数は、単語
学習データと単語HMM11及び、未登録語の検出のた
めのHMMであるガーベジHMM12とを用いてビタビ
(Viterbi)のスコアの差に基づいて計算され
る、認識誤り発生可能性の指標値として定義する。認識
誤りとしては、発声された単語が認識されない誤り(す
なわち、単語脱落誤り)と、発声されていない単語が認
識結果に現れる誤り(すなわち、単語湧きだし誤り)が
あり、それぞれの誤り発生可能性指標値の計算は詳細後
述する方法で計算される。上記コスト関数Cは次の数1
で表される。
【0017】
【数1】
【0018】ここで、E(Δ)は次の数2で表されるシ
グモイド関数を示す。
【数2】E(Δ)=1/(1+exp(−αΔ))
【0019】また、P(S,x)は次の数3で表される
関数であって、単語学習データxに対するHMMsのビ
タビのスコアV(s,x)の最大値を示す。
【数3】
【0020】さらに、ghωは次の数4で表される関数
であって、ビタビのスコアV(ω,w)を最大するとき
の引数である。
【数4】
【0021】さらに、以下の通りである。 W:単語学習データの集合、 |W|:単語学習データの集合の単語数、 Ω:単語HMM11の集合、 |Ω|:単語HMM11の集合の単語数、 γ:ガーベジHMM12の集合、 V(s,x):単語学習データxに対するHMMsのビ
タビのスコア、 h:単語学習データの集合Wの各要素(すなわち、各単
語学習データ)を、対応する単語HMM11の集合Ωの
各要素(すなわち、単語HMM11内の各HMM)に写
す全単射。
【0022】ステップS2におけるコストの最小化処理
においては、ガーベジHMM12の各パラメータθ(す
なわち、平均、分散、混合重み)は、コスト関数値が収
束に至るまで、次の数5によって逐次更新される。
【0023】
【数5】 θ(i)=θ(i-1)−β[∂C/∂θ](θ=θ(i-1)
【0024】ここで、θ(i)はi回目の更新によって得
られたパラメータであり、βは学習定数であって、例え
ば0.1乃至0.5の値をとる。また、数5の右辺の第
2項の[∂C/∂θ](θ=θ(i-1))は、θ=θ(i-1)
のときの[∂C/∂θ]である。
【0025】図3は、図2の単語学習データ生成処理
(ステップS1)を示すフローチャートである。図3に
示すように、ステップS11において単語番号jに1が
セットされ、ステップS12において、詳細後述する単
語番号jの単語(以下、単語#jという。)に関する特
徴パラメータ列生成処理が実行される。次いで、ステッ
プS13において生成した特徴パラメータ列の音素継続
時間をチェックし、ステップS14において当該音素継
続時間が正常か否か判断される。このときの具体的な判
断基準は、母音の場合は20ミリ秒以下を正常と判断
し、子音の場合は10ミリ秒以下を正常と判断した。音
素継続時間が正常であれば、ステップS15において生
成した特徴パラメータ列をワーキングメモリ21に出力
して一時的に格納し、ステップS16で単語番号jを1
つだけインクリメントしてステップS17に進む。ステ
ップS17では、すべての単語について単語学習データ
の生成が完了したか否かが判断され、否のときは、ステ
ップS12に戻って上記の処理を繰り返し、完了してい
るときは当該単語学習データ生成処理を終了する。な
お、ステップS14で音素継続時間が正常でないと判断
されたときは、生成した特徴パラメータ列を出力するこ
となく取り除き、別の一様乱数を発生して別の特徴パラ
メータ列を発生するために、ステップS12に戻り上述
の処理を繰り返す。
【0026】図4は、図3の単語#jの特徴パラメータ
列生成処理(ステップS12)を示すフローチャートで
ある。図4に示すように、まず、ステップS21で状態
番号iに1をセットし、ステップS22でHMM学習部
20であるデジタル電子計算機によって発生された一様
乱数(当該一様乱数は、0から1までの間の値であ
る。)と状態番号iの状態(以下、状態#iという。)
の混合重み分布に従って単語HMM11内の単語#jの
多次元ガウス分布番号jを決定する。すなわち、単語#
jの複数個の多次元ガウス分布の混合分布の総和は1で
あるので、発生された一様乱数の値が、各多次元ガウス
分布の混合重みの累積加算値に該当するか否かを判断す
ることにより、単語#jの多次元ガウス分布番号jを決
定する。例えば、多次元ガウス分布番号#2における混
合重みの累積加算値は、多次元ガウス分布番号#2にお
ける混合重みと、多次元ガウス分布番号#1における混
合重みとを加算した値であり、発生された一様乱数が多
次元ガウス分布番号#1における混合重みを超え、多次
元ガウス分布番号#2における混合重みの累積加算値以
下のときに、j=2と決定する。
【0027】次いで、ステップS23では、上記デジタ
ル電子計算機によって発生された多次元一様乱数を、単
語HMM11内の単語#jのガウス分布番号jの多次元
ガウス分布(以下、多次元ガウス分布#jという。)に
従う複数のガウス乱数(正規乱数ともいう。)に変換
し、その結果を特徴パラメータ列としてワーキングメモ
リ21に出力する。ここで、多次元ガウス分布#jに従
うガウス乱数とは、ガウス分布の平均、分散及び形状が
同一であるガウス乱数である。
【0028】さらに、ステップS24において、上記デ
ジタル電子計算機によって発生された一様乱数と、単語
HMM11内の単語#jの状態#1の遷移確率とに基づ
いて状態遷移の有無を決定する。すなわち、発生された
一様乱数が遷移確率以下であるときに、状態遷移すると
判断し、発生された一様乱数が遷移確率を超えるときに
状態遷移しないと判断する。次いで、ステップS25で
は、状態遷移するか否かが判断され、状態遷移しない場
合は、自己ループとして判断し、別の一様乱数を発生し
て別の特徴パラメータ列を発生するためにステップS2
2に戻る。一方、ステップS25で状態遷移すると判断
されたときは、ステップS26で状態番号iを1だけイ
ンクリメントしてステップS27で状態#iが当該HM
Mの最終状態であるか否かが判断され、最終状態でない
ときは、ステップS22に戻って、次の状態について上
述の処理を繰り返し、最終状態であるときは図12のメ
インルーチンに戻る。
【0029】図5は、図2のステップS2において実行
されるサブルーチンであるコスト関数計算処理を示すフ
ローチャートである。図5に示すように、まず、ステッ
プS31において後述の単語脱落誤り発生可能性指標値
計算処理を実行し、ステップS32において単語湧き出
し誤り発生可能性指標値計算処理を実行し、ステップS
33において、ステップS31で計算されて計算バッフ
ァBuff1に格納された値と、ステップS32で計算
されて計算バッファBuff2に格納された値とを加算
して加算結果をコスト関数値Cとする。
【0030】図6は、図5の単語脱落誤り発生可能性指
標値計算処理を示すフローチャートである。この処理で
は、各認識対象単語について、擬似的な単語学習データ
と単語HMM11内の当該単語のHMMとに基づいてビ
タビのスコアを計算するとともに、擬似的な単語学習デ
ータとガーベジHMM12とに基づいてビタビのスコア
を計算し、ガーベジHMM12によるビタビのスコアか
ら当該単語のHMMによるビタビのスコアを引いたもの
をシグモイド関数によって平滑化し、上記平滑化した値
の総和を、認識対象単語数で割って正規化して、単語脱
落誤り発生可能性指標値とする。
【0031】図6に示すように、ステップS41で計算
バッファBuff1に0がセットされ、ステップS42
で単語番号jに1がセットされた後、ステップS43に
おいて、数1の右辺の第1項内のΣより右側部分であ
る、ガーベジHMM12によるビタビのスコアから当該
単語のHMMによるビタビのスコアを引いたものを計算
し、当該計算値を計算バッファBuff1の値に加算し
て、その加算結果を計算バッファBuff1の値として
更新する。そして、ステップS44で、単語番号jを1
だけインクリメントして、ステップS45ですべての単
語についてステップS43の処理が終了したか否かが判
断され、完了していないときはステップS43に戻って
上述の処理を繰り返し、終了しているときはステップS
46に進む。ステップS46では、計算バッファBuf
f1の値を単語学習データの集合の単語数で割って、除
算の結果を計算バッファBuff1に格納する。最後
に、ステップS47では、計算バッファBuff1の値
を、数1の右辺の第1項に対応する単語脱落誤り発生可
能性指標値としてワーキングメモリ21に出力して格納
する。
【0032】図7は、図5の単語脱落湧き出し誤り発生
可能性指標値計算処理を示すフローチャートである。こ
の処理では、各認識対象単語について、当該単語を除く
すべての単語学習データと、単語HMM11内の当該単
語のHMMに基づいてビタビのスコアを計算し、これら
計算された中で最大のビタビのスコアを与える単語学習
データghωおよびそのスコアyを記憶し、さらに単語
学習データghωとガーベジHMM12に基づいてビタ
ビのスコアzを計算し、スコアyからガーベジHMM1
2に基づいて計算されたビタビのスコアzを引いたもの
をシグモイド関数によって平滑化し、上記平滑化した値
の総和を、認識対象単語数で割って正規化して、単語湧
きだし誤り発生可能性指標値とする。
【0033】図7に示すように、ステップS51で計算
バッファBuff2に0がセットされ、ステップS52
で単語番号jに1がセットされた後、ステップS53で
は、単語HMM11内の単語#jのHMM(以下、単語
HMM#jという。)と、当該単語#jを除く各単語学
習データに基づいて各ビタビのスコアを計算し、これら
の計算されたスコアの中で最大値を与える単語学習デー
タghωを選択してワーキングメモリ21に格納する。
次いで、ステップS54では、最大値を与える単語学習
データghωとガーベジHMM12に基づいてビタビの
スコアzを計算し、数1の右辺の第2項内のΣより右側
部分である、最大のビタビのスコアyからガーベジHM
M12に基づいて計算されたビタビのスコアzを引いた
ものを計算し、当該計算値を計算バッファBuff2の
値に加算して、その加算結果を計算バッファBuff2
の値として更新する。そして、ステップS54で、単語
番号jを1だけインクリメントして、ステップS55で
すべての単語についてステップS53及びS54の処理
が終了したか否かが判断され、完了していないときはス
テップS53に戻って上述の処理を繰り返し、終了して
いるときはステップS57に進む。ステップS57で
は、計算バッファBuff2の値を単語HMM11の集
合の単語数で割って、除算の結果を計算バッファBuf
f2に格納する。最後に、ステップS58では、計算バ
ッファBuff2の値を、数1の右辺の第2項に対応す
る単語湧き出し誤り発生可能性指標値としてワーキング
メモリ21に出力して格納する。
【0034】次いで、上述の方法で再学習されたガーベ
ジHMM12と、単語HMM11とを用いて音声認識を
行う単語認識のための音声認識装置について図1を参照
して説明する。
【0035】図1において、HMM学習部20は、擬似
的な単語学習データと、単語HMM11に基づいてガー
ベジHMM12を再学習して、ガーベジHMM12のメ
モリに格納する。一方、話者の発声音声はマイクロホン
1に入力されて音声信号に変換された後、特徴抽出部2
に入力される。特徴抽出部2は、入力された音声信号を
A/D変換した後、例えばLPC分析を実行し、対数パ
ワー、16次ケプストラム係数、Δ対数パワー及び16
次Δケプストラム係数を含む34次元の特徴パラメータ
を抽出する。抽出された特徴パラメータの時系列はバッ
ファメモリ3を介して単語照合部4に入力される。
【0036】単語照合部4は、バッファメモリ3に格納
された特徴パラメータの時系列データに基づいて、公知
のワン−パス・ビタビ復号化方法により、登録語の認識
のための単語HMM11と、未登録語の検出のためのガ
ーベジHMM12とを用いて、単語照合区間内のデータ
に対するビタビのスコアが計算され、最大のビタビのス
コアに対応する単語を認識単語列として出力する。
【0037】以上の実施形態において、単語照合部4及
びHMM学習部20は、例えばデジタル電子計算機で構
成される。
【0038】
【実施例】本発明者は、本実施形態のHMM学習部20
の有効性を確認するために以下のように実験を行った。
その実験条件を表1に示す。CD音素HMMとしては、
複数の話者適応された隠れマルコフ網(以下、HM網と
いう。)の合成によって得られた200状態の話者不特
定HM網を用いた。スポッティングの対象語彙として、
ホテル予約等のトラベル・プランニングをタスクとする
本特許出願人が所有する自然発声対話コーパス(従来文
献3「Morimoto et al.,“A spe
ech and language database
for speech translation r
esearch”,Proc.ICSLP 94,Vo
l.IV,pp.1791−1794,1994年」参
照。)の中から20単語を選択した。
【0039】
【表1】 実験条件 ─────────────────────────────────── 音響解析条件 サンプリング周波数=12kHz サンプリングのビット数=16ビット プリエンファシス=1−0.97z-1 ハミング窓=20ミリ秒 フレームシフト=5ミリ秒 特徴パラメータ=16次元LPCケプストラム +16次元Δケプストラム +パワー+Δパワー ─────────────────────────────────── HMMのトポロジー 単語HMM:3状態又は4状態、5混合 無音HMM:1状態、10混合 ガーベジHMM;:1状態、20混合 ───────────────────────────────────
【0040】ME学習法による学習処理においては、出
来るかぎり良い初期モデルから学習を始めることが重要
である。本実験では、初期ガーベジHMMを、複数の話
者特定モデルの合成によって作成した。本方法は、音響
的特徴、話者性それぞれに対する分解能を確保するべく
複数のHMMを作成した上で、それらを所望の混合数を
持つ1つのHMMに合成するものである。
【0041】単語学習データとして、全語彙の擬似的な
単語学習データを20組生成した。学習に際しては、未
登録語に対応する学習データも必要である。未登録語に
関する統計的な言語データが利用可能な場合は、未登録
語を普遍的に表現する言語モデルを作成し、その上で上
述のデータ生成方法を適用することにより、未登録語に
関する単語学習データを生成することができる。本実験
では、これらの言語データが利用できない場合の本方法
の適用例として、擬似的な単語学習データの中から未登
録語に関する単語学習データの代用となるものを選択し
て使用する方法をとった。つまり、数1の各登録語毎の
単語湧きだし誤り可能性指標値の計算において、未登録
語に関する単語学習データの代用として、当該登録語を
除く擬似的な単語学習データのうち、当該登録語HMM
に対して最大のビタビのスコアを与えるものを用いた。
これにより、ガーベジHMM12は、各単語学習データ
に対して、正解の単語HMMより低いスコアを、不正解
の単語HMMよりも高いスコアを与えるように学習され
る。
【0042】そして、作成済みの初期ガーベジHMMを
上述の学習方法により再学習した。本実験では、平均と
混合重みについてパラメータの更新を行った。コスト関
数値が収束に至るまでの繰り返し計算回数は20であっ
た。
【0043】次いで、スポッティング実験と結果につい
て述べる。再学習済みのガーベジHMMを用い、男女各
1名の話者について、話者オープンの登録語スポッティ
ング実験を行った。テストデータとして、前述の自然発
声対話コーパス中から、4対話を選んだ。総発話数は6
0であり、登録語の延べ出現回数は22であった。図1
0に示すように、本発明の方法でME再学習されたガー
ベジHMM12を用いることにより、初期ガーベジHM
Mを用いた場合と比較して、登録語の脱落率に対する単
語誤りの湧き出し率特性が向上した。この結果から、本
発明の学習方法が、代用的な未登録語に関する単語学習
データを用いた場合でさえ、スポッティング性能の向上
に有効であることがわかる。
【0044】以上説明したように、本実施形態によれ
ば、一様乱数に基づいて発生された擬似的な単語学習デ
ータを生成して、それに基づいてガーベジHMM12を
再学習するので、推定対象の単語について、新たな学習
データ用音声サンプルの収集や加工などの作業が不要な
ために、登録語の語彙セットの変更に要する時間及びコ
ストが大幅に軽減される。従って、従来例に比較して容
易にかつ迅速に登録語の語彙セットを変更してガーベジ
HMM12を再学習することができる。また、再学習さ
れたガーベジHMM12を用いて音声認識した場合、従
来例とほぼ同等の音声認識率で音声認識することができ
る。
【0045】
【発明の効果】以上詳述したように本発明に係る隠れマ
ルコフモデルの学習装置によれば、多次元一様乱数を発
生する乱数発生手段と、上記乱数発生手段によって発生
された多次元一様乱数を、予め登録された登録語を認識
するための所定の単語隠れマルコフモデルの多次元ガウ
ス分布に従う複数のガウス乱数に変換して、変換された
複数のガウス乱数を複数の特徴パラメータである擬似的
な単語学習データとして出力するデータ生成手段と、上
記データ生成手段から出力された擬似的な単語学習デー
タと、上記単語隠れマルコフモデルに基づいて、所定の
コスト関数の関数値が最小となるように、予め登録され
ない未登録語を検出するためのガーベジ隠れマルコフモ
デルの複数のパラメータを更新することにより上記ガー
ベジ隠れマルコフモデルの複数のパラメータを学習する
学習手段とを備える。従って、一様乱数に基づいて発生
された擬似的な単語学習データを生成して、それに基づ
いてガーベジ隠れマルコフモデルを再学習するので、推
定対象の単語について、新たな学習データ用音声サンプ
ルの収集や加工などの作業が不要なために、登録語の語
彙の変更に要する時間及びコストが大幅に軽減される。
従って、従来例に比較して容易にかつ迅速に登録語の語
彙を変更してガーベジ隠れマルコフモデルを再学習する
ことができる。
【0046】また、本発明に係る音声認識装置によれ
ば、上記隠れマルコフモデルの学習装置と、入力された
発声音声文の音声信号に基づいて、予め登録された登録
語を認識するための単語隠れマルコフモデルと、上記隠
れマルコフモデルの学習装置によって学習され予め登録
されない未登録語を検出するためのガーベジ隠れマルコ
フモデルとを用いて音声認識して音声認識結果を出力す
る音声認識手段を備える。従って、従来例に比較して容
易にかつ迅速に再学習されたガーベジ隠れマルコフモデ
ルを用いて、従来例とほぼ同等の音声認識率で音声認識
することができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である音声認識装置
のブロック図である。
【図2】 図1のHMM学習部20によって実行される
ガーベジHMM学習処理を示すフローチャートである。
【図3】 図2のサブルーチンである単語学習データ生
成処理を示すフローチャートである。
【図4】 図3のサブルーチンである特徴パラメータ列
生成処理を示すフローチャートである。
【図5】 図2のステップS2において実行されるサブ
ルーチンであるコスト関数計算処理を示すフローチャー
トである。
【図6】 図5のサブルーチンである単語脱落誤り発生
可能性指標値計算処理を示すフローチャートである。
【図7】 図5のサブルーチンである単語湧き出し誤り
可能性指標値計算処理を示すフローチャートである。
【図8】 単語HMMの構造を示す図であって、(a)
は単語HMMにおける状態間の接続関係を示す状態遷移
図であり、(b)は単語HMMの情報構造を示す図であ
る。
【図9】 図1の音声認識装置で用いるスポッティング
用言語モデルを示す状態遷移図である。
【図10】 図1の音声認識装置の実験で得られた登録
語の脱落率に対する湧き出し率を示すグラフである。
【符号の説明】 1…マイクロホン、 2…特徴抽出部、 3…バッファメモリ、 4…単語照合部、 11…単語HMM、 12…ガーベジHMM、 20…HMM学習部、 21…ワーキングメモリ。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 多次元一様乱数を発生する乱数発生手段
    と、 上記乱数発生手段によって発生された多次元一様乱数
    を、予め登録された登録語を認識するための所定の単語
    隠れマルコフモデルの多次元ガウス分布に従う複数のガ
    ウス乱数に変換して、変換された複数のガウス乱数を複
    数の特徴パラメータである擬似的な単語学習データとし
    て出力するデータ生成手段と、 上記データ生成手段から出力された擬似的な単語学習デ
    ータと、上記単語隠れマルコフモデルに基づいて、所定
    のコスト関数の関数値が最小となるように、予め登録さ
    れない未登録語を検出するためのガーベジ隠れマルコフ
    モデルの複数のパラメータを更新することにより上記ガ
    ーベジ隠れマルコフモデルの複数のパラメータを学習す
    る学習手段とを備えたことを特徴とする隠れマルコフモ
    デルの学習装置。
  2. 【請求項2】 上記コスト関数は、 認識対象の単語について、上記単語学習データと上記単
    語隠れマルコフモデルとに基づいて計算された音声認識
    のためのスコアと、上記単語学習データと上記ガーベジ
    隠れマルコフモデルとに基づいて計算された音声認識の
    ためのスコアとに基づいて計算された、発声された単語
    が認識されない誤りの発生可能性を示す指標値と、 認識対象の単語について、認識対象の単語を除く上記単
    語学習データと上記単語隠れマルコフモデルとに基づい
    て計算された音声認識のためのスコアと、上記単語学習
    データと上記ガーベジ隠れマルコフモデルとに基づいて
    計算された音声認識のためのスコアとに基づいて計算さ
    れた、発声されていない単語が認識結果に現れる誤りの
    発生可能性を示す指標値と、を加算することにより計算
    される関数であることを特徴とする請求項1記載の隠れ
    マルコフモデルの学習装置。
  3. 【請求項3】 上記音声認識のための尤度を示すスコア
    は、ビタビ復号化法によって計算されたスコアであるこ
    とを特徴とする請求項2記載の隠れマルコフモデルの学
    習装置。
  4. 【請求項4】 請求項1、2又は3記載の隠れマルコフ
    モデルの学習装置と、 入力された発声音声文の音声信号に基づいて、予め登録
    された登録語を認識するための単語隠れマルコフモデル
    と、上記隠れマルコフモデルの学習装置によって学習さ
    れ予め登録されない未登録語を検出するためのガーベジ
    隠れマルコフモデルとを用いて音声認識して音声認識結
    果を出力する音声認識手段を備えたことを特徴とする音
    声認識装置。
JP7232436A 1995-09-11 1995-09-11 隠れマルコフモデルの学習装置及び音声認識装置 Expired - Fee Related JP2886118B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7232436A JP2886118B2 (ja) 1995-09-11 1995-09-11 隠れマルコフモデルの学習装置及び音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7232436A JP2886118B2 (ja) 1995-09-11 1995-09-11 隠れマルコフモデルの学習装置及び音声認識装置

Publications (2)

Publication Number Publication Date
JPH0981182A true JPH0981182A (ja) 1997-03-28
JP2886118B2 JP2886118B2 (ja) 1999-04-26

Family

ID=16939242

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7232436A Expired - Fee Related JP2886118B2 (ja) 1995-09-11 1995-09-11 隠れマルコフモデルの学習装置及び音声認識装置

Country Status (1)

Country Link
JP (1) JP2886118B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325979A (ja) * 2003-04-28 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体
JP2008129318A (ja) * 2006-11-21 2008-06-05 Nippon Hoso Kyokai <Nhk> 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム
WO2008105263A1 (ja) * 2007-02-28 2008-09-04 Nec Corporation 重み係数学習システム及び音声認識システム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3459712B2 (ja) 1995-11-01 2003-10-27 キヤノン株式会社 音声認識方法及び装置及びコンピュータ制御装置
JP4263614B2 (ja) * 2001-12-17 2009-05-13 旭化成ホームズ株式会社 リモートコントロール装置及び情報端末装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325979A (ja) * 2003-04-28 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体
JP4497834B2 (ja) * 2003-04-28 2010-07-07 パイオニア株式会社 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体
JP2008129318A (ja) * 2006-11-21 2008-06-05 Nippon Hoso Kyokai <Nhk> 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム
WO2008105263A1 (ja) * 2007-02-28 2008-09-04 Nec Corporation 重み係数学習システム及び音声認識システム
US8494847B2 (en) 2007-02-28 2013-07-23 Nec Corporation Weighting factor learning system and audio recognition system
JP5294086B2 (ja) * 2007-02-28 2013-09-18 日本電気株式会社 重み係数学習システム及び音声認識システム

Also Published As

Publication number Publication date
JP2886118B2 (ja) 1999-04-26

Similar Documents

Publication Publication Date Title
KR100612840B1 (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
Ghai et al. Literature review on automatic speech recognition
JP3672595B2 (ja) 結合されたストリングモデルの最小誤認率訓練
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
US20050159949A1 (en) Automatic speech recognition learning using user corrections
JP2002500779A (ja) 識別訓練されたモデルを用いる音声認識システム
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
WO2002101719A1 (en) Voice recognition apparatus and voice recognition method
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JP2004226982A (ja) 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
JP2955297B2 (ja) 音声認識システム
Raškinis et al. Building medium‐vocabulary isolated‐word lithuanian hmm speech recognition system
JP2886118B2 (ja) 隠れマルコフモデルの学習装置及び音声認識装置
JP2974621B2 (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
JP2011053312A (ja) 適応化音響モデル生成装置及びプログラム
KR100327486B1 (ko) 스테이트별 가중치를 적용한 음성 인식 장치 및 방법
JP3216565B2 (ja) 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
KR100586045B1 (ko) 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법
Abdullah-al-MAMUN et al. Performance analysis of isolated Bangla speech recognition system using Hidden Markov Model
JP2731133B2 (ja) 連続音声認識装置
JP2017151198A (ja) 音響モデル生成装置およびそのプログラム
EP1594120B1 (en) Method for building hidden Markov speech models
JP3105708B2 (ja) 音声認識装置
Kessens et al. Modeling pronunciation variation for ASR: Comparing criteria for rule selection
JPH0786758B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080212

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110212

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120212

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130212

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140212

Year of fee payment: 15

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees