JPH0997096A

JPH0997096A - 音声認識用音響モデル生成方法

Info

Publication number: JPH0997096A
Application number: JP7274693A
Authority: JP
Inventors: Junichi Takami; 淳一鷹見
Original assignee: Victor Company of Japan Ltd
Current assignee: Victor Company of Japan Ltd
Priority date: 1995-09-28
Filing date: 1995-09-28
Publication date: 1997-04-08

Abstract

(57)【要約】【課題】必要最小限の信号源で多様な音声現象をうま
く表現することができる音響モデルを高速で自動的に生
成することができなかった。【解決手段】単一ガウス分布モデルを基礎として、２
つの融合対象信号源の持つ２つの単一ガウス分布を１つ
の単一ガウス分布に融合することにより、信号源の融合
処理を行うと共に、分割対象信号源の持つ１つの単一ガ
ウス分布を１つの２混合ガウス分布に再形成した後、２
つの単一ガウス分布に分割することにより、前記信号源
の分割処理を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識用音響モ
デル生成方法に係り、特に隠れマルコフモデル（Hidden
Markov Model:ＨＭＭ）を用いた音声認識において、必
要最小限のモデルパラメータで最大限の音声現象をモデ
ル化するための各モデルの単位、状態ネットワークの構
造、信号源の複数状態間での共有構造および信号源のパ
ラメータを最適に決定するような音声認識用音響モデル
生成方法に関するものである。

【０００２】

【従来の技術】ＨＭＭを用いての高精度かつ頑健な音声
認識を行なうためには、モデルの詳細さと頑健性を如何
にして両立させるかが重要な課題となる。モデルの詳細
化のためには、音声空間全体を覆い尽くすような音素コ
ンテキストカテゴリを適切に決める必要があり、限られ
た学習用音声サンプルから頑健性の高いモデルを推定す
るためには、モデルパラメータの冗長性を削減し、必要
最小限のモデルパラメータで音声の本質的な情報のみを
効率良く表現するようなメカニズムを導入する必要があ
る。

【０００３】このような必要性から、状態分割のみによ
り適切なモデルを生成するための「逐次状態分割法（Su
ccessive State Splitting：ＳＳＳ）」が開発されてい
るが、状態に対する逐次２分割のみの処理では、達成で
きる状態ネットワークの構造に限界があり、モデルパラ
メータの冗長性を完全に除去することができなかった。

【０００４】そこで、本発明者は、特願平６−２８４１
３５号にて、状態に対する逐次２分割のみでモデルの生
成を行なうＳＳＳの欠点を克服するために、信号源に対
する分割処理と融合処理を同時に実現し、それらのうち
の一方を逐次選択しながら処理を進めることで、ＳＳＳ
の利点を失うことなく、任意の状態ネットワークの構造
の実現を可能にし、必要最小限のモデルパラメータで最
大限の音声現象を高精度かつ頑健に表現することのでき
る表現効率の高い音声認識用音響モデルの生成方法を提
供した。

【０００５】

【発明が解決しようとする課題】しかし、特願平６−２
８４１３５号の実施例で示した方法は、混合数２の混合
ガウス分布モデルを基礎（ベース）とする方式で、一組
（２つ）の融合対象信号源の持つ２つの２混合ガウス分
布を１つの２混合ガウス分布に融合する信号源融合処理
や、分割対象信号源の持つ１つの２混合ガウス分布を２
つの単一ガウス分布に分割した後、それぞれを改めて２
混合ガウス分布に再形成する信号源分割処理を行ってい
た。

【０００６】ところが、一般的に、混合ガウス分布モデ
ルの学習は、単一ガウス分布モデルの学習に比べて、多
くの時間を費やさなければならないことが知られてお
り、特願平６−２８４１３５号に記載されている方法に
おいても多くの時間を費やさなければならなかった。

【０００７】そこで、本発明は、信号源に対する分割処
理と融合処理とを同時に実現し、それらのうちの一方を
逐次選択しながら処理を進めることで、ＳＳＳの利点を
失うことなく、任意の状態のネットワーク構造を実現可
能にし、また、必要最小限のモデルパラメータで最大限
の音声現象を高精度かつ頑健に表現することのできる表
現効率の高い音声認識用音響モデルの生成方法を提供し
て、単一ガウス分布モデルをベースとした高速な学習を
可能にすることを目的とする。

【０００８】

【課題を解決するための手段】上記目的を達成するため
の手段として、初期モデルと、融合処理あるいは分割処
理の対象となるモデルとを単一ガウス分布モデルとして
形成し、分割処理を行う際に、一時的に２混合ガウス分
布を作り出すことによって学習処理の高速化を実現しよ
うとするものである。

【０００９】そして、本発明は、信号源の融合と分割と
を全学習用サンプルに対する評価値の最大化という基準
の下で行なうことによって、信号源数は局所的には増減
しながら、大局的には徐々に増加していく。

【００１０】その結果、モデルの精密化が逐次的に行な
われ、最終的には、各モデルの単位や状態ネットワーク
の構造、信号源の複数状態間での共有構造および出力確
率分布のパラメータが、すべて共通の評価基準の下で最
適に決定された音響モデルを、従来法に比べて高速に自
動生成することができる。

【００１１】

【発明の実施の形態】図１は本発明の音声認識用音響モ
デルの生成方法の概要を説明するためのフローチャート
図である。本発明は、音声の特徴パターンの微小単位時
間内での形状（音声の静的特徴）およびその時間的な変
化（音声の動的特徴）を複数の信号源の連鎖として表現
した確率モデルに対して、共通の評価基準（尤度最大
化）に基づいて個々の出力確率分布を融合あるいは分割
するといった処理を繰り返すことによって、モデルの単
位と状態ネットワークの構造、信号源の複数状態間での
共有構造および出力確率分布のパラメータを同時かつ自
動的に決定することができる。

【００１２】以降、図１を参照して、より具体的に説明
する。まず、初期モデルとして小規模なモデル（モデル
全体で使用されている信号源の総数Ｍ＝１）を用意する
（ステップ１）。これは例えば、１個の状態（固有の音
素コンテキストカテゴリに対応付けられたモデル構成上
の概念）と１個の信号源（単一ガウス分布で表現された
出力確率分布および状態遷移確率からなるモデルの最小
構成要素）を有するものである。そして、以降の処理
は、この信号源に対して、分割と融合とが繰り返し行な
われる。さらに、信号源数が１の時点での総尤度を現す
Ｐ(1) に、学習時に計算された総尤度を代入して、ステ
ップ２に例示されるようなモデル（信号源数Ｍ＝４で、
その状態が信号源を共有していないモデル）を形成す
る。

【００１３】本方法の実行中に形成されるモデルは、隠
れマルコフ網（Hidden Markov Network:ＨＭｎｅｔ）と
呼ばれ、複数の状態のネットワークとして表すことがで
きる。ＨＭｎｅｔは、以下の情報により構成されてい
る。

【００１４】（１）ＨＭｎｅｔの構成要素：・信号源の集合。・状態の集合。（２）信号源の構成要素：・信号源の番号（インデックス）。・出力確率分布（対角共分散行列表現の単一ガウス分
布）。・自己ループ確率および次状態への遷移確率。（３）状態の構成要素：・状態の番号（インデックス）。・信号源へのポインタ（信号源番号）。・受理可能な音素環境カテゴリ（音素環境要因の直積空
間として定義）。・先行状態および後続状態のリスト。

【００１５】融合すべき信号源の選択（ステップ３）で
は、信号源間の類似性を判定するために、融合処理によ
って生成される信号源の出力確率分布の大きさを評価尺
度として利用する。即ち、２つの信号源Ｑ(i) とＱ(j)
の全ての組合せに対し、それらの出力確率分布（共に単
一分布）を融合した場合の分布の大きさＤijを、式
（１）によって近似的に求める。

【００１６】

【数１】

【００１７】Ｄijの値が最小となる二つの信号源Ｑ(i)
およびＱ(j) を、融合処理の対象として選択する。信号
源の融合（ステップ４）は、２つの信号源Ｑ(i) とＱ
(j) とを融合し、新たな信号源Ｑ(I) を作成することで
行なう。Ｑ(I) の出力確率分布の平均値μIk、分散σIk
²は、それぞれ以下の式（４），（５）で計算できる。

【００１８】

【数２】

【００１９】また、Ｑ(I) の自己遷移確率ａI ^selfと後
続状態への遷移確率ａI ^nextには、式（６）および式
（７）で求められる値をそれぞれ使用する。

【００２０】

【数３】

【００２１】この処理で得られたＱ(I) は、融合前にＱ
(i＾) 、あるいはＱ(j＾) が割り当てられていた全ての
状態で共有化する。そのための処理として、信号源への
ポインタの値が i＾または j＾となっているすべての状
態に対し、その値をI に置き換える。この処理によっ
て、モデル全体での信号源の数は一時的にＭ−１とな
る。

【００２２】この時点で、信号源に対する融合処理の結
果得られたモデルを採用するか否かの判定を行なう。融
合処理結果は、融合処理後のモデルから得られる総尤度
（これをＰ'(M-1)と表す）が、これ以前の処理過程で既
に計算されている、総分布数がＭ−１の時点での尤度Ｐ
(M-1) を越える場合にのみ採用される。この場合は、Ｍ
の値をＭ−１に変更してモデルの再学習の処理へ進む
（ステップ９へ）。融合処理の結果が採用されなかった
場合には、改めて融合処理を行なう前のモデル（ステッ
プ２のモデル）を対象とした分割処理のフェーズに入る
（ステップ５へ）。

【００２３】そして、実際の分割に先だって、分割の対
象となる信号源の選定（ステップ５）を行なう。すべて
の信号源Ｑ(i) に対して、その信号源の大きさｄi を式
（８）により算出し、ｄi の値の最も大きい信号源（こ
れをＱ(i＾) とする）を分割対象として選定する。

【００２４】

【数４】

【００２５】次に、Ｑ(i＾) をＱ(I) とＱ(J) の二つの
信号源に分割する。このための処理として、まず、尤度
計算時にＱ(i＾) を使用する全学習サンプルに対してビ
タビ(Viterbi) アルゴリズムを適用し、各サンプルの状
態経路を求める。

【００２６】次に、求められた状態経路に基づき、Ｑ(i
＾) に対応付けられた学習サンプルの全てのフレームを
抽出する。その後、抽出された学習サンプルの全フレー
ムのデータをベクトル量子化により２つのグループに分
け、各グループ毎に、平均値および分散を求める。最後
に、分割された二つの信号源に対して、得られた各グル
ープの分布のそれぞれ一方を出力確率分布として割り当
て、Ｑ(i＾) の自己遷移確率および後続状態への遷移確
率の値をそのまま複写する。また、Ｍの値をＭ＋１に変
更する。

【００２７】この処理で、信号源の分割が完了する。な
お、信号源を分割した場合には、状態の再構成を同時に
行なう必要がある。状態の再構成は、信号源の共有構造
のみの組替えにより達成される最大尤度ＰD 、一つの状
態を音素環境方向に分割した場合に達成される最大尤度
ＰC 、一つの状態を時間方向に分割した場合に達成され
る最大尤度ＰT のうち、より大きい値を示すものを採用
するといった方法で行なわれる。

【００２８】信号源の共有構造のみの組替え（ステップ
６）は、分割対象となった信号源Ｑ(i＾) が、複数の状
態で共有されているものであった場合にのみ行う必要が
ある。この場合、これ以降の状態分割処理は、すべてこ
こでの処理の結果得られたモデルに対して継続して行な
う。また、Ｑ(i＾) がただ一つの状態でのみ使用されて
いるものである場合には、ここでの処理を省略し、ＰD
の値を負の無限大（−∞）として次の処理に進む。

【００２９】信号源Ｑ(i＾) へのポインタを有する状態
の集合をＳと表す。ここでは、Ｓの要素に対して、Ｑ
(I) とＱ(J) のいずれか一方を割り当てることで、信号
源共有構造の組替えを行なう。この割り当ては、式
（９）で計算される最大値ＰD を求めることによって行
なわれる。

【００３０】

【数５】

【００３１】ＰD の値が求められた時点で、ｐsI（Ｙs
）＞ｐsJ（Ｙs ）ならば状態ｓにＱ(I) を、そうでな
ければ状態ｓにＱ(J) を割り当てる。音素環境方向への
状態分割は、Ｓの要素の中の一つの状態ｓを二つの状態
に分割し、それらを並列に結合することにより行う。

【００３２】この場合、分割対象となった状態を通る経
路で表現されている学習用サンプルを、新たに生成され
る状態を通る２通りの経路に振り分ける必要がある。こ
の振り分けは、状態ｓと、状態ｓにおいて分割可能な音
素環境要因（二つ以上の要素を持つ要因）ｆに関して、
式（１０）によって計算されるＰC を最大化するような
状態ｓ＾と要因ｆ＾とを求め、ｆ＾に属する要素を分割
することにより行う。

【００３３】

【数６】

【００３４】分割すべき状態ｓ＾と、要因ｆ＾とが求め
られた時点で、ｆ＾の要素ａ s＾ f＾e をどちらの経路
に振り分けるかは、式（１０）を計算する過程で既に得
られているｑI(ｙ s＾ f＾e ) およびｑJ(ｙ s＾ f＾e
) の値を用い、式（１１）に従って決定する。

【００３５】

【数７】

【００３６】ＡIf＾およびＡJf＾を定めた後、状態ｓ＾
を分割して新たに生成された二つの状態Ｓ(I')、および
Ｓ(J')に対して、以下の処理を行なう。まず、これらの
状態の信号源へのポインタに、それぞれＩおよびＪを代
入する。次に、それらの音素環境情報として、要因ｆ＾
に関する部分にはそれぞれＡIf＾およびＡJf＾を割当
て、ｆ＾以外の要因ｆには、分割前の状態ｓで保有され
ていた要因ｆの内容をそのまま複写する。以上で、音素
環境方向への状態分割が完了する。時間方向への状態分
割（ステップ８）は、Ｓの要素の中の一つの状態ｓを二
つの状態に分割し、それらを直列に結合することにより
行う。この場合、Ｑ(I) とＱ(J) のどちらを前方の状態
に割り当てるかによって２通りの可能性が考えられる。
そこで、式（１２）によって計算されるＰT を最大化す
るような状態ｓ＾と信号源の適用順序を決定する。

【００３７】

【数８】

【００３８】この後、状態ｓ＾を分割して新たに生成さ
れた二つの状態Ｓ(I')およびＳ(J')に対して以下の処理
を行なう。まず、これらの状態の信号源へのポインタ
に、それぞれＩおよびＪを代入する。次に、ｒI （Ｙ s
＾）＞ｒJ （Ｙ s＾）ならば状態Ｓ(I')を前方に位置付
けて、そうでなければ状態Ｓ(J')を前方に位置付けて、
ネットワーク構造を再構成する。最後に、それらの音素
環境情報として、分割前の状態ｓ＾で保有されていた内
容をそのまま複写する。以上で、時間方向への状態分割
が完了する。

【００３９】この時点で形成されているＨＭｎｅｔの信
号源は、一部の信号源に対する融合処理や分割処理の結
果、モデル全体としての最適性が崩されている可能性が
高い。そこで、信号源全体のパラメータを最適化し、次
の繰り返し処理に備えるために、融合処理あるいは分割
処理の影響が及ぶ範囲内にあるすべての信号源に対し
て、その出力確率分布および状態遷移確率を再学習（ス
テップ９）する。

【００４０】その後、Ｐ(M) に学習の結果達成された総
尤度を代入し、モデル全体での信号源数Ｍが所定の値に
達するまで信号源に対する融合処理と分割処理を続け
る。ここまでの処理で、ＨＭｎｅｔの構造が決定され
る。この時点での各信号源の出力確率分布は、すべて単
一ガウス分布が割り当てられている。そこで最後に、そ
れらの出力確率分布を、最終的に使用したい形状に変更
するための学習（ステップ１０）をＨＭｎｅｔ全体に対
して行なう（単一ガウス分布のまま使用する場合には、
この処理は不用）。以上でHMnet の生成が完了する。

【００４１】

【発明の効果】本発明の音声認識用音響モデル生成方法
は、信号源の融合と分割を逐次選択しながら繰り返して
いるので、必要最小限の信号源で多様な音声現象をうま
く表現することができる音響モデルを高速で自動的に生
成することができるという効果がある。

【図面の簡単な説明】

【図１】本発明の音声認識用音響モデル生成方法の一実
施例のメカニズムを説明するためのフローチャート図で
ある。

【符号の説明】

１初期モデル作成ステップ２処理過程で生成されるモデル例の作成ステップ３融合すべき信号源の選定ステップ４信号源の融合ステップ５分割すべき信号源の選定ステップ６信号源共有構造の組み替えステップ７音素コンテキスト方向への状態分割ステップ８時間方向への状態分割ステップ９モデルの再学習ステップ１０分布形状の変更ステップ

Claims

【特許請求の範囲】

【請求項１】音声の特徴パターンの微小時間内での形状
である音声の静的特徴およびその時間的な変化である音
声の動的特徴を１つの出力確率分布と１組の状態遷移確
率から成る信号源の連鎖としてモデル化した隠れマルコ
フモデルを用いる音声情報処理のための、音素コンテキ
ストに依存した音響モデル生成方法であって、少ない信
号源を持つ初期モデルに対する信号源の分割処理または
融合処理を逐次選択しながら繰り返すことによって、モ
デルの単位である音素コンテキストカテゴリ、各モデル
を表現するために用いる状態の数と複数モデル間での共
有関係、複数状態間での各信号源の共有関係、および各
出力確率分布の形状を、すべて共通の評価基準の下で決
定する音声認識用音響モデル生成方法において、単一ガウス分布モデルを基礎として、２つの融合対象信
号源の持つ２つの単一ガウス分布を１つの単一ガウス分
布に融合することにより、前記信号源の融合処理を行う
と共に、分割対象信号源の持つ１つの単一ガウス分布を１つの２
混合ガウス分布に再形成した後、２つの単一ガウス分布
に分割することにより、前記信号源の分割処理を行うこ
とを特徴とする音声認識用音響モデル生成方法。
【請求項２】請求項１に記載の音声認識用音響モデル生
成方法において、分割対象信号源の持つ１つの単一ガウ
ス分布を１つの２混合ガウス分布に再形成する前記分割
処理は、尤度計算時に分割対象信号源を使用する全学習サンプル
に対してビタビアルゴリズムにより状態経路を計算し、計算された状態経路に基づいて分割対象信号源上に割り
当てられている学習サンプルの全フレームを抽出し、抽出された学習サンプルの全フレームのデータに対する
ベクトル量子化により、２つのガウス分布を形成するこ
とを特徴とする音声認識用音響モデル生成方法。