JPH0997096A - 音声認識用音響モデル生成方法 - Google Patents

音声認識用音響モデル生成方法

Info

Publication number
JPH0997096A
JPH0997096A JP7274693A JP27469395A JPH0997096A JP H0997096 A JPH0997096 A JP H0997096A JP 7274693 A JP7274693 A JP 7274693A JP 27469395 A JP27469395 A JP 27469395A JP H0997096 A JPH0997096 A JP H0997096A
Authority
JP
Japan
Prior art keywords
model
signal sources
signal source
gaussian distribution
divided
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7274693A
Other languages
English (en)
Inventor
Junichi Takami
淳一 鷹見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP7274693A priority Critical patent/JPH0997096A/ja
Publication of JPH0997096A publication Critical patent/JPH0997096A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 必要最小限の信号源で多様な音声現象をうま
く表現することができる音響モデルを高速で自動的に生
成することができなかった。 【解決手段】 単一ガウス分布モデルを基礎として、2
つの融合対象信号源の持つ2つの単一ガウス分布を1つ
の単一ガウス分布に融合することにより、信号源の融合
処理を行うと共に、分割対象信号源の持つ1つの単一ガ
ウス分布を1つの2混合ガウス分布に再形成した後、2
つの単一ガウス分布に分割することにより、前記信号源
の分割処理を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識用音響モ
デル生成方法に係り、特に隠れマルコフモデル(Hidden
Markov Model:HMM)を用いた音声認識において、必
要最小限のモデルパラメータで最大限の音声現象をモデ
ル化するための各モデルの単位、状態ネットワークの構
造、信号源の複数状態間での共有構造および信号源のパ
ラメータを最適に決定するような音声認識用音響モデル
生成方法に関するものである。
【0002】
【従来の技術】HMMを用いての高精度かつ頑健な音声
認識を行なうためには、モデルの詳細さと頑健性を如何
にして両立させるかが重要な課題となる。モデルの詳細
化のためには、音声空間全体を覆い尽くすような音素コ
ンテキストカテゴリを適切に決める必要があり、限られ
た学習用音声サンプルから頑健性の高いモデルを推定す
るためには、モデルパラメータの冗長性を削減し、必要
最小限のモデルパラメータで音声の本質的な情報のみを
効率良く表現するようなメカニズムを導入する必要があ
る。
【0003】このような必要性から、状態分割のみによ
り適切なモデルを生成するための「逐次状態分割法(Su
ccessive State Splitting:SSS)」が開発されてい
るが、状態に対する逐次2分割のみの処理では、達成で
きる状態ネットワークの構造に限界があり、モデルパラ
メータの冗長性を完全に除去することができなかった。
【0004】そこで、本発明者は、特願平6−2841
35号にて、状態に対する逐次2分割のみでモデルの生
成を行なうSSSの欠点を克服するために、信号源に対
する分割処理と融合処理を同時に実現し、それらのうち
の一方を逐次選択しながら処理を進めることで、SSS
の利点を失うことなく、任意の状態ネットワークの構造
の実現を可能にし、必要最小限のモデルパラメータで最
大限の音声現象を高精度かつ頑健に表現することのでき
る表現効率の高い音声認識用音響モデルの生成方法を提
供した。
【0005】
【発明が解決しようとする課題】しかし、特願平6−2
84135号の実施例で示した方法は、混合数2の混合
ガウス分布モデルを基礎(ベース)とする方式で、一組
(2つ)の融合対象信号源の持つ2つの2混合ガウス分
布を1つの2混合ガウス分布に融合する信号源融合処理
や、分割対象信号源の持つ1つの2混合ガウス分布を2
つの単一ガウス分布に分割した後、それぞれを改めて2
混合ガウス分布に再形成する信号源分割処理を行ってい
た。
【0006】ところが、一般的に、混合ガウス分布モデ
ルの学習は、単一ガウス分布モデルの学習に比べて、多
くの時間を費やさなければならないことが知られてお
り、特願平6−284135号に記載されている方法に
おいても多くの時間を費やさなければならなかった。
【0007】そこで、本発明は、信号源に対する分割処
理と融合処理とを同時に実現し、それらのうちの一方を
逐次選択しながら処理を進めることで、SSSの利点を
失うことなく、任意の状態のネットワーク構造を実現可
能にし、また、必要最小限のモデルパラメータで最大限
の音声現象を高精度かつ頑健に表現することのできる表
現効率の高い音声認識用音響モデルの生成方法を提供し
て、単一ガウス分布モデルをベースとした高速な学習を
可能にすることを目的とする。
【0008】
【課題を解決するための手段】上記目的を達成するため
の手段として、初期モデルと、融合処理あるいは分割処
理の対象となるモデルとを単一ガウス分布モデルとして
形成し、分割処理を行う際に、一時的に2混合ガウス分
布を作り出すことによって学習処理の高速化を実現しよ
うとするものである。
【0009】そして、本発明は、信号源の融合と分割と
を全学習用サンプルに対する評価値の最大化という基準
の下で行なうことによって、信号源数は局所的には増減
しながら、大局的には徐々に増加していく。
【0010】その結果、モデルの精密化が逐次的に行な
われ、最終的には、各モデルの単位や状態ネットワーク
の構造、信号源の複数状態間での共有構造および出力確
率分布のパラメータが、すべて共通の評価基準の下で最
適に決定された音響モデルを、従来法に比べて高速に自
動生成することができる。
【0011】
【発明の実施の形態】図1は本発明の音声認識用音響モ
デルの生成方法の概要を説明するためのフローチャート
図である。本発明は、音声の特徴パターンの微小単位時
間内での形状(音声の静的特徴)およびその時間的な変
化(音声の動的特徴)を複数の信号源の連鎖として表現
した確率モデルに対して、共通の評価基準(尤度最大
化)に基づいて個々の出力確率分布を融合あるいは分割
するといった処理を繰り返すことによって、モデルの単
位と状態ネットワークの構造、信号源の複数状態間での
共有構造および出力確率分布のパラメータを同時かつ自
動的に決定することができる。
【0012】以降、図1を参照して、より具体的に説明
する。まず、初期モデルとして小規模なモデル(モデル
全体で使用されている信号源の総数M=1)を用意する
(ステップ1)。これは例えば、1個の状態(固有の音
素コンテキストカテゴリに対応付けられたモデル構成上
の概念)と1個の信号源(単一ガウス分布で表現された
出力確率分布および状態遷移確率からなるモデルの最小
構成要素)を有するものである。そして、以降の処理
は、この信号源に対して、分割と融合とが繰り返し行な
われる。さらに、信号源数が1の時点での総尤度を現す
P(1) に、学習時に計算された総尤度を代入して、ステ
ップ2に例示されるようなモデル(信号源数M=4で、
その状態が信号源を共有していないモデル)を形成す
る。
【0013】本方法の実行中に形成されるモデルは、隠
れマルコフ網(Hidden Markov Network:HMnet)と
呼ばれ、複数の状態のネットワークとして表すことがで
きる。HMnetは、以下の情報により構成されてい
る。
【0014】(1)HMnetの構成要素: ・信号源の集合。 ・状態の集合。 (2)信号源の構成要素: ・信号源の番号(インデックス)。 ・出力確率分布(対角共分散行列表現の単一ガウス分
布)。 ・自己ループ確率および次状態への遷移確率。 (3)状態の構成要素: ・状態の番号(インデックス)。 ・信号源へのポインタ(信号源番号)。 ・受理可能な音素環境カテゴリ(音素環境要因の直積空
間として定義)。 ・先行状態および後続状態のリスト。
【0015】融合すべき信号源の選択(ステップ3)で
は、信号源間の類似性を判定するために、融合処理によ
って生成される信号源の出力確率分布の大きさを評価尺
度として利用する。即ち、2つの信号源Q(i) とQ(j)
の全ての組合せに対し、それらの出力確率分布(共に単
一分布)を融合した場合の分布の大きさDijを、式
(1)によって近似的に求める。
【0016】
【数1】
【0017】Dijの値が最小となる二つの信号源Q(i)
およびQ(j) を、融合処理の対象として選択する。信号
源の融合(ステップ4)は、2つの信号源Q(i) とQ
(j) とを融合し、新たな信号源Q(I) を作成することで
行なう。Q(I) の出力確率分布の平均値μIk、分散σIk
2 は、それぞれ以下の式(4),(5)で計算できる。
【0018】
【数2】
【0019】また、Q(I) の自己遷移確率aI selfと後
続状態への遷移確率aI nextには、式(6)および式
(7)で求められる値をそれぞれ使用する。
【0020】
【数3】
【0021】この処理で得られたQ(I) は、融合前にQ
(i^) 、あるいはQ(j^) が割り当てられていた全ての
状態で共有化する。そのための処理として、信号源への
ポインタの値が i^または j^となっているすべての状
態に対し、その値をI に置き換える。この処理によっ
て、モデル全体での信号源の数は一時的にM−1とな
る。
【0022】この時点で、信号源に対する融合処理の結
果得られたモデルを採用するか否かの判定を行なう。融
合処理結果は、融合処理後のモデルから得られる総尤度
(これをP'(M-1)と表す)が、これ以前の処理過程で既
に計算されている、総分布数がM−1の時点での尤度P
(M-1) を越える場合にのみ採用される。この場合は、M
の値をM−1に変更してモデルの再学習の処理へ進む
(ステップ9へ)。融合処理の結果が採用されなかった
場合には、改めて融合処理を行なう前のモデル(ステッ
プ2のモデル)を対象とした分割処理のフェーズに入る
(ステップ5へ)。
【0023】そして、実際の分割に先だって、分割の対
象となる信号源の選定(ステップ5)を行なう。すべて
の信号源Q(i) に対して、その信号源の大きさdi を式
(8)により算出し、di の値の最も大きい信号源(こ
れをQ(i^) とする)を分割対象として選定する。
【0024】
【数4】
【0025】次に、Q(i^) をQ(I) とQ(J) の二つの
信号源に分割する。このための処理として、まず、尤度
計算時にQ(i^) を使用する全学習サンプルに対してビ
タビ(Viterbi) アルゴリズムを適用し、各サンプルの状
態経路を求める。
【0026】次に、求められた状態経路に基づき、Q(i
^) に対応付けられた学習サンプルの全てのフレームを
抽出する。その後、抽出された学習サンプルの全フレー
ムのデータをベクトル量子化により2つのグループに分
け、各グループ毎に、平均値および分散を求める。最後
に、分割された二つの信号源に対して、得られた各グル
ープの分布のそれぞれ一方を出力確率分布として割り当
て、Q(i^) の自己遷移確率および後続状態への遷移確
率の値をそのまま複写する。また、Mの値をM+1に変
更する。
【0027】この処理で、信号源の分割が完了する。な
お、信号源を分割した場合には、状態の再構成を同時に
行なう必要がある。状態の再構成は、信号源の共有構造
のみの組替えにより達成される最大尤度PD 、一つの状
態を音素環境方向に分割した場合に達成される最大尤度
PC 、一つの状態を時間方向に分割した場合に達成され
る最大尤度PT のうち、より大きい値を示すものを採用
するといった方法で行なわれる。
【0028】信号源の共有構造のみの組替え(ステップ
6)は、分割対象となった信号源Q(i^) が、複数の状
態で共有されているものであった場合にのみ行う必要が
ある。この場合、これ以降の状態分割処理は、すべてこ
こでの処理の結果得られたモデルに対して継続して行な
う。また、Q(i^) がただ一つの状態でのみ使用されて
いるものである場合には、ここでの処理を省略し、PD
の値を負の無限大(−∞)として次の処理に進む。
【0029】信号源Q(i^) へのポインタを有する状態
の集合をSと表す。ここでは、Sの要素に対して、Q
(I) とQ(J) のいずれか一方を割り当てることで、信号
源共有構造の組替えを行なう。この割り当ては、式
(9)で計算される最大値PD を求めることによって行
なわれる。
【0030】
【数5】
【0031】PD の値が求められた時点で、psI(Ys
)>psJ(Ys )ならば状態sにQ(I) を、そうでな
ければ状態sにQ(J) を割り当てる。音素環境方向への
状態分割は、Sの要素の中の一つの状態sを二つの状態
に分割し、それらを並列に結合することにより行う。
【0032】この場合、分割対象となった状態を通る経
路で表現されている学習用サンプルを、新たに生成され
る状態を通る2通りの経路に振り分ける必要がある。こ
の振り分けは、状態sと、状態sにおいて分割可能な音
素環境要因(二つ以上の要素を持つ要因)fに関して、
式(10)によって計算されるPC を最大化するような
状態s^と要因f^とを求め、f^に属する要素を分割
することにより行う。
【0033】
【数6】
【0034】分割すべき状態s^と、要因f^とが求め
られた時点で、f^の要素a s^ f^e をどちらの経路
に振り分けるかは、式(10)を計算する過程で既に得
られているqI(y s^ f^e ) およびqJ(y s^ f^e
) の値を用い、式(11)に従って決定する。
【0035】
【数7】
【0036】AIf^およびAJf^を定めた後、状態s^
を分割して新たに生成された二つの状態S(I')、および
S(J')に対して、以下の処理を行なう。まず、これらの
状態の信号源へのポインタに、それぞれIおよびJを代
入する。次に、それらの音素環境情報として、要因f^
に関する部分にはそれぞれAIf^およびAJf^を割当
て、f^以外の要因fには、分割前の状態sで保有され
ていた要因fの内容をそのまま複写する。以上で、音素
環境方向への状態分割が完了する。時間方向への状態分
割(ステップ8)は、Sの要素の中の一つの状態sを二
つの状態に分割し、それらを直列に結合することにより
行う。この場合、Q(I) とQ(J) のどちらを前方の状態
に割り当てるかによって2通りの可能性が考えられる。
そこで、式(12)によって計算されるPT を最大化す
るような状態s^と信号源の適用順序を決定する。
【0037】
【数8】
【0038】この後、状態s^を分割して新たに生成さ
れた二つの状態S(I')およびS(J')に対して以下の処理
を行なう。まず、これらの状態の信号源へのポインタ
に、それぞれIおよびJを代入する。次に、rI (Y s
^)>rJ (Y s^)ならば状態S(I')を前方に位置付
けて、そうでなければ状態S(J')を前方に位置付けて、
ネットワーク構造を再構成する。最後に、それらの音素
環境情報として、分割前の状態s^で保有されていた内
容をそのまま複写する。以上で、時間方向への状態分割
が完了する。
【0039】この時点で形成されているHMnetの信
号源は、一部の信号源に対する融合処理や分割処理の結
果、モデル全体としての最適性が崩されている可能性が
高い。そこで、信号源全体のパラメータを最適化し、次
の繰り返し処理に備えるために、融合処理あるいは分割
処理の影響が及ぶ範囲内にあるすべての信号源に対し
て、その出力確率分布および状態遷移確率を再学習(ス
テップ9)する。
【0040】その後、P(M) に学習の結果達成された総
尤度を代入し、モデル全体での信号源数Mが所定の値に
達するまで信号源に対する融合処理と分割処理を続け
る。ここまでの処理で、HMnetの構造が決定され
る。この時点での各信号源の出力確率分布は、すべて単
一ガウス分布が割り当てられている。そこで最後に、そ
れらの出力確率分布を、最終的に使用したい形状に変更
するための学習(ステップ10)をHMnet全体に対
して行なう(単一ガウス分布のまま使用する場合には、
この処理は不用)。以上でHMnet の生成が完了する。
【0041】
【発明の効果】本発明の音声認識用音響モデル生成方法
は、信号源の融合と分割を逐次選択しながら繰り返して
いるので、必要最小限の信号源で多様な音声現象をうま
く表現することができる音響モデルを高速で自動的に生
成することができるという効果がある。
【図面の簡単な説明】
【図1】本発明の音声認識用音響モデル生成方法の一実
施例のメカニズムを説明するためのフローチャート図で
ある。
【符号の説明】
1 初期モデル作成ステップ 2 処理過程で生成されるモデル例の作成ステップ 3 融合すべき信号源の選定ステップ 4 信号源の融合ステップ 5 分割すべき信号源の選定ステップ 6 信号源共有構造の組み替えステップ 7 音素コンテキスト方向への状態分割ステップ 8 時間方向への状態分割ステップ 9 モデルの再学習ステップ 10 分布形状の変更ステップ

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】音声の特徴パターンの微小時間内での形状
    である音声の静的特徴およびその時間的な変化である音
    声の動的特徴を1つの出力確率分布と1組の状態遷移確
    率から成る信号源の連鎖としてモデル化した隠れマルコ
    フモデルを用いる音声情報処理のための、音素コンテキ
    ストに依存した音響モデル生成方法であって、少ない信
    号源を持つ初期モデルに対する信号源の分割処理または
    融合処理を逐次選択しながら繰り返すことによって、モ
    デルの単位である音素コンテキストカテゴリ、各モデル
    を表現するために用いる状態の数と複数モデル間での共
    有関係、複数状態間での各信号源の共有関係、および各
    出力確率分布の形状を、すべて共通の評価基準の下で決
    定する音声認識用音響モデル生成方法において、 単一ガウス分布モデルを基礎として、2つの融合対象信
    号源の持つ2つの単一ガウス分布を1つの単一ガウス分
    布に融合することにより、前記信号源の融合処理を行う
    と共に、 分割対象信号源の持つ1つの単一ガウス分布を1つの2
    混合ガウス分布に再形成した後、2つの単一ガウス分布
    に分割することにより、前記信号源の分割処理を行うこ
    とを特徴とする音声認識用音響モデル生成方法。
  2. 【請求項2】請求項1に記載の音声認識用音響モデル生
    成方法において、分割対象信号源の持つ1つの単一ガウ
    ス分布を1つの2混合ガウス分布に再形成する前記分割
    処理は、 尤度計算時に分割対象信号源を使用する全学習サンプル
    に対してビタビアルゴリズムにより状態経路を計算し、 計算された状態経路に基づいて分割対象信号源上に割り
    当てられている学習サンプルの全フレームを抽出し、 抽出された学習サンプルの全フレームのデータに対する
    ベクトル量子化により、2つのガウス分布を形成するこ
    とを特徴とする音声認識用音響モデル生成方法。
JP7274693A 1995-09-28 1995-09-28 音声認識用音響モデル生成方法 Pending JPH0997096A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7274693A JPH0997096A (ja) 1995-09-28 1995-09-28 音声認識用音響モデル生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7274693A JPH0997096A (ja) 1995-09-28 1995-09-28 音声認識用音響モデル生成方法

Publications (1)

Publication Number Publication Date
JPH0997096A true JPH0997096A (ja) 1997-04-08

Family

ID=17545261

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7274693A Pending JPH0997096A (ja) 1995-09-28 1995-09-28 音声認識用音響モデル生成方法

Country Status (1)

Country Link
JP (1) JPH0997096A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000014723A1 (fr) * 1998-09-09 2000-03-16 Asahi Kasei Kabushiki Kaisha Dispositif de reconnaissance de la parole
CN112466298A (zh) * 2020-11-24 2021-03-09 网易(杭州)网络有限公司 语音检测方法、装置、电子设备和存储介质
CN113571063A (zh) * 2021-02-02 2021-10-29 腾讯科技(深圳)有限公司 语音信号的识别方法、装置、电子设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000014723A1 (fr) * 1998-09-09 2000-03-16 Asahi Kasei Kabushiki Kaisha Dispositif de reconnaissance de la parole
KR100415217B1 (ko) * 1998-09-09 2004-01-16 아사히 가세이 가부시키가이샤 음성인식 장치
US6868382B2 (en) 1998-09-09 2005-03-15 Asahi Kasei Kabushiki Kaisha Speech recognizer
CN112466298A (zh) * 2020-11-24 2021-03-09 网易(杭州)网络有限公司 语音检测方法、装置、电子设备和存储介质
CN112466298B (zh) * 2020-11-24 2023-08-11 杭州网易智企科技有限公司 语音检测方法、装置、电子设备和存储介质
CN113571063A (zh) * 2021-02-02 2021-10-29 腾讯科技(深圳)有限公司 语音信号的识别方法、装置、电子设备及存储介质
CN113571063B (zh) * 2021-02-02 2024-06-04 腾讯科技(深圳)有限公司 语音信号的识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107644630B (zh) 基于神经网络的旋律生成方法、装置及存储介质
Roberts et al. A hierarchical latent vector model for learning long-term structure in music
Zen et al. Statistical parametric speech synthesis using deep neural networks
US5677988A (en) Method of generating a subword model for speech recognition
US5812975A (en) State transition model design method and voice recognition method and apparatus using same
CN106971709A (zh) 统计参数模型建立方法和装置、语音合成方法和装置
JP2980228B2 (ja) 音声認識用音響モデル生成方法
CN113010730B (zh) 音乐文件生成方法、装置、设备及存储介质
CN110349597A (zh) 一种语音检测方法及装置
CN110047462B (zh) 一种语音合成方法、装置和电子设备
EP4030421A1 (en) Method for converting voice feature of voice
CN111462761A (zh) 声纹数据生成方法、装置、计算机装置及存储介质
Ronanki et al. Median-based generation of synthetic speech durations using a non-parametric approach
CN114373480A (zh) 语音对齐网络的训练方法、语音对齐方法及电子设备
CN111488460A (zh) 数据处理方法、装置和计算机可读存储介质
US20090222266A1 (en) Apparatus, method, and recording medium for clustering phoneme models
JPH0997096A (ja) 音声認識用音響モデル生成方法
CN117334271A (zh) 一种基于指定属性生成分子的方法
CN110047463B (zh) 一种语音合成方法、装置和电子设备
KR20170128070A (ko) 순환형 신경망에 기반한 작곡 방법
WO2020071213A1 (ja) 音響モデル学習装置、音声合成装置、及びプログラム
CN114242032A (zh) 语音合成方法、装置、设备、存储介质及程序产品
Hoshi et al. Versatile Automatic Piano Reduction Generation System by Deep Learning
JP2022526668A (ja) オーディオ・ビジュアル合成のためのデュレーション・インフォームド・アテンション・ネットワーク(duran)を用いる方法、デバイス及びコンピュータ・プログラム
Ramos et al. Comparative study of genetic algorithm and ant colony optimization algorithm performances for the task of guitar tablature transcription