JPH04227569A

JPH04227569A - 多辺マルコフで単語をモデル化する方法と装置

Info

Publication number: JPH04227569A
Application number: JP3083514A
Authority: JP
Inventors: Lalit R Bahl; ラリト　アール．　バール; Jerome R Bellegarda; ジェロム　アール．　ベレガーダ; Souza Peter V De; ピーター　ヴィンセント　デ　ソウザ; Ponani S Gopalakrishnan; ポナニ　エス．　ゴパラクリシュナン; Nahamoo David; デヴィッド　ナハムー; Michael A Picheny; マイケル　アラン　ピチェニー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1990-04-25
Filing date: 1991-03-22
Publication date: 1992-08-17
Anticipated expiration: 2012-12-24
Also published as: EP0453649A2; EP0453649B1; US5129001A; JP2694062B2; EP0453649A3; DE69028842D1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、自動音声認識に使用さ
れる単語（ワード）の音響モデルの生成に関する。

【０００２】

【従来の技術】ヒドン・マルコフ・モデル（ＨＭＭ）を
使用する単語の音響モデル化は、例えば、米国特許第４
、７５９、０６８号に記載されている。その特許に記載
された音声認識システム、及び他の音声認識システムに
おいて、認識装置用語範囲内の各単語のための音響モデ
ルは、要素モデルの有限集合（有限アルファベット）か
ら選択された１以上の要素モデルを連結することによっ
て構成される。各要素モデルが１単語のある一つの部分
を表現するので、要素モデルの比較的小さな集合（アル
ファベット）から複数単語の大きな用語範囲（ボキャブ
ラリー）内の各単語のためのモデルを構成することが可
能である。

【０００３】単語の比較的大きな用語範囲内の各単語の
ために音響モデルを組み立てる際に、要素モデルの比較
的小さな集合（アルファベット）の使用は、少なくとも
２つの利点を有する。第１に、要素モデルの全体的な集
合（アルファベット）の構造とパラメータ及び要素モデ
ルの集合（アルファベット）から各単語モデルを組み立
てるのに必要な情報を記憶するのに要求される電子記憶
の量は、用語範囲内の各単語用の全体の音響モデルの構
造とパラメータを記憶するのに要求される電子記憶の量
よりかなり少ない。第２に、要素モデルの集合（アルフ
ァベット）が単語の用語範囲よりずっと小さいので、新
しい話者は、比較的小数の単語を発音することによって
話者の声に対する要素モデルの全体的な集合（アルファ
ベット）を学習することができる。

【０００４】上述に記載された利点にもかかわらず、要
素モデルの有限集合（アルファベット）から単語の音響
モデルを組み立てる公知の方法においては、発音が単一
の要素モデルによっては適切に表現されない単語の部分
があることが発見されている。

【０００５】

【発明が解決しようとする課題】本発明の目的は、単語
の発音の変動をより厳密に表現する単語の音響モデルを
生成することである。

【０００６】本発明の目的は、語の各部分の発音をより
正確に表現するように、要素モデルの有限集合又は有限
集合（アルファベット）から１単語の音響モデルを組み
立てることである。

【０００７】本発明のもう１つの目的は、新しい話者に
音声認識システムの用語範囲内の比較的小数の単語のみ
を発音させることによって新しい話者の声に対して学習
されうる改良された単語の音響モデルを組み立てること
である。

【０００８】

【課題を解決するための手段】本発明に従って、単語を
モデル化する方法は、ｎ個の音声構成要素の有限集合を
定義することからなり、ここでｎは２以上の整数である
。原始要素モデルは各構成要素に与えられる。各原始要
素モデルは、開始状態を有し、かつ、ある値を有する少
なくとも１つの開始を有する。異なる音声構成要素の少
なくとも第１と第２の原始要素モデルの開始状態は、そ
れぞれ、少なくとも第１と第２の重み係数を有する複合
要素モデルを形成するために組み合わされる。各重み係
数はある先の値を有する。その原始要素モデルは、重み
係数の値に比例してそれらのパラメータの重み付けされ
た組合せによって組み合わされる。

【０００９】一連の要素モデルは、ある単語モデルを形
成するために連結される。前記一連の要素モデル中の少
なくとも１つの要素モデルは、複合要素モデルである。好ましくは、単語モデルを形成する要素モデルの全ては
、複合要素モデルである。

【００１０】単語モデルの形成前又は後で、単語は１回
以上発音される。単語の各発音は、構成要素音の観測さ
れた順序を生成する。

【００１１】第１と第２の重み係数の先の値と第１と第
２の原始要素モデルのパラメータの値とから、第１の原
始要素モデルの発生の条件付き確率は、複合要素モデル
の発生と構成要素音の観測された順序の発生とが与えら
れて、推定される。第１の重み係数用の後の値は、この
条件付き確率から推定される。

【００１２】本発明の一態様において、その条件付き確
率は、第１と第２の重み係数の先の値と第１と第２の原
始要素モデルのパラメータの値とから、複合要素モデル
の発生の確率を、構成要素音の観測された順序の発生が
与えられて、推定すること、及び第１と第２の重み係数
の先の値と第１と第２の原始要素モデルのパラメータの
値とから、第１の原始要素モデルと複合要素モデルの発
生の結合確率を、構成要素音の観測された順序の発生が
与えられて、推定することによって推定される。その条
件付き確率は、複合要素モデルの発生の確率に対する結
合確率の比として、構成要素音の観測された順序が与え
られて、推定される。

【００１３】複合要素モデルの発生の確率は、構成要素
音の観測された順序での各構成要素音用に、構成要素音
の観測された順序の発生が与えられて構成要素音が複合
要素モデルによって、生成された確率を推定することに
よって得られうる。その結合確率は、構成要素音の観測
された順序での各構成要素音用に、構成要素音が、第１
の原始要素モデルと複合要素モデルによって、構成要素
音の観測された順序の発生が与えられて、生成された確
率を推定することによって得られうる。

【００１４】第１と第２の重み係数の先の値と第１と第
２の原始要素モデルのパラメータの値とから、第２の原
始要素モデルの発生の条件付き確率は、複合要素モデル
の発生と構成要素音の観測された順序の発生とが与えら
れて、推定される。第２の重み係数用の後の値は、第２
の条件付き確率から推定される。

【００１５】好ましくは、第１と第２の原始要素モデル
の開始状態は、線型に重み付けされた組合せによって組
み合わされる。

【００１６】重み係数を判断する際に、単語が複数回、
複数人の異なる話者によって発音されることもまた好ま
しい。

【００１７】本発明の一態様において、各要素モデルの
パラメータの値は、ある構成要素音を生成する確率を表
現する。

【００１８】本発明に従う単語をモデル化する装置は、
ｎ個の原始要素モデルの有限集合を記憶する装置を有す
る。また、次のような装置も与えられる。それは、異な
る音声構成要素の少なくとも第１と第２の原始要素モデ
ルの開始状態を組み合わせて複合要素モデルを形成する
装置、及び一連の要素モデルを連結してある単語モデル
を形成する装置である。前記一連の要素モデル中の少な
くとも１個の要素モデルは、複合要素モデルである。

【００１９】前記装置は、単語の１以上の発音の少なく
とも１つの特徴の値を測定する装置をさらに含む。各発
音は、１連の連続する時間間隔に渡って発生する。前記
測定する装置は、各時間間隔中に発音の特徴値を測定し
、特徴値を表現する観測された音響ベクトル信号の順序
を生成する。

【００２０】最後に、前記装置は、第１と第２の重み係
数の先の値と第１と第２の原始要素モデルのパラメータ
の値とから、第１の原始要素モデルの発生の条件付き確
率を、複合要素モデルの発生と音響ベクトル信号の観測
された順序の発生とが与えられて、推定する装置を含む
。条件付き確率から第１の重み係数用に後の値を推定す
る装置も、与えられる。

【００２１】

【実施例】図１を参照して、本発明に従う単語をモデル
化する方法と装置は、ｎ個の音声構成要素の有限集合か
ら開始する。ここで、ｎは２以上の整数である。前記音
声構成要素は、例えば、音声学上の音声構成要素であり
、それらの各々は、英語のアルファベットの単一文字に
よって生成された音に一般的に対応する。その代わり、
各音声構成要素は、固定時間間隔中に１以上の構成要素
音を生成する測定可能な確率分布を有する音声の単位と
して定義されうる。後者の場合に、音声構成要素の集合
（アルファベット）は、例えば、１０ミリ秒時間毎に２
１０個の音声構成要素からなり得る。

【００２２】音声構成要素の集合又は集合（アルファベ
ット）中の各音声構成要素は、原始要素モデルでモデル
化される。各原始要素モデルは、開始状態とある値を有
する少なくとも１つのパラメータとを有する。パラメー
タの値は、構成要素音を生成する確率を表現する。

【００２３】図２は、音声構成要素用に原始要素マルコ
フ・モデルの一例を示す。前記モデルは、開始状態Ｓｍ
ｉと終了状態Ｓｍｆを有する。この例で、原始要素モデ
ルは、４つのパラメータを備えている。原始要素モデル
は、それぞれ、開始状態から終了状態への変換と開始状
態から開始状態へ戻る変換の確率を表現する変換確率Ｐ
パラメータ（Ｓｍｆ｜Ｓｍｉ）とＰ（Ｓｍｉ｜Ｓｍｉ）
を有する。この例での原始要素モデルはまた、それぞれ
、開始状態から終了状態への変換上と開始状態から開始
状態へ戻る変換上にある出力Ａを生成する確率を表現す
るパラメータｑ（Ａ｜Ｓｍｉ→Ｓｍｆ）とｑ（Ａ｜Ｓｍ
ｉ→Ｓｍｉ）を有する。

【００２４】音声構成要素用の原始要素モデルの場合に
、モデルパラメータは、１以上の構成要素音を出力する
確率を決定する。構成要素音は、例えば、１以上の分離
又は連続する範囲内にある測定された特徴を有する単一
音又は音の集合である。

【００２５】図１に戻って、異なる音声構成要素の少な
くとも第１と第２の原始要素モデルの開始状態は、複合
要素モデルを形成するために組み合わされる。図３は、
２個の原始要素モデルＭ１　とＭ２　を組み合わせるこ
とによって形成された複合要素モデルＭｃ　の一例を示
す。この例で、原始要素マルコフ・モデルＭ１　の開始
状態Ｓ１ｉは、原始要素マルコフ・モデルＭ２　の開始
状態Ｓ２ｉと組み合わされ、複合要素モデルＭｃ　の開
始状態Ｃｉ　を形成している。

【００２６】複合要素モデルは、それぞれ、第１と第２
の原始要素モデル用に少なくとも第１と第２の重み係数
を有する。各重み係数Ｗ１　とＷ２　は、それぞれ、Ｗ
０１とＷ０２の先の値を有する。

【００２７】原始要素モデルＭ１　とＭ２　は、重み係
数の値に比例するそれらのパラメータの重み付けされた
組合せによって組み合わされ、複合要素モデルを形成す
る。従って、例えば、複合要素モデルの開始状態から複合要
素モデルの終了状態への変換の確率、Ｐ（Ｃｆ　｜Ｃｉ
　）は、第１のモデルＭ１　の開始状態から終了状態へ
の変換の確率と第２のモデルＭ２　の開始状態から終了
状態への変換の確率の線型加重和に等しいので、Ｐ（Ｃ
ｆ　｜Ｃｉ　）＝Ｗ１　Ｐ（Ｓ１ｆ｜Ｓ１ｉ）＋Ｗ２　
Ｐ（Ｓ２ｆ｜Ｓ２ｉ）となる。複合要素モデルＭｃ　の
パラメータは、図３に示される。

【００２８】２１０個の原始要素モデルの集合又は集合
（アルファベット）用に、各複合要素モデルを、全ての
２１０個の原始要素モデルの重み付けられた組合せによ
って組み立てることは可能である。しかしながら、実際
は、最も大きな重み係数を有するそれら５個又は１０個
の原始要素モデルの重み付けられた組合せとして各複合
要素モデルを組み立てることが、受入れ可能であると発
見されている。重み係数の推定は、以下に記載されよう
。

【００２９】一連の要素モデルは、単語モデルを形成す
るために連結される。（図１。）前記一連の要素モデル
中の少なくとも１個の要素モデルは、複合要素モデルで
ある。

【００３０】図４は、一連の３個の要素モデルＭ３　Ｍ
ｃ　Ｍ３　を連結することによって形成された単語モデ
ルの実例を示す。

【００３１】単語が発音される場合に生成される音を厳
密に表現する単語モデルを生成するために、単語は１回
以上発音される。（図１。）単語の各発音は、構成要素
音の観測された順序を生成する。単語の発音における変
動を厳密に表現する単語モデルを得るために、単語は、
複数の異なる話者によって複数回発音される。

【００３２】第１と第２の重み係数の先の値と第１と第
２の原始要素モデルのパラメータの値とから、第１の原
始要素モデルの発生の条件付き確率は、複合要素モデル
の発生と構成要素音の観測された順序の発生とが与えら
れて、推定されうる。（図１。）以下により詳細に記載
される通り、フォワード−バックワード・アルゴリズム
（Ｆｏｒｗａｒｄ−Ｂａｃｋｗａｒｄ　　ａｌｇｏｒｉ
ｔｈｍ）は、条件付き確率を推定するために使用されう
る一方法である。フォワード−バックワード・アルゴリ
ズムの一般的な記載は、例えば、フレドリック・ジェリ
ニック（Ｆｒｅｄｅｒｉｃｋ　　Ｊｅｌｉｎｅｋ）によ
る表題”統計的方法による連続音声認識”（ＩＥＥＥの
会報、第６４巻、１９７６年４月号、第５３７−５５６
頁）という記事にある。

【００３３】最後に、図１に示される通り、第１の重み
係数用の後の値は、条件付き確率から推定される。

【００３４】図５の流れ図は、本発明に従う単語をモデ
ル化する図１の方法の実施例であり、この方法で、全て
のｎ個の原始要素モデルの開始状態は、それぞれ、重み
係数Ｗｎ　によって組み合わせられ、複合要素モデルを
形成する。この場合、各重み係数用に更新された値は、
各原始要素モデルの発生の条件付き確率から、複合要素
モデルの発生と、構成要素音の観測された順序の発生が
与えられて、推定される。

【００３５】図６の流れ図は、より詳細に、条件付き確
率を推定するステップを記載する。構成要素音の観測さ
れた順序での各構成要素音用に、構成要素音が、複合要
素モデルによって、構成要素音の観測された順序の発生
が与えられて、生成された確率は、推定される。同様に
、構成要素音の観測された順序での各構成要素音用に、
構成要素音が、第１の原始要素モデルと複合要素モデル
によって、構成要素音の観測された順序の発生が与えら
れて、生成された確率もまた推定される。

【００３６】フォワード−バックワード・アルゴリズム
は、構成要素音の観測された順序における各構成要素音
用に先行する確率を推定するために使用されうる。ビテ
ルビ（Ｖｉｔｅｒｂｉ）・アルゴリズムは、要求された
推定を生成しない。ビテルビ・アルゴリズムは、構成要
素音が複合要素モデルによって生成された確率の２進（
１又は０の）推定を行うよう使用されうるのに、構成要
素音が原始要素モデルと複合要素モデルによって生成さ
れた確率を推定できない。

【００３７】更に、図６を参照して、構成要素音が全て
の構成要素音に渡って複合モデルによって生成された確
率を合計することによって、複合要素モデルの発生の確
率の推定が、構成要素音の観測された順序の発生が与え
られて、得られることができる。構成要素音が全ての構
成要素音に渡って第１の原始要素モデルと複合要素モデ
ルによって生成された確率を合計することによって、第
１の原始要素モデルと複合要素モデルの発生の結合確率
は、構成要素音の観測された順序の発生が与えられて、
推定されうる。ついで、第１の原始要素モデルの発生の
条件付き確率は、複合要素モデルの発生と構成要素音の
観測された順序の発生とが与えられて、構成要素モデル
の発生の確率に対する結合の確率の比として、構成要素
音の観測された順序が与えられて、推定されうる。

【００３８】第２の原始要素モデルの発生の条件付き確
率は、複合要素モデルの発生と構成要素音の観測された
順序の発生とが与えられて、第１の原始要素モデル用と
同様の方法で推定されうる。この第２の条件付き確率か
ら、第２の重み係数は推定されうる。

【００３９】上述に記載される通りのフォワード−バッ
クワード・アルゴリズムの使用に代わるものとして、原
始要素モデルの発生の条件付き確率を、複合要素モデル
の発生と構成要素音の観測された順序の発生とが与えら
れて、例えば、次の用に推定するために、ビテルビ・ア
ルゴリズムが使用されることができる。構成要素音の観
測された順序における各構成要素音用に、ビテルビ・ア
ルゴリズムは、構成要素音が複合要素モデルによって生
成された確率の２進（１又は０の）推定を行うよう使用
される。従って、複合要素モデルによって生成された通
り推定された各構成要素音用に、構成要素音を最も可能
に生成した原始要素モデルの推定が得られる。この後者
の推定は、複合要素モデルの初期重み係数と原始要素モ
デルのパラメータとから得られる。各原始要素モデル用
に、原始要素モデルの発生の条件付き確率は、複合要素
モデルの発生と構成要素音の観測された順序の発生とが
与えられて、原始要素モデルが観測された構成要素音を
最も可能に生成した複合要素モデルの発生の比として推
定される。

【００４０】図７は、本発明に従う単語をモデル化する
装置のブロック線図である。この装置は、ｎ個の原始要
素モデルの有限集合を記憶する装置１０を含む。ここで
、ｎは２以上の整数である。単語モデル発生器１２は、
複合要素モデルを形成するために、異なる音声構成要素
の少なくとも第１と第２の原始要素モデルの開始状態を
組合せ、かつ、少なくとも１個の複合構成要素を含む単
語モデルを形成するために、一連の要素モデルを連結す
る。

【００４１】単語の１以上の発声の少なくとも１つの特
徴の値を測定する装置は、例えば、マイクロフォン１４
、音響特徴測定装置１６、音響原型ベクトル記憶装置１
８及び比較器２０を有する。例えば、米国特許第４、７
１８、０９４号に記載される通り、音響特徴測定装置１
６は、マイクロフォン１４からの出力信号を受信し、か
つ、一連の連続する時間間隔の各々中で多数の選択され
た周波数帯域の各々における信号の振幅を測定する。ある時間間隔に対応する測定値は、選択された時間間隔
中に測定された音響特徴に最も整合される音響原型ベク
トルを発見するために、記憶装置１８中の音響原型ベク
トルの集合の各音響原型ベクトルと、比較器２０によっ
て比較される。この比較器２０は、発音の特徴値を表現
する観測された音響ベクトル信号（音響ラベル）の順序
を生成するために、各時間間隔に最も整合した音響原型
ベクトルを表現する音響ラベルを出力する。

【００４２】確率推定器２２は、第１及び第２の重み係
数の先の値と第１及び第２の原始要素モデルのパラメー
タの値とから、第１の原始要素モデルの発生の条件付き
確率を、複合要素モデルの発生と音響ベクトル信号の観
測された順序の発生とが与えられて、推定する。この条
件付き確率から、確率推定器２２は、第１の重み係数用
に後の値を推定する。

【００４３】図７に示される単語をモデル化する装置は
、例えば、マイクロフォン１４からの信号を解析する音
響特徴測定装置１６に高速フーリエ変換解析器を使用し
てもよい。前記装置の残存する要素は、例えば、１機以
上の汎用ディジタル計算機を適切にプログラムすること
によって形成されうる。

【００４４】単語モデルが本発明に従って生成された後
、その単語モデルは、例えば、電子記憶装置中に記憶さ
れる。各単語モデルは、そのパラメータの全て（すなわ
ち、単語モデルの状態の全て、単語モデルの状態間の変
換の確率の全て、及び単語モデルの各変換で構成要素音
を生成する確率の全て）のリストとして記憶されうる。しかしながら、単語の大きな用語範囲にとって、このよ
うに各単語モデルを記憶することは、多量なメモリを消
費することになる。

【００４５】好ましくは、各単語モデルは、代わりとし
て、そのパラメータによってではなく、例えば、（ｉ）
単語モデルを形成する複合要素モデルの数を記載し、（
ｉｉ）単語モデルを形成する複合要素モデルの列中の各
複合要素モデルの順序と識別を記載し、（ｉｉｉ）各複
合要素モデルを形成する原始要素モデルをリストし、か
つ、（ｉｖ）各複合要素モデル用に、原始要素モデルと
対応付けられた重み係数をリストする”青写真（ブルー
プリント）”として、記憶される。（例えば、認識され
るべき発音がその単語である確率を推定するために、等
の）単語モデルのパラメータを得ることが必要である場
合、その単語モデルのパラメータは、この”青写真”と
、原始要素モデルの記憶されたパラメータから計算され
うる。このように、原始要素モデルの数が用語範囲中の
単語の数よりずっと少ないならば、”青写真”として各
単語モデルを記憶することは、そのパラメータによって
各単語モデルを記憶することよりずっと少ないメモリを
消費する。しかしながら、記憶量削除要求に払われる対
価は、単語モデルが必要とされる各時間毎に単語モデル
のパラメータを計算するのに要求される余分な時間であ
る。

【００４６】ある単語の音響モデルの組立ての仮説的例
は、次に記載されよう。図４に示される通り、一連の要
素モデルＭ３　Ｍｃ　Ｍ３　は、少なくとも１個の複合
要素モデルを含むある単語モデルを形成するために連結
される。その単語は、例えば、表１に示される通り、構
成要素音Ｘｔ　の観測された順序を生成するよう４回発
音される。

【００４７】

【表１】

【００４８】この仮説的例で、前記構成要素音は、Ａ，
Ｂ，又はＣとして識別される。各時間間隔中、ある発音
は、３つの可能な構成要素音の１つを生成する。

【００４９】仮説的原始要素モデルＭ１　、Ｍ２　、及
びＭ３　のパラメータと、仮説的原始要素モデルの初期
又は先の重み係数Ｗ０　ｍ　は、表２に示される。第１
と第２の重み係数Ｗ０１とＷ０２の先の値は、０．５と
仮定されている。

【００５０】

【表２】

【００５１】第１の原始要素モデルの発生の推定された
条件付き確率は、仮説的モデルＭ３　Ｍｃ　Ｍ３　と、
発音Ｕ１　，Ｕ２　，Ｕ３　，及びＵ４　用に、複合要
素モデルの発生と構成要素音の観測された順序の発生と
が与えられて、図８に示される通り、前記単語モデルを
通じて許可された通路に基づくフォワード−バックワー
ド・アルゴリズムを使用する表３、４、５、６、及び７
に、計算される。表３乃至６の各々において、構成要素
音Ｘｔ　を出力し、かつ、時間ｔにおける状態Ｓｔ　に
ある確率Ｐ（Ｓｔ　，Ｘｔ　｜Ｓ（ｔ−１）　）は、時
間（ｔ−１）における状態Ｓ（ｔ−１）　が与えられて
、図８に示された各変換用に表２から得られる。時間ｔ
における状態Ｓｔ　であり、かつ、構成要素音Ｘ１　ｔ
　，ただし、Ｘｐ　ｑ　は順序Ｘｐ　，Ｘ（ｐ−１）　
，．．．Ｘｑ　である、の出力順序を観測するフォワー
ド確率Ｐ（Ｓｔ　，Ｘ１　ｔ　）は、Ｐ（Ｓｔ　，Ｘｔ
　｜Ｓ（ｔ−１）　）の値から図８の各状態用に得られ
る。構成要素音Ｘｔ　ｎ　の出力を観測し、かつ、時間
（ｔ−１）における状態Ｓ（ｔ−１）　にあるバックワ
ード確率Ｐ（Ｘｔ　ｎ　、Ｓ（ｔ−１）　）はまた、Ｐ
（Ｓｔ　，Ｘｔ　｜Ｓ（ｔ−１）　）の値から図８の各
状態用に得られる。

【００５２】

【表３】

【００５３】

【表４】

【００５４】

【表５】

【００５５】

【表６】

【００５６】表３乃至６はまた、構成要素音が、複合要
素モデルによって、各時間期間ｔ用に構成要素音の観測
された順序の発生が与えられて、生成された確率Ｐ（Ｓ
（ｔ−１）　、Ｓｔ　，Ｘ１５）の計算を示す。第１の
原始要素モデルに対応する状態Ｓ１ａからの全ての変換
に渡って合計することによって、構成要素音が、第１の
原始要素モデルと複合要素モデルによって、構成要素音
の観測された順序の発生が与えられて、生成された確率
の推定は、得られる。

【００５７】

【数１】

【００５８】ここで、Ｓ１ａは、第１の原始要素モデル
Ｍ１　に対応する複合要素モデルＭｃ　の開始状態であ
る。

【００５９】複合要素モデルに対応する状態Ｓ１　から
の全ての変換に渡って合計することによって、構成要素
音が、複合要素モデルによって、複合要素音の観測され
た順序の発生が与えられて、生成された確率の推定は、
得られる。

【００６０】

【数２】

【００６１】ここで、Ｓ１　は、（第２の原始要素モデ
ルの開始状態）Ｓ１ａ又はＳ１ｂに対応するＭｃ　の開
始状態である。

【００６２】全ての発音に渡って合計することによって
、第１の原始要素モデルの発生の条件付きの確率の推定
が、複合要素モデルの発生と構成要素音の観測された順
序の発生とが与えられて、得られる。

【００６３】

【数３】

【００６４】観測された発音によって生成されたデータ
が小さ過ぎるか、又は、無作為にゆがめられる場合に、
重み係数の推定を平滑化することが、望ましい。平滑化
は、例えば、次の数式によって与えられる。

【００６５】

【数４】

【００６６】全ての４個の仮説的発音に渡って合計する
ことが、表７に示される。

【００６７】

【表７】

【００６８】平滑化係数Ｋｗ　は、通常経験的に決定さ
れる。０．１の仮説的平滑化係数Ｋｗ　で、方程式（４
）から、第１の重み係数Ｗ１　用に推定された後の値は
、略０．５５である。

【００６９】重み係数用の後の値を得た後、前記方法は
、選択された回数だけ繰り返される。その際、各回毎に
、先の値として重み係数の新しい値を使用する。その代
わり、前記方法は、重み係数の後の値と先の値との間の
差が選択されたしきい値以下になるまで、繰り返される
。

【００７０】実施例１多話者学習データは、本発明に従う前記方法を使用して
２つの非常に混乱し易い単語”ａ”と”ｔｈｅ”用に単
語モデルを生成するために使用された。音声構成要素の
集合（アルファベット）は、２１０個の異なる音声構成
要素を含み、それぞれ原始要素マルコフ・モデルによっ
て表現された。前記単語モデルは、一連の複合要素モデ
ルを連結することによって形成された。各複合要素モデ
ルは、２１０個の原始要素モデル全てを組み合わせるこ
とによって初期に形成されたが、その後、最も大きな重
み係数を有する５ないし１０個の原始要素モデルの組合
せまで切り落とされた。

【００７１】認識経験は、多話者テスト・データと上記
で生成された単語モデルを使用して実行された。これら
の新しい単語モデルで、誤り率は、原始要素モデルの単
独で組み立てられた単語モデルでの誤り率に比較して、
５ないし１０％削減された。

【００７２】実施例２多話者学習データは、本発明に従う前記方法を使用して
５０００語の用語範囲における各単語用に単語モデルを
生成するために使用された。音声構成要素の集合（アル
ファベット）は、２１０個の異なる音声構成要素を含み
、それぞれ原始要素マルコフ・モデルによって表現され
た。前記単語モデルは、一連の複合要素モデルを連結す
ることによって形成された。各複合要素モデルは、２１
０個の原始要素モデル全てを組み合わせることによって
初期に形成されたが、その後、最も大きな重み係数を有
する５ないし１０個の原始要素モデルの組合せまで切り
落とされた。

【００７３】１０人の話者の各々は、原始要素モデル用
の話者依存パラメータを得るために学習データの４３０
文について発音した。

【００７４】連続の音声認識経験は上記で生成された単
語モデルを使用して実行された。その際、各話者が５９
１単語を含む５０文を発音した。これらの新しい単語モ
デルで、１０人の話者用の平均誤り率は、原始要素モデ
ルの単独で組み立てられた単語モデルでの誤り率に比較
して、１６％削減された。

【００７５】

【発明の効果】本発明に従う語の音響モデルを生成する
方法と装置は、原始要素モデルの集合（アルファベット
）の大きさを増加することなく、新しい話者の声に対す
る原始要素モデルを学習するために新しい話者が発音し
なければならない単語の数を増加することもなしに、単
語の異なり起こりうる発音のより厳密な表現である音響
モデルを組み立てるのに使用されうるという優れた効果
を有する。

【００７６】本明細書において

【外１】はＷ０１と表現し、

【外２】はＷ０２と表現し、

【外３】はＷ０　ｍ　と表現し、

【外４】はＸ１　ｔ　と表現し、

【外５】はＸｐ　ｑ　と表現し、

【外６】はＸｔ　ｎ　と表現し、

【外７】はＸ１５と表現した。

【図面の簡単な説明】

【図１】本発明に従う単語をモデル化する方法の実施例
の流れ図である。

【図２】音声構成要素用の原始要素モデルの実例を示す
略図である。

【図３】少なくとも２個の原始要素モデルの組合せを有
する複合要素モデルの実例を示す略図である。

【図４】１個が複合要素モデルである１連の要素モデル
を連結することによって形成された単語のマルコフ・モ
デルを示す略図である。

【図５】本発明に従う単語をモデル化する方法の実施例
の流れ図である。

【図６】図１の方法の条件付き確率を推定する方法を記
載する流れ図である。

【図７】本発明に従う単語をモデル化する装置のブロッ
ク線図である。

【図８】図４の単語マルコフ・モデルを通じて全ての起
こりうる通路を示す略図である。

【符号の説明】

１０　　　　原始要素モデル記憶装置１２　　　　単語モデル発生器１４　　　　マイクロフォン１６　　　　音響特徴測定装置１８　　　　音響原型ベクトル記憶装置２０　　　　比
較器２２　　　　確率推定器

Claims

【特許請求の範囲】

【請求項１】　　以下のステップを備える多辺マルコフ
で単語をモデル化する方法。（ａ）ｎ個の音声構成要素の有限集合、ただし、ｎは２
以上の整数である、を定義するステップと、（ｂ）各音
声構成要素に原始要素モデルを与えるステップで、各原
始要素モデルが開始状態とある値を有する少なくとも１
つのパラメータとを有するステップと、（ｃ）それぞれ
、少なくとも第１と第２の重み係数を有する複合要素モ
デルを形成するために異なる音声構成要素の少なくとも
第１と第２の原始要素モデルの前記開始状態を組み合わ
せるステップで、各重み係数が先の値を有し、前記原始
要素モデルが前記重み係数の値に比例してそれらのパラ
メータの重み付けされた組合せによって組み合わされる
ステップと、（ｄ）単語モデルを形成するために一連の要素モデルを
連結するステップで、前記一連の要素モデル中の少なく
とも１個の要素モデルが前記複合要素モデルであるステ
ップと、（ｅ）前記単語を１回以上発音するステップで、前記単
語の各発音が構成要素音の観測された順序を生成するス
テップと、（ｆ）前記第１と第２の重み係数の前記先の値と前記第
１と第２の原始要素モデルのパラメータの値とから、前
記第１の原始要素モデルの発生の条件付き確率を、前記
複合要素モデルの発生と構成要素音の前記観測された順
序の発生とが与えられて、推定するステップと、（ｇ）
　　前記条件付き確率から前記第１の重み係数用の後の
値を推定するステップ。
【請求項２】　　前記第１の原始要素モデルの発生の条
件付き確率を、前記複合要素モデルの発生と構成要素音
の前記観測された順序の発生とが与えられて、推定する
ステップは、前記第１と第２の重み係数の前記先の値と
前記第１と第２の原始要素モデルのパラメータの値とか
ら、前記複合要素モデルの発生の確率を、構成要素音の
前記観測された順序の発生が与えられて、推定するステ
ップと、前記第１と第２の重み係数の前記先の値と前記
第１と第２の原始要素モデルのパラメータの値とから、
前記第１の原始要素モデルと前記複合要素モデルの発生
の結合確率を、構成要素音の前記観測された順序の発生
が与えられて、推定するステップと、前記複合要素モデ
ルの発生の確率に対する前記結合確率の比として、条件
付き確率を、構成要素音の前記観測された順序の発生が
与えられて、推定するステップと、を備えることを特徴
とする請求項１記載の多辺マルコフで単語をモデル化す
る方法。
【請求項３】　　前記複合要素モデルの発生の確率を、
構成要素音の前記観測された順序の発生が与えられて、
推定するステップは、構成要素音の前記観測された順序
での各構成要素音用に、前記構成要素音が前記複合要素
モデルによって生成された確率を、構成要素音の前記観
測された順序の発生が与えられて、推定するステップを
備え、また、前記第１の原始要素モデルと前記複合要素
モデルの発生の結合確率を、構成要素音の前記観測され
た順序の発生が与えられて、推定するステップは、構成
要素音の前記観測された順序での各構成要素音用に、前
記構成要素音が前記第１の原始要素モデルと前記複合要
素モデルによって生成された確率を、構成要素音の前記
観測された順序の発生が与えられて、推定するステップ
を備えることを特徴とする請求項２記載の多辺マルコフ
で単語をモデル化する方法。
【請求項４】　　前記方法は、前記第１と第２の重み係
数の前記先の値と前記第１と第２の原始要素モデルのパ
ラメータの値とから、前記第２の原始要素モデルの発生
の条件付き確率を、前記複合要素モデルの発生と構成要
素音の前記観測された順序の発生とが与えられて、推定
するステップと、前記第２の条件付き確率から前記第２
の重み係数用の後の値を推定するステップと、をさらに
備えることを特徴とする請求項３記載の多辺マルコフで
単語をモデル化する方法。
【請求項５】　　前記第１と第２の原始要素モデルの前
記開始状態を組み合わせるステップは、線型に重み付け
された組合せによって前記第１と第２の原始要素モデル
の前記開始状態を組み合わせるステップを備えることを
特徴とする請求項４記載の多辺マルコフで単語をモデル
化する方法。
【請求項６】　　前記単語を１回以上発音するステップ
は、複数の異なる話者によって前記単語を複数回発音す
るステップを備えることを特徴とする請求項５記載の多
辺マルコフで単語をモデル化する方法。
【請求項７】　　各原始要素モデルのパラメータの値は
、構成要素音を生成する確率を表現することを特徴とす
る請求項６記載の多辺マルコフで単語をモデル化する方
法。
【請求項８】　　以下の手段を有する多辺マルコフで単
語をモデル化する装置。（ａ）ｎ個の原始要素モデルの有限集合を記憶する手段
で、ただし、ｎは２以上の整数であり、各原始要素モデ
ルが音声構成要素を表現し、各原始要素モデルが開始状
態とある値を有する少なくとも１つのパラメータとを有
する手段と、（ｂ）それぞれ、少なくとも第１と第２の重み係数を有
する構成要素モデルを形成するために異なる音声構成要
素の少なくとも第１と第２の原始要素モデルを組み合わ
せる手段で、各重み係数が先の値を有し、前記原始要素
モデルが前記重み係数の値に比例してそれらのパラメー
タの重み付けされた組合せによって組み合わされる手段
と、（ｃ）単語モデルを形成するために一連の要素モデルを
連結する手段で、前記一連の要素モデル中の少なくとも
１個の要素モデルが前記複合要素モデルである手段と、
（ｅ）前記単語の１以上の発音の少なくとも１つの特徴
の値を測定する手段で、各発音が一連の連続する時間間
隔に渡って起こり、特徴値を表現する観測された音響ベ
クトル信号の順序を生成するために各時間間隔中に前記
発音の前記特徴値を測定する手段と、（ｆ）前記第１と第２の重み係数の前記先の値と前記第
１と第２の原始要素モデルのパラメータの値とから、前
記第１の原始要素モデルの発生の条件付き確率を、前記
複合要素モデルの発生と構成要素音の前記観測された順
序の発生とが与えられて、推定する手段と、（ｇ）前記
条件付き確率から前記第１の重み係数用の後の値を推定
する手段。
【請求項９】　　前記第１の原始要素モデルの発生の条
件付き確率を、前記複合要素モデルの発生と構成要素音
の前記観測された順序の発生とが与えられて、推定する
手段は、前記第１と第２の重み係数の前記先の値と前記
第１と第２の原始要素モデルのパラメータの値とから、
前記複合要素モデルの発生の確率を、音響ベクトル信号
の前記観測された順序の発生が与えられて、推定する手
段と、前記第１と第２の重み係数の前記先の値と前記第
１と第２の原始要素モデルのパラメータの値とから、前
記第１の原始要素モデルと前記複合要素モデルの発生の
結合確率を、音響ベクトル信号の前記観測された順序の
発生が与えられて、推定する手段と、前記複合要素モデ
ルの発生の確率に対する前記結合確率の比として、条件
付き確率を、音響ベクトル信号の前記観測された順序の
発生が与えられて、推定する手段と、を有することを特
徴とする請求項８記載の多辺マルコフで単語をモデル化
する装置。
【請求項１０】　　前記複合要素モデルの発生の確率を
、音響ベクトル信号の前記観測された順序の発生が与え
られて、推定する手段は、音響ベクトル信号の前記観測
された順序での各音響ベクトル信号用に、前記音響ベク
トル信号が前記複合要素モデルによって生成された確率
を、音響ベクトル信号の前記観測された順序の発生が与
えられて、推定する手段を有し、また、前記第１の原始
要素モデルと前記複合要素モデルの発生の結合確率を、
音響ベクトル信号の前記観測された順序の発生が与えら
れて、推定する手段は、音響ベクトル信号の前記観測さ
れた順序での各音響ベクトル信号用に、前記音響ベクト
ル信号が前記第１の原始要素モデルと前記複合要素モデ
ルによって生成された確率を、音響ベクトル信号の前記
観測された順序の発生が与えられて、推定する手段を有
することを特徴とする請求項９記載の多辺マルコフで単
語をモデル化する装置。
【請求項１１】　　前記第１と第２の重み係数の前記先
の値と前記第１と第２の原始要素モデルのパラメータの
値とから、前記第２の原始要素モデルの発生の条件付き
確率を、前記複合要素モデルの発生と音響ベクトル信号
の前記観測された順序の発生とが与えられて、推定する
手段と、前記第２の条件付き確率から前記第２の重み係
数用の後の値を推定する手段と、をさらに有する請求項
１０記載の多辺マルコフで単語をモデル化する装置。
【請求項１２】　　前記第１と第２の原始要素モデルの
前記開始状態を組み合わせる手段は、線型に重み付けさ
れた組合せによって前記第１と第２の原始要素モデルの
前記開始状態を組み合わせる手段を有することを特徴と
する請求項１１記載の多辺マルコフで単語をモデル化す
る装置。
【請求項１３】　　ｎ個の音声構成要素の有限集合、た
だし、ｎは２以上の整数である、を定義するステップと
、各音声構成要素に原始要素モデルを与えるステップで
、各原始要素モデルが開始状態とある値を有する少なく
とも１つのパラメータとを有するステップと、構成要素
モデルの集合を形成するためにｎ個の原始要素モデル全
ての前記開始状態を組み合わせるステップで、各複合要
素モデルがそれぞれ、前記ｎ個の音声構成要素用にｎ個
の重み係数Ｗｎ　を有し、各重み係数が先の値を有し、
各複合要素モデル用に、前記原始要素モデルが前記重み
係数の値に比例してそれらのパラメータの重み付けされ
た組合せによって組み合わされるステップと、単語モデ
ルを形成するために一連の複合要素モデルを連結するス
テップと、前記単語を１回以上発音するステップで、前
記単語の各発音が構成要素音の観測された順序を生成す
るステップと、前記重み係数の前記先の値と前記原始要
素モデルのパラメータの値とから、各原始要素モデルの
発生の条件付き確率を、各複合要素モデルの発生と構成
要素音の前記観測された順序の発生とが与えられて、推
定するステップと、前記条件付き確率から各重み係数用
の後の値を推定するステップと、を備える多辺マルコフ
で単語をモデル化する方法。
【請求項１４】　　原始要素モデルの発生の条件付き確
率を、複合要素モデルの発生と構成要素音の前記観測さ
れた順序の発生とが与えられて、推定するステップは、
前記重み係数の前記先の値と前記原始要素モデルのパラ
メータの値とから、前記複合要素モデルの発生の確率を
、構成要素音の前記観測された順序の発生が与えられて
、推定するステップと、前記重み係数の前記先の値と前
記原始要素モデルのパラメータの値とから、前記原始要
素モデルと前記複合要素モデルの発生の結合確率を、構
成要素音の前記観測された順序の発生が与えられて、推
定するステップと、前記複合要素モデルの発生の確率に
対する前記結合確率の比として、条件付き確率を、構成
要素音の前記観測された順序の発生が与えられて、推定
するステップと、を備えることを特徴とする請求項１３
記載の多辺マルコフで単語をモデル化する方法。
【請求項１５】　　複合要素モデルの発生の確率を、構
成要素音の前記観測された順序の発生が与えられて、推
定するステップは、構成要素音の前記観測された順序で
の各構成要素音用に、前記構成要素音が前記複合要素モ
デルによって生成された確率を、構成要素音の前記観測
された順序の発生が与えられて、推定するステップを備
え、また、原始要素モデルと複合要素モデルの発生の結
合確率を、構成要素音の前記観測された順序の発生が与
えられて、推定するステップは、構成要素音の前記観測
された順序での各構成要素音用に、前記構成要素音が前
記第１の原始要素モデルと前記複合要素モデルによって
生成された確率を、構成要素音の前記観測された順序の
発生が与えられて、推定するステップを備えることを特
徴とする請求項１４記載の多辺マルコフで単語をモデル
化する方法。
【請求項１６】　　前記原始要素モデルの前記開始状態
を組み合わせるステップは、線型に重み付けされた組合
せによって前記原始要素モデルの前記開始状態を組み合
わせるステップを備えることを特徴とする請求項１５記
載の多辺マルコフで単語をモデル化する方法。
【請求項１７】　　前記単語を１回以上発音するステッ
プは、複数の異なる話者によって前記単語を複数回発音
するステップを備えることを特徴とする請求項１６記載
の多辺マルコフで単語をモデル化する方法。
【請求項１８】　　各原始要素モデルのパラメータの値
は、構成要素音を生成する確率を表現することを特徴と
する請求項１７記載の多辺マルコフで単語をモデル化す
る方法。