JPH0728487A

JPH0728487A - 音声認識方法

Info

Publication number: JPH0728487A
Application number: JP6053938A
Authority: JP
Inventors: Charles T Hemphill; ティー．ヘンプヒルチャールズ; P Netsch Lorin; ピー．ネッシュロリン; M Kuribusu Christopher; エム．クリブスクリストファー
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1993-03-26
Filing date: 1994-03-24
Publication date: 1995-01-31
Also published as: US5812974A

Abstract

(57)【要約】【目的】単語間の調音随伴を表わす効率的なモデル化
を行う音声認識方法を提供する。【構成】本発明は隣接する単語の文脈をモデル化する
ための音声認識方法であって、第１の単語または沈黙期
間を２個の部分に分割するステップと、第１の単語に隣
接する第２の単語または沈黙期間を２個の部分に分割す
るステップと、第１の単語または沈黙期間の末尾部分５
８と第２の単語または沈黙期間の先頭の部分６０とを連
結して音響モデルをつくるステップとを含む。本方法は
また音響モデルをミドルツーミドル文脈に限定するため
の文法をつくるステップも含む。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声認識方法に関するも
のである。

【０００２】

【従来の技術】ここでは本発明の請求の範囲に限定せず
に、音声認識に関する従来技術を述べる。自動音声認識
の考えられる応用には、少ない語彙を精度良く認識する
ことを要求されることが多い。一例を挙げると、一連の
ディジット（「０」から「９」までの数）だけを発音す
る場合がある。単語を自然に話すとき、音声認識装置に
とって難しいことがいくつかある。例えば多くの単語を
発音するとき単語と短い切れ目の間に多くの調音随伴文
脈を伴うという問題がある。例えば、「ｅｉｇｈｔ
（８）」という数の場合、先頭と末尾の音響認識が何種
類もある。「ｔｈｒｅｅｅｉｇｈｔ」と「ｆｏｕｒｅ
ｉｇｈｔ」と発音する際、「ｅｉｇｈｔ」の先頭の音は
先行する音に影響される。「ｅｉｇｈｔｏｈ」、「ｅ
ｉｇｈｔｎｉｎｅ」および独立の「ｅｉｇｈｔ」を発
音する場合、通常、「ｔ」は音が飛んだり、分離しなか
ったり、破裂音になったりするだろう。高性能の自動音
声認識を実現するには、文脈による調音随伴効果をモデ
ル化しなければならない。

【０００３】単語のモデル化には何種類もの方法が開発
されている。最近ではＨＭＭ（Hidden Markov Model
（隠れたモルコフモデル））という方法が多大な成功を
収めている。ＨＭＭは状態のシーケンスによって単語を
表わす。唯一の音響観測確率密度をＨＭＭの各状態に書
きつける。状態間遷移が許される場合には、その確率が
付された遷移弧により定義される。状態と音響密度と遷
移との組合せによって単語モデルを定義する。図１にそ
の一例を示す。

【０００４】多数の密度マッピング文脈を具体化するひとつの方法は、多数の音響観測密度
をＨＭＭの各状態にあてはめることである。状態にあて
られた多数の密度はしばしば「混合密度」と呼ばれる。
先の例である「ｅｉｇｈｔ」という単語と図１のＨＭＭ
モデルとを使うと、単語モデルの末尾の状態は飛び音、
破裂音、または非分離音を表わす多数の付随する音響密
度を有するであろう。このように単語モデルは先に述べ
た「ｅｉｇｈｔ」に関して独立した文脈を含む。この方
法の利点は、もし語彙数がＮ個であれば、わずかＮ個の
モデルを作りさえすればよいということである。しか
し、「混合密度」モデルだけを使うと、その単語モデル
に前後に話された単語に基づく適当な音響密度を使うこ
とができない。この結果、確実性が減って音声認識の性
能が悪くなる。多数の密度をマッピングするモデルにつ
いては次の文献を参照されたい。L.R. Rabiner, “A Tu
torial on Hidden Markov Models and Selected Applic
ations in Speech Recognition" 、（ラビナー著、「音
声認識におけるＨＭＭと選択された応用に関する講義」
ＩＥＥＩプロシーディング、第７７巻、２号、頁２５７
−２８６、１９８９年２月。

【０００５】多数の文脈依存性のモデル上記の「混合密度」モデル化の限界を解決する方法は、
各々可能な文脈毎に別々の単語モデルをつくることであ
る。例えば、単語「ｅｉｇｈｔ」について各々可能な前
後のディジット毎にモデルをつくることができよう。そ
れから認識装置は、適当な文脈の中でのみ各ディジット
を使うことを義務づける文法を利用することになろう。
この方法の問題はＮ個の語彙に対してＮ³個のモデルを
作らなければならないことである。この結果モデル数が
非常に多くなって、モデルを訓練するために多量のデー
タが必要になり、認識を実行するための処理時間がそれ
だけ長くなる。単語モデルを集合化することにより単語
モデルの数を減らすことができよう。すなわち、Ｎ³個
のモデルのうち類似のものを見つけて、それらの文脈を
１個の単語モデルに組入れるのである。多数の文脈依存
性モデルについては下記の文献を参照されたい。L.R. R
abiner, C.H. Lee, B.H. Tuang, and T.G. Wilpon,“HM
M Clustering for Connected Word Recognition", （ラ
ビナー、リー、ヤング、ウィルポン著、「連結された単
語認識のためのＨＭＭ集合化」）、ＩＣＡＳＳＰ’８９
プロシーディング、第１巻、頁４０５−４０８、１９８
９年５月）

【０００６】２音と３音のモデル化１個の単語全体を１個のＨＭＭとしてモデル化する替わ
りに、サブワード単位をＨＭＭとしてモデル化すること
ができよう。この場合、サブワード単位は１単語中の音
と音の間、および単語と単語との間に起きる調音随伴音
響学を表わすように選ぶことになろう。特に、従来技術
ては２音単位と３音単位をＨＭＭとして定義し、１音同
士の遷移をモデル化した。これらのサブワード単位は調
音随伴性文脈中の単語をモデル化する文法により制限す
ることができる。２音モデルについては下記の文献を参
照されたい。D.B. Paul,“The Lincoln Robust Continu
ous Speech Recognizer"、（ポール著、「リンカンロバ
ストの連続的な音声認識装置」）ＩＣＡＳＳＰ’８９プ
ロシーディング、第１巻、頁４４９−４５２、１９８９
年５月。）３音モデルについては下記の文献を参照され
たい。K.F. Lee, H.W. Hon, M.Y. Hwang, S. Mahajan,
and R. Reddy, “The SPHINX Speech Recognition Syst
em" 、（リー、ホン、ワング、マハジャン、レッディ
著、「ＳＰＨＩＮＸ音声認識システム」）、ＩＣＡＳＳ
Ｐ’８９プロシーディング、第１巻、頁４４５−４４
８、１９８９年５月。）

【０００７】

【課題を解決するための手段】本発明はＨＭＭの応用を
採用することによって、その種の文脈をモデル化する方
法に関するものであり、単語間の調音随伴を表わす効率
的な方法を提供するものである。

【０００８】本発明によれば、単語と沈黙の可能な各結
合ごとに、ある単語（または沈黙）の真中（ミドル）か
ら次の単語（または沈黙）の真中（ミドル）までをつな
ぐＨＭＭを別々につくる。これらのモデルは、単語の先
頭と末尾の音響は隣接する文脈と共に確かに変わるが、
単語の真中の音響は比較的文脈と関係がないという観測
を利用している。本発明では２音のようなサブワード単
位をつくる必要性がない。

【０００９】本発明は隣接する単語文脈をモデル化する
ための音声認識方法であって、第１の単語を２個の部分
に分割するステップと、第１の単語に隣接する第２の単
語または沈黙期間を２個の部分に分割するステップと、
第１の単語の終りの部分と第２の単語または沈黙期間の
始めの部分とを連結して、音響モデルをつくるステップ
と、を含む。本発明の本質や利点は以下の説明で明らか
にする。

【００１０】

【実施例】以下図面を参照しながら本発明の実施例を説
明する。図中類似の要素には同じ符号を付してある。図
１は従来の音声認識技術を用いた単語の状態図である。
状態Ｓ１−Ｓ６と、音響密度と遷移との組合せで単語モ
デルが定義される。単語モデルは単語の始まり５０から
単語の終わり５２までの状態の流れを示すことにより表
わされる。各状態５４には遷移弧５６が付いている。

【００１１】最初のミドルツーミドルモデルをつくる現在ある単語モデルＨＭＭから最初のミドルツーミドル
文脈ＨＭＭをつくる。これはある単語モデルの第２の部
分を別のモデルの第１の部分と連結することにより行わ
れる。Ｍ_iは最初のモデルｉを表わし、演算子「＋」は
モデルの連結を表わすものとする。すると、Ｍ_iのミド
ル（真中の部分）からＭ_jのミドルに連結する最初のモ
デルは次式で表わされる。

【００１２】

【数１】

【００１３】単語の「ＦｉｒｓｔＰａｒｔ（第１の部
分）」と「ＳｅｃｏｎｄＰａｒｔ（第２の部分）」は、
文脈が安定である単語モデルに音響密度を設けることに
より選択される。その結果、ミドルツーミドルＨＭＭ
は、ある単語の末尾の調音随伴文脈を別の単語の先頭文
脈の中にモデル化することがてきる。このことは、Ｎ個
の語彙に対して、わずかＮ²個のモデルをつくればよい
ことを意味する。図２−４にはこの方法を用いた「ｅｉ
ｇｈｔ」と「ｏｈ」の独創的な単語モデルを示す。

【００１４】図２のＨＭＭは「ｅｉｇｈｔ」（Ｍ₈）を
示す。末尾の３個の状態は「ｅｉｇｈｔ」モデルの末尾
の部分５８を表す。図３に示すのは「ｏｈ」（Ｍ₀）に
対するＨＭＭである。先頭の３個の状態は「ｏｈ」モデ
ルの先頭の部分６０を表わしている。図４に示すのは
「ｅｉｇｈｔ−ｏｈ」（ＭＭ_8,0）に対する結果として
のミドルツーミドルＨＭＭである。「ｅｉｇｈｔ」モデ
ルの末尾の部分５８と「ｏｈ」モデルの先頭の部分６０
とが連結された結果、図４のモデルがつくられる。

【００１５】ミドルツーミドル文脈の文法をつくる次に、ミドルツーミドルモデルに必要な文脈を維持する
文法をつくる。Ｍ_sは「沈黙」モデルを表わすことにす
ると、この文法は次の３個の規則を有する。

【００１６】

【数２】

【００１７】ここでＮＴは文法の末終端記号を表わす。
最初と最後の規則はそれぞれ、認識が沈黙によって始ま
り、沈黙によって終ることを要求している。２番目の規
則は認識を適当なミドルツーミドル文脈に限定してい
る。

【００１８】最初のミドルツーミドルモデルを訓練するそれから語彙中の単語を多くの人が発音したのを集めた
大きな言語資料（corpus）を用いて、文法と最初のミド
ルツーミドルＨＭＭの訓練を行う。このことは現在よく
知られているＨＭＭ訓練アルゴリズムを使って行う。そ
の結果、ミドルツーミドルＨＭＭは単語間の調音随伴文
脈をモデル化する。

【００１９】本発明の実施例は共同性共分散計量仮説
（pooled-covariance metric assumption)を用いたＴＩ
音声認識装置を使えば、元からあるディジットモデルＨ
ＭＭとミドルツーモデルとの両方に採用することができ
よう。（この仮説については例えば以下の文献を参照さ
れたい。G.R. Doddington,“Phonetically Sensitive D
iscriminants for Improved Speech Recognition" （ド
ッディントン著、「改良された音声認識のための音声感
知識別子」）、ＩＣＡＳＳＰ’８９のプロシーディン
グ、第１巻、頁５５６−５５９、１９８９年５月）単語
モデルＨＭＭのディジット（１から９迄の数）単語誤認
率は３．６％である（ここで誤りには置換、脱落、挿入
を含む）。ミドルツーミドルＨＭＭを用いた認識法の単
語誤認率は２．１％である。更に、本発明の実施例に周
知の音響観測集合アルゴリズム（acoustic observation
clustering algorithm)を用いれば、統計的表現が改良
されて、文脈を表わすのに必要な音響密度の数を減らす
ことができよう。（このアルゴリズムについては例えば
次の文献を参照されたい。M.Hwang and X.Huang,“Subp
honetic Modeling with Markov States-Senone" （ワン
グとホワング著、「マルコフ状態セノンを用いた副音声
モデル化」）、ＩＣＡＳＳＰ’９２プロシーディング、
第１巻、頁３３−３６、１９９２年３月）。

【００２０】以上説明した実施例と変形例は本発明の原
理を示すための例示にすぎない。当業者なら本発明の範
囲から逸脱することなく多くの修正をなしうるであろ
う。本発明の明らかな拡張例をいくつか挙げる。本発明
の好ましい実施例ではＨＭＭモデルを用いたが、このこ
とは必須ではない。単語モデルにテンプレートを用いて
もよかったし、ＤＴＷ整合を用いて認識することもでき
よう。図に示したＨＭＭの形態は例示の目的にすぎな
い。本発明はどんなＨＭＭ形態の配置にも適用可能であ
る。好ましい実施例では数語から成るモデルを示した。
しかし、この方法を用いて任意の音声単位をモデル化す
ることができよう。単音レベルのモデル化は従来技術の
２音法に類似しているといえようが、本発明では文脈文
法を使う点が異なる。他の任意の単位も使える。

【００２１】以上説明に関して更に以下の項を開示す
る。（１）（ア）第１の単語または沈黙期間を２個の部分に
分割するステップと、（イ）前記第１の単語または沈黙
期間に隣接する第２の単語または沈黙期間を、２個の部
分に分割するステップと、（ウ）前記第１の単語または
沈黙期間の末尾の部分と、前記第２の単語または沈黙期
間の先頭部分とを連結して、音響モデルをつくるステッ
プと、を含むことを特徴とする、隣接単語の文脈をモデ
ル化するための音声認識方法。（２）第（１）項記載の方法において、前記部分は各
単語の約半分を占めることと、各単語は安定な音響文脈
の中で分割されることとを特徴とする、音声認識方法。（３）第（１）項記載の方法において、前記音響モデ
ルは文法をつくることにより適当な文脈に限定されるこ
とを特徴とする、音声認識方法。

【００２２】（４）第（１）項記載の方法において、
前記文法は、（ア）少なくとも３個の文法規則を用いる
ことと、（イ）第１の文法規則は沈黙モデルで始まるこ
とと、（ウ）最後に文法規則は沈黙モデルで終ること
と、（エ）真中の文法規則は、単語または沈黙期間の第
１の半分を表わす音響モデルの第２の部分を、該単語ま
たは沈黙期間の第２の半分を表わす隣接音響モデルの第
１の部分に整合させる非終端記号を含むことと、を特徴
とする、音声認識方法。（５）第（１）項記載の方法において、前記音響モデ
ルはＨＭＭ（Hidden Markov Model)技術を用いてつくら
れることを特徴とする、音声認識方法。

【００２３】（６）第（１）項記載の方法において、
前記音響モデルは神経回路網モデル化技術を用いてつく
られることを特徴とする、音声認識方法。（７）第（１）項記載の方法において、前記音響モデ
ルはＤＴＷテンプレートモデル化技術を用いてつくられ
ることを特徴とする、音声認識方法。（８）（ア）音声認識装置と、（イ）前記音声認識装置
に接続されていて、単語と沈黙期間とを分離する手段
と、（ウ）分離された単語と沈黙期間とを記憶するため
のメモリと、（エ）前記単語と沈黙期間との音響モデル
をつくるための計算手段と、（オ）前記単語と沈黙期間
との前記音響モデルを２個の部分に分割する手段と、
（カ）第１の単語の末尾の部分と、第２の単語または沈
黙期間の先頭の部分とを連結して、新しい音響モデルを
つくる手段と、を含むことを特徴とする、隣接する単語
の文脈をモデル化するための音響モデルを用いた音声認
識システム。

【００２４】（９）第（８）項記載の装置において、
前記システムは音響モデルと連結するために計算手段に
結合された文法を含むことを特徴とする、音声認識シス
テム。（１０）第（９）項記載の装置において、前記音響シ
ステムは、前記文法により適当な文脈に限定されること
を特徴とする、音声認識システム。（１１）第（１０）項記載の装置において、前記文法
は、（ア）少なくとも３個の文法規則を含むことと、
（イ）最初の文法規則は沈黙モデルで始まり、最後の文
法規則は沈黙モデルで終ることと、（ウ）真中の文法規
則は、単語または沈黙期間の第１の半分を表わす音響モ
デルの第２の部分を、該単語または沈黙期間の第２の半
分を表わす隣接音響モデルの第１の部分に整合させる非
終端記号を含むこととを含むことを特徴とする、音声認
識システム。

【００２５】（１２）第（８）項記載の装置におい
て、前記システムは隠れたＨＭＭを用いることを特徴と
する、音声認識システム。（１３）第（８）項記載の装置において、前記システ
ムは神経回路網音響モデルを用いることを特徴とする、
音声認識システム。（１４）第（８）項記載の装置において、前記システ
ムはＤＴＷテンプレートモデルを用ることを特徴とす
る、音声認識システム。

【００２６】（１５）本発明は隣接する単語の文脈を
モデル化するための音声認識方法であって、第１の単語
または沈黙期間を２個の部分に分割するステップと、第
１の単語に隣接する第２の単語または沈黙期間を２個の
部分に分割するステップと、第１の単語または沈黙期間
の末尾部分と第２の単語または沈黙期間の先頭の部分と
を連結して音響モデルをつくるステップとを含む。本方
法はまた、音響モデルをミドルツーミドル文脈に限定す
るための文法をつくるステップも含む。

【図面の簡単な説明】

【図１】従来技術を用いた単語の状態図。

【図２】本発明の一例の状態図。

【図３】本発明の一例の状態図。

【図４】本発明の一例の状態図。

【符号の説明】

５０単語の始まり５２単語の終り５４状態５６遷移弧５８単語の末尾の部分６０単語の先頭の部分

───────────────────────────────────────────────────── フロントページの続き (72)発明者クリストファーエム．クリブスアメリカ合衆国テキサス州ダラス，ミーダーズレーン 5949

Claims

【特許請求の範囲】

【請求項１】（ア）第１の単語または沈黙期間を２個
の部分に分割するステップと、（イ）前記第１の単語または沈黙期間に隣接する第２の
単語または沈黙期間を、２個の部分に分割するステップ
と、（ウ）前記第１の単語または沈黙期間の末尾の部分と、
前記第２の単語または沈黙期間の先頭部分とを連結し
て、音響モデルをつくるステップと、を含むことを特徴
とする隣接単語の文脈をモデル化するための音声認識方
法。