JPH04227569A - 多辺マルコフで単語をモデル化する方法と装置 - Google Patents

多辺マルコフで単語をモデル化する方法と装置

Info

Publication number
JPH04227569A
JPH04227569A JP3083514A JP8351491A JPH04227569A JP H04227569 A JPH04227569 A JP H04227569A JP 3083514 A JP3083514 A JP 3083514A JP 8351491 A JP8351491 A JP 8351491A JP H04227569 A JPH04227569 A JP H04227569A
Authority
JP
Japan
Prior art keywords
model
component
occurrence
element model
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3083514A
Other languages
English (en)
Other versions
JP2694062B2 (ja
Inventor
Lalit R Bahl
ラリト アール. バール
Jerome R Bellegarda
ジェロム アール. ベレガーダ
Souza Peter V De
ピーター ヴィンセント デ ソウザ
Ponani S Gopalakrishnan
ポナニ エス. ゴパラクリシュナン
Nahamoo David
デヴィッド ナハムー
Michael A Picheny
マイケル アラン ピチェニー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH04227569A publication Critical patent/JPH04227569A/ja
Application granted granted Critical
Publication of JP2694062B2 publication Critical patent/JP2694062B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Complex Calculations (AREA)
  • Stereophonic System (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、自動音声認識に使用さ
れる単語(ワード)の音響モデルの生成に関する。
【0002】
【従来の技術】ヒドン・マルコフ・モデル(HMM)を
使用する単語の音響モデル化は、例えば、米国特許第4
、759、068号に記載されている。その特許に記載
された音声認識システム、及び他の音声認識システムに
おいて、認識装置用語範囲内の各単語のための音響モデ
ルは、要素モデルの有限集合(有限アルファベット)か
ら選択された1以上の要素モデルを連結することによっ
て構成される。各要素モデルが1単語のある一つの部分
を表現するので、要素モデルの比較的小さな集合(アル
ファベット)から複数単語の大きな用語範囲(ボキャブ
ラリー)内の各単語のためのモデルを構成することが可
能である。
【0003】単語の比較的大きな用語範囲内の各単語の
ために音響モデルを組み立てる際に、要素モデルの比較
的小さな集合(アルファベット)の使用は、少なくとも
2つの利点を有する。第1に、要素モデルの全体的な集
合(アルファベット)の構造とパラメータ及び要素モデ
ルの集合(アルファベット)から各単語モデルを組み立
てるのに必要な情報を記憶するのに要求される電子記憶
の量は、用語範囲内の各単語用の全体の音響モデルの構
造とパラメータを記憶するのに要求される電子記憶の量
よりかなり少ない。第2に、要素モデルの集合(アルフ
ァベット)が単語の用語範囲よりずっと小さいので、新
しい話者は、比較的小数の単語を発音することによって
話者の声に対する要素モデルの全体的な集合(アルファ
ベット)を学習することができる。
【0004】上述に記載された利点にもかかわらず、要
素モデルの有限集合(アルファベット)から単語の音響
モデルを組み立てる公知の方法においては、発音が単一
の要素モデルによっては適切に表現されない単語の部分
があることが発見されている。
【0005】
【発明が解決しようとする課題】本発明の目的は、単語
の発音の変動をより厳密に表現する単語の音響モデルを
生成することである。
【0006】本発明の目的は、語の各部分の発音をより
正確に表現するように、要素モデルの有限集合又は有限
集合(アルファベット)から1単語の音響モデルを組み
立てることである。
【0007】本発明のもう1つの目的は、新しい話者に
音声認識システムの用語範囲内の比較的小数の単語のみ
を発音させることによって新しい話者の声に対して学習
されうる改良された単語の音響モデルを組み立てること
である。
【0008】
【課題を解決するための手段】本発明に従って、単語を
モデル化する方法は、n個の音声構成要素の有限集合を
定義することからなり、ここでnは2以上の整数である
。原始要素モデルは各構成要素に与えられる。各原始要
素モデルは、開始状態を有し、かつ、ある値を有する少
なくとも1つの開始を有する。異なる音声構成要素の少
なくとも第1と第2の原始要素モデルの開始状態は、そ
れぞれ、少なくとも第1と第2の重み係数を有する複合
要素モデルを形成するために組み合わされる。各重み係
数はある先の値を有する。その原始要素モデルは、重み
係数の値に比例してそれらのパラメータの重み付けされ
た組合せによって組み合わされる。
【0009】一連の要素モデルは、ある単語モデルを形
成するために連結される。前記一連の要素モデル中の少
なくとも1つの要素モデルは、複合要素モデルである。 好ましくは、単語モデルを形成する要素モデルの全ては
、複合要素モデルである。
【0010】単語モデルの形成前又は後で、単語は1回
以上発音される。単語の各発音は、構成要素音の観測さ
れた順序を生成する。
【0011】第1と第2の重み係数の先の値と第1と第
2の原始要素モデルのパラメータの値とから、第1の原
始要素モデルの発生の条件付き確率は、複合要素モデル
の発生と構成要素音の観測された順序の発生とが与えら
れて、推定される。第1の重み係数用の後の値は、この
条件付き確率から推定される。
【0012】本発明の一態様において、その条件付き確
率は、第1と第2の重み係数の先の値と第1と第2の原
始要素モデルのパラメータの値とから、複合要素モデル
の発生の確率を、構成要素音の観測された順序の発生が
与えられて、推定すること、及び第1と第2の重み係数
の先の値と第1と第2の原始要素モデルのパラメータの
値とから、第1の原始要素モデルと複合要素モデルの発
生の結合確率を、構成要素音の観測された順序の発生が
与えられて、推定することによって推定される。その条
件付き確率は、複合要素モデルの発生の確率に対する結
合確率の比として、構成要素音の観測された順序が与え
られて、推定される。
【0013】複合要素モデルの発生の確率は、構成要素
音の観測された順序での各構成要素音用に、構成要素音
の観測された順序の発生が与えられて構成要素音が複合
要素モデルによって、生成された確率を推定することに
よって得られうる。その結合確率は、構成要素音の観測
された順序での各構成要素音用に、構成要素音が、第1
の原始要素モデルと複合要素モデルによって、構成要素
音の観測された順序の発生が与えられて、生成された確
率を推定することによって得られうる。
【0014】第1と第2の重み係数の先の値と第1と第
2の原始要素モデルのパラメータの値とから、第2の原
始要素モデルの発生の条件付き確率は、複合要素モデル
の発生と構成要素音の観測された順序の発生とが与えら
れて、推定される。第2の重み係数用の後の値は、第2
の条件付き確率から推定される。
【0015】好ましくは、第1と第2の原始要素モデル
の開始状態は、線型に重み付けされた組合せによって組
み合わされる。
【0016】重み係数を判断する際に、単語が複数回、
複数人の異なる話者によって発音されることもまた好ま
しい。
【0017】本発明の一態様において、各要素モデルの
パラメータの値は、ある構成要素音を生成する確率を表
現する。
【0018】本発明に従う単語をモデル化する装置は、
n個の原始要素モデルの有限集合を記憶する装置を有す
る。また、次のような装置も与えられる。それは、異な
る音声構成要素の少なくとも第1と第2の原始要素モデ
ルの開始状態を組み合わせて複合要素モデルを形成する
装置、及び一連の要素モデルを連結してある単語モデル
を形成する装置である。前記一連の要素モデル中の少な
くとも1個の要素モデルは、複合要素モデルである。
【0019】前記装置は、単語の1以上の発音の少なく
とも1つの特徴の値を測定する装置をさらに含む。各発
音は、1連の連続する時間間隔に渡って発生する。前記
測定する装置は、各時間間隔中に発音の特徴値を測定し
、特徴値を表現する観測された音響ベクトル信号の順序
を生成する。
【0020】最後に、前記装置は、第1と第2の重み係
数の先の値と第1と第2の原始要素モデルのパラメータ
の値とから、第1の原始要素モデルの発生の条件付き確
率を、複合要素モデルの発生と音響ベクトル信号の観測
された順序の発生とが与えられて、推定する装置を含む
。条件付き確率から第1の重み係数用に後の値を推定す
る装置も、与えられる。
【0021】
【実施例】図1を参照して、本発明に従う単語をモデル
化する方法と装置は、n個の音声構成要素の有限集合か
ら開始する。ここで、nは2以上の整数である。前記音
声構成要素は、例えば、音声学上の音声構成要素であり
、それらの各々は、英語のアルファベットの単一文字に
よって生成された音に一般的に対応する。その代わり、
各音声構成要素は、固定時間間隔中に1以上の構成要素
音を生成する測定可能な確率分布を有する音声の単位と
して定義されうる。後者の場合に、音声構成要素の集合
(アルファベット)は、例えば、10ミリ秒時間毎に2
10個の音声構成要素からなり得る。
【0022】音声構成要素の集合又は集合(アルファベ
ット)中の各音声構成要素は、原始要素モデルでモデル
化される。各原始要素モデルは、開始状態とある値を有
する少なくとも1つのパラメータとを有する。パラメー
タの値は、構成要素音を生成する確率を表現する。
【0023】図2は、音声構成要素用に原始要素マルコ
フ・モデルの一例を示す。前記モデルは、開始状態Sm
iと終了状態Smfを有する。この例で、原始要素モデ
ルは、4つのパラメータを備えている。原始要素モデル
は、それぞれ、開始状態から終了状態への変換と開始状
態から開始状態へ戻る変換の確率を表現する変換確率P
パラメータ(Smf|Smi)とP(Smi|Smi)
を有する。この例での原始要素モデルはまた、それぞれ
、開始状態から終了状態への変換上と開始状態から開始
状態へ戻る変換上にある出力Aを生成する確率を表現す
るパラメータq(A|Smi→Smf)とq(A|Sm
i→Smi)を有する。
【0024】音声構成要素用の原始要素モデルの場合に
、モデルパラメータは、1以上の構成要素音を出力する
確率を決定する。構成要素音は、例えば、1以上の分離
又は連続する範囲内にある測定された特徴を有する単一
音又は音の集合である。
【0025】図1に戻って、異なる音声構成要素の少な
くとも第1と第2の原始要素モデルの開始状態は、複合
要素モデルを形成するために組み合わされる。図3は、
2個の原始要素モデルM1 とM2 を組み合わせるこ
とによって形成された複合要素モデルMc の一例を示
す。この例で、原始要素マルコフ・モデルM1 の開始
状態S1iは、原始要素マルコフ・モデルM2 の開始
状態S2iと組み合わされ、複合要素モデルMc の開
始状態Ci を形成している。
【0026】複合要素モデルは、それぞれ、第1と第2
の原始要素モデル用に少なくとも第1と第2の重み係数
を有する。各重み係数W1 とW2 は、それぞれ、W
01とW02の先の値を有する。
【0027】原始要素モデルM1 とM2 は、重み係
数の値に比例するそれらのパラメータの重み付けされた
組合せによって組み合わされ、複合要素モデルを形成す
る。 従って、例えば、複合要素モデルの開始状態から複合要
素モデルの終了状態への変換の確率、P(Cf |Ci
 )は、第1のモデルM1 の開始状態から終了状態へ
の変換の確率と第2のモデルM2 の開始状態から終了
状態への変換の確率の線型加重和に等しいので、P(C
f |Ci )=W1 P(S1f|S1i)+W2 
P(S2f|S2i)となる。複合要素モデルMc の
パラメータは、図3に示される。
【0028】210個の原始要素モデルの集合又は集合
(アルファベット)用に、各複合要素モデルを、全ての
210個の原始要素モデルの重み付けられた組合せによ
って組み立てることは可能である。しかしながら、実際
は、最も大きな重み係数を有するそれら5個又は10個
の原始要素モデルの重み付けられた組合せとして各複合
要素モデルを組み立てることが、受入れ可能であると発
見されている。重み係数の推定は、以下に記載されよう
【0029】一連の要素モデルは、単語モデルを形成す
るために連結される。(図1。)前記一連の要素モデル
中の少なくとも1個の要素モデルは、複合要素モデルで
ある。
【0030】図4は、一連の3個の要素モデルM3 M
c M3 を連結することによって形成された単語モデ
ルの実例を示す。
【0031】単語が発音される場合に生成される音を厳
密に表現する単語モデルを生成するために、単語は1回
以上発音される。(図1。)単語の各発音は、構成要素
音の観測された順序を生成する。単語の発音における変
動を厳密に表現する単語モデルを得るために、単語は、
複数の異なる話者によって複数回発音される。
【0032】第1と第2の重み係数の先の値と第1と第
2の原始要素モデルのパラメータの値とから、第1の原
始要素モデルの発生の条件付き確率は、複合要素モデル
の発生と構成要素音の観測された順序の発生とが与えら
れて、推定されうる。(図1。)以下により詳細に記載
される通り、フォワード−バックワード・アルゴリズム
(Forward−Backward  algori
thm)は、条件付き確率を推定するために使用されう
る一方法である。フォワード−バックワード・アルゴリ
ズムの一般的な記載は、例えば、フレドリック・ジェリ
ニック(Frederick  Jelinek)によ
る表題”統計的方法による連続音声認識”(IEEEの
会報、第64巻、1976年4月号、第537−556
頁)という記事にある。
【0033】最後に、図1に示される通り、第1の重み
係数用の後の値は、条件付き確率から推定される。
【0034】図5の流れ図は、本発明に従う単語をモデ
ル化する図1の方法の実施例であり、この方法で、全て
のn個の原始要素モデルの開始状態は、それぞれ、重み
係数Wn によって組み合わせられ、複合要素モデルを
形成する。この場合、各重み係数用に更新された値は、
各原始要素モデルの発生の条件付き確率から、複合要素
モデルの発生と、構成要素音の観測された順序の発生が
与えられて、推定される。
【0035】図6の流れ図は、より詳細に、条件付き確
率を推定するステップを記載する。構成要素音の観測さ
れた順序での各構成要素音用に、構成要素音が、複合要
素モデルによって、構成要素音の観測された順序の発生
が与えられて、生成された確率は、推定される。同様に
、構成要素音の観測された順序での各構成要素音用に、
構成要素音が、第1の原始要素モデルと複合要素モデル
によって、構成要素音の観測された順序の発生が与えら
れて、生成された確率もまた推定される。
【0036】フォワード−バックワード・アルゴリズム
は、構成要素音の観測された順序における各構成要素音
用に先行する確率を推定するために使用されうる。ビテ
ルビ(Viterbi)・アルゴリズムは、要求された
推定を生成しない。ビテルビ・アルゴリズムは、構成要
素音が複合要素モデルによって生成された確率の2進(
1又は0の)推定を行うよう使用されうるのに、構成要
素音が原始要素モデルと複合要素モデルによって生成さ
れた確率を推定できない。
【0037】更に、図6を参照して、構成要素音が全て
の構成要素音に渡って複合モデルによって生成された確
率を合計することによって、複合要素モデルの発生の確
率の推定が、構成要素音の観測された順序の発生が与え
られて、得られることができる。構成要素音が全ての構
成要素音に渡って第1の原始要素モデルと複合要素モデ
ルによって生成された確率を合計することによって、第
1の原始要素モデルと複合要素モデルの発生の結合確率
は、構成要素音の観測された順序の発生が与えられて、
推定されうる。ついで、第1の原始要素モデルの発生の
条件付き確率は、複合要素モデルの発生と構成要素音の
観測された順序の発生とが与えられて、構成要素モデル
の発生の確率に対する結合の確率の比として、構成要素
音の観測された順序が与えられて、推定されうる。
【0038】第2の原始要素モデルの発生の条件付き確
率は、複合要素モデルの発生と構成要素音の観測された
順序の発生とが与えられて、第1の原始要素モデル用と
同様の方法で推定されうる。この第2の条件付き確率か
ら、第2の重み係数は推定されうる。
【0039】上述に記載される通りのフォワード−バッ
クワード・アルゴリズムの使用に代わるものとして、原
始要素モデルの発生の条件付き確率を、複合要素モデル
の発生と構成要素音の観測された順序の発生とが与えら
れて、例えば、次の用に推定するために、ビテルビ・ア
ルゴリズムが使用されることができる。構成要素音の観
測された順序における各構成要素音用に、ビテルビ・ア
ルゴリズムは、構成要素音が複合要素モデルによって生
成された確率の2進(1又は0の)推定を行うよう使用
される。従って、複合要素モデルによって生成された通
り推定された各構成要素音用に、構成要素音を最も可能
に生成した原始要素モデルの推定が得られる。この後者
の推定は、複合要素モデルの初期重み係数と原始要素モ
デルのパラメータとから得られる。各原始要素モデル用
に、原始要素モデルの発生の条件付き確率は、複合要素
モデルの発生と構成要素音の観測された順序の発生とが
与えられて、原始要素モデルが観測された構成要素音を
最も可能に生成した複合要素モデルの発生の比として推
定される。
【0040】図7は、本発明に従う単語をモデル化する
装置のブロック線図である。この装置は、n個の原始要
素モデルの有限集合を記憶する装置10を含む。ここで
、nは2以上の整数である。単語モデル発生器12は、
複合要素モデルを形成するために、異なる音声構成要素
の少なくとも第1と第2の原始要素モデルの開始状態を
組合せ、かつ、少なくとも1個の複合構成要素を含む単
語モデルを形成するために、一連の要素モデルを連結す
る。
【0041】単語の1以上の発声の少なくとも1つの特
徴の値を測定する装置は、例えば、マイクロフォン14
、音響特徴測定装置16、音響原型ベクトル記憶装置1
8及び比較器20を有する。例えば、米国特許第4、7
18、094号に記載される通り、音響特徴測定装置1
6は、マイクロフォン14からの出力信号を受信し、か
つ、一連の連続する時間間隔の各々中で多数の選択され
た周波数帯域の各々における信号の振幅を測定する。 ある時間間隔に対応する測定値は、選択された時間間隔
中に測定された音響特徴に最も整合される音響原型ベク
トルを発見するために、記憶装置18中の音響原型ベク
トルの集合の各音響原型ベクトルと、比較器20によっ
て比較される。この比較器20は、発音の特徴値を表現
する観測された音響ベクトル信号(音響ラベル)の順序
を生成するために、各時間間隔に最も整合した音響原型
ベクトルを表現する音響ラベルを出力する。
【0042】確率推定器22は、第1及び第2の重み係
数の先の値と第1及び第2の原始要素モデルのパラメー
タの値とから、第1の原始要素モデルの発生の条件付き
確率を、複合要素モデルの発生と音響ベクトル信号の観
測された順序の発生とが与えられて、推定する。この条
件付き確率から、確率推定器22は、第1の重み係数用
に後の値を推定する。
【0043】図7に示される単語をモデル化する装置は
、例えば、マイクロフォン14からの信号を解析する音
響特徴測定装置16に高速フーリエ変換解析器を使用し
てもよい。前記装置の残存する要素は、例えば、1機以
上の汎用ディジタル計算機を適切にプログラムすること
によって形成されうる。
【0044】単語モデルが本発明に従って生成された後
、その単語モデルは、例えば、電子記憶装置中に記憶さ
れる。各単語モデルは、そのパラメータの全て(すなわ
ち、単語モデルの状態の全て、単語モデルの状態間の変
換の確率の全て、及び単語モデルの各変換で構成要素音
を生成する確率の全て)のリストとして記憶されうる。 しかしながら、単語の大きな用語範囲にとって、このよ
うに各単語モデルを記憶することは、多量なメモリを消
費することになる。
【0045】好ましくは、各単語モデルは、代わりとし
て、そのパラメータによってではなく、例えば、(i)
単語モデルを形成する複合要素モデルの数を記載し、(
ii)単語モデルを形成する複合要素モデルの列中の各
複合要素モデルの順序と識別を記載し、(iii)各複
合要素モデルを形成する原始要素モデルをリストし、か
つ、(iv)各複合要素モデル用に、原始要素モデルと
対応付けられた重み係数をリストする”青写真(ブルー
プリント)”として、記憶される。(例えば、認識され
るべき発音がその単語である確率を推定するために、等
の)単語モデルのパラメータを得ることが必要である場
合、その単語モデルのパラメータは、この”青写真”と
、原始要素モデルの記憶されたパラメータから計算され
うる。このように、原始要素モデルの数が用語範囲中の
単語の数よりずっと少ないならば、”青写真”として各
単語モデルを記憶することは、そのパラメータによって
各単語モデルを記憶することよりずっと少ないメモリを
消費する。しかしながら、記憶量削除要求に払われる対
価は、単語モデルが必要とされる各時間毎に単語モデル
のパラメータを計算するのに要求される余分な時間であ
る。
【0046】ある単語の音響モデルの組立ての仮説的例
は、次に記載されよう。図4に示される通り、一連の要
素モデルM3 Mc M3 は、少なくとも1個の複合
要素モデルを含むある単語モデルを形成するために連結
される。その単語は、例えば、表1に示される通り、構
成要素音Xt の観測された順序を生成するよう4回発
音される。
【0047】
【表1】
【0048】この仮説的例で、前記構成要素音は、A,
B,又はCとして識別される。各時間間隔中、ある発音
は、3つの可能な構成要素音の1つを生成する。
【0049】仮説的原始要素モデルM1 、M2 、及
びM3 のパラメータと、仮説的原始要素モデルの初期
又は先の重み係数W0 m は、表2に示される。第1
と第2の重み係数W01とW02の先の値は、0.5と
仮定されている。
【0050】
【表2】
【0051】第1の原始要素モデルの発生の推定された
条件付き確率は、仮説的モデルM3 Mc M3 と、
発音U1 ,U2 ,U3 ,及びU4 用に、複合要
素モデルの発生と構成要素音の観測された順序の発生と
が与えられて、図8に示される通り、前記単語モデルを
通じて許可された通路に基づくフォワード−バックワー
ド・アルゴリズムを使用する表3、4、5、6、及び7
に、計算される。表3乃至6の各々において、構成要素
音Xt を出力し、かつ、時間tにおける状態St に
ある確率P(St ,Xt |S(t−1) )は、時
間(t−1)における状態S(t−1) が与えられて
、図8に示された各変換用に表2から得られる。時間t
における状態St であり、かつ、構成要素音X1 t
 ,ただし、Xp q は順序Xp ,X(p−1) 
,...Xq である、の出力順序を観測するフォワー
ド確率P(St ,X1 t )は、P(St ,Xt
 |S(t−1) )の値から図8の各状態用に得られ
る。構成要素音Xt n の出力を観測し、かつ、時間
(t−1)における状態S(t−1) にあるバックワ
ード確率P(Xt n 、S(t−1) )はまた、P
(St ,Xt |S(t−1) )の値から図8の各
状態用に得られる。
【0052】
【表3】
【0053】
【表4】
【0054】
【表5】
【0055】
【表6】
【0056】表3乃至6はまた、構成要素音が、複合要
素モデルによって、各時間期間t用に構成要素音の観測
された順序の発生が与えられて、生成された確率P(S
(t−1) 、St ,X15)の計算を示す。第1の
原始要素モデルに対応する状態S1aからの全ての変換
に渡って合計することによって、構成要素音が、第1の
原始要素モデルと複合要素モデルによって、構成要素音
の観測された順序の発生が与えられて、生成された確率
の推定は、得られる。
【0057】
【数1】
【0058】ここで、S1aは、第1の原始要素モデル
M1 に対応する複合要素モデルMc の開始状態であ
る。
【0059】複合要素モデルに対応する状態S1 から
の全ての変換に渡って合計することによって、構成要素
音が、複合要素モデルによって、複合要素音の観測され
た順序の発生が与えられて、生成された確率の推定は、
得られる。
【0060】
【数2】
【0061】ここで、S1 は、(第2の原始要素モデ
ルの開始状態)S1a又はS1bに対応するMc の開
始状態である。
【0062】全ての発音に渡って合計することによって
、第1の原始要素モデルの発生の条件付きの確率の推定
が、複合要素モデルの発生と構成要素音の観測された順
序の発生とが与えられて、得られる。
【0063】
【数3】
【0064】観測された発音によって生成されたデータ
が小さ過ぎるか、又は、無作為にゆがめられる場合に、
重み係数の推定を平滑化することが、望ましい。平滑化
は、例えば、次の数式によって与えられる。
【0065】
【数4】
【0066】全ての4個の仮説的発音に渡って合計する
ことが、表7に示される。
【0067】
【表7】
【0068】平滑化係数Kw は、通常経験的に決定さ
れる。0.1の仮説的平滑化係数Kw で、方程式(4
)から、第1の重み係数W1 用に推定された後の値は
、略0.55である。
【0069】重み係数用の後の値を得た後、前記方法は
、選択された回数だけ繰り返される。その際、各回毎に
、先の値として重み係数の新しい値を使用する。その代
わり、前記方法は、重み係数の後の値と先の値との間の
差が選択されたしきい値以下になるまで、繰り返される
【0070】実施例1 多話者学習データは、本発明に従う前記方法を使用して
2つの非常に混乱し易い単語”a”と”the”用に単
語モデルを生成するために使用された。音声構成要素の
集合(アルファベット)は、210個の異なる音声構成
要素を含み、それぞれ原始要素マルコフ・モデルによっ
て表現された。前記単語モデルは、一連の複合要素モデ
ルを連結することによって形成された。各複合要素モデ
ルは、210個の原始要素モデル全てを組み合わせるこ
とによって初期に形成されたが、その後、最も大きな重
み係数を有する5ないし10個の原始要素モデルの組合
せまで切り落とされた。
【0071】認識経験は、多話者テスト・データと上記
で生成された単語モデルを使用して実行された。これら
の新しい単語モデルで、誤り率は、原始要素モデルの単
独で組み立てられた単語モデルでの誤り率に比較して、
5ないし10%削減された。
【0072】実施例2 多話者学習データは、本発明に従う前記方法を使用して
5000語の用語範囲における各単語用に単語モデルを
生成するために使用された。音声構成要素の集合(アル
ファベット)は、210個の異なる音声構成要素を含み
、それぞれ原始要素マルコフ・モデルによって表現され
た。前記単語モデルは、一連の複合要素モデルを連結す
ることによって形成された。各複合要素モデルは、21
0個の原始要素モデル全てを組み合わせることによって
初期に形成されたが、その後、最も大きな重み係数を有
する5ないし10個の原始要素モデルの組合せまで切り
落とされた。
【0073】10人の話者の各々は、原始要素モデル用
の話者依存パラメータを得るために学習データの430
文について発音した。
【0074】連続の音声認識経験は上記で生成された単
語モデルを使用して実行された。その際、各話者が59
1単語を含む50文を発音した。これらの新しい単語モ
デルで、10人の話者用の平均誤り率は、原始要素モデ
ルの単独で組み立てられた単語モデルでの誤り率に比較
して、16%削減された。
【0075】
【発明の効果】本発明に従う語の音響モデルを生成する
方法と装置は、原始要素モデルの集合(アルファベット
)の大きさを増加することなく、新しい話者の声に対す
る原始要素モデルを学習するために新しい話者が発音し
なければならない単語の数を増加することもなしに、単
語の異なり起こりうる発音のより厳密な表現である音響
モデルを組み立てるのに使用されうるという優れた効果
を有する。
【0076】本明細書において
【外1】 はW01と表現し、
【外2】 はW02と表現し、
【外3】 はW0 m と表現し、
【外4】 はX1 t と表現し、
【外5】 はXp q と表現し、
【外6】 はXt n と表現し、
【外7】 はX15と表現した。
【図面の簡単な説明】
【図1】本発明に従う単語をモデル化する方法の実施例
の流れ図である。
【図2】音声構成要素用の原始要素モデルの実例を示す
略図である。
【図3】少なくとも2個の原始要素モデルの組合せを有
する複合要素モデルの実例を示す略図である。
【図4】1個が複合要素モデルである1連の要素モデル
を連結することによって形成された単語のマルコフ・モ
デルを示す略図である。
【図5】本発明に従う単語をモデル化する方法の実施例
の流れ図である。
【図6】図1の方法の条件付き確率を推定する方法を記
載する流れ図である。
【図7】本発明に従う単語をモデル化する装置のブロッ
ク線図である。
【図8】図4の単語マルコフ・モデルを通じて全ての起
こりうる通路を示す略図である。
【符号の説明】
10    原始要素モデル記憶装置 12    単語モデル発生器 14    マイクロフォン 16    音響特徴測定装置 18    音響原型ベクトル記憶装置20    比
較器 22    確率推定器

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】  以下のステップを備える多辺マルコフ
    で単語をモデル化する方法。 (a)n個の音声構成要素の有限集合、ただし、nは2
    以上の整数である、を定義するステップと、(b)各音
    声構成要素に原始要素モデルを与えるステップで、各原
    始要素モデルが開始状態とある値を有する少なくとも1
    つのパラメータとを有するステップと、(c)それぞれ
    、少なくとも第1と第2の重み係数を有する複合要素モ
    デルを形成するために異なる音声構成要素の少なくとも
    第1と第2の原始要素モデルの前記開始状態を組み合わ
    せるステップで、各重み係数が先の値を有し、前記原始
    要素モデルが前記重み係数の値に比例してそれらのパラ
    メータの重み付けされた組合せによって組み合わされる
    ステップと、 (d)単語モデルを形成するために一連の要素モデルを
    連結するステップで、前記一連の要素モデル中の少なく
    とも1個の要素モデルが前記複合要素モデルであるステ
    ップと、 (e)前記単語を1回以上発音するステップで、前記単
    語の各発音が構成要素音の観測された順序を生成するス
    テップと、 (f)前記第1と第2の重み係数の前記先の値と前記第
    1と第2の原始要素モデルのパラメータの値とから、前
    記第1の原始要素モデルの発生の条件付き確率を、前記
    複合要素モデルの発生と構成要素音の前記観測された順
    序の発生とが与えられて、推定するステップと、(g)
      前記条件付き確率から前記第1の重み係数用の後の
    値を推定するステップ。
  2. 【請求項2】  前記第1の原始要素モデルの発生の条
    件付き確率を、前記複合要素モデルの発生と構成要素音
    の前記観測された順序の発生とが与えられて、推定する
    ステップは、前記第1と第2の重み係数の前記先の値と
    前記第1と第2の原始要素モデルのパラメータの値とか
    ら、前記複合要素モデルの発生の確率を、構成要素音の
    前記観測された順序の発生が与えられて、推定するステ
    ップと、前記第1と第2の重み係数の前記先の値と前記
    第1と第2の原始要素モデルのパラメータの値とから、
    前記第1の原始要素モデルと前記複合要素モデルの発生
    の結合確率を、構成要素音の前記観測された順序の発生
    が与えられて、推定するステップと、前記複合要素モデ
    ルの発生の確率に対する前記結合確率の比として、条件
    付き確率を、構成要素音の前記観測された順序の発生が
    与えられて、推定するステップと、を備えることを特徴
    とする請求項1記載の多辺マルコフで単語をモデル化す
    る方法。
  3. 【請求項3】  前記複合要素モデルの発生の確率を、
    構成要素音の前記観測された順序の発生が与えられて、
    推定するステップは、構成要素音の前記観測された順序
    での各構成要素音用に、前記構成要素音が前記複合要素
    モデルによって生成された確率を、構成要素音の前記観
    測された順序の発生が与えられて、推定するステップを
    備え、また、前記第1の原始要素モデルと前記複合要素
    モデルの発生の結合確率を、構成要素音の前記観測され
    た順序の発生が与えられて、推定するステップは、構成
    要素音の前記観測された順序での各構成要素音用に、前
    記構成要素音が前記第1の原始要素モデルと前記複合要
    素モデルによって生成された確率を、構成要素音の前記
    観測された順序の発生が与えられて、推定するステップ
    を備えることを特徴とする請求項2記載の多辺マルコフ
    で単語をモデル化する方法。
  4. 【請求項4】  前記方法は、前記第1と第2の重み係
    数の前記先の値と前記第1と第2の原始要素モデルのパ
    ラメータの値とから、前記第2の原始要素モデルの発生
    の条件付き確率を、前記複合要素モデルの発生と構成要
    素音の前記観測された順序の発生とが与えられて、推定
    するステップと、前記第2の条件付き確率から前記第2
    の重み係数用の後の値を推定するステップと、をさらに
    備えることを特徴とする請求項3記載の多辺マルコフで
    単語をモデル化する方法。
  5. 【請求項5】  前記第1と第2の原始要素モデルの前
    記開始状態を組み合わせるステップは、線型に重み付け
    された組合せによって前記第1と第2の原始要素モデル
    の前記開始状態を組み合わせるステップを備えることを
    特徴とする請求項4記載の多辺マルコフで単語をモデル
    化する方法。
  6. 【請求項6】  前記単語を1回以上発音するステップ
    は、複数の異なる話者によって前記単語を複数回発音す
    るステップを備えることを特徴とする請求項5記載の多
    辺マルコフで単語をモデル化する方法。
  7. 【請求項7】  各原始要素モデルのパラメータの値は
    、構成要素音を生成する確率を表現することを特徴とす
    る請求項6記載の多辺マルコフで単語をモデル化する方
    法。
  8. 【請求項8】  以下の手段を有する多辺マルコフで単
    語をモデル化する装置。 (a)n個の原始要素モデルの有限集合を記憶する手段
    で、ただし、nは2以上の整数であり、各原始要素モデ
    ルが音声構成要素を表現し、各原始要素モデルが開始状
    態とある値を有する少なくとも1つのパラメータとを有
    する手段と、 (b)それぞれ、少なくとも第1と第2の重み係数を有
    する構成要素モデルを形成するために異なる音声構成要
    素の少なくとも第1と第2の原始要素モデルを組み合わ
    せる手段で、各重み係数が先の値を有し、前記原始要素
    モデルが前記重み係数の値に比例してそれらのパラメー
    タの重み付けされた組合せによって組み合わされる手段
    と、 (c)単語モデルを形成するために一連の要素モデルを
    連結する手段で、前記一連の要素モデル中の少なくとも
    1個の要素モデルが前記複合要素モデルである手段と、
    (e)前記単語の1以上の発音の少なくとも1つの特徴
    の値を測定する手段で、各発音が一連の連続する時間間
    隔に渡って起こり、特徴値を表現する観測された音響ベ
    クトル信号の順序を生成するために各時間間隔中に前記
    発音の前記特徴値を測定する手段と、 (f)前記第1と第2の重み係数の前記先の値と前記第
    1と第2の原始要素モデルのパラメータの値とから、前
    記第1の原始要素モデルの発生の条件付き確率を、前記
    複合要素モデルの発生と構成要素音の前記観測された順
    序の発生とが与えられて、推定する手段と、(g)前記
    条件付き確率から前記第1の重み係数用の後の値を推定
    する手段。
  9. 【請求項9】  前記第1の原始要素モデルの発生の条
    件付き確率を、前記複合要素モデルの発生と構成要素音
    の前記観測された順序の発生とが与えられて、推定する
    手段は、前記第1と第2の重み係数の前記先の値と前記
    第1と第2の原始要素モデルのパラメータの値とから、
    前記複合要素モデルの発生の確率を、音響ベクトル信号
    の前記観測された順序の発生が与えられて、推定する手
    段と、前記第1と第2の重み係数の前記先の値と前記第
    1と第2の原始要素モデルのパラメータの値とから、前
    記第1の原始要素モデルと前記複合要素モデルの発生の
    結合確率を、音響ベクトル信号の前記観測された順序の
    発生が与えられて、推定する手段と、前記複合要素モデ
    ルの発生の確率に対する前記結合確率の比として、条件
    付き確率を、音響ベクトル信号の前記観測された順序の
    発生が与えられて、推定する手段と、を有することを特
    徴とする請求項8記載の多辺マルコフで単語をモデル化
    する装置。
  10. 【請求項10】  前記複合要素モデルの発生の確率を
    、音響ベクトル信号の前記観測された順序の発生が与え
    られて、推定する手段は、音響ベクトル信号の前記観測
    された順序での各音響ベクトル信号用に、前記音響ベク
    トル信号が前記複合要素モデルによって生成された確率
    を、音響ベクトル信号の前記観測された順序の発生が与
    えられて、推定する手段を有し、また、前記第1の原始
    要素モデルと前記複合要素モデルの発生の結合確率を、
    音響ベクトル信号の前記観測された順序の発生が与えら
    れて、推定する手段は、音響ベクトル信号の前記観測さ
    れた順序での各音響ベクトル信号用に、前記音響ベクト
    ル信号が前記第1の原始要素モデルと前記複合要素モデ
    ルによって生成された確率を、音響ベクトル信号の前記
    観測された順序の発生が与えられて、推定する手段を有
    することを特徴とする請求項9記載の多辺マルコフで単
    語をモデル化する装置。
  11. 【請求項11】  前記第1と第2の重み係数の前記先
    の値と前記第1と第2の原始要素モデルのパラメータの
    値とから、前記第2の原始要素モデルの発生の条件付き
    確率を、前記複合要素モデルの発生と音響ベクトル信号
    の前記観測された順序の発生とが与えられて、推定する
    手段と、前記第2の条件付き確率から前記第2の重み係
    数用の後の値を推定する手段と、をさらに有する請求項
    10記載の多辺マルコフで単語をモデル化する装置。
  12. 【請求項12】  前記第1と第2の原始要素モデルの
    前記開始状態を組み合わせる手段は、線型に重み付けさ
    れた組合せによって前記第1と第2の原始要素モデルの
    前記開始状態を組み合わせる手段を有することを特徴と
    する請求項11記載の多辺マルコフで単語をモデル化す
    る装置。
  13. 【請求項13】  n個の音声構成要素の有限集合、た
    だし、nは2以上の整数である、を定義するステップと
    、各音声構成要素に原始要素モデルを与えるステップで
    、各原始要素モデルが開始状態とある値を有する少なく
    とも1つのパラメータとを有するステップと、構成要素
    モデルの集合を形成するためにn個の原始要素モデル全
    ての前記開始状態を組み合わせるステップで、各複合要
    素モデルがそれぞれ、前記n個の音声構成要素用にn個
    の重み係数Wn を有し、各重み係数が先の値を有し、
    各複合要素モデル用に、前記原始要素モデルが前記重み
    係数の値に比例してそれらのパラメータの重み付けされ
    た組合せによって組み合わされるステップと、単語モデ
    ルを形成するために一連の複合要素モデルを連結するス
    テップと、前記単語を1回以上発音するステップで、前
    記単語の各発音が構成要素音の観測された順序を生成す
    るステップと、前記重み係数の前記先の値と前記原始要
    素モデルのパラメータの値とから、各原始要素モデルの
    発生の条件付き確率を、各複合要素モデルの発生と構成
    要素音の前記観測された順序の発生とが与えられて、推
    定するステップと、前記条件付き確率から各重み係数用
    の後の値を推定するステップと、を備える多辺マルコフ
    で単語をモデル化する方法。
  14. 【請求項14】  原始要素モデルの発生の条件付き確
    率を、複合要素モデルの発生と構成要素音の前記観測さ
    れた順序の発生とが与えられて、推定するステップは、
    前記重み係数の前記先の値と前記原始要素モデルのパラ
    メータの値とから、前記複合要素モデルの発生の確率を
    、構成要素音の前記観測された順序の発生が与えられて
    、推定するステップと、前記重み係数の前記先の値と前
    記原始要素モデルのパラメータの値とから、前記原始要
    素モデルと前記複合要素モデルの発生の結合確率を、構
    成要素音の前記観測された順序の発生が与えられて、推
    定するステップと、前記複合要素モデルの発生の確率に
    対する前記結合確率の比として、条件付き確率を、構成
    要素音の前記観測された順序の発生が与えられて、推定
    するステップと、を備えることを特徴とする請求項13
    記載の多辺マルコフで単語をモデル化する方法。
  15. 【請求項15】  複合要素モデルの発生の確率を、構
    成要素音の前記観測された順序の発生が与えられて、推
    定するステップは、構成要素音の前記観測された順序で
    の各構成要素音用に、前記構成要素音が前記複合要素モ
    デルによって生成された確率を、構成要素音の前記観測
    された順序の発生が与えられて、推定するステップを備
    え、また、原始要素モデルと複合要素モデルの発生の結
    合確率を、構成要素音の前記観測された順序の発生が与
    えられて、推定するステップは、構成要素音の前記観測
    された順序での各構成要素音用に、前記構成要素音が前
    記第1の原始要素モデルと前記複合要素モデルによって
    生成された確率を、構成要素音の前記観測された順序の
    発生が与えられて、推定するステップを備えることを特
    徴とする請求項14記載の多辺マルコフで単語をモデル
    化する方法。
  16. 【請求項16】  前記原始要素モデルの前記開始状態
    を組み合わせるステップは、線型に重み付けされた組合
    せによって前記原始要素モデルの前記開始状態を組み合
    わせるステップを備えることを特徴とする請求項15記
    載の多辺マルコフで単語をモデル化する方法。
  17. 【請求項17】  前記単語を1回以上発音するステッ
    プは、複数の異なる話者によって前記単語を複数回発音
    するステップを備えることを特徴とする請求項16記載
    の多辺マルコフで単語をモデル化する方法。
  18. 【請求項18】  各原始要素モデルのパラメータの値
    は、構成要素音を生成する確率を表現することを特徴と
    する請求項17記載の多辺マルコフで単語をモデル化す
    る方法。
JP3083514A 1990-04-25 1991-03-22 多辺マルコフで単語をモデル化する方法と装置 Expired - Fee Related JP2694062B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/514,075 US5129001A (en) 1990-04-25 1990-04-25 Method and apparatus for modeling words with multi-arc markov models
US514075 1990-04-25

Publications (2)

Publication Number Publication Date
JPH04227569A true JPH04227569A (ja) 1992-08-17
JP2694062B2 JP2694062B2 (ja) 1997-12-24

Family

ID=24045698

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3083514A Expired - Fee Related JP2694062B2 (ja) 1990-04-25 1991-03-22 多辺マルコフで単語をモデル化する方法と装置

Country Status (4)

Country Link
US (1) US5129001A (ja)
EP (1) EP0453649B1 (ja)
JP (1) JP2694062B2 (ja)
DE (1) DE69028842D1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5465318A (en) * 1991-03-28 1995-11-07 Kurzweil Applied Intelligence, Inc. Method for generating a speech recognition model for a non-vocabulary utterance
US5276766A (en) * 1991-07-16 1994-01-04 International Business Machines Corporation Fast algorithm for deriving acoustic prototypes for automatic speech recognition
US5388183A (en) * 1991-09-30 1995-02-07 Kurzwell Applied Intelligence, Inc. Speech recognition providing multiple outputs
US5233681A (en) * 1992-04-24 1993-08-03 International Business Machines Corporation Context-dependent speech recognizer using estimated next word context
JPH0772840B2 (ja) * 1992-09-29 1995-08-02 日本アイ・ビー・エム株式会社 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
US5623609A (en) * 1993-06-14 1997-04-22 Hal Trust, L.L.C. Computer system and computer-implemented process for phonology-based automatic speech recognition
CA2126380C (en) * 1993-07-22 1998-07-07 Wu Chou Minimum error rate training of combined string models
US5793891A (en) * 1994-07-07 1998-08-11 Nippon Telegraph And Telephone Corporation Adaptive training method for pattern recognition
MX9703138A (es) 1994-11-01 1997-06-28 British Telecomm Reconocimiento de lenguaje.
DE19510083C2 (de) * 1995-03-20 1997-04-24 Ibm Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen
JPH10503033A (ja) * 1995-05-03 1998-03-17 フィリップス エレクトロニクス ネムローゼ フェン ノートシャップ 新ワードのモデル化に基づく音声認識方法及びその装置
US5822728A (en) * 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US5825977A (en) * 1995-09-08 1998-10-20 Morin; Philippe R. Word hypothesizer based on reliably detected phoneme similarity regions
US5684925A (en) * 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
US6574597B1 (en) * 1998-05-08 2003-06-03 At&T Corp. Fully expanded context-dependent networks for speech recognition
US6163768A (en) 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
EP1865496A4 (en) * 2005-03-30 2010-08-18 Pioneer Corp LANGUAGE RECOGNITION, LANGUAGE RECOGNITION, LANGUAGE RECOGNITION AND RECORDING MEDIUM
JP2013205170A (ja) * 2012-03-28 2013-10-07 Sony Corp 情報処理装置、情報処理方法、およびプログラム
US8473293B1 (en) * 2012-04-17 2013-06-25 Google Inc. Dictionary filtering using market data
US9460088B1 (en) * 2013-05-31 2016-10-04 Google Inc. Written-domain language modeling with decomposition

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US4741036A (en) * 1985-01-31 1988-04-26 International Business Machines Corporation Determination of phone weights for markov models in a speech recognition system
US4833712A (en) * 1985-05-29 1989-05-23 International Business Machines Corporation Automatic generation of simple Markov model stunted baseforms for words in a vocabulary
US4819271A (en) * 1985-05-29 1989-04-04 International Business Machines Corporation Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments
JPS62231993A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声認識方法

Also Published As

Publication number Publication date
EP0453649A2 (en) 1991-10-30
EP0453649B1 (en) 1996-10-09
US5129001A (en) 1992-07-07
JP2694062B2 (ja) 1997-12-24
EP0453649A3 (en) 1993-05-19
DE69028842D1 (de) 1996-11-14

Similar Documents

Publication Publication Date Title
JPH04227569A (ja) 多辺マルコフで単語をモデル化する方法と装置
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP5242724B2 (ja) 音声プロセッサ、音声処理方法および音声プロセッサの学習方法
US5268990A (en) Method for recognizing speech using linguistically-motivated hidden Markov models
JP2826215B2 (ja) 合成音声生成方法及びテキスト音声合成装置
US5333236A (en) Speech recognizer having a speech coder for an acoustic match based on context-dependent speech-transition acoustic models
Fazel et al. Synthasr: Unlocking synthetic data for speech recognition
JPH06110493A (ja) 音声モデルの構成方法及び音声認識装置
JPH05216490A (ja) 音声コード化装置及び方法並びに音声認識装置及び方法
JP2001517325A (ja) 認識システム
CN101432799B (zh) 基于高斯混合模型的变换中的软校准
WO2016172871A1 (zh) 基于循环神经网络的语音合成方法
JP3130524B2 (ja) 音声信号認識方法およびその方法を実施する装置
Hain et al. The cu-htk march 2000 hub5e transcription system
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
US5293451A (en) Method and apparatus for generating models of spoken words based on a small number of utterances
JP3541224B2 (ja) 音源の分離方法および分離装置
Roucos et al. A stochastic segment model for phoneme-based continuous speech recognition
JP6542823B2 (ja) 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム
JP2004509364A (ja) 音声認識システム
da Silva et al. Speaker-independent embedded speech recognition using Hidden Markov Models
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
JP3256979B2 (ja) 音響モデルの入力音声に対する尤度を求める方法
JP2961797B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees