JPH0728487A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH0728487A
JPH0728487A JP6053938A JP5393894A JPH0728487A JP H0728487 A JPH0728487 A JP H0728487A JP 6053938 A JP6053938 A JP 6053938A JP 5393894 A JP5393894 A JP 5393894A JP H0728487 A JPH0728487 A JP H0728487A
Authority
JP
Japan
Prior art keywords
word
model
context
hmm
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6053938A
Other languages
English (en)
Inventor
Charles T Hemphill
ティー.ヘンプヒル チャールズ
P Netsch Lorin
ピー.ネッシュ ロリン
M Kuribusu Christopher
エム.クリブス クリストファー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of JPH0728487A publication Critical patent/JPH0728487A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 単語間の調音随伴を表わす効率的なモデル化
を行う音声認識方法を提供する。 【構成】 本発明は隣接する単語の文脈をモデル化する
ための音声認識方法であって、第1の単語または沈黙期
間を2個の部分に分割するステップと、第1の単語に隣
接する第2の単語または沈黙期間を2個の部分に分割す
るステップと、第1の単語または沈黙期間の末尾部分5
8と第2の単語または沈黙期間の先頭の部分60とを連
結して音響モデルをつくるステップとを含む。本方法は
また音響モデルをミドルツーミドル文脈に限定するため
の文法をつくるステップも含む。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声認識方法に関するも
のである。
【0002】
【従来の技術】ここでは本発明の請求の範囲に限定せず
に、音声認識に関する従来技術を述べる。自動音声認識
の考えられる応用には、少ない語彙を精度良く認識する
ことを要求されることが多い。一例を挙げると、一連の
ディジット(「0」から「9」までの数)だけを発音す
る場合がある。単語を自然に話すとき、音声認識装置に
とって難しいことがいくつかある。例えば多くの単語を
発音するとき単語と短い切れ目の間に多くの調音随伴文
脈を伴うという問題がある。例えば、「eight
(8)」という数の場合、先頭と末尾の音響認識が何種
類もある。「threeeight」と「four e
ight」と発音する際、「eight」の先頭の音は
先行する音に影響される。「eight oh」、「e
ight nine」および独立の「eight」を発
音する場合、通常、「t」は音が飛んだり、分離しなか
ったり、破裂音になったりするだろう。高性能の自動音
声認識を実現するには、文脈による調音随伴効果をモデ
ル化しなければならない。
【0003】単語のモデル化には何種類もの方法が開発
されている。最近ではHMM(Hidden Markov Model
(隠れたモルコフモデル))という方法が多大な成功を
収めている。HMMは状態のシーケンスによって単語を
表わす。唯一の音響観測確率密度をHMMの各状態に書
きつける。状態間遷移が許される場合には、その確率が
付された遷移弧により定義される。状態と音響密度と遷
移との組合せによって単語モデルを定義する。図1にそ
の一例を示す。
【0004】多数の密度マッピング 文脈を具体化するひとつの方法は、多数の音響観測密度
をHMMの各状態にあてはめることである。状態にあて
られた多数の密度はしばしば「混合密度」と呼ばれる。
先の例である「eight」という単語と図1のHMM
モデルとを使うと、単語モデルの末尾の状態は飛び音、
破裂音、または非分離音を表わす多数の付随する音響密
度を有するであろう。このように単語モデルは先に述べ
た「eight」に関して独立した文脈を含む。この方
法の利点は、もし語彙数がN個であれば、わずかN個の
モデルを作りさえすればよいということである。しか
し、「混合密度」モデルだけを使うと、その単語モデル
に前後に話された単語に基づく適当な音響密度を使うこ
とができない。この結果、確実性が減って音声認識の性
能が悪くなる。多数の密度をマッピングするモデルにつ
いては次の文献を参照されたい。L.R. Rabiner, “A Tu
torial on Hidden Markov Models and Selected Applic
ations in Speech Recognition" 、(ラビナー著、「音
声認識におけるHMMと選択された応用に関する講義」
IEEIプロシーディング、第77巻、2号、頁257
−286、1989年2月。
【0005】多数の文脈依存性のモデル 上記の「混合密度」モデル化の限界を解決する方法は、
各々可能な文脈毎に別々の単語モデルをつくることであ
る。例えば、単語「eight」について各々可能な前
後のディジット毎にモデルをつくることができよう。そ
れから認識装置は、適当な文脈の中でのみ各ディジット
を使うことを義務づける文法を利用することになろう。
この方法の問題はN個の語彙に対してN3 個のモデルを
作らなければならないことである。この結果モデル数が
非常に多くなって、モデルを訓練するために多量のデー
タが必要になり、認識を実行するための処理時間がそれ
だけ長くなる。単語モデルを集合化することにより単語
モデルの数を減らすことができよう。すなわち、N3
のモデルのうち類似のものを見つけて、それらの文脈を
1個の単語モデルに組入れるのである。多数の文脈依存
性モデルについては下記の文献を参照されたい。L.R. R
abiner, C.H. Lee, B.H. Tuang, and T.G. Wilpon,“HM
M Clustering for Connected Word Recognition", (ラ
ビナー、リー、ヤング、ウィルポン著、「連結された単
語認識のためのHMM集合化」)、ICASSP’89
プロシーディング、第1巻、頁405−408、198
9年5月)
【0006】2音と3音のモデル化 1個の単語全体を1個のHMMとしてモデル化する替わ
りに、サブワード単位をHMMとしてモデル化すること
ができよう。この場合、サブワード単位は1単語中の音
と音の間、および単語と単語との間に起きる調音随伴音
響学を表わすように選ぶことになろう。特に、従来技術
ては2音単位と3音単位をHMMとして定義し、1音同
士の遷移をモデル化した。これらのサブワード単位は調
音随伴性文脈中の単語をモデル化する文法により制限す
ることができる。2音モデルについては下記の文献を参
照されたい。D.B. Paul,“The Lincoln Robust Continu
ous Speech Recognizer"、(ポール著、「リンカンロバ
ストの連続的な音声認識装置」)ICASSP’89プ
ロシーディング、第1巻、頁449−452、1989
年5月。)3音モデルについては下記の文献を参照され
たい。K.F. Lee, H.W. Hon, M.Y. Hwang, S. Mahajan,
and R. Reddy, “The SPHINX Speech Recognition Syst
em" 、(リー、ホン、ワング、マハジャン、レッディ
著、「SPHINX音声認識システム」)、ICASS
P’89プロシーディング、第1巻、頁445−44
8、1989年5月。)
【0007】
【課題を解決するための手段】本発明はHMMの応用を
採用することによって、その種の文脈をモデル化する方
法に関するものであり、単語間の調音随伴を表わす効率
的な方法を提供するものである。
【0008】本発明によれば、単語と沈黙の可能な各結
合ごとに、ある単語(または沈黙)の真中(ミドル)か
ら次の単語(または沈黙)の真中(ミドル)までをつな
ぐHMMを別々につくる。これらのモデルは、単語の先
頭と末尾の音響は隣接する文脈と共に確かに変わるが、
単語の真中の音響は比較的文脈と関係がないという観測
を利用している。本発明では2音のようなサブワード単
位をつくる必要性がない。
【0009】本発明は隣接する単語文脈をモデル化する
ための音声認識方法であって、第1の単語を2個の部分
に分割するステップと、第1の単語に隣接する第2の単
語または沈黙期間を2個の部分に分割するステップと、
第1の単語の終りの部分と第2の単語または沈黙期間の
始めの部分とを連結して、音響モデルをつくるステップ
と、を含む。本発明の本質や利点は以下の説明で明らか
にする。
【0010】
【実施例】以下図面を参照しながら本発明の実施例を説
明する。図中類似の要素には同じ符号を付してある。図
1は従来の音声認識技術を用いた単語の状態図である。
状態S1−S6と、音響密度と遷移との組合せで単語モ
デルが定義される。単語モデルは単語の始まり50から
単語の終わり52までの状態の流れを示すことにより表
わされる。各状態54には遷移弧56が付いている。
【0011】最初のミドルツーミドルモデルをつくる 現在ある単語モデルHMMから最初のミドルツーミドル
文脈HMMをつくる。これはある単語モデルの第2の部
分を別のモデルの第1の部分と連結することにより行わ
れる。Mi は最初のモデルiを表わし、演算子「+」は
モデルの連結を表わすものとする。すると、Mi のミド
ル(真中の部分)からMj のミドルに連結する最初のモ
デルは次式で表わされる。
【0012】
【数1】
【0013】単語の「FirstPart(第1の部
分)」と「SecondPart(第2の部分)」は、
文脈が安定である単語モデルに音響密度を設けることに
より選択される。その結果、ミドルツーミドルHMM
は、ある単語の末尾の調音随伴文脈を別の単語の先頭文
脈の中にモデル化することがてきる。このことは、N個
の語彙に対して、わずかN2 個のモデルをつくればよい
ことを意味する。図2−4にはこの方法を用いた「ei
ght」と「oh」の独創的な単語モデルを示す。
【0014】図2のHMMは「eight」(M8 )を
示す。末尾の3個の状態は「eight」モデルの末尾
の部分58を表す。図3に示すのは「oh」(M0 )に
対するHMMである。先頭の3個の状態は「oh」モデ
ルの先頭の部分60を表わしている。図4に示すのは
「eight−oh」(MM8,0 )に対する結果として
のミドルツーミドルHMMである。「eight」モデ
ルの末尾の部分58と「oh」モデルの先頭の部分60
とが連結された結果、図4のモデルがつくられる。
【0015】ミドルツーミドル文脈の文法をつくる 次に、ミドルツーミドルモデルに必要な文脈を維持する
文法をつくる。Ms は「沈黙」モデルを表わすことにす
ると、この文法は次の3個の規則を有する。
【0016】
【数2】
【0017】ここでNTは文法の末終端記号を表わす。
最初と最後の規則はそれぞれ、認識が沈黙によって始ま
り、沈黙によって終ることを要求している。2番目の規
則は認識を適当なミドルツーミドル文脈に限定してい
る。
【0018】最初のミドルツーミドルモデルを訓練する それから語彙中の単語を多くの人が発音したのを集めた
大きな言語資料(corpus)を用いて、文法と最初のミド
ルツーミドルHMMの訓練を行う。このことは現在よく
知られているHMM訓練アルゴリズムを使って行う。そ
の結果、ミドルツーミドルHMMは単語間の調音随伴文
脈をモデル化する。
【0019】本発明の実施例は共同性共分散計量仮説
(pooled-covariance metric assumption)を用いたTI
音声認識装置を使えば、元からあるディジットモデルH
MMとミドルツーモデルとの両方に採用することができ
よう。(この仮説については例えば以下の文献を参照さ
れたい。G.R. Doddington,“Phonetically Sensitive D
iscriminants for Improved Speech Recognition" (ド
ッディントン著、「改良された音声認識のための音声感
知識別子」)、ICASSP’89のプロシーディン
グ、第1巻、頁556−559、1989年5月)単語
モデルHMMのディジット(1から9迄の数)単語誤認
率は3.6%である(ここで誤りには置換、脱落、挿入
を含む)。ミドルツーミドルHMMを用いた認識法の単
語誤認率は2.1%である。更に、本発明の実施例に周
知の音響観測集合アルゴリズム(acoustic observation
clustering algorithm)を用いれば、統計的表現が改良
されて、文脈を表わすのに必要な音響密度の数を減らす
ことができよう。(このアルゴリズムについては例えば
次の文献を参照されたい。M.Hwang and X.Huang,“Subp
honetic Modeling with Markov States-Senone" (ワン
グとホワング著、「マルコフ状態セノンを用いた副音声
モデル化」)、ICASSP’92プロシーディング、
第1巻、頁33−36、1992年3月)。
【0020】以上説明した実施例と変形例は本発明の原
理を示すための例示にすぎない。当業者なら本発明の範
囲から逸脱することなく多くの修正をなしうるであろ
う。本発明の明らかな拡張例をいくつか挙げる。本発明
の好ましい実施例ではHMMモデルを用いたが、このこ
とは必須ではない。単語モデルにテンプレートを用いて
もよかったし、DTW整合を用いて認識することもでき
よう。図に示したHMMの形態は例示の目的にすぎな
い。本発明はどんなHMM形態の配置にも適用可能であ
る。好ましい実施例では数語から成るモデルを示した。
しかし、この方法を用いて任意の音声単位をモデル化す
ることができよう。単音レベルのモデル化は従来技術の
2音法に類似しているといえようが、本発明では文脈文
法を使う点が異なる。他の任意の単位も使える。
【0021】以上説明に関して更に以下の項を開示す
る。 (1)(ア)第1の単語または沈黙期間を2個の部分に
分割するステップと、(イ)前記第1の単語または沈黙
期間に隣接する第2の単語または沈黙期間を、2個の部
分に分割するステップと、(ウ)前記第1の単語または
沈黙期間の末尾の部分と、前記第2の単語または沈黙期
間の先頭部分とを連結して、音響モデルをつくるステッ
プと、を含むことを特徴とする、隣接単語の文脈をモデ
ル化するための音声認識方法。 (2) 第(1)項記載の方法において、前記部分は各
単語の約半分を占めることと、各単語は安定な音響文脈
の中で分割されることとを特徴とする、音声認識方法。 (3) 第(1)項記載の方法において、前記音響モデ
ルは文法をつくることにより適当な文脈に限定されるこ
とを特徴とする、音声認識方法。
【0022】(4) 第(1)項記載の方法において、
前記文法は、(ア)少なくとも3個の文法規則を用いる
ことと、(イ)第1の文法規則は沈黙モデルで始まるこ
とと、(ウ)最後に文法規則は沈黙モデルで終ること
と、(エ)真中の文法規則は、単語または沈黙期間の第
1の半分を表わす音響モデルの第2の部分を、該単語ま
たは沈黙期間の第2の半分を表わす隣接音響モデルの第
1の部分に整合させる非終端記号を含むことと、を特徴
とする、音声認識方法。 (5) 第(1)項記載の方法において、前記音響モデ
ルはHMM(Hidden Markov Model)技術を用いてつくら
れることを特徴とする、音声認識方法。
【0023】(6) 第(1)項記載の方法において、
前記音響モデルは神経回路網モデル化技術を用いてつく
られることを特徴とする、音声認識方法。 (7) 第(1)項記載の方法において、前記音響モデ
ルはDTWテンプレートモデル化技術を用いてつくられ
ることを特徴とする、音声認識方法。 (8)(ア)音声認識装置と、(イ)前記音声認識装置
に接続されていて、単語と沈黙期間とを分離する手段
と、(ウ)分離された単語と沈黙期間とを記憶するため
のメモリと、(エ)前記単語と沈黙期間との音響モデル
をつくるための計算手段と、(オ)前記単語と沈黙期間
との前記音響モデルを2個の部分に分割する手段と、
(カ)第1の単語の末尾の部分と、第2の単語または沈
黙期間の先頭の部分とを連結して、新しい音響モデルを
つくる手段と、を含むことを特徴とする、隣接する単語
の文脈をモデル化するための音響モデルを用いた音声認
識システム。
【0024】(9) 第(8)項記載の装置において、
前記システムは音響モデルと連結するために計算手段に
結合された文法を含むことを特徴とする、音声認識シス
テム。 (10) 第(9)項記載の装置において、前記音響シ
ステムは、前記文法により適当な文脈に限定されること
を特徴とする、音声認識システム。 (11) 第(10)項記載の装置において、前記文法
は、(ア)少なくとも3個の文法規則を含むことと、
(イ)最初の文法規則は沈黙モデルで始まり、最後の文
法規則は沈黙モデルで終ることと、(ウ)真中の文法規
則は、単語または沈黙期間の第1の半分を表わす音響モ
デルの第2の部分を、該単語または沈黙期間の第2の半
分を表わす隣接音響モデルの第1の部分に整合させる非
終端記号を含むこととを含むことを特徴とする、音声認
識システム。
【0025】(12) 第(8)項記載の装置におい
て、前記システムは隠れたHMMを用いることを特徴と
する、音声認識システム。 (13) 第(8)項記載の装置において、前記システ
ムは神経回路網音響モデルを用いることを特徴とする、
音声認識システム。 (14) 第(8)項記載の装置において、前記システ
ムはDTWテンプレートモデルを用ることを特徴とす
る、音声認識システム。
【0026】(15) 本発明は隣接する単語の文脈を
モデル化するための音声認識方法であって、第1の単語
または沈黙期間を2個の部分に分割するステップと、第
1の単語に隣接する第2の単語または沈黙期間を2個の
部分に分割するステップと、第1の単語または沈黙期間
の末尾部分と第2の単語または沈黙期間の先頭の部分と
を連結して音響モデルをつくるステップとを含む。本方
法はまた、音響モデルをミドルツーミドル文脈に限定す
るための文法をつくるステップも含む。
【図面の簡単な説明】
【図1】従来技術を用いた単語の状態図。
【図2】本発明の一例の状態図。
【図3】本発明の一例の状態図。
【図4】本発明の一例の状態図。
【符号の説明】
50 単語の始まり 52 単語の終り 54 状態 56 遷移弧 58 単語の末尾の部分 60 単語の先頭の部分
───────────────────────────────────────────────────── フロントページの続き (72)発明者 クリストファー エム.クリブス アメリカ合衆国テキサス州ダラス,ミーダ ーズ レーン 5949

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 (ア)第1の単語または沈黙期間を2個
    の部分に分割するステップと、 (イ)前記第1の単語または沈黙期間に隣接する第2の
    単語または沈黙期間を、2個の部分に分割するステップ
    と、 (ウ)前記第1の単語または沈黙期間の末尾の部分と、
    前記第2の単語または沈黙期間の先頭部分とを連結し
    て、音響モデルをつくるステップと、を含むことを特徴
    とする隣接単語の文脈をモデル化するための音声認識方
    法。
JP6053938A 1993-03-26 1994-03-24 音声認識方法 Pending JPH0728487A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US3858193A 1993-03-26 1993-03-26
US038581 1993-03-26

Publications (1)

Publication Number Publication Date
JPH0728487A true JPH0728487A (ja) 1995-01-31

Family

ID=21900730

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6053938A Pending JPH0728487A (ja) 1993-03-26 1994-03-24 音声認識方法

Country Status (2)

Country Link
US (1) US5812974A (ja)
JP (1) JPH0728487A (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE179543T1 (de) * 1995-03-07 1999-05-15 Siemens Ag Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird
KR100397435B1 (ko) * 1996-07-20 2003-12-24 엘지전자 주식회사 음성인식시스템에서새로운등록단어처리가가능한클래식를이용한언어학적모델처리방법
US6374219B1 (en) * 1997-09-19 2002-04-16 Microsoft Corporation System for using silence in speech recognition
US6807537B1 (en) * 1997-12-04 2004-10-19 Microsoft Corporation Mixtures of Bayesian networks
CA2395012A1 (en) 1998-09-29 2000-04-06 Lernout & Hauspie Speech Products N.V. Inter-word triphone models
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8788256B2 (en) 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
US8862467B1 (en) 2013-12-11 2014-10-14 Google Inc. Contextual speech recognition
US11853884B2 (en) 2017-02-10 2023-12-26 Synaptics Incorporated Many or one detection classification systems and methods
US11100932B2 (en) * 2017-02-10 2021-08-24 Synaptics Incorporated Robust start-end point detection algorithm using neural network
CN110138654B (zh) * 2019-06-06 2022-02-11 北京百度网讯科技有限公司 用于处理语音的方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4349700A (en) * 1980-04-08 1982-09-14 Bell Telephone Laboratories, Incorporated Continuous speech recognition system
US4695962A (en) * 1983-11-03 1987-09-22 Texas Instruments Incorporated Speaking apparatus having differing speech modes for word and phrase synthesis
US4833712A (en) * 1985-05-29 1989-05-23 International Business Machines Corporation Automatic generation of simple Markov model stunted baseforms for words in a vocabulary
US5475796A (en) * 1991-12-20 1995-12-12 Nec Corporation Pitch pattern generation apparatus
US5596680A (en) * 1992-12-31 1997-01-21 Apple Computer, Inc. Method and apparatus for detecting speech activity using cepstrum vectors
IT1270919B (it) * 1993-05-05 1997-05-16 Cselt Centro Studi Lab Telecom Sistema per il riconoscimento di parole isolate indipendente dal parlatore mediante reti neurali
US5457770A (en) * 1993-08-19 1995-10-10 Kabushiki Kaisha Meidensha Speaker independent speech recognition system and method using neural network and/or DP matching technique
US5594834A (en) * 1994-09-30 1997-01-14 Motorola, Inc. Method and system for recognizing a boundary between sounds in continuous speech

Also Published As

Publication number Publication date
US5812974A (en) 1998-09-22

Similar Documents

Publication Publication Date Title
US7299178B2 (en) Continuous speech recognition method and system using inter-word phonetic information
EP1575029B1 (en) Generating large units of graphonemes with mutual information criterion for letter to sound conversion
US8532993B2 (en) Speech recognition based on pronunciation modeling
US7275034B2 (en) Word-specific acoustic models in a speech recognition system
Woodland et al. The 1994 HTK large vocabulary speech recognition system
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
JPWO2007097176A1 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
JPH0728487A (ja) 音声認識方法
US7289958B2 (en) Automatic language independent triphone training using a phonetic table
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
JPH08227298A (ja) クラスタ化された単語間及び/又は句間の調音結合を使用した音声認識
US7133827B1 (en) Training speech recognition word models from word samples synthesized by Monte Carlo techniques
Boite et al. A new approach towards keyword spotting.
Lee et al. Improved acoustic modeling for continuous speech recognition
Banerjee et al. Application of triphone clustering in acoustic modeling for continuous speech recognition in Bengali
AU2004256561A1 (en) Voice recognition for large dynamic vocabularies
JP4283133B2 (ja) 音声認識装置
JP3364631B2 (ja) 統計的言語モデル生成装置及び音声認識装置
US8260614B1 (en) Method and system for expanding a word graph to a phone graph based on a cross-word acoustical model to improve continuous speech recognition
JP2006243213A (ja) 言語モデル変換装置、音響モデル変換装置、及びコンピュータプログラム
JP2005156593A (ja) 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置
JP3428309B2 (ja) 音声認識装置
Svendsen Pronunciation modeling for speech technology
JP3033322B2 (ja) 連続音声認識方法
KR0157026B1 (ko) 한국어 기본음소단위군으로 구성한 한국어 형태소 발음사전을 사용한 한국어 연속음성 인식시스템 및 그 방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040716

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041210