JP3535292B2 - 音声認識システム - Google Patents
音声認識システムInfo
- Publication number
- JP3535292B2 JP3535292B2 JP34016395A JP34016395A JP3535292B2 JP 3535292 B2 JP3535292 B2 JP 3535292B2 JP 34016395 A JP34016395 A JP 34016395A JP 34016395 A JP34016395 A JP 34016395A JP 3535292 B2 JP3535292 B2 JP 3535292B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic
- recognition
- recognition system
- model
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims description 7
- 230000002542 deteriorative effect Effects 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 9
- 230000000593 degrading effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 241000277269 Oncorhynchus masou Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
に関するものである。詳しくは音声認識の認識率を劣化
させることなく、認識のために必要な計算量を削減し、
認識時間を短縮することを可能とするシステムに関す
る。
処理することを言い、狭義には、発声者が意図した意味
内容の認識を行うことである。音声認識については、1
950年代から各種の研究が進んでおり、隠れマルコフ
モデル(Hidden Markov Model:HMM)、ケプストラ
ム、Δケプストラム等の技術開発により、認識性能が大
幅に向上している。
響系列の最初から最後までについて尤度計算を行い、最
後の音響モデルについて最も尤度の高い文を求め、その
文を認識結果として出力していた。即ち、従来は、入力
音声のパワー等を基にして音声区間を検出し、音声区間
全体に対して尤度計算を行い、累積尤度が最も高い文を
求め、その文を認識結果として出力していた。
ている場合、音声レベルが小さい場合に認識率の低下が
生ずる。また、認識対象の単語又は文が発声された後で
も終話が検出されないかぎり認識を終了しないため、認
識に時間を要していた。
来の音声認識方式では、音響系列の最初から最後までに
ついて、音響モデル系列の尤度(確率)計算を行い、最
後の音響モデルについて最も尤度の高い文を求め、その
文を認識結果として出力していため、認識率が低く、ま
た、尤度の計算量が多いため、認識に時間を要した。
ことなく、認識のために必要な計算量を削減し、認識時
間を短縮することを目的とする。
発明の請求項1に係る音声認識システムは、隠れマルコ
フモデルによる音響モデルを用いた音声認識システムに
おいて、音響モデルの系列が出現する尤度計算を行う段
階で、言語的制約により言語モデルが唯一の文を表現す
ることが数フレーム継続した時点で認識結果を決定する
ことを特徴とする。上記目的を達成する本発明の請求項
2に係る音声認識システムは、請求項1の発明における
前記言語的制約として、辞書に取り扱われていない単語
を排除することを特徴とする。
る音声認識システムは、請求項1の発明における前記言
語的制約として、文法的な誤りのある単語列を排除する
ことを特徴とする。上記目的を達成する本発明の請求項
4に係る音声認識システムは、請求項1,2又は3の発
明における前記言語モデルとして、予め言葉の意味、文
法などに応じて、ユーザが発声する文として表現してお
くことを特徴とする。
る音声認識システムは、請求項1,2,3又は4記載の
音声認識システムにおける前記音響モデルとして、予め
音響パラメータの時系列などから学習処理により作成し
ておくことを特徴とする。
1に示すように、音響分析部1及び認識処理部2により
構成される。音響分析部1は、入力音声Aを音響分析、
即ち、ケプストラム、Δケプストラムなどの音響パラメ
ータの時系列等に変換し、変換した音響パラメータの時
系列等を認識処理部2へ出力する。
を逆フーリエ変換したもので、人間の聴覚の特性に近い
対数スペクトルと線形変換の関係にあるので、人間の聴
覚に合った判定ができ、高次の係数はスペクトルの微細
構造を、低次の係数はスペクトルの包絡を表すので、適
当な次数で打ち切ることにより、比較的少ない数のパラ
メータで効率良く、滑らかなスペクトル包絡を表現する
ことができるという特徴を有する。
動的性質を表す特徴量であり、通常、50〜100ms
程度の区間のケプストラムの時系列を、多項式で展開し
たときの1次の係数(1次微係数に相当)を、Δケプス
トラムとして用いる。
パラメータ時系列等から、音響モデルBの系列の出現す
る尤度(確率)を計算し、最も尤度の高い音響モデルB
の系列が、言語的制約D(辞書、文法)により規定され
ている言語モデルCにおいて唯一の文であるか否か判断
し、唯一の文であり、且つ、数フレーム継続した時点で
最も尤度が高い場合、言語モデルCを認識結果Eとして
出力する
言葉の意味、文法などに応じて、ユーザが発声する文と
して表現しておく。また、複数の文で音響モデルBの系
列が共通する場合は共有化を行う。また、音響モデルB
は、音響パラメータの時系列などから学習処理により作
成しておく。各音響モデルBは、例えば、HMM(隠れ
マルコフモデル)で表現される。
声のスペクトル時系列を、確率状態遷移モデルからの出
力として表現する方法で、通常は1つの音素を3状態程
度の接続で表現し、状態間の遷移確率と、各状態あるい
は遷移における種々のスペクトルの出現確率で、各音素
や単語を特徴づける。従って、隠れマルコフモデルによ
れば、音声スペクトルの変動を統計的に効率良く表現で
きる。
列の中から、言語的には有り得ないものもを排除するも
のである。この言語的制約Dは、認識対象となる単語ま
たは文により言語モデルCとして規定されている。ここ
で、言語的制約Dとしては、二つの形態がある。
ない単語を排除することをいう。ここで、辞書とは、語
彙として扱う単語からなり、例えば、“海”、“空”の
ような名詞、“青い”、“楽しい”のような形容詞、
“です”、“ます”のような動詞等に分けられる。辞書
には、単語がどのような音響モデルBによって表現され
るかが記述される。
能な音響モデルBが文法により制約を受けることを言
い、文法的な誤りのある単語列を排除することをいう。
例えば、辞書に取り扱われる単語の組み合わせであって
も、“青い海である”のように形容詞+名詞+動詞の組
み合わせは文法的に正しいが、“青いである”のような
形容詞+動詞の組み合わせは文法的に正しくない。
フローチャートに従い、次のように実施される。先ず、
音響分析部1に音声が入力されると(ステップS1)、
入力音声Aは音響分析部1でディジタル信号に変換され
た後、音響分析により、ケプストラム、Δケプストラム
などの音響パラメータの時系列等に変換される(ステッ
プS2)。
響パラメータ時系列等から、音響モデルB系列の出現す
る尤度(確率)を計算する(ステップS3)。引き続
き、認識処理部2は、最も尤度の高い音響モデルBの系
列が、言語的制約D(辞書、文法)により規定されてい
る言語モデルCにおいて唯一の文であるか否か判断する
(ステップS4)。
と判断されるときには、入力音声Aの音響パラメータの
時系列等について次々と、音響モデルBの系列の出現す
る尤度を繰り返して計算する(ステップS3)。そし
て、その計算の結果、その言語モデルが唯一の文を表現
する時点で言語モデルCが最も尤度が高く、且つ、数フ
レーム連続した場合、認識結果Eとして出力する(ステ
ップS5)。
例は、図1に示す構成を有し、次の(1)〜(5)の手
順により実施される。 (1)音響分析部1にて入力された音声信号を一定の時
間間隔毎に特徴ベクトルに変換する。この時間間隔をフ
レームと呼び、通常数msから十数ms程度である。特
徴ベクトルとは、前述した音響パラメータと同じ意味で
ある。
デルBとの尤度を計算する。音響モデルBは単語やさら
に小さい音素などの単位(サブワードユニット)で事前
に多くの学習音声を用いて学習されている。音響モデル
の尤度計算にはHMM(隠れマルコフモデル)などが用
いられる(「確率モデルによる音声認識」中川聖一著電
子情報通信学会 参照)。
ルBは文法により言語的に制約されており、この文法D
は認識対象となる単語または文により言語モデルCとし
て規定されている。言語モデルCは図2に示すようにト
ゥリー(木)状に表現される。 (4)認識処理部2は毎フレーム、言語モデルCにより
規定される後続可能な音響モデルBに対して尤度を計算
する。最初の1フレーム目はすべての音響モデルBに対
する尤度を計算し、上位N候補に対して言語モデルCに
より規定される後続可能な音響モデルBの尤度計算を行
う。
の系列が言語モデルCの中で唯一の文を表現することが
数フレーム継続したならば、当該音響モデル系列を含む
認識対象文を認識結果Eとする。 本実施例により、「国名または都市名」+「述語」を認
識するアプリケーションで、認識率を劣化させることな
く、平均認識所要時間が1.74秒から1.20秒へ約
30%改善された。
認識するタスクを考える。述語としては、以下のような
様々な述語(i)〜(iv)を受付可能とする。 (i) です (ii) でございますね (iii) ですね (iv) でよろしいでしょうか
でございますね。」が入力されたとすると、連続音声認
識をした場合、次のような文章〜が尤度が高い候補
にあがると予想される。 オーストラリアでございますね。 オーストラリアですね。 オーストリアですね。
す。国名としては、実際に発声された「オーストラリ
ア」の他に、似た言語として「オーストリア」も候補に
あがることが想定される。ここで、言語モデルCが唯一
と判断される時点は、必ずしも単語の最後ではなく、そ
の中間段階において判断されるのが一般的である。
力される尤度(確率)を計算する際に、「オーストラリ
アの」の”ラ”の後の尤度が「オーストリア」の”リ”
の後の尤度よりも高く、”オーストラ”の後には「オー
ストラリア」以外に辞書に取り扱われないので、認識結
果Eは「オーストラリア」となり、以降の尤度計算は省
略可能となる。
たように、本発明では、隠れマルコフモデルによる音響
モデルを用いた音声認識システムにおいて、音響モデル
の系列が出現する尤度計算を行う段階で、言語的制約に
より言語モデルが唯一の文を表現することが数フレーム
継続した時点で認識結果を決定するので、以後の尤度計
算は省略可能となる。そのため、音声認識の認識率を劣
化させることなく、認識のために必要とする計算量を削
減し、認識時間を短縮することが可能となる。特に本発
明を音声認識装置に採用することにより、マン・マシン
インタフェースの向上が期待できる。
る。
る。
Claims (5)
- 【請求項1】 隠れマルコフモデルによる音響モデルを
用いた音声認識システムにおいて、音響モデルの系列が
出現する尤度計算を行う段階で、言語的制約により言語
モデルが唯一の文を表現することが数フレーム継続した
時点で認識結果を決定することを特徴とする音声認識シ
ステム。 - 【請求項2】 前記言語的制約として、辞書に取り扱わ
れていない単語を排除することを特徴とする請求項1記
載の音声認識システム。 - 【請求項3】 前記言語的制約として、文法的な誤りの
ある単語列を排除することを特徴とする請求項1記載の
音声認識システム。 - 【請求項4】 前記言語モデルは、予め言葉の意味、文
法などに応じて、ユーザが発声する文として表現してお
くことを特徴とする請求項1,2又は3記載の音声認識
システム。 - 【請求項5】 前記音響モデルは、予め音響パラメータ
の時系列などから学習処理により作成しておくことを特
徴とする請求項1,2,3又は4記載の音声認識システ
ム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP34016395A JP3535292B2 (ja) | 1995-12-27 | 1995-12-27 | 音声認識システム |
US08/772,987 US5875425A (en) | 1995-12-27 | 1996-12-23 | Speech recognition system for determining a recognition result at an intermediate state of processing |
DE19654549A DE19654549C2 (de) | 1995-12-27 | 1996-12-27 | Verfahren und Vorrichtung zur Spracherkennung |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP34016395A JP3535292B2 (ja) | 1995-12-27 | 1995-12-27 | 音声認識システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09179581A JPH09179581A (ja) | 1997-07-11 |
JP3535292B2 true JP3535292B2 (ja) | 2004-06-07 |
Family
ID=18334338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP34016395A Expired - Lifetime JP3535292B2 (ja) | 1995-12-27 | 1995-12-27 | 音声認識システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US5875425A (ja) |
JP (1) | JP3535292B2 (ja) |
DE (1) | DE19654549C2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009146245A (ja) * | 2007-12-17 | 2009-07-02 | Nec Corp | 画像照合方法及び画像照合装置並びに画像照合プログラム |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5956675A (en) * | 1997-07-31 | 1999-09-21 | Lucent Technologies Inc. | Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection |
US6404925B1 (en) * | 1999-03-11 | 2002-06-11 | Fuji Xerox Co., Ltd. | Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition |
JP4465564B2 (ja) * | 2000-02-28 | 2010-05-19 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに記録媒体 |
EP1294329A4 (en) * | 2000-04-20 | 2004-03-31 | Cochlear Ltd | TRANSCUTANEOUS ENERGY OPTIMIZATION CIRCUIT FOR COCHLEAR IMPLANT |
JP3782943B2 (ja) * | 2001-02-20 | 2006-06-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 |
EP1595245B1 (en) * | 2003-02-21 | 2009-04-22 | Voice Signal Technologies Inc. | Method of producing alternate utterance hypotheses using auxiliary information on close competitors |
WO2005027093A1 (en) * | 2003-09-11 | 2005-03-24 | Voice Signal Technologies, Inc. | Generation of an alternative pronunciation |
JP4486897B2 (ja) * | 2005-01-20 | 2010-06-23 | 株式会社豊田中央研究所 | 運転行動認識装置 |
US20070183995A1 (en) * | 2006-02-09 | 2007-08-09 | Conopco, Inc., D/B/A Unilever | Compounds useful as agonists of A2A adenosine receptors, cosmetic compositions with A2A agonists and a method for using the same |
US8036896B2 (en) * | 2006-04-18 | 2011-10-11 | Nuance Communications, Inc. | System, server and method for distributed literacy and language skill instruction |
JP6791258B2 (ja) * | 2016-11-07 | 2020-11-25 | ヤマハ株式会社 | 音声合成方法、音声合成装置およびプログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58178396A (ja) * | 1982-04-12 | 1983-10-19 | 株式会社日立製作所 | 音声認識用標準パタ−ン登録方式 |
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
JPH06105394B2 (ja) * | 1986-03-19 | 1994-12-21 | 株式会社東芝 | 音声認識方式 |
US4837831A (en) * | 1986-10-15 | 1989-06-06 | Dragon Systems, Inc. | Method for creating and using multiple-word sound models in speech recognition |
DE3711348A1 (de) * | 1987-04-03 | 1988-10-20 | Philips Patentverwaltung | Verfahren zum erkennen kontinuierlich gesprochener woerter |
US4805219A (en) * | 1987-04-03 | 1989-02-14 | Dragon Systems, Inc. | Method for speech recognition |
US5315689A (en) * | 1988-05-27 | 1994-05-24 | Kabushiki Kaisha Toshiba | Speech recognition system having word-based and phoneme-based recognition means |
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
DE4130632A1 (de) * | 1991-09-14 | 1993-03-18 | Philips Patentverwaltung | Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal |
US5293584A (en) * | 1992-05-21 | 1994-03-08 | International Business Machines Corporation | Speech recognition system for natural language translation |
US5613036A (en) * | 1992-12-31 | 1997-03-18 | Apple Computer, Inc. | Dynamic categories for a speech recognition system |
CA2126380C (en) * | 1993-07-22 | 1998-07-07 | Wu Chou | Minimum error rate training of combined string models |
-
1995
- 1995-12-27 JP JP34016395A patent/JP3535292B2/ja not_active Expired - Lifetime
-
1996
- 1996-12-23 US US08/772,987 patent/US5875425A/en not_active Expired - Fee Related
- 1996-12-27 DE DE19654549A patent/DE19654549C2/de not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
井ノ上, 中村, 酒寄, 山本, 谷戸,単語固有セルでのゆう度判定を用いた音声認識処理の高速化手法,電子情報通信学会論文誌 D−II,日本,1996年12月25日,Vol.J79−D−II, No.12,Pages 2110−2116 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009146245A (ja) * | 2007-12-17 | 2009-07-02 | Nec Corp | 画像照合方法及び画像照合装置並びに画像照合プログラム |
JP4518141B2 (ja) * | 2007-12-17 | 2010-08-04 | 日本電気株式会社 | 画像照合方法及び画像照合装置並びに画像照合プログラム |
US8401310B2 (en) | 2007-12-17 | 2013-03-19 | Nec Corporation | Image comparing method, apparatus and program |
Also Published As
Publication number | Publication date |
---|---|
DE19654549C2 (de) | 2000-08-10 |
US5875425A (en) | 1999-02-23 |
DE19654549A1 (de) | 1997-07-03 |
JPH09179581A (ja) | 1997-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8280733B2 (en) | Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections | |
Hain et al. | New features in the CU-HTK system for transcription of conversational telephone speech | |
JP4543294B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
US5333275A (en) | System and method for time aligning speech | |
JP2963142B2 (ja) | 信号処理方法 | |
Huang et al. | Microsoft Windows highly intelligent speech recognizer: Whisper | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
US20070219797A1 (en) | Subword unit posterior probability for measuring confidence | |
JPH075892A (ja) | 音声認識方法 | |
US5706397A (en) | Speech recognition system with multi-level pruning for acoustic matching | |
JP3535292B2 (ja) | 音声認識システム | |
US20050015251A1 (en) | High-order entropy error functions for neural classifiers | |
Hain et al. | The cu-htk march 2000 hub5e transcription system | |
JPH08227298A (ja) | クラスタ化された単語間及び/又は句間の調音結合を使用した音声認識 | |
Dumitru et al. | A comparative study of feature extraction methods applied to continuous speech recognition in romanian language | |
Boite et al. | A new approach towards keyword spotting. | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
Furui | Robust methods in automatic speech recognition and understanding. | |
JP2880436B2 (ja) | 音声認識装置 | |
JPH10116093A (ja) | 音声認識装置 | |
JP2905686B2 (ja) | 音声認識装置 | |
JPH08314490A (ja) | ワードスポッティング型音声認識方法と装置 | |
Nakagawa et al. | Spoken language identification by ergodic HMMs and its state sequences | |
JP2003271180A (ja) | 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体 | |
Córdoba et al. | PPRLM Optimization for Language Identification in Air Traffic Control Tasks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040217 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040311 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100319 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110319 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130319 Year of fee payment: 9 |