JP3254933B2 - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JP3254933B2 JP3254933B2 JP26358194A JP26358194A JP3254933B2 JP 3254933 B2 JP3254933 B2 JP 3254933B2 JP 26358194 A JP26358194 A JP 26358194A JP 26358194 A JP26358194 A JP 26358194A JP 3254933 B2 JP3254933 B2 JP 3254933B2
- Authority
- JP
- Japan
- Prior art keywords
- ratio
- recognition
- phoneme
- standard pattern
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
せる音声認識方法に関するものである。
準パターンを比較して、最も類似度の大きいものを出力
するのが一般的である。この場合、標準パターンとして
単語を用いるもの、音素を用いるものが代表的である。
以下の説明では、不特定話者を対象とした音声認識にお
ける音素の認識によって説明を行う。
ンとのマッチングがうまくいかずに認識率が低下する。
特に、認識時のS/N比の変化によって認識性能が低下
する。この認識性能の低下を防ぐ方法として特公昭63
−67197号公報に記載されたものがあり、これを従
来例として説明する。
析部、7は騒音レベル検出部、8は音素標準パタ−ン選
択部、9は音素標準パタ−ン格納部、10は音素認識比
較部である。音素標準パターン格納部には、騒音のレベ
ル(S/N比)に対応した音素標準パタ−ンが格納され
ている。11はモードの切り換えを行うスイッチであ
り、a側に倒れていると認識モード、b側に倒れている
と環境学習モードとなる。
状態)にスイッチ11をb側に切り替えて、まず、使用
環境騒音のみを騒音レベル検出部7で検出する。7では
検出された騒音レベルによって音素標準パターン格納部
8の中から対応する音素標準パタ−ンを選択する。標準
パターン格納部には、あらかじめ計算機上で決められた
S/N比になるようにノイズを付加して作成したものが
格納されている。たとえば、S/N比5〜35dBを対
象とし、5dBおきに標準パターンを作成しすべての音
素標準パタ−ンを格納しておく。騒音レベル検出時のS
/N比の判定は、次式で行う。
10・log(騒音パワー) ここでマイクに入力される音声パワーは、ほぼ一定と考
えて騒音パワーの大きさでS/N比を判定し、それに最
も近いS/N比で作成された音素標準パタ−ンを選択す
る。以後の認識では、この標準パターンを使用すること
になる。
り替え、入力音声を分析部6で特徴パラメータに変換
し、あらかじめ選択されている音素標準パターンを用い
て比較部10で標準パターンと比較して音素の認識を行
う。
認識時のS/N比が正確にわかれば高い認識性能が得ら
れる。従来例では、発声者の音声パワーを一定と考えて
いるが、実際には、発声する人、発声単語によって音声
パワーの大きさは異なる。従来例のように、騒音パワー
だけ検出してS/N比を推定しても、誤差が大きく誤っ
たS/N比の標準パターンが選択されて、認識率が低下
する場合がある。したがって、音声認識時のS/N比が
わからなくても高い認識性能が得られる音声認識方式が
必要である。
/N比がわからなくても高い認識性能を得ることを目的
とするもので、次の方法を用いる。あるパターンの分布
が1つの正規分布で表現できない場合に,複数個の正規
分布の和で近似する方法がある。この手法はパターン認
識の分野で研究されてきた技術である。この混合分布の
考え方を適用する。混合分布について簡単に説明を行
う。あるカテゴリの分布がn種類のガウス分布の和で表
わされると仮定する。入力xに対して、i番目のガウス
分布をGi(x)とすると、混合分布K(x)は、
S/N比に適用して,複数種類のS/N比で作成した標
準パタ−ンの混合分布を用いて、認識時のS/N比が未
知でも高い認識性能が得られるようにする。
比の変動に強くなるため、音声認識時のS/N比が未知
でも高い認識率が得られる。
る。図1に、本実施例の構成図を示す。図1において1
は音響分析部、2、3、4はS/N比別の音素標準パタ
−ン格納部、5は混合分布を適用した音素認識部であ
る。まず最初に、音素標準パタ−ンの作成方法について
説明する。音素標準パタ−ンは、各音素の特徴点を中心
とした時間パターンを使用する。特徴点は、母音・撥音
は音素中心、半母音・拗音は始端、破裂音は破裂部、そ
の他の子音は終端部とする。本実施例では、サンプリン
グ周波数12KHz、窓長20ms.、フレーム長10
ms.で分析し、LPCケプストラム係数と対数パワー
差分値を求める。次に、10フレーム分のLPCケプス
トラム係数と差分パワーで150次元のベクトルを構成
する。
る。
のケプストラム係数、vmは第mフレームの対数パワー
差分値である。
ている音素標準パタ−ン作成用データに対して、計算機
上で付加ノイズ(会場騒音)が定められたS/N比にな
るようにデータに付加して標準パターン作成用のデータ
を作る。この作業を、異なったn種類のS/N比に対し
て行ない、これらのデータからS/N比別の音素標準パ
タ−ンを作成する。このn種類の音素標準パタ−ンを図
1の2から4までの音素標準パタ−ン1からnに格納す
る。
との類似度を、共分散行列を全てのカテゴリで共通化し
たマハラノビス距離を用いる。音素pのS/N比がmd
Bに対する類似度Lp,mは以下のようになる。
おける平均値ベクトル、そして
ン共通の共分散行列である。これらの、複数の標準パタ
ーンの混合分布を仮定して音素認識を行う。混合分布用
音素標準パタ−ン認識部5では、
混合数2の場合について行う。会場騒音をS/N比20
dBと10dBで作成した音素標準パタ−ンに混合分布
を適用し、色々なS/N比におけるデータを評価する。
音素pの類似度は
/,/o/,/u/,/i/,/e/,/j/,/w
/,/m/,/n/,/ng/,/b/,/d/,/r
/,/z/,/h/,/s/,/c/,/p/,/t
/,/k/,/N/)の認識実験をおこなった。評価デ
ータは、男女20名が発声した212単語である。実験
は、S/N比20dB、10dBで作成した標準パター
ンを使用した場合と混合分布を使用した場合のそれぞれ
についてS/N比20dBと10dBで作成したデータ
を評価した。
準パターンのS/N比が一致すれば、高い認識率が得ら
れるが(S/N比20dBの場合:77.3%,S/N
比10dBの場合:72.5%)、従来例のようにS/
N比の推定をして標準パターンを選択する方法では、S
/N比の推定を少しでも誤ると認識率は低下する。しか
し、本実施例のようにS/N比の混合分布を適用すれ
ば、入力音声のS/N比が未知でも高い認識率が得られ
ている。
素を用いたが、本発明の内容は音素の認識に限定される
ものではなく、単語や文を単位とした場合も全く同様な
方法が使用できる。
比の標準パタ−ンに対して混合分布を適用することによ
り入力音声のS/N比が未知でも高い認識率が得られ
る。音声認識装置を実用化するうえで有効な方法であ
り、その効果は大きい。
化する機能ブロック図
Claims (1)
- 【請求項1】 入力音声と標準パターンとの類似度を統
計的距離尺度を用いて計算することにより認識を行なう
方法において、あらかじめ異なったS/N比で作成した
標準パターンを複数種類用意しておき、入力音声と前記
標準パターンの比較を行なう場合に、これらの異なった
S/N比で作成した標準パターンに混合分布を適用し
て、音声の認識を行うことを特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26358194A JP3254933B2 (ja) | 1994-10-27 | 1994-10-27 | 音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26358194A JP3254933B2 (ja) | 1994-10-27 | 1994-10-27 | 音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08123467A JPH08123467A (ja) | 1996-05-17 |
JP3254933B2 true JP3254933B2 (ja) | 2002-02-12 |
Family
ID=17391546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP26358194A Expired - Lifetime JP3254933B2 (ja) | 1994-10-27 | 1994-10-27 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3254933B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4981850B2 (ja) * | 2009-06-16 | 2012-07-25 | 日本電信電話株式会社 | 音声認識装置とその方法と、プログラムと記録媒体 |
-
1994
- 1994-10-27 JP JP26358194A patent/JP3254933B2/ja not_active Expired - Lifetime
Non-Patent Citations (1)
Title |
---|
’AN INTEGRATED SPEECH−BACKGRAUND MODEL FOR ROBUST SPEAKER IDENTIFICATION’D.A.Reynolds and R.C.Rose IEEE Int Conf Acoust Speech Signal Process Vol.1992,No.Vol2 Page II−185−−II−188 |
Also Published As
Publication number | Publication date |
---|---|
JPH08123467A (ja) | 1996-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6317711B1 (en) | Speech segment detection and word recognition | |
US20030220791A1 (en) | Apparatus and method for speech recognition | |
US7299179B2 (en) | Three-stage individual word recognition | |
EP1355295B1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
US20060074664A1 (en) | System and method for utterance verification of chinese long and short keywords | |
JP2001503154A (ja) | 音声認識システムにおける隠れマルコフ音声モデルの適合方法 | |
JPH07334184A (ja) | 音響カテゴリ平均値計算装置及び適応化装置 | |
Beulen et al. | Experiments with linear feature extraction in speech recognition. | |
JP3254933B2 (ja) | 音声認識方法 | |
US7231352B2 (en) | Method for computer-supported speech recognition, speech recognition system and control device for controlling a technical system and telecommunications device | |
JP2003271185A (ja) | 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体 | |
EP1369847B1 (en) | Speech recognition method and system | |
JP2001083978A (ja) | 音声認識装置 | |
JPH0997095A (ja) | 音声認識装置 | |
JP2979912B2 (ja) | 音声認識装置 | |
JP2658426B2 (ja) | 音声認識方法 | |
JPH1055195A (ja) | 音声認識による話者特徴判別方法 | |
JP3100208B2 (ja) | 音声認識装置 | |
JPH0619497A (ja) | 音声認識方法 | |
JPH11338492A (ja) | 話者認識装置 | |
JPH09311693A (ja) | 音声認識装置 | |
JPH096387A (ja) | 音声認識装置 | |
Ono et al. | A study of speaker adaptation for speaker independent speech recognition method using phoneme similarity vector. | |
JPH03149598A (ja) | 音声認識装置 | |
JPH06301400A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071130 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081130 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091130 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091130 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101130 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111130 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121130 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121130 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131130 Year of fee payment: 12 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |