JP3254933B2 - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JP3254933B2
JP3254933B2 JP26358194A JP26358194A JP3254933B2 JP 3254933 B2 JP3254933 B2 JP 3254933B2 JP 26358194 A JP26358194 A JP 26358194A JP 26358194 A JP26358194 A JP 26358194A JP 3254933 B2 JP3254933 B2 JP 3254933B2
Authority
JP
Japan
Prior art keywords
ratio
recognition
phoneme
standard pattern
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP26358194A
Other languages
English (en)
Other versions
JPH08123467A (ja
Inventor
昌克 星見
勝行 二矢田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP26358194A priority Critical patent/JP3254933B2/ja
Publication of JPH08123467A publication Critical patent/JPH08123467A/ja
Application granted granted Critical
Publication of JP3254933B2 publication Critical patent/JP3254933B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は人間の声を機械に認識さ
せる音声認識方法に関するものである。
【0002】
【従来の技術】音声認識の方法において、入力音声と標
準パターンを比較して、最も類似度の大きいものを出力
するのが一般的である。この場合、標準パターンとして
単語を用いるもの、音素を用いるものが代表的である。
以下の説明では、不特定話者を対象とした音声認識にお
ける音素の認識によって説明を行う。
【0003】実際に、騒音下で認識を行うと標準パター
ンとのマッチングがうまくいかずに認識率が低下する。
特に、認識時のS/N比の変化によって認識性能が低下
する。この認識性能の低下を防ぐ方法として特公昭63
−67197号公報に記載されたものがあり、これを従
来例として説明する。
【0004】図2に従来例の構成図を示す。6は音響分
析部、7は騒音レベル検出部、8は音素標準パタ−ン選
択部、9は音素標準パタ−ン格納部、10は音素認識比
較部である。音素標準パターン格納部には、騒音のレベ
ル(S/N比)に対応した音素標準パタ−ンが格納され
ている。11はモードの切り換えを行うスイッチであ
り、a側に倒れていると認識モード、b側に倒れている
と環境学習モードとなる。
【0005】音声認識装置使用前(音声が入っていない
状態)にスイッチ11をb側に切り替えて、まず、使用
環境騒音のみを騒音レベル検出部7で検出する。7では
検出された騒音レベルによって音素標準パターン格納部
8の中から対応する音素標準パタ−ンを選択する。標準
パターン格納部には、あらかじめ計算機上で決められた
S/N比になるようにノイズを付加して作成したものが
格納されている。たとえば、S/N比5〜35dBを対
象とし、5dBおきに標準パターンを作成しすべての音
素標準パタ−ンを格納しておく。騒音レベル検出時のS
/N比の判定は、次式で行う。
【0006】S/N比=10・log(音声パワー)−
10・log(騒音パワー) ここでマイクに入力される音声パワーは、ほぼ一定と考
えて騒音パワーの大きさでS/N比を判定し、それに最
も近いS/N比で作成された音素標準パタ−ンを選択す
る。以後の認識では、この標準パターンを使用すること
になる。
【0007】音声認識時には、スイッチ11をa側に切
り替え、入力音声を分析部6で特徴パラメータに変換
し、あらかじめ選択されている音素標準パターンを用い
て比較部10で標準パターンと比較して音素の認識を行
う。
【0008】
【発明が解決しようとする課題】従来例の方法は、音声
認識時のS/N比が正確にわかれば高い認識性能が得ら
れる。従来例では、発声者の音声パワーを一定と考えて
いるが、実際には、発声する人、発声単語によって音声
パワーの大きさは異なる。従来例のように、騒音パワー
だけ検出してS/N比を推定しても、誤差が大きく誤っ
たS/N比の標準パターンが選択されて、認識率が低下
する場合がある。したがって、音声認識時のS/N比が
わからなくても高い認識性能が得られる音声認識方式が
必要である。
【0009】
【課題を解決するための手段】本発明は音声認識時のS
/N比がわからなくても高い認識性能を得ることを目的
とするもので、次の方法を用いる。あるパターンの分布
が1つの正規分布で表現できない場合に,複数個の正規
分布の和で近似する方法がある。この手法はパターン認
識の分野で研究されてきた技術である。この混合分布の
考え方を適用する。混合分布について簡単に説明を行
う。あるカテゴリの分布がn種類のガウス分布の和で表
わされると仮定する。入力xに対して、i番目のガウス
分布をGi(x)とすると、混合分布K(x)は、
【0010】
【数1】
【0011】ここで、
【0012】
【数2】
【0013】のようになる。本発明では、この考え方を
S/N比に適用して,複数種類のS/N比で作成した標
準パタ−ンの混合分布を用いて、認識時のS/N比が未
知でも高い認識性能が得られるようにする。
【0014】
【作用】本発明は上記構成によって、入力音声のS/N
比の変動に強くなるため、音声認識時のS/N比が未知
でも高い認識率が得られる。
【0015】
【実施例】以下、本発明における実施例について説明す
る。図1に、本実施例の構成図を示す。図1において1
は音響分析部、2、3、4はS/N比別の音素標準パタ
−ン格納部、5は混合分布を適用した音素認識部であ
る。まず最初に、音素標準パタ−ンの作成方法について
説明する。音素標準パタ−ンは、各音素の特徴点を中心
とした時間パターンを使用する。特徴点は、母音・撥音
は音素中心、半母音・拗音は始端、破裂音は破裂部、そ
の他の子音は終端部とする。本実施例では、サンプリン
グ周波数12KHz、窓長20ms.、フレーム長10
ms.で分析し、LPCケプストラム係数と対数パワー
差分値を求める。次に、10フレーム分のLPCケプス
トラム係数と差分パワーで150次元のベクトルを構成
する。
【0016】入力パラメータは、次のように表わされ
る。
【0017】
【数3】
【0018】ただし、cnは第mフレームにおけるn次
のケプストラム係数、vmは第mフレームの対数パワー
差分値である。
【0019】あらかじめ音素の特徴点をラベル付けされ
ている音素標準パタ−ン作成用データに対して、計算機
上で付加ノイズ(会場騒音)が定められたS/N比にな
るようにデータに付加して標準パターン作成用のデータ
を作る。この作業を、異なったn種類のS/N比に対し
て行ない、これらのデータからS/N比別の音素標準パ
タ−ンを作成する。このn種類の音素標準パタ−ンを図
1の2から4までの音素標準パタ−ン1からnに格納す
る。
【0020】本実施例では、入力と各音素標準パタ−ン
との類似度を、共分散行列を全てのカテゴリで共通化し
たマハラノビス距離を用いる。音素pのS/N比がmd
Bに対する類似度Lp,mは以下のようになる。
【0021】
【数4】
【0022】ただし、
【0023】
【数5】
【0024】
【数6】
【0025】ここで、
【0026】
【外1】
【0027】は音素標準パタ−ンpのS/N比mdBに
おける平均値ベクトル、そして
【0028】
【外2】
【0029】は全音素・全S/N比における標準パタ−
ン共通の共分散行列である。これらの、複数の標準パタ
ーンの混合分布を仮定して音素認識を行う。混合分布用
音素標準パタ−ン認識部5では、
【0030】
【数7】
【0031】を用いて音素認識を行う。本実施例では、
混合数2の場合について行う。会場騒音をS/N比20
dBと10dBで作成した音素標準パタ−ンに混合分布
を適用し、色々なS/N比におけるデータを評価する。
音素pの類似度は
【0032】
【数8】
【0033】の式で求められる。実際に21音素(/a
/,/o/,/u/,/i/,/e/,/j/,/w
/,/m/,/n/,/ng/,/b/,/d/,/r
/,/z/,/h/,/s/,/c/,/p/,/t
/,/k/,/N/)の認識実験をおこなった。評価デ
ータは、男女20名が発声した212単語である。実験
は、S/N比20dB、10dBで作成した標準パター
ンを使用した場合と混合分布を使用した場合のそれぞれ
についてS/N比20dBと10dBで作成したデータ
を評価した。
【0034】本実施例における結果を(表1)に示す。
【0035】
【表1】
【0036】この表より、入力のデータのS/N比と標
準パターンのS/N比が一致すれば、高い認識率が得ら
れるが(S/N比20dBの場合:77.3%,S/N
比10dBの場合:72.5%)、従来例のようにS/
N比の推定をして標準パターンを選択する方法では、S
/N比の推定を少しでも誤ると認識率は低下する。しか
し、本実施例のようにS/N比の混合分布を適用すれ
ば、入力音声のS/N比が未知でも高い認識率が得られ
ている。
【0037】以上の実施例では、標準パターンとして音
素を用いたが、本発明の内容は音素の認識に限定される
ものではなく、単語や文を単位とした場合も全く同様な
方法が使用できる。
【0038】
【発明の効果】以上のように、本発明は異なったS/N
比の標準パタ−ンに対して混合分布を適用することによ
り入力音声のS/N比が未知でも高い認識率が得られ
る。音声認識装置を実用化するうえで有効な方法であ
り、その効果は大きい。
【図面の簡単な説明】
【図1】本発明の一実施例における音声認識方法を具現
化する機能ブロック図
【図2】従来の音声認識方法の構成図
【符号の説明】
1 音響分析部 2 音素標準パタ−ン1 3 音素標準パタ−ン2 4 音素標準パタ−ンn 5 混合分布用音素標準パタ−ン認識部 6 音響分析部 7 騒音レベル検出部 8 標準パターン選択部 9 標準パターン格納部 10 音素認識比較部 11 モード切り替えスイッチ
フロントページの続き (56)参考文献 特開 昭59−137999(JP,A) 特開 平4−295894(JP,A) 特開 平5−66790(JP,A) 特開 平4−125599(JP,A) 特開 平5−232989(JP,A) 特開 昭62−42198(JP,A) 特開 平5−73088(JP,A) 特開 平7−64589(JP,A) ’AN INTEGRATED SP EECH−BACKGRAUND MO DEL FOR ROBUST SPE AKER IDENTIFICATIO N’D.A.Reynolds and R.C.Rose IEEE Int Conf Acoust Speec h Signal Process V ol.1992,No.Vol2 Page II−185−−II−188 (58)調査した分野(Int.Cl.7,DB名) G10L 15/06 G10L 15/10 G10L 15/14

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力音声と標準パターンとの類似度を統
    計的距離尺度を用いて計算することにより認識を行なう
    方法において、あらかじめ異なったS/N比で作成した
    標準パターンを複数種類用意しておき、入力音声と前記
    標準パターンの比較を行なう場合に、これらの異なった
    S/N比で作成した標準パターンに混合分布を適用し
    て、音声の認識を行うことを特徴とする音声認識方法。
JP26358194A 1994-10-27 1994-10-27 音声認識方法 Expired - Lifetime JP3254933B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26358194A JP3254933B2 (ja) 1994-10-27 1994-10-27 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26358194A JP3254933B2 (ja) 1994-10-27 1994-10-27 音声認識方法

Publications (2)

Publication Number Publication Date
JPH08123467A JPH08123467A (ja) 1996-05-17
JP3254933B2 true JP3254933B2 (ja) 2002-02-12

Family

ID=17391546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26358194A Expired - Lifetime JP3254933B2 (ja) 1994-10-27 1994-10-27 音声認識方法

Country Status (1)

Country Link
JP (1) JP3254933B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4981850B2 (ja) * 2009-06-16 2012-07-25 日本電信電話株式会社 音声認識装置とその方法と、プログラムと記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
’AN INTEGRATED SPEECH−BACKGRAUND MODEL FOR ROBUST SPEAKER IDENTIFICATION’D.A.Reynolds and R.C.Rose IEEE Int Conf Acoust Speech Signal Process Vol.1992,No.Vol2 Page II−185−−II−188

Also Published As

Publication number Publication date
JPH08123467A (ja) 1996-05-17

Similar Documents

Publication Publication Date Title
US6317711B1 (en) Speech segment detection and word recognition
US20030220791A1 (en) Apparatus and method for speech recognition
US7299179B2 (en) Three-stage individual word recognition
EP1355295B1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
US20060074664A1 (en) System and method for utterance verification of chinese long and short keywords
JP2001503154A (ja) 音声認識システムにおける隠れマルコフ音声モデルの適合方法
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
Beulen et al. Experiments with linear feature extraction in speech recognition.
JP3254933B2 (ja) 音声認識方法
US7231352B2 (en) Method for computer-supported speech recognition, speech recognition system and control device for controlling a technical system and telecommunications device
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
EP1369847B1 (en) Speech recognition method and system
JP2001083978A (ja) 音声認識装置
JPH0997095A (ja) 音声認識装置
JP2979912B2 (ja) 音声認識装置
JP2658426B2 (ja) 音声認識方法
JPH1055195A (ja) 音声認識による話者特徴判別方法
JP3100208B2 (ja) 音声認識装置
JPH0619497A (ja) 音声認識方法
JPH11338492A (ja) 話者認識装置
JPH09311693A (ja) 音声認識装置
JPH096387A (ja) 音声認識装置
Ono et al. A study of speaker adaptation for speaker independent speech recognition method using phoneme similarity vector.
JPH03149598A (ja) 音声認識装置
JPH06301400A (ja) 音声認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071130

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081130

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091130

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091130

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131130

Year of fee payment: 12

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term