JP2001092487A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JP2001092487A
JP2001092487A JP26988299A JP26988299A JP2001092487A JP 2001092487 A JP2001092487 A JP 2001092487A JP 26988299 A JP26988299 A JP 26988299A JP 26988299 A JP26988299 A JP 26988299A JP 2001092487 A JP2001092487 A JP 2001092487A
Authority
JP
Japan
Prior art keywords
likelihood
standard pattern
speech recognition
value
recognition method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP26988299A
Other languages
English (en)
Inventor
Kazuyoshi Okura
計美 大倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP26988299A priority Critical patent/JP2001092487A/ja
Publication of JP2001092487A publication Critical patent/JP2001092487A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 この発明は、雑音がある環境下で発声された
音声に対して音声認識を行なう場合に、認識精度の向上
化が図れる音声認識方法を提供することを目的とする。 【解決手段】 入力音声と標準パターンとのマッチング
度を評価値に基づいて判定することにより、最適な標準
パターンを選択する音声認識方法において、SNR値の
小さい入力音声については各標準パターンに対する評価
値の差が小さくなるように、評価値を補正する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声認識方法に
関する。
【0002】
【従来の技術】音声認識においては、DPマッチングを
用いたもの、確率モデル(HMM; Hidden Markov Mode
l) を用いたもの等がある。DPマッチングを用いた単
語認識では、単語単位に標準パターンが作成されてい
る。HMMを用いた単語認識では、より小さな単位で標
準パターンが作成される。
【0003】DPマッチングを用いた単語認識では、よ
く知られているように、入力音声と標準パターンのマッ
チング度を評価する評価値として、距離が用いられる。
距離が小さいほどマッチング度が高いと判定される。
【0004】HMMを用いた単語認識では、よく知られ
ているように、入力音声と標準パターンのマッチング度
を評価する評価値として、尤度が用いられる。尤度が大
きいほどマッチング度が高いと判定される。
【0005】ところで、雑音がある環境下で音声を発声
した場合、パワーの小さい子音等は、雑音によりその音
響特徴が汚されてしまい、標準パターンとのマッチング
の結果得られる尤度(HMMを用いた場合)や距離(D
Pマッチングを用いた場合)は信頼性が低くなってしま
う。
【0006】そこで、従来においては、音声スペクトル
から雑音のスペクトルを減算し、得られたスペクトルを
用いてマッチングを行なう方法が開発されている。しか
しながら、音声スペクトルから雑音のスペクトルを減算
した結果得られたスペクトルには、新たな歪みを生じる
ため、認識精度を高めることは困難であった。
【0007】
【発明が解決しようとする課題】この発明は、雑音があ
る環境下で発声された音声に対して音声認識を行なう場
合に、認識精度の向上化が図れる音声認識方法を提供す
ることを目的とする。
【0008】
【課題を解決するための手段】この発明による第1の音
声認識方法は、入力音声と標準パターンとのマッチング
度を評価値に基づいて判定することにより、最適な標準
パターンを選択する音声認識方法において、SNR値の
小さい入力音声については各標準パターンに対する評価
値の差が小さくなるように、評価値を補正することを特
徴とする。
【0009】この発明による第2の音声認識方法は、入
力音声と標準パターンとのマッチング度を評価値に基づ
いて判定することにより、最適な標準パターンを選択す
る音声認識方法において、SNR値の大きい入力音声に
ついては各標準パターンに対する評価値の差が大きくな
るように、評価値を補正することを特徴とする。
【0010】この発明による第3の音声認識方法は、入
力音声と標準パターンとのマッチング度を評価値に基づ
いて判定することにより、最適な標準パターンを選択す
る音声認識方法において、SNR値の小さい入力音声に
ついては各標準パターンに対する評価値を、マッチング
度が低くなるような値に補正することを特徴とする。
【0011】評価値としては、DPマッチングおける距
離、HMMにおける尤度等が用いられる。
【0012】評価値として尤度が用いられる場合には、
時刻tにおける尤度をbnij (ot)、時刻tにおける
SNR値をsnrt 、基準となる尤度をA、補正量を調
整するためのパラメータをα、βとすると、補正後の尤
度Bnij (ot )は、たとえば、次式3によって求めら
れる。
【0013】
【数3】
【0014】評価値として尤度が用いられる場合には、
時刻tにおける尤度をbnij (ot)、時刻tにおける
SNR値をsnrt 、基準となる尤度をA、補正量を調
整するためのパラメータをα、βとすると、補正後の尤
度Bnij (ot )は、たとえば、次式4によって求めら
れる。
【0015】
【数4】
【0016】
【発明の実施の形態】以下、図面を参照して、この発明
をHMMを用いた音声認識方法に適用した場合の実施の
形態について説明する。
【0017】ot を時刻tにおける入力ベクトルとする
と、ot に対する尤度はbnij (o t )で表される。よ
り具体的には、bnij (ot )は、n番目の認識対象語
に対応した単語HMMの第i状態から第j状態への遷移
時に得られるot に対する尤度を表している。また、音
素モデル等の場合は、n番目の音素HMMの第i状態か
ら第j状態への遷移時に得られるot に対する尤度を表
している。尤度bnij(ot )の求め方はよく知られて
いるので、その説明を省略する。
【0018】雑音が重畳されている場合には、SNR
(signal-to-noise ratio)の小さい時刻における入力ベ
クトルot は、雑音の影響のため、その音素の音響的特
徴に歪みが生じている。したがって、入力ベクトルot
から得られた尤度bnij (ot)の信頼度は低いものと
なる。
【0019】そこで、各時刻のSNR値を信頼度と考
え、信頼度に応じて尤度を補正し、補正後の尤度を用い
て入力音声と標本パターンとのマッチング度を評価する
ことにした。
【0020】補正後の尤度Bnij (ot )は、次式5に
よって求められる。
【0021】
【数5】
【0022】式5において、snrt は時刻tにおける
SNRの値、Aは基準となる尤度の値をそれぞれ表す。
SNR値は、雑音区間から求めたパワーとot のパワー
とから算出される。Aは、任意の値でもよいし、全ての
n,i,jにおけるbnij (ot )の最大値、最小値と
してもよい。
【0023】また、α、βは補正量を調整するためのパ
ラメータである。β−snrt の値が0以下になる場合
は、β−snrt を0以上の値とする。
【0024】尤度として式5によって表されるB
nij (ot )を用いることによって、全てのi,jにお
ける各尤度Bnij (ot )の差が、SNR値の小さなと
ころでは小さく、SNR値の大きなところでは大きくな
るため、SNR値が大きく雑音の影響をあまり受けてい
ないot から得られる尤度を重視した認識を行なうこと
ができる。
【0025】言い換えれば、SNR値の小さな入力音声
については標準パターン間での尤度の差が小さくなるよ
うに、SNR値の大きな入力音声については標準パター
ン間での尤度の差が大きくなるように、尤度が補正され
ているため、SNR値が大きく雑音の影響をあまり受け
ていない入力音声から得られる尤度を重視した認識を行
なうことができる。
【0026】A=0とした場合には、数式5におけるB
nij (ot )は、次式6に示すようになる。
【0027】
【数6】
【0028】SNR値の小さな入力音声(時刻tの入力
音声)に対する補正前の各尤度bn0 ,t、bn1,t
n2,t、bn3,tを、たとえば、bn0,t=40.0、b
n1,t=30.0、bn2,t=20.0、bn3,t=10.0
とすると、補正後の各尤度Bn0,t、B n1,t、Bn2,t
n3,tは、たとえば、Bn0,t=25.0、Bn1,t=20.
0、Bn2 ,t=15.0、Bn3,t=10.0となる。
【0029】この場合には、各尤度Bnij (ot )が、
SNR値の小さなところでは小さく、SNR値の大きな
ところでは大きくなるため、SNR値が大きく雑音の影
響をあまり受けていないot から得られる尤度を重視し
た認識を行なうことができる。
【0030】言い換えれば、SNR値の小さな入力音声
については尤度が小さくなるように、SNR値の大きな
入力音声については尤度が大きくなるように、尤度が補
正されているので、SNR値が大きく雑音の影響をあま
り受けていない入力音声から得られる尤度を重視した認
識を行なうことができる。
【0031】なお、尤度として、次式7に示すように、
対数尤度Bnij (ot )を用いてもよい。
【0032】
【数7】
【0033】上記実施の形態では、入力音声と標準パタ
ーンとのマッチング度の評価値として、尤度が用いられ
ている場合について説明したが、この発明はDPマッチ
ングを用いた音声認識のように入力音声と標準パターン
とのマッチング度の評価値として、距離が用いられてい
る場合にも適用することができる。
【0034】つまり、SNR値の小さな入力音声につい
ては標準パターン間での距離の差が小さくなるように、
SNR値の大きな入力音声については標準パターン間で
の距離の差が大きくなるように、距離を補正すればよ
い。あるいは、SNR値の小さな入力音声については距
離が大きくなるように、SNR値の大きな入力音声につ
いては距離が小さくなるように、距離を補正すればよ
い。
【0035】
【発明の効果】この発明によれば、雑音がある環境下で
発声された音声に対して音声認識を行なう場合に、認識
精度の向上化が図れるようになる。

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 入力音声と標準パターンとのマッチング
    度を評価値に基づいて判定することにより、最適な標準
    パターンを選択する音声認識方法において、 SNR値の小さい入力音声については各標準パターンに
    対する評価値の差が小さくなるように、評価値を補正す
    ることを特徴とする音声認識方法。
  2. 【請求項2】 入力音声と標準パターンとのマッチング
    度を評価値に基づいて判定することにより、最適な標準
    パターンを選択する音声認識方法において、 SNR値の大きい入力音声については各標準パターンに
    対する評価値の差が大きくなるように、評価値を補正す
    ることを特徴とする音声認識方法。
  3. 【請求項3】 入力音声と標準パターンとのマッチング
    度を評価値に基づいて判定することにより、最適な標準
    パターンを選択する音声認識方法において、 SNR値の小さい入力音声については各標準パターンに
    対する評価値を、マッチング度が低くなるような値に補
    正することを特徴とする音声認識方法。
  4. 【請求項4】 評価値がDPマッチングおける距離であ
    る請求項1、2および3のいずれかに記載の音声認識方
    法。
  5. 【請求項5】 評価値がHMMにおける尤度である請求
    項1、2および3のいずれかに記載の音声認識方法。
  6. 【請求項6】 時刻tにおける尤度をbnij (ot )、
    時刻tにおけるSNR値をsnrt 、基準となる尤度を
    A、補正量を調整するためのパラメータをα、βとする
    と、補正後の尤度Bnij (ot )が、次式1によって求
    められる請求項5に記載の音声認識方法。 【数1】
  7. 【請求項7】 時刻tにおける尤度をbnij (ot )、
    時刻tにおけるSNR値をsnrt 、基準となる尤度を
    A、補正量を調整するためのパラメータをα、βとする
    と、補正後の尤度Bnij (ot )が、次式2によって求
    められる請求項5に記載の音声認識方法。 【数2】
JP26988299A 1999-09-24 1999-09-24 音声認識方法 Pending JP2001092487A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26988299A JP2001092487A (ja) 1999-09-24 1999-09-24 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26988299A JP2001092487A (ja) 1999-09-24 1999-09-24 音声認識方法

Publications (1)

Publication Number Publication Date
JP2001092487A true JP2001092487A (ja) 2001-04-06

Family

ID=17478534

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26988299A Pending JP2001092487A (ja) 1999-09-24 1999-09-24 音声認識方法

Country Status (1)

Country Link
JP (1) JP2001092487A (ja)

Similar Documents

Publication Publication Date Title
Sreenivas et al. Codebook constrained Wiener filtering for speech enhancement
JP4750271B2 (ja) ノイズ補償されたスピーチ認識システムおよび方法
JP4169921B2 (ja) 音声認識システム
JP4943335B2 (ja) 話者に依存しない堅牢な音声認識システム
US6611801B2 (en) Gain and noise matching for speech recognition
EP1357541A2 (en) Speaker adaptation for speech recognition
JP2780676B2 (ja) 音声認識装置及び音声認識方法
JP4682154B2 (ja) 自動音声認識チャンネルの正規化
US6275800B1 (en) Voice recognition system and method
JP4858663B2 (ja) 音声認識方法及び音声認識装置
Shi et al. Phase-based dual-microphone speech enhancement using a prior speech model
Hong et al. Adaptive microphone array processing for high-performance speech recognition in car environment
Zhu et al. Log-energy dynamic range normalization for robust speech recognition
US20080228477A1 (en) Method and Device For Processing a Voice Signal For Robust Speech Recognition
JP2001092487A (ja) 音声認識方法
JP4058521B2 (ja) 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム
JP4510517B2 (ja) 音響モデル雑音適応化方法およびこの方法を実施する装置
JP3605011B2 (ja) 音声認識方法
KR20040073145A (ko) 음성인식기의 성능 향상 방법
Tai et al. Silence energy normalization for robust speech recognition in additive noise environment.
Martin et al. Voicing parameter and energy based speech/non-speech detection for speech recognition in adverse conditions.
CN111226278A (zh) 低复杂度的浊音语音检测和基音估计
JP2000039899A (ja) 音声認識装置
JP3900628B2 (ja) 音声認識装置
Hwang et al. Energy contour enhancement for noisy speech recognition

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041012

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041213

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050601