JPH06289891A

JPH06289891A - 音声認識装置

Info

Publication number: JPH06289891A
Application number: JP5077025A
Authority: JP
Inventors: Tadashi Suzuki; 鈴木　　忠; Kunio Nakajima; 邦男中島
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1993-04-02
Filing date: 1993-04-02
Publication date: 1994-10-18
Anticipated expiration: 2015-10-23
Also published as: JP3102195B2

Abstract

(57)【要約】【目的】非定常雑音が重畳した入力音声に対する認識
性能を向上させた音声認識装置を得る。【構成】雑音重畳入力音声に対し音響分析を施し特徴
ベクトル時系列を生成する音響分析手段と、標準音声特
徴ベクトルに対し線形予測分析を行い最尤パラメータと
標準音声残差パワーを求める線形予測分析手段と、前記
最尤パラメータを用いて雑音特徴ベクトルの残差パワー
を求める雑音残差演算手段と、同最尤パラメータを用い
て雑音重畳入力音声の特徴ベクトルの残差パワーを求め
る残差パワー演算手段と、雑音重畳入力音声の特徴ベク
トルのＳＮ比を求めるＳＮ比演算手段と、このＳＮ比に
従い標準音声特徴ベクトルと雑音特徴ベクトルの合成を
行う特徴ベクトル合成手段と、この合成された特徴ベク
トルと雑音重畳入力音声の特徴ベクトルとの類似度を求
める類似度演算手段と、この類似度のデータを用いて雑
音重畳入力音声と音声モデルとの照合を行い類似度を最
大にする音声モデルのカテゴリを認識結果として出力す
る照合手段とを備えた。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、雑音重畳入力音声信
号に重畳している雑音を推定する機能を備えた音声認識
装置に関するものである。

【０００２】

【従来の技術】音声のスペクトル情報を用いる音声認識
装置では、照合用の標準音声モデルの学習に用いる音声
信号に重畳する雑音と認識実行時において入力される音
声信号に重畳する雑音との差が大きい場合、認識性能の
劣化が生じてしまう。これは雑音重畳による音声スペク
トルの変形が重畳雑音のスペクトル様態に大きく影響を
受けるためである。

【０００３】このような性能劣化を避けるためには認識
環境下で標準音声モデルの学習を行う必要があるが、認
識環境が変わるたびに音声の学習をやり直さなければな
らないという不便さがあった。これに対し、雑音が音声
に重畳しない静かな環境下で標準音声モデルの学習を行
い、認識時においてはその環境における重畳雑音を標準
音声モデルに加える手法が、文献“マルチテンプレート
を用いる雑音下の数字音声認識”（北村、水谷、日本音
響学会講演論文集平成元年１０月 pp.65-66）におい
て提案されている。

【０００４】図５は、この手法に基づく音声認識装置の
構成図の１例である。図において、２は入力端１より入
力される雑音が重畳した未知入力音声信号に対し音響分
析を行い雑音重畳入力音声特徴ベクトル時系列を出力す
る音響分析手段、３は雑音が重畳していない学習用音声
から作成した音声モデルを記憶する音声モデルメモリ、
４は音声モデルメモリ３における標準音声特徴ベクトル
に平均的な重畳雑音の特徴ベクトルを付加する平均雑音
付加手段である。

【０００５】５は平均雑音付加手段４の出力である雑音
付加特徴ベクトルと音響分析手段２の出力であるところ
の雑音重畳入力音声特徴ベクトル時系列とを入力とし
て、雑音重畳入力音声特徴ベクトル時系列の各特徴ベク
トルと雑音付加特徴ベクトルとの類似度を演算する類似
度演算手段、６は類似度演算手段５の出力である類似度
データを入力として雑音重畳入力音声特徴ベクトル時系
列と音声モデルとの照合処理を行い認識結果７を出力す
る照合手段である。

【０００６】次に動作について、ＤＰマッチング方式に
よる離散単語認識の場合を例にとり説明を行う。入力端
１より入力された雑音重畳入力音声信号は、音響分析手
段２において任意の分析フレーム（例えば周期１０ｍｓ
ｅｃ、フレーム長２５．６ｍｓｅｃ、ハミング窓）によ
り音響分析され、自己相関係数を特徴ベクトルとする雑
音重畳入力音声特徴ベクトル時系列｛Ｘ（ｉ）｜ｉ＝
１，２，…，Ｉ｝に変換される。ここでＸ（ｉ）は第ｉ
フレームの自己相関係数ベクトルで、Ｉはフレーム数で
ある。

【０００７】音声モデルメモリ３には、カテゴリｋ（ｋ
＝１，２，…，Ｋ）の音声モデルとして、雑音が重畳し
ていないか若しくは想定される雑音重畳入力音声信号の
ＳＮ比より良いＳＮ比を持つカテゴリｋの単語音声の特
徴ベクトル時系列｛Ｓk（ｊ）｜ｊ＝１，２，…，Ｊk｝
が記憶されている。ここでＳk（ｊ）はカテゴリｋの単
語音声の第ｊフレームの自己相関係数ベクトルで、以後
これを標準音声特徴ベクトルと呼ぶ。

【０００８】平均雑音付加手段４は、音声モデルメモリ
３に記憶されているカテゴリｋの音声モデルの標準音声
特徴ベクトルＳk（ｊ）に対し、あらかじめ与えられた
平均的な重畳雑音の特徴ベクトルＺをやはりあらかじめ
定められたＳＮ比になるように付加して、雑音付加標準
音声特徴ベクトルＹk（ｊ）として出力する。なおＳk
（ｊ）に対するＺの付加は、ベクトルの和によって行っ
ている。

【０００９】類似度演算手段５は、音響分析手段２の出
力であるところの雑音重畳入力音声特徴ベクトル時系列
の各特徴ベクトルＸ（ｉ）と平均雑音付加手段４の出力
であるところの雑音付加標準音声特徴ベクトルＹk
（ｊ）との類似度Ｄk（ｉ，ｊ）として出力する。類似
度には例えば、Ｘ（ｉ）およびＹk（ｊ）をそれぞれＬ
ＰＣ分析して得られるＬＰＣケプストラム係数ベクトル
のユークリッド距離の逆数を用いる。

【００１０】照合手段６は、類似度演算手段５の出力で
ある類似度Ｄk（ｉ，ｊ）（但し、ｉ＝１，２，…，
Ｉ、ｊ＝１，２，…，Ｊk）を用いてＤＰマッチングを
行い、雑音重畳入力音声に対するカテゴリｋの音声モデ
ルの類似度を求める。これを全ての音声モデルについて
行い、類似度を最大にする音声モデルのカテゴリを認識
結果７として出力する。

【００１１】以上の処理により、雑音重畳入力音声特徴
ベクトル時系列は、雑音ベクトルの付加によりスペクト
ル変形された標準音声特徴ベクトルから成る音声モデル
と照合されることになり、雑音重畳によるスペクトル変
形を原因とする認識性能劣化を抑制する。

【００１２】

【発明が解決しようとする課題】従来の音声認識装置は
以上のように構成されているため、雑音重畳入力音声
は、平均的な雑音ベクトルをあるＳＮ比で付加する事で
スペクトル変形させた標準音声特徴ベクトルから成る音
声モデルと照合されることになり、変動の少ない雑音が
重畳したＳＮ比既知の雑音重畳入力音声に対し、雑音重
畳を原因とする認識性能劣化を抑制することができた。

【００１３】しかるに実際の環境騒音は確率的な変動を
持っており、例えば空調のファン騒音のような比較的定
常と思われる騒音であっても、音響分析における分析フ
レームでの短時間スペクトル分析を行えば、フレームご
とに変化する非定常なものであることが明らかである。
ましてや、種々雑多な騒音源が存在するより一般的な騒
音環境においては重畳雑音の定常性は期待するべくもな
い。また、発声音声の大きさや音声を入力するマイクと
口との距離の変動によっても雑音重畳入力音声のＳＮ比
は変化してしまう。

【００１４】よって従来の音声認識装置では、平均的な
雑音のスペクトルとは異なる雑音が重畳するような非定
常騒音環境下や入力音声のＳＮ比変動が大きい場合は、
認識性能の劣化が避けられないという問題があった。

【００１５】この発明は、上記の問題を解決するために
なされたもので、雑音重畳入力音声信号における重畳雑
音のパワーとスペクトルを、音響分析フレームごとに推
定する機能を持つことで、パワー、スペクトル共に非定
常な雑音が重畳した未知入力音声に対しても、また発声
音量の変化や口からマイクまでの距離の変化によるＳＮ
比変動がある雑音重畳入力音声に対しても極めて良好な
認識性能を発揮する音声認識装置を得ることを目的とし
ている。

【００１６】

【課題を解決するための手段】この発明に係る音声認識
装置は、雑音が重畳した未知入力音声信号に対し設定さ
れる複数個の分析フレームの各々について音響分析を行
い雑音重畳入力音声特徴ベクトル時系列を出力する音響
分析手段と、音声信号に重畳する雑音の特徴ベクトル時
系列を表現する雑音モデルを記憶する雑音モデルメモリ
と、標準音声の特徴ベクトル時系列を表現する音声モデ
ルを記憶する音声モデルメモリと、音声モデルメモリに
格納されている標準音声特徴ベクトルに対し線形予測分
析を行い最尤パラメータと標準音声残差パワーを求める
線形予測分析手段と、線形予測分析手段の出力であると
ころの最尤パラメータを記憶する最尤パラメータメモリ
と、同じく線形予測分析手段の出力であるところの標準
音声残差パワーを記憶する音声残差パワーメモリと、雑
音モデルメモリ上の雑音特徴ベクトルを入力として最尤
パラメータメモリ上の最尤パラメータとの積和演算を行
い雑音残差パワーを求める雑音残差演算手段と、雑音残
差演算手段の出力であるところの雑音残差パワーを記憶
する雑音残差パワーメモリと、音響分析手段の出力であ
るところの雑音重畳入力音声特徴ベクトル時系列の各特
徴ベクトルに対し最尤パラメータメモリ上の最尤パラメ
ータとの積和演算を行い雑音重畳入力音声残差パワーを
求める残差パワー演算手段と、残差パワー演算手段の出
力であるところの雑音重畳入力音声残差パワーと音声残
差パワーメモリ上の標準音声残差パワーと雑音残差パワ
ーメモリ上の雑音残差パワーとを用いて雑音重畳入力音
声のＳＮ比を求めるＳＮ比演算手段と、ＳＮ比演算手段
の出力であるところのＳＮ比に従い音声モデルメモリ上
の標準音声特徴ベクトルと雑音モデルメモリ上の雑音特
徴ベクトルの合成を行い雑音重畳音声特徴ベクトルを生
成する特徴ベクトル合成手段と、音響分析手段の出力で
ある雑音重畳入力音声特徴ベクトル時系列の各特徴ベク
トルに対し特徴ベクトル合成手段の出力である雑音重畳
音声特徴ベクトルとの類似度を演算する類似度演算手段
と、類似度演算手段の出力であるところの類似度データ
を用いて照合処理を行い認識結果を出力する照合手段を
備えたものである。

【００１７】請求項２の発明における音声認識装置は、
雑音が重畳した未知入力音声信号に対し設定される複数
個の分析フレームの各々について音響分析を行い雑音重
畳入力音声特徴ベクトル時系列を出力する音響分析手段
と、音声信号に重畳する雑音の特徴ベクトル時系列を表
現する雑音モデルを記憶する雑音モデルメモリと、標準
音声の特徴ベクトル時系列を表現する音声モデルを記憶
する音声モデルメモリと、音声モデルメモリに格納され
ている標準音声特徴ベクトルに対し線形予測分析を行い
最尤パラメータと標準音声残差パワーを求める線形予測
分析手段と、線形予測分析手段の出力であるところの最
尤パラメータを記憶する最尤パラメータメモリと、同じ
く線形予測分析手段の出力であるところの標準音声残差
パワーを記憶する音声残差パワーメモリと、雑音モデル
メモリ上の雑音特徴ベクトルを入力として最尤パラメー
タメモリ上の最尤パラメータとの積和演算を行い雑音残
差パワーを求める雑音残差演算手段と、雑音残差演算手
段の出力であるところの雑音残差パワーを記憶する雑音
残差パワーメモリと、音響分析手段の出力であるところ
の雑音重畳入力音声特徴ベクトル時系列の各特徴ベクト
ルに対し最尤パラメータメモリ上の最尤パラメータとの
積和演算を行い雑音重畳入力音声残差パワーを求める残
差パワー演算手段と、残差パワー演算手段の出力である
ところの雑音重畳入力音声残差パワーと音声残差パワー
メモリ上の標準音声残差パワーと雑音残差パワーメモリ
上の雑音残差パワーとを用いて雑音重畳入力音声のＳＮ
比を求めるＳＮ比演算手段と、ＳＮ比演算手段の出力で
あるところのＳＮ比に従い音声モデルメモリ上の標準音
声特徴ベクトルと雑音モデルメモリ上の雑音特徴ベクト
ルの合成を行い雑音重畳音声特徴ベクトルを生成する特
徴ベクトル合成手段と、音響分析手段の出力である雑音
重畳入力音声特徴ベクトル時系列の各特徴ベクトルに対
し特徴ベクトル合成手段の出力である雑音重畳音声特徴
ベクトルとの類似度を演算する類似度演算手段と、類似
度演算手段の出力であるところの類似度データを入力と
して音声モデルと雑音重畳入力音声特徴ベクトル時系列
との最適照合パスを求める最適照合パス決定手段と、音
響分析手段の出力である雑音重畳入力音声特徴ベクトル
時系列における各特徴ベクトルに対しＳＮ比演算手段の
出力であるＳＮ比と雑音モデルメモリ上の雑音特徴ベク
トルとを用いて重畳雑音特徴ベクトルを生成する重畳雑
音生成手段と、最適照合パス決定手段の出力であるとこ
ろの照合パスデータと重畳雑音生成手段の出力であると
ころの重畳雑音特徴ベクトルとを用いて入力雑音特徴ベ
クトル時系列を求める重畳雑音決定手段と、ＳＮ比演算
手段の出力であるところのＳＮ比と音響分析手段の出力
であるところの雑音重畳入力音声特徴ベクトル時系列と
音声モデルメモリ上の標準音声特徴ベクトルと最適照合
パス決定手段の出力であるところの照合パスデータとを
入力として音声パワー比を求めるパワー比決定手段と、
音響分析手段の出力であるところの雑音重畳入力音声特
徴ベクトル時系列と音声モデルメモリ上の標準音声特徴
ベクトルと重畳雑音決定手段の出力であるところの入力
雑音特徴ベクトル時系列とパワー比決定手段の出力であ
るところの音声パワー比とを入力として雑音重畳入力音
声特徴ベクトル時系列の各特徴ベクトルと音声モデルメ
モリ上の標準音声特徴ベクトルとの雑音適応化類似度を
演算する雑音適応化類似度演算手段と、雑音適応化類似
度演算手段の出力であるところの雑音適応化類似度デー
タを用いて照合を行い認識結果を出力する照合手段を備
えたものである。

【００１８】また請求項３の発明における音声認識装置
は、雑音が重畳した未知入力音声信号に対し設定される
複数個の分析フレームの各々について音響分析を行い雑
音重畳入力音声特徴ベクトル時系列を出力する音響分析
手段と、音声信号に重畳する雑音の特徴ベクトル時系列
を表現する雑音モデルを記憶する雑音モデルメモリと、
標準音声の特徴ベクトル時系列を表現する音声モデルを
記憶する音声モデルメモリと、音声モデルメモリに格納
されている標準音声特徴ベクトルに対し線形予測分析を
行い最尤パラメータと標準音声残差パワーを求める線形
予測分析手段と、線形予測分析手段の出力であるところ
の最尤パラメータを記憶する最尤パラメータメモリと、
同じく線形予測分析手段の出力であるところの標準音声
残差パワーを記憶する音声残差パワーメモリと、雑音モ
デルメモリ上の雑音特徴ベクトルを入力として最尤パラ
メータメモリ上の最尤パラメータとの積和演算を行い雑
音残差パワーを求める雑音残差演算手段と、雑音残差演
算手段の出力であるところの雑音残差パワーを記憶する
雑音残差パワーメモリと、音響分析手段の出力であると
ころの雑音重畳入力音声特徴ベクトル時系列の各特徴ベ
クトルに対し最尤パラメータメモリ上の最尤パラメータ
との積和演算を行い雑音重畳入力音声残差パワーを求め
る残差パワー演算手段と、残差パワー演算手段の出力で
あるところの雑音重畳入力音声残差パワーと音声残差パ
ワーメモリ上の標準音声残差パワーと雑音残差パワーメ
モリ上の雑音残差パワーとを用いて雑音重畳入力音声の
ＳＮ比を求めるＳＮ比演算手段と、ＳＮ比演算手段の出
力であるところのＳＮ比に従い音声モデルメモリ上の標
準音声特徴ベクトルと雑音モデルメモリ上の雑音特徴ベ
クトルの合成を行い雑音重畳音声特徴ベクトルを生成す
る特徴ベクトル合成手段と、音響分析手段の出力である
雑音重畳入力音声特徴ベクトル時系列の各特徴ベクトル
に対し特徴ベクトル合成手段の出力である雑音重畳音声
特徴ベクトルとの類似度を演算する類似度演算手段と、
類似度演算手段の出力であるところの類似度データを入
力として音声モデルと雑音重畳入力音声特徴ベクトル時
系列との最適照合パスを求める最適照合パス決定手段
と、音響分析手段の出力である雑音重畳入力音声特徴ベ
クトル時系列における各特徴ベクトルに対しＳＮ比演算
手段の出力であるＳＮ比と雑音モデルメモリ上の雑音特
徴ベクトルとを用いて重畳雑音特徴ベクトルを生成する
重畳雑音生成手段と、最適照合パス決定手段の出力であ
るところの照合パスデータと重畳雑音生成手段の出力で
あるところの重畳雑音特徴ベクトルとを用いて入力雑音
特徴ベクトル時系列を求める重畳雑音決定手段と、音響
分析手段の出力であるところの雑音重畳入力音声特徴ベ
クトル時系列と音声モデルメモリ上の標準音声特徴ベク
トルと重畳雑音決定手段の出力であるところの入力雑音
特徴ベクトル時系列とを入力として雑音重畳入力音声特
徴ベクトル時系列の各特徴ベクトルと音声モデルメモリ
上の標準音声特徴ベクトルとの雑音除去類似度を演算す
る雑音除去類似度演算手段と、雑音除去類似度演算手段
の出力であるところの雑音適応化類似度データを用いて
照合を行い認識結果を出力する照合手段を備えたもので
ある。

【００１９】また請求項４の発明における音声認識装置
は、雑音が重畳した未知入力音声信号に対し設定される
複数個の分析フレームの各々について音響分析を行い雑
音重畳入力音声特徴ベクトル時系列を出力する音響分析
手段と、音声信号に重畳する雑音の特徴ベクトル時系列
を表現する雑音モデルを記憶する雑音モデルメモリと、
標準音声の特徴ベクトル時系列を表現する音声モデルを
記憶する音声モデルメモリと、音声モデルメモリに格納
されている標準音声特徴ベクトルに対し線形予測分析を
行い最尤パラメータと標準音声残差パワーを求める線形
予測分析手段と、線形予測分析手段の出力であるところ
の最尤パラメータを記憶する最尤パラメータメモリと、
同じく線形予測分析手段の出力であるところの標準音声
残差パワーを記憶する音声残差パワーメモリと、雑音モ
デルメモリ上の雑音特徴ベクトルを入力として最尤パラ
メータメモリ上の最尤パラメータとの積和演算を行い雑
音残差パワーを求める雑音残差演算手段と、雑音残差演
算手段の出力であるところの雑音残差パワーを記憶する
雑音残差パワーメモリと、音響分析手段の出力であると
ころの雑音重畳入力音声特徴ベクトル時系列の各特徴ベ
クトルに対し最尤パラメータメモリ上の最尤パラメータ
との積和演算を行い雑音重畳入力音声残差パワーを求め
る残差パワー演算手段と、残差パワー演算手段の出力で
あるところの雑音重畳入力音声残差パワーと音声残差パ
ワーメモリ上の標準音声残差パワーと雑音残差パワーメ
モリ上の雑音残差パワーとを用いて雑音重畳入力音声の
ＳＮ比を求めるＳＮ比演算手段と、ＳＮ比演算手段の出
力であるところのＳＮ比に従い音声モデルメモリ上の標
準音声特徴ベクトルと雑音モデルメモリ上の雑音特徴ベ
クトルの合成を行い雑音重畳音声特徴ベクトルを生成す
る特徴ベクトル合成手段と、音響分析手段の出力である
雑音重畳入力音声特徴ベクトル時系列の各特徴ベクトル
に対し特徴ベクトル合成手段の出力である雑音重畳音声
特徴ベクトルとの類似度を演算する類似度演算手段と、
類似度演算手段の出力であるところの類似度データを入
力として音声モデルと雑音重畳入力音声特徴ベクトル時
系列との最適照合パスを求める最適照合パス決定手段
と、ＳＮ比演算手段の出力であるところのＳＮ比と音響
分析手段の出力であるところの雑音重畳入力音声特徴ベ
クトル時系列と音声モデルメモリ上の標準音声特徴ベク
トルと最適照合パス決定手段の出力であるところの照合
パスデータとを入力として音声パワー比を求めるパワー
比決定手段と、音響分析手段の出力である雑音重畳入力
音声特徴ベクトル時系列における各特徴ベクトルに対し
ＳＮ比演算手段の出力であるＳＮ比と雑音モデルメモリ
上の雑音特徴ベクトルとを用いて重畳雑音特徴ベクトル
を生成する重畳雑音生成手段と、最適照合パス決定手段
の出力であるところの照合パスデータと重畳雑音生成手
段の出力であるところの重畳雑音特徴ベクトルとパワー
比決定手段の出力であるところの音声パワー比とを用い
て付加雑音特徴ベクトルを求める付加雑音決定手段と、
付加雑音決定手段の出力であるところの付加雑音特徴ベ
クトルと音声モデルメモリ上の標準音声特徴ベクトルを
入力として雑音付加標準音声特徴ベクトルを求める雑音
付加手段と、音響分析手段の出力であるところの雑音重
畳入力音声特徴ベクトル時系列と雑音付加手段の出力で
あるところの雑音付加標準音声特徴ベクトルとの類似度
を演算する類似度演算手段と、類似度演算手段の出力で
あるところの類似度データを用いて照合を行い認識結果
を出力する照合手段を備えたものである。

【００２０】

【作用】この発明において、ＳＮ比演算手段は、音響分
析手段の出力である雑音重畳入力音声特徴ベクトル時系
列の各特徴ベクトルついてのＳＮ比演算を行う際に、残
差パワー演算手段の出力である雑音重畳入力音声残差パ
ワーと線形予測分析の出力である標準音声残差パワーと
雑音残差演算手段の出力である雑音残差パワーの３種の
残差パワーが用いている。この３種の残差パワーを求め
る際に線形予測分析手段及び雑音残差演算手段におい
て、音声モデルメモリに記憶されている音声モデルの標
準音声特徴ベクトルおよび雑音モデルメモリに記憶され
ている雑音モデルの雑音特徴ベクトルの２種の特徴ベク
トルが用いられている。特徴ベクトル合成手段は、ＳＮ
比演算手段が上記３種の残差パワーを用いて求めた雑音
重畳入力音声特徴ベクトル時系列の特徴ベクトルについ
てのＳＮ比に従って、上記２種の特徴ベクトルすなわち
標準音声特徴ベクトルと雑音特徴ベクトルとの合成を行
い、雑音重畳音声特徴ベクトルとして出力している。

【００２１】この発明における類似度演算手段は、上記
のように特徴ベクトル合成手段で合成された雑音重畳音
声特徴ベクトルと、前述のＳＮ比演算手段においてＳＮ
比演算の対象となった雑音重畳入力音声特徴ベクトル時
系列中の特徴ベクトルとの類似度演算を行っているの
で、雑音重畳入力音声特徴ベクトル時系列の各特徴ベク
トルのＳＮ比に合わせて雑音を付加された雑音重畳音声
特徴ベクトルとの類似度が照合手段に出力される。

【００２２】また、照合手段は、上記のように生成され
た類似度データを用い、雑音モデルの制約の下で、雑音
重畳入力音声特徴ベクトル時系列に対し、類似度が最大
になるように各カテゴリの音声モデルと照合を行い、最
も高い類似度を与えた音声モデルのカテゴリを認識結果
として出力する。

【００２３】また他の発明における重畳雑音生成手段
は、ＳＮ比演算手段の出力であるＳＮ比とＳＮ比演算の
対象となった雑音重畳入力音声特徴ベクトル時系列中の
特徴ベクトルのパワーとを用いて該特徴ベクトルにおけ
る雑音成分のパワーを求め、この値と、ＳＮ比演算手段
において用いられた雑音残差パワーに対応する雑音モデ
ル内の雑音特徴ベクトルとを用いて重畳雑音特徴ベクト
ルを生成する。ここで生成される該重畳雑音特徴ベクト
ルは、雑音重畳入力音声特徴ベクトル時系列中の特徴ベ
クトルト音声モデルメモリに記憶されている音声モデル
の標準音声特徴ベクトルと雑音モデルメモリに記憶され
ている雑音モデルの雑音特徴ベクトルの３種の特徴ベク
トルにより一意に求められている点で、類似度演算手段
の出力である類似度データ及びＳＮ比演算手段の出力で
あるＳＮ比と１対１に対応している。

【００２４】最適照合パス決定手段は、類似度演算手段
の出力である類似度データを用い、雑音モデルの制約の
下で、雑音重畳入力音声特徴ベクトル時系列と音声モデ
ルとの類似度が最大になる照合パスを決定する。

【００２５】重畳雑音決定手段は、重畳雑音生成手段が
生成した重畳雑音特徴ベクトルと最適照合パス決定手段
が出力した照合パスとを用いて、雑音重畳入力音声特徴
ベクトル時系列の各特徴ベクトルに対応する重畳雑音特
徴ベクトルを求め、重畳雑音特徴ベクトル時系列として
出力する。また、パワー比決定手段は、ＳＮ比演算手段
の出力であるＳＮ比と最適照合パス決定手段の出力であ
る照合パスと雑音重畳入力音声特徴ベクトル時系列の各
特徴ベクトルのパワーと音声モデルメモリに記憶されて
いる音声モデルの特徴ベクトルのパワーとを用いて、雑
音重畳入力音声中の音声信号と音声モデルのパワー比を
求める。

【００２６】雑音適応化類似度演算手段は、音声モデル
メモリに記憶されている音声モデルの標準音声特徴ベク
トルに対しパワー比決定手段の出力であるところの音声
パワー比を用いて音声モデルと雑音重畳入力音声中の音
声信号のパワーが一致するようにパワー正規化処理を施
し、重畳雑音決定手段の出力であるところの重畳雑音特
徴ベクトル時系列を用いて雑音重畳入力音声特徴ベクト
ル時系列の各特徴ベクトルとの雑音適応化類似度を求め
る。

【００２７】また別の発明においては、雑音除去類似度
演算手段は、雑音重畳入力音声特徴ベクトル時系列の各
特徴ベクトルに対し、重畳雑音決定手段の出力であると
ころの重畳雑音特徴ベクトル時系列の各特徴ベクトルを
用いて雑音除去を行い、音声モデルメモリ上に記憶され
ている音声モデルの各特徴ベクトルとの類似度を演算す
る。

【００２８】また別の発明においては、付加雑音決定手
段は、重畳雑音生成手段が生成した重畳雑音特徴ベクト
ルと最適照合パス決定手段が出力した照合パスとパワー
比決定手段の出力である音声パワー比とを用いて、音声
モデルの標準音声特徴ベクトルに対する付加雑音特徴ベ
クトルを求める。雑音付加手段は、該付加雑音特徴ベク
トルを音声モデルの標準音声特徴ベクトルに付加し、雑
音付加標準音声特徴ベクトルを出力する。類似度演算手
段は、該雑音付加標準音声特徴ベクトルと雑音重畳入力
音声特徴ベクトル時系列の各特徴ベクトルとの類似度を
演算する。

【００２９】

【実施例】

実施例１．図１は、請求項１の発明に関わる音声認識装
置の一実施例の構成を示すブロック図である。図におい
て、２は入力端１より入力される雑音重畳入力音声に対
し、音響分析を行い雑音重畳入力音声特徴ベクトル時系
列を出力する音響分析手段、３は標準音声の特徴ベクト
ル時系列を表現する音声モデルを記憶する音声モデルメ
モリである。

【００３０】８は音声に重畳する雑音の特徴ベクトル時
系列を表現する雑音モデルを記憶する雑音モデルメモ
リ、９は音声モデルメモリ３に記憶されている音声モデ
ルの標準音声特徴ベクトルを入力として線形予測分析を
行い、最尤パラメータを最尤パラメータメモリ１０に、
標準音声残差パワーを音声残差パワーメモリ１１に書き
込む線形予測分析手段、１２は雑音モデルメモリ８に記
憶されている雑音モデルの雑音特徴ベクトルと最尤パラ
メータメモリ１０に記憶されている最尤パラメータとの
積和演算により雑音残差パワーを求め雑音残差メモリ１
３に書き込む雑音

【００３１】１４は音響分析手段２の出力である雑音重
畳入力音声特徴ベクトル時系列の各特徴ベクトルに対し
最尤パラメータメモリ１０に記憶されている最尤パラメ
ータとの積和演算を行い雑音重畳入力音声残差パワーを
求める残差パワー演算手段、１５は残差パワー演算手段
１４の出力であるところの雑音重畳入力音声残差パワー
と音声残差パワーメモリ１１に記憶されている標準音声
残差パワーと雑音残差パワーメモリ１３に記憶されてい
る雑音残差パワーとを用いて雑音重畳入力音声のＳＮ比
を求めるＳＮ比演算手段、１６はＳＮ比演算手段１５の
出力であるところのＳＮ比に従い音声モデルメモリ３に
記憶されている標準音声特徴ベクトルと雑音モデルメモ
リ８に記憶されている雑音特徴ベクトルの合成を行い雑
音重畳音声特徴ベクトルを生成する特徴ベクトル合成手
段である。

【００３２】５は音響分析手段２の出力である雑音重畳
入力音声特徴ベクトル時系列の各特徴ベクトルに対し特
徴ベクトル合成手段１６の出力である雑音重畳音声特徴
ベクトルとの類似度を演算する類似度演算手段、７は類
似度演算手段５の出力であるところの類似度データを用
いて照合処理を行い認識結果７を出力する照合手段であ
る。

【００３３】次に動作について、まずＤＰマッチング法
を照合手段７に採用した離散単語認識の場合を例に説明
を行う。入力端１より入力された雑音重畳入力音声信号
は、音響分析手段２において任意の分析フレーム（例え
ばフレーム周期１０ｍｓｅｃ、フレーム長２５．６ｍｓ
ｅｃ、ハミング窓）について音響分析され、自己相関係
数ベクトルを特徴ベクトルとする雑音重畳入力音声特徴
ベクトル時系列｛Ｘ（ｉ）｜ｉ＝１，２，…，Ｉ｝に変
換される。ここでＸ（ｉ）は第ｉフレームの自己相関係
数ベクトルで、Ｉはフレーム数である。

【００３４】音声モデルメモリ３には、カテゴリｋ（ｋ
＝１，２，…，Ｋ）の音声モデルとして、カテゴリｋの
単語音声信号に対し音響分析手段２における音響分析と
同等の音響分析処理を施し得られる自己相関係数ベクト
ルからなる標準音声特徴ベクトル時系列｛Ｓk（ｊ）｜
ｊ＝１，２，…，Ｊk｝が記憶されている。但し、前記
単語音声信号は、この発明による音声認識装置が対象と
する雑音重畳入力音声信号よりも高いＳＮ比をもってい
る必要がある。

【００３５】雑音モデルメモリ８には、入力音声に重畳
することが想定される雑音信号に対し、音響分析手段２
における音響分析と同等の音響分析処理を施して得られ
る自己相関係数ベクトル時系列を表現する雑音モデルが
１個もしくは複数個記憶されている。各雑音モデルはそ
れぞれ異なる種類の雑音を表現しているが、絶対的なパ
ワー値の違いは雑音の種類を区別しない。

【００３６】ここでは一例として、重畳雑音信号が、パ
ワーについては音響分析フレーム毎の変動が大きいが、
パワー正規化しスペクトル形状にのみ注目すると音響分
析フレーム毎にＮ種類の雑音がランダムに現れるという
ような場合を例に採り説明する。この場合、スペクトル
が相異なる前記Ｎ種類の雑音の特徴ベクトル｛Ｚn｜ｎ
＝１，２，…，Ｎ｝がそれぞれ雑音モデルとして雑音モ
デルメモリに記憶される。

【００３７】線形予測分析手段９は、音声モデルメモリ
３に記憶されている全ての音声モデルの全ての標準音声
特徴ベクトルＳk（ｊ）に対し、以下に示す処理を行
う。

【００３８】１．例えば自己相関法などを用いて、標準
音声特徴ベクトルＳk（ｊ）の自己相関係数ベクトルか
ら線形予測パラメータを求める。

【００３９】２．次に、１で得られた線形予測パラメー
タの自己相関係数である最尤パラメータＡk（ｊ）＝
｛ａkj（ｍ）｜ｍ＝０，１，…，Ｍ｝を求め最尤パラメ
ータメモリ１０に保存する。

【００４０】３．標準音声特徴ベクトルＳk（ｊ）の正
規化自己相関係数ベクトルと最尤パラメータＡk（ｊ）
とを用いて積和演算を行い標準音声残差パワーαkjを求
め、音声残差パワーメモリに保存する。αkjは以下の
（１）式により求める。

【００４１】

【数１】

【００４２】雑音残差演算手段１２は、雑音モデルメモ
リ８に記憶されている雑音モデルの雑音特徴ベクトル
｛Ｚn｜ｎ＝１，２，…，Ｎ｝の正規化自己相関係数に
対し、最尤パラメータメモリ１０に記憶されている全て
の最尤パラメータＡk（ｊ）を用いて積和演算を行い、
雑音残差パワーβkj,nを求め雑音算差パワーメモリ１３
に書き込む。βkj,nは以下の（２）式で求める。

【００４３】

【数２】

【００４４】残差パワー演算手段１４は、音響分析手段
２の出力であるところの雑音重畳入力音声特徴ベクトル
時系列の各特徴ベクトルＸ（ｉ）（ｉ＝１，２，…，
Ｉ）の正規化自己相関係数ベクトルに対し、最尤パラメ
ータメモリ１０に記憶されている全ての最尤パラメータ
Ａk（ｊ）を用いて積和演算を行い、雑音重畳入力音声
残差パワーγki,jを求める。γki,jは（３）式で求め
る。

【００４５】

【数３】

【００４６】ＳＮ比演算手段１５は、残差パワー演算手
段１４の出力である雑音重畳入力音声残差パワーγki,j
と音声残差パワーメモリ１１に記憶されている標準音声
残差パワーαkjと雑音残差パワーメモリ１３に記憶され
ている雑音残差パワーβkj,nとを用いて、ＳＮ比Ｒki,
j,nを（４）式から求める。

【００４７】

【数４】

【００４８】この式は、以下のように導出される。雑音
が重畳していないある音声信号φ（ｔ）（ｔは時間を表
す）が、（５）式のようなＡＲ過程に従うとする。

【００４９】

【数５】

【００５０】すると、線形予測係数ψmは、音声信号φ
（ｔ）の自己相関係数から、自己相関法により一意に求
められる。

【００５１】任意の信号を、１／Ｈ（ｚ）なる伝達特性
を持つフィルタに入力した時得られる出力信号のパワー
は、前記線形予測係数ψmの自己相関係数（最尤パラメ
ータと呼ばれている）Ψτ（τ＝０，１，…，Ｍ）と入
力信号の自己相関係数の積和演算により求められる。前
述の音声信号φ（ｔ）を入力する場合を例に採れば、フ
ィルタの出力信号のパワー（残差パワーと呼ばれる）Ｐ
φは、（６）式により得られる。式中Φτは音声信号φ
（ｔ）の自己相関係数でτ＝０，１，…，Ｍである。

【００５２】

【数６】

【００５３】次に、音声信号φ（ｔ）に雑音信号ξ
（ｔ）が（７）式のように重畳した雑音重畳信号ω
（ｔ）を考える。

【００５４】

【数７】

【００５５】音声信号φ（ｔ）と雑音信号ξ（ｔ）の無
相関が仮定できるならば、雑音重畳信号ω（ｔ）の自己
相関係数Ωτは、（８）式のようにφ（ｔ）の自己相関
係数Φτとξ（ｔ）の自己相関係数Ξτの和として与え
られる。

【００５６】

【数８】

【００５７】このような雑音重畳信号ω（ｔ）を１／Ｈ
（ｚ）なる伝達特性を持つ前記フィルタに入力した場合
の残差パワーＰωは、（９）式により得られる。

【００５８】

【数９】

【００５９】（９）式のΩτを（８）式にて置き換える
と（１０）式のようになる。

【００６０】

【数１０】

【００６１】（９）（１０）式をまとめて（１１）式と
する。

【００６２】

【数１１】

【００６３】（１１）式において、Ωτ、Φτ、Ξτの
正規化自己相関係数をそれぞれΩ■τ、Φ■τ、Ξ■τ
とすると、

【００６４】

【数１２】

【００６５】となる。また（８）式においてτ＝０とす
ると（１３）式のようになる。

【００６６】

【数１３】

【００６７】（１２）式のΩ0を（１３）式で置き換
え、ＳＮ比Φ0／Ξ0についてとくと、

【００６８】

【数１４】

【００６９】となる。すなわち、雑音重畳音声信号ω
（ｔ）に対し、雑音が重畳していない音声信号φ（ｔ）
の正規化自己相関係数Φ■τ及び、重畳している雑音の
正規化自己相関係数Ξ■τが分かれば、雑音重畳音声信
号ω（ｔ）の正規化自己相関係数Ω■τ及び音声信号φ
（ｔ）の最尤パラメータΨτにより雑音重畳信号ω
（ｔ）のＳＮ比が求められることがわかる。

【００７０】音声認識装置に入力される雑音重畳入力音
声信号は、雑音重畳以前の音声信号の正規化自己相関係
数も、重畳している雑音信号の正規化自己相関係数も、
未知であるため、音響分析手段２の出力である雑音重畳
入力音声特徴ベクトル時系列｛Ｘ（ｉ）｜ｉ＝１，２，
…，Ｉ｝の各特徴ベクトルに対し、音声モデルメモリ３
に記憶されている音声モデルの全ての標準音声特徴ベク
トルと雑音モデルメモリ８に記憶されている雑音モデル
の全ての雑音特徴ベクトルの組み合わせについて得られ
るＳＮ比を、ＳＮ比演算手段１５は出力する。

【００７１】特徴ベクトル合成手段１６は、ＳＮ比演算
手段１５の出力であるところのＳＮ比Ｒki,j,n（ｋ＝
１,２,…,Ｋ、ｊ＝１,２,…,ＪK、ｉ＝１,２,…,Ｉ、ｎ
＝１,２,…,Ｎ）を入力とし、音声モデルメモリ３に記
憶されている音声モデルの標準音声特徴ベクトルＳkjと
雑音モデルメモリ８に記憶されている雑音モデルの雑音
特徴ベクトルＺnとのパワー比がＳＮ比Ｒki,j,nと一致
するように特徴ベクトルの合成を行い、雑音重畳音声特
徴ベクトルＹki,j,nとして出力する。

【００７２】類似度演算手段５は、音響分析手段２の出
力であるところの雑音重畳入力音声特徴ベクトル時系列
｛Ｘ（ｉ）｜ｉ＝１,２,…,Ｉ｝の各特徴ベクトルに対
し、特徴ベクトル合成手段１６の出力であるところの雑
音重畳音声特徴ベクトルＹki,j,n（ｋ＝１,２,…,Ｋ、
ｊ＝１,２,…,ＪK、ｉ＝１,２,…,Ｉ、ｎ＝１,２,…,
Ｎ）を用い、Ｘ（ｉ）とＹki,j,n（ｋ＝１,２,…,Ｋ、
ｊ＝１,２,…,ＪK、ｎ＝１,２,…,Ｎ）との類似度Ｄ1k
i,j,nを求める。類似度としては一例として、特徴ベク
トルである自己相関係数をＬＰＣ分析して得られるＬＰ
Ｃケプストラムベクトルのユークリッド距離の逆数があ
る。

【００７３】照合手段６は、類似度演算手段５の出力で
ある類似度データＤ1ki,j,n（ｋ＝１,２,…,Ｋ、ｊ＝
１,２,…,ＪK、ｉ＝１,２,…,Ｉ、ｎ＝１,２,…,Ｎ）を
用い、カテゴリｋの音声モデルと雑音重畳入力音声との
照合を雑音モデルの制約の下で行い、類似度が最大にな
る音声モデルのカテゴリを認識結果７として出力する。

【００７４】この場合雑音モデルの制約は、音響分析フ
レーム毎にランダムにｎが１,２,…,Ｎのうちのどれか
の値をとるということだけなので、｛Ｄ1ki,j,n｜ｎ＝
１,２,…,Ｎ｝の中でいちばん高い類似度を、雑音重畳
入力音声特徴ベクトル時系列の第ｉフレームとカテゴリ
ｋの音声モデルの第ｊフレームとの類似度とみなしてＤ
Ｐマッチングを行うことで照合を行う。

【００７５】これにより照合パス上では、雑音重畳入力
音声特徴ベクトル時系列の各特徴ベクトルに対し、音声
モデルとの類似度最大化条件による、標準音声特徴ベク
トルと雑音ベクトルの対応付けがなされることになり、
結果として、雑音重畳入力音声に対する正解カテゴリの
音声モデルに対し、雑音重畳入力音声に重畳している雑
音と等しい雑音を等しいＳＮ比で重畳させて照合させた
ことと等しく、非定常雑音が重畳しＳＮ比変動が大きい
雑音重畳入力音声に対しても、正しい認識が行える。

【００７６】以上、請求項１の発明に係わる実施例につ
いて、ＤＰマッチングによる照合を行う場合を例に採り
説明を行ったが、照合方式はＤＰマッチングに限定され
るものではなく、例えばＨＭＭによる認識手法を用いて
もかまわない。

【００７７】この場合、音声モデルメモリ３には、各カ
テゴリの音声を表すＨＭＭが音声モデルとして記憶さ
れ、ＨＭＭの各状態（もしくは各遷移）において出力確
率をもつ音声特徴ベクトルが上記説明における標準音声
特徴ベクトルとなる。具体的には、連続分布型ＨＭＭで
は各状態（もしくは各遷移）での出力確率演算における
１個もしくは複数個の平均特徴ベクトルが、音声特徴ベ
クトルに対しコードブックによるベクトル量子化処理を
行う離散分布型ＨＭＭでは各状態（もしくは各遷移）に
おいて出力確率をもつ１個もしくは複数個のコードラベ
ルの特徴ベクトルが標準音声特徴ベクトルとなる。ま
た、上記実施例の説明において述べたように、特徴ベク
トル合成手段１６における標準音声特徴ベクトルと雑音
特徴ベクトルとの合成には標準音声特徴ベクトルのパワ
ー情報が必要となるため、パワー情報を含めた音声特徴
ベクトルの出力確率を扱うＨＭＭを用いる。

【００７８】雑音モデルメモリ８に記憶される雑音モデ
ルも雑音を表現するＨＭＭであってかまわず、この場合
の雑音特徴ベクトルは、音声モデルの場合と同様にＨＭ
Ｍの各状態（もしくは各遷移）において出力確率をもつ
雑音の特徴ベクトルがこれにあたる。また、雑音モデル
間での遷移確率をもたせることで１個の大きな雑音モデ
ルを用いてもかまわない。

【００７９】類似度演算手段５では、ＨＭＭの各状態
（もしくは各遷移）において雑音重畳入力音声特徴ベク
トル時系列の各特徴ベクトルが出力される確率を演算
し、類似度データとして出力する。照合手段６は、類似
度演算手段５の出力であるところの類似度データを用い
て、雑音重畳入力音声と各カテゴリのＨＭＭとの、雑音
モデルの制約の下での照合を行い、類似度が最大になる
ＨＭＭのカテゴリを認識結果として出力する。

【００８０】以上、単語認識を例に採りその動作につい
て説明を行ったが、この発明の請求項１に係る実施例は
認識対象を単語に限定するものではなく、音声における
他の発声単位を用いてもかまわない。

【００８１】また類似度演算手段において、特徴ベクト
ルである自己相関係数から得られるあらゆる音響パラメ
ータ、例えばＬＳＰパラメータやＬＰＣメルケプストラ
ム係数、声道断面積関数を用いた類似度や、同じく自己
相関係数から得られるパラメータを用いたあらゆる距離
尺度、例えばＬＰＣメルケプストラム係数のユークリッ
ド距離や、ＷＬＲ距離、ＷＧＤ距離尺度、群遅延スペク
トル距離、重み付けケプストラムのユークリッド距離、
またこれらユークリッド距離の代わりにチェビシェフ距
離などを用いた類似度を採用してもかまわない。

【００８２】加えて、音響分析によるところの特徴ベク
トルを自己相関係数のみに限定することなく、他の音響
パラメータを付与した特徴ベクトルを用い、これによる
類似度により照合を行ってもかまわない。

【００８３】実施例２．図２は、請求項２の発明に係る
音声認識装置の一実施例の構成を示すブロック図であ
る。図において、１は入力端、２は音響分析手段、３は
音声モデルメモリ、５は類似度演算手段、６は照合手
段、７は認識結果、８は雑音モデルメモリ、９は線形予
測分析手段、１０は最尤パラメータメモリ、１１は音声
残差パワーメモリ、１２、雑音残差演算手段、１３は雑
音残差パワーメモリ、１４は残差パワー演算手段、１５
はＳＮ比演算手段、１６は特徴ベクトル合成手段で、図
１に同一符号を付した構成要素と同一部分であるため詳
細な説明は省略する。

【００８４】また、１７は前記類似度演算手段５の出力
である類似度データを入力として雑音重畳入力音声と音
声モデルとの類似度を最大とする最適照合パスを求める
最適照合パス決定手段、１８は前記ＳＮ比演算手段の出
力であるＳＮ比と前記音響分析手段２の出力である雑音
重畳入力音声特徴ベクトル時系列と前記雑音モデルメモ
リ８に記憶されている雑音モデルの雑音特徴ベクトルと
を用いて重畳雑音特徴ベクトルを生成する重畳雑音生成
手段、１９は最適照合パス決定手段１７の出力である照
合パスデータに従い重畳雑音生成手段１８の出力である
重畳雑音特徴ベクトルから入力雑音特徴ベクトル時系列
を求める重畳雑音決定手段である。

【００８５】２０は前記音声モデルメモリ３に記憶され
ている音声モデルの標準音声特徴ベクトルと音響分析手
段２の出力である雑音重畳入力音声特徴ベクトル時系列
とＳＮ比演算手段１５の出力であるＳＮ比と最適照合パ
ス決定手段１７の出力である照合パスデータとを用いて
雑音重畳入力音声と音声モデルとのパワー比を求めるパ
ワー比決定手段、２１は音響分析手段２の出力である雑
音重畳入力音声特徴ベクトル時系列と重畳雑音決定手段
１９の出力である入力雑音特徴ベクトル時系列とパワー
比決定手段２０の出力である音声パワー比と音声モデル
メモリ３に記憶されている音声モデルの標準音声特徴ベ
クトルとを用いて雑音重畳入力音声特徴ベクトル時系列
の各特徴ベクトルに対し標準音声特徴ベクトルとの雑音
適応化類似度を演算する雑音適応化類似度演算手段であ
る。

【００８６】次に動作について、まずＤＰマッチング法
を照合手段７および最適照合パス決定手段１７に採用し
た離散単語認識の場合を例に説明を行う。音声モデルメ
モリ３及び雑音モデルメモリ８の記憶内容及び、雑音重
畳入力音声信号の入力端１への入力から、類似度演算手
段５までの動作は、上記実施例１の場合と同一であるの
で説明を省く。

【００８７】重畳雑音生成手段１８は、音響分析手段２
の出力であるところの雑音重畳入力音声特徴ベクトル時
系列｛Ｘ（ｉ）｜ｉ＝１,２,…,Ｉ｝の各特徴ベクトル
Ｘ（ｉ）に対し、ＳＮ比演算手段１５の出力であるとこ
ろのＳＮ比Ｒki,j,n（ｋ＝１,２,…,Ｋ、ｊ＝１,２,…,
ＪK、ｉ＝１,２,…,Ｉ、ｎ＝１,２,…,Ｎ）を用いて
（１５）式のように重畳雑音パワーηki,j,n（ｋ＝１,
２,…,Ｋ、ｊ＝１,２,…,ＪK、ｎ＝１,２,…,Ｎ）を求
める。ただし、Ｘ（ｉ）のパワーは自己相関係数ベクト
ルの０次元要素を用い、ｘ0（ｉ）とする。

【００８８】

【数１５】

【００８９】次いで、雑音モデルメモリ８に記憶されて
いる雑音モデルの雑音特徴ベクトル｛Ｚn｜ｎ＝１,２,
…,Ｎ｝のスペクトル形状を保存したままパワーだけを
重畳雑音パワーηki,j,nと一致させた重畳雑音特徴ベク
トルＵki,j,nを生成する。すなわち、雑音特徴ベクトル
Ｚnの正規化自己相関係数ベクトルの各次元要素に対し
重畳雑音パワーηki,j,nを掛けた値をＵki,j,nの各次元
要素とする。

【００９０】このようにして得られる雑音重畳特徴ベク
トルＵki,j,nは、雑音重畳入力音声特徴ベクトル時系列
の中の特徴ベクトルＸ（ｉ）に対し、標準音声特徴ベク
トルＳk（ｊ）と雑音特徴ベクトルＺnとを用いて求めた
ＳＮ比Ｒki,j,nによるパワーと雑音特徴ベクトルＺnの
スペクトル形状をもつ。

【００９１】最適照合パス決定手段１７は、前記類似度
演算手段５の出力である類似度データＤ1ki,j,n（ｋ＝
１,２,…,Ｋ、ｊ＝１,２,…,ＪK、ｉ＝１,２,…,Ｉ、ｎ
＝１,２,…,Ｎ）を用い、カテゴリｋの音声モデルと雑
音重畳入力音声との照合を雑音モデルの制約の下で行
い、各音声モデルとの類似度を最大にする最適照合パス
を求める。照合処理自体は、実施例１の照合手段６にお
ける処理と同じであるので詳細な説明は省く。

【００９２】ここでは、雑音重畳入力音声とカテゴリｋ
の音声モデルとの照合による最適照合パスを、Ｌ＝１,
２,…,Ｌkなる変数に対し一意に値をとる３つの関数ｆ
ｋ（Ｌ）、ｇｋ（Ｌ）、ｈｋ（Ｌ）として表現する。ｆ
ｋ（Ｌ）はｉについて、ｇｋ（Ｌ）はｊについて、ｈｋ
（Ｌ）はｎについての関数であり、Ｌ＝１,２,…,Ｌkに
ついて（１６）式を満たす。

【００９３】

【数１６】

【００９４】重畳雑音決定手段１９は、重畳雑音生成手
段１８の出力であるところの重畳雑音特徴ベクトルＵk
i,j,n（ｋ＝１,２,…,Ｋ、ｊ＝１,２,…,ＪK、ｉ＝１,
２,…,I、n=1,２）と最適照合パス決定手段１７の出力で
あるところの照合パスデータを入力とし、雑音重畳入力
音声とカテゴリｋの音声モデルとの類似度を最大にする
照合パス上の重畳雑音特徴ベクトルについて、ｋおよび
ｉを同じくする重畳雑音特徴ベクトルの平均特徴ベクト
ルを求め、これを入力雑音特徴ベクトルＶk（ｉ）とす
る。

【００９５】すなわち、音声モデルのあるカテゴリｋ
（ｋ＝１,２,…,Ｋ）についてＬ＝１,２,…,Ｌkとした
時、ｆｋ（Ｌ）を同じくする重畳雑音特徴ベクトルＵkf
k(L),gk(L),hk(L)の平均特徴ベクトルを求め、入力雑音
特徴ベクトルＶk（ｆｋ（Ｌ））とする。これにより、
入力雑音特徴ベクトル時系列｛Ｖk（ｉ）｜ｉ＝１,２,
…,Ｉ｝（ｋ＝１,２,…,Ｋ）が得られる。

【００９６】以上のように本重畳雑音決定手段は、請求
項１の発明になる雑音重畳入力音声とカテゴリｋの音声
モデルとの照合手法により得られた照合パスに従い、雑
音重畳入力音声特徴ベクトル時系列の各特徴ベクトルに
対する入力雑音特徴ベクトルを求める。

【００９７】パワー比決定手段２０は、ＳＮ比演算手段
１５の出力であるＳＮ比と音響分析手段２の出力である
雑音重畳入力音声特徴ベクトル時系列と音声モデルメモ
リ３に記憶されている音声モデルの標準音声特徴ベクト
ルと最適照合パス決定手段１７の出力である照合パスデ
ータを入力とし、雑音重畳入力音声とカテゴリｋの音声
モデルとの類似度を最大にする照合パスにおいてＳＮ比
が閾値Ｒｔを越える部分区間に対し、これに対応する音
声モデルの標準音声特徴ベクトルのパワーの平均値を求
める。ついで、照合パス上の同部分区間に対応する雑音
重畳入力音声特徴ベクトル時系列中の各特徴ベクトルに
対し、照合パス上のＳＮ比との演算により特徴ベクトル
における音声信号のパワーを求め、この平均値と音声モ
デルの標準音声特徴ベクトルから得られたパワー平均値
との比を音声パワー比とする。

【００９８】すなわち照合パスデータにおいて、音声モ
デルのあるカテゴリｋ（ｋ＝１,２，…，Ｋ）について
Ｌ＝１,２,…,Ｌkとした時、ＳＮ比Ｒkfk(L),gk(L),hk
(L)が閾値Ｒｔを越えるＬについて、標準音声特徴ベク
トルＳk（ｇｋ（Ｌ））のパワーの平均して音声モデル
パワーを求め、ついで同じＬについて、雑音重畳入力音
声特徴ベクトルＸ（ｆｋ（Ｌ））とＳＮ比Ｒkfk(L),gk
(L),hk(L)とから（１７）式により得られる音声パワー
ζk（ｆｋ（Ｌ）ｉ）を平均して入力音声パワーを求め
る。

【００９９】

【数１７】

【０１００】前記入力音声パワーを前記音声モデルパワ
ーで割った値を雑音重畳入力音声とカテゴリｋの音声モ
デルとの照合による音声パワー比εkとして出力する。
以上のように本パワー比決定手段は、請求項１の発明に
なる雑音重畳入力音声とカテゴリｋの音声モデルとの照
合手法により得られた照合パスに従い、入力音声と音声
モデルとの音声パワー比を求める。

【０１０１】雑音適応化類似度演算手段２１は、まず音
声モデルメモリ３に記憶されているカテゴリｋ（ｋ＝
１,２,…,Ｋ）の音声モデルの標準音声特徴ベクトル
｛Ｓk（ｊ）｜ｊ＝１,２,…,Ｊk｝に対し、パワー比決
定手段２０の出力であるところの音声パワー比εkを用
いて、カテゴリｋの音声モデルの音声モデルパワーと雑
音重畳入力音声の入力音声パワーとが一致するようにパ
ワー補正を行い、パワー正規化標準音声特徴ベクトルＴ
k（ｊ）｜ｊ＝１,２,…,Ｊk｝を得る。パワー補正は、
標準音声特徴ベクトルの自己相関係数ベクトルＳk
（ｊ）の各次元要素に音声パワー比εkを掛けることで
行う。

【０１０２】ついで、音響分析手段２の出力である雑音
重畳入力音声特徴ベクトル時系列｛Ｘ（ｉ）｜ｉ＝１,
２,…,Ｉ｝の各特徴ベクトルに対し、重畳雑音決定手段
１９の出力である入力雑音特徴ベクトル時系列｛Ｖk
（ｉ）｜ｉ＝１,２,…,Ｉ｝を用いて、パワー正規化標
準音声特徴ベクトルＴk（ｊ）との雑音適応化類似度Ｄ2
k（ｉ,ｊ）を（１８）式のように求める。

【０１０３】

【数１８】

【０１０４】式中、ｄ（＊,＊）は括弧内の２つの自己
相関係数ベクトルの間に定義される類似度で、例えばそ
れぞれの自己相関係数をＬＰＣ分析して得られるＬＰＣ
ケプストラムベクトルのユークリッド距離の逆数であ
る。また、式中におけるＴk（ｊ）とＶk（ｉ）の和は、
２つの特徴ベクトルの各次元要素の和によるベクトルの
合成を示す。

【０１０５】これにより類似度Ｄ2k（ｉ，ｊ）は、請求
項１の発明になる雑音重畳入力音声とカテゴリｋの音声
モデルとの照合手法に基づき得られた、雑音重畳入力音
声特徴ベクトルＸ（ｉ）に対する入力重畳雑音特徴ベク
トルＶk（ｉ）による、パワー正規化標準音声特徴ベク
トルＴk（ｉ）への雑音適応化機能をもつ類似度演算手
法となっている。

【０１０６】照合手段６は、雑音適応化類似度データＤ
2k（ｉ，ｊ）（ｉ＝１,２,…,Ｉ、ｊ＝１,２,…,Ｊk、
ｋ＝１,２,…,Ｋ）を用いて、雑音重畳入力音声とカテ
ゴリｋの音声モデルとの照合を行い、類似度が最大にな
る音声モデルのカテゴリを認識結果７として出力する。
以上、請求項２の発明に係わる実施例について、ＤＰマ
ッチングによる照合を行う場合を例に採り説明を行った
が、実施例１の場合と同様に、最適照合パス決定手段１
７及び照合手段６における雑音重畳入力音声と音声モデ
ルとの照合方式よび類似度演算手段５については実施例
１と同じであるので説明を省く。

【０１０７】最適照合パス決定手段１７においては、類
似度演算手段５の出力である類似度データを用いて、雑
音モデルの制約の下での、雑音重畳入力音声と各カテゴ
リのＨＭＭとのビタビ照合パスを出力する。この時、音
声モデル及び雑音モデルについての照合パスデータは、
変数Ｌに対しＨＭＭの各状態（もしくは各遷移）を規定
する関数ではなく、各状態（もしくは各遷移）において
雑音重畳入力音声との類似度を最大にする標準音声（も
しくは雑音）特徴ベクトルを規定するものとする。

【０１０８】これは、音声モデル及び雑音モデルに離散
型ＨＭＭや混合連続分布型ＨＭＭを用いた場合、ＨＭＭ
の各状態（もしくは各遷移）における標準音声（もしく
は雑音）特徴ベクトルが複数個あるためである。雑音適
応化類似度演算手段２１においては、ＨＭＭの各状態
（もしくは各遷移）において雑音重畳入力音声特徴ベク
トル時系列の各特徴ベクトルが出力される確率を演算
し、類似度データとして出力する。照合手段６は、類似
度演算手段５の出力であるところの類似度データを用い
て、雑音重畳入力音声と各カテゴリのＨＭＭとの照合を
行い、類似度が最大になるＨＭＭのカテゴリを認識結果
として出力する。この時の照合方式は、ビタビに限定さ
れない。

【０１０９】以上、単語認識を例に採りその動作につい
て説明を行ったが、この発明の請求項２に係る実施例
は、実施例１の場合と同様、認識対象を単語に限定する
ものではなく、音声における他の発声単位を用いてもか
まわない。また類似度演算手段においても、実施例１の
場合と同様、特徴ベクトルである自己相関係数から得ら
れるあらゆる音響パラメータ、例えばＬＳＰパラメータ
やＬＰＣメルケプストラム係数、声道断面積関数を用い
た類似度や、同じく自己相関係数から得られるパラメー
タを用いたあらゆる距離尺度、例えばＬＰＣメルケプス
トラム係数のユークリッド距離や、ＷＬＲ距離、ＷＧＤ
距離尺度、群遅延スペクトル距離、重み付けケプストラ
ムのユークリッド距離、またこれらユークリッド距離の
代わりにチェビシェフ距離などを用いた類似度を採用し
てもかまわない。加えて、音響分析によるところの特徴
ベクトルを自己相関係数のみに限定することなく、他の
音響パラメータを付与した特徴ベクトルを用い、これに
よる類似度により照合を行ってもかまわない。

【０１１０】実施例３．図３は、請求項３の発明に係る
音声認識装置の一実施例の構成を示すブロック図であ
る。図において、１は入力端、２は音響分析手段、３は
音声モデルメモリ、５は類似度演算手段、６は照合手
段、７は認識結果、８は雑音モデルメモリ、９は線形予
測分析手段、１０は最尤パラメータメモリ、１１は音声
残差パワーメモリ、１２、雑音残差演算手段、１３は雑
音残差パワーメモリ、１４は残差パワー演算手段、１５
はＳＮ比演算手段、１６は特徴ベクトル合成手段、１７
は最適照合パス決定手段、１８は重畳雑音生成手段、１
９は重畳雑音決定手段で、図２に同一符号を付した構成
要素と同一部分であるため詳細な説明は省略する。

【０１１１】また、２２は前記音響分析手段２の出力で
あるところの雑音重畳入力音声特徴ベクトルと前記重畳
雑音決定手段１９の出力であるところの入力雑音特徴ベ
クトル時系列と音声モデルメモリ３に記憶されている音
声モデルの標準音声特徴ベクトルとを入力とし、雑音重
畳入力音声特徴ベクトルに対し入力雑音特徴ベクトル時
系列を用いた雑音除去処理を行った後標準音声特徴ベク
トルとの類似度を求める雑音除去類似度演算手段であ
る。

【０１１２】次に動作について、まずＤＰマッチング法
を照合手段７および最適照合パス決定手段１７に採用し
た離散単語認識の場合を例に説明を行う。音声モデルメ
モリ３及び雑音モデルメモリ８の記憶内容及び、雑音重
畳入力音声信号の入力端１への入力から、重畳雑音決定
手段１９までの動作は、上記実施例２の場合と同一であ
るので説明を省く。

【０１１３】雑音除去類似度演算手段２２は、前記音響
分析手段２の出力であるところの雑音重畳入力音声特徴
ベクトル時系列｛Ｘ（ｉ）｜ｉ＝１,２,…,Ｉ｝の各特
徴ベクトルに対し、前記重畳雑音決定手段１９の出力で
あるところの入力雑音特徴ベクトル時系列｛Ｖk（ｉ）
｜ｉ＝１,２,…,Ｉ｝による雑音除去を施した後、音声
モデルメモリ３に記憶されている音声モデルの標準音声
特徴ベクトルＳk（ｊ）との類似度を（１９）式のよう
に求める。

【０１１４】

【数１９】

【０１１５】式中、ｄ（＊，＊）は括弧内の２つの自己
相関係数ベクトルの間に定義される類似度で、例えばそ
れぞれの自己相関係数をＬＰＣ分析して得られるＬＰＣ
ケプストラムベクトルのユークリッド距離の逆数であ
る。また、式中におけるＸ（ｉ）からＶk（ｉ）の減算
は、Ｘ（ｉ）の各次元要素からＶk（ｉ）の各次元要素
を減算する、ベクトルの引き算を示している。

【０１１６】これは、請求項１の発明になる雑音重畳入
力音声とカテゴリｋの音声モデルとの照合手法に基づき
得られた入力重畳雑音特徴ベクトルＶk（ｉ）による、
雑音重畳入力音声に対する雑音除去機能をもつ類似度演
算になっている。該雑音除去類似度演算手段はｉ＝１,
２,…,Ｉ、ｊ＝１,２,…,Ｊk、ｋ＝１,２,…,Ｋについ
て雑音除去類似度Ｄ3k（ｉ，ｊ）を出力する。

【０１１７】照合手段６は、前記雑音除去類似度演算手
段２２の出力である雑音除去類似度Ｄ3k（ｉ，ｊ）を入
力とし、実施例２における照合手段６と同様に、雑音重
畳入力音声とカテゴリｋの音声モデルとの照合を行い、
類似度が最大になる音声モデルのカテゴリを認識結果７
として出力する。

【０１１８】以上、請求項３の発明に係わる実施例につ
いて、ＤＰマッチングによる照合を行う場合を例に採り
説明を行ったが、実施例２の場合と同様に、最適照合パ
ス決定手段１７及び照合手段６における雑音重畳入力音
声と音声モデルとの照合方式はＤＰマッチングに限定さ
れるものではなく、例えばＨＭＭによる認識手法を用い
てもかまわない。この場合の音声モデルメモリ３、雑音
モデルメモリ８、類似度演算手段５、最適照合パス決定
手段１７については実施例２と同じであるので説明を省
く。

【０１１９】雑音除去類似度演算手段２１においては、
ＨＭＭの各状態（もしくは各遷移）において、入力雑音
特徴ベクトル時系列による雑音除去処理を施した雑音重
畳入力音声特徴ベクトル時系列の各特徴ベクトルが出力
される確率を演算し、類似度データとして出力する。照
合手段６は、類似度演算手段５の出力であるところの類
似度データを用いて、雑音重畳入力音声と各カテゴリの
ＨＭＭとの照合を行い、類似度が最大になるＨＭＭのカ
テゴリを認識結果として出力する。この時の照合方式
は、ビタビに限定されない。

【０１２０】以上、単語認識を例に採りその動作につい
て説明を行ったが、この発明の請求項３に係る実施例
は、実施例２の場合と同様、認識対象を単語に限定する
ものではなく、音声における他の発声単位を用いてもか
まわない。

【０１２１】また類似度演算手段においても、実施例２
の場合と同様、特徴ベクトルである自己相関係数から得
られるあらゆる音響パラメータ、例えばＬＳＰパラメー
タやＬＰＣメルケプストラム係数、声道断面積関数を用
いた類似度や、同じく自己相関係数から得られるパラメ
ータを用いたあらゆる距離尺度、例えばＬＰＣメルケプ
ストラム係数のユークリッド距離や、ＷＬＲ距離、ＷＧ
Ｄ距離尺度、群遅延スペクトル距離、重み付けケプスト
ラムのユークリッド距離、またこれらユークリッド距離
の代わりにチェビシェフ距離などを用いた類似度を採用
してもかまわない。

【０１２２】加えて、音響分析によるところの特徴ベク
トルを自己相関係数のみに限定することなく、他の音響
パラメータを付与した特徴ベクトルを用い、これによる
類似度により照合を行ってもかまわない。とくに、雑音
除去類似度演算手段２２における自己相関係数上での雑
音除去処理は、雑音除去後の自己相関係数ベクトルが非
現実的な値をとりＬＰＣ分析が行えなくなる場合があ
り、これを避けるため、音響分析にＤＦＴによるスペク
トル分析を加えパワースペクトルを特徴ベクトルに含め
ることで、雑音除去類似度演算手段２２における雑音除
去処理を、パワースペクトル上で行い、雑音除去後のパ
ワースペクトルがマイナスの値をとった周波数について
は０で置き換えた後、このパワースペクトルに対し逆Ｄ
ＦＴ演算を行うことで導出された自己相関係数を特徴ベ
クトルとして用いることができる。また、雑音除去にお
ける問題が回避できる他の特徴ベクトル、例えばフィル
タバンクの出力などを用いてもかまわない。

【０１２３】実施例４．図４は、請求項４の発明に係る
音声認識装置の一実施例の構成を示すブロック図であ
る。図において、１は入力端、２は音響分析手段、３は
音声モデルメモリ、５は類似度演算手段、６は照合手
段、７は認識結果、８は雑音モデルメモリ、９は線形予
測分析手段、１０は最尤パラメータメモリ、１１は音声
残差パワーメモリ、１２、雑音残差演算手段、１３は雑
音残差パワーメモリ、１４は残差パワー演算手段、１５
はＳＮ比演算手段、１６は特徴ベクトル合成手段、１７
は最適照合パス決定手段、１８は重畳雑音生成手段、２
０はパワー比決定手段であり、図２に同一符号を付した
構成要素と同一部分であるため詳細な説明は省略する。

【０１２４】また、２３は最適照合パス決定手段１７の
出力である照合パスデータに従い重畳雑音生成手段１８
の出力である重畳雑音特徴ベクトルから付加雑音特徴ベ
クトルを求める付加雑音決定手段、２４は付加雑音決定
手段２３の出力である付加雑音特徴ベクトルを用いて音
声モデルメモリ３に記憶されている音声モデルの標準音
声特徴ベクトルに対する雑音付加処理を施し雑音付加標
準音声特徴ベクトルを出力する雑音付加手段、２５は音
響分析手段２の出力であるところの雑音重畳入力音声特
徴ベクトル時系列と雑音付加手段２４の出力であるとこ
ろの雑音付加標準音声特徴ベクトルとの類似度を求める
類似度演算手段である。

【０１２５】次に動作について、まずＤＰマッチング法
を照合手段７および最適照合パス決定手段１７に採用し
た離散単語認識の場合を例に説明を行う。音声モデルメ
モリ３及び雑音モデルメモリ８の記憶内容及び、雑音重
畳入力音声信号の入力端１への入力から、パワー比決定
手段２０までの動作は、上記実施例２の場合と同一であ
るので説明を省く。

【０１２６】付加雑音決定手段２３は、前記重畳雑音生
成手段１８の出力であるところの重畳雑音特徴ベクトル
Ｕki,j,n（ｋ＝１,２,…,Ｋ、ｊ＝１,２,…,ＪK、ｉ＝
１,２,…,Ｉ、ｎ＝１,２）と前記最適照合パス決定手段
１７の出力であるところの照合パスデータとパワー比決
定手段２０の出力であるところの音声パワー比εkを入
力とし、雑音重畳入力音声とカテゴリｋの音声モデルと
の類似度を最大にする照合パス上の重畳雑音特徴ベクト
ルについて、ｋおよびｊを同じくする重畳雑音特徴ベク
トルの平均特徴ベクトルを求め、これを音声パワー比ε
kでパワー補正し、付加雑音特徴ベクトルＷk（ｊ）とす
る。

【０１２７】すなわち、まず音声モデルのあるカテゴリ
ｋ（ｋ＝１,２,…,Ｋ）についてＬ＝１,２,…,Ｌkとし
た時、ｇｋ（Ｌ）を同じくする重畳雑音特徴ベクトルＵ
kfk(L),gk(L),hk(L)の平均特徴ベクトルを求め、ついで
この平均特徴ベクトルの各次元要素を音声パワー比εk
で割ることで得られた特徴ベクトルを付加雑音特徴ベク
トルＷk（ｇｋ（Ｌ））とする。これにより、付加雑音
特徴ベクトル｛Ｗk（ｊ）｜ｊ＝１,２,…,Ｊk｝（ｋ＝
１,２,…,Ｋ）が得られる。

【０１２８】以上の動作により本付加雑音決定手段は、
請求項１の発明になる雑音重畳入力音声とカテゴリｋの
音声モデルとの照合手法に基づき、標準音声特徴ベクト
ルに対する付加雑音特徴ベクトルを求める。

【０１２９】雑音付加手段２４は、音声モデルメモリ３
に記憶されている音声モデルの標準音声特徴ベクトル
｛Ｓk（ｊ）｜ｊ＝１,２,…,Ｊk｝（ｋ＝１,２,…,Ｋ）
に対し、付加雑音決定手段２３の出力である付加雑音特
徴ベクトル｛Ｗk（ｊ）｜ｊ＝１,２,…,Ｊk｝（ｋ＝１,
２,…,Ｋ）を用いて、（２０）式のように雑音付加標準
音声特徴ベクトル｛Ｙk（ｊ）｜ｊ＝１,２,…,Ｊk｝
（ｋ＝１,２,…,Ｋ）を求める。

【０１３０】

【数２０】

【０１３１】式中のベクトル和は、特徴ベクトルの各次
元要素毎の和により行う。

【０１３２】類似度演算手段２５は、音響分析手段２の
出力であるところの雑音重畳入力音声特徴ベクトル時系
列｛Ｘ（ｉ）｜ｉ＝１,２,…,Ｉ｝と前記雑音付加手段
の出力であるところの雑音付加標準音声特徴ベクトル
｛Ｙk（ｊ）｜ｊ＝１,２,…，Ｊk｝（ｋ＝１,２,…,
Ｋ）との類似度Ｄ4k（ｉ，ｊ）を（２１）式に従い求め
る。

【０１３３】

【数２１】

【０１３４】式中、ｄ（＊，＊）は括弧内の２つの自己
相関係数ベクトルの間に定義される類似度で、例えばそ
れぞれの自己相関係数をＬＰＣ分析して得られるＬＰＣ
ケプストラムベクトルのユークリッド距離の逆数であ
る。

【０１３５】照合手段６は、前記類似度演算手段２５の
出力であるところの類似度データＤ4k（ｉ，ｊ）（ｉ＝
１,２,…,Ｉ、ｊ＝１,２,…,Ｊk、ｋ＝１,２,…,Ｋ）を
入力として、雑音重畳入力音声とカテゴリｋの音声モデ
ルとの照合を行い、類似度を最大にする音声モデルのカ
テゴリを認識結果７として出力する。

【０１３６】以上、請求項４の発明に係わる実施例につ
いて、ＤＰマッチングによる照合を行う場合を例に採り
説明を行ったが、他の実施例の場合と同様に、最適照合
パス決定手段１７及び照合手段６における雑音重畳入力
音声と音声モデルとの照合方式はＤＰマッチングに限定
されるものではなく、例えばＨＭＭによる認識手法を用
いてもかまわない。この場合の音声モデルメモリ３、雑
音モデルメモリ８、類似度演算手段５、最適照合パス決
定手段１７については実施例２と同じであるので説明を
省く。

【０１３７】類似度演算手段２５では、ＨＭＭの各状態
（もしくは各遷移）における標準音声特徴ベクトルに対
応する雑音付加標準音声特徴ベクトルを用いて、雑音重
畳入力音声特徴ベクトル時系列の各特徴ベクトルが出力
される確率を演算し、類似度データとして出力する。照
合手段６は、類似度演算手段５の出力であるところの類
似度データを用いて、雑音重畳入力音声と各カテゴリの
ＨＭＭとの照合を行い、類似度が最大になるＨＭＭのカ
テゴリを認識結果として出力する。この時の照合方式
は、ビタビに限定されない。

【０１３８】以上、単語認識を例に採りその動作につい
て説明を行ったが、この発明の請求項４に係る実施例
は、他の実施例の場合と同様、認識対象を単語に限定す
るものではなく、音声における他の発声単位を用いても
かまわない。

【０１３９】また類似度演算手段においても、他の実施
例の場合と同様、特徴ベクトルである自己相関係数から
得られるあらゆる音響パラメータ、例えばＬＳＰパラメ
ータやＬＰＣメルケプストラム係数、声道断面積関数を
用いた類似度や、同じく自己相関係数から得られるパラ
メータを用いたあらゆる距離尺度、例えばＬＰＣメルケ
プストラム係数のユークリッド距離や、ＷＬＲ距離、Ｗ
ＧＤ距離尺度、群遅延スペクトル距離、重み付けケプス
トラムのユークリッド距離、またこれらユークリッド距
離の代わりにチェビシェフ距離などを用いた類似度を採
用してもかまわない。

【０１４０】加えて、音響分析によるところの特徴ベク
トルを自己相関係数のみに限定することなく、他の音響
パラメータを付与した特徴ベクトルを用い、これによる
類似度により照合を行ってもかまわない。

【０１４１】なお、上記４つの実施例では専用のハード
ウェアにて構成するものを示したが、汎用の計算機は信
号処理プロセッサにおけるソフトウェア処理によって実
現するようにしても良い。

【０１４２】

【発明の効果】この発明は、以上説明したように構成さ
れているので、以下に記載されるような効果を奏する。

【０１４３】請求項１の発明においては、雑音重畳入力
音声特徴ベクトル時系列の各特徴ベクトルに対し、音声
モデルメモリに記憶されている音声モデルの標準音声特
徴ベクトルと雑音モデルメモリに記憶されている雑音モ
デルの雑音特徴ベクトルとの全ての組み合わせによるＳ
Ｎ比演算を行い、次いで、このＳＮ比に合わせて標準音
声特徴ベクトルと雑音特徴ベクトルとの合成を行い、得
られた雑音重畳音声特徴ベクトルと該雑音重畳入力音声
特徴ベクトル時系列中の特徴ベクトルとの類似度を求
め、この類似度データを用いて雑音重畳音声と音声モデ
ルとの照合を雑音モデルの制約の下で行っているため、
雑音重畳入力音声における重畳雑音特徴ベクトルとＳＮ
比の推定と、雑音重畳入力音声と音声モデルとの照合が
同時に行われており、重畳雑音およびＳＮ比が大きく変
動するような非定常雑音重畳入力音声に対しても良好な
認識性能が得られる。

【０１４４】また、請求項２の発明においては、請求項
１の発明における雑音重畳入力音声と音声モデルとの照
合手法に基づき得られる照合パスに従い、雑音重畳入力
音声における入力雑音特徴ベクトル時系列を求め、これ
を用いてパワー正規化音声モデルと雑音重畳入力音声と
の雑音適応化類似度演算を行い再照合を行っているの
で、重畳雑音およびＳＮ比が大きく変動するような非定
常雑音重畳入力音声に対しても良好な認識性能が得られ
る。

【０１４５】また、請求項３の発明においては、請求項
１の発明における雑音重畳入力音声と音声モデルとの照
合手法に基づき得られる照合パスに従い、雑音重畳入力
音声における入力雑音特徴ベクトル時系列を求め、該入
力雑音特徴ベクトル時系列による雑音除去処理を施した
雑音重畳入力音声と音声モデルとの類似度演算を行い再
照合を行っているので、重畳雑音及びＳＮ比が大きく変
動するような非定常雑音重畳入力音声に対しても良好な
認識性能が得られる。

【０１４６】また、請求項４の発明においては、請求項
１の発明における雑音重畳入力音声と音声モデルとの照
合手法に基づき得られる照合パスに従い、音声モデルの
標準音声特徴ベクトルに付加する雑音特徴ベクトルを求
め、該雑音特徴ベクトルを付加した音声モデルと雑音重
畳入力音声との類似度演算を行い再照合をしているの
で、重畳雑音およびＳＮ比が大きく変動するような非定
常雑音重畳入力音声に対しても良好な認識性能が得られ
る。

【図面の簡単な説明】

【図１】この発明の実施例１による音声認識装置を示す
ブロック図である。

【図２】この発明の実施例２による音声認識装置を示す
ブロック図である。

【図３】この発明の実施例３による音声認識装置を示す
ブロック図である。

【図４】この発明の実施例４による音声認識装置を示す
ブロック図である。

【図５】従来の音声認識装置を示すブロック図である。

【符号の説明】

１入力端２音響分析手段３音声モデルメモリ５類似度演算手段６照合手段７認識結果８雑音モデルメモリ９線形予測分析手段１０最尤パラメータメモリ１１音声残差パワーメモリ１２雑音残差演算手段１３雑音残差パワーメモリ１４残差パワー演算手段１５ＳＮ比演算手段１６特徴ベクトル合成手段１７最適照合パス決定手段１８重畳雑音生成手段１９重畳雑音決定手段２０パワー比決定手段２１雑音適応化類似度演算手段２２雑音除去類似度演算手段２３付加雑音決定手段２４雑音付加手段２５類似度演算手段

Claims

【特許請求の範囲】

【請求項１】相異なる音声を表現する音声モデルを持
ち、未知入力音声と前記音声モデルとの照合により音声
認識を行う音声認識装置において、雑音が重畳した未知
入力音声信号に対し設定される複数個の分析フレームの
各々について音響分析を行い雑音重畳入力音声特徴ベク
トル時系列を出力する音響分析手段と、音声信号に重畳
する雑音の特徴ベクトル時系列を表現する雑音モデルを
記憶する雑音モデルメモリと、標準音声の特徴ベクトル
時系列を表現する音声モデルを記憶する音声モデルメモ
リと、音声モデルメモリに記憶されている音声モデルの
標準音声特徴ベクトルに対し線形予測分析を行い最尤パ
ラメータと標準音声残差パワーを求める線形予測分析手
段と、線形予測分析手段の出力であるところの最尤パラ
メータを記憶する最尤パラメータメモリと、同じく線形
予測分析手段の出力であるところの標準音声残差パワー
を記憶する音声残差パワーメモリと、雑音モデルメモリ
に記憶されている雑音モデルの雑音特徴ベクトルを入力
として最尤パラメータメモリ上の最尤パラメータとの積
和演算を行い雑音残差パワーを求める雑音残差演算手段
と、雑音残差演算手段の出力であるところの雑音残差パ
ワーを記憶する雑音残差パワーメモリと、音響分析手段
の出力であるところの雑音重畳入力音声特徴ベクトル時
系列の各特徴ベクトルに対し最尤パラメータメモリ上の
最尤パラメータとの積和演算を行い雑音重畳入力音声残
差パワーを求める残差パワー演算手段と、残差パワー演
算手段の出力であるところの雑音重畳入力音声残差パワ
ーと音声残差パワーメモリ上の標準音声残差パワーと雑
音残差パワーメモリ上の雑音残差パワーとを用いて雑音
重畳入力音声のＳＮ比を求めるＳＮ比演算手段と、ＳＮ
比演算手段の出力であるところのＳＮ比に従い音声モデ
ルメモリ上の標準音声特徴ベクトルと雑音モデルメモリ
上の雑音特徴ベクトルの合成を行い雑音重畳音声特徴ベ
クトルを生成する特徴ベクトル合成手段と、音響分析手
段の出力である雑音重畳入力音声特徴ベクトル時系列の
各特徴ベクトルに対し特徴ベクトル合成手段の出力であ
る雑音重畳音声特徴ベクトルとの類似度を演算する類似
度演算手段と、類似度演算手段の出力であるところの類
似度データを用いて照合処理を行い認識結果を出力する
照合手段を備えたことを特徴とする音声認識装置。
【請求項２】相異なる音声を表現する音声モデルを持
ち、未知入力音声と前記音声モデルとの照合により音声
認識を行う音声認識装置において、雑音が重畳した未知
入力音声信号に対し設定される複数個の分析フレームの
各々について音響分析を行い雑音重畳入力音声特徴ベク
トル時系列を出力する音響分析手段と、音声信号に重畳
する雑音の特徴ベクトル時系列を表現する雑音モデルを
記憶する雑音モデルメモリと、標準音声の特徴ベクトル
時系列を表現する音声モデルを記憶する音声モデルメモ
リと、音声モデルメモリに記憶されている音声モデルの
標準音声特徴ベクトルに対し線形予測分析を行い最尤パ
ラメータと標準音声残差パワーを求める線形予測分析手
段と、線形予測分析手段の出力であるところの最尤パラ
メータを記憶する最尤パラメータメモリと、同じく線形
予測分析手段の出力であるところの標準音声残差パワー
を記憶する音声残差パワーメモリと、雑音モデルメモリ
に記憶されている雑音モデルの雑音特徴ベクトルを入力
として最尤パラメータメモリ上の最尤パラメータとの積
和演算を行い雑音残差パワーを求める雑音残差演算手段
と、雑音残差演算手段の出力であるところの雑音残差パ
ワーを記憶する雑音残差パワーメモリと、音響分析手段
の出力であるところの雑音重畳入力音声特徴ベクトル時
系列の各特徴ベクトルに対し最尤パラメータメモリ上の
最尤パラメータとの積和演算を行い雑音重畳入力音声残
差パワーを求める残差パワー演算手段と、残差パワー演
算手段の出力であるところの雑音重畳入力音声残差パワ
ーと音声残差パワーメモリ上の標準音声残差パワーと雑
音残差パワーメモリ上の雑音残差パワーとを用いて雑音
重畳入力音声のＳＮ比を求めるＳＮ比演算手段と、ＳＮ
比演算手段の出力であるところのＳＮ比に従い音声モデ
ルメモリ上の標準音声特徴ベクトルと雑音モデルメモリ
上の雑音特徴ベクトルの合成を行い雑音重畳音声特徴ベ
クトルを生成する特徴ベクトル合成手段と、音響分析手
段の出力である雑音重畳入力音声特徴ベクトル時系列の
各特徴ベクトルに対し特徴ベクトル合成手段の出力であ
る雑音重畳音声特徴ベクトルとの類似度を演算する類似
度演算手段と、類似度演算手段の出力であるところの類
似度データを入力として音声モデルと雑音重畳入力音声
特徴ベクトル時系列との最適照合パスを求める最適照合
パス決定手段と、音響分析手段の出力である雑音重畳入
力音声特徴ベクトル時系列における各特徴ベクトルに対
しＳＮ比演算手段の出力であるＳＮ比と雑音モデルメモ
リ上の雑音特徴ベクトルとを用いて重畳雑音特徴ベクト
ルを生成する重畳雑音生成手段と、最適照合パス決定手
段の出力であるところの照合パスデータと重畳雑音生成
手段の出力であるところの重畳雑音特徴ベクトルとを用
いて入力雑音特徴ベクトル時系列を求める重畳雑音決定
手段と、ＳＮ比演算手段の出力であるところのＳＮ比と
音響分析手段の出力であるところの雑音重畳入力音声特
徴ベクトル時系列と音声モデルメモリ上の標準音声特徴
ベクトルと最適照合パス決定手段の出力であるところの
照合パスデータとを入力として音声パワー比を求めるパ
ワー比決定手段と、音響分析手段の出力であるところの
雑音重畳入力音声特徴ベクトル時系列と音声モデルメモ
リ上の標準音声特徴ベクトルと重畳雑音決定手段の出力
であるところの入力雑音特徴ベクトル時系列とパワー比
決定手段の出力であるところの音声パワー比とを入力と
して雑音重畳入力音声特徴ベクトル時系列の各特徴ベク
トルと音声モデルメモリ上の標準音声特徴ベクトルとの
雑音適応化類似度を演算する雑音適応化類似度演算手段
と、雑音適応化類似度演算手段の出力であるところの雑
音適応化類似度データを用いて照合を行い認識結果を出
力する照合手段を備えたことを特徴とする音声認識装
置。
【請求項３】相異なる音声を表現する音声モデルを持
ち、未知入力音声と前記音声モデルとの照合により音声
認識を行う音声認識装置において、雑音が重畳した未知
入力音声信号に対し設定される複数個の分析フレームの
各々について音響分析を行い雑音重畳入力音声特徴ベク
トル時系列を出力する音響分析手段と、音声信号に重畳
する雑音の特徴ベクトル時系列を表現する雑音モデルを
記憶する雑音モデルメモリと、標準音声の特徴ベクトル
時系列を表現する音声モデルを記憶する音声モデルメモ
リと、音声モデルメモリに記憶されている音声モデルの
標準音声特徴ベクトルに対し線形予測分析を行い最尤パ
ラメータと標準音声残差パワーを求める線形予測分析手
段と、線形予測分析手段の出力であるところの最尤パラ
メータを記憶する最尤パラメータメモリと、同じく線形
予測分析手段の出力であるところの標準音声残差パワー
を記憶する音声残差パワーメモリと、雑音モデルメモリ
に記憶されている雑音モデルの雑音特徴ベクトルを入力
として最尤パラメータメモリ上の最尤パラメータとの積
和演算を行い雑音残差パワーを求める雑音残差演算手段
と、雑音残差演算手段の出力であるところの雑音残差パ
ワーを記憶する雑音残差パワーメモリと、音響分析手段
の出力であるところの雑音重畳入力音声特徴ベクトル時
系列の各特徴ベクトルに対し最尤パラメータメモリ上の
最尤パラメータとの積和演算を行い雑音重畳入力音声残
差パワーを求める残差パワー演算手段と、残差パワー演
算手段の出力であるところの雑音重畳入力音声残差パワ
ーと音声残差パワーメモリ上の標準音声残差パワーと雑
音残差パワーメモリ上の雑音残差パワーとを用いて雑音
重畳入力音声のＳＮ比を求めるＳＮ比演算手段と、ＳＮ
比演算手段の出力であるところのＳＮ比に従い音声モデ
ルメモリ上の標準音声特徴ベクトルと雑音モデルメモリ
上の雑音特徴ベクトルの合成を行い雑音重畳音声特徴ベ
クトルを生成する特徴ベクトル合成手段と、音響分析手
段の出力である雑音重畳入力音声特徴ベクトル時系列の
各特徴ベクトルに対し特徴ベクトル合成手段の出力であ
る雑音重畳音声特徴ベクトルとの類似度を演算する類似
度演算手段と、類似度演算手段の出力であるところの類
似度データを入力として音声モデルと雑音重畳入力音声
特徴ベクトル時系列との最適照合パスを求める最適照合
パス決定手段と、音響分析手段の出力である雑音重畳入
力音声特徴ベクトル時系列における各特徴ベクトルに対
しＳＮ比演算手段の出力であるＳＮ比と雑音モデルメモ
リ上の雑音特徴ベクトルとを用いて重畳雑音特徴ベクト
ルを生成する重畳雑音生成手段と、最適照合パス決定手
段の出力であるところの照合パスデータと重畳雑音生成
手段の出力であるところの重畳雑音特徴ベクトルとを用
いて入力雑音特徴ベクトル時系列を求める重畳雑音決定
手段と、音響分析手段の出力であるところの雑音重畳入
力音声特徴ベクトル時系列と音声モデルメモリ上の標準
音声特徴ベクトルと重畳雑音決定手段の出力であるとこ
ろの入力雑音特徴ベクトル時系列とを入力として雑音重
畳入力音声特徴ベクトル時系列の各特徴ベクトルと音声
モデルメモリ上の標準音声特徴ベクトルとの雑音除去類
似度を演算する雑音除去類似度演算手段と、雑音除去類
似度演算手段の出力であるところの雑音適応化類似度デ
ータを用いて照合を行い認識結果を出力する照合手段を
備えたことを特徴とする音声認識装置。
【請求項４】相異なる音声を表現する音声モデルを持
ち、未知入力音声と前記音声モデルとの照合により音声
認識を行う音声認識装置において、雑音が重畳した未知
入力音声信号に対し設定される複数個の分析フレームの
各々について音響分析を行い雑音重畳入力音声特徴ベク
トル時系列を出力する音響分析手段と、音声信号に重畳
する雑音の特徴ベクトル時系列を表現する雑音モデルを
記憶する雑音モデルメモリと、標準音声の特徴ベクトル
時系列を表現する音声モデルを記憶する音声モデルメモ
リと、音声モデルメモリに記憶されている音声モデルの
標準音声特徴ベクトルに対し線形予測分析を行い最尤パ
ラメータと標準音声残差パワーを求める線形予測分析手
段と、線形予測分析手段の出力であるところの最尤パラ
メータを記憶する最尤パラメータメモリと、同じく線形
予測分析手段の出力であるところの標準音声残差パワー
を記憶する音声残差パワーメモリと、雑音モデルメモリ
上の雑音特徴ベクトルを入力として最尤パラメータメモ
リ上の最尤パラメータとの積和演算を行い雑音残差パワ
ーを求める雑音残差演算手段と、雑音残差演算手段の出
力であるところの雑音残差パワーを記憶する雑音残差パ
ワーメモリと、音響分析手段の出力であるところの雑音
重畳入力音声特徴ベクトル時系列の各特徴ベクトルに対
し最尤パラメータメモリ上の最尤パラメータとの積和演
算を行い雑音重畳入力音声残差パワーを求める残差パワ
ー演算手段と、残差パワー演算手段の出力であるところ
の雑音重畳入力音声残差パワーと音声残差パワーメモリ
上の標準音声残差パワーと雑音残差パワーメモリ上の雑
音残差パワーとを用いて雑音重畳入力音声のＳＮ比を求
めるＳＮ比演算手段と、ＳＮ比演算手段の出力であると
ころのＳＮ比に従い音声モデルメモリ上の標準音声特徴
ベクトルと雑音モデルメモリ上の雑音特徴ベクトルの合
成を行い雑音重畳音声特徴ベクトルを生成する特徴ベク
トル合成手段と、音響分析手段の出力である雑音重畳入
力音声特徴ベクトル時系列の各特徴ベクトルに対し特徴
ベクトル合成手段の出力である雑音重畳音声特徴ベクト
ルとの類似度を演算する類似度演算手段と、類似度演算
手段の出力であるところの類似度データを入力として音
声モデルと雑音重畳入力音声特徴ベクトル時系列との最
適照合パスを求める最適照合パス決定手段と、ＳＮ比演
算手段の出力であるところのＳＮ比と音響分析手段の出
力であるところの雑音重畳入力音声特徴ベクトル時系列
と音声モデルメモリ上の標準音声特徴ベクトルと最適照
合パス決定手段の出力であるところの照合パスデータと
を入力として音声パワー比を求めるパワー比決定手段
と、音響分析手段の出力である雑音重畳入力音声特徴ベ
クトル時系列における各特徴ベクトルに対しＳＮ比演算
手段の出力であるＳＮ比と雑音モデルメモリ上の雑音特
徴ベクトルとを用いて重畳雑音特徴ベクトルを生成する
重畳雑音生成手段と、最適照合パス決定手段の出力であ
るところの照合パスデータと重畳雑音生成手段の出力で
あるところの重畳雑音特徴ベクトルとパワー比決定手段
の出力であるところの音声パワー比とを用いて付加雑音
特徴ベクトルを求める付加雑音決定手段と、付加雑音決
定手段の出力であるところの付加雑音特徴ベクトルと音
声モデルメモリ上の標準音声特徴ベクトルを入力として
雑音付加標準音声特徴ベクトルを求める雑音付加手段
と、音響分析手段の出力であるところの雑音重畳入力音
声特徴ベクトル時系列と雑音付加手段の出力であるとこ
ろの雑音付加標準音声特徴ベクトルとの類似度を演算す
る類似度演算手段と、類似度演算手段の出力であるとこ
ろの類似度データを用いて照合を行い認識結果を出力す
る照合手段を備えたことを特徴とする音声認識装置。