JPH06289891A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH06289891A
JPH06289891A JP5077025A JP7702593A JPH06289891A JP H06289891 A JPH06289891 A JP H06289891A JP 5077025 A JP5077025 A JP 5077025A JP 7702593 A JP7702593 A JP 7702593A JP H06289891 A JPH06289891 A JP H06289891A
Authority
JP
Japan
Prior art keywords
noise
feature vector
speech
output
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5077025A
Other languages
English (en)
Other versions
JP3102195B2 (ja
Inventor
Tadashi Suzuki
鈴木  忠
Kunio Nakajima
邦男 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP05077025A priority Critical patent/JP3102195B2/ja
Publication of JPH06289891A publication Critical patent/JPH06289891A/ja
Application granted granted Critical
Publication of JP3102195B2 publication Critical patent/JP3102195B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 非定常雑音が重畳した入力音声に対する認識
性能を向上させた音声認識装置を得る。 【構成】 雑音重畳入力音声に対し音響分析を施し特徴
ベクトル時系列を生成する音響分析手段と、標準音声特
徴ベクトルに対し線形予測分析を行い最尤パラメータと
標準音声残差パワーを求める線形予測分析手段と、前記
最尤パラメータを用いて雑音特徴ベクトルの残差パワー
を求める雑音残差演算手段と、同最尤パラメータを用い
て雑音重畳入力音声の特徴ベクトルの残差パワーを求め
る残差パワー演算手段と、雑音重畳入力音声の特徴ベク
トルのSN比を求めるSN比演算手段と、このSN比に
従い標準音声特徴ベクトルと雑音特徴ベクトルの合成を
行う特徴ベクトル合成手段と、この合成された特徴ベク
トルと雑音重畳入力音声の特徴ベクトルとの類似度を求
める類似度演算手段と、この類似度のデータを用いて雑
音重畳入力音声と音声モデルとの照合を行い類似度を最
大にする音声モデルのカテゴリを認識結果として出力す
る照合手段とを備えた。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、雑音重畳入力音声信
号に重畳している雑音を推定する機能を備えた音声認識
装置に関するものである。
【0002】
【従来の技術】音声のスペクトル情報を用いる音声認識
装置では、照合用の標準音声モデルの学習に用いる音声
信号に重畳する雑音と認識実行時において入力される音
声信号に重畳する雑音との差が大きい場合、認識性能の
劣化が生じてしまう。これは雑音重畳による音声スペク
トルの変形が重畳雑音のスペクトル様態に大きく影響を
受けるためである。
【0003】このような性能劣化を避けるためには認識
環境下で標準音声モデルの学習を行う必要があるが、認
識環境が変わるたびに音声の学習をやり直さなければな
らないという不便さがあった。これに対し、雑音が音声
に重畳しない静かな環境下で標準音声モデルの学習を行
い、認識時においてはその環境における重畳雑音を標準
音声モデルに加える手法が、文献“マルチテンプレート
を用いる雑音下の数字音声認識”(北村、水谷、日本音
響学会講演論文集 平成元年10月 pp.65-66)におい
て提案されている。
【0004】図5は、この手法に基づく音声認識装置の
構成図の1例である。図において、2は入力端1より入
力される雑音が重畳した未知入力音声信号に対し音響分
析を行い雑音重畳入力音声特徴ベクトル時系列を出力す
る音響分析手段、3は雑音が重畳していない学習用音声
から作成した音声モデルを記憶する音声モデルメモリ、
4は音声モデルメモリ3における標準音声特徴ベクトル
に平均的な重畳雑音の特徴ベクトルを付加する平均雑音
付加手段である。
【0005】5は平均雑音付加手段4の出力である雑音
付加特徴ベクトルと音響分析手段2の出力であるところ
の雑音重畳入力音声特徴ベクトル時系列とを入力とし
て、雑音重畳入力音声特徴ベクトル時系列の各特徴ベク
トルと雑音付加特徴ベクトルとの類似度を演算する類似
度演算手段、6は類似度演算手段5の出力である類似度
データを入力として雑音重畳入力音声特徴ベクトル時系
列と音声モデルとの照合処理を行い認識結果7を出力す
る照合手段である。
【0006】次に動作について、DPマッチング方式に
よる離散単語認識の場合を例にとり説明を行う。入力端
1より入力された雑音重畳入力音声信号は、音響分析手
段2において任意の分析フレーム(例えば周期10ms
ec、フレーム長25.6msec、ハミング窓)によ
り音響分析され、自己相関係数を特徴ベクトルとする雑
音重畳入力音声特徴ベクトル時系列{X(i)|i=
1,2,…,I}に変換される。ここでX(i)は第i
フレームの自己相関係数ベクトルで、Iはフレーム数で
ある。
【0007】音声モデルメモリ3には、カテゴリk(k
=1,2,…,K)の音声モデルとして、雑音が重畳し
ていないか若しくは想定される雑音重畳入力音声信号の
SN比より良いSN比を持つカテゴリkの単語音声の特
徴ベクトル時系列{Sk(j)|j=1,2,…,Jk}
が記憶されている。ここでSk(j)はカテゴリkの単
語音声の第jフレームの自己相関係数ベクトルで、以後
これを標準音声特徴ベクトルと呼ぶ。
【0008】平均雑音付加手段4は、音声モデルメモリ
3に記憶されているカテゴリkの音声モデルの標準音声
特徴ベクトルSk(j)に対し、あらかじめ与えられた
平均的な重畳雑音の特徴ベクトルZをやはりあらかじめ
定められたSN比になるように付加して、雑音付加標準
音声特徴ベクトルYk(j)として出力する。なおSk
(j)に対するZの付加は、ベクトルの和によって行っ
ている。
【0009】類似度演算手段5は、音響分析手段2の出
力であるところの雑音重畳入力音声特徴ベクトル時系列
の各特徴ベクトルX(i)と平均雑音付加手段4の出力
であるところの雑音付加標準音声特徴ベクトルYk
(j)との類似度Dk(i,j)として出力する。類似
度には例えば、X(i)およびYk(j)をそれぞれL
PC分析して得られるLPCケプストラム係数ベクトル
のユークリッド距離の逆数を用いる。
【0010】照合手段6は、類似度演算手段5の出力で
ある類似度Dk(i,j)(但し、i=1,2,…,
I、j=1,2,…,Jk)を用いてDPマッチングを
行い、雑音重畳入力音声に対するカテゴリkの音声モデ
ルの類似度を求める。これを全ての音声モデルについて
行い、類似度を最大にする音声モデルのカテゴリを認識
結果7として出力する。
【0011】以上の処理により、雑音重畳入力音声特徴
ベクトル時系列は、雑音ベクトルの付加によりスペクト
ル変形された標準音声特徴ベクトルから成る音声モデル
と照合されることになり、雑音重畳によるスペクトル変
形を原因とする認識性能劣化を抑制する。
【0012】
【発明が解決しようとする課題】従来の音声認識装置は
以上のように構成されているため、雑音重畳入力音声
は、平均的な雑音ベクトルをあるSN比で付加する事で
スペクトル変形させた標準音声特徴ベクトルから成る音
声モデルと照合されることになり、変動の少ない雑音が
重畳したSN比既知の雑音重畳入力音声に対し、雑音重
畳を原因とする認識性能劣化を抑制することができた。
【0013】しかるに実際の環境騒音は確率的な変動を
持っており、例えば空調のファン騒音のような比較的定
常と思われる騒音であっても、音響分析における分析フ
レームでの短時間スペクトル分析を行えば、フレームご
とに変化する非定常なものであることが明らかである。
ましてや、種々雑多な騒音源が存在するより一般的な騒
音環境においては重畳雑音の定常性は期待するべくもな
い。また、発声音声の大きさや音声を入力するマイクと
口との距離の変動によっても雑音重畳入力音声のSN比
は変化してしまう。
【0014】よって従来の音声認識装置では、平均的な
雑音のスペクトルとは異なる雑音が重畳するような非定
常騒音環境下や入力音声のSN比変動が大きい場合は、
認識性能の劣化が避けられないという問題があった。
【0015】この発明は、上記の問題を解決するために
なされたもので、雑音重畳入力音声信号における重畳雑
音のパワーとスペクトルを、音響分析フレームごとに推
定する機能を持つことで、パワー、スペクトル共に非定
常な雑音が重畳した未知入力音声に対しても、また発声
音量の変化や口からマイクまでの距離の変化によるSN
比変動がある雑音重畳入力音声に対しても極めて良好な
認識性能を発揮する音声認識装置を得ることを目的とし
ている。
【0016】
【課題を解決するための手段】この発明に係る音声認識
装置は、雑音が重畳した未知入力音声信号に対し設定さ
れる複数個の分析フレームの各々について音響分析を行
い雑音重畳入力音声特徴ベクトル時系列を出力する音響
分析手段と、音声信号に重畳する雑音の特徴ベクトル時
系列を表現する雑音モデルを記憶する雑音モデルメモリ
と、標準音声の特徴ベクトル時系列を表現する音声モデ
ルを記憶する音声モデルメモリと、音声モデルメモリに
格納されている標準音声特徴ベクトルに対し線形予測分
析を行い最尤パラメータと標準音声残差パワーを求める
線形予測分析手段と、線形予測分析手段の出力であると
ころの最尤パラメータを記憶する最尤パラメータメモリ
と、同じく線形予測分析手段の出力であるところの標準
音声残差パワーを記憶する音声残差パワーメモリと、雑
音モデルメモリ上の雑音特徴ベクトルを入力として最尤
パラメータメモリ上の最尤パラメータとの積和演算を行
い雑音残差パワーを求める雑音残差演算手段と、雑音残
差演算手段の出力であるところの雑音残差パワーを記憶
する雑音残差パワーメモリと、音響分析手段の出力であ
るところの雑音重畳入力音声特徴ベクトル時系列の各特
徴ベクトルに対し最尤パラメータメモリ上の最尤パラメ
ータとの積和演算を行い雑音重畳入力音声残差パワーを
求める残差パワー演算手段と、残差パワー演算手段の出
力であるところの雑音重畳入力音声残差パワーと音声残
差パワーメモリ上の標準音声残差パワーと雑音残差パワ
ーメモリ上の雑音残差パワーとを用いて雑音重畳入力音
声のSN比を求めるSN比演算手段と、SN比演算手段
の出力であるところのSN比に従い音声モデルメモリ上
の標準音声特徴ベクトルと雑音モデルメモリ上の雑音特
徴ベクトルの合成を行い雑音重畳音声特徴ベクトルを生
成する特徴ベクトル合成手段と、音響分析手段の出力で
ある雑音重畳入力音声特徴ベクトル時系列の各特徴ベク
トルに対し特徴ベクトル合成手段の出力である雑音重畳
音声特徴ベクトルとの類似度を演算する類似度演算手段
と、類似度演算手段の出力であるところの類似度データ
を用いて照合処理を行い認識結果を出力する照合手段を
備えたものである。
【0017】請求項2の発明における音声認識装置は、
雑音が重畳した未知入力音声信号に対し設定される複数
個の分析フレームの各々について音響分析を行い雑音重
畳入力音声特徴ベクトル時系列を出力する音響分析手段
と、音声信号に重畳する雑音の特徴ベクトル時系列を表
現する雑音モデルを記憶する雑音モデルメモリと、標準
音声の特徴ベクトル時系列を表現する音声モデルを記憶
する音声モデルメモリと、音声モデルメモリに格納され
ている標準音声特徴ベクトルに対し線形予測分析を行い
最尤パラメータと標準音声残差パワーを求める線形予測
分析手段と、線形予測分析手段の出力であるところの最
尤パラメータを記憶する最尤パラメータメモリと、同じ
く線形予測分析手段の出力であるところの標準音声残差
パワーを記憶する音声残差パワーメモリと、雑音モデル
メモリ上の雑音特徴ベクトルを入力として最尤パラメー
タメモリ上の最尤パラメータとの積和演算を行い雑音残
差パワーを求める雑音残差演算手段と、雑音残差演算手
段の出力であるところの雑音残差パワーを記憶する雑音
残差パワーメモリと、音響分析手段の出力であるところ
の雑音重畳入力音声特徴ベクトル時系列の各特徴ベクト
ルに対し最尤パラメータメモリ上の最尤パラメータとの
積和演算を行い雑音重畳入力音声残差パワーを求める残
差パワー演算手段と、残差パワー演算手段の出力である
ところの雑音重畳入力音声残差パワーと音声残差パワー
メモリ上の標準音声残差パワーと雑音残差パワーメモリ
上の雑音残差パワーとを用いて雑音重畳入力音声のSN
比を求めるSN比演算手段と、SN比演算手段の出力で
あるところのSN比に従い音声モデルメモリ上の標準音
声特徴ベクトルと雑音モデルメモリ上の雑音特徴ベクト
ルの合成を行い雑音重畳音声特徴ベクトルを生成する特
徴ベクトル合成手段と、音響分析手段の出力である雑音
重畳入力音声特徴ベクトル時系列の各特徴ベクトルに対
し特徴ベクトル合成手段の出力である雑音重畳音声特徴
ベクトルとの類似度を演算する類似度演算手段と、類似
度演算手段の出力であるところの類似度データを入力と
して音声モデルと雑音重畳入力音声特徴ベクトル時系列
との最適照合パスを求める最適照合パス決定手段と、音
響分析手段の出力である雑音重畳入力音声特徴ベクトル
時系列における各特徴ベクトルに対しSN比演算手段の
出力であるSN比と雑音モデルメモリ上の雑音特徴ベク
トルとを用いて重畳雑音特徴ベクトルを生成する重畳雑
音生成手段と、最適照合パス決定手段の出力であるとこ
ろの照合パスデータと重畳雑音生成手段の出力であると
ころの重畳雑音特徴ベクトルとを用いて入力雑音特徴ベ
クトル時系列を求める重畳雑音決定手段と、SN比演算
手段の出力であるところのSN比と音響分析手段の出力
であるところの雑音重畳入力音声特徴ベクトル時系列と
音声モデルメモリ上の標準音声特徴ベクトルと最適照合
パス決定手段の出力であるところの照合パスデータとを
入力として音声パワー比を求めるパワー比決定手段と、
音響分析手段の出力であるところの雑音重畳入力音声特
徴ベクトル時系列と音声モデルメモリ上の標準音声特徴
ベクトルと重畳雑音決定手段の出力であるところの入力
雑音特徴ベクトル時系列とパワー比決定手段の出力であ
るところの音声パワー比とを入力として雑音重畳入力音
声特徴ベクトル時系列の各特徴ベクトルと音声モデルメ
モリ上の標準音声特徴ベクトルとの雑音適応化類似度を
演算する雑音適応化類似度演算手段と、雑音適応化類似
度演算手段の出力であるところの雑音適応化類似度デー
タを用いて照合を行い認識結果を出力する照合手段を備
えたものである。
【0018】また請求項3の発明における音声認識装置
は、雑音が重畳した未知入力音声信号に対し設定される
複数個の分析フレームの各々について音響分析を行い雑
音重畳入力音声特徴ベクトル時系列を出力する音響分析
手段と、音声信号に重畳する雑音の特徴ベクトル時系列
を表現する雑音モデルを記憶する雑音モデルメモリと、
標準音声の特徴ベクトル時系列を表現する音声モデルを
記憶する音声モデルメモリと、音声モデルメモリに格納
されている標準音声特徴ベクトルに対し線形予測分析を
行い最尤パラメータと標準音声残差パワーを求める線形
予測分析手段と、線形予測分析手段の出力であるところ
の最尤パラメータを記憶する最尤パラメータメモリと、
同じく線形予測分析手段の出力であるところの標準音声
残差パワーを記憶する音声残差パワーメモリと、雑音モ
デルメモリ上の雑音特徴ベクトルを入力として最尤パラ
メータメモリ上の最尤パラメータとの積和演算を行い雑
音残差パワーを求める雑音残差演算手段と、雑音残差演
算手段の出力であるところの雑音残差パワーを記憶する
雑音残差パワーメモリと、音響分析手段の出力であると
ころの雑音重畳入力音声特徴ベクトル時系列の各特徴ベ
クトルに対し最尤パラメータメモリ上の最尤パラメータ
との積和演算を行い雑音重畳入力音声残差パワーを求め
る残差パワー演算手段と、残差パワー演算手段の出力で
あるところの雑音重畳入力音声残差パワーと音声残差パ
ワーメモリ上の標準音声残差パワーと雑音残差パワーメ
モリ上の雑音残差パワーとを用いて雑音重畳入力音声の
SN比を求めるSN比演算手段と、SN比演算手段の出
力であるところのSN比に従い音声モデルメモリ上の標
準音声特徴ベクトルと雑音モデルメモリ上の雑音特徴ベ
クトルの合成を行い雑音重畳音声特徴ベクトルを生成す
る特徴ベクトル合成手段と、音響分析手段の出力である
雑音重畳入力音声特徴ベクトル時系列の各特徴ベクトル
に対し特徴ベクトル合成手段の出力である雑音重畳音声
特徴ベクトルとの類似度を演算する類似度演算手段と、
類似度演算手段の出力であるところの類似度データを入
力として音声モデルと雑音重畳入力音声特徴ベクトル時
系列との最適照合パスを求める最適照合パス決定手段
と、音響分析手段の出力である雑音重畳入力音声特徴ベ
クトル時系列における各特徴ベクトルに対しSN比演算
手段の出力であるSN比と雑音モデルメモリ上の雑音特
徴ベクトルとを用いて重畳雑音特徴ベクトルを生成する
重畳雑音生成手段と、最適照合パス決定手段の出力であ
るところの照合パスデータと重畳雑音生成手段の出力で
あるところの重畳雑音特徴ベクトルとを用いて入力雑音
特徴ベクトル時系列を求める重畳雑音決定手段と、音響
分析手段の出力であるところの雑音重畳入力音声特徴ベ
クトル時系列と音声モデルメモリ上の標準音声特徴ベク
トルと重畳雑音決定手段の出力であるところの入力雑音
特徴ベクトル時系列とを入力として雑音重畳入力音声特
徴ベクトル時系列の各特徴ベクトルと音声モデルメモリ
上の標準音声特徴ベクトルとの雑音除去類似度を演算す
る雑音除去類似度演算手段と、雑音除去類似度演算手段
の出力であるところの雑音適応化類似度データを用いて
照合を行い認識結果を出力する照合手段を備えたもので
ある。
【0019】また請求項4の発明における音声認識装置
は、雑音が重畳した未知入力音声信号に対し設定される
複数個の分析フレームの各々について音響分析を行い雑
音重畳入力音声特徴ベクトル時系列を出力する音響分析
手段と、音声信号に重畳する雑音の特徴ベクトル時系列
を表現する雑音モデルを記憶する雑音モデルメモリと、
標準音声の特徴ベクトル時系列を表現する音声モデルを
記憶する音声モデルメモリと、音声モデルメモリに格納
されている標準音声特徴ベクトルに対し線形予測分析を
行い最尤パラメータと標準音声残差パワーを求める線形
予測分析手段と、線形予測分析手段の出力であるところ
の最尤パラメータを記憶する最尤パラメータメモリと、
同じく線形予測分析手段の出力であるところの標準音声
残差パワーを記憶する音声残差パワーメモリと、雑音モ
デルメモリ上の雑音特徴ベクトルを入力として最尤パラ
メータメモリ上の最尤パラメータとの積和演算を行い雑
音残差パワーを求める雑音残差演算手段と、雑音残差演
算手段の出力であるところの雑音残差パワーを記憶する
雑音残差パワーメモリと、音響分析手段の出力であると
ころの雑音重畳入力音声特徴ベクトル時系列の各特徴ベ
クトルに対し最尤パラメータメモリ上の最尤パラメータ
との積和演算を行い雑音重畳入力音声残差パワーを求め
る残差パワー演算手段と、残差パワー演算手段の出力で
あるところの雑音重畳入力音声残差パワーと音声残差パ
ワーメモリ上の標準音声残差パワーと雑音残差パワーメ
モリ上の雑音残差パワーとを用いて雑音重畳入力音声の
SN比を求めるSN比演算手段と、SN比演算手段の出
力であるところのSN比に従い音声モデルメモリ上の標
準音声特徴ベクトルと雑音モデルメモリ上の雑音特徴ベ
クトルの合成を行い雑音重畳音声特徴ベクトルを生成す
る特徴ベクトル合成手段と、音響分析手段の出力である
雑音重畳入力音声特徴ベクトル時系列の各特徴ベクトル
に対し特徴ベクトル合成手段の出力である雑音重畳音声
特徴ベクトルとの類似度を演算する類似度演算手段と、
類似度演算手段の出力であるところの類似度データを入
力として音声モデルと雑音重畳入力音声特徴ベクトル時
系列との最適照合パスを求める最適照合パス決定手段
と、SN比演算手段の出力であるところのSN比と音響
分析手段の出力であるところの雑音重畳入力音声特徴ベ
クトル時系列と音声モデルメモリ上の標準音声特徴ベク
トルと最適照合パス決定手段の出力であるところの照合
パスデータとを入力として音声パワー比を求めるパワー
比決定手段と、音響分析手段の出力である雑音重畳入力
音声特徴ベクトル時系列における各特徴ベクトルに対し
SN比演算手段の出力であるSN比と雑音モデルメモリ
上の雑音特徴ベクトルとを用いて重畳雑音特徴ベクトル
を生成する重畳雑音生成手段と、最適照合パス決定手段
の出力であるところの照合パスデータと重畳雑音生成手
段の出力であるところの重畳雑音特徴ベクトルとパワー
比決定手段の出力であるところの音声パワー比とを用い
て付加雑音特徴ベクトルを求める付加雑音決定手段と、
付加雑音決定手段の出力であるところの付加雑音特徴ベ
クトルと音声モデルメモリ上の標準音声特徴ベクトルを
入力として雑音付加標準音声特徴ベクトルを求める雑音
付加手段と、音響分析手段の出力であるところの雑音重
畳入力音声特徴ベクトル時系列と雑音付加手段の出力で
あるところの雑音付加標準音声特徴ベクトルとの類似度
を演算する類似度演算手段と、類似度演算手段の出力で
あるところの類似度データを用いて照合を行い認識結果
を出力する照合手段を備えたものである。
【0020】
【作用】この発明において、SN比演算手段は、音響分
析手段の出力である雑音重畳入力音声特徴ベクトル時系
列の各特徴ベクトルついてのSN比演算を行う際に、残
差パワー演算手段の出力である雑音重畳入力音声残差パ
ワーと線形予測分析の出力である標準音声残差パワーと
雑音残差演算手段の出力である雑音残差パワーの3種の
残差パワーが用いている。この3種の残差パワーを求め
る際に線形予測分析手段及び雑音残差演算手段におい
て、音声モデルメモリに記憶されている音声モデルの標
準音声特徴ベクトルおよび雑音モデルメモリに記憶され
ている雑音モデルの雑音特徴ベクトルの2種の特徴ベク
トルが用いられている。特徴ベクトル合成手段は、SN
比演算手段が上記3種の残差パワーを用いて求めた雑音
重畳入力音声特徴ベクトル時系列の特徴ベクトルについ
てのSN比に従って、上記2種の特徴ベクトルすなわち
標準音声特徴ベクトルと雑音特徴ベクトルとの合成を行
い、雑音重畳音声特徴ベクトルとして出力している。
【0021】この発明における類似度演算手段は、上記
のように特徴ベクトル合成手段で合成された雑音重畳音
声特徴ベクトルと、前述のSN比演算手段においてSN
比演算の対象となった雑音重畳入力音声特徴ベクトル時
系列中の特徴ベクトルとの類似度演算を行っているの
で、雑音重畳入力音声特徴ベクトル時系列の各特徴ベク
トルのSN比に合わせて雑音を付加された雑音重畳音声
特徴ベクトルとの類似度が照合手段に出力される。
【0022】また、照合手段は、上記のように生成され
た類似度データを用い、雑音モデルの制約の下で、雑音
重畳入力音声特徴ベクトル時系列に対し、類似度が最大
になるように各カテゴリの音声モデルと照合を行い、最
も高い類似度を与えた音声モデルのカテゴリを認識結果
として出力する。
【0023】また他の発明における重畳雑音生成手段
は、SN比演算手段の出力であるSN比とSN比演算の
対象となった雑音重畳入力音声特徴ベクトル時系列中の
特徴ベクトルのパワーとを用いて該特徴ベクトルにおけ
る雑音成分のパワーを求め、この値と、SN比演算手段
において用いられた雑音残差パワーに対応する雑音モデ
ル内の雑音特徴ベクトルとを用いて重畳雑音特徴ベクト
ルを生成する。ここで生成される該重畳雑音特徴ベクト
ルは、雑音重畳入力音声特徴ベクトル時系列中の特徴ベ
クトルト音声モデルメモリに記憶されている音声モデル
の標準音声特徴ベクトルと雑音モデルメモリに記憶され
ている雑音モデルの雑音特徴ベクトルの3種の特徴ベク
トルにより一意に求められている点で、類似度演算手段
の出力である類似度データ及びSN比演算手段の出力で
あるSN比と1対1に対応している。
【0024】最適照合パス決定手段は、類似度演算手段
の出力である類似度データを用い、雑音モデルの制約の
下で、雑音重畳入力音声特徴ベクトル時系列と音声モデ
ルとの類似度が最大になる照合パスを決定する。
【0025】重畳雑音決定手段は、重畳雑音生成手段が
生成した重畳雑音特徴ベクトルと最適照合パス決定手段
が出力した照合パスとを用いて、雑音重畳入力音声特徴
ベクトル時系列の各特徴ベクトルに対応する重畳雑音特
徴ベクトルを求め、重畳雑音特徴ベクトル時系列として
出力する。また、パワー比決定手段は、SN比演算手段
の出力であるSN比と最適照合パス決定手段の出力であ
る照合パスと雑音重畳入力音声特徴ベクトル時系列の各
特徴ベクトルのパワーと音声モデルメモリに記憶されて
いる音声モデルの特徴ベクトルのパワーとを用いて、雑
音重畳入力音声中の音声信号と音声モデルのパワー比を
求める。
【0026】雑音適応化類似度演算手段は、音声モデル
メモリに記憶されている音声モデルの標準音声特徴ベク
トルに対しパワー比決定手段の出力であるところの音声
パワー比を用いて音声モデルと雑音重畳入力音声中の音
声信号のパワーが一致するようにパワー正規化処理を施
し、重畳雑音決定手段の出力であるところの重畳雑音特
徴ベクトル時系列を用いて雑音重畳入力音声特徴ベクト
ル時系列の各特徴ベクトルとの雑音適応化類似度を求め
る。
【0027】また別の発明においては、雑音除去類似度
演算手段は、雑音重畳入力音声特徴ベクトル時系列の各
特徴ベクトルに対し、重畳雑音決定手段の出力であると
ころの重畳雑音特徴ベクトル時系列の各特徴ベクトルを
用いて雑音除去を行い、音声モデルメモリ上に記憶され
ている音声モデルの各特徴ベクトルとの類似度を演算す
る。
【0028】また別の発明においては、付加雑音決定手
段は、重畳雑音生成手段が生成した重畳雑音特徴ベクト
ルと最適照合パス決定手段が出力した照合パスとパワー
比決定手段の出力である音声パワー比とを用いて、音声
モデルの標準音声特徴ベクトルに対する付加雑音特徴ベ
クトルを求める。雑音付加手段は、該付加雑音特徴ベク
トルを音声モデルの標準音声特徴ベクトルに付加し、雑
音付加標準音声特徴ベクトルを出力する。類似度演算手
段は、該雑音付加標準音声特徴ベクトルと雑音重畳入力
音声特徴ベクトル時系列の各特徴ベクトルとの類似度を
演算する。
【0029】
【実施例】
実施例1.図1は、請求項1の発明に関わる音声認識装
置の一実施例の構成を示すブロック図である。図におい
て、2は入力端1より入力される雑音重畳入力音声に対
し、音響分析を行い雑音重畳入力音声特徴ベクトル時系
列を出力する音響分析手段、3は標準音声の特徴ベクト
ル時系列を表現する音声モデルを記憶する音声モデルメ
モリである。
【0030】8は音声に重畳する雑音の特徴ベクトル時
系列を表現する雑音モデルを記憶する雑音モデルメモ
リ、9は音声モデルメモリ3に記憶されている音声モデ
ルの標準音声特徴ベクトルを入力として線形予測分析を
行い、最尤パラメータを最尤パラメータメモリ10に、
標準音声残差パワーを音声残差パワーメモリ11に書き
込む線形予測分析手段、12は雑音モデルメモリ8に記
憶されている雑音モデルの雑音特徴ベクトルと最尤パラ
メータメモリ10に記憶されている最尤パラメータとの
積和演算により雑音残差パワーを求め雑音残差メモリ1
3に書き込む雑音
【0031】14は音響分析手段2の出力である雑音重
畳入力音声特徴ベクトル時系列の各特徴ベクトルに対し
最尤パラメータメモリ10に記憶されている最尤パラメ
ータとの積和演算を行い雑音重畳入力音声残差パワーを
求める残差パワー演算手段、15は残差パワー演算手段
14の出力であるところの雑音重畳入力音声残差パワー
と音声残差パワーメモリ11に記憶されている標準音声
残差パワーと雑音残差パワーメモリ13に記憶されてい
る雑音残差パワーとを用いて雑音重畳入力音声のSN比
を求めるSN比演算手段、16はSN比演算手段15の
出力であるところのSN比に従い音声モデルメモリ3に
記憶されている標準音声特徴ベクトルと雑音モデルメモ
リ8に記憶されている雑音特徴ベクトルの合成を行い雑
音重畳音声特徴ベクトルを生成する特徴ベクトル合成手
段である。
【0032】5は音響分析手段2の出力である雑音重畳
入力音声特徴ベクトル時系列の各特徴ベクトルに対し特
徴ベクトル合成手段16の出力である雑音重畳音声特徴
ベクトルとの類似度を演算する類似度演算手段、7は類
似度演算手段5の出力であるところの類似度データを用
いて照合処理を行い認識結果7を出力する照合手段であ
る。
【0033】次に動作について、まずDPマッチング法
を照合手段7に採用した離散単語認識の場合を例に説明
を行う。入力端1より入力された雑音重畳入力音声信号
は、音響分析手段2において任意の分析フレーム(例え
ばフレーム周期10msec、フレーム長25.6ms
ec、ハミング窓)について音響分析され、自己相関係
数ベクトルを特徴ベクトルとする雑音重畳入力音声特徴
ベクトル時系列{X(i)|i=1,2,…,I}に変
換される。ここでX(i)は第iフレームの自己相関係
数ベクトルで、Iはフレーム数である。
【0034】音声モデルメモリ3には、カテゴリk(k
=1,2,…,K)の音声モデルとして、カテゴリkの
単語音声信号に対し音響分析手段2における音響分析と
同等の音響分析処理を施し得られる自己相関係数ベクト
ルからなる標準音声特徴ベクトル時系列{Sk(j)|
j=1,2,…,Jk}が記憶されている。但し、前記
単語音声信号は、この発明による音声認識装置が対象と
する雑音重畳入力音声信号よりも高いSN比をもってい
る必要がある。
【0035】雑音モデルメモリ8には、入力音声に重畳
することが想定される雑音信号に対し、音響分析手段2
における音響分析と同等の音響分析処理を施して得られ
る自己相関係数ベクトル時系列を表現する雑音モデルが
1個もしくは複数個記憶されている。各雑音モデルはそ
れぞれ異なる種類の雑音を表現しているが、絶対的なパ
ワー値の違いは雑音の種類を区別しない。
【0036】ここでは一例として、重畳雑音信号が、パ
ワーについては音響分析フレーム毎の変動が大きいが、
パワー正規化しスペクトル形状にのみ注目すると音響分
析フレーム毎にN種類の雑音がランダムに現れるという
ような場合を例に採り説明する。この場合、スペクトル
が相異なる前記N種類の雑音の特徴ベクトル{Zn|n
=1,2,…,N}がそれぞれ雑音モデルとして雑音モ
デルメモリに記憶される。
【0037】線形予測分析手段9は、音声モデルメモリ
3に記憶されている全ての音声モデルの全ての標準音声
特徴ベクトルSk(j)に対し、以下に示す処理を行
う。
【0038】1.例えば自己相関法などを用いて、標準
音声特徴ベクトルSk(j)の自己相関係数ベクトルか
ら線形予測パラメータを求める。
【0039】2.次に、1で得られた線形予測パラメー
タの自己相関係数である最尤パラメータAk(j)=
{akj(m)|m=0,1,…,M}を求め最尤パラメ
ータメモリ10に保存する。
【0040】3.標準音声特徴ベクトルSk(j)の正
規化自己相関係数ベクトルと最尤パラメータAk(j)
とを用いて積和演算を行い標準音声残差パワーαkjを求
め、音声残差パワーメモリに保存する。αkjは以下の
(1)式により求める。
【0041】
【数1】
【0042】雑音残差演算手段12は、雑音モデルメモ
リ8に記憶されている雑音モデルの雑音特徴ベクトル
{Zn|n=1,2,…,N}の正規化自己相関係数に
対し、最尤パラメータメモリ10に記憶されている全て
の最尤パラメータAk(j)を用いて積和演算を行い、
雑音残差パワーβkj,nを求め雑音算差パワーメモリ13
に書き込む。βkj,nは以下の(2)式で求める。
【0043】
【数2】
【0044】残差パワー演算手段14は、音響分析手段
2の出力であるところの雑音重畳入力音声特徴ベクトル
時系列の各特徴ベクトルX(i)(i=1,2,…,
I)の正規化自己相関係数ベクトルに対し、最尤パラメ
ータメモリ10に記憶されている全ての最尤パラメータ
Ak(j)を用いて積和演算を行い、雑音重畳入力音声
残差パワーγki,jを求める。γki,jは(3)式で求め
る。
【0045】
【数3】
【0046】SN比演算手段15は、残差パワー演算手
段14の出力である雑音重畳入力音声残差パワーγki,j
と音声残差パワーメモリ11に記憶されている標準音声
残差パワーαkjと雑音残差パワーメモリ13に記憶され
ている雑音残差パワーβkj,nとを用いて、SN比Rki,
j,nを(4)式から求める。
【0047】
【数4】
【0048】この式は、以下のように導出される。雑音
が重畳していないある音声信号φ(t)(tは時間を表
す)が、(5)式のようなAR過程に従うとする。
【0049】
【数5】
【0050】すると、線形予測係数ψmは、音声信号φ
(t)の自己相関係数から、自己相関法により一意に求
められる。
【0051】任意の信号を、1/H(z)なる伝達特性
を持つフィルタに入力した時得られる出力信号のパワー
は、前記線形予測係数ψmの自己相関係数(最尤パラメ
ータと呼ばれている)Ψτ(τ=0,1,…,M)と入
力信号の自己相関係数の積和演算により求められる。前
述の音声信号φ(t)を入力する場合を例に採れば、フ
ィルタの出力信号のパワー(残差パワーと呼ばれる)P
φは、(6)式により得られる。式中Φτは音声信号φ
(t)の自己相関係数でτ=0,1,…,Mである。
【0052】
【数6】
【0053】次に、音声信号φ(t)に雑音信号ξ
(t)が(7)式のように重畳した雑音重畳信号ω
(t)を考える。
【0054】
【数7】
【0055】音声信号φ(t)と雑音信号ξ(t)の無
相関が仮定できるならば、雑音重畳信号ω(t)の自己
相関係数Ωτは、(8)式のようにφ(t)の自己相関
係数Φτとξ(t)の自己相関係数Ξτの和として与え
られる。
【0056】
【数8】
【0057】このような雑音重畳信号ω(t)を1/H
(z)なる伝達特性を持つ前記フィルタに入力した場合
の残差パワーPωは、(9)式により得られる。
【0058】
【数9】
【0059】(9)式のΩτを(8)式にて置き換える
と(10)式のようになる。
【0060】
【数10】
【0061】(9)(10)式をまとめて(11)式と
する。
【0062】
【数11】
【0063】(11)式において、Ωτ、Φτ、Ξτの
正規化自己相関係数をそれぞれΩ■τ、Φ■τ、Ξ■τ
とすると、
【0064】
【数12】
【0065】となる。また(8)式においてτ=0とす
ると(13)式のようになる。
【0066】
【数13】
【0067】(12)式のΩ0を(13)式で置き換
え、SN比Φ0/Ξ0についてとくと、
【0068】
【数14】
【0069】となる。すなわち、雑音重畳音声信号ω
(t)に対し、雑音が重畳していない音声信号φ(t)
の正規化自己相関係数Φ■τ及び、重畳している雑音の
正規化自己相関係数Ξ■τが分かれば、雑音重畳音声信
号ω(t)の正規化自己相関係数Ω■τ及び音声信号φ
(t)の最尤パラメータΨτにより雑音重畳信号ω
(t)のSN比が求められることがわかる。
【0070】音声認識装置に入力される雑音重畳入力音
声信号は、雑音重畳以前の音声信号の正規化自己相関係
数も、重畳している雑音信号の正規化自己相関係数も、
未知であるため、音響分析手段2の出力である雑音重畳
入力音声特徴ベクトル時系列{X(i)|i=1,2,
…,I}の各特徴ベクトルに対し、音声モデルメモリ3
に記憶されている音声モデルの全ての標準音声特徴ベク
トルと雑音モデルメモリ8に記憶されている雑音モデル
の全ての雑音特徴ベクトルの組み合わせについて得られ
るSN比を、SN比演算手段15は出力する。
【0071】特徴ベクトル合成手段16は、SN比演算
手段15の出力であるところのSN比Rki,j,n(k=
1,2,…,K、j=1,2,…,JK、i=1,2,…,I、n
=1,2,…,N)を入力とし、音声モデルメモリ3に記
憶されている音声モデルの標準音声特徴ベクトルSkjと
雑音モデルメモリ8に記憶されている雑音モデルの雑音
特徴ベクトルZnとのパワー比がSN比Rki,j,nと一致
するように特徴ベクトルの合成を行い、雑音重畳音声特
徴ベクトルYki,j,nとして出力する。
【0072】類似度演算手段5は、音響分析手段2の出
力であるところの雑音重畳入力音声特徴ベクトル時系列
{X(i)|i=1,2,…,I}の各特徴ベクトルに対
し、特徴ベクトル合成手段16の出力であるところの雑
音重畳音声特徴ベクトルYki,j,n(k=1,2,…,K、
j=1,2,…,JK、i=1,2,…,I、n=1,2,…,
N)を用い、X(i)とYki,j,n(k=1,2,…,K、
j=1,2,…,JK、n=1,2,…,N)との類似度D1k
i,j,nを求める。類似度としては一例として、特徴ベク
トルである自己相関係数をLPC分析して得られるLP
Cケプストラムベクトルのユークリッド距離の逆数があ
る。
【0073】照合手段6は、類似度演算手段5の出力で
ある類似度データD1ki,j,n(k=1,2,…,K、j=
1,2,…,JK、i=1,2,…,I、n=1,2,…,N)を
用い、カテゴリkの音声モデルと雑音重畳入力音声との
照合を雑音モデルの制約の下で行い、類似度が最大にな
る音声モデルのカテゴリを認識結果7として出力する。
【0074】この場合雑音モデルの制約は、音響分析フ
レーム毎にランダムにnが1,2,…,Nのうちのどれか
の値をとるということだけなので、{D1ki,j,n|n=
1,2,…,N}の中でいちばん高い類似度を、雑音重畳
入力音声特徴ベクトル時系列の第iフレームとカテゴリ
kの音声モデルの第jフレームとの類似度とみなしてD
Pマッチングを行うことで照合を行う。
【0075】これにより照合パス上では、雑音重畳入力
音声特徴ベクトル時系列の各特徴ベクトルに対し、音声
モデルとの類似度最大化条件による、標準音声特徴ベク
トルと雑音ベクトルの対応付けがなされることになり、
結果として、雑音重畳入力音声に対する正解カテゴリの
音声モデルに対し、雑音重畳入力音声に重畳している雑
音と等しい雑音を等しいSN比で重畳させて照合させた
ことと等しく、非定常雑音が重畳しSN比変動が大きい
雑音重畳入力音声に対しても、正しい認識が行える。
【0076】以上、請求項1の発明に係わる実施例につ
いて、DPマッチングによる照合を行う場合を例に採り
説明を行ったが、照合方式はDPマッチングに限定され
るものではなく、例えばHMMによる認識手法を用いて
もかまわない。
【0077】この場合、音声モデルメモリ3には、各カ
テゴリの音声を表すHMMが音声モデルとして記憶さ
れ、HMMの各状態(もしくは各遷移)において出力確
率をもつ音声特徴ベクトルが上記説明における標準音声
特徴ベクトルとなる。具体的には、連続分布型HMMで
は各状態(もしくは各遷移)での出力確率演算における
1個もしくは複数個の平均特徴ベクトルが、音声特徴ベ
クトルに対しコードブックによるベクトル量子化処理を
行う離散分布型HMMでは各状態(もしくは各遷移)に
おいて出力確率をもつ1個もしくは複数個のコードラベ
ルの特徴ベクトルが標準音声特徴ベクトルとなる。ま
た、上記実施例の説明において述べたように、特徴ベク
トル合成手段16における標準音声特徴ベクトルと雑音
特徴ベクトルとの合成には標準音声特徴ベクトルのパワ
ー情報が必要となるため、パワー情報を含めた音声特徴
ベクトルの出力確率を扱うHMMを用いる。
【0078】雑音モデルメモリ8に記憶される雑音モデ
ルも雑音を表現するHMMであってかまわず、この場合
の雑音特徴ベクトルは、音声モデルの場合と同様にHM
Mの各状態(もしくは各遷移)において出力確率をもつ
雑音の特徴ベクトルがこれにあたる。また、雑音モデル
間での遷移確率をもたせることで1個の大きな雑音モデ
ルを用いてもかまわない。
【0079】類似度演算手段5では、HMMの各状態
(もしくは各遷移)において雑音重畳入力音声特徴ベク
トル時系列の各特徴ベクトルが出力される確率を演算
し、類似度データとして出力する。照合手段6は、類似
度演算手段5の出力であるところの類似度データを用い
て、雑音重畳入力音声と各カテゴリのHMMとの、雑音
モデルの制約の下での照合を行い、類似度が最大になる
HMMのカテゴリを認識結果として出力する。
【0080】以上、単語認識を例に採りその動作につい
て説明を行ったが、この発明の請求項1に係る実施例は
認識対象を単語に限定するものではなく、音声における
他の発声単位を用いてもかまわない。
【0081】また類似度演算手段において、特徴ベクト
ルである自己相関係数から得られるあらゆる音響パラメ
ータ、例えばLSPパラメータやLPCメルケプストラ
ム係数、声道断面積関数を用いた類似度や、同じく自己
相関係数から得られるパラメータを用いたあらゆる距離
尺度、例えばLPCメルケプストラム係数のユークリッ
ド距離や、WLR距離、WGD距離尺度、群遅延スペク
トル距離、重み付けケプストラムのユークリッド距離、
またこれらユークリッド距離の代わりにチェビシェフ距
離などを用いた類似度を採用してもかまわない。
【0082】加えて、音響分析によるところの特徴ベク
トルを自己相関係数のみに限定することなく、他の音響
パラメータを付与した特徴ベクトルを用い、これによる
類似度により照合を行ってもかまわない。
【0083】実施例2.図2は、請求項2の発明に係る
音声認識装置の一実施例の構成を示すブロック図であ
る。図において、1は入力端、2は音響分析手段、3は
音声モデルメモリ、5は類似度演算手段、6は照合手
段、7は認識結果、8は雑音モデルメモリ、9は線形予
測分析手段、10は最尤パラメータメモリ、11は音声
残差パワーメモリ、12、雑音残差演算手段、13は雑
音残差パワーメモリ、14は残差パワー演算手段、15
はSN比演算手段、16は特徴ベクトル合成手段で、図
1に同一符号を付した構成要素と同一部分であるため詳
細な説明は省略する。
【0084】また、17は前記類似度演算手段5の出力
である類似度データを入力として雑音重畳入力音声と音
声モデルとの類似度を最大とする最適照合パスを求める
最適照合パス決定手段、18は前記SN比演算手段の出
力であるSN比と前記音響分析手段2の出力である雑音
重畳入力音声特徴ベクトル時系列と前記雑音モデルメモ
リ8に記憶されている雑音モデルの雑音特徴ベクトルと
を用いて重畳雑音特徴ベクトルを生成する重畳雑音生成
手段、19は最適照合パス決定手段17の出力である照
合パスデータに従い重畳雑音生成手段18の出力である
重畳雑音特徴ベクトルから入力雑音特徴ベクトル時系列
を求める重畳雑音決定手段である。
【0085】20は前記音声モデルメモリ3に記憶され
ている音声モデルの標準音声特徴ベクトルと音響分析手
段2の出力である雑音重畳入力音声特徴ベクトル時系列
とSN比演算手段15の出力であるSN比と最適照合パ
ス決定手段17の出力である照合パスデータとを用いて
雑音重畳入力音声と音声モデルとのパワー比を求めるパ
ワー比決定手段、21は音響分析手段2の出力である雑
音重畳入力音声特徴ベクトル時系列と重畳雑音決定手段
19の出力である入力雑音特徴ベクトル時系列とパワー
比決定手段20の出力である音声パワー比と音声モデル
メモリ3に記憶されている音声モデルの標準音声特徴ベ
クトルとを用いて雑音重畳入力音声特徴ベクトル時系列
の各特徴ベクトルに対し標準音声特徴ベクトルとの雑音
適応化類似度を演算する雑音適応化類似度演算手段であ
る。
【0086】次に動作について、まずDPマッチング法
を照合手段7および最適照合パス決定手段17に採用し
た離散単語認識の場合を例に説明を行う。音声モデルメ
モリ3及び雑音モデルメモリ8の記憶内容及び、雑音重
畳入力音声信号の入力端1への入力から、類似度演算手
段5までの動作は、上記実施例1の場合と同一であるの
で説明を省く。
【0087】重畳雑音生成手段18は、音響分析手段2
の出力であるところの雑音重畳入力音声特徴ベクトル時
系列{X(i)|i=1,2,…,I}の各特徴ベクトル
X(i)に対し、SN比演算手段15の出力であるとこ
ろのSN比Rki,j,n(k=1,2,…,K、j=1,2,…,
JK、i=1,2,…,I、n=1,2,…,N)を用いて
(15)式のように重畳雑音パワーηki,j,n(k=1,
2,…,K、j=1,2,…,JK、n=1,2,…,N)を求
める。ただし、X(i)のパワーは自己相関係数ベクト
ルの0次元要素を用い、x0(i)とする。
【0088】
【数15】
【0089】次いで、雑音モデルメモリ8に記憶されて
いる雑音モデルの雑音特徴ベクトル{Zn|n=1,2,
…,N}のスペクトル形状を保存したままパワーだけを
重畳雑音パワーηki,j,nと一致させた重畳雑音特徴ベク
トルUki,j,nを生成する。すなわち、雑音特徴ベクトル
Znの正規化自己相関係数ベクトルの各次元要素に対し
重畳雑音パワーηki,j,nを掛けた値をUki,j,nの各次元
要素とする。
【0090】このようにして得られる雑音重畳特徴ベク
トルUki,j,nは、雑音重畳入力音声特徴ベクトル時系列
の中の特徴ベクトルX(i)に対し、標準音声特徴ベク
トルSk(j)と雑音特徴ベクトルZnとを用いて求めた
SN比Rki,j,nによるパワーと雑音特徴ベクトルZnの
スペクトル形状をもつ。
【0091】最適照合パス決定手段17は、前記類似度
演算手段5の出力である類似度データD1ki,j,n(k=
1,2,…,K、j=1,2,…,JK、i=1,2,…,I、n
=1,2,…,N)を用い、カテゴリkの音声モデルと雑
音重畳入力音声との照合を雑音モデルの制約の下で行
い、各音声モデルとの類似度を最大にする最適照合パス
を求める。照合処理自体は、実施例1の照合手段6にお
ける処理と同じであるので詳細な説明は省く。
【0092】ここでは、雑音重畳入力音声とカテゴリk
の音声モデルとの照合による最適照合パスを、L=1,
2,…,Lkなる変数に対し一意に値をとる3つの関数f
k(L)、gk(L)、hk(L)として表現する。f
k(L)はiについて、gk(L)はjについて、hk
(L)はnについての関数であり、L=1,2,…,Lkに
ついて(16)式を満たす。
【0093】
【数16】
【0094】重畳雑音決定手段19は、重畳雑音生成手
段18の出力であるところの重畳雑音特徴ベクトルUk
i,j,n(k=1,2,…,K、j=1,2,…,JK、i=1,
2,…,I、n=1,2)と最適照合パス決定手段17の出力で
あるところの照合パスデータを入力とし、雑音重畳入力
音声とカテゴリkの音声モデルとの類似度を最大にする
照合パス上の重畳雑音特徴ベクトルについて、kおよび
iを同じくする重畳雑音特徴ベクトルの平均特徴ベクト
ルを求め、これを入力雑音特徴ベクトルVk(i)とす
る。
【0095】すなわち、音声モデルのあるカテゴリk
(k=1,2,…,K)についてL=1,2,…,Lkとした
時、fk(L)を同じくする重畳雑音特徴ベクトルUkf
k(L),gk(L),hk(L)の平均特徴ベクトルを求め、入力雑音
特徴ベクトルVk(fk(L))とする。これにより、
入力雑音特徴ベクトル時系列{Vk(i)|i=1,2,
…,I}(k=1,2,…,K)が得られる。
【0096】以上のように本重畳雑音決定手段は、請求
項1の発明になる雑音重畳入力音声とカテゴリkの音声
モデルとの照合手法により得られた照合パスに従い、雑
音重畳入力音声特徴ベクトル時系列の各特徴ベクトルに
対する入力雑音特徴ベクトルを求める。
【0097】パワー比決定手段20は、SN比演算手段
15の出力であるSN比と音響分析手段2の出力である
雑音重畳入力音声特徴ベクトル時系列と音声モデルメモ
リ3に記憶されている音声モデルの標準音声特徴ベクト
ルと最適照合パス決定手段17の出力である照合パスデ
ータを入力とし、雑音重畳入力音声とカテゴリkの音声
モデルとの類似度を最大にする照合パスにおいてSN比
が閾値Rtを越える部分区間に対し、これに対応する音
声モデルの標準音声特徴ベクトルのパワーの平均値を求
める。ついで、照合パス上の同部分区間に対応する雑音
重畳入力音声特徴ベクトル時系列中の各特徴ベクトルに
対し、照合パス上のSN比との演算により特徴ベクトル
における音声信号のパワーを求め、この平均値と音声モ
デルの標準音声特徴ベクトルから得られたパワー平均値
との比を音声パワー比とする。
【0098】すなわち照合パスデータにおいて、音声モ
デルのあるカテゴリk(k=1,2,…,K)について
L=1,2,…,Lkとした時、SN比Rkfk(L),gk(L),hk
(L)が閾値Rtを越えるLについて、標準音声特徴ベク
トルSk(gk(L))のパワーの平均して音声モデル
パワーを求め、ついで同じLについて、雑音重畳入力音
声特徴ベクトルX(fk(L))とSN比Rkfk(L),gk
(L),hk(L)とから(17)式により得られる音声パワー
ζk(fk(L)i)を平均して入力音声パワーを求め
る。
【0099】
【数17】
【0100】前記入力音声パワーを前記音声モデルパワ
ーで割った値を雑音重畳入力音声とカテゴリkの音声モ
デルとの照合による音声パワー比εkとして出力する。
以上のように本パワー比決定手段は、請求項1の発明に
なる雑音重畳入力音声とカテゴリkの音声モデルとの照
合手法により得られた照合パスに従い、入力音声と音声
モデルとの音声パワー比を求める。
【0101】雑音適応化類似度演算手段21は、まず音
声モデルメモリ3に記憶されているカテゴリk(k=
1,2,…,K)の音声モデルの標準音声特徴ベクトル
{Sk(j)|j=1,2,…,Jk}に対し、パワー比決
定手段20の出力であるところの音声パワー比εkを用
いて、カテゴリkの音声モデルの音声モデルパワーと雑
音重畳入力音声の入力音声パワーとが一致するようにパ
ワー補正を行い、パワー正規化標準音声特徴ベクトルT
k(j)|j=1,2,…,Jk}を得る。パワー補正は、
標準音声特徴ベクトルの自己相関係数ベクトルSk
(j)の各次元要素に音声パワー比εkを掛けることで
行う。
【0102】ついで、音響分析手段2の出力である雑音
重畳入力音声特徴ベクトル時系列{X(i)|i=1,
2,…,I}の各特徴ベクトルに対し、重畳雑音決定手段
19の出力である入力雑音特徴ベクトル時系列{Vk
(i)|i=1,2,…,I}を用いて、パワー正規化標
準音声特徴ベクトルTk(j)との雑音適応化類似度D2
k(i,j)を(18)式のように求める。
【0103】
【数18】
【0104】式中、d(*,*)は括弧内の2つの自己
相関係数ベクトルの間に定義される類似度で、例えばそ
れぞれの自己相関係数をLPC分析して得られるLPC
ケプストラムベクトルのユークリッド距離の逆数であ
る。また、式中におけるTk(j)とVk(i)の和は、
2つの特徴ベクトルの各次元要素の和によるベクトルの
合成を示す。
【0105】これにより類似度D2k(i,j)は、請求
項1の発明になる雑音重畳入力音声とカテゴリkの音声
モデルとの照合手法に基づき得られた、雑音重畳入力音
声特徴ベクトルX(i)に対する入力重畳雑音特徴ベク
トルVk(i)による、パワー正規化標準音声特徴ベク
トルTk(i)への雑音適応化機能をもつ類似度演算手
法となっている。
【0106】照合手段6は、雑音適応化類似度データD
2k(i,j)(i=1,2,…,I、j=1,2,…,Jk、
k=1,2,…,K)を用いて、雑音重畳入力音声とカテ
ゴリkの音声モデルとの照合を行い、類似度が最大にな
る音声モデルのカテゴリを認識結果7として出力する。
以上、請求項2の発明に係わる実施例について、DPマ
ッチングによる照合を行う場合を例に採り説明を行った
が、実施例1の場合と同様に、最適照合パス決定手段1
7及び照合手段6における雑音重畳入力音声と音声モデ
ルとの照合方式よび類似度演算手段5については実施例
1と同じであるので説明を省く。
【0107】最適照合パス決定手段17においては、類
似度演算手段5の出力である類似度データを用いて、雑
音モデルの制約の下での、雑音重畳入力音声と各カテゴ
リのHMMとのビタビ照合パスを出力する。この時、音
声モデル及び雑音モデルについての照合パスデータは、
変数Lに対しHMMの各状態(もしくは各遷移)を規定
する関数ではなく、各状態(もしくは各遷移)において
雑音重畳入力音声との類似度を最大にする標準音声(も
しくは雑音)特徴ベクトルを規定するものとする。
【0108】これは、音声モデル及び雑音モデルに離散
型HMMや混合連続分布型HMMを用いた場合、HMM
の各状態(もしくは各遷移)における標準音声(もしく
は雑音)特徴ベクトルが複数個あるためである。雑音適
応化類似度演算手段21においては、HMMの各状態
(もしくは各遷移)において雑音重畳入力音声特徴ベク
トル時系列の各特徴ベクトルが出力される確率を演算
し、類似度データとして出力する。照合手段6は、類似
度演算手段5の出力であるところの類似度データを用い
て、雑音重畳入力音声と各カテゴリのHMMとの照合を
行い、類似度が最大になるHMMのカテゴリを認識結果
として出力する。この時の照合方式は、ビタビに限定さ
れない。
【0109】以上、単語認識を例に採りその動作につい
て説明を行ったが、この発明の請求項2に係る実施例
は、実施例1の場合と同様、認識対象を単語に限定する
ものではなく、音声における他の発声単位を用いてもか
まわない。また類似度演算手段においても、実施例1の
場合と同様、特徴ベクトルである自己相関係数から得ら
れるあらゆる音響パラメータ、例えばLSPパラメータ
やLPCメルケプストラム係数、声道断面積関数を用い
た類似度や、同じく自己相関係数から得られるパラメー
タを用いたあらゆる距離尺度、例えばLPCメルケプス
トラム係数のユークリッド距離や、WLR距離、WGD
距離尺度、群遅延スペクトル距離、重み付けケプストラ
ムのユークリッド距離、またこれらユークリッド距離の
代わりにチェビシェフ距離などを用いた類似度を採用し
てもかまわない。加えて、音響分析によるところの特徴
ベクトルを自己相関係数のみに限定することなく、他の
音響パラメータを付与した特徴ベクトルを用い、これに
よる類似度により照合を行ってもかまわない。
【0110】実施例3.図3は、請求項3の発明に係る
音声認識装置の一実施例の構成を示すブロック図であ
る。図において、1は入力端、2は音響分析手段、3は
音声モデルメモリ、5は類似度演算手段、6は照合手
段、7は認識結果、8は雑音モデルメモリ、9は線形予
測分析手段、10は最尤パラメータメモリ、11は音声
残差パワーメモリ、12、雑音残差演算手段、13は雑
音残差パワーメモリ、14は残差パワー演算手段、15
はSN比演算手段、16は特徴ベクトル合成手段、17
は最適照合パス決定手段、18は重畳雑音生成手段、1
9は重畳雑音決定手段で、図2に同一符号を付した構成
要素と同一部分であるため詳細な説明は省略する。
【0111】また、22は前記音響分析手段2の出力で
あるところの雑音重畳入力音声特徴ベクトルと前記重畳
雑音決定手段19の出力であるところの入力雑音特徴ベ
クトル時系列と音声モデルメモリ3に記憶されている音
声モデルの標準音声特徴ベクトルとを入力とし、雑音重
畳入力音声特徴ベクトルに対し入力雑音特徴ベクトル時
系列を用いた雑音除去処理を行った後標準音声特徴ベク
トルとの類似度を求める雑音除去類似度演算手段であ
る。
【0112】次に動作について、まずDPマッチング法
を照合手段7および最適照合パス決定手段17に採用し
た離散単語認識の場合を例に説明を行う。音声モデルメ
モリ3及び雑音モデルメモリ8の記憶内容及び、雑音重
畳入力音声信号の入力端1への入力から、重畳雑音決定
手段19までの動作は、上記実施例2の場合と同一であ
るので説明を省く。
【0113】雑音除去類似度演算手段22は、前記音響
分析手段2の出力であるところの雑音重畳入力音声特徴
ベクトル時系列{X(i)|i=1,2,…,I}の各特
徴ベクトルに対し、前記重畳雑音決定手段19の出力で
あるところの入力雑音特徴ベクトル時系列{Vk(i)
|i=1,2,…,I}による雑音除去を施した後、音声
モデルメモリ3に記憶されている音声モデルの標準音声
特徴ベクトルSk(j)との類似度を(19)式のよう
に求める。
【0114】
【数19】
【0115】式中、d(*,*)は括弧内の2つの自己
相関係数ベクトルの間に定義される類似度で、例えばそ
れぞれの自己相関係数をLPC分析して得られるLPC
ケプストラムベクトルのユークリッド距離の逆数であ
る。また、式中におけるX(i)からVk(i)の減算
は、X(i)の各次元要素からVk(i)の各次元要素
を減算する、ベクトルの引き算を示している。
【0116】これは、請求項1の発明になる雑音重畳入
力音声とカテゴリkの音声モデルとの照合手法に基づき
得られた入力重畳雑音特徴ベクトルVk(i)による、
雑音重畳入力音声に対する雑音除去機能をもつ類似度演
算になっている。該雑音除去類似度演算手段はi=1,
2,…,I、j=1,2,…,Jk、k=1,2,…,Kについ
て雑音除去類似度D3k(i,j)を出力する。
【0117】照合手段6は、前記雑音除去類似度演算手
段22の出力である雑音除去類似度D3k(i,j)を入
力とし、実施例2における照合手段6と同様に、雑音重
畳入力音声とカテゴリkの音声モデルとの照合を行い、
類似度が最大になる音声モデルのカテゴリを認識結果7
として出力する。
【0118】以上、請求項3の発明に係わる実施例につ
いて、DPマッチングによる照合を行う場合を例に採り
説明を行ったが、実施例2の場合と同様に、最適照合パ
ス決定手段17及び照合手段6における雑音重畳入力音
声と音声モデルとの照合方式はDPマッチングに限定さ
れるものではなく、例えばHMMによる認識手法を用い
てもかまわない。この場合の音声モデルメモリ3、雑音
モデルメモリ8、類似度演算手段5、最適照合パス決定
手段17については実施例2と同じであるので説明を省
く。
【0119】雑音除去類似度演算手段21においては、
HMMの各状態(もしくは各遷移)において、入力雑音
特徴ベクトル時系列による雑音除去処理を施した雑音重
畳入力音声特徴ベクトル時系列の各特徴ベクトルが出力
される確率を演算し、類似度データとして出力する。照
合手段6は、類似度演算手段5の出力であるところの類
似度データを用いて、雑音重畳入力音声と各カテゴリの
HMMとの照合を行い、類似度が最大になるHMMのカ
テゴリを認識結果として出力する。この時の照合方式
は、ビタビに限定されない。
【0120】以上、単語認識を例に採りその動作につい
て説明を行ったが、この発明の請求項3に係る実施例
は、実施例2の場合と同様、認識対象を単語に限定する
ものではなく、音声における他の発声単位を用いてもか
まわない。
【0121】また類似度演算手段においても、実施例2
の場合と同様、特徴ベクトルである自己相関係数から得
られるあらゆる音響パラメータ、例えばLSPパラメー
タやLPCメルケプストラム係数、声道断面積関数を用
いた類似度や、同じく自己相関係数から得られるパラメ
ータを用いたあらゆる距離尺度、例えばLPCメルケプ
ストラム係数のユークリッド距離や、WLR距離、WG
D距離尺度、群遅延スペクトル距離、重み付けケプスト
ラムのユークリッド距離、またこれらユークリッド距離
の代わりにチェビシェフ距離などを用いた類似度を採用
してもかまわない。
【0122】加えて、音響分析によるところの特徴ベク
トルを自己相関係数のみに限定することなく、他の音響
パラメータを付与した特徴ベクトルを用い、これによる
類似度により照合を行ってもかまわない。とくに、雑音
除去類似度演算手段22における自己相関係数上での雑
音除去処理は、雑音除去後の自己相関係数ベクトルが非
現実的な値をとりLPC分析が行えなくなる場合があ
り、これを避けるため、音響分析にDFTによるスペク
トル分析を加えパワースペクトルを特徴ベクトルに含め
ることで、雑音除去類似度演算手段22における雑音除
去処理を、パワースペクトル上で行い、雑音除去後のパ
ワースペクトルがマイナスの値をとった周波数について
は0で置き換えた後、このパワースペクトルに対し逆D
FT演算を行うことで導出された自己相関係数を特徴ベ
クトルとして用いることができる。また、雑音除去にお
ける問題が回避できる他の特徴ベクトル、例えばフィル
タバンクの出力などを用いてもかまわない。
【0123】実施例4.図4は、請求項4の発明に係る
音声認識装置の一実施例の構成を示すブロック図であ
る。図において、1は入力端、2は音響分析手段、3は
音声モデルメモリ、5は類似度演算手段、6は照合手
段、7は認識結果、8は雑音モデルメモリ、9は線形予
測分析手段、10は最尤パラメータメモリ、11は音声
残差パワーメモリ、12、雑音残差演算手段、13は雑
音残差パワーメモリ、14は残差パワー演算手段、15
はSN比演算手段、16は特徴ベクトル合成手段、17
は最適照合パス決定手段、18は重畳雑音生成手段、2
0はパワー比決定手段であり、図2に同一符号を付した
構成要素と同一部分であるため詳細な説明は省略する。
【0124】また、23は最適照合パス決定手段17の
出力である照合パスデータに従い重畳雑音生成手段18
の出力である重畳雑音特徴ベクトルから付加雑音特徴ベ
クトルを求める付加雑音決定手段、24は付加雑音決定
手段23の出力である付加雑音特徴ベクトルを用いて音
声モデルメモリ3に記憶されている音声モデルの標準音
声特徴ベクトルに対する雑音付加処理を施し雑音付加標
準音声特徴ベクトルを出力する雑音付加手段、25は音
響分析手段2の出力であるところの雑音重畳入力音声特
徴ベクトル時系列と雑音付加手段24の出力であるとこ
ろの雑音付加標準音声特徴ベクトルとの類似度を求める
類似度演算手段である。
【0125】次に動作について、まずDPマッチング法
を照合手段7および最適照合パス決定手段17に採用し
た離散単語認識の場合を例に説明を行う。音声モデルメ
モリ3及び雑音モデルメモリ8の記憶内容及び、雑音重
畳入力音声信号の入力端1への入力から、パワー比決定
手段20までの動作は、上記実施例2の場合と同一であ
るので説明を省く。
【0126】付加雑音決定手段23は、前記重畳雑音生
成手段18の出力であるところの重畳雑音特徴ベクトル
Uki,j,n(k=1,2,…,K、j=1,2,…,JK、i=
1,2,…,I、n=1,2)と前記最適照合パス決定手段
17の出力であるところの照合パスデータとパワー比決
定手段20の出力であるところの音声パワー比εkを入
力とし、雑音重畳入力音声とカテゴリkの音声モデルと
の類似度を最大にする照合パス上の重畳雑音特徴ベクト
ルについて、kおよびjを同じくする重畳雑音特徴ベク
トルの平均特徴ベクトルを求め、これを音声パワー比ε
kでパワー補正し、付加雑音特徴ベクトルWk(j)とす
る。
【0127】すなわち、まず音声モデルのあるカテゴリ
k(k=1,2,…,K)についてL=1,2,…,Lkとし
た時、gk(L)を同じくする重畳雑音特徴ベクトルU
kfk(L),gk(L),hk(L)の平均特徴ベクトルを求め、ついで
この平均特徴ベクトルの各次元要素を音声パワー比εk
で割ることで得られた特徴ベクトルを付加雑音特徴ベク
トルWk(gk(L))とする。これにより、付加雑音
特徴ベクトル{Wk(j)|j=1,2,…,Jk}(k=
1,2,…,K)が得られる。
【0128】以上の動作により本付加雑音決定手段は、
請求項1の発明になる雑音重畳入力音声とカテゴリkの
音声モデルとの照合手法に基づき、標準音声特徴ベクト
ルに対する付加雑音特徴ベクトルを求める。
【0129】雑音付加手段24は、音声モデルメモリ3
に記憶されている音声モデルの標準音声特徴ベクトル
{Sk(j)|j=1,2,…,Jk}(k=1,2,…,K)
に対し、付加雑音決定手段23の出力である付加雑音特
徴ベクトル{Wk(j)|j=1,2,…,Jk}(k=1,
2,…,K)を用いて、(20)式のように雑音付加標準
音声特徴ベクトル{Yk(j)|j=1,2,…,Jk}
(k=1,2,…,K)を求める。
【0130】
【数20】
【0131】式中のベクトル和は、特徴ベクトルの各次
元要素毎の和により行う。
【0132】類似度演算手段25は、音響分析手段2の
出力であるところの雑音重畳入力音声特徴ベクトル時系
列{X(i)|i=1,2,…,I}と前記雑音付加手段
の出力であるところの雑音付加標準音声特徴ベクトル
{Yk(j)|j=1,2,…,Jk}(k=1,2,…,
K)との類似度D4k(i,j)を(21)式に従い求め
る。
【0133】
【数21】
【0134】式中、d(*,*)は括弧内の2つの自己
相関係数ベクトルの間に定義される類似度で、例えばそ
れぞれの自己相関係数をLPC分析して得られるLPC
ケプストラムベクトルのユークリッド距離の逆数であ
る。
【0135】照合手段6は、前記類似度演算手段25の
出力であるところの類似度データD4k(i,j)(i=
1,2,…,I、j=1,2,…,Jk、k=1,2,…,K)を
入力として、雑音重畳入力音声とカテゴリkの音声モデ
ルとの照合を行い、類似度を最大にする音声モデルのカ
テゴリを認識結果7として出力する。
【0136】以上、請求項4の発明に係わる実施例につ
いて、DPマッチングによる照合を行う場合を例に採り
説明を行ったが、他の実施例の場合と同様に、最適照合
パス決定手段17及び照合手段6における雑音重畳入力
音声と音声モデルとの照合方式はDPマッチングに限定
されるものではなく、例えばHMMによる認識手法を用
いてもかまわない。この場合の音声モデルメモリ3、雑
音モデルメモリ8、類似度演算手段5、最適照合パス決
定手段17については実施例2と同じであるので説明を
省く。
【0137】類似度演算手段25では、HMMの各状態
(もしくは各遷移)における標準音声特徴ベクトルに対
応する雑音付加標準音声特徴ベクトルを用いて、雑音重
畳入力音声特徴ベクトル時系列の各特徴ベクトルが出力
される確率を演算し、類似度データとして出力する。照
合手段6は、類似度演算手段5の出力であるところの類
似度データを用いて、雑音重畳入力音声と各カテゴリの
HMMとの照合を行い、類似度が最大になるHMMのカ
テゴリを認識結果として出力する。この時の照合方式
は、ビタビに限定されない。
【0138】以上、単語認識を例に採りその動作につい
て説明を行ったが、この発明の請求項4に係る実施例
は、他の実施例の場合と同様、認識対象を単語に限定す
るものではなく、音声における他の発声単位を用いても
かまわない。
【0139】また類似度演算手段においても、他の実施
例の場合と同様、特徴ベクトルである自己相関係数から
得られるあらゆる音響パラメータ、例えばLSPパラメ
ータやLPCメルケプストラム係数、声道断面積関数を
用いた類似度や、同じく自己相関係数から得られるパラ
メータを用いたあらゆる距離尺度、例えばLPCメルケ
プストラム係数のユークリッド距離や、WLR距離、W
GD距離尺度、群遅延スペクトル距離、重み付けケプス
トラムのユークリッド距離、またこれらユークリッド距
離の代わりにチェビシェフ距離などを用いた類似度を採
用してもかまわない。
【0140】加えて、音響分析によるところの特徴ベク
トルを自己相関係数のみに限定することなく、他の音響
パラメータを付与した特徴ベクトルを用い、これによる
類似度により照合を行ってもかまわない。
【0141】なお、上記4つの実施例では専用のハード
ウェアにて構成するものを示したが、汎用の計算機は信
号処理プロセッサにおけるソフトウェア処理によって実
現するようにしても良い。
【0142】
【発明の効果】この発明は、以上説明したように構成さ
れているので、以下に記載されるような効果を奏する。
【0143】請求項1の発明においては、雑音重畳入力
音声特徴ベクトル時系列の各特徴ベクトルに対し、音声
モデルメモリに記憶されている音声モデルの標準音声特
徴ベクトルと雑音モデルメモリに記憶されている雑音モ
デルの雑音特徴ベクトルとの全ての組み合わせによるS
N比演算を行い、次いで、このSN比に合わせて標準音
声特徴ベクトルと雑音特徴ベクトルとの合成を行い、得
られた雑音重畳音声特徴ベクトルと該雑音重畳入力音声
特徴ベクトル時系列中の特徴ベクトルとの類似度を求
め、この類似度データを用いて雑音重畳音声と音声モデ
ルとの照合を雑音モデルの制約の下で行っているため、
雑音重畳入力音声における重畳雑音特徴ベクトルとSN
比の推定と、雑音重畳入力音声と音声モデルとの照合が
同時に行われており、重畳雑音およびSN比が大きく変
動するような非定常雑音重畳入力音声に対しても良好な
認識性能が得られる。
【0144】また、請求項2の発明においては、請求項
1の発明における雑音重畳入力音声と音声モデルとの照
合手法に基づき得られる照合パスに従い、雑音重畳入力
音声における入力雑音特徴ベクトル時系列を求め、これ
を用いてパワー正規化音声モデルと雑音重畳入力音声と
の雑音適応化類似度演算を行い再照合を行っているの
で、重畳雑音およびSN比が大きく変動するような非定
常雑音重畳入力音声に対しても良好な認識性能が得られ
る。
【0145】また、請求項3の発明においては、請求項
1の発明における雑音重畳入力音声と音声モデルとの照
合手法に基づき得られる照合パスに従い、雑音重畳入力
音声における入力雑音特徴ベクトル時系列を求め、該入
力雑音特徴ベクトル時系列による雑音除去処理を施した
雑音重畳入力音声と音声モデルとの類似度演算を行い再
照合を行っているので、重畳雑音及びSN比が大きく変
動するような非定常雑音重畳入力音声に対しても良好な
認識性能が得られる。
【0146】また、請求項4の発明においては、請求項
1の発明における雑音重畳入力音声と音声モデルとの照
合手法に基づき得られる照合パスに従い、音声モデルの
標準音声特徴ベクトルに付加する雑音特徴ベクトルを求
め、該雑音特徴ベクトルを付加した音声モデルと雑音重
畳入力音声との類似度演算を行い再照合をしているの
で、重畳雑音およびSN比が大きく変動するような非定
常雑音重畳入力音声に対しても良好な認識性能が得られ
る。
【図面の簡単な説明】
【図1】この発明の実施例1による音声認識装置を示す
ブロック図である。
【図2】この発明の実施例2による音声認識装置を示す
ブロック図である。
【図3】この発明の実施例3による音声認識装置を示す
ブロック図である。
【図4】この発明の実施例4による音声認識装置を示す
ブロック図である。
【図5】従来の音声認識装置を示すブロック図である。
【符号の説明】
1 入力端 2 音響分析手段 3 音声モデルメモリ 5 類似度演算手段 6 照合手段 7 認識結果 8 雑音モデルメモリ 9 線形予測分析手段 10 最尤パラメータメモリ 11 音声残差パワーメモリ 12 雑音残差演算手段 13 雑音残差パワーメモリ 14 残差パワー演算手段 15 SN比演算手段 16 特徴ベクトル合成手段 17 最適照合パス決定手段 18 重畳雑音生成手段 19 重畳雑音決定手段 20 パワー比決定手段 21 雑音適応化類似度演算手段 22 雑音除去類似度演算手段 23 付加雑音決定手段 24 雑音付加手段 25 類似度演算手段

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 相異なる音声を表現する音声モデルを持
    ち、未知入力音声と前記音声モデルとの照合により音声
    認識を行う音声認識装置において、雑音が重畳した未知
    入力音声信号に対し設定される複数個の分析フレームの
    各々について音響分析を行い雑音重畳入力音声特徴ベク
    トル時系列を出力する音響分析手段と、音声信号に重畳
    する雑音の特徴ベクトル時系列を表現する雑音モデルを
    記憶する雑音モデルメモリと、標準音声の特徴ベクトル
    時系列を表現する音声モデルを記憶する音声モデルメモ
    リと、音声モデルメモリに記憶されている音声モデルの
    標準音声特徴ベクトルに対し線形予測分析を行い最尤パ
    ラメータと標準音声残差パワーを求める線形予測分析手
    段と、線形予測分析手段の出力であるところの最尤パラ
    メータを記憶する最尤パラメータメモリと、同じく線形
    予測分析手段の出力であるところの標準音声残差パワー
    を記憶する音声残差パワーメモリと、雑音モデルメモリ
    に記憶されている雑音モデルの雑音特徴ベクトルを入力
    として最尤パラメータメモリ上の最尤パラメータとの積
    和演算を行い雑音残差パワーを求める雑音残差演算手段
    と、雑音残差演算手段の出力であるところの雑音残差パ
    ワーを記憶する雑音残差パワーメモリと、音響分析手段
    の出力であるところの雑音重畳入力音声特徴ベクトル時
    系列の各特徴ベクトルに対し最尤パラメータメモリ上の
    最尤パラメータとの積和演算を行い雑音重畳入力音声残
    差パワーを求める残差パワー演算手段と、残差パワー演
    算手段の出力であるところの雑音重畳入力音声残差パワ
    ーと音声残差パワーメモリ上の標準音声残差パワーと雑
    音残差パワーメモリ上の雑音残差パワーとを用いて雑音
    重畳入力音声のSN比を求めるSN比演算手段と、SN
    比演算手段の出力であるところのSN比に従い音声モデ
    ルメモリ上の標準音声特徴ベクトルと雑音モデルメモリ
    上の雑音特徴ベクトルの合成を行い雑音重畳音声特徴ベ
    クトルを生成する特徴ベクトル合成手段と、音響分析手
    段の出力である雑音重畳入力音声特徴ベクトル時系列の
    各特徴ベクトルに対し特徴ベクトル合成手段の出力であ
    る雑音重畳音声特徴ベクトルとの類似度を演算する類似
    度演算手段と、類似度演算手段の出力であるところの類
    似度データを用いて照合処理を行い認識結果を出力する
    照合手段を備えたことを特徴とする音声認識装置。
  2. 【請求項2】 相異なる音声を表現する音声モデルを持
    ち、未知入力音声と前記音声モデルとの照合により音声
    認識を行う音声認識装置において、雑音が重畳した未知
    入力音声信号に対し設定される複数個の分析フレームの
    各々について音響分析を行い雑音重畳入力音声特徴ベク
    トル時系列を出力する音響分析手段と、音声信号に重畳
    する雑音の特徴ベクトル時系列を表現する雑音モデルを
    記憶する雑音モデルメモリと、標準音声の特徴ベクトル
    時系列を表現する音声モデルを記憶する音声モデルメモ
    リと、音声モデルメモリに記憶されている音声モデルの
    標準音声特徴ベクトルに対し線形予測分析を行い最尤パ
    ラメータと標準音声残差パワーを求める線形予測分析手
    段と、線形予測分析手段の出力であるところの最尤パラ
    メータを記憶する最尤パラメータメモリと、同じく線形
    予測分析手段の出力であるところの標準音声残差パワー
    を記憶する音声残差パワーメモリと、雑音モデルメモリ
    に記憶されている雑音モデルの雑音特徴ベクトルを入力
    として最尤パラメータメモリ上の最尤パラメータとの積
    和演算を行い雑音残差パワーを求める雑音残差演算手段
    と、雑音残差演算手段の出力であるところの雑音残差パ
    ワーを記憶する雑音残差パワーメモリと、音響分析手段
    の出力であるところの雑音重畳入力音声特徴ベクトル時
    系列の各特徴ベクトルに対し最尤パラメータメモリ上の
    最尤パラメータとの積和演算を行い雑音重畳入力音声残
    差パワーを求める残差パワー演算手段と、残差パワー演
    算手段の出力であるところの雑音重畳入力音声残差パワ
    ーと音声残差パワーメモリ上の標準音声残差パワーと雑
    音残差パワーメモリ上の雑音残差パワーとを用いて雑音
    重畳入力音声のSN比を求めるSN比演算手段と、SN
    比演算手段の出力であるところのSN比に従い音声モデ
    ルメモリ上の標準音声特徴ベクトルと雑音モデルメモリ
    上の雑音特徴ベクトルの合成を行い雑音重畳音声特徴ベ
    クトルを生成する特徴ベクトル合成手段と、音響分析手
    段の出力である雑音重畳入力音声特徴ベクトル時系列の
    各特徴ベクトルに対し特徴ベクトル合成手段の出力であ
    る雑音重畳音声特徴ベクトルとの類似度を演算する類似
    度演算手段と、類似度演算手段の出力であるところの類
    似度データを入力として音声モデルと雑音重畳入力音声
    特徴ベクトル時系列との最適照合パスを求める最適照合
    パス決定手段と、音響分析手段の出力である雑音重畳入
    力音声特徴ベクトル時系列における各特徴ベクトルに対
    しSN比演算手段の出力であるSN比と雑音モデルメモ
    リ上の雑音特徴ベクトルとを用いて重畳雑音特徴ベクト
    ルを生成する重畳雑音生成手段と、最適照合パス決定手
    段の出力であるところの照合パスデータと重畳雑音生成
    手段の出力であるところの重畳雑音特徴ベクトルとを用
    いて入力雑音特徴ベクトル時系列を求める重畳雑音決定
    手段と、SN比演算手段の出力であるところのSN比と
    音響分析手段の出力であるところの雑音重畳入力音声特
    徴ベクトル時系列と音声モデルメモリ上の標準音声特徴
    ベクトルと最適照合パス決定手段の出力であるところの
    照合パスデータとを入力として音声パワー比を求めるパ
    ワー比決定手段と、音響分析手段の出力であるところの
    雑音重畳入力音声特徴ベクトル時系列と音声モデルメモ
    リ上の標準音声特徴ベクトルと重畳雑音決定手段の出力
    であるところの入力雑音特徴ベクトル時系列とパワー比
    決定手段の出力であるところの音声パワー比とを入力と
    して雑音重畳入力音声特徴ベクトル時系列の各特徴ベク
    トルと音声モデルメモリ上の標準音声特徴ベクトルとの
    雑音適応化類似度を演算する雑音適応化類似度演算手段
    と、雑音適応化類似度演算手段の出力であるところの雑
    音適応化類似度データを用いて照合を行い認識結果を出
    力する照合手段を備えたことを特徴とする音声認識装
    置。
  3. 【請求項3】 相異なる音声を表現する音声モデルを持
    ち、未知入力音声と前記音声モデルとの照合により音声
    認識を行う音声認識装置において、雑音が重畳した未知
    入力音声信号に対し設定される複数個の分析フレームの
    各々について音響分析を行い雑音重畳入力音声特徴ベク
    トル時系列を出力する音響分析手段と、音声信号に重畳
    する雑音の特徴ベクトル時系列を表現する雑音モデルを
    記憶する雑音モデルメモリと、標準音声の特徴ベクトル
    時系列を表現する音声モデルを記憶する音声モデルメモ
    リと、音声モデルメモリに記憶されている音声モデルの
    標準音声特徴ベクトルに対し線形予測分析を行い最尤パ
    ラメータと標準音声残差パワーを求める線形予測分析手
    段と、線形予測分析手段の出力であるところの最尤パラ
    メータを記憶する最尤パラメータメモリと、同じく線形
    予測分析手段の出力であるところの標準音声残差パワー
    を記憶する音声残差パワーメモリと、雑音モデルメモリ
    に記憶されている雑音モデルの雑音特徴ベクトルを入力
    として最尤パラメータメモリ上の最尤パラメータとの積
    和演算を行い雑音残差パワーを求める雑音残差演算手段
    と、雑音残差演算手段の出力であるところの雑音残差パ
    ワーを記憶する雑音残差パワーメモリと、音響分析手段
    の出力であるところの雑音重畳入力音声特徴ベクトル時
    系列の各特徴ベクトルに対し最尤パラメータメモリ上の
    最尤パラメータとの積和演算を行い雑音重畳入力音声残
    差パワーを求める残差パワー演算手段と、残差パワー演
    算手段の出力であるところの雑音重畳入力音声残差パワ
    ーと音声残差パワーメモリ上の標準音声残差パワーと雑
    音残差パワーメモリ上の雑音残差パワーとを用いて雑音
    重畳入力音声のSN比を求めるSN比演算手段と、SN
    比演算手段の出力であるところのSN比に従い音声モデ
    ルメモリ上の標準音声特徴ベクトルと雑音モデルメモリ
    上の雑音特徴ベクトルの合成を行い雑音重畳音声特徴ベ
    クトルを生成する特徴ベクトル合成手段と、音響分析手
    段の出力である雑音重畳入力音声特徴ベクトル時系列の
    各特徴ベクトルに対し特徴ベクトル合成手段の出力であ
    る雑音重畳音声特徴ベクトルとの類似度を演算する類似
    度演算手段と、類似度演算手段の出力であるところの類
    似度データを入力として音声モデルと雑音重畳入力音声
    特徴ベクトル時系列との最適照合パスを求める最適照合
    パス決定手段と、音響分析手段の出力である雑音重畳入
    力音声特徴ベクトル時系列における各特徴ベクトルに対
    しSN比演算手段の出力であるSN比と雑音モデルメモ
    リ上の雑音特徴ベクトルとを用いて重畳雑音特徴ベクト
    ルを生成する重畳雑音生成手段と、最適照合パス決定手
    段の出力であるところの照合パスデータと重畳雑音生成
    手段の出力であるところの重畳雑音特徴ベクトルとを用
    いて入力雑音特徴ベクトル時系列を求める重畳雑音決定
    手段と、音響分析手段の出力であるところの雑音重畳入
    力音声特徴ベクトル時系列と音声モデルメモリ上の標準
    音声特徴ベクトルと重畳雑音決定手段の出力であるとこ
    ろの入力雑音特徴ベクトル時系列とを入力として雑音重
    畳入力音声特徴ベクトル時系列の各特徴ベクトルと音声
    モデルメモリ上の標準音声特徴ベクトルとの雑音除去類
    似度を演算する雑音除去類似度演算手段と、雑音除去類
    似度演算手段の出力であるところの雑音適応化類似度デ
    ータを用いて照合を行い認識結果を出力する照合手段を
    備えたことを特徴とする音声認識装置。
  4. 【請求項4】 相異なる音声を表現する音声モデルを持
    ち、未知入力音声と前記音声モデルとの照合により音声
    認識を行う音声認識装置において、雑音が重畳した未知
    入力音声信号に対し設定される複数個の分析フレームの
    各々について音響分析を行い雑音重畳入力音声特徴ベク
    トル時系列を出力する音響分析手段と、音声信号に重畳
    する雑音の特徴ベクトル時系列を表現する雑音モデルを
    記憶する雑音モデルメモリと、標準音声の特徴ベクトル
    時系列を表現する音声モデルを記憶する音声モデルメモ
    リと、音声モデルメモリに記憶されている音声モデルの
    標準音声特徴ベクトルに対し線形予測分析を行い最尤パ
    ラメータと標準音声残差パワーを求める線形予測分析手
    段と、線形予測分析手段の出力であるところの最尤パラ
    メータを記憶する最尤パラメータメモリと、同じく線形
    予測分析手段の出力であるところの標準音声残差パワー
    を記憶する音声残差パワーメモリと、雑音モデルメモリ
    上の雑音特徴ベクトルを入力として最尤パラメータメモ
    リ上の最尤パラメータとの積和演算を行い雑音残差パワ
    ーを求める雑音残差演算手段と、雑音残差演算手段の出
    力であるところの雑音残差パワーを記憶する雑音残差パ
    ワーメモリと、音響分析手段の出力であるところの雑音
    重畳入力音声特徴ベクトル時系列の各特徴ベクトルに対
    し最尤パラメータメモリ上の最尤パラメータとの積和演
    算を行い雑音重畳入力音声残差パワーを求める残差パワ
    ー演算手段と、残差パワー演算手段の出力であるところ
    の雑音重畳入力音声残差パワーと音声残差パワーメモリ
    上の標準音声残差パワーと雑音残差パワーメモリ上の雑
    音残差パワーとを用いて雑音重畳入力音声のSN比を求
    めるSN比演算手段と、SN比演算手段の出力であると
    ころのSN比に従い音声モデルメモリ上の標準音声特徴
    ベクトルと雑音モデルメモリ上の雑音特徴ベクトルの合
    成を行い雑音重畳音声特徴ベクトルを生成する特徴ベク
    トル合成手段と、音響分析手段の出力である雑音重畳入
    力音声特徴ベクトル時系列の各特徴ベクトルに対し特徴
    ベクトル合成手段の出力である雑音重畳音声特徴ベクト
    ルとの類似度を演算する類似度演算手段と、類似度演算
    手段の出力であるところの類似度データを入力として音
    声モデルと雑音重畳入力音声特徴ベクトル時系列との最
    適照合パスを求める最適照合パス決定手段と、SN比演
    算手段の出力であるところのSN比と音響分析手段の出
    力であるところの雑音重畳入力音声特徴ベクトル時系列
    と音声モデルメモリ上の標準音声特徴ベクトルと最適照
    合パス決定手段の出力であるところの照合パスデータと
    を入力として音声パワー比を求めるパワー比決定手段
    と、音響分析手段の出力である雑音重畳入力音声特徴ベ
    クトル時系列における各特徴ベクトルに対しSN比演算
    手段の出力であるSN比と雑音モデルメモリ上の雑音特
    徴ベクトルとを用いて重畳雑音特徴ベクトルを生成する
    重畳雑音生成手段と、最適照合パス決定手段の出力であ
    るところの照合パスデータと重畳雑音生成手段の出力で
    あるところの重畳雑音特徴ベクトルとパワー比決定手段
    の出力であるところの音声パワー比とを用いて付加雑音
    特徴ベクトルを求める付加雑音決定手段と、付加雑音決
    定手段の出力であるところの付加雑音特徴ベクトルと音
    声モデルメモリ上の標準音声特徴ベクトルを入力として
    雑音付加標準音声特徴ベクトルを求める雑音付加手段
    と、音響分析手段の出力であるところの雑音重畳入力音
    声特徴ベクトル時系列と雑音付加手段の出力であるとこ
    ろの雑音付加標準音声特徴ベクトルとの類似度を演算す
    る類似度演算手段と、類似度演算手段の出力であるとこ
    ろの類似度データを用いて照合を行い認識結果を出力す
    る照合手段を備えたことを特徴とする音声認識装置。
JP05077025A 1993-04-02 1993-04-02 音声認識装置 Expired - Fee Related JP3102195B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05077025A JP3102195B2 (ja) 1993-04-02 1993-04-02 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05077025A JP3102195B2 (ja) 1993-04-02 1993-04-02 音声認識装置

Publications (2)

Publication Number Publication Date
JPH06289891A true JPH06289891A (ja) 1994-10-18
JP3102195B2 JP3102195B2 (ja) 2000-10-23

Family

ID=13622214

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05077025A Expired - Fee Related JP3102195B2 (ja) 1993-04-02 1993-04-02 音声認識装置

Country Status (1)

Country Link
JP (1) JP3102195B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366192A (ja) * 2001-06-08 2002-12-20 Nec Corp 音声認識方法及び音声認識装置
JP2003504653A (ja) * 1999-07-01 2003-02-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ノイズのある音声モデルからのロバスト音声処理
JP2004325897A (ja) * 2003-04-25 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法
JP2005062890A (ja) * 2003-08-19 2005-03-10 Microsoft Corp クリーン信号確率変数の推定値を識別する方法
KR100468817B1 (ko) * 1997-02-17 2005-05-16 삼성전자주식회사 잡음 처리 기능을 갖춘 음성 인식 장치 및 음성 인식 방법
JP2012504250A (ja) * 2008-09-29 2012-02-16 株式会社東芝 音声認識方法
KR20170030923A (ko) * 2015-09-10 2017-03-20 삼성전자주식회사 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
CN114173258A (zh) * 2022-02-07 2022-03-11 深圳市朗琴音响技术有限公司 智能音箱控制方法及智能音箱

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4217596B2 (ja) 2003-12-05 2009-02-04 アルプス電気株式会社 アンテナ一体型モジュール

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100468817B1 (ko) * 1997-02-17 2005-05-16 삼성전자주식회사 잡음 처리 기능을 갖춘 음성 인식 장치 및 음성 인식 방법
JP2003504653A (ja) * 1999-07-01 2003-02-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ノイズのある音声モデルからのロバスト音声処理
JP4818556B2 (ja) * 1999-07-01 2011-11-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 確率論的ロバスト音声処理
JP2002366192A (ja) * 2001-06-08 2002-12-20 Nec Corp 音声認識方法及び音声認識装置
JP2004325897A (ja) * 2003-04-25 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法
JP2005062890A (ja) * 2003-08-19 2005-03-10 Microsoft Corp クリーン信号確率変数の推定値を識別する方法
JP2012504250A (ja) * 2008-09-29 2012-02-16 株式会社東芝 音声認識方法
KR20170030923A (ko) * 2015-09-10 2017-03-20 삼성전자주식회사 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
CN106531155A (zh) * 2015-09-10 2017-03-22 三星电子株式会社 生成声学模型的设备和方法和用于语音识别的设备和方法
CN114173258A (zh) * 2022-02-07 2022-03-11 深圳市朗琴音响技术有限公司 智能音箱控制方法及智能音箱

Also Published As

Publication number Publication date
JP3102195B2 (ja) 2000-10-23

Similar Documents

Publication Publication Date Title
JP3452443B2 (ja) 騒音下音声認識装置及び騒音下音声認識方法
JP4218982B2 (ja) 音声処理
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
US5903863A (en) Method of partitioning a sequence of data frames
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
JPH075892A (ja) 音声認識方法
JP2001517325A (ja) 認識システム
JPH09160584A (ja) 音声適応化装置および音声認識装置
JP2004325897A (ja) 音声認識装置及び音声認識方法
US5943647A (en) Speech recognition based on HMMs
JP2005078077A (ja) 非線形予測子およびターゲットによって案内される時間的制約を使用して声道共鳴を追跡する方法および装置
US20050010406A1 (en) Speech recognition apparatus, method and computer program product
JP3102195B2 (ja) 音声認識装置
Wu et al. Speaker identification based on the frame linear predictive coding spectrum technique
JPH10149191A (ja) モデル適応方法、装置およびその記憶媒体
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
Shinozaki et al. Hidden mode HMM using bayesian network for modeling speaking rate fluctuation
JPH10254473A (ja) 音声変換方法及び音声変換装置
JPH07121197A (ja) 学習式音声認識方法
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体
JP2002091480A (ja) 音響モデル生成装置及び音声認識装置
JP2002372982A (ja) 音響信号分析方法及び装置
Ogawa et al. Improved Example-Based Speech Enhancement by Using Deep Neural Network Acoustic Model for Noise Robust Example Search.
JP3256979B2 (ja) 音響モデルの入力音声に対する尤度を求める方法
JP3589508B2 (ja) 話者適応音声認識方法および話者適応音声認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070825

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080825

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees