JP3790155B2 - 音声認識装置、音声認識方式及び音声認識プログラム - Google Patents

音声認識装置、音声認識方式及び音声認識プログラム Download PDF

Info

Publication number
JP3790155B2
JP3790155B2 JP2001376615A JP2001376615A JP3790155B2 JP 3790155 B2 JP3790155 B2 JP 3790155B2 JP 2001376615 A JP2001376615 A JP 2001376615A JP 2001376615 A JP2001376615 A JP 2001376615A JP 3790155 B2 JP3790155 B2 JP 3790155B2
Authority
JP
Japan
Prior art keywords
likelihood
feature vector
time series
vector time
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001376615A
Other languages
English (en)
Other versions
JP2003177783A (ja
Inventor
優 酒井
皇 天田
三慶 舘森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2001376615A priority Critical patent/JP3790155B2/ja
Publication of JP2003177783A publication Critical patent/JP2003177783A/ja
Application granted granted Critical
Publication of JP3790155B2 publication Critical patent/JP3790155B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は不特定話者および不特定環境における良好な音声認識性能を提供する音声認識装置、音声認識方法及び音声認識プログラムに関する。
【0002】
【従来の技術】
音声認識装置、特に不特定話者および不特定環境における音声認識装置においては学習時と認識時の話者および環境が異なることによる変動があるため、認識時に認識性能が低下することがある。ここで、話者および環境が異なることによる変動の要因として、音声入力に用いられるマイクの種類や設置位置の違いによる影響、アナログ回路の伝達特性による影響、話者の声道長の違いによる話者性の影響、マイクから話者までの距離による影響等が挙げられる。
【0003】
これらの影響により音声の周波数特徴に乗算的な変動(乗算性ノイズ)が生ずる。音声の周波数特徴を用いる音声認識装置においては、認識時に乗算性ノイズが生ずることにより学習時の音声に対して認識時の音声が変動してしまうため認識性能が低下する。
【0004】
そのような乗算性ノイズを除去するための手法としてCMN(Cepstral Mean Normalization・ケプストラム平均値正規化)法が知られている。CMN法は音声の周波数領域における乗算性ノイズを周波数スペクトルパワーの対数を逆フーリエ変換して得られるケプストラム(Cepstrum)領域における加算性ノイズとみなして除去するという手法である。
【0005】
ここで、音声の周波数領域における乗算性ノイズは周波数スペクトルパワーの対数をとった領域における加算性ノイズとみなすことができるため、ケプストラムに限らず周波数スペクトルパワーの対数を音声の特徴として用いる場合にも、CMN法は同様に適用可能であり乗算性ノイズの除去に効果がある。
【0006】
次に、CMN法を用いた従来の音声認識装置の概要を図9を用いて説明する。
【0007】
図9の音声認識装置は入力された音声を例えば数10msecのフレーム毎に切り出して周波数分析を行い特徴ベクトル時系列(ここではケプストラムの時系列とする)C(t)(t=1...T)に変換し出力する音声分析部41と、特徴ベクトル時系列C(t)の任意の区間内の平均値CMを求める平均値導出部42と、この平均値導出部42で求めた平均値CMを記憶する平均値記憶部43と、特徴ベクトル時系列C(t)から平均値CMを減算することで特徴ベクトル時系列を補正する補正部44と、補正後の特徴ベクトル時系列Cr(t)を用いて音声標準パターン部45-1に記憶された音声標準パターンに対する尤度Uo(t)を計算する尤度計算部45と、前述の尤度Uo(t)に基づいて音声認識を行う認識処理部46を備えて構成される。
【0008】
図9の平均値導出部43において平均値CMは以下の式(1)で求める。なお、以下の式(1)では、平均値を求める区間として入力音声の全区間(t=1...T)を用いる場合を例として挙げているが音声入力中の任意の区間を設定する場合もある。
【0009】
【数1】
Figure 0003790155
【0010】
また、図9の補正部44では以下の式(2)に示すように、特徴ベクトル時系列C(t)から平均値CMを減算することで、補正後の特徴ベクトル時系列Cr(t)を求めて出力する。
【0011】
Cr(t) = C(t)−CM … (2)
ここで、前述の式(1)および式(2)で示される特徴ベクトル時系列の平均値を求めて、その平均値を特徴ベクトル時系列から減算するまでの処理をCMN法と呼ぶ。
【0012】
周波数領域における乗算性ノイズは、ケプストラム領域においては加算性ノイズとして現れる。したがって、前述の式(1)で求められる平均値CMは周波数領域における乗算性ノイズのケプストラム領域における推定値と見なすことができる。このことから、前述の式(2)の演算によって周波数領域における乗算性ノイズを特徴ベクトル時系列から除去することが可能となる。
【0013】
尤度計算部45において乗算性ノイズを除去した特徴ベクトル時系列C(t)に対する音声標準パターンの尤度Uo(t)を出力し、認識処理部46において尤度Uo(t)に基づき認識処理を行い認識結果を出力する。この結果、乗算性ノイズを除去でき認識時の音声の変動を抑えることができるため、良好な認識性能が得られる。
【0014】
しかし、前述の式(1)では入力音声の全区間から平均値CMを求めているために、平均値CMの値は入力音声中の発声に含まれる音素の影響を受ける。
【0015】
一般に音声認識装置を使用する場面においては、各発声に含まれる音素は発声の内容に応じて変化する。そのため入力音声に含まれる乗算性ノイズによらず、各発声の内容に応じて平均値CMの値が変動してしまい、乗算性ノイズの正しい推定値が求めることができない。この結果、CMN法による特徴ベクトル時系列の補正を正しく行うことができず、認識性能が低下してしまう。
【0016】
上記を解決する方法として、入力音声中の発声区間と非発声区間とを判別し、非発声区間内の平均値をCMとする方法が考えられる。このようにして求められた平均値CMは音素の影響を受けないため、乗算性ノイズの正しい推定値となることが期待できる。
【0017】
しかし、平均値CMを求める区間が十分に長くとれない場合には、平均値CMを求めるために用いる特徴ベクトル系列C(t)のサンプル数が少なくなり、平均値CMによる乗算性ノイズの推定精度は低下する。その結果、CMN法による特徴ベクトル時系列の補正を正しく行うことができず、やはり認識性能が低下してしまう。
【0018】
乗算性ノイズの安定した推定のためには、平均値CMを求める区間を十分に長くとることが望ましい。しかし、不特定話者および不特定環境における音声認識装置では話者および環境が変化する毎に乗算性ノイズを推定し直さなければならないが、話者および環境が頻繁に変化するような状況では、乗算性ノイズの安定した推定のための十分に長い区間がとれない場合がある。
【0019】
例えば、ある話者Aが音声認識装置の近くから短い発声を音声認識装置に入力した直後に別の話者Bが音声認識装置から離れた場所から短い発声を音声認識装置に入力したような場合には、話者Aおよび話者Bそれぞれの短い入力音声(発声)からだけで新たに平均値CMを求め直さなければならない。このように短い区間から求められた平均値CMでは乗算性ノイズの安定した推定を行えないのは前述の通りである。
【0020】
ここで、CMN法とは別に様々な乗算性ノイズを含む音声データを大量に用意することである程度良好な音声認識性能を得ることもできる。例えば、大量の話者の発声をマイク、マイク位置、マイクからの距離及び外部環境などの条件を変化させて収録し、収録された音声を学習に用いることで乗算性ノイズを除去しなくとも認識時の話者やマイク及びマイクからの距離・環境などの条件によらずある程度良好な認識性能を得ることができる。
【0021】
しかし、認識時に現れる話者および環境の特徴を全て備えた学習データの集合を用意することは事実上不可能なため、この方法による認識性能の向上には限界がある。
【0022】
このとき、前述のように収録された音声データに対して学習時や認識時ともにCMN法による乗算性ノイズの除去を行うことで、より良好な認識性能が得られる。ただし前述の通り、不特定話者および不特定環境における音声認識装置では、常に安定した乗算性ノイズの推定が行えるとは限らないため乗算性ノイズの推定がうまくいかない場合には、特徴ベクトル時系列の補正を正しく行うことができず、不適切な補正が行われてしまうために認識性能が低下してしまう。
【0023】
【発明が解決しようとする課題】
上述したように、従来は音素の影響を排除して乗算性ノイズを推定するためには推定する区間を短くする必要があったが、この場合には乗算性ノイズの十分な推定を行えない場合がある。
【0024】
このような問題を解決するために、本発明は乗算性ノイズの安定な推定が行えない場合にも良好な音声認識性能を提供するための音声認識装置、音声認識方法及び音声認識プログラムを提供することを目的とする。
【0025】
【課題を解決するための手段】
上記目的を達成するために、本発明の音声認識装置では、入力された音声信号をフレーム毎に切り出して対数スペクトルパワーのケプストラムによる特徴ベクトル時系列に変換する音声分析部と、この音声分析部から出力された前記特徴ベクトル時系列の任意の区間内での平均値を求める平均値導出部と、この平均値導出部で求められた前記平均値を記憶する平均値記憶部と、この平均値記憶部で記憶された前記平均値を前記特徴ベクトル時系列からフレーム毎に減算することで前記特徴ベクトル時系列を補正する補正部と、前記音声分析部から出力された補正前の特徴ベクトル時系列を用いて補正前音声標準パターンに対する尤度を計算する補正前尤度計算部と、前記補正部から出力された補正後の特徴ベクトル時系列を用いて補正後音声標準パターンに対する尤度を計算する補正後尤度計算部と、前記補正前尤度計算部から出力される尤度と前記補正後尤度計算部から出力される尤度とを合成する尤度合成部と、この尤度合成部から出力される尤度に基づいて音声認識を行う認識処理部とを備えることを特徴とする。
【0026】
また、本発明の音声認識方法では、入力された音声信号をフレーム毎に切り出して対数スペクトルパワーのケプストラムによる特徴ベクトル時系列に変換するステップと、前記特徴ベクトル時系列の任意の区間内での平均値を求めるステップと、前記平均値を記憶するステップと、記憶された前記平均値を前記特徴ベクトル時系列からフレーム毎に減算することで前記特徴ベクトル時系列を補正するステップと、補正前の特徴ベクトル時系列を用いて補正前音声標準パターンに対する尤度を計算するステップと、補正後の特徴ベクトル時系列を用いて補正後音声標準パターンに対する尤度を計算するステップと、前記補正前の特徴ベクトル時系列に対する尤度および前記補正後の特徴ベクトルに対する尤度とを合成するステップと、前記合成された尤度に基づいて音声認識を行うステップとを含むことを特徴とする。
【0027】
また、本発明の音声認識プログラムでは、入力された音声を認識しその認識結果を出力する音声認識プログラムにおいて、入力された音声信号をフレーム毎に切り出して対数スペクトルパワーのケプストラムによる特徴ベクトル時系列に変換し、前記特徴ベクトル時系列の任意の区間内での平均値を求め、前記平均値を記憶し、記憶された前記平均値を前記特徴ベクトル時系列からフレーム毎に減算することで特徴ベクトル時系列を補正し、補正前の特徴ベクトル時系列を用いて補正前音声標準パターンに対する尤度を計算し、補正後の特徴ベクトル時系列を用いて補正後音声標準パターンに対する尤度を計算し、前記補正前の特徴ベクトル時系列に対する尤度および前記補正後の特徴ベクトルに対する尤度とを合成し、前記合成された尤度に基づいて音声認識を行う機能を実現することを特徴とする。
【0028】
これらの発明では、補正前尤度計算部から出力される尤度と補正後尤度計算部から出力される尤度とを尤度合成部にて合成し、この尤度合成部から出力される尤度に基づき認識処理を行うことで上記の課題を解決する。乗算性ノイズの安定な推定が行える場合には、乗算性ノイズの除去を正しく行えるため乗算性ノイズを除去した補正後特徴ベクトル時系列に対する補正後音声標準パターンの尤度を正しく求めることができ、CMN法により良好な認識性能が得られる。
【0029】
逆に、乗算性ノイズの安定な推定が行えない場合には、乗算性ノイズの除去が正しく行えないため補正後特徴ベクトル時系列に対する補正後音声標準パターンの尤度を正しく求めることができなくなるが、補正前の特徴ベクトル時系列に対する補正前音声標準パターンの尤度は乗算性ノイズの推定の精度によらず常に正しい値を求めることができるため、補正前尤度計算部から出力される尤度と補正後尤度計算部から出力される尤度とを尤度合成部において合成した尤度に基づいて認識処理を行うことで、性能低下を抑えることができる。
【0033】
また、本発明の音声認識装置又は音声認識方法では、補正前尤度計算出力および補正後尤度計算出力にあらかじめ重み付けを行ってから合成を行うことを特徴とする。
【0034】
これらの発明では乗算性ノイズの推定が安定して行われている場合には、乗算性ノイズを除去した補正後の特徴ベクトル時系列に対する補正後音声標準パターンの尤度が正しく求められるため、補正後尤度計算部の出力の重みを増すことで、重み無しの場合に比べてCMN法の効果を大きく働かせることができ、認識性能の低下を抑えることができる。
【0035】
逆に、乗算性ノイズの推定が安定して行われない場合には、乗算性ノイズの推定が正しく行われないため、補正後の特徴ベクトル時系列に対する補正後音声標準パターンの尤度を正しく求めることができなくなるが、補正前の特徴ベクトル時系列に対する補正前音声標準パターンの尤度は乗算性ノイズの推定の精度によらず常に正しい値を求めることができるため、補正前尤度計算部の出力の重みを増すことで、認識性能の低下を抑えることができる。
【0036】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して詳細に説明する。
(第1実施形態)
図1は本発明の音声認識装置に係る第1の実施形態を説明するブロック図であり、図2はその動作を示したフロー図である。
【0037】
図1において、入力された音声信号をフレーム毎に切り出して特徴ベクトル時系列に変換する音声分析部11と、前記の音声分析部から出力された特徴ベクトル時系列の任意の区間内での平均値を求める平均値導出部12と、この平均値導出部で求めた平均値を記憶する平均値記憶部13と、前記の平均値記憶部に記憶された平均値を特徴ベクトル時系列からフレーム毎に減算することで特徴ベクトル時系列を補正する補正部14と、前記の音声分析部から出力された補正前の特徴ベクトル時系列を用いて補正前音声標準パターン部15-1に記憶されている補正前音声標準パターンに対する尤度を計算する補正前尤度計算部15と、前記の補正部から出力された補正後の特徴ベクトル時系列を用いて補正後音声標準パターン部16-1に記憶されている補正後音声標準パターンに対する尤度を計算する補正後尤度計算部16と、前記の補正前尤度計算部15の出力および前記の補正後尤度計算部16の出力とを合成する尤度合成部17と、尤度合成部17から出力される尤度に基づいて音声認識を行う認識処理部18を備える。
【0038】
本実形態では音声データに対して、乗算性雑音を除去せずに求める補正前の特徴ベクトル時系列と乗算性雑音を除去して求める補正後の特徴ベクトル時系列を用意し、この両方を併用して学習を行う。すなわち、補正前の特徴ベクトル時系列を用いて補正前音声標準パターンを学習し、補正後の特徴ベクトル時系列を用いて補正後音声標準パターンを学習する。
【0039】
また、認識時には学習時と同様に入力音声に対して補正前の特徴ベクトル時系列と補正後の特徴ベクトル時系列を求めてこの両者を併用して認識処理を行うものである。
【0040】
次に図2のフロー図を用いてその動作を説明する。
【0041】
認識時にはまず、音声分析部11において入力音声をフレーム毎に切り出して周波数分析およびケプストラムへの変換を行い、特徴ベクトル時系列C(t)(t=1...T)を出力する(step11)。ここで本実施形態では、特徴ベクトル時系列としてケプストラムの時系列を用いているが、周波数スペクトルの対数に基づく任意の特徴量を用いることもできる。
【0042】
次に、平均値導出部12において、入力音声の全区間(t=1...T)を平均値を求める区間とし、以下の式(3)で平均値CMを求める(step12)。
【0043】
【数2】
Figure 0003790155
【0044】
ここで、この実施形態では入力音声の全区間を平均値を求める区間として用いたが、入力音声中の任意の区間を用いても良い。
【0045】
次に、平均値記憶部13において平均値導出部12から出力される平均値CMを記憶する(step13)。
【0046】
次に、補正部14において、以下の式(4)で補正後の特徴ベクトル時系列Cr(t)を求める(step14)。
【0047】
Cr(t) = C(t) - CM … (4)
次に、補正前の特徴ベクトル時系列C(t)に対する補正前音声標準パターンの尤度Ui(t)を補正前尤度計算部15で求め(step15)、補正後の特徴ベクトル時系列Cr(t)に対する補正後音声標準パターンの尤度Ur(t)を補正後尤度計算部16で求める(step16)。
【0048】
次に、尤度合成部16において尤度Ui(t)および尤度Ur(t)を以下の式(5)で合成し、尤度Uo(t)を求める(step17)。
【0049】
Uo(t) = Ui(t) + Ur(t) … (5)
ここで、本実施形態では二つの尤度Ui(t)およびUr(t)の合成を加算により行っているが、他の演算を用いても良い。
【0050】
次に、認識処理部18において尤度合成部17から出力される尤度Uo(t)に基づき認識処理を行い(step18)、認識結果を出力する。
【0051】
このような認識処理時では、乗算性ノイズの推定が正しく行えている場合にはCMN法による特徴ベクトル時系列の補正が正しく行われ、補正後の特徴ベクトル時系列Cr(t)が補正後音声標準パターンによくマッチし、補正後音声標準パターンに対する尤度Ur(t)を正しく求められるため、良好な認識性能が得られる。
【0052】
逆に、乗算性ノイズの推定が正しく行えなかった場合には補正後の特徴ベクトル時系列Cr(t)は補正後音声標準パターンにマッチせず、尤度Ur(t)を正しく求めることができないが、補正前の特徴ベクトル時系列C(t)に対する補正前音声標準パターンの尤度Ui(t)は乗算性ノイズの推定の精度によらず正しく求めることができるため、この尤度Ui(t)と尤度Ur(t)を合成した尤度Uo(t)に基づき認識処理を行うことで認識性能の低下を抑えることができる。
【0053】
さらに、 補正前尤度計算部15の尤度と補正後尤度計算部16の尤度とを合成することにより認識性能が向上することを図3を用いて説明する。
【0054】
補正後尤度計算部16の尤度のみを用いた場合に乗算性ノイズの安定な推定が行える場合(周囲の雑音・マイク位置・話者などが頻繁に変動しないような環境)には認識性能は前述したようにとても高くなる。逆に、安定な推定が行えない場合(周囲の雑音・マイク位置・話者などが頻繁に変動するような環境)には、認識性能はとても悪化することになる。この悪化は補正前尤度計算部15の尤度のみを用いた場合の性能よりも悪くなる可能性がある。これは安定な推定が行えない場合、乗算性ノイズによる変動に安定でない推定における特徴ベクトルの補正による変動が加わり、これが乗算性ノイズのみによる変動よりも大きくなるからである。
【0055】
これに対して、補正前尤度計算部15の尤度のみを用いた場合には乗算性ノイズの推定精度に因らずほぼ一定の性能が得られる。補正前尤度計算部15の尤度にはもともと乗算性ノイズ重畳による影響があるため性能はそれほど良くはない。しかし、想定範囲内の乗算性ノイズの変動に対してはその範囲内で乗算性ノイズが不安定に変動しようがしまいがほぼ一定の性能が得られる。
【0056】
したがって、補正前尤度計算部15の尤度と補正後尤度計算部の尤度16を合成することでちょうどその中間の性能を得られることが期待できる。すなわち、この合成により乗算性ノイズの安定な推定が行えないときの補正後尤度計算部16の尤度の影響(悪影響)を減らすことができる。
【0057】
このように本実施形態では、補正前尤度計算部15の出力および補正後尤度計算部16の出力を合成して得られる尤度に基づき認識処理を行うことで、乗算性ノイズの推定の精度によらず良好な認識性能を提供できる。
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。図4は第2の実施形態を説明するブロック図であり、図5はその動作を示したフロー図である。
【0058】
図4に示した音声分析部21、平均値導出部22、補正部24、補正前尤度計算部25、補正前音声標準パターン25-1、補正後尤度計算部26、補正後音声標準パターン部26-1、尤度合成部27、認識処理部28はそれぞれ図1に示した音声分析部11、平均値導出部12、補正部14、補正前尤度計算部15、補正前音声標準パターン15-1、補正後尤度計算部16、補正後音声標準パターン部16-1、尤度合成部17、認識処理部18とそれぞれ同等もしくは等価な構成要素である。
【0059】
本実施形態では、入力音声において、音素を含まない非発声区間を複数個とれる場合には平均値CMを求める区間を複数個設定し、それぞれの区間で求めた複数個の平均値を平均値記憶部23で記憶するものであり、図4の音声認識装置では平均値記憶部23において、異なる2つの区間で求めた2つの平均値CM1、CM2をそれぞれ記憶するものである。
【0060】
ここで、本実施形態では記憶する平均値の個数を2としたが、記憶する平均値の個数は2以上のどのような個数であっても良い。補正部24では、平均値記憶部23に記憶された平均値CM1、CM2のうち、どちらの平均値を参照するかを任意のタイミングで切り替え、特徴ベクトル時系列C(t)からCM1もしくはCM2を減算することで補正後の特徴ベクトル時系列Cr(t)を求める。
【0061】
次にその動作を図5のフロー図を用いて説明する。
【0062】
認識時にはまず、音声分析部21において入力音声をフレーム毎に切り出して周波数分析およびケプストラムへの変換を行い、特徴ベクトル時系列C(t)(t=1...T)を出力する(step21)。
【0063】
次に、平均値導出部22において、入力音声の非発生区間を含む区間の平均値CMを複数求める(step22)。
【0064】
次に、平均値記憶部23において平均値導出部22から出力される複数の平均値CMを記憶する(step23)。
【0065】
次に、複数の平均値CMの中の1つを選択して参照する平均値CMの切り替えを行う(step24)。
【0066】
次に、補正部24において、以下の式(4)で補正後の特徴ベクトル時系列Cr(t)を求める(step25)。
【0067】
Cr(t) = C(t) - CM … (4)
次に、補正前の特徴ベクトル時系列C(t)に対する補正前音声標準パターンの尤度Ui(t)を補正前尤度計算部25で求め(step26)、補正後の特徴ベクトル時系列Cr(t)に対する補正後音声標準パターンの尤度Ur(t)を補正後尤度計算部26で求める(step27)。
【0068】
次に、尤度合成部26において尤度Ui(t)および尤度Ur(t)を以下の式(6)で合成し、尤度Uo(t)を求める(step28)。
【0069】
Uo(t) = Ui(t) + Ur(t) … (6)
ここで、本実施形態では二つの尤度Ui(t)およびUr(t)の合成を加算により行っているが、他の演算を用いても良い。
【0070】
次に、認識処理部28において尤度合成部27から出力される尤度Uo(t)に基づき認識処理を行い(step29)、認識結果を出力する。
【0071】
ここで、step22〜step24に示されている動作について補正部24が参照する平均値の切り替えについて、図6を詳細に用いて説明する。
【0072】
まず、ある入力音声に対して、音声入力の開始時点からの非発声区間を含む区間内の平均値を第1の平均値CM1として求めて、平均値導出部23で記憶する。この平均値CM1を用いて、1番目の発声の特徴ベクトル時系列を補正する。
【0073】
2番目の発声の前に、平均値CM1を求めた区間よりも十分に長い非発声区間があれば、その非発声区間を含む十分に長い区間を平均値を求める区間として再設定し、その区間内で第2の平均値CM2を求めて、平均値導出部23で記憶する。
【0074】
このとき、平均値CM1を求めた区間に対して、平均値CM2を求めた区間は、発声区間を含まず十分に長いものとする。その結果、平均値CM1に比べて平均値CM2は乗算性ノイズのより正しい推定値となることが期待できる。このとき、非発声区間の検出に誤りがあり、平均値を求める区間内に発声が含まれてしまい、発声内の音素の影響で乗算性ノイズの推定が正しく行われなかった場合にも、本発明によれば認識性能の低下を抑えることができるのは既に説明した通りである。
【0075】
本実形態では、図6における2番目(以降)の発声の特徴ベクトル時系列を補正する前に、補正部24において、参照する平均値を平均値CM1から平均値CM2に切り替える。この結果、1番目の発声に対して2番目(以降)の発声では、平均値CM1に比べてより正しい乗算性ノイズの推定値である平均値CM2を用いて乗算性ノイズの除去を行えるため、認識性能が向上する。
【0076】
また、本実施形態によれば、平均値CM2を求めるより前に、1番目の発声における特徴ベクトル時系列の補正および1番目の発声の認識処理を行えるため、入力に対する認識結果出力の時間遅延を低く抑えられるという利点もある。このように本実施形態では、平均値CMを求める区間を複数個設定し、複数個の区間それぞれに対応する複数個の平均値を求め、認識処理中に補正部24で参照する平均値を切り替えることで良好な認識性能を提供できる。
(第3の実施形態)
次に、本発明の第3の実施形態について説明する。図7は第3の実施形態を説明するブロック図であり、図8はその動作を示すフロー図である。
【0077】
図7に示した音声分析部31、平均値導出部32、平均値記憶部33、補正部34、補正前尤度計算部35、補正前音声標準パターン35-1、補正後尤度計算部36、補正後音声標準パターン部36-1、尤度合成部37、認識処理部38はそれぞれ図1に示した音声分析部11、平均値導出部12、平均値記憶部13、補正部14、補正前尤度計算部15、補正前音声標準パターン15-1、補正後尤度計算部16、補正後音声標準パターン部16-1、尤度合成部17、認識処理部18とそれぞれ同等もしくは等価な構成要素である。
【0078】
本実施形態では、尤度合成部37において、補正前尤度計算部36から出力される尤度Ui(t)および補正後尤度計算部37から出力される尤度Ur(t)を合成する前に、尤度重み付け器(39-1,39-2)で尤度Ui(t)およびUr(t)に重み付けを行ってから合成を行う。
【0079】
次にその動作を図8のフロー図を用いて説明する。
【0080】
認識時にはまず、音声分析部31において入力音声をフレーム毎に切り出して周波数分析およびケプストラムへの変換を行い、特徴ベクトル時系列C(t)(t=1...T)を出力する(step31)。
【0081】
次に、平均値導出部32において、入力音声の全区間(t=1...T)を平均値を求める区間とし、以下の式(7)で平均値CMを求める(step32)。
【0082】
【数3】
Figure 0003790155
【0083】
ここで、この実施形態では入力音声の全区間を平均値を求める区間として用いたが、入力音声中の任意の区間を用いても良い。
【0084】
次に、平均値記憶部33において平均値導出部12から出力される平均値CMを記憶する(step33)。
【0085】
次に、補正部34において、以下の式(8)で補正後の特徴ベクトル時系列Cr(t)を求める(step34)。
【0086】
Cr(t) = C(t) - CM … (8)
次に、補正前の特徴ベクトル時系列C(t)に対する補正前音声標準パターンの尤度Ui(t)を補正前尤度計算部35で求め(step35)、補正後の特徴ベクトル時系列Cr(t)に対する補正後音声標準パターンの尤度Ur(t)を補正後尤度計算部36で求める(step36)。
【0087】
次に、尤度重み付け器(39-1,39-2)により尤度Ui(t)および尤度Ur(t)に重み付けを行う(step37)。
【0088】
次に、尤度合成部36において尤度Ui(t)および尤度Ur(t)を以下の式(9)で合成し、尤度Uo(t)を求める(step38)。
【0089】
Uo(t) = Ui(t) + Ur(t) … (9)
ここで、本実施形態では二つの尤度Ui(t)およびUr(t)の合成を加算により行っているが、他の演算を用いても良い。
【0090】
次に、認識処理部38において尤度合成部37から出力される尤度Uo(t)に基づき認識処理を行い(step39)、認識結果を出力する。
【0091】
ここで、step37に示されている尤度重み付けについて詳細に説明する。重み付けは、以下の式(10)で行う。
【0092】
Uo(t) = (Wi * Ui(t)) + (Wr * Ur(t)) … (10)
式(6)で、Wiは尤度Ui(t)に対する重み、Wrは尤度Ur(t)に対する重みである。重み付けを行わない場合は Wi=Wr となる。
【0093】
ここで、本実施形態では2つの尤度の合成を加算により行っているが、他の演算を用いても良い。
【0094】
乗算性ノイズの推定が安定して行えるような条件が整っている場合には、尤度Ui(t)よりも尤度Ur(t)にあらかじめ大きな重み付けをして加算する。具体的には Wi>Wr とする。
【0095】
この結果、CMN法を適用し乗算性ノイズを除去した補正後の特徴ベクトルCr(t)に対する尤度Ur(i)を正しく求めることができるため、尤度Ur(t)の重みを増すことで、CMN法の効果を重み付け無しの場合に比べて大きく働かせることができ、その結果としてより良好な認識性能を提供できる。
【0096】
ここで、乗算性ノイズの推定が安定して行えるような条件としては、認識時に話者やマイク・マイク位置・マイクからの距離・外部環境などがある一定時間以上変化しないような場合が挙げられる。
【0097】
逆に、前述の条件が整っていない場合、すなわち乗算性ノイズの推定が安定して行えないような場合には、尤度Ui(t)に尤度Ur(i)よりも大きな重み付けをして加算する。
【0098】
具体的には Wi<Wr とする。この結果、乗算性ノイズの推定が安定しないため、尤度Ur(t)を正しく求めることができなくなるが、補正前の特徴ベクトル時系列C(t)に対する尤度Ui(t)は乗算性ノイズの推定の精度によらず常に正しく求めることができるため、尤度Ui(t)の重みを増すことで、認識性能の低下をより効果的に抑えることができる。
【0099】
このように本実施形態では、乗算性ノイズの推定を安定に行えるか否かに応じて、尤度Ui(t)および尤度Ur(t)の出力を加算する際の重み付けWi、Wrのバランスを変化させることで、乗算性ノイズの推定の精度によらず良好な認識性能を提供できる。
【0100】
なお、本発明は音声認識プログラムに適用することも言うまでもない。
【0101】
【発明の効果】
以上説明したように、本発明の音声認識装置、音声認識方法及び音声認識プログラムによれば、補正前の特徴ベクトル時系列に対する補正前音声標準パターンの尤度と補正後の特徴ベクトル時系列に対する補正後音声標準パターンの尤度とを合成した尤度に基づく認識処理を行うことで、乗算性ノイズの推定の精度によらず良好な認識性能を提供することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態の概要を示すブロック図
【図2】本発明の第1の実施形態の概要を示すフロー図
【図3】本発明の第1の実施形態における尤度の合成を説明する図
【図4】本発明の第2の実施形態の概要を示すブロック図
【図5】本発明の第2の実施形態の概要を示すフロー図
【図6】本発明の第2の実施形態における複数の区間を設定し複数の平均値を求める際の処理について説明する図
【図7】本発明の第3の実施形態の概要を示すブロック図
【図8】本発明の第3の実施形態の概要を示すフロー図
【図9】従来手法の概要を示すブロック図
【符号の説明】
11…音声分析部
12…平均値導出部
13…平均値記憶部
14…補正部
15…補正前尤度計算部
16…補正後尤度計算部
17…尤度合成部
18…認識処理部
21…音声分析部
22…平均値導出部
23…平均値記憶部
24…補正部
25…補正前尤度計算部
26…補正後尤度計算部
27…尤度合成部
28…認識処理部
31…音声分析部
32…平均値導出部
33…平均値記憶部
34…補正部
35…補正前尤度計算部
36…補正後尤度計算部
37…尤度合成部
38…認識処理部

Claims (6)

  1. 入力された音声信号をフレーム毎に切り出して対数スペクトルパワーのケプストラムによる特徴ベクトル時系列に変換する音声分析部と、この音声分析部から出力された前記特徴ベクトル時系列の任意の区間内での平均値を求める平均値導出部と、この平均値導出部で求められた前記平均値を記憶する平均値記憶部と、この平均値記憶部で記憶された前記平均値を前記特徴ベクトル時系列からフレーム毎に減算することで前記特徴ベクトル時系列を補正する補正部と、前記音声分析部から出力された補正前の特徴ベクトル時系列を用いて補正前音声標準パターンに対する尤度を計算する補正前尤度計算部と、前記補正部から出力された補正後の特徴ベクトル時系列を用いて補正後音声標準パターンに対する尤度を計算する補正後尤度計算部と、前記補正前尤度計算部から出力される尤度と前記補正後尤度計算部から出力される尤度とを合成する尤度合成部と、この尤度合成部から出力される尤度に基づいて音声認識を行う認識処理部とを備える音声認識装置。
  2. 前記尤度合成部は前記補正前尤度計算部から出力される尤度および前記補正後尤度計算部から出力される尤度とを合成する際に、前記補正前尤度計算部から出力される尤度または前記補正後尤度計算部から出力される尤度にあらかじめ重み付けを行ってから合成することを特徴とする請求項1記載の音声認識装置。
  3. 入力された音声信号をフレーム毎に切り出して対数スペクトルパワーのケプストラムによる特徴ベクトル時系列に変換するステップと、前記特徴ベクトル時系列の任意の区間内での平均値を求めるステップと、前記平均値を記憶するステップと、記憶された前記平均値を前記特徴ベクトル時系列からフレーム毎に減算することで前記特徴ベクトル時系列を補正するステップと、補正前の特徴ベクトル時系列を用いて補正前音声標準パターンに対する尤度を計算するステップと、補正後の特徴ベクトル時系列を用いて補正後音声標準パターンに対する尤度を計算するステップと、前記補正前の特徴ベクトル時系列に対する尤度および前記補正後の特徴ベクトルに対する尤度とを合成するステップと、前記合成された尤度に基づいて音声認識を行うステップとを含むことを特徴とする音声認識方法。
  4. 前記尤度を合成するステップは前記補正前の特徴ベクトル時系列に対する尤度および前記補正後の特徴ベクトル時系列に対する尤度とを合成する際に、前記補正前の特徴ベクトル時系列に対する尤度または前記補正後の特徴ベクトル時系列に対する尤度にあらかじめ重み付けを行ってから合成するステップを含むことを特徴とする請求項3記載の音声認識方式。
  5. 入力された音声を認識しその認識結果を出力する音声認識プログラムにおいて、入力された音声信号をフレーム毎に切り出して対数スペクトルパワーのケプストラムによる特徴ベクトル時系列に変換し、前記特徴ベクトル時系列の任意の区間内での平均値を求め、前記平均値を記憶し、記憶された前記平均値を前記特徴ベクトル時系列からフレーム毎に減算することで特徴ベクトル時系列を補正し、補正前の特徴ベクトル時系列を用いて補正前音声標準パターンに対する尤度を計算し、補正後の特徴ベクトル時系列を用いて補正後音声標準パターンに対する尤度を計算し、前記補正前の特徴ベクトル時系列に対する尤度および前記補正後の特徴ベクトルに対する尤度とを合成し、前記合成された尤度に基づいて音声認識を行う機能を実現する音声認識プログラム。
  6. 前記補正前の特徴ベクトル時系列に対する尤度および前記補正後の特徴ベクトル時系列に対する尤度とを合成する際に、前記補正前の特徴ベクトル時系列に対する尤度または前記補正後の特徴ベクトル時系列に対する尤度にあらかじめ重み付けを行ってから合成することを特徴とする請求項5記載の音声認識プログラム。
JP2001376615A 2001-12-11 2001-12-11 音声認識装置、音声認識方式及び音声認識プログラム Expired - Fee Related JP3790155B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001376615A JP3790155B2 (ja) 2001-12-11 2001-12-11 音声認識装置、音声認識方式及び音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001376615A JP3790155B2 (ja) 2001-12-11 2001-12-11 音声認識装置、音声認識方式及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2003177783A JP2003177783A (ja) 2003-06-27
JP3790155B2 true JP3790155B2 (ja) 2006-06-28

Family

ID=19184769

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001376615A Expired - Fee Related JP3790155B2 (ja) 2001-12-11 2001-12-11 音声認識装置、音声認識方式及び音声認識プログラム

Country Status (1)

Country Link
JP (1) JP3790155B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2013145578A1 (ja) * 2012-03-30 2015-12-10 日本電気株式会社 音声処理装置、音声処理方法および音声処理プログラム

Also Published As

Publication number Publication date
JP2003177783A (ja) 2003-06-27

Similar Documents

Publication Publication Date Title
CN112447191B (zh) 信号处理装置以及信号处理方法
JP4282227B2 (ja) ノイズ除去の方法及び装置
JP3457293B2 (ja) 雑音抑圧装置及び雑音抑圧方法
US7706550B2 (en) Noise suppression apparatus and method
US8391471B2 (en) Echo suppressing apparatus, echo suppressing system, echo suppressing method and recording medium
JP5435204B2 (ja) 雑音抑圧の方法、装置、及びプログラム
US6671666B1 (en) Recognition system
JP4886715B2 (ja) 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体
JP5300861B2 (ja) 雑音抑圧装置
WO2005124739A1 (ja) 雑音抑圧装置および雑音抑圧方法
JPWO2007029536A1 (ja) 雑音抑圧の方法及び装置並びにコンピュータプログラム
JP2001134287A (ja) 雑音抑圧装置
US8401844B2 (en) Gain control system, gain control method, and gain control program
US8259961B2 (en) Audio processing apparatus and program
JP5344251B2 (ja) 雑音除去システム、雑音除去方法および雑音除去プログラム
WO2012070670A1 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
JP3907194B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP2007006525A (ja) ノイズ除去の方法及び装置
JP2001005486A (ja) 音声処理装置及び方法
US20100049507A1 (en) Apparatus for noise suppression in an audio signal
JP2962572B2 (ja) 雑音除去装置
JP3790155B2 (ja) 音声認識装置、音声認識方式及び音声認識プログラム
JP6182862B2 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
JP5228903B2 (ja) 信号処理装置および方法
JP2003131689A (ja) ノイズ除去方法及び装置

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050414

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060313

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060330

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100407

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100407

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110407

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130407

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140407

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees