JP4762176B2

JP4762176B2 - 音声認識装置および音声認識プログラム

Info

Publication number: JP4762176B2
Application number: JP2007054272A
Authority: JP
Inventors: 和穂尾上; 庄衛佐藤; 亨今井
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2007-03-05
Filing date: 2007-03-05
Publication date: 2011-08-31
Anticipated expiration: 2027-03-05
Also published as: JP2008216659A

Description

本発明は、入力される音声信号に基づき音声認識処理を行なう音声認識装置および音声認識プログラムに関するものである。

従来の音声認識装置および方法では、音声信号の周波数分脈より得られるパワースペクトルの大まかな形状および共振周波数を表現するＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）やＰＬＰ（Perceptual Linear Predictive）といった特微量を使用し、これらの特徴量を探索することによって音声認識を行なっていた。

非特許文献１には、音声特徴抽出の方法として、ＭＦＣＣパラメータを用いること、およびその計算方法が記載されている。

鹿野清宏，伊藤克亘，河原達也，武田一哉，山本幹雄編著，情報処理学会編集，「音声認識システム」，オーム社出版局，２００１年５月，ｐ．１３−１５

上記のような従来の方法では、周波数分析より得られるパワースペクトルの山谷を余弦波の和で表現するため、ある周波数だけに雑音が混入しても認識率が劣化してしまう問題があった。
また、パワースペクトルに基づく特徴量では、音声信号の非ガウス性の部分を表現できないため、この点のより詳細な特徴量が音声認識に活かされておらず、結果として認識率向上を阻害している可能性があった。

本発明は、上記の課題認識に基づいて行なわれたものであり、ガウス性の雑音による劣化を受けないなど、より認識率の高い音声認識装置および音声認識プログラムを提供することを目的とする。

［１］上記の課題を解決するため、本発明の一態様による音声認識装置は、入力音声信号をバイスペクトル分析して第１バイスペクトル信号を出力するバイスペクトル分析部と、前記バイスペクトル分析部が出力した前記第１バイスペクトル信号を局所毎に平均値処理することによって入力音声特徴量を算出する特徴量算出処理部と、学習音声信号をバイスペクトル分析して得られた第２バイスペクトル信号を局所毎に平均値処理して得られた学習音声特徴量と、当該学習音声信号に対応する正解認識結果を関連付けてなる音響モデル情報を予め記憶する音響モデル情報記憶部と、前記特徴量算出処理部によって算出された前記入力音声特徴量と、前記音響モデル情報記憶部から読み出した前記学習音声特徴量とに基づき、前記入力音声信号の認識結果を決定する認識部とを備えることを特徴とするものである。

ここで、第１バイスペクトル信号を局所毎に平均値処理するとは、バイスペクトルの２つの周波数の軸がなす平面空間において、局所毎の平均値をとる処理である。局所毎とは、所定の方向に沿って１次元的に局所的な（例えば、２つの周波数の和ごとに）平均値処理する場合や、２次元的に局所的な平均値処理をする場合を含む。このような平均値処理により、バイスペクトル信号に含まれるノイズが除去される作用もある。
この構成によれば、バイスペクトル分析部が入力音声信号をバイスペクトル分析するため、パワースペクトル分析だけでは得られない、音声信号の各周波数間の相関関係に関する高次の統計量を得られる。そして、特徴量算出処理部は、このバイスペクトル分析の結果に基づき入力音声特徴量を算出するため、パワースペクトル分析だけでは得られない高次の統計量に基づく特徴量を算出することができる。また、学習音声特徴量も、学習音声信号をバイスペクトル分析して得た特徴量であるため、入力音声特徴量と同様の性質を有する。音響モデル情報は、このような学習音声特徴量を用いて構築されたものである。認識部は、このような特徴量に基づく音響モデル情報を読み出して利用するため、結果として、パワースペクトル分析だけでは得られない特徴を用いた音声認識を行なえる。
具体的には、バイスペクトルを用いた認識により、ガウス性雑音の混入した音声に対しては、認識性能が向上する。また、バイスペクルを利用することで、ガウス性の雑音の影響を受けにくい。また、バイスペクトルでは周波数間の相関関係が値として現れているので、音声のような倍音構造を持つ信号の詳細な表現が可能となり、このような値を用いた認識により認識精度が向上する。

［２］また、本発明の一態様による音声認識装置は、前記の音声認識装置において、前記特徴量算出処理部は、前記第１バイスペクトル信号についてバイスペクトルの周波数の和毎の平均値を算出する平均値計算処理部と、前記平均値計算処理部が算出した前記バイスペクトルの周波数の和毎の平均値をフィルタバンク分析処理する第１フィルタバンク分析処理部と、前記第１フィルタバンク分析処理部によるフィルタバンク分析処理の結果を離散コサイン変換分析処理することによって前記入力音声特徴量を算出する第１離散コサイン変換処理部とで構成され、前記音響モデル情報記憶部に記憶されている前記音響モデル情報は、前記第２バイスペクトル信号についてのバイスペクトルの周波数の和毎の平均値に基づく前記学習音声特徴量と、前記正解認識結果とを関連付けてなるものであることを特徴とする。

この構成により、平均値計算処理部は、バイスペクトルの周波数の和毎の平均値を算出する。このような方向で平均値を算出することにより、ピッチ周波数の変動の影響が現れにくくなり、音声認識の精度向上につながる。

［３］また、本発明の一態様による音声認識装置は、前記の音声認識装置において、前記特徴量算出処理部は、前記第１バイスペクトル信号をバイスペクトルの各周波数方向にフィルタバンク分析処理して近傍平均処理する第２フィルタバンク分析処理部と、前記第２フィルタバンク分析処理部によるフィルタバンク分析処理の結果を２次元離散コサイン変換処理することによって前記入力音声特徴量を算出する第２離散コサイン変換処理部とで構成され、前記音響モデル情報記憶部に記憶されている前記音響モデル情報は、前記第２バイスペクトル信号をバイスペクトルの各周波数方向にフィルタバンク分析処理して近傍平均処理した結果に基づく前記学習音声特徴量と、前記正解認識結果とを関連付けてなるものであることを特徴とする。

［４］また、本発明の一態様による音声認識装置は、前記の音声認識装置において、前記入力音声信号をパワースペクトル分析することによってパワースペクトル特徴量を算出する入力パワースペクトル特徴量算出処理部を更に備え、前記音響モデル情報記憶部に記憶されている前記音響モデル情報は、前記学習音声信号をパワースペクトル分析して算出される学習パワースペクトル特徴量と前記学習音声特徴量と前記正解認識結果とを関連付けてなるものであり、前記認識部は、前記入力パワースペクトル特徴量算出処理部によって算出された前記パワースペクトル特徴量と、前記音響モデル情報記憶部から読み出した前記学習パワースペクトル特徴量とに更に基づき、前記入力音声信号の認識結果を決定することを特徴とするものである。

ここで、パワースペクトル特徴量とは、メル周波数ケプストラム係数（ＭＦＣＣ）および知覚線形予測（ＰＬＰ）のいずれか一方、あるいは両方に基づく特徴量である。
この構成により、バイスペクトル特徴量とパワースペクトル特徴量の両方を適切に組み合わせて音声の特徴をより詳細に表現し、このような特徴量を用いた音声認識が可能となり、さらに認識精度の向上が期待できる。

［５］また、本発明の一態様による音声認識装置は、前記の音声認識装置において、学習音声信号をバイスペクトル分析し、これにより得られた第２バイスペクトル信号を局所毎に平均値処理し、これにより得られた学習音声特徴量と、当該学習音声信号に対応する正解認識結果とを関連付けてなる音響モデル情報を、音響モデル情報記憶部に書き込む学習音声分析部を更に備えることを特徴とするものである。

この構成により、学習音声信号に基づき、音響モデル情報を算出し、音響モデル情報記憶部に記憶させることができる。この音響モデル情報は、認識対象音声信号の認識処理をする際に用いられる。

［６］また、本発明の一態様による音声認識プログラムは、入力音声信号のデータをバイスペクトル分析して第１バイスペクトル信号のデータを出力するバイスペクトル分析過程と、前記バイスペクトル分析部が出力した前記第１バイスペクトル信号のデータを局所毎に平均値処理することによって入力音声特徴量を算出する特徴量算出処理過程と、学習音声信号のデータをバイスペクトル分析して得られた第２バイスペクトル信号のデータを局所毎に平均値処理して得られた学習音声特徴量と、当該学習音声信号のデータに対応する正解認識結果とを関連付けてなる音響モデル情報を予め記憶する音響モデル情報記憶部から前記学習音声特徴量を読み出す読み出し過程と、前記特徴量算出処理部によって算出された前記入力音声特徴量と、前記音響モデル情報記憶部から読み出した前記学習音声特徴量とに基づき、前記入力音声信号の認識結果を決定する認識過程との処理をコンピュータに実行させるコンピュータプログラムである。

これにより、バイスペクトル特徴量に基づく音声認識装置としてコンピュータを機能させることができる。

本発明により、前述のように、ガウス性雑音の混入した音声に対しては、認識性能が向上する。また、バイスペクルを利用することで、ガウス性の雑音の影響を受けにくい。また、周波数間の相関関係が値として現れているので、音声のような倍音構造を持つ信号の詳細な表現が可能となる。
高次統計量であるバイスペクトルは、３次統計量から求めているので、ガウス性の雑音の影響を受けにくい特徴を持っており、認識精度を改善できる。加えて、バイスペクトルは音声信号の非ガウス性の部分を表現できるため、より詳細な特微量を抽出し、認識精度を向上できる。

[第１の実施形態]
以下、本発明の実施形態について図面を参照しながら説明する。
図１は、本発明の第１の実施形態による音声認識装置の機能構成を示すブロック図である。図１において、符号１ａは音声認識装置である。この音声認識装置１ａは、バイスペクトル分析部２０と、特徴量算出処理部３０と、バイスペクトル分析部１２０と、特徴量算出処理部１３０と、バイスペクトル音響モデル学習部１７０と、音響モデル情報記憶部１８０と、言語モデル８２と、発音辞書８４と、音声認識部９０（認識部）とを内部に有している。
そして、上記の特徴量算出処理部３０は、平均値計算処理部３２と、フィルタバンク分析処理部３４（第１フィルタバンク分析処理部）と、離散コサイン変換処理部３６（第１離散コサイン変換処理部）とを内部に有している。また同様に、上記の特徴量算出処理部１３０は、平均値計算処理部１３２と、フィルタバンク分析処理部１３４と、離散コサイン変換処理部１３６とを内部に有している。

なお、本実施形態の装置構成において、バイスペクトル分析部２０および１２０は、それぞれ個別に設ける形態であっても良く、また単一のバイスペクトル分析部として設けて共用としても良い。また、特徴量算出処理部３０および１３０についても同様である。電気・電子回路のブロックとして共用する場合には、異なる時間枠で入出力を切り替えるようにする。コンピュータプログラムとして共用する場合には、共通プログラムモジュールを呼び出すようにする。

図１において、符号１０は、音声認識装置１ａに入力される認識対象音声信号である。この認識対象音声信号１０は時間領域の信号であり、時刻ｔにおける振幅がｘ’（ｔ）という一変数関数で表現される。なお、認識対象音声信号１０は、連続時間におけるアナログ信号であってもよいし、離散的な時間間隔毎の振幅値のデジタルデータであっても良い。アナログ信号の場合には、適宜Ａ／Ｄ（アナログ／デジタル）変換される。
バイスペクトル分析部２０は、入力される認識対象音声信号１０をバイスペクトル分析する。具体的には、バイスペクトル分析部２０は、認識対象音声信号１０を窓幅Ｎで時間ΔｔごとにＭフレーム抽出し、バイスペクトルＢ（ｆ_１，ｆ_２）を次の式（１）により得る（第１バイスペクトル信号）。

なお、式（１）において、Ｘ（ｆ）は入力された認識対象音声信号１０（ｘ’（ｔ））のフーリエ変換であり、Ｘ^＊は複素共役を表わす。つまり、バイスペクトルＢ（ｆ_１，ｆ_２）は、この入力信号における周波数ｆ_１とｆ_２の相関を表わす。

次に特徴量算出処理部３０は、上でバイスペクトル分析部２０が算出したバイスペクトルを基に、音声の特徴量を算出するための処理をする。特徴量算出処理部内３０の平均値計算処理部３２は、式（１）で得られたバイスペクトルを、ｆ_３（但し、ｆ_３＝ｆ_１＋ｆ_２）が一定となる方向に平均値化する処理、言い換えればバイスペクトルの周波数の和（ｆ_３）毎の平均値を算出する処理を行なう。２つの周波数の和ｆ_３におけるバイスペクトルの平均値ＩＢ_２（ｆ_３）は、次の式（２）で得られる。
つまり、平均値計算処理部３２は、バイスペクトルの周波数の和（ｆ_３）毎の平均値を算出している。

次に、フィルタバンク分析処理部３４は、上で得られた平均値ＩＢ_２（ｆ_３）に対してメルフィルタバンク処理を行なう。このメルフィルタバンク処理は、周波数の和ｆ_３に対して、次の式（３）による周波数軸変換を行なう。但し、式（３）における周波数ｆの単位はヘルツ（Ｈｚ）である。

この変換後の周波数軸は周波数ｆ_３の対数をとっているものであり、このようなメルフィルタバンク処理により、ヒトの聴覚により整合した特徴量を得ることが可能となる。

次に、離散コサイン変換処理部３６は、上で得られたメルフィルタバンク処理の結果を用いて離散コサイン変換（ＤＣＴ，Discrete Cosine Transform）分析処理を行ない、その結果得られた低次の次数をバイスペクトル特徴量５０（入力音声特徴量）として出力する。

つまり特徴量算出処理部３０は、バイスペクトルを基に、周波数の和ｆ_３毎に（局所毎に）平均値処理することによって入力音声特徴量を算出する。

一方で、学習音声信号１１０についても、予め同様の特徴量抽出が行なわれ、その結果が音響モデルとして、半導体メモリや磁気ハードディスクドライブ等の記憶装置に記憶されている。
図１に示す学習音声信号１１０は、時間領域の信号であり、時刻ｔにおける振幅がｘ（ｔ）という一変数関数で表現される。この学習音声信号１１０の入力を受け、バイスペクトル分析部１２０は、バイスペクトル分析部２０と同様の処理によって、式（１）で表わされる、学習音声信号のバイスペクトル（第２バイスペクトル信号）を得る。次に、特徴量算出処理部１３０は、学習音声信号のバイスペクトルを基に、特徴量算出処理部３０と同様の処理によって、特徴量を抽出する。即ち、平均値計算処理部１３２が式（２）で表わされる平均値計算処理を行ない、その結果に対してフィルタバンク分析処理部１３４がメルフィルタバンク処理即ち式（３）による周波数軸変換処理を行ない、その結果を用いて離散コサイン変換処理部１３６が離散コサイン変換分析処理を行なう。その結果、学習音声信号１１０に基づくバイスペクトル特徴量１５０（学習音声特徴量）が得られる。

バイスペクトル音響モデル学習部１７０は、上で得られたバイスペクトル特徴量１５０を用いて、最尤推定により音響モデルを学習し、得られた音響モデルを音響モデル情報記憶部１８０に書き込む。ここで、音響モデル情報記憶部１８０に記憶されているのは、が学習音声信号１１０から得られた特徴量であるバイスペクトル特徴量１５０と、当該学習音声信号に対応する正解認識結果とが関連付けられたデータである。なお、この音響モデルにおいては、得られたバイスペクトル特徴量１５０が必ずしも唯一の正解認識結果が決定的に関連付けられるとは限らず、複数の正解認識結果の候補に関連付けられていても良いし、さらにそれぞれの候補に確率値が付随している形態であっても良い。
具体例としては、隠れマルコフモデル（ＨＭＭ）に基づき、モノフォンあるいはトライフォンに対する特徴量の確率分布のデータを音響モデルとして構築して音響モデル情報記憶部１８０に記憶させる。

また、言語モデル８２と発音辞書８４もそれぞれ、予め作成されて半導体メモリや磁気ハードディスクドライブ等の記憶装置に記憶されている。言語モデル８２は、例えば、認識対象の音声に含まれる単語毎の出現確率や、単語間の接続確率等をデータ化したものである。発音辞書８４は、例えば、認識結果となり得る音響を辞書化したデータである。

音声認識部９０は、内部に単語列を探索する機能を有しており、認識対象音声信号１０から得られたバイスペクトル特徴量５０に基づき、音響モデル情報記憶部１８０から読み出した音響モデルと、それぞれ記憶装置から読み出された言語モデル８２および発音辞書８４を用いて、正解単語の探索を行ない、最も確率の高かった単語ないしは文章を音声認識結果１００として出力する。あるいは、音声認識部９０が、最も確率の高かった音声認識結果だけではなく、複数の正解候補とそれぞれの候補の確率値とを音声認識結果１００として出力するようにしても良い。

次に、本実施形態において平均値計算処理部３２および１３２が行なった平均値計算処理について説明する。
図２は、バイスペクトル分析によって得られたバイスペクトルを平均値計算する処理のしかたの概略を表わす概略図である。
パワースペクトルでは、各周波数成分の強さだけが情報として得られるのに対して、バイスペクトルは複素数であり、３つの周波数成分ｆ_１とｆ_２とｆ_１＋ｆ_２の従属性を示す量が得られる。ガウス性時系列信号では、バイスペクトルは０となり、非ガウス性時系列信号では統計的な変動による音声の構造を表わしている。

図２（ａ）は、バイスペクトルの周波数ｆ_１およびｆ_２の座標軸による平面と、その平面内での平均値化処理の対象を示している。ある音声区間（例えば、母音「お」）から得られる１フレーム（Ｍ＝１）のバイスペクトルは、図２（ａ）の斜線で示した領域、つまり、ｆ_１＞０かつｆ_２＞０かつｆ_１＋ｆ_２＜ｃ（但し、ｃは所定の定数）の領域に現れる。そして、バイスペクトルの対象性と複素共役の関係により、図２（ａ）の破線で囲まれた三角形の範囲を用いて特徴量を抽出すれば十分である。

この領域について、図２（ｂ）に示すように、バイスペクトルの周波数の片方（図示する例ではｆ_１）の周波数軸について平均値を求める方法も可能であるが、本実施形態では、図２（ｃ）に示すように、ｆ_３（＝ｆ_１＋ｆ_２）が一定となる方向に平均値を取るようにしている。このように、ｆ_３が一定となる方向に平均値を取ることにより、ピッチ周波数の変動が現れにくくなり、音声認識に用いる特徴量として有効な量を抽出できる。

[第２の実施形態]
次に、本発明の第２の実施形態について図面を参照しながら説明する。
図３は、本発明の第２の実施形態による音声認識装置の機能構成を示すブロック図である。なお、前記実施形態と同様な構成の部分については同じ符号を用いて表して説明を省略し、特徴点のみを詳細に説明する。

図３において、認識対象音声信号１０に対応する特徴量を算出する特徴量算出処理部３０は、フィルタバンク分析処理部３５（第２フィルタバンク分析処理部）と離散コサイン変換処理部３７（第２離散コサイン変換処理部）とを有している。
本実施形態では、フィルタバンク分析処理部３５が、バイスペクトル分析部２０で得られたバイスペクトル（第１バイスペクトル信号）の各周波数（ｆ_１およびｆ_２）に対してそれぞれ、前記の式（３）による周波数軸変換（メルフィルタ分析処理）を行なう。そして、フィルタバンクチャネル数ＳでＳ個に量子化する。
つまり、フィルタバンク分析処理部３５は、バイスペクトルの各周波数方向にフィルタバンク分析処理して近傍平均処理する。
そして、離散コサイン変換処理部３７は、上の２次元のメルフィルタ分析処理の結果を用いて２次元離散コサイン変換を行い、その低次の次数をバイスペクトル特徴量５１（入力音声特徴量）として出力する。
つまり、当実施形態における特徴量算出処理部３０は全体として、バイスペクトルの重み付き近傍平均処理（局所毎に平均値処理）することによって入力音声特徴量を算出している。

特徴量算出処理部１３０も同様に、予め、学習音声信号１１０に対応する特徴量を得る処理を行なう。つまり、フィルタバンク分析処理部１３５がバイスペクトル分析部１２０で得られたバイスペクトル（第２バイスペクトル信号）の各周波数に対してそれぞれ、周波数軸変換（メルフィルタ分析処理）を行なう。そして、フィルタバンクチャネル数ＳでＳ個に量子化する。そして離散コサイン変換処理部１３７は、その結果を用いて２次元離散コサイン変換を行い、バイスペクトル特徴量１５１（学習音声特徴量）として出力する。

バイスペクトル音響モデル学習部１７１は、上記の処理によって得られたバイスペクトル特徴量１５１を用いて、最尤推定により音響モデルを学習し、得られた音響モデルを音響モデル情報記憶部１８１に書き込む。音響モデル情報記憶部１８０に記憶されている情報は、用いられている特徴量およびその算出方法が異なる点を除いては第１の実施形態と同様である。

音声認識部９１は、認識対象音声信号１０から得られたバイスペクトル特徴量５１と音響モデル情報記憶部１８１から読み出した音響モデルとに基づき、音声認識結果１００を出力する。音声認識結果１００を得るための方法は、用いる特徴量が異なる点を除いては、第１の実施形態と同様である。

[第３の実施形態]
次に、本発明の第３の実施形態について図面を参照しながら説明する。
図４は、本発明の第３の実施形態による音声認識装置の機能構成を示すブロック図である。なお、前記実施形態と同様な構成の部分については同じ符号を用いて表して説明を省略し、特徴点のみを詳細に説明する。

本実施形態では、バイスペクトル特徴量とパワースペクトル特徴量とを併用して音声認識を行なう。
図４において、音声認識装置１ｃの構成の特徴は、ＭＦＣＣ・ＰＬＰ算出部６０（入力パワースペクトル特徴量算出処理部）およびＭＦＣＣ・ＰＬＰ算出部１６０を有する点である。ＭＦＣＣ・ＰＬＰ算出部６０および１６０は、それぞれ個別に設ける形態であっても良く、また単一のＭＦＣＣ・ＰＬＰ算出部として設けて共用としても良い。ＭＦＣＣ・ＰＬＰ算出部６０は、認識対象音声信号１０をパワースペクトル分析することによって、認識対象音声信号１０に対応する特徴量として、パワースペクトル特徴量を算出する。パワースペクトル特徴量の例は、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient，メル周波数ケプストラム係数）およびＰＬＰ（Perceptual Linear Predictive，知覚線形予測）である。一方で、ＭＦＣＣ・ＰＬＰ算出部１６０は、同様に、学習音声信号１１０に対応する特徴量として学習パワースペクトル特徴量（ＭＦＣＣおよびＰＬＰ）を算出する。

バイスペクトル分析部２０および特徴量算出処理部３０の処理は、第１の実施形態と同様であり、認識対象音声信号１０に対応したバイスペクトル特徴量５０を算出する。また、バイスペクトル分析部１２０および特徴量算出処理部１３０の処理は、第１の実施形態と同様であり、学習音声信号１１０に対応したバイスペクトル特徴量１５０を算出する。
以後の音響モデル学習処理および音声認識処理においては、バイスペクトル特徴量とＭＦＣＣ、ＰＬＰを連結（図４における「＋」記号の部分）した特徴量により音声認識を行なう。言うまでもなく、特徴量を連結することにより、バイスペクトル特徴量による特徴空間とＭＦＣＣ、ＰＬＰによる特徴空間の積空間における探索および認識処理が行なえる。

バイスペクトル音響モデル学習部１７２は、バイスペクトル特徴量１５０と、ＭＦＣＣ・ＰＬＰ算出部１６０から出力されるＭＦＣＣおよびＰＬＰとを用いて、最尤推定により音響モデルを学習し、得られた音響モデルを音響モデル情報記憶部１８２に書き込む。つまり、ここでの音響モデル情報は、学習音声信号をパワースペクトル分析して算出された学習パワースペクトル特徴量とバイスペクトル特徴量１５０と正解認識結果とを関連付けてなるものである。音響モデル情報記憶部１８０に記憶されている情報は、用いられている特徴量が異なる点を除いては前述の実施形態と同様である。

音声認識部９２は、バイスペクトル特徴量５０と音響モデル情報記憶部１８２から読み出した音響モデルとに基づき、音声認識結果１００を出力する。音声認識結果１００を得るための方法は、用いる特徴量が異なる点を除いては、前述の実施形態と同様である。

なお、ここでは第１の実施形態による方法で算出したバイスペクトル特徴量（５０および１５０）とＭＦＣＣ，ＰＬＰとを組み合わせて認識処理を行なう形態を説明したが、第２の実施形態による方法で算出したバイスペクトル特徴量（図３の５１および１５１）とＭＦＣＣ，ＰＬＰとを連結して得られる特徴量を用いて認識処理するようにしても良い。
また、ここではＭＦＣＣおよびＰＬＰの両方を用いた認識処理を行なう形態を説明したが、ＭＦＣＣあるいはＰＬＰのいずれか一方とバイスペクトル特徴量とを連結して得られる特徴量を用いて認識処理を行なうようにしても良い。

次に、上述した第１〜第３の実施形態による実際の信号処理の結果について説明する。

図５は、バイスペクトル分析部２０および１２０によるバイスペクトル分析を行なった際の入出力信号の波形を示すグラフである。
図５の符号５ａは、入力される音声信号（認識対象音声信号１０または学習音声信号１１０）の振幅を表わす。横軸は時間（ｔ）である。図示する例は、ヒトが「どおいったねらいがあるんでしょうか」と発話したときの音声を用いている。
５ｂは、比較のための参考グラフであり、５ａの入力音声信号をフーリエ変換したときのパワースペクトルを表わす。横軸は５ａと対応した時間であり、縦軸は音声周波数である。そして、この平面に表わされているグレースケールの濃淡が周波数のパワーを表わす。
５ｃは、５ａの入力音声信号をバイスペクトル分析した結果であり、前記発話の中の「お」（ｏ）、「た」の母音部（ａ）、「ね」の子音部（ｎ）、「い」（ｉ）、「あ」（ａ）、「ん」（Ｎ）、「しょ」の子音部（ｓｈ）、「か」の子音部（ｋ）、「か」の母音部（ａ）の各領域に対応する９個のグラフである。これらの各グラフの縦軸および横軸は周波数（ｆ１およびｆ２）である。前記の式（１）からも明らかなように、ｆ１＝ｆ２で表わされる直線に対して線対称なパターンが表れている。

パワースペクトルでは各周波数成分の強さだけが情報として得られるのに対して、バイスペクトルは複素数であり、３つの周波数成分ｆ_１，ｆ_２，ｆ_３（＝ｆ_１＋ｆ_２）の従属性を示す量が得られる。バイスペクトルは、ガウス性時系列信号では０になり、非ガウス性時系列信号では統計的な変動による構造を表わす量が得られる。
例えば、図５の５ｃの母音「お」（「ｏ」）の音声区間から得られたバイスペクトルでは、基本周波数とその倍音成分の相関の高い部分が格子状に表れている。

図６は、前述した第１の実施形態に対応するものであり、ヒトの発話とノイズとを合成した音声信号を、パワースペクトル分析したときとバイスペクトル分析したときとの比較を示すグラフである。
図６の符号６ａは入力音声信号の振幅を表わす。横軸は時間である。この例では、入力音声信号は、ヒトが「まず、こちらをごらんください」（ｍａｚｕｋｏｃｈｉｒａｏｇｏｒａＮｋｕｄａｓａｉ）と発話した音声とヘリコプター音とをＳＮＲ（信号対雑音比、Signal to Noise Ratio）０ｄＢ（デシベル）で合成したものである。
６ｂは、６ａの入力音声信号をＦＦＴ（高速フーリエ変換）したときのパワースペクトルを表わす。横軸は６ａと対応した時間であり、縦軸はメルフィルタバンク処理した周波数軸である。そして、この平面に表わされているグレースケールの濃淡が周波数のパワーを表わす。
一方で、６ｃは、バイスペクトルに基づく特徴量を表わす。横軸は６ａ、６ｂと対応した時間であり、縦軸は前記の式（２）によって平均値化処理したときの周波数ｆ_３をメルフィルタバンク処理した周波数軸である。そして、この平面に表わされている濃淡が、平均値化処理したバイスペクトルベースの特徴量である。

グラフ６ｂと６ｃとを比較すると、ＦＦＴ（６ｂ）ではヘリコプター音ノイズの影響が高域部分に見られるが、バイスペクトルベースの平均値（６ｃ、ＩＢ_２（ｆ_３））ではヘリコプター音ノイズのガウス性成分の影響が減少している。これは、バイスペクトルベースの特徴量を用いることにより、ノイズに対する耐性がより強い音声認識ができることを表わしている。

図７は、前述した第２の実施形態に対応するものであり、２次元のメルフィルタバンク分析による、バイスペクトルの重み付き近傍平均処理の例を示すグラフである。図７の上段はメルフィルタバンク分析前のバイスペクトルであり、同下段はメルフィルタバンク分析後のバイスペクトルである。図５で示した音の各領域のうち、「ｏ」、「ａ」、「ｎ」、「ｉ」、「ｓｈ」の５つのメルフィルタバンク分析前後のスペクトルを表わしている。

なお、上述した各実施形態における音声認識装置の一部、例えば、バイスペクトル分析部、特徴量算出処理部、バイスペクトルモデル音響学習部、音声認識部などの機能をコンピュータで実現するようにしても良い。その場合、アナログ信号は適宜デジタルデータに変換して処理する。またその場合、それらの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

例えば、ＭＦＣＣ分析での振幅スペクトル相当のものとして、バイスペクトルの立方根から平均値処理（局所毎の平均値処理）して得られる特徴量を用いて音声認識するようにしても良い。

本発明の第１の実施形態による音声認識装置の機能構成を示したブロック図である。同実施形態により、バイスペクトル分析によって得られたバイスペクトルを平均値計算する処理のしかたの概略を表わす概略図である。本発明の第２の実施形態による音声認識装置の機能構成を示したブロック図である。本発明の第３の実施形態による音声認識装置の機能構成を示したブロック図である。本発明の実施形態により入力音声信号に対するバイスペクトル分析を行なった際の入出力信号の波形を示すグラフである。本発明の実施形態により、ヒトの発話とノイズとを合成した音声信号をパワースペクトル分析したときとバイスペクトル分析したときとの比較を示すグラフである。本発明の実施形態により２次元のメルフィルタバンク分析を行なったバイスペクトルの重み付き近傍平均処理の例を示すグラフである。

符号の説明

１ａ，２ａ，３ａ音声認識装置
１０認識対象音声信号ｘ’（ｔ）
２０バイスペクトル分析部
３０特徴量算出処理部
３２平均値計算処理部
３４，３５フィルタバンク分析処理部
３６，３７離散コサイン変換処理部
５０，５１バイスペクトル特徴量
６０ＭＦＣ・ＰＬＰ算出部
８２言語モデル
８４発音辞書
９０，９１，９２音声認識部
１１０学習音声信号ｘ（ｔ）
１２０バイスペクトル分析部
１３０特徴量算出処理部
１３２平均値計算処理部
１３４，１３５フィルタバンク分析処理部
１３６，１３７離散コサイン変換処理部
１５０，１５１バイスペクトル特徴量
１６０ＭＦＣ・ＰＬＰ算出部
１７０，１７１，１７２バイスペクトル音響モデル学習部
１８０，１８１，１８２音響モデル情報記憶部

Claims

入力音声信号をバイスペクトル分析して第１バイスペクトル信号を出力するバイスペクトル分析部と、
前記バイスペクトル分析部が出力した前記第１バイスペクトル信号を局所毎に平均値処理することによって入力音声特徴量を算出する特徴量算出処理部と、
学習音声信号をバイスペクトル分析して得られた第２バイスペクトル信号を局所毎に平均値処理して得られた学習音声特徴量と、当該学習音声信号に対応する正解認識結果とを関連付けてなる音響モデル情報を予め記憶する音響モデル情報記憶部と、
前記特徴量算出処理部によって算出された前記入力音声特徴量と、前記音響モデル情報記憶部から読み出した前記学習音声特徴量とに基づき、前記入力音声信号の認識結果を決定する認識部と、
を備え、
前記特徴量算出処理部は、
前記第１バイスペクトル信号についてバイスペクトルの周波数の和毎の平均値を算出する平均値計算処理部と、
前記平均値計算処理部が算出した前記バイスペクトルの周波数の和毎の平均値をフィルタバンク分析処理する第１フィルタバンク分析処理部と、
前記第１フィルタバンク分析処理部によるフィルタバンク分析処理の結果を離散コサイン変換分析処理することによって前記入力音声特徴量を算出する第１離散コサイン変換処理部と、で構成され、
前記音響モデル情報記憶部に記憶されている前記音響モデル情報は、前記第２バイスペクトル信号についてのバイスペクトルの周波数の和毎の平均値に基づく前記学習音声特徴量と、前記正解認識結果とを関連付けてなるものである
ことを特徴とする音声認識装置。
入力音声信号をバイスペクトル分析して第１バイスペクトル信号を出力するバイスペクトル分析部と、
前記バイスペクトル分析部が出力した前記第１バイスペクトル信号を局所毎に平均値処理することによって入力音声特徴量を算出する特徴量算出処理部と、
学習音声信号をバイスペクトル分析して得られた第２バイスペクトル信号を局所毎に平均値処理して得られた学習音声特徴量と、当該学習音声信号に対応する正解認識結果とを関連付けてなる音響モデル情報を予め記憶する音響モデル情報記憶部と、
前記特徴量算出処理部によって算出された前記入力音声特徴量と、前記音響モデル情報記憶部から読み出した前記学習音声特徴量とに基づき、前記入力音声信号の認識結果を決定する認識部と、
を備え、
前記特徴量算出処理部は、
前記第１バイスペクトル信号をバイスペクトルの各周波数方向にフィルタバンク分析処理して近傍平均処理する第２フィルタバンク分析処理部と、
前記第２フィルタバンク分析処理部によるフィルタバンク分析処理の結果を２次元離散コサイン変換処理することによって前記入力音声特徴量を算出する第２離散コサイン変換処理部と、で構成され、
前記音響モデル情報記憶部に記憶されている前記音響モデル情報は、前記第２バイスペクトル信号をバイスペクトルの各周波数方向にフィルタバンク分析処理して近傍平均処理した結果に基づく前記学習音声特徴量と、前記正解認識結果とを関連付けてなるものである
ことを特徴とする音声認識装置。
請求項１に記載の音声認識装置であって、
学習音声信号をバイスペクトル分析し、これにより得られた第２バイスペクトル信号を元にバイスペクトルの周波数の和毎の平均値を算出し、これにより得られた学習音声特徴量と、当該学習音声信号に対応する正解認識結果とを関連付けてなる音響モデル情報を、音響モデル情報記憶部に書き込む学習音声分析部を更に備えることを特徴とする音声認識装置。
請求項２に記載の音声認識装置であって、
学習音声信号をバイスペクトル分析し、これにより得られた第２バイスペクトル信号を元にバイスペクトルの各周波数方向にフィルタバンク分析処理して近傍平均処理し、これにより得られた学習音声特徴量と、当該学習音声信号に対応する正解認識結果とを関連付けてなる音響モデル情報を、音響モデル情報記憶部に書き込む学習音声分析部を更に備えることを特徴とする音声認識装置。
入力音声信号のデータをバイスペクトル分析して第１バイスペクトル信号のデータを出力するバイスペクトル分析過程と、
前記バイスペクトル分析部が出力した前記第１バイスペクトル信号のデータを局所毎に平均値処理することによって入力音声特徴量を算出する特徴量算出処理過程と、
学習音声信号のデータをバイスペクトル分析して得られた第２バイスペクトル信号のデータを局所毎に平均値処理して得られた学習音声特徴量と、当該学習音声信号のデータに対応する正解認識結果とを関連付けてなる音響モデル情報を予め記憶する音響モデル情報記憶部から前記学習音声特徴量を読み出す読み出し過程と、
前記特徴量算出処理部によって算出された前記入力音声特徴量と、前記音響モデル情報記憶部から読み出した前記学習音声特徴量とに基づき、前記入力音声信号の認識結果を決定する認識過程と、
の処理をコンピュータに実行させる音声認識プログラムであって、
前記特徴量算出処理過程は、
前記第１バイスペクトル信号についてバイスペクトルの周波数の和毎の平均値を算出する平均値計算処理過程と、
前記平均値計算処理過程が算出した前記バイスペクトルの周波数の和毎の平均値をフィルタバンク分析処理する第１フィルタバンク分析処理過程と、
前記第１フィルタバンク分析処理過程によるフィルタバンク分析処理の結果を離散コサイン変換分析処理することによって前記入力音声特徴量を算出する第１離散コサイン変換処理過程と、で構成され、
前記音響モデル情報記憶部に記憶されている前記音響モデル情報は、前記第２バイスペクトル信号についてのバイスペクトルの周波数の和毎の平均値に基づく前記学習音声特徴量と、前記正解認識結果とを関連付けてなるものである
ことを特徴とする音声認識プログラム。
入力音声信号のデータをバイスペクトル分析して第１バイスペクトル信号のデータを出力するバイスペクトル分析過程と、
前記バイスペクトル分析部が出力した前記第１バイスペクトル信号のデータを局所毎に平均値処理することによって入力音声特徴量を算出する特徴量算出処理過程と、
学習音声信号のデータをバイスペクトル分析して得られた第２バイスペクトル信号のデータを局所毎に平均値処理して得られた学習音声特徴量と、当該学習音声信号のデータに対応する正解認識結果とを関連付けてなる音響モデル情報を予め記憶する音響モデル情報記憶部から前記学習音声特徴量を読み出す読み出し過程と、
前記特徴量算出処理部によって算出された前記入力音声特徴量と、前記音響モデル情報記憶部から読み出した前記学習音声特徴量とに基づき、前記入力音声信号の認識結果を決定する認識過程と、
の処理をコンピュータに実行させる音声認識プログラムであって、
前記特徴量算出処理過程は、
前記第１バイスペクトル信号をバイスペクトルの各周波数方向にフィルタバンク分析処理して近傍平均処理する第２フィルタバンク分析処理過程と、
前記第２フィルタバンク分析処理過程によるフィルタバンク分析処理の結果を２次元離散コサイン変換処理することによって前記入力音声特徴量を算出する第２離散コサイン変換処理過程と、で構成され、
前記音響モデル情報記憶部に記憶されている前記音響モデル情報は、前記第２バイスペクトル信号をバイスペクトルの各周波数方向にフィルタバンク分析処理して近傍平均処理した結果に基づく前記学習音声特徴量と、前記正解認識結果とを関連付けてなるものである
ことを特徴とする音声認識プログラム。