JP4762176B2 - 音声認識装置および音声認識プログラム - Google Patents
音声認識装置および音声認識プログラム Download PDFInfo
- Publication number
- JP4762176B2 JP4762176B2 JP2007054272A JP2007054272A JP4762176B2 JP 4762176 B2 JP4762176 B2 JP 4762176B2 JP 2007054272 A JP2007054272 A JP 2007054272A JP 2007054272 A JP2007054272 A JP 2007054272A JP 4762176 B2 JP4762176 B2 JP 4762176B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- bispectral
- speech
- analysis
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
また、パワースペクトルに基づく特徴量では、音声信号の非ガウス性の部分を表現できないため、この点のより詳細な特徴量が音声認識に活かされておらず、結果として認識率向上を阻害している可能性があった。
この構成によれば、バイスペクトル分析部が入力音声信号をバイスペクトル分析するため、パワースペクトル分析だけでは得られない、音声信号の各周波数間の相関関係に関する高次の統計量を得られる。そして、特徴量算出処理部は、このバイスペクトル分析の結果に基づき入力音声特徴量を算出するため、パワースペクトル分析だけでは得られない高次の統計量に基づく特徴量を算出することができる。また、学習音声特徴量も、学習音声信号をバイスペクトル分析して得た特徴量であるため、入力音声特徴量と同様の性質を有する。音響モデル情報は、このような学習音声特徴量を用いて構築されたものである。認識部は、このような特徴量に基づく音響モデル情報を読み出して利用するため、結果として、パワースペクトル分析だけでは得られない特徴を用いた音声認識を行なえる。
具体的には、バイスペクトルを用いた認識により、ガウス性雑音の混入した音声に対しては、認識性能が向上する。また、バイスペクルを利用することで、ガウス性の雑音の影響を受けにくい。また、バイスペクトルでは周波数間の相関関係が値として現れているので、音声のような倍音構造を持つ信号の詳細な表現が可能となり、このような値を用いた認識により認識精度が向上する。
この構成により、バイスペクトル特徴量とパワースペクトル特徴量の両方を適切に組み合わせて音声の特徴をより詳細に表現し、このような特徴量を用いた音声認識が可能となり、さらに認識精度の向上が期待できる。
高次統計量であるバイスペクトルは、3次統計量から求めているので、ガウス性の雑音の影響を受けにくい特徴を持っており、認識精度を改善できる。加えて、バイスペクトルは音声信号の非ガウス性の部分を表現できるため、より詳細な特微量を抽出し、認識精度を向上できる。
以下、本発明の実施形態について図面を参照しながら説明する。
図1は、本発明の第1の実施形態による音声認識装置の機能構成を示すブロック図である。図1において、符号1aは音声認識装置である。この音声認識装置1aは、バイスペクトル分析部20と、特徴量算出処理部30と、バイスペクトル分析部120と、特徴量算出処理部130と、バイスペクトル音響モデル学習部170と、音響モデル情報記憶部180と、言語モデル82と、発音辞書84と、音声認識部90(認識部)とを内部に有している。
そして、上記の特徴量算出処理部30は、平均値計算処理部32と、フィルタバンク分析処理部34(第1フィルタバンク分析処理部)と、離散コサイン変換処理部36(第1離散コサイン変換処理部)とを内部に有している。また同様に、上記の特徴量算出処理部130は、平均値計算処理部132と、フィルタバンク分析処理部134と、離散コサイン変換処理部136とを内部に有している。
バイスペクトル分析部20は、入力される認識対象音声信号10をバイスペクトル分析する。具体的には、バイスペクトル分析部20は、認識対象音声信号10を窓幅Nで時間ΔtごとにMフレーム抽出し、バイスペクトルB(f1,f2)を次の式(1)により得る(第1バイスペクトル信号)。
つまり、平均値計算処理部32は、バイスペクトルの周波数の和(f3)毎の平均値を算出している。
図1に示す学習音声信号110は、時間領域の信号であり、時刻tにおける振幅がx(t)という一変数関数で表現される。この学習音声信号110の入力を受け、バイスペクトル分析部120は、バイスペクトル分析部20と同様の処理によって、式(1)で表わされる、学習音声信号のバイスペクトル(第2バイスペクトル信号)を得る。次に、特徴量算出処理部130は、学習音声信号のバイスペクトルを基に、特徴量算出処理部30と同様の処理によって、特徴量を抽出する。即ち、平均値計算処理部132が式(2)で表わされる平均値計算処理を行ない、その結果に対してフィルタバンク分析処理部134がメルフィルタバンク処理即ち式(3)による周波数軸変換処理を行ない、その結果を用いて離散コサイン変換処理部136が離散コサイン変換分析処理を行なう。その結果、学習音声信号110に基づくバイスペクトル特徴量150(学習音声特徴量)が得られる。
具体例としては、隠れマルコフモデル(HMM)に基づき、モノフォンあるいはトライフォンに対する特徴量の確率分布のデータを音響モデルとして構築して音響モデル情報記憶部180に記憶させる。
図2は、バイスペクトル分析によって得られたバイスペクトルを平均値計算する処理のしかたの概略を表わす概略図である。
パワースペクトルでは、各周波数成分の強さだけが情報として得られるのに対して、バイスペクトルは複素数であり、3つの周波数成分f1とf2とf1+f2の従属性を示す量が得られる。ガウス性時系列信号では、バイスペクトルは0となり、非ガウス性時系列信号では統計的な変動による音声の構造を表わしている。
次に、本発明の第2の実施形態について図面を参照しながら説明する。
図3は、本発明の第2の実施形態による音声認識装置の機能構成を示すブロック図である。なお、前記実施形態と同様な構成の部分については同じ符号を用いて表して説明を省略し、特徴点のみを詳細に説明する。
本実施形態では、フィルタバンク分析処理部35が、バイスペクトル分析部20で得られたバイスペクトル(第1バイスペクトル信号)の各周波数(f1およびf2)に対してそれぞれ、前記の式(3)による周波数軸変換(メルフィルタ分析処理)を行なう。そして、フィルタバンクチャネル数SでS個に量子化する。
つまり、フィルタバンク分析処理部35は、バイスペクトルの各周波数方向にフィルタバンク分析処理して近傍平均処理する。
そして、離散コサイン変換処理部37は、上の2次元のメルフィルタ分析処理の結果を用いて2次元離散コサイン変換を行い、その低次の次数をバイスペクトル特徴量51(入力音声特徴量)として出力する。
つまり、当実施形態における特徴量算出処理部30は全体として、バイスペクトルの重み付き近傍平均処理(局所毎に平均値処理)することによって入力音声特徴量を算出している。
次に、本発明の第3の実施形態について図面を参照しながら説明する。
図4は、本発明の第3の実施形態による音声認識装置の機能構成を示すブロック図である。なお、前記実施形態と同様な構成の部分については同じ符号を用いて表して説明を省略し、特徴点のみを詳細に説明する。
図4において、音声認識装置1cの構成の特徴は、MFCC・PLP算出部60(入力パワースペクトル特徴量算出処理部)およびMFCC・PLP算出部160を有する点である。MFCC・PLP算出部60および160は、それぞれ個別に設ける形態であっても良く、また単一のMFCC・PLP算出部として設けて共用としても良い。MFCC・PLP算出部60は、認識対象音声信号10をパワースペクトル分析することによって、認識対象音声信号10に対応する特徴量として、パワースペクトル特徴量を算出する。パワースペクトル特徴量の例は、MFCC(Mel-Frequency Cepstrum Coefficient,メル周波数ケプストラム係数)およびPLP(Perceptual Linear Predictive,知覚線形予測)である。一方で、MFCC・PLP算出部160は、同様に、学習音声信号110に対応する特徴量として学習パワースペクトル特徴量(MFCCおよびPLP)を算出する。
以後の音響モデル学習処理および音声認識処理においては、バイスペクトル特徴量とMFCC、PLPを連結(図4における「+」記号の部分)した特徴量により音声認識を行なう。言うまでもなく、特徴量を連結することにより、バイスペクトル特徴量による特徴空間とMFCC、PLPによる特徴空間の積空間における探索および認識処理が行なえる。
また、ここではMFCCおよびPLPの両方を用いた認識処理を行なう形態を説明したが、MFCCあるいはPLPのいずれか一方とバイスペクトル特徴量とを連結して得られる特徴量を用いて認識処理を行なうようにしても良い。
図5の符号5aは、入力される音声信号(認識対象音声信号10または学習音声信号110)の振幅を表わす。横軸は時間(t)である。図示する例は、ヒトが「どおいったねらいがあるんでしょうか」と発話したときの音声を用いている。
5bは、比較のための参考グラフであり、5aの入力音声信号をフーリエ変換したときのパワースペクトルを表わす。横軸は5aと対応した時間であり、縦軸は音声周波数である。そして、この平面に表わされているグレースケールの濃淡が周波数のパワーを表わす。
5cは、5aの入力音声信号をバイスペクトル分析した結果であり、前記発話の中の「お」(o)、「た」の母音部(a)、「ね」の子音部(n)、「い」(i)、「あ」(a)、「ん」(N)、「しょ」の子音部(sh)、「か」の子音部(k)、「か」の母音部(a)の各領域に対応する9個のグラフである。これらの各グラフの縦軸および横軸は周波数(f1およびf2)である。前記の式(1)からも明らかなように、f1=f2で表わされる直線に対して線対称なパターンが表れている。
例えば、図5の5cの母音「お」(「o」)の音声区間から得られたバイスペクトルでは、基本周波数とその倍音成分の相関の高い部分が格子状に表れている。
図6の符号6aは入力音声信号の振幅を表わす。横軸は時間である。この例では、入力音声信号は、ヒトが「まず、こちらをごらんください」(mazu kochirao goraNkudasai)と発話した音声とヘリコプター音とをSNR(信号対雑音比、Signal to Noise Ratio)0dB(デシベル)で合成したものである。
6bは、6aの入力音声信号をFFT(高速フーリエ変換)したときのパワースペクトルを表わす。横軸は6aと対応した時間であり、縦軸はメルフィルタバンク処理した周波数軸である。そして、この平面に表わされているグレースケールの濃淡が周波数のパワーを表わす。
一方で、6cは、バイスペクトルに基づく特徴量を表わす。横軸は6a、6bと対応した時間であり、縦軸は前記の式(2)によって平均値化処理したときの周波数f3をメルフィルタバンク処理した周波数軸である。そして、この平面に表わされている濃淡が、平均値化処理したバイスペクトルベースの特徴量である。
10 認識対象音声信号 x’(t)
20 バイスペクトル分析部
30 特徴量算出処理部
32 平均値計算処理部
34,35 フィルタバンク分析処理部
36,37 離散コサイン変換処理部
50,51 バイスペクトル特徴量
60 MFC・PLP算出部
82 言語モデル
84 発音辞書
90,91,92 音声認識部
110 学習音声信号 x(t)
120 バイスペクトル分析部
130 特徴量算出処理部
132 平均値計算処理部
134,135 フィルタバンク分析処理部
136,137 離散コサイン変換処理部
150,151 バイスペクトル特徴量
160 MFC・PLP算出部
170,171,172 バイスペクトル音響モデル学習部
180,181,182 音響モデル情報記憶部
Claims (6)
- 入力音声信号をバイスペクトル分析して第1バイスペクトル信号を出力するバイスペクトル分析部と、
前記バイスペクトル分析部が出力した前記第1バイスペクトル信号を局所毎に平均値処理することによって入力音声特徴量を算出する特徴量算出処理部と、
学習音声信号をバイスペクトル分析して得られた第2バイスペクトル信号を局所毎に平均値処理して得られた学習音声特徴量と、当該学習音声信号に対応する正解認識結果とを関連付けてなる音響モデル情報を予め記憶する音響モデル情報記憶部と、
前記特徴量算出処理部によって算出された前記入力音声特徴量と、前記音響モデル情報記憶部から読み出した前記学習音声特徴量とに基づき、前記入力音声信号の認識結果を決定する認識部と、
を備え、
前記特徴量算出処理部は、
前記第1バイスペクトル信号についてバイスペクトルの周波数の和毎の平均値を算出する平均値計算処理部と、
前記平均値計算処理部が算出した前記バイスペクトルの周波数の和毎の平均値をフィルタバンク分析処理する第1フィルタバンク分析処理部と、
前記第1フィルタバンク分析処理部によるフィルタバンク分析処理の結果を離散コサイン変換分析処理することによって前記入力音声特徴量を算出する第1離散コサイン変換処理部と、で構成され、
前記音響モデル情報記憶部に記憶されている前記音響モデル情報は、前記第2バイスペクトル信号についてのバイスペクトルの周波数の和毎の平均値に基づく前記学習音声特徴量と、前記正解認識結果とを関連付けてなるものである
ことを特徴とする音声認識装置。 - 入力音声信号をバイスペクトル分析して第1バイスペクトル信号を出力するバイスペクトル分析部と、
前記バイスペクトル分析部が出力した前記第1バイスペクトル信号を局所毎に平均値処理することによって入力音声特徴量を算出する特徴量算出処理部と、
学習音声信号をバイスペクトル分析して得られた第2バイスペクトル信号を局所毎に平均値処理して得られた学習音声特徴量と、当該学習音声信号に対応する正解認識結果とを関連付けてなる音響モデル情報を予め記憶する音響モデル情報記憶部と、
前記特徴量算出処理部によって算出された前記入力音声特徴量と、前記音響モデル情報記憶部から読み出した前記学習音声特徴量とに基づき、前記入力音声信号の認識結果を決定する認識部と、
を備え、
前記特徴量算出処理部は、
前記第1バイスペクトル信号をバイスペクトルの各周波数方向にフィルタバンク分析処理して近傍平均処理する第2フィルタバンク分析処理部と、
前記第2フィルタバンク分析処理部によるフィルタバンク分析処理の結果を2次元離散コサイン変換処理することによって前記入力音声特徴量を算出する第2離散コサイン変換処理部と、で構成され、
前記音響モデル情報記憶部に記憶されている前記音響モデル情報は、前記第2バイスペクトル信号をバイスペクトルの各周波数方向にフィルタバンク分析処理して近傍平均処理した結果に基づく前記学習音声特徴量と、前記正解認識結果とを関連付けてなるものである
ことを特徴とする音声認識装置。 - 請求項1に記載の音声認識装置であって、
学習音声信号をバイスペクトル分析し、これにより得られた第2バイスペクトル信号を元にバイスペクトルの周波数の和毎の平均値を算出し、これにより得られた学習音声特徴量と、当該学習音声信号に対応する正解認識結果とを関連付けてなる音響モデル情報を、音響モデル情報記憶部に書き込む学習音声分析部を更に備えることを特徴とする音声認識装置。 - 請求項2に記載の音声認識装置であって、
学習音声信号をバイスペクトル分析し、これにより得られた第2バイスペクトル信号を元にバイスペクトルの各周波数方向にフィルタバンク分析処理して近傍平均処理し、これにより得られた学習音声特徴量と、当該学習音声信号に対応する正解認識結果とを関連付けてなる音響モデル情報を、音響モデル情報記憶部に書き込む学習音声分析部を更に備えることを特徴とする音声認識装置。 - 入力音声信号のデータをバイスペクトル分析して第1バイスペクトル信号のデータを出力するバイスペクトル分析過程と、
前記バイスペクトル分析部が出力した前記第1バイスペクトル信号のデータを局所毎に平均値処理することによって入力音声特徴量を算出する特徴量算出処理過程と、
学習音声信号のデータをバイスペクトル分析して得られた第2バイスペクトル信号のデータを局所毎に平均値処理して得られた学習音声特徴量と、当該学習音声信号のデータに対応する正解認識結果とを関連付けてなる音響モデル情報を予め記憶する音響モデル情報記憶部から前記学習音声特徴量を読み出す読み出し過程と、
前記特徴量算出処理部によって算出された前記入力音声特徴量と、前記音響モデル情報記憶部から読み出した前記学習音声特徴量とに基づき、前記入力音声信号の認識結果を決定する認識過程と、
の処理をコンピュータに実行させる音声認識プログラムであって、
前記特徴量算出処理過程は、
前記第1バイスペクトル信号についてバイスペクトルの周波数の和毎の平均値を算出する平均値計算処理過程と、
前記平均値計算処理過程が算出した前記バイスペクトルの周波数の和毎の平均値をフィルタバンク分析処理する第1フィルタバンク分析処理過程と、
前記第1フィルタバンク分析処理過程によるフィルタバンク分析処理の結果を離散コサイン変換分析処理することによって前記入力音声特徴量を算出する第1離散コサイン変換処理過程と、で構成され、
前記音響モデル情報記憶部に記憶されている前記音響モデル情報は、前記第2バイスペクトル信号についてのバイスペクトルの周波数の和毎の平均値に基づく前記学習音声特徴量と、前記正解認識結果とを関連付けてなるものである
ことを特徴とする音声認識プログラム。 - 入力音声信号のデータをバイスペクトル分析して第1バイスペクトル信号のデータを出力するバイスペクトル分析過程と、
前記バイスペクトル分析部が出力した前記第1バイスペクトル信号のデータを局所毎に平均値処理することによって入力音声特徴量を算出する特徴量算出処理過程と、
学習音声信号のデータをバイスペクトル分析して得られた第2バイスペクトル信号のデータを局所毎に平均値処理して得られた学習音声特徴量と、当該学習音声信号のデータに対応する正解認識結果とを関連付けてなる音響モデル情報を予め記憶する音響モデル情報記憶部から前記学習音声特徴量を読み出す読み出し過程と、
前記特徴量算出処理部によって算出された前記入力音声特徴量と、前記音響モデル情報記憶部から読み出した前記学習音声特徴量とに基づき、前記入力音声信号の認識結果を決定する認識過程と、
の処理をコンピュータに実行させる音声認識プログラムであって、
前記特徴量算出処理過程は、
前記第1バイスペクトル信号をバイスペクトルの各周波数方向にフィルタバンク分析処理して近傍平均処理する第2フィルタバンク分析処理過程と、
前記第2フィルタバンク分析処理過程によるフィルタバンク分析処理の結果を2次元離散コサイン変換処理することによって前記入力音声特徴量を算出する第2離散コサイン変換処理過程と、で構成され、
前記音響モデル情報記憶部に記憶されている前記音響モデル情報は、前記第2バイスペクトル信号をバイスペクトルの各周波数方向にフィルタバンク分析処理して近傍平均処理した結果に基づく前記学習音声特徴量と、前記正解認識結果とを関連付けてなるものである
ことを特徴とする音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007054272A JP4762176B2 (ja) | 2007-03-05 | 2007-03-05 | 音声認識装置および音声認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007054272A JP4762176B2 (ja) | 2007-03-05 | 2007-03-05 | 音声認識装置および音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008216659A JP2008216659A (ja) | 2008-09-18 |
JP4762176B2 true JP4762176B2 (ja) | 2011-08-31 |
Family
ID=39836771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007054272A Expired - Fee Related JP4762176B2 (ja) | 2007-03-05 | 2007-03-05 | 音声認識装置および音声認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4762176B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5881454B2 (ja) * | 2012-02-14 | 2016-03-09 | 日本電信電話株式会社 | 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6292776B1 (en) * | 1999-03-12 | 2001-09-18 | Lucent Technologies Inc. | Hierarchial subband linear predictive cepstral features for HMM-based speech recognition |
-
2007
- 2007-03-05 JP JP2007054272A patent/JP4762176B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008216659A (ja) | 2008-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4586577B2 (ja) | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム | |
CN107633851B (zh) | 基于情感维度预测的离散语音情感识别方法、装置及*** | |
CN111048071B (zh) | 语音数据处理方法、装置、计算机设备和存储介质 | |
US20080167862A1 (en) | Pitch Dependent Speech Recognition Engine | |
Pawar et al. | Review of various stages in speaker recognition system, performance measures and recognition toolkits | |
KR101236539B1 (ko) | 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법 | |
US11929058B2 (en) | Systems and methods for adapting human speaker embeddings in speech synthesis | |
Nanavare et al. | Recognition of human emotions from speech processing | |
EP1511007A2 (en) | Vocal tract resonance tracking using a nonlinear predictor and a target-guided temporal constraint | |
CN111489763B (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
CN113782032B (zh) | 一种声纹识别方法及相关装置 | |
KR100897555B1 (ko) | 음성 특징벡터 추출장치 및 방법과 이를 채용하는음성인식시스템 및 방법 | |
Hachkar et al. | A comparison of DHMM and DTW for isolated digits recognition system of Arabic language | |
JP4762176B2 (ja) | 音声認識装置および音声認識プログラム | |
JP4571871B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
JP2011033879A (ja) | サンプルを用いずあらゆる言語を識別可能な識別方法 | |
Płonkowski | Using bands of frequencies for vowel recognition for Polish language | |
US20090063149A1 (en) | Speech retrieval apparatus | |
JP4362072B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
Chiu et al. | A micro-control device of soundscape collection for mixed frog call recognition | |
JP6234134B2 (ja) | 音声合成装置 | |
Bahja et al. | An overview of the cate algorithms for real-time pitch determination | |
Allosh et al. | Speech recognition of Arabic spoken digits | |
JP7333878B2 (ja) | 信号処理装置、信号処理方法、及び信号処理プログラム | |
Lee | A unit selection approach for voice transformation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090319 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110107 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110414 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110510 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110607 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140617 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |