JP2006084665A - オーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体 - Google Patents
オーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体 Download PDFInfo
- Publication number
- JP2006084665A JP2006084665A JP2004268194A JP2004268194A JP2006084665A JP 2006084665 A JP2006084665 A JP 2006084665A JP 2004268194 A JP2004268194 A JP 2004268194A JP 2004268194 A JP2004268194 A JP 2004268194A JP 2006084665 A JP2006084665 A JP 2006084665A
- Authority
- JP
- Japan
- Prior art keywords
- power value
- periodic component
- vector
- band
- periodic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】音声信号をフィルタバンク11により複数の帯域信号に分割し、各帯域信号の非周期成分パワー(13,14,15A)と、周期成分パワー(15F,16)とを求め、周期成分、非周期成分パワーの各雑音区間をそれぞれ時間平均手段21P,21Aで長時間平均し、これら周期成分,非周期成分長時間平均で、周期成分,非周期成分パワーをそれぞれ減算し、これら周期成分,非周期成分の減算結果をそれぞれ離散コサイン変換し(18P,18A)、周期成分,非周期成分離散コサイン係数の各時間的又は/及び次数番的に少なくとも一部をベクトル連結して特徴パラメータとする。
【選択図】図8
Description
帯域通過フィルタバンク11では、複数の帯域通過デジタルフィルタ111,…,11Bを用いて、入力された離散音声信号を帯域分割して出力する(ステップS1)。ここで用いられる帯域通過フィルタバンク11は、例えば聴知覚の特性に基づく、等価矩形帯域幅の大きさに対応した中心周波数を持つガンマトーンフィルタバンクを用いるとよい(M.Slaney,“An Efficient Implementation of the Patterson-Holdsworth Auditory Filter Bank,”Apple Computer Technical Report #35,1993)。このガンマトーンフィルタバンクでは、帯域通過フィルタ11b(b=1,…,B)であるガンマトーンフィルタを、通過帯域が重なり合うように、かつそれぞれのフィルタの中心周波数が等価矩形帯域幅の大きさ(おおよそ対数スケール)に従うように、例えば24帯域分用意する。このフィルタバンク11の各フィルタの周波数特性の例を図3に示す。図3には複数の帯域通過フィルタ111,…,1124(ガンマトーンフィルタ)の周波数特性が同時に示されている。入力である離散音声信号をフィルタバンク11中のそれぞれの帯域通過フィルタ111,…,11Bでフィルタ処理した結果としてフィルタ数Bだけの離散信号が帯域通過フィルタバンク11から出力される。帯域通過フィルタバンク11の入力信号と出力信号の例として、帯域通過フィルタ11bとして図3に示した24個のフィルタ特性のうちの3つの特性をそれぞれもつガンマトーンフィルタを用いた場合を図4に示す。図4Aは入力離散音声信号の時間的変化を示す波形を示し、図4Bは中心周波数がfc1,fc2及びfc3の帯域通過フィルタ11bの各周波数特性をそれぞれ示し、図4Cはこれら3つの帯域通過フィルタの各出力信号波形をそれぞれ示す。
図5Aに入力信号波形の例を、図5Bにこの自己相関関数係数をそれぞれ示す。次に、この自己相関関数係数におけるiの一定の探索範囲内、例えば80≦i≦200(サンプリング周波数16,000Hzの場合の80Hzから200Hzの周期に該当)の範囲内においてaciが最大となるiを検出する。その結果得られたiをnとする。このnは入力信号の探索範囲において最も支配的な周期性成分の周期長を表し、入力信号が単一の完全な周期信号(例えば正弦波)の場合にはその周期長に相当する値になる。周期推定手段13の各周期推定部131,…,13Bから各推定周期nが出力される。
H(z)=1−z-n
音声波形切出手段12の出力信号をこの離散櫛型フィルタによってフィルタ処理することで得られる出力信号は、その櫛型フィルタの周波数特性における零点に相当する部分(基本周波数成分とその整数倍の周波数成分)のパワーが抑圧された離散信号となる。各周期推定部13b(b=1,…,B)で推定された周期nは櫛型フィルタ手段14の対応するフィルタ部14bに設定され、各切出部12bよりの分析区間ごとの帯域離散音声信号が対応するフィルタ部14bに入力される。図4に示した帯域通過周波数特性中から選んだ3個と帯域通過フィルタの出力信号を音声波形切出手段12によりそれぞれ切り出した信号波形例を図6Aに、これら信号からそれぞれ推定された周期に設定された離散櫛型フィルタのそれぞれの周波数特性を図6Bに、その各フィルタ処理された各出力信号を図6Cにそれぞれ示す。
W=Σj=1 Nsj 2
減算手段16の各減算部16bでは、パワー算出手段15Fの各計算部15Fbの出力パワー値、つまり音声波形切出手段12の切出部12bの出力信号のパワー値WPbから、対応するパワー算出手段15Aの計算部15Abの出力パワー値、つまり切出部12bの出力に対応する櫛型フィルタ手段14のフィルタ部14bの出力信号から算出されたパワー値WAbを減算する(ステップS6)。この結果、各減算部16bから櫛型フィルタ手段14の各フィルタ部14bによって抑圧された周波数成分のパワー値(powersp)、すなわち各帯域離散音声信号の周期成分パワー値WPbを求めることができる。この減算操作を次式に示す。
周期成分パワーベクトル化手段17Pは各周期成分パワーWPbが入力され、これらをその対応帯域通過フィルタ11b(b=1,…,B)の中心周波数順に整列したベクトルとし、非周期成分パワーベクトル化手段17Aは同様に各非周期成分パワーWAbをベクトルとする(ステップS7)。離散コサイン変換手段18Pでは、周期成分パワーベクトルに対しその対数値を取って離散コサイン変換を行う(この離散コサイン変換については例えば鹿野他2名著、“音声認識システム”、オーム社,2001年発行,14頁参照)。同様に離散コサイン変換手段18Aは非周期成パワーベクトルを離散コサイン変換する(ステップS8)。例えば24帯域分の帯域通過フィルタ11bを用いた場合、WPbおよびWAbはそれぞれ24通り算出される。これらをそれぞれ対応する帯域通過フィルタの中心周波数順に整列し、それぞれ24次元のベクトルとして扱う。その各ベクトルに対し、離散コサイン変換を例えば下記の式に従って行う。
Kentaro Ishizuka,Noboru Miyazaki,"Speech feature extraction method representing periodicity and aperiodicity in sub bands for robust speech recognition ,"Proceedings of the 29th International Conference on Acoustics, Speech,and Signal Processing,Vol.1,pp.141-144,2004. Xuedong Huang,Alex Acero,Hsiao-Wuen Hon,"Spoken Language Processing," Prentice-Hall,2001.516〜519頁
一方、非特許文献2に示す方法は、雑音のパワースペクトル(パワー値ベクトル)長時間平均が一定に近づくことを前提とするものであるが、特徴パラメータの抽出にパワースペクトルの形状を利用するものであり、全体として処理しているため、パワースペクトルの一部の急激な変動などの影響を受け易く、音声特徴を十分表わした特徴パラメータを抽出することができず、高い認識精度が得られない。
[第1実施形態]
この発明の第1実施形態の機能構成例を図8に、処理手順の例を図9にそれぞれ示す。
入力端子100よりの入力音声信号は信号分析装置10内の帯域通過フィルタバンク11に入力される。この入力音声信号は帯域通過フィルタバンク11で帯域分割され各帯域信号は櫛型フィルタ14にてフィルタ処理され、各帯域信号の周期成分パワー値WPb及び非周期成分パワー値WAbがそれぞれ計算され、更に周期成分パワー値ベクトルWP及び非周期成分パワー値ベクトルWAがそれぞれ得られる構成及び処理手順は図1及び図2に示したものと同様である。
NWPb(τ)=WPsb(τ)−φb(τ)・WPn (2)
ここでφb(τ)は減算する際に時間平均パワー値に乗じる重みで、例えば2を用いる。
またはNWPb(τ)が負の値を取らないように、次式を計算する。ここでμは定数で例えば0.1を用いる。
NWPb(τ)=Wsb(τ)−φb(τ)・WPn (3)
その他の場合 NWPb(τ)=μ・WPn
この減算を全てまたは一部のτ、および全てまたは一部のbについて求める。
同様に非周期成分パワー値ベクトルWAについても時間平均手段21Aにおいて、雑音区間の時間平均、つまり式(1)と同様な計算により非周期成分時間平均パワー値ベクトルWAnが計算され(ステップS13)、減算手段22Aにおいて、音声区間の非周期成分パワー値ベクトルWAsから非周期成分時間平均パワー値ベクトルWAnが減算され、式(2)又は(3)と同様な計算により、NWAb(τ)が全てまたは一部のτ、および全てまたは一部のbについて求められる(ステップS14)。
これらは離散コサイン変換手段18P及び18Aでそれぞれ離散コサイン変換される(ステップS15)。この離散コサイン変換は従来技術の項で示したものと同様であり、例えば減算手段22Pよりの減算結果ベクトルに対する変換は次式の計算により行われる。
離散コサイン変換手段18P及び18Aからの周期成分離散コサイン係数ベクトル及び非周期成分離散コサイン係数ベクトルのそれぞれ一部または全体がベクトル連結手段19で一連のベクトルとして連結され、分析結果(特徴パラメータ)として出力される(ステップS16)。例えば24次元の各周期成分係数ベクトル、非周期成分係数ベクトルからそれぞれ次数の低い方から12次元の係数が連結され、24次元ベクトルとして出力される。
[変形実施形態]
以下にこの発明の変形例を説明する。図8中に1点鎖線で示すように、離散コサイン変換手段18P及び18Aを省略して、減算手段22P及び20Aの各歪補正された周期成分パワー値ベクトル及び非周期成分パワー値ベクトルをベクトル連結手段19へ直接入力してもよい。この場合は図9中に1点鎖線で示すように、ステップS15が省略され、ステップS14からステップS16へ直ちに移る。
[第2実施形態]
第2実施形態は第1実施形態、変形実施形態のいずれかにより入力音声信号を分析して音声認識を行う装置および方法の実施形態である。第2実施形態の機能構成例を図11に、処理手順を図12にそれぞれ示す。この例ではこの音声認識装置60の入力端子200に学習音声データが入力され(ステップS51)、学習処理がされる。つまりこの学習音声データは信号分析部62で分析され、特徴パラメータが抽出される(ステップS52)。入力端子200に入力される学習音声データや認識されるべき音声信号は所定のサンプリング周波数でサンプリングされ、ディジタル値とされた信号系列である。信号分析部62は第1実施形態、変形実施形態のいずれかと同様な信号分析装置であり、学習音声データの特徴パラメータが信号分析部62から出力される。
次に入力端子200に認識されるべき音声信号が入力され(ステップS54)、その入力音声信号は信号分析部62で特徴パラメータが抽出される(ステップS55)。
この例ではまず学習音声データによる標準パターンの学習を行ったが、信号分析部62で抽出される特徴パラメータと同一種類の特徴パラメータによりあらかじめ生成された標準パターンが格納された標準パターン記憶部66を用い、つまり図20において、ステップS51〜ステップS53を省略し、入力された音声信号の認識のみを行うものでもよい。その場合はパターン識別部64は認識処理のみを行う。
第1実施形態および変形実施形態の各オーディオ信号分析装置、第2実施形態の音声認識装置はいずれも、コンピュータにより機能させることができる。コンピュータに、例えば図8に示したオーディオ信号分析装置としてコンピュータを機能させるためのプログラムを磁気ディスク、CD−ROM、半導体記憶装置などの記録媒体からインストールし、または通信回線を介してダウンロードし、そのプログラムをそのコンピュータに実行させればよい。なおコンピュータを分析装置あるいは認識装置として機能させる場合はその対象信号を一旦コンピュータ内の記憶装置に取り込んだ後、処理することになる。
[実験例]
以下にこの発明の効果を示すために、この発明による音声信号分析方法によって得られた音声特徴パラメータを用いた音声認識装置と、[従来の技術]項に記載の非特許文献1に示す音声認識装置(単に従来装置という)の、雑音下での数字認識における音声認識精度を比較したのちに行った実験を説明する。
パターン(学習)識別部64での学習処理には16状態24ガウス分布混合の数字HMMを用い、前記AURORA−2Jに付属する学習音声データ中の8,440発話の雑音が混入した数字読み上げ学習音声データとHMM学習用スクリプト(学習プログラム)とを用いHMM学習を行った。また、同様にAURORA−2Jに付属する評価データにおいて雑音下での数字読み上げ音声のうち強い加法性歪を伴う自動車中雑音が音声と同じパワーで重畳されている評価データ(信号対雑音比0dB、1,001発話)を用い雑音下での数字認識精度の評価を行った。
従来との差の理由
図7に示した従来手法においては、離散フーリエ変換の結果得られる、パワースペクトルの時間平均を入力音声信号から減算することにより、雑音の影響をまず軽減した後に、各三角窓のパワー演算、ならびにその音声特徴パラメータへの変換を行っている。これは雑音のパワースペクトル長時間平均が一定に近づくことを前提としている。
しかし、周期成分と非周期成分とに分離して、各帯域ごとにパワー値を求める場合においても、bやτの一部についてみれば雑音のパワー値ベクトルの長時間平均が一定値に近づくことに注目して、この発明を完成したものである。つまり、図8にしめした第1実施形態の装置においては減算手段22P、22Aでは雑音のパワー値ベクトルが長時間平均で一定の値に近づく性質を持つものに限ることができ、τ及びbについて一部のパワー値ベクトルのみについての減算を行うことにより、加法性歪の影響を効果的に補正することができる。
Claims (6)
- 入力オーディオ信号をフィルタ処理して複数の帯域信号に分割する帯域通過フィルタバンクと、
上記各帯域信号に含まれる基本周期を推定する基本周期推定部と、
上記各基本周期がそれぞれ設定され、その各帯域信号を阻止及び通過の一方のフィルタ処理をしてその帯域信号に含まれる周期成分及び非周期成分の対応する一方を出力する櫛型フィルタと、
各帯域の周期成分及び非周期成分の上記一方のパワーを計算する第1パワー計算手段と、
上記各帯域信号のパワーを計算する第2パワー計算手段と、
上記第2パワー計算部の出力パワー値から上記第1パワー計算部の出力パワー値を減算して上記各帯域の周期成分及び非周期成分の他方を出力する減算手段と、
上記各帯域の周期成分パワー値及び上記各帯域の非周期成分パワー値をそれぞれベクトル化する第1及び第2ベクトル化手段と、
上記オーディオ信号が含まれない区間の上記周期成分パワー値ベクトルの少くとも一部を時間平均して周期成分時間平均パワー値ベクトルを計算する第1時間平均手段と、
上記周期成分パワー値ベクトルの上記少くとも一部から上記周期成分時間平均パワー値ベクトルの対応するものを減算する第2減算手段と、
上記オーディオ信号が含まれない区間の上記非周期成分パワー値ベクトルの少くとも一部を時間平均して非周期成分時間平均パワー値ベクトルを計算する第2時間平均手段と、
上記非周期成分パワー値ベクトルの上記少くとも一部から上記非周期成分時間平均パワー値ベクトルの対応するものを減算する第3減算手段と、
上記第2減算手段の減算結果と上記第3減算手段の減算結果をベクトル連結して分析結果として出力するベクトル連結手段と
を具備するオーディオ信号分析装置。 - 請求項1記載の装置において、
上記第2減算手段と上記ベクトル連結手段との間に挿入され、上記第2減算手段の減算結果を離散コサイン変換して離散コサイン係数ベクトルとして上記ベクトル連結手段へ出力する第1離散コサイン変換手段と、
上記第3減算手段と上記ベクトル連結手段との間に挿入され、上記第3減算手段の減算結果を離散コサイン変換して離散コサイン係数ベクトルとして上記ベクトル連結手段へ出力する第2離散コサイン変換手段とを具備することを特徴とするオーディオ信号分析装置。 - 入力オーディオ信号をフィルタ処理して複数の帯域信号に分割する第1過程と、
上記各帯域信号に含まれる基本周期を推定する第2過程と、
上記各帯域信号をその上記推定した基本周期に基づき櫛型フィルタ処理してその帯域信号に含まれる周期成分及び非周期成分の一方を得る第3過程と、
各帯域の周期成分及び非周期成分の上記一方のパワー値及び上記各帯域信号のパワー値をそれぞれ計算する第4過程と、
上記各帯域信号のパワー値から上記一方のパワー値を減算して上記各帯域の周期成分及び非周期成分の他方のパワー値を求める第5過程と、
上記各帯域の周期成分パワー値及び上記各帯域の非周期成分パワー値をそれぞれベクトル化する第6過程と、
上記オーディオ信号が含まれない区間の上記周期成分パワー値ベクトルの少くとも一部及び上記非周期成分パワー値ベクトルの少くとも一部をそれぞれ時間平均して周期成分時間平均パワー値ベクトル及び非周期成分時間平均パワー値ベクトルを求める第7過程と、
上記周期成分パワー値ベクトルの上記少くとも一部及び上記非周期成分パワー値ベクトルの上記少くとも一部から上記周期成分時間平均パワー値ベクトルの対応するもの及び上記非周期成分時間平均パワー値ベクトルの対応するものを減算する第8過程と、
上記第8過程の減算結果をベクトル連結して分析結果とする第9過程と
を有するオーディオ信号分析方法。 - 請求項3記載の方法において、
上記第9過程のベクトル連結は、
上記第8過程における上記周期成分パワー値ベクトルの減算結果及び上記非周期成分パワー値ベクトルの減算結果をそれぞれ離散コサイン変換し、これら変換結果の離散コサイン係数ベクトルをベクトル連結する過程であることを特徴とするオーディオ信号分析方法。 - 請求項1又は2に記載のオーディオ信号分析装置としてコンピュータを機能させるためのプログラム。
- 請求項5記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004268194A JP2006084665A (ja) | 2004-09-15 | 2004-09-15 | オーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004268194A JP2006084665A (ja) | 2004-09-15 | 2004-09-15 | オーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006084665A true JP2006084665A (ja) | 2006-03-30 |
Family
ID=36163248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004268194A Pending JP2006084665A (ja) | 2004-09-15 | 2004-09-15 | オーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006084665A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006215228A (ja) * | 2005-02-03 | 2006-08-17 | Nippon Telegr & Teleph Corp <Ntt> | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 |
-
2004
- 2004-09-15 JP JP2004268194A patent/JP2006084665A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006215228A (ja) * | 2005-02-03 | 2006-08-17 | Nippon Telegr & Teleph Corp <Ntt> | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 |
JP4571871B2 (ja) * | 2005-02-03 | 2010-10-27 | 日本電信電話株式会社 | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109147796B (zh) | 语音识别方法、装置、计算机设备及计算机可读存储介质 | |
US10565970B2 (en) | Method and a system for decomposition of acoustic signal into sound objects, a sound object and its use | |
US8326610B2 (en) | Producing phonitos based on feature vectors | |
CN109256138B (zh) | 身份验证方法、终端设备及计算机可读存储介质 | |
EP0838805B1 (en) | Speech recognition apparatus using pitch intensity information | |
CN108847253B (zh) | 车辆型号识别方法、装置、计算机设备及存储介质 | |
CN110942766A (zh) | 音频事件检测方法、***、移动终端及存储介质 | |
JP2014126856A (ja) | 雑音除去装置及びその制御方法 | |
US8942977B2 (en) | System and method for speech recognition using pitch-synchronous spectral parameters | |
CN105144290B (zh) | 信号处理装置、信号处理方法和信号处理程序 | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
Bharath et al. | New replay attack detection using iterative adaptive inverse filtering and high frequency band | |
Loweimi et al. | Robust Source-Filter Separation of Speech Signal in the Phase Domain. | |
JP2010102129A (ja) | 基本周波数抽出方法、基本周波数抽出装置、およびプログラム | |
US6470311B1 (en) | Method and apparatus for determining pitch synchronous frames | |
Khonglah et al. | Speech enhancement using source information for phoneme recognition of speech with background music | |
JP4571871B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
CN116312561A (zh) | 一种电力调度***人员声纹识别鉴权降噪和语音增强方法、***及装置 | |
JP4537821B2 (ja) | オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体 | |
KR20050051435A (ko) | 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 | |
JP2006084665A (ja) | オーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体 | |
JP3916834B2 (ja) | 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法 | |
JP4760179B2 (ja) | 音声特徴量算出装置およびプログラム | |
VH et al. | A study on speech recognition technology | |
JP4362072B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060719 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060719 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090303 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090804 |