JP4685735B2 - 音響信号区間検出方法、装置、プログラム及びその記録媒体 - Google Patents

音響信号区間検出方法、装置、プログラム及びその記録媒体 Download PDF

Info

Publication number
JP4685735B2
JP4685735B2 JP2006238882A JP2006238882A JP4685735B2 JP 4685735 B2 JP4685735 B2 JP 4685735B2 JP 2006238882 A JP2006238882 A JP 2006238882A JP 2006238882 A JP2006238882 A JP 2006238882A JP 4685735 B2 JP4685735 B2 JP 4685735B2
Authority
JP
Japan
Prior art keywords
acoustic signal
value
section detection
detection method
linear prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006238882A
Other languages
English (en)
Other versions
JP2008058901A (ja
Inventor
比呂子 加藤
健太郎 石塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006238882A priority Critical patent/JP4685735B2/ja
Publication of JP2008058901A publication Critical patent/JP2008058901A/ja
Application granted granted Critical
Publication of JP4685735B2 publication Critical patent/JP4685735B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Auxiliary Devices For Music (AREA)

Description

本発明は、音声信号や楽音信号等の目的音声と雑音信号とが混じった音響信号から、目的信号が存在している時間区間を抽出する方法、特に音響信号から背景雑音を予測しその予測誤差信号に基づき目的信号が存在している時間区間を抽出する方法、装置、プログラム及びその記録媒体に関する。
車内や駅構内での雑音を背景にして収録された会話から音声を取り出したり、騒音の中で発せられた音声を携帯電話で符号化したりする場合、それらの雑音を抑圧し、高精度かつ高速に会話等の目的信号が存在する区間を推定する技術が必要となる。このような従来技術の代表例としては、例えば、VAD(Voice Activity Detector) algorithmを例示できる。このような従来の音響区間推定技術では、特徴量として信号の周波数スペクトル、全帯域エネルギー、帯域分割後の各帯域のエネルギー、信号波形の零交差数及びそれらの時間微分等を用い、この特徴量と所定の閾値とを比較すること等により音響区間の推定を行っていた(例えば、非特許文献1参照。)。また、背景雑音を一旦自己回帰モデル等でモデル化し、その予測誤差に対して、自己相関関数や、高次統計量を用いて目的信号を推定する手法が提案されている(例えば、非特許文献2,3参照)。
また、従来ファイナンスの分野において、株価収益率のボラリティ(変動)を分類するために研究された分散不均一モデル(例えば、非特許文献4参照。)が、近年、音声信号処理の分野において利用されている(例えば、非特許文献5、6、7参照。)。具体的には、線形予測誤差系列にGARCHモデルを適用して、GARCHモデルから推定された時間不均一な分散が急激に変化する区間には音声信号等の目的信号が存在する、急激に変化しない区間には目的信号が存在しないと判断することにより音響区間を検出する技術があった。
Benyassine, A., Shlomot, E., and Su, H-Y. "ITU-T recommendation G.729 Annex B: A silence compression scheme for use with G.729 optimized for V.70 digital simultaneous voice and data applications", IEEE Communication Magazine, pp. 64-73, September, 1997. Markel, J. D. "The SHIFT algorithm for fundamental frequency estimation", IEEE Trans. Audio Electroacoust., vol.AU-20,pp.367-377,1972. Nmer, E., Goubran, R., and Mahmoud, S. "Robust voice activity detection using higher-order statistics in the LPC residual domain", IEEE Trans. SAP, 9, 3, March, 217-231, 2001. Bollerslev, T. "Generalized autoregressive conditional heteroscedasticity", Journal of Econometrics, 51, pp.307-327, 1986. Cohen, I., "SuperGaussian GARCH models for speech signals", Proceedings of INTERSPEECH, pp.2053-2056, 2005. Abdolahi, M., and Amindavar, H. "GARCH coefficients as feature for speech recognition in Persian isolated digit," Proceedings of the 30th International Conference on Acoustics, Speech, and Signal Processing, vol. I, pp. 957-960, 2005. 加藤比呂子,石塚健太郎,「GARCHモデルを用いた音声区間検出手法の提案」,日本音響学会春季研究発表会,107−108,2006.
しかし、線形予測誤差に対して分散不均一モデルを適用する際には、そのモデルのパラメータを推定するために、いわゆる数値最適化法を用いる必要があるが、その計算処理には非常に時間がかかるという問題があった。
本発明によれば、線形予測誤差計算手段が、所定のサンプリング周波数でサンプリングされた音響信号についての線形予測誤差系列を求める。自己相関関数値計算手段が、kminとkmaxとを、kmin<kmaxの関係が成り立つ自然数とし、kをkmin以上kmax以下の自然数とし、上記線形予測誤差系列の各値を二乗した線形予測誤差の二乗系列について、各ラグkについての自己相関関数の値をそれぞれ求める。カウント手段が、各ラグkについての自己相関関数の値が、所定の値よりも大きいかどうかをそれぞれ判断し、大きいと判断された回数を出力する。判断手段が、上記カウントステップで出力された上記回数が所定の数よりも多い場合には、上記音響信号に音声信号や楽音信号が存在すると判断する、又は、上記カウントステップで出力された上記回数が所定の数よりも少ない場合には、上記音響信号に音声信号や楽音信号が存在しないと判断する。
線形予測誤差系列をモデル化せずに、その線形予測誤差系列の分散変動に対して直接的に特徴量を抽出することにより、より少ない計算量で、かつ、より短時間で、精度の高い音響区間の検出を行うことができる。
[原理]
音声信号や楽音信号等の目的信号が雑音信号に埋もれた音響信号系列をy(n=1,…,N)とすると、雑音信号系列x(n=1,…,N)、誤差系列z(n=1,…,N)は、
=x+z …(A)
の関係を満たす。
ここで、背景雑音は、音声信号や楽音信号等の目的信号と比べると定常的な信号であるため、下記の次数MのARモデルで記述することができる。例えば、M≒6とすると良い。
=Σm=1 n−m+ε …(B)
ここで、ε(n=1,…,N)は、平均0であり、未知分散σ の正規分布に従うとする。
最小二乗推定等の手法を用いることによって、上記ARモデルにおけるパラメータA(m=1,…,M)を求める。そして、実際に観測されたyから、そのパラメータを用いて上記式(B)により推定されるxを減算することによって、線形予測誤差系列z(n=1,…,N)を求める。
線形予測誤差系列z(n=1,…,N)を二乗した線形予測誤差の二乗系列z (n=1,…,N)についてのラグkの自己相関関数の値ρ
ρ=E(z n−k )/(z の分散)
を、例えばkmin<k<kmaxの範囲のすべての自然数kについて求める。自己相関関数の値は、時系列における時点間の関係の強さを直接示すものである。一般に、kが0よりも大きくなると、自己相関関数の値は0に近くなっていく。データから算出された標本自己相関関数の値は、厳密には0にはならないが、z の標準偏差の±2倍の範囲(95%信頼区間)に収まるものはほとんど0とみなし、その標本自己相関関数は有意ではないとする。しかし、その範囲を超えるものが多々ある場合には、標本自己相関関数はある傾向があるとする。
本発明では、線形予測誤差の二乗系列z (n=1,…,N)が、所定の値cを超えるものが多い場合、その傾向を捉えることができると考える。所定の値cとは、例えば、
各ラグkについての自己相関関数の値の標準偏差の約2倍の値、又は、約0.2〜0.5である。例えば、ラグkの自己相関関数の値ρと所定の値cの大小を比較し、下記のよ
うにcountを加算して行く。
Figure 0004685735
そして、すべてのkについて上記の大小関係を比較した結果、countの値が多ければ、その音響区間には、音声信号や楽音信号等の目的音声が含まれていると判断することができる。
[実施形態]
図1に、音響区間検出装置77の機能構成の例を示す。また、図3に、音響区間検出装置77の処理の例を示す。
音響区間検出装置77は、例えば、制御部10、記憶部15、信号受信部20、信号切出部25、線形予測誤差計算部30、自己相関関数値計算部35、カウント部40、判断部45を有する。自己相関関数値計算部35は、二乗部351を有する。カウント部40は、比較部401を有する。
記憶部15には、y(n=1,…,N)、A(m=1,…,M)、z(n=1,…,N)、z (n=1,…,N)、kmin、kmax、k、ρ、c、count、dを格納するための領域が設けられている。kmin、kmax、c、dについては所望の値に予め設定され格納されているものとする。例えば、kmin=40、kmax=200とすることができる。
記憶部15は、制御部10、記憶部15、信号受信部20、信号切出部25、線形予測誤差計算部30、自己相関関数値計算部35、カウント部40、判断部45と、データの読み書きが可能なように接続されている。
<ステップS0>
音響区間検出装置77の信号受信部20は、音声信号や楽音信号と、雑音信号とが混じった音響信号を受信する。受信した音響信号は、信号切出部25に出力される。または、受信した音響信号を記憶部15に格納する。
信号切出部25は、信号受信部20が受信した音響信号又は記憶部15から読み出した音響信号を、所定のサンプリング周波数、所定の量子化ビット数でサンプリングする。例えば、サンプリング周波数8kHz、量子化ビット数16ビットでサンプリングをする。信号切出部25はさらに、サンプル化され、離散化された音響信号を、フレーム分割する。ひとつのフレームは、N個のサンプルy,…,y,…,yから構成される。以下では、ひとつのフレームを構成するサンプルの列を、音響信号系列y(n=1,…,N)と呼ぶ。例えば、ひとつのフレームの長さは250msであり、2000個のサンプルy,…,y2000から構成される。フレームに分割された音響信号は、記憶部15に格納される。受信した音響信号が音声信号や楽音信号等の目的信号を含むかどうかの判断処理は、フレームを単位にして行われる。
<ステップS1>
線形予測誤差計算部30は、記憶部15から、あるフレームを構成する音響信号系列y(n=1,…,N)を読み出し、線形予測誤差系列z(n=1,…,N)を計算する。
図2は、線形予測計算部30の機能構成を例示する図であり、図5は、ステップS1を構成する各処理を例示する図である。
パラメータ推定部301(図2)は、雑音信号系列x(n=1,…,N)の代わりに、音響信号系列y(n=1,…,N)を上記式(B)に代入することにより、パラメータA(m=1,…,M)を求める。つまり、最初のフレームの音響信号系列y(n=1,…,N)等は、一般に目的信号が含まれていない。したがって、これらの音響信号系列y(n=1,…,N)は、雑音信号系列x(n=1,…,N)と同視することができる。また、上記式(B)のパラメータを推定するために用いた音響信号系列y(n=1,…,N)が目的信号を含む場合であっても、目的信号を含む音響信号系列y(n=1,…,N)に基づいて推定されたパラメータによって計算される線形予測誤差系列z(n=1,…,N)に対して、本実施形態による音響区間推定方法を用いることで、目的信号を含むかどうかを検証することができることが実験的に確認されている。このため、音響信号系列y(n=1,…,N)を用いて上記式(B)のパラメータを推定しても問題はない。
パラメータ推定部301は、例えば、最小二乗推定に基づく手法を用いてパラメータA(m=1,…,M)を求める(ステップS11、図5)。以下、最小二乗推定に基づく手法を用いてパラメータパラメータA(m=1,…,M)の求め方について説明する。
≪最小二乗推定≫
X,Z,θ,Eを下記のように定義すると、
Figure 0004685735
上記式(B)は、下記のように記述することができる。
X=Zθ+Ε …(C)
最小二乗推定では、誤差εの二乗の和を最小にするパラメータA(m=1,…,M)を求める。すなわち、・を、行列・の転置とすると、
J=Σn=M+1 ε =(X−Zθ)(X−Zθ)
を最小にするθを求めることによって、パラメータA(m=1,…,M)を求める。
具体的には、・−1を、行列・の逆行列とすると、
Figure 0004685735
という処理を行うことによって、パラメータ推定部301は、Jを最小にするθ’=(A,…,Aを求める(ステップS11、図5)。計算されたパラメータA(m=1,…,M)は、記憶部15に格納される。
なお、あるフレームで推定したARモデルのパラメータA(m=1,…,M)を、他のフレームでそのまま用いることにより、パラメータA(m=1,…,M)の計算を省略しても良い。
第一残差計算部302は、記憶部15から読み出したパラメータA(m=1,…,M)を用いて、線形予測残差系列zを計算する(ステップS12)。具体的には、記憶部15から読み出した音響信号系列y(n=1,…,N)から、上記式(C)により求まったx(n=1,…,N)を減算することによって、線形予測残差系列z(n=1,…,N)を求める。計算された線形予測残差系列z(n=1,…,N)は、記憶部15に格納される。
なお、カルマンフィルタ部303が、パラメータ推定部301が求めたパラメータA(m=1,…,M)を用いて、カルマンフィルタを適用することにより、線形予測残差系列z(n=1,…,N)を求めても良い。カルマンフィルタを用いることによって、線形予測残差z(n=1,…,N)の分量を調整することができるというメリットがある。
≪カルマンフィルタ≫
ここで、式(A)を状態空間表現で表すと次のようになる。
観測方程式:y=Hξ+z …(D)
状態方程式:ξ=Fξn−1+γε …(E)
ここで、Hは単位行列であり、zは平均0、分散δの正規分布に従うノイズの振幅を示すノイズパラメータN(0,δ)であり、ξ=(x,x,…,xであり、γは、γ=(1,0,…,0)であり、Fは
Figure 0004685735
の状態遷移行列である。
この場合、カルマンフィルタのアルゴリズムは以下のようになる。
一期先予測過程:
ξn|n−1=Fξn−1|n−1 …(G)
n|n−1=FVn−1|n−1+γQγ …(H)
フィルタリング過程:
K=Vn|n−1(HVn|n−1+Δ)−1 …(I)
ξn|n=ξn|n−1+K(y‐Hξn|n−1) …(J)
n|n=(I‐KH)Vn|n−1 …(K)
なお、・α|βはβ時点の情報を用いて生成されたα時点の・を意味する。また、Δは、分散δを要素とする対角行列である。Δにおけるδの値が、そのまま線形予測誤差zの分散σになるため、利用者は、このΔにおけるδの値を任意に設定することにより、所望の分散σを有する線形予測誤差zを求めることができる。また、Iは単位行列を意味し、Vは共分散行列であり、Qは、システムノイズの分散であり、ARモデルをフィッティングしたときに得られる予測誤差εの分散である。式(G)〜(K)の処理を逐次的に繰り返すことにより、ξn|n,Vn|n(n=1,…,N)が得られる。
カルマンフィルタ部303の一期先予測部3031が、記憶部15から読み出したパラメータA(m=1,…,M)を用いて、上記式(F)に基づいて行列Fを算出する(ステップS13、図5)。算出された行列Fは、一時記憶部3033に格納される。制御部10が、一時記憶部3033に格納されたnの値を1だけインクリメントする(ステップS14)。
一期先予測部3031が、一時記憶部3033からn,F,ξn−1|n−1を読み込み、前述の式(G)(H)の演算を行い、ξn|n−1及びVn|n−1を求める(ステップS15)。なお、本形態では、ξ0|0及びV0|0には任意の初期値を用いる。ξ0|0及びV0|0は予め設定され、一時記憶部3033に格納されているものとする。生成されたVn|n−1は、一時記憶部3033に格納され、ξn|n−1は一時記憶部3033及び記憶部15に格納される。
次に、フィルタリング部3032が、一時記憶部3033からVn|n−1を読み込み、前述の式(I)の演算を行ってKを求め、一時記憶部3033に格納する。さらに、フィルタリング部3032は、一時記憶部3033からξn|n−1を読み込み、記憶部15から音響信号系列yを読み込み、式(J)の演算を行ってξn|nを求め、一時記憶部3033及び記憶部15に格納する。さらに、フィルタリング部3032は、一時記憶部3033からKとVn|n−1とを読み込み、式(K)の演算を行ってVn|nを求め、一時記憶部3033に格納する(ステップS16)。
次に、第二残差計算部304が、記憶部15から音響信号離散混合信号y及びξn|n−1を読み込み、
=y−Hξn|n−1 …(L)
の演算によって、線形予測誤差系列zを生成する(ステップS17)。生成された線形予測誤差信号zは、記憶部15に格納される。
次に、制御部10は、一時記憶部3033に格納されたnがNであるか否かを判断する。ここで、n=Nでなければ、制御部10は、n+1を新たなnとして一時記憶部3033に格納し、処理をステップS15に戻す。一方、n=Nであれば、ステップS1の処理を終了させる。
<ステップS2、図3>
図1及び図3の説明に戻る。
自己相関関数値計算部35の二乗部351は、記憶部15から読み出した線形予測誤差系列z(n=1,…,N)各値を二乗した線形予測誤差の二乗系列z を求める。線形予測誤差の二乗系列z は、記憶部15に格納される。
<ステップS2’>
制御部10は、k=kminとして、kを記憶部15に格納する。
<ステップS3>
自己相関関数値計算部35は、二乗部351が求めた線形予測誤差の二乗系列z について、ラグkの自己相関関数の値ρを求める。計算されたρは記憶部15に格納される。
自己相関関数の値ρは、z の分散をσ’とし、ラグkの自己共分散をγとすると、下記のように定義される。
Figure 0004685735
例えば、E{z n−k }は、z の平均値を(z aveとし、
Figure 0004685735
を計算することにより求めることができる。
<ステップS4>
制御部10は、記憶部15から読み出したkと、記憶部15から読み出したkmaxの大小関係を比較する。k≦kmaxであれば、ステップS5の処理を行う。k>kmaxのであれば、ステップS6の処理を行う。
<ステップS5>
制御部10は、記憶部15から読み出したkを1だけインクリメントして、記憶部15に格納する。その後、ステップS3の処理を行う。
このように、ステップS3からステップS5の処理を繰り返すことによって、自己相関関数値計算部35は、kminとkmaxとを、kmin<kmaxの関係が成り立つ自然数とし、kをkmin以上kmax以下の自然数とし、上記線形予測誤差系列zの各値を二乗した線形予測誤差の二乗系列z について、各ラグkについての自己相関関数の値ρをそれぞれ求める。
<ステップS6>
制御部10は、記憶部15に格納されたkをkminに設定する。また、記憶部15に格納されたcountを0に設定する。
<ステップS7>
カウント部40の比較部401が、記憶部15から読み出したρが、所定の値cよりも大きいかどうかを判断する。所定の値cとは、例えば、自己相関関数値の標準偏差SE(ρ)を約2倍した値や、約0.2〜0.5の値である。ρ>cであれば、その旨の信号をカウント部40に出力する。比較部401は、自己相関関数値の標準偏差SE(ρ)を約2倍した値を閾値として用いる場合には、上記判断に先立って、その値を計算しておく。標準偏差SE(ρ)の出し方には様々な算出法があるが(例えば、参考文献1等参照。)、自己相関関数値の標準偏差SE(ρ)は、時系列の長さをNとすると(1/N)1/2に近似することが知られているため、この近似式を用いてSE(ρ)を計算することができる。
〔参考文献1〕Bartlett, M.S., "On the theoretical specification and sampling properties of autocorrelated time-series", J.R.Stat.Sci, 1946.
<ステップS8>
カウント部40は、ρ>cである旨の信号を受け取った場合には、記憶部15から読み出したcountの値を1だけインクリメントする。
なお、カウント部40は、ρ>cではなく、ρ<cのときに、記憶部15から読み出したcountの値をインクリメントしても良い。
すなわち、下記のようにして、countを加算して行っても良い。
Figure 0004685735
<ステップS9>
制御部10は、記憶部15に格納されたkの値を1だけインクリメントする。
<ステップS10>
制御部10は、記憶部15から読み出したkと、記憶部15から読み出したkmaxの大小関係を比較する。k≦kmaxであれば、ステップS7の処理を行う。k>kmaxのであれば、ステップS11の処理を行う。
このように、ステップS7からステップS10の処理を繰り返すことによって、カウント部40は、各ラグkについての自己相関関数の値が、所定の値cよりも大きいかどうかをそれぞれ判断し、大きいと判断された回数countを出力する。
<ステップS11’>
判断部45は、記憶部15から読み出したcountの値が、記憶部15から読み出した所定の数dよりも多い場合には、上記音響信号に音声信号や楽音信号が存在する、又は、記憶部15から読み出したcountの値が、記憶部15から読み出した所定の数dよりも小さい場合には、上記音響信号に音声信号や楽音信号が存在しない、と判断し、その判断結果を出力する。所定の数dは、本発明の実施者が求める区間検出の精度に応じて適宜設定する。雑音を完全に除去したい場合には、所定の数dを高く設定することができる。また、雑音の混入を許すが目的信号を完全に拾いたい場合には、所定の数dを低く設定することができる。所定の数dとは、例えば、比較部401が、ρとcの大小関係を比較した回数に約0.3〜0.5をかけた数である。判断部45は、上記の判断処理に先立ち、記憶部15から読み出したkmaxとkminを用いてkmax−kminを計算することによって、ρとcの大小関係を比較した回数を求める。
なお、判断部45は、countの値をρとcの大小関係を比較した回数で割った値が、一定の値eよりも大きければ、上記音響信号系列y(n=1,…,N)に音声信号や楽音信号が含まれる、又は、countの値をρとcの大小関係を比較した回数で割った値が、一定の値eよりも小さければ、上記音響信号系列y(n=1,…,N)に音声信号や楽音信号が含まれない、と判断し、その判断結果を出力しても良い。一定の値eは、所定の数dと同様に本発明の実施者が求める精度に応じて適宜設定することができるものである。例えば、一定の値e=約0.3〜0.5とすることができる。
また、ステップS8の処理において、カウント部40が、ρ>cではなく、ρ<cのときに、記憶部15から読み出したcountの値を1だけインクリメントした場合には、判断部45は、記憶部15から読み出したcountの値が、記憶部15から読み出した所定の数dよりも大きい場合には、上記音響信号に音声信号や楽音信号が存在しない、又は、記憶部15から読み出したcountの値が、記憶部15から読み出した所定の数dよりも小さい場合には、上記音響信号に音声信号や楽音信号が存在する、と判断し、その判断結果を出力する。この場合の所定の数dも、本発明の実施者が求める区間検出の精度に応じて適宜設定することができるものである。雑音を完全に除去したい場合には、所定の数dを低く設定することができる。また、雑音の混入を許すが目的信号を完全に拾いたい場合には、所定の数dを高く設定することができる。所定の数dとは、ρとcの大小関係を比較した回数に約0.5〜0.7をかけた数である。
また、この場合、判断部45は、countの値をρとcの大小関係を比較した回数で割った値が、一定の値eよりも大きければ、上記音響信号系列y(n=1,…,N)に音声信号や楽音信号が含まない、又は、countの値をρとcの大小関係を比較した回数で割った値が、一定の値eよりも小さければ、上記音響信号系列y(n=1,…,N)に音声信号や楽音信号が含まれる、と判断し、その判断結果を出力しても良い。一定の値eは、所定の数dと同様に本発明の実施者が求める精度に応じて適宜設定することができるものである。例えば、一定の値e=約0.5〜0.7とすることができる。
以上のようにして、音響区間検出装置77は、観測した音響信号に、目的音声・楽音信号が含まれているかどうかを検出する。
[変形例等]
なお、上記の実施形態では、すべてのラグkについての自己相関関数の値ρを求めた後に(ステップS3〜S5、図3)、自己相関関数の値ρと所定の値cの大小関係を調べた。しかし、図4に示すように、ラグkについての自己相関関数の値ρを求める度に、カウント部40の比較部401が、自己相関関数の値ρと所定の値cの大小関係を調べるようにしても良い。
また、音響信号区間検出装置の処理機能をコンピュータによって実現することができる。この場合、音響信号区間検出装置の処理機能の内容はプログラムによって記述される。そして、このプログラムを、図6に示すようなコンピュータで実行することにより、例えば、図1に示す音響信号区間検出装置の各処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、音響信号区間検出装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
以上の各実施形態の他、本発明である音響信号区間検出方法、装置、プログラム及びその記録媒体は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
[実験例]
1.実験に用いたデータ
背景雑音を含む音響信号には、ATR旅行対話データベースから生成したサンプリング周波数8kHz、量子化ビット数16ビットで離散化された波形にSNR0dBで環境圧音を加えたものを用いた。環境雑音は、街頭で独自に収録されたものを用いた。時間フレームサイズは、2000点(250ms)、フレームの重複は80点(10ms)でシフトさせた。
2.区間検出性能の評価について
区間検出の精度を調べるために、人間による書き起こしに基づいた10ms単位の正解音声区間を用いた。本発明により提案された特徴量(残差の二乗系列の自己相関関数値)からどの程度音声区間を検出できているのかを示すために、Receiver Operating Characteristics(ROC)曲線を適用した(例えば、参考文献2参照。)。ROC曲線の算出には、False AcceptとFalse Rejectを算出する必要がある。False AcceptとFalse Rejectは、下記のように定義される。
Figure 0004685735
最も低いFalse AcceptとFalse Rejectからグリッド単位ごとに(False Accept,False Reject)を2次元座標にプロットするとROC曲線を描くことができる。
〔参考文献2〕
Marzinzik, M., and Kollmeier, B. "Speech pause detection for noise spectrum estimation by tracking power envelope dynamics," IEEE Trans. Speech Audio Processing, vol. 10, pp. 109-118, 2002.
3.結果
SN比0dBの街頭の背景雑音を重複した音響信号に対し、まず高々6次元程度のARモデルを適用し、誤差系列を抽出する。比較のために、通常の誤差系列(線形予測誤差のみ)と、提案の誤差二乗系列に関する標本自己相関関数を適用し、上記式(a)から、あるラグの範囲におけるcount数を求める。ここで、注目するラグの範囲は、音声の基本周波数が表出する50Hzから200Hzの範囲で、40から200とする。また、音声の明瞭度に影響する、音声の音節速度に対応する振幅変動特性が表出する4Hzから32Hz範囲(例えば、参考文献3参照。)の250から1950についても評価する。これは、提案手法が捉える特徴である分散変動の因果性に相当する物理現象として、音声の振幅変動の周波数特性が考えられるためである。
〔参考文献3〕
Greenberg, S. "Temporal properties of spoken language," Proceedings of the 18th International Congress. on Acoustics, vol. I, pp. 441-444, 2004.
図7に対象とした音響信号(雑音付加音声信号)と参考のために無雑音音声信号(雑音なし音声信号)、正解音声区間を示す。図7の上段に示した図は、SN比0dBの街頭背景雑音を含む雑音付加音声信号波形であり、中段に示した図は、雑音なし音声信号波形であり、縦軸は振幅、横軸は時間を示す。図7の下段に示した図の縦軸において、1は正解、0は非正解を示す。図8に、ラグ40から200の範囲に注目したROC曲線、図9にラグ250から1950の範囲に注目したROC曲線を示す。実線は、本発明による手法を用いた結果、破線は従来の線形予測誤差のみによる手法の結果を示す。また、縦軸はFalse Reject、横軸はFalse Acceptを示す。図8、図9によると、従来法のように線形予測誤差の自己相関関数値を用いるよりも、線形予測誤差の二乗系列の自己相関関数値を用いる方が、より低いFalse AcceptとFalse Rejectを実現することができ、本発明による手法が、誤検出の少ない有効な手法であることがわかる。
音響区間検出装置77の機能構成を例示する図。 線形予測誤差計算部30の機能構成を例示する図。 音響区間検出装置77の処理を例示した図。 音響区間検出装置77の別の処理を例示した図。 ステップS1における線形予測誤差計算部30の処理を例示する図。 目標軌道位置の求め方の説明を補助する図。 本発明の有効性を検証するための実験に用いた雑音付加音声、雑音なし音声、正解音声区間を示す図。 ラグ40から200の範囲に注目したROC曲線を示す図。 ラグ250から1950の範囲に注目したROC曲線を示す図。

Claims (13)

  1. 線形予測誤差計算手段が、所定のサンプリング周波数でサンプリングされた音響信号についての線形予測誤差系列を求める線形予測誤差計算ステップと、
    自己相関関数値計算手段が、kminとkmaxとを、kmin<kmaxの関係が成り立つ自然数とし、kをkmin以上kmax以下の自然数とし、上記線形予測誤差系列の各値を二乗した線形予測誤差の二乗系列について、各ラグkについての自己相関関数の値をそれぞれ求める自己相関関数値計算ステップと、
    カウント手段が、各ラグkについての自己相関関数の値が、所定の値よりも大きいかどうかをそれぞれ判断し、大きいと判断された回数を出力するカウントステップと、
    判断手段が、上記カウントステップで出力された上記回数が所定の数よりも多い場合には、上記音響信号に音声信号や楽音信号が存在すると判断する、又は、上記カウントステップで出力された上記回数が所定の数よりも少ない場合には、上記音響信号に音声信号や楽音信号が存在しないと判断する判断ステップと、
    を有する音響信号区間検出方法。
  2. 請求項1に記載の音響信号区間検出方法であって、
    上記線形予測誤差計算ステップは、
    パラメータ推定手段が、上記音響信号にARモデルを適用して、そのARモデルにおけるパラメータを計算するパラメータ推定ステップと、
    第一残差計算手段が、音響信号から、上記パラメータを用いて計算された線形予測値を減算することによって線形予測誤差系列を求める第一残差計算ステップと、
    から構成される、
    ことを特徴とする音響信号区間検出方法。
  3. 請求項1に記載の音響信号区間検出方法であって、
    上記線形予測誤差計算ステップは、
    パラメータ推定手段が、上記音響信号にARモデルを適用して、そのARモデルにおけるパラメータを計算するパラメータ推定ステップと、
    カルマンフィルタ手段が、上記パラメータと、所望の線形予測誤差の分散値とを用いて、カルマンフィルタ処理を行うカルマンフィルタステップと、
    第二残差計算手段が、上記カルマンフィルタ処理の結果を用いて、線形予測誤差系列を求める第二残差計算ステップと、
    から構成される、
    ことを特徴とする音響信号区間検出方法。
  4. 請求項1から3の何れかに記載の音響信号区間検出方法であって、
    上記判断ステップは、上記カウントステップで出力された上記回数を上記判断された回数で割った値が第一の一定の値以上であれば、上記音響信号に音声信号や楽音信号が存在すると判断する、又は、上記カウントステップで出力された上記回数を上記判断された回数で割った値が第一の一定の値以下であれば、上記音響信号に音声信号や楽音信号が存在しないと判断する手段である、
    ことを特徴とする音響信号区間検出方法。
  5. 請求項4に記載の第一の一定の値は、0.3〜0.5である、
    ことを特徴とする音響信号区間検出方法。
  6. 請求項1から3の何れかに記載の音響信号区間検出方法であって、
    上記カウントステップは、各ラグkについての自己相関関数の値が、所定の値よりも小さいかどうかをそれぞれ判断し、小さいと判断された回数を出力するステップであり、
    上記判断ステップは、上記カウントステップで出力された上記回数が所定の数よりも少ない場合には、上記音響信号に音声信号や楽音信号が存在すると判断する、又は、上記カウントステップで出力された上記回数が所定の数よりも多い場合には、上記音響信号に音声信号や楽音信号が存在しないと判断するステップである、
    ことを特徴とする音響信号区間検出方法。
  7. 請求項5に記載の音響信号区間検出方法であって、
    上記判断ステップは、上記カウントステップで出力された上記回数を上記判断された回数で割った値が第二の一定の値以下であれば、上記音響信号に音声信号や楽音信号が存在すると判断する、又は、上記カウントステップで出力された上記回数を上記判断された回数で割った値が第二の一定の値以上であれば、上記音響信号に音声信号や楽音信号が存在しないと判断する手段である、
    ことを特徴とする音響信号区間検出方法。
  8. 請求項7に記載の第二の一定の値は、0.5〜0.7である、
    ことを特徴とする音響信号区間検出方法。
  9. 請求項1から8の何れかに記載の音響信号区間検出方法であって、
    上記所定の値は、各ラグkについての自己相関関数の値の標準偏差の約2倍の値である、
    ことを特徴とする音響信号区間検出方法。
  10. 請求項1から8の何れかに記載の音響信号区間検出方法であって、
    上記所定の値は、0.2〜0.5である、
    ことを特徴とする音響信号区間検出方法。
  11. 所定のサンプリング周波数でサンプリングされた音響信号についての線形予測誤差系列を求める線形予測誤差計算手段と、
    minとkmaxとを、kmin<kmaxの関係が成り立つ自然数とし、kをkmin以上kmax以下の自然数とし、上記線形予測誤差系列の各値を二乗した線形予測誤差の二乗系列について、各ラグkについての自己相関関数の値をそれぞれ求める自己相関関数値計算手段と、
    各ラグkについての自己相関関数の値が、所定の値よりも大きいかどうかをそれぞれ判断し、大きいと判断された回数を出力するカウント手段と、
    上記カウント手段で出力された上記回数が所定の数よりも多い場合には、上記音響信号に音声信号や楽音信号が存在すると判断する、又は、上記カウント手段で出力された上記回数が所定の数よりも少ない場合には、上記音響信号に音声信号や楽音信号が存在しないと判断する判断手段と、
    を有する音響信号区間検出装置。
  12. 請求項1から10の何れかに記載の音響信号区間検出方法の各ステップをコンピュータに実行させるための音響信号区間検出プログラム。
  13. 請求項12記載の音響信号区間検出プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2006238882A 2006-09-04 2006-09-04 音響信号区間検出方法、装置、プログラム及びその記録媒体 Expired - Fee Related JP4685735B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006238882A JP4685735B2 (ja) 2006-09-04 2006-09-04 音響信号区間検出方法、装置、プログラム及びその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006238882A JP4685735B2 (ja) 2006-09-04 2006-09-04 音響信号区間検出方法、装置、プログラム及びその記録媒体

Publications (2)

Publication Number Publication Date
JP2008058901A JP2008058901A (ja) 2008-03-13
JP4685735B2 true JP4685735B2 (ja) 2011-05-18

Family

ID=39241649

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006238882A Expired - Fee Related JP4685735B2 (ja) 2006-09-04 2006-09-04 音響信号区間検出方法、装置、プログラム及びその記録媒体

Country Status (1)

Country Link
JP (1) JP4685735B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5721098B2 (ja) * 2008-03-21 2015-05-20 学校法人東京理科大学 雑音抑圧装置および雑音抑圧方法
KR101598654B1 (ko) * 2009-09-14 2016-02-29 디티에스 엘엘씨 적응적 음성 가해성 처리 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04100099A (ja) * 1990-08-20 1992-04-02 Nippon Telegr & Teleph Corp <Ntt> 音声検出装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04100099A (ja) * 1990-08-20 1992-04-02 Nippon Telegr & Teleph Corp <Ntt> 音声検出装置

Also Published As

Publication number Publication date
JP2008058901A (ja) 2008-03-13

Similar Documents

Publication Publication Date Title
Mak et al. A study of voice activity detection techniques for NIST speaker recognition evaluations
JP5411936B2 (ja) 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
Krueger et al. Model-based feature enhancement for reverberant speech recognition
JP4572218B2 (ja) 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
US20040133424A1 (en) Processing speech signals
JP4856662B2 (ja) 雑音除去装置、その方法、そのプログラム及び記録媒体
Chen et al. Improved voice activity detection algorithm using wavelet and support vector machine
Parada et al. A single-channel non-intrusive C50 estimator correlated with speech recognition performance
Shokouhi et al. Robust overlapped speech detection and its application in word-count estimation for prof-life-log data
CN109300470B (zh) 混音分离方法和混音分离装置
EP1511007A2 (en) Vocal tract resonance tracking using a nonlinear predictor and a target-guided temporal constraint
JP4685735B2 (ja) 音響信号区間検出方法、装置、プログラム及びその記録媒体
JP4673828B2 (ja) 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
Varela et al. Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector
JP4691079B2 (ja) 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体
Han et al. Reverberation and noise robust feature compensation based on IMM
JP4690912B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、プログラム及び記録媒体
JP5200080B2 (ja) 音声認識装置、音声認識方法、およびそのプログラム
Solvang et al. Voice activity detection based on adjustable linear prediction and GARCH models
JP4690973B2 (ja) 信号区間推定装置、方法、プログラム及びその記録媒体
JP6599408B2 (ja) 音響信号処理装置、方法及びプログラム
Ishizuka et al. A feature for voice activity detection derived from speech analysis with the exponential autoregressive model
Lipeika Optimization of formant feature based speech recognition
JP6618885B2 (ja) 音声区間検出装置、音声区間検出方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080804

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110201

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110210

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140218

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees