JP4685735B2

JP4685735B2 - 音響信号区間検出方法、装置、プログラム及びその記録媒体

Info

Publication number: JP4685735B2
Application number: JP2006238882A
Authority: JP
Inventors: 比呂子加藤; 健太郎石塚
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-09-04
Filing date: 2006-09-04
Publication date: 2011-05-18
Anticipated expiration: 2026-09-04
Also published as: JP2008058901A

Description

本発明は、音声信号や楽音信号等の目的音声と雑音信号とが混じった音響信号から、目的信号が存在している時間区間を抽出する方法、特に音響信号から背景雑音を予測しその予測誤差信号に基づき目的信号が存在している時間区間を抽出する方法、装置、プログラム及びその記録媒体に関する。

車内や駅構内での雑音を背景にして収録された会話から音声を取り出したり、騒音の中で発せられた音声を携帯電話で符号化したりする場合、それらの雑音を抑圧し、高精度かつ高速に会話等の目的信号が存在する区間を推定する技術が必要となる。このような従来技術の代表例としては、例えば、ＶＡＤ（Voice Activity Detector) algorithmを例示できる。このような従来の音響区間推定技術では、特徴量として信号の周波数スペクトル、全帯域エネルギー、帯域分割後の各帯域のエネルギー、信号波形の零交差数及びそれらの時間微分等を用い、この特徴量と所定の閾値とを比較すること等により音響区間の推定を行っていた（例えば、非特許文献１参照。）。また、背景雑音を一旦自己回帰モデル等でモデル化し、その予測誤差に対して、自己相関関数や、高次統計量を用いて目的信号を推定する手法が提案されている（例えば、非特許文献２，３参照）。

また、従来ファイナンスの分野において、株価収益率のボラリティ（変動）を分類するために研究された分散不均一モデル（例えば、非特許文献４参照。）が、近年、音声信号処理の分野において利用されている（例えば、非特許文献５、６、７参照。）。具体的には、線形予測誤差系列にＧＡＲＣＨモデルを適用して、ＧＡＲＣＨモデルから推定された時間不均一な分散が急激に変化する区間には音声信号等の目的信号が存在する、急激に変化しない区間には目的信号が存在しないと判断することにより音響区間を検出する技術があった。
Benyassine, A., Shlomot, E., and Su, H-Y. "ITU-T recommendation G.729 Annex B: A silence compression scheme for use with G.729 optimized for V.70 digital simultaneous voice and data applications", IEEE Communication Magazine, pp. 64-73, September, 1997. Markel, J. D. "The SHIFT algorithm for fundamental frequency estimation", IEEE Trans. Audio Electroacoust., vol.AU-20,pp.367-377,1972. Nmer, E., Goubran, R., and Mahmoud, S. "Robust voice activity detection using higher-order statistics in the LPC residual domain", IEEE Trans. SAP, 9, 3, March, 217-231, 2001. Bollerslev, T. "Generalized autoregressive conditional heteroscedasticity", Journal of Econometrics, 51, pp.307-327, 1986. Cohen, I., "SuperGaussian GARCH models for speech signals", Proceedings of INTERSPEECH, pp.2053-2056, 2005. Abdolahi, M., and Amindavar, H. "GARCH coefficients as feature for speech recognition in Persian isolated digit," Proceedings of the 30th International Conference on Acoustics, Speech, and Signal Processing, vol. I, pp. 957-960, 2005. 加藤比呂子，石塚健太郎，「ＧＡＲＣＨモデルを用いた音声区間検出手法の提案」，日本音響学会春季研究発表会，107−108，2006.

しかし、線形予測誤差に対して分散不均一モデルを適用する際には、そのモデルのパラメータを推定するために、いわゆる数値最適化法を用いる必要があるが、その計算処理には非常に時間がかかるという問題があった。

本発明によれば、線形予測誤差計算手段が、所定のサンプリング周波数でサンプリングされた音響信号についての線形予測誤差系列を求める。自己相関関数値計算手段が、ｋ_ｍｉｎとｋ_ｍａｘとを、ｋ_ｍｉｎ＜ｋ_ｍａｘの関係が成り立つ自然数とし、ｋをｋ_ｍｉｎ以上ｋ_ｍａｘ以下の自然数とし、上記線形予測誤差系列の各値を二乗した線形予測誤差の二乗系列について、各ラグｋについての自己相関関数の値をそれぞれ求める。カウント手段が、各ラグｋについての自己相関関数の値が、所定の値よりも大きいかどうかをそれぞれ判断し、大きいと判断された回数を出力する。判断手段が、上記カウントステップで出力された上記回数が所定の数よりも多い場合には、上記音響信号に音声信号や楽音信号が存在すると判断する、又は、上記カウントステップで出力された上記回数が所定の数よりも少ない場合には、上記音響信号に音声信号や楽音信号が存在しないと判断する。

線形予測誤差系列をモデル化せずに、その線形予測誤差系列の分散変動に対して直接的に特徴量を抽出することにより、より少ない計算量で、かつ、より短時間で、精度の高い音響区間の検出を行うことができる。

［原理］
音声信号や楽音信号等の目的信号が雑音信号に埋もれた音響信号系列をｙ_ｎ（ｎ＝１，…，Ｎ）とすると、雑音信号系列ｘ_ｎ（ｎ＝１，…，Ｎ）、誤差系列ｚ_ｎ（ｎ＝１，…，Ｎ）は、
ｙ_ｎ＝ｘ_ｎ＋ｚ_ｎ …（Ａ）
の関係を満たす。
ここで、背景雑音は、音声信号や楽音信号等の目的信号と比べると定常的な信号であるため、下記の次数ＭのＡＲモデルで記述することができる。例えば、Ｍ≒６とすると良い。
ｘ_ｎ＝Σ_ｍ＝１ ^ＭＡ_ｍｘ_ｎ−ｍ＋ε_ｎ …（Ｂ）
ここで、ε_ｎ（ｎ＝１,…,Ｎ）は、平均０であり、未知分散σ_ｎ ^２の正規分布に従うとする。

最小二乗推定等の手法を用いることによって、上記ＡＲモデルにおけるパラメータＡ_ｍ（ｍ＝１，…，Ｍ）を求める。そして、実際に観測されたｙ_ｎから、そのパラメータを用いて上記式（Ｂ）により推定されるｘ_ｎを減算することによって、線形予測誤差系列ｚ_ｎ（ｎ＝１，…，Ｎ）を求める。
線形予測誤差系列ｚ_ｎ（ｎ＝１，…，Ｎ）を二乗した線形予測誤差の二乗系列ｚ_ｎ ^２（ｎ＝１，…，Ｎ）についてのラグｋの自己相関関数の値ρ_ｋ
ρ_ｋ＝Ｅ（ｚ_ｎ ^２ｚ_ｎ−ｋ ^２）／（ｚ_ｎ ^２の分散）
を、例えばｋ_ｍｉｎ＜ｋ＜ｋ_ｍａｘの範囲のすべての自然数ｋについて求める。自己相関関数の値は、時系列における時点間の関係の強さを直接示すものである。一般に、ｋが０よりも大きくなると、自己相関関数の値は０に近くなっていく。データから算出された標本自己相関関数の値は、厳密には０にはならないが、ｚ_ｎ ^２の標準偏差の±２倍の範囲（９５％信頼区間）に収まるものはほとんど０とみなし、その標本自己相関関数は有意ではないとする。しかし、その範囲を超えるものが多々ある場合には、標本自己相関関数はある傾向があるとする。

本発明では、線形予測誤差の二乗系列ｚ_ｎ ^２（ｎ＝１，…，Ｎ）が、所定の値ｃを超えるものが多い場合、その傾向を捉えることができると考える。所定の値ｃとは、例えば、
各ラグｋについての自己相関関数の値の標準偏差の約２倍の値、又は、約０．２〜０．５である。例えば、ラグｋの自己相関関数の値ρ_ｋと所定の値ｃの大小を比較し、下記のよ
うにｃｏｕｎｔを加算して行く。

そして、すべてのｋについて上記の大小関係を比較した結果、ｃｏｕｎｔの値が多ければ、その音響区間には、音声信号や楽音信号等の目的音声が含まれていると判断することができる。

［実施形態］
図１に、音響区間検出装置７７の機能構成の例を示す。また、図３に、音響区間検出装置７７の処理の例を示す。
音響区間検出装置７７は、例えば、制御部１０、記憶部１５、信号受信部２０、信号切出部２５、線形予測誤差計算部３０、自己相関関数値計算部３５、カウント部４０、判断部４５を有する。自己相関関数値計算部３５は、二乗部３５１を有する。カウント部４０は、比較部４０１を有する。
記憶部１５には、ｙ_ｎ（ｎ＝１，…，Ｎ）、Ａ_ｍ（ｍ＝１，…，Ｍ）、ｚ_ｎ（ｎ＝１，…，Ｎ）、ｚ_ｎ ^２（ｎ＝１，…，Ｎ）、ｋ_ｍｉｎ、ｋ_ｍａｘ、ｋ、ρ_ｋ、ｃ、ｃｏｕｎｔ、ｄを格納するための領域が設けられている。ｋ_ｍｉｎ、ｋ_ｍａｘ、ｃ、ｄについては所望の値に予め設定され格納されているものとする。例えば、ｋ_ｍｉｎ＝４０、ｋ_ｍａｘ＝２００とすることができる。
記憶部１５は、制御部１０、記憶部１５、信号受信部２０、信号切出部２５、線形予測誤差計算部３０、自己相関関数値計算部３５、カウント部４０、判断部４５と、データの読み書きが可能なように接続されている。

＜ステップＳ０＞
音響区間検出装置７７の信号受信部２０は、音声信号や楽音信号と、雑音信号とが混じった音響信号を受信する。受信した音響信号は、信号切出部２５に出力される。または、受信した音響信号を記憶部１５に格納する。
信号切出部２５は、信号受信部２０が受信した音響信号又は記憶部１５から読み出した音響信号を、所定のサンプリング周波数、所定の量子化ビット数でサンプリングする。例えば、サンプリング周波数８ｋＨｚ、量子化ビット数１６ビットでサンプリングをする。信号切出部２５はさらに、サンプル化され、離散化された音響信号を、フレーム分割する。ひとつのフレームは、Ｎ個のサンプルｙ_１，…，ｙ_ｎ，…，ｙ_Ｎから構成される。以下では、ひとつのフレームを構成するサンプルの列を、音響信号系列ｙ_ｎ（ｎ＝１，…，Ｎ）と呼ぶ。例えば、ひとつのフレームの長さは２５０ｍｓであり、２０００個のサンプルｙ_１，…，ｙ_２０００から構成される。フレームに分割された音響信号は、記憶部１５に格納される。受信した音響信号が音声信号や楽音信号等の目的信号を含むかどうかの判断処理は、フレームを単位にして行われる。

＜ステップＳ１＞
線形予測誤差計算部３０は、記憶部１５から、あるフレームを構成する音響信号系列ｙ_ｎ（ｎ＝１，…，Ｎ）を読み出し、線形予測誤差系列ｚ_ｎ（ｎ＝１，…，Ｎ）を計算する。
図２は、線形予測計算部３０の機能構成を例示する図であり、図５は、ステップＳ１を構成する各処理を例示する図である。
パラメータ推定部３０１（図２）は、雑音信号系列ｘ_ｎ（ｎ＝１，…，Ｎ）の代わりに、音響信号系列ｙ_ｎ（ｎ＝１，…，Ｎ）を上記式（Ｂ）に代入することにより、パラメータＡ_ｍ（ｍ＝１,…，Ｍ）を求める。つまり、最初のフレームの音響信号系列ｙ_ｎ（ｎ＝１，…，Ｎ）等は、一般に目的信号が含まれていない。したがって、これらの音響信号系列ｙ_ｎ（ｎ＝１，…，Ｎ）は、雑音信号系列ｘ_ｎ（ｎ＝１，…，Ｎ）と同視することができる。また、上記式（Ｂ）のパラメータを推定するために用いた音響信号系列ｙ_ｎ（ｎ＝１，…，Ｎ）が目的信号を含む場合であっても、目的信号を含む音響信号系列ｙ_ｎ（ｎ＝１，…，Ｎ）に基づいて推定されたパラメータによって計算される線形予測誤差系列ｚ_ｎ（ｎ＝１，…，Ｎ）に対して、本実施形態による音響区間推定方法を用いることで、目的信号を含むかどうかを検証することができることが実験的に確認されている。このため、音響信号系列ｙ_ｎ（ｎ＝１，…，Ｎ）を用いて上記式（Ｂ）のパラメータを推定しても問題はない。
パラメータ推定部３０１は、例えば、最小二乗推定に基づく手法を用いてパラメータＡ_ｍ（ｍ＝１,…，Ｍ）を求める（ステップＳ１１、図５）。以下、最小二乗推定に基づく手法を用いてパラメータパラメータＡ_ｍ（ｍ＝１,…，Ｍ）の求め方について説明する。

≪最小二乗推定≫
Ｘ,Ｚ,θ,Ｅを下記のように定義すると、

上記式（Ｂ）は、下記のように記述することができる。
Ｘ＝Ｚθ＋Ε …（Ｃ）
最小二乗推定では、誤差ε_ｎの二乗の和を最小にするパラメータＡ_ｍ（ｍ＝１,…，Ｍ）を求める。すなわち、・^Ｔを、行列・の転置とすると、
Ｊ＝Σ_{ｎ＝Ｍ＋１} ^Ｎε_ｎ ^２＝（Ｘ−Ｚθ）^Ｔ（Ｘ−Ｚθ）
を最小にするθを求めることによって、パラメータＡ_ｍ（ｍ＝１,…，Ｍ）を求める。
具体的には、・^−１を、行列・の逆行列とすると、

という処理を行うことによって、パラメータ推定部３０１は、Ｊを最小にするθ’＝（Ａ_１,…,Ａ_Ｍ）^Ｔを求める（ステップＳ１１、図５）。計算されたパラメータＡ_ｍ（ｍ＝１,…，Ｍ）は、記憶部１５に格納される。

なお、あるフレームで推定したＡＲモデルのパラメータＡ_ｍ（ｍ＝１,…，Ｍ）を、他のフレームでそのまま用いることにより、パラメータＡ_ｍ（ｍ＝１,…，Ｍ）の計算を省略しても良い。
第一残差計算部３０２は、記憶部１５から読み出したパラメータＡ_ｍ（ｍ＝１,…，Ｍ）を用いて、線形予測残差系列ｚ_ｎを計算する（ステップＳ１２）。具体的には、記憶部１５から読み出した音響信号系列ｙ_ｎ（ｎ＝１,…,Ｎ）から、上記式（Ｃ）により求まったｘ_ｎ（ｎ＝１,…,Ｎ）を減算することによって、線形予測残差系列ｚ_ｎ（ｎ＝１,…,Ｎ）を求める。計算された線形予測残差系列ｚ_ｎ（ｎ＝１,…,Ｎ）は、記憶部１５に格納される。
なお、カルマンフィルタ部３０３が、パラメータ推定部３０１が求めたパラメータＡ_ｍ（ｍ＝１,…，Ｍ）を用いて、カルマンフィルタを適用することにより、線形予測残差系列ｚ_ｎ（ｎ＝１,…,Ｎ）を求めても良い。カルマンフィルタを用いることによって、線形予測残差ｚ_ｎ（ｎ＝１,…,Ｎ）の分量を調整することができるというメリットがある。

≪カルマンフィルタ≫
ここで、式（Ａ）を状態空間表現で表すと次のようになる。
観測方程式：ｙ_ｎ＝Ｈξ_ｎ＋ｚ_ｎ …（Ｄ）
状態方程式：ξ_ｎ＝Ｆξ_ｎ−１＋γε_ｎ …（Ｅ）
ここで、Ｈは単位行列であり、ｚ_ｎは平均０、分散δの正規分布に従うノイズの振幅を示すノイズパラメータＮ（０，δ）であり、ξ_ｎ＝（ｘ_１，ｘ_２，…，ｘ_ｍ）^Ｔであり、γは、γ＝（１，０，…，０）であり、Ｆは

の状態遷移行列である。
この場合、カルマンフィルタのアルゴリズムは以下のようになる。
一期先予測過程：
ξ_{ｎ｜ｎ−１}＝Ｆξ_{ｎ−１｜ｎ−１} …（Ｇ）
Ｖ_{ｎ｜ｎ−１}＝ＦＶ_{ｎ−１｜ｎ−１}Ｆ^Ｔ＋γＱγ^Ｔ …（Ｈ）
フィルタリング過程：
Ｋ＝Ｖ_{ｎ｜ｎ−１}Ｈ^Ｔ（ＨＶ_{ｎ｜ｎ−１}Ｈ^Ｔ＋Δ）^−１ …（Ｉ）
ξ_ｎ｜ｎ＝ξ_{ｎ｜ｎ−１}＋Ｋ（ｙ_ｎ‐Ｈξ_{ｎ｜ｎ−１}） …（Ｊ）
Ｖ_ｎ｜ｎ＝（Ｉ‐ＫＨ）Ｖ_{ｎ｜ｎ−１} …（Ｋ）
なお、・_α|βはβ時点の情報を用いて生成されたα時点の・を意味する。また、Δは、分散δを要素とする対角行列である。Δにおけるδの値が、そのまま線形予測誤差ｚ_ｎの分散σになるため、利用者は、このΔにおけるδの値を任意に設定することにより、所望の分散σを有する線形予測誤差ｚ_ｎを求めることができる。また、Ｉは単位行列を意味し、Ｖは共分散行列であり、Ｑは、システムノイズの分散であり、ＡＲモデルをフィッティングしたときに得られる予測誤差ε_ｎの分散である。式（Ｇ）〜（Ｋ）の処理を逐次的に繰り返すことにより、ξ_ｎ｜ｎ，Ｖ_ｎ｜ｎ（ｎ＝１，…，Ｎ）が得られる。

カルマンフィルタ部３０３の一期先予測部３０３１が、記憶部１５から読み出したパラメータＡ_ｍ（ｍ＝１,…，Ｍ）を用いて、上記式（Ｆ）に基づいて行列Ｆを算出する（ステップＳ１３、図５）。算出された行列Ｆは、一時記憶部３０３３に格納される。制御部１０が、一時記憶部３０３３に格納されたｎの値を１だけインクリメントする（ステップＳ１４）。
一期先予測部３０３１が、一時記憶部３０３３からｎ，Ｆ，ξ_{ｎ−１｜ｎ−１}を読み込み、前述の式（Ｇ）（Ｈ）の演算を行い、ξ_{ｎ｜ｎ−１}及びＶ_{ｎ｜ｎ−１}を求める（ステップＳ１５）。なお、本形態では、ξ_０｜０及びＶ_０｜０には任意の初期値を用いる。ξ_０｜０及びＶ_０｜０は予め設定され、一時記憶部３０３３に格納されているものとする。生成されたＶ_{ｎ｜ｎ−１}は、一時記憶部３０３３に格納され、ξ_{ｎ｜ｎ−１}は一時記憶部３０３３及び記憶部１５に格納される。

次に、フィルタリング部３０３２が、一時記憶部３０３３からＶ_{ｎ｜ｎ−１}を読み込み、前述の式（Ｉ）の演算を行ってＫを求め、一時記憶部３０３３に格納する。さらに、フィルタリング部３０３２は、一時記憶部３０３３からξ_{ｎ｜ｎ−１}を読み込み、記憶部１５から音響信号系列ｙ_ｎを読み込み、式（Ｊ）の演算を行ってξ_ｎ｜ｎを求め、一時記憶部３０３３及び記憶部１５に格納する。さらに、フィルタリング部３０３２は、一時記憶部３０３３からＫとＶ_{ｎ｜ｎ−１}とを読み込み、式（Ｋ）の演算を行ってＶ_ｎ｜ｎを求め、一時記憶部３０３３に格納する（ステップＳ１６）。
次に、第二残差計算部３０４が、記憶部１５から音響信号離散混合信号ｙ_ｎ及びξ_{ｎ｜ｎ−１}を読み込み、
ｚ_ｎ＝ｙ_ｎ−Ｈξ_{ｎ｜ｎ−１} …（Ｌ）
の演算によって、線形予測誤差系列ｚ_ｎを生成する（ステップＳ１７）。生成された線形予測誤差信号ｚ_ｎは、記憶部１５に格納される。
次に、制御部１０は、一時記憶部３０３３に格納されたｎがＮであるか否かを判断する。ここで、ｎ＝Ｎでなければ、制御部１０は、ｎ＋１を新たなｎとして一時記憶部３０３３に格納し、処理をステップＳ１５に戻す。一方、ｎ＝Ｎであれば、ステップＳ１の処理を終了させる。

＜ステップＳ２、図３＞
図１及び図３の説明に戻る。
自己相関関数値計算部３５の二乗部３５１は、記憶部１５から読み出した線形予測誤差系列ｚ_ｎ（ｎ＝１，…，Ｎ）各値を二乗した線形予測誤差の二乗系列ｚ_ｎ ^２を求める。線形予測誤差の二乗系列ｚ_ｎ ^２は、記憶部１５に格納される。
＜ステップＳ２’＞
制御部１０は、ｋ＝ｋ_ｍｉｎとして、ｋを記憶部１５に格納する。

＜ステップＳ３＞
自己相関関数値計算部３５は、二乗部３５１が求めた線形予測誤差の二乗系列ｚ_ｎ ^２について、ラグｋの自己相関関数の値ρ_ｋを求める。計算されたρ_ｋは記憶部１５に格納される。
自己相関関数の値ρ_ｋは、ｚ_ｎ ^２の分散をσ’^２とし、ラグｋの自己共分散をγ_ｋとすると、下記のように定義される。

例えば、Ｅ｛ｚ_ｎ ^２ｚ_ｎ−ｋ ^２｝は、ｚ_ｎ ^２の平均値を（ｚ_ｎ ^２）_ａｖｅとし、

を計算することにより求めることができる。

＜ステップＳ４＞
制御部１０は、記憶部１５から読み出したｋと、記憶部１５から読み出したｋ_ｍａｘの大小関係を比較する。ｋ≦ｋ_ｍａｘであれば、ステップＳ５の処理を行う。ｋ＞ｋ_ｍａｘのであれば、ステップＳ６の処理を行う。

＜ステップＳ５＞
制御部１０は、記憶部１５から読み出したｋを１だけインクリメントして、記憶部１５に格納する。その後、ステップＳ３の処理を行う。
このように、ステップＳ３からステップＳ５の処理を繰り返すことによって、自己相関関数値計算部３５は、ｋ_ｍｉｎとｋ_ｍａｘとを、ｋ_ｍｉｎ＜ｋ_ｍａｘの関係が成り立つ自然数とし、ｋをｋ_ｍｉｎ以上ｋ_ｍａｘ以下の自然数とし、上記線形予測誤差系列ｚ_ｎの各値を二乗した線形予測誤差の二乗系列ｚ_ｎ ^２について、各ラグｋについての自己相関関数の値ρ_ｋをそれぞれ求める。

＜ステップＳ６＞
制御部１０は、記憶部１５に格納されたｋをｋ_ｍｉｎに設定する。また、記憶部１５に格納されたｃｏｕｎｔを０に設定する。

＜ステップＳ７＞
カウント部４０の比較部４０１が、記憶部１５から読み出したρ_ｋが、所定の値ｃよりも大きいかどうかを判断する。所定の値ｃとは、例えば、自己相関関数値の標準偏差ＳＥ（ρ_ｋ）を約２倍した値や、約０．２〜０．５の値である。ρ_ｋ＞ｃであれば、その旨の信号をカウント部４０に出力する。比較部４０１は、自己相関関数値の標準偏差ＳＥ（ρ_ｋ）を約２倍した値を閾値として用いる場合には、上記判断に先立って、その値を計算しておく。標準偏差ＳＥ（ρ_ｋ）の出し方には様々な算出法があるが（例えば、参考文献１等参照。）、自己相関関数値の標準偏差ＳＥ（ρ_ｋ）は、時系列の長さをＮとすると（１／Ｎ）^１／２に近似することが知られているため、この近似式を用いてＳＥ（ρ_ｋ）を計算することができる。
〔参考文献１〕Bartlett, M.S., "On the theoretical specification and sampling properties of autocorrelated time-series", J.R.Stat.Sci, 1946.

＜ステップＳ８＞
カウント部４０は、ρ_ｋ＞ｃである旨の信号を受け取った場合には、記憶部１５から読み出したｃｏｕｎｔの値を１だけインクリメントする。
なお、カウント部４０は、ρ_ｋ＞ｃではなく、ρ_ｋ＜ｃのときに、記憶部１５から読み出したｃｏｕｎｔの値をインクリメントしても良い。
すなわち、下記のようにして、ｃｏｕｎｔを加算して行っても良い。

＜ステップＳ９＞
制御部１０は、記憶部１５に格納されたｋの値を１だけインクリメントする。
＜ステップＳ１０＞
制御部１０は、記憶部１５から読み出したｋと、記憶部１５から読み出したｋ_ｍａｘの大小関係を比較する。ｋ≦ｋ_ｍａｘであれば、ステップＳ７の処理を行う。ｋ＞ｋ_ｍａｘのであれば、ステップＳ１１の処理を行う。
このように、ステップＳ７からステップＳ１０の処理を繰り返すことによって、カウント部４０は、各ラグｋについての自己相関関数の値が、所定の値ｃよりも大きいかどうかをそれぞれ判断し、大きいと判断された回数ｃｏｕｎｔを出力する。

＜ステップＳ１１’＞
判断部４５は、記憶部１５から読み出したｃｏｕｎｔの値が、記憶部１５から読み出した所定の数ｄよりも多い場合には、上記音響信号に音声信号や楽音信号が存在する、又は、記憶部１５から読み出したｃｏｕｎｔの値が、記憶部１５から読み出した所定の数ｄよりも小さい場合には、上記音響信号に音声信号や楽音信号が存在しない、と判断し、その判断結果を出力する。所定の数ｄは、本発明の実施者が求める区間検出の精度に応じて適宜設定する。雑音を完全に除去したい場合には、所定の数ｄを高く設定することができる。また、雑音の混入を許すが目的信号を完全に拾いたい場合には、所定の数ｄを低く設定することができる。所定の数ｄとは、例えば、比較部４０１が、ρ_ｋとｃの大小関係を比較した回数に約０．３〜０．５をかけた数である。判断部４５は、上記の判断処理に先立ち、記憶部１５から読み出したｋ_ｍａｘとｋ_ｍｉｎを用いてｋ_ｍａｘ−ｋ_ｍｉｎを計算することによって、ρ_ｋとｃの大小関係を比較した回数を求める。
なお、判断部４５は、ｃｏｕｎｔの値をρ_ｋとｃの大小関係を比較した回数で割った値が、一定の値ｅ_１よりも大きければ、上記音響信号系列ｙ_ｎ（ｎ＝１，…，Ｎ）に音声信号や楽音信号が含まれる、又は、ｃｏｕｎｔの値をρ_ｋとｃの大小関係を比較した回数で割った値が、一定の値ｅ_１よりも小さければ、上記音響信号系列ｙ_ｎ（ｎ＝１，…，Ｎ）に音声信号や楽音信号が含まれない、と判断し、その判断結果を出力しても良い。一定の値ｅ_１は、所定の数ｄと同様に本発明の実施者が求める精度に応じて適宜設定することができるものである。例えば、一定の値ｅ_１＝約０．３〜０．５とすることができる。

また、ステップＳ８の処理において、カウント部４０が、ρ_ｋ＞ｃではなく、ρ_ｋ＜ｃのときに、記憶部１５から読み出したｃｏｕｎｔの値を１だけインクリメントした場合には、判断部４５は、記憶部１５から読み出したｃｏｕｎｔの値が、記憶部１５から読み出した所定の数ｄよりも大きい場合には、上記音響信号に音声信号や楽音信号が存在しない、又は、記憶部１５から読み出したｃｏｕｎｔの値が、記憶部１５から読み出した所定の数ｄよりも小さい場合には、上記音響信号に音声信号や楽音信号が存在する、と判断し、その判断結果を出力する。この場合の所定の数ｄも、本発明の実施者が求める区間検出の精度に応じて適宜設定することができるものである。雑音を完全に除去したい場合には、所定の数ｄを低く設定することができる。また、雑音の混入を許すが目的信号を完全に拾いたい場合には、所定の数ｄを高く設定することができる。所定の数ｄとは、ρ_ｋとｃの大小関係を比較した回数に約０．５〜０．７をかけた数である。

また、この場合、判断部４５は、ｃｏｕｎｔの値をρ_ｋとｃの大小関係を比較した回数で割った値が、一定の値ｅ_２よりも大きければ、上記音響信号系列ｙ_ｎ（ｎ＝１，…，Ｎ）に音声信号や楽音信号が含まない、又は、ｃｏｕｎｔの値をρ_ｋとｃの大小関係を比較した回数で割った値が、一定の値ｅ_２よりも小さければ、上記音響信号系列ｙ_ｎ（ｎ＝１，…，Ｎ）に音声信号や楽音信号が含まれる、と判断し、その判断結果を出力しても良い。一定の値ｅ_２は、所定の数ｄと同様に本発明の実施者が求める精度に応じて適宜設定することができるものである。例えば、一定の値ｅ_２＝約０．５〜０．７とすることができる。
以上のようにして、音響区間検出装置７７は、観測した音響信号に、目的音声・楽音信号が含まれているかどうかを検出する。

［変形例等］
なお、上記の実施形態では、すべてのラグｋについての自己相関関数の値ρ_ｋを求めた後に（ステップＳ３〜Ｓ５、図３）、自己相関関数の値ρ_ｋと所定の値ｃの大小関係を調べた。しかし、図４に示すように、ラグｋについての自己相関関数の値ρ_ｋを求める度に、カウント部４０の比較部４０１が、自己相関関数の値ρ_ｋと所定の値ｃの大小関係を調べるようにしても良い。
また、音響信号区間検出装置の処理機能をコンピュータによって実現することができる。この場合、音響信号区間検出装置の処理機能の内容はプログラムによって記述される。そして、このプログラムを、図６に示すようなコンピュータで実行することにより、例えば、図１に示す音響信号区間検出装置の各処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、音響信号区間検出装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
以上の各実施形態の他、本発明である音響信号区間検出方法、装置、プログラム及びその記録媒体は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

［実験例］
１．実験に用いたデータ
背景雑音を含む音響信号には、ＡＴＲ旅行対話データベースから生成したサンプリング周波数８ｋＨｚ、量子化ビット数１６ビットで離散化された波形にＳＮＲ０ｄＢで環境圧音を加えたものを用いた。環境雑音は、街頭で独自に収録されたものを用いた。時間フレームサイズは、２０００点（２５０ｍｓ）、フレームの重複は８０点（１０ｍｓ）でシフトさせた。

２．区間検出性能の評価について
区間検出の精度を調べるために、人間による書き起こしに基づいた１０ｍｓ単位の正解音声区間を用いた。本発明により提案された特徴量（残差の二乗系列の自己相関関数値）からどの程度音声区間を検出できているのかを示すために、ＲｅｃｅｉｖｅｒＯｐｅｒａｔｉｎｇＣｈａｒａｃｔｅｒｉｓｔｉｃｓ（ＲＯＣ）曲線を適用した（例えば、参考文献２参照。）。ＲＯＣ曲線の算出には、ＦａｌｓｅＡｃｃｅｐｔとＦａｌｓｅＲｅｊｅｃｔを算出する必要がある。ＦａｌｓｅＡｃｃｅｐｔとＦａｌｓｅＲｅｊｅｃｔは、下記のように定義される。

最も低いＦａｌｓｅＡｃｃｅｐｔとＦａｌｓｅＲｅｊｅｃｔからグリッド単位ごとに（ＦａｌｓｅＡｃｃｅｐｔ，ＦａｌｓｅＲｅｊｅｃｔ）を２次元座標にプロットするとＲＯＣ曲線を描くことができる。

〔参考文献２〕
Marzinzik, M., and Kollmeier, B. "Speech pause detection for noise spectrum estimation by tracking power envelope dynamics," IEEE Trans. Speech Audio Processing, vol. 10, pp. 109-118, 2002.
３．結果
ＳＮ比０ｄＢの街頭の背景雑音を重複した音響信号に対し、まず高々６次元程度のＡＲモデルを適用し、誤差系列を抽出する。比較のために、通常の誤差系列（線形予測誤差のみ）と、提案の誤差二乗系列に関する標本自己相関関数を適用し、上記式（ａ）から、あるラグの範囲におけるｃｏｕｎｔ数を求める。ここで、注目するラグの範囲は、音声の基本周波数が表出する５０Ｈｚから２００Ｈｚの範囲で、４０から２００とする。また、音声の明瞭度に影響する、音声の音節速度に対応する振幅変動特性が表出する４Ｈｚから３２Ｈｚ範囲（例えば、参考文献３参照。）の２５０から１９５０についても評価する。これは、提案手法が捉える特徴である分散変動の因果性に相当する物理現象として、音声の振幅変動の周波数特性が考えられるためである。

〔参考文献３〕
Greenberg, S. "Temporal properties of spoken language," Proceedings of the 18th International Congress. on Acoustics, vol. I, pp. 441-444, 2004.
図７に対象とした音響信号（雑音付加音声信号）と参考のために無雑音音声信号（雑音なし音声信号）、正解音声区間を示す。図７の上段に示した図は、ＳＮ比０ｄＢの街頭背景雑音を含む雑音付加音声信号波形であり、中段に示した図は、雑音なし音声信号波形であり、縦軸は振幅、横軸は時間を示す。図７の下段に示した図の縦軸において、１は正解、０は非正解を示す。図８に、ラグ４０から２００の範囲に注目したＲＯＣ曲線、図９にラグ２５０から１９５０の範囲に注目したＲＯＣ曲線を示す。実線は、本発明による手法を用いた結果、破線は従来の線形予測誤差のみによる手法の結果を示す。また、縦軸はＦａｌｓｅＲｅｊｅｃｔ、横軸はＦａｌｓｅＡｃｃｅｐｔを示す。図８、図９によると、従来法のように線形予測誤差の自己相関関数値を用いるよりも、線形予測誤差の二乗系列の自己相関関数値を用いる方が、より低いＦａｌｓｅＡｃｃｅｐｔとＦａｌｓｅＲｅｊｅｃｔを実現することができ、本発明による手法が、誤検出の少ない有効な手法であることがわかる。

音響区間検出装置７７の機能構成を例示する図。線形予測誤差計算部３０の機能構成を例示する図。音響区間検出装置７７の処理を例示した図。音響区間検出装置７７の別の処理を例示した図。ステップＳ１における線形予測誤差計算部３０の処理を例示する図。目標軌道位置の求め方の説明を補助する図。本発明の有効性を検証するための実験に用いた雑音付加音声、雑音なし音声、正解音声区間を示す図。ラグ４０から２００の範囲に注目したＲＯＣ曲線を示す図。ラグ２５０から１９５０の範囲に注目したＲＯＣ曲線を示す図。

Claims

線形予測誤差計算手段が、所定のサンプリング周波数でサンプリングされた音響信号についての線形予測誤差系列を求める線形予測誤差計算ステップと、
自己相関関数値計算手段が、ｋ_ｍｉｎとｋ_ｍａｘとを、ｋ_ｍｉｎ＜ｋ_ｍａｘの関係が成り立つ自然数とし、ｋをｋ_ｍｉｎ以上ｋ_ｍａｘ以下の自然数とし、上記線形予測誤差系列の各値を二乗した線形予測誤差の二乗系列について、各ラグｋについての自己相関関数の値をそれぞれ求める自己相関関数値計算ステップと、
カウント手段が、各ラグｋについての自己相関関数の値が、所定の値よりも大きいかどうかをそれぞれ判断し、大きいと判断された回数を出力するカウントステップと、
判断手段が、上記カウントステップで出力された上記回数が所定の数よりも多い場合には、上記音響信号に音声信号や楽音信号が存在すると判断する、又は、上記カウントステップで出力された上記回数が所定の数よりも少ない場合には、上記音響信号に音声信号や楽音信号が存在しないと判断する判断ステップと、
を有する音響信号区間検出方法。
請求項１に記載の音響信号区間検出方法であって、
上記線形予測誤差計算ステップは、
パラメータ推定手段が、上記音響信号にＡＲモデルを適用して、そのＡＲモデルにおけるパラメータを計算するパラメータ推定ステップと、
第一残差計算手段が、音響信号から、上記パラメータを用いて計算された線形予測値を減算することによって線形予測誤差系列を求める第一残差計算ステップと、
から構成される、
ことを特徴とする音響信号区間検出方法。
請求項１に記載の音響信号区間検出方法であって、
上記線形予測誤差計算ステップは、
パラメータ推定手段が、上記音響信号にＡＲモデルを適用して、そのＡＲモデルにおけるパラメータを計算するパラメータ推定ステップと、
カルマンフィルタ手段が、上記パラメータと、所望の線形予測誤差の分散値とを用いて、カルマンフィルタ処理を行うカルマンフィルタステップと、
第二残差計算手段が、上記カルマンフィルタ処理の結果を用いて、線形予測誤差系列を求める第二残差計算ステップと、
から構成される、
ことを特徴とする音響信号区間検出方法。
請求項１から３の何れかに記載の音響信号区間検出方法であって、
上記判断ステップは、上記カウントステップで出力された上記回数を上記判断された回数で割った値が第一の一定の値以上であれば、上記音響信号に音声信号や楽音信号が存在すると判断する、又は、上記カウントステップで出力された上記回数を上記判断された回数で割った値が第一の一定の値以下であれば、上記音響信号に音声信号や楽音信号が存在しないと判断する手段である、
ことを特徴とする音響信号区間検出方法。
請求項４に記載の第一の一定の値は、０．３〜０．５である、
ことを特徴とする音響信号区間検出方法。
請求項１から３の何れかに記載の音響信号区間検出方法であって、
上記カウントステップは、各ラグｋについての自己相関関数の値が、所定の値よりも小さいかどうかをそれぞれ判断し、小さいと判断された回数を出力するステップであり、
上記判断ステップは、上記カウントステップで出力された上記回数が所定の数よりも少ない場合には、上記音響信号に音声信号や楽音信号が存在すると判断する、又は、上記カウントステップで出力された上記回数が所定の数よりも多い場合には、上記音響信号に音声信号や楽音信号が存在しないと判断するステップである、
ことを特徴とする音響信号区間検出方法。
請求項５に記載の音響信号区間検出方法であって、
上記判断ステップは、上記カウントステップで出力された上記回数を上記判断された回数で割った値が第二の一定の値以下であれば、上記音響信号に音声信号や楽音信号が存在すると判断する、又は、上記カウントステップで出力された上記回数を上記判断された回数で割った値が第二の一定の値以上であれば、上記音響信号に音声信号や楽音信号が存在しないと判断する手段である、
ことを特徴とする音響信号区間検出方法。
請求項７に記載の第二の一定の値は、０．５〜０．７である、
ことを特徴とする音響信号区間検出方法。
請求項１から８の何れかに記載の音響信号区間検出方法であって、
上記所定の値は、各ラグｋについての自己相関関数の値の標準偏差の約２倍の値である、
ことを特徴とする音響信号区間検出方法。
請求項１から８の何れかに記載の音響信号区間検出方法であって、
上記所定の値は、０．２〜０．５である、
ことを特徴とする音響信号区間検出方法。
所定のサンプリング周波数でサンプリングされた音響信号についての線形予測誤差系列を求める線形予測誤差計算手段と、
ｋ_ｍｉｎとｋ_ｍａｘとを、ｋ_ｍｉｎ＜ｋ_ｍａｘの関係が成り立つ自然数とし、ｋをｋ_ｍｉｎ以上ｋ_ｍａｘ以下の自然数とし、上記線形予測誤差系列の各値を二乗した線形予測誤差の二乗系列について、各ラグｋについての自己相関関数の値をそれぞれ求める自己相関関数値計算手段と、
各ラグｋについての自己相関関数の値が、所定の値よりも大きいかどうかをそれぞれ判断し、大きいと判断された回数を出力するカウント手段と、
上記カウント手段で出力された上記回数が所定の数よりも多い場合には、上記音響信号に音声信号や楽音信号が存在すると判断する、又は、上記カウント手段で出力された上記回数が所定の数よりも少ない場合には、上記音響信号に音声信号や楽音信号が存在しないと判断する判断手段と、
を有する音響信号区間検出装置。
請求項１から１０の何れかに記載の音響信号区間検出方法の各ステップをコンピュータに実行させるための音響信号区間検出プログラム。
請求項１２記載の音響信号区間検出プログラムを記録したコンピュータ読み取り可能な記録媒体。