JP4685735B2 - 音響信号区間検出方法、装置、プログラム及びその記録媒体 - Google Patents
音響信号区間検出方法、装置、プログラム及びその記録媒体 Download PDFInfo
- Publication number
- JP4685735B2 JP4685735B2 JP2006238882A JP2006238882A JP4685735B2 JP 4685735 B2 JP4685735 B2 JP 4685735B2 JP 2006238882 A JP2006238882 A JP 2006238882A JP 2006238882 A JP2006238882 A JP 2006238882A JP 4685735 B2 JP4685735 B2 JP 4685735B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic signal
- value
- section detection
- detection method
- linear prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Auxiliary Devices For Music (AREA)
Description
Benyassine, A., Shlomot, E., and Su, H-Y. "ITU-T recommendation G.729 Annex B: A silence compression scheme for use with G.729 optimized for V.70 digital simultaneous voice and data applications", IEEE Communication Magazine, pp. 64-73, September, 1997. Markel, J. D. "The SHIFT algorithm for fundamental frequency estimation", IEEE Trans. Audio Electroacoust., vol.AU-20,pp.367-377,1972. Nmer, E., Goubran, R., and Mahmoud, S. "Robust voice activity detection using higher-order statistics in the LPC residual domain", IEEE Trans. SAP, 9, 3, March, 217-231, 2001. Bollerslev, T. "Generalized autoregressive conditional heteroscedasticity", Journal of Econometrics, 51, pp.307-327, 1986. Cohen, I., "SuperGaussian GARCH models for speech signals", Proceedings of INTERSPEECH, pp.2053-2056, 2005. Abdolahi, M., and Amindavar, H. "GARCH coefficients as feature for speech recognition in Persian isolated digit," Proceedings of the 30th International Conference on Acoustics, Speech, and Signal Processing, vol. I, pp. 957-960, 2005. 加藤比呂子,石塚健太郎,「GARCHモデルを用いた音声区間検出手法の提案」,日本音響学会春季研究発表会,107−108,2006.
音声信号や楽音信号等の目的信号が雑音信号に埋もれた音響信号系列をyn(n=1,…,N)とすると、雑音信号系列xn(n=1,…,N)、誤差系列zn(n=1,…,N)は、
yn=xn+zn …(A)
の関係を満たす。
ここで、背景雑音は、音声信号や楽音信号等の目的信号と比べると定常的な信号であるため、下記の次数MのARモデルで記述することができる。例えば、M≒6とすると良い。
xn=Σm=1 MAmxn−m+εn …(B)
ここで、εn(n=1,…,N)は、平均0であり、未知分散σn 2の正規分布に従うとする。
線形予測誤差系列zn(n=1,…,N)を二乗した線形予測誤差の二乗系列zn 2(n=1,…,N)についてのラグkの自己相関関数の値ρk
ρk=E(zn 2zn−k 2)/(zn 2の分散)
を、例えばkmin<k<kmaxの範囲のすべての自然数kについて求める。自己相関関数の値は、時系列における時点間の関係の強さを直接示すものである。一般に、kが0よりも大きくなると、自己相関関数の値は0に近くなっていく。データから算出された標本自己相関関数の値は、厳密には0にはならないが、zn 2の標準偏差の±2倍の範囲(95%信頼区間)に収まるものはほとんど0とみなし、その標本自己相関関数は有意ではないとする。しかし、その範囲を超えるものが多々ある場合には、標本自己相関関数はある傾向があるとする。
各ラグkについての自己相関関数の値の標準偏差の約2倍の値、又は、約0.2〜0.5である。例えば、ラグkの自己相関関数の値ρkと所定の値cの大小を比較し、下記のよ
うにcountを加算して行く。
図1に、音響区間検出装置77の機能構成の例を示す。また、図3に、音響区間検出装置77の処理の例を示す。
音響区間検出装置77は、例えば、制御部10、記憶部15、信号受信部20、信号切出部25、線形予測誤差計算部30、自己相関関数値計算部35、カウント部40、判断部45を有する。自己相関関数値計算部35は、二乗部351を有する。カウント部40は、比較部401を有する。
記憶部15には、yn(n=1,…,N)、Am(m=1,…,M)、zn(n=1,…,N)、zn 2(n=1,…,N)、kmin、kmax、k、ρk、c、count、dを格納するための領域が設けられている。kmin、kmax、c、dについては所望の値に予め設定され格納されているものとする。例えば、kmin=40、kmax=200とすることができる。
記憶部15は、制御部10、記憶部15、信号受信部20、信号切出部25、線形予測誤差計算部30、自己相関関数値計算部35、カウント部40、判断部45と、データの読み書きが可能なように接続されている。
音響区間検出装置77の信号受信部20は、音声信号や楽音信号と、雑音信号とが混じった音響信号を受信する。受信した音響信号は、信号切出部25に出力される。または、受信した音響信号を記憶部15に格納する。
信号切出部25は、信号受信部20が受信した音響信号又は記憶部15から読み出した音響信号を、所定のサンプリング周波数、所定の量子化ビット数でサンプリングする。例えば、サンプリング周波数8kHz、量子化ビット数16ビットでサンプリングをする。信号切出部25はさらに、サンプル化され、離散化された音響信号を、フレーム分割する。ひとつのフレームは、N個のサンプルy1,…,yn,…,yNから構成される。以下では、ひとつのフレームを構成するサンプルの列を、音響信号系列yn(n=1,…,N)と呼ぶ。例えば、ひとつのフレームの長さは250msであり、2000個のサンプルy1,…,y2000から構成される。フレームに分割された音響信号は、記憶部15に格納される。受信した音響信号が音声信号や楽音信号等の目的信号を含むかどうかの判断処理は、フレームを単位にして行われる。
線形予測誤差計算部30は、記憶部15から、あるフレームを構成する音響信号系列yn(n=1,…,N)を読み出し、線形予測誤差系列zn(n=1,…,N)を計算する。
図2は、線形予測計算部30の機能構成を例示する図であり、図5は、ステップS1を構成する各処理を例示する図である。
パラメータ推定部301(図2)は、雑音信号系列xn(n=1,…,N)の代わりに、音響信号系列yn(n=1,…,N)を上記式(B)に代入することにより、パラメータAm(m=1,…,M)を求める。つまり、最初のフレームの音響信号系列yn(n=1,…,N)等は、一般に目的信号が含まれていない。したがって、これらの音響信号系列yn(n=1,…,N)は、雑音信号系列xn(n=1,…,N)と同視することができる。また、上記式(B)のパラメータを推定するために用いた音響信号系列yn(n=1,…,N)が目的信号を含む場合であっても、目的信号を含む音響信号系列yn(n=1,…,N)に基づいて推定されたパラメータによって計算される線形予測誤差系列zn(n=1,…,N)に対して、本実施形態による音響区間推定方法を用いることで、目的信号を含むかどうかを検証することができることが実験的に確認されている。このため、音響信号系列yn(n=1,…,N)を用いて上記式(B)のパラメータを推定しても問題はない。
パラメータ推定部301は、例えば、最小二乗推定に基づく手法を用いてパラメータAm(m=1,…,M)を求める(ステップS11、図5)。以下、最小二乗推定に基づく手法を用いてパラメータパラメータAm(m=1,…,M)の求め方について説明する。
X,Z,θ,Eを下記のように定義すると、
X=Zθ+Ε …(C)
最小二乗推定では、誤差εnの二乗の和を最小にするパラメータAm(m=1,…,M)を求める。すなわち、・Tを、行列・の転置とすると、
J=Σn=M+1 Nεn 2=(X−Zθ)T(X−Zθ)
を最小にするθを求めることによって、パラメータAm(m=1,…,M)を求める。
具体的には、・−1を、行列・の逆行列とすると、
第一残差計算部302は、記憶部15から読み出したパラメータAm(m=1,…,M)を用いて、線形予測残差系列znを計算する(ステップS12)。具体的には、記憶部15から読み出した音響信号系列yn(n=1,…,N)から、上記式(C)により求まったxn(n=1,…,N)を減算することによって、線形予測残差系列zn(n=1,…,N)を求める。計算された線形予測残差系列zn(n=1,…,N)は、記憶部15に格納される。
なお、カルマンフィルタ部303が、パラメータ推定部301が求めたパラメータAm(m=1,…,M)を用いて、カルマンフィルタを適用することにより、線形予測残差系列zn(n=1,…,N)を求めても良い。カルマンフィルタを用いることによって、線形予測残差zn(n=1,…,N)の分量を調整することができるというメリットがある。
ここで、式(A)を状態空間表現で表すと次のようになる。
観測方程式:yn=Hξn+zn …(D)
状態方程式:ξn=Fξn−1+γεn …(E)
ここで、Hは単位行列であり、znは平均0、分散δの正規分布に従うノイズの振幅を示すノイズパラメータN(0,δ)であり、ξn=(x1,x2,…,xm)Tであり、γは、γ=(1,0,…,0)であり、Fは
この場合、カルマンフィルタのアルゴリズムは以下のようになる。
一期先予測過程:
ξn|n−1=Fξn−1|n−1 …(G)
Vn|n−1=FVn−1|n−1FT+γQγT …(H)
フィルタリング過程:
K=Vn|n−1HT(HVn|n−1HT+Δ)−1 …(I)
ξn|n=ξn|n−1+K(yn‐Hξn|n−1) …(J)
Vn|n=(I‐KH)Vn|n−1 …(K)
なお、・α|βはβ時点の情報を用いて生成されたα時点の・を意味する。また、Δは、分散δを要素とする対角行列である。Δにおけるδの値が、そのまま線形予測誤差znの分散σになるため、利用者は、このΔにおけるδの値を任意に設定することにより、所望の分散σを有する線形予測誤差znを求めることができる。また、Iは単位行列を意味し、Vは共分散行列であり、Qは、システムノイズの分散であり、ARモデルをフィッティングしたときに得られる予測誤差εnの分散である。式(G)〜(K)の処理を逐次的に繰り返すことにより、ξn|n,Vn|n(n=1,…,N)が得られる。
一期先予測部3031が、一時記憶部3033からn,F,ξn−1|n−1を読み込み、前述の式(G)(H)の演算を行い、ξn|n−1及びVn|n−1を求める(ステップS15)。なお、本形態では、ξ0|0及びV0|0には任意の初期値を用いる。ξ0|0及びV0|0は予め設定され、一時記憶部3033に格納されているものとする。生成されたVn|n−1は、一時記憶部3033に格納され、ξn|n−1は一時記憶部3033及び記憶部15に格納される。
次に、第二残差計算部304が、記憶部15から音響信号離散混合信号yn及びξn|n−1を読み込み、
zn=yn−Hξn|n−1 …(L)
の演算によって、線形予測誤差系列znを生成する(ステップS17)。生成された線形予測誤差信号znは、記憶部15に格納される。
次に、制御部10は、一時記憶部3033に格納されたnがNであるか否かを判断する。ここで、n=Nでなければ、制御部10は、n+1を新たなnとして一時記憶部3033に格納し、処理をステップS15に戻す。一方、n=Nであれば、ステップS1の処理を終了させる。
図1及び図3の説明に戻る。
自己相関関数値計算部35の二乗部351は、記憶部15から読み出した線形予測誤差系列zn(n=1,…,N)各値を二乗した線形予測誤差の二乗系列zn 2を求める。線形予測誤差の二乗系列zn 2は、記憶部15に格納される。
<ステップS2’>
制御部10は、k=kminとして、kを記憶部15に格納する。
自己相関関数値計算部35は、二乗部351が求めた線形予測誤差の二乗系列zn 2について、ラグkの自己相関関数の値ρkを求める。計算されたρkは記憶部15に格納される。
自己相関関数の値ρkは、zn 2の分散をσ’2とし、ラグkの自己共分散をγkとすると、下記のように定義される。
制御部10は、記憶部15から読み出したkと、記憶部15から読み出したkmaxの大小関係を比較する。k≦kmaxであれば、ステップS5の処理を行う。k>kmaxのであれば、ステップS6の処理を行う。
制御部10は、記憶部15から読み出したkを1だけインクリメントして、記憶部15に格納する。その後、ステップS3の処理を行う。
このように、ステップS3からステップS5の処理を繰り返すことによって、自己相関関数値計算部35は、kminとkmaxとを、kmin<kmaxの関係が成り立つ自然数とし、kをkmin以上kmax以下の自然数とし、上記線形予測誤差系列znの各値を二乗した線形予測誤差の二乗系列zn 2について、各ラグkについての自己相関関数の値ρkをそれぞれ求める。
制御部10は、記憶部15に格納されたkをkminに設定する。また、記憶部15に格納されたcountを0に設定する。
カウント部40の比較部401が、記憶部15から読み出したρkが、所定の値cよりも大きいかどうかを判断する。所定の値cとは、例えば、自己相関関数値の標準偏差SE(ρk)を約2倍した値や、約0.2〜0.5の値である。ρk>cであれば、その旨の信号をカウント部40に出力する。比較部401は、自己相関関数値の標準偏差SE(ρk)を約2倍した値を閾値として用いる場合には、上記判断に先立って、その値を計算しておく。標準偏差SE(ρk)の出し方には様々な算出法があるが(例えば、参考文献1等参照。)、自己相関関数値の標準偏差SE(ρk)は、時系列の長さをNとすると(1/N)1/2に近似することが知られているため、この近似式を用いてSE(ρk)を計算することができる。
〔参考文献1〕Bartlett, M.S., "On the theoretical specification and sampling properties of autocorrelated time-series", J.R.Stat.Sci, 1946.
カウント部40は、ρk>cである旨の信号を受け取った場合には、記憶部15から読み出したcountの値を1だけインクリメントする。
なお、カウント部40は、ρk>cではなく、ρk<cのときに、記憶部15から読み出したcountの値をインクリメントしても良い。
すなわち、下記のようにして、countを加算して行っても良い。
制御部10は、記憶部15に格納されたkの値を1だけインクリメントする。
<ステップS10>
制御部10は、記憶部15から読み出したkと、記憶部15から読み出したkmaxの大小関係を比較する。k≦kmaxであれば、ステップS7の処理を行う。k>kmaxのであれば、ステップS11の処理を行う。
このように、ステップS7からステップS10の処理を繰り返すことによって、カウント部40は、各ラグkについての自己相関関数の値が、所定の値cよりも大きいかどうかをそれぞれ判断し、大きいと判断された回数countを出力する。
判断部45は、記憶部15から読み出したcountの値が、記憶部15から読み出した所定の数dよりも多い場合には、上記音響信号に音声信号や楽音信号が存在する、又は、記憶部15から読み出したcountの値が、記憶部15から読み出した所定の数dよりも小さい場合には、上記音響信号に音声信号や楽音信号が存在しない、と判断し、その判断結果を出力する。所定の数dは、本発明の実施者が求める区間検出の精度に応じて適宜設定する。雑音を完全に除去したい場合には、所定の数dを高く設定することができる。また、雑音の混入を許すが目的信号を完全に拾いたい場合には、所定の数dを低く設定することができる。所定の数dとは、例えば、比較部401が、ρkとcの大小関係を比較した回数に約0.3〜0.5をかけた数である。判断部45は、上記の判断処理に先立ち、記憶部15から読み出したkmaxとkminを用いてkmax−kminを計算することによって、ρkとcの大小関係を比較した回数を求める。
なお、判断部45は、countの値をρkとcの大小関係を比較した回数で割った値が、一定の値e1よりも大きければ、上記音響信号系列yn(n=1,…,N)に音声信号や楽音信号が含まれる、又は、countの値をρkとcの大小関係を比較した回数で割った値が、一定の値e1よりも小さければ、上記音響信号系列yn(n=1,…,N)に音声信号や楽音信号が含まれない、と判断し、その判断結果を出力しても良い。一定の値e1は、所定の数dと同様に本発明の実施者が求める精度に応じて適宜設定することができるものである。例えば、一定の値e1=約0.3〜0.5とすることができる。
以上のようにして、音響区間検出装置77は、観測した音響信号に、目的音声・楽音信号が含まれているかどうかを検出する。
なお、上記の実施形態では、すべてのラグkについての自己相関関数の値ρkを求めた後に(ステップS3〜S5、図3)、自己相関関数の値ρkと所定の値cの大小関係を調べた。しかし、図4に示すように、ラグkについての自己相関関数の値ρkを求める度に、カウント部40の比較部401が、自己相関関数の値ρkと所定の値cの大小関係を調べるようにしても良い。
また、音響信号区間検出装置の処理機能をコンピュータによって実現することができる。この場合、音響信号区間検出装置の処理機能の内容はプログラムによって記述される。そして、このプログラムを、図6に示すようなコンピュータで実行することにより、例えば、図1に示す音響信号区間検出装置の各処理機能がコンピュータ上で実現される。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
以上の各実施形態の他、本発明である音響信号区間検出方法、装置、プログラム及びその記録媒体は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
1.実験に用いたデータ
背景雑音を含む音響信号には、ATR旅行対話データベースから生成したサンプリング周波数8kHz、量子化ビット数16ビットで離散化された波形にSNR0dBで環境圧音を加えたものを用いた。環境雑音は、街頭で独自に収録されたものを用いた。時間フレームサイズは、2000点(250ms)、フレームの重複は80点(10ms)でシフトさせた。
区間検出の精度を調べるために、人間による書き起こしに基づいた10ms単位の正解音声区間を用いた。本発明により提案された特徴量(残差の二乗系列の自己相関関数値)からどの程度音声区間を検出できているのかを示すために、Receiver Operating Characteristics(ROC)曲線を適用した(例えば、参考文献2参照。)。ROC曲線の算出には、False AcceptとFalse Rejectを算出する必要がある。False AcceptとFalse Rejectは、下記のように定義される。
Marzinzik, M., and Kollmeier, B. "Speech pause detection for noise spectrum estimation by tracking power envelope dynamics," IEEE Trans. Speech Audio Processing, vol. 10, pp. 109-118, 2002.
3.結果
SN比0dBの街頭の背景雑音を重複した音響信号に対し、まず高々6次元程度のARモデルを適用し、誤差系列を抽出する。比較のために、通常の誤差系列(線形予測誤差のみ)と、提案の誤差二乗系列に関する標本自己相関関数を適用し、上記式(a)から、あるラグの範囲におけるcount数を求める。ここで、注目するラグの範囲は、音声の基本周波数が表出する50Hzから200Hzの範囲で、40から200とする。また、音声の明瞭度に影響する、音声の音節速度に対応する振幅変動特性が表出する4Hzから32Hz範囲(例えば、参考文献3参照。)の250から1950についても評価する。これは、提案手法が捉える特徴である分散変動の因果性に相当する物理現象として、音声の振幅変動の周波数特性が考えられるためである。
Greenberg, S. "Temporal properties of spoken language," Proceedings of the 18th International Congress. on Acoustics, vol. I, pp. 441-444, 2004.
図7に対象とした音響信号(雑音付加音声信号)と参考のために無雑音音声信号(雑音なし音声信号)、正解音声区間を示す。図7の上段に示した図は、SN比0dBの街頭背景雑音を含む雑音付加音声信号波形であり、中段に示した図は、雑音なし音声信号波形であり、縦軸は振幅、横軸は時間を示す。図7の下段に示した図の縦軸において、1は正解、0は非正解を示す。図8に、ラグ40から200の範囲に注目したROC曲線、図9にラグ250から1950の範囲に注目したROC曲線を示す。実線は、本発明による手法を用いた結果、破線は従来の線形予測誤差のみによる手法の結果を示す。また、縦軸はFalse Reject、横軸はFalse Acceptを示す。図8、図9によると、従来法のように線形予測誤差の自己相関関数値を用いるよりも、線形予測誤差の二乗系列の自己相関関数値を用いる方が、より低いFalse AcceptとFalse Rejectを実現することができ、本発明による手法が、誤検出の少ない有効な手法であることがわかる。
Claims (13)
- 線形予測誤差計算手段が、所定のサンプリング周波数でサンプリングされた音響信号についての線形予測誤差系列を求める線形予測誤差計算ステップと、
自己相関関数値計算手段が、kminとkmaxとを、kmin<kmaxの関係が成り立つ自然数とし、kをkmin以上kmax以下の自然数とし、上記線形予測誤差系列の各値を二乗した線形予測誤差の二乗系列について、各ラグkについての自己相関関数の値をそれぞれ求める自己相関関数値計算ステップと、
カウント手段が、各ラグkについての自己相関関数の値が、所定の値よりも大きいかどうかをそれぞれ判断し、大きいと判断された回数を出力するカウントステップと、
判断手段が、上記カウントステップで出力された上記回数が所定の数よりも多い場合には、上記音響信号に音声信号や楽音信号が存在すると判断する、又は、上記カウントステップで出力された上記回数が所定の数よりも少ない場合には、上記音響信号に音声信号や楽音信号が存在しないと判断する判断ステップと、
を有する音響信号区間検出方法。 - 請求項1に記載の音響信号区間検出方法であって、
上記線形予測誤差計算ステップは、
パラメータ推定手段が、上記音響信号にARモデルを適用して、そのARモデルにおけるパラメータを計算するパラメータ推定ステップと、
第一残差計算手段が、音響信号から、上記パラメータを用いて計算された線形予測値を減算することによって線形予測誤差系列を求める第一残差計算ステップと、
から構成される、
ことを特徴とする音響信号区間検出方法。 - 請求項1に記載の音響信号区間検出方法であって、
上記線形予測誤差計算ステップは、
パラメータ推定手段が、上記音響信号にARモデルを適用して、そのARモデルにおけるパラメータを計算するパラメータ推定ステップと、
カルマンフィルタ手段が、上記パラメータと、所望の線形予測誤差の分散値とを用いて、カルマンフィルタ処理を行うカルマンフィルタステップと、
第二残差計算手段が、上記カルマンフィルタ処理の結果を用いて、線形予測誤差系列を求める第二残差計算ステップと、
から構成される、
ことを特徴とする音響信号区間検出方法。 - 請求項1から3の何れかに記載の音響信号区間検出方法であって、
上記判断ステップは、上記カウントステップで出力された上記回数を上記判断された回数で割った値が第一の一定の値以上であれば、上記音響信号に音声信号や楽音信号が存在すると判断する、又は、上記カウントステップで出力された上記回数を上記判断された回数で割った値が第一の一定の値以下であれば、上記音響信号に音声信号や楽音信号が存在しないと判断する手段である、
ことを特徴とする音響信号区間検出方法。 - 請求項4に記載の第一の一定の値は、0.3〜0.5である、
ことを特徴とする音響信号区間検出方法。 - 請求項1から3の何れかに記載の音響信号区間検出方法であって、
上記カウントステップは、各ラグkについての自己相関関数の値が、所定の値よりも小さいかどうかをそれぞれ判断し、小さいと判断された回数を出力するステップであり、
上記判断ステップは、上記カウントステップで出力された上記回数が所定の数よりも少ない場合には、上記音響信号に音声信号や楽音信号が存在すると判断する、又は、上記カウントステップで出力された上記回数が所定の数よりも多い場合には、上記音響信号に音声信号や楽音信号が存在しないと判断するステップである、
ことを特徴とする音響信号区間検出方法。 - 請求項5に記載の音響信号区間検出方法であって、
上記判断ステップは、上記カウントステップで出力された上記回数を上記判断された回数で割った値が第二の一定の値以下であれば、上記音響信号に音声信号や楽音信号が存在すると判断する、又は、上記カウントステップで出力された上記回数を上記判断された回数で割った値が第二の一定の値以上であれば、上記音響信号に音声信号や楽音信号が存在しないと判断する手段である、
ことを特徴とする音響信号区間検出方法。 - 請求項7に記載の第二の一定の値は、0.5〜0.7である、
ことを特徴とする音響信号区間検出方法。 - 請求項1から8の何れかに記載の音響信号区間検出方法であって、
上記所定の値は、各ラグkについての自己相関関数の値の標準偏差の約2倍の値である、
ことを特徴とする音響信号区間検出方法。 - 請求項1から8の何れかに記載の音響信号区間検出方法であって、
上記所定の値は、0.2〜0.5である、
ことを特徴とする音響信号区間検出方法。 - 所定のサンプリング周波数でサンプリングされた音響信号についての線形予測誤差系列を求める線形予測誤差計算手段と、
kminとkmaxとを、kmin<kmaxの関係が成り立つ自然数とし、kをkmin以上kmax以下の自然数とし、上記線形予測誤差系列の各値を二乗した線形予測誤差の二乗系列について、各ラグkについての自己相関関数の値をそれぞれ求める自己相関関数値計算手段と、
各ラグkについての自己相関関数の値が、所定の値よりも大きいかどうかをそれぞれ判断し、大きいと判断された回数を出力するカウント手段と、
上記カウント手段で出力された上記回数が所定の数よりも多い場合には、上記音響信号に音声信号や楽音信号が存在すると判断する、又は、上記カウント手段で出力された上記回数が所定の数よりも少ない場合には、上記音響信号に音声信号や楽音信号が存在しないと判断する判断手段と、
を有する音響信号区間検出装置。 - 請求項1から10の何れかに記載の音響信号区間検出方法の各ステップをコンピュータに実行させるための音響信号区間検出プログラム。
- 請求項12記載の音響信号区間検出プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006238882A JP4685735B2 (ja) | 2006-09-04 | 2006-09-04 | 音響信号区間検出方法、装置、プログラム及びその記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006238882A JP4685735B2 (ja) | 2006-09-04 | 2006-09-04 | 音響信号区間検出方法、装置、プログラム及びその記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008058901A JP2008058901A (ja) | 2008-03-13 |
JP4685735B2 true JP4685735B2 (ja) | 2011-05-18 |
Family
ID=39241649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006238882A Expired - Fee Related JP4685735B2 (ja) | 2006-09-04 | 2006-09-04 | 音響信号区間検出方法、装置、プログラム及びその記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4685735B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5721098B2 (ja) * | 2008-03-21 | 2015-05-20 | 学校法人東京理科大学 | 雑音抑圧装置および雑音抑圧方法 |
KR101598654B1 (ko) * | 2009-09-14 | 2016-02-29 | 디티에스 엘엘씨 | 적응적 음성 가해성 처리 시스템 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04100099A (ja) * | 1990-08-20 | 1992-04-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声検出装置 |
-
2006
- 2006-09-04 JP JP2006238882A patent/JP4685735B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04100099A (ja) * | 1990-08-20 | 1992-04-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声検出装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2008058901A (ja) | 2008-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mak et al. | A study of voice activity detection techniques for NIST speaker recognition evaluations | |
JP5411936B2 (ja) | 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体 | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
Krueger et al. | Model-based feature enhancement for reverberant speech recognition | |
JP4572218B2 (ja) | 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 | |
US20040133424A1 (en) | Processing speech signals | |
JP4856662B2 (ja) | 雑音除去装置、その方法、そのプログラム及び記録媒体 | |
Chen et al. | Improved voice activity detection algorithm using wavelet and support vector machine | |
Parada et al. | A single-channel non-intrusive C50 estimator correlated with speech recognition performance | |
Shokouhi et al. | Robust overlapped speech detection and its application in word-count estimation for prof-life-log data | |
CN109300470B (zh) | 混音分离方法和混音分离装置 | |
EP1511007A2 (en) | Vocal tract resonance tracking using a nonlinear predictor and a target-guided temporal constraint | |
JP4685735B2 (ja) | 音響信号区間検出方法、装置、プログラム及びその記録媒体 | |
JP4673828B2 (ja) | 音声信号区間推定装置、その方法、そのプログラム及び記録媒体 | |
Varela et al. | Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector | |
JP4691079B2 (ja) | 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体 | |
Han et al. | Reverberation and noise robust feature compensation based on IMM | |
JP4690912B2 (ja) | 目的信号区間推定装置、目的信号区間推定方法、プログラム及び記録媒体 | |
JP5200080B2 (ja) | 音声認識装置、音声認識方法、およびそのプログラム | |
Solvang et al. | Voice activity detection based on adjustable linear prediction and GARCH models | |
JP4690973B2 (ja) | 信号区間推定装置、方法、プログラム及びその記録媒体 | |
JP6599408B2 (ja) | 音響信号処理装置、方法及びプログラム | |
Ishizuka et al. | A feature for voice activity detection derived from speech analysis with the exponential autoregressive model | |
Lipeika | Optimization of formant feature based speech recognition | |
JP6618885B2 (ja) | 音声区間検出装置、音声区間検出方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080804 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110201 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110210 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140218 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |