JP2006251712A - 観測データ、特に、複数の音源からの音が混在している音響信号の解析方法 - Google Patents

観測データ、特に、複数の音源からの音が混在している音響信号の解析方法 Download PDF

Info

Publication number
JP2006251712A
JP2006251712A JP2005071710A JP2005071710A JP2006251712A JP 2006251712 A JP2006251712 A JP 2006251712A JP 2005071710 A JP2005071710 A JP 2005071710A JP 2005071710 A JP2005071710 A JP 2005071710A JP 2006251712 A JP2006251712 A JP 2006251712A
Authority
JP
Japan
Prior art keywords
model
function
acoustic signal
acoustic
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005071710A
Other languages
English (en)
Inventor
Shigeki Sagayama
茂樹 嵯峨山
Takuya Nishimoto
卓也 西本
Hirokazu Kameoka
弘和 亀岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tokyo NUC
Original Assignee
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Tokyo NUC filed Critical University of Tokyo NUC
Priority to JP2005071710A priority Critical patent/JP2006251712A/ja
Publication of JP2006251712A publication Critical patent/JP2006251712A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

【課題】
大域的な時間構造と周波数構造を同時推定できる枠組を提供する。
【解決手段】
複数の音源からの音が混在している音響信号の観測スペクトルを、複数の音響オブジェクトモデルを重畳してなる重畳オブジェクトモデルでモデリングし、各音響オブジェクトモデルを、周波数x及び時間tの2変数を有するモデル関数で表し、モデル関数のモデルパラメータを最適化することで観測スペクトルの特徴を推定する。各音響オブジェクトモデルは、一つの調波構造に対応している。モデル関数は、周波数xを変数に含む調波構造関数と時間tを変数に含むエンベロープ関数を含む。
【選択図】
図2

Description

本発明は、観測データの解析方法係り、特に、複数の音源からの音が混在している音響信号の解析方法に関する。
複数の音源からの音が混在している多重音響信号の解析はこれまで数多く研究されているが、いまだ懸案の難問の一つである。近年提案されたカルマンフィルタ(非特許文献1)、信号およびスペクトル領域でのモデル近似推定(非特許文献2,3)に基づく手法はこの分野において大きな進歩をもたらした。しかし、本来、多重音解析の問題は周波数方向と時間方向の情報を同時に処理すべきであり、これらの手法は問題を分解してまず周波数次元の情報を抽出してからその情報を時間方向に連結していくアプローチで解決を図っていた。
K. Nishi, S. Ando and S. Aida,"Optimum Harmonics Tracking Filter for Auditory Scene Analysis," Proc. IEEE,ICASSP 96, pp. 573.576, 1996. S. Godsill and M. Davy, "BaysianHarmonic Models for Musical Pitch Estimation and Analysis," Proc.ICASSP2002, Vol. 2, pp. 1769.1772, 2002. M. Goto,"A Predominant-F0Estimation Method for CD Recordings: MAP Estimation Using EM Algorithm forAdaptive Tone Models," Proc. ICASSP2001, Vol. 5, pp. 3365.3368, 2001. H. Kameoka, T. Nishimoto and S. Sagayama, "Separation of Harmonic Structures Based on Tied Gaussian Mixture Model andInformation Criterion for Concur-rent Sounds," Proc. ICASSP2004, AE-P5.9, May2004.
本発明は、局所的な部分情報を統合していくアプローチではなく、大域的な時間構造と周波数構造を同時推定できる枠組を提供することを目的とするものである。
かかる課題を解決するために本発明が採用した技術手段は、観測データを重畳オブジェクトモデルでモデリングし、各オブジェクトモデルを2変数のモデル関数で表し、モデル関数のモデルパラメータを最適化することで観測値の特徴を推定することを特徴とするものである。
一つの好ましい態様では、観測データは、複数の音源からの音が混在している音響信号の観測スペクトルであり、前記モデル関数の変数は周波数x及び時間tである。後述する実施の形態では、対数周波数について説明するが、周波数軸は、線形周波数軸を用いてもよい。観測スペクトルの特徴には、各音の周波数情報(基本周波数、倍音の周波数)、時間情報(立ち上がり時刻、時間長)が含まれる。観測スペクトルの特徴には、さらに、調波構造を構成する各周波数成分の周波数成分パワー比、時間方向のパワースペクトルエンベロープが含まれる。
重畳音響オブジェクトモデルは、
Figure 2006251712
で表される。pk(x,t)は、k番目の音響オブジェクトモデルの一般式である。重畳オブジェクトモデルのパラメータには、各音響オブジェクトモデルを表すモデル関数のパラメータ、及び、各音響オブジェクトモデルの重みが含まれる。
観測データが音響信号の場合において、好ましい態様では、一つの音響オブジェクトモデルは、一つの調波構造に対応している。後述する実施の形態では、調和性を仮定しているが、調波構造に何らかの解析的なパラメトリックモデルが仮定できれば、非調和であってもよい。
本発明における2変数x、tを有するモデル関数において、k番目の音響オブジェクトモデルpk(x,t)の一般式は、周波数成分を正規分布(ガウス関数)で表す場合について例示すると、
Figure 2006251712
で表される。
観測データが音響信号の場合において、一つの態様では、モデル関数は、周波数xを変数に含む調波構造関数と時間tを変数に含むエンベロープ関数を含む。後述する実施形態では、一つの好ましい態様として、k番目の音響オブジェクトモデルp(x,t|Θk)を、二つの関数Φk(x)とΨk(t)の積で表すもの、に基づいて本発明を説明するが、用いる関数はこれには限定されない。後述の実施形態では、調波構造全体に対して共通のエンベロープ関数(ガウス基底関数)を用いる。
調波構造関数は、さらに時間tを変数に含んでいてもよい。k番目の音響オブジェクトモデルp(x,t|Θk)を、二つの関数Φk(x,t)とΨk(t)の積で表すものが例示される。このものでは、調波構造関数は時間に依存した関数となり、時間tによって周波数xの値が変化し得る。x−t平面上に投影したピッチ軌跡を多項式等で表現した場合が例示される。
一つの調波構造に対して共通のエンベロープ関数を用いる。他の態様では、各調波成分に対して独立したエンベロープ関数を用いる。k番目の音響オブジェクトモデルp(x,t|Θk)を、二つの関数Φk(x,t)とΨn,k(t)の積で表す。このものは、パワーエンベロープ関数を調波成分ごとに別々に用意する場合である。より具体的には、例えば、調波ごとに別々の減衰曲線(エンベロープ関数)を持つようなモデル(倍音、3倍音、4倍音、... で別々の曲線で減衰するようにモデリングする)である。
音響オブジェクトを表す2変数x、yを有するモデル関数は、後述する実施の形態では、モデル関数がxの関数とtの関数の積に分解できる特殊な場合の解析的な解法を示している。すなわち、前記一般式において、調波成分ごとのエンベロープ関数が相似になる(つまり、Ψk n(t)がnによらず共通になる)という仮定と、ピッチ軌跡が時間軸に平行である(つまり、μk(t)= μk)という仮定のもとでは、一般式は、
Figure 2006251712
という形になり、xの関数とtの関数に分解できる。
このように、実施形態では、楽音の音響オブジェクトのピッチ軌跡は時間軸に平行であることを仮定しているが、実際には、これらが平行である状況は限られる。音声、また、楽器音でもビブラートやグリッサンドなどの奏法では平行ではなくなるが、特に、対象となる多重音信号が音楽信号の場合には、ピッチ軌跡が時間軸にほぼ平行であるという仮定は大きな問題とはならない。また、楽音の音響オブジェクトのピッチ軌跡は時間軸に平行であることを仮定せずに、多項式等によりピッチ軌跡をモデリングしてもよい。
一つの好ましい態様では、調波構造関数は、基本周波数成分に対応する一つの単峰形分布の代表値である基本周波数推定値と、該基本周波数推定値によって決定される他の単峰形分布の代表値を有し、モデルパラメータは、各単峰形分布の代表値、重み、分散を含む。代表値パラメータは、基本周波数推定値を構成する代表値を含む調波構造モデルの各単峰形分布の各代表値により構成されるが、代表値パラメータにおいては、基本周波数推定値のみが自由パラメータであり、他の代表値は基本周波数推定値によって拘束されるパラメータである。単峰形分布としては数々の分布が知られているが、一つの好ましい態様では、単峰形分布は正規分布(対数正規分布を含む)である。分布の代表値としては、平均、中央値、最頻値が例示されるが、一つの好ましい態様では、分布の代表値は平均である。後述する実施形態では、音響オブジェクトを、拘束つき混合正規分布によりモデル化した調波構造モデルで表しており、拘束つき混合正規分布によりモデル化した調波構造モデルは、基本周波数成分に対応する一つの正規分布の平均μである基本周波数推定値と、該基本周波数推定値によって決定される他の正規分布の平均μ+lognとを有している。重みパラメータr は、音響オブジェクトkの調波構造を構成する各周波数成分の周波数成分パワー比を表す。分散パラメータσは、音響オブジェクトkの調波構造を構成する各周波数成分の幅を表すが。一つの態様では、既知パラメータとしてモデルに与えてもよい。
一つの好ましい態様では、エンベロープ関数は、時間軸方向に連続状に配置した複数のガウス関数、
Figure 2006251712
であり、モデルパラメータは、各ガウス分布の代表値、重み、分散を含む。代表値は、主として、音響オブジェクトの立ち上がり時刻の推定に用いるパラメータであり、後述する実施の形態では、(先頭の)ガウス分布の平均oであるが、代表値はこれには限定されない。各ガウス分布の重みc は、時間方向のパワーエンベロープ曲線を決定するパラメータである。各ガウス分布の分散φは、音響オブジェクトの時間長を決定するパラメータである。一つの好ましい態様では、各ガウス関数は、先頭のガウス関数の分散パラメータ(一つの好適な例では、標準偏差パラメータ)に基づく所定の等間隔αφで配置されている。
他の態様では、エンベロープ関数は、二つのシグモイド関数を組み合わせた関数、
Figure 2006251712
から構成されている。具体的には、エンベロープ関数は、2つのシグモイド関数(同一でも、同一でなくてもよい)の横軸をずらした差のいわゆる二重シグモイド関数であり、パラメータは、ok (0),ok (1),ak,n,bk,n,Ak,nである。
また、他の態様では、エンベロープ関数は、極値分布関数、
Figure 2006251712
であり、パラメータは、ok,ak,n,bk,n,Ak,nである。
さらに、他の態様では、エンベロープ関数は、Generalized Gaussian Distribution(GDD)、
Figure 2006251712
であり、パラメータはokk,nである(但し、pは定数、Γはガンマ関数である)。
モデル関数のパラメータの最適化の手法は、一つの好ましい態様では、MAP推定であるが、本発明に適用される最適化手法は、MAP推定には限定されず、他の最適化手法であってもよい。また、一つの好ましい態様では、モデルパラメータ最適化の推定アルゴリズムは、EMアルゴリズムである。
本発明は、音響分析システム、音響分析のためのコンピュータプログラム、あるいは当該プログラムを記録した記録媒体としても提供され得る。
本発明の観測データの解析方法は、好ましくは、音響信号に適用されるが、本発明に係る重畳オブジェクトモデルは、2次元平面上に投影されたデータから、投影されたデータの元の情報を復元することに拡張できる。他の態様では、観測データは、複数の対象物を含む画像データである。簡単な例を示すと、対象物は直方体状の物体であり、これを、直方体状の物体とその影とに対応するオブジェクトモデルでモデリングし、対象物の特徴を復元する。観測データが画像データの場合には、ロボットヴィジョン等の情景分析に適用することができる。
本発明によれば、複数の音源からの音が混在している音響信号を重畳オブジェクトモデルでモデリングし、各音響オブジェクト、重畳音響オブジェクトの時間と周波数の大域的な幾何構造を同時推定することができ、精度よく音響信号を解析することができる。
本発明を、一つの好ましい態様である、ガウス基底音響オブジェクトモデルを用いた多重スペクトル分離に基づいて説明する。
[A]音響オブジェクトモデル
[A−1]問題の定式化
図1に示すように、複数の音源からの音が混在している音響信号の観測スペクトルは、複数のピッチ(基本周波数)の時間軌跡に伴う基本波成分および高調波成分が複数重畳した複雑な分布である。このような混合分布を各スペクトルに分離することを考えたとき、短時間分析では、スペクトルの重なり合いが問題となる。本発明では、観測されるスペクトル分布は、一種のマイクロエネルギーパターンのヒストグラムであるとして、時間―周波数平面に、多数のストリップ状の領域に割り当て、各領域が各音響オブジェクトの予測される複数のスペクトル成分を占めるようにする。本明細書では、観測パターンを任意に分解し、分解された各パターンをクラスタと呼ぶ。すなわち、クラスタは分解された観測パターンの分布を意味し、クラスタリングは観測パターンをクラスタに分解することを意味する。もし適切なクラスタリング帰属の度合いが決定されれば、確率的手法によって、観測された複合分布を分離することができる。
時間周波数平面上に分布する楽音のパワースペクトルは、周波数方向の櫛形構造が時間方向に連なった一種のオブジェクト(以後これを音響オブジェクトと呼ぶ)を形成する。図2は、一つの音響オブジェクトを示し、一つの音響オブジェクトは、周波数―時間平面上に割り当てられた複数のオブジェクト要素から構成され、複数のオブジェクト要素は一つの基本周波数成分に対応する一つの要素と、倍音(整数倍でないものも含む)成分に対応する複数の要素とから構成される。本発明では、多数の楽音からなる音楽信号のスペクトル時間パターンを各楽音オブジェクトが重畳したものであると見なし、音響オブジェクト分解を、時間・周波数の2次元に分散した音響エネルギーのファジークラスタリング問題として解析的に定式化する。
各クラスタにおいて一つの音響オブジェクトを幾何的に形作るモデルp(x,t|Θk)がパラメータΘk(Θ={Θk |k=1,…K})で規定できるとし、モデルに基づく目的関数を、
Figure 2006251712
と設定する。ただし、x, t, f(x, t)はそれぞれ対数周波数、時間(フレーム)、ウェーブレット変換により得られた観測スペクトル(パワースペクトル密度)、T0, T1, Ω0, Ω1 はそれぞれ時間と対数周波数の下限と上限を指し、Kはクラスタ数、kはクラスタのインデックスを表す。
また、p(k|x,t,Θ)は、座標(x, t)におけるk 番目のクラスタにどれくらいの割合でスペクトル成分が帰属するかを表す確率であって、
Figure 2006251712
で与えられる。つまり、p(k|x,t,Θ)f(x, t)は確率的に分離された音響オブジェクトという意味をなす。D(x,t|Θk)は、k番目のモデルが座標(x, t)においてどれだけ支配的であるかを反映した(擬)距離関数である。より直感的にはモデルと観測スペクトルの積分値がいずれも等しい場合、すなわち、p(x,t|Θk)が、
Figure 2006251712
を満たす場合には、p(k|x,t,Θ)f(x, t)D(x,t|Θk)は、2つの分布、p(x,t|Θk)とp(k|x,t,Θ)f(x,t)、が近くなるほど大きな値を取ることになる。
以上より、観測スペクトルの時系列分布を何らかの幾何モデルで最適近似する問題に帰着することができる。ここで、この目的関数は、D(x,t|Θk)=logp(x,t|Θk)という特定条件のもとではEMアルゴリズムにおけるQ関数と同形であることに注目されたい。以下では、音響オブジェクトの調波構造と時間連続の両方の性質を同時に反映する2次元分布モデルを定式化する。
[A−2]ガウス基底音響オブジェクトモデル
楽音の音響オブジェクトのピッチ軌跡は時間軸に平行であると仮定すると、図2のようなk番目の音響オブジェクトモデルの特定の時刻t における切口は図3のような調波構造Φk(x)を反映した関数となる。そこで、調波構造モデル関数Φk(x)を時間軸に沿って図4のようなエンベロープ関数Ψk(t)を乗じた形として音響オブジェクトモデルを仮定すると、k番目の音響オブジェクトモデルp(x,t|Θk)は、二つの関数とパワー(エネルギー)wの積で表すことができる。
Figure 2006251712
ここで、
Figure 2006251712
とする。
[A−3]調波構造関数Φk(x)
モデル関数を構成する調波構造関数の一つの好ましい態様としては、本出願の発明者らが既に提案している調波構造モデル関数を用いることができる。先ず、調波構造モデルについて説明する。短時間スペクトルの解析では、基本周波数成分や調波成分の広がりにより、異なる信号同士の周波数成分が重なり合い、近接する周波数成分の分離や正確な基本周波数あるいは高調波周波数の検出が困難となる。このように広がって観測される周波数成分を各周波数の出現頻度分布あるいは確率分布と見なし、その分布をガウス分布により近似することで、単一の調波構造を有するスペクトルを複数のガウス分布の混合分布としてモデル化する。図3に示すように、スペクトルの拡がり形状をガウス分布で近似することで、周波数値をガウス分布の平均推定、周波数成分のエネルギーを混合ガウス分布の重み推定に対応させることができる。調和性の保持のため、基本周波数成分に対応する1つのガウス分布の平均(基本周波数推定値)のみが自由度をもち、その位置に応じて残りのすべての正規分布の平均の位置は決定される。単一の調波構造をこのような拘束つきの混合ガウス分布によりモデル化したものを本明細書において「調波構造モデル」と呼ぶ。ガウス分布は調波構造モデルに適用できる分布関数の好適な一例であって、その他の単峰性分布関数を用いて調波構造モデルを構成してもよい。平均は分布の代表値の一つの好適な例であって、平均に代えて、中央値、最頻値を用いても良い。
調和性を仮定し、n番目の対数周波数成分が基本対数周波数からlognだけ離れているとすると、基本対数周波数がμ、n番目の部分対数周波数がμ+lognと推定される。すなわち、基本周波数推定値をμkと置けば、調波構造モデルkの各平均μkは、対数周波数領域において、μk,μ+log2,μ+logn,...μ+logNとなる。各周波数成分の分布をガウス分布で近似することで、一つの調波構造を、ガウス基底の重み付き和でモデリングする。これを定式化すると、調和性を仮定し、1つの周波数成分分布をガウス関数近似することで、調波構造モデルを、
Figure 2006251712
で表す。ただし、μkは対数基本周波数推定値、r (n=1,…, N、Σr =1、nは調波構造モデルにおけるガウス基底のインデックスである )はn 次高調波成分パワー比に対応する。
[A−4]エンベロープ関数Ψk(t)
エンベロープ関数Ψk(t)は、パワースペクトルエンベロープのさまざまな変動に柔軟に対応できる関数であることが望ましい。例えば、音楽信号について言うと、楽器や音楽表現に依存して、アタック、サステイン、リリースは全く異なるであろう。そこで、エンベロープ関数Ψk(t)を、複数のガウス基底から表し、各ガウス基底は、エンベロープ形状に関連して、重みc (y=0,…, Y-1、Σc =1、yはエンベロープモデルのガウス基底のインデックスである)を有するようにしたガウス基底エンベロープモデルに基づいて構成する。このモデルの特徴は、隣り合うガウス関数同士の間隔を、各ガウス関数の標準偏差パラメータφkに基づいて表しており、エンベロープ関数Ψk(t)は、
Figure 2006251712
として表される。ただし、Yはガウス基底の数、okは先頭のガウス基底の中心であり、音響オブジェクトの立ち上がり時刻の推定に密接に関係し、c y(y =0,…,Y- 1) はエンベロープ曲線を規定する各ガウス基底の重み値を表す。複数のガウス関数の中心を標準偏差パラメータφkと等しい間隔(α=1の場合で言うと)で配置した特殊な拘束をもったガウス基底関数は、各基底が孤立するのを防いで曲線の滑らかさを保つと同時にφkの値あるいは/およびαの値に応じて時間方向に線形伸縮する性質を持ち、さまざまな時間長の音響オブジェクトに広く対応できる。
[A−5]重畳オブジェクトモデル
上述のような一つの調波構造に対応する一つのオブジェクトモデルを重畳させた重畳オブジェクトモデルを用いて、複数の音源からの音が混在している音響信号の観測スペクトルをモデリングする。重畳オブジェクトモデルのモデルパラメータを表1に示す。尚、表1は、好適なモデルパラメータを例示したものであり、本発明に係るモデルパラメータは、表1に示すものには限定されない。
Figure 2006251712
k:各音響オブジェクト(音響ストリーム)モデルのインデックスであり、実際には、音響オブジェクトのインデックスに対応する。混合音の観測スペクトルを、K個の音響オブジェクトモデルを用いてモデリングする。
n:調波構造モデルにおけるガウス基底のインデックスであり、実際には、調波構造の各周波数成分のインデックスに対応する。一つの調波構造を、N個のガウス関数を用いてモデリングする。
y:パワーエンベロープモデルにおけるガウス基底のインデックスである。一つのエンベロープ曲線を、Y個のガウス関数を用いてモデリングする。
μ:調波構造モデルにおける先頭のガウス基底の平均であり、実際には、基本対数周波数に対応する。
μ+logn:調波構造モデルにおけるn番目のガウス基底の平均であり、実際には、n番目の対数周波数要素に対応する。
:k番目の音響オブジェクトモデルの重みであり、実際には、k番目の音響オブジェクトの相対的支配を意味する。
:k番目の音響オブジェクトモデルの調波構造モデルにおけるガウス基底の重みであり、実際には、周波数成分パワー比に対応する。
:k番目の音響オブジェクトモデルのパワーエンベロープモデルにおけるガウス基底の重みであり、実際には、パワーエンベロープの時間方向の曲線に対応する。
:k番目の音響オブジェクトモデルのパワーエンベロープモデルにおける先頭のガウス基底の平均であり、一例では、k番目の音響オブジェクトの立ち上がり時刻(onset time)に対応する。
σ:k番目の音響オブジェクトモデルの調波構造モデルにおけるガウス基底の標準偏差であり、実際には各周波数成分の幅に対応する。
φ:k番目の音響オブジェクトモデルのパワーエンベロープモデルにおけるガウス基底の間隔および標準偏差であり、実際にはk番目の音響オブジェクトの時間長に関連する。
[B]最適パラメータ推定
[B−1]事前分布の仮定
特定のパラメータに関して柔軟な制約条件を与えたい場合、 事前分布の仮定は効果的である。例えば、r とc に関して、調波構造の各成分比やパワーエンベロープに関して想定されるある程度常識的な予測値r (バー)、c (バー)から極端に逸脱し過ぎないようにパラメータ制約を加えることができる(図5参照)。ここでは、MAP推定におけるラグランジュの未定乗数の計算を大幅に簡単化できる事前分布(非特許文献3参照)、
Figure 2006251712
を利用する。ただし、dr、dc は事前分布の寄与の大きさ、β(dr)、β(dc)はそれぞれ正規化係数を表す。事前分布は、MAP推定におけるラグランジュの未定乗数の計算を大幅に簡単化できるという有利な点を有する。尚、この分布以外にもディリクレ分布も同じ目的に適用可能である。
[B−2]EMアルゴリズムを用いたMAP推定
以上の拘束条件下の混合音響オブジェクトモデルの最適近似パラメータ推定はEMアルゴリズムによるMAP推定(反復計算による補助関数の単調増加)と同型の問題となる。式(1)における目的関数は補助関数に対応しており、式(1)は、
Figure 2006251712
という補助関数に書き直せる。ただし、λr (k),λc (k),λはラグランジュの未定乗数である。尚、式(9)において、f(x,t)を正規化し、重みの総和を1としてもよい(この場合、F=1となる)。
局所最適パラメータは以下の反復計算で求められる。
(1)E−ステップ
前のM−ステップで更新されたΘ(バー)にΘ(ハット)を代入して、補助関数R(Θ,Θ(バー))にΘ(バー)を計算する。このステップは、帰属確率密度p(k,n,y|x,t,Θ)の更新に対応する。
(2)M−ステップ
帰属確率密度p(k,n,y|x,t,Θ)固定のもとで、Θ(バー)のパラメータを更新して、補助関数R(Θ,Θ(バー))を最大化する。
[B−3] M−ステップにおけるパラメータの更新式
M−ステップにおける各モデルパラメータの更新式の計算結果を示す。尚、下記の式では、簡潔のため、時間方向(T, T)及び周波数方向(Ω, Ω)の積分範囲は省略してある。
基本対数周波数μの更新式は以下のとおりである。これにより、k番目の音響オブジェクトの基本周波数が推定される。
Figure 2006251712
スペクトル要素の相対パワーr の更新式は以下のとおりである。これにより、k番目の音響オブジェクトの調波構造における、各周波数の周波数成分パワー比が推定される。
Figure 2006251712
調波構造における各周波数成分の幅σの更新式は以下のとおりである。k番目の音響オブジェクトの調波構造の各周波数成分の幅が推定される。ここでは、幅は、各周波数成分間で同じとしている。
Figure 2006251712
立ち上がり時刻okの更新式は以下のとおりである。k番目の音響オブジェクトの立ち上がり時刻が推定される。
Figure 2006251712
パワーエンベロープ曲線の要素c の更新式は以下のとおりである。k番目の音響オブジェクトのパワーエンベロープ曲線は、エンベロープ関数を構成する複数のガウス基底の重み付け和によって決定される。
Figure 2006251712
時間長の要素φの更新式は以下のとおりである。k番目の音響オブジェクトの時間長が推定される。
Figure 2006251712
重畳音響オブジェクトにおける、k番目の音響オブジェクトのパワー(エネルギー)の更新式は以下のとおりである。
Figure 2006251712
[C]実験例
[C−1]実験例1
本発明に係る方法のテストデータとしてRWC研究用音楽データベースの中から2曲の実音楽信号(16kHz サンプリング周波数)を利用した。 パワースペクトル時系列はガボールウェーブレット変換(フレームシフト20ms,周波数分解能16.7cent,最低周波数50Hz)により出力した。解析区間(時間周波数平面)の時間長は3s(150フレーム)ずつとした。EMアルゴリズムのためのパラメータ(μk,o|k=1,…,K)の初期値は、与えられたスペクトル分布から大きい順に70個のピーク(パワースペクトル密度の極大点)を抽出することで決定した。EMアルゴリズムの反復において、音響オブジェクトの総数は閾値処理によって推定した。すなわち、重みパラメータwk がある一定閾値以下のモデルは無音と判断して除去した。
実際のスペクトルから推定した最適化モデルの具体例および対応する時間−周波数スペクトルの3次元表示及びグレースケール表示を図6に示す。図6(a)は、観測スペクトル分布を3次元(対数周波数軸、時間軸、エネルギー強度を表す軸)に表示したものであり、図6(c)は、図6(a)に対応する観測スペクトルのスペクトログラム(横軸:時間、縦軸:対数周波数)のグレースケール表示である。図6(b)は、最適パラメータによる重畳音響オブジェクトモデルの3次元(対数周波数軸、時間軸、エネルギー強度を表す軸)に表示したものであり、図6(a)に対応している。図6(b)は、図2に示す各音響オブジェクトが重畳したものである。図6(d)は、図6(b)に対応する最適化された重畳音響オブジェクトモデルのグレースケール表示(横軸:時間、縦軸:周波数)である。図6(b)、(d)に示すように、重畳した音響オブジェクトのピッチのみならず、オンセット時刻(立ち上がり時刻)、時間長、オフセット時刻、パワーエンベロープが適切に推定されている。また、最適帰属確率を用いた正弦波合成によって個々の音響オブジェクトを抽出して再構築することも可能である。
[C−2]実験例2
本発明に係る手法の性能評価基準として付属の参照用MIDIデータから音名正解率を算出した。また、比較対象として、フレームごとのモデル推定の情報に基づいてHMMでピッチ軌跡を推定する方法(非特許文献4)を選んだ。利用したテストデータに対し従来法に比べて本発明に係る手法は高い性能を示し(表2)、時間方向と周波数方向を同時にモデリングしたことの効果が確認できた。
Figure 2006251712
本発明は、実環境下の音声認識、複数話者環境下での高性能音声収録、カラオケシステムにおける自動採点や伴奏データ作成のための音楽信号解析に利用可能である。
実際の音楽演奏信号を、時間T0からT1、周波数Ω0からΩ1、においてウェーブレット変換した観測スペクトルである。 k番目の音響オブジェクトスペクトルのパラメトリックモデル(音響オブジェクトモデル)を説明する図であって、周波数―時間平面上の一つの音響オブジェクト(k番目)を表している。 ガウス基底調波構造モデルを示す。 ガウス基底パワーエンベロープモデルを示す。 重みパラメータr の事前分布を示す図である。 (a)観測スペクトル分布の3次元表示(周波数軸、時間軸、エネルギー強度を表す軸);(b)最適パラメータによる重畳音響オブジェクトモデルの3次元表示(周波数軸、時間軸、エネルギー強度を表す軸);(c)与えられたスペクトログラムのグレースケール表示(横軸:時間、縦軸:周波数);(d)最適化モデルのグレースケール表示(横軸:時間、縦軸:周波数);である。

Claims (23)

  1. 観測データを、複数のオブジェクトモデルを重畳してなる重畳オブジェクトモデルでモデリングし、各オブジェクトモデルを2変数のモデル関数で表し、モデル関数のモデルパラメータを最適化することで観測データの特徴を推定することを特徴とする観測データの解析方法。
  2. 複数の音源からの音が混在している音響信号の観測スペクトルを、複数の音響オブジェクトモデルを重畳してなる重畳オブジェクトモデルでモデリングし、各音響オブジェクトモデルを、周波数x及び時間tの2変数を有するモデル関数で表し、モデル関数のモデルパラメータを最適化することで観測スペクトルの特徴を推定することを特徴とする音響信号の解析方法。
  3. 請求項2において、観測スペクトルの特徴には、各音の周波数情報、時間情報が含まれることを特徴とする音響信号の解析方法。
  4. 請求項3において、観測スペクトルの特徴には、さらに、調波構造を構成する各周波数成分の周波数成分パワー比、時間方向のパワースペクトルエンベロープが含まれることを特徴とする音響信号の解析方法。
  5. 請求項2乃至4いずれかにおいて、各音響オブジェクトモデルは、一つの調波構造に対応していることを特徴とする音響信号の解析方法。
  6. 請求項5において、前記モデル関数は、周波数xを変数に含む調波構造関数と時間tを変数に含むエンベロープ関数を含むことを特徴とする音響信号の解析方法。
  7. 請求項6において、調波構造関数は、基本周波数成分に対応する一つの単峰形分布の代表値である基本周波数推定値と、該基本周波数推定値によって決定される他の単峰形分布の代表値を有し、モデルパラメータは、各単峰形分布の代表値、重み、分散を含むことを特徴とする音響信号の解析方法。
  8. 請求項7において、単峰形分布はガウス分布であることを特徴とする音響信号の解析方法。
  9. 請求項7,8いずれかにおいて、分布の代表値は平均であることを特徴とする音響信号の解析方法。
  10. 請求項6乃至9いずれかにおいて、調波構造関数は、さらに時間tを変数に含むことを特徴とする音響信号の解析方法。
  11. 請求項10において、観測データの特徴には、x−t平面上のピッチ軌跡が含まれることを特徴とする音響信号の解析方法。
  12. 請求項6乃至11いずれかにおいて、一つの調波構造に対して共通のエンベロープ関数を用いることを特徴とする音響信号の解析方法。
  13. 請求項6乃至11いずれかにおいて、各調波成分に対して独立したエンベロープ関数を用いることを特徴とする音響信号の解析方法。
  14. 請求項12,13いずれかにおいて、エンベロープ関数は、時間軸方向に連続状に配置した複数のガウス関数であり、モデルパラメータは、各ガウス分布の代表値、重み、分散を含むことを特徴とする音響信号の解析方法。
  15. 請求項14において、各ガウス関数は、先頭のガウス関数の分散パラメータに基づく所定の等間隔で配置されていることを特徴とする音響信号の解析方法。
  16. 請求項6、12乃至15いずれかにおいて、エンベロープ関数は、二つのシグモイド関数を組み合わせた関数から構成されていることを特徴とする音響信号の解析方法。
  17. 請求項6、12乃至15いずれかにおいて、エンベロープ関数は、極値分布関数あるいはGDDであることを特徴とする音響信号の解析方法。
  18. 請求項2乃至17いずれかにおいて、重畳オブジェクトモデルのパラメータには、各音響オブジェクトモデルを表すモデル関数のパラメータ、及び、各音響オブジェクトモデルの重みが含まれることを特徴とする音響信号の解析方法。
  19. 請求項2乃至18いずれかにおいて、パラメータの最適化は、MAP推定により行うことを特徴とする音響信号の解析方法。
  20. 請求項2乃至18いずれかにおいて、モデルパラメータ最適化の推定アルゴリズムは、EMアルゴリズムであることを特徴とする音響信号の解析方法。
  21. 請求項2乃至20いずれかに記載された方法を、コンピュータに実行させるためのコンピュータプログラム。
  22. 請求項2乃至20いずれかに記載された方法を、コンピュータに実行させるためのコンピュータプログラムを記録させた記録媒体。
  23. 複数の音源からの音が混在している音響信号の観測スペクトルを、複数の音響オブジェクトモデルを重畳してなる重畳オブジェクトモデルでモデリングし、各音響オブジェクトモデルを、周波数x及び時間tの2変数を有するモデル関数で表し、モデル関数のモデルパラメータを最適化することで観測スペクトルの特徴を推定することを特徴とする音響信号の解析システム。
JP2005071710A 2005-03-14 2005-03-14 観測データ、特に、複数の音源からの音が混在している音響信号の解析方法 Pending JP2006251712A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005071710A JP2006251712A (ja) 2005-03-14 2005-03-14 観測データ、特に、複数の音源からの音が混在している音響信号の解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005071710A JP2006251712A (ja) 2005-03-14 2005-03-14 観測データ、特に、複数の音源からの音が混在している音響信号の解析方法

Publications (1)

Publication Number Publication Date
JP2006251712A true JP2006251712A (ja) 2006-09-21

Family

ID=37092234

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005071710A Pending JP2006251712A (ja) 2005-03-14 2005-03-14 観測データ、特に、複数の音源からの音が混在している音響信号の解析方法

Country Status (1)

Country Link
JP (1) JP2006251712A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008136443A1 (ja) * 2007-04-26 2008-11-13 The University Of Tokyo 正弦波パラメータ推定方法
JP2009139406A (ja) * 2007-12-03 2009-06-25 Toshiba Corp 音声処理装置及びそれを用いた音声合成装置。
JP2009139769A (ja) * 2007-12-07 2009-06-25 Sony Corp 信号処理装置、信号処理方法及びプログラム
WO2009110118A1 (ja) * 2008-03-05 2009-09-11 国立大学法人 東京大学 音信号の分離方法
JP2011164335A (ja) * 2010-02-09 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> 残響予測フィルタ算出装置、残響抑圧装置、残響予測フィルタ算出方法、残響抑圧方法、プログラム
CN102695958A (zh) * 2009-11-12 2012-09-26 保罗-里德-史密斯-吉塔尔斯股份合作有限公司 波形的精确测量
JP2013511045A (ja) * 2009-11-12 2013-03-28 ポール リード スミス ギターズ、リミテッド パートナーシップ デジタル信号処理のための方法、コンピュータ可読ストレージ媒体および信号処理システム
US9390066B2 (en) 2009-11-12 2016-07-12 Digital Harmonic Llc Precision measurement of waveforms using deconvolution and windowing
US9600445B2 (en) 2009-11-12 2017-03-21 Digital Harmonic Llc Precision measurement of waveforms

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03269498A (ja) * 1990-03-19 1991-12-02 Ricoh Co Ltd 雑音除去方式
JPH04505372A (ja) * 1989-05-18 1992-09-17 メディカル リサーチ カウンシル 波形の分析
JP2890831B2 (ja) * 1990-11-28 1999-05-17 ヤマハ株式会社 Midiコード作成装置
JP2003508804A (ja) * 1999-08-30 2003-03-04 ウェーブメーカーズ・インコーポレーテッド 音源をクラス分けするためのシステムおよび方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04505372A (ja) * 1989-05-18 1992-09-17 メディカル リサーチ カウンシル 波形の分析
JPH03269498A (ja) * 1990-03-19 1991-12-02 Ricoh Co Ltd 雑音除去方式
JP2890831B2 (ja) * 1990-11-28 1999-05-17 ヤマハ株式会社 Midiコード作成装置
JP2003508804A (ja) * 1999-08-30 2003-03-04 ウェーブメーカーズ・インコーポレーテッド 音源をクラス分けするためのシステムおよび方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008136443A1 (ja) * 2007-04-26 2008-11-13 The University Of Tokyo 正弦波パラメータ推定方法
JP5553334B2 (ja) * 2007-04-26 2014-07-16 国立大学法人 東京大学 正弦波パラメータ推定方法
JP2009139406A (ja) * 2007-12-03 2009-06-25 Toshiba Corp 音声処理装置及びそれを用いた音声合成装置。
CN101452696B (zh) * 2007-12-07 2012-11-28 索尼株式会社 信号处理装置、信号处理方法和程序
US7863512B2 (en) 2007-12-07 2011-01-04 Sony Corporation Signal processing device, signal processing method, and program
JP4640407B2 (ja) * 2007-12-07 2011-03-02 ソニー株式会社 信号処理装置、信号処理方法及びプログラム
JP2009139769A (ja) * 2007-12-07 2009-06-25 Sony Corp 信号処理装置、信号処理方法及びプログラム
JP2009210888A (ja) * 2008-03-05 2009-09-17 Univ Of Tokyo 音信号の分離方法
WO2009110118A1 (ja) * 2008-03-05 2009-09-11 国立大学法人 東京大学 音信号の分離方法
CN102695958A (zh) * 2009-11-12 2012-09-26 保罗-里德-史密斯-吉塔尔斯股份合作有限公司 波形的精确测量
JP2013511045A (ja) * 2009-11-12 2013-03-28 ポール リード スミス ギターズ、リミテッド パートナーシップ デジタル信号処理のための方法、コンピュータ可読ストレージ媒体および信号処理システム
US9279839B2 (en) 2009-11-12 2016-03-08 Digital Harmonic Llc Domain identification and separation for precision measurement of waveforms
US9390066B2 (en) 2009-11-12 2016-07-12 Digital Harmonic Llc Precision measurement of waveforms using deconvolution and windowing
US9600445B2 (en) 2009-11-12 2017-03-21 Digital Harmonic Llc Precision measurement of waveforms
JP2011164335A (ja) * 2010-02-09 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> 残響予測フィルタ算出装置、残響抑圧装置、残響予測フィルタ算出方法、残響抑圧方法、プログラム

Similar Documents

Publication Publication Date Title
JP2006251712A (ja) 観測データ、特に、複数の音源からの音が混在している音響信号の解析方法
KR101521368B1 (ko) 다중 채널 오디오 신호를 분해하는 방법, 장치 및 머신 판독가능 저장 매체
Klapuri Automatic music transcription as we know it today
WO2005066927A1 (ja) 多重音信号解析方法
JP4517045B2 (ja) 音高推定方法及び装置並びに音高推定用プラグラム
CN103999076A (zh) 包括将声音信号变换成频率调频域的处理声音信号的***和方法
JP2009210888A (ja) 音信号の分離方法
JP2007041234A (ja) 音楽音響信号の調推定方法および調推定装置
Fuentes et al. Probabilistic model for main melody extraction using constant-Q transform
Dubois et al. Joint detection and tracking of time-varying harmonic components: A flexible Bayesian approach
Burred et al. Dynamic spectral envelope modeling for timbre analysis of musical instrument sounds
Durrieu et al. An iterative approach to monaural musical mixture de-soloing
Chen et al. Structure from silence: Learning scene structure from ambient sound
Laroche et al. Drum extraction in single channel audio signals using multi-layer non negative matrix factor deconvolution
Wang et al. Playing technique recognition by joint time–frequency scattering
Kawamura et al. Differentiable digital signal processing mixture model for synthesis parameter extraction from mixture of harmonic sounds
Lee et al. Musical onset detection based on adaptive linear prediction
JP4625933B2 (ja) 音分析装置およびプログラム
Cemgil et al. Prior structures for Time-Frequency energy distributions
JP2007328268A (ja) 音楽信号の帯域拡張方式
Yasuraoka et al. I-divergence-based dereverberation method with auxiliary function approach
Hoskinson Manipulation and resynthesis of environmental sounds with natural wavelet grains
JP4625934B2 (ja) 音分析装置およびプログラム
Le Roux et al. Single channel speech and background segregation through harmonic-temporal clustering
Lewis et al. Blind signal separation of similar pitches and instruments in a noisy polyphonic domain

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100614

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101015