JP5689844B2 - SPECTRUM ESTIMATION DEVICE, METHOD THEREOF, AND PROGRAM - Google Patents
SPECTRUM ESTIMATION DEVICE, METHOD THEREOF, AND PROGRAM Download PDFInfo
- Publication number
- JP5689844B2 JP5689844B2 JP2012060159A JP2012060159A JP5689844B2 JP 5689844 B2 JP5689844 B2 JP 5689844B2 JP 2012060159 A JP2012060159 A JP 2012060159A JP 2012060159 A JP2012060159 A JP 2012060159A JP 5689844 B2 JP5689844 B2 JP 5689844B2
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- state
- spectral
- model
- estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は一次元時系列信号を周波数分割した信号から、信号のスペクトルを推定するスペクトル推定技術に関する。 The present invention relates to a spectrum estimation technique for estimating a spectrum of a signal from a signal obtained by frequency-dividing a one-dimensional time series signal.
以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号、「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。 In the drawings used for the following description, components having the same function and steps for performing the same process are denoted by the same reference numerals, and redundant description is omitted. In the following description, a symbol used in the text, such as “^”, should be described immediately above the immediately preceding character, but is described immediately after the character due to restrictions on text notation. In the formula, these symbols are written in their original positions. Further, the processing performed for each element of a vector or matrix is applied to all elements of the vector or matrix unless otherwise specified.
nを短時間フレームの番号、k(=1〜Nk)を、観測信号を周波数分割する際の周波数の番号とし、短時間フレームにおける各周波数分割した信号をxn,kと表す。さらに、xn,kを全ての周波数についてひとまとめにしてできるベクトルをxn=[xn,1,xn,2,…,xn,Nk]Tと表記し(ただし、下付添え字NkはNkを表す)、以下では、短時間フレームnの周波数信号と呼ぶ。Nkは周波数分割数を表す。Tは、ベクトルや行列の非共役転置を表す。 Let n be the number of the short-time frame, k (= 1 to N k ) be the frequency number when the observed signal is frequency-divided, and each frequency-divided signal in the short-time frame is represented as x n, k . Further, a vector that can be obtained by combining x n, k for all frequencies is expressed as x n = [x n, 1 , x n, 2 ,..., X n, N k ] T (provided that the subscript Nk Represents Nk ), hereinafter referred to as the frequency signal of the short-time frame n. N k represents the frequency division number. T represents a non-conjugate transpose of a vector or matrix.
図1は、非特許文献1などに開示されている従来のスペクトル推定装置9の機能ブロック図を示す。スペクトル推定装置9は、各短時間フレームnにおいて、周波数信号xnを受け取り、最尤法に基づき、周波数信号xnのスペクトルσn=[σn,1,σn,2,…,σn,Nk]Tを推定する。より具体的には、非特許文献1では、信号の周波数分割に短時間フーリエ変換を用いており、残響除去された信号の短時間フーリエ変換の推定値がxnと与えられているときに、xn,kが平均0、分散σn,kの複素正規分布に従うとの仮定の下で、最尤スペクトル推定部91において、分散σn,k(=スペクトルの値)を最尤法により求める。つまり、xn,kの条件付き確率密度関数p(xn,k|σn,k)は、以下の式でモデル化される。
FIG. 1 shows a functional block diagram of a conventional
そして、対数尤度関数L(σn)=Σklogp(xn,k|σn,k)を最大にする値として、以下のようにスペクトルσn=[σn,1,σn,2,…,σn,Nk]Tを推定する。 Then, as a value that maximizes the log likelihood function L (σ n ) = Σ k logp (x n, k | σ n, k ), the spectrum σ n = [σ n, 1 , σ n, 2 ,..., Σ n, Nk ] T is estimated.
なお、推定値と推定すべき変数を区別するために、推定値には^をつけて、σ^n等と表記することにする。 In order to distinguish the estimated value from the variable to be estimated, the estimated value is appended with ^ and expressed as σ ^ n or the like.
一方、非特許文献2等に詳述されているように、(1)式に加えて、分散σn,kのとりうる値を規定する事前確率密度関数p(σn;Θ)を導入し、σnの値を、周波数信号xnが与えられた下での事後確率最大化(Maximum a posteriori、以下「MAP」ともいう)推定により求める方法が説明されている。ここで、Θは、事前確率密度関数のモデルパラメータである。この場合のスペクトル推定装置8の機能ブロック図を図2に示す。MAP推定は、以下のように定義される。
On the other hand, as detailed in
事後確率最大化スペクトル推定部81は、スペクトル事前分布記憶部82から事前確率密度関数のモデルパラメータΘを取り出し、(4)式により、σnを求める。このように、σnの事前確率密度関数p(σn;Θ)を考慮することで、σnがとりうる値の傾向をある程度制限できることになる。事前確率密度関数p(σn;Θ)として、ガウス分布の分散に関する自然共役分布である逆ガンマ分布等を用いると、効率的な計算が可能なことが知られている。
The posterior probability maximizing
非特許文献1では、周波数信号として短時間フーリエ変換の推定値を用いているが、一般に、推定値には必ず推定誤差が含まれる。また、周波数信号としてマイクロホンで収音した観測信号を用いる場合なども、一般に、観測信号には必ず何らかの雑音が含まれる。その結果、これらの周波数信号に基づき、従来の方法でスペクトル推定を行うと、誤差や雑音の影響で必ずしも精度よく推定が行えないという問題がある。特に、非特許文献1のように、短時間フーリエ変換の推定とスペクトルの推定を相互に依存させながら交互に繰り返すような場合、繰り返しにより誤差の影響が拡大して推定値が劣化する場合もある。
In
一方、非特許文献2にあるように、分散の事前確率密度関数p(σn;Θ)を導入し、分散の値をMAP推定によって求めるようにすることで、分散がとりうる値を制限し、ある程度、誤差の影響を弱めることができる。しかし、MAP推定において効率的に最適化が行えるのは、自然共役分布のようなごく一部の事前確率密度関数p(σn;Θ)を用いる場合に限られ、σnの分布を精度よくあらわすものを必ずしも利用できないという問題がある。特に、自動音声認識システムの音響モデルとして利用される確率分布と類似性の高い対数スペクトルに関する混合ガウス分布等(ガウス分布、混合ガウス分布、ガウス分布を出力確率分布に持つ隠れマルコフモデル等を含む)は、精度よく音声信号のスペクトルの分布を表すと考えられているが、(4)式の事前確率密度関数p(σn;Θ)として用いた場合に、効率的に最適化を行う方法は知られていない。
On the other hand, as disclosed in
この発明はこの課題に鑑みてなされたものであり、周波数信号が誤差を含む場合でも、対数スペクトルに関する混合ガウス分布等をスペクトルの事前確率密度関数として用いて、高精度かつ効率的にスペクトル推定が行える技術を提供することを目的とする。 The present invention has been made in view of this problem, and even when a frequency signal includes an error, spectrum estimation is performed with high accuracy and efficiency by using a mixed Gaussian distribution or the like relating to a logarithmic spectrum as a prior probability density function of the spectrum. The purpose is to provide technology that can be used.
上記の課題を解決するために、本発明の第一の態様によれば、スペクトル推定装置は、各短時間フレームnにおける周波数信号xnのスペクトル値σnを推定する。スペクトル推定装置は、記憶部、スペクトル状態推定部及び事後確率最大化スペクトル推定部を含む。記憶部は、周波数信号xnの対数スペクトルρnの状態を表す状態パラメータθnの事前確率密度関数p(θn;Θθ)に関するモデルパラメータであるスペクトル状態モデルΘθと、状態パラメータθnが既知の条件下での対数スペクトルρnの条件付き確率密度関数p(ρn|θn;Θρ)に関するモデルパラメータである状態依存スペクトルモデルΘρとを記憶する。スペクトル状態推定部は、対数スペクトルの推定値ρ^n、スペクトル状態モデルΘθ及び状態依存スペクトルモデルΘρを用いて、対数尤度重みwθnを推定する。事後確率最大化スペクトル推定部は、周波数信号xn、対数尤度重みwθn及び状態依存スペクトルモデルΘρを用いて、目的関数を最大化する対数スペクトルρnを推定する。収束条件を満たすまで、スペクトル状態推定部及び事後確率最大化スペクトル推定部における処理を繰り返す。 In order to solve the above problem, according to the first aspect of the present invention, the spectrum estimation device estimates the spectrum value σ n of the frequency signal x n in each short-time frame n. The spectrum estimation apparatus includes a storage unit, a spectrum state estimation unit, and a posterior probability maximization spectrum estimation unit. The storage unit includes a spectrum state model Θ θ that is a model parameter related to the prior probability density function p (θ n ; Θ θ ) of the state parameter θ n representing the state of the logarithmic spectrum ρ n of the frequency signal x n , and the state parameter θ n. Is stored as a state dependent spectral model Θ ρ , which is a model parameter for the conditional probability density function p (ρ n | θ n ; Θ ρ ) of the logarithmic spectrum ρ n under known conditions. The spectrum state estimation unit estimates the log likelihood weight w θn using the logarithmic spectrum estimation value ρ ^ n , the spectrum state model Θ θ and the state dependent spectrum model Θ ρ . The posterior probability maximizing spectrum estimation unit estimates the logarithmic spectrum ρ n that maximizes the objective function, using the frequency signal x n , the log likelihood weight w θn, and the state-dependent spectrum model Θ ρ . The processes in the spectrum state estimation unit and the posterior probability maximization spectrum estimation unit are repeated until the convergence condition is satisfied.
上記の課題を解決するために、本発明の第二の態様によれば、スペクトル推定方法は、各短時間フレームnにおける周波数信号xnのスペクトル値σnを推定する。スペクトル推定方法は、スペクトル状態推定ステップ及び事後確率最大化スペクトル推定ステップを含む。周波数信号xnの対数スペクトルρnの状態を表す状態パラメータθnの事前確率密度関数p(θn;Θθ)に関するモデルパラメータであるスペクトル状態モデルΘθと、状態パラメータθnが既知の条件下での対数スペクトルρnの条件付き確率密度関数p(ρn|θn;Θρ)に関するモデルパラメータである状態依存スペクトルモデルΘρとを記憶しておく。スペクトル状態推定ステップは、対数スペクトルの推定値ρ^n、スペクトル状態モデルΘθ及び状態依存スペクトルモデルΘρを用いて、対数尤度重みwθnを推定する。事後確率最大化スペクトル推定ステップは、周波数信号xn、対数尤度重みwθn及び状態依存スペクトルモデルΘρを用いて、目的関数を最大化する対数スペクトルρnを推定する。収束条件を満たすまで、スペクトル状態推定ステップ及び事後確率最大化スペクトル推定ステップにおける処理を繰り返す。 In order to solve the above problem, according to the second aspect of the present invention, the spectrum estimation method estimates the spectrum value σ n of the frequency signal x n in each short-time frame n. The spectrum estimation method includes a spectrum state estimation step and a posterior probability maximization spectrum estimation step. A spectrum state model Θ θ that is a model parameter related to the prior probability density function p (θ n ; Θ θ ) of the state parameter θ n representing the state of the logarithmic spectrum ρ n of the frequency signal x n , and a condition under which the state parameter θ n is known The state-dependent spectrum model Θ ρ which is a model parameter regarding the conditional probability density function p (ρ n | θ n ; Θ ρ ) of the logarithmic spectrum ρ n below is stored. In the spectral state estimation step, the log likelihood weight w θn is estimated using the logarithmic spectrum estimation value ρ ^ n , the spectral state model Θ θ and the state dependent spectral model Θ ρ . The posterior probability maximization spectrum estimation step estimates the logarithmic spectrum ρ n that maximizes the objective function using the frequency signal x n , the log likelihood weight w θn, and the state-dependent spectrum model Θ ρ . Until the convergence condition is satisfied, the processing in the spectrum state estimation step and the posterior probability maximization spectrum estimation step is repeated.
本発明によれば、スペクトルの分布を高精度に表現可能な対数スペクトルに関する潜在変数依存型ガウス分布をスペクトルの事前確率密度関数として用いた場合でも、効率的にスペクトルの値を推定できる。その結果、周波数信号が誤差を含むような場合でも、効率的かつ高精度に、そのスペクトルの推定が可能になるという効果を奏する。 According to the present invention, even when a latent variable-dependent Gaussian distribution relating to a logarithmic spectrum capable of expressing the spectrum distribution with high accuracy is used as the prior probability density function of the spectrum, the spectrum value can be estimated efficiently. As a result, even when the frequency signal includes an error, the spectrum can be estimated efficiently and with high accuracy.
以下、本発明の実施形態について説明する。 Hereinafter, embodiments of the present invention will be described.
<第一実施形態>
図3はスペクトル推定装置10の機能ブロック図を、図4はその処理フローを示す。スペクトル推定装置10は、スペクトル状態モデル記憶部101、状態依存スペクトルモデル記憶部102、スペクトル状態推定部104及び事後確率最大化スペクトル推定部106を含む。
<First embodiment>
FIG. 3 is a functional block diagram of the
スペクトル推定装置10は、各短時間フレームnにおいて、周波数信号xnを受け取り、そのスペクトルの推定値σ^nを出力する。
The
まず、周波数信号xnの対数スペクトルをρn=[ρn,1,ρn,2,…,ρn,Nk]Tと表すことにする。ただし、ρn,k=logσn,kである。 First, the logarithmic spectrum of the frequency signal x n is expressed as ρ n = [ρ n, 1 , ρ n, 2 ,..., Ρ n, Nk ] T. However, ρ n, k = logσ n, k .
スペクトル状態モデル記憶部101は、周波数信号xnの対数スペクトルρnの状態を表す状態パラメータθnの事前確率密度関数p(θn;Θθ)に関するモデルパラメータを記憶している。以下、このモデルパラメータをスペクトル状態モデルΘθと呼ぶ。
The spectrum state
状態依存スペクトルモデル記憶部102は、状態パラメータθnが既知の条件下での対数スペクトルρnの条件付き確率密度関数p(ρn|θn;Θρ)に関するモデルパラメータを記憶している。以下、このモデルパラメータを状態依存スペクトルモデルΘρと呼ぶ。
The state-dependent spectrum
スペクトル状態推定部104は、後述する事後確率最大化スペクトル推定部106が推定した対数スペクトルの推定値ρ^nを受け取るとともに、スペクトル状態モデル記憶部101と状態依存スペクトルモデル記憶部102のそれぞれからスペクトル状態モデルΘθと状態依存スペクトルモデルΘρを受け取り、対数尤度重みwθn(ただし、下付添え字θnはθnを表す)を推定し(s1)、出力する。
The spectrum
事後確率最大化スペクトル推定部106は、周波数信号xnと、対数尤度重みwθnと、状態依存スペクトルモデルΘρを受け取り、後述する目的関数を最大化する対数スペクトルの推定値ρ^n=[ρ^n,1,ρ^n,2,…,ρ^n,Nk]Tを推定し(s2)、出力する。また収束条件を満たすまで(s3)、スペクトル状態推定部104及び事後確率最大化スペクトル推定部106における処理(s1及びs2)を繰り返す。収束条件としては、例えば、(1)繰り返し回数が所定の回数を超えることや、(2)一つ前の繰り返し時に得られた対数スペクトルの推定値と現在の繰り返し時に得られた対数スペクトルの推定値との差分が閾値以下であること等が挙げられる。収束条件を満たした場合は、満たした時点の対数スペクトルの推定値ρ^nからスペクトルの推定値σ^n=[σ^n,1,σ^n,2,…,σ^n,Nk]Tを求め、出力する。ただし、σ^n,k=exp(ρ^n,k)である。推定値ρ^n,kが得られれば推定値σ^n,kも与えられるので、以下では推定値ρ^n,kについての推定方法のみについて記述する。
Posteriori probability maximization
<第一実施形態のポイント>
スペクトル推定装置10では、対数スペクトルρnがとりうる値を規定する事前確率密度関数p(ρn;Θθ,Θρ)を導入し、対数スペクトルρnの値を、周波数信号xnが与えられた下での事後確率最大化(MAP)推定により求める。すなわち、以下のように求める。
<Points of first embodiment>
The
これにより、(1)式で定義される周波数信号xnの条件付き確率密度関数p(xn,k|σn,k)に加えて、対数スペクトルρnの事前確率密度関数p(ρn;Θθ,Θρ)をも考慮しながら対数スペクトルρnが推定されることになる。そのため、周波数信号xnに含まれる誤差の影響を比較的受けにくいスペクトル推定が可能になる。なお、(5)式のp(xn|ρn)は、従来の最尤法と同様に、p(xn|ρn)=Πkp(xn,k|ρn,k)のように分解でき、(1)式とσn,k=exp(ρn,k)の関係式に基づき、以下のように定義されているものとする。 Thus, (1) the conditional probability density function p of the frequency signal x n to be defined (x n, k | sigma n, k) in equation in addition to, the logarithmic spectrum [rho n pre probability density function p ([rho n The logarithmic spectrum ρ n is estimated in consideration of Θ θ and Θ ρ ). Therefore, it is possible to perform spectrum estimation that is relatively difficult to be affected by the error included in the frequency signal xn . Note that p (x n | ρ n ) in the equation (5) is p (x n | ρ n ) = Π k p (x n, k | ρ n, k ) as in the conventional maximum likelihood method. It is assumed that the following definition is made based on the relational expression (1) and σ n, k = exp (ρ n, k ).
さらに、第一実施形態のスペクトル推定装置10では、高精度で効率的な推定を実現するために、以下の3つの仮定を導入する。
Furthermore, in the
仮定(1):周波数信号xnの対数スペクトルρnの事前確率密度関数p(ρn;Θθ,Θρ)は、状態パラメータθnを潜在変数として持つ以下の式でモデル化されている。 Assumption (1): Prior probability density function p (ρ n ; Θ θ , Θ ρ ) of logarithmic spectrum ρ n of frequency signal x n is modeled by the following equation having state parameter θ n as a latent variable. .
なお、上式では、状態パラメータθnは離散値を取るものと仮定し、その周辺化のために全状態の総和をとっている。一方、本発明は、状態パラメータθnが連続値を取る場合も含む。その場合、状態パラメータθnの周辺化は、以下のように、状態パラメータθnがとりうる値の全範囲にわたる積分として定義される。 In the above equation, it is assumed that the state parameter θ n takes a discrete value, and the sum of all the states is taken for peripheralization. On the other hand, the present invention includes a case where the state parameter θ n takes a continuous value. In that case, the peripheral of the state parameters theta n, as follows is defined as the integral over the entire range of state values parameter theta n can take.
本実施形態では、状態パラメータθnは離散値を取るものとして説明する。なお、連続値を取る場合については、状態パラメータθnに関する総和の部分を、適宜、状態パラメータθnがとりうる値の全範囲にわたる積分として読み替えるだけでよいので、個別の説明は省略する。 In the present embodiment, the state parameter θ n will be described as a discrete value. Note that when taking a continuous value, a portion of the sum on the status parameter theta n, as appropriate, the full range of state values parameter theta n may take only needs replaced as an integral, individual description thereof is omitted.
仮定(2):状態パラメータθnが与えられた下での対数スペクトルρnの条件付き確率密度関数p(ρn|θn;Θρ)は、多変量ガウス分布に従う。以下、仮定(1)及び仮定(2)に従う分布を潜在変数依存型ガウス分布と呼ぶ。 Assumption (2): The conditional probability density function p (ρ n | θ n ; Θ ρ ) of the logarithmic spectrum ρ n given the state parameter θ n follows a multivariate Gaussian distribution. Hereinafter, the distribution according to the assumption (1) and the assumption (2) is referred to as a latent variable dependent Gaussian distribution.
仮定(3):さらに、条件付き確率密度関数p(ρn|θn;Θρ)は、各周波数kの対数スペクトルρn,kに関する条件付き確率密度関数p(ρn,k|θn;Θρ)の積に分解できる。 Assumption (3): Furthermore, the conditional probability density function p (ρ n | θ n ; Θ ρ ) is the conditional probability density function p (ρ n, k | θ n ) for the logarithmic spectrum ρ n, k of each frequency k. ; can be decomposed into a product of theta [rho).
なお、仮定(3)を満たすとき、条件付き確率密度関数p(ρn|θn;Θρ)は周波数分解可能であるという。なお、仮定(2)により、上式の右辺はさらに以下のように書き換えられる。 When the assumption (3) is satisfied, the conditional probability density function p (ρ n | θ n ; Θ ρ ) is said to be frequency resolvable. Note that the right side of the above equation is further rewritten as follows by assumption (2).
ここで、N(x;μ,ξ)は、平均μ、分散ξの一次元ガウス分布の確率密度関数を表す。例えば、(8)式において、状態パラメータθnが単一の状態しかとらないとすると事前確率密度関数p(ρn;Θθ,Θρ)はガウス分布に一致する。状態パラメータθnが有限個の状態のどれか一つを取ると仮定すると事前確率密度関数p(ρn;Θθ,Θρ)は混合ガウス分布に一致する。さらに、隣り合う短時間フレーム間での状態パラメータθnの遷移が、ある状態遷移確率に従うと仮定すると、対数スペクトルρnに関する隠れマルコフモデルになる。上記の仮定および以下では、簡単のため、対数スペクトルρnの事前確率密度関数p(ρn;Θθ,Θρ)は、短時間フレームn毎に独立な分布として説明する。なお、本実施形態において、短時間フレーム間の状態遷移過程を導入する方法は、隠れマルコフモデルに関する既知の技術に基づき自明であるので、その説明を省略する。 Here, N (x; μ, ξ) represents a probability density function of a one-dimensional Gaussian distribution with mean μ and variance ξ. For example, in the equation (8), if the state parameter θ n takes only a single state, the prior probability density function p (ρ n ; Θ θ , Θ ρ ) matches a Gaussian distribution. Assuming that the state parameter θ n takes one of a finite number of states, the prior probability density function p (ρ n ; Θ θ , Θ ρ ) matches the mixed Gaussian distribution. Furthermore, assuming that the transition of the state parameter θ n between adjacent short-time frames follows a certain state transition probability, a hidden Markov model for the logarithmic spectrum ρ n is obtained. In the above assumption and the following, for the sake of simplicity, the prior probability density function p (ρ n ; Θ θ , Θ ρ ) of the logarithmic spectrum ρ n is described as an independent distribution for each short-time frame n. In the present embodiment, the method for introducing the state transition process between the short-time frames is self-evident based on a known technique related to the hidden Markov model, and thus description thereof is omitted.
(5)式の解は、状態パラメータθnを隠れ変数とした期待値最大化(Expextation Maximization:以下「EM」とする)アルゴリズム(及び、その関連最適化手法)で求めることができる。このとき、補助関数Q(ρn|ρ^n)は、以下のように定義される。 The solution of the equation (5) can be obtained by an expected value maximization (hereinafter referred to as “EM”) algorithm (and its related optimization method) using the state parameter θ n as a hidden variable. At this time, the auxiliary function Q (ρ n | ρ ^ n ) is defined as follows.
ここで、対数スペクトルρnが既知の下で、周波数信号xnは、状態パラメータθnと独立であると仮定すると、上記右辺に含まれる完全データの確率密度関数p(xn,ρn,θn;Θθ,Θρ)は、以下のように展開できる。 Here, assuming that the logarithmic spectrum ρ n is known and the frequency signal x n is independent of the state parameter θ n , the probability density function p (x n , ρ n , θ n ; Θ θ , Θ ρ ) can be expanded as follows.
したがって、ρnと無関係の項を省略して(11)式をさらに展開し、以下を得る。 Therefore, a term unrelated to ρ n is omitted and the expression (11) is further developed to obtain the following.
ただし、 However,
したがって、EMアルゴリズムでは、収束するまで、以下の二つの処理を交互に繰り返すことで、MAP推定は実現される。
1.E−step:スペクトル状態推定部104が、対数尤度重みwθnを(18)式に従い更新する(s1)。
2.M−step:事後確率最大化スペクトル推定部106が、(15)式を最大化するρn,kを対数スペクトルの推定値ρ^n,kとして更新する(s2)。
Therefore, in the EM algorithm, MAP estimation is realized by alternately repeating the following two processes until convergence.
1. E-step: The spectrum
2. M-step: The posterior probability maximizing
なお、(18)式は、状態パラメータθnが連続値を取る場合は、状態パラメータθnに関する連続関数になる。上記の繰り返しのうち、最も計算コストを増大させる可能性があるのは、補助関数Q(ρn|ρ^n)の値を最大化する対数スペクトルρnを求めるM−stepである。これに対し、本実施形態では、上記の仮定(1)〜(3)により、すなわち、対数スペクトルρnの事前確率密度関数p(ρn;Θθ,Θρ)が潜在変数依存型ガウス分布に従い、その条件付き確率密度関数p(ρn|θn;Θρ)が周波数分解可能であるとき、計算コストを抑えた処理が可能になる。より具体的には、以下の二つのポイントにより、計算コストを抑えることができる。 Incidentally, (18), if the state parameter theta n takes continuous values, the continuous function relating to the state parameter theta n. Of the above iterations, the most likely to increase the calculation cost is M-step for obtaining a logarithmic spectrum ρ n that maximizes the value of the auxiliary function Q (ρ n | ρ ^ n ). On the other hand, in this embodiment, the prior probability density function p (ρ n ; Θ θ , Θ ρ ) of the logarithmic spectrum ρ n is expressed by the latent variable dependent Gaussian distribution according to the above assumptions (1) to (3). Accordingly, when the conditional probability density function p (ρ n | θ n ; Θ ρ ) can be frequency-resolved, processing with reduced calculation cost is possible. More specifically, the calculation cost can be suppressed by the following two points.
ポイント(1):(15)式は、各時間周波数に閉じて、対数スペクトルρn,kに関するスカラー1変数関数になっている。すなわち、ρnの更新は、各時間周波数n,kにおける対数スペクトルρn,kの更新に分解できる。 Point (1): Equation (15) is a scalar univariate function with respect to the logarithmic spectrum ρ n, k , closed to each time frequency. That is, the update of the [rho n can be decomposed to update the log spectrum [rho n, k at each time-frequency n, k.
ポイント(2):さらに、各時間周波数n,kにおいて最大化をするべき関数であるQk(ρn,k|ρ^n,k)をρn,kで微分して得られる関数は、以下のような単純な形式をしている。
f(z)=exp(z)+z+a (19)
Point (2): Furthermore, a function obtained by differentiating Q k (ρ n, k | ρ ^ n, k ), which is a function to be maximized at each time frequency n, k, with ρ n, k is It has the following simple format.
f (z) = exp (z) + z + a (19)
したがって、(15)式を最大にするρn,kは、(19)式においてf(z)=0となるzを求めた後に、(20)式から求めることができる。一方、(19)式は、スカラー定数aのみで形状が定まる1変数凸関数であり、効率的にf(z)=0の解を求める方法が存在する。例えば、aの値毎にf(z)=0を与える解をあらかじめ求めておき、解の参照表を用意しておけば、参照表を見るだけで近似解を得ることができる。また、(19)式を詳しく調べると、a>−1/2でf(z)≒exp(z)+a,a≦−1/2でf(z)≒z+aと荒く近似できることがわかる。これより、以下の近似解を得ることもできる。 Therefore, ρ n, k that maximizes the equation (15) can be obtained from the equation (20) after obtaining z where f (z) = 0 in the equation (19). On the other hand, equation (19) is a one-variable convex function whose shape is determined only by the scalar constant a, and there is a method for efficiently obtaining a solution of f (z) = 0. For example, if a solution that gives f (z) = 0 for each value of a is obtained in advance and a solution reference table is prepared, an approximate solution can be obtained simply by looking at the reference table. Further, when the equation (19) is examined in detail, it can be understood that f (z) ≈exp (z) + a when a> −1/2 and f (z) ≈z + a can be roughly approximated when a ≦ −1 / 2. From this, the following approximate solution can also be obtained.
さらに、f(z)=0を与える解の初期推定値としてこれらの近似解を用い、ニュートン法などの勾配法を用いて数値的な探索を行うことで、解の精度を上げることができる。しかも、このとき、f(z)は、1変数凸関数であるため、非常に効率的かつ効果的に勾配法による探索を実現できる。 Furthermore, the accuracy of the solution can be improved by using these approximate solutions as the initial estimated value of the solution that gives f (z) = 0 and performing a numerical search using a gradient method such as Newton's method. Moreover, at this time, since f (z) is a one-variable convex function, the search by the gradient method can be realized very efficiently and effectively.
(対数スペクトルの事前確率密度関数p(ρn;Θθ,Θρ))
本実施形態では、対数スペクトルの事前確率密度関数p(ρn;Θθ,Θρ)を、混合ガウス分布でモデル化する。状態パラメータθnは、各短時間フレームnにおいて、1からNθで番号付されたNθ個の有限状態の何れかの状態iをとるとする。事前確率密度関数p(ρn;Θθ,Θρ)は、以下で定義される。
(A priori probability density function p (ρ n ; Θ θ , Θ ρ ) of logarithmic spectrum)
In this embodiment, the prior probability density function p (ρ n ; Θ θ , Θ ρ ) of the logarithmic spectrum is modeled by a mixed Gaussian distribution. The state parameter θ n is assumed to be any state i of N θ finite states numbered from 1 to N θ in each short-time frame n. The prior probability density function p (ρ n ; Θ θ , Θ ρ ) is defined as follows.
ただし、 However,
p(θn=i;Θθ)=βi (25)
スペクトル状態モデルΘθは、全ての状態iに関する混合比βiからなり、状態依存スペクトルモデルΘρは、全ての状態i、全ての周波数kに関する平均μi kと共分散行列ξi kとからなる。これらのモデルは、スペクトル推定の対象となる信号に関する学習データを用いて、事前に学習されているとする。混合ガウス分布のモデルパラメータの学習には、EMアルゴリズムを用いる方法などが知られている。
p (θ n = i; Θ θ ) = β i (25)
Spectral state model theta theta, consist mixing ratio beta i for all states i, the state-dependent spectral model theta [rho, all states i, from the mean mu i k and covariance matrix xi] i k for all frequencies k Become. These models are assumed to have been learned in advance using learning data related to signals to be subjected to spectrum estimation. A method using an EM algorithm is known for learning model parameters of a mixed Gaussian distribution.
以下、各部の詳細を説明する。 Details of each part will be described below.
<事後確率最大化スペクトル推定部106及びスペクトル状態推定部104の詳細>
事後確率最大化スペクトル推定部106が、一つのスカラー変数zとそのスカラー変数に関する指数関数exp(z)と一つのスカラー定数aとの和によって規定される非線形方程式(例えば(19)式)に関して、各短時間フレームnにおける周波数k毎の周波数信号xn,kと対数尤度重みwθnと状態依存スペクトルモデルΘρに依存してスカラー定数aを定めるとともに(例えば(21)式)、非線形方程式が0に一致するスカラー変数zの値を求め(例えば(19)式、(22)式)、その求めたスカラー変数zと周波数信号xn,kと対数尤度重みwθnと状態依存スペクトルモデルΘρとに基づき、対数スペクトルの推定値ρ^nを更新する(例えば(20)式)。
<Details of A posteriori probability maximization
The posterior probability maximizing
図5は事後確率最大化スペクトル推定部106の機能ブロック図を、図6はスペクトル状態推定部104及び事後確率最大化スペクトル推定部106の処理フローを表す。
5 shows a functional block diagram of the posterior probability maximizing
事後確率最大化スペクトル推定部106は、初期値設定部106a、スカラー定数算出部106b、スカラー変数算出部106c、対数スペクトル算出部106d、収束判定部106e及びスペクトル算出部106fを備える。
The posterior probability maximizing
初期値設定部106aは、周波数信号xnを受け取り、式(3’)のように対数スペクトルの推定値ρ^nの初期値を、従来の最尤法により求める(s21)。
The initial
スペクトル状態推定部104が、対数スペクトルの推定値ρ^nに加えて、(24)式と(25)式のそれぞれで定義されるスペクトル状態モデルΘθである混合比βiと状態依存スペクトルモデルΘρである平均μi k及び共分散行列ξi kを受け取り、対数尤度重みwiを(18)式に基づき以下のように求める(s1)。
In addition to the estimated value ρ ^ n of the logarithmic spectrum, the spectrum
さらに、周波数k毎に、以下の手順により、対数スペクトルの推定値ρ^n,kを更新する。 Further, the estimated value ρ ^ n, k of the logarithmic spectrum is updated for each frequency k by the following procedure.
スカラー定数算出部106bは、周波数信号xnと、対数尤度重みwiと、状態依存スペクトルモデルΘρである全ての状態i、全ての周波数kに関する平均μi kと共分散行列ξi kとを受け取り、(21)式によりスカラー定数aを求める(s22)。
Scalar
スカラー変数算出部106cは、スカラー定数aを受け取り、(19)式に関して、f(z)=0となるスカラー変数zを(近似的に)求める(s23)。
The scalar
対数スペクトル算出部106dは、周波数信号xnと、対数尤度重みwiと、状態依存スペクトルモデルΘρである全ての状態i、全ての周波数kに関する共分散行列ξi kと、スカラー変数zとを受け取り、(20)式を満たす対数スペクトルρn,kを求め、その推定値ρ^n,kとする(s24)。
The logarithmic
スペクトル状態推定部104における処理をE−stepとし、事後確率最大化スペクトル推定部106における処理をM−stepとし、EMアルゴリズムに基づき、s1〜s24を収束条件を満たすまで繰り返す。そのため、収束判定部106eは、対数スペクトルの推定値ρ^n,kを受け取り、収束条件を満たすか否かを判定する(s3)。収束条件を満たさない場合には、対数スペクトルの推定値ρ^nをスペクトル状態推定部104に出力し、各部に対し、処理を繰り返すように制御信号を出力する。収束条件を満たす場合には、対数スペクトルの推定値ρ^nをスペクトル算出部106fに出力する。
The process in the spectrum
スペクトル算出部106fは、対数スペクトルの推定値ρ^nを受け取り、各周波数kにおけるスペクトルの推定値σ^n,kを、σ^n,k=exp(ρ^n,k)として求め(s26)、スペクトルの推定値σ^nをスペクトル推定装置10の出力値として出力する。
The
<効果>
このような構成により、スペクトルの分布を高精度に表現可能な対数スペクトルに関する潜在変数依存型ガウス分布をスペクトルの事前確率密度関数として用いて、効率的にスペクトルの値を推定できる。その結果、周波数信号が誤差を含むような場合でも、効率的かつ高精度に、そのスペクトルの推定が可能になる。
<Effect>
With such a configuration, it is possible to efficiently estimate a spectrum value using a latent variable-dependent Gaussian distribution relating to a logarithmic spectrum capable of expressing the spectrum distribution with high accuracy as a prior probability density function of the spectrum. As a result, even when the frequency signal includes an error, the spectrum can be estimated efficiently and with high accuracy.
<変形例>
第一実施形態の変形例として、EMアルゴリズムのE−stepにおいて、各状態の事後確率p(θn|ρ^n;Θρ)を求める代わりに、最大の事後確率を与える状態を選択する場合の例を説明する。これは、混合ガウス分布や隠れマルコフモデルを用いた推定において、計算量削減のためにしばしば導入される近似計算である。この変形は、より厳密には、第一実施形態ではθnを隠れ変数として扱っていたのに対し、ρnと一緒にθnも事後確率最大化推定で求めることに相当する。すなわち、以下の問題を解くことに相当する。
<Modification>
As a modification of the first embodiment, in the E-step of the EM algorithm, instead of obtaining the posterior probability p (θ n | ρ ^ n ; Θ ρ ) of each state, a state that gives the maximum posterior probability is selected. An example will be described. This is an approximate calculation that is often introduced to reduce the amount of calculation in estimation using a mixed Gaussian distribution or a hidden Markov model. More precisely, in the first embodiment, θ n is treated as a hidden variable in the first embodiment, whereas θ n is obtained by posterior probability maximization estimation together with ρ n . That is, it corresponds to solving the following problem.
具体的な処理手順としては、第一実施形態の処理手順の中のs1の処理が以下のように修正されるのみで、それ以外は、第一実施形態と同じである。 As a specific processing procedure, only the processing of s1 in the processing procedure of the first embodiment is modified as follows, and the other processing steps are the same as those of the first embodiment.
以下、変形例のスペクトル状態推定部104における処理(E−step、s1)を説明する。図7は変形例のスペクトル状態推定部104の機能ブロック図を、図8はその処理フローを示す。スペクトル状態推定部104は状態番号推定部104aと対数尤度重み設定部104bとを含む。
Hereinafter, the process (E-step, s1) in the spectrum
状態番号推定部104aは、対数スペクトルの推定値ρ^n、と、スペクトル状態モデルΘθである混合比βiと、状態依存スペクトルモデルΘρである全ての状態i、全ての周波数kに関する平均μi k及び共分散行列ξi kとを受け取り、事後確率最大となる状態番号の推定値i^を
The
として求める(s104a)。
対数尤度重み設定部104bは推定値i^を受け取り、対数尤度重みwiを
(S104a).
The log likelihood
として定める(s104b)。 (S104b).
<第二実施形態>
第一実施形態と異なる部分についてのみ説明する。第二実施形態として、状態パラメータθnが連続値をとる場合の実施形態について説明する。
<Second embodiment>
Only parts different from the first embodiment will be described. As a second embodiment, an embodiment in which the state parameter θ n takes a continuous value will be described.
スペクトル状態モデル記憶部101に記憶されているスペクトル状態モデル、状態依存スペクトルモデル記憶部102に記憶されている状態依存スペクトルモデル、及び各部の処理等が、第一実施形態とは異なる。
The spectrum state model stored in the spectrum state
(状態パラメータの定義)
本実施形態では、状態パラメータθnとして、周波数信号に対応するメル周波数ケプストラム係数(Mel-frequency cepstral coefficient、以下「MFCC」という)cnを用いる。MFCCcnは、各次数に対応するNc個の要素cn,mを持つベクトルとして表現されているとする。よって、cn=[cn,1,cn,2,…,cn,Nc]T、ただし下付添え字NcはNcを表す。いま、cn=H(ρn)を信号の対数スペクトルρnをMFCCに変換する関数とする。すると、H(ρn)は、まず、対数スペクトルρnの各要素に対数変換の逆変換(exp(・))を適用し、メルフィルタバンク処理(mfb(・)と表記)を施し、個々のベクトル要素に対数変換(log(・))を適用したのち、離散コサイン変換(D(・))を適応することに対応する。すなわち、H(ρn)は、以下の変換過程で表現される。
(Definition of state parameters)
In the present embodiment, as the state parameter theta n, Mel frequency cepstral coefficients corresponding to the frequency signal (Mel-frequency cepstral coefficient, hereinafter "MFCC" hereinafter) using c n. MFCCc n is assumed to be represented as a vector with N c number of elements c n, m corresponding to each order. Thus, c n = [c n, 1 , c n, 2 ,..., C n, Nc ] T , where the subscript Nc represents N c . Now, let c n = H (ρ n ) be a function that converts the logarithmic spectrum ρ n of the signal into MFCC. Then, H (ρ n ) first applies inverse transformation of logarithmic transformation (exp (•)) to each element of the logarithmic spectrum ρ n , performs mel filter bank processing (denoted as mfb (•)), and individually It corresponds to applying a discrete cosine transform (D (•)) after applying a logarithmic transform (log (•)) to the vector elements of. That is, H (ρ n ) is expressed by the following conversion process.
(スペクトル状態モデルの定義)
本実施形態では、状態パラメータθnの事前確率密度関数p(θn;Θθ)としてMFCCの混合ガウス分布を用いるとする。これは、jをガウス分布の番号とすると、以下でモデル化される。
(Definition of spectral state model)
In this embodiment, it is assumed that a mixed Gaussian distribution of MFCC is used as the prior probability density function p (θ n ; Θ θ ) of the state parameter θ n . This is modeled below, where j is a Gaussian number.
ここで、γjは分布番号jに対応する混合比、μjとΣjは、分布番号jに対応するガウス分布の平均と共分散行列である。したがって、スペクトル状態モデルΘθは、全てのjに関するγjとμjとΣjの集合とする。 Here, γ j is the mixing ratio corresponding to the distribution number j, and μ j and Σ j are the mean and covariance matrix of the Gaussian distribution corresponding to the distribution number j. Therefore, the spectral state model Θ θ is a set of γ j , μ j, and Σ j for all j.
(状態依存スペクトルモデルの定義)
本実施形態では、状態パラメータであるMFCCcnが既知の場合の対数スペクトルρnの条件付き確率密度関数p(ρn|cn;Θρ)は、上記のcn=H(ρn)の逆変換過程としてモデル化する。一般に、cn=H(sn)は多対一の変換となるため、その逆変換はユニークには定められない。したがって、その定め方には任意性がある。ここでは、一例を挙げる。まず、以下のように、線形回帰を用いて、cn=H(ρn)の疑似逆変換であるρ^n=G(cn)を定義する。
G(c)=Ac+b (35)
ただし、Aは行列(Nk×Nc)、bはベクトル(Nk×1)を表す。行列Aとベクトルbの値は、事前に音響信号のデータベースにより学習されるか、観測信号を用いて学習されるものとする。すなわち、いま学習用のデータベース(もしくは、観測信号)から、複数の周波数信号xnにそれぞれ対応する複数の対数スペクトルρnと、それに対応するMFCCcn=H(ρn)の組合せが与えられているときに、行列Aとベクトルbは、以下のように定められるものとする。
(Definition of state-dependent spectrum model)
In the present embodiment, MFCCc n is a state parameter conditional probability density function p of the logarithmic spectrum [rho n the case of the known (ρ n | c n; Θ ρ) , the above c n = H in ([rho n) Model as an inverse transformation process. In general, since c n = H (s n ) is a many-to-one transformation, the inverse transformation is not uniquely determined. Therefore, the method of determination is arbitrary. Here, an example is given. First, ρ ^ n = G (c n ), which is a pseudo inverse transformation of c n = H (ρ n ), is defined using linear regression as follows.
G (c) = Ac + b (35)
However, A represents a matrix (N k × N c ), and b represents a vector (N k × 1). It is assumed that the values of the matrix A and the vector b are learned in advance from a database of acoustic signals or are learned using observation signals. That is, now database for learning (or observation signals) from a plurality of logarithmic spectrum [rho n respectively corresponding to the plurality of frequency signals x n, given the combination of the corresponding MFCCc n = H (ρ n) thereto The matrix A and the vector b are defined as follows.
また、逆変換誤差e=ρn−ρ^n=ρn−G(H(ρn))は、平均0と共分散行列Ξのガウス分布に従うと仮定する。すなわち、
p(e)=N(e;0,Ξ) (37)
これにより、条件付き確率密度関数p(ρn|cn;Θρ)は、以下のように定義される。
p(ρn|cn;Θρ)=N(ρn;G(cn),Ξ) (38)
Also, it is assumed that the inverse transformation error e = ρ n −ρ ^ n = ρ n −G (H (ρ n )) follows a Gaussian distribution with mean 0 and covariance matrix Ξ. That is,
p (e) = N (e; 0, Ξ) (37)
Accordingly, the conditional probability density function p (ρ n | c n ; Θ ρ ) is defined as follows.
p (ρ n | c n ; Θ ρ ) = N (ρ n ; G (c n ), Ξ) (38)
本実施形態では、上記条件付き確率密度関数p(ρn|cn;Θρ)は、周波数毎の要素の積に分解可能と仮定されているので、共分散行列Ξは、対角要素にξkをもつ対角行列になる。よって、Ξ=diag(ξk)と表すことができる。G(c)のk番目の要素をGk(c)と書くとすると、ξkは平均自乗回帰誤差E{|ρn,k−Gk(cn)|2}として、事前に学習されるとする。すると、上記条件付き確率密度関数は、以下のように書くことができる。 In the present embodiment, the conditional probability density function p (ρ n | c n ; Θ ρ ) is assumed to be decomposable into a product of elements for each frequency, so that the covariance matrix に is a diagonal element. It becomes a diagonal matrix with ξ k . Therefore, it can be expressed as Ξ = diag (ξ k ). If the k-th element of G (c) is written as G k (c), ξ k is learned in advance as a mean square regression error E {| ρ n, k −G k (c n ) | 2 }. Let's say. Then, the conditional probability density function can be written as follows.
したがって、状態依存スペクトルモデルΘρとして、(36)式の係数である行列Aとベクトルb、及び全ての周波数kにおける逆変換誤差の分散ξkを含んでいれば、上記条件付き確率密度関数p(ρn|cn;Θρ)は規定されることになる。 Accordingly, if the state-dependent spectrum model Θ ρ includes the matrix A and the vector b, which are the coefficients of the equation (36), and the variance ξ k of the inverse transformation error at all frequencies k, the conditional probability density function p (Ρ n | c n ; Θ ρ ) will be defined.
(最適化関数)
本実施形態では、第一実施形態の変形例と同様に、対数スペクトルρnと状態パラメータであるMFCCcnの両方をMAP推定により推定する場合を考える。
(Optimization function)
In the present embodiment, similarly to the modification of the first embodiment, both MFCCc n is logarithmic spectrum [rho n and state parameter assumed that estimated by MAP estimation.
したがって、第一実施形態の変形例と同様に、ρ^nとc^nを交互に更新することで、上式を最大化するρ^nとc^nを求める。 Therefore, similarly to the modification of the first embodiment, [rho ^ n and c ^ n by alternately updated, determine the [rho ^ n and c ^ n that maximizes the above expression.
スペクトル状態推定部104は、対数スペクトルの推定値ρ^nが固定された下で、上式を最大化するMFCCcnの推定値c^nを求める。これは、例えば、p(cn;Θθ)の混合ガウス分布の分布番号jを隠れ変数としたEMアルゴリズムで求めることができる(つまり、スペクトル状態推定部104と事後確率最大化スペクトル推定部106において行われるEMアルゴリズムのE−step内で、後述する期待値算出部204bと状態パラメータ算出部204cとにおいてEMアルゴリズムを行う)。このための補助関数は以下のように定めることができる。
Spectrum
ただし、 However,
したがって、EMアルゴリズムでは、以下の処理を収束するまで繰り返すことで、(43)式を最大化するcnを求める。これをMFCCである状態パラメータの推定値c^nとする。
1.E−step:(44)式により、E{j|c^n}の値を更新する。
2.M−step:(43)式を最大化するcnの値として、c^nを更新する。具体的には、以下の式を計算する。
Thus, the EM algorithm is repeated until convergence to the following process to determine the c n maximizing the expression (43). This is set as an estimated value c ^ n of the state parameter which is MFCC.
1. E-step: The value of E {j | c ^ n } is updated by the equation (44).
2. M-step: (43) as the value of c n to maximize expression, and updates the c ^ n. Specifically, the following formula is calculated.
そして、上記のように、本実施形態では、状態パラメータcnを潜在変数ではなく、MAP推定により求めるべきパラメータとして扱う。このため、確定値として求めた上記の状態パラメータの推定値c^nに関する対数尤度重みは、以下のようにディラックデルタ関数δ(・)を用いて表現される。 As described above, in the present embodiment, instead of the latent variable state parameter c n, treated as a parameter to be determined by the MAP estimation. For this reason, the log likelihood weight related to the estimated value c ^ n of the state parameter obtained as a definite value is expressed using the Dirac delta function δ (·) as follows.
一方、事後確率最大化スペクトル推定部106は、wcn(ただし、下付添え字cnはcnを表す)を受け取り、(15)式を最大化するρnを求め、ρ^nとする。(15)式は、以下のように書き換えられる。 On the other hand, the posterior probability maximization spectrum estimating unit 106, w cn (where subscript cn represents c n) receive, seek [rho n that maximizes equation (15), and [rho ^ n. Equation (15) can be rewritten as follows.
上式は、(16)式と同じ形をしているので、本実施形態により効率的に最大化することができる。例えば、本実施形態に基づくスペクトル状態推定部104の手順は以下のようになる。
Since the above formula has the same shape as the formula (16), it can be efficiently maximized by this embodiment. For example, the procedure of the spectrum
<スペクトル状態推定部104の詳細>
図9は第二実施形態のスペクトル状態推定部104の機能ブロック図を、図10はその処理フローを示す。
<Details of Spectrum
FIG. 9 is a functional block diagram of the spectrum
スペクトル状態推定部104は、初期値算出部204a、期待値算出部204b、状態パラメータ算出部204c、収束判定部204e及び対数尤度重み算出部204fを含む。
The spectrum
初期値算出部204aは、対数スペクトルの推定値ρ^nを受け取り、状態パラメータの初期値をc^n=H(ρ^n)として定める(s204a)((31)式参照)。
The initial
期待値算出部204bは、状態パラメータの推定値c^nとスペクトル状態モデルΘθである混合比γj、平均μj及び共分散行列Σjを受け取り、(44)式により、期待値E{j|c^n}を求める(s204b、E−step)。
The expected
状態パラメータ算出部204cは、対数スペクトルの推定値ρ^nと、期待値E{j|c^n}と、スペクトル状態モデルΘθである平均μj及び共分散行列Σjと、状態依存スペクトルモデルΘρである行列A、ベクトルb及び共分散行列Ξとを受け取り、(45)式により、MFCCである状態パラメータの推定値c^nを求める(s204c、M−step)。
State
期待値算出部204bにおける処理をE−stepとし、状態パラメータ算出部204cにおける処理をM−stepとし、EMアルゴリズムに基づき、収束条件を満たすまでs204b及びs204cを繰り返す。そのため、収束判定部204eは、状態パラメータの推定値c^nを受け取り、収束条件を満たすか否かを判定する(s204e)。収束条件を満たさない場合には、状態パラメータの推定値c^nを期待値算出部204bに出力し、各部に対し、処理を繰り返すように制御信号を出力する。収束条件を満たす場合には、状態パラメータの推定値c^nを対数尤度重み算出部204fに出力する。収束条件としては、例えば、(1)繰り返し回数が所定の回数を超えることや、(2)一つ前の繰り返し時に得られた状態パラメータの推定値と現在の繰り返し時に得られた状態パラメータの推定値との差分が閾値以下であること等が挙げられる。
The process in the expected
対数尤度重み算出部204fは、状態パラメータの推定値c^nを受け取り、式(46)により、対数尤度重みwcnを求め(s204f)、事後確率最大化スペクトル推定部106に出力する。
The log-likelihood
なお、事後確率最大化スペクトル推定部106は、対数尤度重みwcnと周波数信号xnと状態依存スペクトルモデルΘρとを受け取り、(47)式を最大化する各周波数kにおける対数スペクトルρn,kを求め、対数スペクトルの推定値ρ^n,kを更新する。
The posterior probability maximizing
なお、(47)式の最大化は、前述までの例と同様、(47)式を(19)式の形に書き換えてf(z)=0となるスカラー変数zを求めたのち、求めたスカラー変数zに対応する対数スペクトルρnを求めることで実現できる。 Note that the maximization of the equation (47) was obtained after rewriting the equation (47) into the form of the equation (19) to obtain the scalar variable z where f (z) = 0, as in the previous examples. This can be realized by obtaining a logarithmic spectrum ρ n corresponding to the scalar variable z.
最後に、事後確率最大化スペクトル推定部106のスペクトル算出部106fが、各周波数kにおけるスペクトルの推定値σ^n,kを、σ^n,k=exp(ρ^n,k)として求め、スペクトルの推定値σ^nをスペクトル推定装置10の出力値として出力する。
Finally, the
<効果>
このような構成により、第一実施形態と同様の効果を奏する。
<Effect>
With such a configuration, the same effects as in the first embodiment can be obtained.
(シミュレーション結果)
この発明のスペクトル推定装置10を評価する目的で確認実験を行った。このため、非特許文献1に記載されている残響除去法のなかで、残響除去された周波数信号の推定値からスペクトルを推定する処理の部分で第一実施形態及び第二実施形態を用いた実験を行った。
(simulation result)
A confirmation experiment was conducted for the purpose of evaluating the
非特許文献1による残響除去アルゴリズムは、以下になる。
1.残響除去された周波数信号の推定値x^nを観測信号とする。
2.周波数信号の推定値x^nからそのスペクトルの推定値σ^nを最尤法により求める。
3.以下を収束するまで繰り返す。
(a)観測信号とスペクトルの推定値σ^nから残響の予測係数を更新する。
(b)観測信号と残響の予測係数から残響除去した信号の周波数信号の推定値x^nを求める。
(c)周波数信号の推定値x^nからそのスペクトルの推定値σ^nを最尤法により求める。
4.求められた周波数信号の推定値x^nを時間領域信号に変換し、残響除去された信号として出力する。
The dereverberation algorithm according to
1. The estimated value x ^ n of the frequency signal from which dereverberation has been removed is taken as an observation signal.
2. An estimated value σ ^ n of the spectrum is obtained from the estimated value x ^ n of the frequency signal by the maximum likelihood method.
3. Repeat until convergence.
(A) The prediction coefficient of reverberation is updated from the observed signal and the estimated value σ ^ n of the spectrum.
(B) Obtain an estimated value x ^ n of the frequency signal of the dereverberation signal from the observed signal and the reverberation prediction coefficient.
(C) The estimated value σ ^ n of the spectrum is obtained from the estimated value x ^ n of the frequency signal by the maximum likelihood method.
4). The obtained estimated value x ^ n of the frequency signal is converted into a time domain signal and output as a signal from which dereverberation is removed.
本実験では、上記の3(c)の処理において、最尤法の代わりに、第一実施形態及び第二実施形態を用いる場合と用いない場合の比較を行った。図11は、その結果を示す。3つのグラフのそれぞれは、左から順に、長さの異なる3種類の観測信号(平均長さは、それぞれ1.15秒、2.3秒、4.6秒)を用いた場合の結果を示している。各グラフの横軸は、上記の残響除去アルゴリズムの繰り返し回数を表している。繰り返し回数0は、観測信号を表す。縦軸は、残響除去された信号のケプストラム歪(CD)を示す。二点鎖線が非特許文献1の残響除去法で、一点鎖線が第一実施形態の方法でスペクトル推定を行った場合、実線が第二実施形態の方法でスペクトル推定を行った場合を示す。全ての場合において、2回目以降の繰り返しにおいて、非特許文献1の残響除去法よりも第一実施形態及び第二実施形態によるスペクトル推定を用いた場合の方が、ケプストラム歪を小さくできている。なお、上記の残響除去アルゴリズムにおいて、第一実施形態及び第二実施形態により推定されたスペクトルに基づき残響除去が行われるのは、2回目以降の繰り返しにおいてである。このため、一回目の繰り返しでは、第一実施形態及び第二実施形態を用いる場合と用いない場合で、ケプストラム歪の値に差は生じない。
In this experiment, in the processing of 3 (c), a comparison was made between the case where the first embodiment and the second embodiment were used and the case where the first embodiment and the second embodiment were not used instead of the maximum likelihood method. FIG. 11 shows the result. Each of the three graphs shows the results when using three types of observation signals with different lengths (average lengths are 1.15 seconds, 2.3 seconds, and 4.6 seconds, respectively) in order from the left. ing. The horizontal axis of each graph represents the number of repetitions of the above dereverberation algorithm. The number of repetitions 0 represents an observation signal. The vertical axis represents the cepstrum distortion (CD) of the dereverberation signal. A two-dot chain line is the dereverberation method of
以上の結果より、第一実施形態及び第二実施形態により、潜在変数依存型ガウス分布を対数スペクトルの事前分布として導入し、対数スペクトルを事後確率最大化推定により求めることで、スペクトル推定精度を改善できることが確認された。 Based on the above results, the first and second embodiments introduce a latent variable-dependent Gaussian distribution as a prior distribution of the logarithmic spectrum, and obtain the logarithmic spectrum by posterior probability maximization estimation to improve the spectrum estimation accuracy. It was confirmed that it was possible.
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<Other variations>
The present invention is not limited to the above-described embodiments and modifications. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.
<プログラム及び記録媒体>
上述したスペクトル推定装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施形態で図に示した機能ブロック図をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施形態で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
<Program and recording medium>
The spectrum estimation apparatus described above can also be functioned by a computer. In this case, each process of a program for causing a computer to function as a target device (device having the functional block diagram shown in the drawings in various embodiments) or a processing procedure thereof (shown in each embodiment) is performed. A program to be executed by a computer may be downloaded from a recording medium such as a CD-ROM, a magnetic disk, a semiconductor storage device, or the like into the computer and executed.
本発明は、各短時間フレームにおける周波数信号のスペクトル値を用いて行う様々な処理に利用することができる。 The present invention can be used for various processes performed using the spectrum value of the frequency signal in each short time frame.
10 スペクトル推定装置
101 スペクトル状態モデル記憶部
102 状態依存スペクトルモデル記憶部
104 スペクトル状態推定部
104a 状態番号推定部
104b 設定部
106 事後確率最大化スペクトル推定部
106a 初期値設定部
106b スカラー定数算出部
106c スカラー変数算出部
106d 対数スペクトル算出部
106e 収束判定部
106f スペクトル算出部
204a 初期値算出部
204b 期待値算出部
204c 状態パラメータ算出部
204e 収束判定部
204f 算出部
DESCRIPTION OF
Claims (9)
前記周波数信号xnの対数スペクトルρnの状態を表す状態パラメータθnの事前確率密度関数p(θn;Θθ)に関するモデルパラメータであるスペクトル状態モデルΘθと、前記状態パラメータθnが既知の条件下での前記対数スペクトルρnの条件付き確率密度関数p(ρn|θn;Θρ)に関するモデルパラメータである状態依存スペクトルモデルΘρとを記憶する記憶部と、
前記対数スペクトルρ n の推定値ρ^n、前記スペクトル状態モデルΘθ及び前記状態依存スペクトルモデルΘρを用いて、対数尤度重みwθnを推定するスペクトル状態推定部と、
前記周波数信号xn、前記対数尤度重みwθn及び前記状態依存スペクトルモデルΘρを用いて、目的関数を最大化する対数スペクトルを前記推定値ρ^ n として求める事後確率最大化スペクトル推定部とを含み、
収束条件を満たすまで、前記スペクトル状態推定部及び事後確率最大化スペクトル推定部における処理を繰り返す、
スペクトル推定装置。 A spectral estimation device for estimating a spectral value sigma n of the frequency signal x n in each short time frame n,
A spectral state model Θ θ that is a model parameter related to the prior probability density function p (θ n ; Θ θ ) of the state parameter θ n representing the state of the logarithmic spectrum ρ n of the frequency signal x n and the state parameter θ n are known. A storage unit that stores a state-dependent spectrum model Θ ρ that is a model parameter related to a conditional probability density function p (ρ n | θ n ; Θ ρ ) of the logarithmic spectrum ρ n under the conditions of
The log spectrum [rho estimate of n ρ ^ n, using said spectral state model theta theta and the state-dependent spectral model theta [rho, and spectral state estimation unit for estimating log-likelihood weights w .theta.n,
A posteriori probability maximizing spectrum estimation unit that obtains a logarithmic spectrum that maximizes an objective function as the estimated value ρ ^ n using the frequency signal x n , the log likelihood weight w θn, and the state-dependent spectrum model Θ ρ ; Including
Until the convergence condition is satisfied, the processing in the spectrum state estimation unit and the posterior probability maximization spectrum estimation unit is repeated.
Spectrum estimation device.
前記事後確率最大化スペクトル推定部が、一つのスカラー変数zとそのスカラー変数に関する指数関数exp(z)と一つのスカラー定数aとの和によって規定される非線形方程式に関して、各短時間フレームnにおける周波数k毎の周波数信号xn,kと前記対数尤度重みwθnと前記状態依存スペクトルモデルΘρに依存して前記スカラー定数aを定めるとともに、前記非線形方程式が0に一致する前記スカラー変数zの値を求め、その求めた前記スカラー変数zと前記周波数信号xn,kと前記対数尤度重みwθnと前記状態依存スペクトルモデルΘρとに基づき、前記推定値ρ^nを更新する、
スペクトル推定装置。 The spectrum estimation apparatus according to claim 1, wherein
The posterior probability maximizing spectrum estimator relates to a nonlinear equation defined by the sum of one scalar variable z, an exponential function exp (z) related to the scalar variable, and one scalar constant a. The scalar variable a is determined depending on the frequency signal x n, k for each frequency k, the log-likelihood weight w θn and the state-dependent spectral model Θ ρ , and the nonlinear equation is equal to zero. And updating the estimated value ρ ^ n based on the determined scalar variable z, the frequency signal x n, k , the log likelihood weight w θn, and the state-dependent spectrum model Θ ρ .
Spectrum estimation device.
前記対数スペクトルρnが取りうる値を規定する事前確率密度関数p(ρn;Θθ,Θρ)が混合ガウス分布に従い、前記状態パラメータθnは短時間フレームnにおいてNθ個の有限状態の何れかの状態をとり、前記スペクトル状態モデルΘθは全ての状態iに関する混合比βiからなり、前記状態依存スペクトルモデルΘρは全ての状態iに関する全ての周波数kに関する平均μi kと分散ξi kとからなるものとし、
前記スペクトル状態推定部は、前記対数尤度重みwiを
スペクトル推定装置。 The spectrum estimation apparatus according to claim 1 or 2, wherein
The prior probability density function p (ρ n ; Θ θ , Θ ρ ) that defines the possible values of the logarithmic spectrum ρ n follows a mixed Gaussian distribution, and the state parameter θ n is N θ finite states in a short time frame n. Where the spectral state model Θ θ is composed of the mixing ratio β i for all states i, and the state dependent spectral model Θ ρ is the average μ i k for all frequencies k for all states i The variance ξ i k
The spectrum state estimation unit calculates the log likelihood weight w i .
Spectrum estimation device.
前記状態パラメータθnを前記周波数信号に対応するメル周波数ケプストラム係数cnとし、前記状態パラメータの事前確率密度関数p(cn;Θθ)として前記メル周波数ケプストラム係数cnの混合ガウス分布を用い、jをガウス分布の番号とし、前記スペクトル状態モデルΘθを全てのjに関する混合比γjと平均μjと共分散行列Σjとの集合とし、前記メル周波数ケプストラム係数cnから前記推定値ρ^nへの擬似逆変換を規定する行列A及びベクトルbと、逆変換誤差eがガウス分布に従うと仮定したときの共分散行列Ξとを前記状態依存スペクトルモデルΘρとし、
前記スペクトル状態推定部は、
前記メル周波数ケプストラム係数である状態パラメータの推定値c^nと前記混合比γjと前記平均μjと前記共分散行列Σjとを用いて、期待値E{j|c^n}を
前記推定値ρ^nと前記期待値E{j|c^n}と前記行列Aと前記ベクトルbと前記共分散行列Ξと前記平均μjと前記共分散行列Σjとを用いて、前記状態パラメータである前記メル周波数ケプストラム係数の推定値c^nを
δをディラックデルタ関数とし、前記メル周波数ケプストラム係数である状態パラメータの推定値c^nを用いて、前記メル周波数ケプストラム係数である前記状態パラメータの推定値c^nに対する対数尤度重みwcnを
収束条件を満たすまで、前記期待値算出部及び前記状態パラメータ更新部における処理を繰り返す、
スペクトル推定装置。 The spectrum estimation apparatus according to claim 1 or 2, wherein
And Mel-frequency cepstral coefficients c n corresponding to the state parameter theta n to the frequency signal, the prior probability density function p of said state parameters; Gaussian mixture of the mel-frequency cepstral coefficients c n is used as (c n theta theta) and j is the number in the Gaussian distribution, the spectral state model theta theta and set the mixing ratio gamma j relating to all j the mean mu j and covariance matrix sigma j, the estimate from the mel-frequency cepstral coefficients c n The state-dependent spectrum model Θ ρ is defined as a matrix A and a vector b defining pseudo inverse transformation to ρ ^ n and a covariance matrix Ξ when the inverse transformation error e is assumed to follow a Gaussian distribution.
The spectrum state estimation unit
The expected value E {j | c ^ n } is obtained by using the estimated value c ^ n of the mel frequency cepstrum coefficient, the mixing ratio γ j , the average μ j, and the covariance matrix Σ j.
Using the estimated value ρ ^ n , the expected value E {j | c ^ n }, the matrix A, the vector b, the covariance matrix Ξ, the average μ j, and the covariance matrix Σ j , The estimated value c ^ n of the mel frequency cepstrum coefficient which is a state parameter is
Using δ as a Dirac delta function and using the state parameter estimate c ^ n that is the mel frequency cepstrum coefficient, a log likelihood weight w cn for the state parameter estimate c ^ n that is the mel frequency cepstrum coefficient is
Until the convergence condition is satisfied, repeat the process in the expected value calculation unit and the state parameter update unit,
Spectrum estimation device.
前記周波数信号xnの対数スペクトルρnの状態を表す状態パラメータθnの事前確率密度関数p(θn;Θθ)に関するモデルパラメータであるスペクトル状態モデルΘθと、前記状態パラメータθnが既知の条件下での前記対数スペクトルρnの条件付き確率密度関数p(ρn|θn;Θρ)に関するモデルパラメータである状態依存スペクトルモデルΘρとを記憶しておき、
前記対数スペクトルρ n の推定値ρ^n、前記スペクトル状態モデルΘθ及び前記状態依存スペクトルモデルΘρを用いて、対数尤度重みwθnを推定するスペクトル状態推定ステップと、
前記周波数信号xn、前記対数尤度重みwθn及び前記状態依存スペクトルモデルΘρを用いて、目的関数を最大化する対数スペクトルを前記推定値ρ^ n として求める事後確率最大化スペクトル推定ステップとを含み、
収束条件を満たすまで、前記スペクトル状態推定ステップ及び事後確率最大化スペクトル推定ステップにおける処理を繰り返す、
スペクトル推定方法。 A spectral estimation method for estimating the spectral value sigma n of the frequency signal x n in each short time frame n,
A spectral state model Θ θ that is a model parameter related to the prior probability density function p (θ n ; Θ θ ) of the state parameter θ n representing the state of the logarithmic spectrum ρ n of the frequency signal x n and the state parameter θ n are known. A state-dependent spectral model Θ ρ that is a model parameter for the conditional probability density function p (ρ n | θ n ; Θ ρ ) of the logarithmic spectrum ρ n under the conditions of
Estimate [rho ^ n of the log spectrum [rho n, using said spectral state model theta theta and the state-dependent spectral model theta [rho, and spectral state estimating step of estimating log-likelihood weights w .theta.n,
Using the frequency signal x n , the log likelihood weight w θn and the state-dependent spectrum model Θ ρ , a posterior probability maximizing spectrum estimation step for obtaining a logarithm spectrum maximizing an objective function as the estimated value ρ ^ n ; Including
Until the convergence condition is satisfied, the processing in the spectral state estimation step and the posterior probability maximization spectral estimation step is repeated.
Spectral estimation method.
前記事後確率最大化スペクトル推定ステップが、一つのスカラー変数zとそのスカラー変数に関する指数関数exp(z)と一つのスカラー定数aとの和によって規定される非線形方程式に関して、各短時間フレームnにおける周波数k毎の周波数信号xn,kと前記対数尤度重みwθnと前記状態依存スペクトルモデルΘρに依存して前記スカラー定数aを定めるとともに、前記非線形方程式が0に一致する前記スカラー変数zの値を求め、その求めた前記スカラー変数zと前記周波数信号xn,kと前記対数尤度重みwθnと前記状態依存スペクトルモデルΘρとに基づき、前記推定値ρ^nを更新する、
スペクトル推定方法。 The spectrum estimation method according to claim 5, comprising:
The posterior probability maximizing spectrum estimation step is performed in each short time frame n with respect to a nonlinear equation defined by a sum of one scalar variable z, an exponential function exp (z) related to the scalar variable, and a scalar constant a. The scalar variable a is determined depending on the frequency signal x n, k for each frequency k, the log-likelihood weight w θn and the state-dependent spectral model Θ ρ , and the nonlinear equation is equal to zero. And updating the estimated value ρ ^ n based on the determined scalar variable z, the frequency signal x n, k , the log likelihood weight w θn, and the state-dependent spectrum model Θ ρ .
Spectral estimation method.
前記対数スペクトルρnが取りうる値を規定する事前確率密度関数p(ρn;Θθ,Θρ)が混合ガウス分布に従い、前記状態パラメータθnは短時間フレームnにおいてNθ個の有限状態の何れかの状態をとり、前記スペクトル状態モデルΘθは全ての状態iに関する混合比βiからなり、前記状態依存スペクトルモデルΘρは全ての状態iに関する全ての周波数kに関する平均μi kと分散ξi kとからなるものとし、
前記スペクトル状態推定ステップにおいて、前記対数尤度重みwiを
スペクトル推定方法。 The spectrum estimation method according to claim 5 or 6, comprising:
The prior probability density function p (ρ n ; Θ θ , Θ ρ ) that defines the possible values of the logarithmic spectrum ρ n follows a mixed Gaussian distribution, and the state parameter θ n is N θ finite states in a short time frame n. Where the spectral state model Θ θ is composed of the mixing ratio β i for all states i, and the state dependent spectral model Θ ρ is the average μ i k for all frequencies k for all states i The variance ξ i k
In the spectral state estimation step, the log likelihood weight w i is
Spectral estimation method.
前記状態パラメータθnを前記周波数信号に対応するメル周波数ケプストラム係数cnとし、前記状態パラメータの事前確率密度関数p(cn;Θθ)として前記メル周波数ケプストラム係数cnの混合ガウス分布を用い、jをガウス分布の番号とし、前記スペクトル状態モデルΘθを全てのjに関する混合比γjと平均μjと共分散行列Σjとの集合とし、前記メル周波数ケプストラム係数cnから前記推定値ρ^nへの擬似逆変換を規定する行列A及びベクトルbと、逆変換誤差eがガウス分布に従うと仮定したときの共分散行列Ξとを前記状態依存スペクトルモデルΘρとし、
前記スペクトル状態推定ステップは、
前記メル周波数ケプストラム係数である状態パラメータの推定値c^nと前記混合比γjと前記平均μjと前記共分散行列Σjとを用いて、期待値E{j|c^n}を
前記推定値ρ^nと前記期待値E{j|c^n}と前記行列Aと前記ベクトルbと前記共分散行列Ξと前記平均μjと前記共分散行列Σjとを用いて、前記状態パラメータである前記メル周波数ケプストラム係数の推定値c^nを
δをディラックデルタ関数とし、前記メル周波数ケプストラム係数である状態パラメータの推定値c^nを用いて、前記メル周波数ケプストラム係数である前記状態パラメータの推定値c^nに対する対数尤度重みwcnを
収束条件を満たすまで、前記期待値算出ステップ及び前記状態パラメータ更新ステップにおける処理を繰り返す、
スペクトル推定方法。 The spectrum estimation method according to claim 5 or 6, comprising:
And Mel-frequency cepstral coefficients c n corresponding to the state parameter theta n to the frequency signal, the prior probability density function p of said state parameters; Gaussian mixture of the mel-frequency cepstral coefficients c n is used as (c n theta theta) and j is the number in the Gaussian distribution, the spectral state model theta theta and set the mixing ratio gamma j relating to all j the mean mu j and covariance matrix sigma j, the estimate from the mel-frequency cepstral coefficients c n The state-dependent spectrum model Θ ρ is defined as a matrix A and a vector b defining pseudo inverse transformation to ρ ^ n and a covariance matrix Ξ when the inverse transformation error e is assumed to follow a Gaussian distribution.
The spectral state estimation step includes:
The expected value E {j | c ^ n } is obtained by using the estimated value c ^ n of the mel frequency cepstrum coefficient, the mixing ratio γ j , the average μ j, and the covariance matrix Σ j.
Using the estimated value ρ ^ n , the expected value E {j | c ^ n }, the matrix A, the vector b, the covariance matrix Ξ, the average μ j, and the covariance matrix Σ j , The estimated value c ^ n of the mel frequency cepstrum coefficient which is a state parameter is
Using δ as a Dirac delta function and using the state parameter estimate c ^ n that is the mel frequency cepstrum coefficient, a log likelihood weight w cn for the state parameter estimate c ^ n that is the mel frequency cepstrum coefficient is
Until the convergence condition is satisfied, the processes in the expected value calculation step and the state parameter update step are repeated.
Spectral estimation method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012060159A JP5689844B2 (en) | 2012-03-16 | 2012-03-16 | SPECTRUM ESTIMATION DEVICE, METHOD THEREOF, AND PROGRAM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012060159A JP5689844B2 (en) | 2012-03-16 | 2012-03-16 | SPECTRUM ESTIMATION DEVICE, METHOD THEREOF, AND PROGRAM |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013195511A JP2013195511A (en) | 2013-09-30 |
JP5689844B2 true JP5689844B2 (en) | 2015-03-25 |
Family
ID=49394578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012060159A Active JP5689844B2 (en) | 2012-03-16 | 2012-03-16 | SPECTRUM ESTIMATION DEVICE, METHOD THEREOF, AND PROGRAM |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5689844B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016167216A1 (en) * | 2015-04-13 | 2016-10-20 | 日本電信電話株式会社 | Matching device, determination device, method therefor, program, and recording medium |
CN113946955B (en) * | 2021-10-14 | 2023-08-08 | 西安电子科技大学 | Multi-target Bayesian direction-of-arrival estimation method based on fusion center feedback information |
CN114444279B (en) * | 2022-01-14 | 2022-12-16 | 中国人民解放军国防科技大学 | Response prediction method based on satellite low and high precision data associated parameter joint estimation |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0895592A (en) * | 1994-09-21 | 1996-04-12 | Nippon Telegr & Teleph Corp <Ntt> | Pattern recognition method |
JPH09198084A (en) * | 1996-01-16 | 1997-07-31 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for speaker recognition accompanied by model update |
JP4977062B2 (en) * | 2008-02-29 | 2012-07-18 | 日本電信電話株式会社 | Reverberation apparatus and method, program and recording medium |
US8848933B2 (en) * | 2008-03-06 | 2014-09-30 | Nippon Telegraph And Telephone Corporation | Signal enhancement device, method thereof, program, and recording medium |
-
2012
- 2012-03-16 JP JP2012060159A patent/JP5689844B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013195511A (en) | 2013-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9721202B2 (en) | Non-negative matrix factorization regularized by recurrent neural networks for audio processing | |
Deng et al. | Recursive estimation of nonstationary noise using iterative stochastic approximation for robust speech recognition | |
CN110914899A (en) | Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method | |
Wang et al. | Speaker and noise factorization for robust speech recognition | |
CN104685562B (en) | Method and apparatus for reconstructing echo signal from noisy input signal | |
US9754608B2 (en) | Noise estimation apparatus, noise estimation method, noise estimation program, and recording medium | |
Deng | Front-end, back-end, and hybrid techniques for noise-robust speech recognition | |
JP2017514249A (en) | How to convert the input signal | |
Sadhu et al. | Continual Learning in Automatic Speech Recognition. | |
JP4977062B2 (en) | Reverberation apparatus and method, program and recording medium | |
CN104737229A (en) | Method for transforming input signal | |
CN110998723B (en) | Signal processing device using neural network, signal processing method, and recording medium | |
JP2010078650A (en) | Speech recognizer and method thereof | |
Mohammadiha et al. | A state-space approach to dynamic nonnegative matrix factorization | |
JP5689844B2 (en) | SPECTRUM ESTIMATION DEVICE, METHOD THEREOF, AND PROGRAM | |
JPWO2009038013A1 (en) | Noise removal system, noise removal method, and noise removal program | |
JP5881454B2 (en) | Apparatus and method for estimating spectral shape feature quantity of signal for each sound source, apparatus, method and program for estimating spectral feature quantity of target signal | |
Yao et al. | Noise adaptive speech recognition based on sequential noise parameter estimation | |
JP6711765B2 (en) | Forming apparatus, forming method, and forming program | |
Chung et al. | Training and compensation of class-conditioned NMF bases for speech enhancement | |
Wang et al. | An explicit independence constraint for factorised adaptation in speech recognition. | |
JP5172536B2 (en) | Reverberation removal apparatus, dereverberation method, computer program, and recording medium | |
Wang et al. | Improving reverberant VTS for hands-free robust speech recognition | |
Sehr et al. | Model-based dereverberation in the Logmelspec domain for robust distant-talking speech recognition | |
Maas et al. | A highly efficient optimization scheme for REMOS-based distant-talking speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140203 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141023 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141118 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150129 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5689844 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |