JP5689844B2 - SPECTRUM ESTIMATION DEVICE, METHOD THEREOF, AND PROGRAM - Google Patents

SPECTRUM ESTIMATION DEVICE, METHOD THEREOF, AND PROGRAM Download PDF

Info

Publication number
JP5689844B2
JP5689844B2 JP2012060159A JP2012060159A JP5689844B2 JP 5689844 B2 JP5689844 B2 JP 5689844B2 JP 2012060159 A JP2012060159 A JP 2012060159A JP 2012060159 A JP2012060159 A JP 2012060159A JP 5689844 B2 JP5689844 B2 JP 5689844B2
Authority
JP
Japan
Prior art keywords
spectrum
state
spectral
model
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012060159A
Other languages
Japanese (ja)
Other versions
JP2013195511A (en
Inventor
中谷 智広
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012060159A priority Critical patent/JP5689844B2/en
Publication of JP2013195511A publication Critical patent/JP2013195511A/en
Application granted granted Critical
Publication of JP5689844B2 publication Critical patent/JP5689844B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は一次元時系列信号を周波数分割した信号から、信号のスペクトルを推定するスペクトル推定技術に関する。   The present invention relates to a spectrum estimation technique for estimating a spectrum of a signal from a signal obtained by frequency-dividing a one-dimensional time series signal.

以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号、「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。   In the drawings used for the following description, components having the same function and steps for performing the same process are denoted by the same reference numerals, and redundant description is omitted. In the following description, a symbol used in the text, such as “^”, should be described immediately above the immediately preceding character, but is described immediately after the character due to restrictions on text notation. In the formula, these symbols are written in their original positions. Further, the processing performed for each element of a vector or matrix is applied to all elements of the vector or matrix unless otherwise specified.

nを短時間フレームの番号、k(=1〜N)を、観測信号を周波数分割する際の周波数の番号とし、短時間フレームにおける各周波数分割した信号をxn,kと表す。さらに、xn,kを全ての周波数についてひとまとめにしてできるベクトルをx=[xn,1,xn,2,…,xn,Nkと表記し(ただし、下付添え字NkはNを表す)、以下では、短時間フレームnの周波数信号と呼ぶ。Nは周波数分割数を表す。は、ベクトルや行列の非共役転置を表す。 Let n be the number of the short-time frame, k (= 1 to N k ) be the frequency number when the observed signal is frequency-divided, and each frequency-divided signal in the short-time frame is represented as x n, k . Further, a vector that can be obtained by combining x n, k for all frequencies is expressed as x n = [x n, 1 , x n, 2 ,..., X n, N k ] T (provided that the subscript Nk Represents Nk ), hereinafter referred to as the frequency signal of the short-time frame n. N k represents the frequency division number. T represents a non-conjugate transpose of a vector or matrix.

図1は、非特許文献1などに開示されている従来のスペクトル推定装置9の機能ブロック図を示す。スペクトル推定装置9は、各短時間フレームnにおいて、周波数信号xを受け取り、最尤法に基づき、周波数信号xのスペクトルσ=[σn,1,σn,2,…,σn,Nkを推定する。より具体的には、非特許文献1では、信号の周波数分割に短時間フーリエ変換を用いており、残響除去された信号の短時間フーリエ変換の推定値がxと与えられているときに、xn,kが平均0、分散σn,kの複素正規分布に従うとの仮定の下で、最尤スペクトル推定部91において、分散σn,k(=スペクトルの値)を最尤法により求める。つまり、xn,kの条件付き確率密度関数p(xn,k|σn,k)は、以下の式でモデル化される。 FIG. 1 shows a functional block diagram of a conventional spectrum estimation apparatus 9 disclosed in Non-Patent Document 1 and the like. Spectrum estimation unit 9, in each short time frame n, receives the frequency signal x n, based on the maximum likelihood method, the spectrum σ n = [σ n, 1 of the frequency signal x n, σ n, 2, ..., σ n , Nk ] T is estimated. More specifically, in Non-Patent Document 1, short-time Fourier transform is used for frequency division of a signal, and when an estimated value of short-time Fourier transform of a dereverberation signal is given as x n , Under the assumption that x n, k follows a complex normal distribution with mean 0 and variance σ n, k , maximum likelihood spectrum estimation section 91 obtains variance σ n, k (= spectrum value) by the maximum likelihood method. . That, x n, the conditional probability density function p (x n, k | σ n, k) of the k is modeled by the following equation.

Figure 0005689844
Figure 0005689844

そして、対数尤度関数L(σ)=Σlogp(xn,k|σn,k)を最大にする値として、以下のようにスペクトルσ=[σn,1,σn,2,…,σn,Nkを推定する。 Then, as a value that maximizes the log likelihood function L (σ n ) = Σ k logp (x n, k | σ n, k ), the spectrum σ n = [σ n, 1 , σ n, 2 ,..., Σ n, Nk ] T is estimated.

Figure 0005689844
Figure 0005689844

なお、推定値と推定すべき変数を区別するために、推定値には^をつけて、σ^等と表記することにする。 In order to distinguish the estimated value from the variable to be estimated, the estimated value is appended with ^ and expressed as σ ^ n or the like.

一方、非特許文献2等に詳述されているように、(1)式に加えて、分散σn,kのとりうる値を規定する事前確率密度関数p(σ;Θ)を導入し、σの値を、周波数信号xが与えられた下での事後確率最大化(Maximum a posteriori、以下「MAP」ともいう)推定により求める方法が説明されている。ここで、Θは、事前確率密度関数のモデルパラメータである。この場合のスペクトル推定装置8の機能ブロック図を図2に示す。MAP推定は、以下のように定義される。 On the other hand, as detailed in Non-Patent Document 2 and the like, in addition to the equation (1), a prior probability density function p (σ n ; Θ) that defines the possible values of the variance σ n, k is introduced. , Σ n is described by obtaining a posteriori probability maximization (Maximum a posteriori, hereinafter also referred to as “MAP”) under a frequency signal x n . Here, Θ is a model parameter of the prior probability density function. A functional block diagram of the spectrum estimation apparatus 8 in this case is shown in FIG. The MAP estimation is defined as follows:

Figure 0005689844
Figure 0005689844

事後確率最大化スペクトル推定部81は、スペクトル事前分布記憶部82から事前確率密度関数のモデルパラメータΘを取り出し、(4)式により、σを求める。このように、σの事前確率密度関数p(σ;Θ)を考慮することで、σがとりうる値の傾向をある程度制限できることになる。事前確率密度関数p(σ;Θ)として、ガウス分布の分散に関する自然共役分布である逆ガンマ分布等を用いると、効率的な計算が可能なことが知られている。 The posterior probability maximizing spectrum estimation unit 81 extracts the model parameter Θ of the prior probability density function from the spectrum prior distribution storage unit 82, and obtains σ n by the equation (4). Thus, sigma n prior probability density function p; to consider the (σ n Θ), so that to some extent limit the tendency of sigma n can take a value. As the prior probability density function p (σ n ; Θ), it is known that efficient calculation is possible by using an inverse gamma distribution or the like that is a natural conjugate distribution related to the dispersion of a Gaussian distribution.

中谷智広、吉岡拓也、木下慶介、三好正人、Biing-Hwang Juang、“短時間フーリエ変換表現を用いた最尤推定に基づく音声信号の残響除去”、日本音響学会春季研究発表会、2008年3月、pp.733-736Tomohiro Nakatani, Takuya Yoshioka, Keisuke Kinoshita, Masato Miyoshi, Biing-Hwang Juang, “Reverberation removal of speech signal based on maximum likelihood estimation using short-time Fourier transform expression”, Acoustical Society of Japan Spring Meeting, March 2008 , Pp.733-736 C. M. Bishop著、元田浩、栗田多喜夫、樋口知之、松本裕治訳、「パターン認識と機械学習上- ベイズ理論による統計的予測」、シュプリンガー・ジャパン、2007年、pp.95-100C. M. Bishop, Hiroshi Motoda, Takio Kurita, Tomoyuki Higuchi, Yuji Matsumoto, “On Pattern Recognition and Machine Learning-Statistical Prediction by Bayesian Theory”, Springer Japan, 2007, pp.95-100

非特許文献1では、周波数信号として短時間フーリエ変換の推定値を用いているが、一般に、推定値には必ず推定誤差が含まれる。また、周波数信号としてマイクロホンで収音した観測信号を用いる場合なども、一般に、観測信号には必ず何らかの雑音が含まれる。その結果、これらの周波数信号に基づき、従来の方法でスペクトル推定を行うと、誤差や雑音の影響で必ずしも精度よく推定が行えないという問題がある。特に、非特許文献1のように、短時間フーリエ変換の推定とスペクトルの推定を相互に依存させながら交互に繰り返すような場合、繰り返しにより誤差の影響が拡大して推定値が劣化する場合もある。   In Non-Patent Document 1, an estimated value of a short-time Fourier transform is used as a frequency signal, but generally an estimated error is always included in the estimated value. Also, when using an observation signal collected by a microphone as a frequency signal, in general, the observation signal always includes some noise. As a result, when spectrum estimation is performed by a conventional method based on these frequency signals, there is a problem in that estimation cannot always be performed accurately due to the influence of errors and noise. In particular, as in Non-Patent Document 1, when the short-time Fourier transform estimation and the spectrum estimation are alternately repeated while depending on each other, the influence of the error may be enlarged by the repetition and the estimated value may deteriorate. .

一方、非特許文献2にあるように、分散の事前確率密度関数p(σ;Θ)を導入し、分散の値をMAP推定によって求めるようにすることで、分散がとりうる値を制限し、ある程度、誤差の影響を弱めることができる。しかし、MAP推定において効率的に最適化が行えるのは、自然共役分布のようなごく一部の事前確率密度関数p(σ;Θ)を用いる場合に限られ、σの分布を精度よくあらわすものを必ずしも利用できないという問題がある。特に、自動音声認識システムの音響モデルとして利用される確率分布と類似性の高い対数スペクトルに関する混合ガウス分布等(ガウス分布、混合ガウス分布、ガウス分布を出力確率分布に持つ隠れマルコフモデル等を含む)は、精度よく音声信号のスペクトルの分布を表すと考えられているが、(4)式の事前確率密度関数p(σ;Θ)として用いた場合に、効率的に最適化を行う方法は知られていない。 On the other hand, as disclosed in Non-Patent Document 2, by introducing a prior probability density function p (σ n ; Θ) of variance and obtaining the value of variance by MAP estimation, the value that variance can take is limited. To some extent, the effect of errors can be weakened. However, efficient optimization in MAP estimation is limited to the case where only a small part of the prior probability density function p (σ n ; Θ) such as a natural conjugate distribution is used, and the distribution of σ n is accurately determined. There is a problem that what you represent is not always available. In particular, mixed Gaussian distributions for logarithmic spectra that are highly similar to probability distributions used as acoustic models for automatic speech recognition systems (including Gaussian distributions, mixed Gaussian distributions, hidden Markov models with Gaussian distributions as output probability distributions, etc.) Is considered to accurately represent the spectrum distribution of the speech signal, but when used as the prior probability density function p (σ n ; Θ) in equation (4), an efficient optimization method is unknown.

この発明はこの課題に鑑みてなされたものであり、周波数信号が誤差を含む場合でも、対数スペクトルに関する混合ガウス分布等をスペクトルの事前確率密度関数として用いて、高精度かつ効率的にスペクトル推定が行える技術を提供することを目的とする。   The present invention has been made in view of this problem, and even when a frequency signal includes an error, spectrum estimation is performed with high accuracy and efficiency by using a mixed Gaussian distribution or the like relating to a logarithmic spectrum as a prior probability density function of the spectrum. The purpose is to provide technology that can be used.

上記の課題を解決するために、本発明の第一の態様によれば、スペクトル推定装置は、各短時間フレームnにおける周波数信号xのスペクトル値σを推定する。スペクトル推定装置は、記憶部、スペクトル状態推定部及び事後確率最大化スペクトル推定部を含む。記憶部は、周波数信号xの対数スペクトルρの状態を表す状態パラメータθの事前確率密度関数p(θ;Θθ)に関するモデルパラメータであるスペクトル状態モデルΘθと、状態パラメータθが既知の条件下での対数スペクトルρの条件付き確率密度関数p(ρ|θ;Θρ)に関するモデルパラメータである状態依存スペクトルモデルΘρとを記憶する。スペクトル状態推定部は、対数スペクトルの推定値ρ^、スペクトル状態モデルΘθ及び状態依存スペクトルモデルΘρを用いて、対数尤度重みwθnを推定する。事後確率最大化スペクトル推定部は、周波数信号x、対数尤度重みwθn及び状態依存スペクトルモデルΘρを用いて、目的関数を最大化する対数スペクトルρを推定する。収束条件を満たすまで、スペクトル状態推定部及び事後確率最大化スペクトル推定部における処理を繰り返す。 In order to solve the above problem, according to the first aspect of the present invention, the spectrum estimation device estimates the spectrum value σ n of the frequency signal x n in each short-time frame n. The spectrum estimation apparatus includes a storage unit, a spectrum state estimation unit, and a posterior probability maximization spectrum estimation unit. The storage unit includes a spectrum state model Θ θ that is a model parameter related to the prior probability density function p (θ n ; Θ θ ) of the state parameter θ n representing the state of the logarithmic spectrum ρ n of the frequency signal x n , and the state parameter θ n. Is stored as a state dependent spectral model Θ ρ , which is a model parameter for the conditional probability density function p (ρ n | θ n ; Θ ρ ) of the logarithmic spectrum ρ n under known conditions. The spectrum state estimation unit estimates the log likelihood weight w θn using the logarithmic spectrum estimation value ρ ^ n , the spectrum state model Θ θ and the state dependent spectrum model Θ ρ . The posterior probability maximizing spectrum estimation unit estimates the logarithmic spectrum ρ n that maximizes the objective function, using the frequency signal x n , the log likelihood weight w θn, and the state-dependent spectrum model Θ ρ . The processes in the spectrum state estimation unit and the posterior probability maximization spectrum estimation unit are repeated until the convergence condition is satisfied.

上記の課題を解決するために、本発明の第二の態様によれば、スペクトル推定方法は、各短時間フレームnにおける周波数信号xのスペクトル値σを推定する。スペクトル推定方法は、スペクトル状態推定ステップ及び事後確率最大化スペクトル推定ステップを含む。周波数信号xの対数スペクトルρの状態を表す状態パラメータθの事前確率密度関数p(θ;Θθ)に関するモデルパラメータであるスペクトル状態モデルΘθと、状態パラメータθが既知の条件下での対数スペクトルρの条件付き確率密度関数p(ρ|θ;Θρ)に関するモデルパラメータである状態依存スペクトルモデルΘρとを記憶しておく。スペクトル状態推定ステップは、対数スペクトルの推定値ρ^、スペクトル状態モデルΘθ及び状態依存スペクトルモデルΘρを用いて、対数尤度重みwθnを推定する。事後確率最大化スペクトル推定ステップは、周波数信号x、対数尤度重みwθn及び状態依存スペクトルモデルΘρを用いて、目的関数を最大化する対数スペクトルρを推定する。収束条件を満たすまで、スペクトル状態推定ステップ及び事後確率最大化スペクトル推定ステップにおける処理を繰り返す。 In order to solve the above problem, according to the second aspect of the present invention, the spectrum estimation method estimates the spectrum value σ n of the frequency signal x n in each short-time frame n. The spectrum estimation method includes a spectrum state estimation step and a posterior probability maximization spectrum estimation step. A spectrum state model Θ θ that is a model parameter related to the prior probability density function p (θ n ; Θ θ ) of the state parameter θ n representing the state of the logarithmic spectrum ρ n of the frequency signal x n , and a condition under which the state parameter θ n is known The state-dependent spectrum model Θ ρ which is a model parameter regarding the conditional probability density function p (ρ n | θ n ; Θ ρ ) of the logarithmic spectrum ρ n below is stored. In the spectral state estimation step, the log likelihood weight w θn is estimated using the logarithmic spectrum estimation value ρ ^ n , the spectral state model Θ θ and the state dependent spectral model Θ ρ . The posterior probability maximization spectrum estimation step estimates the logarithmic spectrum ρ n that maximizes the objective function using the frequency signal x n , the log likelihood weight w θn, and the state-dependent spectrum model Θ ρ . Until the convergence condition is satisfied, the processing in the spectrum state estimation step and the posterior probability maximization spectrum estimation step is repeated.

本発明によれば、スペクトルの分布を高精度に表現可能な対数スペクトルに関する潜在変数依存型ガウス分布をスペクトルの事前確率密度関数として用いた場合でも、効率的にスペクトルの値を推定できる。その結果、周波数信号が誤差を含むような場合でも、効率的かつ高精度に、そのスペクトルの推定が可能になるという効果を奏する。   According to the present invention, even when a latent variable-dependent Gaussian distribution relating to a logarithmic spectrum capable of expressing the spectrum distribution with high accuracy is used as the prior probability density function of the spectrum, the spectrum value can be estimated efficiently. As a result, even when the frequency signal includes an error, the spectrum can be estimated efficiently and with high accuracy.

従来のスペクトル推定装置の機能ブロック図。The functional block diagram of the conventional spectrum estimation apparatus. 従来のスペクトル推定装置の機能ブロック図。The functional block diagram of the conventional spectrum estimation apparatus. 第一実施形態のスペクトル推定装置の機能ブロック図。The functional block diagram of the spectrum estimation apparatus of 1st embodiment. 第一実施形態のスペクトル推定装置の処理フローを示す図。The figure which shows the processing flow of the spectrum estimation apparatus of 1st embodiment. 第一実施形態の事後確率最大化スペクトル推定部の機能ブロック図。The functional block diagram of the posterior probability maximization spectrum estimation part of 1st embodiment. 第一実施形態のスペクトル状態推定部と事後確率最大化スペクトル推定部の処理フローを示す図。The figure which shows the processing flow of the spectrum state estimation part and posterior probability maximization spectrum estimation part of 1st embodiment. 第一実施形態の変形例のスペクトル状態推定部の機能ブロック図。The functional block diagram of the spectrum state estimation part of the modification of 1st embodiment. 第一実施形態の変形例のスペクトル状態推定部の処理フローを示す図。The figure which shows the processing flow of the spectrum state estimation part of the modification of 1st embodiment. 第二実施形態のスペクトル状態推定部の機能ブロック図。The functional block diagram of the spectrum state estimation part of 2nd embodiment. 第二実施形態のスペクトル状態推定部の処理フローを示す図。The figure which shows the processing flow of the spectrum state estimation part of 2nd embodiment. 従来技術(最尤法)、第一実施形態、第二実施形態を用いた場合の比較結果を示す図。The figure which shows the comparison result at the time of using a prior art (maximum likelihood method), 1st embodiment, and 2nd embodiment.

以下、本発明の実施形態について説明する。   Hereinafter, embodiments of the present invention will be described.

<第一実施形態>
図3はスペクトル推定装置10の機能ブロック図を、図4はその処理フローを示す。スペクトル推定装置10は、スペクトル状態モデル記憶部101、状態依存スペクトルモデル記憶部102、スペクトル状態推定部104及び事後確率最大化スペクトル推定部106を含む。
<First embodiment>
FIG. 3 is a functional block diagram of the spectrum estimation apparatus 10, and FIG. 4 shows its processing flow. The spectrum estimation apparatus 10 includes a spectrum state model storage unit 101, a state dependent spectrum model storage unit 102, a spectrum state estimation unit 104, and a posterior probability maximization spectrum estimation unit 106.

スペクトル推定装置10は、各短時間フレームnにおいて、周波数信号xを受け取り、そのスペクトルの推定値σ^を出力する。 The spectrum estimation apparatus 10 receives the frequency signal x n in each short-time frame n and outputs an estimated value σ ^ n of the spectrum.

まず、周波数信号xの対数スペクトルをρ=[ρn,1,ρn,2,…,ρn,Nkと表すことにする。ただし、ρn,k=logσn,kである。 First, the logarithmic spectrum of the frequency signal x n is expressed as ρ n = [ρ n, 1 , ρ n, 2 ,..., Ρ n, Nk ] T. However, ρ n, k = logσ n, k .

スペクトル状態モデル記憶部101は、周波数信号xの対数スペクトルρの状態を表す状態パラメータθの事前確率密度関数p(θ;Θθ)に関するモデルパラメータを記憶している。以下、このモデルパラメータをスペクトル状態モデルΘθと呼ぶ。 The spectrum state model storage unit 101 stores model parameters related to the prior probability density function p (θ n ; Θ θ ) of the state parameter θ n representing the state of the logarithmic spectrum ρ n of the frequency signal x n . Hereinafter referred to as the model parameters and the spectral state model theta theta.

状態依存スペクトルモデル記憶部102は、状態パラメータθが既知の条件下での対数スペクトルρの条件付き確率密度関数p(ρ|θ;Θρ)に関するモデルパラメータを記憶している。以下、このモデルパラメータを状態依存スペクトルモデルΘρと呼ぶ。 The state-dependent spectrum model storage unit 102 stores model parameters related to the conditional probability density function p (ρ n | θ n ; Θ ρ ) of the logarithmic spectrum ρ n under the condition where the state parameter θ n is known. Hereinafter referred to as the model parameters and state-dependent spectral model theta [rho.

スペクトル状態推定部104は、後述する事後確率最大化スペクトル推定部106が推定した対数スペクトルの推定値ρ^を受け取るとともに、スペクトル状態モデル記憶部101と状態依存スペクトルモデル記憶部102のそれぞれからスペクトル状態モデルΘθと状態依存スペクトルモデルΘρを受け取り、対数尤度重みwθn(ただし、下付添え字θnはθを表す)を推定し(s1)、出力する。 The spectrum state estimation unit 104 receives logarithmic spectrum estimation values ρ ^ n estimated by a posterior probability maximization spectrum estimation unit 106, which will be described later, and receives spectra from the spectrum state model storage unit 101 and the state-dependent spectrum model storage unit 102, respectively. receive state model theta theta and state-dependent spectral model theta [rho, log likelihood weights w .theta.n (where subscript .theta.n represents theta n) to estimate the (s1), and outputs.

事後確率最大化スペクトル推定部106は、周波数信号xと、対数尤度重みwθnと、状態依存スペクトルモデルΘρを受け取り、後述する目的関数を最大化する対数スペクトルの推定値ρ^=[ρ^n,1,ρ^n,2,…,ρ^n,Nkを推定し(s2)、出力する。また収束条件を満たすまで(s3)、スペクトル状態推定部104及び事後確率最大化スペクトル推定部106における処理(s1及びs2)を繰り返す。収束条件としては、例えば、(1)繰り返し回数が所定の回数を超えることや、(2)一つ前の繰り返し時に得られた対数スペクトルの推定値と現在の繰り返し時に得られた対数スペクトルの推定値との差分が閾値以下であること等が挙げられる。収束条件を満たした場合は、満たした時点の対数スペクトルの推定値ρ^からスペクトルの推定値σ^=[σ^n,1,σ^n,2,…,σ^n,Nkを求め、出力する。ただし、σ^n,k=exp(ρ^n,k)である。推定値ρ^n,kが得られれば推定値σ^n,kも与えられるので、以下では推定値ρ^n,kについての推定方法のみについて記述する。 Posteriori probability maximization spectrum estimating unit 106, a frequency signal x n, and the logarithmic likelihood weights w .theta.n, receives the state-dependent spectral model theta [rho, estimates of the log spectrum to maximize the objective function to be described later [rho ^ n = [Ρ ^ n, 1 , ρ ^ n, 2 ,..., Ρ ^ n, Nk ] T is estimated (s2) and output. Further, until the convergence condition is satisfied (s3), the processing (s1 and s2) in the spectrum state estimation unit 104 and the posterior probability maximization spectrum estimation unit 106 is repeated. As the convergence condition, for example, (1) the number of iterations exceeds a predetermined number, or (2) the estimated value of the logarithmic spectrum obtained at the previous iteration and the estimation of the logarithmic spectrum obtained at the current iteration. For example, the difference from the value is equal to or less than a threshold value. When the convergence condition is satisfied, the estimated value σ ^ n = [σ ^ n, 1 , σ ^ n, 2 ,..., Σ ^ n, Nk ] from the logarithmic spectrum estimated value ρ ^ n at the time when the convergence condition is satisfied. T is obtained and output. However, σ ^ n, k = exp (ρ ^ n, k ). Since the estimated value σ ^ n, k is also given if the estimated value ρ ^ n, k is obtained , only the estimation method for the estimated value ρ ^ n, k will be described below.

<第一実施形態のポイント>
スペクトル推定装置10では、対数スペクトルρがとりうる値を規定する事前確率密度関数p(ρ;Θθ,Θρ)を導入し、対数スペクトルρの値を、周波数信号xが与えられた下での事後確率最大化(MAP)推定により求める。すなわち、以下のように求める。
<Points of first embodiment>
The spectrum estimation apparatus 10 introduces a prior probability density function p (ρ n ; Θ θ , Θ ρ ) that defines the values that the logarithmic spectrum ρ n can take, and the frequency signal x n gives the value of the log spectrum ρ n. Calculated by posterior probability maximization (MAP) estimation. That is, it is obtained as follows.

Figure 0005689844
Figure 0005689844

これにより、(1)式で定義される周波数信号xの条件付き確率密度関数p(xn,k|σn,k)に加えて、対数スペクトルρの事前確率密度関数p(ρ;Θθ,Θρ)をも考慮しながら対数スペクトルρが推定されることになる。そのため、周波数信号xに含まれる誤差の影響を比較的受けにくいスペクトル推定が可能になる。なお、(5)式のp(x|ρ)は、従来の最尤法と同様に、p(x|ρ)=Πp(xn,k|ρn,k)のように分解でき、(1)式とσn,k=exp(ρn,k)の関係式に基づき、以下のように定義されているものとする。 Thus, (1) the conditional probability density function p of the frequency signal x n to be defined (x n, k | sigma n, k) in equation in addition to, the logarithmic spectrum [rho n pre probability density function p ([rho n The logarithmic spectrum ρ n is estimated in consideration of Θ θ and Θ ρ ). Therefore, it is possible to perform spectrum estimation that is relatively difficult to be affected by the error included in the frequency signal xn . Note that p (x n | ρ n ) in the equation (5) is p (x n | ρ n ) = Π k p (x n, k | ρ n, k ) as in the conventional maximum likelihood method. It is assumed that the following definition is made based on the relational expression (1) and σ n, k = exp (ρ n, k ).

Figure 0005689844
Figure 0005689844

さらに、第一実施形態のスペクトル推定装置10では、高精度で効率的な推定を実現するために、以下の3つの仮定を導入する。 Furthermore, in the spectrum estimation apparatus 10 of the first embodiment, the following three assumptions are introduced in order to realize highly accurate and efficient estimation.

仮定(1):周波数信号xの対数スペクトルρの事前確率密度関数p(ρ;Θθ,Θρ)は、状態パラメータθを潜在変数として持つ以下の式でモデル化されている。 Assumption (1): Prior probability density function p (ρ n ; Θ θ , Θ ρ ) of logarithmic spectrum ρ n of frequency signal x n is modeled by the following equation having state parameter θ n as a latent variable. .

Figure 0005689844
Figure 0005689844

なお、上式では、状態パラメータθは離散値を取るものと仮定し、その周辺化のために全状態の総和をとっている。一方、本発明は、状態パラメータθが連続値を取る場合も含む。その場合、状態パラメータθの周辺化は、以下のように、状態パラメータθがとりうる値の全範囲にわたる積分として定義される。 In the above equation, it is assumed that the state parameter θ n takes a discrete value, and the sum of all the states is taken for peripheralization. On the other hand, the present invention includes a case where the state parameter θ n takes a continuous value. In that case, the peripheral of the state parameters theta n, as follows is defined as the integral over the entire range of state values parameter theta n can take.

Figure 0005689844
Figure 0005689844

本実施形態では、状態パラメータθは離散値を取るものとして説明する。なお、連続値を取る場合については、状態パラメータθに関する総和の部分を、適宜、状態パラメータθがとりうる値の全範囲にわたる積分として読み替えるだけでよいので、個別の説明は省略する。 In the present embodiment, the state parameter θ n will be described as a discrete value. Note that when taking a continuous value, a portion of the sum on the status parameter theta n, as appropriate, the full range of state values parameter theta n may take only needs replaced as an integral, individual description thereof is omitted.

仮定(2):状態パラメータθが与えられた下での対数スペクトルρの条件付き確率密度関数p(ρ|θ;Θρ)は、多変量ガウス分布に従う。以下、仮定(1)及び仮定(2)に従う分布を潜在変数依存型ガウス分布と呼ぶ。 Assumption (2): The conditional probability density function p (ρ n | θ n ; Θ ρ ) of the logarithmic spectrum ρ n given the state parameter θ n follows a multivariate Gaussian distribution. Hereinafter, the distribution according to the assumption (1) and the assumption (2) is referred to as a latent variable dependent Gaussian distribution.

仮定(3):さらに、条件付き確率密度関数p(ρ|θ;Θρ)は、各周波数kの対数スペクトルρn,kに関する条件付き確率密度関数p(ρn,k|θ;Θρ)の積に分解できる。 Assumption (3): Furthermore, the conditional probability density function p (ρ n | θ n ; Θ ρ ) is the conditional probability density function p (ρ n, k | θ n ) for the logarithmic spectrum ρ n, k of each frequency k. ; can be decomposed into a product of theta [rho).

Figure 0005689844
Figure 0005689844

なお、仮定(3)を満たすとき、条件付き確率密度関数p(ρ|θ;Θρ)は周波数分解可能であるという。なお、仮定(2)により、上式の右辺はさらに以下のように書き換えられる。 When the assumption (3) is satisfied, the conditional probability density function p (ρ n | θ n ; Θ ρ ) is said to be frequency resolvable. Note that the right side of the above equation is further rewritten as follows by assumption (2).

Figure 0005689844
Figure 0005689844

ここで、N(x;μ,ξ)は、平均μ、分散ξの一次元ガウス分布の確率密度関数を表す。例えば、(8)式において、状態パラメータθが単一の状態しかとらないとすると事前確率密度関数p(ρ;Θθ,Θρ)はガウス分布に一致する。状態パラメータθが有限個の状態のどれか一つを取ると仮定すると事前確率密度関数p(ρ;Θθ,Θρ)は混合ガウス分布に一致する。さらに、隣り合う短時間フレーム間での状態パラメータθの遷移が、ある状態遷移確率に従うと仮定すると、対数スペクトルρに関する隠れマルコフモデルになる。上記の仮定および以下では、簡単のため、対数スペクトルρの事前確率密度関数p(ρ;Θθ,Θρ)は、短時間フレームn毎に独立な分布として説明する。なお、本実施形態において、短時間フレーム間の状態遷移過程を導入する方法は、隠れマルコフモデルに関する既知の技術に基づき自明であるので、その説明を省略する。 Here, N (x; μ, ξ) represents a probability density function of a one-dimensional Gaussian distribution with mean μ and variance ξ. For example, in the equation (8), if the state parameter θ n takes only a single state, the prior probability density function p (ρ n ; Θ θ , Θ ρ ) matches a Gaussian distribution. Assuming that the state parameter θ n takes one of a finite number of states, the prior probability density function p (ρ n ; Θ θ , Θ ρ ) matches the mixed Gaussian distribution. Furthermore, assuming that the transition of the state parameter θ n between adjacent short-time frames follows a certain state transition probability, a hidden Markov model for the logarithmic spectrum ρ n is obtained. In the above assumption and the following, for the sake of simplicity, the prior probability density function p (ρ n ; Θ θ , Θ ρ ) of the logarithmic spectrum ρ n is described as an independent distribution for each short-time frame n. In the present embodiment, the method for introducing the state transition process between the short-time frames is self-evident based on a known technique related to the hidden Markov model, and thus description thereof is omitted.

(5)式の解は、状態パラメータθを隠れ変数とした期待値最大化(Expextation Maximization:以下「EM」とする)アルゴリズム(及び、その関連最適化手法)で求めることができる。このとき、補助関数Q(ρ|ρ^)は、以下のように定義される。 The solution of the equation (5) can be obtained by an expected value maximization (hereinafter referred to as “EM”) algorithm (and its related optimization method) using the state parameter θ n as a hidden variable. At this time, the auxiliary function Q (ρ n | ρ ^ n ) is defined as follows.

Figure 0005689844
Figure 0005689844

ここで、対数スペクトルρが既知の下で、周波数信号xは、状態パラメータθと独立であると仮定すると、上記右辺に含まれる完全データの確率密度関数p(x,ρ,θ;Θθ,Θρ)は、以下のように展開できる。 Here, assuming that the logarithmic spectrum ρ n is known and the frequency signal x n is independent of the state parameter θ n , the probability density function p (x n , ρ n , θ n ; Θ θ , Θ ρ ) can be expanded as follows.

Figure 0005689844
Figure 0005689844

したがって、ρと無関係の項を省略して(11)式をさらに展開し、以下を得る。 Therefore, a term unrelated to ρ n is omitted and the expression (11) is further developed to obtain the following.

Figure 0005689844
Figure 0005689844

ただし、 However,

Figure 0005689844
Figure 0005689844

Figure 0005689844
Figure 0005689844

したがって、EMアルゴリズムでは、収束するまで、以下の二つの処理を交互に繰り返すことで、MAP推定は実現される。
1.E−step:スペクトル状態推定部104が、対数尤度重みwθnを(18)式に従い更新する(s1)。
2.M−step:事後確率最大化スペクトル推定部106が、(15)式を最大化するρn,kを対数スペクトルの推定値ρ^n,kとして更新する(s2)。
Therefore, in the EM algorithm, MAP estimation is realized by alternately repeating the following two processes until convergence.
1. E-step: The spectrum state estimation unit 104 updates the log likelihood weight wθn according to the equation (18) (s1).
2. M-step: The posterior probability maximizing spectrum estimation unit 106 updates ρ n, k that maximizes the equation (15) as an estimated value ρ ^ n, k of the logarithmic spectrum (s2).

なお、(18)式は、状態パラメータθが連続値を取る場合は、状態パラメータθに関する連続関数になる。上記の繰り返しのうち、最も計算コストを増大させる可能性があるのは、補助関数Q(ρ|ρ^)の値を最大化する対数スペクトルρを求めるM−stepである。これに対し、本実施形態では、上記の仮定(1)〜(3)により、すなわち、対数スペクトルρの事前確率密度関数p(ρ;Θθ,Θρ)が潜在変数依存型ガウス分布に従い、その条件付き確率密度関数p(ρ|θ;Θρ)が周波数分解可能であるとき、計算コストを抑えた処理が可能になる。より具体的には、以下の二つのポイントにより、計算コストを抑えることができる。 Incidentally, (18), if the state parameter theta n takes continuous values, the continuous function relating to the state parameter theta n. Of the above iterations, the most likely to increase the calculation cost is M-step for obtaining a logarithmic spectrum ρ n that maximizes the value of the auxiliary function Q (ρ n | ρ ^ n ). On the other hand, in this embodiment, the prior probability density function p (ρ n ; Θ θ , Θ ρ ) of the logarithmic spectrum ρ n is expressed by the latent variable dependent Gaussian distribution according to the above assumptions (1) to (3). Accordingly, when the conditional probability density function p (ρ n | θ n ; Θ ρ ) can be frequency-resolved, processing with reduced calculation cost is possible. More specifically, the calculation cost can be suppressed by the following two points.

ポイント(1):(15)式は、各時間周波数に閉じて、対数スペクトルρn,kに関するスカラー1変数関数になっている。すなわち、ρの更新は、各時間周波数n,kにおける対数スペクトルρn,kの更新に分解できる。 Point (1): Equation (15) is a scalar univariate function with respect to the logarithmic spectrum ρ n, k , closed to each time frequency. That is, the update of the [rho n can be decomposed to update the log spectrum [rho n, k at each time-frequency n, k.

ポイント(2):さらに、各時間周波数n,kにおいて最大化をするべき関数であるQ(ρn,k|ρ^n,k)をρn,kで微分して得られる関数は、以下のような単純な形式をしている。
f(z)=exp(z)+z+a (19)
Point (2): Furthermore, a function obtained by differentiating Q kn, k | ρ ^ n, k ), which is a function to be maximized at each time frequency n, k, with ρ n, k is It has the following simple format.
f (z) = exp (z) + z + a (19)

Figure 0005689844
Figure 0005689844

Figure 0005689844
Figure 0005689844

したがって、(15)式を最大にするρn,kは、(19)式においてf(z)=0となるzを求めた後に、(20)式から求めることができる。一方、(19)式は、スカラー定数aのみで形状が定まる1変数凸関数であり、効率的にf(z)=0の解を求める方法が存在する。例えば、aの値毎にf(z)=0を与える解をあらかじめ求めておき、解の参照表を用意しておけば、参照表を見るだけで近似解を得ることができる。また、(19)式を詳しく調べると、a>−1/2でf(z)≒exp(z)+a,a≦−1/2でf(z)≒z+aと荒く近似できることがわかる。これより、以下の近似解を得ることもできる。 Therefore, ρ n, k that maximizes the equation (15) can be obtained from the equation (20) after obtaining z where f (z) = 0 in the equation (19). On the other hand, equation (19) is a one-variable convex function whose shape is determined only by the scalar constant a, and there is a method for efficiently obtaining a solution of f (z) = 0. For example, if a solution that gives f (z) = 0 for each value of a is obtained in advance and a solution reference table is prepared, an approximate solution can be obtained simply by looking at the reference table. Further, when the equation (19) is examined in detail, it can be understood that f (z) ≈exp (z) + a when a> −1/2 and f (z) ≈z + a can be roughly approximated when a ≦ −1 / 2. From this, the following approximate solution can also be obtained.

Figure 0005689844
Figure 0005689844

さらに、f(z)=0を与える解の初期推定値としてこれらの近似解を用い、ニュートン法などの勾配法を用いて数値的な探索を行うことで、解の精度を上げることができる。しかも、このとき、f(z)は、1変数凸関数であるため、非常に効率的かつ効果的に勾配法による探索を実現できる。 Furthermore, the accuracy of the solution can be improved by using these approximate solutions as the initial estimated value of the solution that gives f (z) = 0 and performing a numerical search using a gradient method such as Newton's method. Moreover, at this time, since f (z) is a one-variable convex function, the search by the gradient method can be realized very efficiently and effectively.

(対数スペクトルの事前確率密度関数p(ρ;Θθ,Θρ))
本実施形態では、対数スペクトルの事前確率密度関数p(ρ;Θθ,Θρ)を、混合ガウス分布でモデル化する。状態パラメータθは、各短時間フレームnにおいて、1からNθで番号付されたNθ個の有限状態の何れかの状態iをとるとする。事前確率密度関数p(ρ;Θθ,Θρ)は、以下で定義される。
(A priori probability density function p (ρ n ; Θ θ , Θ ρ ) of logarithmic spectrum)
In this embodiment, the prior probability density function p (ρ n ; Θ θ , Θ ρ ) of the logarithmic spectrum is modeled by a mixed Gaussian distribution. The state parameter θ n is assumed to be any state i of N θ finite states numbered from 1 to N θ in each short-time frame n. The prior probability density function p (ρ n ; Θ θ , Θ ρ ) is defined as follows.

Figure 0005689844
Figure 0005689844

ただし、 However,

Figure 0005689844
Figure 0005689844

p(θn=i;Θθ)=βi (25)
スペクトル状態モデルΘθは、全ての状態iに関する混合比βからなり、状態依存スペクトルモデルΘρは、全ての状態i、全ての周波数kに関する平均μ と共分散行列ξ とからなる。これらのモデルは、スペクトル推定の対象となる信号に関する学習データを用いて、事前に学習されているとする。混合ガウス分布のモデルパラメータの学習には、EMアルゴリズムを用いる方法などが知られている。
p (θ n = i; Θ θ ) = β i (25)
Spectral state model theta theta, consist mixing ratio beta i for all states i, the state-dependent spectral model theta [rho, all states i, from the mean mu i k and covariance matrix xi] i k for all frequencies k Become. These models are assumed to have been learned in advance using learning data related to signals to be subjected to spectrum estimation. A method using an EM algorithm is known for learning model parameters of a mixed Gaussian distribution.

以下、各部の詳細を説明する。   Details of each part will be described below.

<事後確率最大化スペクトル推定部106及びスペクトル状態推定部104の詳細>
事後確率最大化スペクトル推定部106が、一つのスカラー変数zとそのスカラー変数に関する指数関数exp(z)と一つのスカラー定数aとの和によって規定される非線形方程式(例えば(19)式)に関して、各短時間フレームnにおける周波数k毎の周波数信号xn,kと対数尤度重みwθnと状態依存スペクトルモデルΘρに依存してスカラー定数aを定めるとともに(例えば(21)式)、非線形方程式が0に一致するスカラー変数zの値を求め(例えば(19)式、(22)式)、その求めたスカラー変数zと周波数信号xn,kと対数尤度重みwθnと状態依存スペクトルモデルΘρとに基づき、対数スペクトルの推定値ρ^を更新する(例えば(20)式)。
<Details of A posteriori probability maximization spectrum estimation unit 106 and spectrum state estimation unit 104>
The posterior probability maximizing spectrum estimation unit 106 relates to a nonlinear equation (for example, Equation (19)) defined by the sum of one scalar variable z, an exponential function exp (z) related to the scalar variable, and one scalar constant a. The scalar constant a is determined depending on the frequency signal x n, k for each frequency k in each short-time frame n, the log likelihood weight w θn, and the state-dependent spectrum model Θ ρ (for example, Equation (21)), and a nonlinear equation The value of the scalar variable z whose value matches 0 is obtained (for example, equations (19) and (22)), the obtained scalar variable z, frequency signal x n, k , log likelihood weight w θn, and state-dependent spectrum model. based on the theta [rho, updating estimates [rho ^ n logarithm spectrum (e.g. (20)).

図5は事後確率最大化スペクトル推定部106の機能ブロック図を、図6はスペクトル状態推定部104及び事後確率最大化スペクトル推定部106の処理フローを表す。   5 shows a functional block diagram of the posterior probability maximizing spectrum estimation unit 106, and FIG. 6 shows a processing flow of the spectrum state estimation unit 104 and the posterior probability maximizing spectrum estimation unit 106.

事後確率最大化スペクトル推定部106は、初期値設定部106a、スカラー定数算出部106b、スカラー変数算出部106c、対数スペクトル算出部106d、収束判定部106e及びスペクトル算出部106fを備える。   The posterior probability maximizing spectrum estimation unit 106 includes an initial value setting unit 106a, a scalar constant calculation unit 106b, a scalar variable calculation unit 106c, a logarithmic spectrum calculation unit 106d, a convergence determination unit 106e, and a spectrum calculation unit 106f.

初期値設定部106aは、周波数信号xを受け取り、式(3’)のように対数スペクトルの推定値ρ^の初期値を、従来の最尤法により求める(s21)。 The initial value setting unit 106a receives the frequency signal xn, and obtains the initial value of the logarithmic spectrum estimation value ρ ^ n by the conventional maximum likelihood method (s21) as shown in Equation (3 ′).

Figure 0005689844
Figure 0005689844

スペクトル状態推定部104が、対数スペクトルの推定値ρ^に加えて、(24)式と(25)式のそれぞれで定義されるスペクトル状態モデルΘθである混合比βと状態依存スペクトルモデルΘρである平均μ 及び共分散行列ξ を受け取り、対数尤度重みwを(18)式に基づき以下のように求める(s1)。 In addition to the estimated value ρ ^ n of the logarithmic spectrum, the spectrum state estimation unit 104 adds the mixture ratio β i that is the spectrum state model Θ θ defined by each of the equations (24) and (25) and the state-dependent spectrum model. receiving an average mu i k and covariance matrix xi] i k is a theta [rho, the log-likelihood weights w i (18) obtained as follows based on the formula (s1).

Figure 0005689844
Figure 0005689844

さらに、周波数k毎に、以下の手順により、対数スペクトルの推定値ρ^n,kを更新する。 Further, the estimated value ρ ^ n, k of the logarithmic spectrum is updated for each frequency k by the following procedure.

スカラー定数算出部106bは、周波数信号xと、対数尤度重みwと、状態依存スペクトルモデルΘρである全ての状態i、全ての周波数kに関する平均μ と共分散行列ξ とを受け取り、(21)式によりスカラー定数aを求める(s22)。 Scalar constant calculating unit 106b, a frequency signal x n and the log likelihoods weight w i and the state all states i depend the spectral model theta [rho, average mu i k and covariance matrix xi] i k for all frequencies k And a scalar constant a is obtained from the equation (21) (s22).

スカラー変数算出部106cは、スカラー定数aを受け取り、(19)式に関して、f(z)=0となるスカラー変数zを(近似的に)求める(s23)。   The scalar variable calculation unit 106c receives the scalar constant a and obtains (approximately) a scalar variable z that satisfies f (z) = 0 with respect to the equation (19) (s23).

対数スペクトル算出部106dは、周波数信号xと、対数尤度重みwと、状態依存スペクトルモデルΘρである全ての状態i、全ての周波数kに関する共分散行列ξ と、スカラー変数zとを受け取り、(20)式を満たす対数スペクトルρn,kを求め、その推定値ρ^n,kとする(s24)。 The logarithmic spectrum calculation unit 106d includes a frequency signal xn , a log likelihood weight w i , a covariance matrix ξ i k for all states i and all frequencies k that are state-dependent spectrum models Θ ρ , and a scalar variable z. The logarithmic spectrum ρ n, k satisfying the equation (20) is obtained, and the estimated value ρ ^ n, k is set (s24).

スペクトル状態推定部104における処理をE−stepとし、事後確率最大化スペクトル推定部106における処理をM−stepとし、EMアルゴリズムに基づき、s1〜s24を収束条件を満たすまで繰り返す。そのため、収束判定部106eは、対数スペクトルの推定値ρ^n,kを受け取り、収束条件を満たすか否かを判定する(s3)。収束条件を満たさない場合には、対数スペクトルの推定値ρ^をスペクトル状態推定部104に出力し、各部に対し、処理を繰り返すように制御信号を出力する。収束条件を満たす場合には、対数スペクトルの推定値ρ^をスペクトル算出部106fに出力する。 The process in the spectrum state estimation unit 104 is set to E-step, the process in the posterior probability maximization spectrum estimation unit 106 is set to M-step, and s1 to s24 are repeated until the convergence condition is satisfied based on the EM algorithm. Therefore, the convergence determination unit 106e receives the logarithmic spectrum estimation value ρ ^ n, k and determines whether or not the convergence condition is satisfied (s3). When the convergence condition is not satisfied, the logarithmic spectrum estimation value ρ ^ n is output to the spectrum state estimation unit 104, and a control signal is output to each unit so as to repeat the processing. When the convergence condition is satisfied, the logarithmic spectrum estimation value ρ ^ n is output to the spectrum calculation unit 106f.

スペクトル算出部106fは、対数スペクトルの推定値ρ^を受け取り、各周波数kにおけるスペクトルの推定値σ^n,kを、σ^n,k=exp(ρ^n,k)として求め(s26)、スペクトルの推定値σ^をスペクトル推定装置10の出力値として出力する。 The spectrum calculation unit 106f receives the logarithmic spectrum estimation value ρ ^ n, and obtains the spectrum estimation value σ ^ n, k at each frequency k as σ ^ n, k = exp (ρ ^ n, k ) (s26). ), And the spectrum estimation value σ ^ n is output as the output value of the spectrum estimation device 10.

<効果>
このような構成により、スペクトルの分布を高精度に表現可能な対数スペクトルに関する潜在変数依存型ガウス分布をスペクトルの事前確率密度関数として用いて、効率的にスペクトルの値を推定できる。その結果、周波数信号が誤差を含むような場合でも、効率的かつ高精度に、そのスペクトルの推定が可能になる。
<Effect>
With such a configuration, it is possible to efficiently estimate a spectrum value using a latent variable-dependent Gaussian distribution relating to a logarithmic spectrum capable of expressing the spectrum distribution with high accuracy as a prior probability density function of the spectrum. As a result, even when the frequency signal includes an error, the spectrum can be estimated efficiently and with high accuracy.

<変形例>
第一実施形態の変形例として、EMアルゴリズムのE−stepにおいて、各状態の事後確率p(θ|ρ^;Θρ)を求める代わりに、最大の事後確率を与える状態を選択する場合の例を説明する。これは、混合ガウス分布や隠れマルコフモデルを用いた推定において、計算量削減のためにしばしば導入される近似計算である。この変形は、より厳密には、第一実施形態ではθを隠れ変数として扱っていたのに対し、ρと一緒にθも事後確率最大化推定で求めることに相当する。すなわち、以下の問題を解くことに相当する。
<Modification>
As a modification of the first embodiment, in the E-step of the EM algorithm, instead of obtaining the posterior probability p (θ n | ρ ^ n ; Θ ρ ) of each state, a state that gives the maximum posterior probability is selected. An example will be described. This is an approximate calculation that is often introduced to reduce the amount of calculation in estimation using a mixed Gaussian distribution or a hidden Markov model. More precisely, in the first embodiment, θ n is treated as a hidden variable in the first embodiment, whereas θ n is obtained by posterior probability maximization estimation together with ρ n . That is, it corresponds to solving the following problem.

Figure 0005689844
Figure 0005689844

具体的な処理手順としては、第一実施形態の処理手順の中のs1の処理が以下のように修正されるのみで、それ以外は、第一実施形態と同じである。 As a specific processing procedure, only the processing of s1 in the processing procedure of the first embodiment is modified as follows, and the other processing steps are the same as those of the first embodiment.

以下、変形例のスペクトル状態推定部104における処理(E−step、s1)を説明する。図7は変形例のスペクトル状態推定部104の機能ブロック図を、図8はその処理フローを示す。スペクトル状態推定部104は状態番号推定部104aと対数尤度重み設定部104bとを含む。   Hereinafter, the process (E-step, s1) in the spectrum state estimation unit 104 of the modification will be described. FIG. 7 is a functional block diagram of the spectrum state estimation unit 104 of the modified example, and FIG. 8 shows its processing flow. The spectrum state estimation unit 104 includes a state number estimation unit 104a and a log likelihood weight setting unit 104b.

状態番号推定部104aは、対数スペクトルの推定値ρ^、と、スペクトル状態モデルΘθである混合比βと、状態依存スペクトルモデルΘρである全ての状態i、全ての周波数kに関する平均μ 及び共分散行列ξ とを受け取り、事後確率最大となる状態番号の推定値i^を The state number estimator 104a calculates the logarithm spectrum estimate ρ ^ n , the mixture ratio β i that is the spectrum state model Θ θ , the average for all states i that are the state-dependent spectrum model Θ ρ , and all the frequencies k. μ i k and covariance matrix ξ i k are received, and the estimated value i ^ of the state number that maximizes the posterior probability is obtained.

Figure 0005689844
Figure 0005689844

として求める(s104a)。
対数尤度重み設定部104bは推定値i^を受け取り、対数尤度重みw
(S104a).
The log likelihood weight setting unit 104b receives the estimated value i ^ and sets the log likelihood weight w i .

Figure 0005689844
Figure 0005689844

として定める(s104b)。 (S104b).

<第二実施形態>
第一実施形態と異なる部分についてのみ説明する。第二実施形態として、状態パラメータθが連続値をとる場合の実施形態について説明する。
<Second embodiment>
Only parts different from the first embodiment will be described. As a second embodiment, an embodiment in which the state parameter θ n takes a continuous value will be described.

スペクトル状態モデル記憶部101に記憶されているスペクトル状態モデル、状態依存スペクトルモデル記憶部102に記憶されている状態依存スペクトルモデル、及び各部の処理等が、第一実施形態とは異なる。   The spectrum state model stored in the spectrum state model storage unit 101, the state dependent spectrum model stored in the state dependent spectrum model storage unit 102, the processing of each unit, and the like are different from those of the first embodiment.

(状態パラメータの定義)
本実施形態では、状態パラメータθとして、周波数信号に対応するメル周波数ケプストラム係数(Mel-frequency cepstral coefficient、以下「MFCC」という)cを用いる。MFCCcは、各次数に対応するN個の要素cn,mを持つベクトルとして表現されているとする。よって、c=[cn,1,cn,2,…,cn,Nc、ただし下付添え字NcはNを表す。いま、c=H(ρ)を信号の対数スペクトルρをMFCCに変換する関数とする。すると、H(ρ)は、まず、対数スペクトルρの各要素に対数変換の逆変換(exp(・))を適用し、メルフィルタバンク処理(mfb(・)と表記)を施し、個々のベクトル要素に対数変換(log(・))を適用したのち、離散コサイン変換(D(・))を適応することに対応する。すなわち、H(ρ)は、以下の変換過程で表現される。
(Definition of state parameters)
In the present embodiment, as the state parameter theta n, Mel frequency cepstral coefficients corresponding to the frequency signal (Mel-frequency cepstral coefficient, hereinafter "MFCC" hereinafter) using c n. MFCCc n is assumed to be represented as a vector with N c number of elements c n, m corresponding to each order. Thus, c n = [c n, 1 , c n, 2 ,..., C n, Nc ] T , where the subscript Nc represents N c . Now, let c n = H (ρ n ) be a function that converts the logarithmic spectrum ρ n of the signal into MFCC. Then, H (ρ n ) first applies inverse transformation of logarithmic transformation (exp (•)) to each element of the logarithmic spectrum ρ n , performs mel filter bank processing (denoted as mfb (•)), and individually It corresponds to applying a discrete cosine transform (D (•)) after applying a logarithmic transform (log (•)) to the vector elements of. That is, H (ρ n ) is expressed by the following conversion process.

Figure 0005689844
Figure 0005689844

(スペクトル状態モデルの定義)
本実施形態では、状態パラメータθの事前確率密度関数p(θ;Θθ)としてMFCCの混合ガウス分布を用いるとする。これは、jをガウス分布の番号とすると、以下でモデル化される。
(Definition of spectral state model)
In this embodiment, it is assumed that a mixed Gaussian distribution of MFCC is used as the prior probability density function p (θ n ; Θ θ ) of the state parameter θ n . This is modeled below, where j is a Gaussian number.

Figure 0005689844
Figure 0005689844

ここで、γは分布番号jに対応する混合比、μとΣは、分布番号jに対応するガウス分布の平均と共分散行列である。したがって、スペクトル状態モデルΘθは、全てのjに関するγとμとΣの集合とする。 Here, γ j is the mixing ratio corresponding to the distribution number j, and μ j and Σ j are the mean and covariance matrix of the Gaussian distribution corresponding to the distribution number j. Therefore, the spectral state model Θ θ is a set of γ j , μ j, and Σ j for all j.

(状態依存スペクトルモデルの定義)
本実施形態では、状態パラメータであるMFCCcが既知の場合の対数スペクトルρの条件付き確率密度関数p(ρ|c;Θρ)は、上記のc=H(ρ)の逆変換過程としてモデル化する。一般に、c=H(s)は多対一の変換となるため、その逆変換はユニークには定められない。したがって、その定め方には任意性がある。ここでは、一例を挙げる。まず、以下のように、線形回帰を用いて、c=H(ρ)の疑似逆変換であるρ^=G(c)を定義する。
G(c)=Ac+b (35)
ただし、Aは行列(N×N)、bはベクトル(N×1)を表す。行列Aとベクトルbの値は、事前に音響信号のデータベースにより学習されるか、観測信号を用いて学習されるものとする。すなわち、いま学習用のデータベース(もしくは、観測信号)から、複数の周波数信号xにそれぞれ対応する複数の対数スペクトルρと、それに対応するMFCCc=H(ρ)の組合せが与えられているときに、行列Aとベクトルbは、以下のように定められるものとする。
(Definition of state-dependent spectrum model)
In the present embodiment, MFCCc n is a state parameter conditional probability density function p of the logarithmic spectrum [rho n the case of the known (ρ n | c n; Θ ρ) , the above c n = H in ([rho n) Model as an inverse transformation process. In general, since c n = H (s n ) is a many-to-one transformation, the inverse transformation is not uniquely determined. Therefore, the method of determination is arbitrary. Here, an example is given. First, ρ ^ n = G (c n ), which is a pseudo inverse transformation of c n = H (ρ n ), is defined using linear regression as follows.
G (c) = Ac + b (35)
However, A represents a matrix (N k × N c ), and b represents a vector (N k × 1). It is assumed that the values of the matrix A and the vector b are learned in advance from a database of acoustic signals or are learned using observation signals. That is, now database for learning (or observation signals) from a plurality of logarithmic spectrum [rho n respectively corresponding to the plurality of frequency signals x n, given the combination of the corresponding MFCCc n = H n) thereto The matrix A and the vector b are defined as follows.

Figure 0005689844
Figure 0005689844

また、逆変換誤差e=ρ−ρ^=ρ−G(H(ρ))は、平均0と共分散行列Ξのガウス分布に従うと仮定する。すなわち、
p(e)=N(e;0,Ξ) (37)
これにより、条件付き確率密度関数p(ρ|c;Θρ)は、以下のように定義される。
p(ρn|cnρ)=N(ρn;G(cn),Ξ) (38)
Also, it is assumed that the inverse transformation error e = ρ n −ρ ^ n = ρ n −G (H (ρ n )) follows a Gaussian distribution with mean 0 and covariance matrix Ξ. That is,
p (e) = N (e; 0, Ξ) (37)
Accordingly, the conditional probability density function p (ρ n | c n ; Θ ρ ) is defined as follows.
p (ρ n | c n ; Θ ρ ) = N (ρ n ; G (c n ), Ξ) (38)

本実施形態では、上記条件付き確率密度関数p(ρ|c;Θρ)は、周波数毎の要素の積に分解可能と仮定されているので、共分散行列Ξは、対角要素にξをもつ対角行列になる。よって、Ξ=diag(ξ)と表すことができる。G(c)のk番目の要素をG(c)と書くとすると、ξは平均自乗回帰誤差E{|ρn,k−G(c)|}として、事前に学習されるとする。すると、上記条件付き確率密度関数は、以下のように書くことができる。 In the present embodiment, the conditional probability density function p (ρ n | c n ; Θ ρ ) is assumed to be decomposable into a product of elements for each frequency, so that the covariance matrix に is a diagonal element. It becomes a diagonal matrix with ξ k . Therefore, it can be expressed as Ξ = diag (ξ k ). If the k-th element of G (c) is written as G k (c), ξ k is learned in advance as a mean square regression error E {| ρ n, k −G k (c n ) | 2 }. Let's say. Then, the conditional probability density function can be written as follows.

Figure 0005689844
Figure 0005689844

したがって、状態依存スペクトルモデルΘρとして、(36)式の係数である行列Aとベクトルb、及び全ての周波数kにおける逆変換誤差の分散ξを含んでいれば、上記条件付き確率密度関数p(ρ|c;Θρ)は規定されることになる。 Accordingly, if the state-dependent spectrum model Θ ρ includes the matrix A and the vector b, which are the coefficients of the equation (36), and the variance ξ k of the inverse transformation error at all frequencies k, the conditional probability density function p (Ρ n | c n ; Θ ρ ) will be defined.

(最適化関数)
本実施形態では、第一実施形態の変形例と同様に、対数スペクトルρと状態パラメータであるMFCCcの両方をMAP推定により推定する場合を考える。
(Optimization function)
In the present embodiment, similarly to the modification of the first embodiment, both MFCCc n is logarithmic spectrum [rho n and state parameter assumed that estimated by MAP estimation.

Figure 0005689844
Figure 0005689844

したがって、第一実施形態の変形例と同様に、ρ^とc^を交互に更新することで、上式を最大化するρ^とc^を求める。 Therefore, similarly to the modification of the first embodiment, [rho ^ n and c ^ n by alternately updated, determine the [rho ^ n and c ^ n that maximizes the above expression.

スペクトル状態推定部104は、対数スペクトルの推定値ρ^が固定された下で、上式を最大化するMFCCcの推定値c^を求める。これは、例えば、p(c;Θθ)の混合ガウス分布の分布番号jを隠れ変数としたEMアルゴリズムで求めることができる(つまり、スペクトル状態推定部104と事後確率最大化スペクトル推定部106において行われるEMアルゴリズムのE−step内で、後述する期待値算出部204bと状態パラメータ算出部204cとにおいてEMアルゴリズムを行う)。このための補助関数は以下のように定めることができる。 Spectrum state estimating section 104, under the estimated value [rho ^ n logarithmic spectrum is fixed, obtaining an estimate c ^ n of MFCCc n that maximizes the above expression. This, for example, p (c n; Θ θ ) can be calculated by the EM algorithm and distribution number j hidden variables of Gaussian mixture (i.e., spectral state estimating unit 104 and the posterior probability maximization spectrum estimating unit 106 In the E-step of the EM algorithm performed in step EM, the expected value calculation unit 204b and the state parameter calculation unit 204c described later perform the EM algorithm. The auxiliary function for this can be defined as follows.

Figure 0005689844
Figure 0005689844

ただし、 However,

Figure 0005689844
Figure 0005689844

したがって、EMアルゴリズムでは、以下の処理を収束するまで繰り返すことで、(43)式を最大化するcを求める。これをMFCCである状態パラメータの推定値c^とする。
1.E−step:(44)式により、E{j|c^}の値を更新する。
2.M−step:(43)式を最大化するcの値として、c^を更新する。具体的には、以下の式を計算する。
Thus, the EM algorithm is repeated until convergence to the following process to determine the c n maximizing the expression (43). This is set as an estimated value c ^ n of the state parameter which is MFCC.
1. E-step: The value of E {j | c ^ n } is updated by the equation (44).
2. M-step: (43) as the value of c n to maximize expression, and updates the c ^ n. Specifically, the following formula is calculated.

Figure 0005689844
Figure 0005689844

そして、上記のように、本実施形態では、状態パラメータcを潜在変数ではなく、MAP推定により求めるべきパラメータとして扱う。このため、確定値として求めた上記の状態パラメータの推定値c^に関する対数尤度重みは、以下のようにディラックデルタ関数δ(・)を用いて表現される。 As described above, in the present embodiment, instead of the latent variable state parameter c n, treated as a parameter to be determined by the MAP estimation. For this reason, the log likelihood weight related to the estimated value c ^ n of the state parameter obtained as a definite value is expressed using the Dirac delta function δ (·) as follows.

Figure 0005689844
Figure 0005689844

一方、事後確率最大化スペクトル推定部106は、wcn(ただし、下付添え字cnはcを表す)を受け取り、(15)式を最大化するρを求め、ρ^とする。(15)式は、以下のように書き換えられる。 On the other hand, the posterior probability maximization spectrum estimating unit 106, w cn (where subscript cn represents c n) receive, seek [rho n that maximizes equation (15), and [rho ^ n. Equation (15) can be rewritten as follows.

Figure 0005689844
Figure 0005689844

上式は、(16)式と同じ形をしているので、本実施形態により効率的に最大化することができる。例えば、本実施形態に基づくスペクトル状態推定部104の手順は以下のようになる。 Since the above formula has the same shape as the formula (16), it can be efficiently maximized by this embodiment. For example, the procedure of the spectrum state estimation unit 104 based on this embodiment is as follows.

<スペクトル状態推定部104の詳細>
図9は第二実施形態のスペクトル状態推定部104の機能ブロック図を、図10はその処理フローを示す。
<Details of Spectrum State Estimation Unit 104>
FIG. 9 is a functional block diagram of the spectrum state estimation unit 104 of the second embodiment, and FIG. 10 shows its processing flow.

スペクトル状態推定部104は、初期値算出部204a、期待値算出部204b、状態パラメータ算出部204c、収束判定部204e及び対数尤度重み算出部204fを含む。   The spectrum state estimation unit 104 includes an initial value calculation unit 204a, an expected value calculation unit 204b, a state parameter calculation unit 204c, a convergence determination unit 204e, and a log likelihood weight calculation unit 204f.

初期値算出部204aは、対数スペクトルの推定値ρ^を受け取り、状態パラメータの初期値をc^=H(ρ^)として定める(s204a)((31)式参照)。 The initial value calculation unit 204a receives the logarithmic spectrum estimation value ρ ^ n, and defines the initial value of the state parameter as c ^ n = H (ρ ^ n ) (s204a) (see formula (31)).

期待値算出部204bは、状態パラメータの推定値c^とスペクトル状態モデルΘθである混合比γ、平均μ及び共分散行列Σを受け取り、(44)式により、期待値E{j|c^}を求める(s204b、E−step)。 The expected value calculation unit 204b receives the state parameter estimate c ^ n and the spectral ratio model Θ θ , the mixture ratio γ j , the average μ j, and the covariance matrix Σ j , and the expected value E { j | c ^ n } is obtained (s204b, E-step).

状態パラメータ算出部204cは、対数スペクトルの推定値ρ^と、期待値E{j|c^}と、スペクトル状態モデルΘθである平均μ及び共分散行列Σと、状態依存スペクトルモデルΘρである行列A、ベクトルb及び共分散行列Ξとを受け取り、(45)式により、MFCCである状態パラメータの推定値c^を求める(s204c、M−step)。 State parameter calculating unit 204c includes the estimated value [rho ^ n of log spectrum, the expected value E | and {j c ^ n}, the average mu j and covariance matrix sigma j is the spectrum state model theta theta, state-dependent spectrum model theta [rho a is matrix a, receives a Ξ vector b and covariance matrix, equation (45) by, obtaining an estimate c ^ n state parameter is MFCC (s204c, M-step) .

期待値算出部204bにおける処理をE−stepとし、状態パラメータ算出部204cにおける処理をM−stepとし、EMアルゴリズムに基づき、収束条件を満たすまでs204b及びs204cを繰り返す。そのため、収束判定部204eは、状態パラメータの推定値c^を受け取り、収束条件を満たすか否かを判定する(s204e)。収束条件を満たさない場合には、状態パラメータの推定値c^を期待値算出部204bに出力し、各部に対し、処理を繰り返すように制御信号を出力する。収束条件を満たす場合には、状態パラメータの推定値c^を対数尤度重み算出部204fに出力する。収束条件としては、例えば、(1)繰り返し回数が所定の回数を超えることや、(2)一つ前の繰り返し時に得られた状態パラメータの推定値と現在の繰り返し時に得られた状態パラメータの推定値との差分が閾値以下であること等が挙げられる。 The process in the expected value calculation unit 204b is E-step, the process in the state parameter calculation unit 204c is M-step, and s204b and s204c are repeated until the convergence condition is satisfied based on the EM algorithm. Therefore, the convergence determination unit 204e receives the state parameter estimation value c ^ n and determines whether or not the convergence condition is satisfied (s204e). When the convergence condition is not satisfied, the state parameter estimation value c ^ n is output to the expected value calculation unit 204b, and a control signal is output to each unit so as to repeat the process. When the convergence condition is satisfied, the state parameter estimation value c ^ n is output to the log likelihood weight calculation unit 204f. As the convergence condition, for example, (1) the number of repetitions exceeds a predetermined number, or (2) the state parameter estimate obtained at the previous iteration and the state parameter estimate obtained at the current iteration. For example, the difference from the value is equal to or less than a threshold value.

対数尤度重み算出部204fは、状態パラメータの推定値c^を受け取り、式(46)により、対数尤度重みwcnを求め(s204f)、事後確率最大化スペクトル推定部106に出力する。 The log-likelihood weight calculation unit 204f receives the estimated value c ^ n of the state parameter, obtains the log-likelihood weight w cn according to the equation (46) (s204f), and outputs it to the posterior probability maximized spectrum estimation unit 106.

なお、事後確率最大化スペクトル推定部106は、対数尤度重みwcnと周波数信号xと状態依存スペクトルモデルΘρとを受け取り、(47)式を最大化する各周波数kにおける対数スペクトルρn,kを求め、対数スペクトルの推定値ρ^n,kを更新する。 The posterior probability maximizing spectrum estimation unit 106 receives the log likelihood weight w cn , the frequency signal x n, and the state-dependent spectrum model Θ ρ, and the log spectrum ρ n at each frequency k that maximizes the equation (47). , K , and the logarithmic spectrum estimate ρ ^ n, k is updated.

なお、(47)式の最大化は、前述までの例と同様、(47)式を(19)式の形に書き換えてf(z)=0となるスカラー変数zを求めたのち、求めたスカラー変数zに対応する対数スペクトルρを求めることで実現できる。 Note that the maximization of the equation (47) was obtained after rewriting the equation (47) into the form of the equation (19) to obtain the scalar variable z where f (z) = 0, as in the previous examples. This can be realized by obtaining a logarithmic spectrum ρ n corresponding to the scalar variable z.

最後に、事後確率最大化スペクトル推定部106のスペクトル算出部106fが、各周波数kにおけるスペクトルの推定値σ^n,kを、σ^n,k=exp(ρ^n,k)として求め、スペクトルの推定値σ^をスペクトル推定装置10の出力値として出力する。 Finally, the spectrum calculation unit 106f of the posterior probability maximization spectrum estimation unit 106 obtains an estimated value σ ^ n, k of the spectrum at each frequency k as σ ^ n, k = exp (ρ ^ n, k ), The spectrum estimation value σ ^ n is output as the output value of the spectrum estimation device 10.

<効果>
このような構成により、第一実施形態と同様の効果を奏する。
<Effect>
With such a configuration, the same effects as in the first embodiment can be obtained.

(シミュレーション結果)
この発明のスペクトル推定装置10を評価する目的で確認実験を行った。このため、非特許文献1に記載されている残響除去法のなかで、残響除去された周波数信号の推定値からスペクトルを推定する処理の部分で第一実施形態及び第二実施形態を用いた実験を行った。
(simulation result)
A confirmation experiment was conducted for the purpose of evaluating the spectrum estimation apparatus 10 of the present invention. For this reason, in the dereverberation method described in Non-Patent Document 1, an experiment using the first embodiment and the second embodiment in the process of estimating the spectrum from the estimated value of the dereverberated frequency signal. Went.

非特許文献1による残響除去アルゴリズムは、以下になる。
1.残響除去された周波数信号の推定値x^を観測信号とする。
2.周波数信号の推定値x^からそのスペクトルの推定値σ^を最尤法により求める。
3.以下を収束するまで繰り返す。
(a)観測信号とスペクトルの推定値σ^から残響の予測係数を更新する。
(b)観測信号と残響の予測係数から残響除去した信号の周波数信号の推定値x^を求める。
(c)周波数信号の推定値x^からそのスペクトルの推定値σ^を最尤法により求める。
4.求められた周波数信号の推定値x^を時間領域信号に変換し、残響除去された信号として出力する。
The dereverberation algorithm according to Non-Patent Document 1 is as follows.
1. The estimated value x ^ n of the frequency signal from which dereverberation has been removed is taken as an observation signal.
2. An estimated value σ ^ n of the spectrum is obtained from the estimated value x ^ n of the frequency signal by the maximum likelihood method.
3. Repeat until convergence.
(A) The prediction coefficient of reverberation is updated from the observed signal and the estimated value σ ^ n of the spectrum.
(B) Obtain an estimated value x ^ n of the frequency signal of the dereverberation signal from the observed signal and the reverberation prediction coefficient.
(C) The estimated value σ ^ n of the spectrum is obtained from the estimated value x ^ n of the frequency signal by the maximum likelihood method.
4). The obtained estimated value x ^ n of the frequency signal is converted into a time domain signal and output as a signal from which dereverberation is removed.

本実験では、上記の3(c)の処理において、最尤法の代わりに、第一実施形態及び第二実施形態を用いる場合と用いない場合の比較を行った。図11は、その結果を示す。3つのグラフのそれぞれは、左から順に、長さの異なる3種類の観測信号(平均長さは、それぞれ1.15秒、2.3秒、4.6秒)を用いた場合の結果を示している。各グラフの横軸は、上記の残響除去アルゴリズムの繰り返し回数を表している。繰り返し回数0は、観測信号を表す。縦軸は、残響除去された信号のケプストラム歪(CD)を示す。二点鎖線が非特許文献1の残響除去法で、一点鎖線が第一実施形態の方法でスペクトル推定を行った場合、実線が第二実施形態の方法でスペクトル推定を行った場合を示す。全ての場合において、2回目以降の繰り返しにおいて、非特許文献1の残響除去法よりも第一実施形態及び第二実施形態によるスペクトル推定を用いた場合の方が、ケプストラム歪を小さくできている。なお、上記の残響除去アルゴリズムにおいて、第一実施形態及び第二実施形態により推定されたスペクトルに基づき残響除去が行われるのは、2回目以降の繰り返しにおいてである。このため、一回目の繰り返しでは、第一実施形態及び第二実施形態を用いる場合と用いない場合で、ケプストラム歪の値に差は生じない。   In this experiment, in the processing of 3 (c), a comparison was made between the case where the first embodiment and the second embodiment were used and the case where the first embodiment and the second embodiment were not used instead of the maximum likelihood method. FIG. 11 shows the result. Each of the three graphs shows the results when using three types of observation signals with different lengths (average lengths are 1.15 seconds, 2.3 seconds, and 4.6 seconds, respectively) in order from the left. ing. The horizontal axis of each graph represents the number of repetitions of the above dereverberation algorithm. The number of repetitions 0 represents an observation signal. The vertical axis represents the cepstrum distortion (CD) of the dereverberation signal. A two-dot chain line is the dereverberation method of Non-Patent Document 1, and a one-dot chain line indicates the case where spectrum estimation is performed by the method of the first embodiment, and the solid line indicates a case where spectrum estimation is performed by the method of the second embodiment. In all cases, in the second and subsequent iterations, the cepstrum distortion can be made smaller when the spectrum estimation according to the first embodiment and the second embodiment is used than the dereverberation method of Non-Patent Document 1. In the above dereverberation algorithm, dereverberation is performed based on the spectrum estimated by the first embodiment and the second embodiment in the second and subsequent iterations. For this reason, in the first iteration, there is no difference in the value of the cepstrum distortion between the case where the first embodiment and the second embodiment are used and the case where the first embodiment is not used.

以上の結果より、第一実施形態及び第二実施形態により、潜在変数依存型ガウス分布を対数スペクトルの事前分布として導入し、対数スペクトルを事後確率最大化推定により求めることで、スペクトル推定精度を改善できることが確認された。   Based on the above results, the first and second embodiments introduce a latent variable-dependent Gaussian distribution as a prior distribution of the logarithmic spectrum, and obtain the logarithmic spectrum by posterior probability maximization estimation to improve the spectrum estimation accuracy. It was confirmed that it was possible.

<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<Other variations>
The present invention is not limited to the above-described embodiments and modifications. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.

<プログラム及び記録媒体>
上述したスペクトル推定装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施形態で図に示した機能ブロック図をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施形態で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
<Program and recording medium>
The spectrum estimation apparatus described above can also be functioned by a computer. In this case, each process of a program for causing a computer to function as a target device (device having the functional block diagram shown in the drawings in various embodiments) or a processing procedure thereof (shown in each embodiment) is performed. A program to be executed by a computer may be downloaded from a recording medium such as a CD-ROM, a magnetic disk, a semiconductor storage device, or the like into the computer and executed.

本発明は、各短時間フレームにおける周波数信号のスペクトル値を用いて行う様々な処理に利用することができる。   The present invention can be used for various processes performed using the spectrum value of the frequency signal in each short time frame.

10 スペクトル推定装置
101 スペクトル状態モデル記憶部
102 状態依存スペクトルモデル記憶部
104 スペクトル状態推定部
104a 状態番号推定部
104b 設定部
106 事後確率最大化スペクトル推定部
106a 初期値設定部
106b スカラー定数算出部
106c スカラー変数算出部
106d 対数スペクトル算出部
106e 収束判定部
106f スペクトル算出部
204a 初期値算出部
204b 期待値算出部
204c 状態パラメータ算出部
204e 収束判定部
204f 算出部
DESCRIPTION OF SYMBOLS 10 Spectrum estimation apparatus 101 Spectrum state model memory | storage part 102 State dependence spectrum model memory | storage part 104 Spectrum state estimation part 104a State number estimation part 104b Setting part 106 A posteriori probability maximization spectrum estimation part 106a Initial value setting part 106b Scalar constant calculation part 106c Scalar Variable calculation unit 106d Logarithmic spectrum calculation unit 106e Convergence determination unit 106f Spectrum calculation unit 204a Initial value calculation unit 204b Expected value calculation unit 204c State parameter calculation unit 204e Convergence determination unit 204f Calculation unit

Claims (9)

各短時間フレームnにおける周波数信号xのスペクトル値σを推定するスペクトル推定装置であって、
前記周波数信号xの対数スペクトルρの状態を表す状態パラメータθの事前確率密度関数p(θ;Θθ)に関するモデルパラメータであるスペクトル状態モデルΘθと、前記状態パラメータθが既知の条件下での前記対数スペクトルρの条件付き確率密度関数p(ρ|θ;Θρ)に関するモデルパラメータである状態依存スペクトルモデルΘρとを記憶する記憶部と、
前記対数スペクトルρ の推定値ρ^、前記スペクトル状態モデルΘθ及び前記状態依存スペクトルモデルΘρを用いて、対数尤度重みwθnを推定するスペクトル状態推定部と、
前記周波数信号x、前記対数尤度重みwθn及び前記状態依存スペクトルモデルΘρを用いて、目的関数を最大化する対数スペクトルを前記推定値ρ^ として求める事後確率最大化スペクトル推定部とを含み、
収束条件を満たすまで、前記スペクトル状態推定部及び事後確率最大化スペクトル推定部における処理を繰り返す、
スペクトル推定装置。
A spectral estimation device for estimating a spectral value sigma n of the frequency signal x n in each short time frame n,
A spectral state model Θ θ that is a model parameter related to the prior probability density function p (θ n ; Θ θ ) of the state parameter θ n representing the state of the logarithmic spectrum ρ n of the frequency signal x n and the state parameter θ n are known. A storage unit that stores a state-dependent spectrum model Θ ρ that is a model parameter related to a conditional probability density function p (ρ n | θ n ; Θ ρ ) of the logarithmic spectrum ρ n under the conditions of
The log spectrum [rho estimate of n ρ ^ n, using said spectral state model theta theta and the state-dependent spectral model theta [rho, and spectral state estimation unit for estimating log-likelihood weights w .theta.n,
A posteriori probability maximizing spectrum estimation unit that obtains a logarithmic spectrum that maximizes an objective function as the estimated value ρ ^ n using the frequency signal x n , the log likelihood weight w θn, and the state-dependent spectrum model Θ ρ ; Including
Until the convergence condition is satisfied, the processing in the spectrum state estimation unit and the posterior probability maximization spectrum estimation unit is repeated.
Spectrum estimation device.
請求項1記載のスペクトル推定装置であって、
前記事後確率最大化スペクトル推定部が、一つのスカラー変数zとそのスカラー変数に関する指数関数exp(z)と一つのスカラー定数aとの和によって規定される非線形方程式に関して、各短時間フレームnにおける周波数k毎の周波数信号xn,kと前記対数尤度重みwθnと前記状態依存スペクトルモデルΘρに依存して前記スカラー定数aを定めるとともに、前記非線形方程式が0に一致する前記スカラー変数zの値を求め、その求めた前記スカラー変数zと前記周波数信号xn,kと前記対数尤度重みwθnと前記状態依存スペクトルモデルΘρとに基づき、前記推定値ρ^を更新する、
スペクトル推定装置。
The spectrum estimation apparatus according to claim 1, wherein
The posterior probability maximizing spectrum estimator relates to a nonlinear equation defined by the sum of one scalar variable z, an exponential function exp (z) related to the scalar variable, and one scalar constant a. The scalar variable a is determined depending on the frequency signal x n, k for each frequency k, the log-likelihood weight w θn and the state-dependent spectral model Θ ρ , and the nonlinear equation is equal to zero. And updating the estimated value ρ ^ n based on the determined scalar variable z, the frequency signal x n, k , the log likelihood weight w θn, and the state-dependent spectrum model Θ ρ .
Spectrum estimation device.
請求項1または請求項2記載のスペクトル推定装置であって、
前記対数スペクトルρが取りうる値を規定する事前確率密度関数p(ρ;Θθ,Θρ)が混合ガウス分布に従い、前記状態パラメータθは短時間フレームnにおいてNθ個の有限状態の何れかの状態をとり、前記スペクトル状態モデルΘθは全ての状態iに関する混合比βからなり、前記状態依存スペクトルモデルΘρは全ての状態iに関する全ての周波数kに関する平均μ と分散ξ とからなるものとし、
前記スペクトル状態推定部は、前記対数尤度重みw
Figure 0005689844
または、
Figure 0005689844
として推定する、
スペクトル推定装置。
The spectrum estimation apparatus according to claim 1 or 2, wherein
The prior probability density function p (ρ n ; Θ θ , Θ ρ ) that defines the possible values of the logarithmic spectrum ρ n follows a mixed Gaussian distribution, and the state parameter θ n is N θ finite states in a short time frame n. Where the spectral state model Θ θ is composed of the mixing ratio β i for all states i, and the state dependent spectral model Θ ρ is the average μ i k for all frequencies k for all states i The variance ξ i k
The spectrum state estimation unit calculates the log likelihood weight w i .
Figure 0005689844
Or
Figure 0005689844
Estimate as
Spectrum estimation device.
請求項1または請求項2記載のスペクトル推定装置であって、
前記状態パラメータθを前記周波数信号に対応するメル周波数ケプストラム係数cとし、前記状態パラメータの事前確率密度関数p(c;Θθ)として前記メル周波数ケプストラム係数cの混合ガウス分布を用い、jをガウス分布の番号とし、前記スペクトル状態モデルΘθを全てのjに関する混合比γと平均μと共分散行列Σとの集合とし、前記メル周波数ケプストラム係数cから前記推定値ρ^への擬似逆変換を規定する行列A及びベクトルbと、逆変換誤差eがガウス分布に従うと仮定したときの共分散行列Ξとを前記状態依存スペクトルモデルΘρとし、
前記スペクトル状態推定部は、
前記メル周波数ケプストラム係数である状態パラメータの推定値c^と前記混合比γと前記平均μと前記共分散行列Σとを用いて、期待値E{j|c^}を
Figure 0005689844
として算出する期待値算出部と、
前記推定値ρ^と前記期待値E{j|c^}と前記行列Aと前記ベクトルbと前記共分散行列Ξと前記平均μと前記共分散行列Σとを用いて、前記状態パラメータである前記メル周波数ケプストラム係数の推定値c^
Figure 0005689844
として更新する状態パラメータ更新部と、
δをディラックデルタ関数とし、前記メル周波数ケプストラム係数である状態パラメータの推定値c^を用いて、前記メル周波数ケプストラム係数である前記状態パラメータの推定値c^に対する対数尤度重みwcn
Figure 0005689844
として算出する対数尤度重み算出部とを含み、
収束条件を満たすまで、前記期待値算出部及び前記状態パラメータ更新部における処理を繰り返す、
スペクトル推定装置。
The spectrum estimation apparatus according to claim 1 or 2, wherein
And Mel-frequency cepstral coefficients c n corresponding to the state parameter theta n to the frequency signal, the prior probability density function p of said state parameters; Gaussian mixture of the mel-frequency cepstral coefficients c n is used as (c n theta theta) and j is the number in the Gaussian distribution, the spectral state model theta theta and set the mixing ratio gamma j relating to all j the mean mu j and covariance matrix sigma j, the estimate from the mel-frequency cepstral coefficients c n The state-dependent spectrum model Θ ρ is defined as a matrix A and a vector b defining pseudo inverse transformation to ρ ^ n and a covariance matrix Ξ when the inverse transformation error e is assumed to follow a Gaussian distribution.
The spectrum state estimation unit
The expected value E {j | c ^ n } is obtained by using the estimated value c ^ n of the mel frequency cepstrum coefficient, the mixing ratio γ j , the average μ j, and the covariance matrix Σ j.
Figure 0005689844
An expected value calculation unit for calculating as
Using the estimated value ρ ^ n , the expected value E {j | c ^ n }, the matrix A, the vector b, the covariance matrix Ξ, the average μ j, and the covariance matrix Σ j , The estimated value c ^ n of the mel frequency cepstrum coefficient which is a state parameter is
Figure 0005689844
A state parameter updater that updates as
Using δ as a Dirac delta function and using the state parameter estimate c ^ n that is the mel frequency cepstrum coefficient, a log likelihood weight w cn for the state parameter estimate c ^ n that is the mel frequency cepstrum coefficient is
Figure 0005689844
And a log likelihood weight calculation unit that calculates as
Until the convergence condition is satisfied, repeat the process in the expected value calculation unit and the state parameter update unit,
Spectrum estimation device.
各短時間フレームnにおける周波数信号xのスペクトル値σを推定するスペクトル推定方法であって、
前記周波数信号xの対数スペクトルρの状態を表す状態パラメータθの事前確率密度関数p(θ;Θθ)に関するモデルパラメータであるスペクトル状態モデルΘθと、前記状態パラメータθが既知の条件下での前記対数スペクトルρの条件付き確率密度関数p(ρ|θ;Θρ)に関するモデルパラメータである状態依存スペクトルモデルΘρとを記憶しておき、
前記対数スペクトルρ の推定値ρ^、前記スペクトル状態モデルΘθ及び前記状態依存スペクトルモデルΘρを用いて、対数尤度重みwθnを推定するスペクトル状態推定ステップと、
前記周波数信号x、前記対数尤度重みwθn及び前記状態依存スペクトルモデルΘρを用いて、目的関数を最大化する対数スペクトルを前記推定値ρ^ として求める事後確率最大化スペクトル推定ステップとを含み、
収束条件を満たすまで、前記スペクトル状態推定ステップ及び事後確率最大化スペクトル推定ステップにおける処理を繰り返す、
スペクトル推定方法。
A spectral estimation method for estimating the spectral value sigma n of the frequency signal x n in each short time frame n,
A spectral state model Θ θ that is a model parameter related to the prior probability density function p (θ n ; Θ θ ) of the state parameter θ n representing the state of the logarithmic spectrum ρ n of the frequency signal x n and the state parameter θ n are known. A state-dependent spectral model Θ ρ that is a model parameter for the conditional probability density function p (ρ n | θ n ; Θ ρ ) of the logarithmic spectrum ρ n under the conditions of
Estimate [rho ^ n of the log spectrum [rho n, using said spectral state model theta theta and the state-dependent spectral model theta [rho, and spectral state estimating step of estimating log-likelihood weights w .theta.n,
Using the frequency signal x n , the log likelihood weight w θn and the state-dependent spectrum model Θ ρ , a posterior probability maximizing spectrum estimation step for obtaining a logarithm spectrum maximizing an objective function as the estimated value ρ ^ n ; Including
Until the convergence condition is satisfied, the processing in the spectral state estimation step and the posterior probability maximization spectral estimation step is repeated.
Spectral estimation method.
請求項5記載のスペクトル推定方法であって、
前記事後確率最大化スペクトル推定ステップが、一つのスカラー変数zとそのスカラー変数に関する指数関数exp(z)と一つのスカラー定数aとの和によって規定される非線形方程式に関して、各短時間フレームnにおける周波数k毎の周波数信号xn,kと前記対数尤度重みwθnと前記状態依存スペクトルモデルΘρに依存して前記スカラー定数aを定めるとともに、前記非線形方程式が0に一致する前記スカラー変数zの値を求め、その求めた前記スカラー変数zと前記周波数信号xn,kと前記対数尤度重みwθnと前記状態依存スペクトルモデルΘρとに基づき、前記推定値ρ^を更新する、
スペクトル推定方法。
The spectrum estimation method according to claim 5, comprising:
The posterior probability maximizing spectrum estimation step is performed in each short time frame n with respect to a nonlinear equation defined by a sum of one scalar variable z, an exponential function exp (z) related to the scalar variable, and a scalar constant a. The scalar variable a is determined depending on the frequency signal x n, k for each frequency k, the log-likelihood weight w θn and the state-dependent spectral model Θ ρ , and the nonlinear equation is equal to zero. And updating the estimated value ρ ^ n based on the determined scalar variable z, the frequency signal x n, k , the log likelihood weight w θn, and the state-dependent spectrum model Θ ρ .
Spectral estimation method.
請求項5または請求項6記載のスペクトル推定方法であって、
前記対数スペクトルρが取りうる値を規定する事前確率密度関数p(ρ;Θθ,Θρ)が混合ガウス分布に従い、前記状態パラメータθは短時間フレームnにおいてNθ個の有限状態の何れかの状態をとり、前記スペクトル状態モデルΘθは全ての状態iに関する混合比βからなり、前記状態依存スペクトルモデルΘρは全ての状態iに関する全ての周波数kに関する平均μ と分散ξ とからなるものとし、
前記スペクトル状態推定ステップにおいて、前記対数尤度重みw
Figure 0005689844
または、
Figure 0005689844
として推定する、
スペクトル推定方法。
The spectrum estimation method according to claim 5 or 6, comprising:
The prior probability density function p (ρ n ; Θ θ , Θ ρ ) that defines the possible values of the logarithmic spectrum ρ n follows a mixed Gaussian distribution, and the state parameter θ n is N θ finite states in a short time frame n. Where the spectral state model Θ θ is composed of the mixing ratio β i for all states i, and the state dependent spectral model Θ ρ is the average μ i k for all frequencies k for all states i The variance ξ i k
In the spectral state estimation step, the log likelihood weight w i is
Figure 0005689844
Or
Figure 0005689844
Estimate as
Spectral estimation method.
請求項5または請求項6記載のスペクトル推定方法であって、
前記状態パラメータθを前記周波数信号に対応するメル周波数ケプストラム係数cとし、前記状態パラメータの事前確率密度関数p(c;Θθ)として前記メル周波数ケプストラム係数cの混合ガウス分布を用い、jをガウス分布の番号とし、前記スペクトル状態モデルΘθを全てのjに関する混合比γと平均μと共分散行列Σとの集合とし、前記メル周波数ケプストラム係数cから前記推定値ρ^への擬似逆変換を規定する行列A及びベクトルbと、逆変換誤差eがガウス分布に従うと仮定したときの共分散行列Ξとを前記状態依存スペクトルモデルΘρとし、
前記スペクトル状態推定ステップは、
前記メル周波数ケプストラム係数である状態パラメータの推定値c^と前記混合比γと前記平均μと前記共分散行列Σとを用いて、期待値E{j|c^}を
Figure 0005689844
として算出する期待値算出ステップと、
前記推定値ρ^と前記期待値E{j|c^}と前記行列Aと前記ベクトルbと前記共分散行列Ξと前記平均μと前記共分散行列Σとを用いて、前記状態パラメータである前記メル周波数ケプストラム係数の推定値c^
Figure 0005689844
として更新する状態パラメータ更新ステップと、
δをディラックデルタ関数とし、前記メル周波数ケプストラム係数である状態パラメータの推定値c^を用いて、前記メル周波数ケプストラム係数である前記状態パラメータの推定値c^に対する対数尤度重みwcn
Figure 0005689844
として算出する対数尤度重み算出ステップとを含み、
収束条件を満たすまで、前記期待値算出ステップ及び前記状態パラメータ更新ステップにおける処理を繰り返す、
スペクトル推定方法。
The spectrum estimation method according to claim 5 or 6, comprising:
And Mel-frequency cepstral coefficients c n corresponding to the state parameter theta n to the frequency signal, the prior probability density function p of said state parameters; Gaussian mixture of the mel-frequency cepstral coefficients c n is used as (c n theta theta) and j is the number in the Gaussian distribution, the spectral state model theta theta and set the mixing ratio gamma j relating to all j the mean mu j and covariance matrix sigma j, the estimate from the mel-frequency cepstral coefficients c n The state-dependent spectrum model Θ ρ is defined as a matrix A and a vector b defining pseudo inverse transformation to ρ ^ n and a covariance matrix Ξ when the inverse transformation error e is assumed to follow a Gaussian distribution.
The spectral state estimation step includes:
The expected value E {j | c ^ n } is obtained by using the estimated value c ^ n of the mel frequency cepstrum coefficient, the mixing ratio γ j , the average μ j, and the covariance matrix Σ j.
Figure 0005689844
An expected value calculation step to calculate as
Using the estimated value ρ ^ n , the expected value E {j | c ^ n }, the matrix A, the vector b, the covariance matrix Ξ, the average μ j, and the covariance matrix Σ j , The estimated value c ^ n of the mel frequency cepstrum coefficient which is a state parameter is
Figure 0005689844
A state parameter update step to update as
Using δ as a Dirac delta function and using the state parameter estimate c ^ n that is the mel frequency cepstrum coefficient, a log likelihood weight w cn for the state parameter estimate c ^ n that is the mel frequency cepstrum coefficient is
Figure 0005689844
Log likelihood weight calculation step to calculate as
Until the convergence condition is satisfied, the processes in the expected value calculation step and the state parameter update step are repeated.
Spectral estimation method.
請求項1から請求項4の何れかに記載のスペクトル推定装置としてコンピュータを機能させるためのプログラム。   The program for functioning a computer as a spectrum estimation apparatus in any one of Claims 1-4.
JP2012060159A 2012-03-16 2012-03-16 SPECTRUM ESTIMATION DEVICE, METHOD THEREOF, AND PROGRAM Active JP5689844B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012060159A JP5689844B2 (en) 2012-03-16 2012-03-16 SPECTRUM ESTIMATION DEVICE, METHOD THEREOF, AND PROGRAM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012060159A JP5689844B2 (en) 2012-03-16 2012-03-16 SPECTRUM ESTIMATION DEVICE, METHOD THEREOF, AND PROGRAM

Publications (2)

Publication Number Publication Date
JP2013195511A JP2013195511A (en) 2013-09-30
JP5689844B2 true JP5689844B2 (en) 2015-03-25

Family

ID=49394578

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012060159A Active JP5689844B2 (en) 2012-03-16 2012-03-16 SPECTRUM ESTIMATION DEVICE, METHOD THEREOF, AND PROGRAM

Country Status (1)

Country Link
JP (1) JP5689844B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016167216A1 (en) * 2015-04-13 2016-10-20 日本電信電話株式会社 Matching device, determination device, method therefor, program, and recording medium
CN113946955B (en) * 2021-10-14 2023-08-08 西安电子科技大学 Multi-target Bayesian direction-of-arrival estimation method based on fusion center feedback information
CN114444279B (en) * 2022-01-14 2022-12-16 中国人民解放军国防科技大学 Response prediction method based on satellite low and high precision data associated parameter joint estimation

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0895592A (en) * 1994-09-21 1996-04-12 Nippon Telegr & Teleph Corp <Ntt> Pattern recognition method
JPH09198084A (en) * 1996-01-16 1997-07-31 Nippon Telegr & Teleph Corp <Ntt> Method and device for speaker recognition accompanied by model update
JP4977062B2 (en) * 2008-02-29 2012-07-18 日本電信電話株式会社 Reverberation apparatus and method, program and recording medium
US8848933B2 (en) * 2008-03-06 2014-09-30 Nippon Telegraph And Telephone Corporation Signal enhancement device, method thereof, program, and recording medium

Also Published As

Publication number Publication date
JP2013195511A (en) 2013-09-30

Similar Documents

Publication Publication Date Title
US9721202B2 (en) Non-negative matrix factorization regularized by recurrent neural networks for audio processing
Deng et al. Recursive estimation of nonstationary noise using iterative stochastic approximation for robust speech recognition
CN110914899A (en) Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method
Wang et al. Speaker and noise factorization for robust speech recognition
CN104685562B (en) Method and apparatus for reconstructing echo signal from noisy input signal
US9754608B2 (en) Noise estimation apparatus, noise estimation method, noise estimation program, and recording medium
Deng Front-end, back-end, and hybrid techniques for noise-robust speech recognition
JP2017514249A (en) How to convert the input signal
Sadhu et al. Continual Learning in Automatic Speech Recognition.
JP4977062B2 (en) Reverberation apparatus and method, program and recording medium
CN104737229A (en) Method for transforming input signal
CN110998723B (en) Signal processing device using neural network, signal processing method, and recording medium
JP2010078650A (en) Speech recognizer and method thereof
Mohammadiha et al. A state-space approach to dynamic nonnegative matrix factorization
JP5689844B2 (en) SPECTRUM ESTIMATION DEVICE, METHOD THEREOF, AND PROGRAM
JPWO2009038013A1 (en) Noise removal system, noise removal method, and noise removal program
JP5881454B2 (en) Apparatus and method for estimating spectral shape feature quantity of signal for each sound source, apparatus, method and program for estimating spectral feature quantity of target signal
Yao et al. Noise adaptive speech recognition based on sequential noise parameter estimation
JP6711765B2 (en) Forming apparatus, forming method, and forming program
Chung et al. Training and compensation of class-conditioned NMF bases for speech enhancement
Wang et al. An explicit independence constraint for factorised adaptation in speech recognition.
JP5172536B2 (en) Reverberation removal apparatus, dereverberation method, computer program, and recording medium
Wang et al. Improving reverberant VTS for hands-free robust speech recognition
Sehr et al. Model-based dereverberation in the Logmelspec domain for robust distant-talking speech recognition
Maas et al. A highly efficient optimization scheme for REMOS-based distant-talking speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141023

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141118

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150129

R150 Certificate of patent or registration of utility model

Ref document number: 5689844

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150