JP4444345B2 - Sound source separation system - Google Patents

Sound source separation system Download PDF

Info

Publication number
JP4444345B2
JP4444345B2 JP2008133175A JP2008133175A JP4444345B2 JP 4444345 B2 JP4444345 B2 JP 4444345B2 JP 2008133175 A JP2008133175 A JP 2008133175A JP 2008133175 A JP2008133175 A JP 2008133175A JP 4444345 B2 JP4444345 B2 JP 4444345B2
Authority
JP
Japan
Prior art keywords
cost function
sound source
separation matrix
separation
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008133175A
Other languages
Japanese (ja)
Other versions
JP2008306712A (en
Inventor
弘史 中島
一博 中臺
雄二 長谷川
広司 辻野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to US12/133,691 priority Critical patent/US8131542B2/en
Priority to EP08251991A priority patent/EP2012307B1/en
Priority to DE602008000475T priority patent/DE602008000475D1/en
Publication of JP2008306712A publication Critical patent/JP2008306712A/en
Application granted granted Critical
Publication of JP4444345B2 publication Critical patent/JP4444345B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a system capable of separating sound source signals with high precision while improving a convergence rate and convergence precision. <P>SOLUTION: Processing of updating a current separation matrix W<SB>k</SB>to a next separation matrix W<SB>k+1</SB>such that a next value J(W<SB>k+1</SB>) of a cost function is closer to a minimum value J(W<SB>0</SB>) than a current value J(W<SB>k</SB>) is repeated. An update amount &Delta;W<SB>k</SB>of the separation matrix is increased as the current value J(W<SB>k</SB>) of the cost function is increased and is decreased as a current gradient &delta;J(W<SB>k</SB>)/&delta;W of the cost function is rapid (wherein "rounded d" (partial derivative symbol) is transposed with &delta;). On the basis of input signals (x) from a plurality of microphones Mi and an optimal separation matrix W<SB>0</SB>, it is possible to separate sound source signals y(=W<SB>0</SB>&times;(x)) with high precision while improving a convergence rate and convergence precision. <P>COPYRIGHT: (C)2009,JPO&amp;INPIT

Description

本発明は、音源分離システムに関する。   The present invention relates to a sound source separation system.

逆フィルタに基づく分離法等にしたがって伝達系の情報がなくても音源を分離する手法としてブラインド音源分離(BSS)が提案されている(非特許文献1〜4参照)。BSSとしては無相関化(DSS(Decoration based Source Separation))、独立成分分析(ICA(Independent Component Analysis))および高次の無相関化(HDSS(Higer−order DSS))に基づく音源分離手法と、これらの手法のそれぞれに幾何的情報を加えた分離法(GSS(Geometric constrained Source Separation),GICA(Geometric constrained ICA),GHDSS(Geometric constrained HDSS))が知られている。以下、BSSの概要について説明する。   Blind sound source separation (BSS) has been proposed as a method of separating sound sources even if there is no transmission system information according to a separation method based on an inverse filter (see Non-Patent Documents 1 to 4). As a BSS, a sound source separation method based on decorrelation (DSS (Decoration Based Source Separation)), independent component analysis (ICA (Independent Component Analysis)) and higher-order decorrelation (HDSS (Higer-order DSS)), There are known separation methods (GSS (Geometrically Constrained Source Separation), GICA (Geometrically Constrained ICA), GHDSS (Geometrically Constrained HDSS)) in which geometric information is added to each of these methods. Hereinafter, an outline of the BSS will be described.

M個の音源信号の周波数特性をs(ω)=[s1(ω),s2(ω),‥,sN(ω)]T(「T」は転置を表わす。)とすれば、N(≦M)個のマイクロホンでの入力信号の特性x(ω)=[x1(ω),x2(ω),‥,xN(ω)]Tは伝達関数行列H(ω)を用いて式(1)で表わされる。伝達関数H(ω)の要素Hijは音源iからマイクロホンjまでの伝達関数を表わしている。 If the frequency characteristics of the M sound source signals are s (ω) = [s 1 (ω), s 2 (ω),..., S N (ω)] T (“T” represents transposition). Input signal characteristics x (ω) = [x 1 (ω), x 2 (ω),..., X N (ω)] T is the transfer function matrix H (ω). And is represented by Formula (1). The element H ij of the transfer function H (ω) represents the transfer function from the sound source i to the microphone j.

x(ω)=H(ω)s(ω) ‥(1)   x (ω) = H (ω) s (ω) (1)

音源分離問題は分離行列W(ω)を用いて式(2)で表わされる。   The sound source separation problem is expressed by Equation (2) using a separation matrix W (ω).

y(ω)=W(ω)x(ω) ‥(2)   y (ω) = W (ω) x (ω) (2)

音源分離処理はy(ω)=s(ω)となる分離行列W(ω)を求めることとして定式化される。伝達関数行列H(ω)が既知である場合には分離行列W(ω)は類似逆行列H+(ω)を用いて計算される。しかるに、実際には伝達関数行列H(ω)が既知であることはまれである。BSSは、H(ω)が未知の状態でW(ω)を求める手法である。
1.BSS(オフライン処理)
BSSの一般的手法は分離度を評価するコスト関数J(y)を最小化するyを求める処理として式(3)により記述される。
The sound source separation process is formulated as obtaining a separation matrix W (ω) such that y (ω) = s (ω). If the transfer function matrix H (ω) is known, the separation matrix W (ω) is calculated using the similar inverse matrix H + (ω). However, in practice, the transfer function matrix H (ω) is rarely known. BSS is a method for obtaining W (ω) in a state where H (ω) is unknown.
1. BSS (offline processing)
A general method of BSS is described by Expression (3) as a process for obtaining y that minimizes the cost function J (y) for evaluating the degree of separation.

BSS=argminW[J(y)]=argminW[J(Wx)] ‥(3) W BSS = argmin W [J (y)] = argmin W [J (Wx)] (3)

コスト関数J(y)は手法によって異なり、DSSによればyの相関行列Ryy=E[yyH]に基づき、フロベニウスノルム(行列のすべての要素の絶対値の二乗和を表わしている。)を用いて式(4)にしたがって算出される。 The cost function J (y) varies depending on the method. According to DSS, the Frobenius norm (representing the sum of squares of the absolute values of all elements of the matrix) is based on the correlation matrix R yy = E [yy H ] of y. Is calculated according to the equation (4).

DSS(W)=‖Ryy−Diag[Ryy]‖2 ‥(4) J DSS (W) = ‖R yy -Diag [R yy ] ‖ 2 (4)

また、K−L情報量を利用したICAによればコスト関数Jは、yの同時PDF(確率密度関数)p(y)と、yの周辺PDFq(y)=Πkp(yk)とに基づき、式(5)にしたがって算出される(非特許文献5参照)。 Further, according to ICA using the KL information amount, the cost function J is expressed as y simultaneous PDF (probability density function) p (y), y neighboring PDFq (y) = Π k p (y k ) Is calculated according to the equation (5) (see Non-Patent Document 5).

ICA(W)=∫dy・p(y)Log{p(y)/q(y)} ‥(5) J ICA (W) = ∫dy · p (y) Log {p (y) / q (y)} (5)

式(3)を満たすWは、J(W)がJ(Wk)(kは反復回数)の周辺で最も勾配が急なWの方向を表わす行列J’(Wk)と、ステップサイズパラメータμとに基づき、式(6)で表わされる勾配法にしたがって繰り返し計算により決定される。 W satisfying Equation (3) is a matrix J ′ (W k ) representing the direction of W with the steepest gradient around J (W) where J (W k ) (k is the number of iterations), and a step size parameter. Based on μ, it is determined by repetitive calculation according to the gradient method represented by the equation (6).

k+1=Wk−μJ’(Wt) ‥(6) W k + 1 = W k −μJ ′ (W t ) (6)

行列J’(Wk)は複素勾配演算法等にしたがって算出される(非特許文献6参照)。DSSによれば行列J’(W)は式(7)により表わされる。 The matrix J ′ (W k ) is calculated according to a complex gradient calculation method or the like (see Non-Patent Document 6). According to DSS, the matrix J ′ (W) is expressed by equation (7).

J’DSSoff(W)=2[Ryy−Diag[Ryy]]WRxx ‥(7) J ′ DSSoff (W) = 2 [R yy −Diag [R yy ]] WR xx (7)

ICAによれば行列J’(W)は行列Rφ(y)y=E[φ(y)yT]と、式(9)および(10)で定義される関数φ(y)にしたがって式(8)により表わされる。 According to ICA, the matrix J ′ (W) is expressed by the matrix R φ (y) y = E [φ (y) y T ] and the function φ (y) defined by the equations (9) and (10). It is represented by (8).

J’ICAoff(W)=[Rφ(y)y−I][W-1T ‥(8)
φ(y)=[φ(y1),φ(y2),‥,φ(yN)]T‥(9)
φ(yi)=−(∂/∂yi)Logp(yi) ‥(10)
J ′ ICAoff (W) = [R φ (y) y −I] [W −1 ] T (8)
φ (y) = [φ (y 1 ), φ (y 2 ),..., φ (y N )] T (9)
φ (y i ) = − (∂ / ∂y i ) Logp (y i ) (10)

2.適応BSS
適応BSSによれば、一般的に再起処理での期待値演算を省略して即時データが利用される。具体的にはE[yyH]をyyHに変換する。更新式は式(6)と同様であるが、反復回数「k」が時間の意味をも含む。オフライン処理では精度を高めるために小さいステップサイズで反復回数を多くすることができるが、適応処理でこの方法が採用されると適応時間が長くなってパフォーマンスの質が低下する。したがって、適応BSSのステップサイズパラメータμの調節はオフラインBSSよりも重要である。適応BSSにおけるDSSおよびICAのそれぞれによる行列J’は式(11)および(12)のそれぞれにより表わされる。ただし、ICAについては相関行列の非対角要素のみに着目した手法にしたがって自然勾配に基づく更新方法を利用する方法によって記述されている(非特許文献7参照)。
2. Adaptive BSS
According to the adaptive BSS, in general, immediate data is used by omitting the expected value calculation in the restart process. Specifically, E [yy H ] is converted to yy H. The update formula is similar to formula (6), but the number of iterations “k” also includes the meaning of time. In offline processing, it is possible to increase the number of iterations with a small step size in order to increase accuracy. However, when this method is adopted in adaptive processing, the adaptation time becomes long and the quality of performance decreases. Therefore, the adjustment of the step size parameter μ of the adaptive BSS is more important than the offline BSS. The matrix J ′ by DSS and ICA in the adaptive BSS is expressed by equations (11) and (12), respectively. However, ICA is described by a method that uses an update method based on a natural gradient according to a method that focuses only on non-diagonal elements of a correlation matrix (see Non-Patent Document 7).

J’DSS(W)=2[yyH−Diag[yyH]]Wxx H ‥(11)
J’ICA(W)=[φ(y)yH−Diag[φ(y)yH]]W ‥(12)
J ′ DSS (W) = 2 [yy H −Diag [yy H ]] W xx H (11)
J ′ ICA (W) = [φ (y) y H −Diag [φ (y) y H ]] W (12)

3.幾何情報による拘束条件付きBSS(GBSS)
幾何情報(マイクロホンおよび音源のそれぞれの位置)を利用してICAで起こるパーミュテーション問題およびスケーリング問題を解決する手法が提案されている(非特許文献8〜11参照)。GSSによれば、幾何制約の誤差と分離の誤差とを合成した値がコスト関数として用いられる。たとえば、コスト関数J(W)は幾何情報に基づく線形拘束の誤差JLC(W)と、分離系の誤差JSS(W)と、正規化係数λとに基づき、式(13)にしたがって定められる。
3. BSS with constraints based on geometric information (GBSS)
A method for solving the permutation problem and the scaling problem that occur in ICA using geometric information (the respective positions of the microphone and the sound source) has been proposed (see Non-Patent Documents 8 to 11). According to GSS, a value obtained by synthesizing a geometric constraint error and a separation error is used as a cost function. For example, the cost function J (W) is determined according to the equation (13) based on the linear constraint error J LC (W) based on the geometric information, the separation system error J SS (W), and the normalization coefficient λ. It is done.

J(W)=JLC(W)+λJss(W) ‥(13) J (W) = J LC (W) + λJ ss (W) (13)

線形拘束の誤差JLC(W)としては、式(14)で表わされる遅延和のビームフォーミング法における係数からの差JLCDS(W)または式(15)で表わされる死角型のビームフォーミング法における係数からの差JLCNULL(W)が採用される。 As the error J LC (W) of the linear constraint, the difference from the coefficient in the beam forming method of the delay sum represented by the equation (14) J LCDS (W) or the blind angle type beam forming method represented by the equation (15) is used. The difference J LCNULL (W) from the coefficient is adopted.

LCDS(W)=‖Diag[WD−I]‖2 ‥(14)
LCNULL(W)=‖WD−I‖2 ‥(15)
J LCDS (W) = ‖Diag [WD-I] ‖ 2 (14)
J LCNULL (W) = ‖WD-I‖ 2 (15)

GSSでは分離系の誤差Jss(W)として式(4)におけるJDSS(W)が採用される(非特許文献12参照)。そのほか、分離系の誤差JSS(W)として式(5)におけるJICA(W)が採用されうるが、この場合、幾何情報による線形拘束付きの適応ICA(GICA)となる。この適応GICAは線形拘束の誤差を許す弱い制約を設けた手法であり、非特許文献11に記載されているような線形拘束を絶対条件として用いる強い制約の手法とは異なる。
L.Parra and C.Spence, Conductive blind source separation of non-stationary source, IEEE Trans. on Speech and Audio Proceeding, vol.8, no.3, 2000, pp.320-327 F.Asano, S.Ikeda, M.Ogawa, H.Asoh and N.Kitawaki, Combined Approach of Array Proceeding and Independent Component Analysis for Blind Separation of Acoustic Signals, IEEE Trans. on Speech and Audio Proceeding, vol.11, no.3, 2003, pp.204-215 M.Miyoshi and Y.Kaneda, Inverse Filtering of Room Acoustics, IEEE Trans. on Acoustic Speech and Signal Proceeding, vol.ASSP-36, no.2, 1988, pp.145-152 H.Nakajima, M.Miyoshi and M.Tohyama, Sound field control by Indefinite MINT Filters, IEICE Trans., Fundamentals, vol.E-80A, no.5, 1997, pp.821-824 S.Ikeda and M.Murata, A method of ICA in time-frequencydomain, Proc.Workshop Indep. Compom. Anal. Signal. 1999, pp.365-370 D.H.Brandwood, B.A, A complex gradient operator and itsapplication in adaptive array theory, Proc. IEE Proc., vol.130, Pts. Fand H, No.1, 1983, pp.11-16 S.Amari, Natural gradient works efficiently in learning, newral Compt., vol.10, 1988, pp.251-276 L.Parra and C.Alvino, Gepmetric Source Separation: Merging Convultive Source Separation with Geometric Beamforming, IEEE Trans. on Speech and Audio Proceeding, vol.10, no.6, 2002, pp.352-362 R.Mukai, H.Sawada, S.Araki and S.Makino, Blind Source Separation of many signals in the frequency domain, in Proc. of ICASSP2006, vol.V, 2006, pp.969-972 H. Saruwatari, T.Kawamura, T.Nishikawa, A.Lee and K.Shikano, Blind Source Separation Based on a Fast Convergence Algorithm Combining ICA and Beamforming, IEEE Trans. on Speech and Audio Proceeding, vol.14, no.2, 2006, pp.666-678 M.Knaak, S.Araki snd S.Makino, Geometrically ConstrainedIndependent Component Analysis, IEEE Trans. on Speech and Audio Proceeding, vol.15, no.2, 2007, pp.715-726 J.Valin, J.Rouat and F.Michaud, Enhanced Robot Audition Based on Microphone Array Source Separation with Post-Filter, Proc. of 2004 IEE/RSJ IROS, 2004, pp.2123-2128
In GSS, J DSS (W) in Equation (4) is adopted as the error J ss (W) of the separation system (see Non-Patent Document 12). In addition, J ICA (W) in Expression (5) can be adopted as the error J SS (W) of the separation system, but in this case, the adaptive ICA (GICA) with linear constraint by geometric information is obtained. This adaptive GICA is a technique in which a weak constraint allowing a linear constraint error is provided, and is different from a strong constraint method using a linear constraint as described in Non-Patent Document 11 as an absolute condition.
L. Parra and C. Spence, Conductive blind source separation of non-stationary source, IEEE Trans. On Speech and Audio Proceeding, vol.8, no.3, 2000, pp.320-327 F. Asano, S. Ikeda, M. Ogawa, H. Asoh and N. Kitawaki, Combined Approach of Array Proceeding and Independent Component Analysis for Blind Separation of Acoustic Signals, IEEE Trans. On Speech and Audio Proceeding, vol.11, no .3, 2003, pp.204-215 M. Miyoshi and Y. Kaneda, Inverse Filtering of Room Acoustics, IEEE Trans. On Acoustic Speech and Signal Proceeding, vol.ASSP-36, no.2, 1988, pp.145-152 H. Nakajima, M. Miyoshi and M. Tohyama, Sound field control by Indefinite MINT Filters, IEICE Trans., Fundamentals, vol.E-80A, no.5, 1997, pp.821-824 S. Ikeda and M. Murata, A method of ICA in time-frequency domain, Proc. Workshop Indep. Compom. Anal. Signal. 1999, pp. 365-370 DHBrandwood, BA, A complex gradient operator and its application in adaptive array theory, Proc.IEE Proc., Vol.130, Pts.Fand H, No.1, 1983, pp.11-16 S. Amari, Natural gradient works efficiently in learning, newral Compt., Vol.10, 1988, pp.251-276 L.Parra and C. Alvino, Gepmetric Source Separation: Merging Convultive Source Separation with Geometric Beamforming, IEEE Trans. On Speech and Audio Proceeding, vol.10, no.6, 2002, pp.352-362 R.Mukai, H.Sawada, S.Araki and S.Makino, Blind Source Separation of many signals in the frequency domain, in Proc. Of ICASSP2006, vol.V, 2006, pp.969-972 H. Saruwatari, T. Kawamura, T. Nishikawa, A. Lee and K. Shikano, Blind Source Separation Based on a Fast Convergence Algorithm Combining ICA and Beamforming, IEEE Trans. On Speech and Audio Proceeding, vol.14, no.2 , 2006, pp.666-678 M. Knaak, S. Araki snd S. Makino, Geometrically Constrained Independent Component Analysis, IEEE Trans. On Speech and Audio Proceeding, vol.15, no.2, 2007, pp.715-726 J. Valin, J. Rouat and F. Michaud, Enhanced Robot Audition Based on Microphone Array Source Separation with Post-Filter, Proc. Of 2004 IEE / RSJ IROS, 2004, pp.2123-2128

しかし、従来手法によればステップサイズパラメータμ(式(6)参照)が固定されていたため、コスト関数J(W)の最小値J(W0)(W0:最適分離行列)への収束性の観点から2つの問題がある。 However, since the step size parameter μ (see Equation (6)) is fixed according to the conventional method, the convergence of the cost function J (W) to the minimum value J (W 0 ) (W 0 : optimal separation matrix) is achieved. There are two problems from this point of view.

第1の問題は分離行列Wの更新量ΔW(=μJ’(Wk))がコスト関数の現在値J(Wk)によらずに決まるので、更新量ΔWが収束速度および収束精度の向上の観点から不適当になるということである。第1の問題の理解のため分離行列Wに応じたコスト関数J(W)の変化態様を概念的に示す図10(a)を参照する。収束不十分な場合(=コスト関数J(W)が最小値J(W0)から離れている場合)、収束速度の向上の観点から更新量ΔWが過少となる可能性がある。その一方、収束十分な場合(=コスト関数J(W)が最小値J(W0)に近い場合)、収束精度の向上の観点から更新量ΔWが過多となる可能性がある。 The first problem is that the update amount ΔW (= μJ ′ (W k )) of the separation matrix W is determined regardless of the current value J (W k ) of the cost function, so the update amount ΔW is improved in convergence speed and accuracy. It is inappropriate from the viewpoint of. In order to understand the first problem, reference is made to FIG. 10A conceptually showing how the cost function J (W) changes according to the separation matrix W. If the convergence is insufficient (= the cost function J (W) is far from the minimum value J (W 0 )), the update amount ΔW may be too small from the viewpoint of improving the convergence speed. On the other hand, when the convergence is sufficient (= when the cost function J (W) is close to the minimum value J (W 0 )), the update amount ΔW may be excessive from the viewpoint of improving the convergence accuracy.

第2の問題は更新量ΔWがコスト関数J(W)の微分値J’(W)に比例するので、更新量ΔWが収束速度および収束精度の向上の観点から不適当になるということである。第2の問題の理解のため分離行列Wに応じた異なるコスト関数J1(W)およびJ2(W)のそれぞれの変化態様を概念的に示す図10(b)を参照する。コスト関数J1(W)は、その微分値J’(W)が分離行列Wに対して敏感に変化するので収束精度の向上の観点から更新量が過多となる可能性がある。その一方、コスト関数J2(W)は、その微分値J’(W)が分離行列Wに対して敏感に変化するとはいえないので収束速度の向上の観点から更新量が過少となる可能性がある。 The second problem is that since the update amount ΔW is proportional to the differential value J ′ (W) of the cost function J (W), the update amount ΔW becomes inappropriate from the viewpoint of improving the convergence speed and convergence accuracy. . In order to understand the second problem, reference is made to FIG. 10B, which conceptually shows each change mode of different cost functions J 1 (W) and J 2 (W) according to the separation matrix W. Since the differential value J ′ (W) of the cost function J 1 (W) changes sensitively with respect to the separation matrix W, the update amount may be excessive from the viewpoint of improving the convergence accuracy. On the other hand, the cost function J 2 (W) cannot be said to have a small update amount from the viewpoint of improving the convergence speed because the differential value J ′ (W) does not change sensitively with respect to the separation matrix W. There is.

そこで、本発明は、収束速度および収束精度の向上を図りながら音源信号を高精度で分離することができるシステムを提供することを解決課題とする。   Accordingly, an object of the present invention is to provide a system capable of separating sound source signals with high accuracy while improving convergence speed and convergence accuracy.

第1発明の音源分離システムは、複数のマイクロホンを備え、前記複数のマイクロホンのそれぞれからの入力信号に基づいて複数の音源信号を分離する音源分離システムであって、前記入力信号および前記音源信号の相関関係を表わす分離行列により定義され、かつ、前記音源信号の分離度を評価するためのコスト関数を認識する第1処理要素と、前記第1処理要素により認識された前記コスト関数の次回値が今回値よりも最小値に近づくように今回の前記分離行列を更新することによって次回の前記分離行列を決定する処理を繰り返すことにより、前記コスト関数が最小値となるときの前記分離行列を最適分離行列として認識するとともに、前記分離行列の今回値から次回値への更新量を、前記コスト関数の今回値が大きいほど多くなる一方、前記コスト関数の今回勾配が急であるほど少なくなるように調節する第2処理要素とを備えていることを特徴とする。   A sound source separation system according to a first aspect of the present invention is a sound source separation system that includes a plurality of microphones and separates a plurality of sound source signals based on input signals from each of the plurality of microphones. A first processing element defined by a separation matrix representing a correlation and recognizing a cost function for evaluating the separation degree of the sound source signal, and a next value of the cost function recognized by the first processing element are By repeating the process of determining the next separation matrix by updating the current separation matrix so that it approaches the minimum value rather than the current value, the separation matrix when the cost function becomes the minimum value is optimally separated. The amount of update from the current value of the separation matrix to the next value increases as the current value of the cost function increases. , Characterized in that a second processing element to adjust to the current gradient of the cost function becomes smaller as a steep.

第1発明の音源分離システムによれば、コスト関数の次回値(今回分離行列における値)が今回値(前回分離行列における値)よりも最小値に近づくように今回の分離行列が次回の分離行列に更新される処理が繰り返される。分離行列の更新量はコスト関数の今回値が大きいほど多くなり、かつ、コスト関数の今回勾配が急なほど少なくなるように調節される。このため、コスト関数の今回値が収束不十分であり、かつ、コスト関数の今回勾配が緩やかな「第1の状態」では収束速度の向上の観点から分離行列の更新量が適当に多くなるように調節される。また、コスト関数の今回値が収束不十分であり、かつ、コスト関数の今回勾配が急な「第2の状態」では、第1の状態と同様に収束速度の向上の観点から分離行列の更新量が適当に多くなるように調節される一方、収束精度の向上の観点から第1の状態よりも分離行列の更新量が少なくなるように調節される。さらに、コスト関数の今回値が収束十分であり、かつ、コスト関数の今回勾配が急な「第3の状態」では収束精度の向上の観点から分離行列の更新量が適当に少なくなるように調節される。また、コスト関数の今回値が収束十分であり、かつ、コスト関数の今回勾配が緩やかな「第4の状態」では、第3の状態と同様に収束精度の向上の観点から分離行列の更新量が適当に少なくなるように調節される一方、収束速度の向上の観点から第3の状態よりも分離行列の更新量が多くなるように調節される。そして、前記処理の繰り返しによって最適分離行列(コスト関数が最小値となるような分離行列)が認識される。したがって、複数のマイクロホンのそれぞれからの入力信号と最適分離行列とに基づき、収束速度および収束精度の向上を図りながら音源信号が高精度で分離されうる。   According to the sound source separation system of the first invention, the next separation matrix is the next separation matrix so that the next value of the cost function (value in the current separation matrix) is closer to the minimum value than the current value (value in the previous separation matrix). The process updated to is repeated. The update amount of the separation matrix is adjusted so as to increase as the current value of the cost function increases and to decrease as the current gradient of the cost function increases. For this reason, when the current value of the cost function is insufficiently converged and the current function slope of the cost function is gentle, the update amount of the separation matrix is appropriately increased from the viewpoint of improving the convergence speed. Adjusted to. Also, in the “second state” where the current value of the cost function is insufficiently converged and the current function gradient is steep, the separation matrix is updated from the viewpoint of improving the convergence speed as in the first state. While the amount is adjusted to be appropriately increased, the amount of update of the separation matrix is adjusted to be smaller than that in the first state from the viewpoint of improving the convergence accuracy. Furthermore, in the “third state” where the current value of the cost function is sufficient to converge and the current function function has a steep slope, the adjustment amount of the separation matrix is adjusted to be appropriately reduced from the viewpoint of improving convergence accuracy. Is done. In addition, in the “fourth state” where the current value of the cost function is sufficiently converged and the current function slope of the cost function is gentle, the update amount of the separation matrix is improved from the viewpoint of improving the convergence accuracy as in the third state. Is adjusted to be appropriately reduced, while from the viewpoint of improving the convergence speed, the update amount of the separation matrix is adjusted to be larger than that in the third state. Then, an optimum separation matrix (a separation matrix having a minimum cost function) is recognized by repeating the process. Therefore, the sound source signal can be separated with high accuracy while improving the convergence speed and convergence accuracy based on the input signal from each of the plurality of microphones and the optimum separation matrix.

なお、音源分離システムの構成要素が情報を「認識する」とは、記憶装置から情報を読み出すこと、データベースから情報を検索すること、情報を受信すること、基礎情報に基づいて情報を算定、推定、設定または決定すること、算定した情報を記憶装置に保存すること等、この情報を必要とする演算処理のために情報を準備するためのあらゆる情報処理を実行することを意味する。   Note that the components of the sound source separation system “recognize” information means reading information from a storage device, retrieving information from a database, receiving information, and calculating and estimating information based on basic information. , Setting or determining, saving the calculated information in a storage device, and the like, performing any information processing for preparing information for arithmetic processing that requires this information.

第2発明の音源分離システムは、第1発明の音源分離システムにおいて、前記第2処理要素が多次元のニュートン法にしたがって前記分離行列の更新量を調節することを特徴とする。   A sound source separation system according to a second aspect is characterized in that, in the sound source separation system according to the first aspect, the second processing element adjusts an update amount of the separation matrix according to a multidimensional Newton method.

第2発明の音源分離システムによれば、ニュートン法にしたがって分離行列の更新量はコスト関数の今回値が大きいほど多くなり、かつ、コスト関数の今回勾配が急なほど少なくなるように調節される。したがって、複数のマイクロホンのそれぞれからの入力信号と最適分離行列とに基づき、収束速度および収束精度の向上を図りながら音源信号が高精度で分離されうる。   According to the sound source separation system of the second invention, according to the Newton method, the update amount of the separation matrix is adjusted to increase as the current value of the cost function increases and to decrease as the current gradient of the cost function increases. . Therefore, the sound source signal can be separated with high accuracy while improving the convergence speed and convergence accuracy based on the input signal from each of the plurality of microphones and the optimum separation matrix.

本発明の音源分離システムの実施形態について図面を用いて説明する。   An embodiment of a sound source separation system of the present invention will be described with reference to the drawings.

図1に示されている音源分離システムは複数のマイクロホンMi(i=1,2,‥,n)と、電子制御ユニット(CPU,ROM,RAM,I/O回路、A/D変換回路等の電子回路などにより構成されている。)10とにより構成されている。 The sound source separation system shown in FIG. 1 includes a plurality of microphones M i (i = 1, 2,..., N), an electronic control unit (CPU, ROM, RAM, I / O circuit, A / D conversion circuit, etc.) 10) and 10).

電子制御ユニット10は複数のマイクロホンMiのそれぞれからの入力信号に基づいて複数の音源信号を分離する。電子制御ユニット10は第1処理要素11および第2処理要素12を備えている。第1処理要素11および第2処理要素12は同一のCPUにより構成されていてもよく、異なるCPUのそれぞれにより構成されていてもよい。第1処理要素11は各マイクロホンMiからの入力信号および音源信号の相関関係を表わす分離行列Wにより定義され、かつ、音源信号の分離度を評価するためのコスト関数J(W)を認識する。第2処理要素12は第1処理要素11により認識されたコスト関数の次回値J(Wk+1)が今回値J(Wk)よりも最小値J(W0)に近づくように今回の分離行列Wkを更新することにより次回の分離行列Wk+1を決定する処理を実行する。第2処理要素12はこの処理を繰り返して実行することにより、コスト関数が最小値となるときの分離行列を最適分離行列W0として認識する。第2処理要素12は今回分離行列Wkから次回分離行列Wk+1への更新量ΔWkを、コスト関数の今回値J(Wk)の大小および今回勾配∂J(Wk)/∂Wの緩急に応じて調節する。 The electronic control unit 10 separates the plurality of sound source signals based on input signals from the plurality of microphones M i. The electronic control unit 10 includes a first processing element 11 and a second processing element 12. The first processing element 11 and the second processing element 12 may be constituted by the same CPU, or may be constituted by different CPUs. The first processing element 11 is defined by a separation matrix W representing the correlation between the input signal from each microphone M i and the sound source signal, and recognizes a cost function J (W) for evaluating the degree of separation of the sound source signal. . The second processing element 12 causes the current value J (W k + 1 ) of the cost function recognized by the first processing element 11 to be closer to the minimum value J (W 0 ) than the current value J (W k ). executing a process of determining the next separation matrix W k + 1 by updating the separation matrix W k. The second processing element 12 recognizes the separation matrix when the cost function becomes the minimum value as the optimum separation matrix W 0 by repeatedly executing this process. The second processing element 12 update amount [Delta] W k from this separation matrix W k to the next separation matrix W k + 1, the magnitude of the current value J (W k) of the cost function and the current gradient ∂J (W k) / ∂ Adjust according to the speed of W.

マイクロホンMiはたとえば図2に示されているように電子制御ユニット10が搭載されているロボットRの頭部P1の左右両側に4つずつ配置されている。マイクロホンM1〜M4のそれぞれは頭部P1の右側の前上部、後上部、前下部および後下部のそれぞれに配置されている。マイクロホンM5〜M8のそれぞれは頭部P1の左側の前上部、後上部、前下部および後下部のそれぞれに配置されている。なお、音源分離システムはロボットRのほか、車両(四輪自動車)、複数の音源が存在する環境に接する任意の機械や装置に搭載されうる。また、マイクロホンMiの数および配置は任意に変更されうる。ロボットRは脚式移動ロボットであり、人間と同様に基体P0と、基体P0の上方に配置された頭部P1と、基体P0の上部に上部両側から延設された左右の腕体P2と、左右の腕体P2のそれぞれの先端に連結されている手部P3と、基体P0の下部から下方に延設された左右の脚体P4と、左右の脚体P4のそれぞれに連結されている足部P5とを備えている。基体P0はヨー軸回りに相対的に回動しうるように上下に連結された上部および下部により構成されている。頭部P1は基体P0に対してヨー軸回りに回動する等、動くことができる。腕体P2は肩関節機構、肘関節機構および手根関節機構のそれぞれにおいて1〜3軸回りの回動自由度を有している、手部P3は、手掌部から延設され、人間の手の親指、人差指、中指、薬指および小指のそれぞれに相当する5つの指機構を備え、物体の把持動作等が可能に構成されている。脚体P4は股関節機構、膝関節機構および足関節機構のそれぞれにおいて1〜3軸回りの回動自由度を有している。ロボットRは音源分離結果に基づき、左右の脚体P4を動かして移動する等、適当な動作をすることができる。 Microphones M i are arranged one by 4 on the left and right sides of the head P1 of the robot R, for example the electronic control unit 10 as shown in Figure 2 are mounted. Each of the microphones M 1 to M 4 is disposed at the front upper part, the rear upper part, the front lower part, and the rear lower part on the right side of the head P1. Each of the microphones M 5 ~M 8 are provided at a front upper portion, a rear upper portion, a front lower part, and a rear lower portion of the left side of the head P1. In addition to the robot R, the sound source separation system can be mounted on a vehicle (four-wheeled vehicle) or any machine or device that contacts an environment where a plurality of sound sources exist. The number and arrangement of microphones M i may be arbitrarily changed. The robot R is a legged mobile robot, like a human being, a base P0, a head P1 disposed above the base P0, and left and right arm bodies P2 extending from both upper sides of the base P0, Hands P3 connected to the respective distal ends of the left and right arm bodies P2, left and right legs P4 extending downward from the lower portion of the base P0, and legs connected to the left and right legs P4 Part P5. The base P0 is composed of an upper part and a lower part that are connected vertically so as to be relatively rotatable about the yaw axis. The head P1 can move, such as rotating around the yaw axis with respect to the base P0. The arm body P2 has a degree of freedom of rotation about 1 to 3 axes in each of the shoulder joint mechanism, the elbow joint mechanism, and the carpal joint mechanism. The hand part P3 extends from the palm part and is a human hand. 5 finger mechanisms corresponding to the thumb, forefinger, middle finger, ring finger, and little finger, respectively, are configured to be capable of gripping an object. The leg P4 has a degree of freedom of rotation about 1 to 3 axes in each of the hip joint mechanism, the knee joint mechanism, and the ankle joint mechanism. Based on the sound source separation result, the robot R can perform an appropriate operation such as moving the left and right legs P4.

前記構成の音源分離システムの機能について説明する。電子制御ユニット10により分離行列Wの更新回数を表わす指数kが「1」に設定され(図3/S001)、各マイクロホンMiからの入力信号が取得される(図3/S002)。第1処理要素11により各音源信号の分離度を評価するためのコスト関数J(W)が定義または認識される(図3/S004(式(4)(5)参照))。第2処理要素12により分離行列Wの更新回数を表わす指数kが「1」に設定され(図3/S006)、適応調整法(AS(Adaptive Step−size))によって分離行列の今回更新量Wkが調節される(図3/S008)。具体的には、コスト関数の今回値J(Wk)の近くのコスト関数J(W)が複素勾配演算法にしたがって式(16)で表わされるように線形近似される。 The function of the sound source separation system having the above configuration will be described. Electrons by the control unit 10 index k representing the number of updates of the separating matrix W is set to "1" (FIG. 3 / S001), the input signals from the microphones M i is obtained (FIG. 3 / S002). The first processing element 11 defines or recognizes a cost function J (W) for evaluating the degree of separation of each sound source signal (see FIG. 3 / S004 (see equations (4) and (5)). The index k representing the number of updates of the separation matrix W is set to “1” by the second processing element 12 (FIG. 3 / S006), and the current update amount W of the separation matrix by the adaptive adjustment method (AS (Adaptive Step-size)). k is adjusted (FIG. 3 / S008). Specifically, the cost function J (W) near the current value J (W k ) of the cost function is linearly approximated as expressed by the equation (16) according to the complex gradient calculation method.

J(W)≒J(Wk)+2MA[∂J(Wk)/∂W,W−Wk],
MA[A,B]≡Re[Σijijij] ‥(16)
J (W) ≒ J (W k) + 2MA [∂J (W k) / ∂W, W-W k],
MA [A, B] ≡Re [Σ ij a ij b ij ] (16)

図4に概念的に示されているように分離行列Wに応じてコスト関数J(W)が変化する場合、コスト関数の今回値J(Wk)を通り、コスト関数J(W)の今回勾配∂J(Wk)/∂Wだけ傾いた線形関数(一点鎖線、二点鎖線、三点鎖線参照)としてコスト関数J(W)が近似される。 As conceptually shown in FIG. 4, when the cost function J (W) changes according to the separation matrix W, the current value J (W k ) of the cost function passes through the current value of the cost function J (W). The cost function J (W) is approximated as a linear function tilted by the gradient ∂J (W k ) / ∂W (see the one-dot chain line, two-dot chain line, and three-dot chain line).

また、多次元のニュートン法にしたがって最適な今回ステップサイズパラメータμKが、近似コスト関数J(W)が0(=コスト関数の最小値J(W0))となるように、関係式W=Wk−μJ’(Wk)に基づいて算出される。最適な今回ステップサイズパラメータμkは式(17)で表わされる。そして、分離行列Wの今回更新量ΔWkがμkJ’(Wk)に決定される。 Further, according to the multi-dimensional Newton method, the current step size parameter μ K has a relational expression W = so that the approximate cost function J (W) becomes 0 (= minimum value J (W 0 ) of the cost function). It is calculated based on W k −μJ ′ (W k ). The optimum current step size parameter μ k is expressed by equation (17). Then, the current update amount ΔW k of the separation matrix W is determined to be μ k J ′ (W k ).

μk=J(Wk)/2MA[∂J(Wk)/∂W,J’(Wk)] ‥(17) μ k = J (W k ) / 2 MA [∂J (W k ) / ∂W, J ′ (W k )] (17)

さらに、第2処理要素12により今回の分離行列Wkが今回更新量ΔWkだけ調節されることにより次回の分離行列Wk+1(=Wk−ΔWk)が決定される(図3/S010)。これにより、図4に矢印で示されているようにコスト関数の値J(Wk)が徐々に最小値J(W0)(=0)に近づくように分離行列Wkが逐次更新される。 Further, the second separation element W k + 1 (= W k −ΔW k ) is determined by adjusting the current separation matrix W k by the current update amount ΔW k by the second processing element 12 (FIG. 3 / S010). As a result, the separation matrix W k is sequentially updated so that the value J (W k ) of the cost function gradually approaches the minimum value J (W 0 ) (= 0) as indicated by arrows in FIG. .

なお、次に説明するように適応調整法はさまざまなBSSに適用されうる。
1.適応ステップサイズDSS(DSS−AS)
本手法をDSSに適用したアルゴリズムは式(101)〜(105)により定義される。
As will be described below, the adaptive adjustment method can be applied to various BSSs.
1. Adaptive step size DSS (DSS-AS)
An algorithm obtained by applying this method to DSS is defined by equations (101) to (105).

y=Wkx ‥(101),
E=yyH−Diag[yyH] ‥(102),
J’=2EWkxxH‥(103),
μ=‖E‖2/2‖J’‖2 ‥(104),
k+1=Wk−μJ’‥(105)
y = W k x (101),
E = yy H −Diag [yy H ] (102),
J ′ = 2EW k xx H (103),
μ = ‖E‖ 2 / 2‖J'‖ 2 (104),
W k + 1 = W k −μJ ′ (105)

2.適応ステップサイズICA(ICA−AS)
本手法をICAに適用したアルゴリズムは式(201)〜(208)により定義される。
2. Adaptive step size ICA (ICA-AS)
An algorithm in which this method is applied to ICA is defined by equations (201) to (208).

y=Wkx ‥(201),
E=φ(y)yH−Diag[φ(y)yH] ‥(202),
ICA’=EWk ‥(203),
J’=[Eφ~(y)xH* ‥(204),
φ~(y)=[φ~(y1),φ~(y2),‥,φ~(yN)]T‥(205)
φ~(yi)=φ(yi)+yi(∂φ(yi)/∂yi) ‥(206)
μ=‖E‖2/2MA[J’,JICA’] ‥(207),
k+1=Wk−μJ’‥(208)
y = W k x (201),
E = φ (y) y H −Diag [φ (y) y H ] (202),
J ICA '= EW k (203),
J ′ = [Eφ˜ (y) x H ] * (204),
φ ~ (y) = [φ ~ (y 1 ), φ ~ (y 2 ),..., φ ~ (y N )] T (205)
φ ~ (y i ) = φ (y i ) + y i (∂φ (y i ) / ∂y i ) (206)
μ = ‖E‖ 2 / 2MA [J ', J ICA '] (207),
W k + 1 = W k −μJ ′ (208)

3.適応ステップサイズ高次DSS(HDSS−AS)
本手法を高次DSSに適用したアルゴリズムは式(301)〜(305)により定義される。
3. Adaptive step size higher order DSS (HDSS-AS)
An algorithm in which this method is applied to higher-order DSS is defined by equations (301) to (305).

y=Wkx ‥(301),
E=φ(y)yH−Diag[φ(y)yH] ‥(302),
J’=[Eφ~(y)xH* ‥(303),
μ=‖E‖2/2‖J’‖2 ‥(304),
k+1=Wk−μJ’‥(306)
y = W k x (301),
E = φ (y) y H −Diag [φ (y) y H ] (302),
J ′ = [Eφ˜ (y) x H ] * (303),
μ = ‖E‖ 2 / 2‖J'‖ 2 (304),
W k + 1 = W k −μJ ′ (306)

4.適応ステップサイズGSS(GSS−AS)
本手法をGSSに適用したアルゴリズムは式(401)〜(408)により定義される。
4). Adaptive step size GSS (GSS-AS)
An algorithm in which this method is applied to GSS is defined by equations (401) to (408).

y=Wkx ‥(401),
ss=yyH−Diag[yyH] ‥(402),
ss’=2EsstxxH ‥(403),
μss=‖Ess2/2‖Jss’‖2 ‥(404),
LC=WD−I ‥(405),
LC’=ELCH ‥(406),
μLC=‖ELC2/2‖JLC’‖2 ‥(407),
k+1=Wk−μLCLC’−μssss’ ‥(408)
y = W k x (401),
E ss = yy H −Diag [yy H ] (402),
J ss ' = 2E ss W t xx H (403),
μ ss = ‖E ss2 / 2‖J ss'2 ‥ (404),
E LC = WD-I (405),
J LC '= E LC DH (406),
μ LC = ‖E LC2 / 2‖J LC '‖ 2 ‥ (407),
W k + 1 = W k −μ LC J LC '−μ ss J ss ' (408)

5.適応ステップサイズGICA(GICA−AS)
本手法をGICAに適用したアルゴリズムは式(501)〜(509)により定義される。
5). Adaptive step size GICA (GICA-AS)
An algorithm in which this method is applied to GICA is defined by equations (501) to (509).

y=Wkx ‥(501),
ICA=φ(y)yH−Diag[φ(y)yH] ‥(502),
ICA’=EICAt ‥(503),
J’=[EICAφ~(y)xH* ‥(504),
μICA=‖EICA2/2MA‖J’,JICA’‖2 ‥(505),
LC=WD−I ‥(506),
LC’=ELCH ‥(507),
μLC=‖ELC2/2‖JLC’‖2 ‥(508),
k+1=Wk−μLCLC’−μICAICA’ ‥(509)
y = W k x (501),
E ICA = φ (y) y H −Diag [φ (y) y H ] (502),
J ICA '= E ICA W t (503),
J ′ = [E ICA φ ~ (y) x H ] * (504),
μ ICA = ‖E ICA2 / 2MA‖J ', J ICA'2 ‥ (505),
E LC = WD-I (506),
J LC '= E LC DH (507),
μ LC = ‖E LC || 2 / 2‖J LC '‖ 2 ‥ (508),
W k + 1 = W k −μ LC J LC '−μ ICA J ICA ' (509)

6.適応ステップサイズGHDSS(GHDSS−AS)
本手法をGHDSSに適用したアルゴリズムは、GSS−ASを定義する式(401)〜(408)のうち式(402)で表わされるコスト関数Essを、GICA−ASを定義する式(502)で表わされるコスト関数EICAに置き換えることにより定義される。
6). Adaptive step size GHDSS (GHDSS-AS)
Algorithm according to the present technique GHDSS is a cost function E ss represented by among expression of Expression (401) - (408) defining a GSS-AS (402), by the formula (502) which defines the GICA-AS It is defined by substituting the expressed cost function E ICA .

次回の分離行列Wk+1が最適分離行列W0に一致しているか否か次回の分離行列Wk+1と最適分離行列W0との偏差のノルム(フロベニウスノルム)が許容値eps未満であるか否かが判定され(図3/S012)、当該判定結果が否定的である場合(図3/S012‥NO)、第2処理要素12により指数kが「1」だけ増やされ(図3/S014)、前記のように各マイクロホンからの入力信号取得、コスト関数J(W)評価、更新量ΔWkの調節および次回の分離行列Wk+1等の処理が再び実行される(図3/S002,S004,S008,S010,S012参照)。一方、当該判定結果が肯定的な場合(図3/S012‥YES)、当該次回の分離行列Wが最適分離行列W0として決定される(図3/S016)。そして、最適適応行列W0および入力信号xに基づき、音源信号y(=W0・x)が分離される。 In the next separation matrix W k + 1 is optimized whether the separation matrix W 0 to match or next separation matrix W k + 1 and the deviation of the norm of the optimal separation matrix W 0 (Frobenius norm) is less than the allowable value eps If the determination result is negative (FIG. 3 / S012... NO), the second processing element 12 increases the index k by “1” (FIG. 3 / S012). / S014), the input signal acquisition from each microphone, the cost function J (W) evaluation, the adjustment of the update amount ΔW k , the next separation matrix W k + 1 and the like are executed again as described above (FIG. 3). / S002, S004, S008, S010, S012). On the other hand, if the determination result is affirmative (Fig. 3 / S012 ‥ YES), the next separation matrix W is determined as an optimal separation matrix W 0 (Fig. 3 / S016). Then, the sound source signal y (= W 0 · x) is separated based on the optimum adaptive matrix W 0 and the input signal x.

前記機能を発揮する音源分離システムによれば、コスト関数の次回値J(Wk+1)が今回値J(Wk)よりも最小値に近づくように今回の分離行列Wkが次回の分離行列Wk+1に更新される処理が繰り返される(図3/S008,S010,S012,S014,図4矢印参照)。分離行列Wの更新量ΔWkはコスト関数の今回値J(Wk)が大きいほど多くなり、かつ、コスト関数の今回勾配∂J(Wk)/∂Wが急なほど少なくなるように調節される(図4参照)。このため、コスト関数の今回値J(Wk)が収束不十分であり、かつ、コスト関数の今回勾配∂J(Wk)/∂Wが緩やかな「第1の状態」では収束速度の向上の観点から分離行列の更新量ΔWkが適当に多くなるように調節される。また、コスト関数の今回値J(Wk)が収束不十分であり、かつ、コスト関数の今回勾配∂J(Wk)/∂Wが急な「第2の状態」では、第1の状態と同様に収束速度の向上の観点から分離行列の更新量ΔWkが適当に多くなるように調節される一方、収束精度の向上の観点から第1の状態よりも分離行列の更新量ΔWkが少なくなるように調節される。さらに、コスト関数の今回値Wkが収束十分であり、かつ、コスト関数の今回勾配∂J(Wk)/∂Wが急な「第3の状態」では収束精度の向上の観点から分離行列の更新量ΔWkが適当に少なくなるように調節される。また、コスト関数の今回値J(Wk)が収束十分であり、かつ、コスト関数の今回勾配∂J(Wk)/∂Wが緩やかな「第4の状態」では、第3の状態と同様に収束精度の向上の観点から分離行列の更新量ΔWkが適当に少なくなるように調節される一方、収束速度の向上の観点から第3の状態よりも分離行列の更新量ΔWkが多くなるように調節される。そして、前記処理の繰り返しによって最適分離行列(コスト関数が最小値となるような分離行列)W0が認識される。したがって、複数のマイクロホンMi(図1、図2参照)のそれぞれからの入力信号xと最適分離行列W0とに基づき、収束速度および収束精度の向上を図りながら音源信号y(=W0・x)が高精度で分離されうる。 According to the sound source separation system that performs the above function, the current separation matrix W k is separated next time so that the next value J (W k + 1 ) of the cost function is closer to the minimum value than the current value J (W k ). The process of updating to the matrix W k + 1 is repeated (see arrows in FIG. 3 / S008, S010, S012, S014, and FIG. 4). The update amount ΔW k of the separation matrix W is adjusted so as to increase as the current value J (W k ) of the cost function increases, and to decrease as the current slope ∂J (W k ) / ∂W of the cost function decreases. (See FIG. 4). Therefore, in the “first state” where the current value J (W k ) of the cost function is insufficiently converged and the current gradient ∂J (W k ) / ∂W of the cost function is moderate, the convergence speed is improved. From this point of view, the update amount ΔW k of the separation matrix is adjusted to be appropriately increased. Further, in the “second state” where the current value J (W k ) of the cost function is insufficiently converged and the current gradient ∂J (W k ) / ∂W of the cost function is steep, the first state In the same manner as described above, the update amount ΔW k of the separation matrix is adjusted to be appropriately increased from the viewpoint of improving the convergence speed, while the update amount ΔW k of the separation matrix is smaller than that of the first state from the viewpoint of improving the convergence accuracy. Adjusted to be less. Further, in the “third state” in which the current value W k of the cost function is sufficiently converged and the current gradient ∂J (W k ) / ∂W of the cost function is steep, a separation matrix from the viewpoint of improving the convergence accuracy. The update amount ΔW k is adjusted to be appropriately reduced. Further, in the “fourth state” where the current value J (W k ) of the cost function is sufficiently converged and the current gradient ∂J (W k ) / の W of the cost function is moderate, Similarly, the update amount ΔW k of the separation matrix is adjusted to be appropriately reduced from the viewpoint of improving the convergence accuracy, while the update amount ΔW k of the separation matrix is larger than that of the third state from the viewpoint of improving the convergence speed. Adjusted to be. Then, the optimum separation matrix (separation matrix having a minimum cost function) W 0 is recognized by repeating the above process. Therefore, based on the input signal x from each of the plurality of microphones M i (see FIGS. 1 and 2) and the optimum separation matrix W 0 , the sound source signal y (= W 0. x) can be separated with high precision.

音源分離システムの性能実験結果について説明する。マイクロホンMiへの入力信号xi(t)は、第j音源からマイクロホンMiまでのインパルス応答hji(t)と、第j音源の音源信号sj(t)と、マイクロホンMiの背景雑音ni(t)とに基づいて式(18)で表わされるように合成された。 The performance experiment result of the sound source separation system will be described. Input signal x i to the microphone M i (t) is the impulse response h ji from the j sound source to the microphone M i (t), a j-th sound source of the sound source signal s j (t), background of the microphone M i Based on the noise n i (t), it was synthesized as represented by equation (18).

i(t)=Σjji(t)sj(t)+ni(t) ‥(18) x i (t) = Σ j h ji (t) s j (t) + n i (t) (18)

実験に際して音源信号sj(t)としてクリーンな2つの音声が用いられた。具体的には図5(a)に示されている第1音源信号としての男声と、図5(b)に示されている第2音源信号としての女声とが用いられた。インパルス応答hji(t)としては実験室における実測値が採用された。実験室の大きさは縦4.0[m]、横7.0[m]、高さ3.0[m]であり、残響時間は約0.2[s]である。実験室の壁の一面はガラスであり、強い反射が発生する。背景雑音ni(t)としては同じく実験室における図5(c)に示されている実測値が採用された。図5(d)には合成入力信号xi(t)が示されている。図6に各信号の周波数特性が示されている。背景雑音は音源より−10〜−20dB程度低いレベルとなっている。分離結果は分離結果の信号yと、信号yに含まれるノイズ信号n#と、対象音源のみが存在する場合の入力信号に対する分離結果の信号s#とに基づき、式(19)にしたがって算出されるSNRに基づいて評価された。SNRが高いほど音源が高精度で分離されていることを意味している。 In the experiment, two clean sounds were used as the sound source signal s j (t). Specifically, the male voice as the first sound source signal shown in FIG. 5A and the female voice as the second sound source signal shown in FIG. 5B were used. As the impulse response h ji (t), a measured value in a laboratory was adopted. The size of the laboratory is 4.0 [m] in length, 7.0 [m] in width, 3.0 [m] in height, and the reverberation time is about 0.2 [s]. One side of the laboratory wall is glass, and strong reflection occurs. As the background noise n i (t), the measured value shown in FIG. FIG. 5D shows the combined input signal x i (t). FIG. 6 shows the frequency characteristics of each signal. The background noise is at a level lower by about −10 to −20 dB than the sound source. The separation result is calculated according to the equation (19) based on the separation result signal y, the noise signal n # included in the signal y, and the separation result signal s # with respect to the input signal when only the target sound source exists. Was evaluated based on the SNR. A higher SNR means that the sound source is separated with higher accuracy.

SNR[dB]
=10Log10[(1/T)Σt=1-T|y(t)|2/|n#(t)|2],
#≡y−s# ‥(19)
SNR [dB]
= 10 Log 10 [(1 / T) Σt = 1−T | y (t) | 2 / | n # (t) | 2 ],
n # ≡y−s # (19)

分離結果はさらに時間周波数領域で式(20)にしたがって算出される平均相関係数CCに基づいて評価された。平均相関係数CCが低いほど音源が高精度で分離されていることを意味している。   The separation results were further evaluated based on the average correlation coefficient CC calculated according to equation (20) in the time frequency domain. A lower average correlation coefficient CC means that the sound source is separated with higher accuracy.

CC[dB]
=10Log10[(1/F)Σf=1-FCCω(2πf)],
CCω(ω)≡|Σt=1-T1*(t)・y2(t)|/(Y1(ω)Y2(ω)),
1(ω)≡(Σt=1-T|y1(ω,t)|21/2
2(ω)≡(Σt=1-T|y2(ω,t)|21/2 ‥(20)
CC [dB]
= 10 Log 10 [(1 / F) Σf = 1−F CCω (2πf)],
CCω (ω) ≡ | Σt = 1−T y 1 * (t) · y 2 (t) | / (Y 1 (ω) Y 2 (ω)),
Y 1 (ω) ≡ (Σt = 1−T | y 1 (ω, t) | 2 ) 1/2 ,
Y 2 (ω) ≡ (Σt = 1−T | y 2 (ω, t) | 2 ) 1/2 (20)

分離行列Wは直接音成分の伝達関数を要素とする伝達関数行列Dを用いて式(21)にしたがって初期化された。   The separation matrix W was initialized according to the equation (21) using the transfer function matrix D having the direct sound component transfer function as an element.

DS=Diag[DHD]-1H ‥(21) W DS = Diag [D H D] −1 D H (21)

なお、分離行列Wは式(21)に代えて式(22)または式(23)にしたがって初期化されてもよい。   The separation matrix W may be initialized according to the equation (22) or the equation (23) instead of the equation (21).

I=I ‥(22)
NULL=D+(=[DHD]-1H) ‥(23)
W I = I (22)
W NULL = D + (= [D H D] −1 D H ) (23)

DSは最小ノルム重み付き遅延和BFの係数を初期値として使うことを意味しており、WNULLは死角型BFの係数を初期値として使うことを意味している。WNULLはWDS初期の分離度が高いが変動に対するロバスト性が低いため、残響が強い場合や幾何情報の誤差が大きい場合、WDSのほうが高性能な初期値が与えられる。 W DS means that the coefficient of the minimum norm weighted delay sum BF is used as the initial value, and W NULL means that the coefficient of the blind spot type BF is used as the initial value. Since W NULL has a high degree of separation at the initial stage of W DS but is less robust against fluctuations, W DS provides a higher-performance initial value when reverberation is strong or when there is a large error in geometric information.

幾何制約のない手法に関しては分離行列の各行ベクトルの大きさを正規化することでスケーリング問題が解決されている。また、パーミュテーション問題は初期値により解決されるものとみなして付加的処理は省略された。従来の幾何制約付きのBSSで必要な正規化係数λはGSSおよびGHDSSにおいては前記文献12にしたがって「‖xHx‖-2」とし、GICAにおいては自然勾配により正規化されているため「1」とした。また、DSS以外の手法で利用される非線形関数φ(yi)はスケーリングパラメータη(本実験では「1」とした。)に基づき、式(24)により定義された。 For the method without geometric constraints, the scaling problem is solved by normalizing the size of each row vector of the separation matrix. Further, the permutation problem was regarded as being solved by the initial value, and additional processing was omitted. The normalization coefficient λ required for the conventional BSS with geometric constraints is “‖x H x‖- 2 ” according to the above-mentioned reference 12 in GSS and GHDSS, and is normalized by a natural gradient in GICA. " In addition, the nonlinear function φ (y i ) used in a method other than DSS is defined by the equation (24) based on the scaling parameter η (“1” in this experiment).

φ(yi)≡tanh(η|yi|)exp(jθ(yi)) ‥(24) φ (y i ) ≡tanh (η | y i |) exp (jθ (y i )) (24)

DSS,ICA,HDSS,GSS,GICAおよびGHDSSのそれぞれのBSSにおいて、ステップサイズパラメータμが「0.001」「0.01」および「0.1」に固定されている場合と、本発明の適応調整法(AS)が適用された場合とのそれぞれにおいて分離された音源信号のSNRを図7に示し、当該音源信号のCCを図8に示す。また、GSS−ASにしたがって分離された波形を図9に示す。図7から明らかなようにDSSにおいてASによりSNRが著しく改善された。ICAおよびHDSSについても平均的SNRが改善された。従来法では相関係数CCが−3dB程度であるのに対して、ASによればすべてのBSSにおいて−7dB以上と顕著に低い。これからASは無相関化において有効な手法であることがわかる。なお、GSSおよびHDSSのSNRがASにより顕著に改善されない原因は幾何制約の誤差であると推察される。   In the DSS, ICA, HDSS, GSS, GICA, and GHDSS BSS, the step size parameter μ is fixed to “0.001”, “0.01”, and “0.1”, and the application of the present invention FIG. 7 shows the SNR of the sound source signal separated when the adjustment method (AS) is applied, and FIG. 8 shows the CC of the sound source signal. Moreover, the waveform separated according to GSS-AS is shown in FIG. As is clear from FIG. 7, the SNR was significantly improved by the AS in the DSS. The average SNR was also improved for ICA and HDSS. In the conventional method, the correlation coefficient CC is about −3 dB, but according to AS, it is remarkably low at −7 dB or more in all BSSs. From this, it can be seen that AS is an effective method for decorrelation. Note that the reason why the SNR of GSS and HDSS is not significantly improved by AS is presumed to be an error of geometric constraints.

なお、多次元のニュートン法に代えて、ステップサイズパラメータμ、さらには、分離行列の今回値Wkから次回値Wk+1への更新量ΔWkが、コスト関数の今回値J(Wk)が大きいほど多くなる一方、コスト関数の今回勾配∂J(Wk)/∂Wが急であるほど少なくなるように流動的に調節されるあらゆる手法が採用されてもよい。 Instead of the multi-dimensional Newton method, the step size parameter μ and the update amount ΔW k from the current value W k of the separation matrix to the next value W k + 1 are the current value J (W k of the cost function). ) Increases as the value increases, while any method may be employed in which the current gradient コ ス ト J (W k ) / ∂W of the cost function is fluidly adjusted to decrease as the value increases.

本発明の音源分離システムの構成説明図Configuration explanatory diagram of the sound source separation system of the present invention 本発明の音源分離システムのロボットへの搭載例示図Example of mounting the sound source separation system of the present invention on a robot 本発明の音源分離システムの機能を示すフローチャートThe flowchart which shows the function of the sound source separation system of this invention コスト関数に応じた収束速度および収束精度の向上に関する説明図Explanatory drawing on improvement of convergence speed and convergence accuracy according to cost function (a)第1音源信号(男声)の波形説明図 (b)第2音源信号(女声)の波形説明図 (c)背景雑音の波形説明図 (d)合成入力信号の波形説明図(A) Waveform explanatory diagram of first sound source signal (male voice) (b) Waveform explanatory diagram of second sound source signal (female voice) (c) Waveform explanatory diagram of background noise (d) Waveform explanatory diagram of synthesized input signal 各信号の周波数特性図Frequency characteristics of each signal 音源分離実験結果としての各手法によるSNRの比較説明図Comparison explanatory diagram of SNR by each method as a sound source separation experiment result 音源分離実験結果としての各手法によるCCの比較説明図Comparison explanation diagram of CC by each method as a sound source separation experiment result GSS−ASにしたがって分離された音源信号の波形説明図Waveform explanatory diagram of a sound source signal separated according to GSS-AS コスト関数に応じた収束速度および収束精度の問題に関する説明図Explanatory diagram on the problem of convergence speed and convergence accuracy according to the cost function

符号の説明Explanation of symbols

10‥電子制御ユニット、11‥第1処理要素、12‥第2処理要素、Mi‥マイクロホン 10 ‥ electronic control unit, 11 ‥ first processing element, 12 ‥ second processing element, M i ‥ microphone

Claims (1)

複数のマイクロホンを備え、前記複数のマイクロホンのそれぞれからの入力信号に基づいて複数の音源信号を分離する音源分離システムであって、
前記入力信号および前記音源信号の相関関係を表わす分離行列により定義され、かつ、前記音源信号の分離度を評価するためのコスト関数を認識する第1処理要素と、
前記第1処理要素により認識された前記コスト関数の次回値が今回値よりも最小値に近づくように今回の前記分離行列を更新することによって次回の前記分離行列を決定する処理を繰り返すことにより、前記コスト関数が最小値となるときの前記分離行列を最適分離行列として認識するとともに、前記分離行列の今回値から次回値への更新量を、前記コスト関数の今回値が大きいほど多くなる一方、前記コスト関数の今回勾配が急であるほど少なくなるように調節する第2処理要素とを備えていることを特徴とする音源分離システム。
A sound source separation system that includes a plurality of microphones and separates a plurality of sound source signals based on input signals from each of the plurality of microphones,
A first processing element defined by a separation matrix representing a correlation between the input signal and the sound source signal and recognizing a cost function for evaluating the separation degree of the sound source signal;
By repeating the process of determining the next separation matrix by updating the current separation matrix so that the next value of the cost function recognized by the first processing element is closer to the minimum value than the current value, While recognizing the separation matrix when the cost function becomes the minimum value as an optimal separation matrix, the amount of update from the current value of the separation matrix to the next value increases as the current value of the cost function increases, A sound source separation system, comprising: a second processing element that adjusts the cost function so that the current gradient of the cost function is steeper.
JP2008133175A 2007-06-08 2008-05-21 Sound source separation system Active JP4444345B2 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US12/133,691 US8131542B2 (en) 2007-06-08 2008-06-05 Sound source separation system which converges a separation matrix using a dynamic update amount based on a cost function
EP08251991A EP2012307B1 (en) 2007-06-08 2008-06-09 Sound source separation system
DE602008000475T DE602008000475D1 (en) 2007-06-08 2008-06-09 Sound source separation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US94279907P 2007-06-08 2007-06-08

Publications (2)

Publication Number Publication Date
JP2008306712A JP2008306712A (en) 2008-12-18
JP4444345B2 true JP4444345B2 (en) 2010-03-31

Family

ID=40234971

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008133175A Active JP4444345B2 (en) 2007-06-08 2008-05-21 Sound source separation system

Country Status (2)

Country Link
JP (1) JP4444345B2 (en)
DE (1) DE602008000475D1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8867755B2 (en) 2010-08-17 2014-10-21 Honda Motor Co., Ltd. Sound source separation apparatus and sound source separation method
US11370444B2 (en) 2019-03-28 2022-06-28 Honda Motor Co., Ltd. Vehicle control device, terminal device and vehicle control system

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5550456B2 (en) * 2009-06-04 2014-07-16 本田技研工業株式会社 Reverberation suppression apparatus and reverberation suppression method
CN111435598B (en) * 2019-01-15 2023-08-18 北京地平线机器人技术研发有限公司 Voice signal processing method, device, computer readable medium and electronic equipment
JP7420153B2 (en) * 2020-02-13 2024-01-23 日本電信電話株式会社 Sound source separation device, sound source separation method, and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8867755B2 (en) 2010-08-17 2014-10-21 Honda Motor Co., Ltd. Sound source separation apparatus and sound source separation method
US11370444B2 (en) 2019-03-28 2022-06-28 Honda Motor Co., Ltd. Vehicle control device, terminal device and vehicle control system

Also Published As

Publication number Publication date
DE602008000475D1 (en) 2010-02-11
JP2008306712A (en) 2008-12-18

Similar Documents

Publication Publication Date Title
US8131542B2 (en) Sound source separation system which converges a separation matrix using a dynamic update amount based on a cost function
US9668066B1 (en) Blind source separation systems
US8898056B2 (en) System and method for generating a separated signal by reordering frequency components
Tan et al. Nonlinear blind source separation using higher order statistics and a genetic algorithm
KR101197407B1 (en) Apparatus and method for separating audio signals
JP4444345B2 (en) Sound source separation system
US11894010B2 (en) Signal processing apparatus, signal processing method, and program
JP4406428B2 (en) Signal separation device, signal separation method, signal separation program, and recording medium
JP6005443B2 (en) Signal processing apparatus, method and program
JP5702685B2 (en) Sound source direction estimating apparatus and sound source direction estimating method
WO2017094862A1 (en) Spatial correlation matrix estimation device, spatial correlation matrix estimation method, and spatial correlation matrix estimation program
JPH08106295A (en) Method and device for recognizing pattern
US7987090B2 (en) Sound-source separation system
JP2004536330A5 (en)
JP2011215317A (en) Signal processing device, signal processing method and program
WO2019113253A1 (en) Voice enhancement in audio signals through modified generalized eigenvalue beamformer
JP7131424B2 (en) Signal processing device, learning device, signal processing method, learning method and program
Nakajima et al. Adaptive step-size parameter control for real-world blind source separation
JP6538624B2 (en) Signal processing apparatus, signal processing method and signal processing program
JP6448567B2 (en) Acoustic signal analyzing apparatus, acoustic signal analyzing method, and program
JP4738284B2 (en) Blind signal extraction device, method thereof, program thereof, and recording medium recording the program
JP5178370B2 (en) Sound source separation system
Nakajima et al. Correlation matrix estimation by an optimally controlled recursive average method and its application to blind source separation
JP5224950B2 (en) Signal processing device
Mallis et al. Convolutive audio source separation using robust ICA and an intelligent evolving permutation ambiguity solution

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091028

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20091028

TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20091216

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091222

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100113

R150 Certificate of patent or registration of utility model

Ref document number: 4444345

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140122

Year of fee payment: 4