JP3355598B2 - Sound source separation method, apparatus and recording medium - Google Patents

Sound source separation method, apparatus and recording medium

Info

Publication number
JP3355598B2
JP3355598B2 JP25231297A JP25231297A JP3355598B2 JP 3355598 B2 JP3355598 B2 JP 3355598B2 JP 25231297 A JP25231297 A JP 25231297A JP 25231297 A JP25231297 A JP 25231297A JP 3355598 B2 JP3355598 B2 JP 3355598B2
Authority
JP
Japan
Prior art keywords
sound source
band
signal
channel
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP25231297A
Other languages
Japanese (ja)
Other versions
JPH10313497A (en
Inventor
真理子 青木
茂明 青木
弘行 松井
豊 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP25231297A priority Critical patent/JP3355598B2/en
Publication of JPH10313497A publication Critical patent/JPH10313497A/en
Application granted granted Critical
Publication of JP3355598B2 publication Critical patent/JP3355598B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Stereophonic System (AREA)

Abstract

PROBLEM TO BE SOLVED: To separate sound accurately into respective components and to attain real time processing. SOLUTION: A difference &Delta;&tau; in time required for a sound signal to travel from a sound source to microphones 1, 2 is detected from output channel signals L, R of the microphones 1, 2, where the signals L, R are divided into frequency bands L(f1 )-L(fn ), R(f1 )-R(fn ) by Fourier transform, and an arrival time difference &Delta;&tau;i (i=1, 2,...n) to the microphones 1, 2 of a corresponding frequency band of the L(f1 )-L(fn ), R(f1 )-R(fn ) and a signal level difference &Delta;Li are detected. Then L(f1 )-L(fn ), R(f1 )-R(fn ) are divided into low frequencies f1 <1/(2&Delta;&tau;), medium frequencies 1/(2&Delta;&tau;)<f1 <1/&Delta;&tau;, and high frequencies fi >1/&Delta;&tau;, and it is determined from which sound source the L(fi ), R(fi ) arrive, based on &Delta;&tau;i , in the case of low frequencies, on &Delta;Li , &Delta;&tau;i in the case of medium frequencies, and on &Delta;Li in the case of high frequencies, and the result is outputted for each sound source and the output is subject to inverse Fourier transform by each sound source and the results are synthesized.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は音声信号源や各種
環境音源などの複数の音源から発せられた複数の音響信
号が混ざった信号から少なくとも1つの音源の信号を分
離抽出する方法、その方法に用いた音源分離装置、およ
びその方法をコンピュータにより実行するためのプログ
ラを記録した記録媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for separating and extracting at least one sound source signal from a mixed signal of a plurality of sound signals emitted from a plurality of sound sources such as an audio signal source and various environmental sound sources. The present invention relates to a sound source separation device used and a recording medium storing a program for executing the method by a computer.

【0002】この種の音源分離装置は、例えばテレビ会
議における収音装置、騒音環境下で発声した音声信号の
伝送のための収音装置、音源の種類を識別する装置の収
音装置など各種のものに適用される。従来の音源分離技
術は、周波数領域において各信号の基本周波数を推定
し、調波構造を抜き出すことにより、同一音源からの成
分を集めて合成する方法が用いられてきた。
[0002] This type of sound source separation device includes various types of sound collection devices such as a sound collection device for a video conference, a sound collection device for transmitting a voice signal uttered in a noisy environment, and a sound collection device for identifying the type of a sound source. Applied to things. In the conventional sound source separation technology, a method of estimating a fundamental frequency of each signal in a frequency domain, extracting a harmonic structure, and collecting and synthesizing components from the same sound source has been used.

【0003】しかしこの方法では、(1)分離可能な信
号が、音声の母音や楽音のような調波構造を持つものに
限定されるという問題があった、(2)基本周波数の推
定は一般に長い処理時間を必要とするため、実時間で音
源を分離することは困難であった、(3)調波構造の推
定誤りなどにより、抽出された信号に他の音源の周波数
成分が混じり、それが雑音として知覚されるため分離精
度が不十分であった。
However, this method has a problem that (1) a separable signal is limited to a signal having a harmonic structure such as a vowel or a musical tone of a voice, and (2) estimation of a fundamental frequency is generally performed. Since a long processing time was required, it was difficult to separate the sound source in real time. (3) Due to an error in the estimation of the harmonic structure, the frequency components of other sound sources were mixed in the extracted signal. Was perceived as noise, and the separation accuracy was insufficient.

【0004】[0004]

【発明の解決しようとする課題】この発明の目的は調波
構造を持たない音源の音響信号でも分離抽出することと
し、つまり音源の種類に依存することなく音源分離を可
能とし、かつ実時間での音源分離を可能とする方法、装
置、及びプログラム記録媒体を提供することにある。
SUMMARY OF THE INVENTION An object of the present invention is to separate and extract even the sound signal of a sound source having no harmonic structure, that is, to enable sound source separation without depending on the type of the sound source, and in real time. It is an object of the present invention to provide a method, an apparatus, and a program recording medium which enable sound source separation.

【0005】この発明の他の目的は分離精度が高く、雑
音の混入が少ない音源分離方法、装置及びプログラム記
録媒体を提供することにある。
Another object of the present invention is to provide a sound source separation method, apparatus, and program recording medium having high separation accuracy and low noise contamination.

【0006】[0006]

【課題を解決するための手段】この発明の音源分離方法
は互いに離して設けられた複数のマイクロホンを用い、
上記各マイクロホンの各出力チャネル信号を、帯域分割
過程で複数の周波数帯域に分割し、その各帯域には主と
して1つの音源信号成分のみ存在するようにし、これら
分割された各出力チャネル信号の各同一帯域ごとに、上
記複数のマイクロホンの位置に起因して変化する、マイ
クロホンに到達する音響信号のパラメータ、つまりレベ
ル(パワー)、到達時間の値の差を、帯域別チャネル間
パラメータ値差として検出し、上記各帯域の帯域別チャ
ネル間パラメータ値差にもとづき、その帯域の上記帯域
分割された各出力チャネル信号の何れがいずれの音源か
ら入力された信号であるかを音源信号判定過程で判定
し、この音源信号判定過程の判定にもとづき、上記帯域
分割された各出力チャネル信号から、同一音源から入力
された信号を少なくとも1つ、音源信号選択過程で選択
し、その音源信号選択過程で同一音源からの信号として
選択された、複数の帯域信号を音源信号として音源合成
過程で合成する。
A sound source separation method according to the present invention uses a plurality of microphones provided at a distance from each other.
Each output channel signal of each of the microphones is divided into a plurality of frequency bands in a band division process, and each band mainly includes only one sound source signal component. For each band, a parameter of an acoustic signal reaching the microphone, that is, a difference between values of a level (power) and an arrival time, which changes due to the positions of the plurality of microphones, is detected as a band-based inter-channel parameter value difference. Based on the parameter value difference between channels for each band of each band, to determine which of the sound source signal is input from which sound source of each of the band-divided output channel signals of the band, Based on the determination in the sound source signal determination process, the signals input from the same sound source are reduced from the band-divided output channel signals. Also one selected by the sound source signal selection process, selected by the sound source signal selection process as the signal from the same sound source, synthesized by the sound source synthesis process a plurality of band signals as a sound source signal.

【0007】この発明の音源分離方法の実施例によれ
ば、上記帯域分割過程で分割された各出力チャネル信号
の帯域別レベルをそれぞれ検出し、これらが検出された
各帯域別レベルを同一帯域についてチャネル間で比較し
た結果にもとづき発音をしていない音源を検出し、その
発音をしていない音源の検出信号により、上記音源合成
過程で合成された音源信号のうち、上記発音していない
音源と対応する合成信号を抑圧する。
According to the embodiment of the sound source separation method of the present invention, the band level of each output channel signal divided in the band dividing process is detected, and the detected band level is determined for the same band. A sound source that is not sounding is detected based on the result of the comparison between the channels, and a sound signal that is not sounding is detected by the detection signal of the sound source that is not sounding. Suppress the corresponding composite signal.

【0008】この発明の音源分離方法の他の実施例によ
ると、上記帯域分離過程で分割された各出力チャネル信
号のそのマイクロホンへの到達時間差を同一帯域ごとに
検出し、これら検出された各帯域別到達時間差を、同一
帯域についてチャネル間で比較した結果にもとづき発音
をしていない音源を検出し、その発音をしていない音源
の検出信号により、上記音源合成過程で合成された音源
信号のうち、上記発音していない音源と対応する合成信
号を抑圧する。
According to another embodiment of the sound source separation method of the present invention, the arrival time difference of each output channel signal divided in the band separation process to the microphone is detected for each same band, and each detected band is detected. A different arrival time difference is detected based on the result of comparison between channels for the same band, and a sound source that is not sounding is detected. , And suppresses a synthesized signal corresponding to the sound source that is not sounding.

【0009】[0009]

【発明の実施の形態】図1にこの発明の実施例を示す。
マイクロホン1,2が間隔、例えば20cm程度をあけ
て配され、これらマイクロホン1,2はそれぞれ音源
A,Bからの音響信号を収集して電気信号に変換する。
マイクロホン1の出力をLチャネル信号と、マイクロホ
ン2の出力をRチャネル信号と称する。Lチャネル信号
とRチャネル信号はチャネル間時間差/レベル差検出部
3と、帯域分割部4へ供給され、帯域分割部4ではそれ
ぞれ複数の周波数帯域信号に分割されて帯域別チャネル
間時間差/レベル差検出部5と音源判定信号選別部6へ
供給される。検出部3,5の各検出出力に応じて選別部
6において各帯域ごとに何れかのチャネル信号がA成分
又はB成分として選別され、これら選択された帯域ごと
のA成分信号、B成分信号はそれぞれ音源信号合成部7
A,7Bでそれぞれ合成されて、音源A信号と音源B信
号とに分離出力される。音源Aがマイクロホン2よりマ
イクロホン1に近いと、音源Aよりマイクロホン1に到
達する信号SA1は音源Aよりマイクロホン2に到達す
る信号SA2より早く到達し、かつレベルが大きい、ま
た音源Bがマイクロホン1よりマイクロホン2に近い
と、音源Bからマイクロホン1,2にそれぞれ到達する
信号SB1,SB2は後者が早くマイクロホン2に到達
し、レベルも大きい。このようにこの発明では、音源の
マイクロホン1,2に対する位置に起因する両マイクロ
ホン1,2に到達する音響信号の変化量、この例では両
信号の到達時間差とレベル差を利用する。
FIG. 1 shows an embodiment of the present invention.
Microphones 1 and 2 are arranged at intervals, for example, about 20 cm, and these microphones 1 and 2 collect acoustic signals from sound sources A and B, respectively, and convert them into electric signals.
The output of the microphone 1 is called an L channel signal, and the output of the microphone 2 is called an R channel signal. The L-channel signal and the R-channel signal are supplied to an inter-channel time difference / level difference detection unit 3 and a band division unit 4, where they are divided into a plurality of frequency band signals, and the band-by-band time difference / level difference between bands. The signal is supplied to the detection unit 5 and the sound source determination signal selection unit 6. According to each detection output of the detection units 3 and 5, any one of the channel signals is selected as an A component or a B component for each band in the selection unit 6, and the A component signal and the B component signal for each of the selected bands are Sound source signal synthesizer 7
A and 7B respectively synthesize and separate and output a sound source A signal and a sound source B signal. When the sound source A is closer to the microphone 1 than the microphone 2, the signal SA1 that reaches the microphone 1 from the sound source A arrives earlier than the signal SA2 that reaches the microphone 2 from the sound source A, and has a higher level. When the signal SB1 is closer to the microphone 2, the signals SB1 and SB2 reaching the microphones 1 and 2 from the sound source B, respectively, reach the microphone 2 earlier and have a higher level. As described above, in the present invention, the amount of change in the sound signal reaching the microphones 1 and 2 due to the position of the sound source with respect to the microphones 1 and 2 is used.

【0010】図1に示した装置は以下に示すように動作
する。図2に示すように、マイクロホン1,2に2つの
音源A,Bからの信号が取り込まれる(S01)。チャ
ネル間時間差/レベル差検出部3は、Lチャネル信号と
Rチャネル信号からチャネル間時間差またはレベル差を
検出する。時間差の検出に用いるパラメータとしては、
Lチャネル信号とRチャネル信号との相互相関関数を用
いた場合で説明する。図3に示すようにまず、Lチャネ
ル信号とRチャネル信号との各サンプルL(t),R
(t)を読み込み(S02)、これらサンプル間の相互
相関関数を算出する(S03)。この算出は両チャネル
信号が同一サンプル時点についての相互相関を求め、ま
た一方のチャネル信号に対し他方のチャネル信号をサン
プル時点を1つだけずらした場合、2つだけずらした場
合・・・の各場合の相互相関をそれぞれ求めて相互相関
関数を求める。これら相互相関を多数求め、これらをパ
ワーで正規化したヒストグラムを作成する(S04)。
次に、ヒストグラムの累積度数順位第一位、第二位をそ
れぞれとる時点差Δα 1 ,Δα2 を求める(S05)。
これらの時点差Δα1 ,Δα2 を、次式によりそれぞれ
チャネル間時間差Δτ1 ,Δτ2 に変換して出力する
(S06)。
The device shown in FIG. 1 operates as follows.
I do. As shown in FIG. 2, two microphones 1 and 2
Signals from sound sources A and B are captured (S01). Cha
The inter-nel time difference / level difference detection unit 3 detects the L channel signal and
Time difference or level difference between channels from R channel signal
To detect. The parameters used to detect the time difference are
Using the cross-correlation function between the L channel signal and the R channel signal
Will be described. First, as shown in FIG.
Samples L (t) and R of the R signal and the R channel signal.
(T) is read (S02), and the mutual
A correlation function is calculated (S03). This calculation is for both channels
If the signals are cross-correlated for the same sample time,
One channel signal to the other channel signal
If the pull time is shifted by one,
The cross-correlation in each case of
Find a function. A large number of these cross-correlations are determined and these are
In step S04, a histogram normalized by a word is created.
Next, the first and second places of the histogram are listed.
Each time difference Δα 1, ΔαTwoIs obtained (S05).
These time differences Δα1, ΔαTwoAre given by
Time difference between channels Δτ1, ΔτTwoConvert to and output
(S06).

【0011】 Δτ1 =1000×Δα1 /F (1) Δτ2 =1000×Δα2 /F (2) ただしFはサンプリング周波数であり、1000倍にす
るのは演算の便宜上値をある程度大きくするためであ
る。時間差Δτ1 ,Δτ2 は、音源A,Bそれぞれの信
号のLチャネル信号とRチャネル信号のチャネル間時間
差である。
Δτ 1 = 1000 × Δα 1 / F (1) Δτ 2 = 1000 × Δα 2 / F (2) Here, F is a sampling frequency, and the factor of 1000 is used to increase the value to some extent for the convenience of calculation. It is. The time differences Δτ 1 and Δτ 2 are the time differences between the channels of the L channel signal and the R channel signal of the signals of the sound sources A and B, respectively.

【0012】図1、2の説明に戻って帯域分割部4はL
チャネル信号とRチャネル信号をそれぞれ各周波数帯域
の信号L(f1),L(f2),…,(fn)と、信号
R(f1),R(f2),…,(fn)に分割する(S
04)。この分割は例えば各チャネル信号をそれぞれ離
散的フーリエ変換して周波数領域信号に変換した後、各
周波数帯域に分割することにより行う。この帯域分割
は、音源A,Bの各信号の周波数特性の差から各帯域に
おいて、一方の音源の信号成分のみが主として存在する
程度、音声信号の場合は、例えば20Hz帯域幅で分割
する。音源Aのパワースペクトルが例えば図4Aに示す
ように得られ、音源Bのパワースペクトルが図4Bに示
すように得られ、この各スペクトルが分離できる程度の
帯域幅Δfで分割する。この時、例えば破線で対応する
スペクトルを示すように、一方の音源のスペクトルに対
し他方の音源のスペクトルは無視できる。またこの図4
A、4Bから理解されるように帯域幅2Δfで分離して
もよい。つまり、各帯域に1本のスペクトルのみが含ま
れるようにしなくてもよい。なお、離散的フーリエ変換
は例えば20〜40msごとに行う。
Returning to the description of FIGS.
The channel signal and the R channel signal are divided into signals L (f1), L (f2),..., (Fn) and signals R (f1), R (f2),. S
04). This division is performed, for example, by discretely Fourier-transforming each channel signal into a frequency-domain signal, and then dividing it into frequency bands. In this band division, in the case of an audio signal, for example, a 20 Hz bandwidth is used so that only the signal component of one of the sound sources mainly exists in each band from the difference in the frequency characteristics of the signals of the sound sources A and B. The power spectrum of the sound source A is obtained, for example, as shown in FIG. 4A, and the power spectrum of the sound source B is obtained as shown in FIG. 4B, and each spectrum is divided by a bandwidth Δf that can be separated. At this time, the spectrum of one sound source can be neglected with respect to the spectrum of the other sound source, for example, as shown by the corresponding spectrum with a broken line. FIG. 4
A and 4B, it may be separated by a bandwidth 2Δf. That is, it is not necessary to include only one spectrum in each band. The discrete Fourier transform is performed, for example, every 20 to 40 ms.

【0013】次に、帯域別チャネル間時間差/レベル差
検出部5は、例えばL(f1)とR(f1),…L(f
n)とR(fn)といった各対応する帯域信号のチャネ
ル間について、帯域別チャネル間時間差またはレベル差
を検出する(S05)。ここで、帯域別チャネル間時間
差は、チャネル間時間差検出部3で検出したチャネル間
時間差Δτ1 ,Δτ2 を利用することにより一意的に検
出される。この検出に用いる式は以下のとおりである。
Next, for example, L (f1), R (f1),... L (f)
A time difference or a level difference between channels for each band is detected between the channels of the corresponding band signals such as n) and R (fn) (S05). Here, the inter-channel time difference for each band is uniquely detected by using the inter-channel time differences Δτ 1 and Δτ 2 detected by the inter-channel time difference detection unit 3. The equation used for this detection is as follows.

【0014】 Δτ1 −{(Δφi/(2πfi)+(ki1/fi)}=εi 1 (3) Δτ2 −{(Δφi/(2πfi)+(ki2/fi)}=εi 2 (4) i=1,2,…,n、Δφiは信号L(fi)と信号R
(fi)の位相差である。これら式でεi 1,εi 2が
最小になるように整数ki1,ki2を決める。次に、
その最小値のεi 1とεi 2とを比べて小さい方のチャ
ネル時間差Δτ j (j=1,2)を、その帯域iのチャ
ネル間時間差Δτijとする。つまり一方の音源信号のそ
の帯域でのチャネル間時間差とする。
Δτ1− {(Δφi / (2πfi) + (ki1 / fi)} = εi1 (3) ΔτTwo− {(Δφi / (2πfi) + (ki2 / fi)} = εi2 (4) i = 1, 2,..., N, Δφi are the signal L (fi) and the signal R
(Fi) is the phase difference. In these equations, εi1, εi2
The integers ki1 and ki2 are determined so as to be minimum. next,
Its minimum εi1 and εiCha that is smaller than 2
Flannel time difference Δτ j(J = 1, 2) is replaced by the channel i
Time difference between tunnels ΔτijAnd That is, one of the sound source signals
Is the time difference between channels in the band.

【0015】音源判定信号選別部6は、帯域別チャネル
間時間差/レベル差検出部5で検出された帯域別チャネ
ル間時間差Δτ1j〜τnjを用いて各帯域信号L(f1)
〜L(fn)とR(f1)〜R(fn)との各対応する
ものについて何れを選択するか判定を音源信号判定部6
01で行う(S06)。例えば、チャネル間時間差/レ
ベル差検出部3で算出された時間差Δτ1 ,Δτ2 のう
ち、Δτ1 が、L側のマイクロホンに近い、音源Aから
の信号のチャネル間時間差であり、Δτ2 が、R側のマ
イクロホンに近い、音源Bからの信号のチャネル間時間
差である場合で説明する。
The sound source determination signal selecting section 6 uses the band-to-channel time differences Δτ 1j to τ nj detected by the band-to-channel time difference / level difference detecting section 5 to generate each band signal L (f1).
To L (fn) and R (f1) to R (fn) to determine which one to select, the sound source signal determination unit 6
01 (S06). For example, of the time differences Δτ 1 and Δτ 2 calculated by the inter-channel time difference / level difference detection unit 3, Δτ 1 is the inter-channel time difference of the signal from the sound source A close to the L-side microphone, and Δτ 2 is , And the time difference between channels of the signal from the sound source B, which is close to the R-side microphone.

【0016】この場合、帯域別チャネル間時間差/レベ
ル差検出部5で算出された時間差ΔτijがΔτ1 である
帯域iは、音源信号判定部601によりゲート602L
iが開とされてL側の入力信号L(fi)がそのままS
A(fi)として出力され、R側の帯域iの入力信号R
(fi)は音源信号判定部601によりゲート602R
が閉とされてSB(fi)は0として出力される。時間
差ΔτijがΔτ2 となる帯域iは、逆に、L側は信号L
(fi)はSA(fi)=0として出力され、R側は入
力信号R(fi)がそのままSB(fi)として出力さ
れる。つまり図1に示すように帯域信号L(f1)〜L
(fn)はそれぞれゲート602L1〜602Lnを通
じて音源信号合成部7Aへ供給され、帯域信号R(f
1)〜R(fn)はそれぞれゲート602R1〜602
Rnを通じて音源信号合成部7へ供給される。音源判定
信号選別部6内の音源信号判定部601ではΔτ1j〜Δ
τnjが入力され、ΔτijがΔτ1 と判定された帯域iに
ついてはゲート制御信号CLi=1とCRi=0が生成
され、対応するゲート602Liが開、602Riが閉
にそれぞれ制御され、ΔτijがΔτ2 と判定された帯域
iについてはゲート制御信号CLi=0と、CRi=1
が生成され、対応するゲート602Liが閉、602R
iが開にそれぞれ制御される。以上の説明は機能構成で
あって、実際には例えばデジタルシグナルプロセッサに
より処理される。
In this case, the band i in which the time difference Δτ ij calculated by the band-by-band channel time difference / level difference detection unit 5 is Δτ 1 is determined by the sound source signal judgment unit 601 by the gate 602L.
i is opened and the input signal L (fi) on the L side remains at S
A (fi), and the input signal R of the band i on the R side
(Fi) indicates that the sound source signal determination unit 601 uses the gate 602R.
Is closed, and SB (fi) is output as 0. The band i in which the time difference Δτ ij becomes Δτ 2 is, on the contrary, the signal L
(Fi) is output as SA (fi) = 0, and on the R side, the input signal R (fi) is output as it is as SB (fi). That is, as shown in FIG. 1, the band signals L (f1) to L (f1) to L
(Fn) are supplied to the sound source signal synthesis unit 7A through the gates 602L1 to 602Ln, respectively, and the band signal R (f
1) to R (fn) are gates 602R1 to 602, respectively.
The signal is supplied to the sound source signal synthesis unit 7 through Rn. In the sound source signal determination unit 601 in the sound source determination signal selection unit 6, Δτ 1j to Δ
For the band i for which τ nj is input and Δτ ij is determined to be Δτ 1 , gate control signals CLi = 1 and CRi = 0 are generated, and the corresponding gate 602Li is controlled to be open and 602Ri is controlled to be closed, and Δτ ij is controlled. Is determined to be Δτ 2 , the gate control signal CLi = 0 and CRi = 1
Is generated and the corresponding gate 602Li is closed, 602R
i is respectively controlled to be open. The above description is a functional configuration, and is actually processed by, for example, a digital signal processor.

【0017】音源信号合成部7Aで信号SA(fi)〜
SA(fn)が合成され、前記帯域分割の例ではそれぞ
れ逆フーリエ変換され、信号SAとして出力端子tA
出力され、また音源信号合成部7Bで信号SB(fi)
〜SB(fn)が同様に合成されて信号SBとして出力
端子tB に出力される。以上の説明で明らかなように、
この発明装置においては、各チャネル信号の細かく帯域
分割した、各帯域成分がそれぞれどの音源からのもので
あるかを判定し、判定された成分は全て出力する、すな
わち、音源A,Bの信号の周波数成分が互いに重なって
いなければ、特定の周波数帯域を欠落させることなく処
理を行うため、調波構造のみ抜き出す従来の方法に比べ
て音質を高く保ったまま音源A,Bの各信号を分離する
ことが可能である。
The signals SA (fi) to
SA (fn) are combined, the band in the example of the division is the inverse Fourier transform respectively, is output to the output terminal t A as a signal SA, and the signal SB by the sound source signal synthesizer 7B (fi)
To SB (fn) is output to the output terminal t B as similarly synthesized by the signal SB. As is clear from the above explanation,
In the device of the present invention, it is determined from which sound source each band component is obtained by finely dividing the band of each channel signal, and all the determined components are output, that is, the signals of the sound sources A and B are output. If the frequency components do not overlap each other, processing is performed without dropping a specific frequency band, so that the signals of the sound sources A and B are separated while maintaining high sound quality as compared with the conventional method of extracting only the harmonic structure. It is possible.

【0018】以上の説明は、チャネル間時間差/レベル
差検出部3及び帯域別チャネル間時間差/レベル差検出
部5で検出した、チャネル間時間差と、帯域別チャネル
間時間差のみを利用して、音源判定信号部601で判定
条件を決定した。次にこの判定条件の決定をチャネル間
のレベル差を用いて処理する実施例を説明する。この実
施例は図5に示すようにマイクロホン1,2からLチャ
ネル信号とRチャネル信号を取込み(S02)、これら
Lチャネル信号とRチャネル信号のチャネル間レベル差
ΔLをチャネル間時間差/レベル差検出部3(図1)で
検出する(S03)。図2中のステップS04と同様
に、Lチャネル信号、Rチャネル信号をそれぞれn個の
帯域別チャネル信号L(f1)〜L(fn),R(f
1)〜R(fn)に分割し(S04)、帯域別チャネル
信号L(f1)〜L(fn)とR(f1)〜R(fn)
との対応帯域、つまりL(f1)とR(f1),L(f
2)とR(f2),…,L(fn)とR(fn)につい
て帯域別チャネル間レベル差ΔL1,ΔL2,…,ΔL
nを検出する(S05)。
In the above description, the sound source is generated by using only the inter-channel time difference and the inter-channel time difference detected by the inter-channel time difference / level difference detecting unit 3 and the inter-channel time difference / level difference detecting unit 5. The determination condition is determined by the determination signal unit 601. Next, an embodiment in which the determination of the determination condition is processed using the level difference between the channels will be described. In this embodiment, as shown in FIG. 5, an L channel signal and an R channel signal are fetched from the microphones 1 and 2 (S02), and a level difference ΔL between the L channel signal and the R channel signal is detected as a time difference / level difference between channels. The detection is performed by the unit 3 (FIG. 1) (S03). As in step S04 in FIG. 2, the L channel signal and the R channel signal are respectively converted into n band-specific channel signals L (f1) to L (fn), R (f).
1) to R (fn) (S04), and band-specific channel signals L (f1) to L (fn) and R (f1) to R (fn).
, That is, L (f1) and R (f1), L (f
2) and R (f2),..., L (fn) and R (fn), the level difference between channels ΔL1, ΔL2,.
n is detected (S05).

【0019】人間の音声は、20ms〜40ms程度の
間は定常状態とみなすことが出来る。そのため、音源信
号判定部601(図1)においては、20ms〜40m
s毎に、チャネル間レベル差ΔLの対数を取った値の符
号と、帯域別チャネル間レベル差ΔLiの対数を取った
値の符号とが、全帯域のうち何割以上の帯域で、同じ符
号(+又は−)になるのかを算出し、所定値、例えば8
割以上の帯域で両者が同じ符号を持てば(S06,S0
7)、そこから20ms〜40msの間はチャネル間レ
ベル差ΔLのみで判定し(S08)、同じ符号を持つの
が8割以下の帯域であれば、そこから20ms〜40m
sの間は帯域毎に、帯域別チャネル間レベル差ΔLiを
用いて判定する(S09)。判定の仕方は、全帯域をチ
ャネル間レベル差ΔLで判定する場合は、ΔLが正であ
れば、Lチャネル信号L(t)がそのまま信号SAとし
て出力され、Rチャネル信号R(t)は信号SB=0と
して出力される。ΔLが0以下であれば逆に、Lチャネ
ル信号L(t)は信号SA=0として出力され、Rチャ
ネル信号R(t)がそのまま信号SBとして出力され
る。ただし、これは、チャネル間レベル差としてL側か
らR側を引いた値を用いた場合の説明である。また、帯
域別チャネル間レベル差ΔLiを用いて帯域毎に判定す
る場合は、各帯域fiごとに帯域別チャネル間レベル差
ΔLiが正であれば、L側分割信号L(fi)がそのま
ま信号SA(fi)として出力され、R側分割信号R
(fi)は信号SB(fi)=0として出力される。レ
ベル差ΔLiが0以下であれば逆に、L側は分割信号L
(fi)は信号SA(fi)=0として出力され、R側
は分割信号R(fi)が信号SB(fi)として出力さ
れる。以上のようにして音源信号判定部601からゲー
ト制御信号CL1〜CLn,CR1〜CRnが出力さ
れ、ゲート602L1〜602Ln,602R1〜60
2Rnがそれぞれ制御される。これも、前者と同様、帯
域別チャネル間レベル差として、L側からR側を引いた
値を用いた場合の説明である。信号SA(f1)〜SA
(fn)、信号SB(f1)〜SB(fn)は先の実施
例と同様にそれぞれ合成された信号SA,SBとして出
力端子tA ,tB にそれぞれ出力される(S10)。
A human voice can be regarded as a steady state for about 20 ms to 40 ms. Therefore, in the sound source signal determination unit 601 (FIG. 1), 20 ms to 40 m
For each s, the sign of the value obtained by taking the logarithm of the inter-channel level difference ΔL and the sign of the value obtained by taking the logarithm of the inter-channel level difference ΔLi are the same sign in more than a few percent of the entire band. (+ Or-) is calculated, and a predetermined value, for example, 8
If both have the same code in a band equal to or more than a certain percentage (S06, S0
7) From 20 ms to 40 ms therefrom, judgment is made only by the inter-channel level difference ΔL (S08), and if the band having the same code is 80% or less, 20 ms to 40 m from there.
During s, determination is made for each band using the band-by-band level difference ΔLi (S09). When the entire band is determined by the level difference ΔL between channels, if ΔL is positive, the L channel signal L (t) is output as it is as the signal SA, and the R channel signal R (t) is It is output as SB = 0. On the contrary, if ΔL is 0 or less, the L channel signal L (t) is output as the signal SA = 0, and the R channel signal R (t) is output as the signal SB as it is. However, this is an explanation in the case where a value obtained by subtracting the R side from the L side is used as the level difference between channels. In addition, in the case where the determination is made for each band using the band-based inter-channel level difference ΔLi, if the band-based inter-channel level difference ΔLi is positive for each band fi, the L-side divided signal L (fi) is directly used as the signal SA. (Fi) and the R-side divided signal R
(Fi) is output as the signal SB (fi) = 0. Conversely, if the level difference ΔLi is 0 or less, the L side
(Fi) is output as a signal SA (fi) = 0, and on the R side, a divided signal R (fi) is output as a signal SB (fi). The gate control signals CL1 to CLn and CR1 to CRn are output from the sound source signal determination unit 601 as described above, and the gates 602L1 to 602Ln and 602R1 to 602Rn are output.
2Rn are respectively controlled. This is also a case where a value obtained by subtracting the R side from the L side is used as the level difference between channels for each band, as in the former case. Signals SA (f1) to SA
(Fn), the signal SB (f1) ~SB (fn) signals are respectively similar to the previous embodiments the synthetic SA, an output terminal t A as SB, are output to t B (S10).

【0020】前記実施例では、音源信号判定部601で
用いる判定条件として、到達時間差とレベル差のうちど
ちらかの片方のみを利用する。しかし、レベル差のみを
利用した場合、低域の周波数帯域ではL(fi)とR
(fi)とのレベルが拮抗する場合があり、その場合は
レベル差を正確に求めることが困難になる。また、時間
差のみを利用した場合は、高い周波数帯域においては、
位相の回転が起こるため時間差を正しく算出することが
困難な場合がある。これらの点から、低域の周波数帯域
では時間差を、高域ではレベル差を判定に用いた方が、
全帯域に渡り単一のパラメータを用いるよりも有利であ
る場合がある。
In the above embodiment, only one of the arrival time difference and the level difference is used as a judgment condition used in the sound source signal judgment unit 601. However, if only the level difference is used, L (fi) and R
In some cases, the level with (fi) may antagonize, in which case it is difficult to accurately determine the level difference. Also, when only the time difference is used, in a high frequency band,
In some cases, it is difficult to calculate the time difference correctly due to the rotation of the phase. From these points, it is better to use the time difference in the low frequency band and the level difference in the high frequency band,
It may be advantageous to use a single parameter over the entire band.

【0021】そこで、音源信号判定部601で帯域別チ
ャネル間時間差と帯域別チャネル間レベル差を共に用い
る実施例を図6以下の図面を参照して説明する。この実
施例の機能構成のブロックとしては図1と同一である
が、チャネル間時間差/レベル差検出部分3、帯域別チ
ャネル間時間差/レベル差検出部5と音源信号判定部6
01での処理が以下のように異なる。チャネル間時間差
/レベル差検出部3は、検出された時間差Δτ1 ,Δτ
2 の各絶対値の平均、又はΔτ1 ,Δτ2 が比較的近い
値であれば、その一方のみなど、一つの時間差Δτを出
力する。なおチャネル間時間差Δτ1 ,Δτ2 ,Δτを
チャネル信号L(t),R(t)を周波数軸上で帯域分
割する前に算出したが、帯域分割した後に算出すること
も可能である。
An embodiment in which the sound source signal determination unit 601 uses both the time difference between channels for each band and the level difference between channels for each band will be described with reference to FIGS. The blocks of the functional configuration of this embodiment are the same as those shown in FIG.
01 differs as follows. The inter-channel time difference / level difference detection unit 3 detects the detected time differences Δτ 1 , Δτ
If the average of the absolute values of 2 or Δτ 1 and Δτ 2 are relatively close values, one time difference Δτ is output, such as only one of them. Although the channel time differences Δτ 1 , Δτ 2 , and Δτ were calculated before the band division of the channel signals L (t) and R (t) on the frequency axis, they may be calculated after the band division.

【0022】図5に示すように、Lチャネル信号L
(t)、Rチャネル信号R(t)をフレーム(例えば2
0〜40ms)毎に読み込み(S02)、帯域分割部4
でLチャネル信号、Rチャネル信号をそれぞれ複数の周
波数帯域に分割する。この例ではLチャネル信号L
(t)、Rチャネル信号R(t)にそれぞれハニング窓
をかけ(S03)、それぞれフーリエ変換を施して分割
された信号L(f1)〜L(fn)、R(f1)〜R
(fn)を得る(S04)。
As shown in FIG. 5, the L channel signal L
(T), the R channel signal R (t) is converted to a frame (for example, 2
0 to 40 ms) (S02), and the band dividing unit 4
Divides the L channel signal and the R channel signal into a plurality of frequency bands, respectively. In this example, the L channel signal L
(T), a Hanning window is applied to each of the R channel signals R (t) (S03), and the signals L (f1) to L (fn) and R (f1) to R obtained by performing a Fourier transform on each are divided.
(Fn) is obtained (S04).

【0023】次に、帯域別チャネル間時間差/レベル差
検出部5では分割された信号の周波数fiが1/(2Δ
τ)(Δτはチャネル時間差)以下の帯域(以下、低域
と呼ぶ)であるかを調べ(S05)、以下であれば帯域
別チャネル間位相差Δφiを出力し(S08)、分割さ
れた信号の周波数fが1/(2Δτ)より大きく1/Δ
τ未満の帯域(以下、中域と呼ぶ)であるかがチェック
され(S06)、この中域であれば帯域別チャネル間位
相差Δφi及びレベル差ΔLiを出力し(S09)、分
割された信号の周波数fが1/Δτ以上の帯域(以下、
高域と呼ぶ)かがチェックされ(S07)、高域であれ
ば帯域別チャネル間レベル差ΔLiを出力する(S1
0)。
Next, in the inter-channel time difference / level difference detector 5 for each band, the frequency fi of the divided signal is 1 / (2Δ
τ) (Δτ is a channel time difference) or less (hereinafter referred to as a low frequency band) (S05), and if so, a phase difference Δφi between bands is output (S08), and the divided signal is divided. Is larger than 1 / (2Δτ) and 1 / Δ
It is checked whether the band is a band smaller than τ (hereinafter referred to as a middle band) (S06). If the band is the middle band, a phase difference Δφi and a level difference ΔLi between channels are output (S09), and the divided signal is outputted. Frequency f is 1 / Δτ or more (hereinafter, referred to as
Is checked (S07), and if it is a high band, the band-to-channel level difference ΔLi is output (S1).
0).

【0024】音源信号判定部601は、帯域別チャネル
間時間差/レベル差検出部5で検出された帯域別チャネ
ル間位相差、レベル差を用いてL(f1)〜L(f
n)、R(f1)〜R(fn)それぞれについて何れを
出力するかの判定を行う。なお、位相差Δφi、レベル
差ΔLについては、この例では共にL側からR側の値を
引いて算出した値を用いる。
The sound source signal judging section 601 uses L (f1) to L (f) using the band-to-channel phase difference and level difference detected by the band-to-channel time difference / level difference detecting section 5.
n) and which of R (f1) to R (fn) is to be output is determined. In this example, values calculated by subtracting the value on the R side from the L side are used for the phase difference Δφi and the level difference ΔL.

【0025】低域と判定された信号L(fi),R(f
i)については図7に示すようにまず位相差Δφiがπ
以上かを調べ(S15)、π以上であればΔφiから2
πを減算した値をΔφiとし(S17)、ステップS1
5でΔφiがπ以上でなければ、−π以下かを調べ(S
16)、以下であればΔφiに2πを加算した値をΔφ
iとし(S18)、ステップS16で−π以下でなけれ
ばΔφiをそのまま用いる(S19)。ステップS1
7,S18,S19で求めた帯域別チャネル間位相差Δ
φiを時間差Δσiに次式で変換する(S20)。
The signals L (fi) and R (f
Regarding i), first, as shown in FIG.
It is checked whether it is the above (S15).
The value obtained by subtracting π is set to Δφi (S17), and step S1
If Δφi is not equal to or more than π in 5, it is checked whether it is equal to or less than −π (S
16), the value obtained by adding 2π to Δφi is Δφ
i (S18), and if it is not less than -π in step S16, Δφi is used as it is (S19). Step S1
7, phase difference Δ between channels obtained in band obtained in S18, S19
φi is converted into a time difference Δσi by the following equation (S20).

【0026】 Δσi=1000・Δφi/2πfi (5) 分割された信号L(fi),R(fi)が中域と判定さ
れた場合は図8に示すように帯域別チャネル間レベル差
ΔL(fi)を利用して、位相差Δφiを一意に決定す
る。即ちΔL(fi)が正かを調べ(S23)、正であ
れば、その帯域別チャネル間位相差Δφiが正であるか
を調べ(S24)、正であればそのΔφiをそのまま出
力し(S26)、ステップS24で正でなければΔφi
に2πを加算した値をΔφiとして出力する(S2
7)。ステップS23でΔL(fi)が正でなければ、
その帯域別チャネル間位相差Δφiが負であるかを調べ
(S25)、負であれば、そのΔφiをそのままΔφi
として出力し(S28)、ステップS25で負でなけれ
ばΔφiから2πを減算した値をΔφiとして出力する
(S29)。これらステップS26〜S29の何れかの
Δφiが次式によりその帯域別チャネル間時間差Δσi
として演算される(S30)。
Δσi = 1000 · Δφi / 2πfi (5) When the divided signals L (fi) and R (fi) are determined to be in the middle band, as shown in FIG. 8, the channel-to-channel level difference ΔL (fi) ) Is used to uniquely determine the phase difference Δφi. That is, it is checked whether ΔL (fi) is positive (S23). If it is positive, it is checked whether the band-by-band phase difference Δφi is positive (S24). If it is positive, the Δφi is output as it is (S26). ), Δφi if not positive in step S24
Is output as Δφi (S2
7). If ΔL (fi) is not positive in step S23,
It is checked whether the band-by-band phase difference Δφi is negative (S25), and if it is negative, the Δφi is directly used as Δφi.
(S28), and a value obtained by subtracting 2π from Δφi is output as Δφi if it is not negative in step S25 (S29). Any of these Δφi in steps S26 to S29 is represented by
Is calculated (S30).

【0027】 Δσi=1000・Δφi/2πfi (6) 以上のようにして低域、中域における帯域別チャネル間
時間差Δσiと、高域における帯域別チャネル間レベル
差ΔL(fi)が得られ、これらに応じて音源信号の判
別が次のようになされる。図9に示すように低域と中域
においては位相差Δφiを、高域においてはレベル差Δ
Liを利用して両チャネルの各周波数成分を該当するど
ちらかの音源の信号として判別する。具体的には、低域
と中域においては図7、8でそれぞれ求められた帯域別
チャネル間時間差Δσiが正であるかを調べ(S3
4)、正であれば、その帯域iのL側チャネル信号L
(fi)を信号SA(fi)として出力し、R側帯域チ
ャネル信号R(fi)を0の信号SB(fi)として出
力する(S36)。ステップS34で帯域別チャネル時
間差Δσiが正でない場合は逆にSA(fi)として0
を出力し、SB(fi)としてR側チャネル信号R(f
i)を出力する(S37)。
Δσi = 1000 · Δφi / 2πfi (6) As described above, the inter-channel time difference Δσi in the low band and the middle band and the inter-channel level difference ΔL (fi) in the high band are obtained. Is determined in the following manner. As shown in FIG. 9, the phase difference Δφi between the low band and the middle band, and the level difference Δφ between the high band and the high band.
Using Li, each frequency component of both channels is determined as a signal of one of the corresponding sound sources. Specifically, it is checked whether the band-by-band time difference Δσi obtained in FIGS. 7 and 8 is positive in the low band and the middle band (S3).
4) If positive, the L-side channel signal L of the band i
(Fi) is output as a signal SA (fi), and the R-side band channel signal R (fi) is output as a signal SB (fi) of 0 (S36). If the band-based channel time difference Δσi is not positive in step S34, on the contrary, SA (fi) is set to 0.
And outputs the R-side channel signal R (f) as SB (fi).
i) is output (S37).

【0028】また、高域においては、図6中のステップ
S10で検出した帯域別チャネル間レベル差ΔL(f
i)が正であるかを調べ(S35)、正であれば信号S
A(fi)としてL側チャネル信号L(fi)を出力
し、SB(fi)として0を出力する(S38)。ステ
ップS35でレベル差ΔLiが正でなければSA(f
i)として0を出力し、SB(fi)としてR側帯域チ
ャネル信号R(fi)を出力する(S39)。
In the high frequency range, the band-to-channel level difference ΔL (f) detected in step S10 in FIG.
It is checked whether i) is positive (S35).
The L-side channel signal L (fi) is output as A (fi), and 0 is output as SB (fi) (S38). If the level difference ΔLi is not positive in step S35, SA (f
It outputs 0 as i) and outputs the R-side band channel signal R (fi) as SB (fi) (S39).

【0029】以上のようにして各帯域についてL側又は
R側が出力され、音源信号合成部7A,7Bでそれぞれ
判別した各周波数成分を全帯域に渡り加算し(S4
0)、かつ、加算した各信号を逆フーリエ変換し(S4
1)、その変換した信号SA,SBを出力する(S4
2)。以上説明したように、この実施例においては、周
波数帯域毎に音源分離に有利なパラメータを用いること
により、全帯域に渡り単一のパラメータを用いる場合に
比べてより分離性能の高い音源分離を実現することが可
能である。
As described above, the L side or the R side is output for each band, and the frequency components determined by the sound source signal combining units 7A and 7B are added over the entire band (S4).
0), and inversely Fourier-transform the added signals (S4
1) Output the converted signals SA and SB (S4)
2). As described above, in this embodiment, by using parameters that are advantageous for sound source separation for each frequency band, sound source separation with higher separation performance is realized compared to the case where a single parameter is used over the entire band. It is possible to

【0030】この発明は音源の数が3個以上でも適用で
きる。例として、音源数が3、マイクロホン数が2であ
る場合でマイクロホンへの到達時間差を利用して音源分
離する場合を説明する。この場合、チャネル間時間差/
レベル差検出部3で各音源についてLチャネル信号、R
チャネル信号のチャネル間時間差を算出する際に、図3
に示したように相互相関のパワーで正規化したヒストグ
ラムの、累積度数(ピーク値)第一位から第三位までを
とる各時点を求めることによって各音源信号についての
チャネル間時間差Δτ1 ,Δτ2 ,Δτ 3 を算出する。
そして、帯域別チャネル間時間差/レベル差検出部5に
おいても、各帯域の帯域別チャネル間時間差をΔτ1
らΔτ3 のどれかに決定する。この決定の仕方は、前記
実施例で述べた計算式(3),(4)と同様である。音
源信号判定部601では、例として、Δτ1 >0、Δτ
2 >0、Δτ3 <0である場合で説明する。ここで、Δ
τ1 ,Δτ2 ,Δτ3 はそれぞれ、音源A,B,C各信
号のチャネル間時間差と仮定し、さらに、これらの値は
L側からR側の値を引いて算出した値と仮定する。この
場合、音源AはL側のマイクロホン1に近く、音源Bは
R側のマイクロホン2の近くにある。よって、Lチャネ
ルの信号から、帯域別チャネル間時間差がΔτ1 となる
帯域の信号を加算して音源Aの信号を、またΔτ2 とな
る帯域を加算して、音源Bの信号をそれぞれ分離するこ
とが可能である。また、Rチャネル信号から、帯域別チ
ャネル間時間差がΔτ3 となる帯域の信号を加算して出
力することにより、音源Cの信号を分離する。
The present invention is applicable even when the number of sound sources is three or more.
Wear. For example, if the number of sound sources is 3 and the number of microphones is 2,
Source time difference using the arrival time difference to the microphone
The case of separation will be described. In this case, the time difference between channels /
In the level difference detection unit 3, L channel signal, R
When calculating the time difference between channels of the channel signal, FIG.
Histogram normalized by cross-correlation power as shown in
The ram's cumulative frequency (peak value)
By determining each time point taken,
Time difference between channels Δτ1, ΔτTwo, Δτ ThreeIs calculated.
Then, the band-by-band time difference between channels / level difference detection unit 5
In addition, the time difference between channels for each band is Δτ1Or
ΔτThreeDecide on one of How to determine this
This is the same as the calculation formulas (3) and (4) described in the embodiment. sound
In the source signal determination unit 601, for example, Δτ1> 0, Δτ
Two> 0, ΔτThreeThe case where <0 is described. Where Δ
τ1, ΔτTwo, ΔτThreeAre the signals of sound sources A, B, and C, respectively.
Signal time difference between channels, and furthermore, these values are
It is assumed that the value is calculated by subtracting the value on the R side from the L side. this
In this case, the sound source A is close to the microphone 1 on the L side, and the sound source B is
It is near the microphone 2 on the R side. Therefore, L channel
Time difference between channels for each band is Δτ1Becomes
The signals of the sound source A are added by adding the signals of the bands, and ΔτTwoTona
To separate the signals of sound source B.
And it is possible. Also, from the R channel signal,
The time difference between channels is ΔτThreeSignal of the band
By applying the force, the signal of the sound source C is separated.

【0031】上述では音源信号を分離し、分離された各
音源信号SA,SBを各別に出力した。しかし、例えば
一方の音源Aは発話者による音声であり、他方の音源B
は騒音のような場合、騒音と混合された音源Aの信号音
を分離抽出し、騒音を抑圧するためにもこの発明を適用
することができる。その場合は図1において音源信号合
成部7Aを残し、1点鎖線で示す枠9中の音源信号合成
部7B、ゲート602R1〜602Rnを省略すればよ
い。
In the above description, the sound source signals are separated, and the separated sound source signals SA and SB are separately output. However, for example, one sound source A is a voice by a speaker and the other sound source B
In the case of a noise, the present invention can also be applied to separate and extract the signal sound of the sound source A mixed with the noise and suppress the noise. In that case, the sound source signal combining unit 7A and the gates 602R1 to 602Rn in the frame 9 indicated by a dashed line may be omitted, while the sound source signal combining unit 7A is left in FIG.

【0032】一方の音源Aが他方の音源Bより周波数帯
域が広い場合でその各周波数帯域が予め知られている場
合は、図10に示すように図1において帯域分離部10
において、両音源信号の重なっていない周波数帯域を分
離する。例えば音源Aの信号A(t)の周波数帯域はf
1〜fnであるが音源Bの信号B(t)の周波数帯域は
f1〜fn(fn>fm)の場合、重なっていない帯域
fm+1〜fnの信号をマイクロホン1,2の出力から
分離し、この帯域fm+1〜fnの信号については、音
源信号判定部601の判定処理、場合によっては帯域別
チャネル間時間差/レベル差検出部5の処理を行わず、
音源信号判定部601は、音源Bの信号として選出する
チャネル信号SB(t)として選出するRの分割された
帯域チャネル信号R(fm+1)〜R(fn)をそれぞ
れSB(fm+1)〜SB(fn)として出力し、SA
(fm+1)〜SA(fn)は0を出力させるように音
源信号選択部602を制御する。即ちゲート602Lm
+1〜602Lnは常閉とし、ゲート602Rm+1〜
602Rnは常開とする。
When one sound source A has a wider frequency band than the other sound source B and each frequency band is known in advance, as shown in FIG.
In, a frequency band where both sound source signals do not overlap is separated. For example, the frequency band of the signal A (t) of the sound source A is f
If the frequency band of the signal B (t) of the sound source B is f1 to fn (fn> fm), the signals of the non-overlapping bands fm + 1 to fn are separated from the outputs of the microphones 1 and 2, For signals in the bands fm + 1 to fn, the determination processing of the sound source signal determination unit 601 and, in some cases, the processing of the band-by-band time difference between channels / level difference detection unit 5 are not performed.
The sound source signal determination unit 601 converts the divided band channel signals R (fm + 1) to R (fn) selected as the channel signal SB (t) to be selected as the signal of the sound source B from SB (fm + 1) to SB (fn), respectively. ) And output as SA
(Fm + 1) to SA (fn) control the sound source signal selection unit 602 to output 0. That is, the gate 602Lm
+1 to 602Ln are normally closed, and gate 602Rm + 1 to
602Rn is normally open.

【0033】上述では各帯域別チャネル間時間差Δσ
i、正か負かにより、また各帯域別チャネル間レベル差
ΔLiが正か負かにより、つまり、いずれも0をしきい
値として、その帯域信号が何れのマイクロホンに近いか
を判別した。これはマイクロホン1として結ぶ線の2等
分線に対して音源Aと音源Bと左右対称に位置している
場合である。この関係にない場合は判別しきい値を以下
のように決めればよい。
In the above description, the time difference between channels Δσ for each band
i, positive or negative, and whether the level difference ΔLi between the respective channels is positive or negative, that is, 0 is set as the threshold value, and it is determined which microphone is close to the band signal. This is a case where the sound source A and the sound source B are located symmetrically with respect to the bisector of the line connected as the microphone 1. If not, the determination threshold may be determined as follows.

【0034】音源Aの信号がマイクロホン1、マイクロ
ホン2に到達する帯域別チャネル間レベル差をΔLA
到達する帯域別チャネル間時間差をΔτA 、音源Bの信
号がマイクロホン1、マイクロホン2に到達する帯域別
チャネル間レベル差をΔLB、到達する帯域別チャネル
間時間差をΔτB とそれぞれする。このとき、帯域別チ
ャネル間レベル差のしきい値ΔLthは ΔLth=(ΔLA +ΔLi)/2 とし、帯域別チャネル間時間差のしきい値Δτthは Δτth=(ΔτA +ΔτB )/2 とすればよい。先に述べた実施例ではΔLB =−Δ
A 、ΔτB =−ΔτA の場合でΔLth=0、Δτth=
0となる。音源A,Bを分離できるように、二つの音源
をマイクロホン1,2に対し、互いに異なる側となるよ
うに、マイクロホン1,2を位置させ、マイクロホン
1,2に対する距離、方向は必ずしも正しくはわかって
いない場合があり、しきい値ΔLth,Δτthを可変とし
て、分離がよく行われるようにΔLth,Δτthを調整可
能としてもよい。
The level difference between the channels at which the signal of the sound source A reaches the microphones 1 and 2 is represented by ΔL A ,
Arriving per-band channel between the time difference .DELTA..tau A, signal microphone 1 of the sound source B, [Delta] L B the level difference between the band-by-band channel that reaches the microphone 2, respectively and .DELTA..tau B the time difference between the arriving band-by-band channel. In this case, the threshold DerutaLth the per-band channel level difference is set to ΔLth = (ΔL A + ΔLi) / 2, the threshold Derutatauth the per-band channel between the time difference if Δτth = (Δτ A + Δτ B ) / 2 Good. In the embodiment described above, ΔL B = −Δ
In the case of L A , Δτ B = −Δτ A , ΔLth = 0, Δτth =
It becomes 0. The microphones 1 and 2 are positioned so that the two sound sources are on different sides of the microphones 1 and 2 so that the sound sources A and B can be separated, and the distance and direction to the microphones 1 and 2 are not always known correctly. In some cases, the threshold values ΔLth and Δτth may be variable so that ΔLth and Δτth can be adjusted so that separation is performed well.

【0035】前記実施例では部屋の残響や回折の影響に
より、帯域別チャネル間時間差や帯域別チャネル間レベ
ル差に誤りが生じ、各音源信号を精度よく分離すること
ができない場合がある。このような問題を改善した実施
例を次に述べる。図11に示すように、マイクロホンM
1,M2,M3は、例えば1辺が20cmの正三角形の
頂点の位置に配置されている。マイクロホンM1〜M3
の指向特性に基づいて空間が分割して設定され、その各
分割された空間を音源ゾーンと呼ぶ。全てのマイクロホ
ンM1〜M3が無指向で同じ特性を有する場合には、例
えば図12に示すように、ゾーンZ1〜Z6のように6
個に分割される。つまり、各マイクロホンM1,M2,
M3と、その中心点Cp をそれぞれ通る直線により、中
心点Cpを中心に等角間隔で6分割された6つのゾーン
Z1〜Z6が形成される。音源AはゾーンZ3に、音源
BはゾーンZ4に位置している。つまり、1個の音源ゾ
ーンには1個の音源が属するよう、マイクロホンM1〜
M3の配置や特性に基づいて各音源ゾーンを決定する。
In the above embodiment, due to the effects of room reverberation and diffraction, an error occurs in the time difference between the channels for each band and the level difference between the channels for each band, and it may not be possible to accurately separate each sound source signal. An embodiment in which such a problem is improved will be described below. As shown in FIG.
1, M2 and M3 are arranged, for example, at the vertices of an equilateral triangle having one side of 20 cm. Microphones M1 to M3
The space is divided and set based on the directional characteristics of the sound source, and each divided space is called a sound source zone. When all microphones M1 to M3 are omnidirectional and have the same characteristics, for example, as shown in FIG.
Divided into pieces. That is, each microphone M1, M2,
Six zones Z1 to Z6 divided into six at equal angular intervals around the center point Cp are formed by M3 and a straight line passing through the center point Cp. Sound source A is located in zone Z3, and sound source B is located in zone Z4. That is, the microphones M1 to M1 are so arranged that one sound source zone belongs to one sound source zone.
Each sound source zone is determined based on the arrangement and characteristics of M3.

【0036】図11において、帯域分割部41は、マイ
クロホンM1で収音した第1チャネルの音響信号S1を
n個の周波数帯域信号S1(f1)〜S1(fn)に分
割し、分割部42でマイクロホンM2で収音した第2チ
ャネルの音響信号S2をn個の周波数帯域信号S2(f
1)〜S2(fn)に分割し、帯域分割部43は、マイ
クロホンM3で収音した第3チャネルの音響信号S3を
n個の周波数帯域信号S3(f1)〜S3(fn)に分
割する。これら各帯域f1〜fnは帯域分割部41〜4
3で共通であり、このような帯域分割は離散的フーリエ
変換器を利用することができる。
In FIG. 11, a band dividing section 41 divides a sound signal S1 of the first channel collected by the microphone M1 into n frequency band signals S1 (f1) to S1 (fn). The acoustic signal S2 of the second channel collected by the microphone M2 is converted into n frequency band signals S2 (f
1) to S2 (fn), and the band dividing unit 43 divides the sound signal S3 of the third channel collected by the microphone M3 into n frequency band signals S3 (f1) to S3 (fn). These bands f1 to fn are divided into band division units 41 to 4
3, and such a band division can utilize a discrete Fourier transformer.

【0037】音源分離部80は図1乃至図10を参照し
て説明した手法を用いて音源信号を分離するものであ
る。ただし図11ではマイクロホンが3つであるから、
この3つのチャネルの信号の各2つの組合せについて同
様な処理を行う。従って音源分離部80内の帯域分割部
と帯域分割部41〜43を兼用することもできる。帯域
別レベル(パワー)検出部S1で帯域分割部41で得ら
れた各帯域の信号S1(f1)〜S1(fn)のレベル
(パワー)信号P(S1f1)〜P(S1fn)が検出
され、同様に帯域別レベル検出部52,53でそれぞれ
帯域分割部42,43で得られた各帯域信号S2(f
1)〜S2(fn),S3(f1)〜S3(fn)の各
P(S2f1)〜P(S2fn),P(S3f1)〜P
(S3fn)がそれぞれ検出される。これら帯域別レベ
ル検出もフーリエ変換器で実現できる。つまり各チャネ
ル信号を離散的フーリエ変換によりスペクトルに分解
し、その各スペクトルの電力を求めればよい。従って、
各チャネル信号について、パワースペクトルを求め、そ
のパワースペクトルを帯域分割してもよい。各マイクロ
ホンM1〜M3の各チャネル信号を、帯域別レベル検出
部400で各帯域に分割すると共にそのレベル(パワ
ー)を出力することになる。
The sound source separation section 80 separates a sound source signal by using the method described with reference to FIGS. However, in FIG. 11, since there are three microphones,
Similar processing is performed for each two combinations of these three channel signals. Therefore, the band division unit and the band division units 41 to 43 in the sound source separation unit 80 can also be used. The level (power) detection section S1 for each band detects the level (power) signals P (S1f1) to P (S1fn) of the signals S1 (f1) to S1 (fn) of each band obtained by the band division section 41, Similarly, each band signal S2 (f) obtained by the band division units 42 and 43 by the band-specific level detection units 52 and 53,
1) to S2 (fn), P (S2f1) to P (S2fn), P (S3f1) to P of S3 (f1) to S3 (fn)
(S3fn) are respectively detected. The level detection for each band can also be realized by a Fourier transformer. That is, each channel signal may be decomposed into a spectrum by discrete Fourier transform, and the power of each spectrum may be obtained. Therefore,
A power spectrum may be obtained for each channel signal, and the power spectrum may be divided into bands. Each channel signal of each of the microphones M1 to M3 is divided into each band by the band-specific level detection unit 400, and the level (power) is output.

【0038】一方全帯域レベル検出部61でマイクロホ
ンM1で収音された第1チャネルの音響信号S1の全周
波数成分のレベル(パワー)P(S1)が検出され、全
帯域レベル検出部62,63でそれぞれマイクロホンM
2,M3でそれぞれ収音された第2、第3チャネル2,
3の各音響信号S2,S3の全周波数成分のレベルP
(S2),P(S3)が検出される。
On the other hand, the level (power) P (S1) of all the frequency components of the sound signal S1 of the first channel collected by the microphone M1 is detected by the all-band level detector 61, and the whole-band level detectors 62 and 63 are detected. With each microphone M
2nd and 3rd channels collected by M2 and M3, respectively
Level P of all frequency components of each of the acoustic signals S2 and S3 of FIG.
(S2) and P (S3) are detected.

【0039】音源状態判定部70では、コンピュータ処
理により、音響を発していない音源ゾーンを判定する。
まず、帯域別レベル検出部50により得られる帯域別レ
ベルP(S1f1)〜P(S1fn)、P(S2f1)
〜P(S2fn)、P(S3f1)〜P(S3fn)
を、同一の帯域の信号について相互に比較する。そして
各帯域f1〜fn毎に、最も大きなレベルのチャネルを
特定する。
The sound source state determination unit 70 determines, by computer processing, a sound source zone that does not emit sound.
First, the band-specific levels P (S1f1) to P (S1fn) and P (S2f1) obtained by the band-specific level detection unit 50.
~ P (S2fn), P (S3f1) ~ P (S3fn)
Are compared with each other for signals in the same band. Then, the highest level channel is specified for each of the bands f1 to fn.

【0040】帯域分割の数nを所定数以上にすることに
より、前述したように、1つの帯域には1個の音源の音
響信号しか含まれないと見なせるようにすることができ
るので、同一帯域fi のレベルP(S1fi),P
(S2fi),P(S3fi)は、同一音源からの音響
のレベルと見なすことができる。よって、第1〜第3チ
ャネルについて同一の帯域のレベルP(S1fi),P
(S2fi),P(S3fi)に差があるときは、音源
に最も近いマイクロホンのチャネルの帯域のレベルが最
も大きくなる。
By setting the number n of band divisions to a predetermined number or more, as described above, one band can be regarded as containing only the sound signal of one sound source. fi Level P (S1fi), P
(S2fi) and P (S3fi) can be regarded as the level of sound from the same sound source. Therefore, the level P (S1fi), P of the same band for the first to third channels
When there is a difference between (S2fi) and P (S3fi), the level of the band of the microphone channel closest to the sound source becomes the largest.

【0041】前記処理の結果、各帯域f1〜fnについ
て、最もレベルの大きなチャネルがそれぞれ割り当てら
れる。n個の帯域中で第1〜第3各チャネルについて、
最もレベルが大きな帯域の合計数χ1,χ2,χ3を算
出する。この合計数の値が大きいチャネルのマイクロホ
ンほど、音源に近いとみなすことができる。合計数値が
例えば90n/100以上程度であればそのチャネルの
マイクロホンに音源が近いと判定することができる。し
かし、最もレベルが大きい帯域の合計数が53n/10
0、次に合計値が大きい値が49n/100の場合はそ
のそれぞれの対応マイクロホンに音源が近いか明確では
ない。従って当該合計数が予め設定した基準値ThP、
例えばn/3程度を越えたとき、当該合計数と対応する
チャネルのマイクロホンにその音源が最も近いと判定す
る。
As a result of the above processing, the highest level channel is assigned to each of the bands f1 to fn. For each of the first to third channels in the n bands,
The total number # 1, # 2, and # 3 of the band having the highest level is calculated. The microphone of the channel having the larger total value can be regarded as closer to the sound source. If the total numerical value is, for example, about 90 n / 100 or more, it can be determined that the sound source is close to the microphone of that channel. However, the total number of bands having the highest level is 53n / 10
If the next largest sum is 0n / 100, it is not clear whether the sound source is close to the corresponding microphone. Therefore, the total number is equal to the preset reference value ThP,
For example, when it exceeds about n / 3, it is determined that the sound source is closest to the microphone of the channel corresponding to the total number.

【0042】また、この音源状態判定部70には、全帯
域レベル検出部60で検出された各チャネルのレベルP
(S1)〜P(S3)も入力されていて、そのレベルの
全てが予め設定した基準値ThR以下の場合には、何れ
のゾーンにも、音源がないと判定する。この音源状態判
定部70による判定結果に基づき、制御信号を発生し
て、音源分離部80で分割された音響信号A,Bに対す
る抑圧を信号抑圧部90で行う。つまり制御信号SAi
により音響信号SAを抑圧(減衰ないし削除)し、制御
信号SBiにより音響信号SBを抑圧し、制御信号SA
Biにより両音響信号SA,SBを抑圧する。例えば信
号抑圧部90内に常閉スイッチ9A,9Bが設けられ、
音源分離部80の出力端子tA ,tB が常閉スイッチ9
A,9Bを通じて、出力端子tA ′,tB ′に接続さ
れ、制御信号SAiによりスイッチ9Aが開とされ、制
御信号SBiによりスイッチ9Bが開とされ、制御信号
SABiによりスイッチ9A,9Bが共に開にされる。
当然のことであるが、音源分離部80で行う分離処理す
るフレームの信号と、信号抑圧部90での抑圧に用いる
制御信号を得るフレームの信号とは同一のものを用い
る。抑圧(制御)信号SAi,SBi,SABiの発生
についてわかり易く説明する。
The sound source state determination unit 70 includes the level P of each channel detected by the all-band level detection unit 60.
If (S1) to P (S3) are also input and all of the levels are equal to or less than the preset reference value ThR, it is determined that there is no sound source in any zone. Based on the determination result by the sound source state determination unit 70, a control signal is generated, and the signal suppression unit 90 suppresses the sound signals A and B divided by the sound source separation unit 80. That is, the control signal SAi
Suppresses (attenuates or deletes) the sound signal SA, suppresses the sound signal SB with the control signal SBi, and outputs the control signal SA.
Bi suppresses both acoustic signals SA and SB. For example, normally closed switches 9A and 9B are provided in the signal suppression unit 90,
The output terminals t A and t B of the sound source separation unit 80 are normally closed switches 9
A and 9B are connected to the output terminals t A ′ and t B ′, the switch 9A is opened by the control signal SAi, the switch 9B is opened by the control signal SBi, and both the switches 9A and 9B are controlled by the control signal SABi. It is opened.
As a matter of course, the same signal is used for the frame signal to be separated by the sound source separation unit 80 and the frame signal for obtaining the control signal used for suppression by the signal suppression unit 90. The generation of the suppression (control) signals SAi, SBi, and SABi will be described in an easily understandable manner.

【0043】いま、図12に示すように音源A,Bが位
置している時マイクロホンM1〜M3を図に示したよう
に配置し、ゾーンZ1〜Z6を決定し、音源AとBが別
個のゾーンZ3,Z4にそれぞれ位置するようにする。
この時、音源AのマイクロホンM1〜M3に対する距離
SA1,SA2,SA3は、SA2<SA3<SA1と
なる。また、音源Bの各マイクロホンM1〜M3に対す
る距離SB1,SB2,SB3は、SB3<SB2<S
B1となる。
Now, when the sound sources A and B are located as shown in FIG. 12, the microphones M1 to M3 are arranged as shown in the figure, zones Z1 to Z6 are determined, and the sound sources A and B are separated. It should be located in each of zones Z3 and Z4.
At this time, the distances SA1, SA2, and SA3 of the sound source A to the microphones M1 to M3 satisfy SA2 <SA3 <SA1. The distances SB1, SB2, and SB3 of the sound source B with respect to the microphones M1 to M3 are represented by SB3 <SB2 <S.
B1.

【0044】全帯域レベル検出部60の検出信号P(S
1)〜P(S3)のすべてが基準値ThRよりも小さい
とき、音源A,Bは発音、例えば発話していないと見な
し、制御信号SABiにより、両音響信号SA,SBを
抑圧する。このとき、出力音響信号SA,SBは無音信
号となる(図13の101,102)。音源Aのみが発
音しているときは、その音響信号のすべての帯域の周波
数成分がマイクロホンM2へ一番大きな音圧レベル(パ
ワー)で到達するので、このマイクロホンM2のチャネ
ルの合計帯域数χ2が最も多くなる。
The detection signal P (S
When all of 1) to P (S3) are smaller than the reference value ThR, it is considered that the sound sources A and B are not generating sound, for example, speaking, and the control signal SABi suppresses both sound signals SA and SB. At this time, the output audio signals SA and SB are silent signals (101 and 102 in FIG. 13). When only the sound source A is sounding, the frequency components of all the bands of the sound signal reach the microphone M2 at the highest sound pressure level (power), so that the total number of channels χ2 of the channels of the microphone M2 is The most.

【0045】また、音源Bのみが発音しているときは、
その音響信号のすべての帯域の周波数成分がマイクロホ
ンM3へ一番大きな音圧レベルで到達するので、このマ
イクロホンM3のチャネルの合計帯域数χ3が最も多く
なる。さらに、音源A,Bが共に発音している場合に
は、音響信号が最も大きな音圧レベルで到達する帯域数
がマイクロホンM2とM3で拮抗する。
When only the sound source B is sounding,
Since the frequency components of all the bands of the sound signal reach the microphone M3 at the highest sound pressure level, the total number of bands χ3 of the channels of the microphone M3 becomes the largest. Further, when both of the sound sources A and B are sounding, the microphones M2 and M3 compete with each other for the number of bands in which the sound signal reaches at the highest sound pressure level.

【0046】したがって、前記した基準値ThPによ
り、音響信号があるマイクロホンへ最も大きな音圧レベ
ルで到達する合計帯域数が、当該基準値ThPを越えた
場合、当該マイクロホンが司るゾーンに音源が存在する
と判定することにより、発音している音源ゾーンを検出
することができる。上記の例では、音源Aのみが発音し
ているときは、χ2のみが基準値ThPを越えて、発音
している音源が存在するのはマイクロホンM2が司るゾ
ーンZ3であると検出されるので、制御信号SBiによ
り音声信号SBを抑制して、音響信号SAのみを出力さ
せる(図13の103,104)。
Therefore, according to the reference value ThP, if the total number of bands in which the sound signal reaches the microphone with the largest sound pressure level exceeds the reference value ThP, it is determined that the sound source exists in the zone controlled by the microphone. By making the determination, the sound source zone that is sounding can be detected. In the above example, when only the sound source A is sounding, only # 2 exceeds the reference value ThP, and it is detected that the sounding sound source exists in the zone Z3 controlled by the microphone M2. The audio signal SB is suppressed by the control signal SBi, and only the audio signal SA is output (103 and 104 in FIG. 13).

【0047】また、音源Bのみが発音しているときは、
χ3のみが基準値ThPを越えて、発音している音源が
存在するのは、マイクロホンM3が司るゾーンZ4であ
ると検出されるので、制御信号SAiにより音響信号S
Aを抑制して、音響信号SBのみを出力させる(図13
の105,106)。さらに、音源A,Bが共に発音し
ていて、χ2,χ3ともに基準値ThPを越えるとき
は、例えば音源Aに優先度を与えて、音源Aのみが発音
していると処理することができる。図13の処理手順は
そのようにしてある。また、χ2,χ3が共に基準値T
hPに達していない場合は、レベルP(S1)〜P(S
3)が基準値ThRを越えている限り、両音源A,Bと
もに発音していると判断し、制御信号SAi,SBi,
SABiの何れも出力せず、音声抑圧部90では合成信
号SA,SBに対する抑圧は行われない(図13の10
7)。
When only the sound source B is sounding,
Since it is detected that only the # 3 exceeds the reference value ThP and the sound source that is sounding exists in the zone Z4 controlled by the microphone M3, the sound signal Si is detected by the control signal SAi.
A is suppressed, and only the acoustic signal SB is output (FIG. 13
105, 106). Further, when both the sound sources A and B are sounding and both # 2 and # 3 exceed the reference value ThP, for example, priority can be given to the sound source A, and it can be processed that only the sound source A is sounding. The processing procedure of FIG. Also, both # 2 and # 3 are the reference values T
hP, the levels P (S1) to P (S
As long as 3) exceeds the reference value ThR, it is determined that both sound sources A and B are sounding, and the control signals SAi, SBi,
SABi is not output, and the speech suppressor 90 does not suppress the combined signals SA and SB (see 10 in FIG. 13).
7).

【0048】以上のようにして、音源分離部80で分離
された音源信号SA,SBは、音源状態判定部70によ
って発音していないと判定された音源に対応するもの
が、信号抑圧部90で抑圧され、不要音が抑圧されるよ
うになる。図12に示した状態に対して、図14に示す
ように音源CをゾーンZ6に加えた場合は、図示しない
が音源分離部80からは、音源Aに対応する信号SA、
音源Bに対応する信号SBの他に、音源Cに対応する信
号SCを出力する。
As described above, the sound source signals SA and SB separated by the sound source separation unit 80 correspond to the sound source determined not to be sounded by the sound source state determination unit 70, and are output by the signal suppression unit 90. It is suppressed, and unnecessary sound is suppressed. When the sound source C is added to the zone Z6 as shown in FIG. 14 with respect to the state shown in FIG. 12, the signal SA corresponding to the sound source A
The signal SC corresponding to the sound source C is output in addition to the signal SB corresponding to the sound source B.

【0049】また、信号抑圧部90に対して、音源状態
判定部70から、信号SAを抑圧する制御信号SAi、
信号SBを抑圧する制御信号SBiの他に、信号SCを
抑圧する制御信号SCiが出力する。また、信号SAと
SBを抑圧する制御信号SABiの他に、信号SBとS
Cを抑圧する制御信号SBCi、信号SCとSAを抑圧
する制御信号SCAi、信号SAとSBとSCの全部を
抑圧する制御信号SABCiが出力する。この音源状態
判定部70は、図15に示すような処理を行う。
For the signal suppressing section 90, the control signal SAi for suppressing the signal SA from the sound source state determining section 70,
A control signal SCi for suppressing the signal SC is output in addition to the control signal SBi for suppressing the signal SB. In addition to the control signal SABi for suppressing the signals SA and SB, the signals SB and S
A control signal SBCi for suppressing C, a control signal SCAi for suppressing the signals SC and SA, and a control signal SABCi for suppressing all of the signals SA, SB and SC are output. The sound source state determination unit 70 performs a process as shown in FIG.

【0050】まず、レベルP(S1)〜P(S3)の全
部が基準値ThRを越えていない場合は、いずれの音源
A〜Cも発音していないものと判断して、音源状態判定
部70からSABCiを出力して、信号SA,SB,S
Cのいずれもが抑圧される(図15の201〜20
2)。次に、音源A,B,Cがそれぞれ単独で発音して
いる場合は、P(S1)〜P(S3)の何れかはThR
より大となり、前記した音源が2個の場合と同様に、そ
の音源に最も近いマイクロホンのチャネルのレベルが最
も大きくなるので、そのチャネルの帯域数χ1,χ2,
χ3のいずれかが基準値ThPを越える。そして、音源
Cのみが発音している場合は、χ1がThPを越え、制
御信号SABiを出力して信号SA,SBが抑圧される
(図15の203,204)。また、音源Aのみが発音
している場合は、制御信号SBCiが出力して信号S
B,SCが抑圧される。さらに、音源Aのみが発音して
いる場合は、制御信号SBCiが出力して信号SB,S
Cが抑圧される(図15の205〜208)。
First, when all of the levels P (S1) to P (S3) do not exceed the reference value ThR, it is determined that none of the sound sources A to C is sounding, and the sound source state determination unit 70 Outputs SABCi, and outputs signals SA, SB, S
C are all suppressed (201 to 20 in FIG. 15).
2). Next, when each of the sound sources A, B, and C is sounding independently, any one of P (S1) to P (S3) is ThR.
Since the level of the channel of the microphone closest to the sound source becomes the highest as in the case of two sound sources, the number of bands of the channel χ1, χ2,
Any of # 3 exceeds the reference value ThP. When only the sound source C emits sound, # 1 exceeds ThP, and the control signal SABi is output to suppress the signals SA and SB (203 and 204 in FIG. 15). When only the sound source A is sounding, the control signal SBCi is output and the signal SBCi is output.
B and SC are suppressed. Further, when only the sound source A is sounding, the control signal SBCi is output and the signals SB, S
C is suppressed (205 to 208 in FIG. 15).

【0051】次に、3つの音源A〜Cのうちのいずれか
2つが発音する場合は、発音していない音源に対応する
ゾーンにあるマイクロホンのレベルが最も大きくなる帯
域数が、他のマイクロホンのものに比べて小さくなる。
例えば、音源Cのみが発音していない場合には、マイク
ロホンM1のレベルが最も大きくなる帯域数χ1が、他
の2個のマイクロホンM2,M3の帯域数χ2,χ3に
比べて小さくなる。
Next, when any two of the three sound sources A to C sound, the number of bands in which the level of the microphone in the zone corresponding to the sound source that is not sounding becomes the highest is the number of bands of the other microphones. It is smaller than the one.
For example, when only the sound source C does not emit sound, the number of bands # 1 at which the level of the microphone M1 is the largest is smaller than the number of bands # 2 and # 3 of the other two microphones M2 and M3.

【0052】よって、予めある基準値ThQ(<Th
P)を設定し、χ1がその基準値ThQ以下になる場合
は、マイクロホンM1とマイクロホンM3で空間を2分
割したゾーンZ5,Z6の内、マイクロホンM1に近い
ゾーンZ6では、音源は信号を発していないと判定す
る。さらに、マイクロホンM1とM2で空間を2分割し
たゾーンZ1,Z2のうちマイクロホンM1に近いゾー
ンZ1では音源は信号を発していないと判定する。
Therefore, a predetermined reference value ThQ (<Th
P) is set, and when χ1 is equal to or less than the reference value ThQ, the sound source emits a signal in the zone Z6 close to the microphone M1 among the zones Z5 and Z6 obtained by dividing the space into two by the microphone M1 and the microphone M3. It is determined that there is not. Further, it is determined that the sound source does not emit a signal in the zone Z1 near the microphone M1 among the zones Z1 and Z2 obtained by dividing the space into two by the microphones M1 and M2.

【0053】すなわち、ゾーンZ1,Z6にある音源は
信号を発していないと判定するのである。これらのゾー
ンにある音源は音源Cであることから、音源Cが信号を
発していないと判定される。つまり、音源A,Bのみが
信号を発していると判定され、制御信号SCiを生成
し、信号SCが抑圧される。図14に示した状態で3つ
の音源A〜Cのうち1つのみが発音していない場合は通
常は何れのマイクロホンについても最大となる帯域数χ
1,χ2,χ3は基準値ThP以下となるため、図15
においてステップ203,205,207を通過し、ス
テップ209で、χ1が基準値ThQ以下かを調べ、音
源Cのみが発音していなければ、χ1<ThQとなり、
制御信号SCiが生成される(図15の210)。ステ
ップ209でχ1がThQ以下でなければχ2,χ3に
ついても同様にThQ以下であるかが順次調べられ、T
hQ以下であれば音源Aのみ、又は音源Bのみが発音し
ていないと推定され、それぞれ制御信号SAi又はSB
iが抑圧される(図15の211〜214)。
That is, it is determined that the sound sources in the zones Z1 and Z6 do not emit a signal. Since the sound source in these zones is the sound source C, it is determined that the sound source C does not emit a signal. That is, it is determined that only the sound sources A and B are emitting signals, the control signal SCi is generated, and the signal SC is suppressed. In the state shown in FIG. 14, when only one of the three sound sources A to C does not emit sound, the number of bands that usually becomes the maximum for all microphonesχ
15 are smaller than the reference value ThP.
In Steps 203, 205, and 207, it is checked in Step 209 whether # 1 is equal to or smaller than the reference value ThQ.
A control signal SCi is generated (210 in FIG. 15). In step 209, if # 1 is not equal to or less than ThQ, it is sequentially checked whether # 2 and # 3 are equal to or less than ThQ.
If hQ or less, it is estimated that only the sound source A or only the sound source B is not sounding, and the control signal SAi or SB
i is suppressed (211 to 214 in FIG. 15).

【0054】ステップ213でχ3がThQ以下でない
と判定されると、音源A,B,Cは全て発音していると
判定され、何れの制御信号も生成されない(図15の2
15)。この場合基準値ThPは2n/3〜3n/4程
度基準値ThQはn/2〜2n/3程度、つまり例えば
ThPを2n/3程度にすると、ThQはn/2程度に
する。
If it is determined in step 213 that # 3 is not equal to or less than ThQ, it is determined that all of the sound sources A, B, and C are sounding, and no control signal is generated (2 in FIG. 15).
15). In this case, the reference value ThP is about 2n / 3 to 3n / 4. The reference value ThQ is about n / 2 to 2n / 3. That is, for example, when ThP is about 2n / 3, ThQ is about n / 2.

【0055】なお、以上の例では、ゾーンをZ1〜Z6
の6つに分けたが、図16に示すように、中心点Cp か
ら各マイクロホン間の中点を通る点線により3つのゾー
ンZ1〜Z3に分けても同様に音源状態を判定できる。
この場合は、例えば、音源Aのみが発音している場合
は、マイクロホンM2のチャネルの帯域数χ2が最も大
きくなるので、そのマイクロホンM2の司るゾーンZ2
に音源があると判定される。また、音源Bのみが発音し
ている場合はχ3が最も大きくなり、ゾーンZ3に音源
があると判定される。また、χ1が予め設定した値Th
Q以下である場合には、マイクロホンM1とM2および
M3とそれぞれ2分したうちのゾーンZ1にある音源は
発音していないと判定する。以上の処理により、ゾーン
を3分割しても、6分割のときと同様に音源の状態を判
定できる。
In the above example, the zones are defined as Z1 to Z6.
However, as shown in FIG. 16, the sound source state can be determined in the same manner by dividing into three zones Z1 to Z3 by a dotted line passing from the center point Cp to the middle point between the microphones.
In this case, for example, when only the sound source A is sounding, the number of channels χ2 of the channel of the microphone M2 is the largest, and therefore the zone Z2 controlled by the microphone M2 is used.
Is determined to have a sound source. When only the sound source B is sounding, # 3 is the largest, and it is determined that there is a sound source in the zone Z3. Also, χ1 is a preset value Th.
If it is equal to or less than Q, it is determined that the sound source in the zone Z1 of the microphones M1, M2, and M3, which is divided into two, is not sounding. With the above processing, even if the zone is divided into three, the state of the sound source can be determined in the same manner as in the case of dividing into six.

【0056】また、基準値ThR,ThP,ThQは、
全てのマイクロホンM1〜M3で同一値を用いた場合で
説明したが、マイクロホン毎に適宜変更してもよい。ま
た、以上の説明では、音源が3個でマイクロホンが3個
の場合についてであったが、マイクロホンの個数は音源
の個数と同数以上であれば、同様に音源ゾーンを検出す
ることができる。
The reference values ThR, ThP, ThQ are:
Although the case where the same value is used for all microphones M1 to M3 has been described, it may be changed as appropriate for each microphone. In the above description, the case where the number of microphones is three and the number of microphones is three is described. However, if the number of microphones is equal to or more than the number of sound sources, the sound source zone can be similarly detected.

【0057】例えば、音源が4個の場合には、4個のマ
イクロホンにより、個々のチャネルのマイクロホンが1
個の音源を司るように、図16の分割方法と同様に4個
のゾーンに空間を分割する。このときの音源状態判定
は、図15のステップ201〜208と同様な処理によ
り、4個全部の音源が無音か、いずれか1個が発音して
いるかを判定する。それらいずれでもないとき、図15
のステップ209〜214と同様な処理により、4個の
内の1個が無音かを判定し、1個の無音もないとき図1
5のステップ215と同じ処理により全部の音源が発音
していると判定する。また、4個の内の3個の音源が発
音しているとき(1個が無音のとき)は、そのままとし
ても良いが、その3個の内のより無音に近い1個を選別
するには、次のようにより細かく制御する。すなわち、
基準値をThQからThS(ThP>ThS>ThQ)
に換え、図15の各ステップ210,212,214の
各々の次段に図15のステップ209〜214と同様な
処理部分を設けて、3個の内から1個の無音に近い音源
を判定する。
For example, when the number of sound sources is four, the microphone of each channel becomes one by four microphones.
The space is divided into four zones in the same manner as in the division method of FIG. In the sound source state determination at this time, it is determined whether all four sound sources are silent or one of them is sounding by processing similar to steps 201 to 208 in FIG. If none of them, FIG.
By the same processing as in steps 209 to 214, it is determined whether one of the four is silent.
It is determined that all the sound sources are sounding by the same processing as in step 215 of No. 5. If three of the four sound sources are sounding (one is silent), it may be left as it is. To select one of the three sound sources that is closer to silence, , Is controlled more finely as follows. That is,
Change the reference value from ThQ to ThS (ThP>ThS> ThQ)
Instead, a processing part similar to that of steps 209 to 214 in FIG. 15 is provided at the next stage of each of steps 210, 212, and 214 in FIG. 15, and one sound source close to silence is determined from three. .

【0058】このように、音源の数が多くなるほど、図
15のステップ209〜214の処理内容を繰り返すこ
とにより、無音又は無音に近い音源を2以上判定するこ
とができる。ただし、判定基準値ThSは処理の繰り返
しが増えるほど、ThPに近付ける。以上の処理動作手
順マイクロホンが4個、音源が4個の場合について図1
7に示すようになる。まずマイクロホンM1〜M4より
第1〜第4チャネル信号S1〜S4を取込み(S0
1)、これらチャネル信号S1〜S4のレベルP(S
1)〜P(S4)をそれぞれ検出し(S02)、これら
レベルP(S1)〜P(S4)の何れもが基準値ThR
以下であるかを調べ(S03)、基準値以下であれば制
御信号SABCDiを生成して合成信号SA,SB,S
C(S1)の出力を抑圧する(S04)。ステップS0
3で何れかが基準値ThR以下でなければ、各チャネル
信号S1〜S4をn帯域に分割すると共にその各帯域の
レベルP(S1fi),P(S2fi),P(S3f
i),P(S4fi)(i=1,…,n)を求める(S
05)。各チャネル間で同一帯域fi のレベル中の最
大のチャネルfiM(Mは1,2,3,4の何れか)を
各帯域について決定し(S06)、全帯域(n個)中で
fi1,fi2,fi3,fi4の各合計値χ1,χ
2,χ3,χ4を求める(S07)。χ1,χ2,χ
3,χ4中の最大のものχM を求め(S08)、χM
基準値ThP1(例えばn/3)以上であるかを調べ
(S09)、ThP1以上であればチャネルMと対応し
て選出した音源信号、音源Aの信号であれば分離された
チャネルM以外の分離されたチャネルの分離音響信号を
抑圧する制御信号SBCDiを生成する(S010)。
ステップS08から直ちにステップS010へ移っても
よい。
As described above, as the number of sound sources increases, by repeating the processing contents of steps 209 to 214 in FIG. 15, it is possible to determine two or more silent or near-silent sound sources. However, the criterion value ThS approaches ThP as the repetition of the process increases. FIG. 1 shows a case where four microphones and four sound sources are used.
As shown in FIG. First, the first to fourth channel signals S1 to S4 are acquired from the microphones M1 to M4 (S0
1), the level P of these channel signals S1 to S4 (S
1) to P (S4) are respectively detected (S02), and any of these levels P (S1) to P (S4) becomes the reference value ThR.
(S03), and if it is less than the reference value, the control signal SABCDi is generated and the combined signals SA, SB, S
The output of C (S1) is suppressed (S04). Step S0
3, if any one is not less than the reference value ThR, each of the channel signals S1 to S4 is divided into n bands, and the levels P (S1fi), P (S2fi), and P (S3f) of each band are divided.
i), P (S4fi) (i = 1,..., n) are obtained (S
05). Same band fi between channels Is determined for each band (S06), and the total of fi1, fi2, fi3, and fi4 in all bands (n) is determined. Value χ1, χ
2, χ3, χ4 are obtained (S07). χ1, χ2, χ
3, obtains the largest of chi M in χ4 (S08), χ M is checked whether the reference value THP1 (e.g. n / 3) or more (S09), in correspondence with channel M if THP1 or more elected If the signal is a sound source signal or a signal of the sound source A, a control signal SBCDi for suppressing a separated sound signal of a separated channel other than the separated channel M is generated (S010).
The process may proceed from step S08 to step S010 immediately.

【0059】ステップS09で基準値以上でなければχ
M が基準値ThQ以下のチャネルMがあるかを調べる
(S011)。ThQ以下のものがなければ、全ての音
源が発音しているとみなして、何れの制御信号も発生し
ない(S012)。ステップS011でχM がThQ以
下のチャネルMがあれば、これと対応するチャネルMと
して分離された音源信号を抑圧する制御信号SMi
生成する(S013)。
If it is not equal to or larger than the reference value in step S09, χ
It is checked whether there is a channel M whose M is equal to or less than the reference value ThQ (S011). If there is no signal below ThQ, it is assumed that all sound sources are sounding, and no control signal is generated (S012). If there is a channel M in which χM is equal to or less than ThQ in step S011, the control signal SMi for suppressing the sound source signal separated as the corresponding channel M Is generated (S013).

【0060】制御信号SMiで抑圧された以外の分離さ
れた音源信号中の無音又は無音に近いものを抑圧するに
は、Sを+1し(S014)(Sは予め0に初期化して
おく)、SがM−1(Mは音源の数)と一致したかを調
べ(S015)、一致していなければ、ThQを+ΔQ
だけ大としてステップS011に戻る(S016)。S
がM−1になるまでThQをThPを越えない範囲でΔ
Qづつ増加させステップS011を実行する。ステップ
S015でM−1=Sであれば、その時のThQ以下の
各χM の各チャネルMと対応する分離された音源信号を
抑圧する各制御信号SMiを生成する(S013)。必
要に応じてステップS015でM−1=Sになる前にス
テップS013に移ってもよい。
In order to suppress silence or near silence in the separated sound source signals other than those suppressed by the control signal SMi, S is incremented by 1 (S014) (S is initialized to 0 in advance). It is checked whether S matches M-1 (M is the number of sound sources) (S015). If not, ThQ is set to + ΔQ
And the process returns to step S011 (S016). S
Until Th becomes M−1, in a range not exceeding ThP Δ
Step S011 is performed by incrementing Q. If M-1 = S, in step S015, generates each control signal SMi for suppressing the separated sound source signal corresponding to each channel M of ThQ following each chi M at that time (S013). If necessary, the process may proceed to step S013 before M-1 = S in step S015.

【0061】ステップS07でχ1〜χ4を計算した
後、これらでThP2(例えば2n/3)以上のものが
あるかを調べ、あればステップS010に移り、なけれ
ばステップS011に移るようにしてもよい(S01
7)。上述では音源分離の精度を上げるため、マイクロ
ホンM1〜M3のチャネル信号S1〜S3の帯域間レベ
ル差を利用して信号抑圧部90に対する制御信号を生成
したが、帯域間時間差を利用して制御信号を生成するこ
ともできる。
After calculating χ1 to χ4 in step S07, it is checked whether or not there is a ThP2 (for example, 2n / 3) or more, and if there is, the process proceeds to step S010. If not, the process proceeds to step S011. (S01
7). In the above description, in order to improve the accuracy of sound source separation, the control signal for the signal suppression unit 90 is generated using the level difference between the bands of the channel signals S1 to S3 of the microphones M1 to M3, but the control signal is generated using the time difference between the bands. Can also be generated.

【0062】この例を図18に、図11と対応する部分
に同一符号を付けて示す。この実施例では帯域分割部4
1で得られた各帯域f1〜fnの信号S1(f1)〜S
1(fn)から到達時間差信号An(S1f1)〜An
(S1fn)が帯域別時間差検出部101で検出され、
同様に帯域分割部42,43でそれぞれ得られた各帯域
の信号S2(f1)〜S2(fn)、S3(f1)〜S
3(fn)からそれぞれ到達時間差信号An(S2f
1)〜An(S2fn),An(S3f1)〜An(S
3fn)が帯域別時間差検出部102,103で検出さ
れる。
FIG. 18 shows this example, in which parts corresponding to those in FIG. In this embodiment, the band dividing unit 4
1, signals S1 (f1) to S1 of the respective bands f1 to fn
1 (fn) to arrival time difference signals An (S1f1) to An
(S1fn) is detected by the band-based time difference detection unit 101,
Similarly, the signals S2 (f1) to S2 (fn) and S3 (f1) to S3 of each band obtained by the band division units 42 and 43, respectively.
3 (fn) to the arrival time difference signal An (S2f
1) to An (S2fn), An (S3f1) to An (S
3fn) is detected by the time difference detection units 102 and 103 for each band.

【0063】これらの到達時間差信号を得る処理は、例
えば、フーリエ変換により各帯域の信号の位相(あるい
は群遅延)を算出し、同一の帯域fiの信号S1(f
i),S2(fi),S3(fi)(i=1,2,…,
n)の位相を相互に比較することで、同一音源信号の到
達時間差と対応した信号を得ることができる。この場合
も帯域分割部40での分割は、1つの帯域には1つの音
源信号成分しか存在しないとみなせる程度に小さく行
う。
In the processing for obtaining these arrival time difference signals, for example, the phase (or group delay) of the signal of each band is calculated by Fourier transform, and the signal S1 (f) of the same band fi is calculated.
i), S2 (fi), S3 (fi) (i = 1, 2,...,
By comparing the phases n) with each other, a signal corresponding to the arrival time difference of the same sound source signal can be obtained. Also in this case, the division by the band division unit 40 is performed so small that only one sound source signal component can be considered to exist in one band.

【0064】この到達時間差の表現方法は、例えば、マ
イクロホンM1〜M3のいずれかを基準にしてその基準
マイクロホンに対する到達時間差を0に設定しておけ
ば、他のマイクロホンに対する到達時間差はその基準マ
イクロホンに対して速く到達したか遅く到達したかで判
定できるので、正又は負の極性を付した数値で表すこと
ができる。この場合、基準マイクロホンを例えばM1と
すると、到達時間差信号An(S1f1)〜An(S1
fn)は全て0となる。
This arrival time difference can be expressed by, for example, setting the arrival time difference with respect to one of the microphones M1 to M3 to the reference microphone to 0, and setting the arrival time difference with respect to other microphones to the reference microphone. On the other hand, since it can be determined whether the vehicle has arrived faster or later, it can be represented by a numerical value with a positive or negative polarity. In this case, assuming that the reference microphone is, for example, M1, the arrival time difference signals An (S1f1) to An (S1f1).
fn) are all 0.

【0065】音源状態判定部110では、コンピュータ
処理により音声を発していない音源を判定する。まず、
帯域別時間差検出部100により得られる到達時間差信
号An(S1f1)〜An(S1fn),An(S2f
1)〜An(S2fn),An(S3f1)〜An(S
3fn)を、同一の帯域の信号について相互に比較す
る。これにより各帯域f1〜fn毎に、最も信号が速く
到達するチャネルが決定できる。
The sound source state determination unit 110 determines a sound source that does not emit sound by computer processing. First,
Arrival time difference signals An (S1f1) to An (S1fn), An (S2f) obtained by the band-specific time difference detection unit 100.
1) to An (S2fn), An (S3f1) to An (S
3fn) are compared with each other for signals in the same band. As a result, for each of the bands f1 to fn, the channel in which the signal reaches the fastest can be determined.

【0066】そこで、各チャネルについて信号が最も速
く到達すると判定された帯域の合計数を算出して、それ
をチャネル間で比較する。この結果、この合計帯域数の
値が大きいチャネルのマイクロホンほど、音源に近いと
みなすことができる。そして、あるチャネルについて、
当該合計帯域数が予め設定した基準値ThPを越えたと
き、当該のチャネルのマイクロホンが司るゾーンに音源
があると判定する。
Therefore, the total number of bands determined to reach the fastest signal for each channel is calculated and compared between channels. As a result, the microphone of a channel having a larger value of the total number of bands can be regarded as being closer to the sound source. And for a certain channel,
When the total number of bands exceeds a preset reference value ThP, it is determined that a sound source exists in a zone controlled by the microphone of the channel.

【0067】また、この音源状態判定部110には、全
帯域レベル検出部60で検出された各チャネルのレベル
P(S1)〜P(S3)も入力され、あるチャネルのレ
ベルが予め設定した基準値ThR以下の場合には、その
チャネルのマイクロホンが司るゾーンには、音源がない
と判定する。いま図12に示したように音源A,Bに対
し、マイクロホンM1〜M3を配置したとする。またマ
イクロホンM1のチャネルに対する前記した合計帯域数
をχ1、マイクロホンM2,M3の各チャネルに対する
合計帯域数をそれぞれχ2,χ3とする。
The sound source state determination unit 110 also receives the levels P (S1) to P (S3) of each channel detected by the all-band level detection unit 60, and sets the level of a certain channel to a predetermined reference level. If the value is equal to or smaller than the value ThR, it is determined that there is no sound source in the zone controlled by the microphone of the channel. Now, it is assumed that microphones M1 to M3 are arranged for sound sources A and B as shown in FIG. The total number of bands for the channel of the microphone M1 is $ 1, and the total number of bands for each channel of the microphones M2 and M3 is $ 2 and $ 3, respectively.

【0068】この場合も図13に示した処理手順と同様
にすればよい。即ち、まず、全帯域レベル検出部60の
検出信号P(S1)〜P(S3)のすべてが基準値Th
Rよりも小さいとき(101)、音源A,Bは発音して
いないと見なし、制御信号SABiを生成して(10
2)、両音源信号SA,SBを抑圧する。このとき、出
力信号SA′,SB′は無音信号となる。
In this case, the procedure may be the same as that shown in FIG. That is, first, all of the detection signals P (S1) to P (S3) of the all band level detection unit 60 are equal to the reference value Th.
When it is smaller than R (101), it is considered that the sound sources A and B are not sounding, and the control signal SABi is generated (10).
2) Suppress both sound source signals SA and SB. At this time, the output signals SA 'and SB' are silent signals.

【0069】音源Aのみが発音しているときは、その音
源信号のすべての帯域の周波数成分がマイクロホンM2
へ一番速く到達するので、このマイクロホンM2のチャ
ネルの合計帯域数χ2が最も多くなる。また、音源Bの
みが発音しているときは、その音源信号のすべての帯域
の周波数成分がマイクロホンM3へ一番速く到達するの
で、このマイクロホンM3のチャネルの合計帯域数χ3
が最も多くなる。
When only the sound source A is sounding, the frequency components of all the bands of the sound source signal are output from the microphone M2.
, The total number of bands χ2 of the channel of the microphone M2 becomes the largest. Further, when only the sound source B is sounding, the frequency components of all the bands of the sound source signal reach the microphone M3 fastest, so that the total number of channels of the microphone M3 マ イ ク ロ 3
Is the most.

【0070】さらに、音源A,Bが共に発音している場
合には、音源信号が最も速く到達する帯域数がマイクロ
ホンM2とM3で拮抗する。したがって、前記した基準
値ThPにより、音源信号があるマイクロホンへ最も速
く到達する合計帯域数が、当該設定値ThPを越えた場
合、当該マイクロホンが司るゾーンに音源が存在し、そ
の音源が発音していると判定する。
Further, when both the sound sources A and B are sounding, the number of bands in which the sound source signal reaches the fastest is opposed by the microphones M2 and M3. Therefore, when the total number of bands in which the sound source signal reaches the microphone at the earliest exceeds the set value ThP, the sound source exists in the zone controlled by the microphone, and the sound source emits a sound. It is determined that there is.

【0071】上記の例では、音源Aのみが発音している
ときは、χ2のみが基準値ThPを越えて(図3の10
3)、音響を発生している音源が存在するのはマイクロ
ホンM2が司るゾーンZ3であると検出されるので、制
御信号SBiが生成され(104)、音響信号SBが抑
制され、信号SAのみが出力される。また、音源Bのみ
が発音しているときは、χ3のみが基準値ThPを越え
(105)、音を発している音源が存在するのは、マイ
クロホンM3が司るゾーンZ4であると検出されるの
で、制御信号SAiが生成され(106)信号SAが抑
制されて、信号SBのみが出力される。
In the above example, when only the sound source A is sounding, only # 2 exceeds the reference value ThP (10 in FIG. 3).
3) Since it is detected that the sound source generating the sound exists in the zone Z3 controlled by the microphone M2, the control signal SBi is generated (104), the sound signal SB is suppressed, and only the signal SA is output. Is output. When only the sound source B is sounding, only # 3 exceeds the reference value ThP (105), and it is detected that the sound source emitting the sound is in the zone Z4 controlled by the microphone M3. , A control signal SAi is generated (106), the signal SA is suppressed, and only the signal SB is output.

【0072】この例ではThPは例えばn/3程度に設
定され、音源A,Bが共に発音していて、χ2,χ3と
もに基準値ThPを越えることがある。この場合は図1
3の処理手順に示すように一方の音源、この例ではAを
優先させ、音源Aへ分離信号のみを出力させることもで
きる。また、χ2,χ3が共に基準値ThPに達してい
ない場合は、レベルP(S1)〜P(S3)が基準値T
hRを越えている限り、両音源A,Bともに発音してい
ると判断し、制御信号SAi,SBi,SABiは出力
せず(図3の107)音声抑圧部90では音声信号S
A,SBに対する抑圧は行われない。
In this example, ThP is set to, for example, about n / 3, and both the sound sources A and B are sounding, and both # 2 and # 3 may exceed the reference value ThP. In this case, FIG.
As shown in the processing procedure 3, one of the sound sources, A in this example, may be prioritized, and only the separated signal may be output to the sound source A. When both # 2 and # 3 have not reached the reference value ThP, the levels P (S1) to P (S3) are not equal to the reference value ThP.
As long as it exceeds hR, it is determined that both sound sources A and B are sounding, and control signals SAi, SBi and SABi are not output (107 in FIG. 3).
No suppression is performed on A and SB.

【0073】図12に示した状態に対して図14に示す
ように音源CをゾーンZ6に加えた場合、図示しないが
音源分離部80からは、音源Aに対応する信号SA、音
源Bに対応する信号SBの他に、音源Cに対応する信号
SCが出力する。これと対応して音源状態判定部110
から、信号SAを抑圧する制御信号SAi、信号SBを
抑圧する制御信号SBiの他に、信号SCを抑圧する制
御信号SCiが出力し、また、信号SAとSBを抑圧す
る制御信号SABiの他に、信号SBとSCを抑圧する
制御信号SBCi、信号SCとSAを抑圧する制御信号
SCAi、信号SA,SB,SCの全部を抑圧する制御
信号SABCiが出力する。そして、この音源状態判定
部110は先に述べた図15に示したと同様の処理を行
う。
When the sound source C is added to the zone Z6 as shown in FIG. 14 with respect to the state shown in FIG. 12, the sound source separation unit 80 outputs signals SA and B corresponding to the sound source A (not shown). In addition to the signal SB, a signal SC corresponding to the sound source C is output. Correspondingly, the sound source state determination unit 110
Outputs a control signal SCi for suppressing the signal SC in addition to a control signal SAi for suppressing the signal SA and a control signal SBi for suppressing the signal SB. , A control signal SBCi for suppressing the signals SB and SC, a control signal SCAi for suppressing the signals SC and SA, and a control signal SABCi for suppressing all of the signals SA, SB and SC. Then, the sound source state determination unit 110 performs the same processing as that shown in FIG. 15 described above.

【0074】まず、レベルP(S1)〜P(S3)の全
部が基準値ThRを越えていない場合は、いずれの音源
A〜Cも発音していないものと判断して、音源状態判定
部110からはSABCiが出力して、信号SA,S
B,SCのいずれもが抑圧される。次に、音源A,B,
Cがそれぞれ単独で発音している場合には、前記した音
源が2個の場合と同様に、その音源に最も近いマイクロ
ホンのチャネルの到達時間が最も速くなるので、そのチ
ャネルの帯域数χ1,χ2,χ3のいずれかが基準値T
hPを越える。そして、音源Cのみが発音している場合
は、制御信号SABiが出力して信号SA,SBが抑圧
される。また、音源Aのみが発音している場合は、制御
信号SBCiが出力して信号SB,SCが抑圧される。
さらに、音源Bのみが鳴っている場合は、制御信号SA
Ciが出力して信号SA,SCが抑圧される(図15の
203〜208)。
First, when all of the levels P (S1) to P (S3) do not exceed the reference value ThR, it is determined that none of the sound sources A to C is sounding, and the sound source state determination unit 110 Outputs SABCi to output signals SA and S
Both B and SC are suppressed. Next, sound sources A, B,
If each of the C's is sounding independently, the arrival time of the channel of the microphone closest to the sound source is the fastest, as in the case of the two sound sources described above. , Χ3 is the reference value T
exceeds hP. When only the sound source C is sounding, the control signal SABi is output and the signals SA and SB are suppressed. When only the sound source A is sounding, the control signal SBCi is output and the signals SB and SC are suppressed.
Further, when only the sound source B is sounding, the control signal SA
Ci outputs and the signals SA and SC are suppressed (203 to 208 in FIG. 15).

【0075】次に、3つの音源A〜Cのうちのいずれか
2つが発音している場合は、発音していない音源に対応
するゾーンにあるマイクロホンの到達時間の最も速い帯
域数が、他のマイクロホンのものに比べて小さくなる。
例えば、音源Cのみが鳴っていない場合には、マイクロ
ホンM1への到達時間が最も速い帯域数χ1が、他の2
個のマイクロホンM2,M3の帯域数χ2,χ3に比べ
て小さくなる。
Next, when any two of the three sound sources A to C are sounding, the number of bands having the fastest arrival time of the microphone in the zone corresponding to the sound source that is not sounding is determined by the other. It is smaller than that of a microphone.
For example, when only the sound source C is not sounding, the number of bands # 1 having the fastest arrival time at the microphone M1 is equal to the other two bands.
This is smaller than the number of bands # 2 and # 3 of the microphones M2 and M3.

【0076】よって、予めある基準値ThQ(<Th
P)を設定し、χ1がその基準値ThQ以下になる場合
は、マイクロホンM1とマイクロホンM3で空間を2分
割したゾーンZ5,Z6の内、マイクロホンM1に近い
ゾーンZ6では、音源は信号を発していないと判定し、
さらに、マイクロホンM1とM2で空間を2分割したゾ
ーンZ1,Z2のうちマイクロホンM1に近いゾーンZ
1では音源は信号を発していないと判定する。
Therefore, a predetermined reference value ThQ (<Th
P) is set, and if χ1 is equal to or less than the reference value ThQ, the sound source emits a signal in the zone Z6 close to the microphone M1 among the zones Z5 and Z6 obtained by dividing the space into two by the microphone M1 and the microphone M3. Judge that there is no
Further, of the zones Z1 and Z2 obtained by dividing the space into two by the microphones M1 and M2, the zone Z near the microphone M1
At 1, it is determined that the sound source does not emit a signal.

【0077】すなわち、ゾーンZ1,Z6にある音源は
信号を発していないと判定するのである。これらのゾー
ンにある音源は音源Cであることから、音源Cが信号を
発していないと判定される。つまり、音源A,Bのみが
信号を発していると判定され、制御信号SCiが生成さ
れて信号SCが抑圧される(図15の209〜21
0)。音源Aのみ、音源Bのみがそれぞれ信号を発して
いないゾーンも、同様に判定される(図15の211〜
214)。
That is, it is determined that the sound sources in the zones Z1 and Z6 do not emit a signal. Since the sound source in these zones is the sound source C, it is determined that the sound source C does not emit a signal. That is, it is determined that only the sound sources A and B are emitting signals, the control signal SCi is generated, and the signal SC is suppressed (209 to 21 in FIG. 15).
0). Zones in which only the sound source A and only the sound source B do not emit a signal are similarly determined (211 to 211 in FIG. 15).
214).

【0078】また、χ1,χ2,χ3がともに基準値T
hQ以下でないと判定されると、音源A,B,Cはその
全てが信号を発していると判定される(図15の21
5)。なお、以上の例では、ゾーンをZ1〜Z6の6つ
に分けたが、図16に示したように、3つに分けても同
様に音源状態を判定できる。この場合は、例えば、音源
Aのみが発音している場合は、マイクロホンM2のチャ
ネルの帯域数χ2が最も大きくなるので、そのマイクロ
ホンM2の司るゾーンZ2に音源があると判定される。
また、音源Bのみが発音している場合はχ3が最も大き
くなり同様にゾーンZ3に音源があると判定される。ま
た、χ1が予め設定した値ThQ以下である場合には、
マイクロホンM1とM3で空間を2分したうちのゾーン
Z1にある音源は発音していないと判定し、同じくマイ
クロホンM1とM2で空間を分割したうちのゾーンZ1
にある音源は信号を発していないと判定する。以上の処
理により、ゾーンを3分割しても、6分割したときと同
様に音源の状態を判定できる。
Further, both # 1, # 2, and # 3 are equal to the reference value T.
If it is determined that they are not less than or equal to hQ, it is determined that all of the sound sources A, B, and C are emitting signals (see 21 in FIG. 15).
5). In the above example, the zones are divided into six zones Z1 to Z6. However, as shown in FIG. 16, even if the zones are divided into three zones, the sound source state can be similarly determined. In this case, for example, when only the sound source A is sounding, the number of bands χ2 of the channel of the microphone M2 is the largest, so it is determined that the sound source exists in the zone Z2 controlled by the microphone M2.
When only the sound source B is sounding, # 3 is the largest, and similarly, it is determined that the sound source exists in the zone Z3. When に は 1 is equal to or less than a preset value ThQ,
It is determined that the sound source in the zone Z1 of the space divided by the microphones M1 and M3 is not sounding, and the zone Z1 of the space divided by the microphones M1 and M2.
Is determined not to emit a signal. With the above processing, even if the zone is divided into three, the state of the sound source can be determined in the same manner as when the zone is divided into six.

【0079】以上の場合の基準値ThP,ThQの設定
は、先の帯域レベルを利用する場合と同様に行えばよ
い。また、基準値ThR,ThP,ThQは、全てのマ
イクロホンM1〜M3で同一値を用いた場合で説明した
が、マイクロホン毎に適宜変更してもよい。また、以上
の説明では、音源が3個でマイクロホンが3個の場合に
ついてであったが、マイクロホンの個数は音源の個数と
同数以上であれば、同様に音源ゾーンを検出することが
できる。その処理手順は先に述べた帯域レベルを利用す
る場合と同様である。従って、例えば音源が4個の場合
に4個の内の3個の音源が発音しているとき(1個が無
音のとき)は、そのままとしても良いが、その3個の内
のより無音に近い1個も選別するには、基準値をThQ
からThS(ThP>ThS>ThQ)に換え、図15
の210,212,214の各々の次段に図15の20
9〜214と同様な処理部分を設けて、3個の内から1
個の無音の音源を判定することも同様である。
The setting of the reference values ThP and ThQ in the above case may be performed in the same manner as in the case where the band level is used. The reference values ThR, ThP, and ThQ have been described in the case where the same value is used for all the microphones M1 to M3, but may be changed as appropriate for each microphone. In the above description, the case where the number of microphones is three and the number of microphones is three is described. However, if the number of microphones is equal to or more than the number of sound sources, the sound source zone can be similarly detected. The processing procedure is the same as the case where the band level described above is used. Therefore, for example, when there are four sound sources and three of the four sound sources are sounding (when one sound is silent), the sound may be left as it is, but the sound becomes more silent among the three sound sources. To select the nearest one, set the reference value to ThQ
To ThS (ThP>ThS> ThQ), and FIG.
In the next stage of each of 210, 212 and 214 of FIG.
Processing parts similar to 9 to 214 are provided, and one out of three
The same applies to the determination of silence sound sources.

【0080】図17に示した処理において、そのレベル
の代りに時間差を用いれば、図18に示した到達時間差
を利用した不要信号の抑圧に、図17に示した処理手順
も適用できる。上述においては各マイクロホンの出力チ
ャネル信号をまず帯域分割したが、帯域別レベルを利用
する場合はまず各チャネルのパワースペクトルを求めた
後、帯域分割してもよい。その例を図19に図1、図1
1と対応する部分と同一符号を付けて示し、これらと異
なる部分のみを説明する。この例ではマイクロホン1,
2よりの各チャネル信号は、パワースペクトル分解部3
00により、例えば高速フーリエ変換によりパワースペ
クトルに変換され、その後、各チャネルごとに帯分割部
4で各帯域に分割され、各帯域ではほぼ1つの音源信号
のみが主として含まれるようにして帯域別レベルを得
る。この場合、音源信号選択部602へ供給する各帯域
別レベルは、その原スペクトルの位相成分も供給し、音
源信号合成部7で音源信号が再生できるようにする。
In the processing shown in FIG. 17, if a time difference is used instead of the level, the processing procedure shown in FIG. 17 can also be applied to suppression of unnecessary signals using the arrival time difference shown in FIG. In the above description, the output channel signal of each microphone is divided into bands first. However, when using the level for each band, the power spectrum of each channel may be obtained first and then divided into bands. FIG. 19 and FIG.
The same reference numerals are given to the parts corresponding to 1, and only the parts different from these will be described. In this example, microphone 1,
2 from the power spectrum decomposing unit 3
00, for example, is converted into a power spectrum by a fast Fourier transform, and is then divided into bands by a band division unit 4 for each channel, and each band contains only approximately one sound source signal so as to mainly include a band-specific level. Get. In this case, each band level supplied to the sound source signal selection unit 602 also supplies the phase component of the original spectrum, so that the sound source signal synthesis unit 7 can reproduce the sound source signal.

【0081】また各帯域別レベルは帯域別チャネル間レ
ベル差検出部5と音源状態判定部70とへ供給され、こ
れらの部分で図1、図11で説明したように処理される
その他の動作は図1又は図11の場合と同一である。図
2を参照して説明した実施例において、チャネル間時間
差を用いずに、各帯域分割信号ごとに、対応帯域別チャ
ネル間時間差のみを用いて、何れの音源から到来したか
を判定してもよい。また図5を参照して説明した実施例
において、チャネル間レベル差を用いずに、各帯域分割
信号ごとに、対応帯域別チャネル間レベル差のみを用い
て、何れの音源から到来したかを判定してもよい。図5
を参照した実施例におけるチャネル間レベル差の検出
は、対数レベルに変換する前のレベルを用いてもよい。
図1中の帯域分割部4、図11、図18中の各帯域分割
部40、図20中の帯域分割部233、図21中の帯域
分割部241における各周波数帯域の分割は必ずしも同
一とする必要はない。要求される精度に応じて、これら
の分割数を互いに異ならせてもよい。図20中の帯域分
割部233はその後の処理のために、その入力信号のパ
ワースペクトルを先ず求め、その後、複数の周波数帯域
に分割してもよい。
The band-specific levels are supplied to the band-specific channel-to-channel level difference detecting section 5 and the sound source state judging section 70, and other operations which are processed in these portions as described with reference to FIGS. This is the same as in FIG. 1 or FIG. In the embodiment described with reference to FIG. 2, without using the time difference between channels, it is possible to determine which sound source has come from each band division signal using only the time difference between channels for each corresponding band. Good. Further, in the embodiment described with reference to FIG. 5, it is determined for each band-divided signal, without using the inter-channel level difference, only the corresponding channel-specific inter-channel level difference to determine which sound source has come from. May be. FIG.
May be used for the detection of the level difference between channels in the embodiment with reference to FIG.
The division of each frequency band by the band division unit 4 in FIG. 1, the band division units 40 in FIG. 11, FIG. 18, the band division unit 233 in FIG. 20, and the band division unit 241 in FIG. No need. These division numbers may be different from each other depending on the required accuracy. The band division unit 233 in FIG. 20 may first obtain the power spectrum of the input signal for subsequent processing, and then divide the input signal into a plurality of frequency bands.

【0082】以下に図6〜9に示したこの発明を適用し
た実験例を示す。図20に示す3種類の2音源信号の組
み合わせにこの発明を適用し、その際に帯域分割部4で
与える周波数分解能を変化させ、分離信号を物理的、及
び主観的に評価した。分離処理前の混合信号は、チャネ
ル間時間差及びレベル差のみを計算機上で与えて加算す
ることにより作成した。与えたチャネル間時間差、レベ
ル差はそれぞれ、0.47ms、2dBである。
An experimental example to which the present invention shown in FIGS. 6 to 9 is applied will be described below. The present invention was applied to a combination of three types of two sound source signals shown in FIG. 20, and at that time, the frequency resolution given by the band division unit 4 was changed, and the separated signal was physically and subjectively evaluated. The mixed signal before the separation processing was created by giving only a time difference between channels and a level difference on a computer and adding them. The given time difference between channels and level difference are 0.47 ms and 2 dB, respectively.

【0083】帯域分割部4の周波数分解能は、約5H
z,10Hz,20Hz,40Hz,80Hzの5種類
とした。これらの分解能で分離した信号と、原信号(O
S)の計6種類の信号について評価した。なお、信号帯
域は約5kHzである。定量的評価を次のように行っ
た。混合された信号の分離が完全に行われた場合、原信
号と分離信号が等しくなる。すなわち、相関係数が1と
なる。そこで、分離度を計る物理量として、各音につい
て原信号と処理後の信号との相関係数を算出した。
The frequency resolution of the band dividing section 4 is about 5H
z, 10 Hz, 20 Hz, 40 Hz, and 80 Hz. The signal separated at these resolutions and the original signal (O
Evaluation was made for a total of six types of signals in S). The signal band is about 5 kHz. Quantitative evaluation was performed as follows. When the separation of the mixed signal is completely performed, the original signal and the separated signal become equal. That is, the correlation coefficient is 1. Therefore, a correlation coefficient between the original signal and the processed signal was calculated for each sound as a physical quantity for measuring the degree of separation.

【0084】結果を、図22に破線で示す。音声は、い
ずれの組み合わせについても、周波数分解能が80Hz
になると相関値がかなり低くなるが、それ以外の分解能
の場合は顕著な差が見られなかった。鳥の鳴き声につい
ては今回用いた周波数分解能の間に顕著な差は見られな
かった。主観評価を次のように行った。
The result is shown by a broken line in FIG. Audio has a frequency resolution of 80 Hz for all combinations
, The correlation value was considerably reduced, but no significant difference was observed at other resolutions. There was no significant difference in the frequency resolution used for bird calls. Subjective evaluation was performed as follows.

【0085】被験者は、正常な聴力を持つ20代から3
0代の日本人5人とした。各音源について、5種類の周
波数分解能の分離音と原音をランダムにヘッドホンでダ
イオティックに提示し、音質について5段階で評価させ
た。一つの音の提示時間は約4秒間であった。結果を、
図22に実線で示す。分離音S1については周波数分解
能10Hzの場合が一番評価が高い。また、全ての条件
に対する評価の間に有意差(α<0.05)が存在し
た。分離音S2〜4、6については周波数分解能20H
zの評価が最も高いが、20Hzと10Hzとの間には
有意差はなかった。また、20Hzの音と5Hz,40
Hz,80Hzの間にはそれぞれ有意差が存在した。こ
れらの結果から、音声については分離する組み合わせの
種類によらず、最適な周波数分解能が存在することが分
かった。この実験の場合は20Hzもしくは10Hz程
度が最適な値である。分離音S5(鳥の鳴き声)につい
ては40Hzの場合が最も評価が高いが有意差は40H
zと5Hz,20Hzと5Hzの間にしか存在しなかっ
た。なお、いずれの場合についても、分離処理後の音と
原音の間には有意差が存在した。
Subjects were in their twenties with normal hearing
Five Japanese in their teens. For each sound source, separated sounds and original sounds of five types of frequency resolution were randomly and diotically presented with headphones, and the sound quality was evaluated on a five-point scale. The presentation time of one sound was about 4 seconds. The result
FIG. 22 shows a solid line. The evaluation of the separated sound S1 is highest when the frequency resolution is 10 Hz. Also, there was a significant difference (α <0.05) between evaluations for all conditions. For the separated sounds S2 to S4 and S6, the frequency resolution is 20H
Although the evaluation of z was the highest, there was no significant difference between 20 Hz and 10 Hz. In addition, 20Hz sound and 5Hz, 40Hz
There was a significant difference between Hz and 80 Hz. From these results, it has been found that there is an optimum frequency resolution regardless of the type of combination to be separated for voice. In this experiment, the optimum value is about 20 Hz or 10 Hz. Regarding the separated sound S5 (bird's cry), the case of 40 Hz is the highest evaluation, but the significant difference is 40H.
It was only between z and 5 Hz, 20 Hz and 5 Hz. In each case, there was a significant difference between the sound after the separation processing and the original sound.

【0086】図21、図23にこの発明の効果を示す。
図21は、分離処理前の男声と女声の混合音声のスペク
トル201とこの発明による分離処理後の男声S1、女
声S2の各スペクトル202,203を表す。図23
は、分離処理前の男声S1、女声S2の各原音声の各波
形をA,Bに、混合音声波形をCに、分離処理後の男声
S1、女声S2の各波形をD,Eにそれぞれ示す。図2
1からは、不要な成分が抑圧されていることが分かる。
さらに、図23からは、分離処理後の音声が原音声と同
程度の品質で復元されていることが分かる。
FIGS. 21 and 23 show the effect of the present invention.
FIG. 21 shows a spectrum 201 of a mixed voice of a male voice and a female voice before the separation processing, and respective spectra 202 and 203 of the male voice S1 and the female voice S2 after the separation processing according to the present invention. FIG.
Indicates the waveforms of the original voices of the male voice S1 and the female voice S2 before separation processing in A and B, the mixed voice waveform in C, and the waveforms of the male voice S1 and female voice S2 after the separation processing in D and E, respectively. . FIG.
From FIG. 1, it can be seen that unnecessary components are suppressed.
Further, it can be seen from FIG. 23 that the sound after the separation processing is restored with the same quality as the original sound.

【0087】帯域分割の分解能は音声の場合、10〜2
0Hz程度が好ましく、5Hz以下、50Hz以上は好
ましくない。帯域分割の手法はフーリエ変換に限らず、
帯域フィルタにより分割してもよい。次に図11に示し
たレベル差を利用して音源状態を判定して信号抑圧部9
0で信号抑圧を行う場合の実験例を示す。2個のマイク
ロホンを用い、2つの音源A,Bをダミーヘッドから距
離1.5m、角度差90度(2つのマイクロホンの中点
に対し右45度、左45度)の位置に置き、同一の音圧
レベルで、残響時間0.2s(500Hz)の可変残響
室内で収音した。用いた混合音と分離音の組み合せは図
22中のS1〜S4である。
The resolution of the band division is 10 to 2 for voice.
About 0 Hz is preferable, and 5 Hz or less and 50 Hz or more are not preferable. The band division method is not limited to Fourier transform,
It may be divided by a band filter. Next, the sound source state is determined using the level difference shown in FIG.
An experimental example when signal suppression is performed at 0 is shown. Using two microphones, the two sound sources A and B were placed at a distance of 1.5 m from the dummy head and at an angle difference of 90 degrees (45 degrees to the right and 45 degrees to the midpoint of the two microphones) and were identical. Sound was collected in a variable reverberation room having a reverberation time of 0.2 s (500 Hz) at a sound pressure level. The combinations of the mixed sound and the separated sound used are S1 to S4 in FIG.

【0088】分離音声S1〜S4について、無音と判定
されたフレームの個数と、原音の無音フレームの個数の
比率を算した。その結果は次の通り90%以上正しく検
出された。 男(S1) 女(S2) 女声1(S3) 女声2(S4) 検出率 99% 93% 92% 95% 図6〜9に示した基本方法と図11に示した改良方法と
のそれぞれで分離した音をランダムにヘッドホンでダイ
オティックに提示し、雑音の交じり具合の少なさと不連
続感の少なさについて評価させた。用いた分離音は前記
S1〜S4であり、被験者は正常な聴力を持つ20代か
ら30代の日本人5名である。一つの音の提示時間は約
4秒間、各音の試行回数は3回である。その結果、雑音
の交じり具合が少ないと評価した率は改良方法が91.
7%、基本方法は8.3%で、改良方法が少ないと判断
した回答が格段と多かった。一方不連続感が少ないにつ
いては改良方法は20.0%、基本方法が80.0%で
基本方法の方が少ないと判断する回答が多かったが、改
良方法との間に有意な差は見られなかった。
For the separated voices S1 to S4, the ratio of the number of frames determined to be silent to the number of silence frames of the original sound was calculated. As a result, 90% or more were correctly detected as follows. Male (S1) Female (S2) Female voice 1 (S3) Female voice 2 (S4) Detection rate 99% 93% 92% 95% Separated by the basic method shown in FIGS. 6 to 9 and the improved method shown in FIG. The sound was randomly presented diotically with headphones, and the participants were evaluated for the degree of noise mixing and the degree of discontinuity. The used separated sounds are S1 to S4, and the subjects are five Japanese people in their twenties to thirties with normal hearing. The presentation time of one sound is about 4 seconds, and the number of trials of each sound is three. As a result, the rate of improvement in the degree of noise mixing was small, and the rate of improvement was 91.
7% and the basic method were 8.3%. On the other hand, when the sense of discontinuity was small, the improvement method was 20.0%, the basic method was 80.0%, and there were many answers that judged that the basic method was less. I couldn't.

【0089】次に分離性能を相対評価を行うため、以下
の5種類の音の分離度の比較を主観評価により行った。 (1)原音 (2)基本法(計算機):チャネル間時間差(0.47
ms)、レベル差(2dB)を与えて計算機上で加算し
た混合信号を、基本方法で分離した音。 (3)改良法(実環境):先の無音区間検出率の実験に
用いた条件で収音した混合音を改良方法で分離した音。 (4)基本法(実環境):先の無音区間検出率の実験に
用いた条件で収音した混合音を基本方法で分離した音。 (5)混合音:先の無音区間検出率の実験に用いた条件
で収音した混合音。
Next, in order to make a relative evaluation of the separation performance, a comparison of the following five types of sound separation was made by subjective evaluation. (1) Original sound (2) Basic method (computer): time difference between channels (0.47
ms), and a mixed signal obtained by adding a level difference (2 dB) on a computer and separating it by a basic method. (3) Improved method (real environment): A sound obtained by separating a mixed sound collected under the conditions used in the above-described experiment on the silent section detection rate by the improved method. (4) Basic method (real environment): A sound obtained by separating a mixed sound collected under the conditions used in the above-described experiment on the silent section detection rate by the basic method. (5) Mixed sound: A mixed sound collected under the conditions used in the above-described experiment on the silence section detection rate.

【0090】図20中の最初の2つの混合音に対し、
“原音”上記(1)〜(4)の方法で処理した音、“混
合音”の計20種類をランダムにヘッドホンでダイオテ
ィックに提示し、分離度について7段階で評価させた。
つまり「最も分離されている」を7点、「最も分離され
ていない」を1点とした。被験者、音の提示時間及び試
行回数は、前記雑音の交じり具合の少なさの評価の場合
と同一である。
For the first two mixed sounds in FIG.
“Original sound” A total of 20 kinds of sounds processed by the above-mentioned methods (1) to (4) and “mixed sounds” were randomly presented diagonally with headphones, and the degree of separation was evaluated in seven levels.
In other words, "most separated" was given 7 points, and "least separated" was given 1 point. The subject, the presentation time of the sound, and the number of trials are the same as in the case of the evaluation of the degree of noise mixing.

【0091】この結果を図24中で、全音源(S0)を
Aに、男声(S1)をBに、女声(S2)をCに、女声
1(S3)をDに、女声2(S4)をEにそれぞれ示
す。全音源について分析した結果(S0)と、音源の種
類毎に分析した結果(S1)〜(S4)とは、ほぼ同じ
傾向を示した。S0〜S4全ての場合について、
“(1)原音”、“(2)基本法(計算機)”、
“(3)改良法(実環境)”、“(4)基本法(実環
境)”、“(5)混合音”の順に分離精度が高い。つま
り実環境では改良方法の方が基本方法より優れている。
The results are shown in FIG. 24. All sound sources (S0) are A, male voices (S1) are B, female voices (S2) are C, female voices 1 (S3) are D, and female voices 2 (S4). Is shown in E respectively. The results (S0) analyzed for all sound sources and the results (S1) to (S4) analyzed for each type of sound source showed almost the same tendency. For all S0 to S4 cases,
“(1) Original sound”, “(2) Basic method (computer)”,
The separation accuracy is higher in the order of “(3) Improved method (real environment)”, “(4) Basic method (real environment)”, and “(5) Mixed sound”. That is, in a real environment, the improved method is superior to the basic method.

【0092】[0092]

【発明の効果】以上述べたようにこの発明によれば複数
のマイクロホンからの各チャネル信号を、主な成分が1
つの音源信号の成分のみからなる程度に複数の帯域に分
割し、これら各同一帯域について、レベル、到達時間を
検出し、これらから、各帯域ごとに何れの音源信号かを
判定分離することにより、各音源信号を正しく分離する
ことができ、しかも実時間での処理が可能である。
As described above, according to the present invention, each channel signal from a plurality of microphones has one main component.
By dividing into a plurality of bands to the extent that it consists of only one sound source signal, detecting the level and arrival time for each of these same bands, and determining and separating which sound source signal for each band from these, Each sound source signal can be correctly separated, and can be processed in real time.

【0093】特に発音していない音源を検出し、その成
分を抑圧することにより、部屋内のような回り込みや、
残響がある場所でも、正確に分離することができる。
By detecting a sound source that is not particularly sounding and suppressing its components, it is possible to wrap around a room,
Even where there is reverberation, it can be accurately separated.

【図面の簡単な説明】[Brief description of the drawings]

【図1】この発明の音源分離装置の実施例の機能構成を
示すブロック図。
FIG. 1 is a block diagram showing a functional configuration of an embodiment of a sound source separation device of the present invention.

【図2】この発明の音源分離方法の実施例の処理手順を
示す流れ図。
FIG. 2 is a flowchart showing a processing procedure of an embodiment of a sound source separation method according to the present invention.

【図3】図2中のチャネル間時間差Δτ1 ,Δτ2 を求
める処理手順の例を示す流れ図。
FIG. 3 is a flowchart showing an example of a processing procedure for obtaining time differences Δτ 1 and Δτ 2 between channels in FIG. 2;

【図4】A,Bはそれぞれ二つの音源信号のスペクトル
の例を示す図である。
FIGS. 4A and 4B are diagrams illustrating examples of spectra of two sound source signals, respectively.

【図5】この発明の音源分離方法で、チャネル間レベル
差を利用して音源分離を行う実施例の処理手順を示す流
れ図。
FIG. 5 is a flowchart showing a processing procedure of an embodiment in which sound source separation is performed using a level difference between channels in the sound source separation method of the present invention.

【図6】この発明音源分離方法で、チャネル間レベル差
と、チャネル間到達時間差を利用する実施例の処理手順
の一部を示す流れ図。
FIG. 6 is a flowchart showing a part of a processing procedure of an embodiment using an inter-channel level difference and an inter-channel arrival time difference in the sound source separation method of the present invention.

【図7】図6中のステップS08の続きを示す流れ図。FIG. 7 is a flowchart showing a continuation of step S08 in FIG. 6;

【図8】図6中のステップS09の続きを示す流れ図。FIG. 8 is a flowchart showing a continuation of step S09 in FIG. 6;

【図9】図6中のステップS10、図7、図8中のステ
ップS20,S30の続きを示す流れ図。
FIG. 9 is a flowchart showing a continuation of step S10 in FIG. 6 and steps S20 and S30 in FIGS. 7 and 8;

【図10】周波数帯域が異なる音源信号を分離する実施
例の機能構成を示すブロック図。
FIG. 10 is a block diagram showing a functional configuration of an embodiment for separating sound source signals having different frequency bands.

【図11】レベル差を利用して不要音源信号を抑圧する
構成を付加したこの発明の音源分離装置の実施例の機能
構成を示すブロック図。
FIG. 11 is a block diagram showing a functional configuration of an embodiment of the sound source separation apparatus according to the present invention to which a structure for suppressing an unnecessary sound source signal by using a level difference is added.

【図12】3つのマイクロホンとその受けもつゾーン
と、2つの音源の配置例を示す図。
FIG. 12 is a diagram showing an example of the arrangement of three microphones, their zones, and two sound sources.

【図13】発音している音源が1つの場合の音源ゾーン
の検出と、抑圧制御信号の生成処理手順の例を示す流れ
図。
FIG. 13 is a flowchart showing an example of a procedure for detecting a sound source zone and generating a suppression control signal when only one sound source is sounding;

【図14】3つのマイクロホンと、その受けもつゾーン
と、3つの音源の配置例を示す図。
FIG. 14 is a diagram showing an example of the arrangement of three microphones, their zones, and three sound sources.

【図15】音源が3つの場合の発音音源のゾーン検出
と、抑圧制御信号の生成処理手順の例を示す流れ図。
FIG. 15 is a flowchart illustrating an example of a procedure for detecting a zone of a sound source and generating a suppression control signal when there are three sound sources;

【図16】3つのマイクロホンによりゾーンを3つに分
割した例と、音源の配置例を示す図。
FIG. 16 is a diagram showing an example in which a zone is divided into three by three microphones, and an example of arrangement of sound sources.

【図17】この発明の音源分離装置において、発音して
いない合成音源信号を抑圧する制御信号を生成するため
の処理手順の例を示す流れ図。
FIG. 17 is a flowchart showing an example of a processing procedure for generating a control signal for suppressing a synthesized sound source signal that is not sounding in the sound source separation device of the present invention.

【図18】到達時間差を利用して不要音源信号を抑圧す
る構成を付加したこの発明の音源分離装置の実施例の機
能構成を示すブロック図。
FIG. 18 is a block diagram showing a functional configuration of an embodiment of a sound source separation apparatus according to the present invention to which a structure for suppressing an unnecessary sound source signal by using a difference in arrival time is added.

【図19】この発明音源分離装置で、パワースペクトル
を求めた後、帯域分割を行う場合の実施例の機能構成を
示すブロック図。
FIG. 19 is a block diagram showing a functional configuration of an embodiment in which band division is performed after obtaining a power spectrum in the sound source separation device of the present invention.

【図20】この発明の実験に用いた音源の種類を示す
図。
FIG. 20 is a diagram showing types of sound sources used in an experiment of the present invention.

【図21】図6〜図9に示した実施例の方法による処理
前と、処理後の音声スペクトルを示す図。
FIG. 21 is a diagram showing a speech spectrum before and after processing according to the method of the embodiment shown in FIGS. 6 to 9;

【図22】図6〜図9に示した実施例の方法を用いた主
観評価実験の結果を示す図。
FIG. 22 is a diagram showing the results of a subjective evaluation experiment using the method of the embodiment shown in FIGS. 6 to 9;

【図23】図6〜図9に示した実施例の方法により処理
した処理後の音声波形と、その原音声波形を示す図。
FIG. 23 is a diagram showing a processed audio waveform processed by the method of the embodiment shown in FIGS. 6 to 9 and its original audio waveform.

【図24】図6〜図9に示した音源分離方法と図11に
示した音源分離装置とについての実験結果を示す図。
FIG. 24 is a view showing experimental results of the sound source separation method shown in FIGS. 6 to 9 and the sound source separation device shown in FIG. 11;

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 21/02 G10L 9/00 H H04S 7/00 (72)発明者 西野 豊 東京都新宿区西新宿三丁目19番2号 日 本電信電話株式会社内 (56)参考文献 特開 平7−168586(JP,A) 特開 平5−344011(JP,A) 米国特許5610991(US,A) (58)調査した分野(Int.Cl.7,DB名) H04R 3/00 320 G01S 5/18 G10L 11/00 G10L 15/20 G10L 19/00 G10L 21/02 H04S 7/00 ──────────────────────────────────────────────────の Continued on the front page (51) Int.Cl. 7 Identification code FI G10L 21/02 G10L 9/00 H H04S 7/00 (72) Inventor Yutaka Nishino 3-19-2 Nishishinjuku, Shinjuku-ku, Tokyo (56) References JP-A-7-168586 (JP, A) JP-A-5-344011 (JP, A) U.S. Pat. No. 5,610,991 (US, A) .Cl. 7 , DB name) H04R 3/00 320 G01S 5/18 G10L 11/00 G10L 15/20 G10L 19/00 G10L 21/02 H04S 7/00

Claims (52)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 互いに離して設けられた複数のマイクロ
ホンを用いて、複数の音源から少なくとも1つの音源を
分離する音源分離方法であって、 上記各マイクロホンの各出力チャネル信号を、複数の周
波数帯域に分割する帯域分割過程と、 上記帯域分割過程で分割された各出力チャネル信号の各
同一帯域ごとに、上記複数のマイクロホンの位置に起因
して変化する、マイクロホンに到達する音響信号のパラ
メータの値の差を、帯域別チャネル間パラメータ値差と
して検出する帯域別チャネル間パラメータ値差検出過程
と、 上記各帯域の帯域別チャネル間パラメータ値差にもとづ
き、その帯域の上記帯域分割された各出力チャネル信号
の何れがいずれの音源から入力された信号であるかを判
定する音源信号判定過程と、 上記音源信号判定過程の判定にもとづき、上記帯域分割
された各出力チャネル信号から、同一音源から入力され
た信号を少なくとも1つ選択する音源信号選択過程と、 上記音源信号選択過程で同一音源からの信号として選択
された複数の帯域信号を音源信号として合成する音源合
成過程とを有することを特徴とする音源分離方法。
1. A sound source separation method for separating at least one sound source from a plurality of sound sources by using a plurality of microphones provided apart from each other, wherein each output channel signal of the microphones is divided into a plurality of frequency bands. And a value of a parameter of an acoustic signal reaching the microphone, which varies depending on the positions of the plurality of microphones, for each of the same bands of each output channel signal divided in the above-described band division process. And a band-based inter-channel parameter value difference detecting step of detecting the difference between the band-based channel-based parameter value differences, and based on the band-based inter-channel parameter value difference of each band, the band-divided output channels of the band. A sound source signal determining step of determining which of the signals is a signal input from which sound source; A sound source signal selecting step of selecting at least one signal input from the same sound source from the band-divided output channel signals based on the determination; and a plurality of signals selected as signals from the same sound source in the sound source signal selecting step. And a sound source synthesizing step of synthesizing the band signal as a sound source signal.
【請求項2】 請求項1記載の方法において、 上記帯域分割過程は各出力チャネル信号の各分割された
帯域信号は、主として1つの音源の音響信号の成分より
なる程度に、小さく分割することを特徴とする音源分離
方法。
2. The method according to claim 1, wherein the band division step divides each divided band signal of each output channel signal into small parts so that the divided band signals mainly include components of an acoustic signal of one sound source. Characteristic sound source separation method.
【請求項3】 請求項1又は2記載の方法において、 上記帯域別チャネル間パラメータ値差検出過程における
上記パラメータ値は音源からの音響信号が上記各マイク
ロホンに到達するまでの時間であり、上記帯域別チャネ
ル間パラメータ値差は各マイクロホンに到達するまでの
時間のマイクロホン間の差である帯域別チャネル間時間
差であることを特徴とする音源分離方法。
3. The method according to claim 1, wherein the parameter value in the step of detecting a parameter value difference between channels for each band is a time until an acoustic signal from a sound source reaches each microphone. A sound source separation method, wherein the parameter value difference between different channels is a time difference between channels, which is a difference between microphones in a time required to reach each microphone.
【請求項4】 請求項3記載の方法において、 上記音響信号が各マイクロホンに到達するまでの時間の
マイクロホン間の差をチャネル間時間差として各マイク
ロホンの出力チャネル信号から検出するチャネル時間差
検出過程を有し、 上記音源信号判定過程は、上記各帯域別チャネル間時間
差について、上記各チャネル間時間差を照合して、その
帯域の上記分割された各出力チャネル信号がいずれの音
源から入力された信号であるかを判定することを特徴と
する音源分離方法。
4. The method according to claim 3, further comprising a channel time difference detecting step of detecting a difference between microphones until the acoustic signal reaches each microphone as an inter-channel time difference from an output channel signal of each microphone. Then, the sound source signal determination step compares the inter-channel time difference for each band, and compares the inter-channel time difference, and the divided output channel signals of the band are signals input from any sound source. A sound source separation method, characterized in that it is determined whether
【請求項5】 請求項4記載の方法において、 上記チャネル時間差検出過程は各出力チャネル信号間の
相互相関を求め、相互相関の各ピークとなるその出力チ
ャネル信号間の各時間差として上記各チャネル間時間差
を求めることを特徴とする音源分離方法。
5. The method according to claim 4, wherein the step of detecting a channel time difference determines a cross-correlation between the output channel signals, and calculates a time difference between the output channel signals at each peak of the cross-correlation. A sound source separation method characterized by calculating a time difference.
【請求項6】 請求項5記載の方法において、 上記帯域別チャネル間時間差は、上記各チャネル間時間
差中の、上記分割された各出力チャネルの同一帯域の成
分の位相差と対応する時間と最も近いものを求めて、そ
の帯域別チャネル間時間差とすることを特徴とする音源
分離方法。
6. The method according to claim 5, wherein the inter-channel time difference for each band is the time corresponding to the phase difference of the component of the same band of each of the divided output channels in the inter-channel time difference. A sound source separation method characterized in that a close one is obtained and the time difference between channels for each band is obtained.
【請求項7】 請求項1又は2記載の方法において、 上記帯域別チャネル間パラメータ値差検出過程における
上記パラメータ値は音源からの音響信号が上記各マイク
ロホンに到達した時の信号レベルであり、上記帯域別チ
ャネル間パラメータ値差は各分割された出力チャネル信
号の対応帯域間のレベル差である帯域別チャネル間レベ
ル差であることを特徴とする音源分離方法。
7. The method according to claim 1, wherein the parameter value in the step of detecting a parameter value difference between channels for each band is a signal level when an acoustic signal from a sound source reaches each of the microphones. A sound source separation method characterized in that the inter-band parameter value difference between bands is a level difference between channels, which is a level difference between corresponding bands of the divided output channel signals.
【請求項8】 請求項7記載の方法において、 上記各マイクロホンの出力チャネル信号間のレベル差
を、チャネル間レベル差として検出するチャネル間レベ
ル差検出過程と、 上記チャネル間レベル差と、対応する帯域別チャネル間
レベル差の全てと比較する比較過程と、 その比較過程で分割帯域の所定数以上が同様の関係にあ
れば、上記チャネル間レベル差にもとづき、対応する出
力チャネル信号の全帯域について同一の音源から入力さ
れた信号であると判定し、上記比較過程で所定値以上が
同様の関係になければ、上記帯域別にいずれの音源から
入力された信号であるかを判定する上記音源信号判定過
程を実行することを特徴とする音源分離方法。
8. The method according to claim 7, wherein a level difference between output channel signals of the microphones is detected as an inter-channel level difference, and the inter-channel level difference is detected. A comparison step of comparing with all of the band-to-channel level differences, and if a predetermined number or more of the divided bands have the same relationship in the comparison step, the entire band of the corresponding output channel signal is calculated based on the inter-channel level difference. The sound source signal is determined to be a signal input from the same sound source, and if the predetermined value or more does not have the same relationship in the comparison process, the sound source signal determination is performed to determine which signal is input from which sound source for each band. A sound source separation method comprising performing a process.
【請求項9】 請求項1又は2記載の方法において、 上記パラメータ値は音源からの音響信号が上記マイクロ
ホンに到達するまでの時間と、その音響信号が到達した
時の信号レベルであり、上記帯域別チャネル間パラメー
タ値差として帯域別チャネル間時間差と、帯域別チャネ
ル間レベル差が求められ、 各音源からの音響信号が上記各マイクロホンに到達する
までの時間のマイクロホン間の差を、各マイクロホンの
出力チャネル信号から、チャネル時間差として検出する
チャネル間時間差検出過程と、 上記チャネル間時間差を基準にして上記分割された各出
力チャネル信号を、低域、中域、高域の3つの周波数領
域に分け領域分割過程とを有し、 上記音源信号判定過程は、 上記分割された低域の周波数帯域については、上記帯域
別チャネル間時間差を利用して対応する帯域の分割され
た各出力チャネル信号の何れがいずれの音源からの入力
信号であるか判定する過程と、 上記分割された中域の周波数帯域については、上記帯域
別チャネル間レベル差と、上記帯域別チャネル間時間差
を利用して、対応する帯域の分割された各出力チャネル
信号の何れがいずれの音源からの入力信号であるか判定
する過程と、 上記分割された高域の周波数帯域については、上記帯域
別チャネル間レベル差を利用して、対応する帯域の分割
された各出力チャネル信号の何れかがいずれの音源から
の入力信号であるか判定する過程とからなることを特徴
とする音源分離方法。
9. The method according to claim 1, wherein the parameter values are a time until an acoustic signal from a sound source reaches the microphone and a signal level when the acoustic signal arrives, and The time difference between channels for each band and the level difference between channels for each band are obtained as the parameter value difference for each channel, and the difference between the microphones in the time required for the acoustic signal from each sound source to reach each microphone is determined by An inter-channel time difference detection process for detecting a channel time difference from an output channel signal; and dividing the output channel signals divided into three frequency regions of a low band, a middle band, and a high band based on the inter-channel time difference. And a sound source signal determining step, wherein, for the divided low frequency band, the band-based channel A step of determining which of the divided output channel signals of the corresponding band is the input signal from which sound source using the time difference; and for the divided middle frequency band, the band-based channel Determining which of the divided output channel signals of the corresponding band is an input signal from which sound source using the inter-level difference and the inter-channel time difference for each band; and A frequency band of the band, using the above-mentioned level difference between channels for each band, determining which of the sound sources is an input signal from which of the divided output channel signals of the corresponding band. A sound source separation method characterized in that:
【請求項10】 請求項1〜9の何れかに記載の方法に
おいて、 上記帯域別チャネル間パラメータ値差検出過程におい
て、その互いに差をとるべき、もとのチャネル信号の周
波数帯域が異なる場合は、その周波数帯域が互いに重な
らない周波数帯域は、上記帯域別チャネル間パラメータ
値差検出過程を実行せず、上記音源信号判定過程ではそ
の信号がある帯域を予め知られている広い帯域の音源か
らの入力信号と判定することを特徴とする音源分離方
法。
10. The method according to claim 1, wherein, in the step of detecting the parameter value difference between channels, if the frequency bands of the original channel signals to be different from each other are different. The frequency bands whose frequency bands do not overlap each other do not execute the above-described band-specific inter-channel parameter value difference detection process, and in the above-mentioned sound source signal determination process, the signal is deemed to have a certain band from a sound source of a wide band that is known in advance. A sound source separation method characterized by determining an input signal.
【請求項11】 互いに離して設けられた複数のマイク
ロホンを用いて、複数の音源から少なくとも1つの音源
を分離する音源分離方法であって、 上記各マイクロホンの各出力チャネル信号のパワースペ
クトルを求めるスペクトル分解過程と、 上記各チャネルごとのパワースペクトルを、主としてほ
ぼ1つの音源の成分が含まれるように複数の周波数帯域
に分割する帯域分割過程と、 上記各同一帯域ごとに、各チャネル間で分割されたパワ
ースペクトル差を、帯域別チャネル間レベル差として検
出する帯域別チャネル間レベル差検出過程と、 上記各帯域の帯域別チャネル間レベル差にもとづき、そ
の帯域の信号が上記出力チャネル信号の何れであるかを
判定する音源信号判定過程と、 上記音源信号判定過程の判定にもとづき、上記分割され
たパワースペクトルから、同一音源からの信号を少なく
とも1つ選択する音源信号選択過程と、 上記音源信号選択過程で同一音源からのものとして選択
されたスペクトルを音源信号として合成する音源合成過
程とを有することを特徴とする音源分離方法。
11. A sound source separation method for separating at least one sound source from a plurality of sound sources by using a plurality of microphones provided apart from each other, wherein a spectrum for obtaining a power spectrum of each output channel signal of each microphone is provided. A decomposition process; a band dividing process of dividing the power spectrum of each channel into a plurality of frequency bands so as to include mainly one sound source component; and a dividing process between the channels for each of the same bands. Detecting a power spectrum difference as a band-to-channel level difference, and a band-to-channel level difference detection step of detecting a band-based channel-to-channel level difference based on the band-to-channel level difference of each band. A sound source signal determining step of determining whether there is a sound source signal; and A sound source signal selecting step of selecting at least one signal from the same sound source from the power spectrum; and a sound source synthesizing step of synthesizing, as a sound source signal, a spectrum selected as being from the same sound source in the sound source signal selecting step. A sound source separation method characterized by the following.
【請求項12】 請求項11記載の方法において、 上記各マイクロホンの出力チャネル信号間のレベル差を
チャネル間レベル差として検出するチャネル間レベル差
検出過程と、 上記チャネル間レベル差と、対応する上記帯域別チャネ
ル間レベル差の全てとを比較する比較過程と、 その比較過程で分割帯域の所定数以上が同様の関係であ
れば、上記チャネル間レベル差にもとづき、対応する出
力チャネル信号の全帯域について同一音源から入力され
た信号であると判定し、上記比較過程で所定値以上が同
様の関係になければ、上記音源信号判定過程を実行する
ことを特徴とする音源分離方法。
12. The method according to claim 11, wherein an inter-channel level difference detecting step of detecting a level difference between output channel signals of the microphones as an inter-channel level difference; A comparison process of comparing all of the band-to-channel level differences, and if a predetermined number or more of the divided bands are similar in the comparison process, the entire band of the corresponding output channel signal is determined based on the inter-channel level difference. Sound source separation method, wherein the sound source separation method determines that the signals are input from the same sound source, and if the predetermined value or more does not have the same relationship in the comparing process, the sound source signal determining process is performed.
【請求項13】 請求項1乃至12の何れかの方法にお
いて、 上記各マイクロホンの出力チャネル信号を、各帯域が主
として1つの音源信号成分になる程度に、複数の周波数
帯域に分割する第2帯域分割過程と、 上記第2帯域分割過程で分割された各出力チャネル信号
の帯域別レベルをそれぞれ検出する帯域別レベル検出過
程と、 その帯域別レベル検出過程で検出された各帯域別レベル
を同一帯域についてチャネル間で比較した結果にもとづ
き発音をしていない音源を検出する音源状態判定過程
と、 その音源状態判定過程で得た発音をしていない音源の検
出信号により、上記音源合成過程で合成された音源信号
のうち、上記発音していない音源と対応する合成信号を
抑圧する信号抑圧過程とを有することを特徴とする音源
分離方法。
13. The method according to claim 1, wherein the output channel signal of each of the microphones is divided into a plurality of frequency bands so that each band is mainly one sound source signal component. A dividing step; a band-specific level detecting step of detecting each band-specific level of each output channel signal divided in the second band dividing step; and each band-level detected in the band-specific level detecting step is set to the same band. The sound source state determination step of detecting a sound source that is not sounding based on the result of comparison between the channels, and the detection signal of the sound source that is not sounding obtained in the sound source state determination step are combined in the sound source synthesis step. A sound source separation method for suppressing a synthesized signal corresponding to the sound source that is not sounding out of the generated sound source signals.
【請求項14】 請求項13の方法において、 上記音源状態判定過程は、上記各帯域別レベルのチャネ
ル間での比較で、最も大きいチャネルを帯域ごとに決定
する過程と、 各チャネルごとに最もレベルが大きい帯域の数を求める
過程と、 上記最もレベルが大きい帯域の数が第1基準値を越える
か否か判定する第1判定過程と、 その第1判定過程で第1基準値を越えると判定すると、
その越えた最もレベルが大きい帯域の数と対応するチャ
ネルのマイクロホン位置から、発音している1個の音源
を推定する過程と、 その推定された音源以外の音源を発音していないものと
して検出する過程とを有することを特徴とする音源分離
方法。
14. The method according to claim 13, wherein the sound source state determination step is a step of determining the largest channel for each band by comparing the channels of each band level, and the step of determining the highest level for each channel. Determining the number of bands having the highest level, determining whether the number of bands having the highest level exceeds the first reference value, and determining that the number exceeds the first reference value in the first determination step. Then
A process of estimating one sounding sound source from the microphone position of the channel corresponding to the number of bands having the highest level and exceeding the number of bands, and detecting sound sources other than the estimated sound source as not sounding. And a sound source separation method.
【請求項15】 請求項1〜12の何れかに記載の方法
において、 上記各マイクロホンの各出力チャネル信号のパワースペ
クトルを求めるスペクトル分解過程と、 上記各チャネルごとのパワースペクトルを、主としてほ
ぼ1つの音源の成分が含まれるように周波数帯域を分割
して帯域別レベルをそれぞれ検出する帯域別レベル検出
過程と、 これら各帯域別レベルを同一帯域について比較し、最大
レベルのチャネルを各帯域ごとに決定する過程と、 各チャネルごとの最大レベルの帯域の数を求める過程
と、 その帯域の数が第1基準値を越えたか否かを判定する第
1判定過程と、 その第1判定過程で第1基準値を越える数と判定する
と、その越えたチャネルのマイクロホンが受けもつ、ゾ
ーンから発音している1個の音源を推定する過程と、 その推定された音源以外の音源は発音していないと判定
する過程と、 上記音源合成過程で合成された音源信号のうち、上記発
音していないと判定された音源と対応する信号を、抑圧
する信号抑圧過程とを有することを特徴とする音源分離
方法。
15. The method according to claim 1, wherein a spectrum decomposing step of obtaining a power spectrum of each output channel signal of each microphone, and a power spectrum of each channel are performed by substantially one A band level detection process of dividing a frequency band so as to include a sound source component and detecting each band level, and comparing each band level for the same band, and determining a maximum level channel for each band. A step of determining the number of maximum-level bands for each channel; a first determining step of determining whether the number of bands exceeds a first reference value; When it is determined that the number exceeds the reference value, a process of estimating one sound source that is sounding from the zone, which is covered by the microphone of the channel that exceeds the reference value; Determining that no sound source other than the estimated sound source is sounding; and suppressing a signal corresponding to the sound source determined to be not sounding among the sound source signals synthesized in the sound source synthesis process. A sound source separation method, comprising: a signal suppression process.
【請求項16】 請求項14又は15の方法において、 上記第1判定過程で、第1基準値を越えるものがないと
判定されると、上記最もレベルが大きい帯域の数が、上
記第1基準値よりも小さい第2基準値以下か否かを判定
する第2判定過程と、 その第2判定過程で、第2基準値より小さいと判定され
ると、その小さいと判定された最もレベルが大きい帯域
の数と対応するチャネルのマイクロホン位置から、発音
していない1個の音源として検出する過程とを有するこ
とを特徴とする音源分離方法。
16. The method according to claim 14, wherein, if it is determined in the first determination step that none of the bands exceed a first reference value, the number of bands having the highest level is determined by the first reference value. A second determination step of determining whether or not the value is equal to or less than a second reference value smaller than the value. If the second determination step determines that the value is smaller than the second reference value, the highest level determined to be smaller is the largest. Detecting a single sound source that is not sounding from the number of bands and the microphone position of the corresponding channel.
【請求項17】 請求項1乃至12の何れかの方法にお
いて、 上記各マイクロホンの出力チャネル信号を、各帯域が主
として1つの音源信号成分になる程度に、複数の周波数
帯域に分割する第2帯域分割過程と、 上記第2帯域分離過程で分割された各出力チャネル信号
のそのマイクロホンへの到達時間差を同一帯域ごとに検
出する帯域別時間差検出過程と、 この帯域別時間差検出過程で検出された各帯域別到達時
間差を、同一帯域についてチャネル間で比較した結果に
もとづき発音をしていない音源を検出する音源状態判定
過程と、 その音源状態判定過程で得た発音をしていない音源の検
出信号により、上記音源合成過程で合成された音源信号
のうち、上記発音していない音源と対応する合成信号を
抑圧する信号抑圧過程とを有することを特徴とする音源
分離方法。
17. The method according to claim 1, wherein the output channel signal of each of the microphones is divided into a plurality of frequency bands such that each band is mainly one sound source signal component. A dividing step; a band-based time difference detecting step of detecting the arrival time difference of each output channel signal divided by the second band separating step to the microphone for each same band; A sound source state determination process of detecting a sound source that is not sounding based on a result of comparing the arrival time difference for each band between channels in the same band, and a detection signal of a sound source that is not sounding obtained in the sound source state determination process. Out of the sound source signals synthesized in the sound source synthesizing step, a signal suppressing step of suppressing a synthesized signal corresponding to the sound source not producing sound. Sound source separation method and butterflies.
【請求項18】 請求項3の方法において、 上記帯域別チャネル間時間差を、同一帯域についてチャ
ネル間で比較した結果にもとづき発音をしていない音源
を検出する音源状態判定過程と、 その音源状態判定過程で得た発音をしていない音源を検
出信号により、上記音源合成過程で合成された音源信号
のうち、上記発音していない音源と対応する信号を抑圧
する信号抑圧過程とを有することを特徴とする音源分離
方法。
18. The method according to claim 3, wherein a sound source state determining step of detecting a sound source that is not generating sound based on a result of comparing the time difference between channels for each band between channels in the same band, and determining the sound source state. And a signal suppressing step of suppressing a signal corresponding to the non-sounding sound source among the sound source signals synthesized in the sound source synthesizing step according to a detection signal of a soundless sound source obtained in the process. Sound source separation method.
【請求項19】 請求項17又は18の方法において、 上記音源状態判定過程は、上記各帯域別到達時間差比較
で最も速く音源信号が到達したチャネルを帯域ごとに決
定する過程と、 各チャネルごとに最も速く到達した帯域の数が第1基準
値を越えるか否かを判定する第1判定過程と、 その第1判定過程が第1基準値を越えると判定すると、
その越えた最も速く到達した帯域数と対応するチャネル
のマイクロホン位置から発音している1個の音源を推定
する過程と、 その推定された音源以外の音源を発音していないものと
して検出する過程とを有することを特徴とする音源分離
方法。
19. The method according to claim 17, wherein the sound source state determination step includes: determining, for each band, a channel in which the sound source signal has reached the earliest in the arrival time difference comparison for each band; A first determining step of determining whether or not the number of bands that have reached the fastest exceeds a first reference value; and determining that the first determining step exceeds the first reference value.
Estimating one sound source that is sounding from the microphone position of the channel that corresponds to the number of bands that have reached the fastest frequency, and detecting other sound sources other than the estimated sound source as not sounding. A sound source separation method comprising:
【請求項20】 請求項19の方法において、 上記第1判定過程で、第基準値を越えるものがないと
判定されると、上記最も速く到達する帯域の数が、上記
第1基準値よりも小さい第2基準値より小さいか否かを
判定する第2判定過程と、 その第2判定過程で、第2基準値より小さいと判定され
ると、その小さいと判定された最も速い到達時間の帯域
数と対応するチャネルのマイクロホン位置から、発音し
ていない1個の音源として検出する過程とを有すること
を特徴とする音源分離方法。
20. The method according to claim 19 , wherein, in the first determining step, when it is determined that there is no one exceeding the first reference value, the number of the bands that reach the earliest is set to be smaller than the first reference value. A second determination step of determining whether or not the second reference value is smaller than the second reference value. If it is determined in the second determination step that the second reference value is smaller than the second reference value, Detecting as a single sound source that is not sounding from the microphone position of the channel corresponding to the number of bands.
【請求項21】 請求項16又は20の方法において、 音源が4個以上の場合で、上記第判定過程で、第
準値より小さいと判定されると、上記第2基準値を上記
第1基準値を越えない範囲内で、順次大きくして、上記
第2判定過程と同じ判定を、(M−2)回以内、Mは音
源の数、繰返す過程を有することを特徴とする音源分離
方法。
21. The method according to claim 16, wherein, when the number of sound sources is four or more, if it is determined in the second determination step that the number is smaller than the second reference value, the second reference value is changed to the second reference value. Sound source separation characterized by successively increasing the size within a range not exceeding one reference value and repeating the same judgment as the second judgment step within (M-2) times, where M is the number of sound sources and Method.
【請求項22】 請求項13〜21の何れかに記載の方
法において、 各出力チャネル信号の全周波数成分のレベルをそれぞれ
検出する全帯域レベル検出過程と、 その全帯域レベル検出過程で検出した各チャネルの全周
波数成分レベルの何れもが第3基準値以下であるかを判
定し、何れかが第3基準値以下でないと判定すると上記
音源状態判定過程に移る第3判定過程とを有することを
特徴とする音源分離方法。
22. The method according to claim 13, wherein an entire band level detecting step for detecting the level of all frequency components of each output channel signal, and Determining whether all of the frequency component levels of the channels are equal to or less than a third reference value, and, if determining that any of the levels is not equal to or less than the third reference value, shifting to the sound source state determination step. Characteristic sound source separation method.
【請求項23】 請求項22の方法において、 上記第3判定過程が第3基準値以下であると判定される
と、上記音源合成過程で合成された各音源信号のすべて
を抑圧する過程を有することを特徴とする音源分離方
法。
23. The method according to claim 22, further comprising the step of suppressing all of the sound source signals synthesized in the sound source synthesizing step when the third judging step is judged to be less than or equal to a third reference value. A sound source separation method characterized in that:
【請求項24】 請求項13〜23の何れかの方法にお
いて、 上記帯域分割過程と上記第2帯域分割過程は同一過程と
して行われることを特徴とする音源分離方法。
24. A sound source separation method according to claim 13, wherein said band division step and said second band division step are performed as the same step.
【請求項25】 互いに離して設けられた複数のマイク
ロホンを用いて、複数の音源から少なくとも1つの音源
を分離する音源分離装置であって、 上記各マイクロホンの各出力チャネル信号を、主として
1つの音源の音響信号の成分のみが含まれる程度に複数
の周波数帯域に分割すると共に、これら分割された各出
力チャネル信号の各同一帯域ごとに、上記複数のマイク
ロホンの位置に起因して変化する、マイクロホンに到達
する音響信号のパラメータの値の差を、帯域別チャネル
間パラメータ値差として検出する帯域別チャネル間パラ
メータ値差検出手段と、 上記各帯域の帯域別チャネル間パラメータ値差にもとづ
き、その帯域の上記帯域分割された各出力チャネル信号
の何れがいずれの音源から入力された信号であるかを判
定する音源信号判定手段と、 上記音源信号判定過程の判定にもとづき、上記帯域分割
された各出力チャネル信号から、同一音源から入力され
た信号を少なくとも1つ選択する音源信号選択手段と、 上記音源信号選択過程で同一音源からの信号として選択
された、複数の帯域信号を音源信号として合成する音源
合成手段とを具備することを特徴とする音源分離装置。
25. A sound source separation device for separating at least one sound source from a plurality of sound sources by using a plurality of microphones provided apart from each other, wherein each output channel signal of each of the microphones is mainly converted into one sound source. A plurality of frequency bands to the extent that only the components of the acoustic signal are included, and for each of the same bands of each of the divided output channel signals, which changes due to the positions of the plurality of microphones. A band-to-band parameter value difference detecting means for detecting a difference between parameter values of an arriving acoustic signal as a band-to-channel parameter value difference, and based on the band-to-channel parameter value difference of each band, A sound source signal for determining which of the band-divided output channel signals is a signal input from which sound source Judging means; sound source signal selecting means for selecting at least one signal input from the same sound source from each of the band-divided output channel signals based on the judgment in the sound source signal judging step; A sound source separation device comprising: sound source synthesizing means for synthesizing a plurality of band signals selected as signals from the same sound source as a sound source signal.
【請求項26】 請求項25の装置において、 上記帯域別チャネル間パラメータ値差検出手段における
上記パラメータ値は音源からの音響信号が上記各マイク
ロホンに到達するまでの時間であり、上記帯域別チャネ
ル間パラメータ値差は各マイクロホンに到達するまでの
時間のマイクロホン間の差である帯域別チャネル間時間
差であることを特徴とする音源分離装置。
26. The apparatus according to claim 25, wherein the parameter value in the band-by-band parameter value difference detecting means is a time until an acoustic signal from a sound source reaches each of the microphones. A sound source separation apparatus, wherein the parameter value difference is a time difference between channels for each band, which is a difference between microphones in a time required to reach each microphone.
【請求項27】 請求項25の装置において、 上記音響信号が各マイクロホンに到達するまでの時間の
マイクロホン間の差をチャネル間時間差として各マイク
ロホンの出力チャネル信号から検出するチャネル時間差
検出手段を有し、 上記音源信号判定手段は、上記各帯域別チャネル間時間
差について、上記各チャネル間時間差を照合して、その
帯域の上記分割された各出力チャネル信号がいずれの音
源から入力された信号であるかを判定する手段であるこ
とを特徴とする音源分離装置。
27. The apparatus according to claim 25, further comprising a channel time difference detecting means for detecting a difference between microphones until the acoustic signal reaches each microphone as a channel time difference from an output channel signal of each microphone. The sound source signal determination unit checks the time difference between the channels for each band, and compares the time difference between the channels to determine which of the sound sources the divided output channel signals of the band are input from. A sound source separation device, which is means for determining
【請求項28】 請求項25の装置において、 上記帯域別チャネル間パラメータ値差検出手段における
上記パラメータ値は音源からの音響信号が上記各マイク
ロホンに到達した時の信号レベルであり、上記帯域別チ
ャネル間パラメータ値差は各分割された出力チャネル信
号の対応帯域間のレベル差である帯域別チャネル間レベ
ル差であることを特徴とする音源分離装置。
28. The apparatus according to claim 25, wherein said parameter value in said band-by-band parameter value difference detecting means is a signal level when an acoustic signal from a sound source reaches said microphone. A sound source separation apparatus, wherein the inter-parameter value difference is a band-to-channel inter-channel level difference that is a level difference between corresponding bands of the divided output channel signals.
【請求項29】 請求項28の装置において、 上記各マイクロホンの出力チャネル信号間のレベル差
を、チャネル間レベル差として検出するチャネル間レベ
ル差検出手段と、 上記チャネル間レベル差と、対応する帯域別チャネル間
レベル差の全てと比較する比較手段と、その比較手段で
分割帯域の所定数以上が同様の関係にあれば、上記チャ
ネル間レベル差にもとづき、対応する出力チャネル信号
の全帯域について同一の音源から入力された信号である
と判定し、上記比較手段で所定値以上が同様の関係にな
ければ、上記帯域別にいずれの音源から入力された信号
であるかを判定する上記音源信号判定手段を実行する手
段を含むことを特徴とする音源分離装置。
29. The apparatus according to claim 28, wherein: an inter-channel level difference detecting means for detecting a level difference between output channel signals of the respective microphones as an inter-channel level difference; Comparing means for comparing with all of the level differences between different channels, and if the predetermined number or more of the divided bands have the same relationship, the same means for the entire band of the corresponding output channel signal based on the level difference between the channels. The sound source signal determination means determines that the signal is input from a sound source of the sound source, and if the predetermined value or more does not have the same relation in the comparison means, the sound source signal determination means determines which of the sound sources is input from each of the bands. A sound source separation device comprising:
【請求項30】 請求項25の装置において、 上記パラメータ値は音源からの音響信号が上記マイクロ
ホンに到達するまでの時間と、その音響信号が到達した
時の信号レベルであり、上記帯域別チャネル間パラメー
タ値差として帯域別チャネル間時間差と、帯域別チャネ
ル間レベル差が求められ、 各音源からの音響信号が上記各マイクロホンに到達する
までの時間のマイクロホン間の差と、各マイクロホンの
出力チャネル信号から、チャネル時間差として検出する
チャネル間時間差検出手段と、 上記チャネル間時間差を基準にして、上記分割された各
出力チャネル信号を、低域、中域、高域の3つの周波数
領域に分ける領域分割手段とを有し、 上記音源信号判定手段は、 上記分割された低域の周波数帯域については、上記帯域
別チャネル間時間差を利用して対応する帯域の分割され
た各出力チャネル信号の何れがいずれの音源からの入力
信号であるか判定する手段と、 上記分割された中域の周波数帯域については、上記帯域
別チャネル間レベル差と、上記帯域別チャネル間時間差
を利用して、対応する帯域の分割された各出力チャネル
信号の何れがいずれの音源からの入力信号であるか判定
する手段と、 上記分割された高域の周波数帯域については、上記帯域
別チャネル間レベル差を利用して、対応する帯域の分割
された各出力チャネル信号の何れかがいずれの音源から
の入力信号であるか判定する手段とからなることを特徴
とする音源分離装置。
30. The apparatus according to claim 25, wherein the parameter values are a time until an acoustic signal from a sound source reaches the microphone and a signal level when the acoustic signal reaches the microphone. The time difference between channels for each band and the level difference between channels for each band are obtained as the parameter value difference. The difference between the microphones in the time until the acoustic signal from each sound source reaches each of the microphones, and the output channel signal of each microphone And an inter-channel time difference detecting means for detecting the time difference as a channel time difference, and dividing the output channel signals into three frequency regions of a low band, a middle band, and a high band based on the inter-channel time difference. Means, and the sound source signal determination means, for the divided low frequency band, Means for determining which of the divided output channel signals of the corresponding band is the input signal from which sound source by using the difference, and for the divided middle frequency band, Means for determining which of the divided output channel signals of the corresponding band is an input signal from which sound source using the inter-channel level difference and the inter-channel time difference for each band, For the high frequency band, using the above-mentioned band-to-channel level difference, means for determining which of the sound source is any of the output channel signals obtained by dividing the corresponding band. A sound source separation device characterized in that:
【請求項31】 請求項25乃至30の何れかの装置に
おいて、 上記帯域分割された各出力チャネル信号の帯域別レベル
をそれぞれ検出する帯域別レベル検出手段と、 その帯域別レベル検出手段が検出された各帯域別レベル
を同一帯域についてチャネル間で比較した結果にもとづ
き発音をしていない音源を検出する音源状態判定手段
と、 その音源状態判定手段で得た発音をしていない音源の検
出信号により、上記音源合成手段で合成された音源信号
のうち、上記発音していない音源と対応する信号を抑圧
する信号抑圧手段とを有することを特徴とする音源分離
装置。
31. The apparatus according to claim 25, wherein the band-specific level detecting means for detecting a band-specific level of each of the band-divided output channel signals, and the band-specific level detecting means are detected. Sound source state determination means for detecting a sound source that is not sounding based on the result of comparing the levels for each band in the same band between channels, and a detection signal of a sound source that is not sounding obtained by the sound source state determination means. And a signal suppressing unit for suppressing a signal corresponding to the sound source not sounding among the sound source signals synthesized by the sound source synthesizing unit.
【請求項32】 請求項31の装置において、 上記音源状態判定手段は、上記各帯域別レベルのチャネ
ル間での比較で、最も大きいチャネルを帯域ごとに決定
する手段と、 各チャネルごとに最もレベルが大きい帯域の数を求める
手段と、 上記最もレベルが大きい帯域の数が第1基準値を越える
か否か判定する第1判定手段と、 その第1判定手段で第1基準値を越えると判定すると、
その越えた最もレベルが大きい帯域の数と対応するチャ
ネルのマイクロホン位置から、発音している1個の音源
を推定する手段と、 その推定された音源以外の音源を発音していないものと
して検出する手段とを有することを特徴とする音源分離
装置。
32. The apparatus according to claim 31, wherein the sound source state determining means determines the largest channel for each band by comparing the channels of each band level, and the highest level for each channel. Means for determining the number of bands having a large level, first determining means for determining whether or not the number of bands having the highest level exceeds a first reference value, and determining that the number exceeds the first reference value by the first determining means Then
Means for estimating one sound source that is sounding from the microphone position of the channel corresponding to the number of bands having the highest level and the sound source other than the estimated sound source being detected as not sounding Means for separating sound sources.
【請求項33】 請求項32の装置において、 上記第1判定手段で、第1基準値を越えるものがないと
判定されると、上記最もレベルが大きい帯域の数が、上
記第1基準値よりも小さい第2基準値以下か否かを判定
する第2判定手段と、 その第2判定手段で、第2基準値より小さいと判定され
ると、その小さいと判定された最もレベルが大きい帯域
の数と対応するチャネルのマイクロホン位置から、発音
していない1個の音源として検出する手段とを有するこ
とを特徴とする音源分離装置。
33. The apparatus according to claim 32 , wherein if the first determination means determines that none of the bands exceed the first reference value, the number of bands having the highest level is higher than the first reference value. Determining means for determining whether or not the second reference value is smaller than the second reference value. If the second determining means determines that the value is smaller than the second reference value, Means for detecting a single sound source that is not producing sound from the microphone position of the channel corresponding to the number.
【請求項34】 請求項25乃至30の何れかの装置に
おいて、 上記帯域分割された各出力チャネル信号のそのマイクロ
ホンへの到達時間差を同一帯域ごと検出する帯域別時間
差検出手段と、 この帯域別時間差検出手段で検出された各帯域別到達時
間差を、同一帯域についてチャネル間で比較した結果に
もとづき発音をしていない音源を検出する音源状態判定
手段と、 その音源状態判定手段で得た発音をしていない音源を検
出信号により、上記音源合成手段で合成された音源信号
のうち、上記発音していない音源と対応する信号を抑圧
する信号抑圧手段とを有することを特徴とする音源分離
装置。
34. The apparatus according to claim 25, wherein a time difference detecting means for each band detects a difference in arrival time of each of the band-divided output channel signals to the microphone for the same band, and a time difference for each band. A sound source state determination unit that detects a sound source that is not sounding based on a result of comparing the arrival time differences for each band detected by the detection unit between channels in the same band, and a sound source obtained by the sound source state determination unit. A sound source separation device, comprising: a signal suppressing unit that suppresses a signal corresponding to the sound source that is not sounding among the sound source signals synthesized by the sound source synthesizing unit based on a detection signal of a sound source that is not sounded.
【請求項35】 請求項34の装置において、 上記音源状態判定手段は、上記各帯域別到達時間差比較
で最も速く音源信号が到達したチャネルを帯域ごとに決
定する手段と、 各チャネルごとに最も速く到達した帯域の数が第1基準
値を越えるか否かを判定する第1判定手段と、 その第1判定手段が第基準値を越えると判定すると、
その越えた最も速く到達した帯域数と対応するチャネル
のマイクロホン位置から発音している1個の音源を推定
する手段と、 その推定された音源以外の音源を発音していないものと
して検出する手段とを有することを特徴とする音源分離
装置。
35. The apparatus according to claim 34, wherein said sound source state determination means determines, for each band, a channel in which the sound source signal has reached the earliest in said arrival time difference comparison for each band, First determining means for determining whether or not the number of arrived bands exceeds a first reference value; and when the first determining means determines that the number exceeds the first reference value,
Means for estimating one sound source that is sounding from the microphone position of the channel corresponding to the number of bands that have reached the fastest, and means for detecting sound sources other than the estimated sound source as not sounding. A sound source separation device comprising:
【請求項36】 請求項35の装置において、 上記第1判定手段で、第1基準値を越えるものがないと
判定されると、上記最も速く到達する帯域の数が、上記
第1基準値よりも小さい第2基準値以下か否かを判定す
る第2判定手段と、 その第2判定手段で、第2基準値より小さいと判定され
ると、その小さいと判定された最も速い到達時間の帯域
数と対応するチャネルのマイクロホン位置から、発音し
ていない1個の音源として検出する手段とを有すること
を特徴とする音源分離装置。
36. The apparatus according to claim 35, wherein when the first determination means determines that there is no one exceeding the first reference value, the number of the bands that reach the fastest is set to be smaller than the first reference value. Determining means for determining whether or not the second reference value is smaller than the second reference value. If the second determining means determines that the value is smaller than the second reference value, the band of the fastest arrival time determined to be smaller is smaller than the second reference value. Means for detecting a single sound source that is not producing sound from the microphone position of the channel corresponding to the number.
【請求項37】 請求項31〜36の何れかに記載の装
置において、 各出力チャネル信号の全周波数成分のレベルをそれぞれ
検出する全帯域レベル検出手段と、 その全帯域レベル検出手段で検出した各チャネルの全周
波数成分レベルの何れもが第3基準値以下であるかを判
定し、何れかが第1基準値以下でないと判定すると、上
記音源状態判定手段に移る第3判定手段とを有すること
を特徴とする音源分離装置。
37. The apparatus according to claim 31, wherein the whole band level detecting means for detecting the level of all frequency components of each output channel signal, and each of the signals detected by the whole band level detecting means. Determining whether all of the frequency component levels of the channels are equal to or less than a third reference value and, if determining that any of the frequency component levels is not equal to or less than the first reference value, shifting to the sound source state determination means; A sound source separation device characterized by the above-mentioned.
【請求項38】 互いに離して設けられた複数のマイク
ロホンを用いて、複数の音源から少なくとも1つの音源
を分離する下記過程を有する音源分離方法のプログラム
を記録した記録媒体であって、 上記各マイクロホンの各出力チャネル信号を、主に1つ
の音源の音響信号の成分のみを含む程度に複数の周波数
帯域に分割すると共にこれら分割された各出力チャネル
信号の各同一帯域ごとに、上記複数のマイクロホンの位
置に起因して変化する、マイクロホンに到達する音響信
号のパラメータの値の差を、帯域別チャネル間パラメー
タ値差として検出する帯域別チャネル間パラメータ値差
検出過程と、 上記各帯域の帯域別チャネル間パラメータ値差にもとづ
き、その帯域の上記帯域分割された各出力チャネル信号
の何れがいずれの音源から入力された信号であるかを判
定する音源信号判定過程と、 上記音源信号判定過程の判定にもとづき、上記帯域分割
された各出力チャネル信号から、同一音源から入力され
た信号を少なくとも1つ選択する音源信号選択過程と、 上記音源信号選択過程で同一音源からの信号として選択
された複数の帯域信号を音源信号として合成する音源合
成過程とを有するコンピュータにより読出し可能な記録
媒体。
38. A recording medium recording a program of a sound source separation method having the following process of separating at least one sound source from a plurality of sound sources using a plurality of microphones provided apart from each other, wherein each of the microphones Is divided into a plurality of frequency bands so as to mainly include only the sound signal component of one sound source, and each of the divided output channel signals is divided into the same band by the plurality of microphones. A band-based inter-channel parameter value difference detecting step of detecting, as a band-based inter-channel parameter value difference, a parameter value difference of an acoustic signal arriving at the microphone that changes due to the position; Of the output channel signals divided into the above-mentioned band in the band based on the parameter value difference between A sound source signal determining step of determining whether the signal is a divided signal, and a sound source for selecting at least one signal input from the same sound source from each of the band-divided output channel signals based on the determination of the sound source signal determining step. A computer-readable recording medium comprising: a signal selecting step; and a sound source synthesizing step of synthesizing, as a sound source signal, a plurality of band signals selected as signals from the same sound source in the sound source signal selecting step.
【請求項39】 請求項38の記録媒体において、 上記帯域別チャネル間パラメータ値差検出過程における
上記パラメータ値は音源からの音響信号が上記各マイク
ロホンに到達するまでの時間であり、上記帯域別チャネ
ル間パラメータ値差は各マイクロホンに到達するまでの
時間のマイクロホン間の差である帯域別チャネル間時間
差であって、 上記プログラムは上記音響信号が各マイクロホンに到達
するまでの時間のマイクロホン間の差をチャネル間時間
差として各マイクロホンの出力チャネル信号から検出す
るチャネル時間差検出過程を有し、 上記音源信号判定過程は、上記各帯域別チャネル間時間
差について、上記各チャネル間時間差を照合して、その
帯域の上記分割された各出力チャネル信号がいずれの音
源から入力された信号であるかを判定することを特徴と
する記録媒体。
39. The recording medium according to claim 38, wherein the parameter value in the band-by-band parameter value difference detection process is a time required for an acoustic signal from a sound source to reach each of the microphones. The inter-parameter value difference is a time difference between channels for each band, which is a difference between microphones in a time required to reach each microphone. The program calculates a difference between microphones in a time required for the acoustic signal to reach each microphone. A channel time difference detecting step of detecting from the output channel signal of each microphone as the inter-channel time difference, wherein the sound source signal determining step compares the inter-channel time difference with respect to each band-by-band inter-channel time difference, and Each of the divided output channel signals is a signal input from any sound source. A recording medium characterized by determining whether a
【請求項40】 請求項39の記録媒体において、 上記チャネル時間差検出過程は各出力チャネル信号間の
相互相関を求め、相互相関の各ピークとなる、その出力
チャネル信号間の各時間差上記各チャネル間時間差
して求めることを特徴とする記録媒体。
A recording medium 40. 39. The channel time difference detection process obtains a correlation between the output channel signals, and each peak of the cross-correlation, each channel each time difference between the output channel signals Time difference between
A recording medium characterized by being determined by:
【請求項41】 請求項40の記録媒体において、 上記帯域別チャネル間時間差は、上記各チャネル間時間
差中の、上記分割された各出力チャネルの同一帯域の成
分の位相差と対応する時間と最も近いものを求めて、そ
の帯域別チャネル間時間差とすることを特徴とする記録
媒体。
41. The recording medium according to claim 40, wherein the time difference between channels for each band is the time corresponding to the phase difference between components of the same band of each of the divided output channels in the time difference between channels. A recording medium characterized by finding a close one and taking the time difference between channels for each band.
【請求項42】 請求項38の記録媒体において、 上記帯域別チャネル間パラメータ値差検出過程における
上記パラメータ値は音源からの音響信号が上記各マイク
ロホンに到達した時の信号レベルであり、上記帯域別チ
ャネル間パラメータ値差は各分割された出力チャネル信
号の対応帯域間のレベル差である帯域別チャネル間レベ
ル差であって、 上記プログラムは上記各マイクロホンの出力チャネル信
号間のレベル差を、チャネル間レベル差として検出する
チャネル間レベル差検出過程と、 上記チャネル間レベル差と、対応する帯域別チャネル間
レベル差の全てと比較する比較過程と、その比較過程で
分割帯域の所定数以上が同様の関係にあれば、上記チャ
ネル間レベル差にもとづき、対応する出力チャネル信号
の全帯域について同一の音源から入力された信号である
と判定し、上記比較過程で所定値以上が同様の関係にな
ければ、上記帯域別にいずれの音源から入力された信号
であるかを判定する、上記音源信号判定過程と実行する
過程とを有することを特徴とする記録媒体。
42. The recording medium according to claim 38, wherein the parameter value in the band-by-band parameter value difference detection step is a signal level when an acoustic signal from a sound source reaches each of the microphones. The inter-channel parameter value difference is a band-to-channel level difference which is a level difference between corresponding bands of the divided output channel signals, and the program calculates a level difference between output channel signals of the microphones between channels. A step of detecting an inter-channel level difference detected as a level difference, a comparing step of comparing the inter-channel level difference with all of the corresponding inter-channel level differences, and a predetermined number of divided bands equal to or more than the same in the comparing step. If there is a relationship, the same sound source is used for all bands of the corresponding output channel signal based on the level difference between the channels. It is determined that the signal is input from, and if the predetermined value or more is not in the same relationship in the comparison process, it is determined whether the signal is input from which sound source for each band, the sound source signal determination process and Executing the recording medium.
【請求項43】 請求項38の記録媒体において、 上記プログラムは上記パラメータ値は音源からの音響信
号が上記マイクロホンに到達するまでの時間と、その音
響信号が到達した時の信号レベルであり、上記帯域別チ
ャネル間パラメータ値差として帯域別チャネル間時間差
と、帯域別チャネル間レベル差が求められ、 各音源からの音響信号が上記各マイクロホンに到達する
までの時間のマイクロホン間の差を、各マイクロホンの
出力チャネル信号から、チャネル時間差として検出する
チャネル間時間差検出過程と、 上記チャネル間時間差を基準にして、上記分割された各
出力チャネル信号を、低域、中域、高域の3つの周波数
領域に分ける領域分割過程とを有し、 上記音源信号判定過程は、 上記分割された低域の周波数帯域については、上記帯域
別チャネル間時間差を利用して対応する帯域の分割され
た各出力チャネル信号の何れがいずれの音源からの入力
信号であるか判定する過程と、 上記分割された中域の周波数帯域については、上記帯域
別チャネル間レベル差と、上記帯域別チャネル間時間差
を利用して、対応する帯域の分割された各出力チャネル
信号の何れがいずれの音源からの入力信号であるか判定
する過程と、 上記分割された高域の周波数帯域については、上記帯域
別チャネル間レベル差を利用して、対応する帯域の分割
された各出力チャネル信号の何れがいずれの音源からの
入力信号であるか判定する過程とからなることを特徴と
する記録媒体。
43. The recording medium according to claim 38, wherein in the program, the parameter values are a time until an acoustic signal from a sound source reaches the microphone and a signal level when the acoustic signal reaches the microphone. The time difference between channels for each band and the level difference between channels for each band are obtained as the parameter value difference between channels for each band, and the difference between the microphones in the time required for the acoustic signal from each sound source to reach each of the microphones is determined by each microphone. And an inter-channel time difference detecting process for detecting the time difference between channels as a channel time difference from the output channel signal. The sound source signal determination step includes: for the divided low frequency band, A step of determining which of the output channel signals obtained by dividing the corresponding band by using the time difference between the channels for each band is an input signal from which sound source, and regarding the divided middle frequency band, A step of determining which of the sound source is an input signal from which sound source, using the band-to-channel level difference and the band-to-channel time difference, With respect to the divided high frequency band, it is determined which of the divided output channel signals of the corresponding band is the input signal from which sound source by using the above-mentioned inter-channel level difference for each band. And a recording medium.
【請求項44】 請求項38乃至43の何れかの記録媒
体において、 上記プログラムは上記帯域分割された各出力チャネル信
号の帯域別レベルをそれぞれ検出する帯域別レベル検出
過程と、 その帯域別レベル検出過程が検出された各帯域別レベル
を同一帯域についてチャネル間で比較した結果にもとづ
き発音をしていない音源を検出する音源状態判定過程
と、 その音源状態判定過程で得た発音をしていない音源の検
出信号により、上記音源合成過程で合成された音源信号
のうち、上記発音していない音源と対応する信号を抑圧
する信号抑圧過程とを有することを特徴とする記録媒
体。
44. The recording medium according to claim 38, wherein the program detects a band-specific level of each band-divided output channel signal, and the band-specific level detection. A sound source state determination process of detecting a sound source that is not sounding based on a result of comparing the level of each band in which the process is detected for the same band between channels, and a sound source that is not sounding obtained in the sound source state determination process A signal suppressing step of suppressing a signal corresponding to the sound source that is not sounding out of the sound source signals synthesized in the sound source synthesizing step in response to the detection signal.
【請求項45】 請求項44の記録媒体において、 上記音源状態判定過程は、上記各帯域別レベルのチャネ
ル間での比較で、最も大きいチャネルを帯域ごとに決定
する過程と、 各チャネルごとに最もレベルが大きい帯域の数を求める
過程と、 上記最もレベルが大きい帯域の数が第1基準値を越える
か否か判定する第1判定過程と、 その第1判定過程で第1基準値を越えると判定すると、
その越えた最もレベルが大きい帯域の数と対応するチャ
ネルのマイクロホン位置から、発音している1個の音源
を推定する過程と、 その推定された音源以外の音源を発音していないものと
して検出する過程とを有することを特徴とする記録媒
体。
45. The recording medium according to claim 44, wherein the sound source state determination step includes a step of determining the largest channel for each band by comparing the channels at each band level, and a step of determining the largest channel for each channel. A step of obtaining the number of bands having the highest level; a first determining step of determining whether the number of bands having the highest level exceeds the first reference value; and a step of determining whether the number of bands having the highest level exceeds the first reference value. When judged,
A process of estimating one sounding sound source from the microphone position of the channel corresponding to the number of bands having the highest level and exceeding the number of bands, and detecting sound sources other than the estimated sound source as not sounding. And a recording medium.
【請求項46】 請求項45の記録媒体において、 上記プログラムは上記第1判定過程で、第1基準値を越
えるものがないと判定されると、上記最もレベルが大き
い帯域の数が、上記第1基準値よりも小さい第2基準値
以下か否かを判定する第3判定過程と、 その第2判定過程で、第2基準値より小さいと判定され
ると、その小さいと判定された最もレベルが大きい帯域
の数と対応するチャネルのマイクロホン位置から、発音
していない1個の音源として検出する過程とを有するこ
とを特徴とする記録媒体。
46. The recording medium according to claim 45, wherein in the first determination step, when it is determined that none of the programs exceeds a first reference value, the number of the bands having the highest level is determined by the number of the bands. A third determination step of determining whether the value is equal to or less than a second reference value smaller than one reference value, and in the second determination step, when it is determined that the value is smaller than the second reference value, the highest level determined to be smaller than the second reference value Detecting from the microphone position of the channel corresponding to the number of bands having a large number as a single sound source that is not sounding.
【請求項47】 請求項38乃至43の何れかの記録媒
体において、 上記プログラムは上記帯域分割された各出力チャネル信
号のそのマイクロホンへの到達時間差を同一帯域ごと検
出する帯域別時間差検出過程と、 この帯域別時間差検出過程で検出された各帯域別到達時
間差を、同一帯域についてチャネル間で比較した結果に
もとづき、発音をしていない音源を検出する音源状態判
定過程と、 その音源状態判定過程で得た発音をしていない音源を検
出した検出信号により、上記音源合成過程で合成された
音源信号のうち、上記発音していない音源と対応する信
号を抑圧する信号抑圧過程とを有することを特徴とする
記録媒体。
47. The recording medium according to claim 38, wherein the program detects a time difference for each band for detecting a difference in arrival time of each of the band-divided output channel signals to the microphone for the same band. Based on the result of comparing the arrival time differences for each band detected in the time difference detection process for each band between channels in the same band, a sound source state determination process for detecting a sound source that is not sounding, and a sound source state determination process for the sound source state determination process. A signal suppressing step of suppressing a signal corresponding to the sound source that is not sounding among the sound source signals synthesized in the sound source synthesizing step by a detection signal that detects the obtained sound source that is not sounding. Recording medium.
【請求項48】 請求項47の記録媒体において、 上記音源状態判定過程は、上記各帯域別到達時間差比較
で、最も速く音源信号が到達したチャネルを帯域ごとに
決定する過程と、 各チャネルごとに最も速く到達した帯域の数が第1基準
値を越えるか否かを判定する第1判定過程と、 その第1判定過程が第2基準値を越えると判定すると、
その越えた最も速く到達した帯域数と対応するチャネル
のマイクロホン位置から発音している1個の音源を推定
する過程と、 その推定された音源以外の音源を発音していないものと
して検出する過程とを有することを特徴とする記録媒
体。
48. The recording medium according to claim 47, wherein said sound source state determination step includes a step of determining, for each band, a channel at which the sound source signal has reached the earliest in each of said band arrival time difference comparisons. A first determining step of determining whether or not the number of bands that arrived fastest exceeds a first reference value; and determining that the first determining step exceeds a second reference value.
Estimating one sound source that is sounding from the microphone position of the channel that corresponds to the number of bands that have reached the fastest frequency, and detecting other sound sources other than the estimated sound source as not sounding. A recording medium comprising:
【請求項49】 請求項48の記録媒体において、 上記プログラムは上記第1判定過程で、第1基準値を越
えるものがないと判定されると、上記最も速く到達する
帯域の数が、上記第1基準値よりも小さい第2基準値よ
り小さいか否かを判定する第2判定過程と、 その第3判定過程で、第2基準値より小さいと判定され
ると、その小さいと判定された最も速い到達時間の帯域
数と対応するチャネルのマイクロホン位置から、発音し
ていない1個の音源として検出する過程とを有すること
を特徴とする記録媒体。
49. The recording medium according to claim 48, wherein in the first determining step, when it is determined that there is no one exceeding a first reference value, the number of the bands that reach the fastest is determined by the number of the bands. A second determination step of determining whether the second reference value is smaller than a second reference value smaller than the first reference value; and a third determination step, when it is determined that the second reference value is smaller than the second reference value, Detecting from the number of bands of the fast arrival time and the microphone position of the corresponding channel as one sound source that is not sounding.
【請求項50】 請求項46又は49の記録媒体におい
て、 音源が4個以上の場合で、上記プログラムは上記第2判
定過程で、第2基準値より小さいと判定されると、上記
第2基準値を上記第1基準値を越えない範囲内で、順次
大きくして、上記第2判定過程と同じ判定を(M−2)
以内、Mは音源の数、繰返す過程を有することを特徴と
する記録媒体。
50. The recording medium according to claim 46, wherein when the number of sound sources is four or more, and the program is determined in the second determination step to be smaller than a second reference value, the second reference value The value is sequentially increased within a range not exceeding the first reference value, and the same determination as in the second determination step is performed (M-2).
Wherein M is the number of sound sources and has a repeating process.
【請求項51】 請求項44〜50の何れかに記載の記
録媒体において、 上記プログラムは各出力チャネル信号の全周波数成分の
レベルをそれぞれ検出する全帯域レベル検出過程と、 その全帯域レベル検出過程で検出した各チャネルの全周
波数成分レベルの何れもが第3基準値以下であるかを判
定し、何れかが第3基準値以下でないと判定すると、上
記音源状態判定過程に移る第3判定過程とを有すること
を特徴とする記録媒体。
51. The recording medium according to claim 44, wherein the program detects an entire band level detecting step of detecting the level of all frequency components of each output channel signal, and the entire band level detecting step. It is determined whether all of the frequency component levels of the respective channels detected in the above are below the third reference value, and if it is determined that none of them are below the third reference value, the third determination step proceeds to the sound source state determination step. And a recording medium comprising:
【請求項52】 請求項47〜50の何れかに記載の記
録媒体において、上記プログラムは上記チャネル時間差
検出過程は上記帯域時間差検出過程を兼ねていることを
特徴とする記録媒体。
52. The recording medium according to claim 47, wherein said program has said channel time difference detection step also serving as said band time difference detection step.
JP25231297A 1996-09-18 1997-09-17 Sound source separation method, apparatus and recording medium Expired - Lifetime JP3355598B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25231297A JP3355598B2 (en) 1996-09-18 1997-09-17 Sound source separation method, apparatus and recording medium

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP24672696 1996-09-18
JP7667297 1997-03-13
JP7669597 1997-03-13
JP9-76695 1997-03-13
JP8-246726 1997-03-13
JP9-76672 1997-03-13
JP25231297A JP3355598B2 (en) 1996-09-18 1997-09-17 Sound source separation method, apparatus and recording medium

Publications (2)

Publication Number Publication Date
JPH10313497A JPH10313497A (en) 1998-11-24
JP3355598B2 true JP3355598B2 (en) 2002-12-09

Family

ID=27465964

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25231297A Expired - Lifetime JP3355598B2 (en) 1996-09-18 1997-09-17 Sound source separation method, apparatus and recording medium

Country Status (1)

Country Link
JP (1) JP3355598B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3434215B2 (en) 1998-02-20 2003-08-04 日本電信電話株式会社 Sound pickup device, speech recognition device, these methods, and program recording medium
JP3435686B2 (en) 1998-03-02 2003-08-11 日本電信電話株式会社 Sound pickup device
JP3435687B2 (en) 1998-03-12 2003-08-11 日本電信電話株式会社 Sound pickup device
JP2007052373A (en) * 2005-08-19 2007-03-01 Nippon Telegr & Teleph Corp <Ntt> Acoustic transmission apparatus

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3195920B2 (en) 1999-06-11 2001-08-06 科学技術振興事業団 Sound source identification / separation apparatus and method
JP2001027895A (en) * 1999-07-14 2001-01-30 Canon Inc Signal separation and apparatus therefor
JP4815661B2 (en) * 2000-08-24 2011-11-16 ソニー株式会社 Signal processing apparatus and signal processing method
JP4616529B2 (en) * 2001-09-03 2011-01-19 クラリオン株式会社 Blind signal separation processing device
JP3950930B2 (en) 2002-05-10 2007-08-01 財団法人北九州産業学術推進機構 Reconstruction method of target speech based on split spectrum using sound source position information
JP4521549B2 (en) * 2003-04-25 2010-08-11 財団法人くまもとテクノ産業財団 A method for separating a plurality of sound sources in the vertical and horizontal directions, and a system therefor
JP4873913B2 (en) 2004-12-17 2012-02-08 学校法人早稲田大学 Sound source separation system, sound source separation method, and acoustic signal acquisition apparatus
JP2006195061A (en) * 2005-01-12 2006-07-27 Dainippon Printing Co Ltd Information embedding device for acoustic signal, information extracting device from acoustic signal and acoustic signal reproducing device
JP4770194B2 (en) * 2005-02-18 2011-09-14 大日本印刷株式会社 Information embedding apparatus and method for acoustic signal
WO2006131959A1 (en) * 2005-06-06 2006-12-14 Saga University Signal separating apparatus
US7415372B2 (en) 2005-08-26 2008-08-19 Step Communications Corporation Method and apparatus for improving noise discrimination in multiple sensor pairs
US7472041B2 (en) 2005-08-26 2008-12-30 Step Communications Corporation Method and apparatus for accommodating device and/or signal mismatch in a sensor array
US7619563B2 (en) 2005-08-26 2009-11-17 Step Communications Corporation Beam former using phase difference enhancement
JP4616736B2 (en) * 2005-09-09 2011-01-19 日本電信電話株式会社 Sound collection and playback device
JP2007096384A (en) * 2005-09-27 2007-04-12 Yamaha Corp Noise elimination apparatus and noise elimination program
US8345890B2 (en) * 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8744844B2 (en) 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8934641B2 (en) 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
US8849231B1 (en) 2007-08-08 2014-09-30 Audience, Inc. System and method for adaptive power control
JP4912036B2 (en) 2006-05-26 2012-04-04 富士通株式会社 Directional sound collecting device, directional sound collecting method, and computer program
JP4246755B2 (en) 2006-05-30 2009-04-02 株式会社エヌ・ティ・ティ・ドコモ Received signal frequency band detector
JP4495704B2 (en) * 2006-08-29 2010-07-07 日本電信電話株式会社 Sound image localization emphasizing reproduction method, apparatus thereof, program thereof, and storage medium thereof
CN101512374B (en) 2006-11-09 2012-04-11 松下电器产业株式会社 Sound source position detector
JP4891801B2 (en) * 2007-02-20 2012-03-07 日本電信電話株式会社 Multi-signal enhancement apparatus, method, program, and recording medium thereof
CN101689372B (en) * 2007-06-27 2013-05-01 日本电气株式会社 Signal analysis device, signal control device, its system, method, and program
JP5111088B2 (en) 2007-12-14 2012-12-26 三洋電機株式会社 Imaging apparatus and image reproduction apparatus
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
JP5063489B2 (en) * 2008-06-04 2012-10-31 三洋電機株式会社 Judgment device, electronic apparatus including the same, and judgment method
JPWO2011013605A1 (en) 2009-07-27 2013-01-07 三洋電機株式会社 Presentation system
JP4986248B2 (en) 2009-12-11 2012-07-25 沖電気工業株式会社 Sound source separation apparatus, method and program
JP5696828B2 (en) * 2010-01-12 2015-04-08 ヤマハ株式会社 Signal processing device
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
JP5693201B2 (en) * 2010-12-16 2015-04-01 中部電力株式会社 Method and apparatus for reproducing propagation sound from specified area
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
KR102110460B1 (en) * 2013-12-20 2020-05-13 삼성전자주식회사 Method and apparatus for processing sound signal
WO2016033364A1 (en) 2014-08-28 2016-03-03 Audience, Inc. Multi-sourced noise suppression
JP6772890B2 (en) * 2017-02-23 2020-10-21 沖電気工業株式会社 Signal processing equipment, programs and methods
CN110718237B (en) * 2018-07-12 2023-08-18 阿里巴巴集团控股有限公司 Crosstalk data detection method and electronic equipment

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3434215B2 (en) 1998-02-20 2003-08-04 日本電信電話株式会社 Sound pickup device, speech recognition device, these methods, and program recording medium
JP3435686B2 (en) 1998-03-02 2003-08-11 日本電信電話株式会社 Sound pickup device
JP3435687B2 (en) 1998-03-12 2003-08-11 日本電信電話株式会社 Sound pickup device
JP2007052373A (en) * 2005-08-19 2007-03-01 Nippon Telegr & Teleph Corp <Ntt> Acoustic transmission apparatus
JP4576305B2 (en) * 2005-08-19 2010-11-04 日本電信電話株式会社 Sound transmission device

Also Published As

Publication number Publication date
JPH10313497A (en) 1998-11-24

Similar Documents

Publication Publication Date Title
JP3355598B2 (en) Sound source separation method, apparatus and recording medium
US6130949A (en) Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor
Gu et al. Enhancing end-to-end multi-channel speech separation via spatial feature learning
Weintraub A theory and computational model of auditory monaural sound separation
AU2011219780B2 (en) Apparatus and method for modifying an audio signal using envelope shaping
EP1741313B1 (en) A method and system for sound source separation
Karjalainen et al. Multi-pitch and periodicity analysis model for sound separation and auditory scene analysis
Nagathil et al. Spectral complexity reduction of music signals for mitigating effects of cochlear hearing loss
KR101840015B1 (en) Music Accompaniment Extraction Method for Stereophonic Songs
JP4457221B2 (en) Sound source separation method and system, and speech recognition method and system
JPH0431898A (en) Voice/noise separating device
JP3384540B2 (en) Receiving method, apparatus and recording medium
US20230186782A1 (en) Electronic device, method and computer program
Verfaille et al. Adaptive digital audio effects
CN115910009A (en) Electronic device, method, and computer program
Goad et al. Timbre discrimination of musical instruments in a concert hall
Kim et al. Sound source separation using phase difference and reliable mask selection selection
Kim et al. Sound source separation using phase difference and reliable mask selection
Muhsina et al. Signal enhancement of source separation techniques
Tessier et al. A CASA front-end using the localisation cue for segregation and then cocktail-party speech recognition
JP3379083B2 (en) Sound source zone detection method, its device, and its program recording medium
Evangelista et al. Sound source separation
Halmrast Cepstrum; a “forgotten” analysis?”
Kasak et al. Hybrid binaural singing voice separation
Adami et al. Blind Upmix for Applause-Like Signals Based on Perceptual Plausibility Criteria

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081004

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091004

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101004

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111004

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121004

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131004

Year of fee payment: 11

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term