JP3355598B2

JP3355598B2 - 音源分離方法、装置及び記録媒体

Info

Publication number: JP3355598B2
Application number: JP25231297A
Authority: JP
Inventors: 真理子青木; 茂明青木; 弘行松井; 豊西野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1996-09-18
Filing date: 1997-09-17
Publication date: 2002-12-09
Anticipated expiration: 2017-09-17
Also published as: JPH10313497A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は音声信号源や各種
環境音源などの複数の音源から発せられた複数の音響信
号が混ざった信号から少なくとも１つの音源の信号を分
離抽出する方法、その方法に用いた音源分離装置、およ
びその方法をコンピュータにより実行するためのプログ
ラを記録した記録媒体に関する。

【０００２】この種の音源分離装置は、例えばテレビ会
議における収音装置、騒音環境下で発声した音声信号の
伝送のための収音装置、音源の種類を識別する装置の収
音装置など各種のものに適用される。従来の音源分離技
術は、周波数領域において各信号の基本周波数を推定
し、調波構造を抜き出すことにより、同一音源からの成
分を集めて合成する方法が用いられてきた。

【０００３】しかしこの方法では、（１）分離可能な信
号が、音声の母音や楽音のような調波構造を持つものに
限定されるという問題があった、（２）基本周波数の推
定は一般に長い処理時間を必要とするため、実時間で音
源を分離することは困難であった、（３）調波構造の推
定誤りなどにより、抽出された信号に他の音源の周波数
成分が混じり、それが雑音として知覚されるため分離精
度が不十分であった。

【０００４】

【発明の解決しようとする課題】この発明の目的は調波
構造を持たない音源の音響信号でも分離抽出することと
し、つまり音源の種類に依存することなく音源分離を可
能とし、かつ実時間での音源分離を可能とする方法、装
置、及びプログラム記録媒体を提供することにある。

【０００５】この発明の他の目的は分離精度が高く、雑
音の混入が少ない音源分離方法、装置及びプログラム記
録媒体を提供することにある。

【０００６】

【課題を解決するための手段】この発明の音源分離方法
は互いに離して設けられた複数のマイクロホンを用い、
上記各マイクロホンの各出力チャネル信号を、帯域分割
過程で複数の周波数帯域に分割し、その各帯域には主と
して１つの音源信号成分のみ存在するようにし、これら
分割された各出力チャネル信号の各同一帯域ごとに、上
記複数のマイクロホンの位置に起因して変化する、マイ
クロホンに到達する音響信号のパラメータ、つまりレベ
ル（パワー）、到達時間の値の差を、帯域別チャネル間
パラメータ値差として検出し、上記各帯域の帯域別チャ
ネル間パラメータ値差にもとづき、その帯域の上記帯域
分割された各出力チャネル信号の何れがいずれの音源か
ら入力された信号であるかを音源信号判定過程で判定
し、この音源信号判定過程の判定にもとづき、上記帯域
分割された各出力チャネル信号から、同一音源から入力
された信号を少なくとも１つ、音源信号選択過程で選択
し、その音源信号選択過程で同一音源からの信号として
選択された、複数の帯域信号を音源信号として音源合成
過程で合成する。

【０００７】この発明の音源分離方法の実施例によれ
ば、上記帯域分割過程で分割された各出力チャネル信号
の帯域別レベルをそれぞれ検出し、これらが検出された
各帯域別レベルを同一帯域についてチャネル間で比較し
た結果にもとづき発音をしていない音源を検出し、その
発音をしていない音源の検出信号により、上記音源合成
過程で合成された音源信号のうち、上記発音していない
音源と対応する合成信号を抑圧する。

【０００８】この発明の音源分離方法の他の実施例によ
ると、上記帯域分離過程で分割された各出力チャネル信
号のそのマイクロホンへの到達時間差を同一帯域ごとに
検出し、これら検出された各帯域別到達時間差を、同一
帯域についてチャネル間で比較した結果にもとづき発音
をしていない音源を検出し、その発音をしていない音源
の検出信号により、上記音源合成過程で合成された音源
信号のうち、上記発音していない音源と対応する合成信
号を抑圧する。

【０００９】

【発明の実施の形態】図１にこの発明の実施例を示す。
マイクロホン１，２が間隔、例えば２０ｃｍ程度をあけ
て配され、これらマイクロホン１，２はそれぞれ音源
Ａ，Ｂからの音響信号を収集して電気信号に変換する。
マイクロホン１の出力をＬチャネル信号と、マイクロホ
ン２の出力をＲチャネル信号と称する。Ｌチャネル信号
とＲチャネル信号はチャネル間時間差／レベル差検出部
３と、帯域分割部４へ供給され、帯域分割部４ではそれ
ぞれ複数の周波数帯域信号に分割されて帯域別チャネル
間時間差／レベル差検出部５と音源判定信号選別部６へ
供給される。検出部３，５の各検出出力に応じて選別部
６において各帯域ごとに何れかのチャネル信号がＡ成分
又はＢ成分として選別され、これら選択された帯域ごと
のＡ成分信号、Ｂ成分信号はそれぞれ音源信号合成部７
Ａ，７Ｂでそれぞれ合成されて、音源Ａ信号と音源Ｂ信
号とに分離出力される。音源Ａがマイクロホン２よりマ
イクロホン１に近いと、音源Ａよりマイクロホン１に到
達する信号ＳＡ１は音源Ａよりマイクロホン２に到達す
る信号ＳＡ２より早く到達し、かつレベルが大きい、ま
た音源Ｂがマイクロホン１よりマイクロホン２に近い
と、音源Ｂからマイクロホン１，２にそれぞれ到達する
信号ＳＢ１，ＳＢ２は後者が早くマイクロホン２に到達
し、レベルも大きい。このようにこの発明では、音源の
マイクロホン１，２に対する位置に起因する両マイクロ
ホン１，２に到達する音響信号の変化量、この例では両
信号の到達時間差とレベル差を利用する。

【００１０】図１に示した装置は以下に示すように動作
する。図２に示すように、マイクロホン１，２に２つの
音源Ａ，Ｂからの信号が取り込まれる（Ｓ０１）。チャ
ネル間時間差／レベル差検出部３は、Ｌチャネル信号と
Ｒチャネル信号からチャネル間時間差またはレベル差を
検出する。時間差の検出に用いるパラメータとしては、
Ｌチャネル信号とＲチャネル信号との相互相関関数を用
いた場合で説明する。図３に示すようにまず、Ｌチャネ
ル信号とＲチャネル信号との各サンプルＬ（ｔ），Ｒ
（ｔ）を読み込み（Ｓ０２）、これらサンプル間の相互
相関関数を算出する（Ｓ０３）。この算出は両チャネル
信号が同一サンプル時点についての相互相関を求め、ま
た一方のチャネル信号に対し他方のチャネル信号をサン
プル時点を１つだけずらした場合、２つだけずらした場
合・・・の各場合の相互相関をそれぞれ求めて相互相関
関数を求める。これら相互相関を多数求め、これらをパ
ワーで正規化したヒストグラムを作成する（Ｓ０４）。
次に、ヒストグラムの累積度数順位第一位、第二位をそ
れぞれとる時点差Δα ₁，Δα₂を求める（Ｓ０５）。
これらの時点差Δα₁，Δα₂を、次式によりそれぞれ
チャネル間時間差Δτ₁，Δτ₂に変換して出力する
（Ｓ０６）。

【００１１】 Δτ₁＝１０００×Δα₁／Ｆ（１） Δτ₂＝１０００×Δα₂／Ｆ（２）ただしＦはサンプリング周波数であり、１０００倍にす
るのは演算の便宜上値をある程度大きくするためであ
る。時間差Δτ₁，Δτ₂は、音源Ａ，Ｂそれぞれの信
号のＬチャネル信号とＲチャネル信号のチャネル間時間
差である。

【００１２】図１、２の説明に戻って帯域分割部４はＬ
チャネル信号とＲチャネル信号をそれぞれ各周波数帯域
の信号Ｌ（ｆ１），Ｌ（ｆ２），…，（ｆｎ）と、信号
Ｒ（ｆ１），Ｒ（ｆ２），…，（ｆｎ）に分割する（Ｓ
０４）。この分割は例えば各チャネル信号をそれぞれ離
散的フーリエ変換して周波数領域信号に変換した後、各
周波数帯域に分割することにより行う。この帯域分割
は、音源Ａ，Ｂの各信号の周波数特性の差から各帯域に
おいて、一方の音源の信号成分のみが主として存在する
程度、音声信号の場合は、例えば２０Ｈｚ帯域幅で分割
する。音源Ａのパワースペクトルが例えば図４Ａに示す
ように得られ、音源Ｂのパワースペクトルが図４Ｂに示
すように得られ、この各スペクトルが分離できる程度の
帯域幅Δｆで分割する。この時、例えば破線で対応する
スペクトルを示すように、一方の音源のスペクトルに対
し他方の音源のスペクトルは無視できる。またこの図４
Ａ、４Ｂから理解されるように帯域幅２Δｆで分離して
もよい。つまり、各帯域に１本のスペクトルのみが含ま
れるようにしなくてもよい。なお、離散的フーリエ変換
は例えば２０〜４０ｍｓごとに行う。

【００１３】次に、帯域別チャネル間時間差／レベル差
検出部５は、例えばＬ（ｆ１）とＲ（ｆ１），…Ｌ（ｆ
ｎ）とＲ（ｆｎ）といった各対応する帯域信号のチャネ
ル間について、帯域別チャネル間時間差またはレベル差
を検出する（Ｓ０５）。ここで、帯域別チャネル間時間
差は、チャネル間時間差検出部３で検出したチャネル間
時間差Δτ₁，Δτ₂を利用することにより一意的に検
出される。この検出に用いる式は以下のとおりである。

【００１４】 Δτ₁−｛（Δφｉ／（２πｆｉ）＋（ｋｉ１／ｆｉ）｝＝ε_i１（３） Δτ₂−｛（Δφｉ／（２πｆｉ）＋（ｋｉ２／ｆｉ）｝＝ε_i２（４）ｉ＝１，２，…，ｎ、Δφｉは信号Ｌ（ｆｉ）と信号Ｒ
（ｆｉ）の位相差である。これら式でε_i１，ε_i２が
最小になるように整数ｋｉ１，ｋｉ２を決める。次に、
その最小値のε_i１とε_i２とを比べて小さい方のチャ
ネル時間差Δτ _j（ｊ＝１，２）を、その帯域ｉのチャ
ネル間時間差Δτ_ijとする。つまり一方の音源信号のそ
の帯域でのチャネル間時間差とする。

【００１５】音源判定信号選別部６は、帯域別チャネル
間時間差／レベル差検出部５で検出された帯域別チャネ
ル間時間差Δτ_1j〜τ_njを用いて各帯域信号Ｌ（ｆ１）
〜Ｌ（ｆｎ）とＲ（ｆ１）〜Ｒ（ｆｎ）との各対応する
ものについて何れを選択するか判定を音源信号判定部６
０１で行う（Ｓ０６）。例えば、チャネル間時間差／レ
ベル差検出部３で算出された時間差Δτ₁，Δτ₂のう
ち、Δτ₁が、Ｌ側のマイクロホンに近い、音源Ａから
の信号のチャネル間時間差であり、Δτ₂が、Ｒ側のマ
イクロホンに近い、音源Ｂからの信号のチャネル間時間
差である場合で説明する。

【００１６】この場合、帯域別チャネル間時間差／レベ
ル差検出部５で算出された時間差Δτ_ijがΔτ₁である
帯域ｉは、音源信号判定部６０１によりゲート６０２Ｌ
ｉが開とされてＬ側の入力信号Ｌ（ｆｉ）がそのままＳ
Ａ（ｆｉ）として出力され、Ｒ側の帯域ｉの入力信号Ｒ
（ｆｉ）は音源信号判定部６０１によりゲート６０２Ｒ
が閉とされてＳＢ（ｆｉ）は０として出力される。時間
差Δτ_ijがΔτ₂となる帯域ｉは、逆に、Ｌ側は信号Ｌ
（ｆｉ）はＳＡ（ｆｉ）＝０として出力され、Ｒ側は入
力信号Ｒ（ｆｉ）がそのままＳＢ（ｆｉ）として出力さ
れる。つまり図１に示すように帯域信号Ｌ（ｆ１）〜Ｌ
（ｆｎ）はそれぞれゲート６０２Ｌ１〜６０２Ｌｎを通
じて音源信号合成部７Ａへ供給され、帯域信号Ｒ（ｆ
１）〜Ｒ（ｆｎ）はそれぞれゲート６０２Ｒ１〜６０２
Ｒｎを通じて音源信号合成部７へ供給される。音源判定
信号選別部６内の音源信号判定部６０１ではΔτ_1j〜Δ
τ_njが入力され、Δτ_ijがΔτ₁と判定された帯域ｉに
ついてはゲート制御信号ＣＬｉ＝１とＣＲｉ＝０が生成
され、対応するゲート６０２Ｌｉが開、６０２Ｒｉが閉
にそれぞれ制御され、Δτ_ijがΔτ₂と判定された帯域
ｉについてはゲート制御信号ＣＬｉ＝０と、ＣＲｉ＝１
が生成され、対応するゲート６０２Ｌｉが閉、６０２Ｒ
ｉが開にそれぞれ制御される。以上の説明は機能構成で
あって、実際には例えばデジタルシグナルプロセッサに
より処理される。

【００１７】音源信号合成部７Ａで信号ＳＡ（ｆｉ）〜
ＳＡ（ｆｎ）が合成され、前記帯域分割の例ではそれぞ
れ逆フーリエ変換され、信号ＳＡとして出力端子ｔ_Aに
出力され、また音源信号合成部７Ｂで信号ＳＢ（ｆｉ）
〜ＳＢ（ｆｎ）が同様に合成されて信号ＳＢとして出力
端子ｔ_Bに出力される。以上の説明で明らかなように、
この発明装置においては、各チャネル信号の細かく帯域
分割した、各帯域成分がそれぞれどの音源からのもので
あるかを判定し、判定された成分は全て出力する、すな
わち、音源Ａ，Ｂの信号の周波数成分が互いに重なって
いなければ、特定の周波数帯域を欠落させることなく処
理を行うため、調波構造のみ抜き出す従来の方法に比べ
て音質を高く保ったまま音源Ａ，Ｂの各信号を分離する
ことが可能である。

【００１８】以上の説明は、チャネル間時間差／レベル
差検出部３及び帯域別チャネル間時間差／レベル差検出
部５で検出した、チャネル間時間差と、帯域別チャネル
間時間差のみを利用して、音源判定信号部６０１で判定
条件を決定した。次にこの判定条件の決定をチャネル間
のレベル差を用いて処理する実施例を説明する。この実
施例は図５に示すようにマイクロホン１，２からＬチャ
ネル信号とＲチャネル信号を取込み（Ｓ０２）、これら
Ｌチャネル信号とＲチャネル信号のチャネル間レベル差
ΔＬをチャネル間時間差／レベル差検出部３（図１）で
検出する（Ｓ０３）。図２中のステップＳ０４と同様
に、Ｌチャネル信号、Ｒチャネル信号をそれぞれｎ個の
帯域別チャネル信号Ｌ（ｆ１）〜Ｌ（ｆｎ），Ｒ（ｆ
１）〜Ｒ（ｆｎ）に分割し（Ｓ０４）、帯域別チャネル
信号Ｌ（ｆ１）〜Ｌ（ｆｎ）とＲ（ｆ１）〜Ｒ（ｆｎ）
との対応帯域、つまりＬ（ｆ１）とＲ（ｆ１），Ｌ（ｆ
２）とＲ（ｆ２），…，Ｌ（ｆｎ）とＲ（ｆｎ）につい
て帯域別チャネル間レベル差ΔＬ１，ΔＬ２，…，ΔＬ
ｎを検出する（Ｓ０５）。

【００１９】人間の音声は、２０ｍｓ〜４０ｍｓ程度の
間は定常状態とみなすことが出来る。そのため、音源信
号判定部６０１（図１）においては、２０ｍｓ〜４０ｍ
ｓ毎に、チャネル間レベル差ΔＬの対数を取った値の符
号と、帯域別チャネル間レベル差ΔＬｉの対数を取った
値の符号とが、全帯域のうち何割以上の帯域で、同じ符
号（＋又は−）になるのかを算出し、所定値、例えば８
割以上の帯域で両者が同じ符号を持てば（Ｓ０６，Ｓ０
７）、そこから２０ｍｓ〜４０ｍｓの間はチャネル間レ
ベル差ΔＬのみで判定し（Ｓ０８）、同じ符号を持つの
が８割以下の帯域であれば、そこから２０ｍｓ〜４０ｍ
ｓの間は帯域毎に、帯域別チャネル間レベル差ΔＬｉを
用いて判定する（Ｓ０９）。判定の仕方は、全帯域をチ
ャネル間レベル差ΔＬで判定する場合は、ΔＬが正であ
れば、Ｌチャネル信号Ｌ（ｔ）がそのまま信号ＳＡとし
て出力され、Ｒチャネル信号Ｒ（ｔ）は信号ＳＢ＝０と
して出力される。ΔＬが０以下であれば逆に、Ｌチャネ
ル信号Ｌ（ｔ）は信号ＳＡ＝０として出力され、Ｒチャ
ネル信号Ｒ（ｔ）がそのまま信号ＳＢとして出力され
る。ただし、これは、チャネル間レベル差としてＬ側か
らＲ側を引いた値を用いた場合の説明である。また、帯
域別チャネル間レベル差ΔＬｉを用いて帯域毎に判定す
る場合は、各帯域ｆｉごとに帯域別チャネル間レベル差
ΔＬｉが正であれば、Ｌ側分割信号Ｌ（ｆｉ）がそのま
ま信号ＳＡ（ｆｉ）として出力され、Ｒ側分割信号Ｒ
（ｆｉ）は信号ＳＢ（ｆｉ）＝０として出力される。レ
ベル差ΔＬｉが０以下であれば逆に、Ｌ側は分割信号Ｌ
（ｆｉ）は信号ＳＡ（ｆｉ）＝０として出力され、Ｒ側
は分割信号Ｒ（ｆｉ）が信号ＳＢ（ｆｉ）として出力さ
れる。以上のようにして音源信号判定部６０１からゲー
ト制御信号ＣＬ１〜ＣＬｎ，ＣＲ１〜ＣＲｎが出力さ
れ、ゲート６０２Ｌ１〜６０２Ｌｎ，６０２Ｒ１〜６０
２Ｒｎがそれぞれ制御される。これも、前者と同様、帯
域別チャネル間レベル差として、Ｌ側からＲ側を引いた
値を用いた場合の説明である。信号ＳＡ（ｆ１）〜ＳＡ
（ｆｎ）、信号ＳＢ（ｆ１）〜ＳＢ（ｆｎ）は先の実施
例と同様にそれぞれ合成された信号ＳＡ，ＳＢとして出
力端子ｔ_A，ｔ_Bにそれぞれ出力される（Ｓ１０）。

【００２０】前記実施例では、音源信号判定部６０１で
用いる判定条件として、到達時間差とレベル差のうちど
ちらかの片方のみを利用する。しかし、レベル差のみを
利用した場合、低域の周波数帯域ではＬ（ｆｉ）とＲ
（ｆｉ）とのレベルが拮抗する場合があり、その場合は
レベル差を正確に求めることが困難になる。また、時間
差のみを利用した場合は、高い周波数帯域においては、
位相の回転が起こるため時間差を正しく算出することが
困難な場合がある。これらの点から、低域の周波数帯域
では時間差を、高域ではレベル差を判定に用いた方が、
全帯域に渡り単一のパラメータを用いるよりも有利であ
る場合がある。

【００２１】そこで、音源信号判定部６０１で帯域別チ
ャネル間時間差と帯域別チャネル間レベル差を共に用い
る実施例を図６以下の図面を参照して説明する。この実
施例の機能構成のブロックとしては図１と同一である
が、チャネル間時間差／レベル差検出部分３、帯域別チ
ャネル間時間差／レベル差検出部５と音源信号判定部６
０１での処理が以下のように異なる。チャネル間時間差
／レベル差検出部３は、検出された時間差Δτ₁，Δτ
₂の各絶対値の平均、又はΔτ₁，Δτ₂が比較的近い
値であれば、その一方のみなど、一つの時間差Δτを出
力する。なおチャネル間時間差Δτ₁，Δτ₂，Δτを
チャネル信号Ｌ（ｔ），Ｒ（ｔ）を周波数軸上で帯域分
割する前に算出したが、帯域分割した後に算出すること
も可能である。

【００２２】図５に示すように、Ｌチャネル信号Ｌ
（ｔ）、Ｒチャネル信号Ｒ（ｔ）をフレーム（例えば２
０〜４０ｍｓ）毎に読み込み（Ｓ０２）、帯域分割部４
でＬチャネル信号、Ｒチャネル信号をそれぞれ複数の周
波数帯域に分割する。この例ではＬチャネル信号Ｌ
（ｔ）、Ｒチャネル信号Ｒ（ｔ）にそれぞれハニング窓
をかけ（Ｓ０３）、それぞれフーリエ変換を施して分割
された信号Ｌ（ｆ１）〜Ｌ（ｆｎ）、Ｒ（ｆ１）〜Ｒ
（ｆｎ）を得る（Ｓ０４）。

【００２３】次に、帯域別チャネル間時間差／レベル差
検出部５では分割された信号の周波数ｆｉが１／（２Δ
τ）（Δτはチャネル時間差）以下の帯域（以下、低域
と呼ぶ）であるかを調べ（Ｓ０５）、以下であれば帯域
別チャネル間位相差Δφｉを出力し（Ｓ０８）、分割さ
れた信号の周波数ｆが１／（２Δτ）より大きく１／Δ
τ未満の帯域（以下、中域と呼ぶ）であるかがチェック
され（Ｓ０６）、この中域であれば帯域別チャネル間位
相差Δφｉ及びレベル差ΔＬｉを出力し（Ｓ０９）、分
割された信号の周波数ｆが１／Δτ以上の帯域（以下、
高域と呼ぶ）かがチェックされ（Ｓ０７）、高域であれ
ば帯域別チャネル間レベル差ΔＬｉを出力する（Ｓ１
０）。

【００２４】音源信号判定部６０１は、帯域別チャネル
間時間差／レベル差検出部５で検出された帯域別チャネ
ル間位相差、レベル差を用いてＬ（ｆ１）〜Ｌ（ｆ
ｎ）、Ｒ（ｆ１）〜Ｒ（ｆｎ）それぞれについて何れを
出力するかの判定を行う。なお、位相差Δφｉ、レベル
差ΔＬについては、この例では共にＬ側からＲ側の値を
引いて算出した値を用いる。

【００２５】低域と判定された信号Ｌ（ｆｉ），Ｒ（ｆ
ｉ）については図７に示すようにまず位相差Δφｉがπ
以上かを調べ（Ｓ１５）、π以上であればΔφｉから２
πを減算した値をΔφｉとし（Ｓ１７）、ステップＳ１
５でΔφｉがπ以上でなければ、−π以下かを調べ（Ｓ
１６）、以下であればΔφｉに２πを加算した値をΔφ
ｉとし（Ｓ１８）、ステップＳ１６で−π以下でなけれ
ばΔφｉをそのまま用いる（Ｓ１９）。ステップＳ１
７，Ｓ１８，Ｓ１９で求めた帯域別チャネル間位相差Δ
φｉを時間差Δσｉに次式で変換する（Ｓ２０）。

【００２６】 Δσｉ＝１０００・Δφｉ／２πｆｉ（５）分割された信号Ｌ（ｆｉ），Ｒ（ｆｉ）が中域と判定さ
れた場合は図８に示すように帯域別チャネル間レベル差
ΔＬ（ｆｉ）を利用して、位相差Δφｉを一意に決定す
る。即ちΔＬ（ｆｉ）が正かを調べ（Ｓ２３）、正であ
れば、その帯域別チャネル間位相差Δφｉが正であるか
を調べ（Ｓ２４）、正であればそのΔφｉをそのまま出
力し（Ｓ２６）、ステップＳ２４で正でなければΔφｉ
に２πを加算した値をΔφｉとして出力する（Ｓ２
７）。ステップＳ２３でΔＬ（ｆｉ）が正でなければ、
その帯域別チャネル間位相差Δφｉが負であるかを調べ
（Ｓ２５）、負であれば、そのΔφｉをそのままΔφｉ
として出力し（Ｓ２８）、ステップＳ２５で負でなけれ
ばΔφｉから２πを減算した値をΔφｉとして出力する
（Ｓ２９）。これらステップＳ２６〜Ｓ２９の何れかの
Δφｉが次式によりその帯域別チャネル間時間差Δσｉ
として演算される（Ｓ３０）。

【００２７】 Δσｉ＝１０００・Δφｉ／２πｆｉ（６）以上のようにして低域、中域における帯域別チャネル間
時間差Δσｉと、高域における帯域別チャネル間レベル
差ΔＬ（ｆｉ）が得られ、これらに応じて音源信号の判
別が次のようになされる。図９に示すように低域と中域
においては位相差Δφｉを、高域においてはレベル差Δ
Ｌｉを利用して両チャネルの各周波数成分を該当するど
ちらかの音源の信号として判別する。具体的には、低域
と中域においては図７、８でそれぞれ求められた帯域別
チャネル間時間差Δσｉが正であるかを調べ（Ｓ３
４）、正であれば、その帯域ｉのＬ側チャネル信号Ｌ
（ｆｉ）を信号ＳＡ（ｆｉ）として出力し、Ｒ側帯域チ
ャネル信号Ｒ（ｆｉ）を０の信号ＳＢ（ｆｉ）として出
力する（Ｓ３６）。ステップＳ３４で帯域別チャネル時
間差Δσｉが正でない場合は逆にＳＡ（ｆｉ）として０
を出力し、ＳＢ（ｆｉ）としてＲ側チャネル信号Ｒ（ｆ
ｉ）を出力する（Ｓ３７）。

【００２８】また、高域においては、図６中のステップ
Ｓ１０で検出した帯域別チャネル間レベル差ΔＬ（ｆ
ｉ）が正であるかを調べ（Ｓ３５）、正であれば信号Ｓ
Ａ（ｆｉ）としてＬ側チャネル信号Ｌ（ｆｉ）を出力
し、ＳＢ（ｆｉ）として０を出力する（Ｓ３８）。ステ
ップＳ３５でレベル差ΔＬｉが正でなければＳＡ（ｆ
ｉ）として０を出力し、ＳＢ（ｆｉ）としてＲ側帯域チ
ャネル信号Ｒ（ｆｉ）を出力する（Ｓ３９）。

【００２９】以上のようにして各帯域についてＬ側又は
Ｒ側が出力され、音源信号合成部７Ａ，７Ｂでそれぞれ
判別した各周波数成分を全帯域に渡り加算し（Ｓ４
０）、かつ、加算した各信号を逆フーリエ変換し（Ｓ４
１）、その変換した信号ＳＡ，ＳＢを出力する（Ｓ４
２）。以上説明したように、この実施例においては、周
波数帯域毎に音源分離に有利なパラメータを用いること
により、全帯域に渡り単一のパラメータを用いる場合に
比べてより分離性能の高い音源分離を実現することが可
能である。

【００３０】この発明は音源の数が３個以上でも適用で
きる。例として、音源数が３、マイクロホン数が２であ
る場合でマイクロホンへの到達時間差を利用して音源分
離する場合を説明する。この場合、チャネル間時間差／
レベル差検出部３で各音源についてＬチャネル信号、Ｒ
チャネル信号のチャネル間時間差を算出する際に、図３
に示したように相互相関のパワーで正規化したヒストグ
ラムの、累積度数（ピーク値）第一位から第三位までを
とる各時点を求めることによって各音源信号についての
チャネル間時間差Δτ₁，Δτ₂，Δτ ₃を算出する。
そして、帯域別チャネル間時間差／レベル差検出部５に
おいても、各帯域の帯域別チャネル間時間差をΔτ₁か
らΔτ₃のどれかに決定する。この決定の仕方は、前記
実施例で述べた計算式（３），（４）と同様である。音
源信号判定部６０１では、例として、Δτ₁＞０、Δτ
₂＞０、Δτ₃＜０である場合で説明する。ここで、Δ
τ₁，Δτ₂，Δτ₃はそれぞれ、音源Ａ，Ｂ，Ｃ各信
号のチャネル間時間差と仮定し、さらに、これらの値は
Ｌ側からＲ側の値を引いて算出した値と仮定する。この
場合、音源ＡはＬ側のマイクロホン１に近く、音源Ｂは
Ｒ側のマイクロホン２の近くにある。よって、Ｌチャネ
ルの信号から、帯域別チャネル間時間差がΔτ₁となる
帯域の信号を加算して音源Ａの信号を、またΔτ₂とな
る帯域を加算して、音源Ｂの信号をそれぞれ分離するこ
とが可能である。また、Ｒチャネル信号から、帯域別チ
ャネル間時間差がΔτ₃となる帯域の信号を加算して出
力することにより、音源Ｃの信号を分離する。

【００３１】上述では音源信号を分離し、分離された各
音源信号ＳＡ，ＳＢを各別に出力した。しかし、例えば
一方の音源Ａは発話者による音声であり、他方の音源Ｂ
は騒音のような場合、騒音と混合された音源Ａの信号音
を分離抽出し、騒音を抑圧するためにもこの発明を適用
することができる。その場合は図１において音源信号合
成部７Ａを残し、１点鎖線で示す枠９中の音源信号合成
部７Ｂ、ゲート６０２Ｒ１〜６０２Ｒｎを省略すればよ
い。

【００３２】一方の音源Ａが他方の音源Ｂより周波数帯
域が広い場合でその各周波数帯域が予め知られている場
合は、図１０に示すように図１において帯域分離部１０
において、両音源信号の重なっていない周波数帯域を分
離する。例えば音源Ａの信号Ａ（ｔ）の周波数帯域はｆ
１〜ｆｎであるが音源Ｂの信号Ｂ（ｔ）の周波数帯域は
ｆ１〜ｆｎ（ｆｎ＞ｆｍ）の場合、重なっていない帯域
ｆｍ＋１〜ｆｎの信号をマイクロホン１，２の出力から
分離し、この帯域ｆｍ＋１〜ｆｎの信号については、音
源信号判定部６０１の判定処理、場合によっては帯域別
チャネル間時間差／レベル差検出部５の処理を行わず、
音源信号判定部６０１は、音源Ｂの信号として選出する
チャネル信号ＳＢ（ｔ）として選出するＲの分割された
帯域チャネル信号Ｒ（ｆｍ＋１）〜Ｒ（ｆｎ）をそれぞ
れＳＢ（ｆｍ＋１）〜ＳＢ（ｆｎ）として出力し、ＳＡ
（ｆｍ＋１）〜ＳＡ（ｆｎ）は０を出力させるように音
源信号選択部６０２を制御する。即ちゲート６０２Ｌｍ
＋１〜６０２Ｌｎは常閉とし、ゲート６０２Ｒｍ＋１〜
６０２Ｒｎは常開とする。

【００３３】上述では各帯域別チャネル間時間差Δσ
ｉ、正か負かにより、また各帯域別チャネル間レベル差
ΔＬｉが正か負かにより、つまり、いずれも０をしきい
値として、その帯域信号が何れのマイクロホンに近いか
を判別した。これはマイクロホン１として結ぶ線の２等
分線に対して音源Ａと音源Ｂと左右対称に位置している
場合である。この関係にない場合は判別しきい値を以下
のように決めればよい。

【００３４】音源Ａの信号がマイクロホン１、マイクロ
ホン２に到達する帯域別チャネル間レベル差をΔＬ_A、
到達する帯域別チャネル間時間差をΔτ_A、音源Ｂの信
号がマイクロホン１、マイクロホン２に到達する帯域別
チャネル間レベル差をΔＬ_B、到達する帯域別チャネル
間時間差をΔτ_Bとそれぞれする。このとき、帯域別チ
ャネル間レベル差のしきい値ΔＬthは ΔＬth＝（ΔＬ_A＋ΔＬｉ）／２とし、帯域別チャネル間時間差のしきい値Δτthは Δτth＝（Δτ_A＋Δτ_B）／２とすればよい。先に述べた実施例ではΔＬ_B＝−Δ
Ｌ_A、Δτ_B＝−Δτ_Aの場合でΔＬth＝０、Δτth＝
０となる。音源Ａ，Ｂを分離できるように、二つの音源
をマイクロホン１，２に対し、互いに異なる側となるよ
うに、マイクロホン１，２を位置させ、マイクロホン
１，２に対する距離、方向は必ずしも正しくはわかって
いない場合があり、しきい値ΔＬth，Δτthを可変とし
て、分離がよく行われるようにΔＬth，Δτthを調整可
能としてもよい。

【００３５】前記実施例では部屋の残響や回折の影響に
より、帯域別チャネル間時間差や帯域別チャネル間レベ
ル差に誤りが生じ、各音源信号を精度よく分離すること
ができない場合がある。このような問題を改善した実施
例を次に述べる。図１１に示すように、マイクロホンＭ
１，Ｍ２，Ｍ３は、例えば１辺が２０ｃｍの正三角形の
頂点の位置に配置されている。マイクロホンＭ１〜Ｍ３
の指向特性に基づいて空間が分割して設定され、その各
分割された空間を音源ゾーンと呼ぶ。全てのマイクロホ
ンＭ１〜Ｍ３が無指向で同じ特性を有する場合には、例
えば図１２に示すように、ゾーンＺ１〜Ｚ６のように６
個に分割される。つまり、各マイクロホンＭ１，Ｍ２，
Ｍ３と、その中心点Ｃp をそれぞれ通る直線により、中
心点Ｃpを中心に等角間隔で６分割された６つのゾーン
Ｚ１〜Ｚ６が形成される。音源ＡはゾーンＺ３に、音源
ＢはゾーンＺ４に位置している。つまり、１個の音源ゾ
ーンには１個の音源が属するよう、マイクロホンＭ１〜
Ｍ３の配置や特性に基づいて各音源ゾーンを決定する。

【００３６】図１１において、帯域分割部４１は、マイ
クロホンＭ１で収音した第１チャネルの音響信号Ｓ１を
ｎ個の周波数帯域信号Ｓ１（ｆ１）〜Ｓ１（ｆｎ）に分
割し、分割部４２でマイクロホンＭ２で収音した第２チ
ャネルの音響信号Ｓ２をｎ個の周波数帯域信号Ｓ２（ｆ
１）〜Ｓ２（ｆｎ）に分割し、帯域分割部４３は、マイ
クロホンＭ３で収音した第３チャネルの音響信号Ｓ３を
ｎ個の周波数帯域信号Ｓ３（ｆ１）〜Ｓ３（ｆｎ）に分
割する。これら各帯域ｆ１〜ｆｎは帯域分割部４１〜４
３で共通であり、このような帯域分割は離散的フーリエ
変換器を利用することができる。

【００３７】音源分離部８０は図１乃至図１０を参照し
て説明した手法を用いて音源信号を分離するものであ
る。ただし図１１ではマイクロホンが３つであるから、
この３つのチャネルの信号の各２つの組合せについて同
様な処理を行う。従って音源分離部８０内の帯域分割部
と帯域分割部４１〜４３を兼用することもできる。帯域
別レベル（パワー）検出部Ｓ１で帯域分割部４１で得ら
れた各帯域の信号Ｓ１（ｆ１）〜Ｓ１（ｆｎ）のレベル
（パワー）信号Ｐ（Ｓ１ｆ１）〜Ｐ（Ｓ１ｆｎ）が検出
され、同様に帯域別レベル検出部５２，５３でそれぞれ
帯域分割部４２，４３で得られた各帯域信号Ｓ２（ｆ
１）〜Ｓ２（ｆｎ），Ｓ３（ｆ１）〜Ｓ３（ｆｎ）の各
Ｐ（Ｓ２ｆ１）〜Ｐ（Ｓ２ｆｎ），Ｐ（Ｓ３ｆ１）〜Ｐ
（Ｓ３ｆｎ）がそれぞれ検出される。これら帯域別レベ
ル検出もフーリエ変換器で実現できる。つまり各チャネ
ル信号を離散的フーリエ変換によりスペクトルに分解
し、その各スペクトルの電力を求めればよい。従って、
各チャネル信号について、パワースペクトルを求め、そ
のパワースペクトルを帯域分割してもよい。各マイクロ
ホンＭ１〜Ｍ３の各チャネル信号を、帯域別レベル検出
部４００で各帯域に分割すると共にそのレベル（パワ
ー）を出力することになる。

【００３８】一方全帯域レベル検出部６１でマイクロホ
ンＭ１で収音された第１チャネルの音響信号Ｓ１の全周
波数成分のレベル（パワー）Ｐ（Ｓ１）が検出され、全
帯域レベル検出部６２，６３でそれぞれマイクロホンＭ
２，Ｍ３でそれぞれ収音された第２、第３チャネル２，
３の各音響信号Ｓ２，Ｓ３の全周波数成分のレベルＰ
（Ｓ２），Ｐ（Ｓ３）が検出される。

【００３９】音源状態判定部７０では、コンピュータ処
理により、音響を発していない音源ゾーンを判定する。
まず、帯域別レベル検出部５０により得られる帯域別レ
ベルＰ（Ｓ１ｆ１）〜Ｐ（Ｓ１ｆｎ）、Ｐ（Ｓ２ｆ１）
〜Ｐ（Ｓ２ｆｎ）、Ｐ（Ｓ３ｆ１）〜Ｐ（Ｓ３ｆｎ）
を、同一の帯域の信号について相互に比較する。そして
各帯域ｆ１〜ｆｎ毎に、最も大きなレベルのチャネルを
特定する。

【００４０】帯域分割の数ｎを所定数以上にすることに
より、前述したように、１つの帯域には１個の音源の音
響信号しか含まれないと見なせるようにすることができ
るので、同一帯域ｆｉのレベルＰ（Ｓ１ｆｉ），Ｐ
（Ｓ２ｆｉ），Ｐ（Ｓ３ｆｉ）は、同一音源からの音響
のレベルと見なすことができる。よって、第１〜第３チ
ャネルについて同一の帯域のレベルＰ（Ｓ１ｆｉ），Ｐ
（Ｓ２ｆｉ），Ｐ（Ｓ３ｆｉ）に差があるときは、音源
に最も近いマイクロホンのチャネルの帯域のレベルが最
も大きくなる。

【００４１】前記処理の結果、各帯域ｆ１〜ｆｎについ
て、最もレベルの大きなチャネルがそれぞれ割り当てら
れる。ｎ個の帯域中で第１〜第３各チャネルについて、
最もレベルが大きな帯域の合計数χ１，χ２，χ３を算
出する。この合計数の値が大きいチャネルのマイクロホ
ンほど、音源に近いとみなすことができる。合計数値が
例えば９０ｎ／１００以上程度であればそのチャネルの
マイクロホンに音源が近いと判定することができる。し
かし、最もレベルが大きい帯域の合計数が５３ｎ／１０
０、次に合計値が大きい値が４９ｎ／１００の場合はそ
のそれぞれの対応マイクロホンに音源が近いか明確では
ない。従って当該合計数が予め設定した基準値ＴｈＰ、
例えばｎ／３程度を越えたとき、当該合計数と対応する
チャネルのマイクロホンにその音源が最も近いと判定す
る。

【００４２】また、この音源状態判定部７０には、全帯
域レベル検出部６０で検出された各チャネルのレベルＰ
（Ｓ１）〜Ｐ（Ｓ３）も入力されていて、そのレベルの
全てが予め設定した基準値ＴｈＲ以下の場合には、何れ
のゾーンにも、音源がないと判定する。この音源状態判
定部７０による判定結果に基づき、制御信号を発生し
て、音源分離部８０で分割された音響信号Ａ，Ｂに対す
る抑圧を信号抑圧部９０で行う。つまり制御信号ＳＡｉ
により音響信号ＳＡを抑圧（減衰ないし削除）し、制御
信号ＳＢｉにより音響信号ＳＢを抑圧し、制御信号ＳＡ
Ｂｉにより両音響信号ＳＡ，ＳＢを抑圧する。例えば信
号抑圧部９０内に常閉スイッチ９Ａ，９Ｂが設けられ、
音源分離部８０の出力端子ｔ_A，ｔ_Bが常閉スイッチ９
Ａ，９Ｂを通じて、出力端子ｔ_A′，ｔ_B′に接続さ
れ、制御信号ＳＡｉによりスイッチ９Ａが開とされ、制
御信号ＳＢｉによりスイッチ９Ｂが開とされ、制御信号
ＳＡＢｉによりスイッチ９Ａ，９Ｂが共に開にされる。
当然のことであるが、音源分離部８０で行う分離処理す
るフレームの信号と、信号抑圧部９０での抑圧に用いる
制御信号を得るフレームの信号とは同一のものを用い
る。抑圧（制御）信号ＳＡｉ，ＳＢｉ，ＳＡＢｉの発生
についてわかり易く説明する。

【００４３】いま、図１２に示すように音源Ａ，Ｂが位
置している時マイクロホンＭ１〜Ｍ３を図に示したよう
に配置し、ゾーンＺ１〜Ｚ６を決定し、音源ＡとＢが別
個のゾーンＺ３，Ｚ４にそれぞれ位置するようにする。
この時、音源ＡのマイクロホンＭ１〜Ｍ３に対する距離
ＳＡ１，ＳＡ２，ＳＡ３は、ＳＡ２＜ＳＡ３＜ＳＡ１と
なる。また、音源Ｂの各マイクロホンＭ１〜Ｍ３に対す
る距離ＳＢ１，ＳＢ２，ＳＢ３は、ＳＢ３＜ＳＢ２＜Ｓ
Ｂ１となる。

【００４４】全帯域レベル検出部６０の検出信号Ｐ（Ｓ
１）〜Ｐ（Ｓ３）のすべてが基準値ＴｈＲよりも小さい
とき、音源Ａ，Ｂは発音、例えば発話していないと見な
し、制御信号ＳＡＢｉにより、両音響信号ＳＡ，ＳＢを
抑圧する。このとき、出力音響信号ＳＡ，ＳＢは無音信
号となる（図１３の１０１，１０２）。音源Ａのみが発
音しているときは、その音響信号のすべての帯域の周波
数成分がマイクロホンＭ２へ一番大きな音圧レベル（パ
ワー）で到達するので、このマイクロホンＭ２のチャネ
ルの合計帯域数χ２が最も多くなる。

【００４５】また、音源Ｂのみが発音しているときは、
その音響信号のすべての帯域の周波数成分がマイクロホ
ンＭ３へ一番大きな音圧レベルで到達するので、このマ
イクロホンＭ３のチャネルの合計帯域数χ３が最も多く
なる。さらに、音源Ａ，Ｂが共に発音している場合に
は、音響信号が最も大きな音圧レベルで到達する帯域数
がマイクロホンＭ２とＭ３で拮抗する。

【００４６】したがって、前記した基準値ＴｈＰによ
り、音響信号があるマイクロホンへ最も大きな音圧レベ
ルで到達する合計帯域数が、当該基準値ＴｈＰを越えた
場合、当該マイクロホンが司るゾーンに音源が存在する
と判定することにより、発音している音源ゾーンを検出
することができる。上記の例では、音源Ａのみが発音し
ているときは、χ２のみが基準値ＴｈＰを越えて、発音
している音源が存在するのはマイクロホンＭ２が司るゾ
ーンＺ３であると検出されるので、制御信号ＳＢｉによ
り音声信号ＳＢを抑制して、音響信号ＳＡのみを出力さ
せる（図１３の１０３，１０４）。

【００４７】また、音源Ｂのみが発音しているときは、
χ３のみが基準値ＴｈＰを越えて、発音している音源が
存在するのは、マイクロホンＭ３が司るゾーンＺ４であ
ると検出されるので、制御信号ＳＡｉにより音響信号Ｓ
Ａを抑制して、音響信号ＳＢのみを出力させる（図１３
の１０５，１０６）。さらに、音源Ａ，Ｂが共に発音し
ていて、χ２，χ３ともに基準値ＴｈＰを越えるとき
は、例えば音源Ａに優先度を与えて、音源Ａのみが発音
していると処理することができる。図１３の処理手順は
そのようにしてある。また、χ２，χ３が共に基準値Ｔ
ｈＰに達していない場合は、レベルＰ（Ｓ１）〜Ｐ（Ｓ
３）が基準値ＴｈＲを越えている限り、両音源Ａ，Ｂと
もに発音していると判断し、制御信号ＳＡｉ，ＳＢｉ，
ＳＡＢｉの何れも出力せず、音声抑圧部９０では合成信
号ＳＡ，ＳＢに対する抑圧は行われない（図１３の１０
７）。

【００４８】以上のようにして、音源分離部８０で分離
された音源信号ＳＡ，ＳＢは、音源状態判定部７０によ
って発音していないと判定された音源に対応するもの
が、信号抑圧部９０で抑圧され、不要音が抑圧されるよ
うになる。図１２に示した状態に対して、図１４に示す
ように音源ＣをゾーンＺ６に加えた場合は、図示しない
が音源分離部８０からは、音源Ａに対応する信号ＳＡ、
音源Ｂに対応する信号ＳＢの他に、音源Ｃに対応する信
号ＳＣを出力する。

【００４９】また、信号抑圧部９０に対して、音源状態
判定部７０から、信号ＳＡを抑圧する制御信号ＳＡｉ、
信号ＳＢを抑圧する制御信号ＳＢｉの他に、信号ＳＣを
抑圧する制御信号ＳＣｉが出力する。また、信号ＳＡと
ＳＢを抑圧する制御信号ＳＡＢｉの他に、信号ＳＢとＳ
Ｃを抑圧する制御信号ＳＢＣｉ、信号ＳＣとＳＡを抑圧
する制御信号ＳＣＡｉ、信号ＳＡとＳＢとＳＣの全部を
抑圧する制御信号ＳＡＢＣｉが出力する。この音源状態
判定部７０は、図１５に示すような処理を行う。

【００５０】まず、レベルＰ（Ｓ１）〜Ｐ（Ｓ３）の全
部が基準値ＴｈＲを越えていない場合は、いずれの音源
Ａ〜Ｃも発音していないものと判断して、音源状態判定
部７０からＳＡＢＣｉを出力して、信号ＳＡ，ＳＢ，Ｓ
Ｃのいずれもが抑圧される（図１５の２０１〜２０
２）。次に、音源Ａ，Ｂ，Ｃがそれぞれ単独で発音して
いる場合は、Ｐ（Ｓ１）〜Ｐ（Ｓ３）の何れかはＴｈＲ
より大となり、前記した音源が２個の場合と同様に、そ
の音源に最も近いマイクロホンのチャネルのレベルが最
も大きくなるので、そのチャネルの帯域数χ１，χ２，
χ３のいずれかが基準値ＴｈＰを越える。そして、音源
Ｃのみが発音している場合は、χ１がＴｈＰを越え、制
御信号ＳＡＢｉを出力して信号ＳＡ，ＳＢが抑圧される
（図１５の２０３，２０４）。また、音源Ａのみが発音
している場合は、制御信号ＳＢＣｉが出力して信号Ｓ
Ｂ，ＳＣが抑圧される。さらに、音源Ａのみが発音して
いる場合は、制御信号ＳＢＣｉが出力して信号ＳＢ，Ｓ
Ｃが抑圧される（図１５の２０５〜２０８）。

【００５１】次に、３つの音源Ａ〜Ｃのうちのいずれか
２つが発音する場合は、発音していない音源に対応する
ゾーンにあるマイクロホンのレベルが最も大きくなる帯
域数が、他のマイクロホンのものに比べて小さくなる。
例えば、音源Ｃのみが発音していない場合には、マイク
ロホンＭ１のレベルが最も大きくなる帯域数χ１が、他
の２個のマイクロホンＭ２，Ｍ３の帯域数χ２，χ３に
比べて小さくなる。

【００５２】よって、予めある基準値ＴｈＱ（＜Ｔｈ
Ｐ）を設定し、χ１がその基準値ＴｈＱ以下になる場合
は、マイクロホンＭ１とマイクロホンＭ３で空間を２分
割したゾーンＺ５，Ｚ６の内、マイクロホンＭ１に近い
ゾーンＺ６では、音源は信号を発していないと判定す
る。さらに、マイクロホンＭ１とＭ２で空間を２分割し
たゾーンＺ１，Ｚ２のうちマイクロホンＭ１に近いゾー
ンＺ１では音源は信号を発していないと判定する。

【００５３】すなわち、ゾーンＺ１，Ｚ６にある音源は
信号を発していないと判定するのである。これらのゾー
ンにある音源は音源Ｃであることから、音源Ｃが信号を
発していないと判定される。つまり、音源Ａ，Ｂのみが
信号を発していると判定され、制御信号ＳＣｉを生成
し、信号ＳＣが抑圧される。図１４に示した状態で３つ
の音源Ａ〜Ｃのうち１つのみが発音していない場合は通
常は何れのマイクロホンについても最大となる帯域数χ
１，χ２，χ３は基準値ＴｈＰ以下となるため、図１５
においてステップ２０３，２０５，２０７を通過し、ス
テップ２０９で、χ１が基準値ＴｈＱ以下かを調べ、音
源Ｃのみが発音していなければ、χ１＜ＴｈＱとなり、
制御信号ＳＣｉが生成される（図１５の２１０）。ステ
ップ２０９でχ１がＴｈＱ以下でなければχ２，χ３に
ついても同様にＴｈＱ以下であるかが順次調べられ、Ｔ
ｈＱ以下であれば音源Ａのみ、又は音源Ｂのみが発音し
ていないと推定され、それぞれ制御信号ＳＡｉ又はＳＢ
ｉが抑圧される（図１５の２１１〜２１４）。

【００５４】ステップ２１３でχ３がＴｈＱ以下でない
と判定されると、音源Ａ，Ｂ，Ｃは全て発音していると
判定され、何れの制御信号も生成されない（図１５の２
１５）。この場合基準値ＴｈＰは２ｎ／３〜３ｎ／４程
度基準値ＴｈＱはｎ／２〜２ｎ／３程度、つまり例えば
ＴｈＰを２ｎ／３程度にすると、ＴｈＱはｎ／２程度に
する。

【００５５】なお、以上の例では、ゾーンをＺ１〜Ｚ６
の６つに分けたが、図１６に示すように、中心点Ｃp か
ら各マイクロホン間の中点を通る点線により３つのゾー
ンＺ１〜Ｚ３に分けても同様に音源状態を判定できる。
この場合は、例えば、音源Ａのみが発音している場合
は、マイクロホンＭ２のチャネルの帯域数χ２が最も大
きくなるので、そのマイクロホンＭ２の司るゾーンＺ２
に音源があると判定される。また、音源Ｂのみが発音し
ている場合はχ３が最も大きくなり、ゾーンＺ３に音源
があると判定される。また、χ１が予め設定した値Ｔｈ
Ｑ以下である場合には、マイクロホンＭ１とＭ２および
Ｍ３とそれぞれ２分したうちのゾーンＺ１にある音源は
発音していないと判定する。以上の処理により、ゾーン
を３分割しても、６分割のときと同様に音源の状態を判
定できる。

【００５６】また、基準値ＴｈＲ，ＴｈＰ，ＴｈＱは、
全てのマイクロホンＭ１〜Ｍ３で同一値を用いた場合で
説明したが、マイクロホン毎に適宜変更してもよい。ま
た、以上の説明では、音源が３個でマイクロホンが３個
の場合についてであったが、マイクロホンの個数は音源
の個数と同数以上であれば、同様に音源ゾーンを検出す
ることができる。

【００５７】例えば、音源が４個の場合には、４個のマ
イクロホンにより、個々のチャネルのマイクロホンが１
個の音源を司るように、図１６の分割方法と同様に４個
のゾーンに空間を分割する。このときの音源状態判定
は、図１５のステップ２０１〜２０８と同様な処理によ
り、４個全部の音源が無音か、いずれか１個が発音して
いるかを判定する。それらいずれでもないとき、図１５
のステップ２０９〜２１４と同様な処理により、４個の
内の１個が無音かを判定し、１個の無音もないとき図１
５のステップ２１５と同じ処理により全部の音源が発音
していると判定する。また、４個の内の３個の音源が発
音しているとき（１個が無音のとき）は、そのままとし
ても良いが、その３個の内のより無音に近い１個を選別
するには、次のようにより細かく制御する。すなわち、
基準値をＴｈＱからＴｈＳ（ＴｈＰ＞ＴｈＳ＞ＴｈＱ）
に換え、図１５の各ステップ２１０，２１２，２１４の
各々の次段に図１５のステップ２０９〜２１４と同様な
処理部分を設けて、３個の内から１個の無音に近い音源
を判定する。

【００５８】このように、音源の数が多くなるほど、図
１５のステップ２０９〜２１４の処理内容を繰り返すこ
とにより、無音又は無音に近い音源を２以上判定するこ
とができる。ただし、判定基準値ＴｈＳは処理の繰り返
しが増えるほど、ＴｈＰに近付ける。以上の処理動作手
順マイクロホンが４個、音源が４個の場合について図１
７に示すようになる。まずマイクロホンＭ１〜Ｍ４より
第１〜第４チャネル信号Ｓ１〜Ｓ４を取込み（Ｓ０
１）、これらチャネル信号Ｓ１〜Ｓ４のレベルＰ（Ｓ
１）〜Ｐ（Ｓ４）をそれぞれ検出し（Ｓ０２）、これら
レベルＰ（Ｓ１）〜Ｐ（Ｓ４）の何れもが基準値ＴｈＲ
以下であるかを調べ（Ｓ０３）、基準値以下であれば制
御信号ＳＡＢＣＤｉを生成して合成信号ＳＡ，ＳＢ，Ｓ
Ｃ（Ｓ１）の出力を抑圧する（Ｓ０４）。ステップＳ０
３で何れかが基準値ＴｈＲ以下でなければ、各チャネル
信号Ｓ１〜Ｓ４をｎ帯域に分割すると共にその各帯域の
レベルＰ（Ｓ１ｆｉ），Ｐ（Ｓ２ｆｉ），Ｐ（Ｓ３ｆ
ｉ），Ｐ（Ｓ４ｆｉ）（ｉ＝１，…，ｎ）を求める（Ｓ
０５）。各チャネル間で同一帯域ｆｉのレベル中の最
大のチャネルｆｉＭ（Ｍは１，２，３，４の何れか）を
各帯域について決定し（Ｓ０６）、全帯域（ｎ個）中で
ｆｉ１，ｆｉ２，ｆｉ３，ｆｉ４の各合計値χ１，χ
２，χ３，χ４を求める（Ｓ０７）。χ１，χ２，χ
３，χ４中の最大のものχ_Mを求め（Ｓ０８）、χ_Mが
基準値ＴｈＰ１（例えばｎ／３）以上であるかを調べ
（Ｓ０９）、ＴｈＰ１以上であればチャネルＭと対応し
て選出した音源信号、音源Ａの信号であれば分離された
チャネルＭ以外の分離されたチャネルの分離音響信号を
抑圧する制御信号ＳＢＣＤｉを生成する（Ｓ０１０）。
ステップＳ０８から直ちにステップＳ０１０へ移っても
よい。

【００５９】ステップＳ０９で基準値以上でなければχ
_Mが基準値ＴｈＱ以下のチャネルＭがあるかを調べる
（Ｓ０１１）。ＴｈＱ以下のものがなければ、全ての音
源が発音しているとみなして、何れの制御信号も発生し
ない（Ｓ０１２）。ステップＳ０１１でχ_MがＴｈＱ以
下のチャネルＭがあれば、これと対応するチャネルＭと
して分離された音源信号を抑圧する制御信号ＳＭｉを
生成する（Ｓ０１３）。

【００６０】制御信号ＳＭｉで抑圧された以外の分離さ
れた音源信号中の無音又は無音に近いものを抑圧するに
は、Ｓを＋１し（Ｓ０１４）（Ｓは予め０に初期化して
おく）、ＳがＭ−１（Ｍは音源の数）と一致したかを調
べ（Ｓ０１５）、一致していなければ、ＴｈＱを＋ΔＱ
だけ大としてステップＳ０１１に戻る（Ｓ０１６）。Ｓ
がＭ−１になるまでＴｈＱをＴｈＰを越えない範囲でΔ
Ｑづつ増加させステップＳ０１１を実行する。ステップ
Ｓ０１５でＭ−１＝Ｓであれば、その時のＴｈＱ以下の
各χ_Mの各チャネルＭと対応する分離された音源信号を
抑圧する各制御信号ＳＭｉを生成する（Ｓ０１３）。必
要に応じてステップＳ０１５でＭ−１＝Ｓになる前にス
テップＳ０１３に移ってもよい。

【００６１】ステップＳ０７でχ１〜χ４を計算した
後、これらでＴｈＰ２（例えば２ｎ／３）以上のものが
あるかを調べ、あればステップＳ０１０に移り、なけれ
ばステップＳ０１１に移るようにしてもよい（Ｓ０１
７）。上述では音源分離の精度を上げるため、マイクロ
ホンＭ１〜Ｍ３のチャネル信号Ｓ１〜Ｓ３の帯域間レベ
ル差を利用して信号抑圧部９０に対する制御信号を生成
したが、帯域間時間差を利用して制御信号を生成するこ
ともできる。

【００６２】この例を図１８に、図１１と対応する部分
に同一符号を付けて示す。この実施例では帯域分割部４
１で得られた各帯域ｆ１〜ｆｎの信号Ｓ１（ｆ１）〜Ｓ
１（ｆｎ）から到達時間差信号Ａｎ（Ｓ１ｆ１）〜Ａｎ
（Ｓ１ｆｎ）が帯域別時間差検出部１０１で検出され、
同様に帯域分割部４２，４３でそれぞれ得られた各帯域
の信号Ｓ２（ｆ１）〜Ｓ２（ｆｎ）、Ｓ３（ｆ１）〜Ｓ
３（ｆｎ）からそれぞれ到達時間差信号Ａｎ（Ｓ２ｆ
１）〜Ａｎ（Ｓ２ｆｎ），Ａｎ（Ｓ３ｆ１）〜Ａｎ（Ｓ
３ｆｎ）が帯域別時間差検出部１０２，１０３で検出さ
れる。

【００６３】これらの到達時間差信号を得る処理は、例
えば、フーリエ変換により各帯域の信号の位相（あるい
は群遅延）を算出し、同一の帯域ｆｉの信号Ｓ１（ｆ
ｉ），Ｓ２（ｆｉ），Ｓ３（ｆｉ）（ｉ＝１，２，…，
ｎ）の位相を相互に比較することで、同一音源信号の到
達時間差と対応した信号を得ることができる。この場合
も帯域分割部４０での分割は、１つの帯域には１つの音
源信号成分しか存在しないとみなせる程度に小さく行
う。

【００６４】この到達時間差の表現方法は、例えば、マ
イクロホンＭ１〜Ｍ３のいずれかを基準にしてその基準
マイクロホンに対する到達時間差を０に設定しておけ
ば、他のマイクロホンに対する到達時間差はその基準マ
イクロホンに対して速く到達したか遅く到達したかで判
定できるので、正又は負の極性を付した数値で表すこと
ができる。この場合、基準マイクロホンを例えばＭ１と
すると、到達時間差信号Ａｎ（Ｓ１ｆ１）〜Ａｎ（Ｓ１
ｆｎ）は全て０となる。

【００６５】音源状態判定部１１０では、コンピュータ
処理により音声を発していない音源を判定する。まず、
帯域別時間差検出部１００により得られる到達時間差信
号Ａｎ（Ｓ１ｆ１）〜Ａｎ（Ｓ１ｆｎ），Ａｎ（Ｓ２ｆ
１）〜Ａｎ（Ｓ２ｆｎ），Ａｎ（Ｓ３ｆ１）〜Ａｎ（Ｓ
３ｆｎ）を、同一の帯域の信号について相互に比較す
る。これにより各帯域ｆ１〜ｆｎ毎に、最も信号が速く
到達するチャネルが決定できる。

【００６６】そこで、各チャネルについて信号が最も速
く到達すると判定された帯域の合計数を算出して、それ
をチャネル間で比較する。この結果、この合計帯域数の
値が大きいチャネルのマイクロホンほど、音源に近いと
みなすことができる。そして、あるチャネルについて、
当該合計帯域数が予め設定した基準値ＴｈＰを越えたと
き、当該のチャネルのマイクロホンが司るゾーンに音源
があると判定する。

【００６７】また、この音源状態判定部１１０には、全
帯域レベル検出部６０で検出された各チャネルのレベル
Ｐ（Ｓ１）〜Ｐ（Ｓ３）も入力され、あるチャネルのレ
ベルが予め設定した基準値ＴｈＲ以下の場合には、その
チャネルのマイクロホンが司るゾーンには、音源がない
と判定する。いま図１２に示したように音源Ａ，Ｂに対
し、マイクロホンＭ１〜Ｍ３を配置したとする。またマ
イクロホンＭ１のチャネルに対する前記した合計帯域数
をχ１、マイクロホンＭ２，Ｍ３の各チャネルに対する
合計帯域数をそれぞれχ２，χ３とする。

【００６８】この場合も図１３に示した処理手順と同様
にすればよい。即ち、まず、全帯域レベル検出部６０の
検出信号Ｐ（Ｓ１）〜Ｐ（Ｓ３）のすべてが基準値Ｔｈ
Ｒよりも小さいとき（１０１）、音源Ａ，Ｂは発音して
いないと見なし、制御信号ＳＡＢｉを生成して（１０
２）、両音源信号ＳＡ，ＳＢを抑圧する。このとき、出
力信号ＳＡ′，ＳＢ′は無音信号となる。

【００６９】音源Ａのみが発音しているときは、その音
源信号のすべての帯域の周波数成分がマイクロホンＭ２
へ一番速く到達するので、このマイクロホンＭ２のチャ
ネルの合計帯域数χ２が最も多くなる。また、音源Ｂの
みが発音しているときは、その音源信号のすべての帯域
の周波数成分がマイクロホンＭ３へ一番速く到達するの
で、このマイクロホンＭ３のチャネルの合計帯域数χ３
が最も多くなる。

【００７０】さらに、音源Ａ，Ｂが共に発音している場
合には、音源信号が最も速く到達する帯域数がマイクロ
ホンＭ２とＭ３で拮抗する。したがって、前記した基準
値ＴｈＰにより、音源信号があるマイクロホンへ最も速
く到達する合計帯域数が、当該設定値ＴｈＰを越えた場
合、当該マイクロホンが司るゾーンに音源が存在し、そ
の音源が発音していると判定する。

【００７１】上記の例では、音源Ａのみが発音している
ときは、χ２のみが基準値ＴｈＰを越えて（図３の１０
３）、音響を発生している音源が存在するのはマイクロ
ホンＭ２が司るゾーンＺ３であると検出されるので、制
御信号ＳＢｉが生成され（１０４）、音響信号ＳＢが抑
制され、信号ＳＡのみが出力される。また、音源Ｂのみ
が発音しているときは、χ３のみが基準値ＴｈＰを越え
（１０５）、音を発している音源が存在するのは、マイ
クロホンＭ３が司るゾーンＺ４であると検出されるの
で、制御信号ＳＡｉが生成され（１０６）信号ＳＡが抑
制されて、信号ＳＢのみが出力される。

【００７２】この例ではＴｈＰは例えばｎ／３程度に設
定され、音源Ａ，Ｂが共に発音していて、χ２，χ３と
もに基準値ＴｈＰを越えることがある。この場合は図１
３の処理手順に示すように一方の音源、この例ではＡを
優先させ、音源Ａへ分離信号のみを出力させることもで
きる。また、χ２，χ３が共に基準値ＴｈＰに達してい
ない場合は、レベルＰ（Ｓ１）〜Ｐ（Ｓ３）が基準値Ｔ
ｈＲを越えている限り、両音源Ａ，Ｂともに発音してい
ると判断し、制御信号ＳＡｉ，ＳＢｉ，ＳＡＢｉは出力
せず（図３の１０７）音声抑圧部９０では音声信号Ｓ
Ａ，ＳＢに対する抑圧は行われない。

【００７３】図１２に示した状態に対して図１４に示す
ように音源ＣをゾーンＺ６に加えた場合、図示しないが
音源分離部８０からは、音源Ａに対応する信号ＳＡ、音
源Ｂに対応する信号ＳＢの他に、音源Ｃに対応する信号
ＳＣが出力する。これと対応して音源状態判定部１１０
から、信号ＳＡを抑圧する制御信号ＳＡｉ、信号ＳＢを
抑圧する制御信号ＳＢｉの他に、信号ＳＣを抑圧する制
御信号ＳＣｉが出力し、また、信号ＳＡとＳＢを抑圧す
る制御信号ＳＡＢｉの他に、信号ＳＢとＳＣを抑圧する
制御信号ＳＢＣｉ、信号ＳＣとＳＡを抑圧する制御信号
ＳＣＡｉ、信号ＳＡ，ＳＢ，ＳＣの全部を抑圧する制御
信号ＳＡＢＣｉが出力する。そして、この音源状態判定
部１１０は先に述べた図１５に示したと同様の処理を行
う。

【００７４】まず、レベルＰ（Ｓ１）〜Ｐ（Ｓ３）の全
部が基準値ＴｈＲを越えていない場合は、いずれの音源
Ａ〜Ｃも発音していないものと判断して、音源状態判定
部１１０からはＳＡＢＣｉが出力して、信号ＳＡ，Ｓ
Ｂ，ＳＣのいずれもが抑圧される。次に、音源Ａ，Ｂ，
Ｃがそれぞれ単独で発音している場合には、前記した音
源が２個の場合と同様に、その音源に最も近いマイクロ
ホンのチャネルの到達時間が最も速くなるので、そのチ
ャネルの帯域数χ１，χ２，χ３のいずれかが基準値Ｔ
ｈＰを越える。そして、音源Ｃのみが発音している場合
は、制御信号ＳＡＢｉが出力して信号ＳＡ，ＳＢが抑圧
される。また、音源Ａのみが発音している場合は、制御
信号ＳＢＣｉが出力して信号ＳＢ，ＳＣが抑圧される。
さらに、音源Ｂのみが鳴っている場合は、制御信号ＳＡ
Ｃｉが出力して信号ＳＡ，ＳＣが抑圧される（図１５の
２０３〜２０８）。

【００７５】次に、３つの音源Ａ〜Ｃのうちのいずれか
２つが発音している場合は、発音していない音源に対応
するゾーンにあるマイクロホンの到達時間の最も速い帯
域数が、他のマイクロホンのものに比べて小さくなる。
例えば、音源Ｃのみが鳴っていない場合には、マイクロ
ホンＭ１への到達時間が最も速い帯域数χ１が、他の２
個のマイクロホンＭ２，Ｍ３の帯域数χ２，χ３に比べ
て小さくなる。

【００７６】よって、予めある基準値ＴｈＱ（＜Ｔｈ
Ｐ）を設定し、χ１がその基準値ＴｈＱ以下になる場合
は、マイクロホンＭ１とマイクロホンＭ３で空間を２分
割したゾーンＺ５，Ｚ６の内、マイクロホンＭ１に近い
ゾーンＺ６では、音源は信号を発していないと判定し、
さらに、マイクロホンＭ１とＭ２で空間を２分割したゾ
ーンＺ１，Ｚ２のうちマイクロホンＭ１に近いゾーンＺ
１では音源は信号を発していないと判定する。

【００７７】すなわち、ゾーンＺ１，Ｚ６にある音源は
信号を発していないと判定するのである。これらのゾー
ンにある音源は音源Ｃであることから、音源Ｃが信号を
発していないと判定される。つまり、音源Ａ，Ｂのみが
信号を発していると判定され、制御信号ＳＣｉが生成さ
れて信号ＳＣが抑圧される（図１５の２０９〜２１
０）。音源Ａのみ、音源Ｂのみがそれぞれ信号を発して
いないゾーンも、同様に判定される（図１５の２１１〜
２１４）。

【００７８】また、χ１，χ２，χ３がともに基準値Ｔ
ｈＱ以下でないと判定されると、音源Ａ，Ｂ，Ｃはその
全てが信号を発していると判定される（図１５の２１
５）。なお、以上の例では、ゾーンをＺ１〜Ｚ６の６つ
に分けたが、図１６に示したように、３つに分けても同
様に音源状態を判定できる。この場合は、例えば、音源
Ａのみが発音している場合は、マイクロホンＭ２のチャ
ネルの帯域数χ２が最も大きくなるので、そのマイクロ
ホンＭ２の司るゾーンＺ２に音源があると判定される。
また、音源Ｂのみが発音している場合はχ３が最も大き
くなり同様にゾーンＺ３に音源があると判定される。ま
た、χ１が予め設定した値ＴｈＱ以下である場合には、
マイクロホンＭ１とＭ３で空間を２分したうちのゾーン
Ｚ１にある音源は発音していないと判定し、同じくマイ
クロホンＭ１とＭ２で空間を分割したうちのゾーンＺ１
にある音源は信号を発していないと判定する。以上の処
理により、ゾーンを３分割しても、６分割したときと同
様に音源の状態を判定できる。

【００７９】以上の場合の基準値ＴｈＰ，ＴｈＱの設定
は、先の帯域レベルを利用する場合と同様に行えばよ
い。また、基準値ＴｈＲ，ＴｈＰ，ＴｈＱは、全てのマ
イクロホンＭ１〜Ｍ３で同一値を用いた場合で説明した
が、マイクロホン毎に適宜変更してもよい。また、以上
の説明では、音源が３個でマイクロホンが３個の場合に
ついてであったが、マイクロホンの個数は音源の個数と
同数以上であれば、同様に音源ゾーンを検出することが
できる。その処理手順は先に述べた帯域レベルを利用す
る場合と同様である。従って、例えば音源が４個の場合
に４個の内の３個の音源が発音しているとき（１個が無
音のとき）は、そのままとしても良いが、その３個の内
のより無音に近い１個も選別するには、基準値をＴｈＱ
からＴｈＳ（ＴｈＰ＞ＴｈＳ＞ＴｈＱ）に換え、図１５
の２１０，２１２，２１４の各々の次段に図１５の２０
９〜２１４と同様な処理部分を設けて、３個の内から１
個の無音の音源を判定することも同様である。

【００８０】図１７に示した処理において、そのレベル
の代りに時間差を用いれば、図１８に示した到達時間差
を利用した不要信号の抑圧に、図１７に示した処理手順
も適用できる。上述においては各マイクロホンの出力チ
ャネル信号をまず帯域分割したが、帯域別レベルを利用
する場合はまず各チャネルのパワースペクトルを求めた
後、帯域分割してもよい。その例を図１９に図１、図１
１と対応する部分と同一符号を付けて示し、これらと異
なる部分のみを説明する。この例ではマイクロホン１，
２よりの各チャネル信号は、パワースペクトル分解部３
００により、例えば高速フーリエ変換によりパワースペ
クトルに変換され、その後、各チャネルごとに帯分割部
４で各帯域に分割され、各帯域ではほぼ１つの音源信号
のみが主として含まれるようにして帯域別レベルを得
る。この場合、音源信号選択部６０２へ供給する各帯域
別レベルは、その原スペクトルの位相成分も供給し、音
源信号合成部７で音源信号が再生できるようにする。

【００８１】また各帯域別レベルは帯域別チャネル間レ
ベル差検出部５と音源状態判定部７０とへ供給され、こ
れらの部分で図１、図１１で説明したように処理される
その他の動作は図１又は図１１の場合と同一である。図
２を参照して説明した実施例において、チャネル間時間
差を用いずに、各帯域分割信号ごとに、対応帯域別チャ
ネル間時間差のみを用いて、何れの音源から到来したか
を判定してもよい。また図５を参照して説明した実施例
において、チャネル間レベル差を用いずに、各帯域分割
信号ごとに、対応帯域別チャネル間レベル差のみを用い
て、何れの音源から到来したかを判定してもよい。図５
を参照した実施例におけるチャネル間レベル差の検出
は、対数レベルに変換する前のレベルを用いてもよい。
図１中の帯域分割部４、図１１、図１８中の各帯域分割
部４０、図２０中の帯域分割部２３３、図２１中の帯域
分割部２４１における各周波数帯域の分割は必ずしも同
一とする必要はない。要求される精度に応じて、これら
の分割数を互いに異ならせてもよい。図２０中の帯域分
割部２３３はその後の処理のために、その入力信号のパ
ワースペクトルを先ず求め、その後、複数の周波数帯域
に分割してもよい。

【００８２】以下に図６〜９に示したこの発明を適用し
た実験例を示す。図２０に示す３種類の２音源信号の組
み合わせにこの発明を適用し、その際に帯域分割部４で
与える周波数分解能を変化させ、分離信号を物理的、及
び主観的に評価した。分離処理前の混合信号は、チャネ
ル間時間差及びレベル差のみを計算機上で与えて加算す
ることにより作成した。与えたチャネル間時間差、レベ
ル差はそれぞれ、０．４７ｍｓ、２ｄＢである。

【００８３】帯域分割部４の周波数分解能は、約５Ｈ
ｚ，１０Ｈｚ，２０Ｈｚ，４０Ｈｚ，８０Ｈｚの５種類
とした。これらの分解能で分離した信号と、原信号（Ｏ
Ｓ）の計６種類の信号について評価した。なお、信号帯
域は約５ｋＨｚである。定量的評価を次のように行っ
た。混合された信号の分離が完全に行われた場合、原信
号と分離信号が等しくなる。すなわち、相関係数が１と
なる。そこで、分離度を計る物理量として、各音につい
て原信号と処理後の信号との相関係数を算出した。

【００８４】結果を、図２２に破線で示す。音声は、い
ずれの組み合わせについても、周波数分解能が８０Ｈｚ
になると相関値がかなり低くなるが、それ以外の分解能
の場合は顕著な差が見られなかった。鳥の鳴き声につい
ては今回用いた周波数分解能の間に顕著な差は見られな
かった。主観評価を次のように行った。

【００８５】被験者は、正常な聴力を持つ２０代から３
０代の日本人５人とした。各音源について、５種類の周
波数分解能の分離音と原音をランダムにヘッドホンでダ
イオティックに提示し、音質について５段階で評価させ
た。一つの音の提示時間は約４秒間であった。結果を、
図２２に実線で示す。分離音Ｓ１については周波数分解
能１０Ｈｚの場合が一番評価が高い。また、全ての条件
に対する評価の間に有意差（α＜０．０５）が存在し
た。分離音Ｓ２〜４、６については周波数分解能２０Ｈ
ｚの評価が最も高いが、２０Ｈｚと１０Ｈｚとの間には
有意差はなかった。また、２０Ｈｚの音と５Ｈｚ，４０
Ｈｚ，８０Ｈｚの間にはそれぞれ有意差が存在した。こ
れらの結果から、音声については分離する組み合わせの
種類によらず、最適な周波数分解能が存在することが分
かった。この実験の場合は２０Ｈｚもしくは１０Ｈｚ程
度が最適な値である。分離音Ｓ５（鳥の鳴き声）につい
ては４０Ｈｚの場合が最も評価が高いが有意差は４０Ｈ
ｚと５Ｈｚ，２０Ｈｚと５Ｈｚの間にしか存在しなかっ
た。なお、いずれの場合についても、分離処理後の音と
原音の間には有意差が存在した。

【００８６】図２１、図２３にこの発明の効果を示す。
図２１は、分離処理前の男声と女声の混合音声のスペク
トル２０１とこの発明による分離処理後の男声Ｓ１、女
声Ｓ２の各スペクトル２０２，２０３を表す。図２３
は、分離処理前の男声Ｓ１、女声Ｓ２の各原音声の各波
形をＡ，Ｂに、混合音声波形をＣに、分離処理後の男声
Ｓ１、女声Ｓ２の各波形をＤ，Ｅにそれぞれ示す。図２
１からは、不要な成分が抑圧されていることが分かる。
さらに、図２３からは、分離処理後の音声が原音声と同
程度の品質で復元されていることが分かる。

【００８７】帯域分割の分解能は音声の場合、１０〜２
０Ｈｚ程度が好ましく、５Ｈｚ以下、５０Ｈｚ以上は好
ましくない。帯域分割の手法はフーリエ変換に限らず、
帯域フィルタにより分割してもよい。次に図１１に示し
たレベル差を利用して音源状態を判定して信号抑圧部９
０で信号抑圧を行う場合の実験例を示す。２個のマイク
ロホンを用い、２つの音源Ａ，Ｂをダミーヘッドから距
離１．５ｍ、角度差９０度（２つのマイクロホンの中点
に対し右４５度、左４５度）の位置に置き、同一の音圧
レベルで、残響時間０．２ｓ（５００Ｈｚ）の可変残響
室内で収音した。用いた混合音と分離音の組み合せは図
２２中のＳ１〜Ｓ４である。

【００８８】分離音声Ｓ１〜Ｓ４について、無音と判定
されたフレームの個数と、原音の無音フレームの個数の
比率を算した。その結果は次の通り９０％以上正しく検
出された。男（S1）女(S2) 女声１(S3) 女声２(S4) 検出率９９％９３％９２％９５％図６〜９に示した基本方法と図１１に示した改良方法と
のそれぞれで分離した音をランダムにヘッドホンでダイ
オティックに提示し、雑音の交じり具合の少なさと不連
続感の少なさについて評価させた。用いた分離音は前記
Ｓ１〜Ｓ４であり、被験者は正常な聴力を持つ２０代か
ら３０代の日本人５名である。一つの音の提示時間は約
４秒間、各音の試行回数は３回である。その結果、雑音
の交じり具合が少ないと評価した率は改良方法が９１．
７％、基本方法は８．３％で、改良方法が少ないと判断
した回答が格段と多かった。一方不連続感が少ないにつ
いては改良方法は２０．０％、基本方法が８０．０％で
基本方法の方が少ないと判断する回答が多かったが、改
良方法との間に有意な差は見られなかった。

【００８９】次に分離性能を相対評価を行うため、以下
の５種類の音の分離度の比較を主観評価により行った。（１）原音（２）基本法（計算機）：チャネル間時間差（０．４７
ｍｓ）、レベル差（２ｄＢ）を与えて計算機上で加算し
た混合信号を、基本方法で分離した音。（３）改良法（実環境）：先の無音区間検出率の実験に
用いた条件で収音した混合音を改良方法で分離した音。（４）基本法（実環境）：先の無音区間検出率の実験に
用いた条件で収音した混合音を基本方法で分離した音。（５）混合音：先の無音区間検出率の実験に用いた条件
で収音した混合音。

【００９０】図２０中の最初の２つの混合音に対し、
“原音”上記（１）〜（４）の方法で処理した音、“混
合音”の計２０種類をランダムにヘッドホンでダイオテ
ィックに提示し、分離度について７段階で評価させた。
つまり「最も分離されている」を７点、「最も分離され
ていない」を１点とした。被験者、音の提示時間及び試
行回数は、前記雑音の交じり具合の少なさの評価の場合
と同一である。

【００９１】この結果を図２４中で、全音源（Ｓ０）を
Ａに、男声（Ｓ１）をＢに、女声（Ｓ２）をＣに、女声
１（Ｓ３）をＤに、女声２（Ｓ４）をＥにそれぞれ示
す。全音源について分析した結果（Ｓ０）と、音源の種
類毎に分析した結果（Ｓ１）〜（Ｓ４）とは、ほぼ同じ
傾向を示した。Ｓ０〜Ｓ４全ての場合について、
“（１）原音”、“（２）基本法（計算機）”、
“（３）改良法（実環境）”、“（４）基本法（実環
境）”、“（５）混合音”の順に分離精度が高い。つま
り実環境では改良方法の方が基本方法より優れている。

【００９２】

【発明の効果】以上述べたようにこの発明によれば複数
のマイクロホンからの各チャネル信号を、主な成分が１
つの音源信号の成分のみからなる程度に複数の帯域に分
割し、これら各同一帯域について、レベル、到達時間を
検出し、これらから、各帯域ごとに何れの音源信号かを
判定分離することにより、各音源信号を正しく分離する
ことができ、しかも実時間での処理が可能である。

【００９３】特に発音していない音源を検出し、その成
分を抑圧することにより、部屋内のような回り込みや、
残響がある場所でも、正確に分離することができる。

【図面の簡単な説明】

【図１】この発明の音源分離装置の実施例の機能構成を
示すブロック図。

【図２】この発明の音源分離方法の実施例の処理手順を
示す流れ図。

【図３】図２中のチャネル間時間差Δτ₁，Δτ₂を求
める処理手順の例を示す流れ図。

【図４】Ａ，Ｂはそれぞれ二つの音源信号のスペクトル
の例を示す図である。

【図５】この発明の音源分離方法で、チャネル間レベル
差を利用して音源分離を行う実施例の処理手順を示す流
れ図。

【図６】この発明音源分離方法で、チャネル間レベル差
と、チャネル間到達時間差を利用する実施例の処理手順
の一部を示す流れ図。

【図７】図６中のステップＳ０８の続きを示す流れ図。

【図８】図６中のステップＳ０９の続きを示す流れ図。

【図９】図６中のステップＳ１０、図７、図８中のステ
ップＳ２０，Ｓ３０の続きを示す流れ図。

【図１０】周波数帯域が異なる音源信号を分離する実施
例の機能構成を示すブロック図。

【図１１】レベル差を利用して不要音源信号を抑圧する
構成を付加したこの発明の音源分離装置の実施例の機能
構成を示すブロック図。

【図１２】３つのマイクロホンとその受けもつゾーン
と、２つの音源の配置例を示す図。

【図１３】発音している音源が１つの場合の音源ゾーン
の検出と、抑圧制御信号の生成処理手順の例を示す流れ
図。

【図１４】３つのマイクロホンと、その受けもつゾーン
と、３つの音源の配置例を示す図。

【図１５】音源が３つの場合の発音音源のゾーン検出
と、抑圧制御信号の生成処理手順の例を示す流れ図。

【図１６】３つのマイクロホンによりゾーンを３つに分
割した例と、音源の配置例を示す図。

【図１７】この発明の音源分離装置において、発音して
いない合成音源信号を抑圧する制御信号を生成するため
の処理手順の例を示す流れ図。

【図１８】到達時間差を利用して不要音源信号を抑圧す
る構成を付加したこの発明の音源分離装置の実施例の機
能構成を示すブロック図。

【図１９】この発明音源分離装置で、パワースペクトル
を求めた後、帯域分割を行う場合の実施例の機能構成を
示すブロック図。

【図２０】この発明の実験に用いた音源の種類を示す
図。

【図２１】図６〜図９に示した実施例の方法による処理
前と、処理後の音声スペクトルを示す図。

【図２２】図６〜図９に示した実施例の方法を用いた主
観評価実験の結果を示す図。

【図２３】図６〜図９に示した実施例の方法により処理
した処理後の音声波形と、その原音声波形を示す図。

【図２４】図６〜図９に示した音源分離方法と図１１に
示した音源分離装置とについての実験結果を示す図。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＧ１０Ｌ 21/02 Ｇ１０Ｌ 9/00 ＨＨ０４Ｓ 7/00 (72)発明者西野豊東京都新宿区西新宿三丁目19番２号日本電信電話株式会社内 (56)参考文献特開平７−168586（ＪＰ，Ａ) 特開平５−344011（ＪＰ，Ａ) 米国特許5610991（ＵＳ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) H04R 3/00 320 G01S 5/18 G10L 11/00 G10L 15/20 G10L 19/00 G10L 21/02 H04S 7/00

Claims

(57)【特許請求の範囲】

【請求項１】互いに離して設けられた複数のマイクロ
ホンを用いて、複数の音源から少なくとも１つの音源を
分離する音源分離方法であって、上記各マイクロホンの各出力チャネル信号を、複数の周
波数帯域に分割する帯域分割過程と、上記帯域分割過程で分割された各出力チャネル信号の各
同一帯域ごとに、上記複数のマイクロホンの位置に起因
して変化する、マイクロホンに到達する音響信号のパラ
メータの値の差を、帯域別チャネル間パラメータ値差と
して検出する帯域別チャネル間パラメータ値差検出過程
と、上記各帯域の帯域別チャネル間パラメータ値差にもとづ
き、その帯域の上記帯域分割された各出力チャネル信号
の何れがいずれの音源から入力された信号であるかを判
定する音源信号判定過程と、上記音源信号判定過程の判定にもとづき、上記帯域分割
された各出力チャネル信号から、同一音源から入力され
た信号を少なくとも１つ選択する音源信号選択過程と、上記音源信号選択過程で同一音源からの信号として選択
された複数の帯域信号を音源信号として合成する音源合
成過程とを有することを特徴とする音源分離方法。
【請求項２】請求項１記載の方法において、上記帯域分割過程は各出力チャネル信号の各分割された
帯域信号は、主として１つの音源の音響信号の成分より
なる程度に、小さく分割することを特徴とする音源分離
方法。
【請求項３】請求項１又は２記載の方法において、上記帯域別チャネル間パラメータ値差検出過程における
上記パラメータ値は音源からの音響信号が上記各マイク
ロホンに到達するまでの時間であり、上記帯域別チャネ
ル間パラメータ値差は各マイクロホンに到達するまでの
時間のマイクロホン間の差である帯域別チャネル間時間
差であることを特徴とする音源分離方法。
【請求項４】請求項３記載の方法において、上記音響信号が各マイクロホンに到達するまでの時間の
マイクロホン間の差をチャネル間時間差として各マイク
ロホンの出力チャネル信号から検出するチャネル時間差
検出過程を有し、上記音源信号判定過程は、上記各帯域別チャネル間時間
差について、上記各チャネル間時間差を照合して、その
帯域の上記分割された各出力チャネル信号がいずれの音
源から入力された信号であるかを判定することを特徴と
する音源分離方法。
【請求項５】請求項４記載の方法において、上記チャネル時間差検出過程は各出力チャネル信号間の
相互相関を求め、相互相関の各ピークとなるその出力チ
ャネル信号間の各時間差として上記各チャネル間時間差
を求めることを特徴とする音源分離方法。
【請求項６】請求項５記載の方法において、上記帯域別チャネル間時間差は、上記各チャネル間時間
差中の、上記分割された各出力チャネルの同一帯域の成
分の位相差と対応する時間と最も近いものを求めて、そ
の帯域別チャネル間時間差とすることを特徴とする音源
分離方法。
【請求項７】請求項１又は２記載の方法において、上記帯域別チャネル間パラメータ値差検出過程における
上記パラメータ値は音源からの音響信号が上記各マイク
ロホンに到達した時の信号レベルであり、上記帯域別チ
ャネル間パラメータ値差は各分割された出力チャネル信
号の対応帯域間のレベル差である帯域別チャネル間レベ
ル差であることを特徴とする音源分離方法。
【請求項８】請求項７記載の方法において、上記各マイクロホンの出力チャネル信号間のレベル差
を、チャネル間レベル差として検出するチャネル間レベ
ル差検出過程と、上記チャネル間レベル差と、対応する帯域別チャネル間
レベル差の全てと比較する比較過程と、その比較過程で分割帯域の所定数以上が同様の関係にあ
れば、上記チャネル間レベル差にもとづき、対応する出
力チャネル信号の全帯域について同一の音源から入力さ
れた信号であると判定し、上記比較過程で所定値以上が
同様の関係になければ、上記帯域別にいずれの音源から
入力された信号であるかを判定する上記音源信号判定過
程を実行することを特徴とする音源分離方法。
【請求項９】請求項１又は２記載の方法において、上記パラメータ値は音源からの音響信号が上記マイクロ
ホンに到達するまでの時間と、その音響信号が到達した
時の信号レベルであり、上記帯域別チャネル間パラメー
タ値差として帯域別チャネル間時間差と、帯域別チャネ
ル間レベル差が求められ、各音源からの音響信号が上記各マイクロホンに到達する
までの時間のマイクロホン間の差を、各マイクロホンの
出力チャネル信号から、チャネル時間差として検出する
チャネル間時間差検出過程と、上記チャネル間時間差を基準にして上記分割された各出
力チャネル信号を、低域、中域、高域の３つの周波数領
域に分け領域分割過程とを有し、上記音源信号判定過程は、上記分割された低域の周波数帯域については、上記帯域
別チャネル間時間差を利用して対応する帯域の分割され
た各出力チャネル信号の何れがいずれの音源からの入力
信号であるか判定する過程と、上記分割された中域の周波数帯域については、上記帯域
別チャネル間レベル差と、上記帯域別チャネル間時間差
を利用して、対応する帯域の分割された各出力チャネル
信号の何れがいずれの音源からの入力信号であるか判定
する過程と、上記分割された高域の周波数帯域については、上記帯域
別チャネル間レベル差を利用して、対応する帯域の分割
された各出力チャネル信号の何れかがいずれの音源から
の入力信号であるか判定する過程とからなることを特徴
とする音源分離方法。
【請求項１０】請求項１〜９の何れかに記載の方法に
おいて、上記帯域別チャネル間パラメータ値差検出過程におい
て、その互いに差をとるべき、もとのチャネル信号の周
波数帯域が異なる場合は、その周波数帯域が互いに重な
らない周波数帯域は、上記帯域別チャネル間パラメータ
値差検出過程を実行せず、上記音源信号判定過程ではそ
の信号がある帯域を予め知られている広い帯域の音源か
らの入力信号と判定することを特徴とする音源分離方
法。
【請求項１１】互いに離して設けられた複数のマイク
ロホンを用いて、複数の音源から少なくとも１つの音源
を分離する音源分離方法であって、上記各マイクロホンの各出力チャネル信号のパワースペ
クトルを求めるスペクトル分解過程と、上記各チャネルごとのパワースペクトルを、主としてほ
ぼ１つの音源の成分が含まれるように複数の周波数帯域
に分割する帯域分割過程と、上記各同一帯域ごとに、各チャネル間で分割されたパワ
ースペクトル差を、帯域別チャネル間レベル差として検
出する帯域別チャネル間レベル差検出過程と、上記各帯域の帯域別チャネル間レベル差にもとづき、そ
の帯域の信号が上記出力チャネル信号の何れであるかを
判定する音源信号判定過程と、上記音源信号判定過程の判定にもとづき、上記分割され
たパワースペクトルから、同一音源からの信号を少なく
とも１つ選択する音源信号選択過程と、上記音源信号選択過程で同一音源からのものとして選択
されたスペクトルを音源信号として合成する音源合成過
程とを有することを特徴とする音源分離方法。
【請求項１２】請求項１１記載の方法において、上記各マイクロホンの出力チャネル信号間のレベル差を
チャネル間レベル差として検出するチャネル間レベル差
検出過程と、上記チャネル間レベル差と、対応する上記帯域別チャネ
ル間レベル差の全てとを比較する比較過程と、その比較過程で分割帯域の所定数以上が同様の関係であ
れば、上記チャネル間レベル差にもとづき、対応する出
力チャネル信号の全帯域について同一音源から入力され
た信号であると判定し、上記比較過程で所定値以上が同
様の関係になければ、上記音源信号判定過程を実行する
ことを特徴とする音源分離方法。
【請求項１３】請求項１乃至１２の何れかの方法にお
いて、上記各マイクロホンの出力チャネル信号を、各帯域が主
として１つの音源信号成分になる程度に、複数の周波数
帯域に分割する第２帯域分割過程と、上記第２帯域分割過程で分割された各出力チャネル信号
の帯域別レベルをそれぞれ検出する帯域別レベル検出過
程と、その帯域別レベル検出過程で検出された各帯域別レベル
を同一帯域についてチャネル間で比較した結果にもとづ
き発音をしていない音源を検出する音源状態判定過程
と、その音源状態判定過程で得た発音をしていない音源の検
出信号により、上記音源合成過程で合成された音源信号
のうち、上記発音していない音源と対応する合成信号を
抑圧する信号抑圧過程とを有することを特徴とする音源
分離方法。
【請求項１４】請求項１３の方法において、上記音源状態判定過程は、上記各帯域別レベルのチャネ
ル間での比較で、最も大きいチャネルを帯域ごとに決定
する過程と、各チャネルごとに最もレベルが大きい帯域の数を求める
過程と、上記最もレベルが大きい帯域の数が第１基準値を越える
か否か判定する第１判定過程と、その第１判定過程で第１基準値を越えると判定すると、
その越えた最もレベルが大きい帯域の数と対応するチャ
ネルのマイクロホン位置から、発音している１個の音源
を推定する過程と、その推定された音源以外の音源を発音していないものと
して検出する過程とを有することを特徴とする音源分離
方法。
【請求項１５】請求項１〜１２の何れかに記載の方法
において、上記各マイクロホンの各出力チャネル信号のパワースペ
クトルを求めるスペクトル分解過程と、上記各チャネルごとのパワースペクトルを、主としてほ
ぼ１つの音源の成分が含まれるように周波数帯域を分割
して帯域別レベルをそれぞれ検出する帯域別レベル検出
過程と、これら各帯域別レベルを同一帯域について比較し、最大
レベルのチャネルを各帯域ごとに決定する過程と、各チャネルごとの最大レベルの帯域の数を求める過程
と、その帯域の数が第１基準値を越えたか否かを判定する第
１判定過程と、その第１判定過程で第１基準値を越える数と判定する
と、その越えたチャネルのマイクロホンが受けもつ、ゾ
ーンから発音している１個の音源を推定する過程と、その推定された音源以外の音源は発音していないと判定
する過程と、上記音源合成過程で合成された音源信号のうち、上記発
音していないと判定された音源と対応する信号を、抑圧
する信号抑圧過程とを有することを特徴とする音源分離
方法。
【請求項１６】請求項１４又は１５の方法において、上記第１判定過程で、第１基準値を越えるものがないと
判定されると、上記最もレベルが大きい帯域の数が、上
記第１基準値よりも小さい第２基準値以下か否かを判定
する第２判定過程と、その第２判定過程で、第２基準値より小さいと判定され
ると、その小さいと判定された最もレベルが大きい帯域
の数と対応するチャネルのマイクロホン位置から、発音
していない１個の音源として検出する過程とを有するこ
とを特徴とする音源分離方法。
【請求項１７】請求項１乃至１２の何れかの方法にお
いて、上記各マイクロホンの出力チャネル信号を、各帯域が主
として１つの音源信号成分になる程度に、複数の周波数
帯域に分割する第２帯域分割過程と、上記第２帯域分離過程で分割された各出力チャネル信号
のそのマイクロホンへの到達時間差を同一帯域ごとに検
出する帯域別時間差検出過程と、この帯域別時間差検出過程で検出された各帯域別到達時
間差を、同一帯域についてチャネル間で比較した結果に
もとづき発音をしていない音源を検出する音源状態判定
過程と、その音源状態判定過程で得た発音をしていない音源の検
出信号により、上記音源合成過程で合成された音源信号
のうち、上記発音していない音源と対応する合成信号を
抑圧する信号抑圧過程とを有することを特徴とする音源
分離方法。
【請求項１８】請求項３の方法において、上記帯域別チャネル間時間差を、同一帯域についてチャ
ネル間で比較した結果にもとづき発音をしていない音源
を検出する音源状態判定過程と、その音源状態判定過程で得た発音をしていない音源を検
出信号により、上記音源合成過程で合成された音源信号
のうち、上記発音していない音源と対応する信号を抑圧
する信号抑圧過程とを有することを特徴とする音源分離
方法。
【請求項１９】請求項１７又は１８の方法において、上記音源状態判定過程は、上記各帯域別到達時間差比較
で最も速く音源信号が到達したチャネルを帯域ごとに決
定する過程と、各チャネルごとに最も速く到達した帯域の数が第１基準
値を越えるか否かを判定する第１判定過程と、その第１判定過程が第１基準値を越えると判定すると、
その越えた最も速く到達した帯域数と対応するチャネル
のマイクロホン位置から発音している１個の音源を推定
する過程と、その推定された音源以外の音源を発音していないものと
して検出する過程とを有することを特徴とする音源分離
方法。
【請求項２０】請求項１９の方法において、上記第１判定過程で、第１基準値を越えるものがないと
判定されると、上記最も速く到達する帯域の数が、上記
第１基準値よりも小さい第２基準値より小さいか否かを
判定する第２判定過程と、その第２判定過程で、第２基準値より小さいと判定され
ると、その小さいと判定された最も速い到達時間の帯域
数と対応するチャネルのマイクロホン位置から、発音し
ていない１個の音源として検出する過程とを有すること
を特徴とする音源分離方法。
【請求項２１】請求項１６又は２０の方法において、音源が４個以上の場合で、上記第２判定過程で、第２基
準値より小さいと判定されると、上記第２基準値を上記
第１基準値を越えない範囲内で、順次大きくして、上記
第２判定過程と同じ判定を、（Ｍ−２）回以内、Ｍは音
源の数、繰返す過程を有することを特徴とする音源分離
方法。
【請求項２２】請求項１３〜２１の何れかに記載の方
法において、各出力チャネル信号の全周波数成分のレベルをそれぞれ
検出する全帯域レベル検出過程と、その全帯域レベル検出過程で検出した各チャネルの全周
波数成分レベルの何れもが第３基準値以下であるかを判
定し、何れかが第３基準値以下でないと判定すると上記
音源状態判定過程に移る第３判定過程とを有することを
特徴とする音源分離方法。
【請求項２３】請求項２２の方法において、上記第３判定過程が第３基準値以下であると判定される
と、上記音源合成過程で合成された各音源信号のすべて
を抑圧する過程を有することを特徴とする音源分離方
法。
【請求項２４】請求項１３〜２３の何れかの方法にお
いて、上記帯域分割過程と上記第２帯域分割過程は同一過程と
して行われることを特徴とする音源分離方法。
【請求項２５】互いに離して設けられた複数のマイク
ロホンを用いて、複数の音源から少なくとも１つの音源
を分離する音源分離装置であって、上記各マイクロホンの各出力チャネル信号を、主として
１つの音源の音響信号の成分のみが含まれる程度に複数
の周波数帯域に分割すると共に、これら分割された各出
力チャネル信号の各同一帯域ごとに、上記複数のマイク
ロホンの位置に起因して変化する、マイクロホンに到達
する音響信号のパラメータの値の差を、帯域別チャネル
間パラメータ値差として検出する帯域別チャネル間パラ
メータ値差検出手段と、上記各帯域の帯域別チャネル間パラメータ値差にもとづ
き、その帯域の上記帯域分割された各出力チャネル信号
の何れがいずれの音源から入力された信号であるかを判
定する音源信号判定手段と、上記音源信号判定過程の判定にもとづき、上記帯域分割
された各出力チャネル信号から、同一音源から入力され
た信号を少なくとも１つ選択する音源信号選択手段と、上記音源信号選択過程で同一音源からの信号として選択
された、複数の帯域信号を音源信号として合成する音源
合成手段とを具備することを特徴とする音源分離装置。
【請求項２６】請求項２５の装置において、上記帯域別チャネル間パラメータ値差検出手段における
上記パラメータ値は音源からの音響信号が上記各マイク
ロホンに到達するまでの時間であり、上記帯域別チャネ
ル間パラメータ値差は各マイクロホンに到達するまでの
時間のマイクロホン間の差である帯域別チャネル間時間
差であることを特徴とする音源分離装置。
【請求項２７】請求項２５の装置において、上記音響信号が各マイクロホンに到達するまでの時間の
マイクロホン間の差をチャネル間時間差として各マイク
ロホンの出力チャネル信号から検出するチャネル時間差
検出手段を有し、上記音源信号判定手段は、上記各帯域別チャネル間時間
差について、上記各チャネル間時間差を照合して、その
帯域の上記分割された各出力チャネル信号がいずれの音
源から入力された信号であるかを判定する手段であるこ
とを特徴とする音源分離装置。
【請求項２８】請求項２５の装置において、上記帯域別チャネル間パラメータ値差検出手段における
上記パラメータ値は音源からの音響信号が上記各マイク
ロホンに到達した時の信号レベルであり、上記帯域別チ
ャネル間パラメータ値差は各分割された出力チャネル信
号の対応帯域間のレベル差である帯域別チャネル間レベ
ル差であることを特徴とする音源分離装置。
【請求項２９】請求項２８の装置において、上記各マイクロホンの出力チャネル信号間のレベル差
を、チャネル間レベル差として検出するチャネル間レベ
ル差検出手段と、上記チャネル間レベル差と、対応する帯域別チャネル間
レベル差の全てと比較する比較手段と、その比較手段で
分割帯域の所定数以上が同様の関係にあれば、上記チャ
ネル間レベル差にもとづき、対応する出力チャネル信号
の全帯域について同一の音源から入力された信号である
と判定し、上記比較手段で所定値以上が同様の関係にな
ければ、上記帯域別にいずれの音源から入力された信号
であるかを判定する上記音源信号判定手段を実行する手
段を含むことを特徴とする音源分離装置。
【請求項３０】請求項２５の装置において、上記パラメータ値は音源からの音響信号が上記マイクロ
ホンに到達するまでの時間と、その音響信号が到達した
時の信号レベルであり、上記帯域別チャネル間パラメー
タ値差として帯域別チャネル間時間差と、帯域別チャネ
ル間レベル差が求められ、各音源からの音響信号が上記各マイクロホンに到達する
までの時間のマイクロホン間の差と、各マイクロホンの
出力チャネル信号から、チャネル時間差として検出する
チャネル間時間差検出手段と、上記チャネル間時間差を基準にして、上記分割された各
出力チャネル信号を、低域、中域、高域の３つの周波数
領域に分ける領域分割手段とを有し、上記音源信号判定手段は、上記分割された低域の周波数帯域については、上記帯域
別チャネル間時間差を利用して対応する帯域の分割され
た各出力チャネル信号の何れがいずれの音源からの入力
信号であるか判定する手段と、上記分割された中域の周波数帯域については、上記帯域
別チャネル間レベル差と、上記帯域別チャネル間時間差
を利用して、対応する帯域の分割された各出力チャネル
信号の何れがいずれの音源からの入力信号であるか判定
する手段と、上記分割された高域の周波数帯域については、上記帯域
別チャネル間レベル差を利用して、対応する帯域の分割
された各出力チャネル信号の何れかがいずれの音源から
の入力信号であるか判定する手段とからなることを特徴
とする音源分離装置。
【請求項３１】請求項２５乃至３０の何れかの装置に
おいて、上記帯域分割された各出力チャネル信号の帯域別レベル
をそれぞれ検出する帯域別レベル検出手段と、その帯域別レベル検出手段が検出された各帯域別レベル
を同一帯域についてチャネル間で比較した結果にもとづ
き発音をしていない音源を検出する音源状態判定手段
と、その音源状態判定手段で得た発音をしていない音源の検
出信号により、上記音源合成手段で合成された音源信号
のうち、上記発音していない音源と対応する信号を抑圧
する信号抑圧手段とを有することを特徴とする音源分離
装置。
【請求項３２】請求項３１の装置において、上記音源状態判定手段は、上記各帯域別レベルのチャネ
ル間での比較で、最も大きいチャネルを帯域ごとに決定
する手段と、各チャネルごとに最もレベルが大きい帯域の数を求める
手段と、上記最もレベルが大きい帯域の数が第１基準値を越える
か否か判定する第１判定手段と、その第１判定手段で第１基準値を越えると判定すると、
その越えた最もレベルが大きい帯域の数と対応するチャ
ネルのマイクロホン位置から、発音している１個の音源
を推定する手段と、その推定された音源以外の音源を発音していないものと
して検出する手段とを有することを特徴とする音源分離
装置。
【請求項３３】請求項３２の装置において、上記第１判定手段で、第１基準値を越えるものがないと
判定されると、上記最もレベルが大きい帯域の数が、上
記第１基準値よりも小さい第２基準値以下か否かを判定
する第２判定手段と、その第２判定手段で、第２基準値より小さいと判定され
ると、その小さいと判定された最もレベルが大きい帯域
の数と対応するチャネルのマイクロホン位置から、発音
していない１個の音源として検出する手段とを有するこ
とを特徴とする音源分離装置。
【請求項３４】請求項２５乃至３０の何れかの装置に
おいて、上記帯域分割された各出力チャネル信号のそのマイクロ
ホンへの到達時間差を同一帯域ごと検出する帯域別時間
差検出手段と、この帯域別時間差検出手段で検出された各帯域別到達時
間差を、同一帯域についてチャネル間で比較した結果に
もとづき発音をしていない音源を検出する音源状態判定
手段と、その音源状態判定手段で得た発音をしていない音源を検
出信号により、上記音源合成手段で合成された音源信号
のうち、上記発音していない音源と対応する信号を抑圧
する信号抑圧手段とを有することを特徴とする音源分離
装置。
【請求項３５】請求項３４の装置において、上記音源状態判定手段は、上記各帯域別到達時間差比較
で最も速く音源信号が到達したチャネルを帯域ごとに決
定する手段と、各チャネルごとに最も速く到達した帯域の数が第１基準
値を越えるか否かを判定する第１判定手段と、その第１判定手段が第１基準値を越えると判定すると、
その越えた最も速く到達した帯域数と対応するチャネル
のマイクロホン位置から発音している１個の音源を推定
する手段と、その推定された音源以外の音源を発音していないものと
して検出する手段とを有することを特徴とする音源分離
装置。
【請求項３６】請求項３５の装置において、上記第１判定手段で、第１基準値を越えるものがないと
判定されると、上記最も速く到達する帯域の数が、上記
第１基準値よりも小さい第２基準値以下か否かを判定す
る第２判定手段と、その第２判定手段で、第２基準値より小さいと判定され
ると、その小さいと判定された最も速い到達時間の帯域
数と対応するチャネルのマイクロホン位置から、発音し
ていない１個の音源として検出する手段とを有すること
を特徴とする音源分離装置。
【請求項３７】請求項３１〜３６の何れかに記載の装
置において、各出力チャネル信号の全周波数成分のレベルをそれぞれ
検出する全帯域レベル検出手段と、その全帯域レベル検出手段で検出した各チャネルの全周
波数成分レベルの何れもが第３基準値以下であるかを判
定し、何れかが第１基準値以下でないと判定すると、上
記音源状態判定手段に移る第３判定手段とを有すること
を特徴とする音源分離装置。
【請求項３８】互いに離して設けられた複数のマイク
ロホンを用いて、複数の音源から少なくとも１つの音源
を分離する下記過程を有する音源分離方法のプログラム
を記録した記録媒体であって、上記各マイクロホンの各出力チャネル信号を、主に１つ
の音源の音響信号の成分のみを含む程度に複数の周波数
帯域に分割すると共にこれら分割された各出力チャネル
信号の各同一帯域ごとに、上記複数のマイクロホンの位
置に起因して変化する、マイクロホンに到達する音響信
号のパラメータの値の差を、帯域別チャネル間パラメー
タ値差として検出する帯域別チャネル間パラメータ値差
検出過程と、上記各帯域の帯域別チャネル間パラメータ値差にもとづ
き、その帯域の上記帯域分割された各出力チャネル信号
の何れがいずれの音源から入力された信号であるかを判
定する音源信号判定過程と、上記音源信号判定過程の判定にもとづき、上記帯域分割
された各出力チャネル信号から、同一音源から入力され
た信号を少なくとも１つ選択する音源信号選択過程と、上記音源信号選択過程で同一音源からの信号として選択
された複数の帯域信号を音源信号として合成する音源合
成過程とを有するコンピュータにより読出し可能な記録
媒体。
【請求項３９】請求項３８の記録媒体において、上記帯域別チャネル間パラメータ値差検出過程における
上記パラメータ値は音源からの音響信号が上記各マイク
ロホンに到達するまでの時間であり、上記帯域別チャネ
ル間パラメータ値差は各マイクロホンに到達するまでの
時間のマイクロホン間の差である帯域別チャネル間時間
差であって、上記プログラムは上記音響信号が各マイクロホンに到達
するまでの時間のマイクロホン間の差をチャネル間時間
差として各マイクロホンの出力チャネル信号から検出す
るチャネル時間差検出過程を有し、上記音源信号判定過程は、上記各帯域別チャネル間時間
差について、上記各チャネル間時間差を照合して、その
帯域の上記分割された各出力チャネル信号がいずれの音
源から入力された信号であるかを判定することを特徴と
する記録媒体。
【請求項４０】請求項３９の記録媒体において、上記チャネル時間差検出過程は各出力チャネル信号間の
相互相関を求め、相互相関の各ピークとなる、その出力
チャネル信号間の各時間差を上記各チャネル間時間差と
して求めることを特徴とする記録媒体。
【請求項４１】請求項４０の記録媒体において、上記帯域別チャネル間時間差は、上記各チャネル間時間
差中の、上記分割された各出力チャネルの同一帯域の成
分の位相差と対応する時間と最も近いものを求めて、そ
の帯域別チャネル間時間差とすることを特徴とする記録
媒体。
【請求項４２】請求項３８の記録媒体において、上記帯域別チャネル間パラメータ値差検出過程における
上記パラメータ値は音源からの音響信号が上記各マイク
ロホンに到達した時の信号レベルであり、上記帯域別チ
ャネル間パラメータ値差は各分割された出力チャネル信
号の対応帯域間のレベル差である帯域別チャネル間レベ
ル差であって、上記プログラムは上記各マイクロホンの出力チャネル信
号間のレベル差を、チャネル間レベル差として検出する
チャネル間レベル差検出過程と、上記チャネル間レベル差と、対応する帯域別チャネル間
レベル差の全てと比較する比較過程と、その比較過程で
分割帯域の所定数以上が同様の関係にあれば、上記チャ
ネル間レベル差にもとづき、対応する出力チャネル信号
の全帯域について同一の音源から入力された信号である
と判定し、上記比較過程で所定値以上が同様の関係にな
ければ、上記帯域別にいずれの音源から入力された信号
であるかを判定する、上記音源信号判定過程と実行する
過程とを有することを特徴とする記録媒体。
【請求項４３】請求項３８の記録媒体において、上記プログラムは上記パラメータ値は音源からの音響信
号が上記マイクロホンに到達するまでの時間と、その音
響信号が到達した時の信号レベルであり、上記帯域別チ
ャネル間パラメータ値差として帯域別チャネル間時間差
と、帯域別チャネル間レベル差が求められ、各音源からの音響信号が上記各マイクロホンに到達する
までの時間のマイクロホン間の差を、各マイクロホンの
出力チャネル信号から、チャネル時間差として検出する
チャネル間時間差検出過程と、上記チャネル間時間差を基準にして、上記分割された各
出力チャネル信号を、低域、中域、高域の３つの周波数
領域に分ける領域分割過程とを有し、上記音源信号判定過程は、上記分割された低域の周波数帯域については、上記帯域
別チャネル間時間差を利用して対応する帯域の分割され
た各出力チャネル信号の何れがいずれの音源からの入力
信号であるか判定する過程と、上記分割された中域の周波数帯域については、上記帯域
別チャネル間レベル差と、上記帯域別チャネル間時間差
を利用して、対応する帯域の分割された各出力チャネル
信号の何れがいずれの音源からの入力信号であるか判定
する過程と、上記分割された高域の周波数帯域については、上記帯域
別チャネル間レベル差を利用して、対応する帯域の分割
された各出力チャネル信号の何れがいずれの音源からの
入力信号であるか判定する過程とからなることを特徴と
する記録媒体。
【請求項４４】請求項３８乃至４３の何れかの記録媒
体において、上記プログラムは上記帯域分割された各出力チャネル信
号の帯域別レベルをそれぞれ検出する帯域別レベル検出
過程と、その帯域別レベル検出過程が検出された各帯域別レベル
を同一帯域についてチャネル間で比較した結果にもとづ
き発音をしていない音源を検出する音源状態判定過程
と、その音源状態判定過程で得た発音をしていない音源の検
出信号により、上記音源合成過程で合成された音源信号
のうち、上記発音していない音源と対応する信号を抑圧
する信号抑圧過程とを有することを特徴とする記録媒
体。
【請求項４５】請求項４４の記録媒体において、上記音源状態判定過程は、上記各帯域別レベルのチャネ
ル間での比較で、最も大きいチャネルを帯域ごとに決定
する過程と、各チャネルごとに最もレベルが大きい帯域の数を求める
過程と、上記最もレベルが大きい帯域の数が第１基準値を越える
か否か判定する第１判定過程と、その第１判定過程で第１基準値を越えると判定すると、
その越えた最もレベルが大きい帯域の数と対応するチャ
ネルのマイクロホン位置から、発音している１個の音源
を推定する過程と、その推定された音源以外の音源を発音していないものと
して検出する過程とを有することを特徴とする記録媒
体。
【請求項４６】請求項４５の記録媒体において、上記プログラムは上記第１判定過程で、第１基準値を越
えるものがないと判定されると、上記最もレベルが大き
い帯域の数が、上記第１基準値よりも小さい第２基準値
以下か否かを判定する第３判定過程と、その第２判定過程で、第２基準値より小さいと判定され
ると、その小さいと判定された最もレベルが大きい帯域
の数と対応するチャネルのマイクロホン位置から、発音
していない１個の音源として検出する過程とを有するこ
とを特徴とする記録媒体。
【請求項４７】請求項３８乃至４３の何れかの記録媒
体において、上記プログラムは上記帯域分割された各出力チャネル信
号のそのマイクロホンへの到達時間差を同一帯域ごと検
出する帯域別時間差検出過程と、この帯域別時間差検出過程で検出された各帯域別到達時
間差を、同一帯域についてチャネル間で比較した結果に
もとづき、発音をしていない音源を検出する音源状態判
定過程と、その音源状態判定過程で得た発音をしていない音源を検
出した検出信号により、上記音源合成過程で合成された
音源信号のうち、上記発音していない音源と対応する信
号を抑圧する信号抑圧過程とを有することを特徴とする
記録媒体。
【請求項４８】請求項４７の記録媒体において、上記音源状態判定過程は、上記各帯域別到達時間差比較
で、最も速く音源信号が到達したチャネルを帯域ごとに
決定する過程と、各チャネルごとに最も速く到達した帯域の数が第１基準
値を越えるか否かを判定する第１判定過程と、その第１判定過程が第２基準値を越えると判定すると、
その越えた最も速く到達した帯域数と対応するチャネル
のマイクロホン位置から発音している１個の音源を推定
する過程と、その推定された音源以外の音源を発音していないものと
して検出する過程とを有することを特徴とする記録媒
体。
【請求項４９】請求項４８の記録媒体において、上記プログラムは上記第１判定過程で、第１基準値を越
えるものがないと判定されると、上記最も速く到達する
帯域の数が、上記第１基準値よりも小さい第２基準値よ
り小さいか否かを判定する第２判定過程と、その第３判定過程で、第２基準値より小さいと判定され
ると、その小さいと判定された最も速い到達時間の帯域
数と対応するチャネルのマイクロホン位置から、発音し
ていない１個の音源として検出する過程とを有すること
を特徴とする記録媒体。
【請求項５０】請求項４６又は４９の記録媒体におい
て、音源が４個以上の場合で、上記プログラムは上記第２判
定過程で、第２基準値より小さいと判定されると、上記
第２基準値を上記第１基準値を越えない範囲内で、順次
大きくして、上記第２判定過程と同じ判定を（Ｍ−２）
以内、Ｍは音源の数、繰返す過程を有することを特徴と
する記録媒体。
【請求項５１】請求項４４〜５０の何れかに記載の記
録媒体において、上記プログラムは各出力チャネル信号の全周波数成分の
レベルをそれぞれ検出する全帯域レベル検出過程と、その全帯域レベル検出過程で検出した各チャネルの全周
波数成分レベルの何れもが第３基準値以下であるかを判
定し、何れかが第３基準値以下でないと判定すると、上
記音源状態判定過程に移る第３判定過程とを有すること
を特徴とする記録媒体。
【請求項５２】請求項４７〜５０の何れかに記載の記
録媒体において、上記プログラムは上記チャネル時間差
検出過程は上記帯域時間差検出過程を兼ねていることを
特徴とする記録媒体。