JP2017530579A

JP2017530579A - 両耳統合相互相関自己相関メカニズム

Info

Publication number: JP2017530579A
Application number: JP2017503897A
Authority: JP
Inventors: ジョナスブラーシュ，
Original assignee: Rensselaer Polytechnic Institute
Current assignee: Rensselaer Polytechnic Institute
Priority date: 2014-08-14
Filing date: 2015-08-14
Publication date: 2017-10-12
Also published as: US20170243597A1; US10068586B2; EP3165000A1; EP3165000A4; WO2016025812A1

Abstract

両耳オーディオを入力するためのシステムと、第１のチャネルと第２のチャネルの両方に対して自己相関を実施して、一対の自己相関関数を生成することと、第１のチャネルと第２のチャネルとの間の第１層相互相関を実施して、第１層相互相関関数を生成することと、第１層相互相関関数及び選択された自己相関関数から中心ピークを除去して、修正対を生成することと、修正対の間の第２層相互相関を実施して、時間的不整合を求めることと、時間的不整合を使用して、第１層相互相関関数を、選択された自己相関関数に置き換えることによって、結果としての関数を生成することと、結果としての関数を利用して、直接音成分及び反射音成分の両耳間時間差（ＩＴＤ）パラメータ及び両耳間レベル差（ＩＬＤ）パラメータを求めることとを行う両耳信号分析器（ＢＩＣＡＭ）とを有するシステムが提供される。【選択図】図１

Description

[0001]本発明の主題は、残響場における音源の定位及び分離に関し、より詳細には、第１層自己相関／相互相関プロセスに加えて、第２層相互相関プロセスを使用して、両耳オーディオデータ（binaural audio data、バイノーラルオーディオデータ）から直接音成分と反射音成分とを分離する音声定位システムに関する。本発明は、全米科学財団によって与えられている契約番号１２２９３９１及び１３２００５９に基づく政府支援を受けて成されている。政府は本発明において一定の権利を有する。

背景

[0002]両耳聴は、人間及び他の動物が、周波数的手がかりとともに、音声の定位、すなわち、方向及び出所を特定することを可能にする。しかしながら、オーディオ機器及び信号処理を使用した、部屋のような残響場における音源の定位には、継続中の技術的問題が残っている。音声定位は、たとえば、ロボット工学、エンターテインメント、補聴器、軍事などを含む、多くの異なる分野に適用される可能性があり得る。

[0003]関連する問題領域は、複数の異なる音源からの音声が、オーディオ機器及び信号処理を使用して分別される音声分離を含む。

[0004]２つのマイクロホンを使用して音声を捕捉する両耳信号処理（binaural signal processing、バイノーラルシグナルプロセシング）は、音声定位及び分離に伴う課題が解決される一定の保証を示している。しなしながら、一般的な場の中で反響する音声の複雑な性質により、現在ある手法では、効果の高いソリューションはまだ提供されていない。

概要

[0005]開示されているソリューションは、両耳オーディオデータから直接音成分と反射音成分とを分離するためのＢＩＣＡＭ（両耳相互相関自己相関メカニズム［binaural cross-correlation autocorrelation mechanism］）プロセスを利用する両耳音声処理システムを提供する。

[0006]第１の態様において、本発明は、両耳オーディオデータからパラメータを推定するための音声処理システムであって、（ａ）少なくとも２つのマイクロホンを使用して空間音場から捕捉される第１のチャネル及び第２のチャネルを有する両耳オーディオデータを入力するためのシステムと、（ｂ）反射音成分から直接音成分を分離するための両耳信号分析器（binaural signal analyzer、バイノーラルシグナルアナライザ）であって、両耳信号分析器は、第１のチャネルと第２のチャネルの両方に対して自己相関を実施して、一対の自己相関関数を生成することと、第１のチャネルと第２のチャネルとの間の第１層相互相関を実施して、第１層相互相関関数を生成することと、第１層相互相関関数及び選択される自己相関関数から中心ピークを除去して、修正対を生成することと、修正対の間の第２層相互相関を実施して、時間的不整合を求めることと、選択されている自己相関関数の中心ピークが、第１層相互相関関数の中心ピークの時間的位置に一致するように、時間的不整合を使用して、第１層相互相関関数を、選択されている自己相関関数に置き換えることによって、結果としての関数を生成することと、結果としての関数を利用して、直接音成分及び反射音成分の両耳間時間差（interaural time difference：ＩＴＤ）パラメータ及び両耳間レベル差（interaural level difference：ＩＬＤ）パラメータを求めることとを行うメカニズム（ＢＩＣＡＭ）を含む、両耳信号分析器とを備える、音声処理システムを提供する。

[0007]第２の態様において、本発明は、少なくとも２つのマイクロホンを使用して空間音場から捕捉される第１のチャネル及び第２のチャネルを有する両耳オーディオデータからパラメータを推定するためのコンピュータ化された方法であって、第１のチャネルと第２のチャネルの両方に対して自己相関を実施して、一対の自己相関関数を生成するステップと、第１のチャネルと第２のチャネルとの間の第１層相互相関を実施して、第１層相互相関関数を生成するステップと、第１層相互相関関数及び選択される自己相関関数から中心ピークを除去して、修正対を生成するステップと、修正対の間の第２層相互相関を実施して、時間的不整合を求めるステップと、選択されている自己相関関数の中心ピークが、第１層相互相関関数の中心ピークの時間的位置に一致するように、時間的不整合を使用して、第１層相互相関関数を、選択されている自己相関関数に置き換えることによって、結果としての関数を生成するステップと、結果としての関数を利用して、直接音成分及び反射音成分の両耳間時間差（ＩＴＤ）パラメータ及び両耳間レベル差（ＩＬＤ）パラメータを求めるステップとを含む、方法を提供する。

[0008]第３の態様において、本発明は、コンピューティングシステムによって実行されると、少なくとも２つのマイクロホンを使用して空間音場から捕捉される第１のチャネル及び第２のチャネルを有する両耳オーディオデータからパラメータを推定する、コンピュータ可読媒体上に記憶されているコンピュータプログラム製品であって、第１のチャネルと第２のチャネルの両方に対して自己相関を実施して、一対の自己相関関数を生成するためのプログラムコードと、第１のチャネルと第２のチャネルとの間の第１層相互相関を実施して、第１層相互相関関数を生成するためのプログラムコードと、第１層相互相関関数及び選択される自己相関関数から中心ピークを除去して、修正対を生成するためのプログラムコードと、修正対の間の第２層相互相関を実施して、時間的不整合を求めるためのプログラムコードと、選択されている自己相関関数の中心ピークが、第１層相互相関関数の中心ピークの時間的位置に一致するように、時間的不整合を使用して、第１層相互相関関数を、選択されている自己相関関数に置き換えることによって、結果としての関数を生成するためのプログラムコードと、結果としての関数を利用して、直接音成分及び反射音成分の両耳間時間差（ＩＴＤ）パラメータ及び両耳間レベル差（ＩＬＤ）パラメータを求めるためのプログラムコードとを備える、コンピュータプログラム製品を提供する。

[0009]本発明のこれらの及び他の特徴は、添付の図面及び特許請求の範囲とともに取り上げられる本発明の様々な態様の以下の詳細な説明からより容易に理解されよう。

[0010]図１は、実施形態による音声処理システムを有するコンピュータシステムを示す図である。

[0011]図２は、実施形態によるＢＩＣＡＭプロセスを示す例示的な一連の信号を示す図である。

[0012]図３は、実施形態による両耳オーディオデータの例示的なリード及びラグ遅延を示す図である。

[0013]図４は、実施形態による、ＩＴＤを計算するための２つの自己相関関数及び２つの相互相関関数の例を示す図である。

[0014]図５は、実施形態による、反射の振幅が直接音の振幅を超えるハース効果を実証するためにＩＴＤを計算するための２つの自己相関関数及び２つの相互相関関数の例を示す図である。

[0015]図６は、実施形態による直接音源及び２つの反射の結果を示す図である。

[0016]図７は、実施形態による、拡散残響尾部が直接音源及び２つの反射に加えられている、図６の結果を示す図である。

[0017]図８は、実施形態による、ＥＣ差分項行列の結果を示す図である。

[0018]図９は、実施形態による、直接音、第１の反射、第２の反射のＩＴＤ位置を示す図である。

[0019]図１０は、実施形態による、１つの反射をもう１つの反射と相関付ける結果として得られるサイドチャネルをなくすアルゴリズムの実施を示す図である。

[0020]図１１は、実施形態によるＢＩＣＡＭプロセスを利用するシステムを示す図である。

[0021]図１２は、実施形態によるＢＩＣＡＭプロセスの概観を与えるフローチャートである。

[0022]図１３は、実施形態による音声分離のためのＢＩＣＡＭプロセスの拡張を示す図である。

[0023]図１４は、実施形態による、７５０Ｈｚの中心周波数を有する聴覚帯域の等化／相殺（Equalization/Cancellation、イコライゼーション／キャンセレーション）メカニズムを使用する音源分離の一例を示す図である。

[0024]図１５は、実施形態によるＥＣ選択メカニズムの結果を示す図である。

[0025]図１６は、実施形態による音声分離を使用して男性の声が抽出されている例示的な事例を示す図である。

[0026]図１７は、実施形態による両耳活動パターン（binaural activity pattern、バイノーラルアクティビティパターン）を示す図である。

詳細な説明

[0027]図面は必ずしも原寸比例とは限らない。図面は、概略表現にすぎず、本発明の特定のパラメータを表現するようには意図されていない。図面は、本発明の特定の実施形態のみを描写するようには意図されておらず、それゆえ、本発明の範囲を限定するものとして考えられるべきではない。図面において、同様の参照符号は同様の要素を表す。

[0028]図１における例示的な実施形態に示すように、本発明は、両耳オーディオデータ２６を処理し、直接音源位置情報２８及び／又は両耳活動パターン情報３０を生成する両耳音声処理システム１８を有するコンピュータシステム１０を用いて実装することができる。両耳オーディオデータ２６は、マイクロホンのアレイ３２（たとえば、２つ以上）を介して、空間音場３４、すなわち、部屋、客席、空き領域のような遮音囲い内で１つ又は複数の音源３３から捕捉される。空間音場３４は、残響を受ける任意のスペースを含み得る。

[0029]両耳音声処理システム１８は、一般的に、両耳オーディオデータ２６を処理して両耳間時間差（ＩＴＤ）２１及び両耳間レベル差（ＩＬＤ）２３の情報を生成するためにＢＩＣＡＭ（両耳相互相関自己相関メカニズム）プロセス４５を利用する両耳信号分析器２０と、ＩＴＤ２１及びＩＬＤ２３の情報を、特定されるべき直接音源位置情報２８に利用する音声定位システム２２と、ＩＴＤ２１及びＩＬＤ２３の情報を利用して、たとえば、場３４内の音源を分別する両耳活動パターン３０を生成する音源分離システム２４とを含む。音源定位システム２２及び音源分離システム２４はまた、本明細書において記載されるように、反復して利用されてもよい。記載されているシステム及び方法は、概して両耳オーディオデータ２６を処理するものとして記載されているが、任意のマルチチャネルオーディオデータに適用されてもよい。

[0030]概して、音源３３と受信機（たとえば、マイクロホン３２）との間の経路は、インパルス応答によって数学的に記述することができる。無響環境において、インパルス応答は、音源と受信機との間の直接経路を表す単一のピークから構成される。一般的に自然条件において、直接経路のピーク（直接音源を表す）及び追加のピークが、直接音ピークに対して時間的に遅延して発生し、これは、壁、床及び他の物理的境界から反射される音声を表す。反射が発生する場合、これは、室内インパルス応答として参照されることが多い。早期反射は、一般的に時間的にはっきりと区別できる（したがって、各反射について単一のピークによって表すことができる）が、後期反射は、拡散する性質があり、不鮮明になって、連続的なノイズ様の指数関数的に減衰する曲線、いわゆる後期残響になる。この現象は、部屋型の遮音囲い内では、ほぼ無数の反射の組み合わせが、様々な壁から跳ね返る可能性があるために観測される。

[0031]音源３３と複数の受信機との間のインパルス応答は、マルチチャネルインパルス応答と呼ばれる。音源と、人間の頭部の２つの耳（又は、両耳の人体模型、２つのマイクロホンが人体模型の耳入り口に配置されている）との間の経路は、マルチチャネルインパルス応答の特別な事例、いわゆる両耳室内インパルス応答である。マルチチャネル室内インパルス応答の１つの興味深い態様は、直接音信号及び反射の空間位置を、直接音源及び反射が受信機（たとえば、マイクロホン３２）に到達する時間（及び／又は複数の受信機の間のレベル差）から計算することができることである。両耳室内インパルス応答の場合、空間位置（方位角、仰角及び互いに対する距離）は、両耳間時間差（ＩＴＤ）及び両耳間レベル差（ＩＬＤ）並びに直接音からの各反射間の遅延から求めることができる。

[0032]図２は、ＢＩＣＡＭプロセス４５を実施するための例示的な実施例及び関連方法を示す、一連の時間ベースのオーディオシーケンス対４０、４２、４４、及び４６を示す。第１のシーケンス対４０は、両耳オーディオデータ２６の左自己相関信号及び右自己相関信号を示す。右残響信号４１が、左信号に対してわずかに遅延していることが見てとれる。ＢＩＣＡＭプロセス４５の第１のステップは、左信号の自己相関関数Ｒ_ｘｘ（ｍ）及び右信号の自己相関関数Ｒ_ｙｙ（ｍ）を計算することである。見てとれるように、たとえ直接信号がＩＴＤによって横移動されたとしても、左信号の中心（すなわち、メイン）ピークと右信号の中心ピークとの間に両耳間時間差（ＩＴＤ）は表れない。次に、４２に示すように、相互相関関数が計算され、４４において、自己相関関数のうちの選択された一方が、相関関数と相互相関される。最後に、４６において、相互相関関数が、自己相関関数と置き換えられる。このプロセスを、ステップ１〜４としてさらに詳細に説明する。

[0033]ステップ１：ＢＩＣＡＭプロセス４５は、最初に、左耳信号及び右耳信号（すなわち、チャネル）４０の自己相関関数を求める。自己相関関数のサイドピーク４１は、早期室内反射の位置及び振幅に関する情報を含む（自己相関関数は対称であるため、関数の右サイドのみが示されており、中心ピーク４３は左端のピークである）。サイドピーク４１はまた、信号の周期性によっても発生し得るが、一般的な室内反射は左耳信号と右耳信号とについて異なる時点において発生し、周期性特有のピークは左耳信号と右耳信号とについて時間的に同じ位置を有するため、これらの周期性特有のピークは一般的な室内反射から分離することができる。左耳自己相関関数（Ｒ_ｘｘ）及び右耳自己相関関数（Ｒ_ｙｙ）に伴う問題は、それらが互いに対するそれらの時間的位置整合（内部遅延）に関する情報を有しないことである。定義によれば、自己相関関数の中心ピーク４３（主に直接音源信号を表す）は、０秒において中心に位置する。

[0034]ステップ２：左耳自己相関関数及び右耳自己相関関数のメイン中心ピークが直接音信号の両耳間時間差（ＩＴＤ）（音源の方位角位置を決定づける）を示すように、両方の自己相関関数を位置整合させるために、ステップ２は、一方の側における反射（この実施例においては左耳信号）の位置が、左耳の直接信号及び右耳の直接信号について固定であるという事実を利用する。プロセス４５は、室内反射の位置を、左耳の直接音信号と比較するために、左耳の自己相関関数を取得する。その後、室内反射の位置を、右耳の直接音信号と比較するために、左耳信号と右耳信号との間の相互相関関数が取得される。その結果、自己相関関数及び相互相関関数のサイドピークは同じ位置を有することになる（信号４４）。

[0035]ステップ３：「第２層相互相関関数」と称される別の相互相関関数Ｒ_{Ｒｘｘ／Ｒｘｙ}を使用して、時間的不整合が計算される。この作業を行うために、メインピークをウィンドウイングで出すか、又は、そのピークをゼロに低減することによって、メインピークの影響がなくされる。この事例において、ステップ４４は、自己／相互相関関数の、ｙ軸の右の部分のみを使用する（すなわち、左サイドチャネル情報は除去される）が、メインピークが計算に重み付けされない限り、修正アルゴリズムによって両サイドが使用されてもよい。第２層相互相関関数のメインピークの位置ｋ_ｄが、相互相関関数のサイドピークを自己相関関数に位置整合させるために、相互相関関数がシフトされなければならない時間シフトτ_ｄを決定づける。

[0036]ステップ４：自己相関関数のメインピークが相互相関関数Ｒ_ｘｙのメインピークの時間的位置に一致するように、（第１層）相互相関関数Ｒ_ｘｙが自己相関関数Ｒ_ｙｙに戻される。この時点で、直接信号及び反射の両耳間時間差（ＩＴＤ）を、この関数から個々に求めることができる。両耳活動パターン（たとえば、図１７参照）を確立するために、両方の時間的に整合した自己相関関数に対して、進行中の両耳間相互相関関数を実施することができる。

[0037]両耳活動パターンは、一方の軸上に時間的経過を示し、第２の軸上に（たとえば、ＩＴＤ）によって直接音源及び各反射の空間位置を示す２次元プロットである。強度（振幅）は一般的に、図１７に示すように、第３の軸上に、色でコード化されて、又は、その両方の組み合わせで示されている。

[0038]図１７に示す両耳活動パターンにおいて、直接音、ノイズ信号のＨＲＴＦ（頭部伝達関数）が−４５の方位角に設定されており、反射の方位角は４５度及び２５度であった。直接音と２つの反射との間の刺激間隔（inter-stimulus intervals：ＩＳＩ）は、４ｍｓ及び６ｍｓであった。第１の反射は、直接信号と比較して０．８の振幅を有していた（両方の信号がＨＲＴＦによってフィルタリングされる前）。第２の反射の振幅は、直接信号と比較して０．４であった。このモデルは、直接ＨＲＴＦ分析について見出される−２０ｔａｐｓと比較して、−２１ｔａｐｓにおいて直接音の位置ｋ_ｄを推定する。反射のＩＴＤは、直接ＨＲＴＦ分析において見出される２０ｔａｐｓと比較して、２０ｔａｐｓに対して推定された。結果として、ＢＩＣＡＭプロセスは、両方の信号の方向をかなり正確に予測した。

[0039]ＢＩＣＡＭプロセス４５のさらなる特徴は、音源に近い音声の事前の知識なしに複数の受信機において捕捉される進行中の残響信号からのマルチチャネル室内インパルス応答を推定するために使用することができることである。抽出された情報は、（１）直接音信号の定位に焦点を当て、反射の物理的エネルギーからの情報がエラーに寄与することを回避して、音源の物理的位置を推定し、（２）たとえば、部屋の音響特性を理解し、又は、音質を改善するために反射をフィルタリング除外するためにこの情報を使用するために、直接音源に関する情報に加えて、反射の位置、遅延及び振幅を求めるために使用することができる。

[0040]以下において、ＢＩＣＡＭプロセス４５をさらに詳細に説明するための単純な直接音／反射パラダイムを与える。（正規化）両耳間相互相関（interaural cross-correlation：ＩＣＣ）アルゴリズムが、以下のように音源の両耳間時間差（ＩＴＤ）を推定するために、両耳モデルにおいて一般的に使用される。

式中、ｔは時間であり、τは内部遅延であり、ｙ_ｌは左耳信号であり、ｙ_ｒは右耳信号である。変数ｔ’は分析窓の開始時間であり、Δτはその継続時間である。ＩＣＣメカニズムは、直接音のＩＴＤと反射のＩＴＤの両方を抽出するため、反射の存在下で直接音源の両耳間時間差を推定することは困難である。一般的に、直接音及びその反射の相互相関ピークは、重なり合って単一のピークを形成し、それゆえ、ＩＴＤはもはや、それらの個々のピーク位置を使用して分離することはできない。たとえこれら２つのピークが十分にはっきりと区別できるように分離される場合であっても、ＩＣＣは対称プロセスであり、因果関係を保存しないため、ＩＣＣメカニズムは、いずれのピークが直接音に属し、いずれが反射に属するかを解決することができない。

[0041]従来の手法において、直接音のＩＴＤは、３段階プロセスにおいて抽出されていた。第１に、リード／ラグ遅延及び振幅比を求めるために、自己相関が左チャネル及び右チャネルに適用された。自己相関対称性が、リード又はラグのいずれがより高い振幅を有するかを、直接的に求めることを妨げるため、リード／ラグ振幅比の決定は特に困難であった。抽出されたパラメータを使用して、ラグを除去するためにフィルタが適用された。リードのＩＴＤがその後、両耳間相互相関モデルを使用して、フィルタリングされた信号から計算された。

[0042]自己相関（ＡＣ）プロセスは、直接音と反射との間の遅延Ｔを、非常に容易に求めることを可能にする。
ｓ_ｔ１（ｔ）＝ｓ_ｄ１（ｔ）＋ｓｒ_１（ｔ）＝ｓ_ｄ１（ｔ）＋ｒ_１・ｓ_ｄ１（ｔ−Ｔ）（２）
式中、ｓ_ｄ（ｔ）はリードであり、ｓ_ｒ（ｔ）はラグであり、Ｔは遅延時間であり、ｒは、周波数に依存しない、位相シフトのない反射係数であるラグ−リード振幅比（Lag-to-Lead Amplitude Ratio：ＬＬＡＲ）である。インデックス１は、左チャネルを示す。自己相関はまた、右信号にも適用することができる。
ｓ_ｔ２（ｔ）＝ｓ_ｄ２（ｔ）＋ｓｒ_２（ｔ）＝ｓ_ｄ１（ｔ）＋ｒ_２・ｓ_ｄ２（ｔ−Ｔ）（３）

[0043]ＩＴＤ計算の問題は、左チャネルと右チャネルとの自己相関関数が、時間的に位置整合されていないことである。両方のチャネルのリード／ラグ遅延（それらのＩＴＤが異なるため、一般的に異なっている、図３参照）を求めることは可能であるが、ＡＣは、リード及びラグが両耳間でどの程度位置整合されているかを示さない。

[0044]ＢＩＣＡＭプロセス４５によって可能にされる手法は、選択されるチャネル（たとえば、左チャネル）内の反射信号を定常基準点として使用し、その後、（ｉ）自己相関方法を使用して同側直接音と反射との間の遅延Ｔ_{（ｄ１−ｒ１）}を計算し、（ｉｉ）両耳間相互相関方法を使用して反対側直接音と反射との間の遅延Ｔ_{（ｄ２−ｒ１）}を計算することである。その後、両方の値を減算することによって、ＩＴＤを求めることができる。
ＩＴＤ_ｄ＝Ｔ_{（ｄ２−ｒ１）}−Ｔ_{（ｄ１−ｒ１）} （４）
代替的に、直接音のＩＴＤは、チャネルを切り替えることによって推定することができる。
ＩＴＤ_ｄ＊＝Ｔ_{（ｄ２−ｒ２）}−Ｔ_{（ｄ１−ｒ２）} （５）

[0045]両方の値の間の一致を使用して、このキューの品質を測定することができる。同じ方法を使用して、反射のＩＴＤを求めることができる。
ＩＴＤ_ｒ＝Ｔ_{（ｒ２−ｄ１）}−Ｔ_{（ｒ１−ｄ１）} （６）
ここでも、直接音のＩＴＤは、チャネルを切り替えることによって推定することができる。
ＩＴＤ_ｒ＊＝Ｔ_{（ｒ２−ｄ２）}−Ｔ_{（ｒ１−ｄ２）} （７）

[0046]この手法は、直接音源からのキューを抽出するために反射の情報を抑制することに焦点を当てている、以前のモデルとは根本的に異なる。聴覚系は早期反射及び残響場からの情報を抽出して、遮音囲いの品質を判定することができるため、ここで利用されているＢＩＣＡＭプロセス４５は、人間の知覚をより良好に反映する。人間は、反射パターンを直接的に認識して得ることはできないかもしれないが、これらのパターンに基づいて部屋を分類することには非常に長けている。

[0047]図４は、１−ｓ白色雑音バーストを使用してＩＴＤを計算するための２つの自己相関関数及び２つの相互相関関数の例を示す。この実施例において、直接音は、０．２５ｍｓのＩＴＤを有し、反射は、−０．５ｍｓのＩＴＤを有する。反射と直接音との間の遅延は５ｍｓである。直接音振幅は１．０であり、一方で、反射は０．８の振幅を有する。上述した方法を要して以下の値、すなわち、ＩＴＤ_ｄ＝０．２５ｍｓ、ＩＴＤ_ｄ＊＝０．２５ｍｓ、ＩＴＤ_ｒ＝−０．５ｍｓ、ＩＴＤ_ｒ＊＝−０．５ｍｓが正確に計算された。

[0048]対応するサイドピークａのピーク振幅を比較することによって、両耳間レベル差（ＩＬＤ）が同様に計算される。直接音のＩＬＤは、以下のように計算される。
ＩＬＤ_ｄ＝２０・ｌｏｇ_１０＝ａ_{（ｄ２／ｒ１）}／ａ_{（ｄ１／ｒ１）} （８）
又は、代替的に
ＩＬＤ_ｄ＊＝２０・ｌｏｇ_１０＝ａ_{（ｄ２／ｒ２）}／ａ_{（ｄ１／ｒ２）} （９）
同様に、反射のＩＬＤは、以下のように２通りに計算することができる。
ＩＬＤ_ｒ＝２０・ｌｏｇ_１０＝ａ_{（ｄ１／ｒ１）}／ａ_{（ｄ１／ｒ２）} （１０）
又は
ＩＬＤ_ｒ＝２０・ｌｏｇ_１０＝ａ_{（ｄ２／ｒ１）}／ａ_{（ｄ２／ｒ２）} （１１）

[0049]第２の実施例は、６ｄＢの両耳間レベル差を有する反射を含む。このとき、ラグ振幅はリード振幅よりも高い。この事例において、聴覚系が直接音位置を定位することが可能であることは、ハース効果と呼ばれる。図５は、この条件についての自己相関／相互相関関数を示す。モデルは、以下のパラメータ、すなわち、ＩＴＤ_ｄ＝０．５ｍｓ、ＩＴＤ_ｒ＝−０．５ｍｓ、ＩＬＤ_ｄ＝−０．２０２８ｄＢ、ＩＬＤ_ｄ＊＝−０．３６７５ｄＢ、ＩＬＤ_ｒ＝−６．１４３１ｄＢ、ＩＬＤ_ｒ＊＝−６．３０７８ｄＢを抽出した。

[0050]この手法の１つの利点は、左チャネル及び右チャネルの対応するサイドピークを識別することができる限り、複数の反射を処理することができることである。サイドピークを識別するための１つの単純なメカニズムは、第１の反射のパラメータを抽出するために、各チャネル内の最高のサイドピークを探し、その後、第２の反射のパラメータを求めるために、第１のサイドピークよりも大きい遅延を有する、次に高いサイドピークを探すことである。音声伝播の逆二乗の法則に起因して、室内反射は、直接音源からの遅延に伴って一般的に振幅が低減するため、この手法は正当と認められる。物理空間において得られる記録を含むより複雑な反射パターンを処理するために、代替的な手法が使用されてもよい。

[0051]図６は、直接音源及び２つの反射の結果を示す。以下のパラメータが選択された。直接音源について、０．０ｍｓのＩＴＤ、０ｄＢのＩＬＤ、１の振幅、第１の反射について、−０．５ｍｓのＩＴＤ、４ｄＢのＩＬＤ、０．８の振幅、４ｍｓのリード／ラグ遅延、第２の反射について、０．５ｍｓのＩＴＤ、−４ｄＢのＩＬＤ、０．５の振幅、６ｍｓのリード／ラグ遅延。ＢＩＣＡＭプロセス４５は、以下のように、これらのパラメータを推定した。０．０（０．０）ｍｓのＩＴＤ、０．１０１１（０．００８９）ｄＢのＩＬＤ、第１の反射について、−０．５（−０．５）ｍｓのＩＴＤ、３．９６１２（４．０５３４）ｄＢのＩＬＤ、第２の反射について、０．５ｍｓのＩＴＤ、−３．８８４１（−４．０２３４）ｄＢのＩＬＤ。（代替形態である「＊」で示されている方法の結果が、括弧内に与えられている。）

[0052]図７に示す前出の実施例において、拡散残響尾部が直接音源及び２つの反射に加えられいる。残響尾部の開始遅延は、１０ｍｓに設定された。残響時間は、６ｄＢの直接−残響尾部エネルギー比で０．５秒であった。追加されている残響尾部は別として、刺激パラメータは前出の実施例と同じままとした。ＢＩＣＡＭプロセス４５は、以下のパラメータ、すなわち、０．０（０．０）ｍｓのＩＴＤ、−０．１３２４（−０．２４９９）ｄＢのＩＬＤ、第１の反射について、−０．５（−０．５）ｍｓのＩＴＤ、３．５５３０（３．６７０５）ｄＢのＩＬＤ、第２の反射について、０．５ｍｓのＩＴＤ、４．０７０７（−４．２８７５）ｄＢのＩＬＤ（ここでも、代替形態の「＊」で示されている方法の結果が括弧内に与えられている）を抽出した。

[0053]前述のように、直接音源及び反射の振幅の推定値は、以前の手法を使用しては困難であった。たとえば、従来のモデルにおいて、振幅は、ＩＴＤを計算するための中間ステップとしてラグ除去フィルタを計算するために必要とされていた。本発明の手法は、信号振幅を事前に知ることなくＩＴＤを推定することができるため、ＩＴＤを事前に知ることを必要とするより良好なアルゴリズムを使用して、信号成分振幅を計算することができる。その明白な手法とは別に、本手法はまた、複数の反射を処理することができることによる改善でもある。振幅推定は、マスクされた信号を検出し、ＩＴＤ／ＩＬＤ値の様々な組み合わせについての種々の項から成る行列を計算する拡張等化／相殺ＥＣモデルに基づく。そのような手法は、行列内のトラフを見つけることによって、信号の検出に使用された。

[0054]同様の手法を使用して、信号成分の振幅を推定することができる。ＥＣ手法及び既知のＩＬＤ／ＩＴＤ値を使用することによって、この混合から特定の信号成分が取り除かれる。その後、混合信号と、取り除かれた成分のない混合信号との差から、信号成分振幅を計算することができる。このプロセスは、すべての信号成分について繰り返され得る。正確な振幅値を計算するために、左チャネルから右チャネルを減算することによって、信号成分がなくなるだけでなく、他の成分も加わるため、平方根の項が使用されなければならない。他の成分は無相関化されるため、加わる振幅は２倍振幅あたり３ｄＢであり、一方で、信号成分を取り除くことは、２倍振幅あたり６ｄＢを伴う２つの相関信号を使用するプロセスである。

[0055]図８は、ＥＣ差分項行列の結果を示す。行列は、負の差分行列についてプロットされており、そのため、トラフはピークとして現れており、より容易に視覚化されることを留意されたい。３つの局所的ピークが、３つの信号成分、すなわち、直接音、第１の反射、及び第２の反射の各々について、組み合わせＩＴＤ／ＩＬＤ値において予測されるものとして現れている。これらの成分の測定トラフ値は、１．０５９０、１．４３９５であり、これらは、１．５５０２である、ＩＬＤ軸に沿ったすべての測定値のメジアンから減算されている（図９参照）。これは、相対振幅、すなわち、ａｄ＝０．４４５９、ａｒｌ＝０．３４０６、ａｒ２＝０．２１３５又はａｒｌ／ａｄ＝０．７６３８、ａｒ２／ａｄ＝０．４７８８を計算するために行われ、これらはそれぞれ、ａｒｌ／ａｄ及びａｒ２／ａｄの０．８及び０．５の設定値に非常に近い。

[0056]以下のコードセグメントは、交差項からもたらされ、個々の反射には起因しないが、これらに間違えられ、誤解を招くおそれがある結果をもたらす可能性がある、相互相関／自己相関関数のサイドピークをなくすための例示的なメカニズムを提供する。このプロセスは、交差項が対応するサイドピークの差分項として現れるという事実を利用する。たとえば、４００ｔａｐｓ及び６００ｔａｐｓのリード／ラグ遅延における２つの反射は、２００ｔａｐｓにおいて交差項を導入することになる。この情報を使用して、アルゴリズムは、最も高い遅延から開始して交差項を再帰的に除去する：
１Ｙ＝ｘｃｏｒｒ（ｙ，ｙ，８００）；％信号ｙについて自己相関を求める
２ｂ＝ｌｅｎｇｔｈ（Ｙ）；
３Ｍ＝ｚｅｒｏｓ（ｂ，ｂ）；％交差項計算行列
４ａ＝（ｂ＋ｌ）．／２；
５Ｙ＝Ｙ（ａ：ｂ）；％自己相関関数の右サイドを抽出する
６Ｙ（１）＝０；％メインピークを除去する
７
８ｆｏｒｎ＝ｂ：−ｌ：２％最高の係数から開始して最低の係数へ
９Ｍ（：，ｎ）＝Ｙ（ｎ）．＊Ｙ；％可能性のある交差項を計算する．．．
１０ｍａｘｉ＝ｍａｘ（Ｍ（ｎ−ｌ：−ｌ：２，ｎ））；％．．．そして、最も大きい最大値を見つける
１１ｉｆｍａｘｉ＞ｔｈｒｅｓｈｏｌｄ％最大値が設定閾値を超える場合に交差項を相殺する
１２Ｙ（２：ｃｅｉｌ（ｎ．／２））＝Ｙ（２：ｃｅｉｌ（ｎ．／２））−２．＊Ｍ（ｎ−ｌ：−ｌ：ｆｌｏｏｒ（ｎ．／２）＋ｌ，ｎ）；
１３ｅｎｄ
１４ｅｎｄ

[0057]図１０は、アルゴリズムの実施を示す。上部パネルは、単一チャネル直接信号及び２つの反射（４００ｔａｐｓ及び６００ｔａｐｓの遅延にある、直接信号の０．８及び０．５の振幅）の自己相関関数の右サイドを示す。下部パネルは、同じ自己相関関数を示すが、交差項ピークが除去されている。交差項ピークの振幅は取り除かなければならず、分析的に測定することはできないことに留意されたい。理論的には、振幅は、上記において説明されている方法を使用して推定することができるが、このとき、交差項はもはや、ＩＴＤ及びＩＬＤを求める前に取り除くことはできない。式４及び５を使用して、反射の明白なピーク並びに同サイドチャネル及び反対サイドチャネル内のメインピークの間の遅延を直に求める代わりに、相互相関アルゴリズムを使用して、これを達成することができる。

[0058]完全なシステムの例示的な実施例が、図１１に示されている。最初に、６０において、遮音囲い（たとえば、空間音場）内で両耳オーディオデータが記録及び捕捉される。６２において、両耳オーディオデータを入力するためにオーディオ増幅器が使用され、６４において、任意の必要な前処理、たとえば、フィルタリングなどが行われる。６６において、ＢＩＣＡＭプロセス４５が両耳オーディオデータに適用され、６６において、音声キュー又は特徴、たとえば、残響直接信号、直接信号特徴、残響信号特徴などが抽出される。最後に、７０において、音声キューを、関連するアプリケーション、たとえば、フロントエンド音声認識器又は補聴器、音声定位若しくは音楽特徴抽出システム、構造的品質／音声記録評価システムなどに入力することができる。

[0059]図１２は、ＢＩＣＡＭプロセス４５の概観を与えるフローチャートを示す。Ｓ１において、両耳音声処理システム１６（図１）が、少なくとも２つのマイクロホンから空間音場３４内の音声を記録する。Ｓ２において、システム１６は、次の時間系列について（たとえば、５秒サンプルについて）音声を捕捉及び分析し始める。Ｓ３において、オーディオ信号の各チャネルについて自己相関が実施され、チャネルの間で相互相関が実施される。Ｓ４において、前出の関数の各々から一方のサイド及び中心ピークが除去され、Ｓ５において、結果を比較する相互相関の別のセットを実施するために出力が使用される。Ｓ６において、直接音のチャネル間／両耳間信号パラメータが決定され、Ｓ７において、反射パターンの信号パラメータが決定される。Ｓ８において、信号の終わりに達したか否かについて判定が行われる。はいである場合、プロセスは終了し、そうでない場合、Ｓ９において、システムは記録又は次の時間系列に移動する。

[0060]このシステムは、空間−時間フィルタを使用して、進行中の信号の直接信号部分と残響信号部分との聴覚特徴を分離する。進行中の信号とは、残響尾部（たとえば、発話母音、音楽）の継続時間程度である継続時間にわたって準定常であり、ショットガン音のような身近にインパルス信号を含まない信号として定義される。この相互相関アルゴリズムは、組み合わせ自己相関／相互相関アルゴリズムに加えて実施されるため、第２層相互相関として参照される。第１層について、自己相関／相互相関関数シーケンスの以下のセットが計算される。
Ｒ_ｘｘ（ｍ）＝Ｅ［ｘ_ｎ＋ｍｘ＊_ｎ］（１２）
Ｒ_ｘｙ（ｍ）＝Ｅ［ｘ_ｎ＋ｍｙ＊_ｎ］（１３）
Ｒ_ｙｘ（ｍ）＝Ｅ［ｙ_ｎ＋ｍｘ＊_ｎ］（１４）
Ｒ_ｙｙ（ｍ）＝Ｅ［ｙ_ｎ＋ｍｙ＊_ｎ］（１５）
式中、Ｒは相互相関シーケンスであり、Ｅ｛．．．｝は予測値演算子である。変数ｘは左耳信号であり、ｙは右耳信号である。変数ｍは−Ｍ〜Ｍに及ぶ内部遅延であり、ｎは離散的な時間係数である。実際には、Ｍの値は、対象の反射パターンの継続時間以上である必要がある。変数Ｍは、インパルス応答全体又はそのサブセットを含み得る。実際には、１０ｍｓと４０ｍｓとの間の値が良好に機能した。４８ｋＨｚのサンプリングレートにおいて、このとき、Ｍは４８０又は１９２０係数（ｔａｐｓ）である。変数ｎは、０〜信号継続時間Ｎの範囲をカバーする。計算は、より短いセグメントにわたって進行中の分析として実施することができる。

[0061]次に、プロセスは、１つのチャネルにおける自己相関及び反対のチャネルによる相互相関の第２のレベルの相互相関分析に続く。この手法は、両方の関数（自己相関関数及び相互相関関数）のサイドピークを比較することである。これらは互いに相関付けられ、それらを時間的に位置整合させることによって、両方のメインピークの間のオフセットが分かって、そのＩＴＤ、及び、それゆえ、直接音のＩＴＤが決定される。方法は、交差項（反射の間の相関）が一定の限度内である場合に機能する。これが機能するようにするために、τ＝０におけるメインピークはウィンドウイングで出されるか、又は、ゼロに設定されなければならず、自己相関／相互相関関数の左サイドが除去されるか又はゼロに設定されなければならない。変数ｗは、ｗよりも小さい係数をゼロに設定することによってメインピークを除去するための窓の長さである。この適用のために、ｗについて、たとえば１００の値が、ｗ（約２ｍｓ）について良好に機能する。

[0062]次に、「ハット」バージョンを使用した第２層相互相関を実施することができる。このとき、直接信号の両耳間時間差（ＩＴＤ）ｋ_ｄは以下のようになる。

[0063]反対のチャネルを使用して、ＩＴＤ_ｄも計算される。

[0064]安定性の理由から、両方の方法を組み合わせることができ、その後、２つの第２層相互相関項の積からＩＴＤが計算される。

[0065]次に、反射ｋ_ｒ、ｋ＊_ｒ、及びｋ−_ｒのＩＴＤパラメータを導出するために、同様の計算を行うことができる。基本的に、同じ計算が行われるが、反射のＩＴＤを推定するために時間的に逆の順序で行われる。この方法は、１つの反射又は１つの優勢な反射について良好に機能する。複数の早期反射の事例において、たとえ直接音のＩＴＤを依然として抽出することができるとしても、これは機能しない場合がある。

[0066]また、反対のチャネルによる以下の代替的な方法、

[0067]及び、以下の組み合わせ方法を使用する。

[0068]ＩＴＤ_ｄを計算するために使用される自己相関／相互相関シーケンスの左サイドを使用して同じ結果が生成され得ることに留意されたい。分析の結果は複数の様式で使用することができる。直接信号のＩＴＤｋ_ｄを使用して、人間が聴くのと同様に（すなわち、先行音効果、第一波面の法則）直接音源に基づいて音源を定位することができる。さらなる分析を使用して、ＩＬＤ及び振幅推定を併合することができる。また、本明細書において説明されている交差項除去プロセスは、第２層相関モデルとともに使用することができる。反射パターンは、以下のように分析することができる。直接信号のＩＴＤｋ_ｄを使用して、左チャネル及び右チャネルを表す２つの自己相関関数Ｒ_ｘｘ及びＲ_ｙｙのうちの一方をシフトさせることができる。

[0069]次に、時間的に位置整合されている自己相関関数に対する進行中の相互相関を実施して、反射のパラメータを推定することができる。自己相関関数の左サイドは、分析の前に除去されるべきである。
音源分離

[0070]以下の論述は、マルチチャネルオーディオデータから、２つ以上の位置特定されている音源を分離するための音源分離システム２４（図１）を説明する。より詳細には、音源分離システム２４は、時間及び周波数において巨視的に重なっているさらに２つの音源を分離するための空間音源分別プロセスを利用する。空間音源分別プロセスにおいて、ここで提案されているもののように、各音源は、それらを互いから分離するための基準として使用することができる固有の空間位置を有する。一般的な方法は、各チャネルの信号を分離して時間−周波数要素から成る行列にすることである（たとえば、周波数について信号を分析するためのフィルタバンク又はフーリエ変換及び時間について信号を分析するための各周波数帯域における時間窓の使用）。複数のオーディオ信号（たとえば、競合する音声）が巨視的に重なり合っているが、それらは巨視的には部分的にのみ重なり合っていると仮定され、それによって、所望の信号及び競合する信号が分離して存在する時間−周波数要素を見出すことができ、したがって、競合する信号部分が無効にされることが可能である。その後、たとえば、重畳加算法を使用して、残りの時間−周波数要素（所望の信号を含む）をともに加算し戻すことによって、所望の信号が再構築される。

[0071]ここで提案されているプロセスは、（１）各音源を含む要素を見出すために等化／相殺（Equalization/Cancellation：ＥＣ）方法を使用すること、及び（２）ＥＣ分析の前に各音源の室内反射を除去することによって、既存の両耳音源分別モデルを改善する。（１）と（２）とを組み合わせることによって、特に残響信号について、既存のアルゴリズムのロバスト性が改善される。

[0072]図１３は、改善音源分離システム２４に対するＢＩＣＡＭプロセス４５（又は他の音源定位モデル）の拡張を示す。

[0073]現行のシステムと比較して音源分離システム２４の性能を改善するために、いくつかの重要な段階が導入されている。
１．所望の音源の信号成分を含む時間／周波数ビンを選択するために、音源分離システム２４は、両耳間コヒーレンスに基づくキュー選択方法を使用する代わりに、Ｄｕｒｌａｃｈの等化／相殺（ＥＣ）モデルを利用する。実効的には、２つの耳が表す２チャネルセンサの耳垂が、信号をフィルタリング除外するよりもはるかにより効果的に信号を拒絶するという事実を利用する、ヌルアンテナ手法が使用される。この手法は、計算的にもより効率的である。ＥＣモデルは、音源分別に成功裏に使用されているが、この手法は、以下の点において新規である。
（ａ）ＥＣモデルは、無響信号だけでなく、室内インパルス応答とともに使用される、また、
（ｂ）本明細書において説明されている、はるかにより信頼性の高い定位アルゴリズムであるＢＩＣＡＭプロセス４５が、残響信号の処理を可能にするフロントエンドとして使用される。
２．周波数ビン毎に早期反射を除去する代わりに、各音源が、独立したチャネルとして処理される。このとき、
（ａ）最初に早期反射をフィルタリング除外し、
（ｂ）その後、ＥＣモデルを使用して、このチャネルに属する信号成分を検出する。

[0074]本明細書において説明されている例示的な実施例は、無響録音を有するＡｒｃｈｉｍｅｄｅｓのＣＤからの音声刺激を使用して作成された。女性の声及び男性の声が４４．１ｋＨｚのサンプリング周波数において、男性の声が最初の半秒にわたって聞こえ、女性の声が次の半秒にわたって聞こえ、両方の声が最後の１．５秒にわたって聞こえるように、ともに混合されている。女性の声は、「Ｉｎｆｉｎｉｔｅｌｙｍａｎｙｎｕｍｂｅｒｓｃａｎｂｅｃｏｍ（ｐｏｓｅｄ）」と言っており、一方で男性の声は、「Ａｓｉｎｆｏｕｒ，ｓｃｏｒｅａｎｄｓｅｖｅｎ」と言っている。単純にするために、女性の声は０．４５ｍｓのＩＴＤで左に空間音響化されており、男性の声は０：２７ｍｓで右に空間音響化されているが、このモデルは、音源を空間音響化するために測定頭部伝達関数を処理することができる。いくつかの実施例において、両方の音源（女性の声と男性の声）が早期反射を含む。女性の声の反射は、−０．３６ｍｓのＩＴＤで１．８ｍｓだけ遅延され、男性の声の反射は、０．５４ｍｓのＩＴＤで２．７ｍｓだけ遅延される。各反射の振幅は、直接音の振幅の８０％まで減衰される。

[0075]残響尾部を含む実施例において、尾部は、各オクターブ帯域における個々の残響時間について設定されている指数関数的に減衰する窓を用いてウィンドウイングで出されている、オクターブフィルタリングされたガウス雑音信号から計算された。その後、このオクターブフィルタリングされたものは、広帯域信号のためにともに加算された。独立した雑音信号が、左チャネル及び右チャネル並びに２つの声の基礎として使用された。この実施例において、残響時間は、０ｄＢの直接対後期残響比ですべての周波数に渡って均一に１秒であった。

[0076]モデルアーキテクチャは以下のとおりである：基底膜及び有毛細胞の挙動が、ガンマトーンフィルタバンクを用いてシミュレートされる。ガンマトーンフィルタバンクは、たとえば、各々が等価矩形帯域幅（ＥＲＢ）の幅である、３６個の聴覚周波数帯域から構成される。

[0077]マスク信号の検出を説明するために、ＥＣモデルが主に使用される。これは、聴覚系が、左耳信号及び右耳信号をマスカの特性へと等化し、一方のチャネルを他方から減算することによって、マスカの影響を相殺するためのメカニズムを有すると仮定する。標的信号に関する情報が、減算の後に残っているものから得られる。等化プロセスについて、マスカは、両耳間時間差及び両耳間レベル差によって空間的に特性化されると仮定される。２つの耳信号はその後、これら２つの両耳間差を補償するために、時間及び振幅において位置整合される。

[0078]モデルは、複数の異なる周波数帯域にわたる時間及び周波数の変動を処理するように拡張することができる。時間及び振幅のジッタの形態の内部雑音が、マスク信号の検出における人間の性能に一致するように等化プロセスを劣化するために使用される。

[0079]図１４は、７５０Ｈｚの中心周波数を有する聴覚帯域におけるデータを使用して、これがどのように達成されるかを示している。各グラフについて、すべての可能なＩＴＤ／ＩＬＤ等化パラメータが計算されており、各ビンのデータは、相殺プロセス後のＥＣ振幅の残差を示している。ゼロに近い大きさ（暗色）は、この位置においてＩＴＤ（水平方向において示す）及びＩＬＤ（垂直方向において示す）の真の信号値が見出されたため、信号を取り除くのに成功したことを意味する。これは、目標が分離された事例を示す左のグラフ、及び、マスカが分離された事例を示す右のグラフについてのみ可能である。中央パネルに示す目標とマスカとが重なり合っている事例において、ＥＣモデルは異なるＩＬＤキュー及びＩＴＤキューを有する２つの信号を同時に補償することはできないため、相殺プロセスを成功させることはもはや可能ではない。結果として、０．１５の値を有する最低点はもはやゼロに近くなく、したがって、この時間／周波数ビン内に３つ以上の信号が存在する場合、最低点の大きさが指標として使用され得る。本発明のモデルは、１信号ビンを使用し、複数の異なる空間位置にしたがってそれらをグループ化し、マスカ及び標的の位置を求めるために同様のＩＴＤ／ＩＬＤ組み合わせにわたって統合する。

[0080]以下の実施例において、ＥＣモデルは、分離された標的成分及びマスカ成分を含む、結合時間／周波数空間内の領域を求めるために使用される。図１４とは対照的に、複数の異なるＩＴＤ組み合わせについてのＥＣ分析が低減され、第２の次元が時間分析に使用される。図１５は、ＥＣ選択メカニズムの結果を示す。

[0081]左上グラフは、男性の声の選択されるキューを示す。この目的のために、ＥＣアルゴリズムは、両方の信号が互いから減算される前に、男性の声のＩＴＤを補償するように設定される。キュー選択パラメータｂは以下のように推定される。

式中、ｘ１（ｎ，ｍ）は左オーディオ信号であり、ｘ２（ｎ，ｍ）は右オーディオ信号であり、エネルギーは以下のとおりである。

[0082]変数ｎは周波数帯域であり、ｍは時間ビンである。キューはその後、
Ｂ＝ｍａｘ（ｂ）−ｂ
としてプロットされ、これは、選択キューを０（選択されない）と１（選択される）との間で正規化するための式である。以下の実施例において、Ｂの閾値はキューを選択するために０．７５に設定された。グラフは、選択されているキューが、男声信号と良好に相関することを示している。モデルはまた、偶然に女性の声からの情報も選択するが、女性の声に対応するほとんどのビンは選択されない。

[0083]他の方法と比較したＥＣ手法の主な利点の１つは、キューが、競合する音源のうちの１つに割り当てられる必要はなく、ＥＣモデルが一度に１つの方向のみを標的としているとき、自然にこのアルゴリズムになることである。理論的には、分離されている内部遅延のピーク高さを計算することによって、１つの方向のピークのみを見つけるようにコヒーレンスアルゴリズムを設計することができるが、ＥＣモデルの根底にあるヌルアンテナは、相互相関方法が類似する建設的なビーム形成手法よりもはるかに良好な空間選択性を有することに留意しなければならない。

[0084]図１５の右上グラフは、０．７５の閾値を使用して左グラフから計算された２値マスクを示す。白色タイルは、左グラフ内のより暗い領域に対応する、選択されている時間／周波数ビンを表す。右グラフの中央パネル及び下部パネルは、全残響信号（中央パネルは男性の声及び女性の声＋残響）を示しており、下部パネルは、分離された無響音声信号（灰色曲線）及びＥＣモデルを使用して混合音から抽出された信号（黒色曲線）を示している。一般的に、このモデルはこのタスクを実施することが可能であり、また、残響尾部を著しく除去する。

[0085]次に、早期反射の除去を処理するために、このプロセスが分析された。この目的のために、上記で指定したような早期反射を有するが、後期残響尾部を有しないテスト刺激が試験された。音源分別プロセスの一部として、早期反射は、ＥＣ分析の前に全信号から除去される。フィルタ設計は、前の先行音効果モデルから取得された。フィルタは、直接信号と反射との間の遅延Ｔ及び直接音と反射との間の振幅比ｒの値をとり、これらは、ＢＩＣＡＭ定位アルゴリズムによって、又は、代替的に、先行音効果モデルから推定することができる。ラグ除去フィルタが、全信号からラグを取り除くことができる。

[0086]このデコンボリューションフィルタｈ_ｄは迅速に収束し、わずかなフィルタ係数のみが、全信号からラグ信号を効果的に除去するために必要とされる。理想的な事例において、フィルタ係数Ｎの数は無限大に近づき、全信号からラグを完全に除去する無限インパルス応答（ＩＩＲ）フィルタが生成される。

[0087]フィルタの動作モードはかなり直感的である。主な係数δ（ｔ−０）は信号全体を通し、一方で、第１の負のフィルタ係数−ｒδ（ｔ−Ｔ）は、信号の遅延コピーを減算することによってラグを取り除くように調整されている。しかしながら、ラグはまた、フィルタを通じて処理され、第２の負のフィルタ係数が、リードと比較して２Ｔだけ遅延されている別の信号を引き起こすことに留意しなければならない。この新たに生成された信号成分は、第３の正のフィルタ係数によって補償されなければならず、以下同様である。

[0088]図１５は、男性の声を抽出するための手順の結果を示している。左上パネルは、男性の声の早期反射がＥＣ分析の前に除去されていないテスト条件を示している。分析は非常に不完全である。特に、信号は、いくつかの周波数帯域、特に、ＥＲＢ帯域６〜１１（２２０〜５４０Ｈｚ）において正確に検出されていない。低い周波数の帯域１〜４において、信号は常に検出されており、女性の声はもはや拒絶されない。その結果として、２値マップは、指定周波数において相当のエラーを含み（右上グラフ）、再構築された男声信号は、元の信号と良好に相関しない（右上図の部分パネルと、左上図の部分パネル内の曲線とを比較されたい）。

[0089]図１５の下行内の２つのグラフは、男性の声の早期反射を除去するために全信号にフィルタが適用された条件を示す。女声信号もフィルタによって影響を受けているが、この事例においては、女性の声及び男性の声が、自然条件において観測されるものとは空間特性が異なる早期反射を有するため、フィルタ係数はその早期反射の設定に一致しないことに留意されたい。

[0090]その結果として、フィルタは女声信号を何らかの様式で変化させるが、その早期反射を系統的に除去しない。本発明では差し当たってこの信号を背景雑音として処理するため、本発明が男声信号の信号特性を改善することができる限り、その特性が変化することについては過度に気にしない。中央行の左グラフが示すように、男声信号を含む時間／周波数ビンの識別は、ここで、ラグが除去されなかった前出の条件、図１５左上パネル参照、と比較して、はるかにより良好に機能する。特に、男声信号が分離して提示されている、始めにある実線の白色ブロックに留意されたい。この結果として、中央行の右グラフに示すように、２値マップがはるかにより正確になる。ラグ除去フィルタを男声設定で適用することで、女声信号を正確に拒絶することは妨げられないことに留意することが重要である。女性の声のみの領域（０．５〜１．０秒）において選択される時間／周波数ビンはごくわずかな事例のみである。

[0091]ここでも、このプロセスは、ラグ除去フィルタが適用されない場合よりも、混合音（１．０〜２．５秒）からの男声信号の抽出においてはるかに良好に機能する（同じ図の右上グラフと比較されたい）。ここで、女声信号の早期反射を除去するのに最適であるラグ除去設定が採用される場合のモデル性能を試験する。予測されるように、ＥＣ分析は男性の声を抽出するように設定され、一方でラグ除去フィルタは女性の声の早期反射を除去するために適用されるため、モデルアルゴリズムはもはや良好に機能しない。図１５の２つの下部グラフは、正確に識別された時間／周波数ビンが非常に散乱しており、多くの周波数ビンにおいて、信号は検出されないことを示している。

[0092]次のステップは、早期反射と後期残響の両方が信号に加えられるテスト条件を分析することであった。図１６は、男性の声が抽出された事例を示している。２つの上部パネルは、ＥＣモデル分析の前に早期反射が除去されなかった事例を示している。ＥＣモデルは、ＥＲＢ帯域８と１６との間の多くの中間周波数ビンを見過ごしている。たとえば、０．２ｓにおける最初の出だしにおいて、キューはもはや１に近くなく（左パネル）、それゆえ、対応する時間／周波数は選択されない（右パネル）ことに留意されたい。２つの下部パネルは、男性の声に対応する早期反射が除去された条件を示している。ここで、中間周波数ビンが再び、左パネル内のｗ領域と右パネル内の白色領域が再び現れるものとして選択されていることに留意されたい。この信号を聴くと、遅延が除去されており、声がはるかにより明瞭に聞こえることが分かる。

[0093]音源定位及び分別処理は、繰り返し実施することができ、それによって、小さい音声セグメント（たとえば、１０ｍｓ）が、音源及び反射の空間位置を特定するために使用され、その後、音源分別アルゴリズムが、反射及び所望の音源を除去し、音源位置のより正確な計算及び所望の音源の分離を得るために、同じ小さいサンプル（時間的に後続するもの）に対して実施される。両方のプロセス（定位及び分別）からの情報がその後、次の時間窓を分析するために使用される。反復プロセスは、音源がそれらの空間位置を経時的に変化させる事例にも必要である。

[0094]再び図１を参照すると、音声処理システム１８の態様は、たとえば、コンピュータ可読記憶媒体上に記憶されているコンピュータプログラム製品を用いて、１つ又は複数のコンピューティングシステム上に実装されてもよい。コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を保持及び記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体はたとえば、限定ではないが、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、又は上記の任意の適切な組み合わせであってもよい。コンピュータ可読記憶媒体のより特定的な例の包括的でないリストは、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、パンチカード、又は、命令を記録されている溝の中の***構造のような機械的に符号化されているデバイス、及び、上記の任意の適切な組み合わせを含む。コンピュータ可読記憶媒体は、本明細書において使用されるものとしては、無線波、又は、他の自由に伝播する電磁波、導波路若しくは他の伝送媒体（たとえば、光ファイバケーブルを通過する光パルス）を通じて伝播する電磁波、又は、ワイヤを通じて伝送される電気信号のような、過渡的信号自体として解釈されるべきではない。

[0095]本明細書において記載されているコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスへ、又は、ネットワーク、たとえば、インターネット、ローカルエリアネットワーク、広域ネットワーク及び／若しくはワイヤレスネットワークを介して外部コンピュータ若しくは外部記憶デバイスへダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス送信、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び／又はエッジサーバを含んでもよい。各コンピューティング／処理デバイス内のネットワークアダプタカード又はネットワークインターフェースが、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体内に記憶するために、コンピュータ可読プログラム命令を転送する。

[0096]本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Ｊａｖａ（登録商標）、Ｐｙｔｈｏｎ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのようなオブジェクト指向プログラミング言語、及び、「Ｃ」プログラミング言語若しくは同様のプログラミング言語のような従来の手続き型プログラミング言語を含む、１つ又は複数のプログラミング言語の任意の組み合わせで書かれているソースコード若しくはオブジェクトコードのいずれかであってもよい。コンピュータ可読プログラム命令は、その全体をコンピュータ上で、部分的にコンピュータ上で、独立型ソフトウェアパッケージとして、部分的にコンピュータ上でかつ部分的に遠隔デバイス上で、又はその全体を遠隔デバイス若しくはサーバ上で実行されてもよい。後者のシナリオにおいて、遠隔デバイスが、ワイヤレス、ローカルエリアネットワーク（ＬＡＮ）若しくは広域ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを通じてコンピュータに接続されてもよく、又は、接続は、外部コンピュータに対して（たとえば、インターネットサービスプロバイダを使用してインターネットを通じて）行われてもよい。いくつかの実施形態において、たとえば、プログラム可能論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又はプログラム可能論理アレイ（ＰＬＡ）を含む電子回路が、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をカスタマイズすることによって、コンピュータ可読プログラム命令を実行することができる。

[0097]本発明の態様は、本明細書において、本発明の実施形態による、方法、装置（システム）及びコンピュータプログラム製品のフローチャートの図及び／又はブロック図を参照して説明されている。フローチャートの図及び／又はブロック図の各ブロック、並びに、フローチャートの図及び／又はブロック図内の複数のブロックの組み合わせはそれぞれ、コンピュータ可読プログラム製品によって実装されることができることは理解されよう。

[0098]これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに提供されてマシンを生成することができ、それによって、コンピュータ又は他のプラグラマム可能データ処理装置のプロセッサを介して実行する命令は、フローチャート及び／又はブロック図の１つ又は複数のブロックにおいて指定される機能／動作を実施するための手段を作り出す。これらのコンピュータ可読プログラム命令はまた、コンピュータ、プログラム可能データ処理装置、及び／又は他のデバイスに特定の様式で機能するように指示することができるコンピュータ可読記憶媒体内に記憶することもでき、それによって、命令を記憶されているコンピュータ可読記憶媒体は、フローチャート及び／又はブロック図の１つ又は複数のブロックにおいて指定される機能／動作の態様を実施する命令を含む製造品を含む。

[0099]コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードされて、一連の動作ステップが、コンピュータ、他のプログラマブル装置、又は他のデバイス上で実行されるようにして、コンピュータで実施されるプロセスを生成することができ、それによって、コンピュータ、他のプログラマブル装置、又は他のデバイス上で実行する命令が、フローチャート及び／又はブロック図の１つ又は複数のブロックにおいて指定される機能／動作を実施する。

[00100]図面内のフローチャート及びブロック図は本発明の様々な実施形態によるシステム、方法及びコンピュータプログラム製品の可能な実施態様のアーキテクチャ、機能、及び動作を例示する。これに関連して、フローチャート又はブロック図内の各ブロックは、指定の論理機能を実施するための１つ又は複数の実行可能命令を含む、モジュール、セグメント、又は命令の一部分を表すことができる。いくつかの代替的な実施態様において、ブロックに記載されている機能は、図面に記載されている順序と一致せずに行われてもよい。たとえば、連続して示されている２つのブロックは実際には、関与する機能に応じて、実質的に同時に実行されてもよく、又は、これらのブロックは、時として逆順に実行されてもよい。また、ブロック図及び／又はフローチャートの図の各ブロック、並びにブロック図及び／又はフローチャートの図のブロックの組み合わせは、指定の機能若しくは動作を実施するか、又は、専用ハードウェアとコンピュータ命令との組み合わせを実行する専用ハードウェアベースシステムによって実施することができることも留意されよう。

[00101]両耳音声処理システム１８を実装するためのコンピュータシステム１０は、任意のタイプのコンピューティングデバイスを含んでもよく、たとえば、少なくとも１つのプロセッサ、メモリ、入出力（Ｉ／Ｏ）（たとえば、１つ又は複数のＩ／Ｏインターフェース及び／又はデバイス）、及び通信経路を含んでもよい。概して、プロセッサは、少なくとも部分的にメモリ内に固定されているプログラムコードを実行する。プログラムコードを実行しながら、プロセッサは、データを処理することができ、この結果として、変換されたデータが、さらなる処理のためにメモリ及び／又はＩ／Ｏから／へと読み出し及び／又は書き込みされ得る。経路は、コンピューティングシステム内の構成要素の各々の間に通信リンクを提供する。Ｉ／Ｏは、ユーザ又は他のシステムがコンピューティングシステムと対話することを可能にする、１つ又は複数のヒューマンＩ／Ｏデバイスを含んでもよい。記載されている知識群は、任意のタイプのデータ記憶装置、たとえば、データベース、ファイルシステム、テーブルなどによって実装されてもよい。

[00102]さらに、両耳音声処理システム１８又はその関連コンポーネント（ＡＰＩコンポーネントなど）はまた、コンポーネントを中央サーバ又は中央サーバ群に送ることによって、コンピュータシステム内に自動的に又は半自動的に展開することもできる。コンポーネントはその後、コンポーネントを実行することになる標的コンピュータ内へとダウンロードされる。コンポーネントはその後、ディレクトリに切り離されるか、又は、コンポーネントをディレクトリに切り離すプログラムを実行するディレクトリにロードされる。別の代替形態は、コンポーネントを、クライアントコンピュータハードドライブ上のディレクトリに直に送ることである。プロキシサーバが存在するとき、このプロセスは、プロキシサーバコードを選択し、いずれのコンピュータにプロキシサーバのコードを置くかを判定し、プロキシサーバコードを送信し、その後、プロキシサーバコードをプロキシコンピュータ上にインストールする。コンポーネントは、プロキシサーバに送信され、その後、プロキシサーバ上に記憶される。

[00103]本発明の様々な態様の上記の記載は、例示及び説明の目的で提示されてきた。包括的であることも、本発明を、開示されている正確な形態に限定することも意図されておらず、明らかに、多くの修正形態及び変形形態が可能である。当業者には明らかであり得るそのような修正形態及び変形形態は、添付の特許請求項によって規定されるものとしての本発明の範囲内に含まれる。

Claims

両耳オーディオデータからパラメータを推定するための音声処理システムであって、
少なくとも２つのマイクロホンを使用して空間音場から捕捉される第１のチャネル及び第２のチャネルを有する両耳オーディオデータを入力するためのシステムと、
反射音成分から直接音成分を分離するための両耳信号分析器であり、前記両耳信号分析器が、
前記第１のチャネルと前記第２のチャネルの両方に対して自己相関を実施して、一対の自己相関関数を生成することと、
前記第１のチャネルと前記第２のチャネルとの間で第１層相互相関を実施して、第１層相互相関関数を生成することと、
前記第１層相互相関関数及び選択された自己相関関数から中心ピークを除去して、修正対を生成することと、
前記修正対の間で第２層相互相関を実施して、時間的不整合を求めることと、
前記選択された自己相関関数の前記中心ピークが前記第１層相互相関関数の前記中心ピークの時間的位置に一致するように、前記時間的不整合を使用して、前記第１層相互相関関数を、前記選択された自己相関関数と置き換えることによって、結果の関数を生成することと、
前記結果の関数を利用して、前記直接音成分及び前記反射音成分の両耳間時間差（ＩＴＤ）パラメータ及び両耳間レベル差（ＩＬＤ）パラメータを求めることと、
を行うメカニズムを含む、両耳信号分析器と、
を備える、音声処理システム。
前記中心ピークを除去することが、前記第１層相互相関関数及び前記選択された自己相関関数の両サイドの一方を除去することをさらに含む、請求項１に記載の音声処理システム。
前記ＩＴＤパラメータ及び前記ＩＬＤパラメータを使用して前記直接音成分の位置情報を求める音声定位システムをさらに備える、請求項１に記載の音声処理システム。
進行中の相互相関が、前記第２層相互相関に利用される、請求項１に記載の音声処理システム。
前記進行中の相互相関が、前記空間音場の音響パラメータを求めるために利用される、請求項４に記載の音声処理システム。
前記ＩＴＤパラメータ及び前記ＩＬＤパラメータを使用して前記空間音場内の複数の異なる音源を分別する音源分離システムをさらに備える、請求項１に記載の音声処理システム。
前記音源分離システムが、
各音源の音反射を除去するためのシステムと、
等化／相殺（ＥＣ）プロセスを利用して各音源を含む要素のセットを識別するためのシステムと、
を含む、請求項５に記載の音声処理システム。
少なくとも２つのマイクロホンを使用して空間音場から捕捉される第１のチャネル及び第２のチャネルを有する両耳オーディオデータからパラメータを推定するためのコンピュータ化された方法であって、
前記第１のチャネルと前記第２のチャネルの両方に対して自己相関を実施して、一対の自己相関関数を生成するステップと、
前記第１のチャネルと前記第２のチャネルとの間で第１層相互相関を実施して、第１層相互相関関数を生成するステップと、
前記第１層相互相関関数及び選択された自己相関関数から中心ピークを除去して、修正対を生成するステップと、
前記修正対の間で第２層相互相関を実施して、時間的不整合を求めるステップと、
前記選択された自己相関関数の前記中心ピークが前記第１層相互相関関数の前記中心ピークの時間的位置に一致するように、前記時間的不整合を使用して、前記第１層相互相関関数を、前記選択された自己相関関数と置き換えることによって、結果の関数を生成するステップと、
前記結果の関数を利用して、前記直接音成分及び反射音成分の両耳間時間差（ＩＴＤ）パラメータ及び両耳間レベル差（ＩＬＤ）パラメータを求めるステップと、
を含む、コンピュータ化された方法。
前記中心ピークを除去することが、前記第１層相互相関関数及び前記選択された自己相関関数の両サイドの一方を除去することをさらに含む、請求項８に記載のコンピュータ化された方法。
前記ＩＴＤパラメータ及び前記ＩＬＤパラメータを使用して前記直接音成分の位置情報を求めるステップをさらに含む、請求項８に記載のコンピュータ化された方法。
進行中の相互相関が、前記第２層相互相関に利用される、請求項８に記載のコンピュータ化された方法。
前記進行中の相互相関が、前記空間音場の音響パラメータを求めるために利用される、請求項１１に記載のコンピュータ化された方法。
前記ＩＴＤパラメータ及び前記ＩＬＤパラメータを使用して前記空間音場内の複数の異なる音源を分別するステップをさらに含む、請求項８に記載のコンピュータ化された方法。
前記分別するステップが、
各音源の音反射を除去することと、
各音源を含む要素のセットを識別するために等化／相殺（ＥＣ）プロセスを利用することと、
を含む、請求項１３に記載のコンピュータ化された方法。
コンピュータ可読媒体上に記憶されているコンピュータプログラム製品であって、コンピューティングシステムによって実行されると、少なくとも２つのマイクロホンを使用して空間音場から捕捉される第１のチャネル及び第２のチャネルを有する両耳オーディオデータからパラメータを推定し、当該コンピュータプログラム製品は、
前記第１のチャネルと前記第２のチャネルの両方に対して自己相関を実施して、一対の自己相関関数を生成するためのプログラムコードと、
前記第１のチャネルと前記第２のチャネルとの間で第１層相互相関を実施して、第１層相互相関関数を生成するためのプログラムコードと、
前記第１層相互相関関数及び選択された自己相関関数から中心ピークを除去して、修正対を生成するためのプログラムコードと、
前記修正対の間で第２層相互相関を実施して、時間的不整合を求めるためのプログラムコードと、
前記選択された自己相関関数の前記中心ピークが前記第１層相互相関関数の前記中心ピークの時間的位置に一致するように、前記時間的不整合を使用して、前記第１層相互相関関数を、前記選択された自己相関関数と置き換えることによって、結果の関数を生成するためのプログラムコードと、
前記結果の関数を利用して、前記直接音成分及び反射音成分の両耳間時間差（ＩＴＤ）パラメータ及び両耳間レベル差（ＩＬＤ）パラメータを求めるためのプログラムコードと、
を含む、コンピュータプログラム製品。
前記中心ピークを除去することが、前記第１層相互相関関数及び前記選択された自己相関関数の両サイドの一方を除去することをさらに含む、請求項１５に記載のコンピュータプログラム製品。
前記ＩＴＤパラメータ及び前記ＩＬＤパラメータを使用して前記直接音成分の位置情報を求めるためのプログラムコードをさらに含む、請求項１５に記載のコンピュータプログラム製品。
前記第２層相互相関が前記空間音場の音響パラメータを求めるために、進行中の相互相関が利用される、請求項１５に記載のコンピュータプログラム製品。
前記ＩＴＤパラメータ及び前記ＩＬＤパラメータを使用して前記空間音場内の複数の異なる音源を分別するためのプログラムコードをさらに備える、請求項１５に記載のコンピュータプログラム製品。
前記分別するためのプログラムコードが、
各音源の音反射を除去するためのプログラムコードと、
各音源を含む要素のセットを識別するために等化／相殺（ＥＣ）プロセスを利用するためのプログラムコードと
を含む、請求項１９に記載のコンピュータプログラム製品。