JP2017530579A - 両耳統合相互相関自己相関メカニズム - Google Patents

両耳統合相互相関自己相関メカニズム Download PDF

Info

Publication number
JP2017530579A
JP2017530579A JP2017503897A JP2017503897A JP2017530579A JP 2017530579 A JP2017530579 A JP 2017530579A JP 2017503897 A JP2017503897 A JP 2017503897A JP 2017503897 A JP2017503897 A JP 2017503897A JP 2017530579 A JP2017530579 A JP 2017530579A
Authority
JP
Japan
Prior art keywords
correlation
function
channel
layer cross
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017503897A
Other languages
English (en)
Inventor
ジョナス ブラーシュ,
ジョナス ブラーシュ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rensselaer Polytechnic Institute
Original Assignee
Rensselaer Polytechnic Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rensselaer Polytechnic Institute filed Critical Rensselaer Polytechnic Institute
Publication of JP2017530579A publication Critical patent/JP2017530579A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/55Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired
    • H04R25/552Binaural
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Neurosurgery (AREA)
  • Otolaryngology (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

両耳オーディオを入力するためのシステムと、第1のチャネルと第2のチャネルの両方に対して自己相関を実施して、一対の自己相関関数を生成することと、第1のチャネルと第2のチャネルとの間の第1層相互相関を実施して、第1層相互相関関数を生成することと、第1層相互相関関数及び選択された自己相関関数から中心ピークを除去して、修正対を生成することと、修正対の間の第2層相互相関を実施して、時間的不整合を求めることと、時間的不整合を使用して、第1層相互相関関数を、選択された自己相関関数に置き換えることによって、結果としての関数を生成することと、結果としての関数を利用して、直接音成分及び反射音成分の両耳間時間差(ITD)パラメータ及び両耳間レベル差(ILD)パラメータを求めることとを行う両耳信号分析器(BICAM)とを有するシステムが提供される。【選択図】 図1

Description

[0001]本発明の主題は、残響場における音源の定位及び分離に関し、より詳細には、第1層自己相関/相互相関プロセスに加えて、第2層相互相関プロセスを使用して、両耳オーディオデータ(binaural audio data、バイノーラルオーディオデータ)から直接音成分と反射音成分とを分離する音声定位システムに関する。本発明は、全米科学財団によって与えられている契約番号1229391及び1320059に基づく政府支援を受けて成されている。政府は本発明において一定の権利を有する。
背景
[0002]両耳聴は、人間及び他の動物が、周波数的手がかりとともに、音声の定位、すなわち、方向及び出所を特定することを可能にする。しかしながら、オーディオ機器及び信号処理を使用した、部屋のような残響場における音源の定位には、継続中の技術的問題が残っている。音声定位は、たとえば、ロボット工学、エンターテインメント、補聴器、軍事などを含む、多くの異なる分野に適用される可能性があり得る。
[0003]関連する問題領域は、複数の異なる音源からの音声が、オーディオ機器及び信号処理を使用して分別される音声分離を含む。
[0004]2つのマイクロホンを使用して音声を捕捉する両耳信号処理(binaural signal processing、バイノーラルシグナルプロセシング)は、音声定位及び分離に伴う課題が解決される一定の保証を示している。しなしながら、一般的な場の中で反響する音声の複雑な性質により、現在ある手法では、効果の高いソリューションはまだ提供されていない。
概要
[0005]開示されているソリューションは、両耳オーディオデータから直接音成分と反射音成分とを分離するためのBICAM(両耳相互相関自己相関メカニズム[binaural cross-correlation autocorrelation mechanism])プロセスを利用する両耳音声処理システムを提供する。
[0006]第1の態様において、本発明は、両耳オーディオデータからパラメータを推定するための音声処理システムであって、(a)少なくとも2つのマイクロホンを使用して空間音場から捕捉される第1のチャネル及び第2のチャネルを有する両耳オーディオデータを入力するためのシステムと、(b)反射音成分から直接音成分を分離するための両耳信号分析器(binaural signal analyzer、バイノーラルシグナルアナライザ)であって、両耳信号分析器は、第1のチャネルと第2のチャネルの両方に対して自己相関を実施して、一対の自己相関関数を生成することと、第1のチャネルと第2のチャネルとの間の第1層相互相関を実施して、第1層相互相関関数を生成することと、第1層相互相関関数及び選択される自己相関関数から中心ピークを除去して、修正対を生成することと、修正対の間の第2層相互相関を実施して、時間的不整合を求めることと、選択されている自己相関関数の中心ピークが、第1層相互相関関数の中心ピークの時間的位置に一致するように、時間的不整合を使用して、第1層相互相関関数を、選択されている自己相関関数に置き換えることによって、結果としての関数を生成することと、結果としての関数を利用して、直接音成分及び反射音成分の両耳間時間差(interaural time difference:ITD)パラメータ及び両耳間レベル差(interaural level difference:ILD)パラメータを求めることとを行うメカニズム(BICAM)を含む、両耳信号分析器とを備える、音声処理システムを提供する。
[0007]第2の態様において、本発明は、少なくとも2つのマイクロホンを使用して空間音場から捕捉される第1のチャネル及び第2のチャネルを有する両耳オーディオデータからパラメータを推定するためのコンピュータ化された方法であって、第1のチャネルと第2のチャネルの両方に対して自己相関を実施して、一対の自己相関関数を生成するステップと、第1のチャネルと第2のチャネルとの間の第1層相互相関を実施して、第1層相互相関関数を生成するステップと、第1層相互相関関数及び選択される自己相関関数から中心ピークを除去して、修正対を生成するステップと、修正対の間の第2層相互相関を実施して、時間的不整合を求めるステップと、選択されている自己相関関数の中心ピークが、第1層相互相関関数の中心ピークの時間的位置に一致するように、時間的不整合を使用して、第1層相互相関関数を、選択されている自己相関関数に置き換えることによって、結果としての関数を生成するステップと、結果としての関数を利用して、直接音成分及び反射音成分の両耳間時間差(ITD)パラメータ及び両耳間レベル差(ILD)パラメータを求めるステップとを含む、方法を提供する。
[0008]第3の態様において、本発明は、コンピューティングシステムによって実行されると、少なくとも2つのマイクロホンを使用して空間音場から捕捉される第1のチャネル及び第2のチャネルを有する両耳オーディオデータからパラメータを推定する、コンピュータ可読媒体上に記憶されているコンピュータプログラム製品であって、第1のチャネルと第2のチャネルの両方に対して自己相関を実施して、一対の自己相関関数を生成するためのプログラムコードと、第1のチャネルと第2のチャネルとの間の第1層相互相関を実施して、第1層相互相関関数を生成するためのプログラムコードと、第1層相互相関関数及び選択される自己相関関数から中心ピークを除去して、修正対を生成するためのプログラムコードと、修正対の間の第2層相互相関を実施して、時間的不整合を求めるためのプログラムコードと、選択されている自己相関関数の中心ピークが、第1層相互相関関数の中心ピークの時間的位置に一致するように、時間的不整合を使用して、第1層相互相関関数を、選択されている自己相関関数に置き換えることによって、結果としての関数を生成するためのプログラムコードと、結果としての関数を利用して、直接音成分及び反射音成分の両耳間時間差(ITD)パラメータ及び両耳間レベル差(ILD)パラメータを求めるためのプログラムコードとを備える、コンピュータプログラム製品を提供する。
[0009]本発明のこれらの及び他の特徴は、添付の図面及び特許請求の範囲とともに取り上げられる本発明の様々な態様の以下の詳細な説明からより容易に理解されよう。
[0010]図1は、実施形態による音声処理システムを有するコンピュータシステムを示す図である。
[0011]図2は、実施形態によるBICAMプロセスを示す例示的な一連の信号を示す図である。
[0012]図3は、実施形態による両耳オーディオデータの例示的なリード及びラグ遅延を示す図である。
[0013]図4は、実施形態による、ITDを計算するための2つの自己相関関数及び2つの相互相関関数の例を示す図である。
[0014]図5は、実施形態による、反射の振幅が直接音の振幅を超えるハース効果を実証するためにITDを計算するための2つの自己相関関数及び2つの相互相関関数の例を示す図である。
[0015]図6は、実施形態による直接音源及び2つの反射の結果を示す図である。
[0016]図7は、実施形態による、拡散残響尾部が直接音源及び2つの反射に加えられている、図6の結果を示す図である。
[0017]図8は、実施形態による、EC差分項行列の結果を示す図である。
[0018]図9は、実施形態による、直接音、第1の反射、第2の反射のITD位置を示す図である。
[0019]図10は、実施形態による、1つの反射をもう1つの反射と相関付ける結果として得られるサイドチャネルをなくすアルゴリズムの実施を示す図である。
[0020]図11は、実施形態によるBICAMプロセスを利用するシステムを示す図である。
[0021]図12は、実施形態によるBICAMプロセスの概観を与えるフローチャートである。
[0022]図13は、実施形態による音声分離のためのBICAMプロセスの拡張を示す図である。
[0023]図14は、実施形態による、750Hzの中心周波数を有する聴覚帯域の等化/相殺(Equalization/Cancellation、イコライゼーション/キャンセレーション)メカニズムを使用する音源分離の一例を示す図である。
[0024]図15は、実施形態によるEC選択メカニズムの結果を示す図である。
[0025]図16は、実施形態による音声分離を使用して男性の声が抽出されている例示的な事例を示す図である。
[0026]図17は、実施形態による両耳活動パターン(binaural activity pattern、バイノーラルアクティビティパターン)を示す図である。
詳細な説明
[0027]図面は必ずしも原寸比例とは限らない。図面は、概略表現にすぎず、本発明の特定のパラメータを表現するようには意図されていない。図面は、本発明の特定の実施形態のみを描写するようには意図されておらず、それゆえ、本発明の範囲を限定するものとして考えられるべきではない。図面において、同様の参照符号は同様の要素を表す。
[0028]図1における例示的な実施形態に示すように、本発明は、両耳オーディオデータ26を処理し、直接音源位置情報28及び/又は両耳活動パターン情報30を生成する両耳音声処理システム18を有するコンピュータシステム10を用いて実装することができる。両耳オーディオデータ26は、マイクロホンのアレイ32(たとえば、2つ以上)を介して、空間音場34、すなわち、部屋、客席、空き領域のような遮音囲い内で1つ又は複数の音源33から捕捉される。空間音場34は、残響を受ける任意のスペースを含み得る。
[0029]両耳音声処理システム18は、一般的に、両耳オーディオデータ26を処理して両耳間時間差(ITD)21及び両耳間レベル差(ILD)23の情報を生成するためにBICAM(両耳相互相関自己相関メカニズム)プロセス45を利用する両耳信号分析器20と、ITD21及びILD23の情報を、特定されるべき直接音源位置情報28に利用する音声定位システム22と、ITD21及びILD23の情報を利用して、たとえば、場34内の音源を分別する両耳活動パターン30を生成する音源分離システム24とを含む。音源定位システム22及び音源分離システム24はまた、本明細書において記載されるように、反復して利用されてもよい。記載されているシステム及び方法は、概して両耳オーディオデータ26を処理するものとして記載されているが、任意のマルチチャネルオーディオデータに適用されてもよい。
[0030]概して、音源33と受信機(たとえば、マイクロホン32)との間の経路は、インパルス応答によって数学的に記述することができる。無響環境において、インパルス応答は、音源と受信機との間の直接経路を表す単一のピークから構成される。一般的に自然条件において、直接経路のピーク(直接音源を表す)及び追加のピークが、直接音ピークに対して時間的に遅延して発生し、これは、壁、床及び他の物理的境界から反射される音声を表す。反射が発生する場合、これは、室内インパルス応答として参照されることが多い。早期反射は、一般的に時間的にはっきりと区別できる(したがって、各反射について単一のピークによって表すことができる)が、後期反射は、拡散する性質があり、不鮮明になって、連続的なノイズ様の指数関数的に減衰する曲線、いわゆる後期残響になる。この現象は、部屋型の遮音囲い内では、ほぼ無数の反射の組み合わせが、様々な壁から跳ね返る可能性があるために観測される。
[0031]音源33と複数の受信機との間のインパルス応答は、マルチチャネルインパルス応答と呼ばれる。音源と、人間の頭部の2つの耳(又は、両耳の人体模型、2つのマイクロホンが人体模型の耳入り口に配置されている)との間の経路は、マルチチャネルインパルス応答の特別な事例、いわゆる両耳室内インパルス応答である。マルチチャネル室内インパルス応答の1つの興味深い態様は、直接音信号及び反射の空間位置を、直接音源及び反射が受信機(たとえば、マイクロホン32)に到達する時間(及び/又は複数の受信機の間のレベル差)から計算することができることである。両耳室内インパルス応答の場合、空間位置(方位角、仰角及び互いに対する距離)は、両耳間時間差(ITD)及び両耳間レベル差(ILD)並びに直接音からの各反射間の遅延から求めることができる。
[0032]図2は、BICAMプロセス45を実施するための例示的な実施例及び関連方法を示す、一連の時間ベースのオーディオシーケンス対40、42、44、及び46を示す。第1のシーケンス対40は、両耳オーディオデータ26の左自己相関信号及び右自己相関信号を示す。右残響信号41が、左信号に対してわずかに遅延していることが見てとれる。BICAMプロセス45の第1のステップは、左信号の自己相関関数Rxx(m)及び右信号の自己相関関数Ryy(m)を計算することである。見てとれるように、たとえ直接信号がITDによって横移動されたとしても、左信号の中心(すなわち、メイン)ピークと右信号の中心ピークとの間に両耳間時間差(ITD)は表れない。次に、42に示すように、相互相関関数が計算され、44において、自己相関関数のうちの選択された一方が、相関関数と相互相関される。最後に、46において、相互相関関数が、自己相関関数と置き換えられる。このプロセスを、ステップ1〜4としてさらに詳細に説明する。
[0033]ステップ1:BICAMプロセス45は、最初に、左耳信号及び右耳信号(すなわち、チャネル)40の自己相関関数を求める。自己相関関数のサイドピーク41は、早期室内反射の位置及び振幅に関する情報を含む(自己相関関数は対称であるため、関数の右サイドのみが示されており、中心ピーク43は左端のピークである)。サイドピーク41はまた、信号の周期性によっても発生し得るが、一般的な室内反射は左耳信号と右耳信号とについて異なる時点において発生し、周期性特有のピークは左耳信号と右耳信号とについて時間的に同じ位置を有するため、これらの周期性特有のピークは一般的な室内反射から分離することができる。左耳自己相関関数(Rxx)及び右耳自己相関関数(Ryy)に伴う問題は、それらが互いに対するそれらの時間的位置整合(内部遅延)に関する情報を有しないことである。定義によれば、自己相関関数の中心ピーク43(主に直接音源信号を表す)は、0秒において中心に位置する。
[0034]ステップ2:左耳自己相関関数及び右耳自己相関関数のメイン中心ピークが直接音信号の両耳間時間差(ITD)(音源の方位角位置を決定づける)を示すように、両方の自己相関関数を位置整合させるために、ステップ2は、一方の側における反射(この実施例においては左耳信号)の位置が、左耳の直接信号及び右耳の直接信号について固定であるという事実を利用する。プロセス45は、室内反射の位置を、左耳の直接音信号と比較するために、左耳の自己相関関数を取得する。その後、室内反射の位置を、右耳の直接音信号と比較するために、左耳信号と右耳信号との間の相互相関関数が取得される。その結果、自己相関関数及び相互相関関数のサイドピークは同じ位置を有することになる(信号44)。
[0035]ステップ3:「第2層相互相関関数」と称される別の相互相関関数RRxx/Rxyを使用して、時間的不整合が計算される。この作業を行うために、メインピークをウィンドウイングで出すか、又は、そのピークをゼロに低減することによって、メインピークの影響がなくされる。この事例において、ステップ44は、自己/相互相関関数の、y軸の右の部分のみを使用する(すなわち、左サイドチャネル情報は除去される)が、メインピークが計算に重み付けされない限り、修正アルゴリズムによって両サイドが使用されてもよい。第2層相互相関関数のメインピークの位置kが、相互相関関数のサイドピークを自己相関関数に位置整合させるために、相互相関関数がシフトされなければならない時間シフトτを決定づける。
[0036]ステップ4:自己相関関数のメインピークが相互相関関数Rxyのメインピークの時間的位置に一致するように、(第1層)相互相関関数Rxyが自己相関関数Ryyに戻される。この時点で、直接信号及び反射の両耳間時間差(ITD)を、この関数から個々に求めることができる。両耳活動パターン(たとえば、図17参照)を確立するために、両方の時間的に整合した自己相関関数に対して、進行中の両耳間相互相関関数を実施することができる。
[0037]両耳活動パターンは、一方の軸上に時間的経過を示し、第2の軸上に(たとえば、ITD)によって直接音源及び各反射の空間位置を示す2次元プロットである。強度(振幅)は一般的に、図17に示すように、第3の軸上に、色でコード化されて、又は、その両方の組み合わせで示されている。
[0038]図17に示す両耳活動パターンにおいて、直接音、ノイズ信号のHRTF(頭部伝達関数)が−45の方位角に設定されており、反射の方位角は45度及び25度であった。直接音と2つの反射との間の刺激間隔(inter-stimulus intervals:ISI)は、4ms及び6msであった。第1の反射は、直接信号と比較して0.8の振幅を有していた(両方の信号がHRTFによってフィルタリングされる前)。第2の反射の振幅は、直接信号と比較して0.4であった。このモデルは、直接HRTF分析について見出される−20tapsと比較して、−21tapsにおいて直接音の位置kを推定する。反射のITDは、直接HRTF分析において見出される20tapsと比較して、20tapsに対して推定された。結果として、BICAMプロセスは、両方の信号の方向をかなり正確に予測した。
[0039]BICAMプロセス45のさらなる特徴は、音源に近い音声の事前の知識なしに複数の受信機において捕捉される進行中の残響信号からのマルチチャネル室内インパルス応答を推定するために使用することができることである。抽出された情報は、(1)直接音信号の定位に焦点を当て、反射の物理的エネルギーからの情報がエラーに寄与することを回避して、音源の物理的位置を推定し、(2)たとえば、部屋の音響特性を理解し、又は、音質を改善するために反射をフィルタリング除外するためにこの情報を使用するために、直接音源に関する情報に加えて、反射の位置、遅延及び振幅を求めるために使用することができる。
[0040]以下において、BICAMプロセス45をさらに詳細に説明するための単純な直接音/反射パラダイムを与える。(正規化)両耳間相互相関(interaural cross-correlation:ICC)アルゴリズムが、以下のように音源の両耳間時間差(ITD)を推定するために、両耳モデルにおいて一般的に使用される。


式中、tは時間であり、τは内部遅延であり、yは左耳信号であり、yは右耳信号である。変数t’は分析窓の開始時間であり、Δτはその継続時間である。ICCメカニズムは、直接音のITDと反射のITDの両方を抽出するため、反射の存在下で直接音源の両耳間時間差を推定することは困難である。一般的に、直接音及びその反射の相互相関ピークは、重なり合って単一のピークを形成し、それゆえ、ITDはもはや、それらの個々のピーク位置を使用して分離することはできない。たとえこれら2つのピークが十分にはっきりと区別できるように分離される場合であっても、ICCは対称プロセスであり、因果関係を保存しないため、ICCメカニズムは、いずれのピークが直接音に属し、いずれが反射に属するかを解決することができない。
[0041]従来の手法において、直接音のITDは、3段階プロセスにおいて抽出されていた。第1に、リード/ラグ遅延及び振幅比を求めるために、自己相関が左チャネル及び右チャネルに適用された。自己相関対称性が、リード又はラグのいずれがより高い振幅を有するかを、直接的に求めることを妨げるため、リード/ラグ振幅比の決定は特に困難であった。抽出されたパラメータを使用して、ラグを除去するためにフィルタが適用された。リードのITDがその後、両耳間相互相関モデルを使用して、フィルタリングされた信号から計算された。
[0042]自己相関(AC)プロセスは、直接音と反射との間の遅延Tを、非常に容易に求めることを可能にする。
t1(t)=sd1(t)+sr(t)=sd1(t)+r・sd1(t−T) (2)
式中、s(t)はリードであり、s(t)はラグであり、Tは遅延時間であり、rは、周波数に依存しない、位相シフトのない反射係数であるラグ−リード振幅比(Lag-to-Lead Amplitude Ratio:LLAR)である。インデックス1は、左チャネルを示す。自己相関はまた、右信号にも適用することができる。
t2(t)=sd2(t)+sr(t)=sd1(t)+r・sd2(t−T) (3)
[0043]ITD計算の問題は、左チャネルと右チャネルとの自己相関関数が、時間的に位置整合されていないことである。両方のチャネルのリード/ラグ遅延(それらのITDが異なるため、一般的に異なっている、図3参照)を求めることは可能であるが、ACは、リード及びラグが両耳間でどの程度位置整合されているかを示さない。
[0044]BICAMプロセス45によって可能にされる手法は、選択されるチャネル(たとえば、左チャネル)内の反射信号を定常基準点として使用し、その後、(i)自己相関方法を使用して同側直接音と反射との間の遅延T(d1−r1)を計算し、(ii)両耳間相互相関方法を使用して反対側直接音と反射との間の遅延T(d2−r1)を計算することである。その後、両方の値を減算することによって、ITDを求めることができる。
ITD=T(d2−r1)−T(d1−r1) (4)
代替的に、直接音のITDは、チャネルを切り替えることによって推定することができる。
ITDd*=T(d2−r2)−T(d1−r2) (5)
[0045]両方の値の間の一致を使用して、このキューの品質を測定することができる。同じ方法を使用して、反射のITDを求めることができる。
ITD=T(r2−d1)−T(r1−d1) (6)
ここでも、直接音のITDは、チャネルを切り替えることによって推定することができる。
ITDr*=T(r2−d2)−T(r1−d2) (7)
[0046]この手法は、直接音源からのキューを抽出するために反射の情報を抑制することに焦点を当てている、以前のモデルとは根本的に異なる。聴覚系は早期反射及び残響場からの情報を抽出して、遮音囲いの品質を判定することができるため、ここで利用されているBICAMプロセス45は、人間の知覚をより良好に反映する。人間は、反射パターンを直接的に認識して得ることはできないかもしれないが、これらのパターンに基づいて部屋を分類することには非常に長けている。
[0047]図4は、1−s白色雑音バーストを使用してITDを計算するための2つの自己相関関数及び2つの相互相関関数の例を示す。この実施例において、直接音は、0.25msのITDを有し、反射は、−0.5msのITDを有する。反射と直接音との間の遅延は5msである。直接音振幅は1.0であり、一方で、反射は0.8の振幅を有する。上述した方法を要して以下の値、すなわち、ITD=0.25ms、ITDd*=0.25ms、ITD=−0.5ms、ITDr*=−0.5msが正確に計算された。
[0048]対応するサイドピークaのピーク振幅を比較することによって、両耳間レベル差(ILD)が同様に計算される。直接音のILDは、以下のように計算される。
ILD=20・log10=a(d2/r1)/a(d1/r1) (8)
又は、代替的に
ILDd*=20・log10=a(d2/r2)/a(d1/r2) (9)
同様に、反射のILDは、以下のように2通りに計算することができる。
ILD=20・log10=a(d1/r1)/a(d1/r2) (10)
又は
ILD=20・log10=a(d2/r1)/a(d2/r2) (11)
[0049]第2の実施例は、6dBの両耳間レベル差を有する反射を含む。このとき、ラグ振幅はリード振幅よりも高い。この事例において、聴覚系が直接音位置を定位することが可能であることは、ハース効果と呼ばれる。図5は、この条件についての自己相関/相互相関関数を示す。モデルは、以下のパラメータ、すなわち、ITD=0.5ms、ITD=−0.5ms、ILD=−0.2028dB、ILDd*=−0.3675dB、ILD=−6.1431dB、ILDr*=−6.3078dBを抽出した。
[0050]この手法の1つの利点は、左チャネル及び右チャネルの対応するサイドピークを識別することができる限り、複数の反射を処理することができることである。サイドピークを識別するための1つの単純なメカニズムは、第1の反射のパラメータを抽出するために、各チャネル内の最高のサイドピークを探し、その後、第2の反射のパラメータを求めるために、第1のサイドピークよりも大きい遅延を有する、次に高いサイドピークを探すことである。音声伝播の逆二乗の法則に起因して、室内反射は、直接音源からの遅延に伴って一般的に振幅が低減するため、この手法は正当と認められる。物理空間において得られる記録を含むより複雑な反射パターンを処理するために、代替的な手法が使用されてもよい。
[0051]図6は、直接音源及び2つの反射の結果を示す。以下のパラメータが選択された。直接音源について、0.0msのITD、0dBのILD、1の振幅、第1の反射について、−0.5msのITD、4dBのILD、0.8の振幅、4msのリード/ラグ遅延、第2の反射について、0.5msのITD、−4dBのILD、0.5の振幅、6msのリード/ラグ遅延。BICAMプロセス45は、以下のように、これらのパラメータを推定した。0.0(0.0)msのITD、0.1011(0.0089)dBのILD、第1の反射について、−0.5(−0.5)msのITD、3.9612(4.0534)dBのILD、第2の反射について、0.5msのITD、−3.8841(−4.0234)dBのILD。(代替形態である「*」で示されている方法の結果が、括弧内に与えられている。)
[0052]図7に示す前出の実施例において、拡散残響尾部が直接音源及び2つの反射に加えられいる。残響尾部の開始遅延は、10msに設定された。残響時間は、6dBの直接−残響尾部エネルギー比で0.5秒であった。追加されている残響尾部は別として、刺激パラメータは前出の実施例と同じままとした。BICAMプロセス45は、以下のパラメータ、すなわち、0.0(0.0)msのITD、−0.1324(−0.2499)dBのILD、第1の反射について、−0.5(−0.5)msのITD、3.5530(3.6705)dBのILD、第2の反射について、0.5msのITD、4.0707(−4.2875)dBのILD(ここでも、代替形態の「*」で示されている方法の結果が括弧内に与えられている)を抽出した。
[0053]前述のように、直接音源及び反射の振幅の推定値は、以前の手法を使用しては困難であった。たとえば、従来のモデルにおいて、振幅は、ITDを計算するための中間ステップとしてラグ除去フィルタを計算するために必要とされていた。本発明の手法は、信号振幅を事前に知ることなくITDを推定することができるため、ITDを事前に知ることを必要とするより良好なアルゴリズムを使用して、信号成分振幅を計算することができる。その明白な手法とは別に、本手法はまた、複数の反射を処理することができることによる改善でもある。振幅推定は、マスクされた信号を検出し、ITD/ILD値の様々な組み合わせについての種々の項から成る行列を計算する拡張等化/相殺ECモデルに基づく。そのような手法は、行列内のトラフを見つけることによって、信号の検出に使用された。
[0054]同様の手法を使用して、信号成分の振幅を推定することができる。EC手法及び既知のILD/ITD値を使用することによって、この混合から特定の信号成分が取り除かれる。その後、混合信号と、取り除かれた成分のない混合信号との差から、信号成分振幅を計算することができる。このプロセスは、すべての信号成分について繰り返され得る。正確な振幅値を計算するために、左チャネルから右チャネルを減算することによって、信号成分がなくなるだけでなく、他の成分も加わるため、平方根の項が使用されなければならない。他の成分は無相関化されるため、加わる振幅は2倍振幅あたり3dBであり、一方で、信号成分を取り除くことは、2倍振幅あたり6dBを伴う2つの相関信号を使用するプロセスである。
[0055]図8は、EC差分項行列の結果を示す。行列は、負の差分行列についてプロットされており、そのため、トラフはピークとして現れており、より容易に視覚化されることを留意されたい。3つの局所的ピークが、3つの信号成分、すなわち、直接音、第1の反射、及び第2の反射の各々について、組み合わせITD/ILD値において予測されるものとして現れている。これらの成分の測定トラフ値は、1.0590、1.4395であり、これらは、1.5502である、ILD軸に沿ったすべての測定値のメジアンから減算されている(図9参照)。これは、相対振幅、すなわち、ad=0.4459、arl=0.3406、ar2=0.2135又はarl/ad=0.7638、ar2/ad=0.4788を計算するために行われ、これらはそれぞれ、arl/ad及びar2/adの0.8及び0.5の設定値に非常に近い。
[0056]以下のコードセグメントは、交差項からもたらされ、個々の反射には起因しないが、これらに間違えられ、誤解を招くおそれがある結果をもたらす可能性がある、相互相関/自己相関関数のサイドピークをなくすための例示的なメカニズムを提供する。このプロセスは、交差項が対応するサイドピークの差分項として現れるという事実を利用する。たとえば、400taps及び600tapsのリード/ラグ遅延における2つの反射は、200tapsにおいて交差項を導入することになる。この情報を使用して、アルゴリズムは、最も高い遅延から開始して交差項を再帰的に除去する:
1 Y=xcorr(y,y,800); % 信号yについて自己相関を求める
2 b=length(Y);
3 M=zeros(b,b); % 交差項計算行列
4 a=(b+l)./2;
5 Y=Y(a:b); % 自己相関関数の右サイドを抽出する
6 Y(1)=0; % メインピークを除去する

8 for n=b:−l :2 % 最高の係数から開始して最低の係数へ
9 M(:,n)=Y(n).*Y; % 可能性のある交差項を計算する...
10 maxi=max(M(n−l :−l :2,n)); % ...そして、最も大きい最大値を見つける
11 if maxi>threshold % 最大値が設定閾値を超える場合に交差項を相殺する
12 Y(2:ceil(n./2))=Y(2:ceil(n./2))−2.*M(n−l :−l :floor(n./2)+l,n);
13 end
14 end
[0057]図10は、アルゴリズムの実施を示す。上部パネルは、単一チャネル直接信号及び2つの反射(400taps及び600tapsの遅延にある、直接信号の0.8及び0.5の振幅)の自己相関関数の右サイドを示す。下部パネルは、同じ自己相関関数を示すが、交差項ピークが除去されている。交差項ピークの振幅は取り除かなければならず、分析的に測定することはできないことに留意されたい。理論的には、振幅は、上記において説明されている方法を使用して推定することができるが、このとき、交差項はもはや、ITD及びILDを求める前に取り除くことはできない。式4及び5を使用して、反射の明白なピーク並びに同サイドチャネル及び反対サイドチャネル内のメインピークの間の遅延を直に求める代わりに、相互相関アルゴリズムを使用して、これを達成することができる。
[0058]完全なシステムの例示的な実施例が、図11に示されている。最初に、60において、遮音囲い(たとえば、空間音場)内で両耳オーディオデータが記録及び捕捉される。62において、両耳オーディオデータを入力するためにオーディオ増幅器が使用され、64において、任意の必要な前処理、たとえば、フィルタリングなどが行われる。66において、BICAMプロセス45が両耳オーディオデータに適用され、66において、音声キュー又は特徴、たとえば、残響直接信号、直接信号特徴、残響信号特徴などが抽出される。最後に、70において、音声キューを、関連するアプリケーション、たとえば、フロントエンド音声認識器又は補聴器、音声定位若しくは音楽特徴抽出システム、構造的品質/音声記録評価システムなどに入力することができる。
[0059]図12は、BICAMプロセス45の概観を与えるフローチャートを示す。S1において、両耳音声処理システム16(図1)が、少なくとも2つのマイクロホンから空間音場34内の音声を記録する。S2において、システム16は、次の時間系列について(たとえば、5秒サンプルについて)音声を捕捉及び分析し始める。S3において、オーディオ信号の各チャネルについて自己相関が実施され、チャネルの間で相互相関が実施される。S4において、前出の関数の各々から一方のサイド及び中心ピークが除去され、S5において、結果を比較する相互相関の別のセットを実施するために出力が使用される。S6において、直接音のチャネル間/両耳間信号パラメータが決定され、S7において、反射パターンの信号パラメータが決定される。S8において、信号の終わりに達したか否かについて判定が行われる。はいである場合、プロセスは終了し、そうでない場合、S9において、システムは記録又は次の時間系列に移動する。
[0060]このシステムは、空間−時間フィルタを使用して、進行中の信号の直接信号部分と残響信号部分との聴覚特徴を分離する。進行中の信号とは、残響尾部(たとえば、発話母音、音楽)の継続時間程度である継続時間にわたって準定常であり、ショットガン音のような身近にインパルス信号を含まない信号として定義される。この相互相関アルゴリズムは、組み合わせ自己相関/相互相関アルゴリズムに加えて実施されるため、第2層相互相関として参照される。第1層について、自己相関/相互相関関数シーケンスの以下のセットが計算される。
xx(m)=E[xn+m x*] (12)
xy(m)=E[xn+m y*] (13)
yx(m)=E[yn+m x*] (14)
yy(m)=E[yn+m y*] (15)
式中、Rは相互相関シーケンスであり、E{...}は予測値演算子である。変数xは左耳信号であり、yは右耳信号である。変数mは−M〜Mに及ぶ内部遅延であり、nは離散的な時間係数である。実際には、Mの値は、対象の反射パターンの継続時間以上である必要がある。変数Mは、インパルス応答全体又はそのサブセットを含み得る。実際には、10msと40msとの間の値が良好に機能した。48kHzのサンプリングレートにおいて、このとき、Mは480又は1920係数(taps)である。変数nは、0〜信号継続時間Nの範囲をカバーする。計算は、より短いセグメントにわたって進行中の分析として実施することができる。
[0061]次に、プロセスは、1つのチャネルにおける自己相関及び反対のチャネルによる相互相関の第2のレベルの相互相関分析に続く。この手法は、両方の関数(自己相関関数及び相互相関関数)のサイドピークを比較することである。これらは互いに相関付けられ、それらを時間的に位置整合させることによって、両方のメインピークの間のオフセットが分かって、そのITD、及び、それゆえ、直接音のITDが決定される。方法は、交差項(反射の間の相関)が一定の限度内である場合に機能する。これが機能するようにするために、τ=0におけるメインピークはウィンドウイングで出されるか、又は、ゼロに設定されなければならず、自己相関/相互相関関数の左サイドが除去されるか又はゼロに設定されなければならない。変数wは、wよりも小さい係数をゼロに設定することによってメインピークを除去するための窓の長さである。この適用のために、wについて、たとえば100の値が、w(約2ms)について良好に機能する。

[0062]次に、「ハット」バージョンを使用した第2層相互相関を実施することができる。このとき、直接信号の両耳間時間差(ITD)kは以下のようになる。

[0063]反対のチャネルを使用して、ITDも計算される。

[0064]安定性の理由から、両方の方法を組み合わせることができ、その後、2つの第2層相互相関項の積からITDが計算される。

[0065]次に、反射k、k*、及びk−のITDパラメータを導出するために、同様の計算を行うことができる。基本的に、同じ計算が行われるが、反射のITDを推定するために時間的に逆の順序で行われる。この方法は、1つの反射又は1つの優勢な反射について良好に機能する。複数の早期反射の事例において、たとえ直接音のITDを依然として抽出することができるとしても、これは機能しない場合がある。

[0066]また、反対のチャネルによる以下の代替的な方法、

[0067]及び、以下の組み合わせ方法を使用する。

[0068]ITDを計算するために使用される自己相関/相互相関シーケンスの左サイドを使用して同じ結果が生成され得ることに留意されたい。分析の結果は複数の様式で使用することができる。直接信号のITD kを使用して、人間が聴くのと同様に(すなわち、先行音効果、第一波面の法則)直接音源に基づいて音源を定位することができる。さらなる分析を使用して、ILD及び振幅推定を併合することができる。また、本明細書において説明されている交差項除去プロセスは、第2層相関モデルとともに使用することができる。反射パターンは、以下のように分析することができる。直接信号のITD kを使用して、左チャネル及び右チャネルを表す2つの自己相関関数Rxx及びRyyのうちの一方をシフトさせることができる。

[0069]次に、時間的に位置整合されている自己相関関数に対する進行中の相互相関を実施して、反射のパラメータを推定することができる。自己相関関数の左サイドは、分析の前に除去されるべきである。
音源分離
[0070]以下の論述は、マルチチャネルオーディオデータから、2つ以上の位置特定されている音源を分離するための音源分離システム24(図1)を説明する。より詳細には、音源分離システム24は、時間及び周波数において巨視的に重なっているさらに2つの音源を分離するための空間音源分別プロセスを利用する。空間音源分別プロセスにおいて、ここで提案されているもののように、各音源は、それらを互いから分離するための基準として使用することができる固有の空間位置を有する。一般的な方法は、各チャネルの信号を分離して時間−周波数要素から成る行列にすることである(たとえば、周波数について信号を分析するためのフィルタバンク又はフーリエ変換及び時間について信号を分析するための各周波数帯域における時間窓の使用)。複数のオーディオ信号(たとえば、競合する音声)が巨視的に重なり合っているが、それらは巨視的には部分的にのみ重なり合っていると仮定され、それによって、所望の信号及び競合する信号が分離して存在する時間−周波数要素を見出すことができ、したがって、競合する信号部分が無効にされることが可能である。その後、たとえば、重畳加算法を使用して、残りの時間−周波数要素(所望の信号を含む)をともに加算し戻すことによって、所望の信号が再構築される。
[0071]ここで提案されているプロセスは、(1)各音源を含む要素を見出すために等化/相殺(Equalization/Cancellation:EC)方法を使用すること、及び(2)EC分析の前に各音源の室内反射を除去することによって、既存の両耳音源分別モデルを改善する。(1)と(2)とを組み合わせることによって、特に残響信号について、既存のアルゴリズムのロバスト性が改善される。
[0072]図13は、改善音源分離システム24に対するBICAMプロセス45(又は他の音源定位モデル)の拡張を示す。
[0073]現行のシステムと比較して音源分離システム24の性能を改善するために、いくつかの重要な段階が導入されている。
1.所望の音源の信号成分を含む時間/周波数ビンを選択するために、音源分離システム24は、両耳間コヒーレンスに基づくキュー選択方法を使用する代わりに、Durlachの等化/相殺(EC)モデルを利用する。実効的には、2つの耳が表す2チャネルセンサの耳垂が、信号をフィルタリング除外するよりもはるかにより効果的に信号を拒絶するという事実を利用する、ヌルアンテナ手法が使用される。この手法は、計算的にもより効率的である。ECモデルは、音源分別に成功裏に使用されているが、この手法は、以下の点において新規である。
(a)ECモデルは、無響信号だけでなく、室内インパルス応答とともに使用される、また、
(b)本明細書において説明されている、はるかにより信頼性の高い定位アルゴリズムであるBICAMプロセス45が、残響信号の処理を可能にするフロントエンドとして使用される。
2.周波数ビン毎に早期反射を除去する代わりに、各音源が、独立したチャネルとして処理される。このとき、
(a)最初に早期反射をフィルタリング除外し、
(b)その後、ECモデルを使用して、このチャネルに属する信号成分を検出する。
[0074]本明細書において説明されている例示的な実施例は、無響録音を有するArchimedesのCDからの音声刺激を使用して作成された。女性の声及び男性の声が44.1kHzのサンプリング周波数において、男性の声が最初の半秒にわたって聞こえ、女性の声が次の半秒にわたって聞こえ、両方の声が最後の1.5秒にわたって聞こえるように、ともに混合されている。女性の声は、「Infinitely many numbers can be com(posed)」と言っており、一方で男性の声は、「As in four, score and seven」と言っている。単純にするために、女性の声は0.45msのITDで左に空間音響化されており、男性の声は0:27msで右に空間音響化されているが、このモデルは、音源を空間音響化するために測定頭部伝達関数を処理することができる。いくつかの実施例において、両方の音源(女性の声と男性の声)が早期反射を含む。女性の声の反射は、−0.36msのITDで1.8msだけ遅延され、男性の声の反射は、0.54msのITDで2.7msだけ遅延される。各反射の振幅は、直接音の振幅の80%まで減衰される。
[0075]残響尾部を含む実施例において、尾部は、各オクターブ帯域における個々の残響時間について設定されている指数関数的に減衰する窓を用いてウィンドウイングで出されている、オクターブフィルタリングされたガウス雑音信号から計算された。その後、このオクターブフィルタリングされたものは、広帯域信号のためにともに加算された。独立した雑音信号が、左チャネル及び右チャネル並びに2つの声の基礎として使用された。この実施例において、残響時間は、0dBの直接対後期残響比ですべての周波数に渡って均一に1秒であった。
[0076]モデルアーキテクチャは以下のとおりである:基底膜及び有毛細胞の挙動が、ガンマトーンフィルタバンクを用いてシミュレートされる。ガンマトーンフィルタバンクは、たとえば、各々が等価矩形帯域幅(ERB)の幅である、36個の聴覚周波数帯域から構成される。
[0077]マスク信号の検出を説明するために、ECモデルが主に使用される。これは、聴覚系が、左耳信号及び右耳信号をマスカの特性へと等化し、一方のチャネルを他方から減算することによって、マスカの影響を相殺するためのメカニズムを有すると仮定する。標的信号に関する情報が、減算の後に残っているものから得られる。等化プロセスについて、マスカは、両耳間時間差及び両耳間レベル差によって空間的に特性化されると仮定される。2つの耳信号はその後、これら2つの両耳間差を補償するために、時間及び振幅において位置整合される。
[0078]モデルは、複数の異なる周波数帯域にわたる時間及び周波数の変動を処理するように拡張することができる。時間及び振幅のジッタの形態の内部雑音が、マスク信号の検出における人間の性能に一致するように等化プロセスを劣化するために使用される。
[0079]図14は、750Hzの中心周波数を有する聴覚帯域におけるデータを使用して、これがどのように達成されるかを示している。各グラフについて、すべての可能なITD/ILD等化パラメータが計算されており、各ビンのデータは、相殺プロセス後のEC振幅の残差を示している。ゼロに近い大きさ(暗色)は、この位置においてITD(水平方向において示す)及びILD(垂直方向において示す)の真の信号値が見出されたため、信号を取り除くのに成功したことを意味する。これは、目標が分離された事例を示す左のグラフ、及び、マスカが分離された事例を示す右のグラフについてのみ可能である。中央パネルに示す目標とマスカとが重なり合っている事例において、ECモデルは異なるILDキュー及びITDキューを有する2つの信号を同時に補償することはできないため、相殺プロセスを成功させることはもはや可能ではない。結果として、0.15の値を有する最低点はもはやゼロに近くなく、したがって、この時間/周波数ビン内に3つ以上の信号が存在する場合、最低点の大きさが指標として使用され得る。本発明のモデルは、1信号ビンを使用し、複数の異なる空間位置にしたがってそれらをグループ化し、マスカ及び標的の位置を求めるために同様のITD/ILD組み合わせにわたって統合する。
[0080]以下の実施例において、ECモデルは、分離された標的成分及びマスカ成分を含む、結合時間/周波数空間内の領域を求めるために使用される。図14とは対照的に、複数の異なるITD組み合わせについてのEC分析が低減され、第2の次元が時間分析に使用される。図15は、EC選択メカニズムの結果を示す。
[0081]左上グラフは、男性の声の選択されるキューを示す。この目的のために、ECアルゴリズムは、両方の信号が互いから減算される前に、男性の声のITDを補償するように設定される。キュー選択パラメータbは以下のように推定される。


式中、x1(n,m)は左オーディオ信号であり、x2(n,m)は右オーディオ信号であり、エネルギーは以下のとおりである。

[0082]変数nは周波数帯域であり、mは時間ビンである。キューはその後、
B=max(b)−b
としてプロットされ、これは、選択キューを0(選択されない)と1(選択される)との間で正規化するための式である。以下の実施例において、Bの閾値はキューを選択するために0.75に設定された。グラフは、選択されているキューが、男声信号と良好に相関することを示している。モデルはまた、偶然に女性の声からの情報も選択するが、女性の声に対応するほとんどのビンは選択されない。
[0083]他の方法と比較したEC手法の主な利点の1つは、キューが、競合する音源のうちの1つに割り当てられる必要はなく、ECモデルが一度に1つの方向のみを標的としているとき、自然にこのアルゴリズムになることである。理論的には、分離されている内部遅延のピーク高さを計算することによって、1つの方向のピークのみを見つけるようにコヒーレンスアルゴリズムを設計することができるが、ECモデルの根底にあるヌルアンテナは、相互相関方法が類似する建設的なビーム形成手法よりもはるかに良好な空間選択性を有することに留意しなければならない。
[0084]図15の右上グラフは、0.75の閾値を使用して左グラフから計算された2値マスクを示す。白色タイルは、左グラフ内のより暗い領域に対応する、選択されている時間/周波数ビンを表す。右グラフの中央パネル及び下部パネルは、全残響信号(中央パネルは男性の声及び女性の声+残響)を示しており、下部パネルは、分離された無響音声信号(灰色曲線)及びECモデルを使用して混合音から抽出された信号(黒色曲線)を示している。一般的に、このモデルはこのタスクを実施することが可能であり、また、残響尾部を著しく除去する。
[0085]次に、早期反射の除去を処理するために、このプロセスが分析された。この目的のために、上記で指定したような早期反射を有するが、後期残響尾部を有しないテスト刺激が試験された。音源分別プロセスの一部として、早期反射は、EC分析の前に全信号から除去される。フィルタ設計は、前の先行音効果モデルから取得された。フィルタは、直接信号と反射との間の遅延T及び直接音と反射との間の振幅比rの値をとり、これらは、BICAM定位アルゴリズムによって、又は、代替的に、先行音効果モデルから推定することができる。ラグ除去フィルタが、全信号からラグを取り除くことができる。

[0086]このデコンボリューションフィルタhは迅速に収束し、わずかなフィルタ係数のみが、全信号からラグ信号を効果的に除去するために必要とされる。理想的な事例において、フィルタ係数Nの数は無限大に近づき、全信号からラグを完全に除去する無限インパルス応答(IIR)フィルタが生成される。
[0087]フィルタの動作モードはかなり直感的である。主な係数δ(t−0)は信号全体を通し、一方で、第1の負のフィルタ係数−rδ(t−T)は、信号の遅延コピーを減算することによってラグを取り除くように調整されている。しかしながら、ラグはまた、フィルタを通じて処理され、第2の負のフィルタ係数が、リードと比較して2Tだけ遅延されている別の信号を引き起こすことに留意しなければならない。この新たに生成された信号成分は、第3の正のフィルタ係数によって補償されなければならず、以下同様である。
[0088]図15は、男性の声を抽出するための手順の結果を示している。左上パネルは、男性の声の早期反射がEC分析の前に除去されていないテスト条件を示している。分析は非常に不完全である。特に、信号は、いくつかの周波数帯域、特に、ERB帯域6〜11(220〜540Hz)において正確に検出されていない。低い周波数の帯域1〜4において、信号は常に検出されており、女性の声はもはや拒絶されない。その結果として、2値マップは、指定周波数において相当のエラーを含み(右上グラフ)、再構築された男声信号は、元の信号と良好に相関しない(右上図の部分パネルと、左上図の部分パネル内の曲線とを比較されたい)。
[0089]図15の下行内の2つのグラフは、男性の声の早期反射を除去するために全信号にフィルタが適用された条件を示す。女声信号もフィルタによって影響を受けているが、この事例においては、女性の声及び男性の声が、自然条件において観測されるものとは空間特性が異なる早期反射を有するため、フィルタ係数はその早期反射の設定に一致しないことに留意されたい。
[0090]その結果として、フィルタは女声信号を何らかの様式で変化させるが、その早期反射を系統的に除去しない。本発明では差し当たってこの信号を背景雑音として処理するため、本発明が男声信号の信号特性を改善することができる限り、その特性が変化することについては過度に気にしない。中央行の左グラフが示すように、男声信号を含む時間/周波数ビンの識別は、ここで、ラグが除去されなかった前出の条件、図15左上パネル参照、と比較して、はるかにより良好に機能する。特に、男声信号が分離して提示されている、始めにある実線の白色ブロックに留意されたい。この結果として、中央行の右グラフに示すように、2値マップがはるかにより正確になる。ラグ除去フィルタを男声設定で適用することで、女声信号を正確に拒絶することは妨げられないことに留意することが重要である。女性の声のみの領域(0.5〜1.0秒)において選択される時間/周波数ビンはごくわずかな事例のみである。
[0091]ここでも、このプロセスは、ラグ除去フィルタが適用されない場合よりも、混合音(1.0〜2.5秒)からの男声信号の抽出においてはるかに良好に機能する(同じ図の右上グラフと比較されたい)。ここで、女声信号の早期反射を除去するのに最適であるラグ除去設定が採用される場合のモデル性能を試験する。予測されるように、EC分析は男性の声を抽出するように設定され、一方でラグ除去フィルタは女性の声の早期反射を除去するために適用されるため、モデルアルゴリズムはもはや良好に機能しない。図15の2つの下部グラフは、正確に識別された時間/周波数ビンが非常に散乱しており、多くの周波数ビンにおいて、信号は検出されないことを示している。
[0092]次のステップは、早期反射と後期残響の両方が信号に加えられるテスト条件を分析することであった。図16は、男性の声が抽出された事例を示している。2つの上部パネルは、ECモデル分析の前に早期反射が除去されなかった事例を示している。ECモデルは、ERB帯域8と16との間の多くの中間周波数ビンを見過ごしている。たとえば、0.2sにおける最初の出だしにおいて、キューはもはや1に近くなく(左パネル)、それゆえ、対応する時間/周波数は選択されない(右パネル)ことに留意されたい。2つの下部パネルは、男性の声に対応する早期反射が除去された条件を示している。ここで、中間周波数ビンが再び、左パネル内のw領域と右パネル内の白色領域が再び現れるものとして選択されていることに留意されたい。この信号を聴くと、遅延が除去されており、声がはるかにより明瞭に聞こえることが分かる。
[0093]音源定位及び分別処理は、繰り返し実施することができ、それによって、小さい音声セグメント(たとえば、10ms)が、音源及び反射の空間位置を特定するために使用され、その後、音源分別アルゴリズムが、反射及び所望の音源を除去し、音源位置のより正確な計算及び所望の音源の分離を得るために、同じ小さいサンプル(時間的に後続するもの)に対して実施される。両方のプロセス(定位及び分別)からの情報がその後、次の時間窓を分析するために使用される。反復プロセスは、音源がそれらの空間位置を経時的に変化させる事例にも必要である。
[0094]再び図1を参照すると、音声処理システム18の態様は、たとえば、コンピュータ可読記憶媒体上に記憶されているコンピュータプログラム製品を用いて、1つ又は複数のコンピューティングシステム上に実装されてもよい。コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を保持及び記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体はたとえば、限定ではないが、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、又は上記の任意の適切な組み合わせであってもよい。コンピュータ可読記憶媒体のより特定的な例の包括的でないリストは、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み出し専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、パンチカード、又は、命令を記録されている溝の中の***構造のような機械的に符号化されているデバイス、及び、上記の任意の適切な組み合わせを含む。コンピュータ可読記憶媒体は、本明細書において使用されるものとしては、無線波、又は、他の自由に伝播する電磁波、導波路若しくは他の伝送媒体(たとえば、光ファイバケーブルを通過する光パルス)を通じて伝播する電磁波、又は、ワイヤを通じて伝送される電気信号のような、過渡的信号自体として解釈されるべきではない。
[0095]本明細書において記載されているコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスへ、又は、ネットワーク、たとえば、インターネット、ローカルエリアネットワーク、広域ネットワーク及び/若しくはワイヤレスネットワークを介して外部コンピュータ若しくは外部記憶デバイスへダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス送信、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び/又はエッジサーバを含んでもよい。各コンピューティング/処理デバイス内のネットワークアダプタカード又はネットワークインターフェースが、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体内に記憶するために、コンピュータ可読プログラム命令を転送する。
[0096]本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Java(登録商標)、Python、Smalltalk、C++などのようなオブジェクト指向プログラミング言語、及び、「C」プログラミング言語若しくは同様のプログラミング言語のような従来の手続き型プログラミング言語を含む、1つ又は複数のプログラミング言語の任意の組み合わせで書かれているソースコード若しくはオブジェクトコードのいずれかであってもよい。コンピュータ可読プログラム命令は、その全体をコンピュータ上で、部分的にコンピュータ上で、独立型ソフトウェアパッケージとして、部分的にコンピュータ上でかつ部分的に遠隔デバイス上で、又はその全体を遠隔デバイス若しくはサーバ上で実行されてもよい。後者のシナリオにおいて、遠隔デバイスが、ワイヤレス、ローカルエリアネットワーク(LAN)若しくは広域ネットワーク(WAN)を含む任意のタイプのネットワークを通じてコンピュータに接続されてもよく、又は、接続は、外部コンピュータに対して(たとえば、インターネットサービスプロバイダを使用してインターネットを通じて)行われてもよい。いくつかの実施形態において、たとえば、プログラム可能論理回路、フィールドプログラマブルゲートアレイ(FPGA)、又はプログラム可能論理アレイ(PLA)を含む電子回路が、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をカスタマイズすることによって、コンピュータ可読プログラム命令を実行することができる。
[0097]本発明の態様は、本明細書において、本発明の実施形態による、方法、装置(システム)及びコンピュータプログラム製品のフローチャートの図及び/又はブロック図を参照して説明されている。フローチャートの図及び/又はブロック図の各ブロック、並びに、フローチャートの図及び/又はブロック図内の複数のブロックの組み合わせはそれぞれ、コンピュータ可読プログラム製品によって実装されることができることは理解されよう。
[0098]これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに提供されてマシンを生成することができ、それによって、コンピュータ又は他のプラグラマム可能データ処理装置のプロセッサを介して実行する命令は、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定される機能/動作を実施するための手段を作り出す。これらのコンピュータ可読プログラム命令はまた、コンピュータ、プログラム可能データ処理装置、及び/又は他のデバイスに特定の様式で機能するように指示することができるコンピュータ可読記憶媒体内に記憶することもでき、それによって、命令を記憶されているコンピュータ可読記憶媒体は、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定される機能/動作の態様を実施する命令を含む製造品を含む。
[0099]コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードされて、一連の動作ステップが、コンピュータ、他のプログラマブル装置、又は他のデバイス上で実行されるようにして、コンピュータで実施されるプロセスを生成することができ、それによって、コンピュータ、他のプログラマブル装置、又は他のデバイス上で実行する命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定される機能/動作を実施する。
[00100]図面内のフローチャート及びブロック図は本発明の様々な実施形態によるシステム、方法及びコンピュータプログラム製品の可能な実施態様のアーキテクチャ、機能、及び動作を例示する。これに関連して、フローチャート又はブロック図内の各ブロックは、指定の論理機能を実施するための1つ又は複数の実行可能命令を含む、モジュール、セグメント、又は命令の一部分を表すことができる。いくつかの代替的な実施態様において、ブロックに記載されている機能は、図面に記載されている順序と一致せずに行われてもよい。たとえば、連続して示されている2つのブロックは実際には、関与する機能に応じて、実質的に同時に実行されてもよく、又は、これらのブロックは、時として逆順に実行されてもよい。また、ブロック図及び/又はフローチャートの図の各ブロック、並びにブロック図及び/又はフローチャートの図のブロックの組み合わせは、指定の機能若しくは動作を実施するか、又は、専用ハードウェアとコンピュータ命令との組み合わせを実行する専用ハードウェアベースシステムによって実施することができることも留意されよう。
[00101]両耳音声処理システム18を実装するためのコンピュータシステム10は、任意のタイプのコンピューティングデバイスを含んでもよく、たとえば、少なくとも1つのプロセッサ、メモリ、入出力(I/O)(たとえば、1つ又は複数のI/Oインターフェース及び/又はデバイス)、及び通信経路を含んでもよい。概して、プロセッサは、少なくとも部分的にメモリ内に固定されているプログラムコードを実行する。プログラムコードを実行しながら、プロセッサは、データを処理することができ、この結果として、変換されたデータが、さらなる処理のためにメモリ及び/又はI/Oから/へと読み出し及び/又は書き込みされ得る。経路は、コンピューティングシステム内の構成要素の各々の間に通信リンクを提供する。I/Oは、ユーザ又は他のシステムがコンピューティングシステムと対話することを可能にする、1つ又は複数のヒューマンI/Oデバイスを含んでもよい。記載されている知識群は、任意のタイプのデータ記憶装置、たとえば、データベース、ファイルシステム、テーブルなどによって実装されてもよい。
[00102]さらに、両耳音声処理システム18又はその関連コンポーネント(APIコンポーネントなど)はまた、コンポーネントを中央サーバ又は中央サーバ群に送ることによって、コンピュータシステム内に自動的に又は半自動的に展開することもできる。コンポーネントはその後、コンポーネントを実行することになる標的コンピュータ内へとダウンロードされる。コンポーネントはその後、ディレクトリに切り離されるか、又は、コンポーネントをディレクトリに切り離すプログラムを実行するディレクトリにロードされる。別の代替形態は、コンポーネントを、クライアントコンピュータハードドライブ上のディレクトリに直に送ることである。プロキシサーバが存在するとき、このプロセスは、プロキシサーバコードを選択し、いずれのコンピュータにプロキシサーバのコードを置くかを判定し、プロキシサーバコードを送信し、その後、プロキシサーバコードをプロキシコンピュータ上にインストールする。コンポーネントは、プロキシサーバに送信され、その後、プロキシサーバ上に記憶される。
[00103]本発明の様々な態様の上記の記載は、例示及び説明の目的で提示されてきた。包括的であることも、本発明を、開示されている正確な形態に限定することも意図されておらず、明らかに、多くの修正形態及び変形形態が可能である。当業者には明らかであり得るそのような修正形態及び変形形態は、添付の特許請求項によって規定されるものとしての本発明の範囲内に含まれる。

Claims (20)

  1. 両耳オーディオデータからパラメータを推定するための音声処理システムであって、
    少なくとも2つのマイクロホンを使用して空間音場から捕捉される第1のチャネル及び第2のチャネルを有する両耳オーディオデータを入力するためのシステムと、
    反射音成分から直接音成分を分離するための両耳信号分析器であり、前記両耳信号分析器が、
    前記第1のチャネルと前記第2のチャネルの両方に対して自己相関を実施して、一対の自己相関関数を生成することと、
    前記第1のチャネルと前記第2のチャネルとの間で第1層相互相関を実施して、第1層相互相関関数を生成することと、
    前記第1層相互相関関数及び選択された自己相関関数から中心ピークを除去して、修正対を生成することと、
    前記修正対の間で第2層相互相関を実施して、時間的不整合を求めることと、
    前記選択された自己相関関数の前記中心ピークが前記第1層相互相関関数の前記中心ピークの時間的位置に一致するように、前記時間的不整合を使用して、前記第1層相互相関関数を、前記選択された自己相関関数と置き換えることによって、結果の関数を生成することと、
    前記結果の関数を利用して、前記直接音成分及び前記反射音成分の両耳間時間差(ITD)パラメータ及び両耳間レベル差(ILD)パラメータを求めることと、
    を行うメカニズムを含む、両耳信号分析器と、
    を備える、音声処理システム。
  2. 前記中心ピークを除去することが、前記第1層相互相関関数及び前記選択された自己相関関数の両サイドの一方を除去することをさらに含む、請求項1に記載の音声処理システム。
  3. 前記ITDパラメータ及び前記ILDパラメータを使用して前記直接音成分の位置情報を求める音声定位システムをさらに備える、請求項1に記載の音声処理システム。
  4. 進行中の相互相関が、前記第2層相互相関に利用される、請求項1に記載の音声処理システム。
  5. 前記進行中の相互相関が、前記空間音場の音響パラメータを求めるために利用される、請求項4に記載の音声処理システム。
  6. 前記ITDパラメータ及び前記ILDパラメータを使用して前記空間音場内の複数の異なる音源を分別する音源分離システムをさらに備える、請求項1に記載の音声処理システム。
  7. 前記音源分離システムが、
    各音源の音反射を除去するためのシステムと、
    等化/相殺(EC)プロセスを利用して各音源を含む要素のセットを識別するためのシステムと、
    を含む、請求項5に記載の音声処理システム。
  8. 少なくとも2つのマイクロホンを使用して空間音場から捕捉される第1のチャネル及び第2のチャネルを有する両耳オーディオデータからパラメータを推定するためのコンピュータ化された方法であって、
    前記第1のチャネルと前記第2のチャネルの両方に対して自己相関を実施して、一対の自己相関関数を生成するステップと、
    前記第1のチャネルと前記第2のチャネルとの間で第1層相互相関を実施して、第1層相互相関関数を生成するステップと、
    前記第1層相互相関関数及び選択された自己相関関数から中心ピークを除去して、修正対を生成するステップと、
    前記修正対の間で第2層相互相関を実施して、時間的不整合を求めるステップと、
    前記選択された自己相関関数の前記中心ピークが前記第1層相互相関関数の前記中心ピークの時間的位置に一致するように、前記時間的不整合を使用して、前記第1層相互相関関数を、前記選択された自己相関関数と置き換えることによって、結果の関数を生成するステップと、
    前記結果の関数を利用して、前記直接音成分及び反射音成分の両耳間時間差(ITD)パラメータ及び両耳間レベル差(ILD)パラメータを求めるステップと、
    を含む、コンピュータ化された方法。
  9. 前記中心ピークを除去することが、前記第1層相互相関関数及び前記選択された自己相関関数の両サイドの一方を除去することをさらに含む、請求項8に記載のコンピュータ化された方法。
  10. 前記ITDパラメータ及び前記ILDパラメータを使用して前記直接音成分の位置情報を求めるステップをさらに含む、請求項8に記載のコンピュータ化された方法。
  11. 進行中の相互相関が、前記第2層相互相関に利用される、請求項8に記載のコンピュータ化された方法。
  12. 前記進行中の相互相関が、前記空間音場の音響パラメータを求めるために利用される、請求項11に記載のコンピュータ化された方法。
  13. 前記ITDパラメータ及び前記ILDパラメータを使用して前記空間音場内の複数の異なる音源を分別するステップをさらに含む、請求項8に記載のコンピュータ化された方法。
  14. 前記分別するステップが、
    各音源の音反射を除去することと、
    各音源を含む要素のセットを識別するために等化/相殺(EC)プロセスを利用することと、
    を含む、請求項13に記載のコンピュータ化された方法。
  15. コンピュータ可読媒体上に記憶されているコンピュータプログラム製品であって、コンピューティングシステムによって実行されると、少なくとも2つのマイクロホンを使用して空間音場から捕捉される第1のチャネル及び第2のチャネルを有する両耳オーディオデータからパラメータを推定し、当該コンピュータプログラム製品は、
    前記第1のチャネルと前記第2のチャネルの両方に対して自己相関を実施して、一対の自己相関関数を生成するためのプログラムコードと、
    前記第1のチャネルと前記第2のチャネルとの間で第1層相互相関を実施して、第1層相互相関関数を生成するためのプログラムコードと、
    前記第1層相互相関関数及び選択された自己相関関数から中心ピークを除去して、修正対を生成するためのプログラムコードと、
    前記修正対の間で第2層相互相関を実施して、時間的不整合を求めるためのプログラムコードと、
    前記選択された自己相関関数の前記中心ピークが前記第1層相互相関関数の前記中心ピークの時間的位置に一致するように、前記時間的不整合を使用して、前記第1層相互相関関数を、前記選択された自己相関関数と置き換えることによって、結果の関数を生成するためのプログラムコードと、
    前記結果の関数を利用して、前記直接音成分及び反射音成分の両耳間時間差(ITD)パラメータ及び両耳間レベル差(ILD)パラメータを求めるためのプログラムコードと、
    を含む、コンピュータプログラム製品。
  16. 前記中心ピークを除去することが、前記第1層相互相関関数及び前記選択された自己相関関数の両サイドの一方を除去することをさらに含む、請求項15に記載のコンピュータプログラム製品。
  17. 前記ITDパラメータ及び前記ILDパラメータを使用して前記直接音成分の位置情報を求めるためのプログラムコードをさらに含む、請求項15に記載のコンピュータプログラム製品。
  18. 前記第2層相互相関が前記空間音場の音響パラメータを求めるために、進行中の相互相関が利用される、請求項15に記載のコンピュータプログラム製品。
  19. 前記ITDパラメータ及び前記ILDパラメータを使用して前記空間音場内の複数の異なる音源を分別するためのプログラムコードをさらに備える、請求項15に記載のコンピュータプログラム製品。
  20. 前記分別するためのプログラムコードが、
    各音源の音反射を除去するためのプログラムコードと、
    各音源を含む要素のセットを識別するために等化/相殺(EC)プロセスを利用するためのプログラムコードと
    を含む、請求項19に記載のコンピュータプログラム製品。
JP2017503897A 2014-08-14 2015-08-14 両耳統合相互相関自己相関メカニズム Pending JP2017530579A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462037135P 2014-08-14 2014-08-14
US62/037,135 2014-08-14
PCT/US2015/045239 WO2016025812A1 (en) 2014-08-14 2015-08-14 Binaurally integrated cross-correlation auto-correlation mechanism

Publications (1)

Publication Number Publication Date
JP2017530579A true JP2017530579A (ja) 2017-10-12

Family

ID=55304662

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017503897A Pending JP2017530579A (ja) 2014-08-14 2015-08-14 両耳統合相互相関自己相関メカニズム

Country Status (4)

Country Link
US (1) US10068586B2 (ja)
EP (1) EP3165000A4 (ja)
JP (1) JP2017530579A (ja)
WO (1) WO2016025812A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6658026B2 (ja) * 2016-02-04 2020-03-04 株式会社Jvcケンウッド フィルタ生成装置、フィルタ生成方法、及び音像定位処理方法
JP6630605B2 (ja) * 2016-03-22 2020-01-15 日本放送協会 インパルス応答推定装置及びプログラム
GB2563953A (en) 2017-06-28 2019-01-02 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201713697D0 (en) 2017-06-28 2017-10-11 Cirrus Logic Int Semiconductor Ltd Magnetic detection of replay attack
GB201801530D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
US11200906B2 (en) 2017-09-15 2021-12-14 Lg Electronics, Inc. Audio encoding method, to which BRIR/RIR parameterization is applied, and method and device for reproducing audio by using parameterized BRIR/RIR information
GB201801661D0 (en) 2017-10-13 2018-03-21 Cirrus Logic International Uk Ltd Detection of liveness
GB201801663D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB2567503A (en) 2017-10-13 2019-04-17 Cirrus Logic Int Semiconductor Ltd Analysing speech signals
GB201804843D0 (en) * 2017-11-14 2018-05-09 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801664D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
CN108172241B (zh) * 2017-12-27 2020-11-17 上海传英信息技术有限公司 一种基于智能终端的音乐推荐方法及音乐推荐***
CN108091345B (zh) * 2017-12-27 2020-11-20 东南大学 一种基于支持向量机的双耳语音分离方法
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
CN112262433B (zh) * 2018-04-05 2024-03-01 弗劳恩霍夫应用研究促进协会 用于估计通道间时间差的装置、方法或计算机程序
AU2018442039A1 (en) * 2018-09-18 2021-04-15 Huawei Technologies Co., Ltd. Device and method for adaptation of virtual 3D audio to a real room
WO2022006806A1 (zh) * 2020-07-09 2022-01-13 瑞声声学科技(深圳)有限公司 双声道设备的立体声效果检测方法
WO2022133128A1 (en) * 2020-12-17 2022-06-23 Dolby Laboratories Licensing Corporation Binaural signal post-processing

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001236092A (ja) * 2000-02-23 2001-08-31 Nec Corp 話者方向検出回路及びそれに用いる話者方向検出方法
JP2005338086A (ja) * 2004-05-26 2005-12-08 Honda Research Inst Europe Gmbh バイノーラル信号に基づいた音源定位
JP2013236396A (ja) * 2009-01-22 2013-11-21 Panasonic Corp 補聴装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3781902B2 (ja) 1998-07-01 2006-06-07 株式会社リコー 音像定位制御装置および音像定位制御方式
US6675114B2 (en) 2000-08-15 2004-01-06 Kobe University Method for evaluating sound and system for carrying out the same
BRPI0304540B1 (pt) * 2002-04-22 2017-12-12 Koninklijke Philips N. V Methods for coding an audio signal, and to decode an coded audio sign, encoder to codify an audio signal, codified audio sign, storage media, and, decoder to decode a coded audio sign
US20080056517A1 (en) 2002-10-18 2008-03-06 The Regents Of The University Of California Dynamic binaural sound capture and reproduction in focued or frontal applications
US7680289B2 (en) 2003-11-04 2010-03-16 Texas Instruments Incorporated Binaural sound localization using a formant-type cascade of resonators and anti-resonators
KR101019936B1 (ko) * 2005-12-02 2011-03-09 퀄컴 인코포레이티드 음성 파형의 정렬을 위한 시스템, 방법, 및 장치
US8103005B2 (en) * 2008-02-04 2012-01-24 Creative Technology Ltd Primary-ambient decomposition of stereo audio signals using a complex similarity index
US8761410B1 (en) * 2010-08-12 2014-06-24 Audience, Inc. Systems and methods for multi-channel dereverberation
KR101702561B1 (ko) * 2010-08-30 2017-02-03 삼성전자 주식회사 음원출력장치 및 이를 제어하는 방법
KR101694822B1 (ko) * 2010-09-20 2017-01-10 삼성전자주식회사 음원출력장치 및 이를 제어하는 방법
DE102012017296B4 (de) * 2012-08-31 2014-07-03 Hamburg Innovation Gmbh Erzeugung von Mehrkanalton aus Stereo-Audiosignalen

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001236092A (ja) * 2000-02-23 2001-08-31 Nec Corp 話者方向検出回路及びそれに用いる話者方向検出方法
US20010019516A1 (en) * 2000-02-23 2001-09-06 Yasuhiro Wake Speaker direction detection circuit and speaker direction detection method used in this circuit
JP2005338086A (ja) * 2004-05-26 2005-12-08 Honda Research Inst Europe Gmbh バイノーラル信号に基づいた音源定位
US20050276419A1 (en) * 2004-05-26 2005-12-15 Julian Eggert Sound source localization based on binaural signals
JP2013236396A (ja) * 2009-01-22 2013-11-21 Panasonic Corp 補聴装置

Also Published As

Publication number Publication date
US20170243597A1 (en) 2017-08-24
US10068586B2 (en) 2018-09-04
EP3165000A1 (en) 2017-05-10
EP3165000A4 (en) 2018-03-07
WO2016025812A1 (en) 2016-02-18

Similar Documents

Publication Publication Date Title
US10068586B2 (en) Binaurally integrated cross-correlation auto-correlation mechanism
RU2717895C2 (ru) Устройство и способ для формирования отфильтрованного звукового сигнала, реализующего рендеризацию угла места
EP3360250B1 (en) A sound signal processing apparatus and method for enhancing a sound signal
EP2633697B1 (en) Three-dimensional sound capturing and reproducing with multi-microphones
KR101415026B1 (ko) 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치
US20110096915A1 (en) Audio spatialization for conference calls with multiple and moving talkers
US9560461B2 (en) Automatic loudspeaker polarity detection
Talagala et al. Binaural sound source localization using the frequency diversity of the head-related transfer function
CN113470685A (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
Hosseini et al. Time difference of arrival estimation of sound source using cross correlation and modified maximum likelihood weighting function
Kepesi et al. Joint position-pitch estimation for multiple speaker scenarios
Braasch Sound localization in the presence of multiple reflections using a binaurally integrated cross-correlation/auto-correlation mechanism
Pirhosseinloo et al. Time-Frequency Masking for Blind Source Separation with Preserved Spatial Cues.
Firoozabadi et al. Combination of nested microphone array and subband processing for multiple simultaneous speaker localization
Hammond et al. Robust full-sphere binaural sound source localization
Levi et al. An alternate approach to adaptive beamforming using srp-phat
Pirhosseinloo et al. An Interaural Magnification Algorithm for Enhancement of Naturally-Occurring Level Differences.
Pasha et al. Clustered multi-channel dereverberation for ad-hoc microphone arrays
US11835625B2 (en) Acoustic-environment mismatch and proximity detection with a novel set of acoustic relative features and adaptive filtering
Mosayyebpour et al. Time delay estimation via minimum-phase and all-pass component processing
Tyler et al. Predicting room acoustical parameters from running signals using a precedence effect model and deep neural networks
Andráš et al. Microphone Array Speech Sensing and Dereverberation with Linear Prediction
Maymon et al. Study of speaker localization with binaural microphone array incorporating auditory filters and lateral angle estimation
Dehghan Firoozabadi et al. Subband processing‐based approach for the localisation of two simultaneous speakers
Ramnath et al. Robust speech direction detection for low cost robotics applications

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190129

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190424

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190726

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191203

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200228

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200407

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200804