JP5608678B2 - パーティクルフィルタリングを利用した音源位置の推定 - Google Patents

パーティクルフィルタリングを利用した音源位置の推定 Download PDF

Info

Publication number
JP5608678B2
JP5608678B2 JP2011541675A JP2011541675A JP5608678B2 JP 5608678 B2 JP5608678 B2 JP 5608678B2 JP 2011541675 A JP2011541675 A JP 2011541675A JP 2011541675 A JP2011541675 A JP 2011541675A JP 5608678 B2 JP5608678 B2 JP 5608678B2
Authority
JP
Japan
Prior art keywords
particle
weight
sound source
generating
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011541675A
Other languages
English (en)
Other versions
JP2012512413A (ja
Inventor
ペー レー,ウェイ
エー サラウク,バハー
スタイフェンベルフ,レオン セー アー ファン
ペー ヤンセ,コルネリス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2012512413A publication Critical patent/JP2012512413A/ja
Application granted granted Critical
Publication of JP5608678B2 publication Critical patent/JP5608678B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/803Systems for determining direction or deviation from predetermined direction using amplitude comparison of signals derived from receiving transducers or transducer systems having differently-oriented directivity characteristics
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/02Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using radio waves
    • G01S3/14Systems for determining direction or deviation from predetermined direction
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/803Systems for determining direction or deviation from predetermined direction using amplitude comparison of signals derived from receiving transducers or transducer systems having differently-oriented directivity characteristics
    • G01S3/8034Systems for determining direction or deviation from predetermined direction using amplitude comparison of signals derived from receiving transducers or transducer systems having differently-oriented directivity characteristics wherein the signals are derived simultaneously
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Stereophonic System (AREA)

Description

本発明は、パーティクルフィルタリング(particle filtering)を利用した音源位置の推定に関し、特に限定することなくマルチモーダルオーディオビジュアル通信アプリケーションのための音源位置の推定のためのものである。
音源の配置位置の検出は、多くのサービス及びアプリケーションにとって重要である。例えば、オーディオビジュアルテレビ会議アプリケーションでは、推定された発話者の位置を利用してビームを導くことによりスピーチ信号をビームフォーミング技術によりエンハンスするなどによって、発話者の位置を検出することによってパフォーマンスを向上させることが可能である。他の例として、ビデオが、推定される発話者の位置にズームインするなどによってエンハンスされてもよい。
従って、音源位置を推定するためのシステム及びアルゴリズムが開発されてきた。具体的には、パーティクルフィルタリング技術を用いて音源位置を推定及び追跡することが提案されてきた。パーティクルフィルタリングは、連続的な時点のシステムの現在状態を反映する状態変数の値を推定しようとするものである。例えば、パーティクルフィルタは、音源位置を表す状態変数の値を推定しようとするものである。しかしながら、単一の値や推定値を単に考慮するのでなく、パーティクルフィルタリングは、各時点における状態変数の確率密度を考慮する。パーティクルフィルタリングは、所与の(サンプル)時点の状態変数の値が以前の(サンプル)時点の状態変数の値に基づき決定されるシーケンシャルアプローチに基づく。ある時点の状態変数がそれの確率密度関数(従って、状態変数の値の知識/推定の不確実性を反映する)によって表されるとき、これは、原理的には以前の時点の確率密度関数から当該時点の確率密度関数を決定することを伴う。
しかしながら、多くのシナリオでは、これは解析的に実用的、実現可能又は可能でない。例えば、非ガウスノイズの非線形システムについて、以前の時点の確率密度関数に基づく所与の時点の確率密度関数の計算は、実現可能でない。パーティクルフィルタリングは、各パーティクルが状態変数の可能な値を表すパーティクルの集合により確率密度関数を表すことによって、上記問題を解決する。このとき、所与の時点における確率密度関数は、既知の状態変数更新関数に基づき以前の時点の各パーティクルの更新された状態変数値を計算することによって決定される。パーティクルの更新はさらに、適切なノイズプロファイルに従ってノイスを追加する。
さらに、各パーティクルは、当該パーティクルの可能性の指標を表す関連するウェイトを有する。パーティクルのウェイトは、システムの測定結果に基づきある時点から次の時点までの更新において変更される。従って、測定値が状態変数値から推定又は計算可能であることが仮定される(例えば、測定関数などによって)。この関係は、具体的には、既知の(又は仮定される)ノイズプロファイルに従うノイズの影響を含むものであってもよい。従って、パーティクルのウェイトは、更新の関数として変更されてもよい。特に、実際の測定結果が(測定関数を用いて評価される)更新された状態変数値から生じる相対的に高い確率を有する場合、パーティクルのウェイトは以前のウェイトに対して相対的に増加する。他方、実際の測定結果が更新された状態変数値から生じる相対的に低い確率を有する場合、パーティクルのウェイトは、以前のウェイトより相対的に減少する。
従って、ある時点から次の時点までのパーティクルの更新の一部として、パーティクルのウェイトは、与えられたパーティクルがどの程度の可能性で新たな測定を生じさせるか反映するよう変更される。従って、ウェイトは、各パーティクルが測定値を生じさせる実際の状態値に対応する確率を反映するよう連続的に更新される。
従って、パーティクルフィルタリングでは、各パーティクルは、状態変数の確率密度関数の離散的なサンプルとみなされてもよい。
ウェイトは、典型的には、状態変数の確率密度関数に対して収束する。しかしながら、パーティクルフィルタリングアプローチは、しばしば多数のウェイトが極めて小さな値を有することになる一方、他のものは大きな値を有するように、ウェイトの縮退を生じさせる可能性がある。すなわち、パーティクルフィルタリングは、情報をパーティクルの相対的に小さな割合に集中させる可能性がある。この問題を解決するため、サンプルパーティクルのより均等な分布を提供する新たなサンプルが生成されるリサンプリングが実行されてもよい。このアプローチは、重要サンプリングアプローチに対応し、確率密度関数が相対的に大きな値を有するエリアにより多くのパーティクルを集中させ、確率密度関数がより小さな値を有するエリアにはより少ないパーティクルを存在させる。
具体例として、リサンプリングは、パーティクル毎に平均ウェイトを計算し、当該ウェイトが各パーティクルに割り当てられることによって新たなパーティクルセットを生成することによって実行されてもよい。しかしながら、この新たなパーティクルセットは、パーティクルの以前のウェイトを反映するよう分散される。具体例として、各パーティクルは、新たなサンプルの個数が平均ウェイトにより除されたパーティクルのウェイトとして与えられることによって、(ほぼ)同じ状態変数値を有するいくつかのパーティクルに分割されてもよい。これはさらに、多数のパーティクルがパーティクルセットから削除される(及び上記平均ウェイトのパーティクルに対する複製パーティクルにより置換される)。
従って、所与の時点において、状態変数の確率密度関数はパーティクルにより表され、具体的にはパーティクルの分布(すなわち、状態変数値の重要性サンプリングなど)とそれらのウェイトとの組み合わせによって表される。
状態変数値の単一の推定は、各値がパーティクルのウェイトにより重み付けされることによって、パーティクル値の和によって決定することが可能である。従って、状態変数は、離散的なサンプリングされた確率密度関数の(各サンプルはパーティクルに対応する)の統合(加重和)から推定される。
パーティクルフィルタリングに関するさらなる情報は、例えば、M.Sanjeev Arulampalamらによる“A Tutorial on Particle Filters for Online Nonlinear/Non−Gaussian Bayesian Tracking”,IEEE Transactions On Signal Processing,vol.50,np.2,February 2002などに見つけることができる。
しかしながら、パーティクルフィルタリングに関する問題は、パーティクルのウェイトの十分正確な更新が十分信頼できる結果を取得するため重要であることである。実際、音源位置に対して、パーティクルウェイト及び分布の適応化は、状態変数と実際の音源位置との間の関係を正確に反映する適切な測定結果と測定関数とに大きく依存する。しかしながら、現在適用される大部分の測定技術と関数とは、サブ最適な結果をもたらす傾向がある。
従って、パーティクルフィルタリングを利用した改良された音源位置推定が効果的であり、特にフレキシビリティを向上させ、コンプレクシティを低減し、精度を向上させ、及び/又はパフォーマンスを向上させることを可能にするアプローチが効果的であろう。
従って、本発明は、好ましくは上述した課題の1以上を単独で又は何れかの組み合わせにより軽減、解決又は解消することである。
本発明の一態様によると、パーティクルフィルタリングによる音源の音源位置を推定する方法であって、ある時点における前記音源位置を有する状態変数の確率密度関数を表すパーティクルセットを生成するステップを繰り返すステップを有し、
前記生成するステップは、前記パーティクルセットの各パーティクルに対して、以前の時点における前記パーティクルの状態値に応答して前記時点における前記パーティクルの状態値を生成するステップと、前記以前の時点における前記パーティクルのウェイトと前記時点における測定結果とに応答して、前記時点における前記パーティクルのウェイトを生成するステップとを含み、当該方法はさらに、第1時点における前記パーティクルセットの状態値の組み合わせに応答して、前記第1時点の音源位置推定を有する状態変数推定を生成するステップを有し、前記パーティクルセットの各パーティクルの貢献は、前記パーティクルのウェイトに依存し、前記時点における前記パーティクルのウェイトを生成するステップは、前記音源から前記第1時点の少なくとも2つの音声記録位置への推定された音響伝達関数の間の相関に応答して前記ウェイトを決定することを含む方法が提供される。
本発明は、音源位置の推定を向上させ、特に音源位置を推定するための効率的及び/又は正確なパーティクルフィルタリングアプローチを可能にする。さらに、実際的で複雑さの低いアプローチが利用されてもよい。特に、音響データ又は測定結果を推定し、パーティクルフィルタリングベースの音源位置の推定に組み込むための複雑さの低い、及び/又はリソース要求の低いアプローチが実現可能である。
状態変数は、具体的には、音源位置を表す1以上の変数(座標セットなど)から構成されてもよい。状態変数は、いくつかの実施例では、音源位置を表さない他の変数を有してもよい。状態変数は、複数の個別の変数又はパラメータを有してもよい。状態値は、複数の個別のパラメータ又は変数値を有してもよい。例えば、状態値は、スカラーた複素数などのベクトルであってもよい。
音響伝達関数は、具体的には、それらのインパルス応答により表されてもよい。
本発明の任意的特徴によると、前記ウェイトを生成するステップは、前記パーティクルの状態値に対応する遅延の前記相関の値に応答して、前記パーティクルのウェイトを決定することを含む。
これは、パーティクルフィルタリングに基づく音源位置の推定を向上及び/又は容易にする。特に、本発明は、パーティクルフィルタリングのためのウェイト更新を向上させる。特に、相関は、パーティクル確率に対する測定の影響の極めて効果的な反映を提供する。さらに、本発明者は、状態値により表される位置に対応する遅延の相関の値が、状態値により表される位置に実際の音源の位置が一致する確率の信頼できる指標を提供することを理解していた。
本発明の任意的特徴によると、前記ウェイトは、前記相関の値に対する決定的な関係を有する。
これは、パーティクルフィルタリングに基づく音源位置の推定を向上及び/又は容易にする。特に、本発明は、パーティクルフィルタリングのためのウェイト更新を向上させる。特に、相関は、パーティクル確率に対する測定の影響の極めて効果的な反映を提供する。さらに、本発明者は、状態値により表される位置に対応する遅延の相関の値が、状態値により表される位置に実際の音源の位置が一致する確率の信頼できる指標を提供することを理解していた。特に、本発明者は、ウェイト更新の測定関数に関する不確実性及び/又はノイズが異なる遅延の相関の変更によって表されることを理解していた。従って、ノイズ及び/又は不確実性は、他のノイズや確率的貢献が考慮されないとき、相関によって表されてもよい。
本発明の任意的特徴によると、前記決定的な関係は、非線形である。
当該特徴は、音源位置の推定を向上させ、特に相関による測定処理におけるノイズ及び不確実性の表現を向上させる。特に、このアプローチは、相関による測定関数の確率密度関数のより近い表現を可能にする。
本発明の任意的特徴によると、前記ウェイトを生成するステップは、前記以前の時点における前記パーティクルのウェイトに応答して、前記時点における前記パーティクルのウェイトに関するウェイト更新関数の擬似確率関数の指標として前記相関を利用することを含む。
これは、パーティクルフィルタリングに基づく音源位置の推定を向上及び/又は容易にする。特に、本発明は、パーティクルフィルタリングのためのウェイト更新を向上させる。特に、相関は、パーティクル確率に対する測定の影響の極めて効果的な反映を提供する。さらに、本発明者は、状態値により表される位置に対応する遅延の相関の値が、状態値により表される位置に実際の音源の位置が一致する確率の信頼できる指標を提供することを理解していた。特に、本発明者は、ウェイト更新の測定関数に関する不確実性及び/又はノイズが異なる遅延の相関の変更によって表されることを理解していた。従って、ノイズ及び/又は不確実性は、他のノイズや確率的貢献が考慮されないとき、相関によって表されてもよい。
本発明の任意的特徴によると、前記音源位置は、2次元平面の2次元位置により表される。
本発明は、テレビ会議などの合成されたオーディオビジュアルアプリケーションなどを含む多数のアプリケーションに特に適した2次元の効率的及び/又は正確な音源位置を提供する。
本発明の任意的特徴によると、前記音源を含む環境をカバーするカメラから少なくとも1つの画像を受信するステップをさらに有し、前記2次元位置は、前記少なくとも1つの画像における位置である。
本発明は、ビデオアプリケーションなどの音源位置推定及び画像アプリケーションの特に正確な統合を提供する。特に、本発明は、オーディオビジュアル処理の特に効果的な組み合わせを提供し、キャプチャされた画像における音源の特定を向上させる。
カメラはまた、第1及び第2音声記録位置における音声記録要素によりカバーされるエリアをキャプチャするよう配置されてもよい。例えば、カメラは、音声記録位置における2つのマイクロフォンの間に配置されてもよい。
本発明の任意的特徴によると、前記ウェイトを生成するステップは、前記パーティクルの画像領域測定に応答して第1ウェイトの貢献を生成するステップと、前記相関に応答して第2ウェイトの貢献を生成するステップと、前記第1ウェイトと前記第2ウェイトとの組み合わせとして前記ウェイトを生成するステップとを含む。
本発明は、マルチモーダルパーティクルフィルタリングアプローチに基づき音源位置を決定するのに特に効果的なアプローチを提供する。
本発明の任意的特徴によると、本方法は、前記相関に応答して前記第1ウェイトの貢献の信頼度の指標を生成するステップと、前記信頼度の指標に応答して、前記第2ウェイトの貢献に対する前記組み合わせにおける前記第1ウェイトの貢献の貢献を調整するステップとをさらに有する。
本発明は、マルチモーダルパーティクルフィルタリングアプローチに基づく音源の位置の推定を向上させ、特にオーディオ領域とビデオ/ビジュアル領域とからの貢献の統合を向上させる。
本発明の任意的特徴によると、前記音源位置に対してオーディオビームフォーミングを実行し、前記オーディオビームフォーミングに応答して前記伝達関数を推定するステップをさらに有する。
これは、適切な音響伝達関数を推定する特に適切な方法を提供し、パフォーマンスを向上させ、及び/又は複雑さを低減する。
本発明の任意的特徴によると、前記ウェイトを生成するステップは、前記音源から前記少なくとも2つの音声記録位置の1つまでの推定された音響伝達関数と、前記音源から前記第1時点の他の音声記録位置までの推定された音響伝達関数との間の第2相関に応答して、前記ウェイトを決定することを含み、前記他の音声記録位置は、前記少なくとも2つの音声記録位置の間のラインに対するオフセットである。
当該特徴は、音源位置の推定を向上させ、多くの実施例では、2次元の音源の特定を向上させる。
本発明の任意的特徴によると、前記ウェイトを生成するステップは、前記少なくとも2つの音声記録位置の第1位置における音声記録要素から第1信号を受信するステップと、前記少なくとも2つの音声記録位置の第2位置における音声記録要素から第2信号を受信するステップと、前記第1信号と前記第2信号とに応答して、前記音響伝達関数を推定するステップとを含む。
当該特徴は、音源位置の推定を向上させる。
本発明の任意的特徴によると、前記ウェイトを生成するステップは、第1フィルタリング信号を生成するため、第1適応的フィルタにおいて前記第1信号をフィルタリングするステップと、第2フィルタリング信号を生成するため、第2適応的フィルタにおいて前記第2信号をフィルタリングするステップと、合成された指向性信号を生成するため、前記第1フィルタリング信号と前記第2フィルタリング信号とを加算するステップと、前記合成された指向性信号の音源成分のパワー推定が最大化されるように前記合成された指向性信号を生成するため、前記第1適応的フィルタと前記第2適応的フィルタとの係数を設定するステップと、前記第1適応的フィルタと前記第2適応的フィルタとの係数に応答して、前記音響伝達関数を推定するステップとを有する。
当該特徴は、音源位置の推定を向上させ、特に適切な相関関数の特に効果的な決定を提供する。このアプローチは、特にパーティクルのウェイト更新を決定するのに適した相関関数の複雑さの低い正確な決定を可能にする。
本発明の任意的特徴によると、前記ウェイトを生成するステップは、第3フィルタリング信号を生成するため、第3適応的フィルタにおいて前記合成された指向性信号をフィルタリングするステップと、前記第1信号と前記第3フィルタリング信号との間の差分信号を決定するステップと、前記差分信号を低減するため、前記第1適応的フィルタの伝達関数を適応させるステップとを含み、前記第3適応的フィルタの伝達関数は、前記第1適応的フィルタの遅延補償された実質的に複素共役伝達関数に対応する。
当該特徴は、音源位置の推定を向上させ、特に適切な相関関数の特に効果的な決定を提供する。このアプローチは、特にパーティクルのウェイト更新を決定するのに適した相関関数の複雑さの低い正確な決定を可能にする。
本発明の一態様によると、パーティクルフィルタリングによる音源の音源位置を推定する装置であって、ある時点における前記音源位置を有する状態変数の確率密度関数を表すパーティクルセットを生成するステップを繰り返す手段を有し、前記生成するステップは、前記パーティクルセットの各パーティクルに対して、以前の時点における前記パーティクルの状態値に応答して前記時点における前記パーティクルの状態値を生成するステップと、前記以前の時点における前記パーティクルのウェイトと前記時点における測定結果とに応答して、前記時点における前記パーティクルのウェイトを生成するステップとを有し、当該装置はさらに、第1時点における前記パーティクルセットの状態値の組み合わせに応答して、前記第1時点の音源位置推定を有する状態変数推定を生成する手段を有し、前記パーティクルセットの各パーティクルの貢献は、前記パーティクルのウェイトに依存し、前記時点における前記パーティクルのウェイトを生成するステップは、前記音源から前記第1時点の少なくとも2つの音声記録位置への推定された音響伝達関数の間の相関に応答して前記ウェイトを決定することを含む装置が提供される。
本発明の上記及び他の態様、特徴及び効果は、後述される実施例を参照して明らかになるであろう。
図1は、本発明のいくつかの実施例によるテレビ会議システムの一例を示す。 図2は、図1に示されるテレビ会議システムによりキャプチャされる画像の一例を示す。 図3は、本発明のいくつかの実施例によるテレビ会議装置の一例を示す。 図4は、本発明のいくつかの実施例による音源推定方法の一例を示す。 図5は、本発明のいくつかの実施例による音源推定におけるウェイト決定方法の一例を示す。 図6は、本発明のいくつかの実施例による音源推定のためのウェイト更新関数の一例を示す。 図7は、本発明のいくつかの実施例による音源推定のためのウェイト更新関数の一例を示す。 図8は、本発明のいくつかの実施例による音源推定におけるウェイト決定方法の一例を示す。 図9は、本発明のいくつかの実施例によるテレビ会議装置の一例を示す。
以下の説明では、ビデオ入力を受信するテレビ会議システムのための音源位置推定に適用可能な本発明の実施例が着目される。しかしながら、本発明はこの用途に限定されるものでなく、他の多数の用途及びシステムに適用されてもよいことが理解されるであろう。
以下の説明は、特に図1に示されるようなテレビ会議システムに着目する。図1は、音声をキャプチャするための音声記録要素ペア(マイクロフォン105,107の形態による)とビデオをキャプチャするカメラ109との双方を用いて、テレビ会議に参加する1人のユーザ101がテレビ会議装置103によりキャプチャされるシナリオを示す。テレビ会議装置103は、通信システム(図示せず)に接続され、これにより、ユーザはリモートユーザとのテレビ会議セッションに参加することが可能となる。テレビ会議アプリケーションは、具体的にはビデオテレビ会議アプリケーションであってもよい。
システムでは、テレビ会議装置103は、マイクロフォン105,107とカメラ109とによりキャプチャされた信号から音声とビデオとの双方を有するオーディオビジュアル信号を生成する。その後、オーディオビジュアル信号は、通信システム(図示せず)を介しリモートユーザの通信されてもよい。
本例では、マイクロフォン105,107は、互いに相対的に近くの音声記録位置に配置される。多くの実施例では、この距離は、効果的には音源(本例では発話者101)への距離の1/10未満であってもよく、及び/又は51cm未満であってもよい。これは、多くのシナリオでは、マイクロフォンによりキャプチャされた音声が後述される処理を促進及び/又は向上させる平面音波からのものであるとみなしてもよい。特に、それは音源推定を促進及び/又は向上させるものであってもよい。
本例では、カメラ109が、2つのマイクロフォン105,107との間に配置され、具体的には、マイクロフォン105,107の実質的に中間であって、2つの音声記録位置により規定される軸状に実質的に配置される。
システムでは、テレビ会議装置103は、特定の例では発話者101の位置である音源位置を推定するよう構成される。従って、テレビ会議装置103は、発話者からの音声の位置を検出及び追跡しようとする。さらに、本例では、音源の位置は2次元平面において検出される。すなわち、3次元でなく2次元の音源位置推定が実行される。本例では、2次元平面は、カメラ109により撮影される画像により規定される平面に対応すると考えられる平面である。
図2は、カメラ109によりキャプチャされる画像の一例を示す。この画像は、例えば、ビデオ信号の単一の画像/フレームであってもよい。発話者101により構成される音源の画像における位置は、本ケースでは画像位置(x,y)として規定されてもよい。ただし、xは水平方向の画像位置を表し、yは垂直方向の画像位置を表す。
図1のテレビ会議装置103は、音源/発話者101の画像の位置(すなわち、座標(x,y))を決定しようとする。その後、推定された音源位置は、テレビ会議装置103の処理を最適化するのに利用され、具体的には音源(すなわち、発話者101)に音声ビームフォームを導き、又はズームインするのに利用されてもよい。
他の実施例では、開示された原理及びアプローチに従って、他の音源位置が推定されてもよいことが理解されるであろう。また、開示されるアプローチが他のリファレンスフレームワークを用いて音源位置を決定するのに利用されてもよく、特に他の2次元又は3次元リファレンス座標システムが利用されてもよいことが理解されるであろう。例えば、実際の空間上の2次元又は3次元位置が、他の例において決定されてもよい。
テレビ会議装置103は、具体的には、画像における発話者101の位置を継続的に推定及び追跡するパーティクルフィルタリング方法を利用する。図3は、テレビ会議装置103の要素をより詳細に示す。具体的には、テレビ会議装置103は、パーティクルフィルタアルゴリズムを実行するよう構成されるパーティクルフィルタプロセッサ301を有する。パーティクルフィルタプロセッサ301は、パーティクルフィルタプロセッサ301から受信したパーティクルデータに基づき発話者の位置の推定値を生成するよう構成される位置推定プロセッサ303に接続される。
テレビ会議装置103はさらに、2つのマイクロフォン105,107から信号を受信し、パーティクルフィルタプロセッサ301に接続されるオーディオプロセッサ305を有する。テレビ会議装置103はまた、カメラ109から信号を受信し、パーティクルフィルタプロセッサ301に接続されるビデオプロセッサ307を有する。パーティクルフィルタプロセッサ301により実行されるパーティクルフィルタリングは、マイクロフォン105,107により実行されるオーディオ測定と、任意的にカメラ109により実行されるビデオ測定とに基づく。
図4は、音源位置を決定するパーティクルフィルタリング方法の一例を示す。本方法は、具体的には、テレビ会議装置103により実現され、発話者101の画像位置を推定するのに利用される。
本方法は、ステップ401において、アルゴリズムが初期化されることにより開始される。具体的には、状態変数に対して、パーティクルセットが生成される。状態変数は、システムの基礎となる(正しい)状態を表し、具体例では、発話者の(正しい)画像位置((x,y)座標など)から構成される。しかしながら、状態変数の単一の推定値(位置)を維持及び追跡するのでなく、パーティクルフィルタリングアプローチは、状態変数の確率密度関数の離散的表現を表すN個のパーティクルを維持する。各パーティクルは、当該パーティクルにより表される状態変数の値を表す状態値を有する(具体的ケースでは、状態値は画像における特定の位置に対応する)。さらに、パーティクルは、各パーティクルがすべてのパーティクルに基づき単一の推定状態値の決定に対してなすであろう貢献を示す関連するウェイトを有する。特に、状態値(具体例では、画像における位置)は、すべてのパーティクルの状態値の加重和により決定される。確率密度関数は、各パーティクルの各ウェイトと共に、(リサンプリングによって高い確率を有する領域に集中する)パーティクルの分布により表される。
ステップ401において、パーティクルフィルタプロセッサ301は、初期的なパーティクルを表すためN個のパーティクルのセットを抽出することによってパーティクルフィルタリングを開始する。パーティクルは、適切な分布に従って抽出される。例えば、いくつかの実施例では、初期的なパーティクルは、状態変数の実際の確率密度関数に関する情報が利用可能でないことに対応する一様分布に基づき抽出されてもよい。他の実施例では、推定又は予想される分布が利用されてもよい。例えば、具体例では、発話者101は画像の中央にいる確率が高く、パーティクルは、画像の中央に対してより高い確率を有する分布に従って抽出されてもよい。従って、画像におけるパーティクル位置の分散は、画面の中央に対して集中度又は密度が増加して生成されてもよい。具体例では、各パーティクルには、同一の名目ウェイトが与えられる。(他の実施例では、非一様分布がウェイトを可変とすることによって部分的に又は完全に表現されてもよいことが理解されるであろう。)
従って、ステップ401では、パーティクルフィルタプロセッサ301は、音源位置を含む(又は具体例では音源位置から構成される)状態変数について確率密度関数を表す初期的なパーティクルセットを生成する。
その後、パーティクルフィルタプロセッサ301は、以前の(サンプル)時点における値に基づき、以降の(サンプル)時点のパーティクル値及びウェイトを計算することによって、パーティクルを繰り返し展開する。具体的には、状態変数更新関数が、
Figure 0005608678
のように(少なくとも近似的に)知られていると仮定される。ここで、Xは状態変スを表し、Tは現在の(サンプル)時点を表し、T−1は以前の(サンプル)時点を表し、nはノイズを表す。具体例では、発話者は移動せず、状態変数更新関数は単に、
Figure 0005608678
とみなされてもよいことが仮定されてもよい。ここで、nはノイズを表す適切な分布(例えば、発話者101の動きの不確実性に対応して)を有する。ノイズは、具体的には非ガウス的なものであってもよい。(例えば、ユーザは画像の中央に移動する確率が高いことを表すものであってもよい。)
従って、ステップ401はステップ403に続き、各パーティクルの各状態値が以前の時点の状態値に依存して決定される。具体的には、パーティクルフィルタプロセッサ301は、現在の時点Tにおいて更新されたパーティクルセットを生成するため、上記式をすべてのパーティクルに適用してもよい。
ステップ403はステップ405に続き、更新されたパーティクルセットにおいて生成された各パーティクルに対してウェイトが更新される。パーティクルのウェイトは、以前の時点でのパーティクルのウェイトと発話者の位置を反映した測定結果とから生成される。具体的には、パーティクルのウェイトは、状態変数がパーティクルの状態値を有するシステムから測定結果が生じうる確率に依存する。従って、パーティクルの更新されたウェイトは、
Figure 0005608678
として決定されてもよい。ここで、nは、測定に関するノイズと不確実性を表す。異なる実施例及び用途では、異なる測定関数gが利用されてもよいことが理解されるであろう。しかしながら、多くのシナリオでは、以前の時点のウェイトを、測定結果が状態変数から生じうる確率によって単にスケーリングすることが適切である。
Figure 0005608678
ここで、Uは時点Tにおける測定結果を表す。
図1のシステムでは、パーティクルの更新されたウェイトは、
Figure 0005608678
として計算され、qは確率値p(U|X)の妥当な仮定を提供するものであってもよい。このアプローチは、以下において詳述される。
各パーティクルへのウェイトの適用に続いて、ウェイトの正規化が実行されてもよい。
ステップ405が、本例ではステップ407に続き、単一の推定状態値が計算される。従って、状態変数の確率密度関数の離散的なサンプリングを表すパーティクルに基づき、単一の推定された状態変数値が計算される。従って、パーティクルの状態値は、パーティクルのウェイトに依存する各パーティクルからの貢献によって単一の推定値を生成するよう合成される。
具体的には、発話者101の単一の画像位置が、パーティクルのウェイトにより重み付けされたパーティクルの画像位置の加重和として推定プロセッサ303により生成される。従って、平均推定位置が、画像位置の確率密度関数の離散的な統合(和)によって決定される。この音源位置の推定は、その後にテレビ会議装置の処理を最適化するのに利用されてもよい。
パーティクルフィルタリングでは、多くのケースにおいて、パーティクルの分布は、一部のパーティクルが極めて高いウェイト値を有し、他のパーティクルが極めて小さなウェイト値を有するように縮退する傾向がある。従って、パーティクルの分布は、多くのパーティクルが状態変数の基礎となる確率密度関数の情報を相対的にあまり提供しない分布となる傾向がある。
従って、パーティクルフィルタプロセッサ301により用いられるフィルタリングアルゴリズムは、パーティクルの分布(及びウェイト)が確率密度関数の基礎となる表現を変更することなく、より高い集中度の有意なパーティクルを提供するために変更されるように、パーティクルをリサンプリングする手段を有する。
従って、ステップ407はステップ409に続き、リサンプリングが必要か判断される。必要でない場合、本方法はステップ413に移行し、システムは次のサンプルを選択する。その後、本方法はステップ403に戻り、次のサンプル時点についてパーティクルフィルタリングステップを繰り返す。リサンプリングが必要である場合、本方法はステップ415に移行し、次のサンプル時点についてフィルタリングを繰り返すため、本方法がステップ413及び403に移行する前に、リサンプリングが実行される。
リサンプリングが必要か判断するのに適した何れかの基準が本発明から逸脱することなく利用可能であることが理解されるであろう。例えば、パーティクルのリサンプリングは、ウェイトの分散が所与の閾値を超える場合に実行されてもよい。
また、リサンプリングのための異なるアプローチが当業者に知られ、何れか適切な方法が本発明から逸脱することなく利用可能であることが理解されるであろう。
例えば、いくつかの実施例では、パーティクルにより表される確率分布関数から、累積確率分布関数が生成されてもよい。適切なN個のパーティクルが、累積確率分布関数を用いて一様な分布から累積確率分布関数と確率分布関数とを反映する分布に変換することによって抽出されてもよい。結果として得られる各パーティクルは、その後に、リサンプリング直後のパーティクルセットがそれらのウェイトによってでなく、パーティクルの分布によって状態変数の確率分布関数を表すように、同一のウェイトが与えられてもよい。
他の例として、リサンプリングは、所与の閾値以下のすべてのパーティクルを削除し、より大きなウェイトを有するパーティクルをウェイトを反映するいくつかのパーティクルに分割してもよい。例えば、大きなウェイトを有するパーティクルが、同一の(又は極めて類似した)状態値とMにより除される以前にウェイトに等しいウェイトとを有するM個のパーティクルに分割されてもよい。
本方法では、ある時点のパーティクルのウェイトは、音源から2つのマイクロフォン105,107により表される少なくとも2つの音声記録位置への推定された音響伝達関数間の第1時点の相関に応答して決定される。
具体的には、図5は、ステップ405をより詳細に示す。ステップ405は、ステップ501において開始され、発話者101から第1マイクロフォン105の記録位置への第1音響伝達関数が決定される。
本例では、音響伝達関数は、第1マイクロフォン105により測定される音声信号から推定され、具体的には、音響伝達関数は、第1マイクロフォン105によりキャプチャされる発話者101からの音声信号に基づき推定される。伝達関数は、具体的には、音響パスのインパルス応答により表される。
現在の音響伝達関数を推定するのに適した何れかの方法が利用されてもよいことが理解されるであろう。例えば、いくつかの実施例では、発話者101はさらに、発話者の口に配置されたマイクロフォン(例えば、ヘッドセットに取り付けられた)に発話するようにしてもよく、音響伝達関数は、このマイクロフォンにおいて記録された音声信号と第1マイクロフォン105により記録された音声信号との比較によって推定されてもよい。
ステップ501はステップ503に続き、発話者から第2マイクロフォン107の記録位置への第2音響伝達関数が決定される。第1音響伝達関数に対するものと同じアプローチが利用されてもよい。
従って、2つの伝達関数は、発話者101から2つのマイクロフォン105,107までの音響パスにおける相対的な変化を表す。具体的には、各伝達関数は、発話者101から各マイクロフォン105,107までの相対遅延及びパス長を反映する情報を含むものであってもよい。音響伝達関数は、発話者101の位置に依存する。
ステップ503はステップ505に続き、2つの音響伝達関数の間の相関が決定される。具体的には、相関関数が、
Figure 0005608678
のように決定されてもよい。
従って、相関関数は、伝達関数が与えられた相対遅延オフセットに対してどの程度一致するかを示す。所与の遅延オフセットは、2つのマイクロフォン105,107から発話者101へのパスの間のパス長のオフセットに対応するものであってもよい。ノイズ、反射、推定誤差、量子化誤差などがない場合、相関関数は単一のディラックパルスに対応する。しかしながら、実際のシナリオでは、ノイズ源、反射、推定誤差、干渉、量子化などが、実質的に拡散した実用的な相関関数をもたらす。従って、本発明の発明者は、所与の遅延の相関値が2つのマイクロフォン105,107から(主要な)音源へのパスの間のパス差が相対遅延差に対応する確率の指標として認識されてもよいことを理解した。本発明者は、パーティクルフィルタリング更新のウェイト更新がこの認識された(擬似)確率関数又は尤度関数(likelihood function)に基づくものとすることが可能であることをさらに認識した。
従って、図1のシステムでは、音響伝達関数間の相関はウェイトを更新するのに利用され、具体的には、確率値p(U|X)を表すとみなすことができる値を生成するのに利用されてもよい。従って、システムでは、2つの記録位置(すなわち、2つのマイクロフォン105,107)においてキャプチャされた信号に応答して生成される音響伝達関数は、ウェイトを更新するための測定として利用されてもよく、具体的には、相関関数は、所与の時点のパーティクルのウェイトと以前の時点のパーティクルのウェイトとを関連付けるウェイト更新関数の擬似確率関数として直接的又は間接的に利用されてもよい。
具体的には、画像の所与の位置(x,y)に対して、2つのマイクロフォン105,107からのパス長の間の対応する相対遅延オフセットが、シンプルなジオメトリを利用して容易に決定可能である(発話者が所与の距離にいることを仮定して)。2つのマイクロフォン105,107との間の距離が音源との距離に対して極めて小さい場合、マイクロフォンに到達する音波は実質的に平面音波として認識され、発話者101との距離に依存する相対遅延の変化は無視されてもよいことが理解されるであろう。すなわち、多くの実施例において、発話者との距離は無視することが可能であり、所与の画像位置について遅延が直接的に決定されてもよい。従って、所与の変数値、すなわち、所与の画像位置(x,y)について、対応する遅延が計算されてもよい。その後、この遅延に対する(正規化された)相関値が取得されてもよい。その後、パーティクルの以前のウェイトは、新たな更新されたウェイトを生成するため、当該相関値の絶対値により直接的にスケーリングされてもよい。従って、この更新は、音響伝達関数間の測定された相関が当該画像位置に対応する遅延に一致する確率を反映している。
図5の具体例では、ステップ505はステップ507に続き、相関からウェイト測定関数が決定される。具体的には、いくつかの実施例では、(任意的には正規化された)相関関数に対応する以前のウェイトのスケーリングが、測定関数として直接利用されてもよい。
しかしながら、他の実施例では、決定的(すなわち、非確率的)な関数が相関関数に適用されてもよい。例えば、非線形処理が相関関数に適用されてもよい。この非線形関数は、具体的には、相関関数の変化を増大させるものであってもよく、適切な非線形関数は、例えば、
Figure 0005608678
を含むものであってもよい。ここで、Kは典型的には、2,3又は4として選択されてもよい。
このような非線形関係は、多くの実施例において、より正確な近似を適切な測定確率関数に提供する測定関数を提供するため求められたものであり、このため、処理の向上と音源位置推定を提供するため求められたものである。
図6は、表示位置の関数としてウェイト更新関数のスケーリング値の一例を示す。具体例では、スケーリング値は、画像位置に対応する遅延の相関値に対応する。
図7は、非線形処理の適用後の図6の例に対応する表示位置の関数としてウェイト更新関数のスケーリング値の一例を示す。
ステップ507はステップ509に続き、パーティクルのウェイト値が決定される。具体的には、パーティクルの新たなウェイトが、
Figure 0005608678
から決定される。ここで、qはパーティクルの画像位置(x,y)に対応する遅延に対して決定される測定関数のスケーリングである。
上述された例では、2つのマイクロフォン105,107からの1つの相関が利用された。さらに、マイクロフォン105,107の軸が、画像のX軸に揃っていると仮定され、このため、対応する伝達関数間の相対遅延は、yの位置から(近似的に)独立している。従って、図6及び7に例示されるように、対応するスケーリングファクタは、相関関数がx軸に揃っており、y軸に対して一定であるため、異なるyの位置に対して一定である。すなわち、相関関数とウェイト更新関数とは、1次元のものである。
しかしながら、他の実施例では、第1及び第2マイクロフォン105,107の軸の外部に配置された(すなわち、これらと直線上にない)第3マイクロフォンが含まれてもよい。例えば、第3マイクロフォンは、カメラの上部に配置されてもよい。このケースでは、第2相関関数が第3マイクロフォンと第1マイクロフォンなどに対して決定されてもよい。このとき、ウェイト更新関数は、双方の相関関数から決定的に決定されてもよい。具体的には、所与の画像位置に対して、第1マイクロフォン105と第2マイクロフォン107との間の対応する遅延が決定され、第1相関関数から決定される当該遅延に対応する相関値が計算されてもよい。次に、当該画像位置に対して、第1マイクロフォンと第3マイクロフォンとの間の対応する遅延が決定され、第2相関から決定される当該遅延に対応する相関値が計算されてもよい。このとき、この位置を表すパーティクルのスケーリングファクタは、これら2つの値を合成することによって(単に、それらを乗算するなどによって)決定されてもよい。
上述した例では、ウェイトは、音声測定(相関により表される)のみに基づき更新された。しかしながら、他の実施例では、カメラから入力されるビデオがまた、ウェイト関数を更新する際に考慮される。
図8は、そのような例のためのステップ405の一例を示す。本例では、ウェイト更新は、上述されるようなオーディオウェイトを決定するため、図5のステップ501〜509をまず実行することを含む。
しかしながら、本例では、ステップ509はステップ801に続き、ビデオウェイトがカメラにより提供された画像に基づき計算される。従って、ステップ801では、パーティクルの所与の画像位置がカメラによりキャプチャされた画像を生じさせる確率を反映する第2ウェイト貢献が生成される。従って、ビデオウェイトが、画像領域の測定に応答して決定される。
ステップ801はステップ803に続き、オーディオウェイトとビデオウェイトとがパーティクルについての単一のウェイトに合成される。
オーディオウェイトとビデオウェイトとの決定はパラレルに実行されてもよいことが理解されるであろう。
本例では、この合成は、2つのウェイト貢献の相対的な重み付けを含む。具体的には、重み付けは、相関値に基づき生成されるオーディオウェイトの信頼度の指標を反映するようにしてもよい。例えば、相関がディラック応答に類似するほど、信頼度はより高くなると考えられてもよい(干渉、ノイズ、反射などの既知の又は未知の効果の影響は重要性が低い可能性があるため)。他の例として、インパルス応答の期間(所与の閾値により規定されるなど)は、相関の信頼度の指標や分散が利用されてもよいため、利用されてもよい。本例では、オーディオウェイト貢献の重み付けは、高い信頼度の値に対して大きくなる。
いくつかの実施例では、信頼度の値がまたビデオウェイトに対して決定されてもよく、2つのウェイトの貢献の重み付けは、信頼度の指標の相対ウェイトに依存してもよい。
いくつかのシナリオでは、ウェイトの一方又は双方に下限が適用されてもよい。例えば、ウェイトの合成は、2つのウェイトの貢献の乗算に基づき計算されてもよく、ウェイトにオフセットなどを導入することは、ウェイトの貢献の一方がゼロであったとしても、結果としてのウェイトがゼロより大きくなる可能性があることを保障する。具体例として、合成されたウェイトは、
Figure 0005608678
として計算されてもよい。
何れか適切な方法が音響伝達関数を推定するのに利用されてもよいことが理解されるであろう。
画像領域の測定に基づきウェイトを決定する何れか適切なアプローチが利用されてもよいことが理解されるであろう。例えば、適切な方法は、Katja Nummiaro,Esther Koller−Meier,and Luc van Goolによる“An Adaptive Color−Based Paticle Filter”,Rech.Rep.,Katholieke University Leuven and Swiss Federal Institute of Technology,September 2002に記載されている。
このアプローチでは、処理対象の情報量を低減するため、及び/又は重要な情報を抽出することによって信頼性を向上させるため、画像パッチが他の表現に変換される。このような表現の一例は、カラーヒストグラムである。このカラーヒストグラムスペースでは、各画像パッチは単一のポイントによって表現される(ヒストグラムは、原点から当該点までのベクトルである)。このスペースは、カラーヒストグラムスペースにおける対応する点の間の距離を計算することによって、それらのカラーの説明に基づき所望の画像パッチ(例えば、追跡対象の物体など)と他の何れかの画像パッチとの定量的な比較を可能にする。シンプルなユークリッド距離を含む利用可能な多数の距離メトリックが存在する。Bhattacharyya距離として知られる他の距離メトリックは特に便利である。それの正規化された出力はパーティクルフィルタの正規分布ウェイトを計算するのに利用可能である。
多数の実施例において、音響伝達関数が音響ビームフォーミングの一部として推定されてもよい。具体的には、音響ビームフォーミングアプローチは、(当該環境において主要な音源であると仮定される)発話者101に対してオーディオビームをガイドするのに利用されてもよい。このとき、各マイクロフォン信号の相対的なフィルタリング又は重み付けが、音響伝達関数の推定として利用されてもよい。
何れか適切なビームフォーミングアルゴリズムが利用されてもよいことが理解されるであろう。具体例では、音響伝達関数は、図9のビームフォーマにより示されるビームフォーミングアプローチにより決定される。
図9のビームフォーム部900は、2つの入力信号u,uを受信し、これらを処理してオーディオビームフォームを生成する。従来、入力信号u,uは、全方位マイクロフォン105,107から受信されたが、(少なくとも)2つの指向性音声センサにより提供されてもよい。
ビームフォーミング部900では、第1入力信号uは、第1フィルタリング信号を生成する第1適応的フィルタ901に提供される。第2入力信号uは、第2フィルタリング信号を生成する第2適応的フィルタ903に提供される。その後、第1及び第2フィルタリング信号は、加算部905において気サンされ、合成された指向性信号を生成する。合成された指向性信号は、指向性のある感度を有する音声センサから受信したオーディオ信号に対応する。具体的には、第1及び第2適応的フィルタ901,903のフィルタ係数を変更することによって、オーディオビームの方向が所望の方向にガイドできる。
フィルタ係数は、合成された指向性信号の所望の音源成分のパワー推定値が最大化されるように更新される。本例では、所望の音源(発話者101)からの信号が支配的であるとき、フィルタ係数が更新され、所望の音声成分が合成された指向性信号の主要な音源成分になると仮定される。従って、フィルタ係数は、合成された指向性信号全体のパワー指標が最大化されるように更新される。適切なパワー指標は、例えば、合成された指向性信号のサンプルを平方し(又は絶対値をとり)、その結果を適切なローパスフィルタによりフィルタリングすることによって取得されてもよい。
フィルタ係数の適応化はさらに、適応的フィルタ901,903の伝達関数の合計エネルギーが所定の周波数に一定に維持されるという制約により実行される。
具体例では、フィルタ係数901,903は直接的には適応されない。その代わりに、ビームフォーミング部900はさらに、合成された指向性信号をフィルタリングして第3フィルタリング信号を生成する第3適応的フィルタ907と、合成された指向性信号をフィルタリングして第4フィルタリング信号を生成する第4適応的フィルタ909とを有する。
第3フィルタリング信号は、第3フィルタリング信号と第1入力信号u(遅延913だけ遅延された)との間の第1差分信号を生成する第1減算部911に提供される。第4フィルタリング信号は、第4フィルタリング信号と第2入力信号u(遅延917だけ遅延された)との間の第2差分信号を生成する第2減算部915に提供される。
システムでは、適応的フィルタ907,909のフィルタ係数は、差分信号x,xが低減され、具体的には最小されるように、所望の音源からの主要な信号の存在により適応化される。これを実行するのに適したアルゴリズムは、周知の正規化最小二乗アルゴリズムである。N個のサンプルの各データブロックの後など、定期的に、時間逆転されたフィルタ係数907がフィルタ901に複製され、時間逆転された係数909がフィルタ903に生成される。これを実行することによって、所望の音源からの主要な信号の存在における出力信号zのパワーは、ビームフォーミング部900により最大化される。
周波数領域では、第3適応的フィルタ907の伝達関数は、第1適応的フィルタ901の伝達関数の複素共役に対応し、第4適応的フィルタ909の伝達関数は、第2適応的フィルタ903の伝達関数の複素共役に対応する。
より詳細には、ビームフォーミング部900の処理は、連続時間信号のフーリエ変換である周波数領域量を用いた信号モデルを参照して説明されてもよい。各マイクロフォン信号が所望の音源成分からの信号成分、反響信号成分及びノイズを含むと仮定される。
このモデルによると、マイクロフォン信号のベクトル
Figure 0005608678
は(ただし、添え字tは転置を示す)、
Figure 0005608678
により与えられる。ただし、s(・)は所望のソース信号であり、h(・)は直接的な音声パスと一部の早期反射とを含む、ソースからマイクロフォンまでの音響インパルス応答のベクトルであり、d(・)は反響であり、n(・)は各マイクロフォン上で等しい分散を有する無相関のノイズである。所望の信号、反響及びノイズが互いに無相関であると仮定すると、入力クロスパワースペクトル密度は、
Figure 0005608678
により与えられる。ただし、σ (ω),σ (ω)及びσ (ω)はそれぞれ、ソース信号、反響及びノイズの分散であり、I(・)は単位行列であり、添え字hは複素共役転置を示し、*は複素共役を示す。
反響は、拡散(球状に等方的な)音場としてモデル化される。これは簡単化された理論モデルであるが、多くの応用において貴重なモデルであると証明されており、ビームフォーミング部900において用いられるアルゴリズムの処理及びパフォーマンスに洞察を提供するのに有用である。
全方位マイクロフォンについて、反響のコヒーランスマトリックスは、
Figure 0005608678
によって与えられる。ここで、dはマイクロフォン間の距離であり、cは音の速度である。
上述された信号モデルを利用して、ビームフォーミング部900の合成された指向性出力信号zは、マイクロフォン信号に対するフィルタ及び加算処理によって与えられる。
Figure 0005608678
時間領域では、第1及び第2適応的フィルタ901,903のフィルタ係数はそれぞれ、具体的には、第3及び第4適応的フィルタ907,909のフィルタ係数の時間逆転されたコピーである。従って、周波数領域では、第1及び第2適応的フィルタ901,903のフィルタ係数はそれぞれ、第3及び第4適応的フィルタ907,909のフィルタ係数の複素共役したものとなる。一般に、信号処理の因果関係を保障するために遅延が導入され、これにより、第3及び第4適応的フィルタ907,909は、本例では、この遅延を考慮するため位相補償される。また、入力信号u,uが、差分信号の生成前に遅延913,917において遅延される。遅延913,917の遅延・は、一般に適応的フィルタ901,903,907,909の長さに等しく設定される。
図9の適応的ビームフォーミング部900は、フィルタ伝達関数の合計パワーがすべての周波数に対して1に等しくなるという制約の下、すなわち、
Figure 0005608678
として数学的に表現できる制約の下、合成された指向性出力信号zのパワーを最大化することが示すことができる。従って、差分信号x,xを最小化するようにフィルタ係数を設定することによって、合成された指向性出力信号zのパワーは最大化され、これにより、主要なオーディオ信号に向けたオーディオビームの適応化が提供される。
この信号モデルを利用し、上記制約を適用して、合成された指向性出力信号zは、
Figure 0005608678
により与えられる。
所望のソースのみに対して(すなわち、反響及びノイズはない)、最適な係数は、
Figure 0005608678
により与えられる。ここで、α(ω)は任意の全通過項である。
この式は、最適なフィルタ係数が所望のソースから各マイクロフォンへの共役伝達関数に等しいことを示す(共通の未知の振幅及び位相ファクタを無視する)。実際的なフィルタの限定的なフィルタ長のため、ビームフォーミング部は、実際には時間領域インパルス応答の第1部分しか推定しない(典型的には、直接場と一部の早期反射とを含む部分)。
従って、フィルタ係数は、音響伝達関数の極めて効果的な推定を提供し、具体例では、第1音響伝達関数は、第1適応的フィルタ901のフィルタ係数に対応するインパルス応答を有するものとして決定され、第2音響伝達関数は、第2適応的フィルタ903のフィルタ係数に対応するインパルス応答を有するものとして決定される。従って、相関関数は、効果的には、第1適応的フィルタ901と第2適応的フィルタ903とのフィルタ係数間の相関として決定される。
簡単化のため、上記開示は異なる機能部及びプロセッサを参照して本発明の実施例を説明したことが理解されるであろう。しかしながら、異なる機能部又はプロセッサの間の機能の何れか適切な分散が本発明を逸脱することなく利用されてもよいことが理解されるであろう。例えば、別々のプロセッサ又はコントローラにより実行されるよう示された機能は、同一のプロセッサ又はコントローラにより実行されてもよい。従って、特定の機能部の参照は、厳密に論理的又は物理的な構造又は組織の参照としてのみみなされるべきである。
本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの何れかの組み合わせを含む何れか適切な形態により実現可能である。本発明は、任意的には、1以上のデータプロセッサ及び/又はデジタル信号プロセッサ上で実行されるコンピュータソフトウェアとして少なくとも部分的に実現されてもよい。本発明の実施例の要素及びコンポーネントは、何れか適切な方法により物理的、機能的及び論理的に実現されてもよい。実際、これらの機能は、単一のユニット、複数のユニット又は他の機能ユニットの一部として実現されてもよい。また、本発明は、単一のユニットにより実現されてもよく、又は異なるユニットとプロセッサとの間に物理的及び機能的に分散されてもよい。
本発明がいくつかの実施例に関して説明されたが、それは開示されたような特定の形態に限定されるべきでない。さらに、ある特徴が特定の実施例に関して説明されたが、当業者は、開示された実施例の各種特徴が本発明により組み合わされてもよいことを認識するであろう。請求項において、“有する”という用語は他の要素又はステップの存在を排除するものでない。
さらに、個別に列記されるが、複数の手段、要素又は方法ステップは、単一のユニットやプロセッサなどにより実現されてもよい。さらに、個々の特徴が異なる請求項に含まれてもよいが、これらは効果的に組み合わせ可能であり、異なる請求項への内包は、特徴の組み合わせが実現可能及び/又は効果的でないことを意味するものでない。また、請求項のあるカテゴリの特徴の内包は、当該カテゴリへの限定を意味するものでなく、当該特徴が必要に応じて他の請求項のカテゴリに等しく適用可能であることを示す。さらに、請求項の特徴の順序は、当該特徴が動作するのに必要な何れか特定の順序を意味せず、特に方法の請求項の各ステップの順序は、これらのステップが当該順序により実行される必要があることを意味するものでない。むしろ、これらのステップは何れか適切な順序により実行されてもよい。さらに、単数形の表現は複数を排除するものでない。従って、“ある”、“第1”、“第2”などの表現は複数を排除するものでない。請求項の参照符号は、例示的なものとして与えられているにすぎず、請求項の範囲を限定するものとして解釈されるべきでない。

Claims (15)

  1. パーティクルフィルタリングによる音源の音源位置を推定する方法であって、
    現在時点における前記音源位置を有する状態変数の確率密度関数を表すパーティクルセットを生成するステップを繰り返すステップを有し、
    前記生成するステップは、前記パーティクルセットの各パーティクルに対して、
    以前の時点における前記パーティクルの状態値に応答して前記現在時点における前記パーティクルの状態値を生成するステップと、
    前記以前の時点における前記パーティクルのウェイトと前記現在時点における測定結果とに応答して、前記現在時点における前記パーティクルのウェイトを生成するステップと、
    を含み、
    当該方法はさらに、第1時点における前記パーティクルセットの状態値の組み合わせに応答して、前記第1時点の音源位置推定を有する状態変数推定を生成するステップを有し、
    前記パーティクルセットの各パーティクルの貢献は、前記パーティクルのウェイトに依存し、
    前記現在時点における前記パーティクルのウェイトを生成するステップは、前記音源から前記第1時点の少なくとも2つの音声記録位置への推定された音響伝達関数の間の相関に応答して前記ウェイトを決定することを含む方法。
  2. 前記ウェイトを生成するステップは、前記パーティクルの状態値に対応する遅延の前記相関の値に応答して、前記パーティクルのウェイトを決定することを含む、請求項1記載の方法。
  3. 前記ウェイトは、前記相関の値に対する決定的な関係を有する、請求項2記載の方法。
  4. 前記決定的な関係は、非線形である、請求項3記載の方法。
  5. 前記ウェイトを生成するステップは、前記以前の時点における前記パーティクルのウェイトに応答して、前記現在時点における前記パーティクルのウェイトに関するウェイト更新関数の擬似確率関数の指標として前記相関を利用することを含む、請求項1記載の方法。
  6. 前記音源位置は、2次元平面の2次元位置により表される、請求項1記載の方法。
  7. 前記音源を含む環境をカバーするカメラから少なくとも1つの画像を受信するステップをさらに有し、
    前記2次元位置は、前記少なくとも1つの画像における位置である、請求項6記載の方法。
  8. 前記ウェイトを生成するステップは、
    前記パーティクルの画像領域測定に応答して第1ウェイトの貢献を生成するステップと、
    前記相関に応答して第2ウェイトの貢献を生成するステップと、
    前記第1ウェイトと前記第2ウェイトとの組み合わせとして前記ウェイトを生成するステップと、
    を含む、請求項7記載の方法。
  9. 前記相関に応答して前記第1ウェイトの貢献の信頼度の指標を生成するステップと、
    前記信頼度の指標に応答して、前記第2ウェイトの貢献に対する前記組み合わせにおける前記第1ウェイトの貢献の貢献を調整するステップと、
    をさらに有する、請求項8記載の方法。
  10. 前記音源位置に対してオーディオビームフォーミングを実行し、前記オーディオビームフォーミングに応答して前記音響伝達関数を推定するステップをさらに有する、請求項1記載の方法。
  11. 前記ウェイトを生成するステップは、前記音源から前記少なくとも2つの音声記録位置の1つまでの推定された音響伝達関数と、前記音源から前記第1時点の他の音声記録位置までの推定された音響伝達関数との間の第2相関に応答して、前記ウェイトを決定することを含み、
    前記他の音声記録位置は、前記少なくとも2つの音声記録位置の間のラインに対するオフセットである、請求項1記載の方法。
  12. 前記ウェイトを生成するステップは、
    前記少なくとも2つの音声記録位置の第1位置における音声記録要素から第1信号を受信するステップと、
    前記少なくとも2つの音声記録位置の第2位置における音声記録要素から第2信号を受信するステップと、
    前記第1信号と前記第2信号とに応答して、前記音響伝達関数を推定するステップと、
    を含む、請求項1記載の方法。
  13. 前記ウェイトを生成するステップは、
    第1フィルタリング信号を生成するため、第1適応的フィルタにおいて前記第1信号をフィルタリングするステップと、
    第2フィルタリング信号を生成するため、第2適応的フィルタにおいて前記第2信号をフィルタリングするステップと、
    合成された指向性信号を生成するため、前記第1フィルタリング信号と前記第2フィルタリング信号とを加算するステップと、
    前記合成された指向性信号の音源成分のパワー推定が最大化されるように前記合成された指向性信号を生成するため、前記第1適応的フィルタと前記第2適応的フィルタとの係数を設定するステップと、
    前記第1適応的フィルタと前記第2適応的フィルタとの係数に応答して、前記音響伝達関数を推定するステップと、
    を有する、請求項12記載の方法。
  14. 前記ウェイトを生成するステップは、
    第3フィルタリング信号を生成するため、第3適応的フィルタにおいて前記合成された指向性信号をフィルタリングするステップと、
    前記第1信号と前記第3フィルタリング信号との間の差分信号を決定するステップと、
    前記差分信号を低減するため、前記第1適応的フィルタの伝達関数を適応させるステップと、
    を含み、
    前記第3適応的フィルタの伝達関数は、前記第1適応的フィルタの遅延補償された実質的に複素共役伝達関数に対応する、請求項13記載の方法。
  15. パーティクルフィルタリングによる音源の音源位置を推定する装置であって、
    現在時点における前記音源位置を有する状態変数の確率密度関数を表すパーティクルセットを生成するステップを繰り返す手段を有し、
    前記生成するステップは、前記パーティクルセットの各パーティクルに対して、
    以前の時点における前記パーティクルの状態値に応答して前記現在時点における前記パーティクルの状態値を生成するステップと、
    前記以前の時点における前記パーティクルのウェイトと前記現在時点における測定結果とに応答して、前記現在時点における前記パーティクルのウェイトを生成するステップと、
    を有し、
    当該装置はさらに、第1時点における前記パーティクルセットの状態値の組み合わせに応答して、前記第1時点の音源位置推定を有する状態変数推定を生成する手段を有し、
    前記パーティクルセットの各パーティクルの貢献は、前記パーティクルのウェイトに依存し、
    前記現在時点における前記パーティクルのウェイトを生成するステップは、前記音源から前記第1時点の少なくとも2つの音声記録位置への推定された音響伝達関数の間の相関に応答して前記ウェイトを決定することを含む装置。
JP2011541675A 2008-12-16 2009-12-11 パーティクルフィルタリングを利用した音源位置の推定 Active JP5608678B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP08171826.4 2008-12-16
EP08171826 2008-12-16
PCT/IB2009/055678 WO2010070556A2 (en) 2008-12-16 2009-12-11 Estimating a sound source location using particle filtering

Publications (2)

Publication Number Publication Date
JP2012512413A JP2012512413A (ja) 2012-05-31
JP5608678B2 true JP5608678B2 (ja) 2014-10-15

Family

ID=42269169

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011541675A Active JP5608678B2 (ja) 2008-12-16 2009-12-11 パーティクルフィルタリングを利用した音源位置の推定

Country Status (7)

Country Link
US (1) US8403105B2 (ja)
EP (1) EP2380033B1 (ja)
JP (1) JP5608678B2 (ja)
KR (1) KR101659712B1 (ja)
CN (1) CN102257401B (ja)
RU (1) RU2511672C2 (ja)
WO (1) WO2010070556A2 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9084001B2 (en) * 2011-07-18 2015-07-14 At&T Intellectual Property I, Lp Method and apparatus for multi-experience metadata translation of media content with metadata
US8943396B2 (en) 2011-07-18 2015-01-27 At&T Intellectual Property I, Lp Method and apparatus for multi-experience adaptation of media content
US20130028443A1 (en) * 2011-07-28 2013-01-31 Apple Inc. Devices with enhanced audio
US9237362B2 (en) 2011-08-11 2016-01-12 At&T Intellectual Property I, Lp Method and apparatus for multi-experience translation of media content with sensor sharing
US8942412B2 (en) 2011-08-11 2015-01-27 At&T Intellectual Property I, Lp Method and apparatus for controlling multi-experience translation of media content
CN102621542B (zh) * 2012-04-02 2014-10-22 中国人民解放军海军航空工程学院 基于多模粒子滤波和数据关联的机动微弱目标检测前跟踪方法
US9075572B2 (en) 2012-05-02 2015-07-07 Google Technology Holdings LLC Media enhancement dock
US8886526B2 (en) * 2012-05-04 2014-11-11 Sony Computer Entertainment Inc. Source separation using independent component analysis with mixed multi-variate probability density function
US9685171B1 (en) * 2012-11-20 2017-06-20 Amazon Technologies, Inc. Multiple-stage adaptive filtering of audio signals
EP2747451A1 (en) * 2012-12-21 2014-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates
KR102060712B1 (ko) * 2013-01-31 2020-02-11 엘지전자 주식회사 이동 단말기, 및 그 동작방법
US9338420B2 (en) * 2013-02-15 2016-05-10 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data
US9395723B2 (en) 2013-09-30 2016-07-19 Five Elements Robotics, Inc. Self-propelled robot assistant
US20160084937A1 (en) * 2014-09-22 2016-03-24 Invensense Inc. Systems and methods for determining position information using acoustic sensing
TWI579835B (zh) * 2015-03-19 2017-04-21 絡達科技股份有限公司 音效增益方法
EP3151534A1 (en) * 2015-09-29 2017-04-05 Thomson Licensing Method of refocusing images captured by a plenoptic camera and audio based refocusing image system
CN105590021B (zh) * 2015-11-06 2018-06-12 上海交通大学 基于麦克风阵列的动态数量声源跟踪方法
CN106772245A (zh) * 2015-11-19 2017-05-31 华为技术有限公司 声源定位方法和装置
US10024712B2 (en) * 2016-04-19 2018-07-17 Harman International Industries, Incorporated Acoustic presence detector
CN106093848B (zh) * 2016-05-25 2019-01-11 深圳市豪恩声学股份有限公司 声音定向方法及装置
US10229698B1 (en) * 2017-06-21 2019-03-12 Amazon Technologies, Inc. Playback reference signal-assisted multi-microphone interference canceler
CN111034222A (zh) * 2017-08-30 2020-04-17 松下知识产权经营株式会社 拾音装置、拾音方法以及程序
KR102105752B1 (ko) * 2018-03-14 2020-04-29 한국과학기술원 반사 인지를 통한 음원 위치 추적 방법 및 시스템
CN109212480B (zh) * 2018-09-05 2020-07-28 浙江理工大学 一种基于分布式辅助粒子滤波的声源跟踪方法
US10957299B2 (en) * 2019-04-09 2021-03-23 Facebook Technologies, Llc Acoustic transfer function personalization using sound scene analysis and beamforming
CN110334322B (zh) * 2019-06-26 2023-03-14 电子科技大学 一种粒子滤波器的粒子数自适应方法
US11709262B2 (en) 2019-10-04 2023-07-25 Woods Hole Oceanographic Institution Doppler shift navigation system and method of using same
CN117496997B (zh) * 2023-12-27 2024-04-05 湘江实验室 基于惩罚机制的声源检测方法、装置及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000028740A2 (en) * 1998-11-11 2000-05-18 Koninklijke Philips Electronics N.V. Improved signal localization arrangement
US6882959B2 (en) * 2003-05-02 2005-04-19 Microsoft Corporation System and process for tracking an object state using a particle filter sensor fusion technique
JP3931879B2 (ja) * 2003-11-28 2007-06-20 株式会社デンソー センサフュージョンシステム及びそれを用いた車両制御装置
US20060245601A1 (en) 2005-04-27 2006-11-02 Francois Michaud Robust localization and tracking of simultaneously moving sound sources using beamforming and particle filtering
FR2885434B1 (fr) * 2005-05-09 2007-07-13 Commissariat Energie Atomique Procede d'estimation de la phase d'un mouvement d'un objet
US7773771B2 (en) * 2006-03-15 2010-08-10 Honeywell International Inc. Video data tracker
WO2007129731A1 (ja) * 2006-05-10 2007-11-15 Honda Motor Co., Ltd. 音源追跡システム、方法、およびロボット
CA2664187A1 (en) 2006-09-29 2008-04-03 Thomson Licensing Dynamic state estimation
US8233353B2 (en) 2007-01-26 2012-07-31 Microsoft Corporation Multi-sensor sound source localization
EP1992959A3 (en) * 2007-05-18 2011-02-09 Ono Sokki Co., Ltd. Sound source search method, sound source search device, and sound source search program storage medium

Also Published As

Publication number Publication date
CN102257401A (zh) 2011-11-23
EP2380033B1 (en) 2017-05-17
KR20110102466A (ko) 2011-09-16
US20110232989A1 (en) 2011-09-29
US8403105B2 (en) 2013-03-26
WO2010070556A3 (en) 2011-01-06
JP2012512413A (ja) 2012-05-31
CN102257401B (zh) 2014-04-02
RU2011129602A (ru) 2013-01-27
EP2380033A2 (en) 2011-10-26
WO2010070556A2 (en) 2010-06-24
RU2511672C2 (ru) 2014-04-10
KR101659712B1 (ko) 2016-09-30

Similar Documents

Publication Publication Date Title
JP5608678B2 (ja) パーティクルフィルタリングを利用した音源位置の推定
JP7158806B2 (ja) オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム
CN109273021B (zh) 一种基于rnn的实时会议降噪方法及装置
TWI647961B (zh) 聲場的高階保真立體音響表示法中不相關聲源方向之決定方法及裝置
US9689959B2 (en) Method, apparatus and computer program product for determining the location of a plurality of speech sources
JP2020515106A (ja) ビームフォーミングを使用するオーディオキャプチャ
CN113470685A (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
JP6265903B2 (ja) 信号雑音減衰
Brendel et al. Distance estimation of acoustic sources using the coherent-to-diffuse power ratio based on distributed training
Hosseini et al. Time difference of arrival estimation of sound source using cross correlation and modified maximum likelihood weighting function
Salvati et al. A sound localization based interface for real-time control of audio processing
Yousefian et al. A hybrid coherence model for noise reduction in reverberant environments
JP2005077205A (ja) 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム
Jing et al. Acoustic source tracking based on adaptive distributed particle filter in distributed microphone networks
Grondin et al. A study of the complexity and accuracy of direction of arrival estimation methods based on GCC-PHAT for a pair of close microphones
Raikar et al. Effect of Microphone Position Measurement Error on RIR and its Impact on Speech Intelligibility and Quality.
CN117037836B (zh) 基于信号协方差矩阵重构的实时声源分离方法和装置
Gao et al. A Physical Model-Based Self-Supervised Learning Method for Signal Enhancement Under Reverberant Environment
Ramamurthy Experimental evaluation of modified phase transform for sound source detection
Uppaluru Blind deconvolution and adaptive algorithms for de-reverberation
Jing et al. A distributed particle filter with sampling-based consensus density fusion for speaker tracking in distributed microphone networks
WO2023219751A1 (en) Temporal alignment of signals using attention
Athanasopoulos et al. Acoustic localization enhanced with phase information from modified STFT magnitude
KALUVA Integrated Speech Enhancement Technique for Hands-Free Mobile Phones
Mosayyebpour Robust single-channel speech enhancement and speaker localization in adverse environments

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131001

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131211

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140805

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140901

R150 Certificate of patent or registration of utility model

Ref document number: 5608678

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250