JP2020148880A - 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム - Google Patents

雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム Download PDF

Info

Publication number
JP2020148880A
JP2020148880A JP2019045649A JP2019045649A JP2020148880A JP 2020148880 A JP2020148880 A JP 2020148880A JP 2019045649 A JP2019045649 A JP 2019045649A JP 2019045649 A JP2019045649 A JP 2019045649A JP 2020148880 A JP2020148880 A JP 2020148880A
Authority
JP
Japan
Prior art keywords
noise
covariance matrix
time
space covariance
noise space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019045649A
Other languages
English (en)
Other versions
JP7159928B2 (ja
Inventor
中谷 智広
Tomohiro Nakatani
智広 中谷
マーク デルクロア
Marc Delcroix
マーク デルクロア
慶介 木下
Keisuke Kinoshita
慶介 木下
荒木 章子
Akiko Araki
章子 荒木
優騎 久保
Yuuki Kubo
優騎 久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2019045649A priority Critical patent/JP7159928B2/ja
Priority to PCT/JP2020/008216 priority patent/WO2020184210A1/ja
Priority to US17/437,701 priority patent/US11676619B2/en
Publication of JP2020148880A publication Critical patent/JP2020148880A/ja
Application granted granted Critical
Publication of JP7159928B2 publication Critical patent/JP7159928B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/1752Masking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

【課題】時変の雑音空間共分散行列を効果的に推定する。【解決手段】単数または複数の音源から発せられた音響信号を集音して得られた観測信号に基づく時間周波数別観測信号、および、各時間周波数別観測信号に含まれる各雑音源に対応する成分の占有確率を表すマスク情報を用い、各雑音源について長時間区間に属する時間周波数別観測信号およびマスク情報に対応する時間非依存の第1雑音空間共分散行列を得る。また、互いに異なる複数の短時間区間それぞれのマスク情報を用い、各短時間区間における各雑音源に対応する混合重みを得る。さらに雑音源すべての足しあわせで構成される雑音について各短時間区間に属する時間周波数別観測信号およびマスク情報に対応する時変の第2雑音空間共分散行列と、各短時間区間の混合重みによる第1雑音空間共分散行列の重み付け和と、に基づく時変の第3雑音空間共分散行列を得る。【選択図】図1

Description

本発明は、雑音空間共分散行列を生成する技術に関する。
音響信号の分析において、雑音空間共分散行列がしばしば用いられる。例えば、非特許文献1では、雑音空間共分散行列を用いて周波数領域の観測信号から雑音を抑圧する技術が開示されている。この方法では、周波数領域の観測信号から得た雑音空間共分散行列と音源方向を表すステアリングベクトルまたはその推定ベクトルとを用いて、音源からマイクロホンに到来する音を歪ませないとの拘束条件のもと、周波数領域の雑音のパワーを最小化するビームフォーマを推定し、これを周波数領域の観測信号に適用することで、雑音を抑圧する。
T Higuchi, N Ito, T Yoshioka, T Nakatani, "Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise," Proc. ICASSP 2016, 2016.
非特許文献1等の従来法では、長い時間区間の入力音響信号全体を対象として雑音空間共分散行列の推定を行っていた。そして、各時間ブロックにおいてビームフォーマを推定する際には、入力信号全体について求めた雑音空間共分散行列を用いていた。つまり、各時間ブロックで共通の雑音空間共分散行列に基づきビームフォーマを推定していた。
実環境においては、抑圧すべき雑音の中には、音声のように音のレベルが時々刻々と大きく変化する信号が含まれている場合もあり、このような場合は、時間ブロックごとに雑音空間共分散行列は異なると考えられる。そのため、時間ブロックごとの時変の雑音空間共分散行列を推定することが望ましい。単純な方法として、各時間ブロックの音響信号のみを対象として各時間ブロックの雑音空間共分散行列を推定することも考えられるが、これでは推定に用いる音響信号の時間区間が短くなるため雑音空間共分散行列の精度が低下してしまう。
このような問題に鑑み、本発明では時変の雑音空間共分散行列を効果的に推定する技術を提供することを目的とする。
以下、本発明では、音響信号を離散的な時間点(時間フレーム)と離散的な周波数(周波数帯)に分割して表現した時間周波数信号を用いる。例えば、観測信号を時間周波数信号として表現したものを時間周波数別観測信号と呼ぶことにする。
本発明では、単数または複数の音源から発せられた音響信号を集音して得られた観測信号に基づく時間周波数別観測信号、および、各前記時間周波数別観測信号に含まれる各雑音源に対応する成分の占有確率を表すマスク情報を用い、各前記雑音源について長時間区間に属する前記時間周波数別観測信号および前記マスク情報に対応する時間非依存の第1雑音空間共分散行列を得る。また、互いに異なる複数の短時間区間それぞれの前記マスク情報を用い、各前記短時間区間における各前記雑音源に対応する混合重みを得る。さらに前記雑音源すべての足しあわせで構成される雑音について各前記短時間区間に属する前記時間周波数別観測信号および前記マスク情報に対応する時変の第2雑音空間共分散行列と、各前記短時間区間の前記混合重みによる前記第1雑音空間共分散行列の重み付け和と、に基づく時変の第3雑音空間共分散行列を得る。
第3雑音空間共分散行列は、各短時間区間の第2雑音空間共分散行列および混合重みに基づいて短時間区間の変化に追従しつつ、長時間区間の第1雑音空間共分散行列に基づいて高い精度を担保できる。これにより、時変の雑音空間共分散行列を効果的に推定できる。
図1は実施形態の雑音空間共分散行列推定装置の機能構成を例示するためのブロック図である。 図2は実施形態の雑音空間共分散行列推定方法を例示するためのフロー図である。 図3Aは実施形態の雑音空間共分散行列推定装置を利用した雑音除去装置の機能構成を例示するためのブロック図である。図3Bは実施形態の雑音空間共分散行列推定方法を利用した雑音除去方法を例示するためのフロー図である。
以下、図面を参照して本発明の実施形態を説明する。
[記号の定義]
まず、以下の実施形態で使用する記号を定義する。
I:Iはマイクロホン数を表す正整数である。例えば、I≧2である。
i:iはマイクロホン番号を表す正整数であり、1≦i≦Iを満たす。マイクロホン番号iのマイクロホン(すなわちi番目のマイクロホン)を「マイクロホンi」と表記する。マイクロホン番号iに対応する値やベクトルは、下付き添え字「i」を持つ記号で表現される。
S:Sは音源数を表す正整数である。例えば、S≧2である。音源は目的音源と目的音源以外の雑音源とを含む。
s:sは音源番号を表す正整数であり、1≦s≦Sを満たす。音源番号sの音源(すなわちs番目の音源)を「音源s」と表記する。
J:Jは雑音源数を表す正整数である。例えば、S≧J≧1である。
j,j’:j,j’は雑音源番号を表す正整数であり、1≦j,j’≦Jを満たす。雑音源番号jの雑音源(すなわちj番目の雑音源)を「雑音源j」と表記する。また雑音源番号は丸括弧付きの右上添え字で表す。雑音源番号jの雑音源に基づく値やベクトルは、右上添え字「(j)」を持つ記号で表現される。j’についても同様である。また、本明細書では、全雑音源から発せられた音を足し合わせた音を雑音として扱う。
L:Lは長時間区間を表す。長時間区間は処理対象の全時間区間であってもよいし、処理対象の全時間区間の一部の時間区間であってもよい。
:Bは一つの短時間区間(短時間ブロック)を表す。異なる複数の短時間区間をB,…,Bで表し、Kは1以上の整数であり、k=1,…,Kである。例えば、長時間区間LをK個の時間区間に区分して得られるのが短時間区間B,…,Bである。短時間区間B,…,Bの一部またはすべては、長時間区間L以外の区間に含まれるものであってもよい。
t,τ:t,τは時間フレームの番号を表す正整数である。時間フレーム番号tに対応する値やベクトルは、下付き添え字「t」を持つ記号で表現される。τについても同様である。
f:fは周波数帯域番号を表す正整数である。周波数帯域番号fに対応する値やベクトルは、下付き添え字「f」を持つ記号で表現される。
T:Tは行列やベクトルの非共役転置を表す。αはαを非共役転置して得られる行列やベクトルを表す。
H:Hは行列やベクトルの共役転置(エルミート転置)を表す。αはαを共役転置して得られる行列やベクトルを表す。
α∈β:α∈βはαがβに属することを表す。
[第1実施形態]
次に図1および図2を参照して第1実施形態の雑音空間共分散行列推定装置10の構成およびその処理内容を説明する。
図1に例示するように、本実施形態の雑音空間共分散行列推定装置10は、雑音空間共分散行列計算部11,13、および混合重み計算部12を有する。
<雑音空間共分散行列計算部11(第1雑音空間共分散行列計算部)>
雑音空間共分散行列計算部11は、単数または複数の音源s∈{1,…,S}から発せられた音響信号を集音して得られた観測信号に基づく時間周波数別観測信号xt,f、および、各時間周波数別観測信号xt,fに含まれる各雑音源jに対応する成分の占有確率を表すマスク情報λt,f (j)を入力とし、それらを用い、各雑音源j∈{1,…,J}について長時間区間Lに属する時間周波数別観測信号xt,fおよびマスク情報λt,f (j)に対応する時間非依存の雑音空間共分散行列Ψ (j)(第1雑音空間共分散行列)を得て出力する(ステップS11)。なお、雑音源とは、音声のように一つの場所から生成される音(点音源)以外に、暗騒音のように周囲のあらゆる方向から到来する音(拡散性雑音)も含むものとする。また、「λt,f (j)」の右上添字の「(j)」は本来右下添字の「t,f」の真上に記載すべきであるが、記載表記の制約上、「t,f」の右上に記載してある。「Ψ (j)」などその他の右上添字「(j)」を用いた表記も同様である。
≪時間周波数別観測信号xt,fの例示≫
音源sから発せられた音響信号はI個のマイクロホンi∈{1,…,I}(図示せず)で集音される。例えば、音源s∈{1,…,S}の何れかは雑音源j∈{1,…,J}である。集音された音響信号は時間領域のデジタル信号Xτ,1,…,Xτ,Iに変換され、時間領域のデジタル信号Xτ,1,…,Xτ,Iは、所定の時間区間ごとに周波数領域変換される。時間区間ごとの周波数領域変換の一例は短時間フーリエ変換である。例えば、当該時間区間ごとの周波数領域変換によって得られた信号を時間周波数別観測信号xt,f,1,…,xt,f,Iとし、xt,f=(xt,f,1,…,xt,f,Iとしてもよいし、当該時間区間ごとの周波数領域変換によって得られた信号らに何等かの演算を行って得られたものを時間周波数別観測信号xt,f,1,…,xt,f,Iとし、xt,f=(xt,f,1,…,xt,f,Iとしてもよい。すなわち、例えばi番目のマイクロホンで集音して得られた観測信号に対応する時間フレームtでの周波数帯域fに対応する各時間周波数別観測信号がxt,f,i(i∈{1,…,I})であり、xt,f=(xt,f,1,…,xt,f,Iである。本実施形態の雑音空間共分散行列計算部11には、少なくとも長時間区間Lに属する時間周波数別観測信号xt,f(ただしt∈L)が入力される。長時間区間Lに属する時間周波数別観測信号xt,fのみが入力されてもよいし、長時間区間Lを含む長時間区間Lよりも長い時間区間に属する時間周波数別観測信号xt,fが入力されてもよい。長時間区間Lに限定はない。例えば、集音が行われた時間区間全体を長時間区間Lとしてもよいし、そこから切り出された音声区間を長時間区間Lとしてもよいし、予め定められた時間区間を長時間区間Lとしてもよいし、指定された時間区間を長時間区間Lとしてもよい。長時間区間Lの例は、1秒から数十秒程度の時間区間である。時間周波数別観測信号xt,fは、図示していない記憶装置に格納されたものであってもよいし、ネットワークを通じて送信されるものであってもよい。
≪マスク情報λt,f (j)の例示≫
マスク情報λt,f (j)は、各時間周波数別観測信号xt,fに含まれる各雑音源jに対応する成分の占有確率を表す。言い換えると、マスク情報λt,f (j)は、時間フレームtでの周波数帯域fの各時間周波数別観測信号xt,f,1,…,xt,f,Iに含まれたj番目の雑音源に対応する成分の占有確率を表す。本実施形態では、図示していない外部の装置によって、少なくとも長時間区間Lに属する時間フレームt∈Lおよび短時間区間Bに属する時間フレームt∈Bについて各周波数帯域fおよび各雑音源jに対応するマスク情報λt,f (j)が推定されるものとする。マスク情報λt,f (j)の推定方法に限定はない。マスク情報λt,f (j)の推定方法は周知であり、例えば、complex Gaussian mixture model (CGMM)を用いる推定方法(例えば、参考文献1)、ニューラルネットワークを用いる推定方法(例えば、参考文献2)、およびそれらを結合した推定方法(例えば、参考文献3)などの様々な方法が知られている。
参考文献1:T. Higuchi, N. Ito, T. Yoshioka, and T. Nakatani, "Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise," Proc. IEEE ICASSP-2016, pp. 5210-5214, 2016.
参考文献2:J. Heymann, L. Drude, and R. Haeb-Umbach, "Neural network based spectral mask estimation for acoustic beamforming," Proc. IEEE ICASSP-2016, pp. 196-200, 2016.
参考文献3:T. Nakatani, N. Ito, T. Higuchi, S. Araki, and K. Kinoshita, "Integrating DNN-based and spatial clustering-based mask estimation for robust MVDR beamforming," Proc. IEEE ICASSP-2017, pp. 286-290, 2017.
マスク情報λt,f (j)は、事前に推定されて図示していない記憶装置に格納されたものであってもよいし、逐次的に推定されるものであってもよい。
≪雑音空間共分散行列Ψ (j)の例示≫
本実施形態の雑音空間共分散行列計算部11は、時間周波数別観測信号xt,fとマスク情報λt,f (j)とを入力とし、長時間区間Lに属する時間周波数別観測信号xt,fおよびマスク情報λt,f (j)に対応する時間非依存の雑音空間共分散行列Ψ (j)を推定して出力する。例えば、雑音空間共分散行列Ψ (j)は、長時間区間Lに属する時間フレームt∈Lでの周波数帯域fについてのλt,f (j)・xt,f・xt,f の総和または重み付け和である。例えば、雑音空間共分散行列計算部11は、以下の式(1)のように雑音空間共分散行列Ψ (j)を計算(推定)して出力する。
Figure 2020148880
ただし、ν (j)は実数のパラメータ(ハイパーパラメータ)であり、本実施形態のν (j)は定数である。ν (j)の意義については後述する。
<混合重み計算部12>
混合重み計算部12は、互いに異なる複数の短時間区間B(ただし、k∈{1,…,K})それぞれのマスク情報λt,f (j)を入力とし、それらを用いて各短時間区間Bにおける各雑音源j∈{1,…,J}に対応する混合重みμk,f (j)を得て出力する(ステップS12)。混合重みμk,f (j)の例は、全雑音源j’∈{1,…,J}についての各短時間区間Bに属する時間フレーム番号tでの周波数帯域fに対応するマスク情報λt,f (j’)の総和に対する、各雑音源jについての各短時間区間Bに属する時間フレームtでの周波数帯域fに対応するマスク情報λt,f (j)の総和の割合である。例えば、混合重み計算部12は、以下の式(2)のように混合重みμk,f (j)を得て出力する。
Figure 2020148880
<雑音空間共分散行列計算部13(第2雑音空間共分散行列計算部)>
雑音空間共分散行列計算部13は、時間周波数別観測信号xt,f、各雑音源j∈{1,…,J}のマスク情報λt,f (j)、各雑音源jの雑音空間共分散行列Ψ (j)、および各雑音源jの混合重みμk,f (j)を入力とし、各雑音源n∈{1,…,J}について各短時間区間B(ただし、k∈{1,…,K})に属する時間周波数別観測信号xt,fおよびマスク情報λt,f (j)に対応する時変の雑音空間共分散行列(第2雑音空間共分散行列)と、各短時間区間Bの混合重みμk,f (j)による雑音空間共分散行列Ψ (j)(第1雑音空間共分散行列)の重み付け和と、に基づく時変の雑音空間共分散行列R^k,f(第3雑音空間共分散行列)を得て出力する(ステップS13)。なお、「R」の右上添字「^」は本来「R」の真上に記載すべきであるが、記載表記の制約上、「R」の右上に記載する場合がある。例えば、全雑音源の足しあわせで構成される雑音について各短時間区間Bおよび周波数帯域fに属する時間周波数別観測信号xt,fおよびマスク情報λt,f (j)に対応する時変の雑音空間共分散行列(第2雑音空間共分散行列)は、各短時間区間Bに属する時間フレームtおよび全雑音源jでのλt,f (j)・xt,f・xt,f の総和または重み付け和である。また、雑音空間共分散行列R^k,f(第3雑音空間共分散行列)は、全雑音源の足しあわせで構成される雑音について各短時間区間Bおよび周波数帯域fに属する時間周波数別観測信号xt,fおよびマスク情報λt,f (j)に対応する時変の雑音空間共分散行列(第2雑音空間共分散行列)と、混合重みμk,f (j)による雑音空間共分散行列Ψ (j)の全雑音源j∈{1,…,J}についての重み付け和と、の重み付け和に基づく。例えば、雑音空間共分散行列計算部13は、以下の式(3)のように時変の雑音空間共分散行列R^k,fを計算(推定)して出力する。
Figure 2020148880
この例の雑音空間共分散行列R^k,fは、雑音空間共分散行列
Figure 2020148880
と、各短時間区間Bでの混合重みμk,f (j)による雑音空間共分散行列Ψ (j)の重み付け和
Figure 2020148880
との重み付け和であり、パラメータν (j)は、雑音空間共分散行列R^k,fにおける雑音空間共分散行列Ψ (j)および雑音空間共分散行列
Figure 2020148880
の重みを決定するものである。
なお、ここでは一例として、雑音空間共分散行列計算部13が、時間周波数別観測信号xt,f、各雑音源j∈{1,…,J}のマスク情報λt,f (j)、各雑音源jの雑音空間共分散行列Ψ (j)、および各雑音源jの混合重みμk,f (j)を入力として雑音空間共分散行列R^k,fを得る例を示したがこれは本発明を限定しない。すなわち、雑音空間共分散行列計算部13が、時間周波数別観測信号xt,fに代えて雑音空間共分散行列計算部11での計算途中で得られたλt,f (j)・xt,f・xt,f を入力として雑音空間共分散行列R^k,fを得てもよい。
<本実施形態の特徴>
本実施形態では、全雑音源の足しあわせで構成される雑音について各短時間区間B(ただし、k∈{1,…,K})および各周波数帯fに属する時間周波数別観測信号xt,fおよびマスク情報λt,f (j)に対応する時変の雑音空間共分散行列(第2雑音空間共分散行列)と、各短時間区間Bの混合重みμk,f (j)による雑音空間共分散行列Ψ (j)(第1雑音空間共分散行列)の重み付け和と、に基づく時変の雑音空間共分散行列R^k,f(第3雑音空間共分散行列)を生成した。ここで、雑音空間共分散行列Ψ (j)は長時間区間Lに属する時間周波数別観測信号xt,fおよびマスク情報λt,f (j)をすべて用いて計算されたものであり(ステップS11)、雑音空間共分散行列Ψ (j)について高い推定精度を担保できる。一方で、短時間区間B,…,Bについて、全雑音源の足しあわせで構成される雑音について各短時間区間Bに属する時間周波数別観測信号xt,fおよびマスク情報λt,f (j)に対応する時変の雑音空間共分散行列と、各短時間区間Bの混合重みμk,f (j)による雑音空間共分散行列Ψ (j)の重み付け和と、に基づく時変の雑音空間共分散行列R^k,fを得るため、得られた雑音空間共分散行列R^k,fは各短時間区間Bでの時間変化に柔軟に追従するものとなる。このように実施形態では、精度が高く、時間周波数別観測信号xt,fの時間変化に柔軟に追従する雑音空間共分散行列を得ることができる。
[第2実施形態]
次に第2実施形態を説明する。第2実施形態の第1実施形態との相違点は、入力されたパラメータに基づいて、第3雑音空間共分散行列における第1雑音空間共分散行列および第2雑音空間共分散行列の重みを変更可能な点である。以下では既に説明した事項との相違点を中心に説明し、既に説明した事項については同じ参照番号を用いて説明を簡略化する。
図1に例示するように、本実施形態の雑音空間共分散行列推定装置10は、雑音空間共分散行列計算部21,23、および混合重み計算部12を有する。第1実施形態の雑音空間共分散行列計算部11,13は、例えば、予め定められたパラメータν (j)を用いて式(1)(3)の計算を行っていた。これに対して第2実施形態の雑音空間共分散行列計算部21,23は、例えば、さらにパラメータν (j)の入力を受け付け、入力されたパラメータν (j)を用いて式(1)(3)の計算を行う。これにより、雑音空間共分散行列R^k,fにおける雑音空間共分散行列Ψ (j)および雑音空間共分散行列
Figure 2020148880
の重みを調整できる。すなわち、パラメータν (j)の値を大きくすればするほど、雑音空間共分散行列Ψ (j)の重みが大きくなり、時間周波数別観測信号xt,fの時間変化への追従度合の低下と引き換えに推定精度を向上させることになる。逆に、パラメータν (j)の値を小さくすればするほど、雑音空間共分散行列
Figure 2020148880
の重みが大きくなり、推定の安定性と引き換えに時間周波数別観測信号xt,fの時間変化への追従度合を向上させることになる。それ以外は第1実施形態で説明した通りである。
[第3実施形態]
次に第3実施形態を説明する。第3実施形態は第1,2実施形態の応用例であり、第1,2実施形態のように生成された雑音空間共分散行列R^k,fを雑音抑圧処理に利用するものである。以下、図3Aおよび図3Bを参照して第3実施形態の雑音抑圧装置30の構成およびその処理内容を説明する。
図3Aに例示するように、第3実施形態の雑音抑圧装置30は、雑音空間共分散行列推定装置10または20、ビームフォーマ推定部32、および抑圧部33を有する。
雑音空間共分散行列推定装置10または20は、第1または第2実施形態で説明したように、時間周波数別観測信号xt,fおよびマスク情報λt,f (j)(必要に応じてさらにパラメータν (j))を入力として雑音空間共分散行列R^k,fを生成して出力する(ステップS10(ステップS20))。雑音空間共分散行列R^k,fはビームフォーマ推定部32に送られる。
ビームフォーマ推定部32は、この雑音空間共分散行列R^k,fとビームフォーマを用いて推定したい音源に対応するステアリングベクトルvf,0とを入力とし、短時間区間Bごとにビームフォーマ(瞬時ビームフォーマ)Wk,fを生成して出力する(ステップS32)。ステアリングベクトルvf,0およびビームフォーマ(瞬時ビームフォーマ)Wk,fの生成方法は公知であり、例えば参考文献4,5等に記載されている。
参考文献4:T Higuchi, N Ito, T Yoshioka, T Nakatani, "Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise," Proc. ICASSP 2016, 2016.
参考文献5:J Heymann, L Drude, R Haeb-Umbach, "Neural network based spectral mask estimation for acoustic beamforming," Proc.ICASSP 2016, 2016.
ビームフォーマWk,fは抑圧部33に送られる。
抑圧部33は、時間周波数別観測信号xt,fおよびビームフォーマWk,fを入力とし、以下の式(4)のように、ビームフォーマWk,fを時間周波数別観測信号xt,fに適用し、時間周波数別観測信号xt,fから雑音を抑圧した時間周波数別抑圧信号yt,fを得て出力する。
t,f=Wk,ft,f (4)
時間周波数別抑圧信号yt,fは周波数領域で他の処理に利用されてもよいし、時間領域に変換されてもよい。例えば、上述のように得られた時間周波数別抑圧信号yt,fを音声認識処理に利用した場合、非特許文献1に示した時不変の雑音共分散行列推定法を用いてビームフォーマを推定し雑音抑圧をしてえられる信号を音声認識処理に利用する場合に比べて単語誤り率を20%程度改善できる。
[その他の変形例等]
なお、本発明は上述の実施形態に限定されるものではない。例えば、上述の実施形態では長時間区間Lの更新が行われなかったが、長時間区間Lを更新しながら、各短時間区間について上述のように時変の雑音空間共分散行列R^k,fを得てもよい。例えば、バッチ処理によって前述のように雑音空間共分散行列R^k,fを得てもよいし、リアルタイムで雑音空間共分散行列推定装置に入力される時系列の時間周波数別観測信号xt,fおよびマスク情報λt,f (j)から長時間区間L分のデータを順次切り出して前述のように雑音空間共分散行列R^k,fを得てもよい。
式(1)に代えて以下のように雑音空間共分散行列Ψ (j)を計算してもよい。
Figure 2020148880
ただし、βは係数であり、定数であってもよいし、変数であってもよい。
また、式(3)に代えて以下のように雑音空間共分散行列R^k,fを計算してもよい。
Figure 2020148880
ただし、θは係数であり、定数であってもよいし、変数であってもよい。
また第3実施形態では雑音空間共分散行列R^k,fを雑音抑圧処理に利用したが、雑音空間共分散行列R^k,fを音源位置(音源方向)の推定などの他の用途に利用してもよい。
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
上記の各装置は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)およびRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、プログラムを用いることなく処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されるのではなく、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。
10,20 雑音空間共分散行列推定装置

Claims (5)

  1. 単数または複数の音源から発せられた音響信号を集音して得られた観測信号に基づく時間周波数別観測信号、および、各前記時間周波数別観測信号に含まれる各雑音源に対応する成分の占有確率を表すマスク情報を用い、各前記雑音源について長時間区間に属する前記時間周波数別観測信号および前記マスク情報に対応する時間非依存の第1雑音空間共分散行列を得る第1雑音空間共分散行列計算部と、
    互いに異なる複数の短時間区間それぞれの前記マスク情報を用い、各前記短時間区間における各前記雑音源に対応する混合重みを得る混合重み計算部と、
    前記雑音源すべての足しあわせで構成される雑音について各前記短時間区間に属する前記時間周波数別観測信号および前記マスク情報に対応する時変の第2雑音空間共分散行列と、各前記短時間区間の前記混合重みによる前記第1雑音空間共分散行列の重み付け和と、に基づく時変の第3雑音空間共分散行列を得る第2雑音空間共分散行列計算部と、
    を有する雑音空間共分散行列推定装置。
  2. 請求項1の雑音空間共分散行列推定装置であって、
    前記第3雑音空間共分散行列は、前記第2雑音空間共分散行列と、各前記短時間区間での前記混合重みによる前記第1雑音空間共分散行列の重み付け和と、の重み付け和であり、
    前記第3雑音空間共分散行列における前記第1雑音空間共分散行列および前記第2雑音空間共分散行列の重みを変更可能である、雑音空間共分散行列推定装置。
  3. 請求項1または2の雑音空間共分散行列推定装置であって、
    αはαの非共役転置を表し、αはαの共役転置を表し、
    J個の前記雑音源が存在し、Jが1以上の整数であり、
    前記観測信号はI個のマイクロホンで集音されたものであり、Iが2以上の整数であり、
    i番目のマイクロホンで集音して得られた前記観測信号に対応する時間フレームtでの周波数帯域fに対応する各前記時間周波数別観測信号がxt,f,iであり、xt,f=(xt,f,1,…,xt,f,Iであり、
    時間フレームtでの周波数帯域fの各前記時間周波数別観測信号xt,f,1,…,xt,f,Iに含まれたj番目の前記雑音源に対応する成分の占有確率を表す前記マスク情報がλt,f (j)であり、
    j番目の各前記雑音源に対応する前記第1雑音空間共分散行列は、前記長時間区間に属する時間フレームtでの周波数帯域fについてのλt,f (j)・xt,f・xt,f の総和または重み付け和であるΨ (j)であり、
    各前記短時間区間B,…,Bについて、Kが2以上の整数であり、k=1,…,Kであり、
    各前記雑音源j∈{1,…,J}についての各前記短時間区間Bでの周波数帯域fに対応する前記混合重みμk,f (j)が、全前記雑音源j’∈{1,…,J}についての各前記短時間区間Bに属する時間フレームtでの周波数帯域fに対応する前記マスク情報λt,f (j’)の総和に対する、各前記雑音源jについての各前記短時間区間Bに属する時間フレームtでの周波数帯域fに対応する前記マスク情報λt,f (j)の総和の割合であり、
    前記雑音源すべての足しあわせで構成される雑音について各前記短時間区間Bおよび各周波数帯fに属する前記時間周波数別観測信号xt,fおよび前記マスク情報λt,f (j)に対応する前記第2雑音空間共分散行列は、各前記短時間区間Bおよび各周波数帯fに属する時間フレームtおよび全雑音源jでのλt,f (j)・xt,f・xt,f の総和または重み付け和であり、
    前記第3雑音空間共分散行列が、前記第2雑音空間共分散行列と、前記混合重みμk,f (j)による前記第1雑音空間共分散行列Ψ (j)の全前記雑音源jについての重み付け和と、の重み付け和に基づく、雑音空間共分散行列推定装置。
  4. 単数または複数の音源から発せられた音響信号を集音して得られた観測信号に基づく時間周波数別観測信号、および、各前記時間周波数別観測信号に含まれる各雑音源に対応する成分の占有確率を表すマスク情報を用い、各前記雑音源について長時間区間に属する前記時間周波数別観測信号および前記マスク情報に対応する時間非依存の第1雑音空間共分散行列を得る第1雑音空間共分散行列計算ステップと、
    互いに異なる複数の短時間区間それぞれの前記マスク情報を用い、各前記短時間区間における各前記雑音源に対応する混合重みを得る混合重み計算ステップと、
    前記雑音源すべての足しあわせで構成される雑音について各前記短時間区間に属する前記時間周波数別観測信号および前記マスク情報に対応する時変の第2雑音空間共分散行列と、各前記短時間区間の前記混合重みによる前記第1雑音空間共分散行列の重み付け和と、に基づく時変の第3雑音空間共分散行列を得る第2雑音空間共分散行列計算ステップと、
    を有する雑音空間共分散行列推定方法。
  5. 請求項1から3の何れかに記載の雑音空間共分散行列推定装置としてコンピュータを機能させるためのプログラム。
JP2019045649A 2019-03-13 2019-03-13 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム Active JP7159928B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019045649A JP7159928B2 (ja) 2019-03-13 2019-03-13 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム
PCT/JP2020/008216 WO2020184210A1 (ja) 2019-03-13 2020-02-28 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム
US17/437,701 US11676619B2 (en) 2019-03-13 2020-02-28 Noise spatial covariance matrix estimation apparatus, noise spatial covariance matrix estimation method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019045649A JP7159928B2 (ja) 2019-03-13 2019-03-13 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2020148880A true JP2020148880A (ja) 2020-09-17
JP7159928B2 JP7159928B2 (ja) 2022-10-25

Family

ID=72427857

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019045649A Active JP7159928B2 (ja) 2019-03-13 2019-03-13 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム

Country Status (3)

Country Link
US (1) US11676619B2 (ja)
JP (1) JP7159928B2 (ja)
WO (1) WO2020184210A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113506582A (zh) * 2021-05-25 2021-10-15 北京小米移动软件有限公司 声音信号识别方法、装置及***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019045576A (ja) * 2017-08-30 2019-03-22 日本電信電話株式会社 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019045576A (ja) * 2017-08-30 2019-03-22 日本電信電話株式会社 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HIGUCHI, TAKUYA, ET AL.: "Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise", 2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, JPN6020017685, 19 May 2016 (2016-05-19), pages 5210 - 5214, ISSN: 0004786242 *

Also Published As

Publication number Publication date
JP7159928B2 (ja) 2022-10-25
WO2020184210A1 (ja) 2020-09-17
US11676619B2 (en) 2023-06-13
US20220130406A1 (en) 2022-04-28

Similar Documents

Publication Publication Date Title
JP4195267B2 (ja) 音声認識装置、その音声認識方法及びプログラム
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
US11894010B2 (en) Signal processing apparatus, signal processing method, and program
KR102236471B1 (ko) 재귀적 최소 제곱 기법을 이용한 온라인 cgmm에 기반한 방향 벡터 추정을 이용한 음원 방향 추정 방법
JP6622159B2 (ja) 信号処理システム、信号処理方法およびプログラム
CN106031196B (zh) 信号处理装置、方法以及程序
JP2020148909A (ja) 信号処理装置、信号処理方法およびプログラム
WO2020184210A1 (ja) 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP6711765B2 (ja) 形成装置、形成方法および形成プログラム
JP6815956B2 (ja) フィルタ係数算出装置、その方法、及びプログラム
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
JP6517124B2 (ja) 雑音抑圧装置、雑音抑圧方法、およびプログラム
JP4630203B2 (ja) 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体、並びに、信号到来方向推定装置、信号到来方向推定方法、信号到来方向推定プログラム及び記録媒体
JP5438629B2 (ja) ステレオ反響消去方法、ステレオ反響消去装置、ステレオ反響消去プログラム
JP7444243B2 (ja) 信号処理装置、信号処理方法、およびプログラム
JP6827908B2 (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
US20240127841A1 (en) Acoustic signal enhancement apparatus, method and program
JP2018191255A (ja) 収音装置、その方法、及びプログラム
WO2024038522A1 (ja) 信号処理装置、信号処理方法、プログラム
WO2019208137A1 (ja) 音源分離装置、その方法、およびプログラム
WO2021024474A1 (ja) Psd最適化装置、psd最適化方法、プログラム
WO2021024475A1 (ja) Psd最適化装置、psd最適化方法、プログラム
JP2019086581A (ja) 音場推定装置、その方法、及びプログラム
JP2014021438A (ja) 雑音抑圧装置およびそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220926

R150 Certificate of patent or registration of utility model

Ref document number: 7159928

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150