JP6225245B2 - 信号処理装置、方法及びプログラム - Google Patents

信号処理装置、方法及びプログラム Download PDF

Info

Publication number
JP6225245B2
JP6225245B2 JP2016505268A JP2016505268A JP6225245B2 JP 6225245 B2 JP6225245 B2 JP 6225245B2 JP 2016505268 A JP2016505268 A JP 2016505268A JP 2016505268 A JP2016505268 A JP 2016505268A JP 6225245 B2 JP6225245 B2 JP 6225245B2
Authority
JP
Japan
Prior art keywords
noise
component
derived
target area
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016505268A
Other languages
English (en)
Other versions
JPWO2015129760A1 (ja
Inventor
健太 丹羽
健太 丹羽
小林 和則
和則 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2015129760A1 publication Critical patent/JPWO2015129760A1/ja
Application granted granted Critical
Publication of JP6225245B2 publication Critical patent/JP6225245B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Otolaryngology (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

この発明は、数本のマイクロホンを用いて、ターゲット方向から到来する音源信号をクリアに収音する技術に関する。
まず、基本的な信号処理のフレームワークについて説明する。
M本のマイクロホンで構成されたアレイを用いることを想定する。Mは、2以上の整数である。例えば、Mを2から4程度とする。Mを100程度としてもよい。周波数ω、フレーム時間τにおける観測信号Xm(ω,τ)(m=1,2,…,M)には、コヒーレント性で非定常性のある1つのターゲット音S0(ω,τ)と、K個の干渉雑音Sk(ω,τ)(k=1,2,…,K)と、インコヒーレントな定常性雑音Nm(ω,τ)とが含まれる。Kを所定の正の整数とする。mは各マイクロホンの番号であり、観測信号Xm(ω,τ)はマイクロホンmで収音された時間領域の信号を周波数領域に変換した信号である。
ターゲット音とは、所定のターゲットエリアから到来する音のことである。ターゲットエリアとは、収音したい音源を含むエリアのことである。収音したい音源の数及び収音したい音源のターゲットエリア内での位置は、未知であってもよい。例えば、図6に例示するように、6個のスピーカ及び3個のマイクロホンが配置されている領域が、3個のエリア(エリア1、エリア2及びエリア3)に分割されているとする。収音したい音源がエリア1に含まれている場合には、エリア1がターゲットエリアとなる。
なお、ターゲット音には、ターゲットエリア外の音源からの反射音が含まれてもよい。例えば、ターゲットエリアがエリア1である場合には、エリア2及びエリア3に含まれる音源から生じた音の中で反射によりエリア1の方向からマイクロホンに到来する音をターゲット音が含んでいてもよい。
ターゲットエリアは、マイクロホンからの所定の距離以内のエリアであってもよい。言い換えれば、有限の面積を持つエリアであってもよい。さらに、ターゲットエリアは複数あってもよい。図7は、ターゲットエリアが2個ある場合の例を示す図である。
なお、雑音を発する音源が含まれるエリアのことを、雑音エリアとも呼ぶ。図6の例において、雑音を発する音源がエリア2とエリア3のそれぞれに含まれている場合には、エリア2及びエリア3のそれぞれが雑音エリアとなる。この例では、エリア2及びエリア3のそれぞれを雑音エリアとしたが、エリア2及びエリア3を合わせたエリアを雑音エリアとしてもよい。干渉雑音を発する音源が含まれる雑音エリアのことを特に干渉雑音エリアとも呼ぶ。雑音エリアはターゲットエリアとは異なるように設定する。
m番目のマイクロホンからターゲット音S0(ω,τ)までの伝達特性をAm,0(ω)と記述し、m番目のマイクロホンからk番目の干渉雑音までの伝達特性をAm,k(ω)と記述するとき、観測信号Xm(ω,τ)は以下のようにモデル化される。
Figure 0006225245
マイクロホン数が少ない場合、すなわち例えばM<Kである場合、最小分散法(MVDR)に基づくビームフォーミングとポストフィルタを組み合わせたフレームワークが雑音抑圧に有効とされている(例えば、非特許文献1参照。)。図1にポストフィルタ型アレイの処理フローを示す。ターゲット音を強調するように設計されたフィルタ係数w0(ω)=[W0,1(ω),…,W0,M(ω)]Tは、以下のように計算される。
Figure 0006225245
ここで、xを任意のベクトル又は行列として、xTはxの転置を意味し、xHはxの共役転置を意味する。h0(ω)=[H0,1(ω),…,H0,M(ω)]Tは、ターゲット音方向のアレイマニフォールドべクトルである。アレイマニホールドベクトルとは、音源からマイクロホンまでの伝達特性H0,m(ω)をベクトルh0(ω)にしたものであり、音源からマイクロホンまでの伝達特性H0,m(ω)は、音源とマイク位置から理論的に算出できる直接音のみを想定した伝達特性や、実測した伝達特性、鏡像法や有限要素法などの計算機シミュレーションにより推定した伝達特性である。源信号が互いに無相関であると仮定すると、空間相関行列R(ω)は以下のようにモデル化できる。
Figure 0006225245
ここで、hk(ω)は、k番目の干渉雑音のアレイマニフォールドべクトルである。ビームフォーミングの出力信号Y0(ω,τ)は以下の式により得られる。
Figure 0006225245
ここで、x(ω,τ)=[X1(ω,τ),…,XM(ω,τ)]Tである。Y0(ω,τ)に含まれる雑音信号を抑圧するために、ポストフィルタG(ω,τ)を掛け合わせる。
Figure 0006225245
最後に、Z(ω,τ)を逆高速フーリエ変換(IFFT)することで、出力信号を得る。
次に、非特許文献2に基づくポストフィルタ設計法について説明する。
非特許文献2では、複数のビームフォーミングを用いて推定した各エリアのパワースぺクトル密度(PSD)に基づいてポストフィルタを設計する方式が提案されている(例えば、非特許文献2参照。)。以下、この方式をLPSD法(Local PSD-based post-filter design)と呼ぶ。図2を用いて、LPSD法の処理フローを説明する。
Wiener法に基づいてポストフィルタを設計する場合、G(ω,τ)は以下のように計算される。
Figure 0006225245
ここで、φS(ω,τ)はターゲットエリアのパワースペクトル密度を表し、φN(ω,τ)は雑音エリアのパワースペクトル密度を表す。ここで、あるエリアのパワースペクトル密度と言った場合には、そのエリアから到来する音のパワースペクトル密度のことを意味する。すなわち、例えば、ターゲットエリアのパワースペクトル密度とはターゲットエリアから到来する音のパワースペクトル密度のことであり、雑音エリアのパワースペクトル密度とは雑音エリアから到来する音のパワースペクトル密度のことである。Xm(ω,τ)からφS(ω,τ),φN(ω,τ)を推定するための方法は様々あるが、観測信号に干渉雑音が含まれることを想定しているので、LPSD法を用いる。
LPSD法では、観測信号にターゲット音と干渉雑音とが含まれていて、それらが時間周波数領域でスパースであることを仮定している。様々な方向に位置する各エリアのパワースペクトル密度を解析するために、L+1個のビームフォーミングフィルタwu(ω)(u=0,1,…,L)を設計する。フィルタwu(ω)のk番目のエリア方向に対する感度|Du,k(ω)|2と、u番目の出力信号のパワー|Yu(ω,τ)|2と、各エリアのパワースペクトル密度|Sk(ω,τ)|2との関係は以下のようにモデル化できる。ここで、|Du,k(ω)|2は、例えば|Du,k(ω)|2=|wu H(ω)hk(ω)|2である。|Du,k(ω)|2として、実測値を用いてもよい。
Figure 0006225245
ここで、各シンボルのインデックスを省略した。すなわち、Yu=Yu(ω,τ)であり、Du,k=Du,k(ω)であり、Su=Su(ω,τ)である。また、ΦY(ω,τ)=[|Y0(ω,τ)|2,|Y1(ω,τ)|2,…,|YL(ω,τ)|2]Tであり、ΦS(ω,τ)=[|S0(ω,τ)|2,|S1(ω,τ)|2,…,|SK(ω,τ)|2]Tであるとする。
例えば式(7)の逆問題を解くことで、各エリアのパワースペクトル密度は算出される。
Figure 0006225245
ここで、bを任意の行列として、b+はbに対する疑似逆行列演算を表す。局所PSD推定部11は、観測信号Xm(ω,τ)(m=1,2,…,M)を入力として、例えば式(8)により定義される局所パワースペクトル密度^ΦS(ω,τ)を出力する。「^」は、推定されたものであることを意味する。
局所とは、エリアのことを意味する。図6の例では、エリア1、エリア2及びエリア3のそれぞれが局所である。局所PSD推定部は、各エリアのパワースペクトル密度^ΦS(ω,τ)を推定し出力する。
ターゲットエリア/雑音エリアPSD推定部12は、周波数ω及びフレームτ毎に式(8)に基づいて推定された局所パワースペクトル密度^ΦS(ω,τ)を入力として、以下の式により定義される^φS(ω,τ)及び^φN(ω,τ)を算出する。
Figure 0006225245
最後に、ウィーナーゲイン計算部13は、^φS(ω,τ)及び^φN(ω,τ)を入力として、式(6)により定義されるポストフィルタG(ω,τ)を計算し出力する。具体的には、ウィーナーゲイン計算部13は、式(6)のφS(ω,τ)及びφN(ω,τ)としてそれぞれ^φS(ω,τ)及び^φN(ω,τ)を入力することにより、G(ω,τ)を計算し出力する。
LPSD法の主な利点は以下の2つである。(i)パワースぺクトル領域でビームフォーミングの出力と各音源の関係を定式化し、マイクロホン本数を上回る制御自由度を得ることができるので、雑音を効果的に抑圧できることと、(ii)L個のビームフォーミングフィルタwu(ω)(u=0,1,…,L)と式(7)のD(ω)とを事前に計算すれば、(i)のメリットを低演算で実装できることである。
C. Marro et al., "Analysis of noise reduction and dereverberation techniques based on microphone arrays with postfiltering," IEEE Trans. Speech, Audio Proc., 6, 240-259, 1998. Y. Hioka et al., "Underdetermined sound source separation using power spectrum density estimated by combination of directivity gain," IEEE Trans. Audio, Speech, Language Proc., 21, 1240-1250, 2013.
LPSD法では、ターゲット音と干渉雑音とが混在することを仮定して問題を定式化してきた。しかし、実用上の問題では、コヒーレント性のある干渉雑音だけでなく、インコヒーレント性の強い定常性雑音(空調の雑音、マイクの内部雑音等)が混在することが多い。この場合、φS(ω,τ)及びφN(ω,τ)の推定誤差が大きくなり、雑音抑圧性能が低下してしまうことがあった。
この発明は、雑音抑制性能を従来よりも向上させた信号処理装置、方法及びプログラムを提供することを目的とする。
この発明の一態様による信号処理装置は、マイクロホンアレーを構成するM個のマイクロホンで収音された信号から得られた周波数領域の観測信号に基づいて、ターゲットエリア及び上記ターゲットエリアと異なる少なくとも1個の雑音エリアのそれぞれの局所パワースペクトル密度を推定する局所PSD推定部と、ωを周波数とし、τをフレームのインデックスとして、推定された局所パワースペクトル密度に基づいて、ターゲットエリアのパワースペクトル密度^φS(ω,τ)及び雑音エリアのパワースペクトル密度^φN(ω,τ)を推定するターゲットエリア/雑音エリアPSD推定部と、ターゲットエリアのパワースペクトル密度^φS(ω,τ)から、ターゲットエリアから到来する音に由来する非定常成分^φS (A)(ω,τ)及びインコヒーレントな雑音に由来する定常成分^φS (B)(ω,τ)を抽出する第一成分抽出部と、雑音のパワースペクトル密度^φN(ω,τ)から、干渉雑音に由来する非定常成分^φN (A)(ω,τ)を抽出する第二成分抽出部と、ターゲットエリアから到来する音に由来する非定常成分^φS (A)(ω,τ)と、インコヒーレントな雑音に由来する定常成分^φS (B)(ω,τ)と、干渉雑音に由来する非定常成分^φN (A)(ω,τ)とを少なくとも用いて、ターゲットエリアから到来する音の非定常成分を強調するポストフィルタ~G(ω,τ)を計算する多様雑音対応型ゲイン計算部と、を備えている。
雑音抑制性能を従来よりも向上させることができる。
ポストフィルタ型アレイの処理フローを示す図。 従来のポストフィルタ推定部のブロック図。 この発明によるポストフィルタ推定装置の例のブロック図。 この発明によるポストフィルタ推定方法の例のブロック図。 実験結果を説明するための図。 ターゲットエリア及び雑音エリアの例を説明するための図。 ターゲットエリアの例を説明するための図。 ゲインシェーピングの例を説明するための図。
以下に説明する信号処理装置及び方法では、LPSD法を拡張することで、様々な雑音環境に対して頑健にポストフィルタを推定する。具体的には、雑音の種類毎に分割してパワースペクトル密度を推定することで、ターゲット音のパワーとその他雑音のパワーとの比の推定誤差を小さくする。
図3に、この発明の一実施形態による信号処理装置であるポストフィルタ推定部1の例のブロック図を示す。
信号処理装置は、図3に示すように、局所PSD推定部11、ターゲットエリア/雑音エリアPSD推定部12と、第一成分抽出部14、第二成分抽出部15と、多様雑音対応型ゲイン計算部16と、時間周波数平均化部17と、ゲインシェーピング部18とを例えば備えている。
この信号処理装置により例えば実現される信号処理の各ステップを、図4に示す。
以下、信号処理装置及び方法の実施形態の詳細について説明する。なお、基本的な信号処理のフレームワーク、言葉の定義等については、背景技術の欄に記載したものと同様である。よって、これらの重複説明を省略する。
<局所PSD推定部11>
局所PSD推定部11は、従来の局所PSD推定部11と同様である。
すなわち、局所PSD推定部11は、マイクロホンアレーを構成するM個のマイクロホンで収音された信号から得られた周波数領域の観測信号Xm(ω,τ)(m=1,2,…,M)に基づいて、ターゲットエリア及び雑音エリアのそれぞれの局所パワースペクトル密度^ΦS(ω,τ)を推定する(ステップS1)。ωは周波数であり、τはフレームのインデックスである。Mは、2以上の整数である。例えば、Mを2から4程度とする。Mを100程度としてもよい。
推定された局所パワースペクトル密度^ΦS(ω,τ)は、ターゲットエリア/雑音エリアPSD推定部12に出力される。
局所パワースペクトル密度の推定の具体的な処理の例については、背景技術の欄に記載したものと同様であるため、ここでは説明を省略する。
なお、ビームフォーミングフィルタwu(ω)及び感度|Du,k(ω)|2は、局所PSD推定部11の処理に先立ち予め設定されているものとする。また、ターゲットエリアの方向がある程度変化する場合には、局所PSD推定部11は、複数のフィルタセットを用意しておき、最大のパワーをとるようなフィルタを選択してもよい。
なお、局所PSD推定部11は、ビームフォーミングにより得られたYu(ω,τ)(u=0,1,…,L)ではなく、各エリアの方向に指向性を有する各1個のマイクロホンで収音されたYu(ω,τ)(u=0,1,…,L)に基づいて局所パワースペクトル密度^ΦS(ω,τ)を推定してもよい。
<ターゲットエリア/雑音エリアPSD推定部12>
ターゲットエリア/雑音エリアPSD推定部12は、従来のターゲットエリア/雑音エリアPSD推定部12と同様である。
すなわち、ターゲットエリア/雑音エリアPSD推定部12は、推定された局所パワースペクトル密度に基づいて、ターゲットエリアのパワースペクトル密度^φS(ω,τ)及び雑音エリアのパワースペクトル密度^φN(ω,τ)を推定する(ステップS2)。
推定されたターゲットエリアのパワースペクトル密度^φS(ω,τ)は、第一成分抽出部14に出力される。推定された雑音エリアのパワースペクトル密度^φN(ω,τ)は、第二成分抽出部15に出力される。
ターゲットエリアのパワースペクトル密度^φS(ω,τ)及び雑音エリアのパワースペクトル密度^φN(ω,τ)の推定の具体的な処理の例については、背景技術の欄に記載したものと同様であるため、ここでは説明を省略する。
<第一成分抽出部14>
例えば式(9)により定義される^φS(ω,τ)には、ターゲットエリアから到来する音に由来する非定常成分^φS (A)(ω,τ)及びインコヒーレントな雑音に由来する定常成分^φS (B)(ω,τ)が含まれる。ここで、定常成分とは時間的に変化の少ない成分のことであり、非定常成分とは時間的に変化の多い成分のことである。
ここで、雑音には、干渉雑音とインコヒーレントな雑音との2種類の雑音がある。干渉雑音とは、雑音エリアに配置された雑音音源から発せられた雑音のことである。インコヒーレントな雑音とは、ターゲットエリア及び雑音エリアから発せられたものではなく、これらのエリア以外の場所から発せられ、定常的に存在している雑音のことである。
そこで、第一成分抽出部14は、ターゲットエリアのパワースペクトル密度^φS(ω,τ)から、ターゲットエリアから到来する音に由来する非定常成分^φS (A)(ω,τ)及びインコヒーレントな雑音に由来する定常成分^φS (B)(ω,τ)を平滑化処理により抽出する(ステップS3)。例えば、平滑化処理は、式(11)及び式(12)のような指数移動平均処理、時間平均処理又は重み付き平均処理により実現される。
抽出されたターゲットエリアから到来する音に由来する非定常成分^φS (A)(ω,τ)及びインコヒーレントな雑音に由来する定常成分^φS (B)(ω,τ)は、多様雑音対応型ゲイン計算部16に出力される。
例えば、第一成分抽出部14は、式(11)及び式(12)のように指数移動平均処理をすることで、^φS(ω,τ)から^φS (B)(ω,τ)を計算する。
Figure 0006225245
ここで、αSは平滑化係数であり、所定の正の実数である。例えば、0<αS<1とする。また、αS=フレームの時間長/時定数として、時定数が150ms程度となるようにαSを設定してもよい。ΥSは、特定区間のフレームのインデックスの集合である。例えば、特定区間が3から4秒程度となるように設定される。minは、最小値を出力する関数である。
このように、^φS (B)(ω,τ)は、^φS(ω,τ)を例えば式(11)及び式(12)により平滑化した成分である。より具体的には、^φS (B)(ω,τ)は、^φS(ω,τ)を例えば式(11)により平滑化した値の所定の時間区間における最小値である。
そして、第一成分抽出部14は、式(13)のように、^φS(ω,τ)から^φS (B)(ω,τ)を減算することで^φS (A)(ω,τ)を計算する。
Figure 0006225245
ここで、βS(ω)は重み係数であり、所定の正の実数である。βS(ω)は、例えば1から3程度の実数に設定される。
このように、φS (A)(ω,τ)は、^φS(ω,τ)から^φS (B)(ω,τ)を除いた成分である。
なお、^φS (A)(ω,τ)は、^φS (A)(ω,τ)≧0という条件を満たすようにフロアリング処理されてもよい。このフロアリング処理は、例えば第一成分抽出部14により行われる。
<第二成分抽出部15>
例えば式(10)により定義される^φN(ω,τ)には、干渉雑音に由来する非定常成分^φN (A)(ω,τ)及びインコヒーレントな雑音に由来する定常成分^φN (B)(ω,τ)が含まれる。
そこで、第二成分抽出部15は、雑音エリアのパワースペクトル密度^φN(ω,τ)から、干渉雑音に由来する非定常成分^φN (A)(ω,τ)及びインコヒーレントな雑音に由来する定常成分^φN (B)(ω,τ)を平滑化処理により抽出する(ステップS4)。例えば、平滑化処理は、式(14)及び式(15)のような指数移動平均処理、時間平均処理又は重み付き平均処理により実現される。
抽出された干渉雑音に由来する非定常成分^φN (A)(ω,τ)及びインコヒーレントな雑音に由来する定常成分^φN (B)(ω,τ)は、多様雑音対応型ゲイン計算部16に出力される。
例えば、第二成分抽出部15は、式(14)及び式(15)のように指数移動平均処理をすることで、^φN(ω,τ)から^φN (B)(ω,τ)を計算する。
Figure 0006225245
ここで、αNは平滑化係数であり、所定の正の実数である。例えば、0<αN<1とする。また、αN=フレームの時間長/時定数として、時定数が150ms程度となるようにαNを設定してもよい。ΥNは、特定区間のフレームのインデックスの集合である。例えば、特定区間が3から4秒程度となるように設定される。
このように、^φN (B)(ω,τ)は、^φN(ω,τ)を例えば式(14)及び式(15)により平滑化した成分である。より具体的には、^φN (B)(ω,τ)は、^φN(ω,τ)を例えば式(14)により平滑化した値の所定の時間区間における最小値である。
そして、第二成分抽出部15は、式(16)のように、^φN(ω,τ)から^φN (B)(ω,τ)を減算することで^φN (A)(ω,τ)を計算する。
Figure 0006225245
ここで、βN(ω)は重み係数であり、所定の正の実数である。βN(ω)は、例えば1から3程度の実数に設定される。
このように、φN (A)(ω,τ)は、^φN(ω,τ)から^φN (B)(ω,τ)を除いた成分である。
なお、^φN (A)(ω,τ)は、^φN (A)(ω,τ)≧0という条件を満たすようにフロアリング処理されてもよい。このフロアリング処理は、例えば第二成分抽出部15により行われる。
αNは、αSと同じであっても異なっていてもよい。ΥNは、ΥSと同じであっても異なっていてもよい。βN(ω)は、βS(ω)と同じであっても異なっていてもよい。
なお、多様雑音対応型ゲイン計算部16において^φN (B)(ω,τ)が用いられない場合には、第二成分抽出部15は^φN (B)(ω,τ)を求めなくてもよい。言い換えれば、この場合、第二成分抽出部15は、^φN (A)(ω,τ)のみを^φN(ω,τ)から求めてもよい。
<多様雑音対応型ゲイン計算部16>
多様雑音対応型計算部16は、ターゲットエリアから到来する音に由来する非定常成分^φS (A)(ω,τ)と、インコヒーレントな雑音に由来する定常成分^φS (B)(ω,τ)と、干渉雑音に由来する非定常成分^φN (A)(ω,τ)とを少なくとも用いて、ターゲットエリアから到来する音の非定常成分を強調するポストフィルタ~G(ω,τ)を計算する(ステップS5)。
計算されたポストフィルタ~G(ω,τ)は、時間周波数平均化部17に出力される。
雑音の種類ごとに(言い換えれば、インコヒーレントな雑音、コヒーレントな雑音という雑音の種類ごと)パワースペクトル密度を推定したので、多様雑音対応型ゲイン計算部16は、例えば、以下の式(17)により定義されるポストフィルタ~G(ω,τ)を計算する。
Figure 0006225245
S (B)(ω,τ)の値の振る舞いと^φN (B)(ω,τ)の値の振る舞いとに違いがあり、インコヒーレント性の仮定が崩れている場合には、多様雑音対応型ゲイン計算部16は以下の式(18)により定義されるポストフィルタ~G(ω,τ)を計算してもよい。
Figure 0006225245
<時間周波数平均化部17>
時間周波数平均化部17は、ポストフィルタ~G(ω,τ)について時間方向と周波数方向との少なくとも一方の方向への平滑化処理を行う(ステップS6)。
平滑化処理されたポストフィルタ~G(ω,τ)は、ゲインシェーピング部18に出力される。
時間方向に平滑化を行う場合には、τ0及びτ1を0以上の整数として、時間周波数平均化部17は、例えば、ポストフィルタ~G(ω,τ)の時間方向に近傍のポストフィルタである~G(ω,τ-τ0),…~G(ω,τ+τ1)について加算平均をすればよい。時間周波数平均化部17は、~G(ω,τ-τ0),…~G(ω,τ+τ1)について重み付き加算をしてもよい。
また、周波数方向に平滑化を行う場合には、ω0及びω1を0以上の実数として、時間周波数平均化部17は、例えば、ポストフィルタ~G(ω,τ)の周波数方向に近傍のポストフィルタである~G(ω-ω0,τ),…~G(ω+ω1,τ)について加算平均をすればよい。時間周波数平均化部17は、~G(ω-ω0,τ),…~G(ω+ω1,τ)について重み付き加算をしてもよい。
<ゲインシェーピング部18>
ゲインシェーピング部18は、平滑化処理が行われたポストフィルタ~G(ω,τ)についてゲインシェーピングを行うことにより、ポストフィルタG(ω,τ)を生成する(ステップS7)。ゲインシェーピング部18は、例えば、以下の式(19)により定義されるポストフィルタG(ω,τ)を生成する。
Figure 0006225245
ここで、γは重み係数であり、正の実数である。例えば、γを1から1.3程度に設定すればよい。
ゲインシェーピング部18は、A≦G(ω,τ)≦1を満たすように、ポストフィルタG(ω,τ)についてフロアリング処理をしてもよい。Aは0から0.3の実数であり、通常0.1程度とする。G(ω,τ)が1より大きいと強調し過ぎになる可能性があり、また、G(ω,τ)が小さ過ぎるとミュージカルノイズの発生する可能性がある。適切なフロアリング処理を行うことにより、この強調及びミュージカルノイズの発生を防止することができる。
定義域及び値域が実数である関数fを考える。関数fは例えば非減少関数とする。ゲインシェーピングは、ゲインシェーピング前の~G(ω,τ)を関数fに入力したときの出力値を求める操作を意味する。言い換えれば、関数fに~G(ω,τ)を入力したときの出力値がG(ω,τ)である。関数fの例が、式(19)である。式(19)による関数fは、f(x)=γ(x-0.5)+0.5である。
他の関数fの他の例を図8を用いて説明する。図8では、インデックスを省略している。すなわち、図8のGはG(ω,τ)を意味し、~Gは~G(ω,τ)を意味する。まず、この例では、図8(A)から図8(B)に示すように、関数fのグラフの傾きを変えている。そして、図8(B)から図8(C)に示すように、0≦G(ω,τ)≦1を満たすように、フロアリング処理をしている。この図8(C)の太線により示されるグラフで特定される関数が関数fの他の例である。
関数fのグラフは、図8(C)に示すものに限られない。例えば、図8(C)では、関数fのグラフは直線で構成されているが、関数fのグラフは曲線で構成されていてもよい。例えば、関数fは、ハイパボリックタンジェント関数に対してフロアリング処理を施したものであってもよい。
この信号処理装置及び方法によれば、多様な性質を持つ雑音が存在する環境に対して頑健に、雑音抑圧するためのポストフィルタを設計することができる。また、リアルタイム性のある処理で、このようなポストフィルタを設計することができる。
[実装例と実験結果]
LPSD法を従来方式として、提案方式の効果を検証するための実験を行なった。図5のように、残響時間110ms(1.0kHz)の室に音源やアレイを配置した。ターゲット音(男女発話)、K=3個の干渉雑音(#1:男女発話、#2,3:音楽)、室の四隅のスピーカから白色雑音を放射して再現した背景雑音がある中で、M=4本の無指向性マイクロホンを用いて収録した。観測時のSN比は、平均-1dBであった。また、サンプリング周波数を16.0kHzとし、FFT解析長を512ptとし、FFTシフト長を256ptとした。
この条件の下で、以下の式により定義されるスぺクトル歪(SD)により、雑音抑圧性能を評価した。
Figure 0006225245
ここで、Ψと|Ψ|は、それぞれフレームのインデックス集合とその総数を表す。Ωと|Ω|は、それぞれ周波数ビンのインデックスとその総数を表す。SDは値が小さいほど雑音抑圧性能が高い。男女発話650文に対してSDを算出し、従来方式で14.0、提案方式で11.5となり、SDが低減した。特に、発話区間外の背景雑音に対する抑圧効果が高まった。
[変形例等]
時間周波数平均化部17及びゲインシェーピング部18の処理は、いわゆるミュージカルノイズを抑えるために行われる。時間周波数平均化部17及びゲインシェーピング部18の処理は、行われなくてもよい。
指数移動平均処理による^φS (B)(ω,τ)及び^φS (A)(ω,τ)の計算は、第一成分抽出部14の処理の一例である。第一成分抽出部14は、他の処理により、^φS (B)(ω,τ)及び^φS (A)(ω,τ)を抽出してもよい。
同様に、指数移動平均処理による^φN (B)(ω,τ)及び^φN (A)(ω,τ)の計算は、第二成分抽出部15の処理の一例である。第二成分抽出部15は、他の処理により、^φN (B)(ω,τ)及び^φN (A)(ω,τ)を抽出してもよい。
上記信号処理装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
また、信号処理装置における各部をコンピュータによって実現する場合、信号処理装置の各部が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各部がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
スマートフォンのコマンド入力として、音声認識が一般的に利用されるようになってきた。車内や工場内といった雑音下では、ハンズフリーで機器を操作したり、遠隔地と通話するといった需要が高いと考えられる。
この発明は、例えばこのような場合に利用することができる。

Claims (6)

  1. マイクロホンアレーを構成するM個のマイクロホンで収音された信号から得られた周波数領域の観測信号に基づいて、所定のターゲットエリア及び上記ターゲットエリアと異なる少なくとも1個の雑音エリアのそれぞれの局所パワースペクトル密度を推定する局所PSD推定部と、
    ωを周波数とし、τをフレームのインデックスとして、上記推定された局所パワースペクトル密度に基づいて、ターゲットエリアのパワースペクトル密度^φS(ω,τ)及び雑音エリアのパワースペクトル密度^φN(ω,τ)を推定するターゲットエリア/雑音エリアPSD推定部と、
    上記ターゲットエリアのパワースペクトル密度^φS(ω,τ)から、ターゲットエリアから到来する音に由来する非定常成分^φS (A)(ω,τ)及びインコヒーレントな雑音に由来する定常成分^φS (B)(ω,τ)を抽出する第一成分抽出部と、
    上記雑音エリアのパワースペクトル密度^φN(ω,τ)から、干渉雑音に由来する非定常成分^φN (A)(ω,τ)を抽出する第二成分抽出部と、
    上記ターゲットエリアから到来する音に由来する非定常成分^φS (A)(ω,τ)と、上記インコヒーレントな雑音に由来する定常成分^φS (B)(ω,τ)と、上記干渉雑音に由来する非定常成分^φN (A)(ω,τ)とを少なくとも用いて、上記ターゲットエリアから到来する音の非定常成分を強調するポストフィルタ~G(ω,τ)を計算する多様雑音対応型ゲイン計算部と、
    を含む信号処理装置。
  2. 請求項1の信号処理装置であって、
    上記インコヒーレントな雑音に由来する定常成分^φS (B)(ω,τ)は、上記ターゲットエリアのパワースペクトル密度^φS(ω,τ)を平滑化した成分であり、
    上記ターゲットエリアから到来する音に由来する非定常成分^φS (A)(ω,τ)は、上記ターゲットエリアのパワースペクトル密度^φS(ω,τ)から上記インコヒーレントな雑音に由来する定常成分^φS (B)(ω,τ)を除いた成分であり、
    上記干渉雑音に由来する非定常成分^φN (A)(ω,τ)は、上記雑音エリアのパワースペクトル密度^φN(ω,τ)から上記雑音エリアのパワースペクトル密度^φN(ω,τ)を平滑化した成分を除いた成分である、
    信号処理装置。
  3. 請求項1の信号処理装置であって、
    上記第二成分抽出部は、上記雑音エリアのパワースペクトル密度^φN(ω,τ)から、干渉雑音に由来する非定常成分^φN (A)(ω,τ)を更に抽出し、
    上記第一成分抽出部は、αSを所定の実数とし、ΥSを特定区間のフレームのインデックスの集合とし、βS(ω)を所定の実数とし、以下の式により定義される^φS (A)(ω,τ)及び^φS (B)(ω,τ)を計算し、計算された^φS (A)(ω,τ)を上記ターゲットエリアから到来する音に由来する非定常成分^φS (A)(ω,τ)とし、計算された^φS (B)(ω,τ)を上記インコヒーレントな雑音に由来する定常成分^φS (B)(ω,τ)とし、
    Figure 0006225245

    上記第二成分抽出部は、αNを所定の実数とし、ΥNを特定区間のフレームのインデックスの集合とし、βN(ω)を所定の実数とし、以下の式により定義される^φN (A)(ω,τ)及び^φN (B)(ω,τ)を計算し、計算された^φN (A)(ω,τ)を上記干渉雑音に由来する非定常成分^φN (A)(ω,τ)とし、^φN (B)(ω,τ)を上記インコヒーレントな雑音に由来する定常成分^φN (B)(ω,τ)とし、
    Figure 0006225245

    上記多様雑音対応型ゲイン計算部は、上記インコヒーレントな雑音に由来する定常成分^φN (B)(ω,τ)を更に用いて、上記ターゲットエリアから到来する音の非定常成分を強調するポストフィルタ~G(ω,τ)を計算する、
    信号処理装置。
  4. 請求項1から3の何れかの信号処理装置であって、
    上記ポストフィルタ~G(ω,τ)について時間方向と周波数方向との少なくとも一方の方向への平滑化処理を行う時間周波数平均化部と、
    上記平滑化処理が行われたポストフィルタ~G(ω,τ)についてゲインシェーピングを行うゲインシェーピング部と、
    を更に含む信号処理装置。
  5. マイクロホンアレーを構成するM個のマイクロホンで収音された信号から得られた周波数領域の観測信号に基づいて、ターゲットエリア及び上記ターゲットエリアと異なる少なくとも1個の雑音エリアのそれぞれの局所パワースペクトル密度を推定する局所PSD推定ステップと、
    ωを周波数とし、τをフレームのインデックスとして、上記推定された局所パワースペクトル密度に基づいて、ターゲットエリアのパワースペクトル密度^φS(ω,τ)及び雑音エリアのパワースペクトル密度^φN(ω,τ)を推定するターゲットエリア/雑音エリアPSD推定ステップと、
    上記ターゲットエリアのパワースペクトル密度^φS(ω,τ)から、ターゲットエリアから到来する音に由来する非定常成分^φS (A)(ω,τ)及びインコヒーレントな雑音に由来する定常成分^φS (B)(ω,τ)を抽出する第一成分抽出ステップと、
    上記雑音エリアのパワースペクトル密度^φN(ω,τ)から、干渉雑音に由来する非定常成分^φN (A)(ω,τ)を抽出する第二成分抽出ステップと、
    上記ターゲットエリアから到来する音に由来する非定常成分^φS (A)(ω,τ)と、上記インコヒーレントな雑音に由来する定常成分^φS (B)(ω,τ)と、上記干渉雑音に由来する非定常成分^φN (A)(ω,τ)とを少なくとも用いて、上記ターゲットエリアから到来する音の非定常成分を強調するポストフィルタ~G(ω,τ)を計算する多様雑音対応型ゲイン計算ステップと、
    を含む信号処理方法。
  6. 請求項1から4の何れかの信号処理装置の各部としてコンピュータを機能させるためのプログラム。
JP2016505268A 2014-02-28 2015-02-25 信号処理装置、方法及びプログラム Active JP6225245B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014037820 2014-02-28
JP2014037820 2014-02-28
PCT/JP2015/055442 WO2015129760A1 (ja) 2014-02-28 2015-02-25 信号処理装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2015129760A1 JPWO2015129760A1 (ja) 2017-03-30
JP6225245B2 true JP6225245B2 (ja) 2017-11-01

Family

ID=54009075

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016505268A Active JP6225245B2 (ja) 2014-02-28 2015-02-25 信号処理装置、方法及びプログラム

Country Status (5)

Country Link
US (1) US9747921B2 (ja)
EP (1) EP3113508B1 (ja)
JP (1) JP6225245B2 (ja)
CN (1) CN106031196B (ja)
WO (1) WO2015129760A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10181329B2 (en) * 2014-09-05 2019-01-15 Intel IP Corporation Audio processing circuit and method for reducing noise in an audio signal
WO2017094862A1 (ja) * 2015-12-02 2017-06-08 日本電信電話株式会社 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム
JP6915579B2 (ja) * 2018-04-06 2021-08-04 日本電信電話株式会社 信号分析装置、信号分析方法および信号分析プログラム
JP2019193073A (ja) * 2018-04-24 2019-10-31 日本電信電話株式会社 音源分離装置、その方法、およびプログラム
CN109490626B (zh) * 2018-12-03 2021-02-02 中车青岛四方机车车辆股份有限公司 一种基于非平稳随机振动信号的标准psd获取方法及装置
WO2022038673A1 (ja) * 2020-08-18 2022-02-24 日本電信電話株式会社 収音装置、収音方法、プログラム
CN113808608B (zh) * 2021-09-17 2023-07-25 随锐科技集团股份有限公司 一种基于时频掩蔽平滑策略的单声道噪声抑制方法和装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4950733B2 (ja) * 2007-03-30 2012-06-13 株式会社メガチップス 信号処理装置
EP2394270A1 (en) * 2009-02-03 2011-12-14 University Of Ottawa Method and system for a multi-microphone noise reduction
EP2226794B1 (en) * 2009-03-06 2017-11-08 Harman Becker Automotive Systems GmbH Background noise estimation
CN201418142Y (zh) * 2009-05-22 2010-03-03 杨辉隆 一种麦克风
DK2395506T3 (da) * 2010-06-09 2012-09-10 Siemens Medical Instr Pte Ltd Fremgangsmåde og system til behandling af akustisk signal til undertrykkelse af interferens og støj i binaurale mikrofonkonfigurationer
BR112012031656A2 (pt) * 2010-08-25 2016-11-08 Asahi Chemical Ind dispositivo, e método de separação de fontes sonoras, e, programa
JP5328744B2 (ja) * 2010-10-15 2013-10-30 本田技研工業株式会社 音声認識装置及び音声認識方法
JP2012177828A (ja) * 2011-02-28 2012-09-13 Pioneer Electronic Corp ノイズ検出装置、ノイズ低減装置及びノイズ検出方法
JP5836616B2 (ja) * 2011-03-16 2015-12-24 キヤノン株式会社 音声信号処理装置
US9002027B2 (en) * 2011-06-27 2015-04-07 Gentex Corporation Space-time noise reduction system for use in a vehicle and method of forming same
EP2884491A1 (en) * 2013-12-11 2015-06-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Extraction of reverberant sound using microphone arrays

Also Published As

Publication number Publication date
US9747921B2 (en) 2017-08-29
CN106031196A (zh) 2016-10-12
EP3113508A1 (en) 2017-01-04
JPWO2015129760A1 (ja) 2017-03-30
EP3113508B1 (en) 2020-11-11
CN106031196B (zh) 2018-12-07
EP3113508A4 (en) 2017-11-01
US20160372131A1 (en) 2016-12-22
WO2015129760A1 (ja) 2015-09-03

Similar Documents

Publication Publication Date Title
JP6225245B2 (ja) 信号処理装置、方法及びプログラム
US10123113B2 (en) Selective audio source enhancement
KR101934636B1 (ko) 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치
JP6584930B2 (ja) 情報処理装置、情報処理方法およびプログラム
WO2020108614A1 (zh) 音频识别方法、定位目标音频的方法、装置和设备
WO2015196729A1 (zh) 一种麦克风阵列语音增强方法及装置
JP6780644B2 (ja) 信号処理装置、信号処理方法、および信号処理プログラム
Niwa et al. Post-filter design for speech enhancement in various noisy environments
KR101720514B1 (ko) Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법
JP6724905B2 (ja) 信号処理装置、信号処理方法、およびプログラム
KR102410850B1 (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
Martín-Doñas et al. Dual-channel DNN-based speech enhancement for smartphones
JP6348427B2 (ja) 雑音除去装置及び雑音除去プログラム
JP6404780B2 (ja) ウィナーフィルタ設計装置、音強調装置、音響特徴量選択装置、これらの方法及びプログラム
Miyazaki et al. Theoretical analysis of parametric blind spatial subtraction array and its application to speech recognition performance prediction
JP2006178333A (ja) 近接音分離収音方法、近接音分離収音装置、近接音分離収音プログラム、記録媒体
JP6263890B2 (ja) 音声信号処理装置及びプログラム
CN113870884B (zh) 单麦克风噪声抑制方法和装置
KR101537653B1 (ko) 주파수 또는 시간적 상관관계를 반영한 잡음 제거 방법 및 시스템
CN111863017B (zh) 一种基于双麦克风阵列的车内定向拾音方法及相关装置
JP2005091560A (ja) 信号分離方法および信号分離装置
JP2018191255A (ja) 収音装置、その方法、及びプログラム
JP6221463B2 (ja) 音声信号処理装置及びプログラム
WO2021124537A1 (ja) 情報処理装置、算出方法、及び算出プログラム
Nagase et al. A cepstrum prefiltering approach for DOA estimation of speech signal in reverberant environments

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171006

R150 Certificate of patent or registration of utility model

Ref document number: 6225245

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150