JP6225245B2

JP6225245B2 - 信号処理装置、方法及びプログラム

Info

Publication number: JP6225245B2
Application number: JP2016505268A
Authority: JP
Inventors: 健太丹羽; 小林　和則; 和則小林
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-02-28
Filing date: 2015-02-25
Publication date: 2017-11-01
Anticipated expiration: 2035-02-25
Also published as: US9747921B2; CN106031196A; EP3113508A1; JPWO2015129760A1; EP3113508B1; CN106031196B; EP3113508A4; US20160372131A1; WO2015129760A1

Description

この発明は、数本のマイクロホンを用いて、ターゲット方向から到来する音源信号をクリアに収音する技術に関する。

まず、基本的な信号処理のフレームワークについて説明する。

M本のマイクロホンで構成されたアレイを用いることを想定する。Mは、2以上の整数である。例えば、Mを2から4程度とする。Mを100程度としてもよい。周波数ω、フレーム時間τにおける観測信号X_m(ω,τ)(m=1,2,…,M)には、コヒーレント性で非定常性のある1つのターゲット音S₀(ω,τ)と、K個の干渉雑音S_k(ω,τ)(k=1,2,…,K)と、インコヒーレントな定常性雑音N_m(ω,τ)とが含まれる。Kを所定の正の整数とする。mは各マイクロホンの番号であり、観測信号X_m(ω,τ)はマイクロホンmで収音された時間領域の信号を周波数領域に変換した信号である。

ターゲット音とは、所定のターゲットエリアから到来する音のことである。ターゲットエリアとは、収音したい音源を含むエリアのことである。収音したい音源の数及び収音したい音源のターゲットエリア内での位置は、未知であってもよい。例えば、図６に例示するように、６個のスピーカ及び３個のマイクロホンが配置されている領域が、３個のエリア（エリア１、エリア２及びエリア３）に分割されているとする。収音したい音源がエリア１に含まれている場合には、エリア１がターゲットエリアとなる。

なお、ターゲット音には、ターゲットエリア外の音源からの反射音が含まれてもよい。例えば、ターゲットエリアがエリア１である場合には、エリア２及びエリア３に含まれる音源から生じた音の中で反射によりエリア１の方向からマイクロホンに到来する音をターゲット音が含んでいてもよい。

ターゲットエリアは、マイクロホンからの所定の距離以内のエリアであってもよい。言い換えれば、有限の面積を持つエリアであってもよい。さらに、ターゲットエリアは複数あってもよい。図７は、ターゲットエリアが２個ある場合の例を示す図である。

なお、雑音を発する音源が含まれるエリアのことを、雑音エリアとも呼ぶ。図６の例において、雑音を発する音源がエリア２とエリア３のそれぞれに含まれている場合には、エリア２及びエリア３のそれぞれが雑音エリアとなる。この例では、エリア２及びエリア３のそれぞれを雑音エリアとしたが、エリア２及びエリア３を合わせたエリアを雑音エリアとしてもよい。干渉雑音を発する音源が含まれる雑音エリアのことを特に干渉雑音エリアとも呼ぶ。雑音エリアはターゲットエリアとは異なるように設定する。

m番目のマイクロホンからターゲット音S₀(ω,τ)までの伝達特性をA_m,0(ω)と記述し、m番目のマイクロホンからk番目の干渉雑音までの伝達特性をA_m,k(ω)と記述するとき、観測信号X_m(ω,τ)は以下のようにモデル化される。

マイクロホン数が少ない場合、すなわち例えばM<Kである場合、最小分散法(MVDR)に基づくビームフォーミングとポストフィルタを組み合わせたフレームワークが雑音抑圧に有効とされている（例えば、非特許文献１参照。）。図１にポストフィルタ型アレイの処理フローを示す。ターゲット音を強調するように設計されたフィルタ係数w₀(ω)=[W_0,1(ω),…,W_0,M(ω)]^Tは、以下のように計算される。

ここで、xを任意のベクトル又は行列として、xTはxの転置を意味し、xHはxの共役転置を意味する。h₀(ω)=[H_0,1(ω),…,H_0,M(ω)]^Tは、ターゲット音方向のアレイマニフォールドべクトルである。アレイマニホールドベクトルとは、音源からマイクロホンまでの伝達特性H_0,m(ω)をベクトルh₀(ω)にしたものであり、音源からマイクロホンまでの伝達特性H_0,m(ω)は、音源とマイク位置から理論的に算出できる直接音のみを想定した伝達特性や、実測した伝達特性、鏡像法や有限要素法などの計算機シミュレーションにより推定した伝達特性である。源信号が互いに無相関であると仮定すると、空間相関行列R(ω)は以下のようにモデル化できる。

ここで、h_k(ω)は、k番目の干渉雑音のアレイマニフォールドべクトルである。ビームフォーミングの出力信号Y₀(ω,τ)は以下の式により得られる。

ここで、x(ω,τ)=[X₁(ω,τ),…,X_M(ω,τ)]^Tである。Y₀(ω,τ)に含まれる雑音信号を抑圧するために、ポストフィルタG(ω,τ)を掛け合わせる。

最後に、Z(ω,τ)を逆高速フーリエ変換（IFFT）することで、出力信号を得る。

次に、非特許文献２に基づくポストフィルタ設計法について説明する。

非特許文献２では、複数のビームフォーミングを用いて推定した各エリアのパワースぺクトル密度(PSD)に基づいてポストフィルタを設計する方式が提案されている（例えば、非特許文献２参照。）。以下、この方式をLPSD法(Local PSD-based post-filter design)と呼ぶ。図２を用いて、LPSD法の処理フローを説明する。

Wiener法に基づいてポストフィルタを設計する場合、G(ω,τ)は以下のように計算される。

ここで、φ_S(ω,τ)はターゲットエリアのパワースペクトル密度を表し、φ_N(ω,τ)は雑音エリアのパワースペクトル密度を表す。ここで、あるエリアのパワースペクトル密度と言った場合には、そのエリアから到来する音のパワースペクトル密度のことを意味する。すなわち、例えば、ターゲットエリアのパワースペクトル密度とはターゲットエリアから到来する音のパワースペクトル密度のことであり、雑音エリアのパワースペクトル密度とは雑音エリアから到来する音のパワースペクトル密度のことである。X_m(ω,τ)からφ_S(ω,τ),φ_N(ω,τ)を推定するための方法は様々あるが、観測信号に干渉雑音が含まれることを想定しているので、LPSD法を用いる。

ここで、各シンボルのインデックスを省略した。すなわち、Y_u=Y_u(ω,τ)であり、D_u,k=D_u,k(ω)であり、S_u=S_u(ω,τ)である。また、Φ_Y(ω,τ)=[|Y₀(ω,τ)|²,|Y₁(ω,τ)|²,…,|Y_L(ω,τ)|²]^Tであり、Φ_S(ω,τ)=[|S₀(ω,τ)|²,|S₁(ω,τ)|²,…,|S_K(ω,τ)|²]^Tであるとする。

例えば式（７）の逆問題を解くことで、各エリアのパワースペクトル密度は算出される。

ここで、bを任意の行列として、b+はbに対する疑似逆行列演算を表す。局所ＰＳＤ推定部１１は、観測信号X_m(ω,τ)(m=1,2,…,M)を入力として、例えば式（８）により定義される局所パワースペクトル密度^Φ_S(ω,τ)を出力する。「^」は、推定されたものであることを意味する。

局所とは、エリアのことを意味する。図６の例では、エリア１、エリア２及びエリア３のそれぞれが局所である。局所ＰＳＤ推定部は、各エリアのパワースペクトル密度^Φ_S(ω,τ)を推定し出力する。

ターゲットエリア／雑音エリアＰＳＤ推定部１２は、周波数ω及びフレームτ毎に式（８）に基づいて推定された局所パワースペクトル密度^Φ_S(ω,τ)を入力として、以下の式により定義される^φ_S(ω,τ)及び^φ_N(ω,τ)を算出する。

最後に、ウィーナーゲイン計算部１３は、^φ_S(ω,τ)及び^φ_N(ω,τ)を入力として、式（６）により定義されるポストフィルタG(ω,τ)を計算し出力する。具体的には、ウィーナーゲイン計算部１３は、式（６）のφ_S(ω,τ)及びφ_N(ω,τ)としてそれぞれ^φ_S(ω,τ)及び^φ_N(ω,τ)を入力することにより、G(ω,τ)を計算し出力する。

LPSD法の主な利点は以下の２つである。(i)パワースぺクトル領域でビームフォーミングの出力と各音源の関係を定式化し、マイクロホン本数を上回る制御自由度を得ることができるので、雑音を効果的に抑圧できることと、(ii)L個のビームフォーミングフィルタw_u(ω)(u=0,1,…,L)と式（７）のD(ω)とを事前に計算すれば、(i)のメリットを低演算で実装できることである。

C. Marro et al., "Analysis of noise reduction and dereverberation techniques based on microphone arrays with postfiltering," IEEE Trans. Speech, Audio Proc., 6, 240-259, 1998. Y. Hioka et al., "Underdetermined sound source separation using power spectrum density estimated by combination of directivity gain," IEEE Trans. Audio, Speech, Language Proc., 21, 1240-1250, 2013.

LPSD法では、ターゲット音と干渉雑音とが混在することを仮定して問題を定式化してきた。しかし、実用上の問題では、コヒーレント性のある干渉雑音だけでなく、インコヒーレント性の強い定常性雑音(空調の雑音、マイクの内部雑音等)が混在することが多い。この場合、φ_S(ω,τ)及びφ_N(ω,τ)の推定誤差が大きくなり、雑音抑圧性能が低下してしまうことがあった。

この発明は、雑音抑制性能を従来よりも向上させた信号処理装置、方法及びプログラムを提供することを目的とする。

この発明の一態様による信号処理装置は、マイクロホンアレーを構成するM個のマイクロホンで収音された信号から得られた周波数領域の観測信号に基づいて、ターゲットエリア及び上記ターゲットエリアと異なる少なくとも１個の雑音エリアのそれぞれの局所パワースペクトル密度を推定する局所ＰＳＤ推定部と、ωを周波数とし、τをフレームのインデックスとして、推定された局所パワースペクトル密度に基づいて、ターゲットエリアのパワースペクトル密度^φ_S(ω,τ)及び雑音エリアのパワースペクトル密度^φ_N(ω,τ)を推定するターゲットエリア／雑音エリアＰＳＤ推定部と、ターゲットエリアのパワースペクトル密度^φ_S(ω,τ)から、ターゲットエリアから到来する音に由来する非定常成分^φ_S ^(A)(ω,τ)及びインコヒーレントな雑音に由来する定常成分^φ_S ^(B)(ω,τ)を抽出する第一成分抽出部と、雑音のパワースペクトル密度^φ_N(ω,τ)から、干渉雑音に由来する非定常成分^φ_N ^(A)(ω,τ)を抽出する第二成分抽出部と、ターゲットエリアから到来する音に由来する非定常成分^φ_S ^(A)(ω,τ)と、インコヒーレントな雑音に由来する定常成分^φ_S ^(B)(ω,τ)と、干渉雑音に由来する非定常成分^φ_N ^(A)(ω,τ)とを少なくとも用いて、ターゲットエリアから到来する音の非定常成分を強調するポストフィルタ~G(ω,τ)を計算する多様雑音対応型ゲイン計算部と、を備えている。

雑音抑制性能を従来よりも向上させることができる。

ポストフィルタ型アレイの処理フローを示す図。従来のポストフィルタ推定部のブロック図。この発明によるポストフィルタ推定装置の例のブロック図。この発明によるポストフィルタ推定方法の例のブロック図。実験結果を説明するための図。ターゲットエリア及び雑音エリアの例を説明するための図。ターゲットエリアの例を説明するための図。ゲインシェーピングの例を説明するための図。

以下に説明する信号処理装置及び方法では、LPSD法を拡張することで、様々な雑音環境に対して頑健にポストフィルタを推定する。具体的には、雑音の種類毎に分割してパワースペクトル密度を推定することで、ターゲット音のパワーとその他雑音のパワーとの比の推定誤差を小さくする。

図３に、この発明の一実施形態による信号処理装置であるポストフィルタ推定部１の例のブロック図を示す。

信号処理装置は、図３に示すように、局所ＰＳＤ推定部１１、ターゲットエリア／雑音エリアＰＳＤ推定部１２と、第一成分抽出部１４、第二成分抽出部１５と、多様雑音対応型ゲイン計算部１６と、時間周波数平均化部１７と、ゲインシェーピング部１８とを例えば備えている。

この信号処理装置により例えば実現される信号処理の各ステップを、図４に示す。

以下、信号処理装置及び方法の実施形態の詳細について説明する。なお、基本的な信号処理のフレームワーク、言葉の定義等については、背景技術の欄に記載したものと同様である。よって、これらの重複説明を省略する。

＜局所ＰＳＤ推定部１１＞
局所ＰＳＤ推定部１１は、従来の局所ＰＳＤ推定部１１と同様である。

すなわち、局所ＰＳＤ推定部１１は、マイクロホンアレーを構成するM個のマイクロホンで収音された信号から得られた周波数領域の観測信号X_m(ω,τ)(m=1,2,…,M)に基づいて、ターゲットエリア及び雑音エリアのそれぞれの局所パワースペクトル密度^Φ_S(ω,τ)を推定する（ステップＳ１）。ωは周波数であり、τはフレームのインデックスである。Mは、2以上の整数である。例えば、Mを2から4程度とする。Mを100程度としてもよい。

推定された局所パワースペクトル密度^Φ_S(ω,τ)は、ターゲットエリア／雑音エリアＰＳＤ推定部１２に出力される。

局所パワースペクトル密度の推定の具体的な処理の例については、背景技術の欄に記載したものと同様であるため、ここでは説明を省略する。

なお、ビームフォーミングフィルタw_u(ω)及び感度|D_u,k(ω)|²は、局所ＰＳＤ推定部１１の処理に先立ち予め設定されているものとする。また、ターゲットエリアの方向がある程度変化する場合には、局所ＰＳＤ推定部１１は、複数のフィルタセットを用意しておき、最大のパワーをとるようなフィルタを選択してもよい。

なお、局所ＰＳＤ推定部１１は、ビームフォーミングにより得られたY_u(ω,τ)(u=0,1,…,L)ではなく、各エリアの方向に指向性を有する各１個のマイクロホンで収音されたY_u(ω,τ)(u=0,1,…,L)に基づいて局所パワースペクトル密度^Φ_S(ω,τ)を推定してもよい。

＜ターゲットエリア／雑音エリアＰＳＤ推定部１２＞
ターゲットエリア／雑音エリアＰＳＤ推定部１２は、従来のターゲットエリア／雑音エリアＰＳＤ推定部１２と同様である。

すなわち、ターゲットエリア／雑音エリアＰＳＤ推定部１２は、推定された局所パワースペクトル密度に基づいて、ターゲットエリアのパワースペクトル密度^φ_S(ω,τ)及び雑音エリアのパワースペクトル密度^φ_N(ω,τ)を推定する（ステップＳ２）。

推定されたターゲットエリアのパワースペクトル密度^φ_S(ω,τ)は、第一成分抽出部１４に出力される。推定された雑音エリアのパワースペクトル密度^φ_N(ω,τ)は、第二成分抽出部１５に出力される。

ターゲットエリアのパワースペクトル密度^φ_S(ω,τ)及び雑音エリアのパワースペクトル密度^φ_N(ω,τ)の推定の具体的な処理の例については、背景技術の欄に記載したものと同様であるため、ここでは説明を省略する。

＜第一成分抽出部１４＞
例えば式（９）により定義される^φ_S(ω,τ)には、ターゲットエリアから到来する音に由来する非定常成分^φ_S ^(A)(ω,τ)及びインコヒーレントな雑音に由来する定常成分^φ_S ^(B)(ω,τ)が含まれる。ここで、定常成分とは時間的に変化の少ない成分のことであり、非定常成分とは時間的に変化の多い成分のことである。

ここで、雑音には、干渉雑音とインコヒーレントな雑音との２種類の雑音がある。干渉雑音とは、雑音エリアに配置された雑音音源から発せられた雑音のことである。インコヒーレントな雑音とは、ターゲットエリア及び雑音エリアから発せられたものではなく、これらのエリア以外の場所から発せられ、定常的に存在している雑音のことである。

そこで、第一成分抽出部１４は、ターゲットエリアのパワースペクトル密度^φ_S(ω,τ)から、ターゲットエリアから到来する音に由来する非定常成分^φ_S ^(A)(ω,τ)及びインコヒーレントな雑音に由来する定常成分^φ_S ^(B)(ω,τ)を平滑化処理により抽出する（ステップＳ３）。例えば、平滑化処理は、式（１１）及び式（１２）のような指数移動平均処理、時間平均処理又は重み付き平均処理により実現される。

抽出されたターゲットエリアから到来する音に由来する非定常成分^φ_S ^(A)(ω,τ)及びインコヒーレントな雑音に由来する定常成分^φ_S ^(B)(ω,τ)は、多様雑音対応型ゲイン計算部１６に出力される。

例えば、第一成分抽出部１４は、式（１１）及び式（１２）のように指数移動平均処理をすることで、^φ_S(ω,τ)から^φ_S ^(B)(ω,τ)を計算する。

ここで、α_Sは平滑化係数であり、所定の正の実数である。例えば、０＜α_S＜１とする。また、α_S=フレームの時間長／時定数として、時定数が150ms程度となるようにα_Sを設定してもよい。Υ_Sは、特定区間のフレームのインデックスの集合である。例えば、特定区間が３から４秒程度となるように設定される。minは、最小値を出力する関数である。

このように、^φ_S ^(B)(ω,τ)は、^φ_S(ω,τ)を例えば式（１１）及び式（１２）により平滑化した成分である。より具体的には、^φ_S ^(B)(ω,τ)は、^φ_S(ω,τ)を例えば式（１１）により平滑化した値の所定の時間区間における最小値である。

そして、第一成分抽出部１４は、式（１３）のように、^φ_S(ω,τ)から^φ_S ^(B)(ω,τ)を減算することで^φ_S ^(A)(ω,τ)を計算する。

ここで、β_S（ω）は重み係数であり、所定の正の実数である。β_S（ω）は、例えば１から３程度の実数に設定される。

このように、φ_S ^(A)(ω,τ)は、^φ_S(ω,τ)から^φ_S ^(B)(ω,τ)を除いた成分である。

なお、^φ_S ^(A)(ω,τ)は、^φ_S ^(A)(ω,τ)≧０という条件を満たすようにフロアリング処理されてもよい。このフロアリング処理は、例えば第一成分抽出部１４により行われる。

＜第二成分抽出部１５＞
例えば式（１０）により定義される^φ_N(ω,τ)には、干渉雑音に由来する非定常成分^φ_N ^(A)(ω,τ)及びインコヒーレントな雑音に由来する定常成分^φ_N ^(B)(ω,τ)が含まれる。

そこで、第二成分抽出部１５は、雑音エリアのパワースペクトル密度^φ_N(ω,τ)から、干渉雑音に由来する非定常成分^φ_N ^(A)(ω,τ)及びインコヒーレントな雑音に由来する定常成分^φ_N ^(B)(ω,τ)を平滑化処理により抽出する（ステップＳ４）。例えば、平滑化処理は、式（１４）及び式（１５）のような指数移動平均処理、時間平均処理又は重み付き平均処理により実現される。

抽出された干渉雑音に由来する非定常成分^φ_N ^(A)(ω,τ)及びインコヒーレントな雑音に由来する定常成分^φ_N ^(B)(ω,τ)は、多様雑音対応型ゲイン計算部１６に出力される。

例えば、第二成分抽出部１５は、式（１４）及び式（１５）のように指数移動平均処理をすることで、^φ_N(ω,τ)から^φ_N ^(B)(ω,τ)を計算する。

ここで、α_Nは平滑化係数であり、所定の正の実数である。例えば、０＜α_N＜１とする。また、α_N=フレームの時間長／時定数として、時定数が150ms程度となるようにα_Nを設定してもよい。Υ_Nは、特定区間のフレームのインデックスの集合である。例えば、特定区間が３から４秒程度となるように設定される。

このように、^φ_N ^(B)(ω,τ)は、^φ_N(ω,τ)を例えば式（１４）及び式（１５）により平滑化した成分である。より具体的には、^φ_N ^(B)(ω,τ)は、^φ_N(ω,τ)を例えば式（１４）により平滑化した値の所定の時間区間における最小値である。

そして、第二成分抽出部１５は、式（１６）のように、^φ_N(ω,τ)から^φ_N ^(B)(ω,τ)を減算することで^φ_N ^(A)(ω,τ)を計算する。

ここで、β_N（ω）は重み係数であり、所定の正の実数である。β_N（ω）は、例えば１から３程度の実数に設定される。

このように、φ_N ^(A)(ω,τ)は、^φ_N(ω,τ)から^φ_N ^(B)(ω,τ)を除いた成分である。

なお、^φ_N ^(A)(ω,τ)は、^φ_N ^(A)(ω,τ)≧０という条件を満たすようにフロアリング処理されてもよい。このフロアリング処理は、例えば第二成分抽出部１５により行われる。

α_Nは、α_Sと同じであっても異なっていてもよい。Υ_Nは、Υ_Sと同じであっても異なっていてもよい。β_N（ω）は、β_S（ω）と同じであっても異なっていてもよい。

なお、多様雑音対応型ゲイン計算部１６において^φ_N ^(B)(ω,τ)が用いられない場合には、第二成分抽出部１５は^φ_N ^(B)(ω,τ)を求めなくてもよい。言い換えれば、この場合、第二成分抽出部１５は、^φ_N ^(A)(ω,τ)のみを^φ_N(ω,τ)から求めてもよい。

＜多様雑音対応型ゲイン計算部１６＞
多様雑音対応型計算部１６は、ターゲットエリアから到来する音に由来する非定常成分^φ_S ^(A)(ω,τ)と、インコヒーレントな雑音に由来する定常成分^φ_S ^(B)(ω,τ)と、干渉雑音に由来する非定常成分^φ_N ^(A)(ω,τ)とを少なくとも用いて、ターゲットエリアから到来する音の非定常成分を強調するポストフィルタ~G(ω,τ)を計算する（ステップＳ５）。

計算されたポストフィルタ~G(ω,τ)は、時間周波数平均化部１７に出力される。

雑音の種類ごとに（言い換えれば、インコヒーレントな雑音、コヒーレントな雑音という雑音の種類ごと）パワースペクトル密度を推定したので、多様雑音対応型ゲイン計算部１６は、例えば、以下の式（１７）により定義されるポストフィルタ~G(ω,τ)を計算する。

^φ_S ^(B)(ω,τ)の値の振る舞いと^φ_N ^(B)(ω,τ)の値の振る舞いとに違いがあり、インコヒーレント性の仮定が崩れている場合には、多様雑音対応型ゲイン計算部１６は以下の式（１８）により定義されるポストフィルタ~G(ω,τ)を計算してもよい。

＜時間周波数平均化部１７＞
時間周波数平均化部１７は、ポストフィルタ~G(ω,τ)について時間方向と周波数方向との少なくとも一方の方向への平滑化処理を行う（ステップＳ６）。

平滑化処理されたポストフィルタ~G(ω,τ)は、ゲインシェーピング部１８に出力される。

時間方向に平滑化を行う場合には、τ₀及びτ₁を０以上の整数として、時間周波数平均化部１７は、例えば、ポストフィルタ~G(ω,τ)の時間方向に近傍のポストフィルタである~G(ω,τ-τ₀),…~G(ω,τ+τ₁)について加算平均をすればよい。時間周波数平均化部１７は、~G(ω,τ-τ₀),…~G(ω,τ+τ₁)について重み付き加算をしてもよい。

また、周波数方向に平滑化を行う場合には、ω₀及びω₁を０以上の実数として、時間周波数平均化部１７は、例えば、ポストフィルタ~G(ω,τ)の周波数方向に近傍のポストフィルタである~G(ω-ω₀,τ),…~G(ω+ω₁,τ)について加算平均をすればよい。時間周波数平均化部１７は、~G(ω-ω₀,τ),…~G(ω+ω₁,τ)について重み付き加算をしてもよい。

＜ゲインシェーピング部１８＞
ゲインシェーピング部１８は、平滑化処理が行われたポストフィルタ~G(ω,τ)についてゲインシェーピングを行うことにより、ポストフィルタG(ω,τ)を生成する（ステップＳ７）。ゲインシェーピング部１８は、例えば、以下の式（１９）により定義されるポストフィルタG(ω,τ)を生成する。

ここで、γは重み係数であり、正の実数である。例えば、γを1から1.3程度に設定すればよい。

ゲインシェーピング部１８は、A≦G(ω,τ)≦1を満たすように、ポストフィルタG(ω,τ)についてフロアリング処理をしてもよい。Aは0から0.3の実数であり、通常0.1程度とする。G(ω,τ)が１より大きいと強調し過ぎになる可能性があり、また、G(ω,τ)が小さ過ぎるとミュージカルノイズの発生する可能性がある。適切なフロアリング処理を行うことにより、この強調及びミュージカルノイズの発生を防止することができる。

定義域及び値域が実数である関数fを考える。関数fは例えば非減少関数とする。ゲインシェーピングは、ゲインシェーピング前の~G(ω,τ)を関数fに入力したときの出力値を求める操作を意味する。言い換えれば、関数fに~G(ω,τ)を入力したときの出力値がG(ω,τ)である。関数fの例が、式（１９）である。式（１９）による関数fは、f(x)=γ(x-0.5)+0.5である。

他の関数fの他の例を図８を用いて説明する。図８では、インデックスを省略している。すなわち、図８のGはG(ω,τ)を意味し、~Gは~G(ω,τ)を意味する。まず、この例では、図８（Ａ）から図８（Ｂ）に示すように、関数fのグラフの傾きを変えている。そして、図８（Ｂ）から図８（Ｃ）に示すように、0≦G(ω,τ)≦1を満たすように、フロアリング処理をしている。この図８（Ｃ）の太線により示されるグラフで特定される関数が関数fの他の例である。

関数fのグラフは、図８（Ｃ）に示すものに限られない。例えば、図８（Ｃ）では、関数fのグラフは直線で構成されているが、関数fのグラフは曲線で構成されていてもよい。例えば、関数fは、ハイパボリックタンジェント関数に対してフロアリング処理を施したものであってもよい。

この信号処理装置及び方法によれば、多様な性質を持つ雑音が存在する環境に対して頑健に、雑音抑圧するためのポストフィルタを設計することができる。また、リアルタイム性のある処理で、このようなポストフィルタを設計することができる。

[実装例と実験結果]
LPSD法を従来方式として、提案方式の効果を検証するための実験を行なった。図５のように、残響時間110ms(1.0kHz)の室に音源やアレイを配置した。ターゲット音(男女発話)、K=3個の干渉雑音(#1:男女発話、#2,3:音楽)、室の四隅のスピーカから白色雑音を放射して再現した背景雑音がある中で、M=4本の無指向性マイクロホンを用いて収録した。観測時のSN比は、平均-1dBであった。また、サンプリング周波数を16.0kHzとし、FFT解析長を512ptとし、FFTシフト長を256ptとした。

この条件の下で、以下の式により定義されるスぺクトル歪(SD)により、雑音抑圧性能を評価した。

ここで、Ψと|Ψ|は、それぞれフレームのインデックス集合とその総数を表す。Ωと|Ω|は、それぞれ周波数ビンのインデックスとその総数を表す。SDは値が小さいほど雑音抑圧性能が高い。男女発話650文に対してSDを算出し、従来方式で14.0、提案方式で11.5となり、SDが低減した。特に、発話区間外の背景雑音に対する抑圧効果が高まった。

［変形例等］
時間周波数平均化部１７及びゲインシェーピング部１８の処理は、いわゆるミュージカルノイズを抑えるために行われる。時間周波数平均化部１７及びゲインシェーピング部１８の処理は、行われなくてもよい。

指数移動平均処理による^φ_S ^(B)(ω,τ)及び^φ_S ^(A)(ω,τ)の計算は、第一成分抽出部１４の処理の一例である。第一成分抽出部１４は、他の処理により、^φ_S ^(B)(ω,τ)及び^φ_S ^(A)(ω,τ)を抽出してもよい。

同様に、指数移動平均処理による^φ_N ^(B)(ω,τ)及び^φ_N ^(A)(ω,τ)の計算は、第二成分抽出部１５の処理の一例である。第二成分抽出部１５は、他の処理により、^φ_N ^(B)(ω,τ)及び^φ_N ^(A)(ω,τ)を抽出してもよい。

上記信号処理装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

また、信号処理装置における各部をコンピュータによって実現する場合、信号処理装置の各部が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各部がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

スマートフォンのコマンド入力として、音声認識が一般的に利用されるようになってきた。車内や工場内といった雑音下では、ハンズフリーで機器を操作したり、遠隔地と通話するといった需要が高いと考えられる。

この発明は、例えばこのような場合に利用することができる。

Claims

マイクロホンアレーを構成するM個のマイクロホンで収音された信号から得られた周波数領域の観測信号に基づいて、所定のターゲットエリア及び上記ターゲットエリアと異なる少なくとも１個の雑音エリアのそれぞれの局所パワースペクトル密度を推定する局所ＰＳＤ推定部と、
ωを周波数とし、τをフレームのインデックスとして、上記推定された局所パワースペクトル密度に基づいて、ターゲットエリアのパワースペクトル密度^φ_S(ω,τ)及び雑音エリアのパワースペクトル密度^φ_N(ω,τ)を推定するターゲットエリア／雑音エリアＰＳＤ推定部と、
上記ターゲットエリアのパワースペクトル密度^φ_S(ω,τ)から、ターゲットエリアから到来する音に由来する非定常成分^φ_S ^(A)(ω,τ)及びインコヒーレントな雑音に由来する定常成分^φ_S ^(B)(ω,τ)を抽出する第一成分抽出部と、
上記雑音エリアのパワースペクトル密度^φ_N(ω,τ)から、干渉雑音に由来する非定常成分^φ_N ^(A)(ω,τ)を抽出する第二成分抽出部と、
上記ターゲットエリアから到来する音に由来する非定常成分^φ_S ^(A)(ω,τ)と、上記インコヒーレントな雑音に由来する定常成分^φ_S ^(B)(ω,τ)と、上記干渉雑音に由来する非定常成分^φ_N ^(A)(ω,τ)とを少なくとも用いて、上記ターゲットエリアから到来する音の非定常成分を強調するポストフィルタ~G(ω,τ)を計算する多様雑音対応型ゲイン計算部と、
を含む信号処理装置。
請求項１の信号処理装置であって、
上記インコヒーレントな雑音に由来する定常成分^φ_S ^(B)(ω,τ)は、上記ターゲットエリアのパワースペクトル密度^φ_S(ω,τ)を平滑化した成分であり、
上記ターゲットエリアから到来する音に由来する非定常成分^φ_S ^(A)(ω,τ)は、上記ターゲットエリアのパワースペクトル密度^φ_S(ω,τ)から上記インコヒーレントな雑音に由来する定常成分^φ_S ^(B)(ω,τ)を除いた成分であり、
上記干渉雑音に由来する非定常成分^φ_N ^(A)(ω,τ)は、上記雑音エリアのパワースペクトル密度^φ_N(ω,τ)から上記雑音エリアのパワースペクトル密度^φ_N(ω,τ)を平滑化した成分を除いた成分である、
信号処理装置。
請求項１の信号処理装置であって、
上記第二成分抽出部は、上記雑音エリアのパワースペクトル密度^φ_N(ω,τ)から、干渉雑音に由来する非定常成分^φ_N ^(A)(ω,τ)を更に抽出し、
上記第一成分抽出部は、α_Sを所定の実数とし、Υ_Sを特定区間のフレームのインデックスの集合とし、β_S（ω）を所定の実数とし、以下の式により定義される^φ_S ^(A)(ω,τ)及び^φ_S ^(B)(ω,τ)を計算し、計算された^φ_S ^(A)(ω,τ)を上記ターゲットエリアから到来する音に由来する非定常成分^φ_S ^(A)(ω,τ)とし、計算された^φ_S ^(B)(ω,τ)を上記インコヒーレントな雑音に由来する定常成分^φ_S ^(B)(ω,τ)とし、

上記第二成分抽出部は、α_Nを所定の実数とし、Υ_Nを特定区間のフレームのインデックスの集合とし、β_N（ω）を所定の実数とし、以下の式により定義される^φ_N ^(A)(ω,τ)及び^φ_N ^(B)(ω,τ)を計算し、計算された^φ_N ^(A)(ω,τ)を上記干渉雑音に由来する非定常成分^φ_N ^(A)(ω,τ)とし、^φ_N ^(B)(ω,τ)を上記インコヒーレントな雑音に由来する定常成分^φ_N ^(B)(ω,τ)とし、

上記多様雑音対応型ゲイン計算部は、上記インコヒーレントな雑音に由来する定常成分^φ_N ^(B)(ω,τ)を更に用いて、上記ターゲットエリアから到来する音の非定常成分を強調するポストフィルタ~G(ω,τ)を計算する、
信号処理装置。
請求項１から３の何れかの信号処理装置であって、
上記ポストフィルタ~G(ω,τ)について時間方向と周波数方向との少なくとも一方の方向への平滑化処理を行う時間周波数平均化部と、
上記平滑化処理が行われたポストフィルタ~G(ω,τ)についてゲインシェーピングを行うゲインシェーピング部と、
を更に含む信号処理装置。
マイクロホンアレーを構成するM個のマイクロホンで収音された信号から得られた周波数領域の観測信号に基づいて、ターゲットエリア及び上記ターゲットエリアと異なる少なくとも１個の雑音エリアのそれぞれの局所パワースペクトル密度を推定する局所ＰＳＤ推定ステップと、
ωを周波数とし、τをフレームのインデックスとして、上記推定された局所パワースペクトル密度に基づいて、ターゲットエリアのパワースペクトル密度^φ_S(ω,τ)及び雑音エリアのパワースペクトル密度^φ_N(ω,τ)を推定するターゲットエリア／雑音エリアＰＳＤ推定ステップと、
上記ターゲットエリアのパワースペクトル密度^φ_S(ω,τ)から、ターゲットエリアから到来する音に由来する非定常成分^φ_S ^(A)(ω,τ)及びインコヒーレントな雑音に由来する定常成分^φ_S ^(B)(ω,τ)を抽出する第一成分抽出ステップと、
上記雑音エリアのパワースペクトル密度^φ_N(ω,τ)から、干渉雑音に由来する非定常成分^φ_N ^(A)(ω,τ)を抽出する第二成分抽出ステップと、
上記ターゲットエリアから到来する音に由来する非定常成分^φ_S ^(A)(ω,τ)と、上記インコヒーレントな雑音に由来する定常成分^φ_S ^(B)(ω,τ)と、上記干渉雑音に由来する非定常成分^φ_N ^(A)(ω,τ)とを少なくとも用いて、上記ターゲットエリアから到来する音の非定常成分を強調するポストフィルタ~G(ω,τ)を計算する多様雑音対応型ゲイン計算ステップと、
を含む信号処理方法。
請求項１から４の何れかの信号処理装置の各部としてコンピュータを機能させるためのプログラム。